1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến

58 4 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận văn Tìm hiểu Mô hình Học máy Giải quyết bài toán Dự đoán dự báo ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
Tác giả Vũ Văn Vỹ
Người hướng dẫn PGS.TS Nguyễn Hà Nam
Trường học Trường Đại Học Công Nghệ - Đại học Quốc Gia Hà Nội
Chuyên ngành Công nghệ Thông tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2015
Thành phố Hà Nội
Định dạng
Số trang 58
Dung lượng 1,79 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đề theo đối hành vi, các điêu khiển cảm biến khác nhau đang được sử dụng hoặc được triển khai bên trong xe, bên lẻ đường hoặc sẵn cỏ trong điện thoại thông mình Với các lý do trên, ph

Trang 1

GIAO THÔNG SỬ DỤNG DỮ LIỆU CẢM BIẾN

LUẬN VĂN THẠC Si CONG NGHE THONG TIN

dla NGi 2015

Trang 2

GIAO THONG SU DUNG DU LIEU CAM BIEN

Ngành Công nghệ thông tin

Chuyên ngành 1Iệ thông thông tin

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HOC: PGS.TS NGUYEN HÀ NAM

THả Nội — 2015

Trang 3

LỜI CAM ĐOAN

Tơi com dòn đây là cơng trình nghiên cứu của riêng tơi, với sự hỗ tro Lit

người hướng dẫn khoa học PGS.TS Nguyễn Hà Nam

Các số liệu, kết quả nêu trong luận văn là trưng thực và chưa từng được ai

cơng bồ trong bắt kỳ cơng trinh nào khác Việc sử đụng những đữ liệu cĩ trong luận

văn được thụ thập lừ các nguồn thơng lin khác nhau cĩ phi trong phân tải liệu tham

Trang 4

LỜI CẢM ƠN

Tôi muốn bảy tổ lòng, biết ơn sâu sắc tới những người đã giúp dỡ tôi trong

quả trình làm luận văn, đặc biệt tôi xin cảm ơn PGS.TS Nguyễn Hà Nam, với lòng

kiên trì, thấy đã chỉ bão tôi chỉ tiết và cho tôi những định hướng qui báu trong quá

trình từng bước làm luận văn Đông thời lôi cũng xin gửi lời cảm ơn lới các thấy cô

giáo khoa Công nghệ thông tín — Trường Đại học Công nghệ - Bai hoc Q

Tôi đã truyền đạt các kiến thức cho tôi trong suốt thời gian học tập và nghiên cứu

gia Hà

vita qua

Tôi cũng xin chân [hành câm ơn cơ quan, bạn bẻ, đồng nghiệp, gia đình và những người thân đã cùng chủn sẻ, giúp đỡ, động viên, lao mọi điều kiện thuận lợi

để tôi hoàn thành nhiệm vụ học tập và uốn luận văm này

Ha N@i, thang 1] nam 2015

Trang 5

MỤC LỤC

MUC LUC

DANH MỤC HÌNH VẼ

DANH MỤC BANG BIEU

DANH MUC CHU VIET TAT

PHAN MO DA!

CHƯƠNG 1 - TONG QUAN VE LĨNH VỰC NGHIÊN CỨU PHÁT HIỆN

HÀNH VI THAM GIA GIAO THÔNG

1.1 Hanh vi tham gia giao thông và phát hiện hành ví tham gia giao thông

1.2 Các nghiên cứu liên quan

1.3 Một số thách thức trong nghiên cứu

1.4 Đề xuất nhương phán tiếp cậi

CHƯƠNG 2 - KHÁI QUÁT VẺ KHAI PHẢ DỮ LIỆU V¿

SỞ KỸ THUẬT AP DUNG TRONG DE TAL

2.1 Giới thiệu về khai phá đữ figu (Data Mining)

2.2 Phan lip

2.3 Giới thiệu về WEKA

CHƯƠNG 3 - PHƯƠNG PHÁP PHÁT HIỆN HÀNH VI THÂM GIA GIAO

THONG ĐỰA TRÊN DỮ 1LIỆU CẢM BIẾN ĐIỆN THOẠI DI ĐỘN!

4.2 Xây dựng bộ dữ liệu huấn luyện

4.4 Thực nghiệm phát biện hành vi tham gia giao thông thị

Trang 6

Quá trình khám phá trì thức : (a) Bước xây dựng mơ hình phân lớp : (bi DƯớc lượng dộ chính xác của mỏ hìn|

: (b2) Phân lớp dữ liệu m Phương pháp nhân lớp Random Roresl

.4: Cảm biến trọng lực

.5: Dữứ liệu gìa lốc trục X qua bộ lục thơng ¢

: Dữ liệu gia tốc đã qua lọc nhiễu(trên) và chưa qua

Sự khắc nhau giữa cảm hiễn gia i

TIệ trục tọa độ điện thoại và Iệ trục tọa độ Trái Di Các trạng thái xoay điện thoại

Tình 4.4: Mẫu dữ liệu của bành vi Tăng tốc

Tlinh 4.5: Mé tả quá trình tĩnh tốn 6 thơng số đặc trưng

.Hình 4.6: Các tham số huấn luyện mơ bình k-INN

Các tham số huấn luyện mơ hình Nạve Boye:

Hình 4.8: Các tham số huẩn luyện mơ hình Ranđom forest

Tình 4.9: Giao diện chương trình phát hiện hành vỉ thời gian thực

Trang 7

DANII MUC BANG BIEU

Bang 2.1: Ma tran thống kế

Các loại cảm biển trên các phiên bản hệ hành Android

Bang 3.2: Các thông số gia tốc kế

Bảng 4.4: Kết quả thực nghiệm phát hiện hành vi bằng k-N^

Bang 4.5 : Kết quả thực nghiệm phát hiện hành vi bang Naive Bayes

Bang 4.6: Kết quả huần luyện phát hiện hành vi bang Random fore:

v

Trang 8

DANH MỤC CHIỮ VIẾT TAT

Trang 9

PHẢN MỞ ĐẦU

Trong thập kỹ gân đây, sự phát triển vượt bậc của Khoa học công nghệ đã đem

lai cho con người những tiện ích thiết thực thông qua các đuết bì đi động Thiết bị di

động giờ đây đã trỏ thành công cụ hỗ trợ đắc lực cho cơn người trong mọi hoạt động, trong cuộc sống ngày nay Củng với những ứng dụng hỗ trợ công việc hảng ngày thi

các ứng dụng mang tính tiên đoán, nhắc nhỏ, điều hướng người đừng ngày cảng trở

nén phd n

Bên cạnh đó việc tham gia giao théng của con người là một hoạt động tật yếu hàng ngày Việc tham gia giao thông luôn tiêm 4n nhiều rủi ro do các tác nhân có ý

thức hoặc vô thức của con người Việc có một ứng đựng có thế nhắc nhở, điền hướng,

người tham gia giao thông sao cho an toàn trở thánh nhu câu thiết thực, cần cỏ trong một xã hội các thiết bị đi động đã trở nên phô dụng với mỗi người

Nội dụng của luận văn tập trung nghiêu cứu về mắt thuật Loáu, kết hợp giữa lý thuyết và áp dụng thực tiến để đánh giá các phương pháp nhận điện hành ví của người tham gia giao thông bằng xe gắn máy, từ đó chọn ra phương pháp tối ưu nhất gắn liên với thực tế của người sử đụng điện thoại thông mỉnh Dề tải có tính ứng dung cao trong cuộc sống, làm tiền để cho sự phát triển, nghiên cứu sâu về các hành vị của con

người khi tham gia giao thông ở nhiều khía cạnh khác nhau Từ dó, nghiên cửu luận văn hướng tới các mục tiêu sau:

- Phat hién được một sổ hành vi giao thông cơ bản của người tham gia giao

thông, bằng xe gắn may Dimg, Dang di chuyên, Tăng tốc, giám tốc và đưa ra

cảnh bảo

- _ 8o sánh một số kỹ thuật học máy nhằm đưa ra kỹ thuật tối ưu nhất

Cấu trúc luận văn như sau:

Chương 1: Téng quan về lĩnh vực nghiên cứu phát hiện hành vi tham gia giao

thêng đụa trên những điều kiện khác nhau, các phương pháp nghiên cứu trước đó và

48 xuất phương pháp tiếp cận vẫn đề tối ưu nhất trong thục tiến

Chương 2: Khái quát về khai phá đữ liệu và giới thiêu một số kỹ thuật áp dụng,

Trang 10

CHƯƠNG 1 - TONG QUAN VE LINH VUC NGHIEN CUU PHAT HIEN

HANH VI THAM GIA GIAO THONG

Trong chương nảy trình bảy vẻ mục đích của phát hiện hành vị tham gia giao thông, các nghiên cứu trước đây vẻ cách tiếp cận giải quyết bài toán phát hiện hành vì

tham gia giao thông

1.1 Hanh vi tham gia giao thông và phát hiện hanh vi tham gia giao thông

Trong suốt thập kỷ vừa qua đã có sự phát triên vượt bậc của hệ thống vi điện tử

vả máy tính, các cảm biến và các thiết bị di động với các tính năng hiện đại Chúng có khả năng tính toán cao, kích thước nhỏ và chỉ phí thấp, cho phép con người tương tác

với các thiết bị như một phản của cuộc sông hang ngày Hình 1.1 cho thấy một kết quả

đáng kinh ngạc, dân số thế giới ước tỉnh khoảng 7 tỷ người, thì hơn 5 tỷ người sử

dụng điện thoại đi động Số lượng người dùng điện thoại thông minh cũng rất cao so

với số lượng người dùng điện thoại di động (1.5 tỷ người sử dụng điên thoại thông

Hình 1.1: Xu hướng dùng điện thoại di động

Sự bùng nỗ của người sử dụng điện thoại thông minh trong những năm gần day

đã dân đến sự bủng nỗ của các ứng dụng cho điện thoại thông minh Hinh 1.2 cho thay

số lượng đảng kinh ngạc của các thiết bị đi động thông mình tăng nhanh qua các năm

Vi vậy, việc phát triển ứng dụng trên điện thoại di đông là xu hướng nỏng hiện nay và

có khả năng áp dụng cao vào đời sống

Trang 11

Worldwide Smart Connected Device Shipments,

2010-2016 (Unit Millions)

WE vevis tapes @ rcs IB smanphones

2.000 1.200

AMNGmAun — 200ladu6 «EVD foreana!’ Z003lmemal' 2V€hseaal 20i6lmemat 018 fenemal™

Hình 1.2: Sự bùng nỗ của smartphone và máy tỉnh bằng trong những năm gẫn đây

“Trong cuộc sông ngày nay, mọi người đều vôi vàng đề đi đến đích của họ cảng

nhanh càng tốt Vì vậy, các hành v¡ có ý hoặc vô ý khi tham gia giao thông như tăng

tốc đột ngột, giảm tốc đột ngột hay phanh đột ngột có thẻ dân dắt họ đền tai nạn hoặc thâm chí mắt cả cuộc đời của họ Vả nêu có một hệ thông theo dõi hành vi người của

người tham gia giao thông thì sẽ là tương đổi an toàn hơn khi hảnh vi đó được ghí

chép, phản hỏi đến người điều khiến, góp phản dang ké han chế những tai nan giao

thông Đề theo đối hành vi, các điêu khiển cảm biến khác nhau đang được sử dụng

hoặc được triển khai bên trong xe, bên lẻ đường hoặc sẵn cỏ trong điện thoại thông

mình

Với các lý do trên, phát hiện hảnh vi tham gia giao thông, đặc biệt là hệ thông phát hiện hành vi tham gia giao thông dựa trên điện thoại di động là một lĩnh vực

nghiên cứu rất hập đần và thích hợp với thời điểm hiện tại

1.2 Các nghiên cứu liên quan

Đã cỏ nhiều nghiên cửu trước day sit dung cam bien điện thoại đẻ phân tích

phát hiện hành vi tham gia giao thông

Trong [1] P Singh et al phát triển một ửng dụng trên android, ứng dụng nảy

thu thập dữ liệu từ các cảm biên gia tốc, GPS và cũng ghi lại âm thanh với sự giúp đỡ

của mierophone, vả sau đó dữ liêu được kết hợp và phân tich đẻ phát hiện các hành vi lái xe không an toàn Các mâu khác nhau như phanh gấp, chuyên lan đường, rẽ trái /

phải, giảm tốc đột ngột, tăng tốc đột ngột được phản tich vả xác nhận bằng cách sử

dụng "Ground Truth * Sự tương quan của dữ liệu âm thanh và gia tốc được thực hiện

3

Trang 12

để tìm mô hình mới Ví dụ: nêa một thay doi lan dường không di kém voi 4m thanh

chỉ báo, thì điều này có nghĩa là hank vi lai xe không an Loàn Các

minh Android để ghi lại và phân tích hành vị lái xe khác nhau và điều kiện dường xá bên ngoài có khả năng có thể nguy hại đến sức khỏe cũa người lái xe Họ dã sử dụng

trục x và trục y của đữ liệu gia tốc để làm thước đo kiếm seát trực tiếp người lái xe khi

ho diéu khiến, tăng tắc, và phanh Tầng tốc an toàn hoặc giâm tốc độ thi G-Force không bao giờ vượt nguông | 0,3 g, va ting tóc đột ngột hoặc giảm tốc độ đột ngội có lực g-force đạt = 0,5 g Với sự so sảnh này, nó rất dễ dàng đề định lượng sự khác biệt giữa khả năng tăng tốc hoặc giám tốc an toàn và đội ngột Rế phải / trải an toàn có mét

g-foree trung bình ít hơn = 0,1 g và không an toàn hoặc dột ngột rẽ phải ¿ trải có một

g-foree hon + 0,5 ạ Người ta quan sát thấy răng thời gian trung bình đẻ hoàn thành một sự thay dỗi làm dường an toàn là dài bơn một sự thay đổi làn đường đột ngột 75% Địa điểm đặt điện thoại trong xe là ở bâng điều khiển trưng tâm, đã đưa ra các đứ liệu tương đổi tốt Hạn chế của công trình này là kết quả tốt nhất của dự đoán hành vi lái xe

đã được tìm thấy khi điện thoại được đặt cổ định trên bảng điều khiến trung tâm

'Trong thục tế vị trí điện thoại không luôn được đặt cổ định ở báng điều khiển trưng tâm, nó có thể ở bắt cứ nơi nào trong xe, do đó nên có cơ chế cho việc định hướng lại

các gia tỏe theo một chuẩn

Trong [3] Chigurupa el al phát triển mL img dung android trong do

liệu từ các cảm biển gia tốc, cảm biến GPS và quay video được thực hiện với sự giúp

đỡ của máy ảnh để đánh giá việc lái xe Các thông tin phản hồi có thể được sử đụng để

dung dit

nhận biét ngudi lai xe va cai thién hiệu suất Phạm vi của các tăng tốc hoặc giấm tóc các giá trị dược dưa ra cho việc lải xe an toàn Bat cứ khi nào các giả trị gia tốc vượt qua giới hạn an toàn nó sẽ dược cơi như là một sự kiện Trục X hướng phía trước và

-8 Giới bạn của công trình náy là toàn bộ hệ thẳng không phải lả hoàn toàn tự động,

áo đó, là sự cần thiết của quản trị viên để phân tích các đoạn video

Trong [4] Johnson el al dé xual mét phương pháp dé dụ đoán phong cách lái

xe Họ phân loại phong cách lái xe [eo mức bình thường, hung hằng và rất hung hằng,

Ho thu thập đữ liệu từ các cảm biển khác nhau (gia tắc, con quay hồi chuyến, từ kế,

GPS, video) và đữ liệu liên quan đến hợp nhất thành mệt bộ phân loại đuy nhất đựa

trên Dynamic Time Warping (DTW) 700 Nidhi Kalra va thuật toán Divya l3ansal LIệ

thống nảy được gọi là MIROAD: A Mobile-Sensor-Platform for Intelligent

4

Trang 13

Recognition of Driving Aggressive, hé théng cĩ thẻ cung cấp thơng tin phản hỏi nghe

được niếu phong cách của một người lái xe trở nên hung hằng cũng như các thơng lin dẫn đến một sự kiện khơng tích cực Họ đã sử đựng iPhone 4, và phát hiện các sự kiện

như rẽ phải, rẽ trái hung hăng, rế phải, lái, tăng tắc rnạnh mẽ, phanh Nhược điểm

của cơng trình này là chỉ cĩ sự kiện tích cưc được phát hiện, thay đổi lăn đường chuẩn (khơng tích cựo) hiện chưa được phát hiện, bởi vì chuyên động thay đổi làn đường tự

nhiên khơng gây đủ lục hoặc quay về gia tốc đẻ phân biệt

Trong [5] Tai et äl đã để xuất một hệ thống cĩ liệu quả cao dễ phát hiệu và cảnh báo các hoạt động xe nguy hiểm (lạng lách, trơi trượt, khi chuyển hướng, quay đầu với một bán kinh rộng, tăng tốc hoặc giãm tốc đệt ngột, phanh thất thường, lái xe với lắp xe vào trưng tâm trên đường đánh đâu, lái xe khơng cĩ đèn vào ban đêm) về cơ bán liên quan đến lải xe say rượu Họ thực hiện các hệ thơng phát hiện trên điện thoại G1 Android llạ đã sử dụng gia tốc và cắm biển định hưởng Phát hiện mẫu say rượu lái xe dược thực hiện thơng qua cửa số và biến ngưỡng, giải pháp của họ cho thay 0%

tỷ lê sai âm và tỷ lệ sai đương 0,49% cho cung dường cong bất thường hoặc cluyển làn và 0% tỷ lê sai dương và sai âm 2,39% cho van dễ kiểm sốt tốc đỏ Smartphone của chúng ta hoạt động đựa vào năng lượng của pin và hệ thơng của họ cho thấy múc tiêu thụ năng lượng chấp nhận được Giới hạn của cơng trình này là tập hợp các mẫu say rượu lái xe bị hạn chế và khĩ khăn để phân biệt với các mẫu xe binh thường như lạng lách và thay đổi lần cĩ mẫu giống nhau

Trong [6] Zhang el aÏ để xuất tuột phương pháp nhận đựng mầu để đặc trưng,

cho các lãi xe đựa trên mức độ kỹ năng của họ Trình độ kỹ năng đã được xác định là

thấp, trmg bình, hoặc cấp độ chuyên gia, hay đơn giản mức độ từ 1 tới 10 Sử dịng, một chiếc xe cao cấp mơ phỏng, họ sa sánh hành vi điều khiến nhĩ điêu khiến tay lái, thay đổi làn đường, và mức độ giao thêng với một lái xe chuyên gia để giúp đỡ phân tích các loại Các giả trị dầu vào ma họ đã thực hiện lá hệ số DET cúa gỏc tay lái và bàn dạp ga Họ dã sử dụng học máy và các thuật tốn học trong dĩ bao gồm mạng,

noron da tang (MLP-ANNs), cay quyét dinh, va may vector hé tro (SVMs) Cac SVM

với bại nhân đa thức cho thấy hiệu suất tối hơn so với cả MLP-ANN va cây quyết

định

‘Lrong [7] Gazali theo đối hành vị lải xe thất thường gây ra do vượt xe khi sứ dung Oif the-shelf Technologies Cám biến định hướng được sử dụng để phát hiện các chuyển động của xe ở bêu trái, bên phải và hướng về phía rước GP8 dược sử dụng dé định vị trí của xe và lốc độ của nĩ khi nĩ đí chuyển và chuyển tiếp thơng tín này dén

may chủ ứng dụng để cĩ dược thơng tin thời gian thực của vị Irí này Họ dể xuất mmộtk thuật mà xác định hình thức vượt, phân biệt với các mư hình khác thơng qua

việc sử dụng mạng noron Họ trinh bày một kỹ thuật phù hợp voi ban dé như thể nào

48 phù hợp va xác nhận các mỗ hình vượt trên một mạng lưới đường thực tế Liạn chế

Trang 14

của công trình này là hệ thông hoàn toàn phụ thuộc vào cảm biển GPS, nhưng GP§

không thể có mặt ở khắp mọi nơi trong mọi điều kiện

Trong [§] tác giả Nguyên Thắng Ngọc đã nhận dạng hoạt động của người bằng

điện thoại di động có tích hợp gia tốc ba chiêu Tác giả đã nghiên cứu bải toán nhận dạng hoạt động của người và tiền hành nhận dạng hoạt động của người bằng điện thoại

di động qua 2 bước chính: trích chọn đặc trưng và phương pháp nhận dạng Từ bộ dữ

liêu vảo là gia tốc thô x, y, z trích chọn ra 6 đặc trưng đẻ phản biệt tốt các hoạt đông khác nhau Thuật toán cây quyết định được sử dụng để phân loại bằng cách so sánh

các giá trị thuộc tính của tập dữ liệu với cây quyết định đã được xây dựng Một con

đường được bắt đâu từ gốc đến một nút lá, sẽ trả vẻ dự đoán cho tập dữ liệu đó Đề

đánh giá kết quả đạt được tác giả đã thực hiện 4 bước: thu thập dữ liệu, phát triển và cài đặt, phân tích và đánh giá kết quả Việc thu thập dữ liệu thực hiện trên 17 người với độ tuổi, nghề nghiệp khác nhau Mỗi người thực hiện 6 hoạt động khác nhay (chạy,

đi bộ, ngồi, nhảy, đứng yên và một hoạt động khác với 5 hoạt động trước) Dữ liệu

được ghi lại bởi một thiết bị Android có tích hợp cảm biên gia tốc từ -2.0g đến +2.0g, Các tin hiệu đầu ra của gia tốc được lấy mâu tại 100Hz Các đối tượng đặt điện thoại

đi động có tích hợp gia tốc 3 chiêu trong túi quản của họ 17 đổi tượng đã thực hiện từng hoạt động, mỗi hoạt động khoảng một phút Kết quả thu được dữ liệu thô gồm cỏ

4 thuộc tính: ngày giờ diễn ra hoạt động,các giả trị gia tốc của trục x, trục y, trục Z tương ứng Tác giả đã sử dụng thuật toản Cây quyết định (Desicion Tree) đẻ phân loại

hoạt động đạt được độ chính xác lả 82,43%

Nam 2002, Randel [11] giới thiệu một hệ thông đẻ nhận ra các hoạt động đi lại

khi tỉnh toán binh phương trung bình (Root Mean Square) tử tin hiệu gia tốc vả sử

dụng một mạng nơron lan truyền ngược đẻ phân loại Độ chính xác tổng thẻ lả 95% được sử dụng huấn luyện với người dủng cụ thẻ nhưng không cỏ thông tin chỉ tiết liên

quan đến các đặc điểm của các đổi tượng được cung cấp, giao thức thu thập dữ liêu, và

ma trận nhằm lần He và các cộng sự [11], [12], đạt được lên tới 97% độ chính xác nhưng chỉ xem xét bốn hoạt động: đứng yên, chạy, nhảy, và đi bộ Các hoạt đông nảy

là khá khác nhau trong tự nhiên, cũng làm giảm mức độ sai đáng kẻ qua đó cho phép

độ chính xác cao hơn Chen [13] giới thiệu một cách tiếp cận phân tích nhận dạng trực

tuyển để thêm hoặc loại bỏ các lớp hoạt động vả dữ liệu huấn luyện trực tuyến Với

một phân loại Fuzzy Basis Funetion, đạt độ chínhxác đền 93% cho tám hoạt động đi lại và sinh hoạt hàng ngày Tuy nhiên, tắt cả các dữ liệu được thu thập trong các phòng

thí nghiệm và trong điều kiện có kiểm soát

1.3 Một số thách thức trong nghiên cứu

Mặc dù các nhà nghiên cửu khác nhau đã góp phần trong việc theo dõi hảnh vi

của lải xe khi tham gia giao thông nhưng van cỏ một số thách thức nghiên cửu mà các

nhà nghiên cứu có thể khám pha

Trang 15

-_ Yếu tố môi trường như mưa, gió cần phải dược dưa vào tiêu chỉ trong khi dự

đoán hành vĩ của lái xe

-_ Các đữ liệu từ nhiền phương tiên có thể xác định xem điều kiện điển khiển của lái xe Ví dụ lái xe áp dụng hệ thống phanh thường do tắc nghẽn hoặc thới quen

tiêng của mình

-_ Diễu kiện đường xá cũng phải được xem xét mệt cách chính xác trong việc xác

định phong cách lái xe

-_ Kỹ thuật hoe may nên được sử dụng để xác định các sự kién lai xe thay vi chi

đơn giản là xác dịnh phạm vị hoặc ngưỡng giả trị

- An danh: Hầu hết œ

phong cách lái xe Nhưng bằng cách

tải Hệu nghiên cửu sử dụng cảm biển GPS dé dir doan

định vị trí, những cói riêng từ là vì

phạm Vì vậy, phải có một số kỹ thuật để ẫn tên cáo giá Irị

- Sensor fusior: Phối hợp nhiều cảm biển nên được sử đụng thay vì sử dụng một

cảm biển để phát biện hành vỉ của lái xe lả nó sẽ làm táng hiệu quá của hệ

thông Như bằng cách sử dụng gia tắc ké, tirké va con quay hổi chuyên kết hợp

chúng ta có thể có được kết quá chính xác hơn vẻ định hướng thiết bị

- Vữrtual Reorientation : Điện thoại có thể được ở bất kỳ vị trí bên trong xe, do

đó phải có một số cơ chế để định hướng lại các thiết bị căn chỉnh các trục HnếL

bicdng vei true xe

ác nghiên cứu từ trước đến nay đều thực hiện lrêu ô tô, nêu có thể thực hiện

trên phương tiện khác sẽ đem lại tiện ích rất tắt cho người điêu khiển phương

tiện không phải là ô tê

1.4 Đề xuất phương pháp tiễn cận

Trong điều kiên hiện tại ở nước ta, phương tiện đi chuyện chủ vêu là xe máy, để

có thể áp dụng các nghiên cứu trên vào việc phát hiện hành vỉ tham gia giao thông trên

xe may là tương đổi khó khăn Cáo điều kiện về hạ tảng giao thông, chất hượng cảm

biển, GPS không tốt cùng với vị trí đặt điện thoại của người khi tham gia giao thông

Các nghiên cứm ở trên đêu thực hiện nhằm phát hiện các hành vi của con người Các hành vi khi tham gia giao thông cũng tương tự như những hành vi của con người

Việc chạy, nhãy, đi bô, đúng nguyên cũng gắn giống các hành vi tăng tốc, giãm tốc,

đùng hay chuyển động Từ đó tôi xin đê xuất kỹ thuật phát hiện hành vi tham gia giao thông dụa trên 6 đặc trưng trích chọn ra từ cảm biến gia tốc Vì chỉ là các đặc trưng của cảm biển gia tốc nên trong lin nghiên cứu này sẽ tập trung vào việc phát hiện ra các hành vi tham gia giao thông cơ bản: Dừng, Di chuyển, Tăng tốc, Giảm tốc

Cách thức thực hiện nghiên cứu nhủ sau

~_ Thu dữ liệu cảm biến từ 3 trục của gia tốc kế

~ Lọc nh

-_ Đải hệ tọa độ Điện thoại sang Trái Đất

Trang 16

- _ Tỉnh các thông số đặc trưng từ giả trị gia tốc kế sau khi dỏi trục

-_ Xây dựng bộ đữ liệu luận luyện cho hệ thẳng

-_ Sử dịmg một số mô hình học máy huấn luyện mô hình

-_ Sử dụng mô bình đã huấn luyện phát hiện hành vị [heo thời gian thực khi đang tham gia giao thông,

Việc sử dụng cảm biển gia tốc trên thiết bị di động sẽ bị ảnh hưởng kết quả nêu

di liệu được lây trên các thiết bị di động khác loại Vì các thiết bị khác nhau có độ

nhạy của của cắm biến khảo nhau, do đó trong nghiên cửu này dữ liệu tôi chỉ thực hiện thu thập và thực nghiệm trên một thiết bị điện thoại lá Samsung Galaxy 53 sử dụng, hệ

điêu hành Android 4.3

Trong một số nghiên cứu phát hiện hành vi tham gia giao thông trước đây đều thực hiện trên phương tiện là ở tô Trong nghiên cửu này tôi để xuất thực hiện trên xe máy nhằm mục địch phủ hợp với điều kiện giao thông của Việt Nam hiện tại đa phần

lả xe máy, đề tài có thể để dàng tiếp cận với nhiều dỗi tượng,

Trang 17

CHƯƠNG 2 - KHÁI QUÁT VỀ KIIAI PIIÁ DỮ LIỆU VÀ GIỚI TIIỆU

MỘT SỐ KỸ THUẬT ÁP DỤNG TRONG ĐỂ LÀI

Trong những năm gần đây, sự phát triển mạnh mẽ của CNTT đã làm cho khả năng thu thập và lưu trữ thông tin của các hệ thang théng tin tăng nhanh một cách chóng mặt Bên cạnh đó, việc tin học hoá một cách ổ ạt và nhanh chứng các hoạt động sản xuất, kinh đoanh cũng như nhiều lĩnh vực hoạt động khác đã tạo ra cho chúng ta một lượng dữ liệu lưu trữ không lỗ Hàng triệu CSDL đã dược sử dụng trong các hoạt

„„ trong đó cỏ nhiều CSÙL cực lớn cỡ Gigabyte, thậm chỉ là Terabyte Sự bùng nỗ nảy da dẫn tới một yêu cầu cáp thiết là cân có những,

kỹ thuật và công cụ mới để tự động chuyển đổi lượng đữ liệu khẳng lỗ kia thành các

trì thức có ích Từ đỏ, các kỹ thuậi khai phá dữ liệu đã trở thành một nh vực thời sự

của nên CNTT thê giới hiện nay nói chưng và Việt Nem nói riêng

2.1 Giới thiệu về khai phá dữ liệu (Data Mining)

Khai phá dữ liêu đang được áp dụng một cách rộng rãi trong nhiều lĩnh vục

kinh đoanh và đời sống khác nhau: marketing, tài chính, ngân hàng và bảo hiểm, khoa

học, y tế, an ninh, internet, giao thông thông minh Rất nhiêu tế chức và công ty lớn

trên thể giới đã áp dụng kỹ thuật khai phá đữ liệu vào các hoạt đông sẵn xuất kinh

đoanh của mình và thu dược những lợi ich to lớn

Khai phá dữ liệu được định nghần là quá trình trích xuất các thông tin có giá trị

tiém ấn bên trong lượng lớn đữ liệu được hưu trữ trong các cơ sở đữ liện, kho đữ liệu

Tiện nay, ngoải thuật ngữ khai phá đừ liện, người ta sèn đủng một số thuật ngữ khác

có ý nghĩa tương tự như Khai pha ti thie fir CSDL, trich lọc dữ liệu (Konwlep.desxtractiom), phân tích dữ liệu/mẫu (datapattem analysis), kháo cổ dữ liệu (dataarchaeology), nao vét dữ liệu (đatz dredging) Nhiễu người coi khai phá dữ liệu

và một số thuật ngữ thông đụng khác là khẩm phá trì thức trong CSDL (KnawledgeDiscovery in Dalabnscs-KDD) là như nhau Tuy hiên trên thực tế khai phá dữ liệu chỉ là một bước thiết yếu trong quả trình Khám phá tri thức trong CSDI,

Trong vải chục năm gần đây cùng với sự phát điên mạnh mẽ của kỹ thuật công, nghệ cũng nhw nhu cau lưu trữ thông tin din dến trữ lượng đỡ liệu dược lưu trữ không ngừng tăng theo Những cơ sở đữ liệu rất lớn ra dời, có những, cơ sở dữ liệu lên đến cỡ

Gigabyte va thim chi ca Terabyte Néu ban cé trong tay một kho cơ sở dữ liệu cũng cỏ

đặt ra là làm thể n o bạn có thể

nplữa bạn có trong tay một kho trị thức Nhưng vẫn đề 4

trích lọc được những thông Iĩn, trí thức từ một kho dữ liệu với rất nhiều thông tin về các Tĩnh vực khác nhau Dễ giải quyết vẫn để đó thì kỹ thuật khám phá trí thức trong,

co sé dit ligu (Knowledge Discovery in Databases- KDD) da ra doi Kham phá trí thúc

trong cơ sở dữ liệu (KDIT] la lĩnh vực liên quan dén các ngành như: xác suất thông kề,

Trang 18

học máy, trực quan hóa dữ liệu, tính toán song song Trong đó quá trình KDD có thể chia thành các bước thực hiện như hình 2.1

2.2.1 Giới thiệu về phân lớp

Phân lớp dữ liệu (classification) là một trong những hướng nghiên cứu chính

của khai phả dữ liệu Thực tế đặt ra như cầu là từ một cơ sở dữ liệu với nhiều thông tin

ẩn con người có thể trích rút ra các quyết định nghiệp vụ thông minh Phân lớp vả dự đoán là hai dạng của phân tích dữ liệu nhằm trích rút ra một mô hình mô tả các lớp dữ liệu quan trọng hay dự đoán xu hưởng dữ liệu tương lai Phân lớp dự đoán giả trị của nhiing nhan xac dinh (categorical label) hay nhimg gia tri roi rac(discrete value), c6

nghĩa là phân lớp thao tác với những đối tượng dữ liệu mà có bộ giả trị là biết trước

Trong khi đó, dự đoán lại xây dựng mô hình với các hàm nhận giả trị liên tục Ví dụ

mô hinh phân lớp dự bảo thời tiết có thể cho biết thời tiết ngày mai là mưa, hay ning dựa vào những thông số về độ âm, sức gió, nhiệt độ, của ngảy hôm nay và các ngày trước đó Hay nhở các luật vẻ xu hưởng mua hàng của khách hảng trong siêu thị, các

nhân viên kinh doanh có thẻ ra những quyết sách đúng đắn vẻ lượng mặt hang cũng

như chủng loại bảy bán Một mô hình dự đoán có thẻ dự đoán được lượng tiền tiêu

dùng của các khách hàng tiêm năng dưa trên những thông tin vẻ thu nhập và nghề

nghiệp của khách hàng Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tam các nhả nghiên cửu trong nhiều lĩnh vực khác nhau nhu hoc may(machine learning), hé chuyén gia (expert system), théng ké (statistics) Cong nghé nay cing

10

Trang 19

ứng dụng trong nhiều lĩnh vực khác nhau như: thương mại, nha bang, maketing, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục Phần lớn các thuật toán ra đời trước đều sử dụng cơ chế dữ liệu cư trú trong bộ nhớ (memory residen!), thường thao tác với lượng dữ liệu nhỏ Một số thuật toán ra đời sau này đã sử dụng kỹ thuật cư trú trên đĩa

cải thiện đáng kẻ khả năng mở rộng của thuật toản với những tập dữ liệu lớn lên tới

hang ti ban ghi Quả trình phân lớp đữ liệu gồm hai bước :

+ Bước thứ nhất (learning)

Quả trình học nhằm xây dựng một mô hình mô tả một tập các lớp dữ liệu hay

các khái niệm định trước Đầu vào của quá trình nảy lả một tập dữ liệu có câu trúc

được mô tả bằng các thuộc tính và được tạo ra từ tập các bộ giá trị của các thuộc tính

đỏ Mỗi bộ giả trị được goi chung 1a mot phan tir dit ligu (data tuple), c6 the la cae

mẫu (sample), vi du (example), adi tung (object), ban ghi (record) hay trường

hợp(case) Khoả luận sử dụng các thuật ngữ nảy với nghĩa tương đương Trong tập dữ

liệu này, mỗi phân tử đữ liệu được giả sử thuộc về một lớp định trước, lớp ở đây là giá

trị của một thuộc tinh duoe chon lam thude tinh gan nhãn lớp hay thuộc tính phân

lóp(elass label attribute) Đầu ra của bước này thường là các quy tắc phân lớp dưới dang

eis age <3

Em Em or Car ap Spon

Hình 2.2: (a) Bước xây dựng mô hình phân lớp

Bước thứ hai dùng mô hình đã xây dựng ở bước trước đề phân lớp dữ liệu mới Trước tiên độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo ra được

ước lượng Holdout là một kỹ thuật đơn giản để ước lượng độ chính xác đó Kỹ thuật

này sử dụng một tập dữ liều kiểm tra với các mâu đã được gan nhãn lớp Cac mau nay

được chọn ngầu nhiên và độc lập với các mẫu trong tập dữ liệu đảo tạo Độ chính xác

của mô hình trên đập đữ liệu kiểm tra đã đưa là tỉ lệ phân trăm các các mâu trong tập

đữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tẻ) Nêu độ chính xác của

mô hình được ước lượng dựa trên tập dữ liệu đào tạo thì kết quả thu được là rất khả

11

Trang 20

quan vì mô hình luôn có xu hướng “quá vừa” dữ liệu Quả vừa dữ liệu là hiện tượng

kết quả phân lớp trùng khít với dữ liệu thực tẻ vì quả trình xây dựng mô hình phân lớp

từ tập dữ liêu đảo tạo có thẻ đã kết hợp những đặc điểm riêng biệt của tập dữ liệu đỏ

Do vay can str dung một tập dữ liệu kiểm tra độc lập với tập dữ liệu đào tạo Nếu độ

chính xác của mô hình là chấp nhận được, thì mô hinh được sử dụng để phân lớp

những dữ liệu tương lai, hoặc những dữ liệu mả giá trị của thuộc tính phân lớp lả chưa

biết

Hình 2 4: (b2) Phân lớp dữ liệu mới

“Trong mô hình phân lớp, thuật toán phân lớp giữ vai trò trung tâm, quyết định tới

sự thành công của mô hình phản lớp Do vậy chia khỏa của vẫn đẻ phân lớp dữ liệu là tìm ra được một thuật toán phân lớp nhanh, hiệu quả, cỏ độ chính xác cao vả cỏ khả năng mở rộng được Trong đỏ khả năng mở rộng được của thuật toán được đặc biệt trủ

trọng và phát triển

2.2.3 Phương pháp đánh giá độ chính xác của mô hình phân lớp

Nhìn chung, việc lựa chọn thuật toán phân loại cho bải toán phát hiện hành vị

giao thông vân đơn thuần được hỗ trợ bởi bằng chứng thực nghiệm Phân lớn các nghiên cứu đã sử dụng xác thực chéo đẻ thống kê vả đánh giá hiệu suất của các thuật

toán phân loại với một bộ dữ liệu cụ thẻ Kết quả phân loại với một phương pháp cụ thể được thể hiên trong một ma trận cụ thẻ M„« (n lả số hanh vi được phát hiện) Trong đó Mạ, là số hoạt động thực tế trong lớp ¡ được phân loại thành lớp j Các giá trị sau cỏ thẻ thu được từ ma trân Mu», trong vân đẻ phân loại

Trang 21

Bang 2.1: Ma tran thống kê

Thục tế

Du Positives | True Positives False Positives

doan Negatives | True Negatives | False Negatives

- TP (True Positives): 1A s6 htong các hành vi được phản loại đúng giếng như hành vi thực hiện (số lượng hảnh vị Tăng tốc được hệ thông phân loại là lăng tốc khi xe đang Tăng tốc)

- TN (True Negalives) là sổ lượng các hành vi được phân loại đúng không

giống như hành vi thực hiện (số lượng hành vi Tăng tốc được hệ thẳng phân loại là Tầng tốc khi một người đang Di chuyên)

- FP (Fnlae Posihivcs): là số lượng các hành vì được phân loại sai giống như

hành vị thực biện (số lượng hành vĩ Tăng lốc được hệ thông phân loại là Di chuyển khi một người đang Di chuyển)

- FN (alse Negatives): 1a sé luong các hành vi được phân loại sai không giỏng, như hành v¡ thực hiện (số lượng hành vị Tăng tốc được hệ thông phân loại lả Di chuyển khi một người dang Tăng tốc)

Kết quả nhận đạng của hệ thông được tính theo công thức sau

Gia tr class recall 1a tỷ lệ phân loại đàng một bảnh vị giống như hành vị dang

thực hiện với tổng số các hành vị dược nhận dang 1a hanh vi do:

TP Recall=——— TP+EN

@3)

2.2.4 Một số phương pháp nhân lớn

Có rất nhiều phương pháp phân lớp, mỗi phương pháp phân lớp đều có cách

tính toán khác nhau Sự khác nhau cơ bản oủa các phương pháp này là

quy nạp Tuy nhiên, nhin một cách tổng quan thi các phương pháp đỏ đều phải thực hiện một số bước chung, như sau: đâu tên, mỗi phương pháp sẽ dựa trên các thông tin

thuật toán học

của các mẫu dễ biểu điển mẫu thành dạng vector, sau đó, tnỷ từng phương pháp mà la

13

Trang 22

sẽ áp dụng công thức và phương thức tính toán khác nhau dễ thực hiện việc phân loại

Sau đầy là một số cách tiếp cận mà theo thực nghiệm th có hiệu quả phân loại cao

cũng như những thuận lợi và bắt tiện của môi cách

Phương pháp k láng giềng gần nhất (k-NN Algorithm):

Ý tưởng:

Là phương pháp nổi tiếng về hướng tiếp cận dựa trên xác suất thông kẻ Khi cần phân loại mẫu mới, thuật toàn sẽ tình khoáng cách (khoảng cách Huclide,Cosine ) của tất cả các mẫu trong tập huấn luyện dến mẫu mới nay dé tim ra k mẫu gan nhất (gọi là k “láng giêng”) sau do đùng các khoảng cách mày đánh lrọng số cho tái cả các

mẫu Trọng số của môi mẫu chính là tổng tất cả các khoảng cách ở trên của mẫu trong

k láng giểng củ cùng đặc trưng, đặc trưng nào không xuất hiện trong k láng giẳng số có

trọng số bằng không Sau đỏ các đặc trưng được sắp xép theo mute độ trọng số giảm dan va cac đặc trung có trọng số cao sẽ được chọn là đặc trưng của mẫu cần phân loại

M6 ta thudt toán:

Một đối tượng được phân lớp dua vao K lang giéng cia né K là số nguyên

đương được xác định trước khi thực hiện thuật toán Người ta thường dùng khoảng,

cách Kuclidean dễ tình khoảng cách giữa các dỗi tượng Các bước thực hiện như sau Buse 1: Xác định giá trị tham số K (số láng giéng gần nhật)

Bước

inh khoáng cách giữa đổi tượng cần phân lớp với tất cả cáo đối tượng

trong tập dữ liệu huân luyện (thường sử dụng khoang cdc Euclidean)

ước 3: Sắp xếp khoảng cách theo thứ tự tăng đân và xác định K láng giếng gần

nhất với đổi tượng cân phân lớp

Buse 4: Lấy tất cả các lớp của K láng giềng gần nhất đã xúc định

ước 5: Dựa vào phân lớn lớp của lang gidng gản nhật để xác định lớp cho đối tượng cần phân lớp

Uu diém:

Cỏ một vải thuận lợi khi the thi giai phap nay Gidi thuật này được xem như

giải thuật tốt nhất đề bắt đầu việc phân loại mẫu vá là một giải thuật mạnh

Một trong những Huuận lợi của giải thuật này chính là sự rõ ràng và dé dang,

don gién và đề thực hiện Dược đựa trên phương pháp trực tuyến với cách xử lý một số hén hợp các mẫu Dặc biệt, giải thuật này còn kiểm tra cáo mẫu kẻ các mẫn mới, và cần vải thông số để làm việc này, nói cách khác giải thuật nay hậu như không giới bạn Dựa vào các nhân tổ này, giải thuật nảy hoàn toản hiệu quả thông qua thực nghiệm và

dé dang áp dụng,

Trang 23

Một lợi ích nữa của k-NN là giải thuật này có thể được vận dụng đẻ cải tiền

hơn Nói cách khác, giải thuật này nhanh chóng chỉnh sửa và phù hợp với các trường

hợp khác Ví dụ, giải thuật có thể được áp dụng cho bất kỷ khoảng cách đo lường nào khi nhập vào vả các mẫu huấn luyện vi khoảng cách của các mẫu nhập vảo có thẻ được

giảm đi để cải tiến hiệu quả của giải thuật, do vậy k-NN có thể được áp dụng cho mau với bắt kỉ khoảng cach nao trong mau dao tao Ciing vi thé ma hau het thoi gian huan

luyện đỏi hỏi cho phân loại mẫu trong giải thuật k-NN, giải thuật này được đánh giá là

kỹ thuật chỉ phí trong các kỹ thuật cuối cùng, k=NN là giải thuật mạnh có thẻ giám sát

các nguồn tiểm năng lỗi

Nhược điểm:

Rất khỏ cỏ thể tìm ra k tối ưu Hơn nữa với trường hợp mẫu có nhiều thì việc

phân loại lả không tốt

Phương pháp Random Forest

Random Forest (rừng ngẫu nhiên) lả phương phân lớp thuộc tỉnh được phát

triển bởi Leo Breiman tai dai hoc California, Berkeley Breiman cũng đồng thời lả

đồng tác giả của phương phip CART (Classification and Regression Trees) duge

đánh giá là một trong 10 phương pháp khai pha di liệu kinh điển Random Forest được xây dựng dựa trên 3 thành phân chính là: (1) CART, (2) học toản bộ,

hội đồng các chuyên gia, kết hợp các mô hình, va(3) tổng hop bootstrap (bagging) Hình 22 dưới đây the hiện phương pháp phân lớp random forest

Phân lớp dự báo

Ỉ Kết hợp

Trang 24

Bootstrap va Bagging

Bootstrap :LÀ một phương pháp rất nói tiếng trong thống kê được giới thiệu bởi

Bradley Efronvao nim 1979 Phương pháp này chủ yếu đừng để tước lương lỗi chuan

(standarderrors), độ lệch (bias) và tính toản khoảng tin cậy (eonfidence interval) cho

các tham số Phương pháp nảy được thực hiện như sau: Tử một quân thé ban đầu lấy

Ta một mẫu L Qu, X; xu} gồm n thành phản, tính toán các tham số mong muối Trong các bước liếp theo lặp lại b lấn việc lạo ra mẫu Ta cũng gồm n phan td tir TL bằng cách lẫy lại muẫu với sự thay thể các thành phần trong taầu bạn đầu sau dé tinh toán các tham số mong muốn

apging: Phương pháp này dược xem như là một phương pháp tổng hợp kết

quá có dược tử các bootstrap Tư tưởng chinh của phương pháp nảy nữ sau: Cho

một tập huấn luyện D={(x¿yj): i=l,2, ,n} và giả sử chúng ta muốn có một một dự

đoàn nào đó đối với biển x

Một mẫu gồm B tập dữ liệu, mỗi tập dữ liệu gồm n phần tứ được chọn lựa ngấu nhiên từ D với sự thay thé (giống như bootstrap) Do đó B=(Dụ, Dạ, ,Dạ) trông gidng nhu là một tập các tập huận luyện được nhân bán

Tập huân một máy heặc một mê hình đổi với raỗi tập D, (b=1, 2, ,B) và lần

lượt thu thập các kết quả đự báo có được trên mỗi tập Dp

Kết quả tổng hợp cuối củng được tỉnh toản bằng cách trung bình

héaCrogre:

sion) hoặc thông qua số phiếu bầu nhiều nhất (classification)

‘Tom tắt cuã giải thuật Randoml'orest cho phân lớp được diễn giải như sau:

+ Lay ra K mẫu bootstrap từ tập huần huyện

+ Đổi với mỗi mẫu baoisrap xâu đựng một cây phân lóp không được tia

(unpruned tre) theo hướng dẫn sau: Tại mỗi mút thay vì chọn một phân chía tốt

nhất trong tất cả các biến dự doán, ta chọn ngẫu nhiên một mẫu m của các biên

dự đoán sưu đó chọn một phân chia lốt nhất trong các biển này

«+ Đưa ra các dự đoán bằng cách tẵng hợp các đự đoán của K cay

Quá trình hoc cia Random Forest bao gém việc sử dụng ngẫu nhiên giả trị đầu vào, boặc kết hợp các giá trị dé tai mdi node trong quả trình đựng từng cây quyết định Kết quả của Random Forest qua thực nghiệm cho thấy là tốt hơn khi số sánh với

thuậi loán Adabooal Trong đó Random Forest có một số thuộc tính mạnh như:

() Độ chính xác của nó tương tự Adaboost, trong, một số trường hợp củn tốt hơn (2) Thuật toán giải quyết tốt các bài toán có nhiêu dữ liệu nhiễu

(3) Thuật toàn chạy nhanh hơn so với bagging hoặc boostins,

Trang 25

(4) Có những sự ước lượng nộitại như độ chinh xác của mồ hình phéng doán hoặc

độ mạnh và liên quan giữa các thuộc lính

(5) Dễ đàng thực hiện song song

(6) Tuy nhiên dễ dạt được các tính chất mạnh trên, thời gian thực thi của thuật toán khá lâu và phải sử dụng nhiêu tài nguyên của hệ Lhẳng

Qua những tìm hiểu trên về giải thuật RE ta có nhận xét rằng RE là một phương, pháp phản lớp tốt do: (1) Trong RE các sai số (variance) được giãm thiểu do kết quả

của RE dược tổng hợp thông qua nhiều người học (learner), (2) Việc chọn ngẫu nhiên tại mdi bude trong RE sẽ làm giãm mắn tương quan (conrclalion) giữa cáo người học

trong việc Lông hợp các kết quả Ngoài ra, chúng ta cũng thấy rằng lỗi phụng gủa một

rừng các cây phân lớp phụ thuộc vào lỗi riêng của từng cây trong rừng cũng như rỗi tương quan giữa các cây,

Aột số dặc điểm của Random Forest

-_ OOB: Khi tập mẫu được rút ra từ một tập huân luyện của một cây với sự thay

thể (bagging), thì theo mớc tỉnh có khoảng 1/3 các phân từ không có năm trong mẫu này [7] Diễu này có nghĩa là chỉ có khoảng 2⁄3 các phần tử trong tập huấn

luyện tham gia vào trong các tính toán của chúng ta, và 1⁄3 các phan tử này được gọi là dữ liệu out-of-bag, Dũ liệu øut-of-bag, được sử dụng dễ ước lượng, lỗi tạo ra từ việc kết hợp các kết quá tử các cây tổng hợp trong random forest

cũng như dùng dé ước lính độ quan trong thude Lith (variable important)

-_ Thuộc tính quan tạng: Việc thực hiện các tính toàn đề xác định thuộc tính quan

trọng trong RF cũng gản như tương tự việc sử dụmg OOI đề tỉnh toán lỗi trong,

RE Cách thực hiện như sau: Giả sử chủng ta cản xác định “thuộc tỉnh quan

trọng” của thuộc tính thử thứ m Dâu tiên tính ROOP, sau đó hoán vị ngẫu

nhiên các giả trị cứa thuộc tỉnh m trong dữ liệu OOB, lần lượt "gứt” các giả trị

nảy xuống cây và “đếm” số các dự doán đúng ta gọi việc tỉnh toán nảy dối với

thuộc tính là Rperm Độ quan trọng thuộc tính dược tỉnh như sau: 'Trong rường,

Tợp giá trị của thuộc tỉnh quan trong trên mỗi cây là độc lập thì chúng ta có thé

tính được lỗi chuẩn (standard error) cia ROOB — Rpern

Phương pháp Naive Bayes

Ý tưởng :

Ý tưởng cơ bản của phương pháp xác suất Bayes là dựa vào xác suất có điều kiện của từ hay đặc trưng xuất hiện trong mẫu với đặc trưng để dự đoàn đặc trưng của

xấu đang xét Điểm quan trọng cơ bản của phương pháp này là các giả định độc lập

- Các từ hay đặc trưng của mẫu xuất hiện là độc lập với nhau

~ Vị brí của các lừ hay các đặc trưng là độc lập và 6 vai trở như nhau.

Trang 26

Giả sử ta có:

~n đã trưng (lớp) đã được định nghĩa e¡.e;,E ,ó,

~ Mẫu mới cần dược phản loại đ;

Dé tién hanh phan loại mẫu dj, ching ta can phai tính được tần suất xuất hiện của các lớp o(i=1,2, ,.n) trang mẫu d., Sau khi tính được xác suât của mẫu đổi với

các đặc trưng, theo luật Bayes, miu sẽ được phân lớp vào đặc trưng ¢, nào có xác suất

Áp dụng trong bài toán phân loại, các dữ kiện gồm cỏ:

=_D: tập đở liệu huấn luyện đã được vector hóa dưới đạng # = (Xi,xa, ,u}

= Cy phan lop i, véii= {1,2, mm}

>_ Các thuộc tỉnh độc lập điều kiện đôi một với nhau

Theo định lý Bayes

P(XIG)PG) P(G |X) = (1x) PU)

Theo tính chất độc lập diéu kién:

— P(xy|G)xắc suất thuộc Linh ther k mang giá trì xự khi đã biết X thuộc phân lớp ¡

Các bước thực hiện thuat toan Naive Bayes:

ước I: Huân luyện Naive Payes (dựa vào tập dir ign), tinh P(C)) va P(y|í2)

Bước 2: Phân lớp X”** = (Za,sz, xu), lá cần tính xác sual thuée Lừng phân lớp khi

đổ biết trước XP", }YPPH được gán vào lớp có xác suất lớn nhật (heo công Thúc

Trang 27

x(reo[ | seo)

Nhược điểm:

Giải thuật Nạve Bayes cũng cĩ những điểm yếu riêng mặc đủ được xem là trình điển tốt hơn giải thuật Cây quyết định

Một trong những trở ngại là dựa trên luật gợi là các điển kiện độc lập Cĩ thể bị

vi phạm bởi các trường, hợp trong thực tế, bởi vị Naive Bayes thừa nhận các đặc trưng trong mẫu độc lập riêng rẽ và được biểu diễn một cách nghèo nắn khi những đặctrưng này cĩ mối liên hệ với nhan Hơn n

a, luật này khơng tạo dược sự thường xuyên cho

việc xuất hiện các đặc trưng Một bắt lợi khác nữa là giải thuật sử đụng nhiều lính tốn

và vì vậy thời gian bị clủ phối

2.3 Giới thiệu về WEKA

Trong thục nghiệm của nghiên cứu này sử dụng phân mễm WEKA dễ huận luyện

nơ hình, sau đĩ sẽ sử dụng muơ hình với các tham số tối tru để nhận biết hành vĩ tham

gia giao thơng trên điện thoại theo thời gian thực

2.3.1 Giới thiệu

«_ Weka là một cơng cụ phẫn mềm viết bằng Java phục vụ lĩnh vực học máy va

khai phá dữ liệu

œ Các tính năng chính:

-_ Một tập cáo cơng cụ tiên xủ lý đữ liệu, các giải thuật hạc máy, khai phá

đữ liệu và các phương pháp thí nghiệm đánh giá

- Giao diện dé họa( pêm cả tỉnh năng biên thị hĩa dữ liệu)

-_ Mỗi trường cho phép sơ sánh các giải thuật khú học máy và khai phá dữ liệu

1.3.2 Tiền xử lý đỡ liệu

- Dữ liệu cị thể dược nhập vào (imported) tử một tập tin cĩ khuơn dạng AREE, CSV

- Dữ liêu cũng cĩ thế được đọc vào từ một địa chỉ ƯRL hoặc từ một cơ sở dữ liệu

thơng qua JDBC

- Các cơng cụ tiên xử lý dữ liệu của WEKA được gọi là /iMers

- Rời rạc hỏa ( Discretization)

- _ Chuẩn héa (Normalization)

- Lay mau (Re-sampling)

- Lua chon thude tinh (Attribute selection)

19

Trang 28

- Chuyển dỗi (Transform) và kết hợp ( Combining } các thuộc tỉnh

1.3.5 Các bộ phân lớp:

- Cae bé phân lởp( Classifiers) của WHKA tương ứng với các mô hình dự doan các dại lượng kiểu dinh danh( phân lớp) hoặc các dại lượng kiểu số( hỏi quy/ dự đoán)

- Các kĩ thuật phân lớp được hỗ trợ bởi WWEKA:

© Naive Bayes classifier and Bayesian networks

© Decision trees

© Support vector machines

© Neural networks

"Sie dung Classifier:

- _ Lựa chọn các tùy chọn bộ phân lớp(elassifier)

- Tara chon eac thy chon cho việc kiểm tra(est optiors)

5 Use training set Bộ phân loại học được sẽ được đảnh giá trêu tập học

© Supplied test set St dung mét tap đữ liệu khác (với tập học) dé cho

việc đánh giá

© Cross-validation Tap lữ liệu sẽ được chia đều thành k tập(folds) có

kích thước xấp xỉ nhau, và bộ phân loại học được sẽ được đánh giá bói phương phap cross-validation

» Percentage spliL Chỉ dịnh tý lệ phân chia tap dit ligu déi voi vide dink giả

- Classifier output hién thi cdc théng tin quan trong:

Run information Cac tity chon déi véi mé hinh hoc tén cua tap

Tun information Các tùy chọn đổi với mô hình học, tên của tập dữ

liệu, số lượng các ví dụ, các thuộc tỉnh, và f.£ thí nghiệm

© Classifier model (full training set) Hiểu diễn (dạng text) của bộ phân lớp học duge

Predictions on Lest data Thong lin chi tiết về các đự đoán của bộ phân

a

e

lớp đối với tập kiểm tra

o Summary Cac thing kê về mức độ chính xác của bộ phân lớp, đổi với

£f thí nghiệm đã chọn

Detailed Accuracy By Class Thổng tin chỉ tiết về múc độ chính xác của bộ phân lớp đổi với mỗi lớp,

© Confusion Matrix Các thánh phan cúa ma trận nảy thể hiện số lượng,

các vị dụ kiểm tra (tcst instances) duge phan lop ding va phan lớp sai

a

Trang 29

CHƯƠNG 3 - PHƯƠNG PHÁP PHÁT HIỆN HÀNH VI THAM GIA GIAO THÔNG DỰA TRÊN DỮ LIỆU CẢM BIÊN ĐIỆN THOẠI DI ĐỌNG

Chương này sẽ trình bảy về phương pháp phát hiện hành vi tham gia giao thông dựa trên dữ liệu cảm biên của điện thoại di động của dé tai Trước tiên sẽ mô tả về sơ

đỏ hệ thông, tiếp theo giới thiệu vẻ dữ liệu cảm biển của điện thoại di động, sau đó là

van đề xử lý dữ liệu thô tìm ra các đặc trưng của dữ liệu đề xây dựng mô hình

3.1 Sơ đỗ hệ thống phát hiện hành vi tham gia giao thông

Huấn luyện Test mô hình

Hình 3.1: Sơ đồ hệ thỗng phát hiện hành vi giao thông từ dữ liệu cảm biển

Hệ thống được chia làm 2 giai đoạn: Huân luyện mô hình và thực nghiệm sử

dụng mô hình

Giai đoạn huân luyện: Tiên hảnh thu thập dữ liệu cảm biến của điện thoại của

mỗi hành vi được định nghĩa Dữ liệu ban đầu sẽ được tiên xử lý qua thao tác chuyên

trục hệ tọa độ vẻ hệ trục tọa độ chuẩn của trái đất, sau đó dùng một bộ lọc thông thấp

giảm nhiều dữ liệu Dữ liệu sau khi thu thập sẽ được lưu trữ lại Mỗi hành vi sẽ được

lưu trong một file theo mỗi lượt thu thập và tên file được đánh chỉ số theo lần lẫy, ví dụ: Giamtocl, Giamtoc2, Tangtocl, Tangtoc2 Từ dữ liệu thu thập được tiên hành

trích xuất ra 6 đặc trưng làm dữ liệu đầu vảo cho quá trình huân luyện Quá trình trích xuất sẽ chia chuối thời gian thực hiện hảnh vi thành các cửa số thời gian, tại môi cửa

số sẽ trích xuất ra 6 đặc trưng Đô rộng của cửa số thời gian nây sẽ được điều chỉnh trong quả trình huấn luyện để có thể đạt kết quả cao nhất File dữ liêu của quả trình

21

Ngày đăng: 21/05/2025, 19:59

HÌNH ẢNH LIÊN QUAN

Hình  1.1:  Xu  hướng  dùng  điện  thoại  di  động - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 1.1: Xu hướng dùng điện thoại di động (Trang 10)
Hình  1.2:  Sự  bùng  nỗ  của  smartphone  và  máy  tỉnh  bằng  trong  những  năm  gẫn  đây - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 1.2: Sự bùng nỗ của smartphone và máy tỉnh bằng trong những năm gẫn đây (Trang 11)
Hình  2.2:  (a)  Bước  xây  dựng  mô  hình  phân  lớp - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 2.2: (a) Bước xây dựng mô hình phân lớp (Trang 19)
Hình  3.1:  Sơ  đồ  hệ  thỗng  phát  hiện  hành  vi  giao  thông  từ  dữ  liệu  cảm  biển - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 3.1: Sơ đồ hệ thỗng phát hiện hành vi giao thông từ dữ liệu cảm biển (Trang 29)
Hình  3.2  :  Cảm  biển  gia  tắc  kế - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 3.2 : Cảm biển gia tắc kế (Trang 32)
Bảng  3.2:  Các  thông  số  gia  tốc  kế - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
ng 3.2: Các thông số gia tốc kế (Trang 33)
Hình  36:  Dữ  liệu  gia  tốc  đã  qua  lọc  nhiéu(trén)  và  chưa  qua  lọc  nhiễu(dưởi) - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 36: Dữ liệu gia tốc đã qua lọc nhiéu(trén) và chưa qua lọc nhiễu(dưởi) (Trang 36)
Hình  3.7:  Sự  khác  nhau  giữa  câm  biến  gia  tốc  của  2  điện  thoại  khác  nhan: - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 3.7: Sự khác nhau giữa câm biến gia tốc của 2 điện thoại khác nhan: (Trang 37)
Hình  3.9:  Các  trạng  thải  xoay  điện  thoại - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 3.9: Các trạng thải xoay điện thoại (Trang 38)
Hình  3.10:  Sự  khác  nhau  giữa  đỗi  trục  và  không  đỗi  trực - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 3.10: Sự khác nhau giữa đỗi trục và không đỗi trực (Trang 39)
Hình  42:  Giao  điện  thu  dữ  liệu  mẫu - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 42: Giao điện thu dữ liệu mẫu (Trang 46)
Hình  43:  Dữ  liệu  lưu  trữ  trong  điện  thoại - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 43: Dữ liệu lưu trữ trong điện thoại (Trang 47)
Hình  4.6:  Các  tham  số  huẩn  luyện  mô  hình  k-NNẺ - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 4.6: Các tham số huẩn luyện mô hình k-NNẺ (Trang 50)
Hình  49:  Giao  điện  chương  trình  phát  hiện  lành  vì  thời  gian  thực - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
nh 49: Giao điện chương trình phát hiện lành vì thời gian thực (Trang 53)
Bảng  4.4:  Kết  quả  thực  nghiệm  phát  hiện  bành  vi  bằng  k-NN - Luận văn tìm hiểu mô hình học máy giải quyết bài toán dự Đoán dự báo Ứng dụng trong phân tích hành vi giao thông sử dụng dữ liệu cảm biến
ng 4.4: Kết quả thực nghiệm phát hiện bành vi bằng k-NN (Trang 54)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm