NHIỆM VỤ VÀ NỘI DUNG: Nghiên cứu và đề xuất mô hình khai phá dữ liệu về tình trạng giao thông được thu thập trong quá khứ dựa trên phương pháp phân tích dữ liệu như học máy, thống kê,…đ
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
MAI TẤN HÀ
NGHIÊN CỨU XÂY DỰNG HỆ THỐNG CẢNH BÁO
ÙN TẮC GIAO THÔNG DỰA VÀO PHÂN TÍCH DỮ
Trang 2ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 3CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG –HCM
Cán bộ hướng dẫn khoa học: PGS.TS TRẦN MINH QUANG
Cán bộ chấm nhận xét 1: TS LÊ LAM SƠN
Cán bộ chấm nhận xét 2: PGS.TS NGUYỄN TUẤN ĐĂNG
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 25 tháng 8 năm 2020
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1 Chủ tịch: PGS.TS ĐẶNG TRẦN KHÁNH………
2 Thư ký: TS PHAN TRỌNG NHÂN………
3 Phản biện 1: TS LÊ LAM SƠN………
4 Phản biện 2: PGS.TS NGUYỄN TUẤN ĐĂNG………
5 Ủy viên: PGS.TS VŨ THANH NGUYÊN………
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KTMT
Trang 4ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Ngày, tháng, năm sinh: 21/07/1992 Nơi sinh: Phú Yên
Ngành: Hệ thống thông tin quản lý Mã số: 83 40 405
I TÊN ĐỀ TÀI: NGHIÊN CỨU XÂY DỰNG HỆ THỐNG CẢNH BÁO ÙN TẮC GIAO THÔNG DỰA VÀO PHÂN TÍCH DỮ LIỆU LỚN
II NHIỆM VỤ VÀ NỘI DUNG:
Nghiên cứu và đề xuất mô hình khai phá dữ liệu về tình trạng giao thông được thu thập trong quá khứ dựa trên phương pháp phân tích dữ liệu như học máy, thống kê,…để đưa ra
dự đoán tình trạng giao thông tại thời điểm hiện tại trên địa bàn Tp.HCM
III NGÀY GIAO NHIỆM VỤ: 24/02/2020
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 27/07/2020
V CÁN BỘ HƯỚNG DẪN: PGS TS TRẦN MINH QUANG
Trang 5LỜI CÁM ƠN
Lời đầu tiên, tôi xin bày tỏ lòng biết ơn và gửi đến thầy PGS.TS Trần Minh Quang lời cám ơn chân thành Thầy đã tận tình chỉ bảo, hướng dẫn và định hướng cho tôi trong suốt quá trình thực hiện luận văn này
Tôi xin gửi lời cám ơn chân thành đến quý thầy cô Khoa Khoa học và Kỹ thuật Máy Tính, Khoa Quản Lý Công Nghiệp vì đã hết lòng truyền dạy cho tôi cũng như các bạn trong khóa MIS 2018 những kiến thức trong suốt thời gian được học tập và nghiên cứu tại trường Đại học Bách Khoa – Đại học Quốc Gia Tp Hồ Chí Minh
Tôi cũng xin chân thành cám ơn các bạn tình nguyện viên đã giúp đỡ, hỗ trợ tôi rất nhiều trong quá trình thu thập dữ liệu giao thông thực tế trên ứng dụng di động cũng như ứng dụng chạy tự động trên Google Colab
Sau cùng tôi xin được gửi lời cám ơn chân thành nhất đến gia đình tôi, bạn bè, những người đã luôn động viên, khuyến khích và tạo điều kiện thuận lợi cho tôi trong toàn bộ quá trình học tập cũng như thực hiện đề tài nghiên cứu này
Tp Hồ Chí Minh, ngày 27 tháng 07 năm 2020
Người thực hiện luận văn
MAI TẤN HÀ
Trang 6TÓM TẮT LUẬN VĂN THẠC SĨ
Mục tiêu của nghiên cứu đề xuất các phương pháp khai phá dữ liệu dựa vào dữ liệu TTGT trong quá khứ được thu thập từ cộng đồng và các hệ thống giao thông khác nhau trong thành phố như: dữ liệu giao thông của GPS từ các xe buýt, ứng dụng trên thiết bị di động, dữ liệu từ những hệ thống khác, để đưa ra ước lượng và dự đoán TTGT tại những đoạn đường bị thiếu dữ liệu ở thời điểm hiện tại
Cụ thể hơn, mục tiêu của nghiên cứu này tập trung vào đề xuất các mô hình phân tích và khai phá dữ liệu dựa trên: mô hình thống kê, phân tích tương quan, học máy, để phân
tích một lượng lớn dữ liệu (big data) về TTGT trong quá khứ và các khu vực có liên quan nhằm dự đoán TTGT ở những nơi thiếu dữ liệu hiện thời (không nhận được dữ liệu cung cấp từ cộng đồng và các hệ thống khác), qua đó mở rộng độ bao phủ và tính hiệu
quả của hệ thống đề xuất
Kết quả của đề tài sẽ làm tiền đề để xem xét tính hiệu quả của phương pháp tiếp cận từ
đó có kế hoạch phát triển và ứng dụng vào thực tiễn nhằm ứng dụng giảm thiểu ùn tắc giao thông của Tp.HCM
Từ khóa: dự đoán tình trạng giao thông, khai phá dữ liệu, dữ liệu chia sẻ từ cộng đồng, giao thông đô thị.
Trang 7ABSTRACT
Aiming to advocate data mining methods based on historical traffic data collected from the community and various transport systems in Ho Chi Minh city such as GPS traffic data from buses, mobile apps, and other systems, this thesis provides a mechanism to make estimations and predictions of traffic conditions at roads missing real-time traffic data
Mainly, this research focuses on proposing data mining models stand on statistical,
algorithms, correlation analysis, machine learning to analyze large amounts of data (big data) from past traffic conditions and related areas to predict traffic conditions when the
real-time data are missing, thereby expanding the coverage and effectiveness of the proposed system
The results of the thesis will serve as a premise to consider the effectiveness of the proposed method before developing and applying it in practice to reduce traffic congestion in the HoChi Minh city
Keywords: Estimate traffic condition - Data mining – Crowd-sourced data – Urban traffic
Trang 8LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu khoa học tôi đã tự thực hiện Dữ liệu được sử dụng trong toàn bộ quá trình phân tích của luận văn có nguồn gốc rõ ràng và minh bạch, được công bố theo đúng quy định và đạo đức nghiên cứu khoa học Các kết quả đạt được của nghiên cứu trong luận văn này, tôi đã tự thực hiện một cách trung thực
và khách quan Kết quả luận văn được công bố lần đầu tiên trong bản báo cáo này và chưa từng được công bố trong bất kỳ luận văn trước đó
Tp Hồ Chí Minh, ngày 27 tháng 07 năm 2020
Người thực hiện luận văn
MAI TẤN HÀ
Trang 9MỤC LỤC
1 PHẦN MỞ ĐẦU 11
1.1 Lý do chọn đề tài 11
1.2 Mục đích nghiên cứu 12
1.3 Phạm vi và đối tượng nghiên cứu 13
2 CÁC NGHIÊN CỨU LIÊN QUAN 16
2.1 Tổng quan về tình hình ùn tắc giao thông ở Tp HCM 16
2.2 Các nghiên cứu ở Việt Nam 17
2.3 Các nghiên cứu ngoài nước 18
3 NỀN TẢNG LÝ THUYẾT 20
3.1 Các cách tiếp cận hiện có về cảnh báo TTGT trong đô thị 20
3.2 Định nghĩa khai phá dữ liệu 21
3.3 Dữ liệu lớn 22
3.4 Các thuật toán ứng dụng trong các giải thuật phân loại dữ liệu 23
4 GIẢI PHÁP ĐỀ XUẤT 29
4.1 Các mô hình thu thập dữ liệu đề xuất 29
4.1.1 Mô hình thu thập dữ liệu trực tiếp từ ứng dụng di động 30
4.1.2 Mô hình thu thập dữ liệu từ TomTom 31
4.2 Mô hình dự đoán dữ liệu 33
5 THỰC NGHIỆM 39
5.1 Phương pháp thu thập dữ liệu 39
5.1.1 Thu thập dữ liệu thông qua ứng dụng di dộng 39
5.1.2 Thu thập dữ liệu từ TomTom 41
5.2 Tiền xử lý dữ liệu 43
5.2.1 Tiền xử lý dữ liệu thu thập từ ứng dụng di dộng 43
5.2.2 Tiền xử lý dữ liệu thu thập từ TomTom 46
5.3 Kết quả thực nghiệm quá trình phân tích dữ liệu 47
5.3.1 Kết quả khai phá từ bộ dữ liệu trên ứng dụng di dộng 47
5.3.2 Kết quả khai phá từ bộ dữ liệu từ TomTom 51
6 TÍCH HỢP CÁC MÔ HÌNH KHAI PHÁ VÀO HỆ THỐNG 55
6.1 Mô hình dự đoán TTGT trong hệ thống ITS 55
Trang 106.2 Các trường hợp sử dụng mô hình dự đoán TTGT 56
6.3 Huấn luyện và cập nhật mô hình theo lịch trình 58
7 ĐÁNH GIÁ VÀ TỔNG KẾT NGHIÊN CỨU 60
7.1 Đánh giá kết quả đạt được 60
7.1.1 Kết quả về khoa học 60
7.1.2 Kết quả thực tiễn 60
7.2 Giới hạn của nghiên cứu 62
7.3 Đề xuất hướng mở rộng 62
KẾT QUẢ ĐẠT ĐƯỢC TỪ QUÁ TRÌNH NGHIÊN CỨU 64
DANH MỤC TÀI LIỆU THAM KHẢO 64
PHỤ LỤC 70
PHỤ LỤC 1: DANH MỤC HÌNH ẢNH 70
PHỤ LỤC 2: DANH MỤC BẢNG BIỂU 70
PHỤ LỤC 3: DANH MỤC VIẾT TẮT 71
LÝ LỊCH TRÍCH NGANG 72
QUÁ TRÌNH ĐÀO TẠO 72
QUÁ TRÌNH CÔNG TÁC 72
CÁC CÔNG TRÌNH CÔNG BỐ 73
Trang 111 PHẦN MỞ ĐẦU
1.1 Lý do chọn đề tài
Ùn tắc giao thông (UTGT) đã và đang từng ngày ảnh hưởng đến nhiều mặt của đời sống xã hội như làm tăng thời gian đi lại, tiêu hao nhiều nhiên liệu, hao mòn phương tiện và trực tiếp làm ô nhiễm môi trường UTGT không những kiềm hãm sự phát triển của kinh tế đô thị, khi hàng hóa bị vận chuyển chậm,… mà còn làm giảm chất lượng cuộc sống gây nhiều hệ lụy như căng thẳng, thậm chí còn gây ảnh hưởng lớn đến an ninh cũng như chất lượng cuộc sống của người dân [1- 2]
Do đó, bài toán làm thế nào để giảm thiểu tình trạng giao thông (TTGT) trong các thành phố lớn ở các nước phát triển đang nhận được rất nhiều sự quan tâm
Trong thời đại công nghệ số phát triển như vũ bão, cuộc sống của con người gắn liền với công nghệ đã tạo nhiều điều kiện thuận lợi giúp người dân có thể tiếp cận công nghệ và internet một cách dễ dàng Thêm vào đó, sự bùng nổ của thiết bị
di dộng và dữ liệu lớn đã góp phần mang đến nhiều hơn những giải pháp tiềm năng để giải quyết những vấn đề của xã hội như vấn đề giao thông của Tp HCM Cùng với sự tiến bộ của khoa học công nghệ và nguồn dữ liệu dồi dào được thu thập từ nhiều nguồn và được chia sẻ từ cộng đồng, nghiên cứu này sẽ tận dụng những nguồn lực đó để xây dựng một mô hình dự đoán TTGT dựa vào dữ liệu lớn, nhằm góp phần cung cấp thông tin thông suốt cho người tham gia giao thông cũng như cơ quan quản lý để có những ứng phó, điều chỉnh kịp thời, hướng đến giảm thiểu tình trạng UTGT cho thành phố
Như đã đề cập ở trên, công nghệ phát triển không những cung cấp thêm nhiều giải pháp khả thi để giải quyết vấn đề hơn mà còn là đòn bẩy để đưa thông tin đến với đông đảo người dân Tuy nhiên, bên cạnh những thuận lợi vẫn còn những vấn
đề cần được quan tâm và giải quyết trong đề tài này, cụ thể như vấn đề trong bài toán dự đoán TTGT là làm thế nào để thu thập được dữ liệu giao thông trong quá khứ phải đủ lớn để sử dụng vào quá trình khai phá và dự đoán TTGT trong hiện tại Bên cạnh đó, những vấn đề về chất lượng dữ liệu cũng như xác định chiều dữ liệu đầu vào cần thiết để việc khai phá dữ liệu mang lại kết quả khả quan và dự đoán được TTGT một cách chính xác nhất có thể v.v Trong thời kì đầu phát triển
hệ thống cảnh báo giao thông, nhóm nghiên cứu còn hạn chế về mặt dữ liệu, khi
mà số lượng người dùng sử dụng ứng dụng chưa nhiều và dữ liệu TTGT trong quá khứ còn rất hạn chế Thời điểm tiến hành thực hiện đề tài tháng 11 năm 2019, thì
Trang 12dữ liệu TTGT trong quá khứ chỉ có được từ dữ liệu thu thập từ GPS trên xe buýt, đây cũng là đề tài đã được nghiên cứu và phát triển từ nhóm của thầy Phạm Trần
Vũ [52] Với bộ dữ liệu này thì việc khai phá dữ liệu chưa mang lại những kết quả khả quan, khi độ chính xác của mô hình khi sử dụng dữ liệu từ GPS trên xe bus chỉ khoảng 45%, kết quả này còn thấp và chưa thể áp dụng vào thực tế để dự đoán TTGT trên địa bàn TP HCM Do đó, để đề tài này có thể mang lại kết quả khả quan, kết quả mà có thể ứng dụng vào thực tế thì bên cạnh bài toán đề xuất mô hình dự đoán, ước lượng TTGT hiệu quả, cần phải giải quyết vấn đề không kém phần quan trọng là về mặt dữ liệu, câu hỏi đặt ra làm như thế nào có được dữ liệu
đủ lớn, đủ đa dạng như tên của đề tài là phân tích TTGT dựa trên dữ liệu lớn Những vấn đề này sẽ được giải quyết thông qua giải pháp đề xuất được trình bày ở mục 4
và dự đoán TTGT tại những đoạn đường bị thiếu dữ liệu ở thời điểm hiện tại Cụ thể hơn, mục tiêu của nghiên cứu này tập trung vào đề xuất các mô hình phân tích
và khai phá dữ liệu lớn như: mô hình thống kê, phân tích tương quan, học máy,
để phân tích một lượng lớn dữ liệu (big data) về TTGT trong quá khứ và các khu
vực có liên quan nhằm dự đoán TTGT ở những nơi thiếu dữ liệu hiện thời (không nhận được dữ liệu cung cấp từ cộng đồng và các hệ thống khác), qua đó mở rộng
độ bao phủ và tính hiệu quả của hệ thống đề xuất
Với những vấn đề hiện tại, luận văn này sẽ tập trung giải quyết 3 vấn đề chính sau đây:
Đề xuất một cơ chế thu thập dữ liệu đảm bảo chất lượng dữ liệu đầu vào nhằm phục vụ cho quá trình học máy và phân tích dữ liệu một cách hiệu quả
Cung cấp một bộ khung cho việc ước lượng, dự đoán TTGT dựa trên cách tiếp cận máy học thông qua những thuật toán dự đoán nhằm
Trang 13tăng độ chính xác của mô hình dự đoán TTGT để giải quyết vấn đề thiếu dữ liệu TTGT trong thời gian thực tại TP Hồ Chí Minh
Một hệ thống thực nghiệm sẽ được triển khai để đánh giá tính hiệu quả và khả thi cho việc thu thập và khai phá dữ liệu dựa trên cơ chế,
mô hình được đề xuất trong luận văn này
Tính mới và đặc sắc của đề tài này là người thực hiện đề xuất phương pháp thu thập dữ liệu thực tế bằng xe máy trực tiếp tại một số tuyến đường tại Tp.HCM thông qua ứng dụng trên điện thoại thông minh được phát triển bởi nhóm nghiên cứu, cũng như thu thập dữ liệu về TTGT từ hệ thống của bên thứ 3 như TomTom [55], Sở GTVT [11] Phương pháp đề xuất này còn xác định các chiều dữ liệu đầu vào của mô hình vừa đủ, không quá nhiều và phức tạp nhưng vẫn đảm bảo được chất lượng cũng như độ chính xác Các tuyến đường và thời gian thu thập cũng được khảo sát và chọn lọc nhằm mục đích phản ánh gần đúng nhất TTGT tại Tp.HCM, dữ liệu được thu thập trong quá trình này được xem như dữ liệu hạt giống cho quá trình phân tích và xây dựng mô hình dự đoán TTGT ban đầu Kết quả của mô hình dự đoán dựa trên dữ liệu được thu thập trực tiếp bởi nhóm nghiên cứu thông qua ứng dụng đi động lúc đầu cho kết quả rất khả quan, độ chính xác tăng hơn 25%so với mô hình dự đoán TTGT dựa trên dữ liệu từ xe buýt trước đó Kết quả này cho thấy tính khả thi của phương pháp thu thập dữ liệu cũng như mô hình dự đoán được đề xuất
1.3 Phạm vi và đối tượng nghiên cứu
Phạm vi nghiên cứu: ý tưởng khoa học chính của đề tài là nghiên cứu, đề
xuất các giải pháp và xây dựng hệ thống cảnh báo ùn tắc giao thông dựa vào phân tích dữ liệu lớn Dữ liệu được sử dụng trong nghiên cứu này là dữ liệu được thu thập từ cộng đồng, từ quá trình thu thập trực tiếp từ nhóm nghiên cứu thông qua ứng dụng trên điện thoại di động và dữ liệu TTGT từ những hệ thống khác Phạm
vi thực hiện của nghiên cứu trên địa bàn Tp HCM Nghiên cứu hướng đến việc xác định các chiều dữ liệu đầu vào cần thiết cần được thu thập từ người dùng thông qua ứng dụng thu thập dữ liệu giao thông trên điện thoại dựa vào tín hiệu GPS Cụ thể hơn, nghiên cứu này sẽ hiện thực việc thu thập dữ liệu về TTGT tại 1
số tuyến đường trong Tp HCM thông qua ứng dụng được phát triển trên di động
Trang 14(android) Từ dữ liệu có được, tôi sẽ tiến hành phân tích, khai phá dữ liệu dựa trên các mô hình sẽ được đề xuất trong mục 4 giải pháp đề xuất
Đề tài này đòi hỏi người thực hiện phải áp dụng các thuật toán có sẵn để thực hiện phân tích, khai phá dữ liệu nhằm rút trích ra những thông tin có ý nghĩa cho người sử dụng cũng như nhà quản lý Đồng thời người thực hiện sẽ đề xuất các mô hình thu thập dữ liệu cũng như đánh giá tính hiệu quả, khả thi của giải pháp Với những yêu cầu trên, đề tài này phù hợp với những học viên đang theo học ngành đào tạo hệ thống thông tin quản lý cũng như ngành khoa học máy tính
Đối tượng nghiên cứu: Để xác định đối tượng được nghiên cứu trong mục
này, trước tiên cần có cái nhìn tổng quát về kiến trúc tổng quan của hệ thống được
đề xuất như minh họa ở hình 1 [32]
Hình 1 Kiến trúc tổng quan của hệ thống cảnh báo giao thông thông minh dựa vào
dữ liệu từ cộng đồng và phân tích dữ liệu lớn
Hệ thống tổng quan sẽ bao gồm 3 khối chính như sau: (1) thu thập dữ liệu từ cộng đồng thông qua thiết bị di động (cụ thể là điện thoại thông minh có kết nối
Trang 15Internet) và dữ liệu từ các thiết bị phần cứng như camera, GPS, (2) Các dữ liệu này sẽ được lưu trữ và phân tích tại hệ thống máy chủ nhằm xác định được TTGT
và từ đó cảnh báo UTGT cho người dùng (3) Các thông tin này sẽ được hiển thị trên bản đồ giao thông của thành phố thông qua ứng dụng di động hoặc ứng dụng web
Các thông tin về TTGT sẽ thường xuyên được cập nhật giúp người tham gia giao thông chọn được những lộ trình phù hợp, tránh đi vào những điểm ùn ứ, qua
đó góp phần giảm thiểu tình trạng UTGT vốn xảy ra ngày càng thường xuyên và nghiêm trọng trên địa bàn Tp HCM Các thông tin tổng hợp, thống kê về TTGT giúp nhà quản lý giao thông, quy hoạch đô thị, có những quyết định hợp lý trong điều hành, hoạch định chiến lược trong công tác chỉnh trang hạ tầng giao thông, hướng đến xây dựng hệ thống giao thông thông minh, bền vững cho thành phố
Đối tượng được nghiên cứu trong đề tài này là Bộ phân tích và dự đoán TTGT (Traffic state Analysis & Prediction) để hiện thực được bộ phân tích và
dự đoán TTGT một cách chính xác và hiệu quả thì cần phải có dữ liệu đầu vào phù hợp, cộng với các mô hình khai phá dữ liệu hợp lý Để trả lời câu hỏi này một cách rõ ràng về mặt thực nghiệm, đối tượng nghiên cứu sẽ được chia làm 3 công
việc nhỏ hơn sau đây: (1) Đề xuất phương pháp thu thập dữ liệu giao thông trong thực tế tại những con đường đã nêu ở trên thông qua ứng dụng trên điện thoại di động, (2) Từ dữ liệu thu thập được, sẽ tiến hành xử lý dữ liệu và tiến hành khai phá dữ liệu để đưa ra các mô hình dự đoán, ước lượng TTGT ở những nơi thiếu
dữ liệu, (3) Đánh giá kết quả đạt được từ quá trình thực nghiệm và đưa ra nhận xét cũng như hướng phát triển tiếp theo trong tương lai
Trang 162 CÁC NGHIÊN CỨU LIÊN QUAN
2.1 Tổng quan về tình hình ùn tắc giao thông ở Tp HCM
Quá trình đô thị hóa là một trong những điều tất yếu và đang diễn ra mạnh mẽ trên toàn thế giới Không nằm ngoài quy luật đó trong những năm trở lại đây, Tp HCM được xem là trung tâm kinh tế của cả nước và là một trong những thành phố năng động có tốc độ phát triển nhanh bậc nhất khu vực Đông Nam Á Theo đánh giá của tổng cục thống kê dân số Tp HCM vượt ngưỡng 10 triệu dân trong năm
2018 Sự gia tăng dân số nhanh đã tạo ra những áp lực rất lớn lên khả năng đáp ứng hệ thống giao thông cũng như cơ sở hạ tầng của thành phố [3-4] Với hơn 90% phương tiện là xe máy, con số thống kê hơn 7,6 triệu phương tiện, tình trạng
ùn tắc giao thông (UTGT) diễn ra phức tạp về tần số cũng như phạm vi ảnh hưởng (thời gian ùn tắc kéo dài) [7] Thiệt hại do tắc nghẽn giao thông hàng năm vào khoảng 23.000 tỷ đồng (hơn 1 tỷ USD), một con số vô cùng lớn cùng với số liệu
từ Sở Giao thông vận tải (GTVT) Tp HCM cho thấy hiện nay quỹ đất dành cho giao thông trên địa bàn thành phố rất thấp dẫn đến hệ lụy trung bình mỗi giờ kẹt
xe thành phố phải chịu thiệt tới khoảng 2,4 tỉ đồng [5-6]
Tại các thành phố lớn và đang phát triển như Tp HCM, ùn tắc giao thông là một trong những vấn đề nan giải thu hút sự quan tâm sâu sắc của lãnh đạo thành phố, nhà khoa học, doanh nghiệp và đông đảo người dân sinh sống và làm việc tại
Tp HCM Trên thực tế Tp HCM đã chú ý đầu tư và quan tâm nhiều hơn để giải quyết các vấn đề giao thông trên địa bàn thành phố Được thể hiện rõ trong những năm qua thành phố đã đầu tư xây dựng nhiều cầu vượt tại các điểm giao lộ nhằm giải quyết và cải thiện TTGT, cũng như xây dựng tuyến tàu điện trên cao Sài Gòn – Suối Tiên để chia sẽ tải cho các tuyến đường vốn đang bị quá tải [3] Bên cạnh đầu tư vào phát triển cơ sở hạ tầng, thành phố cũng chủ trương đẩy mạnh các giải pháp về công nghệ thông tin và truyền thông (ICT) để phục vụ công tác giám sát
và điều khiển cũng như vận hành, mục đích xây dựng và hướng đến các hệ thống giao thông thông minh (ITS) đã và đang trong giai đoạn nghiên cứu và triển khai [8-14] Tuy nhiên, trên thực tế tình hình giao thông trên địa bàn thành phố vẫn còn nhiều vấn đề nan giải, ùn tắc vẫn thường xảy ra, thậm chí xảy ra với tần suất và mức độ ngày càng nghiêm trọng hơn
Trang 172.2 Các nghiên cứu ở Việt Nam
Trong nước đã có một số công trình nghiên cứu liên quan nhằm góp phần giảm thiểu ùn tắc giao thông với những hỗ trợ của công nghệ thông tin và truyền thông như chương trình thông tin giao thông của Đài Tiếng nói Việt Nam (VOV) [6] và Đài Tiếng nói Nhân dân Tp HCM (VOH) [7]; cổng thông tin giao thông của Sở GTVT Tp HCM [8]; các nghiên cứu từ các trường đại học lớn như nghiên cứu tại trường Đại học Bách Khoa Tp HCM về các giải pháp nền tảng cho giao thông thông minh [9]; hệ thống mạng lưới camera giám sát và điều khiển giao thông [10]; hệ thống giám sát và xử lý vi phạm giao thông [11 - 12] Các công trình này đã bước đầu đem lại những kết quả đáng khích lệ và đưa ra các định hướng nghiên cứu nhằm giảm ùn tắc giao thông cho Tp HCM
Tuy nhiên, các chức năng xử lý trong các hệ thống hiện có vẫn còn khá thô
sơ, và đây cũng là những điểm yếu cần được đầu tư nghiên cứu nhằm nâng cao sức mạnh của các hệ thống giám sát và cảnh báo giao thông ở Việt Nam và đặc biệt là ở TP HCM Cụ thể, cơ chế phân tích dữ liệu của hệ thống thông tin giao thông của VOV [6] và VOH [7] còn đơn giản, chủ yếu dựa vào con người (quan sát hệ thống camera ở trung tâm, các phân tích của phóng viên thông qua tương tác với cộng tác viên) Các chức năng hỗ trợ như tìm đường thay thế, tìm đường đi ngắn nhất, cập nhật thông tin trên ứng dụng di động, vẫn chưa được phát triển Các hệ thống khác như hệ thống của ĐHBK TP HCM [9] thì tập trung vào phân tích TTGT từ dữ liệu GPS từ những xe buýt, dữ liệu này vốn chứa nhiều thông tin nhiễu (do sai số trên GPS) Do vậy, cần phải có nhiều giải thuật phân tích tinh vi để phân tích dữ liệu này Hơn nữa, dữ liệu GPS thường bao hàm nhiều nhiễu nên cần có cơ chế loại bỏ nhiễu phù hợp Các giải thuật lý này nhìn chung là khá phức tạp Tính hiệu quả của hệ thống sẽ tốt hơn nếu có cơ chế thu thập dữ liệu chi tiết và liên quan mật thiết với TTGT hơn như cơ chế thu thập dữ liệu trên ứng dụng di động về Thông tin giao thông của Sở GTVT TP HCM [8] Tuy nhiên, các chức năng phân tích chuyên sâu dựa vào thống kê, học máy hay khai phá dữ liệu
để đánh giá tính hợp lệ của dữ liệu, đánh giá TTGT trong điều kiện thiếu dữ liệu
(nhằm mở rộng độ phủ của hệ thống), vẫn còn thiếu trong các nghiên cứu hiện
có và cần được đào sâu nghiên cứu
Trang 182.3 Các nghiên cứu ngoài nước
Trên thế giới, giải pháp giảm ùn tắc giao thông cũng được nghiên cứu nhiều Những nghiên cứu này tập trung vào giải quyết các vấn đề lớn từ thu thập dữ liệu
(data acquisition), truyền thông dữ liệu (data communications) từ các hệ thống thu thập đến trung tâm xử lý số liệu, xử lý dữ liệu (data analysis) tại trung tâm nhằm
cung cấp thông tin chi tiết, kịp thời và đa chiều về ùn tắc giao thông giúp nhà quản
lý cũng như người dân có thể triển khai các biện pháp ứng phó kịp thời Các hệ
thống này có thể được kể đến như hệ thống VICS (Vehicle Information and Communication System) [13], hay NAVITIME [14] của Nhật Bản, hệ thống ITS
của bang Kansas, Mỹ [15] Phần lớn các nghiên cứu này sử dụng công nghệ mạng cảm biến cố định được triển khai trên các cung đường cần giám sát Hệ thống các
cảm biến này có thể là hệ thống sử dụng vòng cảm biến từ trường (loop detector)
[16 - 17], hệ thống phát hiện phương tiện dựa vào công nghệ định danh sóng radio RFID [18 - 19], hệ thống mạng camera [20],
Tương tự như các hệ thống chủ yếu dựa vào các thiết bị cảm biến, dữ liệu từ các phương tiện và tín hiệu vô tuyến đã được nghiên cứu như: Trong [61] D.B Nguyễn và các đồng nghiệp đề xuất một hệ thống giám sát tắc nghẽn giao thông bằng internet của các phương tiện, bao gồm thu thập dữ liệu, thiết lập cấu trúc phân đoạn, mô hình lưu lượng giao thông, dự đoán tắc nghẽn giao thông cục bộ và dịch vụ tắc nghẽn giao thông điểm đến cho người lái xe M Lewandowski và các đồng nghiệp của ông đề xuất một hệ thống giám sát tắc nghẽn giao thông bằng cách phân tích cường độ tín hiệu vô tuyến mà các thiết bị di động nhận được từ các đèn hiệu được đặt ở hai bên đường [62] M Elloumi và các đồng nghiệp của
cô đề xuất một hệ thống giám sát giao thông đường bộ sử dụng nhiều phương tiện bay không người lái, đây là một giải pháp hấp dẫn để giám sát giao thông đường
bộ [63] T T de Almeida và các đồng nghiệp của ông đề xuất một hệ thống theo dõi và phổ biến các điều kiện giao thông bằng cơ sở hạ tầng phi tập trung (DOCTraMS) với dữ liệu giao thông được áp dụng từ Sao Paulo, Brazil [64] Bên cạnh đó, có nhiều nghiên cứu tập trung vào khảo sát tài liệu học thuật về nguồn dữ liệu được chia sẻ từ đám đông [56], E Estellés-Arolas và các đồng nghiệp của ông đã tìm thấy gần bốn mươi cách hiểu khác nhau về nguồn cung dữ liệu từ đám đông Song song với đó những nghiên cứu khác như [57 - 58] cho thấy những tiến bộ của công nghệ di động đã cho phép việc tìm nguồn cung dữ liệu từ
Trang 19đám đông thông qua di động trong các lĩnh vực khác nhau bao gồm sản xuất, cung cấp dịch vụ, chia sẻ dữ liệu Nguồn dữ liệu được cung cấp từ đám đông được giải thích là một hành động của một tổ chức, một công ty hoặc của nhiều người (người yêu cầu) đưa ra các yêu cầu cho những người khác thông qua Internet, đám đông
sẽ cung cấp giải pháp, dữ liệu hoặc kiến thức cho người yêu cầu với mục đích ban đầu của họ, để thúc đẩy việc chia sẻ các nhà cung cấp dịch vụ hoặc dữ liệu sẽ khen thưởng theo đóng góp của những người chia sẻ từ đám đông thông qua nhiều cách khác nhau như tiền, xác nhận trách nhiệm xã hội, quyền truy cập thông tin hoặc sử dụng dịch vụ miễn phí v.v Phương pháp tiếp cận nguồn cung ứng đám đông đã được sử dụng rộng rãi trong quản lý thảm họa và chia sẻ thông tin trong các công
ty hoặc cộng đồng [59] Ushahi có thể là một ví dụ thành công của phương pháp tìm nguồn cung ứng đám đông để chia sẻ và phân tích dữ liệu, phổ biến các hướng dẫn sơ tán cho người dùng tại chỗ và hỗ trợ các tình nguyện viên tiến hành giải cứu hiệu quả trong trận động đất ở Haiti [60]
Tuy nhiên, ở những nước đang phát triển như Việt Nam, những hệ thống mạng cảm biến cố định như các phân tích ở trên chưa thể áp dụng vì những lý do
về bài toán chi phí xây dựng, vận hành và bảo trì Trong những năm gần đây,
những nghiên cứu sử dụng công nghệ mạng di động, thiết bị di động (điện thoại thông minh, máy tính bảng, ) để đo đạt, thu thập dữ liệu liên quan đến giao thông
[21 - 24] đã cho thấy được sự hiệu quả và tính khả thi khi áp dụng vào thực tế Do thiết bị di động xuất hiện ở mọi nơi và hầu như đã được phổ cập đến mọi người dân nên các vấn đề về độ bao phủ, chi phí vận hành sẽ được giải quyết nếu có một
mô hình thu thập, xử lý và phân tích dữ liệu hiệu quả Bên cạnh đó, tính hiệu quả của phương pháp sử dụng dữ liệu từ đám đông được thể hiện thông qua các nghiên cứu trong [57 – 60]
Trang 203 NỀN TẢNG LÝ THUYẾT
3.1 Các cách tiếp cận hiện có về cảnh báo TTGT trong đô thị
Như đã trình bày ở mục 2.2 các nghiên cứu trong nước, một số công trình nghiên cứu liên quan nhằm góp phần giảm thiểu UTGT với những hỗ trợ của công nghệ thông tin và truyền thông phải kể đến như: kênh giao thông đô thị trên tần số 95.6 MHz (VoH), trang web thông tin về TTGT của Sở GTVT Tp HCM thông qua tín hiệu thu thập được từ GPS xe buýt, thông qua hệ thống mạng lưới camera giám sát [11] Các hệ thống này đã và đang được sử dụng để cung cấp những cảnh báo về TTGT cho người dân trên địa bàn Tp HCM Bên cạnh những thế mạnh của những hệ thống như: được đông đảo người dân quan tâm, đóng góp thông tin về TTGT bằng cách gọi trực tiếp đến đường dây nóng, hay sự thuận tiện mà hệ thống camera của sở GTVT mang lại là cung cấp dữ liệu về TTGT gần như theo thời gian thực trên địa bàn thành phố Tuy nhiên, vẫn còn đó những hạn chế từ 2 hệ
thống trên như sau: (1) về độ bao phủ (đã được đề cập ở phần trước, liên quan đến chi phí lắp đặt hệ thống camera, các thiết bị giám sát) (2) cơ chế dự đoán, thống
kê, cảnh báo về TTGT đến người dùng còn nhiều hạn chế như chưa có các chức năng hỗ trợ tìm đường thay thế, tìm đường đi ngắn nhất, cập nhật thông tin về TTGT trực tiếp đến ứng dụng di động, cũng như các báo cáo, dự đoán … vẫn chưa được phát triển Thay vào đó, các chức năng nêu trên được thực hiện chủ yếu dựa vào con người
Với những hạn chế trên, phương pháp thu thập và đánh giá TTGT dựa vào dữ liệu từ cộng đồng có thể giải quyết những khuyết điểm của các phương pháp thu
thập dữ liệu truyền thống về độ bao phủ Tuy nhiên, vấn đề thiếu dữ liệu (data missing) vẫn có thể còn tồn tại Cụ thể, tại thời điểm phân tích dữ liệu giao thông
để tính ra vận tốc trung bình của dòng xe trên các đoạn đường, dữ liệu của nhiều
đoạn đường sẽ bị thiếu (do không có người chia sẻ dữ liệu ở tuyến đường đang xét) Khi dữ liệu bị thiếu thì các phương pháp tính toán, suy diễn thông thường sẽ
không thực hiện được
Để giải quyết vấn đề này, các kỹ thuật khai phá dữ liệu có thể được sử dụng
để phân tích dữ liệu trong quá khứ, dự đoán được TTGT Cụ thể, các phương pháp này sẽ "học" các quy luật về TTGT ở các tuyến đường trong một khung thời gian
cụ thể, đã thu thập được trong quá khứ (ví dụ TTGT của đoạn đường cụ thể vào
Trang 21khoảng 7:00 đến 9:00 sáng các ngày trong tuần là luôn đông xe), để dự đoán
TTGT ở thời điểm hiện tại
3.2 Định nghĩa khai phá dữ liệu
Thuật ngữ khai phá dữ liệu (KPDL) mới được biết đến trong những năm
1990 Sự ra đời của KPDL cùng với ba ngành khoa học khác: thống kê (Statistics), trí tuệ nhân tạo (AI-Artificial Intelligence) và học máy (Machine Learning) nhấn mạnh tầm quan trọng, và lợi ích của dữ liệu [43] KPDL được các công ty và tổ chức trên thế giới định nghĩa theo nhiều chiều như sau:
Theo Data-Flair [44], một trang web cung cấp các khóa học, các kiến thức về
Dữ liệu lớn (Big Data) và khoa học dữ liệu (Data Science), định nghĩa, “là một tập hợp, một hệ thống các phương pháp tính toán, thuật toán được áp dụng cho các cơ
sở dữ liệu lớn và phức tạp (cơ sở dữ liệu lớn, từ nhiều nguồn với nhiều định dạng phi cấu trúc khác nhau như âm thanh, hình ảnh, văn bản, …) mục đích loại bỏ các chi tiết ngẫu nhiên, chi tiết ngoại lệ, khám phá các mẫu, mô hình, quy luật tiềm ẩn, các thông tin có giá trị trong bộ dữ liệu KPDL là thành quả công nghệ tiên tiến ngày nay, là quá trình khám phá các kiến thức vô giá bằng cách phân tích khối lượng lớn dữ liệu đồng thời lưu trữ chúng ở nhiều cơ sở dữ liệu khác nhau”
Còn theo SAS [45], công ty chuyên cung cấp các phần mềm, giải pháp lưu trữ
và phân tích dữ liệu toàn cầu, định nghĩa KPDL “là quá trình tìm kiếm các chi tiết bất thường, các mẫu, mô hình, quy luật của dữ liệu và mối tương quan giữa các tập
dữ liệu lớn để dự đoán kết quả, thiết lập các dự báo Bằng cách áp dụng một loạt các kỹ thuật khác nhau, thông tin có được từ KPDL sẽ hỗ trợ tăng doanh thu, cắt giảm chi phí, cải thiện mối quan hệ khách hàng, giảm rủi ro” Tuy có nhiều định nghĩa về KPDL nhưng nhìn chung có thể hiểu KPDL là quá trình khám phá và phân tích khối lượng lớn dữ liệu để tìm ra các mẫu dữ liệu và quy tắc có ý nghĩa,
là một trong lĩnh vực nghiên cứu khoa học dữ liệu, khai thác và sử dụng các dữ kiện, thông tin có giá trị từ dữ liệu để phục vụ đưa ra dự báo, quyết định trong tương lai [43]
Mục đích việc phát hiện tri thức từ dữ liệu KPDL là cốt lõi của quá trình khám phá tri thức gồm có các giải thuật KPDL chuyên dùng, dưới một số quy định
về hiệu quả tính toán chấp nhận được KPDL nhằm tìm ra những mẫu mới, những thông tin tiềm ẩn mang tính dự đoán chưa được biết đến, có khả năng mang lại lợi
Trang 22ích cho người sử dụng và KPDL là tìm ra các mẫu được quan tâm nhất tồn tại trong CSDL, nhưng chúng lại bị che giấu bởi một số lượng lớn dữ liệu [42]
3.3 Dữ liệu lớn
Dữ liệu lớn (Big data) là một thuật ngữ được sử dụng từ cuối những năm
1990, dùng để chỉ lượng dữ liệu khổng lồ được tạo ra bởi các công ty hoạt động ở các ngành nghề khác nhau, chính phủ, cá nhân và các thiết bị điện tử Big data là một tập hợp dữ liệu rất lớn và phức tạp đến nỗi những công cụ, ứng dụng xử lý dữ liệu truyền thống không thể nào đảm đương được Tuy nhiên, nó lại chứa trong mình rất nhiều thông tin quý giá mà nếu trích xuất thành công sẽ giúp rất nhiều cho việc nắm bắt xu thế trong kinh doanh, nghiên cứu khoa học, dự đoán để phòng tránh các dịch bệnh sắp phát sinh, phát hiện sớm tội phạm, hay đo lường điều kiện giao thông theo thời gian thực [46]
Nói đến Big Data chúng ta thường nói đến 5V (Volume, Velocity, Variety, Veracity, Value) để thể hiện đặc trưng của Big Data [54], dựa vào 5 đặc trưng trên
để liên hệ và giải thích về lý do đề tài này có tiêu đề là dựa vào phân tích dữ liệu lớn
Về mặt Volume (độ lớn của dữ liệu) được hiểu là sự tăng về khối lượng, nói
đến sự không ngừng tăng lên về kích thước, khối lượng của dữ liệu trong các hệ thống thông tin Dữ liệu có thể được tìm thấy dưới nhiều định dạng khác nhau
như: hình ảnh, âm thanh, văn bản, video, … Velocity (tốc độ) dùng để mô tả sự
tăng tưởng về mặt tốc độ Bên cạnh sự gia tăng không ngừng về khối lượng, tốc độ
tăng trưởng của dữ liệu cũng tăng lên một cách rất nhanh chóng Variety (đa
dạng) thể hiện sự tăng lên về tính đa dạng của dữ liệu Dữ liệu sẽ phong phú với rất nhiều cấu trúc khác nhau như: dữ liệu có cấu trúc và dữ liệu phi cấu trúc (dữ liệu dưới dạng video, hình ảnh, dữ liệu cảm biến, các file logs hệ thống, …) Chính
vì sự đa dạng về mặt dữ liệu trong các doanh nghiệp và các tổ chức tăng lên dẫn
đến tính phức tạp của dữ liệu trở nên ngày càng phức tạp Trong khi đó Veracity
(độ tin cậy/ chính xác) là tính xác thực của dữ liệu, với sự bùng nổ của công nghệ
cũng như các nền tảng mạng xã hội dẫn đến sự gia tăng mạnh mẽ tính tương tác và chia sẻ dữ liệu người dùng làm cho bài toán xác định độ tin cậy và chính xác của
dữ liệu ngày một khó khăn hơn, thách thức về phân tích và loại bỏ dữ liệu thiếu chính xác cũng như nhiễu sẽ đóng vai trò quan trọng của Big Data Đặc trưng cuối
Trang 23cùng của Big Data là Value (giá trị) giá trị thông tin là tính chất quan trọng nhất
của xu hướng công nghệ Big Data, vì khi bắt đầu triển khai xây dựng dữ liệu lớn thì việc đầu tiên chúng ta cần phải làm đó là xác định được giá trị của thông tin mang lại như thế nào, khi đó chúng ta mới có quyết định có nên triển khai dữ liệu lớn hay không Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của dữ liệu lớn mang lại
Với những đặc điểm của dữ liệu lớn được mô tả ở trên, dữ liệu lớn trong đề
tài này thể hiện ở những điểm sau: Volume (độ lớn dữ liệu) dữ liệu được thu thập
đa dạng từ nhiều nguồn khác nhau như dữ liệu thu thập từ TomTom [55], từ ứng
dụng cảnh báo TTGT trên di động (phục vụ cho người dân tại Tp HCM, với dân
số 10 triệu), thu thập từ hệ thống của VoH, sở GTVT Velocity (tốc độ) lượng dữ
liệu tăng nhanh từng ngày thông qua các ứng dụng thu thập dữ liệu tự động từ
TomTom (ước lượng với dữ liệu thu thập từ ứng dụng TomTom sẽ thu thập được 25,000 records mỗi giờ, lượng dữ liệu này còn có thể tăng lên khi chúng ta tăng số lượng key API được đăng ký từ TomTom), sở GTVT, VoH; dữ liệu được thu thập
từ ứng dụng giao thông được cài đặt trên máy người dùng cũng không ngừng tăng
nhanh khi số lượng người sử dụng tăng lên (trên ứng dụng này cứ mỗi 8 giây sẽ thu thập được 1 dữ liệu về TTGT, mỗi giờ sẽ thu thập được 450 records, lượng dữ
liệu này sẽ tăng theo tỉ lệ thuận với số lượng người sử dụng ứng dụng) Variety
(đa dạng) dữ liệu thể hiện tính đa dạng dưới những định dạng khác nhau (dữ liệu thu thập được từ TomTom ở dạng text; dữ liệu thu thập từ ứng dụng di động ở dạng text, hình ảnh, âm thanh; dữ liệu thu thập từ camera của sở GTVT ở dạng
hình ảnh, dữ liệu thu thập được từ kênh giao thông VoH ở dạng text) Veracity
(độ tin cậy) với những dữ liệu được thu thập từ những hệ thống nêu trên có độ tin
cậy cao được thể hiện thông qua những biểu mẫu để báo TTGT trên ứng dụng di động, cũng tương tự như vậy đối với dữ liệu từ VoH khi người dùng gọi lên tổng đài để chia sẻ dữ liệu về TTGT tại 1 địa điểm Đối với dữ liệu thu thập từ sở GTVT và TomTom, những dữ liệu này được thu thập từ các thiết bị cảm biến, camera nên có độ tin cậy cũng như tính chính xác cao
3.4 Các thuật toán ứng dụng trong các giải thuật phân loại dữ liệu
Phân loại dữ liệu là quá trình phân lớp một đối tượng dữ liệu vào một hay nhiều lớp đã cho trước nhờ một mô hình phân lớp Mô hình này được xây dựng
Trang 24dựa trên một tập dữ liệu được xây dựng trước đó có gán nhãn (hay còn gọi là tập huấn luyện) Quá trình phân lớp là quá trình gán nhãn cho đối tượng dữ liệu [47]
Hình 2 Xác định bi mới thêm vào thuộc lớp bi màu nào?
Hình 2 là một ví dụ minh họa cho bài toán phân lớp, mục đích xác định bi mới thêm vào thuộc nhóm bi màu đỏ hay bi màu xanh Qua ví dụ này, ta nắm được nhiệm vụ chính của bài toán phân lớp là tìm một mô hình phân lớp để khi có
dữ liệu đầu vào sẽ có thể xác định được dữ liệu này thuộc phân lớp nào Những giải thuật thường được sử dụng trong bài toán phân lớp sẽ được trình bày sau đây
Giải thuật Support Vector Machine (SVM)
Support Vector Machine (SVM) là một thuật toán giám sát, có thể sử dụng cho cả việc phân loại hoặc đệ quy Tuy nhiên nó được sử dụng chủ yếu cho việc phân loại (phân chia dữ liệu thành các nhóm riêng biệt)
Trang 25Hình 3 Ví dụ phân loại dữ liệu bằng thuật toán SVM
Hình 3 là một ví dụ phân loại dữ liệu trên cùng một mặt phẳng với các điểm xanh và đỏ Bằng phương pháp sử dụng giải thuật SVM ta có thể tìm được các đường thẳng để phân chia hai nhóm điểm xanh và đỏ riêng biệt [48] Với những
bộ dữ liệu phức tạp hơn hai chiều, không thể tìm được đường thẳng để phân chia thì ta cần dùng thuật toán để ánh xạ dữ liệu đó vào không gian nhiều chiều hơn, từ
đó tìm ra siêu mặt phẳng (hyperplane) để phân chia
Hình 4 Ví dụ phân loại dữ liệu 3 chiều bằng thuật toán SVM
Trang 26Giải thuật Random Forest
Random Forest là một tập hợp mô hình (ensemble) Mô hình Random Forest rất hiệu quả cho các bài toán phân loại vì nó huy động cùng lúc hàng trăm mô hình nhỏ hơn bên trong với quy luật khác nhau để đưa ra quyết định cuối cùng Mỗi mô hình con có thể mạnh yếu khác nhau, nhưng theo nguyên tắc “wisdom of the crowd” (trí khôn của đám đông), ta sẽ có cơ hội phân loại chính xác hơn so với khi
sử dụng bất kì một mô hình đơn lẻ nào [49]
Ý nghĩa của Random Forest (RF) dựa trên cơ sở:
• Random = Tính ngẫu nhiên;
• Forest = Nhiều cây quyết định (decision tree)
Đơn vị của RF là thuật toán cây quyết định, với số lượng hàng trăm Mỗi cây quyết định được tạo ra một cách ngẫu nhiên từ việc: Tái chọn mẫu (bootstrap, random sampling) và chỉ dùng một phần nhỏ tập biến ngẫu nhiên (random features) từ toàn bộ các biến trong dữ liệu Ở trạng thái sau cùng, mô hình RF thường hoạt động rất chính xác, nhưng đổi lại, ta không thể nào hiểu được cơ chế hoạt động bên trong mô hình vì cấu trúc quá phức tạp RF do đó là một trong số những mô hình hộp đen (black box)
Hình 5 Minh họa giải thuật Random Forest
Trang 27Giải thuật cây quyết định
Cây quyết định (Decision Tree) là một mô hình thuộc nhóm thuật toán Học
có giám sát (Supervised Learning), là mô hình đưa ra quyết định dựa trên các câu hỏi, có cấu trúc là 1 cây phân cấp được dùng để phân lớp các đối tượng dựa vào dãy các luật, Cây quyết định được áp dụng vào cả 2 bài toán: Phân loại (classification) và hồi quy (Regression) , tuy nhiên bài toán phân loại được sử dụng phổ biến hơn [50] Mô hình của cây quyết định như sau:
• Node nội: phép kiểm thử (test) trên một thuộc tính
• Node lá: nhãn/ mô tả của một lớp (class label)
• Nhánh từ một node nội: kết quả của một phép thử trên thuộc tính tương ứng
Hình 6 thể hiện ví dụ để minh họa về mô hình cây quyết định, đưa ra khả năng chơi tennis dựa vào các yếu tố thời tiết (mưa, nắng, sức gió, độ ẩm)
Hình 6 Cây quyết định trong bài toán dự đoán khả năng chơi tennis dựa vào thời
tiết
Có nhiều thuật toán để tạo một cây quyết định như CART, ID3 [65], … Mục này chủ yếu giới thiệu về những giải thuật chứ không đi sâu chi tiết vào nó
Trang 28Giải thuật Naive Bayes
Naive Bayes (NB) là một thuật toán phân loại dựa trên tính toán xác suất áp dụng định lý Bayes (“Định lý Bayes là một định lý toán học để tính xác suất xảy ra của một sự kiện ngẫu nhiên X khi biết sự kiện liên quan Y đã xảy ra”) Thuật toán này thuộc nhóm học giám sát (supervised learning) [51]
Theo định lý Bayes, ta có công thức tính xác suất ngẫu nhiên của sự kiện b khi biết a như sau:
𝑃(𝑏|𝑎) = 𝑃(𝑎|𝑏)𝑃(𝑏)
𝑃(𝑎) (1) Trong đó:
P(b|a) là xác suất xảy ra của một sự kiện ngẫu nhiên b khi biết sự kiện liên quan a đã xảy ra
P(a|b) là xác suất xảy ra a khi biết b xảy ra
P(a) là xác suất xảy ra của riêng a mà không quan tâm đến b
P(b) là xác suất xảy ra của riêng b mà không quan tâm đến a
Giả sử ta phân chia 1 sự kiện a thành n thành phần khác nhau 𝑎1, 𝑎2, …, 𝑎𝑛
là các thành phần độc lập với nhau Từ đó ta có thể tính được:
𝑃(𝑎|𝑏) = 𝑃 (𝑎1 ∩ 𝑎2 ∩ … 𝑎𝑛 |𝑏) = 𝑃(𝑎1|𝑏)𝑃(𝑎2|𝑏) … 𝑃(𝑎𝑛|𝑏) (2) Trong đó:
𝑃(𝑎𝑖|𝑏) là xác suất xảy ra 𝑎𝑖 khi biết b xảy ra, với i chạy từ 1 đến n
mô hình nhanh, đem lại hiệu quả bất ngờ với các lớp bài toán nhất định
Cách xác định các thành phần (class) của dữ liệu dựa trên giả thiết này có tên
là Naive Bayes Classifier
Trang 294 GIẢI PHÁP ĐỀ XUẤT
4.1 Các mô hình thu thập dữ liệu đề xuất
Như đã xác định vấn đề lúc đầu, đề tài này sẽ giải quyết 2 bài toán: bài toán
về thu thập lượng dữ liệu đủ lớn trong lịch sử, đề xuất mô hình phân tích và khai phá hiệu quả dữ liệu Để thu thập được lượng dữ liệu đủ lớn phục vụ cho quá trình khai phá và phân tích hiệu quả, tôi cần thu thập dữ liệu từ nhiều nguồn với số lượng lớn Qua quá trình nghiên cứu và tìm hiểu, tôi có thể thu thập dữ liệu từ những nguồn sau: dữ liệu về TTGT được thu thập trực tiếp thông qua ứng dụng di động, dữ liệu từ hệ thống camera của Sở GTVT, dữ liệu từ bên nhà cung cấp thứ 3
(trong trường hợp này tôi chọn TomTom [55]), dữ liệu từ kênh giao thông đô thị
VoH, dữ liệu được chia sẻ từ người sử dụng thông qua ứng dụng cảnh báo giao
thông (đang được phát triển bới nhóm nghiên cứu của thầy Trần Minh Quang)
Dữ liệu thu thập được từ những nguồn nêu trên có 2 định dạng: hình ảnh và text
Vì định dạng khác nhau, nên với từng kiểu dữ liệu cụ thể cần có cơ chế thu thập và
xử lý khác nhau, ví dụ dữ liệu từ camera có định dạng là hình ảnh, dữ liệu này sau
khi thu thập về cần có cơ chế xử lý hình ảnh (cơ chế sử dụng đến những kỹ thuật như trực quan máy tính, xử lý ảnh…) để xác định mức độ dịch vụ, hay TTGT
thông qua hình ảnh ghi lại được từ camera, sau đó gán nhãn mức độ phục vụ trên từng hình ảnh và sau đó tiến hành dự xây dựng mô hình đoán dựa trên bộ dữ liệu
đó Tương tự như vậy với dữ liệu được thu thập dưới dạng text, cũng cần có cơ
chế xử lý dữ liệu cụ thể (tuy nhiên, cơ chế xử lý dữ liệu text, đơn giản hơn so với
dữ liệu hình ảnh vì dữ liệu thu thập ở dạng text đã có vận tốc cụ thể)
Trong luận văn này tôi tập trung vào thu thập và xử lý dữ liệu dưới dạng text,
vì 3 lý do sau: độ lớn của dữ liệu (dữ liệu thu thập dưới dạng text có số lượng lớn hơn rất nhiều so với hình ảnh, nguồn dữ liệu thu thập được từ ứng dụng di động
và bên nhà cung cấp thứ 3 đều ở dạng text, chỉ có dữ liệu từ camera ở dạng hình ảnh, dữ liệu dưới dạng text độ lớn và độ tăng của dữ liệu rất nhanh, phù hợp với tên đề tài là phân tích dữ liệu lớn), cơ chế xử lý dữ liệu đơn giản (xử lý nhanh, hiệu quả và chi phí thấp hơn so với dữ liệu hình ảnh), định dạng dữ liệu phù hợp
và giống định dạng thực tế của dữ liệu chia sẻ từ người dùng (dữ liệu được chia sẻ
từ đám đông thông qua ứng dụng trên di động) Với những lý do trên tôi đề xuất 2
phương pháp thu thập dữ liệu trực tiếp từ ứng dụng di động và từ TomTom dưới dạng text, được trình bày chi tiết sau đây
Trang 304.1.1 Mô hình thu thập dữ liệu trực tiếp từ ứng dụng di động
Với khó khăn hiện tại, giai đoạn đầu thực hiện nghiên cứu tôi đề xuất phương pháp thu thập dữ liệu thực tế thông qua ứng dụng được cài đặt trên điện thoại di động hệ điều hành android Ứng dụng dựa trên tín hiệu từ GPS để tính toán vận tốc di chuyển của phương tiện tham gia giao thông tại những con đường xác định (những con đường cụ thể sẽ được đề cập trong mục thực nghiệm) Những dữ liệu
về TTGT được gửi về máy chủ (server) thông qua mạng 3G/4G Dữ liệu về TTGT này sẽ được lưu trữ trên máy chủ (trên cloud) để phục vụ cho quá trình phân tích
và khai phá dữ liệu được mô tả như hình 7 “Mô hình thu thập dữ liệu từ ứng dụng trên di động”
Khó khăn gặp phải trong phương pháp thu thập dữ liệu này là làm sao thu thập được lượng dữ liệu đủ lớn để đưa vào mô hình khai phá dữ liệu, cũng như làm thế nào để có cách thu thập dữ liệu hiệu quả, chính xác về TTGT và khoảng thời gian giữa các lần thu thập dữ liệu
Hình 7 Mô hình thu thập dữ liệu từ ứng dụng trên di động
Hệ thống thu thập dữ liệu đề xuất như ở hình 7 bao gồm 3 thành phần chính
như sau: (1) Ứng dụng thu thập dữ liệu về TTGT trên điện thoại di động Ứng dụng này có thể được hiểu như 1 đầu dò (probe) dùng để hỗ trợ công tác thu thập
dữ liệu TTGT, được chạy ở chế độ rảnh tay trên điện thoại di động thực hiện thu thập những thông tin về TTGT bao gồm:
• Vị trí: bao gồm thông tin kinh độ và vĩ độ (long, lat) tại mỗi thời điểm ứng
dụng gửi thông tin lên máy chủ
• Thời gian: thời điểm (timestamp) báo cáo về TTGT được gửi về hệ thống
Trang 31• Tốc độ: vận tốc của chủ phương tiện đang mở ứng dụng thu thập dữ liệu
TTGT trên thiết bị di động (vận tốc được ứng dụng tính toán dựa trên GPS)
Đây là 3 thông tin chính được thu thập từ ứng dụng trên điện thoại di động
(android) để phục vụ cho quá trình khai phá TTGT (2) API phục vụ cho việc giao
tiếp giữa thiết bị di động và máy chủ dùng để gửi và nhận thông tin, dữ liệu Những thông tin trên được xem là dữ liệu thô ban đầu, được điện thoại gửi về máy
chủ với khoảng thời gian 8 giây/lần (qua khảo sát, 8 giây thu thập dữ liệu từ GPS
là hợp lý để đảm bảo: thời gian xử lý và đáp ứng từ tín hiệu GPS, dữ liệu có thể bao phủ tất cả các đoạn đường (segment) thuộc con đường) Các thông tin này sẽ
được ghi vào cơ sở dữ liệu để lưu trữ (3) Lưu trữ dữ liệu bằng Mongo DB
(Mongo DB được sử dụng bởi vì một số ưu điểm của lưu trữ dữ liệu dưới dạng văn bản (text)), mongo DB sẽ lưu tất cả dữ liệu nhận được từ ứng dụng để phục vụ cho
công tác xử lý dữ liệu trước khi đưa vào mô hình khai phá dữ liệu
Một hạn chế của phương pháp thu thập dữ liệu từ ứng dụng di động là cần sự tham gia từ rất nhiều tình nguyện viên để có thể thu thập lượng lớn dữ liệu cần thiết phục vụ cho quá trình xây dựng mô hình dự đoán Từ những hạn chế về nguồn nhân lực cũng như chi phí để thực hiện công việc thu thập dữ liệu giao thông thực tế Thách thức cần phải giải quyết là làm thế nào để có một phương pháp cũng như cách thức thu thập dữ liệu hiệu quả về mặt số lượng, chất lượng cũng như chi phí May thay, trong quá trình tìm hiểu tôi đã tìm được một nhà cung cấp dữ liệu giao thông TomTom [55], cung cấp dữ liệu giao thông cho người dùng miễn phí, cho phép người dùng truy vấn và thu thập dữ liệu giao thông từ hệ thống của họ TomTom là một công ty có trụ sở chính tại Hà Lan, chuyên cung cấp các giải pháp liên quan đến bản đồ số cũng như dữ liệu liên quan đến giao thông toàn cầu Với dữ liệu về TTGT được cung cấp miễn phí, TomTom giới hạn lượng dữ
liệu truy vấn cho mỗi tài khoản là 2500 đơn vị dữ liệu (records) Để giải quyết vấn
đề giới hạn dữ liệu truy vấn này, tôi đã sử dụng nhiều tài khoản để thu thập dữ liệu cùng lúc nhằm tăng số lượng dữ liệu được phép thu thập từ TomTom
Trang 32Một ứng dụng thu thập dữ liệu từ hệ thống TomTom sử dụng ngôn ngữ python được phát triển để thu thập dữ liệu TTGT được đề xuất như hình 8 Hệ thống thu thập dữ liệu từ TomTom ở hình 8 bao gồm 3 thành phần chính như sau: (1) Ứng dụng thu thập dữ liệu TTGT thông qua API chạy trên máy tính và Google CoLab [53]
(2) API từ TomTom cung cấp thông tin TTGT dựa trên thông tin truy vấn từ (1), dữ liệu này phục vụ cho việc xây dựng mô hình dự đoán thực nghiệm
(3) Lưu trữ và tiền xử lý dữ liệu, dữ liệu sẽ được lưu trữ tại máy tính (máy tính trên Google Colab) chạy ứng dụng thu thập dữ liệu được xuất ra dưới định
dạng csv, dữ liệu này sẽ được tiếp tục tiền xử lý và gán nhãn mật độ, định dạng của dữ liệu sau khi được tiền xử lý sẽ được trình bày ở mục tiếp theo 4.2
Hình 8 Mô hình thu thập dữ liệu từ TomTom
Ứng dụng thu thập dữ liệu TTGT thông qua việc sử dụng API công khai từ TomTom được hiểu như là công cụ để thực hiện 2 việc sau: (1) gửi yêu cầu
(request) hỏi API của TomTom về vận tốc tại 1 ví trí tại 1 thời điểm xác định là
bao nhiêu? thông qua cặp dữ liệu đầu vào là kinh độ và vĩ độ (long, lat), (2) nhận
thông tin phản hồi (respone) từ TomTom và sau đó ghi lại thông tin về TTGT với
Trang 33định dạng xác định Thông tin về TTGT được ghi lại trên ứng dụng này cũng tương tự như thông tin thu thập được trên ứng dụng di động được đề cập ở mục 4.2.1 có những thông tin như sau:
• Vị trí: được xác định thông qua 2 cặp kinh-vĩ độ đầu và cuối (slong, slat và
elong, elat) tại mỗi thời điểm ứng dụng gửi thông tin lên máy chủ Khác với
cách thức thu thập dữ liệu trên ứng dụng di động chỉ cần duy nhất 1 cặp kinh độ, vĩ độ Lý do có 2 cặp kinh-vĩ độ đầu cuối sẽ được giải thích chi tiết
ở mục 5.2.2
• Thời gian: thời điểm (timestamp) báo cáo về TTGT được gửi về hệ thống
• Tốc độ: vận tốc tức thời của đoạn đường đó, tại thời điểm mà ứng dụng
truy xuất thông tin về TTGT
Bộ 3 thông tin chính này sẽ được thu thập và lưu trữ dưới định dạng csv để phục vụ cho trình khai phá TTGT, sẽ được trình bày chi tiết trong mục 5 thực nghiệm
4.2 Mô hình dự đoán dữ liệu
Nghiên cứu này đề xuất 1 khung khai phá dữ liệu lịch sử để dự đoán TTGT tại những đoạn đường thiếu dữ liệu giao thông thời gian thực, tình huống này rất phổ biến trong cách tiếp cận bằng phương pháp sử dụng dữ liệu được chia sẻ từ đám đông, khi người dùng tắt dịch vụ định vị trên di động hoặc khi không có người dùng sử dụng ứng dụng di chuyển trên các tuyến đường cần thông tin về TTGT
Một yêu cầu quan trọng đặt ra là khung đề xuất phải gọn nhẹ nhưng hiệu quả
để huấn luyện và đào tạo mô hình khai phá, nghĩa là không quá phức tạp trong quá trình thu thập và tích hợp một cách thuận tiện Cụ thể hơn, mô hình đề xuất có thể
sử dụng tốt dữ liệu TTGT được trích xuất từ GPS được cung cấp bởi thiết bị di động từ đám đông Mặc khác, trong những kỹ thuật khai phá khác nhau, kỹ thuật phù hợp nhất sẽ được đưa vào khung đề xuất
Một con đường thường khá dài và TTGT cũng không giống nhau tại những đoạn khác nhau trên cùng một con đường Do đó, việc quản lý cũng như thể hiện TTGT trên cả con đường là không hợp lý Để giải quyết các khó khăn này, việc chia 1 con đường thành các đoạn đường ngắn hơn để dễ quản lý và thể hiện TTGT chi tiết cần thiết Các đoạn đường này đủ ngắn để thông tin về TTGT trên đoạn
Trang 34đường đó là đồng nhất Ngược lại các đoạn đường này cũng nên được tạo ra một cách phù hợp để chúng không quá ngắn dẫn đến sự bùng nổ về khối lượng dữ liệu, làm giảm hiệu quả trong quá trình lưu trữ, quản lý và xứ lý dữ liệu về TTGT
Trong nghiên cứu này chúng tôi sử dụng bản đồ mã nguồn mở OSM (Open Street Map) [31] là bản đồ để thể hiện TTGT của các con đường, cũng như sử dụng các đoạn đường (segment) đã được chia sẵn trên bản đồ này (1 con đường sẽ được chia thành nhiều đoạn nhỏ hơn được xác định thông qua segment ID) Mỗi
segment là một đoạn thẳng, được xác định bằng tọa độ của một điểm đầu và một điểm cuối Do đó với định dạng dữ liệu được thu thập từ ứng dụng di động cần có
cơ chế để chuyển đổi từ vị trí dựa trên kinh độ và vĩ độ (long, lat) sang đoạn
đường (segment ID) để hiển thị TTGT trên bản đồ OSM Sau khi chuyển từ kinh
độ, vĩ độ (long, lat) thành segment ID sẽ có được kết quả với định dạng như bảng
1 bên dưới:
Bảng 1: Bảng dữ liệu sau khi chuyển từ kinh độ, vĩ độ sang segment ID
Latitude Longtitude speed timestamp Segmnet ID
• Gom cụm dữ liệu từng con đường với 1 chiều xác định (ví dụ: tập hợp tất
cả các đoạn đường của đường Trường Chinh theo hướng từ Bà Quẹo về Ngã Tư Bảy Hiền thành 1 tập dữ liệu)
• Chuẩn hóa vận tốc của từng đoạn đường, vì yêu cầu của hệ thống sẽ thể hiện TTGT của từng đoạn đường trong khoản thời gian xác định là 5 phút,
cứ 5 phút hệ thống sẽ cập nhật TTGT mới lên bản đồ
Trang 35• Gán nhãn cho dữ liệu dựa trên vận tốc tại đoạn đường đó thông qua bảng 2
5 mức độ phục vụ của dịch vụ được mô tả bên dưới:
Bảng 2: Mô tả 5 mức độ phục vụ của dịch vụ
Mức độ phục vụ (LOS)
Vận tốc lưu thông trong đô thị
(km/h), V
Thời gian trễ của phương tiện tại các nút giao
(giây/xe), D
Giới hạn vận tốc
(40 or
50 km/h)
Giới hạn vận tốc (60 km/h)
Giới hạn vận tốc
(70 km/h)
E (ùn tắc nhẹ) 5∼15 10∼25 15∼25 60≤D<80
F (ùn tắc) V<5 V<10 V<15 80≤D
Ban đầu bảng mô tả gồm 6 mức độ phục vụ dịch vụ gồm các nhãn [A, B, C,
D, E, F] [28], theo nghiên cứu và khảo sát về TTGT tại các đô thị, cụ thể tại Tp HCM với dân số hơn 10 triệu, tôi quyết định kết hợp 2 mức độ thể hiện mức độ phục vụ dịch vụ tốt nhất là A và B lại thành A/B Sau cùng đề xuất bảng 5 mức độ phục vụ dịch vụ với vận tốc chi tiết như sau:
• LOS A/B (V>= 30) được thể hiện bằng màu xanh lá cây trên bản đồ, tương ứng với mức độ giao thông thông thoáng
• LOS C (20~30) được thể hiện bằng màu vàng nhạt trên bản đồ, tương ứng với mức độ giao thông xe đông di chuyển bình thường
Trang 36• LOS D (15~20) được thể hiện bằng màu vàng đậm, tương ứng với mức độ giao thơng xe đơng di chuyển được
• LOS E (5~15) được thể hiện bằng màu cam, tương ứng với mức độ giao thơng xe đơng di chuyển chậm
• LOS F (V<5) được thể hiện bằng màu đỏ, tương ứng với mức độ giao thơng ùn tắc
Mơ hình hĩa sử dụng cho quá trình phân tích và khai phá dữ liệu được mơ tả trong hình 9 bên dưới
Hình 9 Mơ hình đề xuất dự đốn tình trạng giao thơng
Mơ hình dự đốn TTGT dựa vào phân loại dữ liệu này được mơ tả gồm 3 bước cơ bản như sau:
• Bước 1- Chuẩn bị dữ liệu huấn luyện: bước này thực hiện tiền xử lý và gán
nhãn cho dữ liệu dựa vào bảng mơ tả mức độ phục vụ dịch vụ gồm tập hợp các nhãn sau: A/B, C, D, E, F Dữ liệu này được sử dụng huấn luyện cho
mơ hình phân loại dữ liệu
• Bước 2- Huấn luyện mơ hình phân loại dữ liệu: mơ hình phân loại dữ liệu
sẽ được đào tạo, huấn luyện dựa trên dữ liệu huấn luyện được cung cấp ở bước 1, thơng qua các kỹ thuật khác nhau như: Decision Tree, Nạve Bayes,