Efficient traffic data cleaning and visualization utilizing big data technologies

Trong giai đoạn đầu của hệ thống, dữ liệu giao thông đô thị được phân tích các thuộc tính của nó như đào đường, tai nạn giao thông hay đường bị ngập lụt,..... Nếu chúng ta khai thác được

Trang 1

MỤC LỤC

TÓM TẮT 2

ABSTRACT 3

DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT 4

DANH MỤC CÁC HÌNH VẼ 5

LỜI CẢM ƠN 6

CHƯƠNG 1 – GIỚI THIỆU 7

CHƯƠNG 2 – DỮ LIỆU LỚN (BIG DATA) 12

CHƯƠNG 3 – LÀM SẠCH DỮ LIỆU GIAO THÔNG 19

CHƯƠNG 4 – TRỰC QUAN HÓA DỮ LIỆU 33

CHƯƠNG 5 – TỔNG KẾT 42

TÀI LIỆU THAM KHẢO 43

Trang 2

TÓM TẮT

Mục tiêu của dự án là tìm kiếm và thử nghiệm một framework mới, tổng hợp thời gian thực, thao tác và hiển thị dữ liệu giao thông đô thị Framework này dựa trên sự tương tác tích cực giữa các cấp dữ liệu lớn về không gian và tầng hiển thị trực quan hay giữa tầng hiển thị và người dùng cuối Trong giai đoạn đầu của hệ thống, dữ liệu giao thông đô thị được phân tích các thuộc tính của nó (như đào đường, tai nạn giao thông hay đường bị ngập lụt, ) Nhằm mục đích tăng độ chính xác của dữ liệu mục tiêu của đề tài, chúng tôi áp dụng các giải thuật làm sạch dữ liệu trong giai đoạn hai Trong giai đoạn cuối, chúng tôi sẽ phát triển một công cụ trực quan, tương tác đồng thời hỗ trợ một môi trường giao diện đồ họa trực quan dữ liệu giao thông đô thị trong một hệ thống thông tin địa lý (GIS)

Trang 3

ABSTRACT

The project is oriented towards the identification and experimentation of a new applied framework for the real-time integration, manipulation and visualisation of urban traffic data It is based on proactive interaction between the spatio temporal big data and visualisation levels, and between the visualisation and end-user levels In the first state of project, the urban traffic data are analysed either by observation of the movements of several vehicles in space, or by changes

in urban network properties (i.e., road reconstruction, accident, flushed street) In order to increase the accuracy of the target data, we apply the cleasing data algorithms in the second state

In the last state, we will develop a visualisation and interaction tool that has a flexible interface environment for visualisation of urban traffic data within geographical information systems (GIS)

Trang 4

DANH MỤC CÁC KÝ HIỆU VÀ CÁC CHỮ VIẾT TẮT

_ Big data: dữ liệu lớn

_ Visualization: trực quan hóa

_ Global Positioning System – GPS: hệ thống định vị toàn cầu

_ Assisted Global Positioning System – A-GPS: Hệ thống định vị toàn cầu được hỗ trợ thêm thông tin trợ giúp

_ Hadoop Distributed File System – HDFS: hệ thống tập tin phân tán Hadoop

_ ACID – Atomicity, Consistency, Isolation, Durability

Trang 5

DANH MỤC CÁC HÌNH VẼ

Hình 1 Cách thức hoạt động của GPS 8

Hình 2 Cách thức hoạt động A-GPS 9

Hình 3 Dữ liệu lớn - 5 Vs 12

Hình 4 Quá trình MapReduce 14

Hình 5 Kiến trúc Hadoop Cluster 14

Hình 6 Phân loại Big Data 15

Hình 7 Dữ liệu Key-Value 16

Hình 8 Dữ liệu lớn hướng tài liệu 16

Hình 9 Ví dụ: Dữ liệu lớn hướng cột 17

Hình 10 Ví dụ: dữ liệu lớn dạng đồ thị 17

Hình 11 Kiến trúc hệ thống 18

Hình 12 Quá trình làm sạch dữ liệu 20

Hình 13 Phân loại v(x) trong vùng màu Euclidean 2 chiều (C1, C2) 23

Hình 14 Kiến trúc khối xác định mật độ giao thông 28

Hình 15 Đồ thị liên thông có hướng 33

Hình 16 Dữ liệu Open Street Map dưới dạng XML 34

Hình 17 Mô hình dữ liệu Place-Based - địa điểm là các nút 35

Hình 18 Mô hình Route-Based - đoạn đường là các node 35

Hình 19 Vị trí hiện tại của người dùng 37

Hình 20 Danh sách các địa điểm phù hợp với tìm kiếm của người dùng 38

Hình 21 Kết quả hướng dẫn đường đi cho người dùng 39

Hình 22 Hình ảnh đám mây kẹt xe 40

Hình 23 Các mức độ kẹt xe khác nhau 41

Trang 6

LỜI CẢM ƠN

Để có thể hoàn thành đề tài này, đầu tiên cho tôi gửi lời cảm ơn chân thành đến thầy PGS

TS Đặng Trần Khánh Thầy đã tận tình hướng dẫn, dành cho tôi sự quan tâm và giúp đỡ nhiệt tình trong suốt thời gian làm đề tài

Tôi xin bày tỏ lòng biết ơn chân thành đến quý thầy cô trong Khoa Khoa học và kỹ thuật máy tính, những người đã tận tình giúp đỡ tôi trong quá trình thực hiện đề tài Lời tiếp theo tôi xin cảm ơn nhà trường đã tạo mọi điều kiện về cơ sở vật chất, về trang thiết bị và tạo ra một môi trường làm việc, nghiên cứu tốt nhất cho tôi

Lời cuối cùng tôi xin gửi lời cảm ơn đến những người thân trong gia đình Những người luôn quan tâm, ủng hộ tôi hết mình và luôn là điểm tựa vững chắc về tinh thần cho tôi có thể học tập, nghiên cứu, thực hiện đề tài

Trang 7

CHƯƠNG 1 – GIớI THIệU

1 Cơ sở hạ tầng giao thông

Giao thông trong nội thành, do tốc độ tăng dân số nhanh, quy hoạch yếu, hệ thống đường sá nhỏ khiến thành phố luôn phải đối mặt với vấn đề ùn tắc Thành phố có 239 cây cầu nhưng phần lớn chiều rộng nhỏ hơn chiều rộng của đường nên gây khó khăn cho các phương tiện giao thông Không những thế, một phần các cây cầu có trọng tải thấp hay đang trong tình trạng xuống cấp Tại các huyện ngoại thành, hệ thống đường vẫn phần nhiều là đường đất đá Trong khi đó, hệ thống đường trải nhựa còn lại cũng trở nên quá tải, cần sửa chữa Theo thống kê của báo Công an nhân dân [r2], đường sá thành phố Hồ Chí Minh có đến 51% có lòng đường rộng từ 7 đến 12 mét Do đó, chúng chỉ phù hợp với ôtô con và xe buýt lưu thông Đến 35% đường phố có lòng đường rộng dưới 7 mét chỉ phù hợp với xe hai bánh Cuối cùng, 14% số đường có chiều rộng trên 12 mét có thể thuận lợi tổ chức vận chuyển hành khách bằng xe buýt loại lớn

Cơ sở hạ tầng giao thông yếu như thế cho thấy tầm nhìn về quản lý giao thông, quản lý đô thị của thành phố kém Thành phố vẫn cho xây dựng các trung tâm mua sắm lớn, các chung cư cao tầng, cao ốc giữa trung tâm thành phố Lượng dân cư và người lao động trong các cao ốc này sẽ làm tình hình giao thông nội thành thêm trầm trọng Bên cạnh đó, sự không thống nhất giữa các cơ quan như cấp thoát nước, điện lực, bưu chính viễn thông, xây dựng sửa chữa đường cũng là một cản trở lớn cho giao thông Một con đường vừa lắp cáp ngầm thì vài ngày sau lại đào lên sửa ống nước Điều này gây cản trở giao thông, gây nguy hiểm cho các phương tiện tham gia giao thông

Một đặc điểm quan trọng của giao thông thành phố Hồ Chí Minh là tính dễ bị tổn thương Sau một cơn mưa lớn hay thủy triều dâng thì đường phố có thể ngập trong nước, gây hạn chế hoặc cắt đứt giao thông Hay sau những cơn mưa giông lớn, cây xanh hay biển quảng cáo có thể đổ ra đường cũng có thể cản trở phương tiện lưu thông Đôi khi chỉ những sự cố va quẹt giao thông nhỏ, sự kiện tổ chức ở các trung tâm thương mại, cao ốc, khách sạn, cũng gây

sự chú ỳ, tò mò của người tham gia giao thông và gián tiếp gây ra kẹt xe

Tóm lại, hệ thống mô phỏng giao thông thành phố cần thiết phải lưu trữ được bản đồ cơ sở hạ tầng giao thông và nhanh chóng cập nhật trạng thái giao thông đô thị

2 Thành phần tham gia giao thông

Thống kê cho biết số lượng xe lớn từ 80 chỗ chiếm 40%, xe nhỏ dưới 17 chỗ chỉ có 26% và còn lại là xe 40-55 chỗ Ngoài ra, lượng phương tiện giao thông cá nhân mà phần lớn là xe hai bánh gây không ít vấn đề giao thông đô thị, như ô nhiễm môi trường, tiếng ồn, tai nạn giao thông và nhất là kẹt xe

Trang 8

Để giải quyết các vấn đề giao thông đô thị, thành phố đầu tư cho hệ thống giao thông công cộng Thành phố có 3.250 xe buýt và 8.000 xe taxi, chỉ đáp ứng khoảng 6,2% nhu cầu đi lại

Hệ thống xe buýt chưa đem lại hiệu quả cao, 65% tuyến trùng lặp Điều này gây ra không ít vấn đề cho hệ thống giao thông đô thị mà kẹt xe và tai nạn giao thông là điển hình nhất Cùng mạng lưới xe buýt, dự án tàu điện ngầm Thành phố Hồ Chí Minh cũng đang được tiến hành Dự kiến thành phố sẽ có bốn tuyến, tổng chiều dài 54 km, 6 đường ray và 22 nhà ga Trong đó, hai tuyến đầu tiên dự kiến đi vào hoạt động vào năm 2010, nhưng đến nay vẫn đang trong quá trình xây dựng

Hệ thống giao thông thông minh (Intelligent Transportation System – ITS) là một hệ thống ứng dụng các thành tựu khoa học trong điện tử, tin học, và viễn thông để điều hành và quản

lý hệ thống giao thông vận tải Đây là một lĩnh vực nghiên cứu rộng, bao phủ nhiều lĩnh vực, đòi hỏi sự tham gia hợp tác của nhiều ngành, bao gồm cả kỹ thuật và quản lý Vấn đề cốt lõi của các ứng dụng ITS là xây dựng được một bộ thu thập và tích hợp dữ liệu giao thông hiệu quả Nguồn dữ liệu giao thông có thể đến từ nhiều nguồn khác nhau như tín hiệu GPS từ hộp đen hoặc thiết bị di động, dữ liệu hình ảnh, video từ các camera quan sát,… Nhờ vậy mà dữ liệu giao thông rất phong phú, đa dạng và có nhiều khía cạnh để khai thác Tuy nhiên điều này cũng gây không ít khó khăn cho công tác lưu trữ, chuẩn hóa Ngoài ra, hệ thống xây dựng cho các thành phố có mật độ giao thông cao như Tp Hồ Chí Minh hay Hà Nội phải đương đầu với không ít khó khăn trong quản lý khi mà dữ liệu gửi về có lưu lượng rất lớn và tốc độ giãn nở rất nhanh

Một phương tiện tham gia giao thông có thể được định vị bằng hệ thống GPS GPS là hệ thống định vị dựa trên vị trí của các vệ tinh nhân tạo Hệ thống này do bộ Quốc phòng Hoa

Kỳ thiết kế, xây dựng, vận hành và quản lý Ban đầu, hệ thống phục vụ cho mục đích quân

sự, nhưng đến nay nó đã được mở rộng cho các mục đích dân sự Trong cùng một thời điểm, tọa độ của một điểm trên mặt đất được xác định thông qua khoảng cách từ điểm đó đến ít nhất ba vệ tinh [3]

Hình 1 Cách thức hoạt động của GPS

Trang 9

Sự phát triển của khoa học công nghệ giúp làm giảm giá thành và tăng độ chính xác của các thiết bị định vị toàn cầu dựa trên GPS Các xe buýt, xe taxi, xe ôtô, xe tải lắp đặt các thiết

bị định vị này cùng hộp đen giúp tài xế và người quản lý lưu lại thông tin giao thông của thiết bị

Bên cạnh các phương tiện lớn, lực lượng phương tiện hai bánh chiếm tỉ trọng rất lớn trong hệ thống giao thông của thành phố Các thiết bị thông minh (như điện thoại thông minh, máy tính bảng ) có giá thành ngày càng rẻ, dễ tiếp cận người dùng hơn Chúng thường tích hợp

hệ thống A-GPS A-GPS là phiên bản được nâng cấp của GPS A-GPS nhận dữ liệu trợ giúp qua một dữ liệu kết nối (như GPRS hay 3G, Wi-Fi), chúng sẽ giúp thiết bị xác định tọa độ khi nhận tín hiệu từ vệ tinh A-GPS được thiết kế để nhận thông tin định vị từ vệ tinh nhanh hơn và đáng tin cậy hơn Thời gian cần thiết để một định vị vị trí của một thiết bị GPS (thời gian cho lần định vị đầu) sẽ được cắt giảm tại mọi vị trí địa lí trên thế giới

Hình 2 Cách thức hoạt động A-GPS Trước đây, vấn đề điện năng trong các thiết bị di động thông minh cản trở người dùng sử dụng chức năng GPS Nhưng ngày nay, các thiết bị này có dung lượng pin lớn hơn và sử dụng năng lượng hiệu quả hơn giúp người dùng có thể thoải mái sử dụng GPS Lượng thông tin vị trí khổng lồ, tốc độ cao sẽ tạo thành một dạng dữ liệu lớn Big Data Bên cạnh đó, ngày càng có nhiều thiết bị camera ghi nhận tình trạng giao thông cũng cung cấp một lượng dữ liệu hình ảnh liên tục Nếu chúng ta khai thác được các dạng dữ liệu giao thông này sẽ góp phần giải quyết những vấn đề giao thông của thành phố

Nhìn chung, ngoài cơ sở hạ tầng giao thông của thành phố, hệ thống mà đề tài nhắm đến cần phải lưu trữ lượng dữ liệu vị trí khổng lồ gửi đến từ các phương tiện tham gia giao thông

Trang 10

3 Giới hạn dữ liệu giao thông

Trong nhiều điều kiện thực tế, việc truyền dẫn tín hiệu GPS giữa vệ tinh và thiết bị nhận trên mặt đất hoạt động rất kém hoặc thậm chí không thể hoạt động Trong các thành phố lớn nhiều nhà cao tầng hoặc ở trong không gian kín thì khả năng GPS càng kém Thay cho việc truyền tín hiệu trực tiếp với vệ tinh, A-GPS kết nối tín hiệu qua một trạm trung chuyển, như

là một hệ thống máy chủ hỗ trợ Hệ thống trung gian này xác định vị trí của thiết bị so với các trạm thu phát sóng của các mạng điện thoại trung gian trong khu vực và từ đó tính toán

ra vị trí trên hệ thống GPS Nếu không có sự hỗ trợ của các trạm trung chuyển qua mạng điện thoại di động này, thiết bị A-GPS vẫn có thể nhận được tín hiệu từ vệ tinh nhưng không có khả năng giải mã vị trí

Một thiết bị tích hợp công nghệ A-GPS điển hình cần có các kết nối dữ liệu (qua mạng GPRS, 3G hoặc Wi-fi) để có thể truyền tải dữ liệu qua lại với máy chủ trung gian Nhiều thiết bị hỗ trợ A-GPS vẫn có thể hoạt động với công nghệ GPS chuẩn không qua hỗ trợ của mạng truyền dẫn, tuy nhiên trong một số trường hợp, việc xác định vị trí theo thời gian thực

sẽ gặp nhiều khó khăn do thông tin từ vệ tinh đến thiết bị không ổn định Đối với người tham gia giao thông, thiết bị A-GPS vẫn có yếu điểm khi hạ tầng mạng 3G vẫn chưa mạnh, vẫn có

độ sai lệch vị trí và chậm trễ thời gian nhất định khi thiết bị di chuyển

Một điểm giới hạn dữ liệu giao thông là thói quen người dùng Khi các thiết bị di động thông minh mới ra đời có dung lượng pin nhỏ và sử dụng năng lượng chưa hiệu quả như ngày nay Người dùng thường quan tâm đến năng lượng mà thiết bị đang chứa và tắt đi các ứng dụng, chức năng tốn nhiều năng lượng Một trong các tính năng thường được khuyến cáo là tắt hệ thống định vị GPS

Ngoài dữ liệu GPS, dữ liệu hình ảnh từ các camera gửi đến hệ thống cũng cần được phân tích Khả năng tính toán của hệ thống có giới hạn, do đó hệ thống sẽ định kỳ xử lý một số frame hình ảnh và bỏ qua những frame ảnh khác Những dữ liệu giao thông này sẽ được tính toán thành mật độ để cung cấp dữ liệu đầu vào cho các ứng dụng như tìm đường đi, dự báo kẹt xe…

Bên cạnh đó, người dùng ngày càng quan tâm đến tính riêng tư (privacy) nhất là vị trí hiện tại của họ Do đó, người dùng thường không cho thiết bị di động của mình cung cấp vị trí hiện tại Để giải quyết vấn đề này thì hệ thống cho phép lưu trữ nặc danh vị trí người dùng và cho thấy lợi ích thật sự khi người dùng sử dụng hệ thống

Một điểm giới hạn của dữ liệu giao thông khi không cho biết phương tiện giao thông mà họ

sử dụng là gì Trạng thái giao thông sẽ rất khác nhau khi hệ thống nhận được 1 tín hiệu từ

Trang 11

hộp đen xe buýt cùng với 40 tín hiệu A-GPS của thiết bị di động Đó có thể là 1 chiếc xe buýt cùng 40 xe gắn máy hay 1 chiếc xe khách chở đoàn tham quan 40 người

Tóm lại, đây là các điểm hạn chế của dữ liệu giao thông mà đề tài cần quan tâm giải quyết

4 Mục tiêu đề tài

Hệ thống lưu trữ tích hợp cho hạ tầng ITS là một bài toán lớn Đề tài này tập trung vào phát triển hệ thống lưu trữ tập trung dữ liệu giao thông (gồm GPS và video hình ảnh camera) và trực quan dữ liệu này bằng ứng dụng thời gian thực Hệ thống sẽ phân tích, làm sạch dữ liệu giao thông để biến chúng thành dữ liệu mật độ Rút ngắn thời gian phân tích, đọc / ghi dữ liệu giao thông cũng như thời gian truy vấn khối dữ liệu khổng lồ này nhằm đáp ứng nhu cầu của các ứng dụng thời gian thực

Trang 12

CHƯƠNG 2 – DỮ LIỆU LỚN (BIG DATA)

1 Các giải pháp dữ liệu lớn

Dữ liệu lớn ngày càng được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau như tài chính, trò chơi trực tuyến, mạng xã hội,… Hiện nay, big data thường được mô tả bằng 5 chữ V sau:

Hình 3 Dữ liệu lớn - 5 Vs

 Volume – Khối lượng đề cập đến một lượng lớn dữ liệu được tạo ra mỗi giây, từ

terabyte đến zettabyte hoặc brontobyte Tất cả dữ liệu được tạo ra trên thế giới từ năm

2008 đến nay trở nên quá lớn để lưu trữ và phân tích bằng những hệ quản trị cơ sở dữ liệu truyền thống Các công cụ dữ liệu lớn sử dụng hệ thống phân tán để lưu trữ và phân tích chúng ở bất kỳ đâu trên thế giới Dữ liệu giao thông diễn ra từng giờ, từng phút Chúng ta dùng chúng không chỉ để trực quan hóa tình hình giao thông hiện tại

mà còn dùng để dự báo, giả lập hệ thống giao thông

 Velocity – Tốc độ của dữ liệu được tạo ra và tốc độ mà dữ liệu vận chuyển trong hệ

thống Ví dụ như tốc độ mà người dùng gửi thông điệp hay hình ảnh trên mạng xã hội, các log người dùng sử dụng hệ thống ngân hàng hay log sự kiện trong các trò chơi trực tuyến Công nghệ big data cho phép phân tích dữ liệu trong khi nó đang được tạo

ra (như phân tích trực tiếp trên bộ nhớ) mà không cần đưa chúng vào cơ sở dữ liệu Riêng dữ liệu giao thông có tốc độ biến đổi tùy theo thời gian Tốc độ cao vào giờ cao điểm hay có sự kiện đặc biệt, và thấp vào thời gian còn lại

 Variety – Đa dạng dữ liệu là một đặc điểm khác của dữ liệu lớn Trong quá khứ,

chúng ta chỉ tập trung vào dữ liệu có cấu trúc gọn gàng để đưa vào bảng hoặc cơ sở dữ liệu quan hệ, chẳng hạn như dữ liệu tài chính Trong thực tế, 80% dữ liệu của thế giới

là phi cấu trúc (văn bản, hình ảnh, video, âm thanh,…) Với công nghệ dữ liệu lớn,

Trang 13

bây giờ chúng ta có thể phân tích và tổng hợp các dữ liệu khác nhau lại với nhau, như tin nhắn, các cuộc trò chuyện đa phương tiện, hình ảnh, dữ liệu cảm biến, video hoặc ghi âm giọng nói Dữ liệu giao thông đô thị được thu thập từ nhiều nguồn khác nhau, rất đa dạng Chúng có khối lượng lớn, cập nhật và truy xuất theo thời gian thực Do

đó, để đạt được hiệu quả, tính đúng đắn khi lưu trữ dữ liệu giao thông đô thị, ta phải thực hiện việc kết hợp, hiệu chỉnh, bổ sung dữ liệu thu thập được từ các nguồn dữ liệu khác nhau nhau này

 Veracity – Tính xác thực đề cập đến sự độ tin cậy của dữ liệu Chất lượng và độ chính

xác của big data ít được kiểm soát Một thông điệp Twitter có thể có chứa chữ viết tắt,

từ ngữ địa phương, sai chính tả,… Với dữ liệu giao thông cũng vậy GPS hay A-GPS

có thể gửi sai vị trí của người tham gia giao thông, với bán kính khoảng 30 mét

 Value – Giá trị mà chúng ta khai thác được từ dữ liệu lớn Chúng ta sẽ không thuyết

phục được khách hàng khi không thể chứng minh được giá trị mà họ có được khi sử dụng big data cho hệ quản trị cơ sở dữ liệu truyền thống Trong lĩnh vực kinh doanh trò chơi trực tuyến, big data giúp nhà quản lý trò chơi biết đối tượng khách hàng tạo ra lợi nhuận cho trò chơi, sự kiện tạo thu hút người chơi tham gia hay nạp tiền Hay trong giao thông, dự báo được kẹt xe hay mô phỏng tình hình giao thông khi thay đổi phân luồng, xây dựng, sửa chữa đường sá sẽ giúp cải thiện giao thông đô thị, tiết kiệm tiền bạc, thời gian cho xã hội

Từ những phân tích trên, xây dựng hệ thống quản lý giao thông cần thiết phải có hệ dữ liệu lớn để có thể đáp ứng được những đặc thù của loại dữ liệu này [4], [5], [6] Để xây dựng kho lưu trữ dữ liệu lớn nói chung và cho giao thông nói riêng, chúng ta có nhiều mô hình có thể

áp dụng Apache Hadoop hay Hadoop [] là một software framework hỗ trợ các ứng dụng phân tán dữ liệu chuyên sâu Nó cho phép các ứng dụng làm việc với hàng ngàn máy tính tính toán độc lập và petabyte dữ liệu Hadoop là một trong những dự án hàng đầu của Apache, được xây dựng và được sử dụng bởi một cộng đồng những người đóng góp toàn cầu, viết bằng ngôn ngữ lập trình Java Apache Hadoop được Doug Cutting, người viết hadoop, đặt tên theo tên con voi đồ chơi của con ông ta, đã nhận được sự ủng hộ và ứng dụng của Yahoo, Google, IBM…Hadoop có thể chạy các ứng dụng với lượng dữ liệu lớn một cách nhanh chóng, chính xác, hiệu quả cao bằng cách lưu [7], [8] và tính toán dữ liệu trên nhiều node một cách độc lập Hadoop có hai thành phần chủ yếu là HDFS (Hadoop Distributed File System) và MapReduce

Nhìn từ bên ngoài, files lưu trên HDFS cũng giống như lưu trong Windows hay Linux Chúng ta có thể create new, delete, move, rename… Nhưng trên thực tế, dữ liệu được chia ra thành blocks lưu trữ trên rất nhiều DataNode, mỗi block có nhiều bản sao (mặc định là 3) lưu

Trang 14

trên nhiều DataNode khác nhau, phòng khi một DataNode nào đó có sự cố thì hệ thống vẫn hoạt động bình thường Ngoài ra còn có một và chỉ một NameNode làm nhiệm vụ quản lí dữ liệu và điều tiết các lệnh đòi hỏi thao tác chúng

MapReduce giúp cho việc xử lí song song được thuận lợi, ít nhất gồm 3 bộ phận: hàm Map

để phân tích data thành các cặp (key, value); hàm Reduce căn cứ vào các key để gom tập hợp các cặp như vậy lại với nhau và đưa ra kết quả; hàm Main để điều tiết Mỗi một thao tác Map hoặc Reduce được gọi là TaskTracker Thông thường TaskTrackers được chạy trên DataNodes để giảm đường truyền Tasktrackers được JobTracker căn cứ vào thông tin của blocks để khởi tạo trên DataNode phù hợp JobTracker không nhất thiết chạy trên cùng máy với NameNode

Hình 4 Quá trình MapReduce

Hình 5 Kiến trúc Hadoop Cluster Hiện tại, big data thường được chia theo 4 hướng chính, cùng với những đại diện đến từ các công ty phần mềm lớn, truyền thống trong lĩnh vực cơ sở dữ liệu sau:

Trang 15

Hình 6 Phân loại Big Data

 Big data của các công ty phần mềm trong lĩnh vực cơ sở dữ liệu

Dựa trên Hadoop, các công ty lớn trong lĩnh vực công nghệ thông tin xây dựng hệ thống quản lý dữ liệu riêng của họ Trước tiên phải kể đến Oracle với mô hình Oracle Big Data Appliance Mô hình này là một giải pháp toàn diện, đầy đủ, dễ dàng triển khai và tổ chức, kết hợp tối ưu hóa phần cứng và phần mềm Nó được xây dựng bằng cách sử dụng tiêu chuẩn công nghệ phần cứng của Sun, hệ điều hành Oracle Enterprise Linux, cơ sở dữ liệu Oracle NoSQL [9], [10] Trong đó, bộ công cụ quản lý Cloudera cung cấp một trung tâm quản lý duy nhất, giám sát thời gian thực các cluster và các dịch vụ đang thực thi Cloudera kết hợp đầy đủ các báo cáo và các công cụ chuẩn đoán nhằm tối ưu hiệu suất và hiệu dụng của các cluster Oracle Big Data Connector giúp dễ dàng thu thập và tổ chức các kiểu dữ liệu mới

Nó cho phép tích hợp dữ liệu để phân tích Điểm nổi bật của mô hình dữ liệu lớn của Oracle

là nó cho phép các ứng dụng nhìn vào dự liệu lớn giống như những hệ cơ sở dữ liệu thông thường Điều này giúp người phát triển ứng dụng dễ dàng phát triển, tiết kiệm thời gian hơn khi dùng các cơ sở dữ liệu NoSQL khác Nhưng phần lớn các thiết bị phần cứng và phần mềm của Oracle là sản phẩm thương mại Do đó chi phí đầu tư cho hệ thống Oracle là một yếu tố cần phải cân nhắc

Microsoft cũng xây dựng mô hình dữ liệu lớn dựa trên Apache Hadoop [11], [12] Mô hình này có thể áp dụng trên hệ thống Windows Server hay hệ thống điện toán đám mây Windows Azure Các doanh nghiệp có thể cài đặt và triển khai nhanh chóng cơ sở dữ liệu lớn Ngoài

ra, mô hình Big Data của Microsoft còn kết hợp liền mạch với nền tảng Microsoft Business Intelligence và các công cụ văn phòng quen thuộc (như Excel) nhằm thúc đẩy các doanh nghiệp tiếp nhận hệ thống dữ liệu lớn của Microsoft Cũng giống như Oracle, để giúp cho việc phát triển ứng dụng được nhanh chóng, dễ dàng, Microsoft cho phép hệ thống Big Data của họ kết nối với SQL Server và Parallel Data Warehouse Ngoài ra, Microsoft còn cung cấp bộ thư viện cho nhiều loại ngôn ngữ lập trình thông dụng như C#, JavaScript để người phát triển có thể dễ dàng làm việc với Map/Reduce, giảm số giồng mã lệnh (còn 1/10 so với

Trang 16

Java) Tóm lại, những nổ lực của Microsoft nhằm giúp mô hình Big Data trở nên dễ dàng, thân thiện, gần gũi với doanh nghiệp cũng như những nhà phát triển ứng dụng

 Dạng dữ liệu lớn Key-Value

Key-Value là một dạng đơn giản của cơ sở dữ liệu NoSQL Trong đó, key là tên trường, một thuộc tính hoặc một định danh Nội dung của trường là giá trị của nó Chúng không có lược đồ (schema) vì thế rất linh động Các điểm bất lợi của các Key Value là chúng không theo các thuộc tính ACID (Atomicity, Consistency, Isolation, Durability) Ngoài ra, nó sẽ yêu cầu kiến trúc dữ liệu để lập kế hoạch cho vị trí dữ liệu Đổi lại, chúng có khả năng tại tạo cũng như tính sẵn sàng cao

Hình 7 Dữ liệu Key-Value Trong dữ liệu lớn dạng Key-Value thì dữ liệu được lưu trữ dưới dạng chuỗi Riak là một dữ liệu lớn dạng Key-Value được sử dụng phổ biến nhất Nó cung cấp khả năng

mở rộng (scalability) và hiệu suất (performance) cho big data với dung lượng lớn (volume) và tốc độ (velocity) Key values là lựa chọn tốt cho social media, communities, caching layer cho kết nối đến các cơ sở dữ liệu khác Tóm lại, khi chúng ta yêu cầu tính linh hoạt của lưu trữ dữ liệu giúp khả năng mở rộng thì Key-Value là lựa chọn tốt

Redis, Dynomite, Project Voldemort là những hệ cơ sở dữ liệu thuộc loại này

 Dạng dữ liệu lớn hướng tài liệu (Document-based)

Dữ liệu dạng bán cấu trúc (semi-structured) được lưu trữ và tổ chức dưới dạng một tập hợp các tài liệu (document) Các tài liệu này linh hoạt, có thể chứa một tập nhiều trường bên trong

Hình 8 Dữ liệu lớn hướng tài liệu MongoDB [13] là một hệ cơ sở dữ liệu mã nguồn mở được phát triển và hỗ trợ bở 10gen [14] và được hàng triệu người sử dụng Thay vì lưu trữ dữ liệu dưới dạng bảng

và dòng như trong cơ sở dữ liệu quan hệ truyền thống, MongoDB lưu dữ liệu dưới dạng JSON

 Dạng dữ liệu lớn hướng cột (Column-based)

Cơ sở dữ liệu được tổ chức dưới dạng các bảng, gần giống với mô hình cơ sở dữ liệu quan hệ Tuy nhiên, chúng lưu dữ liệu theo cột chứ không phải theo dòng Do đó,

Trang 17

chúng phù hợp với các phần mềm quản lý kho dữ liệu vì khả năng tiềm kiếm nhanh, phân tán dữ liệu tốt

Hình 9 Ví dụ: Dữ liệu lớn hướng cột Các sản phẩm big data thuộc dạng này bao gồm Apache Hbase, Apache Cassandra, Hypertable

 Dạng dữ liệu lớn hướng đồ thị (Graph Database)

Cơ sở dữ liệu này áp dụng lý thuyết đồ thị trong khoa học máy tính để lưu trữ và truy xuất dữ liệu [15] Graph database lưu trữ dữ liệu trên các đỉnh và cạnh của đồ thị theo dạng Key-Value Chúng thật sự hữu hiệu trong các ứng dụng liên qun đến không gian địa lý Dưới đây là ví dụ minh họa mạng xã hội sử dụng dữ liệu dạng đồ thị

Hình 10 Ví dụ: dữ liệu lớn dạng đồ thị Trong cơ sở dữ liệu truyền thống, khi chúng ta muốn biết ai là bạn của mình thì hệ thống phải duyệt hết n dòng của bảng mới cho kết quả Graph database dựa vào quan

hệ (relationship) giữa các node nên chỉ duyệt đúng số bạn của mình mà thôi

Một số sản phẩm tiêu biểu như Neo4j, Infinite Graph, InfoGrid, HyperGraphDB, Dex, GraphBase,…

2 Kiến trúc dữ liệu giao thông dựa trên công nghệ dữ liệu lớn

Dựa trên những phân tích ở trên, chúng tôi đề xuất kiến trúc dữ liệu giao thông như sau:

Trang 18

Các thiết bị sử dụng hệ thống sẽ gửi dữ liệu về máy chủ thông qua kết nối 3G hay wifi Thông tin

vị trí của người tham gia giao thông sẽ qua bộ làm sạch để đưa vào cơ sở dữ liệu Trong cơ sở dữ liệu chúng ta sử dụng cơ sở dữ liệu trạng thái giao thông hướng đồ thị Cơ sở dữ liệu này lưu vị trí của người dùng và trạng thái cơ sở hạ tầng giao thông Đặc thù của dữ liệu giao thông là sự di chuyển từ điểm này qua điểm khác Sau đó, bộ phận giả lập (Simulation) sẽ tính toán để đưa ra trạng thái giao thông hiện tại và trực quan hóa cho người tham gia giao thông

Hình 11 Kiến trúc hệ thống

Trang 19

CHƯƠNG 3 – LÀM SẠCH DỮ LIỆU GIAO THÔNG

1 Làm sạch dữ liệu GPS

Ngày nay, phần lớn các điện thoại thông minh phần lớn đều hỗ trợ định vị dựa trên A-GPS Các thiết bị này cung cấp thông tin liên tục thời gian thực về không gian và tốc độ một cách chính xác Đề tài dựa vào nghiên cứu [16] tại Nhật Bản sử dụng những chiếc xe thăm dò gắn GPS để xác định tính khả thi trong thời gian thực và đo đạc thời gian chạy của luồng giao thông (travel time) Dữ liệu thu được từ việc thăm dò sẽ qua quá trình làm sạch

Chất lượng của thông tin di chuyển từ xe thăm dò phụ thuộc vào tỉ lệ xe trên một đường Nếu số lượng xe lớn trên một đường trong một đơn vị thời gian, thông tin được cung cấp sẽ có độ chính xác cao Các phương tiện thăm dò được trang bị GPS và data logger GPS thu thập dữ liệu theo chu kỳ Tuy nhiên, nó không lưu dữ liệu dưới dạng vị trí Thay vì thế, nó sẽ lưu dưới dạng trạng thái của các sự kiện là short stop (SS) hoặc short trip (ST) Short stop xảy ra khi vận tốc của phương tiện dưới 3 km/h Khi phương tiện có vận tốc trên 3 km/h, khi đó trạng thái của sự kiện là short trip Như vậy, thay vì ghi lại dữ liệu dưới dạng thời gian, dữ liệu được ghi lại dưới dạng chuỗi sự kiện Cách tiếp cận này giúp giảm lượng dữ liệu phải lưu trữ và do đó, cũng giảm việc dịch chuyển dữ liệu mà không mất chất lượng của dữ liệu Bên cạnh đó, thời gian tối đa của ST là 30s Giả sử phương tiện dịch chuyển 2 phút, dữ liệu sẽ ghi lại 4 record là 4 sự kiện ST liên tục Những sự kiện này được ghi lại và lưu tạm trên thiết bị trước khi chuyển về trung tâm dữ liệu

Trang 20

Hình 12 Quá trình làm sạch dữ liệu Quá trình làm sạch dữ liệu xảy ra vì dữ liệu thăm dò có quỹ đạo liên tục nhưng cũng có những ngắt quãng Quy trình làm sạch dữ liệu gồm 6 bước như sau:

Bước 1: Điểm ngắt quãng do phương tiện phanh lại

Điểm ngắt quãng trong dữ liệu có thể do lỗi của thiết bị giao tiếp (nghẽn sóng gửi về, ) hoặc là

do động cơ của phương tiện giao thông bị tắt Tuy nhiên, khi nhiều sự kiện xảy ra đồng thời khiến cho thời gian ngắt quãng dài ra và phương tiện phanh lại trong lúc ngắt quãng Trường hợp này hầu như được xem là động cơ tắt máy Khi đó, có thể xem là trip end và quỹ đạo di chuyển bị cắt ở điểm đó Tóm lại, khi phương tiện phanh lại thì dữ liệu trong khoang thời gian phanh lại đó không được ghi lại và được xem như là trip end

Bước 2: Thời gian ngắt quãng dài

Có nhiều trường hợp xảy ra ngắt quãng dữ liệu mà không phải do phanh Khi thời gian ngắt quãng tầm 2 phút trở xuống và phương tiện vẫn đang di chuyển, dữ liệu có thể an toàn nối 2 điểm trước và sau ngắt quãng với cùng một tốc độ Nếu ngắt quãng tầm 15 phút, có rất nhiều khả năng xảy ra như: phương tiện dừng lại và nhận khách, lái xe chờ để nộp phí, động cơ tắt Trường hợp này được xem xét như là dừng chuyến đi (trip end) Trên thực tế, có thể không xảy ra trip end nhưng dữ liệu thiếu thông tin để tìm ra được giải pháp thay thế

Trang 21

Bước 3: Ngắt quãng với tốc độ không tưởng

Những ngắt quãng tiếp theo là do tốc độ Bởi vì vị trí và thời gian trước và sau khi xảy ra ngắt quãng có thể biết được, nên có thể tính được vận tốc của phương tiện Đối với dữ liệu thực tế, tốc

độ di chuyển trong nội thành không quá 60 km/h nên tốc độ này được xem là cận trên của dữ liệu Nếu dữ liệu nào lớn hơn thì sẽ bị loại bỏ Đối với dữ liệu còn lại, nếu vận tốc tính được trong thời gian ngắt quãng lớn hơn 75% vận tốc của short travel trước ngắt quãng thì quỹ đạo trước và sau ngắt quãng sẽ được nối lại với nhau Nếu không, ngắt quãng được xem như là trip end

Bước 4: Dừng dài hạn

Ba bước đầu tiên xem xét dựa vào sự ngắt quãng trong dữ liệu Bước 4 và 5 tìm những điểm dừng xảy ra trip end Sự kiện này xảy ra khi taxi đón khách hoặc mở cửa cho khách, dừng lại ở ngã tư hoặc là trạm taxi Chắc chắn việc đón hoặc thả khách sẽ được xem như là bắt đầu hoặc kết thúc của một trip Khó khăn ở đây là việc phân biệt giữa việc dừng ở một ngã tư và việc dừng lại hoàn toàn (trip end) Thông thường, taxi tốn 20s cho thời gian khách lên xuống và trả tiền Thời gian taxi dừng ở ngã tư có thể từ tầm vài giây cho tới hơn 100 giây Khó khăn là phân biệt giữa một trip end và điểm dừng ở ngã tư Vì vậy, short stop với thời gian 180s sẽ cắt đứt quỹ đạo và tạo ra trip end

Bước 5: Dừng với đèn tín hiệu

Những bước trước đó chưa trình bày kĩ về vấn đề đón và thả khách Khi đón và thả khách, tài xế phải bật đèn báo Ngoài ra, đèn báo còn dùng để cho phép xe khác vượt lên trong giao thông Khoảng thời gian đón thả khách tối thiểu dừng lại là 20s cho đến khi dừng đèn báo Nếu short stop xảy ra hơn 20s và đèn báo hơn 10s thì báo hiệu trip end

Bước 6: Hình dạng quỹ đạo lặp U-turn

Bước làm sạch dữ liệu cuối cùng là nhìn vào hình dạng quỹ đạo lặp hay còn gọi là u-turn U-turn

là những điểm gần trip end Ví dụ, khi thả khách xuống, taxi có thể tạo ra một u-turn quay lại điểm xuất phát ban đầu Một số u-turn có thể là quay đầu gấp hay có thể từ từ hình thành nên u-turn Điều quan trọng là cấu trúc một số đoạn đường bị lặp Đầu tiên, lên danh sách tất cả tuyến đường xảy ra lặp Danh sách này sử dụng để loại bỏ các đoạn lặp bị phát hiện Thứ hai, lặp được loại bỏ khỏi khu vực đoạn đường 1 chiều Nếu góc quay của vị trí hiện tại của nó đối với 10 short travel quỹ đạo cuối cùng của chiều dài hơn 20 mét vượt quá 170 độ, nó được coi như một u-turn

Dữ liệu này sẽ được lưu trữ lại trong hệ thống dưới dạng mật độ giao thông tại nút giao thông hay con đường nhất định Mật độ này cũng được so sánh với mật độ được rút ra từ hình ảnh camera ghi lại hình ảnh tại các nút giao thông đó Phần tiếp theo sẽ trình bày các giải thuật để tính mật độ giao thông dựa trên dữ liệu video từ camera

Trang 22

2 Rút trích mật độ từ dữ liệu camera giao thông

Để tăng cường độ chính xác của dữ liệu giao thông, nhóm kết hợp mật độ đo được từ dữ liệu GPS và mật độ tính từ camera giao thông Do tình trạng cơ sở hạ tầng giao thông ở Việt Nam

có sự thay đổi nhanh chóng (ngập lụt do mưa hay lô cốt) nên giải thuật cần có khả năng cập nhật ảnh nền (background) Dựa trên ảnh nền này, giải thuật sẽ xác định các đối tượng di chuyển trên đó để tính ra mật độ giao thông

Không phải đối tượng người tham gia giao thông nào cũng sử dụng GPS Do đó, dữ liệu giao thông camera là nguồn dữ liệu bổ sung có độ tin cậy cao, giúp chúng ta tính toán chính xác hơn tình hình giao thông

a Giải thuật trích xuất nền ảnh (Background Subtraction)

Một trong những thách thức của việc xử lý hình ảnh video đó là phải xác định các đối tượng chuyển động Do đó các giải thuật nhận diện chuyển động ra đời Những giải thuật nhận diện chuyển động đơn giản thường so sánh một khung hình (frame) tĩnh với khung hình hiện tại theo từng điểm ảnh (pixel) một Chính những giải thuật đơn giản này

đã đặt tiền đề cho giải thuật background subtraction [17] Giải thuật này sẽ xây dựng một khung nền mẫu (background model) nhằm mục đích so sánh khung hình mẫu này với khung hình đang xử lý để phát hiện các vùng điểm ảnh có sự khác biệt so với mẫu Mục đích của giải thuật background subtraction là tách biệt tất cả những vật thể chuyển động (còn gọi là foreground) ra khỏi những vùng ảnh cố định hoặc di chuyển rất chậm (còn gọi là background) Tuy nhiên khi các vật thể cố định trong background di chuyển, giải thuật background subtraction sẽ phát hiện vật thể này cũng như vùng trống (hole) của background do việc di chuyển của vật thể gây ra (còn gọi là ghost) Các điểm ảnh ghost này rõ ràng không thích hợp để làm background, do đó các điểm ảnh ghost này cần phải được loại bỏ Một trong những cách loại bỏ ghost đó là xác định background bằng cách lựa chọn các điểm ảnh có tần số xuất hiện nhiều nhất qua thời gian

Sau khi có được background mẫu, chúng ta hoàn toàn có thể xác định được các đối tượng chuyển động bằng cách so sánh từng điểm ảnh với từng điểm ảnh tương ứng trong mẫu Từ đó có thể thực hiện các bước tiếp theo của quá trình nhận diện và phân tích hình ảnh

Hiện nay có rất nhiều các giải thuật background subtraction sử dụng các kỹ thuật khác nhau như Bayesian histogram, Gaussian model, Sigma-Delta Z,… Trong số đó có một giải thuật cải tiến để loại bỏ tối đa các điểm ảnh ghost và cho kết quả gần giống với thực

tế nhất (ground-truth), đó là giải thuật ViBe được Olivier Barnich và Marc Van Droogenbroeck đề xuất vào năm 2009 và cải tiến thành giải thuật ViBe+ vào năm 2012 Giải thuật ViBe thích hợp để áp dụng cho việc giải quyết bài toán rút trích ảnh nền trên

Định dạng
Số trang	44
Dung lượng	1,93 MB