Hệ thống được ứng dụng khoa học kỹ thuật công nghệ, gồm các thiết bị như cảm biến, điện tử, tin học, viễn thông để điều khiển, điều hành và quản lý các hệ thống giao thông vận tải tối ưu
KIẾN TRÚC CỦA VIỆC TIẾN HÀNH PHÂN TÍCH DỮ LIỆU LỚN TRONG ITS
Đặc điểm dữ liệu lớn trong ITS
Hệ thống Giao thông thông minh (ITS) là việc ứng dụng công nghệ kỹ thuật tiên tiến như cảm biến, điều khiển điện tử, công nghệ thông tin và viễn thông nhằm nâng cao hiệu quả quản lý và vận hành hệ thống giao thông vận tải ITS giúp tối ưu hóa lưu lượng giao thông, giảm thiểu ùn tắc và nâng cao an toàn cho người tham gia giao thông Việc tích hợp các thiết bị cảm biến và công nghệ hiện đại trong hệ thống ITS góp phần thúc đẩy giao thông thông minh và bền vững hơn.
ITS là công nghệ tiên tiến toàn cầu giúp giải quyết các vấn đề về giao thông như tai nạn, ùn tắc và thông tin giao thông, nhấn mạnh vào việc ứng dụng công nghệ thông tin và viễn thông để liên kết con người, hệ thống đường bộ và phương tiện, tạo thành mạng lưới thông tin nhằm tối ưu hóa việc lưu thông trên đường Các tài liệu và nguồn tham khảo chủ yếu tập trung vào phương tiện đường bộ, phản ánh vai trò quan trọng của ITS trong cải thiện giao thông đô thị và giảm thiểu ùn tắc.
Năm 2012, Gartner đã định nghĩa dữ liệu lớn là dung lượng lớn, tốc độ cao và loại hình thông tin đa dạng, đòi hỏi phương thức xử lý mới để nâng cao khả năng ra quyết định, khám phá dữ liệu bên trong và tối ưu hóa quá trình xử lý Các đặc trưng cơ bản của dữ liệu lớn bao gồm quy mô lớn (volume), tốc độ cao (velocity) và tính đa dạng (variety) Những đặc điểm này giúp các tổ chức hiểu rõ hơn về thách thức và cơ hội trong việc quản lý và khai thác dữ liệu lớn hiệu quả.
Dung lượng (Volume) – Dữ liệu lớn:
• Số lượng dữ liệu được tạo ra và lưu trữ
Khi làm việc với dữ liệu lớn, bạn cần xử lý khối lượng lớn dữ liệu phi cấu trúc với mật độ thấp, bao gồm các dữ liệu có giá trị không xác định như dữ liệu tải lên từ Twitter, lượt truy cập website hoặc ứng dụng di động Việc này đòi hỏi các giải pháp phân tích dữ liệu tiên tiến để khai thác giá trị từ những nguồn dữ liệu đa dạng và phong phú này.
• Đối với một số tổ chức khối lượng dữ liệu có thể lên tới hàng chục terabyte hay hàng trăm terabyte
Vận tốc (Velocity) – Dữ liệu lớn:
• Tốc độ các dữ liệu được tạo ra và xử lý theo thời gian thực
Một số sản phẩm thông minh tích hợp internet hoạt động trong thời gian thực hoặc gần thời gian thực đòi hỏi phải được đánh giá và thực hiện hành động nhanh chóng để đảm bảo hiệu quả cao nhất Việc xử lý dữ liệu theo thời gian thực giúp tối ưu hóa hiệu suất và nâng cao trải nghiệm người dùng trong các thiết bị thông minh hiện đại.
Tính đa dạng (Variety) – Dữ liệu lớn:
• Các dạng và kiểu loại của dữ liệu có sẵn
• Các kiểu dữ liệu truyền thống có cấu trúc và kiểu dữ liệu mới phi cấu trúc và bán cấu trúc (văn bản, âm thanh, video)
Ngoài ra, trong những năm trở lại đây, dữ liệu lớn có thêm 2 đặc trưng V khác đó là:
Giá trị (Value): một phần lớn giá trị của các công ty công nghệ lớn nhất thế giới đến từ quá trình phân tích dữ liệu của họ
Tính xác thực (Veracity): chất lượng của dữ liệu thu được có thể khác nhau rất nhiều ảnh hưởng đến việc phân tích chính xác.[2]
Kiến trúc của việc tiến hành phân tích dữ liệu lớn trong ITS
Kiến trúc phân tích dữ liệu lớn trong hệ thống ITS được thể hiện rõ nét qua Hình 1, gồm ba lớp chính là lớp thu thập dữ liệu, lớp phân tích dữ liệu, và lớp ứng dụng Trong đó, lớp thu thập dữ liệu đóng vai trò là bước đầu tiên, nơi dữ liệu từ các cảm biến và hệ thống giao thông được thu thập để tạo nền tảng cho các bước phân tích tiếp theo Các dữ liệu này sau đó được xử lý và phân tích nhằm cung cấp thông tin chính xác và kịp thời cho các hệ thống quản lý giao thông thông minh Cuối cùng, lớp ứng dụng sử dụng các kết quả phân tích để tối ưu hóa hoạt động và nâng cao hiệu quả của hệ thống ITS.
Lớp thu thập dữ liệu đóng vai trò là nền tảng của kiến trúc hệ thống, cung cấp dữ liệu quan trọng cho các lớp phía trên Dữ liệu được thu thập từ nhiều nguồn khác nhau như cảm biến vòng, hệ thống GPS giám sát, và camera video, giúp đảm bảo tính đa dạng và chính xác cho quá trình phân tích sau này.
Lớp phân tích dữ liệu là thành phần quan trọng nhất trong kiến trúc hệ thống, đảm nhận nhiệm vụ xử lý và phân tích dữ liệu lớn từ lớp thu thập dữ liệu Sau khi nhận dữ liệu, lớp này áp dụng các phương pháp phân tích dữ liệu lớn để đưa ra thông tin giá trị, giúp doanh nghiệp ra quyết định chính xác Quá trình phân tích dữ liệu của lớp này đóng vai trò cốt lõi trong việc chia sẻ thông tin hữu ích, từ đó tối ưu hóa hoạt động kinh doanh và nâng cao hiệu quả hệ thống tổng thể.
Tầng ứng dụng là tầng trên cùng của kiến trúc, chịu trách nhiệm xử lý dữ liệu từ các lớp phân thích dữ liệu để phù hợp với nhiều tình huống khác nhau Các ứng dụng của tầng này bao gồm quản lý lưu lượng giao thông, điều tiết giao thông nhằm chống ùn tắc, và điều khiển đội cứu hộ khẩn cấp.
Hình 1: Kiến trúc tiến hành phân tích dữ liệu lớn
ChươngIII Tổng quan về các giải pháp
Mọi người vô thức tham gia vào việc thu thập, truyền tải và ứng dụng Dữ liệu lớn trong ITS Sự phát triển công nghệ đã làm tăng độ phức tạp, tính đa dạng và lượng dữ liệu được tạo ra từ phương tiện và hoạt động di chuyển của con người Dữ liệu lớn trong ITS chủ yếu được phân loại thành các nhóm chính theo các nguồn khác nhau, giúp tối ưu hóa quản lý và phân tích dữ liệu trong hệ thống giao thông thông minh.
Hình 2: Dữ liệu lớn trong nó
Các giải pháp thu thập dữ liệu lớn trong ITS
1 Dữ liệu lớn từ thẻ thông tin
Trong giao thông công cộng đô thị, dữ liệu thẻ thông minh ngày càng được sử dụng rộng rãi để tự động thu tiền vé và giúp hành khách tiếp cận nhiều phương thức vận tải như xe buýt, tàu lửa, đường sắt leo núi, LRT, tàu điện ngầm và phà bằng một thẻ duy nhất Mặc dù chủ yếu tập trung vào việc tăng doanh thu, các thẻ thông minh còn tạo ra lượng lớn dữ liệu thụ động từ các thiết bị công nghệ, cung cấp thông tin quý giá cho các nhà hoạch định chính sách giao thông Tuy nhiên, xử lý và phân tích dữ liệu lớn gặp hạn chế về cơ sở hạ tầng và phương pháp truyền thống Công nghệ dữ liệu lớn được xem là giải pháp hiệu quả, tăng cường khả năng thu thập, lưu trữ và phân tích dữ liệu, đồng thời giảm chi phí xử lý dữ liệu quy mô lớn Sự kết hợp giữa kiến thức lập kế hoạch, dữ liệu lớn và công cụ khai thác dữ liệu giúp tạo ra các chỉ số về hành vi đi lại, hiệu suất hoạt động, chính sách giao thông và chính sách giá vé, góp phần nâng cao hiệu quả quản lý vận tải đô thị.
2 Dự liệu lớn từ GPS
GPS là hệ thống xác định vị trí giúp thu thập dữ liệu giao thông hiệu quả và an toàn hơn Khi kết hợp với hệ thống thông tin địa lý (GIS), GPS trở thành công cụ mạnh mẽ để thu thập dữ liệu về di chuyển, đo độ trễ hành trình và giám sát giao thông Dữ liệu này hỗ trợ giải quyết các vấn đề về giao thông như phát hiện chế độ di chuyển, tối ưu hóa tuyến đường và nâng cao quản lý giao thông đô thị.
3 Dữ liệu lớn từ video
Video là phương tiện điện tử ghi, sao chép, phát lại, phát sóng và hiển thị hình ảnh chuyển động lưu trữ trong các phương tiện Trong các hệ thống quản lý giao thông tiên tiến (ATMS), hệ thống phát hiện hình ảnh video (VIDS) là lựa chọn thay thế hiệu quả so với cảm biến truyền thống để nhận dạng phương tiện và phát hiện luồng giao thông Chi phí thấp của công nghệ video là một lợi thế lớn, giúp triển khai các hệ thống giám sát giao thông tiết kiệm chi phí Dữ liệu video lớn đã được ứng dụng thành công trong việc phát hiện sự cố, mang lại độ chính xác cao trong một số trường hợp Ngoài quản lý giao thông chung, các kỹ sư và nhà quy hoạch giao thông có thể sử dụng dữ liệu video phương tiện chính xác hơn để cải thiện hệ thống xử lý hình ảnh, từ đó đáp ứng tốt hơn các yêu cầu về giảm phát thải và mô hình giao thông bền vững.
4 Dữ liệu cảm ứng biến
Các cảm biến được lắp đặt trên mặt đường để thu thập dữ liệu về luồng giao thông, khí hậu và thời tiết, giúp hệ thống máy tính phân tích và cung cấp thông tin thiết yếu cho tài xế Thông tin này bao gồm tình hình tai nạn, ùn tắc giao thông và dự báo thời tiết, từ đó hỗ trợ tài xế chọn giải pháp di chuyển tối ưu, giảm thiểu tai nạn và ùn tắc Dữ liệu cảm biến được thu thập từ ba nguồn chính: dữ liệu bên đường, dữ liệu từ ô tô nổi và dữ liệu diện rộng, tạo thành hệ thống thông tin giao thông toàn diện và chính xác.
Dữ liệu bên đường, được thu thập bởi các cảm biến nằm dọc theo tuyến đường, đóng vai trò quan trọng trong hệ thống quản lý giao thông hiện đại Các cảm biến thế hệ mới như cảm biến siêu âm, cảm biến âm thanh, thiết bị phát hiện xe từ kế, hệ thống cảm biến hồng ngoại, cảm biến phạm vi laser (LIDAR), cùng các hệ thống phát hiện và xử lý hình ảnh video ngày càng phổ biến nhờ vào sự phát triển của công nghệ tiên tiến.
Dữ liệu ô tô nổi (FCD) là loại dữ liệu chủ yếu đề cập đến hoạt động di chuyển của phương tiện tại các vị trí khác nhau trong Hệ thống Giao thông Thông minh (ITS) Các cảm biến tàu cung cấp thông tin đáng tin cậy và hiệu quả nhằm ước lượng lộ trình đi hợp lý của phương tiện Với sự phát triển của công nghệ cảm biến phương tiện, các kỹ thuật cảm biến FCD phổ biến hiện nay bao gồm nhận dạng phương tiện tự động (AVI), nhận dạng biển số xe (LPR) và các bộ thu sóng như thiết bị dò tìm phương tiện và thẻ thu phí điện tử, góp phần nâng cao hiệu quả quản lý và phân tích dữ liệu giao thông.
Dữ liệu diện rộng thu thập từ các kỹ thuật theo dõi cảm ứng biến như xử lý hình ảnh, ghi âm, video dựa trên không gian, giúp cung cấp thông tin toàn diện về tình hình giao thông.
5 Dữ liệu lớn từ CAV and VANET
Các phương tiện kết nối và tự động (CAV) là công nghệ tiên tiến trong lĩnh vực ITS, kết hợp các đổi mới về thiết kế phương tiện và tương tác với cơ sở hạ tầng đường bộ.
502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared
502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared
6 Dữ liệu lớn từ thu thập thụ động
502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared
Trong các tình huống như vậy, việc thu thập dữ liệu thụ động đóng vai trò vô cùng quan trọng trong việc hiểu rõ khách hàng và người dùng Sử dụng dữ liệu thụ động giúp doanh nghiệp thu thập thông tin khách hàng một cách hiệu quả thông qua nhiều phương pháp khác nhau như theo dõi hoạt động trực tuyến, phân tích hành vi người dùng trên các nền tảng số, và sử dụng các công cụ phân tích dữ liệu tự động Các dữ liệu này cung cấp cái nhìn tổng thể về hành vi tiêu dùng, sở thích và xu hướng của khách hàng, từ đó giúp tối ưu chiến lược marketing và nâng cao trải nghiệm khách hàng.
• Dữ liệu thiết bị di động
7 Dữ liệu lớn từ các nguồn khác
Dữ liệu từ thử nghiệm chuyên dụng trong hệ thống ITS đóng vai trò quan trọng trong việc nâng cao hiệu suất hệ thống Ví dụ, trong các dự án trước đây của chúng tôi, chúng tôi thực hiện các thử nghiệm thực địa trên hệ thống thông tin liên lạc mặt đất trong giao thông đường sắt đô thị, đặc biệt là hệ thống điều khiển tàu hỏa dựa trên thông tin liên lạc (CBTC) Lượng lớn dữ liệu khuếch đại kênh thu thập từ các thử nghiệm này được xử lý để mô hình hóa đặc tính ngẫu nhiên của trạng thái kênh, từ đó giúp tối ưu hóa hiệu suất vận hành của hệ thống CBTC.
II.Phương pháp phân tích dữ liệu lớn trong ITS
Dữ liệu huấn luyện có nhãn được sử dụng trong các thuật toán học có giám sát để giúp mô hình học các mối quan hệ chính xác Các mô hình dựa trên dữ liệu đầu vào và nhãn mục tiêu để hiểu rõ chức năng hoặc mối liên hệ giữa chúng Nhờ vào quá trình huấn luyện này, mô hình có thể dự đoán chính xác các kết quả mới dựa trên dữ liệu đã học, nâng cao hiệu quả và độ chính xác của các ứng dụng trí tuệ nhân tạo.
Trong lĩnh vực Học máy, các mô hình như hồi quy tuyến tính, cây quyết định, mạng thần kinh và máy vectơ hỗ trợ (SVM) đều được sử dụng phổ biến trong Hệ thống Thông tin Địa lý (ITS) Những mô hình này mang lại 8 kết quả đầu ra chưa từng thấy, thể hiện tiềm năng vượt trội trong việc phân tích dữ liệu và đưa ra dự đoán chính xác Các phương pháp học có giám sát này ngày càng đóng vai trò quan trọng trong việc nâng cao hiệu quả, độ chính xác và khả năng ứng dụng của ITS trong nhiều lĩnh vực khác nhau.
Ứng dụng dữ liệu lớn trong ITS
Road Traffic Accidents Analysis
Mỗi năm, có khoảng 1,2 triệu người trên thế giới tử vong và 50 triệu người bị thương do tai nạn giao thông, gây ảnh hưởng nghiêm trọng đến cộng đồng toàn cầu Phân tích chính xác dữ liệu tai nạn giao thông đóng vai trò quan trọng trong việc cung cấp thông tin cần thiết để xây dựng các chính sách phòng ngừa hiệu quả Nhờ đó, bộ phận giao thông có thể đưa ra những biện pháp đảm bảo an toàn, giảm thiểu tai nạn và bảo vệ tính mạng của người tham gia giao thông.
Các phân tích thống kê đa biến tuyến tính và phi tuyến đã được ứng dụng để xác định cách các loại tai nạn xảy ra trên các tuyến cao tốc ở Nam California, liên quan đến luồng giao thông, điều kiện ánh sáng và môi trường xung quanh Lưu lượng giao thông được đo theo chuỗi thời gian, mỗi chu kỳ 30 giây, dựa trên dữ liệu từ các cảm biến vòng lập trong vùng hành trình trước vụ tai nạn Kết quả cho thấy loại va chạm có mối liên hệ mạnh mẽ với tốc độ trung bình của giao thông cũng như các biến thể về tốc độ theo thời gian ở các làn bên trái và trong cùng Các vụ va chạm có liên quan đến nhiều phương tiện, đặc biệt là các thao tác chuyển làn, thường xảy ra trên đường ướt, trong khi các vụ va chạm phía sau phổ biến hơn vào ban ngày trên điều kiện đường khô Ngoài ra, kiểm soát các yếu tố về điều kiện thời tiết và ánh sáng cho thấy có ảnh hưởng lớn đến mức độ nghiêm trọng của tai nạn hơn cả tốc độ lưu thông.
Các mô hình thống kê như mô hình hồi quy Poisson và nhị thức âm đã được sử dụng phổ biến để phân tích tần suất tai nạn giao thông trong nhiều năm Tuy nhiên, những mô hình này dựa trên các giả định cố định về mối quan hệ giữa biến phụ thuộc và các biến độc lập, nên vi phạm giả định có thể dẫn đến ước tính sai lệch về khả năng xảy ra tai nạn Cây phân loại và hồi quy (CART), một kỹ thuật khai thác dữ liệu mạnh mẽ, không yêu cầu giả định về mối quan hệ trước giữa biến mục tiêu và các yếu tố dự đoán, và đã được ứng dụng rộng rãi trong quản trị doanh nghiệp, công nghiệp và kỹ thuật Nghiên cứu thu thập dữ liệu tai nạn trên Quốc lộ 1 tại Đài Loan năm 2001–2002, đã sử dụng cả mô hình CART và mô hình hồi quy nhị thức âm để phân tích và dự đoán nguy cơ tai nạn giao thông.
16 được phát triển nhằm thiết lập mối quan hệ thực nghiệm giữa tai nạn giao thông và các biến số hình học trên đường cao tốc, các đặc điểm giao thông và yếu tố môi trường Nghiên cứu này giúp hiểu rõ tác động của các yếu tố này đối với an toàn giao thông, từ đó đề xuất các giải pháp giảm thiểu tai nạn hiệu quả hơn Việc phân tích các biến số hình học như độ dốc, bán kính cong và chiều dài đoạn tuyến cao tốc đóng vai trò quan trọng trong việc cải thiện thiết kế đường, nâng cao an toàn cho phương tiện và người đi đường Ngoài ra, các yếu tố giao thông và môi trường như mật độ phương tiện, điều kiện thời tiết cũng được xem xét kỹ lưỡng để tạo ra các mô hình dự báo tai nạn chính xác hơn.
Road Traffic Flow Prediction
Hình 4: Một mô hình dự đoán lưu lượng giao thông điển hình
Public Transportation Services Planning
Phân tích dữ liệu lớn về giao thông công cộng giúp làm rõ các mô hình hành trình của hành khách trên mạng lưới vận tải Những mô hình này cung cấp thông tin quý giá để hỗ trợ các nhà khai thác dịch vụ vận tải trong việc lập kế hoạch dịch vụ, tối ưu hóa tuyến tuyến và nâng cao trải nghiệm hành khách Việc sử dụng dữ liệu hành trình của khách hàng là chìa khóa để đưa ra các quyết định chiến lược, từ đó nâng cao hiệu quả hoạt động và giảm thiểu ùn tắc giao thông công cộng.
Quá trình đô thị hóa nhanh chóng dẫn đến lượng lưu lượng du lịch tăng cao, đặt ra nhu cầu cấp thiết về các chính sách quy hoạch giao thông hiệu quả Dữ liệu điện thoại di động đã nổi lên như một nguồn dữ liệu khổng lồ nhưng vẫn chưa được tích hợp vào các mô hình quy hoạch giao thông toàn diện Hiện nay, các cơ quan quản lý vận tải thiếu một bức tranh tổng thể về lưu lượng hành khách hàng ngày trên các mạng lưới vận tải đa phương thức Để giải quyết vấn đề này, chúng tôi đề xuất phương pháp đầu tiên suy ra các luồng điểm gốc-đích động dựa trên dữ liệu mạng di động, như bản ghi cuộc gọi chi tiết Nghiên cứu của chúng tôi xử lý 360 triệu quỹ đạo từ hơn 2 triệu thiết bị tại Greater Paris, sử dụng mô hình kết hợp dữ liệu mạng di động, mạng lưới giao thông, dữ liệu không gian địa lý, khảo sát du lịch, điều tra dân số và dữ liệu thẻ du lịch Các chế độ vận chuyển của quỹ đạo mạng di động được xác định thông qua thuật toán học bán giám sát hai bước, trong đó phân cụm các khu vực mạng di động và sử dụng suy luận Bayes để xác định xác suất vận chuyển, giúp gán chế độ vận chuyển có xác suất cao nhất cho từng quỹ đạo.
Chúng tôi đã xây dựng ma trận Điểm gốc-Đích dựa trên 17 quỹ đạo và chế độ vận chuyển cụ thể Các luồng vận tải được điều chỉnh tỷ lệ phù hợp với tổng dân số bằng cách áp dụng các hệ số mở rộng hiện đại, giúp mô hình phản ánh chính xác chiều hướng di chuyển Mô hình này tạo ra các luồng hành khách đường bộ và đường sắt biến đổi theo thời gian trên toàn khu vực, qua đó cho phép phân tích các xu hướng di chuyển khác nhau Kết quả mô hình đã thể hiện các mô hình di chuyển đa dạng giữa các phương thức vận tải và giữa Paris với các vùng ngoại ô, đồng thời được xác thực rộng rãi dựa trên khảo sát du lịch và dữ liệu thẻ du lịch phù hợp với các quy mô không gian khác nhau.[15]
Sử dụng dữ liệu điện thoại di động từ kho dữ liệu mã nguồn mở để triển khai mô hình dự báo nhu cầu du lịch Việc trích xuất mạng lưới các tuyến đường, ma trận định tuyến và bảng hành trình từ dữ liệu ghi cuộc gọi (CDR) giúp xây dựng các mô hình chính xác Những phân tích này đóng vai trò là hướng dẫn quan trọng, hỗ trợ các nhà khai thác vận tải trong công tác quy hoạch giao thông công cộng hiệu quả.
Personal Travel Route Planning
Các ứng dụng vận chuyển bắt đầu với tầm nhìn cung cấp thông tin đến thời gian thực cho xe buýt, tàu điện ngầm, đường sắt nhẹ và các phương tiện khác tại nhiều thành phố trên thế giới, tại các nhà ga, trung tâm vận tải và điểm dừng lớn Tuy nhiên, việc lắp đặt và duy trì màn hình hiển thị tại mọi trạm xe buýt rất tốn kém, khiến các hệ thống này trở nên kém khả thi về chi phí Nhờ vào sự phổ biến của thiết bị di động mạnh mẽ và dữ liệu lịch trình có thể đọc được, nhiều công cụ đã được phát triển để cung cấp thông tin thời gian thực qua các giao diện khác nhau, đặc biệt là trên điện thoại di động Các hệ thống này thường tiết kiệm chi phí hơn so với việc lắp đặt màn hình cố định và còn hỗ trợ các chức năng bổ sung, cá nhân hóa như cảnh báo tùy chỉnh, giúp nâng cao trải nghiệm người dùng Một trong những hệ thống theo dõi xe buýt trực tuyến đầu tiên, Busview, do Daniel Tweetsey và cộng sự phát triển, đã mở đường cho các giải pháp công nghệ hiện đại trong lĩnh vực vận chuyển.
Google Transit đã bắt đầu cung cấp kế hoạch chuyến đi vận chuyển cho hơn 400 thành phố trên toàn thế giới, giúp người dùng dễ dàng lập lịch trình di chuyển Mặc dù không cung cấp dữ liệu theo thời gian thực, dịch vụ này vẫn là một công cụ hữu ích cho việc lên kế hoạch du lịch và di chuyển hàng ngày.
Google Transit cung cấp thông tin quan trọng cho các tay đua quá cảnh trên toàn thế giới và giúp thiết lập tiêu chuẩn thực tế để trao đổi dữ liệu lịch trình vận chuyển thông qua GTFS Nhiều cơ quan vận chuyển đã phát hành dữ liệu lập lịch vận chuyển của họ ở định dạng GTFS, thúc đẩy sự phát triển của hệ sinh thái ứng dụng thứ ba Các nhà phát triển và Transit hackers tận dụng dữ liệu công khai này để sáng tạo ra nhiều ứng dụng hữu ích, như trang ứng dụng Portland Trimet liệt kê hơn 20 ứng dụng dựa trên dữ liệu GTFS.
Các hệ sinh thái dữ liệu vận chuyển tại Portland, San Francisco, Vùng Vịnh, Chicago và các thành phố lớn khác đang tận dụng khả năng nội địa hóa của thiết bị di động và nhiều ứng dụng để cải thiện trải nghiệm người dùng Nhiều nghiên cứu đã tập trung vào việc làm thế nào các ứng dụng di động có thể nâng cao khả năng sử dụng trong quá trình vận chuyển, đặc biệt cho các nhóm người dùng như người bị suy yếu nhận thức Bộ công cụ OneBusaway nổi bật trong việc cung cấp giao diện truy cập dễ dàng, sử dụng mã nguồn mở để thúc đẩy truy cập mở vào dữ liệu vận chuyển và nâng cao khả năng sử dụng chung cho mọi người.
Rail Transportation Management and Control
Trong những thập kỷ qua, nghiên cứu vận hành đường sắt đã tập trung vào phát triển các mô hình kính vi mới để hỗ trợ quản lý các khu vực điều phối Tuy nhiên, các mô hình này thường gây ra thời gian tính toán dài đối với các mạng lớn, gây khó khăn trong việc triển khai thực tế Việc kiểm soát lưu lượng truy cập toàn quốc vẫn còn thách thức do sự phối hợp giữa các khu vực địa phương rất phức tạp, do các chuyến tàu phụ thuộc lẫn nhau trên toàn bộ mạng lưới Do đó, cần phát triển các mô hình vĩ mô mới có khả năng tích hợp các quyết định quản lý giao thông để nâng cao hiệu quả vận hành đường sắt quốc gia.
Phân tích dữ liệu lớn đóng vai trò quan trọng trong việc nâng cao hiệu quả quản lý giao thông công cộng bằng cách hiểu rõ các mô hình di chuyển của hành khách Dữ liệu điện thoại di động của hàng triệu người dùng ẩn danh giúp dự đoán hành vi di chuyển của người đi ô tô thường xuyên, cung cấp thông tin giá trị cho các nhà cung cấp vận chuyển Các cuộc thăm dò địa phương và quốc gia hỗ trợ chứng minh khả năng ứng dụng thực tiễn của mô hình dựa trên dữ liệu lớn Việc kết hợp dữ liệu vị trí xe từ hệ thống Metro và IBUS cùng thông tin thẻ thông minh giúp tính toán chính xác thời gian hành khách lên và xuống tàu Dữ liệu thẻ thông minh còn dùng để tạo ma trận luồng tuyến xe buýt cho dịch vụ BRT và không BRT, góp phần đưa ra chính sách dựa trên bằng chứng Các nền tảng quản lý dữ liệu cập nhật giúp các nhà hoạch định vận tải sắt nhận phản hồi gần thời gian thực về dịch vụ, tăng độ linh hoạt và hiệu quả Ngoài ra, dữ liệu mở như dữ liệu hồ sơ cuộc gọi (CDR) có thể được khai thác để xây dựng các mô hình nhu cầu dựa trên điện thoại di động, góp phần cải thiện chiến lược phát triển giao thông phù hợp hơn với nhu cầu người dân.
Các mạng lưới đường, ma trận OD được xác thực và các bảng chuyến đi đóng vai trò quan trọng trong công tác lập kế hoạch giao thông công cộng Công việc này dựa vào dữ liệu chính xác để tối ưu hóa hệ thống vận chuyển, giúp các nhà hoạch định giao thông công cộng trên toàn thế giới nâng cao hiệu quả dịch vụ.
Hou et al đề xuất ba thuật toán điều khiển dừng tàu dựa trên việc chọn dữ liệu vị trí phanh ban đầu, dữ liệu lực phanh, hoặc sự kết hợp của chúng làm đầu vào điều khiển Phương pháp điều khiển học lặp đầu cuối (TILC) lần đầu tiên được ứng dụng trong lĩnh vực điều khiển điểm dừng của nhà ga, với ba thuật toán dựa trên TILC được trình bày trong nghiên cứu này Các thuật toán sử dụng lỗi vị trí dừng cuối cùng trong quá trình phanh để cập nhật cấu hình điều khiển hiện tại, giúp đảm bảo độ chính xác và an toàn Vị trí phanh ban đầu, lực phanh hoặc sự kết hợp của chúng được lựa chọn làm đầu vào điều khiển, đồng thời các luật điều khiển tương ứng được phát triển để tối ưu hóa quá trình dừng tàu Kết quả phân tích cho thấy lỗi vị trí dừng cuối cùng của các thuật toán này luôn hội tụ về một vùng nhỏ liên quan đến độ lệch ban đầu của vị trí phanh, đảm bảo độ tin cậy của hệ thống điều khiển.
Asset Maintenance
Hình 5: Một khuôn khổ điển hình của việc sử dụng phân tích dữ liệu lớn để bảo trì tài sản
Trong hệ thống ITS, các tài sản quan trọng phụ thuộc vào lượng lớn dữ liệu để vận hành và duy trì hiệu quả, do đó phương pháp bảo trì phù hợp đóng vai trò then chốt trong việc bảo vệ vốn đầu tư và giảm thiểu chi phí bảo trì Phân tích Dữ liệu lớn giúp xác định các vấn đề nhanh chóng, chính xác hơn, từ đó giảm thiểu chi phí và tối ưu hóa quá trình bảo trì Một mô hình điển hình sử dụng phân tích Dữ liệu lớn trong quyết định bảo trì tài sản thể hiện rõ trong Hình 5, với dữ liệu từ tàu và hạ tầng được thu thập qua các cảm biến đa dạng Dữ liệu về hư hỏng vật lý như xuống cấp mặt đường, lão hóa dẫy, hình dạng đường ray có thể được sử dụng trực tiếp để đưa ra quyết định Ngoài ra, dữ liệu văn bản, bao gồm thông tin dựa trên kinh nghiệm và báo cáo, cũng góp phần vào quá trình phân tích và dự đoán tình trạng tài sản.
20 cáo bảo trì, mô tả biểu tượng, v.v., có thể được xử lý để trích xuất thông tin quan trọng
Dữ liệu trạng thái của cơ sở hạ tầng và phương tiện như nhiệt độ, độ ẩm có thể được xử lý bằng phương pháp điều khiển dữ liệu để thu nhận các chỉ báo tình trạng chính xác Kết quả từ ba phương pháp quy trình tích hợp giúp chẩn đoán chính xác về tình trạng tài sản và xác định thời gian sử dụng hữu ích còn lại Thông tin này hỗ trợ người dùng cuối trong việc đưa ra quyết định bảo trì và vận hành hiệu quả.
Phương pháp quyết định bảo trì dựa trên mờ được đề xuất để giải quyết tình trạng lỗi mỏi tiếp xúc lăn gọi là "ngồi xổm" trên cơ sở hạ tầng đường sắt Các phép đo Gia tốc hộp trục (ABA) được sử dụng để phát hiện các ô vuông, và mô hình dự đoán mạnh mẽ được áp dụng để dự đoán sự phát triển của các ô vuông theo ba kịch bản tăng trưởng nhanh, trung bình và chậm Để tạo điều kiện cho hoạt động bảo trì phòng ngừa, phương pháp phân cụm mờ nhóm các ô vuông nhẹ gần nhau, nhằm xác định các vùng phù hợp để xử lý cùng nhau Phân tích mặt trận Pareto dựa trên phương pháp α% mới cho phép đánh đổi giữa số lượng ô vuông không được xử lý và tỷ lệ phủ liên quan đến mức α%, giúp tối ưu hóa kế hoạch bảo trì Hệ thống chuyên gia mờ kết hợp bốn chỉ số hiệu suất chính ở cấp độ kỹ thuật để ước tính tình trạng sức khỏe của từng cụm ngồi xổm, từ đó giúp các nhà quản lý ưu tiên hành động bảo trì phù hợp Các chỉ báo dự đoán còn hỗ trợ quyết định thay thế phần nào của đường ray khi phát hiện các chỗ ngồi nghiêm trọng Để minh họa, nghiên cứu sử dụng đường ray Groningen-Assen của mạng lưới đường sắt Hà Lan, giúp các nhà quản lý dễ dàng xếp hạng các cụm nhẹ theo tầm quan trọng và đưa ra các quyết định bảo trì chính xác.
NỀN TẢNG DỮ LIỆU LỚN TRONG NÓ
Phân tích Dữ liệu lớn trong lĩnh vực Hệ thống Giao thông thông minh (ITS) đang ngày càng phát triển nhờ sự hỗ trợ của các nền tảng Dữ liệu lớn tiên tiến Các nền tảng này tận dụng hệ thống tệp phân tán và khả năng tính toán song song, giúp xử lý dữ liệu nhanh chóng và hiệu quả Chúng không chỉ hiểu rõ dữ liệu lớn mà còn hỗ trợ tối ưu hóa các hệ thống quy mô lớn trong ITS, góp phần nâng cao hiệu quả và độ chính xác của các giải pháp giao thông thông minh.
Hình 6: Khung điển hình sử dụng nền tảng Apache Spark trong ITS
Apache Hadoop là nền tảng phần mềm nguồn mở hàng đầu cho xử lý phân tán và lưu trữ lượng lớn dữ liệu, phù hợp với các hoạt động phân tích dữ liệu đa dạng Nhờ khả năng xử lý phân tán, Hadoop lý tưởng để phân tích dữ liệu trong lĩnh vực ITS, bao gồm dữ liệu thẻ thông minh, cảm biến đa dạng, phương tiện truyền thông xã hội và dữ liệu GPS.
Apache Spark là nền tảng nguồn mở mới nhất用于 xử lý lượng lớn dữ liệu và đặc biệt phù hợp với các tác vụ học máy Spark sử dụng công nghệ lưu trữ phân tán giống như Hadoop, cho phép tải dữ liệu vào bộ nhớ của cụm để thực hiện các truy vấn lặp đi lặp lại một cách nhanh chóng Nền tảng này lý tưởng cho các phương pháp học máy và phân tích dữ liệu lớn, giúp tối ưu hiệu quả xử lý và phân tích dữ liệu Các phương pháp phân tích dữ liệu lớn dựa trên máy học, đã được giới thiệu trong các phần trước, có thể được thực hiện hiệu quả trên cả nền tảng Hadoop và Spark.
Hình 6 trình bày khung điển hình sử dụng nền tảng Apache Spark trong hệ thống ITS, trong đó dữ liệu từ các nguồn khác nhau được thu thập qua API HBase (cơ sở dữ liệu Hadoop) và gửi về trung tâm dữ liệu Spark Streaming xử lý dữ liệu theo thời gian thực, cho phép thực hiện các tác vụ quan trọng như phát hiện tốc độ xe, nhận dạng xe và cảnh báo kịp thời.
HBase là một cơ sở dữ liệu nguồn mở phân tán nổi bật trong lĩnh vực công nghệ Nó cung cấp chức năng trích xuất tính năng cấp cao và tạo chỉ mục cho các tập dữ liệu lớn, giúp tăng cường hiệu quả và tốc độ truy xuất dữ liệu Nhờ đó, HBase trở thành sự lựa chọn lý tưởng cho các hệ thống yêu cầu xử lý dữ liệu lớn và thời gian thực.
Spark Core là nền tảng chủ chốt của hệ thống Spark, cho phép thực hiện các tác vụ ngoại tuyến với khả năng tính toán phân tán vượt trội Nền tảng này đóng vai trò quan trọng trong việc quản lý và kiểm soát giao thông, phân tích tai nạn và xử lý dữ liệu lớn một cách hiệu quả Với Spark Core, các nhiệm vụ xử lý dữ liệu phức tạp được thực hiện nhanh chóng, đảm bảo hiệu suất cao và độ chính xác trong các ứng dụng quan trọng.
Dữ liệu lớn đóng vai trò quan trọng trong việc chuẩn bị cho các thành phố thông minh bằng cách cung cấp những quyết định thông minh trong thời gian thực và xử lý lượng lớn dữ liệu liên tục Trong các ứng dụng Hệ thống Giao thông Thông minh (ITS), việc sử dụng kỹ thuật trí tuệ nhân tạo dựa trên môi trường mô phỏng giúp đánh giá và thử nghiệm các chiến lược hiệu quả Một mô hình mạng lưới giao thông GTA được trình bày nhằm cho phép các ứng dụng vận chuyển dữ liệu lớn hoạt động trong thời gian thực, đồng thời đòi hỏi công tác xây dựng và hiệu chuẩn dữ liệu lớn kỹ lưỡng Nền tảng phân tích dữ liệu giao thông dựa trên đám mây, tích hợp các lớp dữ liệu, phân tích và quản lý, giúp hiểu rõ các kiểu giao thông, phù hợp cho các nhà nghiên cứu, kỹ sư và nhà lập kế hoạch Nền tảng này có khả năng mở rộng và thích ứng cao, hỗ trợ cả phân tích trực tuyến và hồi cứu, điển hình qua các trường hợp như xác định tốc độ trung bình và các đoạn tắc nghẽn tại khu vực Greater Toronto (GTA), góp phần thúc đẩy sự phát triển của các thành phố thông minh như Toronto.
Trung tâm dữ liệu truyền thống đối mặt với nhiều hạn chế về chi phí, sử dụng tài nguyên, tiêu thụ điện năng và vận hành hiệu quả Xu hướng phát triển của trung tâm dữ liệu ảo mang lại nhiều ưu điểm kỹ thuật, như tối ưu hóa tài nguyên và giảm chi phí vận hành Bài viết đề xuất sơ đồ hệ thống trung tâm dữ liệu ảo cho hệ thống giao thông thông minh dựa trên nền tảng VMware vSphere, nhằm nâng cao hiệu quả quản lý dữ liệu lớn, đa nguồn, thời gian thực và xử lý dữ liệu không chắc chắn từ các thiết bị cảm biến và điều khiển trong thành phố thông minh Đồng thời, bài báo phân tích các đặc điểm và mối liên hệ của các loại dữ liệu này trong môi trường điện toán đám mây, hướng tới đảm bảo luồng dữ liệu thông suốt và hiệu quả trong quản lý hệ thống giao thông thông minh thành phố.
Bài viết trình bày về hoạt động giao thông thực tế của thành phố và luồng dữ liệu giao thông, nghiên cứu cơ chế phát triển của dữ liệu không chắc chắn Đề xuất xây dựng mô hình luồng dữ liệu dựa trên ontology, siêu dữ liệu cốt lõi và lý thuyết về các ràng buộc nhằm tối ưu hóa quản lý dữ liệu Sử dụng công nghệ ảo hóa và dữ liệu lớn trong xử lý song song để cân bằng tải và phát triển cơ chế thích ứng Kết hợp lý thuyết mờ, lý thuyết đa đối tượng động và lý thuyết quyết định đa ràng buộc nhằm tìm kiếm các thuật toán truy vấn hiệu quả cho vận tải động, dòng dữ liệu phức tạp và liên tục, góp phần nâng cao hiệu quả hệ thống vận hành.
Chức năng xử lý luồng dữ liệu thời gian thực là phần không thể thiếu trong nền tảng xử lý Dữ liệu lớn trong Hệ thống Giao thông Thông minh (ITS) Các ứng dụng thời gian thực như giám sát, kiểm soát giao thông và quản lý lịch trình giao thông công cộng đòi hỏi khả năng xử lý dữ liệu nhanh chóng và chính xác Dựa trên hệ thống dữ liệu lớn truyền thống, các hệ thống truyền dữ liệu thời gian thực quan trọng đã được đề xuất, như kiến trúc ETL (trích xuất, biến đổi, tải) cho các hệ thống giao thông thông minh nhằm giải quyết các kịch bản như thu phí động trên đường cao tốc Kiến trúc này tích hợp công nghệ Dữ liệu lớn như Spark trên Hadoop và MongoDB để xử lý hiệu quả dữ liệu lịch sử và dữ liệu thời gian thực.
Nền tảng xử lý luồng dữ liệu được đề xuất hỗ trợ chia sẻ nguồn dữ liệu giữa nhiều bên, bao gồm thành phần phần mềm và kết quả trung gian, giúp tăng tính linh hoạt và hiệu quả trong quản lý luồng dữ liệu Một kiến trúc toàn diện dựa trên nền tảng tính toán phân tán để kiểm soát luồng dữ liệu thời gian thực đã được đề xuất, đồng thời họ đã triển khai một phần kiến trúc này trên nền tảng nguyên mẫu sử dụng Kafka, một công cụ Dữ liệu lớn hiện đại, để xây dựng các đường dẫn dữ liệu và xử lý luồng một cách hiệu quả.
Hệ thống vận chuyển kết nối (CTS) yêu cầu cơ sở hạ tầng có khả năng xử lý tín hiệu thời gian thực và mở rộng để đáp ứng nhu cầu dữ liệu lớn Ngoài thu thập dữ liệu, hệ thống còn phải hỗ trợ phân tích dữ liệu lớn, như sử dụng dữ liệu không gian địa lý để phát hiện các vấn đề an toàn trong khu vực xung quanh xe Chương này sẽ phân tích các hệ thống cơ sở hạ tầng dữ liệu hiện tại trong lĩnh vực này để đảm bảo hiệu quả và khả năng mở rộng của các hệ thống vận chuyển kết nối.