Ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông

Ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông Ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông Ứng dụng trí tuệ nhân tạo trong quản lý hệ thống đèn giao thông thông minh nhằm làm giảm tổng thời gian chờ của các phương tiện tại một nút giao thông

TỔNG QUAN

Giới thiệu

Trong những ngày gần đây, khái niệm Cách mạng Công nghiệp 4.0 được nhắc đến nhiều trên các phương tiện truyền thông và mạng xã hội, gắn với hy vọng về một cuộc cách mạng số tác động đến mọi ngành nghề và lĩnh vực Sự lên ngôi của công nghệ như Internet vạn vật (IoT), trí tuệ nhân tạo (AI), dữ liệu lớn và tự động hóa mở ra cơ hội tăng năng suất, tối ưu hoá quy trình sản xuất, cải thiện chuỗi cung ứng và tạo ra các mô hình kinh doanh hoàn toàn mới Tuy nhiên, chuyển đổi này cũng đặt ra thách thức về nguồn nhân lực, kỹ năng số và an toàn dữ liệu, đòi hỏi doanh nghiệp và người lao động đầu tư cho đào tạo, hạ tầng số và khung pháp lý phù hợp Việc nắm bắt nhanh các xu hướng công nghệ và áp dụng linh hoạt sẽ quyết định mức độ thành công của chuyển đổi số và khả năng cạnh tranh trên thị trường toàn cầu.

“đổi đời” của các doanh nghiệp tại Việt Nam nếu đón được làn sóng này

Việc ứng dụng công nghệ tiên tiến để hỗ trợ quản lý dòng phương tiện đã trở nên phổ biến trong hơn 70 năm qua, bắt đầu từ những nỗ lực kiểm soát tín hiệu giao thông tại các ngã tư và khu vực giao cắt trên các con đường Các nhà sản xuất phương tiện đã không ngừng phát triển các công nghệ tiên tiến nhằm tạo ra những chiếc phương tiện an toàn hơn, thoải mái hơn và giúp giảm áp lực khi lái xe cho người dùng, từ đó nâng cao trải nghiệm và hiệu quả lưu thông trên đường.

Ngày nay, các công nghệ tiên tiến được áp dụng ngày càng nhiều vào quản lý mạng lưới giao thông công cộng và cập nhật thời gian thực điểm đến của xe buýt, tàu cho hành khách Trong lĩnh vực vận tải hàng hóa, một loạt công nghệ được triển khai nhằm làm cho việc di chuyển của các phương tiện dễ dàng hơn và hỗ trợ các giao dịch thương mại trong chuỗi cung ứng Tất cả những công nghệ này được biết đến với tên gọi hệ thống giao thông thông minh (ITS) Khi được áp dụng một cách thận trọng, ITS có thể tạo ra hệ thống giao thông an toàn hơn, an ninh hơn, thuận tiện hơn và giảm tác động tới môi trường.

Mục đích của hệ thống ITS là trở thành một công cụ hỗ trợ quyết định, như một cố vấn giúp người dùng nhận diện những yếu tố cần cân nhắc để xây dựng các phương án sử dụng ITS tối ưu; chỉ rõ các cơ hội và thách thức mà ITS có thể đối mặt; và đề xuất cách giải quyết cũng như cách tận dụng hiệu quả những cơ hội đó để vượt qua thách thức.

1.1.1 Công trình liên quan Để tiến hành thực hiện đề tài này tôi đã tìm hiểu các hệ thống giao thông thông minh hiện nay trên thị trường và nghiên cứu các công trình bài báo liên quan:

Vào năm 2016, Elise van der Pol và Frans A Oliehoek mô tả cách điều khiển đèn giao thông bằng cách sử dụng các thành phần của một quá trình quyết định Markov (MDP) Trong mô hình này, trạng thái của tuyến đường được biểu diễn bằng một ma trận nhị phân, đồng thời gắn với trạng thái của đèn tín hiệu giao thông Họ kết hợp các tác nhân tại các nút giao thông khác nhau để tiến hành quá trình huấn luyện và đạt được kết quả tốt hơn so với hệ thống đèn tín hiệu tĩnh.

Trong năm 2016, Li Li và các đồng sự đề xuất một phương pháp kết hợp mạng học sâu với học tăng cường để xử lý dữ liệu trạng thái giao thông như vận tốc xe và độ dài hàng đợi trên các làn đường, từ đó hệ thống điều chỉnh thời gian đèn tín hiệu sao cho hợp lý Kết quả cho thấy phương pháp này làm giảm số xe dừng chờ và thời gian chờ trung bình của các phương tiện có thể giảm khoảng 14% so với các phương pháp học tăng cường thông thường.

Vào năm 2017, Juntao Gao và các đồng nghiệp đã đề xuất một thuật toán học tăng cường kết hợp mạng học sâu nhằm tự động trích xuất các đặc trưng hữu ích từ dữ liệu giao thông, bao gồm vị trí và vận tốc của xe trên mỗi tuyến đường và trạng thái tín hiệu của đèn giao thông tại nút giao thông Nhờ đó, tác nhân có thể học được các chính sách tối ưu để điều khiển tín hiệu đèn giao thông ở giao lộ một cách hợp lý, nhằm cải thiện luồng giao thông và giảm ùn tắc.

Vào năm 2018, Yilun Lin và các đồng sự đã đề xuất một thuật toán học tăng cường sâu (DRL) Tác nhân được triển khai dựa trên mô hình A2C Các thí nghiệm mô phỏng cho thấy phương pháp của họ vượt trội so với các phương pháp dựa trên quy tắc truyền thống và có khả năng xử lý các vấn đề phức tạp hơn trong thế giới thực.

Năm 2018, một nghiên cứu của tác giả Tomoki Nishi [5] cho thấy việc trích xuất các thuộc tính ảo từ dữ liệu đầu vào và dữ liệu cảm biến, dưới dạng một vector hoặc ma trận, là rất cần thiết cho mạng nơron Phương pháp được đề xuất sử dụng GCNN [6] để trích xuất trực tiếp các đặc tính của mạng NFQI Kết quả cho thấy GCNN giúp tối ưu quá trình trích xuất đặc tính và cải thiện hiệu suất của mạng NFQI.

NFQI với GCNN thu được các luật lệ có thể so sánh nhanh hơn so với hệ thống đèn mặc định

Vào năm 2019, Andrea Vidali cùng các đồng sự [7] đã áp dụng phương pháp học tăng cường kết hợp với mạng học sâu bằng cách biến vị trí của các xe trên các làn đường thành một vector làm dữ liệu đầu vào cho hệ thống Phương pháp này cho phép so sánh với hệ thống đèn giao thông tĩnh và kết quả được trình bày trong bảng dưới.

Bảng 1.1: Kết quả so sánh thực nghiệm với hệ thống đèn tĩnh của Andrea Vidali cùng các đồng sự [7]

1.1.2 Vấn đề tồn tại cần giải quyết

Việc giảm tổng thời gian chờ của các phương tiện phụ thuộc vào phương pháp điều phối giao thông được áp dụng, và mỗi phương pháp sẽ cho kết quả khác nhau Thực tế, các bài báo liên quan thường đưa dữ liệu đầu vào ở dạng ma trận hoặc vec-tơ mô tả các con đường tại một nút giao thông để mô phỏng luồng xe và đánh giá hiệu quả Vậy câu hỏi được đặt ra là liệu có một phương pháp tiếp cận khác mang lại kết quả tối ưu hơn so với đèn giao thông tĩnh thông thường hay không.

Lý do chọn đề tài

Hiện tại, các giải pháp giảm tổng thời gian chờ của phương tiện tại các nút giao thông chủ yếu dựa trên việc ma trận hóa các nút giao thông và sau đó đưa dữ liệu này vào các mô hình mạng học sâu để thực hiện học tăng cường Vì thế, tôi đề xuất áp dụng mạng nơ-ron tích chập (CNN) để phân tích trạng thái giao thông tại các nút giao thông, sau đó mô hình học tăng cường sẽ dựa trên các kết quả phân tích này để tối ưu hành động điều khiển đèn và lưu lượng giao thông.

4 quả đó học và cải thiện việc chọn một hành động là vấn đề luận văn tập trung nghiên cứu.

Mục tiêu nghiên cứu

Mục tiêu của nghiên cứu này là giảm tổng thời gian chờ của các phương tiện tại một nút giao thông bằng cách sử dụng mô hình mạng CNN với dữ liệu đầu vào là hình ảnh của nút giao thông, từ đó CNN sẽ trích xuất đặc trưng và đưa ra quyết định điều khiển Kết quả đầu ra từ mạng CNN được dùng làm đầu vào cho hệ thống học tăng cường nhằm tối ưu chu trình tín hiệu đèn và luồng xe tại nút giao thông, giúp cải thiện độ đồng bộ và lưu lượng di chuyển Việc kết hợp CNN với học tăng cường cho phép hệ thống thích ứng với điều kiện giao thông thực tế và tiềm năng mang lại giảm thời gian chờ và tăng hiệu quả quản lý giao thông tại khu vực nghiên cứu.

Đối tượng, phạm vi nghiên cứu

Đối tượng nghiên cứu là một phần mềm tích hợp trí tuệ nhân tạo giúp tối ưu tổng thời gian chờ của các phương tiện

Phạm vi nghiên cứu tập trung mô phỏng quá trình tự học của phần mềm, với dữ liệu đầu vào là hình ảnh của con đường nhằm giảm tổng thời gian chờ của các phương tiện giao thông Quá trình tự học sẽ giúp tối ưu hóa luồng di chuyển và điều khiển tại nút giao thông dựa trên thông tin hình ảnh và dữ liệu giao thông thực tế Mô phỏng được thực hiện bằng phần mềm SUMO để mô phỏng hành vi của các phương tiện tại nút giao thông và từ đó tính toán tổng thời gian chờ Kết quả nghiên cứu cho thấy tiềm năng của kỹ thuật tự học trong cải thiện hiệu suất giao thông đô thị và giảm thời gian chờ của phương tiện.

Thời gian ước tính để hoàn tất công trình nghiên cứu là 12 tháng.

Nội dung nghiên cứu

Nghiên cứu thiết kế mạng CNN cho phù hợp với mục tiêu nghiên cứu của đề tài đã đề ra

Nghiên cứu và áp dụng phương pháp mô hình mạng CNN và học tăng cường để cải thiện thời gian chờ của phương tiện giao thông

Đánh giá tổng thời gian chờ của hệ thống đèn giao thông là thước đo quan trọng cho hiệu quả điều khiển đèn; bài viết so sánh tổng thời gian chờ khi áp dụng mô hình mạng nơ-ron tích chập (CNN) và phương pháp học tăng cường (reinforcement learning, RL) với hệ thống đèn tĩnh Trong nghiên cứu, CNN tận dụng dữ liệu luồng xe và tín hiệu giao thông để dự đoán tình huống và điều chỉnh chu kỳ đèn, từ đó giảm thời gian dừng của phương tiện và cải thiện lưu lượng so với hệ thống đèn tĩnh Trong khi đó, RL học từ môi trường giao thông thực tế để tối ưu hóa chính sách điều khiển đèn theo thời gian thực, giúp thích nghi với biến đổi lưu lượng và giảm tổng thời gian chờ ở nhiều bối cảnh so với đèn tĩnh Kết quả cho thấy cả hai phương pháp CNN và RL đều mang lại lợi ích vượt trội so với hệ thống đèn tĩnh, với RL có tiềm năng thích nghi tốt hơn trước sự biến động của lưu lượng, mở ra cơ hội triển khai thực tiễn trong các thành phố có mật độ phương tiện thay đổi theo thời gian.

Phương pháp nghiên cứu

Phương pháp phân tích và tổng hợp lý thuyết

Phương pháp phân loại và hệ thống hóa lý thuyết

Bố cục đề tài

Chương này trình bày vấn đề đặt ra và lý do chọn đề tài, đồng thời cung cấp tổng quan các công trình liên quan để làm nổi bật vị trí của nghiên cứu trong lĩnh vực Việc đặt vấn đề giúp xác định mục tiêu nghiên cứu, phạm vi và nội dung cần xem xét, cũng như đề xuất các câu hỏi nghiên cứu và giả thuyết cần kiểm chứng Lý do chọn đề tài được trình bày dựa trên nhu cầu thực tiễn, khoảng trống trong các nghiên cứu trước và khả thi về mặt phương pháp Bản tổng quan công trình liên quan chỉ ra các đóng góp hiện có và các giới hạn chưa được khắc phục, từ đó gợi ý đóng góp của đề tài Mục tiêu nghiên cứu nêu rõ kết quả mong đợi; nội dung nghiên cứu mô tả các phần và yếu tố sẽ được phân tích, và phương pháp nghiên cứu nêu cách thức thu thập và xử lý dữ liệu Các giới hạn đề tài được nêu rõ để làm rõ phạm vi và điều kiện thực nghiệm, còn bố cục đề tài được phác thảo nhằm hướng dẫn người đọc theo trình tự các chương và phần.

Chương 2: Cơ Sở Lý Thuyết

Chương này giới thiệu về lý thuyết cơ bản về trí tuệ nhân tạo và các ứng dụng của nó trong đời sống

Chương 3: Giải pháp giảm thời gian chờ của phương tiện dựa vào mạng nơ- ron tích chập cùng với học tăng cường

Chương này giới thiệu về hướng đề xuất của luận văn

Chương 4: Kết luận – Hướng phát triển

Chương này trình bày tóm tắt những gì đã làm được trong luận văn Và nêu ra hướng phát triển của đề tài trong tương lai

CƠ SỞ LÝ THUYẾT

Tổng quan trí tuệ nhân tạo (AI – Artificial Intelligence)

Trí tuệ nhân tạo (AI) là một nhánh của khoa học máy tính liên quan đến tự động hóa các hành vi thông minh AI dựa trên các nguyên lý lý thuyết vững chắc và có tính khả thi cao trong ứng dụng thực tiễn Hiện nay, AI được hiểu là các hệ thống máy tính có mục tiêu đa dạng, và ngành khoa học này nghiên cứu cả lý thuyết lẫn ứng dụng của trí tuệ nhân tạo Các hệ thống AI hiện đại chủ yếu ở mức độ máy tính hoặc siêu máy tính được thiết kế để đảm nhận các công việc cụ thể như điều khiển một ngôi nhà thông minh, nhận diện hình ảnh, xử lý dữ liệu bệnh nhân để đề xuất phác đồ điều trị, tự học hỏi từ dữ liệu, trả lời các câu hỏi liên quan đến chẩn đoán bệnh và hỗ trợ khách hàng về sản phẩm của một công ty.

Hình 2.1: Tổng quan về trí tuệ nhân tạo

Nguồn: https://irishtechnews-ie.exactdn.com/wp-content/uploads/2019/03/AI_vs_ML-

2.1.2 Lịch sử trí tuệ nhân tạo Ý tưởng xây dựng một chương trình AI xuất hiện lần đầu vào tháng 10 năm

Vào năm 1950, khi nhà bác học người Anh Alan Turing xem xét vấn đề liệu máy tính có khả năng suy nghĩ hay không, ông đã đưa ra một khái niệm mang tính đột phá để trả lời câu hỏi này: bài kiểm tra Turing Trong thử nghiệm này, máy tính tham gia một cuộc trò chuyện tự nhiên với người đánh giá, và nếu người đánh giá không thể phân biệt được giữa máy và người thật qua cuộc hội thoại, máy được cho là đã thể hiện trí tuệ.

Phép thử bắt chước, hay sau này được biết đến với tên gọi phép thử Turing, là một trò chơi gồm ba thành phần: người thẩm vấn, người trả lời và một máy tính Người thẩm vấn ngồi trong một phòng kín, đặt câu hỏi và nhận câu trả lời từ cả người bị thẩm vấn và từ máy tính Mục tiêu là để người thẩm vấn không phân biệt được đâu là câu trả lời từ con người, đâu là từ máy tính; nếu sau cuộc trò chuyện người thẩm vấn không nhận ra sự khác biệt, máy tính được cho là đã có khả năng suy nghĩ như con người Đến mùa hè năm 1956, tại một hội nghị do Marvin Minsky và John McCarthy tổ chức tại Dartmouth, Mỹ, với sự tham dự của vài chục nhà khoa học, khởi đầu cho những nghiên cứu nền tảng về trí tuệ nhân tạo.

Thuật ngữ 'Artificial Intelligence' được chính thức công nhận và tiếp tục được sử dụng cho đến ngày nay, đồng thời tại đây cũng đã được thành lập Bộ môn nghiên cứu trí tuệ nhân tạo đầu tiên.

2.1.3 Quá trình hình thành và phát triển của AI

Từ 1950 đến 1965, các nhà khoa học nổi tiếng như John McCarthy, Marvin Minsky, Allen Newell và Herbert Simon cùng với nhóm sinh viên của mình đã phát triển các chương trình máy tính đầu tiên có thể giải các bài toán đại số, chứng minh các định lý và xử lý ngôn ngữ để nói được tiếng Anh, mở đường cho sự hình thành và phát triển của trí tuệ nhân tạo.

Những thành tựu ban đầu của giai đoạn này có thể kể đến như chương trình chơi cờ của Samuel, chương trình lý luận logic của Newell và Simon, và chương trình chứng minh các định lý hình học của Gelernter [10] Những ví dụ này cho thấy sự tiến bộ đáng kể trong lĩnh vực trí tuệ nhân tạo và logic tự động, đồng thời mở đường cho các hệ thống suy luận và chứng minh tự động phát triển sau này.

Vào thập niên 60, các nghiên cứu về trí tuệ nhân tạo chủ yếu tập trung vào biểu diễn tri thức và các phương thức giao tiếp giữa người và máy tính bằng ngôn ngữ tự nhiên Tuy nhiên, tất cả đều thất bại do tiến bộ tin học thời bấy giờ chưa đạt đến mức có thể thực hiện được các mục tiêu này.

Đến năm 1997, sau trận đấu lịch sử giữa kiện tướng cờ vua Garry Kasparov và máy tính Deep Blue của IBM, niềm hy vọng về trí tuệ nhân tạo được hồi sinh Trận đấu này cho thấy sự tiến bộ vượt bậc của công nghệ máy tính và trí tuệ nhân tạo ở mức độ cạnh tranh với con người Sự kiện này đã định hình nhận thức của công chúng và giới công nghệ về tiềm năng của trí tuệ nhân tạo trong những năm tiếp theo.

Vào năm 2015, sự phát triển của nền tảng điện toán đám mây với chi phí ở mức chấp nhận được, cùng với những bộ dữ liệu phong phú và các công cụ phát triển phần mềm miễn phí hoặc giá rẻ, đã hỗ trợ rất nhiều cho các nhà nghiên cứu Nhờ đó, những nghiên cứu về công nghệ học máy cho máy tính, còn được gọi là mạng thần kinh, từ chỗ vô cùng tốn kém nay đã trở nên tương đối rẻ và tiếp cận được nhiều nhóm nghiên cứu hơn.

Những nỗ lực ấy đã biến mảnh đất trí tuệ nhân tạo thành điểm hút đối với các tập đoàn công nghệ hàng đầu như Facebook, Google, Microsoft và nhiều tên tuổi lớn khác, khi họ tham gia tích cực vào hoạt động nghiên cứu và phát triển sản phẩm Sự tham gia của các ông lớn này không chỉ đẩy nhanh tiến trình đổi mới mà còn mở ra một kỷ nguyên mới cho trí tuệ nhân tạo, định hình tương lai công nghệ và kinh tế số trên toàn cầu.

Hình 2.2: Lịch sử phát triển trí tuệ nhân tạo

Nguồn: https://images.ukdissertations.com/18/0030428.014.jpg

2.1.4 Mục đích của trí tuệ nhân tạo

Phát triển trí tuệ nhân tạo giúp máy móc có trí tuệ như con người, hình thành các hệ thống AI có thể hiểu, suy nghĩ, học hỏi và hành động theo cách giống người Những hệ thống này cho phép tự động hóa các tác vụ phức tạp, tối ưu hóa quy trình vận hành và ra quyết định dựa trên dữ liệu AI không chỉ nâng cao hiệu suất mà còn cải thiện trải nghiệm người dùng và mở ra cơ hội đổi mới trong nhiều ngành công nghiệp, từ chăm sóc khách hàng đến y tế và sản xuất.

9 thế nữa, các hệ thống này có thể thể hiện hành vi thông minh, học hỏi, chứng minh, giải thích và tư vấn cho người dùng của mình

2.1.5 Trí tuệ nhân tạo trong cách ngành liên quan

Trí tuệ nhân tạo có thể đóng góp đáng kể vào việc xây dựng các hệ thống thông minh cho nhiều ngành, đặc biệt là khoa học máy tính, sinh học, tâm lý học, ngôn ngữ học, toán học, xã hội học và khoa học nơ-ron Những ứng dụng này giúp tối ưu hóa quy trình nghiên cứu, tăng cường phân tích dữ liệu và phát triển các giải pháp thông minh phù hợp với đặc thù từng lĩnh vực.

Hình 2.3: Các ngành nghề áp dụng trí tuệ nhân tạo

Nguồn: https://www.tutorialspoint.com/artificial_intelligence/images/components_of_ai.jpg

2.1.6 Một số ứng dụng của AI trong thực tiễn

Hiện nay, trí tuệ nhân tạo được ứng dụng trong đời sống theo hai hướng chính: một là dùng máy tính để bắt chước quá trình xử lý của con người, mô phỏng nhận thức và ra quyết định dựa trên dữ liệu; hai là thiết kế những máy tính thông minh độc lập với cách suy nghĩ của con người, hoạt động tự động và thực hiện hành động mà không phụ thuộc vào sự can thiệp trực tiếp Các ứng dụng AI theo hai hướng này đang cải thiện hiệu suất làm việc, tối ưu hóa quy trình và mở ra nhiều cơ hội đổi mới trong nhiều ngành công nghiệp và đời sống hàng ngày.

Một số ứng dụng của trí tuệ nhân tạo trong cuộc sống thực tiễn có thể kể đến như: nhận dạng chữ viết, nhận dạng tiếng nói, dịch tự động, tìm kiếm thông tin, khai phá dữ liệu và phát triển tri thức, lái xe tự động, robot, …

Trong tương lai, trí tuệ nhân tạo với sự quan tâm và phát triển của các ông lớn trong ngành công nghệ, dự kiến sẽ mở rộng hơn nữa phạm vi ứng dụng sang các lĩnh vực như: Y tế, xây dựng, ngân hàng, công nghệ siêu vi, …

Nơ-ron nhân tạo (Neural Networks)

Một mạng nơ-ron được cấu thành từ các nơ-ron đơn lẻ, thường được gọi là perceptron Mỗi nơ-ron có thể nhận nhiều đầu vào và cho ra một kết quả duy nhất, trở thành đơn vị xử lý thông tin trong hệ thống Nhờ đặc tính này, mạng nơ-ron có khả năng tổng hợp tín hiệu đầu vào và thực hiện các tác vụ như nhận diện, dự báo và quyết định dựa trên dữ liệu.

Hình 2.4: Cấu tạo nơ-ron sinh học [11]

Nơ-ron nhân tạo được lấy cảm hứng từ nơ-ron sinh học và mô phỏng cách hoạt động tương tự: nó là sự kết hợp từ nhiều đơn vị (unit), và tín hiệu sẽ được xử lý theo cơ chế trọng số và hàm kích hoạt Trong mạng nơ-ron, mỗi nơ-ron nhận tín hiệu đầu vào, nhân với trọng số liên kết, sau đó tổng hợp và đi qua một hàm kích hoạt để tạo ra tín hiệu đầu ra Các nơ-ron kết nối với nhau thành lớp và phối hợp để học từ dữ liệu, cho phép thực hiện các nhiệm vụ như phân loại, nhận diện mẫu và dự báo Quá trình huấn luyện tối ưu hóa trọng số giúp mạng nơ-ron học được các mẫu phức tạp và mở rộng từ các bài toán đơn giản đến những thách thức AI lớn hơn.

Trong một mạng nơ-ron gồm nhiều lớp (layer), lớp ở giữa được gọi là lớp ẩn (hidden layer), còn lại là lớp vào (input layer) và lớp ra (output layer) Khi phát triển mạng nơ-ron, người ta quan tâm đến cách sắp xếp các lớp, loại lớp được sử dụng và số lượng nơ-ron trong từng lớp để tối ưu cấu trúc và hiệu quả xử lý dữ liệu.

Các biến số không kém phần quan trọng trong mạng nơ-ron như: trọng số (weights – w) và biases (b) hoặc các tham số của mạng nơ-ron

Mục đích của việc huấn luyện một mạng nơ-ron nhân tạo là tìm kiếm các giá trị tối ưu của tham số bên trong mô hình để tăng cường hiệu suất và đem lại các giải pháp đáng tin cậy cho bài toán được giao Quá trình này tập trung vào tối ưu hóa hàm mất mát bằng cách học từ dữ liệu và điều chỉnh tham số theo thời gian để mô hình càng lúc càng chuẩn xác hơn Nhờ đó mạng nơ-ron có thể rút ra quy luật từ dữ liệu, cải thiện khả năng dự đoán và kháng nhiễu Các thuật toán tối ưu như gradient descent giúp các tham số hội tụ tới những giá trị tối ưu, từ đó đạt hiệu suất tốt trên tập kiểm tra.

Mà hai thông số quan trọng nhất của quá trình này, chính là trọng số và biases

Hình 2.5: Cấu tạo nơ-ron nhân tạo

Nguồn: https://hackernoon.com/hn-images/1*RGV6Bb3ChmVWsA8Q6Qth6Q.png

Deep Learning có thể hiểu là một mạng nơ-ron gồm nhiều lớp ẩn xen giữa lớp đầu vào và lớp đầu ra Mỗi lớp ẩn đảm nhận một nhiệm vụ xử lý dữ liệu riêng, và dữ liệu đầu ra của lớp ẩn này sẽ là dữ liệu đầu vào cho lớp ẩn tiếp theo, giúp quá trình học sâu diễn ra từ đầu vào tới đầu ra một cách liên tục.

Hình 2.6: Mạng nơ-ron sâu (DNN)

Nguồn: https://nordiccoder.com/app/uploads/2019/10/Screen-Shot-2019-10-17-at-3.30.07-PM.png Ứng dụng của Deep Learning [12]:

Tìm kiếm bằng giọng nói, trợ lý ảo

Nhận dạng ảnh (Image Recognition)

2.2.3 Mạng nơ-ron tích chập(Convolutional Neural Network)

Mạng nơ-ron tích chập (CNN) là một trong những mô hình học sâu tiên tiến nhất, giúp xây dựng các hệ thống thông minh với độ chính xác cao ngày nay Nhờ cấu trúc lớp tích chập, pooling và các lớp kết nối đầy đủ, CNN có khả năng tự động trích xuất đặc trưng từ dữ liệu hình ảnh và video, tối ưu hóa hiệu suất nhận diện và phân loại Ứng dụng của CNN rất đa dạng, từ nhận diện khuôn mặt và phân loại hình ảnh đến phát hiện đối tượng và hỗ trợ chẩn đoán y tế, thị giác máy tính và xử lý video Với ưu thế học từ dữ liệu lớn và khả năng kháng nhiễu tốt, CNN đang thúc đẩy tiến bộ của các hệ thống thông minh trong nhiều lĩnh vực.

CNN chứa đựng một hoặc nhiều convolutional layer, pooling hoặc fully connected

2.2.3.2 Cấu trúc của mạng CNN

Mạng CNN là tập hợp các lớp tích chập được xếp chồng lên nhau và hoạt động thông qua các hàm kích hoạt như ReLU hoặc Sigmoid để kích hoạt các trọng số ở các nút, từ đó mạng học các đặc trưng của dữ liệu một cách hiệu quả Quá trình này giúp CNN trích xuất đặc trưng và xử lý thông tin từ hình ảnh hay tín hiệu một cách nhanh chóng, góp phần nâng cao hiệu suất cho các tác vụ như nhận diện và phân loại.

Trong mạng nơ-ron feedforward, mỗi lớp sau khi qua các hàm kích hoạt sẽ biến đổi dữ liệu thành các đại diện trừu tượng hơn để cung cấp thông tin cho lớp tiếp theo Trong mô hình này, mỗi nơ-ron ở lớp trước đóng vai trò đầu vào và truyền tín hiệu tới các nơ-ron ở lớp sau, làm cho dữ liệu được xử lý theo chuỗi và dần dần trở nên đặc trưng hơn ở từng cấp độ.

Mô hình này được gọi là mạng kết nối đầy đủ (fully connected layer) hay mạng toàn vẹn (affine layer) Ngược lại, trong mô hình CNN các lớp liên kết được xác định thông qua cơ chế tích chập (convolution), với các bộ lọc nhằm trích xuất đặc trưng từ dữ liệu đầu vào.

Lớp tiếp theo thu được từ kết quả của phép tích chập từ lớp trước, nhờ vậy chúng ta có các liên kết cục bộ giữa các vị trí trên bản đồ đặc trưng Mỗi neuron ở lớp kế tiếp được sinh ra từ kết quả của một filter áp lên một vùng cục bộ của bản đồ đặc trưng ở lớp trước, cho phép mô hình nắm bắt các đặc trưng không gian như cạnh và góc ở quy mô địa phương Qua nhiều lớp, các đặc trưng đơn giản được ghép lại thành các đặc trưng phức tạp hơn, giúp mạng nhận diện đối tượng trong ảnh một cách hiệu quả.

Mỗi lớp của mạng CNN sử dụng nhiều filter khác nhau, thường lên tới hàng trăm thậm chí hàng nghìn filter và kết hợp các kết quả từ chúng để khai thác đặc trưng của dữ liệu Bên cạnh đó còn có các lớp pooling hoặc subsampling nhằm chắt lọc những thông tin hữu ích và loại bỏ nhiễu, giúp tối ưu hóa quá trình nhận diện và khai thác đặc trưng quan trọng Trong quá trình huấn luyện, CNN tự động học các giá trị của các filter dựa trên cách thiết kế và mục tiêu học máy mà bạn áp dụng, nhờ đó mạng ngày càng nhận diện tốt hơn các mẫu từ dữ liệu đầu vào.

Hình 2.7: Cấu trúc mạng Convolutional Neural Network

Nguồn: http://res.cloudinary.com/dyd911kmh/image/upload/f_auto,q_auto:best/v1512486717/Typical_cnn

Học tăng cường (Reinforcement Learning)

Reinforcement Learning (RL) là một trong ba kiểu học máy chính, bên cạnh học giám sát (SL) và học không giám sát (UL) Bản chất của RL là cho phép một tác nhân (agent) tương tác với môi trường (environment) thông qua chuỗi trạng thái và hành động, nhằm tối ưu hóa phần thưởng tích lũy theo thời gian Tất cả quá trình này diễn ra thông qua học hỏi bằng thử nghiệm và lỗi, với mục tiêu học một chính sách (policy) tối ưu để đưa ra quyết định tại mỗi tình huống Điểm mốc để đánh giá RL là tổng phần thưởng dài hạn mà tác nhân có thể nhận được, không chỉ phần thưởng ở từng bước RL thường được mô hình hóa bằng khung agent-environment, nơi agent học cách hành động dựa trên trạng thái hiện tại và dự báo kết quả của mỗi hành động Ứng dụng của RL rất đa dạng, từ robot tự động và chơi game tới tối ưu hóa vận hành hệ thống và đề xuất người dùng, làm cho RL trở thành công cụ mạnh mẽ trong lĩnh vực trí tuệ nhân tạo.

Học tăng cường là một phương pháp học máy cho máy hoặc hệ thống thực hiện một nhiệm vụ bằng cách liên tục tương tác với môi trường thông qua hành động và nhận phần thưởng để dần tối ưu hóa chiến lược Qua chu trình thử sai, hệ thống học từ kết quả của mỗi hành động và điều chỉnh hành vi để đạt được phần thưởng cao hơn và hoàn thành nhiệm vụ hiệu quả hơn Cách tiếp cận này rất giống với cách con người học từ môi trường: học hỏi từ sai lầm, rút ra quy luật và áp dụng chúng để cải thiện hiệu suất làm việc.

Có 8 thuật ngữ chính xuất hiện trong học tăng cường: Agent, Environment, State, Action, Reward, Episode, Policy, Accumulative Reward

Environment (môi trường): là không gian mà máy tương tác

Actions (hành động): là hành động của chủ thể

Agent (tác nhân): tác nhân quan sát môi trường và sinh ra hành động tương ứng

Policy (luật lệ): máy sẽ dựa theo luật lệ được đặt ra như thế nào để đạt được mục đích

Reward (phần thưởng): phần thưởng tương ứng từ môi trường mà máy nhận được khi thực hiện một hành động

State (trạng thái): trạng thái của môi trường mà máy nhận được

Episode (tập): một chuỗi các trạng thái và hành động cho đến trạng thái kết thúc s1, a1, s2, a2, s3, a3, … sn, an

Accumulative Reward (phần thưởng tích lũy): tổng phần thưởng tích lũy từ một state đến state cuối cùng

Trong học tăng cường (reinforcement learning), tại trạng thái s_t, agent chọn hành động a_t và tương tác với môi trường, dẫn đến trạng thái mới s_{t+1} và nhận được phần thưởng r_{t+1} Vòng lặp này tiếp tục cho tới trạng thái cuối cùng s_T, giúp agent tích lũy thông tin và cập nhật chính sách để tối ưu hóa hành động ở từng bước.

Hình 2.8: Cách thức hoạt động của học tăng cường

Nguồn: https://www.xadahiya.me/images/rl-intro.png

Trong thời gian gần đây, reinforcement learning (RL) đã ghi nhận những tiến bộ đáng kể khi các hệ thống do DeepMind phát triển như AlphaGo, AlphaZero và AlphaStar lần lượt hạ gục những kỳ thủ hàng đầu thế giới trong các trò chơi mà trước đây con người cho là máy móc không thể vượt mặt Những thành công này làm nổi bật sức mạnh của RL trong việc tự học và thích nghi ở môi trường phức tạp, đồng thời mở ra nhiều cơ hội ứng dụng AI và game-playing ở nhiều lĩnh vực khác nhau.

Q-learning là một thuật toán học tăng cường không mô hình (model free) Mục tiêu của Q-learning là học một chính sách, chính sách cho biết máy sẽ thực hiện hành động nào trong hoàn cảnh nào Nó không yêu cầu một mô hình (do đó hàm ý “không mô hình”) của môi trường và nó có thể xử lý các vấn đề với chuyển đổi và phần thưởng ngẫu nhiên, mà không cần điều chỉnh

Q-value là giá trị giúp tác nhân biết phải chọn hành động nào để đạt được phần thưởng lớn nhất Q-value được tính bằng công thức sau :

Q-value của hành động a tại trạng thái s bằng phần thưởng r(s,a) cộng với Q-value lớn nhất của các trạng thái s' tiếp theo sau khi thực hiện hành động; từ công thức này ta có thể xây dựng một ma trận các hành động tương ứng với các trạng thái trên đường đi và với mỗi trạng thái tác nhân chỉ cần tìm hành động có Q-value lớn nhất Tuy nhiên, Q-value ở thời điểm trước và sau khi thực hiện hành động sẽ khác nhau và sự khác biệt này được gọi là Temporal Difference (TD), được thể hiện dưới công thức sau:

𝑎′ 𝑄(𝑠 ′ , 𝑎 ′ ) − 𝑄 𝑡−1 (𝑠, 𝑎) (2.2) Như vậy, ma trận Q(s, a) cần phải cập nhật trọng số dựa trên TD:

𝑄 𝑡 (𝑠, 𝑎) = 𝑄 𝑡−1 (𝑠, 𝑎) + 𝛼𝑇𝐷 𝑡 (𝑠, 𝑎) (2.3) Trong đó α là learning rate Qua các lần tác nhân thực hiện các hành động, Q(s, a) sẽ dần hội tụ Quá trình này chính là Q-Learning

Bảng 2.1: Q-Learning về các trạng thái được khởi tạo từ 0, sau đó mỗi ô được cập nhật thông qua đào tạo [15]

TensorFlow

Sự phát triển của trí tuệ nhân tạo đang đẩy mạnh quan tâm đến máy học và học sâu Việc tiếp cận các bài toán AI trở nên dễ dàng hơn nhờ các thư viện có sẵn dùng để tính toán và mô phỏng TensorFlow, một nền tảng nguồn mở toàn diện cho học máy, là một hệ thống phong phú hỗ trợ quản lý dữ liệu, xây dựng và huấn luyện mô hình, cũng như triển khai và tối ưu hóa chúng trên quy mô lớn Việc sử dụng TensorFlow giúp các dự án AI tiết kiệm thời gian, tăng hiệu suất và mở rộng dễ dàng để đáp ứng nhu cầu nghiên cứu và ứng dụng thực tế.

Nền tảng này bao quát tất cả các khía cạnh của hệ thống máy học, từ xử lý dữ liệu đến triển khai và bảo trì mô hình Nó tập trung vào việc sử dụng API TensorFlow để phát triển và huấn luyện các mô hình học máy, tối ưu hóa hiệu suất, tính mở rộng và khả năng tái sử dụng mã nguồn Nhờ các công cụ TensorFlow API, người dùng có thể thiết kế kiến trúc mô hình phù hợp, huấn luyện với dữ liệu thực tế và đánh giá kết quả một cách liên tục, từ đó tích hợp dễ dàng vào ứng dụng hoặc dịch vụ để nâng cao độ chính xác và hiệu quả dự báo.

API của TensorFlow được sắp xếp theo cấp độ, với API cấp cao được xây dựng trên nền tảng của API cấp thấp Nhờ cấu trúc này, các nhà nghiên cứu máy học có thể dùng API cấp thấp để thiết kế và khám phá các thuật toán máy học mới, trong khi API cấp cao cho phép triển khai nhanh chóng và hiệu quả các giải pháp học máy.

2.4.2 Lịch sử phát triển TensorFlow

Kể từ năm 2011, Google Brain đã xây dựng DistBelief như một hệ thống học máy thế hệ đầu tiên mang tính độc quyền của Google, và hơn 50 đội ngũ tại Google cùng các công ty thuộc Alphabet đã triển khai các mạng nơ-ron sâu của DistBelief trong nhiều sản phẩm thương mại, bao gồm Google Search, Google Voice Search, Google Ads, Google Photos, Google Maps, Google Street View, Google Translate và YouTube Google đã phân công các nhà khoa học máy tính hàng đầu như Geoffrey Hinton và Jeff Dean để đơn giản hóa và cải tiến mã nguồn của DistBelief, biến nó thành một thư viện lớp ứng dụng nhanh hơn và mạnh hơn, sau này được hình thành thành TensorFlow Vào năm 2009, đội ngũ do Hinton lãnh đạo đã giảm đáng kể lỗi trong các mạng nơ-ron sử dụng DistBelief nhờ các đột phá về lan truyền ngược và tổng quát hóa, và thành tựu này trực tiếp góp phần làm giảm ít nhất 25% sai số trong hệ thống nhận dạng giọng nói của Google.

TensorFlow là hệ thống thế hệ thứ hai của Google Brain, với bản cài đặt tham khảo mở nguồn được phát hành vào ngày 9 tháng 11 năm 2015 Nó có thể chạy trên một thiết bị đơn nhưng có thể vận hành trên nhiều CPU và GPU, với các tùy chọn CUDA hỗ trợ tính toán đa GPU TensorFlow chạy trên Linux, macOS hoặc các hệ thống máy chủ, đồng thời mở rộng đến các nền tảng di động như Android và iOS Các phép tính của TensorFlow được biểu diễn dưới dạng các biểu đồ chi tiết Nhiều nhóm tại Google đã chuyển từ DistBelief sang TensorFlow để phục vụ cho nghiên cứu và sản xuất Thư viện thuật toán này bắt nguồn từ nhu cầu của Google trong việc hướng dẫn các hệ thống máy tính.

Mạng nơ-ron được thiết kế để tìm hiểu và lý luận theo cách tương tự con người, mở ra các ứng dụng mới có thể đảm nhận các vai trò và chức năng vốn trước đây chỉ dành cho con người TensorFlow lấy tên từ các thao tác mà các mạng nơ-ron thực hiện trên các mảng dữ liệu đa chiều, được gọi là tensor Nhờ đó, mục tiêu là huấn luyện mạng nơ-ron để nhận diện và giải mã dữ liệu mẫu cũng như khai thác các mối quan hệ giữa chúng, từ đó xây dựng các mô hình AI mạnh mẽ và linh hoạt.

Vào tháng 6 năm 2016, Jeff Dean của Google cho biết có khoảng 1.500 repository trên GitHub đề cập tới TensorFlow, trong đó chỉ có khoảng 5 repo đến từ Google TPU (Tensor Processing Unit) là một mạch tích hợp dành riêng cho tăng tốc AI (ASIC) do Google phát triển cho việc học máy và mạng nơ-ron, đặc biệt tối ưu cho phần mềm TensorFlow của Google Google bắt đầu sử dụng TPU nội bộ từ năm 2015 và năm 2018 đã cung cấp chúng cho bên thứ ba thông qua hạ tầng đám mây, đồng thời cung cấp một phiên bản chip nhỏ hơn để bán.

2.4.3 Các thuộc tính của Tensor

Tensor có 3 thuộc tính cơ bản là rank, shape và type

Rank là số bậc của Tensor, và khái niệm này ở đây không giống với định nghĩa rank trong toán học Ví dụ, Tensor = [1] có rank = 1, Tensor = [[3,4],[5,6]] có rank = 2 Việc nhận diện và phân tích rank là rất quan trọng vì nó giúp phân loại dữ liệu trong Tensor và xác định cấu trúc của dữ liệu Khi các rank đạt các giá trị đặc biệt, Tensor sẽ có những tên gọi riêng tương ứng, cho thấy sự khác biệt về đặc tính của hệ thống dữ liệu khi làm việc với Tensor.

Scalar: Khi Tensor có rank bằng 0

Vector: Vector là một tensor rank 1

Matrix: Đây là một Tensor rank 2 hay mảng hai chiều theo khái niệm của Python

N-Tensor: Khi rank của Tensor tăng lên lớn hơn 2, chúng được gọi chung là

Shape của Tensor là số phần tử ở mỗi chiều của Tensor Ví dụ Tensor = [1, 2,

3, 4] sẽ có Shape = (4), Tensor = [[1, 3, 5, 7], [2, 4, 6, 8], [3, 6, 9, 12]] sẽ có Shape

Kiểu dữ liệu của các thuộc tính trong Tensor được xác định thông qua một thuộc tính Type duy nhất Vì Tensor chỉ có duy nhất một thuộc tính Type, nên toàn bộ các yếu tố có trong Tensor hiện tại đều chia sẻ cùng một kiểu Type duy nhất; từ đó ta có thể nói rằng mọi phần tử trong Tensor đều có cùng một kiểu dữ liệu Việc duy trì tính đồng nhất về kiểu dữ liệu này giúp tối ưu hóa lưu trữ và hiệu suất xử lý, đồng thời đơn giản hóa các thao tác với Tensor trong các ứng dụng machine learning.

GIẢI PHÁP GIẢM THỜI GIAN CHỜ CỦA PHƯƠNG TIỆN DỰA VÀO MẠNG NƠ-RON TÍCH CHẬP CÙNG VỚI HỌC TĂNG CƯỜNG

Giới thiệu

Các nghiên cứu hiện đại cho thấy một tác nhân deep Q-learning đã được triển khai trong hệ thống điều khiển tín hiệu giao thông nhằm tối ưu lưu lượng phương tiện Kết quả cho thấy sự cải thiện đáng kể về hiệu quả lưu thông, đồng thời vẫn duy trì mức độ thực tế cao để bảo đảm tính khả thi khi triển khai trong thực tế.

Trong hệ thống điều khiển giao thông, tác nhân được thiết kế với trạng thái là vị trí của các xe tại ngã tư Tập hành động A được xác định bởi thời gian đóng mở của đèn giao thông với thời lượng cố định, và hai phần thưởng cho tác nhân là khoảng thời gian chờ của các xe giữa các hành động.

Hình 3.1: Minh họa trạng thái các vị trí xe trên một phía của một nút giao thông [7]

Phương pháp học tập được áp dụng cho hệ thống là Q-learning kết hợp với mạng học sâu

Hàm Q-learning được sử dụng để tính toán giá trị Q hiện tại dựa vào những giá trị quá khứ theo công thức:

Q(s t , a t ) = r t+1 + 𝛾 𝑚𝑎𝑥 𝐴 𝑄 ′ (𝑠 𝑡+1 , 𝑎 𝑡+1 ) (3.1) Trong đó: rt+1 : Phần thưởng được nhận khi thực hiện hành động tại thời điểm t at : Hành động tại thời điểm t

21 st : Trạng thái con đường ở thời điểm t

𝑄 ′ (𝑠 𝑡+1 , 𝑎 𝑡+1 ) : là giá trị Q khi thực hiện hành động tại thời điểm t + 1

𝛾, hay hệ số chiết khấu, biểu thị mức độ giảm giá trị của phần thưởng nhận được tại thời điểm hiện tại so với phần thưởng ở thời điểm t+1, phản ánh giá trị của một 'khởi đầu tốt' Khi 𝛾 lớn, phần thưởng ở tương lai được xem trọng hơn và quyết định tối ưu sẽ thiên về dài hạn; khi 𝛾 nhỏ, trọng số cho phần thưởng ngắn hạn tăng lên, nhấn mạnh tính tức thời Nói cách khác, 𝛾 điều chỉnh mức độ ưu tiên giữa hiện tại và tương lai, định hình cách mà tác nhân đánh giá và tối ưu chuỗi phần thưởng theo thời gian.

Hình 3.2: Qui trình hệ thống đưa ra các giá trị Q-value

Nguồn: https://www.adaltas.com/static/36gg9e4TnFT9QKBFcWujRUSMkZtG6rtF73/c1c45/5.png

Trong học tăng cường, mạng nơ-ron nhận trạng thái làm đầu vào và phát ra các giá trị Q cho từng hành động, cho phép ước lượng mức độ ưu tiên của mỗi lựa chọn Q-learning sau đó được dùng để cập nhật các giá trị hành động dựa trên phần thưởng nhận được và giá trị kỳ vọng từ tương lai Khi trải nghiệm của tác nhân ngày càng tăng và mạng học sâu được sử dụng để dự đoán các giá trị Q, hệ thống học tập sẽ ngày càng tối ưu hóa chính sách hành động để đạt hiệu suất cao hơn.

Trong nghiên cứu này, một phần mềm giả lập mô phỏng giao thông được triển khai để tái hiện nhiều kịch bản giao thông khác nhau, mỗi kịch bản đi kèm với các phân phối lưu lượng xe cộ đa dạng Việc mô phỏng cho phép kiểm nghiệm hiệu suất của các tuyến đường, nút giao và các biện pháp quản lý giao thông dưới nhiều điều kiện lưu lượng khác nhau Kết quả cho thấy sự linh hoạt của công cụ mô phỏng trong việc phân tích tác động của từng phân phối lưu lượng đến lưu thông, nhấn mạnh tiềm năng ứng dụng trong quy hoạch đô thị và tối ưu hóa mạng lưới giao thông.

Trong luận văn này để xác định tổng thời gian chờ trong khi thử nghiệm của các xe thì ta dùng công thức sau:

𝑇𝑤𝑡: Tổng thời gian chờ của các xe trong suốt quá trình thử nghiệm

𝑤𝑡 𝑣𝑒ℎ : Thời gian chờ của mỗi xe trong suốt quá trình thử nghiệm

Phần mềm mô phỏng hoạt động của phương tiện giao thông (SUMO)

SUMO (Simulation of Urban Mobility) [19] là một phần mềm cho phép người dùng thiết kế mọi yếu tố của cơ sở hạ tầng đường bộ mong muốn Trong luận văn này đã sử dụng những tính năng mà SUMO cung cấp như sau: Đầu tiên, trình chỉnh sửa trực quan NetEdit được sử dụng để thiết kế các thành phần tĩnh của giao lộ, chẳng hạn như đặc điểm đường, phân bố đèn giao thông và các kết nối làn đường qua giao lộ

Tiếp theo, nhờ vào một gói hỗ trợ của SUMO là TraCI (Traﬃc Control Interface) [19], có thể định nghĩa loại, đặc điểm và thế hệ xe sắp được đưa vào mô phỏng Ngoài ra, TraCI có thể tương tác với mô phỏng trong thời gian chạy để lấy trạng thái của giao lộ tại mỗi dấu thời gian và sau đó đặt hành động được chọn bởi các tác nhân

Công cụ SUMO-GUI cho phép người dùng trải nghiệm minh họa thực tế của một mô phỏng với khả năng làm chậm hoặc tăng tốc độ mô phỏng, giúp quan sát chi tiết hành vi và tương tác của các tác nhân Công cụ này được dùng để kiểm tra hiệu suất của các tác nhân trong mô hình giao thông, từ đó hỗ trợ đánh giá và tối ưu hóa thiết kế cũng như vận hành hệ thống giao thông.

Trong mô phỏng SUMO, mỗi bước (step) tương đương 1 giây Đối với luận văn này, quá trình thử nghiệm bao gồm 5400 bước, tương đương với 1 giờ 30 phút mô phỏng.

Lưu lượng giao thông

Trong một môi trường giả lập, lưu lượng giao thông đóng vai trò quan trọng và có thể ảnh hưởng đáng kể đến hiệu suất của tác nhân Để đảm bảo mức độ thực tế cao trong quá trình huấn luyện, các đặc trưng được sinh ngẫu nhiên theo phân phối Weibull hai chiều trên hai trục x và y, nhằm mô phỏng sự biến đổi của lưu lượng giao thông một cách phù hợp với thực tế.

Phân phối được trình bày dưới dạng biểu đồ, trục x thể hiện các bước của một tập mô phỏng và trục y là số lượng phương tiện được sinh ra ở mỗi bước trong mô hình Phân phối Weibull được lựa chọn vì khả năng mô phỏng gần đúng các tình huống giao thông cụ thể: số lượng xe tăng lên đến đỉnh kể từ khi bắt đầu mô phỏng và sau đó giảm dần Mỗi xe có điểm bắt đầu và kết thúc, cho phép theo dõi luồng phương tiện theo từng bước Việc số lượng xe đến sau đó giảm dần phản ánh sự giảm tình trạng tắc nghẽn khi mô hình tiến triển.

Hình 3.3: Mô phỏng số lượng xe được tạo ra theo thời gian

Các kịch bản về số lượng xe khi được tạo ra:

Lưu lượng xe đông (High): 4000 xe được tạo ra

Lưu lượng xe thấp (Low): 600 xe được tạo ra

Lưu lượng xe vừa từ 2 hướng Bắc, Nam (NS): 2000 xe được tạo ra

Trong mô phỏng này, lưu lượng xe từ hai hướng Đông–Tây (EW) được tạo ra với 2000 xe Ở cả hai kịch bản lưu lượng cao và thấp, xác suất xuất hiện là như nhau Ban đầu, mỗi xe có xác suất 75% đi thẳng và 25% rẽ trái hoặc rẽ phải Sau đó, điểm nguồn và điểm đích của xe được chọn với xác suất đồng nhất.

Bảng 3.1: Khả năng xuất hiện của một xe trong trường hợp lưu lượng đông và ít

Hướng Điểm đi Điểm đến Khả năng xuất hiện Đi thẳng

Tây Nam 0.03125 Đông Nam 0.03125 Đông Bắc 0.03125

Trong mỗi kịch bản, phân phối nguồn gốc xuất xứ của một chiếc xe được mô tả khác nhau Trong kịch bản Bắc-Nam, chiếc xe có xác suất 90% đến từ phía bắc hoặc phía nam và 10% đến từ phía đông hoặc phía tây Ngược lại, trong kịch bản Đông-Tây, chiếc xe có 90% cơ hội đến từ phía đông hoặc phía tây và 10% cơ hội đến từ phía bắc hoặc phía nam.

Bảng 3.2: Khả năng xuất hiện của một xe trong trường hợp lưu lượng đi đa số từ hướng Bắc, Nam

Hướng Điểm đi Điểm đến Khả năng xuất hiện Đi thẳng

Tây Nam 0.05625 Đông Nam 0.05625 Đông Bắc 0.05625

Bảng 3.3: Khả năng xuất hiện của một xe trong trường hợp lưu lượng đi đa số từ hướng Bắc, Nam

Hướng Điểm đi Điểm đến Khả năng xuất hiện Đi thẳng Đông Tây 0.3375

Rẽ trái hoặc phải Đông Nam 0.05625 Đông Bắc 0.05625

Mỗi xe được tạo ra sẽ có cùng một đặc điểm như bảng 3.4

Bảng 3.4: Đặc tính của một chiếc xe Đặc điểm Giá trị

Tốc độ tối đa của xe 25 m/s

Khoảng cách giữa hai xe 2.5 mét

Lựa chọn mô hình mạng huấn luyện

Trong luận văn này, tôi kết hợp mô hình học tăng cường với mạng nơ-ron tích chập (CNN) để tối ưu hoá quá trình huấn luyện và nâng cao hiệu suất dự đoán Các bộ lọc CNN được thiết kế để tự động phát hiện các đặc trưng của dữ liệu đầu vào, bao gồm vị trí của xe, mật độ xe và hướng di chuyển, từ đó cải thiện khả năng trích xuất đặc trưng và hiệu quả của mô hình [21].

Giải pháp

Đề xuất giải pháp sử dụng mô hình CNN để giải quyết bài toán điều tiết giao thông bằng cách chuyển dữ liệu đầu vào từ 8 tín hiệu đèn tại một nút giao thông sang dữ liệu hình ảnh được lấy từ phần mềm mô phỏng SUMO tại thời điểm t Việc chuyển đổi này cho phép CNN học các đặc trưng không gian từ trạng thái giao thông được biểu diễn qua hình ảnh, từ đó dự đoán trạng thái điều tiết và tối ưu tín hiệu đèn Dữ liệu đầu vào là hình ảnh mô phỏng SUMO tại thời điểm t thay cho dữ liệu cảm biến riêng lẻ ở từng tín hiệu, giúp tích hợp thông tin trạng thái giao thông tại nút một cách toàn diện Mô hình CNN được huấn luyện để nhận diện nhịp điệu và cấu trúc luồng xe, từ đó đưa ra quyết định điều phối tín hiệu nhằm tối ưu luồng xe và giảm ùn tắc Giải pháp kết hợp giữa SUMO và CNN mang lại khả năng đánh giá và tối ưu điều tiết giao thông linh hoạt, tiết kiệm chi phí cảm biến và tăng tính khả thi trong triển khai thực tế.

Hình 3.4: Quá trình hệ thống được huấn luyện

Tiếp theo hệ thống tính toán phần thưởng sau khi thực hiện một hành động tại thời điểm t

Công thức phần thưởng được định nghĩa như sau:

𝑟 𝑡 = 𝑡𝑤𝑡 𝑡−1 − 𝑡𝑤𝑡 𝑡 (3.3) Trong đó: rt : phần thưởng tại thời điểm t

𝑡𝑤𝑡 𝑡−1 : Tổng thời gian chờ của một hành động tại thời điểm t-1

𝑡𝑤𝑡 𝑡 : Tổng thời gian chờ của một hành động tại t

Đánh giá hành động dựa trên biến đổi số lượng phương tiện giữa hai thời điểm liên tiếp Một hành động được coi là tốt tại thời điểm t khi số lượng phương tiện tại thời điểm đó ít hơn tại thời điểm t-1, cho thấy sự cải thiện về lưu lượng Ngược lại, hành động được xem là xấu khi số lượng phương tiện tăng lên so với thời điểm t-1 Quy định này giúp phân tích hiệu quả quản lý giao thông và tối ưu hóa quy trình ra/vào, đồng thời cung cấp cơ sở cho các hệ thống theo dõi thời gian thực và các quyết định điều phối luồng phương tiện.

Sau đó hệ thống sẽ lưu lại các mẫu vào bộ nhớ để phục vụ cho quá trình huấn luyện

Một mẫu lưu lại được định nghĩa như sau: m = (s t , a t , r t+1 , s t+1 ) (3.4) Trong đó: st: Là hình ảnh của trạng thái con đường tại thời gian t

Trong bài toán học tăng cưởng, ký hiệu s_t đại diện cho trạng thái tại thời điểm t và a_t là hành động được thực hiện tại trạng thái đó Sau khi thực hiện a_t tại s_t, trạng thái của môi trường chuyển sang s_{t+1}, là hình ảnh của trạng thái con đường tại thời điểm t+1 Đồng thời, r_{t+1} là phần thưởng nhận được sau khi thực hiện hành động tại trạng thái s_t, phản ánh mức độ thành công của hành động ấy Các ký hiệu s_t, a_t, s_{t+1} và r_{t+1} mô tả chu trình quan sát - hành động - phản hồi trong học tăng cường, giúp tối ưu hóa chính sách hành động và chiến lược của agent.

Hình 3.5: Qui trình lưu mẫu từ các trạng thái của nút giao thông vào hệ thống

Trong quá trình mô phỏng SUMO, mỗi lần tác nhân tương tác với môi trường, hệ thống sẽ lấy ra một gói dữ liệu gồm nhiều mẫu từ bộ nhớ để phục vụ cho việc huấn luyện Đối với từng mẫu, hệ thống tính giá trị Q(s_t, a_t) bằng cách đưa hình ảnh của con đường tại thời điểm t vào quá trình tính toán và xác định giá trị Q tương ứng cho hành động tại thời điểm đó.

Quá trình học tại thời điểm t+1 sinh ra Q′(s_{t+1}, a_{t+1}) cho trạng thái s_{t+1} và hành động a_{t+1}; sau đó, hệ thống cập nhật giá trị Q bằng cách chọn Q′(s_{t+1}, a_{t+1}) có giá trị lớn nhất theo công thức cập nhật của Q-learning, nhằm tối ưu hóa hàm giá trị Q cho các trạng thái và hành động trong tương lai.

𝑄(𝑠 𝑡 , 𝑎 𝑡 ): Giá trị Q tại thời điểm t

𝑟 𝑡+1 : Phần thưởng nhận được sau khi khi thực hiện hành động t

𝛾: Hệ số chiết khấu (giá trị được chọn theo thực nghiệm)

𝑄 ′ (𝑠 𝑡+1 , 𝑎 𝑡+1 ): Giá trị Q tại thời điểm t+1

Hình 3.6: Minh hoạ phương pháp đề xuất

Trong mô hình này từ một ảnh đầu vào ta tách thành 3 kênh màu RGB và thu được 3 feature maps Sau đó thực hiện tích chập với stride 1, kernel 3, padding 1 và 16 filter để cho ra 16 feature maps, mỗi feature map là một bản quét của ảnh gốc, nhưng đã được trích xuất các đặc trưng cụ thể Tiếp tục làm tương tự nhưng lần này ta giảm kích thước mẫu hai lần bằng stride 2 Sau nhiều lần thử nghiệm với số lần tích chập là 2, 4, 6, 8, 10, kết quả cho thấy khi số lần tích chập bằng 8 thì hiệu quả đạt được gần như cân bằng và ổn định Cuối cùng, các lớp convolutional được làm phẳng và đưa qua một lớp ẩn để cho ra một tập A gồm 4 giá trị Q, tương ứng với 4 hành động cho phương tiện di chuyển qua giao lộ như sau.

Hình 3.7: Minh hoạ bốn hành động tại một nút giao thông

North-South Advance (NSA): thời gian đèn xanh cho phép các phương tiện ở phía bắc và phía nam và muốn đi thẳng hoặc rẽ phải

North-South Left Advance (NSLA): thời gian đèn xanh cho các phương tiện ở phía bắc và phía nam và muốn rẽ trái

East-West Advance (EWA): thời gian đèn xanh cho phép các phương tiện ở nhánh đông và tây và muốn đi thẳng hoặc rẽ phải

East-West Left Advance (EWLA): thời gian đèn xanh cho phép các phương tiện ở phía đông và phía tây và muốn rẽ trái

Trong quá trình thử nghiệm, nếu hành động được chọn tại thời điểm t trùng với hành động được chọn tại thời điểm t-1 thì hệ thống sẽ không bật đèn vàng giữa hai hành động Thời gian đèn xanh được đặt mặc định là 10 giây cho mỗi hành động, và đèn vàng có thời gian 4 giây Hệ thống sẽ tiếp tục lặp lại quy trình này cho đến khi kết thúc quá trình thử nghiệm.

THỰC NGHIỆM

Môi trường thực nghiệm

Toàn bộ kết quả thu được được thực hiện trên máy tính có hệ điều hành Ubuntu 18.04, với vi xử lý Intel Core i5-9400, RAM 16GB và card đồ họa NVIDIA GeForce GTX 1070.

Kết quả thực nghiệm

Trong luận văn này thì các pha hệ thống đèn tĩnh (STL) được thiết lập bằng tập hành động này: ASTL = {NSA, NSLA, EWA, EWLA}

Hệ thống đèn giao thông được lập trình để luân phiên bật với thời gian đèn xanh cố định, đảm bảo sự thông suốt và an toàn cho lưu lượng qua ngã tư Mỗi lần chuyển đèn sẽ có 1 pha đèn vàng để cảnh báo người tham gia giao thông trước khi đổi sang trạng thái tiếp theo Bảng 4.1 liệt kê chi tiết thời gian của từng pha đèn trong chu kỳ, giúp xác định rõ thời lượng cho mỗi giai đoạn và tối ưu hóa hiệu suất điều tiết giao thông tại giao lộ.

Bảng 4.1: Thời gian đèn của hệ thống đèn tĩnh

Pha đèn Thời gian (giây)

Bảng 4.2: Kết quả sau khi chạy mô phỏng trên hệ thống đèn tĩnh

Low High NS EW Twt 13311 218682 116919 118746

4.2.2 Kết quả quá trình huấn luyện

Trong phần này, các kết quả thu được từ các quá trình thử nghiệm với các biến số khác nhau đã tạo ra các mô hình khác nhau Các mô hình được sử dụng trong luận văn này là LGA, MGA và HGA, được mô tả ở bảng 4.3 bên dưới.

Bảng 4.3: Hệ số dùng để huấn luyện hệ thống đèn giao thông thông minh

4.2.2.1 Huấn luyện tác nhân với hệ số γ = 0.09

Hình 4.1: Phần thưởng nhận được khi huấn luyện hệ thống với hệ số γ bằng 0.09

Bảng 4.4: Kết quả sau khi chạy mô phỏng với hệ số γ = 0.09

Low High NS EW Twt 8264 543949 33858 36518

Hình 4.2: So sánh tổng thời gian chờ của các phương tiện giữa hệ thống đèn tĩnh và hệ thống được huấn luyện với γ = 0.09

Tổng thời gian chờ của các phương tiện

Trong kết quả thực nghiệm lần này, tổng thời gian chờ của các phương tiện được giảm đáng kể ở các trường hợp xe vừa và ít, cho thấy hiệu quả của phương pháp được áp dụng Tuy nhiên, ở trường hợp xe đông, tác nhân vẫn chưa thể hiện tốt, cho thấy cần tối ưu thêm để nâng cao hiệu suất khi lưu lượng giao thông lớn.

Bảng 4.5: Kết quả sau khi chạy mô phỏng với hệ số γ bằng 0.25

Low High NS EW Twt 8618 486540 29108 29607

Hình 4.4: So sánh tổng thời gian chờ của các phương tiện giữa hệ thống được huấn luyện với γ = 0.09 và γ = 0.25

Tổng thời gian chờ của các phương tiện γ = 0.09 γ = 0.25

Những kết quả này cho thấy việc tăng giá trị gamma lên 0.25 cho tác nhân có thể dự đoán tốt một vài hành động trong tương lai, từ đó dẫn đến việc giảm thời gian chờ của các phương tiện so với trường hợp trước đó và cải thiện hiệu suất vận hành của hệ thống quản lý giao thông.

Bảng 4.6: Kết quả sau khi chạy mô phỏng với hệ số γ bằng 0.75

Low High NS EW Twt 10976 712422 37032 58324

Hình 4.6: So sánh tổng thời gian chờ của các phương tiện giữa hệ thống được huấn luyện với γ = 0.09, γ = 0.25 và γ = 0.75

Tổng thời gian chờ của các phương tiện γ = 0.09 γ = 0.25 γ = 0.75

Trong lần huấn luyện này, giá trị γ được cài đặt ở mức cao (γ = 0.75), cho tác nhân mục tiêu tối đa hóa phần thưởng tích lũy của nhiều hành động liên tiếp Theo quan sát, tác nhân không kích hoạt pha sáng đúng thời điểm và các phương tiện phải đợi rất lâu trước khi đèn giao thông chuyển sang màu xanh Có một giải pháp có thể cải thiện vấn đề này là giảm thời gian xanh của một hành động từ 10 giây xuống một giá trị nhỏ hơn, từ đó hệ thống có thể thực hiện nhiều hành động hơn và dự đoán được nhiều trạng thái trong tương lai hơn.

4.2.3 Đánh giá hiệu suất của các mô hình

Các mô hình với các tham số khác nhau sẽ dẫn đến các hành động khác nhau và từ đó thu được các kết quả khác biệt trong hệ thống điều khiển đèn giao thông Hình 4.7 dưới đây cho thấy kết quả so sánh giữa hệ thống đèn tĩnh và hệ thống đề xuất qua các kịch bản lưu lượng xe khác nhau, cho thấy lợi ích của phương pháp đề xuất ở từng điều kiện giao thông Kết quả cho thấy mức độ khác biệt về hiệu suất giữa hai hệ thống tùy thuộc vào tham số và mô hình được áp dụng, nhấn mạnh sự cần thiết của việc chọn tham số và kịch bản phù hợp để tối ưu dòng chảy giao thông và an toàn.

Hình 4.7: So sánh tổng thời gian chờ của các phương tiện qua các lần thử nghiệm

TỔNG THỜI GIAN CHỜ CỦA CÁC PHƯƠNG

TIỆN QUA CÁC LẦN THỬ NGHIỆM

Bảng 4.7: So sánh hiệu suất của các mô hình đề xuất với hệ thống đèn tĩnh (thấp hơn là tốt hơn)

Lưu lượng xe vừa di chuyển từ 2 hướng Bắc, Nam

Lưu lượng xe vừa di chuyển từ 2 hướng Đông Tây

Dựa vào bảng kết quả, ta thấy sự khác biệt giữa hai hệ số γ từ 0.09 lên tới 0.75 Với γ bằng 0.25, hệ thống cho hiệu suất khá tốt và có thể chọn các hành động phù hợp mà không làm ảnh hưởng đến hành trình của các phương tiện trên đường Tuy nhiên, khi lưu lượng xe đông, hệ thống cho ra kết quả có thời gian chờ của các phương tiện cao hơn so với hệ thống đèn tín hiệu cố định Nguyên nhân là công thức thưởng được tính bằng hiệu giữa tổng thời gian chờ của một hành động tại thời điểm t-1 và tổng thời gian chờ tại thời điểm t; khi số lượng xe ở các làn đường tiếp tục tăng, thời gian chờ trước khi tác nhân chọn hành động mới trở nên rất lớn, khiến tác nhân có thể hiểu nhầm là đã chọn một hành động sai Vấn đề này có thể được giải quyết bằng một phương pháp tính thưởng mới, tận dụng ưu thế của hiệu quả giao thông: tính thời gian chờ trung bình của các phương tiện, số lượng xe được thông qua và còn lại, và các chỉ tiêu liên quan khác.

Định dạng
Số trang	72
Dung lượng	1,92 MB