ĐỒ án tốt NGHIỆP xây dựng hệ thống tự động nhận diện biển báo giao thông trong điều kiện khó ứng dụng hỗ trợ cho xe tự lái

Một trong những bài toán của xe tự lái là trích xuấtthông tin từ môi trường Perception, trong đồ án này em sẽ tập trung đi vào xử lý mộtbài toán nhỏ của Perception đó là vấn đề nhận diện

TỔNG QUAN VỀ XE TỰ LÁI

Công nghệ xe tự lái và các ứng dụng hiện nay

Xe tự lái, hay xe tự hành, có khả năng cảm nhận môi trường xung quanh và di chuyển an toàn với ít hoặc không có sự can thiệp của con người Nó kết hợp các công nghệ cảm biến như radar, lidar, sonar, định vị GPS và trí tuệ nhân tạo AI để thu thập dữ liệu, nhận diện chướng ngại vật và biển báo giao thông Hệ thống điều khiển nâng cao phân tích thông tin thu được để xác định đường đi phù hợp, tối ưu hóa hành trình và ứng phó với các tình huống giao thông, từ đó giảm thiểu rủi ro và tăng tính tự chủ cho xe.

Công nghệ ô tô tự lái đã “chớm nở” từ rất sớm và đạt được nhiều thành tựu nổi bật ở thời điểm hiện tại, hứa hẹn sẽ mang đến triển vọng phát triển cho ngành công nghiệp tự động hóa trong tương lai Công nghệ ô tô tự lái ngày càng phát triển và trở nên thịnh hành hơn khi thị trường đòi hỏi những đột phá để mở ra kỷ nguyên mới cho ngành công nghiệp tự động hóa.

Hình 1-17 Công nghệ ô tô tự lái ngày càng phát triển

1 Lịch sử phát triển công nghệ ô tô tự lái

Vào năm 1939, tại triển lãm của General Motors, Norman Bel Geddes giới thiệu chiếc xe hơi tự lái đầu tiên Đó là một chiếc xe điện được điều khiển bởi trường điện từ thông qua sóng vô tuyến, hình thành nhờ các gai kim loại từ hóa gắn trên đường.

Vào năm 1977, Nhật Bản cải tiến ý tưởng bằng cách sử dụng hệ thống camera truyền dữ liệu tới máy tính để xử lý hình ảnh đường phố, cho xe tự lái di chuyển với tốc độ khoảng 32 km/giờ Khoảng một thập kỷ sau, Đức cho ra đời một phương tiện được trang bị camera có thể tự lái với vận tốc khoảng 90 km/giờ Khi công nghệ này được cải thiện, khả năng nhận diện và phản ứng với môi trường của xe tự lái cũng tăng lên, mở đường cho sự tiến bộ của hệ thống tự động hóa vận hành.

Từ 1950 - 2000, các tính năng an toàn/tiện lợi, đai ghế điều khiển hành trình và Antilock Brakes (Hệ thống chống bó phanh) được khám phá

Trong giai đoạn 2000–2010, các tính năng tự động hóa, hệ thống kiểm soát hành trình, phát hiện điểm mù, cảnh báo va chạm, chệch làn và phanh chống bó cứng tiếp tục được phát triển nhằm nâng cao an toàn và tiện lợi cho người dùng khi lái xe Những công nghệ này giúp xe phản ứng nhanh với tình huống nguy hiểm và hỗ trợ người lái trong các điều kiện giao thông đa dạng Việc mở rộng các tính năng an toàn này đặt nền tảng cho xe thông minh và cải thiện trải nghiệm người dùng trên thị trường ô tô.

Trong giai đoạn 2010-2016, các công nghệ hỗ trợ người lái như camera chiếu hậu, phanh khẩn cấp tự động và hệ thống hỗ trợ tập trung vào làn đường đã xuất hiện và dần được tích hợp trên nhiều mẫu xe Những tính năng này góp phần tăng cường an toàn lái xe bằng cách cải thiện tầm nhìn phía sau, tự động phanh khi cần và giúp tài xế duy trì đúng làn đường, từ đó nâng cao trải nghiệm và an toàn cho người dùng.

Hình 1-18 Các tính năng trên xe tự hành được hoàn thiện theo thời gian

Từ năm 2016 đến nay, xe tự hành đã tiến tới mức độ tự chủ ngày càng cao với các tính năng chủ chốt như hỗ trợ người lái giữ đúng làn đường, triển khai công nghệ Adaptive Cruise Control (ACC) – hệ thống kiểm soát hành trình thích ứng, và khả năng đỗ xe tự động.

Các chuyên gia dự tính từ nay đến năm 2025 sẽ tập trung nghiên cứu để nâng cấp các tính năng: an toàn tự động một phần, hỗ trợ giữ làn đường, kiểm soát hành trình, tự đỗ xe, hỗ trợ lái khi kẹt xe, để các phương tiện tự hành hoạt động hiệu quả và an toàn hơn

2 Những thành tựu ở thời điểm hiện tại và tiềm năng phát triển trong tương lai của công nghệ ô tô tự lái

Bất chấp ảnh hưởng của COVID-19, thị trường xe tự hành vẫn có tiềm năng to lớn và mang lại nhiều lợi ích về kinh tế - xã hội Theo Globenewswire, thị trường ô tô tự lái toàn cầu được định giá 20,97 tỷ USD vào năm 2020 và được dự báo đạt 61,93 tỷ USD với tốc độ tăng trưởng kép hàng năm khoảng 22,75% Các cấp độ tự động hóa đã được áp dụng phổ biến trong hầu hết các mẫu xe của nhiều hãng lớn hiện nay Trong năm 2020, khoảng 11,2 triệu ô tô tự lái cấp độ 2 được bán ra, tăng 78% so với năm 2019.

Hiện nay, xe tự lái đặc biệt được thử nghiệm và sử dụng phổ biến ở California, Arizona, Washington, Texas, Michigan và một số tiểu bang của Hoa Kỳ

Thị trường xe tự hành đặt mục tiêu đạt 37,22 tỷ USD vào năm 2023, cho thấy tiềm năng tăng trưởng ấn tượng của ngành Với CAGR (Compound Annual Growth Rate - tỷ lệ tăng trưởng kép hàng năm) dự kiến ở mức 16,84%, thị trường xe tự hành đang chứng kiến sự tăng trưởng đều đặn và mở ra nhiều cơ hội cho các nhà đầu tư và doanh nghiệp công nghệ.

Các quốc gia dẫn đầu công nghệ như Mỹ, Đức, Anh, Nhật Bản và Singapore đang đẩy mạnh các chính sách mở cửa cho xe tự hành trên toàn cầu bằng cách ban hành quy định mới, sửa đổi luật giao thông và công nhận sự tồn tại của ô tô không người lái, từ đó tạo khung pháp lý thuận lợi cho nghiên cứu, thử nghiệm và thương mại hóa xe tự lái; đây cũng là tín hiệu cho sự hình thành một hệ sinh thái xe tự hành được quản lý chặt chẽ và có sự phối hợp giữa khu vực công và tư, nhằm thúc đẩy đầu tư, đổi mới công nghệ và an toàn giao thông.

3 Nguyên lý hoạt động của công nghệ ô tô tự lái Để ứng dụng công nghệ ô tô tự lái, các nhà phát triển đã tích hợp công nghệ

AI nhằm cung cấp năng lượng, kết hợp lượng lớn dữ liệu từ các hệ thống nhận dạng hình ảnh, máy học và mạng thần kinh Mạng nơ-ron sẽ xác định các mẫu trong dữ liệu được cung cấp cho thuật toán máy học Dữ liệu này thường là hình ảnh thu được trên xe tự lái để mạng thần kinh tập xác định đèn giao thông, lề đường, người đi bộ, cây cối, biển báo và các bộ phận khác trong môi trường lái xe

Hình 1-19 Hệ thống kiểm soát hành trình của công nghệ ô tô tự lái

- Hệ thống kiểm soát hành trình thích ứng (ACC): khi dừng xe sẽ tự động duy trì khoảng cách giữa xe của người lái và phương tiện phía trước

- Tính năng đánh lái tập trung vào làn đường: khi ô tô băng qua vạch kẻ đường, tính năng này sẽ can thiệp bằng cách tự động thúc xe về phía làn đường đối diện

- Tay lái rảnh: tính năng này cho phép người điều khiển không cần đặt tay vào vô lăng

NHTSA, Cơ quan An toàn Giao thông Đường bộ Hoa Kỳ, phân loại các cấp độ xe tự lái khác nhau để xác định mức độ tự chủ của người lái và phương tiện khi vận hành Hệ thống phân loại này bao gồm các cấp từ 0 đến 5, thể hiện mức độ can thiệp của con người và mức độ tự động hoá mà xe có thể thực hiện, từ hỗ trợ lái xe ở mức cơ bản đến vận hành hoàn toàn tự động mà không cần người lái ở mọi tình huống Việc phân loại giúp tiêu chuẩn hoá an toàn, đánh giá khả năng và giới hạn của các hệ thống tự động hóa, đồng thời giúp người dùng hiểu rõ trách nhiệm và quyền lợi khi sử dụng xe có chức năng tự động hóa hoặc hỗ trợ lái xe.

Cụ thể, có sáu cấp độ xe tự lái từ 0 đến 5 và mỗi cấp độ sẽ thể hiện nhiệm vụ, vai trò khác nhau.

Các cấp độ của xe tự lái

Xe tự lái đang dần trở nên quen thuộc trong ngành công nghiệp ô tô, mở ra một lĩnh vực đầy tiềm năng nhưng vẫn cần các chuẩn chung để triển khai thực tế Hiệp hội Kỹ sư Ô tô (SAE) – tổ chức phát triển các quy định và tiêu chuẩn cho ngành công nghiệp ô tô toàn cầu – đã xây dựng một hệ thống phân loại gồm 6 cấp độ tự lái nhằm xác định mức độ tự chủ của phương tiện và vai trò của người lái khi vận hành.

Theo chuẩn phân loại 6 cấp độ xe tự lái, từ Cấp độ 0 đến Cấp độ 5, trong đó Cấp độ 0 nghĩa là xe không có sự trợ giúp nào từ hệ thống tự lái và Cấp độ 5 là xe tự chủ hoàn toàn, không cần bất kỳ thao tác điều khiển nào từ người lái.

Hình 1-20 Thang đo 6 cấp độ xe tự lái theo phân loại của SAE International

1 Xe tự lái Cấp độ 0 – Không tự động hóa Ở cấp độ này, người lái sẽ hoàn toàn phụ trách việc điều khiển phương tiện, từ đánh lái, tăng tốc, phanh, đỗ xe hay bất cứ hành động nào nhằm điều hướng chiếc xe.

Mặc dù vậy, mức độ tự lái này vẫn bao gồm những tính năng như hỗ trợ phanh khẩn cấp, cảnh báo điểm mù hay cảnh báo lệch làn đường Lý do là vì những công nghệ này không tham gia điều khiển phương tiện mà thay vào đó đưa ra cảnh báo hoặc chỉ dẫn cho chủ phương tiện trong những tình huống cụ thể Phần lớn các mẫu xe hơi bán có mặt trên thị trường hiện nay đều là những phương tiện thuộc nhóm này.

2 Xe tự lái Cấp độ 1 – Hỗ trợ người lái Ở cấp độ thấp nhất trong thang phân loại xe ô tô tự lái, người lái phải thực hiện hầu hết các tác vụ cần thiết để điều khiển chiếc xe, kết hợp với một số tính năng nhất định. Những tính năng này sẽ hỗ trợ người lái trong việc điều hướng chiếc xe trong một vài trường hợp cụ thể.

Hệ thống kiểm soát hành trình thích ứng – Adaptive Cruise Control (ACC), là một ví dụ

Thêm vào đó, tính năng Hỗ trợ giữ làn đường Lane Keeping Assist (LKA) cũng được coi là công nghệ tự động hóa Cấp độ 1.

Hình 1-5 Hệ thống kiểm soát hành trình thích ứng AAC được coi là công nghệ xe tự hành Cấp độ 1

Khác với cảnh báo lệch làn đường, hệ thống hỗ trợ giữ làn đường sẽ tự động điều khiển phương tiện để xe đi đúng làn đường mong muốn, tăng tính an toàn khi lái Một xe được trang bị đồng thời hệ thống kiểm soát hành trình thích ứng (ACC) và hỗ trợ giữ làn đường sẽ đáp ứng các tiêu chí để được xếp hạng xe tự lái Cấp độ 2, cho phép xe đảm nhận một phần điều khiển lái và vận tốc dựa trên lưu lượng giao thông, đồng thời duy trì vị trí trong làn đường và điều chỉnh tốc độ theo khoảng cách với xe phía trước.

3 Xe tự lái Cấp độ 2 – Tự hành một phần dưới sự giám sát của tài xế Ở cấp độ tự lái này, chiếc xe không chỉ có một hệ thống hỗ trợ người lái duy nhất, mà sở hữu nhiều hệ thống Hỗ trợ người lái nâng cao - Advanced Driver Assistance Systems (ADAS) đã được lập trình từ trước giúp phương tiện tự đánh lái, tăng tốc và phanh trong những tình huống phức tạp.

Dù xe có thể tự lái và tự phanh, tài xế vẫn phải tham gia chủ động vào quá trình điều khiển và giám sát tình huống trong mọi lúc Điều này bao gồm giữ hai tay đặt trên vô lăng và liên tục theo dõi hướng di chuyển của xe để kịp can thiệp khi cần Việc duy trì sự chủ động của tài xế là yếu tố an toàn, đảm bảo hệ thống hỗ trợ lái xe hoạt động hiệu quả và tăng cường kiểm soát phương tiện trên mọi tình huống giao thông.

Cấp độ 2 thường được gọi là tự lái một phần và nhiều mẫu xe từng được giới thiệu tại thị trường Mỹ và châu Âu trong năm 2020 vừa qua đều có thể xếp vào cấp độ này.

4 Xe tự lái Cấp độ 3 – Tự lái có điều kiện, có tài xế

Cấp độ xe tự lái này còn được gọi là tự động hóa có điều kiện, với nhiều hệ thống hỗ trợ người lái sẽ được lập trình để đưa ra quyết định (bằng trí tuệ nhân tạo - AI) theo thời gian thực dựa vào sự thay đổi của môi trường giao thông xung quanh chiếc xe.

Hình 1-5 Việc phát triển xe tự lái sẽ phụ thuộc vào công nghệ bản đồ hóa môi trường xung quanh

Mặc dù xe tự lái Cấp độ 3 có thể hoạt động mà không cần sự can dự của tài xế vào quá trình điều khiển, người lái vẫn bắt buộc phải có mặt để kiểm soát phương tiện, đặc biệt trong trường hợp khẩn cấp do lỗi hệ thống.

5 Xe tự lái Cấp độ 4 – Tự lái có điều kiện, không tài xế Được gọi là xe tự lái cấp độ cao, những phương tiện tự động hóa Cấp độ 4 sẽ không cần bất cứ tương tác nào của tài xế trong quá trình vận hành xe, vì xe được lập trình để tự dừng trong trường hợp hệ thống bị lỗi Vì vậy trong hầu hết điều kiện thực tế, tài xế sẽ

Tại cấp độ xe tự hành thứ 4, phương tiện được thiết kế để cho phép tự di chuyển từ điểm

Waymo, công ty phát triển công nghệ tự lái của Google, đã cung cấp dịch vụ xe tự lái tại Phoenix, Arizona sau khi hoàn tất mapping (bản đồ hóa) toàn bộ đường phố của thành phố này Việc bản đồ hóa toàn diện giúp xe tự lái nhận diện chính xác môi trường, biển báo và ranh giới địa lý, từ đó di chuyển từ A đến B trong phạm vi giới hạn được xác định Thành tựu này đánh dấu bước tiến quan trọng cho vận tải tự động và mở đường cho các dịch vụ xe tự lái được mở rộng ở các khu vực có ranh giới địa lý rõ ràng.

Xe tự lái cấp độ 4 có thể hoạt động nhờ công nghệ tiên tiến, nhưng điều kiện thời tiết vẫn có thể giới hạn khả năng vận hành của hệ thống này Trong thực tế, mọi quyết định vận hành ở cấp độ 4 phụ thuộc vào công nghệ được trang bị trên xe Ví dụ, một số chiếc xe thông minh sử dụng công nghệ cảm biến LiDAR để phân tích dữ liệu môi trường xung quanh và không bị ảnh hưởng bởi yếu tố thời tiết, từ đó nâng cao độ nhận diện và định vị Sự kết hợp của LiDAR với nhiều cảm biến khác giúp xe tự lái duy trì an toàn và chính xác hơn khi đối mặt với biến đổi thời tiết Tuy nhiên, vẫn còn thách thức và các nhà phát triển đang tiếp tục cải thiện khả năng hoạt động của xe tự lái cấp độ 4 trong mọi điều kiện.

6 Xe tự lái Cấp độ 5 – Tự động hóa không điều kiện Đây là mức độ tự lái cao nhất trong thang đo của SAE Ở cấp độ này, chiếc xe hoàn toàn tự động di chuyển và xử lý tình huống theo thời gian thực mà không cần đến bất kỳ sự tương tác nào từ phía người lái Cấp độ xe tự lái thứ 5 sẽ không có vô lăng, tay ga, chân phanh hay thậm chí là gương chiếu hậu như các dòng xe truyền thống.

Bài toán trích xuất thông tin môi trường trong xe tự lái

Trí tuệ nhân tạo (AI) là trí thông minh của máy móc, khác với trí tuệ tự nhiên của con người, và hướng tới khả năng máy tính có thể suy luận, lập kế hoạch, giao tiếp, có tri thức và nhận thức; AI hiện diện trong mọi lĩnh vực của đời sống như kinh tế, giáo dục, y khoa, mang lại nhiều ứng dụng và tác động đến hiệu quả hoạt động Trong AI, một hướng nghiên cứu phổ biến nhất là học máy (Machine Learning - ML), cho phép máy móc dựa vào tri thức về môi trường xung quanh để rút ra nguyên lý phục vụ cho việc ra quyết định; có nhiều phương pháp ML khác nhau, trong đó phương pháp phổ biến nhất được dùng trong lĩnh vực thị giác máy tính là học sâu (Deep Learning - DL) Các khái niệm AI, ML và DL được phân biệt rõ ràng như trong Hình 2-11.

Hình 2-1 Các khái niệm cơ bản trong trí tuệ nhân tạo

Như đã trình bày ở phần trên, học máy là một thành phần của trí tuệ nhân tạo giúp máy móc có thể học từ dữ liệu của môi trường xung quanh và quyết định hành động dựa trên các mẫu được nhận diện Để đạt được mục tiêu này, các nhà khoa học đã nghiên cứu ra nhiều thuật toán khác nhau như học có giám sát, học không giám sát và học tăng cường, từ đó xây dựng các mô hình dự đoán, phân loại và tối ưu hóa quyết định Ứng dụng của học máy ngày càng phong phú ở các lĩnh vực y tế, tài chính, công nghiệp và dịch vụ, giúp tự động hóa quy trình, nâng cao hiệu suất và ra quyết định dựa trên dữ liệu thực tế Để đạt hiệu quả cao, cần chú trọng tiền xử lý dữ liệu, chọn đúng thuật toán phù hợp với bài toán, điều chỉnh tham số và đánh giá hiệu suất bằng các chỉ số như độ chính xác, độ nhạy và F1-score.

CƠ SỞ LÝ THUYẾT

Học máy, học sâu

Trí tuệ nhân tạo (AI) là trí thông minh của máy móc, khác với trí tuệ tự nhiên của con người; AI nhắm tới khả năng máy tính có thể suy luận, lập kế hoạch, giao tiếp, có tri thức và nhận thức AI hiện diện trong mọi lĩnh vực đời sống như kinh tế, giáo dục và y khoa AI có nhiều hướng nghiên cứu, trong đó phổ biến nhất là học máy (Machine Learning - ML), cho phép máy móc dựa vào tri thức về môi trường xung quanh để rút ra các nguyên lý phục vụ cho việc ra quyết định Để thực hiện quá trình này, ML có nhiều phương pháp, và phương pháp phổ biến nhất được sử dụng trong lĩnh vực thị giác máy tính là học sâu (Deep Learning - DL) Các khái niệm AI, ML, DL được phân biệt như trong Hình 2-11.

Hình 2-1 Các khái niệm cơ bản trong trí tuệ nhân tạo

Học máy là một thành phần của trí tuệ nhân tạo cho phép máy móc học hỏi từ dữ liệu thu thập được từ môi trường xung quanh và đưa ra hành động dựa trên các mẫu nhận diện Để đạt được mục tiêu này, các nhà khoa học đã nghiên cứu và phát triển nhiều thuật toán học máy khác nhau, từ học có giám sát và học không giám sát cho tới học tăng cường, nhằm tối ưu hóa hiệu suất và khả năng tự động hóa trong nhiều ứng dụng thực tế.

 Học có giám sát - Supervised-learning.

 Học không giám sát - Unsupervised-learning.

 Học tăng cường - Reinforcement learning.

Học sâu là một phương pháp học máy được xây dựng để mô phỏng cách bộ não con người xử lý dữ liệu và hình thành các mô hình ra quyết định Những đột phá của trí tuệ nhân tạo phần lớn đến từ các mô hình học sâu và những ứng dụng rộng rãi của chúng Học sâu cho phép máy tính thực hiện được nhiều nhiệm vụ phức tạp mà trước đây tưởng chừng bất khả thi, từ nhận diện hình ảnh và xử lý ngôn ngữ tự nhiên đến phân tích dữ liệu lớn, dự báo và tối ưu hóa hệ thống tự động trong nhiều lĩnh vực.

15 năm trước, công nghệ AI đã có thể phân loại hàng nghìn vật thể khác nhau trong ảnh, tự động tạo chú thích nội dung cho ảnh, bắt chước giọng nói và chữ viết của con người và giao tiếp với con người một cách tự nhiên.

Trong những năm gần đây, học sâu được nhắc đến rất nhiều như một xu hướng mới của trí tuệ nhân tạo Có một số lý do sau đây:

Bùng nổ dữ liệu đang thay đổi cách các doanh nghiệp và mạng xã hội vận hành khi họ tích lũy một kho dữ liệu khổng lồ, mở ra cơ hội cho các công cụ phân tích và AI tiên tiến Trong bối cảnh này, học sâu (deep learning) khai thác hiệu quả dữ liệu lớn (Big Data) với độ chính xác cao hơn hẳn so với các phương pháp học máy khác trên cùng một tập dữ liệu, đặc biệt là đối với dữ liệu ảnh.

Phần cứng phát triển: sự xuất hiện của nhiều mẫu GPU mới có hiệu năng tính toán cao và mức giá phải chăng đã mở cửa cho nhiều người tiếp cận học sâu, khiến cho nghiên cứu và ứng dụng AI không còn bị giới hạn trong các phòng thí nghiệm của các trường đại học danh tiếng hay các công ty lớn Điểm mạnh của học sâu là phương pháp hiện đại nhất cho các lĩnh vực như thị giác máy tính và nhận diện giọng nói; mạng nơ-ron sâu đạt hiệu suất cao trên các tập dữ liệu hình ảnh, âm thanh và chữ viết và có thể dễ dàng cập nhật mô hình bằng dữ liệu mới Kiến trúc của một mô hình, tức là số lượng và cấu trúc các tầng, có thể được ứng dụng cho nhiều bài toán khác nhau Điểm yếu là học sâu không phải là thuật toán có mục đích sử dụng chung, vì chúng đòi hỏi một lượng dữ liệu khổng lồ để huấn luyện; bên cạnh đó phương pháp này tốn nhiều tài nguyên để huấn luyện và đòi hỏi nhiều kiến thức chuyên sâu để tinh chỉnh các tham số.

Thuật toán học máy là một loại thuật toán có khả năng học từ dữ liệu Với các cặp dữ liệu đầu vào và đầu ra, nó cho phép chương trình máy tính hoạt động tốt hơn nhờ kinh nghiệm học được từ những cặp dữ liệu đó Nói chung, mỗi điểm dữ liệu được mô tả bởi một vector đặc trưng có chiều d, x ∈ ℝ^d, và hàm dự đoán đầu ra được viết dưới dạng y = f(x).

Trong bài toán dự đoán, gọi giá trị dự đoán là ŷ và giá trị thực là y Chúng ta cố gắng giảm tối đa sự chênh lệch giữa hai giá trị này để sai số dự đoán càng nhỏ càng tốt, tức là tối ưu hóa hàm mất mát sao cho khoảng cách giữa ŷ và y ở mức thấp nhất có thể Các chỉ số đo lường sai số phổ biến như sai số bình phương trung bình (MSE) và sai số tuyệt đối trung bình (MAE) giúp đánh giá độ lệch giữa giá trị dự đoán và giá trị thực, từ đó cải thiện độ chính xác của mô hình và hiệu quả tối ưu hóa.

Trong đó hệ số là để thuận tiện cho việc tính toán (khi tính đạo hàm thì sẽ triệt tiêu).

Chúng ta đang làm bài toán có thể có e là một số âm; khi e rất nhỏ, tức là e gần với giá trị tham chiếu, sai lệch sẽ tăng lên rất lớn Điều này áp dụng cho mọi cặp đầu vào–đầu ra Mục tiêu của chúng ta là tối thiểu tổng sai số, tương đương với việc tìm w để hàm số sau đạt giá trị nhỏ nhất.

(2.3) Hàm số L(w) được gọi là hàm mất mát (loss function) của bài toán Linear Regression. Chúng ta luôn mong muốn rằng sự mất mát (sai số) là nhỏ nhất, điều đó đồng nghĩa với việc tìm vector hệ số w sao cho giá trị của hàm mất mát này càng nhỏ càng tốt Giá trị của w làm cho hàm mất mát đạt giá trị nhỏ nhất được gọi là điểm tối ưu (optimal point), ký hiệu:

2 Tối ưu hóa hàm mất mát a) Gradient descent Để giải bài toán tìm điểm tối ưu của hàm mất mát (Hàm mất mát cũng thường được ký hiệu là với là tập hợp các tham số của mô hình), ta có thuật toán lặp gradient descent với các bước tuần tự như sau:

 Dự đoán một điểm khởi tạo

 Cập nhật đến khi đạt được kết quả chấp nhận được theo công thức:

(2.5) Với là đạo hàm của hàm mất mát tại

Gradient descent dưới góc nhìn vật lý

Hình 2-21 Gradient dưới góc nhìn vật lý

Thuật toán GD được ví như tác động của trọng lực lên một hòn bi đặt trên mặt có dạng thung lũng như Hình 2-12a Bất kể hòn bi được đặt ở A hay ở B, cuối cùng nó sẽ lăn xuống và dừng ở đáy tại vị trí C Tuy nhiên, nếu bề mặt có hai đáy thung lũng như Hình 2-12b, vị trí kết thúc của hòn bi sẽ phụ thuộc vào điểm bắt đầu: đặt ở A có thể dẫn nó tới đáy của thung lũng tương ứng ở A, còn đặt ở B sẽ dẫn nó tới đáy của thung lũng kia; điều này cho thấy trong bài toán tối ưu hóa có thể xuất hiện nhiều tối tiểu cục bộ và GD có thể chui vào một trong các đáy tùy theo khởi tạo.

Trong Hình 2-12, các viên bi chịu ma sát và đà, D là điểm cực tiểu địa phương còn C là cực tiểu toàn cục; nếu vận tốc ban đầu tại B đủ lớn, viên bi có thể tiến lên dốc bên trái của D và khi vận tốc tăng hơn nữa có thể vượt qua đỉnh để tới E rồi lăn xuống C như trong Hình 2-12c Quan sát này dẫn đến sự ra đời của thuật toán momentum (đà) nhằm giúp thuật toán gradient descent thoát khỏi các cực tiểu địa phương Gradient với momentum là phương pháp cập nhật vận tốc bằng cách kết hợp vận tốc quá khứ với gradient hiện tại, giúp vượt qua các vùng tối ưu khó khăn và tiến tới cực tiểu toàn cục nhanh hơn.

Trong gradient descent, để cập nhật nghiệm tại thời điểm t, ta tính lượng thay đổi tương ứng với một vận tốc v_t và coi mỗi vòng lặp như một đơn vị thời gian Vị trí mới x_{t+1} được cập nhật bằng x_t - v_t, thể hiện việc di chuyển ngược với gradient để giảm giá trị hàm mục tiêu Để vừa truyền tải thông tin của độ dốc hiện tại (gradient) vừa nắm bắt đà, vận tốc được cập nhật bằng v_t = β v_{t-1} + η ∇f(x_t), rồi sau đó cập nhật x_{t+1} = x_t - v_t Thông tin của đà được hiểu là vận tốc trước đó, và ta thường giả sử vận tốc ban đầu là 0.

) Một cách đơn giản nhất, ta có thể lấy tổng có trọng số của chúng:

Trong công thức (2.6), ta sử dụng một số dương nhỏ hơn một, thường được chọn là 0.9 Giá trị này đại diện cho vận tốc tại thời điểm trước đó và chính là độ dốc tại thời điểm hiện tại Từ đó ta có công thức cập nhật nghiệm.

Bài toán phát hiện vật thể (object detection) và các mạng xương sống phổ biến trong mô hình học sâu

2.2.1 Bài toán phát hiện vật thể (object detection)

Bài toán phát hiện vật thể hay nhận dạng đối tượng (Object detection) là một thuật ngữ chung để mô tả một tập hợp các nhiệm vụ thị giác máy tính có liên quan liên quan đến việc xác định các đối tượng trong ảnh kỹ thuật số Nhận dạng đối tượng đã được sử dụng rộng rãi để phát hiện khuôn mặt, phát hiện xe, đếm số người đi bộ, hệ thống bảo mật và xe không người lái Có nhiều cách để nhận diện đối tượng có thể được sử dụng cũng như trong nhiều lĩnh vực thực tế Về phần tiếp cận mô hình, thuật toán nhận dạng đối tượng có thể được phân loại thành 2 dạng chính: One-stage và Two-stage Method

Phương pháp nhận dạng đối tượng theo hai giai đoạn có thể được chia thành hai bước chính: bước đầu là phát hiện vị trí các vật thể trong một bức ảnh, bước tiếp theo là phân loại các vật thể đã được phát hiện ở bước đầu Các mô hình Two-stage phổ biến như RCNN, Fast RCNN và Faster RCNN tập trung vào quá trình từ xác định vùng chứa đối tượng đến phân loại chúng một cách chính xác.

Hình 2-19 Hình ảnh mô tả mô hình RCNN, một mô hình đại diện cho phương pháp Two-stage Detection

Trong hình 2-19 là luồng xử lý (pipeline) của mô hình RCNN Ở giai đoạn 1 của phương pháp two-stage, R-CNN sử dụng thuật toán selective search để trích chọn ra 2000 vùng đề xuất (regional proposals) Vùng đề xuất là vùng được coi là có khả năng chứa vật thể bên trong đó Sau khi trích xuất ra khoảng 2000 vùng đề xuất với các vị trị và kích thước khác nhau, 2000 vùng này sẽ được đưa qua một mô hình CNN để phân loại xem vùng đề xuất đó thuộc lớp (class) nào Đối với các mô hình Fast R-CNN hay Faster R-CNN, đã có những cải tiến nhất định về phương pháp trích chọn vùng đề xuất giúp cho mô hình phát hiện vật thể nhanh và chính xác hơn nhưng nhìn chung các phương pháp two stage vẫn thực hiện phát hiện vật thể và phân loại vật thể ở 2 giai đoạn riêng biệt Điều này làm cho phương pháp two-stage có độ chính xác cao tuy nhiên tốc độ xử lý chậm.

Khác với phương pháp Two-stage, phương pháp này sẽ không phân ra hai giai đoạn rõ ràng, mà cùng lúc sẽ thực hiện cả việc phát hiện vật thể (tìm bounding box) và phân loại vật thể (classification).

Hình 2-20 Phương pháp One-stage tìm kiếm và phát hiện vật thể cũng như phân loại chúng chỉ trong một thuật toán

Trong lĩnh vực nhận diện đối tượng, các mô hình One-stage phổ biến như YOLO và SSD nổi bật với tốc độ xử lý nhanh và khả năng hoạt động ở thời gian thực (real-time) Đây là ưu điểm chính, phù hợp cho các hệ thống yêu cầu phản hồi nhanh, tuy nhiên độ chính xác của các phương pháp One-stage thường thấp hơn so với các mô hình two-stage, vốn cho hiệu năng nhận diện ở mức cao và chi tiết hơn Vì vậy, sự lựa chọn giữa One-stage và two-stage phụ thuộc vào cân bằng giữa tốc độ và độ chính xác phù hợp với từng ứng dụng.

Trong bài toán nhận dạng vật thể, phương pháp đánh giá phổ biến nhất là độ chính xác trung bình (AP – Average Precision) AP đo lường khả năng dự đoán đúng của mô hình ở các vị trí và nhãn khác nhau, cung cấp thước đo tổng quát cho hiệu suất nhận dạng vật thể Nhiều nghiên cứu và hệ thống còn dùng mean Average Precision (mAP) để tổng hợp hiệu suất trên nhiều lớp và ngưỡng, từ đó cho phép so sánh các mô hình một cách khách quan.

Precision đại diện cho độ tin cậy của mô hình, là tỉ lệ số điểm true positive trong số những điểm được phân loại là positive, cho chúng ta biết độ chính xác của phép dự đoán như tỉ lệ phần trăm các dự đoán đúng Precision cao tức là trong những điểm tìm được, tỉ lệ tìm được đúng cao

Recall đại diện cho độ nhạy của mô hình trong phân loại, là tỉ lệ số điểm true positive trên tổng số các điểm thực sự là positive (dương) Nó cho biết mô hình có bỏ sót nhiều điểm dương hay không Recall càng cao thì tỷ lệ bỏ sót các điểm dương càng thấp, đồng nghĩa với khả năng nhận diện các điểm positive của mô hình được cải thiện.

Một mô hình phân loại tốt phải là một mô hình có cả Precision và Recall đều cao Có hai cách đo chất lượng của bộ phân loại dựa vào Precision và Recall: Precision-Recall curve và F-score.

IoU đo sự giao nhau giữa hai vùng được nhận diện Chúng ta sử dụng chỉsố này để đo xem bao nhiêu phần của vùng được dự đoán giao với ground truth (vùng ảnh thật) Trong một số bộ dữ liệu, chúng ta sẽ định nghĩa trước một ngưỡng IoU để phân loại xem phép dự đoán là true positive hay false positive.

Precision Recall Curve & Average Precision

Khi một mô hình nhận diện ra kết quả dự đoán(prediction) , ta cần so sánh kết quả đó với đáp án trên thực tế (ground truth) Với những kết quả dự đoán có chỉ số IoU của prediction và groundtruth lớn hơn 1 ngưỡng nào đó (từ 0 đến 1), ta quy định kết quả đó là True Positive, ngược lại sẽ là False Positive Từ đó, với mỗi 1 ngưỡng (threshold) khác nhau, ta có thể vẽ được các đường cong mô tả mối quan hệ giữa Precision và Recall (Precision Recall Curve).

Hình 2-22 Precision Recall Curve – đường biểu diễn mối quan hệ giữa Precision và Recall

Giá trị AP (Average Precision) được chính là vùng diện tích phía dưới đường Precision Recall Curve Với AP lớn, nó cho thấy Precision và Recall cao, chứng minh rằng model học tốt, còn với AP nhỏ thì ngược lại.

Trong bài toán phân loại, mỗi lớp thường có một giá trị AP riêng biệt, và mAP (mean Average Precision) được tính bằng trung bình cộng của các giá trị AP của các lớp khác nhau.

2.2.2 Các mạng xương sống (backbone) phổ biến

Kiến trúc xương sống là một trong những thành phần quan trọng nhất của mô hình nhận diện vật thể, chịu trách nhiệm trích xuất các đặc trưng từ ảnh đầu vào để nhận diện các đối tượng trong ảnh Các backbone mạnh mẽ như ResNet được thiết kế để học các biểu diễn đặc trưng sâu ở nhiều cấp độ, đồng thời sử dụng kỹ thuật residual để vượt qua thách thức gradient khi huấn luyện mạng sâu, giúp cải thiện độ chính xác và tính ổn định của hệ thống ResNets với các khối residual cho phép xây dựng mạng sâu mà vẫn dễ học và ít bị suy giảm hiệu suất giữa các lớp, từ đó nâng cao khả năng tổng quát hóa trên dữ liệu đa dạng Khi được kết hợp với các thành phần khác như mạng vùng đề xuất và đầu phân loại, kiến trúc xương sống chất lượng cao sẽ tối ưu hóa quá trình trích xuất đặc trưng, cho phép nhận diện nhanh chóng và chính xác các đối tượng trong ảnh.

Trong các mạng học sâu truyền thống, các lớp tích chập được xếp chồng và ở phần cuối mạng thường có các tầng kết nối đầy đủ để thực hiện nhiệm vụ phân loại Những kiến trúc này thường nâng cao độ chính xác bằng cách tăng chiều sâu của mạng CNN; tuy nhiên thực nghiệm cho thấy khi đạt tới một ngưỡng sâu nhất định, hiệu quả của mô hình sẽ bão hòa hoặc thậm chí giảm sút Khi thực hiện thuật toán lan truyền ngược, gradient được tính qua từng lớp, do đó các đạo hàm riêng phải nhân với nhau theo các trọng số trung gian; với mạng sâu, nếu các giá trị này nhỏ thì gradient sẽ ngày càng nhỏ về phía tầng đầu, gọi là vanishing gradient, còn nếu lớn thì gradient sẽ trở nên rất lớn ở đầu mạng, gọi là exploding gradient Vanishing gradients khiến gradient descent không điều chỉnh nhiều trọng số của các tầng sâu, khiến mạng khó hội tụ và kết quả không tối ưu Mạng ResNet được giới thiệu để giải quyết vấn đề này bằng cách sử dụng các kết nối tắt (skip connections) xuyên qua một hoặc nhiều lớp, giúp gradient dễ dàng lan truyền ngược và tối ưu hóa mạng sâu hơn; một khối như vậy được gọi là Residual Block và được biểu diễn trong hình 2-33.

Các điều kiện thách thức trong môi trường thực tế

2.3.1) Biển báo giao thông được quan sát với kích thước nhỏ Đối với xe tự lái việc quan sát trước, dự đoán trước trên một đoạn đường là rất quan trọng ,điều đó đòi hỏi camera phải trích xuất được các thông tin từ xa, khi đó thông tin của đối tượng nhận về có thể có kích thước rất nhỏ gây khó khăn trong việc phát hiện và phân loại đối tượng

Hình 2-25 Biển báo giao thông rất nhỏ trong hình(kích thước 5x5 pixel)

2.3.2) Các điều kiện challenging khác

Trong môi trường thực tế ta còn phải gặp rất nhiều thử thách khác như về thời tiết: mưa, tối, bóng dâm, tuyết,khói,ống kính bẩn,mờ hay về lỗi thông tin khi nhận như codec,lỗi màu sắc,nhiễu,…

Kết luận: Có rất nhiều thách thức trong môi trường thực tế nhưng trong giới hạn của đồ án nên em tập trung phát triển mô hình để xử lí biển báo giao thông có kích thước nhỏ

Các kĩ thuật xử lí nâng cao hiệu suất cho mô hình

Thuật toán được thiết kế để xử lý hình ảnh bằng cách dùng một cửa sổ trượt có kích thước cố định, di chuyển từ trái sang phải và từ trên xuống dưới để chia ảnh thành một chuỗi các ảnh nhỏ hơn Mỗi cửa sổ trượt cho phép phân tích đồng nhất từng vùng của ảnh, và một tập hợp các phép biến đổi tùy chọn có thể được áp dụng lên mỗi cửa sổ để trích xuất đặc trưng hoặc tăng cường thông tin Như minh họa trong Hình 3, cửa sổ trượt của chúng tôi có thể được sử dụng để phát hiện khuôn mặt trong ảnh đầu vào.

Hình 2-27 Các vùng trong bức ảnh được tạo ra bằng phương pháp trượt cửa sổ

Hình 2-28 Sliding window image processing

Thuật toán sliding window giúp ta tạo ra nhiều data hơn từ data gốc đồng thời có thể thu gọn đối tượng lại trong một ảnh nhỏ giúp model của ta dễ dàng học hơn và do đó sẽ phát hiện đối tượng tốt hơn Các cửa sổ trượt đóng vai trò không thể thiếu trong phân loại đối tượng, vì chúng cho phép chúng tôi bản địa hóa chính xác "trong đó" trong một hình ảnh mà một đối tượng nằm

Ý tưởng chung của 2.5.2 là thuật toán đề xuất vùng nên rà soát ảnh và tìm các vùng có khả năng chứa một đối tượng, tương tự như kỹ thuật saliency detection Các vùng đề xuất này được xem như các đề xuất ứng cử viên cho trình phân loại ở tầng hạ nguồn nhằm gắn nhãn cho các vùng và xác định đối tượng một cách chính xác, từ đó hoàn thiện quá trình phát hiện đối tượng.

Các thuật toán đề xuất khu vực tự động chẳng hạn như tìm kiếm có chọn lọc (selective search) Thuật toán tìm kiếm có chọn lọc được triển khai trong OpenCV lần đầu tiên được giới thiệu bởi UIJlings et al Trong bài báo năm 2012 của họ, Selective Search for Object Recognition

Trong tìm kiếm có chọn lọc, hình ảnh được phân đoạn quá mức bằng thuật toán superpixel thay vì SLIC Uijlings và cộng sự đã dùng phương pháp từ bài báo năm 2004 của Felzenszwalb và Huttenlocher để phân tách các vùng một cách nhanh chóng và có độ đồng nhất cao, từ đó tạo ra các vùng tiềm năng đối tượng phong phú và dễ tích hợp với các bước phân loại sau để sinh ra đề xuất đối tượng hiệu quả.

Hình 2-29 Tìm kiếm chọn lọc của OpenCV sử dụng phương pháp Felzenszwalb superpixel để tìm các vùng của hình ảnh có thể chứa một đối tượng

Quá trình tìm kiếm có chọn lọc hợp nhất các superpixels nhằm xác định các vùng của hình ảnh có khả năng chứa một đối tượng Quy trình này được thực hiện theo kiểu phân cấp dựa trên năm biện pháp tương đồng chính nhằm đánh giá mức độ liên kết giữa các siêu điểm ảnh và từ đó ghép chúng thành các vùng ảnh mang ý nghĩa đối với nhận diện đối tượng.

Tương tự màu: Tính toán biểu đồ với 25 bin cho mỗi kênh của một hình ảnh, kết hợp chúng lại với nhau và có được một mô tả cuối cùng là 25 × 3 = 75-D Độ tương tự màu của bất kỳ hai vùng nào được đo bằng khoảng cách giao điểm biểu đồ

Tương tự kết cấu: Đối với kết cấu, tìm kiếm có chọn lọc các dẫn xuất Gaussian ở

Trong bài viết này, hệ mô tả đặc trưng kết cấu được xây dựng bằng cách phân tích 8 hướng trên mỗi kênh ảnh (giả sử ảnh có 3 kênh RGB) Các hướng này được dùng để tạo biểu đồ histogram với 10 bin cho mỗi kênh, cho ra một mô tả kết cấu cuối cùng có kích thước 8×10×3, tức 240-D Để tính toán độ tương đồng kết cấu giữa hai vùng bất kỳ, ta dùng khoảng cách giao điểm của các histogram như một chỉ số đo lường Độ tương đồng kích thước giúp nhóm các khu vực có kích thước tương đồng bằng cách ưu tiên ghép các khu vực nhỏ trước, vì dữ liệu có kích thước nhỏ hơn được lọc sớm hơn Nhận thức về HAC (Hierarchical Agglomerative Clustering) cho thấy nó dễ bị một cụm lớn chiếm ưu thế và gộp mọi thứ ở cạnh nó Bằng cách thực thi việc ghép các khu vực nhỏ trước, ta ngăn chặn được số lượng lớn các cụm nuốt chửng các khu vực nhỏ hơn, từ đó cải thiện tính ổn định và hiệu quả của mô tả kết cấu và nhận diện.

Ý tưởng đằng sau hình dạng tương tự và khả năng tương thích trong tìm kiếm chọn lọc là các khu vực được cho là phù hợp và có thể ghép lại với nhau dựa trên đặc điểm hình học và các đặc tính liên quan Hai khu vực được coi là tương thích khi chúng có hình dạng, kích thước, tỉ lệ và biên tương đồng, đồng thời có mức liên kết về màu sắc và cấu trúc ở vùng lân cận giúp chúng dễ ghép nhóm và đề xuất vùng hiệu quả hơn Nhận diện các khu vực có hình dạng tương tự không chỉ tăng độ chính xác của hệ thống nhận diện mà còn tối ưu hóa quá trình xử lý bằng cách giảm số lượng đề xuất khu vực, từ đó cải thiện hiệu suất tổng thể của pipeline nhận diện đối tượng.

Khái niệm 'tương thích' được hiểu là mức độ các vùng phù hợp với nhau nhằm lấp đầy khoảng trống trong hệ thống đề xuất khu vực của chúng ta Bên cạnh đó, các hình dạng không chạm nhau không nên được hợp nhất để bảo toàn đặc trưng của từng vùng Để đo lường mức độ tương đồng, một meta tương tự cuối cùng được xác định dưới dạng sự kết hợp tuyến tính của các thành phần: tương đồng màu sắc, tương đồng kết cấu, tương đồng kích thước và tương đồng hình dạng Kỹ thuật tìm kiếm có chọn lọc áp dụng các thước đo tương tự phân cấp này, và kết quả tìm kiếm có thể được nhìn thấy trong hình minh họa đi kèm.

Kết quả tìm kiếm có chọn lọc áp dụng các biện pháp tương tự phân cấp này có thể được nhìn thấy trong hình sau:

Hình 2-30: Tìm kiếm chọn lọc của OpenCV áp dụng các biện pháp tương tự phân cấp cho các vùng tham gia và cuối cùng tạo thành tập hợp các đề xuất cuối cùng cho các đối tượng có thể có mặt

2.5.3) Chỉnh sửa Anchor box Để tìm được bounding box cho vật thể, có thể ta sẽ cần các anchor box làm cơ sở ước lượng Những anchor box này sẽ được xác định trước và sẽ bao quanh vật thể một cách tương đối chính xác Sau này thuật toán regression bounding box sẽ tinh chỉnh lại anchor box để tạo ra bounding box dự đoán cho vật thể

Trong quá trình huấn luyện mạng nhận diện vật thể, mỗi vật thể trong ảnh được gán cho một anchor box duy nhất Trong trường hợp có từ hai anchor boxes trở lên bao quanh vật thể, ta sẽ xác định anchor box có IoU với ground truth bounding box lớn nhất để làm đại diện cho vật thể đó.

Hình 2-29: Xác định anchor box cho một vật thể Ở hình 2-29 ,từ Cell i ta xác định được 3 anchor boxes viền xanh như trong hình Cả

Trong mỗi ô của bản đồ đặc trưng có ba anchor boxes giao nhau với bounding box của vật thể, nhưng chỉ anchor box có đường viền màu xanh dày nhất được chọn làm anchor box cho vật thể vì IoU với ground truth bounding box là cao nhất Để dự báo bounding box cho một vật thể, mô hình dựa trên một phép biến đổi từ anchor box và vị trí của ô trên bản đồ đặc trưng; cho một anchor box có kích thước (pw, ph) tại ô có góc trên bên trái tại (cx, cy), mô hình dự đoán bốn tham số (tx, ty, tw, th) nhằm điều chỉnh vị trí và kích thước của bounding box.

Trong bài toán phát hiện đối tượng, hai tham số đầu mô tả độ lệch (offset) so với góc trên bên trái của ô (cell) và hai tham số kế tiếp là tỷ lệ so với anchor box, nhằm xác định vị trí và kích thước của bounding box dự đoán Những tham số này cho phép xác định tâm của bounding box (bx, by) và kích thước (bw, bh) thông qua các hàm kích hoạt sigmoid và hàm exponential, như các công thức được trình bày ở phần bên dưới Cụ thể, độ lệch giúp định vị tâm hộp trong cell, trong khi tỉ lệ so với anchor box điều chỉnh độ rộng và chiều cao của hộp để phù hợp với đối tượng trong ảnh Việc kết hợp hai nhóm tham số này cho phép mô hình ước lượng chính xác vị trí và kích thước của bounding box, đồng thời đảm bảo các giá trị bx, by, bw và bh nằm trong giới hạn hợp lý Đây là cơ sở kỹ thuật cho quá trình dự đoán bounding box và có thể được diễn đạt rõ ràng trong nội dung SEO nhắm tới các thuật ngữ liên quan đến bounding box, sigmoid và exponential.

HUẤN LUYỆN MÔ HÌNH NHẬN DIỆN BIỂN BÁO GIAO THÔNG

Định dạng
Số trang	76
Dung lượng	4,31 MB