(Đồ án hcmute) ứng dụng thị giác máy tính vào hệ thống lái xe tiên tiến adas

GIỚI THIỆU

Giới thiệu đề tài

Thị giác máy tính, một lĩnh vực quan trọng của trí tuệ nhân tạo, đang phát triển mạnh mẽ và cho phép máy tính xử lý thông tin từ hình ảnh và video thông qua camera Ứng dụng của thị giác máy tính rất đa dạng, đặc biệt trong giao thông với hệ thống hỗ trợ tài xế lái xe ADAS (Advanced Driver Assistance Systems) Hệ thống này cung cấp cảnh báo kịp thời nhằm ngăn chặn các tình huống nguy hiểm, từ đó nâng cao hiệu suất và trải nghiệm lái xe ADAS sử dụng công nghệ cảm biến để nhận diện phương tiện, làn đường, và tài xế buồn ngủ Nhóm nghiên cứu đang phát triển đề tài “Ứng dụng thị giác máy tính vào hệ thống lái xe tiên tiến ADAS” với ba chức năng chính: cảnh báo lệch làn đường, cảnh báo va chạm, và cảnh báo tài xế ngủ gật, nhằm giảm thiểu chi phí so với việc sử dụng cảm biến truyền thống.

Tình hình nghiên cứu

Hiện nay, trong hệ thống hỗ trợ lái xe tự động (ADAS), có nhiều thuật toán mạnh mẽ cho từng chức năng phổ biến Đối với nhiệm vụ phát hiện đối tượng như biển báo, phương tiện và đèn đường, các mạng nổi bật bao gồm Yolo và Faster-RCNN Trong khi đó, cho nhiệm vụ phân đoạn ngữ nghĩa, các kiến trúc như PSPNet và UNet được sử dụng để phân đoạn vùng lái xe Ngoài ra, mạng SCNN và ENet-SAD cũng đóng vai trò quan trọng trong các ứng dụng này.

Các mô hình phát hiện làn đường đạt hiệu suất cao cho từng nhiệm vụ riêng biệt, nhưng khi thực hiện tuần tự, tổng độ trễ giữa các nhiệm vụ trở nên lớn Trong khi đó, hệ thống ADAS cần xử lý và ra quyết định ngay lập tức để tránh va chạm và tai nạn Do đó, không chỉ yêu cầu về tốc độ phản ứng nhanh chóng mà còn cần triển khai hiệu quả trên các thiết bị bo mạch nhúng.

Trong bối cảnh hạn chế về tài nguyên phần cứng và độ trễ cao, việc chạy từng mô hình riêng lẻ không khả thi, do đó, các mô hình học đa tác vụ (Multitask Learning) được áp dụng để xử lý đồng thời nhiều nhiệm vụ và chia sẻ thông tin hỗ trợ lẫn nhau, giúp tăng tốc độ so với các mạng đơn thông thường Đối với hệ thống cảnh báo ngủ gật, nhiều phương pháp đã được triển khai như theo dõi và đo lường sự thay đổi nhịp tim, sóng não của tài xế, cùng với các thiết bị phát hiện tình trạng ngủ gật Các nghiên cứu đã chỉ ra hiệu quả của ứng dụng sóng não, thiết bị chống ngủ gật như nhẫn cảm biến đa cảnh báo và máy theo dõi tư thế cổ trong việc giám sát trạng thái ngủ gật của tài xế.

Nghiên cứu ứng dụng sóng não để phát hiện dấu hiệu buồn ngủ đã sử dụng công nghệ EEG từ mũ Emotiv EPOC Headset, yêu cầu tài xế phải đội mũ trong suốt quá trình lái xe, gây khó khăn và cảm giác khó chịu Các thiết bị hỗ trợ như Stopsleep sử dụng cảm biến rung để cảnh báo tài xế khi có dấu hiệu buồn ngủ, trong khi thiết bị LGI theo dõi tư thế cổ bằng cách gắn vào tai và cảnh báo khi đầu tài xế cúi xuống Tuy nhiên, cả hai phương pháp đều yêu cầu tài xế đeo thiết bị trong thời gian dài, dễ gây hư hại do mồ hôi hoặc không đạt hiệu quả nếu cảm biến không tiếp xúc tốt với da Đặc biệt, thiết bị theo dõi tư thế cổ có thể không hoạt động khi tài xế nhắm mắt nhưng vẫn giữ tư thế đúng, gây nguy hiểm trong khi lái xe.

Dựa trên các phân tích đã thực hiện, nhóm nhận thấy rằng các nghiên cứu trước đây còn tồn tại nhiều hạn chế Do đó, trong đề tài này, nhóm đã phát triển một hệ thống mới với chức năng cảnh báo ngủ gật dành cho tài xế.

3 bằng cách sử dụng camera để theo dõi và phát hiện những thay đổi mà không cần những tác động vào cơ thể tài xế.

Mục tiêu đề tài

Trong luận văn này, nhóm nghiên cứu tập trung vào việc phát triển một hệ thống hỗ trợ lái xe tiên tiến nhằm giúp tài xế Hệ thống sẽ bao gồm các chức năng quan trọng như cảnh báo lệch làn đường, cảnh báo va chạm và cảnh báo tình trạng ngủ gật.

Giới hạn đề tài

Đối với chức năng cảnh báo lệch làn và cảnh báo va chạm:

Video đầu vào được ghi lại từ camera hành trình của ô tô có kích thước khung hình 1280x720 Camera cần được lắp đặt chính giữa đầu xe 4 chỗ hoặc 5 chỗ, gần vuông góc với mặt đất Độ rộng làn đường tiêu chuẩn là 3,5m.

 Xử lý và chạy trên GPU của Colab Đối với chức năng cảnh báo tài xế ngủ gật:

 Đầu vào là từ các video theo dõi tài xế hoặc từ webcam máy tính

 Xử lý và chạy trên CPU của máy tính.

Bố cục quyển báo cáo

 Chương 1: Giới thiệu Trình bày bao quát về các nội dung của đề tài gồm giới thiệu, tình hình nghiên cứu, mục tiêu, giới hạn, bố cục

 Chương 2: Cơ sở lý thuyết Trình bày chi tiết tất cả lý thuyết áp dụng trong đề tài

Chương 3: Thiết kế hệ thống trình bày các yêu cầu thiết kế cần thiết, bao gồm sơ đồ khối và mô tả chi tiết từng bước thiết kế cho từng thành phần của hệ thống.

Chương 4: Kết quả thực hiện và đánh giá trình bày những thành tựu đạt được sau quá trình thực nghiệm, so sánh kết quả với các mục tiêu đã đề ra trước đó Bên cạnh đó, chương cũng chỉ ra những nhược điểm gặp phải trong quá trình thực nghiệm, từ đó rút ra bài học kinh nghiệm cho các nghiên cứu sau.

 Chương 5: Kết luận và hướng phát triển Đưa ra kết luận của đề tài và hướng phát triển để hoàn thiện đề tài.

CƠ SỞ LÝ THUYẾT

Multitask Learning

2.1.1 Khái niệm về Multitask Learning

Nhu cầu thực tiễn đã tạo ra yêu cầu về một thuật toán cho phép thực hiện nhiều nhiệm vụ đồng thời chỉ với một mạng nơ-ron duy nhất Mỗi nhiệm vụ sẽ hỗ trợ lẫn nhau trong quá trình dự báo, minh chứng cho khái niệm học đa nhiệm (Multitask Learning).

Trong lĩnh vực xe tự hành, việc nhận diện nhiều đối tượng khác nhau trong hình ảnh đầu vào là rất quan trọng Các đối tượng này bao gồm biển báo, vạch kẻ đường, người đi bộ, đèn giao thông và các loại phương tiện khác.

Trong lĩnh vực thời trang, việc phân loại sản phẩm theo các đặc tính như màu sắc (xanh, đỏ, tím, vàng, ), giới tính (nam, nữ), độ tuổi (người già, thanh niên, trẻ em) và mùa (trang phục mùa đông, mùa hạ, ) là rất quan trọng.

Chúng ta cần áp dụng Multitask Learning để thực hiện nhiều nhiệm vụ đồng thời, nhằm phân loại các đối tượng khác nhau trong cùng một ảnh đầu vào và xác định sự hiện diện của chúng trong ảnh.

2.1.2 Kiến trúc thuật toán Multitask Learning

Thông thường học đa nhiệm có hai giai đoạn:

Giai đoạn một của quá trình này liên quan đến việc trích xuất các đặc trưng từ hình ảnh đầu vào thông qua một mạng CNN Các đặc trưng đã được trích xuất sau đó sẽ được sử dụng để nhận diện các đối tượng trong giai đoạn hai.

Giai đoạn hai của quá trình phân loại diễn ra với việc thực hiện nhiều nhiệm vụ cùng lúc cho các đối tượng khác nhau như biển báo, vạch kẻ làn đường và phương tiện Như minh họa trong Hình 2.1, đầu vào cho việc phân loại nhị phân là các trích xuất đặc trưng từ giai đoạn một Đầu ra bao gồm các đơn vị đầu ra (Output units) hay còn gọi là multi head, với mỗi đơn vị tính toán khả năng xảy ra cho một loại nhãn hoặc nhiệm vụ phân loại nhị phân cụ thể.

Các vị đầu ra cung cấp thông tin chung cho các lớp phía trước, giúp các bài toán có nhiều nhiệm vụ có thể trao đổi thông tin lẫn nhau một cách hiệu quả.

Hình 2.1 Minh họa kiến trúc Multitask Learning

2.1.3 Lợi ích của Multitask Learning

Tiết kiệm tài nguyên tính toán bằng cách sử dụng một mô hình duy nhất có khả năng thực hiện và hỗ trợ nhiều nhiệm vụ khác nhau, thay vì phải huấn luyện một mô hình riêng cho mỗi nhiệm vụ.

Mô hình Multitask Learning cho thấy độ chính xác cao hơn so với việc huấn luyện từng mô hình riêng lẻ, nhờ vào sự hỗ trợ và chia sẻ thông tin giữa các nhiệm vụ Các đặc trưng được học từ những nhiệm vụ này sẽ cải thiện khả năng phân loại cho các nhiệm vụ khác.

2.1.4 Sử dụng Multitask Learning trong mạng nơ-ron

Chia sẻ thông số cứng (hard parameter sharing) là một phương pháp phổ biến trong mạng nơ-ron, hoạt động bằng cách chia sẻ các lớp ẩn giữa tất cả nhiệm vụ trong mạng Phương pháp này chỉ giữ lại thông tin khác nhau ở các lớp ngõ ra, như được mô tả trong Hình 2.2.

Chia sẻ tham số cứng giúp giảm thiểu hiện tượng overfitting, tức là khi mô hình quá khớp với dữ liệu đào tạo nhưng lại có độ chính xác thấp trên tập kiểm thử Việc này được thực hiện thông qua việc chia sẻ thông tin giữa các lớp ẩn.

Mô hình học sâu với 6 lớp giữa các nhiệm vụ khác nhau yêu cầu phải học các biểu diễn tổng thể phù hợp, giúp giảm thiểu hiện tượng overfitting trong từng nhiệm vụ cụ thể.

Soft Parameter Sharing, như được thể hiện trong Hình 2.3, cho thấy rằng mỗi nhiệm vụ sẽ có một mô hình và thông số riêng biệt Tuy nhiên, các thông số này sẽ được ràng buộc theo những chuẩn nhất định để đạt được độ tương đồng tối ưu giữa các nhiệm vụ.

Kiến trúc mạng HybridNets

HybridNets [24] là mạng đa tác vụ (Multitask Learning) được xuất bản từ bài báo

HybridNets là một mạng lưới nhận thức đầu cuối, bao gồm một bộ mã hóa chung và hai bộ giải mã riêng biệt, nhằm thực hiện các tác vụ khác nhau Mỗi cấp độ bản đồ đặc có độ phân giải riêng, giúp tối ưu hóa hiệu suất trong việc xử lý thông tin.

Trưng Pi đại diện cho cấp đặc trưng với độ phân giải 1/2 i của các hình ảnh đầu vào Chẳng hạn, nếu độ phân giải đầu vào là 640x384, thì P2 sẽ có độ phân giải là (160, 96) và P7 sẽ tương ứng với độ phân giải (5,3).

Hình 2.4 Kiến trúc mạng HybridNets

Hình 2.5 Kết quả mạng HybridNets

Kiến trúc HybridNets, như thể hiện trong Hình 2.4, bao gồm một bộ mã hóa với mạng xương sống (Backbone) và mạng cổ (Neck), cùng với hai bộ giải mã: đầu phát hiện (Detection Head) và đầu phân đoạn (Segmentation Head) Mạng xương sống tạo ra năm bản đồ đặc trưng từ P1 đến P5, và thông qua việc lấy mẫu xuống bản đồ đặc trưng P5, chúng ta có thể thu được hai bản đồ đặc trưng bổ sung là P6 và P7.

Kết quả suy luận của HybridNets, như thể hiện trong Hình 2.5, cho thấy khả năng thực hiện ba nhiệm vụ quan trọng: phát hiện phương tiện giao thông, phân đoạn khu vực có thể điều khiển và phân đoạn vạch kẻ làn đường.

Trong Hình 2.5, phần màu xanh lá biểu thị đường cho xe lưu thông, trong khi phần màu xanh dương là vạch kẻ làn đường Các ô chữ nhật màu cam đại diện cho phương tiện giao thông.

Sử dụng mạng EfficientNet làm mạng Backbone

Vào năm 2019, nhóm nghiên cứu Google Brain đã giới thiệu mô hình CNN mới mang tên EfficientNet, giúp cải thiện hiệu suất và độ chính xác bằng cách giảm FLOPS và số tham số tính toán so với các mô hình mạng phổ biến khác Bài báo này đã mang lại nhiều lợi ích đáng kể.

 Tạo ra sẵn kiến trúc mạng cơ sở đơn giản kích thước di động: EfficientNet-B0

Phương pháp Compound Scaling (mở rộng kết hợp) là một kỹ thuật quan trọng giúp tối ưu hóa độ chính xác của mô hình mạng bằng cách tăng kích thước một cách hợp lý Phương pháp này không chỉ cải thiện hiệu suất mà còn đảm bảo sự cân bằng giữa các yếu tố như chiều sâu, chiều rộng và độ phân giải của mô hình, từ đó mang lại kết quả tối ưu trong các tác vụ học máy.

2.3.2 Kiến trúc mạng cơ sở EfficientNet-B0

Trong bài báo về mô hình EfficientNet [12], tác giả cũng sử dụng Neural Architecture Search

Phương pháp tự động hóa thiết kế kiến trúc mạng neural đã được áp dụng để xây dựng mô hình EfficientNet-B0, như thể hiện trong Hình 2.6 Kiến trúc B0 này đạt độ chính xác 77.3% trên tập dữ liệu ImageNet, với chỉ 5.3 triệu tham số và 0.39 tỷ FLOPS, cho thấy hiệu quả vượt trội so với các mạng khác.

Hình 2.6 Kiến trúc mạng EfficientNet-B0

Khối MBConv là thành phần chính trong cấu trúc của EfficientNet-B0, với kết nối tắt giữa đầu vào và đầu ra Đầu vào có thể được mở rộng bằng lớp tích chập 1x1 để tăng độ sâu và số kênh của bản đồ đặc trưng Tiếp theo, lớp tích chập 3x3 và lớp tích chập điểm 1x1 được sử dụng để giảm số kênh ngõ ra Cấu trúc này giúp giảm thiểu số lượng phép toán và tham số, từ đó tăng tốc quá trình huấn luyện mạng.

2.3.3 Phương pháp mở rộng mô hình mạng nơ-ron

Việc mở rộng một trong ba kích thước của mạng nơ-ron—độ sâu, độ rộng và độ phân giải—đều có thể cải thiện độ chính xác của mô hình Tuy nhiên, với mô hình lớn, độ chính xác sẽ đạt tới mức bão hòa Do đó, để đạt được hiệu suất tối ưu và độ chính xác cao hơn, cần có sự cân bằng hợp lý giữa các kích thước này trong quá trình mở rộng mạng.

Hình 2.8 Mở rộng mô hình mạng nơ-ron

Nhóm tác giả Google Brain đã phát triển một kỹ thuật mở rộng mạng nơ-ron hiệu quả và đơn giản, sử dụng hệ số kết hợp để mở rộng mạng đồng thời theo ba hướng: độ sâu, độ rộng và độ phân giải, dựa trên công thức 2.1.

Trong công thức 𝑑 = 𝛼 ∅ , 𝑤 = 𝛽 ∅ , 𝑟 = 𝛾 ∅, các tham số 𝛼, 𝛽, 𝛾 đại diện cho việc phân bổ giá trị tài nguyên cho độ sâu (d), độ rộng (w) và độ phân giải (r) với điều kiện 𝛼 𝛽^2 𝛾^2 gần bằng 2 và các tham số này đều lớn hơn hoặc bằng 1 Hệ số kết hợp cố định 𝜃 kiểm soát tổng lượng tài nguyên có sẵn.

Sử dụng tìm kiếm ô lưới để xác định các tham số α, β, γ, với hệ số kết hợp 𝜃 được cố định từ 1 đến 7, tương ứng với mô hình lớn dần Kết hợp với công thức 2.1, ta có thể tìm ra bộ ba tham số này Các giá trị 𝜃 từ 1 đến 7 sẽ dẫn đến kết quả kiến trúc của các mạng EfficientNet-B1 đến EfficientNet-B7.

Hình 2.9 So sánh kết quả các mạng EfficientNet với mạng khác

Hình 2.9 so sánh các mạng EfficientNet sử dụng phương pháp mở rộng với các mạng tích chập phổ biến khác Các mô hình EfficientNet-B1 đến EfficientNet-B7 đạt độ chính xác tương đương với các mạng nơ-ron khác, nhưng lại có tổng số tham số và số FLOPs thấp hơn nhiều Đồng thời, kích thước của các mạng EfficientNet cũng nhỏ hơn so với các mạng khác.

Sử dụng mạng BiFPN làm mạng Neck

2.4.1 Mạng kim tự tháp đặc trưng hai hướng BiFPN

Các tác giả của BiFPN [12] đã chỉ ra rằng việc phát triển một máy dò đối tượng hiệu quả gặp phải thách thức lớn từ sự kết hợp đặc trưng đa tỉ lệ.

FPN đã trở thành mạng lưới mặc định nhờ vào khả năng kết hợp đặc trưng đa tỉ lệ Gần đây, các nghiên cứu như PANet và NAS-FPN đã phát triển cấu trúc mạng mới nhằm cải thiện việc kết hợp đặc trưng trên tỉ lệ lớn, như thể hiện trong Hình 2.10.

Hình 2.10 Các mạng trích xuất đặc trưng theo nhiều tỉ lệ FPN

FPN kết hợp các đặc trưng đa tỉ lệ bằng cách đưa vào các kết nối từ trên xuống và bên Đáng chú ý, trong quá trình kết hợp các đặc trưng khác nhau, FPN chỉ tổng hợp chúng mà không phân biệt.

Khoảng ba năm sau khi FPN được giới thiệu, PANet đã cải tiến bằng cách bổ sung đường dẫn từ dưới lên trên, khắc phục hạn chế của FPN về luồng thông tin một chiều Các tác giả của PANet đã nâng cao thứ hạng đặc trưng bằng cách chia sẻ thông tin từ các lớp trên cùng và tăng cường đường dẫn từ dưới lên Nhờ vào cải tiến này, PANet đã đạt vị trí thứ nhất trong nhiệm vụ phân đoạn đối tượng tại COCO 2017 Challenge và vị trí thứ hai trong nhiệm vụ phát hiện đối tượng mà không cần đào tạo nhiều.

Gần đây, các nhà nghiên cứu của Google đã áp dụng Neural Architecture Search để tự động hóa thiết kế kiến trúc mạng neural, với mục tiêu khám phá các kiến trúc kim tự tháp đặc trưng mới trong không gian tìm kiếm mở rộng, bao gồm tất cả các kết nối quy mô lớn Kiến trúc được phát hiện này được gọi là NAS.

FPN là một kiến trúc mạng kết hợp các kết nối từ trên xuống và từ dưới lên để tổng hợp các đặc trưng ở nhiều tỉ lệ khác nhau Mặc dù NAS-FPN mang lại hiệu suất vượt trội, nhưng nó yêu cầu hàng nghìn giờ GPU để tìm kiếm Để phát triển mạng BiFPN, các tác giả của bài báo EfficientDet đã đề xuất một số phương pháp tối ưu hóa hiệu quả.

Loại bỏ các nút chỉ có một cạnh đầu vào là cần thiết, vì chúng thường không có sự kết hợp đặc trưng, dẫn đến việc giảm đóng góp cho mạng đặc trưng.

Thêm một cạnh bổ sung từ đầu vào ban đầu vào nút đầu ra khi chúng ở cùng cấp độ giúp kết hợp nhiều tính năng hơn mà không tốn thêm chi phí.

 Xử lý mỗi đường dẫn hai chiều như một lớp duy nhất và có nhiều lớp trong số này để cho phép kết hợp đặc trưng cấp cao hơn

EfficientDets là một phương pháp phát hiện đối tượng mới được phát triển bằng cách kết hợp mạng xương sống EfficientNet với đặc trưng BiFPN Phương pháp này đạt được độ chính xác cao hơn trong khi sử dụng ít tham số và FLOP hơn so với các phương pháp phát hiện đối tượng trước đây.

Để xây dựng kiến trúc EfficientDet, các tác giả đã sử dụng EfficientNet được đào tạo trước trên ImageNet làm mạng xương sống, giúp trích xuất các đặc trưng từ P1 đến P7 Trong đó, Pi đại diện cho mức độ đặc trưng với độ phân giải 1/2 i của hình ảnh đầu vào Bi-FPN được áp dụng để chấp nhận các đặc trưng từ P3 đến P7, liên tục kết hợp đa tỉ lệ nhằm tạo ra biểu diễn đặc trưng đa tỉ lệ cho hình ảnh Cuối cùng, các đặc trưng này được đưa vào mạng dự đoán lớp và mạng dự đoán hộp, cho ra kết quả là lớp và hộp giới hạn.

Detection Head

2.5.1 Sử dụng Anchor Box để phát hiện đối tượng

Mô hình một giai đoạn (One stage) thực hiện đồng thời việc tìm kiếm bounding box và phân loại đối tượng, với một số mô hình tiêu biểu như SSD, Yolo và RetinaNet.

Các bản đồ đặc trưng từ mạng cổ (Neck Network) được phân chia thành các ô lưới SxS, trong đó trọng tâm của các đối tượng được xác định trong các ô lưới này.

Anchor box là công cụ dùng để phát hiện một hoặc nhiều đối tượng trong một ô lưới (grid cell) Đây là các hộp giới hạn được thiết lập trước, không phải là kết quả dự đoán từ mô hình Mỗi ô lưới sẽ tạo ra N (số nguyên dương) Anchor box với các kích thước khác nhau, và những Anchor box này được dự đoán sẽ chứa các đối tượng cần nhận diện.

Để xác định xem một Anchor box có chứa đối tượng hay không, ta tính toán chỉ số IoU giữa Anchor box và ground truth tương ứng Nếu giá trị IoU vượt quá ngưỡng đã định, điều đó có nghĩa là Anchor box đó chứa đối tượng.

Mỗi bounding box (hộp giới hạn) bao gồm năm thông số chính: tọa độ (x, y) xác định tâm của hộp, w là độ rộng, h là độ cao, và thông số độ tin cậy (confidence) thể hiện xác suất mà đối tượng nằm trong hộp đó.

Hình 2.13 minh họa dự đoán bounding box từ anchor box Anchor box, được thể hiện bằng khung chữ nhật màu đen nét đứt, có kích thước chiều rộng pw và chiều dài ph Tọa độ tâm của bounding box được xác định bởi các giá trị bx và by, trong khi độ rộng và độ dài của bounding box lần lượt là bw và bh.

Hình 2.13 Dự đoán bounding box

Segmentation Head

Đầu phân đoạn bao gồm ba lớp: nền, khu vực có thể lái được và vạch kẻ phân làn Mạng HybirdNets giữ năm cấp đặc trưng {P3, P4, P5, P6, P7} từ mạng cổ BiFPN đến nhánh phân đoạn, như thể hiện trong Hình 2.14 Đầu tiên, các mẫu từ mỗi cấp được lấy để tạo ra một bản đồ đặc trưng đầu ra đồng nhất với kích thước (𝑊).

Để cải thiện sự kết hợp đặc trưng, cấp 𝑃2 được áp dụng cho lớp tích chập, nhằm tạo ra các kênh bản đồ đặc trưng đồng nhất với các cấp khác Sau đó, các kênh này được kết hợp lại thông qua phép cộng, giúp nâng cao chất lượng của đặc trưng.

16 tất cả các cấp Cuối cùng, khôi phục đặc trưng đầu ra về kích thước (𝑊, 𝐻, 3), đại diện cho xác suất của mỗi lớp điểm ảnh thuộc về

HybridNets sử dụng tỉ lệ bản đồ đối tượng tại kích thước cấp độ 𝑃2, vì đây là bản đồ có ngữ nghĩa mạnh nhất nhờ độ phân giải cao nhất Hơn nữa, tác giả của HybridNets cung cấp bản đồ đặc trưng 𝑃2 từ mạng xương sống, đại diện cho các đặc trưng cấp thấp, để kết hợp vào đặc trưng cuối cùng, từ đó nâng cao độ chính xác của mạng.

Loss Function

Tác giả HybridNets đã áp dụng mất mát đa tác vụ để huấn luyện mạng, với công thức 2.2 thể hiện hàm tổng mất mát bằng cách tổng hợp hai phần.

Trong công thức 2.3, 𝛼 và 𝛽 là các tham số điều chỉnh giúp cân bằng tổng mất mát, trong đó Ldet đại diện cho mất mát trong nhiệm vụ phát hiện đối tượng, còn Lseg là mất mát trong nhiệm vụ phân đoạn.

Lclass và Lobj là các hàm mất mát quan trọng giúp phân loại lớp và đánh giá độ tin cậy của các đối tượng Suy hao tiêu điểm làm giảm độ dốc của hàm mất mát, tập trung vào các trường hợp phân loại sai Lbox được tính bằng suy hao L1, nằm giữa hộp dự đoán và hộp chân lý nền, có thể được thể hiện qua các công thức 2.4 và 2.5.

Trong đó, 𝑏̂ đại diện cho dự đoán của hộp giới hạn, còn b là giá trị chân thực Nhãn dương bp được gán cho một ô lưới, giúp điều chỉnh kích thước của một số hộp neo để mạng hồi quy có thể học hiệu quả hơn Công thức để xác định bp được trình bày trong công thức 2.6.

Trong đó, ci đại diện cho hộp neo thứ i, tổng số hộp neo được tính bằng cách kết hợp từng cấp bản đồ đối tượng với nk Giá trị mk biểu thị độ phân giải của bản đồ đối tượng và tổng số hộp giới hạn chân lý nền cho mỗi hình ảnh đầu vào.

Giải thuật Facial Landmark

2.8.1 Giới thiệu về Facial Landmark

Nhận diện điểm mốc trên khuôn mặt là một nhiệm vụ trong lĩnh vực thị giác máy tính, nơi mà các thuật toán cần xác định các điểm quan trọng như mắt, mũi, và miệng trên khuôn mặt con người Nhiệm vụ này không chỉ là cơ sở cho nhiều ứng dụng khác trong thị giác máy tính mà còn hỗ trợ các tác vụ như ước lượng tư thế đầu, xác định hướng nhìn, phát hiện cử chỉ khuôn mặt và thực hiện hoán đổi khuôn mặt.

Việc xác định Facial Landmark bao gồm hai bước chính: đầu tiên là xác định vị trí của khuôn mặt trong khung hình, sau đó là nhận diện các điểm quan trọng tạo nên cấu trúc của khuôn mặt.

Trong nghiên cứu này, nhóm chúng tôi đã áp dụng thuật toán Haar-Cascade để xác định khuôn mặt Sau khi xác định vị trí khuôn mặt, chúng tôi tiếp tục phát hiện các điểm cấu trúc quan trọng trên khuôn mặt.

Chúng tôi sử dụng bộ phát hiện các điểm mốc trên khuôn mặt Dlib để xác định 18 điểm cấu trúc chính của mặt Sau khi phát hiện khuôn mặt, hệ thống sẽ tiến hành dò tìm các điểm đặc trưng trên khuôn mặt đó.

2.8.2 Giới thiệu bộ phát hiện 68 điểm mốc trên khuôn mặt của Dlib

Dlib là một phần mềm nhận diện khuôn mặt sử dụng các mô hình đã được đào tạo trước Bộ phát hiện khuôn mặt của Dlib dựa trên thuật toán được mô tả trong tài liệu nghiên cứu Phần mềm này có khả năng ước lượng vị trí của 68 tọa độ (x, y) trên khuôn mặt, như minh họa trong hình ảnh bên dưới.

Hình 2.15: 68 điểm toạ độ trên khuôn mặt

Giải thuật Adaboost

2.9.1 Đặc trưng Haar-Like Đặc trưng này gồm 4 đặc trưng cơ bản để xác định một khuôn mặt người Sự kết hợp giữa hai hay ba hình chữ nhật trắng hay đen tạo nên mỗi đặc trưng Haar-Like [14] Để sử dụng các đặc trưng này vào việc xác định khuôn mặt người, 4 đặc trưng cơ bản được mở rộng ra và được chia làm 3 tập đặc trưng như sau:

● Đặc trưng cạnh, được thể hiện qua Hình 2.16

● Đặc trưng đường, như thể hiện qua Hình 2.17

● Đặc trưng xung quanh tâm, được thể hiện qua Hình 2.18

Sự chênh lệch giữa tổng của các pixel của vùng đen và vùng trắng là giá trị của các đặc trưng Haar Like được tính bằng công thức 2.7 f(x) = ∑ 𝑣ù𝑛𝑔 đ𝑒𝑛 (𝑝𝑖𝑥𝑒𝑙) - ∑ 𝑣ù𝑛𝑔 𝑡𝑟ắ𝑛𝑔 (𝑝𝑖𝑥𝑒𝑙) (2.7)

Integral Image là một kỹ thuật trong xử lý hình ảnh, trong đó mỗi pixel đại diện cho tổng tích lũy của pixel đầu vào cùng với tất cả các pixel nằm ở phía trên và bên trái Phương pháp này cho phép tính toán nhanh chóng các tổng kết qua các vùng phụ của hình ảnh, giúp đánh giá bất kỳ tập con hình chữ nhật nào trong thời gian không đổi Công thức 2.8 được sử dụng để tính toán Integral Image.

Sau khi tính toán Integral Image, chúng ta có thể dễ dàng tính tổng giá trị mức xám của một vùng ngẫu nhiên Để tính tổng giá trị mức xám cho vùng D, dựa vào các tọa độ được chỉ ra trong các phép tính 2.9, 2.10, 2.11 và 2.12, chúng ta có thể áp dụng phép tính 2.13 để xác định giá trị này.

AdaBoost là một thuật toán tổng hợp phân loại thống kê được giới thiệu bởi Yoav Freund và Robert Schapire vào năm 1995 Phương pháp này tạo ra một bộ phân loại mạnh mẽ từ các bộ phân loại yếu bằng cách phân loại các đặc trưng tốt và kết hợp chúng theo cách tuyến tính với trọng số Sơ đồ cơ bản của Adaboost được minh họa trong Hình 2.20.

Từ sơ đồ Hình 2.21, hệ thống phân chia ảnh gốc thành nhiều đặc trưng với tỷ lệ khác nhau nhằm tính toán các đặc trưng này, dẫn đến việc tạo ra một số lượng lớn đặc trưng.

Chúng tôi sử dụng Adaboost để lựa chọn các đặc trưng tiềm năng của khuôn mặt, điều chỉnh các thông số để chuyển đổi vùng có trọng số yếu thành trọng số mạnh Cuối cùng, các đặc trưng đã được chọn sẽ được đưa qua bộ phân loại Haar Cascade để xác định các đặc trưng khuôn mặt và đưa ra kết quả cuối cùng.

Hình 2.20: Sơ đồ cơ bản về Adaboost

THIẾT KẾ HỆ THỐNG

Yêu cầu thiết kế

Hệ thống được thiết kế với những yêu cầu sau:

• Hệ thống chạy trên các công cụ phần mềm

• Nhận diện các phương tiện giao thông

• Nhận diện cử động mắt của tài xế

• Xác định được vị trí của xe bên trong làn đường đang đi

• Xác định được khoảng cách đến xe phía trước cùng làn đường

• Cảnh báo lệch làn đường mà tài xế đang chạy

• Cảnh báo va chạm với phương tiện phía trước cùng làn đường

• Phát hiện và cảnh báo tài xế ngủ gật.

Sơ đồ khối tổng thể hệ thống

Hệ thống được thiết kế với ba chức năng chính: cảnh báo lệch làn đường, cảnh báo va chạm và cảnh báo ngủ gật, như được thể hiện trong sơ đồ khối ở Hình 3.1.

Hình 3.1 Sơ đồ khối tổng thể hệ thống

Chức năng cảnh báo lệch làn đường giúp xác định vị trí xe so với làn đường, và sẽ cảnh báo nếu xe lệch khỏi tâm làn đường vượt quá ngưỡng cho phép Đồng thời, chức năng cảnh báo va chạm ước lượng vị trí của xe phía trước trong cùng làn, từ đó đưa ra cảnh báo kịp thời.

Chức năng cảnh báo ngủ gật giúp nhận diện tình trạng của tài xế thông qua mắt và miệng Khi tỷ lệ mở mắt hoặc miệng vượt quá ngưỡng quy định, hệ thống sẽ đưa ra tín hiệu cảnh báo Điều này giúp nâng cao an toàn khi lái xe, đặc biệt khi xe phía trước đang ở khoảng cách gần.

Thiết kế hệ thống cảnh báo lệch làn và va chạm

3.3.1 Thiết kế hệ thống đa tác vụ

3.3.1.1 Lựa chọn mạng đa tác vụ

Dựa vào kết quả đánh giá từ các bài báo vể mạng đa tác vụ như: HybridNets [24], YOLOP

Nhóm sẽ tổng hợp và trình bày các số liệu để so sánh 4 mạng đa tác vụ, bao gồm MultiNet, DLT-Net và các mạng khác, trong các nhiệm vụ cụ thể như phát hiện phương tiện giao thông, phân đoạn khu vực có thể lái và phát hiện hoặc phân đoạn vạch kẻ làn đường.

Bảng 3.1 So sánh các mạng đa tác vụ cho nhiệm vụ phát hiện phương tiện giao thông

Các mô hình được đánh giá trên tập dữ liệu BDD100K, và kết quả cho thấy HybridNets vượt trội hơn MultiNet và DLT-Net về chỉ số mAP50, đồng thời nhỉnh hơn YOLOP về tỷ lệ phát hiện đối tượng (Recall) và mAP50 Điều này cho thấy HybridNets có khả năng phát hiện các đối tượng cực kỳ nhỏ trong nhiều điều kiện thời tiết khác nhau.

Nhóm đã tiến hành so sánh nhiệm vụ phân đoạn khu vực có thể lái được, sử dụng chỉ số IoU (Intersection over Union) để đánh giá hiệu suất phân đoạn của các mạng đa tác vụ Kết quả được trình bày trong Bảng 3.2.

Từ Bảng 3.2 ta nhận thấy rằng mIoU của HybidNets (90.5%) vượt trội hơn MultiNet và DLT-Net, thấp hơn một chút so với YOLOP (91.5%)

Bảng 3.2 So sánh các mạng đa tác vụ cho nhiệm vụ phân đoạn khu vực có thể lái

Nhóm nghiên cứu đã so sánh hiệu suất của các mạng đa tác vụ trong việc phát hiện và phân đoạn vạch kẻ đường, tập trung vào HybridNets và YOLOP, vì MultiNet không thực hiện nhiệm vụ này và DLT-Net không có thông số đánh giá cho nhiệm vụ tương tự Kết quả so sánh được thể hiện rõ trong Bảng 3.3.

Bảng 3.3 So sánh các mạng đa tác vụ cho nhiệm vụ nhận diện làn đường

Độ chính xác của HybridNets vượt trội hơn YOLOP, đặc biệt trong việc nhận diện làn đường dưới các điều kiện thời tiết khác nhau như mưa, gió và thiếu ánh sáng.

Dựa trên ba bảng so sánh, nhóm nhận thấy HybridNets đạt giá trị tốt nhất trong việc phát hiện phương tiện và nhận diện làn đường Mặc dù giá trị đánh giá cho nhiệm vụ phân đoạn khu vực có thể lái không phải là cao nhất, nhưng vẫn ở mức cao Vì vậy, nhóm đã quyết định chọn model HybridNets cho ứng dụng trong đề tài.

3.3.1.2 Kiến trúc mạng đa tác vụ HybridNets

The HybridNets architecture consists of an encoder, which includes a Backbone network and a Neck network, along with two decoders: the Detection Head and the Segmentation Head, as illustrated in Figure 3.2.

Hình 3.2 Kiến trúc mạng HybridNets

Backbone sử dụng mạng EfficientNet-B3 để trích xuất đặc trưng từ ảnh đầu vào, chia thành các cấp bản đồ đặc trưng Pi với độ phân giải tương ứng là 1/2 i của hình ảnh đầu vào Chẳng hạn, với độ phân giải đầu vào 640x384, P2 có độ phân giải (160, 96) và P7 có độ phân giải (5, 3) Các bản đồ đặc trưng này sau đó sẽ được chuyển đến mạng Neck.

Neck sử dụng mạng BiFPN để chuyển đổi dữ liệu thô từ backbone thành các đặc trưng tốt hơn cho ảnh đầu vào BiFPN kết hợp các đặc trưng ở nhiều độ phân giải khác nhau thông qua kết nối tỷ lệ chéo, cho phép truyền tải thông tin theo cả hai chiều mà không bị mất mát thông tin như mạng kim tự tháp 1 chiều Mỗi ô lưới trong bản đồ đặc trưng đa tỷ lệ từ mạng Neck được gán 9 anchors với các tỷ lệ khung hình khác nhau, sau đó được chuyển đến phần decoder bao gồm Detection Head và Segmentation Head.

Detection Head sử dụng hộp neo (Anchor boxes) để phát hiện đối tượng, cho phép tạo ra nhiều mức bản đồ đối tượng trên ảnh đầu vào Bằng cách áp dụng hằng số tỷ lệ, các hộp giới hạn được tạo ra để bao gồm tất cả các vùng từ nhỏ đến lớn Detection Head sẽ dự đoán độ lệch của các hộp này để cải thiện độ chính xác trong việc phát hiện đối tượng.

Trong bài viết này, chúng tôi sẽ khám phá 26 ô giới hạn và xác suất tương ứng của từng lớp, cùng với độ tin cậy của các ô dự đoán cho mỗi Anchor box, mỗi box đều có trung tâm, chiều rộng và chiều cao cụ thể Phần Segmentation Head đã được trình bày chi tiết trong mục 2.6.

3.3.2 Hệ thống cảnh báo lệch làn Đối với hệ thống cảnh báo lệch làn đường nhóm khảo sát được độ rộng tiêu chuẩn làn đường là 3.5m và độ rộng trung bình của xe ô tô 4 chỗ hoặc 5 chỗ là 1.8m từ đó nhóm tính toán và suy ra được nếu độ lệch của tâm video (center_frame) so với tâm làn đường (center_lane) nhỏ hơn -0.85m thì đang lệch trái và lớn hơn 0.85m thì đang lệch phải

Sơ đồ các bước thực hiện chức năng cảnh báo lệch làn đường được thể hiện như Hình 3.3

Hình 3.3 Sơ đồ chức năng cảnh báo lệch làn

Cụ thể từng bước sẽ được trình bày như sau:

 Frame video: là video đầu vào gồm nhiều frame với kích thước cố định 1280x720 như Hình 3.4

Model HybridNets xử lý các khung hình video đầu vào để tạo ra các khung hình đầu ra với màu sắc tương ứng cho từng tác vụ Cụ thể, như thể hiện trong Hình 3.5, các khung hình màu cam được sử dụng để phát hiện phương tiện giao thông, màu xanh lá để phân đoạn khu vực có thể lái, và màu xanh dương để phân đoạn vạch kẻ làn đường.

Lọc nhị phân làn đường sử dụng các phương pháp xử lý ảnh để xác định phần làn đường trong hình ảnh, với kết quả được thể hiện ở dạng nhị phân như trong Hình 3.6.

Hình 3.4 Frame video đầu vào

Hình 3.5 Frame ngõ ra của model HybridNets

Hình 3.6 Frame nhị phân làn đường

Để xác định pixel trái (left_px) và pixel phải (right_px) của làn đường, cần áp dụng các phương pháp xử lý ảnh như đã trình bày trong Hình 3.6.

Thiết kế hệ thống cảnh báo ngủ gật

3.4.1 Các phương pháp cảnh báo ngủ gật

Có nhiều phương pháp được khảo sát để giải quyếtivấn đề này, có thể chia thành 3 nhóm chính:

Phương pháp dựa vào phương tiện theo dõi liên tục các dấu hiệu lệch làn của tài xế như chuyển động vô lăng và áp lực lên bàn đạp Khi phát hiện bất thường vượt ngưỡng cho phép, hệ thống sẽ cảnh báo tài xế Tuy nhiên, nhược điểm của phương pháp này là nó không hoạt động khi tài xế ngủ gật mặc dù xe vẫn di chuyển đúng làn đường.

Phương pháp dựa vào sinh lý theo dõi tình trạng ngủ gật của tài xế thông qua sóng điện não, tần suất nhịp tim và xung nhịp máu, sử dụng kỹ thuật như điện tâm đồ và điện não đồ Tuy nhiên, nhược điểm của phương pháp này là sự bất tiện khi tài xế phải gắn các cảm biến.

Trong quá trình lái xe, việc có 31 điện trong cơ thể và sử dụng mũ EEG (Electroencephalogram) có thể gây khó chịu cho tài xế Điều này không chỉ ảnh hưởng đến cảm giác thoải mái mà còn làm giảm chất lượng của các cảm biến điện khi tài xế đổ mồ hôi.

Phương pháp dựa vào hành vi giám sát tài xế có biểu hiện buồn ngủ thông qua camera Hệ thống sẽ theo dõi các dấu hiệu như nhắm mắt và ngáp, và gửi tín hiệu cảnh báo đến người lái khi phát hiện những biểu hiện này.

Nhóm nghiên cứu đã chọn phương pháp dựa vào hành vi của tài xế để cảnh báo ngủ gật, so sánh độ chính xác của các phương pháp nhận diện và phát hiện đối tượng hiện có Các phương pháp được so sánh bao gồm Adaboost kết hợp với trích xuất đặc trưng Haar Like, Adaboost với đặc trưng LBP (Mẫu nhị phân cục bộ) và bộ phân loại SVM kết hợp với đặc trưng HOG, nhằm xác định phương pháp tối ưu nhất cho chức năng phát hiện khuôn mặt trên các tập datasheet có sẵn.

Phương pháp kết hợp toán Adaboost với trích xuất đặc trưng Haar Like cho thấy hiệu quả vượt trội hơn so với các phương pháp khác, như được chỉ ra trong Bảng 3.4.

Kết luận, phương pháp nhận dạng sử dụng các đặc trưng Haar-like kết hợp với thuật toán AdaBoost là lựa chọn tối ưu cho chức năng này Phương pháp này không chỉ đơn giản mà còn mang lại hiệu quả phát hiện cao và có khả năng thực thi trong thời gian thực.

Bảng 3.4 So sánh độ chính xác giữa các phương pháp

Hệ thống cảnh báo ngủ gật được thiết kế phải đáp ứng các yêu cầu sau:

● Nhận diện được khuôn mặt tài xế

● Nhận diện mắt/miệng và đánh giá tỷ lệ mắt/miệng

● Nhận diện và cảnh báo chính xác trong điều kiện ánh sáng, khoảng cách, góc độ từ camera đến mặt tài xế

● Phát tín hiệu cảnh báo kịp thời đến tài xế

3.4.2 Sơ đồ khối hệ thống cảnh báo ngủ gật

Dựa trên yêu cầu thiết kế, nhóm đã xây dựng một sơ đồ khối hệ thống nhằm đáp ứng các yêu cầu đã nêu Sơ đồ đề xuất này được thể hiện trong Hình 3.9.

Hình 3.9: Sơ đồ hệ thống cảnh báo ngủ gật

Hệ thống cảnh báo ngủ gật sử dụng camera để theo dõi khuôn mặt tài xế, tập trung vào việc trích xuất vùng mắt và miệng Khi tỷ lệ giữa hai vùng này vượt quá ngưỡng cho phép, hệ thống sẽ phát tín hiệu cảnh báo đến tài xế Tín hiệu cảnh báo sẽ ngừng khi tài xế có dấu hiệu tỉnh táo, đảm bảo an toàn cho người lái xe.

Quy trình chúng tôi thực hiện mỗi khối ở sơ đồ hệ thống cảnh báo ngủ gật sẽ được trình bày dưới đây:

3.4.2.1 Ảnh từ Camera Để thu được hình ảnh khuôn mặt, ta dùng thư viện imutils của thư viện mã nguồn mở OpenCV để thu được các frame ảnh cho việc xử lý Dữ liệu khuôn mặt được lấy qua webcam của máy tính

3.4.2.2 Tiền xử lý Ở bước này, nhiệm vụ chính là xử lý video được lấy từ webcam máy tính Để chuẩn bị cho việc trích xuất các đặc trưng Haar Like ở bước tiếp theo, bước này thực hiện rất đơn giản Các ảnh đầu vào yêu cầu phải ở dạng ảnh mức xám, nên ở bước này tất cả ảnh đầu vào là ảnh màu sẽ được chuyển về ở dạng mức xám

3.4.2.3 Nhận diện khuôn mặt Ở khối này, xử lý video đầu vào từ webcam, chúng ta sử dụng giải thuật Haar Cascade kết hợp cùng thuật toán Adaboost để thực hiện nhận diện khuôn mặt

Haar cascade là một thuật toán hiệu quả trong việc phát hiện đối tượng trong ảnh, không phụ thuộc vào tỷ lệ và vị trí của chúng Thuật toán này có độ phức tạp thấp và có khả năng hoạt động trong thời gian thực.

Mô hình Haar Cascade được thiết kế nhằm rút ngắn thời gian xử lý, với cấu trúc cây phân tầng như Hình 3.10 Để một đối tượng được phát hiện, nó cần phải vượt qua từng tầng một cách tuần tự.

Hình 3.10: Mô hình Haar Cascade

Các bước triển khai thuật toán Adaboost [4] được thực hiện như sau:

1 Cho một tập gồm n mẫu có đánh nhãn (x1, y1), (x2, y2), … (xn, yn),

Trong đó: xk ∈ (xk1, xk2, …, xkm) là vector đặc trưng yk ∈ (-1, 1) là nhãn của mẫu (1 tương ứng đối tượng, -1 tương ứng với nền)

2 Thực hiện tạo trọng số ban đầu: w 1,k = 1

Trong đó: m là số mẫu đúng, l là số mẫu sai

3 Xây dựng T tập phân loa ̣i yếu: Lặp t = 1, …, T

 Mỗi vectơ đặc trưng trong tập đặc trưng, xây dựng một phân loại yếu h j với ngưỡng θj và lỗi εj ε j = ∑ w n k t,k |h j (x k ) − y k | (3.2)

 Chọn hj, εj nhỏ nhất, ta được ht: h t ∶ X → {1, −1}

2ln ( 1 −ε j ε j ) (3.4) zt: Hệ số dùng để đưa wt+1 về đoạn [0,1]

3.4.2.4 Đánh dấu cấu trúc khuôn mặt dùng giải thuật Facial Landmark Ở khối này, nhiệm vụ của Facial Landmark là đánh dấu các dấu mốc đại diện trên khuôn mặt Đây là một bước tiền đề để thực hiện các theo dõi các tác vụ khác về thị giác máy tính, bao gồm ước tính tư thế của đầu, xác định hướng nhìn của mắt, phát hiện cử chỉ khuôn mặt, Quy trình chung để phát hiện các điểm mốc trên khuôn mặt bao gồm 2 bước:

KẾT QUẢ THỰC HIỆN VÀ ĐÁNH GIÁ

Các phương pháp đánh giá kết quả

Trong 3 chức năng cảnh báo gồm: cảnh báo lệch làn đường, cảnh báo va chạm, cảnh báo ngủ gật Nhóm sẽ sử dụng thông số đánh giá là Accuracy (độ chính xác) với đầu vào là các video và webcam, cách tính Accuracy sẽ được thể hiện như công thức 4.1

Để đánh giá chức năng cảnh báo lệch làn đường, TP (True Positive) là số frame cảnh báo đúng khi xe lệch làn, hiển thị dòng chữ cảnh báo màu đỏ TN (True Negative) là các frame khi xe di chuyển đúng làn mà không có cảnh báo Tổng số mẫu là tổng số frame trong video đầu vào Đối với chức năng cảnh báo va chạm, TP là các frame cảnh báo đúng khi phương tiện phía trước cùng làn đang ở gần, hiển thị cảnh báo màu đỏ, trong khi TN là các frame khi phương tiện ở xa mà không có cảnh báo Tổng số mẫu cũng là tổng số frame trong video đầu vào Cuối cùng, chức năng cảnh báo ngủ gật xác định TP là số lần hệ thống nhận diện đúng người lái ngủ gật, còn TN là số lần không ngủ gật mà hệ thống không cảnh báo Tổng số mẫu là tổng số lần thực nghiệm với video và webcam.

Đánh giá kết quả từng nhiệm vụ

4.4.1 Kết quả nhiệm vụ cảnh báo lệch làn đường

Kết quả lệch làn đường hiển thị vị trí xe so với làn đường hiện tại tính bằng centimet Nếu vị trí xe nhỏ hơn -85cm, sẽ có cảnh báo “Lech Trai” và nếu lớn hơn 85cm, cảnh báo “Lech Phai” sẽ xuất hiện Khi vị trí xe nằm trong khoảng từ -85cm đến 85cm, xe được xác định là đang đi đúng làn Các kết quả này được minh họa qua các hình ảnh 4.1, 4.2, 4.3 và 4.4.

Hình 4.1 Lệch làn ban ngày bên trái

Hình 4.2 Lệch làn ban ngày bên phải

Hình 4.3 Lệch làn ban đêm bên trái

Hình 4.4 Lệch làn ban đêm bên phải

Hệ thống cảnh báo lệch làn đường đạt độ chính xác cao 93% cả ban ngày lẫn ban đêm, tuy nhiên, một số trường hợp sai sót xảy ra ở các đoạn ngã 3, ngã 4 do không có vạch kẻ làn hoặc vạch kẻ bị mờ do đường xuống cấp và thời tiết xấu, dẫn đến việc nhận diện làn đường không chính xác và cảnh báo sai vị trí xe.

Bảng 4.1a Kết quả quả cảnh báo lệch làn đường sử dụng mạng HybridNets

Tổng số frame (Total sample)

Frame cảnh báo đúng (TP)

Frame không cảnh báo (TN)

Frame sai Độ chính xác (%)

So sánh kết quả cảnh báo lệch làn của HybridNets và YOLOP

Trong số các mạng đa tác vụ, YOLOP nổi bật với sự tương đồng nhất với HybridNets, cho phép so sánh trực quan và rõ ràng hơn về nhiệm vụ và thông số đánh giá Cụ thể, trong việc phát hiện làn đường và cảnh báo lệch làn, kết quả so sánh giữa mạng YOLOP và HybridNets được trình bày trong bảng 4.1b.

Bảng 4.1b So sánh kết quả cảnh báo lệch làn đường sử dụng mạng YOLOP và HybridNets

Accuracy Video ban ngày Video ban đêm

Theo bảng 4.1b, HybridNets đạt độ chính xác 93% với cùng một video đầu vào, vượt trội hơn so với YOLOP, chỉ đạt 83% và 81% trong nhiều điều kiện thời tiết và ánh sáng khác nhau.

Từ bảng 4.1a, một số trường hợp nhận diện sai (Frame sai) làn đường khi sử dụng mạng HybridNets như được thể hiện trong hình 4.5, hình 4.6 và hình 4.7

Hình 4.5 Vạch mũi tên trên làn đường

Hình 4.5 minh họa sự nhầm lẫn của mô hình trong việc nhận diện vạch kẻ mũi tên trên làn đường, dẫn đến việc xác định sai vị trí của xe.

Hình 4.6 Đoạn đường ngã tư

Hình 4.6 cho thấy rằng tại các đoạn đường giao nhau như ngã 3 và ngã 4, các vạch kẻ đường nằm ngang có thể khiến mô hình nhận diện sai làn đường, dẫn đến việc không xác định chính xác vị trí của xe hoặc cảnh báo không đúng.

Hình 4.7 Vạch kẻ đường bị mờ

Hình 4.7 cho thấy các đoạn đường có vạch kẻ bị mờ do tình trạng xuống cấp hoặc thời tiết xấu, dẫn đến việc mô hình nhận diện nhầm rằng không có vạch kẻ đường màu xanh dương, từ đó không xác định được vị trí xe hoặc cảnh báo sai.

4.4.2 Kết quả nhiệm vụ cảnh báo va chạm

Kết quả cảnh báo va chạm hiển thị dòng chữ màu đỏ “PHÍA TRƯỚC”, nhằm cảnh báo tài xế về sự hiện diện của phương tiện đang rất gần trong cùng làn đường, như thể hiện trong Hình 4.8 và Hình 4.9.

Hệ thống cảnh báo va chạm đạt độ chính xác 100% trong cả điều kiện ban ngày và ban đêm khi phát hiện các phương tiện phía trước cùng làn, sử dụng mạng HybridNets để đưa ra cảnh báo.

Hình 4.8 Cảnh báo va chạm ban ngày

Hình 4.9 Cảnh báo va chạm ban đêm

Bảng 4.2a Kết quả cảnh báo va chạm sử dụng mạng HybridNets

Tổng số frame (Total sample)

Frame cảnh báo đúng (TP)

Frame không cảnh báo (TN)

Frame sai Độ chính xác (%)

So sánh kết quả cảnh báo va chạm của HybridNets và YOLOP

Trong số các mạng đa tác vụ, YOLOP là mạng có sự tương đồng nhất với HybridNets về nhiệm vụ và thông số đánh giá, giúp việc so sánh trở nên rõ ràng hơn Cụ thể, trong nhiệm vụ phát hiện phương tiện giao thông và cảnh báo va chạm, kết quả so sánh giữa mạng YOLOP và HybridNets được thể hiện trong bảng 4.2b.

Bảng 4.2b So sánh kết quả cảnh báo va chạm sử dụng mạng YOLOP và HybridNets

Video ban ngày Video ban đêm

Bảng 4.2b cho thấy rằng cả hai mạng YOLOP và HybridNets đều đạt độ chính xác 100% trong việc cảnh báo va chạm khi sử dụng cùng một video đầu vào, bất chấp điều kiện thời tiết và ánh sáng khác nhau Sự gần gũi của các phương tiện trong cùng làn đường giúp việc phát hiện trở nên dễ dàng hơn, nhờ vào kích thước lớn và độ rõ nét cao của các phương tiện, từ đó dẫn đến cảnh báo chính xác hơn.

4.4.3.Kết quả của hệ thống cảnh báo ngủ gật

● Thực nghiệm góc độ camera so với khuôn mặt

Kết quả thực nghiệm nhận diện cho thấy hệ thống chỉ có thể chính xác trong việc nhận diện mắt và miệng khi góc mặt không vượt quá 30 độ so với camera Thực nghiệm này được trình bày trong Bảng 4.3, và các hình ảnh mô tả kết quả có thể xem trong Hình 4.10 và Hình 4.11 Do đó, chúng tôi quyết định lắp đặt camera trực diện vào khuôn mặt tài xế, như được minh họa trong Hình 4.12.

Hình 4.10 Nhận diện khuôn mặt gốc 30 độ sang trái

Hình 4.11 Nhận diện khuôn mặt gốc 30 độ sang phải

Hình 4.12 Vị trí lắp đặt camera

Bảng 4.3 Kết quả thực nghiệm góc độ

Hướng khuôn mặt so với camera

Số lần ngủ gật nhận diện đúng (TP)

Số lần không nhận diện được mắt, miệng

Số lần không ngủ gật và không cảnh báo (TN) Độ chính xác (%)

● Thực nghiệm trong điều kiện ánh sáng đầy đủ

Hệ thống phát hiện tài xế nhắm mắt và ngáp đã chỉ ra rằng vùng mắt và miệng của đối tượng được đánh dấu rõ ràng, với tỷ lệ hiển thị trên màn hình Khi phát hiện trạng thái ngủ gật, hệ thống thông báo bằng dòng chữ “ARE YOU SLEEPY” và phát cảnh báo đến tài xế Trong điều kiện ánh sáng đầy đủ, hệ thống hoạt động với độ chính xác 100%, nhận diện khuôn mặt một cách chính xác, như thể hiện trong kết quả thực nghiệm ở Bảng 4.4.

Bảng 4.4 Thực nghiệm trong môi trường có ánh sáng đầy đủ

Số lần ngủ gật mà không cảnh báo

Hình 4.13: Cảnh báo ngủ gật khi nhắm mắt ở môi trường ánh sáng đầy đủ

Hình 4.14: Cảnh báo ngủ gật khi ngáp ở môi trường ánh sáng đầy đủ

● Thực nghiệm trong điều kiện môi trường ngược sáng

Kết quả cho thấy hệ thống không phát hiện được khuôn mặt, dẫn đến việc không theo dõi được trạng thái mắt và miệng, như thể hiện ở Hình 4.15 Trong điều kiện ngược sáng, hệ thống hoạt động với tỷ lệ 0%, theo Bảng 4.5 Tuy nhiên, trong thực tế, camera được lắp đặt trong ô tô với ánh sáng bên ngoài hạn chế, do đó vấn đề ngược sáng không xảy ra.

Hình 4.15: Thực nghiệm trong môi trường ngược sáng Bảng 4.5 Thực nghiệm trong môi trường ngược sáng

Số lần không nhận diện được măt, miệng

Trong điều kiện ánh sáng kém vào ban đêm, hệ thống nhận diện khuôn mặt tài xế hoạt động hiệu quả hơn khi đèn ô tô được bật Kết quả thực nghiệm cho thấy hệ thống đạt độ chính xác 100% trong môi trường thiếu sáng, như thể hiện qua các hình ảnh (Hình 4.16, Hình 4.17) và bảng số liệu (Bảng 4.6).

Hình 4.16: Cảnh báo ngủ gật khi nhắm mắt ở điều kiện thiếu sáng

Hình 4.17 Cảnh báo ngủ gật khi ngáp ở điều kiện thiếu sáng

Bảng 4.6 Thực nghiệm trong môi trường thiếu sáng

Số lần ngủ gật mà không cảnh báo

Tiêu đề	Ứng Dụng Thị Giác Máy Tính Vào Hệ Thống Lái Xe Tiên Tiến Adas
Tác giả	Nguyễn Anh Vũ, Võ Văn Quý
Người hướng dẫn	TS. Trần Vũ Hoàng
Trường học	Trường Đại Học Sư Phạm Kỹ Thuật Thành Phố Hồ Chí Minh
Chuyên ngành	Công Nghệ Kỹ Thuật Máy Tính
Thể loại	Đồ án tốt nghiệp
Năm xuất bản	2022
Thành phố	Tp. Hồ Chí Minh

Định dạng
Số trang	76
Dung lượng	7,17 MB