đồ án nâng cao hiệu suất phát hiện đối tượng trên bộ dữ liệu không ảnh chứa sương mờ

Động lực nghiên cứu Ngày nay, với sự phát triển nhanh chóng của Deep Learning trong lĩnh vực phát hiện đối tượng, con người đã sở hữu những ứng dụng hữu ích được sử dụng rộng rãi trong

CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 7 2.1 Giới thiệu tổng quan

Thị giác máy tính

Thị giác máy tính (Computer Vision) là một trong những lĩnh vực nổi bật của Deep Learning, tập trung vào tái tạo và mô phỏng hệ thống thị giác của con người Lĩnh vực này cho phép máy tính nhận diện, phân tích và xử lý các đối tượng trong hình ảnh và video, từ việc nhận diện khuôn mặt và vật thể đến phân loại, theo dõi và hiểu nội dung thị giác Nhờ đó, ứng dụng của thị giác máy tính rộng từ tự động hóa và an ninh đến y tế và xe tự hành.

1 https://blogs.nvidia.com/blog/2016/07/29/whats-difference-artificial-intelligence-machine-learning- deep-learning-ai/

Hình 2.2 Sơ đồ mối liên hệ giữa các kĩ thuật trong Computer Vision 2

Một số kỹ thuật phổ biến trong Computer Vision được minh họa ở Hình 2.2 bao gồm:

Nhận diện vật thể (Object Recognition) là một kỹ thuật trong lĩnh vực thị giác máy tính và trí tuệ nhân tạo, nhằm nhận dạng, xác định và định vị các đối tượng trong một bức ảnh với mức độ tin cậy nhất định Quá trình này kết hợp phân tích đặc trưng hình ảnh, phân loại đối tượng và xác định vị trí của chúng trên khung hình bằng các hệ tọa độ, cho kết quả gồm nhãn nhận diện, vị trí và độ tin cậy của mỗi đối tượng Ứng dụng của nhận diện vật thể rất đa dạng, từ tự động hóa và an ninh cho tới quản lý kho, y tế và thực tế ảo, giúp các hệ thống hiểu nội dung hình ảnh và ra quyết định dựa trên dữ liệu thị giác.

• Phân loại hình ảnh (Image Classification) là một kỹ thuật liên quan đến việc dự đoán lớp của một đối tượng trong một hình ảnh

Định vị vật thể (Object Localization) là một kỹ thuật trong thị giác máy tính nhằm xác định vị trí của một hoặc nhiều đối tượng xuất hiện trong một hình ảnh và vẽ bounding box quanh chúng, từ đó hỗ trợ nhận diện, theo dõi và phân tích đối tượng một cách chính xác.

Phát hiện đối tượng (Object Detection) là kỹ thuật kết hợp giữa phân loại hình ảnh và định vị vật thể trong ảnh, cho phép nhận diện và xác định vị trí của một hoặc nhiều đối tượng xuất hiện Đây là một thành phần cốt lõi của thị giác máy tính, giúp xác định chính xác các đối tượng như người, xe cộ và các vật thể khác ngay trên hình ảnh.

2 https://phamdinhkhanh.github.io/2019/09/29/OverviewObjectDetection.html

• Phân đoạn đối tượng (Object Segmentation) là một kỹ thuật nhận dạng đối tượng bằng cách nổi bật các pixel cụ thể của đối tượng thay vì bounding box

Chú thích ảnh (Image Captioning) là một kỹ thuật AI kết hợp giữa hai kiến trúc phổ biến là CNN và LSTM nhằm đưa ra các mô tả nội dung của một bức ảnh hoặc giải thích các hành động diễn ra trong ảnh Mô hình này sử dụng CNN để trích xuất đặc trưng hình ảnh, sau đó LSTM đóng vai trò giải mã và sinh ra chuỗi từ ngữ mô tả tự nhiên Quá trình huấn luyện dựa trên các bộ dữ liệu ảnh kèm chú thích, tối ưu hóa để cải thiện độ chính xác và tính tự nhiên của chú thích Ứng dụng của chú thích ảnh rất đa dạng, từ hỗ trợ tìm kiếm hình ảnh và quản lý nội dung số đến trợ lý ảo và hệ thống tiếp thị, giúp người dùng nhanh chóng hiểu nội dung và ngữ cảnh của hình ảnh.

Nhờ tiến bộ của khoa học và ứng dụng các thuật toán tiên tiến, máy tính nay có khả năng nhận diện, xử lý và hiểu hình ảnh, biến dữ liệu hình ảnh thành thông tin có ích cho nhiều lĩnh vực quanh ta Công nghệ nhận diện và phân tích hình ảnh được áp dụng rộng rãi từ chăm sóc sức khỏe, sản xuất và logistics đến giao thông thông minh, nông nghiệp thông minh, an ninh, giáo dục và marketing, mang lại hiệu quả và tối ưu hóa quy trình Những tiến bộ này cho phép máy tính nhận diện mẫu, phân đoạn đối tượng, theo dõi chuyển động và rút ra quyết định dựa trên hình ảnh, từ đó thúc đẩy đổi mới, nâng cao chất lượng và tạo giá trị cho doanh nghiệp và xã hội.

• Nhận diện khuôn mặt trong các smartphone (Face ID)

• Kiểm tra các sản phẩm lỗi trong ngành công nghiệp sản xuất

• Hỗ trợ bác sĩ trong chuẩn đoán và điều trị bệnh ung thư dựa vào ảnh

• Nhận diện biển báo, người đi đường cho các xe tự lái

• Nhận diện cảm xúc để đánh giá hành vi mua hàng trong các cửa hàng

• Nhận biết trường hợp té ngã để kịp thời cấp cứu dựa vào phát hiện hành vi dị thường của con người.

Một số cơ sở lý thuyết

Mạng nơ-ron nhân tạo (Artificial Neural Networks - ANN) là hệ thống gồm các nơ-ron được kết nối đầy đủ giữa các lớp với nhau, nhằm mô phỏng hoạt động của não bộ con người ANN xuất phát từ ý tưởng tái hiện cách não bộ xử lý thông tin thông qua mạng lưới nơ-ron thần kin؛ Mạng này học từ dữ liệu bằng cách điều chỉnh trọng số liên kết giữa các nơ-ron, giúp nhận diện mẫu và dự đoán kết quả Nhờ khả năng tự học và tối ưu hóa, ANN được ứng dụng rộng rãi trong nhận diện hình ảnh và giọng nói, phân tích dữ liệu và ra quyết định tự động.

Hình 2.3 Cấu tạo nơ ron thần kinh 3 Một mạng NN sẽ có 3 kiểu tầng:

Tầng vào (input layer): Là tầng bên trái cùng của mạng thể hiện cho các đầu vào của mạng

Tầng ra (output layer): Là tầng bên phải cùng của mạng thể hiện cho các đầu ra của mạng

Tầng ẩn (hidden layer): Là tầng nằm giữa tầng vào và tầng ra thể hiện cho việc suy luận logic của mạng

Hình 2.4 Kiến trúc một mạng nơ-ron nhân tạo cơ bản 4

Trong mạng nơ-ron nhân tạo, mỗi lớp chứa các nơ-ron được mô phỏng như các nút và mỗi nơ-ron trong một lớp liên kết với tất cả các nơ-ron ở lớp tiếp theo, tạo sự liên kết đầy đủ giữa các lớp Số lớp ẩn của mạng nơ-ron nhân tạo có thể không giới hạn và số lượng nơ-ron trên mỗi lớp cũng có thể không giới hạn, cho phép mô hình mở rộng khả năng biểu diễn và học hỏi từ dữ liệu phức tạp.

Mạng nơ-ron nhân tạo được ứng dụng rộng rãi trong các lĩnh vực quan trọng như tài chính, giao dịch và phân tích kinh doanh, hỗ trợ lập kế hoạch cho doanh nghiệp và bảo trì sản phẩm Bên cạnh đó, nó còn được sử dụng cho dự báo thời tiết, nghiên cứu thị trường, đánh giá rủi ro và phát hiện gian lận nhằm tối ưu hóa quyết định kinh doanh Nhiều trường hợp còn dùng mạng nơ-ron để khai thác cơ hội giao dịch từ dữ liệu lịch sử thông qua phân tích xu hướng Mạng nơ-ron đặc biệt mạnh ở khả năng phân biệt các mối quan hệ phi tuyến giữa các đầu vào, một thách thức mà nhiều mô hình phân tích kỹ thuật khác gặp phải.

Trong mạng nơ-ron nhân tạo, hàm kích hoạt mô phỏng tỷ lệ truyền xung qua axon của một neuron thần kinh và đóng vai trò là một thành phần phi tuyến ở đầu ra của các nơ-ron, giúp biến tổng tín hiệu trọng số thành đầu ra có tính phi tuyến Nhờ đặc tính này, hàm kích hoạt cho phép mạng học được các mối quan hệ phức tạp trong dữ liệu, từ đó nâng cao hiệu suất dự báo và nhận diện trong các bài toán máy học.

Hình 2.5 Công thức và đồ thị của một số hàm kích hoạt 5

5 https://medium.com/hyunjulie/activation-functions-a-short-summary-8450c1b1d426

Các hàm kích hoạt phổ biến như Sigmoid, Tanh, ReLU, Leaky ReLU và MaxOut đóng vai trò quan trọng trong thiết kế mạng nơ-ron Khi xem xét các cấu trúc mạng cụ thể, các activation khác nhau sẽ được sử dụng tùy thuộc vào độ sâu của mạng, output mong muốn và thậm chí dữ liệu của bài toán, nhằm tối ưu hóa khả năng học và hiệu suất của mô hình.

2.3.2 Mạng nơ-ron tích chập

Hình 2.6 Một quy trình CNN để phân loại chữ số viết tay 6

Mạng nơron tích chập (còn gọi là ConvNet / CNN) là một thuật toán Deep

Mạng nơ-ron tích chập (CNN) có thể nhận ảnh làm đầu vào, gán mức độ quan trọng cho các đặc trưng và đối tượng khác nhau trong hình ảnh và phân biệt được từng đặc trưng với nhau Tiền xử lý cho CNN đòi hỏi ít hơn nhiều so với các phương pháp phân loại truyền thống, giúp tiết kiệm thời gian và tăng hiệu quả xử lý hình ảnh Ở các phương pháp sơ khai, bộ lọc được thiết kế bằng tay và qua quá trình huấn luyện để chọn ra các bộ lọc phù hợp; trong khi đó CNN có khả năng tự học để tối ưu hóa các bộ lọc một cách tự động nhờ cơ chế học sâu.

Kiến trúc của nơron tích chập (CNN) tương tự mô hình kết nối của các nơron trong bộ não con người và được lấy cảm hứng từ hệ thống vỏ thị giác Các nơ-ron riêng lẻ trong lớp tích chập chỉ phản ứng với các kích thích ở một khu vực nhỏ gọi là receptive field, cho phép nhận diện đặc trưng ở mức độ địa phương Nhờ việc chia sẻ trọng số trên toàn bộ vị trí của hình ảnh, CNN có khả năng nhận diện các đặc trưng ở nhiều vị trí khác nhau mà không tăng đáng kể số tham số Các tầng tích chập kết hợp với các tầng pooling hình thành hệ thống nhận diện cấp bậc, từ những đặc trưng đơn giản như cạnh và đường biên đến các đặc trưng phức tạp hơn ở các lớp sâu Điều này giúp mô hình trích xuất thông tin hình ảnh ở nhiều mức độ và tăng khả năng khái quát cho các tác vụ như nhận diện và phân loại hình ảnh.

In convolutional neural networks, the receptive field is the limited region of the input image that a neuron responds to A collection of such receptive fields, layered on top of one another, covers the entire visual area.

Trong lĩnh vực xử lý ảnh và computer vision, mạng nơ-ron tích chập (CNN) là một trong những phương pháp được ứng dụng nhiều nhất để giải quyết các bài toán trọng yếu như nhận dạng hình ảnh, phân loại hình ảnh, phát hiện đối tượng và nhận diện khuôn mặt.

2.3.2.1 Fully Connected Layer - FC Layer

Hình 2.7 Minh họa FC layer 7

7 https://medium.com/@RaghavPrabhu/understanding-of-convolutional-neural-network-cnn-deep- learning-99760835f148

Kiến trúc của tầng liên kết đầy đủ tương tự như kiến trúc của mạng nơ-ron nhân tạo đã được trình bày ở mục trước Kết quả đầu ra từ tầng tích chập và tầng tổng hợp là các ma trận ở dạng hai chiều hoặc ba chiều Các ma trận này sẽ được làm phẳng (Flatten) thành một vector trước khi đưa vào tầng liên kết đầy đủ Lớp cuối cùng trong tầng liên kết đầy đủ chính là đầu ra cho bài toán.

Ngoài ra, nếu như fully connected layer có được giữ liệu hình ảnh thì chúng sẽ chuyển nó thành mục chưa được phân chia chất lượng Cái này khá giống với phiếu bầu rồi chúng sẽ đánh giá để bầu chọn ra hình ảnh có chất lượng cao nhất

Hình 2.8 Minh họa Convolution Layer 8

Mục đích của tầng này là trích xuất đặc trưng tương ứng với đầu vào Từ ý tưởng Local receptive fields, mô hình sẽ tiến hành chọn 1 bộ lọc để tìm và trích xuất những thông tin quan trọng từ dữ liệu đầu vào, đồng thời giảm số chiều cho các lớp ẩn tiếp theo Các giá trị đầu ra cho vùng lọc sẽ được tính toán bằng các hàm kích hoạt

8 https://www.sciencedirect.com/topics/mathematics/convolutional-layer

Trong lĩnh vực học sâu, các hàm kích hoạt nổi tiếng như ReLU và Sigmoid được sử dụng, với ReLU chiếm ưu thế ngày nay Đây là lớp quan trọng nhất của CNN, đảm nhận phần tính toán chính của mạng Các yếu tố quan trọng của một lớp tích chập (convolutional layer) gồm stride, padding, filter (kernel) và feature map CNN sử dụng các filter để áp dụng lên vùng hình ảnh; những filter này được xem như ma trận 3 chiều chứa các tham số (weights) của mạng Stride là mức dịch chuyển của filter theo từng bước khi quét từ trái sang phải và tùy cấu hình có thể từ trên xuống dưới Padding là các giá trị 0 được thêm vào biên input để điều chỉnh kích thước và thông số đầu ra Feature map thể hiện kết quả sau mỗi lần filter quét qua input, và sau mỗi lần quét sẽ diễn ra quá trình tính toán để tạo ra đầu ra của lớp.

Hình 2.9 Minh họa Pooling Layer 9

Trong mạng nơ-ron, tầng tích chập trích xuất đặc trưng từ dữ liệu và giảm số chiều, giúp giảm số tham số, rút ngắn thời gian huấn luyện và hạn chế overfitting Tầng tổng hợp, như một bước sau tầng tích chập, sử dụng các bộ lọc trượt qua dữ liệu đầu vào để ghi nhận các đặc trưng cần thiết nhưng các bộ lọc tại tầng này sẽ không chứa tham số Các phương pháp phổ biến ở tầng tổng hợp gồm MaxPooling và AveragePooling: MaxPooling chỉ lấy giá trị lớn nhất trong cửa sổ trượt, còn AveragePooling tính giá trị trung bình của các điểm dữ liệu trong cửa sổ, từ đó giúp tổng hợp thông tin một cách hiệu quả và ổn định.

Within a convolutional neural network, the pooling layer reduces the spatial size of feature maps by summarizing the values in each receptive field covered by the pooling filter Max pooling selects the maximum value within that region, preserving the strongest activation, while Average pooling computes the average value, providing a smoother summary of the region Both methods help decrease computation and control overfitting by downsampling the feature maps.

Nghiên cứu liên quan

2.4.1 Những bộ dữ liệu hiện tại

Hiện nay có rất nhiều bộ dữ liệu sương mù với đặc trưng đa dạng, bao gồm cả dữ liệu thực tế và dữ liệu tổng hợp được chụp ở cả trong nhà lẫn ngoài trời Các bộ dữ liệu này phục vụ cho nghiên cứu và phát triển các thuật toán xử lý ảnh và nhận diện trong điều kiện sương mù, giúp mô hình học máy có khả năng tổng quát tốt hơn và được ứng dụng trong các lĩnh vực như tự động lái xe, giám sát an ninh và robot di động.

Dataset FRIDA được giới thiệu vào năm 2010, gồm 90 hình ảnh tổng hợp từ 18 cảnh đường phố trong khu vực đô thị, dùng để kiểm tra các thuật toán nâng cao liên quan đến khả năng hiển thị và cải thiện độ tương phản FRIDA2 được giới thiệu hai năm sau với 66 loại đường, tổng cộng 330 hình ảnh tổng hợp và 10 cảnh quay.

Hình 2.12 Hình ảnh minh họa trong bộ dữ liệu FRIDA 12

Bộ dữ liệu Foggy Cityscapes và Foggy Driving cung cấp góc nhìn của người lái xe trong các thành phố với lần lượt 20,550 và 101 ảnh sương mù Tuy nhiên, hai bộ dữ liệu này có sự lặp lại của các đối tượng, dẫn đến sự trùng lặp dữ liệu và có thể ảnh hưởng đến hiệu quả huấn luyện và đánh giá mô hình nhận diện trong điều kiện đô thị bị phủ sương.

12 http://perso.lcpc.fr/tarel.jean-philippe/bdd/frida.html

Hình 2.13 Hình ảnh minh họa bộ dữ liệu Foggy Driving 13

Bộ dữ liệu RESIDE là bộ dữ liệu lớn nhất hiện có với 5 tập con và tổng cộng 429.292 ảnh được thu thập trong nhà và ngoài trời, bao gồm cả sương mù thực tế và sương mù tổng hợp Mỗi tập con của bộ dữ liệu này được thiết kế để phục vụ các mục đích khác nhau, từ đánh giá và phát triển thuật toán nhận diện và xử lý ảnh trong điều kiện sương mù đến ứng dụng trong mô phỏng và thử nghiệm hệ thống thị giác máy tính.

13 http://people.ee.ethz.ch/~csakarid/SFSU_synthetic/

Hình 2.14 Hình ảnh minh họa bộ dữ liệu RESIDE 14

Bộ dữ liệu O-Haze được giới thiệu bởi Ancuti và cộng sự vào năm 2018, gồm 45 tập hình ảnh ngoài trời có sương mù và ground truth được chụp lại trong 8 tuần Dữ liệu này chứa các hình ảnh như cầu trượt, cây cối và băng ghế, phục vụ cho các bài toán xử lý ảnh sương mù và đánh giá các phương pháp phục hồi ảnh trong điều kiện thời tiết có sương mù.

14 https://sites.google.com/view/reside-dehaze-datasets/reside-v0

Hình 2.15 Hình ảnh minh họa bộ dữ liệu O-haze 15

Chi tiết những bộ dữ liệu đã được trình bày phía trên được mô tả tổng hợp ở Bảng 2.1

Bộ dữ liệu Số lượng hình ảnh Ngữ cảnh Loại sương mờ Năm

FRIDA 90 Ngoài trời Tổng hợp 2010

FRIDA2 330 Ngoài trời Tổng hợp 2012

Foggy Driving 20,651 Ngoài trời Tổng hợp 2016

O–Haze 45 bộ Ngoài trời Thực tế 2018

(Ours) 15,370 Ngoài trời Tổng hợp 2021

Bảng 2.1 Thống kê những bộ dữ liệu đã được công bố

2.4.2 Những hướng tiếp cận hiện tại

Hiểu ngữ nghĩa của các cảnh sương mờ ngoài trời cho phép các ứng dụng thị giác máy tính hoạt động hiệu quả không chỉ trong điều kiện thời tiết tốt mà còn khi sương mờ xuất hiện Điều này đặc biệt quan trọng cho các nhiệm vụ như phát hiện phương tiện và nhận diện làn đường, từ đó tăng độ tin cậy của hệ thống hỗ trợ lái xe và an toàn giao thông Hiện nay có nhiều hướng tiếp cận khác nhau—from học sâu đến các kỹ thuật tiền xử lý và tích hợp cảm biến—được nghiên cứu để xử lý hình ảnh sương mờ một cách hiệu quả Việc tối ưu ngữ nghĩa của cảnh sương mờ giúp các ứng dụng nhận diện đối tượng và cấu trúc đường đi một cách ổn định ngay cả khi tầm nhìn bị giới hạn Những giải pháp này đang được triển khai để cải thiện hiệu suất và độ tin cậy của hệ thống trên mọi điều kiện thời tiết, bao gồm sương mờ và sự phối hợp dữ liệu đa nguồn.

Trong lĩnh vực phát hiện đối tượng trong điều kiện sương mù, có nhiều phương pháp khác nhau được đề xuất Một số phương pháp được thiết kế để nhận diện trực tiếp trong sương mù, trong khi một số phương pháp khác tập trung vào khử sương mù trước khi thực hiện nhận diện Dữ liệu O-Haze, thuộc NTIRE 2018 (https://data.vision.ee.ethz.ch/cvl/ntire18/o-haze/), cung cấp khuôn khổ để so sánh hiệu quả giữa các chiến lược nhận diện trực tiếp và khử sương mù, từ đó giúp nâng cao độ chính xác và tổng thể của hệ thống nhận diện đối tượng trong thời tiết sương mù.

2.4.2.1 Khử sương mờ đơn ảnh

Khử sương mù đơn ảnh đóng vai trò là một bước tiền xử lý quan trọng trong các tác vụ xử lý ảnh như phân loại và phát hiện đối tượng Trong thực tế, sự xuất hiện của sương, khói và bụi làm giảm độ tương phản, làm mờ chi tiết và gây nhiễu, khiến việc nhận diện và phân loại đối tượng trở nên khó khăn và cho kết quả không như mong đợi Vì vậy, áp dụng kỹ thuật khử sương mù đơn ảnh giúp cải thiện chất lượng ảnh, tăng độ rõ của chi tiết và nâng cao hiệu quả, độ chính xác của các mô hình nhận diện trong các bài toán xử lý ảnh.

Các nghiên cứu trước đây đã đưa ra một công thức đơn giản để ước lượng ảnh hưởng sương mờ trên ảnh như sau:

• 𝐴 : Hệ số ánh sáng khí quyển

• 𝐽(𝑧): Ảnh không có sương mờ

Dựa theo công thức đã cho, quá trình khử sương mờ chỉ là việc tính toán giá trị của hai biến A và t(z) Từ công thức (1), ta có thể suy ra mối quan hệ giữa hai biến này và kết quả khử sương mờ sẽ phụ thuộc trực tiếp vào chúng, cho phép xác định các giá trị tối ưu của A và t(z) nhằm đạt được mức khử sương mờ mong muốn.

Dark Channel Prior (DCP) là một trong những phương pháp được xem là cho kết quả tối ưu nhất khi áp dụng mô hình khử sương mù cho ảnh Nhóm tác giả của phương pháp dựa trên lý thuyết cho rằng các vùng ảnh không bị mờ sương ngoài trời thường có ít nhất một kênh màu có giá trị cường độ rất thấp Tuy nhiên, các phương pháp dựa trên priors này thường ước lượng sai giá trị của bản đồ truyền dẫn (transmission map) vì các giá trị ưu tiên dễ bị ảnh hưởng bởi điều kiện thực tế Do đó, trong các tình huống thực tế, kết quả khử sương mù thường không đạt như kỳ vọng.

Cùng với sự phát triển của Deep Learning, một hướng đi mới cho xử lý ảnh bị mờ sương đã xuất hiện với các phương pháp như DehazeNet và MSCNN Các mô hình dựa trên Deep Learning cố gắng hồi quy trực tiếp bản đồ truyền sáng (transmission map), và nhờ lượng dữ liệu huấn luyện lớn, chúng đã đạt được những kết quả ấn tượng Trong số các phương pháp này, Feature Fusion Attention Network được trình bày là một ví dụ điển hình cho hiệu quả của cách tiếp cận này.

2.4.2.2 Feature Fusion Attention Network (FFA-Net)

Kiến trúc mạng FFA-Net giới thiệu một phương pháp khử sương trực tiếp trên ảnh đầu vào Các kết quả thí nghiệm cho thấy FFA-Net đã vượt qua các phương pháp SOTA trong khử sương ảnh trên bộ dữ liệu SOTS indoor test, đạt PSNR từ 30.23 dB đến 36.39 dB theo đo PSNR tại thời điểm đề xuất Kết quả vượt trội này nhờ ba thành phần chính được trình bày trong các mục sau.

Hình 2.16 Ảnh thể hiện mức độ hiệu quả của FFA-Net so với các phương pháp khử mờ khác trên bộ dữ liệu RESIDE

Mô-đun Feature Attention (FA) kết hợp hai cơ chế Channel Attention và Pixel Attention nhằm xử lý đồng thời các đặc trưng và điểm ảnh không đồng nhất do sự phân bố sương mù khác nhau ở các vùng ảnh FA cho phép điều chỉnh trọng số theo từng kênh và từng điểm ảnh, mang lại tính linh hoạt khi xử lý các vùng ảnh có mật độ sương mù dày hay mỏng khác nhau Sự kết hợp này giúp cải thiện độ nhạy và độ chính xác của nhận diện và phân đoạn trong ảnh mù Khối kiến trúc cơ bản (Basic Block Structure) của FA cung cấp nền tảng thiết kế cho các lớp và khối mạng, tối ưu hóa quá trình xử lý đặc trưng và điểm ảnh.

Khối kiến trúc cơ bản gồm Local Residual Learning (LRL) và Feature Attention, giúp quá trình huấn luyện ổn định và tăng hiệu quả khử sương cho ảnh LRL khiến mạng chú ý đến các thông tin quan trọng và bỏ qua các vùng ít thông tin như vùng sương mỏng, từ đó cải thiện chất lượng xử lý ảnh và kết quả khử sương một cách đáng kể.

• Attention-based different levels Feature Fusion (FAA)

Attention-based Multi-Level Feature Fusion Architecture (FAA) enables adaptive weighting learned from the FA module, assigning higher weights to the most important information This architecture also preserves information from the early layers and transmits it to deeper layers through Global Residual Learning, maintaining signal integrity across the network By combining attention with multi-level feature fusion, FAA enhances representational power and improves performance in deep learning models.

BỘ DỮ LIỆU UIT-DRONEFOG

Bộ dữ liệu UIT-Drone21

UIT-Drone21 là một bộ dữ liệu gồm 15.370 ảnh chụp từ máy bay không người lái, với khoảng 0,6 triệu bounding box cho các đối tượng giao thông và người đi bộ Dữ liệu có 4 lớp mục tiêu: pedestrian, motor, car và bus Bộ dữ liệu được chia thành ba tập: Training set chứa 8.580 ảnh, Validation set 1.061 ảnh và Testing set 5.729 ảnh.

Hình 3.1 Một số hình ảnh của bộ dữ liệu UIT-Drone21

Mô phỏng sương mờ

Trong dự án này, thư viện imgaug được sử dụng để tạo sương mù tổng hợp cho bộ dữ liệu của nhóm nghiên cứu Nhóm đã mô phỏng sương mù trên bộ dữ liệu UIT-Drone21 bằng cách sử dụng lớp Fog của imgaug với các tham số được xác định trước, mô phỏng một lớp sương mù khá dày và có mật độ không đều trên ảnh Việc này giúp tăng tính đa dạng của dữ liệu và hỗ trợ đánh giá hiệu suất nhận diện và xử lý ảnh drone trong môi trường sương mù thực tế.

Để mô phỏng phù hợp với kích thước hình ảnh của bộ dữ liệu đã chọn, nhóm quyết định điều chỉnh hai tham số α_min = 0.75 và density_multiplier = 0.7, đồng thời giữ nguyên các tham số mặc định của thư viện.

Thông số alpha_min có giá trị mặc định từ 0.7 đến 0.9, cho biết mức tối thiểu của alpha khi mô phỏng sương mờ lên hình ảnh; việc tăng giá trị này giúp sương mờ phân bố đều hơn Thông số density_multiplier có giá trị mặc định từ 0.4 đến 0.9, là hệ số nhân cho lớp alpha mask; khi tăng tham số density_multiplier lên giá trị cao sẽ khiến sương mờ trở nên dày đặc hơn ở những vùng xuất hiện Kết quả mô phỏng sương mờ được thể hiện trong Hình 3.2.

Hình 3.2 Kết quả mô phỏng sương mờ

Mô tả bộ dữ liệu

UIT-DroneFog được xem như phiên bản sương mù của UIT-Drone21, có nghĩa bộ dữ liệu này kế thừa toàn bộ các thuộc tính được nêu ở phần 3.1, bao gồm số lượng hình ảnh, lớp đối tượng và bounding box Ngoài ra, UIT-DroneFog còn có những điểm nổi bật riêng như khả năng mô phỏng các điều kiện thời tiết khắc nghiệt, sự phong phú của ngữ cảnh và độ chính xác cao của chú thích bounding boxes, cũng như sự đa dạng của các lớp đối tượng Những đặc trưng này làm cho UIT-DroneFog trở thành nguồn dữ liệu quan trọng cho các nghiên cứu về nhận diện và phân loại đối tượng trong môi trường sương mù.

Quá trình mô phỏng sương mờ được thực hiện bằng nguồn hình ảnh đa dạng và chất lượng cao chụp từ drone ở ba độ phân giải khác nhau: 3840x2160, 1920x1080 và 1440x1080 Việc sử dụng nhiều độ phân giải này giúp hình ảnh sương mờ của nhóm có chi tiết và độ chân thực cao hơn, đồng thời giảm nguy cơ bị mờ hay che khuất và lệch chuẩn Kết quả là hình ảnh sương mờ đạt chất lượng tốt, rõ nét và đáng tin cậy cho các ứng dụng liên quan.

Bối cảnh dữ liệu đa dạng: mỗi hình ảnh trong bộ dữ liệu của nhóm là duy nhất, khác biệt về phân bố sương mờ, góc chụp và độ cao Hơn nữa, nhóm đã mô phỏng sương mờ không chỉ ở một địa điểm nhất định mà tại nhiều vị trí khác nhau ở các thành phố Việt Nam, mang lại bối cảnh phong phú cho phân tích và phát triển các mô hình nhận diện liên quan đến sương mờ.

Thách thức từ dữ liệu xuất phát từ đặc thù của đường phố Việt Nam: phần lớn mẫu trong bộ dữ liệu là xe máy, dẫn tới sự mất cân bằng lớp nghiêm trọng và làm giảm hiệu quả của các phương pháp phát hiện Bên cạnh đó, xe máy có kích thước nhỏ và xuất hiện với mật độ dày đặc trên đường, khiến việc nhận diện và theo dõi các đối tượng này trở nên khó khăn và đòi hỏi các kỹ thuật xử lý ảnh tối ưu để nâng cao tốc độ và độ chính xác.

Hình 3.4 trình bày minh họa chi tiết về bộ dữ liệu của nhóm, cho thấy cấu trúc và đặc trưng của các lớp đối tượng Đồng thời, nhóm cũng thống kê số lượng từng lớp và trình bày kết quả này một cách trực quan trên Hình 3.5, giúp người đọc dễ dàng nắm bắt phân bổ dữ liệu và mức độ cân bằng giữa các lớp.

Hình 3.3 Hình ảnh minh họa trong bộ dữ liệu UIT-DroneFog

Hình 3.4 Thống kê bộ dữ liệu UIT-DroneFog

PHƯƠNG PHÁP CƠ SỞ

Phát hiện đối tượng

Trong đồ án này, nhóm nghiên cứu ứng dụng hai phương pháp phát hiện đối tượng ở trạng thái SOTA và đề xuất một phương pháp mới mang tên CasDou để đánh giá trên bộ dữ liệu UIT-DroneFog Phương pháp CasDou được giới thiệu chi tiết, bao gồm cơ chế hoạt động, thiết kế thuật toán và tiêu chí đánh giá, đồng thời được so sánh với hai phương pháp SOTA để làm rõ hiệu suất và các ưu nhược điểm trên bộ dữ liệu UIT-DroneFog.

Cascade R-CNN là một phương pháp phát hiện đối tượng nhiều giai đoạn, gồm một chuỗi detector được huấn luyện với ngưỡng IoU tăng dần để lọc dần các kết quả dương tính Đầu ra từ các detector ở giai đoạn trước được dùng làm đầu vào cho các detector ở giai đoạn sau, tạo thành một phân phối chất lượng cao hơn giúp cải thiện hiệu suất ở từng giai đoạn Phương pháp này đồng thời tối ưu hóa quá trình hồi quy cho bounding box dựa trên phân phối được xây dựng từ các giai đoạn trước, thay vì phân phối ban đầu Nhờ cơ chế này, Cascade R-CNN đạt được cải thiện liên tục về dự đoán và quá trình huấn luyện các phân phối cho các detector ở các giai đoạn tiếp theo.

Hình 4.1 So sánh cấu trúc của Faster R-CNN và Cascade R-CNN

“I” là ảnh đầu vào, “conv” là backbone convolutions, “pool” là region-wise feature extraction, “H” là network head, “B” là bounding box, “C” là classification “B0” là vùng đề xuất

Kiến trúc hai-head được sử dụng phổ biến trong cơ sở phát hiện đối tượng RCNN nhằm thực hiện đồng thời nhiệm vụ classification và localization Conv-head phù hợp với localization, còn fc-head lại thích hợp hơn với classification Trên cơ sở đó, Yue Wu đề xuất phương pháp Double Head RCNN với conv-head hồi quy bounding box và fc-head đảm nhận classification Phương pháp này đạt lần lượt 3.5 và 2.8 AP trên bộ dữ liệu MS COCO từ baseline FPN với backbone ResNet-50 và ResNet-101.

Hình 4.2 So sánh cấu trúc của Single Head và Double Heads

Guided Anchoring đề xuất một cách khai thác anchors không dựa trên một tập hợp kích thước và tỷ lệ co được xác định trước như cách hoạt động của Faster R-CNN Các tác giả đề xuất một phương pháp dự báo kết hợp vị trí tâm của đối tượng có thể tồn tại thông qua một bản đồ xác suất lấy từ bản đồ đặc trưng đầu vào, và tại mỗi vị trí sẽ được dự đoán các tham số liên quan đến kích thước và tỉ lệ co Dựa trên hình dạng và vị trí của các anchors được dự đoán, một mô-đun điều chỉnh tính năng được dùng để giảm thiểu sự không nhất quán của đặc trưng Với số lượng anchors ít hơn 90% so với baseline RPN, các tác giả đạt được mức recall cao hơn 9,1% trên MS COCO thông qua các thí nghiệm của họ.

Hình 4.3 Minh họa cấu trúc của Guided Anchring

Hàm mất mát

Trong nhiệm vụ phát hiện đối tượng, hàm mất mát đóng vai trò quan trọng giúp mô hình học cách phân biệt giữa các lớp và tối ưu hóa quá trình huấn luyện Một trong những hàm mất mát được sử dụng phổ biến hiện nay là cross-entropy (CE) CE dựa trên ý tưởng phạt các dự đoán sai hơn là đề cao các dự đoán đúng, từ đó tập trung cải thiện những dự đoán chưa chính xác Hàm mất mát CE được định nghĩa bằng công thức chuẩn CE: CE = -∑ y_i log(p_i), trong đó y_i là nhãn thực tế và p_i là xác suất dự đoán cho lớp i Việc tối ưu CE giúp mô hình học cách phân phối xác suất cho các lớp sao cho xác suất của nhãn đúng được tăng lên, từ đó nâng cao hiệu quả phát hiện đối tượng.

Trong bài toán phân loại, p_t là xác suất dự đoán cho lớp t Focal Loss (FL) được thiết kế để xử lý vấn đề mất cân bằng dữ liệu bằng cách gán trọng số lớn hơn cho các mẫu khó hoặc dễ bị phân loại sai, từ đó làm giảm ảnh hưởng của các mẫu dễ dự đoán đúng và nâng cao hiệu suất trên tập dữ liệu bất cân bằng Vì vậy, FL được xem như một phiên bản cải tiến của hàm mất mát Cross-Entropy (CE) Focal Loss được định nghĩa như sau:

Trong đó 𝛼 là hệ số cân bằng của Focal Loss với giá trị mặc định là 0.25; và gamma 𝛾 được dùng để tính hệ số điều biến mặc định là 2.0.

Phương pháp đề xuất

Như mô tả trước đây, Double Heads đề xuất một mô-đun có thể dễ dàng gán cho các detector khác, tương tự như Faster RCNN; vì vậy nhóm nghiên cứu quyết định gắn Double Heads vào Cascade RCNN và đánh giá phương pháp này trên tập dữ liệu UIT-DroneFog Sau khi phân tích kết quả, nhóm tiếp tục thay đổi hàm mất mát mặc định từ cross-entropy sang Focal Loss và đặt tên cho phương pháp mới là CasDou.

THỰC NGHIỆM VÀ KẾT QUẢ

Cài đặt thực nghiệm

Dữ liệu UIT-DroneFog của nhóm được chia thành ba tập con: training (8,582 ảnh), validation (1,061 ảnh) và testing (5,729 ảnh) Toàn bộ quá trình thực nghiệm được thực hiện trên GPU GeForce RTX 2080 Ti với bộ nhớ 11018 MiB Nhóm huấn luyện mô hình bằng framework MMDetection phiên bản 2.10.0 Với mỗi mô hình, nhóm sử dụng cấu hình (config) có mAP cao nhất được cung cấp trên trang MMDetection GitHub, có thể chạy trên GPU GeForce RTX 2080 Ti.

In the Guided Anchoring section, the team evaluated the GA Faster R-CNN configuration with two backbones—X-101-32x4d-FPN trained for 12 epochs and R-50-RPN trained for 12 epochs—to compare against the default Double Heads.

Chỉ số đánh giá

Nhóm đã sử dụng các trọng số tối ưu từ tập validation để dự đoán trên tập testing và báo cáo kết quả thông qua thước đo mAP, nhằm đánh giá và so sánh hiệu suất của các mô hình, tương tự như các cuộc thi phát hiện đối tượng trên bộ dữ liệu MS COCO Độ đo AP được tính dựa trên tổng hợp precision và recall ở nhiều ngưỡng IoU, cho phép đánh giá cả hiệu suất ở mức độ chi tiết lẫn tổng thể.

Phân tích

Nhìn chung, kết quả thực nghiệm được trình bày ở Bảng 5.1 cho thấy Guided Anchoring có kết quả thấp hơn Double Heads Về điểm mAP, Guided Anchoring đạt 31.39%, thấp nhất trong các phương pháp so sánh, tuy nhiên nó lại cho kết quả tốt nhất khi phát hiện Pedestrian (2.60%) và Motor (35.10%) Trong khi đó, Double Heads cho thấy hiệu quả vượt trội hơn ở các đối tượng Car và Bus, đặc biệt Bus đạt 39.20% (cao hơn 5.40% so với Guided Anchoring) Kết quả được trực quan hóa trên Hình 5.1.

Phương pháp Pedestrian Motor Car Bus mAP AP 50 AP 75

Bảng 5.1 Kết quả thực nghiệm với config mặc định Hiệu suất tốt nhất được in đậm

Trong phần (b) Double Heads, Hình 5.1 cho thấy các ví dụ về các trường hợp dự đoán được thực hiện với cấu hình mặc định Các bounding box màu cam biểu thị các dự đoán của mô hình, còn các bounding box màu xanh biểu thị ground truth, cho phép so sánh trực quan mức độ khớp giữa dự đoán và thực tế khi áp dụng cấu hình mặc định cho nhiệm vụ nhận diện đối tượng.

Hơn nữa, Double Heads cho kết quả phát hiện tốt hơn nên nhóm quyết định cải thiện mô hình bằng cách kết hợp nó với Cascade RCNN và đặt tên là CasDou Lý do là Cascade RCNN có kiến trúc tương tự như Faster RCNN (cấu hình mặc định của Double Heads) và nó hiệu quả hơn Faster RCNN với cùng một backbone Sau đó, nhóm tiến hành một thử nghiệm mở rộng với Double Heads và CasDou Tuy nhiên, hai mô hình này chỉ khác biệt khoảng 0.1% về kết quả Điều này cho thấy khi gắn mô hình Double Heads vào Cascade RCNN hiệu suất thu được là gần như tương đương với các biến thể còn lại.

Ở cấu hình Faster R-CNN với thiết lập mặc định, kết quả phát hiện đối tượng không được cải thiện như mong đợi Nhóm nghiên cứu nhận thấy các mô hình gặp khó khăn với đặc tính mất cân bằng đặc trưng của bộ dữ liệu UIT-DroneFog Pedestrian và Motor là hai đối tượng có tỉ lệ phân bố cao nhất trên bộ dữ liệu (khoảng 13.31% và 77.84%), thường dễ bị nhầm lẫn với nhau khi phát hiện trong ảnh Ngoài ra, Bus là lớp ít xuất hiện nhất Sau khi thay CasDou cho Guided Anchoring, độ phát hiện của Bus đã tăng từ 33.80% lên 39.20%.

Nhóm tiếp tục chuyển đổi hàm mất mát từ CrossEntropy Loss (CE, cấu hình mặc định) sang Focal Loss (FL) trong hai mô hình Double Heads và CasDou, nhằm giảm nhầm lẫn giữa các lớp khi dự đoán đối tượng Nhờ vậy, cả hai mô hình đạt hiệu suất cao hơn ở từng lớp và mAP tăng lên, đặc biệt CasDou đạt mAP 34.70% Việc phát hiện nhầm các đối tượng kích thước nhỏ và bỏ sót các đối tượng Car, Bus đã giảm đáng kể (như thể hiện ở Hình 5.2) Nhìn chung, nhóm cải thiện hiệu suất ở ba lớp chính: Pedestrian, Car và Bus Các kết quả và hình ảnh trực quan cho thấy việc sử dụng Focal Loss mang lại hiệu quả tốt hơn trong bài toán phát hiện đối tượng trên ảnh giao thông có sương mờ.

Pedest rian Motor Car Bus mAP AP 50 AP 75

Bảng 5.2 Kết quả thực nghiệm khi thay đổi hàm mất mát

Hiệu suất tốt nhất được in đậm

Figure 5.2 compares the detection results of Double Heads and CasDou under two loss functions: Cross-entropy and Focal Loss The orange bounding boxes represent predictions, while the blue bounding boxes indicate ground-truth annotations, illustrating how different loss functions affect accuracy and localization in object detection.

Định dạng
Số trang	55
Dung lượng	2,64 MB