HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG VŨ HOÀI NAM PHÁT HIỆN MỘT SỐ SỰ KIỆN BẤT THƯỜNG DỰA TRÊN HÌNH ẢNH SỬ DỤNG MÔ HÌNH PHÂN CẤP Chuyên ngành: Kỹ thuật Máy tính Mã số: 9.48.01.06 T
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
VŨ HOÀI NAM
PHÁT HIỆN MỘT SỐ SỰ KIỆN BẤT THƯỜNG DỰA TRÊN HÌNH ẢNH SỬ DỤNG MÔ
HÌNH PHÂN CẤP
Chuyên ngành: Kỹ thuật Máy tính
Mã số: 9.48.01.06
TÓM TẮT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN
(ghi ngành của học vị được công nhận)
Hà Nội - 2023
Trang 2ℎ#$%&(.) Hàm của bộ lọc theo luật
ℎ'%(.) Hàm của mô hình học sâu MobileNet trong bài toán phát hiện sạt lở
ℎ())(.) Hàm của mô hình học sâu CNN
𝑁 Số lượng các tensor trong tập hợp
𝑌 Đầu ra dự đoán của mô hình mạng nơ ron hồi quy RNN
𝑋())(-) Tập hợp các vector đặc trưng của các đối tượng có khả năng là đối tượng bất thường tại thời điểm t
𝑋#&/)&-(-) Tập hợp các vector đặc trưng của các đối tượng có khả năng là đối tượng bất thường tại thời điểm t được trích xuất từ mô hình Resnet
ℎ#&/)&- Hàm của mô hình học sâu Resnet trong bài toán phát hiện lửa
Trang 31
MỞ ĐẦU
Sự kiện bất thường là sự kiện xảy ra ngoài dự đoán, kế hoạch của con người [1] Sự kiện bất thường nếu không được giám sát và cảnh báo kịp thời có thể gây ảnh hưởng lớn đến hạ tầng, tài sản, và thậm chí tính mạng của con người Sự kiện bất thường có thể chia ra làm hai loại chính: Sự kiện bất thường do tự nhiên và sự kiện bất thường do các hoạt động của con người gây ra Sự kiện bất thường do tự nhiên gây ra thường có yếu tố ngẫu nhiên rất khó dự đoán và phát hiện sớm, phòng tránh [2] Trong khi đó, sự kiện bất thường do hoạt động của con người gây ra có thể dự đoán và phòng tránh để cảnh báo sớm Sự kiện bất thường là một trong những nguyên nhân hàng đầu của những thiệt hại về con người và kinh tế Do đó, việc xây dựng các hệ thống cảnh báo sớm là thực sự cần thiết Với sự trợ giúp của các hệ thống phần cứng giám sát dựa trên công nghệ Internet vạn vật (IoT) và trí tuệ nhân tạo (AI), các sự kiện bất thường có thể được phát hiện và cảnh báo sớm Tuy nhiên, để các hệ thống giám sát dựa trên các công nghệ cao này đi vào thực tiễn, cần một lõi xử lý đủ mạnh để có thể phát hiện, cảnh báo tự động với độ chính xác cao và tỉ lệ cảnh báo giả thấp
Trong các mô hình giám sát và thu thập dữ liệu, bên cạnh các hệ cảm biến truyền thống, cảm biến hình ảnh (camera) hiện đang được triển khai ngày càng nhiều và rộng khắp trên toàn thế giới bởi tầm quan sát rộng, linh hoạt, và chi phí thấp cũng như khả năng tích hợp các công nghệ xử lý tiên tiến Thêm vào đó, số lượng camera giám sát (CCTV – Closed-circuit Television) sẽ đạt ngưỡng 1 tỷ đơn vị trong năm 2022, và sẽ ngày càng tăng lên nhanh chóng ngay cả ở các quốc gia đang phát triển Các hệ thống camera giám sát này thường sẽ thu thập và lưu trữ dữ liệu tại các trung tâm dữ liệu (DC – Data Center) tập trung Để các hệ thống camera giám sát này có thể theo dõi, phát hiện được các sự kiện bất thường, các thuật toán học máy, xử lý ảnh phải được áp dụng vào phần lõi xử lý được cài đặt tại các trung tâm dữ liệu hoặc tại các thiết bị biên Thời gian gầy đây, các mô hình học sâu cho kết quả tốt ở nhiều lĩnh vực đặc biệt là các hệ thống giám sát sử dụng camera [3] Trong phạm vi của luận án, các mô hình học sâu tích hợp vào hệ thống giám sát để phát hiện, cảnh báo các sự kiện bất thường có thể được chia thành hai nhóm theo tính chất của sự kiện bất thường được quan sát: Sự kiện bất thường tĩnh và sự kiện bất thường động Sự kiện bất thường tĩnh là sự kiện bất thường chứa những đối tượng bất thường tĩnh (không có yếu tố chuyển động), ví dụ như sạt lở đất
đá, hố sụt Trong khi đó, sự kiện bất thường động là sự kiện bất thường chứa các đối tượng bất thường có yếu tố chuyển động ví dụ như lửa, hành vi bạo lực Với bài toán phát hiện đối tượng bất thường tĩnh xử lý trên ảnh đơn, luận án hướng đến đề xuất một mô hình phân cấp cho phép trích xuất và lọc các đối tượng nghi ngờ là bất thường ở các chặng đầu, các chặng sau cho phép nhận dạng đối tượng bất thường sử dụng các bộ phân loại học sâu Mô hình phân cấp này tăng hiệu năng so với các mô hình nhận và xử lý trực tiếp trên ảnh đầu vào, trong khi vẫn đảm bảo được tốc độ xử lý cao do đã loại bỏ được nhiều đối tượng nhiễu trong các chặng của bộ lọc Tương tự, với sự kiện bất thường động, luận án sẽ đề xuất một mô hình phân cấp, trong đó các đối tượng nghi ngờ là bất thường sau khi được lọc ở các chặng đầu, sẽ được bám vết và trích xuất đặc trưng thời gian trước khi đưa vào bộ nhận dạng đối tượng ở chặng cuối Mô hình này cho hiệu năng cao hơn các phương pháp chỉ trích xuất đặc trưng không gian, và các mô hình trích xuất đặc trưng thời gian nhưng
xử lý hoàn toàn từ ảnh gốc, trong khi vẫn đảm bảo được thời gian xử lý theo thời gian thực Ngoài ra, việc
sử dụng mô hình phân cấp cũng cho phép các hệ thống phát hiện đối tượng bất thường tránh được hiện tượng cảnh báo giả xuất hiện khi các đối tượng nhiễu bị nhận dạng nhầm là đối tượng bất thường
Mục đích của luận án này là nghiên cứu các thành phần của mô hình phân cấp để đề xuất cấu trúc của
mô hình phân cấp cho nhận dạng, phát hiện các sự kiện bất thường Mục tiêu cuối cùng là đề xuất được mô hình phân cấp cho nhận dạng các bất thường động, nơi đối tượng bất thường có tính chất chuyển động Việc
Trang 42
sử dụng mô hình phân cấp cho nhận dạng bất thường có thể trả lời câu hỏi nghiên cứu đề cập đến ở phần mở đầu, đó là: tăng độ chính xác và cải thiện tốc độ xử lý của các mô hình huấn luyện theo kiểu đầu cuối (end-to-end) Mô hình phân cấp được xây dựng với nhiều cấp bộ lọc để loại bỏ các đối tượng nhiễu theo từng cấp
độ liên quan đến đối tượng chính cần phát hiện Mô hình phân cấp có thể giúp các lõi xử lý ảnh trong các hệ thống cảnh báo bất thường trở nên mạnh hơn bằng việc tăng độ chính xác (giảm tỉ lệ cảnh báo giả), và đặc biệt là tăng đáng kể tốc độ xử lý Hai yếu tố này giúp cho hệ thống cảnh báo trở nên đáng tin cậy hơn
- Đề tài luận án tập trung vào nghiên cứu và đề xuất mô hình phân cấp để nhận dạng sự kiện bất thường trong ảnh/video Các mô hình học sâu phân cấp được sử dụng trong luận án là các mô hình học sâu dựa trên hai mô hình chính là mạng nơ ron tích chập CNN (Convolutional Neural Network) để trích xuất đặc trưng không gian và mạng bộ nhớ dài ngắn hạn LSTM (Long Short Term Memory) để trích xuất đặc trưng thời gian Ngoài ra, các phương pháp xử lý ảnh truyền thống cũng được sử dụng kết hợp với các mô hình học sâu để tăng hiệu năng của hệ thống
- Mô hình mạng phân cấp là tư tưởng chủ đạo để áp dụng nhận dạng, phát hiện các sự kiện bất thường thông qua việc trích xuất và phân tích đặc tính của các đối tượng bất thường trong ảnh/video Tuy nhiên, mô hình mạng phân cấp này cũng không thể áp dụng với kiến trúc và bộ tham số giống nhau cho mọi loại sự kiện bất thường Thay vào đó, mỗi mô hình mạng phân cấp cụ thể khi được áp dụng vào để nhận dạng một loại sự kiện bất thường sẽ có những sự thay đổi ở các thành phần bên trong
Đóng góp thứ nhất, nghiên cứu sinh xây dựng hai bộ dữ liệu làm tiêu chuẩn đánh giá các mô hình nhận
dạng sự kiện bất thường Đó là bộ dữ liệu LandslidePTIT cho bài toán pahts hiện sạt lở và FirePTIT cho bài toán phát hiện lửa trong video
Đóng góp thứ hai, luận án đề xuất một mô hình mạng phân cấp cho phép nhận dạng các sự kiện bất
thường tĩnh Do đặc thù sự kiện bất thường tĩnh không có yếu tố chuyển động, nên toàn bộ quá trình phát hiện, nhận dạng đều được xử lý lên một ảnh đơn Mô hình đề xuất cải thiện hiệu năng và tốc độ xử lý so với các kỹ thuật khác cho bài toán nhận dạng bất thường tĩnh
Đóng góp thứ ba, luận án đề xuất một mô hình mạng phân cấp cho các đối tượng chuyển động dựa
trên mô hình phân cấp cho nhận dạng đối tượng bất thường tĩnh ở trong đóng góp thứ 2
Ngoài phần mở đầu và phụ lục, Luận án được chia thành 3 chương Trong đó, chương 1 trình bày các
lý thuyết tổng quan trong nghiên cứu các sự kiện bất thường bao gồm phương pháp nghiên cứu, kỹ thuật xử
lý và nguyên lý xây dựng các bộ dữ liệu Chương 2 trình bày đề xuất mô hình mạng phân cấp cho sự kiện bất thường tĩnh Chương 3 báo cáo về mô hình mạng phân cấp cho sự kiện bất thường động Phần kết luận trình bày những đóng góp mới của luận án cũng như hướng nghiên cứu tiềm năng trong tương lai của đề tài nghiên cứu phát hiện các sự kiện bất thường trong hệ thống giám sát
Trang 53
CHƯƠNG 1 TỔNG QUAN VỀ GIÁM SÁT SỰ KIỆN BẤT THƯỜNG BẰNG THỊ GIÁC
MÁY TÍNH VÀ HỌC MÁY 1.1 Tổng quan về sự kiện bất thường
Sự kiện bất thường là nguyên nhân chính gây lên những thiệt hai nghiêm trọng về con người và kinh
tế xã hội Chúng có thể ở nhiều trạng thái, cường độ khác nhau, từ những va chạm giao thông hay những đám cháy trên một khu vực nhỏ đến những thảm họa tự nhiên lớn phá hủy cả một đất nước với hàng nghìn con người Quản lý sự kiện bất thường trở nên đặc biệt quan trọng để giảm thiểu tác động xấu của chúng mang lại Do vậy, sử dụng công nghệ tiên tiến để triển khai những giải pháp sáng tạo để bảo vệ, giải quyết,
và đặc biệt là cảnh báo sớm các sự kiện bất thường là một trong những lĩnh vực nghiên cứu sôi động có tính chất liên nghành với công nghệ làm trung tâm Quản lý sự kiện bất thường có liên quan đến 4 bước: bảo vệ;
phát hiện; trợ giúp; nghiên cứu sâu về nguyên nhân gây ra sự kiện bất thường [4] Trong 4 bước này thì công
nghệ đóng vai trò hạt nhân để có thể tham gia vào bước bảo vệ và phát hiện các sự kiện bất thường Mặc dù các hệ thống quản lý sự kiện bất thường đã được triển khai và đạt được những kết quả khả quan trong việc cảnh báo sớm những sự kiện bất thường gây thiệt hại lớn về người và tài sản Lĩnh vực nghiên cứu các phương pháp, kỹ thuật học máy cho phát hiện và cảnh báo sớm sự kiện bất thường cũng là một lĩnh vực nghiên cứu sôi động Các nhóm nghiên cứu tập trung nhiều vào việc cải thiện hiệu năng của các kỹ thuật nhận dạng và phát hiện bất thường dựa trên học máy Ngoài ra, do yếu tố đặc thù của sự kiện bất thường, việc triển khai các hệ thống phát hiện cảnh báo có khả năng hoạt động theo thời gian thực cũng là một nhu cầu cần thiết Các kỹ thuật nhận dạng đang được cải tiến theo hướng nâng cao tốc độ xử lý và tối ưu tài nguyên sử dụng để có thể triển khai các hệ thống này ngay cả trên các thiết bị nhúng
Dựa trên góc nhìn của phần mềm của hệ thống giám sát, giám sát sự kiện bất thường bằng hệ thống camera thường gắn với việc phát hiện và bám theo các đối tượng bất thường để phân tích các hành vi của đối tượng, đưa ra các cảnh báo kịp thời Do đó, sự kiện bất thường được giám sát bằng công nghệ xử lý ảnh và thị giác máy tính có thể được chia ra làm hai loại: Sự kiện bất thường tĩnh và sự kiện bất thường động Sự kiện bất thường tĩnh thường gắn liền với các đối tượng bất thường tĩnh, các đối tượng bất thường tĩnh không
có những chuyển động tương đối so với nền xung quanh, do vậy, các thuật toán để phát hiện bất thường tĩnh
có thể được triển khai dựa trên đầu vào là các ảnh đơn hoặc khung hình đơn từ camera Trong khi đó, sự kiện bất thường động thường gắn liền với các đối tượng bất thường chuyển động so với nền và các đối tượng xung quanh Khi đó, bên cạnh việc sử dụng các đặc trưng về mặt không gian trong các khung hình đơn truyền về
từ camera, các phương pháp phát hiện sự kiện bất thường động cần phải tích hợp được sự liên kết giữa các khung hình để trích xuất được đặc trưng về thời gian để có thể phát hiện hiệu quả Các sự kiện bất thường động có thể kể đến như lửa, khói, hoặc các hành động bất thường của con người như bạo lực, tai nạn giao thông Việc chia sự kiện bất thường thành các nhóm như vậy cũng làm đơn giản hóa việc chọn lựa các mô hình trí tuệ nhân tạo để xử lý và phân tích Nội dung của các chương sau trong luận án này đi sâu vào xử lý từng loại sự kiện bất thường bằng việc đề xuất các mô hình cho đối tượng bất thường tĩnh và đối tượng bất thường động
1.2 Dữ liệu cho phát hiện sự kiện bất thường
Sự phát triển của học máy đi kèm những tiến bộ vượt bậc trong việc xây dựng các hệ thống giám sát thông minh những cũng tạo ra một nhu cầu lớn về dữ liệu Các thuật toán học máy, đặc biệt là học sâu cần một dữ liệu lớn để có thể tạo ra những mô hình cho độ chính xác cao Phát hiện sự kiện bất thường cũng không phải là ngoại lệ khi các mô hình học máy nhận dạng, phát hiện các sự kiện bất thường cũng cần dữ liệu lớn để huấn luyện Việc thu thập dữ liệu trong các tình huống bất thường không hề dễ dàng, đặc biệt là
các tình huống bất thường nguy hiểm trong các thảm họa tự nhiên như cháy rừng, sạt lở đất, lũ lụt [5], [6]
Để xây dựng các bộ dữ liệu cho phát hiện sự kiện bất thường, các hệ thống camera hoặc cảm biến được thiết
Trang 64
lập để thu thập dữ liệu trên một quy mô lớn tại các khu vực mà bất thường có thể xảy ra [7], [8] Ngoài ra,
các thảm họa tự nhiên lớn có thể được phát hiện và thu thập dữ liệu thông qua ảnh vệ tinh hoặc các thiết bị
bay không người lái hoạt động ở độ cao nhất định Trong lĩnh vực phát hiện sự kiện bất thường, do tính chất
đặc trưng của từng tình huống, các bộ dữ liệu thường ít được công bố rộng rãi trong giới nghiên cứu gây khó khăn trong việc đánh giá, so sánh các mô hình đề xuất Các bộ dữ liệu được công bố với quy trình thu thập
và gán nhãn công phu sẽ đem lại giá trị rất lớn cho cộng đồng nghiên cứu, thúc đẩy lĩnh vực nghiên cứu 1.3 Học máy cho phát hiện sự kiện bất thường
Do sự kiện bất thường chia ra làm hai loại sự kiện bất thường tĩnh liên quan đến đối tượng bất thường tĩnh, và sự kiện bất thường động liên quan đến đối tượng bất thường động Các phương pháp học máy được
sử dụng cho phát hiện sự kiện bất thường cũng được chia ra làm hai cách tiếp cận Trong các tiếp cận học máy cho phát hiện đối tượng bất thường tĩnh, toàn bộ xử lý đều được thực hiện trên một khung ảnh đơn, và không cần thêm thông tin từ sự liên kết giữa các khung hình (trong trường hợp có thể thu dữ liệu ở dạng video) Trong cách tiếp cận học máy cho phát hiện đối tượng bất thường động, thông tin được sử dụng là hình dáng, kích thước của đối tượng trong một khung hình đơn sẽ phải ở trong một liên kết với các khung hình khác theo thời gian Nói cách khác, khi sử dụng học máy để phát hiện đối tượng bất thường động, cả đặc trưng không gian và đặc trưng thời gian của đối tượng đều cần được xem xét đồng thời Bên cạnh đó, dù phương pháp tiếp cận học máy theo cách nào, việc phân tích các đối tượng bất thường trong ảnh là đặc biệt cần thiết Một số ứng dụng tiếp cận bài toán phát hiện bất thường theo hướng lấy đầu vào là cả một bức ảnh chứa đối tượng bất thường và các đối tượng khác gặp phải vấn đề về độ chính xác không cao và thiếu dữ liệu huấn luyện mô hình Các phương pháp học máy truyền thống khi áp dụng thường yêu cầu trích chọn đặc trưng của đối tượng trong ảnh trước làm đầu vào cho mô hình Các đặc trưng có thể trích xuất từ các đối
tượng bao gồm: đặc trưng về màu sắc trên kênh màu RGB [9]; đặc trưng về hình dáng và kết cấu bề mặt của đối tượng như đặc trưng HOG; đặc trưng thời gian như wavelet [10] và luồng quang học (optical flow) [11]
Các phương pháp học máy truyền thống sau đó dựa trên đặc trưng này để tiếp tục phân tích đưa ra những nhận định về sự kiện bất thường Khi đặc trưng được trích xuất các phương pháp học máy như mạng nơ ron,
SVM được sử dụng để đưa ra kết quả cuối cùng
Khác với các kỹ thuật học máy truyền thống, học máy hiện đại sử dụng các mô hình học sâu có chứa
bộ trích chọn và học đặc trưng ở bên trong cấu trúc của mô hình Do vậy, với học sâu, không cần dữ liệu đầu vào phải ở dạng các vector đặc trưng, đầu vào có thể ở dạng dữ liệu thô như ảnh, video, âm thanh hoặc dữ liệu dạng chuỗi thời gian từ các cảm biến Học sâu cho nhận dạng phát hiện bất thường trong ảnh và video thường có hai mô hình chính được áp dụng là mạng nơ ron tích chập CNN và mạng nơ ron hồi quy RNN Trong khi mạng nơ ron tích chập cho phép sử dụng thông tin về không gian của đối tượng và sự kiện bất thường để đưa ra kết luận, mạng nơ ron hồi quy sử dụng thông tin về thời gian để kết hợp với đặc trưng không gian và đưa ra kết luận
1.4 Các nghiên cứu liên quan
Các nghiên cứu liên quan đến nhận dạng sự kiện bất thường cũng được chia ra hai nhóm theo các đặc thù của sự kiện bất thường đó là sự kiện bất thường tĩnh và sự kiện bất thường động Trong thực tế, có thể coi sự kiện bất thường tĩnh là một trường hợp riêng của sự kiện bất thường động Sự kiện bất thường tĩnh xảy ra khi đối tượng bất thường không chuyển động trong toàn bộ các khung hình Do đó, nhận dạng bất thường động là bài toán thách thức hơn so với nhận dạng bất thường tĩnh Trong nhận dạng bất thường tĩnh, toàn bộ xử lý trên một khung hình đơn là đã có thể cho ra kết quả chính xác vì đối tượng không có chuyển động tương đối với nền, do đó, hình dạng của đối tượng giữ nguyên trong các khung hình khác nhau Chính
vì vậy, ngay cả khi các hệ thống giám sát đối tượng bất thường tĩnh có thể trả dữ liệu dưới dạng video, khi
xử lý nhận dạng, chỉ cần trích xuất ra một khung hình đơn là đã có thể đưa vào mô hình nhận dạng Ngược
Trang 75
lại, với đối tượng bất thường động, do có sự chuyển động của đối tượng bất thường so với nền, cần sự phối hợp trích xuất đặc trưng thời gian giữa các khung hình để tăng độ chính xác của mô hình nhận dạng Những nghiên cứu liên quan được xem xét để thấy được điểm mạnh, yếu của các kỹ thuật, mô hình hiện có để đề xuất mô hình phân cấp cho nhận dạng bất thường tĩnh Sau đó, dựa trên những thành phần trong mô hình phân cấp này, tích hợp thêm mô đun trích xuất đặc trưng thời gian cho bài toán tổng quát hơn đó là nhận dạng bất thường động
1.5 Kết luận chương
Chương này trình bày ngắn gọn về vấn đề phát hiện sự kiện bất thường trong ảnh, video thu về từ các
hệ thống giám sát, và hệ thống quản lý sự kiện bất thường Các phương pháp học máy và các bộ dữ liệu liên quan đến sự kiện bất thường tĩnh, bất thường động cũng được trình bày Phần cuối chương giới thiệu các khảo sát, phân tích về các công trình nghiên cứu trong và ngoài nước có liên quan đến chủ đề của luận án đó
là nhận dạng bất thường tĩnh, nhận dạng bất thường động
Mục tiêu cuối cùng của luận án là hướng đến xây dựng được một mô hình phân cấp tổng quát, có thể
áp dụng được cho phát hiện các đối tượng, sự kiện bất thường động Tuy nhiên, đối tượng bất thường động thường liên quan đến việc phân tích nhiều khung hình liên tiếp của video và các đối tượng bất thường này phải được bám vết chính xác để xác định đường di chuyển của nó Một trường hợp riêng của sự kiện bất thường động là sự kiện bất thường tĩnh khi đối tượng không di chuyển so với nền Chính vì vậy, việc xử lý nhận dạng đối tượng bất thường này chỉ cần hoạt động trên một ảnh tĩnh trích xuất ra từ video.
Trang 8Mô hình gồm hai nhóm bộ lọc được phân chia theo độ mạnh, yếu và tốc độ Các bộ lọc yếu với tốc độ xử lý nhanh được đặt ở nhóm thứ nhất với mục tiêu là loại bỏ nhiều nhiễu nhất có thể, nhưng vẫn phải giữ lại được toàn bộ các đối tượng quan tâm Sau khi kết thúc nhóm bộ lọc thứ nhất, các đối tượng còn lại đã được loại
bỏ đi phần lớn nhiễu nhưng vẫn sẽ còn chứa nhiễu Những nhiễu này có phân bố, hình dạng, kích thước rất giống so với đối tượng cần phát hiện, do đó, tại nhóm bộ lọc thứ hai (là các mô hình học sâu phân loại) những nhiễu này sẽ được phân loại để trích xuất được các đối tượng cần phát hiện
𝑁!≤ 𝑁 Sau khi đi qua hết các bộ lọc ở tầng này, số lượng tensor còn lại là 𝑁! trong tập hợp 𝑂! sẽ trở thành đầu vào cho các bộ lọc ở tầng hai Nhiệm vụ của các bộ lọc mạnh ở tầng hai cần phải đưa ra được kết luận
Trang 97
chính xác về đối tượng quan tâm Một đối tượng tiềm năng sẽ được phân loại là đối tượng đúng hay nhiễu tại bước này Bộ lọc ở tầng 2 này có công thức như sau:
𝑂" = ℎ"(𝑂1) = {τ0}, 𝑣ớ𝑖 𝑖 = 1, 𝑁:::::: (2.3) " Với 𝑁" là số lượng các đối tượng được mô hình phân loại là bất thường trong kết quả cuối cùng Trong khi đó, ℎ"() là hàm số các của bộ lọc ở tầng 2, thường là các mô hình học sâu nhận dạng đối tượng Mô hình này nhận đầu vào là các tensor ở trong tập hợp 𝑂! và phân loại xem các tensor này có phải là đối tượng bất thường mà hệ thống đang tìm kiếm hay không Những tensor đúng là đối tượng bất thường mà hệ thống đang tìm kếm sẽ được giữ lại ở trong tập hợp 𝑂" Những tensor được coi là nhiễu sẽ được loại bỏ Sau khi qua hết các bộ lọc, các đối tượng bất thường ứng với các sự kiện được xác định có hay không có ở trong ảnh và ở vị trí nào Các hệ thống được xây dựng dựa trên mô hình phân cấp có thể sử dụng kết quả kèm hình ảnh để đưa
ra các cảnh báo tương ứng về sự xuất hiện của các sự kiện bất thường
2.2 Phát hiện hố sụt trong ảnh nhiệt thu về từ UAV
Dựa trên kiến trúc của mô hình mạng phân cấp được mô tả trong mục 2.1, mô hình phát hiện hố sụt trong phần này kết hợp mô hình đa tầng phát hiện hố sụt trong ảnh đơn và mô hình liên kết các ảnh liền kề nhau theo thời gian để tăng độ chính xác Mô hình đề xuất phát hiện hố sụt này được mô tả trong Hình 2.2 bên dưới Mô hình này có khả năng theo dõi nhiều hố sụt xuất hiện trong cùng một khung hình Ví dụ, trong Hình 2.2, hai hố sụt xuất hiện trong khung thứ (𝑡 − 1) Đầu tiên, trong giai đoạn phát hiện hố sụt bằng mạng phân cấp, tất cả các đường bao quanh đối tượng (BB – Bounding Box) xuất hiện trong tất cả các khung hình được trích xuất Sau đó, vị trí của tất cả các BB là đầu vào của thuật toán theo dõi hố sụt bằng liên kết dữ
liệu Mục đích chính của liên kết dữ liệu là gán các BB của khung hiện tại (tức là khung 𝑡) cho quỹ đạo chính
xác của chúng từ khung thứ (𝑡 − 1) trước đó Một Tracklet trong Hình 2.2 được định nghĩa là quỹ đạo của mỗi hố sụt - một trình tự thời gian bao gồm các vị trí đa chiều của điểm trung tâm của hố sụt Đầu ra cuối cùng của mô hình được đề xuất là các Tracklet được liên kết với các vị trí hố sụt thực trong khung hiện tại
Hình 2.2 Mô hình đề xuất phát hiện hố sụt
Trang 108
2.2.1 Phát hiện hố sụt bằng mô hình mạng phân cấp
Trong mô hình mạng phân cấp được mô tả trong Hình 2.1, Mô hình mạng học sâu đầu tiên là một kiến trúc phân đoạn hình ảnh dựa trên U-Net [12] được sử dụng để trích xuất các đối tượng tiềm năng có khả năng
là hố sụt trong ảnh Các đối tượng này được thể hiện dưới dạng các hình bao (BB) đã được mô tả Mỗi một hình bao này có dạng hình chữ nhật bao quanh các đối tượng thực tế và có thể cắt ra từ ảnh gốc để tạo thành các ảnh của đối tượng Tập hợp các hình bao này 𝐼11 sẽ là đầu vào của mô hình mạng phân cấp bao gồm một
bộ lọc theo luật ℎ#$%& và một mô hình học sâu phân loại đối tượng ℎ'% Mô hình học sâu phân loại đối tượng này dựa trên kiến trúc MobileNet v3 [13], đóng vai trò như một bộ lọc mạnh để phân biệt giữa các hố sụt thực sự và các đối tượng nhiễu khác Mô hình này nhận đầu vào là các ảnh lấy ra từ bộ lọc theo luật Trong quá trình huấn luyện mô hình, dữ liệu ảnh cũng được trích xuất ra từ bộ lọc theo luật
2.2.1.1 Mô hình phân đoạn đối tượng dựa trên mạng U-Net
Mô hình U-Net nhận ảnh đầu vào với kích thước 256x336 Kiến trúc bao gồm 3 thành phần: bộ phận thu gọn, bộ phận cầu nối, bộ phận mở rộng (contraction, bridge, expansion) Bộ phận thu gọn bao gồm ba khối thu gọn, mỗi khối nhận được dầu vào và áp dụng hai lớp tích chập 3x3, theo sau là hai lớp max pooling Sau mỗi khối thu gọn, số lượng bản đồ đặc trưng tăng lên gấp đôi để kiến trúc có thể học được những cấu trúc phức tạp hiệu quả Bộ phận cầu nối làm trung gian cho bộ phận thu gọn và bộ phận mở rộng Bộ phận này sử dụng hai lớp tích chập 3x3, tiếp theo là hai lớp tích chập 2x2 Tương tự như bộ phận thu gọn, bộ phận
mở rộng cũng bao gồm ba khối mở rộng Mỗi khối chuyển đàu vào đến hai lớp tích chập 3x3, theo sau bởi hai lớp tích chập 2x2 Sau mỗi khối, bản đồ đặc trưng sẽ bị giảm đi một nửa để duy trì tính đối xứng của mô hình Để huấn luyện mô hình UNET này, hàm mất mát Jaccard được sử dụng Hàm mất mát Jaccard thường được gọi là điểm giao nhau trên kết hợp Hàm mất mát Jaccard thường được sử dụng để đo lường độ tương đồng giữa hai tập hợp, trong trường hợp này là đo lường độ tương đồng giữa tập hợp các điểm ảnh được dự đoán và tập hợp các điểm ảnh thực tế trên ảnh Hàm mất mát Jaccard tính toán tỉ lệ giữa diện tích phần giao giữa hai tập hợp và diện tích phần hợp của chúng Hàm mất mát Jaccard được sử dụng để huấn luyện mô hình phân đoạn đối tượng này bởi vì hàm mất mát Jaccard độc lập với kích thước của đối tượng và có độ phức tạp tính toán thấp, phù hợp với các ứng dụng thời gian thực
2.2.1.2 Mô hình bộ lọc theo luật (bộ lọc yếu)
Như đã đề cập ở trên, hệ thống được đề xuất dựa trên mô hình mạng phân cấp, sau khi có được danh sách các hình bao 𝐼11, bộ lọc theo luật được sử dụng như một bộ lọc yếu nhưng nhanh để lọc bỏ nhiễu trong
tập danh sách các hình bao này Bộ lọc dựa trên luật được sử dụng như một bước xử lý sau cho mô hình Nếu
không có bộ lọc dựa trên luật, tất cả các hình bao trong tập danh sách các hình bao 𝐼11 sẽ là đầu vào của mô hình học sâu thứ hai để phân loại, điều này gây ra tính toán dư thừa và giảm hiệu năng của hệ thống Mỗi hình bao trong tập hình bao 𝐼11 được chuyển qua bộ lọc dựa trên luật ℎ#$%&() Bộ lọc theo luật này có thể được mô tả bằng công thức như sau:
𝑂#$%&= ℎ#$%&(𝐼BB) = {τ0}, 𝑣ớ𝑖 𝑖 = 1, 𝑁::::: (2.4)
𝜏0 biểu thị hình bao thứ 𝑖 trong hình ảnh, 𝑂#$%& là danh sách các hình bao sau khi đi qua bộ lọc theo luật này 𝑁 là số lượng hình bao trong tập 𝐼11 sau khi đi vào bộ lọc
2.2.1.3 Mô hình học sâu phân loại dựa trên mạng Mobilenet v3 (bộ lọc mạnh)
Trong luận án này, một bộ phân loại dựa trên CNN được sử dụng để phân biệt các hố sụt thực sự với các vật thể khác Phân loại hình ảnh bằng cách sử dụng mô hình CNN học chuyển tiếp bao gồm hai giai đoạn: huấn luyện và dự đoán Trong giai đoạn huấn luyện, mô hình CNN được huấn luyện bằng cách sử dụng một tập dữ liệu đã biết về các hình ảnh được gán nhãn với các kiểu tương ứng của chúng Sau khi các mô hình được học, chúng sẽ được sử dụng để dự đoán các loại đối tượng của hình ảnh mới
Trong số các mô hình CNN phổ biến, MobileNet là một mô hình có ít tham số hơn nhưng vẫn duy trì
độ chính xác cạnh tranh so với các mô hình hiện đại khác Mô hình MobileNet có thể chạy trên thiết bị di
Trang 119
động trong thời gian thực Hệ thống của luận án sử dụng mô hình MobileNet v3 đã được huấn luyện với tập
dữ liệu ImageNet để thực hiện học chuyển tiếp Việc sử dụng mô hình MobileNet v3 này đảm bảo rằng toàn
bộ hệ thống phát hiện hố sụt có thể hoạt động trong thời gian thực Mô hình MobileNet-small được sử dụng,
có một lớp nhân chập, 11 lớp nút cổ chai, một lớp chập với một lớp gộp toàn cục, và hai lớp được kết nối đầy đủ
2.2.2 Bám vết hố sụt bằng thuật toán Hungary
Sau khi phát hiện và nhận dạng hố sụt bằng mô hình mạng phân cấp, khó khăn với việc bám vết này
là gán hố sụt cho các tracklet tương ứng, là quỹ đạo của các đối tượng trong các khung hình liên tiếp Thuật toán Hungary (HA) được sử dụng trong mô hình đề xuất này để liên kết dữ liệu giữa các khung hình Thuật toán HA được sử dụng bởi hai ưu điểm nổi bật, thứ nhất thuật toán HA luôn luôn trả về lời giải cho bài toán gán hố sụt cho các tracklet tương ứng, thứ hai độ phức tạp tính toán của thuật toán HA thấp hơn nhiều so với các phương pháp bám vết đối tượng khác cho phép các hệ thống dựa trên mô hình đề xuất có thể áp dụng vào thực tế theo thời gian thực
2.2.3 Kết quả thực nghiệm
2.2.3.1 Bộ dữ liệu
Bộ dữ liệu video do tác giả của bài báo [14] cung cấp được sử dụng cho các thử nghiệm đánh giá mô hình đề xuất Các đoạn video được thu thập bằng camera nhiệt gắn trên thiết bị bay không người lái để ghi lại các hố sụt nhân tạo trên mặt đất Các hố sụt được đào thủ công và một nửa số hố sụt nhân tạo này chứa đầy nước để mô phỏng các điều kiện thực tế Ngoài ra, các hố sụt được hình thành ở các độ sâu khác nhau từ 0,5 m đến 2 m với đường kính từ 1 m trở xuống với sai số 0,5 m Để tìm ra thời gian tối ưu trong ngày để phát hiện các hố sụt, bộ dữ liệu được ghi lại ở các khu vực xung quanh tại các thời điểm khác nhau Bộ dữ liệu video bao gồm 16 video với các hố sụt được ghi lại ở các khoảng cách khác nhau ở độ phân giải 256 ×
336
2.2.3.2 Cài đặt môi trường thực nghiệm
Mô hình U-Net được huấn luyện từ đầu với kỹ thuật tăng dữ liệu để khắc phục vấn đề hạn chế dữ liệu, với epoch tối đa là 200 và tốc độ học là 0,001 Kích thước cụm dữ liệu của quá trình huấn luyện là 16, tương đối nhỏ so với các nghiên cứu khác về phân loại ảnh và phân đoạn ảnh Kích thước cụm dữ liệu nhỏ này được chọn vì tập dữ liệu huấn luyện của hố sụt ít chi tiết hơn so với các tập dữ liệu phổ biến khác như ImageNet Mô hình hội tụ sau 94 epoch, với giá trị hàm mất mát IoU giảm xuống 0,0230 và độ chính xác xác nhận tăng lên 95,6%
Quá trình huấn luyện mô hình học chuyển tiếp với mạng MobileNet v3 bắt đầu với tốc độ học là 0,01
và giảm dần đi một hệ số là 10 cứ sau mỗi 5 epoch Tốc độ học nhỏ ban đầu được sử dụng vì trọng số của mạng học sâu nhân chập được huấn luyện trước thường tốt và chúng sẽ không bị suy hao quá nhanh Quá trình tối ưu hóa chạy trong tối đa 100 epoch, dẫn đến độ chính xác trên 99% đối với mô hình học sâu nhân chập dựa trên mạng MobileNet v3 được huấn luyện Hơn nữa, kích thước cụm dữ liệu huấn luyện là 32 Số epoch tối đa được đặt là 100 Trong quá trình huấn luyện thực tế, sau 20 epoch, mô hình đã hội tụ về trạng thái tối ưu
2.2.3.3 Đánh giá kết quả thực nghiệm
Độ chính xác tổng thể của phương pháp phát hiện hố sụt được so sánh với độ chính xác của phương pháp trong [14] 6 video trong tập dữ liệu, đã được đề cập trước đó, được sử dụng để thực hiện đánh giá này Những video này không được sử dụng trong quá trình tạo hai bộ dữ liệu cho mô hình phân đoạn U-Net và huấn luyện mô hình MobileNet v3 để đánh giá khách quan hiệu suất của phương pháp Để so sánh hiệu suất của mô hình đề xuất với hiệu suất của phương pháp trong [14], độ chính xác phát hiện trung bình và chỉ số recall trung bình được sử dụng với các phương trình sau
Trang 12sự 𝑡*+ cao hơn có thể dẫn đến tỷ lệ TP giảm nếu hố sụt được phát hiện không khớp chính xác với ảnh hố sụt chân lý Đặt 𝑡*+ là cần thiết để đánh giá hiệu suất của hệ thống vì nguy cơ hình thành hố sụt phải được đánh giá bằng cách sử dụng thông tin về cả vị trí hố sụt và diện tích hố sụt một cách kịp thời Mô hình đề xuất sử dụng U-Net cho bài toán phân đoạn ảnh và tỷ lệ phát hiện chính xác TP cao ngay cả khi 𝑡*+ được đặt cao Trong đánh giá này, 𝑡*+ được đặt là 0,6 để so sánh các mô hình Điểm 𝐹! được tính bằng phương trình sau đây là thước đo đánh giá của phép so sánh, sau đó có thể được mô tả bằng phương trình cho 𝑡*+
𝐹!𝑠𝑐𝑜𝑟𝑒 = 2 × 67 ×62
67362 (2.7)
Hình 2.3 Đồ thị ROC (Receiver Operating Characteristic) so sánh các phương pháp
Trang 1311
Hình 2.4 Biểu đồ cột so sánh độ chính xác các phương pháp
Điểm 𝐹! trung bình trên mỗi video được mô tả trong Hình 2.4 Mô hình đề xuất đạt điểm 𝐹! cao nhất
so với các mô hình khác cho tất cả các video Đáng chú ý, mô hình đề xuất vượt trội hơn so với các phương pháp AlexNet + GMM và HOG + SVM + SlidingWindow một biên độ lớn Trong khi đó, đường cong ROC
để so sánh các phương pháp được trình bày trong Hình 2.3 Đường cong ROC được tạo ra bằng cách vẽ biểu
đồ tỷ lệ dương tính thực và tỷ lệ dương tính giả ở các cài đặt ngưỡng khác nhau (ngưỡng thay đổi) Trong kịch bản phát hiện hố sụt này, các ngưỡng thay đổi là tập hợp các giá trị 𝑡*+ (từ 0 đến 1) Ngưỡng càng cao thì càng khó để một hố sụt được dự đoán trở thành một mẫu dương tính thực sự Như thể hiện trong hình này, diện tích dưới đường cong của mô hình đề xuất là lớn nhất, chứng tỏ tính hiệu quả trong việc phát hiện các hố sụt
Đánh giá thời gian thực hiện trên thiết bị nhúng
So sánh mô hình đề xuất với các mô hình khác trên bo mạch nhúng Jetson TX2 được mô tả trong Bảng 2.1 Một điều quan trọng đáng chú ý trong so sánh này là bo mạch Jetson TX2 chứa các lõi GPU (đơn
vị xử lý đồ họa) hỗ trợ các mô hình học sâu Do đó, các mô hình học sâu chạy trên bo mạch này được tăng tốc lên nhiều so với các mô hình học máy phát hiện đối tượng cổ điển Mô hình đề xuất đạt được hiệu suất cao nhất là 13,2 FPS, trong khi mô hình chậm nhất là Faster RCNN với 1,3 FPS
Bảng 2.1 Tốc độ khung hình của mô hình đề xuất
Trang 1412
2.3 Phát hiện đường sạt lở trong ảnh thu về từ UAV
Hình 2.5 mô tả luồng xử lý chính của mô hình được đề xuất Sau khi phát hiện được đối tượng là khu vực sạt lở tiềm năng, các đối tượng này được đưa đến bộ phân loại dựa trên học sâu để đưa ra kết luận cuối cùng là đường có sạt lở hay không Khối bộ lọc theo luật được triển khai trước bộ phân loại học sâu và sau khối phát hiện các đối tượng tiềm năng là sạt lở trong ảnh Việc sử dụng bộ lọc theo luật giảm tải tính toán cho bộ phân loại dựa trên học sâu tương tự như trong bài toán phát hiện hố sụt được trình bày trong phần trước Mô hình đề xuất trong bài toán phát hiện sạt lở này vẫn tuân theo tư tưởng của mô hình phân cấp bao gồm nhiều cấp bộ lọc với các vai trò khác nhau
Hình 2.5 Luồng xử lý của hệ thống phát hiện sạt lở đường
2.3.1 Phân đoạn đường
Phân đoạn đường là một trong những bước đầu tiên của toàn bộ hệ thống Sự kiện đường bị sạt lở thường dẫn đến những sự đứt gãy đối tượng đường trong hình ảnh được phân đoạn Do đó, phân đoạn đường giúp cho hệ thống có khả năng trích xuất ra được những đối tượng (khu vực) trong hình ảnh có khả năng là đoạn đường bị sạt lở Để giải quyết bài toán phân đoạn đường này, mô hình SD-UNet được sử dụng như một
mô hình cơ bản, mô hình này được chỉnh sửa thành một phiên bản rút gọn với ít tham số hơn, qua đó đạt