Tính cấp thiết của luận án Gần đây phương pháp hỗ trợ dẫn đường bằng máy ảnh thị giác nổi được tập trung nghiên cứu với nhiều hy vọng giải quyết được tối đa các vấn đề trong bài toán cứ
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Đặng Khánh Hòa
NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC THUẬT TOÁN ƯỚC LƯỢNG
MẶT PHẲNG VÀ DẪN ĐƯỜNG CHO HỆ THỐNG THỊ GIÁC RÔ-BỐT TRONG NHÀ
Ngành: Kỹ thuật điện tử
Mã số: 9520203
TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
Trang 2Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội
Người hướng dẫn khoa học:
Có thể tìm hiểu luận án tại thư viện:
1 Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2 Thư viện Quốc gia Việt Nam
Trang 3MỞ ĐẦU
1 Tính cấp thiết của luận án
Gần đây phương pháp hỗ trợ dẫn đường bằng máy ảnh thị giác nổi được tập trung nghiên cứu với nhiều hy vọng giải quyết được tối đa các vấn đề trong bài toán cứu hộ, cứu nạn, hỗ trợ những người khiếm thị và nhiều lĩnh vực khác Dựa trên hình ảnh thu nhận trong môi trường cảm thụ không biết trước cho phép xác định được chính xác đường đi, tránh vật cản và tới mục tiêu Tình hình nghiên cứu các thuật toán xử lý tín hiệu máy ảnh ứng dụng trong các lĩnh vực nêu trên chưa được sự quan tâm xứng đáng với vai trò quan trọng của nó Số lượng các bài báo, các công trình khoa học có liên quan được công bố trên các tạp chí khoa học, báo khoa học ở trong nước còn hạn chế
2 Mục tiêu, đối tượng, phương pháp và phạm vi nghiên cứu
2.1 Mục tiêu nghiên cứu
Mục tiêu thứ nhất là tăng cường thuật toán tính toán bản đồ chênh lệch/độ sâu về mặt thời gian,
hỗ trợ cho hệ thống máy ảnh nổi cung cấp dữ liệu độ sâu theo thời gian thực cho các ứng dụng khai thác dữ liệu sâu hơn Mục tiêu thứ hai là nghiên cứu và đề xuất thuật toán các thuật toán trích xuất mặt phẳng dựa trên dữ liệu độ sâu, đáp ứng yêu cầu xử lý theo thời gian thực, hỗ trợ cho bài toán tái tạo đối tượng 3D Mục tiêu thứ ba là tập trung nghiên cứu và đề xuất thuật toán nhận dạng hiệu quả mặt đất từ dữ liệu bản đồ độ sâu, đáp ứng yêu cầu xử lý theo thời gian thực để hỗ trợ giải quyết bài toán dẫn đường cho rô-bốt Mục tiêu thứ tư là nghiên cứu phương pháp dẫn đường cho rô-bốt áp dụng thuần túy thuật toán khai thác bản đồ độ sâu, trong môi trường trong nhà không biết trước, theo định hướng giảm thiểu độ phức tạp; đáp ứng được yêu cầu dẫn đường chính xác
2.2 Đối tượng nghiên cứu
Từ các mục tiêu nghiên cứu trên, luận án tập trung vào đối tượng nghiên cứu thứ nhất là các thuật toán xử lý dữ liệu bản đồ độ sâu được cung cấp bới hệ thống máy ảnh nổi hoặc RGB-D, cung cấp dữ liệu vào cho bài toán dẫn đường của rô-bốt trong nhà, với khả năng tự tránh các vật cản trên đường
di chuyển Tiếp theo nghiên cứu phương pháp dẫn đường cho rô-bốt dùng hệ thống máy ảnh nổi hoặc RGB-D trong nhà không biết trước Cuối cùng là nghiên cứu, thiết kế và chế tạo mô hình rô-bốt tích hợp hệ thống máy ảnh nổi hoặc RGB-D với các thuật toán đã phát triển nhằm thử nghiệm độ tin cậy
2.3 Phương pháp nghiên cứu
Phương pháp nghiên cứu trong luận án đi từ nghiên cứu lý thuyết đến thực nghiệm, ứng dụng các
kỹ thuật xử lý ảnh thu nhận từ máy ảnh nổi vào giải quyết bài toán tìm đường trên robot di động Đầu tiên luận án nghiên cứu lý thuyết, xây dựng mô hình, sau đó mô phỏng thuật toán, thiết kế chế tạo mô hình xe rô-bốt để thực nghiệm trên hiện trường nghiên cứu và đo lường, đánh giá
2.4 Phạm vi nghiên cứu
Phát triển các thuật toán xử lý ảnh được cung cấp bởi hệ thống máy ảnh nổi hoặc RGB-D Phát triển thuật toán dẫn đường cho rô-bốt trong môi trường năng động chỉ sử dụng thuần túy dữ liệu thu nhận bởi hệ thống máy ảnh nổi hoặc RGB-D Xây dựng mô hình rô-bốt dẫn đường bằng hệ thống máy ảnh nổi hoặc RGB-D với các thuật toán đã phát triển đối với môi trường hoạt động trong nhà chưa biết trước
3 Ý nghĩa khoa học và những đóng góp của luận án
3.1 Ý nghĩa khoa học: Việc nghiên cứu các thuật toán xử lý video bản đồ độ sâu cung cấp bởi hệ
thống máy ảnh nổi hoặc RGB-D của đề tài mang ý nghĩa khoa học bao gồm cả hai khía cạnh lý luận
và thực tiễn
3.1.1 Về lý luận: Góp phần phát triển cơ sở khoa học các thuật toán xử lý tín hiệu video độ sâu
thông qua xây dựng các phương pháp tính toán nhanh, chính xác cao cho bài toán dẫn đường cho xe rô-bốt khảo sát hiện trường - một định hướng nghiên cứu mang tính thời sự Các kết quả nghiên cứu của đề tài dự kiến sẽ đóng góp cho sự phát triển của nền tảng lý thuyết xử lý tín hiệu video độ sâu Thúc đấy giải quyết bài toán nhân dạng đối tượng mặt đất hỗ trợ dẫn đường sử dụng thị giác máy tính cho rô-bốt di động hoạt động trong môi trường động trong nhà
Trang 43.1.2 Về mặt thực tiễn: Thuật toán được nghiên cứu và đề xuất trong luận án có thể làm cơ sở cho
các nhà sản xuất thiết bị rô-bốt, hệ thống giám sát quan sát cảnh báo 3D thông minh Do vậy, đề tài
có tính thực tiễn cao Thuật toán đề xuất có thể được ứng dụng vào trong thiết kế và chế tạo các bốt khảo sát hiện trường, cứu hộ phù hợp với điều kiện môi trường tại Việt Nam
rô-3.2 Các đóng góp khoa học của luận án gồm:
1 Luận án đề xuất thuật toán xác định các mặt phẳng từ bản đồ độ sâu Bước đầu, đề xuất tăng cường thuật toán tính bản đồ chênh lệch SAD Phương pháp thực hiện tính toán trên tập điểm biên của ảnh thị giác nổi, giúp giảm sâu khối lượng dữ liệu cần xử lý Tiếp theo, luận án đề xuất phương pháp trích mặt phẳng từ bản đồ độ sâu sử dụng thuật toán Lọc và gom nhóm hàng xóm (NGaF) có khả năng giảm độ phức tạp tính toán cũng như tăng tốc độ xử lý Sau đó, luận án đề xuất phương pháp nhận dạng mặt đất áp dụng thuật toán Bản đồ gradient độ sâu (GDM) khai thác bản đồ độ sâu, cũng chính là giải quyết tránh vật cản trở đạt hiệu quả cao để phát triển ứng dụng dẫn đường dựa trên
hệ thống thị giác cho hệ rô-bốt di động trong nhà
2 Luận án đề xuất phương pháp dẫn đường cho rô-bốt trong môi trường không biết trước dựa trên việc xác định mặt phẳng đất gọi là Luôn di chuyển thẳng tới đích (AMSD) Luận án phát triển việc khai thác mặt đất để tìm ra hướng đi ngắn nhất tới đích cho trước Ban đầu là việc xây dựng mô hình xe rô-bốt thích hợp với môi trường thử nghiệm chỉ được trang bị hệ cảm biến RGB-D Thuật toán tìm mặt đất tích hợp trong hệ rô-bốt đáp ứng được thời gian thực, giúp cho việc tìm phương hướng một cách chắc chắn và nhanh chóng
4 Cấu trúc nội dung của luận án
Nội dung luận án bao gồm bốn chương Đầu tiên, chương 1 tập trung giới thiệu hệ thống dẫn đường dựa trên hình ảnh thị giác tích hợp cho rô-bốt di động Phần cuối cùng của chương 1 trình bày một số vấn đề còn tồn tại trong xử lý ảnh thị giác, trong lĩnh vực dẫn đường cho rô-bốt dựa trên hệ thống máy ảnh RGB-D hoặc thị giác nổi Chương 2 có hai nội dung chính Thứ nhất là phương pháp tăng tốc độ tính bản đồ chênh lệch/độ sâu dựa trên cải tiến cách thực hiện thuật giải SAD gốc Thứ hai là phương pháp trích xuất mặt phẳng dựa khai thác bản đồ độ sâu Chương 3 phát triển thuật toán
để giải quyết bài toán nhận dạng mặt phẳng đất Từ đó tác giả đề xuất phương pháp mới có cải thiện hiệu năng so với các phương pháp này Phương pháp đề xuất kiểm nghiệm trên hai loại tập dữ liệu
độ sâu chuẩn và tập dữ liệu thu thập thực tế Kết quả thu được đã minh chứng cho tính mãnh mẽ, ổn định của thuật toán thông qua cả hai phương pháp đánh giá trực quan và đánh giá khách quan
Cuối cùng, chương 4 nghiên cứu đề xuất chiến thuật dẫn đường áp dụng cho rô-bốt di động
đi tới đích cho trước Bài toán được giải quyết trong môi trường hoạt động trong nhà không biết trước với ràng buộc chỉ sử dụng dữ liệu bản đồ độ sâu Các phân tích cụ thể phương pháp tìm đường đi đề xuất đã nêu rõ những ưu điểm nổi bật cũng như một số hạn chế của bài toán tìm đường trong nhà; cho thấy tính khả thi của phương pháp dẫn đường đề xuất
CHƯƠNG 1 TỔNG QUAN HỆ THỐNG DẪN ĐƯỜNG CHO RÔ-BỐT DỰA
TRÊN HÌNH ẢNH THỊ GIÁC MÁY TÍNH
1.1 Giới thiệu chương
Nội dung của chương này gồm hai phần Phần đầu trình bày lý thuyết tổng quan về hệ thống dẫn đường cho rô-bốt di chuyển trên mặt đất với các khái niệm, vai trò và phân loại một số loại hệ thống dẫn đường hiện nay Phần cuối cùng của chương này phân tích cụ thể các vấn đề liên quan tới việc khai thác dữ liệu độ sâu hiện nay với các phân tích chi tiết các vấn đề tồn tại theo từng khía cạnh của bài toán dẫn đường cho rô-bốt
1.2 Hệ thống dẫn đường cho rô-bốt trong nhà
Hệ thống dẫn đường cho rô-bốt là một hệ thống kết hợp phần cứng và phần mềm nhằm tính toán đường đi cho rô-bốt một cách hợp lý Dựa theo nguyên tắc dẫn đường, chúng được phân biệt như sau: Dẫn đường toàn cục, Dẫn đường cục bộ, Dẫn đường riêng Ba hệ thống dẫn đường trên có
Trang 5thể được ứng dụng một cách độc lập hoặc sử dụng kết hợp với nhau để bổ sung ưu điểm cho nhau bởi với mỗi một hệ thống đều có những ưu nhược điểm nhất định
Kiến trúc hệ thống dẫn đường rô-bốt sử dụng thị giác máy tính
Với phạm vi hoạt động là môi trường trong nhà chưa biết trước, kiến trúc của hệ thống dẫn đường cho rô-bốt di động như Hình 2.1
Hình 2.1 Hệ thống dẫn đường bằng thị giác cho rô-bốt
1.3 Một số vấn đề của hệ thống rô-bốt dẫn đường dựa trên thị giác nổi
1.3.1 Phương pháp tính toán bản đồ chênh lệch/độ sâu
Vấn đề tương đồng trong ảnh thị giác nổi là tìm các đối tượng tương ứng giữa hai hình ảnh đầu vào [37], [38], được nghiên cứu trong nhiều năm gần đây Đây là một trong những vấn đề cơ bản trong lĩnh vực thị giác máy tính hỗ trợ cho nhiều ứng dụng nghiên cứu thị giác máy tính sâu hơn như nhận dạng đối tượng, trích đặc trưng
1.3.2 Phương pháp trích xuất đối tượng mặt phẳng dựa trên ảnh thị giác máy tính
1.3.2.1 Phát hiện mặt phẳng sử dụng chuyển đổi Hough
Sử dụng dạng biểu diễn bằng pháp tuyến của mặt phẳng như (1.3)
trong đó θ, φ và ρ là các thông số của mặt phẳng pháp tuyến đi qua gốc Vì vậy, θ, φ và ρ là hằng số và không gian tham số là (O’θ φ ρ) Trong trường hợp này, một điểm (X1 , Y1 , Z1) trong không gian 3D đại diện cho một bề mặt hình sin trong không gian tham số Đây chính là nguyên lý của biến đổi Hough 3D
1.3.2.2 Phát hiện mặt phẳng sử dụng thuật toán RANSAC
Thuật toán RANSAC một phương pháp lặp để ước tính các tham số của mô hình toán học bắt đầu từ một tập hợp dữ liệu chứa các ngoại lệ [46] Việc áp dụng thuật toán RANSAC cho phép phát hiện các mặt phẳng trong ảnh thị giác Mặt phẳng kết quả bao gồm mặt phẳng có giá trị và các điểm nhiễu thuộc về các mặt phẳng khác và có một số điểm bị mất Các điểm nhiễu này cần được loại bỏ khỏi mặt phẳng thật vừa được phát hiện và phải được gán lại cho đám mây điểm ban đầu Những điểm bị mất phải được thêm vào mặt phẳng được phát hiện để nâng cao tính đầy đủ của phép trích xuất mặt phẳng Đồng thời, các điểm này cũng được tách ra từ đám mây điểm ban đầu Do đó giải thuật RANSAC áp dụng để trích xuất mặt phẳng chưa chứng minh được tính mạnh mẽ trừ phi cần thêm các giải pháp khắc phục Ngoài ra kết quả trực quan trên chưa có chứng minh độ ổn định của thuật toán mà cần có các số liệu đánh giá khách quan
1) Phương pháp biến đổi ảnh thị giác
Sự biến đổi các điểm trên mặt phẳng đất giữa các hình ảnh tại thời điểm k-1 và k được cho bởi
một bản đồ phẳng như (1.6) [22] [50]
1
trong đó x kvà x k−1 là tọa độ đồng nhất của các đặc trưng trong ảnh hiện tại và ảnh trước Ma
trận biến đổi phẳng H bao gồm tám hệ số độc lập nên cần có ít nhất 8 phương trình (tức là bốn điểm
tương ứng) để giải hệ tuyến tính [50] Sự biến đổi ảnh tức thời tính theo cách này có thể không mang lại kết quả chính xác vì sự tương đối không chính xác hoặc sai Điều này đặc biệt có hại khi vài điểm
được sử dụng trong tính toán của H, như trường hợp trong một môi trường phức tạp, do số lượng
điểm đặc trưng khan hiếm
Phần lớn các phương pháp dựa trên sự biến đổi ảnh tính toán các thông số trong (1.6) để biểu diễn, phân tích sự biến đổi ảnh trong suốt quá trình quan sát Tuy nhiên, điều này liên quan đến việc giải quyết hai vấn đề phức tạp gồm ước lượng tự chuyển động và phép trích chọn mặt đất 3D
2) Thực hiện nhận dạng mặt phẳng đất sử dụng phép biến đổi ảnh
Máy ảnh RGB-D/
Máy ảnh nổi
Xử lý hình ảnh
Cơ cấu chấp hành
Trang 6Các khu mặt đất được trích xuất được xây dựng chồng lên hình ảnh đầu vào ở khu vực bên dưới với phần màu xám Các yếu tố nền và các vật thể di chuyển ra khỏi mặt đất có thể được kiểm tra thêm Các hình ảnh khác nhau của một chuỗi được phân tích để xác định những phần tử này không thuộc về mặt đất và có thêm hình dạng hoặc mô hình chuyển động được mong đợi từ một vật thể chuyển động
3) Phân tích đánh giá phương pháp biến đổi ảnh ứng dụng nhận dạng mặt đất
Phương pháp phát hiện mặt đất sử dụng phép biến đổi ảnh không đòi hỏi phải tính toán rõ ràng chuyển động của máy ảnh cũng như ước lượng tham số mặt đất 3D Phương pháp này chỉ dựa trên tính năng kết hợp trên các hình ảnh kế tiếp và một khuôn khổ tính toán phép biến đổi ảnh mới Hạn chế lớn của phương pháp này là giả định các mặt phẳng ổn định và chuyển động đều Điều này rất khó xảy ra trong thực tế di chuyển của rô-bốt Mặt khác nếu phương pháp ước lượng dữ liệu tuyến tính để tính toán phép biến đổi ảnh quá đơn giản, chưa thực sự bám sát thực tế Chiến lược phát hiện đối tượng chưa được xây dựng hoàn chỉnh để tăng cường độ tin cậy kết quả đáng kể ngay
Trong các ứng dụng điều hướng rô-bốt trong nhà, cấu trúc của bề mặt sàn sẽ không thể có giả định điểm đặc trưng mà các nghiên cứu thường giả định môi trường nhân tạo trong nhà thường chứa các tập hợp các đường thẳng có cấu trúc có thể được sử dụng như thông tin điều hướng hữu ích
Các nghiên cứu [18] [88] [20] tập trung vào khai thác bản đồ chênh lệch để giảm khối lượng
dữ liệu đầu vào Phương pháp [18] được đề xuất so sánh sự khác biệt độ chênh lệch trên mỗi dòng trong bản đồ chênh lệch Kết quả cho thấy tính mạnh mẽ của thuật toán không cao nếu nguồn ảnh bị ảnh hưởng bởi bối cảnh Trong bản đồ khác biệt thực tế, rõ ràng là luôn có nhiễu xuất hiện bởi hai loại yếu tố bên ngoài và bên trong Ngoài ra, có thêm một điểm hạn chế nữa là các kết quả chỉ được hiển thị trong bối cảnh không có vật cản Thuật toán V-Disparity cải tiến [88] dẫn đầu với tỷ lệ phát hiện điểm đất cao hơn nhưng nó bị trả giá bởi độ phức tạp của quá trình xử lý khi thuật toán tích hợp phép biến đổi Hough hoặc thuật toán RANSAC để lọc kết quả thô
𝑙(𝑥𝑖; 𝛩̂) = { 1 𝑛ế𝑢 |𝑓(𝑥𝑖; 𝛩̂)| <
0 𝑡𝑟𝑜𝑛𝑔 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑘ℎá𝑐
(1.19) Trong đó là ngưỡng giá trị để quyết định một điểm thuộc mặt phẳng hay không được xác định thông qua bộ tham số mặt phẳng đất Thuật toán kinh điển RANSAC được sử dụng để tìm tham số mặt đất với các tham số nội tại và ngoại chưa biết Quá trình tìm kiếm ngẫu nhiên lặp lại với số lần lặp lại cần thiết dựa trên tỷ số của các tham số nội tại Vì thế, RANSAC có thể được điều chỉnh một cách thích nghi số lần lặp lại của nó dựa trên một điều kiện xác suất của sự tin cậy
3) Phân tích đánh giá
Trang 7Các thí nghiệm với bộ dữ liệu 3D LiDAR được thu thập bằng các cảm biến laze nên có ít nhiễu hơn các loại máy ảnh thị giác nên số lần lấy mẫu sẽ có lợi thế hơn Các tham số và số lần lặp của trong thuật toán RANSAC thường bị ấn định chủ quan, thiếu cơ sở khoa học [14] [15] Việc sử dụng một mô hình mặt đất chưa mang lại tính chính xác cao nên vẫn cần sự cải tiến định hướng bổ xung các cảm biến dữ liệu trực quan hoặc kết hợp các mô hình mặt đất hoặc các đặc trưng môi trường cục bộ
Việc dẫn đường cho xe rô-bốt sử dụng cảm biến phi thị giác như cảm biến siêu âm đã có được ứng dụng nhất định Ngày nay hầu hết các hệ rô-bốt đều được tích hợp hệ máy ảnh để quan sát, thu thập dữ liệu môi trường Các nguồn dữ liệu đầu vào video màu, độ sâu, … là cực kỳ giàu có thông tin Nằm trong mục đích khai thác sâu nguồn dữ liệu hình ảnh của hệ thống thị giác gắn trên xe rô-bốt thì bài toán dẫn đường bằng hệ thống thị giác sẽ góp phần khơi thêm tiềm năng của hệ thống này
Xe rô-bốt di động di chuyển tự trị trong một môi trường không rõ thì nó phải có khả năng thực hiện xây dựng một số loại bản đồ và tự xác định vị trí và quy hoạch đường dẫn Việc đồng thời xác định vị trí và lập bản đồ, như [49] đòi hỏi có một bản đồ và lập bản đồ chính xác để ước tính chính xác vị trí Vấn đề này là trọng tâm của nhiều công trình nghiên cứu [53] [54] [55] [56] với nhiều giải pháp kỹ thuật giải quyết được đề xuất
Trong luận án này rô-bốt được xem xét xây dựng với một nhiệm vụ điều hướng trong một môi trường chưa biết trong nhà khai thác dữ liệu bản đồ độ sâu
Vấn đề cơ bản của việc lập kế hoạch đường đi là tạo ra một con đường không bị va chạm từ một điểm khởi đầu nhất định A, đến một điểm kết thúc mong muốn B Một số phương pháp để điều hướng trong một môi trường chưa biết đã được trình bày và tùy thuộc vào cách xác định khu vực hoạt động, có nhiều cách khác nhau để giải quyết vấn đề lập kế hoạch đường dẫn Với mục đích khai thác hiệu quả dữ liệu độ sâu, tác giả của luận án này tập trung nghiên cứu ứng dụng bài toán dẫn đường cho xe rô-bốt theo phương pháp lập kế hoạch đường đi cục bộ dựa trên thuần túy việc khai thác dữ liệu độ sâu
Hướng nghiên cứu sử dụng phương pháp tính toán thị giác nổi mà tác giả có dự kiến lựa chọn phương pháp để phát triển trong luận án này Dựa vào chiều sâu của điểm, có thể đánh giá liệu điểm
đó có nằm trên mặt đất hay không [62] [67] Hiện nay, một khó khăn của phát hiện vật cản dựa vào ảnh thị giác nổi là vấn đề phức tạp tính toán Gần đây, một số nhà nghiên cứu bắt đầu nghiên cứu về phát hiện vật cản bởi cảm biến độ sâu Công trình [68] trang bị một cảm biến độ sâu trên một rô-bốt
di động để phát hiện và tránh chướng ngại vật Tuy nhiên phương pháp này chưa có thể phân biệt giữa các chướng ngại vật tĩnh và chướng ngại vật di chuyển trong môi trường năng động để rô-bốt di động có thể thực hiện nhiều chiến lược tránh chướng ngại vật khác nhau
1.4 Tổng kết chương
Qua đánh giá cơ bản, tác giả thấy có các vấn đề cần nghiên cứu triệt để hơn như sau đây
Vấn đề trích xuất mặt phẳng từ bản đồ chênh lệch/độ sâu: Bài toán cần được giải quyết kỹ
lưỡng từ khâu tốc độ tính toán bản đồ chênh lệch/độ sâu Các phương pháp trích xuất mặt phẳng cần cải thiện thời gian chạy Do đó thuật toán cần thỏa mãn hai yếu tố gồm khối lượng dữ liệu tính toán
ít hơn và độ phức tạp thuật toán thấp Hơn nữa, vấn đề nhận dạng mặt đất từ dữ liệu ảnh thị giác máy tính cũng có thể giải quyết dựa trên dữ liệu bản đồ độ sâu Thuật toán nhận dạng mặt đất cũng cần đảm bảo tính mạnh mẽ, phổ quát và khối lượng tính toán thấp hoặc tương đương nhưng kết quả phải tốt hơn các phương pháp gần đây
Vấn đề dẫn đường cho xe rô-bốt trong nhà trong môi trường chưa biết Các phương pháp
nghiên cứu về dẫn đường dựa trên thị giác máy tính được khảo sát cho thấy còn tồn tại hạn chế về tính chính xác, tính tối ưu
Trang 8CHƯƠNG 2 PHƯƠNG PHÁP TĂNG TỐC TÍNH TOÁN BẢN ĐỒ CHÊNH LỆCH VÀ PHÁT TRIỂN THUẬT TOÁN TRÍCH XUẤT MẶT PHẲNG
2.1 Giới thiệu chương
Chương này sẽ trình bày hai nội dung chính Nội dung thứ nhất về phương pháp tăng tốc độ xây dựng bản đồ chênh lệch/ độ sâu với đề xuất thuật toán SAD cải thiện Giải thuật đề xuất được đánh giá thời gian xử lý nhanh hơn trong khi các tiêu chí khác vẫn tương đương Nội dung chính thứ hai là phương pháp trích xuất đối tượng mặt phẳng được đề xuất có thể giữ lại những ưu điểm của phương pháp tiếp cận [4] [5]
2.2 Hệ thống máy ảnh nổi
Một hệ thống máy ảnh nổi bao gồm hai hoặc nhiều ống kính với một bộ cảm biến hình ảnh riêng biệt hoặc khung phim cho mỗi ống kính được đặt theo chiều ngang Nguyên lý thị giác nổi giống như tầm nhìn hai mắt của con người và nhận thức trực quan của chúng ta về độ sâu, nơi mà các vật ở xa hơn trong cảnh thì vị trí của chúng ít thay đổi khi chúng ta nhắm mắt luân phiên Sự khác biệt vị trí thường của một đặc trưng trong hai ảnh thường là theo trục ngang Chênh lệch được định nghĩa là phép trừ, từ hình ảnh trái sang phải, của các tọa độ 2D của các điểm tương ứng trong không gian hình ảnh
2.3 Phương pháp tăng tốc tính toán bản đồ chênh lệch/độ sâu
2.3.1 Triển khai tính toán SAD thông thường
Hình 2.5 cho thấy một sơ đồ khối điển hình để tính toán bản đồ chênh lệch Thứ nhất, các hình ảnh trái và phải được hệ thống máy ảnh nổi thu được, và sau đó được chuyển thành hình ảnh tỷ lệ xám và được sử dụng để tính toán bản đồ chênh lệch bằng phương pháp SAD
Hình 2.5 Hệ thống tính bản
đồ độ sâu điển hình SAD
Độ chênh lệch thường được xem như sự dịch chuyển sang bên trái của một đặc điểm hình ảnh khi nó được xem trong hình ảnh bên phải Nó được xác định bằng giá trị nhỏ nhất của Tổng sự khác biệt tuyệt đối (SAD), được áp dụng để tính chênh lệch cho mỗi điểm trong hình ảnh bên phải [38] Thuật toán sử dụng một cửa sổ tham chiếu giống nhau có kích thước 2w+12w+1 tính theo điểm ảnh và vùng tìm kiếm xung quanh cửa sổ tham chiếu giống nhau s s điểm ảnh, áp dụng cho mọi điểm trong khung cảnh Sau khi thuật toán SAD tính cho tất cả các chênh lệch hợp lệ (2.3)
Trong đó I L và I R biểu thị các giá trị màu xám của điểm ảnh trong ảnh bên trái và ảnh bên
phải, d là phạm vi của sự khác biệt, vì kích thước cửa sổ w và x, y là tọa độ của điểm ảnh trung tâm của cửa sổ Giá trị nhỏ nhất của SAD được biểu thị bằng D(x, y) có thể được biểu diễn bằng công
thức sau (2.4)
𝐷(𝑥, 𝑦) = 𝑎𝑟𝑔 𝑚𝑖𝑛 𝑆𝐴𝐷(𝑥, 𝑦, 𝑑) với d∈[d_min,d_max ] (2.4)
2.3.2 Triển khai tính toán SAD đề xuất
2.3.2.1 Hệ thống tính toán SAD đề xuất
Trên thực tế, theo phương pháp SAD thông thường, không phải tất cả các điểm đều chứa thông tin đặc trưng về đối tượng, thay vì thông tin biên Vì vậy, trong phương pháp được đề xuất, khâu phát hiện biên được thêm vào việc thực hiện SAD thông thường như được mô tả trong Hình 2.6
2.3.2.2 Phát hiện biên trong hình ảnh xám
Ảnh trái
Tính toán
chênh lệch Ảnh phải
Từ máy ảnh nổi
Chuyển ảnh xám
Chuyển ảnh xám
Trang 9Do đó, thời gian xử lý và phạm vi tìm kiếm đạt được hiệu quả rất lớn Biểu thị cửa sổ tham chiếu
và tìm kiếm là A và A’ SAD được xác định theo cách tương tự được mô tả ở trên nhưng chỉ áp dụng cho những điểm tương ứng với các điểm ảnh được phát hiện biên Để giảm các điểm ảnh biên sai, sự khác biệt về cường độ giữa các điểm ảnh trung tâm của A và A’ được tính toán và so sánh với một
maxbias đã cho Nếu chênh lệch này lớn hơn sai lệch, tìm kiếm sẽ bị bỏ qua và được chuyển sang bước
tiếp theo Trong hệ thống đề xuất này, thuật toán dò biên Sobel [77] được sử dụng, bởi tính đơn giản
và hiệu quả của nó Trong giai đoạn lọc, bản đồ chênh lệch được tinh chỉnh bằng cách sử dụng bộ lọc hợp lý và kích thước lọc như trong [76], [78] để tránh các điểm chênh lệch được chỉ định không đúng
là những điểm mà thực tế không thể nhìn thấy trong hình ảnh trái hoặc phải do bị che khuất hoặc khu vực phía sau của hình ảnh
Hình 2.6 Hệ thống tính bản đồ độ sâu SAD điều chỉnh đề xuất
2.3.2.3 Kết quả thực hiện và thảo luận
Phần này đề cập đến việc đánh giá hiệu suất về tính chính xác trong việc xây dựng lại bản đồ chênh lệch cũng như thời gian thực hiện công việc này so với việc thực hiện SAD ban đầu Thông số khác là hiệu suất được sử dụng trong thử nghiệm, gọi là mức độ phù hợp để đưa ra tỷ lệ phần trăm của tổng
số điểm ảnh, mà giá trị chênh lệch đã được gán
Hình 2.9 thể hiện cách đánh giá hiệu suất khác về thời gian, độ chính xác và độ bao phủ của việc thực hiện SAD thông thường với các kích thước cửa sổ khác nhau Nó cho thấy kích thước cửa sổ càng
lớn, thời gian tiêu tốn qua càng dài Đối với kích thước cửa sổ sử dụng maxbias khác nhau, người ta
có thể thấy rằng thời gian tiêu tốn và được giảm đáng kể trong khi độ chính xác giữ gần như không
thay đổi với maxbias =10 Thời gian xử lý tiêu tốn cao nhất đã được ghi lại cho kích thước cửa sổ và
maxbias là 2
Hình 2.9 Biểu đồ thời gian tiêu tốn, độ chính
xác và độ che phủ được thực hiện bởi SAD
thông thường cho ảnh Cones
Hình 2.10 Thời gian chạy, độ chính xác và độ bao phủ của thuật toán SAD được điều chỉnh cho
hình ảnh Cones
Việc đánh giá hiệu năng tương tự được mô tả trong Hình 2.10 cho thuật toán SAD đề xuất Thông
số đánh giá ấn tượng nhất là thời gian xử lý giảm đáng kể khoảng 5,7 lần, tương đương với khoảng 89% so với phương pháp xử lý toàn ảnh, tương ứng Sự cải thiện này đạt được bằng cách giảm số lượng điểm ảnh tham gia vào quá trình tính toán SAD nhờ phát hiện biên được chấp nhận
Hình 2.11 cho phép đánh giá so sánh các thông số thời gian tiêu tốn áp dụng phương pháp SAD điển hình và được đề xuất
Ảnh trái
Tính toán
chênh lệch Ảnh phải
Chuyển ảnh xám
Tinh chỉnh
Trang 10Việc thay đổi thuật toán SAD cho việc tạo bản đồ chênh lệch trong một hệ thống thị giác nổi được
đề xuất để đạt được sự cải thiện đáng kể về thời gian tính toán và độ chính xác Điều này rất có ý nghĩa
vì bài toán xây dựng bản đồ chênh lệch rất quan
trọng trong việc triển khai nhiều ứng dụng thời
gian thực Thời gian xử lý ít hơn cho phép hệ
thống thu thập nhanh dữ liệu, hữu ích cho các
tác vụ tiếp theo như ánh xạ độ sâu, xây dựng
mô hình 3D, phát hiện đối tượng, vv Cách tiếp
cận này hứa hẹn sẽ thu được nhiều dữ liệu hữu
ích hơn Đối với công việc trong tương lai,
thuật toán SAD được đề xuất sẽ được tối ưu
hóa và triển khai trong một khung phần cứng
cho hệ thống điều hướng rô-bốt trong nhà
Hình 2.11 So sánh trong thời gian xử lý được thực hiện bởi các phương pháp SAD thông thường và phương pháp tăng cường SAD đề xuất
2.4 Nguyên lý trích xuất đối tượng mặt phẳng
2.4.1 Độ sâu của điểm
Giá trị độ sâu z của p không những phụ thuộc vào độ chênh lệch d mà còn phụ thuộc vào tiêu cự quang học của máy ảnh và khoảng cách giữa hai máy ảnh được tính theo công thức (2.6):
(2.6)
Hình 2.13 Nguyên lý tính độ sâu của điểm ảnh
2.4.1 Khái niệm mặt phẳng trong thị giác máy tính
Trong toán học, một mặt phẳng là một bề mặt phẳng, hai chiều kéo dài vô cùng Mặt phẳng được xác định bởi bộ ba điểm không thẳng hàng hoặc bộ một đường thẳng và một điểm không thuộc đường thẳng này trong không gian Eulide Có thể định nghĩa một mặt phẳng là tập hợp các điểm có tọa độ thỏa mãn phương trình (2.7) Véc tơ gradient được xác định trong phương trình (2.11)
Từ (2.11), độ sâu của mặt phẳng xác định trước là không đổi cùng với cả trục x và trục y Như vậy,
mặt phẳng bao gồm các điểm liền kề trong bản đồ độ sâu có cùng giá trị gradient độ sâu Đây là một đặc tính quan trọng cho đối tượng điểm trong ảnh để xem xét nó có thuộc một vùng phẳng nào đó không
2.4.2 Khái niệm điểm lân cận và hàng xóm
Mỗi điểm p trong một bản đồ độ sâu có tới bốn điểm lân cận theo chiều dọc và chiều ngang được đặt tên là Top, Bottom, Left và Right tương ứng với mối quan hệ vị trí với điểm p Mỗi điểm lân cận điểm p sẽ được xem xét là hàng xóm của nó nếu điểm này đáp ứng các điều kiện sự khác nhau về độ sâu với điểm trung tâm phải nhỏ hơn ngưỡng xác định trước θ Một điểm lân cận được cho là điểm hàng xóm của điểm p đã được gắn vào vùng mặt phẳng nếu nó đáp ứng đầy đủ các điều kiện sau:
• Điểm phải nằm cạnh khu vực phẳng được xem xét
• Độ chênh lệch độ sâu của điểm bằng hoặc nhỏ hơn ngưỡng xác định
Như vậy, khái niệm mặt phẳng bao gồm các điểm hàng xóm trong bản đồ độ sâu có các giá trị gradient độ sâu không lệch quá một ngưỡng Việc xác định ngưỡng phải đảm bảo không được bỏ qua các điểm đất thật và không được để lọt các điểm giả đất Đây là một công việc cần thực nghiệm nhiều lần để đưa ra đề nghị ngưỡng xét hợp lý trong từng hoàn cảnh cụ thể
R
L x
x
T f z
−
0
=+++By Cz D
A y
z x z
Trang 112.5 Triển khai phương pháp trích xuất đối tượng mặt phẳng
2.5.1 Kiến trúc hệ thống xử lý dữ liệu tin cậy chuẩn
Hệ thống áp dụng thuật toán Tạo nhóm hàng xóm kết hợp lọc (NGaF) được đề xuất bao gồm ba giai đoạn liên tiếp như trong Hình 2.15
Hình 2.15 Sơ đồ khối hệ thống phát hiện mặt phẳng
2.5.2 Thuật toán đề xuất Tạo nhóm hàng xóm kết hợp lọc
Trong trường hợp thử nghiệm thứ hai, chương trình
thu thập dữ liệu sâu từ môi trường thực tế mà rô-bốt hoạt
động sử dụng máy ảnh RGB-D Chất lượng bản đồ độ
sâu thường không lý tưởng nên không thể bỏ qua quá
trình giảm nhiễu cho đầu vào (Hình 2.18) Để giảm loại
nhiễu này, bằng cách quan sát thực tế, dễ dàng thấy rằng
nếu đánh giá trong phạm vi cửa sổ W đủ nhỏ, chúng phải
luôn nhận được các giá trị độ sâu đúng đắn và độ biến
thiên của giá trị độ sâu không quá mạnh Song cũng cần
xét đến tình huống nếu tỷ lệ giữa các điểm giá trị sai và
kích thước cửa sổ W lớn hơn 50%, công việc sửa chữa
không hiệu quả do thông tin giá trị trung bình không còn
tin cậy
Nhiệm vụ của khâu này là cung cấp một tập hợp các
ứng cử viên cho việc lựa chọn mặt phẳng một cách xứng
đáng (Hình 2.18) Mỗi điểm được đánh giá mối quan hệ
của nó chỉ một lần với vai trò là một điểm trung tâm hoặc
là một điểm lân cận Vì vậy, sau khi một điểm là có liên
quan, nó chắc chắn sẽ được đánh dấu Phạm vi của
ngưỡng θ phụ thuộc vào chất lượng đầu vào Nếu chương
trình sử dụng bản đồ độ sâu gần như hoàn hảo, nó sẽ thực
thi với θ = 1 cố định Các trường hợp khác, ngưỡng θ sẽ
cao hơn 2 Thuật toán dừng lại khi tập S trở thành tập rỗng
Hình 2.18 Thuật toán Tạo vùng hàng xóm
Nhiệm vụ của bước này là chọn các ứng cử viên đáp ứng một số điều kiện trong thực tế để tạo ra
một bộ mặt phẳng thực sự Số điểm của ứng cử viên phải lớn hơn ngưỡng tối thiểu min được xác định
để đảm bảo rằng một số lượng lớn can nhiễu nhỏ bị loại bỏ thành công Ngưỡng tối thiểu min chắc
chắn sẽ phụ thuộc vào trường hợp cảnh quan sát cụ thể
2.5.3 Kết quả thực nghiệm và thảo luận
Trong phần này, các kết quả thử nghiệm bằng cách sử dụng phương pháp được đề xuất được trình bày chi tiết Thử nghiệm được thực hiện trên hai loại bản đồ chênh lệch khác nhau Tập dữ liệu đầu vào đầu tiên bao gồm năm bản đồ chênh lệch được thu thập từ cơ sở dữ liệu chung với liên kết http://vision.middlebury.edu/stereo/data/ trong trường hợp có bản đồ chênh lệch hoàn hảo gồm hình ảnh Sawtooth, Venus, Cones, Teddy, và hình ảnh Books
Để kiểm tra sự ổn định của thuật toán được đề xuất khi xử lý dữ liệu độ sâu môi trường hoạt động của rô-bốt, chương trình được thực hiện với các bản đồ độ sâu không lý tưởng như trong Hình 2.21 Các mặt phẳng được phát hiện như được minh họa trong cột cuối cùng được hiển thị mượt mà, trơn tru với các cảnh thực trong nhiều cảnh thử nghiệm với số lượng đối tượng nằm trên nền tăng dần
Tăng cường chất lượng
Bản đồ
độ sâu
Tạo nhóm hàng xóm
Chọn lọc mặt phẳng
Tập mặt phẳng
Trang 12Ảnh màu Bản đồ độ sâu Bản đồ mặt phẳng
Hình 2.21 Kết quả của các ảnh kiểm tra thu thập bởi máy ảnh RGB-D
Hình 2.22 cho thấy so sánh số lượng
mặt phẳng được phát hiện giữa phương
pháp áp dụng NGaF và phương pháp
FPDIDM [5] Đối với hình ảnh Sawtooth
và Venus, kết quả số lượng mặt phẳng của
phương pháp FPDIDM tương ứng với kết
quả của phương pháp được đề xuất áp
dụng ngưỡng lọc min = 256 Đối với hình
ảnh Cones và Teddy, số lượng mặt phẳng
thu được của thuật toán FPDIDM tương
ứng với công việc được áp dụng với
ngưỡng lọc min = 64 Số lượng mặt phẳng
phát hiện của FPDIDM trong ảnh Books
tương ứng với phương pháp được áp dụng
bằng ngưỡng tối thiểu min = 128
Hình 2.22 So sánh số lượng mặt phẳng được phát hiện theo một số ngưỡng tối thiểu min khác nhau với phương pháp FPDIDM [5]
Hình 2.23 minh họa số lượng mặt phẳng được phát hiện với ngưỡng tối thiểu min từ 32 đến 256 kiểm tra với bản đồ độ sâu từ máy ảnh RGB-D Rõ ràng, cũng như Hình 2.22, ngưỡng min lớn hơn thì
số lượng mặt phẳng phát hiện ít hơn vì một số mặt phẳng nhỏ hơn ngưỡng min được coi như nhiễu
nên bị loại bỏ Tốc độ giảm của mặt phẳng số lượng là gần 50% trong khi min nhảy từ 32 đến 64 và
từ 64 đến 128 nhưng tốc độ giảm này chậm lại khi ngưỡng tối thiểu tăng từ 128 lên 256 trong tất cả
Trang 13các trường hợp được thử nghiệm Ngoài ra
số lượng các mặt phẳng phát hiện phụ thuộc
vào các đối tượng trong cảnh rất nhiều
Hình 2.23 Số lượng mặt phẳng được phát
hiện theo các ngưỡng tối thiểu min khác
nhau áp dụng với bản đồ độ sâu từ máy ảnh
RGB-D
Hình 2.24 minh họa so sánh giữa phương
pháp được đề xuất và ba phương pháp tiếp
cận khác bao gồm HSBSR, PPDFM,
FPDIDM về khía cạnh hình ảnh kết quả trực quan
Hình 2.24 Kết quả của các phương pháp HSBSR [4], PPDFDM [49], FPDIDM [5] và thuật toán
đề xuất trên bản đồ chênh lệch St-Michel Jail của Toulouse
Hình 2.25 biểu diễn kết quả đánh giá so sánh dựa trên ba thông số chung bao gồm thời gian tính toán, số lượng mặt phẳng phát hiện và tỷ lệ phần trăm của các điểm hợp lệ Thời gian xử lý phương pháp đề xuất thấp nhất Ngay cả thời gian tính toán của phương pháp được đề xuất cũng giảm 33 lần
so với thuật toán RANSAC được cải thiện
(HSBSR) Trong khi đó, kết quả về số lượng
mặt phẳng tìm thấy lớn hơn và PPDFDM,
FPDIDM phương pháp khoảng 8% Cuối
cùng, kết quả tỷ lệ phần trăm hợp lệ là tốt hơn
so với những cách tiếp cận được so sánh ít
nhất 2%
Hình 2.25 So sánh ba thông số đánh giá
giữa các phương pháp HSBSR, PPDFDM,
FPDIDM và Phương pháp NGaF đề xuất
trên bản đồ chênh lệch St-Michel Jail của
Toulouse
2.5.4 Kết luận
Phần này thực hiện giải quyết vấn đề phát hiện mặt phẳng dựa trên bản đồ độ sâu bằng cách sử dụng một thuật toán phân nhóm hàng xóm mới và bộ lọc hợp lý (NGaF) Ưu điểm chính của phương pháp đề xuất này là sự đơn giản trong khi vẫn đảm bảo độ tin cậy của các kết quả
2.6 Tổng kết chương
Chương này đã trình bày đề xuất cách phương pháp tăng cường tính toán bản đồ chênh lệch dựa trên thuật toán SAD Phương pháp tính toán áp dụng cho dữ liệu biên ảnh, được trích xuất từ các cặp ảnh nổi Khối lượng dữ liệu cần xử lý được giảm rất nhiều so với khối dữ liệu toàn ảnh nên chương trình yêu cầu ít tải tính toán hơn Đồng nghĩa với việc thời gian chạy nhanh hơn trên cùng một nền
tảng phần cứng Kết quả đánh giá thời gian chạy giảm trung bình 5,7 lần Việc áp dụng maxbias là 2,
5 và 10 chứng minh cho hiệu quả hơn thực nghiệm không dùng maxbias trong việc giảm thời gian xử
lý Đề xuất áp dụng SAD cải thiện với bộ thông số maxbias =10 và cửa sổ làm việc 11 11 bởi độ
HSBSR PPDFDM FPDIDM Our method
Trang 14chính xác giữ gần như không thay đổi so với phương pháp SAD gốc Trong các mục 2.4 và 2.5 của chương này, tác giả đã đề xuất thuật toán Nhóm hàng xóm và Lọc (NGaF) để phát hiện bề mặt phẳng
từ chỉ một bản đồ độ sâu hoặc bản đồ chênh lệch Kết quả thử nghiệm thể hiện phương pháp được đề xuất mạnh mẽ bằng cách so sánh ba thông số chung giữa các phương pháp, thuật toán được áp dụng minh họa một hiệu suất cao chắc chắn
CHƯƠNG 3 PHÁT TRIỂN THUẬT TOÁN NHẬN DẠNG MẶT ĐẤT
3.1 Giới thiệu chương
Trong chương này, tác giả đề xuất cách tiếp cận nâng cao để nhận dạng mặt đất bằng cách sử dụng các vùng phẳng gần đúng và nhóm phẳng được nhận dạng từ bản đồ độ sâu 2D
3.2 Nguyên lý nhận dạng đối tượng mặt đất và vật cản
Giả sử rằng máy ảnh có tiêu cự f nằm ở O với chiều cao h so với mặt đất như thể hiện trong Hình 3.1, trong đó P I và P G tương ứng là mặt phẳng hình ảnh và mặt phẳng đất Cho O 1 và O 2 là kết
quả các phép chiếu của O trên P G và P I tương ứng; M I1 và M I2 là các điểm nằm trên P I và p khoảng
cách từ O 2 đến M I1 Tiếp theo, độ sâu của M I1 có thể được ước tính như (3.1).Thực hiện vi phân hai
vế của (3.1), nhận được (3.2) Từ phương trình (3.2) có thể xác định độ chênh lệch độ sâu zy từ sự khác biệt chiều cao p ở trục đứng y
f p p hf dz
2 2 2
thể được xác định từ khoảng cách khác nhau MG của MG1 và
MG2 trên mặt đất trong trục ngang x như thể hiện trong phương
trình (3.3)
z z M
z x = G + −
(3.3) Hai phương trình (3.2) và (3.3) có thể được sử dụng để tính toán bản đồ gradient độ sâu theo hướng y và x tương ứng Giả sử MI là khoảng cách của một điểm, ta có đó z
OM
M M
rất nhỏ Do đó
z OM
M z
và zx được tính bằng phương trình (3.3) nên
rất nhỏ Do đó để đơn giản trong các thuật toán đề xuất, zx luôn luôn được coi bằng 0 cho các điểm ảnh thuộc về mặt phẳng đất Từ phân tích đồ thị phương trình (3.2), có thể thấy rằng đối với zx = 0, zy thông thường có giá trị lớn hơn một ngưỡng nhất định T, có thể được xác định bằng đồ thị bằng
cách xấp xỉ hai trạng thái của đường cong được đưa ra bởi tỷ lệ dp dz trong phương trình (3.2) Giá trị ngưỡng này thực sự là tọa độ y tại z y =1 Vì độ sâu của các điểm ảnh nền thường được lượng tử hóa bởi 8 bit, do đó zy thường khác với 0 đối với tất cả các y < T
Trên cơ sở phân tích hình học liên quan đến các thuộc tính mặt đất, thuật toán đề xuất phân loại một điểm được xem xét thuộc đất hoặc không đất như bảng 3.1
O
1
G M z
p
2
G M