Nghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác rô bốt trong nhà tt

Tính cấp thiết của luận án Gần đây phương pháp hỗ trợ dẫn đường bằng máy ảnh thị giác nổi được tập trung nghiên cứu với nhiều hy vọng giải quyết được tối đa các vấn đề trong bài toán cứ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Đặng Khánh Hòa

NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC THUẬT TOÁN ƯỚC LƯỢNG

MẶT PHẲNG VÀ DẪN ĐƯỜNG CHO HỆ THỐNG THỊ GIÁC RÔ-BỐT TRONG NHÀ

Ngành: Kỹ thuật điện tử

Mã số: 9520203

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ

Trang 2

Công trình được hoàn thành tại:

Trường Đại học Bách khoa Hà Nội

Người hướng dẫn khoa học:

Có thể tìm hiểu luận án tại thư viện:

1 Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội

2 Thư viện Quốc gia Việt Nam

Trang 3

MỞ ĐẦU

1 Tính cấp thiết của luận án

Gần đây phương pháp hỗ trợ dẫn đường bằng máy ảnh thị giác nổi được tập trung nghiên cứu với nhiều hy vọng giải quyết được tối đa các vấn đề trong bài toán cứu hộ, cứu nạn, hỗ trợ những người khiếm thị và nhiều lĩnh vực khác Dựa trên hình ảnh thu nhận trong môi trường cảm thụ không biết trước cho phép xác định được chính xác đường đi, tránh vật cản và tới mục tiêu Tình hình nghiên cứu các thuật toán xử lý tín hiệu máy ảnh ứng dụng trong các lĩnh vực nêu trên chưa được sự quan tâm xứng đáng với vai trò quan trọng của nó Số lượng các bài báo, các công trình khoa học có liên quan được công bố trên các tạp chí khoa học, báo khoa học ở trong nước còn hạn chế

2 Mục tiêu, đối tượng, phương pháp và phạm vi nghiên cứu

2.1 Mục tiêu nghiên cứu

Mục tiêu thứ nhất là tăng cường thuật toán tính toán bản đồ chênh lệch/độ sâu về mặt thời gian,

hỗ trợ cho hệ thống máy ảnh nổi cung cấp dữ liệu độ sâu theo thời gian thực cho các ứng dụng khai thác dữ liệu sâu hơn Mục tiêu thứ hai là nghiên cứu và đề xuất thuật toán các thuật toán trích xuất mặt phẳng dựa trên dữ liệu độ sâu, đáp ứng yêu cầu xử lý theo thời gian thực, hỗ trợ cho bài toán tái tạo đối tượng 3D Mục tiêu thứ ba là tập trung nghiên cứu và đề xuất thuật toán nhận dạng hiệu quả mặt đất từ dữ liệu bản đồ độ sâu, đáp ứng yêu cầu xử lý theo thời gian thực để hỗ trợ giải quyết bài toán dẫn đường cho rô-bốt Mục tiêu thứ tư là nghiên cứu phương pháp dẫn đường cho rô-bốt áp dụng thuần túy thuật toán khai thác bản đồ độ sâu, trong môi trường trong nhà không biết trước, theo định hướng giảm thiểu độ phức tạp; đáp ứng được yêu cầu dẫn đường chính xác

2.2 Đối tượng nghiên cứu

Từ các mục tiêu nghiên cứu trên, luận án tập trung vào đối tượng nghiên cứu thứ nhất là các thuật toán xử lý dữ liệu bản đồ độ sâu được cung cấp bới hệ thống máy ảnh nổi hoặc RGB-D, cung cấp dữ liệu vào cho bài toán dẫn đường của rô-bốt trong nhà, với khả năng tự tránh các vật cản trên đường

di chuyển Tiếp theo nghiên cứu phương pháp dẫn đường cho rô-bốt dùng hệ thống máy ảnh nổi hoặc RGB-D trong nhà không biết trước Cuối cùng là nghiên cứu, thiết kế và chế tạo mô hình rô-bốt tích hợp hệ thống máy ảnh nổi hoặc RGB-D với các thuật toán đã phát triển nhằm thử nghiệm độ tin cậy

2.3 Phương pháp nghiên cứu

Phương pháp nghiên cứu trong luận án đi từ nghiên cứu lý thuyết đến thực nghiệm, ứng dụng các

kỹ thuật xử lý ảnh thu nhận từ máy ảnh nổi vào giải quyết bài toán tìm đường trên robot di động Đầu tiên luận án nghiên cứu lý thuyết, xây dựng mô hình, sau đó mô phỏng thuật toán, thiết kế chế tạo mô hình xe rô-bốt để thực nghiệm trên hiện trường nghiên cứu và đo lường, đánh giá

2.4 Phạm vi nghiên cứu

Phát triển các thuật toán xử lý ảnh được cung cấp bởi hệ thống máy ảnh nổi hoặc RGB-D Phát triển thuật toán dẫn đường cho rô-bốt trong môi trường năng động chỉ sử dụng thuần túy dữ liệu thu nhận bởi hệ thống máy ảnh nổi hoặc RGB-D Xây dựng mô hình rô-bốt dẫn đường bằng hệ thống máy ảnh nổi hoặc RGB-D với các thuật toán đã phát triển đối với môi trường hoạt động trong nhà chưa biết trước

3 Ý nghĩa khoa học và những đóng góp của luận án

3.1 Ý nghĩa khoa học: Việc nghiên cứu các thuật toán xử lý video bản đồ độ sâu cung cấp bởi hệ

thống máy ảnh nổi hoặc RGB-D của đề tài mang ý nghĩa khoa học bao gồm cả hai khía cạnh lý luận

và thực tiễn

3.1.1 Về lý luận: Góp phần phát triển cơ sở khoa học các thuật toán xử lý tín hiệu video độ sâu

thông qua xây dựng các phương pháp tính toán nhanh, chính xác cao cho bài toán dẫn đường cho xe rô-bốt khảo sát hiện trường - một định hướng nghiên cứu mang tính thời sự Các kết quả nghiên cứu của đề tài dự kiến sẽ đóng góp cho sự phát triển của nền tảng lý thuyết xử lý tín hiệu video độ sâu Thúc đấy giải quyết bài toán nhân dạng đối tượng mặt đất hỗ trợ dẫn đường sử dụng thị giác máy tính cho rô-bốt di động hoạt động trong môi trường động trong nhà

Trang 4

3.1.2 Về mặt thực tiễn: Thuật toán được nghiên cứu và đề xuất trong luận án có thể làm cơ sở cho

các nhà sản xuất thiết bị rô-bốt, hệ thống giám sát quan sát cảnh báo 3D thông minh Do vậy, đề tài

có tính thực tiễn cao Thuật toán đề xuất có thể được ứng dụng vào trong thiết kế và chế tạo các bốt khảo sát hiện trường, cứu hộ phù hợp với điều kiện môi trường tại Việt Nam

rô-3.2 Các đóng góp khoa học của luận án gồm:

1 Luận án đề xuất thuật toán xác định các mặt phẳng từ bản đồ độ sâu Bước đầu, đề xuất tăng cường thuật toán tính bản đồ chênh lệch SAD Phương pháp thực hiện tính toán trên tập điểm biên của ảnh thị giác nổi, giúp giảm sâu khối lượng dữ liệu cần xử lý Tiếp theo, luận án đề xuất phương pháp trích mặt phẳng từ bản đồ độ sâu sử dụng thuật toán Lọc và gom nhóm hàng xóm (NGaF) có khả năng giảm độ phức tạp tính toán cũng như tăng tốc độ xử lý Sau đó, luận án đề xuất phương pháp nhận dạng mặt đất áp dụng thuật toán Bản đồ gradient độ sâu (GDM) khai thác bản đồ độ sâu, cũng chính là giải quyết tránh vật cản trở đạt hiệu quả cao để phát triển ứng dụng dẫn đường dựa trên

hệ thống thị giác cho hệ rô-bốt di động trong nhà

2 Luận án đề xuất phương pháp dẫn đường cho rô-bốt trong môi trường không biết trước dựa trên việc xác định mặt phẳng đất gọi là Luôn di chuyển thẳng tới đích (AMSD) Luận án phát triển việc khai thác mặt đất để tìm ra hướng đi ngắn nhất tới đích cho trước Ban đầu là việc xây dựng mô hình xe rô-bốt thích hợp với môi trường thử nghiệm chỉ được trang bị hệ cảm biến RGB-D Thuật toán tìm mặt đất tích hợp trong hệ rô-bốt đáp ứng được thời gian thực, giúp cho việc tìm phương hướng một cách chắc chắn và nhanh chóng

4 Cấu trúc nội dung của luận án

Nội dung luận án bao gồm bốn chương Đầu tiên, chương 1 tập trung giới thiệu hệ thống dẫn đường dựa trên hình ảnh thị giác tích hợp cho rô-bốt di động Phần cuối cùng của chương 1 trình bày một số vấn đề còn tồn tại trong xử lý ảnh thị giác, trong lĩnh vực dẫn đường cho rô-bốt dựa trên hệ thống máy ảnh RGB-D hoặc thị giác nổi Chương 2 có hai nội dung chính Thứ nhất là phương pháp tăng tốc độ tính bản đồ chênh lệch/độ sâu dựa trên cải tiến cách thực hiện thuật giải SAD gốc Thứ hai là phương pháp trích xuất mặt phẳng dựa khai thác bản đồ độ sâu Chương 3 phát triển thuật toán

để giải quyết bài toán nhận dạng mặt phẳng đất Từ đó tác giả đề xuất phương pháp mới có cải thiện hiệu năng so với các phương pháp này Phương pháp đề xuất kiểm nghiệm trên hai loại tập dữ liệu

độ sâu chuẩn và tập dữ liệu thu thập thực tế Kết quả thu được đã minh chứng cho tính mãnh mẽ, ổn định của thuật toán thông qua cả hai phương pháp đánh giá trực quan và đánh giá khách quan

Cuối cùng, chương 4 nghiên cứu đề xuất chiến thuật dẫn đường áp dụng cho rô-bốt di động

đi tới đích cho trước Bài toán được giải quyết trong môi trường hoạt động trong nhà không biết trước với ràng buộc chỉ sử dụng dữ liệu bản đồ độ sâu Các phân tích cụ thể phương pháp tìm đường đi đề xuất đã nêu rõ những ưu điểm nổi bật cũng như một số hạn chế của bài toán tìm đường trong nhà; cho thấy tính khả thi của phương pháp dẫn đường đề xuất

CHƯƠNG 1 TỔNG QUAN HỆ THỐNG DẪN ĐƯỜNG CHO RÔ-BỐT DỰA

TRÊN HÌNH ẢNH THỊ GIÁC MÁY TÍNH

1.1 Giới thiệu chương

Nội dung của chương này gồm hai phần Phần đầu trình bày lý thuyết tổng quan về hệ thống dẫn đường cho rô-bốt di chuyển trên mặt đất với các khái niệm, vai trò và phân loại một số loại hệ thống dẫn đường hiện nay Phần cuối cùng của chương này phân tích cụ thể các vấn đề liên quan tới việc khai thác dữ liệu độ sâu hiện nay với các phân tích chi tiết các vấn đề tồn tại theo từng khía cạnh của bài toán dẫn đường cho rô-bốt

1.2 Hệ thống dẫn đường cho rô-bốt trong nhà

Hệ thống dẫn đường cho rô-bốt là một hệ thống kết hợp phần cứng và phần mềm nhằm tính toán đường đi cho rô-bốt một cách hợp lý Dựa theo nguyên tắc dẫn đường, chúng được phân biệt như sau: Dẫn đường toàn cục, Dẫn đường cục bộ, Dẫn đường riêng Ba hệ thống dẫn đường trên có

Trang 5

thể được ứng dụng một cách độc lập hoặc sử dụng kết hợp với nhau để bổ sung ưu điểm cho nhau bởi với mỗi một hệ thống đều có những ưu nhược điểm nhất định

Kiến trúc hệ thống dẫn đường rô-bốt sử dụng thị giác máy tính

Với phạm vi hoạt động là môi trường trong nhà chưa biết trước, kiến trúc của hệ thống dẫn đường cho rô-bốt di động như Hình 2.1

Hình 2.1 Hệ thống dẫn đường bằng thị giác cho rô-bốt

1.3 Một số vấn đề của hệ thống rô-bốt dẫn đường dựa trên thị giác nổi

1.3.1 Phương pháp tính toán bản đồ chênh lệch/độ sâu

Vấn đề tương đồng trong ảnh thị giác nổi là tìm các đối tượng tương ứng giữa hai hình ảnh đầu vào [37], [38], được nghiên cứu trong nhiều năm gần đây Đây là một trong những vấn đề cơ bản trong lĩnh vực thị giác máy tính hỗ trợ cho nhiều ứng dụng nghiên cứu thị giác máy tính sâu hơn như nhận dạng đối tượng, trích đặc trưng

1.3.2 Phương pháp trích xuất đối tượng mặt phẳng dựa trên ảnh thị giác máy tính

1.3.2.1 Phát hiện mặt phẳng sử dụng chuyển đổi Hough

Sử dụng dạng biểu diễn bằng pháp tuyến của mặt phẳng như (1.3)

trong đó θ, φ và ρ là các thông số của mặt phẳng pháp tuyến đi qua gốc Vì vậy, θ, φ và ρ là hằng số và không gian tham số là (O’θ φ ρ) Trong trường hợp này, một điểm (X1 , Y1 , Z1) trong không gian 3D đại diện cho một bề mặt hình sin trong không gian tham số Đây chính là nguyên lý của biến đổi Hough 3D

1.3.2.2 Phát hiện mặt phẳng sử dụng thuật toán RANSAC

Thuật toán RANSAC một phương pháp lặp để ước tính các tham số của mô hình toán học bắt đầu từ một tập hợp dữ liệu chứa các ngoại lệ [46] Việc áp dụng thuật toán RANSAC cho phép phát hiện các mặt phẳng trong ảnh thị giác Mặt phẳng kết quả bao gồm mặt phẳng có giá trị và các điểm nhiễu thuộc về các mặt phẳng khác và có một số điểm bị mất Các điểm nhiễu này cần được loại bỏ khỏi mặt phẳng thật vừa được phát hiện và phải được gán lại cho đám mây điểm ban đầu Những điểm bị mất phải được thêm vào mặt phẳng được phát hiện để nâng cao tính đầy đủ của phép trích xuất mặt phẳng Đồng thời, các điểm này cũng được tách ra từ đám mây điểm ban đầu Do đó giải thuật RANSAC áp dụng để trích xuất mặt phẳng chưa chứng minh được tính mạnh mẽ trừ phi cần thêm các giải pháp khắc phục Ngoài ra kết quả trực quan trên chưa có chứng minh độ ổn định của thuật toán mà cần có các số liệu đánh giá khách quan

1) Phương pháp biến đổi ảnh thị giác

Sự biến đổi các điểm trên mặt phẳng đất giữa các hình ảnh tại thời điểm k-1 và k được cho bởi

một bản đồ phẳng như (1.6) [22] [50]

1

trong đó x kvà x k−1 là tọa độ đồng nhất của các đặc trưng trong ảnh hiện tại và ảnh trước Ma

trận biến đổi phẳng H bao gồm tám hệ số độc lập nên cần có ít nhất 8 phương trình (tức là bốn điểm

tương ứng) để giải hệ tuyến tính [50] Sự biến đổi ảnh tức thời tính theo cách này có thể không mang lại kết quả chính xác vì sự tương đối không chính xác hoặc sai Điều này đặc biệt có hại khi vài điểm

được sử dụng trong tính toán của H, như trường hợp trong một môi trường phức tạp, do số lượng

điểm đặc trưng khan hiếm

Phần lớn các phương pháp dựa trên sự biến đổi ảnh tính toán các thông số trong (1.6) để biểu diễn, phân tích sự biến đổi ảnh trong suốt quá trình quan sát Tuy nhiên, điều này liên quan đến việc giải quyết hai vấn đề phức tạp gồm ước lượng tự chuyển động và phép trích chọn mặt đất 3D

2) Thực hiện nhận dạng mặt phẳng đất sử dụng phép biến đổi ảnh

Máy ảnh RGB-D/

Máy ảnh nổi

Xử lý hình ảnh

Cơ cấu chấp hành

Trang 6

Các khu mặt đất được trích xuất được xây dựng chồng lên hình ảnh đầu vào ở khu vực bên dưới với phần màu xám Các yếu tố nền và các vật thể di chuyển ra khỏi mặt đất có thể được kiểm tra thêm Các hình ảnh khác nhau của một chuỗi được phân tích để xác định những phần tử này không thuộc về mặt đất và có thêm hình dạng hoặc mô hình chuyển động được mong đợi từ một vật thể chuyển động

3) Phân tích đánh giá phương pháp biến đổi ảnh ứng dụng nhận dạng mặt đất

Phương pháp phát hiện mặt đất sử dụng phép biến đổi ảnh không đòi hỏi phải tính toán rõ ràng chuyển động của máy ảnh cũng như ước lượng tham số mặt đất 3D Phương pháp này chỉ dựa trên tính năng kết hợp trên các hình ảnh kế tiếp và một khuôn khổ tính toán phép biến đổi ảnh mới Hạn chế lớn của phương pháp này là giả định các mặt phẳng ổn định và chuyển động đều Điều này rất khó xảy ra trong thực tế di chuyển của rô-bốt Mặt khác nếu phương pháp ước lượng dữ liệu tuyến tính để tính toán phép biến đổi ảnh quá đơn giản, chưa thực sự bám sát thực tế Chiến lược phát hiện đối tượng chưa được xây dựng hoàn chỉnh để tăng cường độ tin cậy kết quả đáng kể ngay

Trong các ứng dụng điều hướng rô-bốt trong nhà, cấu trúc của bề mặt sàn sẽ không thể có giả định điểm đặc trưng mà các nghiên cứu thường giả định môi trường nhân tạo trong nhà thường chứa các tập hợp các đường thẳng có cấu trúc có thể được sử dụng như thông tin điều hướng hữu ích

Các nghiên cứu [18] [88] [20] tập trung vào khai thác bản đồ chênh lệch để giảm khối lượng

dữ liệu đầu vào Phương pháp [18] được đề xuất so sánh sự khác biệt độ chênh lệch trên mỗi dòng trong bản đồ chênh lệch Kết quả cho thấy tính mạnh mẽ của thuật toán không cao nếu nguồn ảnh bị ảnh hưởng bởi bối cảnh Trong bản đồ khác biệt thực tế, rõ ràng là luôn có nhiễu xuất hiện bởi hai loại yếu tố bên ngoài và bên trong Ngoài ra, có thêm một điểm hạn chế nữa là các kết quả chỉ được hiển thị trong bối cảnh không có vật cản Thuật toán V-Disparity cải tiến [88] dẫn đầu với tỷ lệ phát hiện điểm đất cao hơn nhưng nó bị trả giá bởi độ phức tạp của quá trình xử lý khi thuật toán tích hợp phép biến đổi Hough hoặc thuật toán RANSAC để lọc kết quả thô

𝑙(𝑥𝑖; 𝛩̂) = { 1 𝑛ế𝑢 |𝑓(𝑥𝑖; 𝛩̂)| < 

0 𝑡𝑟𝑜𝑛𝑔 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑘ℎá𝑐

(1.19) Trong đó  là ngưỡng giá trị để quyết định một điểm thuộc mặt phẳng hay không  được xác định thông qua bộ tham số mặt phẳng đất Thuật toán kinh điển RANSAC được sử dụng để tìm tham số mặt đất với các tham số nội tại và ngoại chưa biết Quá trình tìm kiếm ngẫu nhiên lặp lại với số lần lặp lại cần thiết dựa trên tỷ số của các tham số nội tại Vì thế, RANSAC có thể được điều chỉnh một cách thích nghi số lần lặp lại của nó dựa trên một điều kiện xác suất của sự tin cậy

3) Phân tích đánh giá

Trang 7

Các thí nghiệm với bộ dữ liệu 3D LiDAR được thu thập bằng các cảm biến laze nên có ít nhiễu hơn các loại máy ảnh thị giác nên số lần lấy mẫu sẽ có lợi thế hơn Các tham số và số lần lặp của trong thuật toán RANSAC thường bị ấn định chủ quan, thiếu cơ sở khoa học [14] [15] Việc sử dụng một mô hình mặt đất chưa mang lại tính chính xác cao nên vẫn cần sự cải tiến định hướng bổ xung các cảm biến dữ liệu trực quan hoặc kết hợp các mô hình mặt đất hoặc các đặc trưng môi trường cục bộ

Việc dẫn đường cho xe rô-bốt sử dụng cảm biến phi thị giác như cảm biến siêu âm đã có được ứng dụng nhất định Ngày nay hầu hết các hệ rô-bốt đều được tích hợp hệ máy ảnh để quan sát, thu thập dữ liệu môi trường Các nguồn dữ liệu đầu vào video màu, độ sâu, … là cực kỳ giàu có thông tin Nằm trong mục đích khai thác sâu nguồn dữ liệu hình ảnh của hệ thống thị giác gắn trên xe rô-bốt thì bài toán dẫn đường bằng hệ thống thị giác sẽ góp phần khơi thêm tiềm năng của hệ thống này

Xe rô-bốt di động di chuyển tự trị trong một môi trường không rõ thì nó phải có khả năng thực hiện xây dựng một số loại bản đồ và tự xác định vị trí và quy hoạch đường dẫn Việc đồng thời xác định vị trí và lập bản đồ, như [49] đòi hỏi có một bản đồ và lập bản đồ chính xác để ước tính chính xác vị trí Vấn đề này là trọng tâm của nhiều công trình nghiên cứu [53] [54] [55] [56] với nhiều giải pháp kỹ thuật giải quyết được đề xuất

Trong luận án này rô-bốt được xem xét xây dựng với một nhiệm vụ điều hướng trong một môi trường chưa biết trong nhà khai thác dữ liệu bản đồ độ sâu

Vấn đề cơ bản của việc lập kế hoạch đường đi là tạo ra một con đường không bị va chạm từ một điểm khởi đầu nhất định A, đến một điểm kết thúc mong muốn B Một số phương pháp để điều hướng trong một môi trường chưa biết đã được trình bày và tùy thuộc vào cách xác định khu vực hoạt động, có nhiều cách khác nhau để giải quyết vấn đề lập kế hoạch đường dẫn Với mục đích khai thác hiệu quả dữ liệu độ sâu, tác giả của luận án này tập trung nghiên cứu ứng dụng bài toán dẫn đường cho xe rô-bốt theo phương pháp lập kế hoạch đường đi cục bộ dựa trên thuần túy việc khai thác dữ liệu độ sâu

Hướng nghiên cứu sử dụng phương pháp tính toán thị giác nổi mà tác giả có dự kiến lựa chọn phương pháp để phát triển trong luận án này Dựa vào chiều sâu của điểm, có thể đánh giá liệu điểm

đó có nằm trên mặt đất hay không [62] [67] Hiện nay, một khó khăn của phát hiện vật cản dựa vào ảnh thị giác nổi là vấn đề phức tạp tính toán Gần đây, một số nhà nghiên cứu bắt đầu nghiên cứu về phát hiện vật cản bởi cảm biến độ sâu Công trình [68] trang bị một cảm biến độ sâu trên một rô-bốt

di động để phát hiện và tránh chướng ngại vật Tuy nhiên phương pháp này chưa có thể phân biệt giữa các chướng ngại vật tĩnh và chướng ngại vật di chuyển trong môi trường năng động để rô-bốt di động có thể thực hiện nhiều chiến lược tránh chướng ngại vật khác nhau

1.4 Tổng kết chương

Qua đánh giá cơ bản, tác giả thấy có các vấn đề cần nghiên cứu triệt để hơn như sau đây

Vấn đề trích xuất mặt phẳng từ bản đồ chênh lệch/độ sâu: Bài toán cần được giải quyết kỹ

lưỡng từ khâu tốc độ tính toán bản đồ chênh lệch/độ sâu Các phương pháp trích xuất mặt phẳng cần cải thiện thời gian chạy Do đó thuật toán cần thỏa mãn hai yếu tố gồm khối lượng dữ liệu tính toán

ít hơn và độ phức tạp thuật toán thấp Hơn nữa, vấn đề nhận dạng mặt đất từ dữ liệu ảnh thị giác máy tính cũng có thể giải quyết dựa trên dữ liệu bản đồ độ sâu Thuật toán nhận dạng mặt đất cũng cần đảm bảo tính mạnh mẽ, phổ quát và khối lượng tính toán thấp hoặc tương đương nhưng kết quả phải tốt hơn các phương pháp gần đây

Vấn đề dẫn đường cho xe rô-bốt trong nhà trong môi trường chưa biết Các phương pháp

nghiên cứu về dẫn đường dựa trên thị giác máy tính được khảo sát cho thấy còn tồn tại hạn chế về tính chính xác, tính tối ưu

Trang 8

CHƯƠNG 2 PHƯƠNG PHÁP TĂNG TỐC TÍNH TOÁN BẢN ĐỒ CHÊNH LỆCH VÀ PHÁT TRIỂN THUẬT TOÁN TRÍCH XUẤT MẶT PHẲNG

Chương này sẽ trình bày hai nội dung chính Nội dung thứ nhất về phương pháp tăng tốc độ xây dựng bản đồ chênh lệch/ độ sâu với đề xuất thuật toán SAD cải thiện Giải thuật đề xuất được đánh giá thời gian xử lý nhanh hơn trong khi các tiêu chí khác vẫn tương đương Nội dung chính thứ hai là phương pháp trích xuất đối tượng mặt phẳng được đề xuất có thể giữ lại những ưu điểm của phương pháp tiếp cận [4] [5]

2.2 Hệ thống máy ảnh nổi

Một hệ thống máy ảnh nổi bao gồm hai hoặc nhiều ống kính với một bộ cảm biến hình ảnh riêng biệt hoặc khung phim cho mỗi ống kính được đặt theo chiều ngang Nguyên lý thị giác nổi giống như tầm nhìn hai mắt của con người và nhận thức trực quan của chúng ta về độ sâu, nơi mà các vật ở xa hơn trong cảnh thì vị trí của chúng ít thay đổi khi chúng ta nhắm mắt luân phiên Sự khác biệt vị trí thường của một đặc trưng trong hai ảnh thường là theo trục ngang Chênh lệch được định nghĩa là phép trừ, từ hình ảnh trái sang phải, của các tọa độ 2D của các điểm tương ứng trong không gian hình ảnh

2.3 Phương pháp tăng tốc tính toán bản đồ chênh lệch/độ sâu

2.3.1 Triển khai tính toán SAD thông thường

Hình 2.5 cho thấy một sơ đồ khối điển hình để tính toán bản đồ chênh lệch Thứ nhất, các hình ảnh trái và phải được hệ thống máy ảnh nổi thu được, và sau đó được chuyển thành hình ảnh tỷ lệ xám và được sử dụng để tính toán bản đồ chênh lệch bằng phương pháp SAD

Hình 2.5 Hệ thống tính bản

đồ độ sâu điển hình SAD

Độ chênh lệch thường được xem như sự dịch chuyển sang bên trái của một đặc điểm hình ảnh khi nó được xem trong hình ảnh bên phải Nó được xác định bằng giá trị nhỏ nhất của Tổng sự khác biệt tuyệt đối (SAD), được áp dụng để tính chênh lệch cho mỗi điểm trong hình ảnh bên phải [38] Thuật toán sử dụng một cửa sổ tham chiếu giống nhau có kích thước 2w+12w+1 tính theo điểm ảnh và vùng tìm kiếm xung quanh cửa sổ tham chiếu giống nhau s  s điểm ảnh, áp dụng cho mọi điểm trong khung cảnh Sau khi thuật toán SAD tính cho tất cả các chênh lệch hợp lệ (2.3)

Trong đó I L và I R biểu thị các giá trị màu xám của điểm ảnh trong ảnh bên trái và ảnh bên

phải, d là phạm vi của sự khác biệt, vì kích thước cửa sổ w và x, y là tọa độ của điểm ảnh trung tâm của cửa sổ Giá trị nhỏ nhất của SAD được biểu thị bằng D(x, y) có thể được biểu diễn bằng công

thức sau (2.4)

𝐷(𝑥, 𝑦) = 𝑎𝑟𝑔 𝑚𝑖𝑛 𝑆𝐴𝐷(𝑥, 𝑦, 𝑑) với d∈[d_min,d_max ] (2.4)

2.3.2 Triển khai tính toán SAD đề xuất

2.3.2.1 Hệ thống tính toán SAD đề xuất

Trên thực tế, theo phương pháp SAD thông thường, không phải tất cả các điểm đều chứa thông tin đặc trưng về đối tượng, thay vì thông tin biên Vì vậy, trong phương pháp được đề xuất, khâu phát hiện biên được thêm vào việc thực hiện SAD thông thường như được mô tả trong Hình 2.6

2.3.2.2 Phát hiện biên trong hình ảnh xám

Ảnh trái

Tính toán

chênh lệch Ảnh phải

Từ máy ảnh nổi

Chuyển ảnh xám

Trang 9

Do đó, thời gian xử lý và phạm vi tìm kiếm đạt được hiệu quả rất lớn Biểu thị cửa sổ tham chiếu

và tìm kiếm là A và A’ SAD được xác định theo cách tương tự được mô tả ở trên nhưng chỉ áp dụng cho những điểm tương ứng với các điểm ảnh được phát hiện biên Để giảm các điểm ảnh biên sai, sự khác biệt về cường độ giữa các điểm ảnh trung tâm của A và A’ được tính toán và so sánh với một

maxbias đã cho Nếu chênh lệch này lớn hơn sai lệch, tìm kiếm sẽ bị bỏ qua và được chuyển sang bước

tiếp theo Trong hệ thống đề xuất này, thuật toán dò biên Sobel [77] được sử dụng, bởi tính đơn giản

và hiệu quả của nó Trong giai đoạn lọc, bản đồ chênh lệch được tinh chỉnh bằng cách sử dụng bộ lọc hợp lý và kích thước lọc như trong [76], [78] để tránh các điểm chênh lệch được chỉ định không đúng

là những điểm mà thực tế không thể nhìn thấy trong hình ảnh trái hoặc phải do bị che khuất hoặc khu vực phía sau của hình ảnh

Hình 2.6 Hệ thống tính bản đồ độ sâu SAD điều chỉnh đề xuất

2.3.2.3 Kết quả thực hiện và thảo luận

Phần này đề cập đến việc đánh giá hiệu suất về tính chính xác trong việc xây dựng lại bản đồ chênh lệch cũng như thời gian thực hiện công việc này so với việc thực hiện SAD ban đầu Thông số khác là hiệu suất được sử dụng trong thử nghiệm, gọi là mức độ phù hợp để đưa ra tỷ lệ phần trăm của tổng

số điểm ảnh, mà giá trị chênh lệch đã được gán

Hình 2.9 thể hiện cách đánh giá hiệu suất khác về thời gian, độ chính xác và độ bao phủ của việc thực hiện SAD thông thường với các kích thước cửa sổ khác nhau Nó cho thấy kích thước cửa sổ càng

lớn, thời gian tiêu tốn qua càng dài Đối với kích thước cửa sổ sử dụng maxbias khác nhau, người ta

có thể thấy rằng thời gian tiêu tốn và được giảm đáng kể trong khi độ chính xác giữ gần như không

thay đổi với maxbias =10 Thời gian xử lý tiêu tốn cao nhất đã được ghi lại cho kích thước cửa sổ và

maxbias là 2

Hình 2.9 Biểu đồ thời gian tiêu tốn, độ chính

xác và độ che phủ được thực hiện bởi SAD

thông thường cho ảnh Cones

Hình 2.10 Thời gian chạy, độ chính xác và độ bao phủ của thuật toán SAD được điều chỉnh cho

hình ảnh Cones

Việc đánh giá hiệu năng tương tự được mô tả trong Hình 2.10 cho thuật toán SAD đề xuất Thông

số đánh giá ấn tượng nhất là thời gian xử lý giảm đáng kể khoảng 5,7 lần, tương đương với khoảng 89% so với phương pháp xử lý toàn ảnh, tương ứng Sự cải thiện này đạt được bằng cách giảm số lượng điểm ảnh tham gia vào quá trình tính toán SAD nhờ phát hiện biên được chấp nhận

Hình 2.11 cho phép đánh giá so sánh các thông số thời gian tiêu tốn áp dụng phương pháp SAD điển hình và được đề xuất

Ảnh trái

Tính toán

chênh lệch Ảnh phải

Chuyển ảnh xám

Tinh chỉnh

Trang 10

Việc thay đổi thuật toán SAD cho việc tạo bản đồ chênh lệch trong một hệ thống thị giác nổi được

đề xuất để đạt được sự cải thiện đáng kể về thời gian tính toán và độ chính xác Điều này rất có ý nghĩa

vì bài toán xây dựng bản đồ chênh lệch rất quan

trọng trong việc triển khai nhiều ứng dụng thời

gian thực Thời gian xử lý ít hơn cho phép hệ

thống thu thập nhanh dữ liệu, hữu ích cho các

tác vụ tiếp theo như ánh xạ độ sâu, xây dựng

mô hình 3D, phát hiện đối tượng, vv Cách tiếp

cận này hứa hẹn sẽ thu được nhiều dữ liệu hữu

ích hơn Đối với công việc trong tương lai,

thuật toán SAD được đề xuất sẽ được tối ưu

hóa và triển khai trong một khung phần cứng

cho hệ thống điều hướng rô-bốt trong nhà

Hình 2.11 So sánh trong thời gian xử lý được thực hiện bởi các phương pháp SAD thông thường và phương pháp tăng cường SAD đề xuất

2.4 Nguyên lý trích xuất đối tượng mặt phẳng

2.4.1 Độ sâu của điểm

Giá trị độ sâu z của p không những phụ thuộc vào độ chênh lệch d mà còn phụ thuộc vào tiêu cự quang học của máy ảnh và khoảng cách giữa hai máy ảnh được tính theo công thức (2.6):

(2.6)

Hình 2.13 Nguyên lý tính độ sâu của điểm ảnh

2.4.1 Khái niệm mặt phẳng trong thị giác máy tính

Trong toán học, một mặt phẳng là một bề mặt phẳng, hai chiều kéo dài vô cùng Mặt phẳng được xác định bởi bộ ba điểm không thẳng hàng hoặc bộ một đường thẳng và một điểm không thuộc đường thẳng này trong không gian Eulide Có thể định nghĩa một mặt phẳng là tập hợp các điểm có tọa độ thỏa mãn phương trình (2.7) Véc tơ gradient được xác định trong phương trình (2.11)

Từ (2.11), độ sâu của mặt phẳng xác định trước là không đổi cùng với cả trục x và trục y Như vậy,

mặt phẳng bao gồm các điểm liền kề trong bản đồ độ sâu có cùng giá trị gradient độ sâu Đây là một đặc tính quan trọng cho đối tượng điểm trong ảnh để xem xét nó có thuộc một vùng phẳng nào đó không

2.4.2 Khái niệm điểm lân cận và hàng xóm

Mỗi điểm p trong một bản đồ độ sâu có tới bốn điểm lân cận theo chiều dọc và chiều ngang được đặt tên là Top, Bottom, Left và Right tương ứng với mối quan hệ vị trí với điểm p Mỗi điểm lân cận điểm p sẽ được xem xét là hàng xóm của nó nếu điểm này đáp ứng các điều kiện sự khác nhau về độ sâu với điểm trung tâm phải nhỏ hơn ngưỡng xác định trước θ Một điểm lân cận được cho là điểm hàng xóm của điểm p đã được gắn vào vùng mặt phẳng nếu nó đáp ứng đầy đủ các điều kiện sau:

• Điểm phải nằm cạnh khu vực phẳng được xem xét

• Độ chênh lệch độ sâu của điểm bằng hoặc nhỏ hơn ngưỡng xác định 

Như vậy, khái niệm mặt phẳng bao gồm các điểm hàng xóm trong bản đồ độ sâu có các giá trị gradient độ sâu không lệch quá một ngưỡng  Việc xác định ngưỡng phải đảm bảo không được bỏ qua các điểm đất thật và không được để lọt các điểm giả đất Đây là một công việc cần thực nghiệm nhiều lần để đưa ra đề nghị ngưỡng xét  hợp lý trong từng hoàn cảnh cụ thể

R

L x

x

T f z

−

0

=+++By Cz D

A y

z x z

Trang 11

2.5 Triển khai phương pháp trích xuất đối tượng mặt phẳng

2.5.1 Kiến trúc hệ thống xử lý dữ liệu tin cậy chuẩn

Hệ thống áp dụng thuật toán Tạo nhóm hàng xóm kết hợp lọc (NGaF) được đề xuất bao gồm ba giai đoạn liên tiếp như trong Hình 2.15

Hình 2.15 Sơ đồ khối hệ thống phát hiện mặt phẳng

2.5.2 Thuật toán đề xuất Tạo nhóm hàng xóm kết hợp lọc

Trong trường hợp thử nghiệm thứ hai, chương trình

thu thập dữ liệu sâu từ môi trường thực tế mà rô-bốt hoạt

động sử dụng máy ảnh RGB-D Chất lượng bản đồ độ

sâu thường không lý tưởng nên không thể bỏ qua quá

trình giảm nhiễu cho đầu vào (Hình 2.18) Để giảm loại

nhiễu này, bằng cách quan sát thực tế, dễ dàng thấy rằng

nếu đánh giá trong phạm vi cửa sổ W đủ nhỏ, chúng phải

luôn nhận được các giá trị độ sâu đúng đắn và độ biến

thiên của giá trị độ sâu không quá mạnh Song cũng cần

xét đến tình huống nếu tỷ lệ giữa các điểm giá trị sai và

kích thước cửa sổ W lớn hơn 50%, công việc sửa chữa

không hiệu quả do thông tin giá trị trung bình không còn

tin cậy

Nhiệm vụ của khâu này là cung cấp một tập hợp các

ứng cử viên cho việc lựa chọn mặt phẳng một cách xứng

đáng (Hình 2.18) Mỗi điểm được đánh giá mối quan hệ

của nó chỉ một lần với vai trò là một điểm trung tâm hoặc

là một điểm lân cận Vì vậy, sau khi một điểm là có liên

quan, nó chắc chắn sẽ được đánh dấu Phạm vi của

ngưỡng θ phụ thuộc vào chất lượng đầu vào Nếu chương

trình sử dụng bản đồ độ sâu gần như hoàn hảo, nó sẽ thực

thi với θ = 1 cố định Các trường hợp khác, ngưỡng θ sẽ

cao hơn 2 Thuật toán dừng lại khi tập S trở thành tập rỗng

Hình 2.18 Thuật toán Tạo vùng hàng xóm

Nhiệm vụ của bước này là chọn các ứng cử viên đáp ứng một số điều kiện trong thực tế để tạo ra

một bộ mặt phẳng thực sự Số điểm của ứng cử viên phải lớn hơn ngưỡng tối thiểu min được xác định

để đảm bảo rằng một số lượng lớn can nhiễu nhỏ bị loại bỏ thành công Ngưỡng tối thiểu min chắc

chắn sẽ phụ thuộc vào trường hợp cảnh quan sát cụ thể

2.5.3 Kết quả thực nghiệm và thảo luận

Trong phần này, các kết quả thử nghiệm bằng cách sử dụng phương pháp được đề xuất được trình bày chi tiết Thử nghiệm được thực hiện trên hai loại bản đồ chênh lệch khác nhau Tập dữ liệu đầu vào đầu tiên bao gồm năm bản đồ chênh lệch được thu thập từ cơ sở dữ liệu chung với liên kết http://vision.middlebury.edu/stereo/data/ trong trường hợp có bản đồ chênh lệch hoàn hảo gồm hình ảnh Sawtooth, Venus, Cones, Teddy, và hình ảnh Books

Để kiểm tra sự ổn định của thuật toán được đề xuất khi xử lý dữ liệu độ sâu môi trường hoạt động của rô-bốt, chương trình được thực hiện với các bản đồ độ sâu không lý tưởng như trong Hình 2.21 Các mặt phẳng được phát hiện như được minh họa trong cột cuối cùng được hiển thị mượt mà, trơn tru với các cảnh thực trong nhiều cảnh thử nghiệm với số lượng đối tượng nằm trên nền tăng dần

Tăng cường chất lượng

Bản đồ

độ sâu

Tạo nhóm hàng xóm

Chọn lọc mặt phẳng

Tập mặt phẳng

Trang 12

Ảnh màu Bản đồ độ sâu Bản đồ mặt phẳng

Hình 2.21 Kết quả của các ảnh kiểm tra thu thập bởi máy ảnh RGB-D

Hình 2.22 cho thấy so sánh số lượng

mặt phẳng được phát hiện giữa phương

pháp áp dụng NGaF và phương pháp

FPDIDM [5] Đối với hình ảnh Sawtooth

và Venus, kết quả số lượng mặt phẳng của

phương pháp FPDIDM tương ứng với kết

quả của phương pháp được đề xuất áp

dụng ngưỡng lọc min = 256 Đối với hình

ảnh Cones và Teddy, số lượng mặt phẳng

thu được của thuật toán FPDIDM tương

ứng với công việc được áp dụng với

ngưỡng lọc min = 64 Số lượng mặt phẳng

phát hiện của FPDIDM trong ảnh Books

tương ứng với phương pháp được áp dụng

bằng ngưỡng tối thiểu min = 128

Hình 2.22 So sánh số lượng mặt phẳng được phát hiện theo một số ngưỡng tối thiểu min khác nhau với phương pháp FPDIDM [5]

Hình 2.23 minh họa số lượng mặt phẳng được phát hiện với ngưỡng tối thiểu min từ 32 đến 256 kiểm tra với bản đồ độ sâu từ máy ảnh RGB-D Rõ ràng, cũng như Hình 2.22, ngưỡng min lớn hơn thì

số lượng mặt phẳng phát hiện ít hơn vì một số mặt phẳng nhỏ hơn ngưỡng min được coi như nhiễu

nên bị loại bỏ Tốc độ giảm của mặt phẳng số lượng là gần 50% trong khi min nhảy từ 32 đến 64 và

từ 64 đến 128 nhưng tốc độ giảm này chậm lại khi ngưỡng tối thiểu tăng từ 128 lên 256 trong tất cả

Trang 13

các trường hợp được thử nghiệm Ngoài ra

số lượng các mặt phẳng phát hiện phụ thuộc

vào các đối tượng trong cảnh rất nhiều

Hình 2.23 Số lượng mặt phẳng được phát

hiện theo các ngưỡng tối thiểu min khác

nhau áp dụng với bản đồ độ sâu từ máy ảnh

RGB-D

Hình 2.24 minh họa so sánh giữa phương

pháp được đề xuất và ba phương pháp tiếp

cận khác bao gồm HSBSR, PPDFM,

FPDIDM về khía cạnh hình ảnh kết quả trực quan

Hình 2.24 Kết quả của các phương pháp HSBSR [4], PPDFDM [49], FPDIDM [5] và thuật toán

đề xuất trên bản đồ chênh lệch St-Michel Jail của Toulouse

Hình 2.25 biểu diễn kết quả đánh giá so sánh dựa trên ba thông số chung bao gồm thời gian tính toán, số lượng mặt phẳng phát hiện và tỷ lệ phần trăm của các điểm hợp lệ Thời gian xử lý phương pháp đề xuất thấp nhất Ngay cả thời gian tính toán của phương pháp được đề xuất cũng giảm 33 lần

so với thuật toán RANSAC được cải thiện

(HSBSR) Trong khi đó, kết quả về số lượng

mặt phẳng tìm thấy lớn hơn và PPDFDM,

FPDIDM phương pháp khoảng 8% Cuối

cùng, kết quả tỷ lệ phần trăm hợp lệ là tốt hơn

so với những cách tiếp cận được so sánh ít

nhất 2%

Hình 2.25 So sánh ba thông số đánh giá

giữa các phương pháp HSBSR, PPDFDM,

FPDIDM và Phương pháp NGaF đề xuất

trên bản đồ chênh lệch St-Michel Jail của

Toulouse

2.5.4 Kết luận

Phần này thực hiện giải quyết vấn đề phát hiện mặt phẳng dựa trên bản đồ độ sâu bằng cách sử dụng một thuật toán phân nhóm hàng xóm mới và bộ lọc hợp lý (NGaF) Ưu điểm chính của phương pháp đề xuất này là sự đơn giản trong khi vẫn đảm bảo độ tin cậy của các kết quả

2.6 Tổng kết chương

Chương này đã trình bày đề xuất cách phương pháp tăng cường tính toán bản đồ chênh lệch dựa trên thuật toán SAD Phương pháp tính toán áp dụng cho dữ liệu biên ảnh, được trích xuất từ các cặp ảnh nổi Khối lượng dữ liệu cần xử lý được giảm rất nhiều so với khối dữ liệu toàn ảnh nên chương trình yêu cầu ít tải tính toán hơn Đồng nghĩa với việc thời gian chạy nhanh hơn trên cùng một nền

tảng phần cứng Kết quả đánh giá thời gian chạy giảm trung bình 5,7 lần Việc áp dụng maxbias là 2,

5 và 10 chứng minh cho hiệu quả hơn thực nghiệm không dùng maxbias trong việc giảm thời gian xử

lý Đề xuất áp dụng SAD cải thiện với bộ thông số maxbias =10 và cửa sổ làm việc 11 11  bởi độ

HSBSR PPDFDM FPDIDM Our method

Trang 14

chính xác giữ gần như không thay đổi so với phương pháp SAD gốc Trong các mục 2.4 và 2.5 của chương này, tác giả đã đề xuất thuật toán Nhóm hàng xóm và Lọc (NGaF) để phát hiện bề mặt phẳng

từ chỉ một bản đồ độ sâu hoặc bản đồ chênh lệch Kết quả thử nghiệm thể hiện phương pháp được đề xuất mạnh mẽ bằng cách so sánh ba thông số chung giữa các phương pháp, thuật toán được áp dụng minh họa một hiệu suất cao chắc chắn

CHƯƠNG 3 PHÁT TRIỂN THUẬT TOÁN NHẬN DẠNG MẶT ĐẤT

Trong chương này, tác giả đề xuất cách tiếp cận nâng cao để nhận dạng mặt đất bằng cách sử dụng các vùng phẳng gần đúng và nhóm phẳng được nhận dạng từ bản đồ độ sâu 2D

3.2 Nguyên lý nhận dạng đối tượng mặt đất và vật cản

Giả sử rằng máy ảnh có tiêu cự f nằm ở O với chiều cao h so với mặt đất như thể hiện trong Hình 3.1, trong đó P I và P G tương ứng là mặt phẳng hình ảnh và mặt phẳng đất Cho O 1 và O 2 là kết

quả các phép chiếu của O trên P G và P I tương ứng; M I1 và M I2 là các điểm nằm trên P I và p khoảng

cách từ O 2 đến M I1 Tiếp theo, độ sâu của M I1 có thể được ước tính như (3.1).Thực hiện vi phân hai

vế của (3.1), nhận được (3.2) Từ phương trình (3.2) có thể xác định độ chênh lệch độ sâu  zy từ sự khác biệt chiều cao p ở trục đứng y

f p p hf dz

2 2 2

thể được xác định từ khoảng cách khác nhau  MG của MG1 và

MG2 trên mặt đất trong trục ngang x như thể hiện trong phương

trình (3.3)

z z M

z x =  G + −

(3.3) Hai phương trình (3.2) và (3.3) có thể được sử dụng để tính toán bản đồ gradient độ sâu theo hướng y và x tương ứng Giả sử  MI là khoảng cách của một điểm, ta có đó z

OM

M M

 rất nhỏ Do đó

z OM

M z

và  zx được tính bằng phương trình (3.3) nên

rất nhỏ Do đó để đơn giản trong các thuật toán đề xuất,  zx luôn luôn được coi bằng 0 cho các điểm ảnh thuộc về mặt phẳng đất Từ phân tích đồ thị phương trình (3.2), có thể thấy rằng đối với  zx = 0,  zy thông thường có giá trị lớn hơn một ngưỡng nhất định T, có thể được xác định bằng đồ thị bằng

cách xấp xỉ hai trạng thái của đường cong được đưa ra bởi tỷ lệ dp dz trong phương trình (3.2) Giá trị ngưỡng này thực sự là tọa độ y tại z y =1 Vì độ sâu của các điểm ảnh nền thường được lượng tử hóa bởi 8 bit, do đó  zy thường khác với 0 đối với tất cả các y < T

Trên cơ sở phân tích hình học liên quan đến các thuộc tính mặt đất, thuật toán đề xuất phân loại một điểm được xem xét thuộc đất hoặc không đất như bảng 3.1

O

1

G M z

p

2

G M

Định dạng
Số trang	28
Dung lượng	1,6 MB