Nghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhà
Trang 1i
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Đặng Khánh Hòa
NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC THUẬT TOÁN ƯỚC LƯỢNG MẶT PHẲNG VÀ DẪN ĐƯỜNG CHO HỆ THỐNG
THỊ GIÁC RÔ-BỐT TRONG NHÀ
LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
Hà Nội – 2019
Trang 2ii
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
Đặng Khánh Hòa
NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC THUẬT TOÁN
ƯỚC LƯỢNG MẶT PHẲNG VÀ DẪN ĐƯỜNG CHO HỆ THỐNG
THỊ GIÁC RÔ-BỐT TRONG NHÀ
Trang 3i
LỜI CAM ĐOAN
Tôi xin cam đoan rằng các kết quả khoa học được trình bày trong luận án này là thành quả nghiên cứu của bản thân tôi trong suốt thời gian làm nghiên cứu sinh và chưa từng xuất hiện trong công bố của các tác giả khác Các kết quả đạt được là chính xác và trung thực
Hà Nội, ngày tháng 7 năm 2019 Tập thể giáo viên hướng dẫn khoa học Tác giả luận án
TS Lê D
PGS TS Nguyến Tiến Dũng TS Lê Dũng Đặng Khánh Hòa
Trang 4ii
LỜI CẢM ƠN
Trước hết, tôi xin bày tỏ lời cảm ơn chân thành và sâu sắc đến tập thể hướng dẫn PGS
TS Nguyễn Tiến Dũng và TS Lê Dũng đã trực tiếp định hướng khoa học trong quá trình nghiên cứu Các Thầy đã dành nhiều thời gian và tâm huyết, động viên về mọi mặt để tác giả hoàn thành luận án
Tác giả xin trân trọng cảm ơn Lãnh đạo trường Đại học Bách Khoa Hà Nội (HUST), Phòng Đào tạo, Viện Điện tử Viễn thông (SET), Bộ môn Điện tử và Kỹ thuật máy tính và TT Đào tạo thực hành đã tạo điều kiện thuận lợi cho nghiên cứu sinh trong suốt quá trình học tập
và nghiên cứu Chân thành cảm ơn các cán bộ, giảng viên, các cộng sự cũng như các anh chị NCS của Viện Điện tử Viễn thông đã động viên, hỗ trợ và tận tình giúp đỡ tác giả trong quá trình thực hiện luận án
Tác giả cảm ơn chương trình 911, Bộ Giáo dục và Đào tạo đã tài trợ cho nghiên cứu sinh Cảm ơn SET, HUST đã tài trợ thông qua đề tài nghiên cứu khoa học cấp cơ sở với mã T2016-PC-108
Cuối cùng, tôi xin bày tỏ lòng biết ơn đến song thân phụ mẫu, vợ và hai con vì những sự thúc đẩy, khích lệ và hy sinh nhiều trong thời gian vừa qua Đây chính là động lực to lớn giúp tác giả vượt qua mọi trở ngại để hoàn thành luận án này
Tác giả luận án
ĐẶNG KHÁNH HÒA
Trang 5iii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC KÝ HIỆU vi
DANH MỤC CÁC CHỮ VIẾT TẮT viii
DANH MỤC CÁC BẢNG xi
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ xii
MỞ ĐẦU xv
1 Tính cấp thiết của luận án xv
1.1 Trích trọn mặt phẳng xvii
1.2 Trích trọn mặt phẳng đất xix
1.3 Dẫn đường cho rô-bốt trong nhà xx
2 Mục tiêu, đối tượng, phương pháp và phạm vi nghiên cứu xxi
2.1 Mục tiêu nghiên cứu xxi
2.2 Đối tượng nghiên cứu xxii
2.3 Phương pháp nghiên cứu xxii
2.4 Phạm vi nghiên cứu xxiii
3 Ý nghĩa khoa học và những đóng góp của luận án xxiii
3.1 Ý nghĩa khoa học xxiii
3.2 Các đóng góp khoa học của luận án gồm: xxiii
4 Cấu trúc nội dung của luận án xxiv
CHƯƠNG 1 TỔNG QUAN HỆ THỐNG DẪN ĐƯỜNG CHO RÔ-BỐT DỰA TRÊN HÌNH ẢNH THỊ GIÁC MÁY TÍNH 1
Giới thiệu chương 1
Hệ thống dẫn đường cho rô-bốt trong nhà 1
1.2.1 Các hệ thống dẫn đường cho rô-bốt trong nhà 3
1.2.2 Kiến trúc hệ thống dẫn đường rô-bốt sử dụng thị giác máy tính 4
Một số vấn đề của hệ thống rô-bốt dẫn đường dựa trên thị giác nổi 5
1.3.1 Phương pháp tính toán bản đồ chênh lệch/độ sâu 5
1.3.2 Phương pháp trích xuất đối tượng mặt phẳng dựa trên ảnh thị giác máy tính 8
1.3.3 Phát hiện mặt phẳng đất dựa trên sự biến đổi ảnh thị giác 15
Trang 6iv
1.3.4 Phương pháp dẫn đường cho rô-bốt trong nhà trong môi trường chưa
biết 25
Tổng kết chương 29
CHƯƠNG 2 PHƯƠNG PHÁP TĂNG TỐC TÍNH TOÁN BẢN ĐỒ CHÊNH LỆCH VÀ PHÁT TRIỂN THUẬT TOÁN TRÍCH XUẤT MẶT PHẲNG 31
Giới thiệu chương 31
Hệ thống máy ảnh nổi 31
2.2.1 Cảm biến hình ảnh 31
2.2.2 Cấu trúc hệ thống máy ảnh nổi 32
2.2.3 Nguyên lý thị giác nổi 33
2.2.4 Bản đồ độ sâu 35
Phương pháp tăng tốc tính toán bản đồ chênh lệch/độ sâu 36
2.3.1 Triển khai tính toán SAD thông thường 36
2.3.2 Triển khai tính toán SAD đề xuất 37
2.3.3 Kết quả thực hiện và thảo luận 39
Nguyên lý trích xuất đối tượng mặt phẳng 43
2.4.1 Độ sâu của điểm 43
2.4.2 Khái niệm mặt phẳng trong thị giác máy tính 44
2.4.3 Khái niệm điểm lân cận và hàng xóm 45
Triển khai phương pháp trích xuất đối tượng mặt phẳng 46
2.5.1 Kiến trúc hệ thống xử lý dữ liệu 46
2.5.2 Thuật toán đề xuất Tạo nhóm hàng xóm kết hợp lọc 46
2.5.3 Kết quả thực nghiệm và thảo luận 49
2.5.4 Kết luận 55
Tổng kết chương 55
CHƯƠNG 3 PHÁT TRIỂN THUẬT TOÁN NHẬN DẠNG MẶT ĐẤT 57
Giới thiệu chương 57
Nguyên lý nhận dạng đối tượng mặt đất 57
Phương pháp nhận đối tượng mặt đất từ ảnh độ sâu chuẩn 59
3.3.1 Kiến trúc hệ thống xử lý dữ liệu 59
3.3.2 Thuật toán đề xuất 60
3.3.3 Kết quả thực nghiệm và thảo luận 64
3.3.4 Kết luận 72
Trang 7v
Phương pháp nhận dạng đối tượng mặt phẳng đất từ dữ liệu độ sâu thực
tế 72
3.4.1 Giới thiệu 72
3.4.2 Kiến trúc hệ thống trích mặt đất từ dữ liệu độ sâu thực tế 73
3.4.3 Kết quả thực nghiệm và thảo luận 74
3.4.4 Kết luận 81
Tổng kết chương 81
CHƯƠNG 4 PHÁT TRIỂN PHƯƠNG PHÁP DẪN ĐƯỜNG CHO RÔ-BỐT DỰA TRÊN THUẬT TOÁN NHẬN DẠNG MẶT ĐẤT 83
Giới thiệu chương 83
Phương pháp dẫn đường sử dụng nhận dạng mặt đất 83
4.2.1 Mô hình hoạt động của rô-bốt trong nhà 83
4.2.2 Xác định kích thước 2D của điểm sâu 84
4.2.3 Phương pháp dẫn đường AMSD đề xuất dựa trên khai thác dữ liệu độ sâu 85
Kết quả thực nghiệm phương pháp dẫn đường AMSD dựa trên nhận dạng mặt đất và thảo luận 89
4.3.1 Kết quả thực nghiệm của phương pháp tránh vật cản cơ bản 90
4.3.2 Kết quả thực nghiệm của phương pháp tránh vật cản cải thiện 92
4.3.3 Kết luận 97
Tổng kết chương 98
KẾT LUẬN VÀ KIẾN NGHỊ 99
1 Kết luận 99
2 Kiến nghị nghiên cứu tiếp theo 99
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 100
TÀI LIỆU THAM KHẢO 102
Trang 8vi
DANH MỤC CÁC KÝ HIỆU
Ký hiệu Ý nghĩa
A Cửa sổ tham chiếu
A’ Cửa sổ tìm kiếm
Bottom Điểm liền kề dưới
C Phép biến đổi ảnh
dmax Độ chênh lệch tối đa
dmin Độ chênh lệch tối thiểu
f Tiêu cự máy ảnh
FN Bộ đếm các điểm đất đúng không được phát hiện
FP Bộ đếm các điểm phi đất bị phát hiện sai
H Ma trận biến đổi phẳng
IL Ảnh bên trái
IR Ảnh bên phải
j Ngưỡng chênh lệch độ sâu của hai điểm liền kề
K Ma trân hiệu chuẩn máy ảnh
Left Điểm liền kề bên trái
PL Điểm phản chiếu của điểm p trên ảnh trái
PR Điểm phản chiếu của điểm p trên ảnh phải
q Ngưỡng phân biệt khối đất và phi đất
R1 Tỷ lệ phần trăm của các điểm đất được phát hiện
R2 Tỷ lệ phần trăm của các điểm mặt đất được phát
hiện không chính xác
Right Điểm liền kề bên phải
Trang 9vii
T Khoảng cách giữa hai máy ảnh hoặc máy ảnh với
projector
TN Bộ đếm các điểm phi đất đúng được phát hiện
Top Điểm liền kề trên
TP Bộ đếm các điểm đất đúng được phát hiện
w Kích thước cửa sổ
XG Tập hợp điểm có sẵn trên mặt đất
xL Hoành độ trên ảnh trái
xR Hoành độ trên ảnh phải
Trang 10viii
DANH MỤC CÁC CHỮ VIẾT TẮT
AMDS Always Move Straight to the
Destination
Thuật toán Luôn di chuyển thẳng tới đích
ANN Artificial Neural Network Mạng nơron nhân tạo
APIs Application Programming Interface Giao diện lập trình ứng dụng
ARA* Anytime Repairing A* Thuật toán sửa chữa bất cứ lúc
nào*
BFS Best First Seaching Thuận toán tìm kiếm tốt nhất đầu
tiên
CCD Charge Coupled Device Linh kiện tích điện kép
CMOS Complementary Metal Oxide
Maps
Thuật toán Phát hiện mặt phẳng nhanh trong bản đồ chênh lệch FSPF Fast Sampling Plane Filtering Thuật toán Lọc mặt phẳng lấy mẫu
nhanh GDM Gradient Depth Map Thuật toán Gradien bản đồ độ sâu GPS Global Positioning System Hệ thống định vị toàn cầu
HSBSR Hierarchical Shape-Based Surface
Reconstruction
Thuật toán tái tạo bề mặt dự trên hình dạng phân cấp
ICP Iterative Closest Point Thuật toán điểm gần nhất lặp lại LRF Laser Range Finder Xác định phạm vi bằng tia laser
LSD Line Segment Detector Bộ phát hiện đoạn thẳng
MDL Minimum Description Length Thuật toán Độ dài mô tả tối thiểu
Trang 11ix
NCC Normalized Cross Correlation Thuật toán Độ tương quan chéo
chuẩn NGaF Neighbor Grouping and Filter Thuật toán Tạo nhóm hàng xóm và
lọc NMOS N Metal Oxide Semiconductor Bán dẫn ôxit kim loại loại N
PPDFDM Planar Patch Detection for Disparity
Maps
Thuật toán Phát hiện mảnh phẳng dùng bản đồ chênh lệch
PROSAC Progressive Sample Consensus Đồng thuận mẫu lũy tiến
PSO Particle Swarm Optimization Thuật toán tối ưu đám hạt
RANSAC RANdom SAmple Consensus Thuật toán Đồng thuận lấy mẫu
ngẫu nhiên
RGB-D Red Green Blue-Depth Cảm biến màu Đỏ Lục Dương-Độ
sâu RHT Random Hough Transform Thuật toán Biến đổi Hough ngẫu
nhiên SAD Sum of Absolute Differences Thuật toán Tổng tuyệt đối độ sai
lệch
SIFT Scale-invariant Feature Transform Biến đổi đặc trưng tỷ lệ bất biến SLAM Simultaneous Localization And
Mapping
Đồng thời định vị trí và lập bản đồ
SSD Sum of Squared Differences Thuật toán Tổng bình phương độ
sai lệch SUFT Speeded-Up Robust Features Tăng tốc đặc trưng mạnh mẽ
VDEMs Vectorized Digital Elevation Model Mô hình nâng cao kỹ thuật số
véc-tơ hóa VGA Video Graphics Array Chuẩn mảng đồ họa video độ phân
giải 640x480
RHT Random Hough Transform Thuật toán Biến đổi Hough ngẫu
nhiên SAD Sum of Absolute Differences Thuật toán Tổng tuyệt đối độ sai
lệch
SLAM Simultaneous Localization And
Mapping
Đồng thời định vị trí và lập bản đồ
SSD Sum of Squared Differences Thuật toán Tổng bình phương độ
sai lệch
Trang 12x
VDEMs Vectorized Digital Elevation Model Mô hình nâng cao kỹ thuật số
véc-tơ hóa VGA Video Graphics Array Chuẩn mảng đồ họa video độ phân
giải 640x480
Trang 13xi
DANH MỤC CÁC BẢNG
Bảng 1.1 Sai số của phương pháp [47] 7
Bảng 1.2 Thông số đánh giá kết quả thực nghiệm [7] 15
Bảng 1.3 Kết quả phát hiện mặt đường với các kịch bản khác [26] 21
Bảng 3.1 Phân loại điểm đất và điểm phi đất 59
Bảng 4.1 So sánh hiệu năng các phương pháp dẫn đường cho rô-bốt trong nhà 97
Bảng 4.2 So sánh tỷ lệ điều hướng thành công 97
Trang 14xii
DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ
Hình 1.1 Hệ thống dẫn đường bằng thị giác cho rô-bốt 5
Hình 1.2 Hệ thống tính bản đồ chênh lệch điển hình 6
Hình 1.3 Kết quả tính bản đồ chênh lệch thưa thớt áp dụng thuật toán SAD [46] 7
Hình 1.4 Kết quả thử nghiệm trên bốn hình ảnh thang độ xám thử nghiệm [47] 7
Hình 1.5 Biểu diễn các thông số của mặt phẳng theo dạng chuẩn [25] 8
Hình 1.6 Kết quả phát hiện mặt phẳng mái bằng cách sử dụng biến đổi Hough 3D [25] 10
Hình 1.7 Hình ảnh của các đám mây điểm 2D phát sinh từ việc phát hiện mặt phẳng mái bằng RANSAC [25] 12
Hình 1.8 Kết quả phát hiện mặt phẳng sử dụng bộ phát hiện đoạn thẳng [7] 14
Hình 1.9 Khung cảnh tương quan của máy ảnh tại các điểm thời gian t1 và t2 [26] 17
Hình 1.10 Một số kết quả trung gian của phép biến đổi ảnh thị giác [26] 20
Hình 1.11 Kết quả phát hiện mặt đường sử dụng phương pháp biến đổi ảnh thị giác [26] 20
Hình 1.12 (a) Vùng quan tâm của bản đồ chênh lệch và (b) Ảnh mặt đất phủ lên ảnh gốc [22] 22
Hình 1.13 Phân tích dữ liệu độ chênh lệch theo hàng (a) và cột (b) [22] 23
Hình 1.14 Cảm biến và mặt phẳng mặt đất được trình bày dựa trên tọa độ cảm biến 24 Hình 2.1 Hệ thống máy ảnh nổi Bumblebee [76] 32
Hình 2.2 Các trục tọa độ của hệ thống thị giác nổi [78] 33
Hình 2.3 Mối quan hệ tỷ lệ nghịch độ sâu và độ chênh lệch [78] 34
Hình 2.4 Ví dụ về bản đồ độ sâu [79] 35
Hình 2.5 Hệ thống tính bản đồ độ sâu điển hình SAD 36
Hình 2.6 Hệ thống tính bản đồ độ sâu SAD điều chỉnh đề xuất 38
Hình 2.7 Bản đồ chênh lệch được thực hiện bởi thuật toán SAD thông thường 40
Hình 2.8 Bản đồ chênh lệch được thực hiện bởi SAD cải thiện 41
Hình 2.9 Biểu đồ thời gian tiêu tốn, độ chính xác và độ che phủ được thực hiện bởi SAD thông thường cho ảnh Cones 41
Hình 2.10 Thời gian chạy, độ chính xác và độ bao phủ của phương pháp tăng cường thuật toán SAD cho hình ảnh Cones 42
Hình 2.11 So sánh trong thời gian xử lý được thực hiện bởi các phương pháp SAD thông thường và phương pháp tăng cường SAD đề xuất 42
Hình 2.12 Sơ đồ khối của hệ thống máy ảnh thị giác nổi [78] 43
Trang 15xiii
Hình 2.13 Nguyên lý tính độ sâu của điểm ảnh 43
Hình 2.14 Khái niệm điểm lân cận của điểm p 45
Hình 2.15 Sơ đồ khối hệ thống phát hiện mặt phẳng 46
Hình 2.16 Minh họa dữ liệu trong thư viện Middlebury 47
Hình 2.17 Minh họa dữ liệu độ sâu môi trường thực tế và dữ liệu cải thiện 47
Hình 2.18 Thuật toán Tạo vùng hàng xóm 49
Hình 2.19 Hệ thống thử nghiệm trích mặt phẳng 50
Hình 2.20 Kết quả của các ảnh kiểm tra trong thư viện Middlebury 51
Hình 2.21 Kết quả của các ảnh kiểm tra thu thập bởi máy ảnh RGB-D 52
Hình 2.22 So sánh số lượng mặt phẳng được phát hiện theo một số ngưỡng tối thiểu min khác nhau với phương pháp FPDIDM [7] 52
Hình 2.23 Số lượng mặt phẳng được phát hiện theo các ngưỡng tối thiểu min khác nhau áp dụng với bản đồ độ sâu từ máy ảnh RGB-D 53
Hình 2.24 Kết quả của các phương pháp HSBSR [6], PPDFDM [53], FPDIDM [7] và thuật toán đề xuất trên bản đồ chênh lệch St-Michel Jail của Toulouse 54
Hình 2.25 So sánh ba thông số đánh giá giữa các phương pháp HSBSR, PPDFDM, FPDIDM và Phương pháp NGaF đề xuất trên bản đồ chênh lệch nhà thờ St-Michel Jail ở Toulouse 55
Hình 3.1 Mô hình toán học xác định độ chênh lệch độ sâu 58
Hình 3.2 Kiến trúc hệ thống nhận dạng mặt đất đề xuất 60
Hình 3.3 Thuật toán Lọc và gom nhóm 61
Hình 3.4 Thuật toán Tinh chỉnh vùng mặt đất 64
Hình 3.5 Các bản đồ gradient của hình ảnh trong thư viện Middlebury được thử nghiệm 66
Hình 3.6 Kết quả nhận dạng mặt đất của hình ảnh thử nghiệm trong nhiều trường hợp điển hình với các giá trị B 66
Hình 3.7 Kết quả của các hình ảnh được thử nghiệm trong nhiều môi trường 68
Hình 3.8 Tỷ lệ các điểm mặt đất được phát hiện trước khi quá trình hiệu chỉnh theo các kích thước cửa sổ w 69
Hình 3.9 Tỷ lệ điểm mặt đất được phát hiện sau quá trình hiệu chỉnh theo các kích thước khối B với cửa sổ w= 3 3 69
Hình 3.10 Tỷ lệ điểm mặt đất được phát hiện sau quá trình hiệu chỉnh theo các kích thước khối B với cửa sổ w= 5 5 69
Hình 3.11 Tỷ lệ điểm mặt đất được phát hiện sau quá trình hiệu chỉnh theo các kích thước khối B với cửa sổ w= 7 7 70
Trang 16xiv
Hình 3.12 Đường cong biến đổi của R và đường ngưỡng tương ứng θ trong bản đồ
gradient độ sâu sau khi phân chia khối 71
Hình 3.13 Sơ đồ khối hệ thống trích mặt đất từ dữ liệu độ sâu cung cấp bởi máy ảnh RGB-D 73
Hình 3.14 Các thông số hình học của Kinect [93] 74
Hình 3.15 Kết quả của các hình ảnh được thử nghiệm trong nghiên cứu điển hình 78
Hình 3.16 Tỷ lệ điểm mặt đất được phát hiện đúng R1 theo kích thước cửa sổ làm mịn B 79
Hình 3.17 Tỷ lệ điểm mặt đất lỗi theo các kích thước cửa sổ làm mịn B 80
Hình 3.18 So sánh tỷ lệ điểm mặt đất được phát hiện đúng (R1) của các phương pháp 80
Hình 3.19 So sánh tỷ lệ điểm mặt đất được phát hiện sai (R2) của các phương pháp 80 Hình 4.1 Mô hình rô-bốt sử dụng hệ thống dẫn đường dựa trên thị giác máy tính 84
Hình 4.2 (a) Các thành phần của Kinect và (b) Phạm vi không gian độ sâu [94] 84
Hình 4.3 Mô hình toán học để tính toán kích thước của điểm sâu 84
Hình 4.4 Sơ đồ khối phương pháp dẫn đường dựa trên bản đồ độ sâu 85
Hình 4.5 Mô hình toán học cơ bản lựa chọn hướng di chuyển của rô-bốt 86
Hình 4.6 Mô hình toán học cải tiến lựa chọn hướng di chuyển của rô-bốt 88
Hình 4.7 Thuật toán điều hướng cải thiện dựa trên bản đồ độ sâu cho rô-bốt trong nhà 89
Hình 4.8 Hệ thống xe rô-bốt thử nghiệm 90
Hình 4.9 Kết quả thử nghiệm chiến thuật dẫn đường cơ bản 91
Hình 4.10 Theo dõi vị trí rô-bốt theo chiến thuật điều hướng cơ bản 92
Hình 4.11 Kết quả thuật toán điều hướng cải tiến 95
Hình 4.12 Theo dõi vị trí rô-bốt theo chiến thuật điều hướng cải tiến 96
Trang 17xv
MỞ ĐẦU
1 Tính cấp thiết của luận án
Một xã hội phát triển được đánh giá theo nhiều khía cạnh Một trong những yếu tố quan trọng là khả năng hỗ trợ, bảo vệ, nâng cao chất lượng sống những cá nhân bị tổn thương như người già, người khiếm thị Theo báo cáo của Tổ chức Y tế Thế giới, trên toàn cầu, ước tính có khoảng 1,3 tỷ người sống với một số dạng suy giảm thị lực Có 188,5 triệu người bị suy giảm thị lực nhẹ, 217 triệu người bị suy giảm thị lực từ trung bình đến nặng và 36 triệu người bị mù [1] Liên quan đến tầm nhìn gần, 826 triệu người sống trong tình trạng suy giảm thị lực gần [2] Trên toàn cầu, các nguyên nhân hàng đầu gây suy giảm thị lực là các tật khúc xạ và đục thủy tinh thể không được điều trị Khoảng 80% của tất cả các suy giảm thị lực trên toàn cầu được coi là có thể tránh được Phần lớn những người bị suy giảm thị lực là trên 50 tuổi Như vậy nhu cầu về các thiết bị hỗ trợ cho điều hướng và định hướng là rất cao và tăng lên khi mức sống ngày càng cao
Có rất nhiều công cụ đang được sử dụng như gậy dò đường hoặc sử dụng chó được huấn luyện dẫn đường Mặc dù các công cụ này rất phổ biến, nhưng chúng không thể cung cấp cho người khiếm thị tất cả thông tin và tính năng để di chuyển an toàn Nhờ những thành tựu của mạch tích hợp, ý tưởng sử dụng máy ảnh thị giác có cấu trúc như mắt người tỏ ra có tiềm năng hỗ trợ tìm đường Máy ảnh còn có ưu thế cung cấp đầy đủ thông tin môi trường xung quanh cá nhân
Trong những năm gần đây, các thảm họa gây nhiều thiệt hại về người và vật chất xảy ra tại các đô thị bởi yếu tố đặc trưng mật độ dân cư cao và nhiều nhà cao tầng Công tác tiếp cận khu vực khảo sát đối mặt với nhiều thách thức bởi môi trường này tiềm ẩn nhiều yếu tố nguy hiểm như rò rỉ khí ga, khói, … Các nghiên cứu gần đây có định hướng
đề xuất giải pháp thay thế con người bằng xe rô-bốt tự dẫn đường Thách thức là làm thế nào rô-bốt làm việc được chính xác ổn định và kịp thời trong môi trường không lường trước và có thể biến đổi Có rất nhiều phương pháp dẫn đường đã được thử nghiệm nhưng trong thời gian gần đây nổi lên là phương pháp dẫn đường bằng máy ảnh thị giác với nhiều hy vọng hỗ trợ được tối đa các yêu cầu trong khảo sát môi trường văn phòng tòa nhà
Ngoài ra, xe rô bốt hoàn toàn có thể trở thành trợ lý của con người trong việc chuyển phát hoặc nhận hàng hóa, tài liệu cứng trong một khu vực tổ hợp văn phòng hoặc trong kho phân phối chuyển phát kiện hàng
Trang 18xvi
Gần đây rất nhiều nhóm nhà khoa học đang tập trung nghiên cứu và phát triển các
hệ thống rô-bốt tự trị tích hợp máy ảnh Xu hướng phát triển công nghệ là tích hợp các cảm biến ảnh mạnh mẽ như máy ảnh nổi hoặc máy ảnh màu Đỏ Lục Dương-Độ sâu (RGB-D) Trong đó việc nghiên cứu giải thuật xử lý tín hiệu ảnh thị giác có vai trò quan trọng trong toàn hệ thống Dựa trên hình ảnh thu nhận trong hiện trường cho phép xác định được chính xác đầy đủ đa vật cản, đa mục tiêu Lợi thế vượt trội của hệ máy ảnh thị giác là cung cấp hình ảnh sinh động và giàu có thông tin cho người giám sát
Tình hình nghiên cứu thuật toán xử lý tín hiệu ảnh ứng dụng trong rô-bốt tự trị trong nhà không biết trước môi trường chưa được sự quan tâm xứng đáng với vai trò quan trọng của nó Nguyên nhân chủ yếu là việc định hướng nghiên cứu chưa được hoạch định ở tầm vĩ mô Nếu điều này được xây dựng một cách bài bản thì sẽ khuyến khích có nhiều nhà khoa học, các nghiên cứu sinh, kỹ sư … tham gia bởi tính ứng dụng thiết thực đến nhiều lĩnh vực trong đời sống xã hội Mặc dù xử lý tín hiệu máy ảnh là một khoa học ứng dụng đóng vai trò đặc biệt quan trọng cho sự phát triển của các hệ thống giám sát, cứu hộ, hỗ trợ bệnh nhân người già và người khiếm thị Nhưng do đặc thù của lĩnh vực nghiên cứu là đòi hỏi có những kiến thức cơ bản về toán học và logic vững vàng, nên có nhiều khó khăn đối với nhiều nhà nghiên cứu Cho nên số lượng các bài báo, các công trình khoa học có liên quan được công bố trên các tạp chí khoa học, báo khoa học ở trong nước còn hạn chế Ngoài nhóm nghiên cứu của Viện Điện tử - Viễn thông, trường Đại học Bách Khoa Hà Nội, ở trong các trường đại học, các viện khoa học vẫn có những nhóm nghiên cứu thực hiện các đề tài, dự án nghiên cứu khoa học như Khoa Điện tử - Viễn thông, Trường đại học Công nghệ, Đại học Quốc Gia Hà Nội, Học viện kỹ thuật quân sự, Khoa Điện tử - Viễn thông, Trường Đại học Bách Khoa thành phố Hồ Chí Minh và một số trường đại học, viện nghiên cứu khác
Các nghiên cứu hiện nay hứa hẹn sẽ giải quyết được vấn đề hiệu năng và tính chính xác hệ thống, có tính ứng dụng cao trong tương lai Nhưng riêng đối với những nghiên cứu phát triển thuật toán xử lý tín hiệu máy ảnh ứng dụng trong hệ thống thị giác rô-bốt dẫn đường trong nhà còn tiềm năng Nguyên nhân một phần do điều kiện nghiên cứu thực nghiệm còn nhiều hạn chế nên cho đến nay số lượng các công trình nghiên cứu liên quan được công bố trong các tạp chí, hội thảo khoa học trong nước còn khá hạn chế
Sau đây là một số phân tích môi trường đặc trưng môi trường hoạt động trong nhà của xe rô-bốt Bằng cách quan sát thực tế, tính chất chung của chúng là được xây dựng
là phẳng hoặc gồm các mảng phẳng lớn ghép lại với nhau Các đồ đạc trong phòng được
Trang 19xvii
sắp xếp và có thể thay đổi vị trí tùy ý bất kỳ lúc nào Các đồ đạc bị xê dịch hoặc xáo trộn hoặc đổ xuống sàn Nên khó có thể sử dụng được bản đồ xây dựng sẵn có của tòa nhà hoặc có thể chúng chưa được số hóa theo chuẩn của hệ xe rô-bốt Vậy trường hợp phổ quát xe rô-bốt làm việc môi trường trong nhà không biết trước Một điều hiển nhiên
xe rô-bốt với cơ cấu chấp hành bánh xe chỉ có thể di chuyển trên mặt sàn hoặc gọi là mặt đất Vậy vấn đề dẫn đường có thể được giải quyết bằng cách chỉ ra cho hệ xe rô-bốt đâu là mặt đất và phi đất sử dụng hệ thống cảm biến máy ảnh thị giác Bản chất mặt đất
là một trong những mặt phẳng xuất hiện trong ảnh Ngoài ra còn có các mặt phẳng khác tạo nên hình dạng của các đối tượng như tường, bàn, ghế, tủ…Các đối tượng này được quan tâm khi yêu cầu xe rô-bốt có nhiệm vụ thu thập dữ liệu để phân tích cấu trúc môi trường Thực tế đây cũng là tính năng cơ bản của xe rô-bốt trong bài toán khảo sát môi trường, giúp tái tạo cảnh vật dạng 3D
Như vậy, nhằm khai thác hiệu quả hệ máy ảnh thị giác gắn trên xe rô-bốt các vấn
đề thiết yếu đặt ra gồm:
1 Trích xuất mặt phẳng từ dữ liệu cung cấp bởi máy ảnh thị giác nổi hoặc
RGB-D Bài toán này hỗ trợ phát triển ứng dụng tái tạo lại môi trường dạng 3RGB-D
2 Nhận dạng mặt đất dựa trên việc khai thác dữ liệu máy ảnh thị giác nổi hoặc RGB-D
3 Ứng dụng nhận dạng mặt đất trong bài toán dẫn đường cho xe rô-bốt hoạt động trong nhà trong điều kiện không có bản đồ giao thông
Sau đây là phân tích sâu hơn tính cấp thiết của 3 vấn đề trên
1.1 Trích trọn mặt phẳng
Trong lĩnh vực thị giác máy tính, phát hiện mặt phẳng là một trong những ứng dụng cơ bản để khai thác sâu dữ liệu thị giác bao gồm ứng dụng tái kiến trúc môi trường 3D, nhận dạng đối tượng và điều hướng rô-bốt Nghiên cứu gần đây cho thấy một số kết quả thú vị với các thuật toán khác nhau Những phương pháp tiếp cận này có thể lựa chọn một trong nhiều loại dữ liệu đầu vào phong phú như đám mây điểm 3D, hình ảnh màu đơn hoặc bản đồ chênh lệch Trong [3], các tác giả kết hợp một cải tiến thuật toán biến đổi Hough với kỹ thuật bó cụm để tìm kiếm nhiều mục tiêu trong ảnh dựa trên biên của đối tượng Phương pháp này có thể phát hiện nhiều đối tượng với hình dạng tròn hoặc hình dạng thẳng Tuy nhiên, cấu trúc của các đối tượng được trích chọn khá đơn giản Vì vậy, các thuật toán ứng dụng không thể thích ứng với môi trường tự nhiên,
Trang 20là tích cực lạc quan nhưng rõ ràng là mục đích đáp ứng thời gian thực vẫn chưa đạt được Các nội dung trong [5] [6] [7] mang đến một cách tiếp cận mới để phát hiện các mặt phẳng bằng cách cải thiện thuật toán Đồng thuận lấy mẫu ngẫu nhiên (RANSAC) Ngoài
ra giải pháp phối hợp với giải thuật khác như Độ dài mô tả tối thiểu (MDL) để cải thiện
độ tin cậy của các kết quả được thử nghiệm [8] [9] giải quyết bài toán hẹp phát hiện mặt bàn với thuật toán đề xuất PROSAC bằng cách cải thiện RANSAC Nhìn chung, các công trình đã có một số kết quả đáng khích lệ cho cả hai loại dữ liệu tổng hợp và dữ liệu thu thập trong thực tế Phương pháp này có thể tránh việc phát hiện mặt phẳng sai
do độ phức tạp hình học cao của dữ liệu 3D Nhưng sau đó sự phức tạp của dữ liệu của cấu trúc là không được quan tâm thích đáng Trong công trình [10], mặt phẳng ngang được phát hiện từ các điểm đầu mối của hình ảnh trực quan hoặc phát hiện từ biên trong
dữ liệu điểm 3D Tuy nhiên, những phương pháp này không thích hợp cho hầu hết các loại cấu trúc xây dựng trên thực tế Giải pháp tìm mặt phẳng được trình bày trong [11] căn cứ trên giải pháp Tối ưu hạt Swarm (PSO) kèm với thuật toán Phát triển vùng (RG)
để trích chọn các mặt phẳng nhỏ Song trong nhận định kết quả của giải pháp này thì có nhiều ý kiến là cần phải thảo luận thêm về khả năng giảm chi phí tính toán và cải thiện
độ chính xác Tất cả các phương pháp tiếp cận được đề cập ở trên đều lựa chọn dữ liệu đầu vào 3D phức tạp
Gần đây, các bài viết [12] [13] [14] công bố phát hiện bất kỳ loại bề mặt nào mà không cần hiệu chuẩn máy ảnh bằng cách giả định máy ảnh gắn trên xe tự hành luôn chuyển động tuyến tính Các bề mặt phẳng được tham số hóa bằng cách chuyển chúng
thành không gian vận tốc c có dạng pa-ra-bôn [12] Tác giả đề xuất phương pháp phát
hiện mặt phẳng mà khai thác ràng buộc đường cong vận tốc ISO sau khi ước tính luồng
quang học và bỏ phiếu cho các bộ tích lũy Hàm vận tốc c phụ thuộc vào hai biến x và y
với mối quan hệ gốc bình phương vì vậy nó có độ phức tạp quá cao Bản thảo [14] đưa
ra một số kết quả lạc quan và cần được phát triển hoàn thiện hơn nữa
Các phương pháp ứng dụng thú vị [15] [16] có thể nhanh chóng phát hiện nhiều mặt phẳng dựa trên một bản đồ chiều sâu thu được từ máy ảnh Kinect Thuật toán được
áp dụng trong giải pháp tính véc tơ pháp tuyến cục bộ của các nhóm bốn điểm liền kề
Trang 21xix
trong bản đồ chiều sâu Sau đó, xác minh tính đồng phẳng của mỗi điểm trong cơ sở dữ liệu đám mây 3D dựa trên tiêu chí véc tơ pháp tuyến Lợi thế của phương pháp này có thể phát hiện đồng thời nhiều mặt phẳng, cải thiện tốc độ của quá trình phát hiện mặt phẳng, ngoại trừ trong [16] Kết quả thử nghiệm cho thấy tốc độ xử lý của phương pháp
đề xuất nhanh hơn một số phương pháp trước đó như thuật toán chuyển đổi 3D Hough
và thuật toán RANSAC Nó cũng có thể làm việc trong thời gian thực Đầu vào 2D này
có một lợi thế chính đơn giản nhưng nó dễ dàng gặp dung sai lớn trong những cảnh thực
vì độ sâu và chênh lệch không tỉ lệ tuyến tính Các tác giả không đề cập đến khó khăn này một cách kỹ lưỡng và giải pháp nâng cao độ tin cậy của các kết quả Nhưng bên cạnh đó, độ tin cậy của kết quả là không tốt như mong đợi vì các véc-tơ pháp tuyến cục
bộ chỉ được tính toán chính xác trong trường hợp bản đồ chiều sâu hoàn hảo Tình trạng này hiếm khi được đáp ứng bởi nguyên nhân nguồn tài nguyên phần cứng hạn chế cảm biến di động nhỏ gọn gây ra Ngoài ra, mục tiêu ưu tiên phổ biến là rô-bốt hoạt động tốt trong thời gian thực
1.2 Trích trọn mặt phẳng đất
Trong lĩnh vực rô-bốt di động tự trị được gắn kết với một máy ảnh nổi, vấn đề quan trọng nhất là khai thác mặt phẳng đất, xác định chướng ngại vật để giải quyết bài toán tìm đường khả thi của rô-bốt nhằm tới đích yêu cầu trước Trong những năm gần đây, có rất nhiều công việc liên quan tới vấn đề này với cách tiếp cận tương đối đa dạng Chúng bao gồm các công trình [17] [18] [19] sử dụng thuật toán RANSAC kinh điển để ước tính mặt phẳng đất có độ tin cậy cao Tuy nhiên, phương pháp này cần sử dụng một
số lượng lớn các phép toán nên có thể dẫn đến thời gian chạy bị tiêu tốn hoặc đòi hỏi cấu hình phần cứng mạnh đồng nghĩa với chi phí cao Hai phương pháp tiếp cận trong
[20] [21] áp dụng một khái niệm luồng quang học và sử dụng dữ liệu đầu vào là video
màu hoặc hình ảnh xám đa cấp để có được một số kết quả rất thú vị trong môi trường có chứa các đối tượng với đặc điểm đặc biệt Trong các trường hợp khác, mặt phẳng đất chứa các mẫu phức tạp, độ chính xác phát hiện bị giảm rõ rệt Đối với ứng dụng thời gian thực, các tác giả trong [22] đã trình bày thuật toán tìm mặt bằng mặt phẳng đất bằng
cách xử lý dữ liệu đầu vào bản đồ chênh lệch 2D Tuy nhiên những hình ảnh đầu vào
được thu thập và thử nghiệm trong môi trường trong nhà với nền tảng đơn giản Điều này giới hạn khả năng giải quyết vấn đề trong môi trường thực tế phức tạp hơn nhiều
[23], [24] Việc kết hợp cả hai thuật toán Hough và RANSAC cổ điển đã mang lại kết
quả xác định các đối tượng rất hiệu quả bằng cách thúc đẩy lợi thế của mỗi thuật toán cho mỗi trường hợp cụ thể khác nhau [25] Tuy nhiên, khối lượng phép toán trong
Trang 22xx
chương trình là một vấn đề chưa được giải quyết Quá trình áp dụng phép biến đổi ảnh
cho nguồn dữ liệu ảnh xám đơn giản từ một hoặc hai máy ảnh [26] [27] [28] nhưng điều hiển nhiên là giải pháp này không thể trích xuất các thông tin chiều sâu của các đối tượng vật cản trong khung hình nên làm cho việc điều hướng rô-bốt chắc chắn khó khăn
Vì vậy, với các ứng dụng thời gian thực của rô-bốt di động trong khi di chuyển, các phương pháp được đề cập có thể phải đối mặt với tải tính toán lên cao và yêu cầu hoạt động trên một nền tảng phần cứng với cấu hình cao
1.3 Dẫn đường cho rô-bốt trong nhà
Trong những năm gần đây, vấn đề điều hướng cho rô-bốt trong môi trường trong nhà được quan tâm rất đặc biệt Nhiều nhà nghiên cứu đã cố gắng sử dụng một cảm biến mạnh mẽ mà có thể thu thập thông tin phong phú như một máy ảnh Nhiều loại cảm biến hình ảnh RGB-D đã được bán trên thị trường như Kinect của Microsoft hoặc Bumblebee bởi FLIR Systems, Inc, v.v Những sản phẩm này cho phép rất cải thiện mạnh mẽ cách thức con người tương tác với thế giới xung quanh, tăng cường an toàn công cộng, tăng hiệu quả năng lượng, và kích hoạt các cộng đồng giải trí lành mạnh [29]
Phương pháp tiếp cận đã được trình bày thuật toán Đồng thời định vị trí và lập bản
đồ (SLAM) sử dụng hệ thống máy ảnh RGB-D [30] [31] [32] Những phương pháp ứng dụng này được tối ưu hóa cho các công việc dẫn đường trong một phạm vi nhỏ như một căn phòng nhỏ, không đáp ứng cho môi trường lớn Kết quả tốt nhất của các công trình [30] [31] [32] vẫn còn hai nhược điểm bao gồm độ chính xác khiêm tốn và không đáp ứng thời gian xử lý tối thiểu cho chuyển động liên tục của rô-bốt Việc áp dụng các thuật toán RANSAC và lập bản đồ 3D làm cho tốc độ xử lý giảm đáng kể
Theo công trình nghiên cứu [33], tác giả trình bày một số kết quả đáng khích lệ, nhưng các tác giả cũng thừa nhận rằng việc lập bản đồ triển khai từ máy ảnh RGB-D không đáp ứng tính chất thời gian thực Rõ ràng các hệ thống thử nghiệm này có yêu cầu tài nguyên phần cứng cao tích hợp GPU hiện đại Bên cạnh đó, hệ thống vẫn cần phải cải thiện hiệu suất làm việc Các kết quả kinh nghiệm của [34] đã thỏa mãn điều kiện thời gian thực nhưng hệ thống máy ảnh bị buộc phải hoạt động ở độ phân giải thấp hơn tiêu chuẩn VGA Ngoài ra, hệ thống chỉ có thể cập nhật bản đồ từ cảm biến ít hơn
6 lần mỗi giây
Gần đây, các tác giả của công trình nghiên cứu [35] triển khai tương đối nhiều công việc bao gồm việc tái tạo môi trường 3D và nhận dạng địa hình nhìn thấy ở phía
Trang 23xxi
trước của rô-bốt di động Mục đích chính của [35] là tránh vật cản căn cứ trên cấu trúc
dữ liệu kim tự tháp và kỹ thuật lập trình động Hệ thống cài đặt thu được kết quả tốt
nhưng còn chưa thuyết phục với độ phân giải của máy ảnh thấp 128x128 Giá trị của
tham số này không đủ chất lượng để nhận ra tất cả những trở ngại chính trên mặt đất
Ngoài ra, khu vực mù trong vòng khoảng 2m từ rô-bốt là quá lớn so với kích thước và
vận tốc của rô-bốt
Xu hướng mạnh mẽ này là có thể với sự hỗ trợ của phần cứng mạnh mẽ với một mức chi phí ngày càng thấp hơn Thật dễ dàng để xây dựng một hệ thống hiệu suất cao với một kích thước vật lý nhỏ gọn Hệ điều hành và phần mềm cũng được hỗ trợ bởi phần cứng hơn và ngày càng có nhiều hơn nữa tài nguyên mềm với nhiều thư viện hàm chức năng Vì vậy, nhiều nhà nghiên cứu đang cố gắng để đưa trí thông minh nhân tạo vào rô-bốt với mục tiêu giúp các rô-bốt tự động hoá nhiều hành vi thông minh Hệ thống
đề xuất trong [36] sử dụng một cảm biến ổn định Kinect để thu thập các dòng dữ liệu video độ sâu để sau đó sẽ đưa vào một mạng nơ-ron nhân tạo (ANN) Mạng lưới này nhận ra các loại đường dẫn khác nhau trong môi trường bao gồm con đường phía trước, con đường bên trái, con đường bên phải và nút giao thông Tuy nhiên, kết quả kinh nghiệm không phải là toàn diện vì vấn đề chuyển hướng chỉ thích hợp cho môi trường trong nhà hạn chế Sự đổi mới của [37] chỉ kết hợp được lập bản đồ và đào tạo mạng nơ-ron để xây dựng được một hệ thống định vị trong nhà Các đóng góp chính của [38] phương pháp là áp dụng kết hợp thuật toán dự đoán một phần chiều sâu và thuật toán lọc hạt Cụ thể, ước lượng độ sâu của các điểm tiêu biểu bằng phép toán xấp xỉ độ sâu
mà không tính toán chiều sâu của tất cả các điểm trong hình ảnh Tiếp theo, thuật toán lọc hạt đảm bảo nhiễu được lọc ra tối đa trong quá trình dự đoán vị trí của rô-bốt Vì vậy, các kết quả được đánh giá là rất lạc quan Bên cạnh đó cần giải quyết thời gian tính toán cần phải giảm nhiều hơn nữa, trừ phi kích thước của các thiết lập hạt không phải là linh hoạt
2 Mục tiêu, đối tượng, phương pháp và phạm vi nghiên cứu
2.1 Mục tiêu nghiên cứu
Mục tiêu thứ nhất là tăng cường thuật toán tính toán bản đồ chênh lệch/độ sâu về mặt thời gian, hỗ trợ cho hệ thống máy ảnh nổi cung cấp dữ liệu độ sâu theo thời gian thực cho các ứng dụng khai thác dữ liệu sâu hơn
Trang 24xxii
Mục tiêu thứ hai là nghiên cứu và đề xuất thuật toán các thuật toán trích xuất mặt phẳng dựa trên dữ liệu độ sâu, đáp ứng yêu cầu xử lý theo thời gian thực, hỗ trợ cho bài toán tái tạo đối tượng 3D
Mục tiêu thứ ba là tập trung nghiên cứu và đề xuất thuật toán nhận dạng hiệu quả mặt đất từ dữ liệu bản đồ độ sâu, đáp ứng yêu cầu xử lý theo thời gian thực để hỗ trợ giải quyết bài toán dẫn đường cho rô-bốt
Mục tiêu thứ tư là nghiên cứu phương pháp dẫn đường cho rô-bốt áp dụng thuần túy thuật toán khai thác bản đồ độ sâu, trong môi trường trong nhà không biết trước, theo định hướng giảm thiểu độ phức tạp; đáp ứng được yêu cầu dẫn đường chính xác Trong quá trình thực hiện các mục tiêu trên, các nghiên cứu cần thử nghiệm các thuật toán xử lý video độ sâu đề xuất và chiến thuật dẫn đường trên xe rô-bốt Đó là nghiên cứu thiết kế chế tạo mô hình rô-bốt tích hợp hệ thống máy ảnh nổi hoặc RGB-D phù hợp với môi trường trong nhà Sau đó hệ thống rô-bốt được tích hợp các phần cứng
và phần mềm để kiểm định các kết quả đề xuất của mục tiêu nghiên cứu thứ nhất và thứ hai trong thực tế
2.2 Đối tượng nghiên cứu
Từ các mục tiêu nghiên cứu trên, luận án tập trung vào đối tượng nghiên cứu thứ nhất là các thuật toán xử lý dữ liệu bản đồ độ sâu được cung cấp bởi hệ thống máy ảnh nổi hoặc RGB-D, cung cấp dữ liệu vào cho bài toán dẫn đường của rô-bốt trong nhà, với khả năng tự tránh các vật cản trên đường di chuyển
Tiếp theo là tập trung nghiên cứu phương pháp dẫn đường cho rô-bốt sử dụng hệ thống máy ảnh nổi hoặc RGB-D trong môi trường trong nhà không biết trước
Cuối cùng là nghiên cứu, thiết kế và chế tạo mô hình rô-bốt tích hợp hệ thống máy ảnh nổi hoặc RGB-D với các thuật toán đã phát triển nhằm thử nghiệm độ tin cậy
2.3 Phương pháp nghiên cứu
Phương pháp nghiên cứu trong luận án đi từ nghiên cứu lý thuyết đến thực nghiệm, ứng dụng các kỹ thuật xử lý ảnh thu nhận từ máy ảnh nổi vào giải quyết bài toán tìm đường trên rô-bốt di động Đầu tiên luận án nghiên cứu lý thuyết, xây dựng mô hình, sau đó mô phỏng thuật toán, thiết kế chế tạo mô hình xe rô-bốt để thực nghiệm trên hiện trường nghiên cứu và đo lường, đánh giá
Trang 25Các kết quả nghiên cứu của đề tài dự kiến sẽ đóng góp cho sự phát triển của nền tảng lý thuyết xử lý tín hiệu video độ sâu Thúc đẩy giải quyết bài toán nhận dạng đối tượng mặt đất hỗ trợ dẫn đường sử dụng thị giác máy tính cho rô-bốt di động hoạt động trong môi trường động trong nhà
3.1.2 Về mặt thực tiễn
Thuật toán được nghiên cứu và đề xuất trong luận án có thể làm cơ sở cho các nhà sản xuất thiết bị rô-bốt, hệ thống giám sát quan sát cảnh báo 3D thông minh Do vậy, đề tài có tính thực tiễn cao Thuật toán đề xuất có thể được ứng dụng vào trong thiết kế và chế tạo các rô-bốt khảo sát hiện trường, cứu hộ phù hợp với điều kiện môi trường tại Việt Nam
3.2 Các đóng góp khoa học của luận án gồm:
Luận án đã thực hiện được các đóng góp khoa học chính sau đây:
Trang 263 Đề xuất phương pháp nhận dạng mặt đất áp dụng thuật toán GDM để khai thác bản đồ độ sâu được cung cấp bởi máy ảnh RGB-D hoặc hệ thống thị giác nổi
4 Đề xuất phương pháp dẫn đường dựa trên thông tin mặt phẳng đất thuần túy
áp dụng cho rô-bốt hoạt động trong nhà trong môi trường không biết trước
4 Cấu trúc nội dung của luận án
Nội dung luận án bao gồm bốn chương Các kiến thức tổng quan hệ thống dẫn đường cho rô-bốt dựa trên hình ảnh thị giác được trình bày trong chương 1 Các đóng góp khoa học của luận án thể hiện trong nội dung của chương 2, chương 3 và chương 4 Cấu trúc nội dung được trình bày cụ thể như sau
Đầu tiên, chương 1 tập trung giới thiệu hệ thống dẫn đường dựa trên hình ảnh thị giác tích hợp cho rô-bốt di động Chương này nêu rõ nhiệm vụ, vai trò và các loại hệ thống dẫn đường sử dụng máy ảnh thị giác Phần cuối cùng của chương 1 trình bày một
số vấn đề còn tồn tại trong xử lý ảnh thị giác trong lĩnh vực dẫn đường cho rô-bốt dựa trên hệ thống máy ảnh RGB-D hoặc thị giác nổi Vấn đề trích mặt phẳng từ các hình ảnh thu thập hiện trường cho phép tái tạo lại hình dáng các đối tượng quan sát Bài toán trích mặt phẳng đất là tiền đề cho giải quyết bài toán di chuyển khả thi của rô-bốt Cuối cùng
là vấn đề dẫn đường tự trị gồm các bước lập kế hoạch đường đi, phát hiện và tránh vật cản
Chương 2 có hai đề xuất Đề xuất thứ nhất là phương pháp tăng tốc độ tính bản đồ chênh lệch/độ sâu dựa trên cải tiến cách thực hiện thuật giải SAD gốc Kết quả của bài toán này là đầu vào cho các công việc khai thác sâu hơn dữ liệu độ sâu với cá ứng dụng phong phú như nhận dạng đối tượng trong ảnh, tái tạo môi trường 3D, dẫn đường cho
xe tự hành
Trang 27xxv
Đề xuất thứ hai là phương pháp trích xuất mặt phẳng dựa khai thác bản đồ độ sâu Trước hết chương trình bày khái niệm toán học gradient độ sâu để làm cơ sở tính toán trên bản đồ độ sâu Chương này xây dựng giả thuyết các đặc trưng của mặt phẳng trên bản đồ gradient độ sâu Chúng là các điều kiện để chọn lọc các mặt phẳng ứng cử trước khi đưa chúng vào khâu tính chỉnh, cho phép đưa ra tập mặt phẳng tin cậy hơn
Chương 3 phát triển thuật toán để giải quyết bài toán nhận dạng mặt phẳng đất Từ
đó tác giả đề xuất phương pháp mới có cải thiện hiệu năng so với các phương pháp này Phương pháp đề xuất kiểm nghiệm trên hai loại tập dữ liệu độ sâu chuẩn và tập dữ liệu thu thập thực tế Kết quả thu được đã minh chứng cho tính mạnh mẽ, ổn định của thuật toán thông qua cả hai phương pháp đánh giá trực quan và đánh giá khách quan Các tham số đánh giá so sánh như tỷ lệ điểm đất phát hiện đúng, tỷ lệ điểm đất phát hiện sai, thời gian xử lý…đều thể hiện tích cực Với các dữ liệu chuẩn được lấy từ thư viện mở Middlebury, kết quả được so sánh với kết quả cơ sở tham chiếu (ground truth)
Cuối cùng, chương 4 nghiên cứu đề xuất phương pháp dẫn đường áp dụng cho bốt di động đi tới đích cho trước Bài toán được giải quyết trong môi trường hoạt động trong nhà không biết trước với ràng buộc chỉ sử dụng dữ liệu bản đồ độ sâu Dựa trên thông tin mặt phẳng đất trích xuất từ bản đồ độ sâu, tác giả xây dựng mô hình toán học
rô-để tính toán các thông số bảo đảm an toàn khi xe di chuyển gồm vùng quan sát với cự
ly gần nhất và cự ly quan sát xa nhất, góc ngẩng của cảm biến hình ảnh Từ đó tác giả thiết kế chế tạo mô hình xe rô-bốt với các thông số tối ưu Chương này cũng trình bày một chiến thuật tránh vật cản chắc chắn và đơn giản Các thử nghiệm trong môi trường thực tế được ghi lại với các tham số đánh giá tin cậy cũng như hình ảnh, video trực quan Các phân tích cụ thể phương pháp tìm đường đi đề xuất đã nêu rõ những ưu điểm nổi bật cũng như một số hạn chế của bài toán tìm đường trong nhà; cho thấy tính khả thi của phương pháp dẫn đường đề xuất
Trang 281
CHƯƠNG 1 TỔNG QUAN HỆ THỐNG DẪN ĐƯỜNG CHO RÔ-BỐT DỰA TRÊN HÌNH ẢNH THỊ GIÁC MÁY TÍNH
Giới thiệu chương
Nội dung của chương này gồm hai phần Phần đầu trình bày lý thuyết tổng quan
về hệ thống dẫn đường thị giác cho rô-bốt di chuyển trên mặt đất Trong đó có trình bày kiến trúc hệ dẫn đường rô-bốt dựa trên thị giác máy tính, các khái niệm cơ bản, vai trò
và phân loại một số loại hệ thống dẫn đường hiện nay Phần cuối của chương này phân tích cụ thể các vấn đề liên quan tới việc khai thác dữ liệu độ sâu hiện nay Chúng gồm vấn đề đầu tiên là xây dựng bản đồ chênh lệch/độ sâu, tiếp theo là trích xuất mặt phẳng, nhận dạng mặt đất Cuối cùng là vấn đề ứng dụng bài toán dẫn đường cho rô-bốt
Hệ thống dẫn đường cho rô-bốt trong nhà
Hệ thống dẫn đường thị giác của rô-bốt di động có khả năng nhận thức để phát hiện môi trường xung quanh, quy hoạch đường đi để sắp xếp tuyến đường và hỗ trợ thông tin cho hệ thống điều khiển động cơ để kích hoạt chuyển động của cơ thể rô-bốt
Về cấu trúc hệ thống dẫn đường này gồm hệ thống phần cứng máy ảnh thị giác hoặc máy ảnh RGB-D kết hợp với công cụ tính toán đường một cách hợp lý
Có nhiều hệ thống dẫn hướng thị giác đang được nghiên cứu và ứng dụng rộng rãi sử dụng trong các rô-bốt và nhiều hệ thống tự động khác Theo yếu tố số lượng máy ảnh tích hợp trên xe rô-bốt, loại đầu tiên là hệ thống dẫn đường thị giác chỉ có một máy ảnh duy nhất gắn trên rô-bốt để lấy hình ảnh của môi trường xung quanh Máy ảnh phải được hiệu chỉnh trước để có thể thu được thông tin từ hình ảnh được chụp bởi máy ảnh đơn Phương pháp dùng để phân biệt các vật thể hoặc chướng ngại vật trong ảnh dựa trên kỹ thuật phát hiện biên và học máy [39] Để có được dữ liệu 3 chiều, hệ thống thị giác một mắt kết hợp các khung hình tại các vị trí khác nhau bằng cách di chuyển vào hai điểm khác nhau [40] Hoặc có thể dùng cách thay đổi tiêu cự máy ảnh tại một thời điểm để có dữ liệu 3D dựa trên khác biệt độ nét của đối tượng Mặc dù đã có những kết quả nhất định nhưng hệ thống thị giác máy ảnh đơn này vẫn không đưa ra một giá trị chính xác của vị trí và khoảng cách
Với sự phát triển của phần cứng, xe rô-bốt được tích hợp hệ thống máy ảnh nổi gồm hai camera giống hệt nhau hoặc hệ máy ảnh RGB-D Hệ thống thị giác này có ưu
Trang 29➢ Dẫn đường toàn cục: Là khả năng nhận biết vị trí của đối tượng thông qua một bản
đồ quy chiếu, sau đó đối tượng tìm đường đến mục tiêu của nó Đây là hình thức dẫn đường tương đối chính xác nếu bản đồ quy chiếu thể hiện đầy đủ các thông tin môi trường Dẫn đường toàn cục là phương pháp yêu cầu những đường đi được biết trước hoặc đoán trước Cụ thể, bản đồ được thực hiện từ trước khi hành động dẫn đường được diễn ra Bản đồ cũng có thể được vẽ lại hoặc cập nhật trong quá trình hoạt động của đối tượng Nếu bản đồ được cập nhật, các tính toán dẫn đường cũng sẽ phải được cập nhật Việc cập nhật lại liên tục hướng di chuyển có thể gây
ra tiêu tốn tài nguyên tính toán của hệ thống
➢ Dẫn đường cục bộ: Là khả năng xác định vị trí của các đối tượng bên ngoài môi
trường liên quan đến đối tượng chủ thể để thực hiện tương tác chính xác Các thông tin dẫn đường mang tính chính xác cục bộ và phụ thuộc thời gian, vị trí tuyệt đối của đối tượng chính Việc dẫn đường cục bộ cũng có thể được thực hiện thông qua
sự hỗ trợ từ bên ngoài Khi đó, tọa độ tương đối của các đối tượng được tính thông qua các phép tính hình học từ vị trí tuyệt đối của đối tượng Dẫn đường cục bộ được áp dụng tốt trong trường hợp không gian di chuyển của đối tượng nhiều biến động hoặc không biết trước Ở trong trường hợp này, những bản đồ được vẽ từ trước thường không đáng tin cậy hoặc không kịp cập nhật Như vậy, dẫn đường cục bộ thường được cho là chỉ tối ưu trong thời điểm
➢ Dẫn đường riêng: Là khả năng xác định vị trí của các bộ phận cấu thành nên
rô-bốt nhằm khiến cho việc tương tác với các đối tượng ngoài tốt hơn
Ba hệ thống dẫn đường trên có thể được ứng dụng một cách độc lập hoặc sử dụng kết hợp với nhau để bổ sung ưu điểm cho nhau bởi với mỗi một hệ thống đều có những
ưu nhược điểm nhất định.Vai trò hệ thống dẫn đường cho rô-bốt trong nhà
Hệ thống dẫn đường rất quan trọng đối với một rô-bốt di động khảo sát, cứu hộ hiện trường trong nhà Nó giúp rô-bốt di chuyển nhanh hơn đến mục tiêu với những nguy cơ tối thiểu Ví dụ, trong tình huống cứu hộ, thời gian tiếp cận nạn nhân sẽ ảnh
Trang 301.2.1 Các hệ thống dẫn đường cho rô-bốt trong nhà
Các hệ thống dẫn đường cho rô-bốt trong nhà được phân thành ba nhóm lớn
Điều hướng dựa trên bản đồ có sẵn: Đây là những hệ thống phụ thuộc vào mô
hình hình học do người dùng tạo hoặc bản đồ tô pô của môi trường
Điều hướng dựa trên xây dựng bản đồ: Đây là những hệ thống sử dụng các cảm
biến để xây dựng các mô hình hình học hoặc tôpô của môi trường và sau đó sử dụng chúng cho việc điều hướng sau này
Điều hướng không bản đồ: Đây là những hệ thống hoàn toàn không sử dụng biểu
diễn rõ ràng nào về không gian diễn ra sự điều hướng, mà là dùng đến việc nhận ra các vật thể tìm thấy trong môi trường hoặc theo dõi các vật thể đó bằng cách tạo ra các chuyển động dựa trên về quan sát trực quan
1.2.1.1 Dẫn đường toàn cục
Dẫn đường toàn cục là khả năng nhận biết vị trí của đối tượng thông qua bản đồ quy chiếu Kể từ khi Hệ thống định vị toàn cầu (GPS) xuất hiện, dẫn đường toàn cục được áp dụng rất nhiều trong cuộc sống
Dẫn đường toàn cục yêu cầu có các thiết bị hỗ trợ từ bên ngoài Các thiết bị hỗ trợ này phải có khả năng xác định chính xác vị trí và ít di chuyển hoặc có thể bổ sung
sự di chuyển của chúng vào việc tính toán vị trí Các hệ thống hỗ trợ này thường yêu cầu có độ chính xác cao dẫn đến tốn kém Nếu không có khả năng vẽ các bản đồ này, việc dẫn đường toàn cục không thể diễn ra kể cả khi các thiết bị hỗ trợ rất hiện đại Thông thường việc này được thực hiện khi sự tính toán cũ không còn áp dụng được nữa
Trang 314
1.2.1.2 Dẫn đường cục bộ
Dẫn đường cục bộ là khả năng xác định vị trí của các đối tượng có liên quan để tương tác phù hợp Sự tương tác này cũng bao gồm xác định vị trí của bản thân đối tượng một cách tương đối thông qua các đối tượng còn lại Thông thường, vị trí ở đây là vị trí trong tọa độ cầu với gốc tọa độ là đối tượng chính cần được dẫn đường
Việc dẫn đường cục bộ thường được thực hiện một cách độc lập từ chính đối tượng cần được dẫn đường Dẫn đường cục bộ có tính chính xác không cao bằng dẫn đường toàn cục, tuy nhiên chi phí đầu tư không cần lớn Trong quá trình hoạt động của đối tượng, một bản đồ được tạo nên và cập nhật dựa trên sự dẫn đường cục bộ có thể hỗ trợ việc dẫn đường toàn cục Dẫn đường cục bộ được áp dụng tốt trong trường hợp không gian di chuyển của đối tượng nhiều biến động hoặc không biết trước Ở trong trường hợp này, những bản đồ được vẽ từ trước thường không đáng tin cậy hoặc không kịp cập nhật Như vậy, sự dẫn đường cục bộ thường được cho là tối ưu trong thời điểm
đó
1.2.1.3 Dẫn đường riêng
Là khả năng xác định chính xác vị trí của các bộ phận cấu thành nên rô-bốt để thực hiện tương tác với thế giới ngoài phù hợp Như vậy, hình thức dẫn đường này có mục đích và ứng dụng hoàn toàn khác với các hình thức dẫn đường trên Trong trường hợp này, sơ đồ di chuyển đã được biết trước và thường ít thay đổi Các khả năng quyết định trong dẫn đường cũng sẽ ít hơn
Dẫn đường riêng được áp dụng khi hành động của đối tượng cần được thực hiện một cách chính xác và ít hao tổn Thường thì một hành động sẽ được diễn ra giống nhau trong mọi trường hợp, tuy nhiên khi điều kiện như nhiệt độ, khối lượng… thay đổi ít nhiều sẽ ảnh hưởng tới tính chính xác của hành động Việc định vị các phần cấu thành nên đối tượng sẽ giúp đối tượng điều chỉnh các số liệu điều khiển cho phù hợp với bối cảnh để cho sai số thấp nhất Hoạt động của rô-bốt cứu hộ ảnh hưởng trực tiếp đến mạng sống con người Chính vì thế, độ chính xác của các hành động cũng là một điều rất đáng lưu tâm Hình thức dẫn đường riêng giúp hành động của đối tượng chính xác nên cũng được áp dụng trong rô-bốt cứu hộ
1.2.2 Kiến trúc hệ thống dẫn đường rô-bốt sử dụng thị giác máy tính
Hệ thống dẫn đường sử dụng thị giác máy tính vẫn còn là một lĩnh vực mới mẻ
ở Việt Nam và vẫn đang trong giai đoạn phát triển trên thế giới Áp dụng kỹ thuật này
Trang 325
cho rô-bốt, chi phí tính toán sẽ phù hợp với phần cứng và có được nhiều thông tin từ một hệ thống đầu vào duy nhất Hệ thống thị giác máy tính hỗ trợ các thông tin về môi trường cho rô-bốt như vật cản, mặt phẳng, đối tượng ngoài… Thông qua những thông tin này, hệ thống dẫn đường cục bộ tìm đường đi cho rô-bốt và đưa ra các tín hiệu điều khiển phù hợp khác
Với phạm vi hoạt động là môi trường trong nhà chưa biết trước, kiến trúc của hệ thống dẫn đường cho rô-bốt di động như Hình 1.1 Hệ thống được mô tả gồm 3 khối chức năng: khối cảm biến hình ảnh, khối xử lý và cơ cấu chấp hành Máy ảnh nổi sẽ thu nhận hình ảnh từ môi trường vào dưới dạng thông tin hình ảnh Sau đó, bộ xử lý phân tích các hình ảnh thành các bề mặt, các vật cản và đối tượng Các thông tin này sau đó được kết hợp cùng các thông tin khác, được tổng hợp thành một tấm bản đồ mà hệ thống tìm đường có thể hiểu được Hệ thống tìm đường dựa trên bản đồ và mục đích hành động sẽ đưa ra con đường chuẩn cho rô-bốt Qua đó, nó đưa ra các tín hiệu điều khiển cho các cơ cấu chấp hành của rô-bốt thực hiện
Hình 1.1 Hệ thống dẫn đường bằng thị giác cho rô-bốt
Tóm lại, trong phạm vi của luận án, tác giả tập trung nghiên cứu phương pháp phát hiện và trích xuất các mặt phẳng, mặt phẳng đất và các vật cản trong môi trường quan sát bởi hệ thống máy ảnh RGB-D hoặc máy ảnh nổi, từ đó giải quyết bài toán dẫn đường cho rô-bốt di chuyển trong nhà mà chưa có bản đồ Các phương pháp nghiên cứu
đề xuất trong luận án hướng tới tài nguyên tính toán thấp, trong khi vẫn đạt được kết quả chính xác tốt hoặc tốt hơn các phương pháp so sánh
Một số vấn đề của hệ thống rô-bốt dẫn đường dựa trên thị giác nổi
1.3.1 Phương pháp tính toán bản đồ chênh lệch/độ sâu
Vấn đề tương đồng trong ảnh thị giác nổi là tìm các đối tượng tương ứng giữa hai hình ảnh đầu vào [41], [42], được nghiên cứu trong nhiều năm gần đây Đây là một trong những vấn đề cơ bản trong lĩnh vực thị giác máy tính hỗ trợ cho nhiều ứng dụng nghiên cứu thị giác máy tính sâu hơn như nhận dạng đối tượng, trích đặc trưng Cụ thể vấn đề tương đồng ảnh nổi là quá trình tìm kiếm từng điểm trong ảnh bên trái, tương ứng của nó ở bên phải Sự khác biệt giữa khoảng cách ngang và dọc của các điểm này
Máy ảnh RGB-D/
Máy ảnh nổi
Xử lý hình ảnh
Cơ cấu chấp hành
Trang 336
gọi là độ chênh lệch Tập hợp giá trị chênh lệch của tất cả các điểm trong ảnh tạo thành bản đồ chênh lệch Bản đồ chênh lệch này về cơ bản có thể chuyển đổi thành bản đồ độ sâu của cảnh quan sát nếu được cung cấp thêm các thông tin về tiêu cự của máy ảnh, khoảng cách giữa hai máy ảnh trái và phải Do đó, các bản đồ chênh lệch đã được sử dụng để giải quyết các vấn đề hiệu quả như tái tạo 3D, định vị, điều hướng rô-bốt di động, tránh chướng ngại vật [43], [44]
Hệ thống tìm bản đồ chênh lệch từ cặp ảnh nổi thường bao gồm bốn bước chính như hình 1.2
Hình 1.2 Hệ thống tính bản đồ chênh lệch điển hình
Bước đầu, các hình ảnh đầu vào được chuẩn hóa để cho phép bù sự lệch các thông
số của hai máy ảnh hoặc các điều kiện trắc quang khác nhau Bước 2, các hình ảnh sau chuẩn hóa được tìm sự tương đồng theo các thuật toán khác nhau Có ba loại kỹ thuật được sử dụng rộng rãi để tìm điểm giống nhau trong cặp ảnh nổi gồm phương pháp dựa trên khu vực [39], [40], phương pháp dựa trên đặc trưng [41] và phương pháp dựa trên pha [42] Các phương pháp dựa trên khu vực gồm thuật toán Tổng sai lệch tuyệt đối (SAD), Tổng sai lệch bình phương (SSD) hoặc Tương quan chéo chuẩn (NCC) Bước
3 là nâng cao độ tin cậy của đối tượng phù hợp bằng các phương pháp kiểm tra độ khác biệt và độ sắc nét Ngoài ra, bước này cũng có thể sử dụng bản đồ phương sai được tính toán trong bước 1 tiền xử lý để loại bỏ các kết quả khớp được tìm thấy ở các khu vực
có kết cấu kém Bước cuối cùng thực hiện sàng lọc điểm phụ theo độ chênh lệch Triển khai dựa trên thuật toán SAD là các kỹ thuật dựa trên khu vực thuận lợi bởi
vì chúng có thể được triển khai một cách đơn giản trên phần cứng bởi thuật toán chỉ gồm các phép cộng và giá trị tuyệt đối Có thể thiết kế song song để xử lý các phạm vi chênh lệch khác nhau, để giảm thời gian tính toán cần thiết [45] Thuật toán tương quan SAD có thể được áp dụng để giải quyết vấn đề phát hiện đối tượng tự động trong điều khiển và lập bản đồ cho rô-bốt (hình 1.3)
Ảnh trái
Tìm sự phù hợp
Bản đồ chênh lệch Ảnh phải
Từ máy
ảnh nổi
Chuẩn hóa xám
Chuẩn hóa
Hiệu chỉnh
Lọc
Trang 347
Hình 1.3 Kết quả tính bản đồ chênh lệch thưa thớt áp dụng thuật toán SAD [46]
Chú thích: (a) ảnh màu; (b) ảnh biên; (c) bản đồ chênh lệch thưa thớt Các chấm màu xanh lá cây thể hiện sự chênh lệch không đáng tin cậy
[47] Phương pháp SAD lai (HSAD) có thể tạo ra bản đồ độ sâu có độ chính xác cao Đầu tiên, hình ảnh được loại bỏ nhiễu, làm mịn rồi mới phân đoạn ở giai đoạn hai Hình ảnh được chia thành các phân đoạn bằng thuật toán Dịch trung bình (MS) Các phân đoạn nhỏ được hợp nhất với các phân đoạn liền kề giống nhau nhất bằng phương pháp Lan truyền tin cậy (BP) Cuối cùng là đề xuất tích hợp thuật toán phân đoạn lai được với thuật toán kết hợp âm thanh nổi thu được kết quả minh họa trong hình 1.4 và bảng 1.1
Hình 1.4 Kết quả thử nghiệm trên bốn hình ảnh thang độ xám thử nghiệm [47]
Chú thích: a) Ảnh Books tham chiếu, b) Bản đồ chênh lệch sử dụng thuật toán SAD mà không phân đoạn, c) Bản đồ chênh lệch của thuật toán lai HSAD
Bảng 1.1 Sai số của phương pháp [47]
Kết quả nghiên cứu cho thấy thuật toán tương quan SAD có thể là một sự thay thế tiềm năng cho phương pháp Biến đổi đặc trưng tỷ lệ bất biến (SIFT) do [48] [49]
Trang 358
đề xuất trong bài toán chọn lọc mang tính bước ngoặt Mục đích của phương pháp SIFT
là xác định được phép biến đổi gồm các thành phẩn như phép tỷ lệ liên tục, phép xoay
và di chuyển Nhưng giải thuật chỉ giới hạn với những lựa chọn các đặc tính ổn định thì tỏ ra hiệu quả hơn Thông thường, độ chênh lệch được tính như độ dịch chuyển sang bên trái của đặc điểm hình ảnh khi nó được xem với hình ảnh bên phải Việc tính toán bản đồ chênh lệch được thực hiện trên tất cả các điểm ảnh của cặp ảnh nổi nên cách tiếp cận này có thể bị ảnh hưởng bởi vị trí của đối tượng và thời gian trôi qua lớn để xác định điểm tương ứng giữa hai hình ảnh, đặc biệt với kích thước lớn của hình ảnh hoặc khung hình đã chụp
1.3.2 Phương pháp trích xuất đối tượng mặt phẳng dựa trên ảnh thị giác máy tính
1.3.2.1 Phát hiện mặt phẳng sử dụng chuyển đổi Hough
Trong Hình 1.5, một mặt phẳng thuộc không gian (OXYZ) được biểu diễn bằng
phương trình (1.1)
Z = a.X + b.Y +c (1.1)
Hình 1.5 Biểu diễn các thông số của mặt phẳng theo dạng chuẩn [25]
Một điểm (a, b, c) thì có thể được biểu diễn trong không gian tham số (Oabc)
Nếu phương trình phẳng có dạng (1.2), thì nó không thể được biểu diễn trong không
gian tham số vì hệ số trục Z bằng không
Để giải quyết vấn đề này, có thể sử dụng dạng biểu diễn bằng pháp tuyến của mặt phẳng như phương trình (1.3)
cos θ cos φ X + sin θ cos φ Y + sin φ Z = ρ (1.3)
trong đó θ, φ và ρ là các thông số của mặt phẳng pháp tuyến đi qua gốc (Hình 1.5) Vì vậy, θ, φ và ρ là hằng số và không gian tham số là (O θ φ ρ) Trong trường hợp
a X+ b Y + c = 0 (1.2)
P
OZ
Trang 369
này, một điểm (X1 , Y1 , Z1) trong không gian 3D đại diện cho một bề mặt hình sin trong
không gian tham số (O θ φ ρ) Đây chính là nguyên lý của biến đổi Phần tiếp theo trình
bày chi tiết thuật toán Hough cơ bản dưới dạng mã giả [25] trong thuật toán 1.1
Thuật toán 1.1: Phát hiện mặt phẳng bằng chuyển đổi Hough 3D
Đầu vào: θ_step, φ_step, ρ_step
Đầu ra: H planes
1: X_min = min(X); Y_min = min(Y); Z_min = min (Z)
2: X_max = max(X); Y_max = max(Y); Z_max = max (Z)
3: Tính Dis_min; Dis_max;
4: θ = từ 0 đến 360, step = θ_step; n_θ = length(θ);
5: φ = từ -90 đến +90, step = φ_step; n_φ = length(φ);
6: n_ ρ = 2* (Dis_max - Dis_min) / ρ_step;
7: ρ = từ Dis_min đến Dis_max; step = ρ _step;
hình sin trong không gian tham số
Trang 3710
Hình 1.6b cho thấy hình ảnh trực quan của một mặt phẳng nằm ngang trong ma trận 3D H Hình 1.6c minh họa kết quả của việc phát hiện mặt phẳng mái nhà Để cải thiện kết quả này, cần sử dụng các giá trị tham số càng nhỏ càng tốt nhưng thời gian xử
lý và bộ nhớ cần thiết sẽ cao hơn nhiều Mẫu được sử dụng để kiểm định thuật toán là hình ảnh một tòa nhà có nhiều chi tiết (Hình 1.6a) để thử nghiệm cách tiếp cận Phần lớn các mặt phẳng trong ảnh đều nhỏ và mật độ điểm của nó tương đối nhỏ (1,3 điểm/m²)
Hình 1.6 Kết quả phát hiện mặt phẳng mái bằng cách sử dụng biến đổi Hough 3D [25]
Chú thích: (a): Ảnh màu gốc, (b): Mặt phẳng nằm ngang trong ma trận 3D H, (với số mặt phẳng ρ = 75); (c) Ảnh kết quả mặt phẳng
Bước tiếp theo bao gồm phát hiện các đỉnh từ ma trận 3D H như được đánh dấu
bằng các vòng tròn màu đỏ trong Hình 1.6b Mỗi đỉnh đại diện cho một mặt phẳng
trong không gian (OXYZ) Hoạt động này có thể được thực hiện bằng cách tìm kiếm các voxels có giá trị cực đại trong ma trận H và sau đó áp dụng thuật toán phát triển
vùng 3D
1.3.2.2 Phát hiện mặt phẳng sử dụng thuật toán RANSAC
Thuật toán RANSAC một phương pháp lặp để ước tính các tham số của mô hình toán học bắt đầu từ một tập hợp dữ liệu chứa các ngoại lệ Đây là một thuật toán không xác định, nghĩa là nó tạo ra một kết quả chính xác chỉ với một xác suất nhất định, sẽ tăng lên khi số lần lặp được phép tăng lên Thuật toán được xuất bản lần đầu tiên bởi Fischler và Bolles vào năm 1981 [50] Thuật toán RANSAC này cần bốn dữ liệu đầu vào gồm:
1 Đám mây điểm 3D (point_list) là ma trận ba cột gồm tọa độ (X, Y , Z)
2 Ngưỡng dung sai của khoảng cách t giữa mặt phẳng đã chọn và các điểm khác
Giá trị của nó liên quan đến độ chính xác cao của đám mây điểm
Trang 3811
3 forseeable_support là số điểm tối đa của cùng một mặt phẳng Nó được suy ra từ
mật độ điểm và bề mặt mặt phẳng mái có thể dự đoán tối đa
4 Xác suất α là xác suất tối thiểu tìm thấy ít nhất một bộ quan sát tốt trong N các
thử nghiệm Nó thường nằm trong khoảng từ 0,90 đến 0,99
Thuật toán 1.2 [25] minh họa chi tiết cách thức làm việc của RANSAC cơ bản
để phát hiện các mặt phẳng trong tập điểm cho trước
Trong mã lệnh giả này, ε là một tỷ lệ phần trăm các quan sát được phép sai; hàm
pts2plane tính toán các thông số mặt phẳng từ ba điểm được chọn Nên sử dụng dạng
pháp tuyến của mặt phẳng thay vì dạng cổ điển (xem công thức (1.3)) để xem xét biểu
thức chung của mặt phẳng Hàm dist2plan tính toán khoảng cách giữa tập điểm và mặt
phẳng đã cho Khoảng cách này được đưa ra trong phương trình (1.4)
dist2plan = cos θ cos φX + sinθcosφY + sinφZ -ρ (1.4)
trong đó X, Y và Z là ba cột của ma trận point-list θ, φ và ρ là các tham số mặt phẳng Giá trị khoảng cách dist2plan có thể nhận giá trị âm hoặc dương
Thuật toán 1.2: Phát hiện mặt phẳng dùng RANSAC
Đầu vào: point_list, α
Đầu ra: bestPlan, bestStd
Trang 3912
Dòng thứ 11 trong thuật toán 2 là dòng lệnh thiết yếu, bởi vì nó đại diện cho một bộ lọc mà cho phép chấp nhận hoặc từ chối mặt phẳng ứng cử vừa được tính toán Thật vậy, điều kiện lọc được sử dụng là số lượng điểm thuộc mặt phẳng được tính toán Sau
đó, thuật toán chấp nhận mặt phẳng mới nếu nó chứa nhiều điểm hơn so với mặt phẳng được tính toán cuối cùng, nếu không mặt phẳng mới sẽ bị loại bỏ
Sau khi thử nghiệm, ta thấy rằng điều kiện tốt nhất để xác thực phát hiện mặt phẳng
có giá trị là phải tính đến không chỉ số lượng điểm của mặt phẳng, mà còn đồng thời xem xét cả thông số độ lệch chuẩn Việc sử dụng độ lệch chuẩn làm giảm ảnh hưởng
tiêu cực của ngưỡng dung sai khoảng cách t Ngưỡng này cho phép chấp nhận toàn bộ các điểm có khoảng cách tới mặt phẳng nhỏ hơn t
Ví dụ, chúng ta hãy lấy một mặt phẳng "xấu" không đại diện cho mặt phẳng mái, với độ lệch chuẩn lớn và chứa một số lượng lớn các điểm Nếu áp dụng điều kiện số lượng điểm tối thiểu thì thuật toán RANSAC sẽ không chấp nhận một mặt phẳng khác
để thay thế nó Để giải quyết vấn đề này, một ngưỡng mới được đưa vào thuật toán
được xác định là số điểm của mặt phẳng có thể dự đoán nhỏ nhất (PN_S) Nó bằng với
bề mặt mặt phẳng nhỏ nhất có thể dự đoán trước được thông qua thông tin mật độ điểm Như vậy, dòng lệnh thứ 11 trong thuật toán RANSAC trở thành (1.5) Sau sửa đổi này,
tỷ lệ kết quả thành công đạt được bằng việc áp dụng thuật toán RANSAC được điều
Trang 4013
Việc áp dụng thuật toán RANSAC cho phép phát hiện các mặt phẳng trong ảnh thị giác Mặt phẳng kết quả bao gồm mặt phẳng có giá trị và các điểm nhiễu thuộc về các mặt phẳng khác và có một số điểm bị mất như trong Hình 1.7b Các điểm nhiễu này cần được loại bỏ khỏi mặt phẳng thật vừa được phát hiện và phải được gán lại cho đám mây điểm ban đầu Những điểm bị mất phải được thêm vào mặt phẳng được phát hiện
để nâng cao tính đầy đủ của phép trích xuất mặt phẳng Đồng thời, các điểm này cũng được tách ra từ đám mây điểm ban đầu Do đó giải thuật RANSAC áp dụng để trích xuất mặt phẳng chưa chứng minh được tính mạnh mẽ trừ phi cần thêm các giải pháp khắc phục Ngoài ra kết quả trực quan trên chưa có chứng minh độ ổn định của thuật toán mà cần có các số liệu đánh giá khách quan Hơn nữa, mặc dù ảnh gốc có, nhưng không rõ trong ảnh gốc thực sự có bao nhiêu mặt phẳng do không có kết quả trích xuất mặt phẳng tham chiếu
1.3.2.3 Phát hiện mặt phẳng sử dụng bộ phát hiện đoạn thẳng
Công cụ ước tính mặt phẳng mạnh mẽ dựa trên RANSAC [51] hoặc biến đổi Hough [52] đã được sử dụng rộng rãi trong nghiên cứu thị giác nổi nhưng dường như không phù hợp với trường hợp khi số lượng mặt phẳng rất nhiều Trong [6], sự đồng nhất và định hướng cục bộ được kết hợp với RANSAC để phù hợp với các mô hình với
dữ liệu 3D dày đặc, nhưng một số ngưỡng phải được điều chỉnh để có kết quả tốt Một trong những thách thức phải vượt qua khi sử dụng RANSAC là ban đầu nó được thiết
kế để chỉ phát hiện một đối tượng trong số các ngoại lệ Như đã chỉ ra trong [51] [52], hầu hết các phương thức đều có xu hướng thất bại trong các trường hợp xuất hiện bóng của các đối tượng
Phương pháp phát hiện mặt phẳng sử dụng Bộ phát hiện đoạn thẳng (LSD) [7] tránh sử dụng các mô hình phức tạp và cung cấp tìm kiếm nhanh hơn các vùng phẳng với giá trị lỗi tương tự so với các phương pháp được mô tả trong [53] và [6] kết hợp với tiêu chí quyết định của [53] như được minh họa trong Hình 1 Mục tiêu thứ hai của [7] là đưa ra ước tính tự động về độ chính xác của các điểm Đây là ưu điểm chính của phương pháp này đối với các phương pháp RANSAC trong đó tham số độ chính xác là rất quan trọng để thu được kết quả tốt Trong [7], các tác giả đưa ra một tiêu chí thống
kê để quyết định xem một nhóm điểm có thể được coi là phẳng hay không Thủ tục chia tách/hợp nhất mảnh phẳng sử dụng tiêu chí này được đề xuất để tìm các mảnh phẳng của bản đồ chênh lệch Tuy nhiên, thủ tục này được tính toán chuyên sâu cho các cảnh phẳng phức tạp
Hình 1.8 và bảng 1.2 minh họa một số kết quả của phương pháp [7]