Nghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rô bốt trong nhà (Luận án tiến sĩ)

Nghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhàNghiên cứu phát triển các thuật toán ước lượng mặt phẳng và dẫn đường cho hệ thống thị giác Rôbốt trong nhà

Trang 1

i

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Đặng Khánh Hòa

NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC THUẬT TOÁN ƯỚC LƯỢNG MẶT PHẲNG VÀ DẪN ĐƯỜNG CHO HỆ THỐNG

THỊ GIÁC RÔ-BỐT TRONG NHÀ

LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ

Hà Nội – 2019

Trang 2

ii

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

Đặng Khánh Hòa

NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC THUẬT TOÁN

ƯỚC LƯỢNG MẶT PHẲNG VÀ DẪN ĐƯỜNG CHO HỆ THỐNG

THỊ GIÁC RÔ-BỐT TRONG NHÀ

Trang 3

i

LỜI CAM ĐOAN

Tôi xin cam đoan rằng các kết quả khoa học được trình bày trong luận án này là thành quả nghiên cứu của bản thân tôi trong suốt thời gian làm nghiên cứu sinh và chưa từng xuất hiện trong công bố của các tác giả khác Các kết quả đạt được là chính xác và trung thực

Hà Nội, ngày tháng 7 năm 2019 Tập thể giáo viên hướng dẫn khoa học Tác giả luận án

TS Lê D

PGS TS Nguyến Tiến Dũng TS Lê Dũng Đặng Khánh Hòa

Trang 4

ii

LỜI CẢM ƠN

Trước hết, tôi xin bày tỏ lời cảm ơn chân thành và sâu sắc đến tập thể hướng dẫn PGS

TS Nguyễn Tiến Dũng và TS Lê Dũng đã trực tiếp định hướng khoa học trong quá trình nghiên cứu Các Thầy đã dành nhiều thời gian và tâm huyết, động viên về mọi mặt để tác giả hoàn thành luận án

Tác giả xin trân trọng cảm ơn Lãnh đạo trường Đại học Bách Khoa Hà Nội (HUST), Phòng Đào tạo, Viện Điện tử Viễn thông (SET), Bộ môn Điện tử và Kỹ thuật máy tính và TT Đào tạo thực hành đã tạo điều kiện thuận lợi cho nghiên cứu sinh trong suốt quá trình học tập

và nghiên cứu Chân thành cảm ơn các cán bộ, giảng viên, các cộng sự cũng như các anh chị NCS của Viện Điện tử Viễn thông đã động viên, hỗ trợ và tận tình giúp đỡ tác giả trong quá trình thực hiện luận án

Tác giả cảm ơn chương trình 911, Bộ Giáo dục và Đào tạo đã tài trợ cho nghiên cứu sinh Cảm ơn SET, HUST đã tài trợ thông qua đề tài nghiên cứu khoa học cấp cơ sở với mã T2016-PC-108

Cuối cùng, tôi xin bày tỏ lòng biết ơn đến song thân phụ mẫu, vợ và hai con vì những sự thúc đẩy, khích lệ và hy sinh nhiều trong thời gian vừa qua Đây chính là động lực to lớn giúp tác giả vượt qua mọi trở ngại để hoàn thành luận án này

Tác giả luận án

ĐẶNG KHÁNH HÒA

Trang 5

iii

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC CÁC KÝ HIỆU vi

DANH MỤC CÁC CHỮ VIẾT TẮT viii

DANH MỤC CÁC BẢNG xi

DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ xii

MỞ ĐẦU xv

1 Tính cấp thiết của luận án xv

1.1 Trích trọn mặt phẳng xvii

1.2 Trích trọn mặt phẳng đất xix

1.3 Dẫn đường cho rô-bốt trong nhà xx

2 Mục tiêu, đối tượng, phương pháp và phạm vi nghiên cứu xxi

2.1 Mục tiêu nghiên cứu xxi

2.2 Đối tượng nghiên cứu xxii

2.3 Phương pháp nghiên cứu xxii

2.4 Phạm vi nghiên cứu xxiii

3 Ý nghĩa khoa học và những đóng góp của luận án xxiii

3.1 Ý nghĩa khoa học xxiii

3.2 Các đóng góp khoa học của luận án gồm: xxiii

4 Cấu trúc nội dung của luận án xxiv

CHƯƠNG 1 TỔNG QUAN HỆ THỐNG DẪN ĐƯỜNG CHO RÔ-BỐT DỰA TRÊN HÌNH ẢNH THỊ GIÁC MÁY TÍNH 1

Giới thiệu chương 1

Hệ thống dẫn đường cho rô-bốt trong nhà 1

1.2.1 Các hệ thống dẫn đường cho rô-bốt trong nhà 3

1.2.2 Kiến trúc hệ thống dẫn đường rô-bốt sử dụng thị giác máy tính 4

Một số vấn đề của hệ thống rô-bốt dẫn đường dựa trên thị giác nổi 5

1.3.1 Phương pháp tính toán bản đồ chênh lệch/độ sâu 5

1.3.2 Phương pháp trích xuất đối tượng mặt phẳng dựa trên ảnh thị giác máy tính 8

1.3.3 Phát hiện mặt phẳng đất dựa trên sự biến đổi ảnh thị giác 15

Trang 6

iv

1.3.4 Phương pháp dẫn đường cho rô-bốt trong nhà trong môi trường chưa

biết 25

Tổng kết chương 29

CHƯƠNG 2 PHƯƠNG PHÁP TĂNG TỐC TÍNH TOÁN BẢN ĐỒ CHÊNH LỆCH VÀ PHÁT TRIỂN THUẬT TOÁN TRÍCH XUẤT MẶT PHẲNG 31

Hệ thống máy ảnh nổi 31

2.2.1 Cảm biến hình ảnh 31

2.2.2 Cấu trúc hệ thống máy ảnh nổi 32

2.2.3 Nguyên lý thị giác nổi 33

2.2.4 Bản đồ độ sâu 35

Phương pháp tăng tốc tính toán bản đồ chênh lệch/độ sâu 36

2.3.1 Triển khai tính toán SAD thông thường 36

2.3.2 Triển khai tính toán SAD đề xuất 37

2.3.3 Kết quả thực hiện và thảo luận 39

Nguyên lý trích xuất đối tượng mặt phẳng 43

2.4.1 Độ sâu của điểm 43

2.4.2 Khái niệm mặt phẳng trong thị giác máy tính 44

2.4.3 Khái niệm điểm lân cận và hàng xóm 45

Triển khai phương pháp trích xuất đối tượng mặt phẳng 46

2.5.1 Kiến trúc hệ thống xử lý dữ liệu 46

2.5.2 Thuật toán đề xuất Tạo nhóm hàng xóm kết hợp lọc 46

2.5.3 Kết quả thực nghiệm và thảo luận 49

2.5.4 Kết luận 55

CHƯƠNG 3 PHÁT TRIỂN THUẬT TOÁN NHẬN DẠNG MẶT ĐẤT 57

Nguyên lý nhận dạng đối tượng mặt đất 57

Phương pháp nhận đối tượng mặt đất từ ảnh độ sâu chuẩn 59

3.3.1 Kiến trúc hệ thống xử lý dữ liệu 59

3.3.2 Thuật toán đề xuất 60

Trang 7

v

Phương pháp nhận dạng đối tượng mặt phẳng đất từ dữ liệu độ sâu thực

tế 72

3.4.1 Giới thiệu 72

3.4.2 Kiến trúc hệ thống trích mặt đất từ dữ liệu độ sâu thực tế 73

CHƯƠNG 4 PHÁT TRIỂN PHƯƠNG PHÁP DẪN ĐƯỜNG CHO RÔ-BỐT DỰA TRÊN THUẬT TOÁN NHẬN DẠNG MẶT ĐẤT 83

Phương pháp dẫn đường sử dụng nhận dạng mặt đất 83

4.2.1 Mô hình hoạt động của rô-bốt trong nhà 83

4.2.2 Xác định kích thước 2D của điểm sâu 84

4.2.3 Phương pháp dẫn đường AMSD đề xuất dựa trên khai thác dữ liệu độ sâu 85

Kết quả thực nghiệm phương pháp dẫn đường AMSD dựa trên nhận dạng mặt đất và thảo luận 89

4.3.1 Kết quả thực nghiệm của phương pháp tránh vật cản cơ bản 90

4.3.2 Kết quả thực nghiệm của phương pháp tránh vật cản cải thiện 92

KẾT LUẬN VÀ KIẾN NGHỊ 99

1 Kết luận 99

2 Kiến nghị nghiên cứu tiếp theo 99

DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 100

TÀI LIỆU THAM KHẢO 102

Trang 8

vi

DANH MỤC CÁC KÝ HIỆU

Ký hiệu Ý nghĩa

A Cửa sổ tham chiếu

A’ Cửa sổ tìm kiếm

Bottom Điểm liền kề dưới

C Phép biến đổi ảnh

dmax Độ chênh lệch tối đa

dmin Độ chênh lệch tối thiểu

f Tiêu cự máy ảnh

FN Bộ đếm các điểm đất đúng không được phát hiện

FP Bộ đếm các điểm phi đất bị phát hiện sai

H Ma trận biến đổi phẳng

IL Ảnh bên trái

IR Ảnh bên phải

j Ngưỡng chênh lệch độ sâu của hai điểm liền kề

K Ma trân hiệu chuẩn máy ảnh

Left Điểm liền kề bên trái

PL Điểm phản chiếu của điểm p trên ảnh trái

PR Điểm phản chiếu của điểm p trên ảnh phải

q Ngưỡng phân biệt khối đất và phi đất

R1 Tỷ lệ phần trăm của các điểm đất được phát hiện

R2 Tỷ lệ phần trăm của các điểm mặt đất được phát

hiện không chính xác

Right Điểm liền kề bên phải

Trang 9

vii

T Khoảng cách giữa hai máy ảnh hoặc máy ảnh với

projector

TN Bộ đếm các điểm phi đất đúng được phát hiện

Top Điểm liền kề trên

TP Bộ đếm các điểm đất đúng được phát hiện

w Kích thước cửa sổ

XG Tập hợp điểm có sẵn trên mặt đất

xL Hoành độ trên ảnh trái

xR Hoành độ trên ảnh phải

Trang 10

viii

DANH MỤC CÁC CHỮ VIẾT TẮT

AMDS Always Move Straight to the

Destination

Thuật toán Luôn di chuyển thẳng tới đích

ANN Artificial Neural Network Mạng nơron nhân tạo

APIs Application Programming Interface Giao diện lập trình ứng dụng

ARA* Anytime Repairing A* Thuật toán sửa chữa bất cứ lúc

nào*

BFS Best First Seaching Thuận toán tìm kiếm tốt nhất đầu

tiên

CCD Charge Coupled Device Linh kiện tích điện kép

CMOS Complementary Metal Oxide

Maps

Thuật toán Phát hiện mặt phẳng nhanh trong bản đồ chênh lệch FSPF Fast Sampling Plane Filtering Thuật toán Lọc mặt phẳng lấy mẫu

nhanh GDM Gradient Depth Map Thuật toán Gradien bản đồ độ sâu GPS Global Positioning System Hệ thống định vị toàn cầu

HSBSR Hierarchical Shape-Based Surface

Reconstruction

Thuật toán tái tạo bề mặt dự trên hình dạng phân cấp

ICP Iterative Closest Point Thuật toán điểm gần nhất lặp lại LRF Laser Range Finder Xác định phạm vi bằng tia laser

LSD Line Segment Detector Bộ phát hiện đoạn thẳng

MDL Minimum Description Length Thuật toán Độ dài mô tả tối thiểu

Trang 11

ix

NCC Normalized Cross Correlation Thuật toán Độ tương quan chéo

chuẩn NGaF Neighbor Grouping and Filter Thuật toán Tạo nhóm hàng xóm và

lọc NMOS N Metal Oxide Semiconductor Bán dẫn ôxit kim loại loại N

PPDFDM Planar Patch Detection for Disparity

Maps

Thuật toán Phát hiện mảnh phẳng dùng bản đồ chênh lệch

PROSAC Progressive Sample Consensus Đồng thuận mẫu lũy tiến

PSO Particle Swarm Optimization Thuật toán tối ưu đám hạt

RANSAC RANdom SAmple Consensus Thuật toán Đồng thuận lấy mẫu

ngẫu nhiên

RGB-D Red Green Blue-Depth Cảm biến màu Đỏ Lục Dương-Độ

sâu RHT Random Hough Transform Thuật toán Biến đổi Hough ngẫu

nhiên SAD Sum of Absolute Differences Thuật toán Tổng tuyệt đối độ sai

lệch

SIFT Scale-invariant Feature Transform Biến đổi đặc trưng tỷ lệ bất biến SLAM Simultaneous Localization And

Mapping

Đồng thời định vị trí và lập bản đồ

SSD Sum of Squared Differences Thuật toán Tổng bình phương độ

sai lệch SUFT Speeded-Up Robust Features Tăng tốc đặc trưng mạnh mẽ

VDEMs Vectorized Digital Elevation Model Mô hình nâng cao kỹ thuật số

véc-tơ hóa VGA Video Graphics Array Chuẩn mảng đồ họa video độ phân

giải 640x480

RHT Random Hough Transform Thuật toán Biến đổi Hough ngẫu

nhiên SAD Sum of Absolute Differences Thuật toán Tổng tuyệt đối độ sai

lệch

SLAM Simultaneous Localization And

Mapping

Đồng thời định vị trí và lập bản đồ

SSD Sum of Squared Differences Thuật toán Tổng bình phương độ

sai lệch

Trang 12

x

VDEMs Vectorized Digital Elevation Model Mô hình nâng cao kỹ thuật số

véc-tơ hóa VGA Video Graphics Array Chuẩn mảng đồ họa video độ phân

giải 640x480

Trang 13

xi

DANH MỤC CÁC BẢNG

Bảng 1.1 Sai số của phương pháp [47] 7

Bảng 1.2 Thông số đánh giá kết quả thực nghiệm [7] 15

Bảng 1.3 Kết quả phát hiện mặt đường với các kịch bản khác [26] 21

Bảng 3.1 Phân loại điểm đất và điểm phi đất 59

Bảng 4.1 So sánh hiệu năng các phương pháp dẫn đường cho rô-bốt trong nhà 97

Bảng 4.2 So sánh tỷ lệ điều hướng thành công 97

Trang 14

xii

DANH MỤC CÁC HÌNH ẢNH, ĐỒ THỊ

Hình 1.1 Hệ thống dẫn đường bằng thị giác cho rô-bốt 5

Hình 1.2 Hệ thống tính bản đồ chênh lệch điển hình 6

Hình 1.3 Kết quả tính bản đồ chênh lệch thưa thớt áp dụng thuật toán SAD [46] 7

Hình 1.4 Kết quả thử nghiệm trên bốn hình ảnh thang độ xám thử nghiệm [47] 7

Hình 1.5 Biểu diễn các thông số của mặt phẳng theo dạng chuẩn [25] 8

Hình 1.6 Kết quả phát hiện mặt phẳng mái bằng cách sử dụng biến đổi Hough 3D [25] 10

Hình 1.7 Hình ảnh của các đám mây điểm 2D phát sinh từ việc phát hiện mặt phẳng mái bằng RANSAC [25] 12

Hình 1.8 Kết quả phát hiện mặt phẳng sử dụng bộ phát hiện đoạn thẳng [7] 14

Hình 1.9 Khung cảnh tương quan của máy ảnh tại các điểm thời gian t1 và t2 [26] 17

Hình 1.10 Một số kết quả trung gian của phép biến đổi ảnh thị giác [26] 20

Hình 1.11 Kết quả phát hiện mặt đường sử dụng phương pháp biến đổi ảnh thị giác [26] 20

Hình 1.12 (a) Vùng quan tâm của bản đồ chênh lệch và (b) Ảnh mặt đất phủ lên ảnh gốc [22] 22

Hình 1.13 Phân tích dữ liệu độ chênh lệch theo hàng (a) và cột (b) [22] 23

Hình 1.14 Cảm biến và mặt phẳng mặt đất được trình bày dựa trên tọa độ cảm biến 24 Hình 2.1 Hệ thống máy ảnh nổi Bumblebee [76] 32

Hình 2.2 Các trục tọa độ của hệ thống thị giác nổi [78] 33

Hình 2.3 Mối quan hệ tỷ lệ nghịch độ sâu và độ chênh lệch [78] 34

Hình 2.4 Ví dụ về bản đồ độ sâu [79] 35

Hình 2.5 Hệ thống tính bản đồ độ sâu điển hình SAD 36

Hình 2.6 Hệ thống tính bản đồ độ sâu SAD điều chỉnh đề xuất 38

Hình 2.7 Bản đồ chênh lệch được thực hiện bởi thuật toán SAD thông thường 40

Hình 2.8 Bản đồ chênh lệch được thực hiện bởi SAD cải thiện 41

Hình 2.9 Biểu đồ thời gian tiêu tốn, độ chính xác và độ che phủ được thực hiện bởi SAD thông thường cho ảnh Cones 41

Hình 2.10 Thời gian chạy, độ chính xác và độ bao phủ của phương pháp tăng cường thuật toán SAD cho hình ảnh Cones 42

Hình 2.11 So sánh trong thời gian xử lý được thực hiện bởi các phương pháp SAD thông thường và phương pháp tăng cường SAD đề xuất 42

Hình 2.12 Sơ đồ khối của hệ thống máy ảnh thị giác nổi [78] 43

Trang 15

xiii

Hình 2.13 Nguyên lý tính độ sâu của điểm ảnh 43

Hình 2.14 Khái niệm điểm lân cận của điểm p 45

Hình 2.15 Sơ đồ khối hệ thống phát hiện mặt phẳng 46

Hình 2.16 Minh họa dữ liệu trong thư viện Middlebury 47

Hình 2.17 Minh họa dữ liệu độ sâu môi trường thực tế và dữ liệu cải thiện 47

Hình 2.18 Thuật toán Tạo vùng hàng xóm 49

Hình 2.19 Hệ thống thử nghiệm trích mặt phẳng 50

Hình 2.20 Kết quả của các ảnh kiểm tra trong thư viện Middlebury 51

Hình 2.21 Kết quả của các ảnh kiểm tra thu thập bởi máy ảnh RGB-D 52

Hình 2.22 So sánh số lượng mặt phẳng được phát hiện theo một số ngưỡng tối thiểu min khác nhau với phương pháp FPDIDM [7] 52

Hình 2.23 Số lượng mặt phẳng được phát hiện theo các ngưỡng tối thiểu min khác nhau áp dụng với bản đồ độ sâu từ máy ảnh RGB-D 53

Hình 2.24 Kết quả của các phương pháp HSBSR [6], PPDFDM [53], FPDIDM [7] và thuật toán đề xuất trên bản đồ chênh lệch St-Michel Jail của Toulouse 54

Hình 2.25 So sánh ba thông số đánh giá giữa các phương pháp HSBSR, PPDFDM, FPDIDM và Phương pháp NGaF đề xuất trên bản đồ chênh lệch nhà thờ St-Michel Jail ở Toulouse 55

Hình 3.1 Mô hình toán học xác định độ chênh lệch độ sâu 58

Hình 3.2 Kiến trúc hệ thống nhận dạng mặt đất đề xuất 60

Hình 3.3 Thuật toán Lọc và gom nhóm 61

Hình 3.4 Thuật toán Tinh chỉnh vùng mặt đất 64

Hình 3.5 Các bản đồ gradient của hình ảnh trong thư viện Middlebury được thử nghiệm 66

Hình 3.6 Kết quả nhận dạng mặt đất của hình ảnh thử nghiệm trong nhiều trường hợp điển hình với các giá trị B 66

Hình 3.7 Kết quả của các hình ảnh được thử nghiệm trong nhiều môi trường 68

Hình 3.8 Tỷ lệ các điểm mặt đất được phát hiện trước khi quá trình hiệu chỉnh theo các kích thước cửa sổ w 69

Hình 3.9 Tỷ lệ điểm mặt đất được phát hiện sau quá trình hiệu chỉnh theo các kích thước khối B với cửa sổ w= 3  3 69

Hình 3.10 Tỷ lệ điểm mặt đất được phát hiện sau quá trình hiệu chỉnh theo các kích thước khối B với cửa sổ w= 5  5 69

Hình 3.11 Tỷ lệ điểm mặt đất được phát hiện sau quá trình hiệu chỉnh theo các kích thước khối B với cửa sổ w= 7  7 70

Trang 16

xiv

Hình 3.12 Đường cong biến đổi của R và đường ngưỡng tương ứng θ trong bản đồ

gradient độ sâu sau khi phân chia khối 71

Hình 3.13 Sơ đồ khối hệ thống trích mặt đất từ dữ liệu độ sâu cung cấp bởi máy ảnh RGB-D 73

Hình 3.14 Các thông số hình học của Kinect [93] 74

Hình 3.15 Kết quả của các hình ảnh được thử nghiệm trong nghiên cứu điển hình 78

Hình 3.16 Tỷ lệ điểm mặt đất được phát hiện đúng R1 theo kích thước cửa sổ làm mịn B 79

Hình 3.17 Tỷ lệ điểm mặt đất lỗi theo các kích thước cửa sổ làm mịn B 80

Hình 3.18 So sánh tỷ lệ điểm mặt đất được phát hiện đúng (R1) của các phương pháp 80

Hình 3.19 So sánh tỷ lệ điểm mặt đất được phát hiện sai (R2) của các phương pháp 80 Hình 4.1 Mô hình rô-bốt sử dụng hệ thống dẫn đường dựa trên thị giác máy tính 84

Hình 4.2 (a) Các thành phần của Kinect và (b) Phạm vi không gian độ sâu [94] 84

Hình 4.3 Mô hình toán học để tính toán kích thước của điểm sâu 84

Hình 4.4 Sơ đồ khối phương pháp dẫn đường dựa trên bản đồ độ sâu 85

Hình 4.5 Mô hình toán học cơ bản lựa chọn hướng di chuyển của rô-bốt 86

Hình 4.6 Mô hình toán học cải tiến lựa chọn hướng di chuyển của rô-bốt 88

Hình 4.7 Thuật toán điều hướng cải thiện dựa trên bản đồ độ sâu cho rô-bốt trong nhà 89

Hình 4.8 Hệ thống xe rô-bốt thử nghiệm 90

Hình 4.9 Kết quả thử nghiệm chiến thuật dẫn đường cơ bản 91

Hình 4.10 Theo dõi vị trí rô-bốt theo chiến thuật điều hướng cơ bản 92

Hình 4.11 Kết quả thuật toán điều hướng cải tiến 95

Hình 4.12 Theo dõi vị trí rô-bốt theo chiến thuật điều hướng cải tiến 96

Trang 17

xv

MỞ ĐẦU

1 Tính cấp thiết của luận án

Một xã hội phát triển được đánh giá theo nhiều khía cạnh Một trong những yếu tố quan trọng là khả năng hỗ trợ, bảo vệ, nâng cao chất lượng sống những cá nhân bị tổn thương như người già, người khiếm thị Theo báo cáo của Tổ chức Y tế Thế giới, trên toàn cầu, ước tính có khoảng 1,3 tỷ người sống với một số dạng suy giảm thị lực Có 188,5 triệu người bị suy giảm thị lực nhẹ, 217 triệu người bị suy giảm thị lực từ trung bình đến nặng và 36 triệu người bị mù [1] Liên quan đến tầm nhìn gần, 826 triệu người sống trong tình trạng suy giảm thị lực gần [2] Trên toàn cầu, các nguyên nhân hàng đầu gây suy giảm thị lực là các tật khúc xạ và đục thủy tinh thể không được điều trị Khoảng 80% của tất cả các suy giảm thị lực trên toàn cầu được coi là có thể tránh được Phần lớn những người bị suy giảm thị lực là trên 50 tuổi Như vậy nhu cầu về các thiết bị hỗ trợ cho điều hướng và định hướng là rất cao và tăng lên khi mức sống ngày càng cao

Có rất nhiều công cụ đang được sử dụng như gậy dò đường hoặc sử dụng chó được huấn luyện dẫn đường Mặc dù các công cụ này rất phổ biến, nhưng chúng không thể cung cấp cho người khiếm thị tất cả thông tin và tính năng để di chuyển an toàn Nhờ những thành tựu của mạch tích hợp, ý tưởng sử dụng máy ảnh thị giác có cấu trúc như mắt người tỏ ra có tiềm năng hỗ trợ tìm đường Máy ảnh còn có ưu thế cung cấp đầy đủ thông tin môi trường xung quanh cá nhân

Trong những năm gần đây, các thảm họa gây nhiều thiệt hại về người và vật chất xảy ra tại các đô thị bởi yếu tố đặc trưng mật độ dân cư cao và nhiều nhà cao tầng Công tác tiếp cận khu vực khảo sát đối mặt với nhiều thách thức bởi môi trường này tiềm ẩn nhiều yếu tố nguy hiểm như rò rỉ khí ga, khói, … Các nghiên cứu gần đây có định hướng

đề xuất giải pháp thay thế con người bằng xe rô-bốt tự dẫn đường Thách thức là làm thế nào rô-bốt làm việc được chính xác ổn định và kịp thời trong môi trường không lường trước và có thể biến đổi Có rất nhiều phương pháp dẫn đường đã được thử nghiệm nhưng trong thời gian gần đây nổi lên là phương pháp dẫn đường bằng máy ảnh thị giác với nhiều hy vọng hỗ trợ được tối đa các yêu cầu trong khảo sát môi trường văn phòng tòa nhà

Ngoài ra, xe rô bốt hoàn toàn có thể trở thành trợ lý của con người trong việc chuyển phát hoặc nhận hàng hóa, tài liệu cứng trong một khu vực tổ hợp văn phòng hoặc trong kho phân phối chuyển phát kiện hàng

Trang 18

xvi

Gần đây rất nhiều nhóm nhà khoa học đang tập trung nghiên cứu và phát triển các

hệ thống rô-bốt tự trị tích hợp máy ảnh Xu hướng phát triển công nghệ là tích hợp các cảm biến ảnh mạnh mẽ như máy ảnh nổi hoặc máy ảnh màu Đỏ Lục Dương-Độ sâu (RGB-D) Trong đó việc nghiên cứu giải thuật xử lý tín hiệu ảnh thị giác có vai trò quan trọng trong toàn hệ thống Dựa trên hình ảnh thu nhận trong hiện trường cho phép xác định được chính xác đầy đủ đa vật cản, đa mục tiêu Lợi thế vượt trội của hệ máy ảnh thị giác là cung cấp hình ảnh sinh động và giàu có thông tin cho người giám sát

Tình hình nghiên cứu thuật toán xử lý tín hiệu ảnh ứng dụng trong rô-bốt tự trị trong nhà không biết trước môi trường chưa được sự quan tâm xứng đáng với vai trò quan trọng của nó Nguyên nhân chủ yếu là việc định hướng nghiên cứu chưa được hoạch định ở tầm vĩ mô Nếu điều này được xây dựng một cách bài bản thì sẽ khuyến khích có nhiều nhà khoa học, các nghiên cứu sinh, kỹ sư … tham gia bởi tính ứng dụng thiết thực đến nhiều lĩnh vực trong đời sống xã hội Mặc dù xử lý tín hiệu máy ảnh là một khoa học ứng dụng đóng vai trò đặc biệt quan trọng cho sự phát triển của các hệ thống giám sát, cứu hộ, hỗ trợ bệnh nhân người già và người khiếm thị Nhưng do đặc thù của lĩnh vực nghiên cứu là đòi hỏi có những kiến thức cơ bản về toán học và logic vững vàng, nên có nhiều khó khăn đối với nhiều nhà nghiên cứu Cho nên số lượng các bài báo, các công trình khoa học có liên quan được công bố trên các tạp chí khoa học, báo khoa học ở trong nước còn hạn chế Ngoài nhóm nghiên cứu của Viện Điện tử - Viễn thông, trường Đại học Bách Khoa Hà Nội, ở trong các trường đại học, các viện khoa học vẫn có những nhóm nghiên cứu thực hiện các đề tài, dự án nghiên cứu khoa học như Khoa Điện tử - Viễn thông, Trường đại học Công nghệ, Đại học Quốc Gia Hà Nội, Học viện kỹ thuật quân sự, Khoa Điện tử - Viễn thông, Trường Đại học Bách Khoa thành phố Hồ Chí Minh và một số trường đại học, viện nghiên cứu khác

Các nghiên cứu hiện nay hứa hẹn sẽ giải quyết được vấn đề hiệu năng và tính chính xác hệ thống, có tính ứng dụng cao trong tương lai Nhưng riêng đối với những nghiên cứu phát triển thuật toán xử lý tín hiệu máy ảnh ứng dụng trong hệ thống thị giác rô-bốt dẫn đường trong nhà còn tiềm năng Nguyên nhân một phần do điều kiện nghiên cứu thực nghiệm còn nhiều hạn chế nên cho đến nay số lượng các công trình nghiên cứu liên quan được công bố trong các tạp chí, hội thảo khoa học trong nước còn khá hạn chế

Sau đây là một số phân tích môi trường đặc trưng môi trường hoạt động trong nhà của xe rô-bốt Bằng cách quan sát thực tế, tính chất chung của chúng là được xây dựng

là phẳng hoặc gồm các mảng phẳng lớn ghép lại với nhau Các đồ đạc trong phòng được

Trang 19

xvii

sắp xếp và có thể thay đổi vị trí tùy ý bất kỳ lúc nào Các đồ đạc bị xê dịch hoặc xáo trộn hoặc đổ xuống sàn Nên khó có thể sử dụng được bản đồ xây dựng sẵn có của tòa nhà hoặc có thể chúng chưa được số hóa theo chuẩn của hệ xe rô-bốt Vậy trường hợp phổ quát xe rô-bốt làm việc môi trường trong nhà không biết trước Một điều hiển nhiên

xe rô-bốt với cơ cấu chấp hành bánh xe chỉ có thể di chuyển trên mặt sàn hoặc gọi là mặt đất Vậy vấn đề dẫn đường có thể được giải quyết bằng cách chỉ ra cho hệ xe rô-bốt đâu là mặt đất và phi đất sử dụng hệ thống cảm biến máy ảnh thị giác Bản chất mặt đất

là một trong những mặt phẳng xuất hiện trong ảnh Ngoài ra còn có các mặt phẳng khác tạo nên hình dạng của các đối tượng như tường, bàn, ghế, tủ…Các đối tượng này được quan tâm khi yêu cầu xe rô-bốt có nhiệm vụ thu thập dữ liệu để phân tích cấu trúc môi trường Thực tế đây cũng là tính năng cơ bản của xe rô-bốt trong bài toán khảo sát môi trường, giúp tái tạo cảnh vật dạng 3D

Như vậy, nhằm khai thác hiệu quả hệ máy ảnh thị giác gắn trên xe rô-bốt các vấn

đề thiết yếu đặt ra gồm:

1 Trích xuất mặt phẳng từ dữ liệu cung cấp bởi máy ảnh thị giác nổi hoặc

RGB-D Bài toán này hỗ trợ phát triển ứng dụng tái tạo lại môi trường dạng 3RGB-D

2 Nhận dạng mặt đất dựa trên việc khai thác dữ liệu máy ảnh thị giác nổi hoặc RGB-D

3 Ứng dụng nhận dạng mặt đất trong bài toán dẫn đường cho xe rô-bốt hoạt động trong nhà trong điều kiện không có bản đồ giao thông

Sau đây là phân tích sâu hơn tính cấp thiết của 3 vấn đề trên

1.1 Trích trọn mặt phẳng

Trong lĩnh vực thị giác máy tính, phát hiện mặt phẳng là một trong những ứng dụng cơ bản để khai thác sâu dữ liệu thị giác bao gồm ứng dụng tái kiến trúc môi trường 3D, nhận dạng đối tượng và điều hướng rô-bốt Nghiên cứu gần đây cho thấy một số kết quả thú vị với các thuật toán khác nhau Những phương pháp tiếp cận này có thể lựa chọn một trong nhiều loại dữ liệu đầu vào phong phú như đám mây điểm 3D, hình ảnh màu đơn hoặc bản đồ chênh lệch Trong [3], các tác giả kết hợp một cải tiến thuật toán biến đổi Hough với kỹ thuật bó cụm để tìm kiếm nhiều mục tiêu trong ảnh dựa trên biên của đối tượng Phương pháp này có thể phát hiện nhiều đối tượng với hình dạng tròn hoặc hình dạng thẳng Tuy nhiên, cấu trúc của các đối tượng được trích chọn khá đơn giản Vì vậy, các thuật toán ứng dụng không thể thích ứng với môi trường tự nhiên,

Trang 20

là tích cực lạc quan nhưng rõ ràng là mục đích đáp ứng thời gian thực vẫn chưa đạt được Các nội dung trong [5] [6] [7] mang đến một cách tiếp cận mới để phát hiện các mặt phẳng bằng cách cải thiện thuật toán Đồng thuận lấy mẫu ngẫu nhiên (RANSAC) Ngoài

ra giải pháp phối hợp với giải thuật khác như Độ dài mô tả tối thiểu (MDL) để cải thiện

độ tin cậy của các kết quả được thử nghiệm [8] [9] giải quyết bài toán hẹp phát hiện mặt bàn với thuật toán đề xuất PROSAC bằng cách cải thiện RANSAC Nhìn chung, các công trình đã có một số kết quả đáng khích lệ cho cả hai loại dữ liệu tổng hợp và dữ liệu thu thập trong thực tế Phương pháp này có thể tránh việc phát hiện mặt phẳng sai

do độ phức tạp hình học cao của dữ liệu 3D Nhưng sau đó sự phức tạp của dữ liệu của cấu trúc là không được quan tâm thích đáng Trong công trình [10], mặt phẳng ngang được phát hiện từ các điểm đầu mối của hình ảnh trực quan hoặc phát hiện từ biên trong

dữ liệu điểm 3D Tuy nhiên, những phương pháp này không thích hợp cho hầu hết các loại cấu trúc xây dựng trên thực tế Giải pháp tìm mặt phẳng được trình bày trong [11] căn cứ trên giải pháp Tối ưu hạt Swarm (PSO) kèm với thuật toán Phát triển vùng (RG)

để trích chọn các mặt phẳng nhỏ Song trong nhận định kết quả của giải pháp này thì có nhiều ý kiến là cần phải thảo luận thêm về khả năng giảm chi phí tính toán và cải thiện

độ chính xác Tất cả các phương pháp tiếp cận được đề cập ở trên đều lựa chọn dữ liệu đầu vào 3D phức tạp

Gần đây, các bài viết [12] [13] [14] công bố phát hiện bất kỳ loại bề mặt nào mà không cần hiệu chuẩn máy ảnh bằng cách giả định máy ảnh gắn trên xe tự hành luôn chuyển động tuyến tính Các bề mặt phẳng được tham số hóa bằng cách chuyển chúng

thành không gian vận tốc c có dạng pa-ra-bôn [12] Tác giả đề xuất phương pháp phát

hiện mặt phẳng mà khai thác ràng buộc đường cong vận tốc ISO sau khi ước tính luồng

quang học và bỏ phiếu cho các bộ tích lũy Hàm vận tốc c phụ thuộc vào hai biến x và y

với mối quan hệ gốc bình phương vì vậy nó có độ phức tạp quá cao Bản thảo [14] đưa

ra một số kết quả lạc quan và cần được phát triển hoàn thiện hơn nữa

Các phương pháp ứng dụng thú vị [15] [16] có thể nhanh chóng phát hiện nhiều mặt phẳng dựa trên một bản đồ chiều sâu thu được từ máy ảnh Kinect Thuật toán được

áp dụng trong giải pháp tính véc tơ pháp tuyến cục bộ của các nhóm bốn điểm liền kề

Trang 21

xix

trong bản đồ chiều sâu Sau đó, xác minh tính đồng phẳng của mỗi điểm trong cơ sở dữ liệu đám mây 3D dựa trên tiêu chí véc tơ pháp tuyến Lợi thế của phương pháp này có thể phát hiện đồng thời nhiều mặt phẳng, cải thiện tốc độ của quá trình phát hiện mặt phẳng, ngoại trừ trong [16] Kết quả thử nghiệm cho thấy tốc độ xử lý của phương pháp

đề xuất nhanh hơn một số phương pháp trước đó như thuật toán chuyển đổi 3D Hough

và thuật toán RANSAC Nó cũng có thể làm việc trong thời gian thực Đầu vào 2D này

có một lợi thế chính đơn giản nhưng nó dễ dàng gặp dung sai lớn trong những cảnh thực

vì độ sâu và chênh lệch không tỉ lệ tuyến tính Các tác giả không đề cập đến khó khăn này một cách kỹ lưỡng và giải pháp nâng cao độ tin cậy của các kết quả Nhưng bên cạnh đó, độ tin cậy của kết quả là không tốt như mong đợi vì các véc-tơ pháp tuyến cục

bộ chỉ được tính toán chính xác trong trường hợp bản đồ chiều sâu hoàn hảo Tình trạng này hiếm khi được đáp ứng bởi nguyên nhân nguồn tài nguyên phần cứng hạn chế cảm biến di động nhỏ gọn gây ra Ngoài ra, mục tiêu ưu tiên phổ biến là rô-bốt hoạt động tốt trong thời gian thực

1.2 Trích trọn mặt phẳng đất

Trong lĩnh vực rô-bốt di động tự trị được gắn kết với một máy ảnh nổi, vấn đề quan trọng nhất là khai thác mặt phẳng đất, xác định chướng ngại vật để giải quyết bài toán tìm đường khả thi của rô-bốt nhằm tới đích yêu cầu trước Trong những năm gần đây, có rất nhiều công việc liên quan tới vấn đề này với cách tiếp cận tương đối đa dạng Chúng bao gồm các công trình [17] [18] [19] sử dụng thuật toán RANSAC kinh điển để ước tính mặt phẳng đất có độ tin cậy cao Tuy nhiên, phương pháp này cần sử dụng một

số lượng lớn các phép toán nên có thể dẫn đến thời gian chạy bị tiêu tốn hoặc đòi hỏi cấu hình phần cứng mạnh đồng nghĩa với chi phí cao Hai phương pháp tiếp cận trong

[20] [21] áp dụng một khái niệm luồng quang học và sử dụng dữ liệu đầu vào là video

màu hoặc hình ảnh xám đa cấp để có được một số kết quả rất thú vị trong môi trường có chứa các đối tượng với đặc điểm đặc biệt Trong các trường hợp khác, mặt phẳng đất chứa các mẫu phức tạp, độ chính xác phát hiện bị giảm rõ rệt Đối với ứng dụng thời gian thực, các tác giả trong [22] đã trình bày thuật toán tìm mặt bằng mặt phẳng đất bằng

cách xử lý dữ liệu đầu vào bản đồ chênh lệch 2D Tuy nhiên những hình ảnh đầu vào

được thu thập và thử nghiệm trong môi trường trong nhà với nền tảng đơn giản Điều này giới hạn khả năng giải quyết vấn đề trong môi trường thực tế phức tạp hơn nhiều

[23], [24] Việc kết hợp cả hai thuật toán Hough và RANSAC cổ điển đã mang lại kết

quả xác định các đối tượng rất hiệu quả bằng cách thúc đẩy lợi thế của mỗi thuật toán cho mỗi trường hợp cụ thể khác nhau [25] Tuy nhiên, khối lượng phép toán trong

Trang 22

xx

chương trình là một vấn đề chưa được giải quyết Quá trình áp dụng phép biến đổi ảnh

cho nguồn dữ liệu ảnh xám đơn giản từ một hoặc hai máy ảnh [26] [27] [28] nhưng điều hiển nhiên là giải pháp này không thể trích xuất các thông tin chiều sâu của các đối tượng vật cản trong khung hình nên làm cho việc điều hướng rô-bốt chắc chắn khó khăn

Vì vậy, với các ứng dụng thời gian thực của rô-bốt di động trong khi di chuyển, các phương pháp được đề cập có thể phải đối mặt với tải tính toán lên cao và yêu cầu hoạt động trên một nền tảng phần cứng với cấu hình cao

1.3 Dẫn đường cho rô-bốt trong nhà

Trong những năm gần đây, vấn đề điều hướng cho rô-bốt trong môi trường trong nhà được quan tâm rất đặc biệt Nhiều nhà nghiên cứu đã cố gắng sử dụng một cảm biến mạnh mẽ mà có thể thu thập thông tin phong phú như một máy ảnh Nhiều loại cảm biến hình ảnh RGB-D đã được bán trên thị trường như Kinect của Microsoft hoặc Bumblebee bởi FLIR Systems, Inc, v.v Những sản phẩm này cho phép rất cải thiện mạnh mẽ cách thức con người tương tác với thế giới xung quanh, tăng cường an toàn công cộng, tăng hiệu quả năng lượng, và kích hoạt các cộng đồng giải trí lành mạnh [29]

Phương pháp tiếp cận đã được trình bày thuật toán Đồng thời định vị trí và lập bản

đồ (SLAM) sử dụng hệ thống máy ảnh RGB-D [30] [31] [32] Những phương pháp ứng dụng này được tối ưu hóa cho các công việc dẫn đường trong một phạm vi nhỏ như một căn phòng nhỏ, không đáp ứng cho môi trường lớn Kết quả tốt nhất của các công trình [30] [31] [32] vẫn còn hai nhược điểm bao gồm độ chính xác khiêm tốn và không đáp ứng thời gian xử lý tối thiểu cho chuyển động liên tục của rô-bốt Việc áp dụng các thuật toán RANSAC và lập bản đồ 3D làm cho tốc độ xử lý giảm đáng kể

Theo công trình nghiên cứu [33], tác giả trình bày một số kết quả đáng khích lệ, nhưng các tác giả cũng thừa nhận rằng việc lập bản đồ triển khai từ máy ảnh RGB-D không đáp ứng tính chất thời gian thực Rõ ràng các hệ thống thử nghiệm này có yêu cầu tài nguyên phần cứng cao tích hợp GPU hiện đại Bên cạnh đó, hệ thống vẫn cần phải cải thiện hiệu suất làm việc Các kết quả kinh nghiệm của [34] đã thỏa mãn điều kiện thời gian thực nhưng hệ thống máy ảnh bị buộc phải hoạt động ở độ phân giải thấp hơn tiêu chuẩn VGA Ngoài ra, hệ thống chỉ có thể cập nhật bản đồ từ cảm biến ít hơn

6 lần mỗi giây

Gần đây, các tác giả của công trình nghiên cứu [35] triển khai tương đối nhiều công việc bao gồm việc tái tạo môi trường 3D và nhận dạng địa hình nhìn thấy ở phía

Trang 23

xxi

trước của rô-bốt di động Mục đích chính của [35] là tránh vật cản căn cứ trên cấu trúc

dữ liệu kim tự tháp và kỹ thuật lập trình động Hệ thống cài đặt thu được kết quả tốt

nhưng còn chưa thuyết phục với độ phân giải của máy ảnh thấp 128x128 Giá trị của

tham số này không đủ chất lượng để nhận ra tất cả những trở ngại chính trên mặt đất

Ngoài ra, khu vực mù trong vòng khoảng 2m từ rô-bốt là quá lớn so với kích thước và

vận tốc của rô-bốt

Xu hướng mạnh mẽ này là có thể với sự hỗ trợ của phần cứng mạnh mẽ với một mức chi phí ngày càng thấp hơn Thật dễ dàng để xây dựng một hệ thống hiệu suất cao với một kích thước vật lý nhỏ gọn Hệ điều hành và phần mềm cũng được hỗ trợ bởi phần cứng hơn và ngày càng có nhiều hơn nữa tài nguyên mềm với nhiều thư viện hàm chức năng Vì vậy, nhiều nhà nghiên cứu đang cố gắng để đưa trí thông minh nhân tạo vào rô-bốt với mục tiêu giúp các rô-bốt tự động hoá nhiều hành vi thông minh Hệ thống

đề xuất trong [36] sử dụng một cảm biến ổn định Kinect để thu thập các dòng dữ liệu video độ sâu để sau đó sẽ đưa vào một mạng nơ-ron nhân tạo (ANN) Mạng lưới này nhận ra các loại đường dẫn khác nhau trong môi trường bao gồm con đường phía trước, con đường bên trái, con đường bên phải và nút giao thông Tuy nhiên, kết quả kinh nghiệm không phải là toàn diện vì vấn đề chuyển hướng chỉ thích hợp cho môi trường trong nhà hạn chế Sự đổi mới của [37] chỉ kết hợp được lập bản đồ và đào tạo mạng nơ-ron để xây dựng được một hệ thống định vị trong nhà Các đóng góp chính của [38] phương pháp là áp dụng kết hợp thuật toán dự đoán một phần chiều sâu và thuật toán lọc hạt Cụ thể, ước lượng độ sâu của các điểm tiêu biểu bằng phép toán xấp xỉ độ sâu

mà không tính toán chiều sâu của tất cả các điểm trong hình ảnh Tiếp theo, thuật toán lọc hạt đảm bảo nhiễu được lọc ra tối đa trong quá trình dự đoán vị trí của rô-bốt Vì vậy, các kết quả được đánh giá là rất lạc quan Bên cạnh đó cần giải quyết thời gian tính toán cần phải giảm nhiều hơn nữa, trừ phi kích thước của các thiết lập hạt không phải là linh hoạt

2 Mục tiêu, đối tượng, phương pháp và phạm vi nghiên cứu

2.1 Mục tiêu nghiên cứu

Mục tiêu thứ nhất là tăng cường thuật toán tính toán bản đồ chênh lệch/độ sâu về mặt thời gian, hỗ trợ cho hệ thống máy ảnh nổi cung cấp dữ liệu độ sâu theo thời gian thực cho các ứng dụng khai thác dữ liệu sâu hơn

Trang 24

xxii

Mục tiêu thứ hai là nghiên cứu và đề xuất thuật toán các thuật toán trích xuất mặt phẳng dựa trên dữ liệu độ sâu, đáp ứng yêu cầu xử lý theo thời gian thực, hỗ trợ cho bài toán tái tạo đối tượng 3D

Mục tiêu thứ ba là tập trung nghiên cứu và đề xuất thuật toán nhận dạng hiệu quả mặt đất từ dữ liệu bản đồ độ sâu, đáp ứng yêu cầu xử lý theo thời gian thực để hỗ trợ giải quyết bài toán dẫn đường cho rô-bốt

Mục tiêu thứ tư là nghiên cứu phương pháp dẫn đường cho rô-bốt áp dụng thuần túy thuật toán khai thác bản đồ độ sâu, trong môi trường trong nhà không biết trước, theo định hướng giảm thiểu độ phức tạp; đáp ứng được yêu cầu dẫn đường chính xác Trong quá trình thực hiện các mục tiêu trên, các nghiên cứu cần thử nghiệm các thuật toán xử lý video độ sâu đề xuất và chiến thuật dẫn đường trên xe rô-bốt Đó là nghiên cứu thiết kế chế tạo mô hình rô-bốt tích hợp hệ thống máy ảnh nổi hoặc RGB-D phù hợp với môi trường trong nhà Sau đó hệ thống rô-bốt được tích hợp các phần cứng

và phần mềm để kiểm định các kết quả đề xuất của mục tiêu nghiên cứu thứ nhất và thứ hai trong thực tế

2.2 Đối tượng nghiên cứu

Từ các mục tiêu nghiên cứu trên, luận án tập trung vào đối tượng nghiên cứu thứ nhất là các thuật toán xử lý dữ liệu bản đồ độ sâu được cung cấp bởi hệ thống máy ảnh nổi hoặc RGB-D, cung cấp dữ liệu vào cho bài toán dẫn đường của rô-bốt trong nhà, với khả năng tự tránh các vật cản trên đường di chuyển

Tiếp theo là tập trung nghiên cứu phương pháp dẫn đường cho rô-bốt sử dụng hệ thống máy ảnh nổi hoặc RGB-D trong môi trường trong nhà không biết trước

Cuối cùng là nghiên cứu, thiết kế và chế tạo mô hình rô-bốt tích hợp hệ thống máy ảnh nổi hoặc RGB-D với các thuật toán đã phát triển nhằm thử nghiệm độ tin cậy

2.3 Phương pháp nghiên cứu

Phương pháp nghiên cứu trong luận án đi từ nghiên cứu lý thuyết đến thực nghiệm, ứng dụng các kỹ thuật xử lý ảnh thu nhận từ máy ảnh nổi vào giải quyết bài toán tìm đường trên rô-bốt di động Đầu tiên luận án nghiên cứu lý thuyết, xây dựng mô hình, sau đó mô phỏng thuật toán, thiết kế chế tạo mô hình xe rô-bốt để thực nghiệm trên hiện trường nghiên cứu và đo lường, đánh giá

Trang 25

Các kết quả nghiên cứu của đề tài dự kiến sẽ đóng góp cho sự phát triển của nền tảng lý thuyết xử lý tín hiệu video độ sâu Thúc đẩy giải quyết bài toán nhận dạng đối tượng mặt đất hỗ trợ dẫn đường sử dụng thị giác máy tính cho rô-bốt di động hoạt động trong môi trường động trong nhà

3.1.2 Về mặt thực tiễn

Thuật toán được nghiên cứu và đề xuất trong luận án có thể làm cơ sở cho các nhà sản xuất thiết bị rô-bốt, hệ thống giám sát quan sát cảnh báo 3D thông minh Do vậy, đề tài có tính thực tiễn cao Thuật toán đề xuất có thể được ứng dụng vào trong thiết kế và chế tạo các rô-bốt khảo sát hiện trường, cứu hộ phù hợp với điều kiện môi trường tại Việt Nam

3.2 Các đóng góp khoa học của luận án gồm:

Luận án đã thực hiện được các đóng góp khoa học chính sau đây:

Trang 26

3 Đề xuất phương pháp nhận dạng mặt đất áp dụng thuật toán GDM để khai thác bản đồ độ sâu được cung cấp bởi máy ảnh RGB-D hoặc hệ thống thị giác nổi

4 Đề xuất phương pháp dẫn đường dựa trên thông tin mặt phẳng đất thuần túy

áp dụng cho rô-bốt hoạt động trong nhà trong môi trường không biết trước

4 Cấu trúc nội dung của luận án

Nội dung luận án bao gồm bốn chương Các kiến thức tổng quan hệ thống dẫn đường cho rô-bốt dựa trên hình ảnh thị giác được trình bày trong chương 1 Các đóng góp khoa học của luận án thể hiện trong nội dung của chương 2, chương 3 và chương 4 Cấu trúc nội dung được trình bày cụ thể như sau

Đầu tiên, chương 1 tập trung giới thiệu hệ thống dẫn đường dựa trên hình ảnh thị giác tích hợp cho rô-bốt di động Chương này nêu rõ nhiệm vụ, vai trò và các loại hệ thống dẫn đường sử dụng máy ảnh thị giác Phần cuối cùng của chương 1 trình bày một

số vấn đề còn tồn tại trong xử lý ảnh thị giác trong lĩnh vực dẫn đường cho rô-bốt dựa trên hệ thống máy ảnh RGB-D hoặc thị giác nổi Vấn đề trích mặt phẳng từ các hình ảnh thu thập hiện trường cho phép tái tạo lại hình dáng các đối tượng quan sát Bài toán trích mặt phẳng đất là tiền đề cho giải quyết bài toán di chuyển khả thi của rô-bốt Cuối cùng

là vấn đề dẫn đường tự trị gồm các bước lập kế hoạch đường đi, phát hiện và tránh vật cản

Chương 2 có hai đề xuất Đề xuất thứ nhất là phương pháp tăng tốc độ tính bản đồ chênh lệch/độ sâu dựa trên cải tiến cách thực hiện thuật giải SAD gốc Kết quả của bài toán này là đầu vào cho các công việc khai thác sâu hơn dữ liệu độ sâu với cá ứng dụng phong phú như nhận dạng đối tượng trong ảnh, tái tạo môi trường 3D, dẫn đường cho

xe tự hành

Trang 27

xxv

Đề xuất thứ hai là phương pháp trích xuất mặt phẳng dựa khai thác bản đồ độ sâu Trước hết chương trình bày khái niệm toán học gradient độ sâu để làm cơ sở tính toán trên bản đồ độ sâu Chương này xây dựng giả thuyết các đặc trưng của mặt phẳng trên bản đồ gradient độ sâu Chúng là các điều kiện để chọn lọc các mặt phẳng ứng cử trước khi đưa chúng vào khâu tính chỉnh, cho phép đưa ra tập mặt phẳng tin cậy hơn

Chương 3 phát triển thuật toán để giải quyết bài toán nhận dạng mặt phẳng đất Từ

đó tác giả đề xuất phương pháp mới có cải thiện hiệu năng so với các phương pháp này Phương pháp đề xuất kiểm nghiệm trên hai loại tập dữ liệu độ sâu chuẩn và tập dữ liệu thu thập thực tế Kết quả thu được đã minh chứng cho tính mạnh mẽ, ổn định của thuật toán thông qua cả hai phương pháp đánh giá trực quan và đánh giá khách quan Các tham số đánh giá so sánh như tỷ lệ điểm đất phát hiện đúng, tỷ lệ điểm đất phát hiện sai, thời gian xử lý…đều thể hiện tích cực Với các dữ liệu chuẩn được lấy từ thư viện mở Middlebury, kết quả được so sánh với kết quả cơ sở tham chiếu (ground truth)

Cuối cùng, chương 4 nghiên cứu đề xuất phương pháp dẫn đường áp dụng cho bốt di động đi tới đích cho trước Bài toán được giải quyết trong môi trường hoạt động trong nhà không biết trước với ràng buộc chỉ sử dụng dữ liệu bản đồ độ sâu Dựa trên thông tin mặt phẳng đất trích xuất từ bản đồ độ sâu, tác giả xây dựng mô hình toán học

rô-để tính toán các thông số bảo đảm an toàn khi xe di chuyển gồm vùng quan sát với cự

ly gần nhất và cự ly quan sát xa nhất, góc ngẩng của cảm biến hình ảnh Từ đó tác giả thiết kế chế tạo mô hình xe rô-bốt với các thông số tối ưu Chương này cũng trình bày một chiến thuật tránh vật cản chắc chắn và đơn giản Các thử nghiệm trong môi trường thực tế được ghi lại với các tham số đánh giá tin cậy cũng như hình ảnh, video trực quan Các phân tích cụ thể phương pháp tìm đường đi đề xuất đã nêu rõ những ưu điểm nổi bật cũng như một số hạn chế của bài toán tìm đường trong nhà; cho thấy tính khả thi của phương pháp dẫn đường đề xuất

Trang 28

1

CHƯƠNG 1 TỔNG QUAN HỆ THỐNG DẪN ĐƯỜNG CHO RÔ-BỐT DỰA TRÊN HÌNH ẢNH THỊ GIÁC MÁY TÍNH

Giới thiệu chương

Nội dung của chương này gồm hai phần Phần đầu trình bày lý thuyết tổng quan

về hệ thống dẫn đường thị giác cho rô-bốt di chuyển trên mặt đất Trong đó có trình bày kiến trúc hệ dẫn đường rô-bốt dựa trên thị giác máy tính, các khái niệm cơ bản, vai trò

và phân loại một số loại hệ thống dẫn đường hiện nay Phần cuối của chương này phân tích cụ thể các vấn đề liên quan tới việc khai thác dữ liệu độ sâu hiện nay Chúng gồm vấn đề đầu tiên là xây dựng bản đồ chênh lệch/độ sâu, tiếp theo là trích xuất mặt phẳng, nhận dạng mặt đất Cuối cùng là vấn đề ứng dụng bài toán dẫn đường cho rô-bốt

Hệ thống dẫn đường cho rô-bốt trong nhà

Hệ thống dẫn đường thị giác của rô-bốt di động có khả năng nhận thức để phát hiện môi trường xung quanh, quy hoạch đường đi để sắp xếp tuyến đường và hỗ trợ thông tin cho hệ thống điều khiển động cơ để kích hoạt chuyển động của cơ thể rô-bốt

Về cấu trúc hệ thống dẫn đường này gồm hệ thống phần cứng máy ảnh thị giác hoặc máy ảnh RGB-D kết hợp với công cụ tính toán đường một cách hợp lý

Có nhiều hệ thống dẫn hướng thị giác đang được nghiên cứu và ứng dụng rộng rãi sử dụng trong các rô-bốt và nhiều hệ thống tự động khác Theo yếu tố số lượng máy ảnh tích hợp trên xe rô-bốt, loại đầu tiên là hệ thống dẫn đường thị giác chỉ có một máy ảnh duy nhất gắn trên rô-bốt để lấy hình ảnh của môi trường xung quanh Máy ảnh phải được hiệu chỉnh trước để có thể thu được thông tin từ hình ảnh được chụp bởi máy ảnh đơn Phương pháp dùng để phân biệt các vật thể hoặc chướng ngại vật trong ảnh dựa trên kỹ thuật phát hiện biên và học máy [39] Để có được dữ liệu 3 chiều, hệ thống thị giác một mắt kết hợp các khung hình tại các vị trí khác nhau bằng cách di chuyển vào hai điểm khác nhau [40] Hoặc có thể dùng cách thay đổi tiêu cự máy ảnh tại một thời điểm để có dữ liệu 3D dựa trên khác biệt độ nét của đối tượng Mặc dù đã có những kết quả nhất định nhưng hệ thống thị giác máy ảnh đơn này vẫn không đưa ra một giá trị chính xác của vị trí và khoảng cách

Với sự phát triển của phần cứng, xe rô-bốt được tích hợp hệ thống máy ảnh nổi gồm hai camera giống hệt nhau hoặc hệ máy ảnh RGB-D Hệ thống thị giác này có ưu

Trang 29

➢ Dẫn đường toàn cục: Là khả năng nhận biết vị trí của đối tượng thông qua một bản

đồ quy chiếu, sau đó đối tượng tìm đường đến mục tiêu của nó Đây là hình thức dẫn đường tương đối chính xác nếu bản đồ quy chiếu thể hiện đầy đủ các thông tin môi trường Dẫn đường toàn cục là phương pháp yêu cầu những đường đi được biết trước hoặc đoán trước Cụ thể, bản đồ được thực hiện từ trước khi hành động dẫn đường được diễn ra Bản đồ cũng có thể được vẽ lại hoặc cập nhật trong quá trình hoạt động của đối tượng Nếu bản đồ được cập nhật, các tính toán dẫn đường cũng sẽ phải được cập nhật Việc cập nhật lại liên tục hướng di chuyển có thể gây

ra tiêu tốn tài nguyên tính toán của hệ thống

➢ Dẫn đường cục bộ: Là khả năng xác định vị trí của các đối tượng bên ngoài môi

trường liên quan đến đối tượng chủ thể để thực hiện tương tác chính xác Các thông tin dẫn đường mang tính chính xác cục bộ và phụ thuộc thời gian, vị trí tuyệt đối của đối tượng chính Việc dẫn đường cục bộ cũng có thể được thực hiện thông qua

sự hỗ trợ từ bên ngoài Khi đó, tọa độ tương đối của các đối tượng được tính thông qua các phép tính hình học từ vị trí tuyệt đối của đối tượng Dẫn đường cục bộ được áp dụng tốt trong trường hợp không gian di chuyển của đối tượng nhiều biến động hoặc không biết trước Ở trong trường hợp này, những bản đồ được vẽ từ trước thường không đáng tin cậy hoặc không kịp cập nhật Như vậy, dẫn đường cục bộ thường được cho là chỉ tối ưu trong thời điểm

➢ Dẫn đường riêng: Là khả năng xác định vị trí của các bộ phận cấu thành nên

rô-bốt nhằm khiến cho việc tương tác với các đối tượng ngoài tốt hơn

Ba hệ thống dẫn đường trên có thể được ứng dụng một cách độc lập hoặc sử dụng kết hợp với nhau để bổ sung ưu điểm cho nhau bởi với mỗi một hệ thống đều có những

ưu nhược điểm nhất định.Vai trò hệ thống dẫn đường cho rô-bốt trong nhà

Hệ thống dẫn đường rất quan trọng đối với một rô-bốt di động khảo sát, cứu hộ hiện trường trong nhà Nó giúp rô-bốt di chuyển nhanh hơn đến mục tiêu với những nguy cơ tối thiểu Ví dụ, trong tình huống cứu hộ, thời gian tiếp cận nạn nhân sẽ ảnh

Trang 30

1.2.1 Các hệ thống dẫn đường cho rô-bốt trong nhà

Các hệ thống dẫn đường cho rô-bốt trong nhà được phân thành ba nhóm lớn

Điều hướng dựa trên bản đồ có sẵn: Đây là những hệ thống phụ thuộc vào mô

hình hình học do người dùng tạo hoặc bản đồ tô pô của môi trường

Điều hướng dựa trên xây dựng bản đồ: Đây là những hệ thống sử dụng các cảm

biến để xây dựng các mô hình hình học hoặc tôpô của môi trường và sau đó sử dụng chúng cho việc điều hướng sau này

Điều hướng không bản đồ: Đây là những hệ thống hoàn toàn không sử dụng biểu

diễn rõ ràng nào về không gian diễn ra sự điều hướng, mà là dùng đến việc nhận ra các vật thể tìm thấy trong môi trường hoặc theo dõi các vật thể đó bằng cách tạo ra các chuyển động dựa trên về quan sát trực quan

1.2.1.1 Dẫn đường toàn cục

Dẫn đường toàn cục là khả năng nhận biết vị trí của đối tượng thông qua bản đồ quy chiếu Kể từ khi Hệ thống định vị toàn cầu (GPS) xuất hiện, dẫn đường toàn cục được áp dụng rất nhiều trong cuộc sống

Dẫn đường toàn cục yêu cầu có các thiết bị hỗ trợ từ bên ngoài Các thiết bị hỗ trợ này phải có khả năng xác định chính xác vị trí và ít di chuyển hoặc có thể bổ sung

sự di chuyển của chúng vào việc tính toán vị trí Các hệ thống hỗ trợ này thường yêu cầu có độ chính xác cao dẫn đến tốn kém Nếu không có khả năng vẽ các bản đồ này, việc dẫn đường toàn cục không thể diễn ra kể cả khi các thiết bị hỗ trợ rất hiện đại Thông thường việc này được thực hiện khi sự tính toán cũ không còn áp dụng được nữa

Trang 31

4

1.2.1.2 Dẫn đường cục bộ

Dẫn đường cục bộ là khả năng xác định vị trí của các đối tượng có liên quan để tương tác phù hợp Sự tương tác này cũng bao gồm xác định vị trí của bản thân đối tượng một cách tương đối thông qua các đối tượng còn lại Thông thường, vị trí ở đây là vị trí trong tọa độ cầu với gốc tọa độ là đối tượng chính cần được dẫn đường

Việc dẫn đường cục bộ thường được thực hiện một cách độc lập từ chính đối tượng cần được dẫn đường Dẫn đường cục bộ có tính chính xác không cao bằng dẫn đường toàn cục, tuy nhiên chi phí đầu tư không cần lớn Trong quá trình hoạt động của đối tượng, một bản đồ được tạo nên và cập nhật dựa trên sự dẫn đường cục bộ có thể hỗ trợ việc dẫn đường toàn cục Dẫn đường cục bộ được áp dụng tốt trong trường hợp không gian di chuyển của đối tượng nhiều biến động hoặc không biết trước Ở trong trường hợp này, những bản đồ được vẽ từ trước thường không đáng tin cậy hoặc không kịp cập nhật Như vậy, sự dẫn đường cục bộ thường được cho là tối ưu trong thời điểm

đó

1.2.1.3 Dẫn đường riêng

Là khả năng xác định chính xác vị trí của các bộ phận cấu thành nên rô-bốt để thực hiện tương tác với thế giới ngoài phù hợp Như vậy, hình thức dẫn đường này có mục đích và ứng dụng hoàn toàn khác với các hình thức dẫn đường trên Trong trường hợp này, sơ đồ di chuyển đã được biết trước và thường ít thay đổi Các khả năng quyết định trong dẫn đường cũng sẽ ít hơn

Dẫn đường riêng được áp dụng khi hành động của đối tượng cần được thực hiện một cách chính xác và ít hao tổn Thường thì một hành động sẽ được diễn ra giống nhau trong mọi trường hợp, tuy nhiên khi điều kiện như nhiệt độ, khối lượng… thay đổi ít nhiều sẽ ảnh hưởng tới tính chính xác của hành động Việc định vị các phần cấu thành nên đối tượng sẽ giúp đối tượng điều chỉnh các số liệu điều khiển cho phù hợp với bối cảnh để cho sai số thấp nhất Hoạt động của rô-bốt cứu hộ ảnh hưởng trực tiếp đến mạng sống con người Chính vì thế, độ chính xác của các hành động cũng là một điều rất đáng lưu tâm Hình thức dẫn đường riêng giúp hành động của đối tượng chính xác nên cũng được áp dụng trong rô-bốt cứu hộ

1.2.2 Kiến trúc hệ thống dẫn đường rô-bốt sử dụng thị giác máy tính

Hệ thống dẫn đường sử dụng thị giác máy tính vẫn còn là một lĩnh vực mới mẻ

ở Việt Nam và vẫn đang trong giai đoạn phát triển trên thế giới Áp dụng kỹ thuật này

Trang 32

5

cho rô-bốt, chi phí tính toán sẽ phù hợp với phần cứng và có được nhiều thông tin từ một hệ thống đầu vào duy nhất Hệ thống thị giác máy tính hỗ trợ các thông tin về môi trường cho rô-bốt như vật cản, mặt phẳng, đối tượng ngoài… Thông qua những thông tin này, hệ thống dẫn đường cục bộ tìm đường đi cho rô-bốt và đưa ra các tín hiệu điều khiển phù hợp khác

Với phạm vi hoạt động là môi trường trong nhà chưa biết trước, kiến trúc của hệ thống dẫn đường cho rô-bốt di động như Hình 1.1 Hệ thống được mô tả gồm 3 khối chức năng: khối cảm biến hình ảnh, khối xử lý và cơ cấu chấp hành Máy ảnh nổi sẽ thu nhận hình ảnh từ môi trường vào dưới dạng thông tin hình ảnh Sau đó, bộ xử lý phân tích các hình ảnh thành các bề mặt, các vật cản và đối tượng Các thông tin này sau đó được kết hợp cùng các thông tin khác, được tổng hợp thành một tấm bản đồ mà hệ thống tìm đường có thể hiểu được Hệ thống tìm đường dựa trên bản đồ và mục đích hành động sẽ đưa ra con đường chuẩn cho rô-bốt Qua đó, nó đưa ra các tín hiệu điều khiển cho các cơ cấu chấp hành của rô-bốt thực hiện

Hình 1.1 Hệ thống dẫn đường bằng thị giác cho rô-bốt

Tóm lại, trong phạm vi của luận án, tác giả tập trung nghiên cứu phương pháp phát hiện và trích xuất các mặt phẳng, mặt phẳng đất và các vật cản trong môi trường quan sát bởi hệ thống máy ảnh RGB-D hoặc máy ảnh nổi, từ đó giải quyết bài toán dẫn đường cho rô-bốt di chuyển trong nhà mà chưa có bản đồ Các phương pháp nghiên cứu

đề xuất trong luận án hướng tới tài nguyên tính toán thấp, trong khi vẫn đạt được kết quả chính xác tốt hoặc tốt hơn các phương pháp so sánh

Một số vấn đề của hệ thống rô-bốt dẫn đường dựa trên thị giác nổi

1.3.1 Phương pháp tính toán bản đồ chênh lệch/độ sâu

Vấn đề tương đồng trong ảnh thị giác nổi là tìm các đối tượng tương ứng giữa hai hình ảnh đầu vào [41], [42], được nghiên cứu trong nhiều năm gần đây Đây là một trong những vấn đề cơ bản trong lĩnh vực thị giác máy tính hỗ trợ cho nhiều ứng dụng nghiên cứu thị giác máy tính sâu hơn như nhận dạng đối tượng, trích đặc trưng Cụ thể vấn đề tương đồng ảnh nổi là quá trình tìm kiếm từng điểm trong ảnh bên trái, tương ứng của nó ở bên phải Sự khác biệt giữa khoảng cách ngang và dọc của các điểm này

Máy ảnh RGB-D/

Máy ảnh nổi

Xử lý hình ảnh

Cơ cấu chấp hành

Trang 33

6

gọi là độ chênh lệch Tập hợp giá trị chênh lệch của tất cả các điểm trong ảnh tạo thành bản đồ chênh lệch Bản đồ chênh lệch này về cơ bản có thể chuyển đổi thành bản đồ độ sâu của cảnh quan sát nếu được cung cấp thêm các thông tin về tiêu cự của máy ảnh, khoảng cách giữa hai máy ảnh trái và phải Do đó, các bản đồ chênh lệch đã được sử dụng để giải quyết các vấn đề hiệu quả như tái tạo 3D, định vị, điều hướng rô-bốt di động, tránh chướng ngại vật [43], [44]

Hệ thống tìm bản đồ chênh lệch từ cặp ảnh nổi thường bao gồm bốn bước chính như hình 1.2

Hình 1.2 Hệ thống tính bản đồ chênh lệch điển hình

Bước đầu, các hình ảnh đầu vào được chuẩn hóa để cho phép bù sự lệch các thông

số của hai máy ảnh hoặc các điều kiện trắc quang khác nhau Bước 2, các hình ảnh sau chuẩn hóa được tìm sự tương đồng theo các thuật toán khác nhau Có ba loại kỹ thuật được sử dụng rộng rãi để tìm điểm giống nhau trong cặp ảnh nổi gồm phương pháp dựa trên khu vực [39], [40], phương pháp dựa trên đặc trưng [41] và phương pháp dựa trên pha [42] Các phương pháp dựa trên khu vực gồm thuật toán Tổng sai lệch tuyệt đối (SAD), Tổng sai lệch bình phương (SSD) hoặc Tương quan chéo chuẩn (NCC) Bước

3 là nâng cao độ tin cậy của đối tượng phù hợp bằng các phương pháp kiểm tra độ khác biệt và độ sắc nét Ngoài ra, bước này cũng có thể sử dụng bản đồ phương sai được tính toán trong bước 1 tiền xử lý để loại bỏ các kết quả khớp được tìm thấy ở các khu vực

có kết cấu kém Bước cuối cùng thực hiện sàng lọc điểm phụ theo độ chênh lệch Triển khai dựa trên thuật toán SAD là các kỹ thuật dựa trên khu vực thuận lợi bởi

vì chúng có thể được triển khai một cách đơn giản trên phần cứng bởi thuật toán chỉ gồm các phép cộng và giá trị tuyệt đối Có thể thiết kế song song để xử lý các phạm vi chênh lệch khác nhau, để giảm thời gian tính toán cần thiết [45] Thuật toán tương quan SAD có thể được áp dụng để giải quyết vấn đề phát hiện đối tượng tự động trong điều khiển và lập bản đồ cho rô-bốt (hình 1.3)

Ảnh trái

Tìm sự phù hợp

Bản đồ chênh lệch Ảnh phải

Từ máy

ảnh nổi

Chuẩn hóa xám

Chuẩn hóa

Hiệu chỉnh

Lọc

Trang 34

7

Hình 1.3 Kết quả tính bản đồ chênh lệch thưa thớt áp dụng thuật toán SAD [46]

Chú thích: (a) ảnh màu; (b) ảnh biên; (c) bản đồ chênh lệch thưa thớt Các chấm màu xanh lá cây thể hiện sự chênh lệch không đáng tin cậy

[47] Phương pháp SAD lai (HSAD) có thể tạo ra bản đồ độ sâu có độ chính xác cao Đầu tiên, hình ảnh được loại bỏ nhiễu, làm mịn rồi mới phân đoạn ở giai đoạn hai Hình ảnh được chia thành các phân đoạn bằng thuật toán Dịch trung bình (MS) Các phân đoạn nhỏ được hợp nhất với các phân đoạn liền kề giống nhau nhất bằng phương pháp Lan truyền tin cậy (BP) Cuối cùng là đề xuất tích hợp thuật toán phân đoạn lai được với thuật toán kết hợp âm thanh nổi thu được kết quả minh họa trong hình 1.4 và bảng 1.1

Hình 1.4 Kết quả thử nghiệm trên bốn hình ảnh thang độ xám thử nghiệm [47]

Chú thích: a) Ảnh Books tham chiếu, b) Bản đồ chênh lệch sử dụng thuật toán SAD mà không phân đoạn, c) Bản đồ chênh lệch của thuật toán lai HSAD

Bảng 1.1 Sai số của phương pháp [47]

Kết quả nghiên cứu cho thấy thuật toán tương quan SAD có thể là một sự thay thế tiềm năng cho phương pháp Biến đổi đặc trưng tỷ lệ bất biến (SIFT) do [48] [49]

Trang 35

8

đề xuất trong bài toán chọn lọc mang tính bước ngoặt Mục đích của phương pháp SIFT

là xác định được phép biến đổi gồm các thành phẩn như phép tỷ lệ liên tục, phép xoay

và di chuyển Nhưng giải thuật chỉ giới hạn với những lựa chọn các đặc tính ổn định thì tỏ ra hiệu quả hơn Thông thường, độ chênh lệch được tính như độ dịch chuyển sang bên trái của đặc điểm hình ảnh khi nó được xem với hình ảnh bên phải Việc tính toán bản đồ chênh lệch được thực hiện trên tất cả các điểm ảnh của cặp ảnh nổi nên cách tiếp cận này có thể bị ảnh hưởng bởi vị trí của đối tượng và thời gian trôi qua lớn để xác định điểm tương ứng giữa hai hình ảnh, đặc biệt với kích thước lớn của hình ảnh hoặc khung hình đã chụp

1.3.2 Phương pháp trích xuất đối tượng mặt phẳng dựa trên ảnh thị giác máy tính

1.3.2.1 Phát hiện mặt phẳng sử dụng chuyển đổi Hough

Trong Hình 1.5, một mặt phẳng thuộc không gian (OXYZ) được biểu diễn bằng

phương trình (1.1)

Z = a.X + b.Y +c (1.1)

Hình 1.5 Biểu diễn các thông số của mặt phẳng theo dạng chuẩn [25]

Một điểm (a, b, c) thì có thể được biểu diễn trong không gian tham số (Oabc)

Nếu phương trình phẳng có dạng (1.2), thì nó không thể được biểu diễn trong không

gian tham số vì hệ số trục Z bằng không

Để giải quyết vấn đề này, có thể sử dụng dạng biểu diễn bằng pháp tuyến của mặt phẳng như phương trình (1.3)

cos θ cos φ X + sin θ cos φ Y + sin φ Z = ρ (1.3)

trong đó θ, φ và ρ là các thông số của mặt phẳng pháp tuyến đi qua gốc (Hình 1.5) Vì vậy, θ, φ và ρ là hằng số và không gian tham số là (O θ φ ρ) Trong trường hợp

a X+ b Y + c = 0 (1.2)

P

OZ

Trang 36

9

này, một điểm (X1 , Y1 , Z1) trong không gian 3D đại diện cho một bề mặt hình sin trong

không gian tham số (O θ φ ρ) Đây chính là nguyên lý của biến đổi Phần tiếp theo trình

bày chi tiết thuật toán Hough cơ bản dưới dạng mã giả [25] trong thuật toán 1.1

Thuật toán 1.1: Phát hiện mặt phẳng bằng chuyển đổi Hough 3D

Đầu vào: θ_step, φ_step, ρ_step

Đầu ra: H planes

1: X_min = min(X); Y_min = min(Y); Z_min = min (Z)

2: X_max = max(X); Y_max = max(Y); Z_max = max (Z)

3: Tính Dis_min; Dis_max;

4: θ = từ 0 đến 360, step = θ_step; n_θ = length(θ);

5: φ = từ -90 đến +90, step = φ_step; n_φ = length(φ);

6: n_ ρ = 2* (Dis_max - Dis_min) / ρ_step;

7: ρ = từ Dis_min đến Dis_max; step = ρ _step;

hình sin trong không gian tham số

Trang 37

10

Hình 1.6b cho thấy hình ảnh trực quan của một mặt phẳng nằm ngang trong ma trận 3D H Hình 1.6c minh họa kết quả của việc phát hiện mặt phẳng mái nhà Để cải thiện kết quả này, cần sử dụng các giá trị tham số càng nhỏ càng tốt nhưng thời gian xử

lý và bộ nhớ cần thiết sẽ cao hơn nhiều Mẫu được sử dụng để kiểm định thuật toán là hình ảnh một tòa nhà có nhiều chi tiết (Hình 1.6a) để thử nghiệm cách tiếp cận Phần lớn các mặt phẳng trong ảnh đều nhỏ và mật độ điểm của nó tương đối nhỏ (1,3 điểm/m²)

Hình 1.6 Kết quả phát hiện mặt phẳng mái bằng cách sử dụng biến đổi Hough 3D [25]

Chú thích: (a): Ảnh màu gốc, (b): Mặt phẳng nằm ngang trong ma trận 3D H, (với số mặt phẳng ρ = 75); (c) Ảnh kết quả mặt phẳng

Bước tiếp theo bao gồm phát hiện các đỉnh từ ma trận 3D H như được đánh dấu

bằng các vòng tròn màu đỏ trong Hình 1.6b Mỗi đỉnh đại diện cho một mặt phẳng

trong không gian (OXYZ) Hoạt động này có thể được thực hiện bằng cách tìm kiếm các voxels có giá trị cực đại trong ma trận H và sau đó áp dụng thuật toán phát triển

vùng 3D

1.3.2.2 Phát hiện mặt phẳng sử dụng thuật toán RANSAC

Thuật toán RANSAC một phương pháp lặp để ước tính các tham số của mô hình toán học bắt đầu từ một tập hợp dữ liệu chứa các ngoại lệ Đây là một thuật toán không xác định, nghĩa là nó tạo ra một kết quả chính xác chỉ với một xác suất nhất định, sẽ tăng lên khi số lần lặp được phép tăng lên Thuật toán được xuất bản lần đầu tiên bởi Fischler và Bolles vào năm 1981 [50] Thuật toán RANSAC này cần bốn dữ liệu đầu vào gồm:

1 Đám mây điểm 3D (point_list) là ma trận ba cột gồm tọa độ (X, Y , Z)

2 Ngưỡng dung sai của khoảng cách t giữa mặt phẳng đã chọn và các điểm khác

Giá trị của nó liên quan đến độ chính xác cao của đám mây điểm

Trang 38

11

3 forseeable_support là số điểm tối đa của cùng một mặt phẳng Nó được suy ra từ

mật độ điểm và bề mặt mặt phẳng mái có thể dự đoán tối đa

4 Xác suất α là xác suất tối thiểu tìm thấy ít nhất một bộ quan sát tốt trong N các

thử nghiệm Nó thường nằm trong khoảng từ 0,90 đến 0,99

Thuật toán 1.2 [25] minh họa chi tiết cách thức làm việc của RANSAC cơ bản

để phát hiện các mặt phẳng trong tập điểm cho trước

Trong mã lệnh giả này, ε là một tỷ lệ phần trăm các quan sát được phép sai; hàm

pts2plane tính toán các thông số mặt phẳng từ ba điểm được chọn Nên sử dụng dạng

pháp tuyến của mặt phẳng thay vì dạng cổ điển (xem công thức (1.3)) để xem xét biểu

thức chung của mặt phẳng Hàm dist2plan tính toán khoảng cách giữa tập điểm và mặt

phẳng đã cho Khoảng cách này được đưa ra trong phương trình (1.4)

dist2plan = cos θ cos φX + sinθcosφY + sinφZ -ρ (1.4)

trong đó X, Y và Z là ba cột của ma trận point-list θ, φ và ρ là các tham số mặt phẳng Giá trị khoảng cách dist2plan có thể nhận giá trị âm hoặc dương

Thuật toán 1.2: Phát hiện mặt phẳng dùng RANSAC

Đầu vào: point_list, α

Đầu ra: bestPlan, bestStd

Trang 39

12

Dòng thứ 11 trong thuật toán 2 là dòng lệnh thiết yếu, bởi vì nó đại diện cho một bộ lọc mà cho phép chấp nhận hoặc từ chối mặt phẳng ứng cử vừa được tính toán Thật vậy, điều kiện lọc được sử dụng là số lượng điểm thuộc mặt phẳng được tính toán Sau

đó, thuật toán chấp nhận mặt phẳng mới nếu nó chứa nhiều điểm hơn so với mặt phẳng được tính toán cuối cùng, nếu không mặt phẳng mới sẽ bị loại bỏ

Sau khi thử nghiệm, ta thấy rằng điều kiện tốt nhất để xác thực phát hiện mặt phẳng

có giá trị là phải tính đến không chỉ số lượng điểm của mặt phẳng, mà còn đồng thời xem xét cả thông số độ lệch chuẩn Việc sử dụng độ lệch chuẩn làm giảm ảnh hưởng

tiêu cực của ngưỡng dung sai khoảng cách t Ngưỡng này cho phép chấp nhận toàn bộ các điểm có khoảng cách tới mặt phẳng nhỏ hơn t

Ví dụ, chúng ta hãy lấy một mặt phẳng "xấu" không đại diện cho mặt phẳng mái, với độ lệch chuẩn lớn và chứa một số lượng lớn các điểm Nếu áp dụng điều kiện số lượng điểm tối thiểu thì thuật toán RANSAC sẽ không chấp nhận một mặt phẳng khác

để thay thế nó Để giải quyết vấn đề này, một ngưỡng mới được đưa vào thuật toán

được xác định là số điểm của mặt phẳng có thể dự đoán nhỏ nhất (PN_S) Nó bằng với

bề mặt mặt phẳng nhỏ nhất có thể dự đoán trước được thông qua thông tin mật độ điểm Như vậy, dòng lệnh thứ 11 trong thuật toán RANSAC trở thành (1.5) Sau sửa đổi này,

tỷ lệ kết quả thành công đạt được bằng việc áp dụng thuật toán RANSAC được điều

Trang 40

13

Việc áp dụng thuật toán RANSAC cho phép phát hiện các mặt phẳng trong ảnh thị giác Mặt phẳng kết quả bao gồm mặt phẳng có giá trị và các điểm nhiễu thuộc về các mặt phẳng khác và có một số điểm bị mất như trong Hình 1.7b Các điểm nhiễu này cần được loại bỏ khỏi mặt phẳng thật vừa được phát hiện và phải được gán lại cho đám mây điểm ban đầu Những điểm bị mất phải được thêm vào mặt phẳng được phát hiện

để nâng cao tính đầy đủ của phép trích xuất mặt phẳng Đồng thời, các điểm này cũng được tách ra từ đám mây điểm ban đầu Do đó giải thuật RANSAC áp dụng để trích xuất mặt phẳng chưa chứng minh được tính mạnh mẽ trừ phi cần thêm các giải pháp khắc phục Ngoài ra kết quả trực quan trên chưa có chứng minh độ ổn định của thuật toán mà cần có các số liệu đánh giá khách quan Hơn nữa, mặc dù ảnh gốc có, nhưng không rõ trong ảnh gốc thực sự có bao nhiêu mặt phẳng do không có kết quả trích xuất mặt phẳng tham chiếu

1.3.2.3 Phát hiện mặt phẳng sử dụng bộ phát hiện đoạn thẳng

Công cụ ước tính mặt phẳng mạnh mẽ dựa trên RANSAC [51] hoặc biến đổi Hough [52] đã được sử dụng rộng rãi trong nghiên cứu thị giác nổi nhưng dường như không phù hợp với trường hợp khi số lượng mặt phẳng rất nhiều Trong [6], sự đồng nhất và định hướng cục bộ được kết hợp với RANSAC để phù hợp với các mô hình với

dữ liệu 3D dày đặc, nhưng một số ngưỡng phải được điều chỉnh để có kết quả tốt Một trong những thách thức phải vượt qua khi sử dụng RANSAC là ban đầu nó được thiết

kế để chỉ phát hiện một đối tượng trong số các ngoại lệ Như đã chỉ ra trong [51] [52], hầu hết các phương thức đều có xu hướng thất bại trong các trường hợp xuất hiện bóng của các đối tượng

Phương pháp phát hiện mặt phẳng sử dụng Bộ phát hiện đoạn thẳng (LSD) [7] tránh sử dụng các mô hình phức tạp và cung cấp tìm kiếm nhanh hơn các vùng phẳng với giá trị lỗi tương tự so với các phương pháp được mô tả trong [53] và [6] kết hợp với tiêu chí quyết định của [53] như được minh họa trong Hình 1 Mục tiêu thứ hai của [7] là đưa ra ước tính tự động về độ chính xác của các điểm Đây là ưu điểm chính của phương pháp này đối với các phương pháp RANSAC trong đó tham số độ chính xác là rất quan trọng để thu được kết quả tốt Trong [7], các tác giả đưa ra một tiêu chí thống

kê để quyết định xem một nhóm điểm có thể được coi là phẳng hay không Thủ tục chia tách/hợp nhất mảnh phẳng sử dụng tiêu chí này được đề xuất để tìm các mảnh phẳng của bản đồ chênh lệch Tuy nhiên, thủ tục này được tính toán chuyên sâu cho các cảnh phẳng phức tạp

Hình 1.8 và bảng 1.2 minh họa một số kết quả của phương pháp [7]

Định dạng
Số trang	137
Dung lượng	2,92 MB