Thuật toán xử lý trong hệ thống thị giác nổi dùng stereo camera bao gồm các thuật toán hiệu chuẩn calibration camera, thuật toán hiệu chỉnh rectification ảnh và thuật toán so khớp corres
Trang 1VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ
ĐOÀN VĂN TUẤN
NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ XỬ LÝ TÍN HIỆU TRONG HỆ THỐNG THỊ GIÁC NỔI
LUẬN ÁN TIẾN SĨ KỸ THUẬT
HÀ NỘI – 2019
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG
VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ
ĐOÀN VĂN TUẤN
NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ XỬ LÝ TÍN HIỆU TRONG HỆ THỐNG THỊ GIÁC NỔI Chuyên ngành: Kỹ thuật điện tử
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của tôi Các số liệu, kết quả trình bày trong luận án là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác Các dữ liệu tham khảo được trích dẫn đầy đủ
NGƯỜI CAM ĐOAN
Đoàn Văn Tuấn
Trang 4LỜI CẢM ƠN
Đầu tiên tôi xin gửi lời cảm ơn chân thành tới thầy: TS Hà Hữu Huy, Viện Điện tử - Viện Khoa học và Công nghệ quân sự và thầy PGS TS Bùi Trung Thành – Hiệu trưởng, Trường Đại học Sư phạm Kỹ thuật Hưng Yên đã trực tiếp hướng dẫn, tận tình chỉ bảo, tạo điều kiện tốt nhất để tôi hoàn thành luận án này
Tôi xin chân thành cảm ơn Ban Giám Đốc Viện Khoa học và Công Nghệ Quân Sự Bộ Quốc phòng, Phòng Đào Tạo và Viện Điện Tử đã tạo điều kiện thuận lợi giúp tôi hoàn thành nhiệm vụ và đạt kết quả mong muốn
Xin chân thành cảm ơn Đảng Ủy, Ban Giám Hiệu và Ban Chủ Nhiệm Khoa Điện – Điện Tử trường Đại Học Sư Phạm Kỹ Thuật Hưng Yên, nơi tôi đang công tác, đã tạo điều kiện để tôi hoàn thành nhiệm vụ
Xin cảm ơn các chuyên gia, các nhà khoa học, các bạn đồng nghiệp và Ban Giám Đốc trung tâm Quang Điện Tử thuộc Viện Công Nghệ Ứng dụng C6 Thanh Xuân Bắc- Hà Nội đã trực tiếp đóng góp nhiều ý kiến quý báu, giúp tôi vượt qua khó khăn để hoàn thành luận án
Cuối cùng xin gửi lời cảm ơn tới mọi thành viên trong gia đình, đặc biệt là vợ và hai con, những người đã tạo mọi điều kiện về thời gian, vật chất
và hết lòng chăm sóc, động viên về tinh thần để tôi tập trung nghiên cứu hoàn thành luận án
Trang 5MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT viii
DANH MỤC CÁC BẢNG xi
DANH MỤC CÁC HÌNH VẼ xii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ THỊ GIÁC NỔI VÀ XỬ LÝ TÍN HIỆU TRONG HỆ THỐNG THỊ GIÁC NỔI 8
1.1 Tổng quan thị giác nổi 8
1.1.1 Một số khái niệm 11
1.1.2 Hệ thống thị giác nổi 12
1.2 Mô hình camera 18
1.3 Phương pháp hiệu chuẩn camera 19
1.3.1 Phương pháp hiệu chuẩn Hall 19
1.3.2 Phương pháp hiệu chuẩn Salvi 19
1.3.3 Phương pháp hiệu chuẩn Tsai 19
1.3.4 Phương pháp hiệu chuẩn Weng 20
1.4 Phương pháp hiệu chỉnh ảnh 20
1.5 Các thuật toán so khớp 22
1.5.1 Các thuật toán so khớp cục bộ 23
1.5.2 Các thuật toán so khớp toàn cục 24
1.6 Nền tảng xử lý trong hệ thống thị giác nổi 27
1.6.1 Nền tảng xử lý dùng CPU 28
1.6.2 Nền tảng xử lý dùng DSP 29
1.6.3 Nền tảng xử lý dùng GPU 29
1.6.4 Nền tảng xử lý dùng FPGA/ASIC 30
1.7 Đánh giá hệ thống thị giác nổi 31
Trang
Trang 61.8 Các hướng nghiên cứu nhằm nâng cao hiệu quả của hệ thống
thị giác nổi 33
1.8.1 Phương pháp phân đoạn ảnh và tối ưu hóa phân cấp 34
1.8.2 Điều chỉnh vùng đồng nhất và không nhìn thấy 35
1.8.3 Phương pháp cải thiện tối thiểu hàm chi phí cho sự so khớp của điểm ảnh 35
1.8.4 Phương pháp tối ưu hóa liên kết 35
1.8.5 Phương pháp sắp xếp bộ nhớ hiệu quả 36
1.8.6 Phương pháp cải tiến thiết kế VLSI 36
1.9 Kết luận chương 1 37
CHƯƠNG 2: NGHIÊN CỨU CÁC THUẬT TOÁN LAN TRUYỀN
TIN CẬY BP VÀ XÂY DỰNG CÁC GIẢI PHÁP NÂNG CAO TỐC ĐỘ XỬ LÝ TRONG HỆ THỐNG THỊ GIÁC NỔI 39
2.1 Trường ngẫu nhiên Markov 39
2.1.1 Định nghĩa trường ngẫu nhiên Markov 42
2.1.2 Mô hình trường ngẫu nhiên Markov dạng lưới 43
2.1.3.Mô hình trường ngẫu nhiên Markov dạng lưới ẩn 45
2.1.4 Mô hình trường ngẫu nhiên Markov dạng cây 46
2.1.5 Ứng dụng trường ngẫu nhiên Markov cho thị giác nổi 47
2.2 Thuật toán lan truyền tin cậy BP ứng dụng cho thị giác nổi 47
2.2.1 Thuật toán lan truyền tin cậy BP dạng cây 47
2.2.2 Thuật toán lan truyền tin cậy BP dạng lưới 48
2.3 Thuật toán cục bộ CT 59
2.4 Các giải pháp cải tiến tốc độ xử lý của thuật toán BP 60
2.5 Đề xuất giải pháp tối thiểu hàm chi phí 61
2.5.1 Thuật toán đề xuất 1 61
2.5.2 Thuật toán đề xuất 2 68
Trang 72.6 Đề xuất giải pháp kết hợp 73
2.6.1 Thuật toán đề xuất 3 74
2.6.2 Thuật toán đề xuất 4 79
2.7 Phương pháp đánh giá thuật toán 84
2.8 Kết luận chương 2 84
CHƯƠNG 3 THỰC NGHIỆM CÁC THUẬT TOÁN ĐỀ XUẤT VÀ ĐÁNH GIÁ KẾT QUẢ 87
3.1 Công cụ và dữ liệu thực nghiệm 87
3.2 Chỉ số đánh giá độ tin cậy RMSE 88
3.3 Kết quả thực nghiệm 89
3.3.1 Thuật toán BP tiêu chuẩn 90
3.3.2 Thuật toán đề xuất 1 92
3.3.3 Thuật toán đề xuất 2 94
3.3.4 Thuật toán đề xuất 3 96
3.3.5 Thuật toán đề xuất 4 99
3.4 Đánh giá thuật toán đề xuất 101
3.4.1 Đánh giá thuật toán đề xuất 1 và thuật toán BP 101
3.4.2 Đánh giá thuật toán đề xuất 2 và thuật toán BP 106
3.4.3 Đánh giá thuật toán đề xuất 3 và thuật toán BP 110
3.4.4 Đánh giá thuật toán đề xuất 4 và thuật toán BP 114
3.4.5 So sánh các thuật toán đề xuất 118
3.5 Kết luận chương 3 121
KẾT LUẬN 122
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 124
TÀI LIỆU THAM KHẢO 125
Trang 8DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
G Mô hình đồ thị biểu diễn bản đồ chênh lệch
i,j Biểu diễn nút thứ i và nút lân cận j
của thuật toán BP và các thuật toán đề xuất tương ứng
' ''
2, 2
k k Số lần thực hiện chia thô đến mịn CTF mức 1 của thuật
toán đề xuất 1 và thuật toán đề xuất 2
' ''
1, 1
k k Số vòng lặp thực hiện trong CTF của thuật toán đề xuất 1
và thuật toán đề xuất 2
m Độ phân giải hàng của ảnh stereo camera
' '' ''' ''''
thuật toán đề xuất tương ứng
n Độ phân giải cột của ảnh stereo camera
N Tổng số các nút trong ảnh stereo camera
Hàm chi phí cho nút i và nút lân cận j của thuật toán BP
và các thuật toán đề xuất tương ứng
Trang 9' '' ''' ''''
Hàm chi phí nhẵn cho hai nút cạnh nhau của thuật toán
BP và các thuật toán đề xuất tương ứng
' '' ''' ''''
, , , ,
p p p p p Hệ số tỉ lệ tăng của hàm chi phí nhẵn của thuật toán BP
và các thuật toán đề xuất tương ứng
' '' ''' ''''
, , , ,
q q q q q Ngưỡng dừng tăng của hàm chi phí nhẵn của thuật toán
BP và các thuật toán đề xuất tương ứng
x x x x x Giá trị nhãn được chọn gán cho nút j của thuật toán BP và
các thuật toán đề xuất tương ứng
2 Chữ viết tắt Ý nghĩa
ASIC Các mạch tích hợp ứng dụng riêng (Application Specific
Integrated circuits)
BP Lan truyền tin cậy (Belief propagation)
CFBP Lan truyền tin cậy dùng chia thô đến mịn (Coarse to fine
belief propagation)
CFCSBP Lan truyền tin cậy có độ sâu thay đổi dùng chia thô đến
mịn (Coarse to fine change space belief propagation)
CPU Khối xử lý trung tâm (Central processing unit)
CT Biến đổi thống kê (Census tranform)
CTBP Lan truyền tin cậy kết hợp biến đổi thống kê (Census
transform belief propagation)
CTCSBP Lan truyền tin cậy có độ sâu thay đổi kết hợp biến đổi thống kê
(Census transform change space belief propagation)
CTF Chia thô đến mịn ( Coarse to fine)
CUDA Kiến trúc thiết bị tính toán hợp nhất (Compute unified
device architecture)
Trang 10DP Quy hoạch động (Dynamic programming)
DSP Vi xử lý tín hiệu số (Digital signal processing)
EPT Biến đổi điểm đường bao ( Envelope point transform)
FPGA Mảng cổng lập trình dạng trường (Field programmable
gate array)
GC Lát cắt đồ thị (Graph cut)
GPU Khối xử lý đồ họa (Graphic processing unit)
HBP Lan truyền tin cậy phân cấp (Hierarchical belief propagation)
ICM Các chế độ lặp ( Iterated conditional modes)
MAP Xác suất hậu nghiệm (Maximum a posteriori)
MRF Trường ngẫu nhiên Markov (Markov random field)
NCC Chuẩn hóa tương quan chéo ( Normalized cross correlation)
SAD Tổng chênh lệch tuyệt đối ( Sum of absolute different)
SGM Bán toàn cục (Semi - Global matching)
SIFT Biến đổi đặc trưng bất biến tỉ lệ (Scale Invariant feature
transform)
SLAM Đồng thời xây dựng bản đồ và định vị (Simultaneous
localization and mapping)
SURF Đặc trưng tăng tốc mạnh (Speed up robust feature)
'' ''''
,
Z Z Hệ số độ sâu thay đổi độ sâu của thuật toán đề xuất 2 và
thuật toán đề xuất 4
Trang 11DANH MỤC CÁC BẢNG
Bảng 3.1 Mô tả cấu hình PC Desktop 87
Bảng 3.2 Tập dữ liệu kiểm thử 88
Bảng 3.3 Tốc độ thực hiện của thuật toán BP 90
Bảng 3.4 Độ tin cậy của thuật toán BP theo RMSE 91
Bảng 3.5 Dung lƣợng bộ nhớ yêu cầu của thuật toán BP 91
Bảng 3.6 Tốc độ thực hiện của thuật toán đề xuất 1 92
Bảng 3.7 Độ tin cậy của thuật toán đề xuất 1 theo RMSE 93
Bảng 3.8 Dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 1 94
Bảng 3.9 Tốc độ thực hiện của thuật toán đề xuất 2 94
Bảng 3.10 Độ tin cậy của thuật toán đề xuất 2 theo RMSE 95
Bảng 3.11 Dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 2 96
Bảng 3.12 Tốc độ thực hiện của thuật toán đề xuất 3 97
Bảng 3.13 Độ tin cậy của thuật toán đề xuất 3 theo RMSE 97
Bảng 3.14 Dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 3 99
Bảng 3.15 Tốc độ thực hiện của thuật toán đề xuất 4 99
Bảng 3.16 Độ tin cậy của thuật toán đề xuất 4 theo RMSE 100
Bảng 3.17 Dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 4 101
Bảng 3.18 So sánh tốc độ thực hiện của thuật toán 1 và BP 102
Bảng 3.19 So sánh độ tin cậy của thuật toán đề xuất 1 và BP theo RMSE 103
Bảng 3.20 So sánh dung lƣợng bộ nhớ yêu cầu của thuật toán 1 và BP 105
Bảng 3.21 So sánh tốc độ thực hiện của thuật toán đề xuất 2 và BP 107
Bảng 3.22 So sánh độ tin cậy của thuật toán đề xuất 2 và BP theo RMSE 108
Bảng 3.23 So sánh dung lƣợng bộ nhớ yêu cầu thực hiện của thuật toán
đề xuất 2 và thuật toán BP 109
Bảng 3.24 So sánh tốc độ thực hiện của thuật toán đề xuất 3 và BP 111
Bảng 3.25 So sánh độ tin cậy của thuật toán đề xuất 3 và BP theo RMSE 113
Bảng 3.26 So sánh tốc độ thực hiện của thuật toán đề xuất 4 và BP 115
Bảng 3.27 So sánh độ tin cậy của thuật toán đề xuất 4 và BP theo RMSE 116
Bảng 3.28 So sánh dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 4 và thuật toán BP 117
Bảng 3.29 So sánh tốc độ thực hiện của các thuật toán đề xuất 119
Trang
Trang 12DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Sơ đồ khối hệ thống thị giác nổi 9
Hình 1.2 Stereo camera 12
Hình 1.3 Các mẫu hiệu chuẩn dùng kỹ thuật bàn cờ 13
Hình 1.4 Các bước xoay ảnh stereo camera để hiệu chỉnh 14
Hình 1.5 Cặp điểm tương ứng của ảnh stereo camera 15
Hình 1.6 Sự khác nhau giữa thuật toán so khớp 15
Hình 1.7 Sơ đồ điểm ảnh trên trục toạ độ 3 chiều 16
Hình 1.8 Sơ đồ tham chiếu điểm ảnh 2D từ 3D 16
Hình 1.9 Sơ đồ hình chiếu của điểm ảnh lên mặt quan sát 18
Hình 2.1 Mô hình đồ thị trường ngẫu nhiên Markov 41
Hình 2.2 Mô hình trường ngẫu nhiên Markov dạng lưới 44
Hình 2.3 Mô hình Markov dạng lưới ẩn 45
Hình 2.4 Mô hình MRF dạng cây 46
Hình 2.5 Sơ đồ mô hình MRF dạng lưới 52
Hình 2.6 Sơ đồ hai nhánh của HBP 53
Hình 2.7 Sơ đồ cập nhật của thông điệp 54
Hình 2.8 Sơ đồ hiển thị nhãn 55
Hình 2.9 Sơ đồ mô hình đồ thị BBP: 55
Hình 2.10 Sơ đồ biến đổi lớp của HFBP 56
Hình 2.11 Sơ đồ mô hình 56
Hình 2.12 Sơ đồ đường bao thông điệp của Tile_BP 57
Hình 2.13 Sơ đồ mô hình thuật toán CSBP 58
Hình 2.14 Sơ đồ thuật toán Improved BP 58
Hình 2.15 Sơ đồ biến đổi CT với cửa sổ 3x3 và khoảng cách Hamming 59
Hình 2.16 Sơ đồ mô hình thuật toán đề xuất 1 62
Hình 2.17 Sơ đồ cấu trúc chia thô đến mịn mức 1 62
Hình 2.18 Sơ đồ lan truyền thông điệp 63
Hình 2.19 Lưu đồ giải thuật cho thuật toán đề xuất 1 67
Trang
Trang 13Hình 2.20 Sơ đồ mô hình thuật toán đề xuất 2 68
Hình 2.21 Lưu đồ giải thuật cho thuật toán đề xuất 2 72
Hình 2.22 Sơ đồ mô hình thuật toán đề xuất 3 74
Hình 2.23 Lưu đồ giải thuật cho thuật toán đề xuất 3 78
Hình 2.24 Sơ đồ mô hình thuật toán đề xuất 4 79
Hình 2.25 Lưu đồ giải thuật cho thuật toán đề xuất 4 83
Hình 3.1 Hệ thống thực nghiệm 87
Hình 3.2 Bản đồ chênh lệch dùng thuật toán BP 90
Hình 3.3 Bản đồ chênh lệch dùng thuật toán đề xuất 1 92
Hình 3.4 Bản đồ chênh lệch dùng thuật toán đề xuất 2 94
Hình 3.5 Bản đồ chênh lệch dùng thuật toán đề xuất 3 97
Hình 3.6 Bản đồ chênh lệch dùng thuật toán đề xuất 4 99
Biểu đồ 3.1 So sánh tốc độ của thuật toán đề xuất 1 và BP 103
Biểu đồ 3.2 So sánh độ tin cậy của thuật toán đề xuất 1 và BP theo RMSE 104
Biểu đồ 3.3 So sánh dung lượng bộ nhớ yêu cầu của thuật toán đề xuất 1 và thuật toán BP 105
Biểu đồ 3.4 So sánh tốc độ của thuật toán đề xuất 2 và thuật toán BP 107
Biểu đồ 3.5 So sánh độ tin cậy của thuật toán đề xuất 2 và BP theo RMSE 108
Biểu đồ 3.6 So sánh dung lượng bộ nhớ yêu cầu của thuật toán đề xuất 2 và thuật toán BP 110
Biểu đồ 3.7 So sánh tốc độ của thuật toán đề xuất 3 và thuật toán BP 112
Biểu đồ 3.8 So sánh độ tin cậy của thuật toán đề xuất 3 và BP theo RMSE 113
Biểu đồ 3.9 So sánh tốc độ của thuật toán đề xuất 4 và thuật toán BP 115
Biểu đồ 3.10 So sánh độ tin cậy của thuật toán đề xuất 4 và BP theo RMSE 116
Biểu đồ 3.11 So sánh dung lượng bộ nhớ yêu cầu của thuật toán đề xuất 4 và thuật toán BP 118
Biểu đồ 3.12 So sánh tốc độ thực hiện của các thuật toán đề xuất 119
Biểu đồ 3.13 So sánh độ tin cậy của các thuật toán đề xuất theo RMSE 120
Biểu đồ 3.14 So sánh dung lượng bộ nhớ yêu cầu của các thuật toán đề xuất 120
Trang 14MỞ ĐẦU
1 Tính cấp thiết của đề tài
Ngày nay, khoa học kỹ thuật phát triển mạnh mẽ điển hình là cuộc cách mạng công nghiệp 4.0 được khởi xướng từ nước Đức năm 2013 Một trong các yếu tố làm nên cuộc cách mạng công nghiệp 4.0 là robot sẽ dần thay sức lao động của con người và cùng con người làm việc trong các nhà máy, công xưởng Do đó, robot phải xử lý thông tin trong môi trường 3 chiều (3D) thông qua hệ thống thị giác để định hướng, định vị, nhận dạng và xác định chính xác
vị trí các vật xung quanh được gọi là thị giác nổi (stereo vision) hay thị giác
robot 3D Ngoài ra, thị giác nổi còn được ứng dụng trong nhận dạng, tái tạo, định vị, phẫu thuật, xe tự hành, xây dựng bản đồ và trong nghệ thuật
Con người mong muốn tạo ra được hệ thị giác Robot giống như thị giác của con người, hệ thị giác đơn giản nhất là sử dụng stereo camera bao gồm hai camera thay cho hai mắt của con người kết hợp với hệ thống nhúng xử lý
dữ liệu đóng vai trò như bộ não Thông tin ảnh stereo camera được xử lý
thông qua các thuật toán trên nền tảng xử lý như khối xử lý trung tâm (CPU: central processing unit), vi xử lý tín hiệu số (DSP: digital signal processing), khối xử lý đồ họa (GPU: graphic processing unit), mảng cổng lập trình dạng trường (FPGA: field programmable gate array) và các mạch tích hợp ứng dụng riêng (ASIC: application specific integrated circuits) kết hợp với các ngôn ngữ thực hiện như Matlab, OpenCV (open computer vision), kiến trúc thiết bị tính toán hợp nhất (CUDA: compute unified device architecture) … Một hệ thống như vậy được gọi là hệ thống thị giác nổi (stereo vision system)
Các thách thức lớn đối với hệ thống thị giác nổi dùng stereo camera là nguồn
dữ liệu từ ảnh stereo camera ngày càng tăng, tốc độ thực hiện đòi hỏi đáp ứng thời gian thực, độ tin cậy cao và dung lượng bộ nhớ hữu hạn Để giải quyết bài toán này, một trong các giải pháp hiệu quả nhất là phát triển các thuật toán
Trang 15xử lý, trong khi các nền tảng xử lý chưa phát triển kịp theo nhu cầu của con người
Thuật toán xử lý trong hệ thống thị giác nổi dùng stereo camera bao
gồm các thuật toán hiệu chuẩn (calibration) camera, thuật toán hiệu chỉnh (rectification) ảnh và thuật toán so khớp (correspondence) Thuật toán hiệu
chuẩn camera dùng để xác định các thông số bên trong và bên ngoài camera
như tiêu cự f Thuật toán hiệu chỉnh ảnh dùng để sửa méo ống kính của ảnh
Thuật toán so khớp được dùng để tìm điểm tương ứng (Stereo correspondence)
của điểm ảnh trên ảnh trái và ảnh phải của ảnh stereo camera, từ đó xác định được thông tin độ chênh lệch của điểm tương ứng cũng như bản đồ độ chênh
lệch (disparity map) của ảnh stereo camera Từ dữ liệu về độ chênh lệch sẽ
xác định được độ sâu, khoảng cách của đối tượng Trong các thuật toán xử lý thì thuật toán so khớp có ảnh hưởng nhất đến chất lượng của hệ thống thị giác nổi dùng stereo camera
Ngoài thông tin lấy từ ảnh, thị giác robot 3D có thể lấy thông tin từ các nguồn khác như cảm biến ánh sáng và laze Bài toán xử lý thông tin từ ảnh là bài toán rất khó và không xác định bởi vì ảnh có các vùng đồng nhất, vùng bị che và đặc biệt bị ảnh hưởng rất nhiều từ môi trường xung quanh như ánh sáng
Thị giác robot 3D được phân loại thành hai hệ thống: một là hệ thống thụ động bao gồm camera đơn, stereo camera, cảm biến ánh sáng và hai là hệ thống chủ động như cảm biến laze Mỗi hệ thống đều có ưu điểm và nhược điểm Tuy nhiên, để hệ thống vừa xác định được khoảng cách và tái tạo được vật thể hệ thống thụ động dùng stereo camera có ưu điểm nhất
Stereo camera được dùng trong hệ thống thị giác nổi được phân loại thành hai loại là stereo camera có độ phân giải cao, mật độ điểm tương ứng
thưa (sparse) và stereo camera có độ phân giải cao, mật độ điểm tương ứng
Trang 16dày (dense) Đối với mỗi loại stereo camera thì có các thuật toán so khớp
tương ứng Các thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng thưa có tốc độ tính toán nhanh và yêu cầu bộ nhớ thấp tuy nhiên có hạn chế là độ tin cậy thấp, không thực hiện được ở ảnh các vùng giống nhau và không quan sát được Các thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dày có ưu điểm là độ tin cậy cao tuy nhiên độ phức tạp tính toán và dung lượng bộ nhớ yêu cầu lớn
Các thuật toán so khớp thực hiện bản đồ độ chênh lệch của stereo camera có độ phân giải cao, mật độ các điểm tương ứng dầy bao gồm thuật
toán cục bộ (local) và thuật toán toàn cục (global) Thuật toán cục bộ có độ
phức tạp tính toán và yêu cầu bộ nhớ thấp nhưng độ tin cậy cũng thấp so với thuật toán toàn cục
Ở trong nước, đã có một số tác giả nghiên cứu ứng dụng thị giác 3D cho robot như tác giả Bạch Ngọc Minh [4] trường Đại học Quốc gia Hà Nội
đã nghiên cứu so sánh các thuật toán xử lý thông tin ảnh stereo camera cho hệ thống thị giác nổi và tác giả Nguyễn Quang Hùng [3] trung tâm MICA thuộc trường Đại học Bách khoa Hà Nội đã ứng dụng thị giác nổi dùng camera hỗ trợ cho người khiếm thị Ngoài ra, tác giả Trương Quốc Bảo [1] trường Đại học Cần thơ đã áp dụng thị giác nổi trong nông nghiệp như thu hoạch cà chua
và tác giả Trần Thuận Hoàng [2] trường đại học Quốc gia đã nghiên cứu các camera dẫn đường cho robot đi động
Ở ngoài nước, vấn đề thị giác nổi đã và đang được nghiên cứu và phát
triển mạnh như [25], [64], [87], [100], [106] Tác giả R Szeliski và D Scharstein [29] đã so sánh đánh giá một số lượng lớn các thuật toán thị giác
nổi trên cùng một hệ thống xử lý và cùng sử dụng tập dữ liệu kiểm thử Ngoài
ra, tác giả R Szeliski còn xây dựng bộ ảnh stereo camera kiểm thử được rất
nhiều nhà nghiên cứu sử dụng để thử nghiệm khi nghiên cứu, cải tiến thuật
Trang 17toán so khớp [30] Một số thuật toán so khớp được dùng cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng thưa như SIFT [10], SURF [66] đã được nghiên cứu và phát triển Các thuật toán này hoạt động dựa trên các đặc trưng của ảnh dẫn đến tốc độ thực hiện nhanh, dung lượng bộ nhớ yêu cầu thấp như phải trả giá về độ tin cậy thấp như không thực hiện được ở các vùng ảnh đồng nhất, các vùng ảnh không quan sát được Để khắc phục nhược điểm này, các thuật toán so khớp dùng cho ảnh stereo camera có
độ phân giải cao, mật độ điểm tương ứng dày được nghiên cứu và phát triển như SAD [15], BP [104] và DP [110] Các thuật toán này hoạt động với ảnh
có mật độ điểm tương ứng dầy dẫn đến độ tin cậy cao, có thể thực hiện xử lý trên các vùng ảnh đồng nhất, vùng ảnh không quan sát được tuy nhiên, nó cũng phải trả giá bằng tốc độ thực hiện chậm cũng như dung lượng bộ nhớ yêu cầu lớn
Từ những phân tích trên, để góp phần giải quyết một số vấn đề nâng cao chất lượng và tốc độ trong hệ thống thị giác nổi đáp ứng về yêu cầu bộ nhớ, đảm bảo độ tin cậy, nghiên cứu sinh lựa chọn đề tài luận án là:
“Nghiên cứu giải pháp nâng cao tốc độ xử lý tín hiệu trong hệ thống thị giác nổi”
Luận án sẽ đề xuất các giải pháp để giải quyết bài toán nâng cao tốc độ
xử lý tín hiệu và giảm dung lượng bộ nhớ yêu cầu trong hệ thống thị giác nổi
dùng stereo camera có độ phân dải cao, mật độ điểm tương ứng dày
2 Mục tiêu nghiên cứu
Nghiên cứu các giải pháp cụ thể để cải tiến thuật toán lan truyền tin cậy
BP (Belief Propagation) nhằm tăng tốc độ thực hiện và giảm dung lượng bộ
nhớ yêu cầu khi thực hiện bản đồ độ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dày trong hệ thống thị giác nổi ứng dụng cho thị giác robot 3D
Trang 183 Đối tượng, phạm vi nghiên cứu
- Luận án tập trung nghiên cứu thị giác nổi dùng stereo camera và ứng dụng thị giác nổi vào thị giác robot làm việc trong môi trường 3 chiều
- Luận án tập trung nghiên cứu giải pháp giảm năng lượng chi phí của thuật toán toàn cục lan truyền tin cậy BP thực hiện bản đồ độ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy
- Ảnh stereo camera được lấy từ tập dữ liệu kiểm thử [30]
- Nghiên cứu, đề xuất giải pháp cải tiến thuật toán lan truyền tin cậy BP nhằm nâng cao hiệu quả thực hiện bản đồ độ chênh lệch
- Thực hiện các thuật toán đề xuất trên nền tảng xử lý GPU GTX 750Ti [71] và ngôn ngữ CUDA [70]
4 Phương pháp nghiên cứu
Luận án tập trung nghiên cứu giải pháp tối thiểu hàm chi phí của thuật toán lan truyền tin cậy BP là thuật toán suy luận gần đúng dựa trên mô hình
trường ngẫu nhiên Markov [5] (Mô hình bao gồm lý thuyết đồ thị và lý thuyết xác suất thống kê) thực hiện bản đồ độ chênh lệch từ ảnh stereo camera có độ
phân giải cao, mật độ điểm tương ứng dầy Phân tích các thuật toán cải tiến thuật toán BP từ đó đề xuất giải pháp nhằm tối thiểu hàm chi phí của thuật toán BP và lựa chọn nền tảng xử lý phù hợp nhằm đạt được mục đích đề ra của luận án Từ phân tích toán học, biểu thức hóa các tham số, luận án dùng các công cụ mô phỏng, lấy dữ liệu từ tập dữ liệu kiểm thử [30] để chứng minh tính đúng đắn của các kết quả nghiên cứu
5 Ý nghĩa khoa học và thực tiễn của luận án
Bản đồ chênh lệch (disparity map) của ảnh stereo camera có vai trò rất
quan trọng trong thị giác robot 3D Từ bản đồ độ chênh lệch, kết hợp với phép đạc tam giác sẽ cho bản đồ độ sâu và ước lượng khoảng cách từ camera đến vật được gọi là kĩ thuật thị giác nổi Kĩ thuật này được áp dụng rộng rãi trong
Trang 19công nghiệp, robot, phẫu thuật, xe tự hành, định vị, xây dựng bản đồ và nghệ thuật
Luận án đã đề xuất hai giải pháp tối thiểu hàm chi phí cho thuật toán lan truyền tin cậy BP Giải pháp thứ nhất thực hiện giảm số lượng các nút trong mô hình trường ngẫu nhiên Markov thông qua các vòng lặp dùng
phương pháp chia thô đến mịn CTF (Coarse to fine) mức 1 Giải pháp thứ hai thực hiện kết hợp giữa thuật toán cục bộ CT (Census transform) và thuật toán
toàn cục BP đã cải thiện giảm năng lượng chi phí của nút xuất phát ban đầu khi thực hiện lan truyền thông điệp của thuật toán BP
6 Bố cục luận án
Luận án được bố cục theo 3 chương cùng với mở đầu và kết luận:
Mở đầu: Nêu được tính cấp thiết của luận án, mục đích, phạm vi, phương pháp nghiên cứu và ý nghĩa khoa học, thực tiễn của luận án
Chương 1: Trình bày tổng quan về hệ thống thị giác nổi và xử lý tín
hiệu trong hệ thống thị giác nổi gồm khối thông tin ảnh, khối xử lý thông tin ảnh và khối phát triển ứng dụng Phân tích các yếu tố ảnh hưởng đến tốc độ
xử lý tín hiệu trong hệ thống thị giác nổi bao gồm phần cứng và phần mềm Tổng quan các thuật toán so khớp thực hiện bản đồ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng thưa hoặc mật độ điểm tương ứng dày
Chương 2: Trình bày một số đặc trưng của trường ngẫu nhiên Markov
và ứng dụng chúng vào thuật toán lan truyền tin cậy BP Nêu nguyên lý hoạt động của lan truyền tin cậy BP và ứng dụng thuật toán BP để xác định bản đồ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy Phân tích, đánh giá các thuật toán lan truyền tin cậy BP cải tiến, trên cơ
sở thuật toán lan truyền tin cậy BP, luận án đề xuất hai giải pháp nâng cao tốc
độ xử lý cho thuật toán BP Giải pháp thứ nhất thực hiện giảm số lượng các nút trong mô hình trường ngẫu nhiên Markov thông qua các vòng lặp dùng
Trang 20phương pháp chia thô đến mịn mức 1 với hai thuật toán đề xuất là thuật toán
lan truyền tin cậy dùng chia thô đến mịn CFBP (Coarse to fine belief propagation) gọi là thuật toán đề xuất 1 và thuật toán lan truyền tin cậy có độ sâu thay đổi dùng chia thô đến mịn CFCSBP (Coarse to fine change space belief propagation) gọi là thuật toán đề xuất 2 Giải pháp thứ hai thực hiện kết
hợp giữa thuật toán cục bộ CT và thuật toán toàn cục BP đã cải thiện giảm năng lượng chi phí của nút xuất phát ban đầu khi thực hiện lan truyền thông điệp của thuật toán BP Giải pháp này có hai thuật toán đề xuất là thuật toán
lan truyền tin cậy kết hợp biến đổi thống kê CTBP (Census transform belief propagation) gọi là thuật toán đề xuất 3 và thuật toán lan truyền tin cậy có độ sâu thay đổi kết hợp biến đổi thống kê CTCSBP (Census transform change space belief propagation) gọi là thuật toán đề xuất 4 Xây dựng mô hình, lưu
đồ thuật toán chương trình cho các giải pháp đề xuất nhằm nâng cao tốc độ xử
lý tín hiệu trong hệ thống thị giác nổi
Chương 3: Thực nghiệm các thuật toán đề xuất và thuật toán lan
truyền tin cậy BP thực hiện bản đồ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy trên hệ thống nhúng với trình biên dịch và dữ liệu vào giống nhau Hệ thống thực nghiệm là một hệ máy tính PC Desktop với CPU core i7, card màn hình GPU GTX 750Ti với phần mềm biên dịch QTCreator 5.8 kết hợp OpenCV 3.0, Visual Studio 2013 và CUDA
Tập dữ liệu thử nghiệm là tập dữ liệu kiểm thử chuẩn của Middlebury [30] So
sánh, đánh giá các thuật toán đề xuất với thuật toán BP dựa trên các yếu tố như tốc độ thực hiện, dung lượng bộ nhớ yêu cầu và độ tin cậy
Kết luận: Nêu các kết quả đạt được của luận án, ứng dụng kết quả luận
án vào thực tiễn và kiến nghị hướng các nghiên cứu tiếp theo
Trang 21CHƯƠNG 1: TỔNG QUAN VỀ THỊ GIÁC NỔI VÀ XỬ LÝ TÍN HIỆU
TRONG HỆ THỐNG THỊ GIÁC NỔI
Ngày nay, con người mong muốn sẽ tạo ra được hệ thị giác giống như
hệ thị giác của con người Hình ảnh từ mắt người bình thường là ảnh có độ
sâu và người ta thường gọi đó là ảnh nổi, ảnh lập thể hay thị giác nổi (stereo vision) Với người bình thường thì hệ thị giác bao gồm hai con mắt kết hợp
với hệ cấu trúc thần kinh phức tạp và trung tâm xử lý của não, con người có thể dễ dàng cảm nhận các đối tượng xung quanh như ước lượng khoảng cách
và tưởng tượng ra đối tượng Từ mong muốn đó, con người chế tạo ra hệ thị giác nổi như hệ thị giác robot 3D làm việc giống như hệ thị giác của con người Hệ thị giác robot 3D bao gồm stereo camera có độ phân giải cao kết hợp với phần cứng là các hệ thống xử lý tín hiệu thông tin ảnh và các thuật toán xử lý Đối với hệ thị giác của con người thì đôi mắt là stereo camera, còn thuật toán và hệ thống xử lý là cấu trúc hệ thần kinh và trung tâm xử lý não của con người Các thuật toán xử lý bao gồm các thuật toán hiệu chỉnh ảnh và các thuật toán so khớp tìm điểm tương ứng trên ảnh stereo camera và phép đạc tam giác
Trong chương 1, luận án sẽ trình bày về tổng quan thị giác nổi, mô hình stereo camera và các phương pháp hiệu chuẩn, các phương pháp hiệu chỉnh, các phương pháp tìm điểm so khớp và phép đạc tam giác Ngoài ra, trong chương này luận án cũng giới thiệu, phân tích các nền tảng xử lý và đánh giá các nền tảng xử lý dùng cho xử lý thông tin ảnh trong hệ thống thị giác nổi
1.1 Tổng quan thị giác nổi
Thị giác nổi là thành phần rất quan trọng trong thị giác máy và được nhiều nhà khoa học nghiên cứu và phát triển trong hai thập kỉ gần đây Hệ thống thị giác nổi được áp dụng khá rộng rãi trong nhiều lĩnh vực như robot,
Trang 22xe tự hành, y khoa, nghệ thuật, giải trí và đặc biệt trong cuộc cách mạng công nghiệp 4.0 [59] Con người muốn tạo ra một hệ thị giác robot làm việc được trong môi trường 3 chiều gần giống với thị giác con người, khi đó robot và con người cùng nhau hoạt động sản xuất [55]
Hình 1.1 Sơ đồ khối hệ thống thị giác nổi Hiện nay, theo [64], hệ thống thị giác nổi như Hình 1.1 được chia làm hai loại là hệ thống thị giác nổi chủ động và hệ thống thị giác nổi thụ động
Hệ thống chủ động là hệ thống sử dụng cảm biến laze và cảm biến ánh sáng
để tái tạo đối tượng [107] Hệ thống thụ động là hệ thống sử dụng camera quang như camera đơn [79], stereo camera [50] với độ phân giải cao, mật độ điểm tương ứng thưa hoặc mật độ điểm tương ứng dầy Một số yêu cầu chính của hệ thị giác nổi thụ động là đảm bảo tốc độ thực hiện, độ tin cậy và dung lượng bộ nhớ yêu cầu Tùy theo mức độ yêu cầu của hệ thống thị giác nổi mà lựa chọn stereo camera, thuật toán xử lý và nền tảng xử lý cho phù hợp Tuy nhiên, một hệ thống đáp ứng tốt cả 3 yêu cầu này là rất khó thực hiện vì yêu cầu về tốc độ thực hiện và dung lượng bộ nhớ yêu cầu thường tỉ lệ nghịch với yêu cầu về độ tin cậy Chất lượng của hệ thống thị giác nổi phụ thuộc vào chất lượng của thuật toán xử lý như chất lượng của các phương pháp hiệu chuẩn camera, phương pháp hiệu chỉnh ảnh và phương pháp tìm điểm tương ứng Các phương pháp hiệu chuẩn [22] xác định được thông số bên trong và bên ngoài camera, các phương pháp hiệu chỉnh [26], [45] sửa méo ống kính
và các phương pháp so khớp [46] xác định bản đồ chênh lệch Ngoài ra, chất lượng hệ thống thị giác nổi còn phụ thuộc vào chất lượng của stereo camera như độ phân giải và chất lượng của nền tảng xử lý tín hiệu như CPU, DSP, GPU, FPGA và ASIC
ứng dụng Khối xử lý
thông tin ảnh
Trang 23Thuật toán so khớp được phân làm hai loại là thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng thưa như SURF [66] và SIFT [10] và thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy như SAD [15], BP [104] và DP [110] Thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng thưa sử dụng các điểm đặc trưng trên ảnh như góc, cạnh sẽ cho kết quả tốc độ cao và dung lượng bộ nhớ yêu cầu thấp tuy nhiên nó có nhược điểm không xác định được các vùng đồng nhất và vùng không quan sát được nghĩa là độ tin cậy thấp Thuật toán so khớp cho ảnh stereo camera có
độ phân giải cao, mật độ điểm tương ứng dầy nên có độ phức tạp tính toán cao và dung lượng bộ nhớ yêu cầu lớn Các thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy được phân làm ba
loại thuật toán đó là thuật toán cục bộ (local) [15], [101], thuật toán toàn cục (global) [48], [78] và thuật toán lai [24], [90] Thuật toán so khớp cục bộ dựa
trên cửa sổ, kích thước cửa sổ phải đủ lớn để xác định được điểm khớp và đủ nhỏ để xác định được các điểm trên biên của ảnh Thuật toán so khớp cục bộ cho tốc độ xử lý nhanh, dung lượng bộ nhớ yêu cầu thấp và độ tin cậy thấp so với thuật toán so khớp toàn cục Thuật toán so khớp toàn cục cho tốc độ chậm, dung lượng bộ nhớ cao và độ tin cậy cao so với thuật toán cục bộ Thuật toán lai có tốc độ thực hiện, dung lượng bộ nhớ yêu cầu và độ tin cậy nằm ở giữa thuật toán toàn cục và thuật toán cục bộ Tùy theo các ứng dụng
cụ thể mà lựa chọn thuật toán so khớp cùng với nền tảng xử lý phù hợp sẽ cho
hệ thống thị giác nổi đạt được hiệu quả cao Trong khi yêu cầu của con người càng cao, stereo camera có độ phân giải càng lớn, tốc độ phát triển của các nền tảng xử lý chưa đáp ứng kịp thì việc nghiên cứu, phát triển các thuật toán
xử lý rất được các nhà nghiên cứu quan tâm Đặc biệt là các thuật toán so khớp luôn được các nhà nghiên cứu ưu tiên phát triển và cải tiến
Trang 241.1.1 Một số khái niệm
Thị giác robot làm việc trong môi trường 3 chiều còn được gọi là thị giác robot 3D hay thị giác nổi Thị giác nổi là một phần quan trọng trong thị giác máy, các phương pháp ước lượng khoảng cách từ camera đến vật, tái tạo
và lập bản đồ độ sâu của vật được gọi là kỹ thuật thị giác nổi
Stereo camera: Hệ camera bao gồm hai hoặc nhiều camera được gán
trên một giá đỡ cùng chụp một cảnh với các góc nhìn khác nhau được gọi là stereo camera
Ảnh stereo camera: Hai hoặc nhiều ảnh cùng chụp một cảnh với góc
nhìn khác nhau được gọi là ảnh stereo camera
Điểm tương ứng (Stereo correspondence): Hai hoặc nhiều điểm nằm
trên các ảnh của ảnh stereo camera cùng biểu diễn một điểm trên cảnh được gọi là điểm tương ứng
So khớp (Stereo matching): Quá trình tìm điểm tương ứng trên các ảnh
của ảnh stereo camera được gọi là kỹ thuật so khớp và được thực hiện thông qua các thuật toán so khớp
Độ chênh lệch: Sự khác nhau về vị trí của điểm tương ứng trên ảnh stereo camera được gọi là độ chênh lệch và thường ký hiệu là d (disparity)
Với mỗi camera có góc nhìn đến điểm tương ứng khác nhau dẫn đến vị trí hay
độ xám của điểm tương ứng trên mỗi ảnh của ảnh stereo camera khác nhau
Bản đồ chênh lệch (disparity map): Tập hợp các độ chênh lệch của
điểm tương ứng trên ảnh stereo camera được gọi là bản đồ chênh lệch Bản đồ chênh lệch là nhân tố rất quan trọng để lập được bản đồ độ sâu của vật Do vậy khi nói về kỹ thuật thị giác nổi người ta tập trung nghiên cứu, phát triển
và cải tiến các thuật toán so khớp tìm bản đồ chênh lệch của ảnh stereo camera từ stereo camera
Trang 25Quá trình xử lý thông tin ảnh từ ảnh stereo camera để xác định được bản đồ độ sâu của vật trong hệ thống thị giác nổi được gọi là quá trình xử lý tín hiệu trong hệ thống thị giác nổi Để nâng cao tốc độ xử lý tín hiệu thì ngoài việc tối thiểu hàm chi phí xác định điểm tương ứng còn phải lựa chọn thuật toán so khớp và nền tảng xử lý tín hiệu phù hợp
1.1.2 Hệ thống thị giác nổi
Để tạo ra được ảnh nổi đã có nhiều hệ thống thị giác nổi được đề xuất [50], [107] Tùy theo mức độ yêu cầu của nhiệm vụ, hệ thống thị giác nổi sẽ được lựa chọn cho phù hợp nhằm mang lại hiệu quả tốt nhất Hệ thống thị giác nổi được lựa chọn để phân tích ở đây là hệ thống thụ động bao gồm khối thông tin ảnh, khối xử lý thông tin ảnh và khối phát triển ứng dụng Khối thông tin ảnh là stereo camera với hai camera có độ phân giải cao Khối xử lý thông tin ảnh bao gồm thuật toán xử lý là thuật toán so khớp lan truyền tin cậy
BP và phần cứng là nền tảng xử lý GPU GTX 750Ti Khối phát triến ứng dụng là thị giác robot 3D
1.1.2.1 Khối thông tin ảnh
Khối thông tin ảnh bao gồm hai khối là khối stereo camera và khối hiệu chuẩn ảnh Khối này có nhiệm vụ cung cấp ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dày và
các thông số của ảnh như kích
thước, độ sâu cũng như các thông số
bên trong và bên ngoài của stereo
camera
Stereo camera đơn giản nhất
là hai camera được gắn trên giá đỡ
như Hình 1.2
Hình 1.2 Stereo camera
Trang 26Mục đích của quá trình hiệu chuẩn camera là tìm được các thông số bên
trong và bên ngoài của stereo camera Các thông số bên trong như: tiêu cự f, điểm trung tâm c và độ méo k c Các thông số bên ngoài như: các phép xoay R c (rotations) và các phép dịch chuyển T c (translations) Để hiệu chuẩn camera
thì phải tạo một tập ảnh mẫu gồm 10 cặp ảnh với các góc nghiêng khác nhau cho một camera, để thực hiện hai camera thì ta cần 20 cặp như Hình 1.3 Thông thường, dùng kỹ thuật bàn cờ để tạo ảnh mẫu
Hình 1.3 Các mẫu hiệu chuẩn dùng kỹ thuật bàn cờ
1.1.2.2 Khối xử lý thông tin ảnh
Khối xử lý thông tin ảnh bao gồm các thuật toán xử lý và thiết bị nhúng
để thực hiện các thuật toán xử lý thông qua các ngôn ngữ như C, C++, Matlab, OpenCV, QTCreator Thuật toán xử lý bao gồm thuật toán hiệu chỉnh ảnh, thuật toán so khớp và phép đạc tam giác Thuật toán hiệu chỉnh ảnh làm nhiệm vụ xử lý méo ống kính, quá trình này cũng ảnh hưởng đến tốc
độ của hệ thống Ảnh stereo camera sau khi đã được khử méo sẽ được thực hiện xác định bản đồ chênh lệch thông qua các thuật toán so khớp Tốc độ xử
lý tín hiệu của hệ thống thị giác nổi phụ thuộc chủ yếu vào quá trình xác định bản đồ chênh lệch của ảnh stereo camera Bản đồ độ sâu của ảnh được xác định thông qua phép đạc tam giác
Quá trình hiệu chỉnh ảnh là quá trình biến đổi đồng nhất (homograph) hai ảnh của ảnh stereo camera, có nghĩa là các đường epipole song song với
Trang 27trục hoành của ảnh Đường epipole là tập hợp các điểm tương ứng trên một
hàng của ảnh stereo camera Đơn giản, quá trình hiệu chỉnh ảnh được mô tả bằng cách xoay camera theo ba bước như Hình 1.4 [45]
Hình 1.4 Các bước xoay ảnh stereo camera để hiệu chỉnh
Bước 1: Các mặt phẳng ảnh trở lên song song với trục CC’
Bước 2: Xoay các ảnh trong mặt phẳng của chúng để có các đường epipole chỉ song song với CC’
Bước 3: Xoay một trong các mặt phẳng ảnh quanh trục CC’ thẳng hàng
các đường epipole tương ứng trong cả hai ảnh
Điểm tương ứng là hai điểm trên hai ảnh trái và ảnh phải của ảnh stereo camera cùng chụp một điểm trên cảnh như Hình 1.5 Với ảnh stereo camera
có góc chụp khác nhau nên các điểm tương ứng thường có sự chênh lệch về vị
trí (hay độ xám) và được gọi là độ chênh lệch d Tập hợp các độ chênh lệch của điểm tương ứng sẽ cho bản đồ chênh lệch Tham số d rất quan trọng trong
hệ thống thị giác nổi, nó thể hiện tốc độ thực hiện cũng như độ tin cậy của bản
đồ độ sâu của ảnh Quá trình xác định d được thực hiện thông qua các thuật
toán so khớp Theo [64], với các thuật toán so khớp khác nhau sẽ cho độ tin cậy khác nhau được thể hiện qua Hình 1.6
Trang 28Hình 1.5 Cặp điểm tương ứng của ảnh stereo camera
Hình 1.6 Sự khác nhau giữa thuật toán so khớp
Bản đồ chênh lệch
Thuật toán so khớp truyền thống
Thuật toán so khớp hiện đại
Trang 29Bản đồ chênh lệch là tập hợp các độ chênh lệch của các điểm tương ứng trên ảnh stereo camera Từ bản đồ chênh lệch, ứng dụng phép đạc tam giác sẽ cho ước lượng khoảng cách từ camera đến đối tượng và bản đồ độ sâu của ảnh
Trong hình học không gian, người ta mô tả các điểm thị giác nổi P trong tọa độ 3D như Hình 1.7 và tham chiếu 2D như Hình 1.8 Trong đó O l và
O r tương ứng tọa độ của camera trái và camera phải, P là điểm trong tọa độ thực, b là khoảng cách
giữa hai camera còn được
gọi là đường cơ sở, f là
tiêu cự camera, Z là
khoảng cách từ camera
đến điểm P, p và p ’ tương
ứng là điểm tham chiếu
2D của điểm P trên mặt
phẳng của camera trái và camera
phải Muốn xác định được Z, cần
phải tìm được độ chênh lệch d
giữa hai điểm tương ứng trên ảnh
trái và ảnh phải cùng chụp điểm
P Muốn xác định được d, xét sơ
đồ mô tả độ chênh lệch như Hình
1.7 Trong đó, hệ tọa độ camera
trái dịch chuyển theo trục X so
với camera phải một khoảng là b(baseline)
Khi đó, hệ tọa độ ảnh của điểm P(X, Y, Z) được chiếu trên mặt phẳng camera trái có tọa độ là p l (x l , y l ), trong đó
Hình 1.8 Sơ đồ tham chiếu điểm ảnh 2D
từ 3D
Hình 1.7 Sơ đồ điểm ảnh trên trục toạ độ 3 chiều
Camera trái (0, 0, 0)
Trang 30và quan trọng nhất Do vậy, nội dung chính của luận án tập trung nghiên cứu các giải pháp nâng cao tốc độ xử lý và giảm dung lượng bộ nhớ khi thực hiện bản đồ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dày Các yếu tố ảnh hưởng đến tốc độ và chất lượng của bản đồ chênh lệch sẽ được trình bày trong các mục tiếp theo của luận án
Trang 311.2 Mô hình camera
Mô hình là công thức toán học, nó biểu diễn hoạt động của thiết bị thông qua gần đúng các phương trình toán học Mô hình camera được biểu diễn gần đúng bằng hình học với vị trí và hướng của camera trong khung cảnh Đã có một số mô hình camera được đề xuất tương ứng với độ chính xác khác nhau Mô hình camera đơn giản nhất là biến đổi tuyến tính không xét đến méo của ống kính Tuy nhiên một số mô hình cần đến độ chính xác cao thì phải xét đến méo của ống kính như mô hình phi tuyến
Xét mô hình camera được đề xuất từ Hall [39] Mục đích của mô hình
là tìm mối quan hệ của điểm 3D trong cảnh với điểm chiếu 2D của nó trên mặt phẳng ảnh Mối quan hệ được mô tả gần đúng thông qua các phương trình toán học như ma trận chuyển đổi được đưa ra như công thức (1.5)
Trang 321.3 Phương pháp hiệu chuẩn camera
Phương pháp hiệu chuẩn camera sẽ quyết định đến tốc độ thực hiện và
độ tin cậy của các tham số bên trong và bên ngoài của camera Hiện nay có
một số phương pháp hiệu chuẩn ảnh kinh điển như Hall [39], Salvi [37], Tsai [91] và Weng [76] dựa trên các mô hình camera tương ứng Mỗi mô hình sẽ
có phương pháp hiệu chuẩn thích hợp và có ưu và nhược điểm khác nhau
1.3.1 Phương pháp hiệu chuẩn Hall
Phương pháp hiệu chuẩn của Hall [39] được biểu diễn theo công thức (1.5) và được biến đổi theo công thức (1.6):
I u
1.3.2 Phương pháp hiệu chuẩn Salvi
Tác giả Salvi [37] đã hiệu chuẩn các thông số camera có xét đến yếu tố
méo ống kính đã làm tăng độ chính xác của phép hiệu chuẩn Khi đó, phương trình trở lên phi tuyến và thay kĩ thuật bình phương tối thiểu tuyến tính bằng
kĩ thuật lặp lại
1.3.3 Phương pháp hiệu chuẩn Tsai
Phương pháp hiệu chỉnh Tsai [91] chỉ xét đến méo ống kính xuyên tâm
nhưng giả thiết các thông số của camera được cung cấp bới nhà sản xuất Điều này làm giảm các thông số hiệu chỉnh trong việc xác định giá trị dự đoán ban đầu trong bước thứ nhất Hơn nữa, tất cả các thông số tối ưu trong vòng lặp cho đến bước cuối cùng và số lượng các vòng lặp cũng được giảm xuống
Trang 331.3.4 Phương pháp hiệu chuẩn Weng
Phương pháp hiệu chỉnh Tsai [91] dựa trên mô hình méo ống kính
xuyên tâm Trong một số ứng dụng thì phương pháp này không đầy đủ
Phương pháp hiệu chuẩn của Weng [76] xét đến ba loại méo ống kính được đề
cập là méo ống kính xuyên tâm, méo ống kính lệch tâm và méo ống kính có lăng kính mỏng Thực tế phương pháp này làm tăng số các bước để hiệu chỉnh camera
Nhận xét: Trong các phương pháp hiệu chuẩn đã nêu trên thì phương pháp hiệu chuẩn Weng có độ tin cậy cao nhất vì xét cả ba yếu tố gây méo ống
kính là méo xuyên tâm, méo lệch tâm và méo lăng kính mỏng Tuy nhiên, phương pháp hiệu chỉnh Weng cũng làm tăng các bước thực hiện có nghĩa là làm giảm hiệu năng thực hiện
1.4 Phương pháp hiệu chỉnh ảnh
Hiệu chỉnh camera là để sửa méo ống kính của ảnh stereo camera, do vậy quá trình này ảnh hưởng đến độ tin cậy của điểm tương ứng Quá trình thực hiện hiệu chỉnh là làm đồng nhất hai ảnh của stereo camera có nghĩa là
các đường epipolar của ảnh stereo camera song song với nhau và cùng song song với trục hoành của ảnh Đường epipolar là tập hợp các điểm tương ứng của ảnh stereo camera trên một hàng Do đó việc xác định hình học epipolar
ảnh hưởng đến các điểm tương ứng trên hai ảnh của ảnh stereo camera
Các phương pháp hiệu chỉnh ảnh đều làm tối ưu quá trình đồng nhất của ảnh stereo camera và nâng cao độ tin cậy xử lý thông tin ảnh Phương pháp hiệu chỉnh được chia làm hai dạng Dạng thứ nhất, các phương pháp hiệu chỉnh sau khi đã hiệu chuẩn có nghĩa là đã xác định được các tham số bên trong và bên ngoài của camera như ma trận xoay và phép biến đổi [9], [105] Dạng thứ hai, các phương pháp hiệu chỉnh thực hiện mà không hiệu chuẩn [26]
Trang 34Tác giả Ayache và Francis [9] và Fusiello [105] đã đề xuất phương
pháp hiệu chỉnh dựa trên các thông số camera Nhược điểm chính của phương pháp này là phải phụ thuộc vào độ tin cậy của quá trình hiệu chuẩn camera Chính vì lý do đó, một số nhà nghiên cứu đã đề xuất kỹ thuật xạ ảnh hay còn gọi là không hiệu chuẩn, có nghĩa là quá trình hiệu chỉnh không sử dụng các
tham số camera Tác giả Hartley và Andrew [88] đã phát triển nền tảng lý
thuyết cho kỹ thuật này bằng cách cực tiểu hóa sự khác nhau của các điểm
tương ứng Tác giả Loop và Zhang [13] đã ước lượng sự đồng nhất bằng cách phân chia chúng vào phép biến đổi ánh xạ và biến đổi affine Tác giả Pollefeys [49] đã đề xuất một phương pháp hiệu chỉnh đơn giản và hiệu quả cho ảnh stereo camera dùng một tham số cực của ảnh xung quanh epipoler, trong khi đó tác giả Gluckman và Nayar [88] đã đưa ra phương pháp hiệu
chỉnh để giảm thiểu hiệu ứng lấy mẫu lại, mà nó tương ứng sự mất hoặc tái tạo lại điểm ảnh do lấy mẫu trên hoặc dưới Một phương pháp đơn giản khác
được phát triển bởi tác giả Mallon và Whelan [11], đã áp dụng phân tích véc
tơ đơn vào xấp xỉ bậc nhất trong phép biến đổi trực giao để giảm sự méo của ảnh
Gần đây, tác giả Fusiello và Luca [8] đã đề xuất một phương pháp hiệu chỉnh Quasi Euclidean epipole mà xấp xỉ trường hợp Euclidean bằng cách đặt
phép biến đổi chỉnh lưu để giảm phép tính bằng mặt phẳng tại vô cực, mà không làm ảnh hưởng bước khởi tạo trong quá trình tối giản hóa có nghĩa
phương pháp này làm giảm lỗi hiệu chỉnh Tác giả Monessa [45] đã đề xuất
phương pháp hiệu chỉnh ảnh theo ba bước dễ dàng được công thức hóa như vấn đề giảm thiểu một tham số theo giả thuyết tỉ lệ khung Hình vuông, độ
nghiêng và điểm trung tâm ảnh Tác giả Changming [19] đã đề xuất phương pháp hiệu chỉnh Closed-form đã tự động hiệu chỉnh hai ảnh không hiệu chuẩn
chỉ dùng ma trận cơ bản mà không có bước tối thiểu hóa lặp, tất cả các bước
Trang 35thực hiện chỉ liên quan trực tiếp đến biến đổi hình học Tác giả Georgiev [32]
đã đề xuất phương pháp hiệu chỉnh với giá trị tính toán thấp, tuy nhiên nó chỉ
áp dụng cho việc thiết lập ảnh nổi
Nhận xét: Quá trình hiệu chỉnh là một trong quá trình xử lý thông tin
ảnh, quá trình này ảnh hưởng trực tiếp đến độ tin cậy sự đồng nhất hai ảnh của ảnh stereo camera Sau khi đã đồng nhất được hai ảnh của ảnh stereo camera, công việc tiếp theo rất quan trọng ảnh hưởng đến hiệu quả của hệ thống là xác định điểm tương ứng giữa các điểm của ảnh stereo camera Quá trình xác định điểm tương ứng và lập bản đồ chênh lệch được thực hiện thông qua các thuật toán so khớp hay còn được gọi là thuật toán thị giác nổi Mỗi thuật toán so khớp có ưu điểm và nhược điểm khác nhau thông qua ba yếu tố
để đánh giá thuật toán là tốc độ thực hiện, dung lượng bộ nhớ yêu cầu và độ tin cậy Tùy theo yêu cầu của hệ thống thị giác nổi mà lựa chọn thuật toán so khớp phù hợp để đạt được hiệu quả tốt nhất cho hệ thống
1.5 Các thuật toán so khớp
Trong khoảng hai thập kỉ qua, đã có rất nhiều thuật toán so khớp được
đề xuất [46] Thuật toán so khớp được phân loại theo ảnh stereo camera Các thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ thưa như SIFT [10], SURF [66] thường được dùng cho hệ thị giác nổi có yêu cầu tốc độ cao và dung lượng bộ nhớ yêu cầu thấp tuy nhiên không yêu cầu độ tin cậy cao, thường được áp dụng vào các hệ thống định vị, xây dựng bản đồ hay SLAM [36] và các xe tự hành Các thuật toán so khớp cho ảnh stereo camera
có độ phân giải cao, mật độ điểm tương ứng dày như [7], [44] thường được dùng cho các hệ thị giác nổi yêu cầu độ tin cậy cao, thường được áp dụng vào các hệ kiểm tra sản phẩm trong công nghiệp, hệ thị giác 3D của thị giác robot
và trong phẫu thuật hay tái tạo đối tượng, tuy nhiên, độ phức tạp tính toán lớn
và dung lượng bộ nhớ yêu cầu cao Thuật toán so khớp cho ảnh stereo camera
Trang 36có độ phân giải cao, mật độ điểm tương ứng dày được chia làm ba loại chính
là thuật toán cục bộ [15], [101], thuật toán toàn cục [48], [78] và thuật toán lai [24], [90]
Các thuật toán toàn cục được sử dụng trong các mô hình tối thiểu hàm chi phí để giải quyết tìm bản đồ chênh lệch gần đúng Nó có thể được xây dựng công thức như một vấn đề tối thiểu hóa năng lượng của trường ngẫu
nhiên Markov (MRFs), đồng thời xem xét các nhãn nhẵn (smoothness) Hai
thuật toán toàn cục sử dụng trường ngẫu nhiên Markov là thuật toán lát cắt đồ thị GC và thuật toán lan truyền độ tin cậy BP cho hiệu quả cao trong việc giải quyết các vấn đề về thị giác nổi
Các thuật toán cục bộ dựa trên màu sắc hoặc mật độ các kết cấu trong một cửa sổ hữu hạn để xác định độ chênh lệch Nó giảm độ phức tạp tính toán
và có thể thực hiện thời gian thực Do đó mà phần lớn các thuật toán cập nhật cho xử lý thời gian thực đều dùng thuật toán cục bộ Tuy nhiên các thuật toán cục bộ lại có nhược điểm là độ tin cậy không cao, nhất là các vùng có cùng kết cấu như các vùng đồng nhất, các vùng có bề mặt bị bóng tại bề mặt của đối tượng và các vùng không quan sát được
1.5.1 Các thuật toán so khớp cục bộ
Các thuật toán so khớp cục bộ (local) hoạt động dựa trên cửa sổ Nó kết
hợp hàm chi phí so khớp trên một cửa sổ đã cho Cửa sổ cục bộ phải đủ lớn
để bao gồm đầy đủ mật độ các biến cho thực hiện so khớp và nó đủ nhỏ để tránh biến chênh lệch bên trong cửa sổ Các thuật toán so khớp cục bộ dựa trên cửa sổ cơ bản bao gồm việc xây dựng các hàm hàm chi phí và lựa chọn loại cửa sổ sao cho phù hợp Đã có rất nhiều loại cửa sổ được đề xuất như cửa
sổ hình chữ nhật [44], đa cửa sổ [74], trọng số thích nghi [51], cửa sổ dựa trên hình học đồng trục [35], cửa sổ có hình dạng thích nghi [34] Thuật toán SAD, Rank [38] và Census [77] được xây dựng để tính toán tất cả các hàm
Trang 37chi phí Thuật toán Rank và Census là hai biến đổi không tham số, chúng phụ thuộc vào quan hệ thứ tự các giá trị điểm ảnh hơn là giá trị của chúng Cả hai thuật toán đều thực hiện phù hợp trên phần cứng tuy nhiên lại không bị ảnh hưởng với các loại nhiễu và méo của ảnh Bằng việc kết hợp với các kỹ thuật tối ưu khác, thuật toán so khớp cục bộ dựa trên cửa sổ có đạt đến chất lượng
và hiệu suất cao [51], tính toán các trọng số thích nghi dựa trên khoảng cách gần đúng và màu sắc đến các điểm trung tâm
1.5.2 Các thuật toán so khớp toàn cục
1.5.2.1 Thuật toán lan truyền tin cậy BP
Thuật toán lan truyền độ tin cậy BP [104] là thuật toán suy luận gần đúng dựa trên mô hình trường ngẫu nhiên Markov, nó hoạt động dựa trên sự lan truyền thông điệp giữa các nút thông qua các vòng lặp Giá trị thông điệp
là độ chênh lệch của hai điểm tương ứng trên ảnh stereo camera Các nút là nhãn được sắp xếp theo dạng hình lưới hoặc hình cây Thuật toán BP có ưu điểm là độ tin cậy cao tuy nhiên dung lượng bộ nhớ yêu cầu lớn và độ phức tạp tính toán cao Đã có nhiều nhà nghiên cứu cải tiến thuật toán BP như [16], [56], [57], [78], [84], [89], [92], [109], [113] đã khắc phục một số nhược điểm
của thuật toán BP Tác giả P F Felzenszwalb và D P Huttenlocher [78] đã
sử dụng kỹ thuật là để xuất phép nhân chập tối thiểu và một kiến trúc phân
cấp đã giảm thời gian tính toán cho một thông điệp truyền Tác giả L Zhang and S M Seitz [57] đã sử dụng kỹ thuật là đặt một định dạng thông số tối ưu
dùng để lập bản đồ chênh lệch và các thông số trường ngẫu nhiên Markov
tương ứng Tác giả Q Yang và L Wang [84] đã sử dụng kỹ thuật là đề xuất
thuật toán BP hội tụ nhanh để cập nhật thích nghi giá trị điểm ảnh cho giảm
giá trị lặp Tác giả T Yi và R Lin [89] đã sử dụng kỹ thuật là biến đổi điểm đường bao BP, cung cấp cả tỉ lệ nén thông điệp và giá trị nhẵn Tác giả Y C Tseng và cộng sự [109] đã sử dụng kỹ thuật là chia cắt ảnh thành nhiều khối
Trang 38nhỏ và tối ưu thực hiện cho từng khối độc lập Tác giả R Szeliski [92] đã sử
dụng kỹ thuật là đề xuất phương pháp ICM để tìm một tối thiểu cục bộ bằng
chiến thuật lưỡi gà (greedy) Tác giả C K Liang và cộng sự [16] đã sử dụng
kỹ thuật là chia mô hình trường ngẫu nhiên Markov thành nhiều khối, chỉ lưu thông điệp qua các khối lân cận nhằm giảm lưu lượng xử lý thông điệp trong
các khối Tác giả Y C Tseng và T S Chang [108] đã sử dụng kỹ thuật là đề xuất phương pháp tái sử dụng thông điệp Tác giả Q Yang [56] đã sử dụng kỹ thuật là giảm phân cấp dải tìm kiếm chênh lệch qua các vòng lặp Tác giả S Chen [113] đã sử dụng kỹ thuật là đề xuất một sơ đồ thông điệp tổng cực tiểu,
kỹ thuật bắt (caching) và phương pháp đặt trực tiếp để cải thiện truy cập thông điệp
1.5.2.2 Thuật toán lát cắt đồ thị GC
Thuật toán lát cắt đồ thị GC (graph cut) tối thiểu hàm chi phí cặp chọn lọc MRFs bằng cách giải quyết các vấn đề min-cut/max-flow trên cấu trúc đồ
thị Thuật toán lát cắt đồ thị GC cũng yêu cầu tính toán phức tạp lớn và dung
lượng bộ nhớ yêu cầu cao Thuật toán lát cắt đồ thị [73] cần O(k 3
) tính toán
các vòng lặp và tăng nhanh với số tăng của nhãn Điều này giải thích tại sao với mỗi thuật toán tối ưu ảnh số, thuật toán GC rất khó để tạo ra một truy cập kiểu xử lý thời gian thực Đã có một số nhà nghiên cứu cải tiến thuật toán lát cắt đồ thị GC như [58], [33], [75], [81], [48] đã sử dụng các kỹ thuật khác
nhau khắc phục một số hạn chế của thuật toán lát cắt đồ thị GC Tác giả Y Boykov và O Veksler [58] đã sử dụng kỹ thuật là tìm một tối thiểu hóa cục bộ với di chuyển mở rộng và hoán đổi Tác giả G Chen và L Hong [33] đã sử
dụng kỹ thuật là cảnh quay được biểu diễn như một tập các mặt phẳng trong
không gian chênh lệch Tác giả O.Veksler [75] đã sử dụng kỹ thuật là phát triển các thuật toán tối ưu mở rộng và hoán đổi cho chặt lồi trước (truncated convex priors), chỉ hai nhãn cho mỗi điểm ảnh Tác giả P Kohli và P H Torr
Trang 39[81] đã sử dụng kỹ thuật là áp dụng một tiếp cận mincut để tăng tốc độ xử lý suy luận với các tham số chi phí khác nhau không đáng kể Tác giả M Huan
[48] đã sử dụng kỹ thuật là các mẫu không chồng chéo xuất phát từ hình ảnh tham chiếu để biểu diễn cho ảnh hiện tại với các giá trị chênh lệch
1.5.2.3 Thuật toán quy hoạch động DP
Thuật toán quy hoạch động DP [110] (Dynamic programming) đã phân
tích một vấn đề trong một tập các vấn đề phụ sau đó giải quyết hiệu quả chúng theo cách đệ quy Vấn đề chính của thuật toán DP là tính nhất quán giữa đường quét không tập trung, dẫn đến có các vệt lạ Để khắc phục vấn đề này có rất nhiều thuật toán thị giác nổi dựa trên thuật toán DP đã được cải tiến như, [41], [43], [54], [63], [99], [102] đã sử dụng các kỹ thuật tối ưu để cải
tiến thuật toán DP Tác giả C Lie [43] đã sử dụng kỹ thuật tối ưu là đề xuất
một cây đường bao tối thiểu trên đồ thị kế tiếp của một đoạn ảnh thay vì quét
riêng lẻ Tác giả L Wang [63] đã sử dụng kỹ thuật là giới thiệu một bước kết hợp thích nghi trong hướng thẳng đứng Tác giả S Park và H Jeong [102] đã
sử dụng kỹ thuật là áp dụng mô hình tuyến tính chặt (truncated) để đường theo chiều ngang và chiều dọc phụ thuộc nhau Tác giả R Kalarot [41] đã sử
dụng kỹ thuật là sử dụng độ nhất quán giữa dòng quét và điều kiện cảnh trực
tiếp vào tính toán chênh lệch Tác giả S H Lee và S Sharma [99] đã sử dụng
kỹ thuật là dùng biến đổi hạng dựa trên hàm so khớp và dùng các vòng lặp
thích nghi giữa các chênh lệch lân cận.Tác giả Q Yang [54] đã sử dụng kỹ thuật là kết nối kết hợp cửa sổ thích nghi dựa trên hình chữ thập (cross) và
quy hoạch động cơ bản
Nhận xét: Thuật toán so khớp quyết định rất nhiều đến hiệu quả của hệ
thống thị giác nổi Đã có rất nhiều thuật toán so khớp được nghiên cứu và đề xuất nhằm mang lại hiệu quả tốt nhất cho hệ thống Trong các thuật toán so khớp đã nêu trên thì thuật toán lan truyền tin cậy BP cho độ tin cậy cao nhất
Trang 40nhưng dung lượng bộ nhớ yêu cầu lớn vào độ phức tạp tính toán cao [29] Do
đó, đề tài luận án tập trung nghiên cứu giải pháp nâng cao tốc độ xử lý của thuật toán lan truyền tin cậy BP Tuy nhiên, để hệ thống hoạt động hiệu quả thì ngoài vấn đề lựa chọn thuật toán so khớp phù hợp, còn một vấn đề nữa cũng không kém phần quan trọng là lựa chọn được nền tảng xử lý phù hợp để thực hiện Các nền tảng xử lý có một số đặc điểm khác nhau như tốc độ thực hiện, cấu trúc xử lý nối tiếp hay song song, khả năng truy cập bộ nhớ và dung lượng bộ nhớ Tùy theo yêu cầu của hệ thống thị giác nổi, sẽ lựa chọn nền tảng xử lý và thuật toán so khớp cho phù hợp Trong các nền tảng xử lý thì luận án tập trung nghiên cứu và sử dụng nền tảng xử lý GPU để thực hiện thuật toán so khớp BP
1.6 Nền tảng xử lý trong hệ thống thị giác nổi
Trong khoảng hai thập kỉ qua, thị giác nổi đã khẳng định được vai trò ứng dụng của nó trong thực tiễn, do vậy mà hệ thống thị giác nổi luôn luôn được nâng cấp cả về phần mềm cũng như phần cứng Đối với sự phát triển của khoa học kỹ thuật, cùng với những yêu cầu ngày càng cao của cuộc sống hiện đại thì hệ thống thị giác nổi phải hướng đến hoạt động trong môi trường thời gian thực Ngày nay, các hệ thống nhúng dùng cho hệ thống thị giác nổi
đã liên tục được phát triển, tuy nhiên vẫn còn một số thách thức sau:
- Độ phức tạp tính toán siêu cao: tìm kiếm tất cả các điểm ảnh khớp
trong khu vực cần tìm và lặp đi lặp lại nhiều lần để tìm ra điểm khớp nhất, tính toán tất cả hàm chi phí của các điểm tương ứng với nhân hoặc cộng ma trận Đối với trường hợp dải chênh lệch biến động cao hoặc các điểm phụ thì việc tính toán còn khó khăn hơn Với những lý do trên dẫn đến độ phức tạp tính toán cao do vậy cần phải có hệ thống siêu tính toán
- Yêu cầu kích thước bộ nhớ trong và dải dữ liệu lớn: thuật toán thị giác
nổi yêu cầu một lượng lớn dữ liệu trao đổi tạm thời Việc dung lượng bộ nhớ