Nghiên cứu giải pháp nâng cao tốc độ xử lý tín hiệu trong hệ thống thị giác nổi

Thuật toán xử lý trong hệ thống thị giác nổi dùng stereo camera bao gồm các thuật toán hiệu chuẩn calibration camera, thuật toán hiệu chỉnh rectification ảnh và thuật toán so khớp corres

Trang 1

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

ĐOÀN VĂN TUẤN

NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ XỬ LÝ TÍN HIỆU TRONG HỆ THỐNG THỊ GIÁC NỔI

LUẬN ÁN TIẾN SĨ KỸ THUẬT

HÀ NỘI – 2019

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO BỘ QUỐC PHÒNG

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

ĐOÀN VĂN TUẤN

NGHIÊN CỨU GIẢI PHÁP NÂNG CAO TỐC ĐỘ XỬ LÝ TÍN HIỆU TRONG HỆ THỐNG THỊ GIÁC NỔI Chuyên ngành: Kỹ thuật điện tử

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của tôi Các số liệu, kết quả trình bày trong luận án là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác Các dữ liệu tham khảo được trích dẫn đầy đủ

NGƯỜI CAM ĐOAN

Đoàn Văn Tuấn

Trang 4

LỜI CẢM ƠN

Đầu tiên tôi xin gửi lời cảm ơn chân thành tới thầy: TS Hà Hữu Huy, Viện Điện tử - Viện Khoa học và Công nghệ quân sự và thầy PGS TS Bùi Trung Thành – Hiệu trưởng, Trường Đại học Sư phạm Kỹ thuật Hưng Yên đã trực tiếp hướng dẫn, tận tình chỉ bảo, tạo điều kiện tốt nhất để tôi hoàn thành luận án này

Tôi xin chân thành cảm ơn Ban Giám Đốc Viện Khoa học và Công Nghệ Quân Sự Bộ Quốc phòng, Phòng Đào Tạo và Viện Điện Tử đã tạo điều kiện thuận lợi giúp tôi hoàn thành nhiệm vụ và đạt kết quả mong muốn

Xin chân thành cảm ơn Đảng Ủy, Ban Giám Hiệu và Ban Chủ Nhiệm Khoa Điện – Điện Tử trường Đại Học Sư Phạm Kỹ Thuật Hưng Yên, nơi tôi đang công tác, đã tạo điều kiện để tôi hoàn thành nhiệm vụ

Xin cảm ơn các chuyên gia, các nhà khoa học, các bạn đồng nghiệp và Ban Giám Đốc trung tâm Quang Điện Tử thuộc Viện Công Nghệ Ứng dụng C6 Thanh Xuân Bắc- Hà Nội đã trực tiếp đóng góp nhiều ý kiến quý báu, giúp tôi vượt qua khó khăn để hoàn thành luận án

Cuối cùng xin gửi lời cảm ơn tới mọi thành viên trong gia đình, đặc biệt là vợ và hai con, những người đã tạo mọi điều kiện về thời gian, vật chất

và hết lòng chăm sóc, động viên về tinh thần để tôi tập trung nghiên cứu hoàn thành luận án

Trang 5

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT viii

DANH MỤC CÁC BẢNG xi

DANH MỤC CÁC HÌNH VẼ xii

MỞ ĐẦU 1

CHƯƠNG 1: TỔNG QUAN VỀ THỊ GIÁC NỔI VÀ XỬ LÝ TÍN HIỆU TRONG HỆ THỐNG THỊ GIÁC NỔI 8

1.1 Tổng quan thị giác nổi 8

1.1.1 Một số khái niệm 11

1.1.2 Hệ thống thị giác nổi 12

1.2 Mô hình camera 18

1.3 Phương pháp hiệu chuẩn camera 19

1.3.1 Phương pháp hiệu chuẩn Hall 19

1.3.2 Phương pháp hiệu chuẩn Salvi 19

1.3.3 Phương pháp hiệu chuẩn Tsai 19

1.3.4 Phương pháp hiệu chuẩn Weng 20

1.4 Phương pháp hiệu chỉnh ảnh 20

1.5 Các thuật toán so khớp 22

1.5.1 Các thuật toán so khớp cục bộ 23

1.5.2 Các thuật toán so khớp toàn cục 24

1.6 Nền tảng xử lý trong hệ thống thị giác nổi 27

1.6.1 Nền tảng xử lý dùng CPU 28

1.6.2 Nền tảng xử lý dùng DSP 29

1.6.3 Nền tảng xử lý dùng GPU 29

1.6.4 Nền tảng xử lý dùng FPGA/ASIC 30

1.7 Đánh giá hệ thống thị giác nổi 31

Trang

Trang 6

1.8 Các hướng nghiên cứu nhằm nâng cao hiệu quả của hệ thống

thị giác nổi 33

1.8.1 Phương pháp phân đoạn ảnh và tối ưu hóa phân cấp 34

1.8.2 Điều chỉnh vùng đồng nhất và không nhìn thấy 35

1.8.3 Phương pháp cải thiện tối thiểu hàm chi phí cho sự so khớp của điểm ảnh 35

1.8.4 Phương pháp tối ưu hóa liên kết 35

1.8.5 Phương pháp sắp xếp bộ nhớ hiệu quả 36

1.8.6 Phương pháp cải tiến thiết kế VLSI 36

1.9 Kết luận chương 1 37

CHƯƠNG 2: NGHIÊN CỨU CÁC THUẬT TOÁN LAN TRUYỀN

TIN CẬY BP VÀ XÂY DỰNG CÁC GIẢI PHÁP NÂNG CAO TỐC ĐỘ XỬ LÝ TRONG HỆ THỐNG THỊ GIÁC NỔI 39

2.1 Trường ngẫu nhiên Markov 39

2.1.1 Định nghĩa trường ngẫu nhiên Markov 42

2.1.2 Mô hình trường ngẫu nhiên Markov dạng lưới 43

2.1.3.Mô hình trường ngẫu nhiên Markov dạng lưới ẩn 45

2.1.4 Mô hình trường ngẫu nhiên Markov dạng cây 46

2.1.5 Ứng dụng trường ngẫu nhiên Markov cho thị giác nổi 47

2.2 Thuật toán lan truyền tin cậy BP ứng dụng cho thị giác nổi 47

2.2.1 Thuật toán lan truyền tin cậy BP dạng cây 47

2.2.2 Thuật toán lan truyền tin cậy BP dạng lưới 48

2.3 Thuật toán cục bộ CT 59

2.4 Các giải pháp cải tiến tốc độ xử lý của thuật toán BP 60

2.5 Đề xuất giải pháp tối thiểu hàm chi phí 61

2.5.1 Thuật toán đề xuất 1 61

Trang 7

2.6 Đề xuất giải pháp kết hợp 73

2.7 Phương pháp đánh giá thuật toán 84

CHƯƠNG 3 THỰC NGHIỆM CÁC THUẬT TOÁN ĐỀ XUẤT VÀ ĐÁNH GIÁ KẾT QUẢ 87

3.1 Công cụ và dữ liệu thực nghiệm 87

3.2 Chỉ số đánh giá độ tin cậy RMSE 88

3.3 Kết quả thực nghiệm 89

3.3.1 Thuật toán BP tiêu chuẩn 90

3.4 Đánh giá thuật toán đề xuất 101

3.4.1 Đánh giá thuật toán đề xuất 1 và thuật toán BP 101

3.4.5 So sánh các thuật toán đề xuất 118

KẾT LUẬN 122

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 124

TÀI LIỆU THAM KHẢO 125

Trang 8

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

G Mô hình đồ thị biểu diễn bản đồ chênh lệch

i,j Biểu diễn nút thứ i và nút lân cận j

của thuật toán BP và các thuật toán đề xuất tương ứng

' ''

2, 2

k k Số lần thực hiện chia thô đến mịn CTF mức 1 của thuật

toán đề xuất 1 và thuật toán đề xuất 2

' ''

1, 1

k k Số vòng lặp thực hiện trong CTF của thuật toán đề xuất 1

và thuật toán đề xuất 2

m Độ phân giải hàng của ảnh stereo camera

' '' ''' ''''

thuật toán đề xuất tương ứng

n Độ phân giải cột của ảnh stereo camera

N Tổng số các nút trong ảnh stereo camera

Hàm chi phí cho nút i và nút lân cận j của thuật toán BP

và các thuật toán đề xuất tương ứng

Trang 9

' '' ''' ''''

     Hàm chi phí nhẵn cho hai nút cạnh nhau của thuật toán

BP và các thuật toán đề xuất tương ứng

' '' ''' ''''

, , , ,

p p p p p Hệ số tỉ lệ tăng của hàm chi phí nhẵn của thuật toán BP

và các thuật toán đề xuất tương ứng

' '' ''' ''''

, , , ,

q q q q q Ngưỡng dừng tăng của hàm chi phí nhẵn của thuật toán

BP và các thuật toán đề xuất tương ứng

x x x   x  x  Giá trị nhãn được chọn gán cho nút j của thuật toán BP và

các thuật toán đề xuất tương ứng

2 Chữ viết tắt Ý nghĩa

ASIC Các mạch tích hợp ứng dụng riêng (Application Specific

Integrated circuits)

BP Lan truyền tin cậy (Belief propagation)

CFBP Lan truyền tin cậy dùng chia thô đến mịn (Coarse to fine

belief propagation)

CFCSBP Lan truyền tin cậy có độ sâu thay đổi dùng chia thô đến

mịn (Coarse to fine change space belief propagation)

CPU Khối xử lý trung tâm (Central processing unit)

CT Biến đổi thống kê (Census tranform)

CTBP Lan truyền tin cậy kết hợp biến đổi thống kê (Census

transform belief propagation)

CTCSBP Lan truyền tin cậy có độ sâu thay đổi kết hợp biến đổi thống kê

(Census transform change space belief propagation)

CTF Chia thô đến mịn ( Coarse to fine)

CUDA Kiến trúc thiết bị tính toán hợp nhất (Compute unified

device architecture)

Trang 10

DP Quy hoạch động (Dynamic programming)

DSP Vi xử lý tín hiệu số (Digital signal processing)

EPT Biến đổi điểm đường bao ( Envelope point transform)

FPGA Mảng cổng lập trình dạng trường (Field programmable

gate array)

GC Lát cắt đồ thị (Graph cut)

GPU Khối xử lý đồ họa (Graphic processing unit)

HBP Lan truyền tin cậy phân cấp (Hierarchical belief propagation)

ICM Các chế độ lặp ( Iterated conditional modes)

MAP Xác suất hậu nghiệm (Maximum a posteriori)

MRF Trường ngẫu nhiên Markov (Markov random field)

NCC Chuẩn hóa tương quan chéo ( Normalized cross correlation)

SAD Tổng chênh lệch tuyệt đối ( Sum of absolute different)

SGM Bán toàn cục (Semi - Global matching)

SIFT Biến đổi đặc trưng bất biến tỉ lệ (Scale Invariant feature

transform)

SLAM Đồng thời xây dựng bản đồ và định vị (Simultaneous

localization and mapping)

SURF Đặc trưng tăng tốc mạnh (Speed up robust feature)

'' ''''

,

Z Z Hệ số độ sâu thay đổi độ sâu của thuật toán đề xuất 2 và

thuật toán đề xuất 4

Trang 11

DANH MỤC CÁC BẢNG

Bảng 3.1 Mô tả cấu hình PC Desktop 87

Bảng 3.2 Tập dữ liệu kiểm thử 88

Bảng 3.3 Tốc độ thực hiện của thuật toán BP 90

Bảng 3.4 Độ tin cậy của thuật toán BP theo RMSE 91

Bảng 3.5 Dung lƣợng bộ nhớ yêu cầu của thuật toán BP 91

Bảng 3.6 Tốc độ thực hiện của thuật toán đề xuất 1 92

Bảng 3.7 Độ tin cậy của thuật toán đề xuất 1 theo RMSE 93

Bảng 3.8 Dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 1 94

Bảng 3.18 So sánh tốc độ thực hiện của thuật toán 1 và BP 102

Bảng 3.19 So sánh độ tin cậy của thuật toán đề xuất 1 và BP theo RMSE 103

Bảng 3.20 So sánh dung lƣợng bộ nhớ yêu cầu của thuật toán 1 và BP 105

Bảng 3.21 So sánh tốc độ thực hiện của thuật toán đề xuất 2 và BP 107

Bảng 3.23 So sánh dung lƣợng bộ nhớ yêu cầu thực hiện của thuật toán

đề xuất 2 và thuật toán BP 109

Bảng 3.28 So sánh dung lƣợng bộ nhớ yêu cầu của thuật toán đề xuất 4 và thuật toán BP 117

Bảng 3.29 So sánh tốc độ thực hiện của các thuật toán đề xuất 119

Trang

Trang 12

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Sơ đồ khối hệ thống thị giác nổi 9

Hình 1.2 Stereo camera 12

Hình 1.3 Các mẫu hiệu chuẩn dùng kỹ thuật bàn cờ 13

Hình 1.4 Các bước xoay ảnh stereo camera để hiệu chỉnh 14

Hình 1.5 Cặp điểm tương ứng của ảnh stereo camera 15

Hình 1.6 Sự khác nhau giữa thuật toán so khớp 15

Hình 1.7 Sơ đồ điểm ảnh trên trục toạ độ 3 chiều 16

Hình 1.8 Sơ đồ tham chiếu điểm ảnh 2D từ 3D 16

Hình 1.9 Sơ đồ hình chiếu của điểm ảnh lên mặt quan sát 18

Hình 2.1 Mô hình đồ thị trường ngẫu nhiên Markov 41

Hình 2.2 Mô hình trường ngẫu nhiên Markov dạng lưới 44

Hình 2.3 Mô hình Markov dạng lưới ẩn 45

Hình 2.4 Mô hình MRF dạng cây 46

Hình 2.5 Sơ đồ mô hình MRF dạng lưới 52

Hình 2.6 Sơ đồ hai nhánh của HBP 53

Hình 2.7 Sơ đồ cập nhật của thông điệp 54

Hình 2.8 Sơ đồ hiển thị nhãn 55

Hình 2.9 Sơ đồ mô hình đồ thị BBP: 55

Hình 2.10 Sơ đồ biến đổi lớp của HFBP 56

Hình 2.11 Sơ đồ mô hình 56

Hình 2.12 Sơ đồ đường bao thông điệp của Tile_BP 57

Hình 2.13 Sơ đồ mô hình thuật toán CSBP 58

Hình 2.14 Sơ đồ thuật toán Improved BP 58

Hình 2.15 Sơ đồ biến đổi CT với cửa sổ 3x3 và khoảng cách Hamming 59

Hình 2.16 Sơ đồ mô hình thuật toán đề xuất 1 62

Hình 2.17 Sơ đồ cấu trúc chia thô đến mịn mức 1 62

Hình 2.18 Sơ đồ lan truyền thông điệp 63

Hình 2.19 Lưu đồ giải thuật cho thuật toán đề xuất 1 67

Trang

Trang 13

Hình 3.1 Hệ thống thực nghiệm 87

Hình 3.2 Bản đồ chênh lệch dùng thuật toán BP 90

Hình 3.3 Bản đồ chênh lệch dùng thuật toán đề xuất 1 92

Biểu đồ 3.1 So sánh tốc độ của thuật toán đề xuất 1 và BP 103

Biểu đồ 3.2 So sánh độ tin cậy của thuật toán đề xuất 1 và BP theo RMSE 104

Biểu đồ 3.3 So sánh dung lượng bộ nhớ yêu cầu của thuật toán đề xuất 1 và thuật toán BP 105

Biểu đồ 3.4 So sánh tốc độ của thuật toán đề xuất 2 và thuật toán BP 107

Biểu đồ 3.12 So sánh tốc độ thực hiện của các thuật toán đề xuất 119

Biểu đồ 3.13 So sánh độ tin cậy của các thuật toán đề xuất theo RMSE 120

Biểu đồ 3.14 So sánh dung lượng bộ nhớ yêu cầu của các thuật toán đề xuất 120

Trang 14

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Ngày nay, khoa học kỹ thuật phát triển mạnh mẽ điển hình là cuộc cách mạng công nghiệp 4.0 được khởi xướng từ nước Đức năm 2013 Một trong các yếu tố làm nên cuộc cách mạng công nghiệp 4.0 là robot sẽ dần thay sức lao động của con người và cùng con người làm việc trong các nhà máy, công xưởng Do đó, robot phải xử lý thông tin trong môi trường 3 chiều (3D) thông qua hệ thống thị giác để định hướng, định vị, nhận dạng và xác định chính xác

vị trí các vật xung quanh được gọi là thị giác nổi (stereo vision) hay thị giác

robot 3D Ngoài ra, thị giác nổi còn được ứng dụng trong nhận dạng, tái tạo, định vị, phẫu thuật, xe tự hành, xây dựng bản đồ và trong nghệ thuật

Con người mong muốn tạo ra được hệ thị giác Robot giống như thị giác của con người, hệ thị giác đơn giản nhất là sử dụng stereo camera bao gồm hai camera thay cho hai mắt của con người kết hợp với hệ thống nhúng xử lý

dữ liệu đóng vai trò như bộ não Thông tin ảnh stereo camera được xử lý

thông qua các thuật toán trên nền tảng xử lý như khối xử lý trung tâm (CPU: central processing unit), vi xử lý tín hiệu số (DSP: digital signal processing), khối xử lý đồ họa (GPU: graphic processing unit), mảng cổng lập trình dạng trường (FPGA: field programmable gate array) và các mạch tích hợp ứng dụng riêng (ASIC: application specific integrated circuits) kết hợp với các ngôn ngữ thực hiện như Matlab, OpenCV (open computer vision), kiến trúc thiết bị tính toán hợp nhất (CUDA: compute unified device architecture) … Một hệ thống như vậy được gọi là hệ thống thị giác nổi (stereo vision system)

Các thách thức lớn đối với hệ thống thị giác nổi dùng stereo camera là nguồn

dữ liệu từ ảnh stereo camera ngày càng tăng, tốc độ thực hiện đòi hỏi đáp ứng thời gian thực, độ tin cậy cao và dung lượng bộ nhớ hữu hạn Để giải quyết bài toán này, một trong các giải pháp hiệu quả nhất là phát triển các thuật toán

Trang 15

xử lý, trong khi các nền tảng xử lý chưa phát triển kịp theo nhu cầu của con người

Thuật toán xử lý trong hệ thống thị giác nổi dùng stereo camera bao

gồm các thuật toán hiệu chuẩn (calibration) camera, thuật toán hiệu chỉnh (rectification) ảnh và thuật toán so khớp (correspondence) Thuật toán hiệu

chuẩn camera dùng để xác định các thông số bên trong và bên ngoài camera

như tiêu cự f Thuật toán hiệu chỉnh ảnh dùng để sửa méo ống kính của ảnh

Thuật toán so khớp được dùng để tìm điểm tương ứng (Stereo correspondence)

của điểm ảnh trên ảnh trái và ảnh phải của ảnh stereo camera, từ đó xác định được thông tin độ chênh lệch của điểm tương ứng cũng như bản đồ độ chênh

lệch (disparity map) của ảnh stereo camera Từ dữ liệu về độ chênh lệch sẽ

xác định được độ sâu, khoảng cách của đối tượng Trong các thuật toán xử lý thì thuật toán so khớp có ảnh hưởng nhất đến chất lượng của hệ thống thị giác nổi dùng stereo camera

Ngoài thông tin lấy từ ảnh, thị giác robot 3D có thể lấy thông tin từ các nguồn khác như cảm biến ánh sáng và laze Bài toán xử lý thông tin từ ảnh là bài toán rất khó và không xác định bởi vì ảnh có các vùng đồng nhất, vùng bị che và đặc biệt bị ảnh hưởng rất nhiều từ môi trường xung quanh như ánh sáng

Thị giác robot 3D được phân loại thành hai hệ thống: một là hệ thống thụ động bao gồm camera đơn, stereo camera, cảm biến ánh sáng và hai là hệ thống chủ động như cảm biến laze Mỗi hệ thống đều có ưu điểm và nhược điểm Tuy nhiên, để hệ thống vừa xác định được khoảng cách và tái tạo được vật thể hệ thống thụ động dùng stereo camera có ưu điểm nhất

Stereo camera được dùng trong hệ thống thị giác nổi được phân loại thành hai loại là stereo camera có độ phân giải cao, mật độ điểm tương ứng

thưa (sparse) và stereo camera có độ phân giải cao, mật độ điểm tương ứng

Trang 16

dày (dense) Đối với mỗi loại stereo camera thì có các thuật toán so khớp

tương ứng Các thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng thưa có tốc độ tính toán nhanh và yêu cầu bộ nhớ thấp tuy nhiên có hạn chế là độ tin cậy thấp, không thực hiện được ở ảnh các vùng giống nhau và không quan sát được Các thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dày có ưu điểm là độ tin cậy cao tuy nhiên độ phức tạp tính toán và dung lượng bộ nhớ yêu cầu lớn

Các thuật toán so khớp thực hiện bản đồ độ chênh lệch của stereo camera có độ phân giải cao, mật độ các điểm tương ứng dầy bao gồm thuật

toán cục bộ (local) và thuật toán toàn cục (global) Thuật toán cục bộ có độ

phức tạp tính toán và yêu cầu bộ nhớ thấp nhưng độ tin cậy cũng thấp so với thuật toán toàn cục

Ở trong nước, đã có một số tác giả nghiên cứu ứng dụng thị giác 3D cho robot như tác giả Bạch Ngọc Minh [4] trường Đại học Quốc gia Hà Nội

đã nghiên cứu so sánh các thuật toán xử lý thông tin ảnh stereo camera cho hệ thống thị giác nổi và tác giả Nguyễn Quang Hùng [3] trung tâm MICA thuộc trường Đại học Bách khoa Hà Nội đã ứng dụng thị giác nổi dùng camera hỗ trợ cho người khiếm thị Ngoài ra, tác giả Trương Quốc Bảo [1] trường Đại học Cần thơ đã áp dụng thị giác nổi trong nông nghiệp như thu hoạch cà chua

và tác giả Trần Thuận Hoàng [2] trường đại học Quốc gia đã nghiên cứu các camera dẫn đường cho robot đi động

Ở ngoài nước, vấn đề thị giác nổi đã và đang được nghiên cứu và phát

triển mạnh như [25], [64], [87], [100], [106] Tác giả R Szeliski và D Scharstein [29] đã so sánh đánh giá một số lượng lớn các thuật toán thị giác

nổi trên cùng một hệ thống xử lý và cùng sử dụng tập dữ liệu kiểm thử Ngoài

ra, tác giả R Szeliski còn xây dựng bộ ảnh stereo camera kiểm thử được rất

nhiều nhà nghiên cứu sử dụng để thử nghiệm khi nghiên cứu, cải tiến thuật

Trang 17

toán so khớp [30] Một số thuật toán so khớp được dùng cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng thưa như SIFT [10], SURF [66] đã được nghiên cứu và phát triển Các thuật toán này hoạt động dựa trên các đặc trưng của ảnh dẫn đến tốc độ thực hiện nhanh, dung lượng bộ nhớ yêu cầu thấp như phải trả giá về độ tin cậy thấp như không thực hiện được ở các vùng ảnh đồng nhất, các vùng ảnh không quan sát được Để khắc phục nhược điểm này, các thuật toán so khớp dùng cho ảnh stereo camera có

độ phân giải cao, mật độ điểm tương ứng dày được nghiên cứu và phát triển như SAD [15], BP [104] và DP [110] Các thuật toán này hoạt động với ảnh

có mật độ điểm tương ứng dầy dẫn đến độ tin cậy cao, có thể thực hiện xử lý trên các vùng ảnh đồng nhất, vùng ảnh không quan sát được tuy nhiên, nó cũng phải trả giá bằng tốc độ thực hiện chậm cũng như dung lượng bộ nhớ yêu cầu lớn

Từ những phân tích trên, để góp phần giải quyết một số vấn đề nâng cao chất lượng và tốc độ trong hệ thống thị giác nổi đáp ứng về yêu cầu bộ nhớ, đảm bảo độ tin cậy, nghiên cứu sinh lựa chọn đề tài luận án là:

“Nghiên cứu giải pháp nâng cao tốc độ xử lý tín hiệu trong hệ thống thị giác nổi”

Luận án sẽ đề xuất các giải pháp để giải quyết bài toán nâng cao tốc độ

xử lý tín hiệu và giảm dung lượng bộ nhớ yêu cầu trong hệ thống thị giác nổi

dùng stereo camera có độ phân dải cao, mật độ điểm tương ứng dày

2 Mục tiêu nghiên cứu

Nghiên cứu các giải pháp cụ thể để cải tiến thuật toán lan truyền tin cậy

BP (Belief Propagation) nhằm tăng tốc độ thực hiện và giảm dung lượng bộ

nhớ yêu cầu khi thực hiện bản đồ độ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dày trong hệ thống thị giác nổi ứng dụng cho thị giác robot 3D

Trang 18

3 Đối tượng, phạm vi nghiên cứu

- Luận án tập trung nghiên cứu thị giác nổi dùng stereo camera và ứng dụng thị giác nổi vào thị giác robot làm việc trong môi trường 3 chiều

- Luận án tập trung nghiên cứu giải pháp giảm năng lượng chi phí của thuật toán toàn cục lan truyền tin cậy BP thực hiện bản đồ độ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy

- Ảnh stereo camera được lấy từ tập dữ liệu kiểm thử [30]

- Nghiên cứu, đề xuất giải pháp cải tiến thuật toán lan truyền tin cậy BP nhằm nâng cao hiệu quả thực hiện bản đồ độ chênh lệch

- Thực hiện các thuật toán đề xuất trên nền tảng xử lý GPU GTX 750Ti [71] và ngôn ngữ CUDA [70]

4 Phương pháp nghiên cứu

Luận án tập trung nghiên cứu giải pháp tối thiểu hàm chi phí của thuật toán lan truyền tin cậy BP là thuật toán suy luận gần đúng dựa trên mô hình

trường ngẫu nhiên Markov [5] (Mô hình bao gồm lý thuyết đồ thị và lý thuyết xác suất thống kê) thực hiện bản đồ độ chênh lệch từ ảnh stereo camera có độ

phân giải cao, mật độ điểm tương ứng dầy Phân tích các thuật toán cải tiến thuật toán BP từ đó đề xuất giải pháp nhằm tối thiểu hàm chi phí của thuật toán BP và lựa chọn nền tảng xử lý phù hợp nhằm đạt được mục đích đề ra của luận án Từ phân tích toán học, biểu thức hóa các tham số, luận án dùng các công cụ mô phỏng, lấy dữ liệu từ tập dữ liệu kiểm thử [30] để chứng minh tính đúng đắn của các kết quả nghiên cứu

5 Ý nghĩa khoa học và thực tiễn của luận án

Bản đồ chênh lệch (disparity map) của ảnh stereo camera có vai trò rất

quan trọng trong thị giác robot 3D Từ bản đồ độ chênh lệch, kết hợp với phép đạc tam giác sẽ cho bản đồ độ sâu và ước lượng khoảng cách từ camera đến vật được gọi là kĩ thuật thị giác nổi Kĩ thuật này được áp dụng rộng rãi trong

Trang 19

công nghiệp, robot, phẫu thuật, xe tự hành, định vị, xây dựng bản đồ và nghệ thuật

Luận án đã đề xuất hai giải pháp tối thiểu hàm chi phí cho thuật toán lan truyền tin cậy BP Giải pháp thứ nhất thực hiện giảm số lượng các nút trong mô hình trường ngẫu nhiên Markov thông qua các vòng lặp dùng

phương pháp chia thô đến mịn CTF (Coarse to fine) mức 1 Giải pháp thứ hai thực hiện kết hợp giữa thuật toán cục bộ CT (Census transform) và thuật toán

toàn cục BP đã cải thiện giảm năng lượng chi phí của nút xuất phát ban đầu khi thực hiện lan truyền thông điệp của thuật toán BP

6 Bố cục luận án

Luận án được bố cục theo 3 chương cùng với mở đầu và kết luận:

Mở đầu: Nêu được tính cấp thiết của luận án, mục đích, phạm vi, phương pháp nghiên cứu và ý nghĩa khoa học, thực tiễn của luận án

Chương 1: Trình bày tổng quan về hệ thống thị giác nổi và xử lý tín

hiệu trong hệ thống thị giác nổi gồm khối thông tin ảnh, khối xử lý thông tin ảnh và khối phát triển ứng dụng Phân tích các yếu tố ảnh hưởng đến tốc độ

xử lý tín hiệu trong hệ thống thị giác nổi bao gồm phần cứng và phần mềm Tổng quan các thuật toán so khớp thực hiện bản đồ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng thưa hoặc mật độ điểm tương ứng dày

Chương 2: Trình bày một số đặc trưng của trường ngẫu nhiên Markov

và ứng dụng chúng vào thuật toán lan truyền tin cậy BP Nêu nguyên lý hoạt động của lan truyền tin cậy BP và ứng dụng thuật toán BP để xác định bản đồ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy Phân tích, đánh giá các thuật toán lan truyền tin cậy BP cải tiến, trên cơ

sở thuật toán lan truyền tin cậy BP, luận án đề xuất hai giải pháp nâng cao tốc

độ xử lý cho thuật toán BP Giải pháp thứ nhất thực hiện giảm số lượng các nút trong mô hình trường ngẫu nhiên Markov thông qua các vòng lặp dùng

Trang 20

phương pháp chia thô đến mịn mức 1 với hai thuật toán đề xuất là thuật toán

lan truyền tin cậy dùng chia thô đến mịn CFBP (Coarse to fine belief propagation) gọi là thuật toán đề xuất 1 và thuật toán lan truyền tin cậy có độ sâu thay đổi dùng chia thô đến mịn CFCSBP (Coarse to fine change space belief propagation) gọi là thuật toán đề xuất 2 Giải pháp thứ hai thực hiện kết

hợp giữa thuật toán cục bộ CT và thuật toán toàn cục BP đã cải thiện giảm năng lượng chi phí của nút xuất phát ban đầu khi thực hiện lan truyền thông điệp của thuật toán BP Giải pháp này có hai thuật toán đề xuất là thuật toán

lan truyền tin cậy kết hợp biến đổi thống kê CTBP (Census transform belief propagation) gọi là thuật toán đề xuất 3 và thuật toán lan truyền tin cậy có độ sâu thay đổi kết hợp biến đổi thống kê CTCSBP (Census transform change space belief propagation) gọi là thuật toán đề xuất 4 Xây dựng mô hình, lưu

đồ thuật toán chương trình cho các giải pháp đề xuất nhằm nâng cao tốc độ xử

lý tín hiệu trong hệ thống thị giác nổi

Chương 3: Thực nghiệm các thuật toán đề xuất và thuật toán lan

truyền tin cậy BP thực hiện bản đồ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy trên hệ thống nhúng với trình biên dịch và dữ liệu vào giống nhau Hệ thống thực nghiệm là một hệ máy tính PC Desktop với CPU core i7, card màn hình GPU GTX 750Ti với phần mềm biên dịch QTCreator 5.8 kết hợp OpenCV 3.0, Visual Studio 2013 và CUDA

Tập dữ liệu thử nghiệm là tập dữ liệu kiểm thử chuẩn của Middlebury [30] So

sánh, đánh giá các thuật toán đề xuất với thuật toán BP dựa trên các yếu tố như tốc độ thực hiện, dung lượng bộ nhớ yêu cầu và độ tin cậy

Kết luận: Nêu các kết quả đạt được của luận án, ứng dụng kết quả luận

án vào thực tiễn và kiến nghị hướng các nghiên cứu tiếp theo

Trang 21

CHƯƠNG 1: TỔNG QUAN VỀ THỊ GIÁC NỔI VÀ XỬ LÝ TÍN HIỆU

TRONG HỆ THỐNG THỊ GIÁC NỔI

Ngày nay, con người mong muốn sẽ tạo ra được hệ thị giác giống như

hệ thị giác của con người Hình ảnh từ mắt người bình thường là ảnh có độ

sâu và người ta thường gọi đó là ảnh nổi, ảnh lập thể hay thị giác nổi (stereo vision) Với người bình thường thì hệ thị giác bao gồm hai con mắt kết hợp

với hệ cấu trúc thần kinh phức tạp và trung tâm xử lý của não, con người có thể dễ dàng cảm nhận các đối tượng xung quanh như ước lượng khoảng cách

và tưởng tượng ra đối tượng Từ mong muốn đó, con người chế tạo ra hệ thị giác nổi như hệ thị giác robot 3D làm việc giống như hệ thị giác của con người Hệ thị giác robot 3D bao gồm stereo camera có độ phân giải cao kết hợp với phần cứng là các hệ thống xử lý tín hiệu thông tin ảnh và các thuật toán xử lý Đối với hệ thị giác của con người thì đôi mắt là stereo camera, còn thuật toán và hệ thống xử lý là cấu trúc hệ thần kinh và trung tâm xử lý não của con người Các thuật toán xử lý bao gồm các thuật toán hiệu chỉnh ảnh và các thuật toán so khớp tìm điểm tương ứng trên ảnh stereo camera và phép đạc tam giác

Trong chương 1, luận án sẽ trình bày về tổng quan thị giác nổi, mô hình stereo camera và các phương pháp hiệu chuẩn, các phương pháp hiệu chỉnh, các phương pháp tìm điểm so khớp và phép đạc tam giác Ngoài ra, trong chương này luận án cũng giới thiệu, phân tích các nền tảng xử lý và đánh giá các nền tảng xử lý dùng cho xử lý thông tin ảnh trong hệ thống thị giác nổi

1.1 Tổng quan thị giác nổi

Thị giác nổi là thành phần rất quan trọng trong thị giác máy và được nhiều nhà khoa học nghiên cứu và phát triển trong hai thập kỉ gần đây Hệ thống thị giác nổi được áp dụng khá rộng rãi trong nhiều lĩnh vực như robot,

Trang 22

xe tự hành, y khoa, nghệ thuật, giải trí và đặc biệt trong cuộc cách mạng công nghiệp 4.0 [59] Con người muốn tạo ra một hệ thị giác robot làm việc được trong môi trường 3 chiều gần giống với thị giác con người, khi đó robot và con người cùng nhau hoạt động sản xuất [55]

Hình 1.1 Sơ đồ khối hệ thống thị giác nổi Hiện nay, theo [64], hệ thống thị giác nổi như Hình 1.1 được chia làm hai loại là hệ thống thị giác nổi chủ động và hệ thống thị giác nổi thụ động

Hệ thống chủ động là hệ thống sử dụng cảm biến laze và cảm biến ánh sáng

để tái tạo đối tượng [107] Hệ thống thụ động là hệ thống sử dụng camera quang như camera đơn [79], stereo camera [50] với độ phân giải cao, mật độ điểm tương ứng thưa hoặc mật độ điểm tương ứng dầy Một số yêu cầu chính của hệ thị giác nổi thụ động là đảm bảo tốc độ thực hiện, độ tin cậy và dung lượng bộ nhớ yêu cầu Tùy theo mức độ yêu cầu của hệ thống thị giác nổi mà lựa chọn stereo camera, thuật toán xử lý và nền tảng xử lý cho phù hợp Tuy nhiên, một hệ thống đáp ứng tốt cả 3 yêu cầu này là rất khó thực hiện vì yêu cầu về tốc độ thực hiện và dung lượng bộ nhớ yêu cầu thường tỉ lệ nghịch với yêu cầu về độ tin cậy Chất lượng của hệ thống thị giác nổi phụ thuộc vào chất lượng của thuật toán xử lý như chất lượng của các phương pháp hiệu chuẩn camera, phương pháp hiệu chỉnh ảnh và phương pháp tìm điểm tương ứng Các phương pháp hiệu chuẩn [22] xác định được thông số bên trong và bên ngoài camera, các phương pháp hiệu chỉnh [26], [45] sửa méo ống kính

và các phương pháp so khớp [46] xác định bản đồ chênh lệch Ngoài ra, chất lượng hệ thống thị giác nổi còn phụ thuộc vào chất lượng của stereo camera như độ phân giải và chất lượng của nền tảng xử lý tín hiệu như CPU, DSP, GPU, FPGA và ASIC

ứng dụng Khối xử lý

thông tin ảnh

Trang 23

Thuật toán so khớp được phân làm hai loại là thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng thưa như SURF [66] và SIFT [10] và thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy như SAD [15], BP [104] và DP [110] Thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng thưa sử dụng các điểm đặc trưng trên ảnh như góc, cạnh sẽ cho kết quả tốc độ cao và dung lượng bộ nhớ yêu cầu thấp tuy nhiên nó có nhược điểm không xác định được các vùng đồng nhất và vùng không quan sát được nghĩa là độ tin cậy thấp Thuật toán so khớp cho ảnh stereo camera có

độ phân giải cao, mật độ điểm tương ứng dầy nên có độ phức tạp tính toán cao và dung lượng bộ nhớ yêu cầu lớn Các thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dầy được phân làm ba

loại thuật toán đó là thuật toán cục bộ (local) [15], [101], thuật toán toàn cục (global) [48], [78] và thuật toán lai [24], [90] Thuật toán so khớp cục bộ dựa

trên cửa sổ, kích thước cửa sổ phải đủ lớn để xác định được điểm khớp và đủ nhỏ để xác định được các điểm trên biên của ảnh Thuật toán so khớp cục bộ cho tốc độ xử lý nhanh, dung lượng bộ nhớ yêu cầu thấp và độ tin cậy thấp so với thuật toán so khớp toàn cục Thuật toán so khớp toàn cục cho tốc độ chậm, dung lượng bộ nhớ cao và độ tin cậy cao so với thuật toán cục bộ Thuật toán lai có tốc độ thực hiện, dung lượng bộ nhớ yêu cầu và độ tin cậy nằm ở giữa thuật toán toàn cục và thuật toán cục bộ Tùy theo các ứng dụng

cụ thể mà lựa chọn thuật toán so khớp cùng với nền tảng xử lý phù hợp sẽ cho

hệ thống thị giác nổi đạt được hiệu quả cao Trong khi yêu cầu của con người càng cao, stereo camera có độ phân giải càng lớn, tốc độ phát triển của các nền tảng xử lý chưa đáp ứng kịp thì việc nghiên cứu, phát triển các thuật toán

xử lý rất được các nhà nghiên cứu quan tâm Đặc biệt là các thuật toán so khớp luôn được các nhà nghiên cứu ưu tiên phát triển và cải tiến

Trang 24

1.1.1 Một số khái niệm

Thị giác robot làm việc trong môi trường 3 chiều còn được gọi là thị giác robot 3D hay thị giác nổi Thị giác nổi là một phần quan trọng trong thị giác máy, các phương pháp ước lượng khoảng cách từ camera đến vật, tái tạo

và lập bản đồ độ sâu của vật được gọi là kỹ thuật thị giác nổi

Stereo camera: Hệ camera bao gồm hai hoặc nhiều camera được gán

trên một giá đỡ cùng chụp một cảnh với các góc nhìn khác nhau được gọi là stereo camera

Ảnh stereo camera: Hai hoặc nhiều ảnh cùng chụp một cảnh với góc

nhìn khác nhau được gọi là ảnh stereo camera

Điểm tương ứng (Stereo correspondence): Hai hoặc nhiều điểm nằm

trên các ảnh của ảnh stereo camera cùng biểu diễn một điểm trên cảnh được gọi là điểm tương ứng

So khớp (Stereo matching): Quá trình tìm điểm tương ứng trên các ảnh

của ảnh stereo camera được gọi là kỹ thuật so khớp và được thực hiện thông qua các thuật toán so khớp

Độ chênh lệch: Sự khác nhau về vị trí của điểm tương ứng trên ảnh stereo camera được gọi là độ chênh lệch và thường ký hiệu là d (disparity)

Với mỗi camera có góc nhìn đến điểm tương ứng khác nhau dẫn đến vị trí hay

độ xám của điểm tương ứng trên mỗi ảnh của ảnh stereo camera khác nhau

Bản đồ chênh lệch (disparity map): Tập hợp các độ chênh lệch của

điểm tương ứng trên ảnh stereo camera được gọi là bản đồ chênh lệch Bản đồ chênh lệch là nhân tố rất quan trọng để lập được bản đồ độ sâu của vật Do vậy khi nói về kỹ thuật thị giác nổi người ta tập trung nghiên cứu, phát triển

và cải tiến các thuật toán so khớp tìm bản đồ chênh lệch của ảnh stereo camera từ stereo camera

Trang 25

Quá trình xử lý thông tin ảnh từ ảnh stereo camera để xác định được bản đồ độ sâu của vật trong hệ thống thị giác nổi được gọi là quá trình xử lý tín hiệu trong hệ thống thị giác nổi Để nâng cao tốc độ xử lý tín hiệu thì ngoài việc tối thiểu hàm chi phí xác định điểm tương ứng còn phải lựa chọn thuật toán so khớp và nền tảng xử lý tín hiệu phù hợp

1.1.2 Hệ thống thị giác nổi

Để tạo ra được ảnh nổi đã có nhiều hệ thống thị giác nổi được đề xuất [50], [107] Tùy theo mức độ yêu cầu của nhiệm vụ, hệ thống thị giác nổi sẽ được lựa chọn cho phù hợp nhằm mang lại hiệu quả tốt nhất Hệ thống thị giác nổi được lựa chọn để phân tích ở đây là hệ thống thụ động bao gồm khối thông tin ảnh, khối xử lý thông tin ảnh và khối phát triển ứng dụng Khối thông tin ảnh là stereo camera với hai camera có độ phân giải cao Khối xử lý thông tin ảnh bao gồm thuật toán xử lý là thuật toán so khớp lan truyền tin cậy

BP và phần cứng là nền tảng xử lý GPU GTX 750Ti Khối phát triến ứng dụng là thị giác robot 3D

1.1.2.1 Khối thông tin ảnh

Khối thông tin ảnh bao gồm hai khối là khối stereo camera và khối hiệu chuẩn ảnh Khối này có nhiệm vụ cung cấp ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dày và

các thông số của ảnh như kích

thước, độ sâu cũng như các thông số

bên trong và bên ngoài của stereo

camera

Stereo camera đơn giản nhất

là hai camera được gắn trên giá đỡ

như Hình 1.2

Hình 1.2 Stereo camera

Trang 26

Mục đích của quá trình hiệu chuẩn camera là tìm được các thông số bên

trong và bên ngoài của stereo camera Các thông số bên trong như: tiêu cự f, điểm trung tâm c và độ méo k c Các thông số bên ngoài như: các phép xoay R c (rotations) và các phép dịch chuyển T c (translations) Để hiệu chuẩn camera

thì phải tạo một tập ảnh mẫu gồm 10 cặp ảnh với các góc nghiêng khác nhau cho một camera, để thực hiện hai camera thì ta cần 20 cặp như Hình 1.3 Thông thường, dùng kỹ thuật bàn cờ để tạo ảnh mẫu

Hình 1.3 Các mẫu hiệu chuẩn dùng kỹ thuật bàn cờ

1.1.2.2 Khối xử lý thông tin ảnh

Khối xử lý thông tin ảnh bao gồm các thuật toán xử lý và thiết bị nhúng

để thực hiện các thuật toán xử lý thông qua các ngôn ngữ như C, C++, Matlab, OpenCV, QTCreator Thuật toán xử lý bao gồm thuật toán hiệu chỉnh ảnh, thuật toán so khớp và phép đạc tam giác Thuật toán hiệu chỉnh ảnh làm nhiệm vụ xử lý méo ống kính, quá trình này cũng ảnh hưởng đến tốc

độ của hệ thống Ảnh stereo camera sau khi đã được khử méo sẽ được thực hiện xác định bản đồ chênh lệch thông qua các thuật toán so khớp Tốc độ xử

lý tín hiệu của hệ thống thị giác nổi phụ thuộc chủ yếu vào quá trình xác định bản đồ chênh lệch của ảnh stereo camera Bản đồ độ sâu của ảnh được xác định thông qua phép đạc tam giác

Quá trình hiệu chỉnh ảnh là quá trình biến đổi đồng nhất (homograph) hai ảnh của ảnh stereo camera, có nghĩa là các đường epipole song song với

Trang 27

trục hoành của ảnh Đường epipole là tập hợp các điểm tương ứng trên một

hàng của ảnh stereo camera Đơn giản, quá trình hiệu chỉnh ảnh được mô tả bằng cách xoay camera theo ba bước như Hình 1.4 [45]

Hình 1.4 Các bước xoay ảnh stereo camera để hiệu chỉnh

Bước 1: Các mặt phẳng ảnh trở lên song song với trục CC’

Bước 2: Xoay các ảnh trong mặt phẳng của chúng để có các đường epipole chỉ song song với CC’

Bước 3: Xoay một trong các mặt phẳng ảnh quanh trục CC’ thẳng hàng

các đường epipole tương ứng trong cả hai ảnh

Điểm tương ứng là hai điểm trên hai ảnh trái và ảnh phải của ảnh stereo camera cùng chụp một điểm trên cảnh như Hình 1.5 Với ảnh stereo camera

có góc chụp khác nhau nên các điểm tương ứng thường có sự chênh lệch về vị

trí (hay độ xám) và được gọi là độ chênh lệch d Tập hợp các độ chênh lệch của điểm tương ứng sẽ cho bản đồ chênh lệch Tham số d rất quan trọng trong

hệ thống thị giác nổi, nó thể hiện tốc độ thực hiện cũng như độ tin cậy của bản

đồ độ sâu của ảnh Quá trình xác định d được thực hiện thông qua các thuật

toán so khớp Theo [64], với các thuật toán so khớp khác nhau sẽ cho độ tin cậy khác nhau được thể hiện qua Hình 1.6

Trang 28

Hình 1.5 Cặp điểm tương ứng của ảnh stereo camera

Hình 1.6 Sự khác nhau giữa thuật toán so khớp

Bản đồ chênh lệch

Thuật toán so khớp truyền thống

Thuật toán so khớp hiện đại

Trang 29

Bản đồ chênh lệch là tập hợp các độ chênh lệch của các điểm tương ứng trên ảnh stereo camera Từ bản đồ chênh lệch, ứng dụng phép đạc tam giác sẽ cho ước lượng khoảng cách từ camera đến đối tượng và bản đồ độ sâu của ảnh

Trong hình học không gian, người ta mô tả các điểm thị giác nổi P trong tọa độ 3D như Hình 1.7 và tham chiếu 2D như Hình 1.8 Trong đó O l và

O r tương ứng tọa độ của camera trái và camera phải, P là điểm trong tọa độ thực, b là khoảng cách

giữa hai camera còn được

gọi là đường cơ sở, f là

tiêu cự camera, Z là

khoảng cách từ camera

đến điểm P, p và p ’ tương

ứng là điểm tham chiếu

2D của điểm P trên mặt

phẳng của camera trái và camera

phải Muốn xác định được Z, cần

phải tìm được độ chênh lệch d

giữa hai điểm tương ứng trên ảnh

trái và ảnh phải cùng chụp điểm

P Muốn xác định được d, xét sơ

đồ mô tả độ chênh lệch như Hình

1.7 Trong đó, hệ tọa độ camera

trái dịch chuyển theo trục X so

với camera phải một khoảng là b(baseline)

Khi đó, hệ tọa độ ảnh của điểm P(X, Y, Z) được chiếu trên mặt phẳng camera trái có tọa độ là p l (x l , y l ), trong đó

Hình 1.8 Sơ đồ tham chiếu điểm ảnh 2D

từ 3D

Hình 1.7 Sơ đồ điểm ảnh trên trục toạ độ 3 chiều

Camera trái (0, 0, 0)

Trang 30

và quan trọng nhất Do vậy, nội dung chính của luận án tập trung nghiên cứu các giải pháp nâng cao tốc độ xử lý và giảm dung lượng bộ nhớ khi thực hiện bản đồ chênh lệch của ảnh stereo camera có độ phân giải cao, mật độ điểm tương ứng dày Các yếu tố ảnh hưởng đến tốc độ và chất lượng của bản đồ chênh lệch sẽ được trình bày trong các mục tiếp theo của luận án

Trang 31

1.2 Mô hình camera

Mô hình là công thức toán học, nó biểu diễn hoạt động của thiết bị thông qua gần đúng các phương trình toán học Mô hình camera được biểu diễn gần đúng bằng hình học với vị trí và hướng của camera trong khung cảnh Đã có một số mô hình camera được đề xuất tương ứng với độ chính xác khác nhau Mô hình camera đơn giản nhất là biến đổi tuyến tính không xét đến méo của ống kính Tuy nhiên một số mô hình cần đến độ chính xác cao thì phải xét đến méo của ống kính như mô hình phi tuyến

Xét mô hình camera được đề xuất từ Hall [39] Mục đích của mô hình

là tìm mối quan hệ của điểm 3D trong cảnh với điểm chiếu 2D của nó trên mặt phẳng ảnh Mối quan hệ được mô tả gần đúng thông qua các phương trình toán học như ma trận chuyển đổi được đưa ra như công thức (1.5)

Trang 32

1.3 Phương pháp hiệu chuẩn camera

Phương pháp hiệu chuẩn camera sẽ quyết định đến tốc độ thực hiện và

độ tin cậy của các tham số bên trong và bên ngoài của camera Hiện nay có

một số phương pháp hiệu chuẩn ảnh kinh điển như Hall [39], Salvi [37], Tsai [91] và Weng [76] dựa trên các mô hình camera tương ứng Mỗi mô hình sẽ

có phương pháp hiệu chuẩn thích hợp và có ưu và nhược điểm khác nhau

1.3.1 Phương pháp hiệu chuẩn Hall

Phương pháp hiệu chuẩn của Hall [39] được biểu diễn theo công thức (1.5) và được biến đổi theo công thức (1.6):

I u

1.3.2 Phương pháp hiệu chuẩn Salvi

Tác giả Salvi [37] đã hiệu chuẩn các thông số camera có xét đến yếu tố

méo ống kính đã làm tăng độ chính xác của phép hiệu chuẩn Khi đó, phương trình trở lên phi tuyến và thay kĩ thuật bình phương tối thiểu tuyến tính bằng

kĩ thuật lặp lại

1.3.3 Phương pháp hiệu chuẩn Tsai

Phương pháp hiệu chỉnh Tsai [91] chỉ xét đến méo ống kính xuyên tâm

nhưng giả thiết các thông số của camera được cung cấp bới nhà sản xuất Điều này làm giảm các thông số hiệu chỉnh trong việc xác định giá trị dự đoán ban đầu trong bước thứ nhất Hơn nữa, tất cả các thông số tối ưu trong vòng lặp cho đến bước cuối cùng và số lượng các vòng lặp cũng được giảm xuống

Trang 33

1.3.4 Phương pháp hiệu chuẩn Weng

Phương pháp hiệu chỉnh Tsai [91] dựa trên mô hình méo ống kính

xuyên tâm Trong một số ứng dụng thì phương pháp này không đầy đủ

Phương pháp hiệu chuẩn của Weng [76] xét đến ba loại méo ống kính được đề

cập là méo ống kính xuyên tâm, méo ống kính lệch tâm và méo ống kính có lăng kính mỏng Thực tế phương pháp này làm tăng số các bước để hiệu chỉnh camera

Nhận xét: Trong các phương pháp hiệu chuẩn đã nêu trên thì phương pháp hiệu chuẩn Weng có độ tin cậy cao nhất vì xét cả ba yếu tố gây méo ống

kính là méo xuyên tâm, méo lệch tâm và méo lăng kính mỏng Tuy nhiên, phương pháp hiệu chỉnh Weng cũng làm tăng các bước thực hiện có nghĩa là làm giảm hiệu năng thực hiện

1.4 Phương pháp hiệu chỉnh ảnh

Hiệu chỉnh camera là để sửa méo ống kính của ảnh stereo camera, do vậy quá trình này ảnh hưởng đến độ tin cậy của điểm tương ứng Quá trình thực hiện hiệu chỉnh là làm đồng nhất hai ảnh của stereo camera có nghĩa là

các đường epipolar của ảnh stereo camera song song với nhau và cùng song song với trục hoành của ảnh Đường epipolar là tập hợp các điểm tương ứng của ảnh stereo camera trên một hàng Do đó việc xác định hình học epipolar

ảnh hưởng đến các điểm tương ứng trên hai ảnh của ảnh stereo camera

Các phương pháp hiệu chỉnh ảnh đều làm tối ưu quá trình đồng nhất của ảnh stereo camera và nâng cao độ tin cậy xử lý thông tin ảnh Phương pháp hiệu chỉnh được chia làm hai dạng Dạng thứ nhất, các phương pháp hiệu chỉnh sau khi đã hiệu chuẩn có nghĩa là đã xác định được các tham số bên trong và bên ngoài của camera như ma trận xoay và phép biến đổi [9], [105] Dạng thứ hai, các phương pháp hiệu chỉnh thực hiện mà không hiệu chuẩn [26]

Trang 34

Tác giả Ayache và Francis [9] và Fusiello [105] đã đề xuất phương

pháp hiệu chỉnh dựa trên các thông số camera Nhược điểm chính của phương pháp này là phải phụ thuộc vào độ tin cậy của quá trình hiệu chuẩn camera Chính vì lý do đó, một số nhà nghiên cứu đã đề xuất kỹ thuật xạ ảnh hay còn gọi là không hiệu chuẩn, có nghĩa là quá trình hiệu chỉnh không sử dụng các

tham số camera Tác giả Hartley và Andrew [88] đã phát triển nền tảng lý

thuyết cho kỹ thuật này bằng cách cực tiểu hóa sự khác nhau của các điểm

tương ứng Tác giả Loop và Zhang [13] đã ước lượng sự đồng nhất bằng cách phân chia chúng vào phép biến đổi ánh xạ và biến đổi affine Tác giả Pollefeys [49] đã đề xuất một phương pháp hiệu chỉnh đơn giản và hiệu quả cho ảnh stereo camera dùng một tham số cực của ảnh xung quanh epipoler, trong khi đó tác giả Gluckman và Nayar [88] đã đưa ra phương pháp hiệu

chỉnh để giảm thiểu hiệu ứng lấy mẫu lại, mà nó tương ứng sự mất hoặc tái tạo lại điểm ảnh do lấy mẫu trên hoặc dưới Một phương pháp đơn giản khác

được phát triển bởi tác giả Mallon và Whelan [11], đã áp dụng phân tích véc

tơ đơn vào xấp xỉ bậc nhất trong phép biến đổi trực giao để giảm sự méo của ảnh

Gần đây, tác giả Fusiello và Luca [8] đã đề xuất một phương pháp hiệu chỉnh Quasi Euclidean epipole mà xấp xỉ trường hợp Euclidean bằng cách đặt

phép biến đổi chỉnh lưu để giảm phép tính bằng mặt phẳng tại vô cực, mà không làm ảnh hưởng bước khởi tạo trong quá trình tối giản hóa có nghĩa

phương pháp này làm giảm lỗi hiệu chỉnh Tác giả Monessa [45] đã đề xuất

phương pháp hiệu chỉnh ảnh theo ba bước dễ dàng được công thức hóa như vấn đề giảm thiểu một tham số theo giả thuyết tỉ lệ khung Hình vuông, độ

nghiêng và điểm trung tâm ảnh Tác giả Changming [19] đã đề xuất phương pháp hiệu chỉnh Closed-form đã tự động hiệu chỉnh hai ảnh không hiệu chuẩn

chỉ dùng ma trận cơ bản mà không có bước tối thiểu hóa lặp, tất cả các bước

Trang 35

thực hiện chỉ liên quan trực tiếp đến biến đổi hình học Tác giả Georgiev [32]

đã đề xuất phương pháp hiệu chỉnh với giá trị tính toán thấp, tuy nhiên nó chỉ

áp dụng cho việc thiết lập ảnh nổi

Nhận xét: Quá trình hiệu chỉnh là một trong quá trình xử lý thông tin

ảnh, quá trình này ảnh hưởng trực tiếp đến độ tin cậy sự đồng nhất hai ảnh của ảnh stereo camera Sau khi đã đồng nhất được hai ảnh của ảnh stereo camera, công việc tiếp theo rất quan trọng ảnh hưởng đến hiệu quả của hệ thống là xác định điểm tương ứng giữa các điểm của ảnh stereo camera Quá trình xác định điểm tương ứng và lập bản đồ chênh lệch được thực hiện thông qua các thuật toán so khớp hay còn được gọi là thuật toán thị giác nổi Mỗi thuật toán so khớp có ưu điểm và nhược điểm khác nhau thông qua ba yếu tố

để đánh giá thuật toán là tốc độ thực hiện, dung lượng bộ nhớ yêu cầu và độ tin cậy Tùy theo yêu cầu của hệ thống thị giác nổi mà lựa chọn thuật toán so khớp phù hợp để đạt được hiệu quả tốt nhất cho hệ thống

1.5 Các thuật toán so khớp

Trong khoảng hai thập kỉ qua, đã có rất nhiều thuật toán so khớp được

đề xuất [46] Thuật toán so khớp được phân loại theo ảnh stereo camera Các thuật toán so khớp cho ảnh stereo camera có độ phân giải cao, mật độ thưa như SIFT [10], SURF [66] thường được dùng cho hệ thị giác nổi có yêu cầu tốc độ cao và dung lượng bộ nhớ yêu cầu thấp tuy nhiên không yêu cầu độ tin cậy cao, thường được áp dụng vào các hệ thống định vị, xây dựng bản đồ hay SLAM [36] và các xe tự hành Các thuật toán so khớp cho ảnh stereo camera

có độ phân giải cao, mật độ điểm tương ứng dày như [7], [44] thường được dùng cho các hệ thị giác nổi yêu cầu độ tin cậy cao, thường được áp dụng vào các hệ kiểm tra sản phẩm trong công nghiệp, hệ thị giác 3D của thị giác robot

và trong phẫu thuật hay tái tạo đối tượng, tuy nhiên, độ phức tạp tính toán lớn

và dung lượng bộ nhớ yêu cầu cao Thuật toán so khớp cho ảnh stereo camera

Trang 36

có độ phân giải cao, mật độ điểm tương ứng dày được chia làm ba loại chính

là thuật toán cục bộ [15], [101], thuật toán toàn cục [48], [78] và thuật toán lai [24], [90]

Các thuật toán toàn cục được sử dụng trong các mô hình tối thiểu hàm chi phí để giải quyết tìm bản đồ chênh lệch gần đúng Nó có thể được xây dựng công thức như một vấn đề tối thiểu hóa năng lượng của trường ngẫu

nhiên Markov (MRFs), đồng thời xem xét các nhãn nhẵn (smoothness) Hai

thuật toán toàn cục sử dụng trường ngẫu nhiên Markov là thuật toán lát cắt đồ thị GC và thuật toán lan truyền độ tin cậy BP cho hiệu quả cao trong việc giải quyết các vấn đề về thị giác nổi

Các thuật toán cục bộ dựa trên màu sắc hoặc mật độ các kết cấu trong một cửa sổ hữu hạn để xác định độ chênh lệch Nó giảm độ phức tạp tính toán

và có thể thực hiện thời gian thực Do đó mà phần lớn các thuật toán cập nhật cho xử lý thời gian thực đều dùng thuật toán cục bộ Tuy nhiên các thuật toán cục bộ lại có nhược điểm là độ tin cậy không cao, nhất là các vùng có cùng kết cấu như các vùng đồng nhất, các vùng có bề mặt bị bóng tại bề mặt của đối tượng và các vùng không quan sát được

1.5.1 Các thuật toán so khớp cục bộ

Các thuật toán so khớp cục bộ (local) hoạt động dựa trên cửa sổ Nó kết

hợp hàm chi phí so khớp trên một cửa sổ đã cho Cửa sổ cục bộ phải đủ lớn

để bao gồm đầy đủ mật độ các biến cho thực hiện so khớp và nó đủ nhỏ để tránh biến chênh lệch bên trong cửa sổ Các thuật toán so khớp cục bộ dựa trên cửa sổ cơ bản bao gồm việc xây dựng các hàm hàm chi phí và lựa chọn loại cửa sổ sao cho phù hợp Đã có rất nhiều loại cửa sổ được đề xuất như cửa

sổ hình chữ nhật [44], đa cửa sổ [74], trọng số thích nghi [51], cửa sổ dựa trên hình học đồng trục [35], cửa sổ có hình dạng thích nghi [34] Thuật toán SAD, Rank [38] và Census [77] được xây dựng để tính toán tất cả các hàm

Trang 37

chi phí Thuật toán Rank và Census là hai biến đổi không tham số, chúng phụ thuộc vào quan hệ thứ tự các giá trị điểm ảnh hơn là giá trị của chúng Cả hai thuật toán đều thực hiện phù hợp trên phần cứng tuy nhiên lại không bị ảnh hưởng với các loại nhiễu và méo của ảnh Bằng việc kết hợp với các kỹ thuật tối ưu khác, thuật toán so khớp cục bộ dựa trên cửa sổ có đạt đến chất lượng

và hiệu suất cao [51], tính toán các trọng số thích nghi dựa trên khoảng cách gần đúng và màu sắc đến các điểm trung tâm

1.5.2 Các thuật toán so khớp toàn cục

1.5.2.1 Thuật toán lan truyền tin cậy BP

Thuật toán lan truyền độ tin cậy BP [104] là thuật toán suy luận gần đúng dựa trên mô hình trường ngẫu nhiên Markov, nó hoạt động dựa trên sự lan truyền thông điệp giữa các nút thông qua các vòng lặp Giá trị thông điệp

là độ chênh lệch của hai điểm tương ứng trên ảnh stereo camera Các nút là nhãn được sắp xếp theo dạng hình lưới hoặc hình cây Thuật toán BP có ưu điểm là độ tin cậy cao tuy nhiên dung lượng bộ nhớ yêu cầu lớn và độ phức tạp tính toán cao Đã có nhiều nhà nghiên cứu cải tiến thuật toán BP như [16], [56], [57], [78], [84], [89], [92], [109], [113] đã khắc phục một số nhược điểm

của thuật toán BP Tác giả P F Felzenszwalb và D P Huttenlocher [78] đã

sử dụng kỹ thuật là để xuất phép nhân chập tối thiểu và một kiến trúc phân

cấp đã giảm thời gian tính toán cho một thông điệp truyền Tác giả L Zhang and S M Seitz [57] đã sử dụng kỹ thuật là đặt một định dạng thông số tối ưu

dùng để lập bản đồ chênh lệch và các thông số trường ngẫu nhiên Markov

tương ứng Tác giả Q Yang và L Wang [84] đã sử dụng kỹ thuật là đề xuất

thuật toán BP hội tụ nhanh để cập nhật thích nghi giá trị điểm ảnh cho giảm

giá trị lặp Tác giả T Yi và R Lin [89] đã sử dụng kỹ thuật là biến đổi điểm đường bao BP, cung cấp cả tỉ lệ nén thông điệp và giá trị nhẵn Tác giả Y C Tseng và cộng sự [109] đã sử dụng kỹ thuật là chia cắt ảnh thành nhiều khối

Trang 38

nhỏ và tối ưu thực hiện cho từng khối độc lập Tác giả R Szeliski [92] đã sử

dụng kỹ thuật là đề xuất phương pháp ICM để tìm một tối thiểu cục bộ bằng

chiến thuật lưỡi gà (greedy) Tác giả C K Liang và cộng sự [16] đã sử dụng

kỹ thuật là chia mô hình trường ngẫu nhiên Markov thành nhiều khối, chỉ lưu thông điệp qua các khối lân cận nhằm giảm lưu lượng xử lý thông điệp trong

các khối Tác giả Y C Tseng và T S Chang [108] đã sử dụng kỹ thuật là đề xuất phương pháp tái sử dụng thông điệp Tác giả Q Yang [56] đã sử dụng kỹ thuật là giảm phân cấp dải tìm kiếm chênh lệch qua các vòng lặp Tác giả S Chen [113] đã sử dụng kỹ thuật là đề xuất một sơ đồ thông điệp tổng cực tiểu,

kỹ thuật bắt (caching) và phương pháp đặt trực tiếp để cải thiện truy cập thông điệp

1.5.2.2 Thuật toán lát cắt đồ thị GC

Thuật toán lát cắt đồ thị GC (graph cut) tối thiểu hàm chi phí cặp chọn lọc MRFs bằng cách giải quyết các vấn đề min-cut/max-flow trên cấu trúc đồ

thị Thuật toán lát cắt đồ thị GC cũng yêu cầu tính toán phức tạp lớn và dung

lượng bộ nhớ yêu cầu cao Thuật toán lát cắt đồ thị [73] cần O(k 3

) tính toán

các vòng lặp và tăng nhanh với số tăng của nhãn Điều này giải thích tại sao với mỗi thuật toán tối ưu ảnh số, thuật toán GC rất khó để tạo ra một truy cập kiểu xử lý thời gian thực Đã có một số nhà nghiên cứu cải tiến thuật toán lát cắt đồ thị GC như [58], [33], [75], [81], [48] đã sử dụng các kỹ thuật khác

nhau khắc phục một số hạn chế của thuật toán lát cắt đồ thị GC Tác giả Y Boykov và O Veksler [58] đã sử dụng kỹ thuật là tìm một tối thiểu hóa cục bộ với di chuyển mở rộng và hoán đổi Tác giả G Chen và L Hong [33] đã sử

dụng kỹ thuật là cảnh quay được biểu diễn như một tập các mặt phẳng trong

không gian chênh lệch Tác giả O.Veksler [75] đã sử dụng kỹ thuật là phát triển các thuật toán tối ưu mở rộng và hoán đổi cho chặt lồi trước (truncated convex priors), chỉ hai nhãn cho mỗi điểm ảnh Tác giả P Kohli và P H Torr

Trang 39

[81] đã sử dụng kỹ thuật là áp dụng một tiếp cận mincut để tăng tốc độ xử lý suy luận với các tham số chi phí khác nhau không đáng kể Tác giả M Huan

[48] đã sử dụng kỹ thuật là các mẫu không chồng chéo xuất phát từ hình ảnh tham chiếu để biểu diễn cho ảnh hiện tại với các giá trị chênh lệch

1.5.2.3 Thuật toán quy hoạch động DP

Thuật toán quy hoạch động DP [110] (Dynamic programming) đã phân

tích một vấn đề trong một tập các vấn đề phụ sau đó giải quyết hiệu quả chúng theo cách đệ quy Vấn đề chính của thuật toán DP là tính nhất quán giữa đường quét không tập trung, dẫn đến có các vệt lạ Để khắc phục vấn đề này có rất nhiều thuật toán thị giác nổi dựa trên thuật toán DP đã được cải tiến như, [41], [43], [54], [63], [99], [102] đã sử dụng các kỹ thuật tối ưu để cải

tiến thuật toán DP Tác giả C Lie [43] đã sử dụng kỹ thuật tối ưu là đề xuất

một cây đường bao tối thiểu trên đồ thị kế tiếp của một đoạn ảnh thay vì quét

riêng lẻ Tác giả L Wang [63] đã sử dụng kỹ thuật là giới thiệu một bước kết hợp thích nghi trong hướng thẳng đứng Tác giả S Park và H Jeong [102] đã

sử dụng kỹ thuật là áp dụng mô hình tuyến tính chặt (truncated) để đường theo chiều ngang và chiều dọc phụ thuộc nhau Tác giả R Kalarot [41] đã sử

dụng kỹ thuật là sử dụng độ nhất quán giữa dòng quét và điều kiện cảnh trực

tiếp vào tính toán chênh lệch Tác giả S H Lee và S Sharma [99] đã sử dụng

kỹ thuật là dùng biến đổi hạng dựa trên hàm so khớp và dùng các vòng lặp

thích nghi giữa các chênh lệch lân cận.Tác giả Q Yang [54] đã sử dụng kỹ thuật là kết nối kết hợp cửa sổ thích nghi dựa trên hình chữ thập (cross) và

quy hoạch động cơ bản

Nhận xét: Thuật toán so khớp quyết định rất nhiều đến hiệu quả của hệ

thống thị giác nổi Đã có rất nhiều thuật toán so khớp được nghiên cứu và đề xuất nhằm mang lại hiệu quả tốt nhất cho hệ thống Trong các thuật toán so khớp đã nêu trên thì thuật toán lan truyền tin cậy BP cho độ tin cậy cao nhất

Trang 40

nhưng dung lượng bộ nhớ yêu cầu lớn vào độ phức tạp tính toán cao [29] Do

đó, đề tài luận án tập trung nghiên cứu giải pháp nâng cao tốc độ xử lý của thuật toán lan truyền tin cậy BP Tuy nhiên, để hệ thống hoạt động hiệu quả thì ngoài vấn đề lựa chọn thuật toán so khớp phù hợp, còn một vấn đề nữa cũng không kém phần quan trọng là lựa chọn được nền tảng xử lý phù hợp để thực hiện Các nền tảng xử lý có một số đặc điểm khác nhau như tốc độ thực hiện, cấu trúc xử lý nối tiếp hay song song, khả năng truy cập bộ nhớ và dung lượng bộ nhớ Tùy theo yêu cầu của hệ thống thị giác nổi, sẽ lựa chọn nền tảng xử lý và thuật toán so khớp cho phù hợp Trong các nền tảng xử lý thì luận án tập trung nghiên cứu và sử dụng nền tảng xử lý GPU để thực hiện thuật toán so khớp BP

1.6 Nền tảng xử lý trong hệ thống thị giác nổi

Trong khoảng hai thập kỉ qua, thị giác nổi đã khẳng định được vai trò ứng dụng của nó trong thực tiễn, do vậy mà hệ thống thị giác nổi luôn luôn được nâng cấp cả về phần mềm cũng như phần cứng Đối với sự phát triển của khoa học kỹ thuật, cùng với những yêu cầu ngày càng cao của cuộc sống hiện đại thì hệ thống thị giác nổi phải hướng đến hoạt động trong môi trường thời gian thực Ngày nay, các hệ thống nhúng dùng cho hệ thống thị giác nổi

đã liên tục được phát triển, tuy nhiên vẫn còn một số thách thức sau:

- Độ phức tạp tính toán siêu cao: tìm kiếm tất cả các điểm ảnh khớp

trong khu vực cần tìm và lặp đi lặp lại nhiều lần để tìm ra điểm khớp nhất, tính toán tất cả hàm chi phí của các điểm tương ứng với nhân hoặc cộng ma trận Đối với trường hợp dải chênh lệch biến động cao hoặc các điểm phụ thì việc tính toán còn khó khăn hơn Với những lý do trên dẫn đến độ phức tạp tính toán cao do vậy cần phải có hệ thống siêu tính toán

- Yêu cầu kích thước bộ nhớ trong và dải dữ liệu lớn: thuật toán thị giác

nổi yêu cầu một lượng lớn dữ liệu trao đổi tạm thời Việc dung lượng bộ nhớ

Định dạng
Số trang	151
Dung lượng	4,16 MB