1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng các mô hình 3 chiều sử dụng camera cầm tay

76 422 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 76
Dung lượng 1,65 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục tiêu của đề tài này là tìm hiểu một số đặc trưng nổi bật của các phương pháp, kĩ thuật dựng mô hình 3 chiều nhằm mục đích kết hợp các kĩ thuật thành một qui trình trọn vẹn tạo ra mô

Trang 3

MỤC LỤC

DANH MỤC HÌNH VẼ

DANH MỤC BẢNG BIỂU

MỞ ĐẦU 1

CHƯƠNG 1: GIỚI THIỆU 3

CHƯƠNG 2: TỔNG QUAN 8

2.1 Các vấn đề liên quan đến bài toán dựng mô hình 3 chiều 8

2.1.1 Thị giác máy 8

2.1.2 Thị giác lập thể 9

2.1.3 Hình học epipolar và một số ma trận biến đổi 10

2.1.4 Phân cấp các phép biến đổi 14

2.2 Các kĩ thuật trong bài toán dựng mô hình 3 chiều 16

2.2.1 Qui trình dựng mô hình 3 chiều 16

2.2.2 Trích chọn đặc trưng 19

2.2.3 Bài toán đối sánh 22

2.2.4 Tìm ma trận cơ bản F 28

2.2.5 Chỉnh sửa ảnh 30

2.2.6 Khôi phục độ sâu 32

CHƯƠNG 3: XÂY DỰNG BỘ CÔNG CỤ DỰNG MÔ HÌNH 3 CHIỀU TỪ CẶP ẢNH CHỤP 34

3.1 Mô hình bộ công cụ dựng mô hình 3 chiều từ cặp ảnh 34

3.2 Điểm góc SUSAN 34

3.2.1 Một vài khái niệm 34

3.2.2 Thuật toán tìm điểm góc SUSAN 36

3.3 Đối sánh điểm góc SUSAN 39

3.3.1 Tìm tập ứng cử viên 39

3.3.2 Tìm tập các cặp đối sánh tương ứng 40

3.4 Thuật toán tính ma trận cơ bản sử dụng RANSAC 42

3.5 Chỉnh sửa ảnh bằng phương pháp chuyển đổi sang tọa độ cực 43

3.5.1 Các đường epipolar định hướng 44

3.5.2 Ma trận đồng hình tương thích H và ma trận cơ bản F 45

3.5.3 Xây dựng ảnh chỉnh sửa 45

Trang 4

3.6 Đối sánh miền dựa vào cửa sổ tương quan 48

3.7 Thuật toán tam giác tối ưu tính độ sâu cho một cặp điểm ảnh đối sánh 52

3.7.1 Tính ma trận camera từ ma trận cơ bản F 52

3.7.2 Tính độ sâu 53

CHƯƠNG 4: KẾT QUẢ THỬ NGHIỆM VÀ BÀN LUẬN 59

4.1 Tiền xử lý 59

4.2 Đối sánh ảnh và khôi phục thông tin 3 chiều 60

4.2.1 Chỉnh sửa ảnh 60

4.2.2 Đối sánh ảnh và lấy độ sâu 61

KẾT LUẬN 63

TÀI LIỆU THAM KHẢO 65

Tài liệu Tiếng Anh: 65

Mã nguồn và công cụ hỗ trợ: 67

PHỤ LỤC 68

1 Một số định nghĩa 68

2 Một số thuật toán 69

A Thuật toán 8 điểm được chuẩn hoá tính F 69

B RANSAC (RANdom Sample Consensus) 71

C Không gian rỗng phải (Right Null-Space) 71

Trang 5

DANH MỤC HÌNH VẼ

Hình 2.1 Hệ thống thị giác của con người 9

Hình 2.2 Liên hệ của cặp điểm đối sánh x, x’ 11

Hình 2.3 Một số thuật ngữ 11

Hình 2.4 Qui trình dựng mô hình 3 chiều từ chuỗi các ảnh đầu vào .16

Hình 2.5 Độ chênh lệch và mối quan hệ với độ sâu 18

Hình 2.6 Dựng mô hình 3 chiều từ cặp ảnh 19

Hình 2.7 Các dạng đặc trưng khác nhau của ảnh 21

Hình 2.8 Đối sánh ảnh 22

Hình 2.9 So sánh một số thuật toán đối sánh dựa trên miền 25

Hình 2.10 Tìm điểm tương ứng x’ của x qua mặt phẳng π 29

Hình 2.11 Ràng buộc epipolar 31

Hình 2.12 Chỉnh sửa ảnh 32

Hình 2.13 Mối liên hệ giữa độ chênh lệch và độ sâu 33

Hình 3.7 Đối sánh không đối xứng 41

Hình 3.12 Biểu diễn đối sánh giữa các cặp điểm của ảnh trái và phải 50

Hình 3.13 Khoảng cách tới đường epipolar nhỏ nhất 52

Hình 4.1 Cặp ảnh gốc 59

Hình 4.2 Các điểm góc SUSAN của ảnh bên phải 59

Hình 4.3 Cặp ảnh chỉnh sửa 61

Hình 4.4 Mô hình 3 chiều kết quả .62

DANH MỤC BẢNG BIỂU Bảng 2.1 Phân cấp các phép biến đổi 15

Bảng 2.2 Một số thuật toán đối sánh dựa trên miền 25

Bảng 3.1 Tóm tắt thuật toán tìm điểm góc SUSAN 38

Bảng 3.2 Thủ tục tìm ra cặp đối sánh tốt nhất .42

Bảng 3.3 Thuật toán sử dụng RANSAC 43

Bảng 3.4 Chiến lược tối ưu hoá 54

Bảng 3.5 Thuật toán tam giác tối ưu tìm điểm 3 chiều X 58

Thuật toán tính ma trận F 69

Trang 6

MỞ ĐẦU

Trong những năm gần đây, việc dựng mô hình 3 chiều từ các ảnh 2 chiều thu hút ngày càng nhiều sự quan tâm của các nhà nghiên cứu Điều đó một phần là do yêu cầu của các kĩ thuật này trong các ứng dụng tăng lên như trong các lĩnh vực bảo tồn

cổ vật, phân tích hiện trường phạm tội, thiết kế kiến trúc, xử lý phim, trò chơi 3 chiều…Bên cạnh đó, phần cứng đồ họa có giá thành hạ, năng lực tính toán nâng cao cũng là yếu tố góp phần thúc đẩy sự phát triển các phương pháp cũng như kĩ thuật

mô hình hoá và dựng lại mô hình 3 chiều Hơn nữa, camera cầm tay là thiết bị số hóa tiện dụng, sẵn có và rẻ tiền cho nên việc cung cấp thông tin đầu vào dùng camera là rất dễ dàng Bài toán dựng mô hình 3 chiều từ chuỗi các ảnh đầu vào là bài toán xây dựng thông tin 3 chiều từ thông tin của các ảnh 2 chiều Một cách toán học, cấu trúc 3 chiều được dựng lại từ các phép chiếu 2 chiều Bên cạnh đó các ảnh đầu vào lại là các ảnh texture tự nhiên nhất do vậy cấu trúc 3 chiều đạt được rất hiệu quả Rất nhiều nhà nghiên đã phát triển các phương pháp và kĩ thuật khác nhau để giải quyết bài toán này

Chúng tôi tập trung tìm hiểu qui trình dựng mô hình 3 chiều từ cặp ảnh đầu vào, các phương pháp nghiên cứu, kĩ thuật triển khai từng bước trong qui trình này Từ đó, chúng tôi xây dựng bộ công cụ dựng mô hình 3 chiều của cảnh hay đối tượng với đầu vào là 2 ảnh màu chụp chung một cảnh hay một đối tượng đó

Với nội dung nghiên cứu nêu ra ở trên, chúng tôi mong muốn sau khi hoàn thành đề tài hiểu biết thêm về xu thế phát triển của các ứng dụng 3 chiều, các hướng nghiên cứu và triển khai trong lĩnh vực này Đặc biệt chúng tôi muốn đi sâu tìm hiểu về qui trình dựng mô hình 3 chiều từ chuỗi các ảnh đầu vào (số lượng ban đầu là 2) và kết quả thu được là bộ công cụ triển khai thành công qui trình được nêu ra

Trang 7

Luận văn bao gồm bốn chương:

Chương một: Giới thiệu về bài toán dựng mô hình 3 chiều nói chung và bài toán

dựng mô hình 3 chiều từ chuỗi các ảnh nói riêng, các đặc trưng và các xu thế phát triển Đồng thời chúng tôi cũng nêu ra mục tiêu và hướng giải quyết của luận văn

đó là giải quyết bài toán dựng mô hình 3 chiều từ các ảnh 2 chiều được chụp bởi camera cầm tay

Chương hai: Nêu những vấn đề, khái niệm và mô hình toán học liên quan đến bài

toán dựng mô hình 3 chiều từ ảnh 2 chiều Đồng thời, nêu tổng quan, phân tích và

so sánh các kỹ thuật, phương pháp giải quyết bài toán này

Chương ba: Xây dựng bộ công cụ dựng mô hình 3 chiều từ cặp ảnh chụp Lựa chọn

những kỹ thuật, phương pháp, thuật toán phù hợp để triển khai bộ công cụ

Chương bốn: Đưa ra một số kết quả thử nghiệm của các module cài đã được cài

đặt

Trang 8

CHƯƠNG 1: GIỚI THIỆU

Đồ hoạ 3 chiều được nghiên cứu ở các trường đại học từ những năm 1970 và được thương mại hoá khi Hollywood chú ý đến những nghiên cứu này vào những năm

1980 [10] Hình ảnh chuyển động lúc sơ khai là nghành công nghiệp xa xỉ và chỉ được sử dụng hạn chế đối với các công cụ tài chính Cùng với sự phát triển của các gói phần mềm chuẩn của mô hình hoá và chuyển động, 3 chiều dần xuất hiện trong công nghệ truyền hình và các video chuyên nghiệp Hay nói cách khác, nghệ thuật 3 chiều đã tìm được chỗ đứng trong các dịch vụ đa phương tiện

Việc sử dụng mô hình 3 chiều cho mục đích hiển thị ngày càng trở nên quan trọng Những năm vừa qua, trong lĩnh vực thị giác máy, người ta chú trọng nhiều đến vấn

đề điều khiển và điều hướng robot, tuy nhiên gần đây, hướng quan tâm đã có sự thay đổi Người ta chú trọng nhiều đến vấn đề tương tác và hiển thị Các mô hình 3 chiều có tính chân thực cao là thành phần không thể thiếu khi mô phỏng và hiển thị

sự vật, sự kiện Đồ họa 3 chiều trải rộng trên nhiều ứng dụng như trong trò chơi điện tử, công nghiệp làm phim, trình chiếu đối tượng trong thực tại trộn phục vụ cho y tế, quân sự, hàng không, giáo dục… Trong trò chơi điện tử, đồ hoạ 3 chiều thực sự bộc lộ đặc tính ưu việt của nó đáp ứng nhu cầu, thị hiếu khách hàng Chất lượng đồ hoạ cũng như khả năng đáp ứng thời gian thực của các ứng dụng 3 chiều thay đổi nhanh chóng do sự thay đổi chóng mặt của các thiết bị phần cứng cũng như công nghệ Tiếp đó, là sự bùng nổ của các ứng dụng 3 chiều trên Internet Do vậy,

đồ hoạ 3 chiều đã ngày càng trở nên quen thuộc

Hơn 3 thập kỉ qua, mô hình hoá và chuyển động 3 chiều được chuẩn hoá trong các phần mềm thương mại Maya, 3Dstudio Max, Softimage hay Lightwave [27] là những gói ứng dụng điển hình được sử dụng trong giáo dục cũng như công nghệ 3 chiều Tất cả những gói ứng dụng này đều tương tự hoặc liên quan đến các kĩ năng của nghệ thuật đồ họa truyền thống nhưng áp dụng trong môi trường kĩ thuật số: mô hình hoá tương tự như nghệ thuật điêu khắc, texturing liên quan đến kĩ thuật vẽ hoặc minh hoạ

Trang 9

Một hạn chế lớn nhất của các kĩ thuật dựng mô hình 3 chiều truyền thống là giá thành cao khi mà người ta vẫn phải thao tác thủ công và sử dụng các thiết bị chuyên dụng Các thiết bị dùng cho thiết kế và hiển thị đồ họa như máy quét laze, màn hình hiển thị và các thiết bị số hoá khác là các thiết bị đắt tiền, yêu cầu sự cẩn trọng khi

sử dụng, sự phức tạp khi điều khiển Do vậy, người ta tiến hành “mềm hóa” trong dựng mô hình 3 chiều Các thuật toán được áp dụng nhiều hơn trong việc lấy thông tin 3 chiều của đối tượng, các nguồn dữ liệu để lấy thông tin 3 chiều cũng phong phú hơn

Khôi phục lại thông tin 3 chiều sử dụng camera cầm tay trong khi thiếu thông tin về môi trường chụp ảnh (camera, ánh sáng,…) là một thử thách lớn Bởi vì, khi sử dụng camera cầm tay, vị trí và hướng quay của camera rất tự do Do vậy, các khung nhìn của các ảnh cũng tự do Tuy nhiên, nếu dựng mô hình 3 chiều từ ảnh 2 chiều thành công thì ý nghĩa của nó rất lớn, bởi vì, thiết bị phần cứng rẻ tiền và sẵn có Ban đầu người ta tiến hành đối sánh dựa trên sự quan sát Các điểm đối sánh tương ứng dưới dạng các điểm điều khiển được lựa chọn cần có sự tương tác với con người Do vậy tiêu tốn thêm thời gian đồng thời số lượng các điểm đối sánh không nhiều Một hướng giải quyết khác là người ta điều khiển môi trường chụp ảnh: Ví

dụ, gắn camera ở một vị trí cố định rồi cho đối tượng cần chụp lên bàn xoay hay gắn nhiều camera cố định xung quanh đối tượng cần chụp như vậy ảnh thu nhận được có các góc độ khác nhau và xác định được các tâm chiếu, các thông số trong/ngoài của camera nhằm phục vụ tốt hơn cho quá trình khôi phục điểm 3 chiều Tuy nhiên với cách này, ta lại phải tiêu tốn thời gian và thủ tục để hiểu chỉnh camera

Trong những năm gần đây, người ta quan tâm đến việc lấy thông tin 3 chiều từ các

khung nhìn không được hiệu chỉnh (uncalibrated view) Các kĩ thuật tự hiệu chỉnh

chiếm phần lớn thời gian [9,18,12], các phương pháp này bắt nguồn từ hình học epipolar và trifocal tensor [15,26] nhờ đó các điểm đối sánh tương ứng được tự động tính toán dễ dàng hơn

Trang 10

Thông tin 3 chiều được trích chọn từ ảnh yêu cầu rất ít sự tương tác với người dùng Dựng mô hình 3 chiều từ ảnh là phương pháp phát triển dưới sự kết hợp của đồ họa, thị giác máy và nhiếp ảnh Con người thu nhận thông tin 3 chiều nhờ sự quan sát đối tượng bằng hai mắt hay nói cách khác hai khung nhìn khác nhau Trong lĩnh vực thị giác máy, các nhà nghiên cứu đã cố gắng rất nhiều trong việc cung cấp khả năng

“quan sát” tương tự con người cho máy tính Ban đầu, họ hướng tới ngành robot và

tự động hóa nhằm mục đích cho phép robot tự điều hướng khi đi qua môi trường mới Gần đây hướng nghiên cứu dịch chuyển sang hiển thị trực quan và giao tiếp đồng thời có sự kết hợp nhiều hơn với lĩnh vực đồ họa Một trong những mối quan tâm lớn nhất của các nhà nghiên cứu là cung cấp các thuật toán để có thể tự động lấy được thông tin từ chuỗi các ảnh Mười năm trở lại đây, người ta thường nhấn mạnh đến hình học đa ảnh, đa khung nhìn [15] và cho phép nhiều cách tiếp cận linh hoạt trong việc lấy thông tin 3 chiều từ các ảnh khác nhau Thực tế, hướng hiển thị trực quan đã phát triển từ trước nhưng dưới một ngữ cảnh khác, dựa trên nghệ thuật nhiếp ảnh Nửa cuối thế kỉ 19, các ảnh chụp đã được sử dụng lấy thông tin 3 chiều

để tạo bản đồ, đo đạc các công trình

Cách tiếp cận dựa trên ảnh được đưa ra có rất nhiều ưu điểm Cảnh cần mô hình hóa được chụp ở các khung nhìn khác nhau Các thiết bị để thu nhận đầu ảnh đầu vào lại sẵn có như các máy ảnh kĩ thuật số, các máy quay camera Mối quan hệ giữa các ảnh được tính toán tự động từ thông tin lấy được trực tiếp của ảnh thông qua các thuật toán Do vậy không cần đến các số đo khung cảnh, hay các thủ tục hiệu chỉnh thiết bị bằng tay như các kĩ thuật truyền thống nữa Xu thế hiện nay là cải tiến việc

tự động hoá trong nhận dạng và dựng mô hình 3 chiều của đối tượng từ các ảnh Bên cạnh đó cách tiếp cận dựa trên ảnh này lại rất linh hoạt ở chỗ rất dễ dàng mô hình đối tượng có kích cỡ nhỏ cũng như mô hình một khung cảnh rộng lớn

Lấy thông tin 3 chiều từ các ảnh 2 chiều thu hút ngày càng nhiều sự quan tâm của các nhà nghiên cứu Điều đó một phần là do yêu cầu của các kĩ thuật này trong các ứng dụng tăng lên như trong các lĩnh vực bảo tồn cổ vật, phân tích hiện trường phạm tội, thiết kế kiến trúc, xử lý phim, trò chơi 3 chiều…Bên cạnh đó, phần cứng

Trang 11

đồ họa có giá thành hạ cũng là yếu tố góp phần thúc đẩy sự phát triển các phương pháp cũng như kĩ thuật mô hình hoá và dựng lại mô hình 3 chiều Bài toán dựng mô hình 3 chiều từ chuỗi các ảnh đầu vào là bài toán xây dựng thông tin 3 chiều từ thông tin của các ảnh 2 chiều Một cách toán học, cấu trúc 3 chiều được dựng lại từ các phép chiếu 2 chiều Bên cạnh đó các ảnh đầu vào lại là các ảnh texture tự nhiên nhất do vậy cấu trúc 3 chiều đạt được rất hiệu quả

Mục đích của luận văn là tìm hiểu các kĩ thuật xử lý ảnh và xây dựng phương pháp dựng mô hình 3 chiều tự động chỉ sử dụng đầu vào là các ảnh Hai ảnh của cùng đối tượng hay cùng cảnh được chụp bởi camera cầm tay qua một qui trình xử lý lấy ra thông tin 3 chiều của đối tượng Mục tiêu của đề tài này là tìm hiểu một số đặc trưng nổi bật của các phương pháp, kĩ thuật dựng mô hình 3 chiều nhằm mục đích kết hợp các kĩ thuật thành một qui trình trọn vẹn tạo ra mô hình 3 chiều có ý nghĩa

và đáp ứng được một số các ứng dụng Các kĩ thuật, phương pháp đề cập đến đều áp dụng trên việc dựng lại mô hình của đối tượng, cảnh không được hiệu chỉnh Khi

đó, tất cả các tham số bao gồm tham số trong/ ngoài của camera, cấu trúc 3 chiều của cảnh đều được tính toán từ thông tin của các ảnh thông qua các thuật toán Từ

đó, chúng tôi triển khai một số module giải quyết bài toán dựng mô hình 3 chiều của cảnh hay đối tượng với đầu vào là 2 ảnh màu chụp chung một cảnh hay một đối tượng đó

Đề tài được phát triển với sự kết hợp của nhiều phương pháp nghiên cứu: thu thập, phân tích, phân loại và đặc tả dữ liệu; nghiên cứu, phân tích và tổng hợp tài liệu; phương pháp phân tích, thiết kế hệ thống thông tin và lập trình theo công nghệ hướng đối tượng

Chương 2 của luận văn giới thiệu một số vấn đề liên quan đến bài toán dựng mô hình 3 chiều, tổng quan qui trình dựng mô hình 3 chiều, một số kĩ thuật đã và đang được nghiên cứu và triển khai trong dựng mô hình 3 chiều

Trong chương 3, chúng tôi xây dựng bộ công cụ dựng mô hình 3 chiều từ cặp ảnh đầu vào Các kĩ thuật được dùng để triển khai bộ công cụ bao gồm thuật toán tìm

Trang 12

điểm góc SUSAN, thuật toán tính ma trận cơ bản sử dụng RANSAC, kĩ thuật chỉnh sửa ảnh dựa trên chuyển đổi sang hệ trục tọa độ cực, kĩ thuật đối sánh toàn ảnh và thuật toán tam giác tối ưu tìm độ sâu cho một cặp đối sánh

Chương 4 của luận văn bao gồm một số kết quả thử nghiệm của các module tạo nên

bộ công cụ

Chương 5 là phần kết luận Trong phần này, chúng tôi tổng kết những gì đã đạt được, nêu lên hạn chế của luận văn và định hướng phát triển tiếp của đề tài

Trang 13

CHƯƠNG 2: TỔNG QUAN

Các camera được chế tạo nhằm mô phỏng hệ thống thu nhận hình ảnh của con người Trong chương 2 này, chúng tôi giới thiệu về cách tiếp nhận hình ảnh của camera và các biểu diễn toán học liên quan, qua đó hình dung được quá trình thu nhận và tổng hợp hình ảnh đối tượng của camera cũng như của con người Tiếp theo chúng tôi giới thiệu tổng quan về các kĩ thuật, phương pháp liên quan đến tổng hợp thông tin 3 chiều từ ảnh chụp

2.1 Các vấn đề liên quan đến bài toán dựng mô hình 3

chiều

2.1.1 Thị giác máy Thị giác được định nghĩa là quá trình khám phá thế giới thông qua hình ảnh [19]

Thị giác mô tả cái gì sẽ được hiển thị và vị trí hiển thị Quá trình này sử dụng đầu vào là các ảnh và đầu ra là các thông tin 3 chiều mô tả thế giới xung quanh

Thị giác máy là các thực thi quá trình thị giác trên máy tính nhằm mục đích xây dựng các khung cảnh 3 chiều, phục hồi khoảng cách, độ sâu… từ các ảnh

Các kĩ thuật sử dụng trong thị giác máy được chia làm hai loại chính: Thị giác tích

cực (active vision) và thị giác thụ động (passive vision) [19]:

- Thị giác tích cực: Ánh sáng là yếu tố quan trọng trong quan sát và mô tả đối

tượng Thị giác tích cực bao gồm các kĩ thuật liên quan đến xử lý ánh sáng, sử dụng các nguồn sinh năng lượng như nguồn laze Ánh sáng sinh ra từ các nguồn sáng sẽ được phản xạ trên bề mặt đối tượng và được thu nhận bởi các bộ cảm biến của camera Thông tin về ánh sáng thu nhận được là yếu tố quan trọng trong việc trích chọn và phản ánh thông tin 3 chiều Tuy nhiên, các kĩ thuật này gặp một số khó khăn khi xử lý ánh sáng như: cần phải phân biệt giữa ánh sáng xung quanh và ánh sáng điểm, màu của đối tượng có thể xung đột với màu nguồn sáng, ví dụ khi quan sát đối tượng màu đỏ với ánh sáng màu đỏ

Trang 14

- Thị giác thụ động: trong các kĩ thuật này, ánh sáng không trực tiếp được sử dụng

trong các thuật toán Hầu hết các kĩ thuật loại này có tên gọi chung là thị giác lập

thể (stereo vision) Bài toán chính trong thị giác lập thể là đi tìm các điểm đối

sánh tương ứng giữa các ảnh từ đó khôi phục lại thông tin 3 chiều

Nguyên lý cơ bản trong phục hồi thông tin 3 chiều là nguyên lý tam giác

(triangulation principle) [19] Tức là, mối liên hệ giữa 3 yếu tố cơ bản, khi lấy

thông tin 3 chiều, 3 yếu tố này tạo thành 3 đỉnh của tam giác Trong thị giác tích cực, tam giác được hình thành bởi nguồn sáng, đối tượng và camera Trong thị giác thụ động, tam giác được tạo bởi đối tượng và 2 camera

2.1.2 Thị giác lập thể

Thị giác lập thể dựng lại thông tin 3 chiều từ ít nhất 2 ảnh hai chiều khác nhau Thị giác lập thể là các kĩ thuật lấy thông tin 3 chiều mô phỏng lại cách tổng hợp hình ảnh của hệ thông thị giác của con người Hệ thống thị giác của con người dựa trên hai mắt và hệ thống thần kinh (hình 2.1)

Hình 2.1 Hệ thống thị giác của con người Mỗi mắt “quan sát” đối tượng ở một khung nhìn và sinh ra một ảnh 2 chiều Sự khác biệt về vị trí của hai mắt tạo ra sự sai khác giữa 2 ảnh của đối tượng Dựa vào

sự khác biệt này, bộ não sinh ra các thông tin 3 chiều như khoảng cách, góc, hình dáng và kích cỡ của đối tượng Ví dụ dưới đây minh hoạ rõ việc quan sát tại các vị

Trang 15

trí khác nhau sẽ tạo ra các hình ảnh khác nhau mặc dù cùng chung một đối tượng: Giữ ngón tay trỏ cách sống mũi khoảng 10 cm, nhắm một mắt lại, sau đó mở mắt này ra và nhắm mắt còn lại vào, ta nhận thấy ngón tay của chúng ta “di chuyển” từ bên trái sang bên phải và ngược lại Khi để ngón tay ra xa hơn, hiện tượng ngón tay

di chuyển vẫn diễn ra nhưng với bước di chuyển ngắn hơn Sự khác biệt về đối

tượng khi quan sát bằng các mắt khác nhau gọi là thị sai (parallax) Não thu nhận

thông tin về thị sai khi quan sát đối tượng và xác định khoảng cách tới mỗi đối tượng trong cảnh khi hiển thị

Thị giác lập thể trên một khía cạnh nào đó giống với hệ thống thu nhận hình ảnh của con người Đối tượng được chụp ảnh ở các khung nhìn khác nhau Sự sai khác giữa các ảnh của hai khung nhìn được tính toán và từ đó tính ra thông tin 3 chiều

Các kĩ thuật thị giác lập thể có một số ưu điểm:

- Không cần nguồn sinh năng lượng vì ánh sáng không phải là thành phần trong tính toán tam giác

- Có thể dùng ở bất cứ nơi nào vì không phụ thuộc vào sự xung đột ánh sáng như trong thị giác tích cực

- Có thể dùng để mô hình hoá cho các loại đối tượng khác nhau về kích cỡ, khoảng cách (thậm chí dùng cả các ảnh vệ tinh)

2.1.3 Hình học epipolar và một số ma trận biến đổi

Trang 16

ràng tia chiếu từ tâm chiếu của từng camera đi qua điểm ảnh phải giao nhau tại điểm 3 chiều X (hình 2.2)

Hình 2.2 Liên hệ của cặp điểm đối sánh x, x’

Một số thuật ngữ trong hình học epipolar (hình 2.3):

- Đường cơ bản (baseline) là đường thẳng nối hai tâm camera CC’

- Epipole e, e’ là điểm giao của đường cơ bản với từng mặt phẳng ảnh

Hình 2.3 Một số thuật ngữ

-

Trang 17

- Mặt phẳng epipolar là mặt phẳng chứa đường cơ bản Như vậy đường cơ

bản là giao tuyến chung của chùm mặt phẳng epipolar

- Đường epipolar là giao tuyến của mặt phẳng epipolar với mặt phẳng ảnh

Tất cả các đường epipolar của cùng một ảnh đồng qui tại điểm epipole

Giả sử ta chỉ biết điểm x trên ảnh thứ nhất vậy x’ được xác định như thế nào? Mặt

phẳng π xác định bởi tia chiếu xuất phát từ tâm C đi qua x và đường cơ bản x’ thuộc π do đó x’ thuộc giao tuyến l’ của mặt phẳng π và mặt phẳng ảnh thứ 2 Như vậy việc tìm điểm đối sánh tương ứng của x không cần tiến hành trên toàn bộ ảnh thứ hai mà chỉ cần tìm trên đường epipolar l’ Ma trận cơ bản F thể hiện mối quan

hệ giữa điểm x và đường epipolar l’ tương ứng

B Ma trận camera

Ảnh được định nghĩa là phép chiếu từ không gian 3 chiều vào mặt phẳng ảnh Điểm

3 chiều M=[X,Y,Z]T và điểm ảnh 2 chiều m=[u,v]T có quan hệ với nhau theo phương trình:

'

' PM

m’=[u,v,1]T và M’=[X,Y,Z,1]T là toạ độ thuần nhất của m và M P là ma trận chiếu

cỡ 3x4 còn gọi là ma trận camera Ma trận P gồm có các thành phần sau:

[ ]R t

K

P= |

trong đó

Trang 18

• K là ma trận hiệu chỉnh camera cỡ 3x3, ma trận này phụ thuộc vào các tham

số trong của camera:

0

v

u s

u

αα

u

α và α là nhân tố co dãn theo hướng u và v vcủa mặt phẳng ảnh

c=[u0, v0]T các toạ độ của điểm giao giữa trục quang và mặt phẳng

ảnh, c còn được gọi là điểm nguyên thuỷ (principal point)

s là độ lệch s≠ 0 khi hướng u và v không vuông góc với nhau

• Ma trận [ ]R | t thể hiện vị trí và hướng hay tham số ngoài của camera R là

ma trận quay, t là vectơ dịch chuyển

Trang 19

2.1.4 Phân cấp các phép biến đổi

Các phép biến đổi trong không gian 3 chiều được thể hiện thông qua các ma trận Tính chất nào (mặt phẳng, đường thẳng song song, diện tích thiết diện, thể tích đối tượng, góc, tỉ lệ góc…) của đối tượng được bảo toàn sau khi biến đổi phụ thuộc vào dạng của các ma trận biến đổi hay nói cách khác tính chất của các phép biến đổi khác nhau tùy theo các phép biên đổi Mối quan hệ giữa các loại biến đổi [15- tr.58] được biểu diễn như sau:

Phép chiếu ⊂ biến đổi affin biến đổi metric biến đổi Ơclit ⊂ ⊂

Tóm tắt các phép biến đổi với minh hoạ đối tượng gốc là một khối lập phương được

mô tả ở bảng 2.1

Trang 20

diện được bảo toàn

Biến đổi Affin

Biến đổi metric

x t t t

t = , , là vectơ dịch chuyển 3 chiều, V vectơ 3 chiều tổng quát, v là hệ số co dãn và ( )T

0,0,0

0=

Trang 21

2.2 Các kĩ thuật trong bài toán dựng mô hình 3 chiều

2.2.1 Qui trình dựng mô hình 3 chiều

Một quá trình lấy ra thông tin 3 chiều bao gồm 3 giai đoạn chính: Tiền xử lý, đối sánh, phục hồi độ sâu (hình 2.4)

từ đó tính ra ma trận F

Đầu tiên cần xác định xem đặc trưng của ảnh nên lựa chọn ở dạng điểm, đường thẳng, biên, đường cong hay miền Loại đặc trưng nào được lựa chọn phụ thuộc nhiều yếu tố trong đó phụ thuộc vào việc lựa chọn kĩ thuật đối sánh ở bước sau Sau khi biết đặc trưng cần dùng, chúng ta tiến hành xác định các đặc trưng đó Các toán

tử dùng để trích chọn đặc trưng khác nhau cũng phụ thuộc vào các kĩ thuật đối sánh Đối với kĩ thuật đối sánh dựa trên miền, Moravec (1989) đề nghị các toán tử liên quan đến cực đại địa phương của sự thay đổi hướng trong một cửa sổ xung quanh

Trang 22

một điểm Đối với kĩ thuật đối sánh dựa trên đặc trưng, một số toán tử được quan tâm là đạo hàm, phép nhân cuộn các toán tử về cường độ các mức xám

a Đối sánh thành phần cơ bản gồm 2 loại:

Các thuật toán dựa trên miền (area-based): Các điểm hay các khối ảnh được

coi như thành phần gốc Khi đối sánh các thành phần gốc người ta sử dụng cường độ điểm ảnh

Các thuật toán dựa vào đặc trưng (feature- based): Các đặc trưng được sử

dụng như là các thành phần cơ bản Việc so sánh được tiến hành trên các đặc trưng này

Trang 23

vậy cùng một điểm quan sát nhưng ảnh của nó lại ở hai vị trí khác nhau trong hai

ảnh Sự khác biệt về vị trí này gọi là độ chênh lệch (disparity) Độ chênh lệch là

khái niệm quan trọng trong thị giác lập thể liên quan đến độ sâu của ảnh (hình 2.5)

Độ chênh lệch ít thì đối tượng quan sát nhỏ đồng nghĩa với việc đối tượng ở xa và ngược lại Do vậy, nếu thêm một số thông tin như tiêu cự camera f và khoảng cách giữa 2 camera ta có thể khôi phục được độ sâu của ảnh Tùy thuộc vào số lượng thông tin đầu vào mà thông tin 3 chiều đầu ra có thể là kết quả của phép chiếu, biến đổi affin, biến đổi metric hay biến đổi Ơclit

Hình 2.5 Độ chênh lệch và mối quan hệ với độ sâu

D Qui trình dựng mô hình 2 chiều từ cặp ảnh đầu vào

Với bài toán dựng mô hình 3 chiều từ hai ảnh đầu vào chi tiết của 3 bước nêu trên được biểu diễn ở mô hình hình 2.6

Trang 24

Hình 2.6 Dựng mô hình 3 chiều từ cặp ảnh Quá trình tiền xử lý bắt đầu bằng việc trích chọn đặc trưng, đối sánh đặc trưng nhằm mục đích tìm mối liên hệ giữa hai ảnh thông qua ma trận cơ bản F

Quá trình đối sánh toàn bộ ảnh được tiến hành trên ảnh chỉnh sửa do vậy giảm thời gian và khối lượng tính toán

Độ sâu được khôi phục dựa trên nguyên lý tam giác

2.2.2 Trích chọn đặc trưng

A Bài toán trích chọn đặc trưng

Trích chọn đặc trưng là vấn đề nghiên cứu cơ bản trong các lĩnh vực khác nhau của thị giác máy như tính độ sâu, tìm cặp điểm đối sánh, nhận dạng đối tượng…Đối với một ảnh, đặc trưng có thể ở dưới các dạng khác nhau như: điểm ảnh, đường thẳng, đường cong, biên, tuỳ thuộc vào đặc điểm và độ phức tạp khi giải quyết bài toán

mà lựa chọn các đặc trưng cho phù hợp

Trang 25

Các đặc trưng là các vị trí trong ảnh mà tại đó các giác quan của con người tập trung

nhiều nhất (perceptually interesting) Trong xử lý ảnh và thị giác máy, trích chọn

đặc trưng là quá trình xử lý làm cho các mẫu ban đầu được biến đổi thành các mẫu mới dễ dàng nhận dạng hơn Các đặc trưng thường chứa các thông tin về mức xám, kết cấu, đường nét hoặc nội dung của ảnh

Trích chọn đặc trưng có từ rất sớm trong lĩnh vực nghiên cứu thị giác máy và có rất nhiều ứng dụng, trong đó, 3 hướng ứng dụng quan trọng nhất đó là: Đăng kí ảnh

(image registration) [13], nhận dạng khuôn mặt và theo dấu chuyển động Đăng kí

ảnh là bài toán liên quan đến việc tìm sự tương ứng giữa hai hay nhiều ảnh ở các khung nhìn khác nhau hoặc ở các thời điểm khác nhau và là bước đầu tiên trong nhiều kĩ thuật xử lý ảnh như lập thể hình học, trộn ảnh và các ứng dụng liên quan đến đối sánh mẫu Các đặc trưng nổi bật của ảnh là yếu tố quan trọng để đăng kí ảnh thành công Các đặc trưng phải mang tính bất biến với các phép quay và các biến dạng hình học của ảnh Trong trường hợp nhận dạng khuôn mặt các đặc trưng lại là các vị trí mô tả các vị trí nổi bật của đường nét khuôn mặt như mắt, mũi, miệng,… Theo dấu ảnh là hướng ứng dụng thứ ba, hiện nay hướng ứng dụng này thu hút được rất nhiều sự quan tâm của cộng đồng các nhà khoa học nghiên cứu trong lĩnh vực chuyển động 3 chiều Khi đối tượng chuyển động cần xác định xem các thành phần của đối tượng tại vị trí mới như thế nào

B Phân loại

Các đặc trưng của ảnh được phân thành một số dạng sau: đường biên, các đường thẳng, các viên tròn và các góc (hình 2.7)

Đường biên là chuỗi các vị trí mà tại đó có sự thay đổi mạnh về cường độ điểm ảnh

Đường biên này không nhất thiết phải trùng với đường biên vật lý của đối tượng

Các đường thẳng là dải hẹp dọc theo đối tượng và có cùng cường độ điểm ảnh, có

thể coi đường thẳng này là hai đường biên song song và gần nhau

Viên tròn là các đối tượng đặc có cường độ các điểm ảnh xấp xỉ nhau

Trang 26

Điểm góc là vị trí gấp khúc của đường biên Trong một cảnh, điểm góc có thể hiểu

là điểm cuối của đường biên

Hình 2.7 Các dạng đặc trưng khác nhau của ảnh

C Trích chọn đặc trưng trong bài toán dựng mô hình 3 chiều

Để tiến hành dựng mô hình 3 chiều cho các điểm trong ảnh, mối liên hệ giữa các ảnh phải được chỉ rõ để biết được một điểm thuộc ảnh bên này sẽ tương ứng với điểm nào thuộc ảnh còn lại Tuy nhiên, việc so sánh mọi điểm ảnh thuộc một ảnh với tất cả các điểm thuộc ảnh còn lại để tìm ra mối liên hệ giữa các ảnh là điều không tưởng nếu chưa qua xử lý bởi độ phức tạp quá lớn Trong các ảnh thực, có rất nhiều điểm, miền ảnh mang tính chất đối sánh tốt hơn những điểm và miền khác

Có những điểm ảnh mà độ thay đổi cường độ xám của miền lân cận rất lớn do vậy tạo ra sự khác biệt với các điểm xung quanh Việc tìm kiếm những điểm đối sánh tốt, hay những điểm quan tâm, là nhiệm vụ lựa chọn các điểm có sự khác biệt với những điểm khác Sự tương ứng giữa các đặc trưng của hai ảnh sẽ được tính toán nhờ các thủ tục đối sánh ở các bước sau Sự tương ứng này phản ánh mối liên hệ giữa các ảnh Trong các thuật toán dựng mô hình 3 chiều từ các ảnh, các điểm góc của các đối tượng trong ảnh là những điểm có nhiều khả năng tìm được điểm tương ứng với chúng trên ảnh còn lại

Đã có rất nhiều nghiên cứu và thuật toán được đưa ra về vấn đề phát hiện điểm góc

Ban đầu, các góc được phát hiện nhờ vào "độ nhọn" (sharp) của đường biên: biên

của đối tượng được lưu dưới dạng mã xích, góc được phát hiện thông qua việc tìm kiếm những vị trí trên biên bị "uốn" một cách đáng kể Kỹ thuật phát hiện góc này rất phức tạp và phải triển khai trên nhiều bước Sau đó, L Kitchen [7] đã đề xuất

Trang 27

một phương pháp để cô lập điểm góc dựa vào một số phép toán trên gradient, phương pháp này không phức tạp như kĩ thuật dựa vào độ nhọn nêu trên Wang và Brady [6] dùng khái niệm độ cong của các đường cong đi qua một điểm để phát hiện góc Moravec [4,5] đề xuất hàm phát hiện góc dựa trên việc dùng một cửa sổ đặt trên ảnh và xác định độ thay đổi trung bình cường độ xám khi dịch chuyển cửa

sổ này theo bốn hướng Harris và Stephens [1] cải tiến phương pháp của Moravec

sử dụng đạo hàm bậc nhất Tuy nhiên, các phương pháp trên lại rất nhạy cảm với

nhiễu và phụ thuộc vào đạo hàm Phương pháp SUSAN (Smallest Univalue

Segment Assimilating Nucleus) [21] do Smith và Brady đề xuất không phụ thuộc

vào công thức tính đạo hàm mà dựa trên khái niệm miền USAN (Univalue Segment

Assimilating Nucleus) Trong một ảnh số, miền USAN đạt diện tích nhỏ nhất khi hạt

nhân của nó trùng với điểm góc Phương pháp SUSAN không nhạy cảm đối với nhiễu, và dễ dàng thực hiện

2.2.3 Bài toán đối sánh

Đối sánh ảnh là công việc tìm sự tương ứng giữa hai hay nhiều ảnh (hình 2.8).P1’ và

P2’ cùng là ảnh của P, trong khi Q1’ và Q2’ cùng là ảnh của Q Tìm mối quan hệ giữa các ảnh đầu vào là một lĩnh vực khó trong thị giác máy, đặc biệt khi các ảnh đầu vào không có ràng buộc Trong vòng 15 năm qua đã có rất nhiều nghiên cứu xung quanh vấn đề này

Hình 2.8 Đối sánh ảnh

Trang 28

Có nhiều loại ràng buộc, tuy nhiên trong một thuật toán, một phương pháp giải không thể thoả mãn hết các ràng buộc đưa ra Dưới đây là một số ràng buộc của bài toán đối sánh

Ràng buộc hình học: (i) Ràng buộc epiloplar: với cặp điểm tương ứng (x, x’) thì x’

phải nằm trên đường epipolar của x và ngược lại Nhờ ràng buộc này không gian tìm kiếm khi đối sánh giảm từ hai chiều xuống 1 chiều thông qua quá trình chỉnh

sửa ảnh (ii) Ràng buộc về sự hiển thị: vật có bị che khuất bởi vật khác hay không,

vật có nằm trong cửa sổ hiển thị hay không, hay vật có nằm trong tầm nhìn hay không

Ràng buộc vật lý: thể hiện cách các mô hình đối tượng, khung cảnh khi có sự tương

tác với ánh sáng

Ràng buộc duy nhất: Mỗi một điểm thuộc ảnh thứ nhất chỉ có duy nhất một điểm

đối sánh tương ứng duy nhất trên ảnh thứ hai và ngược lại

Ràng buộc liên tục: Xét cặp đối sánh ứng cử viên (c1i,c2j) trong đó c1i thuộc ảnh thứ nhất, c2j thuộc ảnh thứ hai N(c1i), và N(c2j) tương ứng là lân cận của c1i và c2j (c1i,c2j) là một cặp đối sánh tốt nếu có nhiều cặp đối sánh (d1k, d2l) trong đó

Theo một khảo sát năm 1988 [2], các nhà nghiên cứu thông thường sử dụng kết hợp

các ràng buộc nêu trên Tuy nhiên, bản báo cáo khảo sát cũng chỉ ra rằng không có một kĩ thuật, thuật toán nào tối ưu và có thể giải quyết hết được tất cả cảc ràng buộc Mỗi cách tiếp cận khác nhau thì sử dụng một độ đo nào đó và cũng có những hạn chế của nó Việc đối sánh với các ảnh chụp sử dụng camera tự do được chia làm hai loại chính [29]: Đối sánh dựa trên miền và đối sánh dựa vào đặc trưng

Đối sánh dựa trên miền: trong cách tiếp cận này các thuật toán sử dụng độ đo độ

tương tự của miền ảnh trong qua trình tính sự tương ứng

Trang 29

Đối sánh dựa vào các đặc trưng: thực hiện việc đối sánh dựa trên các tham số mức

cao hơn đó là các đặc trưng của ảnh, những thuật toán này được phân loại tiếp dựa vào các loại đặc trưng:

• Đối sánh dựa vào biên (Edge-string based)

• Đối sánh dựa vào góc (Corner based)

• Đối sánh dựa vào kết cấu (Texture region based)

Trong qui trình dựng mô hình 3 chiều từ các ảnh bao gồm cả hai loại đối sánh trên Đối sánh đặc trưng được sử dụng trước để tìm ra mối liên hệ giữa các ảnh và được

áp dụng trong quá trình tiền xử lý để tính ra ma trận cơ bản F Trong bước này chỉ một lượng ít các cặp điểm của hai ảnh được đối sánh Ngược lại, đối sánh dựa trên miền sẽ sinh ra một bản đồ “dày dặc” các cặp điểm tương ứng tại bước đối sánh

A Đối sánh dựa trên miền

Cho 2 ảnh chụp cùng một cảnh Ảnh càng ít bị co dãn thì việc tính độ tương tự giữa hai ảnh càng dễ dàng Nếu ảnh được chia thành các miền nhỏ hơn thì với mỗi một miền nhỏ việc tìm miền nhỏ tương ứng với nó ở ảnh khác cũng dễ dàng hơn Do vậy, trong các kĩ thuật đối sánh miền, ảnh được chia thành các miền con hay các khối, một độ đo độ tương tự được đưa ra để đánh giá mức độ tương tự giữa các miền con của hai ảnh Việc sử dụng độ đo tương tự nào quyết định đến sự thành công của các kĩ thuật đối sánh dựa trên miền Độ đo độ tương tự bắt nguồn từ cường

độ mức xám của ảnh là một giải pháp tốt trong thử nghiệm Các thuật toán thuộc dạng này luôn cho một bản đồ dày đặc các cặp điểm đối sánh, từ đó, độ sâu được tính cho tất cả các điểm ảnh ở trong cảnh

Có rất nhiều thuật toán về đối sánh miền, bảng 2.2 dưới đây tóm tắt một số thuật toán Phillippe Leclercq và John Morris thực hiện một số thử nghiệm để tiến hành

so sánh các thuật toán này [11] Theo đánh giá này, thuật toán P2P cho kết quả tốt

nhất, các thuật toán Corr1, Corr2, SSD và SAD cho kết quả khá tốt với các mức độ

Trang 30

nhiễu khác nhau, trong khi đó thuật toán Census cho tỉ lệ lỗi cao khi tính độ chênh lệch

Thuật toán Hàm đánh giá đối sánh Tác giả

2 R

R

L I I

L I I

P2P: Pixel-to-Pixel “Động” (Dynamic) [Birchfield và Tomasi 1998]

Bảng 2.2 Một số thuật toán đối sánh dựa trên miền

Hình 2.9 So sánh một số thuật toán đối sánh dựa trên miền

Trang 31

Hình 2.9 là đồ thị biểu thị kết quả so sánh một số thuật toán đối sánh dựa trên miền Mặc dù, thuật toán SSD, SAD, Corr1 và Corr2 có kết quả không tốt bằng P2P nhưng việc triển khai các thuật toán này lại dễ dàng hơn so với P2P nên các thuật toán này vẫn được dùng phổ biến

B Đối sánh dựa vào đặc trưng

Các đặc trưng thông thường có các thuộc tính sau: tính duy nhất, tính lặp lại và có ý nghĩa vật lý Ưu điểm khi sử dụng kĩ thuật đối sánh dựa vào đặc trưng là các biểu diễn dựa trên đặc trưng cung cấp sự linh hoạt tính toán cho người lập trình Sự linh hoạt thể hiện ở chỗ, các ràng buộc toán học được áp dụng rõ ràng, rành mạch cho cấu trúc dữ liệu Khi so sánh với đối sánh dựa trên miền, các kĩ thuật đối sánh dựa vào đặc trưng chỉ cho một lượng ít cặp điểm đối sánh kết quả, nhưng chính xác hơn

và đáng tin cậy hơn

Trong cách tiếp cận đối sánh dựa vào đặc trưng, đầu tiên cặp ảnh được xử lý để lấy

ra các đặc trưng Sau đó xử lý đối sánh trên các đặc trưng này Một câu hỏi được đặt

ra là loại đặc trưng nào sẽ được sử dụng để đối sánh? Đường biên, góc, đoạn thẳng,

đường cong là những đặc trưng sử dụng tốt khi có sự thay đổi phép chiếu phối cảnh,

do vậy được sử dụng rộng rãi trong đối sánh Biên và góc dễ trong khâu trích chọn nhưng khi đối sánh lại hay gặp hiện tượng nuốt ảnh Trong khi đường thẳng và đường cong ít xảy ra hiện tượng nuốt ảnh nhưng lại mất thêm thời gian để trích chọn

Hầu hết các hệ thống đối sánh dựa trên đặc trưng không chỉ giới hạn ở các kiểu đặc trưng cụ thể mà kết hợp các dạng đặc trưng lại với nhau Như hệ thống đối sánh Weng đưa ra năm 1988 kết hợp độ trù mật, các đường biên, các góc Trong khi hệ thống của Lim và Bin (1987) lại sử dụng sự phân cấp các đặc trưng thay đổi từ các đường biên, đường cong tới các mặt

Trang 32

Dưới đây là một số kiểu đặc trưng dùng cho đối sánh:

Đường biên: Có rất nhiều toán tử dùng để tìm các đường biên trong một ảnh như

toán tử Candy, Laplace

Thuộc tính của đường biên dùng cho đối sánh có thể là: các tọa độ (vị trí của các

đường biên trong ảnh), hướng cục bộ, độ trù mật của hai bên biên

Góc: Phương pháp tìm điểm góc sớm nhất có lẽ là của Beaudet (1978) có tên gọi

DET Những toán tử phát hiện góc được công bố trong những năm 1980 gồm có: các toán tử của Dreshler và Nagel (1982), Kitchen và Rosenfeld (1982), Zuniga và Haralick (1983), Harris (1988)…Toán tử phát hiện góc SUSAN là 1 trong những toán tử được sử dụng phổ biến vì tính đơn giản và hiệu quả

Thuộc tính của góc dùng để đối sánh cho các điểm góc có thể là tọa độ của góc hay

dạng của góc (dạng chữ Y, L hay A…)

Đoạn thẳng: Để trích chọn ra các đoạn thẳng trong ảnh có thể áp dụng một trong

những toán tử dò biên Các đoạn thẳng được hình thành bằng cách hòa trộn các thao tác trên các đường biên dựa trên một số tiêu chuẩn về khoảng cách, độ tương tự Một số thuật toán tìm đường thẳng đã được công bố như thuật toán của Nevatia và Babu (1980), Fishler và Bolles (1983), Weiss và Boldt (1986)

Thuộc tính của đường thẳng dùng cho đối sánh: tọa độ điểm đầu điểm cuối, trung

điểm, hướng của đường thẳng

Đường cong: Đối sánh các đường cong không được sử dụng rộng rãi vì trích chọn

các đường cong rất khó Deriche và Faugeras thông báo về toán tử phát hiện đường cong (1990) là một trong số rất ít nghiên cứu về đường cong

Đường tròn, Elip, đa giác: Những đặc trưng này thường xuất hiện ở cảnh chụp

trong nhà

Thuộc tính dùng để đối sánh có thể là diện tích, tọa độ tâm

Trang 33

Đặc trưng điểm góc SUSAN được sử dụng do vậy việc đối sánh được tìm hiểu trong luận văn thuộc loại đối sánh góc và có 2 bước chính sau đây:

• Tìm ra tập C các cặp đối sánh ứng cử viên từ 2 tập các điểm góc của 2 ảnh sử dụng cửa sổ tương quan

• Tìm ra tập D các cặp đối sánh tốt nhất từ tập C dùng thủ tục phục hồi, nói cách khác, loại bỏ những cặp đối sánh ứng cử viên tồi từ tập C

2.2.4 Tìm ma trận cơ bản F

A Ma trận cơ bản F

Ma trận cơ bản F là biểu diễn đại số của hình học epipolar và được tính từ các cặp đối sánh (x,x’) Ràng buộc epipolar biểu diễn mối quan hệ giữa một điểm trong cặp điểm đối sánh với đường epipolar tương ứng của nó Điểm đối sánh x’ trên ảnh thứ

2 của điểm x trên ảnh thứ nhất chỉ nằm trên đường epipolar tương ứng l’ của x

- Bước 1: Tìm điểm x’ quan sát hình 2.10, mặt phẳng π không đi qua 2 tâm

camera C và C’ Một tia chiếu đi qua tâm chiếu thứ nhất C và điểm x gặp mặt phẳng π tại điểm X Tia chiếu đi qua tâm chiếu 2 C’ và điểm X giao với mặt phẳng ảnh 2 tại x’ x và x’ là ảnh của điểm 3 chiều X Với một tập xi điểm ảnh trên ảnh thứ nhất, qua các phép chiếu qua mặt phẳng π được một tập tương ứng Phép ánh xạ như vậy có được thông qua ma trận đồng hình của mặt phẳng của

'

i x

π

H π , do vậy x' =Hπx

Trang 34

Hình 2.10 Tìm điểm tương ứng x’ của x qua mặt phẳng π

- Bước 2: Xây dựng đường epipolar l’ l' =ex' =[ ]e' x x' mặt khác

do đó

x H

x' = π

[ ]e H x Fx

l' = ' × π =

Trong đó định nghĩa F =[ ]e' ×Hπ là ma trận cơ bản

(Result 8.3 - tr 225) [15] Ma trận cơ bản F thoả mãn điều kiện sau:

0

'Fx=

x

trong đó (x,x’) là cặp điểm đối sánh trên hai ảnh

Một số thuật toán được đề cập đến trong cuốn sách của Hartley [15] như: Thuật toán 8 điểm được chuẩn hóa (phụ lục B), thuật toán tối thiểu lỗi đại số, thuật toán tối thiểu lỗi hình học Gold Standard và thuật toán tính F sử dụng RANSAC

Trong cuốn sách, Hartley cũng nêu ra việc đánh giá một số thuật toán thông qua thực nghiệm Việc đánh giá được tiến hành trên 3 thuật toán đầu tiên Một vài kết

luận được đưa ra [15]:

• Hai thuật toán sau kết quả không có mấy sự khác biệt

• Để tính toán được nhanh nên sử dụng thuật toán 8 điểm được chuẩn hóa Thuật toán này nếu được áp dụng là bước ước lượng đầu tiên trong các thuật toán khác thì cho kết quả rất tốt

• Để đạt kết quả chính xác như mong muốn, nên sử dụng thuật toán tối thiểu lỗi đại số

Trang 35

• Để đạt được kết quả tốt nhất với giả thiết nhiễu phân phối theo hàm Gaussian thì sử dụng thuật toán Gold Standard

Đồng thời trong cuốn sách Hartley cũng đề xuất thuật toán sử dụng RANSAC với một số đặc điểm sau:

• Chỉ cần lấy mẫu 7 cặp điểm đối sánh tương ứng để tính F Thuật toán sẽ tự động tính ra ma trận hạng 2 chứ không cần xử lý như trong thuật toán 8 điểm

• Một lượng lớn các mẫu cặp điểm đối sánh được gọi đến nhằm đưa ra kết quả

có độ chính xác cao

2.2.5 Chỉnh sửa ảnh

Để dựng được mô hình 3 chiều, tất cả các cặp ảnh tương ứng trong hai ảnh gốc phải được tìm ra Như vậy, xét một điểm x trong ảnh thứ nhất ta phải tìm được điểm x’ tương ứng trong ảnh thứ hai, từ đó, đi tìm điểm 3 chiều X của x và x’ Tuy nhiên, khi đã biết điểm x, việc tìm kiếm x’ trong toàn bộ ảnh hai thì không hiệu quả Chỉnh sửa ảnh có tác dụng làm giảm không gian tìm kiếm x’ từ 2 chiều xuống 1 chiều Như trình bày ở trên, cho cặp điểm tương ứng (p, p’) thì pvà p’ phải thoả mãn ràng

buộc epiplar (hình 2.11) Cho trước ảnh bên trái I, điểm P 3 chiều có điểm ảnh p

trên I phải tính điểm p’ P phải thuộc đường thẳng nối liền điểm p và tâm chiếu C,

do vậy điểm tương ứng p’ thuộc ảnh của đường thẳng nối p và C nêu trên Hay nói cách khác p’ thuộc l’ Ảnh được chỉnh sửa sao cho tất cả các epipolar đều nằm ngang Do vậy x2 được tìm bằng cách quét trên các đường nằm ngang Không gian tìm kiếm của x2 đã rút từ 2 chiều sang 1 chiều Hầu hết các thuật toán đối sánh toàn

bộ ảnh đều thực hiện trên ảnh đã được chỉnh sửa nhằm giảm không gian tìm kiếm xuống 1 chiều

Trang 36

Hình 2.11 Ràng buộc epipolar Vậy nhiệm vụ của chỉnh sửa ảnh là biến đổi ảnh sao cho các đường epipolar song song với nhau theo chiều ngang (hình 2.12) Nhiều phương pháp chỉnh sửa ảnh đã

được biết đến Phương pháp chỉnh sửa ảnh phẳng (planar rectification) [16,17]

dùng một biến đổi tuyến tính đơn trên mỗi ảnh đầu vào, xoay các camera sao cho các mặt phẳng ảnh giống nhau Phương pháp này đơn giản, nhanh chóng và bảo toàn một số đặc trưng của ảnh như các đường thẳng Tuy nhiên, phương pháp này

có thể cho ảnh kết quả quá lớn, bị bóp méo và không “đóng” (unbounded) Kĩ thuật chỉnh sửa ảnh trục (cylindrical rectification) [20] sử dụng các biến đổi riêng biệt

cho mỗi đường epipolar Tuy nhiên kĩ thuật này quá phức tạp và các toán tử cần được tính toán trong không gian 3 chiều Các thuật toán chỉnh sửa ảnh khác nhau

được đưa ra trong các bài giảng (Ayache and Lustman, 1991; Fusiello et al , 2000; Hartly, 1999; Robert et al., 1995; Mulligan and Kanillidis, 2000; Isgro and Trucco,

1999) Hầu hết các thuật toán đều sử dụng phép biến đổi thuần nhất

Đề tài này sử dụng phương pháp đề xuất bởi Marc Pollefeys [8] Biến đổi hai

ảnh sao cho các đường epipolar của hai ảnh trùng nhau Sau đó tiến hành biến đổi ảnh sang tọa độ cực sao cho các đường epipolar song song với nhau và song song với đường cơ bản

Trang 37

Hình 2.12 Chỉnh sửa ảnh

2.2.6 Khôi phục độ sâu

Độ chênh lệch

Độ lệch thị giác (vision disparity): là sự khác biệt giữa hai ảnh trên võng mạc của

mắt khi quan sát đối tượng Điều này xảy ra vì hai mắt ở vị trí khác nhau cho nên mặc dù quan sát cùng một đối tượng nhưng mắt trái không thu nhận cùng một thông tin như mắt phải [24]

Bản đồ chênh lệch của ảnh sau khi chỉnh sửa:

Chỉnh sửa ảnh tạo ra các ảnh mới có các đường epipolar song song với nhau và song song với đường cơ bản dựa trên ràng buộc epipolar Tiến hành đối sánh trên ảnh chỉnh sửa làm cho không gian tìm kiếm điểm đối sánh giảm từ 2 chiều xuống 1 chiều

Nếu m1(u1,v1) thuộc ảnh thứ nhất, thì điểm tương ứng trên ảnh thứ hai là m2(u2,v2), tuy nhiên, đối với cặp ảnh đã được chỉnh sửa, với m1(u1,v1) thì điểm đối sánh tương ứng sẽ là m2(u2,v1) Độ chênh lệch d được định nghĩa như sau d=u2-u1(hình 1.13)

L là độ dài của đường cơ bản CC’ Z là độ sâu của điểm 3 chiều (khoảng cách tính

từ điểm 3 chiều đến đường cơ bản) f là tiêu cự của camera (khoảng cách từ mặt

Trang 38

phẳng ảnh đến đường cơ bản) Hai mặt phẳng ảnh song song với đường cơ bản vì ảnh đã được chỉnh sửa

Dựa vào các quan hệ hình học của các đại lượng nêu trên, ta có được mối liên hệ giữa độ sâu và độ chênh lệch theo công thức toán học sau:

Hình 2.13 Mối liên hệ giữa độ chênh lệch và độ sâu Điểm 3 chiều có thể tính được thông qua phép chiếu ngược lại từ hai điểm ảnh qua

2 tâm chiếu C và C’ Giao điểm của hai tia chiếu này là điểm 3 chiều cần tìm Dẫu không biết được độ dài của đường cơ bản, nhưng các ma trận camera lại thể hiện các phép chiếu ngược Các thuật toán tam giác tận dụng mối quan hệ giữa các ảnh thể hiện ở ma trận F, tìm ra các ma trận camera từ đó tìm ra điểm 3 chiều thông qua các phép biến đổi

Ngày đăng: 25/03/2015, 10:24

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] C. Harris and M. Stephens, (1988), “A combined corner and edge detector, Fourth Alvey Vision Conference”, tr.147-151 Sách, tạp chí
Tiêu đề: A combined corner and edge detector, Fourth Alvey Vision Conference
Tác giả: C. Harris and M. Stephens
Năm: 1988
[3] H. K. Nishihara. PRISM, (1984), “A Practical Real-Time Imaging Stereo matcher”, Technical Report A.I. Memo 780, MIT, Cambridge, MA Sách, tạp chí
Tiêu đề: A Practical Real-Time Imaging Stereo matcher”
Tác giả: H. K. Nishihara. PRISM
Năm: 1984
[4] H. P. Moravec, (1979), “Visual mapping by a robot rover”, In Proc. of the 6th International Joint Conference on Artificial Intelligence, tr. 598—600 Sách, tạp chí
Tiêu đề: Visual mapping by a robot rover”, In "Proc. of the 6th International Joint Conference on Artificial Intelligence
Tác giả: H. P. Moravec
Năm: 1979
[5] H. P. Moravec, (1977), “Towards automatic visual obstacle avoidance”, In Proc. of the International Joint Conference on Artificial Intelligence, tr. 584 Sách, tạp chí
Tiêu đề: Towards automatic visual obstacle avoidance”, In "Proc. "of the International Joint Conference on Artificial Intelligence
Tác giả: H. P. Moravec
Năm: 1977
[6] H. Wang và J.M. Brady, (1992), “Corner detection with subpixel accuracy”, Technical Report OUEL 1925/92, Dept. Engineering Science, University of Oxford Sách, tạp chí
Tiêu đề: Corner detection with subpixel accuracy”
Tác giả: H. Wang và J.M. Brady
Năm: 1992
[7] L. Kitchen và A. Rosenfeld, (1982), “Gray-level corner detection. Pattern Recognition Letters”, tr. 95-102 Sách, tạp chí
Tiêu đề: Gray-level corner detection. Pattern Recognition Letters
Tác giả: L. Kitchen và A. Rosenfeld
Năm: 1982
[8] M. Polleyfeys, R. Koch, M. Vergauwen, and L. Van Gool. “A simple and efficient rectification method for general motion”. In Proceedings of International Cenference on Computer Vision Sách, tạp chí
Tiêu đề: A simple and efficient rectification method for general motion”. In
[9] O. D. Faugeras, (1992), “What can be seen in three dimensions with an unclibrated stereo rig?”, In European conference on computer vision Sách, tạp chí
Tiêu đề: What can be seen in three dimensions with an unclibrated stereo rig?”
Tác giả: O. D. Faugeras
Năm: 1992
[11] Philippe Leclercq and John Morris, “Asessing Stereo Algorithm Accuracy” Sách, tạp chí
Tiêu đề: Asessing Stereo Algorithm Accuracy
[12] Q. T. Luong and T. Viéville, (1996), “Canonical representations for geometries of multiple projective views”, Computer vision and Image Understanding, vol. 64, no. 2 Sách, tạp chí
Tiêu đề: Canonical representations for geometries of multiple projective views”, "Computer vision and Image Understanding
Tác giả: Q. T. Luong and T. Viéville
Năm: 1996
[13] Q. Zheng, R. Chellappa and B. S. Manjunath, (1991), “Balloon motion estimation using two frame”, In Proc 25 th Asilomar Conference on Signals, Systems and Computers, tr.1057-1061, Pacific Grove, CA Sách, tạp chí
Tiêu đề: Balloon motion estimation using two frame”, In "Proc 25"th" Asilomar Conference on Signals, Systems and Computers
Tác giả: Q. Zheng, R. Chellappa and B. S. Manjunath
Năm: 1991
[14] R. Hartley, (1993), “Cheirality invariants”. In Proc. DARPA Image Understanding Workshop, tr. 743-753 Sách, tạp chí
Tiêu đề: Cheirality invariants”. In "Proc. DARPA Image Understanding Workshop
Tác giả: R. Hartley
Năm: 1993
[15] Richard Hartley and Andrew Zisserman, (2000), Multiple View Geometry in computer vision, University Press, Cambridge, United Kingdom Sách, tạp chí
Tiêu đề: Multiple View Geometry in computer vision
Tác giả: Richard Hartley and Andrew Zisserman
Năm: 2000
[16] R. I. Hartley, (1995), “Theory and practice of projective rectification”, Technical Report 2538, INRIA Sách, tạp chí
Tiêu đề: Theory and practice of projective rectification”
Tác giả: R. I. Hartley
Năm: 1995
[17] R. I. Hartley and R. Gupta, (1993), “Computing matched epipolar projections”, In Proc. CVPR, tr. 549-555, New York Sách, tạp chí
Tiêu đề: Computing matched epipolar projections”, In" Proc. CVPR
Tác giả: R. I. Hartley and R. Gupta
Năm: 1993
[18] R. I. Hartley, (1992), “Estimation of relative camera positions for uncalibrated cameras”, In European conference on computer vision Sách, tạp chí
Tiêu đề: “"Estimation of relative camera positions for uncalibrated cameras”, In
Tác giả: R. I. Hartley
Năm: 1992
[19] R. Sablatnig and M. Kampel, (2001), “Computing relative disparity maps from stereo images” Sách, tạp chí
Tiêu đề: Computing relative disparity maps from stereo images
Tác giả: R. Sablatnig and M. Kampel
Năm: 2001
[20] R. Sébastien, J. Meunier and J. C. Ingemar, (1997), “Cylindrical rectification to minimize epipolar distortion”. In Proc. ICVPR, tr. 393-399 Sách, tạp chí
Tiêu đề: Cylindrical rectification to minimize epipolar distortion”. In "Proc. ICVPR
Tác giả: R. Sébastien, J. Meunier and J. C. Ingemar
Năm: 1997
[21] S. M. Smith and J. M. Brady. “SUSAN - a new approach to low level image processing” Sách, tạp chí
Tiêu đề: SUSAN - a new approach to low level image processing
[22] T. Kanade and M. Okutomi, (1994), “A Stereo Matching Algorithm with an adaptive window: Theory and Experiment” Sách, tạp chí
Tiêu đề: A Stereo Matching Algorithm with an adaptive window: Theory and Experiment
Tác giả: T. Kanade and M. Okutomi
Năm: 1994

HÌNH ẢNH LIÊN QUAN

Hình 2.1. Hệ thống thị giác của con người - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 2.1. Hệ thống thị giác của con người (Trang 14)
Hình 2.2. Liên hệ của cặp điểm đối sánh x, x’ - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 2.2. Liên hệ của cặp điểm đối sánh x, x’ (Trang 16)
Bảng 2.1. Phân cấp các phép biến đổi - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Bảng 2.1. Phân cấp các phép biến đổi (Trang 20)
Hình 2.5. Độ chênh lệch và mối quan hệ với độ sâu - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 2.5. Độ chênh lệch và mối quan hệ với độ sâu (Trang 23)
Hình 2.6. Dựng mô hình 3 chiều từ cặp ảnh - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 2.6. Dựng mô hình 3 chiều từ cặp ảnh (Trang 24)
Hình 2.11. Ràng buộc epipolar - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 2.11. Ràng buộc epipolar (Trang 36)
Hình 2.12. Chỉnh sửa ảnh - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 2.12. Chỉnh sửa ảnh (Trang 37)
Hình 2.13. Mối liên hệ giữa độ chênh lệch và độ sâu - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 2.13. Mối liên hệ giữa độ chênh lệch và độ sâu (Trang 38)
Hình 3.1. Mô hình bộ công cụ dựng lấy thông tin 3 chiều từ cặp ảnh - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 3.1. Mô hình bộ công cụ dựng lấy thông tin 3 chiều từ cặp ảnh (Trang 39)
Hình 3.2. Mặt nạ hình tròn và vị trí tương đối so với đối tượng - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 3.2. Mặt nạ hình tròn và vị trí tương đối so với đối tượng (Trang 40)
Hình 3.4 Tìm điểm đặc trưng SUSAN - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 3.4 Tìm điểm đặc trưng SUSAN (Trang 41)
Hình 3.9. Các vùng ảnh khác nhau (trái) và vùng ảnh quan tâm (phải) - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 3.9. Các vùng ảnh khác nhau (trái) và vùng ảnh quan tâm (phải) (Trang 51)
Hình 3.10. Các độ đo trong ảnh. - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 3.10. Các độ đo trong ảnh (Trang 52)
Hình 3.12. Biểu diễn đối sánh giữa các cặp điểm của ảnh trái và phải - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 3.12. Biểu diễn đối sánh giữa các cặp điểm của ảnh trái và phải (Trang 55)
Hình 4.4. Mô hình 3 chiều kết quả. - Xây dựng các mô hình 3 chiều sử dụng camera cầm tay
Hình 4.4. Mô hình 3 chiều kết quả (Trang 67)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w