Nhận dạng sản phẩm 3d dùng xử lý ảnh

NHIỆM VỤ VÀ NỘI DUNG: Nhận dạng sản phẩm 3D qua ảnh Thể hiện tọa độ 3D và hình ảnh chênh lệch độ sâu 3D của vật thể Thực nghiệm hệ 2 camera chụp ảnh stereo, máy tính lập trình Matl

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA

HUỲNH VĂN MINH

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học: TS HOÀNG MINH TRÍ

Cán bộ chấm nhận xét 1: PGS.TS NGUYỄN VĂN NHỜ

Cán bộ chấm nhận xét 2: TS TRƯƠNG ĐÌNH CHÂU

LUẬN VĂN THẠC SĨ ĐƯỢC BẢO VỆ TẠI HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH

Ngày 26 tháng 12 năm 2008

Trang 3

TRƯỜNG ĐẠI HỌC BÁCH KHOA

PHÒNG ĐÀO TẠO SAU ĐẠI HỌC

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM ĐỘC LẬP – TỰ DO – HẠNH PHÚC

TP HCM, ngày 28 tháng 11 năm 2008

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ và tên học viên: HUỲNH VĂN MINH

Ngày tháng năm sinh: 02-04-1976

Chuyên ngành: TỰ ĐỘNG HÓA

Phái: Nam Nơi sinh: TP HCM MSHV: 01506360

I TÊN ĐỀ TÀI:

NHẬN DẠNG SẢN PHẨM 3D DÙNG XỬ LÝ ẢNH

II NHIỆM VỤ VÀ NỘI DUNG:

Nhận dạng sản phẩm 3D qua ảnh

Thể hiện tọa độ 3D và hình ảnh chênh lệch độ sâu 3D của vật thể

Thực nghiệm hệ 2 camera chụp ảnh stereo, máy tính lập trình Matlab xử

lý ảnh để nhận dạng sản phẩm cơ khí 3D

III NGÀY GIAO NHIỆM VỤ (Ngày bảo vệ đề cương): 24-01-2008

IV NGÀY HOÀN THÀNH NHIỆM VỤ (Ngày bảo vệ luận văn): 26-12-2008

V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: TS HOÀNG MINH TRÍ

VI HỌ VÀ TÊN CÁN BỘ NHẬN XÉT 1: PGS.TS NGUYỄN VĂN NHỜ

VI HỌ VÀ TÊN CÁN BỘ NHẬN XÉT 2: TS TRƯƠNG ĐÌNH CHÂU

Trang 4

LỜI CẢM ƠN

Tác giả xin chân thành cảm ơn Thầy TS Hoàng Minh Trí đã hướng dẫn tác giả tận tình trong việc định hướng tìm cách lựa chọn đề tài sao cho thích hợp với khả năng mình và thực trạng của sự phát triển khoa học kỹ thuật Thầy đã có những định hướng và nhận xét thiết thực trong quá trình thực hiện luận văn

Chân thành cảm ơn tất cả các Thầy, Cô ở Bộ môn Tự động, cũng như Bộ môn Điện tử đã nhiệt tình giảng dạy các môn học trong ba học kỳ vừa qua, mà kết quả ấy đã trang bị một nền tảng cơ sở lý thuyết về Điều khiển Tự động và Xử lý ảnh,

để hôm nay tác giả mạnh dạng, tự tin xin vận dụng những kiến thức đã học cộng với việc nghiên cứu thêm tài liệu trên mạng để đưa ra đề tài nghiên cứu này

Cũng xin thành thật cảm ơn bạn bè cùng lớp, anh chị ở các khóa trước, các nhà khoa học trong và ngoài nước, thư viện trường Đại học Bách Khoa đã chia sẻ những ý kiến và tài liệu tham khảo quí báu liên quan đến đề tài

Cuối cùng là sự cảm ơn mà không có gì đền đáp nỗi là tình cảm gia đình đã nuôi dưỡng, hun đúc và động viên tác giả trong thời gian thực hiện luận văn

TP HCM, tháng 11-2008 Tác giả

Huỳnh Văn Minh E-mail: huynhvan_minh1976@yahoo.com.vn

Trang 5

TÓM TẮT

Nhận dạng ảnh 2D sẽ không nhận ra chiều sâu của vật thể, nhận dạng 3D sẽ giải quyết được điều này, thông qua nó chúng ta sẽ biết được tọa độ và cấu trúc 3D của vật thể trong không gian Euclid

Hệ thống thị giác nổi được xây dựng dựa vào hai CCD camera đặt song song tựa như mắt người cùng quan sát các sản phẩm 3D rồi chụp ảnh tạo ra những cặp ảnh nổi từ camera trái và camera phải để từ đó vận dụng các công cụ xừ lý ảnh để tính tọa độ 3D của những điểm tương đồng, biểu diễn thành ảnh 3D làm nổi lên chiều sâu của sản phẩm

Một kỹ thuật làm phù hợp nổi [26] được vận dụng để tìm tất cả những điểm tương đồng dựa vào phương pháp quét cửa sổ trên những đường epipolar song song trên cả hai ảnh trái và ảnh phải, sau đó được đánh giá bởi chỉ tiêu SAD và GRAD

để tìm ra lượng pixel tương đồng lớn nhất Sự phân đoạn ảnh nhằm tìm ra tập hợp nhãn biểu thị cường độ sáng màu sắc [30] Kết quả cuối cùng là một ảnh nổi thể hiện sự chênh lệch độ sâu thông qua độ sáng màu sắc được hình thành

Luận văn mang tính thực tiễn cao, có thể được áp dụng để chế tạo ra máy đo kích thước 3D và thiết bị giám sát sản phẩm phối hợp với tay máy để gấp sản phẩm ra khỏi băng chuyền sản xuất

Từ khóa: stereo vision, camera calibration, 3D measurement, Epipolar

constraints, stereo camera, 3D object recognition, 3D reconstruction, 3D geometry, image processing, stereo matching

Trang 6

Abstract

2D recognition will not recognize the depth of object when observing, 3D recognition will solve this problem, through that we will know 3D co-ordinate and 3D structure of object in Euclidean space

Stereo vision system is configured by two CCD cameras putting parallel like human vision, observing together 3D products and capture pictures as stereo images from left and right camera, then applying toolbox image processing in order to calculate 3D co-ordinate of correspondence points, constructing 3D map that present the depth of products

The stereo matching technique [26] is in use to find all correspondent points via window-based method scanning on parallel epipolar lines on both left and right image, after that will be evaluated by cost SAD and GRAD to find out best correspondent pixel number Segment image method is used to find out label set presenting color intensity [30] The result image will show disparity intensity map that present the depth of object by color intensity

This thesis is reality, can be manufactured 3D measurement machine and product observing device controling robot arm to manipulate products out of the production conveyer

Key words: stereo vision, camera calibration, 3D measurement, Epipolar

constraints, stereo camera, 3D object recognition, 3D reconstruction, 3D geometry, image processing, stereo matching

Trang 7

MỤC LỤC

NHIỆM VỤ LUẬN VĂN THẠC SĨ 2

LỜI CẢM ƠN 3

TÓM TẮT 4

Abstract 5

MỤC LỤC 6

CHƯƠNG 1: GIỚI THIỆU 8

I MỞ ĐẦU: 9

1) Động cơ nghiên cứu: 9

2) Đối tượng và phạm vi nghiên cứu: 9

3) Ý nghĩa nghiên cứu: 10

II TÓM TẮT CÁC CÔNG TRÌNH NGHIÊN CỨU THỊ GIÁC NỔI 3D: 11

III SƠ LƯỢC NỘI DUNG LUẬN VĂN: 13

CHƯƠNG 2: XỬ LÝ ẢNH CƠ BẢN 14

I ẢNH SỐ: 15

1) Định nghĩa ảnh số: 15

2) Ảnh xám: 15

3) Ảnh nhị phân: 15

4) Ảnh màu: 15

5) Thu nhận ảnh: 16

6) Nhiễu: 16

II XỬ LÝ ẢNH: 18

1) Lược đồ ảnh: 18

2) Cân bằng histogram ảnh: 19

3) Ảnh nhị phân: 19

4) Lọc không gian ảnh: 21

4.1) Lọc trung bình: 21

4.2) Lọc Gauss: 22

4.3) Lọc Gradient: 23

4.4) Lọc Laplace: 24

4.5) Lọc thích nghi Wiener: 26

5) Lọc tần số - Lọc trung vị: 27

CHƯƠNG 3: CƠ SỞ LÝ THUYẾT THỊ GIÁC NỔI 28

I HÌNH HỌC CƠ BẢN CỦA CAMERA: 29

1) Pinhole camera: 29

2) Hình học phối cảnh: 30

3) Mô hình thấu kính đơn giản: 31

4) Hiệu chỉnh camera: 32

II HÌNH HỌC THỊ GIÁC NỔI 3D: 34

1) Tam giác ảnh nổi: 34

2) Điểm tương đồng: 36

3) Luật epipolar: 37

4) Khôi phục tọa độ 3D: 40

5) Khôi phục cấu trúc 3D của vật thể: 41

5.1) Tính ma trận thiết yếu: 42

5.2) Tính ma trận cơ sở : 45

III CÁC VẤN ĐỀ TRONG THỊ GIÁC NỔI : 48

Trang 8

IV SỰ LÀM PHÙ HỢP ẢNH NỔI : 51

1) Kỹ thuật làm phù hợp ảnh nổi : 51

1.1) Kỹ thuật phù hợp ảnh nổi dựa vào cường độ: 51

1.2) Tiếp cận làm phù hợp ảnh nổi dựa vào đặc trưng : 55

2) Những luật làm phù hợp: 58

3) Vài thuật toán tính sự phù hợp: 61

4) Cấu hình hệ thống nổi: 63

5) Các thuật toán đánh giá độ tương đồng của sự phù hợp ảnh nổi: 63

CHƯƠNG 4: THỰC NGHIỆM 65

I CẤU HÌNH HỆ THỐNG NỔI : 66

1) Phần cứng: 66

2) Phần mềm: 67

3) Hiệu chỉnh hệ camera: 68

II THỰC NGHIỆM : 72

1) Tạo tập mẫu ảnh stereo: 72

2) Tính toán tọa độ 3D: 74

3) Giao diện của chương trình : 74

4) Kết quả xử lý tìm biên: 76

5) Kết quả vẽ cường độ xám: 80

6) Kết quả tìm tọa độ tương đồng 3D : 83

7) Kết quả khôi phục ảnh stereo mặt phẳng chênh lệch độ sâu: 87

KẾT LUẬN & HƯỚNG PHÁT TRIỂN 91

1) KẾT LUẬN: 92

2) HƯỚNG PHÁT TRIỂN : 92

TÀI LIỆU THAM KHẢO 93

LÝ LỊCH KHOA HỌC 96

PHỤ LỤC – Code chương trình sử dụng trong luận văn 97

Trang 9

CHƯƠNG 1: GIỚI THIỆU

Trang 10

I MỞ ĐẦU:

1) Động cơ nghiên cứu:

Vấn đề nhận dạng, phân loại và bám theo đối tượng 2D như nhận dạng mặt người [22], biển số xe, phương tiện giao thông [23], nhận dạng vân tay, nhận dạng hạt gạo [24] đã được nhiều tác giả trong và ngoài nước nghiên cứu nhằm kết hợp giữa kỹ thuật xử lý ảnh và kỹ thuật điều kiển hiện đại để nhận dạng đối tượng, bám theo đối tượng, sau đó sẽ có những hành vi tùy theo yêu cầu của người điều khiển như nhận dạng mặt người để phát hiện ra kẻ xấu trong an ninh; nhận dạng biển số xe (đã được

áp dụng trong điều khiển giao thông ở nước ta) nhằm ước lượng chính xác ra biển

số xe vi phạm trật tự an toàn giao thông khi có nhiễu của môi trường tác động; hoặc nhận diện phương tiện giao thông để đưa ra mức tính thu phí cầu đường tự động; nhận dạng vân tay trong bảo mật thông tin khi bước vô cửa hay mở máy tính

Qua thảo luận với giáo viên hướng dẫn và tham khảo nhiều tài liệu trong và ngoài nước, tác giả rút ra một điều rằng vẫn chưa đủ chi tiết khi một vật thể chỉ được xem xét dưới góc độ 2 chiều (2D), hình ảnh 3 chiều (3D) sẽ phản ánh vật thể một cách trung thực hơn nhờ quan sát được chiều sâu của vật thể đó [12]

Hơn nữa ta có thể nhận ra hình dạng 3 chiều (nhất là chiều sâu) và đo đạc chính xác vật thể đó trong không gian [1] Do vậy mà đề tài “nhận dạng sản phẩm 3D dùng xử lý ảnh,, được tác giả bàn đến nhằm vào mục đích trên

2) Đối tượng và phạm vi nghiên cứu:

Thông qua việc tìm hiểu cơ sở lý thuyết, tác giả sẽ tiến hành kiểm chứng bằng

mô hình thực nghiệm gồm cả phần cứng và phần mềm, trong đó phần cứng là hệ gồm 2 CCD (Charge Coupled Device) camera–sản phẩm 3D–máy tính Để minh họa tính 3D của sản phẩm, tác giả đã chọn các sản phẩm cơ khí thật có hình lập thể như các con tán trong ngành ô tô để luận văn mang tính thực tiễn hơn

Trang 11

Do thời gian thực hiện đề tài có hạn nên tác giả xin giới hạn lại phạm vi nghiên cứu của mình là chỉ dùng hệ 2 CCD camera chụp các sản phẩm để tạo ra tập mẫu gồm có các cặp ảnh nổi stereo mà sẽ được xử lý tiếp theo để kiểm chứng cơ sở lý thuyết 3D có đúng không Các quá trình thực hiện từ các xử lý ảnh cơ bản như lọc không gian, lọc tần số, tìm đường biên cho đến vấn đề xử lý chính là xử lý 3D như thể hiện tọa độ tương đồng của cặp ảnh stereo rồi thể hiện thành hình ảnh 3D để biết chiều sâu của các mặt phẳng của sản phẩm Bước cuối cùng của xử lý 3D là khôi phục lại ảnh 3D của sản phẩm dựa vào những mặt phẳng màu sắc chênh lệch để thể hiện về độ sâu của sản phẩm trong không gian

Do vấn đề về nhận dạng ảnh 3D còn rất rộng, chưa được khai thác hết nên tác giả dừng lại không nghiên cứu phần phân loại sản phẩm dùng mạng Nơron và phần điều khiển cánh tay Robot bám theo sản phẩm để gấp sản phẩm ra ngoài Nhưng phần của tác giả nghiên cứu là phần nền tảng cho vấn đề nghiên cứu tiếp theo, sau khi đã nhận dạng ra được đối tượng 3D (vị trí tọa độ, kích thước) thì vấn đề điều khiển cánh tay Robot bám theo và gấp sản phẩm sẽ trở nên thuận lợi hơn

3) Ý nghĩa nghiên cứu:

Cũng như các đề tài nghiên cứu về nhận dạng ảnh 2D đã mang lại tính thiết thực trong ứng dụng cuộc sống và sản xuất, đề tài nhận dạng sản phẩm 3D cũng giống như 2D nhưng sẽ mở rộng thêm tính linh hoạt trong nhận dạng Như đã nói, nhận dạng 2D sẽ không quan sát được chiều sâu của sản phẩm nên sẽ giảm độ chính xác Nhưng nhận dạng ảnh 3D cũng có nhược điểm, thứ nhất là về mặt giá thành – 2D chỉ sử dụng một camera quan sát, nhưng 3D sử dụng đến hai camera; thứ hai, thuật toán nhận dạng 3D sẽ phức tạp hơn 2D nhất là về vấn đề đi tìm điểm tương đồng trên cặp ảnh nổi stereo để khôi phục lại một ảnh cuối cùng mà thể hiện được chiều sâu của sản phẩm, chiều sâu này mang tính định lượng có nghĩa là ta biết rõ là cách

xa chỗ quan sát là bao nhiêu Luận văn mang tính thực tiễn cao, có thể vận dụng để chế tạo máy đo 3D hay thiết bị giám sát sản phẩm phối hợp với cánh tay robot để gấp sản phẩm ra khỏi dây chuyền

Trang 12

II TÓM TẮT CÁC CÔNG TRÌNH NGHIÊN CỨU THỊ GIÁC NỔI 3D: Trong điều kiện mà tác giả đã đọc được các nghiên cứu về thị giác nổi, xin được tóm tắt vài công trình trong thời gian gần đây để nắm bắt được tiến độ tiếp cận và kết quả của công trình Cũng như các chủ đề nghiên cứu khác, chủ đề về thị giác nổi cũng được rất nhiều tác giả nghiên cứu, mỗi công trình nghiên cứu đến một khía cạnh và cũng có trường hợp chỉ với một khía cạnh mà nhiều tác giả đã bỏ nhiều công sức để nghiên cứu nó, đó là vấn đề tìm tương đồng trong vấn đề phù hợp ảnh nổi

Nội dung các công trình:

[3] (năm 2006) của Christian Teutsch, Dirk Berndt, Andreas Sobotta, Silvio

Sperling dùng 2 camera quan sát máy phun nhựa để ước lượng độ dày của khuôn

nhựa có đồng đều không Tác giả dùng phương pháp phân tích một tập hợp hàm tương quan, kích thước và hình dạng cửa sổ, dùng hệ số tương quan Pearson để đạt được một sự phù hợp tốt nhất từ cặp ảnh stereo trái phải Kết quả như sau:

Ảnh trái Ảnh phải Ảnh kết quả (màu biểu thị độ sâu)

[4] (năm 2006) của Josef Bigun tìm những điểm tương đồng ở ảnh trái và phải

để xây dựng nên ảnh 3D, vấn đề này sẽ được tác giả ứng dụng trong luận văn của mình Kết quả của Josef Bigun như sau:

Trang 13

Ảnh trái Ảnh phải

Xác định điểm tương đồng Ảnh 3D của khuôn mặt

[2] (khoảng ≥ năm 2001) của Atsushi Yamashita, Shinya Matsushita,

Takeshi Sonohara, Toru Kaneko, Kenjiro T Miura and Suekichi Isogai dùng

phương pháp hiệu chỉnh trong thời gian thực nhờ quan hệ giữa các góc và đo lường 3D để gấp sản phẩm trên băng chuyền

Trang 14

Mẫu sản phẩm trái và phải được làm tương đồng, cánh tay robot gấp sản phẩm

[26] (năm 2006) của Andreas Klaus, Mario Sormann, Konrad Karner dùng

thuật toán lan truyền tin cậy và tự thích nghi sai lệch để làm phù hợp ảnh nổi có tỉ lệ tương đồng cao, tác giả đã kiểm chứng thuật toán này trong luận văn của mình

Ảnh Tsu trái Ảnh Tsu phải Ảnh kết quả (độ sáng chỉ độ sâu)

III SƠ LƯỢC NỘI DUNG LUẬN VĂN:

Luận văn được tác giả chia thành 4 chương, chương mở đầu đã được tác giả nói

ở trên Chương 2 là các xử lý ảnh cơ bản cần phải thành thạo vì là nền tảng để xây dựng những thuật toán phức tạp hơn Chương 3 là chương chính vì là cơ sở lý thuyết nền tảng để hiểu về thị giác nổi, các khái niệm như tam giác nổi, đường epipolar sẽ được đề cập, tất cả các tài liệu nghiên cứu về thị giác nổi đều nói về nó Còn chương cuối cùng là chương 4 là tất cả những thí nghiệm được thể hiện đầy đủ trong luận văn mà tác giả tốn rất nhiều công sức mới thể hiện được, phần code của chương trình được đính kèm trong phần phụ lục

Trang 15

CHƯƠNG 2:

XỬ LÝ ẢNH CƠ BẢN

Trang 16

Giá trị số nguyên nhỏ nhất của hàng và cột gọi là pixel (là phần tử của ảnh), mỗi

một pixel được gán giá trị để biểu diễn độ sáng của nó Thông thường S(x,y) được gán giá trị trong thang xám (còn gọi là gray-scale) của tập G = {0,1,…,255}, giá trị gray-scale bằng không tương ứng với mức đen và 255 tương ứng với mức trắng Ảnh như vậy được gọi là ảnh xám 8 bit với S(x,y) Є G

Kích thước ảnh tùy vào độ phân giải của camera, ví dụ như kích thước ảnh đang

thực nghiệm trong luận văn là 384x288 pixel, đây là độ phân giải của CCD camera

sử dụng để bắt ảnh

3) Ảnh nhị phân:

Pixel ảnh được nhận các giá trị tùy ý trong thang xám G nhưng thỉnh thoảng

chúng được biểu diễn với giá trị nhỏ hơn trong thang xám Ảnh trong trường hợp này gọi là ảnh nhị phân (hay binary image) chỉ bao gồm 2 giá trị mức xám là 0 và 1 tương ứng với màu đen và trắng Vì vậy chỉ cần 1 bit thông tin cho 1 pixel cũng đủ

mô tả ảnh

4) Ảnh màu:

Với sự phát triển của khoa học kỹ thuật, một ảnh xám với 256 giá trị vẫn chưa đủ

để hiển thị tất cả thông tin ảnh Vì vậy ảnh màu được ra đời, phương trình ảnh màu

không thể biểu diễn như phương trình (1) được vì còn một tham số khác được thêm vào như chỉ số chỉ mặt phẳng màu, trong Matlab n=1, 2, 3 tương ứng với màu đỏ,

xanh lá, xanh dương của ảnh nên phương trình ảnh màu được mô tả như sau:

I=[S(x,y,n)] (2)

Trang 17

5) Thu nhận ảnh:

Có thể nói đơn giản xử lý ảnh là vận dụng các thao tác xử lý trên ma trận pixel ảnh để có một ảnh ngõ ra có chất lượng tốt hơn Quá trình thu nhận ảnh được thực hiện bởi các thiết bị quang học như camera, scanner, siêu âm, MRI…Sau đó ảnh được truyền tới máy tính để lưu trữ rồi được tải lên các chương trình xử lý ảnh chuyên dụng để xử lý

Trong luận văn bàn đến xử lý ảnh nổi 3D nên phần thu nhận ảnh được thực hiện bởi 2 CCD camera kết nối với máy tính thông qua card PCI, sơ đồ mô tả tổng quát công đoạn xử lý như sau:

Hình.1: Sơ đồ xử lý ảnh 3D

6) Nhiễu:

Nhiễu: xét vấn đề nhiễu trong phạm vi luận văn, nhiễu thường xảy ra bắt nguồn

từ mãng tế bào quang học của CCD camera Nhiễu được biểu diễn bởi tỉ số giữa tín hiệu và nhiễu như sau:

signal

noise

n SNR

Trang 18

Nhiễu cố định: gây ra do sự không đồng dạng về cấu tạo vật lý của những tế bào quang học CCD, nếu tất cả các tế bào đều đồng dạng thì nhiễu bằng không

Nhiễu theo thống kê: gồm nhiễu CCD do điện tử gây ra ở tế bào CCD và nhiễu khuếch đại do bộ phận khuếch đại của CCD camera gây ra

Nhiễu do CCD camera gây ra thường là nhiễu xung, nếu xem trên hình nhiễu xung làm thay đổi ngẫu nhiên những pixel, làm cho những giá trị của chúng thay đổi khác xa với giá trị thực của chúng nên tạo ra những vết sáng hay tối bất thường Nhiễu xung còn được gọi là nhiễu muối tiêu có thể được khử đi bằng bộ lọc median

Ngoài ra còn có nhiễu Gauss, là loại nhiễu mà mật độ của nó có dạng phân bố Gauss với độ lệch chuẩn xác định và giá trị trung bình bằng zero Nhiễu này xuất hiện do bản chất rời rạc của bức xạ lượng tử ánh sáng khi tác dụng lên các hệ thống thu nhận ảnh, có nhiều cách để khử loại nhiễu này, phần sau sẽ trình bày chi tiết

Nhiệm vụ đầu tiên của xử lý ảnh là khử bớt nhiễu ra khỏi ảnh hay nói cách khác

là mang lại giá trị đúng cho pixel tại vị trí nhiễu nhằm làm chính xác thông tin trong ảnh Có nhiều phương pháp để khử nhiễu như dùng bộ lọc trung bình hay Gauss hay Wiener để khử nhiễu Gauss; lọc trung vị (còn gọi là lọc median) để khử nhiễu muối tiêu Giải thuật lọc cơ bản là dùng một cửa sổ (hay mặt nạ) có những trọng số được thiết kế theo yêu cầu lọc rồi trượt lần lượt lên ma trận ảnh cần lọc, công thức tích chập được sử dụng Riêng bộ lọc median dùng giải thuật sắp xếp cường độ của các pixel trong cửa sổ thành một dãy từ thấp đến cao để chọn ra pixel nằm ở vị trí ở giữa của dãy

(a) (b) (c)

Trang 19

II XỬ LÝ ẢNH:

1) Lược đồ ảnh:

Còn gọi là histogram, lược đồ xám cho biết lượng thông tin về sự phân bố số

lượng pixel dựa trên giá trị mức xám

Nếu ảnh sáng thì lược đồ xám nằm bên phải (mức xám cao), còn nếu ảnh tối thì lược đồ xám nằm bên trái (mức xám thấp)

Ảnh xám trái của camera trái Ảnh xám phải của camera phải

Lược đồ ảnh trái Lược đồ ảnh phải

Hình 3: Lược đồ xám của ảnh trái và phải

Ảnh trái và ảnh phải được chụp bởi hai CCD camera trái và phải đặt song song giống như mắt người cùng chụp ảnh của những vật thể cơ khí 3D Cho dù 2 CCD camera có cấu tạo hoàn toàn giống nhau nhưng độ sáng ở ảnh trái tối hơn ảnh phải, nhìn vào lược đồ ảnh trái ta thấy đồ thị hơi dịch về phía trái một chút so với lược đồ ảnh phải

Trang 20

2) Cân bằng histogram ảnh:

Để tăng cường độ tương phản cho ảnh, cân bằng histogram được đặt ra bằng cách biến đổi giá trị cường độ xám của ảnh

Sau khi cân bằng histogram: Ảnh trái Ảnh phải

Lược đồ sau khi cân bằng: Ảnh trái Ảnh phải

Hình 4: Ảnh trái, phải sau khi được cân bằng histogram: ảnh kết quả có độ tương

phản cao hơn, sự phân bố mật độ xám được rải đều

3) Ảnh nhị phân:

Việc phân tích ảnh đôi khi cần ảnh nhị phân vì vậy trước tiên một ảnh xám cần

được chuyển thành ảnh nhị phân dựa vào ngưỡng Ảnh nhị phân chỉ có 2 giá trị, 1 tương ứng với màu trắng đối với pixel có độ chói lớn hơn ngưỡng và 0 tương ứng với màu đen được gán cho những pixel còn lại

Trang 21

Ảnh xám trái Ảnh xám phải

Ảnh nhị phân (threshold = 0.5): Ảnh trái Ảnh phải

Ảnh nhị phân (threshold = 0.6): Ảnh trái Ảnh phải

Hình 5: Chuyển ảnh xám sang ảnh nhị phân: với mức ngưỡng 0.6 sản phẩm được

tách biệt ra hơn so với nền, mà sau này dễ tìm biên sản phẩm hơn

Trang 22

4) Lọc không gian ảnh:

Nhằm nâng cao chất lượng ảnh như khử nhiễu, một cửa sổ có kích thước mxm

được chọn để trượt lên toàn bộ không gian ảnh, giá trị mới cho pixel được tính dựa vào giá trị pixel gốc và các giá trị pixel lân cận pixel gốc ấy Mục đích lọc không gian nhằm làm trơn ảnh, loại bỏ nhiễu Gauss và phát hiện cạnh của đối tượng trong ảnh Các phương pháp lọc lần lượt được bàn đến như sau:

4.1) Lọc trung bình:

Bằng cách lấy trung bình trọng số của những pixel xung quanh, lọc trung bình

dùng để làm trơn ảnh Ví dụ như lọc trung bình dùng cửa sổ 3x3 có các trọng số đều bằng 1: [1 1 1; 1 1 1; 1 1 1] , thì ảnh ngõ ra được xác định bởi:

) , ( 9

1 ) ,

x u

y y

v in out x y S u v

Ảnh bị nhiễu Gauss: Ảnh trái Ảnh phải

Ảnh được lọc trung bình: Ảnh trái Ảnh phải

Trang 23

4.2) Lọc Gauss:

Mặt nạ Gauss được mô phỏng dưới dạng đường cong Gauss, có hệ số pixel trọng tâm của mặt nạ thường lớn hơn 1, còn những hệ số những pixel xung quanh nhỏ

hơn hệ số trung tâm Mặt nạ Gauss thường có dạng [0 1 0; 1 2 1; 0 1 0]

Cả hai phương pháp lọc trung bình và lọc Gauss còn gọi là lọc thông thấp, chúng hạn chế sự thay đổi đột ngột về cường độ mức xám nhất là những vùng pixel nằm ở cạnh vật thể vì thế ảnh sau khi lọc có cạnh bị nhoè hơn do cường độ xám của pixel nằm ở cạnh bị san bằng như những pixel lân cận

Ảnh xám bị nhiễu Gauss: Ảnh trái Ảnh phải

Ảnh sau khi lọc Gauss: Ảnh trái Ảnh phải

Hình 7: Lọc Gauss ảnh trái và phải: ảnh kết quả ít bị nhiễu Gauss hơn

Trang 24

4.3) Lọc Gradient:

Một lĩnh vực nghiên cứu quan trọng của xử lý ảnh là dò tìm cạnh của vật thể trong ảnh Chú ý rằng ở những vùng ảnh biểu diễn cạnh có sự thay đổi đáng kể độ sáng của pixel ảnh

Hai thuật toán điển hình là lọc Prewitt và lọc Sobel Lọc Prewitt bằng hai mặt nạ:

[ -1 -1 -1; 0 0 0; 1 1 1] , [-1 0 1; -1 0 1; -1 0 1] để phát hiện cạnh ngang và dọc

Tương tự vậy, Sobel dùng 2 mặt nạ: [-1 -2 -1; 0 0 0; 1 2 1] , [-1 0 1; -2 0 2; -1 0 1]

Ảnh sau khi lọc Prewitt

Ảnh sau khi lọc Sobel

Hình 8: Lọc ảnh bằng Prewitt và Sobel: kết quả tương tự nhau

Trang 25

4.4) Lọc Laplace:

Mặt nạ Laplace là loại đạo hàm bậc hai nên nó có hai tác dụng: (1) nếu tổng tất cả các hệ số trong mặt nạ bằng không thì mặt nạ làm thay đổi đáng kể độ sáng trên toàn bộ ảnh, nghĩa là nó hoạt động như toán tử dò cạnh theo mọi hướng

Ví dụ như khi dùng mặt nạ [0 -1 0; -1 4 -1; 0 -1 0] có tổng hệ số bằng không sẽ

cho kết quả lọc như sau:

Ảnh sau khi lọc Laplace

Hình 9: Lọc Laplace với mặt nạ lọc có tổng hệ số bằng không

Trang 26

(2) Còn nếu mặt nạ Laplace có hệ số trung tâm lớn hơn tổng tuyệt đối của tất cả các hệ số xung quanh, thì ảnh gốc được cộng chồng lên thông tin cạnh vừa được phát hiện bởi bộ lọc

Minh họa cho trường hợp này là ta sử dụng mặt nạ [0 -1 0; -1 5 -1; 0 -1 0] ,

kết quả lọc như sau:

Ảnh sau khi lọc Laplace với hệ số trung tâm lớn hơn

Hình 10: Ảnh lọc Laplace với hệ số trung tâm của mặt nạ lọc lớn hơn, tổng hệ số

bằng 1

Cả hai bộ lọc Gradient và Laplace còn gọi là lọc thông cao vì các tần số cao của pixel biểu diễn cạnh được giữ lại nên cạnh có độ sắc nét hơn

Trang 27

4.5) Lọc thích nghi Wiener:

Cũng là bộ lọc thông thấp dựa vào ước lượng thống kê giá trị mới của pixel theo

những vùng pixel lân cận cục bộ

Ảnh bị nhiễu Gauss: Ảnh trái Ảnh phải

Ảnh sau khi lọc trung bình

Ảnh sau khi lọc thích nghi Wiener

Hình 11: Lọc thích nghi Wiener so với lọc trung bình cho thấy tốt hơn

Trang 28

5) Lọc tần số - Lọc trung vị:

Còn gọi là lọc median, đây là một loại lọc tần số thích hợp để loại bỏ nhiễu muối

tiêu Kết quả thí nghiệm sau đây sử dụng một cửa sổ 3x3 pixel:

Ảnh bị nhiễu muối tiêu: Ảnh trái Ảnh phải

Ảnh sau khi lọc median

Hình 12: Lọc median ảnh: ảnh kết quả đã loại bỏ hoàn toàn nhiễu muối tiêu

Trang 29

CHƯƠNG 3:

CƠ SỞ LÝ THUYẾT THỊ GIÁC NỔI

Trang 30

I HÌNH HỌC CƠ BẢN CỦA CAMERA:

1) Pinhole camera:

Trong luận văn đang sử dụng CCD camera (Charge Coupled Device) bao gồm một mãng các sensor nhạy sáng (gọi là pixel), chúng được tích lũy năng lượng nạp vào khi có lượng photon ánh sáng đập vào, rồi chuyển năng lượng nạp này thành điện áp và số hóa thành mãng pixel hình ảnh mà chúng ta thấy được trên màn hình [6] Về cấu tạo CCD camera là loại Pinhole camera Sở dĩ phải đề cập trong luận văn vì các tính toán hình chiếu phối cảnh dựa vào cơ chế hoạt động của camera này

Pinhole camera là loại đơn giản nhất, nó gồm có 1 lỗ nhỏ xíu cho ánh sáng đi qua

để tạo một ảnh đảo ngược Để đơn giản hóa khi phân tích ảnh phối cảnh, chúng ta thường mô phỏng mặt phẳng ảnh camera nằm ở giữa tiêu điểm và vật thể quan sát

để ảnh không bị đảo ngược Ánh xạ ảnh từ không gian 3 chiều lên 2 chiều của mặt phẳng ảnh camera gọi là phép chiếu phối cảnh được sử dụng để phân tích ảnh Hình sau biểu diễn phép chiếu phối cảnh cơ bản [25]:

Hình 13: Phép chiếu phối cảnh của Pinhole camera

Trang 31

2) Hình học phối cảnh:

Hình học Euclid (gọi là 3 chiều) (còn hình học Đề Các là 2 chiều) là trường hợp

đặc biệt của hình học phối cảnh Việc sử dụng hình học phối cảnh trong thị giác máy tính làm đơn giản qui trình tính toán nên có thể biểu diễn lại những gì mà thị giác mang lại

Một phép chiếu phối cảnh là phép chiếu vật thể 3 chiều lên mặt phẳng 2 chiều bằng những đường thẳng đi qua một điểm Hình học đơn giản chỉ ra rằng nếu chúng

ta biểu thị khoảng cách từ mặt phẳng ảnh đến tâm chiếu bằng f (tiêu cự thấu kính),

thì tọa độ ( , )x y i i được tính liên hệ với tọa độ của vật thể ( , , )x y z0 0 0 bởi:

Những phương trình này là phi tuyến, chúng có thể được chuyển thành tuyến tính

bởi phép biến đổi thuần nhất Phép biến đổi đó là, một điểm (x,y,z) trong không

gian 3 chiều được ánh xạ theo một đường thẳng trong không gian 4 chiều

(wx,wy,wz,w), trong đó w là biến đệm (w≠0) Cũng có thể xem chiều thứ 4 là chiều

tỉ lệ, sau này w thường được chọn bằng 1, các phép biến đổi dịch chuyển, xoay

được tính dựa trên không gian 4 chiều này

Trong tọa độ thuần nhất, phép chiếu phối cảnh trên mặt phẳng được cho bởi:

Vài chú ý quan trọng: mặt phẳng chiếu dùng để mô tả mặt phẳng ảnh

Một điểm trong mặt phẳng được biểu diễn bằng 3 vec tơ (x1,x2,x3) không đồng

nhất bằng không

Một đường thẳng l cũng được định nghĩa bằng 3 số (u1,u2,u3) không đồng nhất

bằng không và thỏa mãn phương trình u1x+u2y+u3=0

Trang 32

Một điểm nằm trên đường thẳng được cho bởi mối quan hệ:

l x = hay l x T =0 hay x l T =0

Hai điểm định ra một đường thẳng bằng phương trình l = ∧p q , trong đó p, q là

2 điểm, ∧ là ký hiệu nhân vec tơ

Tương tự, 2 đường thẳng định ra một điểm bằng phương trình x l m= ∧

Nhân vec tơ của 2 ma trận xác định bởi:

0 0 0

3) Mô hình thấu kính đơn giản:

Trong thực tế, thấu kính hội tụ được sử dụng để hội tụ một ảnh vào mặt phẳng ảnh camera Nhưng hạn chế của thấu kính là chúng chỉ mang hình ảnh hội tụ của vật thể nằm trên một mặt phẳng riêng biệt song song với mặt phẳng ảnh Giả sử thấu kính mỏng và trục quang học của nó vuông góc với mặt phẳng ảnh thì hoạt động của nó dựa vào định luật thấu kính:

1 1 1

u v+ = f (7)

Trong đó u là khoảng cách từ vật thể đến mặt phẳng thấu kính, v là khoảng cách

từ ảnh hội tụ đến mặt phẳng thấu kính, f là tiêu cự thấu kính, được mô tả bởi hình

sau [25]:

Hình 14: mô hình thấu kính đơn giản

Trang 33

4) Hiệu chỉnh camera:

Để suy luận ra thông tin hình học 3 chiều từ cặp ảnh stereo, trước tiên phải xác

định những tham số liên quan đến vị trí của một điểm trên vật thể sẽ được thể hiện ở

vị trí nào trong mặt phẳng ảnh

Đây là quá trình ước lượng các tham số nội và tham số ngoại của camera Có 4 tham số nội: 2 cho vị trí của gốc hệ tọa độ ảnh và 2 cho hệ số tỉ lệ của hai trục của

hệ Có 6 tham số ngoại của camera: 3 cho vị trí của tâm chiếu camera so với hệ tọa

độ thực, 3 cho hướng của hệ tọa độ mặt phẳng ảnh Tuy nhiên những tiến bộ gần đây trong thị giác máy tính chỉ ra rằng chúng ta có thể khử đi hoàn toàn những qui trình hiệu chỉnh này

Bây giờ chúng ta có hệ tọa độ 3D của camera, gốc của nó ở tâm chiếu và trục Z

dọc theo trục quang học camera, theo hình sau [25]:

Hình 15: Hệ tọa độ 3D hiệu chỉnh camera

Trang 34

Hệ tọa độ này được gọi là hệ tọa độ tiêu chuẩn của camera Một điểm M trên vật thể với tọa độ (X,Y,Z) sẽ thu được một ảnh tại điểm m=(x,y) trong mặt phẳng ảnh

Tọa độ này có liên quan đối với hệ tọa độ, gốc của nó là giao điểm của trục quang

với mặt phẳng ảnh và 2 trục x, y song song với 2 trục X, Y Mối quan hệ giữa hệ tọa

độ (c,x,y) và (C,X,Y,Z) được cho bởi:

Bây giờ tọa độ pixel hiện tại (u,v) sẽ được tính tương ứng với gốc tọa độ ở phía

trái trên của mặt phẳng ảnh nên thỏa mãn:

Trong đó pixel width, pixel height lần lượt là chiều rộng và chiều cao của pixel,

sẽ được tính tùy vào độ phân giải của ảnh trên màn hình

Chúng ta có thể biểu diễn phép biến đổi từ tọa độ 3 chiều đến tọa độ của pixel

ảnh sử dụng ma trận 3x4 Điều này được thực hiện bằng thay thế phương trình (9) vào (10) rồi nhân với Z:

Trang 35

Hay được viết dưới dạng thuần nhất:

su

Y f

Trong đó u~ biểu diễn vec tơ thuần nhất của tọa độ pixel ảnh, P là ma trận chiếu

phối cảnh, và M~ là vec tơ thuần nhất của tọa độ thực (real world)

II HÌNH HỌC THỊ GIÁC NỔI 3D:

1) Tam giác ảnh nổi:

Khi 2 camera cùng quan sát vật thể, sẽ có một điểm trên vật thể sẽ đồng thời tạo

ra ảnh của nó trên cả 2 camera, đó là ảnh trái và ảnh phải Ở đây ta chỉ xét 1 điểm

để dễ phân tích:

Hình 16: Tam giác ảnh nổi

Trang 36

Tam giác ảnh nổi (tạm dịch từ chữ triangulation) được hình thành khi ta nối 2

tâm chiếu của 2 camera, đó là đường thẳng đứt đoạn trên hình Sở dĩ phải đưa ra khái niệm tam giác ảnh nổi vì nó là cơ sở để tìm ra điểm tương đồng khi đưa vào một cặp ảnh nổi trái, phải Điểm tương đồng là vấn đề quan trọng sẽ đề cập xuyên suốt trong xử lý ảnh nổi 3D

Dựa vào tam giác nổi mà ta xác định được chiều sâu của vật thể, xem hình minh họa sau [34]:

Hình 17: Minh họa tính quan sát được chiều sâu của vật thể

Ở camera phải không phân biệt được 2 điểm P, Q vì chúng nằm vuông góc với mặt phẳng quan sát của camera phải, tuy nhiên, ở camera trái lại phân biệt được 2 điểm này Chính đây là ưu điểm của hệ thống nổi, việc tính toán chiều sâu sẽ đề cập

ở phần sau

Trang 37

2) Điểm tương đồng:

Khái niệm điểm tương đồng sẽ phần nào gây bối rối cho người mới bắt đầu làm quen với thị giác nổi 3D Ý nghĩa của nó dùng để làm gì sẽ lần lượt được làm rõ Để hiểu về nó ta có hình sau [27]:

Hình 18: Điểm tương đồng

Điểm được bao quanh bằng ô cửa sổ màu đỏ ở ảnh trái sẽ tương đồng với điểm

có ô cửa sổ màu đỏ ở ảnh phải, tương đồng này mang tính duy nhất, một điểm bên

ảnh trái chỉ có duy nhất một điểm tương đồng bên ảnh phải Những điểm có ô cửa

sổ màu xanh trên ảnh phải không được gọi là tương đồng Kỹ thuật tìm điểm tương đồng có rất nhiều cách vẫn đang được nhiều tác giả quan tâm nghiên cứu, cách cơ bản là trên ảnh trái trích ra một cửa sổ có điểm cần tìm tương đồng rồi quét cửa sổ

này trên ảnh phải, chỉ tiêu SSD (Sum of Squared Difference: tổng sai lệch bình

phương) dùng đánh giá kết quả tìm kiếm để chọn ra điểm tương đồng Cửa sổ được

trích ra ở ảnh trái gọi là cửa sổ tham chiếu, kích thước thường dùng là 3x3 hay lớn

hơn tùy vào kết cấu của quang cảnh để tìm chính xác điểm tương đồng Các chỉ tiêu đánh giá sẽ được trình bày chi tiết ở những phần sau

Trang 38

3) Luật epipolar:

Quá trình tìm kiếm điểm tương đồng gặp nhiều khó khăn khi phải quét cửa sổ tham chiếu trên toàn bộ pixel của ảnh phải, thời gian quét là một vấn đề cần được giảm tối thiểu Luật epipolar ra đời nhằm làm giảm sự tìm kiếm điểm tương đồng này, khi ấy chỉ quét cửa sổ trên một đoạn thẳng thay vì toàn bộ ảnh Hình sau sẽ miêu tả trực quan [25]:

Hình 19: Hình học epipolar của thị giác nổi

Một điểm M nằm trên bề mặt vật thể trong không gian được quan sát bởi 2 camera đặt nằm lệch so với hướng thẳng một góc nào đó Ảnh của điểm M lần lượt tạo thành trên 2 mặt phẳng ảnh của 2 camera trái, phải là x và x’ Điểm e, e’ là điểm

epipole, được hình thành là giao điểm của đường thẳng nối 2 tâm quang học C, C’

với mặt phẳng ảnh trái và phải Thật ra e là ảnh của tâm quang camera phải C’ chiếu lên mặt phẳng ảnh camera trái và ngược lại e’ là ảnh của tâm quang camera trái C chiếu lên mặt phẳng ảnh camera phải Đường thẳng CC’ nối giữa 2 tâm quang còn được gọi là đường baseline (đường cơ sở) Đường thẳng xe và x’e’ trên

2 mặt phẳng ảnh trái, phải được gọi là đường epipolar, hay nói cách khác xe và x’e’ lần lượt là giao điểm giữa tam giác nổi MCC’ so với mặt phẳng ảnh trái, phải

Trang 39

Các khái niệm như đường epipolar, baseline, epipole, tam giác nổi (triangulation) sẽ được nói đến từ đây trở đây mà không cần giải thích lại, đây được xem là những khái niệm cơ bản khi nghiên cứu về thị giác nổi (stereo vision)

Như vậy trở lại vấn đề tìm điểm tương đồng, ta giả sử có cặp ảnh nổi trái, phải

Trên ảnh trái, bây giờ nếu muốn đi tìm điểm tương đồng với x ở ảnh phải thì ta chỉ cần quét cửa sổ dọc theo đường epipolar của ảnh phải, kết quả sẽ tìm ra x’ Vì vậy

công đoạn quét cửa sổ được giới hạn chỉ trên đường epipolar, như thế sẽ giảm thời gian tính toán của chương trình xử lý ảnh rất nhiều

Khi điểm M ở vị trí khác thì hình dạng các đường epipolar sẽ đồng quy tại epipole e, e’ như hình minh họa dưới đây [28]:

Hình 20: Hình học epipolar của nhiều điểm M và ảnh vẽ đường epipolar

Trang 40

Khi 2 camera đặt quan sát song song giống như mắt người thì việc tìm đường epipolar trở nên dễ dàng hơn, đó là những đường nằm ngang trên mặt phẳng ảnh [11]:

Hình 21: Hình học epipolar của 2 camera quan sát song song như mắt người

Định dạng
Số trang	121
Dung lượng	5,26 MB