NHIỆM VỤ VÀ NỘI DUNG: Nhận dạng sản phẩm 3D qua ảnh Thể hiện tọa độ 3D và hình ảnh chênh lệch độ sâu 3D của vật thể Thực nghiệm hệ 2 camera chụp ảnh stereo, máy tính lập trình Matl
Trang 1ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA
HUỲNH VĂN MINH
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH
Cán bộ hướng dẫn khoa học: TS HOÀNG MINH TRÍ
Cán bộ chấm nhận xét 1: PGS.TS NGUYỄN VĂN NHỜ
Cán bộ chấm nhận xét 2: TS TRƯƠNG ĐÌNH CHÂU
LUẬN VĂN THẠC SĨ ĐƯỢC BẢO VỆ TẠI HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH
Ngày 26 tháng 12 năm 2008
Trang 3TRƯỜNG ĐẠI HỌC BÁCH KHOA
PHÒNG ĐÀO TẠO SAU ĐẠI HỌC
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM ĐỘC LẬP – TỰ DO – HẠNH PHÚC
TP HCM, ngày 28 tháng 11 năm 2008
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: HUỲNH VĂN MINH
Ngày tháng năm sinh: 02-04-1976
Chuyên ngành: TỰ ĐỘNG HÓA
Phái: Nam Nơi sinh: TP HCM MSHV: 01506360
I TÊN ĐỀ TÀI:
NHẬN DẠNG SẢN PHẨM 3D DÙNG XỬ LÝ ẢNH
II NHIỆM VỤ VÀ NỘI DUNG:
Nhận dạng sản phẩm 3D qua ảnh
Thể hiện tọa độ 3D và hình ảnh chênh lệch độ sâu 3D của vật thể
Thực nghiệm hệ 2 camera chụp ảnh stereo, máy tính lập trình Matlab xử
lý ảnh để nhận dạng sản phẩm cơ khí 3D
III NGÀY GIAO NHIỆM VỤ (Ngày bảo vệ đề cương): 24-01-2008
IV NGÀY HOÀN THÀNH NHIỆM VỤ (Ngày bảo vệ luận văn): 26-12-2008
V HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: TS HOÀNG MINH TRÍ
VI HỌ VÀ TÊN CÁN BỘ NHẬN XÉT 1: PGS.TS NGUYỄN VĂN NHỜ
VI HỌ VÀ TÊN CÁN BỘ NHẬN XÉT 2: TS TRƯƠNG ĐÌNH CHÂU
Trang 4LỜI CẢM ƠN
Tác giả xin chân thành cảm ơn Thầy TS Hoàng Minh Trí đã hướng dẫn tác giả tận tình trong việc định hướng tìm cách lựa chọn đề tài sao cho thích hợp với khả năng mình và thực trạng của sự phát triển khoa học kỹ thuật Thầy đã có những định hướng và nhận xét thiết thực trong quá trình thực hiện luận văn
Chân thành cảm ơn tất cả các Thầy, Cô ở Bộ môn Tự động, cũng như Bộ môn Điện tử đã nhiệt tình giảng dạy các môn học trong ba học kỳ vừa qua, mà kết quả ấy đã trang bị một nền tảng cơ sở lý thuyết về Điều khiển Tự động và Xử lý ảnh,
để hôm nay tác giả mạnh dạng, tự tin xin vận dụng những kiến thức đã học cộng với việc nghiên cứu thêm tài liệu trên mạng để đưa ra đề tài nghiên cứu này
Cũng xin thành thật cảm ơn bạn bè cùng lớp, anh chị ở các khóa trước, các nhà khoa học trong và ngoài nước, thư viện trường Đại học Bách Khoa đã chia sẻ những ý kiến và tài liệu tham khảo quí báu liên quan đến đề tài
Cuối cùng là sự cảm ơn mà không có gì đền đáp nỗi là tình cảm gia đình đã nuôi dưỡng, hun đúc và động viên tác giả trong thời gian thực hiện luận văn
TP HCM, tháng 11-2008 Tác giả
Huỳnh Văn Minh E-mail: huynhvan_minh1976@yahoo.com.vn
Trang 5TÓM TẮT
Nhận dạng ảnh 2D sẽ không nhận ra chiều sâu của vật thể, nhận dạng 3D sẽ giải quyết được điều này, thông qua nó chúng ta sẽ biết được tọa độ và cấu trúc 3D của vật thể trong không gian Euclid
Hệ thống thị giác nổi được xây dựng dựa vào hai CCD camera đặt song song tựa như mắt người cùng quan sát các sản phẩm 3D rồi chụp ảnh tạo ra những cặp ảnh nổi từ camera trái và camera phải để từ đó vận dụng các công cụ xừ lý ảnh để tính tọa độ 3D của những điểm tương đồng, biểu diễn thành ảnh 3D làm nổi lên chiều sâu của sản phẩm
Một kỹ thuật làm phù hợp nổi [26] được vận dụng để tìm tất cả những điểm tương đồng dựa vào phương pháp quét cửa sổ trên những đường epipolar song song trên cả hai ảnh trái và ảnh phải, sau đó được đánh giá bởi chỉ tiêu SAD và GRAD
để tìm ra lượng pixel tương đồng lớn nhất Sự phân đoạn ảnh nhằm tìm ra tập hợp nhãn biểu thị cường độ sáng màu sắc [30] Kết quả cuối cùng là một ảnh nổi thể hiện sự chênh lệch độ sâu thông qua độ sáng màu sắc được hình thành
Luận văn mang tính thực tiễn cao, có thể được áp dụng để chế tạo ra máy đo kích thước 3D và thiết bị giám sát sản phẩm phối hợp với tay máy để gấp sản phẩm ra khỏi băng chuyền sản xuất
Từ khóa: stereo vision, camera calibration, 3D measurement, Epipolar
constraints, stereo camera, 3D object recognition, 3D reconstruction, 3D geometry, image processing, stereo matching
Trang 6Abstract
2D recognition will not recognize the depth of object when observing, 3D recognition will solve this problem, through that we will know 3D co-ordinate and 3D structure of object in Euclidean space
Stereo vision system is configured by two CCD cameras putting parallel like human vision, observing together 3D products and capture pictures as stereo images from left and right camera, then applying toolbox image processing in order to calculate 3D co-ordinate of correspondence points, constructing 3D map that present the depth of products
The stereo matching technique [26] is in use to find all correspondent points via window-based method scanning on parallel epipolar lines on both left and right image, after that will be evaluated by cost SAD and GRAD to find out best correspondent pixel number Segment image method is used to find out label set presenting color intensity [30] The result image will show disparity intensity map that present the depth of object by color intensity
This thesis is reality, can be manufactured 3D measurement machine and product observing device controling robot arm to manipulate products out of the production conveyer
Key words: stereo vision, camera calibration, 3D measurement, Epipolar
constraints, stereo camera, 3D object recognition, 3D reconstruction, 3D geometry, image processing, stereo matching
Trang 7MỤC LỤC
NHIỆM VỤ LUẬN VĂN THẠC SĨ 2
LỜI CẢM ƠN 3
TÓM TẮT 4
Abstract 5
MỤC LỤC 6
CHƯƠNG 1: GIỚI THIỆU 8
I MỞ ĐẦU: 9
1) Động cơ nghiên cứu: 9
2) Đối tượng và phạm vi nghiên cứu: 9
3) Ý nghĩa nghiên cứu: 10
II TÓM TẮT CÁC CÔNG TRÌNH NGHIÊN CỨU THỊ GIÁC NỔI 3D: 11
III SƠ LƯỢC NỘI DUNG LUẬN VĂN: 13
CHƯƠNG 2: XỬ LÝ ẢNH CƠ BẢN 14
I ẢNH SỐ: 15
1) Định nghĩa ảnh số: 15
2) Ảnh xám: 15
3) Ảnh nhị phân: 15
4) Ảnh màu: 15
5) Thu nhận ảnh: 16
6) Nhiễu: 16
II XỬ LÝ ẢNH: 18
1) Lược đồ ảnh: 18
2) Cân bằng histogram ảnh: 19
3) Ảnh nhị phân: 19
4) Lọc không gian ảnh: 21
4.1) Lọc trung bình: 21
4.2) Lọc Gauss: 22
4.3) Lọc Gradient: 23
4.4) Lọc Laplace: 24
4.5) Lọc thích nghi Wiener: 26
5) Lọc tần số - Lọc trung vị: 27
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT THỊ GIÁC NỔI 28
I HÌNH HỌC CƠ BẢN CỦA CAMERA: 29
1) Pinhole camera: 29
2) Hình học phối cảnh: 30
3) Mô hình thấu kính đơn giản: 31
4) Hiệu chỉnh camera: 32
II HÌNH HỌC THỊ GIÁC NỔI 3D: 34
1) Tam giác ảnh nổi: 34
2) Điểm tương đồng: 36
3) Luật epipolar: 37
4) Khôi phục tọa độ 3D: 40
5) Khôi phục cấu trúc 3D của vật thể: 41
5.1) Tính ma trận thiết yếu: 42
5.2) Tính ma trận cơ sở : 45
III CÁC VẤN ĐỀ TRONG THỊ GIÁC NỔI : 48
Trang 8IV SỰ LÀM PHÙ HỢP ẢNH NỔI : 51
1) Kỹ thuật làm phù hợp ảnh nổi : 51
1.1) Kỹ thuật phù hợp ảnh nổi dựa vào cường độ: 51
1.2) Tiếp cận làm phù hợp ảnh nổi dựa vào đặc trưng : 55
2) Những luật làm phù hợp: 58
3) Vài thuật toán tính sự phù hợp: 61
4) Cấu hình hệ thống nổi: 63
5) Các thuật toán đánh giá độ tương đồng của sự phù hợp ảnh nổi: 63
CHƯƠNG 4: THỰC NGHIỆM 65
I CẤU HÌNH HỆ THỐNG NỔI : 66
1) Phần cứng: 66
2) Phần mềm: 67
3) Hiệu chỉnh hệ camera: 68
II THỰC NGHIỆM : 72
1) Tạo tập mẫu ảnh stereo: 72
2) Tính toán tọa độ 3D: 74
3) Giao diện của chương trình : 74
4) Kết quả xử lý tìm biên: 76
5) Kết quả vẽ cường độ xám: 80
6) Kết quả tìm tọa độ tương đồng 3D : 83
7) Kết quả khôi phục ảnh stereo mặt phẳng chênh lệch độ sâu: 87
KẾT LUẬN & HƯỚNG PHÁT TRIỂN 91
1) KẾT LUẬN: 92
2) HƯỚNG PHÁT TRIỂN : 92
TÀI LIỆU THAM KHẢO 93
LÝ LỊCH KHOA HỌC 96
PHỤ LỤC – Code chương trình sử dụng trong luận văn 97
Trang 9CHƯƠNG 1: GIỚI THIỆU
Trang 10I MỞ ĐẦU:
1) Động cơ nghiên cứu:
Vấn đề nhận dạng, phân loại và bám theo đối tượng 2D như nhận dạng mặt người [22], biển số xe, phương tiện giao thông [23], nhận dạng vân tay, nhận dạng hạt gạo [24] đã được nhiều tác giả trong và ngoài nước nghiên cứu nhằm kết hợp giữa kỹ thuật xử lý ảnh và kỹ thuật điều kiển hiện đại để nhận dạng đối tượng, bám theo đối tượng, sau đó sẽ có những hành vi tùy theo yêu cầu của người điều khiển như nhận dạng mặt người để phát hiện ra kẻ xấu trong an ninh; nhận dạng biển số xe (đã được
áp dụng trong điều khiển giao thông ở nước ta) nhằm ước lượng chính xác ra biển
số xe vi phạm trật tự an toàn giao thông khi có nhiễu của môi trường tác động; hoặc nhận diện phương tiện giao thông để đưa ra mức tính thu phí cầu đường tự động; nhận dạng vân tay trong bảo mật thông tin khi bước vô cửa hay mở máy tính
Qua thảo luận với giáo viên hướng dẫn và tham khảo nhiều tài liệu trong và ngoài nước, tác giả rút ra một điều rằng vẫn chưa đủ chi tiết khi một vật thể chỉ được xem xét dưới góc độ 2 chiều (2D), hình ảnh 3 chiều (3D) sẽ phản ánh vật thể một cách trung thực hơn nhờ quan sát được chiều sâu của vật thể đó [12]
Hơn nữa ta có thể nhận ra hình dạng 3 chiều (nhất là chiều sâu) và đo đạc chính xác vật thể đó trong không gian [1] Do vậy mà đề tài “nhận dạng sản phẩm 3D dùng xử lý ảnh,, được tác giả bàn đến nhằm vào mục đích trên
2) Đối tượng và phạm vi nghiên cứu:
Thông qua việc tìm hiểu cơ sở lý thuyết, tác giả sẽ tiến hành kiểm chứng bằng
mô hình thực nghiệm gồm cả phần cứng và phần mềm, trong đó phần cứng là hệ gồm 2 CCD (Charge Coupled Device) camera–sản phẩm 3D–máy tính Để minh họa tính 3D của sản phẩm, tác giả đã chọn các sản phẩm cơ khí thật có hình lập thể như các con tán trong ngành ô tô để luận văn mang tính thực tiễn hơn
Trang 11Do thời gian thực hiện đề tài có hạn nên tác giả xin giới hạn lại phạm vi nghiên cứu của mình là chỉ dùng hệ 2 CCD camera chụp các sản phẩm để tạo ra tập mẫu gồm có các cặp ảnh nổi stereo mà sẽ được xử lý tiếp theo để kiểm chứng cơ sở lý thuyết 3D có đúng không Các quá trình thực hiện từ các xử lý ảnh cơ bản như lọc không gian, lọc tần số, tìm đường biên cho đến vấn đề xử lý chính là xử lý 3D như thể hiện tọa độ tương đồng của cặp ảnh stereo rồi thể hiện thành hình ảnh 3D để biết chiều sâu của các mặt phẳng của sản phẩm Bước cuối cùng của xử lý 3D là khôi phục lại ảnh 3D của sản phẩm dựa vào những mặt phẳng màu sắc chênh lệch để thể hiện về độ sâu của sản phẩm trong không gian
Do vấn đề về nhận dạng ảnh 3D còn rất rộng, chưa được khai thác hết nên tác giả dừng lại không nghiên cứu phần phân loại sản phẩm dùng mạng Nơron và phần điều khiển cánh tay Robot bám theo sản phẩm để gấp sản phẩm ra ngoài Nhưng phần của tác giả nghiên cứu là phần nền tảng cho vấn đề nghiên cứu tiếp theo, sau khi đã nhận dạng ra được đối tượng 3D (vị trí tọa độ, kích thước) thì vấn đề điều khiển cánh tay Robot bám theo và gấp sản phẩm sẽ trở nên thuận lợi hơn
3) Ý nghĩa nghiên cứu:
Cũng như các đề tài nghiên cứu về nhận dạng ảnh 2D đã mang lại tính thiết thực trong ứng dụng cuộc sống và sản xuất, đề tài nhận dạng sản phẩm 3D cũng giống như 2D nhưng sẽ mở rộng thêm tính linh hoạt trong nhận dạng Như đã nói, nhận dạng 2D sẽ không quan sát được chiều sâu của sản phẩm nên sẽ giảm độ chính xác Nhưng nhận dạng ảnh 3D cũng có nhược điểm, thứ nhất là về mặt giá thành – 2D chỉ sử dụng một camera quan sát, nhưng 3D sử dụng đến hai camera; thứ hai, thuật toán nhận dạng 3D sẽ phức tạp hơn 2D nhất là về vấn đề đi tìm điểm tương đồng trên cặp ảnh nổi stereo để khôi phục lại một ảnh cuối cùng mà thể hiện được chiều sâu của sản phẩm, chiều sâu này mang tính định lượng có nghĩa là ta biết rõ là cách
xa chỗ quan sát là bao nhiêu Luận văn mang tính thực tiễn cao, có thể vận dụng để chế tạo máy đo 3D hay thiết bị giám sát sản phẩm phối hợp với cánh tay robot để gấp sản phẩm ra khỏi dây chuyền
Trang 12II TÓM TẮT CÁC CÔNG TRÌNH NGHIÊN CỨU THỊ GIÁC NỔI 3D: Trong điều kiện mà tác giả đã đọc được các nghiên cứu về thị giác nổi, xin được tóm tắt vài công trình trong thời gian gần đây để nắm bắt được tiến độ tiếp cận và kết quả của công trình Cũng như các chủ đề nghiên cứu khác, chủ đề về thị giác nổi cũng được rất nhiều tác giả nghiên cứu, mỗi công trình nghiên cứu đến một khía cạnh và cũng có trường hợp chỉ với một khía cạnh mà nhiều tác giả đã bỏ nhiều công sức để nghiên cứu nó, đó là vấn đề tìm tương đồng trong vấn đề phù hợp ảnh nổi
Nội dung các công trình:
[3] (năm 2006) của Christian Teutsch, Dirk Berndt, Andreas Sobotta, Silvio
Sperling dùng 2 camera quan sát máy phun nhựa để ước lượng độ dày của khuôn
nhựa có đồng đều không Tác giả dùng phương pháp phân tích một tập hợp hàm tương quan, kích thước và hình dạng cửa sổ, dùng hệ số tương quan Pearson để đạt được một sự phù hợp tốt nhất từ cặp ảnh stereo trái phải Kết quả như sau:
Ảnh trái Ảnh phải Ảnh kết quả (màu biểu thị độ sâu)
[4] (năm 2006) của Josef Bigun tìm những điểm tương đồng ở ảnh trái và phải
để xây dựng nên ảnh 3D, vấn đề này sẽ được tác giả ứng dụng trong luận văn của mình Kết quả của Josef Bigun như sau:
Trang 13Ảnh trái Ảnh phải
Xác định điểm tương đồng Ảnh 3D của khuôn mặt
[2] (khoảng ≥ năm 2001) của Atsushi Yamashita, Shinya Matsushita,
Takeshi Sonohara, Toru Kaneko, Kenjiro T Miura and Suekichi Isogai dùng
phương pháp hiệu chỉnh trong thời gian thực nhờ quan hệ giữa các góc và đo lường 3D để gấp sản phẩm trên băng chuyền
Trang 14Mẫu sản phẩm trái và phải được làm tương đồng, cánh tay robot gấp sản phẩm
[26] (năm 2006) của Andreas Klaus, Mario Sormann, Konrad Karner dùng
thuật toán lan truyền tin cậy và tự thích nghi sai lệch để làm phù hợp ảnh nổi có tỉ lệ tương đồng cao, tác giả đã kiểm chứng thuật toán này trong luận văn của mình
Ảnh Tsu trái Ảnh Tsu phải Ảnh kết quả (độ sáng chỉ độ sâu)
III SƠ LƯỢC NỘI DUNG LUẬN VĂN:
Luận văn được tác giả chia thành 4 chương, chương mở đầu đã được tác giả nói
ở trên Chương 2 là các xử lý ảnh cơ bản cần phải thành thạo vì là nền tảng để xây dựng những thuật toán phức tạp hơn Chương 3 là chương chính vì là cơ sở lý thuyết nền tảng để hiểu về thị giác nổi, các khái niệm như tam giác nổi, đường epipolar sẽ được đề cập, tất cả các tài liệu nghiên cứu về thị giác nổi đều nói về nó Còn chương cuối cùng là chương 4 là tất cả những thí nghiệm được thể hiện đầy đủ trong luận văn mà tác giả tốn rất nhiều công sức mới thể hiện được, phần code của chương trình được đính kèm trong phần phụ lục
Trang 15CHƯƠNG 2:
XỬ LÝ ẢNH CƠ BẢN
Trang 16Giá trị số nguyên nhỏ nhất của hàng và cột gọi là pixel (là phần tử của ảnh), mỗi
một pixel được gán giá trị để biểu diễn độ sáng của nó Thông thường S(x,y) được gán giá trị trong thang xám (còn gọi là gray-scale) của tập G = {0,1,…,255}, giá trị gray-scale bằng không tương ứng với mức đen và 255 tương ứng với mức trắng Ảnh như vậy được gọi là ảnh xám 8 bit với S(x,y) Є G
Kích thước ảnh tùy vào độ phân giải của camera, ví dụ như kích thước ảnh đang
thực nghiệm trong luận văn là 384x288 pixel, đây là độ phân giải của CCD camera
sử dụng để bắt ảnh
3) Ảnh nhị phân:
Pixel ảnh được nhận các giá trị tùy ý trong thang xám G nhưng thỉnh thoảng
chúng được biểu diễn với giá trị nhỏ hơn trong thang xám Ảnh trong trường hợp này gọi là ảnh nhị phân (hay binary image) chỉ bao gồm 2 giá trị mức xám là 0 và 1 tương ứng với màu đen và trắng Vì vậy chỉ cần 1 bit thông tin cho 1 pixel cũng đủ
mô tả ảnh
4) Ảnh màu:
Với sự phát triển của khoa học kỹ thuật, một ảnh xám với 256 giá trị vẫn chưa đủ
để hiển thị tất cả thông tin ảnh Vì vậy ảnh màu được ra đời, phương trình ảnh màu
không thể biểu diễn như phương trình (1) được vì còn một tham số khác được thêm vào như chỉ số chỉ mặt phẳng màu, trong Matlab n=1, 2, 3 tương ứng với màu đỏ,
xanh lá, xanh dương của ảnh nên phương trình ảnh màu được mô tả như sau:
I=[S(x,y,n)] (2)
Trang 175) Thu nhận ảnh:
Có thể nói đơn giản xử lý ảnh là vận dụng các thao tác xử lý trên ma trận pixel ảnh để có một ảnh ngõ ra có chất lượng tốt hơn Quá trình thu nhận ảnh được thực hiện bởi các thiết bị quang học như camera, scanner, siêu âm, MRI…Sau đó ảnh được truyền tới máy tính để lưu trữ rồi được tải lên các chương trình xử lý ảnh chuyên dụng để xử lý
Trong luận văn bàn đến xử lý ảnh nổi 3D nên phần thu nhận ảnh được thực hiện bởi 2 CCD camera kết nối với máy tính thông qua card PCI, sơ đồ mô tả tổng quát công đoạn xử lý như sau:
Hình.1: Sơ đồ xử lý ảnh 3D
6) Nhiễu:
Nhiễu: xét vấn đề nhiễu trong phạm vi luận văn, nhiễu thường xảy ra bắt nguồn
từ mãng tế bào quang học của CCD camera Nhiễu được biểu diễn bởi tỉ số giữa tín hiệu và nhiễu như sau:
signal
noise
n SNR
Trang 18Nhiễu cố định: gây ra do sự không đồng dạng về cấu tạo vật lý của những tế bào quang học CCD, nếu tất cả các tế bào đều đồng dạng thì nhiễu bằng không
Nhiễu theo thống kê: gồm nhiễu CCD do điện tử gây ra ở tế bào CCD và nhiễu khuếch đại do bộ phận khuếch đại của CCD camera gây ra
Nhiễu do CCD camera gây ra thường là nhiễu xung, nếu xem trên hình nhiễu xung làm thay đổi ngẫu nhiên những pixel, làm cho những giá trị của chúng thay đổi khác xa với giá trị thực của chúng nên tạo ra những vết sáng hay tối bất thường Nhiễu xung còn được gọi là nhiễu muối tiêu có thể được khử đi bằng bộ lọc median
Ngoài ra còn có nhiễu Gauss, là loại nhiễu mà mật độ của nó có dạng phân bố Gauss với độ lệch chuẩn xác định và giá trị trung bình bằng zero Nhiễu này xuất hiện do bản chất rời rạc của bức xạ lượng tử ánh sáng khi tác dụng lên các hệ thống thu nhận ảnh, có nhiều cách để khử loại nhiễu này, phần sau sẽ trình bày chi tiết
Nhiệm vụ đầu tiên của xử lý ảnh là khử bớt nhiễu ra khỏi ảnh hay nói cách khác
là mang lại giá trị đúng cho pixel tại vị trí nhiễu nhằm làm chính xác thông tin trong ảnh Có nhiều phương pháp để khử nhiễu như dùng bộ lọc trung bình hay Gauss hay Wiener để khử nhiễu Gauss; lọc trung vị (còn gọi là lọc median) để khử nhiễu muối tiêu Giải thuật lọc cơ bản là dùng một cửa sổ (hay mặt nạ) có những trọng số được thiết kế theo yêu cầu lọc rồi trượt lần lượt lên ma trận ảnh cần lọc, công thức tích chập được sử dụng Riêng bộ lọc median dùng giải thuật sắp xếp cường độ của các pixel trong cửa sổ thành một dãy từ thấp đến cao để chọn ra pixel nằm ở vị trí ở giữa của dãy
(a) (b) (c)
Trang 19II XỬ LÝ ẢNH:
1) Lược đồ ảnh:
Còn gọi là histogram, lược đồ xám cho biết lượng thông tin về sự phân bố số
lượng pixel dựa trên giá trị mức xám
Nếu ảnh sáng thì lược đồ xám nằm bên phải (mức xám cao), còn nếu ảnh tối thì lược đồ xám nằm bên trái (mức xám thấp)
Ảnh xám trái của camera trái Ảnh xám phải của camera phải
Lược đồ ảnh trái Lược đồ ảnh phải
Hình 3: Lược đồ xám của ảnh trái và phải
Ảnh trái và ảnh phải được chụp bởi hai CCD camera trái và phải đặt song song giống như mắt người cùng chụp ảnh của những vật thể cơ khí 3D Cho dù 2 CCD camera có cấu tạo hoàn toàn giống nhau nhưng độ sáng ở ảnh trái tối hơn ảnh phải, nhìn vào lược đồ ảnh trái ta thấy đồ thị hơi dịch về phía trái một chút so với lược đồ ảnh phải
Trang 202) Cân bằng histogram ảnh:
Để tăng cường độ tương phản cho ảnh, cân bằng histogram được đặt ra bằng cách biến đổi giá trị cường độ xám của ảnh
Sau khi cân bằng histogram: Ảnh trái Ảnh phải
Lược đồ sau khi cân bằng: Ảnh trái Ảnh phải
Hình 4: Ảnh trái, phải sau khi được cân bằng histogram: ảnh kết quả có độ tương
phản cao hơn, sự phân bố mật độ xám được rải đều
3) Ảnh nhị phân:
Việc phân tích ảnh đôi khi cần ảnh nhị phân vì vậy trước tiên một ảnh xám cần
được chuyển thành ảnh nhị phân dựa vào ngưỡng Ảnh nhị phân chỉ có 2 giá trị, 1 tương ứng với màu trắng đối với pixel có độ chói lớn hơn ngưỡng và 0 tương ứng với màu đen được gán cho những pixel còn lại
Trang 21Ảnh xám trái Ảnh xám phải
Ảnh nhị phân (threshold = 0.5): Ảnh trái Ảnh phải
Ảnh nhị phân (threshold = 0.6): Ảnh trái Ảnh phải
Hình 5: Chuyển ảnh xám sang ảnh nhị phân: với mức ngưỡng 0.6 sản phẩm được
tách biệt ra hơn so với nền, mà sau này dễ tìm biên sản phẩm hơn
Trang 224) Lọc không gian ảnh:
Nhằm nâng cao chất lượng ảnh như khử nhiễu, một cửa sổ có kích thước mxm
được chọn để trượt lên toàn bộ không gian ảnh, giá trị mới cho pixel được tính dựa vào giá trị pixel gốc và các giá trị pixel lân cận pixel gốc ấy Mục đích lọc không gian nhằm làm trơn ảnh, loại bỏ nhiễu Gauss và phát hiện cạnh của đối tượng trong ảnh Các phương pháp lọc lần lượt được bàn đến như sau:
4.1) Lọc trung bình:
Bằng cách lấy trung bình trọng số của những pixel xung quanh, lọc trung bình
dùng để làm trơn ảnh Ví dụ như lọc trung bình dùng cửa sổ 3x3 có các trọng số đều bằng 1: [1 1 1; 1 1 1; 1 1 1] , thì ảnh ngõ ra được xác định bởi:
) , ( 9
1 ) ,
x u
y y
v in out x y S u v
Ảnh bị nhiễu Gauss: Ảnh trái Ảnh phải
Ảnh được lọc trung bình: Ảnh trái Ảnh phải
Trang 234.2) Lọc Gauss:
Mặt nạ Gauss được mô phỏng dưới dạng đường cong Gauss, có hệ số pixel trọng tâm của mặt nạ thường lớn hơn 1, còn những hệ số những pixel xung quanh nhỏ
hơn hệ số trung tâm Mặt nạ Gauss thường có dạng [0 1 0; 1 2 1; 0 1 0]
Cả hai phương pháp lọc trung bình và lọc Gauss còn gọi là lọc thông thấp, chúng hạn chế sự thay đổi đột ngột về cường độ mức xám nhất là những vùng pixel nằm ở cạnh vật thể vì thế ảnh sau khi lọc có cạnh bị nhoè hơn do cường độ xám của pixel nằm ở cạnh bị san bằng như những pixel lân cận
Ảnh xám bị nhiễu Gauss: Ảnh trái Ảnh phải
Ảnh sau khi lọc Gauss: Ảnh trái Ảnh phải
Hình 7: Lọc Gauss ảnh trái và phải: ảnh kết quả ít bị nhiễu Gauss hơn
Trang 244.3) Lọc Gradient:
Một lĩnh vực nghiên cứu quan trọng của xử lý ảnh là dò tìm cạnh của vật thể trong ảnh Chú ý rằng ở những vùng ảnh biểu diễn cạnh có sự thay đổi đáng kể độ sáng của pixel ảnh
Hai thuật toán điển hình là lọc Prewitt và lọc Sobel Lọc Prewitt bằng hai mặt nạ:
[ -1 -1 -1; 0 0 0; 1 1 1] , [-1 0 1; -1 0 1; -1 0 1] để phát hiện cạnh ngang và dọc
Tương tự vậy, Sobel dùng 2 mặt nạ: [-1 -2 -1; 0 0 0; 1 2 1] , [-1 0 1; -2 0 2; -1 0 1]
Ảnh xám trái Ảnh xám phải
Ảnh sau khi lọc Prewitt
Ảnh sau khi lọc Sobel
Hình 8: Lọc ảnh bằng Prewitt và Sobel: kết quả tương tự nhau
Trang 254.4) Lọc Laplace:
Mặt nạ Laplace là loại đạo hàm bậc hai nên nó có hai tác dụng: (1) nếu tổng tất cả các hệ số trong mặt nạ bằng không thì mặt nạ làm thay đổi đáng kể độ sáng trên toàn bộ ảnh, nghĩa là nó hoạt động như toán tử dò cạnh theo mọi hướng
Ví dụ như khi dùng mặt nạ [0 -1 0; -1 4 -1; 0 -1 0] có tổng hệ số bằng không sẽ
cho kết quả lọc như sau:
Ảnh xám trái Ảnh xám phải
Ảnh sau khi lọc Laplace
Hình 9: Lọc Laplace với mặt nạ lọc có tổng hệ số bằng không
Trang 26(2) Còn nếu mặt nạ Laplace có hệ số trung tâm lớn hơn tổng tuyệt đối của tất cả các hệ số xung quanh, thì ảnh gốc được cộng chồng lên thông tin cạnh vừa được phát hiện bởi bộ lọc
Minh họa cho trường hợp này là ta sử dụng mặt nạ [0 -1 0; -1 5 -1; 0 -1 0] ,
kết quả lọc như sau:
Ảnh xám trái Ảnh xám phải
Ảnh sau khi lọc Laplace với hệ số trung tâm lớn hơn
Hình 10: Ảnh lọc Laplace với hệ số trung tâm của mặt nạ lọc lớn hơn, tổng hệ số
bằng 1
Cả hai bộ lọc Gradient và Laplace còn gọi là lọc thông cao vì các tần số cao của pixel biểu diễn cạnh được giữ lại nên cạnh có độ sắc nét hơn
Trang 274.5) Lọc thích nghi Wiener:
Cũng là bộ lọc thông thấp dựa vào ước lượng thống kê giá trị mới của pixel theo
những vùng pixel lân cận cục bộ
Ảnh bị nhiễu Gauss: Ảnh trái Ảnh phải
Ảnh sau khi lọc trung bình
Ảnh sau khi lọc thích nghi Wiener
Hình 11: Lọc thích nghi Wiener so với lọc trung bình cho thấy tốt hơn
Trang 285) Lọc tần số - Lọc trung vị:
Còn gọi là lọc median, đây là một loại lọc tần số thích hợp để loại bỏ nhiễu muối
tiêu Kết quả thí nghiệm sau đây sử dụng một cửa sổ 3x3 pixel:
Ảnh bị nhiễu muối tiêu: Ảnh trái Ảnh phải
Ảnh sau khi lọc median
Hình 12: Lọc median ảnh: ảnh kết quả đã loại bỏ hoàn toàn nhiễu muối tiêu
Trang 29CHƯƠNG 3:
CƠ SỞ LÝ THUYẾT THỊ GIÁC NỔI
Trang 30I HÌNH HỌC CƠ BẢN CỦA CAMERA:
1) Pinhole camera:
Trong luận văn đang sử dụng CCD camera (Charge Coupled Device) bao gồm một mãng các sensor nhạy sáng (gọi là pixel), chúng được tích lũy năng lượng nạp vào khi có lượng photon ánh sáng đập vào, rồi chuyển năng lượng nạp này thành điện áp và số hóa thành mãng pixel hình ảnh mà chúng ta thấy được trên màn hình [6] Về cấu tạo CCD camera là loại Pinhole camera Sở dĩ phải đề cập trong luận văn vì các tính toán hình chiếu phối cảnh dựa vào cơ chế hoạt động của camera này
Pinhole camera là loại đơn giản nhất, nó gồm có 1 lỗ nhỏ xíu cho ánh sáng đi qua
để tạo một ảnh đảo ngược Để đơn giản hóa khi phân tích ảnh phối cảnh, chúng ta thường mô phỏng mặt phẳng ảnh camera nằm ở giữa tiêu điểm và vật thể quan sát
để ảnh không bị đảo ngược Ánh xạ ảnh từ không gian 3 chiều lên 2 chiều của mặt phẳng ảnh camera gọi là phép chiếu phối cảnh được sử dụng để phân tích ảnh Hình sau biểu diễn phép chiếu phối cảnh cơ bản [25]:
Hình 13: Phép chiếu phối cảnh của Pinhole camera
Trang 312) Hình học phối cảnh:
Hình học Euclid (gọi là 3 chiều) (còn hình học Đề Các là 2 chiều) là trường hợp
đặc biệt của hình học phối cảnh Việc sử dụng hình học phối cảnh trong thị giác máy tính làm đơn giản qui trình tính toán nên có thể biểu diễn lại những gì mà thị giác mang lại
Một phép chiếu phối cảnh là phép chiếu vật thể 3 chiều lên mặt phẳng 2 chiều bằng những đường thẳng đi qua một điểm Hình học đơn giản chỉ ra rằng nếu chúng
ta biểu thị khoảng cách từ mặt phẳng ảnh đến tâm chiếu bằng f (tiêu cự thấu kính),
thì tọa độ ( , )x y i i được tính liên hệ với tọa độ của vật thể ( , , )x y z0 0 0 bởi:
Những phương trình này là phi tuyến, chúng có thể được chuyển thành tuyến tính
bởi phép biến đổi thuần nhất Phép biến đổi đó là, một điểm (x,y,z) trong không
gian 3 chiều được ánh xạ theo một đường thẳng trong không gian 4 chiều
(wx,wy,wz,w), trong đó w là biến đệm (w≠0) Cũng có thể xem chiều thứ 4 là chiều
tỉ lệ, sau này w thường được chọn bằng 1, các phép biến đổi dịch chuyển, xoay
được tính dựa trên không gian 4 chiều này
Trong tọa độ thuần nhất, phép chiếu phối cảnh trên mặt phẳng được cho bởi:
Vài chú ý quan trọng: mặt phẳng chiếu dùng để mô tả mặt phẳng ảnh
Một điểm trong mặt phẳng được biểu diễn bằng 3 vec tơ (x1,x2,x3) không đồng
nhất bằng không
Một đường thẳng l cũng được định nghĩa bằng 3 số (u1,u2,u3) không đồng nhất
bằng không và thỏa mãn phương trình u1x+u2y+u3=0
Trang 32Một điểm nằm trên đường thẳng được cho bởi mối quan hệ:
l x = hay l x T =0 hay x l T =0
Hai điểm định ra một đường thẳng bằng phương trình l = ∧p q , trong đó p, q là
2 điểm, ∧ là ký hiệu nhân vec tơ
Tương tự, 2 đường thẳng định ra một điểm bằng phương trình x l m= ∧
Nhân vec tơ của 2 ma trận xác định bởi:
0 0 0
3) Mô hình thấu kính đơn giản:
Trong thực tế, thấu kính hội tụ được sử dụng để hội tụ một ảnh vào mặt phẳng ảnh camera Nhưng hạn chế của thấu kính là chúng chỉ mang hình ảnh hội tụ của vật thể nằm trên một mặt phẳng riêng biệt song song với mặt phẳng ảnh Giả sử thấu kính mỏng và trục quang học của nó vuông góc với mặt phẳng ảnh thì hoạt động của nó dựa vào định luật thấu kính:
1 1 1
u v+ = f (7)
Trong đó u là khoảng cách từ vật thể đến mặt phẳng thấu kính, v là khoảng cách
từ ảnh hội tụ đến mặt phẳng thấu kính, f là tiêu cự thấu kính, được mô tả bởi hình
sau [25]:
Hình 14: mô hình thấu kính đơn giản
Trang 334) Hiệu chỉnh camera:
Để suy luận ra thông tin hình học 3 chiều từ cặp ảnh stereo, trước tiên phải xác
định những tham số liên quan đến vị trí của một điểm trên vật thể sẽ được thể hiện ở
vị trí nào trong mặt phẳng ảnh
Đây là quá trình ước lượng các tham số nội và tham số ngoại của camera Có 4 tham số nội: 2 cho vị trí của gốc hệ tọa độ ảnh và 2 cho hệ số tỉ lệ của hai trục của
hệ Có 6 tham số ngoại của camera: 3 cho vị trí của tâm chiếu camera so với hệ tọa
độ thực, 3 cho hướng của hệ tọa độ mặt phẳng ảnh Tuy nhiên những tiến bộ gần đây trong thị giác máy tính chỉ ra rằng chúng ta có thể khử đi hoàn toàn những qui trình hiệu chỉnh này
Bây giờ chúng ta có hệ tọa độ 3D của camera, gốc của nó ở tâm chiếu và trục Z
dọc theo trục quang học camera, theo hình sau [25]:
Hình 15: Hệ tọa độ 3D hiệu chỉnh camera
Trang 34Hệ tọa độ này được gọi là hệ tọa độ tiêu chuẩn của camera Một điểm M trên vật thể với tọa độ (X,Y,Z) sẽ thu được một ảnh tại điểm m=(x,y) trong mặt phẳng ảnh
Tọa độ này có liên quan đối với hệ tọa độ, gốc của nó là giao điểm của trục quang
với mặt phẳng ảnh và 2 trục x, y song song với 2 trục X, Y Mối quan hệ giữa hệ tọa
độ (c,x,y) và (C,X,Y,Z) được cho bởi:
Bây giờ tọa độ pixel hiện tại (u,v) sẽ được tính tương ứng với gốc tọa độ ở phía
trái trên của mặt phẳng ảnh nên thỏa mãn:
Trong đó pixel width, pixel height lần lượt là chiều rộng và chiều cao của pixel,
sẽ được tính tùy vào độ phân giải của ảnh trên màn hình
Chúng ta có thể biểu diễn phép biến đổi từ tọa độ 3 chiều đến tọa độ của pixel
ảnh sử dụng ma trận 3x4 Điều này được thực hiện bằng thay thế phương trình (9) vào (10) rồi nhân với Z:
Trang 35Hay được viết dưới dạng thuần nhất:
su
Y f
Trong đó u~ biểu diễn vec tơ thuần nhất của tọa độ pixel ảnh, P là ma trận chiếu
phối cảnh, và M~ là vec tơ thuần nhất của tọa độ thực (real world)
II HÌNH HỌC THỊ GIÁC NỔI 3D:
1) Tam giác ảnh nổi:
Khi 2 camera cùng quan sát vật thể, sẽ có một điểm trên vật thể sẽ đồng thời tạo
ra ảnh của nó trên cả 2 camera, đó là ảnh trái và ảnh phải Ở đây ta chỉ xét 1 điểm
để dễ phân tích:
Hình 16: Tam giác ảnh nổi
Trang 36Tam giác ảnh nổi (tạm dịch từ chữ triangulation) được hình thành khi ta nối 2
tâm chiếu của 2 camera, đó là đường thẳng đứt đoạn trên hình Sở dĩ phải đưa ra khái niệm tam giác ảnh nổi vì nó là cơ sở để tìm ra điểm tương đồng khi đưa vào một cặp ảnh nổi trái, phải Điểm tương đồng là vấn đề quan trọng sẽ đề cập xuyên suốt trong xử lý ảnh nổi 3D
Dựa vào tam giác nổi mà ta xác định được chiều sâu của vật thể, xem hình minh họa sau [34]:
Hình 17: Minh họa tính quan sát được chiều sâu của vật thể
Ở camera phải không phân biệt được 2 điểm P, Q vì chúng nằm vuông góc với mặt phẳng quan sát của camera phải, tuy nhiên, ở camera trái lại phân biệt được 2 điểm này Chính đây là ưu điểm của hệ thống nổi, việc tính toán chiều sâu sẽ đề cập
ở phần sau
Trang 372) Điểm tương đồng:
Khái niệm điểm tương đồng sẽ phần nào gây bối rối cho người mới bắt đầu làm quen với thị giác nổi 3D Ý nghĩa của nó dùng để làm gì sẽ lần lượt được làm rõ Để hiểu về nó ta có hình sau [27]:
Hình 18: Điểm tương đồng
Điểm được bao quanh bằng ô cửa sổ màu đỏ ở ảnh trái sẽ tương đồng với điểm
có ô cửa sổ màu đỏ ở ảnh phải, tương đồng này mang tính duy nhất, một điểm bên
ảnh trái chỉ có duy nhất một điểm tương đồng bên ảnh phải Những điểm có ô cửa
sổ màu xanh trên ảnh phải không được gọi là tương đồng Kỹ thuật tìm điểm tương đồng có rất nhiều cách vẫn đang được nhiều tác giả quan tâm nghiên cứu, cách cơ bản là trên ảnh trái trích ra một cửa sổ có điểm cần tìm tương đồng rồi quét cửa sổ
này trên ảnh phải, chỉ tiêu SSD (Sum of Squared Difference: tổng sai lệch bình
phương) dùng đánh giá kết quả tìm kiếm để chọn ra điểm tương đồng Cửa sổ được
trích ra ở ảnh trái gọi là cửa sổ tham chiếu, kích thước thường dùng là 3x3 hay lớn
hơn tùy vào kết cấu của quang cảnh để tìm chính xác điểm tương đồng Các chỉ tiêu đánh giá sẽ được trình bày chi tiết ở những phần sau
Trang 383) Luật epipolar:
Quá trình tìm kiếm điểm tương đồng gặp nhiều khó khăn khi phải quét cửa sổ tham chiếu trên toàn bộ pixel của ảnh phải, thời gian quét là một vấn đề cần được giảm tối thiểu Luật epipolar ra đời nhằm làm giảm sự tìm kiếm điểm tương đồng này, khi ấy chỉ quét cửa sổ trên một đoạn thẳng thay vì toàn bộ ảnh Hình sau sẽ miêu tả trực quan [25]:
Hình 19: Hình học epipolar của thị giác nổi
Một điểm M nằm trên bề mặt vật thể trong không gian được quan sát bởi 2 camera đặt nằm lệch so với hướng thẳng một góc nào đó Ảnh của điểm M lần lượt tạo thành trên 2 mặt phẳng ảnh của 2 camera trái, phải là x và x’ Điểm e, e’ là điểm
epipole, được hình thành là giao điểm của đường thẳng nối 2 tâm quang học C, C’
với mặt phẳng ảnh trái và phải Thật ra e là ảnh của tâm quang camera phải C’ chiếu lên mặt phẳng ảnh camera trái và ngược lại e’ là ảnh của tâm quang camera trái C chiếu lên mặt phẳng ảnh camera phải Đường thẳng CC’ nối giữa 2 tâm quang còn được gọi là đường baseline (đường cơ sở) Đường thẳng xe và x’e’ trên
2 mặt phẳng ảnh trái, phải được gọi là đường epipolar, hay nói cách khác xe và x’e’ lần lượt là giao điểm giữa tam giác nổi MCC’ so với mặt phẳng ảnh trái, phải
Trang 39Các khái niệm như đường epipolar, baseline, epipole, tam giác nổi (triangulation) sẽ được nói đến từ đây trở đây mà không cần giải thích lại, đây được xem là những khái niệm cơ bản khi nghiên cứu về thị giác nổi (stereo vision)
Như vậy trở lại vấn đề tìm điểm tương đồng, ta giả sử có cặp ảnh nổi trái, phải
Trên ảnh trái, bây giờ nếu muốn đi tìm điểm tương đồng với x ở ảnh phải thì ta chỉ cần quét cửa sổ dọc theo đường epipolar của ảnh phải, kết quả sẽ tìm ra x’ Vì vậy
công đoạn quét cửa sổ được giới hạn chỉ trên đường epipolar, như thế sẽ giảm thời gian tính toán của chương trình xử lý ảnh rất nhiều
Khi điểm M ở vị trí khác thì hình dạng các đường epipolar sẽ đồng quy tại epipole e, e’ như hình minh họa dưới đây [28]:
Hình 20: Hình học epipolar của nhiều điểm M và ảnh vẽ đường epipolar
Trang 40Khi 2 camera đặt quan sát song song giống như mắt người thì việc tìm đường epipolar trở nên dễ dàng hơn, đó là những đường nằm ngang trên mặt phẳng ảnh [11]:
Hình 21: Hình học epipolar của 2 camera quan sát song song như mắt người