Trong những năm gần đây, thuật toán ghép đã được áp dụng trong nhiều lĩnh vực ví dụ: xử lý hình ảnh, thị giác máy tính và đa phương tiện và liên kết chặt chẽ với cuộc sống hàng ngày của
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: TS TRẦN THẾ VŨ
Đà Nẵng – Năm 2021
DUT.LRCC
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn trực tiếp của TS Trần Thế Vũ
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm
Tác giả
Trần Ngọc Tuấn
DUT.LRCC
Trang 4TÓM TẮT ĐỀ TÀI
NGHIÊN CỨU KỸ THUẬT GHÉP ẢNH PANORAMA TỪ NHIỀU ĐỐI TƯỢNG ẢNH
Học viên: Trần Ngọc Tuấn Chuyên ngành: Khoa học máy tính
Mã số: 8480101 Khóa: 36 Trường Đại học Bách khoa – ĐHĐN
Tóm tắt – Cắt ghép hình ảnh là công nghệ giải quyết giới hạn tầm quan
sát của ảnh, hình ảnh với góc nhìn rộng được tạo ra bởi nhiều hình ảnh chồng lên nhau đã được sử dụng trong nhiều lĩnh vực khác nhau như xử
lý hình ảnh, thị giác máy tính, đa phương tiện và giải trí Việc ghép hình ảnh trước tiên sẽ tính toán các điểm liên kết tương ứng giữa nhiều hình ảnh chồng chéo, làm biến dạng và căn chỉnh các hình ảnh phù hợp, sau
đó trộn các hình ảnh đã căn chỉnh để tạo ra hình ảnh có góc nhìn rộng
Tuy nhiên ghép ảnh phải đối mặt với các thách thức lâu dài như
đường cơ sở rộng, thị sai lớn và kết cấu thấp trong các vùng chồng lấn Các công nghệ mới có thể mang lại cơ hội mới để giải quyết những vấn
đề này
Luận văn bao gồm các nội dung sau: (1) Nghiên cứu tổng quan
về hình ảnh (2) Giải pháp đề xuất căn chỉnh và cắt ghép hình ảnh (3) Triển khai và nhận xét
Từ khóa – Ghép ảnh, ghép hình toàn cảnh, đăng ký, căn chỉnh, tối ưu
hoá lưới
DUT.LRCC
Trang 5TECHNICAL RESEARCH COMBINING PANORAMA IMAGES
FROM MULTIPLE IMAGES
Abstract - Image stitching is a technology for solving the field of view
(FOV) limitation of images It stitches multiple overlapping images to generate a wide-FOV image, and has been used in various fields such as image processing, computer vision, multimedia, and entertainment Image stitching first calculates the corresponding relationships between multiple overlapping images, deforms and aligns the matched images, and then blends the aligned images to generate a wide FOV image
However, Image stitching faces long-term challenges such as wide baseline, large parallax, and low-texture problem in the overlapping region New technologies may present new opportunities to address these issues The thesis includes the following contents: (1) Research about the Image stitching (2) The solution to stitch multiple overlapping images
to generate a panorama (3) Deploy, analyze and evaluate the results of the system
Key words - Image stitching, Panoramic stitching, Registration,
Alignment, Mesh optimization
DUT.LRCC
Trang 6MỤC LỤC
LỜI CAM ĐOAN i
TÓM TẮT ĐỀ TÀI ii
MỤC LỤC iv
DANH MỤC CÁC HÌNH ẢNH vii
DANH MỤC BẢNG BIỂU viii
DANH MỤC TỪ VIẾT TẮT ix
MỞ ĐẦU 1
1 LÝ DO CHỌN ĐỀ TÀI 1
2 MỤC TIÊU VÀ NHIỆM VỤ 2
2.1 Mục tiêu 2
2.2 Nhiệm vụ 2
3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU 2
3.1 Đối tượng 2
3.2 Phạm vi nghiên cứu 2
4 PHƯƠNG PHÁP NGHIÊN CỨU 2
4.1 Phương pháp nghiên cứu tài liệu 2
4.2 Phương pháp nghiên cứu thực nghiệm 2
5 BỐ CỤC LUẬN VĂN 3
CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 4
1.1 TỔNG QUAN VỀ ẢNH SỐ 4
1.1.1 Ảnh số 4
1.1.2 Điểm ảnh 4
1.1.3 Mức xám của ảnh 4
1.1.4 Lược đồ mức xám 4
1.1.5 Độ phân giải của ảnh 5
1.2 MỘT SỐ VẤN ĐỀ TRONG XỬ LÝ ẢNH 5
1.2.1.Phân tích ảnh 5
1.2.2.Nhận dạng ảnh 6
DUT.LRCC
Trang 71.2.3 Nén ảnh 6
1.2.4 Biến đổi ảnh 7
1.2.5 Biểu diễn ảnh 7
1.3 CÁC ĐẶC TRƯNG CỦA ẢNH SỐ 8
1.3.1.Đặc trưng toàn cục và cục bộ 8
1.3.2.Đặc trưng màu sắc 9
1.3.3.Đặc trưng kết cấu 9
1.3.4.Đặc trưng hình dạng 10
1.3.5.Đặc trưng cục bộ bất biến 10
1.4 ĐỐI SÁNH ẢNH 11
1.4.1.Giới thiệu 11
1.4.2.Các phương pháp đối sánh ảnh 12
CHƯƠNG 2: CĂN CHỈNH VÀ CẮT GHÉP HÌNH ẢNH 16
2.1 TỔNG QUAN VỀ CĂN CHỈNH VÀ CẮT GHÉP HÌNH ẢNH 16
2.2 MÔ HÌNH CHUYỂN ĐỘNG 18
2.2.1.Chuyển động 2D 19
2.2.2.Biến đổi 3D 21
2.3 PHƯƠNG PHÁP GHÉP ẢNH 26
2.3.1 Phương pháp dựa trên Pixel 27
2.3.2 Phương pháp dựa trên đặc trưng 30
2.3.3 Phương pháp tạo ảnh Panorama 35
2.4 KẾT LUẬN VÀ SO SÁNH 39
CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ 42
3.1 ĐẶC TẢ CHƯƠNG TRÌNH 42
3.2 LỰA CHỌN CÔNG CỤ 42
3.2.1.Ngôn ngữ Python 42
3.2.2.Cấu trúc chương trình 44
3.3 CÁC BƯỚC TRIỂN KHAI 45
3.3.1 Trích chọn điểm đặc trưng 45
DUT.LRCC
Trang 83.3.2 Tạo ảnh panorama 48
3.4 ĐÁNH GIÁ 51
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 56
TÀI LIỆU THAM KHẢO 57
DUT.LRCC
Trang 9DANH MỤC CÁC HÌNH ẢNH
Hình 1.1 Cường độ sáng của ảnh đầu vào được thể hiện trên lược đồ xám 5
Hình 1.2 Đặc trưng ảnh toàn cục và đặc trưng ảnh cục bộ 9
Hình 2.1 Ánh xạ từ toạ độ pixel sang toạ độ thiết bị chuẩn hóa 18
Hình 2.2 Tập hợp các phép biến đổi 2D cơ bản 19
Hình 2.3 Phép chiếu trung tâm 21
Hình 2.4 Một điểm được chiếu thành hai hình ảnh 23
Hình 2.5 Quay camera 3D thuần túy 24
Hình 2.6 Căn chỉnh giữa các dải đã đăng ký từ ba hình ảnh 28
Hình 2.7 Vùng chênh lệch (ROD) 29
Hình 2.8 Cấu trúc bộ mô tả Sift 31
Hình 2.9 Phân loại đường ghép dựa trên đặc điểm 32
Hình 2.10 Biến dạng và căn chỉnh hình ảnh dựa trên lưới 34
Hình 2.11 Thuật toán SIFT 37
Hình 2.12 Thuật toán tạo Panorama 38
Hình 3.1 Hình thử nghiệm 45
Hình 3.2 Hình ảnh đánh dấu các keypoint 46
Hình 3.3 Ảnh được đối sánh 47
Hình 3.4 Ảnh panorama ghép thô 48
Hình 3.5 Cửa sổ làm mịn của phiên bản bên trái 49
Hình 3.6 Cửa sổ làm mịn của phiên bản bên phải 50
Hình 3.7 Ảnh kết quả cuối cùng 51
Hình 3.8 Ví dụ ghép ảnh 1 51
Hình 3.9 Ví dụ ghép ảnh 2 52
Hình 3.10 Ví dụ ghép ảnh 3 53
Hình 3.11 Ví dụ ghép ảnh 4 53
Hình 3.12 Ví dụ ghép ảnh 5 54
Hình 3.13 Tập dữ liệu thực nghiệm 55
DUT.LRCC
Trang 10DANH MỤC BẢNG BIỂU
Bảng 2.1 Phân cấp các phép biến đổi toạ độ 2D 20 Bảng 2.2 So sánh các phương pháp trực tiếp 39 Bảng 2.3 So sánh các phương pháp dựa trên đặc trưng khác nhau 41
DUT.LRCC
Trang 11DANH MỤC TỪ VIẾT TẮT
Trang 12MỞ ĐẦU
1 LÝ DO CHỌN ĐỀ TÀI
Ghép ảnh là một trong những chủ đề lâu đời nhất và được sử dụng rộng rãi nhất trong thị giác máy tính và đồ họa Trong những năm gần đây, thuật toán ghép
đã được áp dụng trong nhiều lĩnh vực (ví dụ: xử lý hình ảnh, thị giác máy tính và
đa phương tiện) và liên kết chặt chẽ với cuộc sống hàng ngày của mọi người, như xây dựng một bức ảnh toàn cảnh đẹp với các ứng dụng trên điện thoại thông minh, tạo ra tầm nhìn rộng, video giám sát và hỗ trợ xe tự lái Nhiều ứng dụng nổi tiếng, chẳng hạn như Adobe Photoshop, AutoStitch, PTGui và Image Composite Editor (ICE) có chức năng ghép nhiều hình ảnh chồng chéo để tạo ra một tấm ảnh panorama với góc nhìn rộng Trong khi đó, nhiều máy ảnh toàn phương 360 độ khác nhau dựa trên ghép toàn cảnh đã được giới thiệu, ví dụ: Nokia Ozo, GoPro Odyssey, Facebook Surround 360 và Samsung Gear 360 Họ xây dựng một bức tranh toàn cảnh từ một chuỗi các hình ảnh và bức tranh toàn cảnh có thể được hiển thị bằng các thiết bị thực tế ảo (VR) Tuy nhiên, các ứng dụng và máy ảnh bị hạn chế bởi môi trường và các bộ dữ liệu, và các dữ liệu khác nhau được ghép lại thực
tế là không chuẩn và biến dạng sai lệch, ví dụ như đường cơ sở rộng, thị sai lớn, cường độ sáng và độ tương phản bị thay đổi, kết cấu và độ phủ thấp
Các thuật toán dùng để sắp xếp hình ảnh và ghép chúng vào một hình ảnh ghép lớn liền mạch là một trong những thuật toán lâu đời nhất và được sử dụng rộng rãi nhất trong thị giác máy tính Căn chỉnh tốc độ khung ảnh được sử dụng trong mọi máy quay có tính năng ổn định hình ảnh Các thuật toán ghép ảnh tạo
ra các bức ảnh ghép có độ phân giải cao được sử dụng để tạo ra các bản đồ kỹ thuật số và ảnh vệ tinh ngày nay Hầu hết các máy ảnh kỹ thuật số hiện đang được bán trên thị trường đều được tích hợp chức năng này, và có thể được sử dụng để tạo ra một bức ảnh panorama với góc siêu rộng
Vì lý do trên tôi quyết định chọn đề tài “Nghiên cứu kỹ thuật ghép ảnh
panorama từ nhiều đối tượng ảnh”
DUT.LRCC
Trang 132 MỤC TIÊU VÀ NHIỆM VỤ
2.1 Mục tiêu
Mục tiêu của đề tài là nghiên cứu các phương pháp cắt ghép hình ảnh mới nhất và giới thiệu các nguyên tắc, ưu điểm, điểm yếu cơ bản của thuật toán ghép hình ảnh từ đó đưa ra các giải pháp ứng dụng để ghép ảnh panorama
2.2 Nhiệm vụ
- Nghiên cứu đặc trưng của ảnh số và các phương pháp phân tích đối sánh ảnh
- Nghiên cứu các thuật toán và các phương pháp ghép ảnh
- Xây dựng chương trình demo ứng dụng để ghép ảnh panorama
3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
3.1 Đối tượng
- Các hình ảnh kỹ thuật số chất lượng cao
- Các thuật toán và kỹ thuật nhận dạng, căn chỉnh hình ảnh
- Các phương pháp trích chọn hình ảnh
- Các phương pháp ghép ảnh
3.2 Phạm vi nghiên cứu
Nghiên cứu các thuật toán ghép ảnh và phương pháp ghép ảnh
4.1 Phương pháp nghiên cứu tài liệu
- Tìm hiểu các bài báo trong và ngoài nước về ghép ảnh
- Tìm hiểu các thuật toán ghép ảnh
- Tìm hiểu các phương pháp ghép ảnh để xây dựng ứng dụng
4.2 Phương pháp nghiên cứu thực nghiệm
- Xây dựng chương trình demo dựa trên giải pháp đề xuất
- Thực nghiệm từ dữ liệu đầu vào là các hình ảnh có góc nhìn gần giống nhau
- Kiểm tra kết quả xuất ra hình ảnh panorama với góc nhìn rộng
DUT.LRCC
Trang 145 BỐ CỤC LUẬN VĂN
MỤC LỤC
MỞ ĐẦU
1 LÝ DO CHỌN ĐỀ TÀI
2 MỤC TIÊU VÀ NHIỆM VỤ CỦA ĐỀ TÀI
3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
4 PHƯƠNG PHÁP NGHIÊN CỨU
2.3 THUẬT TOÁN GHÉP ẢNH
CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ
3.1 DỮ LIỆU VÀ CÔNG CỤ THỰC NGHIỆM
3.2 THỰC NGHIỆM VÀ KẾT QUẢ
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
TÀI LIỆU THAM KHẢO
DUT.LRCC
Trang 15CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN
1.1 TỔNG QUAN VỀ ẢNH SỐ
1.1.1 Ảnh số
Ảnh số là tập hợp hữu hạn các điểm ảnh với mức xám phù hợp dùng để mô
tả gần nhất với ảnh thật Số điểm ảnh xác định độ phân giải của ảnh, độ phân giải càng cao thì càng thể hiện rõ nét các đặc điểm của tấm hình, càng làm cho tấm ảnh trở nên thực và sắc nét hơn
Ảnh số tạo bởi 1 mảng 2 chiều có các phần tử ảnh cùng kích thước gọi là điểm ảnh (pixel)
1.1.2 Điểm ảnh
Điểm ảnh (Pixel) là một phần tử của ảnh số tại toạ độ (x, y) với độ xám hoặc màu nhất định Kích thước và khoảng cách giữa các điểm ảnh đó được chọn thích hợp sao cho mắt người cảm nhận được sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi
DUT.LRCC
Trang 16góc Oxy Trong đó, trục hoành biểu diễn số mức xám từ 0 đến N (số bit của ảnh xám), trục tung biểu diễn số pixel của mỗi mức xám
Nhìn vào biểu đồ có thể biết được phân bố cường độ sáng của một ảnh, với những ảnh mà phân bố histogram lệch về bên phải thì ảnh đó là một ảnh có độ sáng tốt, ngược lại thì ảnh đó là một ảnh tối
Hình 1.1 Cường độ sáng của ảnh đầu vào được thể hiện trên lược đồ xám
1.1.5 Độ phân giải của ảnh
Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số được hiển thị Như trình bày ở trên, khoảng cách giữa các điểm ảnh phải được chọn sao cho mắt người vẫn thấy được sự liên tục của ảnh Việc lựa chọn khoảng cách thích hợp tạo nên một mật độ phân bổ, đó chính là độ phân giải
và được phân bố theo trục x và y trong không gian hai chiều
1.2 MỘT SỐ VẤN ĐỀ TRONG XỬ LÝ ẢNH
1.2.1 Phân tích ảnh
Phân tích ảnh liên quan đến việc xác định các độ đo định lượng của một ảnh để đưa ra một mô tả đầy đủ về ảnh Các kỹ thuật được sử dụng nhiều nhất là các kỹ thuật phát hiện biên của ảnh, ví dụ như lọc vi phân hay dò theo quy hoạch động Bên cạnh đó, người ta cũng có thể dùng các kỹ thuật để phân vùng ảnh Từ
DUT.LRCC
Trang 17ảnh thu được tiến hành kỹ thuật tách (split) hay hợp (fusion) dựa theo các tiêu chuẩn đánh giá như: màu sắc, cường độ, vv Các phương pháp được biết đến như Quad-Tree, mảnh hóa biên, nhị phân hóa đường biên Cuối cùng, phải kể đến các
kỹ thuật phân lớp dựa theo cấu trúc
1.2.2 Nhận dạng ảnh
Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng mà người ta muốn đặc tả nó Quá trình nhận dạng thường đi sau quá trình trích chọn các đặc tính chủ yếu của đối tượng Có hai kiểu mô tả đối tượng:
- Mô tả tham số (nhận dạng theo tham số)
- Mô tả theo cấu trúc (nhận dạng theo cấu trúc)
Trên thực tế, con người đã áp dụng kỹ thuật nhận dạng khá thành công với nhiều đối tượng khác nhau như: nhận dạng ảnh vân tay, nhận dạng chữ (chữ cái, chữ số, chữ
có dấu)
Ngoài hai kỹ thuật nhận dạng trên, hiện nay một kỹ thuật nhận dạng mới dựa vào
kỹ thuật mạng nơ ron đang được áp dụng và cho kết quả khả quan
1.2.3 Nén ảnh
Dữ liệu ảnh cũng như các dữ liệu khác cần phải lưu trữ hay truyền đi trên mạng Như đã nói ở trên, lượng thông tin để biểu diễn cho một ảnh là rất lớn Do đó làm giảm lượng thông tin hay nén dữ liệu là một nhu cầu cần thiết
Phân loại phương pháp nén bao gồm:
- Dựa vào nguyên lý nén:
Nén bảo toàn thông tin: Sau khi giải nén ta thu được chính xác dữ liệu gốc
Nén không bảo toàn thông tin: Sau khi nén ta không thu được dữ liệu như bản gốc
- Dựa vào cách thức thực hiện nén:
Phương pháp không gian: Tác động trực tiếp lên việc lấy mẫu của ảnh trong miền không gian
DUT.LRCC
Trang 18 Phương pháp sử dụng biến đổi: Tác động lên sự biến đổi của ảnh gốc
- Dựa vào lý thuyết mã hóa:
Các phương pháp nén thế hệ thứ nhất: Gồm các phương pháp mà mức độ tính toán là đơn giản
Các phương pháp nén thế hệ thứ hai: Dựa vào độ bão hòa của tỉ lệ nén
1.2.4 Biến đổi ảnh
Thuật ngữ biến đổi ảnh thường được dùng để nói tới một lớp các ma trận đơn vị
và các kỹ thuật dùng để biến đổi ảnh Cũng như các tín hiệu một chiều được biểu diễn bởi một chuỗi các hàm cơ sở, ảnh cũng có thể được biểu diễn dưới một số chuỗi rời rạc các ma trận cơ sở gọi là ảnh cơ sở Phương trình ảnh cơ sở có dạng:
A* k, 1 = a k a 1 * T (1.1)
Với a k là cột thứ k của ma trận A A là ma trận đơn vị Có nghĩa là AA*T=1 Các A* k, l được định nghĩa ở trên với k, l = 0, 1, 2, , N-1 là ảnh cơ sở Có nhiều loại biến đổi được dùng như:
- Biến đổi Fourier, Sin, Cosin, Hadamard
- Tích Kronecker
- Biến đổi KL (Krhumen loeve)
Do phải xử lý nhiều thông tin, các phép toán nhân và cộng t rong khai triển là quá lớn, nên các phép biến đổi trên nhằm giảm thứ nguyên của ảnh để việc xử lý ảnh được hiệu quả hơn
1.2.5 Biểu diễn ảnh
Trong biểu diễn ảnh, người ta thường dùng các phần tử đặc trưng của ảnh là pixel Các mô hình biểu diễn ảnh cho thấy một mô tả logic hay định lượng các tính chất của hàm này Trong biểu diễn ảnh cần chú ý đến tính trung thực của ảnh hoặc các tiêu chuẩn
để đo chất lượng ảnh hoặc tính hiệu quả của các kỹ thuật xử lý
DUT.LRCC
Trang 19Việc xử lý ảnh số yêu cầu ảnh phải được mẫu hóa và lượng tử hóa Việc lượng tử hóa ảnh là chuyển đổi tín hiệu tương tự sang tín hiệu số của một ảnh đã lấy mẫu sang một số hữu hạn mức xám
Một số mô hình thường được dùng trong biểu diễn ảnh: Mô hình toán, mô hình thống kê Trong mô hình toán, ảnh hai chiều được biểu diễn nhờ các hàm hai biến trực giao gọi là các hàm cơ sở Với mô hình thống kê, một ảnh được coi như một phần tử của một tập hợp đặc trưng bởi các đại lượng như: kỹ vọng toán học, hiệp biến, phương sai, moment
là các phương pháp phát hiện điểm đặc trưng được áp dụng trên toàn bộ ảnh đó
Điểm đặc trưng trong ảnh là một điểm ảnh có chứa nhiều thông tin hơn các điểm ảnh lân cận Biểu diễn ảnh theo điểm đặc trưng sẽ cô đọng hơn, giảm được không gian tìm kiếm trong các bài toán ứng dụng
1.3.1 Đặc trưng toàn cục và cục bộ
Trong xử lý ảnh và thị giác máy tính, trích chọn đặc trưng và biểu diễn ảnh
là rất cần thiết Con người có thể dễ dàng trích chọn thông tin từ ảnh thô, tuy nhiên với máy tính lại khác biệt Có hai kiểu đặc trưng ảnh có thể trích chọn từ mô tả nội dung ảnh gọi là các đặc trưng toàn cục và các đặc trưng cục bộ
- Đặc trưng toàn cục: ảnh được biểu diễn bằng một véc tơ đặc trưng mô tả thông tin trong toàn bộ ảnh Nói cách khác, phương pháp biểu diễn toàn cục tạo
ra một véc tơ đơn với các giá trị độ đo các khía cạnh khác nhau của ảnh như màu sắc, kết cấu hoặc hình dạng Thực tế, mỗi ảnh được biểu diễn một véc tơ đơn, sau
đó 2 ảnh có thể được so sánh với nhau bằng việc so sánh các véc tơ đặc trưng của chúng
DUT.LRCC
Trang 20- Đặc trưng cục bộ: ảnh được biểu diễn dựa trên cấu trúc cục bộ của nó bởi một tập các mô tả đặc trưng cục bộ được trích chọn từ một tập hợp các vùng hình ảnh được gọi là các vùng đặc trưng (các điểm chính)
Mặt khác, mục đích chính của biểu diễn đặc trưng cục bộ là biểu thị rõ ràng hình ảnh dựa trên một số vùng nổi bật trong khi vẫn bất biến với các thay đổi về góc nhìn và chiếu sáng
Hình 1.2 Đặc trưng ảnh toàn cục và đặc trưng ảnh cục bộ
1.3.2 Đặc trưng màu sắc
Là một đặc trưng nổi bật và được sử dụng phổ biến nhất trong các ứng dụng
xử lý ảnh [2] Mỗi một điểm ảnh (thông tin màu sắc) có thể biểu diễn trong không gian màu sắc 3 chiều Các không gian màu sắc thường dùng là: RGB, CIE, HSV
Hiện nay các công cụ tìm kiếm như google, yahoo, bing đều dựa theo đặc trưng về màu sắc để tìm kiếm ảnh liên quan kết hợp với đặc trưng kết cấu và đặc trưng hình dạng
1.3.3 Đặc trưng kết cấu
Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc
và cường độ một ảnh Kết cấu được đặc trưng bởi sự phân bố không gian của những mức cường độ trong một khu vực lân cận với nhau Kết cấu gồm các kết cấu gốc hay nhiều kết cấu gộp lại đôi khi gọi là texel
Đặc trưng kết cấu được sử dụng rộng rãi và rất trực quan nhưng không có định nghĩa chính xác bởi tính biến thiên rộng của nó Có rất nhiều cách để mô tả
DUT.LRCC
Trang 21kết cấu: Những phương pháp thống kê thường sử dụng tần số không gian, ma trận biến cố, tần số biên,…
1.3.4 Đặc trưng hình dạng
Hình dạng của một ảnh hay một vùng là một đặc trưng quan trọng trong việc xác định và phân biệt ảnh trong nhận dạng mẫu Định nghĩa hình dạng của đối tượng thường là rất khó Hình dạng thường được biểu diễn bằng lời nói hoặc hình vẽ, và mọi người thường sử dụng thuật ngữ như là tròn, méo Xử lý hình dạng dựa trên máy tính đòi hỏi rất phức tạp, trong khi rất nhiều phương pháp mô
tả hình dạng thực tế đang tồn tại nhưng không có một phương pháp chung nào cho mô tả hình dạng Có hai kiểu đặc trưng hình dạng chính thường được sử dụng:
- Những đặc trưng dựa trên biên: chỉ sử dụng đường bao ngoài của hình dạng
- Những đặc trưng vùng: sử dung toàn bộ vùng của hình dạng
Mục tiêu chính của biểu diễn hình dạng trong nhận dạng mẫu là đo thuộc tính hình học của một đối tượng được dùng trong phân lớp, so sánh và nhận dạng đối tượng
Độ đo về hình dạng có rất nhiều trong phạm vi lý thuyết xử lý ảnh Chúng trải rộng từ những độ đo toàn cục dạng thô sơ trợ giúp cho việc nhận dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những hình dạng đặc biệt
1.3.5 Đặc trưng cục bộ bất biến
Là những điểm đặc trưng không thay đổi khi xoay ảnh, co giãn ảnh hay thay đổi cường độ sáng của ảnh SIFT là đặc trưng bất biến được sử dụng rộng rãi:
- SIFT: Là viết tắt của cụm từ Scale-Invariant Feature Transform, là một trong những thuật toán nổi tiếng nhất hiện nay dùng để phát hiện và mô tả các đặc trưng ảnh số Thuật toán này được công bố bởi David Lowe vào năm 1999
- SURF: Là viết tắt của cụm từ Speeded Up Robust Features, được giới thiệu vào năm 2006 bởi nhóm các nhà nghiên cứu bao gồm Herbert Bay, Tinne
DUT.LRCC
Trang 22Tuytelaars và Luc Van Gool Được phát triển dựa trên thuật toán SIFT nhưng được cải tiến để cho tốc độ xử lý nhanh hơn giải thuật SIFT
Ở thuật toán SIFT, việc tìm scale-space dựa trên việc tính gần đúng LoG(Laplace of Gaussion) dùng DoG (Difference of Gaussion), trong khi đó SURF sử dụng Box Filter, tốc độ xử lý sẽ được cải thiện đáng kể với việc dùng ảnh tích phân (integral image) Ở bước xác định hướng, SURF sử dụng wavelet response theo hai chiều dọc và ngang, sau đó tình hướng chính bằng cách tính tổng các response đó
1.4 ĐỐI SÁNH ẢNH
1.4.1 Giới thiệu
Đối sánh ảnh là một bài toán mở đã và đang thu hút được sự quan tâm của các nhà nghiên cứu và phát triển[3] Nó mở ra rất nhiều phương hướng sáng tạo các ứng dựng hữu ích khi giải quyết được các bài toán ví dụ như: Tìm kiếm và nhận dạng hình ảnh, theo dõi và phát hiện đối tượng, ghép ảnh…
Đối sánh hai ảnh là tìm ra những vùng giống nhau trên hai ảnh Thông thường, để đối sánh ảnh cần so sánh các phần tử cơ bản tạo nên nó Tuy vậy phép
so sánh này cần nhiều thời gian tính toán hơn và thường không đạt được độ chính xác như mong muốn
Giải pháp đầu tiên cho vấn đề đối sánh ảnh được đề xuất bởi Hobrough vào cuối những năm 1950 Hệ thống tự động tìm kiếm các điểm liên hợp đầu tiên được giới thiệu bởi công ty Wild Heerbrugg năm 1964 nhưng lại không được sử dụng phổ biến Tuy nhiên, ý tưởng của Hobrough áp dụng mối tương quan chéo lại được nhiều người sử dụng Từ những năm 1970, việc tập trung phát triển đối sánh ảnh và đối sánh tương quan gặt hái được nhiều thành công và được áp dụng trong
hệ thống đo độ tương tự cho ảnh (Helava, 1978) Ngày nay, công nghệ đối sánh ảnh được tính hợp trong nhiều phần mềm xử lý ảnh được sử dụng như là một công
cụ tính toán Có rất nhiều nghiên cứu được thực hiện với mong muốn tìm hai điểm tương đồng trên hai bức ảnh Thuật toán tìm kiếm điểm tương đồng có thể thực hiện được trên ảnh 2D
DUT.LRCC
Trang 23Vấn đề chính của việc đối sánh ảnh là việc chọn một đối tượng phù hợp và cách thức để so sánh nó, một thực thể trong ảnh này được so sánh với một thực thể trong ảnh khác và lựa chọn độ đo tương tự So sánh theo từng pixel sẽ không khả thi với những ảnh có kích thước lớn vì nó sẽ cần tính toán nhiều hơn, mất nhiều thời gian hơn, hoặc muốn rút ngắn thời gian thì cần có phần cứng xử lý mạnh hơn Hơn nữa thường dẫn đến sự không chính xác vì sự lặp đi lặp lại của các màu có cùng giá trị mức xám và nhiễu của ảnh Để giải quyết vấn đề đó, thay
vì đối sánh từng pixel một dẫn đến dữ liệu đầu vào quá lớn thì ta sẽ giảm dữ liệu đầu vào bằng cách đưa vào các đặc trưng của cả hai ảnh rồi tiến hành đối sánh trên các đặc trưng đó
1.4.2 Các phương pháp đối sánh ảnh
1.4.2.1 Đối sánh ảnh theo vùng
Phương pháp này còn được gọi là phương pháp tương quan hay đối sánh mẫu Phương pháp này kết hợp giữa đối sánh đặc trưng và đối sánh thành phần Cường độ xám của ảnh được sử dụng làm cơ sở cho việc đối sánh ảnh Do việc đối sánh từng pixel của cả hai ảnh là một việc bất khả thi nên thay vào đó, ta sẽ đối sánh một tập các điểm ảnh lân cận nhau để giảm số lần tính toán Tại ảnh thứ nhất sử dụng một cửa sổ có kích thước m*n (thông thường là m=n để có thể dễ dàng tìm được toạ độ điểm trung tâm của cửa sổ) đem so sánh với một “mẫu” cũng là cửa sổ có kích thước tương tự ở ảnh thứ hai Các phép so sánh được thực hiện trên cửa sổ Trong phép đo ảnh thì tương quan chéo và đối sánh bình phương tối thiểu là những kỹ thuật được sử dụng nhiều trong đối sánh ảnh dựa theo vùng Kích thước mẫu càng lớn thì yêu cầu về tính đặc trưng của thực thể được đối sánh càng cao Mặt khác sự biến dạng hình học gây ra bởi hiện tượng xoay ảnh cũng sẽ ảnh hưởng tới kết quả đối sánh của các mẫu có kích thước lớn Yêu cầu
về tính đặc trưng của thực thể cũng không được thỏa mãn nếu vùng đó bị lặp đi lặp lại hoặc độ tương phản và cấu trúc thấp (Ví dụ: cát sa mạc, nước biển) Những vùng bị che khuất bởi các đối tượng khác cao hơn cũng nên bị loại bỏ Để có được
DUT.LRCC
Trang 24kết quả chấp nhận được, kích thước của mẫu phải nhỏ hoặc hình dạng phải thích nghi với biến dạng hình học
Để tránh sai lệch về kết quả đối sánh, vị trí của cửa sổ tìm kiếm phải được xác định chính xác trong đối sánh dựa theo vùng Kích thước của cửa sổ tìm kiếm phụ thuộc vào vị trí chính xác và về độ biến dạng do hướng của ảnh
Sau khi tìm ra vị trí phù hợp nhất thì cần đánh giá độ chính xác và độ tin cậy của kết quả đổi sánh tìm được Thiết lập ngưỡng cho các phép đối sánh là một biện pháp để giảm thiểu việc đối sánh bị sai lệch Ngoài biện pháp sử dụng ngưỡng thì có thể
sử dụng phương pháp điều chỉnh hình học để tính toán và loại trừ những kết quả đối sánh sai
1.4.2.2 Đối sánh ảnh theo đặc trưng
Trái ngược với phương pháp đối sánh dựa theo vùng phương pháp đối sánh dựa trên đặc trưng sử dụng sự biến đổi đột ngột về các giá trị mức xám tương ứng với các đặc trưng của ảnh làm cơ sở để đối sánh như cạnh, góc, hoặc điểm đặc trưng của ảnh Kỹ thuật đối sánh dựa theo đặc trưng vượt trội hơn so với kỹ thuật đối sánh dựa theo vùng Kỹ thuật đối sánh dựa vào đặc trưng của ảnh về cơ bản gồm 3 bước chính (được điều chinh từ Forstner, 1986):
- Chọn các điểm đặc trưng riêng biệt của ảnh (cạnh, góc, điểm) trong mỗi ảnh riêng biệt
- Xây dựng danh sách các cặp điểm đặc trưng tương ứng dựa trên độ tương đồng
- Tiến hành đối sánh và trả về kết quả tập các điểm tương đồng phù hợp với
mô hình đối tượng
Thông thường người ta sẽ tích hợp cả đối sánh vùng và đối sánh điểm đặc trưng vào các phần mềm ghép ảnh để đạt được kết quả chính xác nhất và tốc độ
xử lý nhanh hơn, tốn ít thời gian hơn Với sự phát triển của công nghệ như hiện tại thì thực hiện đối sánh trên những ảnh cỡ nhỏ thì thời gian thực hiện không đáng kể, nhưng đối với ảnh có kích thước lớn thì việc tối ưu thuật toán, cải thiện tốc độ thực hiện thuật toán cũng là một vấn đề cần được quan tâm
DUT.LRCC
Trang 25a) Điểm hấp dẫn (Interest points)
Đối sánh dựa trên đặc trưng của ảnh áp dụng tốt nhất trên các khu vực ảnh
có độ tương phản cao Những điểm có thể được mô tả bằng sự chênh lệch cao về giá trị mức xám hoặc có gradient dốc được gọi là điểm quan tâm Các điểm quan tâm nên có sự khác biệt, bất biến đối với sự biến dạng hình học và chất lượng của bức ảnh và có tính ổn định Việc tìm kiếm điểm quan tâm trong ảnh được thực hiện qua hai bước:
- Tính toán các đặc trưng ở mỗi cửa sổ của ảnh được chọn
- So sánh giá trị vừa tìm được với một ngưỡng cho trước
Các tham số đặc trưng khác nhau với mỗi toán tử khác nhau, nhưng về cơ bản đều dựa trên giá trị mức xám bên trong mỗi cửa sổ trượt Chỉ có những cửa
sổ mà có giá trị lớn hơn hoặc nhỏ hơn ngưỡng mới được chấp nhận là điểm quan tâm Một danh sách các điểm quan tâm của mỗi ảnh được đối sánh với toạ độ điểm ảnh của nó (điểm trung tâm của mỗi cửa sổ trượt) và mô tả của chúng là kết quả của quá trình xử lý
b) Cạnh và vùng
Cạnh có thể mô tả như là việc thay đổi đột ngột giá trị mức xám trong một vùng nhỏ Các cạnh thường tương ứng với đường biên của đối tượng được hiển thị trong ảnh Quá trình trích xuất cạnh rất phức tạp và trải qua 3 bước bao gồm:
- Xác định các điểm ảnh nằm trên cạnh, giá trị mức xám bị ngắt quãng sẽ được xác định bằng trung bình cộng của các toán tử cạnh Điểm đó có được xác định là điểm nằm trên cạnh hay không dựa vào kết quả so sánh giá trị mức xám với một ngưỡng cho trước
- Liên kết các điểm ảnh với nhau và làm liền biên
- Nhóm các cạnh với nhau, phân đoạn: tức là xác định phân đoạn đường thẳng, đường đa giác, đường gấp khúc, đường song song
Toán tử cạnh sẽ phát hiện ra sự thay đổi của giá trị mức xám trong ảnh, dựa trên phép đạo hàm bậc nhất để tìm ra cực trị và định vị điểm cạnh Một số toán tử cạnh có thể dùng như toán tử Robert (Robert Cross), toán tử Sobel (Sobel
DUT.LRCC
Trang 26Operator), toán tử Prewitt (Prewitt Operator) Toán tử Sobel sẽ ít bị ảnh hưởng bởi nhiễu của ảnh vì bao gồm cả những điểm ảnh lân cận
Toán tử Laplacion dựa trên phép đạo hàm bậc hai Để không bị ảnh hưởng bởi nhiễu thì nó được kết hợp với toán tử Gaussion để làm mịn ảnh, khử nhiễu Sau khi áp dụng kết quả Laplacian của toán tử Gaussian trên ảnh gốc thì các điểm cạnh tương ứng với giá trị zero
Trang 27
CHƯƠNG 2: CĂN CHỈNH VÀ CẮT GHÉP HÌNH ẢNH
2.1 TỔNG QUAN VỀ CĂN CHỈNH VÀ CẮT GHÉP HÌNH ẢNH
Ghép ảnh là một trong những chủ đề lâu đời nhất và được sử dụng rộng rãi nhất trong thị giác máy tính và đồ họa Trong những năm gần đây, thuật toán ghép
đã được áp dụng trong nhiều lĩnh vực (ví dụ: xử lý hình ảnh, thị giác máy tính và
đa phương tiện) và liên kết chặt chẽ với cuộc sống hàng ngày của mọi người, như xây dựng một bức ảnh toàn cảnh đẹp với các ứng dụng trên điện thoại thông minh, tạo ra tầm nhìn rộng, video giám sát và hỗ trợ xe tự lái Nhiều ứng dụng nổi tiếng, chẳng hạn như Adobe Photoshop, AutoStitch, PTGui và Image Composite Editor (ICE) có chức năng ghép nhiều hình ảnh chồng chéo để tạo ra một tấm ảnh panorama với góc nhìn rộng Trong khi đó, nhiều máy ảnh toàn phương 360 độ khác nhau dựa trên ghép toàn cảnh đã được giới thiệu, ví dụ: Nokia Ozo1, GoPro Odyssey2, Facebook Surround 3603 và Samsung Gear 3604 Họ xây dựng một bức tranh toàn cảnh từ một chuỗi các hình ảnh và bức tranh toàn cảnh có thể được hiển thị bằng các thiết bị thực tế ảo (VR) Tuy nhiên, các ứng dụng và máy ảnh bị hạn chế bởi môi trường và các bộ dữ liệu, và các dữ liệu khác nhau được ghép lại thực
tế là không chuẩn và biến dạng sai lệch, ví dụ như đường cơ sở rộng, thị sai lớn, cường độ sáng và độ tương phản bị thay đổi, kết cấu và độ phủ thấp [1]
Các thuật toán ghép ảnh dùng để sắp xếp hình ảnh và ghép chúng vào một hình ảnh ghép lớn liền mạch từ một chuỗi các hình ảnh bằng cách thực hiện song song các lệnh thông qua ba giai đoạn Trong giai đoạn đầu tiên, các mối quan hệ tương ứng giữa hình ảnh gốc được thiết lập bằng cách hiệu chỉnh trước các thông
số bên trong và bên ngoài của máy ảnh [2] hoặc ước tính mô hình chuyển động dựa trên pixel bằng cách tính toán luồng quang học [4], sự tương ứng trên mỗi pixel [5-7], hoặc đối sánh đặc điểm thưa thớt [8-10] Trong bước tiếp theo, sau
Trang 28khi thực hiện các phép biến đổi và đăng ký ước tính giữa các hình ảnh, mặt phẳng bảo vệ được xác định bằng cách chọn mặt phẳng hình ảnh, ví dụ: mặt phẳng hình ảnh đầu tiên hoặc mặt phẳng trung gian ước tính, và sau đó các hình ảnh đã đăng
ký được biến dạng và căn chỉnh cho mặt phẳng chiếu Cuối cùng, các hình ảnh đã căn chỉnh được hợp nhất với nhau trên một canvas lớn bằng cách trộn các pixel tương ứng giống nhau trong các vùng chồng chéo giữa các hình ảnh và giữ nguyên các pixel trong các vùng không chồng chéo Hầu hết các thuật toán ghép ảnh đều đưa ra giả thuyết rằng ảnh gốc được chụp bởi một máy ảnh xoay quanh trung tâm quang học của nó (ví dụ: hầu hết các thuật toán ghép ảnh toàn cảnh [11]) hoặc cảnh gần như phẳng (tức là không có thị sai hoặc thị sai tối thiểu) và vi phạm những giả thuyết này dẫn đến việc đăng ký hình ảnh không chính xác, thêm sai lệch và bị bóng mờ Các thuật toán tối ưu hóa liên kết và ước tính đa đồng nhất [10,12,13] đã được giới thiệu để giải quyết những vấn đề này, trong khi các thuật toán ghép nối mạnh mẽ và hiệu quả vẫn chưa được đề xuất
Tính năng ghép toàn cảnh đã được phát triển cùng với ghép hình ảnh và có thể được coi là phần mở rộng của ghép hình ảnh, theo đó một chuỗi hình ảnh được ghép nối với nhau theo cách khép kín bằng cách sử dụng ghép nối nhiều hình ảnh thuật toán và được chiếu tới một hình trụ hoặc hình cầu, để tạo ra một chế độ xem toàn cảnh với góc nhìn 360 độ [20,21] Trái ngược với ghép hình ảnh kiểu cổ điển,
nó yêu cầu môi trường thu nhận hạn chế hơn, tức là máy ảnh thường xoay 360 độ
về trung tâm quang học của nó, như vậy sẽ tạo điều kiện tốt hơn để áp dụng các phương pháp ghép đơn giản hơn Hiện nay, nhiều ứng dụng thực tế về ghép ảnh được xây dựng dựa trên ghép toàn cảnh, chẳng hạn như kết hợp các mảng camera
có cấu trúc với các phương pháp ghép đơn giản [21], tạo thành ảnh toàn cảnh cho các ứng dụng điện thoại thông minh hoặc camera toàn cảnh để giám sát Trong khi đó, do các ứng dụng hiện tại yêu cầu cao hơn về mặt hiệu suất và cần hiệu quả lớn hơn, cùng với sự đổi mới và nâng cấp của các thiết bị phần cứng, các thiết bị chính xác hơn được kết hợp với các thuật toán ghép đơn giản hơn, đi kèm với nhiều tiền xử lý hơn, ví dụ: phương pháp hiệu chuẩn trước được áp dụng để hiệu
DUT.LRCC
Trang 29chỉnh các thông số của cảm biến hình ảnh [22] nhằm tạo ra một mẫu đường ghép liên tục để tạo thành ảnh toàn cảnh
2.2 MÔ HÌNH CHUYỂN ĐỘNG
Trước khi có thể đăng ký và căn chỉnh hình ảnh, chúng ta cần thiết lập các mối quan hệ toán học ánh xạ toạ độ pixel từ hình ảnh này sang hình ảnh khác Có thể có nhiều mô hình chuyển động có tham số như vậy, từ biến đổi 2D đơn giản, đến mô hình phối cảnh phẳng, xoay camera 3D, biến dạng ống kính và ánh xạ tới
bề mặt phi phẳng (ví dụ: hình trụ) [11]
Để tạo điều kiện làm việc với hình ảnh ở các độ phân giải khác nhau, chúng
ta áp dụng một biến thể của toạ độ thiết bị chuẩn hóa được sử dụng trong đồ họa máy tính [14, 15] Đối với hình ảnh hoặc khung video (hình chữ nhật) điển hình, chúng ta để toạ độ pixel nằm trong khoảng từ [−1,1] dọc theo trục dài hơn và [−a, a] dọc theo trục ngắn hơn, trong đó a là nghịch đảo của tỉ lệ khung hình, như trong Hình 2.1 Đối với một hình ảnh có chiều rộng W và chiều cao H, phương trình ánh xạ toạ độ pixel số nguyên x = (x, y) thành toạ độ thiết bị chuẩn hóa x = (x, y)
là
x = 2𝑥̅−𝑊
𝑆 và y = 2𝑦̅−𝐻
𝑆 , với S = max(W,H) (2.1)
Hình 2.1 Ánh xạ từ toạ độ pixel sang toạ độ thiết bị chuẩn hóa
Lưu ý rằng nếu chúng ta làm việc với hình ảnh trong một kim tự tháp, chúng ta cần giảm một nửa giá trị S sau mỗi bước phân rã thay vì tính toán lại
nó từ max(W, H), vì các giá trị (W, H) có thể bị làm tròn hoặc bị cắt bớt theo cách không thể đoán trước
DUT.LRCC
Trang 302.2.1 Chuyển động 2D
Sau khi xác định hệ toạ độ của chúng ta, bây giờ chúng ta có thể mô tả cách chuyển đổi toạ độ Các phép biến đổi đơn giản nhất xảy ra trong mặt phẳng 2D và được minh họa trong Hình 2.2
Phép tịnh tiến 2D có thể được viết dưới dạng x’ = x + t hoặc
là một ma trận quay trực chuẩn với RRT = I và | R | = 1
2.2.1.2 Quay theo tỉ lệ
Còn được gọi là phép biến đổi tương tự, phép biến đổi này có thể được
biểu diễn dưới dạng x’ = sRx + t, trong đó s là hệ số tỉ lệ tùy ý Nó cũng có thể
được viết
DUT.LRCC
Trang 31x’ = [sR t] 𝒙̃ = [𝑎 −𝑏 𝑡𝑏 𝑎 𝑡𝑥
𝑦] 𝒙̃, (2.5) Trong đó chúng ta không còn yêu cầu a2 + b2 = 1 Phép biến đổi trực giao bảo toàn góc giữa các vector
2.2.1.3 Biến đổi Affine
Biến đổi affine được viết dưới dạng x’ = A𝒙̃, trong đó A là ma trận 2 × 3
bất kỳ, tức là
x'= [𝑎𝑎00 𝑎01 𝑎02
10 𝑎11 𝑎12] 𝒙̃ (2.6) Các đường thẳng song song vẫn song song dưới các phép biến đổi affine
2.2.1.4 Xạ ảnh
Phép biến đổi này, còn được gọi là phép biến đổi phối cảnh hoặc phép đồng nhất, hoạt động trên các toạ độ đồng nhất 𝒙̃ và 𝒙̃′,
𝒙̃′ ~ 𝑯̃𝒙̃, (2.7) trong đó ∼ biểu thị đẳng thức theo tỉ lệ và 𝑯̃ là ma trận 3 × 3 bất kỳ
Lưu ý rằng bản thân 𝑯̃ là đồng nhất, tức là, nó chỉ được xác định theo tỉ lệ Kết quả toạ độ thuần nhất 𝒙′̃ phải được chuẩn hóa để thu được kết quả không thuần nhất x’, tức là,
x’ = ℎ00𝑥+ ℎ01𝑦+ ℎ02
ℎ 20 𝑥+ ℎ 21 𝑦+ ℎ 22 và y’ = ℎ10𝑥+ ℎ11𝑦+ ℎ12
ℎ 20 𝑥+ ℎ 21 𝑦+ ℎ 22 (2.8) Phép biến đổi phối cảnh bảo toàn đường thẳng
Phép biến đổi Ma trận Số lượng
d.o.f Bảo toàn hướng Biểu tượng
Trang 322.2.1.5 Thứ bậc của các phép biến đổi 2D
Tập hợp các phép biến đổi trước được minh họa trong Hình 2.2 và tóm tắt trong Bảng 2.3 Suy nghĩ một cách đơn giản là như một tập hợp các ma trận 3 ×
3 (có thể bị hạn chế) hoạt động trên các vectơ toạ độ đồng nhất 2D Hartley và Zisserman [16] có mô tả chi tiết hơn về hệ thống phân cấp của các phép biến đổi trên mặt phẳng 2D
2.2.2 Biến đổi 3D
Tồn tại một hệ thống phân cấp lồng nhau tương tự cho các phép biến đổi toạ
độ 3D có thể được biểu thị bằng cách sử dụng ma trận biến đổi 4 × 4, với các phép tương đương 3D đối với phép tịnh tiến, phép biến đổi rigid body (Euclide) và phép biến đổi affine, và phép đồng phân homography (đôi khi được gọi là phép cộng tuyến) [16]
Quy trình lập bản đồ chiếu trung tâm toạ độ 3D p = (X, Y, Z) đến toạ độ 2D
x = (x, y, 1) qua lỗ kim trên máy ảnh lên mặt phẳng chiếu 2D một khoảng f dọc
theo trục z,
x = f 𝑋
𝑍, y = f 𝑋
𝑍, (2.9)
Hình 2.3 Phép chiếu trung tâm
cho thấy mối quan hệ giữa các toạ độ 3D và 2D p và x, cũng như mối quan hệ
giữa tiêu cự f và trường nhìn θ
như hình 2.4 thể hiện Mối quan hệ giữa độ dài tiêu cự (giá trị unitless) f và trường nhìn θ được cho bởi
DUT.LRCC
Trang 33bản 35 mm) Để chuyển nó thành toạ độ pixel, hãy nhân nó với S/2 (một nửa chiều
rộng đối với ảnh phong cảnh)
Trong tài liệu đồ họa máy tính, phép chiếu phối cảnh thường được viết dưới
dạng ma trận hoán vị để hoán vị hai phần tử cuối cùng của 4 vector đồng nhất p =
tiếp theo là chia tỉ lệ và tịnh tiến sang toạ độ màn hình và bộ đệm z
Trong thị giác máy tính, bình thường sẽ giảm các giá trị bộ đệm z, vì chúng không thể cảm nhận được trong một hình ảnh và để ghi
𝑥̃ ~ [𝑓 0 00 𝑓 0
0 0 1
00
0] 𝑝 = [𝑲 | 𝟎] 𝒑, (2.12)
trong đó K = Diag (f, f, 1) được gọi là ma trận hiệu chuẩn nội tại Ma trận
này có thể được thay thế bằng một ma trận tam giác trên tổng quát hơn K từ đó chiếm số lượng pixel nghiêng, độ lệch và vị trí trung tâm quang thay đổi [16] Tuy nhiên, trên thực tế, tỉ lệ độ dài tiêu cự đơn giản được sử dụng ở trên cung cấp kết quả chất lượng cao khi ghép ảnh từ máy ảnh thông thường
Ta sử dụng một ma trận chiếu 4 x 4, P,
𝑥̃ ~ [ 𝐾0T 01] p = P p, (2.13)
Ánh xạ 4 véc tơ đồng nhất p = (X, Y, Z, 1) tới một loại véc tơ màn hình thuần
nhất đặc biệt 𝑥̃ = (x, y, 1, d) Điều này cho phép ta biểu thị phần 3 × 3 phía trên
bên trái của ma trận chiếu P là K (làm cho nó tương thích với tài liệu thị giác máy
tính), trong khi không làm giảm hoàn toàn thông tin độ sâu màn hình nghịch đảo
DUT.LRCC
Trang 34d (đôi khi còn được gọi là độ chênh lệch d [19]) Số lượng sau này là cần thiết để
lý luận về ánh xạ giữa các hình ảnh của cảnh 3D, như được mô tả bên dưới
Hình 2.4 Một điểm được chiếu thành hai hình ảnh
(a) mối quan hệ giữa toạ độ điểm 3D (X, Y, Z, 1) và điểm chiếu 2D (x, y, 1, d); (b) phép homography phẳng gây ra bởi các điểm nằm trên một điểm chung
𝑛̂0 · p + c 0 = 0
Điều gì xảy ra khi chúng ta chụp hai hình ảnh của một cảnh 3D từ các vị trí
và/hoặc hướng camera khác nhau (Hình 2.5a)? Điểm p 3D được ánh xạ tới toạ độ
hình ảnh 𝑥̃0 trong máy ảnh 0 thông qua sự kết hợp của chuyển động 3D rigid -
Trang 35trị d0 = 0 (Hình 2.5b) Sau đó, nếu chúng ta đặt d0 = 0, chúng ta có thể bỏ qua cột cuối cùng của M10 và cũng là hàng cuối cùng của nó, vì chúng ta không quan tâm đến độ sâu bộ đệm z cuối cùng Do đó, phương trình ánh xạ giảm xuống
𝑥̃1 ~ 𝑯̃10𝑥̃0, (2.18)
trong đó 𝑯̃10 là ma trận homography 3 × 3 và 𝑥̃1 và 𝑥̃0 hiện là toạ độ đồng nhất 2D (tức là 3 vectơ) [11] Điều này chứng minh việc sử dụng phép đồng nhất
8 tham số làm mô hình liên kết chung để ghép các cảnh phẳng [17, 11]
Hình 2.5 Quay camera 3D thuần túy
Hình thức của phép đồng nhất (ánh xạ) đặc biệt đơn giản và chỉ phụ thuộc vào
ma trận xoay 3D và độ dài tiêu cự
] R10 [𝑓0
−1
𝑓0−1
1] [
𝑥0
𝑦0
1], (2.20) Hoặc
DUT.LRCC
Trang 36quay 3D 3, 4 hoặc 5 tham số tương ứng với các trường hợp tiêu cự f đã biết, cố
định hoặc biến [20] Ước tính ma trận xoay 3D (với tùy chọn, độ dài tiêu cự) được liên kết với mỗi hình ảnh về bản chất thì ổn định hơn so với ước tính homography
đủ 8 điểm d.o.f, điều này làm cho phương pháp này được lựa chọn cho các thuật toán ghép ảnh quy mô lớn [8, 18, 20]
2.2.2.2 Tham số hoá phép quay 3D
Nếu chúng ta định biểu diễn ảnh toàn cảnh bằng cách sử dụng kết hợp các phép quay và độ dài tiêu cự, thì cách tốt nhất để thể hiện các phép quay đó là gì? Các lựa chọn bao gồm:
Ma trận 3 × 3 đầy đủ R, phải được chuẩn hóa lại sau mỗi lần cập nhật;
Góc Euler (α, β, γ), là một ý tưởng tồi vì không thể luôn chuyển động trơn tru từ vòng quay này sang vòng quay khác;
Biểu diễn trục / góc (hoặc xoắn theo hàm mũ), biểu diễn chuyển động quay theo trục 𝒏̂ và góc quay θ, hoặc tích của cả hai,
𝑤⃗⃗ = θ𝒏 ̂ = (w x , w y , w z) , (2.22)
Với 3 tham số tối thiểu, nhưng vẫn không phải là duy nhất;
Và các số phức quaternion, đại điện phép quay với 4 vector đơn vị
Trang 37Sự phát triển của ghép ảnh cũng được chia thành hai giai đoạn theo các yêu cầu mới được giới thiệu bởi các ứng dụng thực tế và sự đổi mới của nhiều công nghệ khác
Trong giai đoạn đầu, một lượng lớn các tác phẩm đã được trình bày để cơ bản đáp ứng nhu cầu của các bức ảnh với góc nhìn rộng để hiển thị tốt hơn trong
DUT.LRCC
Trang 38nhiếp ảnh Những bức ảnh gốc được chụp bởi các chuyên gia sử dụng máy ảnh chuyên nghiệp Lúc đầu phương pháp trực tiếp được sử dụng rộng rãi, có hiệu quả
và đáp ứng nhanh chóng cho các ứng dụng chuyên nghiệp Hơn nữa, nhiều mô tả đặc trưng thưa “sparse feature” đã được giới thiệu nhằm phù hợp với hình ảnh một cách hiệu quả hơn Đặc biệt, hiệu suất của mô tả đặc trưng SIFT [25] đã được chứng minh trong nhiều nghiên cứu Các phương pháp dựa trên đặc trưng này kết hợp với căn chỉnh toàn cục, BA [9], và một thuật toán trộn đa băng tần để xây dựng các khung hình có góc nhìn rộng [8,9], cũng tạo ra một số ứng dụng hiệu quả, ví dụ như AutoStitch và ICE Bước đột phá thứ hai của ghép ảnh đã đạt được trong giai đoạn thứ hai, cùng với nhiều yêu cầu khác nhau và sự đổi mới nhanh chóng của công nghệ Sau khi phương pháp đa hình học dựa trên lưới được đưa
ra [13], nhiều thuật toán đã tập trung vào việc tối ưu hóa căn chỉnh và nhiều phương án tối ưu hóa hiệu quả đã được đề xuất
2.3.1 Phương pháp dựa trên Pixel
2.3.1.1 Phương pháp dựa trên phép chiếu đa dạng
Lỗi tích lũy chung thường xảy ra trong quá trình ghép một chuỗi các hình ảnh, máy ảnh bị nghiêng trong khi xoay hoặc di chuyển Kích thước của các hình ảnh được căn chỉnh giảm dần, và thậm chí có xu hướng tụ đến một điểm khi số lượng hình ảnh gốc tăng lên
Để giải quyết vấn đề này, Peleg và cộng sự đã xây dựng các hình ghép bằng cách trích xuất các dải căn chỉnh từ các bản gốc và ghép lại với nhau [4] Hướng của dòng quang là trực giao với trục của các dải được chọn và tất cả các hình ảnh được chiếu lên một đường bao của các mặt phẳng hình ảnh, ghép ảnh được thực hiện bằng cách chiếu các dải mỏng từ hình ảnh lên đa tạp (Hình 2.6) Do các hướng của luồng quang song song với nhau trong ảnh và các lỗi được gán cho từng ảnh, nên có thể tránh được lỗi tích lũy chung Trong khi đó, nhiều mô hình chuyển động hạn chế được sử dụng để tạo ra các khung nhìn cuối cùng trong một quy trình ghép nối rất nhanh, mặc dù có độ chính xác thấp hơn
DUT.LRCC
Trang 39Hình 2.6 Căn chỉnh giữa các dải đã đăng ký từ ba hình ảnh
(a), (b), và (c) Các dải là trực giao với luồng quang học (d) Các dải đã đăng ký
bị biến dạng và kéo thẳng.
2.3.1.2 Phương pháp dựa trên miền Gradient
Bởi vì thông tin gradient dễ ảnh hưởng bởi các tính năng cấp cao trong hình ảnh (ví dụ: đường nét, đường viền và cạnh) và có lợi cho việc hiểu hơn về các cảnh hình ảnh Lillian Levin và các cộng sự đã xây dựng một số phương pháp ghép khác nhau dựa trên phương pháp ghép ảnh miền gradient (GIST) [5] Trong
đó mỗi phương pháp tương ứng với một hàm số chi phí, được so sánh và đánh giá chất lượng của các hàm khác nhau[6] Phương pháp được ưa thích là tối ưu hóa L1 của hàm chi phí nhẹ trên gradient của hình ảnh gốc (GIST1), do khắc phục được các sai lệch hình học Chúng giảm thiểu số đo sự khác biệt giữa các đạo hàm của hình ảnh được ghép với các đạo hàm của hình ảnh đầu vào, các hình ảnh được đăng ký, căn chỉnh và hòa trộn trong miền gradient chứ không phải miền cường
độ và các hiện tượng tạo đường ghép nối và trùng lặp cạnh được giảm một cách hiệu quả
DUT.LRCC
Trang 40Jia và Tang [7] chỉ đăng ký một hoặc hai phân vùng tối ưu để xây dựng một tập thưa các vectơ biến dạng được xác định là đặc trưng thưa 1D trong các khu vực phân vùng và truyền biến dạng vào hình ảnh đích một cách trơn tru bằng cách giảm thiểu chi phí trong miền gradient để sắp xếp các cấu trúc hình ảnh và cường
độ
2.3.1.3 Phương pháp dựa trên đồ thị
Mike Uyttendaele và cộng sự đã xây dựng một biểu đồ để ghép các hình ảnh khi một số đối tượng di chuyển qua các vùng chồng chéo [24] Các đỉnh của biểu đồ đại diện cho các vùng chênh lệch (ROD) trong các vùng chồng chéo và các cạnh liên kết các ROD tương ứng (Hình 2.7) Các trọng số cao hơn được gán cho các đỉnh ROD lớn và trung tâm, để loại bỏ một cách có chọn lọc tất cả trừ một trường hợp của mỗi đối tượng, tránh sự gián đoạn chuyển động của các đối tượng phát sinh từ một trong hai hình ảnh bên đã chọn Mỗi hình ảnh được chia thành các bản vá, với mỗi bản vá tương ứng với một hàm truyền bậc hai được tính toán Các chức năng trong mỗi bản vá được tính trung bình với các chức năng của các bản vá lân cận chúng, và các điều chỉnh khác được thực hiện đối với các biến thể cục bộ về độ phơi sáng, sau đó các pixel được chuyển sẽ được trộn với chức năng truyền tương ứng
Hình 2.7 Vùng chênh lệch (ROD)
(Phía trên) Căn chỉnh Giữa ba hình ảnh có một đối tượng chuyển động
(Phía dưới) ROD tương ứng do đối tượng chuyển động trong ảnh gốc gây ra
DUT.LRCC