Các thuật toán dùng để sắp xếp hình ảnh và ghép chúng vào một hình ảnh ghép lớn liền mạch là một trong những thuật toán lâu đời nhất và được sử dụng rộng rãi nhất trong thị giác máy tính
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRẦN NGỌC TUẤN
NGHIÊN CỨU KỸ THUẬT GHÉP ẢNH PANORAMA TỪ
NHIỀU ĐỐI TƯỢNG ẢNH
Chuyên ngành: KHOA HỌC MÁY TÍNH
Mã số: 8480101
TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT
Đà Nẵng – Năm 2021
Trang 2ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học: TS TRẦN THẾ VŨ
Phản biện 1: TS NGUYỄN VĂN HIỆU
Phản biện 2: TS TRỊNH CÔNG DUY
Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật họp tại trường Đại học Bách khoa vào ngày 23 tháng
01 năm 2021
Có thể tìm hiểu luận văn tại:
- Trung tâm Học liệu và truyền thông, Trường ĐH Bách khoa Đại học Đà Nẵng
- Thư viên Khoa Công Nghệ Thông, Trường ĐH Bách khoa-ĐHĐN
Trang 3Các thuật toán dùng để sắp xếp hình ảnh và ghép chúng vào một hình ảnh ghép lớn liền mạch là một trong những thuật toán lâu đời nhất và được sử dụng rộng rãi nhất trong thị giác máy tính Căn chỉnh tốc độ khung ảnh được sử dụng trong mọi máy quay có tính năng ổn định hình ảnh Các thuật toán ghép ảnh tạo ra các bức ảnh ghép có độ phân giải cao được sử dụng để tạo ra các bản đồ kỹ thuật
số và ảnh vệ tinh ngày nay Hầu hết các máy ảnh kỹ thuật số hiện đang được bán trên thị trường đều được tích hợp chức năng này, và
có thể được sử dụng để tạo ra một bức ảnh panorama với góc siêu rộng
Vì lý do trên tôi quyết định chọn đề tài “Nghiên cứu kỹ thuật ghép ảnh panorama từ nhiều đối tượng ảnh”
Trang 42 MỤC TIÊU VÀ NHIỆM VỤ NGHIÊN CỨU
2.1 Mục tiêu
Nghiên cứu các phương pháp cắt ghép hình ảnh mới nhất từ đó
đưa ra các giải pháp ứng dụng để ghép ảnh panorama
2.2 Nhiệm vụ
- Nghiên cứu đặc trưng của ảnh số và các phương pháp phân tích đối sánh ảnh
- Nghiên cứu các thuật toán và các phương pháp ghép ảnh
- Xây dựng chương trình demo ứng dụng để ghép ảnh panorama
3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
3.1 Đối tượng nghiên cứu
- Các hình ảnh kỹ thuật số chất lượng cao
- Các thuật toán và kỹ thuật nhận dạng, căn chỉnh hình ảnh
- Các phương pháp trích chọn hình ảnh
- Các phương pháp ghép ảnh
3.2 Phạm vi nghiên cứu
Nghiên cứu các thuật toán ghép ảnh và phương pháp ghép ảnh
4 PHƯƠNG PHÁP NGHIÊN CỨU
4.1 Phương nghiên cứu tài liệu
- Tìm hiểu các bài báo trong và ngoài nước về ghép ảnh
- Tìm hiểu các thuật toán ghép ảnh
- Tìm hiểu các phương pháp ghép ảnh để xây dựng ứng dụng
4.2 Phương pháp nghiên cứu thực nghiệm
- Xây dựng chương trình demo dựa trên giải pháp đề xuất
- Thực nghiệm từ dữ liệu đầu vào là các hình ảnh có góc nhìn gần giống nhau
Trang 52.3 THUẬT TOÁN GHÉP ẢNH
CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ
3.1 DỮ LIỆU VÀ CÔNG CỤ THỰC NGHIỆM
3.2 THỰC NGHIỆM VÀ KẾT QUẢ
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
TÀI LIỆU THAM KHẢO
Trang 6sự liên tục về không gian và mức xám (hoặc màu) của ảnh số gần như ảnh thật Mỗi phần tử trong ma trận được gọi là một phần tử ảnh
1.1.5 Độ phân giải của ảnh
Độ phân giải (Resolution) của ảnh là mật độ điểm ảnh được ấn định trên một ảnh số được hiển thị
Trang 71.2.2 Nhận dạng ảnh
Nhận dạng ảnh là quá trình liên quan đến các mô tả đối tượng
mà người ta muốn đặc tả nó Có hai kiểu mô tả đối tượng:
- Mô tả tham số (nhận dạng theo tham số)
- Mô tả theo cấu trúc (nhận dạng theo cấu trúc)
1.2.3 Nén ảnh
Dữ liệu ảnh cũng như các dữ liệu khác cần phải lưu trữ hay truyền đi trên mạng
Phân loại phương pháp nén bao gồm:
- Dựa vào nguyên lý nén:
- Dựa vào cách thức thực hiện nén:
- Dựa vào lý thuyết mã hóa:
Trang 8- Đặc trưng cục bộ: ảnh được biểu diễn dựa trên cấu trúc cục
bộ của nó bởi một tập các mô tả đặc trưng cục bộ được trích chọn từ một tập hợp các vùng hình ảnh
1.3.4 Đặc trưng hình dạng
Hình dạng của một ảnh hay một vùng là một đặc trưng quan trọng trong việc xác định và phân biệt ảnh trong nhận dạng mẫu Có hai kiểu đặc trưng hình dạng chính thường được sử dụng:
- Những đặc trưng dựa trên biên: chỉ sử dụng đường bao ngoài của hình dạng
- Những đặc trưng vùng: sử dung toàn bộ vùng của hình dạng
Trang 9- SURF: Là viết tắt của cụm từ Speeded Up Robust Features, Được phát triển dựa trên thuật toán SIFT nhưng được cải tiến để cho tốc độ xử lý nhanh hơn giải thuật SIFT
1.4 ĐỐI SÁNH ẢNH
1.4.1 Giới thiệu
Đối sánh hai ảnh là tìm ra những vùng giống nhau trên hai ảnh Thông thường, để đối sánh ảnh cần so sánh các phần tử cơ bản tạo nên nó, thay vì đối sánh từng pixel một dẫn đến dữ liệu đầu vào quá lớn thì ta sẽ giảm dữ liệu đầu vào bằng cách đưa vào các đặc trưng của cả hai ảnh rồi tiến hành đối sánh trên các đặc trưng đó
1.4.2 Các phương pháp đối sánh ảnh
1.4.2.1 Đối sánh ảnh theo vùng
Phương pháp này còn được gọi là phương pháp tương quan hay đối sánh mẫu Phương pháp này kết hợp giữa đối sánh đặc trưng
và đối sánh thành phần Cường độ xám của ảnh được sử dụng làm cơ
sở cho việc đối sánh ảnh
1.4.2.2 Đối sánh ảnh theo đặc trưng
Phương pháp đối sánh dựa trên đặc trưng sử dụng sự biến đổi đột ngột về các giá trị mức xám tương ứng với các đặc trưng của ảnh làm cơ sở để đối sánh như cạnh, góc, hoặc điểm đặc trưng của ảnh
Kỹ thuật đối sánh dựa vào đặc trưng của ảnh về cơ bản gồm 3 bước chính:
- Chọn các điểm đặc trưng riêng biệt của ảnh (cạnh, góc, điểm) trong mỗi ảnh riêng biệt
- Xây dựng danh sách các cặp điểm đặc trưng tương ứng dựa trên độ tương đồng
- Tiến hành đối sánh và trả về kết quả tập các điểm tương đồng phù hợp với mô hình đối tượng
Trang 10CHƯƠNG 2: CĂN CHỈNH VÀ CẮT GHÉP HÌNH
ẢNH
2.1 TỔNG QUAN VỀ CĂN CHỈNH VÀ CẮT GHÉP HÌNH ẢNH
Các thuật toán ghép ảnh dùng để sắp xếp hình ảnh và ghép chúng vào một hình ảnh ghép lớn liền mạch từ một chuỗi các hình ảnh bằng cách thực hiện song song các lệnh thông qua ba giai đoạn Trong giai đoạn đầu, các mối quan hệ tương ứng giữa hình ảnh gốc được thiết lập bằng cách hiệu chỉnh trước các thông số bên trong và bên ngoài của máy ảnh hoặc ước tính mô hình chuyển động dựa trên pixel bằng cách tính toán luồng quang học, sự tương ứng trên mỗi pixel, hoặc đối sánh đặc điểm thưa thớt Bước tiếp theo, sau khi thực hiện các phép biến đổi và đăng ký ước tính giữa các hình ảnh, mặt phẳng bảo vệ được xác định bằng cách chọn mặt phẳng hình ảnh Cuối cùng, các hình ảnh đã căn chỉnh được hợp nhất với nhau trên một canvas lớn bằng cách trộn các pixel tương ứng giống nhau trong các vùng chồng chéo giữa các hình ảnh và giữ nguyên các pixel trong các vùng không chồng chéo
2.2 MÔ HÌNH CHUYỂN ĐỘNG
Trước khi có thể đăng ký và căn chỉnh hình ảnh, chúng ta cần thiết lập các mối quan hệ toán học ánh xạ tọa độ pixel từ hình ảnh này sang hình ảnh khác Có thể có nhiều mô hình chuyển động
có tham số như vậy, từ biến đổi 2D đơn giản, đến mô hình phối cảnh phẳng, xoay camera 3D, biến dạng ống kính và ánh xạ tới bề mặt phi phẳng
Trang 112.2.2.1 Ảnh xoay toàn cảnh
2.2.2.2 Tham số hoá phép quay 3D
2.3 THUẬT TOÁN GHÉP ẢNH
2.3.1 Phương pháp dựa trên Pixel
2.3.1.1 Phương pháp dựa trên phép chiếu đa dạng
Peleg và cộng sự đã xây dựng các hình ghép bằng cách trích xuất các dải căn chỉnh từ các bản gốc và ghép lại với nhau Hướng của dòng quang là trực giao với trục của các dải được chọn và tất cả các hình ảnh được chiếu lên một đường bao của các mặt phẳng hình ảnh, ghép ảnh được thực hiện bằng cách chiếu các dải mỏng từ hình ảnh lên đa tạp
2.3.1.2 Phương pháp dựa trên miền Gradient
Lillian Levin và các cộng sự đã xây dựng một số phương pháp ghép khác nhau dựa trên phương pháp ghép ảnh miền gradient (GIST) Chúng giảm thiểu số đo sự khác biệt giữa các đạo hàm của hình ảnh được ghép với các đạo hàm của hình ảnh đầu vào, các hình ảnh được đăng ký, căn chỉnh và hòa trộn trong miền gradient
Trang 122.3.1.3 Phương pháp dựa trên đồ thị
Mike Uyttendaele và cộng sự đã xây dựng một biểu đồ để ghép các hình ảnh khi một số đối tượng di chuyển qua các vùng chồng chéo
2.3.1.4 Phương pháp dựa trên độ sâu (depth-based)
Phương pháp dựa trên độ sâu kết hợp mô hình chiếu camera
và phương pháp ước tính độ sâu, và quan điểm ghép ảo trùng với một trong hai đầu vào Để tổng hợp các vùng không chồng chéo, màu được phân đoạn, độ sâu được truyền tới các phân đoạn màu liền
kề và kết nối mặt ngoài mượt mà được giữ nguyên trong các khung hình được ghép nối
2.3.2 Phương pháp dựa trên tính năng
Lowe đã trình bày một bộ mô tả tính năng thưa thớt được gọi
là biến đổi đặc trưng bất biến theo tỷ lệ (SIFT) SIFT chủ yếu bao gồm bốn giai đoạn: Dò tìm cực trị trong không gian đo, lọc và trích xuất các điểm đặc biệt, gán định hướng cho các điểm đặc trưng và bộ
mô tả điểm đặc trưng
Theo nhiều vấn đề và sự phát triển trong lĩnh vực ghép ảnh, chúng ta chủ yếu nhóm và phân loại các phương pháp cắt ghép dựa trên đặc điểm thành biến đổi đơn toàn cục và biến đổi kết hợp cục
bộ.
Hình 2.1 Phân loại đường ghép dựa trên đặc điểm
Trang 132.3.2.1 Các phương pháp biến đổi đơn toàn cục
Các phương pháp biến đổi toàn cục làm biến dạng và căn chỉnh các hình ảnh bằng cách áp dụng các mô hình biến đổi giống nhau
Brown và Lowe đã đề xuất một phương pháp tiếp cận cột mốc (milestone approach), sử dụng các kỹ thuật nhận dạng đối tượng dựa trên các đặc điểm bất biến cục bộ để đối sánh hình ảnh
Để đáp ứng các ứng dụng phức tạp hơn và giải quyết vấn đề căn chỉnh các hình ảnh chứa nhiều mặt phẳng trong các vùng chồng lấn, Gao và cộng sự đã trình bày một mô hình biến đổi đồng nhất kép
và một hình ảnh được chia thành hai mặt phẳng chính, mỗi mặt phẳng sẽ tương ứng với một phép biến đổi đồng nhất ước tính Hơn nữa, một hình ảnh được chia thành nhiều mặt phẳng, với mỗi mặt phẳng tương ứng với một phép biến đổi affine
2.3.2.2 Các phương pháp biến nạp lai cục bộ
Hình 2.2 Biến dạng và căn chỉnh hình ảnh dựa trên lưới
2.3.3 Phương pháp tạo ảnh Panorama
2.3.2.2 Trích chọn điểm đặc trưng:
Trang 14Khái niệm “Điểm đặc trưng cục bộ bất biến SIFT” Invariant Feature Transform): đã được David G Lowe đưa ra hồi năm 2004
(Scale-Hình 2.3 Thuật toán SIFT
Xác định hướng cho các điểm nổi bật
Mô tả điểm nổi bật
Xuất kết quả
Ảnh đầu vào
sai sai
đúng
Trang 15Định vị điểm nổi bật
Xác định hướng cho các điểm nổi bật
Mô tả các điểm nổi bật
Các phép xử lý trên đây đã thực hiện dò tìm và gán tọa độ, kích thước, và hướng cho mỗi điểm nổi bật Các tham số đó yêu cầu một hệ thống tọa độ cục bộ 2D có thể lặp lại được để mô tả vùng ảnh cục bộ và nhờ vậy tạo ra sự bất biến đối với các tham số đó Bước này sẽ tính toán một bộ mô tả cho môt vùng ảnh cục bộ mà có tính đặc trưng cao (bất biến với các thay đổi khác nhau về độ sáng, thu – phóng ảnh, xoay)
Cách tiếp cận này dựa trên một mô hình thị giác sinh học, cụ thể là mô hình noron phức tạp trong hệ thống não bộ Các noron sẽ tương ứng với một gradient tại một hướng và tần số không gian cụ thể, nhưng vị trí của gradient trên võng mạc được phép trượt trên một phạm vi nhỏ của khung nhìn
2.3.2.3 Tạo ảnh Panorama:
Trong bài toán tạo ảnh Panorama, ma trận Homography được tính từ tập các cặp điểm nổi bật tương ứng của hai ảnh ban đầu đã được so sánh đối chiếu ở bước hai Khi có bốn cặp điểm nổi bật tương ứng không thẳng hàng, phương trình Ah=0 theo phương pháp DLT chuẩn hóa đã trình bày ở phần trên Trong đó, A là ma trận có kích thước 8 ×9 Từ đó, ta xác đinh được ma trận h
Với ma trận Homography được tính từ bốn cặp điểm ngẫu nhiên, ta có d là khoảng cách đo mức độ gần nhau của các cặp điểm
đã được so sánh đối chiếu Với cặp điểm nổi bật tương đồng (x,x^')
và d(a ⃗,b ⃗ ) là khoảng cách của hai vector, ta có công thức khoảng cách như sau:
d=d(x ⃗,H(x^' ) ⃗ )+d((x^' ) ⃗,Hx ⃗ ) (2.34)
Trang 16Thuật toán chi tiết:
Hình 2.4 Thuật toán tạo Panorama
Xuất kết quả Tính d < d distance ?
Kiểm tra tính thẳng hàng?
Tính ma trận Homography
Chọn 4 cặp điểm nổi bật tương đồng ngẫu nhiên
Trang 172.4 KẾT LUẬN VÀ SO SÁNH
Bảng 2.2 So sánh các phương pháp trực tiếp
Trang 18Bảng 2.3 So sánh các phương pháp dựa trên tính năng khác nhau
Bảng 2.3 cho thấy sự so sánh chi tiết của các phương pháp này Các phương pháp dựa trên đặc trưng ban đầu làm biến dạng và căn chỉnh các hình ảnh bằng phương pháp biến đổi (đồng nhất hoặc liên kết) Chúng không phân biệt giữa các vùng chồng chéo và không chồng chéo, dẫn đến biến dạng và tạo bóng mờ, đồng thời làm cong hình ảnh bằng cách áp dụng các phép biến đổi khác nhau thành chồng chéo và không chồng chéo, đồng thời hoạt động tốt trên các hình ảnh hạn chế Hơn nữa, các phương pháp khác tập trung vào việc tối ưu hóa đường cắt nối, và cũng thu được kết quả tốt hơn, mặc dù cùng với các phép tính phức tạp Cuối cùng, các phương pháp tối ưu hóa căn chỉnh dựa trên lưới được giới thiệu để giải quyết các tập dữ liệu đầy thách thức, và một số phương pháp thuộc các danh mục khác
Trang 19cũng áp dụng các phương pháp này Các phương pháp này thiết kế các ràng buộc trước khác nhau để tối ưu hóa sự liên kết, mặc dù vẫn không thể tránh được sự biến dạng cục bộ do mối quan hệ kết nối
giữa các ràng buộc khác nhau
Trang 20Chương trình sử dụng biến đổi các tính năng bất biến theo tỷ
lệ (SIFT) để trích xuất các đặc trưng cục bộ của các hình ảnh đầu vào Sau đó, sử dụng thuật toán K láng giềng gần nhất để phù hợp với các đặc điểm này Chương trình sẽ sử dụng sự đồng thuận của mẫu ngẫu nhiên (Ransac) để tính toán ma trận đồng nhất, và được sử dụng để làm cong hình ảnh Cuối cùng, sử dụng một ma trận có trọng
Sau đó, chúng ta nên tìm các thông số mô hình bằng phương pháp bình phương tối thiểu và sử dụng mô hình cho độ vênh của hình ảnh trước tiên chúng ta trích xuất các tính năng và sau đó so khớp chúng lại với nhau, thường sử dụng kỹ thuật mạnh mẽ như Ransac để
Trang 21Hình 3.2 Hình ảnh đánh dấu các keypoint
Trang 22Hình 3.4 Ảnh panorama ghép thô
Trang 243.4 ĐÁNH GIÁ
Dựa vào kết quả chương trình chúng ta có thể thấy được rằng để có thể ghép ảnh panorama thì phải đảm bảo nội dung của hai ảnh phải tương tự nhau từ 10% tới 20% trở lên
Hai ảnh có vị trí chụp khác nhau thì vẫn có thể tìm được các điểm đặc trưng tương đồng và tính toán được ma trận homography Giữa hai ảnh cần phải có ít nhất là 4 điểm đặc trưng tương đồng để có thể đủ điều kiện để thực hiện thuật toán RANSAC, từ đó tìm ra ma trận homography Và để khắc phục được vấn đề này thì ta cần phải tăng ngưỡng sử dụng trong đối sánh ảnh để có nhiều điểm tương đồng hơn Số điểm tương đồng giữa hai ảnh càng lớn thì ảnh kết quả nhận được sẽ càng chính xác hơn
Từ các trường hợp đã thử nghiệm như trên, chúng ta có thể kết luận rằng bước thu nhận ảnh đầu vào đóng vai trò quan trọng và quyết định đến kết quả đầu ra của ảnh ghép
Hình 3.8 Tập dữ liệu thực nghiệm
Trang 25Ghép ảnh đã và đang được nghiên cứu trong nhiều thập kỷ
và nhiều phương pháp đã được đưa ra, nhưng hầu hết các phương pháp chỉ hoạt động tốt trên các tập dữ liệu chuẩn (tức là đường cơ sở
tự nhiên và ít hoặc không có thị sai) và một số phương pháp cố gắng giải quyết các tập dữ liệu khó khăn hơn (ví dụ: đường cơ sở rộng và thị sai lớn) bằng cách đưa ra các thuật toán phức tạp hơn Trong khi
đó, hầu hết các ứng dụng thực tế trong cuộc sống hàng ngày lại thích hợp với những giải pháp đơn giản nhất ví dụ như các thiết bị phức tạp được kết hợp với các thuật toán đơn giản như cân chỉnh máy ảnh Nhiều nghiên cứu đã chỉ ra rằng các bộ dữ liệu thực tế được ghép nối phức tạp hơn và các phương pháp hiện tại vẫn là chưa đủ