Quá trình nhận dạng ảnh sử dụng phương pháp Spartial Pyramid kết hợp SVM Support Vector Machine để phân loại ảnh vào các lớp vật thể cần nhận dạng.. Ở nhiệm vụ phân lớp ảnh có 17 nhóm t
Trang 1THIẾT KẾ HỆ THỐNG NHÚNG NHẬN DẠNG VẬT THỂ VỚI PHƯƠNG PHÁP KẾT HỢP SO KHỚP SPATIAL PYRAMID VÀ
Trang 2Cán bộ hướng dẫn khoa học : PGS.TS Hoàng Trang
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1 : GS.TS Lê Tiến Thường
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 2 : TS Bùi Trọng Tú
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 05 tháng 01 năm 2017
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)
1 TS Lê Chí Thông
2 TS Trương Quang Vinh
3 GS TS Lê Tiến Thường
4 TS Bùi Trọng Tú
5 TS Trương Công Dung Nghi
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
Trang 3NHIỆM VỤ LUẬN VĂN THẠC SĨ
Ngày, tháng, năm sinh: 02/09/1991 Nơi sinh: Quảng Ngãi
I TÊN ĐỀ TÀI: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VẬT THỂ VỚI
PHƯƠNG PHÁP KẾT HỢP SO KHỚP SPATIAL PYRAMID VÀ VEC-TƠ
HỖ TRỢ SVM
1 Tìm hiểu mô hình giải thuật Bag of Word và mô hình máy học vec-tơ hỗ trợ SVM với phương pháp so khớp phân cấp “Spatial Pyramid Matching”
2 Xây dựng hệ thống nhận dạng vật thể trên máy tính cá nhân
3 Xây dựng hệ thống nhận dạng vật thể trên BeagleBone Black
V CÁN BỘ HƯỚNG DẪN: PGS.TS Hoàng Trang
ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập – Tự do – Hạnh phúc
Trang 4dẫn và hỗ trợ em trong quá trình thực hiện luận văn Thầy đã cung cấp cho em nhiều kinh nghiệm quý báo trong quá trình nghiên cứu cũng như thực hiện luận văn
Em cũng gửi lời cám ơn đến quý thầy cô bộ môn Điện tử trường Đại học Bách Khoa TP Hồ Chí Minh đã tạo điều kiện để em có thể hoàn thành luận văn
Tôi cám ơn các tác giả của các bài viết mà tôi đã tham khảo đã cung cấp cho tôi những thông tin rất khoa học và hữu ích giúp tôi thực hiện luận văn
Tôi cũng xin cảm ơn các bạn nghiên cứu viên, học viên và các bạn sinh viên đang thực hiện công việc nghiên cứu tại phòng 116/B1 (IC design LAB) các bạn đã
hỗ trợ và giúp đỡ tôi trong công việc
Tôi gửi lời cám ơn đến gia đình, bạn bè, mọi người đã giúp đỡ, động viên tôi trong suốt quá trình thực hiện luận văn
Trang 5TÓM TẮT LUẬN VĂN THẠC SĨ
Luận văn nhận diện vật thể trong ảnh dựa trên mô hình Bag of word kết hợp
so khớp Spatial Pyramid Quá trình huấn luyện sử dụng đặc trưng Sift invariant feature transform) để xây dựng bộ từ điển theo mô hình Bag of word Quá trình nhận dạng ảnh sử dụng phương pháp Spartial Pyramid kết hợp SVM (Support Vector Machine) để phân loại ảnh vào các lớp vật thể cần nhận dạng Số lớp vật thể trong luận văn là 6 lớp Ngoài ra luận văn còn sử dụng phương pháp sliding window
(Scale-để đọc thông tin từ các vùng trong ảnh nhằm tìm kiếm vị trí của vật thể trong ảnh Luận văn thực hiện thử nghiệm huấn luyện và nhận diện ảnh với các kích thước từ điển khác nhau và các mức phân cấp nhận dạng khác nhau để đánh giá sự ảnh hưởng của hai thông số này đến kết quả nhận dạng
Luận văn thực hiện xây dựng chương trình nhận dạng vật thể trên máy tính cá nhân với hệ điều hành Ubuntu cùng với công cụ lập trình QT Creator, sử dụng ngôn ngữ C++ với sự hỗ trợ của thư viện OpenCV Bên cạnh đó luận văn cũng tìm hiểu
và xây dựng chương trình trên hệ thống nhúng BeagleBone Black
Trang 6Tôi là người thực hiện luận văn này dưới sự hướng dẫn của thầy Hoàng Trang Mọi tham khảo trong luận văn tôi đều trích dẫn rõ ràng tên tác giả, công trình, và thời gian phát hành
Mọi sao chép, gian dối vi phạm quy chế tôi xin chịu trách nhiệm
Tp Hồ Chí Minh, ngày 19 tháng 12 năm 2016
Học viên
Lý Nguyên Vương
Trang 7MỤC LỤC
LỜI CẢM ƠN iii
Chương 1: TỔNG QUAN 1
1.1 Tình hình nghiên cứu 1
1.2 Tổng quan về hệ thống nhận dạng vật thể 2
1.3 Bố cục của luận văn 4
Chương 2: CƠ SỞ LÝ THUYẾT 5
2.1 Bài toán nhận dạng ảnh 5
2.2 Các hướng tiếp cận trong bài toán nhận dạng 5
2.3 Các phương pháp trích chọn đặc trưng 7
2.3.1 Đặc trưng màu sắc 8
2.3.2 Đặc trưng kết cấu 9
2.3.3 Đặc trưng hình dạng 10
2.3.4 Đặc trưng cục bộ bất biến SIFT 11
2.4 Chia cụm K-mean 15
2.5 Bag of Words 18
2.6 Phương pháp nhận dạng SVM (Support Vector Machine) 21
2.6.1 SVM tuyến tính 22
2.6.2 SVM không tuyến tính 24
2.6.3 Lề mềm (soft margin) 25
2.7 So khớp không gian phân cấp (SPM) 26
2.7.1 So khớp phân cấp (Partial Matching) 26
2.7.2 So khớp không gian phân cấp (SPM) 28
2.8 Sliding Window: 29
2.9 Sơ lược về OpenCV: 30
Trang 82.10.1 Hệ điều hành nhúng Angstrong 35
2.10.2 Hệ thống phần cứng 36
Chương 3: THỰC HIỆN HỆ THỐNG 38
3.1 Tổng quan: 38
3.2 Tập dữ liệu dùng để nhận dạng và huấn luyện 40
3.3 Phương pháp Bag of word kết hợp sliding window 40
3.3.1 Quá trình huấn luyện: 40
3.3.2 Nhận dạng 48
3.4 Phương pháp Bag of word kết hợp Spatial Pyramid Matching 55
3.4.1 Quá trình huấn luyện 55
3.4.2 Quá trình nhận dạng: 60
Chương 4: XÂY DỰNG HỆ THỐNG TRÊN BEAGLEBONE BLACK 62
4.1 Sơ đồ hệ thống 62
4.2 Xây dựng hệ điều hành nhúng 63
4.2.1 Phân vùng ổ đĩa 63
4.2.2 U-Boot Bootloader 65
4.2.3 Boot Script 66
4.2.4 Linux Kernel 67
4.2.5 Root file system sử dụng buildroot 68
4.2.6 Booting 68
Trang 94.2.7 Buildroot cho BBB 69
4.2.8 Sử dụng Image file cho BBB 69
4.3 Biên dịch ứng dụng trên Board 70
4.3.1 Cài đặt trình biên dịch chéo 70
4.3.2 Build Qt 71
4.3.3 Thiết lập Qt Creator để biên dịch với nền tảng Qt Everywhere 73
Chương 5: KẾT QUẢ 77
5.1 Kết quả đạt được 77
5.1.1 Hoạt động của chương trình 77
5.1.2 Kết quả của chương trình 78
5.2 Kết quả thống kê 80
5.2.1 Kết quả nhận dạng với các kích thước từ điển M khác nhau 81
5.2.2 Kết quả nhận dạng với các mức phân cấp 82
5.2.3 Kết quả nhận dạng với các kích thước từ điển 84
5.2.4 So sánh kết quả của sliding window và SPM 87
5.3 Bàn luận kết quả 87
Chương 6: KẾT LUẬN VÀ KIẾN NGHỊ 89
6.1 Kết luận 89
6.2 Kiến nghị một số hướng nghiên cứu tiếp theo 90
DANH MỤC TÀI LIỆU THAM KHẢO 91
Trang 10Hình 2-2 Góc ở bức ảnh lớn hơn có thể không còn là góc nữa 12
Hình 2-3 Tính DoG ở các kích thước khác nhau của ảnh 12
Hình 2-4 Khảo sát các giá trị DoG để lọc tìm ra điểm đặc biệt 13
Hình 2-5 Ảnh với các điểm Sift 13
Hình 2-6 Vùng có kích thước 16x16 xung quanh điểm đặc biệt 14
Hình 2-7 Vùng lân cận của điểm đặc biệt được chia thành 16 ô nhỏ 15
Hình 2-8 Tính gradient hướng ở mỗi vùng con 4x4 15
Hình 2-9 Các tâm mỗi cụm được chọn ngẫu nhiên 16
Hình 2-10 Các cụm được hình thành bằng cách tìm tâm gần nhất 16
Hình 2-11 Các tâm của mỗi cụm được tính lại là các điểm trung bình của cụm đó 17
Hình 2-12 Bước 2 và bước 3 lặp lại đến khi bài toán hội tụ, tức không còn sự thay đổi tâm nữa 17
Hình 2-13 Mô hình Bag of Words 18
Hình 2-14 bộ từ điển hình ảnh hình thành bằng cách chia cụm các mô tả 19
Hình 2-15 Hình tượng mô hình BoW 20
Hình 2-16 SVM tuyến tính 22
Hình 2-17 Siêu phẳng phân cách hai tập mẫu 23
Hình 2-18 Bên trái: So khớp cục bộ giữa tập các đặc trưng Bên phải: So khớp phân cấp với đầu vào là hai tập véc tơ đặc trưng 27
Hình 2-19 Lược đồ minh họa biểu diễn không gian phân cấp 28
Hình 2-20 Ví dụ xây dựng phân cấp 3 mức 29
Hình 2-21 Ví dụ phát hiện xe đạp bằng sliding window 29
Hình 2-22 Đặc trưng Sift kết hợp với phương pháp khớp mẫu Brute-Force 31
Hình 2-23 BeagleBone Black 36
Hình 2-24 Các khối của BBB 37
Hình 3-1 Sơ đồ hệ thống nhận dạng 38
Hình 3-2 Các khối xử lý chính trong quá trình huấn luyện 40
Hình 3-3 Các bước xây dựng từ điển Sift 41
Hình 3-4 Sơ đồ giải thuật tạo từ điển BoW 44
Hình 3-5 Các bước huấn luyện SVM 45
Hình 3-6 Sơ đồ giải thuật tạo histogram có gán nhãn 46
Hình 3-7 Các bước trong quá trình nhận dạng ảnh từ cửa sổ trượt 48
Hình 3-8 Cửa sổ trượt theo phương ngang với bước dịch chuyển là 1ô 49
Hình 3-9 Sơ đồ giải thuật khối sliding window 50
Trang 11Hình 3-10 Sơ đồ giải thuật bước 1, 53
Hình 3-11 Sơ đồ giải thuật bước 2 54
Hình 3-12 Các histogram của các mức phân cấp 56
Hình 3-13 Histogram phân cấp mức 2 của ảnh 57
Hình 3-14 Sơ đồ giải thuật tạo histogram phân cấp 58
Hình 3-15 Sơ đồ giải thuật tạo histogram gán nhãn với histogram phân cấp 59
Hình 3-16 Các bước trong quá trình nhận dạng ảnh bằng SPM 60
Hình 3-17 Sơ đồ giải thuật chương trình nhận dạng bằng SPM 61
Hình 4-1 Hệ thống phần cứng 62
Hình 4-2 Hệ thống phần mềm 62
Hình 4-3 Thêm trình biên dịch ARM trên Qt 74
Hình 4-4 Chọn lựa trình biên dịch cho Qt 75
Hình 5-1 Giao diện chính của chương trình 77
Hình 5-2 Một số hình ảnh kết quả nhận dạng của hệ thống 79
Hình 5-3 Nhận dạng với hình nền phức tạp 79
Hình 5-4 Nhận dạng với vật thể chính chiếm tỉ lệ thấp trong hình 80
Hình 5-5 Nhận dạng ảnh có nhiều đối tượng 80
Hình 5-6 Kết quả nhận dạng của các lớp với các kích thước 82
Hình 5-7 Kết quả nhận dạng của các lớp với các mức phân cấp 83
Hình 5-8 Tỉ lệ các ảnh nhận dạng đúng với các mức phân cấp 84
Hình 5-9 Tỉ lệ ảnh nhận dạng đúng với kích thước từ điển và các mức phân cấp khác nhau 85
Trang 12Bảng 4-2 Kết quả nhận dạng các lớp với SVM kết hợp SPM với các mức phân cấp khác nhau 83Bảng 4-3 Tỉ lệ ảnh nhận dạng đúng với kích thước từ điển và các mức phân cấp 85Bảng 4-4 Bảng thống kê thời gian nhận dạng và huấn luyện (đơn vị: phút ) 86Bảng 4-5: Tỉ lệ ảnh nhận dạng đúng của phướng pháp SPM và Sliding window 87
Trang 13DANH SÁCH CHỮ VIẾT TẮT
Từ viết tắt Từ viết đầy đủ
Trang 14nữa, nhận dạng ảnh là một trong những bài toán cơ bản trong lĩnh vực thị giác máy tính và ứng dụng máy học đã nhận được sự quan tâm của nhiều nhà khoa học trên thế giới Hiện nay có rất nhiều cuộc thi trong lĩnh vực nhận dạng và phân lớp vật thể, nổi trội hơn cả là cuộc thi PASCAL Visual Object Classes (VOC) được tổ chức
từ năm 2005 đã qui tụ được rất nhiều nhóm nghiên cứu trên toàn thế giới tham gia Hình 1-1 thể hiện kết quả nhiệm vụ phân lớp ảnh của các nhóm ở cuộc thi PASCAL Visual Object Classes vào năm 2012 Ở nhiệm vụ phân lớp ảnh có 17 nhóm tham gia, đa phần các nhóm đều sử dụng phương pháp túi đặc trưng kết hợp với phương pháp trích đặc trưng SIFT để huấn luyện và nhận dạng bằng mô hình SVM
Hình 1-1 Kết quả VOC 2012 [26]
Trang 151.2 Tổng quan về hệ thống nhận dạng vật thể
“Nhận dạng vật thể” tức là tìm và xác định vật thể trong bức ảnh hoặc video Đây là đề tài rộng và tham vọng trong thị giác máy tính Tuy nhiên nó lại là vấn đề cốt lõi và lâu đời của ngành này
Bài toán nhận dạng vật thể có rất nhiều thách thức từ việc ảnh được chụp dưới nhiều góc độ khác nhau, điều kiện chiếu sáng khác nhau, sự đa dạng các thể hiện của cùng một lớp vật thể cũng như sự phức tạp của thông tin nền trong ảnh Để giải quyết bài toán nhận dạng vật thể có 4 hướng tiếp cận, đó là so khớp mẫu, nhận dạng thống kê, nhận dạng dựa vào cấu trúc và nhận dạng theo mạng nơron
Trong đó, hướng tiếp cận dựa trên so khớp mẫu được áp dụng rộng rãi và mang lại kết quả cao trong bài toán nhận dạng ảnh nói riêng và trong thị giác máy tính nói chung
Thông thường để biểu diễn một đối tượng ta thường biểu diễn nó từ những đặc trưng hoặc từ những bộ phận cấu thành Trong thị giác máy tính, một hình ảnh có thể được mô tả bởi các đặc trưng cục bộ được trích chọn từ các điểm hấp dẫn “nhô ra” (salient interest points) của ảnh Tương tự như trong xử lý ngôn ngữ tự nhiên, các tài liệu và chủ đề được đặc trưng bởi túi các từ (bag of words), trong thị giác máy tính các ảnh được đặc trưng bởi túi các đặc trưng Tuy nhiên, việc đánh giá độ giống nhau giữa các mẫu theo phương pháp này là một thách thức khi tập các đặc trưng gồm nhiều yếu tố, các yếu tố không có thứ tự Để so sánh tập các đặc trưng này, các nhà nghiên cứu thường cố gắng sử dụng những giải pháp phù hợp tốn ít chi phí nhất, tuy nhiên đây lại là những tính toán tốn kém và trở nênkhông khả thi khi tập này có kích thước lớn Những phương pháptrước đây nhận đầu vào là các véctơ với mỗi chiều tương ứng là một đặc trưng toàn cục riêng biệt Nhược điểm của những phương pháp này là không tính tới vị trí tương đối của các đặc trưng, giải quyết với những đặc trưng tương ứng rõ ràng, điều này làm cho việc tính toán tốn kém, hạn chế việc sử dụng những đầu vào có phạm vi lớn; Do đó để cải thiện những nhược điểm này Kristen Grauman và Trevor Darrell đã phát triển phương pháp so khớp phân cấp (Pyramid Matching – viết tắt là PM) – một hàm so khớp thời gian
Trang 16dạng vât thể” dựa trên mô hình túi đặc trưng (Bag of Word) với phương pháp kết
hợp so khớp phân cấp (spatial pyramid matching) và máy véc-tơ hỗ trợ (SVM)
Mục tiêu nghiên cứu:
o Nghiên cứu trích chọn đặc trưng cục bộ bất biến (Scale Invariant Feature Transform – SIFT)
o Tìm hiểu phương pháp Spatial Pyramid Matching
o Nghiên cứu phương pháp học máy SVM
o Nghiên cứu phương pháp sliding window
o Xây dựng chương trình demo từ những nghiên cứu và tìm hiểu nói trên
Trang 171.3 Bố cục của luận văn
Nội dung chính của luận văn được tổ chức thành 6 chương
Chương 1: Tổng quan Trình bày tình hình nghiên cứu, lý do chọn đề tài, mục
đích, đối tượng và phạm vi nghiên cứu, ý nghĩa thực tiễn và khoa học của đề tài
nghiên cứu
Chương 2: Cơ sở lý thuyết Trình bày những lý thuyết cơ bản về bài toán nhận
dạng ảnh, các phương pháp trích chọn đặc trưng, mô hình Bag of word, so khớp phân cấp không gian SPM, phương pháp sliding window và phương pháp học máy SVM được sử dụng trong luận văn Bên cạnh đó còn trình bày lý thuyết hệ thống nhúng
Chương 3: Thực hiện hệ thống Mô tả cách xây dựng hệ thống nhận dạng của
luận văn và các công việc đã thực hiện trên máy tính các nhân
Chương 4: Xây dựng hệ thống trên BeagleBone Black Mô tả cách xây dựng hệ
thống trên board nhúng BeagleBone Black
Chương 5: Kết quả Trình bày các kết quả của luận văn Bàn luận về kết quả thu
được
Chương 6: Phần kết luận và kiến nghị Tổng kết những kết quả đã đạt được của
luận văn và hướng phát triển nghiên cứu tiếp theo
Trang 18loại các đối tượng được biểu diễn theo một mô hình nào đó vào một lớp dựa theo quy luật và các mẫu chuẩn Quá trình bao gồm việc xác định các lớp của đối tượng sao cho có thể phân biệt
Hệ thống nhận dạng sẽ thực hiện 2 việc: huấn luyện và nhận dạng Trong quá trình huấn luyện, các đặc trưng sẽ được trích chọn phù hợp cho việc biểu diễn và bộ phân loại sẽ được huấn luyện để phân chia không gian đặc trưng Quá trình nhận dạng, bộ phân loại đã được huấn luyện gán một mẫu đầu vào vào một trong các lớp dựa trên các đặc trưng đó
Một mô hình sẽ được xây dựng dựa trên các dữ liệu huấn luyện và mô hình
này sẽ được sử dụng để phân loại một dữ liệu mới vào các lớp
Hình 2-1 Quá trình huấn luyện và nhận dạng của hệ thống nhận dạng
2.2 Các hướng tiếp cận trong bài toán nhận dạng
Có 4 hướng tiếp cận chính cho bài toán nhận dạng :
o Nhận dạng dựa vào so khớp mẫu
o Nhận dạng thống kê
Trang 19o Nhận dạng dựa vào cấu trúc
o Nhận dạng dựa vào mạng nơron Trong các phương pháp trên thi phương pháp so khớp mẫu được sử dụng rộng rãi bởi tính dễ thực thi của nó
So khớp là một thuật toán chung trong nhận dạng, nó được sử dụng để xác định những điểm giống nhau giữa hai thực thể (các điểm, các góc, hình dạng…) Trong so khớp mẫu, các mẫu cần nhận dạng là biết trước và được so khớp với các mẫu đã lưu trữ, có tính tới các trường hợp mẫu bị quay, thay đổi tỉ lệ và bị tịnh tiến Ngày nay với phương pháp so khớp mẫu, có rất nhiều cách để xây dựng bộ từ điển nhưng nổi trội hơn cả là mô hình Bag of word Mô hình này có ưu điểm là đơn giản, dễ nắm bắt, nhưng lại không đánh giá yếu tố không gian trong nhận diện vật thể, do đó kết quả không được chính xác
Bag of Words được sử dụng trong thị giác máy tính, và xử lý ngôn ngữ tự nhiên Những ý tưởng đầu tiên về phương pháp này được đề xuất bởi Zellig Harris Năm 1999, David Lowe đã phát minh ra giải thuật Sift với khả năng mô tả ảnh mạnh mẽ Từ đó Bag of Words có khuynh hướng sử dụng đặc trưng Sift để tạo các
“Words” Có rất nhiều đề tài nghiên cứu theo hướng này đạt được kết quả khả quan Đầu tiên phải kế đến đề tài của tác giả Gabriella Csurka[3], đề tài này sử dụng mô hình BoW cơ bản kết hợp với việc khảo sát hiệu quả của phương pháp Bow khi đi kèm với các phương pháp phân lớp SVM và Bayes Một số tác giả tìm cách khắc phục nhược điểm của BoW bằng cách kết hợp BoW với các yếu tố không gian, điển hình là tác giả S Lazebniksử dụng phương pháp khớp mẫu Spatial Pyramid [4] trong phân loại cảnh quan ảnh và Leibe với phương pháp Implicit Shape Model[5]
Mô hình BoW sử dụng nhiều thông số thay đổi khác nhau, nghiên cứu của tác giả Jun Yang đã đánh giá sự thay đổi của một số thông số trong mô hình ảnh hưởng đến kết quả nhận dạng [6]
Trang 20anh Luân văn tiến hành khảo sát độ ảnh hưởng của mức phân cấp và kích thước từ điển đến chất lượng nhận dạng
2.3 Các phương pháp trích chọn đặc trưng
Trong nhận dạng ảnh, việc lựa chọn các đặc trưng thích hợp với từng loại truy vấn và miền ứng dụng cùng với các độ đo tương đồng tưong ứng là thành phần quan trọng và then chốt nhất Việc lựa chọn các đặc trưng và độ đo thích hợp sẽ giúp tăng cả tốc độ và mức độ chính xác của các hệ thống J.V.Jawahe và cộng sự [24] đã nêu ra các yêu cầu cơ bản đối với thành phần lựa chọn đặc trưng cho ảnh:
Thành phần lựa chọn đặc trưng phải lựa chọn được một tập các đặc trưng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh Nếu số lượng các đặc trưng quá nhiều sẽ làm “che khuất” các “tín hiệu” (giảm các “tín hiệu” đối với tỉ lệ nhiễu), mặt khác, nếu số lượng các đặc trưng quá ít sẽ khó phân biệt được ảnh trong tìm kiếm
Nó phải giảm bớt được độ phức tạp trong lúc tính toán tổng thể bằng giảm đa chiều của bài toán phân lớp
Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy vấn, thì việc sử dụng các đặc trưng này phải hiệu quả Vì số lượng các đặc trưng có thể là hàng ngàn, dó đó thời gian xử lý của module phải tuyến tính với số lượng đặc trưng
Vì thời gian xử lý của thành phần lựa chọn đặc trưng tuyến tính với số lượng đặc trưng, do đó việc lựa chọn các đặc trưng cũng nên tuyến tính dựa trên phân lớp
Trang 21 Thành phần lựa chọn đặc trưng có thể xử lý được với kích thước tập mẫu nhỏ (khoảng 5 mẫu)
Trong phần này, chúng tôi sẽ trình bày sơ bộ về các vấn đề về đặc trưng của ảnh(màu sắc, kết cấu, hình dạng, đặc trưng cục bộ SIFT), một số độ đo tương đồng tương ứng với các đặc trưng và phương pháp lựa chọn đặc trưng ảnh để tăng chất lượng tập đặc trưng
2.3.1 Đặc trưng màu sắc
Nhận dạng ảnh theo lược đồ màu là phương pháp phổ biến và được sử dụng nhiều nhất trong các hệ thống tìm kiếm ảnh theo nội dung Đây là phương pháp đơn giản, tốc độ tìm kiếm tương đối nhanh tuy nhiên kết quả tìm kiếm có độ chính xác không cao Đây có thể xem là bước lọc đầu tiên cho những bước xử lý sau Một số lược đồ màu được sử dụng như: lược đồ màu RGB, lược đồ màu HSI, lược đồ HSI cải tiến Trong đó, lược đồ màu RGB được sử dụng phổ biến nhất
Lược đồ màu RGB: Đối với ảnh 256 màu, lược đồ màu của ảnh tương đương với lược đồ màu của ảnh xám Đối với ảnh 24 bit màu, lược đồ miêu tả khả năng kết nối về cường độ của ba kênh màu R, G, B Luợc đồ màu này được định nghĩa như sau:
ℎ𝑅,𝐺,𝐵[𝑟, 𝑔, 𝑏] = 𝑁 ∗ 𝑃𝑟𝑜𝑏(𝑅 = 𝑟, 𝐺 = 𝑔, 𝐵 = 𝑏) (3.1)
Trong đó N là số lượng điểm có trong ảnh
Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh, sau
đó đếm số điểm ảnh của mỗi màu Khi mà số lượng màu là có hạng, để thuận
tiện hơn, người ta thường chuyển đổi ba kênh màu thành một biến giá trị duy
nhất Một cách khác để tính lược đồ màu của ảnh RGB là ta phân ra làm 3 lượt
đồ riêng biệt 𝒉𝑹[ ], 𝒉𝑮[ ] , 𝒉𝑩[ ] Khi đó, mỗi lược đồ được tính bằng cách
đếm kênh màu tương ứng trong mỗi điểm ảnh
Độ tương đồng vể màu sắc
Trang 22o Khoảng cách Ơclit:
Đây là khoảng cách Ơclit thông thường giữa các K bin:
𝐼𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑡𝑖𝑜𝑛(ℎ(𝐼), ℎ(𝑀)) = ∑𝑘 √(ℎ(𝐼) − (ℎ(𝑀))2
o Độ đo Jensen-Shannon divergence (JSD):
Độ đo Jensen-Shannon divergence sử dụng lược độ màu RGB để tính toán
độ tương đồng về màu sắc giữa 2 ảnh:
2.3.2 Đặc trưng kết cấu
Hiện tại, vẫn chưa có một định nghĩa chính thức cụ thể về kết cấu Kết cấu là một đối tượng dùng để phân hoạch ảnh ra thành những vùng quan tâm để phân lớp những vùng đó Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc và cường độ một ảnh Kết cấu được đặc trưng bởi sự phân bổ không gian của những mức cường độ trong một khu vực láng giềng với nhau Kết cấu gồm các kết cấu gốc hay nhiều kết cấu gộp lại đôi khi gọi là texel
o Một số phương pháp dùng để trích xuất các đặc trưng kết cấu như [25]:
- Kim tự tháp "có thể lái được" (the steerable pyramid)
- Biến đổi đường viền (the cotourlet transform)
- Biến đổi sóng Gabor (The Gabor Wavelet transform)
- Biểu diễn ma trận đồng hiện (co-occurrence matrix)
- Hệ thống bộ lọc định hướng phức tạp (The complex directional fillter bank)
Trang 23Để đo độ tương đồng theo kết cấu giữa các ảnh, người ta thường sử dụng độ
đo Ơclit Kết cấu được trích xuất từ các bức ảnh sẽ được biểu diễn thành các vector
nhiều chiều và khoảng cách Ơclit được dùng để đo độ tương đồng giữa các đặc
trưng của ảnh truy vấn với đặc trưng của ảnh trong cơ sở dữ liệu
2.3.3 Đặc trưng hình dạng
Màu sắc và kết cấu là những thuộc tính có khái niệm toàn cục trong một ảnh Trong khi đó, hình dạng không phải là một thuộc tính của ảnh Nói tới hình dạng không phải là nhắc đến hình dạng của một ảnh Thay vì vậy, hình dạng có khuynh hướng chỉ đến một khu vực đặc biệt trong ảnh, hay hình dạng chỉ là biên của một đối tượng nào đó trong ảnh
Trong nhận dạng ảnh, hình dạng là một cấp cao hơn so với màu sắc và kết cấu Nó đòi hỏi sự phân biệt giữa các vùng để tiến hành xử lý về độ đo của hình dạng Các hệ thống tìm kiếm ảnh theo nội dung thường khai thác hai nhóm biểu diễn hình dạng sau :
- Biểu diễn hình dạng theo đường biên (cotour-based descriptor) : Biểu diễn các đường biên bao bên ngoài
- Biểu diễn theo vùng (region-based descriptor): Biểu diễn một vùng toàn vẹn
o Độ đo tương đồng cho hình dạng
Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý ảnh
Chúng trải rộng từ những độ đo toàn cục dạng thô với sự trợ giúp của việc
nhận dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những hình
dạng đặc biệt Lược đồ hình dạng là một ví dụ của độ đo đơn giản Kỹ thuật dùng
đường biên hiệu quả hơn phương pháp trước, chúng tìm kiếm những hình dạng đối
tượng gần giống với đường biên nhất Phương pháp vẽ phác họa là phương pháp có
nhiều đặc trưng rõ ràng hơn, không chỉ tìm kiếm những đường biên đối tượng đơn,
mà còn đối với tập những đối tượng đã được phân đoạn trong một ảnh mà người
dung vẽ hay cung cấp
Trang 24loại hoặc để tính độ tương tự giữa các ảnh với nhau Có rất nhiều dạng đặc trưng được đề xuất và sử dụng trong phân loại ảnh Trong phạm vi luận văn, tôi chọn sử dụng đặc trưng cục bộ bất biến, viết tắt là SIFT làm đặc trưng biểu diễn ảnh
SIFT là một giải thuật mạnh mẽ trong lĩnh vực nhận diện vật thể Bởi vì mô tả của đặc trưng SIFT không bị biến đổi với các kích thước ảnh khác nhau, các hướng xoay khác nhau và thậm chí có thể không biến đổi trong điều kiện ánh sáng khác nhau và méo dạng
Phương pháp trích chọn đặc trưng SIFT được tiếp cận theo phương pháp thác lọc, theo đó phương pháp được thực hiện lần lượt theo các bước sau:
Xác định vị trí điểm đặc biệt (Key localization):
Ảnh đầu vào được nhân tích chập với bộ lọc Gaussian với các giá trị 𝜎 khác nhau để tạo ra ảnh mới với các độ mờ khác nhau
Với 𝐼(𝑥, 𝑦) là ảnh đầu vào và 𝐺(𝑥, 𝑦, 𝜎) là bộ lọc Gaussian với số 𝜎
DoG (Difference of Gaussian) là phương pháp dùng để nổi rõ các chi tiết của ảnh
Trong phương pháp xác định góc Harris, ta thấy rằng vẫn có thể phát hiện ra góc nếu ảnh bị xoay Tuy nhiên khi ảnh bị thay đổi kích thước, một góc có thể không còn là một góc nữa Như hình minh họa bên dưới đây:
Trang 25Hình 2-1 Góc ở bức ảnh lớn hơn có thể không còn là góc nữa [7]
Như ví dụ ở trên ta thấy khi ảnh thay đổi kích thước, một yếu tố nào đó có thể không còn là bất biến nữa Do vậy để tìm được yếu tố bất biến qua nhiều kích thước ảnh khác nhau, ta cần khảo sát DoG ở nhiều kích thước ảnh
Hình 2-2 Tính DoG ở các kích thước khác nhau của ảnh [7]
Khi DoG đã được xác định, mỗi pixel trong ma trận DoG sẽ được so sánh với
8 pixel ở xung quanh nó và 9 pixel ở Scale tiếp theo và Scale trước đó Nếu một điểm là điểm lớn nhất hoặc nhỏ nhất trong các lân cận mà nó so sánh thì nó là điểm đặc biệt tiềm năng
Trang 26Hình 2-3 Khảo sát các giá trị DoG để lọc tìm ra điểm đặc biệt
Tính vị trí chính xác các điểm đặc biệt:
Một số điểm đặc biệt đã tìm ở bước trước không ổn định Bước này sẽ trình bày cách tính toán vị trí các điểm một cách chính xác hơn
Các điểm có độ tương phản thấp hoặc vị trí nằm trên cạnh cũng bị loại bỏ
Hình 2-4 Ảnh với các điểm Sift [23]
Tính mô tả địa phương của điểm đặc biệt:
Người ta sử dụng một vùng lân cận 16x16 xung quanh điểm đặc biệt để tính toán mô tả của nó
Trang 27Ô 16x16 được phân thành 4 ô con, mỗi ô con lại có kích thước 4x4
Với mỗi ô con kích thước 4x4,độ lớn của gradient hướng được tính Những sự định hướng này được xếp vào 8 loại: 0-44 độ, 45-89 độ, 90-134 độ,…Người ta lập histogram theo 8 loại Như vậy ta đã tính độ định hướng của 16 pixel để tạo thành histogram 8 loại Ta tốn 8 giá trị để mô tả histogram 8 loại này
Làm tương tự với tất cả 16 ô kích thước 4x4 ta cần 16x8 = 128 giá trị để mô
tả
Như vậy với mỗi điểm đặc biệt ta trích xuất được một vector có 28 giá trị để
mô tả lân cận xung quanh đó Vector đó ta gọi là Descriptor
Hình 2-5 Vùng có kích thước 16x16 xung quanh điểm đặc biệt [9]
Trang 28Hình 2-6 Vùng lân cận của điểm đặc biệt được chia thành 16 ô nhỏ.[9]
Hình 2-7 Tính gradient hướng ở mỗi vùng con 4x4.[9]
2.4 Chia cụm K-mean
Phân cụm k-mean là một phương pháp lượng tử tử vector Mục đích của
phương pháp này là phân n mẫu đầu vào thành k cụm mà trong từng cụm mà mỗi
mẫu gần với điểm trung vị của cụm đó nhất so với điểm trung vị của các cụm còn
lại
Trang 29 Phương pháp thực hiện:
o K điểm trung vị được chọn ngẫu nhiên trong miền dữ liệu
o Tính khoảng cách giữa các mẫu đầu vào và k điểm trung vị Khoảng cách nào gần nhất ta sẽ phân mẫu đầu vào vào cụm đó
o Tính điểm trung vị mới của k cụm mới tạo thành
o Lặp lại bước 2 và bước 3 cho đến khi không có sự thay đổi cụm giữa các điểm đầu vào xảy ra Tức bài toán đã hội tụ
Các đặc điểm nổi bật của phương pháp k-mean:
o Khoảng cách Euclide được dùng để xác định khoảng cách giữa các điểm trong thuật toán
o Chỉ số k là chỉ số đầu vào do người dùng chọn Việc xác định k không chính xác sẽ dẫn đến kết quả sai lệch rất nhiều so với thực tế
Hình 2-8 Các tâm mỗi cụm được chọn ngẫu nhiên [10]
Hình 2-9 Các cụm được hình thành bằng cách tìm tâm gần nhất [10]
Trang 30Hình 2-10 Các tâm của mỗi cụm được tính lại là các điểm trung bình của
cụm đó [10]
Hình 3-0-11 Bước 2 và bước 3 lặp lại đến khi bài toán hội tụ, tức không còn
sự thay đổi tâm nữa.[10]
Ứng dụng của chia cụm k-mean:
o Lượng tử hóa vector:
k-mean được sử dụng trong lĩnh vực xử lý tính hiệu Ví dụ, trong lĩnh vực đồ họa máy tính, k-mean được sử dụng để giảm số màu
sử dụng của một bức ảnh thành số chính xác là k k-mean được sử dụng trong việc này và thường cho kết quả rất tốt
o Phân tích cụm:
Trong phân tích cụm, k-mean được sử dụng để phân các dữ liệu đầu vào k cụm khác nhau Tuy nhiên thuật toán k-mean không được linh hoạt và có nhiều hạn chế Trong thực tế việc bắt buộc phải chọn được thông số k chính xác ngay từ đầu là rất khó thực hiện Việc sử dụng khoảng cách euclide để tính toán cũng không
Trang 31được chính xác Do đó rất nhiều thuật toán mới được phát triển để khắc phục những khuyết điểm đó
o Học đặc trưng (Feature learning):
Phân cụm k-mean được sử dụng trong bước học đặc trưng để tạo từ điển Phương pháp cơ bản nhất là phân các mẫu huấn luyện đầu vào (chưa được gán nhãn) thành k cụm khác nhau nhằm tạo lập từ điển
2.5 Bag of Words
Hình 2-12 Mô hình Bag of Words.[11]
Trong thị giác máy tính, Bag of Words(BoW) thường được dùng để phân loại ảnh, vật thể trong ảnh bằng cách coi đặc trưng của ảnh như một từ Trong bài toán phân lớp BoW là một vector biểu diễn histogram của các từ
Trang 32 Biểu diễn đặc trưng:
Ảnh đầu vào được phát hiện các đặc trưng Các đặc trưng trong ảnh có thể là đặc trưng Sift, Surf, Harris, … Các đặc trưng đó được biểu diễn dưới dạng vector
Ví dụ đặc trưng Sift của một điểm được biểu diễn bằng một vector có 128 giá trị Trong các loại biểu diễn đặc trưng, phương pháp Sift là nổi tiếng nhất hiện nay
Tạo bộ từ điển:
Số lượng lớn các ảnh dùng để huấn luyện sẽ được trích xuất đặc trưng Các đặc trưng này sau đó sẽ được chia cụm để tạo lặp bộ từ điển Mỗi cụm là tập hợp một số các đặc trưng có giá trị gần giống nhau Phương pháp chia cụm phổ biến nhất là phương pháp k-mean Mỗi từ trong bộ từ điển là điểm trung tâm của cụm
Số lượng các cụm là số từ trong bộ từ điển
Hình 2-13 bộ từ điển hình ảnh hình thành bằng cách chia cụm các mô
tả.[13]
Trang 33 Huấn luyện dựa trên BoW:
Các ảnh đã gán nhãn sẽ được sử dụng để huấn luyện Các ảnh này sẽ qua quá trình trích đặc trưng để tạo thành vector
Mỗi vector đặc trưng sẽ được khớp với một từ trong bộ từ điển Có nhiều phương pháp khớp khác nhau, nhưng đơn giản nhất là phương pháp điểm gần nhất Tức là đặc trưng sẽ được khớp với từ có khoảng cách Euclide gần nó nhất
Mỗi ảnh được mô tả bởi nhiều vector đặc trưng, mỗi vector đặc trưng khớp với một từ Do đó mỗi ảnh huấn luyện sẽ được biểu diễn bởi một tập hợp các từ có trong từ điển Ta sẽ lập histogram từ của ảnh Ví dụ kích thước từ điển là 1000 từ, thì mỗi ảnh sẽ được biểu diễn bởi một vector có 1000 phần tử để biễu diễn histogram các từ
Các vector histogram này sẽ được lưu trữ và gán nhãn để tạo ra máy học phân lớp
Hình 2-14 Hình tượng mô hình BoW [12]
Trang 34này là vì BoW không quan tâm đến vị trí không gian của các điểm Sift trong ảnh Vật thể cần nhận diện sẽ xuất hiện với rất nhiều góc cạnh khác nhau trong ảnh nên đôi khi việc mô tả vị trí không gian của từng
bộ phận vật thể trong ảnh làm khả năng nhận dạng vật thể bị bó hẹp lại
Khuyết điểm của mô hình Bag of Words:
o Không xác định được vị trí của đối tượng trong ảnh
o Không tính đến ảnh hưởng của yếu tố không gian trong ảnh Do đó chất lượng nhận dạng đôi khi không được cao Trong nhiều trường hợp việc không tính đến yếu tố không gian lại là khuyết điểm Ví dụ như trong việc nhận dạng khung cảnh
o Không nhận dạng được vật thể trong ảnh có nhiều vật thể khác nhau
2.6 Phương pháp nhận dạng SVM (Support Vector Machine)
Trong những năm gần đây phương pháp nhận dạng Support Vector Machine (SVM) đã thu hút được sự quan tâm nghiên cứu của các nhà khoa học và đã đạt những kết quả nhận dạng tốt trong nhiều bài toán nhận dạng Trong nhiều trường hợp, chẳng hạn như nhận dạng chữ viết quang học offline, SVM đã đạt những kết quả ngang bằng các phương pháp truyền thống như mạng Neural
Phương pháp SVM được Vapnik đề xuất vào năm 1995 Đây là một phương pháp dựa trên lý thuyết học thống kê (Statistical Learning Theory) nên có một nền tảng toán học chặt chẽ để bảo đảm rằng kết quả đạt được tối ưu Ý tưởng chính của SVM là chuyển tập mẫu từ không gian biểu diễn Rn của chúng sang một không gian Rd có số chiều lớn hơn Trong không gian Rd tìm một siêu phẳng tối ưu để
Trang 35phân hoạch tập mẫu này dựa trên phân lớp của chúng, cũng có nghĩa là tìm ra miền phân bố của từng lớp rong không gian biễu diễn Rn, để từ đó xác định được phân lớp của một mẫu cần nhận dạng
Cũng như mạng Neural, phương pháp SVM là một phương pháp có tính tổng quát cao, có thể áp dụng cho nhiều loại bài toán nhận dạng khác nhau
2.6.1 SVM tuyến tính
Xét trường hợp việc phân chia hai lớp mẫu có thể được phân chia hoàn toàn bằng một siêu phẳng tuyến tính (hình 3-15) Việc phân lớp tuyến tính là tìm ra một siêu phẳng H (w.x+ b = 0) với khoảng cách giữa H1 và H2 là lớn nhất
Hình 2-15 SVM tuyến tính [14]
Giai đoạn huấn luyện SVM
Giả sử tập mẫu có được gồm l phần tử là:
(𝑥1, 𝑦1), (𝑥2, 𝑦2), … (𝑥𝑛, 𝑦𝑛)
Trong đó 𝑥𝑖 ∈ 𝑅𝑛 є còn 𝑦𝑖 ∈ {-1;1} là phân lớp của 𝑥𝑖
Cần xác định được siêu phẳng mà có thể tách biệt được hai lớp trên Có thể có
siêu phẳng như vậy và vấn đề là cần tìm ra siêu phẳng nào làm cho khoảng cách
Trang 36Hình 2-16 Siêu phẳng phân cách hai tập mẫu [15]
Giả sử phương trình siêu phẳng cần tìm là w.x+ b= 0 trong đó w là pháp vector
của siêu phẳng w ∈ 𝑅𝑛 Ta có hai bất phương trình sau:
{𝑤𝑥𝑖+ 𝑏 ≤ −1 𝑣ớ𝑖𝑦𝑖 = −1
Kết hợp hai bất phương trình trên ta được:
Lúc đó những support vector 𝑥𝑖 thỏa mãn phương trình (𝑤𝑥𝑖+ 𝑏)= -1 thì nằm
trên siêu phẳng 𝐻1 , phương trình (𝑤𝑥𝑖 + 𝑏)=1 thì nằm trên siêu phẳng 𝐻2
Khoảng cách có dấu từ gốc tọa độ đến là: 𝑑1=(1-b)/||w|| (3.5)
Khoảng cách có dấu từ gốc tọa độ đến là: 𝑑2= (-1-b)/||w|| (3.6)
Trang 37Suy ra khoảng cách phân hoạch d giữa𝐻1 và𝐻2 là: d = |𝑑1 -𝑑2 |=2/||w|| (3.7)
Do đó để có d lớn nhất thì ||w|| phải nhỏ nhất hay nói cách khác phải đi tìm cực
tiểu của1
2||w|| 2 Việc tìm cực tiểu sẽ là quá trình đi tìm w và b từ đó tìm ra siêu
phẳng H Kết quả của bài toán này theo [14]
Sau khi tìm ra siêu phẳng phân chia tập mẫu, việc nhận dạng một mẫu x là
việc xác định xem x thuộc phân lớp nào Phân lớp y của x (-1 hoặc +1) được
𝑓(𝑥) = ∑𝑛𝑖=1𝑢𝑖𝑦𝑖𝐾(𝑥𝑖, 𝑥) + 𝑏 (3.11)
Trang 39Kết quả trong phương pháp C-SVM
𝑀𝑖𝑛𝜉,𝑤,𝑏 = [1
2⟨𝑤𝑇|𝑤⟩ + 𝐶 ∑𝑙𝑖=1𝜉𝑖] (3.17) Với C là hằng số dương cho trước
Kết quả trong phương pháp v-SVM
Trong đó ν ∈ (0, 1] là ngưỡng giữa lỗi huấn luyện và vector hỗ trợ
2.7 So khớp không gian phân cấp (SPM)
Sau khi đã xác định được đặc trưng, chẳng hạn đặc trưng SIFT như mô tả ở trên, ta có thể so sánh hai ảnh với nhau bằng cách xác định các đặc trưng SIFT giống nhau giữa hai ảnh Hai ảnh càng có chung nhiều đặc trưng SIFT giống nhau càng được coi là giống nhau Tuy nhiên cách so sánh như vậy không tính tới vị trí tương đối của các vùng giống nhau giữa hai ảnh Trong phần này, tôi sẽ giới thiệu một phương pháp cho phép phần nào sử dụng được các thông tin về vị trí tương đối giữa các vùng giống nhau giữa các ảnh Phương pháp có tên Spatial Pyramid Matching, viết tắt là SPM
2.7.1 So khớp phân cấp (Partial Matching)
Sau khi trích chọn đặc trưng thì mỗi ảnh được đại diện bởi tập các véc tơ đặc trưng trong không gian d chiều Như vậy việc so sánh hai ảnh với nhau trở thành việc đánh giá độ tương đồng của hai tập véc tơ đặc trưng Gọi X, Y là hai tập véc tơ đặc trưng trong không gian d chiều Grauman và Darrell đã đề xuất phương pháp so khớp phân cấp (viết tắt là PM) để ước lượng độ tương đồng giữa hai tập véc tơ này
Trang 40Hình 3-0-17 Bên trái: So khớp cục bộ giữa tập các đặc trưng Bên phải: So
khớp phân cấp với đầu vào là hai tập véc tơ đặc trưng.[17]
Cụ thể, chúng ta xây dựng một chuỗi lưới điểm tại các độ phân giải 0, 1, …L;
Như vậy lưới điểm ở mức l có 2𝑙 vùng con dọc theo mỗi chiều, tổng số sẽ có D =
2𝑑𝑙 vùng con Gọi𝐻𝑋𝑙(𝑖) và 𝐻𝑌𝑙(𝑖)là histogram của X và Y tại lưới điểm này, do
đó𝐻𝑋𝑙(𝑖) và 𝐻𝑌𝑙(𝑖) là số điểm của tập X và Y rơi vào vùng con thứ i của lưới điểm
Số lượng so khớp tại mức l được cho bởi hàm histogram intersection:
𝐼(𝐻𝑋𝑙, 𝐻𝑌𝑙) = ∑𝐷𝑙=1min (𝐻𝑋𝑙(𝑖), 𝐻𝑌𝑙(𝑖)) (3.18)
Để ngắn gọn, ta sẽ thay 𝐼(𝐻𝑋𝑙, 𝐻𝑌𝑙) bởi 𝐼𝑙
Lưu ý: số các so khớp ở mức l cũng bao gồm tất cả các so khớp ở mức l+1 Vì vậy, số các so khớp mới ở mức l là 𝐼𝑙− 𝐼𝑙+1( l= 0, 1, …L-1) Trọng số 1
2𝐿−𝑙 tương ứng ở tỉ lệ l là nghịch đảo tỉ lệ chiều rộng giữa các vùng con được định nghĩa ở tỉ lệ
tương ứng Trọng số này được dùng để bù cho việc so khớp trên nhiều vùng có tỉ lệ