Thiết kế hệ thống nhúng nhận dạng vật thể với phương pháp kết hợp so khớp spatial pyramid và vec tơ hỗ trợ svm

Quá trình nhận dạng ảnh sử dụng phương pháp Spartial Pyramid kết hợp SVM Support Vector Machine để phân loại ảnh vào các lớp vật thể cần nhận dạng.. Ở nhiệm vụ phân lớp ảnh có 17 nhóm t

Trang 1

THIẾT KẾ HỆ THỐNG NHÚNG NHẬN DẠNG VẬT THỂ VỚI PHƯƠNG PHÁP KẾT HỢP SO KHỚP SPATIAL PYRAMID VÀ

Trang 2

Cán bộ hướng dẫn khoa học : PGS.TS Hoàng Trang

(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 1 : GS.TS Lê Tiến Thường

Cán bộ chấm nhận xét 2 : TS Bùi Trọng Tú

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 05 tháng 01 năm 2017

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 TS Lê Chí Thông

2 TS Trương Quang Vinh

3 GS TS Lê Tiến Thường

4 TS Bùi Trọng Tú

5 TS Trương Công Dung Nghi

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Ngày, tháng, năm sinh: 02/09/1991 Nơi sinh: Quảng Ngãi

I TÊN ĐỀ TÀI: THIẾT KẾ HỆ THỐNG NHẬN DẠNG VẬT THỂ VỚI

PHƯƠNG PHÁP KẾT HỢP SO KHỚP SPATIAL PYRAMID VÀ VEC-TƠ

HỖ TRỢ SVM

1 Tìm hiểu mô hình giải thuật Bag of Word và mô hình máy học vec-tơ hỗ trợ SVM với phương pháp so khớp phân cấp “Spatial Pyramid Matching”

2 Xây dựng hệ thống nhận dạng vật thể trên máy tính cá nhân

3 Xây dựng hệ thống nhận dạng vật thể trên BeagleBone Black

V CÁN BỘ HƯỚNG DẪN: PGS.TS Hoàng Trang

ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập – Tự do – Hạnh phúc

Trang 4

dẫn và hỗ trợ em trong quá trình thực hiện luận văn Thầy đã cung cấp cho em nhiều kinh nghiệm quý báo trong quá trình nghiên cứu cũng như thực hiện luận văn

Em cũng gửi lời cám ơn đến quý thầy cô bộ môn Điện tử trường Đại học Bách Khoa TP Hồ Chí Minh đã tạo điều kiện để em có thể hoàn thành luận văn

Tôi cám ơn các tác giả của các bài viết mà tôi đã tham khảo đã cung cấp cho tôi những thông tin rất khoa học và hữu ích giúp tôi thực hiện luận văn

Tôi cũng xin cảm ơn các bạn nghiên cứu viên, học viên và các bạn sinh viên đang thực hiện công việc nghiên cứu tại phòng 116/B1 (IC design LAB) các bạn đã

hỗ trợ và giúp đỡ tôi trong công việc

Tôi gửi lời cám ơn đến gia đình, bạn bè, mọi người đã giúp đỡ, động viên tôi trong suốt quá trình thực hiện luận văn

Trang 5

TÓM TẮT LUẬN VĂN THẠC SĨ

Luận văn nhận diện vật thể trong ảnh dựa trên mô hình Bag of word kết hợp

so khớp Spatial Pyramid Quá trình huấn luyện sử dụng đặc trưng Sift invariant feature transform) để xây dựng bộ từ điển theo mô hình Bag of word Quá trình nhận dạng ảnh sử dụng phương pháp Spartial Pyramid kết hợp SVM (Support Vector Machine) để phân loại ảnh vào các lớp vật thể cần nhận dạng Số lớp vật thể trong luận văn là 6 lớp Ngoài ra luận văn còn sử dụng phương pháp sliding window

(Scale-để đọc thông tin từ các vùng trong ảnh nhằm tìm kiếm vị trí của vật thể trong ảnh Luận văn thực hiện thử nghiệm huấn luyện và nhận diện ảnh với các kích thước từ điển khác nhau và các mức phân cấp nhận dạng khác nhau để đánh giá sự ảnh hưởng của hai thông số này đến kết quả nhận dạng

Luận văn thực hiện xây dựng chương trình nhận dạng vật thể trên máy tính cá nhân với hệ điều hành Ubuntu cùng với công cụ lập trình QT Creator, sử dụng ngôn ngữ C++ với sự hỗ trợ của thư viện OpenCV Bên cạnh đó luận văn cũng tìm hiểu

và xây dựng chương trình trên hệ thống nhúng BeagleBone Black

Trang 6

Tôi là người thực hiện luận văn này dưới sự hướng dẫn của thầy Hoàng Trang Mọi tham khảo trong luận văn tôi đều trích dẫn rõ ràng tên tác giả, công trình, và thời gian phát hành

Mọi sao chép, gian dối vi phạm quy chế tôi xin chịu trách nhiệm

Tp Hồ Chí Minh, ngày 19 tháng 12 năm 2016

Học viên

Lý Nguyên Vương

Trang 7

MỤC LỤC

LỜI CẢM ƠN iii

Chương 1: TỔNG QUAN 1

1.1 Tình hình nghiên cứu 1

1.2 Tổng quan về hệ thống nhận dạng vật thể 2

1.3 Bố cục của luận văn 4

Chương 2: CƠ SỞ LÝ THUYẾT 5

2.1 Bài toán nhận dạng ảnh 5

2.2 Các hướng tiếp cận trong bài toán nhận dạng 5

2.3 Các phương pháp trích chọn đặc trưng 7

2.3.1 Đặc trưng màu sắc 8

2.3.2 Đặc trưng kết cấu 9

2.3.3 Đặc trưng hình dạng 10

2.3.4 Đặc trưng cục bộ bất biến SIFT 11

2.4 Chia cụm K-mean 15

2.5 Bag of Words 18

2.6 Phương pháp nhận dạng SVM (Support Vector Machine) 21

2.6.1 SVM tuyến tính 22

2.6.2 SVM không tuyến tính 24

2.6.3 Lề mềm (soft margin) 25

2.7 So khớp không gian phân cấp (SPM) 26

2.7.1 So khớp phân cấp (Partial Matching) 26

2.7.2 So khớp không gian phân cấp (SPM) 28

2.8 Sliding Window: 29

2.9 Sơ lược về OpenCV: 30

Trang 8

2.10.1 Hệ điều hành nhúng Angstrong 35

2.10.2 Hệ thống phần cứng 36

Chương 3: THỰC HIỆN HỆ THỐNG 38

3.1 Tổng quan: 38

3.2 Tập dữ liệu dùng để nhận dạng và huấn luyện 40

3.3 Phương pháp Bag of word kết hợp sliding window 40

3.3.1 Quá trình huấn luyện: 40

3.3.2 Nhận dạng 48

3.4 Phương pháp Bag of word kết hợp Spatial Pyramid Matching 55

3.4.1 Quá trình huấn luyện 55

3.4.2 Quá trình nhận dạng: 60

Chương 4: XÂY DỰNG HỆ THỐNG TRÊN BEAGLEBONE BLACK 62

4.1 Sơ đồ hệ thống 62

4.2 Xây dựng hệ điều hành nhúng 63

4.2.1 Phân vùng ổ đĩa 63

4.2.2 U-Boot Bootloader 65

4.2.3 Boot Script 66

4.2.4 Linux Kernel 67

4.2.5 Root file system sử dụng buildroot 68

4.2.6 Booting 68

Trang 9

4.2.7 Buildroot cho BBB 69

4.2.8 Sử dụng Image file cho BBB 69

4.3 Biên dịch ứng dụng trên Board 70

4.3.1 Cài đặt trình biên dịch chéo 70

4.3.2 Build Qt 71

4.3.3 Thiết lập Qt Creator để biên dịch với nền tảng Qt Everywhere 73

Chương 5: KẾT QUẢ 77

5.1 Kết quả đạt được 77

5.1.1 Hoạt động của chương trình 77

5.1.2 Kết quả của chương trình 78

5.2 Kết quả thống kê 80

5.2.1 Kết quả nhận dạng với các kích thước từ điển M khác nhau 81

5.2.2 Kết quả nhận dạng với các mức phân cấp 82

5.2.3 Kết quả nhận dạng với các kích thước từ điển 84

5.2.4 So sánh kết quả của sliding window và SPM 87

5.3 Bàn luận kết quả 87

Chương 6: KẾT LUẬN VÀ KIẾN NGHỊ 89

6.1 Kết luận 89

6.2 Kiến nghị một số hướng nghiên cứu tiếp theo 90

DANH MỤC TÀI LIỆU THAM KHẢO 91

Trang 10

Hình 2-2 Góc ở bức ảnh lớn hơn có thể không còn là góc nữa 12

Hình 2-3 Tính DoG ở các kích thước khác nhau của ảnh 12

Hình 2-4 Khảo sát các giá trị DoG để lọc tìm ra điểm đặc biệt 13

Hình 2-5 Ảnh với các điểm Sift 13

Hình 2-6 Vùng có kích thước 16x16 xung quanh điểm đặc biệt 14

Hình 2-7 Vùng lân cận của điểm đặc biệt được chia thành 16 ô nhỏ 15

Hình 2-8 Tính gradient hướng ở mỗi vùng con 4x4 15

Hình 2-9 Các tâm mỗi cụm được chọn ngẫu nhiên 16

Hình 2-10 Các cụm được hình thành bằng cách tìm tâm gần nhất 16

Hình 2-11 Các tâm của mỗi cụm được tính lại là các điểm trung bình của cụm đó 17

Hình 2-12 Bước 2 và bước 3 lặp lại đến khi bài toán hội tụ, tức không còn sự thay đổi tâm nữa 17

Hình 2-13 Mô hình Bag of Words 18

Hình 2-14 bộ từ điển hình ảnh hình thành bằng cách chia cụm các mô tả 19

Hình 2-15 Hình tượng mô hình BoW 20

Hình 2-16 SVM tuyến tính 22

Hình 2-17 Siêu phẳng phân cách hai tập mẫu 23

Hình 2-18 Bên trái: So khớp cục bộ giữa tập các đặc trưng Bên phải: So khớp phân cấp với đầu vào là hai tập véc tơ đặc trưng 27

Hình 2-19 Lược đồ minh họa biểu diễn không gian phân cấp 28

Hình 2-20 Ví dụ xây dựng phân cấp 3 mức 29

Hình 2-21 Ví dụ phát hiện xe đạp bằng sliding window 29

Hình 2-22 Đặc trưng Sift kết hợp với phương pháp khớp mẫu Brute-Force 31

Hình 2-23 BeagleBone Black 36

Hình 2-24 Các khối của BBB 37

Hình 3-1 Sơ đồ hệ thống nhận dạng 38

Hình 3-2 Các khối xử lý chính trong quá trình huấn luyện 40

Hình 3-3 Các bước xây dựng từ điển Sift 41

Hình 3-4 Sơ đồ giải thuật tạo từ điển BoW 44

Hình 3-5 Các bước huấn luyện SVM 45

Hình 3-6 Sơ đồ giải thuật tạo histogram có gán nhãn 46

Hình 3-7 Các bước trong quá trình nhận dạng ảnh từ cửa sổ trượt 48

Hình 3-8 Cửa sổ trượt theo phương ngang với bước dịch chuyển là 1ô 49

Hình 3-9 Sơ đồ giải thuật khối sliding window 50

Trang 11

Hình 3-10 Sơ đồ giải thuật bước 1, 53

Hình 3-11 Sơ đồ giải thuật bước 2 54

Hình 3-12 Các histogram của các mức phân cấp 56

Hình 3-13 Histogram phân cấp mức 2 của ảnh 57

Hình 3-14 Sơ đồ giải thuật tạo histogram phân cấp 58

Hình 3-15 Sơ đồ giải thuật tạo histogram gán nhãn với histogram phân cấp 59

Hình 3-16 Các bước trong quá trình nhận dạng ảnh bằng SPM 60

Hình 3-17 Sơ đồ giải thuật chương trình nhận dạng bằng SPM 61

Hình 4-1 Hệ thống phần cứng 62

Hình 4-2 Hệ thống phần mềm 62

Hình 4-3 Thêm trình biên dịch ARM trên Qt 74

Hình 4-4 Chọn lựa trình biên dịch cho Qt 75

Hình 5-1 Giao diện chính của chương trình 77

Hình 5-2 Một số hình ảnh kết quả nhận dạng của hệ thống 79

Hình 5-3 Nhận dạng với hình nền phức tạp 79

Hình 5-4 Nhận dạng với vật thể chính chiếm tỉ lệ thấp trong hình 80

Hình 5-5 Nhận dạng ảnh có nhiều đối tượng 80

Hình 5-6 Kết quả nhận dạng của các lớp với các kích thước 82

Hình 5-7 Kết quả nhận dạng của các lớp với các mức phân cấp 83

Hình 5-8 Tỉ lệ các ảnh nhận dạng đúng với các mức phân cấp 84

Hình 5-9 Tỉ lệ ảnh nhận dạng đúng với kích thước từ điển và các mức phân cấp khác nhau 85

Trang 12

Bảng 4-2 Kết quả nhận dạng các lớp với SVM kết hợp SPM với các mức phân cấp khác nhau 83Bảng 4-3 Tỉ lệ ảnh nhận dạng đúng với kích thước từ điển và các mức phân cấp 85Bảng 4-4 Bảng thống kê thời gian nhận dạng và huấn luyện (đơn vị: phút ) 86Bảng 4-5: Tỉ lệ ảnh nhận dạng đúng của phướng pháp SPM và Sliding window 87

Trang 13

DANH SÁCH CHỮ VIẾT TẮT

Từ viết tắt Từ viết đầy đủ

Trang 14

nữa, nhận dạng ảnh là một trong những bài toán cơ bản trong lĩnh vực thị giác máy tính và ứng dụng máy học đã nhận được sự quan tâm của nhiều nhà khoa học trên thế giới Hiện nay có rất nhiều cuộc thi trong lĩnh vực nhận dạng và phân lớp vật thể, nổi trội hơn cả là cuộc thi PASCAL Visual Object Classes (VOC) được tổ chức

từ năm 2005 đã qui tụ được rất nhiều nhóm nghiên cứu trên toàn thế giới tham gia Hình 1-1 thể hiện kết quả nhiệm vụ phân lớp ảnh của các nhóm ở cuộc thi PASCAL Visual Object Classes vào năm 2012 Ở nhiệm vụ phân lớp ảnh có 17 nhóm tham gia, đa phần các nhóm đều sử dụng phương pháp túi đặc trưng kết hợp với phương pháp trích đặc trưng SIFT để huấn luyện và nhận dạng bằng mô hình SVM

Hình 1-1 Kết quả VOC 2012 [26]

Trang 15

1.2 Tổng quan về hệ thống nhận dạng vật thể

“Nhận dạng vật thể” tức là tìm và xác định vật thể trong bức ảnh hoặc video Đây là đề tài rộng và tham vọng trong thị giác máy tính Tuy nhiên nó lại là vấn đề cốt lõi và lâu đời của ngành này

Bài toán nhận dạng vật thể có rất nhiều thách thức từ việc ảnh được chụp dưới nhiều góc độ khác nhau, điều kiện chiếu sáng khác nhau, sự đa dạng các thể hiện của cùng một lớp vật thể cũng như sự phức tạp của thông tin nền trong ảnh Để giải quyết bài toán nhận dạng vật thể có 4 hướng tiếp cận, đó là so khớp mẫu, nhận dạng thống kê, nhận dạng dựa vào cấu trúc và nhận dạng theo mạng nơron

Trong đó, hướng tiếp cận dựa trên so khớp mẫu được áp dụng rộng rãi và mang lại kết quả cao trong bài toán nhận dạng ảnh nói riêng và trong thị giác máy tính nói chung

Thông thường để biểu diễn một đối tượng ta thường biểu diễn nó từ những đặc trưng hoặc từ những bộ phận cấu thành Trong thị giác máy tính, một hình ảnh có thể được mô tả bởi các đặc trưng cục bộ được trích chọn từ các điểm hấp dẫn “nhô ra” (salient interest points) của ảnh Tương tự như trong xử lý ngôn ngữ tự nhiên, các tài liệu và chủ đề được đặc trưng bởi túi các từ (bag of words), trong thị giác máy tính các ảnh được đặc trưng bởi túi các đặc trưng Tuy nhiên, việc đánh giá độ giống nhau giữa các mẫu theo phương pháp này là một thách thức khi tập các đặc trưng gồm nhiều yếu tố, các yếu tố không có thứ tự Để so sánh tập các đặc trưng này, các nhà nghiên cứu thường cố gắng sử dụng những giải pháp phù hợp tốn ít chi phí nhất, tuy nhiên đây lại là những tính toán tốn kém và trở nênkhông khả thi khi tập này có kích thước lớn Những phương pháptrước đây nhận đầu vào là các véctơ với mỗi chiều tương ứng là một đặc trưng toàn cục riêng biệt Nhược điểm của những phương pháp này là không tính tới vị trí tương đối của các đặc trưng, giải quyết với những đặc trưng tương ứng rõ ràng, điều này làm cho việc tính toán tốn kém, hạn chế việc sử dụng những đầu vào có phạm vi lớn; Do đó để cải thiện những nhược điểm này Kristen Grauman và Trevor Darrell đã phát triển phương pháp so khớp phân cấp (Pyramid Matching – viết tắt là PM) – một hàm so khớp thời gian

Trang 16

dạng vât thể” dựa trên mô hình túi đặc trưng (Bag of Word) với phương pháp kết

hợp so khớp phân cấp (spatial pyramid matching) và máy véc-tơ hỗ trợ (SVM)

 Mục tiêu nghiên cứu:

o Nghiên cứu trích chọn đặc trưng cục bộ bất biến (Scale Invariant Feature Transform – SIFT)

o Tìm hiểu phương pháp Spatial Pyramid Matching

o Nghiên cứu phương pháp học máy SVM

o Nghiên cứu phương pháp sliding window

o Xây dựng chương trình demo từ những nghiên cứu và tìm hiểu nói trên

Trang 17

1.3 Bố cục của luận văn

Nội dung chính của luận văn được tổ chức thành 6 chương

Chương 1: Tổng quan Trình bày tình hình nghiên cứu, lý do chọn đề tài, mục

đích, đối tượng và phạm vi nghiên cứu, ý nghĩa thực tiễn và khoa học của đề tài

nghiên cứu

Chương 2: Cơ sở lý thuyết Trình bày những lý thuyết cơ bản về bài toán nhận

dạng ảnh, các phương pháp trích chọn đặc trưng, mô hình Bag of word, so khớp phân cấp không gian SPM, phương pháp sliding window và phương pháp học máy SVM được sử dụng trong luận văn Bên cạnh đó còn trình bày lý thuyết hệ thống nhúng

Chương 3: Thực hiện hệ thống Mô tả cách xây dựng hệ thống nhận dạng của

luận văn và các công việc đã thực hiện trên máy tính các nhân

Chương 4: Xây dựng hệ thống trên BeagleBone Black Mô tả cách xây dựng hệ

thống trên board nhúng BeagleBone Black

Chương 5: Kết quả Trình bày các kết quả của luận văn Bàn luận về kết quả thu

được

Chương 6: Phần kết luận và kiến nghị Tổng kết những kết quả đã đạt được của

luận văn và hướng phát triển nghiên cứu tiếp theo

Trang 18

loại các đối tượng được biểu diễn theo một mô hình nào đó vào một lớp dựa theo quy luật và các mẫu chuẩn Quá trình bao gồm việc xác định các lớp của đối tượng sao cho có thể phân biệt

Hệ thống nhận dạng sẽ thực hiện 2 việc: huấn luyện và nhận dạng Trong quá trình huấn luyện, các đặc trưng sẽ được trích chọn phù hợp cho việc biểu diễn và bộ phân loại sẽ được huấn luyện để phân chia không gian đặc trưng Quá trình nhận dạng, bộ phân loại đã được huấn luyện gán một mẫu đầu vào vào một trong các lớp dựa trên các đặc trưng đó

Một mô hình sẽ được xây dựng dựa trên các dữ liệu huấn luyện và mô hình

này sẽ được sử dụng để phân loại một dữ liệu mới vào các lớp

Hình 2-1 Quá trình huấn luyện và nhận dạng của hệ thống nhận dạng

2.2 Các hướng tiếp cận trong bài toán nhận dạng

Có 4 hướng tiếp cận chính cho bài toán nhận dạng :

o Nhận dạng dựa vào so khớp mẫu

o Nhận dạng thống kê

Trang 19

o Nhận dạng dựa vào cấu trúc

o Nhận dạng dựa vào mạng nơron Trong các phương pháp trên thi phương pháp so khớp mẫu được sử dụng rộng rãi bởi tính dễ thực thi của nó

So khớp là một thuật toán chung trong nhận dạng, nó được sử dụng để xác định những điểm giống nhau giữa hai thực thể (các điểm, các góc, hình dạng…) Trong so khớp mẫu, các mẫu cần nhận dạng là biết trước và được so khớp với các mẫu đã lưu trữ, có tính tới các trường hợp mẫu bị quay, thay đổi tỉ lệ và bị tịnh tiến Ngày nay với phương pháp so khớp mẫu, có rất nhiều cách để xây dựng bộ từ điển nhưng nổi trội hơn cả là mô hình Bag of word Mô hình này có ưu điểm là đơn giản, dễ nắm bắt, nhưng lại không đánh giá yếu tố không gian trong nhận diện vật thể, do đó kết quả không được chính xác

Bag of Words được sử dụng trong thị giác máy tính, và xử lý ngôn ngữ tự nhiên Những ý tưởng đầu tiên về phương pháp này được đề xuất bởi Zellig Harris Năm 1999, David Lowe đã phát minh ra giải thuật Sift với khả năng mô tả ảnh mạnh mẽ Từ đó Bag of Words có khuynh hướng sử dụng đặc trưng Sift để tạo các

“Words” Có rất nhiều đề tài nghiên cứu theo hướng này đạt được kết quả khả quan Đầu tiên phải kế đến đề tài của tác giả Gabriella Csurka[3], đề tài này sử dụng mô hình BoW cơ bản kết hợp với việc khảo sát hiệu quả của phương pháp Bow khi đi kèm với các phương pháp phân lớp SVM và Bayes Một số tác giả tìm cách khắc phục nhược điểm của BoW bằng cách kết hợp BoW với các yếu tố không gian, điển hình là tác giả S Lazebniksử dụng phương pháp khớp mẫu Spatial Pyramid [4] trong phân loại cảnh quan ảnh và Leibe với phương pháp Implicit Shape Model[5]

Mô hình BoW sử dụng nhiều thông số thay đổi khác nhau, nghiên cứu của tác giả Jun Yang đã đánh giá sự thay đổi của một số thông số trong mô hình ảnh hưởng đến kết quả nhận dạng [6]

Trang 20

anh Luân văn tiến hành khảo sát độ ảnh hưởng của mức phân cấp và kích thước từ điển đến chất lượng nhận dạng

2.3 Các phương pháp trích chọn đặc trưng

Trong nhận dạng ảnh, việc lựa chọn các đặc trưng thích hợp với từng loại truy vấn và miền ứng dụng cùng với các độ đo tương đồng tưong ứng là thành phần quan trọng và then chốt nhất Việc lựa chọn các đặc trưng và độ đo thích hợp sẽ giúp tăng cả tốc độ và mức độ chính xác của các hệ thống J.V.Jawahe và cộng sự [24] đã nêu ra các yêu cầu cơ bản đối với thành phần lựa chọn đặc trưng cho ảnh:

 Thành phần lựa chọn đặc trưng phải lựa chọn được một tập các đặc trưng cung cấp đầu vào tốt nhất cho hệ thống tìm kiếm ảnh Nếu số lượng các đặc trưng quá nhiều sẽ làm “che khuất” các “tín hiệu” (giảm các “tín hiệu” đối với tỉ lệ nhiễu), mặt khác, nếu số lượng các đặc trưng quá ít sẽ khó phân biệt được ảnh trong tìm kiếm

 Nó phải giảm bớt được độ phức tạp trong lúc tính toán tổng thể bằng giảm đa chiều của bài toán phân lớp

 Khi người dùng muốn sử dụng các đặc trưng đó cho mọi truy vấn, thì việc sử dụng các đặc trưng này phải hiệu quả Vì số lượng các đặc trưng có thể là hàng ngàn, dó đó thời gian xử lý của module phải tuyến tính với số lượng đặc trưng

 Vì thời gian xử lý của thành phần lựa chọn đặc trưng tuyến tính với số lượng đặc trưng, do đó việc lựa chọn các đặc trưng cũng nên tuyến tính dựa trên phân lớp

Trang 21

 Thành phần lựa chọn đặc trưng có thể xử lý được với kích thước tập mẫu nhỏ (khoảng 5 mẫu)

Trong phần này, chúng tôi sẽ trình bày sơ bộ về các vấn đề về đặc trưng của ảnh(màu sắc, kết cấu, hình dạng, đặc trưng cục bộ SIFT), một số độ đo tương đồng tương ứng với các đặc trưng và phương pháp lựa chọn đặc trưng ảnh để tăng chất lượng tập đặc trưng

2.3.1 Đặc trưng màu sắc

Nhận dạng ảnh theo lược đồ màu là phương pháp phổ biến và được sử dụng nhiều nhất trong các hệ thống tìm kiếm ảnh theo nội dung Đây là phương pháp đơn giản, tốc độ tìm kiếm tương đối nhanh tuy nhiên kết quả tìm kiếm có độ chính xác không cao Đây có thể xem là bước lọc đầu tiên cho những bước xử lý sau Một số lược đồ màu được sử dụng như: lược đồ màu RGB, lược đồ màu HSI, lược đồ HSI cải tiến Trong đó, lược đồ màu RGB được sử dụng phổ biến nhất

Lược đồ màu RGB: Đối với ảnh 256 màu, lược đồ màu của ảnh tương đương với lược đồ màu của ảnh xám Đối với ảnh 24 bit màu, lược đồ miêu tả khả năng kết nối về cường độ của ba kênh màu R, G, B Luợc đồ màu này được định nghĩa như sau:

ℎ𝑅,𝐺,𝐵[𝑟, 𝑔, 𝑏] = 𝑁 ∗ 𝑃𝑟𝑜𝑏(𝑅 = 𝑟, 𝐺 = 𝑔, 𝐵 = 𝑏) (3.1)

Trong đó N là số lượng điểm có trong ảnh

Lược đồ màu này được tính bằng cách rời rạc hóa từng màu trong ảnh, sau

đó đếm số điểm ảnh của mỗi màu Khi mà số lượng màu là có hạng, để thuận

tiện hơn, người ta thường chuyển đổi ba kênh màu thành một biến giá trị duy

nhất Một cách khác để tính lược đồ màu của ảnh RGB là ta phân ra làm 3 lượt

đồ riêng biệt 𝒉𝑹[ ], 𝒉𝑮[ ] , 𝒉𝑩[ ] Khi đó, mỗi lược đồ được tính bằng cách

đếm kênh màu tương ứng trong mỗi điểm ảnh

 Độ tương đồng vể màu sắc

Trang 22

o Khoảng cách Ơclit:

Đây là khoảng cách Ơclit thông thường giữa các K bin:

𝐼𝑛𝑡𝑒𝑟𝑠𝑒𝑐𝑡𝑖𝑜𝑛(ℎ(𝐼), ℎ(𝑀)) = ∑𝑘 √(ℎ(𝐼) − (ℎ(𝑀))2

o Độ đo Jensen-Shannon divergence (JSD):

Độ đo Jensen-Shannon divergence sử dụng lược độ màu RGB để tính toán

độ tương đồng về màu sắc giữa 2 ảnh:

2.3.2 Đặc trưng kết cấu

Hiện tại, vẫn chưa có một định nghĩa chính thức cụ thể về kết cấu Kết cấu là một đối tượng dùng để phân hoạch ảnh ra thành những vùng quan tâm để phân lớp những vùng đó Kết cấu cung cấp thông tin về sự sắp xếp về mặt không gian của màu sắc và cường độ một ảnh Kết cấu được đặc trưng bởi sự phân bổ không gian của những mức cường độ trong một khu vực láng giềng với nhau Kết cấu gồm các kết cấu gốc hay nhiều kết cấu gộp lại đôi khi gọi là texel

o Một số phương pháp dùng để trích xuất các đặc trưng kết cấu như [25]:

- Kim tự tháp "có thể lái được" (the steerable pyramid)

- Biến đổi đường viền (the cotourlet transform)

- Biến đổi sóng Gabor (The Gabor Wavelet transform)

- Biểu diễn ma trận đồng hiện (co-occurrence matrix)

- Hệ thống bộ lọc định hướng phức tạp (The complex directional fillter bank)

Trang 23

Để đo độ tương đồng theo kết cấu giữa các ảnh, người ta thường sử dụng độ

đo Ơclit Kết cấu được trích xuất từ các bức ảnh sẽ được biểu diễn thành các vector

nhiều chiều và khoảng cách Ơclit được dùng để đo độ tương đồng giữa các đặc

trưng của ảnh truy vấn với đặc trưng của ảnh trong cơ sở dữ liệu

2.3.3 Đặc trưng hình dạng

Màu sắc và kết cấu là những thuộc tính có khái niệm toàn cục trong một ảnh Trong khi đó, hình dạng không phải là một thuộc tính của ảnh Nói tới hình dạng không phải là nhắc đến hình dạng của một ảnh Thay vì vậy, hình dạng có khuynh hướng chỉ đến một khu vực đặc biệt trong ảnh, hay hình dạng chỉ là biên của một đối tượng nào đó trong ảnh

Trong nhận dạng ảnh, hình dạng là một cấp cao hơn so với màu sắc và kết cấu Nó đòi hỏi sự phân biệt giữa các vùng để tiến hành xử lý về độ đo của hình dạng Các hệ thống tìm kiếm ảnh theo nội dung thường khai thác hai nhóm biểu diễn hình dạng sau :

- Biểu diễn hình dạng theo đường biên (cotour-based descriptor) : Biểu diễn các đường biên bao bên ngoài

- Biểu diễn theo vùng (region-based descriptor): Biểu diễn một vùng toàn vẹn

o Độ đo tương đồng cho hình dạng

Độ đo về hình dạng rất nhiều trong phạm vi lý thuyết của bộ môn xử lý ảnh

Chúng trải rộng từ những độ đo toàn cục dạng thô với sự trợ giúp của việc

nhận dạng đối tượng, cho tới những độ đo chi tiết tự động tìm kiếm những hình

dạng đặc biệt Lược đồ hình dạng là một ví dụ của độ đo đơn giản Kỹ thuật dùng

đường biên hiệu quả hơn phương pháp trước, chúng tìm kiếm những hình dạng đối

tượng gần giống với đường biên nhất Phương pháp vẽ phác họa là phương pháp có

nhiều đặc trưng rõ ràng hơn, không chỉ tìm kiếm những đường biên đối tượng đơn,

mà còn đối với tập những đối tượng đã được phân đoạn trong một ảnh mà người

dung vẽ hay cung cấp

Trang 24

loại hoặc để tính độ tương tự giữa các ảnh với nhau Có rất nhiều dạng đặc trưng được đề xuất và sử dụng trong phân loại ảnh Trong phạm vi luận văn, tôi chọn sử dụng đặc trưng cục bộ bất biến, viết tắt là SIFT làm đặc trưng biểu diễn ảnh

SIFT là một giải thuật mạnh mẽ trong lĩnh vực nhận diện vật thể Bởi vì mô tả của đặc trưng SIFT không bị biến đổi với các kích thước ảnh khác nhau, các hướng xoay khác nhau và thậm chí có thể không biến đổi trong điều kiện ánh sáng khác nhau và méo dạng

Phương pháp trích chọn đặc trưng SIFT được tiếp cận theo phương pháp thác lọc, theo đó phương pháp được thực hiện lần lượt theo các bước sau:

 Xác định vị trí điểm đặc biệt (Key localization):

Ảnh đầu vào được nhân tích chập với bộ lọc Gaussian với các giá trị 𝜎 khác nhau để tạo ra ảnh mới với các độ mờ khác nhau

Với 𝐼(𝑥, 𝑦) là ảnh đầu vào và 𝐺(𝑥, 𝑦, 𝜎) là bộ lọc Gaussian với số 𝜎

DoG (Difference of Gaussian) là phương pháp dùng để nổi rõ các chi tiết của ảnh

Trong phương pháp xác định góc Harris, ta thấy rằng vẫn có thể phát hiện ra góc nếu ảnh bị xoay Tuy nhiên khi ảnh bị thay đổi kích thước, một góc có thể không còn là một góc nữa Như hình minh họa bên dưới đây:

Trang 25

Hình 2-1 Góc ở bức ảnh lớn hơn có thể không còn là góc nữa [7]

Như ví dụ ở trên ta thấy khi ảnh thay đổi kích thước, một yếu tố nào đó có thể không còn là bất biến nữa Do vậy để tìm được yếu tố bất biến qua nhiều kích thước ảnh khác nhau, ta cần khảo sát DoG ở nhiều kích thước ảnh

Hình 2-2 Tính DoG ở các kích thước khác nhau của ảnh [7]

Khi DoG đã được xác định, mỗi pixel trong ma trận DoG sẽ được so sánh với

8 pixel ở xung quanh nó và 9 pixel ở Scale tiếp theo và Scale trước đó Nếu một điểm là điểm lớn nhất hoặc nhỏ nhất trong các lân cận mà nó so sánh thì nó là điểm đặc biệt tiềm năng

Trang 26

Hình 2-3 Khảo sát các giá trị DoG để lọc tìm ra điểm đặc biệt

 Tính vị trí chính xác các điểm đặc biệt:

Một số điểm đặc biệt đã tìm ở bước trước không ổn định Bước này sẽ trình bày cách tính toán vị trí các điểm một cách chính xác hơn

Các điểm có độ tương phản thấp hoặc vị trí nằm trên cạnh cũng bị loại bỏ

Hình 2-4 Ảnh với các điểm Sift [23]

 Tính mô tả địa phương của điểm đặc biệt:

Người ta sử dụng một vùng lân cận 16x16 xung quanh điểm đặc biệt để tính toán mô tả của nó

Trang 27

Ô 16x16 được phân thành 4 ô con, mỗi ô con lại có kích thước 4x4

Với mỗi ô con kích thước 4x4,độ lớn của gradient hướng được tính Những sự định hướng này được xếp vào 8 loại: 0-44 độ, 45-89 độ, 90-134 độ,…Người ta lập histogram theo 8 loại Như vậy ta đã tính độ định hướng của 16 pixel để tạo thành histogram 8 loại Ta tốn 8 giá trị để mô tả histogram 8 loại này

Làm tương tự với tất cả 16 ô kích thước 4x4 ta cần 16x8 = 128 giá trị để mô

tả

Như vậy với mỗi điểm đặc biệt ta trích xuất được một vector có 28 giá trị để

mô tả lân cận xung quanh đó Vector đó ta gọi là Descriptor

Hình 2-5 Vùng có kích thước 16x16 xung quanh điểm đặc biệt [9]

Trang 28

Hình 2-6 Vùng lân cận của điểm đặc biệt được chia thành 16 ô nhỏ.[9]

Hình 2-7 Tính gradient hướng ở mỗi vùng con 4x4.[9]

2.4 Chia cụm K-mean

Phân cụm k-mean là một phương pháp lượng tử tử vector Mục đích của

phương pháp này là phân n mẫu đầu vào thành k cụm mà trong từng cụm mà mỗi

mẫu gần với điểm trung vị của cụm đó nhất so với điểm trung vị của các cụm còn

lại

Trang 29

 Phương pháp thực hiện:

o K điểm trung vị được chọn ngẫu nhiên trong miền dữ liệu

o Tính khoảng cách giữa các mẫu đầu vào và k điểm trung vị Khoảng cách nào gần nhất ta sẽ phân mẫu đầu vào vào cụm đó

o Tính điểm trung vị mới của k cụm mới tạo thành

o Lặp lại bước 2 và bước 3 cho đến khi không có sự thay đổi cụm giữa các điểm đầu vào xảy ra Tức bài toán đã hội tụ

 Các đặc điểm nổi bật của phương pháp k-mean:

o Khoảng cách Euclide được dùng để xác định khoảng cách giữa các điểm trong thuật toán

o Chỉ số k là chỉ số đầu vào do người dùng chọn Việc xác định k không chính xác sẽ dẫn đến kết quả sai lệch rất nhiều so với thực tế

Hình 2-8 Các tâm mỗi cụm được chọn ngẫu nhiên [10]

Hình 2-9 Các cụm được hình thành bằng cách tìm tâm gần nhất [10]

Trang 30

Hình 2-10 Các tâm của mỗi cụm được tính lại là các điểm trung bình của

cụm đó [10]

Hình 3-0-11 Bước 2 và bước 3 lặp lại đến khi bài toán hội tụ, tức không còn

sự thay đổi tâm nữa.[10]

 Ứng dụng của chia cụm k-mean:

o Lượng tử hóa vector:

k-mean được sử dụng trong lĩnh vực xử lý tính hiệu Ví dụ, trong lĩnh vực đồ họa máy tính, k-mean được sử dụng để giảm số màu

sử dụng của một bức ảnh thành số chính xác là k k-mean được sử dụng trong việc này và thường cho kết quả rất tốt

o Phân tích cụm:

Trong phân tích cụm, k-mean được sử dụng để phân các dữ liệu đầu vào k cụm khác nhau Tuy nhiên thuật toán k-mean không được linh hoạt và có nhiều hạn chế Trong thực tế việc bắt buộc phải chọn được thông số k chính xác ngay từ đầu là rất khó thực hiện Việc sử dụng khoảng cách euclide để tính toán cũng không

Trang 31

được chính xác Do đó rất nhiều thuật toán mới được phát triển để khắc phục những khuyết điểm đó

o Học đặc trưng (Feature learning):

Phân cụm k-mean được sử dụng trong bước học đặc trưng để tạo từ điển Phương pháp cơ bản nhất là phân các mẫu huấn luyện đầu vào (chưa được gán nhãn) thành k cụm khác nhau nhằm tạo lập từ điển

2.5 Bag of Words

Hình 2-12 Mô hình Bag of Words.[11]

Trong thị giác máy tính, Bag of Words(BoW) thường được dùng để phân loại ảnh, vật thể trong ảnh bằng cách coi đặc trưng của ảnh như một từ Trong bài toán phân lớp BoW là một vector biểu diễn histogram của các từ

Trang 32

 Biểu diễn đặc trưng:

Ảnh đầu vào được phát hiện các đặc trưng Các đặc trưng trong ảnh có thể là đặc trưng Sift, Surf, Harris, … Các đặc trưng đó được biểu diễn dưới dạng vector

Ví dụ đặc trưng Sift của một điểm được biểu diễn bằng một vector có 128 giá trị Trong các loại biểu diễn đặc trưng, phương pháp Sift là nổi tiếng nhất hiện nay

 Tạo bộ từ điển:

Số lượng lớn các ảnh dùng để huấn luyện sẽ được trích xuất đặc trưng Các đặc trưng này sau đó sẽ được chia cụm để tạo lặp bộ từ điển Mỗi cụm là tập hợp một số các đặc trưng có giá trị gần giống nhau Phương pháp chia cụm phổ biến nhất là phương pháp k-mean Mỗi từ trong bộ từ điển là điểm trung tâm của cụm

Số lượng các cụm là số từ trong bộ từ điển

Hình 2-13 bộ từ điển hình ảnh hình thành bằng cách chia cụm các mô

tả.[13]

Trang 33

 Huấn luyện dựa trên BoW:

Các ảnh đã gán nhãn sẽ được sử dụng để huấn luyện Các ảnh này sẽ qua quá trình trích đặc trưng để tạo thành vector

Mỗi vector đặc trưng sẽ được khớp với một từ trong bộ từ điển Có nhiều phương pháp khớp khác nhau, nhưng đơn giản nhất là phương pháp điểm gần nhất Tức là đặc trưng sẽ được khớp với từ có khoảng cách Euclide gần nó nhất

Mỗi ảnh được mô tả bởi nhiều vector đặc trưng, mỗi vector đặc trưng khớp với một từ Do đó mỗi ảnh huấn luyện sẽ được biểu diễn bởi một tập hợp các từ có trong từ điển Ta sẽ lập histogram từ của ảnh Ví dụ kích thước từ điển là 1000 từ, thì mỗi ảnh sẽ được biểu diễn bởi một vector có 1000 phần tử để biễu diễn histogram các từ

Các vector histogram này sẽ được lưu trữ và gán nhãn để tạo ra máy học phân lớp

Hình 2-14 Hình tượng mô hình BoW [12]

Trang 34

này là vì BoW không quan tâm đến vị trí không gian của các điểm Sift trong ảnh Vật thể cần nhận diện sẽ xuất hiện với rất nhiều góc cạnh khác nhau trong ảnh nên đôi khi việc mô tả vị trí không gian của từng

bộ phận vật thể trong ảnh làm khả năng nhận dạng vật thể bị bó hẹp lại

 Khuyết điểm của mô hình Bag of Words:

o Không xác định được vị trí của đối tượng trong ảnh

o Không tính đến ảnh hưởng của yếu tố không gian trong ảnh Do đó chất lượng nhận dạng đôi khi không được cao Trong nhiều trường hợp việc không tính đến yếu tố không gian lại là khuyết điểm Ví dụ như trong việc nhận dạng khung cảnh

o Không nhận dạng được vật thể trong ảnh có nhiều vật thể khác nhau

2.6 Phương pháp nhận dạng SVM (Support Vector Machine)

Trong những năm gần đây phương pháp nhận dạng Support Vector Machine (SVM) đã thu hút được sự quan tâm nghiên cứu của các nhà khoa học và đã đạt những kết quả nhận dạng tốt trong nhiều bài toán nhận dạng Trong nhiều trường hợp, chẳng hạn như nhận dạng chữ viết quang học offline, SVM đã đạt những kết quả ngang bằng các phương pháp truyền thống như mạng Neural

Phương pháp SVM được Vapnik đề xuất vào năm 1995 Đây là một phương pháp dựa trên lý thuyết học thống kê (Statistical Learning Theory) nên có một nền tảng toán học chặt chẽ để bảo đảm rằng kết quả đạt được tối ưu Ý tưởng chính của SVM là chuyển tập mẫu từ không gian biểu diễn Rn của chúng sang một không gian Rd có số chiều lớn hơn Trong không gian Rd tìm một siêu phẳng tối ưu để

Trang 35

phân hoạch tập mẫu này dựa trên phân lớp của chúng, cũng có nghĩa là tìm ra miền phân bố của từng lớp rong không gian biễu diễn Rn, để từ đó xác định được phân lớp của một mẫu cần nhận dạng

Cũng như mạng Neural, phương pháp SVM là một phương pháp có tính tổng quát cao, có thể áp dụng cho nhiều loại bài toán nhận dạng khác nhau

2.6.1 SVM tuyến tính

Xét trường hợp việc phân chia hai lớp mẫu có thể được phân chia hoàn toàn bằng một siêu phẳng tuyến tính (hình 3-15) Việc phân lớp tuyến tính là tìm ra một siêu phẳng H (w.x+ b = 0) với khoảng cách giữa H1 và H2 là lớn nhất

Hình 2-15 SVM tuyến tính [14]

 Giai đoạn huấn luyện SVM

Giả sử tập mẫu có được gồm l phần tử là:

(𝑥1, 𝑦1), (𝑥2, 𝑦2), … (𝑥𝑛, 𝑦𝑛)

Trong đó 𝑥𝑖 ∈ 𝑅𝑛 є còn 𝑦𝑖 ∈ {-1;1} là phân lớp của 𝑥𝑖

Cần xác định được siêu phẳng mà có thể tách biệt được hai lớp trên Có thể có

siêu phẳng như vậy và vấn đề là cần tìm ra siêu phẳng nào làm cho khoảng cách

Trang 36

Hình 2-16 Siêu phẳng phân cách hai tập mẫu [15]

Giả sử phương trình siêu phẳng cần tìm là w.x+ b= 0 trong đó w là pháp vector

của siêu phẳng w ∈ 𝑅𝑛 Ta có hai bất phương trình sau:

{𝑤𝑥𝑖+ 𝑏 ≤ −1 𝑣ớ𝑖𝑦𝑖 = −1

Kết hợp hai bất phương trình trên ta được:

Lúc đó những support vector 𝑥𝑖 thỏa mãn phương trình (𝑤𝑥𝑖+ 𝑏)= -1 thì nằm

trên siêu phẳng 𝐻1 , phương trình (𝑤𝑥𝑖 + 𝑏)=1 thì nằm trên siêu phẳng 𝐻2

Khoảng cách có dấu từ gốc tọa độ đến là: 𝑑1=(1-b)/||w|| (3.5)

Khoảng cách có dấu từ gốc tọa độ đến là: 𝑑2= (-1-b)/||w|| (3.6)

Trang 37

Suy ra khoảng cách phân hoạch d giữa𝐻1 và𝐻2 là: d = |𝑑1 -𝑑2 |=2/||w|| (3.7)

Do đó để có d lớn nhất thì ||w|| phải nhỏ nhất hay nói cách khác phải đi tìm cực

tiểu của1

2||w|| 2 Việc tìm cực tiểu sẽ là quá trình đi tìm w và b từ đó tìm ra siêu

phẳng H Kết quả của bài toán này theo [14]

Sau khi tìm ra siêu phẳng phân chia tập mẫu, việc nhận dạng một mẫu x là

việc xác định xem x thuộc phân lớp nào Phân lớp y của x (-1 hoặc +1) được

𝑓(𝑥) = ∑𝑛𝑖=1𝑢𝑖𝑦𝑖𝐾(𝑥𝑖, 𝑥) + 𝑏 (3.11)

Trang 39

Kết quả trong phương pháp C-SVM

𝑀𝑖𝑛𝜉,𝑤,𝑏 = [1

2⟨𝑤𝑇|𝑤⟩ + 𝐶 ∑𝑙𝑖=1𝜉𝑖] (3.17) Với C là hằng số dương cho trước

Kết quả trong phương pháp v-SVM

Trong đó ν ∈ (0, 1] là ngưỡng giữa lỗi huấn luyện và vector hỗ trợ

2.7 So khớp không gian phân cấp (SPM)

Sau khi đã xác định được đặc trưng, chẳng hạn đặc trưng SIFT như mô tả ở trên, ta có thể so sánh hai ảnh với nhau bằng cách xác định các đặc trưng SIFT giống nhau giữa hai ảnh Hai ảnh càng có chung nhiều đặc trưng SIFT giống nhau càng được coi là giống nhau Tuy nhiên cách so sánh như vậy không tính tới vị trí tương đối của các vùng giống nhau giữa hai ảnh Trong phần này, tôi sẽ giới thiệu một phương pháp cho phép phần nào sử dụng được các thông tin về vị trí tương đối giữa các vùng giống nhau giữa các ảnh Phương pháp có tên Spatial Pyramid Matching, viết tắt là SPM

2.7.1 So khớp phân cấp (Partial Matching)

Sau khi trích chọn đặc trưng thì mỗi ảnh được đại diện bởi tập các véc tơ đặc trưng trong không gian d chiều Như vậy việc so sánh hai ảnh với nhau trở thành việc đánh giá độ tương đồng của hai tập véc tơ đặc trưng Gọi X, Y là hai tập véc tơ đặc trưng trong không gian d chiều Grauman và Darrell đã đề xuất phương pháp so khớp phân cấp (viết tắt là PM) để ước lượng độ tương đồng giữa hai tập véc tơ này

Trang 40

Hình 3-0-17 Bên trái: So khớp cục bộ giữa tập các đặc trưng Bên phải: So

khớp phân cấp với đầu vào là hai tập véc tơ đặc trưng.[17]

Cụ thể, chúng ta xây dựng một chuỗi lưới điểm tại các độ phân giải 0, 1, …L;

Như vậy lưới điểm ở mức l có 2𝑙 vùng con dọc theo mỗi chiều, tổng số sẽ có D =

2𝑑𝑙 vùng con Gọi𝐻𝑋𝑙(𝑖) và 𝐻𝑌𝑙(𝑖)là histogram của X và Y tại lưới điểm này, do

đó𝐻𝑋𝑙(𝑖) và 𝐻𝑌𝑙(𝑖) là số điểm của tập X và Y rơi vào vùng con thứ i của lưới điểm

Số lượng so khớp tại mức l được cho bởi hàm histogram intersection:

𝐼(𝐻𝑋𝑙, 𝐻𝑌𝑙) = ∑𝐷𝑙=1min (𝐻𝑋𝑙(𝑖), 𝐻𝑌𝑙(𝑖)) (3.18)

Để ngắn gọn, ta sẽ thay 𝐼(𝐻𝑋𝑙, 𝐻𝑌𝑙) bởi 𝐼𝑙

Lưu ý: số các so khớp ở mức l cũng bao gồm tất cả các so khớp ở mức l+1 Vì vậy, số các so khớp mới ở mức l là 𝐼𝑙− 𝐼𝑙+1( l= 0, 1, …L-1) Trọng số 1

2𝐿−𝑙 tương ứng ở tỉ lệ l là nghịch đảo tỉ lệ chiều rộng giữa các vùng con được định nghĩa ở tỉ lệ

tương ứng Trọng số này được dùng để bù cho việc so khớp trên nhiều vùng có tỉ lệ

Định dạng
Số trang	107
Dung lượng	3,64 MB