1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng vật thể sử dụng giải thuật sift và bộ từ điển trực quan

102 39 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 102
Dung lượng 3,84 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Với phương pháp trích xuất đặc trưng SIFT, hệ thống tạo ra sẽ có khả năng nhận dạng với nhiều bức ảnh có tỉ lệ của vật thể khác nhau và góc chụp khác nhau.. Điều này được thể hiện thông

Trang 2

Cán bộ hướng dẫn khoa học : PGS TS HOÀNG TRANG

Cán bộ chấm nhận xét 1 : TS TRƯƠNG CÔNG DUNG NGHI

Cán bộ chấm nhận xét 2 : TS NGUYỄN MINH SƠN

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 05 tháng 01 năm 2017

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 PGS TS Lê Tiến Thường

2 TS.Trương Công Dung Nghi

3 PGS TS Hoàng Trang

4 TS Trương Quang Vinh

5 TS Lê Chí Thông

6 TS Bùi Trọng Tú

7 TS Nguyễn Minh Sơn

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

Trang 3

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: PHẠM HỮU THIỆN MSHV: 7140388 Ngày, tháng, năm sinh: 29.11.1990 Nơi sinh: Long An Chuyên ngành: Kỹ Thuật Điện Tử Mã số: 60 52 02 03

I TÊN ĐỀ TÀI: NHẬN DẠNG VẬT THỂ SỬ DỤNG GIẢI THUẬT SIFT VÀ BỘ

TỪ ĐIẾN TRỰC QUAN

II NHIỆM VỤ VÀ NỘI DUNG:

1 Tìm hiểu phương pháp nhận dạng vật thể Bag of Words

2 Xây dựng hệ thống nhận dạng dựa trên phương pháp Bag of Words

3 Đề xuất phương pháp kiểm chứng và đánh giá hệ thống

4 Từ hệ thống xây dựng được và kết quả đánh giá của hệ thống, xác định các ưuđiểm, nhược điểm và đưa ra các kiến nghị cho các nghiên cứu tiếp theo

III NGÀY GIAO NHIỆM VỤ : 11/01/2016

V CÁN BỘ HƯỚNG DẪN: PGS TS HOÀNG TRANG

Tp HCM, ngày… tháng… năm 201…

CÁN BỘ HƯỚNG DẪN

(Họ tên và chữ ký) CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký)

PGS TS HOÀNG TRANG PGS TS HOÀNG TRANG

TRƯỞNG KHOA….………

(Họ tên và chữ ký)

TS ĐỖ HỒNG TUẤN

Trang 4

Để hoàn thành luận văn này, tôi xin tỏ lòng biết ơn sâu sắc đến Thầy TS.Hoàng Trang, thầy đã tận giúp đỡ và góp ý trong suốt quá trình viết luận văn này

Tôi chân thành cảm ơn quý thầy cô trong khoa Điện-Điện tử tại Trường Đại Học Bách Khoa Thành Phố Hồ Chí Minh đã tận tình truyền đạt kiến thức trong 2 năm học tập Với vốn kiến thức được tiếp thu trong quá trình học không chỉ là nền tảng cho quá trình nghiên cứu khóa luận mà còn là hành trang để tôi sử dụng trong suốt quá trình làm việc và học tập

Tôi chân thành cảm ơn các bạn học viên cao học và các bạn sinh viên trong khoa Điện-Điện tử đã giúp đỡ và hỗ trợ tôi trong suốt quá trình học tập và thực hiện luận văn này Tôi cũng xin cảm ơn gia đình và người thân đã hỗ trợ tôi hoàn thành khóa học này

Cuối cùng tôi kính chúc quý thầy cô dồi dào sức khỏe và thành công trong sự nghiệp cao quý Đồng kính chúc các bạn sinh viên và học viên trong khoa Điện-Điện

tử luôn dồi dào sức khỏe, đạt được nhiều thành công tốt đẹp trong công việc

Xin chân thành cảm ơn!

Phạm Hữu Thiện

Trang 5

Luận văn này tập trung vào lĩnh vực “nhận dạng vật thể” dựa trên những đặc trưng cục bộ và toàn cục của một bức ảnh Một hệ thống đã được tạo ra để thực hiện nhiệm vụ này Nó có khả năng nhận dạng những vật thể quen thuộc xung quanh của một người nào đó trong phạm vi vật thể xuất hiện với cảnh nền không quá phức tạp

Phương pháp sử dụng trong luận văn này là BoW (Bag of Words) Các công đoạn tạo cơ sở dữ liệu, xây dựng bộ từ điển, huấn luyện máy học để ra quyết định sẽ được tác giả thực hiện trong luận văn này Ngoài ra, trong bước tạo cơ sở dữ liệu tác giả sẽ đưa ra giải pháp để cải thiện chất lượng nhận dạng cho phù hợp với mục tiêu nhận dạng những vật thể quen thuộc và giảm thiểu nhận dạng sai những vật thể không được huấn luyện

Cơ sở dữ liệu mà tác giả sử dụng là kết quả của những lần thử nghiệm với nhiều

cơ sở dữ liệu khác nhau Nó là kết quả của quá trình: tạo cơ sở dữ liệu, huấn luyện, nhận dạng và cập nhật cơ sở dữ liệu

Trong quá trình tạo bộ từ điển, tác giả sử dụng phương pháp trích xuất đặc trưng SIFT và phương pháp chia cụm K-Means để lượng tử các đặc trưng thành các từ trong

bộ từ điển Với phương pháp trích xuất đặc trưng SIFT, hệ thống tạo ra sẽ có khả năng nhận dạng với nhiều bức ảnh có tỉ lệ của vật thể khác nhau và góc chụp khác nhau

Để ra quyết định vật thể trong bức ảnh, tác giả sử dụng máy học SVM để ra quyết định Với số lớp phân loại là 7 tương ứng với 4 vật thể và 3 trường hợp vật thể không xuất hiện, những vật thể mà hệ thống có khả năng phân loại là: con cọp, hộp sữa, tiền và PCB (Printing Circuit Board)

Trang 6

This thesis focuses on the field of “object recognition” based on the partial and total key-points of a picture A system will be made to implement this work It has the capability to recognize familiar objects around by someone within objects appearance with non-complex background

The method used in this thesis is BoW (Bags of Words) The processes of creating an image database, building a dictionary and training a learning-machine to make decisions will be implemented by the author within this thesis In addition, in the step of creating image database, the author will recommend solutions to improve the recognition quality for suiting the target of familiar objects recognition and decreasing wrong recognition for non-trained objects

The image database used for this system is the result of many experiences with some difference databases This is the result of the process: creating image database, training for this database, recognizing and updating this database

In the step of creating dictionary, the author uses the method of extracting point SIFT and the method of sharing cluster K-Means to quantize key-points into words in dictionary Basing on the SIFT method, the system will has the ability to recognize many pictures with the scale of different objects and different viewpoints

key-To decide what object in a picture is, the author builds a learning-machine SVM

to make decision With 7 classifications, including 4 objects and 3 cases of non- object, some objects that the system can classify are: tiger, milk (box), cash, PCB (Printing Circuit Board)

Trang 7

Tôi xin cam đoan Luận văn thạc sỹ: “Nhận dạng vật thể sử dụng giải thuật SIFT

và bộ từ điển trực quan” là kết quả của quá trình học tập, nghiên cứu khoa học độc lập

và nghiêm túc

Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, được trích dẫn và

có tính kế thừa từ các bài báo khoa học, các công trình nghiên cứu

Các giải pháp nêu trong luận văn được rút ra từ những cơ sở lí luận và quá trình nghiên cứu thực tiễn

Hồ Chí Minh, ngày 19 tháng 12 năm 2016

Phạm Hữu Thiện

Trang 8

CHƯƠNG 1 GIỚI THIỆU 1

1.1 Giới thiệu đề tài 2

1.2 Mục tiêu nghiên cứu 3

1.3 Nội dung nghiên cứu 3

1.4 Phạm vi nghiên cứu 3

1.5 Cấu trúc luận văn 4

CHƯƠNG 2: TÌNH HÌNH NGHIÊN CỨU VÀ PHÂN TÍCH TỔNG QUAN LÝ THUYẾT 5

2.1 Tình hình nghiên cứu trong và ngoài nước 6

2.1.1 Nghiên cứu ngoài nước 6

2.1.2 Nghiên cứu trong nước 10

2.2 Phân tích tổng quan lý thuyết 10

2.2.1 Giải thuật SIFT 12

2.2.2 Giải thuật SURF 19

2.2.3 Giải thuật phân cụm K-Means 22

2.2.4 Máy học SVM 27

2.2.5 Giới thiệu thư viện OpenCV 31

CHƯƠNG 3: NHẬN DẠNG VẬT THỂ 33

3.1 Giới thiệu phương pháp Bag-of-Words 34

3.1.1 Trích xuất đặc trưng các ảnh trong cơ sở dữ liệu 35

3.1.2 Xây dựng bộ từ điển 36

3.1.3 Lập histogram cho ảnh và tiên đoán vật thể trong ảnh 37

3.2 Mô hình tổng quát của hệ thống 38

3.3 Tạo cơ sở dữ liệu 40

3.4 Xây dựng bộ từ điển 41

3.5 Huấn luyện máy học SVM 43

Trang 9

3.6 Nhận dạng 46

3.7 Thực hiện BoW bằng thư viện OpenCV trên hệ điều hành Ubuntu (Linux) 47

3.7.1 Tạo cơ sở dữ liệu 47

3.7.2 Xây dựng bộ từ điển 48

3.7.3 Huấn luyện máy học SVM và điều chỉnh lại cơ sở dữ liệu 49

CHƯƠNG 4: KIỂM CHỨNG VÀ ĐÁNH GIÁ ĐỀ TÀI 69

4.1 Phương pháp kiểm chứng: 70

4.1.1 Kết quả nhận dạng đối với ảnh 70

4.1.2 Kết quả nhận dạng đối với camera hoặc video 74

4.2 Đánh giá: 78

4.2.1 Đánh giá độ chính xác của hệ thống 78

4.2.2 Đánh giá thời gian nhận dạng của hệ thống 79

4.2.3 Đánh giá thời gian huấn luyện và xây dựng hệ thống 80

CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ 81

5.1 Kết quả đạt được 82

5.2 Ưu điểm, nhược điểm 82

5.2.1 Ưu điểm 82

5.2.2 Nhược điểm 82

5.3 Đóng góp luận văn 83

5.3.1 Đóng góp khoa học 83

5.3.2 Đóng góp thực tiễn 83

5.4 Hướng mở rộng và kiến nghị 84

5.4.1 Hướng mở rộng 84

5.4.2 Kiến nghị 84

TÀI LIỆU THAM KHẢO 85

Trang 10

DANH MỤC CÁC CHỮ VIẾT TẮT

1 SIFT Giải thuật SIFT - Scale-Invariant Feature

Transform

2 PCB Bảng mạch in – Printing circuit board

3 BoF Phương pháp Bag of Features

4 BoW Phương pháp Bag of Words

5 SURF Giải thuật SURF - Speeded-Up Robust Features

6 RIFT Giải thuật RIFT - Rotation-Invariant Feature

Transform

7 ILSVRC Cuộc thi ILSVRC - ImageNet Large Scale Visaul

Recogni-tion Challenge

8 SVM Máy học SVM – Support vector machine

9 DoG Difference of Gaussians

Trang 11

DANH MỤC HÌNH

Hình 2.2.1: Mô hình tổng quát của một hệ thống nhận dạng 11

Hình 2.2.1.2: Các octave và các DOG 14

Hình 2.2.1.3: Điểm cực trị 14

Hình 2.2.1.4: Tạo histogram từ cửa sổ Gaussian, các trọng số và hướng 17

Hình 2.2.1.5: Xác định điểm đặc trưng mới từ histogram 18

Hình 2.2.1.6: Cửa sổ 16x16 xung quanh điểm đặc trưng và các cửa sổ phụ của nó 18

Hình 2.2.1.7: Quay cửa sổ của điểm đặc trưng theo hướng của nó 19

Hình 2.2.2.1: Các kernal để tính xấp xỉ LoG 20

Hình 2.2.2.2: Minh hoạ cho cách tính một điểm trong Integral Image 21

Hình 2.2.2.3: Tính giá trị của một vùng 21

Hình 2.2.3.1: Quá trình tính toán và cập nhật tâm trong giải thuật K-Means 23

Hình 2.2.3.2: Chọn tâm ngẫu nhiên cho các cụm 24

Hình 2.2.4.1: Giải thuật SVM chia tập dữ liệu ra làm 2 lớp 27

Hình 2.2.4.2: Minh họa cho các lề trong máy học SVM 30

Hình 2.2.4.3: Chuyển các dữ liệu ngõ vào vào một không gian khác 30

Hình 3.1.1: Bag of Word 34

Hình 3.1.2: Biểu diễn các vật thể dưới dạng các từ ngữ 35

Hình 3.1.2.1: Lượng tử các đặc trưng thành các từ ngữ 36

Hình 3.1.3.1: Biểu diễn số lượng từ trong một bức ảnh dưới dạng histogram 37

Hình 3.2.1: Mô hình tổng quát của hệ thống 39

Hình 3.4.1: Quá trình tạo bộ từ điển 41

Hình 3.5.1: Quá trình huấn luyện máy học SVM 43

Hình 3.5.2: Tạo histogram biểu diễn số lượng từ cho một bức ảnh 44

Hình 3.6.1: Quá trình nhận dạng 46

Hình 3.7.1.1: Hệ thống tự lấy thông tin của vật thể thông qua tên thư mục của ảnh 47

Hình 3.7.2.1: Số lượng đặc trưng trích xuất được là 2548036 48

Trang 12

Hình 3.7.3.1: Các nhãn tương ứng với các thư mục vật thể 50

Hình 3.7.3.2: Nhận dạng với vật thể “Con Chó” 51

Hình 3.7.3.3: Nhận dạng với vật thể “Con Cọp” 52

Hình 3.7.3.4: Nhận dạng với vật thể “Con Bướm” 52

Hình 3.7.3.5: Nhận dạng với vật thể “Con Vịt” 53

Hình 3.7.3.6: Nhận dạng với vật thể “Chai Nước” 53

Hình 3.7.3.7: Nhận dạng với vật thể “Xe Hơi” 54

Hình 3.7.3.8: Nhận dạng với vật thể “Hộp sữa” 55

Hình 3.7.3.9: Nhận dạng với vật thể gần giống với ảnh huấn luyện 56

Hình 3.7.3.10: Nhận dạng với vật thể “Con Chó” 57

Hình 3.7.3.11: Nhận dạng với vật thể “Con Cọp” 58

Hình 3.7.3.12: Nhận dạng với vật thể “Hộp Sữa” 58

Hình 3.7.3.13: Nhận dạng với vật thể “Xe Hơi” 59

Hình 3.7.3.14: Nhận dạng với vật thể “PCB” 59

Hình 3.7.3.15: Nhận dạng với vật thể không có trong cơ sở dữ liệu 60

Hình 3.7.3.16: Nhận dạng với vật thể “Con Cọp” 62

Hình 3.7.3.17: Nhận dạng với vật thể “Hộp Sữa” 63

Hình 3.7.3.18: Nhận dạng với vật thể “PCB” 63

Hình 3.7.3.19: Nhận dạng với vật thể không có trong cơ sở dữ liệu 64

Hình 3.7.3.20: Nhận dạng với vật thể “Con Cọp” 65

Hình 3.7.3.21: Nhận dạng với vật thể “Hộp Sữa” 66

Hình 3.7.3.22: Nhận dạng với vật thể “PCB” 66

Hình 3.7.3.23: Nhận dạng với vật thể “Tiền” 67

Hình 3.7.3.24: Nhận dạng với vật thể không có trong cơ sở dữ liệu 67

Hình 4.1.1.1: Nhận dạng với cảnh nền phức tạp 71

Hình 4.1.1.2: Nhận dạng với cảnh nền đơn giản 73

Hình 4.1.1.3: Nhận dạng bằng video với cảnh nền phức tạp 75

Hình 4.1.1.4: Nhận dạng bằng camera với cảnh nền đơn giản 77

Trang 13

DANH MỤC BẢNG

Bảng 2.2.1.1: Giá trị của σ cho từng octave 13

Bảng 4.1.1.1: Kết quả nhận dạng ảnh với cảnh nền phức tạp 72

Bảng 4.1.1.2: Kết quả nhận dạng ảnh với cảnh nền đơn giản 74

Bảng 4.1.1.3: Kết quả nhận dạng bằng camera với cảnh nền phức tạp 76

Bảng 4.1.1.4: Kết quả nhận dạng bằng camera với cảnh nền đơn giản 78

Trang 14

CHƯƠNG 1 GIỚI THIỆU

Trong chương này, tác giả sẽ giới thiệu về đề tài, nêu lên ý định, mục tiêu và mục tiêu nghiên cứu của tác giả Đồng thời xác định nội dung nghiên cứu và phạm vi nghiên cứu của luận văn

Trang 15

1.1 Giới thiệu đề tài

Nhận dạng vật thể ngày nay không còn là nghiên cứu xa lạ đối với chúng ta, những thành tựu trong lĩnh vực này ngày càng to lớn hơn Những minh chứng là hiệu quả của giải thuật nhận dạng ban đầu và những giải thuật hiện đại ngày nay Nghiên cứu và ứng dụng các thuật toán nhận dạng vật thể đã dẫn đến những tiến bộ về mặt tự động trong công nghiệp, văn phòng, giao thông Điều này được thể hiện thông qua việc con người đã tạo ra các hệ thống nhận dạng ký tự quang học, biển báo, hệ thống kiểm tra lỗi trong dây chuyền lắp ráp, cũng như các hệ thống nhận dạng lỗi sản phẩm… Ngoài ra, nó còn góp phần lớn vào các ứng dụng khác như trong y tế, quốc phòng, sinh trắc học…

Nhận dạng vật thể là một lĩnh vực liên kết từ nhiều lĩnh vực khác lại với nhau

Ví dụ, để đáp ứng cho lĩnh vực nhận dạng này, con người phải đạt được những thành công nhất định về mặt công nghệ và người nghiên cứu trong lĩnh vực này cũng phải nắm được những kiến thức bổ trợ cần thiết cho việc nghiên cứu Chẳng hạn, về mặt công nghệ thì lĩnh vực này phải phụ thuộc vào chất lượng của camera, mức độ phần cứng thực hiện giải thuật… hay về mặt con người nghiên cứu thì phải hiểu rõ về các kiến thức cơ bản trong xử lý ảnh, ngôn ngữ lập trình, máy học nhân tạo Chính vì vậy, đây là một lĩnh vực rộng lớn và phải phụ thuộc vào nhiều yếu tố khác nhau mới có thể đạt được một hiệu quả mong muốn

Bất kỳ giải thuật nhận dạng nào cũng có những ưu điểm và khuyết điểm riêng của giải thuật đó Trong quá khứ đã có nhiều công trình nghiên cứu về các giải thuật này Các kết quả công bố cũng thể hiện ưu điểm và nhược điểm của từng giải thuật Tuy nhiên, các giải thuật đó được nâng cao chất lượng thực hiện theo thời gian Các giải thuật được phát triển càng gần với hiện tại cho ra kết quả càng tối ưu hơn Chính vì vậy, để nghiên cứu về lĩnh vực nhận dạng vật thể này ta phải trải qua một quá trình dài

Trang 16

để tìm hiểu các giải thuật này và rút ra kết luận để tìm một phương pháp phù hợp với hiện tại để nghiên cứu

Với mong muốn tìm hiểu sâu vào lĩnh vực nhận dạng vật nói chung và ứng dụng tạo ra một phần mềm nhận dạng vật thể nói riêng, tôi xin quyết định chọn đề tài “Nhận dạng vật thể sử dụng giải thuật SIFT (Scale-Invariant Feature Transform) và bộ từ điển trực quan” để thực hiện đề tài luận văn của mình

1.2 Mục tiêu nghiên cứu

Trong luận văn này tác giả tập trung nghiên cứu để tạo ra một hệ thống có thể nhận dạng được một số vật thể cơ bản thông qua một camera hoặc một bức ảnh Một số vật thể có thể nhận dạng được như sau: con cọp, hộp sữa, PCB (printing circuit board)

và tiền

1.3 Nội dung nghiên cứu

Để đạt được mục tiêu đã đặt ra, tác giả đã:

- Xây dựng giải thuật nhận dạng theo phương pháp Bags of Words

- Thực hiện giải thuật này bằng ngôn ngữ C++ dựa trên thư viện OpenCV

- Xác định ưu điểm và nhược điểm của nghiên cứu

- Đề xuất giải pháp dựa trên kết quả nghiên cứu và đưa ra các khuyến nghị cải thiện chất lượng nhận dạng vật thể theo phương pháp Bags of Words

1.4 Phạm vi nghiên cứu

Phạm vi của luận văn là tập trung nghiên cứu và thực hiện các bước nhận dạng theo phương pháp Bags of Feature Thông qua các lý thuyết đã nghiên cứu được tác giả xây dựng một phần mềm để mô phổng cho kết quả nghiên cứu được Kết quả đạt được

có thể ứng dụng nhận dạng được cho các vật thể như sau: con cọp, hộp sữa, tiền và PCB

Trang 17

1.5 Cấu trúc luận văn

Luận văn được chia thành 6 chương như sau:

Chương 1: Giới thiệu – Nêu lên ý định, mục tiêu và mục tiêu nghiên cứu của tác giả Đồng thời xác định nội dung nghiên cứu và phạm vi nghiên cứu của luận văn

Chương 2: Tình hình nghiên cứu và phân tích tổng quan lý thuyết – Trong chương này, tác giả trình bày tổng quan về tình hình nghiên cứu trong và ngoài nước, những lý thuyết liên quan đến luận văn này

Chương 3: Nhận dạng vật thể – Tác giả sẽ trình bày sơ lược về phương pháp sẽ được sử dụng trong luận văn và cách thức thực hiện luận văn Nội dung của các công việc được làm sẽ trình bày ở chương này

Chương 4: Kiểm chứng và đánh giá đề tài – Trong chương này, tác giả trình bày phương pháp kiểm chứng cho hệ thống tạo ra và kết quả của quá trình kiểm chứng, từ

đó đưa ra đánh giá về hệ thống đã tạo ra

Chương 5: Kết luận và kiến nghị - Trong chương này, tác giả tóm tắt lại kết quả đạt được, ưu điểm, nhược điểm của hệ thống và đóng góp của luận văn (gồm có đóng góp khoa học và đóng góp thực tiễn) Ngoài ra, tác giả còn nêu lên hướng mở rộng và kiến nghị cho phương pháp BoW

Trang 18

CHƯƠNG 2: TÌNH HÌNH NGHIÊN CỨU VÀ PHÂN TÍCH TỔNG QUAN

LÝ THUYẾT

Với sự hạn chế về thời gian và kiến thức, tác giả cố gắng thu thập, nghiên cứu

và trình bày trong chương 2 một cách tổng quan các giải thuật, lý thuyết liên quan và các công trình nghiên cứu của các nhà khoa học trong và ngoài nước có liên quan đến nội dung của luận văn Trong đó các giải thuật trích xuất đặc trưng SIFT, chia cụm K-Means và máy học SVM sẽ được tác giả sử dụng để thực hiện nhận dạng vật thể ở chương kế tiếp

Trang 19

2.1 Tình hình nghiên cứu trong và ngoài nước

2.1.1 Nghiên cứu ngoài nước

1- Phương pháp dựa trên hình học (Geometry-Based): 1960 – 198x

Đây là phương pháp được sử dụng ở thời kì ban đầu của lĩnh vực nhận dạng (vào khoảng những năm 1960 đến trước 1990) Phương pháp này nhận dạng chủ yếu dựa vào đặc điểm hình học của vật thể Hình dạng của vật thể được trích xuất thành các hình học dưới dạng 3D và được đưa đi nhận dạng Một vài công trình nghiên cứu có thể kể đến như sau:

Năm 1962, Ming-Kuei Hu [1] đưa ra một phương pháp nghiên cứu sơ khai cho nhận dạng bằng đặc điểm hình học của vật thể Đây được xem là một công trình khởi xướng cho lĩnh vực nhận dạng dựa trên hình học của vật thể

Năm 1965, Lawrence Roberts [2] đã giới thiệu một máy học mà có thể chuyển đổi một vật thể khối thành một vật thể được mô tả dưới dạng hình học 3D Sau đó, một giải thuật nhận dạng được giới thiệu năm 1965 của cùng tác giả [3], giải thuật này là tạo ra một thư viện các hình học cơ bản mà có thể lắp ghép với nhau để tạo thành hình học của một vật thể Giải thuật này trở thành tâm điểm chính cho lĩnh vực nhận dạng suốt bốn thập kỉ sau đó

Một trong những phương pháp dựa trên hình học của vật thể này nữa là nhận diện bằng những thành phần - Recognition-by-Components, 1987 [4] Dựa vào năm đặc tính dễ dàng nhận biết của các đường (hay cạnh) trong bức ảnh hai chiều của Lowe, 1984 [5]: độ cong, độ thẳng, đặc tính đối xứng, đặc tính song song và đặc tính liền kề

Tóm lại, phương pháp nhận dạng này có những khuyết điểm sau như: chất lượng nhận dạng phụ thuộc vào quá trình trích xuất các cạnh hình học (đường thẳng,

Trang 20

đường cong…) của vật thể, vật thể nhận dạng không được phức tạp quá (về mặt hình học) và tạo cơ sở dữ liệu cho vật thể được làm một cách thủ công [6]

2- Phương pháp dựa trên sự xuất hiện (Appearance Based): 199x

Phương pháp này được thực hiện bằng cách cách ghi nhớ các lần xuất hiện của một vật thể đã xảy ra Các nghiên cứu chính cho phương pháp này như:

Matthew Turk và Alex Pentland, 1991 [7] đã thực hiện phương pháp này để phát hiện phần đầu của một vật thể và sau đó nhận diện xem đó có phải là khuôn mặt hay không Tác giả đã sử dụng biện pháp ghi nhớ lại hàng nghìn khuôn mặt xuất hiện trong cuộc sống bình thường của tác giả, và sử dụng nó cho việc nhận dạng khuôn mặt dựa vào những dữ liệu đã được thu thập được

Hay nhận dạng bằng cách đánh dấu hình ảnh của Hiroshi Murase và Shree K.Nayar, 1995 [8] Cách thực hiện này là ta thu thập một số lượng lớn các bức ảnh với các góc chụp và kích thước khác nhau Sau đó các bức ảnh này được nén lại theo một cách thức riêng và cho vào một cơ sở dữ liệu Trong quá trình nhận dạng thì ảnh đầu vào được trích ra một phần để so sánh với ảnh trong cơ sở dữ liệu, xem phần đó có thuộc về vật thể có trong cơ sở dữ liệu hay không và nó thuộc về góc chụp nào

Phương pháp nhận dạng dựa trên sự xuất hiện có một ưu thế là ta không cần trích xuất đặc trưng của một bức ảnh Nhưng chúng lại yêu cầu các ảnh huấn luyện phải được tách khỏi cảnh nền Ngoài ra, chúng cũng yêu cầu số lượng lớn của hình ảnh mẫu cho quá trình học và các hình ảnh ngõ vào không bị che khuất hay nền hỗn loạn quá nhiều

3- Phương pháp Bags of Words: 2003-2012

Năm 1999, Lowe cho ra đời giải thuật tìm và mô tả điểm ảnh đặc trưng cục bộ trên bức ảnh mà bất biến với ánh sáng, kích thước và góc chụp của bức ảnh – SIFT

Trang 21

(Scale-Invariant Feature Transform) [9] Đây là giải thuật mà được ứng dụng rất rộng rãi trong các lĩnh vực xử lý ảnh Kể từ khi giải thuật này ra đời đã tạo ra 2 hướng cho phương pháp nhận dạng dựa vào đặc trưng cục bộ Đó là tìm điểm tương thích (Matching) và Bags of Feature (BoF)

Trong cùng thời điểm giải thuật SIFT ra đời, Lowe đã ứng dụng cho giải thuật nhận dạng mới Giải thuật này sử dụng phương pháp tìm điểm tương thích Tìm những điểm đặc trưng giống nhau của bức ảnh đầu vào trong cơ sở dữ liệu

Một hướng khác nữa là BoF, phương pháp này khác với phương pháp tìm điểm tương thích là ta phải tạo ra bộ từ điển trực quan và sử dụng nó để mô tả số lượng điểm đặc trưng trong bức ảnh Trong quá trình nhận dạng ta chỉ cần xét số lượng điểm đặc trưng là có thể kết luận vật thể có trong bức ảnh hay không Một kết quả nghiên cứu theo phương pháp BoF là:

Gabriella Csurka [10] và các tác giả đã thực hiện giải thuật nhận dạng theo phương pháp BoF năm 2004 Các điểm đặc trưng của ảnh huấn luyện được trích xuất

từ giải thuật SIFT và đem đi huấn luyện để tạo bộ từ điển trực quan Trong quá trình nhận dạng các tác giả lại trích xuất điểm đặc trưng lần nữa cho ảnh đầu vào và lượng tử các điểm đặc trưng thành các từ ngữ Các từ ngữ này được đưa vào một máy học khác

để đưa ra quyết định trong ảnh có chứa vật thể hay không

Ưu điểm của phương pháp BoF là đặc trưng của bức ảnh và bộ từ điển trực quan được tính hoàn toàn tự động Phương pháp BoF còn có ưu điểm nữa là các đối tượng bị che khuất và nền của bức ảnh hỗn loạn vẫn có thể nhận dạng được Do ta chỉ xét sự xuất hiện của vật thể trong bức ảnh dựa vào số lượng điểm đặc trưng chứ không bị phụ thuộc vào hình dáng của vật thể

Trong nhiều công trình nghiên cứu, không chỉ có trích xuất đặc trưng theo giải thuật SIFT mà còn có các giải thuật khác như: SURF, RIFT Mặc dù khác nhau về

Trang 22

cách thức sử dụng giải thuật trích xuất đặc trưng nhưng những công trình này vẫn mang tính chất của phương pháp BoF

4- Phương pháp máy học sâu (deep learning hoặc DNN)

Năm 2006, máy học sâu có tổ chức (deep learning) xuất hiện một cách phổ biến

Có vài nghiên cứu về máy học sâu này như “A fast learning algorithm for deep belief nets” của Hinton và các tác giả [11], hay “Learning deep architectures for AI” của Bengio [12] Đây là một khởi đầu cho sự ứng dụng máy học sâu vào nhiều lĩnh vực

Đầu tiên là các ứng dụng trong xử lý âm thanh Có thể kể đến nghiên cứu của Hinton và các tác giả năm 2012 [13] Sau đó, nó tiếp tục đóng góp trong lĩnh vực nhận dạng giọng nói rất nhiều sau vài năm phát triển

Trong lĩnh vực nhận dạng vật thể, máy học sâu lần đầu được giới thiệu bởi nhóm của Hinton [14] trong cuộc thi ILSVRC (ImageNet Large Scale Visaul Recogni-tion Challenge) năm 2012 Thông qua kết quả của nhóm Hinton, cho thấy sự vượt trội của phương pháp nhận dạng bằng máy học sâu so với các phương pháp trước đó Trong các cuộc thi ILSVRC sau đó, nhận dạng bằng phương pháp máy học sâu được nhiều người sử dụng Các người giành chiến thắng trong cuộc thi đều sử dụng phương pháp máy học sâu này

Điểm tối ưu của phương pháp này là nó có thể học từ số lượng rất lớn các ảnh mẫu đem huấn luyện và nó cho kết quả nhận dạng với độ chính xác rất cao

Và hiện nay, lĩnh vực nhận dạng vật thể sử dụng phương pháp máy học sâu đang được quan tâm chính Nó được nhiều sự đầu tư vào nghiên cứu của các người nghiên cứu do độ chính xác cao của nó

Trang 23

2.1.2 Nghiên cứu trong nước

Hiện tại các công trình nghiên cứu trong nước về lĩnh vực nhận dạng là rất hạn chế Chỉ có vài sinh viên, học viên cao học thực hiện đề tài nhận dạng làm khoá luận tốt nghiệp hay các nhà khoa học viết báo cáo đề tài khoa học Các nghiên cứu theo hai hướng chính như sau:

1- Phương pháp nhận dạng dựa vào đặc trưng cục bộ:

Phương pháp này được thực hiện bởi luận văn của Đặng Đức Duy năm 2014 [15] Giải thuật này được tác giả thực hiện thông qua hai bước: đầu tiên tác giả trích xuất đặc trưng cho bức ảnh bởi giải thuật SURF, sau đó tác giả đem các đặc trưng đi so khớp (matching) với các ảnh khác trong cơ sở dữ liệu

2- Phương pháp dựa trên hình học (Geometry-Based):

Luận văn của Đỗ Ngọc Hùng năm 2004 [16] đã thực hiện theo phương pháp này Tác giả đã phân tích hình học của vật thể bằng cách tách cạnh cho bức ảnh để tìm các đặc trưng của vật thể thông qua các cạnh đã tách được và đem nó đi nhận dạng

Luận án tiến sỹ “Nghiên cứu một số phương pháp biểu diễn hình dạng và ứng dụng trong nhận dạng ảnh” của Đỗ Năng Toàn năm 2001 [17]

Nhìn chung, các công trình nghiên cứu về lĩnh vực nhận dạng vật thể trong nước vẫn còn rất ít Nó vẫn chưa thu hút được nhiều người nghiên cứu lĩnh vực này Vì vậy, các công trình nghiên cứu trong nước vẫn chưa ảnh hưởng nhiều đến lĩnh vực nhận dạng vật thể

2.2 Phân tích tổng quan lý thuyết

Đã có nhiều công trình nghiên cứu và nhiều giải thuật đề xuất về lĩnh vực nhận dạng này Mỗi một giải thuật có một phương pháp làm khác nhau, tuy nhiên nhìn sơ bộ

Trang 24

thì các giải thuật này có các bước thực hiện là giống nhau Thông qua những giải thuật trước đó, có thể rút ra các hệ thống nhận dạng có một mô hình tổng quát sau đây:

Hình 2.2.1: Mô hình tổng quát của một hệ thống nhận dạng

Một vài giải thuật nhỏ sẽ được kết hợp với nhau để tạo nên một mô hình tổng quát ở trên Một vài giải thuật con có thể kể đến như sau:

Trích xuất đặc trưng:

- Giải thuật SIFT

- Giải thuật SURF

Kết quả

Trích xuất

đặc trưng

Quá trình học

Quá trình nhận dạng

Trang 25

- Sử dụng kết quả của các giải thuật học

2.2.1 Giải thuật SIFT

Đây là giải thuật tìm những điểm đặc trưng bất biến trong bức ảnh Các điểm đặc trưng tìm được sẽ là những điểm bất biến khi các bức ảnh chụp được khác nhau về

- Gán định hướng của điểm đặc trưng

- Mô tả điểm đặc trưng

1- Tìm điểm cực trị

Đầu tiên ta tạo ra nhiều scale-image khác nhau cho một bức ảnh bằng bộ lọc Gaussian với các sigma khác nhau Mục đích của bước tạo ra scale-image này là ta tìm những điểm đặc trưng trên nhiều kích thước ảnh khác nhau Bức ảnh đầu vào I(x, y) sẽ được tích chập với hàm Gaussian G(x, y, kσ) có các σ khác nhau để tạo ra các bức ảnh L(x, y , σ) khác nhau

(2.2.1.1)

Trang 26

Ta cần tạo ra các scale-image cho một bức ảnh với các thông số được đề nghị bởi Lowe Ban đầu σ được chọn là √ /2, các scale-image tiếp theo ta gấp đôi σ lên 2 lần Sau đó, nhóm các scale-image này lại thành một octave Các hình trong octave này

sẽ được giảm kích thước lại 2 lần để tạo ra một octave mới Số lượng octave ta cần tạo

ra là 4 và số lượng scale-image trên một octave là 5

Sau đây là bảng thể hiện giá trị của σ trong các octave:

Bảng 2.2.1.1: Giá trị của σ cho từng octave

Sau khi ta có được các octave, tương ứng với mỗi octave ta trừ các ảnh gần kề với nhau Các ảnh được tạo ra sẽ là các ảnh DoG (difference-of-Gaussian)

(2.2.1.2) Các octave và các DoG sau khi đã được tạo:

Trang 27

Hình 2.2.1.2: Các octave và các DoG [18]

Đối với mỗi octave, ta tìm những pixel mà có giá trị lớn hơn (hoặc nhỏ hơn) 8 pixel xung quanh nó và 18 pixel của DoG nằm trên và nằm dưới nó (hình 2.2.1.3) Nếu một điểm mà có giá trị lớn hơn (hoặc nhỏ hơn) 26 pixel xung quanh nó thì điểm đó chính là điểm cực trị

Hình 2.2.1.3: Điểm cực trị [18]

Các điểm cực trị có khả năng là các điểm đặc trưng Nhưng cũng có khả năng các điểm đặc trưng là các điểm nằm xung quanh quanh điểm đặc trưng này Để xác

Trang 28

định được chính xác vị trí của điểm đặc trưng ta cần làm thêm bước sau, định vị điểm đặc trưng

2- Định vị điểm đặc trưng

Trong bước này, các điểm đặc trưng sẽ được xác định vị trí một các chính xác từ các cực trị được tìm ở bước trước Các điểm đặc trưng mà có độ tương phản thấp hay dọc theo các cạnh cũng được loại bỏ

Để xác định vị trí chính xác của các điểm đặc trưng, ta xác định vị trí của điểm phụ (sub-pixel) bằng cách khai triển chuỗi Talor bậc 2 Vị trí chính xác của điểm đặc trưng được xác định bởi phương trình sau:

sẽ loại bỏ điểm đặc trưng này

Trang 29

Cuối cùng ta loại bỏ những điểm nằm trên các cạnh bằng cách sử dụng ma trận Hessian

[ ] (2.2.1.5) (2.2.1.6) (2.2.1.7)

(2.2.1.8)

Ta sử dụng giá trị r của Lowe là 10 (r = 10) Nếu những điểm đặc trưng nào có không đáp ứng được yêu cầu của (2.2.1.8) thì sẽ được loại bỏ Đây là những điểm ảnh nằm trên các cạnh nên sẽ bị loại bỏ

3- Xác định hướng của điểm đặc trưng

Trong bước này ta sẽ gán định hướng cho một điểm đặc trưng đã được tìm thấy Mục đích của bước này là để xác định hướng của một điểm đặc trưng và sử dụng nó để

mô tả đặc trưng mà được thực hiện trong bước sau Điều này sẽ tạo ra một mô tả đặc trưng cho một điểm mà bất biến với các góc xoay

Độ dốc m(x, y) và hướng θ(x, y) cho các điểm xung quanh (điểm lân cận) điểm đặc trưng trên ảnh L(x,y,σ) được xác định bởi công thức sau:

√[ ] [ ] (2.2.1.9)

[[ ]

[ ]

Trang 30

Để xác định được hướng của một điểm đặc trưng, ta tạo một histogram gồm có

36 cột thể hiện cho các hướng (36 cột tương ứng 360 - mỗi cột là 10 ) Lấy một vùng xung quanh điểm đặc trưng có độ rộng tuỳ vào scale của điểm đặc trưng, với mỗi một điểm trong vùng này được gán trọng số bằng tích của độ dốc m(x, y) và hàm Gaussian với σ bằng 1,5 lần σ của điểm đặc trưng Vậy, với một điểm lân cận sẽ có một trọng số

và một giá trị hướng θ(x, y) Các điểm lân cận đó sẽ được cộng trọng số vào cột có θ(x, y) tương ứng của điểm đó Ví dụ, một điểm có θ(x, y) = 18,5 sẽ được cộng trọng số vào cột 10-19

Hình 2.2.1.4: Tạo histogram từ cửa sổ Gaussian, các trọng số và hướng

Trong histogram vừa mới tạo xong, ta tìm cột nào có giá trị lớn nhất thì đó chính là hướng của điểm đặc trưng Thí dụ trong hình 2.2.1.5, hướng của điểm đặc trưng sẽ là trong khoảng 20-29 Ngoài ra, cột nào mà có giá trị bằng 80% của cột lớn nhất thì sẽ được lấy làm một điểm đặc trưng mới có hướng là cột tương ứng Trong hình 2.2.1.6, cột 300-309 là một điểm đặc trưng mới với hướng là 300-309

Trang 31

Hình 2.2.1.7: Xác định điểm đặc trưng mới từ histogram [19]

4- Mô tả điểm đặc trưng

Bước cuối cùng trong giải thuật SIFT là ta tạo ra mô tả cho điểm đặc trưng bằng một vector có độ dài là 128 phần tử Mỗi điểm đặc trưng sẽ có một mô tả dựa trên độ scale, hướng và vị trí của điểm đặc trưng đó Mô tả này sẽ giúp ta có thể tìm kiếm các đặc trưng giống nhau trong hai bức ảnh khác nhau về góc chụp, độ lớn (scale)…

Hình 2.2.1.8: Cửa sổ 16x16 xung quanh điểm đặc trưng và các cửa sổ phụ của nó [20]

Trang 32

Một histogram cần được tạo ra cho cửa sổ 16x16 mà có điểm đặc trưng nằm ở giữa, cửa sổ này tiếp tục được chia thành các cửa sổ phụ 4x4 Mỗi cửa sổ phụ ta sẽ tạo

ra một histogram con gồm có 8 cột thể hiện cho 8 hướng (45 cho một cột) Vậy, sau khi thực hiện xong, ta tạo được một histogram có độ dài là 128 cột, histogram này chính là mô tả cho điểm đặc trưng Hình 2.2.1.6 là minh hoạ cho bước làm này

Hình 2.2.1.9: Quay cửa sổ của điểm đặc trưng theo hướng của nó [21]

Để mô tả điểm đặc trưng là bất biến về góc quay, ta cần chọn gốc toạ độ của điểm đặc trưng có trục hoành là hướng của điểm đặc trưng mà được tính ở bước trước Hình 2.2.1.7 minh hoạ cho bước làm này

Với mỗi cửa sổ phụ, độ dốc m(x, y) và hướng θ(x, y) được tính cho các điểm trong cửa sổ phụ này giống bước tính định hướng cho điểm đặc trưng Hàm Gaussian với σ bằng 0.5 lần σ của điểm đặc trưng được nhân với m(x, y) của các điểm trong cửa

sổ Ta cộng các giá trị trọng số vừa nhân xong vào cột có θ tương ứng để tạo ra một histogram con có 8 cột

2.2.2 Giải thuật SURF

Đây là giải thuật tương tự như SIFT nhưng nó được thực hiện nhanh hơn và hiệu quả tốt hơn do sử dụng những kỹ thuật tính toán xấp xỉ Đây được gọi là phiên bản

Trang 33

tính nhanh của SIFT SURF được sử dụng cho các ứng dụng chạy thời gian thực do khả năng tính toán nhanh của nó

SIFT sử dụng DoG (Difference of Gaussian) để xấp xỉ LoG (Laplace of Gaussian) Trong khi đó, SURF sử dụng Box Filter để xấp xỉ nên tốc độ tính được cải thiện hơn mà vẫn giữ được độ chính xác

Hình 2.2.2.1: Các kernal để tính xấp xỉ LoG [22]

a.Dxx; b.Dyy; c.Dx

Thuật toán xấp xỉ này sử dụng các kernal như hình 2.2.2.2 để tính toán xấp xỉ LoG bằng cách nhân các trọng số của kernel này với giá trị trong một vùng của bức ảnh mà được xác định bằng ảnh “Integral Image” Ảnh Integral Image là một ảnh mà giá trị tại một điểm X(x, y) là tổng giá trị của tất cả các các điểm mà có toạ độ nhỏ hơn hoặc bằng (x ,y) Công thức sau là công thức tổng quát cho một điểm trong ảnh Integral Image:

Trang 34

Hình 2.2.2.3: Minh hoạ cho cách tính một điểm trong Integral Image [22]

Bằng cách tạo ra Integral Image ta có thể dễ dàng tính nhanh giá trị của các điểm trong một vùng của bức ảnh bất kì như sau:

Hình 2.2.2.4: Tính giá trị của một vùng [22]

Giá trị các điểm của một bức ảnh bất kì có toạ độ như vùng màu vàng sẽ là:

(2.2.2.2) Như vậy, với ảnh Integral Image thì ta dễ dàng tính nhanh giá trị trong một vùng của một bức ảnh Điều này sẽ giúp ta nhanh chóng tích chập một kernel bên trên với một ảnh bất kì bằng cách xác định giá trị trong một vùng ảnh bằng Integral Image và nhân nó với các trọng số của kernel

Giá trị của ảnh LoG tại điểm X = (x, y, σ) sẽ được tạo ra từ các kernel và ảnh Integral Image bên trên như sau:

Trang 35

( ) (2.2.2.3) Giá trị σ sẽ phụ thuộc vào độ lớn của kernel và ta có thể tạo ra nhiều ảnh LoG với nhiều scale khác nhau bằng cách tăng kích thước của các kernel này

⁄ (2.2.2.4) Đây là phương pháp xấp xỉ LoG mà nhanh hơn DoG của SIFT rất nhiều nhờ vào các bước tính toán đơn giản của nó Ngoài bước xấp xỉ này ra thì hầu như hai giải thuật này là tương tự nhau về các bước và cả cách thực hiện

2.2.3 Giải thuật phân cụm K-Means

Giải thuật phân cụm K-Means (K-Means clustering) là một thuật toán phân loại

n đối tượng thành k cụm dựa trên thuộc tính của các đối tượng Các đối tượng trong cùng 1 cụm có thuộc tính tương tự nhau

Mục tiêu của giải thuật K-means là tìm ra tâm của từng cụm sao cho khoảng cách của một đối tượng thuộc về một cụm đến tâm của cụm đó là gần nhất (gần hơn khoảng cách đến các cụm khác)

Trang 36

Hình 2.2.3.1: Quá trình tính toán và cập nhật tâm trong giải thuật K-Means

Phương pháp thực hiện giải thuật phân cụm K-Means được tổng quát như hình 2.2.3.1 Các bước thực hiện được mô tả như sau:

- Xác định K cụm cho n đối tượng đầu vào

- Chọn ngẫu nhiên các tâm cho K cụm

- Tính khoảng cách Euclidean từ đối tượng tới các tâm

- Phân các đối tượng vào cụm gần nhất

- Cập nhật tâm mới cho K cụm

- Thực hiện lại từ bước thứ 3 cho tới khi các đối tượng không có sự thay đổi cụm nào nữa Lúc này các tâm đã hội tụ

Xác định K cụm cho n đối

tượng đầu vào

Chọn ngẫu nhiên các tâm

T

F Các đối tượng còn

thay đổi cụm?

Trang 37

1- Xác định K cụm cho n đối tượng đầu vào

Từ các đối tượng đầu vào là các vector nhiều chiều, ta xác định số lượng đặc trưng mà ta cần phân loại các đối tượng này Các đặc trưng này sẽ là các cụm trong thuật toán K-Means

2- Chọn ngẫu nhiên các tâm cho K cụm

Các tâm đầu tiên được tạo ra để phục vụ cho một chuỗi lần tính toán khoảng cách từ các đối tượng đến các tâm này Sau mỗi lần tính toán như vậy ta sẽ tìm ra các tâm mới thay cho các tâm cũ Ta thực hiện chuỗi tính toán này cho tới khi các tâm không có sự thay đổi nào mới

Hình 2.2.3.2: Chọn tâm ngẫu nhiên cho các cụm

Trang 38

Ví dụ, ta có 4 đối tượng A1, A2, A3 và A4 có các tính chất như sau: A1(1, 3); A2(1, 4); A3(4, 2) và A4(3, 4) Ta chọn ngẫu nhiên 2 điểm tuỳ ý làm tâm cho các điểm này Giả sử ta chọn C1(1, 1) và C2(3, 2) như hình 2.2.3.3

3- Tính khoảng cách Euclidean từ đối tượng tới các tâm

- xis - thuộc tính thứ s của đối tượng ai

- xjs - thuộc tính thứ s của tâm cj

Trong ví dụ trước, khoảng cách Euclidean của đối tượng A1 tới các cụm được tính như sau:

√ √ √

4- Phân các đối tượng vào cụm gần nhất

Dựa trên khoảng cách Euclidean vừa tính cho các đối tượng, ta nhóm các đối tượng đó vào cụm nào có khoảng cách là ngắn nhất

Trang 39

Trong trường hợp của đối tượng A1, đối tượng này sẽ được nhóm vào cụm 1 (do

5- Cập nhật tâm mới cho K cụm

Sau mỗi lần thay đổi cụm của các đối tượng, ta phải tính toán lại vị trí của các tâm sao cho khoảng cách từ tâm đến các đối tượng trung cùng một cụm là nhỏ nhất có thể

Để cập nhật vị trí mới cho các tâm ta sử dụng công thức trung bình cộng toạ độ các đối tượng trong cụm

- xsj - thuộc tính thứ j của đối tượng s; s = 1 t

- cij - toạ độ thứ j của tâm cụm i

Sau khi cập nhật tâm mới xong giải thuật được lặp lại từ bước tính khoảng cách cho các đối tượng Sau nhiều vòng lặp như vậy, khoảng cách từ tâm tới các đối tượng trong một cụm sẽ càng nhỏ đi và tâm mới cũng ít thay đổi hơn Đến khi tâm không còn thay đổi nữa thì các tâm đã hội tụ Lúc này khoảng cách từ tâm tới các đối tượng là nhỏ nhất có thể

Trang 40

Khi muốn xét đặc trưng của một đối tượng bất kì, ta tính khoảng cách từ đối tượng đó tới các tâm đã hội tụ Nếu khoảng cách tới cụm nào là nhỏ nhất thì đối tượng này có đặc trưng thuộc về cụm đó

2.2.4 Máy học SVM

SVM là kỹ thuật dùng để phân loại tập hợp các vector đầu vào thành hai lớp riêng biệt Mục đích của bài toán phân lớp này là để xác định một vector đầu vào có thuộc về lớp các đối tượng mà ta cần quan tâm hay không

Một tập các dữ liệu huấn luyện (các vector đầu vào) được đem đi huấn luyện mà được gán nhãn cho các đối tượng trong tập dữ liệu Máy phân lớp sẽ được tạo ra làm nhiệm vụ phân loại các vector đầu vào này dựa vào các nhãn đã được gán bằng một siêu phẳng mà có thể phân tách các dữ liệu mẫu thành 2 lớp riêng biệt Bài toán đặt ra

là ta phải tìm ra siêu phẳng này với khoảng cách từ nó tới các dữ liệu trong 2 lớp là lớn nhất

Hình 2.2.4.1: Giải thuật SVM chia tập dữ liệu ra làm 2 lớp [23]

Ngày đăng: 27/01/2021, 08:14

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[3] L. G. Roberts, "Machine Perception of Three-Dimensional Solids," in In Tippett, J. and Berkowitz, D. and Clapp, L. and Koester, C. and Vanderburgh, A., editor, Optical and Electrooptical Information processing, MIT Press, 1965, p. 159–197 Sách, tạp chí
Tiêu đề: Machine Perception of Three-Dimensional Solids
[4] I. Biederman, "Recognition-by-Components: A Theory of Human Image Understanding," Psychological Review, vol. 94, no. 2, pp. 115-147, 1987 Sách, tạp chí
Tiêu đề: Recognition-by-Components: A Theory of Human Image Understanding
[5] D. G.Lowe, "Perceptual Organization and Visual Recognition," Ph.D. dissertation, Stanford University, Stanford, September 1984 Sách, tạp chí
Tiêu đề: Perceptual Organization and Visual Recognition
[6] Jiri Matas and Stepán Obdrzálek, "OBJECT RECOGNITION METHODS BASED ON TRANSFORMATION," Center for Machine Perception, Czech Technical University, Prague Sách, tạp chí
Tiêu đề: OBJECT RECOGNITION METHODS BASED ON TRANSFORMATION
[7] Matthew Turk and Alex Pentland, "Eigenfaces for recognition," Journal of Cognitive Neuroscience, vol. 3, no. 1, p. 71–86, 1991 Sách, tạp chí
Tiêu đề: Eigenfaces for recognition
[8] Hiroshi Murase and Shree K.Nayar, "Image spotting of 3d objects using parametric eigenspace representation," in The 9th Scandinavian Conference on Image Analysis, Sweden, June 1995 Sách, tạp chí
Tiêu đề: Image spotting of 3d objects using parametric eigenspace representation
[9] D. G.Lowe, "Object recognition from local scale-invariant features," in International Conference on Computer Vision, Corfu, September 1999 Sách, tạp chí
Tiêu đề: Object recognition from local scale-invariant features
[10] Gabriella Csurka, Christopher Dance, Lixin Fan, Jutta Willamowski, Cédric Bray, "Visual Categorization with Bags of Keypoints," Workshop on statistical learning in computer vision, ECCV, vol. 1, no. 1-22, pp. 1-2, May 2004 Sách, tạp chí
Tiêu đề: Visual Categorization with Bags of Keypoints
[12] Y. Bengio, "Learning deep architectures for AI," Foundations and Trends in Machine Learning, vol. 2, no. 1, pp. 1-127, January 2009 Sách, tạp chí
Tiêu đề: Learning deep architectures for AI
[13] Geoffrey Hinton, Li Deng, Dong Yu, George Dahl, Abdel-rahman Mohamed, Navdeep Jaitly, Andrew, "Deep Neural Networks for Acoustic Modeling," IEEE Signal Processing Magazine, vol. 29, no. 6, pp. 82 - 97, October 2012 Sách, tạp chí
Tiêu đề: Deep Neural Networks for Acoustic Modeling
[14] A. Krizhevsky, L. Sutskever, and G. E. Hinton, "Imagenet classification with deep convolutional neural networks," in Proc. Neural Information Processing Systems, 2012 Sách, tạp chí
Tiêu đề: Imagenet classification with deep convolutional neural networks
[15] Đ. Đ. Duy, "Ứng Dụng Xử Lý Ảnh Nhận Dạng Vật Thể Theo Màu Sắc Và Hình Dạng Cho Robot Tay Máy," Đại học Bách Khoa tp.HCM, Hồ Chí Minh, 2014 Sách, tạp chí
Tiêu đề: Ứng Dụng Xử Lý Ảnh Nhận Dạng Vật Thể Theo Màu Sắc Và Hình Dạng Cho Robot Tay Máy
[16] Đ. N. Hùng, "Ứng Dụng Mạng NEURON Vào Nhận Dạng Vật Thể Trong Không Gian Ba Chiều," Đại học Bách Khoa tp.HCM, Hồ Chí Minh, 2004 Sách, tạp chí
Tiêu đề: Ứng Dụng Mạng NEURON Vào Nhận Dạng Vật Thể Trong Không Gian Ba Chiều
[17] Đ. N. Toàn, "Nghiên Cứu Một Số Phương Pháp Biểu Diễn Hình Dạng Và Ứng Dụng Trong Nhận Dạng Ảnh," Viện Công nghệ Thông tin - Trung Tâm KHTN &CNQG, Hà Nội, 2001 Sách, tạp chí
Tiêu đề: Nghiên Cứu Một Số Phương Pháp Biểu Diễn Hình Dạng Và Ứng Dụng Trong Nhận Dạng Ảnh
[18] "Introduction to SIFT (Scale-Invariant Feature Transform)," [Online]. Available: http://docs.opencv.org/3.1.0/da/df5/tutorial_py_sift_intro.html. [Accessed 18 Dec 2016] Sách, tạp chí
Tiêu đề: Introduction to SIFT (Scale-Invariant Feature Transform)
[19] U. Sinha, "SIFT: Theory and Practice," [Online]. Available: http://aishack.in/tutorials/sift-scale-invariant-feature-transform-keypoint-orientation/. [Accessed 18 Dec 2016] Sách, tạp chí
Tiêu đề: SIFT: Theory and Practice
[20] U. Sinha, "SIFT: Theory and Practice," [Online]. Available: http://aishack.in/tutorials/sift-scale-invariant-feature-transform-features/ Sách, tạp chí
Tiêu đề: SIFT: Theory and Practice
[21] Andrea Lingua, Davide Marenchino and Francesco Nex, "Performance Analysis of the SIFT Operator for Automatic Feature Extraction and Matching in Photogrammetric Applications," Sensors, May 2009 Sách, tạp chí
Tiêu đề: Performance Analysis of the SIFT Operator for Automatic Feature Extraction and Matching in Photogrammetric Applications
[23] "Introduction to Support Vector Machines," [Online]. Available: http://docs.opencv.org/2.4/doc/tutorials/ml/introduction_to_svm/introduction_to_svm.html. [Accessed 18 Dec 2016] Sách, tạp chí
Tiêu đề: Introduction to Support Vector Machines
[24] lukelushu, "Support Vector Machines (1)," [Online]. Available: https://lukelushu.wordpress.com/2014/09/09/support-vector-machines-1/.[Accessed 9 September 2014] Sách, tạp chí
Tiêu đề: Support Vector Machines (1)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w