1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng vật thể sử dụng giải thuật sift và bộ từ điển trực quan

93 123 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 93
Dung lượng 2,83 MB
File đính kèm giải thuật Sift.rar (15 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

I.NHIỆM VỤ VÀ NỘI DUNG:1.Tìm hiểu phương pháp nhận dạng vật thể Bag of Words2.Xây dựng hệ thống nhận dạng dựa hên phương pháp Bag of Words3.Đề xuất phương pháp kiểm chứng và đánh giá hệ thống4.Từ hệ thống xây dựng được và kết quả đánh giá của hệ thống, xác định các ưu điểm, nhược điểm và đưa ra các kiến nghị cho các nghiên cứu tiếp theo.

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM Cán bộ hướng dẫn khoa học : PGS TS HOÀNG TRANG

Cán bộ chấm nhận xét 1 : TS TRƯƠNG CÔNG DUNG NGHI

Cán bộ chấm nhận xét 2 : TS NGUYỄN MINH SƠN

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 05 tháng

01 năm 2017

Thành phần Hội đồng đánh giá luận vãn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ)

1 PGS TS Lê Tiến Thường

2 TS.Trương Công Dung Nghi

3 PGS TS Hoàng Trang

4 TS Trương Quang Vinh

5 TS Lê Chí Thông

6 TS Bùi Trọng Tú

7 TS Nguyễn Minh Sơn

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận vãn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: PHẠM HỮU THỆN

Ngày, tháng, năm sinh: 29.11.1990

Chuyên ngành: Kỹ Thuật Điện Tử

I TÊN ĐỀ TÀI: NHẬN DẠNG VẬT THỂ SỬ DỤNG GIẢI THUẬT SIFT VÀ BỘ TỪ ĐIỂN TRỰC QUAN

II NHIỆM VỤ VÀ NỘI DUNG:

1 Tìm hiểu phương pháp nhận dạng vật thể Bag of Words

2 Xây dựng hệ thống nhận dạng dựa hên phương pháp Bag of Words

3 Đề xuất phương pháp kiểm chứng và đánh giá hệ thống

4 Từ hệ thống xây dựng được và kết quả đánh giá của hệ thống, xác định các ưu điểm, nhược điểm và đưa ra các kiến nghị cho các nghiên cứu tiếp theo

III NGÀY GIAO NHIỆM VỤ : 11/01/2016

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 04/12/2016

V CÁN BỘ HƯỚNG DẪN: PGS TS HOÀNG TRANG

Trang 4

và học tập

Tôi chân thành cảm ơn các bạn học viên cao học và các bạn sinh viên ừong khoa Điện-Điện tử đã giúp đỡ và hỗ trợ tôi trong suốt quá trình học tập và thực hiện luận văn này Tôi cũng xin cảm ơn gia đình và người thân đã hỗ trợ tôi hoàn thành khóa học này

Cuối cùng tôi kính chúc quý thầy cô dồi dào sức khỏe và thành công ương sự nghiệp cao quý Đồng kính chúc các bạn sinh viên và học viên trong khoa Điện-Điện tử luôn dồi dào sức khỏe, đạt được nhiều thành công tốt đẹp trong công việc

Xin chân thành cảm ơn!

Phạm Hữu Thiện

Trang 5

TÓM TẮT LUẬN VĂN

Luận văn này tập trung vào lĩnh vực “nhận dạng vật thể” dựa hên những đặc trưng cục bộ và toàn cục của một bức ảnh Một hệ thống đã được tạo ra để thực hiện nhiệm vụ này Nó có khả năng nhận dạng những vật thể quen thuộc xung quanh của một người nào

đó trong phạm vi vật thể xuất hiện với cảnh nền không quá phức tạp

Phương pháp sử dụng trong luận vãn này là BoW (Bag of Words) Các công đoạn tạo cơ sở dữ liệu, xây dựng bộ từ điển, huấn luyện máy học để ra quyết định sẽ được tác giả thực hiện Ương luận văn này Ngoài ra, ương bước tạo cơ sở dữ liệu tác giả sẽ đưa ra giải pháp để cải thiện chất lượng nhận dạng cho phù hợp với mục tiêu nhận dạng những vật thể quen thuộc và giảm thiểu nhận dạng sai những vật thể không được huấn luyện

Cơ sở dữ liệu mà tác giả sử dụng là kết quả của những lần thử nghiệm với nhiều

cơ sở dữ liệu khác nhau Nó là kết quả của quá trình: tạo cơ sở dữ liệu, huấn luyện, nhận dạng và cập nhật cơ sở dữ liệu

Trong quá trình tạo bộ từ điển, tác giả sử dụng phương pháp trích xuất đặc trưng SIFT và phương pháp chia cụm K-Means để lượng tử các đặc trưng thành các từ Ương

bộ từ điển Với phương pháp trích xuất đặc trưng SIFT, hệ thống tạo ra sẽ có khả năng nhận dạng với nhiều bức ảnh có tỉ lệ của vật thể khác nhau và góc chụp khác nhau

Để ra quyết định vật thể trong bức ảnh, tác giả sử dụng máy học SVM để ra quyết định Với số lớp phân loại là 7 tương ứng với 4 vật thể và 3 trường hợp vật thể không xuất hiện, những vật thể mà hệ thống có khả năng phân loại là: con cọp, hộp sữa, tiền và PCB (Printing Cữcuit Board)

Trang 6

ABSTRACT

This thesis focuses on the field of “object recognition” based on the partial and total key-points of a picture A system will be made to implement this work It has the capability to recognize familiar objects around by someone within objects appearance with non-complex background

The method used in this thesis is BoW (Bags of Words) The processes of creating

an image database, building a dictionary and training a learning-machine to make decisions will be implemented by the author within this thesis In addition, in the step of creating image database, the author will recommend solutions to improve the recognition quality for suiting the target of familiar objects recognition and decreasing wrong recognition for non-trained objects

The image database used for this system is the result of many experiences with some difference databases This is the result of the process: creating image database, training for this database, recognizing and updating this database

In the step of creating dictionary, the author uses the method of exttacting keypoint SIFT and the method of sharing cluster K-Means to quantize key-points into words in dictionary Basing on the SIFT method, the system will has the ability to recognize many pictures with the scale of different objects and different viewpoints

To decide what object in a picture is, the author builds a learning-machine SVM

to make decision With 7 classifications, including 4 objects and 3 cases of non- object, some objects that the system can classify are: tiger, milk (box), cash, PCB (Printing Cừcuit Board)

Trang 7

LỜI CAM ĐOAN

Tôi xin cam đoan Luận văn thạc sỹ: “Nhận dạng vật thể sử dụng giải thuật SIFT

và bộ từ điển trực quan” là kết quả của quá trình học tập, nghiên cứu khoa học độc lập và nghiêm túc

Các số liệu trong luận văn là trung thực, có nguồn gốc rõ ràng, được trích dẫn và

có tính ke thừa từ các bài báo khoa học, các công trình nghiên cứu

Các giải pháp nêu trong luận văn được rút ra từ những cơ sở lí luận và quá trình nghiên cứu thực tiễn

Hồ Chí Minh, ngày 19 tháng 12 năm 2016

Phạm Hữu Thiện

Trang 8

MỤC LỤC

CHƯƠNG 1 GIỚI THỆU 1

1.1 Giới thiệu đề tài 2

1.2 Mục tiêu nghiên cứu 3

1.3 Nội dung nghiên cứu 3

1.4 Phạm vi nghiên cứu 3

1.5 Cấu trúc luận văn 4

CHƯƠNG 2: TÌNH HÌNH NGHIÊN cứu VÀ PHÂN TÍCH TỔNG QUAN LÝ THUYẾT 5

2.1 Tình hình nghiên cứu trong và ngoài nuớc 6

2.1.1 Nghiên cứu ngoài nước 6

2.1.2 Nghiên cứu trong nước 10

2.2 Phân tích tổng quan lý thuyết 10

2.2.1 Giải thuật SIFT 12

2.2.2 Giải thuật SURF 19

2.2.3 Giải thuật phân cụm K-Means 22

2.2.4 MáyhọcSVM 27

2.2.5 Giới thiệu thư viện OpenCV 31

CHƯƠNG 3: NHẬN DẠNG VẬT THÊ 33

3.1 Giới thiệu phương pháp Bag-of-Words 34

3.1.1 Trích xuất đặc trưng các ảnh trong cơ sở dữ liệu 35

3.1.2 Xây dựng bộ từ điển 36

3.1.3 Lập histogram cho ảnh và tiên đoán vật thể trong ảnh 31

3.2 Mô hình tổng quát của hệ thống 38

3.3 Tạo cơ sở dữ liệu 40

3.4

Xây dựng bộ từ điển 41

Trang 9

3.5 Huấn luyện máy học SVM 43

3.6 Nhận dạng 46

3.7 Thực hiện BoW bằng thư viện OpenCV ừên hệ điều hành Ubuntu (Linux) 47

3.7.1 Tạo cơ sở dữ liệu 47

3.7.2

Xây dựng bộ từ điển 48

3.7.3

Huấn luyện máy học SVM và điều chỉnh lại cơ sở dữ liệu 49

CHƯƠNG 4: KIỂM CHỨNG VÀ ĐÁNH GIÁ ĐỀ TÀI 69

4.1 Phương pháp kiểm chứng: 70

4.1.1 Kết quả nhận dạng đổi với ảnh 70

4.1.2 Kết quả nhận dạng đổi với camera hoặc video 74

4.2 Đánh giá: 78

4.2.1 Đánh giá độ chính xác của hệ thống 78

4.2.2 Đánh giá thời gian nhận dạng của hệ thống 79

4.2.3 Đánh giá thời gian huấn luyện và xây dựng hệ thống 80

CHƯƠNG 5: KẾT LUẬN VÀ KIẾN NGHỊ 81

5.1 Kết quả đạt được 82

5.2 Ưu điểm, nhược điểm 82

5.2.1 ưu điểm 82

5.2.2 Nhược điểm 82

5.3 Đóng góp luận vãn 83

5.3.1 Đóng góp khoa học 83

5.3.2 Đóng góp thực tiễn 83

5.4 Hướng mở rộng và kiến nghị 84

5.4.1 Hướng mở rộng 84

5.4.2 Kiến nghị 84

TÀI LỆƯ THAM KHẢO 85

Trang 10

DANH MỤC CÁC CHỮ VIẾT TẮT STT Chữ viết tắt Ý nghĩa

1 SIFT

Giải thuật SIFT - Scale-Invariant Feature Transform

2 PCB Bảng mạch in - Printing cừcuit board

3 BoF Phuong pháp Bag of Features

4 BoW Phuong pháp Bag of Words

5 SURF Giải thuật SURF - Speeded-Up Robust Features

8 SVM Máy học SVM - Support vector machine

9 DoG Difference of Gaussians

Trang 11

DANH MỤC HÌNH

Hình 2.2.1: Mô hình tổng quát của một hệ thống nhận dạng 11

Hình 2.2.1.2: Các octave và các DOG 14

Hình 2.2.1.3: Điểm cực trị 14

Hình 2.2.1.4: Tạo histogram từ cửa sổ Gaussian, các trọng số và hướng 17

Hình 2.2.1.5: Xác định điểm đặc trưng mới từ histogram 18

Hình 2.2.1.6: Cửa sổ 16x16 xung quanh điểm đặc trưng và các cửa sổ phụ của nó 18

Hình 2.2.1.7: Quay cửa sổ của điểm đặc trưng theo hướng của nó 19

Hình 2.2.2.1: Các kemal để tính xấp xỉ LoG 20

Hình 2.2.2.2: Minh hoạ cho cách tính một điểm ừong Integral Image 21

Hình 2.2.2.3: Tính giá trị của một vùng 21

Hình 2.2.3.1: Quá trình tính toán và cập nhật tâm trong giải thuật K-Means 23

Hình 2.2.3.2: Chọn tâm ngẫu nhiên cho các cụm 24

Hình 2.2.4.1: Giải thuật SVM chia tập dữ liệu ra làm 2 lớp 27

Hình 2.2.4.2: Minh họa cho các lề trong máy học SVM 30

Hình 2.2.4.3: Chuyển các dữ liệu ngõ vào vào một không gian khác 30

Hình 3.1.1: Bag of Word 34

Hình 3.1.2: Biểu diễn các vật thể dưới dạng các từ ngữ 35

Hình 3.1.2.1: Lượng tử các đặc trưng thành các từ ngữ 36

Hình 3.1.3.1: Biểu diễn số lượng từ trong một bức ảnh dưới dạng histogram 37

Hình 3.2.1: Mô hình tổng quát của hệ thống 39

Hình 3.4.1: Quá trình tạo bộ từ điển 41

Hình 3.5.1: Quá trình huấn luyện máy học SVM 43

Hình 3.5.2: Tạo histogram biểu diễn số lượng từ cho một bức ảnh 44

Hình 3.6.1: Quá trình nhận dạng 46

Hình 3.7.1.1: Hệ thống tự lấy thông tin của vật thể thông qua tên thư mục của ảnh .47

Hình 3.7.2.1: số lượng đặc trưng trích xuất được là 2548036 48

Hình 3.7.3.1: Các nhãn tương ứng với các thư mục vật thể 50

Trang 12

Hình 3.7.3.2: Nhận dạng với vật thể “Con Chó” 51

Hình 3.7.3.3: Nhận dạng với vật thể “Con Cọp” 52

Hình 3.7.3.4: Nhận dạng với vật thể “Con Bướm” 52

Hình 3.7.3.5: Nhận dạng với vật thể “Con Vịt” 53

Hình 3.7.3.Ó: Nhận dạng với vật thể “Chai Nước” 53

Hình 3.7.3.7: Nhận dạng với vật thể “Xe Hơi” 54

Hình 3.7.3.8: Nhận dạng với vật thể “Hộp sữa” 55

Hình 3.7.3.9: Nhận dạng với vật thể gần giống với ảnh huấn luyện 56

Hình 3.7.3.10: Nhận dạng với vật thể “Con Chó” 57

Hình 3.7.3.11: Nhận dạng với vật thể “Con Cọp” 58

Hình 3.7.3.12: Nhận dạng với vật thể “Hộp Sữa” 58

Hình 3.7.3.13: Nhận dạng với vật thể “Xe Hơi” 59

Hình 3.7.3.14: Nhận dạng với vật thể “PCB” 59

Hình 3.7.3.15: Nhận dạng với vật thể không có ừong cơ sở dữ liệu 60

Hình 3.7.3.16: Nhận dạng với vật thể “Con Cọp” 62

Hình 3.7.3.17: Nhận dạng với vật thể “Hộp Sữa” 63

Hình 3.7.3.18: Nhận dạng với vật thể “PCB” 63

Hình 3.7.3.19: Nhận dạng với vật thể không có ừong cơ sở dữ liệu 64

Hình 3.7.3.20: Nhận dạng với vật thể “Con Cọp” 65

Hình 3.7.3.21: Nhận dạng với vật thể “Hộp Sữa” 66

Hình 3.7.3.22: Nhận dạng với vật thể “PCB” 66

Hình 3.7.3.23: Nhận dạng với vật thể “Tiền” 67

Hình 3.7.3.24: Nhận dạng với vật thể không có trong cơ sở dữ liệu 67

Hình 4.1.1.1: Nhận dạng với cảnh nền phức tạp 71

Hình 4.1.1.2: Nhận dạng với cảnh nền đơn giản 73

Hình 4.1.1.3: Nhận dạng bằng video với cảnh nền phức tạp 75

Hình 4.1.1.4: Nhận dạng bằng camera với cảnh nền đơn giản 77

Trang 13

DANH MỤC BẢNG

Bảng 2.2.1.1: Giá ữị của ơ cho từng octave 13

Bảng 4.1.1.1: Ket quả nhận dạng ảnh với cảnh nền phức tạp 72

Bảng 4.1.1.2: Ket quả nhận dạng ảnh với cảnh nền đơn giản 74

Bảng 4.1.1.3: Kết quả nhận dạng bằng camera với cảnh nền phức tạp 76

Bảng 4.1.1.4: Kết quả nhận dạng bằng camera với cảnh nền đơn giản 78

Trang 14

2

CHƯƠNG 1 GIỚI THIỆU

Trong chương này, tác giả sẽ giới thiệu về đề tài, nêu lên ý định, mục tiêu và mục tiêu nghiên cứu của tác giả Đồng thời xác định nội dung nghiên cứu và phạm vi nghiên cứu của luận văn

1.1 Giới thiệu đề tài

Nhận dạng vật thể ngày nay không còn là nghiên cứu xa lạ đối với chúng ta, những thành tựu trong lĩnh vực này ngày càng to lớn hơn Những minh chứng là hiệu quả của giải thuật nhận dạng ban đầu và những giải thuật hiện đại ngày nay Nghiên cứu và ứng dụng các thuật toán nhận dạng vật thể đã dẫn đến những tiến bộ về mặt tự động trong công nghiệp, vãn phòng, giao thông Điều này được thể hiện thông qua việc con người

đã tạo ra các hệ thống nhận dạng ký tự quang học, biển báo, hệ thống kiểm tra lỗi trong dây chuyền lắp ráp, cũng như các hệ thống nhận dạng lỗi sản phẩm Ngoài ra, nó còn góp phần lớn vào các ứng dụng khác như trong y tế, quốc phòng, sinh trắc học

Nhận dạng vật thể là một lĩnh vực liên kết từ nhiều lĩnh vực khác lại với nhau Ví

dụ, để đáp ứng cho lĩnh vực nhận dạng này, con người phải đạt được những thành công nhất định về mặt công nghệ và người nghiên cứu trong lĩnh vực này cũng phải nắm được những kiến thức bổ trợ cần thiết cho việc nghiên cứu Chẳng hạn, về mặt công nghệ thì lĩnh vực này phải phụ thuộc vào chất lượng của camera, mức độ phần cứng thực hiện giải thuật hay về mặt con người nghiên cứu thì phải hiểu rõ về các kiến thức cơ bản trong

xử lý ảnh, ngôn ngữ lập trình, máy học nhân tạo Chính vì vậy, đây là một lĩnh vực rộng lớn và phải phụ thuộc vào nhiều yếu tố khác nhau mới có thể đạt được một hiệu quả mong muốn

Bất kỳ giải thuật nhận dạng nào cũng có những ưu điểm và khuyết điểm riêng của giải thuật đó Trong quá khứ đã có nhiều công trình nghiên cứu về các giải thuật này Các kết quả công bố cũng thể hiện ưu điểm và nhược điểm của từng giải thuật Tuy nhiên, các giải thuật đó được nâng cao chất lượng thực hiện theo thời gian Các giải thuật được phát

Trang 15

3

triển càng gần với hiện tại cho ra kết quả càng tối ưu hơn Chính vì vậy, để nghiên cứu về

lĩnh vực nhận dạng vật thể này ta phải trải qua một quá hình dài để tìm hiểu các giải thuật

này và rút ra kết luận để tìm một phương pháp phù họp với hiện tại để nghiên cứu

Với mong muốn tìm hiểu sâu vào lĩnh vực nhận dạng vật nói chung và ứng dụng tạo ra một phần mềm nhận dạng vật thể nói riêng, tôi xin quyết định chọn đề tài “Nhận dạng vật thể sử dụng giải thuật SIFT (Scale-Invariant Feature Transform) và bộ từ điển trực quan” để thực hiện đề tài luận vãn của mình

1.2 Mục tiêu nghiên cứu

Trong luận vãn này tác giả tập trung nghiên cứu để tạo ra một hệ thống có thể nhận dạng được một số vật thể cơ bản thông qua một camera hoặc một bức ảnh Một số vật thể

có thể nhận dạng được như sau: con cọp, hộp sữa, PCB (printing circuit board) và tiền

1.3 Nội dung nghiên cứu

Đe đạt được mục tiêu đã đặt ra, tác giả đã:

- Xây dựng giải thuật nhận dạng theo phương pháp Bags of Words

- Thực hiện giải thuật này bằng ngôn ngữ C++ dựa trcn thư viện OpenCV

- Xác định ưu điểm và nhược điểm của nghiên cứu

- Đe xuất giải pháp dựa ừên kết quả nghiên cứu và đưa ra các khuyến nghị cải thiện chất lượng nhận dạng vật thể theo phương pháp Bags of Words

1.4 Phạm vi nghiên cứu

Phạm vi của luận vãn là tập trung nghiên cứu và thực hiện các bước nhận dạng theo phương pháp Bags of Feature Thông qua các lý thuyết đã nghiên cứu được tác giả xây dựng một phần mềm để mô phổng cho kết quả nghiên cứu được Kết quả đạt được có thể ứng dụng nhận dạng được cho các vật thể như sau: con cọp, hộp sữa, tiền và

PCB

Trang 16

4

1.5 Cấu trúc luận văn

Luận văn được chia thành 6 chương như sau:

Chương 1: Giới thiệu - Nêu lên ý định, mục tiêu và mục tiêu nghiên cứu của tác giả Đồng thời xác định nội dung nghiên cứu và phạm vi nghiên cứu của luận văn

Chương 2: Tình hình nghiên cứu và phân tích tổng quan lý thuyết - Trong chương này, tác giả trình bày tổng quan về tình hình nghiên cứu ương và ngoài nước, những lý thuyết liên quan đến luận văn này

Chương 3: Nhận dạng vật thể - Tác giả sẽ trình bày sơ lược về phương pháp sẽ được sử dụng trong luận văn và cách thức thực hiện luận văn Nội dung của các công việc được làm sẽ trình bày ở chương này

Chương 4: Kiểm chứng và đánh giá đề tài - Trong chương này, tác giả trình bày phương pháp kiểm chứng cho hệ thống tạo ra và kết quả của quá trình kiểm chứng, từ đó đưa ra đánh giá về hệ thống đã tạo ra

Chương 5: Ket luận và kiến nghị - Trong chương này, tác giả tóm tắt lại kết quả đạt được, ưu điểm, nhược điểm của hệ thống và đóng góp của luận vãn (gồm có đóng góp khoa học và đóng góp thực tiễn) Ngoài ra, tác giả còn nêu lên hướng mở rộng và kiến nghị cho phương pháp BoW

Trang 17

và máy học SVM sẽ được tác giả sử dụng để thực hiện nhận dạng vật thể ở chưong kế tiếp.

Trang 18

6

2.1 Tình hình nghiên cứu trong và ngoài nước

2.1.1 Nghiên cứu ngoài nước

1- Phương pháp dựa trên hình học (Geometry-Based): 1960 - 198x

Đây là phương pháp được sử dụng ở thời kì ban đầu của lĩnh vực nhận dạng (vào khoảng những năm 1960 đến trước 1990) Phương pháp này nhận dạng chủ yếu dựa vào đặc điểm hình học của vật thể Hình dạng của vật thể được trích xuất thành các hình học dưới dạng 3D và được đưa đi nhận dạng Một vài công trình nghiên cứu có thể kể đến như sau:

Năm 1962, Ming-Kuei Hu [1] đưa ra một phương pháp nghiên cứu sơ khai cho nhận dạng bằng đặc điểm hình học của vật thể Đây được xem là một công trình khởi xướng cho lĩnh vực nhận dạng dựa trên hình học của vật thể

Năm 1965, Lawrence Roberts [2] đã giới thiệu một máy học mà có thể chuyển đổi một vật thể khối thành một vật thể được mô tả dưới dạng hình học 3D Sau đó, một giải thuật nhận dạng được giới thiệu năm 1965 của cùng tác giả [3], giải thuật này là tạo ra một thư viện các hình học cơ bản mà có thể lắp ghép với nhau để tạo thành hình học của một vật thể Giải thuật này trở thành tâm điểm chính cho lĩnh vực nhận dạng suốt bốn thập kỉ sau đó

Một trong những phương pháp dựa trên hình học của vật thể này nữa là nhận diện bằng những thành phần - Recognition-by-Components, 1987 [4], Dựa vào năm đặc tính

dễ dàng nhận biết của các đường (hay cạnh) trong bức ảnh hai chiều của Lowe, 1984 [5]:

độ cong, độ thẳng, đặc tính đối xứng, đặc tính song song và đặc tính liền kề

Tóm lại, phương pháp nhận dạng này có những khuyết điểm sau như: chất lượng nhận dạng phụ thuộc vào quá trình trích xuất các cạnh hình học (đường thẳng, đường cong ) của vật thể, vật thể nhận dạng không được phức tạp quá (về mặt hình học) và tạo

cơ sở dữ liệu cho vật thể được làm một cách thủ công [6],

Trang 19

7

2- Phương pháp dựa trên sự xuất hiện (Appearance Based): 199x

Phương pháp này được thực hiện bằng cách cách ghi nhớ các lần xuất hiện của một vật thể đã xảy ra Các nghiên cứu chính cho phương pháp này như:

Matthew Turk và Alex Pentland, 1991 [7] đã thực hiện phương pháp này để phát hiện phần đầu của một vật thể và sau đó nhận diện xem đó có phải là khuôn mặt hay không Tác giả đã sử dụng biện pháp ghi nhớ lại hàng nghìn khuôn mặt xuất hiện trong cuộc sống bình thường của tác giả, và sử dụng nó cho việc nhận dạng khuôn mặt dựa vào những dữ liệu đã được thu thập được

Hay nhận dạng bằng cách đánh dấu hình ảnh của Hiroshi Murase và Shree K.Nayar, 1995 [8] Cách thực hiện này là ta thu thập một số lượng lớn các bức ảnh với các góc chụp và kích thước khác nhau Sau đó các bức ảnh này được nén lại theo một cách thức riêng và cho vào một cơ sở dữ liệu Trong quá trình nhận dạng thì ảnh đầu vào được trích ra một phần để so sánh với ảnh Ương cơ sở dữ liệu, xem phần đó có thuộc về vật thể có Ương cơ sở dữ liệu hay không và nó thuộc về góc chụp nào

Phương pháp nhận dạng dựa trcn sự xuất hiện có một ưu thế là ta không cần trích xuất đặc trưng của một bức ảnh Nhưng chúng lại yêu cầu các ảnh huấn luyện phải được tách khỏi cảnh nền Ngoài ra, chúng cũng yêu cầu số lượng lớn của hình ảnh mẫu cho quá trình học và các hình ảnh ngõ vào không bị che khuất hay nền hỗn loạn quá nhiều

3- Phương pháp Bags of Words: 2003-2012

Năm 1999, Lowe cho ra đời giải thuật tìm và mô tả điểm ảnh đặc trưng cục bộ trên bức ảnh mà bất biến với ánh sáng, kích thước và góc chụp của bức ảnh - SIFT (Scale-Invariant Feature Transform) [9] Đây là giải thuật mà được ứng dụng rất rộng rãi trong các lĩnh vực xử lý ảnh Kể từ khi giải thuật này ra đời đã tạo ra 2 hướng cho phương pháp nhận dạng dựa vào đặc trưng cục bộ Đó là tìm điểm tương thích (Matching) và Bags of Feature (BoF)

Trang 20

8

Trong cùng thời điểm giải thuật SIFT ra đời, Lowe đã ứng dụng cho giải thuật nhận dạng mới Giải thuật này sử dụng phương pháp tìm điểm tương thích Tìm những điểm đặc trưng giống nhau của bức ảnh đầu vào trong cơ sở dữ liệu

Một hướng khác nữa là BoF, phương pháp này khác với phương pháp tìm điểm tương thích là ta phải tạo ra bộ từ điển trực quan và sử dụng nó để mô tả số lượng điểm đặc trưng trong bức ảnh Trong quá trình nhận dạng ta chỉ cần xét số lượng điểm đặc trưng

là có thể kết luận vật thể có trong bức ảnh hay không Một kết quả nghiên cứu theo phương pháp BoF là:

Gabriella Csurka [10] và các tác giả đã thực hiện giải thuật nhận dạng theo phương pháp BoF năm 2004 Các điểm đặc trưng của ảnh huấn luyện được trích xuất từ giải thuật SIFT và đem đi huấn luyện để tạo bộ từ điển trực quan Trong quá trình nhận dạng các tác giả lại trích xuất điểm đặc trưng lần nữa cho ảnh đầu vào và lượng tử các điểm đặc trưng thành các từ ngữ Các từ ngữ này được đưa vào một máy học khác để đưa ra quyết định trong ảnh có chứa vật thể hay không

Ưu điểm của phương pháp BoF là đặc trưng của bức ảnh và bộ từ điển trực quan được tính hoàn toàn tự động Phương pháp BoF còn có ưu điểm nữa là các đối tượng bị che khuất và nền của bức ảnh hỗn loạn vẫn có thể nhận dạng được Do ta chỉ xét sự xuất hiện của vật thể trong bức ảnh dựa vào số lượng điểm đặc trưng chứ không bị phụ thuộc vào hình dáng của vật thể

Trong nhiều công trình nghiên cứu, không chỉ có trích xuất đặc trưng theo giải thuật SIFT mà còn có các giải thuật khác như: SURF, RIFT Mặc dù khác nhau về cách thức sử dụng giải thuật trích xuất đặc trưng nhưng những công trình này vẫn mang tính chất của phương pháp BoF

4- Phương pháp máy học sâu (deep learning hoặc DNN)

Năm 2006, máy học sâu có tổ chức (deep learning) xuất hiện một cách phổ biến

Trang 21

9

Có vài nghiên cứu về máy học sâu này như “A fast learning algorithm for deep belief nets” của Hinton và các tác giả [11], hay “Learning deep architectures for AI” của Bengio [12], Đây là một khởi đầu cho sự ứng dụng máy học sâu vào nhiều lĩnh vực

Đầu tiên là các ứng dụng trong xử lý âm thanh Có thể kể đến nghiên cứu của Hinton và các tác giả năm 2012 [13] Sau đó, nó tiếp tục đóng góp trong lĩnh vực nhận dạng giọng nói rất nhiều sau vài năm phát triển

Trong lĩnh vực nhận dạng vật thể, máy học sâu lần đầu được giới thiệu bởi nhóm của Hinton [14] hong cuộc thi ILSVRC (ImageNet Large Scale Visaul Recognition Challenge) năm 2012 Thông qua kết quả của nhóm Hinton, cho thấy sự vượt trội của phương pháp nhận dạng bằng máy học sâu so với các phương pháp trước đó Trong các cuộc thi ILSVRC sau đó, nhận dạng bằng phương pháp máy học sâu được nhiều người

sử dụng Các người giành chiến thắng trong cuộc thi đều sử dụng phương pháp máy học sâu này

Điểm tối ưu của phương pháp này là nó có thể học từ số lượng rất lớn các ảnh mẫu đem huấn luyện và nó cho kết quả nhận dạng với độ chính xác rất cao

Và hiện nay, lĩnh vực nhận dạng vật thể sử dụng phương pháp máy học sâu đang được quan tâm chính Nó được nhiều sự đầu tư vào nghiên cứu của các người nghiên cứu

do độ chính xác cao của nó

2.1.2 Nghiên cứu trong nước

Hiện tại các công trình nghiên cứu trong nước về lĩnh vực nhận dạng là rất hạn chế Chỉ có vài sinh viên, học viên cao học thực hiện đề tài nhận dạng làm khoá luận tốt nghiệp hay các nhà khoa học viết báo cáo đề tài khoa học Các nghiên cứu theo hai hướng chính như sau:

Trang 22

10

1- Phương pháp nhận dạng dựa vào đặc trưng cục bộ:

Phương pháp này được thực hiện bởi luận văn của Đặng Đức Duy năm 2014 [15] Giải thuật này được tác giả thực hiện thông qua hai bước: đầu tiên tác giả trích xuất đặc trưng cho bức ảnh bởi giải thuật SURF, sau đó tác giả đem các đặc trưng đi so khớp (matching) với các ảnh khác trong cơ sở dữ liệu

2- Phương pháp dựa trên hình học (Geometry-Based):

Luận văn của Đỗ Ngọc Hùng năm 2004 [16] đã thực hiện theo phương pháp này Tác giả đã phân tích hình học của vật thể bằng cách tách cạnh cho bức ảnh để tìm các đặc trưng của vật thể thông qua các cạnh đã tách được và đem nó đi nhận dạng

Luận án tiến sỹ “Nghiên cứu một số phương pháp biểu diễn hình dạng và ứng dụng Ương nhận dạng ảnh” của Đỗ Năng Toàn năm 2001 [17],

Nhìn chung, các công hình nghiên cứu về lĩnh vực nhận dạng vật thể trong nước vẫn còn rất ít Nó vẫn chưa thu hút được nhiều người nghiên cứu lĩnh vực này Vì vậy, các công trình nghiên cứu trong nước vẫn chưa ảnh hưởng nhiều đến lĩnh vực nhận dạng vật thể

2.2 Phân tích tổng quan lý thuyết

Đã có nhiều công hình nghiên cứu và nhiều giải thuật đề xuất về lĩnh vực nhận dạng này Mồi một giải thuật có một phương pháp làm khác nhau, tuy nhiên nhìn sơ bộ

Trang 23

11

thì các giải thuật này có các bước thực hiện là giống nhau Thông qua những giải thuật trước đó, có thể rút ra các hệ thống nhận dạng có một mô hình tổng quát sau đây:

Hình 2.2.1: Mô hình tổng quát của một hệ thống nhận dạng

Một vài giải thuật nhỏ sẽ được kết hợp với nhau để tạo nên một mô hình tổng quát ở hên Một vài giải thuật con có thể kể đến như sau:

Trích xuất đặc trưng:

- Giải thuật SIFT

- Giải thuật SURF

Trang 24

- Sử dụng kết quả của các giải thuật học

2.2.1 Giải thuật SIFT

Đây là giải thuật tìm những điểm đặc trưng bất biến trong bức ảnh Các điểm đặc trưng tìm được sẽ là những điểm bất biến khi các bức ảnh chụp được khác nhau về độ lớn (scale), độ sáng hay góc chụp

Giải thuật này được Lowe giới thiệu năm 1999 thông qua công trình nghiên cứu của ông ấy [9], Các bước thực hiện bao gồm như sau:

- Tìm điểm cực ừị

- Định vị điểm đặc trưng

- Gán định hướng của điểm đặc trưng

- Mô tả điểm đặc trưng

1- Tìm điểm cực trị

Đầu tiên ta tạo ra nhiều scale-image khác nhau cho một bức ảnh bằng bộ lọc Gaussian với các sigma khác nhau Mục đích của bước tạo ra scale-image này là ta tìm những điểm đặc trưng hên nhiều kích thước ảnh khác nhau Bức ảnh đầu vào I(x, y) sẽ được tích chập với hàm Gaussian G(x, y, kơ) có các ơ khác nhau để tạo ra các bức ảnh L(x, y , ơ) khác nhau

L(x, y, ơ) = G(x, y, ơ) * I(x, y)

Ta cần tạo ra các scale-image cho một bức ảnh với các thông số được đề nghị bởi

(2.2.1.1)

Trang 25

13

Lowe Ban đầu ơ được chọn là V2/2, các scale-image tiếp theo ta gấp đôi ơ lên 2 lần Sau

đó, nhóm các scale-image này lại thành một octave Các hình trong octave này sẽ được giảm kích thước lại 2 lần để tạo ra một octave mới số lượng octave ta cần tạo ra là 4 và

số lượng scale-image trên một octave là 5

Sau đây là bảng thể hiện giá trị của ơ trong các octave:

Bảng 2.2.1.1: Giá ừị của ơ cho từng octave

Sau khi ta có được các octave, tương ứng với mỗi octave ta trừ các ảnh gần kề với nhau Các ảnh được tạo ra sẽ là các ảnh DoG (difference-of-Gaussian)

D(x,y,ơ) = L(x,y,kơ) - L(x,y,ơ) Các octave và các DoG sau khi đã được tạo:

(2.2.1.2)

Trang 26

14

Hình 2.2.1.2: Các octave và các DoG [18], Đối với mỗi octave, ta tìm những pixel mà có giá trị lớn hơn (hoặc nhỏ hơn) 8 pixel xung quanh nó và 18 pixel của DoG nằm trên và nằm dưới nó (hình 2.2.1.3) Nếu một điểm mà có giá trị lớn hơn (hoặc nhỏ hơn) 26 pixel xung quanh nó thì điểm đó chính

là điểm cực trị

Các điểm cực trị có khả năng là các điểm đặc trưng Nhưng cũng có khả năng các điểm đặc trưng là các điểm nằm xung quanh quanh điểm đặc trưng này Để xác

Trang 27

Đe xác định vị trí chính xác của các điểm đặc trưng, ta xác định vị trí của điểm phụ (sub-pixel) bằng cách khai triển chuỗi Talor bậc 2 Vị trí chính xác của điểm đặc trưng được xác định bởi phương trình sau:

(2.2.1.3)

Trong đó:

- D(x , y, ơ ) là hàm của bức ảnh DoG, đạo hàm của D được tính tại điểm cực trị

- z là vị trí chính xác của điểm đặc trưng (kết quả của phương trình trên là một vector - vector z)

Trang 28

16

Cuối cùng ta loại bỏ những điểm nằm ừên các cạnh bằng cách sử dụng ma trận Hessian

Dxx Dxý Dxy Dyy

TrỤQ = Dxx + Dyy Det(ỉĩ) = DxxDyy — (Dxy) 2

Tr(ỈT) 2 (r + l)2

Det(ỈT) < r

Ta sử dụng giá trị r của Lowe là 10 (r = 10) Nếu những điểm đặc trưng nào có không đáp ứng được yêu cầu của (2.2.1.8) thì sẽ được loại bỏ Đây là những điểm ảnh nằm trên các cạnh nên sẽ bị loại bỏ

3- Xác định hướng của điểm đặc trưng

Trong bước này ta sẽ gán định hướng cho một điểm đặc trưng đã được tìm thấy Mục đích của bước này là để xác định hướng của một điểm đặc trưng và sử dụng nó để

mô tả đặc trưng mà được thực hiện trong bước sau Điều này sẽ tạo ra một mô tả đặc trưng cho một điểm mà bất biến với các góc xoay

Độ dốc m(x, y) và hướng 0(x, y) cho các điểm xung quanh (điểm lân cận) điểm đặc trưng trên ảnh L(x,y,ơ) được xác định bởi công thức sau:

Để xác định được hướng của một điểm đặc trưng, ta tạo một histogram gồm có 36 cột thể hiện cho các hướng (36 cột tương ứng 360° - mỗi cột là 10°) Lấy một vùng xung

(2.2.1.5)

(2.2.1.6) (2.2.1.7)

(2.2.1.8)

m(x, y) = ự[L(x + l,ỹ) - L(x - l,y)]2 + [L(x,y + 1) - L(x,y - l)]2 (2.2.1.9)

Trang 29

17

quanh điểm đặc trưng có độ rộng tuỳ vào scale của điểm đặc trưng, với mỗi một điểm ừong vùng này được gán trọng số bằng tích của độ dốc m(x, y) và hàm Gaussian với ơ bằng 1,5 lần ơ của điểm đặc trưng Vậy, với một điểm lân cận sẽ có một trọng số và một giá trị hướng 0(x, y) Các điểm lân cận đó sẽ được cộng trọng số vào cột có 0(x, y) tương ứng của điểm đó Ví dụ, một điểm có 0(x, y) = 18,5° sẽ được cộng trọng số vào cột 10-19°

Hình 2.2.1.4: Tạo histogram từ cửa sổ Gaussian, các ttọng số và hướng

Trong histogram vừa mới tạo xong, ta tìm cột nào có giá trị lớn nhất thì đó chính

là hướng của điểm đặc trưng Thí dụ trong hình 2.2.1.5, hướng của điểm đặc trưng sẽ là trong khoảng 20-29° Ngoài ra, cột nào mà có giá trị bằng 80% của cột lớn nhất thì sẽ được lấy làm một điểm đặc trưng mới có hướng là cột tương ứng Trong hình 2.2.1.6, cột 300-309° là một điểm đặc trưng mới với hướng là 300-309°

Trang 30

18

4- Mô tả điểm đặc trưng

Bước cuối cùng trong giải thuật SIFT là ta tạo ra mô tả cho điểm đặc trưng bằng một vector có độ dài là 128 phần tử Mỗi điểm đặc trưng sẽ có một mô tả dựa trên độ scale, hướng và vị trí của điểm đặc trưng đó Mô tả này sẽ giúp ta có thể tìm kiếm các đặc trưng giống nhau trong hai bức ảnh khác nhau về góc chụp, độ lớn (scale)

Hình 2.2.1.8: Cửa sổ 16x16 xung quanh điểm đặc trưng và các cửa sổ phụ của nó [20]

Trang 31

19

Một histogram cần được tạo ra cho cửa sổ 16x16 mà có điểm đặc trưng nằm ở

giữa, cửa sổ này tiếp tục được chia thành các cửa sổ phụ 4x4 Mỗi cửa sổ phụ ta sẽ tạo ra

một histogram con gồm có 8 cột thể hiện cho 8 hướng (45° cho một cột) Vậy, sau khi

thực hiện xong, ta tạo được một histogram có độ dài là 128 cột, histogram này chính là

mô tả cho điểm đặc trưng Hình 2.2.1.6 là minh hoạ cho bước làm này

Hình 2.2.1.9: Quay cửa sổ của điểm đặc trưng theo hướng của nó [21],

Để mô tả điểm đặc trưng là bất biến về góc quay, ta cần chọn gốc toạ độ của điểm

đặc trưng có trục hoành là hướng của điểm đặc trưng mà được tính ở bước trước Hình

2.2.1.7 minh hoạ cho bước làm này

Với mỗi cửa sổ phụ, độ dốc m(x, y) và hướng 0(x, y) được tính cho các điểm trong

cửa sổ phụ này giống bước tính định hướng cho điểm đặc trưng Hàm Gaussian với ơ

bằng 0.5 lần ơ của điểm đặc trưng được nhân với m(x, y) của các điểm trong cửa sổ Ta

cộng các giá trị họng số vừa nhân xong vào cột có 0 tương ứng để tạo ra một histogram

con có 8 cột

2.2.2 Giải thuật SURF

Đây là giải thuật tương tự như SIFT nhưng nó được thực hiện nhanh hơn và hiệu

quả tốt hơn do sử dụng những kỹ thuật tính toán xấp xỉ Đây được gọi là phiên bản

Trang 32

a.Dxx; b.Dyy; c.Dx

Thuật toán xấp xỉ này sử dụng các kemal như hình 2.2.2.2 để tính toán xấp xỉ LoG bằng cách nhân các trọng số của kernel này với giá trị trong một vùng của bức ảnh mà được xác định bằng ảnh “Integral Image” Anh Integral Image là một ảnh mà giá trị tại một điểm X(x, y) là tổng giá trị của tất cả các các điểm mà có toạ độ nhỏ hơn hoặc bằng (x ,y) Công thức sau là công thức tổng quát cho một điểm trong ảnh Integral Image:

i<x jzy

im = i=0 j=0

(2.2.2.1) Hình 2.2.2.1: Các kemal để tính xấp xỉ LoG [22],

Trang 33

21

Hình 2.2.2.3: Minh hoạ cho cách tính một điểm trong Integral Image [22], Bằng cách tạo ra Integral Image ta có thể dễ dàng tính nhanh giá trị của các điểm trong một vùng của bức ảnh bất kì như sau:

Hình 2.2.2.4: Tính giá trị của một vùng [22], Giá trị các điểm của một bức ảnh bất kì có toạ độ như vùng màu vàng sẽ là:

I(x,y)- I(x,v)- I(u,y) + I(u,v) Như vậy, với ảnh Integral Image thì ta dễ dàng tính nhanh giá trị trong một vùng của một bức ảnh Điều này sẽ giúp ta nhanh chóng tích chập một kernel bên trên với một ảnh bất kì bằng cách xác định giá trị trong một vùng ảnh bằng Integral Image và nhân nó với các họng số của kernel

Giá trị của ảnh LoG tại điểm X = (x, y, ơ) sẽ được tạo ra từ các kernel và ảnh Integral Image bên trên như sau:

v) v)

(u.Ỹĩ PC v)

(2.2.2.2)

Trang 34

2.2.3 Giải thuật phân cụm K-Means

Giải thuật phân cụm K-Means (K-Means clustering) là một thuật toán phân loại n đối tượng thành k cụm dựa trcn thuộc tính của các đối tượng Các đối tượng ương cùng 1 cụm có thuộc tính tương tự nhau

Mục tiêu của giải thuật K-means là tìm ra tâm của từng cụm sao cho khoảng cách của một đối tượng thuộc về một cụm đến tâm của cụm đó là gần nhất (gần hơn khoảng cách đến các cụm khác)

Trang 35

23

Hình 2.2.3.1: Quá trình tính toán và cập nhật tâm trong giải thuật K-Means Phương pháp thực hiện giải thuật phân cụm K-Means được tổng quát như hình 2.2.3.1 Các bước thực hiện được mô tả như sau:

- Xác định K cụm cho n đối tượng đầu vào

- Chọn ngẫu nhiên các tâm cho K cụm

- Tính khoảng cách Euclidean từ đối tượng tới các tâm

- Phân các đối tượng vào cụm gần nhất

- Cập nhật tâm mới cho K cụm

- Thực hiện lại từ bước thứ 3 cho tới khi các đối tượng không có sự thay đổi cụm nào nữa Lúc này các tâm đã hội tụ

Trang 36

24

1- Xác định K cụm cho n đối tượng đầu vào

Từ các đối tượng đầu vào là các vector nhiều chiều, ta xác định số lượng đặc trưng

mà ta cần phân loại các đối tượng này Các đặc trưng này sẽ là các cụm trong thuật toán K-Means

2- Chọn ngẫu nhiên các tâm cho K cụm

Các tâm đầu tiên được tạo ra để phục vụ cho một chuỗi lần tính toán khoảng cách

từ các đối tượng đến các tâm này Sau mỗi lần tính toán như vậy ta sẽ tìm ra các tâm mới thay cho các tâm cũ Ta thực hiện chuỗi tính toán này cho tới khi các tâm không có sự thay đổi nào mới

Hình 2.2.3.2: Chọn tâm ngẫu nhiên cho các cụm

Ví dụ, ta có 4 đối tượng Al, A2, A3 và A4 có các tính chất như sau: Al(l, 3); A2(l, 4); A3(4, 2) và A4(3, 4) Ta chọn ngẫu nhiên 2 điểm tuỳ ý làm tâm cho các điểm này Giả

sử ta chọn Cl(l, 1) và C2(3, 2) như hình 2.2.3.3

Trang 37

25

3- Tính khoảng cách Euclidean từ đối tượng tói các tâm

Gọi:

- ai = (Xít, Xj2, xim); i = 1 ,n - đối tượng thứ i cần phân phân loại

- Cj = (Xji, Xj2, Xj m ); j = 1 ,k - tâm của cụm j

Khoảng cách Euclidean từ đối tượng ai tới tâm cụm j - cj được tính theo công thức sau:

m

J5=1Trong đó:

- dji - khoảng cách Euclidean từ ai đến Cj

- xis - thuộc tính thứ s của đối tượng aj

- XjS - thuộc tính thứ s của tâm Cj

Trong ví dụ trước, khoảng cách Euclidean của đối tượng AI tới các cụm được tính như sau:

^11 =

ở12 = V(1 - 3)2 + (3 - 2)2 = V5

4- Phân các đổi tượng vào cụm gần nhất

Dựa trên khoảng cách Euclidean vừa tính cho các đối tượng, ta nhóm các đối tượng đó vào cụm nào có khoảng cách là ngắn nhất

Trang 38

26

Trong trường hợp của đối tượng Al, đối tượng này sẽ được nhóm vào cụm 1 (do

d 1± < d 12 )

5- Cập nhật tâm mói cho K cụm

Sau mỗi lần thay đổi cụm của các đối tượng, ta phải tính toán lại vị trí của các tâm sao cho khoảng cách từ tâm đến các đối tượng trung cùng một cụm là nhỏ nhất có thể

Để cập nhật vị trí mới cho các tâm ta sử dụng công thức trung bình cộng toạ độ các đối tượng trong cụm

- xSj - thuộc tính thứ j của đối tượng s; s = l t

- Cij - toạ độ thứ j của tâm cụm i

Sau khi cập nhật tâm mới xong giải thuật được lặp lại từ bước tính khoảng cách cho các đối tượng Sau nhiều vòng lặp như vậy, khoảng cách từ tâm tới các đối tượng trong một cụm sẽ càng nhỏ đi và tâm mới cũng ít thay đổi hơn Đến khi tâm không còn thay đổi nữa thì các tâm đã hội tụ Lúc này khoảng cách từ tâm tới các đối tượng là nhỏ nhất có thể

Trang 39

27

Khi muốn xét đặc trưng của một đối tượng bất kì, ta tính khoảng cách từ đối tượng

đó tới các tâm đã hội tụ Neu khoảng cách tới cụm nào là nhỏ nhất thì đối tượng này có đặc trưng thuộc về cụm đó

2.2.4 Máy học SVM

SVM là kỹ thuật dùng để phân loại tập họp các vector đầu vào thành hai lớp riêng biệt Mục đích của bài toán phân lớp này là để xác định một vector đầu vào có thuộc về lớp các đối tượng mà ta cần quan tâm hay không

Một tập các dữ liệu huấn luyện (các vector đầu vào) được đem đi huấn luyện mà được gán nhãn cho các đối tượng trong tập dữ liệu Máy phân lớp sẽ được tạo ra làm nhiệm vụ phân loại các vector đầu vào này dựa vào các nhãn đã được gán bằng một siêu phang mà có thể phân tách các dữ liệu mẫu thành 2 lớp riêng biệt Bài toán đặt ra là ta phải tìm ra siêu phẳng này với khoảng cách từ nó tới các dữ liệu trong 2 lớp là lớn nhất

Hình 2.2.4.1: Giải thuật SVM chia tập dữ liệu ra làm 2 lớp [23],

Trong thực tế, đối với các mẫu dữ liệu đầu vào của hai lớp xen vào nhau, lúc này

ta không thể xác định đuợc siêu phẳng nhu cách làm thông thuờng Lúc này ta cần ánh xạ

Trang 40

28

các mẫu dữ liệu vào một hệ không gian khác để tìm ra siêu phẳng, ta gọi đây là phân lớp phi tuyến (nonlinear classifier) Ở cách làm thông thường sẽ được gọi là phân lớp tuyến tính (linear classifier)

1- Phân lớp tuyến tính (linear classifier)

Một tập các vector đầu vào xi, i = 1,2,3 n là tập được đem đi huấn luyện Các phần tử trong tập được gán nhãn yi E{-1, 1} Siêu phang mà ta cần xác định sẽ phân loại các vector đầu vào này thành 2 lớp (Oivà <JÙ2 Phương trình của siêu phang được xác định như sau:

g(x) — W T X + w 0 = 0 (2.2.4.1)

Trong đó:

- w - vector trọng số

- Wo - sai lệch hoặc ttọng số ngưỡng

Một dữ liệu đầu vào X1 sẽ được xác định thuộc về lớp ùìihay <JÙ2 bằng một hàm sign như sau:

f(x) = sign(w T x + w0) (2.2.4.2)

- xq thuộc về <JL>1 nếu f(xq) = 1 (hay g(xj) = WTX1 + w0 > 0)

- Ngược lại, Xi thuộc về <JỬ2 nếu fCxi) = — 1 (hay gCxi) = WTX1 + W Q < 0) Khoảng cách hình thành từ hai mặt phẳng mà song song với siêu phẳng và đi qua hai điểm gần nhất với siêu phẳng (hai điểm này thuộc về hai lớp khác nhau) sẽ được gọi

là lề (margin) Các điểm nằm trên hai mặt phẳng này được gọi là các vector hỗ trợ (support vector) và hai mặt phẳng này là siêu phẳng hỗ trợ Phương trình của hai siêu phẳng hỗ trợ như sau:

Ngày đăng: 16/01/2020, 11:46

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w