1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng mô hình phân lớp để nhận diện khuôn mặt dựa trên mạng nơron xoắn

66 10 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây Dựng Mô Hình Phân Lớp Để Nhận Diện Khuôn Mặt Dựa Trên Mạng Nơron Xoắn
Người hướng dẫn TS. Nguyễn Đình Hoa Cương
Trường học Trường Đại Học Kinh Tế Huế
Chuyên ngành Hệ Thống Thông Tin Kinh Tế
Thể loại Khóa luận tốt nghiệp
Năm xuất bản 2019
Thành phố Huế
Định dạng
Số trang 66
Dung lượng 0,9 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong ứng dụng của khai phá dữ liệu, để có thể nhận diện người chính xác, các dữ liệu của khuôn mặt cần phải được phân loại -xác định trước, từ đó hệ thống nhận diện sẽ có thể -xác định

Trang 1

ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KINH TẾ HUẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ

- -KHOÁ LUẬN TỐT NGHIỆP

XÂY DỰNG MÔ HÌNH PHÂN LỚP ĐỂ NHẬN DIỆN

KHUÔN MẶT DỰA TRÊN MẠNG NƠRON XOẮN

Sinh viên thực hiện:

Phạm Nguyễn Hà Quang

Lớp: K49A Tin học kinh tế

Niên khoá: 2015-2019

Giảng viên hướng dẫn:

TS Nguyễn Đình Hoa Cương

Huế, 01/2019

Trường Đại học Kinh tế Huế

Trang 2

LỜI CẢM ƠN

Được sự phân công của khoa Hệ Thống Thông Tin Kinh Tế, trường Đại Học Kinh

Tế Huế, sau gần ba tháng thực tập tại công ty TNHH Một thành viên MagRabbit Huế

và viết khoá luận, nay em đã hoàn thành khoá luận tốt nghiệp cuối khoá

Để hoàn thành nhiệm vụ được giao, ngoài sự nỗ lực học hỏi của bản thân còn có

sự hướng dẫn tận tình của thầy cô, sự giúp đỡ của bạn bè và anh chị tại công ty, đặc

biệt hơn là sự động viên tinh thần lớn từ gia đình

Em xin chân thành cảm ơn TS Nguyễn Đình Hoa Cương, người đã hướng dẫn

cho em trong suốt thời gian thực tập Thầy đã chỉ ra những vấn đề mà em gặp phải lúc

làm khoá luận, định hướng đi cho em để em hoàn thành tốt nhiệm vụ

Xin cảm ơn tất cả các bạn bè, thầy cô, anh chị ở công ty và gia đình đã giúp đỡ,

dìu dắt em trong suốt thời gian qua Tất cả mọi người đều nhiệt tình giúp đỡ, mặc dù

số lượng công việc của công ty ngày một tăng lên nhưng công ty vẫn dành thời gian để

hướng dẫn rất nhiệt tình Bên cạnh đó, động lực vô cùng to lớn để em cố gắng hoàn

thành tốt khoá luận này đó là gia đình

Để hoàn thành khoá luận này, em đã nhận được sự hướng dẫn, giúp đỡ và động

viên tận tình từ nhiều phía Tất cả những điều này đã trở thành một động lực rất lớn

giúp em có thể hoàn thành tốt mọi công việc được giao

Một lần nữa xin gửi đến gia đình, thầy cô và bạn bè cùng các anh chị tại công ty

MagRabbit lời cảm ơn chân thành và tốt đẹp nhất!

Huế, tháng 1 năm 2019 Sinh viên ký tên Phạm Nguyễn Hà Quang

Trường Đại học Kinh tế Huế

Trang 3

MỤC LỤC

LỜI CẢM ƠN i

MỤC LỤC ii

DANH MỤC THUẬT NGỮ v

DANH MỤC HÌNH ẢNH vii

DANH MỤC BẢNG viii

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục tiêu của đề tài 1

3 Đối tượng và phạm vi nghiên cứu 1

4 Phương pháp nghiên cứu 1

5 Cấu trúc khố luận 2

CHƯƠNG I CƠ SỞ LÝ THUYẾT 3

1.1 Khai phá dữ liệu 3

1.1.1 Khai phá dữ liệu và quy trình 3

1.1.2 Các phương pháp khai phá dữ liệu 4

1.1.2.1 Khai phá luật kết hợp 4

1.1.2.2 Phân cụm 5

1.1.2.3 Phân lớp 6

1.1.3 Các phương pháp phân lớp được sử dụng trong khố luận 7

1.1.3.1 Mơ hình Nạve Bayes 7

1.1.3.2 Mơ hình k-lân cận (k-Nearest Neighbors) 9

1.1.3.3 Mơ hình mạng nơron nhân tạo (Artificial Neural Network) 10

Trường Đại học Kinh tế Huế

Trang 4

1.2 Phát biểu bài toán nghiên cứu 13

1.3 Các công trình liên quan 14

CHƯƠNG II PHƯƠNG PHÁP XÂY DỰNG MÔ HÌNH MẠNG NƠRON XOẮN 25

2.1 Cấu trúc ảnh và quá trình xử lý ảnh 25

2.1.1 Cấu trúc ảnh 25

2.1.2 Quá trình xử lý ảnh 26

2.1.2.1 Thu nhận ảnh 28

2.1.2.2 Lọc và nâng cao ảnh 29

2.1.2.3 Khôi phục ảnh 30

2.1.2.4 Xử lý ảnh màu 31

2.1.2.5 Xử lý Wavelet và đa nhiệm 32

2.1.2.6 Nén ảnh 33

2.1.2.7 Xử lý hình thái ảnh 36

2.1.2.8 Phân đoạn ảnh 37

2.1.2.9 Biểu diễn và mô tả ảnh 38

2.1.2.10 Nhận dạng ảnh 40

2.2 Phương pháp xây dựng mô hình 41

2.3 Phương pháp đánh giá mô hình 41

CHƯƠNG III THÍ NGHIỆM VÀ KẾT LUẬN 44

3.1 Thiết lập thí nghiệm 44

3.2 Kết quả thí nghiệm 44

3.3 Ứng dụng Swing vào thí nghiệm 48

3.4 Thảo luận và kết luận 50

Trường Đại học Kinh tế Huế

Trang 5

KẾT LUẬN 52

DANH MỤC TÀI LIỆU THAM KHẢO 53

Trường Đại học Kinh tế Huế

Trang 6

DANH MỤC THUẬT NGỮ

1 ANN Artificial Neural Network Mạng nơron nhân tạo

2 CCD Charge Coupled Device Linh kiện tích điện kép

3 CNN Convolutional Neural Network Mạng nơron xoắn

4 DEF Distance-based Evidence Fusion Phép hợp nhất dựa trên

khoảng cách

5 k-NN k-nearest neighbors k-lân cận

6 LBP Local binary patterns Mẫu nhị phân cục bộ

7 LDA Linear Discriminant Analysis Phân tích phân biệt

tuyến tính

8 LDP Local Directional Pattern Mô hình hướng cục bộ

9 LPF Low Pass Filter Bộ lọc thông thấp

10 LRC Linear Regression Classification Phân lớp hồi quy tuyến tính

11 LTP Local ternary patterns Mẫu tam phân cục bộ

12 PCA Principal Component Analysis Phân tích thành phần chính

13 ReLU Rectified Linear Unit Đơn vị tuyến tính

Trang 7

17 SVD Singular Value Decomposition Phân tích giá trị đơn trị

18 VQ Vector Quantization Lượng hoá vectơ

Trường Đại học Kinh tế Huế

Trang 8

DANH MỤC HÌNH ẢNH

Hình 1.1: Quá trình khai phá dữ liệu 3

Hình 1.2: Kiến trúc mạng nơron xoắn 12

Hình 2.1: Toạ độ trong bức ảnh 25

Hình 2.2: Quá trình xử lý ảnh 27

Hình 2.3: Hệ thống nén ảnh 34

Hình 3.1: Đường ROC của các mô hình xét trên tập dữ liệu FEI 46

Hình 3.2: Đường ROC của các mô hình xét trên tập dữ liệu LFW 47

Hình 3.3: Đường ROC của các mô hình xét trên tập dữ liệu ORL 48

Hình 3.4: Giao diện phân lớp 49

Hình 3.5: Giao diện dự đoán nhãn lớp 50

Trường Đại học Kinh tế Huế

Trang 10

MỞ ĐẦU

1 Lý do chọn đề tài

Trong những năm gần đây, với sự phát triển vượt bậc của công nghệ thông tin, các

ứng dụng về trí tuệ nhân tạo ngày càng phát triển và được đánh giá cao Ứng dụng của

trí tuệ nhân tạo có thể lưu trữ một khối lượng lớn dữ liệu về hoạt động hàng ngày của

chúng Từ khối dữ liệu này, các kỹ thuật trong khai phá dữ liệu có thể được dùng để

trích xuất những thông tin hữu ích mà chúng ta chưa biết Các tri thức vừa học được có

thể được vận dụng để nâng cao hiệu suất làm việc và cải thiện chất lượng cuộc sống

của con người Một trong những ứng dụng của trí tuệ nhân tạo đang được quan tâm, đó

là nhận diện khuôn mặt

Khuôn mặt đóng vai trò giao tiếp giữa người với người, mang một lượng lớn

thông tin, từ đó xác định được giới tính, tuổi tác, cảm xúc của người đó Vì vậy, nhận

diện khuôn mặt được ứng dụng vào rất nhiều lĩnh vực trong đời sống của con người,

chẳng hạn như tìm kiếm người, bảo mật Trong ứng dụng của khai phá dữ liệu, để có

thể nhận diện người chính xác, các dữ liệu của khuôn mặt cần phải được phân loại

-xác định trước, từ đó hệ thống nhận diện sẽ có thể -xác định được đó là người nào

Từ những lý do đó, tôi quyết định chọn đề tài “Xây dựng mô hình phân lớp để

nhận diện khuôn mặt dựa trên mạng nơron xoắn” làm hướng nghiên cứu đề tài.

2 Mục tiêu của đề tài

Nghiên cứu phương pháp xây dựng mô hình mạng nơron xoắn và phương pháp xử

lý ảnh để áp dụng vào bài toán nhận diện khuôn mặt

3 Đối tượng và phạm vi nghiên cứu

 Đối tượng nghiên cứu: mô hình mạng nơron xoắn và phương pháp xử lý ảnh

 Phạm vi nghiên cứu: các công trình, bài báo về lĩnh vực nhận diện khuôn mặt

4 Phương pháp nghiên cứu

 Phương pháp thu thập thông tin: tìm kiếm, tham khảo tất cả các tài liệu liên quan

đến mô hình mạng nơron xoắn và phương pháp xử lý ảnh

Trường Đại học Kinh tế Huế

Trang 11

 Phương pháp xử lý hình ảnh: Từ các hình ảnh chân dung của các tập dữ liệu, nhờ

vào gói lệnh xử lý ảnh của phần mềm Weka, ta có thể tiền xử lý dữ liệu ảnh để có

thể sử dụng dữ liệu của ảnh để tiến hành phân lớp ảnh

 Phương pháp xây dựng, triển khai chương trình: sử dụng thư viện Weka để xây

dựng mô hình phân lớp để nhận diện khuôn mặt

5 Cấu trúc khoá luận

Ngoài phần mở đầu và kết luận, khoá luận gồm 3 chương:

Chương I: Cơ sở lý thuyết

Chương này sẽ trình bày khái quát về khai phá dữ liệu, các mô hình phân lớp, mô

tả về bài toán nhận diện khuôn mặt và nghiên cứu các công trình, bài báo, luận văn về

nhận diện khuôn mặt

Chương II: Phương pháp xây dựng mô hình mạng nơron xoắn

Chương này sẽ trình bày cấu trúc ảnh và quá trình xử lý ảnh, phương pháp xây

dựng và đánh giá mô hình mạng nơron xoắn

Chương III: Thí nghiệm và kết luận

Chương này sẽ xây dựng các mô hình và đánh giá kết quả thí nghiệm

Trường Đại học Kinh tế Huế

Trang 12

CHƯƠNG I CƠ SỞ LÝ THUYẾT

1.1 Khai phá dữ liệu

1.1.1 Khai phá d ữ liệu và quy trình

Khai phá dữ liệu [41] là quá trình phát hiện tri thức dựa vào trích xuất thông tin từ

một bộ dữ liệu theo các cách khác nhau để phân loại thành thông tin hữu ích, tạo điều

kiện thuận lợi cho việc ra quyết định kinh doanh

Hình 1.1: Quá trình khai phá dữ liệu

(Nguồn: www.researchgate.net)

Khai phá dữ liệu là một chuỗi lặp lại các bước:

 Bước 1: Chọn lọc dữ liệu (Selection) - lọc các dữ liệu cần thiết từ một bộ

dữ liệu

 Bước 2: Tiền xử lý dữ liệu (Preprocessing) - làm sạch dữ liệu (loại bỏ dữ

liệu nhiễu và dữ liệu không nhất quán)

 Bước 3: Chuyển đổi dữ liệu (Transformation) - dữ liệu được chuyển đổi và

hợp nhất thành dạng thích hợp để khai phá dữ liệu

 Bước 4: Khai phá dữ liệu (Data mining) - sử dụng các kỹ thuật khai phá để

trích xuất các thông tin tiềm ẩn trong dữ liệu

 Bước 5: Đánh giá kết quả (Evaluation) - đánh giá hiệu năng mô hình

Trường Đại học Kinh tế Huế

Trang 13

Trong khai phá dữ liệu có 2 loại dữ liệu:

 Dữ liệu có nhãn: được dùng cho quá trình học có giám sát

 Dữ liệu không có nhãn: được dùng cho quá trình học không có giám sát

1.1.2 Các phương pháp khai phá dữ liệu

1.1.2.1 Khai phá lu ật kết hợp

Khai phá luật kết hợp [1], [27], [35] là quá trình tìm ra các mẫu có tần suất xuất

hiện cao dựa trên một bộ dữ liệu Một trong những ví dụ điển hình và được sử dụng

rộng rãi của ứng dụng khai phá luật kết hợp là phân tích giỏ hàng Bài toán được phát

biểu như sau:

Cho , , … , là một tập gồm giao dịch

Cho , , … , là một tập gồm tập mục khác nhau xuất hiện trong

Mỗi giao dịch là một tập các mục xuất hiện đồng thời, ⊆

Mỗi giao dịch có một mã định danh riêng gọi là

Cho là một tập các mục Một giao dịch được gọi là chứa khi ⊆

Với và là các tập mục, một luật kết hợp được diễn đạt dưới hình thức: → ,

với ⊂ , ⊂ và ∩ ∅

Luật → trong tập giao dịch có độ hỗ trợ ( ), với là tỉ lệ

phần trăm số giao dịch trong chứa cả và

Luật → trong tập giao dịch có độ tin cậy ( ), với là

tỉ lệ phần trăm các giao dịch trong chứa cả và trên tổng số các giao dịch trong

chỉ chứa

Trường Đại học Kinh tế Huế

Trang 14

Nhìn chung, khai phá luật kết hợp là một quá trình gồm 2 bước:

 Bước 1: Tìm tất cả các tập mục phổ biến - mỗi tập mục sẽ được tính xác

suất xuất hiện, các tập mục phổ biến phải có độ hỗ trợ không nhỏ hơn độ hỗ

trợ tối thiểu

 Bước 2: Tạo ra các luật kết hợp mạnh từ các tập mục phổ biến - các luật

này phải có độ hỗ trợ và độ tin cậy lớn hơn độ hỗ trợ tối thiểu và độ tin cậy

tối thiểu tương ứng

Khai phá luật kết hợp có một số phương pháp khai phá tập mục phổ biến, tiêu biểu

như thuật toán Apriori và thuật toán FP-Growth Thuật toán Apriori thực hiện kỹ thuật

tỉa nhánh để rút gọn kích thước các tập phổ biến khá hiệu quả, nhưng nhược điểm lại

là tốn thời gian nếu phải duyệt cơ sở dữ liệu rất lớn để kiểm tra các tập phổ biến Thuật

toán FP-Growth ra đời nhằm khắc phục nhược điểm của thuật toán Apriori, thuật toán

thực hiện nén toàn bộ cơ sở dữ liệu lên cây mẫu phổ biến, sau đó duyệt cây để khai

thác tập phổ biến

1.1.2.2 Phân c ụm

Phân cụm [7] là quá trình gộp dữ liệu có độ tương tự nhau vào cùng một nhóm, là

quá trình học không có giám sát Phân cụm có thể phát hiện ra các mối quan hệ không

bị phát hiện trước đó trong một tập dữ liệu

Các yêu cầu để phân cụm:

 Khả năng khám phá một số hoặc tất cả các nhóm ẩn

 Sự tương đồng trong nhóm và sự khác biệt giữa các nhóm

 Có khả năng xử lý nhiều loại thuộc tính khác nhau

 Có thể xử lý tiếng ồn và ngoại lệ

 Có thể xử lý chiều cao tốt

 Khả năng mở rộng, giải thích và có thể sử dụng

Các phương pháp để phân cụm:

 Phân cụm phẳng và phân cụm phân cấp

Trường Đại học Kinh tế Huế

Trang 15

 Phân cụm dựa vào mật độ.

 Phân cụm dựa trên lưới

 Phân cụm dựa trên mô hình

 Phân cụm đơn định và phân cụm xác suất

 Phân cụm dữ liệu có số chiều lớn

 Phân cụm dựa trên ràng buộc

 Phân cụm theo lô và phân cụm gia tăng

Một vấn đề quan trọng trong phân cụm là làm thế nào để xác định sự tương tự

nhau giữa hai đối tượng, sao cho các cụm có thể được hình thành từ các đối tượng có

độ tương đồng cao trong các cụm và sự tương đồng thấp giữa các cụm Thông thường,

để đo lường sự tương tự nhau giữa các đối tượng, các phép đo khoảng cách như

Euclidean, Manhattan và Minkowski được sử dụng

Manhattan = ∑ | | (4)Minkowski = ∑ | | / (5)

Có rất nhiều ứng dụng để phân cụm như nghiên cứu thị trường, nhận dạng mẫu,

phân tích dữ liệu và xử lý ảnh Ví dụ, trong kinh doanh, phân cụm có thể được sử dụng

để khám phá và mô tả phân đoạn khách hàng cho các mục đích tiếp thị và trong sinh

học, nó có thể được sử dụng để phân loại thực vật và các đặc điểm của động vật

1.1.2.3 Phân l ớp

Phân lớp [6], [9] là quá trình phân tích dữ liệu phổ biến được dùng để tạo lập các

mô hình mô tả các phân lớp dữ liệu quan trọng Đặc trưng của mô hình phân lớp là học

dựa trên tập dữ liệu mẫu có sẵn (học có giám sát) Phân lớp là dự đoán các nhãn của

các phần tử dữ liệu đầu vào và các nhãn này là các giá trị rời rạc

Phân lớp bao gồm dự đoán một kết quả nhất định dựa trên một đầu vào nhất định

Để dự đoán kết quả, thuật toán phân lớp xử lý một tập dữ liệu huấn luyện có chứa một

Trường Đại học Kinh tế Huế

Trang 16

tập các thuộc tính và kết quả tương ứng, thường được gọi là thuộc tính đích hoặc thuộc

tính dự đốn Thuật tốn cố gắng khám phá các mối quan hệ giữa các thuộc tính cĩ thể

dự đốn kết quả

Các mơ hình phân lớp được xây dựng với mục tiêu là khả năng dự báo cĩ độ chính

xác (precision recall) cao hay tin cậy nhất, hoặc nằm trong khoảng chấp nhận được

Do đĩ bộ dữ liệu dùng để phân lớp sẽ được chia thành hai tập dữ liệu huấn luyện và

tập dữ liệu kiểm thử Tập dữ liệu huấn luyện là tập các phần tử dữ liệu cĩ gán nhãn

Nhãn của các phần tử dữ liệu được đi kèm với dữ liệu trong tập dữ liệu huấn luyện

Tập dữ liệu kiểm thử được dùng để đo độ chính xác của thuật tốn Trong tập dữ liệu

kiểm thử sẽ khơng chứa bất kỳ dữ liệu nào nằm trong tập dữ liệu huấn luyện, từng

phần tử dữ liệu cĩ nhãn đi kèm Các nhãn này được dùng để so sánh với nhãn được

các giải thuật phân lớp dự đốn Tỉ lệ đốn đúng nhãn của các giải thuật phân lớp gọi

là độ chính xác của giải thuật

Một số phương pháp chính để đánh giá mơ hình phân lớp:

 Ma trận hỗn hợp

 Phương pháp Holdout

 Phương pháp cross-validation

 Đường cong Receiver Operating Characteristic (ROC)

Khi giải thuật cĩ độ chính xác cao nằm trong khoảng chấp nhận được trong một

bộ dữ liệu nào thì mơ hình phân lớp sẽ dự đốn lớp của các phần tử dữ liệu mới chưa

được biến đến Độ chính xác dự đốn xác định thuật tốn tốt như thế nào

Phân lớp được ứng dụng rộng rãi trong phân khúc khách hàng, phân loại hồ sơ tín

dụng là an tồn hay rủi ro, dự đốn sở thích của người xem với các thể loại phim

1.1.3 Các phương pháp phân lớp được sử dụng trong khố luận

1.1.3.1 Mơ hình Nạve Bayes

Mơ hình Nạve Bayes [24], [25] lấy tên theo như tác giả của nĩ là Thomas Bayes

Thomas Bayes là nhà triết học, tốn học người Anh Ơng là người đầu tiên sử dụng

xác suất một cách tự cảm và là người đã xây dựng một cơ sở tốn học cho suy luận xác

Trường Đại học Kinh tế Huế

Trang 17

suất Định lý Bayes là phát minh quan trọng nhất của ơng trong dự đốn thống kê Mơ

hình Nạve Bayes được ứng dụng phổ biến vì dễ hiểu và dễ triển khai Đây là mơ hình

thuộc bài tốn phân lớp thống kê

Nạve Bayes là một kỹ thuật đơn giản để xây dựng mơ hình phân lớp: các mơ hình

gán các nhãn lớp cho các thuộc tính, được biểu diễn dưới dạng các vectơ của các giá

trị đặc trưng, nơi các nhãn lớp được rút ra từ một số tập hợp hữu hạn Khơng cĩ một

thuật tốn nào để huấn luyện các phân lớp đĩ, mà là một thuật tốn dựa trên nguyên

tắc tất cả bộ phân lớp Nạve Bayes giả định rằng giá trị của đặc điểm cụ thể độc lập

với giá trị của bất kỳ đặc điểm nào khác Đối với một số loại mơ hình xác suất, bộ

phân lớp Nạve Bayes cĩ thể được huấn luyện rất hiệu quả trong mơi trường học cĩ

giám sát

Tác dụng của mơ hình Nạve Bayes là dự đốn xác suất xảy ra của dữ liệu cĩ điều

kiện và đã qua huấn luyện

Định lí Bayes được phát biểu như sau: Cho (evidence) là một tập dữ liệu thuộc

bài tốn phân lớp cĩ n thuộc tính khác nhau Gọi là giả thuyết nào đĩ để cho

thuộc lớp C Đối với bài tốn phân lớp, ta muốn xác định | là xác suất để xảy

ra đúng với đã xảy ra thuộc phân lớp C – khi ta đã biết thơng tin mơ tả Đây là xác

suất hậu nghiệm Ngược lại, xác suất tiên nghiệm của là chính là xác

suất xảy ra mà khơng cần quan tâm đến bất cứ thơng tin gì của Hay nĩi cách

khác, xác suất tiên nghiệm của khơng phụ thuộc vào Tương tự, | là xác

suất hậu nghiệm xảy ra khi biết điều kiện Cịn lại là xác xuất tiền nghiệm

của

Theo lý thuyết Bayes, các xác suất này cĩ cơng thức tính như sau:

Lợi thế của Nạve Bayes là chỉ địi hỏi một lượng nhỏ dữ liệu huấn luyện để ước

tính các thơng số cần thiết để phân lớp

Trường Đại học Kinh tế Huế

Trang 18

1.1.3.2 Mô hình k-lân c ận (k-Nearest Neighbors)

K-lân cận (k-NN) [13], [15] là phương pháp phân lớp dựa vào các phần tử lân cận

trong tập dữ liệu huấn luyện K-NN là loại học tập lười biếng, trong đó hàm chỉ xấp xỉ

cục bộ và tất cả tính toán được hoãn lại cho đến khi phân lớp

Bao nhiêu láng giềng sẽ được chọn cho thuật toán k-NN sẽ do tham số k quyết

định Tham số k luôn được chọn là số lẻ biểu thị cho số lượng “láng giềng” được chọn

Sẽ có sự tác động đến hiệu suất dự đoán của thuật toán k-NN nên sự lựa chọn thích

hợp của k là khá quan trọng Bởi vậy hệ số k càng lớn thì càng làm giảm tác động của

phương sai gây ra bởi lỗi ngẫu nhiên, nhưng có nguy cơ bỏ qua mô hình nhỏ nhưng

quan trọng

Ta xét một bộ dữ liệu chưa được gán nhãn (mỗi bộ dữ liệu được xem như là một

điểm trong không gian n – chiều) Trong không gian những bộ dữ liệu huấn luyện nào

gần nhất với bộ dữ liệu hiện xét, bộ phân lớp k-NN sẽ tiến hành tìm kiếm

Khi đưa vào một phần tử dữ liệu mới, từ việc dựa vào nhãn (lớp) để quyết định

nhãn (lớp) của phần tử dữ liệu mới thuộc lớp nào thì giải thuật sẽ tìm k phần tử lân

cận Nhãn của phần tử mới sẽ được gán là nhãn của phần tử tìm được nếu trường hợp

chỉ tìm được một phần tử gần phần tử mới nhất Với độ đo khoảng cách Euclide ta có

thể tìm các phần tử lân cận

Giả sử có hai phần tử dữ liệu , , … , và , , … ,

những bộ dữ liệu k-lân cận này được xét dựa trên phép đo khoảng cách truyền thống:

Nhãn lớp phổ biến trong số k-lân cận sẽ là nhãn lớp của bộ dữ liệu X.

 Ưu điểm của mô hình k-NN được liệt kê như sau:

 Độ phức tạp tính toán của mô hình trong quá trình huấn luyện là bằng

0

 Việc dự đoán kết quả của dữ liệu mới rất đơn giản

 Nhược điểm của mô hình k-NN:

Trường Đại học Kinh tế Huế

Trang 19

 Cần lưu tất cả các mẫu mới có thể dự đoán được.

 Với giá trị k do người dùng lựa chọn, nếu k quá nhỏ sẽ nhạy cảm vớinhiễu còn ngược lại nếu k quá lớn thì vùng lân cận có thể chứa cácđiểm của lớp khác

1.1.3.3 Mô hình m ạng nơron nhân tạo (Artificial Neural Network)

Mạng nơron nhân tạo (ANN) [40] là một tập các đơn vị được kết nối với nhau từ

đầu vào cho đến đầu ra mà trong đó mỗi nút có một trọng số riêng Mạng nơron là một

mô hình tính toán dựa trên cấu trúc và chức năng của mạng nơron sinh học Thông tin

chạy qua mạng ảnh hưởng đến cấu trúc của ANN vì mạng nơron thay đổi - hoặc học

theo nghĩa nào đó - dựa trên đầu vào và đầu ra

Cấu trúc chung của một mạng nơron gồm tầng đầu vào (Input layer), tầng ẩn

(Hidden layer) và tầng đầu ra (Output layer) Tẩng ẩn (một hoặc nhiều) bao gồm nhiều

nút nơron có nhiệm vụ tiếp nhận giá trị từ tầng đầu vào và đưa đến các lớp xử lý tiếp

theo Mỗi ANN sẽ có nhiều phần tử xử lý gọi là nơron Mỗi nơron nhận giá trị đầu vào

sau khi xử lý cho ra kết quả duy nhất và có thể lấy làm đầu ra cho nơron khác

Mỗi tầng gồm các nút Ở tầng đầu vào, số nút tương ứng với số thuộc tính của các

tập dữ liệu, sau đó hàm tổng sẽ tính tổng các đầu vào, điều chỉnh trọng số liên kết của

dữ liệu đầu vào

Đối với tầng ẩn, dữ liệu đầu ra của tầng ẩn giấu này có thể là dữ liệu đầu vào của

tầng ẩn kế tiếp Kết quả của tầng ẩn cuối cùng sẽ là đầu vào của tầng đầu ra Số các

tầng ẩn giấu được xác định một cách chủ quan

Ưu điểm của mô hình mạng nơron:

 Đối với những mẫu dữ liệu chưa được huấn luyện trước đó thì mạng nơron

thường có khả năng chịu nhiễu cao và khả năng phân lớp

 Khi có ít kiến thức về mối quan hệ giữa các thuộc tính và nhãn lớp, ta

thường sử dụng mạng nơron

Trường Đại học Kinh tế Huế

Trang 20

 Mạng nơron đặc biệt phù hợp với dữ liệu đầu và đầu ra là các giá trị liên tục.

Mặc dù vậy, mô hình mạng nơron vẫn có nhược điểm là thời gian huấn luyện rất

lâu và khó giải thích cách thức đưa ra quyết định của nó

Mạng nơron có thể được ứng dụng vào nhiều lĩnh vực khác nhau như nhận dạng

chữ viết, giọng nói, hình ảnh, dự đoán chứng khoán

1.1.3.4 Mô hình m ạng nơron xoắn (Convolutional Neural Network)

Trong những năm 1990, LeCun et al [23] áp dụng thuật toán học dựa trên đường

biên cho mạng nơron xoắn và thu được kết quả thành công cho bài toán phân lớp chữ

viết tay Sau đó, các nhà nghiên cứu tiếp tục cải thiện mạng nơron xoắn và báo cáo kết

quả hiện tại trong nhiều nhiệm vụ nhận dạng Mạng nơron xoắn bao gồm hệ thống xử

lý hình ảnh người được tối ưu hoá cao trong cấu trúc để xử lý hình ảnh hai chiều và ba

chiều và nó có hiệu quả trong việc học và trích xuất các đặc điểm khuôn mặt hai chiều

Lớp tổng hợp lớn nhất của mạng nơron xoắn có hiệu quả trong việc hấp thu các biến

thể hình dạng Hơn nữa, với việc bao gồm các kết nối thưa với trọng lượng gắn kết,

mạng nơron xoắn có thông số ít hơn đáng kể so với mạng được kết nối hoàn toàn với

kích thước tương tự Ngoài ra, mạng nơron xoắn được huấn luyện với thuật toán học

dựa trên đường biên và ít bị ảnh hưởng bởi vấn đề biên giảm dần Do thuật toán dựa

trên đường biên huấn luyện toàn bộ mạng để giảm thiểu tiêu chuẩn lỗi trực tiếp, mạng

nơron xoắn có thể tạo ra các trọng số được tối ưu hoá cao

Mạng nơron xoắn (CNN) [8], [14] là một lớp mạng nơron nhân tạo sâu, truyền

thẳng được áp dụng cho phân tích hình ảnh trực quan CNN thường được tạo thành bởi

tập hợp các lớp được nhóm theo chức năng

CNN chủ yếu tập trung vào dữ liệu đầu vào sẽ được đánh giá cao về hình ảnh Do

đó kiến trúc CNN được thiết lập theo cách phù hợp nhất với nhu cầu xử lý dữ liệu đặc

biệt CNN bao gồm 3 lớp: lớp xoắn (Convolutional layer), lớp tổng hợp (Pooling

layer) và lớp kết nối đầy đủ (Fully-connected layer) Các lớp trong CNN bao gồm các

nơron được tổ chức thành ba chiều: chiều cao, chiều dài và chiều sâu Chiều sâu không

Trường Đại học Kinh tế Huế

Trang 21

ảnh hưởng đến tổng số lớp trong CNN Các nơron trong bất kỳ lớp nào cho trước chỉ

kết nối với một vùng nhỏ của lớp phía trước nó

Hình 1.2: Kiến trúc mạng nơron xoắn

(Nguồn: www.researchgate.net)

Lớp xoắn sẽ xác định dữ liệu đầu ra của các nơron được kết nối với dữ liệu đầu

vào thông qua việc tính toán vô hướng giữa trọng số của chúng và vùng được kết nối

Đơn vị tuyến tính tinh chỉnh (Rectified Linear Unit - ReLU) áp dụng hàm kích hoạt

theo từng phần tử như hàm Sigmoid vào dữ liệu đầu ra của quá trình kích hoạt được

tạo ra bởi lớp trước đó

Lớp tổng hợp sẽ thu nhỏ chiều không gian của dữ liệu đầu vào, tiếp tục giảm số

lượng tham số trong quá trình kích hoạt đó

Lớp kết nối đầy đủ thực hiện nhiệm vụ tương tự như mạng nơron nhân tạo và tạo

ra các trọng số từ quá trình kích hoạt để phân loại Lớp kết nối đầy đủ chứa các nơron

Trường Đại học Kinh tế Huế

Trang 22

được kết nối trực tiếp với các nơron trong hai lớp cạnh nhau mà không được kết nối

với bất kỳ lớp nào trong chúng

CNN có rất nhiều ưu điểm so với các mạng nơron khác:

 Thứ nhất, việc sử dụng CNN được thúc đẩy bởi thực tế là chúng có thể tìm

hiểu các đặc trưng liên quan từ một hình ảnh, video ở các cấp độ khác nhau

tương tự như bộ não con người Mạng nơron thông thường không thể làm

được điều này

 Thứ hai, một tính năng quan trọng khác của CNN là chia sẻ trọng số, CNN

sẽ ít phức tạp và tiết kiệm bộ nhớ hơn

 Thứ ba, xét về hiệu suất, CNN hoạt động tốt hơn các mạng nơron trên các

nhiệm vụ nhận dạng hình ảnh thông thường và nhiều tác vụ khác

 Thứ tư, đối với một nhiệm vụ, vấn đề hoàn toàn mới, CNN có thể trích xuất

các thuộc tính hữu ích từ một CNN đã được huấn luyện với trọng số được

huấn luyện của nó bằng cách cho dữ liệu ở mỗi cấp và điều chỉnh CNN cho

nhiệm vụ cụ thể

1.2 Phát biểu bài toán nghiên cứu

Trong khoá luận này, tôi đặt mục tiêu xây dựng mô hình phân lớp mạng nơron

xoắn để nhận diện khuôn mặt Bài toán nghiên cứu xây dựng mô hình phân lớp mạng

nơron xoắn để nhận diện khuôn mặt có thể phát biểu bằng toán học như sau:

Gọi là tập chứa các bức ảnh chân dung được xác định bởi ánh xạ hai chiều từ

miền của các số nguyên có toạ độ đến một dải các điểm ảnh, trong đó:

với , , 1, , 1, , , , ∈Gọi là tập các nhãn ảnh, trong đó:

với 1, , ≪ , ∈Cho là mô hình mạng nơron xoắn dùng để phân lớp nhãn ảnh

Ta có : →

Trường Đại học Kinh tế Huế

Trang 23

1.3 Các công trình liên quan

Florian Schroff, Dmitry Kalenichenko và James Philbin [10] giới thiệu một hệ

thống được gọi là FaceNet trực tiếp học lập bản đồ từ hình ảnh khuôn mặt đến một

không gian Euclide nhỏ gọn - nơi khoảng cách trực tiếp tương ứng với thước đo tương

tự khuôn mặt Khi không gian này được tạo ra, các nhiệm vụ như nhận diện khuôn

mặt, xác minh và phân cụm có thể dễ dàng được triển khai bằng các kỹ thuật tiêu

chuẩn với các nhúng của FaceNet làm các vectơ đặc trưng Phương pháp này sử dụng

một mạng lưới liên kết sâu được đào tạo để trực tiếp tối ưu hoá việc nhúng chính nó,

chứ không phải là một lớp nút cổ chai trung gian như trong các phương pháp trước đó

Để huấn luyện, họ sử dụng ba phần của các bản vá khuôn mặt phù hợp, không khớp

phù hợp được tạo bằng phương pháp khai thác ba chiều trực tuyến mới Lợi ích trong

cách tiếp cận của họ có hiệu quả lớn là họ đạt được hiệu suất nhận diện khuôn mặt chỉ

sử dụng 128 byte cho mỗi khuôn mặt Trên các khuôn mặt được gán nhãn phổ biến

trong bộ dữ liệu LFW, hệ thống của họ đạt được độ chính xác kỉ lục là 99,63%

Để nhận diện tốt hơn trong điều kiện thiếu ánh sáng là một trong những thách thức

quan trọng nhất đối với các hệ thống nhận dạng khuôn mặt thực tế Tan Xiaoyang và

Bill Triggs [30] giải quyết điều này bằng cách kết hợp các điểm mạnh của tiêu chuẩn

hoá ánh sáng, biểu diễn khuôn mặt dựa trên kết cấu cục bộ, kết hợp dựa trên biến đổi

khoảng cách, trích xuất tính năng dựa trên hạt nhân và tính năng kết hợp nhiều tính

năng Cụ thể, họ thực hiện ba đóng góp chính Thứ nhất là họ trình bày một chuỗi tiền

xử lý đơn giản và hiệu quả giúp loại bỏ hầu hết các tác động của việc thay đổi ánh

sáng trong khi vẫn đảm bảo các chi tiết cần thiết để nhận diện Thứ hai là họ giới thiệu

Local ternary patterns (LTP), Local binary patterns (LBP) mô tả cấu tạo cục bộ tách

biệt và ít tiếng ồn hơn và họ cho thấy sự thay thế so sánh dựa trên biểu đồ không gian

cục bộ với sự thay đổi khoảng cách dựa trên biến đổi tiếp tục cải thiện hiệu suất của

nhận dạng khuôn mặt dựa trên LBP, LTP Thứ ba là họ tiếp tục cải thiện độ tin cậy

bằng cách thêm hạt nhân Phân tích thành phần chính (Principal Component Analysis

-PCA) và kết hợp các dấu hiệu xuất hiện cục bộ phong phú từ hai nguồn bổ sung Gabor

Trường Đại học Kinh tế Huế

Trang 24

wavelet và LBP Kết quả cho thấy sự kết hợp này cho độ chính xác cao hơn nhiều so

với đặc trưng được đặt riêng lẻ Họ thí nghiệm trên ba bộ dữ liệu Yale-B mở rộng,

CAS-PEAL-R1 và FRGC-204 để kiểm tra sự nhận diện trong điều kiện thiếu ánh sáng

Ví dụ, trên bộ dữ liệu FRGC-204, nó giảm một nửa tỉ lệ lỗi so với các phương pháp đã

đề xuất trước đó và đạt được tỉ lệ xác minh khuôn mặt là 88,1% với tỉ lệ chấp nhận sai

là 0,1% Các thí nghiệm khác cho thấy rằng phương pháp tiền xử lý của họ hoạt động

tốt hơn một số bộ tiền xử lý hiện có cho một loạt các bộ tính năng, bộ dữ liệu và điều

kiện ánh sáng

Imran Naseem, Roberto Togneri và Mohammed Bennamoun [12] giới thiệu một

cách tiếp cận mới của nhận dạng khuôn mặt bằng cách xây dựng mẫu nhận dạng theo

phương pháp hồi quy tuyến tính Các mẫu từ một lớp đối tượng nằm trên một không

gian con tuyến tính, tác giả phát triển một mô hình tuyến tính biểu diễn một hình ảnh

thăm dò như một tổ hợp tuyến tính của các lớp cụ thể Vấn đề còn lại được giải quyết

bằng cách sử dụng phương pháp bình phương tối thiểu và quyết định được phán quyết

có lợi cho lớp học với lỗi tái thiết tối thiểu Thuật toán phân lớp hồi quy tuyến tính

(Linear Regression Classification - LRC) được đề xuất trong danh mục phân lớp

không gian con gần nhất Thuật toán được đánh giá rộng rãi trên một số cơ sở dữ liệu

tiêu chuẩn theo báo cáo một số giao thức trong tài liệu nhận dạng khuôn mặt Một

nghiên cứu so sánh với các thuật toán hiện đại phản ánh rõ ràng hiệu quả của phương

pháp được đề xuất Đối với vấn đề liên tục tắc nghẽn, họ đề xuất một phương pháp tiếp

cận mô đun LRC, họ giới thiệu thuật toán phép hợp nhất dựa trên khoảng cách

(Distance-based Evidence Fusion - DEF) Phương pháp này đạt được kết quả tốt nhất

chưa từng được báo cáo đối với thách thức tắc nghẽn

Trong lược đồ nhận dạng khuôn mặt biểu diễn thưa, từ điển phải có đặc trưng tốt

(có thể mở rộng không gian con của tất cả các khuôn mặt) trong khi phải hỗ trợ phân

biệt tối ưu cho các lớp (các đặc điểm khác nhau của khuôn mặt người) Zhang Qiang

và Li Baoxin [38] đề xuất một phương pháp để học một từ điển đầy đủ đồng thời đạt

được hai mục tiêu trên Phương pháp được đề xuất là phân biệt K-SVD, dựa trên việc

mở rộng thuật toán K-SVD bằng cách phân loại kết hợp lỗi vào hàm mục tiêu, điều đó

Trường Đại học Kinh tế Huế

Trang 25

cho phép hiệu suất của trình phân loại tuyến tính và khả năng biểu diễn của từ điển

được xem xét cùng một lúc bằng cùng một quy trình tối ưu hoá Thuật toán phân biệt

K-SVD tìm từ điển và giải quyết cho trình phân loại bằng cách sử dụng một thủ tục bắt

nguồn từ thuật toán K-SVD đã chứng minh tính hiệu quả và hiệu suất Điều này trái

ngược với hầu hết các công việc hiện có dựa trên việc giải quyết các vấn đề phụ một

cách lặp đi lặp lại với hy vọng đạt được tối ưu toàn bộ thông qua sự xấp xỉ lặp lại Họ

đánh giá phương pháp được đề xuất sử dụng hai cơ sở dữ liệu Extended YaleB và AR,

so sánh chi tiết với 3 phương pháp thay thế Các thí nghiệm cho thấy phương pháp

được đề xuất tốt hơn so với các phương pháp cạnh tranh này trong hầu hết các trường

hợp Hơn nữa, bằng cách sử dụng tiêu chuẩn Fisher và tính không tương thích từ điển,

họ cho thấy rằng từ điển đã học và trình phân loại tương ứng thực sự được đặt ra khá

tốt để hỗ trợ nhận dạng dựa trên biểu diễn thưa

Nhiều thuật toán nhận diện khuôn mặt cổ điển và hiện đại hoạt động tốt trên các

tập dữ liệu công khai nhưng lại hoạt động không tốt khi chúng được sử dụng trong một

hệ thống nhận dạng thực Điều này chủ yếu là do sự khó khăn của việc xử lý đồng thời

các biến thể trong chiếu sáng, lệch hình ảnh và tắc trong hình ảnh thử nghiệm Andrew

Wagner, John Wright., Arvind Ganesh, Zhou Zihan, Hossein Mobahi và Ma Yi [2]

xem xét tình huống hình ảnh huấn luyện được kiểm soát tốt và hình ảnh thử nghiệm

chỉ được kiểm soát lỏng Họ đề xuất một hệ thống nhận diện khuôn mặt đơn giản, khái

niệm đạt được mức độ mạnh mẽ và ổn định cao đối với biến thể chiếu sáng, lệch hình

ảnh và tắc một phần Hệ thống sử dụng các công cụ từ biểu diễn thưa để căn chỉnh

hình ảnh khuôn mặt thử nghiệm thành một tập hợp các hình ảnh huấn luyện phía trước

Thuật toán liên kết của họ được tính theo kinh nghiệm cho các tập dữ liệu khuôn mặt

công khai như Multi-PIE Họ chứng minh việc làm thế nào để nắm bắt một tập hợp các

hình ảnh huấn luyện với đủ biến thể chiếu sáng mà họ thử nghiệm hình ảnh được chụp

dưới ánh sáng không kiểm soát được Để đánh giá các thuật toán của họ hoạt động như

thế nào trong các điều kiện thử nghiệm thực tế, họ đã triển khai một hệ thống nhận

dạng khuôn mặt hoàn chỉnh, bao gồm cả hệ thống thu thập huấn luyện dựa trên máy

chiếu Hệ thống của họ có thể nhận diện hiệu quả các khuôn mặt dưới nhiều điều kiện

Trường Đại học Kinh tế Huế

Trang 26

thực tế khác nhau, nó chỉ sử dụng hình ảnh phía trước dưới ánh sáng được đề xuất để

huấn luyện

Các tính năng mô tả nhị phân như các mẫu nhị phân cục bộ và các biến thể của nó

đã được sử dụng rộng rãi trong nhiều hệ thống nhận diện khuôn mặt do khả năng phân

biệt mạnh mẽ của chúng Tuy nhiên, hầu hết các mô tả nhị phân khuôn mặt hiện tại

đều được làm bằng tay, việc này đòi hỏi phải có kiến thức tốt để thiết kế chúng bằng

tay Lu Jiwen, Liong Venice Erin, Zhou Xiuzhuang và Zhou Jie [20] đề xuất một

phương pháp học tắt nhị phân khuôn mặt để nhận diện khuôn mặt Với mỗi hình ảnh

khuôn mặt, trước tiên họ trích xuất các vectơ khác biệt điểm ảnh trong các bản vá cục

bộ bằng cách tính toán sự khác biệt giữa mỗi điểm ảnh và các điểm ảnh lân cận Sau

đó họ tìm hiểu cách ánh xạ để chiếu các vectơ khác biệt điểm ảnh vào các vector nhị

phân chiều thấp theo cách không giám sát, trong đó phương sai của tất cả các mã nhị

phân trong tập huấn luyện được tối đa, sự mất mát giữa các mã có giá trị ban đầu và

các mã nhị phân đã học được giảm tối thiểu và mã nhị phân phân bố đồng đều ở mỗi

ngăn đã học, do đó thông tin thừa trong các vectơ khác biệt điểm ảnh được loại bỏ và

mã nhị phân nhỏ được lấy Cuối cùng, họ nhóm và gộp các mã nhị phân này vào một

biểu đồ như là biểu diễn cuối cùng cho mỗi hình ảnh khuôn mặt Hơn nữa, họ đề xuất

phương pháp kết hợp học tắt nhị phân khuôn mặt nhằm giảm độ phức tạp của khuôn

mặt để ứng dụng phương pháp của họ vào các trường hợp nhận diện khuôn mặt phức

tạp Kết quả thử nghiệm mở rộng trên năm bộ dữ liệu khuôn mặt phổ biến cho thấy

rằng các phương pháp của họ hoạt động tốt hơn các bộ mô tả khuôn mặt hiện đại

Nhận diện khuôn mặt là một ứng dụng điển hình của các công nghệ nhận dạng

sinh trắc học, đòi hỏi các phương pháp cụ thể để có được biểu diễn khuôn mặt Yan

Yan, Chen Qiu và Lee Feifei [37] áp dụng một phương pháp đơn giản nhưng rất đáng

tin cậy gọi là lượng hoá vectơ (Vector Quantization - VQ) để trích xuất các điểm đặc

trưng Mặc dù thuật toán VQ đã có hiệu quả, các đặc trưng biểu đồ VQ không có khả

năng truyền tải thông tin cấu trúc không gian, việc này đã làm hạn chế khả năng phân

biệt Họ đề xuất một khung mới được gọi là Markov Stationary Features (MSF) dựa

trên hướng được lựa chọn mà không chỉ mã hoá thông tin cấu trúc không gian vào biểu

Trường Đại học Kinh tế Huế

Trang 27

đồ VQ mà còn có thể loại bỏ sự mơ hồ vốn có của các đặc trưng được trích xuất từ

hình ảnh khuôn mặt để cải thiện hiệu suất nhận diện khuôn mặt Các thí nghiệm được

thực hiện trên cơ sở dữ liệu mặt ORL và đạt được tỉ lệ nhận diện trung bình tối đa là

96,28% Bằng cách kết hợp nhiều tính năng MSF-VQ dựa trên các hướng khác nhau, tỉ

lệ nhận dạng có thể tăng lên đến 96,45%

Để giải quyết vấn đề nhận diện khuôn mặt không được kiểm soát tốt, chẳng hạn

như thay đổi ánh sáng, thay đổi tư thế và tham chiếu điểm ảnh ngẫu nhiên, Liu

Linghui, Luan Xiao, Tang Shu, Geng Hongmin và Zhang Ye [18] đề xuất phương

pháp nhận diện khuôn mặt mạnh dựa trên cách trình bày và trích xuất hình ảnh dư

Được biểu diễn bằng biểu diễn thưa và hồi quy tuyến tính, phương pháp biểu diễn

tuyến tính thường sử dụng các huấn luyện mẫu để mô tả và tái tạo các mẫu thử, và xác

định các kết quả phân loại theo khoảng cách giữa các mẫu thử và mẫu tái thiết Họ

xem xét sử dụng hồi quy tuyến tính để lấy mẫu tái tạo của mẫu thử đối với từng đối

tượng và tính toán hình ảnh dư bằng sự khác biệt giữa mẫu thử và mẫu tái tạo Sau đó,

họ phân tích cường độ phân phối các hình ảnh dư giữa chủ thể chính xác và các chủ

thể khác, và áp dụng chuyển đổi cường độ để vượt qua sự khác biệt trong lớp và tăng

cường sự khác biệt giữa các lớp Cuối cùng, họ sử dụng phân tách tóc để trích xuất

phân bố cường độ toàn bộ các hình ảnh còn lại để minh họa sự không chắc chắn về

phân bố cường độ, được trích xuất dưới dạng các đặc trưng riêng So với một số

phương pháp nhận dạng khuôn mặt phổ biến, hiệu quả của phương pháp này được xác

minh trên 4 cơ sở dữ liệu khuôn mặt phổ biến ORL, Extended Yale B, Georgia Tech

và AR với kết quả đầy hứa hẹn

Mạng nơron xoắn đã được sử dụng rộng rãi trong cộng đồng thị giác máy tính

giúp cải thiện đáng kể công nghệ hiện đại Trong hầu hết các mạng nơron xoắn có sẵn,

hàm Softmax được sử dụng làm tín hiệu giám sát để huấn luyện mô hình sâu Để tăng

khả năng phân biệt các đặc điểm huấn luyện sâu, Wen Yandong, Zhang Kaipeng, Li

Zhifeng và Qiao Yu [39] đề xuất một tín hiệu giám sát mới, được gọi là mất trung tâm

cho nhiệm vụ nhận dạng khuôn mặt Cụ thể, việc mất trung tâm đồng thời tìm hiểu

một trung tâm cho các đặc điểm sâu của mỗi lớp và hình phạt khoảng cách giữa các

Trường Đại học Kinh tế Huế

Trang 28

đặc điểm sâu và các trung tâm lớp tương ứng của chúng Quan trọng hơn, tác giả

chứng minh rằng chức năng mất trung tâm có thể huấn luyện và dễ dàng tối ưu hoá

trong các mạng nơron xoắn Với sự giám sát chung của Softmax và mất trung tâm, họ

có thể huấn luyện một mạng nơron xoắn mạnh để có được những đặc điểm sâu với hai

mục tiêu huấn luyện chính, phân lớp liên lớp và độ kín trong lớp càng nhiều càng tốt

Các mạng nơron xoắn của họ (với sự giám sát chung) đạt được độ chính xác hiện đại

trên một số cơ sở dữ liệu nhận diện khuôn mặt chuẩn Khuôn mặt được gán nhãn trong

LFW, YouTube Face và MegaFace Challenge Đặc biệt, cách tiếp cận mới của họ đạt

được kết quả tốt nhất trên MegaFace (tiêu chuẩn mặt phổ biến nhất) theo giao thức

huấn luyện nhỏ (chứa dưới 500000 hình ảnh và dưới 20000 người), cải thiện đáng kể

các kết quả trước đó và thiết lập công nghệ tiên tiến mới cho nhiệm vụ nhận diện

khuôn mặt

Do tầm quan trọng của an ninh trong xã hội, hoạt động giám sát và nhận dạng

người cụ thể thông qua camera giám sát video đóng một vai trò quan trọng Một trong

những vấn đề chính trong hoạt động đó phát sinh từ thực tế là camera không đáp ứng

được yêu cầu giải quyết cho nhiều thuật toán nhận dạng khuôn mặt Để giải quyết vấn

đề này, Pejman Rasti, Tõnis Uiboupin, Sergio Escalera, và Gholamreza Anbarjafari

[26] đề xuất một hệ thống mới siêu phân giải hình ảnh bằng cách sử dụng mạng xoắn

học sâu theo sau là mô hình ẩn Markov và phân tích giá trị đơn trị (Singular Value

Decomposition - SVD) dựa trên nhận diện khuôn mặt Hệ thống đã được kiểm thử trên

nhiều cơ sở dữ liệu khuôn mặt nổi tiếng như cơ sở dữ liệu FERET, HeadPose và Essex

University cũng như cơ sở dữ liệu nhận diện khuôn mặt iCV được giới thiệu của họ

Kết quả kiểm thử cho thấy tỉ lệ nhận dạng được cải thiện đáng kể sau khi áp dụng siêu

phân giải

Lu Jiwen, Wang Gang và Zhou Jie [22] đề xuất tính năng đồng thời và phương

pháp học từ điển cho nhận dạng khuôn mặt dựa trên hình ảnh, trong đó mỗi ví dụ huấn

luyện và kiểm thử đều chứa một tập các hình ảnh khuôn mặt, được chụp từ các trường

hợp khác nhau, ánh sáng, biểu hiện, độ phân giải và chuyển động Mặc dù nhiều tính

năng học tập và phương pháp học từ điển đã được đề xuất trong những năm gần đây và

Trường Đại học Kinh tế Huế

Trang 29

một số phương pháp đã được áp dụng thành công cho nhận diện khuôn mặt dựa trên

hình ảnh, hầu hết chúng đều học các đặc trưng và từ điển cho bộ ảnh khuôn mặt riêng,

nó có thể không đủ tốt bởi vì một số thông tin phân biệt đối với học từ điển có thể bị

tổn hại trong giai đoạn học tập đặc trưng nếu chúng được áp dụng tuần tự và ngược lại

Để giải quyết vấn đề này, họ đề xuất một phương pháp tính năng đồng thời và phương

pháp học từ điển để học các đặc trưng phân biệt và từ điển đồng thời từ các điểm ảnh

khuôn mặt thô để phân biệt thông tin từ bộ ảnh khuôn mặt có thể được khai thác chung

bởi một quy trình Để khai thác tốt hơn tính phi tuyến của các mẫu khuôn mặt từ các

bộ ảnh khác nhau, họ đề xuất phương pháp tính năng đồng thời và phương pháp học từ

điển sâu bằng cách học cùng các phép biến đổi phi tuyến phân cấp và các từ điển theo

từng lớp để cải thiện hơn nữa hiệu suất nhận dạng Kết quả thí nghiệm trên năm bộ dữ

liệu mặt phổ biến cho thấy rõ ràng phương pháp tính năng đồng thời và phương pháp

học từ điển và phương pháp tính năng đồng thời và phương pháp học từ điển sâu của

họ đạt được hiệu suất rất cao

Các phương pháp nhận dạng khuôn mặt thông thường dựa trên khuôn mặt thường

giả định rằng có nhiều mẫu có sẵn cho mỗi người để trích xuất đặc điểm phân biệt

trong giai đoạn huấn luyện Trong nhiều ứng dụng nhận dạng khuôn mặt thực tế như

hộ chiếu điện tử và nhận dạng thẻ mã, giả định này có thể không giữ được vì mỗi

người chỉ được đăng ký một mẫu duy nhất Nhiều phương thức nhận diện khuôn mặt

phổ biến không hoạt động tốt trong trường hợp này vì không có đủ mẫu để học phân

biệt Để giải quyết vấn đề này, Lu Jiwen, Tan Yap-Peng và Wang Gang [21] đề xuất

một phương pháp phân tích đa chiều phân biệt mới bằng cách học các đặc điểm riêng

biệt từ các hình ảnh Đầu tiên, họ phân vùng từng hình ảnh khuôn mặt đã đăng ký

thành nhiều bản không chồng chéo để tạo thành một bộ hình ảnh cho mỗi mẫu của mỗi

người Sau đó, họ xây dựng nhận diện khuôn mặt mỗi mẫu một người dưới dạng so

sánh đa chiều và tìm hiểu nhiều không gian phân tích đa chiều để tối đa số chiều của

những người khác nhau Cuối cùng, họ trình bày khoảng cách đa chiều dựa trên tái

thiết để xác định các chủ đề không được gán nhãn Kết quả thử nghiệm trên ba cơ sở

dữ liệu mặt phổ biến đã chứng minh tính hiệu quả của phương pháp được đề xuất

Trường Đại học Kinh tế Huế

Trang 30

Các ứng dụng nhận diện khuôn mặt cho an ninh và giám sát sân bay có thể được

hưởng lợi từ sự kết hợp giữa điện toán đám mây và di động khi chúng trở nên phổ biến

hiện nay Tolga Soyata, Rajani Muraleedharan, Colin Funai, Minseok Kwon và Wendi

Heinzelman [32] thảo luận về việc thiết kế và thực hiện các ứng dụng nhận diện khuôn

mặt bằng cách sử dụng kiến trúc điện toán đám mây di động có tên MOCHA của họ và

kết quả hoạt động ban đầu của nó Thách thức nằm ở cách thực hiện phân vùng nhiệm

vụ từ thiết bị di động sang đám mây và phân phối tải tính toán giữa các máy chủ đám

mây để giảm thiểu thời gian phản hồi với thời gian chờ truyền thông đa dạng và khả

năng của máy chủ Kết quả mô phỏng sơ bộ của họ cho thấy các thuật toán phân vùng

nhiệm vụ tối ưu ảnh hưởng đáng kể đến thời gian đáp ứng với các độ trễ không đồng

nhất và các khả năng tính toán Được thúc đẩy bởi những kết quả này, họ thiết kế, thực

hiện và xác nhận các chức năng cơ bản của MOCHA như một khái niệm và phát triển

các thuật toán nhằm giảm thiểu thời gian phản hồi chung cho nhận dạng khuôn mặt

Kết quả thử nghiệm của họ chứng minh rằng các điện toán đám mây có công suất cao

về mặt kỹ thuật và thực sự giúp giảm thời gian xử lý tổng thể khi các ứng dụng nhận

dạng khuôn mặt chạy trên thiết bị di động bằng cách sử dụng đám mây làm máy chủ

phụ trợ

Nhiều phương pháp đã được phát triển để nhận diện khuôn mặt toàn diện với hiệu

suất ấn tượng Tuy nhiên, một số nghiên cứu đã giải quyết cách nhận dạng điểm tùy ý

trong hình ảnh khuôn mặt Một phần khuôn mặt thường xuất hiện trong các trường hợp

không bị giới hạn với hình ảnh được chụp bằng camera giám sát hoặc thiết bị cầm tay

(ví dụ như điện thoại di động) nói riêng Liao Shengcai, Anil K Jain và Stan Z Li [17]

đề xuất phương pháp nhận diện khuôn mặt chung một phần mà không yêu cầu điều

chỉnh vị trí khuôn mặt bằng toạ độ mắt hoặc bất kỳ điểm chuẩn nào khác Họ phát

triển một phương pháp biểu diễn khuôn mặt không liên kết dựa trên bộ mô tả đa điểm,

trong đó kích thước mô tả của khuôn mặt được xác định bởi diện tích thực tế của hình

ảnh Bằng cách này, bất kỳ hình ảnh khuôn mặt thăm dò, toàn diện hoặc một phần, có

thể được miêu tả thưa bởi từ điển lớn của bộ mô tả bộ Điểm nhận diện mới được gọi

là mô hình Ternary Gabor cũng được phát triển để phân biệt và nhận diện khuôn mặt

Kết quả thử nghiệm được thực hiện trên bốn cơ sở dữ liệu mặt phổ biến (FRGC v2.0,

Trường Đại học Kinh tế Huế

Trang 31

AR, LFW và PubFig) trong cả hai kịch bản xác định và xác minh mở So sánh với hai

SDK nhận dạng khuôn mặt thương mại hàng đầu (PittPatt và FaceVACS) và hai thuật

toán cơ sở (PCA, LDA cùng với LBP) cho thấy phương pháp của họ tốt hơn trong việc

nhận diện cả khuôn mặt hay một phần mà không cần phải căn chỉnh

Phân lớp dựa trên biểu diễn thưa là một trong những kỹ thuật mới để nhận diện

khuôn mặt trong những năm gần đây Phân lớp dựa trên biểu diễn thưa có thể được coi

là một sự tổng quát của vùng lân cận gần nhất và không gian gần nhất Bài báo này lần

đầu tiên xem xét các bộ phân loại gần nhất, bao gồm láng giềng gần nhất, dòng tính

năng gần nhất và tính năng không gian gần nhất, việc xây dựng chúng như là vấn đề

tối ưu hoá chung, nó cho ra một viễn cảnh mới để hiểu bộ phân loại gần nhất và phân

lớp dựa trên biểu diễn thưa Lu Canyi, Min Hai, Gui Jie, Zhu Lin và Lei Yingke [19]

đề xuất phương pháp phân lớp dựa trên đại diện có trọng số thưa Phân lớp dựa trên

đại diện có trọng số thưa sử dụng cả dữ liệu cục bộ và tuyến tính, nó có thể được xem

là phần mở rộng của phân lớp dựa trên biểu diễn thưa, nhưng mã hoá là cục bộ Kết

quả thử nghiệm trên cơ sở dữ liệu mở rộng Yale B, AR và một số tập dữ liệu từ kho

lưu trữ UCI cho thấy rằng phân lớp dựa trên đại diện có trọng số thưa hiệu quả hơn

phân lớp dựa trên biểu diễn thưa

Cho đến bây giờ, một số lượng đáng kể các nỗ lực dành cho vấn đề nhận diện

khuôn mặt không giới hạn, trong đó nhiệm vụ là dự đoán các cặp hình ảnh có phải từ

cùng một người hay không Khó khăn do sự thay đổi lớn trong hình ảnh khuôn mặt

Cao Qiong, Ying Yiming và Li Peng [3] phát triển một khung quy tắc mới để tìm hiểu

các chỉ số tương tự cho việc nhận diện khuôn mặt không giới hạn Họ xây dựng chức

năng của mình bằng cách kết hợp tính mạnh mẽ với các biến thể nội bộ lớn và khả

năng phân biệt các chỉ số tương đồng mới Ngoài ra, ý kiến của họ là vấn đề tối ưu hoá

đảm bảo sự tồn tại của giải pháp toàn diện của nó Các thí nghiệm cho thấy phương

pháp đề xuất của họ đạt được kết quả khá cao trên các khuôn mặt được gắn nhãn trong

cơ sở dữ liệu LFW

Từ Minh Hiển và Trần Thị Khánh Hoà [36] nghiên cứu và phát triển hai hệ thống

nhận diện khuôn mặt đơn giản sử dụng phương pháp đối sánh và mạng nơron dựa trên

Trường Đại học Kinh tế Huế

Trang 32

PCA Hệ thống được thử nghiệm trên cơ sở dữ liệu ORL của AT&T Các kết quả thí

nghiệm được phân tích để đánh giá hiệu suất nhận dạng và tính ổn định của hai hệ

thống trong các điều kiện khác nhau Kết quả cũng đã chỉ ra hiệu suất của mạng nơron

là cao hơn so với phương pháp đối sánh

Trương Cơng Lợi [34] nghiên cứu phương pháp kết hợp Eigenfaces và mạng

nơron Hệ thống được thử nghiệm trên cơ sở dữ liệu Faces94 Kết quả thí nghiệm nhận

dạng kết hợp phương pháp biến đổi Eigenfaces và mạng nơron đạt 98,9%, trong khi

kết quả của các phương pháp sĩng Wavelet chỉ cao tới 96,9% Với việc kết hợp

phương pháp Eigenfaces với mạng nơron, phương pháp này đã đạt hiệu suất nhận dạng

cao và ổn định hơn hẳn các phương pháp sĩng Wavelet

Nhận diện khuơn mặt là một trong những vấn đề thách thức trong lĩnh vực thị giác

máy tính Các cơng trình nghiên cứu gần đây đã nâng cao độ chính xác của hệ thống

nhận dạng Châu Ngân Khánh và Đồn Thanh Nghị [5] trình bày một phương pháp kết

hợp Haar Like Feature - Cascade of Boosted Classifiers (CBC) và thuật tốn SIFT

(Scale-Invariant Feature Transform) cho nhận diện khuơn mặt Các đặc trưng Haar

Like kết hợp thuật tốn AdaBoost và mơ hình phân tầng Cascade để phát hiện nhanh,

chính xác và trích xuất ảnh khuơn mặt Sự phản chiếu của các hình ảnh được phản

chiếu bằng phương pháp SIFT khơng thể thay đổi tỉ lệ ảnh, tịnh tiến, xoay, khơng bị

thay đổi một phần với phép biến đổi hình học affine (thay đổi gĩc nhìn) và mạnh với

những thay đổi về độ sáng, tiến ồn và che khuất Để nhận diện đối tượng, tác giả đề

xuất sử dụng các thuật tốn k-NN, k-NN đảo ngược và Nạve Bayes lân cận (Nạve

Bayes Nearest Neighbor – NBNN) Kết quả thử nghiệm trên một số bộ dữ liệu chuẩn

như AT&T, Face94, Face95, Face96, Grimace, Jaffe Với việc sử dụng phương pháp

của tác giả cho nhận diện khuơn mặt đã đạt được độ chính xác tốt hơn so với các

phương pháp khác kNN, kNN đảo ngược và NBNN lần lượt là 94.35%, 86.05% và

98.83%

Trịnh Tấn Đạt và Phạm Thế Bảo [33] đề xuất phương pháp nhận diện khuơn mặt

dựa trên đặc trưng Gabor kết hợp AdaBoost và k-means Họ sử dụng phương pháp

Gabor wavelet lấy các đặc trưng trên ảnh khuơn mặt tạo vectơ đặc trưng AdaBoost cải

Trường Đại học Kinh tế Huế

Trang 33

tiến được dùng như một phương pháp làm giảm số chiều của các vectơ đặc trưng trong

suốt quá trình nhận dạng Đồng thời, họ sử dụng thuật toán k-means để phân cơ sở dữ

liệu ảnh khuôn mặt thành những nhóm khác nhau để giảm thời gian xử lý và tăng hiệu

suất trong quá trình nhận dạng Cơ sở dữ liệu ảnh ORL của AT&T được dùng để kiểm

thử với 200 đặc trưng Gabor có độ chính xác là 86,07% và thời gian nhận dạng trung

bình là 0.06 giây

Trường Đại học Kinh tế Huế

Ngày đăng: 28/08/2023, 20:52

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Andrew Wagner, John Wright., Arvind Ganesh, Zhou Zihan, Hossein Mobahi, and Ma Yi (2012), “Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation”, IEEE Trans Pattern Anal Mach Intell, 34(2), 372-386 Sách, tạp chí
Tiêu đề: Toward a Practical Face Recognition System: Robust Alignment andIllumination by Sparse Representation
Tác giả: Andrew Wagner, John Wright., Arvind Ganesh, Zhou Zihan, Hossein Mobahi, and Ma Yi
Năm: 2012
[3] Cao Qiong, Ying Yiming, and Li Peng (2013), “Similarity Metric Learning for Face Recognition”, The IEEE International Conference on Computer Vision, 2408- 2415 Sách, tạp chí
Tiêu đề: Similarity Metric Learning forFace Recognition
Tác giả: Cao Qiong, Ying Yiming, and Li Peng
Năm: 2013
[4] Carlos Eduardo Thomaz - Personal Web Page,<https://fei.edu.br/~cet/facedatabase.html>, xem ngày 30/11/2018 Sách, tạp chí
Tiêu đề: Personal Web Page
Tác giả: Carlos Eduardo Thomaz
Năm: 2018
[5] Châu Ngân Khánh, và Đoàn Thanh Nghị (2014), “Nhận dạng mặt người với giải thuật Haar Like Feature - Cascade of Boosted Classifiers và đặc trưng SIFT”, Tạp chí Khoa Học, 3(2), 15-24.[6] Classification,<https://docs.oracle.com/cd/B28359_01/datamine.111/b28129/classify.htm>, xem ngày 29/09/2018 Sách, tạp chí
Tiêu đề: Nhận dạng mặt người với giải thuật Haar Like Feature - Cascade of Boosted Classifiers và đặc trưng SIFT
Tác giả: Châu Ngân Khánh, Đoàn Thanh Nghị
Nhà XB: Tạp chí Khoa Học
Năm: 2014
[7] Clustering, <https://www.saedsayad.com/clustering.htm>, xem ngày 29/09/2018 Sách, tạp chí
Tiêu đề: Clustering
[8] Convolutional neural network,<https://en.wikipedia.org/wiki/Convolutional_neural_network>, xem ngày 29/09/2018 Sách, tạp chí
Tiêu đề: Convolutional neural network
[9] Fabricio voznika, and Leonardo Viana (2001), “Data Mining Classification”, Springer Sách, tạp chí
Tiêu đề: Data Mining Classification
Tác giả: Fabricio voznika, and Leonardo Viana
Năm: 2001
[10] Florian Schroff, Dmitry Kalenichenko, and James Philbin (2015), “FaceNet: A Unified Embedding for Face Recognition and Clustering”, The IEEE Conference on Computer Vision and Pattern Recognition, 815-823.Trường Đại học Kinh tế Huế Sách, tạp chí
Tiêu đề: FaceNet: AUnified Embedding for Face Recognition and Clustering
Tác giả: Florian Schroff, Dmitry Kalenichenko, and James Philbin
Năm: 2015
[1] Association Rules, <https://www.saedsayad.com/association_rules.htm>, xem ngày 29/09/2018 Khác

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w