Trong ứng dụng của khai phá dữ liệu, để có thể nhận diện người chính xác, các dữ liệu của khuôn mặt cần phải được phân loại -xác định trước, từ đó hệ thống nhận diện sẽ có thể -xác định
Trang 1ĐẠI HỌC HUẾ TRƯỜNG ĐẠI HỌC KINH TẾ HUẾ KHOA HỆ THỐNG THÔNG TIN KINH TẾ
- -KHOÁ LUẬN TỐT NGHIỆP
XÂY DỰNG MÔ HÌNH PHÂN LỚP ĐỂ NHẬN DIỆN
KHUÔN MẶT DỰA TRÊN MẠNG NƠRON XOẮN
Sinh viên thực hiện:
Phạm Nguyễn Hà Quang
Lớp: K49A Tin học kinh tế
Niên khoá: 2015-2019
Giảng viên hướng dẫn:
TS Nguyễn Đình Hoa Cương
Huế, 01/2019
Trường Đại học Kinh tế Huế
Trang 2LỜI CẢM ƠN
Được sự phân công của khoa Hệ Thống Thông Tin Kinh Tế, trường Đại Học Kinh
Tế Huế, sau gần ba tháng thực tập tại công ty TNHH Một thành viên MagRabbit Huế
và viết khoá luận, nay em đã hoàn thành khoá luận tốt nghiệp cuối khoá
Để hoàn thành nhiệm vụ được giao, ngoài sự nỗ lực học hỏi của bản thân còn có
sự hướng dẫn tận tình của thầy cô, sự giúp đỡ của bạn bè và anh chị tại công ty, đặc
biệt hơn là sự động viên tinh thần lớn từ gia đình
Em xin chân thành cảm ơn TS Nguyễn Đình Hoa Cương, người đã hướng dẫn
cho em trong suốt thời gian thực tập Thầy đã chỉ ra những vấn đề mà em gặp phải lúc
làm khoá luận, định hướng đi cho em để em hoàn thành tốt nhiệm vụ
Xin cảm ơn tất cả các bạn bè, thầy cô, anh chị ở công ty và gia đình đã giúp đỡ,
dìu dắt em trong suốt thời gian qua Tất cả mọi người đều nhiệt tình giúp đỡ, mặc dù
số lượng công việc của công ty ngày một tăng lên nhưng công ty vẫn dành thời gian để
hướng dẫn rất nhiệt tình Bên cạnh đó, động lực vô cùng to lớn để em cố gắng hoàn
thành tốt khoá luận này đó là gia đình
Để hoàn thành khoá luận này, em đã nhận được sự hướng dẫn, giúp đỡ và động
viên tận tình từ nhiều phía Tất cả những điều này đã trở thành một động lực rất lớn
giúp em có thể hoàn thành tốt mọi công việc được giao
Một lần nữa xin gửi đến gia đình, thầy cô và bạn bè cùng các anh chị tại công ty
MagRabbit lời cảm ơn chân thành và tốt đẹp nhất!
Huế, tháng 1 năm 2019 Sinh viên ký tên Phạm Nguyễn Hà Quang
Trường Đại học Kinh tế Huế
Trang 3MỤC LỤC
LỜI CẢM ƠN i
MỤC LỤC ii
DANH MỤC THUẬT NGỮ v
DANH MỤC HÌNH ẢNH vii
DANH MỤC BẢNG viii
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục tiêu của đề tài 1
3 Đối tượng và phạm vi nghiên cứu 1
4 Phương pháp nghiên cứu 1
5 Cấu trúc khố luận 2
CHƯƠNG I CƠ SỞ LÝ THUYẾT 3
1.1 Khai phá dữ liệu 3
1.1.1 Khai phá dữ liệu và quy trình 3
1.1.2 Các phương pháp khai phá dữ liệu 4
1.1.2.1 Khai phá luật kết hợp 4
1.1.2.2 Phân cụm 5
1.1.2.3 Phân lớp 6
1.1.3 Các phương pháp phân lớp được sử dụng trong khố luận 7
1.1.3.1 Mơ hình Nạve Bayes 7
1.1.3.2 Mơ hình k-lân cận (k-Nearest Neighbors) 9
1.1.3.3 Mơ hình mạng nơron nhân tạo (Artificial Neural Network) 10
Trường Đại học Kinh tế Huế
Trang 41.2 Phát biểu bài toán nghiên cứu 13
1.3 Các công trình liên quan 14
CHƯƠNG II PHƯƠNG PHÁP XÂY DỰNG MÔ HÌNH MẠNG NƠRON XOẮN 25
2.1 Cấu trúc ảnh và quá trình xử lý ảnh 25
2.1.1 Cấu trúc ảnh 25
2.1.2 Quá trình xử lý ảnh 26
2.1.2.1 Thu nhận ảnh 28
2.1.2.2 Lọc và nâng cao ảnh 29
2.1.2.3 Khôi phục ảnh 30
2.1.2.4 Xử lý ảnh màu 31
2.1.2.5 Xử lý Wavelet và đa nhiệm 32
2.1.2.6 Nén ảnh 33
2.1.2.7 Xử lý hình thái ảnh 36
2.1.2.8 Phân đoạn ảnh 37
2.1.2.9 Biểu diễn và mô tả ảnh 38
2.1.2.10 Nhận dạng ảnh 40
2.2 Phương pháp xây dựng mô hình 41
2.3 Phương pháp đánh giá mô hình 41
CHƯƠNG III THÍ NGHIỆM VÀ KẾT LUẬN 44
3.1 Thiết lập thí nghiệm 44
3.2 Kết quả thí nghiệm 44
3.3 Ứng dụng Swing vào thí nghiệm 48
3.4 Thảo luận và kết luận 50
Trường Đại học Kinh tế Huế
Trang 5KẾT LUẬN 52
DANH MỤC TÀI LIỆU THAM KHẢO 53
Trường Đại học Kinh tế Huế
Trang 6DANH MỤC THUẬT NGỮ
1 ANN Artificial Neural Network Mạng nơron nhân tạo
2 CCD Charge Coupled Device Linh kiện tích điện kép
3 CNN Convolutional Neural Network Mạng nơron xoắn
4 DEF Distance-based Evidence Fusion Phép hợp nhất dựa trên
khoảng cách
5 k-NN k-nearest neighbors k-lân cận
6 LBP Local binary patterns Mẫu nhị phân cục bộ
7 LDA Linear Discriminant Analysis Phân tích phân biệt
tuyến tính
8 LDP Local Directional Pattern Mô hình hướng cục bộ
9 LPF Low Pass Filter Bộ lọc thông thấp
10 LRC Linear Regression Classification Phân lớp hồi quy tuyến tính
11 LTP Local ternary patterns Mẫu tam phân cục bộ
12 PCA Principal Component Analysis Phân tích thành phần chính
13 ReLU Rectified Linear Unit Đơn vị tuyến tính
Trang 717 SVD Singular Value Decomposition Phân tích giá trị đơn trị
18 VQ Vector Quantization Lượng hoá vectơ
Trường Đại học Kinh tế Huế
Trang 8DANH MỤC HÌNH ẢNH
Hình 1.1: Quá trình khai phá dữ liệu 3
Hình 1.2: Kiến trúc mạng nơron xoắn 12
Hình 2.1: Toạ độ trong bức ảnh 25
Hình 2.2: Quá trình xử lý ảnh 27
Hình 2.3: Hệ thống nén ảnh 34
Hình 3.1: Đường ROC của các mô hình xét trên tập dữ liệu FEI 46
Hình 3.2: Đường ROC của các mô hình xét trên tập dữ liệu LFW 47
Hình 3.3: Đường ROC của các mô hình xét trên tập dữ liệu ORL 48
Hình 3.4: Giao diện phân lớp 49
Hình 3.5: Giao diện dự đoán nhãn lớp 50
Trường Đại học Kinh tế Huế
Trang 10MỞ ĐẦU
1 Lý do chọn đề tài
Trong những năm gần đây, với sự phát triển vượt bậc của công nghệ thông tin, các
ứng dụng về trí tuệ nhân tạo ngày càng phát triển và được đánh giá cao Ứng dụng của
trí tuệ nhân tạo có thể lưu trữ một khối lượng lớn dữ liệu về hoạt động hàng ngày của
chúng Từ khối dữ liệu này, các kỹ thuật trong khai phá dữ liệu có thể được dùng để
trích xuất những thông tin hữu ích mà chúng ta chưa biết Các tri thức vừa học được có
thể được vận dụng để nâng cao hiệu suất làm việc và cải thiện chất lượng cuộc sống
của con người Một trong những ứng dụng của trí tuệ nhân tạo đang được quan tâm, đó
là nhận diện khuôn mặt
Khuôn mặt đóng vai trò giao tiếp giữa người với người, mang một lượng lớn
thông tin, từ đó xác định được giới tính, tuổi tác, cảm xúc của người đó Vì vậy, nhận
diện khuôn mặt được ứng dụng vào rất nhiều lĩnh vực trong đời sống của con người,
chẳng hạn như tìm kiếm người, bảo mật Trong ứng dụng của khai phá dữ liệu, để có
thể nhận diện người chính xác, các dữ liệu của khuôn mặt cần phải được phân loại
-xác định trước, từ đó hệ thống nhận diện sẽ có thể -xác định được đó là người nào
Từ những lý do đó, tôi quyết định chọn đề tài “Xây dựng mô hình phân lớp để
nhận diện khuôn mặt dựa trên mạng nơron xoắn” làm hướng nghiên cứu đề tài.
2 Mục tiêu của đề tài
Nghiên cứu phương pháp xây dựng mô hình mạng nơron xoắn và phương pháp xử
lý ảnh để áp dụng vào bài toán nhận diện khuôn mặt
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: mô hình mạng nơron xoắn và phương pháp xử lý ảnh
Phạm vi nghiên cứu: các công trình, bài báo về lĩnh vực nhận diện khuôn mặt
4 Phương pháp nghiên cứu
Phương pháp thu thập thông tin: tìm kiếm, tham khảo tất cả các tài liệu liên quan
đến mô hình mạng nơron xoắn và phương pháp xử lý ảnh
Trường Đại học Kinh tế Huế
Trang 11 Phương pháp xử lý hình ảnh: Từ các hình ảnh chân dung của các tập dữ liệu, nhờ
vào gói lệnh xử lý ảnh của phần mềm Weka, ta có thể tiền xử lý dữ liệu ảnh để có
thể sử dụng dữ liệu của ảnh để tiến hành phân lớp ảnh
Phương pháp xây dựng, triển khai chương trình: sử dụng thư viện Weka để xây
dựng mô hình phân lớp để nhận diện khuôn mặt
5 Cấu trúc khoá luận
Ngoài phần mở đầu và kết luận, khoá luận gồm 3 chương:
Chương I: Cơ sở lý thuyết
Chương này sẽ trình bày khái quát về khai phá dữ liệu, các mô hình phân lớp, mô
tả về bài toán nhận diện khuôn mặt và nghiên cứu các công trình, bài báo, luận văn về
nhận diện khuôn mặt
Chương II: Phương pháp xây dựng mô hình mạng nơron xoắn
Chương này sẽ trình bày cấu trúc ảnh và quá trình xử lý ảnh, phương pháp xây
dựng và đánh giá mô hình mạng nơron xoắn
Chương III: Thí nghiệm và kết luận
Chương này sẽ xây dựng các mô hình và đánh giá kết quả thí nghiệm
Trường Đại học Kinh tế Huế
Trang 12CHƯƠNG I CƠ SỞ LÝ THUYẾT
1.1 Khai phá dữ liệu
1.1.1 Khai phá d ữ liệu và quy trình
Khai phá dữ liệu [41] là quá trình phát hiện tri thức dựa vào trích xuất thông tin từ
một bộ dữ liệu theo các cách khác nhau để phân loại thành thông tin hữu ích, tạo điều
kiện thuận lợi cho việc ra quyết định kinh doanh
Hình 1.1: Quá trình khai phá dữ liệu
(Nguồn: www.researchgate.net)
Khai phá dữ liệu là một chuỗi lặp lại các bước:
Bước 1: Chọn lọc dữ liệu (Selection) - lọc các dữ liệu cần thiết từ một bộ
dữ liệu
Bước 2: Tiền xử lý dữ liệu (Preprocessing) - làm sạch dữ liệu (loại bỏ dữ
liệu nhiễu và dữ liệu không nhất quán)
Bước 3: Chuyển đổi dữ liệu (Transformation) - dữ liệu được chuyển đổi và
hợp nhất thành dạng thích hợp để khai phá dữ liệu
Bước 4: Khai phá dữ liệu (Data mining) - sử dụng các kỹ thuật khai phá để
trích xuất các thông tin tiềm ẩn trong dữ liệu
Bước 5: Đánh giá kết quả (Evaluation) - đánh giá hiệu năng mô hình
Trường Đại học Kinh tế Huế
Trang 13Trong khai phá dữ liệu có 2 loại dữ liệu:
Dữ liệu có nhãn: được dùng cho quá trình học có giám sát
Dữ liệu không có nhãn: được dùng cho quá trình học không có giám sát
1.1.2 Các phương pháp khai phá dữ liệu
1.1.2.1 Khai phá lu ật kết hợp
Khai phá luật kết hợp [1], [27], [35] là quá trình tìm ra các mẫu có tần suất xuất
hiện cao dựa trên một bộ dữ liệu Một trong những ví dụ điển hình và được sử dụng
rộng rãi của ứng dụng khai phá luật kết hợp là phân tích giỏ hàng Bài toán được phát
biểu như sau:
Cho , , … , là một tập gồm giao dịch
Cho , , … , là một tập gồm tập mục khác nhau xuất hiện trong
Mỗi giao dịch là một tập các mục xuất hiện đồng thời, ⊆
Mỗi giao dịch có một mã định danh riêng gọi là
Cho là một tập các mục Một giao dịch được gọi là chứa khi ⊆
Với và là các tập mục, một luật kết hợp được diễn đạt dưới hình thức: → ,
với ⊂ , ⊂ và ∩ ∅
Luật → trong tập giao dịch có độ hỗ trợ ( ), với là tỉ lệ
phần trăm số giao dịch trong chứa cả và
Luật → trong tập giao dịch có độ tin cậy ( ), với là
tỉ lệ phần trăm các giao dịch trong chứa cả và trên tổng số các giao dịch trong
chỉ chứa
Trường Đại học Kinh tế Huế
Trang 14Nhìn chung, khai phá luật kết hợp là một quá trình gồm 2 bước:
Bước 1: Tìm tất cả các tập mục phổ biến - mỗi tập mục sẽ được tính xác
suất xuất hiện, các tập mục phổ biến phải có độ hỗ trợ không nhỏ hơn độ hỗ
trợ tối thiểu
Bước 2: Tạo ra các luật kết hợp mạnh từ các tập mục phổ biến - các luật
này phải có độ hỗ trợ và độ tin cậy lớn hơn độ hỗ trợ tối thiểu và độ tin cậy
tối thiểu tương ứng
Khai phá luật kết hợp có một số phương pháp khai phá tập mục phổ biến, tiêu biểu
như thuật toán Apriori và thuật toán FP-Growth Thuật toán Apriori thực hiện kỹ thuật
tỉa nhánh để rút gọn kích thước các tập phổ biến khá hiệu quả, nhưng nhược điểm lại
là tốn thời gian nếu phải duyệt cơ sở dữ liệu rất lớn để kiểm tra các tập phổ biến Thuật
toán FP-Growth ra đời nhằm khắc phục nhược điểm của thuật toán Apriori, thuật toán
thực hiện nén toàn bộ cơ sở dữ liệu lên cây mẫu phổ biến, sau đó duyệt cây để khai
thác tập phổ biến
1.1.2.2 Phân c ụm
Phân cụm [7] là quá trình gộp dữ liệu có độ tương tự nhau vào cùng một nhóm, là
quá trình học không có giám sát Phân cụm có thể phát hiện ra các mối quan hệ không
bị phát hiện trước đó trong một tập dữ liệu
Các yêu cầu để phân cụm:
Khả năng khám phá một số hoặc tất cả các nhóm ẩn
Sự tương đồng trong nhóm và sự khác biệt giữa các nhóm
Có khả năng xử lý nhiều loại thuộc tính khác nhau
Có thể xử lý tiếng ồn và ngoại lệ
Có thể xử lý chiều cao tốt
Khả năng mở rộng, giải thích và có thể sử dụng
Các phương pháp để phân cụm:
Phân cụm phẳng và phân cụm phân cấp
Trường Đại học Kinh tế Huế
Trang 15 Phân cụm dựa vào mật độ.
Phân cụm dựa trên lưới
Phân cụm dựa trên mô hình
Phân cụm đơn định và phân cụm xác suất
Phân cụm dữ liệu có số chiều lớn
Phân cụm dựa trên ràng buộc
Phân cụm theo lô và phân cụm gia tăng
Một vấn đề quan trọng trong phân cụm là làm thế nào để xác định sự tương tự
nhau giữa hai đối tượng, sao cho các cụm có thể được hình thành từ các đối tượng có
độ tương đồng cao trong các cụm và sự tương đồng thấp giữa các cụm Thông thường,
để đo lường sự tương tự nhau giữa các đối tượng, các phép đo khoảng cách như
Euclidean, Manhattan và Minkowski được sử dụng
Manhattan = ∑ | | (4)Minkowski = ∑ | | / (5)
Có rất nhiều ứng dụng để phân cụm như nghiên cứu thị trường, nhận dạng mẫu,
phân tích dữ liệu và xử lý ảnh Ví dụ, trong kinh doanh, phân cụm có thể được sử dụng
để khám phá và mô tả phân đoạn khách hàng cho các mục đích tiếp thị và trong sinh
học, nó có thể được sử dụng để phân loại thực vật và các đặc điểm của động vật
1.1.2.3 Phân l ớp
Phân lớp [6], [9] là quá trình phân tích dữ liệu phổ biến được dùng để tạo lập các
mô hình mô tả các phân lớp dữ liệu quan trọng Đặc trưng của mô hình phân lớp là học
dựa trên tập dữ liệu mẫu có sẵn (học có giám sát) Phân lớp là dự đoán các nhãn của
các phần tử dữ liệu đầu vào và các nhãn này là các giá trị rời rạc
Phân lớp bao gồm dự đoán một kết quả nhất định dựa trên một đầu vào nhất định
Để dự đoán kết quả, thuật toán phân lớp xử lý một tập dữ liệu huấn luyện có chứa một
Trường Đại học Kinh tế Huế
Trang 16tập các thuộc tính và kết quả tương ứng, thường được gọi là thuộc tính đích hoặc thuộc
tính dự đốn Thuật tốn cố gắng khám phá các mối quan hệ giữa các thuộc tính cĩ thể
dự đốn kết quả
Các mơ hình phân lớp được xây dựng với mục tiêu là khả năng dự báo cĩ độ chính
xác (precision recall) cao hay tin cậy nhất, hoặc nằm trong khoảng chấp nhận được
Do đĩ bộ dữ liệu dùng để phân lớp sẽ được chia thành hai tập dữ liệu huấn luyện và
tập dữ liệu kiểm thử Tập dữ liệu huấn luyện là tập các phần tử dữ liệu cĩ gán nhãn
Nhãn của các phần tử dữ liệu được đi kèm với dữ liệu trong tập dữ liệu huấn luyện
Tập dữ liệu kiểm thử được dùng để đo độ chính xác của thuật tốn Trong tập dữ liệu
kiểm thử sẽ khơng chứa bất kỳ dữ liệu nào nằm trong tập dữ liệu huấn luyện, từng
phần tử dữ liệu cĩ nhãn đi kèm Các nhãn này được dùng để so sánh với nhãn được
các giải thuật phân lớp dự đốn Tỉ lệ đốn đúng nhãn của các giải thuật phân lớp gọi
là độ chính xác của giải thuật
Một số phương pháp chính để đánh giá mơ hình phân lớp:
Ma trận hỗn hợp
Phương pháp Holdout
Phương pháp cross-validation
Đường cong Receiver Operating Characteristic (ROC)
Khi giải thuật cĩ độ chính xác cao nằm trong khoảng chấp nhận được trong một
bộ dữ liệu nào thì mơ hình phân lớp sẽ dự đốn lớp của các phần tử dữ liệu mới chưa
được biến đến Độ chính xác dự đốn xác định thuật tốn tốt như thế nào
Phân lớp được ứng dụng rộng rãi trong phân khúc khách hàng, phân loại hồ sơ tín
dụng là an tồn hay rủi ro, dự đốn sở thích của người xem với các thể loại phim
1.1.3 Các phương pháp phân lớp được sử dụng trong khố luận
1.1.3.1 Mơ hình Nạve Bayes
Mơ hình Nạve Bayes [24], [25] lấy tên theo như tác giả của nĩ là Thomas Bayes
Thomas Bayes là nhà triết học, tốn học người Anh Ơng là người đầu tiên sử dụng
xác suất một cách tự cảm và là người đã xây dựng một cơ sở tốn học cho suy luận xác
Trường Đại học Kinh tế Huế
Trang 17suất Định lý Bayes là phát minh quan trọng nhất của ơng trong dự đốn thống kê Mơ
hình Nạve Bayes được ứng dụng phổ biến vì dễ hiểu và dễ triển khai Đây là mơ hình
thuộc bài tốn phân lớp thống kê
Nạve Bayes là một kỹ thuật đơn giản để xây dựng mơ hình phân lớp: các mơ hình
gán các nhãn lớp cho các thuộc tính, được biểu diễn dưới dạng các vectơ của các giá
trị đặc trưng, nơi các nhãn lớp được rút ra từ một số tập hợp hữu hạn Khơng cĩ một
thuật tốn nào để huấn luyện các phân lớp đĩ, mà là một thuật tốn dựa trên nguyên
tắc tất cả bộ phân lớp Nạve Bayes giả định rằng giá trị của đặc điểm cụ thể độc lập
với giá trị của bất kỳ đặc điểm nào khác Đối với một số loại mơ hình xác suất, bộ
phân lớp Nạve Bayes cĩ thể được huấn luyện rất hiệu quả trong mơi trường học cĩ
giám sát
Tác dụng của mơ hình Nạve Bayes là dự đốn xác suất xảy ra của dữ liệu cĩ điều
kiện và đã qua huấn luyện
Định lí Bayes được phát biểu như sau: Cho (evidence) là một tập dữ liệu thuộc
bài tốn phân lớp cĩ n thuộc tính khác nhau Gọi là giả thuyết nào đĩ để cho
thuộc lớp C Đối với bài tốn phân lớp, ta muốn xác định | là xác suất để xảy
ra đúng với đã xảy ra thuộc phân lớp C – khi ta đã biết thơng tin mơ tả Đây là xác
suất hậu nghiệm Ngược lại, xác suất tiên nghiệm của là chính là xác
suất xảy ra mà khơng cần quan tâm đến bất cứ thơng tin gì của Hay nĩi cách
khác, xác suất tiên nghiệm của khơng phụ thuộc vào Tương tự, | là xác
suất hậu nghiệm xảy ra khi biết điều kiện Cịn lại là xác xuất tiền nghiệm
của
Theo lý thuyết Bayes, các xác suất này cĩ cơng thức tính như sau:
Lợi thế của Nạve Bayes là chỉ địi hỏi một lượng nhỏ dữ liệu huấn luyện để ước
tính các thơng số cần thiết để phân lớp
Trường Đại học Kinh tế Huế
Trang 181.1.3.2 Mô hình k-lân c ận (k-Nearest Neighbors)
K-lân cận (k-NN) [13], [15] là phương pháp phân lớp dựa vào các phần tử lân cận
trong tập dữ liệu huấn luyện K-NN là loại học tập lười biếng, trong đó hàm chỉ xấp xỉ
cục bộ và tất cả tính toán được hoãn lại cho đến khi phân lớp
Bao nhiêu láng giềng sẽ được chọn cho thuật toán k-NN sẽ do tham số k quyết
định Tham số k luôn được chọn là số lẻ biểu thị cho số lượng “láng giềng” được chọn
Sẽ có sự tác động đến hiệu suất dự đoán của thuật toán k-NN nên sự lựa chọn thích
hợp của k là khá quan trọng Bởi vậy hệ số k càng lớn thì càng làm giảm tác động của
phương sai gây ra bởi lỗi ngẫu nhiên, nhưng có nguy cơ bỏ qua mô hình nhỏ nhưng
quan trọng
Ta xét một bộ dữ liệu chưa được gán nhãn (mỗi bộ dữ liệu được xem như là một
điểm trong không gian n – chiều) Trong không gian những bộ dữ liệu huấn luyện nào
gần nhất với bộ dữ liệu hiện xét, bộ phân lớp k-NN sẽ tiến hành tìm kiếm
Khi đưa vào một phần tử dữ liệu mới, từ việc dựa vào nhãn (lớp) để quyết định
nhãn (lớp) của phần tử dữ liệu mới thuộc lớp nào thì giải thuật sẽ tìm k phần tử lân
cận Nhãn của phần tử mới sẽ được gán là nhãn của phần tử tìm được nếu trường hợp
chỉ tìm được một phần tử gần phần tử mới nhất Với độ đo khoảng cách Euclide ta có
thể tìm các phần tử lân cận
Giả sử có hai phần tử dữ liệu , , … , và , , … ,
những bộ dữ liệu k-lân cận này được xét dựa trên phép đo khoảng cách truyền thống:
Nhãn lớp phổ biến trong số k-lân cận sẽ là nhãn lớp của bộ dữ liệu X.
Ưu điểm của mô hình k-NN được liệt kê như sau:
Độ phức tạp tính toán của mô hình trong quá trình huấn luyện là bằng
0
Việc dự đoán kết quả của dữ liệu mới rất đơn giản
Nhược điểm của mô hình k-NN:
Trường Đại học Kinh tế Huế
Trang 19 Cần lưu tất cả các mẫu mới có thể dự đoán được.
Với giá trị k do người dùng lựa chọn, nếu k quá nhỏ sẽ nhạy cảm vớinhiễu còn ngược lại nếu k quá lớn thì vùng lân cận có thể chứa cácđiểm của lớp khác
1.1.3.3 Mô hình m ạng nơron nhân tạo (Artificial Neural Network)
Mạng nơron nhân tạo (ANN) [40] là một tập các đơn vị được kết nối với nhau từ
đầu vào cho đến đầu ra mà trong đó mỗi nút có một trọng số riêng Mạng nơron là một
mô hình tính toán dựa trên cấu trúc và chức năng của mạng nơron sinh học Thông tin
chạy qua mạng ảnh hưởng đến cấu trúc của ANN vì mạng nơron thay đổi - hoặc học
theo nghĩa nào đó - dựa trên đầu vào và đầu ra
Cấu trúc chung của một mạng nơron gồm tầng đầu vào (Input layer), tầng ẩn
(Hidden layer) và tầng đầu ra (Output layer) Tẩng ẩn (một hoặc nhiều) bao gồm nhiều
nút nơron có nhiệm vụ tiếp nhận giá trị từ tầng đầu vào và đưa đến các lớp xử lý tiếp
theo Mỗi ANN sẽ có nhiều phần tử xử lý gọi là nơron Mỗi nơron nhận giá trị đầu vào
sau khi xử lý cho ra kết quả duy nhất và có thể lấy làm đầu ra cho nơron khác
Mỗi tầng gồm các nút Ở tầng đầu vào, số nút tương ứng với số thuộc tính của các
tập dữ liệu, sau đó hàm tổng sẽ tính tổng các đầu vào, điều chỉnh trọng số liên kết của
dữ liệu đầu vào
Đối với tầng ẩn, dữ liệu đầu ra của tầng ẩn giấu này có thể là dữ liệu đầu vào của
tầng ẩn kế tiếp Kết quả của tầng ẩn cuối cùng sẽ là đầu vào của tầng đầu ra Số các
tầng ẩn giấu được xác định một cách chủ quan
Ưu điểm của mô hình mạng nơron:
Đối với những mẫu dữ liệu chưa được huấn luyện trước đó thì mạng nơron
thường có khả năng chịu nhiễu cao và khả năng phân lớp
Khi có ít kiến thức về mối quan hệ giữa các thuộc tính và nhãn lớp, ta
thường sử dụng mạng nơron
Trường Đại học Kinh tế Huế
Trang 20 Mạng nơron đặc biệt phù hợp với dữ liệu đầu và đầu ra là các giá trị liên tục.
Mặc dù vậy, mô hình mạng nơron vẫn có nhược điểm là thời gian huấn luyện rất
lâu và khó giải thích cách thức đưa ra quyết định của nó
Mạng nơron có thể được ứng dụng vào nhiều lĩnh vực khác nhau như nhận dạng
chữ viết, giọng nói, hình ảnh, dự đoán chứng khoán
1.1.3.4 Mô hình m ạng nơron xoắn (Convolutional Neural Network)
Trong những năm 1990, LeCun et al [23] áp dụng thuật toán học dựa trên đường
biên cho mạng nơron xoắn và thu được kết quả thành công cho bài toán phân lớp chữ
viết tay Sau đó, các nhà nghiên cứu tiếp tục cải thiện mạng nơron xoắn và báo cáo kết
quả hiện tại trong nhiều nhiệm vụ nhận dạng Mạng nơron xoắn bao gồm hệ thống xử
lý hình ảnh người được tối ưu hoá cao trong cấu trúc để xử lý hình ảnh hai chiều và ba
chiều và nó có hiệu quả trong việc học và trích xuất các đặc điểm khuôn mặt hai chiều
Lớp tổng hợp lớn nhất của mạng nơron xoắn có hiệu quả trong việc hấp thu các biến
thể hình dạng Hơn nữa, với việc bao gồm các kết nối thưa với trọng lượng gắn kết,
mạng nơron xoắn có thông số ít hơn đáng kể so với mạng được kết nối hoàn toàn với
kích thước tương tự Ngoài ra, mạng nơron xoắn được huấn luyện với thuật toán học
dựa trên đường biên và ít bị ảnh hưởng bởi vấn đề biên giảm dần Do thuật toán dựa
trên đường biên huấn luyện toàn bộ mạng để giảm thiểu tiêu chuẩn lỗi trực tiếp, mạng
nơron xoắn có thể tạo ra các trọng số được tối ưu hoá cao
Mạng nơron xoắn (CNN) [8], [14] là một lớp mạng nơron nhân tạo sâu, truyền
thẳng được áp dụng cho phân tích hình ảnh trực quan CNN thường được tạo thành bởi
tập hợp các lớp được nhóm theo chức năng
CNN chủ yếu tập trung vào dữ liệu đầu vào sẽ được đánh giá cao về hình ảnh Do
đó kiến trúc CNN được thiết lập theo cách phù hợp nhất với nhu cầu xử lý dữ liệu đặc
biệt CNN bao gồm 3 lớp: lớp xoắn (Convolutional layer), lớp tổng hợp (Pooling
layer) và lớp kết nối đầy đủ (Fully-connected layer) Các lớp trong CNN bao gồm các
nơron được tổ chức thành ba chiều: chiều cao, chiều dài và chiều sâu Chiều sâu không
Trường Đại học Kinh tế Huế
Trang 21ảnh hưởng đến tổng số lớp trong CNN Các nơron trong bất kỳ lớp nào cho trước chỉ
kết nối với một vùng nhỏ của lớp phía trước nó
Hình 1.2: Kiến trúc mạng nơron xoắn
(Nguồn: www.researchgate.net)
Lớp xoắn sẽ xác định dữ liệu đầu ra của các nơron được kết nối với dữ liệu đầu
vào thông qua việc tính toán vô hướng giữa trọng số của chúng và vùng được kết nối
Đơn vị tuyến tính tinh chỉnh (Rectified Linear Unit - ReLU) áp dụng hàm kích hoạt
theo từng phần tử như hàm Sigmoid vào dữ liệu đầu ra của quá trình kích hoạt được
tạo ra bởi lớp trước đó
Lớp tổng hợp sẽ thu nhỏ chiều không gian của dữ liệu đầu vào, tiếp tục giảm số
lượng tham số trong quá trình kích hoạt đó
Lớp kết nối đầy đủ thực hiện nhiệm vụ tương tự như mạng nơron nhân tạo và tạo
ra các trọng số từ quá trình kích hoạt để phân loại Lớp kết nối đầy đủ chứa các nơron
Trường Đại học Kinh tế Huế
Trang 22được kết nối trực tiếp với các nơron trong hai lớp cạnh nhau mà không được kết nối
với bất kỳ lớp nào trong chúng
CNN có rất nhiều ưu điểm so với các mạng nơron khác:
Thứ nhất, việc sử dụng CNN được thúc đẩy bởi thực tế là chúng có thể tìm
hiểu các đặc trưng liên quan từ một hình ảnh, video ở các cấp độ khác nhau
tương tự như bộ não con người Mạng nơron thông thường không thể làm
được điều này
Thứ hai, một tính năng quan trọng khác của CNN là chia sẻ trọng số, CNN
sẽ ít phức tạp và tiết kiệm bộ nhớ hơn
Thứ ba, xét về hiệu suất, CNN hoạt động tốt hơn các mạng nơron trên các
nhiệm vụ nhận dạng hình ảnh thông thường và nhiều tác vụ khác
Thứ tư, đối với một nhiệm vụ, vấn đề hoàn toàn mới, CNN có thể trích xuất
các thuộc tính hữu ích từ một CNN đã được huấn luyện với trọng số được
huấn luyện của nó bằng cách cho dữ liệu ở mỗi cấp và điều chỉnh CNN cho
nhiệm vụ cụ thể
1.2 Phát biểu bài toán nghiên cứu
Trong khoá luận này, tôi đặt mục tiêu xây dựng mô hình phân lớp mạng nơron
xoắn để nhận diện khuôn mặt Bài toán nghiên cứu xây dựng mô hình phân lớp mạng
nơron xoắn để nhận diện khuôn mặt có thể phát biểu bằng toán học như sau:
Gọi là tập chứa các bức ảnh chân dung được xác định bởi ánh xạ hai chiều từ
miền của các số nguyên có toạ độ đến một dải các điểm ảnh, trong đó:
với , , 1, , 1, , , , ∈Gọi là tập các nhãn ảnh, trong đó:
với 1, , ≪ , ∈Cho là mô hình mạng nơron xoắn dùng để phân lớp nhãn ảnh
Ta có : →
Trường Đại học Kinh tế Huế
Trang 23⟼
1.3 Các công trình liên quan
Florian Schroff, Dmitry Kalenichenko và James Philbin [10] giới thiệu một hệ
thống được gọi là FaceNet trực tiếp học lập bản đồ từ hình ảnh khuôn mặt đến một
không gian Euclide nhỏ gọn - nơi khoảng cách trực tiếp tương ứng với thước đo tương
tự khuôn mặt Khi không gian này được tạo ra, các nhiệm vụ như nhận diện khuôn
mặt, xác minh và phân cụm có thể dễ dàng được triển khai bằng các kỹ thuật tiêu
chuẩn với các nhúng của FaceNet làm các vectơ đặc trưng Phương pháp này sử dụng
một mạng lưới liên kết sâu được đào tạo để trực tiếp tối ưu hoá việc nhúng chính nó,
chứ không phải là một lớp nút cổ chai trung gian như trong các phương pháp trước đó
Để huấn luyện, họ sử dụng ba phần của các bản vá khuôn mặt phù hợp, không khớp
phù hợp được tạo bằng phương pháp khai thác ba chiều trực tuyến mới Lợi ích trong
cách tiếp cận của họ có hiệu quả lớn là họ đạt được hiệu suất nhận diện khuôn mặt chỉ
sử dụng 128 byte cho mỗi khuôn mặt Trên các khuôn mặt được gán nhãn phổ biến
trong bộ dữ liệu LFW, hệ thống của họ đạt được độ chính xác kỉ lục là 99,63%
Để nhận diện tốt hơn trong điều kiện thiếu ánh sáng là một trong những thách thức
quan trọng nhất đối với các hệ thống nhận dạng khuôn mặt thực tế Tan Xiaoyang và
Bill Triggs [30] giải quyết điều này bằng cách kết hợp các điểm mạnh của tiêu chuẩn
hoá ánh sáng, biểu diễn khuôn mặt dựa trên kết cấu cục bộ, kết hợp dựa trên biến đổi
khoảng cách, trích xuất tính năng dựa trên hạt nhân và tính năng kết hợp nhiều tính
năng Cụ thể, họ thực hiện ba đóng góp chính Thứ nhất là họ trình bày một chuỗi tiền
xử lý đơn giản và hiệu quả giúp loại bỏ hầu hết các tác động của việc thay đổi ánh
sáng trong khi vẫn đảm bảo các chi tiết cần thiết để nhận diện Thứ hai là họ giới thiệu
Local ternary patterns (LTP), Local binary patterns (LBP) mô tả cấu tạo cục bộ tách
biệt và ít tiếng ồn hơn và họ cho thấy sự thay thế so sánh dựa trên biểu đồ không gian
cục bộ với sự thay đổi khoảng cách dựa trên biến đổi tiếp tục cải thiện hiệu suất của
nhận dạng khuôn mặt dựa trên LBP, LTP Thứ ba là họ tiếp tục cải thiện độ tin cậy
bằng cách thêm hạt nhân Phân tích thành phần chính (Principal Component Analysis
-PCA) và kết hợp các dấu hiệu xuất hiện cục bộ phong phú từ hai nguồn bổ sung Gabor
Trường Đại học Kinh tế Huế
Trang 24wavelet và LBP Kết quả cho thấy sự kết hợp này cho độ chính xác cao hơn nhiều so
với đặc trưng được đặt riêng lẻ Họ thí nghiệm trên ba bộ dữ liệu Yale-B mở rộng,
CAS-PEAL-R1 và FRGC-204 để kiểm tra sự nhận diện trong điều kiện thiếu ánh sáng
Ví dụ, trên bộ dữ liệu FRGC-204, nó giảm một nửa tỉ lệ lỗi so với các phương pháp đã
đề xuất trước đó và đạt được tỉ lệ xác minh khuôn mặt là 88,1% với tỉ lệ chấp nhận sai
là 0,1% Các thí nghiệm khác cho thấy rằng phương pháp tiền xử lý của họ hoạt động
tốt hơn một số bộ tiền xử lý hiện có cho một loạt các bộ tính năng, bộ dữ liệu và điều
kiện ánh sáng
Imran Naseem, Roberto Togneri và Mohammed Bennamoun [12] giới thiệu một
cách tiếp cận mới của nhận dạng khuôn mặt bằng cách xây dựng mẫu nhận dạng theo
phương pháp hồi quy tuyến tính Các mẫu từ một lớp đối tượng nằm trên một không
gian con tuyến tính, tác giả phát triển một mô hình tuyến tính biểu diễn một hình ảnh
thăm dò như một tổ hợp tuyến tính của các lớp cụ thể Vấn đề còn lại được giải quyết
bằng cách sử dụng phương pháp bình phương tối thiểu và quyết định được phán quyết
có lợi cho lớp học với lỗi tái thiết tối thiểu Thuật toán phân lớp hồi quy tuyến tính
(Linear Regression Classification - LRC) được đề xuất trong danh mục phân lớp
không gian con gần nhất Thuật toán được đánh giá rộng rãi trên một số cơ sở dữ liệu
tiêu chuẩn theo báo cáo một số giao thức trong tài liệu nhận dạng khuôn mặt Một
nghiên cứu so sánh với các thuật toán hiện đại phản ánh rõ ràng hiệu quả của phương
pháp được đề xuất Đối với vấn đề liên tục tắc nghẽn, họ đề xuất một phương pháp tiếp
cận mô đun LRC, họ giới thiệu thuật toán phép hợp nhất dựa trên khoảng cách
(Distance-based Evidence Fusion - DEF) Phương pháp này đạt được kết quả tốt nhất
chưa từng được báo cáo đối với thách thức tắc nghẽn
Trong lược đồ nhận dạng khuôn mặt biểu diễn thưa, từ điển phải có đặc trưng tốt
(có thể mở rộng không gian con của tất cả các khuôn mặt) trong khi phải hỗ trợ phân
biệt tối ưu cho các lớp (các đặc điểm khác nhau của khuôn mặt người) Zhang Qiang
và Li Baoxin [38] đề xuất một phương pháp để học một từ điển đầy đủ đồng thời đạt
được hai mục tiêu trên Phương pháp được đề xuất là phân biệt K-SVD, dựa trên việc
mở rộng thuật toán K-SVD bằng cách phân loại kết hợp lỗi vào hàm mục tiêu, điều đó
Trường Đại học Kinh tế Huế
Trang 25cho phép hiệu suất của trình phân loại tuyến tính và khả năng biểu diễn của từ điển
được xem xét cùng một lúc bằng cùng một quy trình tối ưu hoá Thuật toán phân biệt
K-SVD tìm từ điển và giải quyết cho trình phân loại bằng cách sử dụng một thủ tục bắt
nguồn từ thuật toán K-SVD đã chứng minh tính hiệu quả và hiệu suất Điều này trái
ngược với hầu hết các công việc hiện có dựa trên việc giải quyết các vấn đề phụ một
cách lặp đi lặp lại với hy vọng đạt được tối ưu toàn bộ thông qua sự xấp xỉ lặp lại Họ
đánh giá phương pháp được đề xuất sử dụng hai cơ sở dữ liệu Extended YaleB và AR,
so sánh chi tiết với 3 phương pháp thay thế Các thí nghiệm cho thấy phương pháp
được đề xuất tốt hơn so với các phương pháp cạnh tranh này trong hầu hết các trường
hợp Hơn nữa, bằng cách sử dụng tiêu chuẩn Fisher và tính không tương thích từ điển,
họ cho thấy rằng từ điển đã học và trình phân loại tương ứng thực sự được đặt ra khá
tốt để hỗ trợ nhận dạng dựa trên biểu diễn thưa
Nhiều thuật toán nhận diện khuôn mặt cổ điển và hiện đại hoạt động tốt trên các
tập dữ liệu công khai nhưng lại hoạt động không tốt khi chúng được sử dụng trong một
hệ thống nhận dạng thực Điều này chủ yếu là do sự khó khăn của việc xử lý đồng thời
các biến thể trong chiếu sáng, lệch hình ảnh và tắc trong hình ảnh thử nghiệm Andrew
Wagner, John Wright., Arvind Ganesh, Zhou Zihan, Hossein Mobahi và Ma Yi [2]
xem xét tình huống hình ảnh huấn luyện được kiểm soát tốt và hình ảnh thử nghiệm
chỉ được kiểm soát lỏng Họ đề xuất một hệ thống nhận diện khuôn mặt đơn giản, khái
niệm đạt được mức độ mạnh mẽ và ổn định cao đối với biến thể chiếu sáng, lệch hình
ảnh và tắc một phần Hệ thống sử dụng các công cụ từ biểu diễn thưa để căn chỉnh
hình ảnh khuôn mặt thử nghiệm thành một tập hợp các hình ảnh huấn luyện phía trước
Thuật toán liên kết của họ được tính theo kinh nghiệm cho các tập dữ liệu khuôn mặt
công khai như Multi-PIE Họ chứng minh việc làm thế nào để nắm bắt một tập hợp các
hình ảnh huấn luyện với đủ biến thể chiếu sáng mà họ thử nghiệm hình ảnh được chụp
dưới ánh sáng không kiểm soát được Để đánh giá các thuật toán của họ hoạt động như
thế nào trong các điều kiện thử nghiệm thực tế, họ đã triển khai một hệ thống nhận
dạng khuôn mặt hoàn chỉnh, bao gồm cả hệ thống thu thập huấn luyện dựa trên máy
chiếu Hệ thống của họ có thể nhận diện hiệu quả các khuôn mặt dưới nhiều điều kiện
Trường Đại học Kinh tế Huế
Trang 26thực tế khác nhau, nó chỉ sử dụng hình ảnh phía trước dưới ánh sáng được đề xuất để
huấn luyện
Các tính năng mô tả nhị phân như các mẫu nhị phân cục bộ và các biến thể của nó
đã được sử dụng rộng rãi trong nhiều hệ thống nhận diện khuôn mặt do khả năng phân
biệt mạnh mẽ của chúng Tuy nhiên, hầu hết các mô tả nhị phân khuôn mặt hiện tại
đều được làm bằng tay, việc này đòi hỏi phải có kiến thức tốt để thiết kế chúng bằng
tay Lu Jiwen, Liong Venice Erin, Zhou Xiuzhuang và Zhou Jie [20] đề xuất một
phương pháp học tắt nhị phân khuôn mặt để nhận diện khuôn mặt Với mỗi hình ảnh
khuôn mặt, trước tiên họ trích xuất các vectơ khác biệt điểm ảnh trong các bản vá cục
bộ bằng cách tính toán sự khác biệt giữa mỗi điểm ảnh và các điểm ảnh lân cận Sau
đó họ tìm hiểu cách ánh xạ để chiếu các vectơ khác biệt điểm ảnh vào các vector nhị
phân chiều thấp theo cách không giám sát, trong đó phương sai của tất cả các mã nhị
phân trong tập huấn luyện được tối đa, sự mất mát giữa các mã có giá trị ban đầu và
các mã nhị phân đã học được giảm tối thiểu và mã nhị phân phân bố đồng đều ở mỗi
ngăn đã học, do đó thông tin thừa trong các vectơ khác biệt điểm ảnh được loại bỏ và
mã nhị phân nhỏ được lấy Cuối cùng, họ nhóm và gộp các mã nhị phân này vào một
biểu đồ như là biểu diễn cuối cùng cho mỗi hình ảnh khuôn mặt Hơn nữa, họ đề xuất
phương pháp kết hợp học tắt nhị phân khuôn mặt nhằm giảm độ phức tạp của khuôn
mặt để ứng dụng phương pháp của họ vào các trường hợp nhận diện khuôn mặt phức
tạp Kết quả thử nghiệm mở rộng trên năm bộ dữ liệu khuôn mặt phổ biến cho thấy
rằng các phương pháp của họ hoạt động tốt hơn các bộ mô tả khuôn mặt hiện đại
Nhận diện khuôn mặt là một ứng dụng điển hình của các công nghệ nhận dạng
sinh trắc học, đòi hỏi các phương pháp cụ thể để có được biểu diễn khuôn mặt Yan
Yan, Chen Qiu và Lee Feifei [37] áp dụng một phương pháp đơn giản nhưng rất đáng
tin cậy gọi là lượng hoá vectơ (Vector Quantization - VQ) để trích xuất các điểm đặc
trưng Mặc dù thuật toán VQ đã có hiệu quả, các đặc trưng biểu đồ VQ không có khả
năng truyền tải thông tin cấu trúc không gian, việc này đã làm hạn chế khả năng phân
biệt Họ đề xuất một khung mới được gọi là Markov Stationary Features (MSF) dựa
trên hướng được lựa chọn mà không chỉ mã hoá thông tin cấu trúc không gian vào biểu
Trường Đại học Kinh tế Huế
Trang 27đồ VQ mà còn có thể loại bỏ sự mơ hồ vốn có của các đặc trưng được trích xuất từ
hình ảnh khuôn mặt để cải thiện hiệu suất nhận diện khuôn mặt Các thí nghiệm được
thực hiện trên cơ sở dữ liệu mặt ORL và đạt được tỉ lệ nhận diện trung bình tối đa là
96,28% Bằng cách kết hợp nhiều tính năng MSF-VQ dựa trên các hướng khác nhau, tỉ
lệ nhận dạng có thể tăng lên đến 96,45%
Để giải quyết vấn đề nhận diện khuôn mặt không được kiểm soát tốt, chẳng hạn
như thay đổi ánh sáng, thay đổi tư thế và tham chiếu điểm ảnh ngẫu nhiên, Liu
Linghui, Luan Xiao, Tang Shu, Geng Hongmin và Zhang Ye [18] đề xuất phương
pháp nhận diện khuôn mặt mạnh dựa trên cách trình bày và trích xuất hình ảnh dư
Được biểu diễn bằng biểu diễn thưa và hồi quy tuyến tính, phương pháp biểu diễn
tuyến tính thường sử dụng các huấn luyện mẫu để mô tả và tái tạo các mẫu thử, và xác
định các kết quả phân loại theo khoảng cách giữa các mẫu thử và mẫu tái thiết Họ
xem xét sử dụng hồi quy tuyến tính để lấy mẫu tái tạo của mẫu thử đối với từng đối
tượng và tính toán hình ảnh dư bằng sự khác biệt giữa mẫu thử và mẫu tái tạo Sau đó,
họ phân tích cường độ phân phối các hình ảnh dư giữa chủ thể chính xác và các chủ
thể khác, và áp dụng chuyển đổi cường độ để vượt qua sự khác biệt trong lớp và tăng
cường sự khác biệt giữa các lớp Cuối cùng, họ sử dụng phân tách tóc để trích xuất
phân bố cường độ toàn bộ các hình ảnh còn lại để minh họa sự không chắc chắn về
phân bố cường độ, được trích xuất dưới dạng các đặc trưng riêng So với một số
phương pháp nhận dạng khuôn mặt phổ biến, hiệu quả của phương pháp này được xác
minh trên 4 cơ sở dữ liệu khuôn mặt phổ biến ORL, Extended Yale B, Georgia Tech
và AR với kết quả đầy hứa hẹn
Mạng nơron xoắn đã được sử dụng rộng rãi trong cộng đồng thị giác máy tính
giúp cải thiện đáng kể công nghệ hiện đại Trong hầu hết các mạng nơron xoắn có sẵn,
hàm Softmax được sử dụng làm tín hiệu giám sát để huấn luyện mô hình sâu Để tăng
khả năng phân biệt các đặc điểm huấn luyện sâu, Wen Yandong, Zhang Kaipeng, Li
Zhifeng và Qiao Yu [39] đề xuất một tín hiệu giám sát mới, được gọi là mất trung tâm
cho nhiệm vụ nhận dạng khuôn mặt Cụ thể, việc mất trung tâm đồng thời tìm hiểu
một trung tâm cho các đặc điểm sâu của mỗi lớp và hình phạt khoảng cách giữa các
Trường Đại học Kinh tế Huế
Trang 28đặc điểm sâu và các trung tâm lớp tương ứng của chúng Quan trọng hơn, tác giả
chứng minh rằng chức năng mất trung tâm có thể huấn luyện và dễ dàng tối ưu hoá
trong các mạng nơron xoắn Với sự giám sát chung của Softmax và mất trung tâm, họ
có thể huấn luyện một mạng nơron xoắn mạnh để có được những đặc điểm sâu với hai
mục tiêu huấn luyện chính, phân lớp liên lớp và độ kín trong lớp càng nhiều càng tốt
Các mạng nơron xoắn của họ (với sự giám sát chung) đạt được độ chính xác hiện đại
trên một số cơ sở dữ liệu nhận diện khuôn mặt chuẩn Khuôn mặt được gán nhãn trong
LFW, YouTube Face và MegaFace Challenge Đặc biệt, cách tiếp cận mới của họ đạt
được kết quả tốt nhất trên MegaFace (tiêu chuẩn mặt phổ biến nhất) theo giao thức
huấn luyện nhỏ (chứa dưới 500000 hình ảnh và dưới 20000 người), cải thiện đáng kể
các kết quả trước đó và thiết lập công nghệ tiên tiến mới cho nhiệm vụ nhận diện
khuôn mặt
Do tầm quan trọng của an ninh trong xã hội, hoạt động giám sát và nhận dạng
người cụ thể thông qua camera giám sát video đóng một vai trò quan trọng Một trong
những vấn đề chính trong hoạt động đó phát sinh từ thực tế là camera không đáp ứng
được yêu cầu giải quyết cho nhiều thuật toán nhận dạng khuôn mặt Để giải quyết vấn
đề này, Pejman Rasti, Tõnis Uiboupin, Sergio Escalera, và Gholamreza Anbarjafari
[26] đề xuất một hệ thống mới siêu phân giải hình ảnh bằng cách sử dụng mạng xoắn
học sâu theo sau là mô hình ẩn Markov và phân tích giá trị đơn trị (Singular Value
Decomposition - SVD) dựa trên nhận diện khuôn mặt Hệ thống đã được kiểm thử trên
nhiều cơ sở dữ liệu khuôn mặt nổi tiếng như cơ sở dữ liệu FERET, HeadPose và Essex
University cũng như cơ sở dữ liệu nhận diện khuôn mặt iCV được giới thiệu của họ
Kết quả kiểm thử cho thấy tỉ lệ nhận dạng được cải thiện đáng kể sau khi áp dụng siêu
phân giải
Lu Jiwen, Wang Gang và Zhou Jie [22] đề xuất tính năng đồng thời và phương
pháp học từ điển cho nhận dạng khuôn mặt dựa trên hình ảnh, trong đó mỗi ví dụ huấn
luyện và kiểm thử đều chứa một tập các hình ảnh khuôn mặt, được chụp từ các trường
hợp khác nhau, ánh sáng, biểu hiện, độ phân giải và chuyển động Mặc dù nhiều tính
năng học tập và phương pháp học từ điển đã được đề xuất trong những năm gần đây và
Trường Đại học Kinh tế Huế
Trang 29một số phương pháp đã được áp dụng thành công cho nhận diện khuôn mặt dựa trên
hình ảnh, hầu hết chúng đều học các đặc trưng và từ điển cho bộ ảnh khuôn mặt riêng,
nó có thể không đủ tốt bởi vì một số thông tin phân biệt đối với học từ điển có thể bị
tổn hại trong giai đoạn học tập đặc trưng nếu chúng được áp dụng tuần tự và ngược lại
Để giải quyết vấn đề này, họ đề xuất một phương pháp tính năng đồng thời và phương
pháp học từ điển để học các đặc trưng phân biệt và từ điển đồng thời từ các điểm ảnh
khuôn mặt thô để phân biệt thông tin từ bộ ảnh khuôn mặt có thể được khai thác chung
bởi một quy trình Để khai thác tốt hơn tính phi tuyến của các mẫu khuôn mặt từ các
bộ ảnh khác nhau, họ đề xuất phương pháp tính năng đồng thời và phương pháp học từ
điển sâu bằng cách học cùng các phép biến đổi phi tuyến phân cấp và các từ điển theo
từng lớp để cải thiện hơn nữa hiệu suất nhận dạng Kết quả thí nghiệm trên năm bộ dữ
liệu mặt phổ biến cho thấy rõ ràng phương pháp tính năng đồng thời và phương pháp
học từ điển và phương pháp tính năng đồng thời và phương pháp học từ điển sâu của
họ đạt được hiệu suất rất cao
Các phương pháp nhận dạng khuôn mặt thông thường dựa trên khuôn mặt thường
giả định rằng có nhiều mẫu có sẵn cho mỗi người để trích xuất đặc điểm phân biệt
trong giai đoạn huấn luyện Trong nhiều ứng dụng nhận dạng khuôn mặt thực tế như
hộ chiếu điện tử và nhận dạng thẻ mã, giả định này có thể không giữ được vì mỗi
người chỉ được đăng ký một mẫu duy nhất Nhiều phương thức nhận diện khuôn mặt
phổ biến không hoạt động tốt trong trường hợp này vì không có đủ mẫu để học phân
biệt Để giải quyết vấn đề này, Lu Jiwen, Tan Yap-Peng và Wang Gang [21] đề xuất
một phương pháp phân tích đa chiều phân biệt mới bằng cách học các đặc điểm riêng
biệt từ các hình ảnh Đầu tiên, họ phân vùng từng hình ảnh khuôn mặt đã đăng ký
thành nhiều bản không chồng chéo để tạo thành một bộ hình ảnh cho mỗi mẫu của mỗi
người Sau đó, họ xây dựng nhận diện khuôn mặt mỗi mẫu một người dưới dạng so
sánh đa chiều và tìm hiểu nhiều không gian phân tích đa chiều để tối đa số chiều của
những người khác nhau Cuối cùng, họ trình bày khoảng cách đa chiều dựa trên tái
thiết để xác định các chủ đề không được gán nhãn Kết quả thử nghiệm trên ba cơ sở
dữ liệu mặt phổ biến đã chứng minh tính hiệu quả của phương pháp được đề xuất
Trường Đại học Kinh tế Huế
Trang 30Các ứng dụng nhận diện khuôn mặt cho an ninh và giám sát sân bay có thể được
hưởng lợi từ sự kết hợp giữa điện toán đám mây và di động khi chúng trở nên phổ biến
hiện nay Tolga Soyata, Rajani Muraleedharan, Colin Funai, Minseok Kwon và Wendi
Heinzelman [32] thảo luận về việc thiết kế và thực hiện các ứng dụng nhận diện khuôn
mặt bằng cách sử dụng kiến trúc điện toán đám mây di động có tên MOCHA của họ và
kết quả hoạt động ban đầu của nó Thách thức nằm ở cách thực hiện phân vùng nhiệm
vụ từ thiết bị di động sang đám mây và phân phối tải tính toán giữa các máy chủ đám
mây để giảm thiểu thời gian phản hồi với thời gian chờ truyền thông đa dạng và khả
năng của máy chủ Kết quả mô phỏng sơ bộ của họ cho thấy các thuật toán phân vùng
nhiệm vụ tối ưu ảnh hưởng đáng kể đến thời gian đáp ứng với các độ trễ không đồng
nhất và các khả năng tính toán Được thúc đẩy bởi những kết quả này, họ thiết kế, thực
hiện và xác nhận các chức năng cơ bản của MOCHA như một khái niệm và phát triển
các thuật toán nhằm giảm thiểu thời gian phản hồi chung cho nhận dạng khuôn mặt
Kết quả thử nghiệm của họ chứng minh rằng các điện toán đám mây có công suất cao
về mặt kỹ thuật và thực sự giúp giảm thời gian xử lý tổng thể khi các ứng dụng nhận
dạng khuôn mặt chạy trên thiết bị di động bằng cách sử dụng đám mây làm máy chủ
phụ trợ
Nhiều phương pháp đã được phát triển để nhận diện khuôn mặt toàn diện với hiệu
suất ấn tượng Tuy nhiên, một số nghiên cứu đã giải quyết cách nhận dạng điểm tùy ý
trong hình ảnh khuôn mặt Một phần khuôn mặt thường xuất hiện trong các trường hợp
không bị giới hạn với hình ảnh được chụp bằng camera giám sát hoặc thiết bị cầm tay
(ví dụ như điện thoại di động) nói riêng Liao Shengcai, Anil K Jain và Stan Z Li [17]
đề xuất phương pháp nhận diện khuôn mặt chung một phần mà không yêu cầu điều
chỉnh vị trí khuôn mặt bằng toạ độ mắt hoặc bất kỳ điểm chuẩn nào khác Họ phát
triển một phương pháp biểu diễn khuôn mặt không liên kết dựa trên bộ mô tả đa điểm,
trong đó kích thước mô tả của khuôn mặt được xác định bởi diện tích thực tế của hình
ảnh Bằng cách này, bất kỳ hình ảnh khuôn mặt thăm dò, toàn diện hoặc một phần, có
thể được miêu tả thưa bởi từ điển lớn của bộ mô tả bộ Điểm nhận diện mới được gọi
là mô hình Ternary Gabor cũng được phát triển để phân biệt và nhận diện khuôn mặt
Kết quả thử nghiệm được thực hiện trên bốn cơ sở dữ liệu mặt phổ biến (FRGC v2.0,
Trường Đại học Kinh tế Huế
Trang 31AR, LFW và PubFig) trong cả hai kịch bản xác định và xác minh mở So sánh với hai
SDK nhận dạng khuôn mặt thương mại hàng đầu (PittPatt và FaceVACS) và hai thuật
toán cơ sở (PCA, LDA cùng với LBP) cho thấy phương pháp của họ tốt hơn trong việc
nhận diện cả khuôn mặt hay một phần mà không cần phải căn chỉnh
Phân lớp dựa trên biểu diễn thưa là một trong những kỹ thuật mới để nhận diện
khuôn mặt trong những năm gần đây Phân lớp dựa trên biểu diễn thưa có thể được coi
là một sự tổng quát của vùng lân cận gần nhất và không gian gần nhất Bài báo này lần
đầu tiên xem xét các bộ phân loại gần nhất, bao gồm láng giềng gần nhất, dòng tính
năng gần nhất và tính năng không gian gần nhất, việc xây dựng chúng như là vấn đề
tối ưu hoá chung, nó cho ra một viễn cảnh mới để hiểu bộ phân loại gần nhất và phân
lớp dựa trên biểu diễn thưa Lu Canyi, Min Hai, Gui Jie, Zhu Lin và Lei Yingke [19]
đề xuất phương pháp phân lớp dựa trên đại diện có trọng số thưa Phân lớp dựa trên
đại diện có trọng số thưa sử dụng cả dữ liệu cục bộ và tuyến tính, nó có thể được xem
là phần mở rộng của phân lớp dựa trên biểu diễn thưa, nhưng mã hoá là cục bộ Kết
quả thử nghiệm trên cơ sở dữ liệu mở rộng Yale B, AR và một số tập dữ liệu từ kho
lưu trữ UCI cho thấy rằng phân lớp dựa trên đại diện có trọng số thưa hiệu quả hơn
phân lớp dựa trên biểu diễn thưa
Cho đến bây giờ, một số lượng đáng kể các nỗ lực dành cho vấn đề nhận diện
khuôn mặt không giới hạn, trong đó nhiệm vụ là dự đoán các cặp hình ảnh có phải từ
cùng một người hay không Khó khăn do sự thay đổi lớn trong hình ảnh khuôn mặt
Cao Qiong, Ying Yiming và Li Peng [3] phát triển một khung quy tắc mới để tìm hiểu
các chỉ số tương tự cho việc nhận diện khuôn mặt không giới hạn Họ xây dựng chức
năng của mình bằng cách kết hợp tính mạnh mẽ với các biến thể nội bộ lớn và khả
năng phân biệt các chỉ số tương đồng mới Ngoài ra, ý kiến của họ là vấn đề tối ưu hoá
đảm bảo sự tồn tại của giải pháp toàn diện của nó Các thí nghiệm cho thấy phương
pháp đề xuất của họ đạt được kết quả khá cao trên các khuôn mặt được gắn nhãn trong
cơ sở dữ liệu LFW
Từ Minh Hiển và Trần Thị Khánh Hoà [36] nghiên cứu và phát triển hai hệ thống
nhận diện khuôn mặt đơn giản sử dụng phương pháp đối sánh và mạng nơron dựa trên
Trường Đại học Kinh tế Huế
Trang 32PCA Hệ thống được thử nghiệm trên cơ sở dữ liệu ORL của AT&T Các kết quả thí
nghiệm được phân tích để đánh giá hiệu suất nhận dạng và tính ổn định của hai hệ
thống trong các điều kiện khác nhau Kết quả cũng đã chỉ ra hiệu suất của mạng nơron
là cao hơn so với phương pháp đối sánh
Trương Cơng Lợi [34] nghiên cứu phương pháp kết hợp Eigenfaces và mạng
nơron Hệ thống được thử nghiệm trên cơ sở dữ liệu Faces94 Kết quả thí nghiệm nhận
dạng kết hợp phương pháp biến đổi Eigenfaces và mạng nơron đạt 98,9%, trong khi
kết quả của các phương pháp sĩng Wavelet chỉ cao tới 96,9% Với việc kết hợp
phương pháp Eigenfaces với mạng nơron, phương pháp này đã đạt hiệu suất nhận dạng
cao và ổn định hơn hẳn các phương pháp sĩng Wavelet
Nhận diện khuơn mặt là một trong những vấn đề thách thức trong lĩnh vực thị giác
máy tính Các cơng trình nghiên cứu gần đây đã nâng cao độ chính xác của hệ thống
nhận dạng Châu Ngân Khánh và Đồn Thanh Nghị [5] trình bày một phương pháp kết
hợp Haar Like Feature - Cascade of Boosted Classifiers (CBC) và thuật tốn SIFT
(Scale-Invariant Feature Transform) cho nhận diện khuơn mặt Các đặc trưng Haar
Like kết hợp thuật tốn AdaBoost và mơ hình phân tầng Cascade để phát hiện nhanh,
chính xác và trích xuất ảnh khuơn mặt Sự phản chiếu của các hình ảnh được phản
chiếu bằng phương pháp SIFT khơng thể thay đổi tỉ lệ ảnh, tịnh tiến, xoay, khơng bị
thay đổi một phần với phép biến đổi hình học affine (thay đổi gĩc nhìn) và mạnh với
những thay đổi về độ sáng, tiến ồn và che khuất Để nhận diện đối tượng, tác giả đề
xuất sử dụng các thuật tốn k-NN, k-NN đảo ngược và Nạve Bayes lân cận (Nạve
Bayes Nearest Neighbor – NBNN) Kết quả thử nghiệm trên một số bộ dữ liệu chuẩn
như AT&T, Face94, Face95, Face96, Grimace, Jaffe Với việc sử dụng phương pháp
của tác giả cho nhận diện khuơn mặt đã đạt được độ chính xác tốt hơn so với các
phương pháp khác kNN, kNN đảo ngược và NBNN lần lượt là 94.35%, 86.05% và
98.83%
Trịnh Tấn Đạt và Phạm Thế Bảo [33] đề xuất phương pháp nhận diện khuơn mặt
dựa trên đặc trưng Gabor kết hợp AdaBoost và k-means Họ sử dụng phương pháp
Gabor wavelet lấy các đặc trưng trên ảnh khuơn mặt tạo vectơ đặc trưng AdaBoost cải
Trường Đại học Kinh tế Huế
Trang 33tiến được dùng như một phương pháp làm giảm số chiều của các vectơ đặc trưng trong
suốt quá trình nhận dạng Đồng thời, họ sử dụng thuật toán k-means để phân cơ sở dữ
liệu ảnh khuôn mặt thành những nhóm khác nhau để giảm thời gian xử lý và tăng hiệu
suất trong quá trình nhận dạng Cơ sở dữ liệu ảnh ORL của AT&T được dùng để kiểm
thử với 200 đặc trưng Gabor có độ chính xác là 86,07% và thời gian nhận dạng trung
bình là 0.06 giây
Trường Đại học Kinh tế Huế