1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu về giải thuật nhận dạng khuôn mặt

34 32 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm Hiểu Về Giải Thuật Nhận Dạng Khuôn Mặt
Người hướng dẫn TS. Trần Thị Minh Hạnh
Định dạng
Số trang 34
Dung lượng 1,85 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phụ lục MỞ ĐẦU…………………………………………………………………………….4 CHƯƠNG 1 : GIỚI THIỆU TỔNG QUAN VỀ NHẬN DẠNG 5 1.1 . Giới thiệu chương 5 1.2 Giới thiệu về thị giác máy tính 5 1.3 Ứng dụng 5 1.4 Khái quát về nhận dạng 6 1.4.1Giới thiệu về nhận dạng 6 1.4.2 Bản chất của quá trình nhận dạng 6 1.5 Các phương pháp nhận dạng 7 1.6 Khái quát về nhận dạng khuôn mặt 7 1.7 Kết luận chương 8 CHƯƠNG 2 : PHÂN TÍCH VỀ BÀI TOÁN NHẬN DIỆN KHUÔN MẶT 8 2.1 Giới thiệu chương 8 2.2 Quá trình nhận dạng khuôn mặt 8 2.3 Những khó khăn trong hệ thống nhận dạng khuôn mặt 8 2.4 Các ứng dụng của bài toán nhận dạng khuôn mặt 10 2.5 Một số phương pháp nhận dạng khuôn mặt 10 2.5.1 Dựa trên tri thức. 11 2.5.2 Dựa trên so khớp mẫu 11 2.5.3 Dựa trên các đặc trưng không thay đổi 11 2.5.4 Dựa trên diện mạo 12 2.6 Kết luận chương 12 CHƯƠNG 3 : GIẢI THUẬT BÀI TOÁN NHẬN DIỆN KHUÔN MẶT 13 3.1 Giới thiệu chương 13 3.2 Mạng neuron 13 3.2.1 Khái quát về mạng neuron 13 3.2.2 Mạng neuron tích chập. 13 3.2.2.1 Convolutinonal 14 3.2.2.2 Cấu trúc mạng CNN 15 3.2.2.3 Trọng số cơ bản 16 3.2.2.3.1 Các trường tiếp nhận cục bộ. 16 3.2.2.3.2 Trọng số chia sẻ (Shared weight and bias)……………...18 3.2.2.3.3 Lớp Pooling. 18 3.3 Phát hiện khuôn mặt với MTCNN. 19 3.3.1 Các giai đoạn của MTCNN. 19 3.3.1.1 Phân tích giai đoạn 1. 20 3.3.1.2 Phân tích giai đoạn 2. 21 3.3.1.3 Phân tích giai đoạn 3 22 3.3.2 Chức năng mất nhận dạng khuôn mặt 23 3.3.3 Hồi quy hộp và phát hiện mốc mặt. 25 3.3.3.1 Hồi quy hộp (Bounding Box regession). 25 3.3.3.2 Phát hiện điểm chính của khuôn mặt mốc mặt (Facial landmark localization). 25 3.3.4. Kết hợp ba chức năng mất trên 25 3.4 Nhận diện khuôn mặt bằng FACENET 26 3.4.1 FaceNet. 26 3.4.2 Transfer learning………………………………………………………….26 3.4.3 Cấu trúc Inception Resnet………………………………………………...28 3.4.1 Cấu trúc ……………………………………………………………….28 3.5 Kết luận chương……………………………………………………………….35 CHƯƠNG 4 : GIẢ MẠO KHUÔN MẶT VÀ CÁC PHƯƠNG PHÁP CHỐNG GIẢ MẠO ………………………………………………………………………...36 4.1 Giới thiệu chung ………………………………………………………………36 4.2 Các cuộc tấn công và các phương pháp chống giả mạo……………………….36 MỞ ĐẦU Với sự phát triển không ngừng của khoa học và công nghệ,đặc biệt là những chiếc điện thoại thông minh (smartphone),máy tính ngày càng hiện đại và được sử dụng phổ biến trong đời sống con người đã làm cho lượng thông tin thu được bằng hình ảnh ngày càng tăng. Hệ thống nhận dạng khuôn mặt là một ứng dụng máy tính tự động xác định hoặc nhận dạng một người nào đó từ một bức hình ảnh kĩ thuật số hoặc một khung hình video từ một nguồn video. Một trong những cách để thực hiện điều này là so sánh các đặc điểm khuôn mặt chọn trước từ hình ảnh và một cơ sở dữ liệu về khuôn mặt. Hệ thống này thường được sử dụng trong các hệ thống an ning và có thể được so sánh với các dạng sinh trắc học khác như các hệ thống nhận dạng vân tay hay tròng mắt. Trong số các dạng sinh trắc khác nhau hệ thống nhận dạng khuôn mặt tuy không có tính hiệu quả và bảo mật cao nhưng là một trong nhưng dạng sinh trắc không thể thiếu trong thế giới số hóa ngày càng hiện đại. Đồ án này chú trọng tới tìm hiểu về giải thuật nhận dạng khuôn mặt. Nội dung đồ án chia làm 4 chương : Chương 1 : GIỚI THIỆU TỔNG QUAN VỀ NHẬN DẠNG Chương 2 : PHÂN TÍCH VỀ BÀI TOÁN NHẬN DIỆN KHUÔN MẶT Chương 3 : GIẢI THUẬT BÀI TOÁN NHẬN DIỆN KHUÔN MẶT Chương 4 : GIẢ MẠO TRONG NHẬN DIỆN KHUÔN MẶT VÀ PHƯƠNG PHÁP CHỐNG GIẢ MẠO Mục tiêu của đề tài là nghiên cứu,giải thuật nhận diện khuôn mặt.Nghiên cứu các phương pháp xác định nhận diện khuôn mặt, từ đó đưa ra phương pháp tối ưu để đưa vào thử nghiệm. Trong quá trình thực hiện đồ án em chân thành cảm ơn cô TS. Trần Thị Minh Hạnh đã tận tình hướng dẫn, truyền đạt những kiến thức, hỗ trợ tinh thần trong suốt quá trình thực hiện đồ án. Mặc dù đã có nhiều cố gắng hoàn thiện đồ tài tuy nhiên thời gian có hạn nên không thể tránh được những thiếu sót, em rất mong nhận được những ý kiến đóng góp của các thầy cô để có thể hoàn thiện hơn và phát triển lên đồ án tốt nghiệp tốt hơn. Em xin chân thành cảm ơn CHƯƠNG 1 : GIỚI THIỆU TỔNG QUAN VỀ NHẬN DẠNG 1.1 . Giới thiệu chương Chương này sẽ cung cấp những thông tin cơ bản về thị giác máy tính xử lý ảnh và các ứng dụng thực tế về xử lý ảnh trong đời sống xã hội hiện nay. Và khái quát về nhận dạng khuôn mặt. 1.2 Giới thiệu về thị giác máy tính Thị giác máy tính (computer vision) là một lĩnh vực bao gồm các phương pháp thu nhận, xử lý ảnh kĩ thuật số , phân tích và nhận dạng các hình ảnh và, nói chung là dữ liệu đa chiều từ thế giới thực để cho ra các thông tin số hoặc biểu tượng, ví dụ trong các dạng quyết định. Việc phát triển lĩnh vực này có bối cảnh từ việc sao chép các khả năng thị giác con người bởi sự nhận diện và hiểu biết một hình ảnh mang tính điện tử. Sự nhận diện hình ảnh có thể xem là việc giải quyết vấn đề của các biểu tượng thông tin từ dữ liệu hình ảnh qua cách dùng các mô hình được xây dựng với sự giúp đỡ của các ngành lý thuyết học, thống kê ,vật lý và hình học. Thị giác máy tính cũng được mô tả là sự tổng thể của một dải rộng các quá trình tự động và tích hợp và các thể hiện cho các nhận thức thị giác. Thị giác máy tính là một môn học khoa học liên quan đến lý thuyết đằng sau các hệ thống nhân tạo có trích xuất các thông tin từ các hình ảnh. Dữ liệu hình ảnh có thể nhiều dạng, chẳng hạn như chuỗi video, các cảnh từ đa camera, hay dữ liệu đa chiều từ máy quét y học. Thị giác máy tính còn là một môn học kỹ thuật, trong đó tìm kiếm việc áp dụng các mô hình và các lý thuyết cho việc xây dựng các hệ thống thị giác máy tính. Thị giác nhận tạo quan tâm việc mô phỏng lại thị giác của con người, dùng mô hình toán học để biểu diễn và hiểu các hình ảnh từ thực tế. 1.3 Ứng dụng Hệ thống an ninh,bảo mật thông tin. Xe tự hành. Y khoa(Xquang, ảnh tia gamma). Thiên văn học.

Trang 1

Phụ lục

MỞ ĐẦU

Với sự phát triển không ngừng của khoa học và công nghệ,đặc biệt là

những chiếc điện thoại thông minh (smartphone),máy tính ngày càng hiện đại vàđược sử dụng phổ biến trong đời sống con người đã làm cho lượng thông tin thu

được bằng hình ảnh ngày càng tăng.

Hệ thống nhận dạng khuôn mặt là một ứng dụng máy tính tự động xác định

Trang 2

hoặc nhận dạng một người nào đó từ một bức hình ảnh kĩ thuật số hoặc một khunghình video từ một nguồn video Một trong những cách để thực hiện điều này là sosánh các đặc điểm khuôn mặt chọn trước từ hình ảnh và một cơ sở dữ liệu về khuônmặt.

Hệ thống này thường được sử dụng trong các hệ thống an ning và có thể được

so sánh với các dạng sinh trắc học khác như các hệ thống nhận dạng vân tayhay tròng mắt

Trong số các dạng sinh trắc khác nhau hệ thống nhận dạng khuôn mặt tuykhông có tính hiệu quả và bảo mật cao nhưng là một trong nhưng dạng sinh trắckhông thể thiếu trong thế giới số hóa ngày càng hiện đại

Đồ án này chú trọng tới tìm hiểu về giải thuật nhận dạng khuôn mặt Nội dung

đồ án chia làm 4 chương :

Chương 1 : GIỚI THIỆU TỔNG QUAN VỀ NHẬN DẠNG

Chương 2 : PHÂN TÍCH VỀ BÀI TOÁN NHẬN DIỆN KHUÔN MẶT Chương 3 : GIẢI THUẬT BÀI TOÁN NHẬN DIỆN KHUÔN MẶT

Chương 4 : GIẢ MẠO TRONG NHẬN DIỆN KHUÔN MẶT VÀ

PHƯƠNG PHÁP CHỐNG GIẢ MẠO

Mục tiêu của đề tài là nghiên cứu,giải thuật nhận diện khuôn mặt.Nghiên cứucác phương pháp xác định nhận diện khuôn mặt, từ đó đưa ra phương pháp tối ưu

để đưa vào thử nghiệm

Trong quá trình thực hiện đồ án em chân thành cảm ơn cô TS Trần Thị Minh Hạnh đã tận tình hướng dẫn, truyền đạt những kiến thức, hỗ trợ tinh thần

trong suốt quá trình thực hiện đồ án

Mặc dù đã có nhiều cố gắng hoàn thiện đồ tài tuy nhiên thời gian có hạn nênkhông thể tránh được những thiếu sót, em rất mong nhận được những ý kiến đónggóp của các thầy cô để có thể hoàn thiện hơn và phát triển lên đồ án tốt nghiệp tốthơn

Em xin chân thành cảm ơn!

Trang 3

CHƯƠNG 1 : GIỚI THIỆU TỔNG QUAN VỀ NHẬN DẠNG

1.1 Giới thiệu chương

Chương này sẽ cung cấp những thông tin cơ bản về thị giác máy tính xử lý ảnh

và các ứng dụng thực tế về xử lý ảnh trong đời sống xã hội hiện nay Và khái quát

về nhận dạng khuôn mặt

1.2 Giới thiệu về thị giác máy tính

Thị giác máy tính (computer vision) là một lĩnh vực bao gồm các phương

pháp thu nhận, xử lý ảnh kĩ thuật số , phân tích và nhận dạng các hình ảnh và, nóichung là dữ liệu đa chiều từ thế giới thực để cho ra các thông tin số hoặc biểutượng, ví dụ trong các dạng quyết định Việc phát triển lĩnh vực này có bối cảnh từviệc sao chép các khả năng thị giác con người bởi sự nhận diện và hiểu biết mộthình ảnh mang tính điện tử Sự nhận diện hình ảnh có thể xem là việc giải quyếtvấn đề của các biểu tượng thông tin từ dữ liệu hình ảnh qua cách dùng các mô hìnhđược xây dựng với sự giúp đỡ của các ngành lý thuyết học, thống kê ,vật lý và hìnhhọc Thị giác máy tính cũng được mô tả là sự tổng thể của một dải rộng các quátrình tự động và tích hợp và các thể hiện cho các nhận thức thị giác

Thị giác máy tính là một môn học khoa học liên quan đến lý thuyết đằng saucác hệ thống nhân tạo có trích xuất các thông tin từ các hình ảnh Dữ liệu hình ảnh

có thể nhiều dạng, chẳng hạn như chuỗi video, các cảnh từ đa camera, hay dữ liệu

Trang 4

đa chiều từ máy quét y học Thị giác máy tính còn là một môn học kỹ thuật, trong

đó tìm kiếm việc áp dụng các mô hình và các lý thuyết cho việc xây dựng các hệthống thị giác máy tính

Thị giác nhận tạo quan tâm việc mô phỏng lại thị giác của con người, dùng môhình toán học để biểu diễn và hiểu các hình ảnh từ thực tế

- Phát hiện lỗi sản phẩm ứng dụng trong công nghiệp

- Tìm kiếm thông tin bằng hình ảnh trên internet

1.4 Khái quát về nhận dạng

1.4.1Giới thiệu về nhận dạng

Nhận dạng là giai đoạn cuối của các hệ thống xử lý ảnh

Nhận dạng là quá trình nhận diện được và phân loại các đối tượng được biểndiễn theo mô hình nào đó và gán cho chúng một nhãn theo những tính toán quyluật và các mẫu có sẵn Quá trình đó dựa vào các mẫu mà máy đã được học vàbiết trước Trong trường hợp khác gọi là không được học

• Trong lý thuyết nhận dạng ảnh có ba cách tiếp cận khác nhau:

- Nhận dạng theo cấu trúc

- Nhận dạng dựa vào phân hoạch không gian

- Nhận dạng dựa vào kĩ thuật mạng nơron

+ Hai cách tiếp cận đầu các đối tượng quan sát và thu được phải trải quatiền xử lý nhằm tăng chất lượng ảnh, làm nổi các chi tiết, trích chọn và biểndiễn các đặc trưng và cuối cùng là nhận dạng

+ Cách tiếp cận thứ 3 hoàn toàn khác, dựa vào cơ chế đoán nhận, lưutrữ và phân biệt đối tượng mô phỏng theo hoạt động của hệ thần kinh conngười Do cơ chế đặc biệt, các đối tượng thu nhận bởi thị giác người không cầnqua giai đoạn cải thiện mà chuyển ngay sang giai đoạn tổng hợp, đối sánh vớicác mẫu đã lưu trữ để nhận dạng

1.4.2 Bản chất của quá trình nhận dạng

Quá trình nhận dạng gồm 3 giai đoạn chính:

• Lựa chọn mô hình biểu diễn đối tượng

Trang 5

• Lựa chọn luật ra quyết định (phương pháp nhận dạng) và suy diễn quá trình học.

• Học nhận dạng

Khi mô hình biểu diễn đối tượng đã được xác định, quá trình nhận dạngchuyển sang giai đoạn học Học là giai đoạn rất quan trọng Thao tác học nhằmcải thiện, điều chỉnh việc phân hoạch tập đối tượng thành các lớp Việc nhận dạng chính là tìm ra quy luật và các thuật toán để có thể gán đốitượng vào một lớp

1.5 Các phương pháp nhận dạng

- Nhận dạng dựa trên phân hoạch không gian.

Trong kỹ thuật này, các đối tượng nhận dạng là các đối tượng địnhlượng.Một đối tượng được biểu diễn bởi một vector nhiều chiều

- Nhận dạng theo cấu trúc.

Ngoài cách biểu diễn theo định lượng như đã mô tả ở trên, tồn tạinhiều kiểu đối tượng mang tính định tính Trong cách biểu diễn này, người taquan tâm đến các dạng và mối quan hệ giữa chúng

Trong mạng, một số noron được nối với môi trường bên ngoài như cácđầu ra, đầu vào

1.6 Khái quát về nhận dạng khuôn mặt

Nhận dạng khuôn mặt là là một trong những ứng dụng của máy tính về xác

Trang 6

định và nhận diện một người nào đó từ một bức ảnh hoặc từ một khung hình videonào đó.

Nhận diện khuôn mặt là từ ảnh khuôn mặt đã crop trả về kết quả người nào.Nhận diện khuôn mặt là đem so sánh các đặc điểm khuôn mặt chọn từ trước và cơ

sở dữ liệu về khuôn mặt

1.7 Kết luận chương

Chương một đã giới thiệu được về lĩnh vực thị giác máy tính (computer vision)

và các ứng dụng nhận dạng có thể áp dụng hữu ích vào đời sống con người Vềnhận dạng,nhận dạng khuôn mặt; để rõ hơn về bài toán về hệ thống nhận dạngkhuôn mặt chúng ta sẽ tìm hiểu ở các chương tiếp

CHƯƠNG 2 : PHÂN TÍCH VỀ BÀI TOÁN NHẬN DIỆN KHUÔN MẶT 2.1 Giới thiệu chương

Bài toán phát hiện mặt người là bài toán được rất nhiều kỹ sư công nghệ, cácnhà toán học quan tâm từ nhiều năm nay Hiện nay người ta đã xây dựng đượcnhiều chương trình phát hiện khuôn mặt khách nhau Trên thế giới, có nhiềuphương pháp được đưa ra như sử dụng template matching, neuron network, … Chương này chúng ta sẽ tìm hiểu về những vấn đề liên quan đến bài toánnhận diện khuôn mặt và những khó khắn trong vấn đề nhận diện

2.3 Những khó khăn trong hệ thống nhận dạng khuôn mặt

Khó khăn của bài toán nhận diện khuôn mặt có thể kể đến :

o Tư thế chụ,góc chụp:

Ảnh chụp khuôn mặt có thể thay đổi rất nhiều bởi vì góc chụp giữacamera và khuôn mặt Chẳng hạn như: chụp thẳng, chụp chéo bên trái 45◦hay chụp chéo bên phải 45◦ , chụp từ trên xuống, chụp từ dưới lên, v.v… Với

Trang 7

các tư thế chụp như vậy có thể làm mất đặc trưng để phát hiện và nhận dạngkhuôn mặt.

o Sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt:

Các đặc trưng như râu mép, râu hàm, mắt kính, v.v… có thể xuất hiệnhoặc không Vấn đề này làm cho bài toán càng trở nên khó hơn rất nhiều

o Sự biểu cảm của khuôn mặt:

Biểu cảm của khuôn mặt người có thể làm ảnh hưởng đáng kể lên cácthông số của khuôn mặt Chẳng hạn,cùng một khuôn mặt một người, nhưng

có thể sẽ rất khác khi họ cười hoặc sợ hãi…

o Điều kiện của ảnh:

Ảnh được chụp trong các điều kiện khác nhau về: chiếu sang, về tínhchất camera (máy kỹ thuật số, máy hồng ngoại,v.v…) ảnh hưởng rất nhiềuđến chất lượng ảnh khuôn mặt

o Nền ảnh phức tạp:

Nền ảnh là một trong những vấn đề quan trọng ảnh hưởng đến độchính xác khi cơ sở dữ liệu lớn với nhiều môi trường khác nhau, khung cảnhphức tạp có thể ảnh hưởng đến việc phân tích và trích đặc trưng khuôn mặt

o Màu sắc của da mặt:

Màu sắc của da mặt quá tối hoặc gần với màu sắc của khung cảnhmôi trường xung quanh cũng là một khó khăn với bài toán nhận diện mặtngười Nếu màu sắc của da người quá tối thì thuật toán sẽ gặp khó khăn trong

Trang 8

việc nhận diện các đặc trưng và có thể không tìm ra được khuôn mặt người.

o Aging condition:

Việc nhận dạng ảnh mặt thay đổi theo thời gian còn là một vấn đềkhó khăn, ngay cả đối với khả năng nhận dạng của con người

o Các hệ thống cực lớn (very large scale systems):

Các CSDL ảnh mặt được test bởi các nhà nghiên cứu còn khá nhỏ(vài trăm tới vài chục nghìn ảnh mặt), tuy nhiên trên thực tế các CSDL có thểrất lớn, ví dụ CSDL ảnh mặt của cảnh sát của một đất nước có thể chứa từhàng triệu tới hơn 1 tỉ ảnh…

2.4 Các ứng dụng của bài toán nhận dạng khuôn mặt

Bài toán nhận dạng khuôn mặt là một trong những bài toán phức tạpnhưng có tính ứng dụng phổ biến trong thực tế nên thường được tìm hiểunghiên cứu rộng rãi trong đời sống

• Hệ thống giao tiếp thông minh giữa người với máy

- Dựa trên tri thức

- Dựa trên diện mạo

- Dựa trên so khớp mẫu

- Dựa trên đặc trưng không thay đổi

2.5.1 Dựa trên tri thức.

Trong hướng tiếp cận này, các quy luật sẽ được áp đặt cho bài toán nhận diệnmặt người tùy vào tác giả Vì các quy luật được tác giả tự tạo ra nên dễ dàng để xây

Trang 9

dựng các quy luật cơ bản dựa trên các đặc điểm của khuôn mặt như, sự đối xứngcủa hai mắt, sống mũi, miệng… để trích rút các đặc trưng và các quan hệ về đặctrưng thường được mô tả bằng các phép toán về khoảng cách và vị trí.

Khó khăn ở hướng tiếp cận này đó là việc chuyển các đặc điểm của khuônmặt thành các đặc điểm để nhận dạng với chương trình Nếu các quy luật quá phứctạp, một số khuôn mặt có thể thiếu, nếu quá đơn giản thì có nhận nhầm với các đốitượng khác

2.5.2 Dựa trên so khớp mẫu

Trong so khớp mẫu, các mẫu chuẩn của khuôn mặt (thường là khuôn mặtđược chụp thẳng) sẽ được xác định trước hoặc xác định các tham số thông qua mộthàm Từ một ảnh đưa vào, tính các giá trị tương quan so với các mẫu chuẩn vềđường viền khuôn mặt, mắt, mũi và miệng Thông qua các giá trị tương quan này

mà các tác giả quyết định có hay không có tồn tại khuôn mặt trong ảnh Hướng tiếpcận này có lợi thế là rất dễ cài đặt, nhưng không hiệu quả khi tỷ lệ, tư thế, và hìnhdáng thay đổi Nhiều độ phân giải, đa tỷ lệ, các mẫu con, và các mẫu biến dạngđược xem xét thành bất biến về tỷ lệ và hình dáng

2.5.3 Dựa trên các đặc trưng không thay đổi

Đây là hướng tiếp cận theo kiểu bottom-up Các tác giả cố gắng tìm cácđặctrưng không thay đổi của khuôn mặt người để xác định khuôn mặt người Dựa trênnhận xét thực tế, con người dễ dàng nhận biết các khuôn mặt và các đối tượngtrong các tư thế khác nhau và điều kiện ánh sáng khác nhau, thì phải tồn tại cácthuộc tính hay đặc trưng không thay đổi Có nhiều nghiên cứu đầu tiên xác định cácđặc trưng khuôn mặt rồi chỉ ra có khuôn mặt trong ảnh hay không Các đặc trưngnhư: lông mày, mắt, mũi, miệng, và đường viền của tóc được trích bằng phươngpháp xác định cạnh Trên cơ sở các đặc trưng này, xây dựng một mô hình thống kê

để mô tả quan hệ của các đặc trưng này và xác định sự tồn tại của khuôn mặt trongảnh Một vấn đề của các thuật toán theo hướng tiếp cận đặc trưng cần phải điềuchỉnh cho phù hợp điều kiện ánh sáng, nhiễu, và bị che khuất Đôi khi bóng củakhuôn mặt sẽ tạo thêm cạnh mới, mà cạnh này lại rõ hơn cạnh thật sự của khuôn

Trang 10

mặt, vì thế nếu dùng cạnh để xác định sẽ gặp khó khăn.

2.5.4 Dựa trên diện mạo

Trái ngược với các phương pháp so khớp mẫu với các mẫu đã được địnhnghĩa trước bởi những chuyên gia, các mẫu trong hướng tiếp cận này được học từcác ảnh mẫu Một cách tổng quát, các phương pháp theo hướng tiếp cận này ápdụng các kỹ thuật theo hướng xác suất thống kê và máy học để tìm những đặc tínhliên quan của khuôn mặt và không phải là khuôn mặt Các đặc tính đã được học ởtrong hình thái các mô hình phân bố hay các hàm biệt số nên dùng có thể dùng cácđặc tính này để xác định khuôn mặt người Đồng thời, bài toán giảm số chiềuthường được quan tâm để tăng hiệu quả tính toán cũng như hiệu quả xác định

• Ưu điểm : Độ chính xác cao với nhiều điều kiện ánh sáng, hoạt cảnhkhác nhau

• Khuyết điểm: Thời gian đào tạo lâu, cấu trúc thuật toán phức tạp

2.6 Kết luận chương

Chương này đã nêu được những khó khăn đối với bài toán nhận diện khuônmặt trong thực tế, song đó cũng đưa ra được hướng tiếp cận bài toán nhận diệnkhuôn mặt và các phương pháp thường được sử dụng Từ đó đưa ra phương phápphù hợp cho bài toán nhận diện khuôn mặt Chương sau sẽ tìm hiểu vào các thuậttoán sử dụng trong đề tài

CHƯƠNG 3 : GIẢI THUẬT BÀI TOÁN NHẬN DIỆN KHUÔN MẶT

3.1 Giới thiệu chương

Chương này tập trung tìm hiểu thuật toán phát hiện và nhận diện khuôn mặt làMTCNN (Multi – task covolution neuron network) và mô hình nhận diện khuônmặt với FACENET Trong quá trình thực hiện, nghiên cứu lý thuyết cấu trúc củamạng được sử dụng trong thuật toán từ đó tìm hiểu và xây dựng hệ thống nhận diệnkhuôn mặt sử dụng thuật toán MTCNN và FACENET

3.2 Mạng neuron

Trang 11

3.2.1 Khái quát về mạng neuron

Về cơ bản mạng neural là một các mạng phần tử (gọi là neuron) kết nối vớinhau thông qua các liên kết (các liên kết này được gọi là trọng số liên kết) để thựchiện một công việc cụ thể nào đó Khả năng xử lý mạng neuron được hình thànhthông qua quá trình hiệu chỉnh trọng số liên kết giữa các neuron, nói cách khác làhọc tập từ tập hợp các mẫu huấn luyện

3.2.2 Mạng neuron tích chập.

Hình 3.1: Mạng neuron tích chập (Convolutinon neuron network)

- Convolution Neural Network (Mạng neuron tích chập):

Convolution Neural Network (CNN – Mạng nơ-ron tích chập) là một trongnhững mô hình Deep Learning tiên tiến thường được sử dụng để xây dựng các hệthống thông minh với độ chính xác cao Đặc biệt là mô hình AI, xử lý ảnh với cácứng dụng thực tế như nhận diện khuôn mặt, phát triển xe tự hành,…

CNN được sử dụng nhiều trong các bài toán nhận dạng các object trong ảnh.Thuật toán này được sử dụng rộng rãi cho việc nhận dạng (detection), đặc biệt lànhận diện khuôn mặt

3.2.2.1 Convolutinonal

Trang 12

Hình 3.2: Kernel 3x3 cho phép chập.

Convolutinon hay tích chập là nhân từng phần tử bên trong ma trận 3x3 với

ma trận bên trái Kết quả được một ma trận gọi là Convoled feature được sinh ra từviệc nhận ma trận Filter với ma trận ảnh 5x5 bên trái

Sử dụng một kernel 3x3 chạy qua tất cả các phần tử của bức ảnh (Cửa sổtrượt ) và sử dụng tích chập tương ứng với các phần tử của bức ảnh trùng với vị trícủa kernel 3x3 sau đó cộng tổng tất cả các điểm lại sẽ được một giá trị của ma trậnđặc trưng

Tổng số cột của ma trận đặc trưng bằng tổng số lần tích chập được thực hiệnkhi đi đến một hàng và tổng số hàng của một ma trận đặc trưng bằng với tổng sốlần tích chập được thực hiện khi đi hết một cột

3.2.2.2 Cấu trúc mạng CNN

Mạng CNN là một tập hợp các lớp Convolution chồng lên nhau và sử dụngcác hàm nonlinear activation như ReLU và Tanh để kích hoạt các trọng số cácnode Mỗi một lớp sau khi thông qua các hàm kích hoạt sẽ tạo ra các thông tin trừutượng hơn cho các lớp tiếp theo

Trong mô hình CNN các layer liên kết được với nhau thông qua cơ chếconvolution, layer tiếp theo là kết quả từ layer trước đó, nhờ vậy mà ta có được cáckết nối cục bộ

Mỗi một lớp được sử dụng các bộ lọc khác nhau, ngoài ra có thể sử dụng cáclớp như pooling/subsampling để loại bỏ các thông tin không cần thiết để giảm bớt

số parameter Trong quá trình huấn luyện mạng CNN tự động các giá trị của cáclớp và lớp cuối cùng được dùng để phân loại ảnh

Trang 13

Hình 3.2.1 Quá trình xử lý các đặc trưng.

Mô hình CNN có 2 tính chất cần quan tâm :

- Tính bất biến ( Location Invariance)

- Tính kết hợp (Compositionality)

Đó là lý do rại sao CNN cho ra mô hình với độ chính xác rất cao Cũnggiống như cách con người nhận biết các vật thể trong tự nhiên

Mạng CNN sử dụng 3 trọng số cơ bản:

• Các trường tiếp nhận cục bộ (Local receptive field)

• Trọng số chia sẻ (Shared weights)

Hình 3.3 Trường tiếp nhận cục bộ (Local receptive field).

Trang 14

Một cách tổng quan, ta có thể tóm tắt các bước tạo ra 1 hidden layer bằng

các cách sau :

Bước 1 : Tạo ra neuron ẩn đầu tiên trong lớp ẩn 1

Bước 2 : Dịch filter qua bên phải một cột sẽ tạo ra được neuron ẩn thứ 2

Đối với bài toán nhận diện mặt người, ma trận lớp đầu vào được gọi là FeatureMap, trọng số xác định là Shared Weight và độ lệch xác định đối với một FeatureMap

Trang 15

Như vậy trường tiếp nhận cục bộ thích hợp cho việc phân tách dữ liệu ảnh,giúp chọn ra những vùng ảnh có giá trị nhất cho việc đánh giá và phân lớp.

3.2.2.3.2 Trọng số chia sẻ (Shared weight and bias).

Các trọng số cho mỗi filter phải giống nhau Tất cả các neural trong lớp ẩnđầu sẽ phát hiện chính xác đặc trưng tương tự chỉ ở các vị trí khác nhau trong ảnhđầu vào Gọi việc kết nối các lớp đầu vào sang các lớp ẩn là một Feature Map.Các lớp bao gồm các Feature Map khác nhau Mỗi Feature Map mang một vàiđặc trưng của ảnh Sử dụng trọng số chia sẻ là giảm tối đa số lượng tham số trongmạng CNN

3.2.2.3.3 Lớp Pooling.

Được sử dụng ngay sau lớp Convolutional nhằm mục đích giảm bớt số lượngneuron, phổ biến là max – pooling, chọn giá trị lớn nhất với các vùng 2x2 thuộcFeature Map

Hình 3.4 Max-pooling.

Trang 16

Như vậy qua lớp Max – pooling thì số lượng neuron giảm đi phân nửa

Trong một mạng CNN có nhiều Feature Map nên mỗi Feature Map chúng ta

sẽ cho mỗi Max –pooling khác nhau

3.3 Phát hiện khuôn mặt với MTCNN.

Phát hiện khuôn mặt là một trong những bước quan trọng cho quá trình nhận

diện khuôn mặt của hệ thống, nhưng song với đó muốn phát hiện chính xác đó cóphải khuôn mặt hay không các tác nhân từ môi trường như ánh sáng hay góc quaycủa camera, tư thế ảnh hưởng rất lớn đến quá trình phát hiện

Thuật toán gồm 3 giai đoạn, ứng với mỗi giai đoạn là việc huấn luyện và xây

dựng một mạng neuron riêng

3.3.1 Các giai đoạn của MTCNN.

Hình 3.5 : Cấu trúc P-Net, R-net, O-Net.

3.3.1.1 Phân tích giai đoạn 1.

Ở giai đoạn này , thuật toán sử dụng một kernel 12x12 chạy qua mỗi bứchình để tìm kiếm khuôn mặt, kernel sẽ đi qua mọi pixel của bức ảnh Với mỗibức ảnh đầu vào, nó sẽ tạo ra nhiều bản sao của hình ảnh đó

Trang 17

Hình 3 6: Cấu trúc các lớp của P-Net.

Sau lớp Convolution thứ 3, mạng sẽ được chia thành 2 lớp Trong đóConvolution 4-1 sẽ đưa ra xác suất dự đoán một khuôn mặt nằm trong mỗibounding boxes và Convolution 4-2 sẽ cung cấp các tọa độ của các hộp giới hạn(bounding box)

Mỗi lần kernel dịch chuyển 2 pixel

Với việc di chuyển kernel 2 pixel, giảm bớt độ phức tạp khi tính toán màkhông giảm đáng kể độ chính xác vì các khuôn mặt hầu hết đều lớn hơn 2 pixel nên

các bounding box đó được thực hiện với các mẫu với kích thước 12x12

3.3.1.2 Phân tích giai đoạn 2.

Ở giai đoạn này, sẽ sử dụng kết quả là các bounding box được cung cấp từ net và các bản sao hình ảnh với kích thước 24x24 Tại đây P-Net sẽ sử dụng các

Ngày đăng: 04/09/2021, 13:43

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w