1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu công nghệ nhận diện khuôn mặt Kairos API và áp dụng xây dựng phần mềm điểm danh sinh viên

90 172 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 90
Dung lượng 1,6 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Dựa vào tính chất của các phương pháp xác định mặt người trên ảnh, các phương pháp này được chia thành bốn loại chính, tương ứng với bốn hướng tiếp cận khác nhau.. Việc xuất hiện một khu

Trang 1

KHOA CÔNG NGHỆ THÔNG TIN

- -

BÁO CÁO NGHIÊN CỨU KHOA HỌC

ĐỀ TÀI:

NGHIÊN CỨU CÔNG NGHỆ NHẬN DIỆN KHUÔN MẶT KAIROS API VÀ ÁP DỤNG XÂY DỰNG PHẦN MỀM ĐIỂM

DANH SINH VIÊN

SVTH : ĐINH HỒNG ÂN GVHD :Th.S TẠ NGUYỄN

BIÊN HÒA, THÁNG 11/2017

Trang 2

LỜI CÁM ƠN

Tôi xin chân thành cám ơn các giảng viên trường Đại Học Lạc Hồng, các thầy

cô khoa Công nghệ Thông tin đã giảng dạy và hướng dẫn tôi trong suốt thời gian tôi theo học tại trường

Tôi xin gởi lời cám ơn đến thạc sĩ Tạ Nguyễn, là giáo viên đã hướng dẫn tôi hoàn thành đề tài nghiên cứu khoa học này

Tôi cũng xin gởi lời cám ơn đến thạc sĩ, giáo viên phản biện đã góp ý giúp tôi hoàn thiện chương trình hơn

Tôi xin cám ơn các thầy, các cô trong khoa Công nghệ Thông tin đã có những

ý kiến đóng góp trong các buổi báo cáo tiến độ

Ngoài ra tôi xin cám ơn thầy Nguyễn Minh Phúc, giáo viên chủ nhiệm lớp 13SE111 và các bạn trong lớp cùng toàn thể gia đình và người thân đã giúp đỡ, động viên tôi trong quá trình thực hiện đề tài này

Với vốn kiến thức còn hạn chế cùng những điều kiện khách quan không cho phép, đề tài của tôi khó tránh khỏi những thiếu sót cũng như chưa đáp ứng đầy đủ các yêu cầu Do đó tôi hy vọng tiếp tục nhận được những ý kiến đóng góp và hướng dẫn của quý thầy cô để đề tài của tôi được hoàn thiện hơn

Tôi xin chân thành cảm ơn

Biên Hòa, tháng 11 năm 2017

Sinh viên thực hiện

Đinh Hồng Ân

Trang 3

MỤC LỤC

1 Lý do chọn đề tài x

2 Lịch sử nghiên cứu xi

2.1 Hệ thống điểm danh RFID xi

2.2 Hệ thống điểm danh sinh trắc học xii

2.3 Công nghệ nhận diện khuôn mặt xiii

2.4 So sánh Kairos API với một số sản phẩm khác [24] xiv

3 Mục tiêu nghiên cứu xxiii

4 Đối tượng và phạm vi nghiên cứu xxiii

4.1 Đối tượng nghiên cứu xxiii

4.2 Phạm vi nghiên cứu xxiii

5 Phương pháp nghiên cứu xxiii

6 Những đóng góp mới và những vấn đề mà đề tài chưa thực hiện được xxiv

6.1 Những đóng góp mới xxiv

6.2 Những vấn đề chưa thực hiện được xxiv

7 Kết cấu của đề tài xxiv

1 Giới thiệu 1

2 Những khó khăn của nhận dạng khuôn mặt 2

LỜI CÁM ƠN i

MỤC LỤC iii

DANH MỤC HÌNH ẢNH vii

DANH MỤC TỪ VIẾT TẮT ix

PHẦN MỞ ĐẦU x

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT NHẬN DIỆN KHUÔN MẶT 1

Trang 4

3 Ứng dụng nhận dạng khuôn mặt 4

4 Các phương pháp chính để xác định măt người 5

5 Hướng tiếp cận dựa trên tri thức 5

5.1 Tư tưởng 5

5.2 Các nghiên cứu 6

6 Hướng tiếp cận dựa trên đặc trưng không thay đổi 7

6.1 Các đặc trưng của khuôn mặt 8

6.2 Kết cấu của khuôn mặt 10

6.3 Màu sắc da 10

6.4 Đa đặc trưng 11

7 Hướng tiếp cận dựa trên so sánh khớp mẫu 11

7.1 Tư tưởng 11

8 Hướng tiếp cận dựa trên diện mạo 14

8.1 Tư tưởng 14

8.2 Một số phương pháp cụ thế trong hướng tiếp cận dựa trên diện mạo 15

8.3 Phân loại Bayes 19

8.4 Ưu điểm và nhược điểm của hai loại phương pháp 19

1 Giới thiệu tổng quát 21

1.1 Kairos API là gì? 21

1.2 Tính năng 21

2 Một số thuật ngữ 22

2.1 API 22

2.2 REST 22

CHƯƠNG 2: GIỚI THIỆU VỀ KAIROS API 21

Trang 5

3 Quy trình xử lý nhận dạng khuôn mặt trên Kairos 24

3.1 Đăng ký hình ảnh (quá trình học máy) 24

3.2 Nhận dạng hình ảnh (quá trình xử lý hình ảnh) 26

3.3 Đưa ra kết quả (xử lý chuỗi dữ liệu) 26

4 Các phương thức của Kairos API 27

4.1 POST/ ENROLL 27

4.2 POST/ VERIFY 32

4.3 POST/ RECOGNIZE 36

5 API error code 41

1 Đánh giá hiện trạng và nhu cầu 43

1.1 Đánh giá hiện trạng 43

1.2 Khảo sát nhu cầu 43

1.3 Hướng xây dựng 43

2 Bài toán điểm danh bằng nhận diện khuôn mặt 44

2.1 Quy trình ghi danh 45

2.2 Quy trình điểm danh 46

3 Xây dựng chương trình thực tế 47

3.1 Qúa trình học máy (Đăng ký thông tin sinh viên) 47

3.2 Xử lý khuôn mặt (Điểm danh) 50

4 Thực nghiệm 54

4.1 Đối tượng thực nghiệm 54

4.2 Kết quả thực nghiệm 55

5 Một số quy tắc đưa ra trong thực nghiệm 56

CHƯƠNG 3: XÂY DỰNG ỨNG DỤNG VÀ THỰC NGHIỆM 43

Trang 6

5.1 Chi tiết kỹ thuật 56

5.2 Chụp ảnh: Đề xuất định vị, biểu hiện và trọng tâm 57

5.3 Đăng ký khuôn mặt : Đề xuất để tải lên hình ảnh hoặc video 58

5.4 Thiết lập máy ảnh: Đề xuất vị trí, ánh sáng và khoảng cách 59

5.5 Định vị máy ảnh: Đề xuất cho màn hình gắn kết, kiốt và thiết bị 60

5.6 Trên đường đi: Đề xuất cho nhúng, máy ảnh hướng về phía trước 61

KẾT LUẬN 62

TÀI LIỆU THAM KHẢO 63

Trang 7

DANH MỤC HÌNH ẢNH

Hình 0.1 Công nghệ điểm danh bằng hệ thống RFID xi

Hình 0.2 Hệ thống điểm danh Sinh trắc vân tay xii

Hình 1.1 Một phương pháp xác định khuôn mặt điền theo huớng tiếp cận top-down 6

Hình 1.2 Một mẫu khuôn mặt 13

Hình 1.3 Các vector quan sát để huấn luyện cho HMM 18

Hình 2.1 Logo nhà sản xuất Kairos API 21

Hình 2.2 Ảnh Elizzabeth được sử dụng để ghi danh 28

Hình 2.3 Yêu cầu tối thiểu khi xây dựng code post/enroll 29

Hình 2.4 Code Post ghi danh ảnh lên server bằng PHP 29

Hình 2.5 Code post ghi danh ảnh bằng Node.js 30

Hình 2.6 Code post ghi danh ảnh bằng JavaScript 30

Hình 2.7 Chuỗi Json trả về của server sau khi ghi danh thành công 31

Hình 2.8 Chuỗi Json trả về của server khi không nhận diện được khuôn mặt nào trong ảnh 32

Hình 2.9 Chuỗi Json trả về của server khi quá nhiều khuôn mặt trên một bức ảnh 32

Hình 2.10 Yêu cầu tối thiểu khi xây dựng code post/verify 33

Hình 2.11 Code Post ảnh lên server bằng PHP 34

Hình 2.12 Code post ảnh bằng Node.js 34

Hình 2.13 Code post ảnh bằng JavaScript 35

Hình 2.14 Chuỗi Json trả về của server sau khi gọi verify thành công 35

Hình 2.15 Chuỗi Json trả về của server khi không tìm thấy gallery trùng khớp 36

Hình 2.16 Chuỗi Json trả về của server khi không nhận diện được khuôn mặt nào trong ảnh 36

Trang 8

Hình 2.17 Yêu cầu tối thiểu khi xây dựng code post/recognize 37

Hình 2.18 Code recognize ảnh lên server bằng PHP 38

Hình 2.19 Code recognize ảnh bằng Node.js 38

Hình 2.20 Code recognize ảnh bằng JavaScript 39

Hình 2.21 Chuỗi Json trả về của server sau khi gọi verify thành công 40

Hình 2.22 Chuỗi Json trả về của server khi không tìm thấy gallery trùng khớp 40

Hình 2.23 Chuỗi Json trả về của server khi không nhận diện được khuôn mặt nào trong ảnh 41

Hình 2.24 Chuỗi Json trả về của server khi quá nhiều khuôn mặt trên một bức ảnh 41

Hình 3.1 Hai khối chức năng chính trong công tác điểm danh 44

Hình 3.2 Quy trình ghi danh 45

Hình 3.3 Quy trình điểm danh 46

Hình 3.4 Quy trình học máy 47

Hình 3.5 Giao diện đăng ký thông tin sinh viên của ứng dụng 48

Hình 3.6 Quy trình xử lý khuôn mặt 51

Hình 3.7 Giao diện điểm danh của ứng dụng 51

Hình 3.8 Danh sách ảnh ghi danh 54

Hình 3.9 Ảnh định danh lần 1 55

Hình 3.10 Ảnh định danh lần 2 55

Hình 3.11 Yêu cầu Pixel đối với ảnh 56

Hình 3.12 Vị trí xoay ảnh 58

Hình 3.13 Yêu cầu vị trí và khoảng cách 59

Hình 3.14 Yêu cầu về độ hiển thị 60

Hình 3.15 Yêu cầu về hướng trực quan 61

Trang 9

DANH MỤC TỪ VIẾT TẮT

Environment

Trang 10

PHẦN MỞ ĐẦU

1 Lý do chọn đề tài

Ngày nay, chúng ta thấy một sự gia tăng về tỷ lệ phần trăm giáo dục so với thập

kỷ trước vì nhận thức trong con người và lợi ích đáng kể của việc giáo dục thích hợp cho sự phát triển bản thân và xã hội Việc nhập học của sinh viên ngày càng tăng dần trong các đại học và cao đẳng một cách không ngừng Do đó việc theo dõi sự hiện diện của tất cả các sinh viên trong lớp học gây ra rất nhiều khó khăn Vì vậy, để thoát khỏi điều này, tất cả đang tìm kiếm cho nhiều lựa chọn khác nhau trong đó "Face Recognize"

là một sự thay thế

Ở nhiều trường đại học, cao đẳng và sự hiện diện là tiêu chí rất quan trọng cho sinh viên trong kết quả học tập Phương pháp trước đây, trong đó tự thực hiện và duy trì danh sách điểm danh đi học là công việc rất không thoải mái cho giáo viên, giảng viên Theo truyền thống, việc điểm danh sinh viên có mặt hoặc vắng mặt được làm thủ công bằng cách sử dụng phiếu điểm danh, gọi tên, làm kiểm tra … gây mất rất nhiều thời gian

và nhân lực Hơn nữa, việc điểm danh còn dễ sai sót bởi học sinh có thể gian lận bằng nhiều cách Cho nên điểm danh theo cách thủ công có tỷ lệ chính xác nghịch với số lượng học sinh trong lớp Do đó việc áp dụng công nghệ trở thành một phương án thay thế khi tính toán thủ công tạo ra lỗi, và cũng lãng phí rất nhiều thời gian Nếu hệ thống điểm danh tự động được phát triển trong các trường đại học, nó có thể loại bỏ những yếu tố phiền toái về giấy tờ điểm danh và nhân viên thực hiện Một hệ thống quản lý tự động bằng sinh trắc học khuôn mặt sẽ cung cấp những giải pháp cần thiết

Tuy nhiên, nhằm kế thừa những giá trị ưu tú của các trí tuệ đi trước, vừa áp dụng

và thích nghi với yêu cầu bài toán, đồng thời tạo cơ sở cho các bạn trẻ đam mê công nghệ có khả năng khám phá và xây dựng một phần mềm nhận diện khuôn mặt cho riêng mình Dó đó, đề tài này đưa ra giải pháp bằng việc “Nghiên cứu công nghệ nhận diện khuôn mặt Kairos API” sau đó “áp dụng vào việc xây dựng một phần mềm điểm danh sinh viên”

Trang 11

2 Lịch sử nghiên cứu

2.1 Hệ thống điểm danh RFID

Identification) là công nghệ nhận dạng đối

tượng bằng sóng vô tuyến Công nghệ này

cho phép nhận biết các đối tượng thông qua

hệ thống thu phát sóng radio, từ đó có thể

giám sát, quản lý hoặc lưu vết từng đối

tượng Một hệ thống RFID thường bao gồm

2 thành phần chính là thẻ tag (chip RFID

chứa thông tin) và đầu đọc (reader) đọc các

thông tin trên chip

Nguyên lý hoạt động:

- Mỗi học sinh, sinh viên sau khi nhập học sẽ được phát 1 thẻ học sinh, sinh viên là dạng thẻ từ RFID có in ảnh và thông tin của học sinh, sinh viên đó Thẻ từ RFID sẽ được mã hóa tương ứng với mã số riêng tương ứng với

mã học sinh, sinh viên

- Khi đến giờ học, tiết học của từng môn học sinh, sinh viên đó sẽ quẹt thẻ của mình lên đầu đọc thẻ gắn trên tường ngay cửa ra vào của từng phòng học để điểm danh

- Khi giáo viên lên lớp giảng dạy sẽ nhận được thông tin điểm danh của lớp

đó từ dữ liệu của đầu đọc thẻ chuyển về Hệ thống sẽ thống kê sỹ số của lớp và có bao nhiêu học sinh, sinh viên đến lớp Danh sách của những người nghỉ Đồng thời phòng đào tạo cũng nhận được những thông tin này

- Mỗi thẻ khi quẹt lên đầu đọc trên phần mềm quản lý sẽ hiển thị thông tin của HS/SV đó như: Tên, Địa chỉ, số điện thoại, Lớp, hình ảnh, thông tin liên hệ gia đình

Ưu điểm:

- Giảm thời gian điểm danh của giáo viên

Hình 0.1 Công nghệ điểm danh bằng hệ

thống RFID

Trang 12

Nhược điểm:

- Đi học phải mang thẻ, mất thẻ thì không thể điểm danh

- Gửi thẻ nhờ bạn điểm danh hộ

- Thời gian xếp hàng đợi quét thẻ là rất lâu

2.2 Hệ thống điểm danh sinh trắc học

Công nghệ Sinh trắc học (Biometric)

là một công nghệ sử dụng những thuộc tính vật

lý hoặc các mẫu hành vi, các đặc điểm sinh học

trên cơ thể đặc trưng như dấu vân tay, mẫu

mống mắt, giọng nói, khuôn mặt, dáng đi… để

nhận diện con người

Công nghệ sinh trắc vân tay được áp

dụng phổ biến từ rất lâu trước đó

Dấu vân tay là một đặc điểm để phân biệt giữa người này và người khác Vì vậy, sự phát triển của công nghệ nhận dạng vân tay có thể giúp thu nhận và ghi nhớ được hàng triệu các mẫu ghi chép dưới dạng số hoá bằng công nghệ thông tin Kỹ thuật này được đánh giá sẽ là đột phá của một cuộc cách mạng công nghệ mới, khi những thiết bị có khả năng nhận dạng vân tay, được dùng để bảo vệ dữ liệu được ứng dụng ngày càng nhiều

Nguyên lý hoạt động:

Nguyên lý hoạt động của công nghệ nhận dạng sinh trắc vân tay là khi đặt ngón tay lên trên một thiết bị nhận dạng dấu vân tay, ngay lập tức thiết bị này sẽ quét hình ảnh vân ngón tay và đối chiếu các đặc điểm của vân tay đó với dữ liệu đã được lưu trữ trong hệ thống trước đó Quá trình xử lý dữ liệu sẽ được thiết bị chuyển sang các dữ liệu

số và ra thông báo rằng dấu vân tay đó là hợp lệ hay không hợp lệ, sau đó để hệ thống thực hiện các chức năng khác Khi đến giờ học, tiết học của từng môn học sinh, sinh viên đó sẽ quẹt thẻ của mình lên đầu đọc thẻ gắn trên tường ngay cửa ra vào của từng phòng học để điểm danh

Hình 0.2 Hệ thống điểm danh Sinh

trắc vân tay

Trang 13

Ưu điểm:

- Giảm thời gian điểm danh của giáo viên

- Không cần phải mang thẻ

Nhược điểm:

- Thời gian xếp hàng đợi quét vân tay là rất lâu

2.3 Công nghệ nhận diện khuôn mặt

- TensorFlow

- Microsoft face API

- Face Recognition - Stephen here from Lambda Labs Face (Detection)

- Animetrics Face Recognition

- Skybiometry Face Detection and Recognition

- ImageVision Face Detection

- OpenCV Face Recognizer - OpenCV

- Oddcast face detection API

- BioID - world’s first webcam-based personal recognition

- Betaface API - face detection and recognition

Trang 14

2.4 So sánh Kairos API với một số sản phẩm khác [24]

Mọi người đều nói về nhận dạng khuôn mặt và có rất nhiều công ty khác nhau

Để giúp đưa ra quyết định sự lựa chọn đúng đắn, người nghiên cứu đã so sánh các dịch

vụ nhận dạng khuôn mặt tốt nhất trên thị trường

Kairos Amazon Google Microsoft IBM Affectiva OpenCV

Trang 15

Điều kiện giới hạn

- Số khuôn mặt tối đa được xử lý trong một hình ảnh là 15

- Kích thước hình ảnh tối đa được lưu trữ dưới dạng một đối tượng Amazon S3 giới hạn đến 15 MB Độ phân giải pixel tối thiểu cho chiều cao và chiều rộng là 80 pixel

- Kích thước hình ảnh tối đa là byte như tham số cho một API là 5 MB

họ Nền tảng này gắn liền với hệ sinh thái AWS Những người dùng không phải là AWS

sẽ gặp khó khăn trong việc thực hiện Rekognition trong sản phẩm của mình

Trang 16

API Google Vision ii

- Bộ sưu tập Kích thước bộ sưu tập khuôn mặt giới hạn 1000

- Chỉ có 27 điểm trên khuôn mặt, tối đa 64 khuôn mặt cho mỗi hình ảnh

- Phân tích Emotion Video giới hạn tối đa 100MB (10-20 giây video ở độ phân giải 1080p, <30 giây ở độ phân giải 720p HD)

- Hình ảnh có kích thước tối đa 4MB (nhỏ hơn 2 megapixel)

- Phân loại cảm xúc: tức giận, khinh thường, ghê tởm, sợ hãi, hạnh phúc, trung lập, buồn bã, bất ngờ (không chú ý)

- 10 giao dịch mỗi giây đối với API khuôn mặt và hình ảnh API cảm xúc

- Tối đa 1 video cho mỗi phút trên Emotion API, giới hạn truy vấn trạng thái video 2 phút

- $1,50 / 1000 cuộc gọi mỗi tháng, gói mở rộng $0,50 trên 1000 khuôn mặt được lưu trữ trong một thư viện

- 30k cuộc gọi miễn phí mỗi tháng cho Emotion và Face APIs

- Khách hàng nhận diện khuôn mặt = 3004 đô la / tháng

- Nếu người dùng thêm các tính năng bổ sung, chẳng hạn như phát hiện biểu tượng hoặc thuộc tính hình ảnh, người dùng phải trả $1,50 / 1000 * số tính năng mà người dùng yêu cầu

Trang 17

- Cảm xúc của khách hàng mẫu = $N / A - Video tối đa phải được xử lý là

50 giờ đầu tiên phải được hạ cấp và cắt thành đoạn clip thứ 30, không có giá cả

- API cảm xúc tối đa 3000 video mỗi tháng ở mức $.25 / 1000 cuộc gọi

Nhận định

Là một phần nhỏ của nền tảng đám mây của Google Giá cả phức tạp, giới hạn bởi tính năng combo Đứng từ nhận thức của nhà phát triển, giống như các dịch vụ khác của Google, API của Cloud Vision có thể dễ dàng ngưng bất cứ lúc nào

Microsoft Face API (FKA ‘Project Oxford’) iii

- 'Video Intelligence' - Cảnh, đối tượng và 'thực thể'

Điều kiện giới hạn

- Chỉ báo cáo lại 34 mặt mốc

- Không nhận dạng khuôn mặt có thể

- Chỉ gửi hình ảnh qua mã hóa Base64

- Kích thước tối đa 4MB hình ảnh (nhỏ hơn 2 megapixel)

- 10 yêu cầu tối đa mỗi giây

- 20m hình ảnh mỗi tháng tối đa

- Chỉ có Cloud API, không có SDK

- Phân loại cảm xúc: niềm vui, nỗi buồn, tức giận, và bất ngờ Chỉ với 'khả năng', chứ không phải cường độ

- 1-1000 hình ảnh miễn phí mỗi tháng

- 1001-5.000.000 hình ảnh 1,50 đô la cho mỗi 1000 hình ảnh

Trang 18

- 2 triệu ảnh/ tháng = $3000 chỉ nhận diện khuôn mặt và phát hiện tình cảm giới hạn, không nhận dạng khuôn mặt, không có phân tích video cảm xúc nào có thể

- Nếu người dùng thêm các tính năng bổ sung, chẳng hạn như phát hiện biểu tượng hoặc thuộc tính hình ảnh, người dùng phải trả $1,50 / 1000 * số tính năng mà người dùng yêu cầu

Nhận định

Microsoft có một dịch vụ phân tích khuôn mặt chắc chắn cho đám mây Tuy nhiên, dịch vụ bị giới hạn bởi giới hạn sử dụng và sự mất ổn định về giá - hãy xét "giá trước" của họ, điều này sẽ tăng 50% khi có sẵn Là một phần của nền tảng Cognitive Services lớn hơn của họ, nó cũng thiếu sự tập trung của một nhà cung cấp chuyên dụng

- Người nổi tiếng công nhận

- Nhận diện đối tượng và cảnh

Điều kiện giới hạn

- Nhận diện khuôn mặt được giới hạn trong những người nổi tiếng

- 250 hình ảnh / ngày lên đến 5000 hình ảnh

- Phát hiện độ tuổi và giới tính

Nhận định

Một thành phần nhỏ trong khả năng mở rộng của Watson Không có trọng tâm

rõ ràng về phân tích khuôn mặt và phụ thuộc nhiều vào nền tảng đám mây Blutoix của

Trang 19

IBM Chiến lược của IBM Watson tập trung không theo nhận dạng trực quan so với các phân tích dựa trên văn bản chính của nó

Điều kiện và giới hạn

- Nhà cung cấp phần mềm nhận dạng khuôn mặt hàng đầu cho các chính phủ, quân đội, an ninh và các ngành chơi game

- Chỉ SDK, không có API web

- Hoạt động tốt dưới các kịch bản được kiểm soát như kiểm soát hộ chiếu

- Tốc độ ghi danh chậm và tỷ lệ phù hợp

- Không có phân tích cảm xúc

- C, C + +, Java, và phát triển C # có thể

- Hỗ trợ khách hàng chỉ dành cho khách hàng doanh nghiệp quy mô lớn

- Cấp phép khó khăn và mô hình định giá

Trang 20

Tính Năng Cốt Lõi

- Phân tích ngón tay và cọ

- Phát hiện và nhận diện khuôn mặt

- Nhận dạng khuôn mặt trên hình ảnh và video

- Họ thích xây dựng các giải pháp hoàn chỉnh trong nhà hơn là cấp phép SDK cho các nhà tích hợp hoặc nhà phát triển bên ngoài

Điều kiện và giới hạn

- Không có phân tích cảm xúc

- Không có API trên đám mây

- SDK chỉ, cũng được phân phối như một thiết bị phần cứng cho các nhà tích hợp

- Rất khó để tìm thấy bất kỳ thông tin nào về SDK của họ

- SDK chỉ, cũng được phân phối như một thiết bị phần cứng cho các nhà tích hợp

- NEC cung cấp rất ít thông tin về dòng sản phẩm NeoFace, không có cách nào rõ ràng để mua nó

- Bán hàng và bộ phận hỗ trợ khó khăn để tham gia với

- Cung cấp một đóng góp rất nhỏ cho một công ty rất lớn, nó có thể bị cắt tại bất kỳ điểm nào

Trang 21

Tính Năng Cốt Lõi

 Phân tích vân tay

SDK cho các nhà tích hợp hoặc nhà phát triển bên ngoài

Điều kiện và giới hạn

Nhận định

Affectiva là một nhà phát triển có được nguồn tài trợ tốt Họ đã tăng 34 triệu đô

la trong vòng 6 năm và liên kết chặt chẽ với WPP của tập đoàn quảng cáo Với sự tập trung vào phân tích cảm, họ không cung cấp mảng nhận diện khuôn mặt

Trang 22

Điều kiện và giới hạn

dạng khuôn mặt chỉ hỗ trợ iOS và Android

tập

Nhận định

Họ chủ yếu hoạt động ở Trung Quốc, được tài trợ rất tốt (khoảng $150 triệu),

và được biết đến khi đưa vào các sản phẩm của Lenovo

Vào đầu năm 2017, Face ++ bắt đầu tự tái tạo thương hiệu như một nhà cung cấp Dịch vụ Cognitive - bắt chước các dịch vụ tương tự của Microsoft, Amazon và Google Thật khó để nói những gì tập trung của họ sẽ trở thành

Quá nhiều để liệt kê Họ có 2500 thuật toán được tối ưu hóa cho bất cứ điều gì

từ phát hiện khuôn mặt để theo dõi các đối tượng trong video

Điều kiện và giới hạn

- Phức tạp, khó sử dụng phần mềm được thiết kế cho các chuyên gia tầm nhìn máy tính

- Bao gồm một diện tích rộng liên quan đến tầm nhìn máy tính

- Hạn chế chiều sâu liên quan đến nhận diện khuôn mặt / công nhận

- Chỉ SDK

Trang 23

Nhận định

Tuyệt vời cho các nhà phát tiển với để xây dựng các chương trình trong nghiên cứu Ít ứng dụng thương mại, chủ yếu dùng trong giáo dục và đào tạo

3 Mục tiêu nghiên cứu

Đề tài được thực hiện với mục tiêu giới thiệu bộ API nhận diện khuôn mặt của Kairos và xây dựng một trang web ứng dụng nhận diện khuôn mặt trong việc điểm danh sinh viên Nội dung chi tiết gồm:

- Tìm hiểu về Kairos Face API

- Xây dựng trang web nhận diện khuôn mặt

- Cho ứng dụng học máy và đưa ra đánh giá

- Ứng dụng trang web trong việc điểm danh sinh viên

- Xây dựng thêm một số chức năng mở rộng

4 Đối tượng và phạm vi nghiên cứu

4.1 Đối tượng nghiên cứu

- Hệ thống nhận diện khuôn mặt

- Kairos face API

- Quy trình điểm danh bằng hệ thống nhận dạng khuôn mặt

4.2 Phạm vi nghiên cứu

- Quy trình điểm danh sinh viên bằng nhận diện khuôn mặt

- Cách sử dụng Kairos API

5 Phương pháp nghiên cứu

- Nghiên cứu và so sánh các thư viện (libaries), API, và SDK sử dụng cho việc nhận diện khuôn mặt

- Tìm hiểu về quy trình điểm danh của các bài toán điểm danh truyền thống và bán truyền thống

- Chọn lọc và xây dựng trang web ứng dụng

- Phát triển thêm những tính năng khác

Trang 24

6 Những đóng góp mới và những vấn đề mà đề tài chưa thực hiện được

6.1 Những đóng góp mới

- Giúp cho việc điểm danh được tiện lợi, giảm bớt những nhược điểm về thời gian, sức lực và nhân sự

- Ứng dụng được công nghệ nhận diện khuôn mặt vào chương trình

- Đưa ra những cơ sở lý thuyết về Karos API để các bạn trẻ đam mê công nghệ có

cơ hội tiếp cận, nghiên cứu và áp dụng vào việc xây dựng phần mềm riêng cho mình

6.2 Những vấn đề chưa thực hiện được

- Đề tài chưa tối ưu hóa thời gian xử lý trên server

7 Kết cấu của đề tài

Luận văn được chia làm ba phần: phần mở đầu, phần nội dung và phần kết luận

Phần mở đầu

Nêu lý do chọn đề tài, tổng quan tình hình phát triển, mục tiêu nghiên cứu đề tài, đối tượng, phạm vi, phương pháp nghiên cứu cũng như những đóng góp mới của đề tài Bên cạnh đó cũng chỉ ra mặt hạn chế mà đề tài chưa thực hiện được để giúp mọi người có cái nhìn rõ hơn

Phần nội dung chính: gồm 4 chương

Chương 1: Cơ sở lý thuyết nhận diện khuôn mặt

Trong chương này người nghiên cứu sẽ trình bày cơ sở lý thuyết về một số phương pháp nhận diện khuôn mặt đang được áp dụng hiện này đồng thời đưa ra so sánh

Chương 2: Giới thiệu về Kairos API

Chương này người nghiên cứu sẽ lần lượt giới thiệu tổng quát về Kairos API, một số thuật ngữ về API và Rest, quy trình nhận diện khuôn mặt của Kairos, các phương thức, thông báo và kinh nghiệm sử dụng

Chương 3: Xây dựng chương trình và đánh giá kết quả

Trang 25

Nêu cách xây dựng chươngc và các chức năng mà chương trình hỗ trợ Chạy chương trình thử nghiệm trên nhiều tiêu chí: Sự tiện lợi trong việc sử dụng, thời gian điểm danh, độ chính xác, mật độ người trong ảnh, vị trí chụp…từ đó đưa ra kết luận

Phần kết luận

Trang 26

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT NHẬN DIỆN KHUÔN MẶT

1 Giới thiệu

Trong thế giới ngày nay với sự phát triển mạnh mẽ của kỹ thuật số và mạng toàn cầu, vấn đề đảm bảo an toàn về thông tin cũng như vật chất trở nên ngày càng quan trọng và khó khăn Thỉnh thoảng chúng ta lại nghe nói đến những vụ đánh cắp thẻ tín dụng, đột nhập trái phép vào các hệ thống máy tính hay toà nhà của cơ quan nhà nước, chính phủ Hơn 100 triệu đô la là con số đã bị thất thoát ở Mỹ vào năm 1998 do các vụ gian lận và xâm nhập nói trên (theo Reuters, 1999) [5] Trong đa số các vụ phạm pháp này, bọn tội phạm đã lợi dụng những khe hở cơ bản trong quá trình truy cập vào các hệ thống thông tin và kiểm soát Phần lớn những hệ thống này không thực hiện quyền truy cập của người sử dụng dựa vào thông tin “chúng ta là ai” mà chỉ dựa vào “chúng ta có gì” Nói cách khác, thông tin mà người sử dụng cung cấp cho hệ thống không đặc trưng được cho bản thân họ, mà chỉ là những gì họ hiện đang sở hữu như số chứng minh nhân dân, chìa khoá, mật mã, số thẻ tín dụng hoặc họ tên Rõ ràng những thông tin hay vật dụng này không mang tính đặc trưng mà chỉ mang tính xác thực đối với người sử dụng,

và nếu chúng bị đánh cắp hay sao chép thì kẻ trộm hoàn toàn có quyền truy nhập, sử dụng dữ liệu hay phương tiện của chúng ta bất cứ lúc nào họ muốn Hiện nay, những công nghệ hiện đại đã cho phép việc xác thực dựa vào “bản chất” của từng cá nhân Công nghệ này dựa trên lĩnh vực được gọi là sinh trắc học Kiểm soát bằng sinh trắc học

là những phương pháp tự động cho phép xác thực hay nhận dạng một cá nhân dựa vào các đặc trưng sinh lý học của người đó như đặc điểm vân tay, gương mặt, gen, hoặc dựa trên những đặc điểm liên quan đến đặc trưng hành vi như dạng chữ viết, cách gõ phím, giọng nói Vì những hệ thống nhận dạng bằng sinh trắc học sử dụng thông tin sinh học của con người nên kết quả chính xác và đặc biệt là rất khó bị giả mạo

Các đặc trưng sinh lý học là duy nhất ở mỗi người và rất hiếm khi thay đổi, trong khi đó đặc trưng hành vi có thể thay đổi bất thường do các yếu tố tâm lý như căng thẳng, mệt mỏi hay bệnh tật Chính vì lý do này, các hệ thống nhận dạng dựa trên đặc trưng sinh lý tỏ ra ổn định hơn các hệ thống dựa vào đặc trưng hành vi Tuy nhiên, nhận dạng bằng các đặc trưng hành vi có ưu điểm là dễ sử dụng và thuận tiện hơn: thay vì

Trang 27

phải đặt mắt trước một máy quét điện tử hay lấy ra một giọt máu, người sử dụng sẽ cảm thấy thoải mái hơn khi được yêu cầu ký tên hay nói vào một micro

Nhận dạng gương mặt là một trong số ít các phương pháp nhận dạng dựa vào đặc trưng sinh lý cho kết quả chính xác cao đồng thời rất thuận tiện khi sử dụng Hơn nữa, trong số các đặc trưng sinh lý học, gương mặt của mỗi người là yếu tố đầu tiên và quan trọng nhất cho việc nhận biết lẫn nhau cũng như biểu đạt cảm xúc Khả năng nhận dạng nói chung và khả năng nhận biết gương mặt người nói riêng của con người thật đáng kinh ngạc Chúng ta có khả năng nhận ra hàng ngàn gương mặt của những người mình đã gặp, đã giao tiếp trong cuộc sống chỉ bằng một cái nhìn thoáng qua, thậm chí sau nhiều năm không gặp cũng như những sự thay đổi trên gương mặt do tuổi tác, cảm xúc, trang phục, màu tóc, Do đó, việc nghiên cứu các đặc tính của gương mặt người

đã thu hút rất nhiều nhà triết học, nhà khoa học qua nhiều thế kỷ, trong đó có cả Aristotle

và Darwin [1],

Chính vĩ những lý do trên, từ những năm 1970, nhận dạng mặt người đã thu hút

sự quan tâm của nhiều nhà nghiên cứu trong các lĩnh vực như bảo mật, tâm lý học, xử

lý ảnh và thị giác máy tính Hơn một thập kỷ qua, có rất nhiều công trình nghiên cứu về bài toán xác định khuôn mặt người từ ảnh đen trắng, ảnh xám, đến ảnh màu Các nghiên cứu đi từ bài toán đơn giản là ảnh chỉ chứa một khuôn mặt người nhìn thẳng vào thiết bị thu hình và đầu ở tư thế thẳng đứng, cho đến ảnh màu với nhiều khuôn mặt người trong cùng ảnh, khuôn mặt có quay một góc nhỏ, hay bị che khuất một phần, và với ảnh nền của ảnh phức tạp (ảnh chụp ngoài thiên nhiên) nhằm đáp ứng nhu cầu thật sự cần thiết của con người

2 Những khó khăn của nhận dạng khuôn mặt

Trang 28

nhìn thẳng của khuôn mặt hoặc là lúc chụp ảnh mặt người quay nghiêng sang một bên

nào đó nhiều đều là những khó khăn rất lớn trong bài toán nhận diện mặt người

Sự xuất hiện hoặc thiếu một số thành phần của khuôn mặt:

Các đặc trưng như râu mép, râu hàm, mắt kính,v.v… có thể xuất hiện hoặc

không Vấn đề này làm cho bài toán càng khó khăn hơn rất nhiều

Sự biểu cảm của khuôn mặt:

Biểu cảm của khuôn mặt người có thể làm ảnh hưởng đáng kể lên các thông số của khuôn mặt Chẳng hạn,cùng một khuôn mặt một người, nhưng có thể sẽ rất khác khi

họ cười hoặc sợ hãi…

nghiêng so với trục của ảnh

Điều kiện của ảnh

Ảnh được chụp trong các điều kiện khác nhau về: chiếu sang, về tính chất camera (máy kỹ thuật số, máy hồng ngoại, v.v…) ảnh hưởng rất nhiều đến chất lượng

ảnh khuôn mặt

Nền ảnh phức tạp

Nền của ảnh phức tạp là một trong những khó khăn nhất trong bài toán nhận diện khuôn mặt người trong ảnh, khuôn mặt người sẽ dễ bị nhầm lẫn với nhiều khung cảnh phức tạp xung quanh và ảnh hưởng rất nhiều đến quá trình phân tích và rút trích các đặc trưng của khuôn mặt trong ảnh, có thể dẫn đến không nhận ra khuôn mặt hoặc

là nhận nhầm các khung cảnh xung quanh thành khuôn mặt người

Trang 29

Kiếm soát truy cập vào các hệ thống mảy tỉnh trong môi trường cộng tác

Việc kiểm tra đăng nhập vào các hệ thống máy PC được kết họp giữa thông tin mật mã và / hoặc nhận dạng mặt người Điều này giúp người làm việc không cảm thấy

bị rối bời trong các thủ tục truy cập phức tạp đồng thời vẫn đảm bảo được độ tin cậy đối với thông tin khách hàng và các bí mật trong kinh doanh

Giải pháp bảo mật bố sung cho các giao dịch rút tiền tự động (ATM)

Việc truy cập vào các máy rút tiền tự động và các dịch vụ khác của ngân hàng được kiểm soát bởi các thông tin như số tín dụng (PIN), giọng nói, tròng mắt kết họp với nhận dạng gương mặt

Đối sánh ảnh căn cước trong hoạt động của ngành luật pháp

Các cơ quan luật pháp có thể sử dụng các hệ thống nhận dạng mặt người để đối sánh những mô tả của các nhân chứng với những tên tội phạm được lưu trữ trong cơ sở

dữ liệu

Ứng dụng trong các giao tiếp người - máy

Sau khi xác định được người sử dụng và cảm xúc của họ tại thời điểm đó, các hệ thống máy tính có thể có các ứng xử thích họp

Trang 30

4 Các phương pháp chính để xác định măt người

Dựa vào tính chất của các phương pháp xác định mặt người trên ảnh, các phương pháp này được chia thành bốn loại chính, tương ứng với bốn hướng tiếp cận khác nhau Ngoài ra cũng có rất nhiều nghiên cứu mà phương pháp xác định mặt người không chỉ dựa vào một hướng mà có liên quan đến nhiều hướng

Hướng tiếp cận dựa trên tri thức: Dựa vào các thuật toán, mã hóa các đặc

trưng và quan hệ giữa các đặc trưng của khuôn mặt thành các luật Đây là hướng tiếp cận theo kiểu top-down

Hướng tiếp cận dựa trên đặc trưng không thay đối: Xây dựng các thuật toán

đế tìm các đặc trưng của khuôn mặt mà các đặc trưng này không thay đối khi tư thế khuôn mặt hay vị trí đặt camera thay đối Hướng tiếp cận này là hướng tiếp cận theo kiểu bottom-up

Hướng tiếp cận dựa trên so sánh khớp mẫu: Dùng các mẫu chuẩn của khuôn

mặt (các mẫu này được định nghĩa bằng tay trước hoặc được tham số hóa bằng

mộ hàm số) đế mô tả các khuôn mặt hay các đặc trưng của khuôn mặt Mau này được sử dụng đế phát hiện khuôn mặt bằng cách quét nó qua ảnh và tính toán giá trị tương đồng cho mỗi vị trí Việc xuất hiện một khuôn mặt tại một vị trí nào đó trong ảnh phụ thuộc vào giá trị tương đồng của điếm đó so với mẫu chuẩn

Hướng tiếp cận dựa trên diện mạo: Trái ngược với hướng tiếp cận dựa trên

khuôn mẫu, các mô hình (hay các mẫu) sẽ được học từ một tập ảnh huấn luyện

mà thế hiện tính chất tiêu biếu của sự xuất hiện của mặt người trong ảnh Sau

đó hệ thống (mô hình) sẽ xác định mặt người Phương pháp này còn được biết đến với tên gọi tiếp cận theo các phương pháp học máy

5 Hướng tiếp cận dựa trên tri thức

5.1 Tư tưởng

Trong hướng tiếp cận này, các phương pháp xác định mặt người được xây dựng dựa vào các luật, các luật này phụ thuộc vào tri thức của các tác giả nghiên cứu về bài toán xác định khuôn mặt Dễ dàng xây dựng các luật cơ bản đế mô tả các đặc trung của

Trang 31

khuôn mặt và các quan hệ tương ứng Ví dụ, một khuôn mặt thường có hai mắt đối xứng qua trục thắng đứng giữa khuôn mặt và có một mũi một miệng Các quan hệ đặc trưng

có thế là quan hệ về vị trí và khoảng cách tương đối Khó khăn của hướng tiếp cận này

đó là làm thế nào đế chuyến các tri thức của con người về khuôn mặt sang các luật cho máy tính một cách hiệu quả Neu các luật này quá chi tiết, chặt chẽ thì sẽ có thế xác định thiếu các khuôn mặt có trong ảnh, nhưng nếu các luật quá tống quát thì sẽ dẫn đến xác định sai khu vực không phải là khuôn mặt thành khuôn mặt Ngoài ra cũng khó đế mở rộng phạm vi của bải toán đế xác định các khuôn mặt có nhiều tư thế khác nhau

5.2 Các nghiên cứu

Có nhiều cách đế xây dựng chương trình xác định mặt người theo hướng tiếp cận dựa trên tri thức Thông thường chương trình sẽ được xây dựng theo hướng dựa vào một phương pháp nào đấy chọn ra các ứng viên trong bức ảnh trước, sau đó sẽ áp dụng các luật để xác định ứng viên nào là khuôn mặt, ứng viên nào không phải là khuôn mặt Quá trình này có thế được áp dụng nhiều lần đế giảm sai sót

Trên hình 1.1, các luật được xây dựng dựa vào tri thức của người nghiên cứu về các đặc trưng của khuôn mặt (ví dụ như cường độ phân phối và sự khác nhau) của các vùng trên khuôn mặt

Yang và Huang đã sử dụng hướng tiếp cận dựa trên tri thức để xác định khuôn mặt [7], Hệ thống của hai tác giả bao gồm bã mức luật Đầu tiên các ông sử dụng một khung cửa sổ để quét trên bức ảnh và thông qua một số tập luật đề xác định các ứng viên

Hình 1.1 Một phương pháp xác định khuôn mặt điền theo huớng tiếp cận

top-down

Trang 32

có thề là mặt người, ví dụ như tìm phần trung tâm của khuôn mặt (phần tối hơn trong hình 1) Tiếp theo, dùng một tập luật đề mô tả tổng quát hình dáng khuôn mặt, lọc các ứng viên ở mức một thành một tập các ứng viên mới có xác xuất là khuôn mặt cao hơn Cuối cùng, các ông lại dùng một tập luật khác để xem xét ồ mức chi tiết các đặc trưng khuôn mặt (có thể là đặc trưng về mắt, mũi, miệng ), từ đó lọc ra các ứng viên chính xác nhất Có thể nói cách làm của hai ông là một cách làm mịn dần để đạt được kết quả tốt nhất, mặc dù tỷ lệ chính xác chưa cao, nhưng đây là tiền đề cho nhiều nghiên cứu sau này

Có rất nhiều công trình nghiên cứu sử dụng phương pháp chiếu để xác định khuôn mặt Kotropoulos và Pitas đưa ra một phương pháp gần tương tự với Yang và Huang Đầu tiên, các vùng của khuôn mặt được đinh vị bởi phương pháp chiếu (đã được Kanade sử dụng thành công) để xác định biên của khuôn mặt Với I(x,y) lả giá trị xám

của một điểm trong ảnh có kích thước m x n ở tại vị trí (x,y), các hàm để chiếu ảnh theo

phương ngang và thẳng đứng được định nghĩa như sau:

Dựa trên biếu đồ hình chiếu ngang, khi xét biểu đồ biến thiên của HI hai ông tìm được hai cực tiểu địa phương tương ứng vối hai đỉnh đầu bên trái và bên phải của khuôn mặt Còn theo hình chiếu dọc, xét biến thiên và tìm cực tiểu địa phương của VI cũng cho ta các vị trí của miệng, đỉnh mũi và hai mắt Các đặc trưng nầy đủ để xác đinh khuôn mặt

6 Hướng tiếp cận dựa trên đặc trưng không thay đổi

Đây là hướng tiếp cận theo kiểu bottom-up Các tác giả cố gắng tìm các đặc trưng không thay đổi của khuôn mặt người để xác định khuôn mặt người Dựa trên nhận xét thực tế, con người dễ dàng nhận biết các khuôn mặt và các đối tượng trong các tư thế khác nhau và điều kiện ánh sáng khác nhau, thì phải tồn tại các thuộc tính hay đặc

Trang 33

trưng không thay đổi Có nhiều nghiên cứu đầu tiên xác định các đặc trưng khuôn mặt rồi chỉ ra có khuôn mặt trong ảnh hay không Các đặc trưng như: lông mày, mắt, mũi, miệng, và đường viền của tóc được trích bằng phương pháp xác định cạnh Trên cơ sở các đặc trưng này, xây dựng một mô hình thống kê để mô tả quan hệ của các đặc trưng này và xác định sự tồn tại của khuôn mặt trong ảnh Một vấn đề của các thuật toán theo hướng tiếp cân đặc trưng cần phải điều chỉnh cho phù hợp điều kiện ánh sáng, nhiễu, và

bị che khuất Đôi khi bóng của khuôn mặt sẽ tạo thêm cạnh mới, mà cạnh này lại rõ hơn cạnh thật sự của khuôn mặt, vì thế nếu dùng cạnh để xác định sẽ gặp khó khăn

6.1 Các đặc trưng của khuôn mặt

Sirohey đưa một phương pháp xác định khuôn mặt từ một ảnh có hình nền phức tạp Phương pháp dựa trên cạnh (dùng phương pháp Candy và Heuristics để loại bỏ các cạnh để còn lại duy nhất một đường bao xung quanh khuôn mặt Một hình ellipse dùng

để bao khuôn mặt, tách biệt vùng đầu và hình nền Tỷ lệ chính xác của thuật toán là 80% Cũng dùng phương pháp cạnh như Sirohey, Chetverikov và Lerch dùng một phưong pháp dựa trên “blob” và “streak” (hình dạng giọt nước và sọc xen kẽ), để xác định theo hướng các cạnh Hai ông dùng hai blob tối và ba blob sáng để mô tả hai mắt, hai bên gò má, và mũi Mô hình này dùng các “treak” để mô tả hình dáng ngoài của khuôn mặt, lông mày, và môi Dùng ảnh có độ phân giải thấp theo biến đổi Laplace để xác định khuôn mặt thông qua “blob”

Leung đã đưa ra một mô hình xác xuất để xác định khuôn mặt trong ảnh có hình nền phức tạp dựa trên việc tìm kiếm các đặc trưng không thay đổi của khuôn mặt trong ảnh, sau đó dùng đồ thị ngẫu nhiên để xác định khuôn mặt Tư tưởng của phương pháp này đó là xem bài toán xác định khuôn mặt như là bài toán tìm kiếm vớỉ mục tiêu là tìm thứ tự các đặc trưng không thay đổi của khuôn mặt Dùng năm đặc trưng (hai mắt, hai

lỗ mũi, phần nối giữa mũi và miệng) để mô tả một khuôn mặt Đồng thời tính quan hệ khoảng cảch cho tất cả các cặp đặc trưng (như mắt trái, mắt phải), sau đấy dùng phân

bố để mô hình hóa Một mẫu khuôn mặt được đưa ra thông qua trung bình tương ứng cho một tập đa hướng, đa tỷ lệ của bộ lọc đạo hàm Gauss Từ một ảnh, các đặc trưng của ứng viên được xác định bằng cách so khớp từng điểm ảnh khi lọc tương ứng với vector mẫu Hai ứng viên có đặc trưng đứng đầu sẽ được chọn để tìm kiếm cho các đặc

Trang 34

trưng khác của khuôn mặt Từ các đặc trưng không thay đổi, các đặc trưng khác sẽ được xác định thông qua sự đánh giá xảc xuất khoảng cách giữa các đặc trưng, hơn nữa phương sai của phép thống kê này có thể được tính toán trước để xác đỉnh các đặc trưng với xác suất lớn Tỷ lệ chính xác của phương pháp này là 86%

Bên cạnh tính khoảng cách liên quan để mô tả quan hệ giữa các đặc trưng như Leung Kendall [4], Mardia and Dryden [12] dùng lý thuyết xác suất thống kê về hình dáng Dùng hàm Mật độ xác suất (Probility Density Function - PDF) qua N điểm đặc trưng, tương ứng (xi, yi) là đặc trưng thứ i với giả sử là phân bo Gauss có 2N-chiều Các tác giả áp dụng phương thức Cực đại khả năng (Maximum-Likelihood - ML) đế xác định vị trí khuôn mặt Một thuận lợi của phương pháp này là các khuôn mặt bị che khuất vẫn có thế xác định được Hạn chế phương pháp này đó là không xác định được nhiều khuôn mặt trong cùng một ảnh

Không dùng phương pháp xác suất, Sirohey đưa một phương pháp khác xác định khuôn mặt từ một ảnh có hình nền phức tạp [10], gọi là phương pháp dựa trên cạnh Ông dùng phương pháp Candy [9] và heuristics loại bỏ các cạnh đế còn lại duy nhất một đường bao xung quanh khuôn mặt Dùng một hình ellipse đế bao khuôn mặt, tách biệt vùng đầu và hình nền Tỷ lệ chính xác của thuật toán là 80%

Graf đưa ra một phương pháp khác đế xác định đặc trưng, từ đó xác định khuôn mặt trong ảnh xám [8] Dùng bộ lọc đế làm nối các biên, các phép toán hình thái học (morphology) được dùng đế làm nối bật các vùng có cường độ cao và hình dáng chắc chắn (như mắt) Thông qua Histogram đế tìm các đỉnh nối bật đế xác định các ngưỡng chuyến ảnh xám thành hai ảnh nhị phân Tiếp theo, ông xác định các ứng viên khuôn mặt nhờ vào các thành phần đều xuất hiện trong cả hai ảnh nhỉ phân, sau đó phân loại xem các ứng viên có phải là khuôn mặt không Phương pháp được kiếm tra và cho kết quả tốt trên các ảnh chỉ có đầu và vai của người Tuy nhiên phương pháp này còn một vấn đề đấy là sử dụng các phép toán Morphology như thế nào và làm sao xác định khuôn mặt trên các vùng ứng viên

Park dùng Gaze đế tìm ứng viên góc mắt, miệng và tâm mắt Ông xây dựng SVM (Support Vector Machine) đã được học trước đó để xác định các vị trí ứng viên có phải là góc mắt, miệng, và tâm mắt hay không đế theo vết con mắt người

Trang 35

Juan và Narciso xây dựng một không gian màu mới YCg’Cr’ đế lọc các vùng

là ứng viên khuôn mặt dựa trên sắc thái của màu da người Sau khi có ứng viên, hai ông dùng các quan hệ về hình dáng khuôn mặt, mức độ cân đối của các thành phần khuôn mặt đế xác định khuôn mặt người Tương tự, Chang và Hwang cũng dùng không gian mau Ycg’Cr’ với tỷ lệ chính xác hơn 80% trong ảnh xám Jin xây dựng một bộ lọc đế xác định ứng viên khuôn mặt người theo màu da người

Từ ứng viên này tác giả xác định khuôn mặt người theo hình dáng khuôn mặt

và các quan hệ đặc trưng về thành phần khuôn mặt, với mắt phải được chọn làm gốc tọa

độ đế xét quan hệ Tỷ lệ chính xác cho khuôn mặt chụp thẳng trên 80%

6.2 Kết cấu của khuôn mặt

Khuôn mặt con người có những kết cấu riêng biệt mà có thể dùng để phân loại

so với các đối tượng khác Augusteijn và Skufca cho rằng hình dạng của khuôn mặt dùng làm kết cấu phân loại, gọi là Kết cấu giống khuôn mặt (face-like texture) Tính kết cấu qua các đặc trưng thống kê thứ tự thứ hai (SGLD) trên vùng có kích thước 16×16 điểm ảnh Có ba loại đặc trưng được xem xét: màu da, tóc, và những thứ khác Hai ông dùng mạng neural về mối tương quan cascade cho phân loại có giám sát các kết cấu và một ánh xạ đặc trưng tự tổ chức Kohonen để gom nhóm các lớp kết cấu khác nhau Hai tác giả đề xuất dùng phương pháp bầu cử khi không quyết định được kết cấu đưa vào là kết cấu của da hay kết cấu của tóc

Manian và Ross dùng biến đổi wavelet để xây dựng tập dữ liệu kết cấu của khuôn mặt trong ảnh xám thông qua nhiều độ phân giải khác nhau kết hợp xác suất thông

kê để xác định khuôn mặt người Mỗi mẫu sẽ có chín đặc trưng Tỷ lệ chính xác là 87%,

tỷ lệ xác định sai là 18%

6.3 Màu sắc da

Thông thường các ảnh màu không xác định trực tiếp trên toàn bộ dữ liệu ảnh

mà các tác giả dùng tính chất sắc màu của da người (khuôn mặt người) đế chọn ra được các ứng viên có thế là khuôn mặt người (lúc này dữ liệu đã thu hẹp đáng kế) đế xác định khuôn mặt người

Trang 36

6.4 Đa đặc trưng

Gần đây có nhiều nghiên cứu sử dụng các đặc trưng toàn cục như: màu da người, kích thước, và hình dáng đế tìm các ứng viên khuôn mặt, rồi sau đó sẽ xác định ứng viên nào là khuôn mặt thông qua dùng các đặc trưng cục bộ (chi tiết) như: mắt, lông mày, mũi, miệng, và tóc Tùy mỗi tác giả sẽ sử dụng tập đặc trưng khác nhau

7 Hướng tiếp cận dựa trên so sánh khớp mẫu

7.1 Tư tưởng

Trong hướng tiếp cận dựa trên so sánh khóp mẫu, các mẫu chuẩn của khuôn mặt (thường là khuôn mặt được chụp thắng) sẽ được xác định trước hoặc được biếu diễn thành một hàm với các tham số cụ thế Từ ảnh đầu vào, ta tính các giá trị tương quan so với các mẫu chuẩn về đường viền khuôn mặt, mắt, mũi và miệng Thông qua các giá trị tương quan này mà hệ thống sẽ quyết định có hay không có tồn tại khuôn mặt trong ảnh Hướng tiếp cận này có lợi thế là rất dễ cài đặt, nhưng không hiệu quả khi tỷ lệ, tư thế,

và hình dáng thay đối Nhiều độ phân giải, đa tỷ lệ, các mẫu con, và các mẫu biến dạng được xem xét thành bất biến về tỷ lệ và hình dáng

Hướng tiếp cận này có thể đi theo phương pháp sau:

Xác định các mẫu

Sakai đã cố gắng thử xác định khuôn mặt người chụp thắng trong ảnh [20] Ông dùng vài mẫu con (sub template) về mắt, mũi, miệng, và đường viền khuôn mặt đế mô hình hóa một khuôn mặt Mỗi mẫu con được định nghĩa trong giới hạn của các đoạn thắng Các đoạn thằng trong ảnh được trích bằng cách xem xét thay đối của hệ số góc

và so khóp các mẫu con Đầu tiên tìm các ứng viên thông qua mối tương quan giữa các ảnh con và các mẫu về đường viền Sau đó, so khóp với các mẫu con khác Hay nói một cách khác, giai đoạn đầu xem như là giai đoạn sơ chế để tìm ứng viên, giai đọan thứ hai

là giai đoạn tinh chế để xác định ứng viên có phải là khuôn mặt hay không Ý tưởng này được duy trì cho đến các nghiên cứu sau này Craw đưa ra một phương pháp xác định khuôn mặt người dựa vào các mẫu về hình dáng của các ảnh được chụp thẳng (dùng vẻ

bề ngoài của hình dáng khuôn mặt) Đầu tiên dùng Phép lọc Sobel (Phép lọc Sobel dựa vào tích vô hướng của hai vector gradient) đế tìm các cạnh Các cạnh này sẽ được nhóm

Trang 37

lại theo một số ràng buộc Sau đó, tìm đường viền của đầu, quá trình tương tự được lặp

đi lặp lại với mỗi tỷ lệ khác nhau đế xác định các đặc trưng khác như: mắt, lông mày,

và môi Sau đó Craw mô tả một phương thức xác định dùng một tập có 40 mẫu đế tìm các đặc trưng khuôn mặt và điều khiến chiến lược dò tìm

Một số nhà nghiên cứu sử dụng hình chiếu như các mẫu đế xác định khuôn mặt người Silhouettes dùng PCA (Phân tích thành phần chính - Principal Component Analysis - PCA) đế có một tập hình chiếu cơ bản từ các mẫu khuôn mặt, hình chiếu được mô tả như một mảng các bít Sau đấy dùng đặc trưng hình chiếu kết hợp biến đối Hough đế xác định khuôn mặt người Phương pháp này định nghĩa một số giả thuyết đế

mô tả các khả năng của các đặc trưng khuôn mặt Với một khuôn mặt sẽ có một tập giả thuyết, gọi là lý thuyết DepsterShafer Dùng một nhân tố tin cậy đế kiếm tra sự tồn tại hay không của các đặc trưng của khuôn mặt, và kết họp nhân tố tin cậy này với một độ

đo đế xem xét có hay không có khuôn mặt trong ảnh Sinha dùng một tập nhỏ các ảnh bất biến trong không gian ảnh đế mô tả không gian các mẫu ảnh [15, 16] Tư tưởng chính của ông dựa vào sự thay đối mức độ sáng của các vùng khác nhau của khuôn mặt (như hai mắt, hai má, và trán), (quan hệ về mức độ sáng của các vùng còn lại thay đối không đáng kế) Sau đấy xác định các cặp tỷ số của mức độ sáng của một số vùng (một vùng tối hơn hay sáng hơn) cho ta một lượng bất biến khá hiệu quả Ông lưu sự thay đối

độ sáng của các vùng trên khuôn mặt trong một tập thích hợp với các cặp quan hệ sáng hơn - tối hơn giữa các vùng nhỏ Một khuôn mặt được xác định nếu nó thỏa mãn tất cả các cặp sáng hơn - tối hơn Ý tưởng này xuất phát từ sự khác biệt của cường độ giữa các vùng kề cục bộ trên ảnh, sau này nó được mở rộng trên cơ sở biến đối wavelet đế xác định người đi bộ, xác định xe hơi, xác định khuôn mặt Ý tưởng của Sinha còn được áp dụng trong các nghiên cứu về thị giác của robot Hình 1.2 cho thấy mẫu khuôn mặt với

16 cùng và 23 quan hệ Các quan hệ này được dùng để phân loại, có 11 quan hệ thiết yếu (các mũi tên màu đen) và 12 quan hệ xác thực (các mũi tên mầu xám) Mỗi mũi tên

là một quan hệ Một quan hệ của hai vùng thỏa mãn mẫu khuôn mặt khi tỷ lệ giữa hai vùng vượt qua một ngưỡng và một khuôn mặt được xác đỉnh khỉ có 23 quan hệ thỏa mãn điều kiện trên

Trang 38

Mẫu khuôn mặt có kích thước 14 X 16 pixel được sử dụng trong phương pháp định vị khuôn mặt của Sỉnha Mầu gồm 16 vùng trên khuôn mặt và 23 quan hệ (các mũi tên)

Một số phương pháp khác như của Froba và Zink lọc canh ở độ phân giải thấp rồi dủng biến đổi Hough để so khớp mẫu theo hướng cạnh để xác định hình dáng khuôn mặt ở dạng chụp hình thẳng ở dạng xám Tỷ lệ chính xác trên 91% Ngoài ra Shu và Jain còn xây dựng ngữ nghĩa khuôn mặt Ngữ nghĩa xây dựng theo hình dáng và vị trí các thành phần khuôn mặt Hai ông từ bộ ngữ nghĩa này tạo một đồ thị quan hệ để dễ dàng

so khớp khi xác định khuôn mặt người

Các mẫu biến dạng

Yuille dùng các mẫu biến dạng để mô hình hóa các đặc trưng của khuôn mặt[3] Trong hướng tiếp cận này, các đặc trưng khuôn mặt được mô tả bằng các mẫu được tham số hóa và có một hàm năng lượng (giá trị) được để liên kết các cạnh, đỉnh,

và thung lũng trong ảnh để tương ứng với các tham số trong mẫu Mô hình này tốt nhất khi tối thiểu hàm năng lượng qua cảc tham số, Mặc dù có kết quả tốt nhưng phương phảp này có một số hạn chế đó lầ các mẫu biến dạng phải được khởi tạo trong phạm vỉ gần với các đối tượng mầ nó xác định Rất nhiều hướng tiếp cận dựa trên dường gấp khúc (snake) và các mẫu để xác định khuôn mặt Đầu tiên ảnh sẽ được làm xoắn lại bởi một lọc làm mờ rồi dùng phép toán Morphology để làm nổi bật lên Tiếp theo dùng một

Hình 1.2 Một mẫu khuôn mặt

Trang 39

đường gấp khúc có n điểm ảnh (giá trị n nhỏ) để tìm và ước lượng các đoạn cong nhỏ Mỗi khuôn mặt được xấp xỉ bằng một ellipse và biến đổi Hough, rồi tìm một ellipse nổi trội nhất Các ứng viên sẽ có bốn tham số mô tả một ellipse (để xác định khuôn mặt) Với mỗi ứng viên, một phương thức tương tự như phương thức mẫu biến dạng được dùng để xác định các đặc trưng ở mức chi tiết Nếu tìm thấy số lượng đáng kể các đặc trưng khuôn mặt và thỏa mãn tỷ lệ cân đối thì xem như đã xác định được một khuôn mặt Lam và Yan cũng dùng đường gấp khúc để xác định vị trí đầu với thuất toán greedy

để cực tiểu hóa hàm năng lượng [11]

Thay vì dùng đường gấp khúc thì Huang và Su [6] dùng lý thuyêt dòng chảy đê xác đinh đường viền khuôn mặt dựa trên đặc tính hình học Hai ông dùng lý thuyết tập họp đồng mức (Level Set) để loang từ các khởi động ban đầu để có được các khuôn mặt người

Lanitis mô tả một phương pháp biểu diễn khuôn mặt người với cả hai thông tin: hình dáng và cường độ [12] Bắt đầu bằng các tập ảnh được huấn luyện với các đường viền mẫu như là đường bao mắt, mũi, cằm/má đã được gán nhãn (phân loại) Ông dùng một vector các điếm mẫu đế mô tả hình dáng Sau đó dùng một Mô hình phân bố điếm (Point Distribution Model - PDM) đế mô tả vector hình dáng qua toàn bộ các cá thế Dùng cách tiếp cận như của Kirby và Sirovich [14] đế mô tả cường độ bề ngoài của hình dáng đã được chuẩn hóa Đe tìm kiếm và ước lượng vị trí khuôn mặt cũng như các tham

số về hình dáng ông sử dụng một mô hình PDM có hình dáng như khuôn mặt (xác định khuôn mặt bằng Mô hình hình dáng tích cực - Active Shape Model - ASM) Các mảnh của khuôn mặt được làm biến dạng về hình dáng trung bình rồi trích lấy các tham số cường độ Sau đấy các tham số hình dáng và cường độ được dùng để phân loại và xác định khuôn mặt

8 Hướng tiếp cận dựa trên diện mạo

8.1 Tư tưởng

Trái ngược với các phương pháp so khớp mẫu với các mẫu đã được định nghĩa trước bởi những chuyên gia, các mẫu trong hướng tiếp cận này được học từ các ảnh mẫu Một các tổng quát, các phương pháp theo hướng tiếp cận này áp dụng các kỹ thuật theo hướng xác suất thống kê và máy học để tìm những đặc tính liên quan của khuôn

Trang 40

mặt và không phải là khuôn mặt Các đặc tính đã được học ở trong hình thái các mô hình phân bố hay các hàm biệt số nên dùng có thể dùng các đặc tính này để xác định khuôn mặt người Đồng thời, bài toán giảm số chiều thường được quan tâm để tăng hiệu quả tính toán cũng như hiệu quả xác định

Có nhiều phương pháp áp dụng xác suất thống kê để giải quyết Một ảnh hay một vector đặc trưng xuất phát từ một ảnh được xem như một biến ngẫu nhiên x, và biến ngẫu nhiên có đặc tính là khuôn mặt hay không phải khuôn mặt bởi công thức tính theo các hàm mật độ phân lớp theo điều kiện

P(x | khuôn mặt) và P(x | ~ khuôn mặt)

Có thể dùng phân loại Bayes hoặc khả năng cực đại để phân loại một ứng viên

là khuôn mặt hay không phải là khuôn mặt Không thể cài đặt trực tiếp phân loại Bayes

bởi vì số chiều của x khá cao, bởi vì P(x|khuôn mặt) và P(x|không phải khuôn mặt) là

đa phương thức, và chưa thể hiểu nếu xây dựng các dạng tham số hóa một cách tự nhiên

cho P(x|khuôn mặt) và P(x|không phải khuôn mặt) Có khá nhiều nghiên cứu theo hướng

tiếp cận này quan tâm xấp xỉ có tham số hay không có tham số cho P(x | khuôn mặt) và P(x | không phải khuôn mặt)

Các tiếp cận khác trong hướng tiếp cận dựa trên diện mạo là tìm một hàm biệt

số (như: mặt phẳng quyết định, siêu phẳng để tách dữ liệu, hàm ngưỡng) để phân biệt hai lớp dữ liệu: khuôn mặt và không phải khuôn mặt Bình thường, các mẫu ảnh được chiếu vào không gian có số chiều thấp hơn, rồi sau đó dùng một hàm biệt số (dựa trên các độ đo khoảng cách) để phân loại, hoặc xây dựng mặt quyết định phi tuyến bằng mạng neural đa tầng Hoặc dùng SVM (Support Vector Machine) và các phương thức Kernel, chiếu hoàn toàn các mẫu vào không gian có số chiều cao hơn để dữ liệu bị rời rạc hoàn toàn và ta có thể dùng một mặt phẳng quyết định phân loại các mẫu khuôn mặt

và không phải khuôn mặt [5]

8.2 Một số phương pháp cụ thế trong hướng tiếp cận dựa trên diện mạo

Có rất nhiều phương pháp học máy được sử dụng trong hướng tiếp cận dựa trên diện mạo Trong phần này chỉ nêu ra một số phương pháp cùng những nghiên cứu liên

Ngày đăng: 16/08/2020, 10:44

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w