1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng cảm xúc mặt người

97 11 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 97
Dung lượng 14,8 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hệ thống có thể tự động nhận dạng mặt người trong một dòng video thực bằng phương pháp tăng cường thích nghi Adaboost và tiếp tục trích đặc trưng những cảm xúc của mặt người bằng phương

Trang 1

BỘ MÔN ĐIỀU KHIỂN TỰ ĐỘNG

-

LUẬN VĂN THẠC SĨ NHẬN DẠNG CẢM XÚC MẶT NGƯỜI

SVTH: VÕ LÊ TRƯỜNG PHI MSHV: 01506737

GVHD: TS TRƯƠNG ĐÌNH CHÂU

TP Hồ Chí Minh, 01 / 2009

Trang 2

TÓM TẮT NỘI DUNG

Cùng với sự phát triển của khoa học kỹ thuật trên thế giới, thị giác máy tính ngày càng phát triển , dần trở thành một lĩnh vực được nhiều nhà nghiên cứu quan tâm Cùng với sự phát triển đó, thị giác máy tính cho robot trở thành đề tài nóng bỏng gây chú ý nhiều cho các nhà khoa học lớn trên thế giới

Trong quá khứ, chúng ta thường nghĩ robot chỉ là một cái máy, được lập trình và hoạt động cứng nhắc theo chương trình sẵn có, chỉ giao tiếp được với con người qua bàn phím, chuột, màn hình Tuy nhiên, ngày nay, với sức mạnh của các

bộ vi xử lý ngày càng được cải thiện, đã cho phép robot giao tiếp với con người theo một cách mới, đó là hình ảnh (thị giác) và âm thanh Có thể, trong một tương lai xa, robot có thể “nhìn thấy” con người xung quanh nó và giao tiếp lại một cách rất “người” như thể hiện cảm xúc, điệu bộ

Trong luận văn này, tác giả trình bày những kết quả nghiên cứu nhằm điều khiển robot có tính cách người hơn (humanoid robot), nghĩa là robot có thể hiểu được cảm xúc và cử chỉ của con người Để thực hiện ý tưởng đó, đòi hỏi chúng ta tạo cho robot một Hệ Thống Tự Động Nhận Biết Cảm Xúc Mặt Người Hệ thống có thể tự động nhận dạng mặt người trong một dòng video thực bằng phương pháp tăng cường thích nghi (Adaboost) và tiếp tục trích đặc trưng những cảm xúc của mặt người bằng phương pháp eigenface, dựa trên các đặc trưng vị trí hình học như lông mày, để phân loại cảm xúc tác giả đã dùng phương pháp mạng neural

Trang 3

ABSTRACT

Along with the development of science and technology in the world, computer vision developed increasingly, gradually became a field for many researchers interested in Along its development, computer vision for the robot becomes hot topic cause of much attention to the famous scientists in the world

In the past, we thought about of robots were just machines, ‘re programmed and worked hard promptly by the available programs They only communicate to people through keyboard, mouse, screen However, nowadays, thanks to power of the high-speed computer, allowing robot has been communicating to people in a new way, it is the images (vision) and sound Maybe, in new future, robots can

"see" people around them and communicate to us in a “very like-people" robots named “Expressed Emotions, Gestures”

To discover this problems, the author presented the results of researching in order to control the robot as more like-people (humanoid) robots, means that robots can understand the emotions and gestures of humans To make the ideas concerning that, requires us to create a robot for “Facial Emotion Recognition System” The system can identify automatically facial in a video stream on the Strengthening Adapted (Adaboost) algorithms and continue extrating the emotional features of the people on the eigenfaces, based on the specific locations that contain features as eyebrow, mouth, nose, … to classify emotions, author uses the Neural Network method

Trang 4

MỤC LỤC

CHƯƠNG 1 7

GIỚI THIỆU 7

1 ĐẶTVẤNĐỀ 7

2 NHỮNGCÔNGTRÌNHNGHIÊNCỨULIÊNQUAN 8

2.1 Luận văn về các phương pháp nhận dạng mặt người 8

2.2 Nhận dạng mặt người dùng gabor wavelets 9

2.3 Mạng neural nhận dạng mặt người 10

2.4 Hệ thống chuyên gia cho phân tích tự động cảm xúc 11

2.5 Hệ thống trích đặc trưng cảm xúc tự động 12

2.6 Hệ thống nhận diện cảm xúc dựa trên fed (facial expression dictionary) 12

2.7 Hệ thống mã hoá cảm xúc (facial action coding system-facs) 13

3 KẾTLUẬN 14

CHƯƠNG 2 16

MỤC TIÊU CỦA LUẬN VĂN 16

CHƯƠNG 3 17

CƠ SỞ LÝ THUYẾT VỀ THUẬT TOÁN NHẬN DẠNG 17

1 LÝ THUYẾT VỀ ẢNH SỐ 17

1.1 Khái niệm 17

1.2 Khái niệm về phần tử ảnh 19

1.3 Cấu trúc một file ảnh 19

1.4 Ảnh xám 20

1.5 Ảnh trắng đen hay ảnh nhị phân 20

1.6 Ảnh màu và mô hình màu RGB 20

1.7 Hệ toạ độ pixel mặt người 21

1.8 Mục đích của việc xử lý ảnh số 22

2 CÁC PHƯƠNG PHÁP PHÁT HIỆN HÌNH ẢNH MẶT NGƯỜI 23

2.1 Phát hiện dựa trên ảnh 24

2.2 Phát hiện dựa trên dạng hình học 24

2.3 Phương pháp đặc trưng Haar-like và tăng tốc thích nghi nhanh AdaBoost – phương pháp sử dụng trong luận văn 26

3 TRÍCH ĐẶT TRƯNG BẰNG PHƯƠNG PHÁP EIGENFACES PCA – PHƯƠNG PHÁP SỬ DỤNG TRONG LUẬN VĂN 35

3.1 Phương pháp Eigenfaces PCA 35

3.2 Xây dựng Eigenfaces với PCA 38

3.3 Biến đổi ảnh mặt thành vector 39

3.4 Không gian ảnh 40

3.5 Xây dựng Eigenfaces 41

Trang 5

3.6 Xây dựng ảnh từ các Eigenfaces 46

3.7 Xây dựng lại trạng mặt với PCA 47

4 MẠNG NEURON CHO NHẬN DẠNG TRẠNG THÁI MẶT 48

4.2 Mạng truyền thẳng một lớp (mạng perceptron đơn giản) 49

4.3 Mạng perceptron nhiều lớp và thuật toán lan truyền ngược – thuật toán huấn luyện dùng trong luận văn 57

CHƯƠNG 4 67

GIẢI THUẬT & KẾT QUẢ 67

1 XÂY DỰNG GIẢI THUẬT CHƯƠNG TRÌNH: 67

2 CHƯƠNG TRÌNH MATLAB: 68

3 KẾT QUẢ CHƯƠNG TRÌNH 73

CHƯƠNG 5 92

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 92

1 KẾTLUẬN 92

2 HẠNCHẾCHƯƠNGTRÌNH 92

3 HƯỚNGPHÁTTRIỂN: 92

TÀI LIỆU THAM KHẢO 93

LÝ LỊCH TRÍCH NGANG 96

Trang 6

DANH SÁCH HÌNH SỬ DỤNG TRONG LUẬN VĂN

Hình 1 Các cảm xúc trên gương mặt người

Hình 2 Sơ đồ khối nhận dạng mặt người bằng DCT

Hình 3 Sơ Đồ Trích Đặc Trưng Bằng Gabor Wavelets

Hình 4 Thuật toán neural nhận dạng mặt người

Hình 5 Mô Hình Mặt Người Của Kobayashi Và Hara

Hình 6 Giao Diện Của FED (Facial Expression Dictionary)

Hình 7 Hệ Thống Mã Hoá Cảm Xúc (FACS)

Hình 8 Hệ thống nhận dạng cảm xúc tự động theo thời gian thực

Hình 9 Mảng hai chiều của một file ảnh

Hình 10 Mô hình màu RGB

Hình 11 Hệ toạ độ pixel

Hình 12: Các đặc trưng cạnh

Hình 13: Các đặc trưng đường

Hình 14: Các đặc trưng bao quanh tâm

Hình 15: Đặc trưng đường chéo

Hình 16: Tổng các giá trị pixel nằm trong vùng A

Hình 17: Ảnh chia nhỏ tại tọa độ (x,y)

Hình 18: Lược đồ cơ bản của AdaBoost

Hình 19: Thuật toán học AdaBoost

Hình 20: Dùng chuỗi cascade đã được huấn luyện để phát hiện cửa sổ con phù hợp Hình 21: Cấu trúc các chuỗi cascade song song

Hình 22: Mô hình tác vụ phát hiện vật thể dùng chuỗi cascade

Hình 23: Ảnh dùng cho việc huấn luyện

Hình 24: Bảy eigenface được tính toán từ ảnh ngõ vào

Hình 25: Ảnh minh họa không gian mặt

Hình 26: ảnh trung bình

Hình 27: Sơ đồ thuật khối phân loại cảm xúc bằng mạng neural

Trang 7

Hình 28: Trình trự phân loại trạng thái mặt với PCA

Hình 29: Mạng neural nhân tạo

Hình 30: Mạng một lớp chỉ một neural ở ngõ ra hay một perceptron

Hình 31: Mặt phẳng quyết định của một perceptron

Hình 32: Sai số với các trọng số khác nhau

Hình 33: Hàm ngưỡng Sigmoid

Hình 34: Sơ đồ giải thuật chương trình

Trang 8

CHƯƠNG 1 GIỚI THIỆU

1 ĐẶT VẤN ĐỀ

- Trong quá khứ, chúng ta thường nghĩ robot chỉ là một cái máy, được lập

trình và hoạt động cứng nhắc theo chương trình sẵn có, chỉ giao tiếp được với con người qua bàn phím, chuột, màn hình Tuy nhiên, ngày nay, với sức mạnh của các bộ vi xử lý ngày càng được cải thiện, đã cho phép robot giao tiếp với con người theo một cách mới, đó là hình ảnh (thị giác) và âm thanh

Có thể, trong một tương lai xa, robot có thể “nhìn thấy” con người xung quanh nó và giao tiếp lại một cách rất “người” như thể hiện cảm xúc, điệu

bộ, ….vv Vì thế, nhiều dự án ở nước ngoài đã được nghiên cứu nhằm điều

khiển robot có tính cách người hơn (humanoid robot), nghĩa là robot có thể

hiểu được cảm xúc và cử chỉ của con người Để thực hiện ý tưởng đó, đòi hỏi

chúng ta tạo cho Robot một Hệ Thống Tự Động Nhận Biết Cảm Xúc Mặt Người Song song với điều đó việc ứng dụng nhận dạng trạng thái con người

trong điều tra tội phạm cũng là vấn đề đáng được quan tâm rất nhiều Hệ thống có thể tự động nhận dạng mặt người trong một dòng video thực và tiếp tục nhận dạng những cảm xúc của mặt người trong thời gian thực Nói cách khác, hệ thống tự động kiểm tra mặt người và nhận dạng ra các cảm xúc mặt người: vui mừng (Joy), buồn (sadness), bất ngờ (suprise), giận dữ (angry), sợ sệt (fear), bình thường (neural),…v.v

Hình 1 Các cảm xúc trên gương mặt người 1.Giận dữ, 2.Kinh tởm, 3.Sợ hải, 4.Hạnh phúc, 5.Buồn, 6.Ngạc nhiên

Trang 9

- Ứng dụng: Nếu một robot có khả năng nhận biết được cảm xúc của con

người, nó sẽ rất có ích trong lĩnh vực y tế nói chung, ví dụ như: chế tạo robot

chăm sóc người bệnh, người già,…vv [1]

2 NHỮNG CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN

- Phần này sẽ trình bày các bài báo và luận văn mà tác giả đã tham khảo, để có

được một cái nhìn tổng quan về các công trình nghiên cứu liên quan trong nước và nước ngoài trong lĩnh vực nhận dạng mặt người và cảm xúc của gương mặt

2.1 Luận văn về các phương pháp nhận dạng mặt người

Các nghiên cứu ở trong nước cũng như nước ngoài về các phương pháp nhận dạng mặt người được tiến hành rất phổ biến trong những năm gần đây Dưới đây tổng quan một số đặc điểm về các nghiên cứu

- Theo [2], tác giả giới thiệu phương pháp nhận dạng mặt người truyền thống:

Nhận Dạng Mặt Người Dùng Mạng Neural Bằng Biến Đổi DCT (Discrete

Cosine Transform)

- DCT, một kỹ thuật nén ảnh được sử dụng rộng rãi, cho phép hiện diện tất cả

các thành phần quan trọng nhất của khuôn mặt (tóc, mắt, miệng, mũi) với một số lượng nhỏ thành phần tần số thấp Sau khi DCT được áp dụng cho một hình ảnh, các hệ số được lựa chọn được đưa đến một mạng nơron nhân tạo nhiều lớp (ANN) Bởi vì chỉ dùng một lượng nhỏ các hệ số nên tốc độ huấn luyện và nhận dạng sẽ rất cao

- Tác giả dùng cơ sở dữ liệu ảnh gồm 400 ảnh khác nhau, cho 40 người khác

nhau, kích thước mỗi ảnh là 112-92 pixel mặt người, với 256 mức xám cho mỗi pixel mặt người

- Một hệ thống nhận dạng mặt người bao gồm các công đoạn như hình 2

Trang 10

ảnh

Hình 2 Sơ đồ khối nhận dạng mặt người bằng DCT

- Nhận mặt người trong luận văn này, chủ yếu tác giả nhận dạng mặt người

trên cơ sở dữ liệu ảnh có sẵn (ảnh gray, kích thước 112x92), là các ảnh tĩnh chưa tập trung vào nhận dạng mặt người theo thời gian thực, ví dụ: ảnh động

từ video hay webcam, vì phương pháp nhận dạng tốc độ còn chậm

2.2 Nhận dạng mặt người dùng gabor wavelets

- Theo [3], tác giả đề cập phương pháp gabor wavelets được sử dụng để xây

dựng các vector đặc trưng vì nó có khả năng miêu tả tốt cách xử lý của các lĩnh vực dễ tiếp thu trong hệ thống trực quan của con người Phương pháp chọn các đỉnh (các điểm năng lượng cao) của đáp ứng Gabor làm điểm đặc trưng

Tiền xử

Phát hiện đặc trưng Nhận dạng

mặt

Kết quả nhận dạng

Trang 11

Hình 3 Sơ Đồ Trích Đặc Trưng Bằng Gabor Wavelets

- Nhận mặt người luận văn này cũng giống luận văn trên, chỉ nhận dạng mặt

người trên một cơ sở ảnh sẵn có và là ảnh tĩnh nên chỉ chủ yếu áp dụng cho các ngành an ninh, …vv , khó có thể áp dụng cho giao tiếp giữa người và robot Vì Robot cần nhận dạng mặt người để làm một việc cụ thể hơn, ví dụ: nhận dạng cảm xúc của gương mặt đó trong hình ảnh động (camera, webcam) để xử lý điều chỉnh các hoạt động của mình

2.3 Mạng neural nhận dạng mặt người

- Trong [4], các tác giả trình bày phương pháp để nhận dạng mặt người bằng

mạng neural trong các hình ảnh xám Thuật toán và phương pháp huấn luyện

có thể mô tả như hình sau đây:

Trang 12

Hình 4 Thuật toán neural nhận dạng mặt người

- Chương trình hoạt động theo 2 giai đoạn Thành phần đầu tiên là neural

network-based filter nhận vùng ảnh 20x20 pixel Đầu ra là khẳng định hay không khẳng định cho sự hiện diện hay sự không hiện diện gương mặt trong cửa sổ phụ (sub-window) Để kiểm tra các gương mặt lớn hơn cửa sổ, thì hình ảnh sẽ được thu nhỏ lại Trước khi 20x20 pixes vượt qua mạng nơron,

nó được chỉnh độ sáng và cân bằng histogram

2.4 Hệ thống chuyên gia cho phân tích tự động cảm xúc

- Trong [5], Rothkrantz đang làm việc để phát triển một hệ thống tự động cho

việc phân tích các giao tiếp không lời Kết quả nghiên cứu là một hệ thống nhận dạng cảm xúc (ISFER) Sự khác biệt với các hệ thống nhận dạng cảm xúc khác là người ta thường dùng một kỹ thuật xử lý ảnh đơn lẻ thì ở đây tác giả dùng một biện pháp ghép nối các phương pháp được áp dụng Thay vì tìm cách cải tiến các phương pháp nhận dạng cảm xúc, tác giả đã ghép nối các kỹ thuật này chạy song song Tuy nhiên hệ thống này chỉ làm việc với

ảnh tĩnh Mô hình gương mặt là một mô hình 2D

Trang 13

2.5. Hệ thống trích đặc trưng cảm xúc tự động

- Theo [6], tác giả đã phát triển một mô hình gương mặt 3D face robot cho sự

tương tác thời gian thực với con người Để phản ứng hợp lý, robot phải nhận biết được cảm xúc của con người Mô hình mặt dùng cho hệ thống này mô hình Kobayashi và Hara

Hình 5 Mô Hình Mặt Người Của Kobayashi Và Hara

- Từ mô hình trên, tác giả giả sử một gương mặt với 29 điểm mô tả cảm xúc

Sự chuyển động của các đặc điểm sẽ chỉ ra cảm xúc của gương mặt Những điểm này được dùng cho việc nhận dạng cảm xúc

2.6 Hệ thống nhận diện cảm xúc dựa trên fed (facial expression dictionary)

- Trong [7], Edwin Jde Jongh đã tạo ra Hệ thống FED - một từ điển online

cảm xúc gương mặt, có giao diện như sau:

Trang 14

Hình 6 Giao Diện Của FED (Facial Expression Dictionary)

- FED hoạt động như sau: người dùng phải định bằng tay vị trí gương mặt và

các điểm mô tả cảm xúc (FCPs) của mô hình Haar face Sau khi chọn bằng tay và đồng ý với các điểm này thì hệ thống sẽ cho ra nhận dạng cảm xúc của người đó

- Nhận mặt người từ nguyên tắc hoạt động trên, ta thấy FED có khuyết điểm là

(không tự động nhận dạng cảm xúc, cũng như chỉ xử lý với ảnh tĩnh

2.7 Hệ thống mã hoá cảm xúc (facial action coding system-facs)

- Theo [8], Ekman đã phát triển hệ thống mã hóa cho các cảm xúc của gương

mặt với sự chuyển động của gương mặt FACIAL ACTION CODING SYSTEM (FACS) được mô tả bằng đơn vị hoạt động (action units (AU)) Mỗi AU liên quan đến một nhóm cơ mặt

- Cơ bản, FACS chia gương mặt ra vùng cảm xúc trên và vùng cảm xúc dưới

Trang 15

• Ngoài nước:

 Các đề tài nghiên cứu ở nước ngoài, các tác giả đã và đang phát triển những hệ thống tự động nhận dạng cảm xúc mặt người khác nhau bằng các phương pháp mới và hiệu quả như: Adaboost, HMMs, TAN,

NB, Neutral, Facts ,…v.v Mỗi phương pháp có ưu và nhiệt điểm

Trang 16

riêng, có kết quả đạt khoảng 80%-90% Tuy nhiên, đa số các chương

trình này được phát triển tại các phòng thí nghiệm lớn của các đại học

danh tiếng của thế giới, được đầu tư lớn và có cả một đội ngũ tham gia nghiên cứu, lập trình, phát triển Sau đây là địa chỉ trang web [9]

mà chúng ta có thể tham khảo, là nơi để trao đổi giữa các phòng thí

nghiệm về các kết quả đạt được

- Ngoài ra, theo ý kiến riêng của tác giả, các phòng thí nghiệm đa số chỉ báo

cáo kết quả đạt được và trình bày sơ lược về các thuật toán, thiếu nhiều thông tin hướng dẫn thực hiện báo cáo, cũng như các chương trình demo trình chiếu Điều này đã gây ra rất nhiều khó khăn cho những ai mới tham gia vào hướng nghiên cứu này như: tốn nhiều thời gian để nghiên cứu và xây dựng lại chương trình và thí nghiệm, v.v

- Kế tiếp, các chương trình này đa phần là xây dựng cho các ứng dụng an ninh,

chống khủng bố, ví dụ: các chương trình được xây dựng trên cơ sở: một camera được đặt cố định trong nhà hay siêu thị, v.v với các điều kiện tốt về ánh sáng, mặt người khả nghi nhận dạng được sẽ được phân tích cảm xúc và

so với một database mặt người để nhằm phát hiện tên, tuổi và dự đoán các hành động của người đó Hướng ứng dụng này hơi khác với hướng ứng dụng cho robot Vì môi trường hoạt động của robot có thể là ngoài trời và di chuyển nên cần một chương trình đơn giản, xử lý nhanh và cho kết quả tương đối nếu các điều kiện về ánh sáng thay đổi

Trang 17

CHƯƠNG 2

MỤC TIÊU CỦA LUẬN VĂN

- Từ mục tiêu điều khiển robot có thể hiểu và giao tiếp với con người trong

thời gian thực và xác định ứng nhiều trong an ninh phát hiện tội phạm, hỏi cung tội phạm, mà cụ thể là việc nhận dạng cảm xúc trên gương mặt người,

đề tài sẽ tập trung nghiên cứu Hệ Thống Tự Động Nhận Dạng Cảm Xúc Mặt Người Trong Thời Gian Thực và Nhận Dạng Ảnh Tĩnh theo sơ đồ

sau:

Hình 8 Hệ thống nhận dạng cảm xúc tự động theo thời gian thực

- Vì thế các bước thực hiện chương trình luận văn được xác định như

sau:

 Thu nhận hình ảnh động từ webcam hoặc ảnh từ file

 Cộng ảnh mặt vào cơ sở dữ liệu

 Nhận dạng những cảm xúc cơ bản của mặt người : vui, buồn, bất ngờ, bình thường, v.v

 Vẽ một gương mặt robot để thể hiện robot hiểu ra sao các cảm xúc cơ bản của gương mặt nhận dạng

Webcam

Nhận dạng mặt người Nhận dạng cảm xúc Hiển thị kết quả Ảnh từ

file

Trang 18

CHƯƠNG 3

CƠ SỞ LÝ THUYẾT VỀ THUẬT TOÁN NHẬN DẠNG

1 LÝ THUYẾT VỀ ẢNH SỐ

1.1 Khái niệm

- Khái niệm về ảnh số xuất hiện từ năm 1964 Chẳng bao lâu, một nhánh mới

của khoa học gọi là xử lý ảnh số ra đời Kể từ đó, liên tục phát triển và tạo ra các kỹ thuật quan trọng ảnh hưởng trực tiếp đến các lĩnh vực truyền thông, tivi, kỹ xảo đồ hoạ ,

- Xử lý ảnh là một trong các vấn đề ngày nay được thế giới quan tâm, nghiên

cứu và ứng dụng Ở Việt Nam, vấn đề xử lý ảnh cũng được quan tâm và nghiên cứu trong thời gian gần đây

- Cùng với sự phát triển mạnh mẽ của máy tính số, xử lý ảnh số với sự hỗ trợ

của máy tính cũng được phát triển và có nhiều ứng dụng Các ứng dụng cụ thể như: Trong lĩnh vực truyền hình, cũng như việc lấy hình ảnh từ vệ tinh về trái đất thì ảnh có thể giảm chất lượng do tác động của nhiễu từ môi trường hay nhiễu trong các thiết bị xuất nhập Trong đo đạc bản đồ phục vụ cho việc xây dựng các bản đồ, trong quá trình chụp ảnh đôi khi bản đồ bị mờ, nhoè hoặc bị nhiễu do điều kiện khách quan của môi trường chụp Do đó việc xử

lý khôi phục lại ảnh gốc là rất quan trọng

- Vấn đề xử lý hình ảnh bằng kỹ thuật số đã được quan tâm, có thể tóm tắt các

hướng nghiên cứu chính trong xử lý hình ảnh bằng phương pháp số như sau:

• Mã hoá, xấp xỉ và nén hình ảnh (digitalization, approximation, compression)

• Khôi phục ảnh, làm nổi bật các đặc trưng lọc, biến đổi, tạo lại hình ảnh (restoration , filtering , enhancement , transforms , reconstruction)

Trang 19

• Nhận dạng hình ảnh (pictorial pattern recognition)

• Các đặc trưng phân đoạn, phân tích ảnh (feature detection, segmentation image analysis)

• Ghép (matching) và biến đổi thời gian (time varying imaging)

• Tạo dạng và mẫu (shape, pattern)

- Hình ảnh của một đối tượng là sự sao chụp lại đối tượng đó Qua hình ảnh

mắt ta cảm thụ hình ảnh một cách gián tiếp Ảnh được hình thành qua hệ thống ảnh Trong thực tế ảnh sao chụp không phải là lý tưởng, ảnh bị méo, sai lệch với nhiều mức độ khác nhau, vì vậy việc xử lý khôi phục hình ảnh là nhằm khôi phục lại ảnh nguyên gốc theo một tiêu chuẩn nào đó

- Khôi phục là quá trình so sánh một hình ảnh nào đó với một tập các hình ảnh

chuẩn Khôi phục các hình ảnh giảm chất lượng (do chụp và ghi nhận trong điều kiện không thuận lợi hoặc do lưu trữ lâu ngày) bằng phương pháp số cho hiệu quả cao và nhanh (trong nhiều trường hợp không thể giải quyết bằng phương pháp tương tự )

- Hình ảnh được phân vào hai loại:

 Hình ảnh tĩnh (static image)

 Hình ảnh động (dynamic image)

- Hình ảnh được biểu diễn theo nhiều chiều (hai hoặc ba chiều) Tất nhiên hình

ảnh nhiều chiều sẽ phức tạp hơn hình ảnh một chiều khi biểu diễn và xử lý

- Xử lý hình ảnh là thực hiện các phép toán lên các tín hiệu số của hình ảnh

Khối lượng thông tin trong một bức ảnh là rất lớn (đến vài trăm mêga bít/ảnh) Bản chất các thông số ảnh có tính vector Để xử lý với tốc độ nhanh cần có yêu cầu thích hợp về dung lượng bộ nhớ, các phương pháp mã hoá có hiệu quả, giảm độ dư thừa về thông tin trong ảnh và các thuật toán xử lý nhanh

Trang 20

1.2. Khái niệm về phần tử ảnh

- Ảnh trong thực tế liên tục về không gian và độ sáng, để ảnh có thể xử lý

bằng máy tính ta cần thiết phải số hoá ảnh Quá trình này, người ta biến đổi tín hiệu tương tự thành tín hiệu rời rạc thông qua quá trình lấy mẫu (rời rạc

về không gian) và lượng thành phần giá trị mà về mặt nguyên tắc bằng mắt

thường không phân biệt được hai điểm liền kề nhau Quá trình này người ta

sử dụng khái niệm phần tử ảnh mà ta thường gọi là pixel, nó là phần tử nhỏ nhất của ảnh Như vậy, một ảnh là một tập hợp các pixel

- Một ảnh số là một mảng các điểm ảnh được số hoá và đưa vào bộ nhớ của

máy tính Một số nhị phân chứa trong mỗi điểm ảnh thể hiện cường độ hay bước sóng ánh sáng trong ảnh

- Độ phân giải của một ảnh là khu vực của mỗi điểm ảnh, thông thường nó là

số điểm ảnh trên mỗi hàng của ảnh, nó là một hàm của khoảng cách từ camera đến khung nhìn, chiều dài hội tụ của thấu kính và số điểm ảnh mỗi hàng của ảnh Như màn hình máy tính có nhiều loại với độ phân giải khác nhau: màn hình CGA có độ phân giải 320x200, màn hình VGA là 640x350

1.3 Cấu trúc một file ảnh

- Tổng quát, một file ảnh là một tập hợp nhiều điểm ảnh, mỗi điểm ảnh được

hiểu như thế nào còn tuỳ vào file ảnh đó là màu hay xám, nhưng cơ bản ảnh

Trang 21

Hình 9 Mảng hai chiều của một file ảnh

1.4. Ảnh xám

- Với ảnh này, mỗi pixel được xác định bằng cặp toạ độ (x,y) Vậy toàn bộ ảnh

là mảng 2 chiều mà giá trị của mỗi phần tử mảng chính là giá trị mức xám từ

0 đến 255

1.5. Ảnh trắng đen hay ảnh nhị phân

- Anh trắng đen cũng tương tự như ảnh xám, chỉ khác ở chỗ ảnh trắng đen chỉ

có hai mức xám là 0 (trắng) và 1 (đen)

- Màu của một pixel được xây dựng trên nhiều mô hình: RGB, HSV

1.6. Ảnh màu và mô hình màu RGB

- Màu của một pixel được xây dựng trên nhiều mô hình: RGB, HSV

- Ánh sáng trắng được hình thành từ bảy màu khác nhau: đỏ, cam, vàng, lục,

lam, chàm, tím Các màu này tạo nên một dãy màu liên tục mà ta không thấy được ranh giới giữa chúng Nhưng mặt ngườit về cấu tạo của mắt và việc nhìn thì tất cả các màu đều được liên kết bởi các màu cơ bản sau:

 Red :λ(R) = 700nm

 Green : λ(G) = 546.1 nm

 Blue : λ(B) = 435.8 nm

- Trong mô hình RGB, mỗi màu xuất hiện trong các thành phần phổ sơ cấp R,

G và B Mô hình dựa trên cơ sở hệ thống toạ độ Cartesian(toạ độ Decca)

Trang 22

Hình 10 Mô hình màu RGB

- Các màu R,G,B nằm ở đỉnh của khối lập phương Màu lam-lục, đỏ-lam, vàng

nằm ở ba đỉnh bên kia của khối lập phương Màu đen nằm ở gốc toạ độ Màu trắng nằm ở đỉnh xa gốc toạ độ nhất Thang mức xám kéo dài từ đen đến trắng (đường nối gốc toạ độ và đỉnh màu trắng)

- Mỗi màu cơ bản được mã hoá bởi 8bit, vậy với ba màu phối hợp nhau tạo

thành 255x255x2255=16.581.375 màu thứ cấp mà mắt người có thể cảm nhận được Thường ta giả thiết là tất cả các giá trị màu được chuẩn hoá (khối hình lập phương là hình khối đơn vị) Tất cả các giá trị màu R,G,B nằm trong đoạn [0 1]

- Mô hình màu R,G,B bao gồm ba mặt phẳng độc lập (một mặt phẳng dùng

cho một màu độc lập) Nếu đưa mô hình RGB vào monitor RGB thì ba màu này phối hợp nhau tạo thành ảnh màu hoàn chỉnh Vì vậy, để sử dụng mô hình RGB cho xử lý ảnh có ý nghĩa thì các ảnh phải được biểu diễn theo một mặt phẳng màu

1.7. Hệ toạ độ pixel mặt người

- Thông thường để thuận tiện trong việc định vị trong ảnh, người ta sử

dụng hệ toạ độ pixel Trong hệ toạ độ này ảnh được xem như một lưới các phần tử Số cột tăng dần từ trái qua phải và số hàng tăng dần từ trên

Trang 23

xuống dưới Đơn vị của toạ độ là các số nguyên, các toạ độ lẻ là không

có ý nghĩa trong hệ toạ độ này

Hình 11 Hệ toạ độ pixel

1.8 Mục đích của việc xử lý ảnh số

- Mục đích đặt ra cho việc xử lý ảnh được chia làm hai phần:

- Phần thứ nhất: liên quan đến những khả năng cải tiến các ảnh thu lại, để rồi

từ đó nhận được nhiều thông tin hơn, để quan sát và đánh giá bằng mắt

- Phần thứ hai: nhằm nhận dạng hoặc đón nhận các ảnh một cách tự động

- Người ta gọi phần thứ nhất là sự biến đổi ảnh (image transformation), hay sự

tăng cường ảnh (image enhancement) và phần thứ hai là nhận dạng ảnh (image recognition) hay đón nhận ảnh (image understanding)

- Trong lý thuyết nhận dạng nói chung và nhận dạng ảnh nói riêng có ba cách

Trang 24

- Hai cách tiếp cận đầu là các kỹ thuật kinh điển Các đối tượng ảnh quan sát

và thu nhận được phải trải qua giai đoạn tiền xử lý nhằm tăng cường chất lượng, làm nổi các chi tiết, tiếp theo là trích chọn và biểu diễn các đặc trưng,

và cuối cùng là giai đoạn nhận dạng Cách tiếp cận thứ ba hoàn toàn khác, nó dựa vào cơ chế đoán nhận lưu trữ và phân biệt đối tượng mô phỏng theo hoạt động của hệ thần kinh con người Do cơ chế đặc biệt, các đối tượng thu nhận bởi thị giác con người không cần trải qua giai đoạn cải thiện mà chuyển ngay sang giai đoạn tổng hợp, so sánh với các mẫu đã lưu trữ để nhận dạng.[18]

2 CÁC PHƯƠNG PHÁP PHÁT HIỆN HÌNH ẢNH MẶT NGƯỜI

- Phát hiện hay đi tìm đối tượng chuyên biệt, ví dụ như mặt người trong cảnh,

liệu có xuất hiện trong ảnh thu được từ camera (hình động) hay những tấm hình tĩnh dựa trên sự trợ giúp của máy tính từ lâu được con người nghiên cứu

và phát triển bởi nó đóng vai trò là cơ sở chung và là nền tảng để nghiên cứu

và ứng dụng trong các lĩnh vực và các hệ thống khác Trong quá trình nghiên cứu và phát triển, thì yêu cầu được đặt lên hàng đầu là yếu tố chính xác và phải thực hiện nhanh chống trong thời gian thực Do vậy, việc này cần có sự phối hợp qua lại chặt chẽ của hai lĩnh vực là Xử lý ảnh (Image Processing)

và Thị giác máy tính (Computer Vision)

- Có rất nhiều phương pháp và hướng tiếp cận của vấn đề dò tìm mặt người

Định vị mặt người trong một cảnh quan là phương pháp đơn giản, bởi vì nó chỉ xác định vị trí hay tọa độ của mặt người có trong ảnh đó mà thôi Việc tiếp theo là nhận dạng hay xác định mặt người (face recognition) l công việc phức tạp hơn Tác vụ này sẽ so sánh một ảnh của mặt người trong ảnh đầu vào với tất cả các ảnh có trong cơ sở dữ liệu được huấn luyện trước đó và đưa ra ảnh gần nhất

Trang 25

- Có hai hướng tiếp cận chính thường được sử dụng để phát hiện mặt người:

các phương pháp dựa trên ảnh và các phương pháp dựa trên dạng hình học Các phương pháp có thể được liệt kê ra như sau: [2.1 ][2.2 ][ 2.3]

2.1 Phát hiện dựa trên ảnh

- Các phương pháp thuộc nhóm này dựa trên một tập hợp các hình mẫu của

đối tượng và sử dụng cửa sổ trượt để phát hiện mặt người Cách làm này khác biệt so với các phương pháp dựa trên khuôn mẫu (cần thiết phải có sẵn

mô hình mặt người, hình thật mặt người) Để trích đặc trưng từ các mẫu ví

dụ, cần phải thực hiện việc cho học huấn luyện dưới dạng thống kê hoặc các thuật toán học máy (machine learning) với đủ nhiều các mẫu ảnh có chứa đối tượng mặt người và không chứa đối tượng mặt người Do sự xuất hiện của mặt người trong ảnh là ngẫu nhiên với nhiều tư thế quan sát khác nhau nên thường phải xấp xỉ chúng để tạo nên sự phân biệt của hai đối tượng Tùy theo cách tiếp cận xác xuất nào mà sẽ xuất hiện các phương pháp đi tìm tương ứng Liệt kê dưới đây là một số các phương pháp thuộc nhóm này:

 Phương pháp EigenObjects

 Phương pháp Fisher ‘s Linear Discriminant

 Các phương pháp dựa trên Eigen-space

 Các phương pháp dựa trên mang nơ-ron nhân tạo

 Máy học hỗ trợ vec-tơ (Support Vector Machine – SVM)

 Phương pháp Mô hình Markov ẩn (Hidden Markov Model – HMM)

 Phương pháp Sparse Network of Winnows (SNoW)

- Do nhóm phương pháp này dựa trên việc huấn luyện sao cho thu được mô

hình khuôn mặt từ một tập dữ liệu tích cực (positive - ảnh có chứa hình mặt người) với một tập dữ liệu không tích cực (negative - ảnh không chứa hình đối tượng) nên chúng có sự tương quan so sánh trực tiếp đến các đặc điểm hình học của một kiểu mặt người điển hình

2.2 Phát hiện dựa trên dạng hình học

Trang 26

- Khác với nhóm phương pháp vừa nêu ở trên, các phương pháp thuộc nhóm

này quan tâm đến các đặc điểm cấu trúc hình học của mặt người Vì vậy chúng được gọi là nhóm tiếp cận dựa trên đặc trưng (feature - based) Tùy theo cách triển khai vấn đề mà chúng được chia thành hai phân nhóm:

- Các phương pháp Bottom – Up

- Phương pháp dựa trên lưu lượng quang (optical flow)

- Nhóm phương pháp Bottom – Up chủ yếu dùng các đặc điểm hình học bất

biến của mặt người đối với ngoại cảnh và nền ảnh để phát hiện ra mặt người rồi tùy vào mối liên hệ của chúng với nhau mà thiết lập các liên kết giữa các đặc điểm bất biến này ngay trong ảnh đầu tiên, tiếp theo sẽ dựa vào đó mà tìm chúng trong ảnh kế tiếp

- Cách làm của phân nhóm thứ hai, lưu lượng quang, là dựa và mối tương

quan của các bộ phận của mặt người (đã được xác định trước) mà dựa vào đó

để phát hiện Ví dụ, có thể dựa vào mối tương quan là đối xứng và khoảng cách của hai đèn chiếu sau (hoặc đèn chiếu trước) mà có thể xác định được

đó có phải là mặt người hay không (tất nhiên ở mặt người gắn máy 2 bánh hoặc các đối tượng không phải mặt người thì không có đặc trưng này) Cho nên, dựa theo cách này có thể phân biệt được mặt người các đối tượng khác

- Việc phát hiện mặt người là sự kết hợp giữa một thuật toán tăng tốc gọi là

AdaBoost (Adaptive Boost) và đặc tính đáp ứng nhanh của các đặc trưng Haar Đây là một phương pháp được mặt người như là phối hợp của cả hai phương pháp đã nêu ở phần: Phương pháp dựa trên ảnh và Phương pháp dựa trên dạng hình học

- Cụ thể, phương pháp này không chỉ sử dụng các thuật toán học (learning

algorithm) để huấn luyện tạo các bộ phân lớp (cascade) bằng các hình mẫu ví

dụ tích cực (có chứa hình ảnh mặt người) và các hình mẫu không tích cực (không chứa hình ảnh mặt người) được lựa chọn cẩn thận (đây là phương

Trang 27

pháp dựa trên ảnh) Các hình ảnh sau khi được chọn lọc cẩn thận sẽ được quyết định đặc trưng cho từng loại mặt người bởi thuật toán học hầu hết có liên quan trực tiếp đến các đặc trưng riêng biệt trên hình ảnh mặt người (đặc điểm các chi tiết trên mặt người) Kỹ thuật tăng tốc cải thiện tốc độ tìm kiếm dựa trên các bộ phận loại bằng cách lấy ra các trọng số cho các mẫu ví dụ trong huấn luyện

2.3. Phương pháp đặc trưng Haar-like và tăng tốc thích nghi nhanh AdaBoost – phương pháp sử dụng trong luận văn

- Để thực hiện chức năng phát hiện và nhận dạng mặt người, học viên đã triển

khai sử dụng thuật toán phát hiện đối tượng (dựa trên các đặc trưng Haar-like

và thuật toán tăng tốc AdaBoost) trên từng frame ảnh thu được từ nguồn tín hiệu hình ảnh (camera hoặc file ảnh) rồi dựa vác các thuật toán xử lý ảnh và thị giác máy tính để thi hành các tác vụ lên các mặt người đã được phát hiện

và nhận dạng Sau đây là phần trình bày phương thức hoạt động của phương pháp đi tìm mặt người bằng các đặc trưng được liệt kê sau đây:

2.3.1 Các đặc trưng Haar-like

- Mục đích của việc sử dụng các đặc trưng Haar-like là đảm bảo yêu cầu đáp

ứng thời gian thực Mỗi một đặc trưng Haar-like bao gồm 2 hoặc 3 khối hình màu trắng và đen liên kết nhau

Hình 12: Các đặc trưng cạnh

Trang 28

Hình 13: Các đặc trưng đường

Hình 14: Các đặc trưng bao quanh tâm

Hình 15: Đặc trưng đường chéo

- Giá trị của đặc trưng Haar-like được xác định bởi độ chênh lệch giữa tổng

các giá trị pixel mức xám nằm trong vùng đen so với vùng trắng

Trang 29

- Cách dùng “ảnh chia nhỏ” (integral image) giúp tính toán nhanh chóng các

y x i y

x P

' , '

) ' , ' ( )

,

(

Hình 16: Ảnh chia nhỏ tại tọa độ (x,y)

- Tổng các giá trị pixel trong vùng “A”:

P1 = A1 ; P2 = A2 ; P3 = A1 + A3

A = P + P1 – P2 – P3 ;

Trang 30

Hình 17: Tổng các giá trị pixel nằm trong vùng A

- Để phát hiện ra mặt người, ảnh đầu vào được đi tìm bằng một cửa sổ con có

chứa đặc trưng Haar-like Dựa trên từng đặc trưng Haar-like f j , một bộ

phận loại yếu h j (x) được quy định như sau:

f p

if x

, 0

) ( ,

1 )

(2.3)

2.3.2 Thuật toán tăng tốc AdaBoost

- AdaBoost (Adaptive Boost) là một thuật toán học mạnh, giúp đẩy nhanh việc

tạo ra một bộ phân loại mạnh (strong classifier) bằng cách chọn các đặc tính tốt trong một họ các bộ phân loại yếu (weak classifier – các bộ phân loại đơn giản) và kết hợp chúng lại tuyến tính bằng cách sử dụng các trọng số (hình 2.4) Điều này thật sự cải thiện dần độ chính xác nhờ áp dụng hiệu quả một chuỗi các bộ phân loại yếu

Trang 31

Hình 18: Lược đồ cơ bản của AdaBoost

- Thuật toán học này ban đầu duy trì một phân bố chuẩn (tương đồng nhau)

các trọng số lên mỗi một mẫu huấn luyện Trong bước lặp đầu tiên, thuật toán huấn luyện một bộ phân loại yếu bằng cách dùng một đặc trưng Haar-like đã thực hiện tốt nhất việc phát hiện các mẫu thử huấn luyện Trong lần lặp thứ hai, các mẫu thử đang cho huấn luyện nhưng bị phân loại nhầm bởi

bộ phân loại yếu đầu tiên được nhân trọng số cao hơn sao cho đặc trưng Haar-like được chọn lần này phải tập trung khả năng tính toán cho các mẫu thử bị phân loại nhầm này Sự lặp lại tiếp tục thực hiện và các kết quả cuối cùng sẽ là một chuỗi cascade các kết hợp tuyến tính của các bộ phân loại yếu, tạo ra một bộ phân loại mạnh, giúp tạo được độ chính xác mong muốn (Hình 17 một ví dụ thuật tốn AdaBoost sau ba lần lặp)

Trang 32

Hình 19: Thuật toán học AdaBoost

- Bộ phận loại mạnh cuối cùng là sự kết hợp có trọng số của các bộ phận loại

yếu:

)) ( )

( )

( (

)

Thuật toán AdaBoost

1 Ngõ vào: S = { ( x1, y1) , , ( xN, yN ) } Số các bước lặp lại T

Trang 33

t n

t n

d

1 ) 1 ( 1

Ngừng lệnh if khi εt = 0 hoặc khi

(

α α

- Trong thực tế, chuỗi cascade các bộ phân loại được triển khai nhằm tăng tốc

độ thực thi của thuật toán đi tìm Trong giai đoạn đầu của quá trình huấn luyện, ngưỡng của bộ phân loại yếu được điều chỉnh đủ thấp sao cho 100%

Trang 34

các đối tượng đích có thể được đi ra trong khi vẫn giữ tỉ lệ nhận dạng sai mẫu không tích cực gần bằng zero Sự cân bằng của một ngưỡng thấp gắn liền với tỉ lệ phát hiện sai mẫu tích cực cao hơn Một mẫu tích cực thoát ra từ

bộ phân lớp yếu đầu tiên kích hoạt sự ước lượng của bộ phân lớp thứ hai, cũng sẽ được điều chỉnh sao cho đạt được tỉ lệ phát hiện rất cao Tương tự như thế, một mẫu tích cự xuất ra từ bộ phân lớp thứ hai lại tiếp tục kích hoạt cho bộ phân lớp thứ ba, …

- Các cửa sổ con là tích cực (phù hợp, đi đúng đối tượng) nếu được cho qua tại

từng bộ phân lớp của chuỗi cascade đã được huấn luyện Nếu không, một ngõ ra trong chuỗi sẽ loại bất kì cửa sổ không phù hợp ngay lập tức (Hình 2.6, [1] trang 59, 4, 10)

Hình 20: Dùng chuỗi cascade đã được huấn luyện để phát hiện cửa sổ con phù hợp

- Bằng cách sử dụng cấu trúc gồm các chuỗi cascade song song, tốc độ phát

hiện đối tượng sẽ được cải thiện đáng kể (Hình 19)

Trang 35

Hình 21: Cấu trúc các chuỗi cascade song song

Hình 22: Mô hình tác vụ phát hiện vật thể dùng chuỗi cascade

Trang 36

3 TRÍCH ĐẶT TRƯNG BẰNG PHƯƠNG PHÁP EIGENFACES PCA – PHƯƠNG PHÁP SỬ DỤNG TRONG LUẬN VĂN

3.1 Phương pháp Eigenfaces PCA

- Nhiều nghiên cứu trước cho việc tự động nhận dạng mặt đã bỏ qua tính

tương quan của vùng mặt kích thích trong việc nhận dạng Điều này đề nghị

ta rằng một thông tin về phương mã hóa và giải mã ảnh mặt có thể đưa chúng

ta hiểu biết tường tận nội dung thông tin ảnh mặt, nhấn mạnh vùng quan trọng và vùng đặc trưng chung Nhiều đặc trưng có thể hoặc không có thể quan hệ trực tiếp đến ý niệm trực giác của đặc trưng mặt như mắt, mũi, môi,

và tóc Điều này có thể có liên quan quan trọng cho việc sử dụng công cụ nhận dạng như Identikit và Photofit (Bruce, 1998)

- Trong ngôn ngữ nguyên lý thông tin, chúng ta muốn trích thông tin liên quan

trong một ảnh mặt, phải mã hóa nó, và so sánh một mặt đang mã hóa với một

mô hình của cơ sở dữ liệu đã được mã hóa tương tự Một phương pháp đơn giản để trích thông tin được lưu trữ trong một ảnh của khuôn mặt là không biết phải làm sao bắt được những biến trong tập ảnh mặt được thu thập

- Trong toán học , chúng ta mong muốn tìm kiếm thành phần nguyên lý về sự

phân phối của khuôn mặt, hoặc vector riêng của ma trận tương quan cho việt thiết lập khuôn mặt, xem mặt như 1 điểm (vector) trong một không gian khoảng cách rộng Vector trị riêng được sắp xếp thứ tự, sự khác nhau dựa trên sự biến đổi của khuôn mặt

- Những vector trị riêng có thể sắp xếp lại tính chất đặc trưng chung trước sự

biến đổi của ảnh mặt Mỗi vùng ảnh đóng góp nhiều hơn hay ít hơn đến mỗi vector trị riêng, để chúng ta có thể sắp xếp sao lưu mặt cái đó gọi là Eigenface Một vài khuôn mặt chúng ta đã học được mô phỏng trong hình 1,

và tương quan eigenface được chỉ trong hình 2 Mỗi eigenface đại diện ảnh

Trang 37

mức xám, ở đó đặc trưng mặt không đồng nhất với việc thiết lập đặc trưng mặt huấn luyện, chúng sắp xếp một bản đồ sự biến đổi giữa các khuôn mặt

Hình 23: Ảnh dùng cho việc huấn luyện

Trang 38

Hình 24: Bảy eigenface được tính toán từ ảnh ngõ vào

- Mỗi khuôn mặt riêng có thể được trình bày chính xác trong chu kỳ của một

sự kết hợp tuyến tính của Eigenfaces Mỗi khuôn mặt có thể cũng xấp xỉ dùng chỉ eigenface tốt nhất – tương ứng eigenvalue lớn nhất Eigenfaces M tốt nhất là 1 không gian con có chiều dài M “ không gian mặt” của tất cả ảnh

có thể

- Ý kiến sử dụng eigenface l được thúc đẩy bằng kỹ thuật được phát triển bởi

Sirovich v Kirby (1987) v Kirby v Sirovich (1990) dựa trên kết quả hình ảnh khuôn mặt bằng nguyên lý phân tích thành phần

- Điều này hiếm khi xảy ra nếu biên độ của ảnh mặt có thể được xây dựng lại

bằng tổng trọng số của một sự thu thập nhỏ của tính chất đặc trưng hoặc trị riêng bức tranh, có lẽ một cách hiệu quả để học và nhận dạng mặt nên được xây dựng lại những đặc điểm đặc trưng bằng kinh nghiệm dựa trên thời gian

và nhận dạng mặt thông thường bằng cách so sánh trọng số đặc trưng cần được xây dựng chúng lại với trọng số xấp xỉ riêng đã biết

Trang 39

- Đây là phương pháp nhận dạng mặt với hoạt động khởi tạo chính sau:

 Yêu cầu việc khởi tạo thiết lập ảnh mặt (thiết lập chuỗi huấn luyện)

 Tính toán Eigenfaces từ chuỗi huấn luyện, chỉ giữ ảnh M tương ứng eigenvalue cao nhất Những ảnh M định nghĩa không gian mặt Với những ảnh mới, eigenfaces có thể được cập nhật và tính toán lại

 Tính toán xác xuất tương ứng in trong không gian trọng lượng khoảng cách

M cho mỗi mỗi ảnh riêng, bằng cách đưa ảnh mặt vào khung gian ảnh mặt

 Những hoạt động cũng có thể được thực thi từ lần này đến lần khác, bất cứ khi nào ở đó tự do truy suất khả năng tính toán

- Việc khởi tạo hệ thống, những bước sau là được sử dụng để nhận dạng ảnh

 Nếu nó là một khuôn mặt, lớp phân loại trọng số vật thể hoặc là người đã biết hoặc là không biết

 (Tùy chọn) Việc cập nhật các eigenfaces hoặc kiểu trọng số

 (Tùy chọn) Nếu cùng ảnh mặt không biết là được thấy một vài lần, việc tính toán kiểu trọng số đặc trưng và hợp nhất vào không gian mặt đã biết

3.2 Xây dựng Eigenfaces với PCA

- Hầu hết các phương pháp nhận dạng mặt và trạng thái mặt bằng máy tính

đều tập trung vào phát hiện các đặc trưng riêng như mắt, miệng mũi, đầu hoặc định nghĩa một mô hình mặt bằng vị trí, kích thước, và mối quan hệ giữa những đặc trưng này Trích đặc trưng đóng vai trò quan trọng trong giai đoạn tiền xử lý Thuật toán PCA hay còn gọi là phương pháp Eigenfaces (eigenface) là một trong những thuật toán chính dùng để xử lý đặc trưng mặt

Trang 40

Phương pháp PCA có ưu điểm hơn các phương pháp khác là nhanh và đơn giản

- Thuật toán Eigenfaces được sử dụng đầu tiên vào năm 1989 bởi Mathew

TurK và Alex Pentland để nhận dạng mặt người Đây là thành công đầu tiên trong lĩnh vực tự động nhận dạng mặt người mà không cần quan tâm đến vị trí cũng như kích thước của ảnh Nó đánh dấu bước phát triển đột phá so với các nghiên cứu trước đó chỉ tập trung vào phân biệt các đặc trưng như mắt, muỗi miệng, và xác định mô hình mặt dựa trên vị trí và kích thước của những đặc trưng này, cũng như mối quan hệ về hình học giữa chúng

- Các Eigenfaces chính là tập hợp các vector riêng được rút từ ma trận ma trận

hiệp phương sai (covariance) nhiều chiều

- Để xây dựng một tập hợp các Eigenfaces, trước tiên ta xây dựng 1 cơ sở dữ

liệu ảnh mặt Các ảnh này phải được chuẩn hóa về cùng vị trí, kích thước như miệng và mắt phải ngang nhau, và cúng độ sáng, độ chói,…sau đó có thể dùng thuật toán PCA để trích ra các đặc trưng của tập ảnh

 Tóm lại: các Eigenfaces chính là tập hợp các thành phần đã được chuẩn hóa, được rút ra bằng phương pháp phân tích thống kê (PCA) từ cơ sở ảnh dùng cho huấn luyện Mỗi ảnh mặt đều có thể xây dựng lại bằng cách kết hợp một vài hoặc tất cả các Eigenfaces từ không gian riêng (không gian được tạo từ các Eigenfaces)

3.3. Biến đổi ảnh mặt thành vector

- Cho một ảnh mặt I(x,y), là mảng hao chiều có kích thước MxN của các giá

trị cường độ, ảnh này thường được lượng tử hóa tới các giá trị 8 bit Mỗi cặp giá trị x và y biểu thị 1 vị trí trong ảnh Để tiện cho việc phân tích và tính toán sau này thì mỗi ảnh xem như là 1 vector Các vector ảnh được xây dựng bằng cách nối từng dòng pixel ảnh liên tiếp lại với nhau

Ngày đăng: 09/03/2021, 01:00

w