Trong phương pháp này, biến đổi Gabor Waveletss được sử dụng để xây dựng các vector đặc trưng vì nó có khả năng miêu tả rất tốt cách xử lý của các lĩnh vực dễ tiếp thu trong hệ thống trự
Trang 1Đại Học Quốc Gia Tp Hồ Chí Minh
TRƯỜNG ĐẠI HỌC BÁCH KHOA
-
ĐÀO THỊ THU THỦY
NHẬN DẠNG MẶT NGƯỜI DÙNG
GABOR WAVELETS (Face Recognition Using Gabor Wavelets)
Chuyên ngành : KỸ THUẬT VÔ TUYẾN VÀ ĐIỆN TỬ Mã số ngành : 2.07.01
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng7 năm 2004
Trang 2Đại Học Quốc Gia Tp Hồ Chí Minh CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc Lập – Tự Do – Hạnh Phúc
- -
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Ngày, tháng, năm sinh : 28/08/1978 Nơi sinh : Hưng Yên
Chuyên ngành : KỸ THUẬT VÔ TUYẾN-ĐIỆN TỬ Mã số : 2.07.01
TÊN ĐỀ TÀI : NHẬN DẠNG MẶT NGƯỜI DÙNG GABOR WAVELETS
II-NHIỆM VỤ VÀ NỘI DUNG :
- Tìm hiểu các phương pháp nhận dạng mặt và biến đổi GaborWavelets
- Ứng dụng phép biến đổi Gabor Wavelets trong biểu diễn và trích các đặc
trưng để nhận dạng mặt người
- Xây dựng thuật giải nhận dạng mặt người
- Mô phỏng hệ thống nhận dạng mặt người bằng ngôn ngữ Matlab
III-NGÀY GIAO NHIỆM VỤ : 9/2/2004
IV-NGÀY HOÀN THÀNH NHIỆM VỤ : 30/7/2004
V-HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN : PGS.TS.LÊ TIẾN THƯỜNG
CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM NGÀNH BỘ MÔN QUẢN LÝ NGÀNH
(Ký tên và ghi rõ họ tên) (Ký tên và ghi rõ họ tên) (Ký tên và ghi rõ họ tên)
Nội dung và đề cương luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua
Ngày tháng năm 2004
Trang 3LỜI CẢM ƠN
Em xin chân thành cảm ơn thầy PGS.TS LÊ TIẾN THƯỜNG, người đã trực tiếp hướng dẫn, tận tình chỉ bảo và tạo mọi điều kiện thuận lợi để em hoàn thành luận văn tốt nghiệp này
Em xin chân thành cảm ơn tất cả Quý thầy cô và cán bộ của khoa Điện-Điện Tử -Trường Đại Học Bách Khoa đã hết lòng giảng dạy, truyền đạt kiến thức và giúp đỡ em trong suốt thời gian học tập tại Trường
Cuối cùng, xin gửi lời cảm ơn đến gia đình, anh, các em và bạn bè đã hổ trợ và động viên tôi trong suốt quá trình học tập và thực hiện luận văn tốt nghiệp này
Tác giả
Trang 4ABSTRACT
Face recognition is emerging as an active research area with numerous commercial and law enforcement applications Although existing methods performs well under certain conditions, the illumination changes, variable facial expression, viewing directions or poses, aging, and disguises such as facial hair, glasses or cosmetics are still remain as challenging problems The proposed algorithm deals with two of these problems, variable facial expression and illumination changes
In our method, Gabor wavelet transform is used for facial feature vector construction due to its powerful representation of the behavior of receptive fields in human visual system The method is based on selecting peaks (highenergized points) of the Gabor wavelet responses as feature points The feature points are automatically extracted using the local characteristics of each individual face
in order to better represent diverse facial characteristics of different faces such
as eyes, nose, mouth, dimples, moles, etc Since there is no training as in neural network approaches, a single frontal face for each individual is enough
as a reference
Trang 5TÓM TẮT NỘI DUNG
Nhận dạng mặt đang là một lĩnh vực nghiên cứu thiết thực với các ứng dụng trong thương mại và an ninh Mặc dù các phương pháp hiện tại chỉ thực hiện tốt dưới các điều kiện nào đó, sự thay đổi độ chiếu sáng, thay đổi nét biểu cảm, hướng nhìn, độ tuổi, và sự cải trang như râu tóc, đeo kính hay trang điểm vẫn là vấn đề nan giải Giải thuật được đề cập trong luận văn này liên quan đến hai vấn đề thay đổi nét biểu cảm và thay đổi độ chiếu sáng
Trong phương pháp này, biến đổi Gabor Waveletss được sử dụng để xây dựng các vector đặc trưng vì nó có khả năng miêu tả rất tốt cách xử lý của các lĩnh vực dễ tiếp thu trong hệ thống trực quan của con người Phương pháp chọn các đỉnh (các điểm năng lượng cao) của đáp ứng Gabor làm điểm đặc trưng thay cho phương pháp dùng nút đồ thị trước đây Các điểm đặc trưng được tự động trích sử dụng các đặc tính cục bộ của mỗi khuôn mặt riêng để mô tả tốt hơn các đặc trưng riêng của các khuôn mặt khác nhau như mắt, mũi, miệng, núm đồng tiền, nốt ruồi… Giải thuật này không cần huấn luyện như dùng neural network, một ảnh mặt trực diện của mỗi cá nhân là đủ để giải quyết
Tổ chức của luận văn:
Chương 1: Các phương pháp nhận dạng mặt đã được nghiên cứu
Chương 2: Biến đổi Gabor Wavelets
Chương 3: Ứng dụng của Gabor Wavelets trong biểu diễn và nhận dạng mặt người Chương 4: Kết quả mô phỏng, kết luận và trình bày hướng phát triển
Phụ lục
Trang 6MỤC LỤC
Giới thiệu ……… …… 1
CHƯƠNG 1: CÁC PHƯƠNG PHÁP NHẬN DẠNG MẶT NGƯỜI 4
1.1 Nhận dạng mặt con người ……… 5
1.2 Nhận dạng mặt người tự động ……….8
1.2.1 Biểu diễn, so khớp ảnh mặt và giải pháp thống kê 1.2.2 Các phương pháp nhận dạng mặt đầu tiên 1.2.3 Phương pháp thống kê để nhận dạng mặt người (Eigenface) 1.2.4 Phương pháp nhận dạng dựa trên mô hình ẩn Markov 1.2.5 Phương pháp nhận dạng dùng mạng Neural Networks 1.2.6 Phương pháp nhận dạng dựa trên các khuôn mẫu 1.2.7 Phương pháp nhận dạng dựa trên các đặc trưng của khuôn mặt 1.2.8 Tình trạng hiện nay của công nghệ nhận dạng mặt người CHƯƠNG 2: BIẾN ĐỔI GABOR WAVELETS 2.1 Biểu diễn tín hiệu trong hai miền ………46
2.1.1 Miền tần số 2.1.2 Nguyên lý bất định 2.2 Khai triển Gabor……… ………54
2.3 Bộ lọc Gabor……… ………54
2.3.1 Bộ lọc chuẩn 2.3.2 Bộ lọc Gabor hai chiều 2-d chuẩn
2.4 Hàm biến đổi Gabor Wavelets ……….57
2.4.1 Hàm biến đổi Gabor Wavelets một chiều
2.4.2 Biến đổi Gabor Wavelets 2 chiều
Trang 7CHƯƠNG 3: ỨNG DỤNG GABOR WAVELETS TRONG BIỂU DIỄN VÀ NHẬN DẠNG MẶT NGƯỜI
3.1 Hệ thống nhận dạng mặt người ……….67
3.2 Biểu diễn khuôn mặt dùng Gabor Wavelets ……… 69
3.2.1 Biến đổi Gabor Wavelets 3.2.2 Gabor Wavelets 2D biểu diễn các khuôn mặt 3.2.3 Trích đặc trưng 3.2.3.1 Định vị điểm đặc trưng 3.2.3.2 Tạo các vector đặc trưng 3.3 Hàm khớp ảnh ……….84
3.3.1 Tính toán sự đồng dạng 3.3.2 So sánh mặt 3.4 Nhận dạng mặt ………89
CHƯƠNG 4: KẾT QUẢ MÔ PHỎNG 4.1 Tập dữ liệu ảnh………92
4.2 Xây dựng tập ảnh mẫu và các ma trận đặc trưng mẫu……….94
4.3 Kết quả mô phỏng………97
4.3.1 Kết quả mô phỏng đối với tập ảnh mẫu A 4.3.2 Kết quả mô phỏng đối với tập ảnh mẫu B 4.3.3 Tốc độ thực hiện 4.4 Kết luận……… 103
4.5 Hướng phát triển của đề tài……….104
Phụ lục……….106
Tài liệu tham khảo……… 108
Trang 8- 1 -
GIỚI THIỆU
Với sự phát triển mạnh mẽ của kinh tế, chính trị và công nghệ thông tin, yêu cầu về các phương pháp tổ chức bảo mật thông tin và nhận dạng chứng thực ngày càng phát triển thành một công nghệ quan trọng trong nhiều lĩnh vực như: điều khiển ra vào một tòa nhà, điều khiển truy cập máy tính nói chung hay các máy thu ngân, rút tiền hàng ngày trong ngân hàng hay bưu điện, hay trong các lĩnh vực quân đội điều tra tội phạm … Có nhiều phương pháp để nhận dạng một cá nhân đã được ứng dụng rộng rãi như nhận dạng bằng password, mã cá nhân, thẻ vạch, chữ ký, vân tay, tiếng nói, nhận dạng khuôn mặt …
Một hệ thốâng nhận dạng mặt tự động đang là một lĩnh vực nghiên cứu thiết thực với nhiều ứng dụng trong thực tế Con người thường nhận ra nhau dựa vào đặc thù của khuôn mặt và hệ thống nhận dạng mặt ra đời dựa trên cơ sở này với một hệ thống phần cứng video, các camera giám sát đặt trong không gian làm việc cùng với một phần mềm dò tìm và nhận dạng mặt Với cơ quan thị giác là mắt và não bộ một người có khả năng nhận dạng các khuôn mặt trong nhiều tình huống như về tư thế nhìn nghiêng hay nhìn trực diện, các thái độ biểu cảm khác nhau, trang điểm, thay đổi râu tóc, mang kính hay những thay đổi về ánh sáng và môi trường xung quanh … Nhưng đối với thiết bị nhận dạng mặt thì đó là một nhiệm vụ khó khăn
Chủ đề nhận dạng mặt đã được nhiều người nghiên cứu, có bốn giải thuật được
nhiều người biết đến chính là: Eigenfaces, mô hình ẩn Markov, Neural Networks và phân tích đặc trưng Mỗi giải thuật thường thực hiện tốt trong
Trang 9- 2 -
một điều kiện nhất định Một hệ thống nhận dạng tốt còn phụ thuộc vào ứng dụng của hệ thống đó, người ta chia làm hai loại hệ thống nhận dạng mặt người như sau:
1 Tìm một người từ một cơ sở dữ liệu lớn ảnh mặt (vd: trong dữ liệu ảnh của cảnh sát, thường chỉ có một vài ảnh của một cá nhân) Trong trường hợp này không cần nhận dạng mặt trong thời gian thực
2 Nhận dạng một người đặc biệt trong thời gian thực (vd: hệ thống theo dõi định vị, có nhiều ảnh của một người được sẵn dùng để huấn luyện và yêu cầu nhận dạng trong thời gian thực)
Trong luận văn này, chủ yếu quan tâm đến trường hợp thứ nhất Sự dò tìm mặt giả sử đã được làm trước, mục đích là cung cấp đúng cá nhân (hay nhãn hiệu) liên quan đến ảnh mặt đó từ tất cả các cá nhân trong tập cơ sở dữ liệu trong trường hợp thay đổi độ chiếu sáng, thay đổi nét biểu cảm và bị che khuất (đeo kính …) Trong tập dữ liệu chứa 1 ảnh trực diện hoặc thêm một hay hai ảnh có độ quay ở mức độ vừa phải, ta không xem xét trường hợp có độ quay lớn (vd: mặt nghiêng phải hay trái hoàn toàn)
Phương pháp phân tích đặc trưng dùng phép biến đổi Gabor Wavelets được
nghiên cứu để nhận dạng mặt người trong luận văn này Với giải thuật này, biến
đổi Gabor Wavelets được sử dụng để xây dựng các vector đặc trưng vì nó có
khả năng miêu tả rất tốt những vùng dễ được cảm nhận (tiếp thu) trong hệ thống trực quan của con người Ở đây dùng phương pháp chọn đỉnh (các điểm có năng lượng cao) của đáp ứng Gabor làm điểm đặc trưng và các điểm đặc trưng được tự động trích sử dụng các đặc tính cục bộ của mỗi khuôn mặt để có thể lưu giữ được các nét đặc trưng riêng của từng cá nhân Như vậy số lượng điểm đặc trưng và vị trí của nó sẽ thay đổi để đại diện cho các đặc trưng mặt khác nhau của các gương mặt người khác nhau Các điểm đặc trưng không chỉ là các điểm chính
Trang 10- 3 -
của khuôn mặt như mắt, mũi, miệng mà còn là các điểm đặc biệt khác của mỗi
cá nhân như núm đồng tiền, vết sẹo… Giải thuâït nhận dạng mặt dùng biến đổi Gabor wavelets không cần huấn luyện như dùng Neural networks , một ảnh
mặt trực diện của mỗi cá nhân là đủ để thực hiện nhận dạng
Trang 11- 4 -
Chương 1:
CÁC PHƯƠNG PHÁP NHẬN DẠNG MẶT
(Past research on face recognition)
Chủ đề nhận dạng mặt người đã được nhiều người nghiên cứu với nhiều phương pháp khác nhau, phương pháp đầu tiên về phân loại mặt được đề xuất bởi Francis Galton vào năm 1888 Suốt trong thập niên 80 không có nghiên cứu mới nào về nhận dạng mặt Từ thập niên 90, các nghiên cứu về nhận dạng mặt đã có những bước phát triển quan trọng như:
• Tăng thêm các đề tài nghiên cứu trong lĩnh vực quân đội, thương mại
• Nổi bật là phân lớp bằng mạng Neural ứng dụng trong tính toán thời gian thực
• Có các phần cứng đáp ứng trong thời gian thực
• Và thêm các ứng dụng dùng trong giám sát các hành động khủng bố, chống trộm…
Con người có khả năng nhận dạng các khuôn mặt trong nhiều tình cảnh khác nhau như ảnh bị méo, ảnh đã bị lượng tử hoá và các ảnh mặt bị mất các chi tiết Nhưng đối với thiết bị nhận dạng thì đó là các nhiệm vụ khó khăn vì sự khác nhau trong tư thế, thái độ biểu cảm, sự chiếu sáng (độ tương phản), trang điểm thay đổi kiểu râu tóc, mang kính và góc nhìn khi chụp ảnh cũng không cố định
Trang 12- 5 -
Nhiệm vụ nhận dạng mặt người thu hút sự chú ý của cả nhà khoa học về thần kinh và nhà khoa học về trực quan máy tính Chương này nhắc lại một vài nghiên cứu nổi tiếng của cả hai lĩnh vực trên
1.1 Nhận dạng mặt con người : khía cạnh nhận thức và cảm giác
(Human Face Recognition: Perceptual and Cognitive Aspects)
Những nghiên cứu chính liên quan đến khoa học thần kinh bao gồm nghiên cứu khả năng của con người để nhận dạng mặt và làm mô hình của khả năng này Các nhà sinh lý học đã chỉ ra rằng bộ não là ‘phần cứng nhận dạng mặt’ đặc biệt trong các cell dò tìm mặt trên lớp vỏ não và vùng bán cầu não phải sẽ phân biệt vật thể là mặt hay không phải là mặt
Vấn đề đặt ra là các đặc trưng nào của con người được dùng để nhận dạng mặt Những kết quả của những nghiên cứu liên quan là rất có giá trị để thiết kế thuật giải cho các hệ thống nhận dạng mặt Điều được quan tâm ở đây là khi tất cả các đặc trưng như mũi, miệng, mắt được chứa trong một hình ảnh nhưng sự sắp xếp khác bình thường thì không thể nhận dạng là một người Như vậy các đặc trưng tổng thể và các đặc trưng cục bộ đều cần được xem xét Các đặc trưng cục bộ cung cấp một hệ thông phân loại cho nhận dạng mặt Các sự mô phỏng chỉ ra rằng các khuôn mặt người khó nhận dạng nhất là khuôn mặt không có nét hấp dẫn và có nhiều nét hấp dẫn Các khuôn mặt đặc biệt thì dễ nhận dạng hơn một khuôn mặt điển hình Thông tin trong vùng tần số thấp dùng để xác định giới tính của cá nhân, còn các thành phần tần số cao được dùng để nhận dạng Các thành phần tần số thấp mô tả tổng thể, còn các thành phần tần số cao để tìm các chi tiết được yêu cầu trong nhiệm vụ nhận dạng Người ta cũng tìm thấy rằng phần trên của mặt có ích cho nhận dạng hơn là phần dưới
Trang 13- 6 -
Trong một thí nghiệm của Bruce được thực hiện bằng cách chồng không gian tần số thấp của mặt Margaret lên các thành phần tần số cao của mặt Tony Khi nhìn cận cảnh thì chỉ mặt Tony được nhìn thấy nhưng khi nhìn từ xa thì mặt Tony biến mất và mặt Margaret được nhìn thấy Điều này chứng tỏ rằng thông tin quan trọng để nhận dạng các khuôn mặt quen thuộc được chứa trong một khoảng đặc biệt trong không gian tần số Một điều quan trọng nữa là hệ thống nhận dạng mặt sẽ bị sai khi thay đổi hướng chiếu sáng cũng như thay đổi góc quan sát Mặc dù có một vài nhà khoa học hướng tới giải thích hệ thống nhận dạng mặt dựa trên vi phân mô hình 3D của ảnh mặt sử dụng các hình dạng của vùng được chia nhỏ, và thấy rằng nhận dạng mặt phụ thuộc nhiều vào góc độ quan sát Các hiệu ứng thay đổi ánh sáng trên khuôn mặt nhận dạng và khớp mặt cho thấy rằng sự miêu tả cho nhận dạng mặt thì quyết định được ảnh hưởng do thay đổi các đặc trưng của ảnh ở mức thấp
Các nhà nghiên cứu trước đây đã tìm thấy rằng ảnh âm bản (đảo ngược cả màu sắc lẫn giá trị độ chói) ảnh hưởng rất xấu đến sự nhận ra các khuôn mặt quen thuộc Họ cũng nhận thấy rằng âm bản không có ảnh hưởng quan trọng trong sự nhận dạng và khớp của các ảnh mặt mà thiếu các đặc trưng về kết cấu và sắc tố (màu da), điều này đưa ra ý tưởng dùng hiệu ứng âm bản để chuyển thông tin độ sáng về vùng sắc tố (màu da) Ví dụ âm bản của mái tóc đen sẽ có màu vàng hoe trên nền đen
Các giá trị màu sắc của các vùng da cũng không có ảnh hưởng quan trọng trong nhận dạng Các ảnh mặt được mô tả dạng âm bản, với giá trị độ chói được đảo ngược cũng được nhận dạng tốt như các ảnh mặt có màu sắc gốc, mặc dù theo cách này làm giảm bớt dung lượng nhớ của bức ảnh để nhận dạng
Trẻ em nhận ra các khuôn mặt xa lạ dựa trên các tín hiệu không liên quan như kính, quần áo, mũ và kiểu tóc Đến lứa tuổi 12, các đồ dùng cá nhân mới được
Trang 14- 7 -
bỏ qua Con người nhận dạng người cùng chủng tộc của mình tốt hơn nhận dạng người thuộc chủng tộc khác Con người có thể mã hoá một khuôn mặt ‘tiêu chuẩn bình thường’; các tiêu chuẩn bình thường có thể khác đối với các chủng tộc khác nhau và giới tính khác nhau Một khảo sát về vai trò của giới tính trong nhận dạng mặt ở Nhật thì các đặc trưng của mặt phụ nữ không đồng nhất như các đặc trưng của nam giới Các ảnh mặt phụ nữ trắng có nhiều sự thay đổi hơn nam giới ở vùng nhỏ, nhưng nhìn tổng thể thì ít thay đổi hơn
Sự nhận dạng các khuôn mặt quen thuộc giữ vai trò cơ bản trong sự tác động qua lại của xã hội chúng ta Con người có thể nhận ra một số lớn các khuôn mặt và các nhà tâm lý học thì quan tâm đến việc hiểu được cơ chế cảm giác và nhận thức của quá trình đoán nhận mặt Các nghiên cứu này rất hữu ích cho các nghiên cứu trực quan máy tính
Chúng ta có thể tổng kết những nghiên cứu về nhận dạng mặt người như sau:
1 Khả năng nhận dạng mặt là quá trình riêng biệt, không đơn thuần như các ứng dụng của quá trình nhận dạng vật thể nói chung Do đó hệ thống nhận dạng mặt nhân tạo có những điểm đặc biệt riêng
2 Các khuôn mặt có những nét đặc biệt thì dễ nhận dạng hơn các khuôn mặt điển hình
3 Cả hai loại đặc tính tổng thể và cục bộ đều được dùng để miêu tả và nhận dạng mặt
4 Con người nhận dạng những người cùng chủng tộc của họ dễ hơn người khác chủng tộc Con người có thể mã hóa một khuôn mặt “tiêu chuẩn bình thường”
5 Những biến đổi ảnh như chuyển âm bản, thay đổi điểm nhìn, thay đổi hướng ánh sáng có thể làm mất khả năng nhận dạng
Sử dụng các công nghệ kỹ thuật hiện tại không thể là một hệ thống nhận dạng hoàn hảo Tuy nhiên bộ não con người có một khuyết điểm là giới hạn về bộ
Trang 15- 8 -
nhớ Lợi ích của hệ thống máy tính là khả năng điều khiển tập dữ liệu lớn những ảnh riêng Sự quan sát và tìm hiểu về khả năng nhận dạng của con người sẽ là một khởi đầu tốt cho phương pháp nhận dạng mặt tự động Như ở trên đã đề cập hệ thống nhận dạng mặt tự động cần phải là mặt đặc biệt Nó sử dụng các đặc trưng để phân biệt các khuôn mặt khác nhau, và hơn nữa nó có thể khuyếch đại các đặc trưng phân biệt của mặt Sự khác nhau giữa nhận dạng các khuôn mặt quen thuộc và các mặt xa lạ cũng được chú ý Đầu tiên ta phải tìm các điểm quen thuộc của khuôn mặt Nhìn khuôn mặt trong các điều kiện khác nhau (khác nhau về chiếu sáng, hướng, trạng thái biểu cảm…) làm cho chúng ta quen thuộc với khuôn mặt đó, hoặc thường xuyên nhìn vào các ảnh của cùng khuôn mặt Nhìn khuôn mặt trong nhiều điều kiện khác nhau giống như là việc huấn luyện, tuy nhiên nhìn ảnh 2 chiều ta làm thế nào để có thể chuyển từ xa lạ sang quen thuộc Các phương pháp nhận dạng từ một mặt đơn cần phải chú ý đến mức độ quen thuộc này
Trước đây nhìn những con chim mà các nhà khoa học chế tạo ra các phương tiện bay, tuy nhiên ta thấy không có máy bay nào có “vỗ cánh” Thiết kế giải thuật và hệ thống nhận dạng mặt tự động cần phải nhận thức được vấn đề vật lý và hệ thần kinh, nhưng chỉ có thể sử dụng những điều mà có thể áp dụng hay thích hợp từ các quan điểm thực tế
1.2 Nhận dạng mặt tự động (Automatic Face Recognition)
Mặc dù ta thấy con người có thể đoán nhận mặt một cách dễ dàng, nhưng những tính toán bên trong của hệ thống trực quan của con người vô cùng phức tạp Nhiệm vụ tìm kiếm và đoán nhận các khuôn mặt bình thường này là kết quả của hàng triệu năm tiến hoá và chúng ta hoàn toàn không thể hiểu tại sao não có thể làm được điều này
Trang 16- 9 -
Nhận dạng mặt tự động là một kỹ thuật tự động nhận dạng hoặc xác minh một cá nhân bằng một đặc trưng vật lý hay một đặc điểm riêng biệt ‘Tự động’có nghĩa là hệ thống nhận dạng phải nhận ra hay xác minh đặc điểm hay đặc trưng của một người nhanh chóng với ít hoặc không có sự can thiệp của người sử dụng Đến nay chưa có một giải pháp hoàn thiện nào cho phép nhận dạng tự động các khuôn mặt từ các ảnh thực tế Trong phần này chúng ta xem lại các hệ thống nhận dạng mặt đã tồn tại trong 5 phạm trù sau: các phương pháp đầu tiên, phương pháp neural networks, phương pháp thống kê, phương pháp khuôn mẫu và các phương pháp dựa trên các đặc trưng Phương pháp cuối cùng, nhận dạng dựa trên các đặc trưng, là công nghệ nhận dạng mặt hiện nay
1.2.1 Sự biểu diễn, so khớp ảnh mặt và giải pháp thống kê
(Representation, Matching and Statistical Decision)
Hiệu quả của nhận dạng mặt phụ thuộc vào cách giải quyết 2 vấn đề : biểu diễn và so khớp Ở mức cơ bản, ảnh của một khuôn mặt là ma trận 2 chiều của các giá trị mức xám của điểm ảnh:
Trang 17- 10 -
Trong nhiều kỹ thuật trước đây miêu tả các khuôn mặt ở hình thức cơ bản nhất của nó theo công thức (1.1) hoặc (1.2), nhiều kỹ thuật khác sử dụng vector đặc trưng, F(x)=[ f1(x), f2(x), ,fm(x)]T, trong đó f1(.),f2(.), ,fm(.) là các hàm tuyến tính hoặc phi tuyến Mô tả dựa trên các đặc trưng thường hiệu quả hơn do
m nhỏ hơn n nhiều
Một cách đơn giản để đạt được hiệu quả tốt là sử dụng một cơ sở trực chuẩn n chiều Rn Giả sử e1, e2, , en là một cơ sở trực chuẩn X được biểu diễn như
i e x x
i j n
i j
ko= arg min ||x-c k || với 1 ≤ k ≤ K (1.4)
trong đó ||.|| là khoảng cách trong không gian Rn Nếu ||ck|| được chuẩn hoá để
||ck||=c với mọi k, thì khoảng cách khớp ảnh nhỏ nhất trong phương trình (1.4)
được đơn giản hoá như sau;
ko= arg min <x-c k > với 1 ≤ k ≤ K (1.5)
Trang 18- 11 -
Khoảng cách và tích vô hướng bất biến khi biến đổi cơ sở trực chuẩn, khoảng cách tối thiểu và so sánh tương quan có thể được thực hiện sử dụng bất kỳ cơ sở trực chuẩn nào và sự thực hiện đoán nhận mặt cũng thế Để làm điều này đơn giản là ta chuyển x và ck trong (1.4) hoặc (1.5) bằng xÕ và ckÕ Tương tự như (1.4) và (1.5) cũng có thể được sử dụng với các vector đặc tính
Vì các nhân tố như góc nhìn, độ chiếu sáng, nét biểu cảm, sự biến dạng và nhiễu nên các ảnh mặt có thể có các sự biến đổi ngẫu nhiên và vì vậy tốt hơn là được mô hình như một vector ngẫu nhiên Trong trường hợp này, sự thích ứng (so sánh, khớp) hợp lý cực đại (ML)thường được sử dụng:
ko= arg min log(p(x\ck)) với 1 ≤ k ≤ K (1.6) trong đó p(x\ck) là mật độ của x trong ảnh được lưu trữ thứ k của nó Tiêu chuẩn
ML tối thiểu hoá xác suất của lỗi nhận dạng khi cần một quyền ưu tiên, lúc mặt đưa vào dường như giống bằng nhau với bất kỳ người nào trong K người Hơn nữa, nếu ta giả sử sự biến đổi của các vector mặt gây ra bởi cộng nhiễu trắng (additive white Gaussian noise (AWGN))
xk=ck+wk (1.7) trong đó wk là nhiễu trắng có giá trị trung bình bằng 0 ( zero-mean AWGN) với công suất σ2, thì sự khớp ảnh ML trở thành khớp khoảng cách nhỏ nhất như công thức (1.4)
1.2.2 Các phương pháp nhận dạng mặt đầu tiên
Công việc đầu tiên về xử lý mặt tự động vào cuối thế kỷ 19 Các phương pháp nhận dạng mặt đầu tiên phần lớn là dựa trên cơ sở đặc trưng Phương pháp được đề xướng bởi Francis Galton, nhà khoa học Anh, và nhiều phương pháp sau đó, tập trung vào phát hiện ra các đặc trưng của quan trọng ở mặt như góc mắt, góc miệng, đỉnh mũi, … Bằng cách đo các khoảng cách tương đối giữa các điểm đặc
Trang 19- 12 -
trưng ở mặt và xây dựng thành một vector đặc trưng để mô tả mỗi khuôn mặt Bằng cách so sánh các vector đặc trưng của một khuôn mặt chưa biết với các vector đặc trưng đã biết từ một cơ sở dữ liệu các khuôn mặt đã biết, sự khớp gần nhất được xác định
Một trong các nghiên cứu sớm nhất được đề cập bởi Bledsoe Trong hệ thống này, thao tác của con người là định vị các điểm đặc trưng trên khuôn mặt và nhập vị trí của nó vào máy tính Đưa ra tập hợp khoảng cách của các điểm đặc trưng của một người lạ, các vùng bên cạnh gần nhất hoặc những qui luật phân loại khác được sử dụng để xác định mặt thử Khi trích đặc tính bằng tay, hệ thống có thể điều tiết được những biến đổi rộng như quay đầu, nghiêng, chất lượng hình và sự tương phản
Trong công việc của Kanade, những điểm chuẩn được phát hiện dựa vào các công cụ xử lý ảnh đơn giản (đường biên, chữ ký…) và sau đó khoảng cách Euclidean được sử dụng như một vector đặc trưng để nhận dạng Các điểm đặc trưng mặt được xác định qua 2 giai đoạn
• Giai đoạn thô thực hiện các phép toán vi phân và các thuật giải tìm đặc trưng Định vị trí khoảng vùng mắt, mũi và miệng, xử lý 4 nhóm nhỏ để trích thông tin chính xác hơn, quét ở độ phân giải cao hơn và sử dụng cường độ chiếu sáng tốt nhất cho từng vùng Bốn vùng là mắt trái, mắt phải, mũi và miệng Cường độ chiếu sáng dựa vào biểu đồ vùng bộ phận thu được trong giai đoạn thô
• Một tập hợp 16 thông số của mặt gồm khoảng cách, diện tích, góc để bù vào cỡ khác nhau của các bức ảnh được trích ra Để loại trừ sự khác nhau về tỉ lệ và kích thước các thành phần của vector kết quả được tiêu chuẩn hóa Một phép đo khoảng cách đơn giản được sử dụng để kiểm tra sự đồng dạng giữa hai ảnh mặt
Trang 20- 13 -
1.2.3 Các nghiên cứu về thống kê để nhận dạng mặt
(Statistical approaches to face recognition)
1.2.3.1 Các phương pháp dựa trên khai triển Karhunen-Loeve
1.2.3.1.1 Eigenfaces
Một ảnh mặt, I(x,y), cỡ NxN là một ma trận với các thành phần biểu diễn cường độ của một điểm ảnh chi tiết I(x,y) cũng được hiểu như là một vector dài N2 hay một điểm đơn trong không gian N2 chiều Vì vậy một ảnh 128x128 pixel có thể
miêu tả như 1 điểm ảnh đơn trong không gian 16 384 chiều Các ảnh mặt chỉ chiếm 1 vùng nhỏ của không gian ảnh nhiều chiều này và vì vậy miêu tả không tối ưu trong hệ trục tọa độ này Như đã đề cập trong phần 1.2.1, các cơ sở trực chuẩn thường được thay thế bằng các vector nén (làm cô đọng lại) Một trong
các cơ sở này là Karhunen-Loeve (KL)
Phương pháp ‘Eigenfaces’ được Turk và Pentland [20]đưa ra dựa trên khai triển Karhunen-Loeve làm tăng hiệu quả miêu tả hình ảnh của các khuôn mặt mà trước đây Sirovitch và Kirby đã từng nghiên cứu Nhận dạng Eigenface xuất phát từ tiền tố ‘eigen’ tiếng Đức có nghĩa là sở hữu hay riêng Phương pháp Eigenface để nhận dạng mặt được xem như công nghệ nhận dạng mặt đầu tiên Trong phương pháp được mô tả bởi Turk và Pentland là tìm các thành phần chính (theo khai triển Karhunen-Loeve) của sự phân bố ảnh mặt hoặc các vector riêng của ma trận hiệp phương sai của tập hợp ảnh mặt Các vector riêng được xem như tập hợp các đặc trưng mà cùng nhau mô tả đặc tính biến đổi giữa các ảnh mặt
Giả sử một ảnh mặt I(x,y) là ma trận 2 chiều của các giá trị cường độ, hoặc là một vector n chiều Giả sử tập hợp các ảnh huấn luyện là I1, I2, , IN Hình
Trang 211
ψ Sự khác nhau so với ảnh trung bình được tính φi =Ii - ψ Tập hợp này của các vector rất lớn phụ
thuộc vào phân tích thành phần độc lập để tìm ra tập hợp K vector trực chuẩn
vk, k=1, ,K và các trị riêng kết hợp λk để miêu tả tốt nhất sự phân phối của dữ liệu
Vector vk và λk là các vector riêng và trị riêng của ma trận hiệp phương sai :
T T
i N i
i AA N
=
φ φ1
Trong đó ma trận A=[φ 1 ,φ2 ,…,φN ] Tìm các vector riêng của ma trận Cnxn là
tính toán giá trị cường độ Tuy nhiên, các vector riêng của C có thể xác định bằng cách tìm các vector riêng của ma trận nhỏ hơn kích thước NxN và lấy tổ hợp của các vector kết quả
Cv k = λk vk (1.10)
v k T Cv k = v k Tλk vk (1.11) vector riêng v k được chuẩn hoá và trực giao v k T v k =1
v k T Cv k = λk (1.12)
k
T i N
i i
T k
) var(
1
) ( 1
1 1 1
1
2 1
2 1
1 1
T i k N
i
T i k
T i k N i
T i k N i
T i k
T T i k N i
k
T i N
T k
I v N
I v mean I
v N
v N
v v
N
v v N
φφ
Trang 22- 15 -
Như vậy giá trị riêng k mô tả sự khác biệt của tập hợp các ảnh mặt theo trục
được biểu diễn của vector riêng k Không gian bao gồm các vector riêng vk, k=1, ,K ứng với giá trị riêng lớn nhất K của ma trận hiệp phương sai C được
gọi là không gian mặt Nhưng vector riêng của ma trận C, gọi là eigenfaces xuất phát từ tập hợp cơ sở các ảnh mặt Một ảnh mặt mới Γ được biến thành các thành phần eigenface của nó (trên không gian mặt) bằng:
ϖk =<v k , (Γ- φ)> =v k T (Γ-φ) (1.14)
với k=1, ,K Các phép chiếu w k hình thành vector đặc trưng Ω =[w1, w2, , wK] diễn tả sự góp phần của mỗi eigenface trong việc miêu tả ảnh mặt ngõ vào
Đưa ra tập hợp các loại mặt Eq và các vector đặc trưng Ωq tương ứng là phương pháp đơn giản nhất để xác định ảnh vào thuộc loại mặt nào dựa vào tối thiểu khoảng cách trong không gian đặc trưng:
Một ảnh mặt thuộc loại Eq khi giá trị nhỏ nhất ξq nhỏ hơn giá trị ngưỡng θc và
Nếu không thì mặt được phân loại là không biết
Turk và Pentland thử nghiệm xem thuật giải của họ như thế nào trong điều kiện thay đổi về độ chiếu sáng, kích thước và hướng của các khuôn mặt Họ thấy rằng hệ thống của họ có rắc rối với hầu hết các ảnh mặt lớn hơn hay nhỏ hơn so với tập dữ liệu gốc Để giải quyết vấn đề này họ đề nghị sử dụng phương pháp nhiều giải pháp (multi-resolution) trong đó nhiều mặt được so sánh với eigenfaces của các kích thước thay đổi để tính toán cái hợp nhất Họ cũng lưu ý rằng nền ảnh cũng có ảnh hưởng quan trọng trong quá trình thực hiện, chúng được tối thiểu hoá bằng cách nhân ảnh ngõ vào với hàm 2-D Gaussiaw để giảm bớt ảnh hưởng của nền ảnh và làm nổi bật các đặc trưng trung tâm của ảnh Hệ
Trang 23- 16 -
thống thực hiện nhận dạng mặt người trong thời gian thực Về mặt lý thuyết của Turk và Pentland rất có ảnh hưởng trong lĩnh vực nhận dạng mặt và phương pháp vẫn còn rất phổ biến vì sự thực hiện dễ dàng của nó
Murase và Nayar mở rộng khả năng phương pháp eigenface trong việc nhận dạng vật thể 3 chiều với độ chiếu sáng và cảnh quan khác nhau Cho N ảnh vật thể với P cảnh quan và L độ chiếu sáng khác nhau, xây dựng một tập hợp ảnh chứa tất cả các dữ liệu có giá trị Trong cách này, một “không gian thông số” đơn mô tả đặc tính vật thể về cảnh quan cũng như điều kiện chiếu sáng Phân tích eigenface của không gian này được sử dụng để trích đặc trưng và phân lớp Tuy nhiên để đảm bảo sự phân biệt giữa các vật thể khác nhau số vector riêng dùng trong phương pháp này được tăng lên so với phương pháp Eigenface cổ điển
Về sau, dựa vào phân tích eigenfac, Pentland et al đã phát triển nghiên cứu không gian riêng ‘view based’ để nhận dạng mặt người với điều kiện nhìn tổng quát Cho N cá nhân với P cảnh quan khác nhau, sự đoán nhận được thực hiện trên P không gian riêng riêng biệt, mỗi lần giữ lại sự biến đổi của các cá nhân trong cảnh quan chung Cách tiếp cận ‘view based’ thực chất là một mở rộng của kỹ thuật eigenface tới nhiều tập vector riêng, một vector cho mỗi hướng mặt Để giải quyết trong nhiều cảnh quan, trong giai đoạn đầu của cách tiếp cận này, hướng của ảnh kiểm tra được xác định và không gian riêng mà miêu tả tốt nhất ảnh nhập vào sẽ được chọn Điều này được thực hiện bằng cách tính toán lỗi mô tả dư (khoảng cách từ không gian đặc trưng: DFFS) cho mỗi không gian cảnh quan Một khi cảnh quan thích hợp được xác định, hình ảnh được chiếu trên không gian cảnh quan đó và sau đó được nhận dạng Cách giải quyết ‘view based’ là cường độ tính toán nhiều hơn cách giải quyết theo thông số vì có P
Trang 24- 17 -
tập hợp khác nhau của V phép chiếu được yêu cầu (V là số eigenfaces được chọn để miêu tả mỗi không gian riêng
1.2.3.1.2 Nhận dạng mặt dùng Eigenfaces
Có hai cách tiếp cận chính của việc nhận dạng mặt dùng eigenfaces
• Mô hình Appearance :
1 Tập hợp một cơ sở dữ liệu ảnh mặt
2 Thực hiện phân tích thành phần chủ yếu (PCA) trên các ảnh mặt để tạo ra tập hợp eigenfaces Khoảng 100 vector riêng đủ để mã hoá một cơ sở dữ liệu lớn của các mặt người
3 Mỗi ảnh mặt được mô tả như một tổ hợp tuyến tính của các eigenfaces
4 Một ảnh mặt kiểm tra được làm xấp xỉ bằng một tổ hợp của các eigenfaces Phép đo lường khoảng cách được sử dụng để so sánh sự giống nhau giữa hai hình ảnh
Hình 1.1: Mô hình Appearance
Trang 252 Hai tập dữ liệu của eigenfaces được tạo ra bằng cách thực hiện phân tích thành phần chủ yếu (PCA) trên mỗi loại
3 Sự giống nhau giữa 2 hình ảnh xuất phát từ tính toán S=P(Ω I /Δ) , trong đó Δ là sự khác nhau giữa một cặp ảnh Hai ảnh được xác định là của cùng một cá
nhân nếu S>0.5
Trang 26- 19 -
Mặc dù thực hiện nhận dạng chậm hơn phương pháp hệ số tương quan, nhưng việc giảm độ phức tạp trong tính toán khiến cho phương pháp eigenface rất được chú ý Tốc độ nhận dạng tăng với số thành phần chủ yếu ở một mức giới hạn nào đó Theo tác giả của phương pháp sự thực hiện ổn định ở khoảng 45 thành phần chủ yếu
1.2.3.1.3 Các đặc trưng riêng (Eigenfeatures)
Pentland et al đưa ra các cách sử dụng các đặc trưng của mặt để nhận dạng mặt Điều này có thể biểu diễn mặt dạng modun hay phân lớp, trong đó mô tả thô (độ phân giải thấp) của toàn bộ phần đầu được tăng thêm bởi các chi tiết bổ sung (độ phân giải cao ) trong phần các đặc trưng riêng nổi bật của khuôn mặt Kỹ thuật eigenface đã được mở rộng để tìm ra các đặc trưng của mặt Với mỗi đặc trưng của mặt, một không gian đặc trưng được tạo ra từ các đặc trưng riêng quan trọng nhất (các vector riêng tương ứng với giá trị riêng lớn nhất của ma trận tương quan đặc trưng)
Sau khi các đặc trưng của ảnh mặt kiểm tra được trích, sự giống nhau giữa các đặc trưng đã tìm được và các đặc trưng tương ứng với các ảnh mẫu được tính toán Theo cách đơn giản để nhận dạng là tính điểm tích lũy với sự đóng góp bằng nhau của mỗi điểm đặc trưng Trong trường hợp đặc biệt cần kỹ lưỡng hơn cũng có thể sử dụng phân lớp Khi điểm tích luỹ được xác định, một ảnh mặt được phân loại sao cho điểm này là cực đại Sự thực thi của phương pháp các đặc trưng riêng (eigenfeatures) gần giống với phương pháp eigenfaces, tuy nhiên khi kết hợp eigenfaces và eigenfeatures cho thấy tốc độ đoán nhận cao hơn
Trang 27- 20 -
1.2.3.2 Các phương pháp biệt số tuyến tính – Fisherfaces (FLD)
Các phương pháp biệt số tuyến tính làm giảm chiều của không gian đặc trưng
FLD sử dụng các thông tin phân loại và phát triển một tập hợp các vector đặc trưng mà trong sự biến đổi của các mặt khác nhau được nhấn mạnh ở điều kiện chiếu sáng, nét biểu cảm của khuôn mặt và sự định hướng
1.2.3.2.1 Biệt số tuyến tính Fisher (Fisher’s Linear Discriminant)
Cho c lớp với xác suất ưu tiên Pi, lấy Ni mẫu của lớp i, i=1,…, c Sau đó ma trận tán xạ bán xác định dương được xác định như sau:
i
i j N
i j c
i i w
T i i
c
i i B
x x
P S
P S
i
μμ
μμμμ
i c
i i
x
N 1 1 1
Trang 28V S V
V S V
Trong đó {vi / i=1, ,k} là tập vector riêng suy rộng của SB và Sw tương ứng
với tập hợp các giá trị riêng suy giảm
Với cận trên của k là c-1 Ma trận Vopt được cho là sự biến đổi biệt số tuyến tính tối ưu hay biến đổi Foley-Sammon Trong đó biến đổi Karhunen-Loeve thực hiện một phép quay dọc trên tập hợp các trục mà hình chiếu của các vector lấy mẫu khác nhau hầu hết trong hướng tự tương quan Sự biến đổi biệt số tuyến tính tối ưu thực hiện một phép quay trên dọc tập hợp các trục [v1, v2, , vk] mà hình chiếu của các vector lấy mẫu cho thấy sự phân biệt cực đại
1.2.3.2.2 Nhận dạng mặt sử dụng phân tích biệt số tuyến tính
Huấn luyện N ảnh mặt thể hiện c chủ thể khác nhau Aûnh mặt trong tập huấn luyện là các ma trận 2 chiều của giá trị cường độ sáng được mô tả như nhiều vector n chiều Những thể hiện khác nhau của mặt một người (những sự biến đổi trong chiếu sáng, tư thế hay nét biểu cảm của mặt) được xếp vào một lớp giống nhau và các mặt của các chủ thể khác nhau được xếp thành các lớp khác nhau Các ma trận tán xạ SB và SW được xác định trong các phương trình (1.17), (1.18) Tuy nhiên ma trận Vopt không thể tìm trực tiếp từ phương trình (1.21), bởi
vì ma trận Sw nói chung là không có cực trị Điều này xuất phát từ hạng của Sw
nhỏ hơn N-c, và nói chung số các điểm ảnh trong mỗi ảnh n là lớn hơn rất nhiều
so với các ảnh trong tập N Có rất nhiều giải pháp để khắc phục vấn đề này Một
Trang 29- 22 -
trong các phương pháp được đưa ra gọi là Fisherface Để tránh Sw là không có cực trị, tập hợp ảnh được chiếu lên một không gian có chiều nhỏ hơn để kết quả trong lớp tán xạ không phải là đơn Điều này đạt được bằng cách sử dụng phân
tích thành phần chủ yếu (PCA) để giảm chiều của không gian đặc trưng tới N-c và sau đó áp dụng biệt số tuyến tính chuẩn (1.21) để giảm chiều tới c-1 V opt
chính thức được xác định bằng:
V V S V V V
pca w
T pca T
pca B
T pca T v
Trong đó C là ma trận hiệp biến của tập hợp ảnh huấn luyện và được tính toán
theo phương trình (1.9) Các cột của vector Vopt là những vector trực giao
được gọi Fisherfaces Không giống Eigenfaces, Fisherfaces không giáp mặt như
các khuôn mẫu Tất cả các ảnh mặt mẫu Eq, q=1, ,Q trong tập mẫu S được chiếu trên các vector tương ứng thành các cột của V fld và tập hợp các đặc trưng được trích cho mỗi ảnh mặt mẫu Những vector đặc trưng trực tiếp được dùng để phân loại
Khi đã trích được một tập đặc trưng hiệu quả và gọn, nhiệm vụ nhận dạng được thực hiện bằng cách sử dụng khoảng cách Euclidean trong không gian đặc trưng Trong một nghiên cứu giống như một phép đo trong không gian đặc trưng, được
đề nghị một giải pháp trọng số trung bình/ khoảng cách bình phương với các
trọng số thu được dựa vào sự tin cậy của trục quyết định
v E S v v
v v E
E E
−
=
ΓΓ
Trang 30- 23 -
Vì vậy, cho một ảnh mặt Γ, ảnh khớp tốt nhất E0 được tính bằng :
Sự tin cậy của phương pháp được xác định bằng:
( ) ( ( ) ) ,
,
, 1
E D E
Conf
Γ
Γ
trong đó E1 là ảnh khớp tốt thứ hai
Akamatsu et al đã ứng dụng LDA đối với phổ Fourier của ảnh cường độ Kết quả mà tác giả đã chỉ ra rằng LDA trong miền Fourier có ảnh hưởng mạnh với sự biến đổi trong chiếu sáng hơn LDA ứng dụng trực tiếp trên các ảnh cường độ Tuy nhiên sự tính trong miền phổ Fourier phức tạp hơn rất nhiều so với phương pháp Fisherface cổ điển
1.2.3.3 Các phương pháp phân tích giá trị đặc biệt
2.2.3.3.1 Phân tích giá trị đặc biệt
Các phương pháp dựa trên phân tích giá trị đặc biệt để nhận dạng mặt sử dụng kết quả của định lý sau:
Định lý: Giả sử Ipxq là ma trận thực hình chữ nhật hạng (I)= r, thêm vào đó tồn
tại 2 ma trận trực chuẩn Upxp, Vqxq và một ma trận đường chéo ∑pxq và công
thức sau có thể áp dụng:
V U
Trang 31- 24 -
λ1>λ 2> >λ r>0, λ2 , i=1, ,r là các trị riêng của II T và I T I , ui, vj, i=1, ,p, j=1, ,q là các vector riêng tương ứng với các trị riêng của II T và I T I
1.2.3.3.2 Nhận dạng mặt sử dụng phân tích giá trị đặc biệt
(Singular Value Decomposition)
Giả sử một ảnh mặt I(x,y) là ma trận 2 chiều của giá trị cường độ sáng và (λ 1,
λ2, , λ r) là vector giá trị đơn (SV) của nó Zhong khám phá sự quan trọng của
việc dùng SVD để nhận dạng mặt người bởi việc chứng minh một vài đặc tính quan trọng của vector SV như: sự ổn định của của SV với những hỗn loạn nhỏ gây ra bởi cự biến đổi ngẫu nhiên trong ảnh cường độ, sự biến đổi của vector SV
tỉ lệ thuận với sự biến đổi của các điểm ảnh trong ảnh cường độ, vector đặc trưng SV bất biến với biến đổi quay, sự tịnh tiến, biến đổi phản chiếu
Các đặc tính trên của vector SV cung cấp lý thuyết cơ sở cho sử dụng các giá trị đơn như các đặc trưng của ảnh Tuy nhiên, nén vector SV gốc vào trong một không gian tần số thấp bằng các biến đổi toán học khác nhau dẫn đến sự đoán nhận cao hơn
Các phép biến đổi nén chiều như biến đổi Foley-Sammon được dựa trên tiêu chuẩn Fisher, vd như phương pháp biệt số tối ưu là một trong những phương pháp nổi tiếng nhất Có N ảnh mặt của c chủ thể khác nhau, các vector SV được trích
cho mỗi ảnh Theo phương trình (1.17) và (1.18), các vetor tán xạ SB và Sw của các vetor SV được xây dựng Tuy nhiên rất khó thu được những vector biệt số tối
ưu trong trường hợp số lượng mẫu nhỏ, vd số lượng mẫu ít hơn chiều của vector
SV vì ma trận tán xạ Sw là (đơn) số ít trong trường hợp này
Có nhiều giải pháp được đưa ra để giải quyết vấn đề này Theo Hong, làm mất
vấn đề này bằng cách cộng thêm một lượng hỗn tạp giá trị đặc biệt nhỏ với Sw
Trang 32- 25 -
tạo thành Sw(t) không là giá trị đặc biệt (nonsingular) nữa Tuy nhiên, lượng hỗn
tạp của Sw đưa vào một thông số tuỳ ý, và phạm vị mà các tác giả hạn chế
lượng hỗn tạp là không thích hợp để đảm bảo nghịch đảo của Sw(t) là không
thay đổi về số lượng
Cheng et al, giải quyết vấn đề bằng sự phân tích hạng của Sw Đây là một khái
quát phương pháp của Tina, thay thế Sw bằng S+w giả đảo xác định dương
Sau khi tập hợp vector biệt số tối ưu {v1, v2, ., vk} được trích, các vector đặc
trưng thu được bằng cách chiếu các vector SV vào trong không gian mở rộng bởi
{v1, v2, , vk} Khi ảnh kiểm tra được thu nhận, vector SV của nó được chiếu lên không gian mở rộng bởi {v1, v2, , vk} và sự phân loại được thực hiện trong
không gian đặc trưng bởi việc đo khoảng cách Euclidean trong không gian này và ảnh kiểm tra được gán cho hình ảnh đạt được khoảng cách tối thiểu
Một phương pháp khác để rút gọn không gian đặc trưng của các vector đặc trưng SV được miêu tả bởi Cheng et al Tập huấn luyện gồm các mẫu nhỏ của các ảnh mặt của cùng một người Giả sử Ii
j mô tả ảnh mặt thứ j của người thứ I, thì ảnh trung bình được tính bằng ∑
=
N j
i Ị I
N 1
1 Giá trị riêng và vector riêng được xác
định cho ảnh trung bình này sử dụng SVD Các giá trị riêng được so sánh với mức ngưỡng để bỏ qua các giá trị gần 0 Các vector riêng trung bình (được gọi là các vector đặc trưng) cho tất cả các ảnh mặt trung bình được tính toán Một ảnh kiểm tra được chiếu vào trong không gian mở rộâng bởi các vector riêng Sử dụng tiêu chuẩn khuôn mẫu Frobenius để xác định ảnh kiểm tra thuộc về người nào
Trang 33- 26 -
1.2.4 Các phương pháp dựa trên mô hình ẩn Markov
(Hidden Markov Model Based Methods)
Mô hình ẩn Markov (HMM) là một tập hợp các mô hình xác suất sử dụng để mô tả các đặc điểm thống kê của tín hiệu Rabiner, cung cấp hướng dẫn học rộng lớn và đầy đủ về HMMs HMM được tạo bởi 2 quá trình tương quan:
• Vấn đề cơ bản, dãy Markov không thể quan sát được số hữu hạn của các trạng thái, ma trận xác suất chuyển trạng thái và phân phối xác suất trạng thái ban đầu
• Một tập hợp các hàm mật độ xác suất liên quan tới mỗi trạng thái
Các thành phần của HMM là:
N, số trạng thái trong mô hình Nếu S là tập hợp của các trạng thái, thì S={ S1, S2, ,SN} Trạng thái của mô hình qt tại thời điểm t được cho bởi qt ∈S, 1≤ t ≤
T , trong đó T là chiều dài của dãy quan sát (số lượng khung) M, số lượng ký
hiệu quan sát khác nhau Nếu V là tập hợp tất cả các ký hiệu quan sát có thể
tồn tại (còn được gọi là codebook của mô hình ) thì V={ V1, V2, ,VM}
A, ma trận xác suất chuyển trạng thái ; A={aij} trong đó:
Với Qt là ký hiệu quan sát tại thời điểm t
π, sự phân phối trạng thái ban đầu; π=πI trong đó
πI = P[q1 = Si], 1≤ j ≤ N (1.33) Một HMM được định nghĩa như sau:
λ=(A,B, π) (1.34)
Trang 34- 27 -
Sự mô tả đặc điểm ở trên tương ứng với một HMM rời rạc, trong đó sự quan sát
định rõ đặc điểm các kí hiệu rời rạc được chọn từ bảng mẫu tự hữu hạn V={v1, v2, ,vM} Trong HMM mật độ liên tục, các trạng thái được xác định rõ đặc
điểm bằng hàm mật độ quan sát liên tục Sự trình bày chung nhất của hàm mật độ xác suất mẫu là một hình thức pha trộn hữu hạn
D giả Các mô hình này hiện thời được sử dụng để nhận dạng ký tự
Hình 1.3: Kỹ thuật lấy mẫu ảnh cho nhận dạng HMM
Samaria et al đã giới thiệu HMM liên tục 1-D để nhận dạng mặt Giả sử mỗi mặt trong một vị trí thăûng đứng, trực diện, các đặc trưng xuất hiện trong một thứ tự có thể đoán trước Sự sắp thứ tự này đưa đến sử dụng mô hình đỉnh - đáy, ở đó chỉ các chuyển đổi giữa 2 trạng thái kế bên trong đỉnh tới đáy được cho phép
Trang 35- 28 -
Những trạng thái của mô hình tương ứng là các đặc trưng của mặt như trán, mắt,
mũi, miệng và cằm Sự lấy mẫu liên tiếp O được tạo ra từ một ảnh XxY sử dụng cửa sổ lấy mẫu XxL với XxM điểm ảnh chồng lên (hình 1.1)
Mỗi vector quan sát là một khối L hàng Trong đó có M hàng chồng lên nhau giữa các quan sát liên tiếp Sự chồng lấp cho phép lấy được các đặc trưng độc lập với vị trí thẳng đứng trong khi một vùng chia rời sẽ làm mất đi các đặc trưng nằm ngang qua ranh giới khối
Khi không dùng chồng lấp lên nhau, nếu chiều cao của cửa sổ lấy mẫu nhỏ dữ liệu từng đoạn không tương ứng với các đặc tính quan trọng của mặt Tuy nhiên khi tăng chiều cao của cửa sổ xác suất cắt ngang qua các đặc trưng cao hơn Giả sử c là các ảnh mặt của một tập huấn luyện, mục đích của huấn luyện là tối
ưu hoá các thông số λi=(A,B, π) để miêu tả tốt nhất, các quan sát O={ o1, o2, ,oT}, trong khả năng P(O/λ) Sơ đồ huấn luyện HMM được minh họa trong
hình 1.2, các thủ tục lặp đi lặp lại để phân lớp dữ liệu:
1 Tập hợp các ảnh huấn luyện cho mỗi chủ đề trong tập dữ liệu và lấy mẫu để tạo ra các quan sát liên tiếp
2 Mô hình mẫu chung được xây dựng với mục đích chỉ rõ số lượng trạng thái trong HMM và những chuyển tiếp trạng thái cho phép (khởi tạo mô hình)
3 Tập hợp các ảnh huấn luyện cho mỗi chủ đề trong tập dữ liệu và lấy mẫu để tạo ra các quan sát liên tiếp
4 Mô hình mẫu chung được xây dựng với mục đích chỉ rõ số lượng trạng thái trong HMM và những chuyển tiếp trạng thái cho phép (khởi tạo mô hình)
5 Tập hợp các giá trị thông số khởi tạo sử dụng dữ liệu huấn luyện và mô hình mẫu được tính toán một cách lặp đi lặp lại Mục đích của giai đoạn
Trang 36- 29 -
này là tìm sự đánh giá tốt cho ma trận xác suất mẫu quan sát B Trong chu trình đầu tiên, dữ liệu được cắt từng đoạn đều nhau phù hợp với mỗi trạng thái mẫu và các thông số khởi tạo mẫu được trích
Trong các chu trình tiếp theo tập hợp các phần huấn luyện quan sát liên tiếp được phân đoạn vào trong các trạng thái của thuật giải Viterbi Kết quả phân đoạn các phần huấn luyện liên tiếp có thể đạt đến tối ưu cho mỗi trạng thái tuỳ thuộc mẫu hiện tại
6 Theo sự chia đoạn Viterbi, các thông số mô hình được đánh giá lại sử dụng thủ tục đánh giá lại Baum-Welch Thủ tục này điều chỉnh các tham số mẫu để cực đại xác suất của khả năng huấn luyện dữ liệu cho mỗi mẫu tương ứng
7 Kết quả mẫu được so sánh với mẫu trước đó (bằng tính toán khoảng cách đồng dạng của HMM) Nếu khoảng cách mẫu vượt quá một mức ngưỡng, thì mẫu cũ λ được tay bằng mẫu mới λÕ và vòng huấn luyện được lặp lại toàn bộ Nếu khoảng cách mẫu nhỏ hơn ngưỡng đó, thì giả sử mẫu hội tụ và thông số của cùng được lưu trữ
Trang 37Ước lượng thông số B
Không
Thông số mô hình
Hình 1.4: Sơ đồ huấn luyện HMM
Trang 38- 31 -
Sự nhận dạng là so sánh ảnh thử với mỗi mẫu được huấn luyện (hình 1.3) Để đạt được điều này, hình ảnh được biến đổi thành sự quan sát liên tiếp và sau đó
mẫu P(Otest|λ i) được tính toán cho mỗi λi, i=1, ,c Mẫu thể hiện sự giống
nhau lớn nhất nhận dạng cho ảnh mặt chưa biết
λ1
Tính Xác xuất
λ2
Tính Xác xuất
λN
Tính Xác xuất
Chọn giá trị cực đại Lấy mẫu
Hình 1.5: Sơ đồ nhận dạng HMM
Trang 39- 32 -
Tuy nhiên HMM liên tục một chiều thì tính toán phức tạp hơn phương pháp Eigenface Để giảm thời gian thực hiện người ta dùng HMM riêng biệt Và đã cho các kết quả sơ bộ đáng khích lệ khi sử dụng HMM 2 chiều Hơn nữa các tác giả gợi ý rằng mô tả Fourier của các hình ảnh có thể dẫn đến sự thực hiện nhận dạng tốt hơn bằng tần số và sự trình bày ở miền tần số có thể tách dữ liệu tốt hơn
1.2.5 Phương pháp Neural Networks
Mạng neural network back-propagation (BP) thường được huấn luyện để nhận dạng mặt trực tiếp Tuy nhiên một mạng đơn có thể rất phức tạp và khó huấn
luyện Một mạng tiêu biểu để nhận dạng ảnh cần N=mxn neurons ngõ vào, một ngõ vào cho mỗi điểm ảnh trong một hình ảnh nxm Ví dụ, những bức ảnh có
kích thước128x128, số ngõ vào của mạng là 16 384 Để giảm mức độ phức tạp Cottrell và Fleming đã sử dụng 2 mạng BP (hình 1.6) Mạng thứ nhất thực hiện trong chế độ tự kết hợp và trích các đặc trưng cho mạng thứ hai, mạng thứ hai này thực hiện ở chế độ phân loại chung nhiều hơn
Mạng tự kết hợp có n ngõ vào, n ngõ ra và p giao điểm lớp ẩn Thường p nhỏ hơn n Mạng lấy một vector mặt x như là một ngõ vào và huấn luyện cho ra một ngõ ra y là một “xấp xỉ tốt nhất ” của x Trong cách này ngõ ra h của lớp ẩn như là một phiên bản được nén của x hay vector đặc trưng và được sử dụng là ngõ vào của mạng phân loại
Bourland và Kamp cho rằng “trong các trường hợp tốt nhất”, khi các hàm sigmoidal tại các nút mạng được thay thế bằng các hàm tuyến tính (khi mạng tuyến tính), các vector đặc trưng giống như được tạo ra bằng phương pháp Karhunen-Loeve hay eigenfaces Khi mạng phi tuyến, vector đặc trưng có thể bị
Trang 40- 33 -
lệch trường hợp tốt nhất Vấn đề này cũng giống như áp dụng sự phân tích giá trị đặc biệt
Hình 1.6: MaÏng Neural Network với hai lớp ẩn
Đặc biệt, giả sử rằng mỗi vector mặt huấn luyện xk (n-chiều),k=1, 2, ,N, các ngõ ra của lớp ẩn và lớp đầu ra của mạng tự kết hợp là hk (p-chiều, thường p<<n và p<N) và yk (n chiều), tương ứng :