Nhận dạng người dựa vào thông tin khuôn mặt xuất hiện trên ảnh

Đólà lý do chúng tôi chọn đề tài : “NHẬN DẠNG NGƯỜI DỰA VÀO THÔNG TIN KHUÔN MẶT XUẤT HIỆN TRÊN ÁNH” Để có hệ thống nhận dạng khuôn mặt với chất lượng tốt, chúng tôi đã tiếpcận bằng hai m

Tổng quan và các khái niệm liên quan đến nhận dạng khuôn mặt

Hệ thống sinh trắc học

Hệ thống sinh trắc học là một hệ thống được thiết kế để xác minh và nhận dạng một người dựa trên các đặc trưng sinh học duy nhất của họ Các đặc trưng này có thể là vân tay, khuôn mặt, giọng nói hoặc mống mắt và được sử dụng để xác thực danh tính một cách an toàn và tiện lợi Mục đích của hệ thống sinh trắc học là tăng cường bảo mật, giảm thiểu gian lận nhận dạng và nâng cao trải nghiệm người dùng trong các ứng dụng công nghệ thông tin.

Hệ thống nhận dạng khuôn mặt

Hệthống nhận dạng khuôn mặt là một hệthống được thiết kế đểtìm thông tin của một người Kĩ thuật nhận dạng là kiểm tra sự phù hợp dựa trên phép so sánh một-nhiều cụthểlà tìm ra một người là ai trong số những người đãđược lưu trữ trong hệthống dựa vào thông tin khuôn mặt.

Hệ thống xác minh hay xác thực khuôn mặt là gì?

Hệ thống xác minh khuôn mặt, hay hệ thống nhận diện khuôn mặt, được thiết kế để xác thực danh tính của một người dựa trên đặc điểm khuôn mặt Kỹ thuật xác minh là quá trình kiểm tra sự phù hợp thông qua phép so sánh một-một: đối chiếu thông tin khuôn mặt mới nhận được với dữ liệu đã lưu trữ về người đó để xác định xem chúng có khớp hay không.

Hoàn toàn chưa biết thông tin Đã biết trước thông tin

Nhận dạng người Xác minh người

Người này là ai? Đây là Peter phải không?

Ke át qu ả Đúng/Sai Peter

Hình 1-1 So sánh tác vụnhận dạng khuôn mặt và xác minh khuôn

Những thách thức trong bài toán nhận dạng khuôn mặt

Những biến đổi quá lớn giữa các ảnh khuôn mặt của cùng một người là thách thức chính đối với công nghệ nhận diện khuôn mặt Các yếu tố gây biến đổi này bao gồm trạng thái cảm xúc trên khuôn mặt, điều kiện ánh sáng và sự thay đổi vị trí hoặc góc nhìn của khuôn mặt Để nhận diện chính xác, hệ thống cần học các đặc trưng bền vững và có khả năng chịu được biến đổi cảm xúc, ánh sáng cùng với góc nhìn, đồng thời khai thác dữ liệu đa dạng từ nhiều ảnh khác nhau Hiểu và quản lý những biến đổi này là nền tảng cho các hệ thống nhận diện khuôn mặt hiệu quả, tin cậy và an toàn trong thực tế.

Giới hạn về số lượng ảnh cần thiết cho nhận diện khuôn mặt cho thấy tập huấn dữ liệu (training set) không thể bao quát mọi biến đổi có thể xảy ra trên khuôn mặt của một người trong thế giới thực Điều này có nghĩa là mô hình nhận diện khuôn mặt có thể gặp khó khăn hoặc cho kết quả sai lệch khi đối mặt với các biến đổi về ánh sáng, góc nhìn, biểu cảm, tuổi tác và trang phục mà dữ liệu huấn luyện chưa đại diện đầy đủ.

Tổng quan về các ứng dụng tương tác người máy (Human computer interactive) liên quan đến khuôn mặt

(Human computer interactive) liên quan đến khuôn mặt

Kể từ những năm 1990 đến nay, sự phát triển bùng nổ của các ngành công nghiệp, đặc biệt là ngành công nghiệp điện tử, đã đẩy mạnh sự phổ biến của máy ảnh số và camera kỹ thuật số, nhưng hiện nay các thiết bị điện tử cao cấp vẫn chủ yếu phù hợp cho phòng thí nghiệm và các doanh nghiệp sản xuất, kinh doanh, thương mại, tài chính, ngân hàng và các lĩnh vực liên quan khác Trong 3 đến 10 năm tới, chi phí cho các thiết bị này dự báo sẽ giảm đáng kể, mở ra nhiều hướng nghiên cứu về thị giác máy tính và các ứng dụng trong giao tiếp giữa người và máy tính, trong đó hệ thống nhận dạng khuôn mặt sẽ đóng một vai trò quan trọng Dưới đây chúng tôi liệt kê một số ứng dụng, đặc biệt cho các ngành hàng và dịch vụ.

9 Đảm bảo sự truy cập có kiểm soát và tính hợp lệ trong công việc cho từng nhân viên: Mọi nhân viên làm việc tại cảng hàng không và phi hành đoàn được cấp quyền truy cập vào khu vực làm việc phù hợp, nhằm đảm bảo an toàn và tuân thủ quy định an ninh sân bay Để xác minh nhân viên vào đúng vị trí làm việc, các biện pháp xác thực và kiểm tra có kiểm soát được áp dụng như cấp thẻ từ/ID, xác thực danh tính, danh sách người được phép, và giám sát bằng hệ thống camera; các quá trình này được triển khai đồng bộ với quản lý nhân sự và đào tạo nhận thức an ninh để đảm bảo tính hợp lệ của mọi lần truy cập.

9 Làm sao để đảm bảo trong số những hành khách không có sự trà trộn của một sốkẻkhủng bố/tội phạm quốc gia/ quốc tế?

CM ắ Bảo vệtrẻemởnhà trẻtừbọn bắt cúc

Quy định an toàn tại nhà trẻ cho phép chỉ nhân viên của trường mới được dẫn trẻ ra ngoài và trao trả cho bố mẹ khi đón về; tuy nhiên vẫn có những trường hợp giả danh để bắt cóc trẻ em với mục đích xấu Để ngăn chặn hành vi này, cần tăng cường các biện pháp nhận diện và xác thực như nhận diện khuôn mặt kết hợp thẻ cấp quyền truy cập, kiểm tra danh tính trước khi giao trẻ, gọi điện xác nhận với phụ huynh và có sự giám sát của quản lý; áp dụng hệ thống cửa ra-vào có kiểm soát, camera giám sát và sổ sách giao nhận; đồng thời giáo dục nhân viên và phụ huynh về nhận diện dấu hiệu giả danh và quy trình đón trả trẻ rõ ràng để bảo vệ trẻ an toàn.

Ở các nước phát triển, hầu như mọi người đều dùng thẻ tín dụng để mua sắm, rút tiền và trao đổi hàng hóa Tuy nhiên, rủi ro rất cao nếu thẻ bị người khác nhặt được hoặc nếu mã PIN của bạn bị lộ Để bảo đảm an toàn tối đa cho thẻ tín dụng, người dùng nên bảo vệ thông tin thẻ và PIN bằng cách không tiết lộ cho người khác, không để lộ thẻ khi thanh toán, kiểm tra sao kê giao dịch thường xuyên, bật thông báo giao dịch và sử dụng xác thực hai yếu tố khi được hỗ trợ, chỉ thanh toán trên các trang web an toàn, cập nhật phần mềm và hệ điều hành, và báo ngân hàng ngay khi có dấu hiệu giao dịch bất thường.

Có thể dùng song mật khẩu, nghĩa là sử dụng khuôn mặt như một mật khẩu thứ hai để truy cập hệ thống, kết hợp với thông tin thẻ từ để xác thực giao dịch rút tiền Đây là phương án tăng cường bảo mật bằng xác thực sinh trắc học và dữ liệu thẻ từ, giúp các giao dịch rút tiền an toàn hơn.

• Đưa khuôn mặt vào đểnhận dạng

• Xác minh người này có phải là chủ sở hữu của thẻ hay không?

Nếu khớp thì hệthống cho rút tiềnNếu không thì hệthống không cho rút tiền.

CM ắ Kinh doanh thương mại điện tử

Với sự tiến bộ của khoa học công nghệ, nhiều hình thức kinh doanh thương mại xuất hiện, nổi bật là thương mại điện tử, cho phép giao dịch trực tuyến giữa hai bên đối tác mà không cần gặp mặt trực tiếp, chỉ dựa trên hình ảnh đại diện hoặc hồ sơ thông tin Tuy nhiên, đi kèm với nền kinh tế số là nguy cơ lừa đảo, giả danh và các hành vi giả mạo; vì vậy cần thực hiện xác thực đối tác, kiểm tra tính minh bạch và đánh giá uy tín trước khi giao dịch Các biện pháp an toàn gồm xác thực danh tính, kiểm tra thông tin doanh nghiệp, lựa chọn kênh thanh toán an toàn và giám sát quá trình giao dịch Bên cạnh đó, việc ngăn chặn việc xuất/nhập cảnh bất hợp pháp cũng là một yếu tố quan trọng để bảo vệ thị trường và người tiêu dùng trong bối cảnh toàn cầu hóa.

Một công dân không được phép xuất, nhập cảnh vào nước này nhưng vẫn có thể khai gian giấy tờ để di chuyển trái phép Làm sao để ngăn chặn sự gian lận trong hồ sơ và đảm bảo an ninh biên giới trước nguy cơ từ xuất/nhập cảnh trái pháp luật? Giải pháp tập trung vào nâng cao kiểm tra hộ chiếu, visa và đối chiếu dữ liệu giữa các cơ quan, đồng thời áp dụng nhận diện sinh trắc học để xác thực danh tính người xuất/nhập cảnh Xây dựng quy trình kiểm tra chuẩn hóa, minh bạch và xử lý nghiêm các trường hợp khai gian nhằm ngăn chặn thông quan trái phép Đồng thời, việc lần dấu vết và phân tích dữ liệu sẽ giúp truy tìm kẻ khủng bố và tăng cường hiệu lực phòng chống tội phạm, phối hợp giữa các cơ quan và cộng đồng để ngăn ngừa mối đe dọa từ sớm.

Qua những bức ảnh số và đoạn video số được ghi lại tự động tại hiện trường trước khi vụ khủng bố xảy ra, cơ quan chức năng có thể nhận diện các đối tượng nghi phạm để phục vụ công tác điều tra Cần nhận dạng nghi phạm từ hình ảnh và video đòi hỏi hệ thống giám sát và nhận diện khuôn mặt tự động hiện đại nhằm rút ngắn thời gian xác minh và khoanh vùng các đối tượng liên quan Công nghệ phân tích dữ liệu hình ảnh và video tự động tăng hiệu quả điều tra, đồng thời nhấn mạnh yêu cầu tuân thủ bảo mật và quyền riêng tư để đảm bảo an toàn công cộng.

Hiện nay tại các khu công nghiệp và các công ty sản xuất lớn có hàng ngàn công nhân ra vào mỗi ngày nên việc giám sát thời gian vào ra và chấm công trở nên phức tạp Để nhận diện đúng từng nhân viên và đảm bảo tính chính xác cho bảng lương, cần áp dụng các giải pháp chấm công hiện đại như hệ thống nhận diện sinh trắc học (vân tay, khuôn mặt), thẻ từ/RFID và phần mềm quản trị nhân sự đám mây Hệ thống này ghi nhận thời gian làm việc theo ca, quản lý ca làm việc và cung cấp dữ liệu thời gian thực cho bộ phận nhân sự, giúp giảm gian lận và sai sót trong chấm công Việc triển khai cần cân nhắc quy mô doanh nghiệp, đảm bảo bảo mật dữ liệu, tuân thủ luật lao động và tối ưu chi phí đầu tư, đồng thời đảm bảo khả năng tích hợp với máy chấm công và báo cáo chấm công tự động Nhờ đó có thể nhận diện và quản lý từng nhân viên một cách hiệu quả, tối ưu hóa quản lý nhân sự và bảng lương.

Những nhu cầu sử dụng các hệ thống xử lý bằng trí tuệ nhân tạo đang ngày càng phát triển, trong đó nhận dạng khuôn mặt để mã hóa mật khẩu cá nhân được xem là một nhu cầu thiết yếu hiện nay và sẽ tiếp tục mở rộng trong tương lai Đáng chú ý, vụ khủng bố ngày 11-9-2001 tại Mỹ đã mở ra một bước ngoặc mới trong xu hướng nghiên cứu và giá trị thương mại của các hệ thống sinh trắc học nhằm bảo vệ sự an toàn cho con người.

Các hướng tiếp cận chính trong lĩnh vực nhận dạng khuôn mặt

Các công trình nghiên cứu về phương pháp nhận dạng và kiểm chứng chất lượng cho một hệ thống nhận dạng khuôn mặt

Bài toán nhận dạng khuôn mặt cần xác định hai vấn đề chính: dùng thông tin nào để nhận dạng (chân mày, cặp mắt, mũi, môi, tai hoặc kết hợp các đặc trưng này) và dùng phương pháp nào để huấn luyện máy nhận dạng dựa trên nguồn thông tin đó Nhận dạng khuôn mặt trên máy tính đã trải qua nhiều thăng trầm và đạt được một số kết quả tiêu biểu như sau: Wenyi Zhao, Arvindh Krishnaswamy, Rama Chellappa, Danie L Swets, John Weng (1998) đã dùng phương pháp PCA (phân tích thành phần chính) kết hợp LDA (phân tích độc lập tuyến tính), với bước 1 chiếu ảnh khuôn mặt từ không gian thô sang không gian đặc trưng khuôn mặt bằng PCA và bước 2 dùng LDA để tạo bộ phân loại tuyến tính có khả năng phân lớp các lớp khuôn mặt; John Daugnman (1998) đề xuất phương pháp dựng đặc trưng dựa trên trũng của mắt để phân biệt cặp song sinh trai gái; Emmanuel Viennet và Francoise Fogelman Soulie (1998) ứng dụng mạng neural nhân tạo để xử lý và nhận dạng khuôn mặt; Antonio J Colmenarez và Thomas S Huang (1998) sử dụng kỹ thuật học thị giác và phù hợp mẫu 2-D, cho rằng bài toán dò tìm khuôn mặt là thao tác phân loại khuôn mặt thuộc một lớp và các đối tượng khác thuộc lớp còn lại bằng cách ước lượng mô hình.

Trong nhận dạng khuôn mặt, mô hình xác suất cho mỗi lớp và dò tìm theo luật quyết định Maximum Likelihood được áp dụng để phân loại Kazunori Okada, Johannes Steffens, Thomas Maurer, Hai Hong, Egor Elagin, Hartmut Neven và Christoph (1998) đề xuất nhận diện khuôn mặt dựa trên sóng Gabor và phương pháp phù hợp đồ thị bó Với ý tưởng dùng đồ thị để biểu diễn khuôn mặt, ảnh được đánh dấu tại các vị trí chuẩn trên khuôn mặt và các vị trí này được gọi là các điểm chuẩn Khi thực hiện thao tác so khớp đồ thị với một ảnh, các điểm chuẩn (Jets) được trích xuất từ ảnh và so sánh với các điểm chuẩn tương ứng trong các đồ thị khác nhau; đồ thị có mức độ khớp cao nhất sẽ được chọn Baback Moghaddam và Alex Pentland (1998) đề xuất phương pháp phù hợp trực tiếp từ các ảnh để nhận diện khuôn mặt và dùng thước đo xác suất để ước lượng sự tương đồng.

Trong năm 1998, các nghiên cứu hàng đầu về nhận diện khuôn mặt đề xuất nhiều hướng tiếp cận khác nhau Massimo Tistaelli và Enrico Grosso giới thiệu kỹ thuật thị giác động, nhấn mạnh khả năng quan sát các chuyển động của khuôn mặt và xử lý các tình huống dự định để có mô tả đầy đủ hơn về khuôn mặt, phục vụ cho thu thập mẫu và nhận dạng Jeffrey Huang, Chengjun Liu và Harry Wechsler đề xuất một thuật toán dựa trên tính tiến hóa và di truyền cho các tác vụ nhận diện khuôn mặt; hai mắt được dò tìm trước và thông tin này được xem như vết chỉ đạo, sau đó quá trình dò mắt tiếp theo được thực hiện bằng một thuật toán lai kết hợp học và tiến hóa trong quá trình huấn luyện Daniel Bgraham và Nigel M Allinson trình bày phương pháp được gọi là tạo bản sao không gian đặc trưng để biểu diễn và nhận diện hướng di chuyển của khuôn mặt Oi Bin Sun, Chian Prong Lam và Jian Kang Wu áp dụng phương pháp tìm vùng các đặc trưng như chân mày, mắt, mũi, miệng và cằm; ảnh khuôn mặt thẳng đứng được chiếu theo chiều ngang và dọc để xác định ngưỡng điểm ảnh và biên trên, dưới, trái và phải của các vùng đặc trưng Ara V Nefian và Monson H Hayes III trình bày một cách tiếp cận dựa trên mô hình ẩn Markov (HMM), trong đó ảnh mẫu khuôn mặt được lượng hóa thành chuỗi quan sát theo thứ tự các đặc trưng khuôn mặt (lông mày, lông mi, mũi, miệng, cằm), mỗi quan sát là một vector đa chiều dùng để đặc trưng cho mỗi trạng thái của chuỗi trạng thái HMM.

Mỗi người có thể được ước lượng bằng một mô hình ẩn Markov có trạng thái (HMM) để phục vụ cho nhận dạng khuôn mặt Guodong Guo, Stan Z Li và Kap Luk Chan đã đề xuất một phương pháp nhận dạng khuôn mặt dựa trên SVM vào ngày 17 tháng 1 năm 2001, áp dụng chiến lược kết hợp nhiều bộ phân loại nhị phân để xây dựng một bộ phân loại SVM đa lớp, từ đó nâng cao hiệu quả nhận diện khuôn mặt.

Hướng tiếp cận được thử nghiệm trong luận văn

Trong đề tài này, chúng tôi thử nghiệm hai phương pháp nhận dạng là SVM và HMM Để làm đầu vào cho hai bộ nhận dạng trên, chúng tôi áp dụng hai kỹ thuật trích xuất đặc trưng PCA (phân tích thành phần chính) và DCT (biến đổi cosine rời rạc) nhằm rút ra các vector đặc trưng phù hợp cho mô hình.

Việc cô lập khuôn mặt trongảnh đầu vào (ảnh chứa khuôn mặt) được thực hiện với phương pháp dò tìm khuôn mặt trongảnh dùng mạng neural.

Sơ đồhệthống nhận dạng khuôn mặt được minh họa trong hình sau:

Tiền xử lý ảnh khuôn mặt Chuẩn hoá khuôn mặt

Phương pháp PCA Trích đặc trưng

MÔ TẢ DỮ LIỆU

Thu thập dữ liệu

Cơ sở dữ liệu ảnh khuôn mặt gồm 30 người được thu thập từ nhiều nguồn khác nhau 10 người đầu tiên có ảnh được lấy từ trang http://www.humanscan.de/support/downloads/facedb.php của công ty Human Scan và được dùng cho bài toán dò tìm khuôn mặt 3 người tiếp theo có ảnh từ trang http://www.mis.atr.co.jp/~mlyons/ Kyushu University, mỗi người có 20 ảnh khác nhau và nguồn dữ liệu này chuyên phục vụ cho bài toán nhận dạng cảm xúc 17 người còn lại được lấy từ trang http://cswww.essex.ac.uk/projects/vision/allfaces, mỗi người bao gồm 20 ảnh.

20ảnh khác nhau, và nguồn dữliệu này chuyên phục vụ cho cácứng dụng nhận dạng khuôn mặt Cơ sởdữliệu này được minh hoạtrong Hình 2-1.

Ngoài ra, chúng tôi còn xây dựng một tập dữ liệu riêng trong quá trình thực hiện đề tài Tập dữ liệu này được thu thập bằng webcam và bao gồm 10 người khác nhau Với tính chủ động trong việc tạo mẫu, mỗi người có khoảng hơn 50 ảnh, tạo nên một tập dữ liệu đa dạng Tập mẫu này được minh hoạ trong Hình 2-2.

Nhận xét về tập mẫu dữ liệu khuôn mặt: Hầu hết các khuôn mặt xuất hiện trong ảnh là trực diện với mặt phẳng ảnh và đều có đầy đủ các đặc trưng nhận diện như hai chân mày, hai mắt, mũi, miệng và cằm Một số khuôn mặt quay ở góc không đáng kể, cho thấy sự đa dạng về góc nhìn nhưng vẫn đảm bảo tính nhất quán của dữ liệu.

Kích thước chuẩn hóa của mỗi mẫu trong tập huấn luyện được cố định ở 30×30 (pixels) hoặc 32×32 (pixels), như mô tả trên Hình 2-3 Tùy thuộc vào đặc trưng xử lý của mỗi thuật toán, ta sử dụng một trong hai dạng kích thước ảnh chuẩn này để tối ưu hiệu quả xử lý và học máy.

Hình 2-1 Dữliệu gồm 30 người được gán nhãn theo thứtựtừ1 đến 30.

Hình 2-2 Dữliệu gồm 10 người được gán nhãn theo thứtựtừ1 đến 10

Hình 2-3 Kích thước chuẩn hoá của một mẫu khuôn mặt trong tập học

Biểu diễn dữ liệu khuôn mặt trong máy tính

Dữ liệu ảnh biểu diễn trong máy tính là cường độ sáng của mỗi điểm ảnh tại vị trí x và y, được ký hiệu I(x,y) Để chuẩn hóa dữ liệu phục vụ cho các thuật toán nhận dạng, có hai cách tổ chức dữ liệu phổ biến: Thứ nhất, đọc từng ảnh theo thứ tự từ trên xuống dưới, mỗi ảnh được xếp liên tục thành một mảng thực một chiều Với ảnh có kích thước 30×30, ta biểu diễn thành vector 1D x = (x1, x2, , x900), và đây là cách bố trí được dùng để thử nghiệm các phương pháp PCA và SVM Thứ hai, chia ảnh thành các khối có kích thước 8×32 (pixels) theo thứ tự và ghép chúng lại theo chiều cao, sau đó mỗi khối ảnh 8×32 lại được tách thành các khối con 8×8 liên tiếp với nhau Từ mỗi khối 8×8, ta chọn ra 20 hệ số đặc trưng từ biến đổi trên miền tần số Các khối 8×32 sau khi lượng hóa sẽ được biểu diễn thành một vectơ 1D, do đó một khuôn mặt được mô tả như một chuỗi các vectơ 1D liên tiếp nhau Đây là cách bố trí dữ liệu nhằm thử nghiệm cho các phương pháp DCT và HMM.

DÒ TÌM KHUÔN MẶT

Giới thiệu

Dò tìmđối tượng là bài toán cơ bản và quan trọng trong lĩnh vực thịgiác máy tính.

Các kỹ thuật được áp dụng có thể chia thành hai tiếp cận chính: tiếp cận so khớp các mô hình hình học hai chiều với ảnh và tiếp cận so khớp các mô hình hình học ba chiều với ảnh Những tiếp cận này được minh chứng trong các công trình như Seutens et al., 1992 và Chin và Dyer, cho thấy cách tích hợp các mô hình hình học vào quá trình nhận diện và phân tích ảnh, tùy thuộc vào đặc điểm dữ liệu và mục tiêu ứng dụng.

Trong các công trình từ năm 1985–1986 của Besl và Jain, họ đề xuất phương pháp so khớp các mô hình khung vào ảnh có chứa khuôn mặt cần dò tìm Các nghiên cứu trước đây cho thấy các phương pháp dựa trên khung nhìn có thể dò tìm các khuôn mặt thẳng trong nền phức tạp một cách hiệu quả.

Việc phát triển bộ dò tìm đối tượng dựa trên khung hình dùng máy học có ba vấn đề chính Vấn đề đầu tiên là sự biến đổi đa dạng của hình ảnh đối tượng (ví dụ khuôn mặt) do độ sáng khác nhau, tình trạng che khuất, tư thế, biểu hiện khuôn mặt và mức độ giống nhau giữa mẫu và thực tế Để đối phó với biến đổi này, thuật toán dò tìm cần được huấn luyện với càng nhiều biến đổi và dữ liệu phong phú để tăng khả năng nhận diện trong mọi hoàn cảnh.

Trong hệ thống nhận diện đối tượng, bước thứ hai là dùng một hoặc nhiều mạng neural được huấn luyện để xử lý mọi biến đổi còn lại nhằm phân biệt đối tượng với không đối tượng Bước thứ ba là kết hợp đầu ra từ các bộ dò tìm để đưa ra quyết định cuối cùng xem có biểu diễn đối tượng hay không.

Hai bài toán dò tìm và nhận dạng đối tượng có liên hệ mật thiết với nhau Một hệ thống nhận dạng đối tượng có thể được xây dựng mà không có bộ dò tìm đối tượng, và ngược lại một bộ dò tìm đối tượng có thể tồn tại mà không có hệ thống nhận dạng; bộ nhận dạng cần phân biệt đối tượng mong muốn với mọi đối tượng khác có thể xuất hiện hoặc với lớp đối tượng chưa biết Do đó hai bài toán này về cơ bản là tương đồng, dù trong thực hành hầu hết các hệ thống nhận dạng ít khi được triển khai theo khung hợp nhất và các bộ dò tìm chưa được huấn luyện trên mọi loại đối tượng Sự khác biệt về mục tiêu và ngữ cảnh dẫn đến sự đa dạng trong cách trình bày và thuật toán giữa hai bài toán dò tìm và nhận dạng đối tượng.

Thông thường, hệ thống nhận dạng khuôn mặt hoạt động theo hai bước chính: trước tiên áp dụng bộ dò tìm khuôn mặt để định vị và xác định vị trí khuôn mặt trong ảnh hoặc video; sau đó sử dụng thuật toán nhận diện khuôn mặt để nhận diện danh tính hoặc phân loại khuôn mặt dựa trên các đặc trưng đã được huấn luyện.

Việc thêm các khuôn mặt nghiêng vào tập dữ liệu nhận diện khuôn mặt làm tăng sự biến thiên của dữ liệu và có thể làm phức tạp đường biên quyết định của bài toán phân loại, khiến quá trình dò tìm khó khăn hơn Tuy nhiên, việc bổ sung ảnh mới cho tập ảnh đối tượng có thể làm cho đường biên quyết định trở nên đơn giản hơn và dễ học hơn trong quá trình huấn luyện Có thể hình dung điều này như đường biên quyết định được làm mượt hơn khi mở rộng tập ảnh với các biến thể mới Việc tăng cường dữ liệu với các khuôn mặt thẳng và nghiêng giúp mô hình học được ngưỡng phân loại ổn định hơn Do đó, kỹ thuật tăng cường dữ liệu (augmentation) đóng vai trò quan trọng để cải thiện hiệu suất nhận diện khuôn mặt và độ bền của mô hình trước các biến đổi thực tế.

Có nhiều nguồn biến đổi trong bài toán dò tìm đối tượng, và cụ thể trong bài toán dò tìm khuôn mặt Có các nguồn biến đổi sau.

9 biến đổi trong mặt phẳng là tập hợp các biến đổi hình học cơ bản được dùng để xử lý và phân tích ảnh khuôn mặt Những biến đổi này có thể được biểu diễn độc lập với khuôn mặt để chỉnh sửa ảnh mà không phụ thuộc đặc tính của từng khuôn mặt Các biến đổi đơn giản nhất gồm quay, dịch chuyển, biến đổi tỷ lệ và soi gương ảnh, tạo nền tảng chuẩn hóa hình ảnh cho các ứng dụng nhận diện và xử lý khuôn mặt trong trí tuệ nhân tạo và thị giác máy tính.

9 biến đổi về độ sáng và ngữ cảnh trong hình ảnh phát sinh từ sự tương tác giữa đối tượng và môi trường, cụ thể là các thuộc tính bề mặt của đối tượng và nguồn sáng Các thay đổi về nguồn sáng nói riêng có thể biến đổi hoàn toàn vẻ ngoài của khuôn mặt, nhấn mạnh tầm quan trọng của ánh sáng và ngữ cảnh trong các bài toán nhận diện và phân tích hình ảnh.

9 Biến đổi nền: Trong luận văn của Sung, với các kỹ thuật nhận dạng mẫu hiện nay, tiếp cận dựa trên khung nhìn để dò tìm đối tượng chỉ thích hợp cho những đối tượng có đường biên có thể dự đoán được Khi hình dạng của đối tượng được dự đoán rõ, ta có thể trích xuất một cửa sổ chứa chỉ các pixel bên trong đối tượng và bỏ qua nền ở bên ngoài, từ đó giảm nhiễu nền và tăng hiệu quả nhận diện đối tượng trong hệ thống nhận dạng hình ảnh.

9 biến đổi hình dáng khuôn mặt là loại biến đổi tập trung vào biểu lộ cảm xúc qua nét mặt, trong đó miệng và mắt có thể mở hoặc đóng, và hình dáng khuôn mặt thay đổi tùy theo từng người để phản ánh đặc điểm riêng biệt.

3.1.2 Tiếp cận theo khung nhìn kết hợp mạng nơron

Hệthống dò tìm khuôn mặt thực hiện qua bốn bước chính:

1 Ước lượng vịtrí: việc dùng tiếp cận máy học, cụthểlà mạng neural, đòi hỏi việc huấn luyện mẫu Đểgiảm sốlượng biến đổi trongảnh huấn luyện dương, ảnh được canh biên với cácảnh khác để cực tiểu hoá các biến đổi vị trí đặc trưng khuôn mặt Khi thi hành chương trình, ta không biết chính xác các vịtrí đặc trưng khuôn mặt, do đó không thểdùng chúng để định vị cácứng viên khuôn mặt tiềm năng Thay vậy, ta dò tìm toàn diệnởmọi vị trí và tỷlệ đểtìm mọi vịtríứng viên Các cải tiến dò tìm toàn diện làm cho thuật toán nhanh hơn, với tỷlệdò tìm giảm 10% đến 30%.

2 Tiền xửlý: để giảm các biến đổi gây ra do chiếu sáng hay camera,ảnh được tiền xửlý với các thuật toán chuẩn như cân bằng lược đồ đểcải thiện độsáng và độtương phản trongảnh.

3 Dò tìm: các khuôn mặt tiềm năng đã chuẩn hoá về vịtrí, tư thế, và độ sáng trong hai bước đầu tiên được khảo sát đểxác định chúng có thực sựlà khuôn mặt hay không Quyết định này được thực hiện bằng mạng neural đã huấn luyện với nhiềuảnh mẫu khuôn mặt và không khuôn mặt.

4 Quyết định: Kết hợp nhiều mạngđểcó được một quyết định khách quan nhất Mỗi mạng học những điều khác nhau từdữliệu huấn luyện, và đưa ra các lỗi khác nhau Các quyết định của chúng có thể kết hợp dùng một số heuristic đơn giản, làm tăng độchính xác dò tìm khuôn mặt và ngăn chặn lỗi.

3.1.3 Dò tìm khuôn mặt bằng phương pháp mạng neural

Canh bieân mẫu khuôn mặt

Tiền xử lý tập mẫu học

Huaỏn luyeọn dò tìm khuôn mặt thẳng

Lấy tất cả Window cùng với vị trí trên ảnh

Tiền xử lý các Window

Giữ lại vị trí các mẫu là khuôn mặt Ảnh thử nghiệm có khuôn mặt

Tập mẫu không phải khuôn mặt

Xác minh window là khuôn mặt/ không phải khuôn mặt

Kết hợp các khuôn mặt mà vũ trớ truứng laỏp

Các khuôn mặt tại các vị trí khác nhau

Loại bỏ window không phải khuôn mặt

Hình 3-1 Sơ đồluồng xửlý các bước chính trong tiến trình dò tìm khuôn mặt

Chuẩn bị dữ liệu cho hệ thống dò tìm khuôn mặt

Phương pháp tiếp cận dựa trên khung nhìn dùng để dò tìm khuôn mặt, trong đó bộ dò tìm theo khung nhìn phải xác định xem một cửa sổ con của ảnh có thuộc tập ảnh khuôn mặt hay không Để phân biệt khuôn mặt với nền, cửa sổ con được đánh giá xem có chứa khuôn mặt hay chỉ là nhiễu và nền thông thường Các biến đổi trong ảnh khuôn mặt như góc nhìn, ánh sáng và biểu cảm có thể làm tăng độ phức tạp của đường biên quyết định, khiến việc dò tìm khuôn mặt khó khăn hơn Phần này mô tả các kỹ thuật nhằm giảm thiểu biến đổi trong ảnh khuôn mặt và cải thiện độ tin cậy của quá trình nhận diện khuôn mặt.

3.2.2 Gán nhãn và canh biên các đặc trưng khuôn mặt

Bước đầu tiên trong việc giảm biến đổi của ảnh khuôn mặt là căn chỉnh biên các khuôn mặt với nhau, nhằm tối ưu hóa sự giống nhau giữa chúng Việc căn chỉnh biên này giúp giảm sự biến đổi về vị trí, hướng và tỷ lệ khuôn mặt, từ đó tạo ra không gian ảnh khuôn mặt tối ưu và nhất quán Quá trình căn chỉnh được tính toán trực tiếp từ các ảnh và góp phần chuẩn hóa dữ liệu khuôn mặt vào một không gian đại diện chung Tuy nhiên, cường độ sáng của ảnh khuôn mặt có thể biến đổi nhiều, khiến một số khuôn mặt khó căn chỉnh chuẩn xác với nhau và ảnh hưởng đến hiệu quả xử lý nhận diện khuôn mặt.

Ta dùng giải pháp gán nhãn thủ công các mẫu khuôn mặt Cụ thểlà vịtrí hai mắt, đỉnh mũi, hai góc và trung tâm miệng của mỗi khuôn mặt.

Bước tiếp theo là dùng thông tin này để căn chỉnh các khuôn mặt với nhau dựa trên các tập điểm đặc trưng Định nghĩa căn chỉnh giữa hai tập điểm đặc trưng gồm phép quay, biến đổi tỉ lệ và dịch chuyển nhằm tối thiểu hoá tổng bình phương khoảng cách giữa từng cặp đặc trưng tương ứng Trong không gian hai chiều, các phép biến đổi tọa độ như vậy có thể được diễn đạt bằng một công thức tổng quát, giúp căn chỉnh các điểm một cách hiệu quả và ổn định cho các ứng dụng nhận diện và phân tích khuôn mặt.

Nếu có nhiều tập toạ độtươngứng, có thểviết như sau:

Khi hệ các phương trình tuyến tính có hai hay nhiều cặp điểm đặc trưng (eigenpairs) khác nhau, hệ này có thể được giải bằng phương pháp đảo ngược giả Gọi ma trận A là ma trận hệ số và A^+ là nghịch đảo giả Moore–Penrose của A Nếu A có tập đầy đủ các eigenvectors, ta có phân rã A = V Λ V^{-1}, với V chứa các eigenvectors và Λ là ma trận chéo chứa các eigenvalues Khi một eigenvalue bằng 0 hoặc A không khả nghịch, nghiệm tối tiểu bình phương x = A^+ b vẫn cho ta lời giải tối ưu; nếu b thuộc cột không gian của A, nghiệm đúng sẽ là x = A^+ b Nói cách khác, phương pháp đảo ngược giả cho phép giải hệ tuyến tính ngay cả khi không có nghịch đảo thông thường, bằng cách tối ưu hóa sai số và tận dụng cấu trúc eigen để đơn giản hóa tính toán.

CM bên trái là A, vector (a, b, tx, ty) T là T, và bên phải là B, khi đó lời giải:

Giải pháp nghịch đảo giả cho bài toán biến đổi cho phép xác định một phép biến đổi T sao cho tổng bình phương sai khác giữa hai tập tọa độ x'i, y'i và phiên bản đã biến đổi của xi, yi được tối thiểu Lời giải này cho thấy cách T tối ưu hóa sự khớp giữa các điểm sau biến đổi và dữ liệu gốc, giúp giảm thiểu sai số và tăng độ chính xác của quá trình đồng bộ hóa dữ liệu hình học.

Canh biên tập các điểm đặc trưng.

1 Khởi tạo F , vector sẽ là vị trí trung bình của mỗi đặc trưng gán nhãn trên mọi khuôn mặt, với một sốvịtrí đặc trưng ban đầu Trong trường hợp canh biên các khuôn mặt thẳng, các đặc trưng này là vị trí mong muốn của hai mắt, đỉnh mũi, hai góc và trung tâm miệng của mỗi khuôn mặt trong cửa sổ đầu vào.

2 Với mỗi khuôn mặt i, dùng thủ tục canh biên để tính phép quay,dịch chuyển, và biến đổi tỷ lệ tốt nhất để canh biên các đặc trưng khuôn mặt Fi với các vị trí đặc trưng trung bình F Gọi vị trí đặc trưng đã canh biên F’ i

3 Cập nhật F bằng việc lấy trung bình các vị trí đặc trưng đã canh biên F’icho mỗi khuôn mặt i.

4 Toạ độ đặc trưng trong F được quay, dịch chuyển và biến đổi để phù hợp với một sốtoạ độchuẩn Toạ độchuẩn là toạ độ được dùng làm giá trịkhởi tạo cho F

Theo kinh nghiệm, thuật toán hội tụ sau năm lần lặp tạo cho mỗi khuôn mặt một phép biến đổi ánh xạ nó về gần vị trí chuẩn và căn biên với mọi khuôn mặt khác Khi đã xác định được các tham số căn biên khuôn mặt, ảnh có thể được tái lấy mẫu bằng nội suy tuyến tính Khuôn mặt chuẩn và phân phối các vị trí đặc trưng được trình bày trong Hình 3-2, và các mẫu ảnh đã căn biên bằng kỹ thuật này được thể hiện trong Hình 3-3.

Trong Hình 3-2, ở bên trái là mẫu khuôn mặt chuẩn, còn ở bên phải thể hiện các vị trí đặc trưng khuôn mặt chuẩn (được đánh dấu bằng vòng trắng) và phân phối của các vị trí đặc trưng thực tế sau khi căn chỉnh biên từ mọi mẫu, với các điểm đen đại diện cho dữ liệu thực nghiệm.

Hình 3-3 Ví dụ ảnh khuôn mặt thẳng được canh biên.

Trong quá trình huấn luyện bộ dò tìm, việc thu thập đủ số mẫu là yếu tố then chốt để đạt hiệu quả cao Một kỹ thuật phổ biến để mở rộng dữ liệu là khung nhìn ảo, trong đó các ảnh mẫu mới được tạo ra từ ảnh thực bằng cách quay, dịch chuyển và biến đổi tỷ lệ ngẫu nhiên ảnh mẫu Phương pháp tăng cường dữ liệu này giúp tăng tính đa dạng của tập mẫu mà vẫn giữ được đặc trưng quan trọng, từ đó cải thiện độ chính xác và khả năng tổng quát của bộ dò.

3.2.3 Tiền xử lý về độ sáng và độ tương phản trên tập mẫu học

Sau khi căn chỉnh biên khuôn mặt, vẫn còn một nguồn biến đổi chính ngoài các khác biệt vốn có giữa các khuôn mặt Nguồn biến đổi này phát sinh từ độ sáng và các đặc tính của máy ảnh, khiến ảnh có độ sáng quá cao hoặc quá thấp và có thể kết quả là độ tương phản kém.

Để xử lý vấn đề này, ta áp dụng một tiếp cận xử lý ảnh đơn giản với bước tiền xử lý nhằm cân bằng giá trị mật độ trên toàn cửa sổ Sau đó, ta lập một hàm biến đổi tuyến tính cho giá trị mật độ trong vùng tròn nằm trên cửa sổ nhằm điều chỉnh độ sáng và tương phản một cách đồng bộ Các điểm ảnh ngoài hình tròn được xem là nền hoặc có thể bỏ qua trong quá trình xử lý Với mỗi điểm ảnh (x, y) có độ sáng I(x, y), biến đổi tuyến tính này được tham số hóa bởi các tham số a, b, c, theo một công thức điển hình như I'(x, y) = a·I(x, y) + b·x + c (hoặc một biến thể phù hợp), nhằm tối ưu hóa sự đồng nhất của mật độ giữa vùng trong hình tròn và nền bên ngoài.

Việc chọn phương pháp biến đổi này là tùy ý và có thể biểu diễn các khác biệt về độ sáng trên toàn ảnh Các biến đổi được giới hạn ở dạng tuyến tính nhằm giảm số tham số và đảm bảo việc thiết lập hàm nhanh chóng Khi ta xét tập hợp mọi pixel trên toàn cửa sổ hình tròn, ta thu được một hệ ma trận ràng buộc và được giải bằng nghịch đảo Moore–Penrose Phương trình tuyến tính này xấp xỉ độ sáng của từng phần bên trong cửa sổ và được trừ khỏi cửa sổ để cân bằng biến đổi về độ sáng.

Tiếp theo, cân bằng lược đồ và ánh xạ phi tuyến các giá trị mật độ nhằm mở rộng miền cường độ trong cửa sổ Lược đồ được tính dựa trên các pixel trong vùng tròn của cửa sổ, giúp cân bằng tín hiệu và giảm sai số thu nhận từ camera Quá trình này bù cho sự khác biệt trong việc thu nhận đầu vào và đồng thời cải thiện độ tương phản trong một số trường hợp Kết quả của từng bước được trình bày trong Hình 3-4.

RÚT TRÍCH ĐẶC TRƯNG TỪ KHUÔN MẶT

Tiếp cận theo phương pháp phân tích thành phần chính (Principal

4.1.1 Vector riêng, Trị riêng và sự chéo hoá của ma trận

Xét một toán tửtuyến tính f trong không gian R n với các vector cơ sở: e i = [0 1 0] T (với giá trị1 nằm tại vịtrí thứi) (4.1.1)

Toán tử tuyến tính này sẽ được biểu diễn bởi một ma trận vuông T kích thướcn×n.

Một đại lượng vô hướngλđược gọi là trị riêng của toán tửf, hay của ma trậnT, nếu tìmđược một vectorx, x≠0, sao cho f(x) =λx (4.1.2) hay T*x =λx (4.1.3)

Vector xkhi đó được gọi là vector riêng của f, hayT, ứng với trị riêngλ.

Ma trận T với kích thướcn×n trên đây sẽ có tối đa ntrị riêng và n vector riêng tươngứng Một ma trậnTkhảnghịch đảo sẽcó đủntrịriêng (kểcảtrịriêng bội) vànvector riêng tươngứng.

4.1.2 Kì vọng và phương sai trong thống kê đa chiều

Ma trận T được biểu diễn trong không gian R^n với các vector cơ sở e_i như đã nêu ở trên được gọi là chéo hóa Điều kiện để ma trận T chéo hóa là tồn tại một cơ sở khác trong không gian R^n sao cho ma trận T biểu diễn trong cơ sở đó có dạng chéo, tức là các phần tử ngoài đường chéo bằng 0.

Ví dụ:Khảo sát trên không gianR 5 với ma trận chéo5×5

Giả sử C là ma trận các vector cơ sở mới được biểu diễn trong cơ sở {e_i} Ở đây, ma trận T được chuyển từ cơ sở {e_i} sang cơ sở mới nên ma trận chuyển đổi cơ sở từ {e_i} sang C cũng là C Nếu T có thể hoá được, tức là tồn tại ma trận C khẳng định (tức là C tạo được một cơ sở trong R^n) sao cho :

Nếu ta có C là một ma trận có các cột là các vector cơ sở đã được chuẩn hóa của không gianR n thìC T = C -1 , khi đó ta có thểviết :

Ta có thểtìmđược ma trậnCđểchéo hóa một ma trậnTbằng cách tìm các vector riêng của ma trậnT Ma trậnClà ma trận có các cột là các vector riêng của

+ Kì vọng Đối với thống kê nhiều chiều, mỗi một mẫu thống kê là một vector nhiều chiều.

Giảsửta có một biến ngẫu nhiênXtrong không gian tuyến tínhnchiều.

Khi biến ngẫu nhiên X là một vector n chiều, kỳ vọng của X (ký hiệu là E[X]) cũng là một vector n chiều Trong thống kê, kỳ vọng E[X] có thể được ước lượng bằng trung bình mẫu X̄, được tính từ các quan sát X1, X2, , Xm và áp dụng cho từng chiều của vector X Trung bình mẫu là ước lượng phổ biến cho kỳ vọng và sẽ tiệm cận với kỳ vọng thật của X khi số lượng mẫu tăng lên theo định lý số lớn.

Trong đóMlà tổng sốmẫu có trong thống kê.

+ Ma trận hiệp phương sai

Giá trị phương sai trong thống kê một chiều là thước đo mức độ phân tán của biến ngẫu nhiên quanh kỳ vọng Trong thống kê nhiều chiều, khái niệm này được mở rộng thành ma trận hiệp phương sai để mô tả sự biến thiên đồng thời giữa các biến, với mọi phần tử ở vị trí (i, j) bằng Cov(X_i, X_j) Các phần tử trên đường chéo bằng Var(X_i), còn các phần tử ngoài đường chéo là hiệp phương Cov(X_i, X_j) với i khác j Ma trận hiệp phương sai là một ma trận đối xứng và dương bán xác định, giúp ta hiểu rõ sự liên hệ giữa các biến và dùng để chuẩn hóa, so sánh mức độ liên quan giữa chúng Ứng dụng của ma trận hiệp phương sai bao gồm phân tích đa biến như Phân tích thành phần chính (PCA), mô hình hóa rủi ro và các kỹ thuật học máy nhằm giảm kích thước dữ liệu, đánh giá phụ thuộc giữa các biến và xây dựng các mô hình dự báo chính xác hơn.

Ma trận hiệp phương sai là một ma trận đối xứng Mỗi phần tử c ij của ma trận là hiệp phương sai giữa hai thành phầnx i vàx j trong vectorX.

Nếuc ij = 0ta nói hai thành phầnx i vàx j là độc lập hay không phụthuộc lẫn nhau.

Nếuc ij ≠0, ta nóix i vàx j không độc lập hay giữa chúng có mối tương quan với nhau.

Trong thống kê, ma trận hiệp phương sai được tính như sau :

4.1.3 Kỹ thuật rút trích trích đặc trưng bằng phương pháp phân tích thành phần chính

CM co m chieu (m < n) Goi x la mot vector trong khong gian n chieu, y la mot vector trong khong gian m chieu Ta co trung binh binh phuong loi MSE (mean square error) khi loai bo mot so thanh phan trong x de thu duoc y, bang tong phuong sai cua nhung thanh phan bi loai bo Phuong phap phan tich thanh phan chinh se tim mot phep bien doi tuyen tinh y = T*x, T la ma tran m x n (4.1.10) sao cho trung binh binh phuong loi la be nhat.

GọiMlà vector trung bình của các vector x trong tập họcX.

1 , Mlà sốphần tửtrong tập học (4.1.11)

GọiClà ma trận hiệp phương sai của các các phần tửtrong tậpX.

1 , Clà ma trận đối xứngnxn (4.1.12)

Người ta chứng minh rằng T là một ma trận sao cho mỗi hàng của T là một vector riêng của C và các vector riêng này ứng với trị riêng lớn nhất của C Khi đó, T chính là một phép biến đổi tuyến tính thỏa mãn điều kiện MSE tối thiểu Nói cách khác, việc chọn các vector riêng tương ứng với trị riêng lớn nhất của C làm cơ sở cho các hàng của T mang lại một phép biến đổi tuyến tính có hiệu suất tối ưu theo tiêu chí MSE cho các bài toán liên quan đến biến đổi dữ liệu.

GọiΦlà ma trận vuôngn×nmà mỗi cột là một vector riêng củaCđãđược chuẩn hóa với phép biến đổi : y =Φ T *x y = (y 1 , y 2 , , y n ) (4.1.13) được gọi là phép biến đổiHotelling.

Xét theo quan điểm nhận dạng, mỗi thành phần y_i của vectơ x được xem như một đặc trưng riêng biệt của mẫu x Các đặc trưng này được coi là độc lập với nhau vì ma trận hiệp phương sai của y là ma trận chéo, với các phần tử trên đường chéo chứa các biến động riêng biệt Nhờ tính độc lập giữa các đặc trưng, quá trình nhận dạng và phân tích vectơ x trở nên đơn giản và hiệu quả hơn, nhờ việc tách rời thông tin từ từng đặc trưng riêng lẻ.

C y =Φ T CΦ (4.1.14) là một ma trận chéo (đãđềcập tới trong phần : Vector riêng, trịriêng và sựchéo hóa ma trận).

Phân tích thành phần chính (PCA) là một phương pháp ánh xạ một vector từ không gian ban đầu sang không gian chiều giảm để tìm các trị riêng và vector riêng của ma trận hiệp phương sai của tập X Phương pháp này chọn vector riêng tương ứng với trị riêng lớn nhất làm cơ sở cho không gian chiều mới, giúp giữ lại phần lớn thông tin biến thiên và giảm nhiễu cho dữ liệu.

Hình 4-1 Hai trục tươngứng với hai thành phần quan trọng nhất và ít quan trọng nhất đối với tập mẫu có hai cluster nhưtrên.

Khi sốlượng mẫuMtrong tậpXnhỏhơn sốchiềun, thay vì tính trực tiếp các vector riêng từma trận hiệp phương saiC, ta có thểtính các vector riêng theo phương pháp sau :

9 B ướ c 1 : Tính ma trận kích thướcM×M, C’như sau :

C’ = Y T Y vớiY n×M = [x 1 , x 2 , , x M ]mỗi cột của ma trận là một phần tửx i , i=1 m

TínhMvector riêngEM i và các trịriêng tươngứng của ma trậnC’.

Chọnmvector riêngứng vớimtrịriêng lớn nhất đểtiếp tục bước 3.

Chiếu các vector riêng Mchiều này về lại không gian n chiều của các mẫux i bằng cách như sau :

Các vectorEn i thu được chính là các vector riêng cần tìm của ma trậnC.

Cách xác định sốthành phần chính hiệu quảnhất

Trong phân tích thành phần chính (PCA), có hai phương pháp hữu ích giúp xác định số lượng thành phần chính sao cho hiệu quả Cả hai phương pháp này dựa trên mối quan hệ giữa các giá trị đặc trưng (giá trị riêng) của dữ liệu, từ đó cân nhắc độ phóng đại thông tin và độ phức tạp của mô hình Một phương pháp tập trung vào tổng phương sai được giữ lại khi thêm hay loại bỏ các thành phần, trong khi phương pháp còn lại đánh giá ngưỡng giá trị đặc trưng hoặc tỷ lệ giải thích phương sai để quyết định số lượng tối ưu Việc dựa vào mối quan hệ giữa các giá trị đặc trưng giúp chọn đúng số lượng thành phần chính, tối ưu hóa hiệu suất phân tích và nâng cao chất lượng dữ liệu.

9 Sắp xếp lại các giá trị đặc trưng tìm được theo thứ tựgiảm dần về mặt giá trị (1,eigenvalue[1]), (2,eigenvalue[2]),

…,( p ,eigenvalue[ p ]) và Thứ tự này vẫn đảm bảo được thứ tự của các vector đặc trưng tươngứng.

Trong phân tích dữ liệu, ta theo dõi sự biến thiên của chuỗi giá trị đặc trưng sau khi đã được sắp xếp lại Khi biến thiên tiến tới một điểm ngưỡng, thường xấp xỉ bằng không, là lúc ta nhận thấy đã đủ số lượng thành phần chính cần thiết Việc xác định ngưỡng này cho phép tối ưu hóa quá trình chọn thành phần, giảm thông tin dư thừa và giữ lại phần trọng yếu của dữ liệu.

Phương châm là giữ số lượng thành phần chính ở mức tối thiểu nhưng vẫn đủ để giải thích khả năng phân tán của tập mẫu học thành các lớp mẫu riêng biệt cần thiết nhất Điều này giúp tối ưu cấu trúc dữ liệu và tăng hiệu quả phân loại mà vẫn duy trì sự phân tách rõ ràng giữa các lớp mẫu.

Cách đểnhận được các thành phần chính

9 Các thành phần chính có thể nhận được bằng cách chiếu các vector dữ liệu có nhiều biến động vào không gian mở rộng từ các vector đặc trưng.

Các đánh giá quan trọng vềrút trích đặc trưng bằng phương phápPCA

Khi số đặc trưng được lấy càng về sau, khả năng biến động của dữ liệu cần được giảm xuống để duy trì tính ổn định cho mô hình học máy Điều này đồng nghĩa với việc mối quan hệ giữa các phần tử trong tập đặc trưng càng cao, các đặc trưng có sự liên kết chặt chẽ với nhau Do sự liên kết này, mức độ giao thoa giữa các lớp mẫu trong tập dữ liệu càng lớn, khiến việc phân biệt giữa các lớp gặp nhiều thách thức và đòi hỏi các kỹ thuật xử lý dữ liệu và tối ưu mô hình hiệu quả hơn Từ đó, việc kiểm soát biến động, tăng cường liên kết giữa các phần tử và nhận diện sự giao thoa giữa các lớp mẫu trở thành yếu tố then chốt để nâng cao hiệu suất của hệ thống học máy.

Trong phân tích dữ liệu bằng các thành phần chính (PCA), nếu không chọn đủ số lượng thành phần chính, khả năng phân tán của tập mẫu sẽ tăng lên và có thể vượt quá số lớp mẫu cần thiết trong tập dữ liệu Điều này làm cho mẫu trở nên khó kiểm soát và có thể làm giảm hiệu quả phân tích, vì độ phân tán quá lớn ảnh hưởng đến độ chính xác của mô hình Vì vậy, xác định đúng số lượng thành phần chính là yếu tố then chốt để kiểm soát độ phân tán của tập mẫu, tối ưu hóa quá trình phân tích và nâng cao chất lượng kết quả.

Tiếp cận theo phương pháp Biến đổi Cosine rời rạc

4.2.1 Ý nghĩa phép biến đổi DCT

Phép biến đổi Cosine rời rạc (DCT) là một kỹ thuật biến đổi nhanh và là một trong những công cụ hữu ích nhất trong lĩnh vực xử lý tín hiệu số nói chung và xử lý ảnh, video nói riêng Mục đích của DCT là biến đổi tín hiệu từ miền không gian pixel sang miền tần số nhằm mã hóa và nén tín hiệu, từ đó giảm khối lượng dữ liệu một cách hiệu quả mà vẫn bảo toàn chất lượng tín hiệu.

4.2.2 Các khái niệm quan trọng ắ Định nghĩa 1

Phép biến đổi Cosine rời rạc hai chiều trên một ma trận C = { c k n ( , ) } kích thước

N N × , cũng gọi là một phép biến đổi cosine rời rạc, được định nghĩa như sau

Phép biến đổi Cosine rời rạc một chiều trên một dãy số {u(n),0 n N-1}≤ ≤ được định nghĩa như sau

Phép biến đổi nghịch Cosine rời rạc được định nghĩa như sau

Các vector cơ sở của phép biến đổi Cosine rời rạc trên khối 8 8× Có thể có nhiều trường hợp các hệsốcủa phép biến đổi này rất nhỏ, giải thích nguyên nhân này là hầu hết năng lượng của dữliệu được dồn vềmột vài hệsố đặc biệt nào đó vàởmột vài trịtrí đặc biệt nào đó trên miền tần số. ắ Định nghĩa 5

Tín hiệu thực: một tín hiệu là một tín hiệu thực thì giá trịphần thực cũng chính là giá trịcủa tín hiệu gốc, còn phầnảo thì bằng không.

4.2.3 Kĩ thuật mã hoá hệ số DCT

Phép biến đổi Cosine rời rạc (DCT) biến đổi các khối dữ liệu pixel thành các hệ số ở miền tần số Để tăng tốc độ xử lý của thuật toán, người ta thường chọn khối dữ liệu 8×8 hoặc 16×16, nhưng khối phổ biến nhất vẫn là 8×8 Lý do giải thích cho sự ưu tiên này dựa trên khả năng xử lý của phần cứng: khối 8×8 trùng khớp với kích thước dữ liệu cực đại mà công nghệ vi mạch điện tử hiện thời có thể xử lý tại một thời điểm.

Khi sử dụng phép biến đổi Cosine rời rạc cho mỗi khối dữ liệu 8×8, kết quả là một ma trận 8×8 ở miền tần số chứa 64 giá trị, tức là 64 hệ số thay đổi và do đó 64 giá trị khác nhau; tất cả các giá trị này đều là số thực thuộc miền thực với chỉ số 0 ≤ u, v ≤ 7 Theo tính chất của DCT được trình bày ở phần trên, ta đã loại bỏ được sự phức tạp của toán học và do đó Cosine rời rạc đơn giản hơn nhiều so với phép biến đổi nhanh Fourier (FFT) Tuy nhiên, phân tích Cosine rời rạc vẫn tương tự như FFT ở chỗ giá trị của mỗi hệ số trên ma trận DCT ở miền năng lượng quang phổ chính là biên độ của hàm cơ sở tương ứng với hệ số đó Hình 4-2 sau đây sẽ mô phỏng 6 trong 64 hàm cơ sở đã được sử dụng trong khối 8×8 DCT và nó phụ thuộc vào vị trí trên miền quang phổ mà biên độ đó được lưu trữ.

Các hàm cơ sởtrên khối 8×8 DCT có dạng như sau :

C x y - Các mẫu gốc trong khối ma trận 8×8 DCT

( , ) c u v - Các hệsốkhối DCT 8×8 u - Tần sốngang chuẩn hóa (0 ≤ ≤ u 7) v - Tần số đứng (mặt) chuẩn hóa (0 ≤ ≤ v 7)

Hình 4-2 Các hàm cơsởcủa phép biến đổi Cosine rời rạc, Miền quang phổ của phép biến đổi Cosine rời rạc bao gồm một mảng hai chiều 8´8, mỗi phần

Kết quả của phép biến đổi Cosine rời rạc trên ma trận 8×8 cho thấy các thành phần tần số thấp tập trung ở góc trên bên trái của ma trận quang phổ, trong khi các thành phần tần số cao dồn về góc dưới bên phải Đối với các hệ số tại vị trí (u,v), hệ số ở (0,0) (hệ số DC) có vai trò khác biệt so với các hệ số ở các vị trí còn lại (hệ số AC), phản ánh rõ rệt sự phân bố tần số của ảnh sau DCT Hiểu rõ sự phân bố này giúp tối ưu hóa nén và phục hồi hình ảnh, đặc biệt trong các ứng dụng JPEG và xử lý ảnh số.

C u C v = 2, được gọi là thành phần

DC của ma trận 8×8 DCT 7 7

Phương trình này cộng tất cảcác giá trịtrong khối 8×8 và chia kết quảcho

8 Theo thống kê thì kết quảnày bằng 8 lần giá trịtrung bình trong khối 8×8.

Trong ma trận 8×8, các hệ số còn lại tại các vị trí u, v khác 0 được gọi là thành phần AC Những hệ số này tương ứng với các cặp (u, v) khác không và được coi là thành phần AC của ma trận 8×8 Trong đó, c(0,1) bằng nửa chu kỳ của dạng sóng cosine được khảo sát trên một chiều, và c(1,0) cũng bằng nửa chu kỳ của dạng sóng cosine trên một chiều nhưng đã bị quay 90 độ.

Trong khối 8×8, các hệ số của DCT cho thấy một giá trị DC lớn, đại diện cho giá trị trung bình của khối 8×8 ban đầu Các hệ số AC còn lại có biên độ nhỏ hơn rất nhiều so với giá trị DC, cho thấy sự cô đặc năng lượng và hiệu quả của DCT trong nén dữ liệu hình ảnh, như trong JPEG.

DC đó chính là các thành phần có tần sốcao theo chiều ngang và đứng Tuy nhiên, các hệsốAC theo chiều ngang cao hơn các hệsốAC theo chiều đứng.

Bảng 4-1 Dữliệu trên Matrận hai hiều 8x8

Bảng 4-2 Dữliệu qua phép biến đổi 2D-DCT

G ia ựtr ũ(x ,y ) Pho ồtaàn so ỏ(u ,v)

Hình 4-3 Quá trình mã hoá DCT trên một khối 8×8

Từ khối các hệ số DCT, quét zigzag được dùng để mã hóa và truyền dẫn qua kênh một chiều (1-D) Hình minh họa cho thấy cách đổi mảng hai chiều thành chuỗi các hệ số theo thứ tự tăng dần tần số không gian, nhằm tập trung các hệ số có ý nghĩa và giảm tối đa số hệ số bằng 0 Sự phân bố của các hệ số khác 0 phụ thuộc vào biến đổi giá trị của khối dữ liệu gốc và mức độ biến động giá trị theo chiều đứng của khối dữ liệu Đây là một cách quét khác.

SVM VÀ ỨNG DỤNG NHẬN DẠNG KHUÔN MẶT

Cở sở lý thuyết của SVM

Máy vectơ hỗ trợ (SVM) là phương pháp học được Vladimir N Vapnik đề xuất vào năm 1995 và ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là trong phân loại mẫu và nhận dạng mẫu SVM có nhiều ưu điểm nổi bật so với các phương pháp cổ điển khác: dễ dàng xử lý, tính ổn định cao trên dữ liệu phức tạp, có thể làm việc với hệ số chiều lớn và quan trọng nhất là khả năng tổng quát hóa mạnh.

5.1.1 Các khái niệm nền tảng

5.1.1.1 Đường bao tổng quát cho một hệ máy học

Khảo sát bao gồm l mẫu quan sát Mỗi quan sát là một cặp (x_i, y_i), với x_i ∈ R^n và y_i là một giá trị được xác định dựa trên sự đánh giá chủ quan của người tổ chức dữ liệu Gọi P(x,y) là hàm phân phối xác suất giữa x và y, còn chưa được xác định tường minh Cách tổ chức dữ liệu như vậy có tính tổng quát cao hơn so với việc ghép cố định y với từng x, vì nó cho phép tính phân phối của y dựa trên dữ liệu x cho trước Tuy nhiên, ở phần sau, ta sẽ cố định y với x cho trước.

Học máy có nhiệm vụ học ánh xạ từ dữ liệu đầu vào X đến đầu ra Y, được định nghĩa từ một tập hợp các ánh xạ f(x, α), trong đó hàm f(x, α) được gán nhãn bởi các tham số α (α có thể hiệu chỉnh được trong quá trình xử lý trên tập huấn luyện) Học máy có thể xem như là một hệ quyết định: với dữ liệu đầu vào đã cho, ta chọn ra một α thích hợp, và kết quả sẽ là f(x, α) Việc lựa chọn α có thể có nhiều cách khác nhau; ở đây chúng ta sẽ tiếp cận theo phương pháp học máy.

Lỗi thửnghiệm đối với một hệmáy học đãđược huấn luyện:

Nếu tồn tại hàm mật độ p(x,y), dP(x,y) có thể được viết thành dP(x,y) = p(x,y) dx dy Đây là cách viết khác của trung bình lỗi, nhưng trong trường hợp đã ước lượng được P(x,y) thì cách viết này sẽ không còn ý nghĩa nữa.

R(α) được gọi là lỗi kỳ vọng hay lỗi thực, phản ánh tỉ lệ sai sót trung bình trên toàn bộ dữ liệu và được xem như thước đo hiệu suất của mô hình trên dữ liệu thực tế Lỗi huấn luyện (lỗi thực nghiệm) R_emp(α) là độ đo tỉ lệ sai sót trung bình trên tập huấn luyện; cụ thể, nó là tổng số lần sai sót chia cho kích thước tập huấn luyện Khi dữ liệu là hữu hạn, R_emp(α) cho biết cách đánh giá hiệu quả của mô hình trên bộ dữ liệu hiện có, trong khi R(α) mô tả lỗi kỳ vọng trên dữ liệu mới chưa gặp.

R emp (α) là một giá trị tường minh tương ứng với một hệ số α riêng từ dữ liệu huấn luyện riêng{x i ,y i }. Đại lượng ( , )

Độ lệch e_i được định nghĩa là hiệu y_i − f(x_i) và được gọi là độ lệch Trong trường hợp này, e_i chỉ có thể nhận hai giá trị 0 và 1 Ta chọn tham số nhiễu η sao cho 0 ≤ η ≤ 1 và cho độ lệch nhận các giá trị 0 và 1 với xác suất 1 − η; với xác suất η, độ lệch sẽ không nhận các giá trị này Cấu hình này giúp mô tả mức độ sai lệch trong quá trình dự đoán và ảnh hưởng của η lên phân phối của e_i.

Trong lý thuyết, h là một số nguyên không âm và được gọi là chiều VC (VC-dimension) Vế phải của (5.3) được gọi là đường bao lỗi hay biên lỗi Trước đây, một số nhà nghiên cứu (ví dụ Guyon et al., 1992) gọi nó là lỗi được thừa nhận, nhưng cách gọi này có thể gây nhầm lẫn vì nó thực chất chỉ là đường biên trên miền lỗi chứ không phản ánh giá trị lỗi thực sự, và chỉ đúng với một xác suất nhất định nên không đảm bảo được độ đo này là chính xác Thuật ngữ liên quan thứ hai là Vapnik-Chervonenkis (VC) dimension.

Chiều VC của một tập hàm {f(α)} là một thuộc tính quan trọng, phản ánh cách α xác định một hàm riêng fα và cho phép biểu diễn các biến thể khác nhau của f trong bài toán nhận dạng hai lớp Với bài toán mà fα(x) ∈ {−1, 1} cho mọi x, một tập quan sát gồm l mẫu có thể được gán nhãn theo hai cách và với mỗi cách gán nhãn có thể tìm được một thành viên của {f(α)} sao cho các nhãn này đúng với tất cả các mẫu; tập các điểm như vậy được gọi là bị phân tách (shattered) bởi tập hàm này Chiều VC của tập {f(α)} được định nghĩa là số điểm huấn luyện lớn nhất có thể bị phân tách bởi tập hàm này Chú ý rằng, nếu chiều VC bằng h thì tồn tại ít nhất một tập huấn luyện gồm h điểm có thể bị phân tách bởi {f(α)}.

Trong Hình 5-1, mặt của đường thẳng được xác định và các điểm thuộc mặt đó được gán nhãn 1 Có thể phân tách được ba điểm bằng tập các hàm này, nhưng không thể phân tách được bốn điểm Do đó VC-dimension của các đường có định hướng trong không gian hai chiều (R^2) là 3.

Xét các siêu mặt trong không gian R^n Định lý 1 cho biết: khi khảo sát tập mẫu gồm m điểm trong không gian R^n và chọn một điểm bất kỳ làm điểm tọa độ gốc, thì m điểm này có thể bị phân rã bởi các siêu mặt (đường thẳng có định hướng) nếu và chỉ nếu vị trí của các vector của các điểm được đề cập là độc lập tuyến tính (Mangasarian, 1969).

Hệ quả VC-dimension cho các siêu mặt có hướng trong R^n là n+1 Ta có thể chọn n+1 điểm dữ liệu ở R^n ở vị trí phù hợp và, sau khi chọn một điểm làm gốc, xét các véc-tơ từ gốc tới các điểm còn lại Nếu các véc-tơ này độc lập tuyến tính, ma trận thiết kế sẽ có hạng đầy và có thể giải hệ w·x_i + b = s_i với mọi nhãn s_i ∈ {−1,1}, từ đó một siêu mặt có hướng có thể phân loại đúng mọi nhãn cho n+1 điểm đó Do số tham số của một siêu mặt có hướng là n+1 (n thành phần của véc-tơ hướng và tham số b), VC-dimension không thể lớn hơn n+1; và với câu trên ta có VC-dimension bằng n+1.

5.1.1.4 Cực tiểu đường bao lỗi trên cơ sở cực tiểu chiều VC h/l = VC dimension / KÝch th−íc tËp mÉu

0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 ẹo ọt in ca ọy

Hình 5-2Độtin cậy VC là hàm đơn điệu theo h

Hình 5-2: Cho thấy nhóm biểu thức thứ hai bên vế phải của phương trình (5.3)

( h(log(2 / ) 1) log( / 4)l h l η + − ) biến thiên theoh, bằng cách chọn độtin cậy95%

(η= 0.05), tập mẫu huấn luyện l =10,000 (mẫu) Chiều VC là hàm tăng đều theo h Điều này đúng với bất kỳgiá trịcủa l

5.1.1.5 Cực tiểu hoá lỗi theo cấu trúc (SRM)

Thuật ngữ độ tin cậy VC trong (5.3) phụ thuộc vào việc chọn các họ hàm khác nhau, trong khi lỗi huấn luyện và lỗi thực lại phụ thuộc vào một hàm riêng được chọn bằng thủ tục huấn luyện; ta tìm một tập con của tập các hàm được chọn sao cho đường bao lỗi của tập con đó là cực tiểu Vì VC h là tồn tại nên không thể biến đổi liên tục, người ta đưa ra một cấu trúc bằng cách chia toàn bộ tập các hàm thành các tập con lồng nhau (như hình 5-3); với mỗi tập con, ta có thể tính h, hay đường bao của h Cực tiểu hóa lỗi theo cấu trúc (SRM) bao gồm việc tìm tập con hàm tối ưu để đường bao lỗi thực được tối thiểu, được thực hiện bằng cách huấn luyện chuỗi các máy cho mỗi tập con, trong đó với một tập con cho trước mục đích của việc huấn luyện là cực tiểu hóa lỗi huấn luyện; trong đó h4, h3, h2, h1 và h1 < h2 < h3 < h4

Hình 5-3 Các tập hàm học lồng vào nhau được sắp thứtựtheo chiều VC.

5.1.2 SVM tuyến tính5.1.2.1 Trường hợp dữ liệu có thể phân cách được

Trong học máy, siêu mặt phân cách (hyperplane) được mô tả bằng công thức w^T x + b = 0, trong đó ||w|| là chuẩn Euclid của vectơ w Đặt d+ và d− là khoảng cách ngắn nhất từ siêu mặt phân cách tới các mẫu dương và âm gần nhất Bờ (margin) là khoảng cách giữa hai siêu mặt phân cách liên quan tới nhãn dương và âm, tức là d+ + d− Khi chuẩn hóa sao cho y_i (w^T x_i + b) ≥ 1 với mọi mẫu i, ta có d+ = d− = 1/||w|| và margin = 2/||w|| Mục tiêu của máy vector hỗ trợ (SVM) là tối ưu để tối đa hóa bờ nhằm tăng khả năng khái quát, giúp classifier hoạt động tốt trên dữ liệu mới.

Margin của siêu mặt phân cách, được gọi là khoảng cách giữa hai siêu mặt song song w^T x + b = +1 và w^T x + b = -1, là biên giới phân tách dữ liệu Với tập mẫu có thể phân loại tuyến tính, thuật toán SVM tìm siêu mặt tối ưu bằng cách cực đại hóa khoảng cách margin Các ràng buộc áp dụng cho mọi mẫu x_i trong tập huấn luyện là y_i (w^T x_i + b) ≥ 1; tương ứng với các trường hợp đặc biệt y_i = +1: w^T x_i + b ≥ 1 và y_i = -1: w^T x_i + b ≤ -1 Như vậy, SVM tối ưu hóa tham số w và b để tối đa hóa margin giữa hai lớp.

Kết hợp thành một bất đẳng thức ràng buộc: y i (x i w + b) –1≥0∀i (5.6)

Các mẫu dữ liệu thỏa công thức (5.4) nằm trên siêu mặt H1: x^T w + b = 1, có pháp tuyến là vectơ w và khoảng cách tới gốc tọa độ bằng |1 - b|/||w|| Tương tự, các mẫu thỏa công thức (5.5) nằm trên siêu mặt H2: x^T w + b = -1, có pháp tuyến là vectơ w và khoảng cách tới gốc tọa độ bằng |-1 - b|/||w|| Khi đó, d+ = d- = 1/||w||, và biên giáp r có độ rộng bằng 2/||w||.

Nhận dạng khuôn mặt người với SVM

Trong đềtài này, SVMđược kết hợp với cây nhịphân đểgiải quyết bài toán nhận dạng khuôn mặt đa lớp.

5.2.1 Nhận dạng đa lớp dùng SVM với cây nhị phân

Để xây dựng hệ thống nhận dạng mẫu đa lớp, ta có thể dùng SVM và theo đó có hai chiến lược chính: chiến lược one-against-all (một đối tất cả) nhằm phân loại mỗi lớp với mọi lớp còn lại, và chiến lược one-vs-one (một đối một) để phân loại giữa từng cặp lớp Chiến lược một đối tất cả thường cho kết quả phân loại nhập nhằng, vì vậy ta áp dụng chiến lược one-vs-one cho bài toán nhận dạng đa lớp để đạt độ phân giải giữa các lớp cao hơn.

Giả sử có tám lớp trong tập dữ liệu, được đánh số 1–8; các số này mã hoá các lớp một cách tuỳ ý và không mang ý nghĩa thứ tự Cây quyết định được biểu diễn như Hình 5-7, nơi các lớp được so sánh theo từng cặp để chọn ra một lớp biểu diễn "phần thắng" của hai lớp hiện hành Các lớp được chọn từ cấp thấp nhất của cây nhị phân sẽ lên cấp trên sau mỗi vòng thử nghiệm, và quá trình này được lặp lại cho đến khi chỉ còn một lớp duy nhất xuất hiện ở đỉnh của cây Lớp duy nhất này đại diện cho kết quả phân loại cuối cùng.

Khi c không là bội số của 2, ta phân tích: c=2 n 1 +2 n 2 + + 2 n I , với

Phương pháp phân tích biến c có tính không duy nhất: nếu c là số lẻ thì nI = 0, còn nếu c là số chẵn thì nI > 0 Sau khi phân tích, việc nhận dạng được thực hiện trong từng cây nhị phân, và các lớp đầu ra của các cây nhị phân này được dùng lại để tạo ra một cây nhị phân mới Quá trình này lặp lại cho đến khi chỉ còn một đầu ra duy nhất.

SVM học c c( −1) / 2 hàm phân biệt trong giai đoạn huấn luyện, và thực hiện 1 c− phép so sánh dưới cấu trúc cây nhịphân đã tạo ra.

Hình 5-7 Trái: Cấu trúc cây nhịphân với sốlớp bằng sốmũ của 2 Phải: số lớp không bằng sốmũ của 2.

5.2.2 Nhận dạng khuôn mặt dùng SVM 5.2.2.1 Giai đoạn huấn luyện hệ thống 5.2.2.1.1 Huấn luyện SVM cho bài toán nhận dạng khuôn mặt

Các vector đặc tr−ng

Các siêu mặt phân líp SVMs

Anh xạ tập mẫu vào không gian đặc tr−ng

Chuẩn hoá không gian mẫu

Chia tập mẫu thành các tập con theo thứ tự từng cặp giữa các líp trong tËp mÉu

Huấn luyện SVMs trên từng tËp con

Hình 5-8 Các tác vụhuấn luyện hệthống SVMs nhận dạng khuôn mặt

5.2.2.1.2 Vector hoá tập mẫu khuôn mặt thô là bước biểu diễn ảnh khuôn mặt vào máy tính; đây là hình thức biểu diễn đã được đề cập trong phần mô tả dữ liệu nhận dạng khuôn mặt.

Chi tiết vector hoá một mẫu khuôn mặt được trình bày trong Hình 5-9 dưới đây.

Hình 5-9 trình bày quá trình vector hóa mẫu khuôn mặt Ảnh mẫu khuôn mặt có kích thước 30×30 pixel được biến đổi thành một vector 900 chiều bằng cách ghép nối lần lượt các giá trị pixel từ trên xuống dưới, mỗi dòng gồm 30 điểm ảnh Quá trình này được thực hiện bằng cách nối liền các phần tử của các hàng theo đúng trình tự, từ ma trận ảnh hai chiều 30×30 thành một vector một chiều có 900 phần tử.

5.2.2.1.3 Rút trích đặc trưng khuôn mặt

Giai đoạn rút trích đặc trưng khuôn mặt gồm ba bước chính: thực hiện phân tích thành phần chính (PCA) để giảm chiều dữ liệu và giữ lại các đặc trưng quan trọng, ánh xạ tập mẫu vào không gian đặc trưng nhằm thể hiện đầy đủ thông tin nhận diện ở một không gian tối ưu, và chuẩn hóa không gian mẫu nhằm đảm bảo tính nhất quán giữa các dữ liệu và tối ưu hóa hiệu suất nhận diện khuôn mặt.

Trong các hệ nhận dạng, đặc biệt là hệ nhận dạng tự động, thành công phụ thuộc không chỉ vào thuật toán tiên tiến mà còn vào chất lượng và phạm vi của tập mẫu dữ liệu huấn luyện Việc lựa chọn tập mẫu huấn luyện phù hợp với mục đích ứng dụng và đảm bảo tính tổng quát cho hệ nhận dạng là thách thức, vì ta khó có thể lường trước mọi biến thể có thể xuất hiện trong quá trình thu thập hình ảnh Các yếu tố ảnh hưởng phổ biến bao gồm môi trường lấy mẫu biến động phức tạp như điều kiện thời tiết, độ sáng và sự xuất hiện của nhiều đối tượng tương tự đối với đối tượng quan tâm.

Trong hệ thống nhận diện, có vô số nhập nhằng mà đối tượng ta quan tâm phải đối mặt, như biến thể nội tại của mẫu (sự biến đổi bất thường), sự khác nhau về khoảng cách lấy mẫu và mặt phẳng quan sát trong quá trình thu thập dữ liệu; đồng thời chất lượng thiết bị thu ảnh và giới hạn khả năng tính toán của hệ thống cũng là thách thức lớn Để giảm bớt tính nhập nhằng từ dữ liệu, ta phải thực hiện tiền xử lý dữ liệu, và ở đây chúng tôi chọn phân tích thành phần chính PCA để tiền xử lý và rút trích đặc trưng tự động; PCA vừa giúp khử nhiễu và biến đổi không giám sát, vừa giảm khối lượng dữ liệu lưu trữ và xử lý, từ đó nâng cao hiệu quả nhận diện của hệ thống sau này.

Đầu tiên, PCA được sử dụng để rút ra các eigenvector (vector đặc trưng) và các eigenface (khuôn mặt đặc trưng) từ tập ảnh khuôn mặt huấn luyện Các khuôn mặt đặc trưng này sẽ được dùng trong giai đoạn thử nghiệm của hệ thống nhận diện Cơ sở lý thuyết của PCA đã được trình bày chi tiết ở phần trước; bạn có thể tham khảo lại phần phân tích và rút trích đặc trưng khuôn mặt bằng PCA để nắm rõ thêm.

Đề tài sử dụng tập dữ liệu gồm 30 lớp, mỗi lớp có 100 mẫu huấn luyện Từ 20 mẫu gốc của mỗi lớp, ta mở rộng lên 100 mẫu bằng 4 phép xử lý ảnh cơ bản: Mirror (lật phản chiếu), tăng cường dữ liệu, bộ lọc trung bình và bộ lọc Gamma Kích thước khuôn mặt huấn luyện 30×30 được vector hoá thành một vector 900 chiều, trong đó từng thành phần đại diện cho cường độ sáng của một pixel, cho phép biểu diễn hình khuôn mặt dưới dạng vector phục vụ cho các bước xử lý và phân tích sau này.

CM ứng với một giá trị điểm ảnh trên ảnh gốc Như vậy toàn bộ tập mẫu bao gồm

3000 vector và mỗi vector 900 chiều.

1 Xây dựng vector trung bình mẫu M 900 chiều

2 Xây dựng ma trận hiệp phương sai D (900×900) chiều.

3 Tính các giá trị đặc trưng và các vector đặc trưng tươngứng + Với ma trận D (900×900) thì tương ứng 900 giá trị đặc trưng (eigenvalues).

Chúng tôi có thể tạo ra các vector đặc trưng (eigenvectors) dựa trên các giá trị đặc trưng tương ứng Theo cách tiếp cận của đề tài và qua kết quả thực nghiệm, chúng tôi đã chọn 100 vector đặc trưng tương ứng với 100 giá trị đặc trưng lớn nhất.

+ Một ma trân K mà mỗi cột là một vector đặc trưng 900 chiều Vậy không gian ma trận K (900×100) chiều

4 Ánh xạtập mẫu ban đầu vào không gian đặc trưng, sẽhình thành không gian mẫu mới hay còn gọi là không gian mẫu đặc trưng

+ Lần lược chiếu từng mẫu trong tập huấn luyện cũ x i = (x i 1 , x i 2 ,…, x i 900 ) vào không gian đặc trưng K900×100 và kết quả phép chiếu này hình thành một vector mới yi(1×100)=xi(1×900)*K(900×100)

Sau khi thực hiện phép chiếu lên 3000 mẫu thuộc tập mẫu, ta thu được một tập mẫu mới, gọi là tập mẫu học đặc trưng của tập mẫu ban đầu Tập Y được xác định là Y = { y_i : i = 1 đến 3000 }, với mỗi y_i = (y_i1, y_i2, , y_i100).

Như vậy qua phép phân tích PCA, ta đã rút gọn số chiều của mẫu học từ

Việc giảm từ 900 chiều xuống còn 100 chiều là bước quan trọng trong phân tích dữ liệu, vì đây chính là những thành phần quan trọng nhất của mẫu học và chính các thành phần này tạo ra sự khác biệt cho các vector mẫu trong tập mẫu ban đầu.

5.2.2.1.4 Tạo các bộ phân loại nhị phân

Một lần nữa, chúng tôi nhấn mạnh rằng SVM là một bộ phân loại nhị phân có khả năng phân loại tốt và có tính tổng quát cao từ các tập mẫu dữ liệu được tổ chức thành hai lớp Vì lý do này, SVM được sử dụng phổ biến trong các ứng dụng liên quan đến nhận diện khuôn mặt, đặc biệt là trong quá trình dò tìm khuôn mặt trên ảnh, nơi dữ liệu được chia thành hai lớp duy nhất: lớp thuộc khuôn mặt và lớp không phải khuôn mặt người.

Trong lĩnh vực xử lý và nhận dạng khuôn mặt, bài toán nhận dạng khuôn mặt được giải quyết bằng các kỹ thuật máy học, nổi bật là SVM Để huấn luyện hệ thống nhận dạng khuôn mặt dựa trên SVM, chúng tôi áp dụng cơ chế kết hợp nhiều bộ phân loại nhị phân SVM nhằm cải thiện độ chính xác và tính ổn định của mô hình Tập mẫu khuôn mặt—gồm nhiều người cần nhận dạng— được biểu diễn trên máy tính và chúng ta thực hiện tác vụ gán nhãn cho từng lớp khuôn mặt theo thứ tự đã chọn, tham khảo phần mô tả dữ liệu nhận dạng Việc xây dựng hệ thống nhận dạng khuôn mặt bằng SVM thường sử dụng chiến lược phân lớp đa nhánh như một-vs-mọi hoặc một-vs-one, nhằm xử lý bài toán nhận dạng nhiều lớp một cách hiệu quả.

MÔ HÌNH MAKOV ẨN VÀ ỨNG DỤNG NHẬN DẠNG KHUÔN MẶT

THIẾT KẾ CHƯƠNG TRÌNH VÀ HƯỚNG DẪN SỬ DỤNG

THỰC NGHIỆM VÀ KẾT QUẢ

NHẬN XÉT VÀ HƯỚNG PHÁT TRIỂN

Tiêu đề	Nhận dạng người dựa vào thông tin khuôn mặt xuất hiện trên ảnh
Tác giả	Trần Phước Long, Nguyễn Văn Lượng
Người hướng dẫn	TS. Lê Hoài Bắc
Trường học	Đại Học Khoa Học Tự Nhiên
Chuyên ngành	Trí Tuệ Nhân Tạo
Thể loại	Luận văn tốt nghiệp
Năm xuất bản	2003
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	180
Dung lượng	2,49 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Wenyi Zhao, Arvindh Krishnaswamy, Rama Chellappa, Danie L.Swets, John Weng, Discriminant Analysis of Principal Components for Face Recognition, Centrer for Automation Research, University of Maryland (page 73) of Face Recognition from Theory and Applications	Khác
[2] John Daugnman, Phenotypic versus Genotypic Approches to Face Recognition, University of Cambridge, the Computer laboratory Cambridge CB3 3QG England (page 108) of Face Recognition from Theory and Applications	Khác
[3] Emmanuel Viennet và Francoise Fogelman Soulie, Connectionists Methods for Human face Rrocessing, University Paris 13, 93430 Villetaneuse, France (page 124) of Face Recognition from Theory and Applications	Khác
[4] Antonio J.Colmenarez và Thomas S.Huang, Face Detection and Recognition, Department of Electrical and Computer Engineering, Coordinated Science Laborotory, and Beckman Institute for Advanced Science and Technology, University of Illinois at Urbana-Champaign, 405 N. Mathews Ave, USA (page 174) of Face Recognition from Theory and Applications	Khác
[5] Kazunori Okada, Johannes Steffens, Thomas Maurer, Hai Hong, Egor Elagin, Hartmut Neven, and Christoph, Computer Science Department and Center for Neural Engineering, University of Southrn California Los Angeles, USA (page 286) of Face Recognition from Theory and Applications	Khác