Đólà lý do chúng tôi chọn đề tài : “NHẬN DẠNG NGƯỜI DỰA VÀO THÔNG TIN KHUÔN MẶT XUẤT HIỆN TRÊN ÁNH” Để có hệ thống nhận dạng khuôn mặt với chất lượng tốt, chúng tôi đã tiếpcận bằng hai m
Tổng quan và các khái niệm liên quan đến nhận dạng khuôn mặt
Hệ thống sinh trắc học
Hệ thống sinh trắc học là một hệ thống được thiết kế để xác minh và nhận dạng một người dựa trên các đặc trưng sinh học duy nhất của họ Bằng cách phân tích các dấu hiệu như vân tay, mống mắt, khuôn mặt, giọng nói hoặc các đặc trưng sinh trắc khác, hệ thống có thể xác thực danh tính hoặc nhận dạng một người một cách nhanh chóng và an toàn Những đặc trưng sinh học này là duy nhất với mỗi cá nhân và ít có khả năng bị giả mạo, giúp tăng cường bảo mật cho các ứng dụng từ mở khóa thiết bị đến quản lý truy cập hệ thống quan trọng Hệ thống sinh trắc học thực hiện hai nhiệm vụ chính: xác minh (verification) để xác nhận danh tính so với hồ sơ đã đăng ký và nhận dạng (identification) để nhận diện người dùng khi không có thông tin trước Việc triển khai cần chú ý đến quyền riêng tư và bảo mật dữ liệu sinh trắc học, vì dữ liệu này rất nhạy cảm và cần được lưu trữ an toàn và tuân thủ các chuẩn bảo mật.
Hệ thống nhận dạng khuôn mặt
Hệ thống nhận dạng khuôn mặt là một hệ thống được thiết kế để tìm thông tin về một người Kỹ thuật nhận dạng là quá trình kiểm tra sự phù hợp dựa trên phép so sánh một-nhiều, nhằm xác định người đó là ai trong số các cá nhân đã được lưu trữ trong hệ thống dựa trên thông tin khuôn mặt.
Hệ thống xác minh hay xác thực khuôn mặt là gì?
Hệ thống xác minh khuôn mặt là một hệ thống được thiết kế để xác minh danh tính của một người dựa trên thông tin khuôn mặt Kỹ thuật xác minh liên quan đến kiểm tra sự phù hợp trên phép so sánh một-một, cụ thể là đối chiếu thông tin nhận được về một người với dữ liệu đã lưu trữ về người đó để xác định xem hai thông tin có khớp hay không Quá trình này dựa trên các đặc điểm nhận diện trên khuôn mặt và được ứng dụng rộng rãi trong bảo mật, xác thực danh tính và truy cập an toàn.
Hoàn toàn chưa biết thông tin Đã biết trước thông tin
Nhận dạng người Xác minh người
Người này là ai? Đây là Peter phải không?
Ke át qu ả Đúng/Sai Peter
Hình 1-1 So sánh tác vụnhận dạng khuôn mặt và xác minh khuôn
Những thách thức trong bài toán nhận dạng khuôn mặt
Những biến đổi quá lớn giữa các ảnh khuôn mặt của cùng một người có thể ảnh hưởng đến quá trình nhận diện Các yếu tố chính cần xem xét gồm trạng thái cảm xúc trên khuôn mặt, điều kiện ánh sáng và sự thay đổi vị trí hoặc góc nhìn của khuôn mặt trong ảnh Hiểu và xử lý các biến động này là chìa khóa để đạt được nhận diện khuôn mặt chính xác ngay cả khi biểu cảm đa dạng, ánh sáng khác nhau hoặc khuôn mặt ở các vị trí khác nhau trong ảnh.
Giới hạn về số ảnh cần thiết cho việc nhận dạng cho thấy tập huấn dữ liệu huấn luyện không thể bao quát hết mọi biến đổi có thể xảy ra trên khuôn mặt của một người trong thế giới thực Dù có lượng ảnh lớn, các biến đổi như góc nhìn, điều kiện ánh sáng, biểu cảm, trang phục, trang điểm và tuổi tác vẫn có thể làm thay đổi đặc trưng nhận diện Vì vậy, hiệu suất của mô hình nhận diện khuôn mặt có thể bị hạn chế và giảm khi gặp các trường hợp chưa được đại diện đầy đủ trong tập dữ liệu huấn luyện Điều này nhấn mạnh tầm quan trọng của dữ liệu đa dạng và của các kỹ thuật tăng cường dữ liệu, nhằm cải thiện khả năng nhận diện khuôn mặt trong các tình huống thực tế.
Tổng quan về các ứng dụng tương tác người máy (Human computer interactive) liên quan đến khuôn mặt
(Human computer interactive) liên quan đến khuôn mặt
Từ những năm 1990 cho đến nay, chúng ta chứng kiến sự phát triển mạnh mẽ của các ngành công nghiệp, đặc biệt là ngành công nghiệp chế tạo điện tử Tuy nhiên hiện nay các thiết bị điện tử cao cấp như máy ảnh số, camera kỹ thuật số và nhiều sản phẩm khác dường như chỉ phù hợp cho phòng thí nghiệm, các công ty sản xuất, kinh doanh, thương mại, tài chính và ngân hàng Trong 3–10 năm tới, chi phí cho các thiết bị này dự kiến sẽ giảm đáng kể, mở ra nhiều hướng nghiên cứu về thị giác máy tính và mở rộng ứng dụng giao tiếp giữa người và máy, trong đó hệ thống nhận dạng khuôn mặt đóng vai trò quan trọng Dưới đây là một số ứng dụng, bao gồm các ứng dụng chuyên biệt cho ngành hàng không.
9 Đảm bảo quyền truy cập và tính hợp lệ trong công việc cho từng nhân viên: Mỗi nhân viên làm việc tại cảng hàng không cũng như nhân viên phi hành đoàn được cấp quyền truy cập vào vị trí làm việc tương ứng Để xác minh nhân viên có vào đúng khu vực làm việc hay không, cần áp dụng các cơ chế kiểm soát truy cập và xác thực danh tính, như thẻ từ hoặc thiết bị xác thực, danh sách phân công công việc và kiểm tra định kỳ, đồng thời sử dụng hệ thống giám sát để đảm bảo an toàn hàng không và tuân thủ quy định an ninh Việc này ngăn chặn truy cập trái phép, bảo đảm tính hợp lệ của mỗi ca làm việc và tăng cường hiệu quả vận hành tại sân bay.
9 Làm sao để đảm bảo trong số những hành khách không có sự trà trộn của một sốkẻkhủng bố/tội phạm quốc gia/ quốc tế?
CM ắ Bảo vệtrẻemởnhà trẻtừbọn bắt cúc
Quy định 9 nêu rõ chỉ những nhân viên của nhà trẻ mới được phép dẫn trẻ ra ngoài và bàn giao trực tiếp cho bố mẹ để đón về, nhằm tăng cường an toàn cho trẻ Tuy nhiên, trong xã hội vẫn có trường hợp giả danh nhân viên để bắt cóc trẻ em vì mục đích xấu Để ngăn chặn hành vi này, cần áp dụng các biện pháp bảo vệ như nhận diện khuôn mặt kèm với thẻ cấp quyền truy cập để xác thực danh tính người đón và người đưa trẻ, đồng thời tăng cường kiểm tra và giám sát tại nhà trẻ.
Ở các nước phát triển, hầu như mọi người đều dùng thẻ tín dụng để mua sắm, rút tiền và trao đổi hàng hóa Điều này tiềm ẩn nguy cơ rất cao khi thẻ hoặc mật khẩu của chủ thẻ bị người khác nhặt được hoặc lộ ra Để bảo đảm an toàn nhất, người dùng nên tránh tiết lộ PIN, không nhập PIN ở nơi công cộng, ưu tiên thẻ có chip và luôn cập nhật các biện pháp bảo mật từ ngân hàng; theo dõi sao kê giao dịch hàng ngày, bật thông báo giao dịch và thiết lập giới hạn chi tiêu Đồng thời sử dụng kết nối mạng an toàn, mua sắm trên các trang web uy tín có giao thức bảo mật, và nếu thẻ bị mất hoặc nghi ngờ bị xâm nhập thì phải báo ngay cho ngân hàng để khóa thẻ và được hỗ trợ kịp thời Có thể xem xét dùng thẻ ảo hoặc xác thực hai yếu tố để tăng cường bảo mật và giảm thiểu rủi ro khi thanh toán.
Có thể áp dụng xác thực hai yếu tố bằng cách sử dụng khuôn mặt như một mật khẩu thứ hai để truy cập hệ thống, đồng thời phải cung cấp thông tin từ thẻ để truy cập Đây là cách tăng cường bảo mật và ngăn chặn rủi ro rút tiền trái phép, vì người dùng phải xác thực bằng cả nhận diện khuôn mặt và dữ liệu thẻ ngân hàng Việc kết hợp nhận diện khuôn mặt với thông tin thẻ tạo lớp bảo vệ mạnh mẽ, giảm thiểu gian lận và nâng cao trải nghiệm an toàn cho người dùng Đây là giải pháp xác thực hai yếu tố phù hợp cho các giao dịch ngân hàng trực tuyến và tại máy ATM, giúp đảm bảo quyền rút tiền chỉ khi có đầy đủ xác thực.
• Đưa khuôn mặt vào đểnhận dạng
• Xác minh người này có phải là chủ sở hữu của thẻ hay không?
Nếu khớp thì hệthống cho rút tiềnNếu không thì hệthống không cho rút tiền.
CM ắ Kinh doanh thương mại điện tử
Với sự tiến bộ của khoa học và công nghệ, thương mại điện tử ngày càng phát triển và mở ra nhiều hình thức kinh doanh mới Các giao dịch thương mại điện tử giữa hai đối tác có thể diễn ra hoàn toàn qua mạng mà không cần gặp mặt trực tiếp, chỉ cần hồ sơ và hình ảnh đại diện của doanh nghiệp hợp lệ Tuy nhiên, mô hình kinh doanh này cũng đi kèm nhiều rủi ro như lừa đảo, giả danh và gian lận, khiến người dùng phải đặc biệt chú ý để nhận diện đối tác thật hay giả Để đảm bảo an toàn cho giao dịch và ngăn chặn các hành vi vi phạm pháp luật, cần thực hiện việc xác thực đối tác, kiểm tra tính hợp pháp của doanh nghiệp, tham khảo các đánh giá từ khách hàng, sử dụng các kênh thanh toán an toàn và áp dụng biện pháp bảo mật dữ liệu Việc thẩm định nghiêm túc và thiết lập thỏa thuận rõ ràng sẽ giúp nâng cao uy tín doanh nghiệp và đảm bảo thương mại điện tử diễn ra một cách minh bạch, an toàn và hiệu quả.
Một người không được xuất/nhập cảnh vào nước, tuy nhiên vẫn có trường hợp họ khai gian giấy tờ để xuất/nhập cảnh bất hợp pháp Việc gian lận hồ sơ và giả mạo giấy tờ là thách thức lớn đối với an ninh biên giới và đòi hỏi các biện pháp ngăn chặn hiệu quả Các biện pháp ngăn chặn gian lận gồm tăng cường kiểm tra giấy tờ, xác thực danh tính và ứng dụng công nghệ nhận diện cùng cơ sở dữ liệu xuyên quốc gia Xây dựng hệ thống truy vết và hợp tác thông tin giữa các cơ quan là chìa khóa để phát hiện, ngăn chặn hành vi xâm nhập bất hợp pháp Đồng thời, mục tiêu cuối cùng là theo dõi dấu vết nhằm truy tìm kẻ khủng bố và ngăn chặn các mối đe dọa an ninh.
Những bức ảnh số và đoạn video số được ghi lại tự động từ hiện trường trước khi vụ khủng bố xảy ra mang giá trị điều tra rất lớn cho nhận diện các đối tượng tham gia vụ việc Cần áp dụng công nghệ nhận diện khuôn mặt tự động và phân tích dữ liệu hình ảnh để xác định danh tính và vai trò của các nghi phạm Hệ thống giám sát an ninh có khả năng nhận diện khuôn mặt và tự động gắn thẻ thông tin giúp công tác điều tra nhanh chóng và chính xác hơn Việc kết nối dữ liệu từ nhiều nguồn hình ảnh sẽ nâng cao khả năng nhận diện sớm, ngăn chặn các hành động nguy hiểm và tăng cường an ninh công cộng.
Hiện nay, trong các khu công nghiệp và các công ty sản xuất lớn có hàng ngàn công nhân ra vào mỗi ngày, việc giám sát ra vào và chấm công trở nên phức tạp Để nhận diện đúng từng nhân viên và quản lý thời gian làm việc hiệu quả, doanh nghiệp cần triển khai hệ thống kiểm soát ra vào và chấm công hiện đại Các giải pháp phổ biến gồm nhận diện khuôn mặt, vân tay, thẻ từ hoặc thẻ RFID kết hợp với camera giám sát và phần mềm quản lý nhân sự, giúp ghi nhận giờ vào, giờ ra và chấm công chính xác cho từng người Việc áp dụng hệ thống này không chỉ tối ưu quy trình làm việc, tăng cường an ninh và giảm gian lận mà còn nâng cao năng suất vận hành và dễ dàng tra cứu dữ liệu cho quản lý nhân sự.
Ngày nay, nhu cầu sử dụng các hệ thống xử lý dựa trên trí tuệ nhân tạo ngày càng tăng, trong đó nhận dạng khuôn mặt để mã hóa mật khẩu cá nhân trở thành một yêu cầu thiết yếu cho bảo mật và tiện ích hiện tại cũng như tương lai Đặc biệt, vụ khủng bố ngày 11-9-2001 tại Mỹ đã đánh dấu một bước ngoặt trong xu hướng nghiên cứu và giá trị thương mại của các hệ thống sinh trắc học, nhằm tăng cường an toàn cho con người.
Các hướng tiếp cận chính trong lĩnh vực nhận dạng khuôn mặt
Các công trình nghiên cứu về phương pháp nhận dạng và kiểm chứng chất lượng cho một hệ thống nhận dạng khuôn mặt
Nhận dạng khuôn mặt đặt ra hai vấn đề chính: dùng thông tin nào để nhận dạng (lông mày, cặp mắt, mũi, môi, tai hoặc sự kết hợp các đặc điểm) và dùng phương pháp huấn luyện nào cho hệ thống nhận diện với nguồn thông tin đó Quá trình nhận dạng khuôn mặt trên máy tính đã trải qua nhiều thăng trầm với các kết quả nổi bật như: Wenyi Zhao, Arvindh Krishnaswamy, Rama Chellappa, Danie L Swets, John Weng (1998) đề xuất kết hợp PCA (phân tích thành phần chính) với LDA (phân tích độc lập tuyến tính) bằng cách chiếu ảnh khuôn mặt từ không gian thô sang không gian đặc trưng bằng PCA (bước 1) và dùng LDA để xây dựng bộ phân loại tuyến tính phân lớp các lớp khuôn mặt (bước 2); John Daugnman (1998) đưa ra phương pháp dựng đặc trưng về trũng của mắt để phân biệt cặp song sinh; Emmanuel Viennet và Francoise Fogelman Soulie (1998) sử dụng mạng neural nhân tạo để xử lý và nhận dạng khuôn mặt; Antonio J Colmenarez và Thomas S Huang (1998) sử dụng kỹ thuật học thị giác và phù hợp mẫu 2-D, coi bài toán dò tìm khuôn mặt là thao tác phân loại khuôn mặt trong đó khuôn mặt thuộc một lớp và các đối tượng khác thuộc lớp còn lại bằng cách ước lượng mô hình.
Trong nhận diện khuôn mặt dựa trên mô hình xác suất, quá trình dò tìm được thực hiện bằng luật quyết định tối đa xác suất (maximum-likelihood) Nhiều nghiên cứu tiêu biểu như Kazunori Okada, Johannes Steffens, Thomas Maurer, Hai Hong, Egor Elagin, Hartmut Neven và Christoph (1998) đề xuất nhận diện khuôn mặt dựa trên sóng Gabor kết hợp với phương pháp ghép đồ thị (graph matching); ý tưởng là biểu diễn khuôn mặt bằng một đồ thị và gắn nhãn ảnh tại các vị trí chuẩn đã xác định trước Khi so khớp đồ thị với một ảnh, các vị trí chuẩn (Jets) được trích xuất từ ảnh và so sánh với các điểm chuẩn tương ứng trong các đồ thị khác nhau, và đồ thị có sự khớp tốt nhất sẽ được chọn Bên cạnh đó, Baback Moghaddam và Alex Pentland (1998) đề xuất một phương pháp phù hợp thị giác trực tiếp từ các ảnh để phục vụ nhận diện khuôn mặt và sử dụng đo xác suất để tính độ tương đồng giữa ảnh và mẫu.
Năm 1998 chứng kiến nhiều đóng góp tiêu biểu cho nhận diện khuôn mặt với các kỹ thuật đa dạng: Massimo Tistaelli và Enrico Grosso đề xuất kỹ thuật thị giác động, nhấn mạnh khả năng quan sát chuyển động khuôn mặt và xử lý các tình huống theo dự định để mô tả khuôn mặt một cách đầy đủ, phục vụ cho mục đích thu thập mẫu và nhận diện; Jeffrey Huang, Chengjun Liu và Harry Wechsler trình bày một thuật toán dựa trên học tiến hóa và di truyền cho các tác vụ nhận diện khuôn mặt, trong đó hai mắt được dò tìm trước làm tiền đề cho việc quan sát khuôn mặt và kết hợp học với tiến hóa thông qua một thuật toán lai trong quá trình học; Daniel Bgraham và Nigel M Allinson ứng dụng phương pháp tạo bản sao không gian đặc trưng để biểu diễn và nhận diện hướng di chuyển của khuôn mặt; Oi Bin Sun, Chian Prong Lam và Jian Kang Wu giới thiệu phương pháp tìm vùng các đặc trưng như hai lông mày, hai mắt, mũi, miệng và cằm bằng cách chiếu ảnh khuôn mặt thẳng xuống theo chiều ngang để xác định ngưỡng và định vị biên trên, biên dưới của vùng đặc trưng cũng như biên trái và phải theo chiều dọc; Ara V Nefian và Monson H Hayes III trình bày cách tiếp cận dựa trên mô hình ẩn Markov (HMM) để lượng hóa ảnh khuôn mặt thành chuỗi quan sát theo thứ tự các đặc trưng khuôn mặt (lông mày, lông mi, mũi, miệng, cằm), mỗi quan sát là vector nhiều chiều được dùng để đặc trưng cho các trạng thái trong chuỗi trạng thái của HMM.
Mỗi người được ước lượng bằng một mô hình HMM (mô hình ẩn Markov) Vào ngày 17 tháng 1 năm 2001, Guodong Guo, Stan Z Li và Kap Luk Chan đã đề xuất một phương pháp nhận diện khuôn mặt dựa trên SVM Họ áp dụng chiến lược kết hợp nhiều bộ phân loại nhị phân để xây dựng một bộ phân loại SVM đa lớp, nhằm nâng cao độ chính xác của nhận dạng khuôn mặt trong các tập dữ liệu khác nhau Phương pháp này cho thấy sự kết hợp giữa HMM và SVM có tiềm năng đóng vai trò quan trọng trong hệ thống nhận dạng khuôn mặt hiện đại.
Hướng tiếp cận được thử nghiệm trong luận văn
Trong đề tài này, chúng tôi thử nghiệm hai phương pháp nhận dạng là SVM và HMM Để tối ưu hóa hiệu quả nhận diện, chúng tôi áp dụng hai kỹ thuật trích xuất đặc trưng PCA (phân tích thành phần chính) và DCT (biến đổi cosine rời rạc) nhằm rút ra các vector đặc trưng làm đầu vào cho hai bộ nhận dạng trên.
Việc cô lập khuôn mặt trongảnh đầu vào (ảnh chứa khuôn mặt) được thực hiện với phương pháp dò tìm khuôn mặt trongảnh dùng mạng neural.
Sơ đồhệthống nhận dạng khuôn mặt được minh họa trong hình sau:
Tiền xử lý ảnh khuôn mặt Chuẩn hoá khuôn mặt
Phương pháp PCA Trích đặc trưng
MÔ TẢ DỮ LIỆU
Thu thập dữ liệu
Cơ sở dữ liệu ảnh khuôn mặt gồm 30 người được thu thập từ nhiều nguồn khác nhau Ảnh của 10 người đầu tiên được lấy từ trang http://www.humanscan.de/support/downloads/facedb.php của công ty Human Scan, nguồn dữ liệu này phục vụ cho bài toán dò tìm khuôn mặt Ảnh của 3 người tiếp theo được lấy từ trang http://www.mis.atr.co.jp/~mlyons/ và Kyushu University; mỗi người gồm 20 ảnh khác nhau, và nguồn dữ liệu này chuyên phục vụ cho bài toán nhận dạng cảm xúc 17 người còn lại được lấy từ trang http://cswww.essex.ac.uk/projects/vision/allfaces; mỗi người bao gồm nhiều ảnh khác nhau.
20ảnh khác nhau, và nguồn dữliệu này chuyên phục vụ cho cácứng dụng nhận dạng khuôn mặt Cơ sởdữliệu này được minh hoạtrong Hình 2-1.
Ngoài ra, chúng tôi còn xây dựng một tập dữ liệu riêng cho đề tài này trong quá trình thực hiện Tập dữ liệu được thu thập bằng WebCam với sự tham gia của 10 người khác nhau Nhờ sự chủ động trong việc tạo mẫu, số lượng ảnh cho mỗi người khoảng trên 50 ảnh Tập mẫu này được minh hoạ trong Hình 2-2.
Nhận xét về tập mẫu dữ liệu: Hầu hết các khuôn mặt xuất hiện trong ảnh là khuôn mặt trực diện với mặt phẳng ảnh và mỗi khuôn mặt đều đầy đủ thông tin đặc trưng như {Hai chân mày, hai mắt, mũi, miệng, cằm} Một sốkhuôn mặt quay với một góc không đáng kể.
Kích thước chuẩn hóa cho mỗi mẫu trong tập huấn luyện được cố định ở 30×30 pixel hoặc 32×32 pixel như mô tả trên Hình 2-3 Tùy thuộc vào đặc trưng xử lý của từng thuật toán, chúng ta sử dụng một trong hai kích thước ảnh chuẩn này làm đầu vào cho mô hình để đảm bảo quá trình huấn luyện diễn ra hiệu quả và so sánh kết quả được nhất quán.
Hình 2-1 Dữliệu gồm 30 người được gán nhãn theo thứtựtừ1 đến 30.
Hình 2-2 Dữliệu gồm 10 người được gán nhãn theo thứtựtừ1 đến 10
Hình 2-3 Kích thước chuẩn hoá của một mẫu khuôn mặt trong tập học
Biểu diễn dữ liệu khuôn mặt trong máy tính
Trong máy tính, dữ liệu ảnh biểu diễn bằng cường độ sáng của các điểm ảnh tại vị trí x và y: I(x,y) Để biểu diễn dữ liệu cho các thuật toán học nhận dạng, ta dùng hai cách tổ chức dữ liệu như sau: Đọc từng ảnh theo thứ tự từ trên xuống dưới và ghép các điểm ảnh liên tục vào một mảng số thực một chiều Như vậy từ ảnh có kích thước 30×30 (pixels) ta biểu diễn thành vector một chiều x = (x1, x2, , x900) Đây là cách bố trí phù hợp cho các phương pháp PCA và SVM Đọc từng khối ảnh có kích thước 8×32 (pixels) theo thứ tự khối dưới chồng lên khối trên, một nửa kích thước tính theo chiều cao; trên mỗi khối ảnh này lại tiếp tục tách ra mỗi khối con 8×8 liên tục với nhau Từ khối 8×8 (pixels), chúng tôi chọn ra 20 hệ số đặc trưng từ phép biến đổi trên miền tần số Mỗi khối ảnh 8×32 sẽ được lượng hóa thành một vector một chiều Như vậy với ảnh mỗi khuôn mặt ta biểu diễn trong máy tính thành một chuỗi các vector một chiều liên tiếp nhau Đây là cách bố trí để thử nghiệm cho phương pháp DCT và HMM.
DÒ TÌM KHUÔN MẶT
Giới thiệu
Dò tìmđối tượng là bài toán cơ bản và quan trọng trong lĩnh vực thịgiác máy tính.
Các kỹ thuật đã áp dụng có thể chia thành hai tiếp cận chủ yếu: so khớp các mô hình hình học hai chiều (2D) và ba chiều (3D) với ảnh Theo Seutens et al (1992) và Chin và Dyer, các phương pháp này tập trung vào nhận diện và định vị đối tượng bằng cách khai thác đặc trưng hình học và quan hệ không gian giữa mô hình và ảnh, đồng thời ước lượng biến đổi phù hợp để tối ưu hóa sự khớp giữa mô hình và ảnh Nhờ đó, khả năng nhận diện các đối tượng trong ảnh được cải thiện, phù hợp cho các ứng dụng thị giác máy tính và xử lý ảnh.
Besl và Jain (1985) và các nghiên cứu năm 1986 đề cập đến phương pháp so khớp các mô hình khung vào ảnh chứa khuôn mặt cần dò tìm Các nghiên cứu trước đây cho thấy các phương pháp dựa trên khung nhìn có thể dò tìm các khuôn mặt thẳng trong nền phức tạp một cách hiệu quả.
Việc phát triển bộ dò tìm đối tượng dựa trên khung hình bằng máy học gặp ba vấn đề chính Thứ nhất, ảnh của các đối tượng (ví dụ khuôn mặt) có thể biến đổi rất nhiều do độ sáng, tình trạng che khuất, tư thế, biểu cảm và sự khác biệt giữa các mẫu Do đó, thuật toán dò tìm cần xử lý và thích nghi với càng nhiều biến đổi này càng tốt để đảm bảo hiệu quả nhận diện và phát hiện ổn định trong thực tế.
Trong bước thứ hai, một hoặc nhiều mạng neural được huấn luyện để xử lý mọi biến đổi còn lại nhằm phân biệt đối tượng (object) với không phải đối tượng (non-object) Trong bước thứ ba, đầu ra từ các bộ dò tìm được kết hợp lại thành một quyết định thể hiện sự hiện diện của đối tượng hay không.
Hai bài toán dò tìm và nhận dạng đối tượng có mối quan hệ chặt chẽ với nhau Một hệ thống nhận dạng có thể được xây dựng mà không dựa vào bộ dò tìm, trong khi mỗi bộ dò tìm đều nhằm phát hiện một đối tượng quan tâm; ngược lại, bộ dò tìm có thể tồn tại mà không có hệ thống nhận dạng, còn bộ nhận dạng phải phân biệt đối tượng mong muốn với mọi đối tượng có thể xuất hiện hoặc với lớp đối tượng chưa biết Do đó hai bài toán này về cơ bản là như nhau, dù thực tế hầu hết các hệ thống nhận dạng ít khi giải quyết sự phụ thuộc này và các hệ thống dò tìm ít khi được huấn luyện trên đủ đa dạng loại đối tượng Sự khác biệt về trọng tâm dẫn đến các cách trình bày và thuật toán khác nhau giữa hai bài toán.
Thông thường, các hệ thống nhận diện khuôn mặt hoạt động qua hai bước cơ bản: trước tiên sử dụng bộ dò tìm khuôn mặt để định vị và đánh dấu vị trí khuôn mặt trong ảnh hoặc video, sau đó áp dụng thuật toán nhận diện để phân tích và nhận diện khuôn mặt đó Việc tách rời quá trình dò tìm khỏi quá trình nhận diện giúp tăng hiệu suất và độ chính xác, cho phép hệ thống xử lý nhanh chóng ngay cả trong điều kiện biến đổi của ánh sáng và góc quay.
Việc bổ sung các khuôn mặt nghiêng vào tập ảnh mục tiêu dò tìm làm tăng biến thiên của tập và có thể làm tăng độ phức tạp của đường biên quyết định của tập ảnh, từ đó bài toán dò tìm trở nên khó khăn hơn Tuy nhiên, việc thêm ảnh mới vào tập ảnh đối tượng có thể làm cho đường biên quyết định trở nên đơn giản hơn và dễ học hơn cho mô hình Có thể hình dung điều này như đường biên quyết định được làm mượt hơn bằng cách bổ sung thêm các ảnh vào tập.
Có nhiều nguồn biến đổi trong bài toán dò tìm đối tượng, và cụ thể trong bài toán dò tìm khuôn mặt Có các nguồn biến đổi sau.
9 biến đổi trong mặt phẳng ảnh là nhóm biến đổi hình học cơ bản áp dụng lên ảnh khuôn mặt Đây là các thao tác có thể biểu diễn độc lập với đặc trưng khuôn mặt, bao gồm quay, dịch chuyển, biến đổi tỉ lệ và soi gương ảnh Việc nắm bắt và áp dụng các biến đổi này giúp xử lý ảnh khuôn mặt hiệu quả và tăng cường dữ liệu cho các mô hình nhận diện khuôn mặt.
9 Biến đổi độ sáng và ngữ cảnh cho thấy cách đối tượng và môi trường tác động lên hình ảnh, đặc biệt là các thuộc tính bề mặt của đối tượng và nguồn sáng Các thay đổi về nguồn sáng có thể biến đổi hoàn toàn vẻ ngoài của khuôn mặt, làm nổi bật hoặc che khuất các đặc điểm và ngữ cảnh xung quanh.
9 Biến đổi nền: Trong luận văn của mình, Sung cho rằng với kỹ thuật nhận dạng mẫu hiện nay, tiếp cận dựa trên khung nhìn để dò tìm đối tượng chỉ thích hợp cho các đối tượng có đường biên có thể dự đoán được Khi đối tượng có hình dạng dự đoán được, ta có thể trích xuất cửa sổ chứa các pixel bên trong đối tượng và bỏ qua nền phía bên ngoài.
Trong danh sách 9 Biến đổi hình dáng liên quan đến khuôn mặt, biến đổi này bao gồm biểu lộ cảm xúc trên khuôn mặt, trạng thái mở hay đóng của miệng và mắt, cũng như hình dáng khuôn mặt khác nhau ở từng người.
3.1.2 Tiếp cận theo khung nhìn kết hợp mạng nơron
Hệthống dò tìm khuôn mặt thực hiện qua bốn bước chính:
1 Ước lượng vịtrí: việc dùng tiếp cận máy học, cụthểlà mạng neural, đòi hỏi việc huấn luyện mẫu Đểgiảm sốlượng biến đổi trongảnh huấn luyện dương, ảnh được canh biên với cácảnh khác để cực tiểu hoá các biến đổi vị trí đặc trưng khuôn mặt Khi thi hành chương trình, ta không biết chính xác các vịtrí đặc trưng khuôn mặt, do đó không thểdùng chúng để định vị cácứng viên khuôn mặt tiềm năng Thay vậy, ta dò tìm toàn diệnởmọi vị trí và tỷlệ đểtìm mọi vịtríứng viên Các cải tiến dò tìm toàn diện làm cho thuật toán nhanh hơn, với tỷlệdò tìm giảm 10% đến 30%.
2 Tiền xửlý: để giảm các biến đổi gây ra do chiếu sáng hay camera,ảnh được tiền xửlý với các thuật toán chuẩn như cân bằng lược đồ đểcải thiện độsáng và độtương phản trongảnh.
3 Dò tìm: các khuôn mặt tiềm năng đã chuẩn hoá về vịtrí, tư thế, và độ sáng trong hai bước đầu tiên được khảo sát đểxác định chúng có thực sựlà khuôn mặt hay không Quyết định này được thực hiện bằng mạng neural đã huấn luyện với nhiềuảnh mẫu khuôn mặt và không khuôn mặt.
4 Quyết định: Kết hợp nhiều mạngđểcó được một quyết định khách quan nhất Mỗi mạng học những điều khác nhau từdữliệu huấn luyện, và đưa ra các lỗi khác nhau Các quyết định của chúng có thể kết hợp dùng một số heuristic đơn giản, làm tăng độchính xác dò tìm khuôn mặt và ngăn chặn lỗi.
3.1.3 Dò tìm khuôn mặt bằng phương pháp mạng neural
Canh bieân mẫu khuôn mặt
Tiền xử lý tập mẫu học
Huaỏn luyeọn dò tìm khuôn mặt thẳng
Lấy tất cả Window cùng với vị trí trên ảnh
Tiền xử lý các Window
Giữ lại vị trí các mẫu là khuôn mặt Ảnh thử nghiệm có khuôn mặt
Tập mẫu không phải khuôn mặt
Xác minh window là khuôn mặt/ không phải khuôn mặt
Kết hợp các khuôn mặt mà vũ trớ truứng laỏp
Các khuôn mặt tại các vị trí khác nhau
Loại bỏ window không phải khuôn mặt
Hình 3-1 Sơ đồluồng xửlý các bước chính trong tiến trình dò tìm khuôn mặt
Chuẩn bị dữ liệu cho hệ thống dò tìm khuôn mặt
Tiếp cận nhận diện khuôn mặt theo khung nhìn là phương pháp dò tìm bằng cách xem xét một cửa sổ con trong ảnh và xác định xem nó có thuộc tập ảnh khuôn mặt hay không Các biến đổi trong ảnh khuôn mặt như biểu hiện, góc nhìn, ánh sáng và vị trí có thể làm tăng độ phức tạp của biên xác định, khiến việc phân biệt khuôn mặt với không phải khuôn mặt khó khăn hơn Phần này mô tả các kỹ thuật nhằm giảm thiểu biến đổi trong ảnh khuôn mặt để cải thiện độ chính xác và hiệu suất của quá trình dò tìm.
3.2.2 Gán nhãn và canh biên các đặc trưng khuôn mặt
Bước đầu tiên trong việc giảm biến động của ảnh khuôn mặt là thực hiện căn chỉnh (canh biên) các khuôn mặt với nhau Việc căn chỉnh giúp giảm biến đổi về vị trí, hướng và tỷ lệ khuôn mặt, từ đó tạo ra một không gian ảnh khuôn mặt chuẩn hóa và tối thiểu Quá trình căn chỉnh được tính trực tiếp từ các ảnh và có thể gặp khó khăn khi cường độ ánh sáng biến đổi nhiều, khiến một số khuôn mặt khó căn chỉnh với nhau.
Ta dùng giải pháp gán nhãn thủ công các mẫu khuôn mặt Cụ thểlà vịtrí hai mắt, đỉnh mũi, hai góc và trung tâm miệng của mỗi khuôn mặt.
Bước tiếp theo là dùng thông tin này để canh biên khuôn mặt với khuôn mặt khác Đầu tiên, ta định nghĩa sự canh biên giữa hai tập điểm đặc trưng bằng một phép quay, biến đổi tỷ lệ và dịch chuyển nhằm tối thiểu hoá tổng bình phương khoảng cách giữa các điểm đặc trưng tương ứng Trong không gian hai chiều, một phép biến đổi toạ độ như vậy có thể được biểu diễn bằng một hệ chuyển đổi gồm quay, co dãn và dịch chuyển, giúp căn chỉnh các điểm đặc trưng sao cho chúng khớp với nhau một cách tối ưu.
Nếu có nhiều tập toạ độtươngứng, có thểviết như sau:
Khi có hai hay nhiều hơn hai cặp điểm đặc trưng phân biệt, hệ phương trình tuyến tính có thể được giải bằng phương pháp đảo ngược giả Gọi A là ma trận hệ số và b là vector nghiệm; khi số phương trình và số ẩn không khớp hoặc dữ liệu bị nhiễu, ta cần nghiệm tối ưu Trong trường hợp hệ quá xác định hoặc không có nghiệm duy nhất, ta tìm x sao cho tối thiểu hóa ||Ax − b||^2, và nghiệm này được cho bởi x = A^+ b, với A^+ là pseudo-inverse của A Để tính A^+, ta dùng phân rã SVD: A = U Σ V^T; A^+ = V Σ^+ U^T, trong đó Σ^+ được tạo bằng cách lấy nghịch đảo của các giá trị singular σ_i khác 0 và đặt 0 ở các vị trí có σ_i = 0 Nếu A có đầy đủ cột độc lập và là ma trận vuông nghịch được, A^+ rút gọn thành A^{-1} Nhờ tính chất của đảo ngược giả, kỹ thuật này là công cụ mạnh mẽ để giải hệ tuyến tính khi có nhiều hoặc ít dữ liệu, đảm bảo nghiệm tối ưu và ổn định cho các bài toán trong học máy, kỹ thuật và khoa học dữ liệu.
CM bên trái là A, vector (a, b, tx, ty) T là T, và bên phải là B, khi đó lời giải:
Giải pháp nghịch đảo giả cho bài toán biến đổi T cho phép xác định một phép biến đổi T để tối thiểu hóa tổng bình phương khác biệt giữa tập tọa độ x'i, y'i và phiên bản đã biến đổi của xi, yi Cụ thể, lời giải cho thấy biến đổi T tối ưu nhằm làm cho hai tập điểm sau khi biến đổi trở nên tương đồng hơn, từ đó giảm thiểu sai lệch giữa không gian gốc và không gian đã biến đổi.
Canh biên tập các điểm đặc trưng.
1 Khởi tạo F , vector sẽ là vị trí trung bình của mỗi đặc trưng gán nhãn trên mọi khuôn mặt, với một sốvịtrí đặc trưng ban đầu Trong trường hợp canh biên các khuôn mặt thẳng, các đặc trưng này là vị trí mong muốn của hai mắt, đỉnh mũi, hai góc và trung tâm miệng của mỗi khuôn mặt trong cửa sổ đầu vào.
2 Với mỗi khuôn mặt i, dùng thủ tục canh biên để tính phép quay,dịch chuyển, và biến đổi tỷ lệ tốt nhất để canh biên các đặc trưng khuôn mặt Fi với các vị trí đặc trưng trung bình F Gọi vị trí đặc trưng đã canh biên F’ i
3 Cập nhật F bằng việc lấy trung bình các vị trí đặc trưng đã canh biên F’icho mỗi khuôn mặt i.
4 Toạ độ đặc trưng trong F được quay, dịch chuyển và biến đổi để phù hợp với một sốtoạ độchuẩn Toạ độchuẩn là toạ độ được dùng làm giá trịkhởi tạo cho F
Theo kinh nghiệm, thuật toán hội tụ trong vòng năm lần lặp tạo cho mỗi khuôn mặt một phép biến đổi để ánh xạ nó về vị trí chuẩn và canh biên với mọi khuôn mặt khác Khi đã xác định các tham số căn chỉnh khuôn mặt, ảnh có thể được tái mẫu lại bằng nội suy song tuyến tính Khuôn mặt chuẩn và phân phối của các vị trí đặc trưng được trình bày trong Hình 3-2, trong khi các mẫu ảnh được căn chỉnh bằng kỹ thuật này được trình bày trong Hình 3-3.
Hình 3-2 cho thấy phía trái là mẫu khuôn mặt chuẩn, còn phía phải trình bày các vị trí đặc trưng khuôn mặt chuẩn (được đánh dấu bằng vòng tròn trắng) và phân phối của các vị trí đặc trưng thực tế sau khi căn chỉnh biên từ mọi mẫu (được thể hiện bằng các điểm đen).
Hình 3-3 Ví dụ ảnh khuôn mặt thẳng được canh biên.
Trong quá trình huấn luyện bộ dò tìm, việc thu thập đủ số mẫu là yếu tố quyết định để đạt hiệu suất cao Một kỹ thuật phổ biến để tăng cường dữ liệu là khung nhìn ảo, nơi các ảnh mẫu mới được tạo từ ảnh thực bằng các thao tác quay, dịch chuyển và biến đổi tỷ lệ ngẫu nhiên.
3.2.3 Tiền xử lý về độ sáng và độ tương phản trên tập mẫu học
Sau khi căn chỉnh các khuôn mặt, vẫn còn một nguồn biến đổi chính khác (không kể sự khác biệt về bản chất giữa các khuôn mặt) Nguồn biến đổi này bắt nguồn từ độ sáng và các đặc tính của máy ảnh, khiến ảnh khuôn mặt có độ sáng khác nhau và/hoặc độ tương phản kém.
Ta xử lý vấn đề này bằng một phương pháp tiếp cận xử lý ảnh đơn giản Trong phần tiền xử lý, ta cân bằng các giá trị mật độ trên toàn cửa sổ bằng cách áp dụng một hàm biến đổi tuyến tính trong vùng hình tròn nằm bên trong cửa sổ Các điểm ảnh ngoài vòng tròn có thể được xem như nền nhằm đảm bảo nền ảnh ổn định và dễ xử lý ở các bước tiếp theo Với mỗi pixel (x, y) có giá trị I(x, y), sự biến đổi tuyến tính được tham số hóa bởi ba hệ số a, b và c sao cho điều chỉnh độ sáng và độ tương phản phù hợp với mục tiêu xử lý Nhờ kỹ thuật này, phân bố mật độ được cân bằng và chuẩn hóa trước khi thực hiện các bước xử lý ảnh tiếp theo, giúp cải thiện chất lượng kết quả và tối ưu hóa hiệu suất xử lý.
Việc chọn cách biến đổi này là tùy ý và có thể biểu diễn các khác biệt về độ sáng trên toàn ảnh Các biến đổi được giới hạn ở dạng tuyến tính nhằm giảm số tham số và tăng tốc độ tạo lập hàm Tập hợp các pixel trên toàn cửa sổ hình tròn cho ta một hệ phương trình ma trận ràng buộc và được giải bằng phương pháp nghịch đảo giả Phương trình tuyến tính này xấp xỉ độ sáng của từng phần trong cửa sổ và được cân bằng bằng cách trừ đi giá trị tương ứng của cửa sổ để điều chỉnh biến đổi về độ sáng.
Tiếp theo, cân bằng lược đồ và ánh xạ phi tuyến các giá trị mật độ để mở rộng miền cường độ trong cửa sổ Lược đồ được tính với các pixel trong vùng tròn của cửa sổ, giúp bù cho sự khác biệt trong thu nhận đầu vào từ camera và cải thiện độ tương phản ở một số trường hợp Kết quả của từng bước được thể hiện trong Hình 3-4.
RÚT TRÍCH ĐẶC TRƯNG TỪ KHUÔN MẶT
Tiếp cận theo phương pháp phân tích thành phần chính (Principal
4.1.1 Vector riêng, Trị riêng và sự chéo hoá của ma trận
Xét một toán tửtuyến tính f trong không gian R n với các vector cơ sở: e i = [0 1 0] T (với giá trị1 nằm tại vịtrí thứi) (4.1.1)
Toán tử tuyến tính này sẽ được biểu diễn bởi một ma trận vuông T kích thướcn×n.
Một đại lượng vô hướngλđược gọi là trị riêng của toán tửf, hay của ma trậnT, nếu tìmđược một vectorx, x≠0, sao cho f(x) =λx (4.1.2) hay T*x =λx (4.1.3)
Vector xkhi đó được gọi là vector riêng của f, hayT, ứng với trị riêngλ.
Ma trận T với kích thướcn×n trên đây sẽ có tối đa ntrị riêng và n vector riêng tươngứng Một ma trậnTkhảnghịch đảo sẽcó đủntrịriêng (kểcảtrịriêng bội) vànvector riêng tươngứng.
4.1.2 Kì vọng và phương sai trong thống kê đa chiều
Ma trận T được biểu diễn trong không gian R^n với cơ sở chuẩn e1, e2, , en được gọi là chéo hóa được nếu tồn tại một cơ sở khác của R^n sao cho ma trận T biểu diễn trong cơ sở đó có dạng chéo, tức là mọi phần tử ngoài đường chéo bằng 0 Nói cách khác, T chéo hóa khi tồn tại một cơ sở gồm các vector riêng của T và các giá trị riêng tương ứng, λ1, , λn, sao cho T v_k = λ_k v_k với mọi k Khi có cơ sở này, ma trận đại diện cho T sẽ ở dạng chéo với đường chéo chứa các giá trị riêng λ_i.
Ví dụ:Khảo sát trên không gianR 5 với ma trận chéo5×5
Giả sử C là ma trận các vectơ cơ sở mới được biểu diễn trong cơ sở {e_i} Ở đây, ma trận T là ma trận chuyển đổi từ cơ sở {e_i} sang cơ sở mới nên ma trận chuyển đổi từ {e_i} sang cơ sở C cũng là C Nếu T khả nghịch, tức là tồn tại ma trận C khẳng định (tức là C tạo được một cơ sở trong R^n) sao cho các vectơ được biểu diễn bởi các cột của C tạo thành một cơ sở trong R^n.
Nếu ta có C là một ma trận có các cột là các vector cơ sở đã được chuẩn hóa của không gianR n thìC T = C -1 , khi đó ta có thểviết :
Ta có thểtìmđược ma trậnCđểchéo hóa một ma trậnTbằng cách tìm các vector riêng của ma trậnT Ma trậnClà ma trận có các cột là các vector riêng của
+ Kì vọng Đối với thống kê nhiều chiều, mỗi một mẫu thống kê là một vector nhiều chiều.
Giảsửta có một biến ngẫu nhiênXtrong không gian tuyến tínhnchiều.
Trong thống kê, khi biến ngẫu nhiên X là một vector n chiều, kỳ vọng của X cũng là một vector n chiều Kỳ vọng E[X] của biến ngẫu nhiên X có thể được ước lượng bằng trung bình mẫu của X, tức là ước lượng E[X] bằng X̄ từ tập dữ liệu quan sát Việc ước lượng kỳ vọng bằng trung bình mẫu giúp mô tả trung tâm phân phối của X và là nền tảng cho các phân tích thống kê tiếp theo.
Trong đóMlà tổng sốmẫu có trong thống kê.
+ Ma trận hiệp phương sai
Giá trị phương sai trong thống kê một chiều là thước đo mức độ phân tán của biến ngẫu nhiên quanh kỳ vọng, phản ánh mức biến thiên và độ tin cậy của các ước lượng Trong thống kê nhiều biến, khái niệm này được mở rộng thành ma trận hiệp phương sai, công cụ quan trọng để mô tả sự liên quan và đồng biến giữa các biến; ma trận này có đường chéo là các giá trị phương sai của từng biến, còn các phần tử ngoài đường chéo là hiệp phương sai giữa các cặp biến, từ đó giúp đánh giá sự phụ thuộc và mô hình phân phối dữ liệu đa biến cho các ứng dụng như phân tích phương sai, hồi quy và nhận diện mô hình.
Ma trận hiệp phương sai là một ma trận đối xứng Mỗi phần tử c ij của ma trận là hiệp phương sai giữa hai thành phầnx i vàx j trong vectorX.
Nếuc ij = 0ta nói hai thành phầnx i vàx j là độc lập hay không phụthuộc lẫn nhau.
Nếuc ij ≠0, ta nóix i vàx j không độc lập hay giữa chúng có mối tương quan với nhau.
Trong thống kê, ma trận hiệp phương sai được tính như sau :
4.1.3 Kỹ thuật rút trích trích đặc trưng bằng phương pháp phân tích thành phần chính
Phân tích thành phần chính (PCA) áp dụng cho dữ liệu có n chiều và thực hiện giảm chiều xuống còn m chiều (m < n) Gọi x là vector n chiều và y là vector m chiều sau khi giảm chiều Lỗi bình quân bình phương (MSE) được đo bằng tổng phương sai của các thành phần bị loại bỏ khi từ x suy ra y Phương pháp PCA tìm một phép biến đổi tuyến tính T: y = T x, với T là ma trận m × n (4.1.10), sao cho MSE là tối ưu, tức là nhỏ nhất.
GọiMlà vector trung bình của các vector x trong tập họcX.
1 , Mlà sốphần tửtrong tập học (4.1.11)
GọiClà ma trận hiệp phương sai của các các phần tửtrong tậpX.
1 , Clà ma trận đối xứngnxn (4.1.12)
Người ta chứng minh được rằng nếu T là một ma trận sao cho mỗi hàng của T là một vector riêng của C và mỗi vector riêng này ứng với trị riêng lớn nhất, thì T chính là một phép biến đổi tuyến tính thỏa mãn điều kiện MSE nhỏ nhất Nói cách khác, việc lựa chọn các vector riêng có trị riêng lớn nhất cho phép xây dựng một biến đổi tuyến tính tối ưu hóa sai số bình phương trung bình (MSE), từ đó tối ưu hóa hiệu quả nhận diện, khôi phục dữ liệu và ứng dụng vào phân tích thành phần chính (PCA).
GọiΦlà ma trận vuôngn×nmà mỗi cột là một vector riêng củaCđãđược chuẩn hóa với phép biến đổi : y =Φ T *x y = (y 1 , y 2 , , y n ) (4.1.13) được gọi là phép biến đổiHotelling.
Xét theo quan điểm của nhận dạng, mỗi thành phần y_i của vector y được xem như một đặc trưng của vector mẫu x Các đặc trưng này được cho là độc lập với nhau vì ma trận hiệp phương sai của y là ma trận đường chéo Điều này có nghĩa là các biến động của từng đặc trưng y_i không tương quan với nhau, giúp tăng hiệu quả của quá trình nhận dạng Việc nhận diện dựa trên các đặc trưng độc lập hỗ trợ phân tích và xử lý dữ liệu một cách hiệu quả trong hệ thống nhận dạng mẫu.
C y =Φ T CΦ (4.1.14) là một ma trận chéo (đãđềcập tới trong phần : Vector riêng, trịriêng và sựchéo hóa ma trận).
Phương pháp phân tích thành phần chính (PCA) ánh xạ một vector từ không gian ban đầu xuống không gian ít chiều hơn bằng cách chiếu lên các vector đặc trưng của dữ liệu PCA tìm các giá trị riêng và vector riêng của ma trận hiệp phương sai của tập X và chọn các vector riêng tương ứng với các giá trị riêng lớn nhất làm cơ sở cho không gian giảm chiều này.
Hình 4-1 Hai trục tươngứng với hai thành phần quan trọng nhất và ít quan trọng nhất đối với tập mẫu có hai cluster nhưtrên.
Khi sốlượng mẫuMtrong tậpXnhỏhơn sốchiềun, thay vì tính trực tiếp các vector riêng từma trận hiệp phương saiC, ta có thểtính các vector riêng theo phương pháp sau :
9 B ướ c 1 : Tính ma trận kích thướcM×M, C’như sau :
C’ = Y T Y vớiY n×M = [x 1 , x 2 , , x M ]mỗi cột của ma trận là một phần tửx i , i=1 m
TínhMvector riêngEM i và các trịriêng tươngứng của ma trậnC’.
Chọnmvector riêngứng vớimtrịriêng lớn nhất đểtiếp tục bước 3.
Chiếu các vector riêng Mchiều này về lại không gian n chiều của các mẫux i bằng cách như sau :
Các vectorEn i thu được chính là các vector riêng cần tìm của ma trậnC.
Cách xác định sốthành phần chính hiệu quảnhất
Có hai phương pháp hữu ích giúp xác định số lượng thành phần chính một cách hiệu quả trong phân tích thành phần chính (PCA) Cả hai phương pháp này dựa trên mối quan hệ giữa các giá trị đặc trưng (eigenvalues) của dữ liệu và mức đóng góp của từng thành phần, từ đó lựa chọn số lượng thành phần chính tối ưu để giảm kích thước dữ liệu mà vẫn bảo toàn thông tin.
9 Sắp xếp lại các giá trị đặc trưng tìm được theo thứ tựgiảm dần về mặt giá trị (1,eigenvalue[1]), (2,eigenvalue[2]),
…,( p ,eigenvalue[ p ]) và Thứ tự này vẫn đảm bảo được thứ tự của các vector đặc trưng tươngứng.
9 Theo dõi sự biến thiên của chuỗi giá trị đặc trưng vừa được sắp xếp lại Khi sự biến thiên tiến tới một điểm ngưỡng, thông thường xấp xỉ bằng không, đó chính là lúc ta xác định được số lượng thành phần chính cần thiết.
9 Theo phương châm tối giản tối đa số lượng thành phần chính sao cho vẫn đủ để giải thích sự phân tán của tập mẫu học thành các lớp mẫu riêng biệt cần thiết nhất.
Cách đểnhận được các thành phần chính
9 Các thành phần chính có thể nhận được bằng cách chiếu các vector dữ liệu có nhiều biến động vào không gian mở rộng từ các vector đặc trưng.
Các đánh giá quan trọng vềrút trích đặc trưng bằng phương phápPCA
Khi số đặc trưng được lấy càng nhiều về phía sau, yêu cầu về biến động cần thấp hơn Điều này cho thấy mức độ liên kết giữa các phần tử càng cao, dẫn đến sự giao thoa giữa các lớp mẫu trong tập dữ liệu càng lớn Do đó, việc tăng số đặc trưng làm tăng mức độ ghép nối giữa các lớp mẫu, làm cho phân tích và nhận diện mẫu trên tập dữ liệu trở nên nhất quán và hiệu quả hơn.
9 Tuy nhiên, nếu không lấy đủ số lượng thành phần chính, khả năng phân tán của tập mẫu sẽ tăng lên, có thể vượt quá mức cần thiết để đại diện cho dữ liệu Điều này có thể làm cho tập mẫu trở nên quá phân tán và ảnh hưởng đến hiệu quả của phân tích.
Tiếp cận theo phương pháp Biến đổi Cosine rời rạc
4.2.1 Ý nghĩa phép biến đổi DCT
Phép biến đổi Cosine rời rạc (DCT) là một kĩ thuật biến đổi nhanh và là một trong những công cụ quan trọng nhất trong xử lý tín hiệu số, đặc biệt là trong xử lý ảnh và video Mục đích của mã hóa Cosine rời rạc là chuyển tín hiệu từ miền không gian pixel sang miền tần số để giảm khối lượng dữ liệu đồng thời vẫn bảo toàn chất lượng tín hiệu ở mức cao Nhờ khả năng phân tách các thành phần tần số và loại bỏ các thành phần ít ảnh hưởng, DCT giúp tối ưu hóa lưu trữ và truyền tải dữ liệu trong các hệ thống xử lý đồ họa và truyền thông Do đó, Cosine rời rạc là công cụ quan trọng được ứng dụng rộng rãi trong nén và xử lý hình ảnh, video và các ứng dụng xử lý tín hiệu số khác.
4.2.2 Các khái niệm quan trọng ắ Định nghĩa 1
Phép biến đổi Cosine rời rạc hai chiều trên một ma trận C = { c k n ( , ) } kích thước
N N × , cũng gọi là một phép biến đổi cosine rời rạc, được định nghĩa như sau
Phép biến đổi Cosine rời rạc một chiều trên một dãy số {u(n),0 n N-1}≤ ≤ được định nghĩa như sau
Phép biến đổi nghịch Cosine rời rạc được định nghĩa như sau
Các vector cơ sở của phép biến đổi Cosine rời rạc trên khối 8×8 là nền tảng của DCT trong xử lý ảnh Trong nhiều trường hợp, các hệ số của phép biến đổi này có thể rất nhỏ, và nguyên nhân là hầu hết năng lượng của dữ liệu được dồn vào một vài hệ số đặc biệt và ở một vài vị trí đặc biệt trên miền tần số Định nghĩa 5.
Tín hiệu thực: một tín hiệu là một tín hiệu thực thì giá trịphần thực cũng chính là giá trịcủa tín hiệu gốc, còn phầnảo thì bằng không.
4.2.3 Kĩ thuật mã hoá hệ số DCT
Phép biến đổi Cosine rời rạc (DCT) xử lý các khối dữ liệu pixel thành các khối hệ số ở miền tần số Để tăng tốc độ xử lý của thuật toán, người ta thường chọn khối dữ liệu 8×8 hoặc 16×16, nhưng tiêu chuẩn phổ biến nhất vẫn là 8×8 Lý do giải thích cho sự lựa chọn này dựa trên khả năng xử lý của phần cứng: khối 8×8 trùng khớp với kích thước dữ liệu tối đa mà công nghệ vi mạch điện tử hiện nay có thể xử lý đồng thời.
Khi sử dụng phép biến đổi Cosine rời rạc (DCT) trên mỗi khối dữ liệu thô có kích thước 8×8, kết quả biến đổi là một ma trận 8×8 biểu diễn năng lượng trên miền tần số Ta có thể nói rằng 64 giá trị ban đầu được biến đổi thành 64 giá trị khác, tất cả thuộc miền số thực với chỉ số u, v ∈ {0,1,…,7} Nhờ tính chất của DCT đã được trình bày ở phần trước, chúng ta đã loại bỏ phần phức tạp toán học và vì vậy DCT đơn giản hơn nhiều so với FFT Tuy nhiên, phép phân tích bằng DCT vẫn tương tự FFT ở chỗ giá trị của mỗi hệ số trên ma trận DCT trong miền năng lượng quang phổ chính là biên độ của hàm cơ sở tương ứng với hệ số đó Hình 4-2 mô phỏng 6 trong 64 hàm cơ sở đã sử dụng trong khối 8×8 DCT và cho thấy biên độ đó phụ thuộc vào vị trí trên miền tần số mà nó được lưu trữ.
Các hàm cơ sởtrên khối 8×8 DCT có dạng như sau :
C x y - Các mẫu gốc trong khối ma trận 8×8 DCT
( , ) c u v - Các hệsốkhối DCT 8×8 u - Tần sốngang chuẩn hóa (0 ≤ ≤ u 7) v - Tần số đứng (mặt) chuẩn hóa (0 ≤ ≤ v 7)
Hình 4-2 Các hàm cơsởcủa phép biến đổi Cosine rời rạc, Miền quang phổ của phép biến đổi Cosine rời rạc bao gồm một mảng hai chiều 8´8, mỗi phần
Kết quả của phép biến đổi Cosine rời rạc trên ma trận 8×8 cho thấy các thành phần có tần số thấp dồn về góc trên bên trái của ma trận quang phổ, trong khi các thành phần có tần số cao dồn về góc dưới bên phải của ma trận quang phổ Đối với hệ số tại vị trí (u, v), đặc biệt khi (u, v) = (0, 0), hệ số DC mang ý nghĩa đại diện cho giá trị trung bình của tín hiệu và ảnh hưởng đến quá trình tái tạo ảnh từ ma trận quang phổ.
C u C v = 2, được gọi là thành phần
DC của ma trận 8×8 DCT 7 7
Phương trình này cộng tất cảcác giá trịtrong khối 8×8 và chia kết quảcho
8 Theo thống kê thì kết quảnày bằng 8 lần giá trịtrung bình trong khối 8×8.
Trong ma trận 8×8, các hệ số còn lại ở các vị trí (u,v) với (u,v) ≠ (0,0) được gọi là thành phần AC Cụ thể, c(0,1) bằng nửa chu kỳ của dạng sóng cosine khảo sát trên một chiều, và c(1,0) cũng bằng nửa chu kỳ của dạng sóng cosine khảo sát trên một chiều nhưng đã bị quay 90°.
Trong khối 8×8, các hệ số DCT cho thấy một giá trị DC lớn, đại diện cho giá trị trung bình của khối 8×8 ban đầu Các hệ số AC mô tả các thành phần tần số cao và thường có biên độ nhỏ hơn rất nhiều so với DC, cho thấy sự khác biệt giữa chi tiết và nền Do đó, khi thực hiện nén ảnh bằng biến đổi DCT, phần lớn năng lượng tập trung ở giá trị DC, còn các hệ số AC mang ít thông tin hơn và có thể nén hiệu quả mà vẫn bảo toàn đặc trưng hình ảnh Điều này giải thích vì sao quá trình nén JPEG và các phương pháp xử lý ảnh dựa trên DCT có thể giảm dung lượng lưu trữ đáng kể.
DC đó chính là các thành phần có tần sốcao theo chiều ngang và đứng Tuy nhiên, các hệsốAC theo chiều ngang cao hơn các hệsốAC theo chiều đứng.
Bảng 4-1 Dữliệu trên Matrận hai hiều 8x8
Bảng 4-2 Dữliệu qua phép biến đổi 2D-DCT
G ia ựtr ũ(x ,y ) Pho ồtaàn so ỏ(u ,v)
Hình 4-3 Quá trình mã hoá DCT trên một khối 8×8
Qua khối các hệ số DCT, quét zigzag biến khối hai chiều thành một chuỗi 1-D để mã hóa và truyền dẫn qua kênh một chiều Hình quét zigzag sắp xếp các hệ số theo thứ tự ưu tiên và chọn lọc các hệ số có ý nghĩa nhất, đồng thời ghép các hệ số bằng 0 càng nhiều càng có thể Sự phân bố của các hệ số khác 0 phụ thuộc vào sự biến đổi giá trị của khối dữ liệu gốc và mức biến động mạnh về giá trị theo chiều đứng trong khối Có thể áp dụng một cách quét khác để tối ưu hóa quá trình này.
SVM VÀ ỨNG DỤNG NHẬN DẠNG KHUÔN MẶT
Cở sở lý thuyết của SVM
SVM, viết tắt của Support Vector Machine, là một phương pháp học máy được Vladimir N Vapnik đề xuất từ năm 1995 và ngày càng được ứng dụng rộng rãi trong nhiều lĩnh vực, đặc biệt là phân loại và nhận dạng mẫu Mô hình này nổi bật với nhiều ưu điểm so với các phương pháp cổ điển: dễ triển khai, ổn định trên dữ liệu phức tạp, có thể xử lý dữ liệu có số chiều lớn và quan trọng nhất là khả năng tổng quát hóa tốt.
5.1.1 Các khái niệm nền tảng
5.1.1.1 Đường bao tổng quát cho một hệ máy học
Khảo sát bao gồm các mẫu quan sát, mỗi mẫu là một cặp (x_i, y_i) với x_i ∈ ℝ^n và y_i là một giá trị được xác định dựa trên sự đánh giá chủ quan của người tổ chức dữ liệu Gọi P(x,y) là hàm phân phối xác suất giữa x và y, còn chưa được xác định rõ ràng Cách tổ chức này có tính tổng quát cao hơn so với việc ghép cố định y với từng x, vì nó cho phép tính phân phối của y dựa trên dữ liệu x cho trước Tuy nhiên, sau phần này ta sẽ xem xét cố định y với x cho trước ở các bước tiếp theo.
Học máy có nhiệm vụ học ánh xạ từ dữ liệu đầu vào x tới nhãn y, được định nghĩa thông qua tập hợp các ánh xạ f(x, α) Hàm f(x, α) được gán nhãn bởi tham số α, và α có thể được điều chỉnh trong quá trình huấn luyện trên tập dữ liệu Học máy có thể xem như một hệ quyết định: với dữ liệu đầu vào cho trước, ta chọn α thích hợp và kết quả đầu ra sẽ là f(x, α) Việc chọn α có thể thực hiện theo nhiều cách khác nhau; ở đây chúng ta tiếp cận theo các phương pháp học máy.
Lỗi thửnghiệm đối với một hệmáy học đãđược huấn luyện:
Nếu tồn tại hàm mật độ p(x,y) thì dP(x,y) có thể được viết thành dP(x,y) = p(x,y) dx dy Đây là một cách biểu diễn khác của trung bình lỗi, nhưng trong trường hợp đã ước lượng được P(x,y) thì cách viết này sẽ không còn ý nghĩa nữa.
R(α) được gọi là lỗi kỳ vọng (lỗi thực), là giá trị kỳ vọng của hàm mất mát trên phân phối dữ liệu, phản ánh hiệu suất của mô hình trên dữ liệu chưa quan sát Lỗi huấn luyện (thực nghiệm) R_emp(α) được định nghĩa là trung bình của hàm mất mát trên tập huấn luyện, tức R_emp(α) = (1/n) ∑_{i=1}^n L(y_i, f_α(x_i)) Nội dung này nhấn mạnh đến trường hợp dữ liệu hữu hạn, cho phép ước lượng lỗi kỳ vọng từ tập dữ liệu đã cho.
R emp (α) là một giá trị tường minh tương ứng với một hệ số α riêng từ dữ liệu huấn luyện riêng{x i ,y i }. Đại lượng ( , )
Độ lệch được định nghĩa bằng |y_i − f(x_i)|^α, với α > 0, và nó chỉ có thể nhận hai giá trị 0 hoặc 1 Chọn η sao cho 0 ≤ η ≤ 1 và cho độ lệch nhận các giá trị này, với xác suất 1 − η, ta có:
Trong lý thuyết VC, h là một số nguyên không âm và được gọi là chiều VC (VC-dimension) của một lớp nhận diện Vế phải của (5.3) được gọi là đường bao lỗi hay biên lỗi Trước đây, một số nhà nghiên cứu, ví dụ Guyon et al (1992), gọi đó là lỗi được thừa nhận, nhưng cách gọi này có thể gây nhầm lẫn vì nó thực chất chỉ là đường bao trên miền lỗi, chứ không phải là giá trị chính xác của lỗi, và nó chỉ đúng ở một xác suất nào đó nên thật sự là không đảm bảo được đo lường này là chính xác Thuật ngữ thứ hai là Vapnik-Chervonenkis.
Chiều VC của một tập hàm {f(α)} là số điểm huấn luyện lớn nhất có thể bị phân tách bởi tập hàm này Trong bài toán nhận dạng hai lớp, f(α) ∈ {−1, 1} với mọi x và mọi α; cho một tập quan sát gồm l mẫu, mỗi nhãn có thể được gán theo hai cách và với mỗi cách gán nhãn có thể tìm được một thành viên của {f(α)} sao cho nhãn trên toàn bộ tập mẫu khớp với nhãn đã gán Các điểm như vậy được gọi là bị shatter bởi tập hàm {f(α)} Chiều VC của tập hàm {f(α)} là kích thước tối đa của một tập huấn luyện có thể bị shatter Chú ý rằng, nếu chiều VC bằng h thì tồn tại ít nhất một tập gồm h điểm có thể bị phân tách hoàn toàn bởi {f(α)}, và không tồn tại tập gồm h+1 điểm có thể bị phân tách như vậy.
Hình 5-1 cho thấy một đường thẳng phân chia không gian thành hai miền và gán nhãn 1 cho các điểm ở một phía Với tập các hàm phân loại dựa trên đường thẳng có định hướng trong không gian hai chiều (R^2), có thể shatter được ba điểm (tức có thể gán nhãn cho mọi cách đối với ba điểm), nhưng không thể làm được điều đó với bốn điểm Do đó VC-dimension của tập các đường có định hướng trong R^2 bằng 3.
Định lý 1: Xét tập mẫu gồm m điểm nằm trong không gian R^n và chọn bất kỳ một điểm làm gốc tọa độ Tập m điểm ấy có thể được phân tách bằng các siêu mặt có hướng (tương ứng với các đường thẳng có định hướng) hay không phụ thuộc vào tính độc lập tuyến tính của các vectơ vị trí của các điểm đó Cụ thể, tập m điểm có thể bị phân tách bằng siêu mặt nếu và chỉ nếu các vectơ vị trí của các điểm là độc lập tuyến tính (Mangasarian, 1969).
Trong không gian R^n, VC-dimension của các siêu mặt có hướng bằng n+1 Điều này được chứng minh bằng cách ta có thể chọn n+1 điểm dữ liệu ở vị trí tổng quát, rồi chọn một điểm trong số đó làm gốc sao cho các vector từ gốc tới các điểm còn lại là độc lập tuyến tính Nhờ tính độc lập tuyến tính của các vector này, ta có thể phân loại mọi nhãn cho n+1 điểm bằng một siêu mặt có hướng, từ đó suy ra VC-dimension bằng n+1.
5.1.1.4 Cực tiểu đường bao lỗi trên cơ sở cực tiểu chiều VC h/l = VC dimension / KÝch th−íc tËp mÉu
0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 ẹo ọt in ca ọy
Hình 5-2Độtin cậy VC là hàm đơn điệu theo h
Hình 5-2: Cho thấy nhóm biểu thức thứ hai bên vế phải của phương trình (5.3)
( h(log(2 / ) 1) log( / 4)l h l η + − ) biến thiên theoh, bằng cách chọn độtin cậy95%
(η= 0.05), tập mẫu huấn luyện l =10,000 (mẫu) Chiều VC là hàm tăng đều theo h Điều này đúng với bất kỳgiá trịcủa l
5.1.1.5 Cực tiểu hoá lỗi theo cấu trúc (SRM)
Thuật ngữ độ tin cậy VC (VC-dimension) phụ thuộc vào cách chọn họ hàm trong (5.3), trong khi lỗi huấn luyện và lỗi thực tế lại phụ thuộc vào một hàm riêng được chọn thông qua thủ tục huấn luyện Ta tìm một tập con của tập các hàm được chọn sao cho đường bao lỗi của tập con ấy là tối thiểu VC h là một số nguyên nên không thể biến đổi liên tục; thay vào đó người ta dùng một cấu trúc bằng cách chia toàn bộ tập hợp các hàm thành các tập con lồng nhau (Hình 5-3) Với mỗi tập con, ta có thể tính h và đường bao lỗi của h Cực tiểu hóa lỗi theo cấu trúc (SRM) gồm việc tìm tập con hàm có đường bao lỗi thực tối thiểu Việc này được thực hiện bằng cách huấn luyện chuỗi các máy cho từng tập con; với mỗi tập con cho trước, mục tiêu của huấn luyện là tối thiểu hóa lỗi huấn luyện h4, h3, h2, h1 và thứ tự h1 < h2 < h3 < h4.
Hình 5-3 Các tập hàm học lồng vào nhau được sắp thứtựtheo chiều VC.
5.1.2 SVM tuyến tính5.1.2.1 Trường hợp dữ liệu có thể phân cách được
Trong hệ thống phân loại tuyến tính, siêu mặt phân cách được mô tả bởi vectơ w và hệ số b; khoảng cách từ một điểm x tới siêu mặt này theo chuẩn Euclid là |w^T x + b| / ||w||, với ||w|| là độ lớn của w theo chuẩn Euclid Đặt d+ (d−) là khoảng cách ngắn nhất từ siêu mặt phân cách tới mẫu dương gần nhất (mẫu âm gần nhất) Bờ, hay margin, được định nghĩa là khoảng cách tối thiểu giữa hai lớp phân cách và tương ứng với khoảng cách từ siêu mặt đến các điểm gần nhất của hai lớp; nhờ việc tối ưu hóa margin mà hiệu quả phân loại được cải thiện Định nghĩa về bờ giúp truyền đạt ý nghĩa của việc chọn tham số và đánh giá chất lượng classifier dựa trên siêu mặt phân cách.
(margin) của siêu mặt phân cách (kí hiêur), là(d + )+(d - ) Với trường hợp tập mẫu có thể phân loại tuyến tính, thuật toán SVM chỉ đơn giản là tìm siêu mặt có khoảng cách bờ là cực đại cực đại Các mô tả trên đây được công thức hoá như sau: giảsửmọi điểm trong tập học thỏa các ràng buộc: x i w + b≥+1 với y i = +1 (5.4) x i w + b≤-1 với y i = -1 (5.5)
Kết hợp thành một bất đẳng thức ràng buộc: y i (x i w + b) –1≥0∀i (5.6)
Các mẫu dữ liệu thỏa công thức (5.4) nằm trên siêu mặt H1: x^T w + b = 1, có pháp tuyến là vectơ w và khoảng cách tới gốc tọa độ bằng |1 − b| / ||w|| Tương tự, các mẫu thỏa công thức (5.5) nằm trên siêu mặt H2: x^T w + b = −1, có pháp tuyến là vectơ w và khoảng cách tới gốc tọa độ bằng |−1 − b| / ||w|| Do đó, d_+ = d_- = 1 / ||w|| và biên giới (margin) giữa hai siêu phẳng là 2 / ||w||.
Nhận dạng khuôn mặt người với SVM
Trong đềtài này, SVMđược kết hợp với cây nhịphân đểgiải quyết bài toán nhận dạng khuôn mặt đa lớp.
5.2.1 Nhận dạng đa lớp dùng SVM với cây nhị phân
Hệ thống nhận dạng mẫu đa lớp có thể được xây dựng bằng SVM Có hai chiến lược chính cho mục đích này: chiến lược one-vs-all (một đối tất cả) để phân loại mỗi lớp với mọi lớp còn lại, và chiến lược one-vs-one (một đối một) phân loại giữa từng cặp lớp Thực tế, chiến lược one-vs-all thường cho kết quả phân loại bị nhầm lẫn hoặc nhập nhằng Vì vậy, ta chọn chiến lược one-vs-one để giải quyết bài toán nhận dạng đa lớp một cách hiệu quả.
Giả sử có tám lớp trong tập dữ liệu và cây quyết định được biểu diễn như hình 5-7, trong đó các số từ 1 đến 8 mã hoá các lớp Những mã hoá này là tùy ý và không phản ánh ý nghĩa hay thứ tự của các lớp Bằng cách so sánh từng cặp, một lớp biểu diễn “phần thắng” của hai lớp hiện hành được lựa chọn Các lớp được chọn (từ cấp thấp nhất của cây nhị phân) sẽ tiến lên một cấp trên và trải qua vòng thử nghiệm khác nhau Cuối cùng, chỉ có một lớp duy nhất xuất hiện ở đỉnh của cây quyết định.
Khi c không là bội số của 2, ta phân tích: c=2 n 1 +2 n 2 + + 2 n I , với
Quá trình phân tích hệ số c không có một cách làm duy nhất Trong từng bước phân tích, nếu c lẻ thì n_I bằng 0, còn nếu c chẵn thì n_I lớn hơn 0 Cách phân tích c không duy nhất; sau khi phân tích, việc nhận dạng được thực hiện trên từng cây nhị phân Các lớp đầu ra của các cây nhị phân này được tái sử dụng để tạo ra một cây nhị phân khác Quá trình này được lặp lại cho đến khi chỉ còn một đầu ra duy nhất.
SVM học c c( −1) / 2 hàm phân biệt trong giai đoạn huấn luyện, và thực hiện 1 c− phép so sánh dưới cấu trúc cây nhịphân đã tạo ra.
Hình 5-7 Trái: Cấu trúc cây nhịphân với sốlớp bằng sốmũ của 2 Phải: số lớp không bằng sốmũ của 2.
5.2.2 Nhận dạng khuôn mặt dùng SVM 5.2.2.1 Giai đoạn huấn luyện hệ thống 5.2.2.1.1 Huấn luyện SVM cho bài toán nhận dạng khuôn mặt
Các vector đặc tr−ng
Ph©n tÝch thành phần chÝnh(PCA)
CÊu Tróc cây nhị ph©n
Các siêu mặt phân líp SVMs
Anh xạ tập mẫu vào không gian đặc tr−ng
Chuẩn hoá không gian mẫu
Chia tập mẫu thành các tập con theo thứ tự từng cặp giữa các líp trong tËp mÉu
Huấn luyện SVMs trên từng tËp con
Hình 5-8 Các tác vụhuấn luyện hệthống SVMs nhận dạng khuôn mặt
Vector hoá tập mẫu khuôn mặt thô là bước biểu diễn ảnh khuôn mặt vào máy tính, đóng vai trò then chốt trong quá trình tiền xử lý dữ liệu nhận dạng Hình thức biểu diễn này giúp chuẩn hóa dữ liệu khuôn mặt để máy móc có thể xử lý hiệu quả và đã được đề cập trong phần mô tả dữ liệu nhận dạng khuôn mặt.
Chi tiết vector hoá một mẫu khuôn mặt được trình bày trong Hình 5-9 dưới đây.
Trong hình 5-9, quá trình vector hóa mẫu khuôn mặt bắt đầu từ ảnh kích thước 30x30 pixel Ảnh mẫu khuôn mặt này được chia thành 30 dòng từ trên xuống dưới, mỗi dòng gồm 30 điểm ảnh Quá trình vector hóa thực hiện bằng cách nối liền các dòng ảnh theo đúng thứ tự để ghép lại thành một vector một chiều Kết quả là một vector có 900 chiều từ ma trận ảnh hai chiều 30x30.
5.2.2.1.3 Rút trích đặc trưng khuôn mặt
Giai đoạn rút trích đặc trưng khuôn mặt gồm ba bước chính: thực hiện phân tích thành phần chính (PCA) để giảm chiều và trích xuất các đặc trưng chủ đạo; ánh xạ tập mẫu vào không gian đặc trưng, nhằm biểu diễn khuôn mặt dưới dạng các vector đặc trưng có ý nghĩa phân biệt; và chuẩn hóa không gian mẫu để đảm bảo tính nhất quán và tương thích giữa các mẫu trong quá trình nhận diện khuôn mặt.
Trong tất cả các hệ nhận dạng, đặc biệt là các hệ nhận dạng tự động, thành công không chỉ phụ thuộc vào thuật toán mà còn phụ thuộc nhiều vào tập mẫu dữ liệu huấn luyện Việc lựa chọn tập mẫu huấn luyện phù hợp với mục đích ứng dụng và đảm bảo tính tổng quát của hệ nhận dạng là một thách thức lớn, vì ta không thể dự đoán trước mọi biến thể có thể tác động đến đối tượng quan tâm khi thu thập ảnh Các yếu tố ảnh hưởng phổ biến có thể kể đến như biến động môi trường khi lấy mẫu: điều kiện thời tiết, độ sáng và sự hiện diện của nhiều đối tượng tương tự đối tượng quan tâm.
Trong nhận dạng hình ảnh, các biến thể nội tại của đối tượng như biến đổi bất thường của mẫu, sự khác biệt về khoảng cách lấy mẫu và mặt phẳng quan sát khi thu thập dữ liệu là một trong những thách thức lớn mà hệ thống phải đối mặt; bên cạnh đó, chất lượng thiết bị ghi hình và giới hạn khả năng tính toán của hệ thống xử lý cũng ảnh hưởng đến kết quả nhận dạng Để giảm phần nào sự nhập nhằng từ dữ liệu, tiền xử lý dữ liệu là cần thiết, và chúng tôi đã chọn phương pháp phân tích thành phần chính PCA để tiền xử lý và rút trích đặc trưng PCA là một phương pháp rút trích đặc trưng tự động, không giám sát, có ưu điểm vừa khử nhiễu và biến động dữ liệu vừa giảm đáng kể khối lượng dữ liệu lưu trữ và tính toán cho hệ thống nhận dạng ở các bước tiếp theo.
Đầu tiên, chúng ta sử dụng PCA để rút ra các eigenvector (vector đặc trưng) hay eigenface (khuôn mặt đặc trưng) từ các ảnh khuôn mặt huấn luyện Các khuôn mặt đặc trưng này cũng được dùng trong giai đoạn thử nghiệm của hệ thống Chi tiết về cơ sở lý thuyết của PCA đã được trình bày ở phần trước; bạn có thể tham khảo lại phần phân tích và rút trích đặc trưng khuôn mặt bằng PCA để nắm rõ thêm.
Đề tài nghiên cứu sử dụng một tập mẫu huấn luyện gồm 30 lớp, mỗi lớp có 100 mẫu Để tăng dữ liệu, kỹ thuật nhân 20 mẫu nguyên thủy của mỗi lớp lên thành 100 mẫu bằng 4 phép xử lý ảnh căn bản: Phép Mirror (lật ảnh), tăng cường dữ liệu, bộ lọc trung bình và bộ lọc Gamma Kích thước khuôn mặt trong tập huấn luyện là 30×30, được vector hóa thành một vector 900 chiều; mỗi thành phần của vector này tương ứng với một đặc trưng cục bộ của ảnh và có thể được xem như một đặc trưng đầu vào cho các mô hình nhận diện khuôn mặt.
CM ứng với một giá trị điểm ảnh trên ảnh gốc Như vậy toàn bộ tập mẫu bao gồm
3000 vector và mỗi vector 900 chiều.
1 Xây dựng vector trung bình mẫu M 900 chiều
2 Xây dựng ma trận hiệp phương sai D (900×900) chiều.
3 Tính các giá trị đặc trưng và các vector đặc trưng tươngứng + Với ma trận D (900×900) thì tương ứng 900 giá trị đặc trưng (eigenvalues).
Ta có thể tạo ra các vector đặc trưng (eigenvectors) dựa trên các giá trị đặc trưng tương ứng Trong cách tiếp cận của đề tài này và bằng thực nghiệm, chúng tôi đã chọn 100 vector đặc trưng tương ứng với 100 giá trị đặc trưng lớn nhất.
+ Một ma trân K mà mỗi cột là một vector đặc trưng 900 chiều Vậy không gian ma trận K (900×100) chiều
4 Ánh xạtập mẫu ban đầu vào không gian đặc trưng, sẽhình thành không gian mẫu mới hay còn gọi là không gian mẫu đặc trưng
+ Lần lược chiếu từng mẫu trong tập huấn luyện cũ x i = (x i 1 , x i 2 ,…, x i 900 ) vào không gian đặc trưng K900×100 và kết quả phép chiếu này hình thành một vector mới yi(1×100)=xi(1×900)*K(900×100)
Sau khi thực hiện phép chiếu này cho 3000 mẫu trong tập dữ liệu, ta thu được một tập mẫu mới—tập mẫu học đặc trưng của tập mẫu gốc—với ký hiệu Y = { y_i : i = 1 đến 3000 }, trong đó mỗi y_i là một vector 100 chiều, y_i = (y_i1, y_i2, …, y_i100).
Như vậy qua phép phân tích PCA, ta đã rút gọn số chiều của mẫu học từ
Việc giảm 900 chiều xuống còn 100 chiều thông qua phân tích thành phần chính (PCA) cho thấy 100 thành phần này là những yếu tố quan trọng nhất của mẫu học Chính các thành phần này tạo ra sự khác biệt giữa các vector mẫu trong tập mẫu ban đầu, từ đó tăng khả năng phân biệt và hiệu suất của mô hình học máy.
5.2.2.1.4 Tạo các bộ phân loại nhị phân
Chúng tôi nhấn mạnh một lần nữa rằng SVM là một bộ phân loại nhị phân có khả năng phân loại chính xác và tổng quát cao từ các mẫu dữ liệu được tổ chức thành hai lớp Vì đặc tính này, SVM được ứng dụng rộng rãi trong các bài toán nhận diện khuôn mặt, đặc biệt là trong quá trình dò tìm khuôn mặt trên ảnh Trong bài toán này, dữ liệu được phân thành hai lớp rõ ràng: lớp chứa khuôn mặt và lớp không phải khuôn mặt.
Trong lĩnh vực nhận dạng khuôn mặt, bài toán chính là SVM có thể giải quyết như thế nào? Để huấn luyện hệ thống SVM cho nhận dạng khuôn mặt trên ảnh, chúng tôi áp dụng một cơ chế kết hợp nhiều bộ phân loại nhị phân SVM Tập mẫu khuôn mặt gồm nhiều người được biểu diễn trên máy tính và chúng ta tiến hành gán nhãn cho từng lớp khuôn mặt theo thứ tự đã chọn (theo phần mô tả dữ liệu nhận dạng).