MỞ ĐẦU 1. Lý do chọn đề tài Ngành khoa học nhận dạng đang được nghiên cứu rộng rãi, các hệ thống nhận dạng ngày càng có nhiều ứng dụng thực tiễn quan trọng trong cuộc sống. Nhờ các hệ thống nhận dạng thông minh, con người giảm được khối lượng công việc đáng kể cũng như tăng sự chính xác trong việc đưa ra các quyết định liên quan đến xử lý nhận dạng trên nhiều lĩnh vực: quốc phòng, an ninh, kỹ nghệ hóa sinh, giải phẫu học, hệ thống giám sát, quản lý… Vì vậy, việc xử lý nhanh nhận dạng chính xác một đối tượng cụ thể luôn nhận được sự quan tâm lớn của các nhà nghiên cứu khoa học trong lĩnh vực nhận dạng và thị giác máy tính hiện nay. Trên thực tế đã có nhiều phương pháp nhận dạng theo những hướng tiếp cận khác nhau như hướng tiếp cận dựa trên tri thức, hướng tiếp cận dựa trên đặc trưng bất biến, hướng tiếp cận dựa trên so khớp mẫu, hướng tiếp cận dựa trên diện mạo… Trong đó, nhận dạng dựa vào diện mạo đối tượng chính là phương pháp tìm sự liên hệ giữa những hình ảnh được huấn luyện của một đối tượng và sử dụng mối quan hệ này cho sự phân lớp một bộ mẫu thử mới. Điều kiện tiên quyết cho sự nhận dạng tốt là những hình ảnh thử phải liên quan đến những hình ảnh huấn luyện. Hình thử phải rất giống với các dữ liệu huấn luyện, được nhận dạng và phân loại một cách chính xác. Hình ảnh chưa được huấn luyện sẽ không được xác định vì chúng không có đại diện phù hợp. Nhận dạng dựa vào diện mạo đối tượng sử dụng phương pháp trích chọn đặc trưng diện mạo của đối tượng. Đây là hướng tiếp cận dựa vào cấu trúc phân bổ cường độ sáng của điểm ảnh trên bề mặt đối tượng để trích chọn các đặc trưng. Diện mạo của các đối tượng phản chiếu được xác định bằng bề mặt đối tượng phản chiếu ánh sáng. Trích chọn những đặc trưng của diện mạo nhằm phát hiện ra những thay đổi bên ngoài của đối tượng, qua đó có thể phát hiện và nhận dạng đối tượng một cách chính xác hơn. Nghiên cứu nhận dạng đối tượng dựa vào diện mạo đi theo hướng tìm kiếm các đặc trưng diện mạo có khả năng phân biệt giữa các đối tượng. Tuy nhiên phương pháp này phải đối mặt với vấn đề là một khi các đặc trưng có sẵn từ một quan sát hay từ một ảnh đơn nhất là không đủ để xác định định danh của đối tượng quan sát, một khó khăn khác là khi cơ sở dữ liệu đối tượng lớn. Nhằm khắc phục những hạn chế trên, luận văn này nghiên cứu một giải pháp cho vấn đề này là sử dụng các thông tin chứa trong nhiều quan sát khác nhau của đối tượng sử dụng phương pháp trích chọn đặc trưng dựa vào phân tích thành các thành phần chính kết hợp với tiếp cận mô hình Markov ẩn cho nhận dạng đối tượng dựa vào diện mạo. Luận văn nghiên cứu về: “Nhận dạng diện mạo đối tượng sử dụng phương pháp PCA kết hợp Mô hình Markov ẩn”.
Trang 1TRƯỜNG ĐẠI HỌC KHOA HỌC
TRẦN TUẤN CƯỜNG
Nghiên cứu nhận dạng diện mạo
đối t-ợng sử dụng ph-ơng pháp PCA
Trang 2Lời cam đoan
Lời cảm ơn
Mục lục
Danh mục các thuật ngữ
Danh mục các từ viết tắt
Danh mục các bảng
Danh mục các hình vẽ và đồ thị
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Tổng quan tài liệu 2
3 Mục tiêu nghiên cứu 3
4 Đối tượng nghiên cứu: 3
5 Phương pháp nghiên cứu: 4
6 Phạm vi nghiên cứu 4
7 Cấu trúc và nội dung luận văn: 4
Chương 1 TỔNG QUAN VỀ LÝ THUYẾT NHẬN DẠNG ĐỐI TƯỢNG 6
1.1 Giới thiệu về nhận dạng 6
1.2 Nhận dạng đối tượng và những khó khăn 7
1.2.1 Nhận dạng đối tượng 7
1.2.2 Những khó khăn của nhận dạng đối tượng 7
1.3 Các ứng dụng hiện nay liên quan đến nhận dạng đối tượng 7
1.4 Các khái niệm cơ sở 8
1.5 Mô hình hóa bài toán nhận dạng đối tượng: 9
1.6 Các phương pháp nhận dạng đối tượng được sử dụng hiện nay 10
1.6.1 Hướng tiếp cận dựa trên tri thức 11
1.6.2 Hướng tiếp cận dựa trên đặc trưng không đổi 14
1.6.3 Hướng tiếp cận dựa trên so khớp mẫu 14
Trang 31.7 Đánh giá về hướng tiếp cận dựa trên diện mạo 17
1.8 Tiểu kết chương 1 18
Chương 2 NHẬN DẠNG DIỆN MẠO ĐỐI TƯỢNG SỬ DỤNG PHƯƠNG PHÁP PCA KẾT HỢP MÔ HÌNH MARKOV ẨN 19
2.1 Giới thiệu về nhận dạng đối tượng dựa vào diện mạo 19
2.1.1 Diện mạo đối tượng 19
2.1.2 Nhận dạng đối tượng dựa vào diện mạo 20
2.2 Phương pháp phân tích thành phần chính PCA 21
2.2.1 Giới thiệu PCA 21
2.2.2 Các thuật toán của PCA 23
2.2.3 Xác định vùng chứa khuôn mặt trong ảnh với PCA 35
2.2.4 Trích chọn thành phần đặc trưng với PCA 37
2.3 Mô hình Markov ẩn 40
2.3.1 Mô hình Markov ẩn 40
2.3.2 Xác suất của chuỗi quan sát 41
2.3.3 Huấn luyện dữ liệu cho các mô hình HMM 46
2.3.4 Nhận dạng đối tượng với mô hình Markov ẩn 47
2.4 Mô hình kết hợp PCA – HMM trong nhận dạng 48
2.4.1 Giai đoạn huấn luyện hệ thống 50
2.4.2 Biểu diễn dữ liệu khuôn mặt theo mô hình Markov ẩn 51
2.4.3 Các bước huấn luyện HMM để nhận dạng khuôn mặt 54
2.5 Nhận dạng khuôn mặt bằng mô hình kết hợp PCA và HMM 55
2.6 Tiểu kết chương 2 57
Chương 3 MÔ PHỎNG PHƯƠNG PHÁP PCA KẾT HỢP HMM NHẬN DẠN KHUÔN MẶT 58
3.1 Thu nhập bộ dữ liệu thực nghiệm 58
3.2 Phân tích, thiết kế hệ thống và cài đặt chương trình 59
3.2.1 Phân tích bài toán 59
Trang 43.2.4 Yêu cầu cấu hình để chạy chương trình 63
3.3 Thực nghiệm, lượng hóa và đánh giá kết quả 64
3.3.1 Phương pháp thực nghiệm, lượng hóa 64
3.3.2 Đánh giá kết quả thực nghiệm 65
3.4 Tiểu kết chương 3 66
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 67
TÀI LIỆU THAM KHẢO 68
Trang 5Thuật ngữ Giải thích
Principal Components Analysis Phương pháp trích chọn đặc trưng
Open source Computer Vision Mã nguồn mở thị giác máy tính
Eigenvalue Decompostion Phân tích giá trị riêng
Singular Value Decomposition Phân tích giá trị đơn
Minimum Description Length Mô tả chiều dài tối thiểu
Support Vector Machine Máy vector hỗ trợ
Trang 7Số hiệu Tên bảng Trang
Trang 8Số hiệu Tên hình vẽ và đồ thị Trang
1.4 Một loại tri thức của người nghiên cứu phân tích trên khuôn mặt 12
1.6 Chiếu từng phần ứng viên để xác định khuôn mặt 13
2.2 Diện mạo của đối tượng biểu diễn trong không gian 20
2.4 Minh họa PCA tìm các trục tọa độ mới sao cho dữ liệu có độ
2.5 PCA giảm số chiều nhưng vẫn đảm bảo được các thông tin quan
2.6 Phân tích PCA: Dữ liệu được biểu diễn bằng kích thước nhỏ
2.8 Ảnh gốc về khuôn mặt người chuyển sang eigenface 39
2.12 Xác suất chuyển từ trạng thái i tại t sang trạng thái j tại t+1 44
Trang 92.18 Sơ đồ huấn luyện khuôn mặt bằng HMM 51 2.19 Ảnh khuôn mặt chuyển thành eigenface cho huấn luyện HMM 51 2.20 Tách mẫu huấn luyện HxW thành một chuỗi các khối con PxW 52
2.21 Mẫu eigenface tách thành các khối thứ tự trái sang phải với mỗi
2.22 Mẫu eigenface tách thành các khối thứ tự từ trên xuống với mỗi
2.23 Dùng HMM để nhận dạng khuôn mặt qua eigenface 56
3.4 Cấu trúc tập tinh xml lưu trữ kết quả huấn luyện của mô hình 64
Trang 10MỞ ĐẦU
1 Lý do chọn đề tài
Ngành khoa học nhận dạng đang được nghiên cứu rộng rãi, các hệ thống nhận dạng ngày càng có nhiều ứng dụng thực tiễn quan trọng trong cuộc sống Nhờ các hệ thống nhận dạng thông minh, con người giảm được khối lượng công việc đáng kể cũng như tăng sự chính xác trong việc đưa ra các quyết định liên quan đến xử lý nhận dạng trên nhiều lĩnh vực: quốc phòng, an ninh, kỹ nghệ hóa sinh, giải phẫu học, hệ thống giám sát, quản lý… Vì vậy, việc xử lý nhanh nhận dạng chính xác một đối tượng cụ thể luôn nhận được sự quan tâm lớn của các nhà nghiên cứu khoa học trong lĩnh vực nhận dạng và thị giác máy tính hiện nay
Trên thực tế đã có nhiều phương pháp nhận dạng theo những hướng tiếp cận khác nhau như hướng tiếp cận dựa trên tri thức, hướng tiếp cận dựa trên đặc trưng bất biến, hướng tiếp cận dựa trên so khớp mẫu, hướng tiếp cận dựa trên diện mạo… Trong
đó, nhận dạng dựa vào diện mạo đối tượng chính là phương pháp tìm sự liên hệ giữa những hình ảnh được huấn luyện của một đối tượng và sử dụng mối quan hệ này cho
sự phân lớp một bộ mẫu thử mới Điều kiện tiên quyết cho sự nhận dạng tốt là những hình ảnh thử phải liên quan đến những hình ảnh huấn luyện Hình thử phải rất giống với các dữ liệu huấn luyện, được nhận dạng và phân loại một cách chính xác Hình ảnh chưa được huấn luyện sẽ không được xác định vì chúng không có đại diện phù hợp
Nhận dạng dựa vào diện mạo đối tượng sử dụng phương pháp trích chọn đặc trưng diện mạo của đối tượng Đây là hướng tiếp cận dựa vào cấu trúc phân bổ cường độ sáng của điểm ảnh trên bề mặt đối tượng để trích chọn các đặc trưng Diện mạo của các đối tượng phản chiếu được xác định bằng bề mặt đối tượng phản chiếu ánh sáng Trích chọn những đặc trưng của diện mạo nhằm phát hiện ra những thay đổi bên ngoài của đối tượng, qua đó có thể phát hiện và nhận dạng đối tượng một cách chính xác hơn
Nghiên cứu nhận dạng đối tượng dựa vào diện mạo đi theo hướng tìm kiếm các đặc trưng diện mạo có khả năng phân biệt giữa các đối tượng Tuy nhiên phương pháp này phải đối mặt với vấn đề là một khi các đặc trưng có sẵn từ một quan sát hay từ một
Trang 11ảnh đơn nhất là không đủ để xác định định danh của đối tượng quan sát, một khó khăn khác là khi cơ sở dữ liệu đối tượng lớn Nhằm khắc phục những hạn chế trên, luận văn này nghiên cứu một giải pháp cho vấn đề này là sử dụng các thông tin chứa trong nhiều quan sát khác nhau của đối tượng sử dụng phương pháp trích chọn đặc trưng dựa vào phân tích thành các thành phần chính kết hợp với tiếp cận mô hình Markov ẩn cho nhận dạng đối tượng dựa vào diện mạo
Luận văn nghiên cứu về: “Nhận dạng diện mạo đối tượng sử dụng phương pháp PCA kết hợp Mô hình Markov ẩn”
2 Tổng quan tài liệu
Diện mạo đối tượng là hình ảnh trên bề mặt của đối tượng từ góc quan sát được thu nhận lại bằng thiết bị cảm biến (ví dụ camera, mắt người) dưới dạng các hình ảnh Chúng ta có thể thu nhận nhiều hình ảnh của đối tượng từ nhiều góc quan sát khác nhau (có thể quan sát từng mặt, quan sát một phần, quan sát nghiêng, quan sát trực diện…) Diện mạo ở đây là diện mạo trực quan của đối tượng vì được lấy từ ảnh của đối tượng Trái ngược với những phương pháp so khớp mẫu với các mẫu đã được định nghĩa trước bởi chuyên gia, các mẫu trong hướng tiếp cận này được học từ các ảnh mẫu và mẫu ở đây là các diện mạo của đối tượng
Trong thời gian qua đã có nhiều nghiên cứu thành công về nhận dạng đối tượng dựa trên phương pháp nhận dạng dựa vào diện mạo đối tượng theo những hướng tiếp cận khác nhau Năm 1989, nghiên cứu về nhận dạng hình ảnh sử dụng diện mạo cục
bộ được giới thiệu vởi de Verdiere và Crowwley Một họ các hướng tiếp cận sử dụng phương pháp biểu diễn biểu đồ kết hợp toàn phần như: (Swain và Ballard, 1990) đề xuất đại diện cho một đối tượng bằng một biểu đồ màu, cách tiếp cận này được cải tiến bởi (Healey và Slater, 1994) để khai thác điều kiện chiếu sáng không đổi Khái niệm biểu đồ kết hợp được tổng quát hóa bởi (Schiele, 2000) Nổi bật là một lớp các phương pháp nhận dạng dựa vào diện mạo đối tượng dựa trên máy vector hỗ trợ (SVM) được nghiên cứu bởi (Pontil và Verri, 2000), (Roobaert, 2001), (Barla, 2002) Hướng tiếp cận dựa trên kích thước đo lường giống nhau giữa các hình dạng cũng được (Hagedoorn, 2000), (Cyr và Kimia, 2001), (Belongie và các cộng sự, 2002) nghiên
Trang 12cứu Trong đó, Cyr và Kimia đề xuất cách đo khoảng cách được hoạch định và phân đoạn cho hình khối của đối tượng 3D Phương pháp tiếp cận đặc trưng cục bộ và đặc trưng toàn cục diện mạo được Perter M Roth và Martin Winter giới thiệu [4]
Cách tiếp cận dựa trên diện mạo được sử dụng chủ yếu trong huấn luyện được T.E Boult, R.S Blum, S.K Nayar, P.K Allen, J.R Kender cùng nghiên cứu năm
1988 và tiếp tục phát triển cho đến nay, ở đó các đối tượng được mô hình hóa như là một tập hợp các điểm Thông thường một tập hợp các tính chất đặc trưng được trích chọn và phù hợp với các mô hình đối tượng được lưu trữ trong cơ sở dữ liệu Ở đây, ta
sử dụng phương pháp chuyển đổi Karhunen – Loeve còn gọi là phương pháp phân tích thành phần chính PCA (Principal Component Analysis) [1,3,4] Dựa vào các trích chọn đặc trưng dùng mô hình Markov ẩn (HMM) [1,2,5,6] để xây dựng các mô hình huấn luyện mẫu và các thuật toán suy diễn để hệ thống có thể ra quyết định và nhận dạng một cách tốt hơn
3 Mục tiêu nghiên cứu
Đề tài nhằm nghiên cứu những vấn đề sau:
Nghiên cứu phương pháp trích chọn đặc trưng vào PCA
Nghiên cứu phương pháp nhận dạng dựa vào mô hình Markov ẩn
Mô hình Markov ẩn kết hợp với PCA phù hợp cho bài toán nhận dạng diện mạo đối tượng 2D, 2.5D và 3D
4 Đối tượng nghiên cứu:
Đối tượng nghiên cứu chính của đề tài là:
- Dữ liệu đầu vào: ảnh, chuỗi video, thông tin thu nhận trực tiếp từ camera…
- Phương pháp PCA và mô hình Markov ẩn
Trang 13- Cơ sở khoa học lý thuyết, các thuật toán và các kỹ thuật liên quan đến đề tài
5 Phương pháp nghiên cứu:
- Lý thuyết: tìm hiểu, tổng hợp, phân tích và lựa chọn các phương pháp, thuật toán
- Mô hình Markov ẩn: sử dụng mô hình Markov để nhận dạng, các thuật toán tối
ưu trên mô hình và thuật toán nhận dạng với mô hình Markov ẩn
- Mô hình markov ẩn kết hợp với PCA cho bài toán nhận dạng đối tượng dựa vào diện mạo
- Đối tượng bao gồm: mặt người trong ảnh, đồ vật…
7 Cấu trúc và nội dung luận văn:
Luận văn có ba phần chính:
- Phần mở đầu: Trình bày lý do chọn đề tài, tổng quan tài liệu, mục tiêu, đối tượng
nghiên cứu, phương pháp nghiên cứu, phạm vi nghiên cứu, cấu trúc và nội dung luận văn
- Phần nội dung: gồm 3 chương
Chương 1: Tổng quan về Lý thuyết nhận dạng
Tổng quan về lý thuyết nhận dạng và tổng quan về nhận dạng dựa vào diện mạo đối tượng Cung cấp cái nhìn tổng quát về các vấn đề cơ bản, hệ thống nhận dạng đối tượng, vai trò ý nghĩa mỗi giai đoạn của hệ thống nhận dạng, các thành phần và kiến trúc của hệ thống nhận dạng
Chương 2: Nhận dạng diện mạo đối tượng sử dụng phương pháp PCA kết hợp
mô hình Markov ẩn
Trang 14Trình bày các nội dung chính của luận văn: Cơ sở lý thuyết, các mô hình toán học của phương pháp phân tích thành các thành phần chính (PCA) Trình bày lý thuyết
mô hình Markov ẩn kết hợp với PCA trong việc kết hợp các ưu điểm của hai phương pháp này trong huấn luyện mẫu và phân lớp dữ liệu Trong chương 2 cũng trình bày phương pháp biểu diễn, tiền xử lý dữ liệu và một số thuật toán chính: thuật toán trích chọn đặc trưng PCA, mô hình Markov ẩn, thuật toán nhận dạng Thuật toán huấn luyện mẫu dựa trên HMM với PCA, thuật toán nhận dạng HMM
Chương 3: Mô phỏng phương pháp PCA kết hợp HMM cho bài toán nhận
dạng khuôn mặt
Đề xuất ứng dụng nhận dạng đối tượng dựa vào diện mạo cho hệ thống có tính thực tế Đề xuất mô hình cài đặt và triển khai thực nghiệm, đánh giá kết quả của việc thực nghiệm
Cuối cùng là phần kết luận và hướng phát triển của luận văn
Trang 15Chương 1 TỔNG QUAN VỀ LÝ THUYẾT NHẬN DẠNG ĐỐI TƯỢNG
1.1 Giới thiệu về nhận dạng
Nhận dạng trong tự nhiên là khả năng các cơ thể sống phát hiện ra trong các luồng thông tin của những đối tượng, quy luật, hiện tượng xác định thu được bởi các giác quan Các cơ thể sống này thực hiện việc nhận dạng một cách hiệu quả theo bản năng Nhận dạng được thực hiện trên cơ sở các thông tin đến từ tất cả các cơ quan cảm giác Trong khoa học kỹ thuật các thuật ngữ như phát hiện, phân loại, phân nhóm… được
sử dụng phổ biến Hạt nhân của các khái niệm này là khái niệm nhận dạng mẫu (Pattern Recognition)
Nhận dạng là ngành khoa học nghiên cứu về các phương pháp và thuật toán phân loại các đối tượng có bản chất tự nhiên khác nhau, nghiên cứu lý thuyết và phương pháp giúp cho máy tính có thể tự nhận dạng các mẫu trong dữ liệu nhiễu hoặc trong môi trường phức tạp Mục đích hướng đến của nhận dạng là phân loại các đối tượng thành nhiều chủng loại hoặc nhiều lớp Nhận dạng còn là bộ phận tích hợp trong hầu hết các hệ thống máy thông minh hỗ trợ ra quyết định Nhận dạng mẫu là hành vi tác động lên dữ liệu thô và đưa ra hành động dựa trên chủng loại mẫu
Nhận dạng mẫu là ngành khoa học để làm sao máy tính có thể quan sát môi trường, học cách phân biệt các mẫu quan tâm, đưa ra quyết định đúng đắn và hợp lý về các chủng loại mẫu
Hình 1.1 Nhận dạng mẫu
Trang 161.2 Nhận dạng đối tượng và những khó khăn
1.2.1 Nhận dạng đối tượng
Bài toán nhận dạng đối tượng cần xác định hai vấn đề chính: dùng thông tin nào
để nhận dạng: tập ảnh mẫu về diện mạo của đối tượng, ánh sáng phân bổ trên bề mặt,
mô hình đối tượng,… hay phải kết hợp các thông tin trên Điều đặc biệt là dùng phương pháp nào để huấn luyện cho máy nhận dạng dùng nguồn thông tin đó
1.2.2 Những khó khăn của nhận dạng đối tượng
Những biến đổi quá lớn giữa các ảnh khác nhau của đối tượng từ một đối tượng cần nhận dạng gồm hình dạng, trạng thái trên bề mặt, ánh sáng phản chiếu trên bề mặt hay nói cách khác là diện mạo đối tượng và vị trí khác nhau của đối tượng đó Sự biến đổi về kích thước và hình dạng đối tượng giữa trước và sau khi thu nhập mẫu, sự che khuất không gian, sự thay đổi cường độ sáng, đối tượng cần nhận dạng tương tự với nền ảnh hay sự biến đổi bên trong một lớp là những nguyên nhân chính dẫn đến sự thiếu chính xác trong nhận dạng
Ngoài ra, giới hạn về số ảnh mẫu cần thiết cho việc nhận dạng, tập huấn luyện không thể nào bao quát được hết tất cả các biến đổi có thể có trên diện mạo của một đối tượng nhận dạng trong thế giới thực
1.3 Các ứng dụng hiện nay liên quan đến nhận dạng đối tượng
- Nhận dạng đối tượng có phải là tội phạm truy nã hay không? Nhận dạng đối tượng
có phải là những vũ khí nguy hiểm cần cảnh báo ở các nơi công cộng hay không ? Giúp cơ quan an ninh quản lý tốt con người Công việc nhận dạng có thể ở trong môi trường bình thường cũng như trong bóng tối (sử dụng các thiết bị cảm biến hồng ngoại như camera hồng ngoại…)
- Nhận dạng các sản phẩm đặc trưng một cách thông minh ở các cửa hàng, siêu thị…, giúp sự phân loại đồ vật một cách nhanh chóng và chính xác
- Thẻ căn cước, chứng minh nhân dân (Face Indentification.)
- Lưu trữ (rút tiền ATM, để biết cá nhân rút tiền vào thời điểm đó), hiện nay có tình trạng những người bị người khác lấy mất thẻ ATM hay mất mã số PIN và bị rút mất tiền từ thẻ Các ngân hàng có nhu cầu khi có giao dịch tiền sẽ kiểm tra hay lưu trữ khuôn mặt người rút tiền để sau đó đối chứng và sử lý
Trang 17- Điểu khiển ra vào: văn phòng, công ty, trụ sở, máy tính… bằng nhận dạng khuôn mặt, vân tay, mắt, mã vạch… Cho phép nhân viên được ra vào, truy nhập hệ thống
mà không cần nhớ tên đăng nhập cũng như mật khẩu mà chỉ cần xác định thông qua các các thông tin nhận dạng trên
- An ninh sân bay, xuất nhập cảnh (hiện nay cơ quan xuất nhập cảnh của rất nhiều quốc gia như Mỹ, Canada, Anh, Pháp, Đức… đã áp dụng) Dùng để xác thực người xuất nhập cảnh và kiểm tra có phải là nhân vật khủng bố không
- Tương lai sẽ phát triển mạnh mẽ các thiết bị nhận dạng hiện đại như thẻ thông minh
có tích hợp sẵn đặc trưng của người dùng trên đó, khi người dùng khác dùng để truy cập hay xử lý các hệ thống sẽ được yêu cầu kiểm tra các đặc trưng để xác định danh tính so với thẻ để biết có phải đúng đối tượng hợp pháp hay không
- Tìm kiếm và tổ chức dữ liệu liên quan đến con người, đồ vật… thông qua các đặc trưng diện mạo trên nhiều hệ cơ sở dữ liệu lưu trữ thật lớn như internet, các hãng truyền thông, dữ liệu an ninh…
1.4 Các khái niệm cơ sở
- Nhận dạng: đó là việc sắp xếp một đối tượng cụ thể nào đó (được thể hiện bằng các thuộc tính của nó) vào một trong các lớp cố định cho trước theo các quy tắc giải quyết nhất định, tương ứng với các mục tiêu đề ra
Nhận dạng là môn khoa học nhằm trang bị phương pháp luận để mô phỏng nhận thức, trang bị cho máy tính có khả năng nhận biết
- Dạng / Mẫu / Đối tượng: là một thực thể có tính xác định áng chừng mà chúng ta có thể gán cho nó một cái tên Ví dụ: ảnh vân tay, chữ viết tay, khuôn mặt người, tín hiệu giọng nói, chuỗi AND,…
- Nhận dạng đối tượng: là quá trình từ thông tin quan sát, cảm nhận (thu nhận số liệu) cho đến khi nhận biết được tên gọi của đối tượng (gán cho đối tượng một tên gọi)
- Không gian biểu diễn đối tượng: tập hợp tất cả các biểu diễn, miêu tả đối tượng quan sát
- Không gian diễn dịch: tập hợp tất cả tên gọi của đối tượng
- Lớp đối tượng (class): tập hợp các đối tượng cùng chung thuộc tính
Trang 18- Sự phân lớp (Classification): quá trình tiến hành phân loại các đối tượng về các lớp (nhận dạng)
1.5 Mô hình hóa bài toán nhận dạng đối tượng:
Nhận dạng đối tượng là một kiểu nhận dạng trực quan Ở đây, diện mạo của đối tượng được xem là một đối tượng ba chiều với sự thay đổi của ánh sáng, các góc quan sát, tư thế cảm xúc… sẽ được xác định dựa trên ảnh hai chiều của nó
Không gian biểu diễn đối tượng: Các đối tượng khi quan sát hay thu nhập được, thường được biểu diễn bởi tập các đặc trưng hay đặc tính Người ta thường phân các loại đặc trưng này theo các loại như: đặc trưng tô pô, đặc trưng hình học và đặc trưng chức năng Việc biểu diễn ảnh theo đặc trưng là phụ thuộc vào ứng dụng tiếp theo
Ở đây ta đưa ra một cách hình thức việc biểu diễn các đối tượng Giả sử đối tượng X (ảnh, chữ viết, dấu vân tay, diện mạo đồ vật,…) được biểu diễn bởi n thành phần (n đặc trưng): X={x1, x2,…, xn}, mỗi xi biểu diễn một đặc tính Không gian biểu diễn đối tượng thường gọi tắc là không gian đối tượng χ được định nghĩa:
χ = {X1, X1,… ,Xm} trong đó Xi biểu diễn một đối tượng Không gian này có thể là vô hạn Để tiện xem xét chúng ta chỉ xét tập χ là hữu hạn
Không gian diễn dịch: Không gian diễn dịch là tập các tên gọi của đối tượng Kết thúc quá trình nhận dạng ta xác định được tên gọi cho các đối tượng trong tập không gian đối tượng hay nói là đã nhận dạng được đối tượng Một cách hình thức tên
gọi Ω là tên tập đối tượng:
Ω = {w1, w2,… ,wk} với wi , i = 1,2, ,k là tên các đối tượng
Quá trình nhận dạng là tìm ra một ánh xạ ε từ χ vào Ω sao cho:
ε : χ → Ω, với mọi Xi → Wi
trong đó: cho biết không gian biểu diễn (quan sát), chưa biết ε và Ω
Cần một quá trình học để hình thành Ω, quá trình ra quyết định ε (hệ thống tự cấu trúc
hóa)
Trang 191.6 Các phương pháp nhận dạng đối tượng được sử dụng hiện nay
Có nhiều nghiên cứu tìm phương pháp xác định và nhận dạng đối tượng Luận văn sẽ trình bày một cách tổng quát nhất những hướng giải quyết chính cho bài toán, từ những hướng chính này nhiều tác giả thay đổi một số ý nhỏ bên trong để có kết quả mới
Dựa vào tính chất của các phương pháp nhận dạng đối tượng trên ảnh Các phương pháp này được chia làm năm hướng tiếp cận chính Ngoài năm hướng này, nhiều nghiên cứu có một hướng tiếp cận mà có liên quan nhiều hơn một hướng chính thức:
- Hướng tiếp cận dựa trên tri thức: Mã hóa các hiểu biết của con người về các đối tượng thành các luật, thông thường các luật mô tả quan hệ của các đặc trưng
- Hướng tiếp cận dựa trên đặc trưng không đổi: Mục tiêu các thuật toán là đi tìm
các đặc trưng mô tả cấu trúc đối tượng mà các đặc trưng này sẽ không thay đổi khi
tư thế của đối tượng, vị trí đặc thiết bị thu hình hoặc điều kiện ánh sáng thay đổi
- Hướng tiếp cận dựa trên so khớp mẫu: Dùng các mẫu chuẩn của đối tượng (các
mẫu này được chọn lựa và lưu trữ) để mô tả cho đối tượng hay các đặc trưng của đối tượng (các mẫu này phải chọn làm sao cho tách biệt nhau theo tiêu chuẩn mà các tác giả định ra để so sánh) Các mối liên quan giữa dữ liệu ảnh đưa vào và các
mẫu dùng để xác định đối tượng
- Hướng tiếp cận dựa vào mô hình đối tượng để nhận dạng đối tượng: Hệ thống
được phát triển thông qua việc thêm một mô hình đối tượng 2D, 2.5D và 3D trong
(Khối cảm nhận của máy
tính, thiết bị cảm biến)
Trích lọc đặc tính
Quan sát và thu nhập thông tin (số liệu, đặc tính miêu tả
Trang 20giai đoạn huấn luyện bộ phân loại Mô hình đối tượng của tất cả các diện mạo thuộc đối tượng đó trong cơ sở dữ liệu huấn luyện đã được tính toán Chúng ta sẽ tạo ra sự tổng hợp bất kỳ các hình ảnh đối tượng theo các tư thế và chiếu sáng
khác nhau để huấn luyện hệ thống nhận dạng dựa trên các thành phần
- Hướng tiếp cận dựa trên diện mạo: Trái ngược hẳn với so khớp mẫu, các mô
hình (hay các mẫu) được học từ một tập ảnh huấn luyện trước đó Sau đó hệ thống (mô hình) sẽ xác định đối tượng Hay một số tác giả còn gọi hướng tiếp cận này là
hướng tiếp cận theo phương pháp học
1.6.1 Hướng tiếp cận dựa trên tri thức
Trong hướng tiếp cận này, các luật sẽ phụ thuộc rất lớn vào tri thức của những tác giả nghiên cứu về bài toán xác định định danh đối tượng Đây là hướng tiếp cận dạng top-down Dễ dàng xây dựng các luật cơ bản để mô tả các đặc trưng của diện mạo và các quan hệ tương ứng Ví dụ về khuôn mặt người, một khuôn mặt thường có hai mắt đối xứng nhau qua trục thẳng đứng ở giữa khuôn mặt và có một mũi, một miệng Các quan hệ của các đặc trưng có thể được mô tả như quan hệ về khoảng cách
và vị trí Thông thường các tác giả sẽ trích đặc trưng của khuôn mặt trước tiên để có được các ứng viên, sau đó các ứng viên này sẽ được xác định thông qua các luật để biết ứng viên nào là khuôn mặt và ứng viên nào không phải khuôn mặt Thường áp dụng quá trình xác định để giảm số lượng xác định sai
Một vấn đề khá phức tạp khi dùng hướng tiếp cận này là làm sao chuyển từ tri thức con người sang các luật một cách hiệu quả Nếu các luật này quá chi tiết, chặt chẽ thì khi xác định có thể xác định thiếu các đối tượng có trong ảnh, vì những đối tượng này không thể thỏa mãn tất cả các luật đưa ra Nhưng các luật tổng quát quá thì có thể chúng ta sẽ xác định lầm một vùng nào đó không phải là đối tượng cần định danh mà lại được xác định là đối tượng cần định danh Và cũng khó khăn mở rộng yêu cầu từ bài toán để xác định diện mạo các đối tượng có nhiều tư thế khác nhau
Hình 1.3 Độ phân giải của ảnh
Trang 21(a) Ảnh ban đầu có độ phân giải n=1
(b), (c), và (d) Ảnh có độ phân giải n=4, 8, và 16
Hình 1.4 Một lọai tri trức của nghiên cứu phân tích trên khuôn mặt
Yang và Huang dùng một phương thức theo hướng tiếp cận này để xác định các diện mạo đối tượng Hệ thống của hai tác giả này bao gồm ba mức luật Ở mức cao nhất, dùng một khung cửa sổ quét trên ảnh và thông qua một tập luật để tìm các ứng viên có thể là đối tượng cần định danh Ở mức kế tiếp, hai ông dùng một tập luật để
mô tả tổng quát diện mạo đối tượng Còn ở mức cuối cùng lại dùng một tập luật khác
để xem xét ở mức chi tiết các đặc trưng của diện mạo
Kotropoulos và Pitas đưa một phương pháp tương tự dùng trên độ phân giải thấp Hai ông dùng phương pháp chiếu để xác định các đặc trưng diện mạo, Kanade đã thành công với phương pháp chiếu để xác định biên của vùng chứa đối tượng Với
I(x,y) là giá trị xám của một điểm trong ảnh có kích thước mxn ở tại vị trí (x,y), các
hàm để chiếu ảnh theo phương ngang và thẳng đứng được định nghĩa như sau:
HI(x) = ∑ I(x, y)
n y=1
và VI(y) = ∑ I(x, y)
m x=1
Dựa trên biểu đồ hình chiếu ngang, có hai cực tiểu trong vùng khi hai ông xét quá trình thay đổi độ đốc của HI, đó chính là cạnh bên trái và phải của hai bên đầu Tương tự với hình chiếu dọc VI, các cực tiểu trong vùng cũng cho ta biết vị trí khác nhau của các vùng trên bề mặt đối tượng Các đặc trưng này đủ để xác định đối tượng Hình 1.5.a cho một ví dụ về cách xác định như trên Cách xác định này có tỷ lệ xác định chính xác là 86.5% cho trường hợp chỉ có một khuôn mặt thẳng trong ảnh và hình nền không phức tạp Nếu hình nền phức tạp thì rất khó tìm, hình 1.5.b Nếu ảnh có
nhiều khuôn mặt thì sẽ không xác định được, hình 1.5.c
Trang 22Hình 1.5 Các phương pháp chiếu
(a) Ảnh chỉ có một khuôn mặt và hình nền đơn giản
(b) Ảnh chỉ có một khuôn mặt và hình nền phức tạp
(c) Ảnh có nhiều khuôn mặt
Hình 1.6 Chiếu từng phần ứng viên để xác định khuôn mặt
Một phương pháp xác định khuôn mặt theo hướng tiếp cận top-down Các luật được xây dựng dựa vào tri thức của người nghiên cứu về các đặc trưng của khuôn mặt (ví dụ như
cường độ phân phối và sự khác nhau) của các vùng trên khuôn mặt
Fan phân đoạn ảnh màu để tìm cạnh thông qua thuật toán tăng vùng để xác định các ứng viên Dùng đặc tính các hình trong tập huấn luyện của diện mạo đối tượng để xác định ứng viên nào là đối tượng cần phải định danh Tỷ lệ chính xác khoảng 87-94% Phương pháp chỉ xử lý cho các khung ảnh chỉ có một đối tượng và ảnh này phải chụp trực diện lấy các phần đặc trưng nhất
Sahbi và Boujemaa sử dụng mạng neural học để ước lượng các tham số cho mô hình Gauss, mục đích để tìm ứng viên trên sắc màu bề mắt đối tượng Sau khi có ứng viên, hai ông chiếu lên hai trục: đứng và ngang để xác định đối tượng
Trang 231.6.2 Hướng tiếp cận dựa trên đặc trưng không đổi
Đây là hướng tiếp cận theo kiểu bottom-up Các tác giả cố gắng tìm các đặc trưng không thay đổi của diện mạo đối tượng để xác định đối tượng Dựa trên nhận xét thực tế, con người dễ dàng nhận biết các diện mạo và các đối tượng trong các tư thế khác nhau và điều kiện ánh sáng khác nhau, thì phải tồn tại các thuộc tính hay đặc trưng không thay đổi Có nhiều nghiên cứu đầu tiên xác định các đặc trưng diện mạo rồi chỉ ra có khuôn mặt trong ảnh hay không Các đặc trưng như các góc, cạnh, chỗ lồi lõm, đường viền phân chia các đối tượng khác nhau trên ảnh, các vùng có sự phân bổ
độ sáng khác nhau được trích bằng phương pháp xác định cạnh Trên cơ sở các đặc trưng này, xây dựng một mô hình thống kê để mô tả quan hệ của các đặc trưng này và xác định sự tồn tại của diện mạo đối tượng cần định danh trong ảnh Một vấn đề của các thuật toán theo hướng tiếp cân đặc trưng cần phải điều chỉnh cho phù hợp điều kiện ánh sáng, nhiễu, và bị che khuất Đôi khi bóng của đối tượng khi lấy diện mạo sẽ tạo thêm cạnh mới, mà cạnh này lại rõ hơn cạnh thật sự của đối tượng, vì thế nếu dùng cạnh để xác định sẽ gặp khó khăn
1.6.3 Hướng tiếp cận dựa trên so khớp mẫu
Trong so khớp mẫu, các mẫu chuẩn của diện mạo đối tượng (thường là diện mạo được chụp thẳng) sẽ được xác định trước hoặc xác định các tham số thông qua một hàm Từ một ảnh đưa vào, tính các giá trị tương quan so với các mẫu chuẩn Thông qua các giá trị tương quan này mà các tác giả quyết định có hay không có tồn tại của đối tượng trong ảnh Hướng tiếp cận này có lợi thế là rất dễ cài đặt, nhưng không hiệu quả khi tỷ lệ, tư thế, và hình dáng thay đổi Nhiều độ phân giải, đa tỷ lệ, các mẫu con, và các mẫu biến dạng được xem xét thành bất biến về tỷ lệ và hình dáng
Oh phân đoạn để tìm ứng viên là đối tượng cần định danh, tác giả dùng các mẫu mặt
có trước để so khớp với các vùng quan tâm để tìm vị trí đặc trưng nhất trong ứng viên Sau đó tiếp tục tìm các vị trí còn lại để xác định ứng viên này có phải là đối tượng cần nhận dạng hay không
Trang 241.6.4 Hướng tiếp cận dựa vào mô hình đối tượng để nhận dạng đối tượng
Mô hình đối tượng là mô hình thống kế hình dạng đối tượng, nó biến đổi liên tục
để phù hợp với một mẫu của đối tượng trong một hình ảnh mới, được phát triển bới Tim Cootes và Chris Taylor vào năm 1995 Mô hình thống kê hình dạng để thay đổi duy nhất trong cách nhìn thấy trong một tập huấn luyện các mẫu có gán nhãn Mô hình của đối tượng được biểu diễn một tập các điểm Mục đích là để tham chiếu mô hình mới một hình ảnh mới Nó hoạt động luân phiên theo thứ tự các bước sau:
- Quan sát trong mỗi điểm trên hình ảnh cho một vị trí tốt hơn tại thời điểm đó
- Cập nhật các tham số của mô hình phù hợp tốt nhất để cho những vị trí mới được tìm thấy
Để xác định vị trí tốt hơn cho mỗi điểm để có thể tìm cạnh bền vững hơn hoặc tham chiếu tới một mô hình thống kê của những gì được mong đợi tại thời điểm đó Kỹ thuật này được sử dụng rộng rãi để phân tích hình ảnh của các đối tượng là khuôn mặt người, cớ khí lắp ráp, hình ảnh y tế (2D, 2.5D và 3D)
Hướng tiếp cận dựa vào mô hình đối tượng để nhận dạng đối tượng là dựa vào mỗi đối tượng hoặc cấu trúc của hình ảnh được biểu hiện thông qua một tập các điểm Các điểm có thể được biểu hiện trên ranh giới, chức năng bên trong hoặc bên ngoài như trung tâm của vùng lõm biên Các điểm là trong cùng một cách mỗi bộ huấn luyện của đối tượng mẫu Điều này được thực hiện thông qua các công cụ hỗ trợ người dùng Thiết lập các điểm là sắp xếp tự động để giảm thiểu sai trong khoảng cách giữa các điểm tương đương Bẳng cách kiểm tra các số liệu thống kê của các vị trí các điểm có nhãn là “mô hình phân bố điểm” có nguồn gốc Mô hình cho các vị trí trung bình của điểm và có một tham số điều khiển mô hình chính của sự thay đổi hàng trong quá trình huấn luyện
Do đó, một mô hình và hình ảnh chứa các mẫu của mô hình đối tượng, phân tích hình ảnh bao gồm chọn giá trị của tham số để tìm ra mô hình thích hợp với hình ảnh nhất Hướng tiếp cận giải quyết một điều rất khó khăn ban đầu là đoán các hình dạng tốt nhất, định hướng, trạng thái và vị trí được lọc bằng cách so sánh các mẫu mô hình giả thuyết với dữ liệu hình ảnh và các thức sử dụng khác nhau giữa mô hình và hình ảnh bị méo mó về hình dạng
Trang 25Hình 1.7 Nhận dạng dựa vào mô hình đối tượng 1.6.5 Hướng tiếp cận dựa trên diện mạo
Trái ngược với các phương pháp so khớp mẫu với các mẫu đã được định nghĩa trước bởi những chuyên gia, các mẫu trong hướng tiếp cận này được học từ các ảnh mẫu Một các tổng quát, các phương pháp theo hướng tiếp cận này áp dụng các kỹ thuật theo hướng xác suất thống kê và máy học để tìm những đặc tính liên quan của đối tượng và không phải là đối tượng Các đặc tính đã được học ở trong hình thái các
mô hình phân bố hay các hàm biệt số nên dùng, và có thể dùng các đặc tính này để xác định đối tượng trong ảnh Đồng thời, bài toán giảm số chiều thường được quan tâm để tăng hiệu quả tính toán cũng như hiệu quả xác định
Có nhiều phương pháp áp dụng xác suất thống kê để giả quyết Một ảnh hay một vector đặc trưng xuất phát từ một ảnh được xem như một biến ngẫu nhiên x, và biến ngẫu nhiên có đặc tính là diện mạo của đối tượng hay không phải là diện mạo đối tượng bởi công thức tính theo các hàm mật độ phân lớp theo điều kiện p(x | đối tượng)
và p(x | không phải đối tượng) Có thể dùng phân loại Bayes hoặc khả năng cực đại để phân loại một ứng viên là đối tượng cần nhận dạng hay không phải là đối tượng
Không thể cài đặt trực tiếp phân loại Bayes bởi vì số chiều của x khá cao, bởi vì p(x | đối tượng) và p(x | không phải đối tượng) là đa phương thức, và chưa thể hiểu nếu xây
dựng các dạng tham số hóa một cách tự nhiên cho p(x|đối tượng) và p(x|không phải đối tượng) Có khá nhiều nghiên cứu theo hướng tiếp cận này quan tâm xấp xỉ có tham
số hay không có tham số cho p(x|đối tượng) và p(x|không phải đối tượng)
Các tiếp cận khác trong hướng tiếp cận dựa trên diện mạo là tìm một hàm biệt
số (như mặt phẳng quyết định, siêu phẳng để tách dữ liệu, hàm ngưỡng) để phân biệt hai lớp dữ liệu: đối tượng và không phải đối tượng Bình thường, các mẫu ảnh được
Trang 26chiếu vào không gian có số chiều thấp hơn, rồi sau đó dùng một hàm biệt số (dựa trên các độ đo khoảng cách) để phân loại, hoặc xây dựng mặt quyết định phi tuyến bằng mạng neural đa tầng Hoặc dùng SVM (Support Vector Machine) và các phương thức kernel, chiếu hoàn toàn các mẫu vào không gian có số chiều cao hơn để dữ liệu bị rời rạc hoàn toàn và ta có thể dùng một mặt phẳng quyết định phân loại các mẫu diện mạo đối tượng và không phải đối tượng
Hình 1.8 Diện mạo của đối tượng là xe hơi
Diện mạo đối tượng trong các ô ở hàng đầu tiên là tập hợp các giao diện 2D của xe hơi
Tư thế bị thay đổi trên trục xoay 30o dưới ánh sáng liên tục Một dấu hiệu được gắn vào
đối tượng 08 để phân biệt với đối tượng 07
1.7 Đánh giá về hướng tiếp cận dựa trên diện mạo
Các hệ thống nhận dạng đối tượng trong ảnh dựa trên thông tin cơ bản được thu nhận từ một ảnh duy nhất, thông tường một tập các đặc trưng được trích chọn phù hợp với mô hình biểu diễn đối tượng được lưu trữ trong một cơ sở dữ liệu Nghiên cứu nhận dạng đối tượng dựa vào diện mạo đi theo hướng tìm kiếm các đặc trưng có khả năng phân biệt giữa các đối tượng Tuy nhiên phương pháp này phải đối mặt với vấn
đề là một khi các đặc trưng có sẵn từ một quan sát hay từ một ảnh đơn là không đủ để xác định định danh của đối tượng quan sát, một khó khăn khác là khi cơ sở dữ liệu đối tượng lớn Một giải pháp cho vấn đề này là sử dụng các thông tin chứa trong nhiều quan sát khác nhau của đối tượng Sử dụng phương pháp trích chọn đặc trưng diện mạo đối tượng của những lần quan sát này làm dữ liệu huấn luyện sẽ giải quyết được những nhược điểm nói trên và tăng chính chính xác cho hệ thống nhận dạng đối tượng dựa vào diện mạo
Trang 27Hiện nay đã xuất hiện một số thuật toán, các mô hình kết hợp mới làm cho nhận dạng đối dựa trên diện mạo đối tượng ngày càng trở nên có hiệu quả hơn
1.8 Tiểu kết chương 1
Bài toán nhận đối tượng đã được các công trình nghiên cứu trong và ngoài nước nghiên cứu từ nhiều thập kỷ qua Tuy nhiên, đây là một bài toán khó nên những nghiên cứu hiện tại vẫn chưa đạt được kết quả mong muốn là do một vài nguyên nhân sau: tư thế, góc chụp, sự xuất hiện hoặc thiếu một số thành phần của đối tượng cần nhận dạng,
sự che khuất, hướng của ảnh, điều kiện chiếu sáng của ảnh…
Hiện nay có nhiều hướng tiếp cận để giải quyết bài toán nhận dạng đối tượng khác nhau, việc lựa chọn hướng tiếp cận phải dựa vào tình huống cụ thể
Chương 1 cung cấp những kiến thức tổng quan về lý thuyết nhận dạng và tổng quan về nhận dạng dựa vào diện mạo đối tượng Cung cấp cái nhìn tổng quát về các vấn đề cơ bản, hệ thống nhận dạng đối tượng, vai trò ý nghĩa mỗi giai đoạn của hệ thống nhận dạng, các thành phần và kiến trúc của hệ thống nhận dạng
Chương 2 sẽ trình bày phương pháp nhận dạng dựa vào diện mạo đối tượng dựa vào mô hình kết hợp giữa PCA và mô hình Markov ẩn
Trang 28Chương 2 NHẬN DẠNG DIỆN MẠO ĐỐI TƯỢNG SỬ DỤNG
PHƯƠNG PHÁP PCA KẾT HỢP MÔ HÌNH MARKOV ẨN
2.1 Giới thiệu về nhận dạng đối tượng dựa vào diện mạo
2.1.1 Diện mạo đối tượng
Diện mạo đối tượng là hình ảnh trên bề mặt của đối tượng từ góc quan sát được thu nhận lại bằng thiết bị cảm biến (ví dụ camera, mắt người…) dưới dạng các hình ảnh Chúng ta có thể thu nhận nhiều hình ảnh của nhiều đối tượng từ nhiều góc quan sát khác nhau (có thể quan sát từng mặt, quan sát một phần, quan sát nghiêng, quan sát trực diện…) Diện mạo ở đây là diện mạo trực quan của đối tượng vì được lấy từ ảnh của đối tượng
Hình 2.1 Một số hình ảnh minh họa biểu diễn diện mạo đối tượng (xe hơi) được thu
nhận từ nhiều góc quan sát khác nhau
Thu nhận hình ảnh đối tượng từ nhiều góc khác nhau của đối tượng sẽ làm tăng tính chính xác về thông tin của đối tượng, qua đó việc trích chọn diện mạo đặc trưng
sẽ thuận lợi giúp quá trình nhận dạng chính xác hơn
Trang 29Hình 2.2 Diện mạo của các đối tượng biểu diễn trong không gian
2.1.2 Nhận dạng đối tượng dựa vào diện mạo
Nhận dạng đối tượng dựa vào diện mạo đối tượng là phương pháp tìm sự liên
hệ giữa những hình ảnh được huấn luyện của một đối tượng và sử dụng mối liên hệ này cho sự phân lớp một bộ mẫu thử mới Điều kiện tiên quyết cho sự nhận dạng tốt là những hình ảnh thử phải liên quan đến những hình ảnh huấn luyện Hình thử phải rất giống với các dữ liệu huấn luyện, được nhận dạng và phân loại một cách chính xác Hình ảnh chưa được huấn luyện sẽ không được xác định vì chúng không có đại diện phù hợp
Nhận dạng dựa vào diện mạo đối tượng sử dụng phương pháp trích chọn đặc trưng diện mạo của đối tượng Đây là hướng tiếp cận dựa vào cấu trúc phân bổ cường
độ sáng của điểm ảnh trên bề mặt của đối tượng để trích chọn cac đặc trưng Diện mạo của đối tượng phản chiếu được xác định bằng bề mặt đối tượng phản chiếu bởi ánh sáng Trích chọn những đặc trưng của diện mạo nhằm phát hiện ra những thay đổi bên ngoài của đối tượng, qua đó có thể phát hiện và nhận dạng đối tượng một cách chính xác hơn Bài toán giảm số chiều thường được quan tâm để tăng hiệu quả tính toán cũng như hiệu quả xác định
Trang 302.2 Phương pháp phân tích thành phần chính PCA
2.2.1 Giới thiệu PCA
Phương pháp phân tích thành phần chính (Principal Component Analysis hay PCA) Phương pháp này được phát minh năm 1901 bởi Karl Pearson và hiện nay nó được sử dụng như một công cụ để phân tích dữ liệu nghiên cứu và thực hiện các mô hình dự đoán PCA còn bao gồm cả việc tính toán phân tích các giá trị đặc trưng của một ma trận tương quan dữ liệu hay phân tích các giá trị đơn của ma trận dữ liệu sau khi tính trung bình dữ liệu của mỗi thuộc tính
PCA là phương pháp đơn giản nhất phân tích đa biến dựa trên các vector đặc trưng Thông thường hoạt động của nó có thể được hiểu nhằm khai phá ra cấu trúc bên trong của dữ liệu Nếu một tập dữ liệu đa biến được xem xét như tập các tọa độ trong một không gian dữ liệu nhiều chiều (mỗi trục biểu diễn một biến) thì phương pháp PCA cung cấp cho chúng ta một bức ảnh ít chiều, một cái bóng của đối tượng thể khi quan sát từ những đặc trưng cơ bản nhất của đối tượng đó
Hình ảnh đối tượng ảnh, chuỗi video
Thu nhận diện mạo đối tượng
Trích chọn đặc trưng diện mạo đối tượng
Huấn luyện bằng
Mô hình Markov ẩn dựa trên đặc trưng diện mạo Đánh giá và hiển thị kết quả
Hình 2.3 Mô hình nhận dạng đối tượng dựa vào diện
mạo
Trang 31Giả sử tập dữ liệu ban đầu trong không gian 3D, dữ liệu này sẽ được chiếu lên các cặp trục tọa độ không gian 2D, theo hình 2.4 thì khi chiếu lên trục y, z ta thu được kết quả có độ biến thiên cao nhất
Hình 2.4 Minh họa PCA tìm các trục tọa độ mới sao cho dữ liệu
có độ biến thiên cao nhất
Hình 2.5 PCA giảm số chiều nhưng vẫn đảm bảo được các thông tin
quan trọng nhất
Phương pháp phân tích thành phần chính PCA được sử dụng rộng rãi trong kĩ thuật thống kê Người đầu tiên giới thiệu là Pearson [1] và đã được Hotelling khám phá lại một cách độc lập [3,10] Ý tưởng chính là nhằm giảm kích thước của dữ liệu trong khi lưu trữ được nhiều thông tin nhất có thể sử dụng phép chiếu
Trang 32Phần tiếp theo sẽ đưa ra nguồn gốc của PCA, những đặc tính của phép chiếu và chỉ ra làm thế nào để áp dụng trong trích chọn đặc trưng và phân loại hình ảnh
Diện mạo được nghiên cứu trong Chương 2 là khuôn mặt người
2.2.2 Các thuật toán của PCA
Diện mạo của một đối tượng có rất nhiều nét để nhận biết, diện mạo có thể được thu nhận từ nhiều góc quan sát khác nhau như có thể quan sát từng mặt, quan sát một phần, quan sát nghiêng, quan sát trực diện và những sự thay đổi về điều kiện ánh sáng trên bề mặt, nét lòi lõm, tư thế cảm xúc… Như đã nói trước đây, diện mạo đang nói đến là diện mạo trực quan của đối tượng vì được lấy từ ảnh của đối tượng Trên bề mặt quan sát thấy của đối tượng luôn tồn tại một nét tổng thể nào đó để có thể nhận dạng được đối tượng, thuật toán PCA bắt đầu từ ý tưởng này
Perason [1] đã định nghĩa PCA như là các phép chiếu tuyến tính, phép chiếu này làm giảm tới mức tối thiểu khoảng cách bình phương giữa các điểm giữ liệu gốc và các hình chiếu của chúng Tương tự, Hotelling cũng xem PCA như một phép chiếu trực giao làm tăng tới mức tối đa phương sai trong không gian chiếu Hơn thế nữa, PCA có thể được xem xét từ quan điểm về xác suất [3] Vì vậy có những cách khác nhau để định nghĩa PCA nhưng cuối cùng tất cả những các phương pháp tiếp cận đều dẫn đến phép chiếu tuyến tính
Dưới đây chúng tôi sẽ đưa ra phép lấy đạo hàm chung nhất dựa vào việc làm tăng tối đa phương sai trong không gian chiếu
Cho n mẫu xj ∈ Rm và để u ∈ Rm với:
Trang 33là ma trận hiệp biến của X=[x1, , xn] ∈ Rmxn
Vì vậy, để tăng tới mức tối đa phương sai trong không gian chiếu, ta có thể tối ưu hóa vấn đề theo phương pháp sau:
Vì vậy cực đại của phép nhân Lagrange thu được nếu λ là một giá trị riêng và U
là một vector riêng của C Một cơ sở đầy đủ U=[u1, ,un-1] có thể có được thông qua việc tính một giá trị riêng đầy đủ
Từ (2.1) và (2.6), có thể thấy rằng có một mối quan hệ rất chặt chẽ giữa tối ưu hóa vấn đề (2.8) và tỷ số Rayleigh
Trang 34R(u) =u
TCu
uTu (2.13) R(u) cực đại nếu như u là một véc tơ riêng của C Hơn thế nữa nếu U là một véc tơ riêng và λ là một giá trị riêng của C thì ta được:
2.2.2.1 Tính PCA cho từng tập mẫu
Với phương pháp tính theo tập dữ liệu, giả sử rằng tất cả các dữ liệu huấn luyện được cho trước Như vậy ta có một tập cố định của n qua sát xj ∈ Rm được tổ chức trong một ma trận X = [x1, , xn] Rm x n Để ước tính phép chiếu PCA, ta cần giải quyết các vấn đề bài toán riêng cho ma trận hiệp biến C của X Vì vậy, đầu tiên ta ước tính giá trị trung bình mẫu
U = [u1, , un-1] ∈ Rm x n-1 (2.18) Một cấp bị mất do việc chuấn hóa trung bình Do đó, kích thước của U bị giảm bớt một Thông tin đặc trưng nhất được lưu trong các vector riêng đầu tiên tương ứng với giá trị riêng lớn nhất thường k < n-1 vector riêng được sử dụng để chiếu
Trang 35Thuật toán 2.1: Tính PCA từng tập mẫu từng lớp
Đầu vào: Ma trận dữ liệu X
Đầu ra: vector trung bình 𝑥̅, vector riêng chuẩn hóa u, giá trị riêng λi
n − 1X̂X̂T
Bước 4: Tính vector riêng λi của C
U = [u1, , un-1]
Kích thước của ma trận hiệp biến phụ thuộc trực tiếp vào m, số hàng của A có
thể khá lớn đối với những ứng dụng thực tế (ví dụ: khi các vector dữ liệu biểu diễn hình ảnh) Vì vậy, phương pháp mô tả trên là không khả thi đối với việc giải quyết những bài toán riêng cho các ma trận kích thước lớn do nhu cầu bộ nhớ và chi phí tính toán Nhưng do đặc tính của ma trận hiệp biến tồn tại các phương pháp hiệu quả để ước tính ma trận chiếu PCA Nó được biết đến là một phương pháp tính toán cho bất
kỳ ma trận A, tích ma trận AAT và ATA có cùng giá trị riêng khác 0 Để u và λ trở thành vector riêng và giá trị riêng của ATA, ta có:
ATAu = λu (2.19)
Nhân hai vế với A, ta được:
AAT(Au) = λ (Au) (2.20)
Vì vậy, λ là một giá trị riêng của AAT; vector riêng tương ứng được cho bởi
Au Để đảm bảo rằng cơ sở riêng có độ dài duy nhất thì các vector riêng phải được chia nhỏ bằng căn bậc hai của các giá trị riêng tương ứng
Trang 36và các vector riêng ŭj của ma trận đồng biến C theo công thức sau:
λj = λ̆j
√n − 1√λj
X ̂ ŭj (2.23) Nếu X̂ có nhiều hàng hơn cột, nghĩa là n < m, đây là trường hợp thường áp dụng thực
tế, Ğ ∈ Rn x m là một ma trận nhỏ hơn nhiều so với C ∈ Rn x m Vì vậy, việc tính vector riêng sẽ dễ dàng và ta có được một phương pháp hiệu quả hơn nhiều Thuật toán được trình bày tổng quan ở thuật toán 2.2 như sau:
Thuật toán 2.2: Tính PCA hiệu quả từng tập mẫu từng lớp
Đầu vào: dữ liệu ma trận X
Đầu ra: vector trung bình x̅, cơ sở của vector riêng U, giá trị riêng λj
G
n − 1X
TX̂ Bước 4: Tính vector riêng ŭ và những giá trị riêng λj ̆ của Ğ j
Trang 37Bước 5: Xác định giá trị riêng của C
2.2.2.2 PCA và phương pháp phân tích giá trị đơn
Đối với ma trận nửa đối xứng và đối xứng thì việc phân tích giá trị đơn SVD
và phân tích giá trị riêng EVD trở nên tương đồng Nhưng phép nhân ma trận X̂X̂ T
hoặc X̂X̂T vẫn được thực hiện Để tránh các phép nhân ma trận chúng ta có thể áp dụng SVD trực tiếp lên dữ liệu của ma trận chuẩn hóa trung bình X̂ nhằm tính vector riêng uj
∈ Rm của ma trận hiệp biến C
Xét SVD của ma trận chuẩn hóa trung bình X̂ ∈ 𝐑m x m:
X
̂ = UΣVT (2.24) Sau đó, SDV của X̂X̂T được cho bởi
Trong phần thực nghiệm, luận văn sử dụng phương pháp PCA vì hai lý do: thứ nhất là tính toán theo SVD thường ổn định hơn so với tính theo EVD, thứ hai là phương pháp SVD có thể mở rộng để áp dụng cho học trực tuyến
Thuật toán 2.3: Phương pháp PCA SVD
Đầu vào: dữ liệu ma trận X
Đầu ra: vector trung bình x̅, cơ sở của vector riêng u, giá trị riêng λj
Trang 38Bước 3: Tính vector riêng bên trái ŭj và những giá trị đơn σj
Bước 4: Tính giá trị riêng λj của C
λj = σj
2
n − 1Bước 5: Tính vector riêng uj của C
2.2.2.3 Phép chiếu và sự tái tạo
Nếu ma trận U ∈ Rm x n-1 được tính bởi bất cứ phương pháp nào ở trên nó có thể được sử dụng để chiếu vào không gian con có kích thước (chiều) nhỏ hơn
Vì vậy, một vector đầu vào x ∈ Rm thì phép chiếu a ∈ Rn-1 thu được là
a = UTx̂ (2.26) Với x̂ = x − x̅ là dữ liệu đầu vào trung bình được chuẩn hóa Phần tử thứ j của dữ liệu được chiếu a=[a1, …,an-1] thu được bằng cách tính tích bên trong của vector đầu vào trung bình được chuẩn hóa x̂ và vector cơ sở thứ j của uj :
Trang 39x = Ua + x̅ = ∑ aj
n−1
j−1
uj + x̅ (2.28) Kết quả cuối cuối cùng thể hiện bằng (2.1.4), phương sai của trục chính thứ j của
uj là giá trị riêng thứ j λj Do đó, hầu hết thông tin được chưa trong vector riêng theo giá trị riêng lớn nhất
Do đó, rõ rằng rằng thường thì chỉ với k, k < n, những vector riêng cần được yêu cầu
để biểu diễn một vector dữ liệu x đối với một mức độ chính xác có hiệu quả:
x̃ = Uka + x̅ = ∑ aj
k
j=1
uj+ x̅ (2.29) Một thước đo cho chất lượng của sự tái tạo là bình phương sai số (bình phương lỗi) tái tạo:
Do đó, bình phương sai số tái tạo bằng với hệ số bình phương của vector riêng bị loại
đi Vì đây là những vector này thường không được biết đến, lỗi dự đoán của nó có thể được mô tả bởi giá trị kỳ vọng của biến bị loại bỏ, được cho bởi công thức sau:
PCA được giới thiệu trong lĩnh vực thị giác máy tính bở Kirby và Sirovich [12]
và trở nên phổ biến khi Truk và Pentland [9] ứng dụng nó cho việc nhận dạng khuôn mặt Ở đây, hình ảnh được xem như là những vector có kích thước lớn và hình ảnh I có
kích thước hxw được sắp xếp như một vector x ∈ R m, trong đó m=hw Murase và Nayar [5] sử dụng lý thuyết này trong lĩnh vực nhận dạng Từ [5], rõ ràng rằng dữ liệu