Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)Các kỹ thuật lựa chọn, trích rút, ghi nhận trạng thái biểu cảm cơ bản của mặt người (LV thạc sĩ)
Trang 1NGUYỄN XUÂN THUYẾT
CÁC KỸ THUẬT LỰA CHỌN, TRÍCH RÚT, GHI NHẬN TRẠNG THÁI BIỂU CẢM CƠ BẢN
CỦA MẶT NGƯỜI
LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2017
Trang 2NGUYỄN XUÂN THUYẾT
CÁC KỸ THUẬT LỰA CHỌN, TRÍCH RÚT, GHI NHẬN TRẠNG THÁI BIỂU CẢM CƠ BẢN
CỦA MẶT NGƯỜI Chuyên ngành: Khoa học máy tính
Mã số: 60480101
LUẬN VĂN THẠC SỸ KHOA HỌC MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS TS ĐỖ NĂNG TOÀN
THÁI NGUYÊN - 2017
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn này là công trình nghiên cứu thật sự của cá nhân, được thực hiện dưới sự hướng dẫn khoa học của PGS.TS Đỗ Năng Toàn Các số liệu và thông tin thứ cấp sử dụng trong luận văn được trích dẫn rõ ràng Tôi hoàn toàn chịu trách nhiệm về tính xác thực và nguyên bản của luận văn
Học viên
Nguyễn Xuân Thuyết
Trang 4MỤC LỤC
MỤC LỤC i
DANH MỤC KÝ HIỆU, CÁC CHỮ VIẾT TẮT iv
DANH MỤC CÁC HÌNH v
PHẦN MỞ ĐẦU 1
Chương 1: KHÁI QUÁT VỀ BIỂU CẢM KHUÔN MẶT VÀ BÀI TOÁN TRÍCH RÚT ĐẶC TRƯNG BIỂU CẢM KHUÔN MẶT 1
1.1 Khái quát về biểu cảm khuôn mặt 1
1.1.1 Khái niệm biểu cảm khuôn mặt 1
1.1.2 Vấn đề biểu diễn biểu cảm khuôn mặt 3D 6
1.2 Bài toán trích rút đặc trưng phục vụ biểu diễn biểu cảm khuôn mặt 3D 10
1.2.1 Giới thiệu bài toán 10
1.2.2 Một số vấn đề trong việc triển khai thực tế 13
1.2.2.1 Vấn đề ràng buộc dữ liệu 13
1.2.2.2 Vấn đề lựa chọn tập điểm điều khiển 14
1.2.3 Một số ứng dụng liên quan 16
Chương 2: MỘT SỐ KỸ THUẬT LỰA CHỌN, TRÍCH RÚT, GHI NHẬN TRẠNG THÁI BIỂU CẢM MẶT NGƯỜI 18
2.1 Kỹ thuật SIFT 19
2.1.1.Tổng quan về SIFT 19
2.1.2 Nội dung giải thuật 21
2.1.2.1 Dò tìm cực trị cục bộ 21
2.1.2.2 Trích xuất keypoint 25
2.1.2.3 Gán hướng cho các keypoint 28
2.1.2.4 Tạo bộ mô tả cục bộ 29
2.1.3 Kỹ thuật đối sánh 30
Trang 52.1.4 Một số hướng cải tiến, phát triển thuật toán SIFT 32
2.1.4.1 Giảm số lượng keypoint trích xuất ở mỗi ảnh 32
2.1.4.2 Dùng lược đồ màu loại trừ trước các ảnh ít khả năng tương đồng 32
2.1.4.3 Trích xuất đối tượng ra khỏi ảnh theo đối tượng mẫu 33
2.2 Kỹ thuật AAM 33
2.2.1 Giới thiệu về mô hình biểu diễn động 33
2.2.2 Mô hình thống kê của sự biểu diễn đối tượng 35
2.2.2.1 Phương pháp phân tích đặc trưng chính (Principle component analysis - PCA) 36
2.2.2.2 Mô hình thông kê của hình dạng đối tượng 37
2.2.2.3 Mô hình thống kê của kết cấu đối tượng 38
2.2.2.4 Sự tổng hợp mô hình hình dạng và kết cấu thành mô hình biểu diễn 40
2.2.2.5 Tổng quan quá trình tìm kiếm dựa vào AAM 42
2.2.3 Ràng buộc tìm kiếm trong AAM 44
2.2.3.1 Mô hình so khớp 45
2.2.3.2 Tìm kiếm vị trí định trước của mô hình 47
2.2.4 Ứng dụng mô hình biễu diễn động vào nhận dạng khuôn mặt 47
2.2.4.1 Giới thiệu bài toán nhận dạng khuôn mặt và vai trò của AAM 47 2.2.4.2 Dữ liệu huấn luyện 48
Chương 3: CHƯƠNG TRÌNH THỬ NGHIỆM 53
3.1 Phân tích yêu cầu bài toán 53
3.2 Phân tích lựa chọn công cụ 54
3.3 Một số kết quả chương trình 56
KẾT LUẬN 56
TÀI LIỆU THAM KHẢO 58
Trang 7DANH MỤC KÝ HIỆU, CÁC CHỮ VIẾT TẮT
1 AAM Active Aperence Model Mô hình biểu diễn động
2 ASM Active Shape Model Mô hình hình dạng động
3 SIFT Scale Invariant Feature
Transform
Phép biến đổi đặc trưng bất biến tỷ lệ
4 DoG Deffirence of Gaussisan Hàm sai khác Gaussian
6 PCA Principle component
analysis Phân tích đặc trưng chính
Trang 8DANH MỤC CÁC HÌNH
Hình 1.1 Mô tả dưới dạng ma trận của các loại cảm xúc theo 2 chiều: cường
độ cao hay thấp(I) và đánh giá positive hay negative(E) của Shaver 2
Hình 1.2 7 Trạng thái cảm xúc khuôn mặt cơ bản tronng nghiên cứu của Matsumoto 3
Hình 1.3 Hệ cơ mặt 3
Hình 1.4 Mô hình hệ thống biểu diễn biểu cảm khuôn mặt 10
Hình 1.5 Phát hiện và gán nhãn điểm đánh dấu trong công trình của Arman Savran và các đồng nghiệp 11
Hình 1.6 Công nghệ giám sát điểm đánh dấu trong phim Avatar 12
Hình 1.7 Hệ thống điểm của MPEG-4 15
Hình 1.8 Tập điểm của Luxand 16
Hình 2.2 Quá trình tính không gian đo (L) và hàm sai khác D 23
Hình 2.3 Quá trình tìm điểm cực trị trong các hàm sai khác DoG 25
Hình 2.4 Mô phỏng sử dụng công thức mở rộng của Taylor cho hàm DoG 26 Hình 2.5 Minh họa các bước của quá trình lựa chọn các điểm keypoints 27
Hình 2.6 Mô tả tạo bộ mô tả cục bộ 30
Hình 2.7 Tóm tắt thuật toán SIFT 31
Hình 2.8 Hình ảnh mô tả quá trình huấn luyện dữ liệu bằng việc mô hình hóa thống kê hình dáng và kết cấu của đối tượng 35
Hình 2.9 Phần tử x được xấp xỉ bằng phần tử x’ trên hệ trục tọa độ 36
Hình 2.10 Ví dụ về hình dạng bàn tay khi thay đổi các tham số 38
Hình 2.11 Ví dụ về hình dạng khuôn mặt khi thay đổi các tham số 38
Hình 2.12 Hai mô hình với độ biến đổi độ xám 3sd 40
Hình 2.13 Tập dữ liệu huấn luyện 49
Hình 2.14 Ví dụ về sự biến đổi hình dạng và kết cấu trên 2 mô hình khác nhau 49
Hình 2.15 Biểu đồ mô tả sự khớp nhau trong việc tiên đoán góc giữa mô hình thật và dữ liệu huấn luyện 51
Hình 2.17 Ví dụ minh họa những mô hình có thể suy ra khi ta đã tiến hành so khớp và tìm ra độ nghiêng một góc của một dữ liệu ảnh 52
Hình 3.1 Ảnh khuôn mặt đầu vào: 53
Hình 3.2 Mô hình chức năng nhận dạng đối tượng 54
Trang 9Hình 3.3 Truy vấn và so khớp đối tượng ứng với trạng thái vui vẻ 56 Hình 3.4 Truy vấn và so khớp đối tượng ứng với trạng thái ngạc nhiên 56
Trang 10PHẦN MỞ ĐẦU
Chương 1: KHÁI QUÁT VỀ BIỂU CẢM KHUÔN MẶT VÀ BÀI TOÁN
TRÍCH RÚT ĐẶC TRƯNG BIỂU CẢM KHUÔN MẶT
1.1 Khái quát về biểu cảm khuôn mặt
1.1.1 Khái niệm biểu cảm khuôn mặt
Theo cách hiểu thông thường, biểu cảm khuôn mặt có thể hình dung là thể hiện bên ngoài tương ứng với một trạng thái của hệ cơ nét mặt nằm dưới vùng da mặt [5] Đây cũng là một khái niệm gần gũi với con người trong cuộc sống hàng ngày bởi con người trong sinh hoạt, lao động, giao tiếp đều cần phải biểu lộ thông tin mà mình muốn truyền đạt hoặc thậm chí là phản xạ, trong đó, biểu cảm khuôn mặt gắn liền với việc biểu lộ thông tin qua khuôn mặt là một trong những cách thức cơ bản và phổ dụng nhất
Các nhà tâm lý học nhìn nhận biểu cảm khuôn mặt dựa trên những trạng thái tâm lý con người Có thể hình dung, khi nói đến tâm trạng hay trạng thái tâm lý là nói đến một dạng cảm xúc có cường độ nhất định, tồn tại trong một khoảng thời gian tương đối Những trạng thái tâm lý có tác động mạnh vào các quyết định của con người như các thao tác, hành vi, hoạt động Theo hướng này, trạng thái biểu cảm có thể được hiểu là cách thức con người thể hiện cảm xúc, dự đoán hay chia sẻ tình cảm của mình
Có nhiều cách nhìn nhận về việc phân chia các trạng thái biểu cảm., chẳng hạn như chia thành 3 mức chính: mức cao, mức trung và mức thấp Trong
đó mức cao thể hiện sự khác biệt rõ rệt giữa hài lòng và không hài lòng Mức chung thể hiện cảm giác như tức giận, khiếp sợ, vui mừng và ngạc nhiên Mức thấp thể hiện khác biệt nhỏ như với trạng thái tức giận ta có những mức độ khác nhau Bên cạnh đó, một cách phân chia trạng thái biểu cảm khác là theo tâm
Trang 11trạng negative (buồn), negative hay positive (ngạc nhiên) và positive (vui) Chẳng hạn như trong nghiên cứu của Shaver và các đồng nghiệp về việc phân tích liên quan đến các trạng thái yêu (Love), vui mừng (Joy), Ngạc nhiên (Surprise), tức giận (Anger), buồn (Sadness) và sợ hãi (Fear)
Hình 1.1 Mô tả dưới dạng ma trận của các loại cảm xúc theo 2 chiều: cường độ cao hay thấp(I) và đánh giá positive hay negative(E) của Shaver
Gần đây, Matsumoto và các đồng nghiệp sử dụng cách phân chia các trạng thái cảm xúc của khuôn mặt đã chia thành 7 nhóm thể hiện chính
Trang 12Hình 1.2 7 Trạng thái cảm xúc khuôn mặt cơ bản tronng nghiên cứu của
Matsumoto
Hệ cơ mặt đóng vai trò quan trọng trong việc tạo ra các biểu cảm của mặt, các cơ trên khuôn mặt ở trạng thái khác nhau với những trạng thái biểu cảm khác nhau
Hình 1.3 Hệ cơ mặt
Trang 13Nói chung, trước khi có những sự phát triển trong lĩnh vực công nghệ thông tin, đặc biệt là trong lĩnh vực thị giác máy, việc phân tích biểu cảm khuôn mặt về cơ bản là vấn đề của những nhà nghiên cứu tâm lý và bác sĩ Tuy nhiên sau đó đã có những sự thay đổi và đã xuất hiện nhiều nhóm nghiên cứu, nhiều công ty đầu tư vào vấn đề phân tích biểu cảm khuôn mặt trên phương diện xử
lý ảnh và đồ họa máy tính Có thể kể đến một vài kết quả khởi đầu như: vào năm 1978, Suwa và các cộng sự đã trình bày một khảo sát sơ bộ về việc phân tích biểu cảm khuôn mặt tự động từ một chuỗi các hình ảnh; vào những năm
90, vấn đề nghiên cứu biểu hiện khuôn mặt tự động đạt được nhiều sự quan tâm với sự tiên phong của Mase và Pentland, trong công trình này các tác giả trình bày một phương pháp sử dụng luồng quang học để ước lượng các cử động của
cơ mặt và dựa vào đó để nhận dạng một số biểu cảm đặc trưng, theo đó những thí nghiệm ban đầu cho thấy độ chính xác khoảng 80% khi nhận bốn loại: hạnh phúc, giận dữ, ghê tởm, và ngạc nhiên
Nghiên cứu về biểu cảm khuôn mặt trong lĩnh vực công nghệ thông tin rất được quan tâm đến chính bởi vì nó hứa hẹn rất nhiều ứng dụng trong cuộc sống, chẳng hạn như:
Các hệ thống xác thực bằng sinh trắc học trong thời gian thực cho phép người dùng đăng nhập bằng cách nhìn vào ống kính camera
Các hệ thống kiểm soát vào ra và có lưu vết thời gian
Các ứng dụng nhận dạng đối tượng không cần sự ghi danh trước
Hệ thống giám sát video và nhận dạng khuôn mặt tự động
Hệ thống tìm ảnh dựa trên nội dung
Các ứng dụng giải trí trên thiết bị di động
Các ứng dụng phân tích tâm lý con người ứng dụng trong phát hiện nói dối, đánh giá sự hài lòng của khách hang với các dịch vụ…
Trang 14Xây dựng các hoạt cảnh khuôn mặt trong ngành công nghiệp giải trí
Các ứng dụng tăng cường chất lượng ảnh và biên tập đồ họa
Có rất nhiều điều liên quan đến các đặc trưng thể hiện cử chỉ, trạng thái biểu cảm khuôn mặt trong một hệ thống phân tích biểu hiện khuôn mặt Các biểu cảm khuôn mặt được sinh ra từ sự chuyển động của các cơ nét mặt, kết quả là tạo ra những biến dạng tạm thời của những thành phần khuôn mặt như
mí mắt, lông mày, mũi, môi và da như nếp nhăn và những chỗ phình Những thay đổi thông thường của các cơ nét mặt thường rất ngắn, chỉ khoảng vài giây, hiếm khi dài hơn 5s và ngắn hơn 250ms Các đặc trưng của biểu hiện khuôn mặt thường yêu cầu một độ đo chính xác và một thuật ngữ hữu ích cho việc miêu tả chúng Vấn đề thường được đặt ra là việc định vị các cử động trên khuôn mặt cũng như cường độ của chúng Cường độ của các biểu hiện khuôn mặt có thể được đo bằng cách xác định những biến đổi hình học của các đặc trưng khuôn mặt hay mật độ các nếp nhăn xuất hiện trên vùng mặt Ví dụ như
độ mỉm cười được truyền đạt dựa trên độ phình của má và việc nâng cao điểm góc môi cũng như việc biểu hiện các nếp nhăn Do có sự ảnh hưởng của tính chất cá nhân lên cử động của khuôn mặt nên rất khó để xác định một cách tuyệt đối cường độ của biểu hiện khuôn mặt mà không sử dụng đến một khuôn mặt trung tính cho chủ thể được đề cập tới Chú ý rằng việc đo cường độ của những biểu cảm tự nhiên trên khuôn mặt là khó khăn hơn khi so sánh với những biểu hiện khuôn mặt trong một tình huống cụ thể, khi đó các biểu hiện thường có cường độ phóng đại và có thể được xác định dễ dàng hơn Không chỉ bản chất
tự nhiên của những biến dạng thành phần khuôn mặt mang ý nghĩa, mà còn thời gian diễn ra tương đối cũng như quá trình chuyển đổi theo thời gian Bài toán xây dựng hệ thống thường được đặt ra với đầu vào dữ liệu là cả video và ảnh tĩnh, ngoài ra hiện nay còn có sự góp mặt của ảnh chiều sâu của của một số loại
Trang 15cảm biến như Kinect Thông thường hình ảnh tĩnh không thể hiện rõ những thay đổi tinh tế trên khuôn mặt do đó nhiều hệ thống hướng đến việc sử dụng
dữ liệu đầu vào là một luồng ảnh như trực tiếp từ camera hoặc từ video để có thể tận dụng thêm thông tin có được theo chuỗi thời gian
1.1.2 Vấn đề biểu diễn biểu cảm khuôn mặt 3D
Xét một cách tổng quát, trên thế giới hiện nay, những người tham gia vào công việc liên quan đến biểu diễn biểu cảm khuôn mặt người thường rơi vào một trong hai nhóm: những người làm việc trong lĩnh vực khoa học máy tính và những họa sỹ
Những người làm việc trong lĩnh vực khoa học máy tính quan tâm đến những vấn đề chi tiết về nhiều khía cạnh theo cách nhìn của kỹ thuật và công nghệ Họ dùng nhiều thời gian trong việc nghiên cứu, thử nghiệm và triển khai những phương pháp mô hình hóa, định vị và hoạt hóa khuôn mặt người và những đặc trưng khuôn mặt dựa trên nhiều tiếp cận khác nhau Có những hướng tiếp cận phân tích thuần túy những tính chất bất biến trong vùng ảnh mặt người đồng thời có khả năng phân biệt với những loại dữ liệu khác để áp dụng trong công đoạn xác định vị trí cùng phạm vi vùng ảnh khuôn mặt trong một bức ảnh hoặc trong luồng video Những nghiên cứu này cũng là một phần quan trọng trong việc thiết kế những hệ thống thực hiện bám sát những điểm đặc trưng khuôn mặt trong một luồng video, có thể với nhiều yêu cầu cụ thể hơn như phải
xử lý thời gian thực và có thể không bao gồm việc đánh dấu những điểm đó khuôn mặt Nhiều nghiên cứu khác lại nhìn nhận vấn đề theo khía cạnh kết hợp
dữ liệu ảnh với những nghiên cứu về cơ thể người như trong giải phẫu học, tâm
lý học hay nhân chủng học Các nghiên cứu theo tiếp cận này cũng quan tâm đến nhiều vấn đề, chẳng hạn như lợi dụng một số loại mặt mẫu có sẵn để làm
cơ sở cho những đánh giá tiếp theo trong việc phân tích khuôn mặt; hoặc theo
Trang 16cách nhìn vật lý, mô phỏng lại hình dáng cùng sự chuyển động của xương, cơ
và mô với nhiều mức độ chi tiết khác nhau Ngoài ra còn một số hướng quan tâm đến việc tiếp cận từng ứng dụng cụ thể, như nhận dạng cảm xúc khuôn mặt, tương tác người máy bằng cử chỉ mặt, tổng hợp biểu hiện khuôn mặt từ lời thoại…
Những họa sĩ thì có những mối quan tâm cụ thể và gần với nhiều thứ xuất hiện trong đời sống hơn Đó là những công việc mang tính chất thực hành
và kỹ năng nhiều hơn, như việc tạo ra các hoạt cảnh khuôn mặt chất lượng cao cho những chương tình TV, cho những trò chơi, cho phim ảnh, quảng cáo… Những người làm công tác này hầu như sẽ không quan tâm đến phương diện nghiên cứu tạo ra một phương pháp mới, công nghệ mới mà khi làm việc họ cần chủ yếu là những kỹ năng thao tác, những kinh nghiệm làm việc cùng với những phương thức tốt nhất hiện có Các phương thức này liên quan đến sự hỗ trợ về mặt học thuật và công nghệ dựa trên môt phần mềm mô hình hóa, thường
là 3D mà họ có khả năng thao tác và làm việc hiệu quả
Ngoài những nhóm người trên, vẫn còn những người khác có liên quan nhưng sự xuất hiện của họ ít hơn, và nếu có thường mang tính chất kết hợp liên ngành cho những người làm kỹ thuật với chuyên ngành khoa học máy tính, đó
là những người chuyên gia về tâm lý học, giải phẫu học, nhân chủng học… Những người này cung cấp những tri thức chuyên gia trong chuyên ngành hẹp của họ cho những người làm toán và lập trình Đây cũng là cách tiếp cận rất tự nhiên cho việc phân tích và tổng hợp khuôn mặt Tuy nhiên, thông thường những ứng dụng mà yêu cầu có sự tham gia sâu của nhóm chuyên gia này thường rất chuyên biệt và có thể chính là để phục vụ cho chuyên ngành của họ
Biểu diễn biểu cảm khuôn mặt 3D có thể hiểu chi tiết hơn là việc thể hiện khuôn mặt người trong môi trường thực tại ảo với những tư thế, hình dáng, kết
Trang 17cấu hình ảnh hoặc chuyển động dựa trên những biểu cảm của khuôn mặt người thật theo cách phù hợp với yêu cầu của ứng dụng đặt ra, khuôn mặt 3D theo cách hình dung này có thể hiểu là một mô hình 3D có hình dạng và kết cấu dựa trên khuôn mặt người thật Các yêu cầu với việc biểu diễn sẽ rất khác nhau tùy vào từng ứng dụng, có thể chỉ mang tính chất ước lệ, tượng trưng như trong chương trình ca sĩ ảo Hatsune Miku của Crypton Future Media hoặc trong một
số game 3D, nhưng cũng có thể phải chính xác đến từng chi tiết nhỏ như với các ứng dụng trong y học, giải phẫu
Một mô hình 3D có thể hiểu về mặt bản chất là một tập điểm trong không gian 3 chiều cùng với mối quan hệ giữa các điểm đó, do vậy, việc biến đổi mô hình 3D cũng không nằm ngoài việc biến đổi những dữ liệu này Xét trên bài toán biểu diễn biểu cảm khuôn mặt, mô hình mặt gần như không có sự thay đổi
về chất liệu ảnh cũng như sự liên kết đặc trưng giữa các điểm dẫn đến thay đổi hoàn toàn mô hình mà chỉ là những sự dịch chuyển có giới hạn và ràng buộc cục bộ của các điểm trong mô hình Bởi vậy kết quả của việc biểu diễn biểu cảm khuôn mặt có thể hiểu là thao tác thay đổi tọa độ của một tập điểm trong
mô hình mặt 3D với một số giới hạn cùng với ràng buộc đã được xác định trước
Để thực hiện việc này, người ta thường chọn 1 tập điểm điều khiển và trên cơ
sở đó khi cần người ta sẽ thực hiện biến đổi trực tiếp trên tập điểm này Tập điểm được chọn sau khi biến đổi sẽ định hướng điều khiển sự thay đổi cho các điểm khác Thông thường tập điểm điều khiển sẽ được chọn bởi các chuyên gia, những người có chuyên môn trong ứng dụng cần triển khai hoặc công trình cần nghiên cứu, những người này có thể là những chuyên gia tâm lý, bác sĩ pháp y hoặc những người làm về nhân chủng học… nói chung là những người
có kiến thức chuyên biệt theo yêu cầu bài toán Do vậy với những ứng dụng khác nhau, số lượng điểm điều khiển cũng sẽ rất khác, có thể dao động từ vài
Trang 18điểm đến vài trăm điểm Bài toán được quan tâm ở đây chính là việc biểu diễn biểu cảm khuôn mặt 3D từ dữ liệu đầu vào là ảnh số, có thể là ảnh tĩnh hoặc luồng video Trong trường hợp này, để xác định sự biến đổi của tập điểm điều khiển trong mô hình khuôn mặt 3D, một tập điểm 2D trên ảnh được xác định Tập điểm 2D này được hiểu là hình chiếu của tập điểm điều khiển 3D trên ảnh Trên cơ sở dố, tọa độ của tập điểm 3D được ước lượng dựa vào sự phân bố của tập điểm điều khiển 2D này
Xét từ vấn đề tổng quan cho một hệ thống, mô hình hệ thống biểu diễn biểu cảm khuôn mặt trên thực tế để triển khai có rất nhiều biến thể khác nhau tùy vào cách tiếp cận, có người tiếp cận dựa trên việc nhận dạng một tập giới hạn các biểu cảm rồi dựa trên đó mô phỏng tương ứng loại biểu cảm và cường
độ nếu có, có hướng tiếp cận chỉ mang tính chất phát hiện một số đặc điểm khuôn mặt và biến đổi mô hình mặt theo, không cần quan tâm sâu hơn về ý nghĩa của những biểu hiện đó là do xuất phát từ những trạng thái cảm xúc hay những hành động cụ thể gì của khuôn mặt theo cách hiểu thông thường của con người hay của những chuyên gia tâm lý học và giải phẫu học Ngay trong những hướng tiếp cận trên cũng có rất nhiều mô hình hệ thống biểu diễn biểu cảm khuôn mặt được đề xuất Xuất phát điểm cho sự đa dạng về mặt thiết kế những
hệ thống này đến từ sự đa dạng trong những lựa chọn sử dụng cũng như những yêu cầu của hệ thống và chuyên môn sâu của những nhóm nghiên cứu thị giác máy
Nói chung, các mô hình hệ thống biểu diễn biểu cảm khuôn mặt được thiết kế trong những năm gần đây thường có thể hình dung một cách đơn giản như sau:
Trang 19Face detection Shape location
Expression simulation
Expression recognition
Hình 1.4 Mô hình hệ thống biểu diễn biểu cảm khuôn mặt
Từ những khung hình đầu vào, khuôn mặt được định vị một cách tương đối và làm thông tin để tiến hành xác định một tập điểm điều khiển mô tả hình dạng Từ kết quả của việc xác định tập điểm này, các hệ thống được thiết kế chia làm 2 hướng tiếp cận Hướng thứ nhất là các hệ thống sẽ thực hiện nhận dạng ra một vài loại biểu cảm khuôn mặt đã được định nghĩa trước từ đó tiến hành mô phỏng theo Các trạng thái biểu cảm đặc trưng sẽ được nhận dạng theo tiếp cận này thường được lấy theo các trạng thái tâm lý như hạnh phúc, giận
dữ, ghê tởm, ngạc nhiên…, ngoài ra còn có thể chia nhỏ ra thành từng đơn vị
cử động trên khuôn mặt như nhướn mày, trề môi… Hướng thứ hai là trực tiếp tiến hành mô phỏng lại các biểu hiện trên khuôn mặt để biểu diễn biểu cảm dựa trên những vị trí tương đối của những điểm trong tập điểm điều khiển đã tính toán được
1.2 Bài toán trích rút đặc trưng phục vụ biểu diễn biểu cảm khuôn mặt 3D
1.2.1 Giới thiệu bài toán
Trích rút đặc trưng thể hiện cử chỉ, trạng thái biểu cảm khuôn mặt trong ảnh là một kỹ thuật tính toán nhằm ước lượng các thông số cho các mô hình toán học đã được nghiên cứu nhằm mục đích phân tích và tổng hợp biểu hiện khuôn mặt trong ảnh Bài toán trích rút đặc trưng phục vụ biểu diễn biểu cảm khuôn mặt 3D là bài toán trích rút đặc trưng thể hiện cử chỉ, trạng thái biểu cảm
Trang 20khuôn mặt trong ảnh phục vụ cho hệ thống mô phỏng biểu cảm khuôn mặt 3D trong lĩnh vực thực tại ảo [5]
Trích rút đặc trưng phục vụ biểu diễn biểu cảm khuôn mặt 3D là một khâu quan trọng trong hệ thống biểu diễn biểu cảm, đóng vai trò nhận và xử lý
dữ liệu ảnh đầu vào và kết quả đầu ra được sử dụng làm dữ liệu làm đầu vào cho công đoạn mô phỏng biểu cảm khuôn mặt 3D Cụ thể hơn, thao tác này cho
ra kết quả là tọa độ 2D trên ảnh của tập điểm điều khiển đặc trưng của khuôn mặt
Một hướng tiếp cận với hiệu quả khá cao đó là giám sát điểm đánh dấu Theo tiếp cận này, người ta thực hiện đánh dấu bằng cách chấm lên mặt với những màu cụ thể trước khi quay lại bằng camera Hướng này được đưa ra để giải quyết vấn đề đo đạc sự biến dạng tại một số vùng trên mặt, nơi mà nằm trên những mốc của các cơ mặt nhưng có kết cấu hình ảnh thường là vùng da khá đơn điệu Arman Savran và các đồng nghiệp đã sử dụng không gian màu HSI để phân đoạn những vùng màu đánh dấu kết hợp với việc lọc bằng việc tính thành phần liên thông và độ dài bán kính
Hình 1.5 Phát hiện và gán nhãn điểm đánh dấu trong công trình của
Arman Savran và các đồng nghiệp
Trang 21Tiếp cận sử dụng giám sát điểm đánh dấu để ghi nhận lại biểu cảm khuôn mặt được sử dụng nhiều trong công nghệ làm phim
Hình 1.6 Công nghệ giám sát điểm đánh dấu trong phim Avatar
Hướng tiếp cận khác là không dựa trên tập điểm đánh dấu Tiếp cận này hướng đến việc xây dựng những thuật toán cho phép trích rút tự động những điểm đặc trưng hình dạng được định nghĩa trước, cụ thể hơnlà những điểm quan trọng trong mỗi ảnh khuôn mặt mà trong đó mỗi điểm mang một đặc trưng phân biệt nào đó Cootes [8] xây dựng AAM - mô hình thống kê tương ứng với sự hiển thị của đối tượng trong ảnh kết hợp với một thuật toán tối ưu để xác định tham số cho thể hiện tương ứng của mô hình trong ảnh; Iain Matthews and Simon Baker đã cải tiến AAM và cho kết quả thực hiện chính xác hơn và hội
tụ thời gian thực trong những trường hợp sử dụng cụ thể; họ cũng đưa ra cải tiến AAM bằng cách kết hợp thông tin 2D và 3D ;Tian và các cộng sự đã sử dụng các mô hình thành phần khác nhau cho môi, mắt, lông mày và thực hiện giám sát những điểm đặc trưng để thích ứng với các mô hình đường biên tương ứng với sự biến dạng
Trang 221.2.2 Một số vấn đề trong việc triển khai thực tế
1.2.2.1 Vấn đề ràng buộc dữ liệu
Tùy từng yêu cầu của hệ thống khác nhau mà người nghiên cứu sẽ phải đối mặt với những vấn đề dữ liệu và các ràng buộc cụ thể về mặt người trong ảnh Nói một cách khác, việc nghiên cứu các kỹ thuật trích rút đặc trưng phụ thuộc rất nhiều vào khái niệm “ảnh khuôn mặt” mà từng hệ thống sẽ định nghĩa
và giới hạn [5] Nếu xét trường hợp tổng quát không hạn chế, vấn đề dữ liệu có thể xảy ra trong một số trường hợp sau:
Ảnh đen trắng, ảnh màu hay ảnh xám
Độ phân giải của ảnh
Ảnh chụp hình, ảnh in trên áo, ảnh trên trang báo, bìa sách
Ảnh bị xé, ghép, vò nhàu
Ảnh họa sĩ vẽ lại, ảnh truyền thần, ảnh mô tả tội phạm
Ảnh được thu nhận từ máy quét, camera, webcam, điện thoại di động
Ảnh tĩnh hay video, format nào
Tư thế, góc chụp ảnh, độ nghiêng đầu trái phải trên dưới
Sự xuất hiện hay thiếu sót một số thành phần như râu, ria mép
Người trong ảnh đeo kính, khẩu trang
Ảnh có đầy đủ các bộ phận của khuôn mặt như mắt, mũi, miệng
Phạm vi ảnh có chứa các tóc, ngực áo không
Vùng da mặt chứa bao nhiêu phần trăm diện tích ảnh Tâm khuôn mặt (ví dụ chân mũi) có trùng tâm ảnh không
Dựa vào các thông số cụ thể của các tiêu chí như trên ta có thể xây dựng, triển khai các kỹ thuật phù hợp và tối ưu hệ thống, ví dụ:
Trang 23 Với ảnh màu và điều kiện ánh sáng ổn định, ta có thể sử dụng kỹ thuật phát hiện da nhằm tăng tốc độ và độ chính xác cho quá trình định vị khuôn mặt trong ảnh
Với nguồn video, camera, ta có thể sử dụng tiếp cận phát hiện và giám sát đối tượng chuyển động
Từ chi tiết về độ phân giải của ảnh, tỉ lệ khuôn mặt trong ảnh, ta có thể xác định các thông số tối ưu cho cửa sổ trượt khi dò tìm ảnh khuôn mặt
Với yêu cầu ảnh chụp thẳng, ta có thể sử dụng các đặc trưng không bất biến với góc quay, ví dụ như đặc trưng Haar trong kỹ thuật Haar + Adaboost
Với điều kiện phải có xuất hiện đầy đủ bộ phận khuôn mặt, ta có thể xây dựng hướng tiếp cận dựa trên các tiêu chí cơ bản để mô tả các bộ phận khuôn mặt cùng quan hệ giữa chúng, như một khuôn mặt có hai mắt, một mũi, một miệng, hai mắt đối xứng nhau qua trục giữa khuôn mặt, mũi và miệng nằm trên trục giữa khuôn mặt
1.2.2.2 Vấn đề lựa chọn tập điểm điều khiển
Ta xét đến việc chọn tập điểm điều khiển đối với đối tượng ảnh Nói chung, tập điểm điều khiển của một đối tượng được hiểu là tập những điểm có tính phân biệt với những điểm khác đồng thời có tính nhất quán trên những ảnh khác nhau của một đối tượng [6] Ví dụ nếu ta quan tâm đến đối tượng là con mắt trên ảnh khuôn mặt, các điểm phù hợp có thể là những điểm góc mắt – những điểm có thể dễ dàng xác định và đánh dấu trên ảnh Bản thân tính chất này của tập điểm điều khiển đã hạn chế rất nhiều những trường hợp có thể áp dụng, chẳng hạn như đối yêu cầu đối tượng trong ảnh phải có một cấu trúc liên kết và đối tượng không thể thay đổi đến mức không tồn tại một vài điểm mốc nào đó
Trang 24Một số trường hợp bị loại bỏ có thể hình dung như một số đối tượng trong ảnh viễn thám hoặc ảnh vùng sữa hoặc bột bị đổ…Tính chất của tập điểm điều khiển yêu cầu đến những tri thức về bản thân đối tượng trong thực tế, do đó việc lựa chọn thường dựa trên tri thức chuyên gia, có thể là một người nào đó có kiến thức vững chắc về đối tượng thực hiện lựa chọn
Một tập điểm đã được đưa vào chuẩn MPEG-4, là một chuẩn nén đa phương tiện dựa trên đối tượng MPEG-4 đặc tả khuôn mặt với 84 điểm đặc trưng cùng với các tham số hoạt hóa, các tham số hoạt hóa tương ứng với các hành động của khuôn mặt mà kết quả là gây ra sự biến dạng của mô hình mặt
so với trạng thái trung tính Việc đặc tả quá trình biến dạng của mô hình mặt với một vài tham số hoạt hóa cùng với những giá trị thời gian sẽ sinh ra chuỗi hoạt cảnh của khuôn mặt Các điểm đặc trưng tương ứng với các vị trí chính trên một khuôn mặt người như là các cơ, vị trí mắt, miệng,… Tập điểm điều khiển này được chọn để phản ánh hiệu quả cơ chế di chuyển của mặt người Các điểm đặc trưng được sắp xếp theo nhóm như má, mắt, miệng, …
Hình 1.7 Hệ thống điểm của MPEG-4
Một tập điểm điều khiển khác cũng đạt được nhiều thành công đó là bộ
66 điểm đặc trưng khuôn mặt được đưa ra trong bộ công cụ phát triển của công
Trang 25ty Luxand Tập điểm này được đặc tả tương ứng với 66 tọa độ của các thành phần khuôn mặt như mắt, viền mắt, lông mày, viền môi, mũi, má và cằm Bộ công cụ phát triển của Luxand đã được sử dụng trong nhiều ứng dụng như giám sát an ninh, điều khiển vào ra, xây dựng hoạt cảnh…
Hình 1.8 Tập điểm của Luxand
Ngoài ra đối với một hệ thống biểu diễn khuôn mặt 3D trong lĩnh vực thực tại ảo, việc có được mô hình 3D khuôn mặt phù hợp là vấn đề cơ sở được đặt ra Có nhiều cách để xây dựng mô hình 3D khuôn mặt như dựng từ hình chụp cắt lớp, từ máy quét 3D, từ ảnh chụp với các góc độ khác nhau Tham khảo phụ lục A về việc xây dựng mô hình 3D khuôn mặt từ ảnh chụp với các góc độ khác nhau
1.2.3 Một số ứng dụng liên quan
Như đã nói ở trên, trích rút đặc trưng biểu cảm khuôn mặt trong ảnh là một khâu quan trọng trong một hệ thống phân tích ảnh khuôn mặt mà mục tiêu cuối là nhận dạng hoặc mô phỏng biểu hiện khuôn mặt [5] Những hệ thống này sẽ có những yêu cầu và ràng buộc cụ thể rất khác nhau
Trong một hệ thống xác thực và giám sát mặt người từ luồng video trực tuyến thu tại những địa điểm không có yêu cầu cao về tính bảo mật và chuyên biệt như cửa vào một cơ quan, thang máy, hành lang của một tòa nhà… thông thường hệ thống sẽ yêu cầu xác thực và giám sát với cả những cá nhân không
Trang 26có đăng ký trước trong cơ sở dữ liệu, cần thiết phải có những chức năng tự động phát hiện toàn bộ những khuôn mặt trên dòng video trong thời gian thực, đặc biệt là những khuôn mặt có sự chuyển động, đăng ký những thông tin sinh trắc học đầy đủ của mỗi đối tượng, chẳng hạn như có thể với nhiều hướng nhìn khác nhau và góc quay của chúng, đặc biệt các đặc trưng biểu hiện khuôn mặt là một trong những thông tin quan trọng để quyết định chất lượng của hệ thống Mỗi đối tượng cần được theo dõi liên tục và tự động mà không cần có sự đăng ký
cụ thể với cơ sở dữ liệu tại máy chủ, việc đăng ký có thể hiểu đơn giản như việc gán nhãn một đối tượng trên luồng video Hệ thống sẽ cần phải thực hiện những thao tác này một cách liên tục, một yêu cầu được lựa chọn là việc xác định và đăng ký đối tượng nên có sự liên hệ với cả quá trình hoạt động trước
đó cũng như những việc dự báo tương lai, việc ghi nhật ký máy và tiến hành xây dựng các bảng thống kê về các đối tượng và mật độ di chuyển trên từng vùng nói chung và riêng các đối tượng cũng như tương ứng các khoảng thời gian cần quan tâm Nói chung, trong hệ thống này, đòi hỏi các thuật toán trích rút đặc trưng được thực hiện một cách nhanh chóng và có sự kết hợp với thông tin về thời gian, cụ thể là thông tin về trạng thái trước của đối tượng Theo các yêu cầu đó, thông thường các giải thuật được thiết kế sẽ dựa trên một mô hình giám sát đối tượng cùng với việc triển khai các phương pháp phát hiện các chuyển động cục bộ cũng như toàn cục trên khung hình và tìm cách ánh xạ những thông tin này vào một mô hình cử động khuôn mặt và từ đó có thể xác định các tham số biến dạng của khuôn mặt
Với các chương trình biên tập ảnh chân dung, thường hỗ trợ cho những người không cần có quá nhiều kiến thức chuyên sâu về đồ họa và do đó, chương trình xây dựng nhiều tác vụ tự động và những thao tác khá gần với cách hiểu thông thường của con người trong lĩnh vực trang điểm và làm đẹp Chẳng hạn như chỉnh hình toàn bộ hoặc một phần trong khuôn mặt, hiệu chỉnh một số đặc
Trang 27trưng xấu trên da như đốm tàn nhang và mụn nhọn, làm mịn, làm dày, làm bóng
và nhuộm tóc, giảm thiểu và loại bỏ các vùng nếp nhăn, loại bỏ các vùng dầu, vùng mồ hôi và bóng sáng trên da, hiệu chỉnh sự chiếu sáng trên vùng mặt, loại
bỏ hiệu ứng mắt đỏ, đổi màu mắt, làm trắng răng, làm sáng mắt, làm nét lông mày, mi mắt, mũi miệng… Để có thể hoàn thành được các tác vụ đó và đảm bảo sự thay đổi vẫn mang cảm giác tự nhiên cho người xem hình, một yêu cầu gần như bắt buộc là phải xác định được một cách chính xác các điểm đặc trưng cho các thành phần khuôn mặt, chẳng hạn như các điểm góc mắt, các điểm cạnh môi, điểm mũi, đường viền cằm… Do vậy, các giải thuật được thiết kế thường không yêu cầu cao về tốc độ thực hiện, nói chung sẽ không yêu cầu thời gian thực chỉ cần không chậm đến mức gây khó chịu cho người sử dụng; kế đến là yêu cầu độ chính xác thật cao trong việc xác định tập điểm đặc trưng chi tiết trên khuôn mặt và do chương trình cũng không yêu cầu phải tự động hoàn toàn nên một hướng tiếp cận được quan tâm đặt ra là một kịch bản sử dụng bán tự động yêu cầu người dùng chọn một lượng giới hạn các điểm trên khuôn mặt như góc miệng, góc mắt, đỉnh mũi để làm cơ sở cho việc tính toán nốt các điểm đặc trưng chi tiết khác trên khuôn mặt
Chương 2: MỘT SỐ KỸ THUẬT LỰA CHỌN, TRÍCH RÚT, GHI
NHẬN TRẠNG THÁI BIỂU CẢM MẶT NGƯỜI
Trang 282.1 Kỹ thuật SIFT
2.1.1 Giới thiệu về SIFT
Một thuật toán tiêu biểu và có hiệu quả khá cao là dựa theo các đặc trưng cục bộ bất biến trong ảnh: SIFT (Scale-invariant Feature Transform) do David Lowe đưa ra từ năm 1999 và đến nay đã có nhiều cải tiến trong thuật toán Đặc trưng được trích chọn trong SIFT là các điểm đặc biệt (keypoint), các điểm này kèm theo các mô tả về nó và một véc tơ có lấy keypoint làm điểm gốc [10], [11], [13], [15]
Có bốn giai đoạn chính được thực hiện trong thuật toán để trích xuất các điểm đặc biệt và các đặc trưng của nó bao gồm:
Dò tìm cực trị trong không gian đo (Scale-space Extrema Detection):
Bước đầu tiên này sẽ áp dụng hàm sai khác Gaussian (DoG - Deffirence of Gaussisan) để tìm ra các điểm có khả năng làm điểm đặc trưng tiềm năng (candidate keypoints), đó là những đểm rất ít phụ thuộc (bất biến) vào sự thu phóng ảnh và xoay ảnh
Lọc và trích xuất các điểm đặc biệt (Keypoint localization): Từ những
điểm tiềm năng ở trên sẽ lọc và lấy ra tập các điểm đặc trưng tốt nhất (keypoints)
Gán hướng cho các điểm đặc trưng (Oriented Assignment): Mỗi điểm
đặc trưng sẽ được gán cho một hoặc nhiều hướng dựa trên hướng gradient của ảnh Mọi phép toán xử lý ở các bước sau này sẽ được thực hiện trên những dữ liệu ảnh mà đã được biến đổi tương đối so với hướng đã gán, kích cỡ và vị trí của mỗi điểm đặc trưng Nhờ đó, tạo ra một sự bất biến trong các phép xử lý này
Bộ mô tả điểm đặc trưng (Keypoint Description): Các hướng gradient
cục bộ được đo trong ảnh có kích cỡ cụ thể nào đó trong vùng lân cận với mỗi
Trang 29điểm đặc trưng Sau đó, chúng sẽ được biễu diễn thành một dạng mà cho phép
mô tả các tầng quan trọng của quá trình bóp méo hình dạng cục bộ và sự thay đổi về độ sáng
Tập các điểm đặc biệt thu được thường phụ thuộc rất ít vào các phép biến đổi cơ bản như xoay, phóng to, thu nhỏ, tăng giảm cường độ sáng … vì vậy có thể xem đây là các đặc trưng mang tính cục bộ của ảnh Để đối sánh và nhận dạng hai ảnh thì ta tìm tập keypoint giống nhau trong hai ảnh, dựa vào hướng
và tỉ lệ để có thể biết đối tượng trong ảnh gốc đã xoay, thu phóng bao nhiêu so với ảnh đem đối sánh Cách tiếp cận của thuật toán này dựa vào điểm bất biến cục bộ của ảnh, chúng được trích xuất ra, được định hướng và mô tả sao cho hai keypoint ở hai vùng khác nhau thì khác nhau Tuy nhiên một yếu tố ảnh hưởng không nhỏ đến tốc độ thuật toán là số lượng các keypoint được lấy ra là không nhỏ Trung bình một ảnh kích thước 500 x 500 pixels thì sẽ trích xuất được khoảng 2000 điểm (số lượng điểm này phụ thuộc vào tùy từng ảnh và tham số lọc khác nhau) Số lượng các điểm đặc trưng có một tầm quan trọng trong vấn đề nhận dạng đối tượng, để nhận dạng một đối tượng nhỏ trong một ảnh chứa tập hợp các đối tượng hỗn độn thì cần ít nhất 3 điểm đặc trưng giống nhau để phát hiện và và bóc tách đối tượng
Đối với vấn đề xây dựng một cơ sở dữ liệu ảnh và thực hiện nhận dạng đối tượng bất kì thì ban đầu thường sử dụng SIFT để tạo một hệ dữ liệu các đặc trưng (keypoints) được trích xuất từ dữ liệu ảnh gốc Sau đó với mỗi ảnh đối tượng đem nhận dạng ta dùng giải thuật SIFT trích xuất tập đặc trưng từ ảnh và đem đối sánh với hệ dữ liệu đặc trưng để tìm ra tập keypoint giống nhau, từ đó nhận dạng đối tượng trong cơ sở dữ liệu ảnh ban đầu Tuy nhiên việc đối sánh này cần chi phí đối sánh rất lớn đối với cơ sở dữ liệu ảnh có số lượng lớn do số lượng các đặc trưng ở mỗi ảnh là lớn
Trang 30Hình 2.1 Minh họa các bước chính trong giải thuật SIFT
2.1.2 Nội dung giải thuật
2.1.2.1 Dò tìm cực trị cục bộ
Như đã nêu ở trên, bước đầu tiên sẽ tìm các điểm tiềm năng có thể trở thành điểm đặc trưng bằng phương pháp lọc theo tầng dựa vào việc thay đổi tham số bộ lọc Gaussisan Trong bước này, ta cần dò tìm các vị trí và các số đo (kích cỡ) mà chúng bất biến trong các khung nhìn khác nhau của cùng một đối tượng Các vị trí đó bất biến về số đo có thể được dò tìm bằng cách tìm kiềm các đặc trưng ổn định trên toàn bộ các số đo có thể, sử dụng một hàm liên tục
về số đo vốn rất nổi tiếng có tên là hàm không gian đo (Witkin 1983)
Theo các công bố của Koenderink (1984) và Lindeberg(1994) thì hàm Gaussian là hàm tốt nhất để biễu diễn không gian đo của ảnh 2 chiều Vì vậy,
Trang 31không gian đo của một ảnh sẽ được định nghĩa như là một hàm L ( , , ) x y được tạo ra bằng cách nhân chập ảnh gốc I x y( , )với môt hàm Gaussian
đo cạnh nhau của một ảnh với tham số đo lệch nhau một hằng số k
D x y G x y k G x y I x y L x y k L x y (2.3)
Các lý do lựa chọn hàm Gaussian là vì nó là kỹ thuật rất hiệu quả để tính toán L (cũng như làm tăng độ mịn của ảnh), mà L thì luôn phải được tính rất nhiều để mô tả đặc trưng trong không gian đo, và sau đó, D sẽ được tính một cách đơn giản chỉ với phép trừ ma trận điểm ảnh với chi phí thực hiện thấp
Trang 32Hình 2.2 Quá trình tính không gian đo (L) và hàm sai khác D
Hơn nữa, hàm sai khác DoG có thể được sử dụng để tạo ra một sự xấp xỉ gần với đạo hàm bậc hai Laplace có kích thước chuẩn của hàm Gaussian
( G)do tác giả Lindeberg đề xuất năm 1994 Ông đã chỉ ra rằng việc chuẩn hóa đạo hàm bậc hai với hệ số 2là cần thiết cho bất biến đo trở nên đúng Cụ thể, ông đã công bố rằng các giá trị cực đại và cực tiểu của 2 2
( G)chính là những giá trị có tính ổn định nhất (bất biến cao) so với một loạt các hàm đánh giá khác như : gradient, Hessian hay Harris
Mối quan hệ giữa D và 2 2
( G)được biễu diễn như sau:
Trang 33Như vậy, 2Gcó thể được tính thông qua việc xấp xỉ sự sai khác hữu hạn G
là hằng số trong mọi không gian đo nên nó sẽ không ảnh hưởng đến việc tìm các vị trí cực trị Sai số trong việc xấp xỉ đạo hàm bậc 2 tiến về 0 khi k gần với
1 Tuy nhiên, các kết quả thử nghiệm của tác giả cho thấy quá trình xấp xỉ đạo hàm không ảnh hưởng đến việc dò tìm các vị trí cực trị thậm chí ngay cả khi chọn k khá xa, ví dụ k 2
Sau khi áp dụng hàm DoG ta thu được các lớp kết quả khác nhau (scale) từ ảnh gốc, bước tiếp theo là tìm các cực trị trong các lớp kết quả theo từng miền cục bộ Cụ thể là tại mỗi điểm trên các lớp kết quả sẽ được
so sánh với 8 điểm lân cận trên cùng lớp và 9 điểm lân cận trên mỗi lớp khác (hình dưới)
Trang 34Hình 2.3 Quá trình tìm điểm cực trị trong các hàm sai khác DoG
Trong hình trên: điểm đánh dẫu x sẽ được so sánh với 26 điểm lân cận
(đánh dấu vòng tròn xanh) Điểm này sẽ được lấy làm điểm tiềm năng (điểm
có thể làm điểm đặc biệt – candidate keypoint) nếu nó có giá trị lớn nhất hoặc nhỏ nhất so với 26 điểm lân cận như trên Giải pháp cho việc tìm các điểm tiềm năng này là sử dụng thuật toán blob detection (dò tìm điểm) do Lindeberg đề xuất
Vì số lượng các cực trị là rất lớn, vì vậy để tăng sự hiệu quả khi dò tìm các điểm cực trị (dò các điểm cực trị tốt nhất thay vì phải dò hết), ta cần xác định tần số lấy mẫu trong không gian đo và tần số lấy mẫu trong không gian quan sát (không gian ảnh) Thật không may là ta không thể xác định cả 2 loại tần số này một cách động trong mỗi tiến trình dò tìm Thay vì vậy, các tần số này sẽ được xác định offline thông qua phương pháp thử nghiệm Sau khi thử nghiệm với nhiều nguồn dữ liệu ảnh khác nhau, tác giả đã chỉ ra tần số lấy mẫu trong không gian đo tốt nhất là 3 (giữ lại 3 lớp trong mỗi bộ 8 lớp), và tần số lấy mẫu 16
2.1.2.2 Trích xuất keypoint
Sau bước 1 sẽ thu được rất nhiều điểm tiềm năng có thể làm điểm đặc biệt, tuy nhiên một số trong chúng là không cần thiết ở bước tiếp theo này sẽ