1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặt (LV thạc sĩ)

56 485 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 56
Dung lượng 2,18 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặtNghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặtNghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặtNghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặtNghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặtNghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặtNghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặtNghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặtNghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặtNghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặt

Trang 1

DƯƠNG VĂN CƯỜNG

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TRƯNG CHO ẢNH VÀ ỨNG DỤNG TRONG BÀI TOÁN PHÂN LOẠI

TRẠNG THÁI CẢM XÚC KHUÔN MẶT

Chuyên ngành: Khoa học máy tính

Mã số: 84 8 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS VŨ VIỆT VŨ

THÁI NGUYÊN, 2018

Trang 2

MỤC LỤC

MỤC LỤC i

DANH MỤC CÁC CHỮ VIẾT TẮT iii

DANH MỤC CÁC HÌNH VẼ iv

Mở đầu 1

Chương 1 Tổng quan về khai phá dữ liệu ứng dụng 3

1.1 Khái niệm về lĩnh vực khai phá dữ liệu và phát hiện tri thức 3

1.1.1 Khái niệm 3

1.1.2 Các mô hình học máy cơ bản 5

1.1.3 Ứng dụng của học máy 8

1.2 Tổng quan về bài toán trích chọn đặc trưng, trích chọn đặc trưng cho dữ liệu hình ảnh 9

1.3 Bài toán phân loại cảm xúc khuôn mặt 11

1.4 Những vấn đề nghiên cứu của luận văn 12

Chương 2 Nghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh 14

2.1 Tổng quan về trích chọn đặc trưng 14

2.2 Phương pháp trích chọn đặc trưng Gabor 15

2.3 Phương pháp trích chọn đặc trưng HoG 18

2.3.1 Giới thiệu 18

2.3.2 Các bước trích trọn đặc trưng HoG trên ảnh 19

2.4 Phương pháp trích chọn đặc trưng LBP 25

2.5 Một số phương pháp học máy ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặt 31

2.5.1 Phương pháp học không giám sát 31

2.5.2 Phương pháp phân cụm bán giám sát 33

2.5.3 Phương pháp học có giám sát 35

Trang 3

2.6 Kết luận 37

Chương 3 Kết quả thực nghiệm 38

3.1 Giới thiệu 38

3.2 Kết quả thực nghiệm 40

3.2.1 Thực hiện phương pháp Gabor 41

3.2.2 Kết quả thực nghiệm với thuật toán học bán giám sát MCSSDBS, SSDBSCAN 41

3.2.3 Kết quả thực nghiệm với thuật toán K-Means và Seed K-Means 43

3.3 Kết luận 45

KẾT LUẬN 46

Những kết quả đã đạt được 46

Hướng phát triển tiếp theo của đề tài 46

TÀI LIỆU THAM KHẢO 48

Trang 4

DANH MỤC CÁC CHỮ VIẾT TẮT

DBSCAN Phương pháp phân cụm dựa trên mật độ (Density Based Spatial

Clustering of Application with Noise) HoG Biểu đồ các đường dốc (Histogram of Gradients)

LBP Mẫu nhị phân địa phương (Local Binary Pattern)

LDA Phân tích phân biệt tuyến tính (Linear Discriminant Analysis) PCA Phân tích thành phần chính (Principal Component Analysis) SSDBSCAN Thuật toán phân cụm bán giám sát dựa trên mật độ (Semi

supervised Density Based Spatial Clustering of Application with Noise)

SSGC Thuật toán phân cụm bán giám sát dựa trên đồ thị (Semi -

supervised Graph Clustering) SVM Máy hỗ trợ véc tơ (Support Vector Machine)

Trang 5

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Các bước của quá trình khai phá dữ liệu 3

Hình 1.2 Mô hình học có giám sát 6

Hình 1.3 Mô hình học không giám sát 6

HÌnh 1.4 Mô hình học bán giám sát 7

Hình 1.5 Ví dụ về khả năng của Deep learning 8

Hình 1.6 (a) Ví dụ về trích chọn đặc trưng từ ảnh 9

Hình 1.6 (b) Ví dụ về trích chọn đặc trưng từ ảnh 10

Hình 1.7 Ví dụ về tập dữ liệu mô tả trạng thái cảm xúc khuôn mặt 11

Hình 1.8 Ví dụ về thu thập ảnh trạng thái khuôn mặt từ Video 12

Hình 2.1 Bộ lọc Gabor với 5 loại tần số và 8 hướng khác nhau 16

Hình 2.2 Ảnh sau khi sử dụng bộ lọc Gabor tương ứng với hình 2.1 17

Hình 2.3: R-HOG và C-HOG 19

Hình 2.4: Chia khối trích đặc trưng HOG 20

Hình 2.5: Ví dụ về trích chọn đặc trưng bởi HoG 23

Hình 2.6 Tiền xử lý ảnh 23

Hình 2.7 Gradient theo hướng x (trái), hướng y (giữa) và tổng hợp gradient (phải ) 24

Hình 2.8 Chia ảnh thành các ô để tính các biểu đồ 24

Hình 2.9 Tính lược đồ mức xám 25

Hình 2.10 Ví dụ về phương pháp LBP 26

Hình 2.11 Ví dụ về ảnh khuôn mặt (trái) và các đặc trưng LBP (phải) 26

Hình 2.12 Tập hợp các điểm xung quanh P tt 27

Hình 2.13 Các biến thể của LBP, LBP đồng dạng 28

Hình 2.14 Bảng thống kê các mẫu của LBP đồng dạng 29

Hình 2.15 Ví dụ về quá trình tính toán đặc trưng 30

Hình 2.16 Phương pháp LBP không phụ thuộc vào độ sáng ảnh chụp cho cùng một đối tượng giống nhau 31

Trang 6

Hình 2.17 Ví dụ về dữ liệu của bài toán phân cụm: hình bên trái bao gồm 3 cụm rời nhau tuyến tính trong khi hình bên phải có các cụm hình dạng

bất kỳ và không tuyến tính 32

Hình 2.18 Kết quả phân cụm bằng thuật toán DBSCAN và Graph clustering (trái) và bằng K-Means, Fuzzy C-Means (phải) 33

Hình 2.19 Dữ liệu đầu vào cho 3 loại thuật toán học (a) học có giám sát, (b,c) học bán giám sát, và (d) học không giám sát 33

Hình 2.20 Mô hình học có giám sát 35

Hình 3.1 Ví dụ về ảnh trong tập CK+ 39

Hình 3.2 Ví dụ về ảnh trong tập dữ liệu ITI 40

Hình 3.3 Kết quả thực nghiệm cho tập dữ liệu CK+ 42

Hình 3.4 Kết quả thực nghiệm cho tập dữ liệu ITI 43

Hình 3.5 Kết quả phân loại trạng thái cảm xúc khuôn mặt bằng phương pháp Seed K-Means 44

Hình 3.6 Kết quả phân cụm cho tập ITI 44

Trang 7

Mở đầu

Trong tất cả các nền văn minh từ trước đến nay, giao tiếp là một hoạt động không thể thiếu, nó xuất hiện mọi nơi mọi lúc, trong mọi lĩnh vực và ảnh hưởng trực tiếp tới cuộc sống của từng cá thể Giao tiếp là một nhu cầu xã hội cơ bản, nó xuất hiện sớm nhất trong đời sống của mỗi người và là yếu tố ảnh hưởng trực tiếp tới quá trình hình thành lên tâm sinh lý của con người Hơn thế nữa, giao tiếp giúp con người có thể truyền tải thông tin, học hỏi tri thức và thể hiện cảm xúc Nhờ có giao tiếp làm cho con người văn hóa, xã hội văn minh và đất nước phát triển Nhận thấy tầm quan trọng của hoạt động giao tiếp nên con người đã bỏ rất nhiều thời gian và công sức vào nghiên cứu yếu tố quyết định thành công của việc giao tiếp, không chỉ trong lĩnh vực giao tiếp giữa con người với con người, mà ngày nay con người đã bắt đầu nghiên cứu về các hệ thống tương tác người – máy Mặt khác, trong giao tiếp thì khuôn mặt là nơi con người thể hiện suy nghĩ, tình cảm, thái độ nên để con người và máy tính có thể tương tác với nhau tự nhiên hơn thì các hệ thống được xây dựng dựa trên nền tảng là những thay đổi của khuôn mặt Cần phải

có một công cụ có thể thực hiện được công việc này Đó là lí do tôi chọn đề

tài: "Nghiên cứu một số phương pháp trích chọn đặc trưng cho ảnh và ứng dụng trong bài toán phân loại trạng thái cảm xúc khuôn mặt" Dựa vào

các phương pháp trích chọn đặc trưng, tác giả muốn xây dựng một ứng dụng

có khả năng phân loại cảm xúc khuôn mặt người Từ những bức ảnh mặt người thu nhận được từ camera quan sát, chương trình có thể phân biệt được các trạng thái cảm xúc khuôn mặt như: hạnh phúc (happy), ngạc nhiên (surprise), ghê tởm (disgust), buồn (sad), sợ hãi (fear), giận dữ (angry), và bình thường (neutral)

Để thực hiện được bài toán phân loại cảm xúc khuôn mặt, chúng ta phải

sử dụng đến các hệ thống học máy Một hệ thống học máy thường có các bước gồm thu thập dữ liệu, trích chọn đặc trưng từ dữ liệu, giảm số chiều dữ liệu, xây dựng mô hình phân lớp/phân cụm và thực hiện để thu được kết quả

Trang 8

và cuối cùng là biểu diễn và mô tả kết quả Trong luận văn của mình tôi tập trung vào nghiên cứu vấn đề trích chọn đặc trưng từ ảnh từ đó áp dụng các thuật toán học máy nhằm giải quyết bài toán đề xuất Ứng dụng của lớp bài toán phân loại, nhận dạng trạng thái cảm xúc khuôn mặt có thể kể đến như: tương tác người-máy, phân tích cảm xúc, phát hiện trạng thái mệt mỏi của con người, video tương tác, đánh chỉ mục của ảnh và video,…

Nội dung luận văn:

Nội dung cơ bản chương 1:

o Tổng quan bài toán trích chọn đặc trưng

o Giới thiệu bài toán phân loại cảm xúc khuôn mặt

Nội dung cơ bản chương 2:

o Phương pháp trích chọn đặc trưng Gabor

o Phương pháp trích chọn đặc trưng HoG

o Phương pháp trích chọn đặc trưng LBP

Nội dung cơ bản chương 3:

o Thực nghiệm kết quả với phương pháp phân cụm K-Means, SSDBSCAN, MCSSDBS

Kết luận

Trang 9

Chương 1 Tổng quan về khai phá dữ liệu và ứng dụng

1.1 Khái niệm về lĩnh vực khai phá dữ liệu và phát hiện tri thức

1.1.1 Khái niệm

Lĩnh vực khai phá dữ liệu và phát hiện tri thức từ dữ liệu (KDD) nhằm mục đích tạo ra các mẫu, các luật, các tri thức quý từ một số lượng

dữ liệu lớn thu nhận được [12],[13] Các ứng dụng của lĩnh vực này có thể

kể như nhận dạng hình ảnh, âm thanh, chẩn đoán trong y học, sử dụng trong các công cụ tìm kiếm như Google,… Quy trình phát hiện tri thức thường tuân theo các bước trong hình 1.1:

Hình 1.1: Các bước của quá trình khai phá dữ liệu

- Bước thứ nhất: Hình thành, xác định và định nghĩa bài toán Tìm hiểu lĩnh vực ứng dụng từ đó hình thành bài toán, xác định các nhiệm vụ cần phải hoàn thành, thu thập dữ liệu Bước này sẽ quyết định cho việc rút ra được các

Dữ liệu mục tiêu

Dữ liệu đã tiền xử lý

Lựa chọn

Tiền xử lý

và làm sạch

Lựa chọn và trích xuất đặc trưng

Khai phá dữ liệu

Tri thức

Trang 10

tri thức hữu ích và cho phép chọn các phương pháp khai phá dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu

- Bước thứ hai: Xử lý thô, còn được gọi là tiền xử lý dữ liệu nhằm loại

bỏ nhiễu (làm sạch dữ liệu), xử lý việc thiếu dữ liệu (làm giàu dữ liệu), biến đổi dữ liệu, trích rút đặc trưng và rút gọn dữ liệu nếu cần thiết, bước này thường chiếm nhiều thời gian nhất trong toàn bộ qui trình phát hiện tri thức

Do dữ liệu được lấy từ nhiều nguồn khác nhau, không đồng nhất, có thể gây

ra các nhầm lẫn Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn và rời rạc hoá

- Bước thứ ba: Lựa chọn đặc trưng, trích chọn đặc trưng và biến đổi đặc trưng của dữ liệu Đây là một bước rất quan trọng Nhiệm vụ của bước này không những làm giảm kích thước của dữ liệu mà còn chọn ra những đặc điểm đặc trưng nhất nhằm tăng chất lượng của các bước sau Tùy từng nhiệm

vụ và lĩnh vực bài toán, chúng ta sẽ có các phương pháp trích rút đặc trưng cho dữ liệu khác nhau

- Bước thứ tư: Khai phá dữ liệu, rút ra các tri thức, trích ra các mẫu hoặc/và các mô hình ẩn dưới các dữ liệu [13] Giai đoạn này rất quan trọng, bao gồm các công đoạn như: chức năng, nhiệm vụ và mục đích của khai phá

dữ liệu là gì, dùng phương pháp khai phá nào? Thông thường, các bài toán khai phá dữ liệu bao gồm: các bài toán mang tính mô tả - đưa ra tính chất chung nhất của dữ liệu, các bài toán dự báo - bao gồm cả việc phát hiện các suy diễn dựa trên dữ liệu hiện có, các bài toán phân lớp, phân cụm, phát hiện cấu trúc dữ liệu,… Tùy theo bài toán xác định được mà ta lựa chọn các phương pháp khai phá dữ liệu cho phù hợp

- Bước thứ năm: Là hiểu và giải thích các tri thức/các mẫu/các luật đã tìm được, đặc biệt là làm sáng tỏ các mô tả và dự đoán Các công cụ có dùng

Trang 11

như mô phỏng, thống kê, vẽ các biểu đồ, sơ đồ,… để làm rõ hơn nữa kết quả của khai phá dữ liệu

Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện Các kết quả của quá trình phát hiện tri thức có thể được đưa và ứng dụng trong các lĩnh vực khác nhau

Do các kết quả có thể là các dự đoán hoặc các mô tả nên chúng có thể được đưa vào các hệ thống hỗ trợ ra quyết định nhằm tự động hoá quá trình này

Nghiên cứu về lĩnh vực khai phá dữ liệu liên quan đến nhiều lĩnh vực như toán học, thống kê, tối ưu hóa, tính toán tiến hóa, khoa học máy tính, cơ

sở dữ liệu, dữ liệu lớn,…

Một vấn đề quan trọng nữa là các nghiên cứu cho các ứng dụng chuyên ngành, trường hợp này chúng ta phải làm việc với các chuyên gia lĩnh vực, chẳng hạn lĩnh vực khai phá dữ liệu y sinh, khai phá dữ liệu gene,…

1.1.2 Các mô hình học máy cơ bản

Trên thực tế có một số mô hình học sau đây [15]:

- Học có giám sát

- Học không giám sát

- Học bán giám sát

- Học tăng cường

- Học sâu (deep learning)

Phần sau đây sẽ trình bày một số phương pháp học cơ bản thuộc các loại trên

- Học có giám sát là phương pháp học máy thông qua sử dụng tập mẫu Tập mẫu được cung cấp, hệ thống sẽ xây dựng mô hình học trên bộ dữ liệu này và có thể phân lớp/dự đoán,… cho các dữ liệu mới Các phương pháp

Trang 12

học có giám sát có thể kể đến như mạng nơ ron, phân lớp Bayes, cây quyết định, SVM (Support Vector Machine),… (xem hình 1.2)

Hình 1.2 Mô hình học có giám sát

- Học không giám sát là phương pháp phát hiện cấu trúc, xác định mối liên kết, phát hiện dị thường, của một tập dữ liệu cho trước [14] Loại học này không có tập dữ liệu mẫu Một số phương pháp trong loại học này như phân cụm K-Means, Fuzzy C-Means, phát hiện dị thường ,… (xem hình 1.3)

Hình 1.3 Mô hình học không giám sát

Trang 13

- Học bán giám sát nằm giữa học có giám sát và học không giám sát,

loại học này sẽ sử dụng một lượng ít dữ liệu mẫu, dữ liệu hướng dẫn để thực hiện mô hình (xem hình 1.4) Trên thực tế các thông tin có được từ ban đầu gồm hai dạng cơ bản: (1) một lượng nhỏ dữ liệu được gán nhãn (seed) hoặc

(2) một số lượng nhỏ các thông tin về các cặp dữ liệu must-link (phải liên kết), cannot-link (không thể liên kết) thể hiện mối quan hệ giữa các cặp dữ liệu trong tập dữ liệu cho trước: must-link (u,v) thể hiện u và v sẽ thuộc

cùng một cụm trong khi cannot-link (u,v) cho biết u và v sẽ thuộc về hai cụm khác nhau

Hình 1.4 Dữ liệu cho việc học bán giám sát

- Học tăng cường là phương pháp học được bổ sung liên tục kỹ năng trong quá trình giải quyết bài toán Ví dụ như hai người chơi cờ A và B, người

A có thể vừa thi đấu với người B nhưng lại có thể vừa học từ người B và ngược lại

- Học sâu (deep learning), là loại học được quan tâm nhiều đặc biệt là

từ năm 2006 trở lại đây [16] Bản chất của loại học này là dựa trên mạng nơ ron nhiều lớp Các ứng dụng hiệu quả cho loại học này là nhận dạng đối tượng, nhận dạng âm thanh, và ứng dụng trong xử lý ngôn ngữ tự nhiên Hình 1.5 minh họa ví dụ về việc xác định đối tượng trong bức ảnh Phương pháp

Trang 14

học này còn có khả năng chỉ rõ xem người trong ảnh là ai, đang làm gì,… Đối với phương pháp học sâu chúng ta phải có đủ dữ liệu cần thiết (thường là lớn) cũng như các hệ thống máy tính đủ lớn để thực hiện

Hình 1.5 Ví dụ về khả năng của deep learning 1.1.3 Ứng dụng của học máy

Ứng dụng của học máy ngày càng đa dạng và quan trọng, sau đây là một số ví dụ:

- Xe tự lái: các hệ thống này là những ứng dụng rất nổi trội, hiện nay

đã có một số nơi triển khai thử nghiệm Hệ thống học của xe sẽ học khả năng điều khiển xe qua các thực nghiệm mẫu của người lái xe trên đường

- Xe tự dò tìm đường đi trong rừng: các hệ thống này sẽ được học qua camera khi con người thực hiện đi mẫu trong rừng

- Trợ lý ảo: Đã ứng dụng thực tế, đây là những hệ thống lưu trữ, suy diễn

dữ liệu rất lớn và thông minh

- Nhận dạng đối tượng trong ảnh và video

- Chẩn đoán bệnh thông qua dữ liệu lâm sàng

- Ứng dụng trong nhà thông minh, thành phố thông minh: các ứng dụng

cụ thể như bật tắt đèn tự động, bãi đỗ xe thông minh, tìm kiếm phương tiện thông minh

- IoT: các bài toán thu thập dữ liệu từ nhiều nguồn khác nhau như sensor, điện thoại, máy tính, camera để xử lý dữ liệu tổng hợp

Trang 15

- Robot, người máy

- Xử lý ngôn ngữ tự nhiên,…

- Hệ hỗ trợ quyết định

- Phân lớp, phân cụm, phát hiện cấu trúc của dữ liệu

- Phát hiện dị thường

- Mua sắm thông minh,…

1.2 Tổng quan về bài toán trích chọn đặc trưng, trích chọn đặc trưng cho dữ liệu hình ảnh

Bài toán trích trọn đặc trưng trên ảnh khuôn mặt người đã được quan tâm từ khá lâu do có rất nhiều ứng dụng như: Sử dụng trong hệ thống nhận dạng cảm xúc, hệ thống tương tác giữa người và máy (điều khiển máy tính qua các cử động của khuôn mặt), hệ thống nhận dạng người (giúp cho các cơ quan an ninh quản lý con người), hệ thống quan sát theo dõi như hệ thống quản lý việc ra vào cho các cơ quan và công ty, hệ thống kiểm tra người lái xe

có ngủ gật hay không, hệ thống phân tích cảm xúc trên khuôn mặt, hệ thống nhận dạng khuôn mặt cho các máy ảnh kỹ thuật số,

Trích chọn đặc trưng là trích ra những đặc trưng quan trọng cơ bản nhất của mỗi đối tượng [5] Yêu cầu của trích chọn đặc trưng là phải đủ các thuộc tính tuy nhiên với số lượng nhỏ nhất có thể và vẫn đảm bảo được việc phân biệt đối tượng này với đối tượng kia (xem hình 1.6)

(a)

Đặc trưng

Từ điển hình

Các từ hình ảnh

Trang 16

(b)

Hình 1.6 Ví dụ về trích chọn đặc trưng từ ảnh: (a) ảnh sẽ được trích từng vùng và cho vào túi đựng các đối tượng đặc trưng, (b), các đặc trưng được trích chọn sử dụng các biến đổi toán học để tìm ra các điểm (vùng điểm)

quan trọng

Đối với bài toán trích chọn đặc trưng cho ảnh, cụ thể là ảnh mặt người, trước hết chúng ta phải hiểu ảnh là gì Ảnh bản chất là một ma trận các số, mỗi số tương ứng với thông tin trên các điểm ảnh Đối với ảnh, việc trích chọn đặc trưng là bài toán phức tạp vì mỗi ảnh chụp tại mỗi thời điểm của cùng một đối tượng sẽ khác nhau (độ sáng, độ lệch, độ phân giải,…)

Vấn đề nghiên cứu trích chọn đặc trưng ảnh đã có từ lâu, tuy nhiên hiện nay vẫn thu hút nhiều nhà nghiên cứu Trong thời đại mà mỗi ngày có hàng tỷ ảnh được đưa lên mạng, bài toán liên quan đến lĩnh vực xử lý ảnh là một trong những bài toán thú vị

Ứng dụng của bài toán trích chọn đặc trưng nằm trong pha thứ ba của

cả quá trình giải bài toán phát hiện tri thức và khai phá dữ liệu Đây là khâu quan trọng ảnh hướng đến toàn bộ các pha sau Như đã trình bày, yêu cầu của pha trích chọn đặc trưng là các thuộc tính được trích chọn phải đầy đủ và

Trang 17

tối ưu Trong thực tế có rất nhiều phương pháp trích chọn đặc trưng đã được nghiên cứu và trình bày Mỗi phương pháp có ưu và nhược điểm riêng, phù hợp với từng loại dữ liệu và ứng dụng

1.3 Bài toán phân loại cảm xúc khuôn mặt

Trong những năm gần đây bài toán phân loại, nhận dạng trạng thái cảm xúc khuôn mặt được tập trung nghiên cứu nhiều vì có nhiều ứng dụng trong thực tế: tương tác người - máy, phân tích cảm xúc, phát hiện trạng thái mệt mỏi của con người, video tương tác, đánh chỉ mục của ảnh và video,…

Trên thực tế có 7 loại trạng thái cảm xúc khuôn mặt như sau: Hạnh phúc (happy), ngạc nhiên (surprise), ghê tởm (disgust), buồn (sad), sợ hãi (fear), giận dữ (angry), bình thường (neutral) Các ảnh khuôn mặt có thể thu thập từ các ảnh hoặc từ các video (phim) sau đó chuẩn hóa để thu được tập dữ liệu cần đánh giá, phân loại Hình 1.7 minh họa tập dữ liệu mẫu thường dùng trong bài toán phân loại cảm xúc khuôn mặt

Hình 1.7 Ví dụ về tập dữ liệu mô tả trạng thái cảm xúc khuôn mặt

Trang 18

Hình 1.8 Ví dụ về hệ thống thu thập hình ảnh trạng thái khuôn mặt từ Video

Hình 1.8 minh họa việc trích chọn ảnh khuôn mặt từ Video Các ảnh phát hiện được từ video sẽ lưu vào tập cơ sở dữ liệu, sau đó áp dụng các phương pháp tiền xử lý như loại bỏ ảnh nhiễu, chỉnh lại kích thước trước khi được đưa vào thử nghiệm cũng như loại bỏ các ảnh dư thừa hoặc ảnh lỗi do

hệ thống phát hiện khuôn mặt gây ra

1.4 Những vấn đề nghiên cứu của luận văn

Trong khuôn khổ luận văn Thạc sỹ của mình tôi lựa chọn nghiên cứu vấn đề trích chọn đặc trưng cho dữ liệu hình ảnh áp dụng vào bài toán phân loại trạng thái cảm xúc khuôn mặt với những nội dung cơ bản sau đây:

- Nghiên cứu tổng quan về bài toán trích chọn đặc trưng và vai trò của

nó trong hệ thống khai phá dữ liệu và phát hiện tri thức Các tìm hiểu về tổng quan ứng dụng của lĩnh vực này cũng sẽ được trình bày trong luận văn

- Nghiên cứu một số phương pháp trích chọn đặc trưng trong ảnh và ứng dụng, cụ thể trong luận văn này tôi nghiên cứu tìm hiểu ba phương pháp gồm Gabor, HoG, và LBP Đây cũng là nội dung nghiên cứu chính của luận văn nhằm hiểu được các bước thực hiện trong quá trình trích chọn đặc trưng của mỗi phương pháp

- Ứng dụng các phương pháp trích chọn đặc trưng vào bài toán phân loại trạng thái cảm xúc khuôn mặt Để giải quyết vấn đề này, sau khi

Trang 19

có dữ liệu từ pha trích chọn đặc trưng, chúng ta sẽ sử dụng phương pháp học máy để tiến hành phân lớp hoặc phân cụm dữ liệu Trong phần thực nghiệm tôi trình bày phương pháp phân cụm dữ liệu cho bài toán phân loại cảm xúc khuôn mặt

Trang 20

Chương 2 Nghiên cứu một số phương pháp trích chọn

đặc trưng cho ảnh

2.1 Tổng quan về trích chọn đặc trưng

Mỗi đối tượng nói chung đều có những đặc trưng riêng, đặc trưng chính

là yếu tố giúp phân biệt đối tượng này với đối tượng khác Ví dụ đặc trưng của xe ô tô là có 4 bánh, có vô lăng,… còn đặc trưng của xe máy là có hai bánh; đặc trưng của mỗi con người thể hiện là chiều cao, cân nặng, màu tóc, màu da,… Tóm lại đặc trưng là các yếu tố xác định nên đối tượng Một đối tượng chỉ được xác định khi có đủ số đặc trưng xác định nên nó

Trong lĩnh vực nhận dạng mặt người nói chung bài toán trích chọn đặc trưng là khâu vô cùng quan trọng, nó sẽ quyết định đến các pha tiếp theo như phân lớp đối tượng, phân cụm đối tượng Về mặt bản chất ảnh được biểu diễn qua một ma trận kích thước m  n trong đó m là số hàng và n là số cột của ảnh Cách đơn giản nhất khi xây dựng véc tơ đặc trưng cho ảnh là đem m  n điểm ảnh xếp vào véc tơ một chiểu sau đó có thể thực hiện các phép toán trên véc tơ đó Tuy nhiên cách làm này có hạn chế rất lớn là sẽ làm mất đi tính chất không gian của ảnh tức là mất đi thuộc tính vô cùng quan trọng của mỗi điểm ảnh là những điểm hàng xóm của chúng Chính vì vậy rất nhiều phương pháp trích chọn đặc trưng được nghiên cứu và giới thiệu, các phương pháp này nhằm mục đích tận dụng tối đa tính chất không gian của ảnh trong việc xây dựng các véc tơ đặc trưng

Trong chương này chúng tôi sẽ trình bày một số phương pháp trích chọn đặc trưng cơ bản cho ảnh mặt người gồm phương pháp Gabor, phương pháp LBP và phương pháp HoG nhằm làm cơ sở cho các thực nghiệm ở chương tiếp theo

Trang 21

2.2 Phương pháp trích chọn đặc trưng Gabor

Phương pháp trích chọn đặc trưng Gabor được giới thiệu vào những năm 1990 Ý tưởng của phương pháp Gabor là sử dụng biến đổi dạng sóng Các đặc trưng Gabor được trích chọn trực tiếp từ ảnh mức xám Tính chất quan trọng của phương pháp này là nó làm việc tốt với ảnh bị quay, độc lập với tỷ lệ ảnh, và biến đổi ảnh [1],[2],[7],[17]

Đặc điểm của trích chọn đặc trưng Gabor là đặc biệt với tần số và hướng đại diện, giống như hệ thống nhận diện khuôn mặt người Nó đặc biệt thích hợp cho cho trích chọn đặc trưng kết cấu và nhận diện Bộ lọc Gabor trích chọn trực tiếp từ ảnh cấp xám Trong miền không gian hai chiều, Gabor

là một hàm Gaussian dạng sóng hình sin phức hợp, có thể thực hiện tính toán biến đổi bằng công thức:

)exp(

2

exp2

1)

,

' ' 2

,

2 2

x j y

x y

'

y x

Trong trường hợp này:

(x, y) là tọa độ điểm (pixel) trong miền không gian ảnh

: Là tần số góc trung tâm

: Là biểu diễn độ sắc nét dọc theo cả hai hướng x và y

Trên thực tế   / để xác định mối liên hệ giữa  và  trong các thí nghiệm

Trang 22

Hình 2.1 Bộ lọc Gabor với 5 loại tần số và 8 hướng khác nhau

Hình 2.1 minh họa bộ lọa Gabor trong trường hợp chọn 5 loại tần số và

8 hướng khác nhau tương ứng với  Trên thực tế đa số các thực nghiệm sẽ chọn bộ thông số này Công thức (2.2) và (2.3) sau đây tương ứng là giá trị cho 5 loại tần số và 8 hướng với bộ lọc Gabor trong ví dụ trên:

u u

Trang 23

Hình 2.2 Ảnh sau khi sử dụng bộ lọc Gabor tương ứng với hình 2.1

Biểu diễn Gabor của một ảnh mặt người I(x,y) có thể thu được bằng

cách kết hợp cùng với biểu thức Gabor tương ứng:

G , ( x , y ) I ( x , y ) , ( x , y )

v u

v

trong đó G u,v (x,y) là biểu thị mảng hai chiều kết quả tích chập kết hợp tương

ứng với bộ lọc Gabor với tỷ lệ u và hướng v Phép tích chập ở đây được hiểu

như là phép lọc ảnh để chọn ra các thành phần theo biến đổi Gabor  (công thức 2.1) Hình 2.2 minh họa 40 kết quả tương ứng khi sử dụng bộ lọc Gabor với 5 loại tỷ lệ và 8 hướng tương ứng như trong hình 2.1

Như vậy, mỗi ảnh I(x,y) có thể được biểu diễn bởi một tập hợp các bộ các tham số Gabor như sau (tùy theo cách chọn u và v):

{Gu,v (x,y) | u = 0,1, 4; v = 0,1,2, 7 }

Trang 24

Giá trị của mỗi Gu,v (x,y) sau đó được lấy mẫu bởi một hệ số của r, chuẩn hóa

và thu được véc tơ zu,v bằng cách nối các hàng liên tục Véc tơ Z cuối cùng

thu được biểu diễn cho ảnh I(x,y) bởi cách nối các véc tơ Z u,v như sau:

Z = [(z0,0)T

. (z0,1)T (z4,7)T]T (2.5) Trong đó (zu,v)T là véc tơ chuyển vị của zu,v Đặc trưng nguồn gốc véc tơ

Z bao gồm tất cả các yếu tố của Gabor đại diện tập:{{Gu\,v (x,y) | u=0,1, 4; v=

0,1,2, 7 }

Trên thực tế, kích thước của véc tơ Z là khá cao Ví dụ với ảnh 112 x

92 thì kích thước véc tơ là: (112 x 92) x (5 x 8)/ (4 x 4) = 25.760 Khi hệ số

lấy mẫu là r = (4 x 4) = 16 Chúng ta có thể làm giảm kích thước của véc tơ

xuống bằng các thuật toán như LDA, PCA

2.3 Phương pháp trích chọn đặc trưng HoG

2.3.1 Giới thiệu

Histogram of Gradient (HoG) là đặc trưng được dùng nhiều trong lĩnh vực phát hiện đối tượng Kỹ thuật này được đề xuất bởi Bill Triggs và Nanel Dalal vào năm 2005 tại viện nghiên cứu INRIA [3],[18],[19]

Ý tưởng chính trong đặc trưng HoG xuất phát từ hình dạng và trạng thái của vật có thể được đặc trưng bằng sự phân bổ về cường độ và hướng của cạnh Đặc trưng HoG được tính trên cả một vùng Do sự biến thiên về màu sắc trong các vùng là khác nhau, kết quả mỗi vùng sẽ cho ta một véc tơ đặc trưng của nó Vì vậy, để có được đặc trưng của toàn bộ cửa sổ (window) ta phải kết hợp nhiều vùng liên tiếp lại với nhau

Đặc trưng HoG có một số biến thể thường gặp như: R-HoG, R2-HoG, C-HoG Các đặc trưng này khác nhau ở cách phân bố và hình dạng của các ô như trong hình:

Trang 25

2.3.2 Các bước trích trọn đặc trưng HoG trên ảnh

Trước khi thực hiện việc trích chọn đặc trưng HoG, ta chuyển ảnh trong không gian RGB sang ảnh gray scale, sau đó tiến hành cân bằng lược đồ trên ảnh gray scale để giảm đi ảnh hưởng của sự thay đổi ánh sáng

Các bước trích trọn đặc trưng HoG như sau:

* Bước 1: Tính Gradient

Đây là bước đầu tiên trong phương pháp HoG và thường được thực hiện bằng hai phép nhân chập ảnh gốc với 2 nhân và 1 chiều tương ứng với các toán tử lấy đạo hàm ảnh theo hai hướng Ox và Oy, cụ thể là:

Trang 26

, trong đó T là ký hiệu của phép chuyển dịch ma trận

Với một ảnh input I, ta sẽ có 2 ảnh đạo hàm riêng theo 2 hướng được

I

arctan

 (2.7)

* Bước 2: Chia ảnh đầu ra ở các bước trên thành nhiều khối (block),

mỗi khối có số ô bằng nhau, mỗi ô có số pixel bằng nhau Các khối được xếp chồng lên nhau một ô như ở hình 3 Số khối được tính bằng công thức (2.8)

Trong đó: W image , H image , W block , H block , W cell , H cell lần lượt là chiều rộng, chiều cao của ảnh, khối và ô

image cell

cell block

image image

block

H

H H

H W

W W

W

Hình 2.4: Chia khối trích đặc trưng HOG [25]

Trang 27

* Bước 3: Tính véc tơ đặc trưng cho từng khối

- Chia không gian hướng thành p bin (số chiều vectơ đặc trưng của ô) Việc lưu trữ chính xác từng giá trị góc (orientation) của từng vị trí (x,y) không mang lại nhiều kết quả, do vậy ta sẽ chia không gian góc ra thành các bin Việc phân chia bin càng nhỏ sẽ càng làm tăng độ chính xác, thực nghiệm cho thấy kích thước bin khoảng 200 là cho kết quả tốt nhất Do đó từ 0 đến 1800 ta chia thành 9 bin như sau: 0-20, 21-40, 41-60, 61-80, 81-100, 101-120, 121-

140, 141 -160, 161-180

- Góc hướng nghiêng tại pixel (x,y) có độ lớn α(x,y) được rời rạc hóa

vào một trong p bin

Rời rạc hóa unsigned-HoG (p=9):

p y

x p round y

x p round y

x

2

),(

*()

Nối các vectơ đặc trưng ô để được vectơ đặc trưng khối Số chiều vectơ đặc trưng của khối tính theo công thức:

sizefeature/block=n cells *size feature/cell (2.11)

Trong đó, n cells là số ô trong khối và size feature/cell là số chiều vectơ đặc trưng của ô bằng 9 (unsigned- HoG) hoặc 18 (signed-HoG)

Trang 28

*Bước 4: Tính véc tơ đặc trưng cho ảnh

- Chuẩn hóa véc tơ đặc trưng: Trước khi thực hiện tính véc tơ đặc trưng các khối trước khi tính véc tơ đặc trưng cho ảnh

Để chuẩn hóa véc tơ đặc trưng cho các khối ta có thể thực hiện bằng một trong các công thức (1.12), (1.13), (1.14) như sau:

2 e v

v f

L1-norm:

) ( v1 e

v f

L1-sqrt: ( v1 e )

v f

- Tính véc tơ đặc trưng cho ảnh: Để tính toán véc tơ đặc trưng cho ảnh,

ta chỉ cần ghép các véc tơ đặc trưng của từng block lại với nhau để được véc

tơ đặc trưng của cả window Lưu ý rằng các block không đặt tách biệt nhau

mà gối lên nhau, cách nhau một khoảng bằng kích thước của cell theo mỗi chiều (hoặc bằng phân nửa kích thước của cell)

Ghép các vectơ đặc trưng khối tạo nên ảnh để được đặc trưng R-HOG cho ảnh Số chiều vectơ đặc trưng của ảnh tính theo công thức:

size feature/image = n block/image * size feature/block (2.15)

Với n block/image là khối và size feature/block là số chiều véc tơ đặc trưng của mỗi khối

Tổ hợp của tất cả các đồ thị sẽ là các đặc trưng HoG của ảnh

Ngày đăng: 24/09/2018, 09:15

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w