Báo cáo tiến Độ Đồ Án Đề tài nhận diện cảm xúc con người thông qua hình Ảnh

Trong quá trình tổ chức dữ liệu, mỗi hình ảnh được phân loại và được trích xuất các đặc điểm đặc trưng để so sánh với bộ dữ liệu deep-learning để xác định mô hình cảm xúc, sau đó đưa ra

Trang 2

BÁO CÁO TIẾN ĐỘ ĐỒ

ÁN

Đề tài: Nhận diện cảm xúc con người thông qua hình ảnh

Giảng viên hướng dẫn: Cung Thành Long

Sinh viên thực hiện: Trương Gia Minh 20212892;

Lê Thành Hưng 20212841

Trang 3

I Giới thiệu

Hiện nay, nhận dạng và phân tích cảm xúc khuôn mặt tự động là một vấn đề thú vị và đầy thách thức, có ảnh hưởng to lớn đến xã hội Cảm xúc vốn là một trong những phương tiện mạnh mẽ và tự nhiên nhất để con người truyền đạt và thể hiện suy nghĩ của bản thân, cũng như để giao tiếp với người khác Với công nghệ hiện nay, máy tính có thể phân tích cảm xúc của con người thông qua hình ảnh để hỗ trợ sự tưởng tác giữa người

và máy, tưởng tự như giữa người với người

Trang 4

Máy tính nhận biết và xử lý hình ảnh rất khác với con người Đối với máy tính, hình ảnh chỉ là một tập các pixel, có thể là hình ảnh vector hoặc raster Trong ảnh raster, các pixel được sắp xếp dưới dạng lưới, trong khi trong ảnh vector, chúng được sắp xếp dưới dạng đa giác có màu sắc khác nhau

Trong quá trình tổ chức dữ liệu, mỗi hình ảnh được phân loại và được trích xuất các đặc điểm đặc trưng để so sánh với bộ dữ liệu deep-learning

để xác định mô hình cảm xúc, sau đó đưa ra kết quả Hiệu suất của thuật toán được đánh giá dựa trên độ chính xác, khả năng dự đoán và khả năng

sử dụng

Trang 5

Trong lĩnh vực nhận dạng khuôn mặt, nhiều cơ sở dữ liệu đã được sử dụng cho các thí nghiệm so sánh và mở rộng Thông thường, cảm xúc trên khuôn mặt con người đã được nghiên cứu bằng cách sử dụng hình ảnh tĩnh 2D hoặc chuỗi video 2D Tuy nhiên, việc phân tích dựa trên 2D gặp khó khăn khi xử lý các biến thể tư thế lớn và biểu cảm khuôn mặt phức

tạp Do đó, việc phân tích cảm xúc trên khuôn mặt 3D sẽ tạo điều kiện

thuận lợi cho việc kiểm tra các thay đổi cấu trúc vốn có trong biểu cảm tự phát [6]

Trang 6

Với phương pháp truyền thống thì thì xử lý hình ảnh qua các giai đoạn: tiền xử lý hình ảnh khuôn mặt, trích xuất đặc trưng và phân loại

Tiền xử lý là quá trình được sử dụng để cải thiện hiệu suất của hệ

thống nhận dạng cảm xúc qua khuôn mặt và được thực hiện các loại quy trình khác nhau: căn chỉnh độ rõ, chia tỷ lệ hình ảnh, điều chỉnh độ tương phản và sử dụng các quy trình nâng cao để cải thiện các khung biểu thức Trích xuất đặc trưng trong thị giác máy tính là một giai đoạn quan trọng,

nó phát hiện ra việc chuyển từ mô tả đồ họa sang mô tả dữ liệu ẩn, trích chọn những đặc trưng riêng nhất của hình ảnh, sau đó những mô tả dữ liệu này có thể được sử dụng làm đầu vào cho bài toán phân loại

Phân loại là giai đoạn cuối cùng của hệ thống nhận diện cảm xúc qua khuôn mặt (FER), để phân loại ra các loại cảm xúc trên khuôn mặt: hạnh phúc, buồn bã, bất ngờ, tức giận, sợ hãi, ghê tởm và bình thường Sử

dụng các phương pháp phân loại như: Cây quyết định (ID3), SVM, HMM (Hidden Markov Model)

Trang 7

II Phương pháp

1 Các phương pháp thông thường

Đối với các hệ thống Facial Emotions Recognition (FER), có nhiều loại phương pháp tiếp cận thông thường đã được nghiên cứu Điểm chung của các phương pháp này là phát hiện vùng khuôn mặt và trích xuất các đặc điểm hình học, đặc điểm ngoại hình hoặc kết hợp giữa các đặc điểm hình học và ngoại hình trên khuôn mặt mục tiêu

Trang 8

1 Các phương pháp thông thường – Đặc

điểm hình học

Đối với các đặc điểm hình học trên khuôn mặt, Deepak Ghimire và

Joonwhoan Lee [3] đã sử dụng AdaBoost đa lớp (Multi-class AdaBoost) và SVM (Máy vector hỗ trợ) để nhận diện

Khi biểu cảm khuôn mặt phát triển theo thời gian, các điểm mốc trên khuôn mặt được tự động theo dõi trong các khung video liên tiếp, bằng cách sử dụng các dịch chuyển dựa trên ước tính dịch chuyển khớp đồ thị bó đàn hồi Các vectơ đặc trưng từ các điểm mốc riêng lẻ, cũng như các cặp kết quả theo dõi điểm mốc được trích xuất và chuẩn hóa, đối với khung đầu tiên trong chuỗi Chuỗi biểu cảm nguyên mẫu cho mỗi lớp biểu cảm khuôn mặt được hình thành, bằng cách lấy trung vị của các kết quả theo dõi điểm mốc từ các chuỗi biểu cảm khuôn mặt đào tạo AdaBoost đa lớp với

khoảng cách tương tự cong vênh thời gian động giữa vectơ đặc trưng của biểu cảm khuôn mặt đầu vào và biểu cảm khuôn mặt nguyên mẫu, được

sử dụng như một bộ phân loại yếu để chọn tập hợp con các vectơ đặc

trưng phân biệt

Trang 10

1 Các phương pháp thông thường – Đặc

điểm ngoại hình

Đối với đặc điểm ngoại hình, Happy [4] đã sử dụng một thuật toán phân loại biểu cảm khuôn mặt được đề xuất sử dụng bộ phân loại Haar cho mục đích phát hiện khuôn mặt, biểu đồ tần suất mẫu nhị phân cục bộ (LBP) của các kích thước khối khác nhau của ảnh khuôn mặt làm vectơ đặc trưng và phân loại các biểu cảm khuôn mặt khác nhau bằng phân tích thành phần chính (PCA) Thuật toán được triển khai theo thời gian thực để phân loại biểu cảm vì có độ phức tạp thấp Một phương pháp tùy chỉnh được đề xuất

để phân tích biểu cảm khuôn mặt vì các biểu cảm khác nhau và cường độ biểu cảm khác nhau tùy theo từng người Hệ thống sử dụng ảnh mặt trước thang độ xám của một người để phân loại sáu cảm xúc cơ bản là hạnh

phúc, buồn, ghê tởm, sợ hãi, ngạc nhiên và tức giận

Trang 12

II Phương pháp

2 Các phương pháp sử dụng Deep-learning

Trong những thập kỷ gần đây, đã có một bước đột phá trong các thuật toán học sâu được áp dụng cho lĩnh vực thị giác máy tính, bao gồm mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN) Các thuật toán

học sâu này đã được sử dụng cho các nhiệm vụ trích xuất, phân loại và nhận dạng đặc điểm Ưu điểm chính của CNN là loại bỏ hoàn toàn hoặc giảm đáng kể sự phụ thuộc vào các mô hình dựa trên vật lý và/hoặc các kỹ thuật xử lý trước khác bằng cách cho phép học "đầu cuối" trực tiếp từ hình ảnh đầu vào Vì những lý do này, CNN đã đạt được những kết quả tiên tiến trong nhiều lĩnh vực, bao gồm nhận dạng đối tượng, nhận dạng khuôn

mặt, hiểu cảnh và FER

Trang 13

CNN là gì?

CNN phân loại hình ảnh bằng cách lấy 1 hình ảnh đầu vào, xử lý và

phân loại nó theo các hạng mục nhất định Máy tính coi hình ảnh đầu vào

là 1 mảng pixel và nó phụ thuộc vào độ phân giải của hình ảnh

Mô hình CNN được training và kiểm tra, mỗi hình ảnh đầu vào sẽ

chuyển nó qua 1 loạt các lớp tích chập với các bộ lọc (Kernals), tổng hợp lại các lớp được kết nối đầy đủ (Full Connected) và áp dụng hàm Softmax

để phân loại đối tượng có giá trị xác suất giữa 0 và 1

Tích chập là lớp đầu tiên để trích xuất các tính năng từ hình ảnh đầu

vào Tích chập duy trì mối quan hệ giữa các pixel bằng cách tìm hiểu các tính năng hình ảnh bằng cách sử dụng các ô vương nhỏ của dữ liệu đầu vào Nó là 1 phép toán có 2 đầu vào như ma trận hình ảnh và 1 bộ lọc

hoặc hạt nhân

Trang 14

CNN là gì?

Trang 15

Các phương pháp sử dụng Deep-learning

CNN chứa ba loại lớp không đồng nhất: lớp tích chập, lớp gộp tối đa và lớp kết nối đầy đủ. Các lớp tích chập lấy ảnh hoặc bản đồ đặc điểm làm đầu vào và tích chập các đầu vào này với một tập hợp các ngân hàng bộ lọc theo kiểu cửa sổ trượt để đưa ra các bản đồ đặc điểm biểu diễn sự sắp xếp không gian của ảnh khuôn mặt Trọng số của các bộ lọc tích chập

trong bản đồ đặc điểm được chia sẻ và các đầu vào của lớp bản đồ đặc điểm được kết nối cục bộ Thứ hai, các lớp lấy mẫu con làm giảm độ phân giải không gian của biểu diễn bằng cách lấy trung bình hoặc gộp tối đa các bản đồ đặc điểm đầu vào đã cho để giảm kích thước của chúng và do đó

bỏ qua các biến thể trong các dịch chuyển nhỏ và biến dạng hình học Các lớp kết nối đầy đủ cuối cùng của cấu trúc CNN tính điểm lớp trên toàn bộ ảnh gốc Hầu hết các phương pháp dựa trên học sâu đã điều chỉnh CNN trực tiếp để phát hiện chuyển động (AU)

Trang 16

Có nhiều phương pháp đã áp dụng trực tiếp CNN để nhận dạng cảm xúc Tuy nhiên, vì các phương pháp dựa trên CNN không thể phản ánh các biến thể theo thời gian trong các thành phần khuôn mặt, nên gần đây

đã xuất hiện một phương pháp mới kết hợp CNN cho các đặc điểm không gian của từng khung hình và bộ nhớ dài hạn ngắn (LSTM) cho các đặc

điểm theo thời gian của các khung hình liên tiếp đã được phát triển LSTM

là một loại RNN đặc biệt có khả năng học các phụ thuộc dài hạn LSTM được thiết kế rõ ràng để giải quyết vấn đề phụ thuộc dài hạn bằng cách sử dụng bộ nhớ ngắn hạn LSTM có cấu trúc giống như chuỗi, mặc dù các mô-đun lặp lại có cấu trúc khác nhau. Tất cả các mạng nơ-ron hồi quy đều

có dạng giống như chuỗi gồm bốn mô-đun lặp lại của một mạng nơ-ron

Trang 17

• Trạng thái tế bào là một đường ngang chạy qua phía trên cùng của sơ

đồ, như thể hiện trong. LSTM có khả năng loại bỏ hoặc thêm thông tin vào trạng thái tế bào

• Lớp cổng quên được sử dụng để quyết định thông tin mới nào sẽ được lưu trữ trong trạng thái tế bào

• Lớp cổng đầu vào được sử dụng để quyết định giá trị nào sẽ được cập nhật trong ô

• Lớp cổng đầu ra cung cấp đầu ra dựa trên trạng thái tế bào

Trang 18

Mô hình LSTM hoặc RNN để mô hình hóa hình ảnh tuần tự có hai ưu

điểm so với các phương pháp độc lập Đầu tiên, các mô hình LSTM dễ dàng tinh chỉnh từ đầu đến cuối khi tích hợp với các mô hình khác như CNN Thứ hai, LSTM hỗ trợ cả đầu vào hoặc đầu ra có độ dài cố định và độ dài thay đổi

Thông thường, các phương pháp tiếp cận dựa trên học sâu xác định các tính năng và bộ phân loại bởi các chuyên gia về mạng nơ-ron sâu, không giống như các phương pháp tiếp cận thông thường Các phương pháp tiếp cận dựa trên học sâu trích xuất các tính năng tối ưu với các đặc điểm mong muốn trực tiếp từ dữ liệu bằng cách sử dụng mạng nơ-ron tích chập sâu Tuy nhiên, không dễ để thu thập một lượng lớn dữ liệu đào tạo cho cảm xúc khuôn mặt trong các điều kiện khác nhau đủ để học các mạng nơ-ron sâu Hơn nữa, các phương pháp tiếp cận dựa trên học sâu đòi hỏi một thiết bị điện toán cấp cao hơn và lớn hơn so với các phương pháp tiếp cận thông thường để vận hành đào tạo và thử nghiệm Do đó, cần phải giảm khối

lượng công việc tại thời điểm tính toán của thuật toán học sâu

Trang 19

Tài liệu tham khảo

1 Ducmanhkthd, Nghiên cứu và ứng dụng các kỹ thuật nhận dạng cảm

xúc qua khuôn mặt, 2021 [viblo.asia]

2 Byoung Chul Ko, A Brief Review of Facial Emotion Recognition Based

on Visual Information, 2018 [Google Scholar] [mdpi.com]

3 Ghimire, D.; Lee, J Geometric feature-based facial expression

recognition in image sequences using multi-class AdaBoost and

support vector machines, 2013 [Google Scholar]

4 Happy, S.L.; George, A.; Routray, A A real time facial expression

classification system using local binary patterns In Proceedings of the 4th International Conference on Intelligent Human Computer

Interaction, 2012 [Google Scholar]

5 Olah, trang web trực tuyến:

6 Cơ sở dữ liệu:

https://www.cs.binghamton.edu/~lijun/Research/3DFE/3DFE_Analysis.html

Trang 20

Tài liệu tham khảo

https://vi.shaip.com/blog/what-is-ai-image-reco gnition-and-how-does-it-work/

mang-tich-chap-cnn-maGK73bOKj2

https://viblo.asia/p/deep-learning-tim-hieu-ve-https://www.mathworks.com/discovery/convolu tional-neural-network.html

Trang 21

21THANK

YOU !

Tiêu đề	Nhận diện cảm xúc con người thông qua hình ảnh
Tác giả	Trương Gia Minh, Lê Thành Hưng
Người hướng dẫn	Cung Thành Long
Trường học	Trường Đại Học
Thể loại	báo cáo tiến độ đồ án
Năm xuất bản	2021
Thành phố	Thành phố Hồ Chí Minh

Định dạng
Số trang	21
Dung lượng	3,62 MB

Tài liệu tham khảo	Loại	Chi tiết
5. Olah, trang web trực tuyến: https://colah.github.io/posts/2015-08-Understanding-LSTMs/ , 2015 6. Cơ sở dữ liệu	Link
1. Ducmanhkthd, Nghiên cứu và ứng dụng các kỹ thuật nhận dạng cảm xúc qua khuôn mặt, 2021 [viblo.asia]	Khác
2. Byoung Chul Ko, A Brief Review of Facial Emotion Recognition Based on Visual Information, 2018 [Google Scholar] [mdpi.com]	Khác
3. Ghimire, D.; Lee, J. Geometric feature-based facial expression recognition in image sequences using multi-class AdaBoost and support vector machines, 2013 [Google Scholar]	Khác
4. Happy, S.L.; George, A.; Routray, A. A real time facial expression classification system using local binary patterns. In Proceedings of the 4th International Conference on Intelligent Human ComputerInteraction, 2012 [Google Scholar]	Khác