Trong quá trình tổ chức dữ liệu, mỗi hình ảnh được phân loại và được trích xuất các đặc điểm đặc trưng để so sánh với bộ dữ liệu deep-learning để xác định mô hình cảm xúc, sau đó đưa ra
Trang 2BÁO CÁO TIẾN ĐỘ ĐỒ
ÁN
Đề tài: Nhận diện cảm xúc con người thông qua hình ảnh
Giảng viên hướng dẫn: Cung Thành Long
Sinh viên thực hiện: Trương Gia Minh 20212892;
Lê Thành Hưng 20212841
Trang 3I Giới thiệu
Hiện nay, nhận dạng và phân tích cảm xúc khuôn mặt tự động là một vấn đề thú vị và đầy thách thức, có ảnh hưởng to lớn đến xã hội Cảm xúc vốn là một trong những phương tiện mạnh mẽ và tự nhiên nhất để con người truyền đạt và thể hiện suy nghĩ của bản thân, cũng như để giao tiếp với người khác Với công nghệ hiện nay, máy tính có thể phân tích cảm xúc của con người thông qua hình ảnh để hỗ trợ sự tưởng tác giữa người
và máy, tưởng tự như giữa người với người
Trang 4I Giới thiệu
Máy tính nhận biết và xử lý hình ảnh rất khác với con người Đối với máy tính, hình ảnh chỉ là một tập các pixel, có thể là hình ảnh vector hoặc raster Trong ảnh raster, các pixel được sắp xếp dưới dạng lưới, trong khi trong ảnh vector, chúng được sắp xếp dưới dạng đa giác có màu sắc khác nhau
Trong quá trình tổ chức dữ liệu, mỗi hình ảnh được phân loại và được trích xuất các đặc điểm đặc trưng để so sánh với bộ dữ liệu deep-learning
để xác định mô hình cảm xúc, sau đó đưa ra kết quả Hiệu suất của thuật toán được đánh giá dựa trên độ chính xác, khả năng dự đoán và khả năng
sử dụng
Trang 5I Giới thiệu
Trong lĩnh vực nhận dạng khuôn mặt, nhiều cơ sở dữ liệu đã được sử dụng cho các thí nghiệm so sánh và mở rộng Thông thường, cảm xúc trên khuôn mặt con người đã được nghiên cứu bằng cách sử dụng hình ảnh tĩnh 2D hoặc chuỗi video 2D Tuy nhiên, việc phân tích dựa trên 2D gặp khó khăn khi xử lý các biến thể tư thế lớn và biểu cảm khuôn mặt phức
tạp Do đó, việc phân tích cảm xúc trên khuôn mặt 3D sẽ tạo điều kiện
thuận lợi cho việc kiểm tra các thay đổi cấu trúc vốn có trong biểu cảm tự phát [6]
Trang 6I Giới thiệu
Với phương pháp truyền thống thì thì xử lý hình ảnh qua các giai đoạn: tiền xử lý hình ảnh khuôn mặt, trích xuất đặc trưng và phân loại
Tiền xử lý là quá trình được sử dụng để cải thiện hiệu suất của hệ
thống nhận dạng cảm xúc qua khuôn mặt và được thực hiện các loại quy trình khác nhau: căn chỉnh độ rõ, chia tỷ lệ hình ảnh, điều chỉnh độ tương phản và sử dụng các quy trình nâng cao để cải thiện các khung biểu thức Trích xuất đặc trưng trong thị giác máy tính là một giai đoạn quan trọng,
nó phát hiện ra việc chuyển từ mô tả đồ họa sang mô tả dữ liệu ẩn, trích chọn những đặc trưng riêng nhất của hình ảnh, sau đó những mô tả dữ liệu này có thể được sử dụng làm đầu vào cho bài toán phân loại
Phân loại là giai đoạn cuối cùng của hệ thống nhận diện cảm xúc qua khuôn mặt (FER), để phân loại ra các loại cảm xúc trên khuôn mặt: hạnh phúc, buồn bã, bất ngờ, tức giận, sợ hãi, ghê tởm và bình thường Sử
dụng các phương pháp phân loại như: Cây quyết định (ID3), SVM, HMM (Hidden Markov Model)
Trang 7II Phương pháp
1 Các phương pháp thông thường
Đối với các hệ thống Facial Emotions Recognition (FER), có nhiều loại phương pháp tiếp cận thông thường đã được nghiên cứu Điểm chung của các phương pháp này là phát hiện vùng khuôn mặt và trích xuất các đặc điểm hình học, đặc điểm ngoại hình hoặc kết hợp giữa các đặc điểm hình học và ngoại hình trên khuôn mặt mục tiêu
Trang 81 Các phương pháp thông thường – Đặc
điểm hình học
Đối với các đặc điểm hình học trên khuôn mặt, Deepak Ghimire và
Joonwhoan Lee [3] đã sử dụng AdaBoost đa lớp (Multi-class AdaBoost) và SVM (Máy vector hỗ trợ) để nhận diện
Khi biểu cảm khuôn mặt phát triển theo thời gian, các điểm mốc trên khuôn mặt được tự động theo dõi trong các khung video liên tiếp, bằng cách sử dụng các dịch chuyển dựa trên ước tính dịch chuyển khớp đồ thị bó đàn hồi Các vectơ đặc trưng từ các điểm mốc riêng lẻ, cũng như các cặp kết quả theo dõi điểm mốc được trích xuất và chuẩn hóa, đối với khung đầu tiên trong chuỗi Chuỗi biểu cảm nguyên mẫu cho mỗi lớp biểu cảm khuôn mặt được hình thành, bằng cách lấy trung vị của các kết quả theo dõi điểm mốc từ các chuỗi biểu cảm khuôn mặt đào tạo AdaBoost đa lớp với
khoảng cách tương tự cong vênh thời gian động giữa vectơ đặc trưng của biểu cảm khuôn mặt đầu vào và biểu cảm khuôn mặt nguyên mẫu, được
sử dụng như một bộ phân loại yếu để chọn tập hợp con các vectơ đặc
trưng phân biệt
Trang 101 Các phương pháp thông thường – Đặc
điểm ngoại hình
Đối với đặc điểm ngoại hình, Happy [4] đã sử dụng một thuật toán phân loại biểu cảm khuôn mặt được đề xuất sử dụng bộ phân loại Haar cho mục đích phát hiện khuôn mặt, biểu đồ tần suất mẫu nhị phân cục bộ (LBP) của các kích thước khối khác nhau của ảnh khuôn mặt làm vectơ đặc trưng và phân loại các biểu cảm khuôn mặt khác nhau bằng phân tích thành phần chính (PCA) Thuật toán được triển khai theo thời gian thực để phân loại biểu cảm vì có độ phức tạp thấp Một phương pháp tùy chỉnh được đề xuất
để phân tích biểu cảm khuôn mặt vì các biểu cảm khác nhau và cường độ biểu cảm khác nhau tùy theo từng người Hệ thống sử dụng ảnh mặt trước thang độ xám của một người để phân loại sáu cảm xúc cơ bản là hạnh
phúc, buồn, ghê tởm, sợ hãi, ngạc nhiên và tức giận
Trang 12II Phương pháp
2 Các phương pháp sử dụng Deep-learning
Trong những thập kỷ gần đây, đã có một bước đột phá trong các thuật toán học sâu được áp dụng cho lĩnh vực thị giác máy tính, bao gồm mạng nơ-ron tích chập (CNN) và mạng nơ-ron hồi quy (RNN) Các thuật toán
học sâu này đã được sử dụng cho các nhiệm vụ trích xuất, phân loại và nhận dạng đặc điểm Ưu điểm chính của CNN là loại bỏ hoàn toàn hoặc giảm đáng kể sự phụ thuộc vào các mô hình dựa trên vật lý và/hoặc các kỹ thuật xử lý trước khác bằng cách cho phép học "đầu cuối" trực tiếp từ hình ảnh đầu vào Vì những lý do này, CNN đã đạt được những kết quả tiên tiến trong nhiều lĩnh vực, bao gồm nhận dạng đối tượng, nhận dạng khuôn
mặt, hiểu cảnh và FER
Trang 13CNN là gì?
CNN phân loại hình ảnh bằng cách lấy 1 hình ảnh đầu vào, xử lý và
phân loại nó theo các hạng mục nhất định Máy tính coi hình ảnh đầu vào
là 1 mảng pixel và nó phụ thuộc vào độ phân giải của hình ảnh
Mô hình CNN được training và kiểm tra, mỗi hình ảnh đầu vào sẽ
chuyển nó qua 1 loạt các lớp tích chập với các bộ lọc (Kernals), tổng hợp lại các lớp được kết nối đầy đủ (Full Connected) và áp dụng hàm Softmax
để phân loại đối tượng có giá trị xác suất giữa 0 và 1
Tích chập là lớp đầu tiên để trích xuất các tính năng từ hình ảnh đầu
vào Tích chập duy trì mối quan hệ giữa các pixel bằng cách tìm hiểu các tính năng hình ảnh bằng cách sử dụng các ô vương nhỏ của dữ liệu đầu vào Nó là 1 phép toán có 2 đầu vào như ma trận hình ảnh và 1 bộ lọc
hoặc hạt nhân
Trang 14CNN là gì?
Trang 15Các phương pháp sử dụng Deep-learning
CNN chứa ba loại lớp không đồng nhất: lớp tích chập, lớp gộp tối đa và lớp kết nối đầy đủ. Các lớp tích chập lấy ảnh hoặc bản đồ đặc điểm làm đầu vào và tích chập các đầu vào này với một tập hợp các ngân hàng bộ lọc theo kiểu cửa sổ trượt để đưa ra các bản đồ đặc điểm biểu diễn sự sắp xếp không gian của ảnh khuôn mặt Trọng số của các bộ lọc tích chập
trong bản đồ đặc điểm được chia sẻ và các đầu vào của lớp bản đồ đặc điểm được kết nối cục bộ Thứ hai, các lớp lấy mẫu con làm giảm độ phân giải không gian của biểu diễn bằng cách lấy trung bình hoặc gộp tối đa các bản đồ đặc điểm đầu vào đã cho để giảm kích thước của chúng và do đó
bỏ qua các biến thể trong các dịch chuyển nhỏ và biến dạng hình học Các lớp kết nối đầy đủ cuối cùng của cấu trúc CNN tính điểm lớp trên toàn bộ ảnh gốc Hầu hết các phương pháp dựa trên học sâu đã điều chỉnh CNN trực tiếp để phát hiện chuyển động (AU)
Trang 16Các phương pháp sử dụng Deep-learning
Có nhiều phương pháp đã áp dụng trực tiếp CNN để nhận dạng cảm xúc Tuy nhiên, vì các phương pháp dựa trên CNN không thể phản ánh các biến thể theo thời gian trong các thành phần khuôn mặt, nên gần đây
đã xuất hiện một phương pháp mới kết hợp CNN cho các đặc điểm không gian của từng khung hình và bộ nhớ dài hạn ngắn (LSTM) cho các đặc
điểm theo thời gian của các khung hình liên tiếp đã được phát triển LSTM
là một loại RNN đặc biệt có khả năng học các phụ thuộc dài hạn LSTM được thiết kế rõ ràng để giải quyết vấn đề phụ thuộc dài hạn bằng cách sử dụng bộ nhớ ngắn hạn LSTM có cấu trúc giống như chuỗi, mặc dù các mô-đun lặp lại có cấu trúc khác nhau. Tất cả các mạng nơ-ron hồi quy đều
có dạng giống như chuỗi gồm bốn mô-đun lặp lại của một mạng nơ-ron
Trang 17Các phương pháp sử dụng Deep-learning
• Trạng thái tế bào là một đường ngang chạy qua phía trên cùng của sơ
đồ, như thể hiện trong. LSTM có khả năng loại bỏ hoặc thêm thông tin vào trạng thái tế bào
• Lớp cổng quên được sử dụng để quyết định thông tin mới nào sẽ được lưu trữ trong trạng thái tế bào
• Lớp cổng đầu vào được sử dụng để quyết định giá trị nào sẽ được cập nhật trong ô
• Lớp cổng đầu ra cung cấp đầu ra dựa trên trạng thái tế bào
Trang 18Các phương pháp sử dụng Deep-learning
Mô hình LSTM hoặc RNN để mô hình hóa hình ảnh tuần tự có hai ưu
điểm so với các phương pháp độc lập Đầu tiên, các mô hình LSTM dễ dàng tinh chỉnh từ đầu đến cuối khi tích hợp với các mô hình khác như CNN Thứ hai, LSTM hỗ trợ cả đầu vào hoặc đầu ra có độ dài cố định và độ dài thay đổi
Thông thường, các phương pháp tiếp cận dựa trên học sâu xác định các tính năng và bộ phân loại bởi các chuyên gia về mạng nơ-ron sâu, không giống như các phương pháp tiếp cận thông thường Các phương pháp tiếp cận dựa trên học sâu trích xuất các tính năng tối ưu với các đặc điểm mong muốn trực tiếp từ dữ liệu bằng cách sử dụng mạng nơ-ron tích chập sâu Tuy nhiên, không dễ để thu thập một lượng lớn dữ liệu đào tạo cho cảm xúc khuôn mặt trong các điều kiện khác nhau đủ để học các mạng nơ-ron sâu Hơn nữa, các phương pháp tiếp cận dựa trên học sâu đòi hỏi một thiết bị điện toán cấp cao hơn và lớn hơn so với các phương pháp tiếp cận thông thường để vận hành đào tạo và thử nghiệm Do đó, cần phải giảm khối
lượng công việc tại thời điểm tính toán của thuật toán học sâu
Trang 19Tài liệu tham khảo
1 Ducmanhkthd, Nghiên cứu và ứng dụng các kỹ thuật nhận dạng cảm
xúc qua khuôn mặt, 2021 [viblo.asia]
2 Byoung Chul Ko, A Brief Review of Facial Emotion Recognition Based
on Visual Information, 2018 [Google Scholar] [mdpi.com]
3 Ghimire, D.; Lee, J Geometric feature-based facial expression
recognition in image sequences using multi-class AdaBoost and
support vector machines, 2013 [Google Scholar]
4 Happy, S.L.; George, A.; Routray, A A real time facial expression
classification system using local binary patterns In Proceedings of the 4th International Conference on Intelligent Human Computer
Interaction, 2012 [Google Scholar]
5 Olah, trang web trực tuyến:
6 Cơ sở dữ liệu:
https://www.cs.binghamton.edu/~lijun/Research/3DFE/3DFE_Analysis.html
Trang 20Tài liệu tham khảo
https://vi.shaip.com/blog/what-is-ai-image-reco gnition-and-how-does-it-work/
mang-tich-chap-cnn-maGK73bOKj2
https://viblo.asia/p/deep-learning-tim-hieu-ve-https://www.mathworks.com/discovery/convolu tional-neural-network.html
Trang 2121THANK
YOU !