Khóa luận tốt nghiệp Hệ thống thông tin: Xây dựng hệ thống học trực tuyến sử dụng các mô hình máy học nhận diện cảm xúc và theo dõi ánh nhìn của học viên

Dé giải quyết van dé này, một hệ thống giảng dạy trực tuyến được đề xuất, kết hợp công nghệ nhận diện cảm xúc và độ tập trung của học viên, nhằm nâng cao chất lượng giảng dạy và học tập.

Thông tin về đề tài . -¿- 2-52 s2 ExEEEExEEXE71211211211111211211211211 21121111 11c re 2 1 Mục tiêu đề tài ccccccntttnhhHHnH HH de 2 2 Phạm vi và đối "10221717

Các công nghệ được sử dụng trong việc nhận diện cảm XÚC

Trong phạm vi đề tài thử nghiệm trên các công nghệ dự báo sau:

Mô hình CNN (Convolutional Neural Network)[12] được minh hoạ ở Hình 1 bên dưới:

Hình 1: Cấu trúc của mạng CNN[14]

Mô hình MTCNN (Multi-task Convolutional Neural Network)[15] được minh hoạ ở Hình

| I input size sv3yi0 — 3x3x16 Ix1x32\ fg Faciallandmadk

Conv: 3x3 Conv:3x3 Conv 22 fully MP:3x3 MP:3x3 ¡ 7 H 1 i : h

4 1 ! al input size 11x11x28 — 4x4x48 3x3xó4 128 tÌÌ* ng

Cow:3x3 Conv: 3x3 Con3x3 Conv:2x2 fully

MP:32 MP:3i MP:22 huêt q fac? classification

1 1 1 1 1 1 imput size 95.9339 10x10x64 4x4x64 3x3xI2§ va rest ta

Hình 2: Cấu trúc của MTCNN[16]

Mô hình VGG-16 [13] (là kiến trúc mạng thần kinh tích chập CNN) được minh hoạ ở Hình

3 bên dưới: rin iN = Nlm = N|m =Nim

~ woe [ ĐỒ (oa LAY eae a lế i a a fa II ae a

= = | NIN m.mlm st) st) st Ln | Ln | Ln ° >ị> >> >>> > >\> >| >| > c ail fe Sc elec =| E|E clele

= S6 ane) Sl6lS 610/96 6| 0/6 ©@!ÒO ©OOÒO ©O OlIO ©O'O@O©O ©OOVO©O

Hình 3: Cấu trúc của VGG-16 [17]

Giới thiệu các bộ dữ liỆu - -:- 5+2 E SE SE **EE+EESEESEESEEerEsrkrrkrrkrrkrrkrrkrske 4 1.2.5 Công nghệ được sử dụng trong việc phát trực tiếp và phát triển sản pham

Bộ dữ liệu Fer2013, được Kaggle công bố tại hội nghị ICML 2013, bao gồm 32.298 hình ảnh kích thước 48x48, trong đó mỗi hình ảnh chứa khuôn mặt được căn giữa và chiếm phần lớn diện tích Các hình ảnh này đã được gán nhãn với các cảm xúc như tức giận, chán nản, sợ hãi, vui vẻ, buồn bã, bất ngờ và trung tính.

KDEF là bộ dữ liệu gồm 4900 hình ảnh về nét mặt con người, thể hiện 7 cảm xúc khác nhau của 70 người từ 5 góc nhìn khác nhau Tương tự như Fer2013, bộ dữ liệu này cho phép xác định cảm xúc của một người không chỉ qua một khung hình mà còn qua nhiều khung hình, từ đó cải thiện khả năng nhận dạng cảm xúc.

1.2.5 Công nghệ được sử dụng trong việc phát trực tiếp và phát triển sản phâm

Node.js là một môi trường chạy JavaScript/TypeScript phía server, được xây dựng trên engine V8 của Chrome Nó cho phép các nhà phát triển viết mã server-side bằng JavaScript, tạo ra các ứng dụng mạng có khả năng mở rộng cao và xử lý nhiều kết nối đồng thời hiệu quả Với kiến trúc event-driven và non-blocking I/O, Node.js rất lý tưởng cho các ứng dụng thời gian thực như phát trực tiếp và chat trực tuyến.

ReactJS là một thư viện JavaScript mã nguồn mở do Facebook phát triển, chuyên dùng để xây dựng giao diện người dùng (UI) Thư viện này cho phép tạo ra các thành phần UI tái sử dụng và cập nhật hiệu quả nhờ vào cơ chế Virtual DOM Điều này đặc biệt hữu ích cho việc phát triển các ứng dụng web có giao diện phức tạp và yêu cầu tương tác cao, như các trang phát trực tiếp.

Mediasoup là một thư viện mã nguồn mở cho Node.js, hỗ trợ các tính năng SFU và MCU để xử lý và truyền tải media trong các cuộc họp video và hội thảo trực tuyến Được thiết kế để tương thích với WebRTC, Mediasoup cung cấp khả năng mở rộng và hiệu suất cao, giúp xây dựng các ứng dụng phát trực tiếp và truyền thông thời gian thực.

WebRTC (Web Real-Time Communication) là công nghệ mã nguồn mở cho phép trình duyệt và ứng dụng di động thực hiện cuộc gọi âm thanh, video và truyền dữ liệu trực tiếp mà không cần plugin Công nghệ này sử dụng giao thức peer-to-peer để truyền tải dữ liệu, giúp giảm độ trễ và nâng cao chất lượng kết nối trong các ứng dụng phát trực tiếp và hội nghị truyền hình.

WebRTC rm il signaling đề

Hình 4: Ví dụ về WebRTC với máy chủ báo hiệu[26]

Socket.IO là thư viện JavaScript cho Node.js, giúp phát triển ứng dụng web thời gian thực bằng cách cung cấp giao thức truyền tải hai chiều giữa client và server Thư viện này hỗ trợ tự động kết nối lại và phát hiện khi client ngắt kết nối, làm cho nó lý tưởng cho các ứng dụng yêu cầu giao tiếp liên tục và ổn định, như chat trực tuyến và phát trực tiếp.

Hinh 5: Vi du vé cach hoat động của Socket.IO[28]

Python Socket.IO là phiên bản Socket.IO dành cho Python, mang lại các tính năng tương tự như phiên bản Node.js Nó hỗ trợ các nhà phát triển Python trong việc xây dựng ứng dụng web thời gian thực một cách dễ dàng, cho phép giao tiếp hai chiều giữa client và server, đồng thời cung cấp các tính năng như broadcasting, rooms và namespaces.

CƠ SỞ LÝ THUYÊT 55:2S2+t2EEEEtctEEkrrrtrrtrrrtrrrrrrrirrrrriirrrrk 8

Lý thuyết về mạng thần kinh . 2 ¿s92 t+E£EE£EEEEE+EEEEEEEEEEEEEEEEEESEEEErkerkerrree 8

2.1.1 Lý thuyết về mạng thần kinh Một mang Neural Network[33] cú ứ đầu vào mỗi ngừ vào, mỗi ngừ vào xi cú trọng số Wi. Hình 6 đưới đây minh hoạ về câu tạo của một mạng thần kinh:

Constant ( 1 ) wa ~ Wy im Weighted

Hình 6: Cau tạo một mạng thần kinh[34]

Trong quá trình học của mạng Neural Network, các trọng số wi, Wa, Wn sẽ thay đổi Tổng trọng số của một lớp 4n được xác định theo công thức: n ằ xiWj (1).

Hệ số quan trọng wo, hay còn gọi là bias, đóng vai trò thiết yếu trong phương trình Weighted Sum Nếu thiếu hệ số tự do này, phương trình sẽ trở thành ¡/=i#¡w; = 0, dẫn đến việc nó luôn đi qua gốc tọa độ, không thể hiện được tính tổng quát của một phương trình đường thẳng Do đó, việc thêm hệ số tự do giúp phương trình Weighted Sum có dạng chính xác hơn.

Tổng có trọng số là một hàm tuyến tính nhưng không phản ánh đúng bản chất phi tuyến của nhiều quá trình dự báo thực tế Các mô hình dự báo thường có mối quan hệ phi tuyến, dẫn đến sự thay đổi không theo quy luật tuyến tính Do đó, việc áp dụng hàm kích hoạt phi tuyến như hàm hardlim là cần thiết để chuyển đổi hàm tuyến tính thành hàm phi tuyến Qua đó, giá trị dự báo y được xác định chính xác hơn, phản ánh đúng sự phức tạp của quá trình dự báo.

Mạng Neural nhân tạo được huấn luyện theo 3 kiểu học của máy học là học có giám sát

(Supervised learning[35]), học không giám sát (Unsupervised learning[36]) và học tăng cường (Reinforcement learning[37]).

2.1.2 Định nghĩa mạng no-ron nhân tao (Artificial Neural Network -

Mạng nơ-ron nhân tạo (ANN) là một hệ thống tính toán lấy cảm hứng từ cấu trúc và chức năng của não người, bao gồm nhiều đơn vị tính toán đơn giản gọi là nơ-ron, được kết nối thành các lớp Mục tiêu chính của ANN là học cách biểu diễn và xử lý dữ liệu tương tự như não người, nhằm thực hiện các tác vụ như phân loại, dự đoán và nhận diện mẫu.

Input layer Hidden layer Output layer

Các cấu trúc cơ bản của mạng nơ-ron nhân tạo bao gồm:

1 Đầu vào (Inputs): Mỗi no-ron nhận một sỐ lượng đầu vào từ các nơ-ron khác hoặc từ dữ liệu đầu vào ban đầu.

2 Trọng số (Weights): Mỗi đầu vào được gán một trọng số, biểu thị mức độ quan trọng của đầu vào đó.

3 Hàm kích hoạt (Activation Function): Sau khi nhận đầu vào và tính toán tổng trọng số của các đầu vào, một hàm kích hoạt sẽ được áp dụng dé quyét dinh dau ra của no-ron Cac hàm kích hoạt phổ biến bao gồm ReLU, sigmoid, va tanh.

1 Lớp Dau Vào (Input Layer): Nhận đữ liệu đầu vào và truyền dữ liệu đó vào các lớp tiếp theo.

2 Lớp An (Hidden Layers): Các lớp nằm giữa lớp đầu vào và lớp dau ra, nơi diễn ra hầu hết quá trình tính toán và học của mạng nơ-ron.

3 Lớp Dau Ra (Output Layer): Sản sinh đầu ra cuối cùng của mang, phan ánh kết quả của quá trình học.

- Qua Trình Huan Luyện (Training Process):

1 Truyền Tiến (Forward Propagation): Quá trình truyền dữ liệu từ lớp đầu vào qua các lớp ân đến lớp đầu ra.

2 Tinh Toán Lỗi (Error Calculation): So sánh đầu ra của mạng với giá trị mong muốn (ground truth) đề tính toán lỗi.

3 Truyền Ngược (Backpropagation): Điều chỉnh trọng số của các nơ-ron dựa trên lỗi đã tính toán dé giảm thiểu sai số trong các lần huấn luyện tiếp theo Quá trình nay sử dụng thuật toán gradient descent.

- Ưu Điểm và Ứng Dụng của Mạng Nơ-ron Nhân Tạo:

1 Ưu điểm: e Kha Năng Học Từ Dữ Liệu: ANN có khả năng học từ dữ liệu và cải thiện hiệu suất theo thời gian. e Khả Năng Tổng Quát: Mạng nơ-ron có thé học và tông quát hóa các mẫu phức tạp từ dữ liệu, làm cho nó phù hợp với nhiều bài toán khác nhau.

2 Ứng Dụng: e Nhận Dạng Hình Ảnh: Phân loại và nhận diện các đối tượng trong hình ảnh. e Xử Lý Ngôn Ngữ Tự Nhiên (NLP): Dịch máy, phân loại văn bản, và trích xuất thông tin. e Du Đoán và Phân Tích Dữ Liệu: Dự đoán xu hướng thị trường, phân tích dữ liệu khách hàng, và dự báo thời tiết.

Mạng nơ-ron tích chập (CNNs) là một loại mạng nơ-ron nhân tạo phổ biến trong lĩnh vực xử lý hình ảnh và video Với khả năng học hỏi và trích xuất đặc trưng từ dữ liệu đầu vào, CNNs sử dụng các lớp tích chập, lớp giảm kích thước và lớp kết nối đầy đủ để tối ưu hóa hiệu suất phân tích hình ảnh.

Lớp Convolutional trong mạng CNN sử dụng các bộ lọc để xử lý hình ảnh, nhằm trích xuất các đặc trưng quan trọng như cạnh, góc và các mẫu phức tạp hơn Hình ảnh dưới đây minh họa cấu trúc của mạng CNN.

Hình 8: Cấu trúc của một CNN[14]

Pooling Layers: Lớp này giảm kích thước của đữ liệu đầu ra từ lớp convolutional dé giảm số lượng tham số và tính toán trong mạng.

Các lớp Fully Connected thực hiện phân loại dựa trên các đặc trưng được trích xuất từ các lớp trước Ưu điểm của mạng nơ-ron tích chập (CNN) là khả năng tự động trích xuất đặc trưng từ dữ liệu đầu vào, mang lại hiệu suất cao trong nhận dạng và phân loại hình ảnh Trong lĩnh vực nhận diện cảm xúc, CNN có thể được huấn luyện để nhận diện các biểu cảm khuôn mặt thông qua việc học các đặc trưng đặc biệt từ hình ảnh khuôn mặt.

2.1.4 Multi-task Cascaded Convolutional Networks (MTCNN)

MTCNN là một kiến trúc mạng nơ-ron sâu, được phát triển để thực hiện đồng thời việc phát hiện và căn chỉnh khuôn mặt.

Conv:3X3 Coọnv:3x3 Conv: 3x3 face r Ị I ; MP: 2x2 classification |

1 — EN fa bounding box | l regression I

| Ix & x4 I Ị I ! input Size 545410 = IxIx32 Facial landmark

MP: 3x3 MP: 3x3 Ì face classification connect

= je =| bounding box 2 i regression input size 1141 1x98 —— 4x4x48 3x3xó4 128 [| Facial landmark

Conv:3x3 Conv:3x3 Conv: 3x3 Convi2x2 - fully

MP: B MP: i MP: is connect (|| fae? classification r

1 ma = il bounding box regression | I

I input size 23x234322 l0xl0x64 4xáxó4 3x3K128 256 i Facial landmark localization

Kiến trúc ba giai đoạn của MTCNN bao gồm ba mạng nhỏ (P-Net, R-Net, O-Net) hoạt động tuần tự để phát hiện khuôn mặt ở nhiều độ phân giải khác nhau P-Net (Proposal Network) tìm kiếm các vùng khả thi có chứa khuôn mặt bằng cách sử dụng mạng FCN (Fully Convolutional Network), khác với mạng CNN vì không có lớp Dense P-Net giúp xác định các cửa sổ tiềm năng và các vector hồi quy bounding box tương ứng với tọa độ của chúng.

Lý thuyết tối ưu mô hình máy hỌc . 2- 2 + + E£+E££E£+E2EE2EE2EE2EE2EEeEkerxrrxered 19

Từ "stochastic" chỉ một hệ thống hoặc quá trình liên quan đến xác suất ngẫu nhiên Trong phương pháp Stochastic Gradient Descent, một số mẫu được chọn ngẫu nhiên thay vì sử dụng toàn bộ tập dữ liệu cho mỗi lần lặp Thuật ngữ "batch" trong Gradient Descent thể hiện tổng số mẫu từ tập dữ liệu được dùng để tính toán gradient cho mỗi lần lặp Trong tối ưu hóa Gradient Descent thông thường, như Batch Gradient Descent, lô được xem là toàn bộ tập dữ liệu Mặc dù việc sử dụng toàn bộ tập dữ liệu giúp đạt cực tiểu một cách ít ồn ào và ít ngẫu nhiên hơn, nhưng vấn đề phát sinh khi tập dữ liệu quá lớn.

Trong trường hợp có một triệu mẫu trong tập dữ liệu, việc sử dụng kỹ thuật Gradient Descent truyền thống sẽ yêu cầu tất cả mẫu được sử dụng cho mỗi lần lặp, dẫn đến tốn kém về mặt tính toán Để giải quyết vấn đề này, Stochastic Gradient Descent (SGD) ra đời, cho phép sử dụng chỉ một mẫu duy nhất cho mỗi lần lặp, giúp giảm thiểu chi phí tính toán Mẫu trong SGD được xáo trộn ngẫu nhiên và lựa chọn để thực hiện lặp lại, mang lại hiệu quả cao hơn trong quá trình tối ưu hóa.

Trong Stochastic Gradient Descent (SGD), gradient của hàm chi phí được tính cho một ví dụ duy nhất tại mỗi lần lặp, thay vì tổng hợp gradient từ tất cả các ví dụ Việc chỉ sử dụng một mẫu ngẫu nhiên cho mỗi lần lặp khiến cho quá trình tối ưu trở nên ồn ào hơn so với thuật toán Gradient Descent truyền thống Tuy nhiên, điều này không quan trọng, miễn là thuật toán có thể đạt được cực tiểu với thời gian đào tạo ngắn hơn đáng kể.

Unlike SGD (stochastic gradient descent), which is a method for optimizing the objective function in deep learning, Adam utilizes different learning rates for each parameter based on their individual characteristics.

The Adam optimization algorithm combines the benefits of two popular methods: the Adaptive Gradient Algorithm and Root Mean Square Propagation It utilizes two key parameters, beta1 (first momentum of the gradient) and beta2 (second momentum of the gradient), to enhance the efficiency and performance of the optimization process.

Hiện nay, thuật toán Adam rất phổ biến và được hỗ trợ trong nhiều framework như TensorFlow, Keras và Torch Khi sử dụng Adam từ các thư viện này, cần chú ý đến bốn tham số chính: alpha (learning rate) phản ánh tỷ lệ cập nhật trọng số trong quá trình huấn luyện, với giá trị lớn giúp tăng tốc độ học; beta1 là tỷ lệ giảm dần theo cấp số nhân cho ước lượng moment đầu tiên; beta2 là tỷ lệ giảm dần theo cấp số nhân cho ước lượng moment thứ hai; và epsilon là một giá trị nhỏ hơn 0 để tránh lỗi DIV/0 trong quá trình thực thi.

Các tác giả cũng đã đề nghị nên sử dụng bộ tham số (0.001, 0.9, 0.999, 10-8) cho (alpha, betal, beta2, epsilon) [61].

Adamax là một biến thể của thuật toán Adam, được áp dụng trong lĩnh vực học máy và học sâu nhằm tối ưu hóa quá trình huấn luyện các mạng nơ-ron.

Adamax cũng giống như Adam, khi duy trì một trung bình động của các động mô men đầu tiên và thứ hai của gradient Tuy nhiên, Adamax thay vì sử dụng mô men thứ hai của gradient như Adam, lại sử dụng norm L-infinity của gradient Điều này mang lại lợi ích trong các tình huống có gradient thưa thớt hoặc có phương sai cao.

Việc áp dụng norm L-infinity trong Adamax giúp cải thiện độ ổn định so với Adam khi xử lý các gradient thưa thớt Thêm vào đó, sự loại bỏ thuật ngữ mômen thứ hai cho phép đạt được tốc độ hội tụ nhanh hơn và giảm yêu cầu về bộ nhớ.

Adamax là một thuật toán tối ưu hóa mạnh mẽ, giúp tăng tốc quá trình huấn luyện mạng nơ-ron sâu Thuật toán này cải thiện hiệu suất của các mô hình, đặc biệt trong các tình huống có gradient thưa thớt hoặc phương sai cao.

2.3 Lý thuyết về công nghệ phát trực tiếp

WebRTC (Web Real-Time Communication) là một tập hợp tiêu chuẩn cho phép trình duyệt web và ứng dụng di động thực hiện giao tiếp âm thanh, video và dữ liệu thời gian thực mà không cần cài đặt thêm plugin hay phần mềm Được phát triển bởi Google, WebRTC hiện đã trở thành một phần quan trọng trong hầu hết các trình duyệt hiện đại như Google Chrome, Mozilla Firefox, Microsoft Edge và Safari.

GHEE itor ved developers (CC Pi torbrowsermaters C777 overrideable by browser makers

Hinh 12: Kién trac WebRTC[45] Đặc điểm chính của WebRTC là Peer-to-peer Communication: WebRTC cho phép truyền thông trực tiếp giữa hai thiết bị (peer), không cần qua máy chủ trung gian Điều này giúp giảm độ trễ và tăng hiệu suất.

Hình 13: WebRTC - kiến trúc JSEP[46]

Media Streams: Hỗ trợ truyền tải các luồng media (audio và video) với độ trễ thấp, chất lượng cao.

Data Channels cho phép truyền tải dữ liệu linh hoạt giữa các peer, rất phù hợp cho các ứng dụng như trò chơi trực tuyến, chia sẻ tệp tin và các ứng dụng thời gian thực khác.

NAT Traversal: Sử dung ICE (Interactive Connectivity Establishment) để vượt qua NAT va firewall, giúp kết nối peer-to-peer dé dang hon.

Secure Communication: All WebRTC connections are encrypted to ensure security and privacy Media streams are protected using SRTP (Secure Real-time Transport Protocol), providing robust encryption for real-time data transmission.

Protocol) và data channels được mã hóa bằng DTLS (Datagram Transport Layer Security).

WebRTC có nhiều ứng dụng thực tế, bao gồm cuộc gọi video, hội nghị trực tuyến và các ứng dụng thực tế ảo (VR) cũng như thực tế tăng cường (AR) Một số ví dụ cụ thể của WebRTC là video call, live streaming và chat trực tuyến.

NguOn đữ liệu .- - 5-5 SE 211211211211211 211 11 11 11 1 1111111111211 1tr 31

3.1.1 Nguồn dữ liệu cho mô hình nhận diện cảm xúc Một trong hai bộ dir liệu được sử dung trong bài viết này đã được Kaggle xuất bản tại hội nghị ICML 2013, đó là Fer2013[1 1] Dữ liệu này bao gồm các hình ảnh 48x48, mỗi hình ảnh chỉ chứa các khuôn mặt, được căn giữa trong hình ảnh và được chia tỷ lệ dé bao phu phan lớn diện tích của hình ảnh Hình ảnh được gắn nhãn cảm xúc (tức giận, chán nản, sợ hãi, vui, buồn, bất ngờ, trung tính) và Fer2013 bao gồm 32.298 hình ảnh.

Hình 16 dưới đây là một mẫu của Fer2013:

Hình 15: Một mẫu của Fer2013 (trạng thái tức giận)

Bộ dữ liệu KDEF gồm 4900 hình ảnh về nét mặt con người, tương tự như Fer2013, thể hiện 7 cảm xúc khác nhau của 70 người ở 5 góc nhìn khác nhau Với KDEF, có thể áp dụng cách tiếp cận mới trong việc xác định cảm xúc, cho phép nhận diện cảm xúc của một người qua nhiều khung hình thay vì chỉ một khung hình duy nhất Phương pháp này có khả năng cải thiện độ chính xác trong nhận dạng cảm xúc.

Hình 17 dưới đây là một mẫu của KDEF:

3.1.2 Nguồn dữ liệu cho mô hình nhận diện độ tập trung Student-engagement[55], phát hiện sự tham gia của sinh viên trong các lớp học trực tuyến bằng nhận dạng khuôn mặt Bộ dữ liệu này đã xem xét các bức ảnh học sinh được chụp băng máy tính xách tay trong các lớp học trực tuyến và các cảm xúc khuôn mặt khác nhau của họ.

Nó bao gồm hai lớp chính:

- Tap trung - 1076 hình ảnh thuộc 3 lớp con khác nhau: bối rối - 369 hình ảnh, tập trung - 347 hình ảnh, nản lòng - 360 hình ảnh.

- Khong tập trung - 1044 hình ảnh thuộc 3 phân lớp khác nhau: Nhìn xa - 423 hình ảnh, buồn chán - 358 hình ảnh, buồn ngủ - 263 hình ảnh.

Sau đó kết hợp với hai chỉ số EAR và MAR để cho ra một tập đặc trưng.

- EAR được tính bang công thức sau[56]:

EAR = lP2 — Pell lÌp; — Psll (3)

Khi mắt mở, chỉ số EAR (Eye Aspect Ratio) sẽ cao hơn so với khi mắt đóng Các điểm quan trọng trên mắt bao gồm pi, P2, Pa, p4, Ps và po, như được minh hoạ trong hình 18 dưới đây Hình ảnh này giúp xác định các điểm cần thiết để tính toán EAR một cách chính xác.

- MAR được tinh bằng công thức sau[56]: llp2 — Pell + Ilp3 — ứ;l| + lèp¿ — Vell

Các điểm pi, P2, p3, p4, Ps, Po và p7 trên miệng như hình dưới đây cho thấy rằng chỉ số EAR sẽ cao hơn khi miệng đóng Hình 19 dưới đây minh họa các điểm được lấy ra để tính toán MAR.

Sau khi trích xuất các chỉ số EAR của mắt trái và mắt phải, cùng với MAR của miệng, chúng tôi đã tạo ra một dataset mới tập trung vào hai chỉ số này: EAR và MAR.

Kết quả thực nghiệm và đánh giá các mô hình máy học - 2-2 s22: 34

3.2.1 Kết quả thực nghiệm nhận diện cảm xúc của các nghiên cứu khác Bảng 2: Kết quả nhận diện cảm xúc thực nghiệm trên dataset Fer2013 cua Yousif

Bảng 3: Kết quả nhận diện cảm xúc thực nghiệm trên dataset KDEE của Chong và các đông sự [64]

Kết quả nhận diện cảm xúc với mức chia dataset Fer2013 8-2 (8 phần huấn luyện, 2 phan kiểm thử) Tương ứng với các độ đo:

Bảng 4: Kết quả thực nghiệm trên Fer2013

FI-Score 0.413 0.409 0.326 Accuracy 0.866 0.849 0.875 Delta Epochs 0.000511 0.000507 0.00879

Mô hình CNN (Convolutional Neural Network) nổi bật với khả năng phát hiện các mẫu dương tính cao hơn so với các mô hình khác, mặc dù độ chính xác không đạt mức cao nhất Với F1-Score cao nhất, CNN thể hiện sự cân bằng tốt nhất giữa độ chính xác và khả năng phát hiện mẫu dương tính Tuy nhiên, độ chính xác (Precision) của CNN vẫn còn thấp, dẫn đến nhiều trường hợp nhận diện sai một số mẫu.

- OMTCNN: o Precision cao: MTCNN ít nhận diện sai các mẫu sai hơn so với CNN. o Recall thấp nhất: MTCNN bỏ lỡ nhiều mẫu tích đúng trong ba mô hình.

35 © Accuracy [60] thấp nhất: Điều này cho thấy MTCNN không thể phân loại đúng nhiêu mẫu so với các mô hình khác.

Precision cao nhất: VGG-16 rất chính xác trong việc nhận diện mẫu đúng.

Accuracy cao nhất: Mô hình này có tỷ lệ phân loại đúng cao nhất.

Học nhanh hơn: Sự thay đôi lớn trong độ chính xác qua các epoch cho thấy mô hình này học hiệu quả hơn trong quá trình huấn luyện.

Recall thấp: VGG-16 bỏ lỡ nhiều mẫu đúng, điều này có thé là một van đề nghiêm trọng trong một số ứng dụng.

Vi trong tâm là độ chính xác tông thé va precision nên VGG-16 là lựa chọn tốt nhất vì nó có độ chính xác va precision cao nhat.

Kết quả nhận diện cảm xúc với mức chia dataset KDEF 8-2 (8 phần huấn luyện, 2 phan kiểm thử) Tương ứng với các độ đo:

Bảng 5: Kết quả thực nghiệm trên KDEF

- OCNN: o Precision cao hơn trước: So với các chi số trước ở Fer2013, CNN có sự cải thiện về độ chính xác khi nhận diện mẫu đúng.

Fl-Score tương đối cao: Mặc dù thấp hơn so với MTCNN và VGG-16, nhưng vẫn có sự cân bằng tốt giữa precision và recall.

36 o_ Recall thấp nhất: CNN vẫn bỏ lỡ nhiều mẫu đúng hơn so với MTCNN và

MTCNN tiếp tục thể hiện độ chính xác cao trong việc nhận diện mẫu đúng, với chỉ số recall được cải thiện đáng kể Điều này cho thấy MTCNN đã nâng cao khả năng phát hiện mẫu chính xác hơn Hơn nữa, với FI-Score cao nhất, MTCNN chứng tỏ sự cân bằng tốt giữa precision và recall, làm nổi bật hiệu suất vượt trội của nó trong lĩnh vực nhận diện mẫu.

VGG-16 nổi bật với độ chính xác cao trong việc nhận diện mẫu dương tính, đạt tỷ lệ phân loại đúng cao nhất trong số ba mô hình Bên cạnh đó, mô hình này cũng cho thấy khả năng học nhanh hơn, với sự thay đổi rõ rệt trong độ chính xác qua các epoch.

VGG-16 học hiệu quả hơn trong quá trình huấn luyện. o Recall không cao: VGG-16 van bỏ lỡ nhiều mẫu đúng hơn so với MTCNN.

Vi trong tâm là độ chính xác tông thé va precision nên VGG-16 là lựa chọn tốt nhất vì nó có độ chính xác va precision cao nhât.

3.2.3 Kết quả thực nghiệm nhận diện độ tập trung của các nghiên cứu khác

Bảng 6: Kết quả nhận diện độ tập trung thực nghiệm trên dataset Student-Engagement của Nuha Alruwais va Mohammed Zakariah [63]

3.2.2 Nhận diện độ tap trung

Kết quả nhận diện độ tập trung với mức chia dataset Student-Engagement 8-2 (8 phần huấn luyện, 2 phần kiểm thử) Tương ứng với các độ đo:

Bang 7: Bảng kết quả thực nghiệm trên Student-Engagement

CNN có hiệu suất tổng thể xuất sắc, đặc biệt về độ chính xác và sự ổn định trong quá trình huấn luyện Mô hình này hứa hẹn mang lại giải pháp hiệu quả cho bài toán nhận diện độ tập trung.

- MTCNN có độ chính xác rất cao và khá ồn định, tuy nhiên các chỉ số Precision,

Recall và F1-Score của mô hình van thấp hơn so với CNN, cho thấy rằng mô hình này cần được cải thiện ở một số khía cạnh để đạt được hiệu suất tốt hơn.

- VGG-16 có hiệu suất kém hon hắn so với CNN và MTCNN, với các chỉ số

Mô hình hiện tại có Precision, Recall, F1-Score và Accuracy đều thấp, cho thấy cần thiết phải điều chỉnh lại kiến trúc Việc tối ưu hóa và huấn luyện lại mô hình sẽ giúp cải thiện hiệu suất một cách đáng kể.

Vì vậy MTCNN là lựa chọn tốt nhất nêu bạn ưu tiên độ chính xác tổng thé cao nhất.

Kết quả thực nghiệm các mô hình kết hợp tối ưu SGD - ADAMAX

ADAMAX, SGD và kết hợp SGD va ADAMAX (SGD 10 epochs và 90 epochs) Tat ca đều chạy với 100 epochs Tương ứng với các độ đo:

Bang 8: Bảng kết quả thực nghiệm khi kết hợp với Optimizer

VGG-16 ADAMAX SGD SGD + ADAMAX

- Precision: Độ chính xác của mô hình khi sử dụng ADAMAX, SGD, và SGD +

ADAMAX đều cao, với giá trị lần lượt là 0.905, 0.893, và 0.907 Trong đó, kết hợp SGD và ADAMAX cho độ chính xác cao nhất.

- Recall: Tỷ lệ phát hiện đúng của mô hình khi sử dung SGD thấp nhất (0.565), trong khi kết hợp SGD và ADAMAX đạt cao nhất (0.632).

- Fl-Score: Gia trị Fl-Score, là hài hòa giữa Precision và Recall, cao nhất khi sử dụng kết hợp SGD và ADAMAX (0.590).

Độ chính xác tổng thể của các mô hình với các thuật toán tối ưu đều tương đương, dao động từ 0.895 đến 0.901 Thuật toán ADAMAX đạt giá trị cao nhất là 0.901, nhưng sự khác biệt so với các thuật toán khác là không đáng kể.

Chỉ số Delta Epochs thể hiện sự biến đổi giữa các epochs trong quá trình huấn luyện, với giá trị thấp nhất là 0.0006 đối với ADAMAX, cho thấy sự ổn định cao trong quá trình này.

Độ chính xác trung bình của các thuật toán cho thấy chúng đạt hiệu suất tương đương, trong đó SGD và sự kết hợp giữa SGD và ADAMAX có phần nhỉnh hơn.

Sự kết hợp giữa SGD (10 epochs) và ADAMAX (90 epochs) là lựa chọn tối ưu cho mô hình VGG-16 trong trường hợp này, khi đạt được F1-Score và Recall cao nhất, đồng thời duy trì độ chính xác ổn định.

Việc kết hợp SGD và Adamax trong huấn luyện mô hình mang lại lợi ích lớn, tận dụng ưu điểm của cả hai phương pháp tối ưu hóa để cải thiện hiệu suất và độ ổn định SGD nổi bật với sự đơn giản và hiệu quả trong việc cập nhật tham số nhanh chóng, thường được sử dụng ở giai đoạn đầu để xác định các đường gradient chính Trong khi đó, Adamax, là biến thể của Adam, mạnh mẽ và ổn định hơn trong việc xử lý gradient lớn nhờ sử dụng chuẩn vô hạn (infinity norm) thay vì chuẩn Euclidean, giúp cân bằng tốt hơn khi gradient có độ lớn không đồng đều.

Trong giai đoạn đầu sử dụng SGD, đặc biệt trong 10 epoch đầu tiên, mô hình có thể khởi động nhanh chóng và tìm ra các đường gradient chính, giúp thoát khỏi các cực trị cục bộ Điều này tạo điều kiện cho mô hình tiến nhanh đến các vùng có giá trị gradient lớn, cải thiện hiệu suất học tập.

Việc chuyển sang Adamax đã giúp mô hình ổn định hơn và tinh chỉnh các tham số một cách hiệu quả Adamax tận dụng thông tin của gradient và trung bình động để điều chỉnh learning rate cho từng tham số, từ đó giúp mô hình hội tụ một cách mượt mà hơn.

Kết quả là kết hợp SGD và Adamax giúp cải thiện các chỉ số hiệu suất như Precision và

Recall giúp mô hình vượt qua các cực tri cục bộ, trong khi Adamax tối ưu hóa các tham số để nâng cao độ chính xác Sự kết hợp này cũng góp phần cải thiện chỉ số F1-Score.

Accuracy, cho thay mô hình không chỉ chính xác mà còn cân băng giữa Precision và Recall.

Do sự chênh lệch cao giữa các chỉ số precision và recall, nhóm quyết định chỉ sử dụng độ chính xác (accuracy) để đánh giá các mô hình Điều này cũng giúp dễ dàng so sánh với các nghiên cứu trước đây, vì các tác giả trong những nghiên cứu đó cũng chỉ sử dụng độ chính xác để đánh giá.

PHAN TÍCH THIET KE HE THONG

4.1 Sơ đồ kiờn trỳc hệ 20/84 1811X3 + BuIssứsoid abewy * SiInSa/ UOI24p3I41

(Syuali2 Auews 10 auo 0} puas) dius

4 onneypos Buisn )ualj2 peusot 9| 0oiivt040j0) pues——— Buca

—————or19205 Bulsn syjnses Uon>}pasd puss—— onjapos @ ap eu

` | To | soanpoid 0IDfV „ = eo qwowebeuey c=

—— ằ⁄ he ˆSiỉSn 0) (IOITB(00JU 2ỉIDSU09 pUõS ô 3) oe 108 pue 1U9Ii2 ON luaavaq UO2869 iodsuea ysnqeIsa ô =5 sanyqedes 4124 13)n0) 2A2018à1 ô (ome ! Fe) ơ

'Sa2\Alas Buyeubis lam li

49AI9S Ure S@d1MAS di LH UOWWOD E7] apeu uoneonueuiny ô qwawabeuew (UOOài + quawabeuew 28/1 ô quawabeuew SSE|2 ô

Mô tả kiến trúc hệ thống:

- WebRTC Send Transport [30]: Dành cho việc gửi các luồng âm thanh va video từ phía người dùng: Audio Producer va Video Producer.

- WebRTC Recv Transport [30]: Dành cho việc nhận các luồng âm thanh và video từ phía server: Audio Consumer và Video Consumer.

Node.js with Express.js is commonly utilized for various HTTP services, including authentication, room management, user management, and class management.

= MongoDB: Dùng dé lưu trữ dữ liệu.

Node.js with Socket.IO is utilized for retrieving the RTP capabilities of the receiver, establishing a transport connection between the client and server, transmitting consumer information to users and the server's Machine Learning system, and delivering prediction results from the Machine Learning server back to the client via Socket.IO.

- Mediasoup làm nhiệm vụ xử ly các luồng WebRTC.

- Worker: Quản lý các phòng va router.

= Router: Một router cho mỗi phòng.

= WebRTC Transport (Send): Cho từng client, bao gồm:

WebRTC Transport (Recv): Cho từng client, bao gồm: e Audio Consumer e Video Consumer

SRTP [31]: Sử dung dé gửi luồng đến một hoặc nhiều client.

Socket.IO: Dùng để giao tiếp với main server. aioRTC [32] và Mediasoup: Được sử dụng cho việc nhận và xử lý luồng video.

WebRTC Recv Transport: Tạo một transport cho mỗi phòng. e Video Consumer

Storage: Dành cho việc lưu trữ đữ liệu video.

Xử lý hình ảnh bao gồm các bước trích xuất khung hình, xử lý hình ảnh và dự đoán Kết quả dự đoán sẽ được gửi lại cho máy chủ chính và sau đó chuyển đến khách hàng.

4.2 Cách hoạt động của hệ thống

Kiên trúc media server của nhóm khi implement mediasoup với signaling là socket.io sẽ được đề cập bên dưới đây.

Khi triển khai hệ thống media server với Mediasoup và signaling qua Socket.IO, kiến trúc tổng thể sẽ bao gồm nhiều thành phần phối hợp chặt chẽ để đảm bảo truyền thông thời gian thực hiệu quả và mượt mà.

Các Thành Phần Chính của Hệ Thống:

Browser/Ung dung di động: Gửi và nhận các luồng media (audio, video) và dữ liệu.

Socket.IO Client: Quản lý kết nối signaling với server dé trao đổi thông tin cần thiết cho việc thiết lập và duy trì kết nối WebRTC.

Socket.IO Server: Xử lý các kết ni signaling từ các client, quản lý việc trao đồi

Logic Application: Xử lý các logic ứng dụng như quản lý người dùng, phiên làm việc, và các sự kiện signaling khác.

Mediasoup Router: Dinh tuyến và quan lý các luồng media giữa các client.

Mediasoup Transport: Quản lý các kết nối transport như WebRtcTransport giữa client và media server.

Mediasoup Producer: Đại diện cho các luồng media (audio, video) được gửi từ client đến media server.

Mediasoup Consumer: Đại diện cho các luồng media được gửi từ media server đến client.

STUN/TURN Server: Hỗ trợ các client vượt qua NAT va firewall dé thiết lập két nôi peer-to-peer.

Database: Lưu trữ thông tin người dùng, phiên làm việc và các cau hình hệ thống.

Client kết nói đến signaling server thông qua Socket.]O.

Signaling server xác thực client và khởi tạo phiên làm việc.

The client sends SDP (Session Description Protocol) information and ICE candidates to the signaling server via Socket.IO The signaling server then relays this information to other clients in the session to establish a WebRTC connection.

Mediasoup. © Client gửi các luồng media (audio, video) đến Mediasoup qua Producer. e© Mediasoup nhận và quan lý các luồng media này.

- Quan Lý Luồng Media: e Mediasoup Router định tuyến các luồng media từ Producer đến Consumer. e Client nhận các luồng media từ Mediasoup qua Consumer và hiển thị chúng.

- Quan Lý Kênh Dữ Liệu: e Nếu cần thiết, client có thé tạo va quản ly các kênh dữ liệu qua Mediasoup

DataProducer và DataConsumer là hai kênh dữ liệu quan trọng, cho phép gửi thông tin bổ sung giữa các client Chúng có thể được sử dụng để truyền tải tin nhắn chat hoặc dữ liệu điều khiển một cách hiệu quả.

Mediasoup được tối ưu hóa cho việc xử lý luồng media với độ trễ thấp và hiệu suất cao.

Tiêu đề	Xây Dựng Hệ Thống Học Trực Tuyến Sử Dụng Các Mô Hình Máy Học Nhận Diện Cảm Xúc Và Theo Dõi Ánh Nhìn Của Học Viên
Tác giả	Đỗ Đặng Kiến Nam, Phạm Phú Tuấn
Người hướng dẫn	PGS. TS Nguyễn Đình Thuận
Trường học	Đại Học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành	Cử Nhân Ngành Hệ Thống Thông Tin
Thể loại	Khóa Luận Tốt Nghiệp
Năm xuất bản	2024
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	74
Dung lượng	85,76 MB