(Đồ án HCMUTE) thiết kế và chế tạo cánh tay robot tương tác qua màn hình để hỗ trợ trong giảng dạy học ngôn ngữ kí hiệu cho trẻ em câm điếc

Thứ nhất, mô hình phần cứng với nguyên mẫu là cánh tay robot có thể thao tác linh hoạt được những cử chỉ của bảng chữ cái và chữ số của ngôn ngữ kí hiệu Việt Nam.. Tuy nhiên, bộ dữ liệu

TỔNG QUAN

Giới thiệu

Theo WHO, hiện nay trên thế giới có khoảng 34 triệu trẻ em điếc và khiếm thính

Tại Việt Nam, có khoảng 15,500 trẻ em dưới 5 tuổi bị khiếm khuyết về thính giác, theo thống kê năm 2014 Những trẻ em này thường không thể nghe thấy âm thanh, dẫn đến việc không hình thành ngôn ngữ và cản trở sự phát triển cá nhân so với bạn bè đồng trang lứa Nếu không nhận được sự quan tâm đúng mức, các em có thể rơi vào tình trạng tự ti và dễ mắc bệnh trầm cảm trong tương lai.

Ngôn ngữ ký hiệu là phương tiện giao tiếp sử dụng cử chỉ tay và điệu bộ thay cho âm thanh giọng nói, giúp xóa bỏ rào cản giao tiếp cho người câm và điếc, đồng thời mở ra cơ hội tiếp cận tri thức Tuy nhiên, do tính chất tượng hình của ngôn ngữ này, việc học đòi hỏi sự hướng dẫn từ giáo viên trong thời gian dài, trong khi số lượng giáo viên dạy ngôn ngữ ký hiệu còn hạn chế, chủ yếu tập trung ở các thành phố lớn Do đó, phát triển sản phẩm thay thế giáo viên trong giảng dạy ngôn ngữ ký hiệu là một nhu cầu cấp thiết.

Trong những năm gần đây, xã hội đã chú trọng đến trẻ em và người khuyết tật Nguyễn Trọng Thành và Trần Thiện Thanh đã phát triển một cánh tay giả giúp người khuyết tật cầm nắm đồ vật, sử dụng Arduino Nano, servo và cảm biến cơ bắp EMG Đồng thời, Đặng Thị Ngọc và Nguyễn Hương Ngân đã ứng dụng mạng học sâu Yolo để thiết kế mô hình nhận diện.

30 đối tượng khác nhau từ đó làm cơ sở cho trẻ em học Tiếng Anh thêm linh hoạt hơn

Thời đại công nghệ 4.0 đã dẫn đến sự phát triển của nhiều ứng dụng tự học ngôn ngữ ký hiệu trên thiết bị thông minh, cung cấp tài liệu số dưới dạng video và ảnh động để hỗ trợ người học Tuy nhiên, WHO khuyến cáo không nên để trẻ em tiếp cận quá sớm với các thiết bị này do rủi ro ảnh hưởng đến sức khỏe và nhận thức Mặc dù các ứng dụng này mang lại sự thuận tiện cho việc học ngôn ngữ ký hiệu, nhưng chưa hoàn toàn phù hợp cho trẻ em Để cải thiện giao tiếp giữa người điếc, khiếm thính và người bình thường, các nhà nghiên cứu đã phát triển hệ thống nhận diện ngôn ngữ ký hiệu, có khả năng phiên dịch giữa ngôn ngữ ký hiệu, văn bản và lời nói.

Trong nhận dạng ngôn ngữ ký hiệu, có hai danh mục chính: nhận diện dựa trên dữ liệu từ cảm biến và nhận diện qua thị giác máy tính Một nghiên cứu đã giới thiệu một chiếc găng tay thông minh có khả năng nhận diện cử chỉ tay nhờ tích hợp cảm biến và vi điều khiển, mang lại độ chính xác cao Tuy nhiên, nhược điểm của hệ thống này là dây điện và thiết bị điện tử gắn lên người, gây hạn chế khả năng thao tác của người dùng Đối với công nghệ nhận diện qua thị giác máy tính, nhiều phương pháp đã được đề xuất dựa trên máy học và mạng học sâu, như phân đoạn ảnh.

Các mô hình mạng CNNs đã đạt được những kết quả ấn tượng trong nhận dạng ngôn ngữ Tuy nhiên, bộ dữ liệu hiện tại còn hạn chế và chủ yếu tập trung vào các ngôn ngữ ký hiệu địa phương, dẫn đến việc không thể phân biệt các đặc trưng riêng về dấu phụ của nguyên âm và dấu thanh trong Tiếng Việt.

Nhóm nghiên cứu đã đề xuất đề tài “Thiết kế và chế tạo cánh tay robot tương tác qua màn hình” nhằm hỗ trợ giảng dạy ngôn ngữ ký hiệu cho trẻ em câm điếc Qua dự án này, nhóm hy vọng góp phần vào lĩnh vực giáo dục ngôn ngữ cho trẻ em câm điếc tại Việt Nam.

Mục tiêu đề tài

Thiết kế và thi công hệ thống phần cứng cánh tay robot giúp thực hiện các ký tự thủ ngữ, hỗ trợ dạy học trực quan Hệ thống sử dụng các thuật toán nhận diện cử chỉ tay dựa vào thị giác máy tính, đánh giá hiệu quả quá trình học ngôn ngữ mà không cần giáo viên Cuối cùng, giao diện tương tác được thiết kế để triển khai các chức năng phù hợp với quá trình học cơ bản của một ngôn ngữ.

Đối tượng và phạm vi nghiên cứu

- Bảng chữ cái alphabet (a-y), chữ số (0-9) và các dấu thanh (sắc, huyền, hỏi, ngã, nặng) của ngôn ngữ kí hiệu Việt Nam

- Các thuật toán nhận diện cử chỉ tay bao gồm cử chỉ tĩnh và cử chỉ động

- Các thao tác chỉ tập trung áp dụng trên bàn tay phải con người

- Phần cứng cơ khí của hệ thống có kích thước 25x18x72 (cm)

- Cánh tay robot có khả năng thực hiện trên một nửa tổng số các kí tự thủ ngữ

- Các mô hình nhận diện được thực thi tuần tự, không đan xen nhau

- Hệ thống nhận diện đại diện 5 kí tự cử chỉ tĩnh và 11 kí tự cử chỉ động.

Nội dung nghiên cứu

Đề tài được thực hiện gồm các nội dung chính sau:

- Nội dung 1: Khảo sát vấn đề thực tế đang cần giải quyết để đưa ra hướng nghiên cứu

- Nội dung 2: Tìm hiểu các phương pháp thu thập và tăng cường dữ liệu phục vụ cho các bài toán nhận thức hình ảnh

- Nội dung 3: Tìm hiểu lý thuyết và áp dụng mạng YoloV5 để nhận diện cử chỉ tĩnh của ngôn ngữ kí hiệu

- Nội dung 4: Tìm hiểu và áp dụng thư viện MediaPipe để trích xuất vị trí 3D của các khớp ngón tay

Nghiên cứu lý thuyết và ứng dụng xây dựng mô hình mạng Gated Recurrent Units (GRU) nhằm nhận diện cử chỉ động trong ngôn ngữ ký hiệu.

- Nội dung 6: Thiết kế và thi công mạch điện và mô hình phần cứng

- Nội dung 8: Thiết kế giao diện người dùng

- Nội dung 9: Thực nghiệm, hiệu chỉnh và đánh giá hệ thống

- Nội dung 10: Viết báo cáo tổng kết

- Nội dung 11: Bảo vệ luận án.

Bố cục

Chương này tóm tắt các yêu cầu chính của báo cáo, bao gồm phần giới thiệu, mục tiêu, phạm vi và nội dung của luận văn.

CƠ SỞ LÝ THUYẾT

Các nghiên cứu đã thực hiện

Một nhóm nghiên cứu tại đại học Antwerp đã phát triển thành công một thiết bị phiên dịch văn bản hoặc lời nói sang ngôn ngữ ký hiệu, sử dụng một cánh tay robot Người dùng chỉ cần kết nối với mạng cục bộ và gửi tin nhắn văn bản đến Aslan, sau đó cánh tay robot sẽ thao tác các chữ cái theo hệ thống bảng chữ cái, được gọi là chính tả ngón tay, với mỗi chữ cái được thể hiện qua một cử chỉ riêng biệt.

Hình 2.1 Mô hình cánh tay robot Aslan

Cánh tay robot được chế tạo và lắp ráp từ công nghệ in 3D, sử dụng 16 động cơ servo, 3 bộ điều khiển động cơ, và 1 board vi điều khiển Arduino Due cùng với các linh kiện khác để điều khiển hoạt động.

2.1.2 Nhận diện ngôn ngữ kí hiệu dựa trên YoloV5

Trong bài báo năm 2021, Tasnim Ferdous Dima và các đồng nghiệp đã phát triển một hệ thống nhận diện 36 chữ cái và chữ số trong ngôn ngữ ký hiệu Mỹ, sử dụng mạng YoloV5 để cải thiện tốc độ nhận diện mà không làm giảm độ chính xác Họ đã sử dụng tập dữ liệu Benchmark (MU_HandImages ASL) trong quá trình huấn luyện và đánh giá Hệ thống đạt được kết quả ấn tượng với độ chính xác trung bình, bao gồm 95% Precision, 97% Recall, 98% mAP@0.5 và 98% mAP@0.5:0.95.

2.1.3 Nhận diện ngôn ngữ kí hiệu sử dụng MediaPipe và Long Short-Term Memory

Bài báo của Souradeep Ghosh [12] giới thiệu một cách tiếp cận mới, tập trung vào các cử chỉ động trong ngôn ngữ ký hiệu Mỹ, sử dụng công nghệ MediaPipe.

Khung tay được sử dụng để trích xuất tọa độ 42 điểm chính từ các đốt ngón tay của hai bàn tay Những tọa độ này sau đó được đưa vào mô hình LSTM, một mô hình rất phù hợp cho các bài toán với dữ liệu dạng chuỗi Mô hình do tác giả phát triển có khả năng nhận diện trong thời gian thực với 5 từ: “wait, think, tiger, teacher, twins”.

Ngôn ngữ kí hiệu Việt Nam

Ngôn ngữ ký hiệu khác nhau giữa các quốc gia và khu vực, hình thành từ phong tục, văn hóa và lịch sử của cộng đồng người câm – điếc Qua thời gian, ngôn ngữ ký hiệu phát triển và có những điểm chung, nhưng vẫn giữ được nét đặc trưng riêng của từng khu vực Chẳng hạn, ở Hồ Chí Minh, người ta dùng tay chỉ vào môi để diễn đạt "màu hồng", trong khi người Hà Nội lại xoa tay vào má.

Hình 2.2 Bảng ký hiệu thủ ngữ cơ bản trong Tiếng Việt

Ngôn ngữ ký hiệu có thể được chia thành hai nhóm chính: nhóm giao tiếp và nhóm đánh vần Nhóm giao tiếp thường được sử dụng trong các hoạt động hàng ngày, như việc chắp tay lên má khi ngủ hoặc nắm tay lại khi hát, kết hợp với cử chỉ cơ thể và biểu cảm khuôn mặt để diễn đạt từ, cụm từ hoặc câu trong những ngữ cảnh cụ thể Ngược lại, nhóm đánh vần chủ yếu dành cho những người mới học ngôn ngữ ký hiệu, với các ký tự thường chỉ sử dụng một tay để diễn đạt Nhóm này bao gồm các ký tự chữ cái, chữ số và các dấu thanh cơ bản, là đối tượng chính mà đề tài hướng đến Theo luận án về nhận dạng ngôn ngữ ký hiệu Tiếng Việt, các ký tự này được chia thành hai loại: ký hiệu tĩnh, dùng để diễn tả cử chỉ tĩnh như chữ “A”, “S” hay các số “2”, “5”, và ký hiệu liên tục, yêu cầu thực hiện chuỗi thao tác để diễn tả như dấu ngã (~), dấu huyền (`) hay các chữ cái “Ă”, “Ê”, “Ư”.

Học sâu (Deep Learning)

Deep Learning, một nhánh của trí tuệ nhân tạo, phát triển từ mạng nơ-ron nhiều lớp (MLP - Multilayer Perception) Sự ra đời của Deep Learning đã khởi động cuộc đua xây dựng các kiến trúc mô hình với hàng chục, thậm chí hàng trăm lớp mạng chồng lên nhau, nhằm giải quyết các bài toán cụ thể như thị giác máy tính và xử lý ngôn ngữ tự nhiên.

Mạng nơ-ron tích chập (CNNs) là một mô hình nổi bật trong lĩnh vực học sâu, giúp tiết kiệm thời gian trong việc trích xuất đặc trưng từ hình ảnh so với các phương pháp thủ công trước đây CNNs mang đến một cách tiếp cận mới cho các bài toán nhận thức hình ảnh, khai thác các nguyên lý từ đại số tuyến tính, đặc biệt là phép nhân ma trận để nhận diện mẫu trong hình ảnh Tuy nhiên, công nghệ này yêu cầu khả năng tính toán cao, cần sử dụng các đơn vị xử lý đồ họa (GPUs) mạnh mẽ để đào tạo mô hình hiệu quả.

Hình 2.3 Mạng nơ-ron với nhiều lớp Convolution [14]

Các mô hình CNN tuân theo một kiến trúc mạng nhất định, bao gồm chuỗi các lớp mạng liên tiếp, trong đó đầu ra của lớp trước là đầu vào của lớp sau Ba lớp mạng chính trong CNN bao gồm lớp Convolution, lớp Pooling và lớp Fully connected, như được thể hiện trong hình 2.3.

Lớp Convolution sử dụng các bộ lọc dạng ma trận để thực hiện phép nhân chập với ảnh đầu vào, sau đó áp dụng các hàm kích hoạt nhằm tạo ra các bản đồ đặc trưng (feature map).

Lớp Pooling là một thành phần quan trọng trong mạng nơ-ron, nằm sau các lớp convolution Chức năng chính của lớp này là giảm kích thước của bản đồ đặc trưng, từ đó giảm thiểu số lượng tính toán cho các lớp tiếp theo Sự kết hợp giữa lớp Convolution và lớp Pooling giúp các đặc trưng trở nên tổng quát hơn theo thời gian.

Lớp Fully Connected (FC) hoạt động giống như một mạng nơ-ron nhiều lớp trong các mạng nơ-ron nhân tạo (ANNs) Lớp FC có vai trò quan trọng trong việc biến đổi các đặc trưng ở giai đoạn cuối của mạng và truyền đạt kết quả đến đầu ra.

Phát hiện vật thể (Object Detection)

Trong lĩnh vực thị giác máy tính, phát hiện vật thể là một phương thức quan trọng thúc đẩy sự phát triển của công nghệ trí tuệ nhân tạo Khác với phân loại, phát hiện vật thể thực hiện đồng thời hai nhiệm vụ: xác định vị trí và gán nhãn cho các đối tượng trong ảnh Ứng dụng của phát hiện vật thể rất đa dạng, bao gồm an ninh, thống kê, robot và nhiều lĩnh vực khác.

Mặc dù CNNs mang lại nhiều khả năng, nhưng chúng không thể giải quyết hiệu quả bài toán phát hiện vật thể, vì bản chất của chúng chỉ là mạng trích xuất đặc trưng ảnh với đầu ra là kết quả phân loại Kể từ năm 2012, nhiều mạng chuyên sâu đã ra đời như một hướng tiếp cận mới, trong đó nổi bật là các kiến trúc RCN, fast R-CNN và faster R-CNN, đã giới thiệu thuật ngữ Region of Interest (RoI) để đề xuất các vùng có thể chứa đối tượng Để đáp ứng nhu cầu triển khai thời gian thực, các mạng nhận diện nhanh hơn như YOLO và SSD đã xuất hiện, cho phép dự đoán các “class” và vẽ “bounding box” chỉ với một lần chạy thuật toán.

Kể từ những năm 2000, nhiều cấu trúc mạng CNNs phức tạp đã được phát triển, được gọi là mạng xương sống "backbone", nhằm trích xuất đặc trưng ảnh theo chiều sâu Mục tiêu của các mạng này là nâng cao tính khái quát và trừu tượng của mô hình, giúp tính toán các đặc trưng ảnh ngày càng sâu hơn Đồng thời, chúng cũng tăng cường khả năng ứng dụng trong nhiều bài toán nhận thức hình ảnh khác nhau, dựa trên khái niệm trường nhìn (Receptive Field) của từng nơ-ron CSPNet là một mô hình mạng xương sống với nguyên lý được mô tả trong hình 2.4.

Mô hình bắt đầu bằng cách chia bản đồ đặc trưng đầu vào thành hai phần bằng nhau, với một phần giữ nguyên để ghép nối ở các lớp sau, trong khi phần còn lại được đưa vào khối xử lý gốc để trích xuất đặc trưng Khối CSP nổi bật với khả năng giảm 50% khối lượng tính toán bằng cách chia feature map thành hai, giúp bảo toàn thông tin từ các lớp trước và giảm độ phức tạp của mô hình.

Hình 2.4 Cấu trúc mạng xương sống CSPNet

CSPDarknet là một mạng nơ-ron kết hợp giữa Darknet53 và CSPnet, sử dụng kỹ thuật CSPNet để chia bản đồ đặc trưng thành hai phần và kết hợp chúng qua hệ thống phân cấp nhiều giai đoạn CSPDarknet53 vượt trội hơn ResNet trong việc phát hiện đối tượng, trong khi ResNet lại mạnh hơn trong phân loại Để khắc phục hạn chế này, có thể áp dụng hàm kích hoạt Mish cùng với các chiến lược như SPP, PAN và SAM Trong kiến trúc CSPDarknet53, phép tính cộng ở lớp cuối của khối CSP giúp tối ưu hóa quá trình lan truyền đạo hàm qua mạng.

Hình 2.5 Kiến trúc mạng xương sống CSPDarknet53

2.4.3 You Only Look Once (YOLO)

YOLO, tạm dịch là "Bạn chỉ cần nhìn một lần", là một mô hình mạng thuộc nhóm One-stage, được phát triển lần đầu bởi Joseph Redmon và các cộng sự Giống như SSD, YOLO được thiết kế để nhận diện với tốc độ cao thông qua các lớp Convolution và Fully-connected Các lớp Convolution chịu trách nhiệm trích xuất đặc trưng của ảnh, trong khi lớp Fully-connected dự đoán xác suất và tọa độ bốn góc bao quanh đối tượng.

Mô hình YOLO hoạt động bằng cách chia hình ảnh đầu vào thành các ma trận kích thước SxS, sử dụng thông số IOU và hàm mất mát bao gồm Classification loss, Localization loss, và Confidence loss để xác định và tạo ra các bounding box Bounding box có độ tin cậy cao nhất sẽ được chọn làm hộp giới hạn nhận diện cho vật thể, từ đó hình thành cơ sở cho các phiên bản cải tiến sau này Trong số đó, Yolov5 được coi là phiên bản tốt nhất của YOLO hiện nay, tuy nhiên vẫn chưa được sử dụng rộng rãi do chưa có bài báo chính thức nào công bố về nó.

Backbone: CSPDarknet Neck: PANet Head: Yolo Layer

Cross Stage Partial Network Spatial Pyramid Pooling

Hình 2.7 Kiến trúc mạng YoloV5

Kiến trúc của YoloV5 được mô tả ở hình 2.7 bao gồm 3 phần chính:

- YoloV5 Backbone: Sử dụng CSPDarknet làm mạng xương sống để trích xuất đặc trưng từ các hình ảnh bao gồm các CSP

YoloV5 Neck sử dụng PANet để xây dựng một mạng lưới kim tự tháp đặc trưng, giúp tổng hợp các đặc trưng và chuyển giao cho Head để thực hiện dự đoán.

- YoloV5 Head: Các lớp tạo dự đoán từ các hộp neo (anchor boxes) để phát hiện đối tượng

Bài báo [16] đã so sánh hiệu suất của ba mô hình nhận diện vật thể phổ biến hiện nay: YoloV3, YoloV5s và SSD-MobileV2 trong việc nhận diện khẩu trang Kết quả từ bảng 2.1 cho thấy YoloV5 đạt tốc độ nhận diện nhanh nhất khi sử dụng cùng một mô hình phần cứng và tập dữ liệu huấn luyện, nhưng điều này đi kèm với sự giảm sút về độ chính xác trung bình.

Bảng 2.1 Phân tích hiệu suất của mô hình YoloV3, YoloV5s và SSD–MobileV2 [16]

FPS Tesla T4 1660 Ti Jetson Nano

Nhận dạng hành động (Action Recognition)

Việc học để phát hiện và phân biệt các hành động là nhiệm vụ quan trọng đối với con người và trong lĩnh vực thị giác máy Định nghĩa về hành động trong luận án này được hiểu là quá trình tương tác của một người với đối tượng, người khác hoặc thực hiện các chuyển động cơ thể Các ví dụ về hành động con người bao gồm chạy bộ, đi xe đạp, uống nước, vẫy tay và đọc luận án Thách thức này đã đặt ra nhiều khó khăn cho computer vision và deep learning, vì nó làm thay đổi các quy tắc nhận diện trước đây Thay vì chỉ nhận diện đối tượng hay nhãn của một bức ảnh, chúng ta cần tìm kiếm sự liên kết giữa các hình ảnh để đưa ra phán đoán về hành động đang diễn ra.

Ngày nay, lượng dữ liệu video trên Internet đang gia tăng nhanh chóng, với hơn 400 giờ video được đăng tải lên YouTube mỗi phút vào năm 2015 Việc kiểm soát nội dung video để ngăn chặn các hành vi tiêu cực như bạo lực và hiếp dâm là rất cần thiết Sự phát triển của công nghệ nhận diện hành động đã đóng góp quan trọng vào việc nâng cao chất lượng các sản phẩm truyền thông, góp phần tạo ra một môi trường mạng xã hội văn minh hơn.

Nhận dạng hành động có nhiều ứng dụng thực tiễn, như truy xuất video dựa trên nội dung (ví dụ: tìm kiếm video có người đá bóng), hệ thống hỗ trợ người già (cảnh báo khi người dùng bị ngã hoặc đột quỵ), và tương tác giữa người và máy tính (tạm dừng phim khi người xem rời ghế) Tuy nhiên, bài toán này gặp nhiều thách thức do sự tương đồng giữa các hành động (như chạy bộ và đi bộ), các hành động chồng chéo (ví dụ: vừa ăn cơm vừa lướt điện thoại), và sự thay đổi góc nhìn từ các camera khác nhau.

Mạng nơ-ron hồi quy (RNNs) là kiến trúc mạng nơ-ron nhân tạo lý tưởng cho các bài toán liên quan đến dữ liệu chuỗi hoặc tuần tự như video và âm thanh Tính chất "Recurrent" của mạng cho phép thực hiện lặp lại một cấu trúc tính toán duy nhất trong suốt quá trình xử lý, với dữ liệu đầu vào (𝑥 𝑇) thay đổi Điều này giúp giảm số lượng tham số bên trong, từ đó tăng tốc độ xử lý Hơn nữa, nhờ vào bộ nhớ nội tại, RNNs có khả năng lưu giữ các giá trị trạng thái chuỗi hoặc ngữ cảnh của câu nói, điều mà các mạng nơ-ron khác như ANN hoặc CNNs không thể thực hiện.

Hình 2.8 Kiến trúc mạng điển hình của RNNs

Tại mỗi lớp mạng nơ-ron sẽ bao gồm:

 𝑥 𝑡 là dữ liệu đầu vào

 𝑦 𝑡 là phán đoán đầu ra

 ℎ 𝑡−1 là biến trạng thái ẩn trước đó, mô tả ngữ cảnh của chuỗi tính tới thời điểm T

 ℎ 𝑡 là trạng thái ẩn sau khi đã được tổng hợp để cung cấp cho bước tính toán tiếp theo

Trong quá trình huấn luyện, mô hình RNNs tìm kiếm bộ ba trọng số (U, W, V) để đạt trạng thái tối ưu Công thức tính toán cho bộ trọng số này được thể hiện qua hai phương trình: \$h_t = \phi_h (W x_t + U h_{t-1})\$ và \$h_t = \phi_y (V h_t)\$.

Trong quá trình học, các hàm kích hoạt ∅ ℎ và ∅ 𝑦 thường được sử dụng là hàm sigmoid Để tính tổng giá trị mất mát, chúng ta cần tính hàm mất mát cục bộ tại mỗi vị trí đầu 𝑦 𝑡 và sau đó tính trung bình các giá trị này để thu được giá trị hàm mất mát toàn cục.

Mạng RNNs có hạn chế trong việc xử lý chuỗi dài do hiện tượng triệt tiêu đạo hàm (vanishing gradient) Để khắc phục điều này, các nhà nghiên cứu đã phát triển hai biến thể là Gated Recurrent Unit (GRU) và Long Short-Term Memory (LSTM) Bằng cách thay thế ô tính tiêu chuẩn của RNN bằng ô nhớ, GRU và LSTM có khả năng lưu trữ các giá trị kích hoạt từ dữ liệu trước đó trong chuỗi dài Cả hai biến thể này đều có khả năng xác định thông tin quan trọng và lọc để chuyển đến ô nhớ tiếp theo.

Gated Recurrent Units (GRUs) được giới thiệu vào năm 2014 như một biến thể của RNN, nhằm khắc phục vấn đề vanishing gradient mà RNN gặp phải GRUs là phiên bản cải tiến của LSTM với số lượng tham số ít hơn, giúp tiết kiệm bộ nhớ và tăng tốc độ triển khai thuật toán Một đơn vị GRU sử dụng hai cổng: Update Gate và Reset Gate, cho phép lựa chọn thông tin để truyền ra đầu ra Các cổng này có khả năng lưu giữ thông tin quá khứ mà không bị mất mát theo thời gian, đồng thời loại bỏ thông tin không cần thiết cho quá trình phán đoán Cấu trúc của một GRU điển hình được thể hiện trong hình 2.9.

Hình 2.9 Cấu trúc tính toán bên trong GRU

Các công thức toán học đằng sau một đơn vị được mô tả dưới đây:

Nội dung bộ nhớ hiện tại $ h_t $ quyết định thông tin nào của các vector giá trị sẽ được giữ lại cho bước tính toán hiện tại và thông tin nào sẽ được truyền xuống các lớp mạng phía sau Đầu ra hoặc dự đoán được biểu diễn bằng $ h_t $ Ma trận trọng số $ W(z,r) $ được tối ưu hóa trong quá trình huấn luyện, trong khi các hàm kích hoạt phi tuyến như $ \tanh $ và $ \sigma $ được sử dụng Thời gian hiện tại được ký hiệu là $ t $ và thời gian trước đó là $ t-1 $.

MediaPipe Hands là một framework trong bộ giải pháp MediaPipe, chuyên theo dõi ngón tay và bàn tay với độ chính xác cao Framework này bao gồm hai mô hình hoạt động đồng thời Khi nhận hình ảnh đầu vào, mô hình phát hiện lòng tay (Palm detection model) sẽ xác định giới hạn bàn tay với độ chính xác lên đến 95,7% theo báo cáo của Google Tiếp theo, mô hình mốc bàn tay (hand landmark model) sẽ dự đoán các điểm quan trọng trên bàn tay.

Bộ xương bàn tay được xác định bởi 21 điểm mốc 3D, như mô tả trong hình 2.10 Đối với mỗi mốc, đường ống sẽ trích xuất tọa độ với ba giá trị (x, y, z), trong đó kích thước khung hình đầu vào là (x, y) và giá trị chiều sâu từ camera đến bàn tay là (z) Thư viện MediaPipe Hand mang lại khả năng thực thi thời gian thực, tạo điều kiện thuận lợi cho việc xử lý và nhận diện bàn tay.

Hình 2.10 Sự dự đoán 21 điểm mốc trên xương bàn tay con người [19]

Các phương pháp đánh giá

Khi thực hiện bài toán phân loại, có bốn trường hợp dự đoán có thể xảy ra, bao gồm các định nghĩa thành phần của chúng, trong đó A và B là các thuật ngữ tượng trưng.

- True Negative (TN): Một cử chỉ của kí tự không phải B và đã được xác định đúng là như vậy

- True positive (TP): Cử chỉ của kí tự A được nhận dạng đúng là cử chỉ của chữ

- False Negative (FN): Cử chỉ của kí tự A nhưng được nhận dạng là của một kí tự khác

- False Negative (FN): Một cử chỉ tuy không phải là của kí tự B nhưng được nhận dạng chính là của kí tự B

Accuracy (độ chính xác) được xác định dựa trên tỉ lệ giữa các mẫu dự đoán đúng và tổng số mẫu được đưa vào dự đoán

Precision là một chỉ số xác định độ tin cậy của mô hình dựa trên số lượng các dự đoán đúng được thực hiện

Recall đại diện cho độ nhạy của mô hình từ đó đánh giá được khả năng phân loại để tìm ra các kết quả tích cực

Đối với Precision và Recall, giá trị cao của các chỉ số này cho thấy mô hình có hiệu suất tốt Tuy nhiên, chỉ số này chỉ tập trung vào một khía cạnh nhất định, vì vậy cần sử dụng thêm F1 Score để đạt được sự cân bằng.

Đường cong ROC và AUC là công cụ quan trọng để đánh giá hiệu suất của mô hình phân loại, với ROC thể hiện mối quan hệ giữa tỉ lệ kết quả tích cực đúng (TPR) và tỉ lệ kết quả tích cực sai (FPR) khi thay đổi ngưỡng phân loại AUC, diện tích dưới đường cong ROC, càng lớn thì mô hình càng hiệu quả, với đường cong ROC di chuyển gần về góc phần tư phía bên trái của đồ thị.

Ngoài các chỉ số đánh giá, ma trận nhầm lẫn (confusion matrix) là một phương pháp hữu ích để hình dung khả năng nhận diện của mô hình Hình 2.11 minh họa ma trận nhầm lẫn dưới dạng tổng quát.

N e ga ti ve P o si ti ve

Hình 2.11 Ma trận nhầm lẫn

Đánh giá mô hình phát hiện đối tượng thường dựa vào chỉ số đo lường phần giao và hợp (IoU), một đại lượng quan trọng không thể thiếu IoU được tính toán dựa trên chỉ số Jaccard, nhằm xác định độ trùng khớp giữa hai hộp giới hạn: hộp giới hạn thực tế và hộp giới hạn do mô hình dự đoán Công thức tính IoU được thể hiện trong phương trình 2.12 và được minh họa qua hình 2.12.

BBT là hộp giới hạn đối tượng đã được gán nhãn, trong khi BBP là hộp giới hạn đối tượng được nhận diện Chỉ số IoU được tính bằng cách chia tỉ lệ giữa phần giao và phần hợp của BBT và BBP, giúp đánh giá mức độ thành công của việc phát hiện đối tượng dựa trên ngưỡng đã đặt Ngưỡng này thường là 50%, nhưng cũng có thể được điều chỉnh lên 75% hoặc 95%.

IoU = area of overlap area of union =

Hình 2.12 IoU giữa hộp giới hạn thực tế và dự đoán

Khi tính toán IoU, chúng ta có thể xác định giá trị Mean Average Precision (mAP), là trung bình của các độ chính xác trung bình (AP) cho từng lớp được gán nhãn Giá trị mAP phản ánh chất lượng của mô hình, với giá trị cao hơn mang lại lợi ích lớn hơn Có nhiều phương pháp tính toán mAP, trong đó phổ biến nhất là lựa chọn ngưỡng IoU Trong PASCAL VOC challenge, ngưỡng IoU 0,5 (mAP@0.5) được sử dụng, trong khi trong cuộc thi COCO, mAP được tính trung bình trên các ngưỡng IoU từ 0,5 đến 0,95 với bước thay đổi 0,05 (mAP@ [.5:.95]).

THIẾT KẾ HỆ THỐNG

Thiết kế phần cứng

3.1.1 Thiết kế phần cứng cơ khí

Mô hình phần cứng cơ khí được thiết kế bằng phần mềm SolidWorks, bao gồm ba bộ phận chính: bàn tay robot, cánh tay và hộp cố định, như được thể hiện trong hình 3.1.

Hình 3.1 Mô phỏng cấu tạo tổng quan của mô hình phần cứng cơ khí a Phần bàn tay robot

Ngón tay và lòng bàn tay robot được điều khiển bằng các sợi dây không giãn (dây cơ) để mô phỏng cơ bắp của ngón tay con người Mỗi ngón tay có bốn sợi dây cơ, chia thành hai bộ A1-A2 và B1-B2, giúp định hình ngón tay co – duỗi ở nhiều góc độ khác nhau Cụ thể, đầu dây A1 được cố định tại điểm duỗi của đốt số 1, trong khi đầu dây A2 được cố định tại điểm co và đầu còn lại kết nối với động cơ Servo Đối với bộ dây B1-B2, đầu dây B1 cố định tại điểm duỗi của đốt số 3, còn đầu dây B2 cố định tại điểm co của đốt số 2.

Hình 3.2 Vị trí các sợi dây cơ ngón tay của bàn tay robot

Bộ dây cơ kết hợp với Servo Emax mini được lắp trực tiếp trên bàn tay giúp điều khiển ngón tay cái của robot Việc này tối ưu hóa diện tích chứa động cơ và tăng độ chính xác trong việc điều khiển ngón cái, do ngón này có ít đốt hơn so với các ngón khác.

Cơ cấu bánh răng trên bàn tay robot sử dụng động cơ Servo Emax mini cho phép ngón tay trỏ không chỉ co – duỗi mà còn chuyển động theo phương ngang, nhằm thực hiện các ký tự thủ ngữ như chữ U và chữ V.

Để điều khiển linh hoạt 5 ngón tay của robot, cần sử dụng 9 động cơ Servo MG995 và 2 động cơ Servo Emax mini Các động cơ MG995 sẽ được lắp đặt ở phần cánh tay, trong khi các động cơ Emax mini sẽ được gắn trực tiếp trên bàn tay của robot.

Hình 3.3 Mô phỏng cấu trúc bên trong bàn tay Robot

Hình 3.4 Chữ “U” và “V” trong ngôn ngữ ký hiệu Việt Nam

Để tính toán lực tác động từ mỗi ngón tay, cần xem xét một trường hợp cụ thể Giả định rằng ngón tay trỏ đang ở trạng thái duỗi hoàn toàn với dây cơ được cố định ở đầu ngón tay Sơ đồ mô phỏng sự phân bố lực của ngón tay được thể hiện trong hình 3.5.

Hình 3.5 Mô phỏng sự phân bố lực trên ngón tay

Trong hình 3.5, có hai lực tác dụng chính trên ngón tay là lực F 1 và lực F 2 Lực

Ngón tay sẽ duỗi ra dưới tác dụng của lực F1, trong khi lực F2, được tạo ra từ Servo, sẽ khiến ngón tay co lại Hai lực kéo này tạo ra mô-men xoắn M1 và M2 tại đốt số 3 của ngón tay Động cơ Servo MG995 được lựa chọn vì khả năng tạo ra lực căng dây cơ với mô-men xoắn tối đa là 10kg.cm, tương đương với 1N/m Công thức tính độ lớn lực F2 được trình bày trong (3.1).

 τ Servo : là mô-men xoắn của Servo MG995 (N/m)

 d 3 : là bán kính đĩa Puli gắn trên Servo (mm)

 F 2 : là lực căng dây được tạo ra bởi Servo (N)

Với độ lớn lực F2 vừa tìm được, chọn O làm góc tọa độ, độ lớn lực F1 được tính bởi công thức (3.2):

 F 1 : là lực căng dây làm ngón tay duỗi (N)

 d 1 : là khoảng cách từ điểm cố định dây cơ ở đầu ngón tay tới góc tọa độ O (mm)

 d 2 : là khoảng cách từ dây cơ co tới góc tọa độ O (mm)

Mỗi ngón tay tạo ra lực khoảng 0.7N, tương đương với khối lượng 70g Mặc dù lực này không lớn, nhưng đủ để thực hiện cơ chế co duỗi ngón tay nhằm tạo ra các ký tự thủ ngữ.

Để tính toán tốc độ co - duỗi ngón tay, cần xác định thời gian trung bình mà một ngón tay thực hiện động tác này Điều này yêu cầu biết số góc mà động cơ Servo cần xoay để chuyển ngón tay từ trạng thái co hoàn toàn sang trạng thái duỗi hoàn toàn, hoặc ngược lại, dựa trên công thức tính chiều dài cung (3.3).

 L: là khoảng cách dây cơ cần dịch chuyển để một ngón tay co hoặc duỗi hoàn toàn, dựa vào độ dài đo lường từ thực tế ta có L = 23mm

 α: là số góc Servo cần xoay ( o )

 d 3 : là bán kính đĩa Puli gắn trên Servo (mm)

Từ công thức (3.3), ta có được công thức tính α như sau: α = L 360°

Với động cơ Servo MG995 có tốc độ xoay tối đa 𝜀 = 0,16s/60°, thời gian trung bình (t) để một ngón tay thực hiện thao tác co - duỗi được tính bằng công thức t = 𝜀 α, trong đó t = 0,16s * (120° / 60°) = 0,32s.

Thời gian trung bình để một ngón tay chuyển đổi từ trạng thái co hoàn toàn sang trạng thái duỗi hoàn toàn (hoặc ngược lại) là 0,32 giây.

 Phần cổ tay của mô hình cánh tay robot

Cơ cấu bánh răng được thiết kế để cho phép khớp cổ tay của mô hình cánh tay robot thực hiện chuyển động gập lên – xuống theo phương thẳng đứng.

Động cơ Servo MG995 được lựa chọn để điều khiển cơ cấu xoay quanh trục OY a, như mô tả trong hình 3.6, nhờ vào khả năng tạo lực xoay lớn và chịu tải cao, vượt trội hơn so với Servo Emax mini.

Hình 3.6 Mô phỏng phần cổ tay của cánh tay robot b Phần cánh tay robot

Sau khi xác định số lượng động cơ Servo cần thiết, thiết kế hình dáng cánh tay và các ngăn chứa servo được thực hiện Các động cơ Servo được sắp xếp thành ba hàng ngang, mỗi hàng gồm ba Servo, với vách ngăn ở giữa mỗi hàng và các lỗ nhỏ để định hướng dây cơ Độ cao của mỗi hàng Servo tăng dần từ cổ tay đến khuỷu tay để tránh vướng víu Servo ở giữa mỗi hàng được lắp ngược lại với hai Servo bên cạnh để tăng khoảng cách giữa các trục xoay, giúp việc tháo lắp và cố định dây cơ dễ dàng hơn Một ống trụ tròn được thiết kế ở đế cánh tay để dẫn dây tín hiệu xuống hộp và ngăn chặn tình trạng dây tín hiệu quấn vào nhau khi cánh tay robot xoay.

Hình 3.7 Mô phỏng phần cánh tay robot

Mỗi trục xoay của động cơ Servo MG995 được trang bị một đĩa Puli, trong đó có hai trục xoay với kích thước khác nhau Trục nhỏ dùng để cố định đầu dây cơ co, trong khi trục lớn cố định đầu dây cơ duỗi Khi Servo xoay theo một chiều nhất định, một trục Puli sẽ nhả dây ra và trục còn lại sẽ thu dây, tạo ra cơ chế co duỗi cho ngón tay.

Hình 3.8 Dây cơ được cố định ở đĩa

Puli trên Servo Hình 3.9 Cấu trúc đĩa Puli c Hộp cố định cánh tay robot

THI CÔNG VÀ THỰC NGHIỆM

KẾT QUẢ - NHẬN XÉT - ĐÁNH GIÁ

Tiêu đề	Thiết kế và chế tạo cánh tay robot tương tác qua màn hình để hỗ trợ trong giảng dạy học ngôn ngữ ký hiệu cho trẻ em câm điếc
Tác giả	Trương Nghệ Nhân, Lê Nguyễn Thiên Sang
Người hướng dẫn	PGS. TS. Nguyễn Thanh Hải
Trường học	Trường Đại học Sư phạm Kỹ thuật Thành phố Hồ Chí Minh
Chuyên ngành	Công nghệ kỹ thuật Điện tử - Viễn thông
Thể loại	đồ án tốt nghiệp
Năm xuất bản	2022
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	110
Dung lượng	9,6 MB