Các công bố nghiên cứu về nhận dạng ngôn ngữ ký hiệu có kết quả thành công cao tuy nhiên để có thể ứng dụng hệ thống nhận dạng ngôn ngữ ký hiệu vào thực tế cần giải quyết những khó khăn
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
VÕ ĐỨC HOÀNG
NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng - 2018
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO
ĐẠI HỌC ĐÀ NẴNG
VÕ ĐỨC HOÀNG
NHẬN DẠNG NGÔN NGỮ KÝ HIỆU TIẾNG VIỆT
Chuyên ngành : KHOA HỌC MÁY TÍNH
Mã số : 62 48 01 01
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học:
1 GS.TS Jean Meunier
2 TS Huỳnh Hữu Hưng
Đà Nẵng - 2018
Trang 3i
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện, dưới sự hướng dẫn của GS TS Jean Meunier và TS Huỳnh Hữu Hưng
Tôi cam đoan các kết quả nghiên cứu được trình bày trong luận án là trung thực và không sao chép từ bất kỳ luận án nào khác Một số kết quả nghiên cứu là thành quả tập thể và đã được các đồng tác giả đồng ý cho sử dụng Mọi trích dẫn đều
có ghi nguồn gốc xuất xứ rõ ràng và đầy đủ
Tác giả
NCS VÕ ĐỨC HOÀNG
Trang 4ii
MỤC LỤC
LỜI CAM ĐOAN i
MỤC LỤC ii
DANH MỤC TỪ VIẾT TẮT iv
DANH MỤC BẢNG BIỂU v
DANH MỤC HÌNH VẼ vi
MỞ ĐẦU 1
1 Mục tiêu nghiên cứu 3
2 Đối tượng và phạm vi nghiên cứu 3
3 Phương pháp nghiên cứu 4
3 Cấu trúc của luận án 4
4 Đóng góp chính của luận án 6
TỔNG QUAN 7
Tổng quan về ngôn ngữ ký hiệu 7
Các nghiên cứu liên quan nhận dạng ngôn ngữ ký hiệu 11
Phân loại theo phương pháp thu nhận dữ liệu 13
Phân loại theo kỹ thuật học máy 22
Kết chương 1 35
NHẬN DẠNG CỬ CHỈ TĨNH 37
Phương pháp mô hình hình học 37
Tiền xử lý 38
Trích xuất đặc trưng 45
Huấn luyện và nhận dạng 46
Kết quả thực nghiệm 47
Phương pháp xếp hạng ma trận tương quan (ROCM) 48
Thu nhận dữ liệu, phân đoạn bàn tay 49
Tiền xử lý 51
Trích xuất đặc trưng 53
Nhận dạng ngôn ngữ ký hiệu tiếng Việt 56
Thực nghiệm 59
Phân đoạn tự động video trong nhận dạng cử chỉ tĩnh 62
Các khái niệm về phân đoạn video 62
Phân đoạn video và xác định khung hình chính 64
Giải pháp đề xuất phân đoạn tự động video 67
Trích xuất đặc trưng 69
Thực nghiệm và đánh giá 70
Trang 5iii
Kết chương 2 71
NHẬN DẠNG CỬ CHỈ LIÊN TỤC 73
Nhận dạng trên hệ tọa độ cầu 73
Thu nhận dữ liệu và tiền xử lý 75
Trích xuất đặc trưng 77
Huấn luyện và nhận dạng 79
Kết quả thực nghiệm 82
Nhận dạng với phương pháp chia khối 83
Thu nhận dữ liệu và tiền xử lý 84
Trích xuất đặc trưng độ sâu 85
Huấn luyện và nhận dạng 87
Kết quả thực nghiệm 87
Kết chương 3 89
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 91
DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 95
TÀI LIỆU THAM KHẢO 96
Trang 6iv
DANH MỤC TỪ VIẾT TẮT
ANN Artificial Neural Network Mạng nơ-ron nhân tạo
GMM Gaussian Mixture Model Mô hình hỗn hợp Gauss
MLP Multi Layer Perceptron Mạng truyền thẳng nhiều lớp
PCA Principal Component Analysis Phân tích thành phần chính
ROCM Rank Order Correlation Matrix Xếp hạng ma trận tương quan SDK Software Development Kit Công cụ phát triển phần mềm SLR Sign Language Recognition Nhận dạng ngôn ngữ ký hiệu
VSL Vietnamese Sign Language Ngôn ngữ ký hiệu tiếng Việt
Trang 7v
DANH MỤC BẢNG BIỂU
Bảng 1.1: Bảng tóm tắt các phương pháp thống kê, nhận dạng 32
Bảng 2.1: So sánh với các nghiên cứu liên quan (cùng bộ dữ liệu) 48
Bảng 2.2: Độ chính xác 5 mô hình với 5 cách chia ma trận 60
Bảng 2.3: Độ chính xác 10 cử chỉ số với 5 cách chia ma trận 61
Bảng 2.4: Mô tả 12 giá trị vec-tơ đặc trưng 69
Bảng 2.5: Thống kê tỉ lệ nhận dạng khi chọn khung hình liên tiếp (k) 70
Trang 8vi
DANH MỤC HÌNH VẼ
Hình 1.1: Bảng chữ cái, chữ số ngôn ngữ ký hiệu tiếng Việt 9
Hình 1.2: Biểu diễn từ “Hoa hồng” 11
Hình 1.3: Sơ đồ quy trình nhận dạng ảnh 12
Hình 1.4: Sơ đồ nhận dạng ngôn ngữ ký hiệu 13
Hình 1.5: Cảm biến gia tốc và cảm biến điện sinh học trên cánh tay [27] 15
Hình 1.6: Găng tay dữ liệu 16
Hình 1.7: Hệ thống CopyCat [34] 17
Hình 1.8: Găng tay màu sắc và thiết lập đặc trưng [35] 18
Hình 1.9: Thu nhận hình ảnh để nhận dạng [40] 20
Hình 1.10: Hình ảnh bàn tay qua các bước xử lý 20
Hình 1.11: Ví dụ mô hình Markov ẩn 26
Hình 1.12: Chain code và đồ thị hành động sau khi chuyển đổi[60] 31
Hình 2.1: Sơ đồ nhận dạng theo mô hình hình học 37
Hình 2.2: Phân đoạn ảnh và xác định điểm lồi, lõm 41
Hình 2.3: Xác định đường viền của thuật toán Theo, P [71] 42
Hình 2.4: Đánh nhãn xác định các điểm lồi 43
Hình 2.5: Cách xác định đỉnh ngón tay 44
Hình 2.6: Phát hiện và tách cổ tay 44
Hình 2.7: Trích xuất đặc trưng bàn tay 46
Hình 2.8: Một số hình ảnh cử chỉ trong tập dữ liệu đã sử dụng 47
Hình 2.9: Sơ đồ khối nhận dạng cử chỉ đơn 49
Hình 2.10: Khoảng cách thu nhận dữ liệu với Kinect 51
Hình 2.11: Chuẩn hóa kích thước 52
Hình 2.12: Bộ dữ liệu hình ảnh chiều sâu của NNKH tiếng Việt 53
Trang 9vii
Hình 2.13: Xếp hạng giá trị trung bình ma trận 4x4 54
Hình 2.14: Chuyển đổi ma trận xếp hạng tương quan vào vec-tơ 55
Hình 2.15: Thuật toán chuyển ma trận vào vec-tơ đặc trưng 55
Hình 2.16: Thuật toán vec-tơ đặc trưng vào vec-tơ tương quan 56
Hình 2.17: Biểu diễn trực quan của 2 loại vec-tơ 57
Hình 2.18: Minh họa thuật toán phân 5 lớp 58
Hình 2.19: Hình ảnh thử nghiệm với bảng chữ cái 59
Hình 2.20: Hình ảnh thử nghiệm tương ứng 10 chữ số 0-9 60
Hình 2.21: Độ chính xác của các kỹ thuật phân loại khác nhau 61
Hình 2.22: Cấu trúc phân cấp của của video 63
Hình 2.23: Mô hình phân đoạn cứng 64
Hình 2.24: Mô tả phân đoạn khung hình chính 69
Hình 2.25: Mô tả giá trị vec-tơ đặc trưng 70
Hình 3.1: Sơ đồ hoạt động của hệ thống 75
Hình 3.2: Các vị trí cần lấy để nhận dạng ngôn ngữ ký hiệu tiếng Việt 76
Hình 3.3: Chuyển đổi hệ quy chiếu máy quay sang đối tượng 77
Hình 3.4: Chia vùng chuẩn hóa dữ liệu góc kinh độ φ và góc nâng θ 78
Hình 3.5: Mẫu dữ liệu thu nhận 79
Hình 3.6: So khớp với DTW 79
Hình 3.7: Đường đi tối ưu sử dụng DTW 81
Hình 3.8: Độ chính xác khi kiểm tra 10 từ 82
Hình 3.9: Sơ đồ thực hiện nhận dạng cử chỉ động 84
Hình 3.10: Xác định khung bao của đối tượng 85
Hình 3.11: Kết quả mảng Z và giá trị vec-tơ đưa vào thử nghiệm 87
Hình 3.12: Kết quả sử dụng SVM, HMM tương ứng chia khối 4 và 16 87
Trang 10viii
Hình 3.13: Độ chính xác trung bình của các kỹ thuật chia khối 4,16 và 32 88 Hình 3.14: Hình ảnh dữ liệu thử nghiệm 89
Trang 111
MỞ ĐẦU
Theo thống kê của Bộ Lao động Thương binh và Xã hội, Việt Nam là một trong những nước có số người khuyết tật khá cao ở khu vực châu Á - Thái Bình Dương với khoảng 7,3 triệu người khuyết tật từ 5 tuổi trở lên và người bị khiếm thính chiếm khoảng 15% số người khuyết tật1 Người khiếm thính là những người có khuyết tật về khả năng nghe, nguyên nhân có thể do bẩm sinh hay bị tai nạn Người khiếm thính sử dụng ngôn ngữ ký hiệu là ngôn ngữ cử chỉ tay với dấu hiệu truyền trực quan bằng tay và cảm xúc khuôn mặt để truyền đạt ý nghĩa từ thay vì sử dụng âm thanh Ngôn ngữ này được sử dụng trong cộng đồng người khiếm thính, tuy nhiên không được phổ biến trong cộng đồng giao tiếp, do đó có một rào cản lớn giữa người khiếm thính và người bình thường
Hiện nay, người khuyết tật nhận được sự quan tâm mạnh mẽ của xã hội, họ cần được đến trường để học tập, học nghề và hòa nhập làm việc cùng với cộng đồng Người khiếm thính không thể nói chuyện với nhau nên việc giao tiếp thông tin thường được biểu diễn qua các hành động điệu bộ Ngôn ngữ ký hiệu được phát triển một cách tự nhiên theo tập quán, thói quen của từng vùng miền, từng quốc gia nên có những khác biệt rất lớn Các quốc gia đã chú trọng xây dựng hệ thống ngôn ngữ ký hiệu của riêng mình nhằm tạo ra sự thống nhất chung Tuy nhiên, ngôn ngữ ký hiệu chưa được phổ biến, chủ yếu được giảng dạy và sử dụng trong cộng đồng người khiếm thính Để thuận tiện cho việc giao tiếp giữa người khiếm thính và người bình thường cần nghiên cứu xây dựng hệ thống hỗ trợ dịch ngôn ngữ ký hiệu sang văn bản viết, nói và ngược lại Hiện nay, nhiều nghiên cứu liên quan đến nhận dạng ngôn ngữ
1 Theo số liệu năm 2015 của Bộ Lao động, Thương binh & Xã hội
Trang 122
ký hiệu tại Việt Nam và trên thế giới đã được nhiều nhà khoa học đề xuất thử nghiệm
Các nghiên cứu cần tập trung vào thiết kế và triển khai ứng dụng cho một hệ thống
nhận dạng ngôn ngữ ký hiệu - SLR (Sign Language Recognition) Các giải pháp kỹ
thuật đề xuất để thu nhận dữ liệu trong hệ thống SLR được sử dụng như găng tay cảm biến [24, 32, 40, 65, 67], máy ảnh (thị giác máy tính) [22, 55, 60] hay thiết bị Kinect [20, 41, 45, 66, 69, 70, 93] Sau khi thu nhận dữ liệu, quá trình tiền xử lý và trích xuất đặc trưng sẽ tạo ra các thông tin cơ bản để sử dụng các phương pháp phân loại học máy khác nhau như: mạng nơ-ron nhân tạo - ANN [26, 34], mô hình Markov ẩn – HMM [3, 14, 49, 90], mô hình học máy vec-tơ hỗ trợ - SVM [52, 90] hay so khớp thời gian động - DTW [48, 86] Các công bố nghiên cứu về nhận dạng ngôn ngữ ký hiệu có kết quả thành công cao tuy nhiên để có thể ứng dụng hệ thống nhận dạng ngôn ngữ ký hiệu vào thực tế cần giải quyết những khó khăn về kỹ thuật như sau:
- Khi sử dụng găng tay cảm biến hay các cảm biến gắn trên cơ thể để thu nhận
dữ liệu thì người thực hiện cần phải mang các thiết bị điện tử kết nối với máy tính, điều này gây bất tiện khi thực hiện [8, 30, 32, 46, 96]
- Khi sử dụng máy ảnh để thu nhận dữ liệu thì hình nền, điều kiện ánh sáng,
sự che lấp hình ảnh bàn tay ảnh hưởng rất lớn đến chất lượng thu nhận hình ảnh và cần phải tách đối tượng nhận dạng ra khỏi ảnh nền [25, 97]
- Thời gian xử lý chậm và trích xuất các đặc trưng chưa thể hiện rõ sự khác biệt giữa các đối tượng để đưa vào nghiên cứu nhận dạng [60]
- Các nghiên cứu về nhận dạng ngôn ngữ ký hiệu tiếng Việt còn hạn chế và mới chỉ tập trung vào các cơ sở dữ liệu sẵn có, chưa tập trung vào bộ từ vựng của ngôn ngữ ký hiệu tiếng Việt Mặc dù ngôn ngữ ký hiệu tiếng Việt có những nét tương đồng với các ngôn ngữ ký hiệu khác trên thế giới tuy nhiên
có những đặc trưng riêng về sử dụng dấu, từ ghép, cách thể hiện
Xuất phát từ bối cảnh trên, tôi chọn đề tài “Nhận dạng ngôn ngữ ký hiệu
tiếng Việt” làm nội dung của luận án Tiến sỹ kỹ thuật với mong muốn được góp phần
vào lĩnh vực nghiên cứu về kỹ thuật nhận dạng ngôn ngữ ký hiệu tiếng Việt, hướng
Trang 133
đến mục tiêu áp dụng trong thực tế để giúp người khiếm thính hòa nhập cộng đồng
1 Mục tiêu nghiên cứu
Luận án nghiên cứu nhằm giải quyết nhận dạng ngôn ngữ ký hiệu tiếng Việt (VSL – Vietnamese Sign Language), khắc phục các khó khăn về kỹ thuật thu nhận
dữ liệu, tiền xử lý và trích xuất đặc trưng hỗ trợ người khiếm thính giao tiếp hòa nhập cộng đồng Cụ thể là luận án nhằm hướng đến các mục tiêu như sau:
- Các phương pháp trích xuất đặc trưng của ngôn ngữ ký hiệu
- Xây dựng phương pháp tiền xử lý, trích xuất đặc trưng giảm sự phụ thuộc vào hình ảnh nền và môi trường thực hiện để nâng cao tỉ lệ nhận dạng so với các nghiên cứu trước
- Áp dụng các mô hình học máy để thử nghiệm, chọn mô hình có kết quả tốt nhất để huấn luyện và nhận dạng các cử chỉ của ngôn ngữ ký hiệu tiếng Việt
- Xây dựng bộ dữ liệu mẫu của ngôn ngữ ký hiệu tiếng Việt và nghiên cứu phương pháp phân đoạn video để nâng cao tỉ lệ nhận dạng, áp dụng triển khai hệ thống nhận dạng theo thời gian thực
2 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận án bao gồm các nội dung:
- Các thuật toán, giải pháp để phân tích và nhận dạng ngôn ngữ ký hiệu
- Bảng chữ cái của ngôn ngữ ký hiệu tiếng Việt
- Các từ, cụm từ biểu diễn của cử chỉ liên tục ngôn ngữ ký hiệu tiếng Việt Xác định mục tiêu và đối tượng nghiên cứu như trên, phạm vi nghiên cứu của luận án tập trung như sau:
- Nghiên cứu kỹ thuật xử lý ảnh hỗ trợ cho hệ thống nhận dạng ngôn ngữ ký hiệu tổng quát, phân tích và đánh giá kết quả hướng đến nhận dạng ngôn ngữ ký hiệu tiếng Việt
- Nghiên cứu hệ thống nhận dạng ngôn ngữ ký hiệu tĩnh là bảng chữ cái ngôn
ngữ ký hiệu tiếng Việt bao gồm hai công việc chính là: (1) xây dựng phương
Trang 144
pháp thu nhận dữ liệu, kết hợp trích xuất đặc trưng cơ bản, (2) tìm kiếm, lựa chọn, cải thiện phương pháp nhận dạng sao cho phù hợp với hệ thống nhận dạng ngôn ngữ ký hiệu tiếng Việt
- Nghiên cứu xây dựng hệ thống nhận dạng ký hiệu cử chỉ liên tục bao gồm các từ, hướng đến việc dịch các câu hoàn chỉnh của ngôn ngữ ký hiệu tiếng Việt
3 Phương pháp nghiên cứu
Việc thực hiện luận án dự trên cơ sở kế thừa các kiến thức nền tảng sau đây:
xử lý và tỷ lệ nhận dạng thành công
- Thiết kế và thực thi các thí nghiệm với cơ sở dữ liệu chung có sẵn để đánh giá hiệu quả
3 Cấu trúc của luận án
Trên cơ sở các nhiệm vụ nghiên cứu nêu trên, để đạt mục tiêu đề ra và đảm
bảo tính hợp lý của vấn đề nghiên cứu, ngoài phần mở đầu, phần kết luận và hướng
phát triển, luận án được cấu trúc gồm ba chương với nội dung chính của các chương
như sau:
Trang 155
Chương 1 của luận án giới thiệu tổng quan ngôn ngữ ký hiệu hiện nay tại Việt
Nam và trên thế giới Phần tiếp theo trình bày các nghiên cứu liên quan về nhận dạng
ngôn ngữ ký hiệu theo hai cách phân loại dựa vào quá trình thu nhận dữ liệu và
phương pháp học máy Kết quả nghiên cứu tổng quan sẽ là cơ sở cho các đề xuất mới
trong nghiên cứu nhận dạng ngôn ngữ ký hiệu tiếng Việt trong những chương tiếp
theo
Chương 2 trình bày hai nghiên cứu về nhận dạng cử chỉ tĩnh của ngôn ngữ ký
hiệu, nhằm hướng đến nhận dạng bảng chữ cái của ngôn ngữ ký hiệu tiếng Việt Nghiên cứu thứ nhất được đề xuất dựa trên quy trình xử lý ảnh cơ bản Dữ liệu thu nhận bằng máy ảnh là hình ảnh các bàn tay, quá trình tiền xử lý sử dụng bộ lọc màu
da để loại bỏ nhiễu Nghiên cứu áp dụng các phương pháp hình học để xác định được đỉnh các ngón tay, loại bỏ phần cánh tay Sau khi trích xuất được đặc trưng là các vec-tơ, nghiên cứu sử dụng mô hình học máy vec-tơ hỗ trợ đa lớp (SVMs) để huấn luyện và nhận dạng Nghiên cứu thứ hai sử dụng cảm biến độ sâu để thu nhận dữ liệu, trích xuất đặc trưng dựa vào mô hình xếp hạng ma trận tương quan (ROCM) Trong nghiên cứu này đã xây dựng bộ dữ liệu hình ảnh của ngôn ngữ ký hiệu tiếng Việt với các ký hiệu đơn, ký hiệu kép và các dấu mũ phục vụ cho các thử nghiệm sau này
Chương 3 trình bày nghiên cứu về nhận dạng cử chỉ liên tục của ngôn ngữ ký
hiệu tiếng Việt Các cử chỉ liên tục được thu nhận và lưu trữ dưới dạng một chuỗi các khung hình liên tiếp Nghiên cứu thứ nhất sử dụng dữ liệu từ cảm biến khung xương của thiết bị Kinect Dữ liệu thu nhận dùng để nghiên cứu là tọa độ trong không gian
ba chiều của các khớp xương cổ tay, khuỷu tay Nghiên cứu chuyển đổi dữ liệu thành vec-tơ đặc trưng tương ứng với giá trị tọa độ của các điểm thu nhận và sử dụng mô hình so khớp thời gian động (DTW) để huấn luyện, nhận dạng Nghiên cứu thứ hai
sử dụng cảm biến độ sâu để thu nhận dữ liệu, áp dụng mô hình không gian ba chiều (3D) để xử lý dữ liệu theo thời gian thực Sau khi trích xuất được vec-tơ đặc trưng, nghiên sử dụng mô hình học máy vec-tơ hỗ trợ (SVM) để huấn luyện và nhận dạng
Trang 166
4 Đóng góp chính của luận án
Luận án đề xuất nghiên cứu nhận dạng ngôn ngữ ký hiệu tiếng Việt cho người
khiếm thính, áp dụng được theo thời gian thực để làm công cụ hỗ trợ giảng dạy cho
trẻ khiếm thính hay hỗ trợ giao tiếp tại nơi công cộng như nhà ga, bệnh viện, sân bay
Nghiên cứu của luận án bao được chia thành hai phần riêng biệt: nhận dạng cử
chỉ tĩnh và cử chỉ liên tục của ngôn ngữ ký hiệu tiếng Việt Các đóng góp chính của
luận án cụ thể như sau:
- Nghiên cứu cơ bản về nhận dạng ngôn ngữ ký hiệu (cử chỉ tĩnh và cử chỉ
liên tục) dựa trên dữ liệu thu nhận từ máy ảnh màu và trích xuất đặc trưng
theo mô hình hình học Thử nghiệm với các phương pháp học máy vec-tơ
hỗ trợ (SVM), đánh giá hiệu quả phương pháp nghiên cứu dựa vào tỉ lệ nhận
dạng thành công
- Đề xuất phương pháp thu nhận dữ liệu từ cảm biến độ sâu: (1) trích xuất đặc
trưng dựa vào phương pháp xếp hạng ma trận tương quan để nhận dạng
bảng chữ cái (cử chỉ tĩnh); (2) sử dụng phương pháp chia khối theo mô hình
không gian ba chiều để nhận dạng các từ, cụm từ, câu (cử chỉ liên tục) của
ngôn ngữ ký hiệu tiếng Việt
- Nghiên cứu phương pháp phân đoạn video để trích xuất khung hình chính,
áp dụng nhận dạng và ghép các ký tự của bảng chữ cái ngôn ngữ ký hiệu
tiếng Việt theo thời gian thực
- Đối với cử chỉ liên tục của ngôn ngữ ký hiệu tiếng Việt, nghiên cứu và thực
nghiệm với hai phương pháp thu nhận dữ liệu: tọa độ khớp xương và cảm
biến độ sâu để thu nhận dữ liệu, phân tích đặc trưng, nhận dạng và đánh giá
hiệu quả
Luận án là đề tài nghiên cứu theo hướng ứng dụng kỹ thuật vào cuộc sống Kết
quả nghiên cứu không thể tạo ra công cụ thay thế hoàn toàn quá trình giao tiếp của
người khiếm thính, nhưng có thể góp phần giúp người khiếm thính giao tiếp được với
người bình thường, hòa nhập tốt trong cộng đồng và có tính nhân văn sâu sắc
Trang 177
TỔNG QUAN
Ngày nay với sự phát triển mạnh mẽ của ngành khoa học máy tính, cùng với sự quan tâm nghiên cứu của các nhà khoa học, máy tính trở nên thông minh hơn và sự tương tác giữa con người với máy tính có ý nghĩa cực kỳ quan trọng trong cuộc sống hằng ngày Nhận dạng cử chỉ giúp máy tính có thể hiểu và giao tiếp với con người thuận tiện hơn Cử chỉ là các chuyển động, thay đổi của cánh tay, bàn tay, ngón tay, đầu mặt hoặc cơ thể với mục đích truyền đạt thông tin hoặc tương tác môi trường bên ngoài Một cử chỉ có thể được hệ thống máy tính nhận dạng thông qua các thiết bị thu, sử dụng kỹ thuật phân tích, nhận dạng và đưa ra các hành động tương ứng Ngôn ngữ ký hiệu là ngôn ngữ giao tiếp của người khiếm thính, đã được các quốc gia chú trọng phát triển và có những nét tương đồng như ngôn ngữ cử chỉ nhưng được phát triển có hệ thống và thống nhất trong cộng đồng của từng vùng miền, từng quốc gia Nhận dạng ngôn ngữ ký hiệu được phát triển dựa trên nền tảng từ nhận dạng ngôn ngữ cử chỉ, để tạo ra sự giao tiếp giữa người bình thường và người khiếm thính thông qua hệ thống máy tính
Nội dung của chương 1 gồm có hai phần chính: phần thứ nhất trình bày tổng
quan về ngôn ngữ ký hiệu trên thế giới và tại Việt Nam; phần thứ hai nêu tóm tắt các
nghiên cứu liên quan về nhận dạng ngôn ngữ cử chỉ, ngôn ngữ ký hiệu đến hiện nay
Tổng quan về ngôn ngữ ký hiệu
Ngôn ngữ ký hiệu hay ngôn ngữ dấu hiệu (thủ ngữ) là ngôn ngữ chủ yếu được cộng đồng người khuyết tật sử dụng nhằm chuyển tải thông tin qua cử chỉ, điệu bộ của cơ thể và nét mặt thay cho lời nói Lịch sử phát triển của ngôn ngữ ký hiệu nói chung và ngôn ngữ ký hiệu tiếng Việt nói riêng đã trải qua nhiều giai đoạn thăng trầm Từ thế kỉ 16, Geronimo Cardano - nhà vật lý học người Padua, đã tuyên bố người khiếm thính có thể học tập thông qua giao tiếp bằng ký hiệu Đến năm 1620, Juan Pablo de Bonet xuất bản cuốn sách đầu tiên về ngôn ngữ ký hiệu, đồng thời công
bố bảng chữ cái thể hiện bằng tay dựa trên nền tảng là ngôn ngữ ký hiệu đã được cộng
Trang 188
đồng người khiếm thính phát triển theo bản năng từ trước
Ngôn ngữ ký hiệu lần đầu tiên được phát triển và truyền bá vào cộng đồng người khiếm thính vào năm 1755 khi cha Charles-Michel de l'Épée (người Pháp và được coi là người khai sinh ra hệ thống ngôn ngữ ký hiệu Pháp) thành lập trường học miễn phí đầu tiên dành cho người khiếm thính Hệ thống ký hiệu tiếp tục được phát triển
và được cộng đồng người khiếm thính sử dụng Hệ thống ngôn ngữ ký hiệu của Pháp được hoàn thiện trong giai đoạn này
Vào năm 1778 tại Leipzig, Đức, Samuel Heinicke, trường công lập đầu tiên dành cho người khiếm thính không chỉ sử dụng ngôn ngữ ký hiệu mà còn dùng phương pháp nói và đọc khẩu hình, tiên phong cho việc dùng tất cả các phương pháp
để giao tiếp tối ưu (các biện pháp giao tiếp có thể: ký hiệu bàn tay, cử chỉ, đánh vần bằng ký hiệu, đọc khẩu hình, nói, trợ thính, đọc, viết và tranh vẽ)
Năm 1815, Thomas Hopkins Gallaudet tới châu Âu nghiên cứu phương pháp giáo dục dành cho người khiếm thính Trở lại Hoa Kỳ cùng với các giáo viên ngôn ngữ ký hiệu, Gallaudet và Laurent Clerc mở trường công dành cho người khiếm thính đầu tiên của Hoa Kỳ tại Hartford, Connecticut năm 1817
Ở Việt Nam, ngôn ngữ ký hiệu đã được đưa vào giáo dục và sử dụng từ rất sớm từ năm 1866, một linh mục người Pháp là cha Azemar đã quy tụ khoảng 5 trẻ khiếm thính để dạy ngôn ngữ và đạo đức Sau đó, một trong những trẻ này đã sang Pháp để học tập phương pháp dùng ngôn ngữ ký hiệu và về nước mở trường dạy trẻ khiếm thính tại Thuận An (Bình Dương) Trung tâm này chính là cái nôi của người khiếm thính tại Việt Nam
Từ những năm 2000, Việt Nam bắt đầu triển khai những nỗ lực của mình nhằm hoàn thiện và hệ thống hóa ngôn ngữ ký hiệu Việt Nam Các câu lạc bộ, nhóm học tập bắt đầu hình thành và phát triển Hiện nay, các tài liệu được đưa vào sử dụng cho người khiếm thính Việt Nam như: bộ 3 tập Ký hiệu cho người khiếm thính Việt Nam,
Từ điển ngôn ngữ ký hiệu Việt Nam
Trang 199
Hình 1.1: Bảng chữ cái, chữ số ngôn ngữ ký hiệu tiếng Việt 2
Bảng chữ cái ngôn ngữ ký hiệu biểu diễn các hình dạng của bàn tay Ngôn ngữ
ký hiệu tiếng Việt được xây dựng tương tự như ngôn ngữ ký hiệu Mỹ (ASL) đã được
sử dụng rộng rãi ở một số quốc gia Bảng chữ cái bao gồm 23 chữ cái, các từ ghép, dấu mũ và dấu thanh (Hình 1.1) Các chữ cái Ă, Â, Ê, Ô, Ơ, Ư, CH, GH, NGH là sự kết hợp từ hai hoặc ba cử chỉ tay liên tục Bảng chữ cái ngôn ngữ ký hiệu thường
2 http://www.deafhanoi.com
Trang 2010
được dùng trong giảng dạy ban đầu của các trường học dành cho người khiếm thính Ngoài các ký hiệu biểu diễn bảng chữ cái còn có các biểu diễn cử chỉ liên tục được sử dụng để mô tả các đối tượng, con người là các từ, cụm từ, câu Ngôn ngữ ký hiệu tiếng Việt có số lượng từ vựng hơn khoảng 4500 từ và hiện đang được hoàn thiện tiếp tục bổ sung Đối với cử chỉ liên tục có sự khác nhau rất lớn về cách thể hiện, trật tự biểu diễn các từ trong một câu Ngôn ngữ ký hiệu mỗi quốc gia đều có những đặc trưng riêng và có thể hoàn toàn khác nhau giữa các nước trên thế giới Ngoài ra, tại Việt Nam cũng có sự phân loại ra nhiều vùng thể hiện biểu diễn ngôn ngữ ký hiệu khác nhau: Thành phố Hồ Chí Minh, Bình Dương, Hà Nội, Hải Phòng Ngôn ngữ ký hiệu liên tục là các dấu hiệu thể hiện bằng sự di chuyển của bàn tay, cánh tay, có thể chia thành hai nhóm dựa trên bản chất của cử chỉ: dấu hiệu tự nhiên và dấu hiệu thông qua giáo dục Dấu hiệu tự nhiên là các dấu hiệu hay cử chỉ
mà con người học hỏi từ các dấu hiệu trong tự nhiên được sử dụng để mô tả các hành động chung trong các hoạt động hằng ngày như: ăn uống, ca hát, khóc, ngủ, đói bụng Các dấu hiệu này thường mô phỏng các hành động chung và hiểu được trong những ngữ cảnh nhất định, có thể dễ hiểu giữa người bình thường và người khiếm thính Dấu hiệu hoặc cử chỉ thông qua giáo dục dùng để diễn tả các khái niệm trừu tượng hoặc các đối tượng trong thực tế cuộc sống như đẹp, xấu xí, thích, hạnh phúc Những cử chỉ này không thể hiểu được đối với người bình thường và người khiếm thính nếu không được học qua các lớp đào tạo Hiện nay tại Việt Nam các nhà nghiên cứu đang nỗ lực để xây dựng hoàn thiện một bộ công cụ từ điển thống nhất về ngôn ngữ ký hiệu giữa các vùng
Biễu diễn từ ngữ trong ngôn ngữ ký hiệu Tiếng Việt bao gồm nhiều cử chỉ phức tạp như: hành động cánh tay, hình dạng bàn tay, các ngón tay, khẩu hình miệng, cảm xúc khuôn mặt Khác với cách biểu diễn cử chỉ bằng bảng chữ cái, các từ ngữ trong từ điển ngôn ngữ ký hiệu tiếng Việt rất đa dạng và phong phú và thường được sáng tạo với từng cá nhân, từng vùng miền Đối với ký hiệu liên tục sự di chuyển (thay đổi vị trí) của bàn tay và cánh tay là quan trọng nhất Các thông tin quy định về
Trang 2111
biểu diễn là một chuỗi các hành động liên tục theo thời gian, ta có thể phân tích cử chỉ liên tục là một chuỗi các hình ảnh tĩnh (Hình 1.2) để có thể trích xuất giá trị đặc trưng và nhận dạng
Hình 1.2: Biểu diễn từ “Hoa hồng”
Hiện nay tại Việt Nam chưa có quy định chuẩn về cách biểu diễn cử chỉ liên tục của ngôn ngữ ký hiệu Các từ vựng, câu được tổng hợp từ các trung tâm đào tạo trẻ khiếm thính nên chưa có sự thống nhất cao Dữ liệu cho nghiên cứu về nhận dạng
cử chỉ liên tục của ngôn ngữ ký hiệu tiếng Việt trong luận án này được sử dụng từ trang web từ điển ngôn ngữ ký hiệu được xây dựng từ năm 20133
Các nghiên cứu liên quan nhận dạng ngôn ngữ ký hiệu
Cùng với sự phát triển ngày càng mạnh mẽ của khoa học kĩ thuật trong một vài thập kỷ gần đây, xử lý ảnh tuy là một ngành khoa học còn tương đối mới mẻ so với nhiều ngành khác nhưng đã có những nghiên cứu đóng góp tích cực vào cuộc sống Xử lý ảnh đóng vai trò quan trọng trong nhiều ứng dụng thực tế về khoa học kĩ thuật cũng như trong cuộc sống thường ngày như: kiểm tra chất lượng sản phẩm, sự
di chuyển của robot, nhận dạng các phương tiện đi lại, công cụ hướng dẫn cho người
3 https://tudienngonngukyhieu.com/
Trang 22độ phân giải cao Tiền xử lý thực hiện việc biến đổi ảnh đầu vào sao cho ảnh thu được thỏa mãn những tiêu chí định trước, ví dụ như không chứa nhiễu hay có độ tương phản cao Trong một số trường hợp, bước tiền xử lý có thể được bỏ qua do ảnh đầu vào đã đạt yêu cầu Các phép tiền xử lý thường được thực hiện ở bước này là cải thiện, phục hồi ảnh và xử lý hình thái học Thông thường, các ứng dụng nhận dạng ảnh không sử dụng thông tin của toàn bộ miền ảnh mà chỉ khu vực chứa đối tượng
Trang 2313
cần quan tâm Vì vậy, đối tượng đó cần được tách ra khỏi ảnh để phục vụ các bước
xử lý tiếp theo sau đó Kỹ thuật thường được sử dụng để thực hiện nhiệm vụ này là phân đoạn ảnh, tức là chia nhỏ ảnh thành nhiều vùng Sau khi phân đoạn tùy vào yêu cầu của công cụ dùng để huấn luyện, nhận dạng ta có thể trích xuất các đặc trưng để phân biệt Việc lựa chọn đặc trưng của đối tượng có ảnh hưởng rất lớn đến kết quả huấn luyện và nhận dạng Ở mức xử lý bậc cao thường sử dụng các mô hình học máy như ANN, HMM, SVM… để nhận dạng Nhận dạng ngôn ngữ ký hiệu thường được dựa trên nguyên tắc cơ bản của nhận dạng ảnh và được thể hiện ở hình 1.4
Hình 1.4: Sơ đồ nhận dạng ngôn ngữ ký hiệu
Để khái quát về các nghiên cứu đã thực hiện, có thể tóm tắt, phân loại nhận
dạng ngôn ngữ ký hiệu thành 2 nhóm chính dựa vào phương pháp thu nhận dữ liệu
và phân loại học máy để tổng hợp và đánh giá
Phân loại theo phương pháp thu nhận dữ liệu
Bước đầu tiên của việc xử lý nhận dạng ngôn ngữ ký hiệu là thu nhận dữ liệu
Tiền xử lý, trích xuất đặc trưng
Huấn luyện (học máy)
Trang 2414
Dữ liệu thu nhận được phân tích bằng cách sử dụng các phương pháp khác nhau để trích xuất đặc trưng và đưa vào các mô hình thống kê để nhận dạng Đối với thu nhận
dữ liệu cũng có thể phân loại thành 2 nhóm riêng biệt: thu nhận từ cảm biến hay thu
nhận từ máy ảnh Năm 2012, Microsoft phát triển Kinect, thiết bị này được tích hợp
máy ảnh màu, cảm biến chiều sâu, tọa độ khung xương đã làm giảm đi đáng kể các bước tiền xử lý sau khi thu nhận dữ liệu đầu vào cho các hệ thống nhận dạng ngôn ngữ ký hiệu [11, 41, 45, 93]
1.2.1.1 Điện cơ đồ (EMG- Electromyography)
Điện cơ đồ là một hệ thống tương tác trực tiếp giữa người và máy tính thông qua các tín hiệu của cơ thể hay suy nghĩ đã trở thành một thành phần quan trọng trong các nghiên cứu về phát hiện chuyển động của cơ thể con người Hệ thống giúp cho máy tính hiểu được các cử động của con người ví dụ như điều khiển rô bốt, trò chơi
ảo, điều khiển chi giả dành cho người khuyết tật Máy tính sẽ thu nhận được các tín hiệu điện sinh học nhờ các cảm biến gắn trực tiếp trên cơ thể và phân loại, sau khi tổng hợp thông tin dữ liệu hệ thống thường sử dụng mô hình mạng nơ-ron nhân tạo (ANN) để phân loại và nhận dạng Việc sử dụng tín hiệu điện cơ đồ hiện vẫn còn được tiếp tục nghiên cứu trong nhiều lĩnh vực như y tế, điều khiển bằng suy nghĩ Trong nhận dạng ngôn ngữ ký hiệu, Jung KK [26] đã giới thiệu một phương pháp phân loại 6 cử chỉ tay ngôn ngữ ký hiệu Hàn Quốc dựa vào dữ liệu thu được từ cảm biến cơ bắp gắn trên các cánh tay Zhang [96] và cộng sự xây dựng bộ điều khiển trò chơi và nhận dạng ký hiệu tay dựa trên cảm biến gia tốc 3D và cảm biến điện cơ sinh học Hệ thống này xây dựng một trò chơi Rubic 3D ảo trên máy tính được điều khiển bởi các động tác trực tiếp từ tay con người Có tổng cộng 18 động tác điều khiển cơ bản và được huấn luyện mỗi động tác 10 lần, kết quả công bố nhận dạng chính xác trung bình khoảng 91,7% Các nghiên cứu này tập trung vào các chuyển động cơ bản của tay người, sử dụng các cảm biến để đo được sự thay đổi xung nhịp do cơ bắp con người tạo ra
Trang 2515
Kosmidou E [36] và cộng sự cũng phát triển hệ thống sử dụng năng lượng cơ thể, thu nhận tín hiệu bằng cảm biến sinh học và dữ liệu thu được nhờ vào cảm biến gia tốc gắn trên cánh tay nhằm nhận dạng ngôn ngữ ký hiệu Hy Lạp (Greek sign language) Các cử chỉ động được thu nhận, xử lý nhận dạng chính xác nhờ các cảm biến gia tốc Nghiên cứu đã thử nghiệm với 60 từ, mỗi từ lặp lại 10 lần, do 3 người thực hiện với tỉ lệ thành công đạt 93% Hệ thống thử nghiệm có dây nối trực tiếp giữa cảm biến và máy tính, tác giả mong muốn tiếp tực nghiên cứu và phát triển hệ thống kết nối không dây và tích hợp nhận dạng trên các thiết bị cầm tay Tiếp tục các nghiên cứu trước, Yun Li [46] và cộng sự xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu Trung Quốc dựa trên các cảm biến gia tốc và điện cực sinh học gắn trên các cánh tay của cơ thể con người Hệ thống cảm biến bao gồm hai cảm biến gia tốc ba chiều (3D-ACC) và tám cảm biến điện sinh học phân bố đều trên hai cánh tay (Hình 1.5) Mỗi cảm biến 3D đặt mặt sau cẳng tay gần với cổ tay để nắm bắt thông tin về hướng và quỹ đạo chuyển động Mỗi cảm biến điện sinh học có thu nhận tín hiệu tương tự và được số hóa chuyển qua thiết bị máy tính để xử lý
Hình 1.5 : Cảm biến gia tốc và cảm biến điện sinh học trên cánh tay [46]
Sau trích xuất dữ liệu đặc trưng, hệ thống sử dụng thuật toán cây quyết định và
mô hình Markov ẩn (HMM) để nhận dạng ngôn ngữ ký hiệu Trung Quốc Kết quả thực nghiệm với độ phân loại chính xác 95,78% trên 121 ký hiệu Tuy nhiên, hệ thống
Trang 2616
vẫn còn kết nối với máy tính thông qua dây cáp, tác giả mong muốn phát triển hệ thống truyền nhận dữ liệu thông qua kết nối không dây bluetooth với các thiết bị di dộng để thuận tiện hơn cho người sử dụng đồng thời nâng cao hơn nữa hiệu quả và
số lượng từ nhận dạng Phương pháp thu nhận dữ liệu bằng các cảm biến gắn trực tiếp trên cơ thể chủ yếu dùng trong lĩnh vực y học, điều khiển và còn rất hạn chế trong
sử dụng nhận dạng ngôn ngữ ký hiệu
1.2.1.2 Găng tay dữ liệu (Data-Glove)
Găng tay dữ liệu (Hình 1.5) là găng tay đặc biệt dùng để theo dõi sự thay đổi hình dạng và chuyển động của tay Thiết bị này có các cảm biến sẽ được bố trí trên tất cả các ngón tay và bàn tay để phát hiện sự di chuyển và uốn cong của các ngón tay, cung cấp vị trí, định hướng, tốc độ và hướng của tay theo một tham chiếu cố định
T Kuroda [39] và cộng sự trình bày nghiên cứu sử dụng một găng tay dữ liệu thông minh được đặt tên là StrinGlove StrinGlove sử dụng 24 dây bán dẫn và 9 cảm biến để thu nhận dữ liệu Hệ thống xây dựng sẵn bộ từ điển dữ liệu dành cho người khiếm thính và có thể chuyển đổi từ ngôn ngữ ký hiệu sang ngôn ngữ nói và ngược lại Khi có sự thay đổi các ngón tay, các dây bán dẫn và cảm biến sẽ cảm nhận những thay đổi về khoảng cách, sự uốn cong của các ngón tay và truyền về cho cảm biến xử
lý trung tâm Cuối cùng các tín hiệu dữ liệu đầu vào sẽ so khớp với dữ liệu có sẵn trong hệ thống để đưa ra kết quả Ở đây tác giả mong muốn phát triển một thế hệ găng tay mới nhằm giảm chi phí và phục vụ cho người khiếm thính với bộ từ điển có sẵn Nhược điểm chính của hệ thống là thiết bị quá phức tạp, gây bất tiện cho người sử dụng và bộ tự điển cố định khó có thể thay đổi
Hình 1.6: Găng tay dữ liệu
Trang 27Một số nghiên cứu sử dụng phương pháp thu nhận dữ liệu dựa trên thị giác máy tính kết hợp với găng tay màu Phương pháp này bao gồm một máy tính có gắn một hay nhiều máy ảnh dùng để thu nhận ảnh và găng tay có màu khác biệt so với nền, trên các dầu ngón tay có thể được đánh dấu bằng các màu sắc khác nhau
Hình 1.7: Hệ thống CopyCat [6]
Brashear [6] phát triển một trò chơi dành cho trẻ em khiếm thính dựa trên ngôn ngữ ký hiệu của Mỹ Hệ thống có tên là CopyCat dành cho trẻ em từ 6-11 tuổi Hệ thống bao gồm: máy vi tính, máy ảnh, găng tay màu và chuột không dây (Hình 1.7)
Hệ thống dựa vào dữ liệu hình ảnh bàn tay và vị trí di chuyển (gia tốc) trên cả
Trang 28Khaled Assaleh và M Al-Rousan [2] xây dựng chương trình nhận dạng ngôn ngữ ký hiệu cho các nước nói tiếng Ả Rập dựa trên mô hình đa giác Đa giác được xây dựng từ việc xác định các đỉnh bao gồm cổ tay và các đầu ngón tay Để phân biệt các ngón tay tác giả đã sử dụng một găng tay trắng được đánh dấu năm màu sắc khác nhau (Hình 1.8 a) Vec-tơ đặc trưng được xây dựng từ tập hợp khoảng cách từ đỉnh các ngón tay đến cổ tay, góc tạo bởi đường mặt ngang và đường nối đỉnh ngón tay –
cổ tay, khoảng cách giữa các ngón tay và góc so với đường ngang (Hình 1.8 c)
Dựa trên các thông số vec-tơ đặc trưng và sử dụng phương pháp phân lớp đa thức và đánh giá điểm số để xác định kết quả đầu ra Trong nghiên cứu này tác giả đã thành công với việc sử dụng găng tay màu để thu nhận dữ liệu đầu vào, cách thực hiện này khá hiệu quả và làm giảm đáng kể quá trình tiền xử lý, trích chọn đặc trưng Tuy nhiên tỉ lệ nhận dạng thành công còn khá thấp chỉ từ 36% đến 57%, lý do chính
là phương pháp phân lớp đa thức chưa cho ra kết quả phân loại rõ ràng và không có khả năng tự học trong quá trình nhận dạng
Hình 1.8: Găng tay màu sắc và thiết lập đặc trưng [2]
(a) găng tay màu; (b) kết quả phân vùng ảnh đầu ra; (c) trích đặc trưng
Trang 2919
Còn rất nhiều nghiên cứu về găng tay dữ liệu trong lĩnh vực nhận dạng ngôn ngữ ký hiệu, phương pháp này thu nhận dữ liệu khá tốt và có thể không cần phải qua các bước tiền xử lý ảnh [44] Nhược điểm chính của việc sử dụng găng tay dữ liệu là người sử dụng phải đeo găng tay, cần phải có dây nối trực tiếp với máy tính và không thuận tiện trong giao tiếp [54]
1.2.1.3 Máy ảnh (Camera)
Phương pháp thu thập dữ liệu dựa trên thị giác máy tính (máy ảnh) được triển khai rộng rãi trong nhận dạng ngôn ngữ ký hiệu Trong phương pháp này, cử chỉ ký hiệu được thu nhận bằng máy ảnh cố định đặt trước người thực hiện Những hình ảnh
về hình dạng bàn tay, vị trí các ngón tay, lòng bàn tay, vị trí bàn tay so với cơ thể hay biểu hiện khuôn mặt được chú trọng Thông thường bàn tay được đặt trong trung tâm của hình ảnh, người thể hiện sẽ mặc áo dài tay và đứng trong phông nền có màu sắc hoàn toàn trái ngược với màu da nhằm để phát hiện tốt hình ảnh bàn tay Tiếp theo hình ảnh sẽ được xử lý theo yêu cầu chỉ lấy đối tượng bàn tay, khuôn mặt hay các vị trí chuyển động của bàn tay, cánh tay sau khi loại bỏ nền và đưa vào phân tích nhận dạng Phương pháp này có ưu điểm về trích xuất được cả hình ảnh khuôn mặt và bàn tay của người thực hiện
Để khắc phục hiện tượng bị che lấp bàn tay và khuôn mặt hay nhiễu hình ảnh của nền, Starner T và cộng sự [76] đã sử dụng máy ảnh gắn trên đầu người (Hình 1.8) nhận dạng, cách này giải quyết được sự bị che lấp bởi cơ thể nhưng lại không thể thu được hình ảnh khuôn mặt và cơ thể khi di chuyển bàn tay Kết quả hệ thống nhận dạng thành công 97% với 40 từ và được thực hiện trong môi trường phòng thí nghiệm, hình ảnh thu được không bị ảnh hưởng bởi ánh sáng và hình nền Phương pháp này vẫn còn một nhược điểm khá lớn là người sử dụng phải đội một mũ có gắn máy ảnh
và thiết bị kết nối trực tiếp với máy tính nên không thể di chuyển được
Năm 2003, Brashear [7] đã cải tiến hệ thống cũ nhằm mục tiêu thay đổi môi trường hoạt động và tạo ra hệ thống kết nối với các thiết bị di động, có thể trả về kết quả là tin nhắn văn bản hay âm thanh Để bước đầu thu thập dữ liệu xử lý tốt hơn, hệ
Trang 3020
thống yêu cầu người sử dụng đeo hai vòng cổ tay xanh và vàng để phân biệt tay trái
và phải Nhờ đó việc xác định, phân biệt hình ảnh bàn tay dễ dàng hơn, kết quả được cải thiện đáng kể
Hình 1.9: Thu nhận hình ảnh để nhận dạng [75]
Nguyen [60] và cộng sự sử dụng một máy ảnh gắn trực tiếp vào máy tính và thu nhận ảnh chứa bàn tay, cánh tay, khuôn mặt của người thực hiện Trong bước tiền
xử lý, tác giả sử dụng kỹ thuật lọc màu da, phát hiện cánh tay và bàn tay sau khi loại
bỏ ảnh nền và khuôn mặt người Bước tiếp theo tác giả loại bỏ cánh tay, chỉ giữ lại bàn tay bắt đầu từ phần cổ tay và xây dựng các vec-tơ đặc trưng
Hình 1.10: Hình ảnh bàn tay qua các bước xử lý
Đối với phương pháp thu nhận dữ liệu bằng máy ảnh, việc phát hiện bàn tay
là bước quan trọng của quá trình xử lý Tất cả các nghiên cứu đều quan tâm đến các phương thức xử lý như: phân ngưỡng, lọc màu da, trừ nền, kỹ thuật lọc Gaussian
để loại bỏ nhiễu, ảnh nền và tăng chất lượng của ảnh bàn tay thu nhận Sau đó hình ảnh bàn tay sẽ được phủ kín và xóa bỏ các điểm ảnh lỗi để có được những hình ảnh bàn tay đưa vào xử lý trích xuất đặc trưng (Hình 1.10)
Trang 3121
Phương pháp thu nhận dữ liệu từ máy ảnh rất được phổ biến và áp dụng rộng rãi trong các nghiên cứu và cuộc sống hiện nay, nhưng kết quả vẫn chưa đạt được tối
ưu Trong các nghiên cứu về nhận dạng ngôn ngữ ký hiệu vẫn còn có sự nhầm lẫn do
có sự thay đổi góc nhìn, giống nhau về hình dạng sau khi xử lý, ví dụ ký tự M và N,
R và U trong bảng chữ cái ngôn ngữ ký hiệu tiếng Việt [60]
1.2.1.4 Microsoft Kinect
Phiên bản đầu tiên của Kinect được công bố vào năm 2010 và Kinect V2 được giới thiệu vào năm 2014 với nhiều tính năng được cải thiện: tăng chất lượng cảm biến chiều sâu, cải thiện nhận dạng khung xương, tăng cường công nghệ hồng ngoại
Tác giả Zahoor Z [93] và cộng sự nhận thấy trò chơi giáo dục cho trẻ em khiếm thính CopyCat rất có tiềm năng và có thể cải thiện hiệu quả nhận dạng đáng
kể bằng cách sử dụng Kinect Nghiên cứu xây dựng hệ thống mới giúp người dùng thỏa mái hơn khi không phải mang găng tay màu, cảm biến gia tốc và không có dây nối trực tiếp với máy tính Đặc biệt sử dụng Kinect giá thành rẻ hơn so với việc sử dụng máy ảnh có độ phân giải cao
Tháng 6/2012 Capilla, D.M [10] công bố dự án bao gồm một hệ thống tự động dịch ngôn ngữ ký hiệu kết nối với máy tính nhằm tạo ra sự giao tiếp thuận tiện giữa người khiếm thính và người bình thường không hiểu ngôn ngữ ký hiệu Hệ thống này không áp dụng cho bất kỳ ngôn ngữ ký hiệu của quốc gia nào mà chỉ thử nghiệm với
14 ký hiệu tương ứng với 14 từ vựng: am/are, doctor, have, hello, hot, hungry, I, love,
phone, play, question, sick, want, you và đạt độ chính xác 95,23%
Ngoài ra còn có rất nhiều nghiên cứu về nhận dạng ngôn ngữ ký hiệu sử dụng Kinect [11, 41, 45, 95] Kinect thật sự phù hợp với nhận dạng ngôn ngữ ký hiệu vì thiết bị cung cấp dữ liệu hình ảnh 3D hiệu quả thay vì phải sử dụng nhiều máy ảnh, nhận dạng hiệu quả các bộ phận trên cơ thể người thu như: bàn tay, khuỷu tay, đầu, thân và chân Một ưu điểm của Kinect là thiết bị độc lập với môi trường ánh sáng, có thể phát hiện chuyển động của cơ thể con người trong bóng tối
Trang 3222
Phân loại theo kỹ thuật học máy
Trong những nghiên cứu gần đây, phương pháp thu nhận dữ liệu bằng máy ảnh được nghiên cứu rộng rãi Có nhiều phương pháp học máy được sử dụng để nhận dạng ngôn ngữ ký hiệu như: mạng nơ-ron nhân tạo (ANN), mô hình Markov ẩn (HMM), máy vec-tơ hỗ trợ (SVM), so khớp thời gian động (DTW), mô hình hỗn hợp Gaussian (GMM) Hầu hết các phương pháp này đều dựa trên mô hình thống kê và
tự học, có khả năng tự tối ưu hóa các thông số qua quá trình huấn luyện để nâng cao khả năng phân loại và nhận dạng dựa vào các thông số ẩn Dưới đây là phân tích hiệu quả các phương pháp học máy sau khi thu nhận và tiền xử lý dữ liệu hình ảnh thu nhận từ các phương pháp khác nhau
để tách dữ liệu trong không gian mới bằng cách sử dụng một hàm hạt nhân mới Ranh giới quyết định được đưa ra bởi hàm tuyến tính
Mô hình SVM hỗ trợ ban đầu được thiết kế cho việc phân loại nhị phân (2 lớp), nhưng sau đó được mở rộng để thực hiện việc phân loại đa lớp SVM 2 lớp được ứng dụng nhiều trong việc nhận dạng đối tượng, trong bức ảnh nó được chia thành hai lớp, một lớp chứa đối tượng và một lớp không phải là đối tượng
S Naidoo [58] và cộng sự phát triển hệ thống nhận dạng ngôn ngữ ký hiệu của Nam Phi với các cử chỉ tay tĩnh Một hệ thống vec-tơ hỗ trợ nhận dạng được sử dụng
để phân loại các tư thế của cử chỉ tay Sau khi thu được ảnh sẽ được chia thành m x n
Trang 3323
khối và trích xuất đặc trưng dựa vào biểu đồ giá trị màu sắc trong từng khối Như vậy vec-tơ đặc trưng có m x n phần tử Hệ số hạt nhân K được lựa chọn sao cho số lượng lớn các hàm bậc hai được giảm tối ưu Mục đích chính của hệ thống là tìm ra một hướng đi mới nhằm tạo ra một hệ thống giao tiếp giữa người bình thường và người khiếm thính Tuy mới nằm trong giai đoạn nghiên cứu thử nghiệm nhưng kết quả đạt được độ chính xác trên 90%
Hướng tới việc nhận dạng ngôn ngữ ký hiệu Trung Quốc với số lượng từ vựng lớn, Jianjun Ye [90] và cộng sự đã xây dựng một hệ phân loại dựa vào HMM và SVM Nghiên cứu đề xuất một kiến trúc mới để cải thiện hiệu suất nhận dạng ngôn ngữ ký hiệu HMM có tính tối ưu trong việc giải quyết các bài toán thống kê có dữ liệu đầu vào mang tính tuần tự, còn SVM là một mô hình phân loại và tổng quát tốt với các dữ liệu có số lượng mẫu hạn chế Trong giai đoạn đầu hệ thống sử dụng mô hình kiến trúc HMM để phân loại và nhận dạng các ký hiệu Nếu những ký hiệu nào không được HMM phân tích hoặc có sự nhầm lẫn (không chắc chắn) thì trong bước tiếp theo hệ thống sử dụng mô hình SVM để giải quyết
Nghiên cứu đã kiểm tra và so sánh mô hình đa lớp kết hợp HMM và SVM cho kết quả tốt hơn hẳn so với mô hình chỉ sử dụng HMM về tỉ lệ và thời gian nhận dạng
Hệ thống HMM và SVM có thể tự động tối ưu hóa dần dần kết quả và nâng cao hiệu suất nhận dạng sau quá trình nhận dạng Độ chính xác nhận dạng của hệ thống tăng 6,19% (từ 83,21% lên 89,40%) so với HMM đơn
1.2.2.2 Mạng nơ-ron nhân tạo (ANN)
Mạng nơ-ron nhân tạo là một mô hình toán học được xây dựng dựa trên các mạng nơ-ron sinh học Nó gồm các tế bào thần kinh nhân tạo liên kết với nhau và
xử lý thông tin bằng cách kết nối với nhau để tính toán Trong thực tế sử dụng, nhiều mạng nơ-ron là các công cụ mô hình hóa dữ liệu thống kê phi tuyến.Rất nhiều nhà nghiên cứu đã nhấn mạnh sự thành công khi sử dụng mạng nơ-ron nhân tạo để nhận dạng ngôn ngữ ký hiệu Ưu điểm lớn nhất của mạng nơ-ron nhân tạo là tính tổng quát,
nó có khả năng tự học trực tiếp từ dữ liệu theo các mô hình định nghĩa trước, đáp ứng
Trang 3424
thời gian thực [92] Có rất nhiều mô hình mạng nơ-ron nhân tạo trong huấn luyện nhận dạng ngôn ngữ ký hiệu nhưng phổ biến nhất là mô hình mạng nơ-ron đa lớp và mạng nơ-ron quy hồi
Murakami [56] và cộng sự sử dụng mạng nơ-ron nhân tạo với dữ liệu đầu vào gồm 13 cảm biến cho 13 nút đầu vào, 100 nút ẩn và 42 nút đầu ra, nhằm xây dựng hệ thống nhận dạng bảng chữ cái ngôn ngữ ký hiệu Nhật Bản Hệ thống nhận dạng tốt với các cử chỉ đơn tương ứng với từng từ, riêng đối với có cử chỉ kép (thể hiện từ hai hành động liên tục trở lên) thì tác giả đề xuất sử dụng mạng nơ-ron quy hồi Với cách
sử dụng mạng nơ-ron quy hồi hệ thống có thể ghi nhận lại lịch sử các chuyển động
và ghép lại nhận dạng ra từ, tuy nhiên tỉ lệ nhận dạng thành công thấp Đối với từ có một cử chỉ thể hiện thì tỉ lệ nhận dạng cũng chỉ đạt 80% Hệ thống còn giới hạn về số lượng từ vựng nhận dạng và khả năng mở rộng cho nhận dạng ngôn ngữ ký hiệu liên tục là thấp
Khan, Y.N và cộng sự [30] giới thiệu hệ thống mạng nơ-ron nhân tạo nhận dạng bảng chữ cái ngôn ngữ ký hiệu của Mỹ Hệ thống sử dụng mô hình mạng nơ-ron nhân tạo 3 lớp: 7 nút đầu vào, 54 nút ẩn và 26 nút đầu ra tương ứng 26 ký tự trong bảng chữ cái Ngôn ngữ ký hiệu của Mỹ (24 chữ cái và 2 dấu chấm câu) Hệ thống thu nhận tín hiệu đầu vào từ găng tay có 7 cảm biến tương ứng biến đổi thành dữ liệu cho 7 nút mạng Thuật toán di truyền được sử dụng cho việc học tập của các nút mạng Thời gian nhận dạng là 3-4 ký tự/giây và tỉ lệ đạt 88% cho cử chỉ tĩnh Hạn chế của hệ thống này là chỉ nhận dạng cử chỉ tĩnh và sử dụng găng tay cảm biến nên bất tiện cho người sử dụng Tác giả nhận thấy rằng đối với mạng nơ-ron chỉ áp dụng
để phân loại ký hiệu tĩnh, muốn nhận dạng ký hiệu động thì phải áp dụng mô hình Markov ẩn (HMM)
Admasu [1] và cộng sự sử dụng bộ lọc Gabor (Gabor Filter -GF) và phương pháp phân tích thành phần chính (Principal Component Analysis - PCA) để trích xuất các đặc trưng từ ảnh kỹ thuật số làm dữ liệu đầu vào cho mạng nơ-ron nhân tạo để nhận dạng các cử chỉ bàn tay cho ngôn ngữ ký hiệu Ethiopia Nghiên cứu thử nghiệm
Trang 3525
nhận dạng 15 cử chỉ của bảng chữ cái ngôn ngữ ký hiệu Ethiopia và 12 cử chỉ tự định nghĩa Kết quả nhận dạng với dữ liệu hình ảnh có đeo găng tay (để phân biệt hình ảnh bàn tay) đạt 98,53%, không đeo găng tay đạt 86,67% Tuy nhiên nghiên cứu chưa thể thực hiện nhận dạng theo thời gian thực với dữ liệu thu nhận trực tiếp từ máy ảnh
Karami và cộng sự [27] nghiên cứu nhận dạng 32 ký hiệu bảng chữ cái của ngôn ngữ ký hiệu Ba Tư Dữ liệu thu nhận là ảnh màu (RGB) được thay đổi kích cỡ
về 280 x 350 pixel và chuyển đổi sang ảnh xám Sau khi cắt được hình ảnh bàn tay, nghiên cứu áp dụng phép biến đổi sóng con (wavelet) rời rạc để trích xuất đặc trưng
và áp dụng mô hình mạng nơ-ron nhân tạo đa lớp (MLP) Ưu điểm của hệ thống không sử dụng găng tay, phân biệt bàn tay bằng cách dựa vào màu sắc da tay Nghiên cứu nhận dạng thử nghiệm 640 mẫu hình ảnh cử chỉ tĩnh với kết quả nhận dạng đạt 94,06%
Maraqa và cộng sự [50] sử dụng hai mạng nơ-ron quy hồi để nhận dạng ngôn ngữ ký hiệu tiếng Ả Rập Nghiên cứu sử dụng một máy ảnh kỹ thuật số và một găng tay màu để thu nhận dữ liệu đầu vào Vec-tơ đặc trưng được xây dựng dựa trên các thông số hình học là góc và cạnh của 6 đỉnh màu được đánh dấu khác nhau tương ứng với 5 ngón tay và 1 cổ tay Dữ liệu đầu vào có 30 đặc trưng cơ bản được trích xuất tương ứng với 30 nút cho dữ liệu đầu vào, 15 nút cho lớp ẩn và 30 nút cho dữ liệu đầu ra Nghiên cứu sử dụng mạng nơ-ron quy hồi, dữ liệu đầu ra của lớp ẩn hoặc lớp cuối đưa trở lại thành dữ liệu đầu vào để tiếp tục huấn luyện và nhận dạng Dữ liệu thu nhận sử dụng 900 hình ảnh huấn luyện và 300 hình ảnh để nhận dạng, kết quả nhận dạng thành công đạt 95,11% Phương pháp học máy sử dụng mạng nơ-ron quy hồi có thể phát triển nhận dạng các cử chỉ liên tục, tuy nhiên phương pháp trích xuất đặc trưng chưa phân biệt rõ các cử chỉ
Đối với nhận dạng ngôn ngữ ký hiệu tiếng Việt, Nguyen [60] và cộng sự đề xuất phương pháp nhận dạng bằng mạng nơ-ron nhân tạo Vec-tơ đặc trưng xây dựng
từ phương pháp tính số điểm giao nhau giữa đường cắt ngang-dọc, tọa độ định dạng đường viền của hình ảnh bàn tay Nghiên cứu thử nghiệm với 10 ký tự của bnagr chữ
Trang 3626
cái ngôn ngữ ký hiệu tiếng Việt, đạt tỉ lệ nhận dạng thành công 98,00% Nghiên cứu chỉ dừng ở nhận dạng bảng chữ cái biểu diễn bằng một bàn tay, chưa hướng đến nghiên cứu xử lý nhận dạng từ, cụm từ và câu
Qua các nghiên cứu trên cho thấy việc sử dụng mạng nơ-ron nhân tạo thường chỉ thành công ở nhận dạng ngôn ngữ ký hiệu tĩnh như bảng chữ cái hay từ biểu diễn bằng một hành động Đối với các từ có hai hành động trở lên như cụm từ, câu tỉ lệ thành công khá thấp Một nhược điểm lớn của mạng nơ-ron nhân tạo là dung lượng
dữ liệu để lưu trữ trong quá trình huấn luyện là khá lớn, ảnh hưởng đến tốc độ xử lý của hệ thống
1.2.2.3 Mô hình Markov ẩn (HMM)
Mô hình Markov ẩn là một công cụ thống kê rất mạnh trong việc mô hình hóa các chuỗi có thể sinh ra , hay nói cách khác là các chuỗi mà có thể đặc trưng bởi các chuỗi trạng thái sinh ra các chuỗi quan sát khác nhau Các tham số của mô hình được rút ra sau đó có thể sử dụng được để thực hiện các phân tích kế tiếp Trong một mô hình Markov cơ bản, trạng thái được quan sát trực tiếp vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất Mô hình Markov ẩn thêm vào các đầu ra một trạng thái có xác suất phân bổ dựa trên các biểu hiện có thể Vì vậy, nhìn vào dãy của các kết quả được sinh ra bởi mô hình Markov ẩn có thể chỉ ra dãy các trạng thái chuyển tiếp Các chuyển tiếp trạng thái trong mô hình Markov ẩn được minh họa ở hình 1.11
Hình 1.11: Ví dụ mô hình Markov ẩn
- xi — Các trạng thái trong mô hình Markov
Trang 3727
- aij — Các xác suất chuyển tiếp
- bi — Các xác suất đầu ra
- yi — Các dữ liệu quan sát
Yamato [88] và cộng sự đã trình bày phương pháp tiếp cận mô hình Markov
ẩn đầu tiên với các ký hiệu của con người Tác giả nhận dạng sáu hành động cơ bản của người đánh quần vợt Tỉ lệ nhận dạng hành động theo thời gian thực đạt hơn 90% Tuy đây là nghiên cứu còn khá đơn giản (6 hành động) áp dụng mô hình Markov ẩn nhưng được xem là tiền đề cho các nghiên cứu về nhận dạng ngôn ngữ ký hiệu sau này
Starner [77] và cộng sự xây dựng hệ thống nhận dạng ngôn ngữ ký hiệu Mỹ
có thể nhận ra những câu ngắn và 40 từ vựng cơ bản Hệ thống sử dụng một máy ảnh màu để theo dõi sự chuyển động của một người có đeo găng tay màu thực hiện các động tác trước máy ảnh Các thông tin về hướng bàn tay, quỹ đạo di chuyển là các thông số của vec-tơ đặc trưng đưa vào hệ thống sử dụng mô hình Markov ẩn để nhận dạng Hệ thống không tập trung chủ yếu vào ký hiệu phức tạp của bàn tay, chỉ xác định hướng của các ngón tay, vị trí đơn giản trong giới hạn của hình elip và trích xuất các vec-tơ đặc trưng Hệ thống thu thập cơ sở dữ liệu huấn luyện khá lớn khoảng
6000 từ Theo đánh giá của tác giả khi sử dụng mô hình Markov ẩn thì tỉ lệ nhận dạng sai khá thấp, khoảng 0,6% lỗi đối với dữ liệu được huấn luyện và 3% lỗi đối với dữ liệu được thu nhận trực tiếp không thông qua huấn luyện
Grobel [18] và cộng sự trình bày một nghiên cứu nhận dạng các ký hiệu rời rạc sử dụng mô hình Markov ẩn Hệ thống yêu cầu người thực hiện ngôn ngữ ký hiệu phải đeo một găng tay màu trắng có đánh dấu màu ở năm ngón tay, lòng bàn tay và mặt sau bàn tay Nghiên cứu sử dụng thuật toán phân ngưỡng màu để xác định vị trí các ngón tay, xác định mặt trước hay mặt sau của bàn tay khi thể hiện Trong bước
xử lý tiếp theo hệ thống xác định kích thước và trọng tâm của bàn tay, sau đó sẽ xây dựng các vec-tơ đặc trưng từ các thông số như: khoảng cách, góc tạo thành của trọng tâm đến vị trí đầu các ngón tay, vị trí của bàn tay so với cơ thể Vec-tơ đặc trưng được
Trang 3828
xây dựng có đặc trưng tương đối đơn giản, sau quá trình huấn luyện và nhận dạng bằng mô hình Markov ẩn hệ thống đạt được tỉ lệ nhận dạng khoảng 94% với 262 ký hiệu khác nhau của ngôn ngữ ký hiệu rời rạc Với cách trích xuất vec-tơ đặc trưng như trên, nghiên cứu bị hạn chế nhận dạng số lượng từ vựng, các từ có biểu diễn bằng nhiều hành động, các cụm từ và câu Người sử dụng không thực sự thỏa mái khi phải mang găng tay trong quá trình thực hiện
Liang [47] và cộng sự phát triển hệ thống nhận dạng ngôn ngữ ký hiệu Đài Loan liên tục có sử dụng một găng tay dữ liệu Hai mô hình HMM được phát triển, một mô hình cho nhận dạng cử chỉ dựa vào tư thế, vị trí, hướng và chuyển động, một
mô hình dùng phân tích ngữ pháp và ngữ nghĩa của câu hoặc cụm từ Mục tiêu của
mô hình thứ hai là ước lượng xác suất của một chuỗi cử chỉ sau đó cải thiện để tăng
tỷ lệ nhận dạng đúng Hệ thống xác định được điểm kết thúc của từng từ trong một chuỗi các cử chỉ đầu vào dựa vào các gián đoạn cử chỉ theo tham số thời gian Nghĩa
là khi thực hiện chuyển sang một từ mới thì người biểu diễn ngôn ngữ ký hiệu đều tạm ngừng một khoảng thời gian ngắn và thường chuyển hành động của tay về vị trí nghỉ Tác giả đã thực hiện thử nghiệm với 250 từ vựng trong bộ ngôn ngữ ký hiệu Đài Loan Hệ thống sử dụng mô hình Markov ẩn với các đặc trưng cho 51 tư thế cơ bản, 6 hướng khác nhau và 8 kiểu chuyển động đặc trưng của ngôn ngữ ký hiệu Đài Loan Kết quả nghiên cứu nhận dạng đạt trung bình 84% Đối với hệ thống này có ưu điểm nhận dạng được các chuyển động liên tục biểu diễn nhiều từ, có khả năng nhận biết hành động khi kết thúc thực hiện biểu diễn từng từ Tuy nhiên hệ thống chỉ mới thực hiện nhận biết đối với hành động biểu diễn một cánh tay, nhưng với ngôn ngữ
ký hiệu Đài Loan có một số từ cần biểu diễn bằng cả hai tay
Bowden [5] và cộng sự sử dụng chuỗi Markov kết hợp với phân tích độc lập (ICA) cho hệ thống nhận dạng Ngôn ngữ ký hiệu tiếng Anh (BSL) Hệ thống thu thập
dữ liệu bằng cách sử dụng kỹ thuật trích xuất hình ảnh, lấy tính năng đặc trưng về vị trí, chuyển động và hình dạng của bàn tay có đeo 2 găng tay màu xanh và vàng nhằm giảm bớt quá trình tiền xử lý Kết quả nhận dạng khá cao đạt khoảng 97,67% với 43
Trang 3929
ký hiệu được đào tạo sẵn
Vogler [85] và cộng sự phát triển mô hình Markov ẩn song song nhận dạng Ngôn ngữ ký hiệu của Mỹ Trong hệ thống chú ý đến vị trí thể hiện của bàn tay và xem sự biểu diễn một từ là chuỗi các sự kiện tương tự như chuỗi biểu diễn âm thanh trong một từ Kết quả cho thấy tỉ lệ chính xác 87,88% đối với số lượng từ vựng nhỏ (22 ký hiệu)
Wen Gao và cộng sự [17] đề xuất hệ thống nhận dạng ngôn ngữ ký hiệu Trung Quốc cho cả ký hiệu rời rạc và liên tục Trong hệ thống này kỹ thuật SOFM/HMM (Self-Organizing Feature Map/Hidden Markov Model) lần đầu tiên được áp dụng cho nhận dạng ngôn ngữ ký hiệu SOFM đầu tiên được giới thiệu bởi Kohonen [35] đã được sử dụng thành công trong các ứng dụng xử lý tín hiệu, đặc biệt là nhận dạng tiếng nói SOFM đã cho thấy tiềm năng lớn để khai thác các tính năng ẩn bên trong
mô hình Markov ẩn Kiến trúc của SOFM là một mạng lưới kết nối đầy đủ với hai lớp và mỗi đầu vào được kết nối với tất cả các đầu ra với trọng số đã được điều chỉnh
là thông số ẩn tiếp theo cho các trạng thái của mô hình Markov ẩn SOFM thực chất
là một mạng nơ-ron nhân tạo nhưng số chiều thấp hơn nhiều (thường là 2 chiều) không sử dụng lớp ẩn nên có nhiều ưu điểm hơn so với mạng nơ-ron nhân tạo về không gian dữ liệu và tốc độ xử lý Sự kết hợp của SOFM/HMM sẽ làm cho các trạng thái đầu vào của mô hình Markov ẩn sẽ nhỏ gọn hơn Kết quả hệ thống sử dụng 220
từ và 80 câu trong các thử nghiệm và tỉ lệ thành công 94,7%
Wang Xiaoyu [86] và cộng sự trình bày nghiên cứu nhận dạng Ngôn ngữ ký hiệu tiếng Trung Quốc dựa trên đa kiến trúc, kết hợp DTW (Dynamic Time Warping)
và HMM (Hidden Markov Model) Hệ thống sử dụng hai găng tay Cyber và ba máy ảnh, găng tay dùng để thu thập các thông tin về hướng, vị trí, quỹ đạo chuyển động của bàn tay Hai máy ảnh dùng để thu nhận hình ảnh thể hiện của bàn tay, còn một máy ảnh còn lại là dùng để dự phòng kiểm tra hình ảnh bàn tay khi thể hiện các động tác hướng lòng bàn tay ra sau Hệ thống làm tăng độ chính xác nhận dạng hơn 4,66%
so với chỉ sử dụng đơn thuần phương pháp nhận dạng dựa trên HMM và đạt tỉ lệ
Trang 40Zafrulla và cộng sự [93] sử dụng thiết bị Kinect để nhận dạng ngôn ngữ ký hiệu Mỹ trong trò chơi giáo dục cho trẻ em khiếm thính Mục đích của hệ thống là so sánh kết quả nhận dạng sử dụng thiết bị Kinect với găng tay màu trong CopyCat [6]
đã trình bày trước đó Sau khi thu thập các tính năng đặc trưng, hệ thống được đào tạo với mô hình Markov ẩn với 4 trạng thái Tác giả thu thập được tổng cộng 1000 cụm từ thực hiện ngôn ngữ ký hiệu Mỹ trên cả hai hệ thống Đánh giá về hiệu quả của hệ thống sử dụng Kinect có tỉ lệ thành công đạt 51,5% đối với tư thế ngồi và 76,12% đối với tư thế đứng Tỷ lệ hệ thống cũ sử dụng găng tay màu chỉ đạt 74,82%
và chỉ áp dụng đối với người thực hiện trong tư thế ngồi
Tại Việt Nam, nghiên cứu về nhận dạng ngôn ngữ ký hiệu tiếng Việt bắt đầu muộn, một số nghiên cứu đã thành công về nhân dạng cử chỉ tĩnh và dựa vào đó áp dụng nhận dạng ngôn ngữ ký hiệu liên tục