1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu

5 7 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 5
Dung lượng 645,86 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài viết đề xuất phương pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động với dữ liệu được thu từ camera Kinect phiên bản 2. Việc xác định mức độ tương đồng giữa hai cử chỉ được thực hiện bởi thuật toán Dynamic Time Warping (DTW) và kết quả phân lớp được đưa ra bởi Nearest Neighbor (NN). Việc thực nghiệm trên 10 từ tiếng Việt mang lại hiệu quả nhận dạng trung bình lên đến 92%, đồng thời hệ thống có thể xử lý theo thời gian thực nhằm phù hợp với ứng dụng thực tế. Mời các bạn cùng tham khảo!

Trang 1

Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ

động dựa trên hệ tọa độ cầu

Võ Đức Hoàng, Huỳnh Hữu Hưng, Nguyễn Hồng Sang

Trung tâm DATIC, Trường Đại học Bách Khoa, Đại học Đà Nẵng

Email: {hoangvd.it, hhhung}@dut.udn.vn, sangnguyenhong@hotmail.com

Jean Meunier DIRO, Đại học Montreal, Canada Email: meunier@iro.umontreal.ca

Abstract—Ngôn ngữ ký hiệu là phương tiện giao tiếp được sử

dụng phổ biến trong cộng đồng người khiếm thính Ngôn ngữ ký

hiệu có những đặc trưng riêng với các quốc gia khác nhau, được

biểu diễn thông qua các cử chỉ và hình dạng bàn tay, khuỷu tay,

hay khuôn mặt Trong bài báo này, chúng tôi đề xuất phương

pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động với dữ

liệu được thu từ camera Kinect phiên bản 2 Việc xác định mức

độ tương đồng giữa hai cử chỉ được thực hiện bởi thuật toán

Dynamic Time Warping (DTW) và kết quả phân lớp được đưa ra

bởi Nearest Neighbor (NN) Việc thực nghiệm trên 10 từ tiếng

Việt mang lại hiệu quả nhận dạng trung bình lên đến 92%, đồng

thời hệ thống có thể xử lý theo thời gian thực nhằm phù hợp với

ứng dụng thực tế

Keywords- Vietnamese sign language, Kinect, Dynamic Time

Warping, Nearest Neighbor, so khớp mẫu, khung xương

I GIỚI THIỆU Ngày nay hệ thống thị giác máy tính được áp dụng nhiều

trong các lĩnh vực như: giám sát, điều khiển công nghiệp, giao

tiếp người và máy, truyền thông, điều khiển rô bốt Có hai xu

hướng nghiên cứu chính về nhận dạng ngôn ngữ ký hiệu tùy

thuộc vào loại cử chỉ tĩnh hay động Các nghiên cứu về nhận

dạng ngôn ngữ ký hiệu tiếng Việt (Vietnamese Sign Language

- VSL) tĩnh [1]-[4] đã cho các kết quả khá cao, ví dụ ở nghiên

cứu nhận dạng VSL tĩnh được H.H.Hưng và cộng sự đưa ra

vào năm 2012 [1], dữ liệu được thu nhận dưới dạng ảnh 2D

thông qua camera màu Sau khi trích xuất đặc trưng dựa trên

hình dạng và đường bao, mạng nơ-ron nhân tạo được sử dụng

để thực hiện việc phân lớp Việc thử nghiệm được thực hiện

trên bộ ký hiệu tương ứng với bảng chữ cái tiếng Việt (nhiều

ký tự hơn so với quốc tế) với độ chính xác lên đến 98%

Trong các nghiên cứu về xử lý ngôn ngữ cử chỉ trước đây,

các nhà khoa học đã sử dụng các phương pháp thu nhận dữ liệu

khác nhau để nhận dạng ngôn ngữ ký hiệu: Starner T và cộng

sự [6] sử dụng hai camera để thu ảnh được hai hình ảnh hai

chiều, tuy nhiên quá trình tiền xử lý phức tạp vì phải đồng bộ

dữ liệu của hai camera Imagawa và cộng sự [7] đã áp dụng kĩ

thuật xử lý ảnh màu để phát hiện và theo vết bàn tay, Jung [8]

sử dụng thiết bị thu nhận đo điện cơ đồ (EMG-

Electromyography) để phân loại 6 cử chỉ tay ngôn ngữ ký hiệu

tiếng Hàn Quốc Bên cạnh đó, nhiều nghiên cứu sử dụng găng

tay cảm biến, găng tay màu cũng được giới thiệu Tất cả các

phương pháp này đều tồn tại những ưu nhược điểm riêng: việc

nhận dạng bằng camera 2D đơn giản về mặt thiết bị nhưng

phức tạp ở khâu xử lý để cho ra dữ liệu chuẩn; các phương

pháp điện cơ đồ, găng tay cảm biến và màu mang lại sự bất tiện

và đòi hỏi chi phí thiết bị đáng kể trong ứng dụng thực tế

Sự ra đời của camera Kinect là một bước ngoặc lớn trong

xử lý ngôn ngữ cử chỉ

Hình 1 Camera đa năng Kinect Năm 2010, Microsoft cho ra mắt phiên bản camera Kinect XBOX (hình 1) với nhiều tính năng thú vị như: camera hồng ngoại, camera chiều sâu, camera màu, nhận dạng giọng nói,… Đặc biệt, ta có thể sử dụng những cảm biến của camera thông qua các API được hỗ trợ trong bộ SDK dành cho Kinect XBOX Với những ưu điểm vượt trội trong tiền xử lý dữ liệu, nhiều bài báo khoa học sử dụng Kinect XBOX như một thiết bị thu nhận dữ liệu trong xử lý ngôn ngữ ký hiệu

Zahoor Zafrulla và các cộng sự [9] có thể coi là người cho đặt nền móng cho nhận dạng ngôn ngữ ký hiệu sử dụng Kinect Nhóm tác giả nhận thấy trò chơi giáo dục cho trẻ em khiếm thính CopyCat rất có tiềm năng và có thể cải thiện hiệu quả nhận dạng đáng kể bằng cách sử dụng Kinect Hệ thống mới giúp người dùng thỏa mái hơn khi không phải mang găng tay màu, cảm biến gia tốc và phải có dây nối trực tiếp với máy tính Đặc biệt sử dụng Kinect giá thành rẻ hơn so với việc sử dụng máy ảnh có độ phân giải cao

Tháng 6/2012 Capilla, D.M [10] công bố dự án bao gồm một hệ thống tự động dịch ngôn ngữ ký hiệu kết nối với máy tính nhằm tạo ra sự giao tiếp thuận tiện giữa người khiếm thính

và người bình thường không hiểu ngôn ngữ ký hiệu Hệ thống

sử dụng Kinect XBOX 360TM do Microsoft phát triển để theo dõi cử chỉ của người khiếm thính (hình 2)

Hình 2 Hệ thống hỗ trợ người khiếm thính

Trang 2

Với phiên bản Kinect for Windows (Kinect v2), các thông

số kỹ thuật của camera vượt trội hơn so với bản Microsoft

XBOX: camera màu được nâng lên FullHD (1920 x 1080 @30

fps) so với (640 x 480 @30 fps), camera chiều sâu (512 x 424)

so với (320 x 240), bắt được 25 điểm khung xương so với 20

điểm, theo dõi cùng lúc 6 đối tượng là người thao tác trước

thiết bị

Ngoài ra còn có rất nhiều nghiên cứu về nhận dạng ngôn

ngữ ký hiệu sử dụng Kinect Các báo cáo của Simon Lang [11]

sử dụng Kinect để thu nhận dữ liệu 3D, áp dụng mô hình

HMM để nhận dạng các ký hiệu với kết quả đạt 97.7% Bài báo

về theo dõi chuyển động tay của Li Yi [12] cho thấy Kinect

thật sự phù hợp với nhận dạng ngôn ngữ ký hiệu vì nó cung

cấp dữ liệu hình ảnh 3D hiệu quả thay vì phải sử dụng nhiều

camera cũng như định vị và trích xuất hiệu quả các bộ phận

trên cơ thể người thu như: bàn tay, khủy tay, đầu, thân và chân

Một ưu điểm của Kinect là thiết bị độc lập với môi trường ánh

sáng, có thể phát hiện chuyển động của cơ thể con người trong

bóng tối Kinect giúp giải quyết vấn đề thu nhận dữ liệu đầu

vào không cần găng tay cảm biến, dây nối từ người thực hiện

hay phải thông qua bước tiền xử lý ảnh như: loại bỏ ảnh nền và

lọc nhiễu, làm mịn đối tượng Giải pháp do chúng tôi đề xuất

cũng sử dụng thông tin 3D do Kinect cung cấp để trích xuất

đặc trưng biểu diễn cử chỉ

Ngôn ngữ ký hiệu tiếng Việt so với các ngôn ngữ ký hiệu

trên thế giới có những đặc điểm chung: sử dụng chung ký hiệu

của bảng chữ cái latinh, sử dụng chung bảng chữ số, sử dụng

các hành động bàn tay kết hợp với hành động khuôn mặt, khẩu

hình miệng, ngôn ngữ cơ thể để bày tỏ ý kiến, miêu tả đối

tượng hoặc hành động Ngoài ra, ngôn ngữ ký hiệu tiếng Việt

(cử chỉ động) cũng có những đặc trưng khác biệt so với ngôn

ngữ ký hiệu các nước khác: sử dụng các cách đánh dấu cho từ

ngữ, sử dụng các cách đánh tay biểu diễn các phụ âm ghép, tùy

thuộc vào văn hóa vùng miền

Các ký hiệu tĩnh trong VSL chủ yếu biểu diễn hình ảnh bàn

tay tương ứng với bảng chữ cái và chữ số Số lượng các ký

hiệu này khá ít và thường được thống nhất trên toàn quốc Các

ký hiệu động trong VSL thường bao gồm nhiều cử chỉ phức tạp

như chuyển động cánh tay, hình dạng bàn tay, hay hướng các

ngón tay, tùy thuộc vào quy ước của từng bộ cử chỉ Tuy nhiên,

thông tin về hành động của bàn tay và cánh tay thường được

chú trọng hơn những yếu tố khác Khác với bộ cử chỉ tĩnh chỉ

gói gọn trong bảng chữ cái và chữ số, cử chỉ động biểu diễn từ

ngữ với số lượng và thể loại rất đa dạng và phong phú Hiện

nay, bộ từ điển từ ngữ ký hiệu tiếng Việt có khoảng 4474 từ,

các từ lại có sự khác nhau đối với mỗi vùng miền

Nghiên cứu của chúng tôi tập trung vào các ký hiệu được

quy ước trong bộ từ điển ngôn ngữ ký hiệu Việt Nam [5] Cụ

thể, các cử chỉ được xử lý theo thời gian thực, mỗi hành động

được thu lại bằng camera Kinect v2 Các cử chỉ được biểu diễn

bởi thông tin tọa độ các khớp liên quan đến tay trong hệ tọa độ

cầu thay vì hệ tọa độ Descartes Việc nhận dạng được thực hiện

bởi thuật toán Nearest Neighbor kết hợp với kĩ thuật đo độ

tương đồng DTW Việc thử nghiệm được thực hiện trên 10 từ,

trong đó mỗi từ bao gồm 30 mẫu, với 10 mẫu được sử dụng

làm dữ liệu huấn luyện và 20 mẫu kiểm tra

II PHƯƠNG PHÁP ĐỀ XUẤT

Hình 3 Sơ đồ hoạt động của hệ thống

A Dữ liệu khung xương

Kinect v2 có thể nhận biết được 25 vị trí khớp trong khung xương Sau khi khảo sát từ điển ngôn ngữ ký hiệu tiếng Việt, chúng tôi kết luận rằng chuyển động của đôi tay là yếu tố quan trọng nhất, các thành phần khác của khuôn mặt như khẩu hình miệng hay chuyển động mắt không được sử dụng Do đó, chúng tôi chỉ sử dụng 4 điểm liên quan đến tay gồm 2 điểm bàn tay trái và phải, 2 điểm khuỷu tay trái và phải (hình 4)

Hình 4 Dữ liệu khung xương

Trang 3

Dữ liệu khung xương được thu bởi Kinect với tốc độ 30

khung hình mỗi giây Tuy vậy, hệ thống mà chúng tôi xây

dựng chỉ chọn và xử lý 5 khung xương trong số đó Do đó, việc

thu nhận dữ liệu được thực hiện cứ sau mỗi 0.2 giây Cụ thể, cứ

thu được 6 khung hình thì hệ thống tiến hành tính khung xương

trung bình và đưa vào mô-đun nhận dạng Lưu ý rằng mỗi

khung hình được thu nhận sẽ được kiểm tra có chứa các thành

phần bàn tay, khuỷu tay và tâm cơ thể hay không Nếu có điểm

bất kỳ không được thu nhận, hệ thống sẽ tự động điền thông tin

đó bằng dữ liệu từ khung hình trước

1

n k

J n

B Trích xuất đặc trưng

Công việc chính ở giai đoạn này là chuyển thông tin khung

xương ở hệ tọa độ Descartes sang hệ tọa độ cầu Camera

Kinect v2 với cảm biến chiều sâu cho phép làm việc với dữ liệu

chiều sâu của đối tượng Do đó, ta có thể sử dụng dữ liệu 3D để

xử lý ngôn ngữ ký hiệu tiếng Việt Thông tin về khung xương

đã đề cập ở trên có thể biểu diễn trong hệ tọa độ Cartesian với

3 thông số (𝑥𝑥𝑥 𝑥𝑥𝑥 𝑥𝑥) Tuy nhiên, phương pháp này bộc lộ nhược

điểm là chỉ có thể sử dụng dữ liệu trong trường hợp vị trí và

khoảng cách của đối tượng với camera Kinect là không thay

đổi Do đó, ta cần phải đổi hệ quy chiếu từ máy quay sang hệ

quy chiếu của đối tượng: lấy tâm người làm gốc tọa độ, các dữ

liệu về bàn tay và khuỷu tay được quy về theo hệ tọa độ này

(hình 5)

Hình 5 Chuyển đổi hệ quy chiếu từ máy quay sang hệ quy chiếu đối

tượng [10]

Trong toán học, một hệ tọa độ cầu Spherical là một hệ tọa

độ cho không gian 3 chiều mà vị trí một điểm được xác định

bởi 3 số: khoảng cách theo hướng bán kính từ gốc tọa độ r, góc

nâng từ điểm đó từ một mặt phẳng cố địnhθ, và góc kinh độ

của hình chiếu vuông góc của điểm đó lên mặt phẳng cố định

đóφ (hình 6)

Dữ liệu cần xét trong bài báo là tập hợp các vector của bàn

tay trái (LH), bàn tay phải (RH), khuỷu tay trái (LE), khuỷu tay

phải (RE) Ta có tập hợp khung xương:

 , , , 

JLE RE LH RH

Các thông tin tương ứng với hệ tọa độ cầu bao gồm

 Tập hợp khoảng cách rr r LE, ,RE r LH, r RH

 Tập hợp góc nâng   LE, RE, LH,RH

 Tập hợp góc kinh độ  ,  , ,  

Hình 6 Hệ tọa độ cầu Spherical

Để chuyển từ hệ tọa độ Cartesian sang hệ tọa độ cầu Spherical, ta sử dụng các công thức sau:

 

 2    2    2 1

n

i

 

1

n

z z i

J i T arccos

r

 

 

1

2

n

y y i

atan

Trong đó, n là số điểm trong tập hợp J

Hình 7 Chia vùng chuẩn hóa dữ liệu góc kinh độφ

Dữ liệu ban đầu đưa vào là dữ liệu số thực ở hệ tọa độ Descartes, hệ tọa độ sau khi chuyển đổi là hệ tọa độ cầu với tâm là tâm cơ thể của đối tượng Các góc θ và φđược chia thành 12 góc nhỏ với mỗi góc 300 (hình 7) Bán kính r được

nhân với 10 và lấy phần nguyên (dữ liệu thô tính bằng đơn vị mét) Quá trình này giúp làm giảm sai số trong việc làm tròn giá trị Như vậy sau quá trình chuẩn hóa dữ liệu, dữ liệu đưa vào bao gồm các giá trị nguyên

Sau khi thực hiện xong việc trích xuất đặc trưng, vector biểu diễn cử chỉ bao gồm 12 phần tử chứa dữ liệu của 4 điểm khớp tại một thời điểm:

LE, LE, LE, RE, RE, RE, LH, LH, LH, RH, RH, RH

Jr   r   r   r   (5)

C Phân loại

Trong quá trình này, dữ liệu đầu vào được so sánh với các

ký hiệu sẵn có để chọn ra cử chỉ gần giống nhất Ở đây, việc so khớp có thể thực hiện cả khi không có sự trùng khớp về mặt

Trang 4

thời gian thực hiện cử chỉ DTW được sử dụng để so khớp hai

dữ liệu có sự sai khác nhau về thời gian

Thuật toán DTW được giới thiệu từ những năm 1960 [13],

đây là thuật toán so khớp sự giống nhau của 2 chuỗi mà không

phụ thuộc vào thời gian cũng như tốc độ của các chuỗi này

Vào năm 1983, Joseph Kruskal và cộng sự [14] đã giới thiệu

một kỹ thuật mới cho phép tìm ra đường chuẩn hoá tối ưu dựa

trên việc so sánh hai mẫu dữ liệu được vector hoá đặc trưng

(tức là tính khoảng cách giữa chúng) Kỹ thuật này được gọi là

time warping, có thể so khớp hai vector có đặc trưng khác nhau

về thời gian và tốc độ Kỹ thuật so khớp đồng bộ thời gian

bằng cách tính khoảng cách Euclidean hay Mahattan và so sánh

điểm thứ i của một thời điểm ở chuỗi mẫu với điểm i đó trong

chuỗi đối chiếu có nhược điểm là kết quả so khớp thường thấp

với 2 chuỗi không có nhiều tương đồng về thời gian (hình 8)

Hình 8 So khớp bằng phương pháp khoảng cách Euclidean

Thuật toán DTW đưa ra kỹ thuật so sánh 2 chuỗi phi tuyến

tính theo thời gian cho phép so khớp 2 chuỗi ngay cả khi chúng

không đồng bộ về mặt thời gian cũng như tốc độ (hình 9)

Hình 9 So khớp với DTW Trong hình trên, mỗi đường thẳng nối một điểm trên chuỗi

thời gian này với các điểm tương đồng trên chuỗi thời gian kia

Các đường có giá trị giống nhau trên trục y, nhưng đã được

tách ra để các đường thẳng đứng giữa chúng có thể dễ dàng

nhìn thấy Nếu cả chuỗi thời gian trong hình giống hệt nhau thì

tất cả các đường sẽ là thẳng đứng vì lúc này không cần phải

dùng kỹ thuật “time warping” nữa Khoảng cách đường là độ

đo sự khác nhau giữa hai chuỗi thời gian sau khi được chỉnh

sửa so khớp với nhau, được tính bằng tổng các khoảng cách

giữa mỗi cặp điểm được nối với nhau bằng các đường thẳng

đứng trong hình trên Như vậy, hai chuỗi thời gian mà giống

hệt nhau ngoại trừ việc kéo dãn cục bộ của các trục thời gian sẽ

có khoảng cách DTW bằng 0

Trong quá trình thu nhận cử chỉ chúng tôi sử dụng phương

pháp phân lớp Nearest Neighbor được sử dụng để đưa ra kết

quả so khớp là khoảng cách nhỏ nhất giữa dữ liệu đầu vào và

các cụm dữ liệu đã huấn luyện Đây là dữ liệu đầu vào để áp

dụng cho phương pháp phân loại DTW Dữ liệu đưa vào gồm 2

phần chính là dữ liệu khuỷu tay và dữ liệu bàn tay trong cùng

một mảng vector Vấn đề đặt ra là: trong hai dữ liệu về bàn tay

và cánh tay, dữ liệu nào đặc trưng hơn cho từ vựng của ngôn ngữ ký hiệu? Tại mỗi thời điểm, bàn tay di chuyển nhiều hơn khuỷu tay Đánh giá hai dữ liệu này qua thực nghiệm đã đưa ra được kết luận: dữ liệu của bàn tay quan trọng hơn dữ liệu của khuỷu tay Do đó, chúng ta lấy trọng số 80% cánh tay và 20% khuỷu tay

III KẾT QUẢ THỰC NGHIỆM Phương pháp đề xuất được thử nghiệm với 10 từ trong bộ

từ điển Ngôn ngữ Ký hiệu Tiếng Việt [5] Mỗi từ được lấy 30 mẫu gồm 20 mẫu kiểm tra và 10 mẫu huấn luyện, được thực hiện bởi 2 người và các vị trí có sự khác nhau so với thiết bị Kinect Quá trình phân loại được thực hiện bằng thuật toán DTW và Nearest Neighbor Cấu hình hệ thống thử nghiệm: Windows 8 Professional, CPU Intel Core i5 2.5GHz, RAM 4G, Kinect v2 for Windows Hệ thống hoạt động cho ra kết quả trong thời gian thực

Bảng 1.Kết quả nhận dạng ngôn ngữ ký hiệu tiếng Việt

Từ Độ chính xác

IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong bài báo này chúng tôi đề xuất một giải pháp mới để nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động dựa trên bộ

dữ liệu khung xương thu nhận từ thiết bị Kinect Đặc trưng biểu diễn cử chỉ được trích xuất dựa trên việc chuyển đổi vị trí các khớp tay trong hệ tọa độ Descartes sang hệ tọa độ cầu và đưa các giá trị thu được về tập số nguyên Việc phân lớp được thực hiện bởi kĩ thuật Nearest Neighbor, trong đó thuật toán DTW được dùng để đánh giá độ tương đồng của hai mẫu dữ liệu có sự sai khác nhau về thời gian Kết quả thu được khá khả quan khi độ chính xác trung bình lên đến trên 92% Ngoài ra, việc thực nghiệm cho thấy giải pháp đề xuất có thể xử lý trong thời gian thực với chi phí thấp Trong các nghiên cứu tiếp theo, chúng tôi sẽ phân tích thêm các thông tin về hình dạng bàn tay

và biểu hiện khuôn mặt để nâng cao khả năng biểu diễn cử chỉ

và tăng hiệu quả nhận dạng

V LỜI CẢM ƠN Nghiên cứu này được hỗ trợ bởi Nguyễn Trọng Nguyên và nhóm nghiên cứu xử lý ảnh, khoa Công nghệ Thông tin, Trường Đại học Bách khoa, Đại học Đà Nẵng

Trang 5

VI TÀI LIỆU THAM KHẢO

[1] Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên, Võ Đức Hoàng, Hồ

Viết Hà, Nhận dạng ngôn ngữ ký hiệu tiếng Việt sử dụng mạng

Neuron nhân tạo Tạp chí Khoa học và Công nghệ, Đại học Đà

Nẵng, 2012 12: p 75-80

[2] Nguyen, T.-N., H.-H Huynh, and J Meunier, Static Hand

Gesture Recognition Using Artificial Neural Network Journal

of Image and Graphics, 2013 1(1)

[3] Nguyen, T.-N., et al Geometry-based static hand gesture

recognition using support vector machine in Control

Automation Robotics & Vision (ICARCV), 2014 13th

International Conference on 2014 IEEE

[4] Trong-Nguyen Nguyen, H.-H.H., and Jean Meunier, Static Hand

Gesture Recognition using Principal Component Analysis

combined with Artificial Neural Network Journal of

Automation and Control Engineering, 2015 Vol 3, No 1: p

40-45

[5] VSDIC Từ điển ngôn ngữ ký hiệu 2014

[6] Starner, T., J Weaver, and A Pentland, Real-time american sign

language recognition using desk and wearable computer based

video Pattern Analysis and Machine Intelligence, IEEE

Transactions on, 1998 20(12): p 1371-1375

[7] Imagawa, K., L Shan, and S Igi Color-based hands tracking

system for sign language recognition in Automatic Face and

Gesture Recognition, 1998 Proceedings Third IEEE International Conference on 1998

[8] Kyung Kwon, J., et al EMG pattern classification using spectral estimation and neural network in SICE, 2007 Annual Conference 2007

[9] Zafrulla, Z., et al., American sign language recognition with the kinect, in Proceedings of the 13th international conference on multimodal interfaces 2011, ACM: Alicante, Spain p 279-286 [10] Capilla, D.M., Sign Language Translator using Microsoft Kinect XBOX 360 TM Department of Electrical Engineering and Computer Science, University of Tennessee, 2012

[11] Lang, S., M Block, and R Rojas Sign language recognition using kinect in Artificial Intelligence and Soft Computing

2012 Springer

[12] Li, Y Hand gesture recognition using Kinect in Software Engineering and Service Science (ICSESS), 2012 IEEE 3rd International Conference on 2012 IEEE

[13] Bellman, R and R Kalaba, On adaptive control processes Automatic Control, IRE Transactions on, 1959 4(2): p 1-9 [14] Kruskal, J.B and M Liberman, The symmetric time-warping problem: from continuous to discrete Time Warps, String Edits and Macromolecules: The Theory and Practice of Sequence Comparison, 1983: p 125-161

Ngày đăng: 27/04/2022, 10:09

HÌNH ẢNH LIÊN QUAN

Hình 1. Camera đa năng Kinect - Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu
Hình 1. Camera đa năng Kinect (Trang 1)
Hình 2. Hệ thống hỗ trợ người khiếm thính - Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu
Hình 2. Hệ thống hỗ trợ người khiếm thính (Trang 1)
Các ký hiệu tĩnh trong VSL chủ yếu biểu diễn hình ảnh bàn tay tương  ứng với bảng chữ cái và chữ số - Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu
c ký hiệu tĩnh trong VSL chủ yếu biểu diễn hình ảnh bàn tay tương ứng với bảng chữ cái và chữ số (Trang 2)
Hình 6. Hệt ọa độc ầu Spherical - Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu
Hình 6. Hệt ọa độc ầu Spherical (Trang 3)
Hình 7. Chia vùng chuẩn hóa dữ liệu góc kinh độ φ - Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu
Hình 7. Chia vùng chuẩn hóa dữ liệu góc kinh độ φ (Trang 3)
Hình 5. Chuyển đổi hệ quy chiếu từ máy quay sang hệ quy chiếu đối - Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu
Hình 5. Chuyển đổi hệ quy chiếu từ máy quay sang hệ quy chiếu đối (Trang 3)
không đồng bộ về mặt thời gian cũng như tốc độ (hình 9). - Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu
kh ông đồng bộ về mặt thời gian cũng như tốc độ (hình 9) (Trang 4)
Hình 8. So khớp bằng phương pháp khoảng cách Euclidean - Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu
Hình 8. So khớp bằng phương pháp khoảng cách Euclidean (Trang 4)
Hình 9. So khớp với DTW - Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ động dựa trên hệ tọa độ cầu
Hình 9. So khớp với DTW (Trang 4)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm