Bài viết đề xuất phương pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động với dữ liệu được thu từ camera Kinect phiên bản 2. Việc xác định mức độ tương đồng giữa hai cử chỉ được thực hiện bởi thuật toán Dynamic Time Warping (DTW) và kết quả phân lớp được đưa ra bởi Nearest Neighbor (NN). Việc thực nghiệm trên 10 từ tiếng Việt mang lại hiệu quả nhận dạng trung bình lên đến 92%, đồng thời hệ thống có thể xử lý theo thời gian thực nhằm phù hợp với ứng dụng thực tế. Mời các bạn cùng tham khảo!
Trang 1Nhận dạng ngôn ngữ ký hiệu tiếng Việt với cử chỉ
động dựa trên hệ tọa độ cầu
Võ Đức Hoàng, Huỳnh Hữu Hưng, Nguyễn Hồng Sang
Trung tâm DATIC, Trường Đại học Bách Khoa, Đại học Đà Nẵng
Email: {hoangvd.it, hhhung}@dut.udn.vn, sangnguyenhong@hotmail.com
Jean Meunier DIRO, Đại học Montreal, Canada Email: meunier@iro.umontreal.ca
Abstract—Ngôn ngữ ký hiệu là phương tiện giao tiếp được sử
dụng phổ biến trong cộng đồng người khiếm thính Ngôn ngữ ký
hiệu có những đặc trưng riêng với các quốc gia khác nhau, được
biểu diễn thông qua các cử chỉ và hình dạng bàn tay, khuỷu tay,
hay khuôn mặt Trong bài báo này, chúng tôi đề xuất phương
pháp nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động với dữ
liệu được thu từ camera Kinect phiên bản 2 Việc xác định mức
độ tương đồng giữa hai cử chỉ được thực hiện bởi thuật toán
Dynamic Time Warping (DTW) và kết quả phân lớp được đưa ra
bởi Nearest Neighbor (NN) Việc thực nghiệm trên 10 từ tiếng
Việt mang lại hiệu quả nhận dạng trung bình lên đến 92%, đồng
thời hệ thống có thể xử lý theo thời gian thực nhằm phù hợp với
ứng dụng thực tế
Keywords- Vietnamese sign language, Kinect, Dynamic Time
Warping, Nearest Neighbor, so khớp mẫu, khung xương
I GIỚI THIỆU Ngày nay hệ thống thị giác máy tính được áp dụng nhiều
trong các lĩnh vực như: giám sát, điều khiển công nghiệp, giao
tiếp người và máy, truyền thông, điều khiển rô bốt Có hai xu
hướng nghiên cứu chính về nhận dạng ngôn ngữ ký hiệu tùy
thuộc vào loại cử chỉ tĩnh hay động Các nghiên cứu về nhận
dạng ngôn ngữ ký hiệu tiếng Việt (Vietnamese Sign Language
- VSL) tĩnh [1]-[4] đã cho các kết quả khá cao, ví dụ ở nghiên
cứu nhận dạng VSL tĩnh được H.H.Hưng và cộng sự đưa ra
vào năm 2012 [1], dữ liệu được thu nhận dưới dạng ảnh 2D
thông qua camera màu Sau khi trích xuất đặc trưng dựa trên
hình dạng và đường bao, mạng nơ-ron nhân tạo được sử dụng
để thực hiện việc phân lớp Việc thử nghiệm được thực hiện
trên bộ ký hiệu tương ứng với bảng chữ cái tiếng Việt (nhiều
ký tự hơn so với quốc tế) với độ chính xác lên đến 98%
Trong các nghiên cứu về xử lý ngôn ngữ cử chỉ trước đây,
các nhà khoa học đã sử dụng các phương pháp thu nhận dữ liệu
khác nhau để nhận dạng ngôn ngữ ký hiệu: Starner T và cộng
sự [6] sử dụng hai camera để thu ảnh được hai hình ảnh hai
chiều, tuy nhiên quá trình tiền xử lý phức tạp vì phải đồng bộ
dữ liệu của hai camera Imagawa và cộng sự [7] đã áp dụng kĩ
thuật xử lý ảnh màu để phát hiện và theo vết bàn tay, Jung [8]
sử dụng thiết bị thu nhận đo điện cơ đồ (EMG-
Electromyography) để phân loại 6 cử chỉ tay ngôn ngữ ký hiệu
tiếng Hàn Quốc Bên cạnh đó, nhiều nghiên cứu sử dụng găng
tay cảm biến, găng tay màu cũng được giới thiệu Tất cả các
phương pháp này đều tồn tại những ưu nhược điểm riêng: việc
nhận dạng bằng camera 2D đơn giản về mặt thiết bị nhưng
phức tạp ở khâu xử lý để cho ra dữ liệu chuẩn; các phương
pháp điện cơ đồ, găng tay cảm biến và màu mang lại sự bất tiện
và đòi hỏi chi phí thiết bị đáng kể trong ứng dụng thực tế
Sự ra đời của camera Kinect là một bước ngoặc lớn trong
xử lý ngôn ngữ cử chỉ
Hình 1 Camera đa năng Kinect Năm 2010, Microsoft cho ra mắt phiên bản camera Kinect XBOX (hình 1) với nhiều tính năng thú vị như: camera hồng ngoại, camera chiều sâu, camera màu, nhận dạng giọng nói,… Đặc biệt, ta có thể sử dụng những cảm biến của camera thông qua các API được hỗ trợ trong bộ SDK dành cho Kinect XBOX Với những ưu điểm vượt trội trong tiền xử lý dữ liệu, nhiều bài báo khoa học sử dụng Kinect XBOX như một thiết bị thu nhận dữ liệu trong xử lý ngôn ngữ ký hiệu
Zahoor Zafrulla và các cộng sự [9] có thể coi là người cho đặt nền móng cho nhận dạng ngôn ngữ ký hiệu sử dụng Kinect Nhóm tác giả nhận thấy trò chơi giáo dục cho trẻ em khiếm thính CopyCat rất có tiềm năng và có thể cải thiện hiệu quả nhận dạng đáng kể bằng cách sử dụng Kinect Hệ thống mới giúp người dùng thỏa mái hơn khi không phải mang găng tay màu, cảm biến gia tốc và phải có dây nối trực tiếp với máy tính Đặc biệt sử dụng Kinect giá thành rẻ hơn so với việc sử dụng máy ảnh có độ phân giải cao
Tháng 6/2012 Capilla, D.M [10] công bố dự án bao gồm một hệ thống tự động dịch ngôn ngữ ký hiệu kết nối với máy tính nhằm tạo ra sự giao tiếp thuận tiện giữa người khiếm thính
và người bình thường không hiểu ngôn ngữ ký hiệu Hệ thống
sử dụng Kinect XBOX 360TM do Microsoft phát triển để theo dõi cử chỉ của người khiếm thính (hình 2)
Hình 2 Hệ thống hỗ trợ người khiếm thính
Trang 2Với phiên bản Kinect for Windows (Kinect v2), các thông
số kỹ thuật của camera vượt trội hơn so với bản Microsoft
XBOX: camera màu được nâng lên FullHD (1920 x 1080 @30
fps) so với (640 x 480 @30 fps), camera chiều sâu (512 x 424)
so với (320 x 240), bắt được 25 điểm khung xương so với 20
điểm, theo dõi cùng lúc 6 đối tượng là người thao tác trước
thiết bị
Ngoài ra còn có rất nhiều nghiên cứu về nhận dạng ngôn
ngữ ký hiệu sử dụng Kinect Các báo cáo của Simon Lang [11]
sử dụng Kinect để thu nhận dữ liệu 3D, áp dụng mô hình
HMM để nhận dạng các ký hiệu với kết quả đạt 97.7% Bài báo
về theo dõi chuyển động tay của Li Yi [12] cho thấy Kinect
thật sự phù hợp với nhận dạng ngôn ngữ ký hiệu vì nó cung
cấp dữ liệu hình ảnh 3D hiệu quả thay vì phải sử dụng nhiều
camera cũng như định vị và trích xuất hiệu quả các bộ phận
trên cơ thể người thu như: bàn tay, khủy tay, đầu, thân và chân
Một ưu điểm của Kinect là thiết bị độc lập với môi trường ánh
sáng, có thể phát hiện chuyển động của cơ thể con người trong
bóng tối Kinect giúp giải quyết vấn đề thu nhận dữ liệu đầu
vào không cần găng tay cảm biến, dây nối từ người thực hiện
hay phải thông qua bước tiền xử lý ảnh như: loại bỏ ảnh nền và
lọc nhiễu, làm mịn đối tượng Giải pháp do chúng tôi đề xuất
cũng sử dụng thông tin 3D do Kinect cung cấp để trích xuất
đặc trưng biểu diễn cử chỉ
Ngôn ngữ ký hiệu tiếng Việt so với các ngôn ngữ ký hiệu
trên thế giới có những đặc điểm chung: sử dụng chung ký hiệu
của bảng chữ cái latinh, sử dụng chung bảng chữ số, sử dụng
các hành động bàn tay kết hợp với hành động khuôn mặt, khẩu
hình miệng, ngôn ngữ cơ thể để bày tỏ ý kiến, miêu tả đối
tượng hoặc hành động Ngoài ra, ngôn ngữ ký hiệu tiếng Việt
(cử chỉ động) cũng có những đặc trưng khác biệt so với ngôn
ngữ ký hiệu các nước khác: sử dụng các cách đánh dấu cho từ
ngữ, sử dụng các cách đánh tay biểu diễn các phụ âm ghép, tùy
thuộc vào văn hóa vùng miền
Các ký hiệu tĩnh trong VSL chủ yếu biểu diễn hình ảnh bàn
tay tương ứng với bảng chữ cái và chữ số Số lượng các ký
hiệu này khá ít và thường được thống nhất trên toàn quốc Các
ký hiệu động trong VSL thường bao gồm nhiều cử chỉ phức tạp
như chuyển động cánh tay, hình dạng bàn tay, hay hướng các
ngón tay, tùy thuộc vào quy ước của từng bộ cử chỉ Tuy nhiên,
thông tin về hành động của bàn tay và cánh tay thường được
chú trọng hơn những yếu tố khác Khác với bộ cử chỉ tĩnh chỉ
gói gọn trong bảng chữ cái và chữ số, cử chỉ động biểu diễn từ
ngữ với số lượng và thể loại rất đa dạng và phong phú Hiện
nay, bộ từ điển từ ngữ ký hiệu tiếng Việt có khoảng 4474 từ,
các từ lại có sự khác nhau đối với mỗi vùng miền
Nghiên cứu của chúng tôi tập trung vào các ký hiệu được
quy ước trong bộ từ điển ngôn ngữ ký hiệu Việt Nam [5] Cụ
thể, các cử chỉ được xử lý theo thời gian thực, mỗi hành động
được thu lại bằng camera Kinect v2 Các cử chỉ được biểu diễn
bởi thông tin tọa độ các khớp liên quan đến tay trong hệ tọa độ
cầu thay vì hệ tọa độ Descartes Việc nhận dạng được thực hiện
bởi thuật toán Nearest Neighbor kết hợp với kĩ thuật đo độ
tương đồng DTW Việc thử nghiệm được thực hiện trên 10 từ,
trong đó mỗi từ bao gồm 30 mẫu, với 10 mẫu được sử dụng
làm dữ liệu huấn luyện và 20 mẫu kiểm tra
II PHƯƠNG PHÁP ĐỀ XUẤT
Hình 3 Sơ đồ hoạt động của hệ thống
A Dữ liệu khung xương
Kinect v2 có thể nhận biết được 25 vị trí khớp trong khung xương Sau khi khảo sát từ điển ngôn ngữ ký hiệu tiếng Việt, chúng tôi kết luận rằng chuyển động của đôi tay là yếu tố quan trọng nhất, các thành phần khác của khuôn mặt như khẩu hình miệng hay chuyển động mắt không được sử dụng Do đó, chúng tôi chỉ sử dụng 4 điểm liên quan đến tay gồm 2 điểm bàn tay trái và phải, 2 điểm khuỷu tay trái và phải (hình 4)
Hình 4 Dữ liệu khung xương
Trang 3Dữ liệu khung xương được thu bởi Kinect với tốc độ 30
khung hình mỗi giây Tuy vậy, hệ thống mà chúng tôi xây
dựng chỉ chọn và xử lý 5 khung xương trong số đó Do đó, việc
thu nhận dữ liệu được thực hiện cứ sau mỗi 0.2 giây Cụ thể, cứ
thu được 6 khung hình thì hệ thống tiến hành tính khung xương
trung bình và đưa vào mô-đun nhận dạng Lưu ý rằng mỗi
khung hình được thu nhận sẽ được kiểm tra có chứa các thành
phần bàn tay, khuỷu tay và tâm cơ thể hay không Nếu có điểm
bất kỳ không được thu nhận, hệ thống sẽ tự động điền thông tin
đó bằng dữ liệu từ khung hình trước
1
n k
J n
B Trích xuất đặc trưng
Công việc chính ở giai đoạn này là chuyển thông tin khung
xương ở hệ tọa độ Descartes sang hệ tọa độ cầu Camera
Kinect v2 với cảm biến chiều sâu cho phép làm việc với dữ liệu
chiều sâu của đối tượng Do đó, ta có thể sử dụng dữ liệu 3D để
xử lý ngôn ngữ ký hiệu tiếng Việt Thông tin về khung xương
đã đề cập ở trên có thể biểu diễn trong hệ tọa độ Cartesian với
3 thông số (𝑥𝑥𝑥 𝑥𝑥𝑥 𝑥𝑥) Tuy nhiên, phương pháp này bộc lộ nhược
điểm là chỉ có thể sử dụng dữ liệu trong trường hợp vị trí và
khoảng cách của đối tượng với camera Kinect là không thay
đổi Do đó, ta cần phải đổi hệ quy chiếu từ máy quay sang hệ
quy chiếu của đối tượng: lấy tâm người làm gốc tọa độ, các dữ
liệu về bàn tay và khuỷu tay được quy về theo hệ tọa độ này
(hình 5)
Hình 5 Chuyển đổi hệ quy chiếu từ máy quay sang hệ quy chiếu đối
tượng [10]
Trong toán học, một hệ tọa độ cầu Spherical là một hệ tọa
độ cho không gian 3 chiều mà vị trí một điểm được xác định
bởi 3 số: khoảng cách theo hướng bán kính từ gốc tọa độ r, góc
nâng từ điểm đó từ một mặt phẳng cố địnhθ, và góc kinh độ
của hình chiếu vuông góc của điểm đó lên mặt phẳng cố định
đóφ (hình 6)
Dữ liệu cần xét trong bài báo là tập hợp các vector của bàn
tay trái (LH), bàn tay phải (RH), khuỷu tay trái (LE), khuỷu tay
phải (RE) Ta có tập hợp khung xương:
, , ,
J LE RE LH RH
Các thông tin tương ứng với hệ tọa độ cầu bao gồm
Tập hợp khoảng cách rr r LE, ,RE r LH, r RH
Tập hợp góc nâng LE, RE, LH,RH
Tập hợp góc kinh độ , , ,
Hình 6 Hệ tọa độ cầu Spherical
Để chuyển từ hệ tọa độ Cartesian sang hệ tọa độ cầu Spherical, ta sử dụng các công thức sau:
2 2 2 1
n
i
1
n
z z i
J i T arccos
r
1
2
n
y y i
atan
Trong đó, n là số điểm trong tập hợp J
Hình 7 Chia vùng chuẩn hóa dữ liệu góc kinh độφ
Dữ liệu ban đầu đưa vào là dữ liệu số thực ở hệ tọa độ Descartes, hệ tọa độ sau khi chuyển đổi là hệ tọa độ cầu với tâm là tâm cơ thể của đối tượng Các góc θ và φđược chia thành 12 góc nhỏ với mỗi góc 300 (hình 7) Bán kính r được
nhân với 10 và lấy phần nguyên (dữ liệu thô tính bằng đơn vị mét) Quá trình này giúp làm giảm sai số trong việc làm tròn giá trị Như vậy sau quá trình chuẩn hóa dữ liệu, dữ liệu đưa vào bao gồm các giá trị nguyên
Sau khi thực hiện xong việc trích xuất đặc trưng, vector biểu diễn cử chỉ bao gồm 12 phần tử chứa dữ liệu của 4 điểm khớp tại một thời điểm:
LE, LE, LE, RE, RE, RE, LH, LH, LH, RH, RH, RH
J r r r r (5)
C Phân loại
Trong quá trình này, dữ liệu đầu vào được so sánh với các
ký hiệu sẵn có để chọn ra cử chỉ gần giống nhất Ở đây, việc so khớp có thể thực hiện cả khi không có sự trùng khớp về mặt
Trang 4thời gian thực hiện cử chỉ DTW được sử dụng để so khớp hai
dữ liệu có sự sai khác nhau về thời gian
Thuật toán DTW được giới thiệu từ những năm 1960 [13],
đây là thuật toán so khớp sự giống nhau của 2 chuỗi mà không
phụ thuộc vào thời gian cũng như tốc độ của các chuỗi này
Vào năm 1983, Joseph Kruskal và cộng sự [14] đã giới thiệu
một kỹ thuật mới cho phép tìm ra đường chuẩn hoá tối ưu dựa
trên việc so sánh hai mẫu dữ liệu được vector hoá đặc trưng
(tức là tính khoảng cách giữa chúng) Kỹ thuật này được gọi là
time warping, có thể so khớp hai vector có đặc trưng khác nhau
về thời gian và tốc độ Kỹ thuật so khớp đồng bộ thời gian
bằng cách tính khoảng cách Euclidean hay Mahattan và so sánh
điểm thứ i của một thời điểm ở chuỗi mẫu với điểm i đó trong
chuỗi đối chiếu có nhược điểm là kết quả so khớp thường thấp
với 2 chuỗi không có nhiều tương đồng về thời gian (hình 8)
Hình 8 So khớp bằng phương pháp khoảng cách Euclidean
Thuật toán DTW đưa ra kỹ thuật so sánh 2 chuỗi phi tuyến
tính theo thời gian cho phép so khớp 2 chuỗi ngay cả khi chúng
không đồng bộ về mặt thời gian cũng như tốc độ (hình 9)
Hình 9 So khớp với DTW Trong hình trên, mỗi đường thẳng nối một điểm trên chuỗi
thời gian này với các điểm tương đồng trên chuỗi thời gian kia
Các đường có giá trị giống nhau trên trục y, nhưng đã được
tách ra để các đường thẳng đứng giữa chúng có thể dễ dàng
nhìn thấy Nếu cả chuỗi thời gian trong hình giống hệt nhau thì
tất cả các đường sẽ là thẳng đứng vì lúc này không cần phải
dùng kỹ thuật “time warping” nữa Khoảng cách đường là độ
đo sự khác nhau giữa hai chuỗi thời gian sau khi được chỉnh
sửa so khớp với nhau, được tính bằng tổng các khoảng cách
giữa mỗi cặp điểm được nối với nhau bằng các đường thẳng
đứng trong hình trên Như vậy, hai chuỗi thời gian mà giống
hệt nhau ngoại trừ việc kéo dãn cục bộ của các trục thời gian sẽ
có khoảng cách DTW bằng 0
Trong quá trình thu nhận cử chỉ chúng tôi sử dụng phương
pháp phân lớp Nearest Neighbor được sử dụng để đưa ra kết
quả so khớp là khoảng cách nhỏ nhất giữa dữ liệu đầu vào và
các cụm dữ liệu đã huấn luyện Đây là dữ liệu đầu vào để áp
dụng cho phương pháp phân loại DTW Dữ liệu đưa vào gồm 2
phần chính là dữ liệu khuỷu tay và dữ liệu bàn tay trong cùng
một mảng vector Vấn đề đặt ra là: trong hai dữ liệu về bàn tay
và cánh tay, dữ liệu nào đặc trưng hơn cho từ vựng của ngôn ngữ ký hiệu? Tại mỗi thời điểm, bàn tay di chuyển nhiều hơn khuỷu tay Đánh giá hai dữ liệu này qua thực nghiệm đã đưa ra được kết luận: dữ liệu của bàn tay quan trọng hơn dữ liệu của khuỷu tay Do đó, chúng ta lấy trọng số 80% cánh tay và 20% khuỷu tay
III KẾT QUẢ THỰC NGHIỆM Phương pháp đề xuất được thử nghiệm với 10 từ trong bộ
từ điển Ngôn ngữ Ký hiệu Tiếng Việt [5] Mỗi từ được lấy 30 mẫu gồm 20 mẫu kiểm tra và 10 mẫu huấn luyện, được thực hiện bởi 2 người và các vị trí có sự khác nhau so với thiết bị Kinect Quá trình phân loại được thực hiện bằng thuật toán DTW và Nearest Neighbor Cấu hình hệ thống thử nghiệm: Windows 8 Professional, CPU Intel Core i5 2.5GHz, RAM 4G, Kinect v2 for Windows Hệ thống hoạt động cho ra kết quả trong thời gian thực
Bảng 1.Kết quả nhận dạng ngôn ngữ ký hiệu tiếng Việt
Từ Độ chính xác
IV KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN Trong bài báo này chúng tôi đề xuất một giải pháp mới để nhận dạng ngôn ngữ ký hiệu tiếng Việt cử chỉ động dựa trên bộ
dữ liệu khung xương thu nhận từ thiết bị Kinect Đặc trưng biểu diễn cử chỉ được trích xuất dựa trên việc chuyển đổi vị trí các khớp tay trong hệ tọa độ Descartes sang hệ tọa độ cầu và đưa các giá trị thu được về tập số nguyên Việc phân lớp được thực hiện bởi kĩ thuật Nearest Neighbor, trong đó thuật toán DTW được dùng để đánh giá độ tương đồng của hai mẫu dữ liệu có sự sai khác nhau về thời gian Kết quả thu được khá khả quan khi độ chính xác trung bình lên đến trên 92% Ngoài ra, việc thực nghiệm cho thấy giải pháp đề xuất có thể xử lý trong thời gian thực với chi phí thấp Trong các nghiên cứu tiếp theo, chúng tôi sẽ phân tích thêm các thông tin về hình dạng bàn tay
và biểu hiện khuôn mặt để nâng cao khả năng biểu diễn cử chỉ
và tăng hiệu quả nhận dạng
V LỜI CẢM ƠN Nghiên cứu này được hỗ trợ bởi Nguyễn Trọng Nguyên và nhóm nghiên cứu xử lý ảnh, khoa Công nghệ Thông tin, Trường Đại học Bách khoa, Đại học Đà Nẵng
Trang 5VI TÀI LIỆU THAM KHẢO
[1] Huỳnh Hữu Hưng, Nguyễn Trọng Nguyên, Võ Đức Hoàng, Hồ
Viết Hà, Nhận dạng ngôn ngữ ký hiệu tiếng Việt sử dụng mạng
Neuron nhân tạo Tạp chí Khoa học và Công nghệ, Đại học Đà
Nẵng, 2012 12: p 75-80
[2] Nguyen, T.-N., H.-H Huynh, and J Meunier, Static Hand
Gesture Recognition Using Artificial Neural Network Journal
of Image and Graphics, 2013 1(1)
[3] Nguyen, T.-N., et al Geometry-based static hand gesture
recognition using support vector machine in Control
Automation Robotics & Vision (ICARCV), 2014 13th
International Conference on 2014 IEEE
[4] Trong-Nguyen Nguyen, H.-H.H., and Jean Meunier, Static Hand
Gesture Recognition using Principal Component Analysis
combined with Artificial Neural Network Journal of
Automation and Control Engineering, 2015 Vol 3, No 1: p
40-45
[5] VSDIC Từ điển ngôn ngữ ký hiệu 2014
[6] Starner, T., J Weaver, and A Pentland, Real-time american sign
language recognition using desk and wearable computer based
video Pattern Analysis and Machine Intelligence, IEEE
Transactions on, 1998 20(12): p 1371-1375
[7] Imagawa, K., L Shan, and S Igi Color-based hands tracking
system for sign language recognition in Automatic Face and
Gesture Recognition, 1998 Proceedings Third IEEE International Conference on 1998
[8] Kyung Kwon, J., et al EMG pattern classification using spectral estimation and neural network in SICE, 2007 Annual Conference 2007
[9] Zafrulla, Z., et al., American sign language recognition with the kinect, in Proceedings of the 13th international conference on multimodal interfaces 2011, ACM: Alicante, Spain p 279-286 [10] Capilla, D.M., Sign Language Translator using Microsoft Kinect XBOX 360 TM Department of Electrical Engineering and Computer Science, University of Tennessee, 2012
[11] Lang, S., M Block, and R Rojas Sign language recognition using kinect in Artificial Intelligence and Soft Computing
2012 Springer
[12] Li, Y Hand gesture recognition using Kinect in Software Engineering and Service Science (ICSESS), 2012 IEEE 3rd International Conference on 2012 IEEE
[13] Bellman, R and R Kalaba, On adaptive control processes Automatic Control, IRE Transactions on, 1959 4(2): p 1-9 [14] Kruskal, J.B and M Liberman, The symmetric time-warping problem: from continuous to discrete Time Warps, String Edits and Macromolecules: The Theory and Practice of Sequence Comparison, 1983: p 125-161