BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘIĐOÀN THỊ HƯƠNG GIANG NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA BÀN TAY NGƯỜI SỬ DỤNG KẾT HỢP THÔNG TIN HÌNH ẢNH VÀ ĐỘ SÂU ỨNG DỤNG TRONG TƯƠNG Hà Nộ
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
ĐOÀN THỊ HƯƠNG GIANG
NHẬN DẠNG CỬ CHỈ ĐỘNG CỦA BÀN TAY NGƯỜI SỬ DỤNG KẾT HỢP THÔNG TIN HÌNH ẢNH VÀ ĐỘ SÂU ỨNG DỤNG TRONG TƯƠNG
Hà Nội 3 2018 −
Trang 2Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội
Người hướng dẫn khoa học:
Trang 4như không yêu cầu phải có giao diện người dùng Hệ thống đề xuất tối đa khả năng sử
dụng thông qua công cụ nhận dạng cử chỉ tay và cung cấp hệ thống điều khiển nhiều
thiết bị điện gia dụng với đáp ứng thời gian thực
Mục tiêu của luận án
Cấu trúc của luận án
Mở đầu: Giới thiệu chung tính cấp thiết, mục tiêu của luận án; ngữ cảnh, các
ràng buộc và thách thức khi giải quyết các bài toán; Các đóng góp của luận án
Trang 5Chương 1: Tổng quan về điều khiển sử dụng cử chỉ bàn tay và các nghiên cứu
liên quan đến các vấn đề đặt ra trong luận án
Chương 2: Thiết kế và xây dựng cử chỉ bàn tay có tính chất chu kỳ
Phát hiện vùng bàn tay là xác định sự có mặt và vị trí của vùng bàn tay trong
Trang 6của bước phát hiện và trích chọn vùng bàn tay vẫn là những yêu cầu cần phải giải
quyết đối với các hệ thống thực tế
1.3 Phương pháp phân đoạn cử chỉ động của bàn tay
1.5 Thảo luận và kết luận
một phương pháp phát hiện và trích chọn bàn tay dựa trên ảnh màu và ảnh độ sâu đạt
Trang 7được hiệu quả hệ thống cao và đáp ứng thời gian thực Sau đó, chuỗi cử chỉ tay được
2.2 Thiết kế CSDL cử chỉ động có tính chu kỳ
2.2.1 Các lệnh điều khiển các thiết bị điện tử gia dụng cơ bản
Bảng 2.1 Các lệnh chính của các thiết bị điện tử gia dụng
Thiết bị
Lệnh
Lệnh 1/Bật-Tắt Lệnh 2/Tăng Lệnh 3/Giảm Lệnh 4/Tiếp theo Lệnh 5/Quay lại
Trang 8
Stop Start Middle Start Stop
Middle Stop
Start Middle
Stop
Start Middle Stop
Start
) (
b Ideal periodic signal in time domain
T t
s = Π
a Closed-form gestures c Ideal periodic signal in phase domain
Hình 2.2 Phân tích đặc điểm của tín hiệu có tính chu kỳ
Mỗi cử chỉ đã định nghĩa khác biệt ở sự thay đổi hình trạng bàn tay cũng như
hướng dịch chuyển của tay Trong đó, hình trạng tay bao gồm các chuỗi liên tiếp các
Trang 9
Khoảng cách (m) 2 2.5 1.5; 2.5 1.5->3
2.4 Thảo luận và kết luận
TRÍCH CHỌN BÀN TAY VÀ PHÂN ĐOẠN CỬ CHỈ
ĐỘNG VỚI GIẢN ĐỒ HỌC NGƯỜI DÙNG
3.1 Mở đầu
Tương tác người máy thông qua cử chỉ bàn tay được xem như một trong những
cách thức tương tác tự nhiên và thân thiện Tuy nhiên, cách thức điều khiển này phải
Trang 10
đối mặt với khá nhiều thách thức như sự phức tạp và luôn biến đổi của cấu trúc bàn
tay, điều kiện chiếu sáng khác nhau, điều kiện phông nền phức tạp Vì vậy, các thuật
Detecting hand candidates
Pruning hand
Learning parameters (µ, ) δ
of skin model
Learning parameters (d± ) of a distance to ∆ hand
Learning parameters (µ,δ η ) , of background model
(b) The proposed user-guide scheme
(a) The proposed vision-based hand detection and segmentation
RGB
Depth image
Hand detected and Segmented Preprocessing
Trang 113.2.3.1 Học tham số của mô hình nền
Sử dụng mô hình GMM [7] để quan sát sự ổn định của mỗi điểm ảnh p trên
một chuỗi n ảnh độ sâu: sp = [D1,p ,D2,p, , D n,p] Tham số quan sát là độ lệch chuẩn
σp = std s( p) của điểm ảnh Trong đó, điểm ảnh của mô hình nền được biểu diễn bởi p
BGp = (µp ,ηp ,σp), được tính toán như sau:
(a) RGB image (b) Depth image (c) Body extraction (d) Candidates of hand
Hình 3.2 Các kết quả của giai đoạn phát hiện bàn tay
Hình 3.2(a-c) minh họa các kết quả trừ nền Hình 3.2(c) biểu diễn kết quả vùng phát
liên tiếp trên ảnh độ sâu Dt−2 ,Dt−1 ,Dt như sau:
N
P
N t=1 ∆t từ khung hình 1 đến N Giá trị này tăng dần
Trang 12(g) (f)
(e) (d)
-=
Hình 3.3 Kết quả của tham số khoảng cách
(d) Accumulation of along frames ∆ (c) frame # n
(a) frame # 0 (b) frame # i
0 0.2 0.4 0.6 0.8 1
frame Accumulation of ∆
Hình 3.4 Huấn luyện mô hình màu da
3.2.4 Phát hiện và tinh chỉnh kết quả vùng bàn tay dựa trên giản đồ học
(a) A candidate of hand
(b) Mahalanobis distance
Phân đoạn cử chỉ là thực hiện xác định điểm đầu và điểm kết thúc của một cử chỉ
trong chuỗi khung hình liên tiếp Dựa trên đặc trưng của cử chỉ định nghĩa là có tính
Trang 13Ground Truth Ground Truth Ground Truth
0 0.2 0.4 0.6 0.8 1.0
0 0.2 0.4 0.6 0.8
Smoothed signal Applied opening operator Gesture starting Gesture ending
t
fC(t)
Hình 3.7 Hàng trên: Tín hiệu f C( )t Hàng giữa: phóng to một phần tín hiệu f C( )t
Hàng dưới cùng: minh họa sự thay đổi của hình dáng bàn tay khi thực hiện lệnh
fC( ) = t M ax ||f( S( )t || ||, f V( ) )t || (3.9)
Trang 14Sau đó, hàm fC( )t được sử dụng để phát hiện điểm bắt đầu và kết thúc của cử chỉ động của bàn tay như minh họa trong hình 3.7.
ứng, độ chính xác của hệ thống được ghi lại để phân tích và đánh giá
3.4.1 Yêu cầu thời gian học đối với người dùng
Avg ± std 62.6 ± 6.5 %
Sử dụng giản đồ họcJI(%) 86.7 87.6 89.5 88.9 90.4 84.8 87.8 92.4 88.1 83.6
Avg ± std 87.98 ± 2.58 %
3.4.4 Hiệu quả của giải pháp phân đoạn cử chỉ động bàn tay
0 0.2 0.4 0.6 0.8 1
(a) Spotting results of MICA1 dataset
False alarm rate
True positive rate
False alarm rate
True positive rate
Hình 3.8 Kết quả phân đoạn chuỗi cử chỉ động trên CSDL MICA1 và MICA2
Trang 153.5 Thảo luận và kết luận
Chương này đã trình bày các phương pháp cho phép phát hiện vùng bàn tay và
giải pháp đồng bộ pha của chuỗi cử chỉ động đã được đề xuất
Dynamic Hand Gesture Representation
KLT
ISOMAP
Temporal Space
Spatial-Phase Synchrolization
Spotted dynamic hand gesture
Recognition SVM
Hình 4.1 So sánh giải pháp đề xuất với các phương pháp nhận dạng cử chỉ động khác
Trang 164.2 Phương pháp biểu diễn cử chỉ động của bàn tay
Giải pháp đề xuất được so sánh với phương pháp đồng bộ pha DTW[D4] và phương
pháp trích trọn đặc trưng sử dụng kỹ thuật học sâu 3D-CNN[8] như Hình 4.1
4.2.1 Biểu diễn bàn tay từ các đặc trưng không gian và thời gian
4.2.1.1 Trích chọn đặc trưng thời gian
Các điểm đặc trưng được trích chọn trên từng bàn tay từ khung hình đầu tiên cho
đến khung hình cuối cùng trong chuỗi cử chỉ động Sau đó, sự kết nối của các điểm
đặc trưng này với nhau biểu diễn quỹ đạo chuyển động của bàn tay
Mỗi quỹ đạo của bàn tay Xi gồm K điểm đặc trưng {p1 ,p2, , p K} (vòng tròn
màu đỏ trong hình 4.2(a)) Quỹ đạo của Xi được biểu diễn bởi công thức 4.2 sau đây:
K , P
K i=1 yji
Quỹ đạo trung bình biểu diễn hướng dịch chuyển của cử chỉ tay Đây chính là
đặc trưng thời gian T rG
N trích chọn từ chuỗi các khung hình liên tiếp G T r( G
N =[p1 ,p2, , p K]) như (4.3):
T rG
N = ({ x 1 ,y1) (, x2 ,y2), , x ( N ,yN)} (4.3)
Tọa độ của các ảnh khác nhau nên T rG
N được chuẩn hóa về T r G∗
N ; = y P
N i=1 yi
Trang 17T rG∗N = [p1
i,j ,p2 i,j, , p N
4.2.1.2 Trích chọn đặc trưng không gian sử dụng kỹ thuật suy giảm tuyến tính
4.2.1.3 Trích chọn đặc trưng không gian sử dụng kỹ thuật đa tạp
x 10 4
-1.5 -1 -0.5 0 0.5 1 1.5
x 10 4 Three-dimensional Isomap embedding (with neighborhood graph).
a 3D manifold of hand postures b Residual presentations
0 0.02 0.04 0.06 0.08 0.1 0.12 0.14 0.16
4.2.3 Giải pháp đồng bộ pha và nhận dạng cử chỉ động của bàn tay
4.2.3.1 Biểu diễn cử chỉ động của bàn tay
Một cử động của bàn tay GT S bao gồm N hình trạng như trong (4.8) Trong đó,
các đặc trưng theo thời gian được trích chọn với hai tham số bởi kỹ thuật KLT (xi ,yi)
Trang 18Các đặc trưng theo không gian được biểu diễn bởi ba tham số trong không gian đa tạpISOMAP Yi,j; i= 1 N j ; = 1 3 Các đặc trưng sau khi trích chọn được chuẩn hóa vàbiểu diễn trong cùng một không gian như sau:
-150 -100 -50 0 50 100 -20
0 20
-150 -100 -50 0 50 100 150
-150
-50 0 50 100
-50 0 50
-150 -100 -50
100 150
-150 -100 -50 0 50 100 150 -50 0 50
a 40 Turn On_off gestures b 37 Increase gestures c 46 Decrease gestures
y x
Y1
y x
Y1
y x
Y 1
-150 -100 -50 0 50 100 150
-150 -100 -50 0 50 100
-50
0
50
-150 -100 -50 0 50 100 150
-150
-50 0 50 100 150
-20 0 20
-150 -100 -50 0 50 100 150
-150 -100 -50 0 50 100 150 -50 0 50
1
9 20
10
19 8 18 9
8
18 4
10 5
11 11
12 10
9
3 11
10 1
1 2
1 20 12 718
20 10 2 1 1 1
20
2 19
20
17 5 12
2
20 1
11 1
20 420
12 2 12
19 3 19 3 20 20
20 12
19 2 1 19 2 19 18 17 16 1 18
3 12 1 20 18 20 20 9
3 19
10 15 3 7
19 21 13
1 1 917 2 11
3 11 3 18 4
19 220 18
6 17
10 9 1 9 19 11 11 1 18 20 18 19 15
8 17 19 22 20
3 16
1 18 2 20 13 9 20
11 16 3 1
13 1 15 11 18
9 14 20 10
313 2 18
19 512 11 3337 10 17 17
20 1 25
10 1 19 2 19 2 18 20
11 18
341 5 18 3 13 14 212 3 20 9
48 17 914 3 10
11
13 2
12 2 1118 17 9 6 20 8 6 20 3 15 6 620
10 3 320 10
12 9 1
13 8 12 8 3 1 14 1 13 2 13 9 13
10 4 8 3 113 7 3 20 7 19
9 11 1 10 19 20 8
11 21 10 319 2 11 8 914 6 11 9 17 17 82 7615 9 11 10 33 10 16 12
4 9 9
7 910 9 14 2 10 3 710 3 11 22 14 17 2 8
12 320 4 18 8 8
8 3 57 17 5 13 4 20 11
20 16 1 17 13
11 1 19 8 8 18 816 17 11 17 18 1 2 18 14
13 18 24 13 20 119 6 14 2 13 312 6 19 912 9 17 2 120 2 17 3 1 14 1 417 12 9
9 18 2 710 9 19 7 10 19 2 20 12 8 18 3 18 3 13 8 20 7
11 19 12 8 16 11 16 13 518 18 2 12 1 11 2 4 18 10 20 3 12 6 12 32 15 7 17 2 16 6 14 6 15 8 418 17 2 15 10
33 5 10
79 13 17 18 5 20 117 620 3 17 4 20 6 7 9 13 10 8 610 3 20 728 16 8 12 3 5812 2 11 4 17 8 18 13 6 13 2 16 3 518 7914 15 37 44 18 10 17 7 15 11 2 10 1 16 2 13 59 15 19 4 17 1 13 4 18 11 2 19 9
17 8 16 7 616 20 5 14 15 3 11 5 11 2 15 5 13 3 15 10 4 11 3 6 15 4 12 4 813 10 12 9 18 4 712 14 11 14 8 7 20 9 11 71 715 9
7 11 15 712 16 14 4 15 68 13 7 7 13 4 5313 12 12 224 4 20 4 14 7 14 5 19 4 14 5 20 5 17 10 18 4 14 11 11 12
9 11
11 16 10 11 644 18 3 11 6 18 3 17 7 15 9 18 9 17 2 20 53336 6 4 10 412 13 13
12 12 6 14 2 14 5 17 3 16 7 14 4 13 7 12 6 12 18 1 5 315 14 17 15 515 6 10 6 16 4 17 9 15 38 13 5 611 15 6 17 3 13 1 15 5 26 4 4 20 9 9 13 14 2 12
8 5 14 55 16 7 7415 6 18 8 15 6 511 6 20 816 13 4 16 9 17 2 12 6 38 17 6 15 45 17 6 13 5 15 5 13 8 16 415 12 11 6 12 5 18 9 13 4 20
14 216 8 14 78 717 7 9 6 16 4 13 85 52 13 9 11 3 16 65 16 4 15 3 16 4 17 4 313 1 1
515 3 5317 7 513 15 10 516 556 14 1 12 1 14 14 7 711 4 2815 6 33 14 8 15 6 18 5 19 6 366 6 520 615 3 17 74 45616 15 5 9 13 3216 12 2 16 9 115 95 14 7 14 911 15 1 13 4 16 74 17 5 14 16 6 17 97 3 13 615 5 16 76 16 23 515 4 615 6 17 5 16 3 12 6 618 4 6 14 14 5 5 10 7 13 7 18 5 17 65 14 2 4 20 74 9 1 15 8 4318 4 14 35 16 8 1 16 55 14 5720 5 15 15 5 14 4 10 2 17 55 17 618 7 5 15 1 16 1 7 16 8 13 14 7 414 2 16 72 14 1 7 19 15 4 3 10 2 15 6 317 1 118 2 18 3 15 6 16 26116 8 13 5 4 5 15 2 12 6 14 8 17 2 19 2 18 8 18 8 14 14 7 11 20
12 15 3 18 4 16 3 18 714 35 15 18 56 15 2 15 8 315 8 17 5 17 5 1 12 6518 13 5 16 12 14 5 1 169 14 16 1 2 16 16 6418 12 3 2 20 5 8 214 13 3 13 8 7 16 44 14 16 3 1617 20 9 7 16 4 14 20 1 19 316 19 69 13 13 6 19 1 15 4 17 11 14 4 2
17 7 4 20 7 18 6 4 2 16 4
1 14 66 20 5 15 16 16 46 6 2
5 18 1 1 6 16 8 14 7 18 13 5 20 67 9 8 8 19 6 15 7 4 15 5 20 9 13 816 17 16 6 755 16 2
6 126 15 8 18 92
1 16 7 3 4313 16 6 14 14 1 15 3 16 17 2 13 18 918 13 4 12
5
4 10 13
10 2 7 10 14 7 17 2 20 314 13 6
9 17 13 7 6 19 3 16 8 13 14 15 15 3 1 13 9 16 28 10 13 3 13 73 17 10 18 887 11 18 3 17 3
20 214 17
11 8 20 7 17 14 6 5 17 12 8 16 4 18 13 7 11
13 715 17 8 16 2 19 2 13 910 15 9 13 12 13 4 18 8 20 9 14 17 45 4 18 69 18 7 15 4 10
8
219 12 10 33 6 7 19 88
18 2 15 18 10 12
7 1 14
3 19 11 4 98 7
13 55 9 314 11 313
10 814
12
17 7 12 1 13 8 14
513
37 20 8 20 18 8 220 8 16 2117 17 913 13
5 8 11 18 3 12 7
9 7 19
9
8 12 5 18 20 18 418 13 6 11
12 19 8
7 1 18
12 12
11 15 3 20 7 12 9 20 2
10 20 14 9
15 9
9
20 99 20
812 12
11
99 12 18 1
7 7
11 12 10
8 16 2
3
4 7 8 2 6 12
12 2 19
3 76 6 11
19 1 10 8 12 9
10 11
5 10
8 17
13 5
6 15
9 6 10
10
8 12
8 11
12 7 10 3 11
12
7 18
10
1 11
9 10
9 10 9
8 12
2 2 10
18 9
1 11 9 17
14
19 7 16
11
10
20 1 13
10 17
11 10
10 9
6 14
11 7
9 10 8 11
9 10
810 10
11
9 13 8 11
12
18 815
11 9
20 820
10 13
19 9
2 14 1 15
11
13 9 11
14 9 10
10 20
9 10
10
20 9 20 8
11
11 2 10 9 18 9 14 8 814 8 20 9 15 9
9
20 1
14
1 20
12 7 10 12
10
9 89 13 9
8 11
7 16 1 14 8 13 8 12
8 13
13 9 12
11
9 11 9
9 11
11 9911
8
1 12 110 13
13 10
9 10
10 9 12 9 15
d 52 Back gestures e 37 Next gestures f Convergence of new features representation
y x
Y1
y x
Y 1
y x
Y 1
Hình 4.4 Phân bố của 05 cử chỉ động của bàn tay trong không gian số có chiều thấp
4.2.3.2 Phân tích pha của các cử chỉ có tính chu kỳ
N T
N T
-40 -20 0 20 40 60
6 4 7
5 8
3
9
2 10
1 13 11
(P 2 ,s 2 ) (P 1 ,s 1 )
(P 3 ,s 3 ) (P 5 ,s 5 )
(P 4 ,s 4 ) (P 6 ,s 6 ) (P 7 ,s 7 ) (P 8 ,s 8 ) (P 9 ,s 9 ) (P 10 ,s 10 ) (P 11 ,s 11 ) (P 12 ,s 12 )
(P 13 ,s 13 )
The most similar frames
The most different frames
a Closed-form gesture in new space
y
x
Y1
The most similar frames
N T
Trang 194.2.3.3 Đồng bộ pha với phương pháp nội suy
Một giải pháp nội suy được triển khai để đồng bộ các chuỗi cử chỉ động của bàn
tay nhằm đưa các chuỗi về cùng một kích thước trong không gian mới Giải pháp đề
toán bởi Dinter = {di; ( = 1 i , , N − } Các khoảng cách này được tính bằng khoảng 1)
cách Ơ cờ lít di = ||P i − Pi+1 ||2 giữa hai cử chỉ tay liên tiếp P i và Pi+1
Khi cử chỉ động có N cử chỉ, kích thước mong muốn là M và N < M Khoảng
cách lớn nhất được xác định từ véc tơ Dinter (dmax = max(D inter )), minh họa trong
tay mới có kích thước bằng M:
Premoved = Pi [(di−1 < di+1 )&( = i 6 N − 1)] [( = 1)]or i
Pi+1 [(di−1 > di+1 )&( = 1)] [( = i 6 or i N − 1)] (4.10)
The most
similar frames
The most different frames Interpolated between
Different frames
N T
s i=2 π N
T
s i<2 π
N T
s i>2 π
N T
Trang 204.3 Các đánh giá thử nghiệm
8 10 18 30 40 60 80 100
Recall (%)
Temporal resolution value
MICA2
70 75 80 85 90 95
8 9 10 15 18 25 30 35 40 50 60 70 80 90 100
Recall (%)
Temporal resolution value
MSRGesture3D
0 20 40 60 80 100
8 10 18 30 40 60 80 100
Recall (%)
Temporal resolution value
NVIDIA
Hình 4.7 Kết quả nhận dạng tương ứng với điều chỉnh hệ số M
4.3.2 Đánh giá hiệu quả của giải pháp đề xuất
0 20 40 60 80 100
Dataset
DTW Based[D4] - C3D-SVM[8] The proposed method Recall(%)
0 20 40 60 80 100
DTW-based[D4] C3D-SVM[8] The proposed method
Positions (differences in distance and direction to Kinect) Recall (%)
Hình 4.9 So sánh hiệu quả của một số giải pháp nhận dạng khác nhau
Trang 214.3.4 Đánh giá hiệu quả trên các bộ CSDL khác nhau
Bảng 4.1 Hiệu quả của giải pháp đề xuất trên ba CSDL khác nhau
CSDL Độ chính xác (%) Triệu hồi (%)
Trang 225.2.2 Các chế độ hoạt động của hệ thống điều khiển sử dụng cử chỉ tay
Giản đồ biểu diễn các chuyển trạng thái được mô tả như trong Hình 5.1
Level 4 /Speed 4 (80%)
Level 5 /Speed 5 (100%)
Level 3 /Speed 3 (60%)
Level 2 /Speed 2 (40%)
Level 1 /Speed 1 (20%)
Level 0
/Speed 0
(0%)
Next Back
Next Back
Next Back
Next Back
Next Back Increase
Decrease
Increase Decrease
Turn on_off Turn on_off
Increase Decrease
Increase Decrease
Hình 5.1 Giản đồ trạng thái của hệ thống điều khiển đèn/quạt
5.2.3 Triển khai hệ thống điều khiển
HUE
Philip HUE Lamp Zig-bee
PC Kinect sensor Scene
Arduino
Vinawin Fan
Zig-bee Router
The dynamic hand gesture recognition system
Transceivers Home appliances
5.3.2 Cài đặt môi trường
5.3.3 Xây dựng kịch bản
5.3.4 Các đánh giá thử nghiệm
5.3.4.1 Đánh giá chi phí thời gian của toàn bộ hệ thống trong môi trường thực