Lý do chọn đề tài Trong nhiều năm trở lại đây có rất nhiều nghiên cứu về ước lượng các khớp xương,hành động trên cơ thể người trên một ảnh màu, ảnh độ sâu hoặc trên một chuỗi ảnh.Hầu hết
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VỀ MÔ HÌNH NHẬN DẠNG TƯ THẾ VÕ
DỰA TRÊN ẢNH CHIỀU SÂU
LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
Hà Nội − 2020
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠOTRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
VỀ MÔ HÌNH NHẬN DẠNG TƯ THẾ VÕ
DỰA TRÊN ẢNH CHIỀU SÂU
Ngành: Kỹ thuật điện tử
Mã số : 9520203
LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỆN TỬ
NGƯỜI HƯỚNG DẪN KHOA HỌC:
1 TS Lê Dũng
2 TS Phạm Thành Công
Hà Nội − 2020
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận án: "Về mô hình nhận dạng tư thế võ dựa trên ảnh chiềusâu" là công trình nghiên cứu của riêng tôi
Một phần các số liệu, kết quả trình bày trong luận án là trung thực, đã được công
bố trên các tạp chí khoa học chuyên ngành, kỷ yếu hội nghị khoa học trong nước vàquốc tế
Phần còn lại của luận án chưa được công bố trong bất kỳ công trình nghiên cứutrong và ngoài nước
Hà Nội, ngày 18 tháng 05 năm 2020
NGHIÊN CỨU SINH
Nguyễn Tường Thành
TẬP THỂ HƯỚNG DẪN
TS Lê Dũng TS Phạm Thành Công
Trang 4LỜI CẢM ƠN
Luận án tiến sĩ được thực hiện tại Viện Điện tử Viễn thông, trường Đại học Báchkhoa Hà Nội dưới sự hướng dẫn khoa học của TS Lê Dũng và TS Phạm Thành Công.Nghiên cứu sinh xin bày tỏ lòng biết ơn sâu sắc tới các thầy về định hướng khoa họctrong suốt quá trình nghiên cứu Nghiên cứu sinh xin được trân trọng cảm ơn các nhàkhoa học, tác giả các công trình công bố đã được trích dẫn và cung cấp nguồn tư liệuquý báu trong quá trình hoàn thành luận án
Nghiên cứu sinh xin trân trọng cảm ơn Viện Điện tử Viễn thông; Phòng Đào tạoTrường Đại học Bách Khoa Hà Nội; Các thầy cô trong Viện Điện tử Viễn thông, cácanh chị và các bạn trong nhóm NCS, các võ sư Hồ Minh Mộng Hùng, Phạm ĐìnhKhiêm, Phạm Ngọc Dương, Bùi Thị Lành, Nguyễn Quốc Tiễn, Trung tâm Võ thuật
cổ tryền Bình Định, TP Quy Nhơn, tỉnh Bình Định đã quan tâm, động viên giúp đỡ
và tạo điều kiện thuận lợi về thời gian, địa điểm nghiên cứu, trang thiết bị, hỗ trợ vềmặt nhân lực để NCS thực hiện việc thu thập dữ liệu, thực nghiệm các kết quả nghiêncứu
Nghiên cứu sinh xin cảm ơn TS Lê Văn Hùng nghiên cứu tại Viện nghiên cứuquốc tế MICA, Đại học Bách khoa Hà Nội và Đại học Tân Trào đã hỗ trợ kỹ thuật,đồng tác giả giúp NCS thực hiện các nghiên cứu của luận án
Cuối cùng nghiên cứu sinh xin bày tỏ sự biết ơn tới Ban giám hiệu Trường Đạihọc Quy Nhơn; Ban chủ nhiệm Khoa Kỹ thuật và Công nghệ, gia đình, bạn bè và đồngnghiệp đã động viên khích lệ, tạo mọi điều kiện thuận lợi để NCS yên tâm công tác vàhọc tập
Hà Nội, tháng 05 năm 2020NGHIÊN CỨU SINH
Nguyễn Tường Thành
ii
Trang 5NỘI DUNG
1.1 Học máy, học sâu và ứng dụng 9
1.1.1 Học máy 9
1.1.2 Học sâu 11
1.2 Hệ thống khôi phục hoạt động của người trong không gian 3-D và chấm điểm võ thuật 13
1.2.1 Hệ thống khôi phục hoạt động của người trong không gian 3-D 13 1.2.2 Hệ thống chấm điểm võ thuật 13
1.3 Ước lượng khung xương trên cơ thể người trong không gian 2-D 13
1.3.1 Ước lượng khung xương trên ảnh màu 14
1.3.2 Ước lượng khung xương trên ảnh độ sâu 15
1.3.3 Ước lượng tư thế dựa trên đối tượng và ngữ cảnh hoạt động 18
1.3.4 Nhận xét 19
1.4 Ước lượng khung xương và tư thế người trong môi trường 3-D 20
1.4.1 Phục hồi tư thế 3-D của người từ một ảnh 20
1.4.2 Phục hồi tư thế 3-D của người 21
1.4.2.1 Phục hồi khung xương, tư thế người trong không gian 3-D từ một ảnh 22
1.4.2.2 Phục hồi khung xương, tư thế người trong không gian 3-D từ một chuỗi ảnh 22
1.4.3 Nhận xét 22
1.5 Các bộ cơ sở dữ liệu cho việc đánh giá ước lượng khung xương trong không gian 3-D 28
1.5.1 Giới thiệu Kinect và thiết lập thu dữ liệu 28
1.5.2 Hiệu chỉnh dữ liệu thu từ cảm biến Kinect 29
1.6 Tổng kết chương 35
Trang 6Chương 2: ƯỚC LƯỢNG KHUNG XƯƠNG CỦA NGƯỜI TỪ DỮ
2.1 Ước lượng khung xương trong không gian 2-D 37
2.1.1 Giới thiệu 37
2.1.2 Các nghiên cứu liên quan 38
2.1.3 Sử dụng học sâu cho việc ước lượng các hành động trong bài võ cổ truyền trong không gian 2-D 41
2.1.3.1 Phương thức 41
2.1.3.2 Cơ sở dữ liệu các bài võ cổ truyền 45
2.1.3.3 Phương thức đánh giá 51
2.1.3.4 Xoay và dịch dữ liệu trong không gian 3-D 54
2.1.3.5 Kết quả ước lượng và nhận xét 59
2.1.4 Kết luận 62
2.2 Phục hồi khung xương, tư thế người trong không gian 3-D và bị che khuất 72 2.2.1 Giới thiệu 72
2.2.2 Các nghiên cứu liên quan 72
2.2.3 Phục hồi khung xương, tư thế người trong không gian 3-D 75
2.2.3.1 Nghiên cứu so sánh về khôi phục khung xương người trong không gian 3-D 76
2.2.3.2 Thí nghiệm và kết quả ước lượng khung xương 3-D 80
2.2.4 Ước lượng khung xương, tư thế người khi bị che khuất 82
2.3 Tổng kết chương 90
Chương 3: NHẬN DẠNG VÀ CHẤM ĐIỂM ĐỘNG TÁC VÕ CỔ TRUYỀN VIỆT NAM 91 3.1 Giới thiệu 91
3.2 Các nghiên cứu liên quan 94
3.3 Cơ sở lý thuyết để nhận diện động tác tấn công và chấm điểm động tác võ 95 3.3.1 Nhận diện động tác tấn công 95
3.3.1.1 Xử lý dữ liệu 95
3.3.1.2 Trích xuất đặc trưng cơ thể người với camera Kinect 95 3.3.2 Mô hình chấm điểm động tác võ cổ truyền 100
3.3.2.1 Mô tả động tác người 100
3.3.2.2 Công thức chấm điểm 103
3.4 Thực nghiệm 105
3.4.1 Nhận diện động tác tấn công 105
3.4.1.1 Nhận diện động tác tấn công bằng cây phân loại 105
iv
Trang 73.4.1.2 Nhận diện động tác tấn công bằng mạng nơ ron 1063.4.2 Chấm điểm động tác võ cổ truyền Việt Nam 1083.5 Kết luận 1133.6 Tổng kết chương 113
DANH MỤC CÁC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA LUẬN ÁN 115
Trang 8DANH MỤC CÁC KÝ HIỆU VÀ VIẾT TẮT
3 APM Articulated Part-based Modeldeviation Mô hình dựa trên phần khớp nối
4 CPM Convolutional Pose Machines Máy học cử chỉ tích chập
5 CPU Central Processing Unit Đơn vị xử lý trung tâm
6 CNN Convolutional Nerural Network Mạng Nơ ron tích chập
7 CNNs Convolutional Nerural Networks Mạng Nơ ron tích chập nhiều lớp
9 DTW Dynamic Time Warping So khớp chuỗi thời gian động
12 GPU Graphics Processing Unit Đơn vị xử lý đồ họa
14 HOG Histogram of Oriented Gradients Biểu đồ hướng dốc
15 HRNet High-Resolution Network Mạng độ phân giải cao
18 LSTM Long Short-Term Memory Mạng bộ nhớ ngắn định hướng
dài hạn
19 MADS Martial Arts, Dancing and Sports Võ cổ truyền, khiêu vũ, thể thao
21 MPJPE MeanPerJointPositionError Độ đo sai số trung bình của các
khớp nối
24 OCR Optical Character Recognition Nhận dạng ký tự quang học
25 OKS Object Key point Similarity Độ tương tự các điểm đại diện
26 OpenCV Open Computer Vision Thư viện mã nguồn mở thị giác
máy tính
27 OpenNI Open Natural Interaction Thư viện hỗ trợ đa ngôn ngữ
28 PCA Principal Component Analysis Phân tích nguyên lý thành phần
vi
Trang 929 PCL Poind Cloud Library Thư viện đám mây điểm
30 RAM Random Access Memory Bộ nhớ truy nhập ngẫu nhiên
31 RDF Random Decision Forests Rừng quyết định ngẫu nhiên
33 SDK Software Development Kit Kit phát triển phần mềm
34 SVM Support Vector Machine Học máy hỗ trợ vector
Trang 10DANH SÁCH BẢNG BIỂU
Bảng 1.1 Thống kê các nghiên cứu ước lượng khung xương của người trongkhông gian 3-D mà có đánh giá trên cơ cở dữ liệu Human3.6M [85] vàkết quả ước lượng 24Bảng 1.2 Khảo sát về ước lượng tư thế người trong không gian 3-D sử dụng
1 ảnh 26Bảng 1.3 Khảo sát về ước lượng khung xương người trong không gian 3-D
từ một chuỗi ảnh 27
Bảng 2.1 Số khung hình trong các tư thế võ của cơ sở dữ liệu VNMA 48Bảng 2.2 Số khung hình trong các tư thế võ của cơ sở dữ liệu SVNMA 49Bảng 2.3 Kết quả trung bình của ước lượng các khớp nối (AP), góc lệchgiữa các khớp của dữ liệu gốc và các khớp nối ước lượng được (AD) vàkhoảng cách giữa các trung bình giữa các điểm đại diện ước lượng được
và các điểm đại diện của dữ liệu gốc, tương ứng với nhau 59Bảng 2.4 Kết quả ước lượng khung xương trên ảnh và chiếu sang không gian3-D với 14 điểm xương trên dữ liệu VNMA Kết quả được đánh giá trên
độ đo MPJPE theo đơn vị milimet (mm) 66Bảng 2.5 Số khung hình đánh giá trong dữ liệu VNMA 67Bảng 2.6 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang khônggian 3-D trên cơ sở dữ liệu MADS với 14 điểm xương 69Bảng 2.7 Số khung hình cho việc đánh giá ước lượng khung xương trên ảnhsau đó chiếu sang không gian 3-D trên cơ sở dữ liệu MADS 70Bảng 2.8 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang khônggian 3-D trên cơ sở dữ liệu VNMA với 15 điểm xương 86Bảng 2.9 Kết quả ước lượng khung xương trên ảnh sau đó chiếu sang khônggian 3-D trên cơ sở dữ liệu MADS với 15 điểm xương 87
Bảng 3.1 Thể hiện tám véc tơ chi 102
viii
Trang 11DANH SÁCH HÌNH VẼ
Hình 1 Cảm biến MS Kinect phiên bản 1 2
Hình 2 Minh họa dữ liệu khung xương thu được từ cảm biến MS Kinect phiên bản 1 [35] 3
Hình 3 Một lớp dạy võ cổ truyền tại thành phố Quy Nhơn, tỉnh Bình Định, Việt Nam 3
Hình 4 Mô hình giải quyết vấn đề ước lượng khung xương, tư thế người trong không gian 3-D và tái tạo lại môi trường thực tế 7
Hình 1.1 Minh họa mô hình của học máy [57] 10
Hình 1.2 Mô hình phân loại học máy [58] 11
Hình 1.3 Mô hình của học sâu [58] 12
Hình 1.4 Minh họa phương thức ước lượng tư thế, khung xương trong không gian 3-D [154]: Đầu vào là một ảnh màu (RGB), đầu tiên là ước lượng khung xương trong không gian ảnh (2-D) sau đó ước lượng giá trị độ sâu của khung xương bằng việc tìm kiếm một mô hình khung xương, tư thế phù hợp Khung xương ước lượng được có màu đỏ, khung xương gốc có màu xám 25
Hình 1.5 Minh họa thiết lập các thiết bị 28
Hình 1.6 Khung xương, tư thế của người được ước lượng (các điểm màu xanh là các điểm xương và các khớp nối màu vàng) và môi trường được xây dựng lại trong không gian 3-D (thế giới thực) 30
Hình 1.7 Minh họa ảnh màu, ảnh độ sâu thu được từ cảm biến Kinect phiên bản 1 31
Hình 1.8 Minh họa cảm biến Kinect phiên bản 1 31
Hình 1.9 Minh họa ảnh các trạng thái hoạt động của người trong thực tế [85], [88] và hệ thống MOCAP [101] để xác định vị trí các chi, các bộ phận của người trong không gian 3-D 33
Trang 12Hình 1.10 Minh họa ảnh về các loại hoạt động trong cơ sở dữ liệu [31] và hệthống MOCAP [101] để xác định vị trí các chi, các bộ phận của ngườitrong không gian 3-D 35
Hình 2.1 Minh họa kết quả ước lượng khung xương người trong không gian2-D [105] 37Hình 2.2 Minh họa bản đồ các điểm nổi bật được tạo ra từ ảnh cơ thể người.Trong đó mỗi vùng điểm nổi bật là một ứng cử viên vị trí của các điểmđại diện [109] 40Hình 2.3 Minh họa đánh nhãn các điểm đại diện trên dữ liệu ảnh của người.Các điểm màu đỏ là các điểm đại diện trên cơ thể người Các đoạn màuxanh thể hiện sự kết nối giữa các bộ phận trên cơ thể người 42Hình 2.4 Kiến trúc mạng nơ ron tích chập cho việc ước lượng các điểm đạidiện St, và các bộ phận phù hợp trên cơ thể người khác nhau [24] 43Hình 2.5 Minh họa chi tiết mô hình dự đoán vùng các điểm nổi bật (heatmaps)[110] 43Hình 2.6 Minh họa chi tiết mô hình trích chọn đặc trưng cho việc huấn luyện
mô hình dự đoán các vùng nổi bật (heatmaps) ở từng giai đoạn [110] 44Hình 2.7 Minh họa kết quả ước lượng khung xương trên ảnh của mô hình
đã được huấn luyện trên bộ cơ sở dữ liệu 2016 MSCOCO KeypointsChallenge [23] 45Hình 2.8 Minh họa kiến trúc mạng HRnet [114] Trong đó chiều ngang vàchiều dọc lần lượt thể hiện độ sâu và biến đổi kích thước cửa sổ của bản
đồ đặc trưng 46Hình 2.9 Nghiên cứu so sánh cho đánh giá ước lượng khung xương, tư thếtrong không gian 2-D 47Hình 2.10 Minh họa việc đánh dấu dữ liệu gốc về khung xương, tư thế ngườitrong không gian 3-D Trong đó thứ tự đánh dấu của các điểm như sau:(1) Đầu, (2) Cổ, (3) Vai phải, (4) khuyủ tay phải, (5) cổ tay phải, (6)Vai trái, (7) khuyủ tay trái, (8) cổ tay trái, (9) Giữa hông, (10) Hôngphải, (11) Đầu gối phải, (12) Cổ chân phải, (13) Ngón chân cái phải,(14) Hông trái, (15) Đầu gối trái, (16) Cổ chân trái, (17) Ngón chân cáitrái 48Hình 2.11 Các điểm đại diện (Key points) trên cơ thể người và nhãn 49
x
Trang 13Hình 2.12 Minh họa dữ liệu đám mây điểm của một cảnh Các điểm màuxanh nước biển là dữ liệu của người trong môi trường 3-D 50Hình 2.13 Minh họa ma trận đánh giá độ tương tự độ dài của các khớp đượctạo ra từ các điểm đại diện [28] 52Hình 2.14 Minh họa thứ tự các điểm đại diện ước lượng được Trong đó, cácđiểm màu xanh là các điểm quan tâm và đánh giá trong bài báo này.Hình bên phải thể hiện các khớp nối của các điểm đại diện quan tâm 53Hình 2.15 Minh họa các phương thức cho việc đánh giá ước lượng khungxương, tư thế người trong không gian ảnh 54Hình 2.16 Minh họa mô hình xoay và dịch dữ liệu trong không gian 3-D 55Hình 2.17 Minh họa kết quả ước lượng khung xương, tư thế người trongkhông gian 3-D 63Hình 2.18 Minh họa các kết quả ước lượng các điểm đại diện và các khớp nốitrên các video võ thuật cổ truyền Các khớp nối của cơ thể người là cómàu đỏ; Các khớp nối của tay phải có màu xanh lá cây; Các khớp nốicủa tay trái có màu giảm dần từ đỏ đến vàng; Các khớp nối của chânphải có màu xanh nước biển; Các khớp nối của chân trái có màu xanhlục 63Hình 2.19 Đồ thị thể hiện xác suất ước lượng các điểm đại diện trên 3 video
võ thuật cổ truyền có thứ tự là: 2th, 9th, 12th 64Hình 2.20 Minh họa kết quả ước lượng các khớp nối trong không gian 2-D
và 3-D Tư thế của người trong không gian 3-D được thể hiện bằngMatplotlib của Python 64Hình 2.21 Minh họa việc đánh giá ước lượng khung xương trong không gian2-D và chiếu sang không gian 3-D 65Hình 2.22 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc
và dữ liệu ước lượng được 65Hình 2.23 Minh họa ảnh độ sâu thu thập được từ cảm biến MS Kinect v1trong bộ cơ sở dữ liệu VNMA Vùng màu đen bị xa so với giới hạn đocủa cảm biến MS Kinect v1 nên giá trị độ sâu bằng không, còn vùngngười, và vùng sàn nhà có màu nâu nên giá trị độ sâu lớn hơn không 68
Trang 14Hình 2.24 Trái: Minh họa kết quả ước lượng khung xương trên ảnh màu (14điểm xương) bằng cách sử dụng CPM trong nghiên cứu của Tome et al.[84] Phải: Minh họa ảnh độ sâu thu thập được từ cảm biến MS Kinectv1 trong bộ cơ sở dữ liệu VNMA bị mất dữ liệu vùng tóc 68Hình 2.25 Minh họa ảnh thu thập được từ cảm biến MS Kinect v1 quá xa 69Hình 2.26 Phân bố lỗi khoảng cách lỗi MPJPE của các cặp điểm đại diệngiữa dữ liệu gốc và dữ liệu ước lượng được trên cơ sở dữ liệu MADS 70Hình 2.27 Minh họa kết quả ước lượng khung xương trên không gian 2-D(trên ảnh màu) sử dụng CPM trong nghiên cứu của Tome et al [84] 71Hình 2.28 Minh họa việc ước lượng khung xương, tư thế người trong khônggian 3-D với dữ liệu bị che khuất Bên trái thể hiện kết quả ước lượngkhung xương, tư thế của người trên 2-D với bộ ước lượng [24] Bên phải
là kết quả ước lượng tư thế, khung xương của người trong không gian3-D sử dụng bộ ước lượng của [84] 73Hình 2.29 Minh họa chuẩn hóa các mô hình trong bộ dữ liệu huấn luyện môhình khung xương người trong 3-D và việc so sánh khung xương ánh xạđược từ 2-D sang 3-D với bộ dữ liệu huấn luyện [84] 74Hình 2.30 Minh họa mô hình hoạt động của mạng [117] 75Hình 2.31 Minh họa ước lượng khung xương, tư thế 3-D của người từ mộtchuỗi hình ảnh [123] 76Hình 2.32 Thống kê số lượng nghiên cứu về ước lượng khung xương của ngườitrong không gian 3-D theo từng năm 77Hình 2.33 Minh họa mô hình nghiên cứu so sánh ước lượng khung xương, tưthế trong không gian 3-D 78Hình 2.34 Minh họa các tham số của mô hình CNN trong Tome CS [84] 79Hình 2.35 Minh họa kiến trúc mạng VNect [127] 80Hình 2.36 Minh họa các tham số của mô hình CNN VNect 80Hình 2.37 Minh họa sắp xếp thứ tự các khớp trong không gian 3-D của mạngVNect 81
xii
Trang 15Hình 2.38 Minh họa kết quả ước lượng trong không gian 2-D và 3-D sử dụngmạng VNect [127] Bên trái là kết quả ước lượng khung xương trongkhông gian 3-D; Giữa là kết quả ước lượng khung xương trên ảnh; Bênphải là kết quả ước lượng các điểm đại diện của khung xương trongkhông gian 2-D 82Hình 2.39 Minh họa mô hình khung xương, tư thế trong không gian 3-D choviệc đánh giá 83Hình 2.40 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc và
dữ liệu ước lượng được trong không gian 3-D trên cơ sở dữ liệu VNMA.Trong đó: "CMP training by COCO" là "3-D_COCO_Method" , "CMPtraining by Human 3.6m" là "3-D_HUMAN3.6_Method", "VNECTCNN training by MPII, LSP" là "3-D_VNECT_Method" 84Hình 2.41 Kết quả ước lượng khung xương, tư thế trong không gian 3-D Mỗikhối là một cặp tương ứng giữa khung xương của dữ liệu gốc (groundtruth - original) và khung xương ước lượng được (estimating) Mỗi cặpkhung xương trong một khối đã được đồng nhất về hệ trục tọa độ 85Hình 2.42 Phân bố khoảng cách lỗi giữa các điểm đại diện trên dữ liệu gốc và
dữ liệu ước lượng được trong không gian 3-D trên cơ sở dữ liệu MADS.Trong đó: "CMP training by COCO" là "3-D_COCO_Method" , "CMPtraining by Human 3.6m" là "3-D_HUMAN3.6_Method", "VNECTCNN training by MPII, LSP" là "3-D_VNECT_Method" 87Hình 2.43 Minh họa kết quả ước lượng khung xương của phương thức "3-D_VNECT_Method" trên ảnh của cơ sở dữ liệu MADS với 21 điểmđại diện 88Hình 2.44 Minh họa kết quả ước lượng đầy đủ các khớp xương người trongkhông gian 3-D trên video 1th, 24th của cơ sở dữ liệu võ thuật cổ truyềnViệt Nam (VNMA) 89
Hình 3.1 Minh họa cây quyết định có đi chơi không 92Hình 3.2 Minh họa mô hình của thuật toán rừng ngẫu nhiên cho việc phânloại Trong đó thuật toán này được áp dụng cho một rừng bao gồm nhiềucây quyết định 93Hình 3.3 Thu thập dữ liệu 96Hình 3.4 Thể hiện tọa độ trên khung xương 97
Trang 16Hình 3.5 Minh họa đặc trưng góc khuỷu tay Đường màu đen thể hiện đặc
trưng về góc khuỷu tay 98
Hình 3.6 Vị trí các khớp xương mà camera Kinect cung cấp 101
Hình 3.7 Dữ liệu khung xương Kinect và véc tơ chân tay 102
Hình 3.8 Chương trình thu nhận dữ liệu chuẩn từ võ sư 103
Hình 3.9 Thể hiện chiều cao của cây và số đặc trưng 106
Hình 3.10 Sự lặp lại kiến trúc module trong mạng RNN chứa một tầng ẩn 107 Hình 3.11 Sự lặp lại kiến trúc module trong mạng LSTM chứa 4 tầng ẩn (3 sigmoid và 1 tanh) tương tác 108
Hình 3.12 Diễn giải các kí hiệu trong đồ thị mạng nơ ron 108
Hình 3.13 Kết quả nhận dạng trên tập Test thế võ công 109
Hình 3.14 Kết quả nhận dạng trên tập Test thế thủ 109
Hình 3.15 Lấy mẫu chuẩn 110
Hình 3.16 Các vị trí dừng để chấm điểm 111
Hình 3.17 Thống kê trung bình điểm chấm 36 động tác võ cổ truyền Việt Nam.111 Hình 3.18 Giao diện chương trình chấm điểm 112
Hình 3.19 Giao diện chương trình chấm điểm 112
xiv
Trang 17MỞ ĐẦU
1 Lý do chọn đề tài
Trong nhiều năm trở lại đây có rất nhiều nghiên cứu về ước lượng các khớp xương,hành động trên cơ thể người trên một ảnh màu, ảnh độ sâu hoặc trên một chuỗi ảnh.Hầu hết các nghiên cứu đều sử dụng việc học các đặc trưng trên ảnh màu, độ sâu đểhọc mô hình người, các hành động của người và sử dụng các bộ phân lớp cho việc dựđoán Trước đây thường sử dụng các bộ phân lớp như SVM (Support Vector Machine)[38], Random decision forests (RDF) [39] cho việc học và dự đoán các khớp trên cơ thểngười Ngày nay với sự phát triển mạnh mẽ của học sâu (Deep Learning) đã có rấtnhiều mạng được thiết kế cho việc ước lượng các khớp xương trên cơ thể người [40],[47] Các phương thức ước lượng khung xương, tư thế người trên ảnh màu và khônggian 3-D thường sử dụng các mạng Nơ ron tích chập mới hiện nay cho việc huấn luyện
mô hình ước lượng Trong quá trình tham gia nghiên cứu cùng giáo viên hướng dẫnnghiên cứu sinh nhận thấy hướng nghiên cứu ước lượng khôi phục khung xương người
từ ảnh độ sâu được nhiều nhóm nghiên cứu quan tâm
Là một người con quê hương Bình Bình, vùng đất nổi tiếng của võ cổ truyền ViệtNam Nghiên cứu sinh nhận thấy võ cổ truyền là một môn thể thao, nghệ thuật thểhiện bản sắc dân tộc Võ thuật giúp rèn luyện sức khỏe, tự vệ cho con người của mỗidân tộc, mỗi đất nước Võ cổ truyền đã có từ lâu đời với mỗi quốc gia, đồng thời gắnliền với lịch sử dựng nước và giữ nước [12]; Có thể kể ra võ cổ truyền Bình Định củaViệt Nam [8]; Võ Judo, Karate, Kendo, Kyudo của người Nhật Bản [9]; Võ Kung Fu,TaiChi của người Trung Quốc [10] Để bảo tồn và duy trì các bài võ cổ truyền đặc sắc
và có giá trị văn hóa là một vấn đề quan trọng đối với các nhà quản lý, quốc gia [6],[8], [11] Trước kia việc lưu trữ là truyền miệng, qua các hình vẽ các thế võ liên tục vàđời trước dạy cho đời sau, nên các thế võ có thể bị biến tướng và không chuẩn xác.Ngày nay, việc ghi lại thành các video để lưu trữ là một hướng tiếp cận tốt Cùng với
đó ở Việt Nam từ năm 2016, các bài võ cổ truyền được đưa vào giảng dạy trong cáctrường phô thông để rèn luyện sức khỏe và tự vệ cho các em học sinh Nên việc xâydựng một mô hình chấm điểm các bài võ được truyền dạy trên lớp là điều cần thiết.Các mô hình này giúp học sinh phổ thông tự đánh giá các tư thế võ trong bài võ màkhông cần phải nhờ đến các võ sư tại các võ đường
Tuy nhiên, các thế võ là các hành động nhanh, quay bốn hướng mà các thiết bịghi hình thường chỉ nằm ở một vị trí nên có nhiều tư thế bị che khuất Nên thường đểlưu giữ các bài võ thì phải quay từ nhiều góc khác nhau hoặc quay bằng nhiều camerađặt từ nhiều hướng Để bảo tồn, truyền, dạy các thế võ một cách trực quan thì việc
Trang 18phát hiện, ước lượng các thế võ ở các cảnh bị che khuất là việc làm cần thiết Đồngthời xây dựng môi trường 3-D để trực quan hóa việc đào tạo và dạy võ cổ truyền làmột vấn đề cần thiết để giảm thời gian, chi phí, công sức của các võ sư Đặc biệt làtăng tính tự giác chủ động trong tập luyện và đánh giá luyện tập của các học sinh phổthông.
Để thu thập được các video phục vụ cho việc bảo tồn và duy trì các thế võ người
ta thường sử dụng các cảm biến hình ảnh như các loại camera gắn trên các điện thoạithông minh, hay các loại camera chuyên dụng Đặc biệt, để xây dựng được khung cảnh(môi trường) 3-D về các tư thế võ người ta thường sử dụng các cảm biến có ảnh độ sâunhư Kinect phiên bản 1 (Version 1 - V1), Kinect phiên bản 2 (Version 2 - V2), Realscene D435, vv Trong đó, cảm biến Kinect V1 là một loại cảm biến giá rẻ (giá ngoàithị trường chỉ khoảng 1 triệu Việt Nam đồng - 40 USD) như Hình 1 và chất lượng ảnhmàu, ảnh độ sâu của cảm biến này là chấp nhận được Với giá thành rẻ như vậy phùhợp với túi tiền của người Việt Nam và khả năng phổ dụng của loại cảm biến này làcao hơn so với các cảm biến khác Cảm biến MS Kinect cũng có thể thu thập được dữliệu khung xương các tư thế của con người như Hình 2
Hình 1 Cảm biến MS Kinect phiên bản 1
Tuy nhiên, dữ liệu khung xương thu được từ cảm biến MS Kinect v1 là bị lấp rấtnhiều Như trong nghiên cứu của Wang và các cộng sự [36] đã cho thấy sự sai khác vàthiếu dữ liệu rất lớn giữa cảm biến MS Kinect v1 và MS Kinect v2 Trên ảnh độ sâuchứa thông tin trong không gian thực (giá trị độ sâu) của người nên có thể ước lượngđược các khớp xương trong trường hợp bị che khuất Do đó trước khi thực hiện xâydựng các mô hình đánh giá và chấm điểm các động tác võ được truyền dạy trên lớp thìcần thực hiện các nghiên cứu về ước lượng, khôi phục khung xương của người trongcác video võ thuật cổ truyền Vì thế luận án thực hiện kết hợp kết quả ước lượng trênảnh màu và chiếu kết quả ước lượng vào không gian 3-D để có được kết quả ước lượng
2
Trang 19Hình 2 Minh họa dữ liệu khung xương thu được từ cảm biến MS Kinect phiên bản 1[35].
các điểm đại diện và các khớp xương tốt hơn Đặc biệt, khi ước lượng khung xương,
tư thế người trong không gian 3-D có thể ước lượng được các khớp xương bị che khuất
do dữ liệu thu được một phía nhìn thấy của người Từ khớp xương đầy đủ có thể thểhiện được đầy đủ các động tác võ trong các video võ cổ truyền Đây là một bước quantrọng trong việc tái tạo và ghi lại các tư thế võ cổ truyền của các võ sư và thực hànhcác động tác được truyền dạy của các em học sinh phổ thông Trong đó hệ thống chấmđiểm các động tác võ cũng là một ứng dụng quan trọng trong đánh giá việc biểu diễncác tư thế, động tác võ đúng và chuẩn hay không Trong võ thuật, việc thể hiện đúng
và chuẩn làm cho võ thuật phát huy được hết sức mạnh: tấn công mạnh, phòng thủchắc chắn (như Hình 3 thể hiện việc dạy võ cổ truyền tại võ đường Nguyễn Thanh Vũ,thành phố Quy Nhơn, tỉnh Bình Định, Việt Nam)
Hình 3 Một lớp dạy võ cổ truyền tại thành phố Quy Nhơn, tỉnh Bình Định, Việt Nam
Trang 202 Mục đích, đối tượng và phạm vi nghiên cứu
Mục đích của luận án:
- Đề xuất hướng tiếp cận để ước lượng và phục hồi khung xương trong khônggian 3-D và để xây dựng một hệ thống tái tạo môi trường 3-D của các videobiểu diễn võ thuật và ước lượng khung xương, tư thế của người trong video.Phương thức này được kết hợp giữa ước lượng các điểm đại diện và các khớpnối trên ảnh màu (không gian 2-D) và ước lượng trong không gian 3-D để
có được kết quả ước lượng các khớp xương tốt, đặc biệt là khôi phục đượccác khớp xương trong trường hợp các bộ phận của người bị che khuất Từ
đó thể hiện chính xác tư thế của người trong các động tác võ Mô hình ướclượng các điểm đại diện trên không gian 2-D được chọn từ nghiên cứu sosánh cho bài toán ước lượng các điểm đại diện trong không gian 2-D, sửdụng các mạng nơ ron tích chập và huấn luyện trên các bộ cơ sở dữ liệuchuẩn (benchmark) Đồng thời việc ước lượng khung xương, tư thế ngườitrong không gian 2-D, 3-D được đánh giá trên bộ cơ sở dữ liệu đã công bố
về võ cổ truyền của nước ngoài và võ cổ truyền Việt Nam thu thập được
- Từ khung xương của người được ước lượng và khôi phục đầy đủ các khớp,xây dựng một mô hình chấm điểm các động tác võ trên các video thu được
từ lớp võ hoặc các bài biểu diễn võ thuật của các em học sinh phổ thông,giúp các em tự đánh giá được các bài võ thuật đã được truyền dạy Hơn nữa
là nhận dạng được động tác tấn công để phục vụ cho việc phân tích điểmmạnh điểm yếu của các tư thế võ thuật cổ truyền
Đối tượng: Từ mục đích nêu trên xác định đối tượng nghiên cứu là các video võkhi biểu diễn võ thuật, các thế võ có thể đánh tứ diện hoặc xoay 360 độ, nên dữliệu thu thập từ một cảm biến hình ảnh sẽ bị che khuất rất nhiều Đặc biệt, quátrình xây dựng hệ thống tái tạo môi trường 3-D và đánh giá các bài biểu diễn võthuật cần tái tạo được môi trường 3-D, ước lượng được khung xương của ngườitrong điều kiện dữ liệu thu thập từ cảm biến MS Kinect có chứa nhiều nhiễu.Theo đó từ khung xương được ước lượng và khôi phục đầy đủ, xây dựng một môhình chấm điểm các động tác võ trên video thu được từ các lớp học võ hoặc cácbài biểu diễn võ thuật để giúp người học tự đánh giá kết quả tập luyện của mình
Từ nghiên cứu này có thể số hóa các tư thế võ cổ truyền và lưu giữ để truyềnlại cho đời sau Cũng như các video võ thuật được biểu diễn và có thể đánh giáchấm điểm bằng máy tính Trong nghiên cứu này, thông tin về môi trường vàcủa người biểu diễn võ thuật trong môi trường được thu thập, trích xuất thôngqua cảm biến hình ảnh
4
Trang 21 Phương pháp nghiên cứu:
Nghiên cứu sinh sử dụng phương pháp nghiên cứu lấy mẫu xây dựng bộ cơ sở
dữ liệu, điều tra, phân tích kết hợp trích xuất đặc trưng mẫu, đề xuất mô hìnhgiải pháp, sau đó mô phỏng để đánh giá giải pháp và so sánh với các nghiên cứutin cậy đã được công bố Đây là phương pháp nghiên cứu logic và đáng tin cậy,thường được áp dụng
Phạm vi nghiên cứu của luận án: tập trung cải tiến kết quả ước lượng cácđiểm đại diện và các khớp xương trong các trường hợp bị che khuất khi chỉ sửdụng một cảm biến MS Kinect v1 để thu thập dữ liệu từ môi trường Kết quảnày là sự kết hợp của mô hình ước lượng tốt trên không gian ảnh 2-D và ánh xạtrong môi trường 3-D để nâng cao kết quả ước lượng Đây chính là ý tưởng chủđạo của luận án này, trong mô hình xây dựng ứng dụng của luận án bao gồm một
số bước: (1) Từ dữ liệu đầu vào thu được từ cảm biến MS Kinect (ảnh màu, ảnh
độ sâu); (2) Sử dụng các mạng nơ ron tích chập đã được thiết kế để huấn luyện
mô hình ước lượng trên ảnh màu và ảnh độ sâu; (3) Kết hợp kết quả ước lượngtrong không gian 2-D và 3-D, biểu diễn kết quả trong không gian 3-D, trong đócác khớp xương của người trong video được ước lượng và khôi phục đầy đủ; (4)
từ đó xây dựng mô hình chấm điểm các động tác võ cổ truyền áp dụng cho các
em học sinh phổ thông có thể tự đánh giá bài võ của mình Trong các nội dungtrên bước (2) là bước quan trọng nhất
3 Ý nghĩa khoa học và các đóng góp của luận án
- Về ý nghĩa khoa học: Luận án tập trung nghiên cứu ứng dụng thị giác máy tính
và phân tích hình ảnh trong việc đánh giá và chấm điểm các động tác võ cổ truyền dựatrên phát hiện và mô phỏng 3D trên cơ sở một số khớp xương cơ bản của cơ thể ngườitrong biểu diễn võ thuật Các phương thức ước lượng khung xương, tư thế người trênảnh màu và không gian 3-D đang được quan tâm nhiều trong những năm gần đây vàtrong các bài báo thường sử dụng các mạng Nơ ron tích chập mới cho việc huấn luyện
mô hình ước lượng Do đó luận án đi theo hướng này để giải quyết mục tiêu đặt ra.Luận án đạt được những đóng góp sau:
Đóng góp 1: Đề xuất được một mô hình kết hợp giữa ước lượng khung xương,
tư thế trong 2-D tốt để có được một ước lượng tốt hơn trong không gian 3-D.Đặc biệt là trong trường hợp dữ liệu bị che khuất thì bộ ước lượng 3-D vẫn ướclượng đầy đủ các khớp xương Trong đó, bộ ước lượng 2-D được huấn luyện trên
bộ cơ sở dữ liệu tốt hơn với mô hình mạng nơ ron tích chập dự đoán hiệu quảhơn Kết quả được thể hiện trên một nghiên cứu so sánh việc ước lượng khungxương, tư thế người trong không gian 2-D và không gian 3-D
Trang 22 Đóng góp 2: Xây dựng được mô hình cơ bản cho việc đánh giá và chấm điểmcác động tác võ cổ truyền dựa trên một số khớp xương cơ bản trên cơ thể ngườitrong các video biểu diễn võ thuật cổ truyển của học sinh phổ thông của các lớp
võ Đồng thời nhận dạng động tác tấn công trên dữ liệu khung xương của người,làm tiền đề cho việc xây dựng hệ thống hoàn chỉnh cho việc tái tạo lại môi trường3-D và khung xương, tư thế người trong các video võ thuật cổ truyền phục vụcho việc lưu trữ, tự đánh giá và dạy võ thuật trong trường phổ thông
4 Cấu trúc nội dung của luận án
Luận án không giải quyết vấn đề theo cách đơn lẻ mà giải quyết các vấn đề thực
tế đặt ra theo một trình tự thống nhất, được thể hiện trong Hình 4 Từ mô hình nàycũng có thể áp dụng để xây dựng một hệ thống thật trong thời gian tới trong việc hỗtrợ bảo tồn lưu trữ, đánh giá, dạy võ thuật cổ truyền trong trường phổ thông
Nội dung luận án gồm:
Mở đầu: Trình bày lí do thúc đẩy thực hiện nghiên cứu này; các mục tiêu chínhcủa luận án; trình bày đối tượng và phạm vi nghiên cứu, ý nghĩa khoa học vàcác đóng góp cũng như cấu trúc của luận án
Chương 1: Giới thiệu tổng quan học máy, học sâu và ứng dụng, khảo sát các
hệ thống về ứng dụng của ước lượng khung xương, tư thế của người trong môitrường 2-D và 3-D Đặc biệt, các kỹ thuật liên quan đến ước lượng khung xương,
tư thế của người trong cả không gian 2-D và 3-D đều được thảo luận Luận áncũng đã trình bày các thách thức cũng như vai trò của ước lượng khung xươngngười trong không gian 3-D Đồng thời miêu tả và giới thiệu về cảm biến MSKinect và các bộ dữ liệu thu thập được từ cảm biến này, các bộ cơ sở dữ liệulớn về ước lượng khung xương, tư thế của người trong không gian 3-D cũng đượcgiới thiệu
Chương 2: Chương này miêu tả và đánh giá việc ước lượng khung xương, tưthế người trong không gian 2-D (không gian ảnh) và 3-D.Các kết quả ước lượngkhung xương, tư thế trong không gian 2-D được đánh giá trên 2-D và chiếu sangsang không gian 3-D để đánh giá Đặc biệt trình bày chi tiết phương pháp đồng
bộ hệ trục tọa độ của dữ liệu cho việc đánh giá khung xương, tư thế ước lượngđược trong không gian 3-D Đánh giá ước lượng trong không gian 3-D với bộ dữliệu công bố của luận án về các video võ thuật cổ truyền Việt Nam Đặc biệt làđánh giá khả năng ước lượng các khớp xương trong trường hợp dữ liệu bị chekhuất Đánh giá ước lượng khung xương, tư thế người trên các bộ dữ liệu võ cổtruyền khác đã được công bố trên thế giới Đóng góp của chương này được công
bố trong các bài báo sau:
6
Trang 23Ứng dụng lưu
tr ữ , d ạ y, đ ánh giá các t ư th ế võ
MS Kinect sensor version 1
Ả nh màu Ả nh độ sâu K ế t qu ả ướ c l ượ ng đ i ể m
đạ i di ệ n và kh ớ p n ố i
K ế t qu ả bi ể u di ễ n trong không gian 3-D
J2 Tuong-Thanh Nguyen, Van-Hung Le, Thanh-Cong Pham (2019), AnEvaluation of Pose Estimation in The Video Traditional Martial Arts Pre-sentation, Research and development on information and communicationtechnology,No2/2019, ISSN: 1859-3534,pp114-126
C1 Van-Hung Le, Tuong-Thanh Nguyen, Thanh-Cong Pham (2019), Pose’s evaluation in The Video Traditional Martial Arts Presentation 19thInternational Symposium on Communications and Information Technologies(ISCIT), ISBN 978-1-7281-5008-6, pp76-81
Open-J3 Tuong-Thanh Nguyen, Van-Hung Le, Long Duong, Dung Le, Cong Pham (2019), 3-D Human Pose Estimation in Vietnamese’s VideoTraditional Martial Arts Presentation Journal of Advanced Engineering andComputation (JAEC),Vol 3, Iss 3, 2019, pp471-491
Thanh- Chương 3: Chương này giới thiệu về ứng dụng đánh giá, chấm điểm các động tác
võ cổ truyền và nhận dạng động tác tấn công trong dữ liệu khung xương người.Đóng góp của chương này được công bố trong các bài báo sau:
J4 Nguyễn Tường Thành, Nguyễn Đăng Tuyên, Lê Dũng, Phạm Thành Công,
Trang 24(2016), Ứng dụng camera Kinect trong xây dựng mô hình chấm điểm độngtác võ cổ truyền Việt Nam, Khoa học và Công nghệ Đại học Đà Nẵng 2016,
số 11 tr.221-224, 2016
C2 Tuong-Thanh Nguyen, Dang-Tuyen Nguyen, Dung Le, Thanh-Cong Pham(2017), Implementation of Technical Data Analysis of Skeleton Extractedfrom Camera Kinect in Grading Movements of Vietnamese Martial Arts,IEEE 2017 International Conference on Advanced Technologies for Com-munications (ATC),pp241-244, doi 10.1109/ATC.2017.8167625
C3 Nguyễn Tường Thành, Lê Thị Kim Nga , Phạm Thành Công, Lê Dũng(2019) Nhận dạng động tác tấn công trong võ cổ truyền bằng phương phápcây phân loại, Hội thảo khoa học Quốc gia "Ứng dụng công nghệ mới trongCông trình xanh" lần thứ 5, AtiGB2019, pp88-97
Kết luận: Đưa ra hai kết quả mới của luận án, đồng thời cũng định hướng cácnghiên cứu tiếp theo trong tương lai
8
Trang 25Luận án thực hiện các nghiên cứu dựa trên mô hình của học máy và học sâu do
đó phần đầu luận án giới thiệu qua một số khái niệm, ứng dụng của học máy và họcsâu
1.1.1 Học máy
Trong luận án này điểm qua một số khái niệm cơ bản về học máy, học sâu và cácứng dụng của chúng Trong khoảng gần 30 năm qua, khái niệm, cụm từ "Học máy(máy học) machine learning" đã được nhắc đi nhắc lại rất nhiều trong ngành côngnghệ thông tin Chi tiết hơn là khoa học máy tính, trí tuệ nhân tạo Học máy là mộtlĩnh vực trong trí tuệ nhân tạo [55] Chi tiết hơn "học máy" đã bắt đầu xuất hiện năm
1950 khi nhà bác học Turing đã tạo ra "phép thử Turing" để xác định xem liệu mộtmáy tính có trí thông minh thực sự hay không Để vượt qua bài kiểm tra đó, một máytính phải có khả năng đánh lừa một con người tin rằng nó cũng là con người
Hay Arthur Samuel năm 1952, đã viết ra chương trình học máy (computer ing) đầu tiên Chương trình này là trò chơi cờ, và hãng máy tính IBM đã cải tiến tròchơi này để nó có thể tự học và tổ chức những nước đi trong chiến lược để giành chiếnthắng Năm 1957, Frank Rosenblatt đã thiết kế mạng nơron (neural network) đầu tiêncho máy tính, trong đó mô phỏng quá trình suy nghĩ của bộ não con người Toàn bộquá trình phát triển của học máy được thể hiện trong [56]
Trang 26learn-Hình 1.1 Minh họa mô hình của học máy [57].
Trong đó định nghĩa "Học máy" được thể hiện như sau:
Theo Arthur Samuel (1959): "Máy học là ngành học cung cấp cho máy tính khảnăng học hỏi mà không cần được lập trình một cách rõ ràng"
Theo Giáo sư Tom Mitchell – Carnegie Mellon University: "Học máy là 1 chươngtrình máy tính được nói là học hỏi từ kinh nghiệm E từ các tác vụ T và với độ
đo hiệu suất P Nếu hiệu suất của nó áp dụng trên tác vụ T và được đo lườngbởi độ đo P tăng từ kinh nghiệm E"
Hiện nay có rất nhiều thuật toán và các mô hình sử dụng học máy, cụ thể đượcthể hiện trong Hình 1.1
Học máy được chia làm hai loại là học có giám sát và học không có giám sát, nhưthể hiện ở Hình 1.2, chi tiết có thể tham khảo trong [58]
Đặc biệt học máy được áp dụng trong nhiều lĩnh vực [58]: xử lý ảnh (gắn thẻ hìnhảnh trên facebook, nhận dạng ký tự, ô tô tự lái, vv); phân tích văn bản (lọc spam,phân tích ngữ nghĩa, khai thác thông tin, vv); khai phá dữ liệu (Phát hiện bất thường,phát hiện các quy luật, gom nhóm, dự đoán, vv); trò chơi điện tử và Robot (chơi game,tương tác với robot, các hệ thống trợ giúp, vv) Ngày nay với sự phát triển của phầncứng máy tính và hệ điều hành, cũng như các yêu cầu từ thực tế ngày càng cao về độchính xác và tốc độ tính toán nên trong phần tiếp theo, luận án sẽ giới thiệu khái quát
về học sâu
10
Trang 27Hình 1.2 Mô hình phân loại học máy [58].
Hiện nay có nhiều kiến trúc học sâu khác nhau như mạng nơ ron sâu, mạng nơron tích chập sâu, mạng niềm tin sâu và mạng nơ ron tái phát đã được áp dụng chocác lĩnh vực như thị giác máy tính, tự động nhận dạng giọng nói, xử lý ngôn ngữ tựnhiên, nhận dạng âm thanh ngôn ngữ và tin sinh học, chúng đã được chứng minh làtạo ra các kết quả rất tốt đối với nhiều nhiệm vụ khác nhau
Trang 28Hình 1.3 Mô hình của học sâu [58].
12
Trang 291.2 Hệ thống khôi phục hoạt động của người trong không gian
3-D và chấm điểm võ thuật
1.2.1 Hệ thống khôi phục hoạt động của người trong không gian 3-DMingsong và các cộng sự [2] đã để xuất một mô hình theo vết và xây dựng lạikhung cảnh và người trong không gian 3-D thời gian thực Hệ thống xây dựng lại môitrường và người trong không gian 3-D dữ trên dữ liệu thu thập từ 8 cảm biến hình ảnh.Các dữ liệu thu thập được từ các cảm biến hình ảnh được hiệu chỉnh và phân đoạn
để tách riêng dữ liệu của người và các dữ liệu khác Để dự đoán và theo vết được cáchành động của người, nghiên cứu sử dụng mô hình biến dạng (deformation model) dựatrên các đặc trưng biến dạng trên ảnh độ sâu Khi có nhiều các đặc trưng có sự biếnđổi mạnh hơn vượt qua ngưỡng của mô hình biến dạng thì nghiên cứu đề xuất hàmnăng lượng bổ sung cho các ràng buộc của mô hình biến dạng Đặc biệt các kỹ thuật
về sử dụng hình bóng và khôi phục dữ liệu được sử dụng để khôi phục lại hình trạngcủa người dựa trên tập dữ liệu thu được từ các cảm biến hình ảnh Hệ thống này phải
sử dụng CPU để thu thập dữ liệu và khôi phục dữ liệu 3-D Hay Meier và các cộng sự[7] đã xây dựng một ứng dụng khôi phục, theo vết hành động của người trong khônggian 3-D Mô hình của người được thể hiện bằng dạng lưới
1.2.2 Hệ thống chấm điểm võ thuật
Hiện nay dựa trên các tìm hiểu của nghiên cứu sinh thì trên thế giới chưa có một
hệ thống chấm điểm nào được công bố để chấm điểm các môn võ thuật như: Karate,Judo, Taekwondo,vv Năm 2018, liên đoàn Karate thế giới mới chỉ đưa ra được một bộquy tắc về chấm điểm các động tác trong môn Karate [20] Bộ quy tắc này dựa trên
vị trí ra đòn vào đối phương như: Đầu, mặt, cổ, ngực, bụng, đằng trước đằng sau
2-D
Ước lượng khung xương (skeleton) và các tư thế (pose) của người là bài toán được
áp dụng trong nhiều lĩnh vực [48] như: An toàn xã hội, bảo tồn các giá trị bản sắc vănhóa (bảo tồn và duy trì các bài võ, các bài múa cổ truyền dân tộc); Sản xuất các loại
đồ chơi, các trò chơi; Tương tác với robot thông minh; Phân tích thể thao (phân tíchchiến thuật trong các môn thể thao như bóng đá, tenis, cầu lông, vv); Bảo vệ sức khỏe(phát hiện các sự kiện ngã trong bệnh viện hoặc cho người già); vv Để giải quyếtnhững bài toán này có thể dựa trên một tập hợp các phương thức như: phân tích ngườitrong ảnh, xác định vị trí người trong ảnh, xác định vị trí các điểm đại diện trên cơthể người(key points), xác định các khớp nối (joints) trên các điểm đại diện trên cơthể người (skeleton) Từ đó, vấn đề ước lượng khung xương và các tư thế của người đã
Trang 30trở thành một vấn đề được quan tâm nghiên cứu nhiều trong thị giác máy tính.Bài toán ước lượng khung xương của người trên ảnh thường dựa trên ảnh màu,ảnh độ sâu, dựa trên đối tượng và ngữ cảnh hoạt động [48] Chi tiết của các hướngtiếp cận này được trình bày trong phần tiếp theo.
1.3.1 Ước lượng khung xương trên ảnh màu
Thông tin ảnh màu là thông tin thông dụng nhất thu được từ các camera/cảmbiến Sự thay đổi hình dạng, tư thế của cấu trúc cơ thể người trong ảnh tạo ra đặctrưng biến đổi rất mạnh (deformation) Điều đó làm cho việc ước lượng hình trạng,khung xương trên cơ thể người gặp rất nhiều khó khăn Sự biến đổi của cơ thể ngườiphức tạp được tạo thành bởi sự biến đổi của các bộ phận trên cơ thể người, đó có thểchỉ là các phép biến đổi thông thường như: Phép dịch, phép xoay, hay tăng giảm kíchthước
Felzenszwalb và các cộng sự [51] đã đề xuất hướng tiếp cận cho việc huấn luyện sựthay đổi kích thước (multiscale) và mô hình biến dạng thành phần (Deformable PartModel - DPM) cho việc phát hiện đối tượng trên ảnh Trong mô hình biến dạng mộtphần, cơ thể người được biểu diễn thành cấu trúc hình sao, bao gồm một bộ lọc gốc,một bộ các bộ phát hiện bộ phận và một mô hình biến dạng một phần Trong mô hìnhDPM, biến dạng được coi là vị trí tương đối của các bộ phận cơ thể Các đặc trưngđược trích xuất được huấn luyện trên bộ phân lớp SVM (Support Vector Machine) để
dự đoán vị trí của các bộ phận trên cơ thể người
Sun và các cộng sự [52] đã đề xuất mô hình dựa trên phần khớp nối (ArticulatedPart-based Model (APM)) để phát hiện các bộ phận của cơ thể người và ước lượng tưthế của người Mô hình APM thể hiện một đối tượng như là một bộ sưu tập của nhiềuphần ở mức độ chi tiết khác nhau, từ thô đến mịn, trong đó các bộ phận ở mọi mức
độ được kết nối với mức độ thô hơn thông qua mối quan hệ cha con Các mô hình vàquan hệ ở các mức độ được học để phát hiện ra đối tượng Pishchulin và các cộng sự[53] cũng như Andriluka [54], đều sử dụng phương thức chia cơ thể người thành các
bộ phận và huấn luyện mô hình trên các bộ phận cho việc dự đoán tư thể của người.Như Andriluka [54] thì sử dụng AdaBoost cho việc dự đoán tư thế của người
Berti và các cộng sự [49] đã đề xuất một hướng tiếp cận để cải thiện độ chính xáccủa ước lượng các hình trạng người sử dụng mô hình biến đổi phần (deformation partmodel) để vượt qua sự phức tạp tính toán Mô hình biến dạng bộ phận như trước đâychỉ được trích xuất qua kênh RGB, trong nghiên cứu này, sử dụng thêm kênh độ sâu(depth channel) để có được mô hình biến dạng bốn chiều (4-D) Do số chiều tăng lênnên để giảm độ phức tạp tính toán thì cần giảm số lượng các khớp trong không gianbiến dạng 4 chiều Cuối cùng, giải pháp hoàn chỉnh có được bằng cách giải quyết các
14
Trang 31khớp bị bỏ qua bằng cách sử dụng các mô hình động học nghịch đảo Mục tiêu chínhcủa nghiên cứu này là phân tích ảnh hưởng đến độ chính xác của ước lượng các khớpxương khi sử dụng bộ lọc Kalman được thêm vào mô hình biến dạng một phần 4 chiều.1.3.2 Ước lượng khung xương trên ảnh độ sâu
Cùng với sự phát triển của phần cứng máy tính và công nghệ cảm biến Thông tinthu được từ các loại cảm biến ngoài ảnh màu còn có thể thu được thông tin về độ sâu.Thông tin 2-D là thông tin trên ảnh màu Khi thu được ảnh độ sâu nữa thì thông tinthu được từ môi trường là thông tin 3-D (thông tin về thế giới thực) Thông tin độ sâu
là rất hữu ích để giải quyết sự thay đổi ngoại hình, biến dạng và các vấn che khuất,cải thiện độ tin cậy và độ chính xác của ước lượng từ người trong các cảnh phức tạp.Plagemann và các cộng sự [61] đã đề xuất một thuật toán lọc hiệu quả cho việctheo dõi các tư thế của người với tốc độ xử lý thời gian thực (4 đến 10 khung hình/giây)
sử dụng một đoạn video dữ liệu độ sâu thu được từ một cảm biến độ sâu Trong mỗilần lặp bộ lọc, các tác giả áp dụng một hình thức tìm kiếm dựa trên mô hình cục bộkhai thác đặc tính của chuỗi khung hình liên tiếp Vì các chuyển động của người lànhanh và có thể bị che khuất nên có thể phá vỡ tìm kiếm cục bộ, bài báo sử dụng một
bộ phân loại được huấn luyện trên các bộ phận của cơ thể để phát hiện các bộ phận
cơ thể
Shotton và các cộng sự [62] đã đề xuất một phương thức mới để dự đoán nhanh
và chính xác các vị trí 3-D của khớp cơ thể từ một hình ảnh có độ sâu duy nhất, không
sử dụng thông tin tạm thời Bài báo thực hiện một cách tiếp cận nhận dạng đối tượng,thiết kế một biểu diễn các bộ phận cơ thể trung gian để ánh xạ việc ước tính trongcác trường hợp khó thành vấn đề phân loại trên điểm ảnh đơn giản hơn Tập dữ liệuhuấn luyện lớn và rất đa dạng cho phép bộ phân loại ước lượng các bộ phận cơ thể bấtbiến, hình dạng cơ thể, quần áo, v.v Cuối cùng, bài báo tạo ra các mô hình 3-D đểđánh giá các khớp cơ thể ước lượng được Hệ thống có thể chạy với tốc độ 200 khunghình/giây Đánh giá của bài báo cũng cho thấy độ chính xác cao trên cả hai bộ cơ sử
dữ liệu sinh và thực tế, và đánh giá sự ảnh hưởng của một số tham số huấn luyện môhình Bài báo đạt được độ chính xác cao khi so sánh với các công việc liên quan vàđược chứng minh cải thiện được độ chính xác của việc ước lượng khung xương trêntoàn bộ cơ thể người Đặc trưng sử dụng cho việc huấn luyện mô hình là đặc trưng bấtbiến với các phép biến đổi tư thế và hình dáng của cơ thể người
Plagemann và các cộng sự [63] đã thực hiện việc phát hiện và xác định các bộphận cơ thể trong ảnh độ sâu Bài báo thực hiện phát hiện các điểm quan tâm trên
dữ liệu lưới của người Các điểm quan tâm được xác định dựa trên việc xác định cựctrị trên bề mặt lưới, trùng khớp với các điểm nổi bật của cơ thể, các điểm có thể đượcphân loại tay, chân hoặc đầu sử dụng đặc trưng mô tả hình dạng cục bộ (local shape
Trang 32descriptors) Cách tiếp cận của bài báo cũng cung cấp một cách tự nhiên để ước lượngmột vectơ định hướng 3-D cho một điểm quan tâm nhất định Điều này có thể được
sử dụng để chuẩn hóa các đặc trưng để đơn giản hóa việc phân loại cũng như trực tiếpước lượng định hướng của các bộ phận cơ thể trong không gian Các đặc trưng mô tảhình dạng cục bộ được huấn luyện trên các mảnh (patchs) để phân biệt các bộ phậntrên cơ thể
Jain và các cộng sự [64] đã trình bày một cách tiếp cận dựa trên mô hình để pháthiện và ước lượng tư thế của người bằng cách kết hợp dữ liệu ảnh màu và độ sâu từmột cảm biến Hệ thống được đề xuất sử dụng mô hình phát hiện dựa trên tầng (Haarcascade) và khớp mẫu để thực hiện theo dõi các bộ phận cơ thể như đầu và thân Một
mô hình hình que được sử dụng để thể hiện các bộ phận cơ thể được phát hiện Việckhớp sau đó được thực hiện độc lập cho từng bộ phận, sử dụng bản đồ biến đổi khoảngcách có trọng số Đầu ra là một mô hình phù hợp với tư thế của người trong khi đầuvào đã cho là hình ảnh Thuật toán hoạt động trong thời gian thực, hoàn toàn tự động
và có thể phát hiện nhiều người không giao nhau Tuy nhiên hệ thống này mới chỉ thựchiện ước lượng các chi của người Trong đó kết quả ước lượng các bộ phận như đầu có
độ chính xác là 98%, tay là 86.4%
Như trình bày [68] trong một đánh giá gần đây của tiếp cận dựa trên video RGB
và [69] cho tiếp cận dựa trên lược đồ ảnh chiều sâu Hiện phương pháp nhận dạnghành động của người dựa trên khung xương có thể được phân thành hai loại chính:tiếp cận dựa trên khớp nối và dựa trên phần cơ thể Tiếp cận dựa trên khớp nối xemkhung xương người như một tập hợp các điểm đại diện được nối với nhau thông quacác khớp, hướng tiếp cận dựa trên phần cơ thể xem khung xương người như sự kết nốicác phần cơ thể
Tiếp cận dựa trên khớp nối: Khung xương người được biểu diễn trong [70] sử dụngcác điểm đại diện được kết nối 3-D với nhau và các quỹ đạo được biểu diễn theo môhình phân cấp theo thời gian của hiệp phương sai
Fengjun và các cộng sự [71] đã biểu diễn khung xương người sử dụng mô hìnhMarkov ẩn (Hidden Markov Models - HMMs) Một tập 13 quỹ đạo chung trong mộtkhông gian 4-D XYZT đã được sử dụng trong [72] để biểu diễn cho một hành độngcủa con người và phép chiếu hình học (affin) của chúng được so sánh dùng một khônggian con các phép đo tương tự bất biến dựa trên các góc
Trong Wang và các cộng sự [73] đã biểu diễn khung xương người sử dụng vị trítương đối giữa cặp các khớp xương và các biến đổi theo thời gian của biểu diễn nàyđược mô hình dùng hệ thống thứ bậc các hệ số của phép biến đổi theo thời gian vàkhông gian (Fourier) Hơn nữa, cách tiếp cận dựa theo nhóm hành động đã được sửdụng với sự kết nối các điểm phân biệt được lựa chọn dùng cách tiếp cận học trên đặc
16
Trang 33trưng nhiều nhân (multiple kernel).
Trong nghiên cứu [74] khung xương người được biểu diễn bằng các vị trí kết nốitương quan thông qua dịch chuyển tạm thời của khớp và bù của khớp liên quan đếnkhung hình khởi điểm ban đầu Phân loại hành động được thực hiện bằng cách dùngquy tắc Naive Bayes láng giềng gần nhất trong một không gian kích thước nhỏ hơn đượcxây dựng bằng các phân tích thành phần đặc trưng (Principal Component Analysis
- PCA) Một biểu diễn khung xương tương tự đã được sử dụng với phương pháp câyngẫu nhiên trong nghiên cứu [75] Một biểu diễn khung cảnh bất biến của khung xươngngười đã đạt được trong [25] bằng cách lượng tử hóa các điểm 3-D vào lược đồ dựa trênhướng của chúng đối với một hệ tọa độ cố định ở vị trí hông làm trung tâm Nhữngbiến đổi theo thời gian của biểu diễn khung cảnh bất biến này được mô phỏng dùngcác HMMs
Tiếp cận dựa trên các bộ phận: Cơ thể con người được chia thành năm phần khácnhau trong [76] và hoạt động của con người được thể hiện bằng cách sử dụng các thông
số chuyển động của các phần cơ thể riêng dịch chuyển ngang và dọc hoặc quay trongmặt phẳng, v.v PCA được sử dụng để biểu diễn cho một hành động của người nhưmột tổ hợp tuyến tính của tập các hành động cơ bản và phân loại chúng được thựchiện bằng cách so sánh các hệ số PCA
Chaudhry và các cộng sự [77] đã chia một khung xương người thành các phầnnhỏ hơn và mỗi một phần được biểu diễn dùng một số đặc trưng lấy cảm hứng từhình dạng sinh học Những biến đổi thời gian của các đặc trưng lấy cảm hứng từ hìnhdạng sinh học được mô phỏng bằng các hệ tuyến tính động Trong [78] một vài thôngtin điểm kết nối xương được lựa chọn tự động tại mỗi trường hợp theo thời gian dựatrên các phép đo trung bình hoặc biến đổi các góc chung, biến đổi vận tốc góc tối đacủa các khớp xương, v.v Sau đó hành động của con người được thể hiện theo trình tựthông tin của các khớp, chúng được so sánh bằng cách dùng khoảng cách Levenshtein(thể hiện khoảng cách khác biệt giữa hai chuỗi ký tự) Trình tự của khung xương đượctrình bày trong [79] sử dụng các cặp giống nhau về cấu trúc giữa phép chiếu góc kếtnối và sau đó phân loại sử dụng SVM tuyến tính
Ngoài các hướng tiếp cận dựa trên việc học là chính cho ước lượng khung xươngcủa người thì còn hướng tiếp cận dựa trên đại số Vemulapalli và các cộng sự [80] đềxuất một biểu diễn khung xương mới được mô hình một cách rõ ràng mối tương quanhình học 3-D giữa các phần cơ thể khác nhau sử dụng phép quay và tịnh tiến trongkhông gian 3D Vì các vận động cơ thể 3D một cách thô là các thành phần của mộtnhóm Euclide đặc biệt SE(3), các biểu diễn khung xương được đề xuất sẽ được mô tảdựa trên nhóm Lie SE(3) × × SE(3) là một đa tạp cong Với cách biểu diễn nàythì các vận động của cơ thể người có thể được mô hình hóa như đường cong trong một
Trang 34nhóm Lie Do việc phân lớp các đường cong trong nhóm Lie không đơn giản nên cầnphải ánh xạ các đường cong mô tả hoạt động này từ nhóm Lie vào đại số Lie tức làtrên một không gian vector Sau đó chúng ta thực hiện phân lớp dựa trên tổ hợp kỹthuật so khớp chuỗi thời gian động (Dynamic Time Warping- DTW) (dùng để so khớp
độ tương tự giữa hai chuỗi trạng thái theo thời gian) biến động sai lệch thời gian, biểudiễn tháp (người ta hay dùng pyramid) thời gian Fourier và kỹ thuật huấn luyện SVMtuyến tính Kết quả thí nghiệm trên ba bộ dữ liệu hành động cho thấy rằng biểu diễn
đề xuất thực hiện tốt hơn so với nhiều biểu diễn khung xương hiện có Các phươngpháp đề xuất cũng nhanh hơn so với nhiều hướng tiếp cận nhận diện hành động conngười dựa trên khung xương mới nhất
1.3.3 Ước lượng tư thế dựa trên đối tượng và ngữ cảnh hoạt động
Hầu hết các hành động trên cơ thể người sẽ quyết định tư thế của người Do đóviệc phát hiện và nhận dạng hành động cơ thể người thường có vai trò bước đầu choviệc ước lượng tư thế của người Cụ thể hơn là việc phát hiện và nhận dạng các bộphận trên cơ thể người Thường thì việc ước lượng các tư thế của người thường đi kèmvới bài toán phát hiện và nhận dạng hành động và mối liên hệ giữa đối tượng và hànhđộng của người
Desai và các cộng sự [65] đã trình bày một cách tiếp cận mới để mô hình hóa tưthế của con người, cùng với các đối tượng tương tác, dựa trên các mô hình thành phầncủa các tương tác và các mối quan hệ của họ Các mô hình khung xương của người,mới chỉ phát hiện và ước lượng được các khớp nối lớn, còn không thể mô hình/ướclượng chính xác khi bị che khuất và tương tác Để giải quyết bài toán ước lượng tưthế, phát hiện, nhận dạng hành động trong trường hợp này đòi hỏi một bộ mẫu huấnluyện lớn Bài báo này kết hợp cả ba cách tiếp cận với một mô hình thành phần linhhoạt đủ để ước lượng mô hình khớp nối chi tiết nhưng vẫn đảm bảo được các phần
và tương tác đối tượng Mô hình huấn luyện cho việc phát hiện nhận dạng hành độngđược huấn luyện từ các mảnh nhỏ của các hành động Các phát hiện hành động vàphân loại hành động được thực hiện và đánh giá so sánh với các phương thức cơ sởtrên bộ cơ sở dữ liệu có nhiều thách thức PASCAL Ví dụ như Hình 1 trong bài báonày là phát hiện hành động cưỡi ngựa, từ đó ước lượng ra tư thế của người
Singh và các cộng sự [66] đã giải quyết vấn đề ước lượng tư thế của người trongmột hình ảnh tĩnh khi người thực hiện một hành động có thể liên quan đến tương tácvới các đối tượng cảnh Trong kịch bản như vậy, có thể ước lượng chính xác hơn bằngcách sử dụng kiến thức về đối tượng trong cảnh Bài báo đề xuất cây ngữ cảnh choviệc nối giữa mô hình tư thế và đối tượng của con người trong tương tác Để ước lượng
tư thế trong một hình ảnh, bài báo trình bày một mô hình Bayes để tối ưu ghép nốibằng cách tối đa hóa khả năng trên nhiều cây ngữ cảnh cho tất cả các tương tác Bài
18
Trang 35báo đánh giá cách tiếp cận của luận án trên bộ dữ liệu gồm 65 hình ảnh và cho thấysuy luận chung của tư thế và bối cảnh cho độ chính xác cao hơn.
Yao và các cộng sự [67] đã đề xuất một mô hình kết nối tương tác giữa các đốitượng và tư thế của người Theo cách tiếp cận của bài báo, phát hiện đối tượng cungcấp một ưu tiên mạnh để ước lượng tư thế con người tốt hơn, trong khi tư thế conngười ước lượng được sử dụng để cải thiện độ chính xác của việc phát hiện các đốitượng Mô hình kết hợp này được đánh giá trên tập dữ liệu các hành động trong thểthao như đánh tenis, hay trong biểu diễn nhạc cụ
Ở Việt Nam hiện nay cũng có một số nghiên cứu về phát hiện nhận dạng hànhđộng liên quan đến tư thế và khung xương của người Như Ha và các cộng sự [81] đã
đề xuất giải pháp nhận dạng hành vi té ngã thông qua ảnh chiều sâu thu nhận được từthiết bị Kinect do Microsoft sản xuất Quá trình xử lý bao gồm các bước: (1) Thu nhậncác đặc trưng về khung xương và đường biên cơ thể thông qua việc sử dụng Kinect; (2)Tính toán các thông số đặc trưng gồm vị trí khớp và tốc độ khớp; (3) So sánh các giátrị thông số đặc trưng đó với các giá trị ngưỡng, nếu các đặc trưng đó vượt quá ngưỡng
và không tiếp tục có sự biến động lớn, hành vi té ngã được giả định rằng đã xảy ra.Kết quả thực nghiệm trong môi trường thực tế và bộ cơ sở dữ liệu MOCAP(MOtionCAPture) về khung xương cho thấy giải pháp đề xuất mang lại hiệu quả hứa hẹn Việcphát hiện hành động ngã là dựa trên vị trí của các khớp xương so với mặt sàn Mặtphẳng sàn là mặt phẳng đánh dấu cho việc phát hiện nhận dạng các hành động khác
Nó là một mặt phẳng cố định mà hệ thống bắt buộc phải phát hiện
Hay nghiên cứu của Phạm và các cộng sự [82] đã trình bày về khả năng nhận dạng
20 tư thế người với dữ liệu thu được từ camera Kinect, dữ liệu thu được từ nhiều ngườivới chiều cao khác nhau và góc thu dữ liệu khác nhau Lợi thế của việc sử dụng dữliệu khung xương thu từ camera Kinect là không bị ảnh hưởng bởi sự thay đổi của ánhsáng hay độ nhiễu của hình ảnh Nghiên cứu cũng sẽ đưa ra 4 phương pháp trích đặctrưng từ dữ liệu khung xương thu thập được từ camera Kinect Sau đó, bộ dữ liệu sẽđược đem đi huấn luyện bằng mô hình máy học véc-tơ hỗ sợ (SVM) Qua thực nghiệmcho thấy độ chính xác khi nhận dạng tư thế người đạt hơn 98%
1.3.4 Nhận xét
Như vậy, chúng ta có thể thấy hầu hết các hướng tiếp cận cho việc ước lượng tưthế của người trong không gian 2-D từ ảnh đều được thực hiện dựa trên việc học cácđặc trưng trên ảnh màu hoặc ảnh độ sâu Các đặc trưng có thể là đặc trưng trên toàn
bộ cơ thể, từ các bộ phận của cơ thể, hay sự biến dạng của các bộ phận trên cơ thể.Tuy nhiên, việc huấn luyện và ước lượng tư thế người trên ảnh thường không giải quyếtđược bài toán khi một số bộ phận của người bị che khuất
Trang 361.4 Ước lượng khung xương và tư thế người trong môi trường
3-D
Ước lượng tư thế người và chuyển động là công việc sử dụng phần lớn các kỹ thuật
về thị giác máy tính Bài toán này có thể thực hiện dựa trên 1 hình ảnh hoặc mộtchuỗi hình ảnh thu được từ môi trường Bài toán ước lượng tư thế người và hành độngđược áp dụng trong nhiều lĩnh vực như: Trong tương tác người máy (như nhận dạngngôn ngữ cử chỉ hay nhận dạng cử chỉ), tương tác người với robot, giám sát video (sửdụng để truyền đạt hành động của con người) [83] Việc ước lượng tư thế người cũngđược thực hiện theo hai hướng tiếp cận cơ bản: Ước lượng tư thế người từ một ảnh;Ước lượng tư thế người từ chuỗi ảnh Thường thì việc ước lượng tư thế người trongkhông gian 3-D được xuất phát từ ước lượng tư thế người trong không gian 2-D Môhình thường áp dụng cho việc ước lượng tư thế người trong không gian 3-D được thểhiện trong hình 3 của [83] Đặc biệt ước lượng 3-D khung xương và tư thế của người
là một kỹ thuật rất cần thiết trong việc xây dựng lại môi trường thực tế và ước lượngcác khớp xương trong trường hợp các bộ phận các chi của người bị che khuất
1.4.1 Phục hồi tư thế 3-D của người từ một ảnh
Vấn đề ước lượng 3-D khung xương và tư thế của người là vấn đề có rất nhiềuthách thức trong thị giác máy tính như: Các hoạt động phi tuyến của người, bị chekhuất bởi nền, lộn xộn các khớp trong không gian 2-D, sự nhập nhập nhằng giữa 2-D
và 3-D Hầu hết các nghiên cứu dựa theo hướng tiếp cận này đều sử dụng học sâu(deep learning) cho việc huấn luyện mô hình ước lượng
Tome và các cộng sự [84] đã đề xuất một mô hình mạng nơ ron tích chập cho việchuấn luyện mô hình ước lượng khung xương trong không gian 2-D Và mô hình chiếuviệc ước lượng trong không gian 2-D sang không gian 3-D bằng việc huấn luyện môhình ước lượng 3-D từ 3.6 triệu hành động của người trong không gian 3-D từ bộ cơ sở
dữ liệu Human 3.6M [85], [88] Trong đó dữ liệu đầu vào của hệ thống là ảnh màu, sau
đó hệ thống thực hiện ước lượng khung xương trên ảnh màu với đầu ra là 14 điểm đạidiện, sau đó 14 điểm ước lượng được sẽ được chiếu vào không gian 3-D và ước lượngđầu ra là 17 điểm đại diện trong không gian 3-D
Fang và các cộng sự đã [89] đề xuất một ngữ pháp tư thế để giải quyết vấn đề ướclượng 3-D tư thế con người Mô hình của trong bài báo này trực tiếp lấy tư thế 2-Dlàm đầu vào và tìm cách ánh xạ các điểm đại diện trong 2-D sang không gian 3-D Môhình đề xuất bao gồm một mạng để phát huy các đặc trưng liên kết theo tư thế và hệthống phân cấp về một bộ kiến thức cấu trúc cơ thể người (ví dụ: động học, đối xứng,điều phối động cơ) Mô hình đề xuất được thực hiện trên các ràng buộc cấp cao vớicác tư thế của người
20
Trang 37Timm và các cộng sự [90] đã chọn ra được một mô hình để ước lượng 3-D tư thếngười trong trường hợp dữ liệu bị che khuất trên bộ cơ sở dữ liệu Human 3.6M [85],[88] Trong đó quá trình ước lượng khung xương và các khớp nối trên 2-D các tác giả
sử dụng mạng ResNet-50 [91] Sau đó toạ độ của mỗi điểm đại diện ước lượng đượcđược chiếu sang không gian 3-D Dữ liệu che khuất được tạo ra dựa trên các cấu trúchình tròn, hình chữ nhật với kích thước khác nhau trên ảnh màu Dữ liệu học là cáccảnh (S1, S5, S6, S7, S8) dữ liệu kiểm tra là các cảnh (S9, S11) của bộ dữ liệu Human3.6M [85], [88]
Ngoài ra cũng có rất nhiều nghiên cứu về ước lượng 3-D khung xương, tư thế người
từ một ảnh (khung hình) được thực hiện sớm hơn Các nghiên cứu này được liệt kê vàtóm tắt trong bảng 1 của bài báo [83]
1.4.2 Phục hồi tư thế 3-D của người
Mặc dù gần đây dựa trên những thành công của học sâu (deep learning), điểnhình là các mạng nơ ron tích chập đã được đề xuất cho bài toán ước lượng 3-D khungxương và tư thế người Quá trình này sử dụng các mạng nơ ron tích chập để huấn luyện
và ước lượng trong không gian 2-D sau đó ánh xạ vào không gian 3-D Tuy nhiên, ướclượng tư thế 3-D từ các khung hình riêng lẻ dẫn đến ước lượng không thống nhất theothời gian do lỗi độc lập trong mỗi khung hình gây ra Do đó, Hossain và các cộng sự[92] đã sử dụng thông tin tạm thời trên một chuỗi các vị trí khớp 2-D để ước lượngmột chuỗi các tư thế 3-D Bài báo đã thiết kế một mạng chuỗi theo trình tự bao gồmcác đơn vị LSTM (Long Short-Term Memory) được chuẩn hóa lớp với các kết nối đầuvào với đầu ra ở phía bộ giải mã và sử dụng ràng buộc độ mịn theo thời gian trongquá trình huấn luyện Với kiến trúc mạng như vậy làm cho bộ ước lượng chính xác hơnđến hơn 12% trên bộ cơ sở dữ liệu Human 3.6M [85], [88]
Cũng có nhiều nghiên cứu cũ hơn trong việc ước lượng 3-D khung xương, tư thếngười sử dụng một chuỗi ảnh từ một cảm biến Các nghiên cứu này được liệt kê và tómtắt trong bảng 3 của bài báo [83] và các nghiên cứu về ước lượng 3-D khung xương, tưthế người sử dụng 1 khung hình tương ứng ở nhiều hướng nhìn khác nhau được liệt kê
và tóm tắt trong bảng 2 của bài báo [83]
Hầu hết các nghiên cứu về ước lượng khung xương, tư thế trong không gian 3-Dđều sử dụng các mô hình mạng CNN để huấn luyện và ước lượng khung xương trên2-D (thường áp dụng cho đầu vào là ảnh màu)(các nghiên cứu của Pavllo CS [134],Wang CS [137], wang CS [143], vv) hoặc sử dụng dữ liệu gốc trên 2-D ( thường ápdụng cho ảnh đầu vào ảnh độ sâu) (các nghiên cứu của Karim CS [146], Hossain CS.[92], vv), sau đó chiếu sang không gian 3-D sử dụng bộ cơ sở dữ liệu gốc về khungxương trong không gian 3-D hoặc sử dụng bộ tham số trong của chính các camera đãthu thập dữ liệu để chiếu dữ liệu sang không gian 3-D Đặc biệt hầu hết các nghiên
Trang 38cứu về ước lượng khung xương trong không gian 3-D đều được đánh giá trên bộ cơ sở
dữ liệu Human3.6M [85] với các độ đo thông dụng như sau: MPJPE (Mean Per JointPosition Error) [134], PCK (Percentage of Correct Keypoints), và AUC (Area UnderCurve) [135], PMPJPE (Procrustes Aligned Mean Per Joint Position Error) [158], vv.Các nghiên cứu này thường đánh giá trên các bộ cơ sở dữ liệu như: Human3.6M [85],LSP [149], 3DHP[145], MPII [153],HumanEva-I[32], Football II [148], Invariant-TopView [61, 26], MPI-INF3DHP [145], MuPoTS-3D [140], AIChallenger [143]
Trong đó kết quả ước lượng khung xương trong không gian 3-D dựa trên độ đo
M P J P E được thể hiện trong Bảng 1.1
1.4.2.1 Phục hồi khung xương, tư thế người trong không gian 3-D từ một ảnh
Theo báo cáo trong khảo sát của Sarafianos và các cộng sự [83], để giải quyết ướclượng tư thế người trong không gian 3-D từ một hình ảnh, thường thực hiện ước lượng
tư thế người trong không gian 2-D và sau đó ước lượng độ sâu của nó bằng cách so khớpvới thư viện của các tư thế 3-D như Hình 1.4 Bảng 1.2 thể hiện tóm tắt về các thôngtin của các nghiên cứu dựa trên hướng tiếp cận ước lượng, khôi phục khung xươngngười trong không gian 3-D từ một ảnh Trong bảng này, luận án thể hiện năm (year),thông tin tác giả (Main Author/ reference), có sử dụng bộ thư viện khung xương choviệc khôi phục khung xương không (3-D pose library), ý tưởng cơ bản của nghiên cứu(Method Highlights), cơ sở dữ liệu sử dụng để đánh giá (Evaluation dataset), các độ
đo đánh giá (Evaluation matrix)
1.4.2.2 Phục hồi khung xương, tư thế người trong không gian 3-D từ một chuỗi ảnhHướng tiếp cận ước lượng khung xương trong không gian 3-D từ một chuỗi ảnh
có thể là một chuỗi ảnh thu được từ nhiều camera (multi-view) hoặc một chuỗi khunghình liên tiếp thu được một camera Trong phần này, luận án khảo sát các nghiên cứutheo hướng tiếp cận này, như được trình bày trong Bảng 1.3 Bảng này cũng được trìnhtheo giống cấu trúc của Bảng 1.2
1.4.3 Nhận xét
Như đã trình bày ở trên, việc phục hồi tư thế 3-D của người với một ảnh đầuvào hoặc một chuỗi ảnh đầu vào thì thường thực hiện ước lượng tư thế trên ảnh Vớiphương thức ước lượng có đầu vào là một ảnh thì thực hiện ước lượng tư thế trên ảnhsau đó thực hiện ánh xạ sang không gian 3-D nhờ một bộ cơ sở dữ liệu về tư thế củangười trong 3-D Quá trình huấn luyện ước lượng tư thế trong không gian 3-D là quátrình tìm kiếm (matching) bộ tư thế tốt nhất trong bộ cơ sở dữ liệu tư thế mà có độsâu tương ứng Trong khi hướng tiếp cận với đầu vào là một chuỗi ảnh từ một camerahoặc từ nhiều hướng nhìn khác nhau (trên nhiều camera) thì cũng thực hiện ước lượng
22
Trang 39tư thế trên ảnh, sau đó sử dụng bộ tham số trong của các camera và bộ tham số hiệuchỉnh các ảnh để ánh xạ các điểm đại diện, khớp nối ước lượng được trong không gian3-D Đặc biệt hướng tiếp cận dựa trên một chuỗi hình ảnh thì có kết quả tốt hơn choviệc phát hiện và theo vết người (tracking), hướng tiếp cận này có tính đến tham số
về không gian và thời gian trong quá trình ước lượng Còn hướng tiếp cận có một ảnhđầu vào có lỗi tích lũy về thời gian trên các khung hình liên tiếp nhau Hầu hết cácnghiên cứu đều được đánh giá trên các bộ cơ sở dữ liệu chuẩn (benchmark)(các bộ cơ
sở dữ liệu cung cấp các tập huấn luyện, tập xác nhận, tập kiểm tra) như Human3.6M[85], HumanEVA [102], MPII [103] Trong phần tiếp theo nghiên cứu sinh sẽ miêu tảchi tiết hơn về các bộ cơ sở dữ liệu này
Trang 40Bảng 1.1 Thống kê các nghiên cứu ước lượng khung xương của người trong không gian3-D mà có đánh giá trên cơ cở dữ liệu Human3.6M [85] và kết quả ước lượng.
Phương thức
Kết quả ướclượng trung bình(với độ đo MPJPE)
(mm)Pavllo CS [134] Protocol 1: 51.8
Protocol 2: 40.0Nibali CS [135] 57.0
Veges CS [136] Protocol #1: 61.1Wang CS [137] Protocol #1: 63.67Martinez CS [138] protocol #1: 45.5Pavlakos CS [142] 51.9
Wang CS [143] Protocol#1: 40.8Hossain CS [92] Protocol #1: 39.2
Li CS [144] Protocol #1: 52.7
Protocol #2: 42.6Karim CS [146] Protocol 1: 49.9Fang CS [89]
Protocol #1: 60.4Protocol #2: 45.7Protocol #3: 72.8Tekin CS [147] 50.12
Omran CS [155] 59.9Pavllo CS [156] 36Bastian CS [157] Protocol #1: 50.9Kocabas CS [158] 51.83
Rhodin CS [123] 131.7Mehta CS [127] ResNet 100: 82.5
ResNet 50: 80.5Tome CS [84]
Protocol #1: 88.39Protocol #2: 70.4Protocol #3: 79.6
24