1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu, phát triển các kỹ thuật phân tích hoạt động của bàn tay từ chuỗi hình ảnh thu thập bằng cảm biến đeo, ứng dụng trong hỗ trợ đánh giá bài tập hồi chức năng

138 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu, phát triển các kỹ thuật phân tích hoạt động của bàn tay từ chuỗi hình ảnh thu thập bằng cảm biến đeo, ứng dụng trong hỗ trợ đánh giá bài tập hồi chức năng
Trường học Viện Khoa Học Và Công Nghệ Quân Sự - http://vientkhcqn.com.vn
Chuyên ngành Kỹ Thuật Phân Tích Hoạt Động Của Bàn Tay Từ Chuỗi Hình Ảnh Thu Thập Bằng Cảm Biến Đeo, Ứng Dụng Trong Hỗ Trợ Đánh Giá Bài Tập Hồi Chức Năng
Thể loại Luận án tiến sĩ
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 138
Dung lượng 6,46 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

NGHIÊN CỨU, PHÁT TRIỂN CÁC KỸ THUẬT PHÂN TÍCH HOẠT ĐỘNG CỦA BÀN TAY TỪ CHUỖI HÌNH ẢNH THU THẬP BẰNG CẢM BIẾN ĐEO, ỨNG DỤNG TRONG HỖ TRỢ Ngành: Cơ sở toán học cho tin học LUẬN ÁN TIẾN S

Trang 1

VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

NGHIÊN CỨU, PHÁT TRIỂN CÁC KỸ THUẬT PHÂN TÍCH HOẠT ĐỘNG CỦA BÀN TAY TỪ CHUỖI HÌNH ẢNH THU THẬP BẰNG CẢM BIẾN ĐEO, ỨNG DỤNG TRONG HỖ TRỢ

LUẬN ÁN TIẾN SĨ TOÁN HỌC

Hà Nội – 2023

Trang 2

NGHIÊN CỨU, PHÁT TRIỂN CÁC KỸ THUẬT PHÂN TÍCH

HOẠT ĐỘNG CỦA BÀN TAY TỪ CHUỖI HÌNH ẢNH THU

THẬP BẰNG CẢM BIẾN ĐEO, ỨNG DỤNG TRONG HỖ TRỢ

Ngành: Cơ sở toán học cho tin học

LUẬN ÁN TIẾN SĨ TOÁN HỌC

NGƯỜI HƯỚNG DẪN KHOA HỌC:

Hà Nội – 2023 VIỆN KHOA HỌC VÀ CÔNG NGHỆ QUÂN SỰ

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan, đây là công trình nghiên cứu của riêng tôi Những nội

dung, số liệu và kết quả trình bày trong luận án là hoàn toàn trung thực và chưa

từng được công bố trong bất cứ công trình nào khác Các dữ liệu tham khảo

được trích dẫn đầy đủ

Hà Nội, ngày tháng năm 2023

Tác giả luận án

Trang 4

LỜI CẢM ƠN

NCS xin chân thành cảm ơn Thủ trưởng Viện KH-CN quân sự, Thủ trưởng và các cán bộ Phòng Đào tạo, Viện Công nghệ thông tin/Viện KH-CN quân sự đã tạo mọi điều kiện, hỗ trợ, giúp đỡ NCS trong quá trình học tập, nghiên cứu

NCS xin bày tỏ lời cảm ơn chân thành tới các thầy cô của Viện Công nghệ thông tin, các đồng nghiệp phòng Công nghệ tri thức thuộc Viện Công nghệ thông tin/Viện KH-CN Quân sự đã luôn động viên, chia sẻ, giúp đỡ NCS trong suốt thời gian qua Bên cạnh đó, NCS cũng xin gửi lời cảm ơn các thầy

cô, đồng nghiệp và các bạn sinh viên phòng Thị giác máy tính thuộc Viện nghiên cứu quốc tế về thông tin đa phương tiện, truyền thông và ứng dụng (Viện MICA)/Đại học Bách khoa Hà Nội đã nhiệt tình hướng dẫn và đóng góp các ý kiến quí báu trong quá trình học tập, nghiên cứu của NCS

NCS luôn ghi nhớ công ơn của bố mẹ và gia đình, những người đã luôn

ở bên cạnh, động viên và là chỗ dựa về mọi mặt giúp NCS vượt qua khó khăn

để hoàn thành luận án

Luận án này được thực hiện tại Viện Khoa học và Công nghệ quân sự/Bộ Quốc phòng và Đại học Bách khoa Hà Nội Lời đầu tiên, nghiên cứu sinh xin bày tỏ lòng cảm ơn sâu sắc tới PGS TS, các thầy đã tận tình hướng dẫn, trang bị cho NCS phương pháp nghiên cứu, kinh nghiệm, kiến thức khoa học và kiểm tra, đánh giá các kết quả nghiên cứu của NCS

Trang 5

MỤC LỤC

Trang DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT VI DANH MỤC CÁC BẢNG VIII DANH MỤC CÁC HÌNH VẼ IX

MỞ ĐẦU 1

CHƯƠNG 1 TỔNG QUAN BÀI TOÁN NHẬN BIẾT HOẠT ĐỘNG CỦA TAY TỪ CẢM BIẾN ẢNH ĐEO TRÊN NGƯỜI 8

1.1 Giới thiệu bài toán nhận biết hoạt động của tay từ cảm biến ảnh đeo 8

1.1.1 Nhận biết hoạt động của tay sử dụng cảm biến ảnh đeo 8

1.1.2 Vai trò của phân tích hình ảnh tay trong đánh giá quá trình tập PHCN 11 1.1.3 Nhận xét 13

1.2 Kỹ thuật thị giác máy tính nhận biết hoạt động tay 13

1.2.1 Giới thiệu các kỹ thuật thị giác máy tính nhận biết hoạt động tay 13

1.2.2 Ảnh hưởng của các kỹ thuật tới nhận biết hoạt động tay trong PHCN 18

1.2.3 Nhận xét 19

1.3 Tình hình nghiên cứu liên quan 19

1.3.1 Tình hình nghiên cứu chung về egocentric 19

1.3.2 Các nghiên cứu liên quan đến egocentric trong PHCN 26

1.3.3 Những vấn đề còn tồn tại 28

1.3.4 Những vấn đề luận án tập trung giải quyết 29

1.4 Kết luận Chương 1 31

CHƯƠNG 2 XÂY DỰNG BỘ DỮ LIỆU BÀI TẬP PHCN VÀ CÁC ĐÁNH GIÁ LIÊN QUAN ĐẾN TAY 32

2.1 Xây dựng bộ dữ liệu RehabHand 32

2.2 Các đánh giá cơ sở liên quan đến tay trên bộ dữ liệu RehabHand 35

2.2.1 Theo bám tay dựa trên kết quả phát hiện 35

Trang 6

2.2.2 Phân đoạn tay 41

2.3 Kết luận Chương 2 52

CHƯƠNG 3 ĐỀ XUẤT KỸ THUẬT CẢI TIẾN CHO NHIỆM VỤ XÁC ĐỊNH TAY 53

3.1 Kỹ thuật phân đoạn vùng bàn tay 53

3.1.1 Đặt vấn đề 53

3.1.2 Phương pháp đề xuất sử dụng đặc trưng tự thiết kế 54

3.1.3 Thử nghiệm và đánh giá các kết quả 58

3.1.4 Nhận xét 62

3.2 Kỹ thuật xác định và theo bám tay 63

3.2.1 Đặt vấn đề 63

3.2.2 Phương pháp đề xuất 63

3.2.3 Thử nghiệm và đánh giá các kết quả 69

3.2.4 Nhận xét 74

3.3 Kỹ thuật ước lượng tư thế tay 74

3.3.1 Đặt vấn đề 74

3.3.2 Phương pháp đề xuất 75

3.3.3 Thử nghiệm và đánh giá các kết quả 79

3.3.4 Nhận xét 82

3.4 Kết luận Chương 3 83

CHƯƠNG 4 ĐỀ XUẤT KỸ THUẬT NHẬN BIẾT HOẠT ĐỘNG TAY TRONG CÁC BÀI TẬP PHCN 84

4.1 Đặt vấn đề 84

4.2 Phương pháp đề xuất 85

4.2.1 Tổng quan phương pháp nhận biết hoạt động với mạng R(2+1)D 85

4.2.2 Mô hình nhận biết hoạt động tay tương tác đồ vật trong bài tập PHCN 89 4.2.3 Xác định loại đối tượng tương tác trong bài tập 93

Trang 7

4.2.4 Kết hợp nhận biết hoạt động và loại đối tượng tương tác chính 96

4.3 Thử nghiệm và đánh giá các kết quả 97

4.3.1 Bộ dữ liệu thử nghiệm 97

4.3.2 Môi trường cài đặt huấn luyện và các độ đo đánh giá mô hình 98

4.3.3 Đánh giá độ chính xác của mạng R(2+1) D 98

4.3.4 Đánh giá phương pháp xác định loại đối tượng tương tác chính 100

4.3.5 Đánh giá độ chính xác của phương pháp nhận dạng đã đề xuất 101

4.3.6 Thử nghiệm trên video tổng hợp gồm nhiều bài tập 103

4.4 Kết luận Chương 4 104

KẾT LUẬN 105

DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC ĐÃ CÔNG BỐ 107

TÀI LIỆU THAM KHẢO 108

PHỤ LỤC 117

Trang 8

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

β Siêu tham số xác định sự tồn tại của cằng tay trong khung hình

α Ngưỡng mở rộng để loại bỏ vòng tròn long bàn tay

j0 Điểm đánh giá khả năng lựa chọn đối tượng chính cao nhất Score[j] Điểm đánh giá vị trí tay và lớp đối tượng thứ j

AAL Ambient Assisted Living - Hỗ trợ cuộc sống xung quanh

ADL Activities of Daily Living (Các hoạt động hằng ngày)

AHT Attention-based Hand Tracker (Theo bám tay dựa trên sự chú ý)

AR Augmented Reality (Thực tại tăng cường)

BRIEF Binary Robust Independent Elementary Features

CNN Convolution Neuron Network (Mạng nơ-ron tích chập)

CRF Conditional Regression Forest (Rừng hồi quy có điều kiện) CSDL Cơ sở dữ liệu

CV Computer Vision (Thị giác máy tính)

DFF Deep Feature Fow (Luồng đặc trưng sâu)

DTM Distance Transformation Map (Bản đồ biến đổi khoảng cách) DTW Dynamic Time Warping (Xoắn thời gian động)

FPV First Person Vision (Thị giác góc nhìn người thứ nhất)

HCI Human Computer Inteface (Giao tiếp người – máy tính)

HOF Histogram of Oriented Optical Flow

HOG Histogram of Oriented Gradients

HRI Human Robot Inteface (Giao tiếp người – rô bốt)

IMU Inertial Measurement Unit (Bộ đo lường quán tính)

KCF Kernelized Correlation Filter (Bộ lọc tương quan Kernezed) MDNN Multi-stream Deep Neural Network (Mạng nơ-ron sâu đa luồng) NCQT Nghiên cứu quốc tế

PDF Probability Density Function (Hàm mật độ xác suất)

PHCN Phục hồi chức năng

Trang 9

RNN Recurrent Neural Network (Mạng nơ-ron tái phát)

ROI Region of Interest (Vùng quan tâm)

SIFT Scale-Invariant Feature Transform

SORT Simple Online Real-time Tracking (Theo bám trực tuyến đơn) SOTA State-of-the-art (Công nghệ mới nhất)

SVM Support Vector Machine (Máy vec-tơ hỗ trợ)

ToF Deep of Field (Máy ảnh có cảm biến đo độ sâu)

TPV Thirst Person Vision (Thị giác góc nhìn người thứ ba)

VR Virtual Reality (Thực tại ảo)

Trang 10

DANH MỤC CÁC BẢNG

Trang

Bảng 2.1 Thống kê dữ liệu thử nghiệm theo bám tay 36

Bảng 2.2 Kết quả phát hiện tay với bộ dữ liệu RehabHand 37

Bảng 2.3 Kết quả đánh giá theo bám tay 39

Bảng 2.4 Kết quả phát hiện tay với backbone khác nhau 47

Bảng 2.5 Kết quả phân đoạn tay với backbone khác nhau 47

Bảng 2.6 Kết quả đánh giá mô hình phân đoạn tay trên từng lớp 48

Bảng 2.7 Kết quả đánh giá mô hình trên tất cả các lớp 49

Bảng 2.8 So sánh kết quả phát hiện tay 50

Bảng 2.9 So sánh kết quả phân đoạn tay 50

Bảng 2.10 So sánh kết quả phân đoạn tay với các mạng nơ-ron khác nhau 51

Bảng 3.1 Kết quả mô hình SVM với tập dữ liệu ảnh tay 59

Bảng 3.2 Kết quả phân tách vùng tay từ ảnh mặt nạ tay 59

Bảng 3.3 So sánh các kết quả phân đoạn bàn tay 60

Bảng 3.4 So sánh kết quả thuật toán DeepSORT và MẻgeTrack 62

Bảng 3.5 Kết quả phân đoạn tay egocentric 71

Bảng 3.6 Bảng kết quả phương pháp đề xuất 73

Bảng 3.7 Độ chính xác phân vùng tay với FPHA 80

Bảng 3.8 Bảng so sánh lỗi giữa phương pháp đề xuất với HOPE-Net 80

Bảng 4.1 Danh sách bài tập và đối tượng tập tương ứng 96

Bảng 4.2 Số lượng video bài tập của bộ RehabHand 97

Bảng 4.3 Độ chính xác của mô hình huấn luyện 99

Bảng 4.4 Độ chính xác nhận dạng trên tập thử nghiệm 100

Bảng 4.5 Độ chính xác phương pháp xác định loại đối tượng tương tác 101

Bảng 4.6 Độ chính xác nhận dạng trên tập thử nghiệm 102

Trang 11

DANH MỤC CÁC HÌNH VẼ

Trang

Hình 1.1 Sự khác biệt giữa camera cố định và camera gắn trên người 9

Hình 1.2 Các giai đoạn phát triển của thiết bị camera mang trên người 10

Hình 1.3 Một số loại camera đeo trên người hiện nay 10

Hình 1.4 Các bài toán xác định tay 14

Hình 1.5 Minh họa kết quả bài toán phân đoạn tay 14

Hình 1.6 Phát hiện tay trong khung hình 15

Hình 1.7 Theo bám tay trong chuỗi khung hình 15

Hình 1.8 Ước tính tư thế tay 16

Hình 1.9 Bài toán hiểu hoạt động của tay 16

Hình 1.10 Mô hình phát hiện, phân đoạn và xác định tương tác 27

Hình 1.11 Tổng quan các vấn đề cần giải quyết 30

Hình 1.12 Hướng tiếp cận giải quyết bài toán 31

Hình 2.1 Quy trình xây dựng bộ dữ liệu RehabHand 32

Hình 2.2 Cấu trúc bộ dữ liệu “RehabHand” 34

Hình 2.3 Phương pháp theo bám tay dựa trên kết quả phát hiện 35

Hình 2.4 Biểu đồ so sánh kết quả phát hiện tay 39

Hình 2.5 Minh họa trường hợp tay bị che khuất 41

Hình 2.6 Minh họa trường hợp tay di chuyển nhanh 41

Hình 2.7 Minh họa trường hợp hình dạng của tay thay đổi nhiều 41

Hình 2.8 Sơ đồ chung của phương pháp phát hiện và phân đoạn tay 42

Hình 2.9 Một số ví dụ về kết quả tăng cường dữ liệu 43

Hình 2.10 Kiến trúc mạng Mask R-CNN phát hiện và phân đoạn tay 44

Hình 2.11 Đồ thị theo dõi quá trình huấn luyện 46

Hình 2.12 Kết quả chỉ số AP trên tập valid 48

Hình 2.13 Minh họa kết quả phân đoạn tay với các bài tập khác nhau 49

Trang 12

Hình 2.14 Minh họa kết quả phân đoạn sử dụng các mạng khác nhau 51

Hình 3.1 Minh họa các bộ phận của tay 54

Hình 3.2 Sơ đồ tổng quát phương pháp phân đoạn vùng bàn tay 55

Hình 3.3 Giả mã thuật toán xác định các vùng ROI 56

Hình 3.4 Xác định các vùng ROI trong ảnh mặt nạ bàn tay 56

Hình 3.5 Khoảng cách từ tâm của vùng ROI đến đường biên của tay 57

Hình 3.6 Các đặc trưng của vùng ROI 57

Hình 3.7 Mô hình phân tách vùng bàn tay từ ảnh mặt nạ toàn bộ tay 58

Hình 3.8 Kết quả phân tách bàn tay với các ngưỡng β khác nhau 60

Hình 3.9 Hình ảnh đường phân tách cổ tay trong TPV và FPV 60

Hình 3.10 Hình ảnh kết quả sử dụng DTM trong TPV và FPV 61

Hình 3.11 Kết quả phân đoạn tay sử dụng mạng Mask R-CNN 62

Hình 3.12 Mô hình đề xuất theo bám và xác định tay 64

Hình 3.13 Giả mã kỹ thuật xác định và phân đoạn tay bệnh nhân 64

Hình 3.14 Giả mã của thuật toán MergeTrack 66

Hình 3.15 Giải thuật MergeTrack sửa lỗi nhảy ID của DeepSORT 67

Hình 3.16 Quy trình định danh lại tay sử dụng MergeTrack 68

Hình 3.17 Minh họa cách tính điểm xác định bàn tay của bệnh nhân 68

Hình 3.18 Hình ảnh kết quả định danh lại tay theo phương pháp đề xuất 72

Hình 3.19 Kết quả xác định vùng bàn tay chủ thể 73

Hình 3.20 Phân đoạn tay và ước lượng tư thế tay 3D 75

Hình 3.21 Mô hình kiến trúc mạng HOPE-Net 75

Hình 3.22 Kết quả dự đoán của HOPE-Net 76

Hình 3.23 Phân bố mật độ xác suất lỗi 21 khớp dự đoán từ HOPE-Net 76

Hình 3.24 Mô hình đề xuất cải tiến kết quả HOPE – Net 2D 77

Hình 3.25 Các lớp của mạng ResNet-18 trích rút đặc trưng vùng bàn tay 78

Hình 3.26 Giá trị hàm mất mát trong quá trình huấn luyện 80

Trang 13

Hình 3.27 Lỗi trung bình dự đoán tư thế bàn tay trên từng ngón tay 81

Hình 3.28 Độ chính xác (%) cho mỗi ngưỡng pixel 81

Hình 3.29 Minh họa kết quả đề xuất tăng độ chính xác so với HOPE-Net 82

Hình 4.1 Kiến trúc mạng R3D-18 và R3D-34 86

Hình 4.2 Kiến trúc mạng R(2+1)D 87

Hình 4.3 Bộ lọc tích chập 3D (a) và bộ lọc tích chập (2+1)D (b) 87

Hình 4.4 Phân rã bộ lọc của R(2+1)D tại conv_1 88

Hình 4.5 So sánh error giữa mạng R3D và R(2+1)D 88

Hình 4.6 Giả mã thuật toán nhận biết bài tập PHCN 89

Hình 4.7 Sơ đồ tổng quan phương pháp nhận biết bài tập PHCN 90

Hình 4.8 Mô hình nhận biết hoạt động tay sử dụng mạng R(2+1)D 91

Hình 4.9 Phân đoạn dữ liệu 92

Hình 4.10 Lấy mẫu ngẫu nhiên 92

Hình 4.11 Lấy mẫu ở trung tâm của mỗi phân đoạn 93

Hình 4.12 Phương pháp xác định loại đối tượng tương tác 94

Hình 4.13 Độ chính xác của mô hình R(2+1)D trong quá trình huấn luyện 98

Hình 4.14 Ma trận nhầm lẫn của mạng R(2+1)D trên tập huấn luyện 99

Hình 4.15 Ma trận nhầm lẫn của mạng R(2+1)D trên tập thử nghiệm 100

Hình 4.16 Ma trận nhầm lẫn của phương pháp đề xuất trên tập thử nghiệm 102 Hình 4.17 So sánh mạng R(2+1)D và phương pháp đề xuất 103

Hình 4.18 Minh họa kết quả nhận biết hoạt động 104

Trang 14

MỞ ĐẦU

1 Tính cấp thiết của đề tài luận án

Thị giác máy tính góc nhìn thứ nhất là một lĩnh vực nhận được sự quan tâm của cộng đồng nghiên cứu Khác với hướng tiếp cận truyền thống nơi mà chuỗi hình ảnh thu nhận từ camera cố định, thị giác máy tính góc nhìn thứ nhất là một hướng tiếp cận mới nhằm phân tích hình ảnh thu được từ các cảm biến hình ảnh mang theo người (Camera ở góc nhìn thứ nhất hay First Person Vision - FPV) Theo hướng tiếp cận này, dự đoán hoạt động/thao tác của người mang cảm biến thường không thể quan sát trực tiếp người từ chuỗi hình ảnh mà được phản ánh thông qua hình ảnh được ghi nhận ở phía trước, trong

đó hoạt động của tay người đóng vai trò trung tâm trong chuỗi hình ảnh (egocentric vision) Dưới góc nhìn của egocentric, những hoạt động của người mang cảm biến có thể gắn liền với các hoạt động thường ngày, trong phòng sinh hoạt, trong nhà bếp, phòng ăn, phòng tập Bài toán nhận biết hoạt động của người mang cảm biến có vai trò quan trọng trong phát triển ứng dụng thực tiễn ở nhiều lĩnh vực như y tế, giáo dục, thể thao, du lịch, rô-bốt… Trong những năm gần đây, các thiết bị gắn cảm biến ảnh đeo trên người được phổ biến rộng rãi cùng với sự phát triển trí tuệ nhân tạo làm cho lĩnh vực nhận biết hoạt động của người mang cảm biến có tiềm năng phát triển rất lớn

Trong lĩnh vực y tế có nhiều nghiên cứu về cảm biến ảnh đeo nhằm phát triển các ứng dụng hỗ trợ cho quá trình điều trị, chăm sóc sức khỏe bệnh nhân hoặc hỗ trợ người già, người tàn tật Một trong những hướng nghiên cứu đó là

tự động nhận biết các hoạt động trong quá trình tập phục hồi chức năng (PHCN) của bệnh nhân sau tai biến, đột quỵ hoặc chấn thương và đánh giá khả năng tập phục hồi của họ Tự động nhận biết bệnh nhân đã tập những bài tập PHCN nào, khả năng tập và phục hồi của họ ra sao sẽ giúp y bác sĩ có nhận xét và đưa ra phác đồ điều trị đối với bệnh nhân một cách phù hợp nhất Việc này đặc biệt hữu ích nhất là ở các cơ sở y tế trong nước, nơi có lượng bệnh nhân lớn trong khi số lượng y bác sỹ còn hạn chế do đó họ không thể theo dõi hết được quá trình tập của bệnh nhân Trong lĩnh vực PHCN, việc tự động nhận biết và đánh giá quá trình luyện tập của bệnh nhân không đòi hỏi

Trang 15

yếu tố thời gian thực Camera thu thập hình ảnh của bệnh nhân tự tập luyện theo phác đồ và định kỳ bác sĩ có thể xem các báo cáo tự động về thời lượng tập luyện, số bài tập, tần suất tập, khả năng phục hồi… Đối với PHCN tay, cần xác định thông tin cả hai tay để có sự so sánh, đánh giá để điều chỉnh hướng điều trị phù hợp Bài toán nhận biết hoạt động là bước ban đầu cần thiết cho quá trình này, nhằm xác định xem bệnh nhân đã tập những bài tập gì trong thời lượng bao lâu Cách tiếp cận được đề xuất để giải quyết vấn đề này

là sử dụng các camera đeo trên người bệnh nhân để tự động nhận biết và đánh giá khả năng tập PHCN của bệnh nhân Trong bài toán này, thị giác góc nhìn thứ nhất thể hiện nhiều lợi thế khi so sánh với thị giác góc nhìn thứ ba (Thirst Person Vision - TPV), nơi vị trí máy ảnh thường ổn định và không gắn liền với người dùng Khi bệnh nhân thay đổi vị trí và khung cảnh qua các bài tập khác nhau, camera mang trên người ghi lại chính xác những gì người dùng có trước mặt họ; chuyển động của camera được định hướng bởi hoạt động và sự chú ý của người mang cảm biến; tay và các đối tượng được tương tác có xu hướng xuất hiện ở trung tâm của khung hình và sự che khuất tay được giảm thiểu Những ưu điểm nội tại này đã làm cho việc phát triển các phương pháp tiếp cận mới để nghiên cứu hoạt động của tay trong các bài tập PHCN trở nên rất hấp dẫn

Tuy nhiên, qua nghiên cứu các công trình liên quan NCS nhận thấy hiện nay có rất ít các nghiên cứu và các bộ dữ liệu huấn luyện gắn với lĩnh vực PHCN đặc biệt trong môi trường bệnh viện tại Việt Nam Ngoài ra, các thách thức nói chung về thị giác máy tính góc nhìn thứ nhất như hình ảnh không ổn định, thay đổi ánh sáng và khung cảnh đột ngột đòi hỏi cần phải phải có các nghiên cứu tiếp theo nhằm tăng độ chính xác trong bài toán này Vậy liệu việc

sử dụng thị giác máy tính góc nhìn thứ nhất trong bài toán nhận biết và đánh giá bệnh nhân tập PHCN tại bệnh viện có phù hợp không, cần làm gì để cải tiến hiệu năng các kỹ thuật phân tích và nhận biết hoạt động tay; vai trò của ngữ cảnh trong môi trường tập PHCN tại bệnh viện có ảnh hưởng gì và liệu

có thể kết hợp hình ảnh và các dữ liệu khác như gia tốc để nâng cao hiệu năng bài toán này Xuất phát từ những câu hỏi và những thách thức đó, NCS lựa

Trang 16

chọn nghiên cứu đề tài: “Nghiên cứu, phát triển các kỹ thuật phân tích hoạt

động của bàn tay từ chuỗi hình ảnh thu thập bằng cảm biến đeo, ứng dụng trong hỗ trợ đánh giá bài tập phục hồi chức năng” Đề tài sẽ tập trung

nghiên cứu và đề xuất, các kỹ thuật cải tiến nhằm tăng hiệu năng nhận biết hoạt động tay từ cảm biến ảnh đeo trên người và ứng dụng kết quả trong bài toán thực tế đó là nhận biết hoạt động của bệnh nhân tập PHCN tại các bệnh viện

2 Mục tiêu nghiên cứu

Nhận biết hoạt động của người nói chung và của tay người nói riêng là một chủ đề rất rộng lớn bởi sự đa dạng và phức tạp trong các hoạt động của con người Đây là chủ đề đã và sẽ là những hướng nghiên cứu được quan tâm

và đòi hỏi phải có quá trình lâu dài Xuất phát từ các phân tích về đặc điểm dữ liệu, những vấn đề tồn tại trong các nghiên cứu liên quan, NCS đưa ra các câu hỏi nghiên cứu của luận án, xác định các mục tiêu nghiên cứu của luận án Hướng tới mục tiêu chung là phát triển các kỹ thuật tự động nhận biết hoạt động của tay ứng dụng trong nhận biết và đánh giá bệnh nhân tập PHCN, luận

án đã xác định các mục tiêu cụ thể cần giải quyết như sau:

- Xây dựng và công bố bộ dữ liệu nhằm khắc phục tình trạng thiếu bộ dữ liệu huấn luyện về tập PHCN tại bệnh viện và thực nghiệm đánh giá cơ bản cho một số nhiệm vụ liên quan

- Đề xuất phương pháp cải tiến các kỹ thuật liên quan đến phân tích hình ảnh của tay từ dữ liệu cảm biến đeo như: theo bám, phân đoạn, dự đoán tư thế tay làm tiền đề cho bài toán nhận biết hoạt động tay

- Dựa trên các kỹ thuật được cải tiến trên, đề xuất mô hình nhận biết hoạt động tay có hiệu năng cao đối với bệnh nhân tập PHCN tại bệnh viện

3 Đối tượng và phạm vi nghiên cứu

Đối tượng: Đối tượng luận án nghiên cứu là dữ liệu ảnh egocentric của

bệnh nhân tập PHCN và một số bộ CSDL egocentric đã công bố trong cộng đồng Ngoài ra, các kỹ thuật tiên tiến của học máy và thị giác máy tính áp dụng cho bài toán nhận biết hoạt động trên chuỗi hình ảnh cũng là các đối tượng nghiên cứu của luận án

Trang 17

Phạm vi: Luận án tập trung vào các kỹ thuật học sâu tiên tiến cho bài toán

nhận biết hoạt động của bệnh nhận tập PHCN trên ảnh egocentric:

- Dữ liệu hình ảnh thu thập từ cảm biến ảnh 2-D (ảnh RGB)

- Tập trung nhận biết các bài tập PHCN tay, nơi hình ảnh quan sát từ camera mang nhiều thông tin nhất

- Dữ liệu thu thập trong môi trường bệnh viện dưới sự hướng dẫn bài tập của các bác sỹ và kỹ thuật viên tại Khoa PHCN, Bệnh viện Đại học Y Hà Nội Trong đó, dữ liệu của cả tay yếu và tay khỏe được thu thập; Các đánh giá liên quan trực tiếp đến hoạt động của một tay xác định (tay trái, tay phải) cũng được thực hiện

- Việc đánh giá định lượng quá trình hồi phục nằm ngoài phạm vi nghiên cứu của đề tài luận án

4 Nội dung nghiên cứu

Để đạt được các mục tiêu đề ra, luận án tập trung nghiên cứu một số nội dung chính như sau:

- Khảo sát, phân tích, đánh giá các nghiên cứu liên quan đến bài toán nhận biết hoạt động trong FPV, các thách thức về kỹ thuật thị giác máy cần nghiên cứu tiếp theo về lĩnh vực này

- Khảo sát, phân tích, đánh giá các bộ dữ liệu FPV, đặc biệt là các bộ dữ liệu PHCN đã được công bố hiện nay Từ đó đề xuất thu thập, xây dựng và công bố bộ dữ liệu bài tập PHCN tại bệnh viện từ cảm biến đeo trên người

- Triển khai các mô hình mạng nơ-ron tiên tiến và đưa ra đánh giá cơ sở (baseline) cho các nhiệm vụ liên quan như: phát hiện, phân đoạn, theo bám trên bộ dữ liệu PHCN đã thu thập

- Nghiên cứu, đề xuất cải tiến các kỹ thuật để nâng cao hiệu năng cho bài toán xác định tay như: phát hiện, phân đoạn, định danh tay của bệnh nhân, theo bám và ước lượng tư thế tay

- Nghiên cứu và đề xuất mô hình mạng nơ-ron trong nhận biết hoạt động tay có tính đến tương tác tay - đồ vật trong các bài tập PHCN

5 Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận án là kết hợp nghiên cứu lý thuyết với nghiên cứu thực nghiệm

Trang 18

- Về lý thuyết: Nghiên cứu tổng quan các kỹ thuật thị giác máy tính góc

nhìn thứ nhất Trong luận án, phương pháp nghiên cứu bao gồm: khảo sát các

bộ dữ liệu ảnh từ cảm biến đeo nói chung và PHCN nói riêng Tìm hiểu các công trình nghiên cứu khoa học có liên quan trong và ngoài nước Nghiên cứu

về các các kỹ thuật thị giác máy cho các nhiệm vụ phát hiện, phân đoạn, theo bám, ước lượng tư thế và nhận biết hoạt động tay trong ảnh egocentric Nghiên cứu cơ sở lý thuyết của các bài toán nhận biết hoạt động của người nói chung và đặc biệt là nhận biết hoạt động của tay thông qua tay-tương tác

đồ vật

- Về thực nghiệm: Khảo sát các bộ dữ liệu về PHCN và xây dựng, công

bố bộ dữ liệu thu thập tại bệnh viện trong nước Cài đặt thử nghiệm các kỹ thuật đề xuất cho các nhiệm vụ phát hiện, phân đoạn, theo bám, ước lượng tư thế và nhận biết hoạt động tay trên bộ dữ liệu công bố Tiến hành so sánh, đánh giá các phương pháp đề xuất với các công trình đã công bố sử dụng các

độ đo đánh giá độ chính xác chuẩn phổ biến hiện nay

6 Ý nghĩa khoa học và thực tiễn

Việc nghiên cứu, phát triển các kỹ thuật thị giác máy tính tiên tiến cho bài toán nhận biết hoạt động của tay, đặc biệt trong lĩnh vực y học cụ thể là PHCN của luận án có ý nghĩa trên cả hai phương diện khoa học và thực tiễn:

Về khía cạnh khoa học: Luận án đề xuất 03 đóng góp mới để giải quyết

bài toán nhận biết hoạt động của tay trong FPV bao gồm:

- Đề xuất kỹ thuật cải tiến cho các nhiệm vụ xác định tay Các kỹ thuật

được cải tiến bao gồm phân đoạn, theo bám, ước lượng tư thế Về mặt ngữ nghĩa, các kỹ thuật này là tiền đề cho nhiệm vụ tiếp theo như nhận biết tư thế cầm nắm, nhận biết tương tác, nhận biết hành động và hoạt động của tay

- Đề xuất kỹ thuật nhận biết hoạt động của tay bệnh nhân trong các bài

tập PHCN Kỹ thuật này cải tiến hiệu năng nhận biết hoạt động tay trong các

bài tập nhờ sự kết hợp muộn của mạng học sâu nhận biết hoạt động và kết quả phát hiện lớp đối tượng tương tác chính với tay bệnh nhân

- Xây dựng và công bố bộ dữ liệu bài tập PHCN tại bệnh viện từ các cảm

biến đeo trên người bệnh nhân Bộ dữ liệu này bổ sung cho sự thiếu hụt các

Trang 19

bộ dữ liệu huấn luyện và có sự khác biệt đáng kể so với các bộ dữ liệu đã công bố trong lĩnh vực liên quan Bên cạnh đó, luận án cũng đã thực nghiệm đánh giá các mô hình thị giác máy tiên tiến cho các nhiệm vụ xác định tay làm cơ sở cho các so sánh trong các nghiên cứu tiếp theo

Luận án đã sử dụng phương pháp đánh giá dựa trên các độ đo được áp dụng phổ biến Bên cạnh đó, luận án cũng đã tiến hành so sánh hiệu quả của

mô hình đề xuất với các mô hình mới được công bố gần đây Kết quả so sánh cho thấy mô hình đề xuất vượt trội về tính chính xác trên bộ dữ liệu thử nghiệm

Về khía cạnh thực tiễn: Các kết quả nghiên cứu trong luận án được mô

hình hóa và biểu diễn trên cơ sở toán học và được cài đặt thử nghiệm bằng các module phần mềm Các module này có thể được sử dụng để xây dựng các ứng dụng tự động nhận biết và sau đó là phân tích, đánh giá chất lượng tập và khả năng phục hồi của bệnh nhân qua các bài tập Điều này giúp các cơ sở y tế khắc phục một phần khó khăn thiếu thốn nhân lực, tiết kiệm thời gian và công sức của các bác sỹ trong theo dõi, điều trị bệnh nhân

Chương 2 Xây dựng bộ dữ liệu bài tập PHCN và các đánh giá liên quan đến tay

Nội dung chương này trình bày đóng góp về mặt xây dựng một bộ dữ liệu mới về PHCN Đây là bộ dữ liệu thu thập từ các cảm biến đeo trên người

Trang 20

bệnh nhân tại Khoa PHCN, Bệnh viện Đại học Y Hà Nội Sau đó, bộ dữ liệu được xử lý, gán nhãn và công bố Bên cạnh đó, luận án cũng đã thực nghiệm các mô hình học sâu tiên tiến đối với các nhiệm vụ liên quan đến hoạt động của tay như phát hiện và phân đoạn (Mask R-CNN), theo bám (DeepSorrt) trên bộ dữ liệu đã thu thập và đưa ra các kết quả đánh giá ở mức cơ bản để làm cơ sở so sánh trong các nghiên cứu tiếp theo

Chương 3 Đề xuất kỹ thuật cải tiến cho nhiệm vụ xác định tay

Xuất phát từ bộ dữ liệu và các đánh giá cơ sở trình bày trong Chương 2,

ở chương này NCS đề xuất một số kỹ thuật cải tiến xác định tay trong các bài tập PHCN, cụ thể là: Phân đoạn bàn tay (Đề xuất kỹ thuật phân tách tay trái, tay phải; với mỗi tay phân tách các vùng riêng biệt như: bàn tay, cẳng tay); Theo bám tay và xác định tay bệnh nhân (Đề xuất kỹ thuật MergeTrack để cải thiện kết quả của thuật toán tracking cơ bản là DeepSORT Dựa trên kết quả tracking, đề xuất kỹ thuật loại bỏ tay nhiễu bằng cách kết hợp kết quả theo bám tay và phân đoạn tay); Ước lượng tư thế tay (Dựa trên kết quả phát hiện tay, đã kết hợp kiến trúc mạng HOPE-Net và Mask R-CNN để tăng độ chính xác trong bài toán ước lượng tư thế tay 2D) Các kỹ thuật này là tiền đề cho các nhiệm vụ ở mức ngữ nghĩa cao hơn như nhận biết tư thế cầm nắm, nhận biết tương tác, nhận biết hành động và hoạt động của người mang cảm biến

Chương 4 Đề xuất kỹ thuật nhận biết hoạt động tay trong các bài tập PHCN

Chương 4 của luận án đề xuất một mô hình nhận biết hoạt động của tay bệnh nhân trong các bài tập PHCN Mô hình này là sự kết hợp muộn của kết quả mạng nhận biết hoạt động thông thường và thuật toán phát hiện đối tượng tương tác chính (key object) trong các bài tập, từ đó cho ra kết quả nhận biết bài tập của bệnh nhân với độ chính xác cao Thuật toán phát hiện đối tượng tương tác chính sẽ sử dụng các kết quả đã được phát triển ở Chương 3 như phát hiện, phân đoạn, theo bám tay

Trang 21

Chương 1 TỔNG QUAN BÀI TOÁN NHẬN BIẾT HOẠT ĐỘNG CỦA TAY TỪ

CẢM BIẾN ẢNH ĐEO TRÊN NGƯỜI

Nhận biết hoạt động nói chung và nhận biết hoạt động của tay người nói riêng là một lĩnh vực rất được quan tâm nghiên cứu bởi tính ứng dụng rất đa dạng trong thực tiễn Một trong những ứng dụng đó là chăm sóc sức khỏe con người, ở đó, các ứng dụng dựa trên trí tuệ nhân tạo đã hỗ trợ nhân viên y tế chăm sóc sức khỏe cho người già, người tàn tật, mất trí nhớ, phục hồi chức năng Trong chương này, luận án giới thiệu về bài toán thị giác máy tính nhận biết hoạt động của tay từ hình ảnh thu được bởi camera gắn trên người, ứng dụng trong hỗ trợ nhận biết đánh giá quá trình tập phục hồi chức năng tại các

cơ sở y tế Luận án cũng trình bày các kỹ thuật và các nghiên cứu liên quan, phân tích những vấn đề còn tồn tại cần phải tập trung giải quyết

1.1 Giới thiệu bài toán nhận biết hoạt động của tay từ cảm biến ảnh đeo 1.1.1 Nhận biết hoạt động của tay sử dụng cảm biến ảnh đeo

a Giới thiệu bài toán

Nhận biết hoạt động của tay là lĩnh vực nghiên cứu thu hút được rất nhiều quan tâm của cộng đồng Điều này rất dễ hiểu bởi vì tay là công cụ hết sức quan trọng trong các hoạt động hàng ngày của con người Có thể kể đến

là các ứng dụng cử chỉ tay để điều khiển từ xa các hệ thống thông minh, các ứng dụng như thực tại ảo (VR) và thực tại tăng cường (AR) phục vụ giáo dục,

du lịch Trong lĩnh vực y tế, nhận biết hoạt động của tay có thể ứng dụng vào việc chăm sóc sức khỏe, ví dụ như đánh giá tự động mức độ tập phục hồi chức năng của bệnh nhân hay phát triển hệ thống hỗ trợ sinh hoạt cho người già, người bị bệnh mất trí nhớ, khiếm thị

Với tầm quan trọng như trên, các nhà nghiên cứu thị giác máy tính đã cố gắng phân tích hình ảnh tay từ nhiều khía cạnh: xác định vị trí của chúng trong khung hình, nhận biết các hành động tay tham gia, cũng như xác định loại tương tác giữa tay và đồ vật Có rất nhiều cách tiếp cận để giải bài toán này, dưới góc độ của lĩnh vực thị giác máy tính, các kỹ thuật đó bao gồm: phân tích hình trạng của tay và phân tích hình trạng của tay kết hợp với ngữ cảnh (không gian và thời gian) xung quanh Các kỹ thuật này sẽ được NCS trình bày chi tiết hơn trong phần 1.2 của luận án

Để cung cấp thông tin đầu vào phục vụ cho bài toán nhận biết hoạt động, người ta thường sử dụng các loại cảm biến để thu thập dữ liệu Có nhiều loại cảm biến khác nhau và chúng có thể được sử dụng độc lập hoặc kết hợp Các

Trang 22

loại cảm biến có thể phân loại theo loại dữ liệu thu thập được hay theo cách thức gắn thiết bị cảm biến Nội dung này sẽ được NCS trình bày trong phần

tiếp theo

b Các loại cảm biến sử dụng trong bài toán

Cảm biến ảnh là những camera được sử dụng trong lĩnh vực thị giác máy tính nói chung và bài toán nhận biết hoạt động nói riêng Chúng ta có thể phân chia các camera thành hai loại: giám sát (surveillance) và chịu giám sát (sousveillance) Hình 1.1 thể hiện sự khác biệt giữa hai loại camera này

Hình 1.1 Sự khác biệt giữa camera cố định và camera gắn trên người Surveillance thường bao gồm những camera được gắn cố định vào các công trình, đồ vật như là các tòa nhà (ví dụ như gắn vào tường hoặc trần nhà bên trong hoặc bên ngoài), hoặc trên đất (ví dụ gắn vào cột đèn, cột điện và những thứ tương tự) Sousveillance thường gồm những camera cung cấp góc nhìn độc đáo về thế giới lấy con người là trung tâm (Egocentric Vision) trong

đó cảm biến ảnh được gắn trên người dùng hay còn được gọi là hệ thống thị giác đeo trên cơ thể, camera đeo trên người, camera mang

Camera đeo trên người khác với camera truyền thống ở chỗ lấy con người làm trung tâm cho nên chúng được thiết kế tự nhiên để thu thập thông tin hình ảnh từ các tương tác hàng ngày của chúng ta và thậm chí có thể hoạt động dựa trên thông tin đó trong thời gian thực Đặc điểm lấy con người làm trung tâm của FPV có thể có tác động lớn đến cách chúng ta tiếp cận các nhiệm vụ thị giác máy tính egocentric như phát hiện hình ảnh, nhận dạng, dự đoán và phân tích hoạt động cũng như hành vi xã hội FPV còn đảm bảo quyền riêng tư do camera gắn trên người nên nhìn vào ảnh không thể biết ai là

Trang 23

chủ thể Các hoạt động của chủ thể, đối tượng thao tác chính và vùng tay

thường chiếm trọng tâm của ảnh

Hình 1.2 Các giai đoạn phát triển của thiết bị camera mang trên người

Hình 1.3 Một số loại camera đeo trên người hiện nay Ngoài camera đeo trên người, một số cảm biến khác có thể được sử dụng

để thu thập dữ liệu cho bài toán nhận biết hoạt động của tay như: cảm biến gia tốc, cảm biến con quay hồi chuyển Cả hai cảm biến đều đo tốc độ thay đổi; chúng chỉ đo lường tốc độ thay đổi cho những đại lượng khác nhau Ưu điểm của các loại cảm biến này là nhỏ gọn, có thể tích hợp thuận tiện vào các thiết

bị thông minh khác (như đồng hồ, giày thông minh, điện thoại thông minh) Tuy nhiên so với cảm biến hình ảnh, thông tin từ các cảm biến này thường là

dữ liệu một chiều, không có tính trực quan nên khả năng phân tách các hoạt động tương tự nhau gặp khó khăn

c Nhận biết hoạt động của tay sử dụng cảm biến ảnh đeo

Theo hướng tiếp cận thị giác máy tính truyền thống, các camera cố định thu nhận hình ảnh trong một (hoặc một số) vị trí nhất định Việc thu thập các hoạt động xảy ra một cách tự nhiên, từ đó trích chọn các thông tin về di chuyển của cơ thể người (đi lại, chạy, nhảy), hoặc các hoạt động như (ăn/uống, hút thuốc lá, bắt tay …) Nhận biết hoạt động của tay có một số yêu cầu khác biệt, khi đó các camera được gắn trên các bộ phận cơ thể người như

Trang 24

trên đầu, ngực và vai sẽ có nhiều lợi thế Các hoạt động gắn với tay người đòi hỏi mức độ chi tiết về thông tin nhiều hơn so với toàn bộ người, chẳng hạn như tư thế tay, tư thế các khớp và ngón tay, tương tác tay với đồ vật Đối với camera cố định, tay thường chiếm không gian nhỏ trong toàn khung hình, tay cũng hay bị đồ vật, cơ thể che khuất Đặc biệt khi người di chuyển qua các vị trí khác nhau thì camera cố định rất khó để theo dõi Với lợi thế bám theo các hoạt động của người, các camera đeo này cung cấp hình ảnh của tay và các đối tượng tay tương tác một cách trực tiếp Ngoài ra, môi trường hoạt động xung quanh không bị gắn cố định vào một không gian cụ thể như đối với các camera truyền thống Theo cách tự nhiên, camera mang cũng chính là hướng nhìn của người hướng về vị trí tay đang thao tác các hành động Những lợi thế trên cùng với sự phát triển công nghệ giúp rút gọn kích thước của camera đeo cũng như các loại cảm biến dữ liệu theo thời gian khác làm cho hướng tiếp cận nhận biết hoạt động tay trên ảnh egocentric đã và đang nhận được sự quan tâm của nhiều nhà nghiên cứu trên thế giới

1.1.2 Vai trò của phân tích hình ảnh tay trong đánh giá quá trình tập PHCN

Như đã trình bày, cảm biến ảnh mang đã có nhiều hướng ứng trong thực

tế Hầu hết các ứng dụng này thuộc về lĩnh vực tương tác người-máy (Human Computer Interaction – HCI) hoặc và người-robot (Human-Robot Interaction

- HRI) Ngoài các ứng dụng phổ biến trên, một trong những ứng dụng của cảm biến đeo là hỗ trợ bác sỹ theo dõi, đánh giá quá trình tập điều trị PHCN

Y học hiện đại hướng tới không chỉ điều trị bệnh cứu người và còn mong muốn đưa bệnh nhân trở về hòa nhập cuộc sống bình thường với các chức năng vận động cơ bản Vì vậy, quá trình tập PHCN là rất quan trọng đối với bệnh nhân sau khi bị chấn thương, đột quỵ Qua khảo sát của NCS tại Khoa PHCN bệnh viện Đại học Y Hà Nội cho thấy, tùy theo tình trạng bệnh lý của bệnh nhân, các bác sĩ sẽ đưa ra phác đồ điều trị phù hợp Phác đồ điều trị ở đây là bài tập vận động cho các bộ phận cơ thể cần hồi phục chức năng như tay, chân, cổ, vai, gáy… Các bác sĩ sẽ cho bệnh nhân tập luyện các bài tập đồng thời theo dõi, ghi chép lại các thông số như: số lần bệnh nhân tập một bài tập, tần suất tập, tốc độ vận động, khả năng vận động của các khớp liên

Trang 25

quan Với số lượng bệnh nhân lớn và lực lượng y bác sĩ, kỹ thuật viên không

đủ để đáp ứng nhu cầu khám chưa bệnh nên thường dẫn đến tình trạng quá tải bệnh viện Do vậy, việc ứng dụng trí tuệ nhân tạo trong hỗ trợ điều trị bệnh nhân PHCN là hết sức cần thiết

Trong lĩnh vực thị giác máy tính từ góc nhìn egocentric, bệnh nhân có thể được gắn các camera trên đầu, ngực, vai … để hệ thống ứng dụng tự động thu nhận hình ảnh và phân tích đánh giá quá trình tập luyện Y bác sĩ không phải dành toàn bộ thời gian bám sát bệnh nhân và chỉ cần dựa trên các báo cáo của hệ thống để điều chỉnh phác đồ điều trị phù hợp Từ góc độ chuyên môn, các báo cáo này không yêu cầu thực hiện ngay lập tức, chỉ cần đưa ra kết quả sau quá trình luyện tập (vào cuối buổi, cuối ngày hoặc định kỳ theo yêu cầu) Một khi bài toán phân tích và nhận biết được hoạt động của tay người tập được thực hiện một cách tự động, việc báo cáo các số liệu thống kê như số bài tập, số lượng tương tác mỗi giờ, thời lượng tương tác và tỷ lệ tương tác theo thời gian Các biện pháp này, sau khi được xác nhận dựa trên điểm số lâm sàng, sẽ giúp các bác sĩ hiểu rõ hơn về tình trạng bệnh lý của bệnh nhân và từ đó có phác đồ điều trị hợp lý

Trong ứng dụng cụ thể này, việc sử dụng chuỗi hình ảnh từ góc nhìn thứ nhất (First-Person Video – FPV) mang lại những lợi thế quan trọng so với các loại dữ liệu khác dựa trên cảm biến gia tốc, con quay hồi chuyển và TPV

• FPV ghi lại chính xác cách người bệnh thao tác trên các đối tượng Điều này rất quan trọng khi mục đích là nhận dạng các thao tác đối tượng bằng tay, vì sự che khuất ở tay có xu hướng được giảm thiểu

• FPV cung cấp nhiều thông tin tương tác giữa tay và vật thể so với công nghệ dựa trên cảm biến, bằng cách thu thập thông tin về cả tay và vật thể được thao tác

• Camera đeo trên ngực, đầu, vai rất nhỏ và nhẹ, không ảnh hưởng đến thao tác tập luyện của bệnh nhân, trong khi các giải pháp dựa trên cảm biến khác như găng tay cảm biến, mặc dù cung cấp thông tin tay có độ chính xác cao, nhưng có thể hạn chế cử động và cảm giác, vốn đã bị giảm ở những người bị khuyết tật tay

Để triển khai được ứng dụng như trên, một loạt các nhiệm vụ đặt ra đối với bài toán phân tích tay từ chuỗi hình ảnh FPV như sau:

Trang 26

- Các nhiệm vụ liên quan đến xác định vị trí của tay trong khung hình

- Các nhiệm vụ liên quan đến phân đoạn/phân vùng các bộ phận của tay (cánh tay, bàn tay)

- Dự đoán tư thế tay tương tác với đồ vật

- Nhận biết đồ vật tay tương tác …

Chi tiết về các hướng nghiên cứu này sẽ được trình bày trong các nội dung 1.2.1 với bài toán ảnh đeo nói chung, và 1.2.2 nói riêng cho ứng dụng PHCN

1.1.3 Nhận xét

Trong phần này, NCS đã giới thiệu một cách tổng quan bài toán nhận biết hoạt động của tay từ cảm biến ảnh đeo trên người Có thể thấy bài toán nhận biết hoạt động tay từ cảm biến ảnh đeo trên người (hoặc thị giác máy tính góc nhìn thứ nhất) có những điểm khác biệt và đặc trưng riêng so với thị giác máy tính từ góc nhìn thứ ba truyền thống Với sự phát triển nhanh và đa dạng các loại cảm biến ảnh mang và nhu cầu thực tế, tiềm năng nghiên cứu phát triển và ứng dụng bài toán này trong các lĩnh vực khác nhau là rất lớn Một trong số đó là ứng dụng công nghệ thị giác máy tính góc nhìn thứ nhất để nhận biết đánh giá tập PHCN tay tại các bệnh viện Đây là một chủ đề đáng quan tâm nhưng ngoài các kỹ thuật chung cũng cần nghiên cứu các kỹ thuật đặc thù, phù hợp để để giải quyết bài toán này

1.2 Kỹ thuật thị giác máy tính nhận biết hoạt động tay

1.2.1 Giới thiệu các kỹ thuật thị giác máy tính nhận biết hoạt động tay

Với đặc điểm là tay người thường xuất hiện ở trung tâm khung hình theo hướng nhìn của người mang camera, do vậy phân tích hình trạng của tay là các kỹ thuật quan trọng trong bài toán nhận biết hoạt động Theo kết quả nghiên cứu khảo sát của Bandini và cộng sự [4], phân tích hình trạng của tay được chia thành hai nhóm nhiệm vụ nhỏ hơn: xác định tay (Localization) và hiểu hành động của tay (Interpretation) Các nhiệm vụ này tự nó có thể là đầu vào cho bài toán nhận biết hoạt động hoặc có thể kết hợp với các thông tin mang lại từ các kỹ thuật khác như nhận biết đồ vật, ngữ cảnh và trạng thái

Trang 27

Xác định tay nhằm mục đích trả lời câu hỏi: tay (hoặc các bộ phận của

chúng) ở đâu? Đây là bước xử lý đầu tiên và quan trọng nhất của nhiều phương pháp dựa trên phân tích hình trạng tay trong FPV Một thuật toán xác định tay tốt cho phép ước tính vị trí chính xác của các tay trong hình ảnh, giúp tăng hiệu suất của các suy luận cấp cao hơn, chính là nhiệm vụ “Hiểu hành động của tay” Vì lý do này, xác định tay là trọng tâm chính của các nhà nghiên cứu trong FPV Các bài toán xác định tay được minh họa trong hình 1.4 dưới đây

Hình 1.4 Các bài toán xác định tay

Phân đoạn tay: Phân đoạn tay là quá trình xác định các vùng tay ở mức

pixel (Hình 1.5) Bước này cho phép trích xuất ảnh mặt nạ của tay và hay được sử dụng như một bước tiền xử lý để ước tính tư thế tay, nhận dạng cử chỉ tay, nhận dạng hành động/tương tác và nhận biết hoạt động

Hình 1.5 Minh họa kết quả bài toán phân đoạn tay

Trang 28

Phát hiện và theo bám tay: Nhiệm vụ phát hiện tay thường được thực

hiện bằng cách xác định một hộp giới hạn (bounding box) bao quanh khu vực phát hiện tay (Hình 1.6) Tính năng phát hiện tay cho phép trích xuất thông tin thô hơn so với phân đoạn tay Nếu ứng dụng không yêu cầu thông tin quá chi tiết, đây là lựa chọn phổ biến nhất làm cơ sở cho suy luận cao hơn dựa trên phân tích tay

Hình 1.6 Phát hiện tay trong khung hình Ngoài ra, phát hiện tay được tổng quát hóa theo thời gian được gọi là theo bám tay (Hình 1.7) Theo bám tay nhằm ước tính vị trí của tay trên nhiều khung hình, tái tạo lại quỹ đạo của chúng

Hình 1.7 Theo bám tay trong chuỗi khung hình

Trang 29

Ước tính tư thế tay và phát hiện đầu ngón tay: Ước tính tư thế tay là

công việc xác định vị trí của các bộ phận tay (ví dụ, khớp tay) để tái tạo lại tư thế tay từ các hình ảnh (Hình 1.8) Khi có được vị trí của ngón tay, lòng tay

và cổ tay, các nhiệm vụ suy luận cao hơn như phân tích cầm nắm và nhận dạng cử chỉ tay sẽ được đơn giản hóa, vì chiều của vấn đề được giảm bớt nhưng vẫn giữ thông tin chi tiết cao

Hình 1.8 Ước tính tư thế tay

Hiểu hành động của tay bao gồm các bài toán nhỏ như: Phân tích cầm

nắm, nhận dạng cử chỉ tay, nhận dạng hành động/tương tác/hoạt động (Hình 1.9)

Hình 1.9 Bài toán hiểu hoạt động của tay

Trang 30

Phân tích cầm nắm và nhận dạng cử chỉ: Cầm nắm là mọi tư thế tay tĩnh

có thể được cầm chắc chắn đồ vật bằng một tay, bất kể hướng của tay Việc nhận biết các kiểu cầm nắm cho phép xác định các cách khác nhau con người

sử dụng tay để tương tác với các đồ vật Tương tự như phân tích cầm nắm, nhận dạng cử chỉ tay nhằm mục đích nhận dạng ngữ nghĩa của tư thế tay và

nó thường được thực hiện như đầu vào cho hệ thống HCI/HRI Tuy nhiên, có hai điểm khác biệt chính giữa hai chủ đề này: 1) Phân tích cầm nắm xem xét

tư thế tay trong khi thao tác với đối tượng bằng tay, trong khi nhận dạng cử chỉ tay thường được thực hiện trên tay khi không có bất kỳ thao tác nào; 2) phân tích cầm nắm nhằm mục đích chỉ nhận dạng các tư thế tay tĩnh, trong khi nhận dạng cử chỉ tay cũng có thể được khái quát thành cử chỉ động Cử chỉ tay có thể là tĩnh hoặc động: nhận dạng cử chỉ tay tĩnh nhằm mục đích nhận biết các cử chỉ không phụ thuộc vào chuyển động của tay, do đó chỉ dựa vào thông tin về ngoại hình và tư thế tay; nhận dạng cử chỉ tay động được thực hiện bằng cách sử dụng thông tin thời gian (ví dụ: theo bám tay), để nắm bắt các tín hiệu chuyển động cho phép tạo ra các cử chỉ cụ thể

Dự đoán hành động/tương tác và hoạt động: Một hành động được thể

hiện như một động từ (ví dụ: “đổ”), trong khi một tương tác như một cặp động từ - danh từ (ví dụ: “đổ nước”) Cả hai định nghĩa đều đề cập đến các sự kiện ngắn hạn thường kéo dài vài giây Ngược lại, các hoạt động là những sự kiện thời gian dài hơn (tức là vài phút hoặc vài giờ) với ngữ nghĩa cao hơn, thường bao gồm các hành động và tương tác nhất quán về mặt thời gian

Nhận biết hoạt động qua phân tích ngữ cảnh, bao gồm;

 Nhận biết hoạt động thông qua phát hiện đồ vật trong chuỗi hình ảnh FPV: Thông qua việc nhận dạng các đồ vật trong chuỗi hình ảnh, có thể nhận biết được hoạt động tương ứng của người mang cảm biến

 Nhận biết hoạt động thông qua phân tích ngữ cảnh: việc nhận biết hoạt động dựa trên việc phân loại khung cảnh và sử dụng các yếu tố kết hợp như thời gian, ngày trong tuần

 Nhận biết hoạt động dựa trên phân tích trạng thái: trong giai đoạn huấn luyện, mỗi trạng thái hoạt động theo trật tự thời gian được gán nhãn với thời

Trang 31

điểm bắt đầu - kết thúc, tương ứng với một loạt các hoạt động liên quan tới đối tượng quan tâm Trong giai đoạn phát hiện, chỉ phần đối tượng được tách

ra và đánh giá so sánh trước và sau mỗi hoạt động Các vùng đối tượng có tương tác của tay sẽ được phân loại dựa trên các đặc trưng như màu sắc, cấu trúc ảnh

1.2.2 Ảnh hưởng của các kỹ thuật tới nhận biết hoạt động tay trong PHCN

Các kỹ thuật thị giác máy trong nhận biết hoạt động tay từ ảnh egocentric giới thiệu ở phần trên khi áp dụng cho các lĩnh vực cụ thể khác nhau tùy theo mục đích cần có sự lựa chọn phù hợp Tại các cơ sở y tế, bệnh nhân PHCN là những người có tiền sử tai biến, đột quỵ, chấn thương phải phẫu thuật… được bác sĩ hướng dẫn tập các bài tập phục hồi Nhân viên y tế giám sát và ghi chép lại và sau đó lượng giá quá trình tập của bệnh nhân với các thông số như: loại bài tập, thời lượng, tần suất tập, độ mở ngón tay, khớp tay, kiểu cách cầm nắm đồ vật, quỹ đạo vận động của tay… Việc đánh giá thủ công hiện đang sử dụng các công cụ như thước đo góc và các bảng tính theo các thang điểm khác nhau rất mất thời gian, thiếu chính xác Với mục đích tự động nhận biết, đánh giá khả năng tập PHCN của bệnh nhân một cách tự động

hỗ trợ điều trị, qua khảo sát tại các bệnh viện, NCS nhận thấy cần tập trung vào một số kỹ thuật sau đây:

Phát hiện và theo bám tay và đồ vật tương tác: Đây là kỹ thuật cơ bản

giúp xác định tay của bệnh nhân, bao gồm: tay phải, tay trái, phân biệt tay yếu (cần tập PHCN), tay bình thường, quỹ đạo, tốc độ chuyển động; xác định đồ vật tương tác (các dụng cụ PHCN theo các bài tập chuyên ngành) Việc xác định tay và đồ vật cung cấp thông tin cho bài toán nhận biết hoạt động cũng như quá trình đánh giá chức năng tay (khả năng vận động, tốc độ vận động, so sánh với tay bình thường…)

Phân đoạn vùng bàn tay: Xác định vùng bàn tay bệnh nhân ở mức pixel

là bước tiền xử lý cung cấp thông tin chi tiết cho bài toán xác định tư thế tay, các khớp, ngón tay và từ đó có thể đánh giá mức độ hoạt động, phục hồi của các bệnh nhân có khiếm khuyết về chức năng vận động tay

Ước lượng tư thế tay: Xác đinh hình dáng và vị trí các khớp chính của

bàn tay đóng vai trò không chỉ quan trọng trong việc nhận biết hoạt động mà đối với lĩnh vực PHCN còn được sử dụng để đánh giá mức độ phục hồi tay

Trang 32

như bàn luận phía trên

Phát hiện đồ vật: Các bài tập PHCN, đặc biệt là trong môi trường y khoa

tại bệnh viện, hoàn toàn có thể thông qua hình ảnh đồ vật tương tác (vốn được hạn chế và quy chuẩn) kết hợp với kết quả theo bám chuyển động của tay bệnh nhân để nhận biết các bài tập

1.2.3 Nhận xét

Trong phần này luận án đã giới thiệu tổng quan về các kỹ thuật thị giác máy tính áp dụng cho bài toán nhận biết hoạt động của tay từ cảm biến ảnh đeo trên người Qua đó có thể xác định được các nhiệm vụ quan trọng liên quan cụ thể đến bài toán nhận biết, đánh giá khả năng PHCN của bệnh nhân Những kiến thức này sẽ là cơ sở để NCS lựa chọn các bài toán và đề xuất các

kỹ thuật cải tiến cho nhận biết hoạt động tay từ cảm biến ảnh đeo

1.3 Tình hình nghiên cứu liên quan

1.3.1 Tình hình nghiên cứu chung về egocentric

a Các nghiên cứu ngoài nước

Theo khảo sát nghiên cứu của Bandini và cộng sự [4], nhận biết hoạt động tay từ ảnh egocentric là một chủ đề rất được quan tâm kể từ những năm

2010 Sự phổ biến của các camera mang trên người và tính ứng dụng rộng rãi của egocentric trong nhiều lĩnh vực khác nhau đã thu hút được rất nhiều nghiên cứu về chủ đề này Với các kỹ thuật đã trình bày trong phần trước (phần 1.2) đã có nhiều hướng tiếp cận giải quyết khác nhau, nhưng có thể chia thành hai nhóm Thứ nhất, sử dụng các kỹ thuật học máy cơ bản dựa trên các đặc trưng màu sắc, hình dạng, không gian và thời gian để phân lớp đối tượng

và hoạt động Thứ hai, áp dụng các kỹ thuật học sâu dựa trên dữ liệu để dự đoán lớp đối tượng và hành động

Với hướng tiếp cận dựa trên học máy, các nghiên cứu thường quan

tâm đến các đặc trưng ảnh egocentric Để phân đoạn tay, Li và Kitani [37] đã thử nghiệm các kết hợp khác nhau của màu sắc (không gian màu HSV, RGB

và LAB) và các đặc điểm xuất hiện cục bộ (bộ lọc Gabor, HOG, SIFT, BRIEF) để nắm bắt các đường viền và độ dốc cục bộ của các vùng tay Mỗi pixel được phân loại là da hoặc không là da bằng cách sử dụng hồi quy rừng ngẫu nhiên Tương tự, Betancourt và cộng sự [8] đã đào tạo mô hình rừng

Trang 33

ngẫu nhiên nhị phân để phân loại mỗi pixel là da hoặc không da bằng cách sử dụng các giá trị LAB Zariffa và Popovic [87] đã sử dụng hỗn hợp mô hình da Gaussian với các toán tử hình thái giãn nở và xói mòn để phát hiện một ước tính thô của các vùng tay Vùng ban đầu được tinh chỉnh bằng cách loại bỏ các đốm màu nhỏ cô lập có kết cấu khác với da, bằng cách tính toán Laplacian của hình ảnh trong mỗi đốm màu Cuối cùng, phân đoạn mức pixel đạt được bằng cách sử dụng một vùng được chọn thích ứng trong không gian màu Một số tác giả khác [65], [66], [73] đã phân loại các vùng hình ảnh (siêu pixel) thay vì các pixel đơn lẻ, để tạo ra các mặt nạ phân đoạn tốt hơn so với ở mức pixel

Đối với nhiệm vụ phát hiện tay, Betancourt và cộng sự [7] đã đề xuất một cách tiếp cận dựa trên các tính năng HOG và bộ phân loại SVM để dự đoán sự hiện diện của các tay ở cấp khung hình Zhao và cộng sự [90], [91] đã phát hiện sự hiện diện của tay trong mỗi khung hình nhờ khai thác chu kỳ tương tác điển hình của tay (tức là giai đoạn chuẩn bị - tương tác - đưa tay ra khỏi khung hình) Phát hiện tay như phát hiện đối tượng, các tác giả trong [14] đã đưa ra các đề xuất về vùng bằng cách phân đoạn các vùng da và xác định xem tập hợp các đốm màu được phân đoạn có tương ứng với một hoặc hai cánh tay hay không Mueller và cộng sự [50] đã đề xuất một cách tiếp cận dựa trên độ sâu để phát hiện tay Với nhiệm vụ theo bám tay, Liu và cộng sự [46] cũng đã đề xuất một trình theo bám dựa trên sự chú ý (AHT)

Với nhiệm vụ ước lượng tư thế tay, trong [61], các tác giả đã giải quyết ước lượng khớp tay như một bài toán phân loại đa lớp bằng cách sử dụng kiến trúc tầng phân cấp Bộ phân loại được đào tạo về bản đồ độ sâu tổng hợp bằng cách sử dụng các đặc trưng HOG và thử nghiệm trên bản đồ độ sâu thu được bằng cảm biến ToF Thay vì ước tính tọa độ khớp một cách độc lập, họ dự đoán tổng thể tư thế tay, để làm cho hệ thống này trở nên tốt với khả năng bị che khuất Tương tự, trong [62], các tác giả đã dự đoán tư thế cánh tay và tay đồng thời, bằng cách sử dụng SVM tuyến tính đa lớp để nhận biết tư thế từ dữ liệu độ sâu Tuy nhiên, thay vì phân loại các cửa sổ quét trên bản đồ độ sâu,

họ phân loại toàn bộ không gian được định nghĩa là thể tích 3D được nhìn thấy từ FPV Yamazaki và cộng sự [86] ước tính tư thế tay từ các đám mây điểm được chụp bằng cảm biến Kinect v2 Ước lượng tư thế tay từ ảnh màu 2D, Liang và cộng sự [42] đã sử dụng rừng hồi quy có điều kiện (CRF) để ước tính tư thế tay từ ảnh mặt nạ nhị phân tay Zhu và cộng sự [93] đã xây

Trang 34

dựng một cấu trúc để phân vùng tay thành bốn vùng phụ: ngón cái, ngón tay, lòng bàn tay và cẳng tay

Các phương pháp tiếp cận có giám sát để nhận dạng cầm nắm được Feix

và cộng sự [21] đề xuất Cai và cộng sự [12] đã sử dụng các tính năng HOG để thể hiện hình dạng của tay và sự kết hợp giữa HOG và SIFT để nắm bắt bối cảnh đối tượng trong quá trình thao tác Việc sử dụng cảm biến độ sâu đã được khám phá bởi Rogez và cộng sự [63] Các tác giả đã nhận ra 71 kiểu cầm nắm bằng cách sử dụng dữ liệu RGB-D bằng cách đào tạo một SVM nhiều lớp với các đặc trưng độ sâu được trích xuất từ cả dữ liệu thực và dữ liệu tổng hợp Phân cụm cầm nắm được các tác giả đề xuất trong các nghiên cứu [27], [40], nhận dạng cử chỉ tay tĩnh [6], [32] và nhận dạng cử chỉ tay động [5], [33]

Nhận biết tương tác, hành động được Ishihara và cộng sự [31] sử dụng các đặc trưng chuyển động cục bộ liên tục để theo dõi các điểm chính trích xuất từ HOG và HOF Cai và cộng sự [11] kết hợp các đặc trưng hình dạng tay, vị trí của tay và chuyển động của tay để nhận dạng các hành động trên màn hình của người dùng (ví dụ: duyệt, ghi chú, đọc, nhập và viết) Singh và cộng sự [66] đã đề xuất một cách tiếp cận dựa trên CNN để nhận ra hành động của người đeo máy ảnh bằng cách sử dụng các đầu vào sau: mặt nạ phân đoạn tay cấp pixel; chuyển động đầu; và bản đồ luồng thu được sau khi

áp dụng phép đồng nhất Urabe và cộng sự [73] sử dụng khu vực xung quanh tay để nhận biết các thao tác nấu nướng

Để phát hiện và nhận dạng đồ vật trong chuỗi hình ảnh FPV, Ren và cộng sự [60] là những nhà nghiên cứu đầu tiên đặc tính hóa hoạt động/thao tác của người thông qua nhận dạng đồ vật trước mặt Trong phương pháp đề xuất, các tác giả đã sử dụng đặc trưng truyền thống là SIFT và bộ phân lớp SVM để phát hiện đồ vật Kết quả đạt được độ chính xác là 24% Mặc dù kết quả nhận dạng được là thấp, nhưng nghiên cứu cũng chỉ ra rằng, nếu tách biệt được phần cử chỉ tay trong chuỗi hình ảnh FPV, hoặc biết trước được các thông tin về hướng dịch chuyển và vị trí của tay cũng sẽ cải thiện đáng kể kết quả nhận dạng

Một cách tiếp cận khác được sử dụng để nhận dạng đồ vật từ chuỗi hình ảnh FPV đó là sử dụng các đặc trưng về chuyển động Đây là hướng nghiên cứu thú vị vì khai thác được đặc điểm riêng biệt của FPV so với TPV truyền

Trang 35

thống Trong nghiên cứu tiếp theo của Ren và cộng sự [59], các tác giả quan sát hướng dịch chuyển tịnh tiến (toward motion) thường xuất hiện trong chuỗi hình ảnh FPV; trong quá trình thao tác với đồ vật, cử chỉ tay và vùng bàn tay thường có xu hướng xuất hiện chính giữa khung ảnh; ngoài ra, khi có tương tác với đồ vật, hướng dịch chuyển thường theo hướng ngang/dọc rõ nét; và tốc độ dịch chuyển của camera (người) chậm hơn so với tốc độ trong các hoạt động thường ngày Kết quả của dự đoán dịch chuyển sẽ được sử dụng để tách biệt vùng đối tượng quan tâm và phần khung nền

Trong nghiên cứu của Fathi và cộng sự [20] các đặc trưng về mặt không gian của đối tượng quan tâm trong chuỗi hình ảnh FPV cũng được khai thác Đặc trưng riêng biệt đó là các đối tượng thường có vai trò trung tâm của khung hình Pirisiavash và cộng sự [56] đề xuất một bộ CSDL khá đầy đủ về

18 loại hoạt động thông thường trong nhà Các hoạt động như rửa tay, đánh răng, xem ti vi, được thực hiện bởi 20 người độc lập

Nhận biết hoạt động dựa trên ngữ cảnh trong nghiên cứu của Spriggs và cộng sự [68], các tác giả đã xây dựng bộ CSDL cho các hoạt động trong nhà bếp như nấu ăn, mở tủ lạnh, rửa bát, pha chè, … Với giả định rằng các hoạt động được diễn ra trong một khung cảnh với nền ổn định, các tác giả nhận dạng nhãn của mỗi khung hình sử dụng đặc trưng GIST [54]

Trong nghiên cứu [20], các tác giả đề xuất thuật toán phân loại các hoạt động theo hướng nhiệm vụ của hoạt động Các vùng đối tượng có tương tác của tay sẽ được phân loại dựa trên các đặc trưng như màu sắc, cấu trúc ảnh,

và được phân loại dựa trên bộ phân lớp SVM Phương pháp đạt được độ chính xác 39.7% trong việc phân loại 61 lớp hoạt động

Sử dụng học sâu, Wang và cộng sự [80], [81] đã giải quyết vấn đề phân

đoạn tay theo cách lặp lại bằng cách sử dụng kiến trúc U-NET tái tạo [64] Cơ

sở lý luận đằng sau chiến lược này là bắt chước các chuyển động phức tạp của đôi mắt cho phép tinh chỉnh nhận thức về một cảnh Chi phí tính toán có thể

là một vấn đề khác trong phân đoạn tay dựa trên CNN Để giảm chi phí này, đồng thời đạt được độ chính xác phân đoạn tốt, Li và cộng sự [38] đã triển khai luồng đặc trưng sâu (DFF) với một nhánh phụ để làm cho phương pháp tiếp cận tốt hơn hơn chống lại hiện tượng sai sót do che lấp và biến dạng do DFF gây ra

Trang 36

Khắc phục tình trạng thiếu dữ liệu được gán nhãn mức pixel, các kỹ thuật học chuyển giao hoặc tự giám sát đã được áp dụng Zhou và cộng sự [92] đã đào tạo một mạng phân đoạn tay bằng cách sử dụng một lượng lớn nhãn bounding box và một lượng nhỏ bản đồ phân đoạn tay Họ đã áp dụng kiến trúc DeconvNet được tạo thành từ hai mạng VGG-16 được nhân đôi khởi tạo với 1.500 khung hình được gán nhãn mức pixel Cách tiếp cận của họ đã chọn lặp đi lặp lại và thêm các đề xuất phân đoạn tốt để dần dần tinh chỉnh bản đồ tay

Một số tác giả đã sử dụng thông tin độ sâu để thực hiện phân đoạn nền/tiền cảnh, sau đó là phân đoạn tay/đối tượng trong vùng tiền cảnh bằng cách sử dụng thông tin xuất hiện Wan và cộng sự [77] đã sử dụng máy ảnh

có cảm biến độ sâu (ToF camera) để chụp cảnh trong quá trình tương tác vật thể bằng tay Cùng một máy ảnh ToF (Creativer Senz3DTM) được sử dụng bởi Rogez và cộng sự [63], các tác giả đã đào tạo một bộ phân loại nhiều lớp trên bản đồ độ sâu tổng hợp của 1.500 tư thế tay khác nhau, để nhận ra một trong những tư thế này trong ảnh độ sâu thử nghiệm, do đó tạo ra mặt nạ phân đoạn thô Mặt nạ này sau đó được xử lý theo cách có xác suất để tìm bản đồ nhị phân tương ứng với các pixel tay

Với nhiệm vụ phát hiện và theo bám tay, Kapidis và cộng sự [34] đã tinh chỉnh YOLOv3 trên nhiều bộ dữ liệu để thực hiện phát hiện tay, phân biệt quỹ đạo bên phải và bên trái theo thời gian bằng cách sử dụng theo bám thời gian thực trực tuyến đơn (SORT) Visee và cộng sự [75] kết hợp phát hiện và theo bám tay để thiết kế một phương pháp tiếp cận nhằm xác định vị trí tay nhanh chóng và đáng tin cậy trong FPV Do hiệu suất phát hiện của YOLOv2 chậm nên họ đã đề xuất kết hợp YOLOv2 với Bộ lọc tương quan Kernezed (KCF) như một sự cân bằng giữa tốc độ và độ chính xác

Với nhiệm vụ ước lượng tư thế tay, Tekin và cộng sự [71] đã sử dụng kiến trúc mạng FCN để ước tính đồng thời tư thế tay và vật thể 3D từ ảnh RGB Việc ước lượng đầu ngón tay được trình bày trong các công trình [30], [46] Ngoài ra, Wu và cộng sự [83] đã mở rộng vấn đề phát hiện một đầu ngón tay sang xác định năm đầu ngón tay

Nhận biết hành động, tương tác, Tang và cộng sự [70] đã sử dụng thông tin tay làm luồng phụ trong mạng nơ-ron sâu đa luồng (MDNN) end-to-end

sử dụng bản đồ độ sâu, ảnh RGB, luồng quang làm đầu vào Thông tin ảnh

Trang 37

mặt nạ tay đi qua mạng CNN và đầu ra của nó được kết hợp với MDNN thông qua hợp nhất có trọng số để dự đoán nhãn hành động

Nhận biết hoạt động yêu cầu chúng ta xét đến nội dung ngữ nghĩa cấp cao do đó sẽ hạn chế sự phụ thuộc vào các thông tin riêng của tay Các thông tin khác có tác dụng và có thể được sử dụng cùng với tay để dự đoán các hoạt động Nguyen và cộng sự [42] đã phân loại nhận biết hoạt động trong FPV bao gồm các phương pháp là: 1) sự kết hợp của các hành động; 2) sự kết hợp của các đối tượng hoạt động; 3) sự kết hợp của các đối tượng và địa điểm đang hoạt động; 4) sự kết hợp của các đối tượng hoạt động và chuyển động tay; và 5) sự kết hợp của các thông tin khác (ví dụ: ánh nhìn, chuyển động, v.v.) Nguyen và cộng sự [51] đã sử dụng biểu diễn Bag of Visual Words để

mô hình hóa các tương tác giữa tay và đồ vật vì những tín hiệu này đóng vai trò quan trọng trong việc nhận biết các hoạt động

Nhận biết hoạt động dựa trên ngữ cảnh, nghiên cứu của Castro và cộng sự [15] để phân loại được 19 loại hoạt động thông thường của người mang cảm biến như làm việc, xem tivi, họp (meeting), lái xe, nấu ăn…, các tác giả tiến hành phân loại khung cảnh và sử dụng các yếu tố kết hợp như thời gian, ngày trong tuần Một mạng nơ-ron tích chập (CNN) được sử dụng cho việc nhận dạng khung cảnh Các thông tin về ngữ cảnh (như thời gian, ngày trong tuần), được kết hợp với kết quả nhận dạng sử dụng chiến lược kết hợp muộn (late fusion)

Trong nghiên cứu [47], các tác giả đã đề xuất mô hình mạng CNN cho biểu diễn đặc trưng của các chuyển động ego-motion Một tập hợp các đặc trưng được học thông qua các mạng CNN cho các yếu tố có thể xuất hiện trong khung hình FPV Kết quả của phương pháp cho thấy hiệu quả của việc học các đặc trưng từ mạng CNN, trong đó kết quả nhận biết hoạt động tăng lên đáng kể trên các bộ CSDL khác nhau Trong nghiên cứu [15] sử dụng mạng CNN để học các yếu tố về ngữ cảnh (như địa điểm xảy ra hoạt động), các tác giả kết hợp với yếu tố về thời gian xảy ra hoạt động, để nhận biết hoạt động của người mang cảm biến Các tác giả so sánh với các phương pháp phân lớp như k-NN, Random Forest, đều cho thấy phương pháp đề xuất đạt

độ chính xác cao hơn Trong nghiên cứu của Dimiccoli và cộng sự [19], các

tác giả đã sử dụng các đặc trưng trích chọn từ một mạng CNN (GoogleNet) để

trợ giúp phân đoạn ngữ nghĩa của FPV video Kết quả cho thấy việc phát hiện

Trang 38

các khung chính (key-frames) trong chuỗi hình ảnh FPV sử dụng đặc trưng trích chọn từ CNN cho kết quả vượt trội so với các phương pháp truyền thống Yếu tố thời gian/trạng thái một hoạt động được quan tâm nghiên cứu

Rõ ràng, kết hợp giữa các đặc trưng về không gian, thời gian trong khung công việc sử dụng tích hợp các mạng CNN là hướng nghiên cứu khả thi

b Các nghiên cứu trong nước

Trong một vài năm gần đây, một số nhóm nghiên cứu tại Việt Nam đã bắt đầu quan tâm và thực hiện các nghiên cứu về bài toán phát hiện đối tượng và nhận dạng sự kiện cũng như ứng dụng của kỹ thuật học sâu trong việc giải quyết các bài toán thị giác máy tính Le và cộng sự tại phòng nghiên cứu KDE, Viện CNTT&TT, Trường Đại học Bách Khoa Hà Nội trong [35] đã đề xuất một phương pháp dựa trên học sâu cho bài toán gán ngữ nghĩa tự động cho ảnh (image annotation) Gán ngữ nghĩa tự động cho ảnh là việc lựa chọn các khái niệm từ một tập các khái niệm cho trước để biểu đạt nội dung của ảnh Trong nghiên cứu này, các tác giả đề xuất việc lựa chọn tập các khái niệm này một cách linh hoạt dựa trên tập ngưỡng thích nghi Nguyen và cộng

sự từ Đại học quốc gia thành phố Hồ Chí Minh [53] đề xuất giải thuật cho phép tìm kiếm người ở một vị trí nhất định trong video TRECVID dựa trên các giải thuật học sâu

Liên quan đến nhận biết hoạt động, trong [55], nhóm nghiên cứu ở trường Đại học Công nghệ Hà Nội đã đề xuất phương pháp nhận biết hoạt động sử dụng kỹ thuật Dynamic Time Warping (DTW) và giải thuật bỏ phiếu (voting)

từ dữ liệu khung xương Ở mỗi thời điểm, các tác giả đã trích chọn các góc tương đối giữa các khớp xương như một đặc trưng Mỗi hoạt động được biểu diễn thành một chuỗi theo thời gian của tập các góc tương đối Sau đó để nhận dạng các hoạt động, các tác giả sử dụng giải thuật DTW để so sánh các chuỗi thời gian và áp dụng kỹ thuật bỏ phiếu để quyết định hoạt động nào được nhận dạng

Nhóm nghiên cứu ở trường ĐH Khoa học tự nhiên – ĐH Quốc gia Thành phố Hồ Chí Minh [74] đã đề xuất phương pháp phân đoạn và nhận biết hoạt động trên video Từ chuỗi hình ảnh RGB, các tác giả đã đề xuất trích chọn đặc trưng toàn cục (HOG và HOF) và đặc trưng cục bộ dựa trên chuyển động

và SURF Sau đó, các đặc trưng này được biểu diễn thành các từ (visual

Trang 39

word) theo mô hình BOW (Bag of word) Với cách biểu diễn này một video

sẽ được biểu diễn thành véc-tơ thể hiện sự xuất hiện của các từ trong video Cuối cùng mô hình SVM (Support Vector Machine) được sử dụng để phân loại các hoạt động

Trong một nghiên cứu được công bố vào năm 2022 [26], nhóm tác giả thuộc Viện NCQT MICA đã đề xuất một phương pháp ước tính tư thế bàn tay 3D từ các video góc nhìn thứ nhất Đầu tiên, nhóm tác giả xây dựng mô-đun phát hiện bàn tay dựa trên mạng YOLO kết hợp thông tin độ sâu của các vùng bàn tay được phát hiện để xây dựng các đám mây điểm Cuối cùng, một mô hình nhận biết cấu trúc cục bộ có tên là SplitPointnet bao gồm sáu mô hình PointNet++ được đề xuất để ước tính đồng thời các khớp ở năm ngón tay và vùng ngón tay cái Kết quả thực nghiệm thu được trên tập dữ liệu lớn FPHAB cho thấy phương pháp đề xuất cho kết quả ước lượng tư thế tay tốt hơn so với các phương pháp hiện đại với sai số trung bình là 66,26 mm

Cũng thực nghiệm trên bộ dữ liệu FPHAB, nhóm tác giả đã công bố nghiên cứu [76] nhằm nhận dạng hành động tay từ kết quả ước tính tư thế tay Đầu tiên, mô hình ước tính các khớp tay 3D từ mọi hình ảnh RGB bằng cách

sử dụng kết hợp Resnet và mạng tích chập đồ họa Sau đó, một sự điều chỉnh của phương pháp SOTA PA-ResGCN cho bộ xương người được đề xuất để nhận dạng hành động tay từ các khớp tay ước tính Các thử nghiệm cho thấy rằng khung được đề xuất vượt trội so với các phương pháp SOTA khác nhau trên cả hai nhiệm vụ ước tính tư thế tay và nhận dạng hành động tay

1.3.2 Các nghiên cứu liên quan đến egocentric trong PHCN

Ứng dụng thị giác máy tính trong hỗ trợ tập luyện và điều trị PHCN là một chủ đề đã bắt đầu được các nhà nghiên cứu trên thế giới quan tâm Nhóm nghiên cứu từ Viện Vật liệu Sinh học & Kỹ thuật Y sinh, Đại học Toronto, Canada đã có những công bố ban đầu về lĩnh vực này Trong nghiên cứu [87], Zariffa và cộng sự đã sử dụng đặc trưng màu da để phát hiện vùng bao của tay Kết quả là trong 4 video thử nghiệm liên quan đến các hoạt động sinh hoạt hàng ngày, độ chính xác phát hiện tay là 88,3% Các kết quả phát hiện đường bao được so sánh với các đường bao được vẽ thủ công trong 97 khung hình thử nghiệm và giá trị trung bình điểm f-score là 0,86

Jirapat Likitlersuang và cộng sự trong [43] đã chứng minh tính khả thi

Trang 40

của việc phát hiện các tương tác của bàn tay với các vật thể trong môi trường

Hệ thống bao gồm một bước tiền xử lý trong đó bàn tay được tách ra khỏi nền Sau đó, thuật toán trích xuất các tính năng đại diện cho hình dạng bàn tay

và tương tác tay - đối tượng Các tính năng đóng vai trò là đầu vào cho bộ phân loại rừng ngẫu nhiên, được thử nghiệm với bộ dữ liệu gồm 14 hoạt động trong cuộc sống hàng ngày cũng như các nhiệm vụ không tương tác trong 5 môi trường (tổng thời lượng video là 44,16 phút) Điểm f-score trung bình cho bộ phân loại là 0,85 cho thấy rằng việc sử dụng egocentric để giám sát việc sử dụng tay là khả thi

Trong nghiên cứu [44], các tác giả đề xuất mô hình phát hiện bàn tay, phân đoạn đường viền bàn tay, phân biệt người dùng tay trái hay tay phải và phát hiện các tương tác chức năng của bàn tay với các đồ vật (Hình 1.10) trong các hoạt động sinh hoạt hàng ngày của người bị chấn thương tủy sống dựa trên đặc trưng chuyển động của bàn tay, hình dạng bàn tay và các đặc điểm màu sắc của khung cảnh cảnh Từ đó, tính toán tổng thời gian tương tác, số tương tác trên mỗi giờ

Hình 1.10 Mô hình phát hiện, phân đoạn và xác định tương tác

Sự quan tâm của các nhà nghiên cứu trong lĩnh vực thị giác máy tính góc nhìn thứ nhất có thể được nhận thấy thông qua số lượng lớn các bộ dữ liệu đã được công bố trong những năm gần đây Khảo sát của Bandini và cộng sự [4] cho thấy, phần lớn các bộ dữ liệu thu thập hình ảnh các hoạt động trong sinh hoạt hằng ngày (ADL), các hoạt động xuất hiện cả trong nhà và ngoài trời, ở các vị trí khác nhau như phòng khách, phòng bếp, công viên, bảo tàng… Theo khảo sát này, phần lớn các bộ dữ liệu dành cho nhiệm vụ phân đoạn hình ảnh mặt nạ tay [3], [5], [11], [37], [43], [70], [81] Các bộ dữ liệu liên quan đến nhãn hành động/hoạt động thường có số lượng nhãn lớn hơn dữ liệu gán nhãn

Ngày đăng: 13/05/2023, 11:14

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w