Nhận dạng sự kiện ngã của người sử dụng kỹ thuật học sâu

Tổng quan các hệ thống nhận dạng hiện có. Phân tích một số phương pháp nhận dạng hoạt động sử dụng thông tin độ sâu. Mô hình nhận dạng, các tính ảnh DMM, SPM, bộ trích chọn đặc trưng KDES và mạng học sâu resnte101. Tổng quan các hệ thống nhận dạng hiện có. Phân tích một số phương pháp nhận dạng hoạt động sử dụng thông tin độ sâu. Mô hình nhận dạng, các tính ảnh DMM, SPM, bộ trích chọn đặc trưng KDES và mạng học sâu resnte101.

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

- -TRẦN QUỐC TOẢN

NHẬN DẠNG SỰ KIỆN NGÃ CỦA NGƯỜI SỬ DỤNG

KỸ THUẬT HỌC SÂU

LUẬN VĂN THẠC SỸ KHOA HỌC

KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

- -TRẦN QUỐC TOẢN

NHẬN DẠNG SỰ KIỆN NGÃ CỦA NGƯỜI SỬ DỤNG

KỸ THUẬT HỌC SÂU

Chuyên ngành : Kỹ thuật điều khiển và tự động hóa

LUẬN VĂN THẠC SỸ KHOA HỌC

KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS TS TRẦN THỊ THANH HẢI

Trang 3

LỜI CẢM ƠN

Lời đầu tiên, em xin gửi lời cảm ơn chân thành và sâu sắc nhất đến cô Trần Thị Thanh Hải, người đã tận tình chỉ bảo, giúp đỡ và hướng dẫn em trong suốt quá trình học tập và thực hiện luận văn

Em xin gửi lời cảm ơn đến Viện nghiên cứu quốc tế MICA - Đại học Bách Khoa Hà Nội đã tạo điều kiện giúp đỡ em trong quá trình tìm hiểu và thực hiện luận văn Cảm ơn các thầy cô, anh, chị trong nhóm nghiên cứu về Thị giác máy tính đã tận tình giúp đỡ, hướng dẫn cho em

Em cũng muốn cảm ơn Trung tâm đào tạo sau đại học – Trường Đại học Bách Khoa Hà Nội vì sự giúp đỡ và tạo điều kiện cho em trong suốt khoá học này

Đồng thời em xin dành lời cảm ơn đến các thầy cô ở trường Đại học Bách khoa Hà Nội Đặc biệt, là các thầy cô trong viện Điện, những người đã chỉ lối, dẫn đường cho em trên hành trình đi tìm tri thức, những người đã hướng dẫn, dạy bảo

em tận tình trong quá trình học tại mái trường và thực hiện luận văn này

Cuối cùng, em xin gửi lời cảm ơn đến gia đình, người thân và bạn bè, những người đã động viên em rất nhiều trong thời gian qua

Sinh viên

Trần Quốc Toản

Trang 4

MỤC LỤC

DANH MỤC VIẾT TẮT TIẾNG VIỆT 6

DANH MỤC VIẾT TẮT TIẾNG ANH 7

BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT 8

DANH MỤC HÌNH VẼ 9

DANH MỤC BẢNG BIỂU 10

LỜI MỞ ĐẦU 11

CHƯƠNG 1: GIỚI THIỆU CHUNG 12

1.1 Ngữ cảnh nghiên cứu 12

1.1.1 Bài toán nhận dạng hoạt động của người 12

1.1.2 Phân loại các hệ thống nhận dạng dựa trên cảm biến sử dụng 12

1.2 Một số thách thức và hướng giải quyết 13

1.3 Những điểm mới của LVCH so với ĐATN 14

CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN 15

2.1 Nhận dạng hoạt động của người dựa vào thông tin bộ xương 15

2.2 Nhận dạng hoạt động của người động sử dụng bản đồ độ sâu 17

2.3 Nhận dạng hoạt động của người động dựa vào Multi-Temporal Depth Motion Maps-Based Local Binary Patterns 18

2.4 Nhận dạng các hoạt động của người động dựa vào Depth Motion Map và Static Pose Map 19

2.5 Đề xuất phương pháp nhận dạng các hoạt động của người trong khuôn khổ LVCH 19

CHƯƠNG 3: PHƯƠNG PHÁP ĐỀ XUẤT 21

3.1 Khung làm việc tổng quát của phương pháp đề xuất 21

3.2 Tính toán ảnh DMM và SPM 22

3.2.1 Ảnh DMM 22

3.2.2 Ảnh SPM 22

3.3 Trích chọn đặc trưng 23

3.3.1 Biểu diễn lược đồ hướng trên quan điểm hàm nhân (kernel view) 23 3.3.2 Dựa trên bộ mô tả KDES 25

Trang 5

3.3.3.2 Kiến trúc Ma ̣ng nơ-ron tích chập 27

3.3.3.3 Ho ̣c chuyển giao và tinh chỉnh mô hình huấn luyện 31

3.3.3.4 Mạng học sâu Resnet-101 32

3.3.3.5 Ứng du ̣ng ma ̣ng ResNet vào bài toán nhận da ̣ng hoạt động của người 34

3.4 Giải thuật học máy SVM (Support Vector Machine) 35

CHƯƠNG 4: THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 38

4.1 Môi trường cài đặt 38

4.1.1 Các tham số sử dụng để tính toán bộ mô tả KDES 39

4.1.2 Thông số cài đặt cho mạng ResNet-101 39

4.2 Dữ liệu thử nghiệm và thước đo đánh giá 39

4.2.1 Giới thiệu về CSDL sử dụng trong đề tài: CMDFALL 39

4.2.2 Thước đo đánh giá 43

4.3 Kết quả thử nghiệm và bàn luận 44

4.3.1 Đánh giá thử nghiệm 44

4.3.2 Kết quả thử nghiệm 46

CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 53

5.1 Kết luận 53

5.2 Hướng phát triển 53

TÀI LIỆU THAM KHẢO 55

Trang 6

DANH MỤC VIẾT TẮT TIẾNG VIỆT

Trang 7

DANH MỤC VIẾT TẮT TIẾNG ANH

STIP Spatio Temporal Interest Point

HON4D Histogram of Oriented 4D Normals

KPCA Kernel Principal Component Analysis

Trang 8

BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH-VIỆT

Support Vector Machine Máy véc tơ hỗ trợ

Kernel Pricipal Component

Analysis

Phân tích các thành phần chính dựa

trên hàm nhân

Trang 9

DANH MỤC HÌNH VẼ

Hình 2.1 Chi tiết kết quả nhận dạng của phương pháp trên bộ dữ liệu

UTKKinect-Action 16

Hình 2.2 Chi tiết kết quả nhận dạng của phương pháp trên bộ dữ liệu Florence3D-Action 16

Hình 3.1 Mô hình nhận dạng tổng quát của phương pháp đề xuất 21

Hình 3.2 Biểu diễn hướng của vector gradient, đo khoảng cách giữa 2 pixel có hướng 24

Hình 3.3 Các bước tính bộ mô tả hàm nhân của ảnh 25

Hình 3.4 Minh họa phương pháp Spatial Pyramid Matching 26

Hình 3.5 Kiến trúc cơ bản của một ma ̣ng tích chập 27

Hình 3.6 Ví du ̣ bộ lo ̣c tích chập được sử dụng trên ma trận điểm ảnh 28

Hình 3.7 Trường hợp thêm/không thêm viền trắng vào ảnh khi tích chập 29

Hình 3.8 Phương thức Avarage Pooling và Max Pooling 30

Hình 3.9 Kiến trúc ResNet 33

Hình 3.10 Minh họa khối ResNet 2-layer và 3-layer 34

Hình 4.1 Minh họa môi trường và cài đặt thiết bị 40

Hình 4.2 Minh họa đồng bộ dữ liệu 42

Hình 4.3 Minh họa độ hội tụ trong khi train cho 20 lớp 45

Trang 10

DANH MỤC BẢNG BIỂU

Bảng 2.1 Độ chính xác nhận dạng (%) của phương pháp trên bộ dữ liệu

UTKKinect-Action 16

Bảng 2.2 Độ chính xác nhận dạng (%) của phương pháp so với các phương pháp khác trên bộ dữ liệu MSR Action3D 17

Bảng 2.3 Độ chính xác của phương pháp với bộ dữ liệu MSR Action 3D và MSRGestures 18

Bảng 2.4 Kết quả trên CSDL IsoGD 19

Bảng 2.5 Kết quả trên CSDL NATOPS 19

Bảng 4.1 Danh sách hoạt động của cơ sở dữ liệu 41

Bảng 4.2 Minh họa cơ sở dữ liệu thời điểm đầu và kết thúc của 8 hoạt động 44

Bảng 4.3 Minh họa ảnh DMM và SPM tương ứng cho 6 nhóm hoạt động 45

Bảng 4.4 Tổng hợp kết quả thử nghiệm trên các phương pháp 47

Bảng 4.5 Bảng tổng hợp kết quả phân lớp cho 20 hoạt động sử dụng kỹ thuật DMM–KDES-SVM 48

Bảng 4.6 Bảng tổng hợp kết quả phân lớp cho 6 nhóm hoạt động sử dụng kỹ thuật DMM–KDES-SVM 49

Bảng 4.7 Bảng tổng hợp kết quả phân lớp cho 2 lớp sử dụng kỹ thuật DMM– KDES-SVM 49

Bảng 4.8 Bảng tổng hợp kết quả phân lớp cho 20 hoạt động sử dụng kỹ thuật SPM– KDES-SVM 49

Bảng 4.9 Bảng tổng hợp kết quả phân lớp cho 6 nhóm hoạt động sử dụng kỹ thuật SPM–KDES-SVM 50

Bảng 4.10 Bảng tổng hợp kết quả phân lớp cho 2 lớp sử dụng kỹ thuật SPM– KDES-SVM 50

Bảng 4.8 Bảng tổng hợp kết quả phân lớp cho 20 hoạt động sử dụng kỹ thuật DMM–ResNet-SVM 50

Bảng 4.9 Minh họa một số hoạt động bị nhận nhầm trong trường hợp phân loại 20 hoạt động 51

Bảng 4.10 Bảng tổng hợp kết quả phân lớp cho 6 nhóm hoạt động sử dụng kỹ thuật DMM–ResNet-SVM 51

Bảng 4.11 Minh họa một số hoạt động bị nhận nhầm trong trường hợp phân loại 6 nhóm hoạt động 52

Bảng 4.12 Bảng tổng hợp kết quả phân lớp cho 2 lớp sử dụng kỹ thuật DMM– ResNet-SVM 52

Trang 11

LỜI MỞ ĐẦU

Nhận dạng hoạt động là một lĩnh vực nghiên cứu thu hút nhiều sự quan tâm của các nhà khoa học trên thế giới cũng như trong nước trong thời gian gần đây Bài toán nhận dạng hoạt động có phạm vi ứng dụng rộng rãi trong thực tế như cảnh báo

tự động các sự kiện bất thường đối với bệnh nhân hay người cao tuổi, huấn luyện và điều chỉnh hoạt động thể thao, chăm sóc sức khỏe, chơi game Trong vài thập kỷ qua, nhiều phương pháp đã được đề xuất để nhận dạng hoạt động của con người từ các loại cảm biến khác nhau (hình ảnh RGB, độ sâu, khung xương, gia tốc, v.v) Mặc dù có nhiều nỗ lực nghiên cứu, bài toán nhận dạng hoạt động của người vẫn là một vấn đề đầy thách thức do sự đa dạng trong thể hiện của một hoạt động, sự che khuất, điều kiện chiếu sáng, đặc tính của cảm biến, v.v

Mục tiêu của LVCH này là phát triển và đánh giá một phương pháp nhận dạng

tự động hoạt động của người dựa trên các kỹ thuật thị giác máy tính và học máy tiên tiến từ dữ liệu ảnh độ sâu Để đạt được mục tiêu này, em đã tìm hiểu các kỹ thuật biểu diễn một chuỗi hình ảnh về hoạt động dựa trên: (1) bản đồ chuyển động tính toán trên ảnh độ sâu (Depth Motion Map) - DMM và (2) hình trạng tĩnh đặc tả chuyển động (Static Pose Map) - SPM Đây là các kỹ thuật tính toán nhanh, cho phép biểu diễn hiệu quả chuỗi hình ảnh bởi một ảnh duy nhất Sau đó, em đã tìm hiểu một số phương pháp thuộc hai hướng tiếp cận chính để trích chọn các đặc trưng từng ảnh DMM/SPM: (1) hướng tiếp cận dựa trên đặc trưng thiết kế bằng tay KDES (Kernel Descriptor); (2) hướng tiếp cận dựa trên học sâu Resnet Các đặc trưng này được trích chọn và tiếp tục đưa vào các bộ phân lớp như Support Vector Machine (SVM) để phân loại các hoạt động Bộ mô tả hàm nhân và mạng Resnet đều đã được chứng mình là rất hiệu quả trong các bài toán nhận dạng ảnh và khung cảnh nói chung Tuy vậy, khi áp dụng chúng vào bài toán nhận dạng hoạt động trên các biểu diễn dựa trên DMM và SPM cần đòi hỏi các nghiên cứu và thử nghiệm Phương pháp đề xuất nghiên cứu sẽ được đánh giá trên CSDL CMDFall Đây

là một CSDL dữ liệu gồm 20 hoạt động bao gồm các hoạt động bất thường (ngã) và các hoạt động bình thường (đi lại, chạy, ngồi) được thu thập trong môi trường trong nhà sử dụng các cảm biến Kinect cung cấp đồng thời hình ảnh RGB và độ sâu (https://www.mica.edu.vn/perso/Tran-Thi-Thanh-Hai/CMDFALL.html) Trong LVCH này, em sử dụng dữ liệu độ sâu để đánh giá các phương pháp đề xuất Kết quả thử nghiệm cho thấy DMM kết hợp với Resnet và SVM cho hiệu quả cao nhất

Trang 12

CHƯƠNG 1: GIỚI THIỆU CHUNG 1.1 Ngữ cảnh nghiên cứu

1.1.1 Bài toán nhận dạng hoạt động của người

Nhận dạng đối tượng là một bài toán cơ bản trong lĩnh vực thị giác máy tính Nhiều đối tượng đã được nghiên cứu như khuôn mặt, xe cộ, chữ viết, lá cây, vân tay hay nhận dạng các hoạt động của người… Đối tượng nghiên cứu trong LVCH này các hoạt động của người Bài toán nhận dạng hoạt động của người được định nghĩa như sau:

Bài toán nhận dạng hoạt động của người

Đầu vào: Chuỗi dữ liệu về hoạt động của người thu thập được từ một cảm biến

nào đó

Thực hiện: Xác định hoạt động mà người đó thực hiện thuộc lớp hoạt động nào

trong số tập các hoạt động đã định nghĩa từ trước

Đầu ra: Nhãn của hoạt động

Bài toán nhận dạng các hoạt động của người có nhiều ứng dụng như: cảnh báo hoạt động nguy hiểm, bất thường, thực hiện di chuyển vật thể trong môi trường ảo, trợ giúp dạy học từ xa, điều khiển thiết bị bằng cử chỉ, hoạt động v.v LVCH của em

có mục tiêu nghiên cứu và phát triển một phương pháp nhận dạng một số hoạt động của người ứng dụng trong phòng bệnh thông minh Cụ thể là các hoạt động cơ bản sau: đi bộ theo các hướng, chạy chậm, nhảy, cử động tay chân, cúi xuống nhặt đồ,

đi loạng choạng, ngã, bò, ngồi và di chuyển ghế

1.1.2 Phân loại các hệ thống nhận dạng dựa trên cảm biến sử dụng

Để nhận dạng hoạt động của người, một số cảm biến được sử dụng để thu thập

dữ liệu về hoạt động đó Dựa trên hệ cảm biến thu nhận dữ liệu, hệ thống nhận dạng các hoạt động của người có thể được phân thành hai loại:

o Dựa trên cảm biến mang theo (wearable sensors): Theo loại này, người thực

Trang 13

nhược điểm lớn nhất của phương pháp là có thể người dùng sẽ quên đeo cảm biến Ngoài ra các dữ liệu thu được từ các loại cảm biến này thường không cho phép giải thích và đặc tả lại các sự kiện đã xảy ra đối với người dùng

o Dựa trên cảm biến môi trường (ambient sensors): Theo loại này, người thực

hiện không phải đeo bất kỳ loại cảm biến nào cả Điển hình của phương pháp này sử dụng cảm biến camera gắn trong môi trường Ưu điểm chính của phương pháp này so với phương pháp trên người thực hiện không phải mang vác bất kỳ thiết bị nào nên thực hiện hoạt động một cách tự nhiên Ngoài ra

dữ liệu hình ảnh cho phép dễ dàng đặc tả về sự kiện xảy ra đối với người dùng

Trong vài năm trở lại đây, với sự ra đời cảm biến Kinect của Microsoft với giá thành rẻ nhưng lại cung cấp dữ liệu đa thể thức về môi trường như: âm thanh, hình ảnh RGB, ảnh độ sâu, v.v Việc sử dụng kết hợp các loại dữ liệu khác nhau cho phép nâng cao hiệu quả của nhận dạng Trong khuôn khổ của LVCH, em đi theo hướng tiếp cận thứ 2 là sử dụng cảm biến ngoài, cụ thể là cảm biến Kinect để thu thập dữ liệu hoạt động của người Cụ thể hơn, em sẽ tập trung nghiên cứu và đề xuất phương pháp nhận dạng dựa trên ảnh độ sâu (depth) để nhận dạng hoạt động

của người

1.2 Một số thách thức và hướng giải quyết

Bài toán nhận dạng hoạt động của người dựa trên ảnh độ sâu có những thách thức cụ thể

Thứ nhất, thách thức đến từ dữ liệu độ sâu thường hay bị nhiễu và bị hạn chế trong khoảng đo được của cảm biến Vì vậy dữ liệu độ sâu có thể bị thiếu trên một

số bộ phận của cơ thể tại một vị trí nào đó

Thứ hai, nếu làm việc dữ liệu ảnh RGB, các phương pháp nhận dạng hoạt động có thể tận dụng kinh nghiệm, tri thức trong việc thiết kế các đặc trưng hoặc cấu hình các mạng neuron

Tuy nhiên, việc nghiên cứu thiết kế đặc trưng hoặc các các kiến trúc mạng neuron chưa được thử nghiệm nhiều trên ảnh độ sâu

Vì vậy, trong LVCH này, em sẽ nghiên cứu một số kỹ thuật vốn rất hiệu quả trong biểu diễn ảnh màu trên dữ liệu độ sâu và đánh giá hiệu quả của nó

Trang 14

1.3 Những điểm mới của LVCH so với ĐATN

Trong ĐATN của em năm 2015, em đã nghiên cứu biểu diễn bản đồ chuyển động GMM (Grayscale Motion Map) và kỹ thuật hàm nhân KDES cho bài toán nhận dạng hoạt động của người trên ảnh RGB và đã đánh giá phương pháp này trên CSDL gồm 5 sự kiện do 20 người tham gia LVCH này có một số điểm mới so với ĐATN như sau:

- Tiếp tục nghiên cứu kỹ thuật bản đồ chuyển động và bộ mô tả hàm nhân nhưng trên dữ liệu độ sâu (DMM-KDES)

- Nghiên cứu kỹ thuật biểu diễn hình trạng tĩnh đặc tả hoạt động SPM (Static Pose Map)

- Nghiên cứu kỹ thuật học sâu Resnets và sử dụng để học và phân lớp hoạt động từ ảnh SPM và DMM

- Đánh giá và so sánh phương pháp đề xuất trên một CSDL lớn hơn gồm 20 hoạt động và 50 người tham gia

- Tham gia đóng góp trong bài báo có tiêu đề “A Multimodal multiview dataset for human fall analysis and preliminary investigation on modality”

đăng trên hội thảo quốc tế về nhận dạng ICPR năm 2018 [25]

Trang 15

CHƯƠNG 2: CÁC NGHIÊN CỨU LIÊN QUAN

Bài toán nhận dạng các hoạt động của người đã thu hút được sự quan tâm của nhiều nhà khoa học trong lĩnh vực thị giác máy tính, máy học và robotics Trong phần này, em sẽ trình bày những nghiên cứu liên quan về một số phương pháp nhận dạng các hoạt động của người dựa trên thông tin độ sâu (depth, skeleton)

2.1 Nhận dạng hoạt động của người dựa vào thông tin bộ xương

Trong công trình nghiên cứu của nhóm tác giả Raviteja Vemulapalli, Felipe

Arrate và Rama Chellappa với tiêu đề “Human Action Recognition by Representing

3D Skeletons as Points in a Lie Group” [6] công bố trên kỷ yếu của hội nghị

CVPR’2013, các tác giả biểu diễn mối quan hệ tương quan hình học 3D giữa các

bộ phận khác nhau trên khung xương để phục vụ cho việc nhận dạng

Cụ thể, các tác giả trích chọn hai đặc trưng trên dữ liệu xương là vị trí 3D của khớp và khoảng cách giữa các cặp khớp Sau đó, khung xương được biểu diễn thông quan các mối quan hệ hình học 3D giữa các bộ phận cơ thể khác nhau bằng cách sử dụng phép dịch và phép quay trong không gian 3D Các phép dịch và quay này sau đó được biểu diễn theo lý thuyết nhóm Lie

Theo lý thuyết này, mỗi khung xương của người là một điểm trong các nhóm Lie Hoạt động của người là một chuỗi các khung xương thu nhận ở các thời điểm liên tiếp được mô hình hóa bằng một đường cong trong nhóm Lie Nhận dạng hoạt động có thể được thực hiện bằng cách phân loại các đường cong Lưu ý rằng các nhóm Lie SE (3) x x SE (3) là một đa tạp cong và phân loại các đường cong trong không gian này là một công việc phức tạp Vì vậy, các tác giả đã ánh xạ nhóm Lie sang đại số Lie là một không gian vector để có thể đơn giản hóa việc nhận dạng

Để phân loại các hoạt động, các tác giả sử dụng kết hợp kỹ thuật DTW (Dynamic time warping) với Fourier temporal pyramid representation trước khi đưa vào bộ phân lớp SVM tuyến tính Kết quả thí nghiệm trên hai bộ dữ liệu UTKinect-Action Dataset (10 hoạt động), Florence3D-Action Dataset (9 hoạt động) cho thấy phương pháp được đề xuất thực hiện tốt hơn so với phương pháp thông dụng khác

Cụ thể như sau:

Trang 16

Bảng 2.1 Độ chính xác nhận dạng (%) của phương pháp trên bộ dữ liệu UTKKinect-Action

Trang 17

2.2 Nhận dạng hoạt động của người động sử dụng bản đồ độ sâu

Công trình nghiên cứu của nhóm tác giả Xiaodong Yang, Chenyang Zhang, và

YingLi Tian về bài báo có tiêu đề “Recognizing Actions Using Depth Motion

Maps-based Histograms of Oriented Gradients” [4] đã đề xuất sử dụng bản đồ chuyển

động độ sâu để biểu diễn hoạt động của người Trước tiên, mỗi bản đồ độ sâu được chiếu lên ba mặt phẳng trực giao Descartes Sau đó, vùng quan tâm (ROI) tương

ứng với các bao đóng giới hạn của người được tách ra và được chuẩn hóa về một

kích thước cố định để tránh các biến thể trong nội bộ lớp

Mỗi hoạt động được ghi nhận bởi một chuỗi các bản đồ độ sâu Các bản đồ này, sau đó sẽ được cộng dồn các sai khác giữa hai ảnh liên tiếp để tạo ra ảnh chuyển động DMM (Depth Motion Map) Cuối cùng, đặc trưng HOG (Histogram of

Oriented Gradient) [4] sẽ được tính toán trên ảnh DMM để làm đầu vào cho một bộ

phân lớp SVM tuyến tính Các thí nghiệm đã được thực hiện trên CSDL dùng chung trong cộng đồng như MSRAction3D dataset Độ chính xác được tính toán với các tập con khác nhau của dữ liệu (xem Bảng 2.2)

Bảng 2.2 Độ chính xác nhận dạng (%) của phương pháp so với các phương pháp khác trên bộ dữ liệu MSR Action3D

Tập dữ liệu

Phương pháp 3D Silhouettes [13]

Phương pháp EigenJoints [14]

Phương pháp do nhóm tác giả đề xuất

Trang 18

2.3 Nhận dạng hoạt động của người động dựa vào Multi-Temporal Depth Motion Maps-Based Local Binary Patterns

Công trình nghiên cứu của nhóm tác giả Chen Chen về bài báo có tiêu đề

“Multi-Temporal Depth Motion Maps-Based Local Binary Patterns for 3-D Human

Action Recognition” [7] đã trình bày các cải tiến mới cho DMM so với thuật toán

gốc Cụ thể như sau:

 Đưa weight vào trong việc tính toán DMM

 Thay vì tính toán DMM cho toàn bộ chuỗi video, phương pháp đề xuất tính các DMM của các overlapped depth segments với số frames bằng nhau

 3 DMMs được tính cho mỗi depth segments (front, side, top)

 Để xem xét sự thay đổi về tốc độ thực hiện của mỗi người khác nhau nên phương pháp đề xuất tính DMM theo nhiều mức, mức 1 là lấy toàn bộ chuỗi, mức hai chia thành các đoạn gồm 5 frames liên tiếp, các đoạn overlapped 3 frames Mức 2 là 10 frames liên tiếp

 LBP được tính toán dựa trên các ảnh DMM thu được Tuy nhiên một thay đổi là ảnh DMM được chia thành các patch, ý tưởng này giống như ý tưởng trong Kernel Descriptor với các spatial pyramid

 Sau đó Fisher kernel representation được tiếp tục áp dụng với các đặc trưng LPB được trích chọn Theo như nhóm tác giả, Fisher Kernel representation tốt hơn BoW

Kết quả đã được đánh giá thử nghiệm trên nhiều dataset của Microsoft Cho thấy kết quả vượt trội, phương pháp cũng đã đánh giá với các giá trị weight, số lượng mức, khác nhau và nhận định là 3 mức là cho kết quả tốt hơn

Bảng 2.3 Độ chính xác của phương pháp với bộ dữ liệu MSR Action 3D và MSRGestures

Các phương pháp Độ chính xác (%)

Trang 19

2.4 Nhận dạng các hoạt động của người động dựa vào Depth Motion Map và Static Pose Map

Trong bài báo có tiêu đề “Gesture Recognition Using Enhanced Depth Motion

Map and Static Pose Map” [23] của nhóm tác giả Zhi Zhang đã đề xuất một

phương pháp nhận dạng sử dụng Enhanced Depth Motion Map (eDMM) và Static Pose Map (SPM) từ video ảnh độ sâu Mô hình eDMM được đề xuất để mô tả cử chỉ chuyển động trong video, giảm nhiễu hơn so với DMM SPM được xây dựng để cung cấp thêm thông tin cho eDMM Một kiến trúc 2-CNN được sử dụng để trích chọn đặc trưng Phương pháp đề xuất được đánh giá trên CSDL Chalearn IsoGD và NATOPS

Bảng 2.4 Kết quả trên CSDL IsoGD

Trang 20

động từ dữ liệu này (đại số Lie, HON4D, DMM, CNN, v.v) Mỗi phương pháp có những ưu nhược điểm riêng

Dữ liệu khung xương là dữ liệu thứ cấp được sinh ra từ các dữ liệu về độ sâu

và hình ảnh nhờ một giải thuật rất phức tạp Dữ liệu khung xương nhiều khi không tin cậy khi người ở những hình trạng khác nhau, nhất là đối với các hoạt động như nằm, ngồi, cúi, ngã thì dữ liệu khung xương hầu như rất không ổn định và khó tin cậy Dữ liệu độ sâu bị hạn chế bởi khoảng cách do dải đo được của Kinect bị hạn chế Việc kết hợp nhiều loại dữ liệu chắc chắn sẽ tăng hiệu năng của các giải thuật Trong khuôn khổ của đề tài, do giới hạn về thời gian, em sẽ nghiên cứu và triển khai một phương pháp dựa trên dữ liệu ảnh độ sâu (depth) Với nhiệm vụ đề ra

là nhận dạng các hoạt động bất thường của người bệnh để cảnh báo, mô đun nhận dạng hoạt động phải thực hiện thời gian thực và hạn chế việc phát hiện thiếu Vì vậy các phương pháp sử dụng đặc trưng DSTIP là không phù hợp

Trong quá trình tìm hiểu, em nhận thấy nhóm các phương pháp đề xuất sử dụng kỹ thuật DMM cho phép biểu diễn một chuỗi các ảnh độ sâu bằng một ảnh duy nhất biểu diễn chuyển động Kỹ thuật tính toán DMM, SPM rất nhanh, ngoài ra

việc trích chọn các đặc trưng như HOG [4], LPB [1] trên ảnh này cho phép nhận

dạng các hoạt động với độ tin cậy cao

Với những lý do trên, trong LVCH của mình, em sẽ tiếp tục nghiên cứu thêm

về DMM Ngoài ra, qua tìm hiểu em thấy bộ mô tả nhân (Kernel Descriptor) đang

là bộ mô tả ảnh cho kết quả cao trong các bài toán nhận dạng đối tượng nói chung

Và các kỹ thuật học sâu tiên tiến cũng được triển khai và nghiên cứu để tăng kết quả nhận dạng Vì vậy, em muốn thử nghiệm các đặc trưng này trên ảnh DMM, SPM cho bài toán nhận dạng hoạt động của người

Trang 21

CHƯƠNG 3: PHƯƠNG PHÁP ĐỀ XUẤT 3.1 Khung làm việc tổng quát của phương pháp đề xuất

Chương này, em sẽ đi trình bày giải thuật nhận dạng của người sử dụng kỹ thuật DMM, SPM với thuật toán trích chọn đặc trưng (KDES, RESNET) Mô hình nhận dạng được trình bày như trong hình 3.1 dưới đây với hai pha cơ bản:

 Pha huấn luyện: sử dụng tập dữ liệu đầu vào (các video depth của các hoạt động) để huấn luyện các tham số của mô hình nhận dạng

 Pha nhận dạng: sử dụng mô hình phân lớp đã huấn luyện ở pha 1 để xác định nhãn của một hoạt động với đầu vào là một video nào đó

Trong cả hai pha, một số bước xử lý cơ bản sau cần được thực hiện:

1) Tính toán ảnh DMM, SPM với đầu vào là một video depth

2) Trích chọn đặc trưng KDES/RESNET trên ảnh

- Tại pha huấn luyện, việc học các tham số của mô hình phân lớp như sau: + Đối với đặc trưng KDES, các nghiên cứu đã chứng minh sử dụng bộ phân lớp SVM tuyến tính có thể cho chất lượng phân loại tốt Vì vậy, trong LVCH, em cũng sử dụng SVM cho bài toán phân lớp hoạt động người

+ Đối với đặc trưng RESNET, em sử dụng RESNET-101 với 101 layer để học các tham số của mô hình

Trang 22

3.2 Tính toán ảnh DMM và SPM

3.2.1 Ảnh DMM

Kỹ thuật DMM (Depth Motion Map) lần đầu tiên được giới thiệu trong [4]

Với một chuỗi các bản đồ độ sâu D1, D2, , DN, Depth Motion Map được xác định như sau:

1

1 1

Trong đó,  là một giá trị ngưỡng giữa 2 cảnh liên tiếp Di+1 và Di Khác với

[4], trong [1], các tác giả không lấy ngưỡng ảnh sai khác mà sử dụng sai khác tuyệt

đối Cụ thể là:

1 1 1

N

i DMM

3.2.2 Ảnh SPM

Kỹ thuật SPM được giới thiệu trong [23] Với một chuỗi các bản đồ độ sâu D1,

D2, , DN, SPM được xác định như sau:

Đầu tiên, tính toán sai khác ảnh depth hiện tại so với ảnh depth đầu tiên Công thức được tính như sau:

i

moveDiff = max( 1

DiDi , 0) Cuối cùng, hình trạng tĩnh nhận được bằng cách trừ originDiff cho moveDiff,

nghĩa là nó không sai khác so với frame đầu tiên cũng như không có sự di chuyển trong thời gian ngắn SPM được tính bằng cách lấy tổng của toàn bộ hình trạng tĩnh trong toàn video Công thức được tính như sau:

1

1 N

Trang 23

3.3 Trích chọn đặc trưng

3.3.1 Biểu diễn lược đồ hướng trên quan điểm hàm nhân (kernel view)

KDES là một bộ mô tả nhân lần đầu tiên được giới thiệu bởi tác giả L Bo và

các cộng sự vào năm 2010 trên hội nghị NIPS với tiêu đề: “Kernel descriptor for

Visual Recognition” [5] Ý tưởng cơ bản của phương pháp là sử dụng các nhân

(kernel) để biểu diễn một cách hợp nhất các đặc trưng như màu sắc, hình dáng hay kết cấu Kết hợp các biểu diễn trên các patch của ảnh để tạo ra bộ mô tả có tên gọi Kernel Descriptor và viết tắt là KDES cho toàn bộ ảnh Ý tưởng của phương pháp rất hay, tuy nhiên để hiểu rõ bản chất của KDES rất phức tạp, đòi hỏi phải có kiến thức về xác suất, học máy Vì vậy, trong LVCH của mình, em chỉ trình bày những tìm hiểu ban đầu của em về KDES

Giả sử cần tính lược đồ hướng của một patch ảnh P, trước tiên, chúng ta đi tính toán các vector gradient của tất cả các pixel z nằm trong P, mà ta quy ước là

(z) Gọi m(z) là biên độ của vector gradient tại pixel z, khi đó lược đồ hướng

Gradient có trọng số của patch ảnh P được biểu diễn như sau:

0, else

i

d z

i z

Trang 24

đánh giá sự tương quan giữa 2 patch ảnh Tuy nhiên sự tương quan giữa 2 hướng trong công thức trên là không tuyến tính, vì vậy ta xem xét điều chỉnh một số thước

đo thích hợp hơn như sau (3.6):

Hình 3.2 Biểu diễn hướng của vector gradient, đo khoảng cách giữa 2 pixel có

hướng

Khoảng cách giữa 2 vector  sin( ) cos( )  và  ' sin( ') cos( ') 

(3.5)

(3.6)

Trang 25

3.3.2 Dựa trên bộ mô tả KDES

Hình 3.3 Các bước tính bộ mô tả hàm nhân của ảnh

Phần 3.3.1 trên trình bày cách đo sự tương quan của hai patch ảnh trên quan điểm của hàm nhân Với cách thức này, L Bo và các cộng sự đề xuất biểu diễn ảnh bởi bộ mô tả KDES với 03 bước tính toán chính tương ứng với ba mức:

1) Mức điểm ảnh: Với ảnh đầu vào DMM, tính toán các vector gradient cho từng điểm ảnh

2) Mức patch:

a Sinh các patch ảnh: Với mỗi ảnh DMM, sinh các patches bằng cách

chia ảnh thành lưới đều với các patch có chồng lấp lên nhau theo một kích thước nào đó Kích thước này có thể thay đổi theo kích thước của ảnh đầu vào để phù hợp với từng ứng dụng cụ thể

b Tính toán mô tả nhân (KDES) cho mỗi patch ảnh: Việc tính toán bộ

mô tả nhân sẽ sử dụng vector cơ sở như đã trình bày ở phần 3.3.1 phía trên

c Tại pha huấn luyện: xây dựng bộ từ điển các đặc trưng mức patch

sử dụng kỹ thuật túi từ (BOW) với kỹ thuật K-means

3) Mức ảnh:

Sau khi trích chọn đặc trưng mức patch xong, mỗi patch tạo ra một vector đặc trưng Từ đặc trưng mức patch, bây giờ cần phải xây dựng một vector đặc trưng biểu diễn cho mỗi bức ảnh Phương pháp sử

dụng là “Spatial Pyramid Matching” [10] Với phương pháp này, mỗi

ảnh được chia thành M tầng, đánh số từ 0, với tầng k, ảnh được chia thành (2k)2 ô có kích thước đều nhau Như vậy tổng số ô nhận được qua các tầng là 4

M −1

, mỗi ô được đặc trưng bằng một vector N chiều và

Trang 26

được gán một trọng số, tầng càng cao thì trọng số càng cao Như vậy mỗi ảnh sẽ được đại diện bằng một vector N 4

M −1

3 chiều

Với mỗi ảnh đầu vào:

Level 0: tính vector đặc trưng trên toàn bộ ảnh

Level 1: Chia ảnh gốc làm 4 ảnh con, tính vector đặc trưng trên mỗi ảnh con

Level 2: chia ảnh gốc thành 16 ảnh con, tính vector đặc trưng trên mỗi ảnh con

Cuối cùng, ghép tất cả vector đặc trưng của 3 level lại

Hình 3.4 Minh họa phương pháp Spatial Pyramid Matching

3.3.3 Dựa trên mạng nơ-ron tích chập

Mục 3.3.2 ở trên, em đã trình bày cách biểu diễn ảnh DMM thành vector đặc trưng sử dụng bộ mô tả hàm nhân Ở phần này, em sẽ tìm hiểu cách sử dụng kỹ thuật học sâu để biểu diễn cho ảnh DMM

3.3.3.1 Định nghĩa mạng nơ-ron tích chập

Convolutional Neural Network (CNNs - Mạng nơ-ron tích chấp) là một trong những mô hình ma ̣ng Ho ̣c sâu phổ biến nhất hiện nay, có khả năng nhận da ̣ng và phân loa ̣i hình ảnh với độ chính xác rất cao, thậm chí còn tốt hơn con người trong nhiều trường hợp Mô hình này đã và đang được phát triển, ứng dụng vào các hệ thống xử lý ảnh lớn của Facebook, Google hay Amazon cho các mu ̣c đích khác nhau như các thuật toán tagging tự động, tìm kiếm ảnh hoặc gợi ý sản phẩm cho

Trang 27

ron nhân ta ̣o truyền thống ho ̣c thông tin trong ảnh Do sử du ̣ng các liên kết đầy đủ giữa các điểm ảnh vào node, các ma ̣ng nơ-ron nhân ta ̣o truyền thẳng (Feedforward Neural Network) bi ̣ ha ̣n chế rất nhiều bởi kích thước của ảnh, ảnh càng lớn thì số lượng liên kết càng tăng nhanh và kéo theo sự bùng nổ khối lượng tính toán Ngoài

ra sự liên kết đầy đủ này cũng là sự dư thừa khi với mỗi bức ảnh, các thông tin chủ yếu thể hiện qua sự phu ̣ thuộc giữa các điểm ảnh với những điểm xung quanh nó mà không quan tâm nhiều đến các điểm ảnh ở cách xa nhau Ma ̣ng CNN ra đời với kiến trúc thay đổi, có khả năng xây dựng liên kết chỉ sử du ̣ng một phần cu ̣c bộ trong ảnh kết nối đến node trong lớp tiếp theo thay vì toàn bộ ảnh như trong ma ̣ng nơ-ron truyền thẳng

3.3.3.2 Kiến tru ́ c Ma ̣ng nơ-ron tích chập

Các lớp cơ bản trong một ma ̣ng CNN bao gồm: Lớp tích chập (Convolutional), Lớp kích hoa ̣t phi tuyến ReLU (Rectified Linear Unit), Lớp lấy mẫu (Pooling) và Lớp kết nối đầy đủ (Fully-connected), được thay đổi về số lượng và cách sắp xếp để

ta ̣o ra các mô hình huấn luyện phù hợp cho từng bài toán khác nhau

Hình 3.5 Kiến trúc cơ bản của một mạng tích chập

Trong mô hình CNNs, các layer liên kết được với nhau thông qua cơ chế convolution Layer tiếp theo là kết quả convolution từ layer trước đó, nhờ vậy mà ta có được các kết nối cu ̣c bộ Nghĩa là mỗi nơ-ron ở layer tiếp theo sinh ra từ filter áp đặt lên một vùng ảnh cu ̣c bộ của nơ-ron layer trước đó

Mỗi layer như vậy được áp đặt các filter khác nhau, thông thường có vài trăm đến vài nghìn filter như vậy Một số layer khác như pooling/subsampling layer dùng để chắt lo ̣c la ̣i các thông tin hữu ích hơn (loa ̣i bỏ các thông tin nhiễu)

Trong suốt quá trình huấn luyện, CNNs sẽ tự động ho ̣c được các thông số cho các filter Ví du ̣ trong tác vu ̣ phân lớp ảnh, CNNs sẽ cố gắng tìm ra thông số tối ưu cho các filter tương ứng theo thứ tự raw pixel > edges > shapes > facial > high-level features Layer cuối cùng được dùng để phân lớp ảnh

Trang 28

CNNs có tính bất biến và tính kết hợp cu ̣c bộ (Location Invariance and Compositionality) Pooling layer cho phép tính bất biến đối với phép di ̣ch chuyển (translation), phép quay (rotation) và phép co giãn (scaling) Tính kết hợp cu ̣c bộ cho ta các cấp độ biểu diễn thông tin từ mức độ thấp đến mức độ cao và trừu tượng hơn thông qua convolution từ các filter Đó là lý do ta ̣i sao CNNs cho ra mô hình với độ chính xác rất cao Cũng giống như cách con người nhận biết các vật thể trong tự nhiên Ta phân biệt được một con chó với một con mèo nhờ vào các đặc trưng từ mức độ thấp (có 4 chân, có đuôi) đến mức độ cao (dáng đi, hình thể, màu lông)

Hình 3.6 Ví dụ bộ lọc tích chập được sử dụng trên ma trận điểm ảnh

Định dạng
Số trang	56
Dung lượng	2,22 MB