Nghiên cứu và xây dựng hệ thống phát hiện hành động ngã của người đi bộ dựa trên cảm biến của điện thoại di động

Luận văn Xây dựng thành công mô hình phát hiện hành động ngã của người dựa trên dữ liệu thu thập từ cảm biến của điện thoại thông minh Luận văn Xây dựng thành công mô hình phát hiện hành động ngã của người dựa trên dữ liệu thu thập từ cảm biến của điện thoại thông minh Luận văn Xây dựng thành công mô hình phát hiện hành động ngã của người dựa trên dữ liệu thu thập từ cảm biến của điện thoại thông minh Luận văn Xây dựng thành công mô hình phát hiện hành động ngã của người dựa trên dữ liệu thu thập từ cảm biến của điện thoại thông minh

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướng dẫn của PGS.TS Nguyễn Hà Nam tại Bộ môn các Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Các

số liệu và kết quả trình bày trong luận văn là trung thực và chưa được công bố trong các công trình khác

Tác giả

Phí Bá Chiến

Trang 4

Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo, các Nhà khoa học trong khoa CNTT đã truyền đạt những kiến thức quý báu và đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu Để có được dữ liệu phục vụ cho nghiên cứu, tôi xin gửi lời cảm ơn tới Nhóm nghiên cứu của PGS.TS Nguyễn Hà Nam, thầy Nguyễn Đức Nhân, anh Lê Hồng Lam, anh Phùng Quang Luyện, em Nguyễn Vũ Đông đã giúp tôi thu thập dữ liệu cũng như tiến hành một số thực nghiệm liên quan đến Luận văn

Tôi cũng gửi lời tri ân tới bạn bè, đồng nghiệp, người thân đã giúp đỡ và hỗ trợ tôi trong suốt quá trình nghiên cứu

Cuối cùng, tôi vô cùng biết ơn gia đình, bố mẹ, anh chị em, đặc biệt là vợ và con nhỏ của tôi, những người đã động viên, giành những điều kiện tốt nhất để tôi có thể hoàn thành chương trình nghiên cứu của mình

Phí Bá Chiến

Hà Nội, 2020

Trang 5

MỤC LỤC

LỜI CAM ĐOAN I LỜI CẢM ƠN II MỤC LỤC III DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT V DANH MỤC HÌNH ẢNH VI DANH MỤC BẢNG BIỂU VII

MỞ ĐẦU 1

Tính cấp thiết của luận văn 1

Mục tiêu của luận văn 2

Đối tượng và phạm vi nghiên cứu 2

Đóng góp của luận văn 2

Bố cục của luận văn 3

CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG HÀNH ĐỘNG 4

1.1 Giới thiệu 4

1.2 Một số khái niệm cơ bản 4

1.3 Các phương pháp nhận diện hành động 5

1.4 Một số nghiên cứu liên quan 6

1.5 Sử dụng dữ liệu cảm biến để phân tích hành động 7

1.6 Kết luận chương 8

CHƯƠNG 2 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN…… 9

2.2 Đặc điểm và một số cách xử lý dữ liệu thời gian thực 9

2.2.1 Tiền xử lý dữ liệu 9

2.2.2 Cửa sổ dữ liệu 11

2.2.3 Biến đổi dữ liệu 11

2.2.4 Thuộc tính trên miền thời gian 12

Trang 6

2.3 Các phương pháp phân lớp 14

2.3.1 Random Forest 15

2.3.2 Artificial Neural Network 16

2.3.3 Support Vector Machine 17

2.4 Phương pháp đánh giá phân lớp 18

2.4.1 Ma trận nhầm lẫn 18

2.4.2 Biểu đồ ROC và độ đo AUC 20

CHƯƠNG 3 XÂY DỰNG MÔ HÌNH PHÁT HIỆN HÀNH ĐỘNG 23

3.2 Tổng quan hệ thống 23

3.2.1 Dữ liệu thu thập từ cảm biến gia tốc 24

3.2.2 Xây dựng tập thuộc tính đặc trưng 25

3.3 Tối ưu mô hình 26

3.3.1 Thuật toán tối ưu Particle Swarm Optimization – PSO 26

3.3.2 Mô hình nhận dạng và thuật toán PSO 30

3.4 Thực nghiệm và đánh giá 34

3.4.1 Môi trường thực nghiệm 34

3.4.2 Dữ liệu thực nghiệm 34

3.4.3 Kết quả thực nghiệm với Random Forest 36

3.4.4 Kết quả thực nghiệm với ANN và SVM 38

3.4.5 Tối ưu mô hình Random Forest và thuật toán PSO 41

KẾT LUẬN 49

TÀI LIỆU THAM KHẢO 50

Trang 7

DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT

SVM Support Vector Machine Thuật toán phân lớp máy véc-tơ hỗ

trợ

bị phân lớp sai vào lớp âm)

bị phân lớp sai vào lớp dương)

được phân lớp đúng vào lớp âm)

Dương tính thật (mẫu mang nhãn dương được phân lớp đúng vào lớp dương)

Electronics Engineers Hội Kỹ sư Điện và Điện tử

Trang 8

DANH MỤC HÌNH ẢNH

Hình 2-1 Một số kỹ thuật chuẩn bị dữ liệu 10

Hình 2-2 Phân đoạn chuỗi tín hiệu thành các cửa sổ dữ liệu 11

Hình 2-3 Thuật toán Random Forest 15

Hình 2-4 Mô tả mạng ANN 16

Hình 2-5 Không gian trong mô hình SVM 17

Hình 2-6 Biểu đồ biểu diễn đường cong ROC 20

Hình 2-7 Diện tích đường cong ROC (độ đo AUC) 21

Hình 3-1 Tổng quan hệ thống phát hiện hành động ngã 23

Hình 3-2 Các trục X, Y, Z trên cảm biến gia tốc 24

Hình 3-3 Dữ liệu thời gian ba trục X, Y, Z biểu diễn trên đồ thị 25

Hình 3-4 Mô tả quá trình tìm kiếm thức ăn của đàn chim 27

Hình 3-5 Quá trình cập nhật vị trí sử dụng PSO 28

Hình 3-6 Tối ưu mô hình bằng thuật toán PSO 33

Hình 3-7 Biểu đồ kết quả phân lớp của mô hình RF 37

Hình 3-8 Biểu đồ kết quả mô hình ANN 40

Hình 3-9 Biểu đồ kết quả mô hình SVM 41

Hình 3-10 Biểu đồ kết quả hành động ngã BSC 43

Hình 3-11 Biểu đồ kết quả hành động ngã FKL 44

Hình 3-12 Biểu đồ kết quả hành động ngã FOL 44

Hình 3-13 Biểu đồ kết quả hành động ngã SDL 45

Hình 3-14 Biểu đồ kết quả phân lớp chung của mô hình 45

Trang 9

DANH MỤC BẢNG BIỂU

Bảng 2-1 Ma trận nhầm lẫn 18

Bảng 2-2 Độ đo AUC với độ chính xác của mô hình phân lớp 21

Bảng 3-1 Các hoạt động thường ngày 35

Bảng 3-2 Các trạng thái ngã 36

Bảng 3-3 Mô hình RF với các thông số mặc định 36

Bảng 3-4 Kết quả phân lớp của mô hình RF 37

Bảng 3-5 Bộ tham số của mô hình ANN và SVM 38

Bảng 3-6 Kết quả phân lớp của mô hình ANN 39

Bảng 3-7 Kết quả phân lớp của mô hình SVM 40

Bảng 3-8 Kết quả mô hình phân lớp sau tối ưu 43

Bảng 3-9 Kết quả mô hình phân lớp ban đầu 43

Bảng 3-10 Ma trận nhầm lẫn của mô hình Random Forest sau tối ưu 46

Bảng 3-11 Mô hình đề xuất và nghiên cứu liên quan 47

Trang 10

MỞ ĐẦU

Tính cấp thiết của luận văn

Ngày nay, theo dõi sức khỏe là một vấn đề được đặc biệt quan tâm trên thế giới Đặc biệt tại các nước phát triển, các vấn đề về ý tế, sức khỏe nhận được sự quan tâm hàng đầu Với những người cao tuổi, người có sức khỏe yếu thường xảy

ra những biến cố bất ngờ như ngã, đột quỵ nhưng không phải lúc nào cũng có điều kiện chăm sóc y tế, theo dõi thường xuyên từ nhân viên y tế hoặc người thân Những va chạm mạnh như vậy thường gây ra những ảnh hưởng lớn đến sức khỏe nếu không được phát hiện và xử lý kịp thời

Với sự phát triển không ngừng nghỉ của khoa học kỹ thuật, điện thoại thông minh ngày càng phổ biến trên thế giới Mọi người trên thế giới hiện nay đều có thể tiếp cận và sở hữu cho mình một chiếc điện thoại thông minh rất dễ dàng Điện thoại thông minh được tích hợp rất nhiều loại cảm biến khác, kèm theo đó điện thoại thông minh thường được đem đi thường xuyên và sử dụng nhiều trong cuộc sống cho phép nó trở thành một công cụ rất hữu ích trong việc thu thập các dữ liệu

từ người dùng Rất nhiều công trình nghiên cứu và ứng dụng liên quan đến việc thu thập dữ liệu từ cảm biến của điện thoại thông minh được công bố trong những năm gần đây

Vì vậy, với những yếu tố về con người, khoa học kỹ thuật kể trên, chúng tôi muốn xây dựng mô hình có thể phát hiện hành động ngã thông qua việc sử dụng dữ

liệu cảm biến của điện thoại thông minh Do đó tôi đã chọn đề tài: “Nghiên cứu và

xây dựng hệ thống phát hiện hành động ngã của người đi bộ dựa trên cảm biến của điện thoại di động” làm đề tài nghiên cứu của luận văn thạc sĩ chuyên ngành Kỹ

thuật phần mềm

Trang 11

Mục tiêu của luận văn

Mục tiêu của Luận văn là tập trung vào phân tích dữ liệu từ cảm biến thu được từ điện thoại của con người trong cuộc sống hàng ngày, từ đó phát hiện được các hành động của con người, đặc biệt tập trung vào hành động ngã

Để giải quyết được mục tiêu của Luận văn, chúng tôi tập trung vào giải quyết các vấn đề chính sau:

 Tìm hiểu và nghiên cứu các kỹ thuật phân tích dữ liệu hiện có trên thế giới Các kỹ thuật biến đổi dữ liệu dựa trên nhiều loại cảm biến khác nhau của điện thoại Từ đó có thể tìm được kỹ thuật phù hợp nhất để có thể áp dụng vào bài toán phát hiện hành động ngã

 Từ tập dữ liệu đầu vào dựa trên cảm biến của điện thoại thông minh, có thể xây dựng được hệ thống phát hiện các hành động (đi bộ, ngồi, chạy, ngã, …) của con người trong cuộc sống hàng ngày

 Nghiên cứu thuật toán tối ưu để có thể nâng cao được độ chính xác của hệ thống Giảm thiểu tối đa sự nhầm lẫn giữa các hành động, đặc biệt là hành động bình thường và hành động ngã

Đối tƣợng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận văn là phân tích hành động của con người dựa trên dữ liệu thu thập được khi họ đem theo điện thoại ở những vị trí như túi áo, túi quần Tập trung phân tích dữ liệu thu thập được từ cảm biến gia tốc để có thể phân tích được hành động cụ thể

Đóng góp của luận văn

Đóng góp thứ nhất của luận văn: Xây dựng thành công mô hình phát hiện

hành động ngã của người dựa trên phân tích dữ liệu thu được từ cảm biến của điện thoại thông minh

Đóng góp thứ hai của luận văn: Áp dụng thành công thuật toán tối ưu tham

số Particle Swarm Optimization – PSO để tối ưu mô hình, nâng cao độ chính xác

Trang 12

Bố cục của luận văn

Ngoài phần mở đầu, mục lục, kết luận và tài liệu tham khảo, nội dung chính của luận văn được chia thành 3 chương, cụ thể như sau:

Chương 1: Trình bày các kiến thức nền tảng về học máy Giới thiệu một số khái niệm về các hoạt động của con người và một số phương pháp cũng như nghiên cứu trước đây về chủ đề này Từ đó đề xuất giải pháp phát thiện hành động ngã dựa trên dữ liệu cảm biến gia tốc trên điện thoại

Chương 2: Tìm hiểu và phân tích quy trình chuẩn bị dữ liệu, tiền xử lý dữ liệu Tìm hiểu các phương pháp phân lớp cũng như ưu nhược điểm của từng phương pháp Đồng thời nêu ra những phương pháp đánh giá phân lớp, lựa chọn các trọng số để có thể đánh giá chính xác nhất độ tốt của một phương pháp phân lớp

Chương 3: Đề xuất hệ thống phát hiện hành động ngã dựa trên dữ liệu cảm biến thu được từ điện thoại thông minh Tiến hành thực nghiệm và đánh giá Áp dụng thuật toán tham số để tối ưu mô hình phân lớp

Trang 13

Chương 1 TỔNG QUAN VỀ NHẬN DẠNG HÀNH ĐỘNG

Ngày nay, nhận dạng hành động và ứng dụng vào y tế, thể thao là một trong những vấn đề được quan tâm trên toàn thế giới Rất nhiều công trình khoa học, ứng dụng liên quan đến vấn đề này được ứng dụng vào thực tế và đem lại những thành công nhất định Bên cạnh đó hiện nay, có rất nhiều trường hợp xảy ra những sự cố như đột quỵ, ngã gây ra những hậu quả nghiêm trọng khi không được phát hiện và can thiệp y tế kịp thời

Điện thoại thông minh hiện nay đã gắn liền với hoạt động thường ngày của rất nhiều người Kèm theo đó là sự đa dạng về chủng loại, tính năng, hiệu năng và nhiều loại cảm biến khác nhau trên điện thoại thông minh Cảm biến gia tốc được tích hợp trên hầu hết các loại điện thoại thông minh hiện nay Loại cảm biến này có

độ nhạy, độ chính xác cao trên từ những điện thoại thông minh tầm trung đến cấp cao

Do vậy, chương này chúng tôi sẽ làm rõ những khái niệm về hành động, hành vi cũng như xác định bài toán phân tích hành động của người đi bộ thông qua những dữ liệu thu thập được từ dữ liệu gia tốc trên điện thoại thông minh

Hành động là việc làm cụ thể của con người nhằm mục đích nhất định [1] Hành vi (danh từ) là toàn bộ nói chung những phản ứng, các cư xử biểu hiện

ra bên ngoài của một người trong một hoàn cảnh cụ thể [1]

Hành vi bất thường của con người là những phản ứng hoặc cách cư xử khác với bình thường bị tác động bởi các yếu tố khách quan hoặc chủ quan trong cuộc sống thường ngày [1]

Việc nhận biết được các loại hành động, hành vi của con người là cơ sở để đánh giá hành vi đó là bình thường hoặc bất thường Cụ thể trong khuôn khổ luận

Trang 14

Hành động bình thường:

- Đứng: đứng với một vài cử động nhẹ nhàng

- Đi bộ: đi bộ bình thường

- Chạy bộ

- Nhảy: nhảy liên tục

- Lên cầu thang

- Xuống cầu thang

- Ngồi xuống

- Ngồi trên ghế

- Đứng lên: từ ngồi chuyển sang đứng

- Bước vào xe ô tô

- Ngã từ ghế: ngã ngửa trong khi đang ngồi trên ghế

- Ngã nghiêng: ngã nghiêng về một bên trong khi đang đứng, gập chân

Ngày nay khi khoa học công nghệ càng phát triển, nó đã được ứng dụng vào nhiều lĩnh vực trong cuộc sống Nhận diện hành động cũng nhận được nhiều sự quan tâm và ứng dụng vào thực thế Có nhiều phương pháp cũng như cách thức nhận diện hành động được giới thiệu trên thế giới Nhưng mỗi phương pháp lại có

ưu, nhược điểm khác nhau cũng như sự phù hợp với môi trường, thực tiễn của từng khu vực

Nhận diện hành động qua hình ảnh được áp dụng ở nhiều nước tiên tiến trên thế giới Một vài siêu thị lớn trên thế giới sử dụng phương pháp này để giám sát

Trang 15

cũng như đảm bảo an ninh, tránh thất thoát tài sản trong siêu thị Kèm theo đó siêu thị cũng có thể biết được khách hàng thường quan tâm đến những sản phẩm nào hơn Một vài quốc gia trên thế giới có hệ thống camera phủ sóng trên các con đường, trung tâm thương mại và những nơi đông người để kiểm soát an ninh Các

cơ quan chức năng có thể nhanh chóng can thiệp nếu xảy ra sự cố Nhận dạng hành động qua hình ảnh ưu điểm là dễ kiểm soát, tập trung Có thể chủ động được tính ổn định của thiết bị giám sát Nhưng những hệ thống này thường rất phức tạp và có chi phí lắp đặt cũng như vận hành cao

Nhận diện hành động qua radar được sử dụng nhiều trong quân sự Có độ chính xác cao nhưng đi kèm theo đó là lượng điện năng tiêu thụ lớn và các hệ thống rất phức tạp

Nhận điện hành động sử dụng cảm biến của điện thoại thông minh đang là một đề tài được đặc biệt quan tâm hiện nay Từ những điều đơn giản nhất như nắm bắt giấc ngủ, giờ sinh hoạt của từng người sử dụng đến phức tạp như phân tích hành động, tính toán trong hoạt động thể thao của người sử dụng Với những ưu điểm có rất nhiều loại cảm biến được tích hợp trong điện thoại như cảm biến gia tốc, cảm biến tiệm cận, cảm biến nhịp tim, cảm biến ánh sáng

Thu thập dữ liệu và nhận diện hành động đang là một chủ để được nhiều nhóm nghiên cứu quan tâm Có rất nhiều bài báo cũng như các công trình nghiên cứu được công bố về vấn đề này

Yan Wang và cộng sự đã thực hiện một cuộc khảo sát về phương thức cảm biến có thể đeo được trên cổ tay tập trung vào việc ghi nhận hoạt động chăm sóc sức khỏe của con người [2]

Adnan Nadeem và cộng sự đã xây dựng tập dữ liệu sử dụng cảm biến đo lường quán tính và điện tâm đồ có thể đeo được để nhận dạng hoạt động, phát hiện ngã và hệ thống phát hiện bất thường về tim cơ bản [3]

Trang 16

Henry Friday Nweke và cộng sự đã chỉ ra các khó khăn và thách thức khi sử dụng các thuật toán học sâu để nhận dạng hoạt động của con người bằng cách sử dụng mạng cảm biến di động và có thể đeo được [4]

Emma Stack và cộng sự có một công trình nghiên cứu xác định sự suy giảm khả năng thăng bằng ở những người bị bệnh Parkinson bằng cách sử dụng video và cảm biến có thể đeo được [5]

Nethra Ganesh Chigateria và cộng sự đã sử dụng gia tốc kế để đo hoạt động của người già [6]

Yinfeng Wu và cộng sự đề xuất hệ thống phát hiện trước khi va chạm dựa trên cảm biến có thể đeo được với bộ phân loại thứ bậc [7]

Charissa Ann Ronao và Sung-Bae Cho đề xuất các giải pháp nhận biết các hoạt động của con người từ các cảm biến của điện thoại thông minh bằng cách sử dụng các mô hình Markov ẩn liên tục phân cấp [8]

Điện thoại thông minh hiện nay được tích hợp rất nhiều loại cảm biến đi kèm Những loại cảm biến phổ biến như cảm biến vân tay, biến tiệm cận, cảm biến nhiệt, cảm biến ánh sáng, cảm biến từ kế, cảm biến hình ảnh, cảm biến gia tốc, cảm biến con quay hồi chuyển Những loại cảm biến này thường được kết hợp với nhau

để áp dụng vào bài toán phân tích hành vi Nhưng có một điều bất cập là sự giới hạn của tốc độ xử lý cũng như nguồn pin của điện thoại Khi kết hợp càng nhiều loại cảm biến cùng một lúc sẽ gây ra hiện tượng quá tải của điện thoại, kèm theo đó là tuổi thọ của pin điện thoại sẽ không được cao Vì vậy trong khuôn khổ luận văn này, chúng tôi sử dụng cảm biến gia tốc của điện thoại thông minh Cảm biến gia tốc được dùng để ghi nhận lại sự chuyển đổi vị trí của điện thoại Nó có ưu điểm là tốn ít tài nguyên của thiết bị, tránh làm ảnh hưởng đến hiệu năng của điện thoại cũng như trải nghiệm của người dùng Cảm biến gia tốc cũng có độ nhạy rất cao và chính xác, được tích hợp trên hầu hết các điện thoại thông minh hiện nay

Khi sử dụng cảm biến gia tốc, dữ liệu thu được là một chuỗi dữ liệu liên tục theo thời gian Mỗi thời điểm, dữ liệu gia tốc thu được có hai thuộc tính là thời gian,

Trang 17

véc-tơ được xác định bởi ba trục tọa độ thiết bị X, Y, Z Khi thiết bị được di chuyển hoặc có sự thay đổi về vị trí, véc-tơ tương ứng với ba trục X, Y, Z cũng sẽ thay đổi

Vì vậy để kết quả được chính xác, các thiết bị nên tránh bị đổi hướng, nên để

cố định ở một vị trí như túi áo, hoặc túi quần Nếu trong quá trình chuyển động, có

sự thay đổi vị trí đặt điện thoại rất dễ gây ra những sự xáo trộn và nhầm lẫn giữa các trục X, Y, Z Dữ liệu càng chứa nhiều nhiễu thì độ chính xác càng giảm

Từ những luận điểm trên, trong khuôn khổ luận văn về phân tích hành động, hành vi thì sử dụng cảm biến gia tốc để thu thập dữ liệu là hoàn toàn phù hợp

Trong chương này, chúng tôi đã tìm hiểu và nghiên cứu các khái niệm cơ bản

và những phương pháp nhận diện hành động được sử dụng rộng rãi hiện nay Chúng tôi cũng khảo sát và tìm hiểu các công trình nghiên cứu liên quan đến nhận dạng hành động Để từ đó lựa chọn được hướng đi và phương pháp phù hợp cho bài toán

cụ thể trong luận văn

Trang 18

Chương 2 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU CHUỖI

THỜI GIAN

Để có được kết quả phân lớp tốt phải sử dụng và kết hợp nhiều kỹ thuật như tiền xử lý dữ liệu, biến đổi dữ liệu, xây dựng bộ dữ liệu đặc trưng Từ bộ dữ liệu đã được xử lý sẽ áp dụng vào mô hình để ra kết quả phân lớp Trong chương này, chúng tôi sẽ giới thiệu về các kỹ thuật xử lý dữ liệu và các kỹ thuật, phương pháp phân lớp được sử dụng phổ biến Kèm theo đó là các phương pháp đánh giá phân lớp cũng như mục đích của từng phương pháp

2.2 Đặc điểm và một số cách xử lý dữ liệu thời gian thực

2.2.1 Tiền xử lý dữ liệu

Tiền xử lý dữ liệu là một bước quan trọng trong khai phá dữ liệu Để hệ thống hoạt động với độ chính xác cao cần phải có một bộ dữ liệu phù hợp và chính xác Nếu dữ liệu không được chuẩn bị tốt, các thuật toán nhận dạng có thể không nhận dạng được dữ liệu từ đó sẽ gây ra khó khăn trong quá trình xây dựng hệ thống

Một vài kỹ thuật phổ biến dùng để xử lý dữ liệu hiện nay như: làm sạch dữ liệu, chuẩn hóa dữ liệu, chuyển đổi dữ liệu, tích hợp dữ liệu, phát hiện nhiễu, tính giá trị thiếu

- Làm sạch dữ liệu (Data cleaning): là bước để loại bỏ hay xử lý những

dữ liệu không chính xác ra khỏi tập dữ liệu

- Xác định nhiễu (Noise Identification): trong một bộ dữ liệu thu thập được, thường có những bộ dữ liệu bị sai, khuyết một vài thuộc tính Cách đơn giản nhất là có thể xóa chúng đi hoặc có thể sử dụng một vài phương pháp tính toán để điền vào bộ dữ liệu khuyết dạng thời gian liên tục Điều này sẽ làm bộ dữ liệu có tính đồng nhất, không còn những mẫu dễ gây ra sai số trong quá trình chạy mô hình

Trang 19

- Bổ sung dữ liệu thiếu (Missing Data Imputation) là thêm vào các phần

dữ liệu bị thiếu trong quá trình thu thập và chuẩn bị Giúp bộ dữ liệu

có tính nhất quán Các giá trị thêm vào là các giá trị được ước tính một cách hợp lý

- Biến đổi dữ liệu (Data Transformation) để làm tăng độ chính xác trong khai phá dữ liệu Từ dữ liệu thô ban đầu sẽ tiến hành làm mịn, chuẩn hóa và xây dựng lên bộ thuộc tính cần cho quá trình phân lớp

- Tích hợp dữ liệu (Data Integration): là kết hợp dữ liệu từ nhiều nguồn, nhiều kho dữ liệu khác nhau

- Chuẩn hóa dữ liệu (Data Normalization): là một bước quan trọng trong quá trình chuẩn bị dữ liệu học máy Tùy vào từng bài toán cụ thể cũng như phương pháp học máy Những cách chuẩn hóa dữ liệu khác nhau sẽ làm ảnh hưởng trực tiếp đến độ chính xác của mô hình

- Giảm chiều dữ liệu (Data Reduction): là một kỹ thuật giúp giảm độ phức tạp của dữ liệu gốc nhưng vẫn giữ được tính toàn vẹn của dữ liệu [9]

Làm sạch dữ liệu

Chuyển đổi dữ liệu

Chuẩn hóa dữ liệu

Bổ sung dữ liệu thiếu

H nh 2-1 Một số kỹ thuật chuẩn bị dữ liệu

Trang 20

2.2.2 Cửa sổ dữ liệu

Kỹ thuật cửa sổ trượt (Sliding window) là một kỹ thuật được sử dụng phổ biến trong nhiều bài toán phân lớp Đây là một kỹ thuật dùng để cắt một đoạn dữ liệu thành nhiều cửa sổ khác nhau có cùng kích thước là W Mỗi cửa sổ chồng lên nhau bằng cách lấy lại một phần dữ liệu của cửa sổ ngay trước nó

Dữ liệu chuỗi thời gian được sử dụng rộng rãi trên thế giới và được áp dụng trên nhiều lĩnh vực như y tế, chứng khoán Dữ liệu thu thập được từ cảm biến gia tốc của điện thoại thông minh là bộ dữ liệu liên tục theo thời gian với tần số lấy mẫu

là 50Hz Vì vậy bộ dữ liệu bao gồm rất nhiều giá trị liên tục theo thời gian Với bài toán nhận dạng hành động, chúng ta hoàn toàn có thể áp dụng kỹ thuật cửa sổ trượt

để phân đoạn chuỗi dữ liệu thành nhiều cửa sổ với mức độ chồng dữ liệu khác nhau

Ví dụ về một đoạn dữ liệu được phân đoạn theo nhiều cửa sổ trượt được trình bày như hình dưới đây:

1 2 … k-1 k k+1 … N-1 N

w =Độ dài của cửa sổ

Chồng dữ liệu

H nh 2-2 Phân đoạn chuỗi tín hiệu thành các cửa sổ dữ liệu

Ở trong hình biểu diễn phân đoạn chuỗi dữ liệu thành ba cửa sổ i -1, i, i +1

có kích thước là N và chồng dữ liệu là k, cửa sổ tiếp theo sử dụng k điểm dữ liệu của cửa sổ trước đó

2.2.3 Biến đổi dữ liệu

Biến đổi dữ liệu là một cách biến đổi dữ liệu thô ban đầu thành các tập thuộc tính đặc trưng Các tập thuộc tính đặc trưng này là yếu tố quan trọng giúp mô hình phân lớp có thể nhận biết và đoán nhận các nhãn phù hợp Với mỗi bài toán học máy khác nhau, cụ thể là những bài toán phân lớp khác nhau cần xây dựng những tập thuộc tính phù hợp

Trang 21

Với bài toán phát hiện hành động ngã, tập dữ liệu là một tập dữ liệu liên tục theo thời gian nên các tập thuộc tính đặc trưng được lựa chọn phổ biến và phù hợp hiện nay là theo miền thời gian và miền tần số Dựa vào thực nghiệm và đánh giá,

có thể tìm ra những tập thuộc tính để mô hình có độ chính xác cao nhất

2.2.4 Thuộc tính trên miền thời gian

Trong miền thời gian, các đặc trưng cơ bản thường được dùng để phân tích tín hiệu là :

- Giá trị trung bình của một cửa sổ dữ liệu đại diện chung cho tất cả các mẫu giá trị trong cửa sổ đó Với một cửa sổ có N mẫu, giá trị trung bình được tính là tổng giá trị tất cả các mẫu chia số lượng mẫu:

trong đó ̅ là giá trị trung bình được tính bởi công thức phía trên

- Độ lệch chuẩn được tình bằng căn bậc hai của giá trị phương sai

- Độ lệch mẫu là độ lệch giá trị giữa giá trị mẫu cực đại và mẫu giá trị cực tiểu của tín hiệu Độ lệch mẫu được tính bằng công thức

Trang 22

hiệu có thể là giá trị trung bình của tín hiệu Số lần tín hiệu đi qua đường phân cách

là số lượng điểm cắt không Số lượng điểm cắt không có thể được ước tính như sau:

2.2.5 Thuộc tính trên miền tần số

Thuộc tính miền tần số biểu hiện sự lặp lại của dữ liệu liên tục Để biến đổi

dữ liệu từ miền thời gian sang miền tần số thường sử dụng phép biến đổi Fourier

Biến đổi Fourier được sử dụng trong những ứng dụng khoa học như xác suất thống kê, vật lý, mật mã, quang học và rất nhiều lĩnh vực khác Trong xử lý tín hiệu liên tục, phép biến đổi Fourier sẽ chuyển đổi tín hiệu sang thành phần biên độ và tần

số Có ba dạng biến đổi Fourier là biến đổi Fourier liên lục, chuỗi Fourier, biến đổi Fourier rời rạc [10] Với bộ dữ liệu của bài toán phát hiện hành động ngã, biến đổi Fourier rời rạc là phù hợp nhất

Biến đổi Fourier rời rạc được dùng cho các tín hiệu thời gian rời rạc Khi mà

bộ dữ liệu gồm một chuỗi hữu hạn các mẫu là các số thực Công thức của biến đổi Fourier rời rạc được tính toán bởi thuật toán biến đổi Fourier nhanh:

∑ ( ( ) )

(2.7)

Trang 23

Trong đó y(t) là đại diện cho tín hiệu

Tính di động (Mobility) thể hiện tần số trung bình hoặc tỷ lệ độ lệch chuẩn của phổ công suất Điều này được định nghĩa là căn bậc hai của phương sai của đạo

hàm đầu tiên của tín hiệu y(t) chia cho phương sai của tín hiệu y(t)

√ (

( ) ) ( ( ))

(2.9)

Độ phức tạp (Complexity) thể hiện sự thay đổi về tần số Tham số so sánh mức độ tương tự của tín hiệu với sóng hình Sin thuần túy, trong đó giá trị hội tụ thành 1 nếu tín hiệu tương tự hơn

(

( )) ( ( ))

(2.10)

Trang 24

chọn phương pháp phân lớp phù hợp nhất Trong khuôn khổ luận văn, đối với bài toán phát hiện hành động ngã của người đi bộ có thể thử nghiệm các phương pháp phân lớp là Random Forest (RF), Artificial Neural Network (ANN), Support Vector Machine (SVM)

2.3.1 Random Forest

Random Forest (rừng ngẫu nhiên) được phát triển bởi Leo Breiman tại Đại học California, Berkeley Random Forest là một thuật toán học có giám sát và được đánh giá là một trong 10 phương pháp khai phá dữ liệu kinh điển nhất

Random Forest dựa trên kỹ thuật học kết hợp Nó tạo ra nhiều bộ phân lớp sau đó kết hợp tất cả các kết quả của chúng Nó hoạt động bằng cách xây dựng rất nhiều cây quyết định một cách ngẫu nhiên Mỗi cây quyết định được lựa chọn một cách ngẫu nhiên từ việc tái chọn mẫu (chọn ngẫu nhiên một phần của dữ liệu để xây dựng) và ngẫu nhiên các biến trong tập dữ liệu Sau khi mỗi cây quyết định đưa ra kết quả của mình Thuật toán sử dụng cơ chế voting để tổng hợp lại kết quả của từng cây riêng lẻ rồi lựa chọn kết quả có nhiều sự lựa chọn nhất [12]

H nh 2-3 Thuật toán Random Forest

Hình 2-3 biểu diễn cơ chế hoạt động của thuật toán RF đơn giản gồm 3 câu quyết định Mỗi cây quyết định sẽ lựa chọn mẫu và đưa ra kết quả của riêng mình

Trang 25

lần lượt là A, B, B Sau đó các kết quả được tổng hợp lại, thông qua cơ chế voting

sẽ nhận được kết quả cuối cùng là B

2.3.2 Artificial Neural Network

Artificial Neural Network (ANN) có thể hiểu là mạng thần kinh nhân tạo lấy cảm hứng từ mạng nơ-ron thần kinh Mô hình được mô phỏng dựa trên liên kết giữa các nơ-ron thần kinh trong bộ não của con người Mô hình tạo một mạng lưới các nút để xử lý dữ liệu, mỗi nút được liên kết với nhau Dữ liệu sẽ được chạy qua tất cả các nút trong mạng lưới ANN và cho ra kết quả Mỗi kết quả đầu ra đều được so sánh với với các kết quả và dữ liệu mà mô hình đã được học tập trước đó [13]

Mô hình ANN có ba thành phần chính: Input Layer, Hidden Layer, Output Layer Tùy vào từng bài toán cụ thể có thể có một hoặc nhiều Hidden Layer

H nh 2-4 Mô tả mạng ANN

Ta có thể thấy các node thuộc từng layer đều liên kết với tất cả các node

Trang 26

 Input Layer: cung cấp các số liệu cần thiết cho mạng Mỗi node của input layer tương ứng với một thông số đầu vào Các thông số này được chuyển đổi

về dạng véc-tơ Số nơ-ron của Input Layer sẽ do bài toán quyết định

 Hidden Layer: gồm các neuron ẩn Nó giúp kết nối giữ Input Layer và Output Layer Tùy vào mỗi bài toán cụ thể Hidden Layer có thể có một hoặc nhiều lớp Mỗi node sẽ nhận ma trận đầu vào từ lớp trước nó, kết hợp với các trọng

số để trả về kết quả Số lượng nơ-ron và số lượng lớp sẽ do người dùng quyết định

 Output Layer: gồm các nơ-ron đầu ra Qua các tính toán của ANN, kết quả được chuyển đến người dùng qua lớp này

2.3.3 Support Vector Machine

Support Vector Machine (SVM) được dùng trong các bài toán phân loại nhị phân hoặc đệ quy Trong mô hình SVM, mỗi dữ liệu tương ứng với một điểm trong không gian Ví dụ với không gian N chiều, mô hình sẽ tìm một siêu phẳng gồm N-1 chiều Siêu phẳng này sẽ chia đôi tập dữ liệu ra thành 2 phần riêng biệt Việc đánh giá siêu phẳng này có tốt nhất hay không phụ thuộc vào khoảng cách của điểm gần nhất trong không gian đến siêu phẳng [14] Khoảng cách càng lớn thì siêu phẳng được đánh giá càng tốt SVM luôn cố gắng cực đại khoảng cách này

H nh 2-5 Không gian trong mô hình SVM

Trang 27

Ở hình ảnh phía trên, mô hình SVM sẽ lựa lựa chọn siêu phẳng H3 để phân loại các điểm trong không gian thành 2 phần riêng biệt Siêu phẳng H3 có khoảng cách cực đại đến các điểm gần nó nhất

2.4.1 Ma trận nhầm lẫn

Trong bài toán phân loại hành động, các giá trị để đánh giá mô hình là độ chính xác (precision), độ bao phủ (recall), F-Measure, độ đo AUC, đường cong ROC

Ma trận nhầm lẫn gồm 4 giá trị chính sau:

 TP[i] (true positive): số dự đoán chính xác của lớp i

 FP[i] (false positive): số lượng các mẫu không thuộc lớp i, bị phân loại nhầm vào lớp i

 TN[i] (true negative): số lượng các ví dụ không thuộc lớp i được phân loại chính xác

 FN[i] (false negative): số lương các mẫu thuộc lớp i nhưng bị phân loại nhầm vào lớp khác

Ma trận nhầm lẫn với bài toán cụ thể phân lớp với hai mẫu dữ liệu mang nhãn dương (+) và nhãn âm (-):

Trang 29

2.4.2 Biểu đồ ROC và độ đo AUC

Như đã trình bài ở phần trên, những mô hình có độ nhạy cao thì độ đặc hiệu thấp hoặc ngược lại, vì vậy biểu đồ ROC (Receiver Operating Characteristic) là phương pháp phân tích để cân bằng hai độ đo này Biểu đồ ROC gồm 2 trục X, và

Y Trục tung (Y) biểu là giá trị True positive rate, trục hoành (X) biểu diễn giá trị False positive rate

True positive rate =

False positive rate =

H nh 2-6 Biểu đồ biểu diễn đường cong ROC

Hai giá trị True positive rate và False positive rate được biểu diễn bởi các điểm trên biểu đồ ROC Hai chỉ số này biến thiên ngược chiều nhau và tạo thành

Trang 30

Độ đo AUC (Area Under Curve) chính là diện tích đường cong ROC Công thức tính AUC như sau:

0 0

0 1

1 2

n n R

H nh 2-7 Diện tích đường cong ROC (độ đo AUC)

Độ đo AUC càng lớn, độ chính xác của mô hình phân lớp càng cao, mô hình được đánh giá tốt Một mô hình tốt có độ đo AUC trên 0.5

Bảng 2-2 Độ đo AUC với độ chính xác của mô h nh phân lớp

Định dạng
Số trang	60
Dung lượng	1,43 MB