Luận văn Xây dựng thành công mô hình phát hiện hành động ngã của người dựa trên dữ liệu thu thập từ cảm biến của điện thoại thông minh Luận văn Xây dựng thành công mô hình phát hiện hành động ngã của người dựa trên dữ liệu thu thập từ cảm biến của điện thoại thông minh Luận văn Xây dựng thành công mô hình phát hiện hành động ngã của người dựa trên dữ liệu thu thập từ cảm biến của điện thoại thông minh Luận văn Xây dựng thành công mô hình phát hiện hành động ngã của người dựa trên dữ liệu thu thập từ cảm biến của điện thoại thông minh
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu do tôi thực hiện dưới sự hướng dẫn của PGS.TS Nguyễn Hà Nam tại Bộ môn các Hệ thống Thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Các
số liệu và kết quả trình bày trong luận văn là trung thực và chưa được công bố trong các công trình khác
Tác giả
Phí Bá Chiến
Trang 4Tôi cũng xin gửi lời cảm ơn tới tập thể các Thầy, Cô giáo, các Nhà khoa học trong khoa CNTT đã truyền đạt những kiến thức quý báu và đã tạo điều kiện thuận lợi cho tôi trong quá trình học tập và nghiên cứu Để có được dữ liệu phục vụ cho nghiên cứu, tôi xin gửi lời cảm ơn tới Nhóm nghiên cứu của PGS.TS Nguyễn Hà Nam, thầy Nguyễn Đức Nhân, anh Lê Hồng Lam, anh Phùng Quang Luyện, em Nguyễn Vũ Đông đã giúp tôi thu thập dữ liệu cũng như tiến hành một số thực nghiệm liên quan đến Luận văn
Tôi cũng gửi lời tri ân tới bạn bè, đồng nghiệp, người thân đã giúp đỡ và hỗ trợ tôi trong suốt quá trình nghiên cứu
Cuối cùng, tôi vô cùng biết ơn gia đình, bố mẹ, anh chị em, đặc biệt là vợ và con nhỏ của tôi, những người đã động viên, giành những điều kiện tốt nhất để tôi có thể hoàn thành chương trình nghiên cứu của mình
Phí Bá Chiến
Hà Nội, 2020
Trang 5MỤC LỤC
LỜI CAM ĐOAN I LỜI CẢM ƠN II MỤC LỤC III DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT V DANH MỤC HÌNH ẢNH VI DANH MỤC BẢNG BIỂU VII
MỞ ĐẦU 1
Tính cấp thiết của luận văn 1
Mục tiêu của luận văn 2
Đối tượng và phạm vi nghiên cứu 2
Đóng góp của luận văn 2
Bố cục của luận văn 3
CHƯƠNG 1 TỔNG QUAN VỀ NHẬN DẠNG HÀNH ĐỘNG 4
1.1 Giới thiệu 4
1.2 Một số khái niệm cơ bản 4
1.3 Các phương pháp nhận diện hành động 5
1.4 Một số nghiên cứu liên quan 6
1.5 Sử dụng dữ liệu cảm biến để phân tích hành động 7
1.6 Kết luận chương 8
CHƯƠNG 2 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU CHUỖI THỜI GIAN…… 9
2.1 Giới thiệu 9
2.2 Đặc điểm và một số cách xử lý dữ liệu thời gian thực 9
2.2.1 Tiền xử lý dữ liệu 9
2.2.2 Cửa sổ dữ liệu 11
2.2.3 Biến đổi dữ liệu 11
2.2.4 Thuộc tính trên miền thời gian 12
Trang 62.3 Các phương pháp phân lớp 14
2.3.1 Random Forest 15
2.3.2 Artificial Neural Network 16
2.3.3 Support Vector Machine 17
2.4 Phương pháp đánh giá phân lớp 18
2.4.1 Ma trận nhầm lẫn 18
2.4.2 Biểu đồ ROC và độ đo AUC 20
2.5 Kết luận chương 22
CHƯƠNG 3 XÂY DỰNG MÔ HÌNH PHÁT HIỆN HÀNH ĐỘNG 23
3.1 Giới thiệu 23
3.2 Tổng quan hệ thống 23
3.2.1 Dữ liệu thu thập từ cảm biến gia tốc 24
3.2.2 Xây dựng tập thuộc tính đặc trưng 25
3.3 Tối ưu mô hình 26
3.3.1 Thuật toán tối ưu Particle Swarm Optimization – PSO 26
3.3.2 Mô hình nhận dạng và thuật toán PSO 30
3.4 Thực nghiệm và đánh giá 34
3.4.1 Môi trường thực nghiệm 34
3.4.2 Dữ liệu thực nghiệm 34
3.4.3 Kết quả thực nghiệm với Random Forest 36
3.4.4 Kết quả thực nghiệm với ANN và SVM 38
3.4.5 Tối ưu mô hình Random Forest và thuật toán PSO 41
3.5 Kết luận chương 48
KẾT LUẬN 49
TÀI LIỆU THAM KHẢO 50
Trang 7DANH MỤC KÝ HIỆU VÀ TỪ VIẾT TẮT
SVM Support Vector Machine Thuật toán phân lớp máy véc-tơ hỗ
trợ
bị phân lớp sai vào lớp âm)
bị phân lớp sai vào lớp dương)
được phân lớp đúng vào lớp âm)
Dương tính thật (mẫu mang nhãn dương được phân lớp đúng vào lớp dương)
Electronics Engineers Hội Kỹ sư Điện và Điện tử
Trang 8DANH MỤC HÌNH ẢNH
Hình 2-1 Một số kỹ thuật chuẩn bị dữ liệu 10
Hình 2-2 Phân đoạn chuỗi tín hiệu thành các cửa sổ dữ liệu 11
Hình 2-3 Thuật toán Random Forest 15
Hình 2-4 Mô tả mạng ANN 16
Hình 2-5 Không gian trong mô hình SVM 17
Hình 2-6 Biểu đồ biểu diễn đường cong ROC 20
Hình 2-7 Diện tích đường cong ROC (độ đo AUC) 21
Hình 3-1 Tổng quan hệ thống phát hiện hành động ngã 23
Hình 3-2 Các trục X, Y, Z trên cảm biến gia tốc 24
Hình 3-3 Dữ liệu thời gian ba trục X, Y, Z biểu diễn trên đồ thị 25
Hình 3-4 Mô tả quá trình tìm kiếm thức ăn của đàn chim 27
Hình 3-5 Quá trình cập nhật vị trí sử dụng PSO 28
Hình 3-6 Tối ưu mô hình bằng thuật toán PSO 33
Hình 3-7 Biểu đồ kết quả phân lớp của mô hình RF 37
Hình 3-8 Biểu đồ kết quả mô hình ANN 40
Hình 3-9 Biểu đồ kết quả mô hình SVM 41
Hình 3-10 Biểu đồ kết quả hành động ngã BSC 43
Hình 3-11 Biểu đồ kết quả hành động ngã FKL 44
Hình 3-12 Biểu đồ kết quả hành động ngã FOL 44
Hình 3-13 Biểu đồ kết quả hành động ngã SDL 45
Hình 3-14 Biểu đồ kết quả phân lớp chung của mô hình 45
Trang 9DANH MỤC BẢNG BIỂU
Bảng 2-1 Ma trận nhầm lẫn 18
Bảng 2-2 Độ đo AUC với độ chính xác của mô hình phân lớp 21
Bảng 3-1 Các hoạt động thường ngày 35
Bảng 3-2 Các trạng thái ngã 36
Bảng 3-3 Mô hình RF với các thông số mặc định 36
Bảng 3-4 Kết quả phân lớp của mô hình RF 37
Bảng 3-5 Bộ tham số của mô hình ANN và SVM 38
Bảng 3-6 Kết quả phân lớp của mô hình ANN 39
Bảng 3-7 Kết quả phân lớp của mô hình SVM 40
Bảng 3-8 Kết quả mô hình phân lớp sau tối ưu 43
Bảng 3-9 Kết quả mô hình phân lớp ban đầu 43
Bảng 3-10 Ma trận nhầm lẫn của mô hình Random Forest sau tối ưu 46
Bảng 3-11 Mô hình đề xuất và nghiên cứu liên quan 47
Trang 10MỞ ĐẦU
Tính cấp thiết của luận văn
Ngày nay, theo dõi sức khỏe là một vấn đề được đặc biệt quan tâm trên thế giới Đặc biệt tại các nước phát triển, các vấn đề về ý tế, sức khỏe nhận được sự quan tâm hàng đầu Với những người cao tuổi, người có sức khỏe yếu thường xảy
ra những biến cố bất ngờ như ngã, đột quỵ nhưng không phải lúc nào cũng có điều kiện chăm sóc y tế, theo dõi thường xuyên từ nhân viên y tế hoặc người thân Những va chạm mạnh như vậy thường gây ra những ảnh hưởng lớn đến sức khỏe nếu không được phát hiện và xử lý kịp thời
Với sự phát triển không ngừng nghỉ của khoa học kỹ thuật, điện thoại thông minh ngày càng phổ biến trên thế giới Mọi người trên thế giới hiện nay đều có thể tiếp cận và sở hữu cho mình một chiếc điện thoại thông minh rất dễ dàng Điện thoại thông minh được tích hợp rất nhiều loại cảm biến khác, kèm theo đó điện thoại thông minh thường được đem đi thường xuyên và sử dụng nhiều trong cuộc sống cho phép nó trở thành một công cụ rất hữu ích trong việc thu thập các dữ liệu
từ người dùng Rất nhiều công trình nghiên cứu và ứng dụng liên quan đến việc thu thập dữ liệu từ cảm biến của điện thoại thông minh được công bố trong những năm gần đây
Vì vậy, với những yếu tố về con người, khoa học kỹ thuật kể trên, chúng tôi muốn xây dựng mô hình có thể phát hiện hành động ngã thông qua việc sử dụng dữ
liệu cảm biến của điện thoại thông minh Do đó tôi đã chọn đề tài: “Nghiên cứu và
xây dựng hệ thống phát hiện hành động ngã của người đi bộ dựa trên cảm biến của điện thoại di động” làm đề tài nghiên cứu của luận văn thạc sĩ chuyên ngành Kỹ
thuật phần mềm
Trang 11Mục tiêu của luận văn
Mục tiêu của Luận văn là tập trung vào phân tích dữ liệu từ cảm biến thu được từ điện thoại của con người trong cuộc sống hàng ngày, từ đó phát hiện được các hành động của con người, đặc biệt tập trung vào hành động ngã
Để giải quyết được mục tiêu của Luận văn, chúng tôi tập trung vào giải quyết các vấn đề chính sau:
Tìm hiểu và nghiên cứu các kỹ thuật phân tích dữ liệu hiện có trên thế giới Các kỹ thuật biến đổi dữ liệu dựa trên nhiều loại cảm biến khác nhau của điện thoại Từ đó có thể tìm được kỹ thuật phù hợp nhất để có thể áp dụng vào bài toán phát hiện hành động ngã
Từ tập dữ liệu đầu vào dựa trên cảm biến của điện thoại thông minh, có thể xây dựng được hệ thống phát hiện các hành động (đi bộ, ngồi, chạy, ngã, …) của con người trong cuộc sống hàng ngày
Nghiên cứu thuật toán tối ưu để có thể nâng cao được độ chính xác của hệ thống Giảm thiểu tối đa sự nhầm lẫn giữa các hành động, đặc biệt là hành động bình thường và hành động ngã
Đối tƣợng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là phân tích hành động của con người dựa trên dữ liệu thu thập được khi họ đem theo điện thoại ở những vị trí như túi áo, túi quần Tập trung phân tích dữ liệu thu thập được từ cảm biến gia tốc để có thể phân tích được hành động cụ thể
Đóng góp của luận văn
Đóng góp thứ nhất của luận văn: Xây dựng thành công mô hình phát hiện
hành động ngã của người dựa trên phân tích dữ liệu thu được từ cảm biến của điện thoại thông minh
Đóng góp thứ hai của luận văn: Áp dụng thành công thuật toán tối ưu tham
số Particle Swarm Optimization – PSO để tối ưu mô hình, nâng cao độ chính xác
Trang 12Bố cục của luận văn
Ngoài phần mở đầu, mục lục, kết luận và tài liệu tham khảo, nội dung chính của luận văn được chia thành 3 chương, cụ thể như sau:
Chương 1: Trình bày các kiến thức nền tảng về học máy Giới thiệu một số khái niệm về các hoạt động của con người và một số phương pháp cũng như nghiên cứu trước đây về chủ đề này Từ đó đề xuất giải pháp phát thiện hành động ngã dựa trên dữ liệu cảm biến gia tốc trên điện thoại
Chương 2: Tìm hiểu và phân tích quy trình chuẩn bị dữ liệu, tiền xử lý dữ liệu Tìm hiểu các phương pháp phân lớp cũng như ưu nhược điểm của từng phương pháp Đồng thời nêu ra những phương pháp đánh giá phân lớp, lựa chọn các trọng số để có thể đánh giá chính xác nhất độ tốt của một phương pháp phân lớp
Chương 3: Đề xuất hệ thống phát hiện hành động ngã dựa trên dữ liệu cảm biến thu được từ điện thoại thông minh Tiến hành thực nghiệm và đánh giá Áp dụng thuật toán tham số để tối ưu mô hình phân lớp
Trang 13Chương 1 TỔNG QUAN VỀ NHẬN DẠNG HÀNH ĐỘNG
Ngày nay, nhận dạng hành động và ứng dụng vào y tế, thể thao là một trong những vấn đề được quan tâm trên toàn thế giới Rất nhiều công trình khoa học, ứng dụng liên quan đến vấn đề này được ứng dụng vào thực tế và đem lại những thành công nhất định Bên cạnh đó hiện nay, có rất nhiều trường hợp xảy ra những sự cố như đột quỵ, ngã gây ra những hậu quả nghiêm trọng khi không được phát hiện và can thiệp y tế kịp thời
Điện thoại thông minh hiện nay đã gắn liền với hoạt động thường ngày của rất nhiều người Kèm theo đó là sự đa dạng về chủng loại, tính năng, hiệu năng và nhiều loại cảm biến khác nhau trên điện thoại thông minh Cảm biến gia tốc được tích hợp trên hầu hết các loại điện thoại thông minh hiện nay Loại cảm biến này có
độ nhạy, độ chính xác cao trên từ những điện thoại thông minh tầm trung đến cấp cao
Do vậy, chương này chúng tôi sẽ làm rõ những khái niệm về hành động, hành vi cũng như xác định bài toán phân tích hành động của người đi bộ thông qua những dữ liệu thu thập được từ dữ liệu gia tốc trên điện thoại thông minh
Hành động là việc làm cụ thể của con người nhằm mục đích nhất định [1] Hành vi (danh từ) là toàn bộ nói chung những phản ứng, các cư xử biểu hiện
ra bên ngoài của một người trong một hoàn cảnh cụ thể [1]
Hành vi bất thường của con người là những phản ứng hoặc cách cư xử khác với bình thường bị tác động bởi các yếu tố khách quan hoặc chủ quan trong cuộc sống thường ngày [1]
Việc nhận biết được các loại hành động, hành vi của con người là cơ sở để đánh giá hành vi đó là bình thường hoặc bất thường Cụ thể trong khuôn khổ luận
Trang 14Hành động bình thường:
- Đứng: đứng với một vài cử động nhẹ nhàng
- Đi bộ: đi bộ bình thường
- Chạy bộ
- Nhảy: nhảy liên tục
- Lên cầu thang
- Xuống cầu thang
- Ngồi xuống
- Ngồi trên ghế
- Đứng lên: từ ngồi chuyển sang đứng
- Bước vào xe ô tô
- Ngã từ ghế: ngã ngửa trong khi đang ngồi trên ghế
- Ngã nghiêng: ngã nghiêng về một bên trong khi đang đứng, gập chân
Ngày nay khi khoa học công nghệ càng phát triển, nó đã được ứng dụng vào nhiều lĩnh vực trong cuộc sống Nhận diện hành động cũng nhận được nhiều sự quan tâm và ứng dụng vào thực thế Có nhiều phương pháp cũng như cách thức nhận diện hành động được giới thiệu trên thế giới Nhưng mỗi phương pháp lại có
ưu, nhược điểm khác nhau cũng như sự phù hợp với môi trường, thực tiễn của từng khu vực
Nhận diện hành động qua hình ảnh được áp dụng ở nhiều nước tiên tiến trên thế giới Một vài siêu thị lớn trên thế giới sử dụng phương pháp này để giám sát
Trang 15cũng như đảm bảo an ninh, tránh thất thoát tài sản trong siêu thị Kèm theo đó siêu thị cũng có thể biết được khách hàng thường quan tâm đến những sản phẩm nào hơn Một vài quốc gia trên thế giới có hệ thống camera phủ sóng trên các con đường, trung tâm thương mại và những nơi đông người để kiểm soát an ninh Các
cơ quan chức năng có thể nhanh chóng can thiệp nếu xảy ra sự cố Nhận dạng hành động qua hình ảnh ưu điểm là dễ kiểm soát, tập trung Có thể chủ động được tính ổn định của thiết bị giám sát Nhưng những hệ thống này thường rất phức tạp và có chi phí lắp đặt cũng như vận hành cao
Nhận diện hành động qua radar được sử dụng nhiều trong quân sự Có độ chính xác cao nhưng đi kèm theo đó là lượng điện năng tiêu thụ lớn và các hệ thống rất phức tạp
Nhận điện hành động sử dụng cảm biến của điện thoại thông minh đang là một đề tài được đặc biệt quan tâm hiện nay Từ những điều đơn giản nhất như nắm bắt giấc ngủ, giờ sinh hoạt của từng người sử dụng đến phức tạp như phân tích hành động, tính toán trong hoạt động thể thao của người sử dụng Với những ưu điểm có rất nhiều loại cảm biến được tích hợp trong điện thoại như cảm biến gia tốc, cảm biến tiệm cận, cảm biến nhịp tim, cảm biến ánh sáng
Thu thập dữ liệu và nhận diện hành động đang là một chủ để được nhiều nhóm nghiên cứu quan tâm Có rất nhiều bài báo cũng như các công trình nghiên cứu được công bố về vấn đề này
Yan Wang và cộng sự đã thực hiện một cuộc khảo sát về phương thức cảm biến có thể đeo được trên cổ tay tập trung vào việc ghi nhận hoạt động chăm sóc sức khỏe của con người [2]
Adnan Nadeem và cộng sự đã xây dựng tập dữ liệu sử dụng cảm biến đo lường quán tính và điện tâm đồ có thể đeo được để nhận dạng hoạt động, phát hiện ngã và hệ thống phát hiện bất thường về tim cơ bản [3]
Trang 16Henry Friday Nweke và cộng sự đã chỉ ra các khó khăn và thách thức khi sử dụng các thuật toán học sâu để nhận dạng hoạt động của con người bằng cách sử dụng mạng cảm biến di động và có thể đeo được [4]
Emma Stack và cộng sự có một công trình nghiên cứu xác định sự suy giảm khả năng thăng bằng ở những người bị bệnh Parkinson bằng cách sử dụng video và cảm biến có thể đeo được [5]
Nethra Ganesh Chigateria và cộng sự đã sử dụng gia tốc kế để đo hoạt động của người già [6]
Yinfeng Wu và cộng sự đề xuất hệ thống phát hiện trước khi va chạm dựa trên cảm biến có thể đeo được với bộ phân loại thứ bậc [7]
Charissa Ann Ronao và Sung-Bae Cho đề xuất các giải pháp nhận biết các hoạt động của con người từ các cảm biến của điện thoại thông minh bằng cách sử dụng các mô hình Markov ẩn liên tục phân cấp [8]
Điện thoại thông minh hiện nay được tích hợp rất nhiều loại cảm biến đi kèm Những loại cảm biến phổ biến như cảm biến vân tay, biến tiệm cận, cảm biến nhiệt, cảm biến ánh sáng, cảm biến từ kế, cảm biến hình ảnh, cảm biến gia tốc, cảm biến con quay hồi chuyển Những loại cảm biến này thường được kết hợp với nhau
để áp dụng vào bài toán phân tích hành vi Nhưng có một điều bất cập là sự giới hạn của tốc độ xử lý cũng như nguồn pin của điện thoại Khi kết hợp càng nhiều loại cảm biến cùng một lúc sẽ gây ra hiện tượng quá tải của điện thoại, kèm theo đó là tuổi thọ của pin điện thoại sẽ không được cao Vì vậy trong khuôn khổ luận văn này, chúng tôi sử dụng cảm biến gia tốc của điện thoại thông minh Cảm biến gia tốc được dùng để ghi nhận lại sự chuyển đổi vị trí của điện thoại Nó có ưu điểm là tốn ít tài nguyên của thiết bị, tránh làm ảnh hưởng đến hiệu năng của điện thoại cũng như trải nghiệm của người dùng Cảm biến gia tốc cũng có độ nhạy rất cao và chính xác, được tích hợp trên hầu hết các điện thoại thông minh hiện nay
Khi sử dụng cảm biến gia tốc, dữ liệu thu được là một chuỗi dữ liệu liên tục theo thời gian Mỗi thời điểm, dữ liệu gia tốc thu được có hai thuộc tính là thời gian,
Trang 17véc-tơ được xác định bởi ba trục tọa độ thiết bị X, Y, Z Khi thiết bị được di chuyển hoặc có sự thay đổi về vị trí, véc-tơ tương ứng với ba trục X, Y, Z cũng sẽ thay đổi
Vì vậy để kết quả được chính xác, các thiết bị nên tránh bị đổi hướng, nên để
cố định ở một vị trí như túi áo, hoặc túi quần Nếu trong quá trình chuyển động, có
sự thay đổi vị trí đặt điện thoại rất dễ gây ra những sự xáo trộn và nhầm lẫn giữa các trục X, Y, Z Dữ liệu càng chứa nhiều nhiễu thì độ chính xác càng giảm
Từ những luận điểm trên, trong khuôn khổ luận văn về phân tích hành động, hành vi thì sử dụng cảm biến gia tốc để thu thập dữ liệu là hoàn toàn phù hợp
Trong chương này, chúng tôi đã tìm hiểu và nghiên cứu các khái niệm cơ bản
và những phương pháp nhận diện hành động được sử dụng rộng rãi hiện nay Chúng tôi cũng khảo sát và tìm hiểu các công trình nghiên cứu liên quan đến nhận dạng hành động Để từ đó lựa chọn được hướng đi và phương pháp phù hợp cho bài toán
cụ thể trong luận văn
Trang 18Chương 2 MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU CHUỖI
THỜI GIAN
Để có được kết quả phân lớp tốt phải sử dụng và kết hợp nhiều kỹ thuật như tiền xử lý dữ liệu, biến đổi dữ liệu, xây dựng bộ dữ liệu đặc trưng Từ bộ dữ liệu đã được xử lý sẽ áp dụng vào mô hình để ra kết quả phân lớp Trong chương này, chúng tôi sẽ giới thiệu về các kỹ thuật xử lý dữ liệu và các kỹ thuật, phương pháp phân lớp được sử dụng phổ biến Kèm theo đó là các phương pháp đánh giá phân lớp cũng như mục đích của từng phương pháp
2.2 Đặc điểm và một số cách xử lý dữ liệu thời gian thực
2.2.1 Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là một bước quan trọng trong khai phá dữ liệu Để hệ thống hoạt động với độ chính xác cao cần phải có một bộ dữ liệu phù hợp và chính xác Nếu dữ liệu không được chuẩn bị tốt, các thuật toán nhận dạng có thể không nhận dạng được dữ liệu từ đó sẽ gây ra khó khăn trong quá trình xây dựng hệ thống
Một vài kỹ thuật phổ biến dùng để xử lý dữ liệu hiện nay như: làm sạch dữ liệu, chuẩn hóa dữ liệu, chuyển đổi dữ liệu, tích hợp dữ liệu, phát hiện nhiễu, tính giá trị thiếu
- Làm sạch dữ liệu (Data cleaning): là bước để loại bỏ hay xử lý những
dữ liệu không chính xác ra khỏi tập dữ liệu
- Xác định nhiễu (Noise Identification): trong một bộ dữ liệu thu thập được, thường có những bộ dữ liệu bị sai, khuyết một vài thuộc tính Cách đơn giản nhất là có thể xóa chúng đi hoặc có thể sử dụng một vài phương pháp tính toán để điền vào bộ dữ liệu khuyết dạng thời gian liên tục Điều này sẽ làm bộ dữ liệu có tính đồng nhất, không còn những mẫu dễ gây ra sai số trong quá trình chạy mô hình
Trang 19- Bổ sung dữ liệu thiếu (Missing Data Imputation) là thêm vào các phần
dữ liệu bị thiếu trong quá trình thu thập và chuẩn bị Giúp bộ dữ liệu
có tính nhất quán Các giá trị thêm vào là các giá trị được ước tính một cách hợp lý
- Biến đổi dữ liệu (Data Transformation) để làm tăng độ chính xác trong khai phá dữ liệu Từ dữ liệu thô ban đầu sẽ tiến hành làm mịn, chuẩn hóa và xây dựng lên bộ thuộc tính cần cho quá trình phân lớp
- Tích hợp dữ liệu (Data Integration): là kết hợp dữ liệu từ nhiều nguồn, nhiều kho dữ liệu khác nhau
- Chuẩn hóa dữ liệu (Data Normalization): là một bước quan trọng trong quá trình chuẩn bị dữ liệu học máy Tùy vào từng bài toán cụ thể cũng như phương pháp học máy Những cách chuẩn hóa dữ liệu khác nhau sẽ làm ảnh hưởng trực tiếp đến độ chính xác của mô hình
- Giảm chiều dữ liệu (Data Reduction): là một kỹ thuật giúp giảm độ phức tạp của dữ liệu gốc nhưng vẫn giữ được tính toàn vẹn của dữ liệu [9]
Làm sạch dữ liệu
Chuyển đổi dữ liệu
Chuẩn hóa dữ liệu
Bổ sung dữ liệu thiếu
H nh 2-1 Một số kỹ thuật chuẩn bị dữ liệu
Trang 202.2.2 Cửa sổ dữ liệu
Kỹ thuật cửa sổ trượt (Sliding window) là một kỹ thuật được sử dụng phổ biến trong nhiều bài toán phân lớp Đây là một kỹ thuật dùng để cắt một đoạn dữ liệu thành nhiều cửa sổ khác nhau có cùng kích thước là W Mỗi cửa sổ chồng lên nhau bằng cách lấy lại một phần dữ liệu của cửa sổ ngay trước nó
Dữ liệu chuỗi thời gian được sử dụng rộng rãi trên thế giới và được áp dụng trên nhiều lĩnh vực như y tế, chứng khoán Dữ liệu thu thập được từ cảm biến gia tốc của điện thoại thông minh là bộ dữ liệu liên tục theo thời gian với tần số lấy mẫu
là 50Hz Vì vậy bộ dữ liệu bao gồm rất nhiều giá trị liên tục theo thời gian Với bài toán nhận dạng hành động, chúng ta hoàn toàn có thể áp dụng kỹ thuật cửa sổ trượt
để phân đoạn chuỗi dữ liệu thành nhiều cửa sổ với mức độ chồng dữ liệu khác nhau
Ví dụ về một đoạn dữ liệu được phân đoạn theo nhiều cửa sổ trượt được trình bày như hình dưới đây:
1 2 … k-1 k k+1 … N-1 N
w =Độ dài của cửa sổ
Chồng dữ liệu
H nh 2-2 Phân đoạn chuỗi tín hiệu thành các cửa sổ dữ liệu
Ở trong hình biểu diễn phân đoạn chuỗi dữ liệu thành ba cửa sổ i -1, i, i +1
có kích thước là N và chồng dữ liệu là k, cửa sổ tiếp theo sử dụng k điểm dữ liệu của cửa sổ trước đó
2.2.3 Biến đổi dữ liệu
Biến đổi dữ liệu là một cách biến đổi dữ liệu thô ban đầu thành các tập thuộc tính đặc trưng Các tập thuộc tính đặc trưng này là yếu tố quan trọng giúp mô hình phân lớp có thể nhận biết và đoán nhận các nhãn phù hợp Với mỗi bài toán học máy khác nhau, cụ thể là những bài toán phân lớp khác nhau cần xây dựng những tập thuộc tính phù hợp
Trang 21Với bài toán phát hiện hành động ngã, tập dữ liệu là một tập dữ liệu liên tục theo thời gian nên các tập thuộc tính đặc trưng được lựa chọn phổ biến và phù hợp hiện nay là theo miền thời gian và miền tần số Dựa vào thực nghiệm và đánh giá,
có thể tìm ra những tập thuộc tính để mô hình có độ chính xác cao nhất
2.2.4 Thuộc tính trên miền thời gian
Trong miền thời gian, các đặc trưng cơ bản thường được dùng để phân tích tín hiệu là :
- Giá trị trung bình của một cửa sổ dữ liệu đại diện chung cho tất cả các mẫu giá trị trong cửa sổ đó Với một cửa sổ có N mẫu, giá trị trung bình được tính là tổng giá trị tất cả các mẫu chia số lượng mẫu:
trong đó ̅ là giá trị trung bình được tính bởi công thức phía trên
- Độ lệch chuẩn được tình bằng căn bậc hai của giá trị phương sai
- Độ lệch mẫu là độ lệch giá trị giữa giá trị mẫu cực đại và mẫu giá trị cực tiểu của tín hiệu Độ lệch mẫu được tính bằng công thức
Trang 22hiệu có thể là giá trị trung bình của tín hiệu Số lần tín hiệu đi qua đường phân cách
là số lượng điểm cắt không Số lượng điểm cắt không có thể được ước tính như sau:
2.2.5 Thuộc tính trên miền tần số
Thuộc tính miền tần số biểu hiện sự lặp lại của dữ liệu liên tục Để biến đổi
dữ liệu từ miền thời gian sang miền tần số thường sử dụng phép biến đổi Fourier
Biến đổi Fourier được sử dụng trong những ứng dụng khoa học như xác suất thống kê, vật lý, mật mã, quang học và rất nhiều lĩnh vực khác Trong xử lý tín hiệu liên tục, phép biến đổi Fourier sẽ chuyển đổi tín hiệu sang thành phần biên độ và tần
số Có ba dạng biến đổi Fourier là biến đổi Fourier liên lục, chuỗi Fourier, biến đổi Fourier rời rạc [10] Với bộ dữ liệu của bài toán phát hiện hành động ngã, biến đổi Fourier rời rạc là phù hợp nhất
Biến đổi Fourier rời rạc được dùng cho các tín hiệu thời gian rời rạc Khi mà
bộ dữ liệu gồm một chuỗi hữu hạn các mẫu là các số thực Công thức của biến đổi Fourier rời rạc được tính toán bởi thuật toán biến đổi Fourier nhanh:
∑ ( ( ) )
(2.7)
Trang 23Trong đó y(t) là đại diện cho tín hiệu
Tính di động (Mobility) thể hiện tần số trung bình hoặc tỷ lệ độ lệch chuẩn của phổ công suất Điều này được định nghĩa là căn bậc hai của phương sai của đạo
hàm đầu tiên của tín hiệu y(t) chia cho phương sai của tín hiệu y(t)
√ (
( ) ) ( ( ))
(2.9)
Độ phức tạp (Complexity) thể hiện sự thay đổi về tần số Tham số so sánh mức độ tương tự của tín hiệu với sóng hình Sin thuần túy, trong đó giá trị hội tụ thành 1 nếu tín hiệu tương tự hơn
(
( )) ( ( ))
(2.10)
Trang 24chọn phương pháp phân lớp phù hợp nhất Trong khuôn khổ luận văn, đối với bài toán phát hiện hành động ngã của người đi bộ có thể thử nghiệm các phương pháp phân lớp là Random Forest (RF), Artificial Neural Network (ANN), Support Vector Machine (SVM)
2.3.1 Random Forest
Random Forest (rừng ngẫu nhiên) được phát triển bởi Leo Breiman tại Đại học California, Berkeley Random Forest là một thuật toán học có giám sát và được đánh giá là một trong 10 phương pháp khai phá dữ liệu kinh điển nhất
Random Forest dựa trên kỹ thuật học kết hợp Nó tạo ra nhiều bộ phân lớp sau đó kết hợp tất cả các kết quả của chúng Nó hoạt động bằng cách xây dựng rất nhiều cây quyết định một cách ngẫu nhiên Mỗi cây quyết định được lựa chọn một cách ngẫu nhiên từ việc tái chọn mẫu (chọn ngẫu nhiên một phần của dữ liệu để xây dựng) và ngẫu nhiên các biến trong tập dữ liệu Sau khi mỗi cây quyết định đưa ra kết quả của mình Thuật toán sử dụng cơ chế voting để tổng hợp lại kết quả của từng cây riêng lẻ rồi lựa chọn kết quả có nhiều sự lựa chọn nhất [12]
H nh 2-3 Thuật toán Random Forest
Hình 2-3 biểu diễn cơ chế hoạt động của thuật toán RF đơn giản gồm 3 câu quyết định Mỗi cây quyết định sẽ lựa chọn mẫu và đưa ra kết quả của riêng mình
Trang 25lần lượt là A, B, B Sau đó các kết quả được tổng hợp lại, thông qua cơ chế voting
sẽ nhận được kết quả cuối cùng là B
2.3.2 Artificial Neural Network
Artificial Neural Network (ANN) có thể hiểu là mạng thần kinh nhân tạo lấy cảm hứng từ mạng nơ-ron thần kinh Mô hình được mô phỏng dựa trên liên kết giữa các nơ-ron thần kinh trong bộ não của con người Mô hình tạo một mạng lưới các nút để xử lý dữ liệu, mỗi nút được liên kết với nhau Dữ liệu sẽ được chạy qua tất cả các nút trong mạng lưới ANN và cho ra kết quả Mỗi kết quả đầu ra đều được so sánh với với các kết quả và dữ liệu mà mô hình đã được học tập trước đó [13]
Mô hình ANN có ba thành phần chính: Input Layer, Hidden Layer, Output Layer Tùy vào từng bài toán cụ thể có thể có một hoặc nhiều Hidden Layer
H nh 2-4 Mô tả mạng ANN
Ta có thể thấy các node thuộc từng layer đều liên kết với tất cả các node
Trang 26 Input Layer: cung cấp các số liệu cần thiết cho mạng Mỗi node của input layer tương ứng với một thông số đầu vào Các thông số này được chuyển đổi
về dạng véc-tơ Số nơ-ron của Input Layer sẽ do bài toán quyết định
Hidden Layer: gồm các neuron ẩn Nó giúp kết nối giữ Input Layer và Output Layer Tùy vào mỗi bài toán cụ thể Hidden Layer có thể có một hoặc nhiều lớp Mỗi node sẽ nhận ma trận đầu vào từ lớp trước nó, kết hợp với các trọng
số để trả về kết quả Số lượng nơ-ron và số lượng lớp sẽ do người dùng quyết định
Output Layer: gồm các nơ-ron đầu ra Qua các tính toán của ANN, kết quả được chuyển đến người dùng qua lớp này
2.3.3 Support Vector Machine
Support Vector Machine (SVM) được dùng trong các bài toán phân loại nhị phân hoặc đệ quy Trong mô hình SVM, mỗi dữ liệu tương ứng với một điểm trong không gian Ví dụ với không gian N chiều, mô hình sẽ tìm một siêu phẳng gồm N-1 chiều Siêu phẳng này sẽ chia đôi tập dữ liệu ra thành 2 phần riêng biệt Việc đánh giá siêu phẳng này có tốt nhất hay không phụ thuộc vào khoảng cách của điểm gần nhất trong không gian đến siêu phẳng [14] Khoảng cách càng lớn thì siêu phẳng được đánh giá càng tốt SVM luôn cố gắng cực đại khoảng cách này
H nh 2-5 Không gian trong mô hình SVM
Trang 27Ở hình ảnh phía trên, mô hình SVM sẽ lựa lựa chọn siêu phẳng H3 để phân loại các điểm trong không gian thành 2 phần riêng biệt Siêu phẳng H3 có khoảng cách cực đại đến các điểm gần nó nhất
2.4.1 Ma trận nhầm lẫn
Trong bài toán phân loại hành động, các giá trị để đánh giá mô hình là độ chính xác (precision), độ bao phủ (recall), F-Measure, độ đo AUC, đường cong ROC
Ma trận nhầm lẫn gồm 4 giá trị chính sau:
TP[i] (true positive): số dự đoán chính xác của lớp i
FP[i] (false positive): số lượng các mẫu không thuộc lớp i, bị phân loại nhầm vào lớp i
TN[i] (true negative): số lượng các ví dụ không thuộc lớp i được phân loại chính xác
FN[i] (false negative): số lương các mẫu thuộc lớp i nhưng bị phân loại nhầm vào lớp khác
Ma trận nhầm lẫn với bài toán cụ thể phân lớp với hai mẫu dữ liệu mang nhãn dương (+) và nhãn âm (-):
Trang 292.4.2 Biểu đồ ROC và độ đo AUC
Như đã trình bài ở phần trên, những mô hình có độ nhạy cao thì độ đặc hiệu thấp hoặc ngược lại, vì vậy biểu đồ ROC (Receiver Operating Characteristic) là phương pháp phân tích để cân bằng hai độ đo này Biểu đồ ROC gồm 2 trục X, và
Y Trục tung (Y) biểu là giá trị True positive rate, trục hoành (X) biểu diễn giá trị False positive rate
True positive rate =
False positive rate =
H nh 2-6 Biểu đồ biểu diễn đường cong ROC
Hai giá trị True positive rate và False positive rate được biểu diễn bởi các điểm trên biểu đồ ROC Hai chỉ số này biến thiên ngược chiều nhau và tạo thành
Trang 30Độ đo AUC (Area Under Curve) chính là diện tích đường cong ROC Công thức tính AUC như sau:
0 0
0 1
1 2
n n R
H nh 2-7 Diện tích đường cong ROC (độ đo AUC)
Độ đo AUC càng lớn, độ chính xác của mô hình phân lớp càng cao, mô hình được đánh giá tốt Một mô hình tốt có độ đo AUC trên 0.5
Bảng 2-2 Độ đo AUC với độ chính xác của mô h nh phân lớp