Cấu trúc của luận án - Mở đầu - Chương 1 trình bày tổng quan về hệ thống HMS, kỹ thuật cảm biến và IVA trong HMS, các bước trích đặc trưng và nhận dạng trong IVA.. Cấu trúc hệ thống sử
Trang 1PHÂN TÍCH THÔNG MINH TÍN HIỆU VIDEO
HỖ TRỢ CHO HỆ THỐNG GIÁM SÁT CHĂM SÓC SỨC KHỎE
Trang 2
Người hướng dẫn khoa học:
1) GS TS Jenq-Neng Hwang 2) PGS TS Phạm Văn Tuấn
Phản biện 1: ………
Phản biện 2:………
Phản biện 3: ………
Luận án sẽ được bảo vệ trước Hội đồng chấm luận án cấp Trường họp tại: Đại học Đà Nẵng
Vào hồi … giờ ngày tháng ……… năm ………
Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia
- Trung tâm Thông tin – Học liệu, Đại học Đà Nẵng
Trang 3MỞ ĐẦU
1 Đặt vấn đề
Già hóa dân số là một trong các xu hướng đang diễn ra trên tất cả các khu vực và quốc gia trên thế giới, trong đó có nước ta Mặt trái của già hóa là các bệnh tật liên quan đến tuổi tác xuất hiện ngày càng nhiều Do
đó, một yêu cầu cấp bách đặt ra là cần phải tìm các biện pháp phát hiện sớm các chứng bệnh nói trên nhằm can thiệp y khoa kịp thời.
Hiện nay, hướng nghiên cứu về hệ thống giám sát chăm sóc sức khỏe
HMS (Healthcare Monitoring System) dùng kỹ thuật phân tích thông minh tín hiệu video IVA (Intelligent Video Analytics) đang nhận được
rất nhiều sự quan tâm và đã đạt nhiều thành tựu đáng khích lệ Tuy nhiên, IVA vẫn đang đối mặt với một số thách thức chính như vấn đề góc quay, che khuất, phân vùng đối tượng, mô tả hành động, v.v
Xuất phát từ tình hình trên, bài toán “Phân tích thông minh tín hiệu
video hỗ trợ cho hệ thống giám sát chăm sóc sức khỏe” được chọn làm
đề tài nghiên cứu của của luận án
2 Mục đích, đối tượng và phạm vi nghiên cứu
+ Mục đích nghiên cứu: cải thiện hệ thống sử dụng kỹ thuật IVA (còn
gọi là hệ thống IVA) để phù hợp với các ứng dụng:
- Phát hiện té ngã và dự đoán nguy cơ té ngã do dáng đi bất thường
- Phát hiện hành động bất thường
+ Đối tượng nghiên cứu:
- Các khối xử lý tín hiệu trong hệ thống IVA
- Các ứng dụng của kỹ thuật IVA vào hỗ trợ hệ thống HMS
Trang 4hoặc (3) thực hiện một hành động nào đó trong suốt cảnh quay
2 Phương pháp nghiên cứu
Phương pháp kết hợp lý thuyết và thực nghiệm
3 Cấu trúc của luận án
- Mở đầu
- Chương 1 trình bày tổng quan về hệ thống HMS, kỹ thuật cảm biến và
IVA trong HMS, các bước trích đặc trưng và nhận dạng trong IVA
- Chương 2 trình bày cấu trúc các hệ thống HMS trên nền IVA đề xuất, các tính toán cho các khâu trong hệ thống
- Chương 3 trình bày kết quả thực nghiệm đánh giá hệ thống HMS ứng dụng phát hiện té ngã và dự đoán nguy cơ té ngã do dáng đi bất thường
- Chương 4 trình bày kết quả thực nghiệm đánh giá hệ thống HMS trong
- Đề xuất mới bộ mô tả đặc trưng 3D GRF (Geometric Relation
Features) có khả năng đối phó với vấn đề góc quay và che khuất (công
trình [3])
- Đề xuất mới phương pháp nhận dạng hành động gần tuần hoàn dùng
mô hình HMM tuần hoàn (Cyclic HMM) (công trình [5])
Ngoài ra, trong quá trình thực hiện luận án, một số hệ thống được xây dựng gồm:
Trang 5Chương 1: NGHIÊN CỨU TỔNG QUAN
Nội dung của chương gồm: tổng quan về hệ thống HMS, kỹ thuật cảm biến và IVA sử dụng trong hệ thống HMS, đặc biệt tập trung vào IVA với hai bước xử lý là trích đặc trưng và nhận dạng
Kết quả nghiên cứu tổng quan đã được công bố ở công trình [1], [2],
[6] trong Danh mục công trình của tác giả
1.1 Hệ thống giám sát chăm sóc sức khỏe HMS
Là hệ thống quan sát, theo dõi bệnh nhân từ xa nhằm thu thập thông tin về tình trạng sức khỏe, phát hiện tai nạn hoặc các bất thường sức khỏe
1.1.1 Ứng dụng của hệ thống HMS
1.1.2 Cấu trúc của hệ thống HMS
Một hệ thống HMS tối thiểu có ba thành phần chính như trên Hình
1.1 Dữ liệu thu nhận có thể dựa vào cảm biến hoặc camera (camera
cũng là một loại cảm biến nhưng là cảm biến 2 chiều)
Hình 1.1 Sơ đồ cấu trúc của hệ thống HMS điển hình
1.2 Kỹ thuật cảm biến
1.2.1 Cấu trúc của nút mạng cảm biến
1.2.2 Ứng dụng của kỹ thuật cảm biến
1.2.3 Các vấn đề cần quan tâm khi ứng dụng kỹ thuật cảm biến vào
hệ thống HMS
Số lượng cảm biến lớn dẫn đến vận hành bảo dưỡng mạng phức tạp, việc gắn cảm biến gây khó khăn và phiền phức cho bệnh nhân, v.v
Trang 61.3 Kỹ thuật IVA
Tín hiệu video ghi hình đối tượng quan tâm được phân tích và đưa ra kết quả là những sự kiện gì đang xảy ra trong đoạn video đó Mức độ
“thông minh” được định lượng dựa vào tỷ lệ nhận dạng chính xác
1.3.1 Cấu trúc hệ thống sử dụng kỹ thuật IVA
Trong phạm vi luận án, xét hệ thống IVA truyền thống gồm hai bước
chính là trích đặc trưng và nhận dạng hành động như trên Hình 1.2
Hình 1.2 Sơ đồ cấu trúc của hệ thống sử dụng kỹ thuật IVA điển hình
1.3.2 Ứng dụng của kỹ thuật IVA
1.3.3 Một số nghiên cứu gần đây về ứng dụng IVA vào hệ thống HMS
1.3.3.1 Giám sát các hoạt động hàng ngày ADL (Activities of Daily
Living)
1.3.3.2 Phát hiện tai nạn té ngã
1.3.3.3 Phân tích dáng đi
1.3.3.4 Hỗ trợ phục hồi chức năng
1.3.4 Các vấn đề cần quan tâm khi ứng dụng IVA vào hệ thống HMS
Vấn đề góc quay, cảnh nền động, bóng đổ, che khuất, vẻ bề ngoài
của đối tượng thay đổi, cách thức thực hiện hành động khác nhau, v.v
1.4 Quá trình trích đặc trưng trong hệ thống IVA
Trích đặc trưng tương đương với biến đổi mỗi khung hình thành một
vector đặc trưng Vector đặc trưng cần phải chứa đựng các đặc tính hữu hiệu và nổi bật nhất của một hành động, bất kể hành động đó được thực hiện bởi ai, thực hiện như thế nào, vào lúc nào và ở góc quay nào
1.4.1 Phân vùng đối tượng
Trang 7Đối với camera tĩnh, phương pháp phân đoạn đối tượng phổ biến nhất
là trừ nền dùng mô hình hợp Gauss GMM1 (Gaussian Mixture Model),
tạo ra ảnh mặt nạ chứa đối tượng màu trắng trên nền đen
1.4.2 Mô tả đặc trưng
1.4.2.1 Đặc trưng số thực
Thành phần của vector đặc trưng là số thực Có thể mô tả đặc trưng
dựa vào hình dáng (shape-based) hoặc dòng chuyển động (flow-based)
1.4.3 Thảo luận về các bộ mô tả đặc trưng
Nhìn chung, đặc trưng số thực cho kết quả nhận dạng tốt nhưng vì
chủ yếu dựa trên thông tin 2D nên nhạy với nhiễu, với sự che khuất và phụ thuộc vào góc quay của camera
Đặc trưng số nhị phân được tính từ tọa độ 3D gồm cả chiều sâu nên
khắc phục được các khuyết điểm của đặc trưng số thực, nhưng do chỉ dùng số 0 và 1 nên không đủ mềm dẻo để mô tả các hành động phức tạp
1.5 Quá trình nhận dạng hành động trong hệ thống IVA
Bước này chính là xác định xem chuỗi vector đặc trưng trích được mô
tả đúng nhất cho hành động nào trong số các hành động đã huấn luyện
Trang 81.5.2.1 Phương pháp so khớp mẫu
So sánh chuỗi vector đặc trưng trích từ đoạn video kiểm tra và từ đoạn video huấn luyện để xác định chúng có tương tự nhau hay không
Tiêu biểu là phương pháp DTW (Dynamic Time Warping)
1.5.2.2 Phương pháp dùng mô hình không gian trạng thái
Mỗi hành động được biểu diễn bằng một mô hình nhiều trạng thái, mỗi trạng thái tương đương với một tư thế Để nhận dạng, tính xác suất
mà mỗi mô hình có thể sinh ra chuỗi vector đặc trưng trích từ đoạn video kiểm tra, để đo khả năng mô hình đó sinh ra chuỗi vector đó Tiêu
biểu là mô hình HMM (Hidden Markov Model).
1.5.3 Thảo luận về các phương pháp nhận dạng hành động
Tỷ lệ nhận dạng theo phương pháp nhận dạng tĩnh bị phụ thuộc vào khung trọng yếu
Phương pháp so khớp mẫu đơn giản nhưng nhạy với nhiễu và chịu chi phối bởi thứ tự thời gian của các khung hình
Phương pháp dùng mô hình không gian trạng thái khắc phục được khuyết điểm của phương pháp so khớp mẫu nhưng tính toán phức tạp hơn, đòi hỏi số lượng dữ liệu lớn và hiện chưa có lý thuyết xác định cấu trúc cũng như giá trị tối ưu của các thông số mô hình
1.6 Định hướng vấn đề nghiên cứu
1.6.1 Bài toán xây dựng hệ thống HMS trên nền IVA
1.6.1.1 Bài toán phát hiện té ngã
Yêu cầu phát hiện và cảnh báo té ngã từ đoạn video ghi hình đối tượng quan tâm sống một mình tại nhà và đang thực hiện các hoạt động thông thường thì bị ngã Góc quay của camera là tùy ý
1.6.1.2 Bài toán dự đoán nguy cơ té ngã
Yêu cầu phát hiện dáng đi bất thường từ đoạn video ghi hình đối tượng quan tâm sống một mình tại nhà và đi bộ theo đường thẳng với góc quay bên hông Kết quả phát hiện dáng đi bất thường có thể hỗ trợ cho dự đoán nguy cơ té ngã, vì dáng đi bất thường là một trong các yếu tố nguy cơ gây ra té ngã
Trang 91.6.1.3 Bài toán dự đoán chứng rối loạn nhận thức
Yêu cầu phát hiện hành động bất thường từ đoạn video ghi hình đối tượng quan tâm sống một mình tại nhà và đang thực hiện một hành động nào đó với góc quay tùy ý Kết quả được dùng để hỗ trợ dự đoán chứng
rối loạn nhận thức nhẹ MCI (Mild Cognitive Impairment), vì nghiên
cứu cho thấy chứng MCI có gây ra hành động bất thường
1.6.2 Các vấn đề thiết yếu về hệ thống HMS đề xuất
1.6.2.1 Các khó khăn khi xây dựng hệ thống HMS
- Khó khăn về kỹ thuật: như trình bày ở 1.3.4
- Khó khăn phi kỹ thuật: cơ sở dữ liệu video, vấn đề về quyền riêng tư
1.6.2.2 Trích đặc trưng trong hệ thống HMS đề xuất
Do môi trường quay trong nhà, camera gắn cố định và nền tĩnh nên dùng phương pháp trừ nền GMM để phân vùng đối tượng
Các bộ mô tả đặc trưng thay đổi tùy ứng dụng, nhằm khai thác được những đặc điểm nổi bật nhất và khác biệt nhất của từng loại hành động cần nhận dạng
1.6.2.3 Nhận dạng hành động trong hệ thống HMS đề xuất
Từ các phân tích ở mục 1.5.3, mô hình HMM được chọn dùng trong
các hệ thống HMS đề xuất, vì lý do: (1) không phụ thuộc tốc độ thực hiện hành động, (2) cho kết quả nhận dạng tốt, (3) có thể mở rộng HMM chuẩn nhằm phục vụ những mục đích đặc biệt
1.7 Kết luận chương 1
Đóng góp chính của chương là phân tích, đánh giá ưu khuyết điểm của các nghiên cứu về IVA Đây là cơ sở để định hướng các vấn đề nghiên cứu tiếp theo trong luận án
Chương 2: HỆ THỐNG HMS TRÊN NỀN KỸ THUẬT IVA
Chương này trình bày cấu trúc và tính toán trong các hệ thống HMS
đề xuất, nhằm hướng đến ba ứng dụng như đã trình bày ở 1.6.1
Các kết quả nghiên cứu về hệ thống HMS đề xuất đã được công bố ở các công trình [9]-[12] trong Danh mục công trình của tác giả
Trang 102.1 Phân vùng đối tượng theo phương pháp trừ nền GMM
Nguyên lý phân vùng đối tượng là so sánh khung hình hiện tại với
mô hình nền, qua đó phân chia khung hình thành vùng chứa đối tượng chuyển động và vùng nền Mô hình nền được xây dựng dựa trên mô hình GMM cho từng điểm ảnh và liên tục được cập nhật theo thời gian Sau đó, áp dụng các phép hình thái toán học để làm mịn đường biên
và lấp đầy các lỗ nhỏ bên trong vùng chứa đối tượng nhằm tạo nên một ảnh mặt nạ hoàn hảo dùng cho các bước xử lý tiếp theo
Hình 2.1 là một ví dụ về phân đoạn đối tượng bằng trừ nền GMM
Hình 2.1 Kết quả phân đoạn đối tượng bằng trừ nền GMM
2.2 Mô tả đặc trưng trong hệ thống HMS phát hiện té ngã
2.2.1 Đặc điểm té ngã
2.2.2 Tính toán vector đặc trưng té ngã
Sự khác biệt rõ rệt giữa hành động “té ngã” và “không té” thể hiện ở hình dạng và tốc độ chuyển động Do đó đặc trưng kết hợp hình dạng
Bước 1: Xác định ellipse bao quanh đối tượng trong ảnh mặt nạ
Bước 2: Tính các đặc trưng hình dạng dựa vào hình ellipse để biết tư thế
của đối tượng, gồm:
- Góc đứng tức thời của khung hiện tại,
- Độ thay đổi góc đứng trong 15 khung liên tiếp,
- Độ lệch tâm tức thời,
- Độ thay đổi trọng tâm đối tượng trong 15 khung liên tiếp
Trang 11
Bước 3: Tính đặc trưng tốc độ chuyển động để biết tốc độ chuyển động
nhanh hay chậm của đối tượng, dựa vào ảnh lịch sử chuyển động MHI
(Motion History Image) được xây dựng từ 15 khung liên tiếp
Bước 4: Kết hợp đặc trưng hình dạng với đặc trưng tốc độ
2.3 Mô tả đặc trưng trong hệ thống HMS phát hiện dáng đi bất thường
2.3.1 Đặc điểm dáng đi
2.3.2 Tính toán vector đặc trưng dáng đi
Do có sự khác biệt giữa hình dạng các ảnh mặt nạ trích từ các loại dáng đi bệnh lý khác nhau nên bộ mô tả đặc trưng hình dạng dựa vào
Vì kết quả tính các giá trị của moment Hu rất bé nên áp dụng phép logarit để chuyển các vector đặc trưng ở rất gần nhau trong không gian gốc sang không gian mới, ở đó chúng cách nhau đủ xa để dễ xử lý hơn
2.4 Mô tả đặc trưng trong hệ thống HMS phát hiện hành động bất thường
Hệ thống phát hiện hành động bất thường đề xuất dựa trên hệ thống
Trang 12là mô tả quan hệ hình học giữa các điểm quan tâm trên cơ thể, nhưng dùng số thực có dấu thay cho số 0/1, nhằm khai thác các ưu điểm và hạn
chế khuyết điểm của đặc trưng nhị phân như đã phân tích ở 1.4.3
2.4.2 Xác định dữ liệu vào của bộ mô tả đặc trưng 3D GRF
Dữ liệu vào là tọa độ 3D của các điểm trên cơ thể (Hình 2.3), được
ước lượng dựa vào vật đánh dấu (marker) hoặc tín hiệu video
(a) (b) (c)
Hình 2.3 Mô hình cơ thể
(a) Ảnh gốc, (b) Mô hình 13 điểm, (c) Mô hình 3D
Phương pháp dựa vào marker chính xác nhưng chi phí cao và phức tạp Phương pháp dựa vào tín hiệu video có giá thành rẻ hơn và thực
hiện đơn giản hơn Qua tìm hiểu, phương pháp5 được chọn dùng do sai khác ước lượng tốt nhất so với các phương pháp dựa vào video khác
2.4.3 Tính toán vector đặc trưng 3D GRF
Xét 6 hành động “đánh bốc”, “vẫy tay”, “chạy chậm”, “đi bộ”, “đá”,
“ném” có sẵn trong các cơ sở dữ liệu công cộng Phân tích các cử động của
cơ thể khi thực hiện 6 hành động này, có thể đề xuất Bảng 2.1 mô tả GRF
2.4.3.1 Tính đặc trưng khoảng cách
Đặc trưng khoảng cách là khoảng cách có dấu giữa các bộ phận quan tâm trong cơ thể và có thay đổi rõ rệt trong khi thực hiện hành động
Đặc trưng 1A là khoảng cách có dấu giữa điểm quan tâm với mặt
phẳng đứng (coronal plane), dấu +/- chỉ ra điểm quan tâm ở trước/sau
thân Mặt phẳng đứng xác định bởi 3 điểm {p 1 , p 2 , p 3} lần lượt là {Hông
5
Shian-Ru Ke và cộng sự (2011)
Trang 13trái, Hông phải, Vai phải}, {Hông trái, Hông phải, Vai trái}, {Vai trái, Vai phải, Hông phải}, và {Vai trái, Vai phải, Hông trái}; điểm quan tâm
p 4 lần lượt là Tay phải, Tay trái, Chân phải, Chân trái tương ứng với đặc
trưng F 1 , F 2 , F 3 , F 4 Vậy tính đặc trưng 1A chính là tính khoảng cách có
dấu giữa điểm p 4 và một mặt phẳng xác định bởi {p 1 , p 2 , p 3}
Đặc trưng 1B là khoảng cách có dấu giữa Tay với mặt phẳng dọc
(saggital plane), dấu +/- chỉ cho biết Tay ở bên phải/trái cơ thể
Bảng 2.1 Tập các đặc trưng 3D GRF
2.4.3.2 Chuẩn hóa đặc trưng khoảng cách
Chuẩn hóa nhằm đảm bảo giá trị của đặc trưng khoảng cách F 1 -F 6
không bị phụ thuộc vào khoảng cách giữa camera và đối tượng
2.4.3.3 Tính đặc trưng góc
Đặc trưng góc là góc đo giữa hai đoạn thẳng quan tâm trên cơ thể và
có thay đổi rõ rệt trong khi thực hiện hành động Tính đặc trưng góc
chính là tính góc tạo bởi hai vector v 1 và v 2 có chung điểm gốc là p và có điểm ngọn tương ứng là p 1 và p 2.
2.4.4 Bộ mô tả đặc trưng 3D GRF cải tiến
Trong trường hợp hành động cần nhận dạng gồm “xem giờ”, “vòng
tay”, “gãi đầu”, “ngồi xuống”, “đứng dậy”, “xoay người”, “đi bộ”, “vẫy tay”, “đấm”, “đá” và “nhặt đồ”, đặc trưng 3D GRF nên được cải tiến để
mô tả hành động hữu hiệu hơn GRF cải tiến gồm 15 đặc trưng: giữ lại 8 đặc trưng gốc, thay thế 2 đặc trưng gốc và bổ sung 5 đặc trưng mới
2.5 Nhận dạng hành động dựa trên mô hình HMM
2.5.1 Giới thiệu mô hình HMM