Bài viết tập trung vào nghiên cứu và xây dựng mô hình mới về nhận dạng hành động người, trong đó trọng tâm là phương pháp trích chọn đặc tính PCA, LDA nhằm giảm số chiều và độ lớn của dữ liệu, góp phần nâng cao độ chính xác khi nhận dạng. Trước tiên, từ dữ liệu chuyển động 3D, chúng tôi tiến hành tiền xử lý và trích chọn đặc tính của các đối tượng. Tiếp đến, xây dựng các mô hình nhận dạng ứng với mỗi phương pháp trích chọn đặc tính, sử dụng mô hình SVM để huấn luyện. Mời các bạn cùng tham khảo!
Trang 1MÔ HÌNH TRỌNG SỐ KẾT HỢP CÁC PHƯƠNG PHÁP TRÍCH CHỌN ĐẶC TÍNH TRONG NHẬN DẠNG HÀNH ĐỘNG NGƯỜI
Nguyễn Năng Hùng Vân, Phạm Minh Tuấn, Ung Nho Dãi
Khoa Công nghệ Thông tin, Trường Đại học Bách khoa, Đại học Đà Nẵng Email : nguyenvan@dut.udn.vn, pmtuan@dut.udn.vn, dai.n.ung@gmail.com
Tóm tắt – Nhận dạng hành động người (tiếng Anh:
Human Activity Recognition - HAR) là một lĩnh vực
nghiên cứu quan trọng về thị giác máy tính Khó khăn lớn
nhất đối với hệ thống HAR là dữ liệu từ camera thông
dụng là chỉ quay được ở một hướng, dẫn đến sự thiếu hụt
dữ liệu và dẫn đến kết quả nhận dạng thấp Bài báo này,
tập trung vào nghiên cứu và xây dựng mô hình mới về
nhận dạng hành động người, trong đó trọng tâm là
phương pháp trích chọn đặc tính PCA, LDA nhằm giảm
số chiều và độ lớn của dữ liệu, góp phần nâng cao độ chính
xác khi nhận dạng Trước tiên, từ dữ liệu chuyển động 3D,
chúng tôi tiến hành tiền xử lý và trích chọn đặc tính của
các đối tượng Tiếp đến, xây dựng các mô hình nhận dạng
ứng với mỗi phương pháp trích chọn đặc tính, sử dụng mô
hình SVM để huấn luyện Cuối cùng, sử dụng phương
pháp trọng số để kết hợp kết quả của các mô hình nhận
dạng và đưa ra kết quả cuối cùng Bài báo tiến hành thực
nghiệm trên dữ liệu CMU Mocap và cho thấy tỷ lệ nhận
dạng của phương pháp đề xuất cao hơn so với những
phương pháp trước đây
Từ khóa - Nhận dạng hành động người; Phương pháp
phân tích thành phần chính; Phân tích biệt thức tuyến tính;
Máy vector hỗ trợ
I.GIỚITHIỆU
Từ những năm 80 của thế kỷ trước, nhận dạng hành
động người đã nhận được sự quan tâm, nghiên cứu của
các nhà khoa học trên khắp thế giới Các kết quả nghiên
cứu này được ứng dụng rộng rãi trong nhiều lĩnh vực
khác nhau như hệ thống an ninh, y học, giao thông và
giao tiếp giữa người và máy [1]
Trong những năm gần đây, những nghiên cứu trong
lĩnh vực nhận dạng hành động người chủ yếu tập trung
vào nghiên cứu và nhận dạng từ những video được quay
bởi các camera thông dụng Khó khăn lớn nhất đối với
dữ liệu từ camera thông dụng là chỉ quay được ở một
hướng, dẫn đến sự thiếu hụt dữ liệu, nếu kết hợp nhiều
camera thì vẫn không đảm bảo thu được toàn bộ hoạt
động, đồng thời giảm hiệu năng của quá trình nhận dạng
Nhằm khắc phục những khó khăn trên, trong những
năm gần đây đã có một số nghiên cứu về phương pháp
thu thập dữ liệu 3D hay sử dụng các hệ thống chụp
chuyển động dựa vào “marker” như Motion Capture [2]
hoặc là sử dụng stereo camera chụp chuyển động 2D từ
nhiều hướng khác nhau để dựng thành mô hình 3D, gần
đây nhất là dùng các thiết bị cảm biến chiều sâu chuyên
dụng như Microsoft Kinect [3]
Từ dữ liệu 3D thu được, bài báo trình bày một số
phương pháp trích chọn đặc tính như phân tích thành
phần chính (Principal Components Analysis - PCA) [4]
và phân tích biệt thức đa lớp (Multi-class Linear
Discriminant Analysis - Multi-class LDA) [5] nhằm nâng cao kết quả khi nhận dạng hành động người Điểm chung của hai phương pháp này là làm giảm số lượng thuộc tính của dữ liệu nhận dạng trước khi xây dựng mô hình huấn luyện đồng thời tăng hiệu quả nhận dạng Mỗi phương pháp trích chọn đặc tính khác nhau sẽ cho một kết quả nhận dạng khác nhau Bài báo này sử dụng phương pháp trọng số để kết hợp các phương pháp trích chọn đặc tính nhằm nâng cao hiệu quả nhận dạng
Nội dung của bài báo trình bày các nghiên cứu liên quan gồm phương pháp trích chọn đặc tính PCA, LDA
và phương pháp máy vectơ hỗ trợ (Support Vector Machine – SVM) Sau đó bài báo trình bày phương pháp
đề xuất Cuối cùng trình bày kết quả thực nghiệm và các đánh giá dựa trên dữ liệu của CMU Mocap [2]
II.NGHIÊNCỨULIÊNQUAN Trong phần này, bài báo trình bày những vấn đề liên quan đến nghiên cứu như PCA, Multi-class LDA và phương pháp nhận dạng sử dụng SVM
A Phương pháp phân tích thành phần chính - PCA
Phương pháp phân tích thành phần chính [4] (Principal Components Analysis - PCA) là một thuật toán thống kê sử dụng phép biến đổi trực giao để biến đổi một tập hợp dữ liệu từ một không gian nhiều chiều sang một không gian mới ít chiều hơn Phép biến đổi này dựa trên việc tìm trục của không gian mới sao cho phương pháp dữ liệu chiếu lên trục đó là lớn nhất
Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ, mà vẫn đảm bảo phương sai của dữ liệu trên mỗi chiều mới là lớn nhất Hình 1 là một minh họa kết quả của việc xây dựng không gian mới của PCA
a) Không gian dữ liệu ban đầu b) Không gian dữ liệu mới
Hình 1 Minh họa PCA
y
z
x
a
b
y
Trang 2Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Giải sử cho tập dữ liệu huấn luyện 𝐗𝐗 = {𝑥𝑥𝑖𝑖|𝑥𝑥𝑖𝑖 ∈
𝑹𝑹𝑑𝑑}, i ∈ {1 … n} Với 𝒙𝒙𝒊𝒊 là vectơ thuộc không gian 𝑑𝑑
chiều, 𝑛𝑛 là số lượng vectơ trong tập 𝐗𝐗
Bước 1: Tiền xử lí
Có hai cách tiền xử lí thường được dùng cho PCA là
Centered PCA và Normed PCA [4]
- Centered PCA là phương pháp mang trọng tâm của
tất cả các vectơ về tọa độ gốc:
𝐗𝐗̂ = {𝑥𝑥̂}, 𝑖𝑖
𝑥𝑥̂ = 𝑥𝑥𝑖𝑖 𝑖𝑖− µ trong đó µ là trọng tâm của tất cả các vectơ trong tập 𝐗𝐗,
được tính bởi công thức:
µ = 1𝑛𝑛 ∑ 𝑥𝑥𝑗𝑗
𝑛𝑛
𝑗𝑗𝑗𝑗
- Normed PCA là phương pháp mang trọng tâm tất
cả vectơ về tọa độ gốc, đồng thời chuẩn hóa dữ liệu về
độ lệch chuẩn là 1:
𝐗𝐗̃ = {𝑥𝑥̃} 𝑖𝑖
trong đó 𝒙𝒙̃ là vectơ n chiều (𝑥𝑥𝒊𝒊 ̃ … , 𝑥𝑥𝑖𝑖𝑗 ̃ … , 𝑥𝑥𝑖𝑖𝑖𝑖 ̃ ), 𝑥𝑥𝑖𝑖𝑛𝑛 ̃ 𝑖𝑖𝑖𝑖
được tính bởi:
𝑥𝑥̃ = 𝑖𝑖𝑖𝑖 𝑥𝑥𝑖𝑖𝑖𝑖𝜎𝜎− µ
𝑖𝑖
với
𝜇𝜇𝑖𝑖 =1𝑛𝑛 ∑ 𝑥𝑥𝑗𝑗𝑖𝑖
𝑛𝑛 𝑗𝑗𝑗𝑗
𝜎𝜎𝑖𝑖= √𝑛𝑛 − 𝑛1 ∑(𝑥𝑥𝑗𝑗𝑖𝑖− 𝜇𝜇𝑖𝑖)2
𝑛𝑛
𝑗𝑗𝑗𝑗
trong đó 𝜎𝜎𝑗𝑗 là phương sai của cột thứ 𝑗𝑗 trong X
Trong bài báo này, phương pháp Centered PCA
được sử dụng để trích chọn đặc tính trong nhận dạng
Bước 2: Xây dựng không gian mới
Tính ma trận hiệp phương sai (covariance) của các
thuộc tính trong 𝐗𝐗̂, Gọi 𝐗𝐗∗= [𝑥𝑥𝑥𝑗… 𝑥𝑥𝑥𝑛𝑛] ∈ 𝑅𝑅𝑛𝑛𝑛𝑑𝑑 là ma
trận chứa tất cả các vectơ huấn luyện
𝐕𝐕 = 𝐗𝐗∗𝐗𝐗∗𝐓𝐓
Do là tích của ma trận 𝐗𝐗∗ với một chuyển vị của nó
nên 𝐕𝐕 ∈ 𝑹𝑹𝑑𝑑 𝑛 𝑑𝑑 là ma trận có kích thước 𝑑𝑑 𝑛 𝑑𝑑 Bài toán
xây dựng không gian mới được thực hiện bằng cách giải
bài toán tìm giá trị riêng sau, với 𝒖𝒖 là các vectơ riêng
của 𝐕𝐕:
𝐕𝐕𝒖𝒖 = 𝐕𝒖𝒖
Bước 3: Chuyển dữ liệu từ không gian ban đầu
sang không gian mới
Thông thường không gian mới không được xây
dựng bằng tất cả các 𝑑𝑑 vectơ riêng trong 𝑅𝑅𝑑𝑑, mà thông
thường chỉ sử dụng 𝑘𝑘 vectơ riêng đầu tiên
Gọi ma trận 𝐔𝐔𝑃𝑃𝑃𝑃𝑃𝑃= [ 𝒖𝒖𝑗,𝒖𝒖2… 𝒖𝒖𝑖𝑖 ] ∈ 𝑹𝑹𝑑𝑑𝑛𝑖𝑖 Khi
đó tọa độ các điểm trong hệ tọa độ mới là:
𝐅𝐅 = 𝐔𝐔𝑃𝑃𝑃𝑃𝑃𝑃𝐓𝐓 𝐗𝐗∗∈ 𝑹𝑹𝑛𝑛𝑛𝑖𝑖
B Phân tích biệt thức tuyến tính đa lớp – multi-class LDA
Phân tích biệt thức tuyến tính đa lớp (Multi-class Linear Discriminant Analysis – multi-class LDA) là phương pháp phân tích biệt thức tuyến tính trong bài toán phân loại đa lớp được xây dựng bằng việc cải tiến phương pháp phân tich biệt thức tuyến tính hai lớp (Liner Discriminant Analysis – LDA) [5] Multi-class LDA tìm trục vectơ 𝒖𝒖 sao cho tất cả các dữ liệu khi chiếu
trên trục 𝒖𝒖 đó có độ phân ly lớn nhất
Cho tập dữ liệu huấn luyện có gán nhãn:
𝐗𝐗 = 𝐗(𝒙𝒙𝑖𝑖, 𝑦𝑦𝑖𝑖 )|𝒙𝒙𝒊𝒊 ∈ 𝑹𝑹𝑑𝑑, y ∈ {𝑛 … 𝑙𝑙}}; i ∈ {𝑛 … n} Với 𝒙𝒙𝑖𝑖 là vectơ thứ 𝑖𝑖 của tập huấn luyện thuộc không
gian 𝑑𝑑 chiều, 𝑦𝑦𝑖𝑖 là nhãn của 𝒙𝒙𝑖𝑖 Khi đó, độ phân ly của
dữ liệu huấn luyện khi chiếu trên trục vectơ 𝒖𝒖 được biểu
diễn như sau:
𝒖𝒖TSb𝒖𝒖 𝒖𝒖Sw𝒖𝒖 trong đó, Sb là ma trận phân tán liên hợp (within class scatter matrix), được tính bởi công thức:
Sb= ∑ 𝑛𝑛𝑐𝑐
𝑙𝑙 𝑐𝑐𝑗𝑗
(𝜇𝜇𝑐𝑐− 𝜇𝜇)(𝜇𝜇𝑐𝑐− 𝜇𝜇)T∈ 𝑹𝑹𝑑𝑑𝑛𝑑𝑑
trong đó, 𝜇𝜇𝑐𝑐 là trọng tâm của lớp 𝑐𝑐 và 𝑛𝑛𝑐𝑐 số lượng vectơ
có trong lớp 𝑐𝑐 𝜇𝜇 và 𝑛𝑛 là trọng tâm và số lượng của tất
cả dữ liệu có trong tập huấn luyện
𝜇𝜇𝑐𝑐 =𝑛𝑛1
𝑐𝑐∑ 𝒙𝒙𝑖𝑖
𝑦𝑦𝑖𝑖𝑗𝑐𝑐
𝜇𝜇 =1
𝑛𝑛∑ 𝒙𝒙𝑖𝑖
𝑛𝑛
𝑖𝑖𝑗𝑗
và Sb là ma trận phân tán nội lớp (within - class scatter matrix), được tính bởi:
Sb = ∑(𝒙𝒙𝑖𝑖− 𝜇𝜇𝑦𝑦𝑖𝑖)(𝒙𝒙𝑖𝑖− 𝜇𝜇𝑦𝑦𝑖𝑖)T
𝑛𝑛 𝑖𝑖𝑗𝑗
∈ 𝑹𝑹𝑑𝑑𝑛𝑑𝑑
trong đó 𝜇𝜇𝑦𝑦 𝑖𝑖 là là trọng tâm của lớp có nhãn là 𝑦𝑦𝑖𝑖
Khi đó vectơ 𝒖𝒖 được xác định bởi,
𝒖𝒖̂ = argmax
𝒖𝒖
𝒖𝒖TSb𝒖𝒖
𝒖𝒖TSw𝒖𝒖
Ta có thể tìm được vectơ 𝒘𝒘 bằng cách giải bài toán tìm giá trị riêng tổng quát sau:
Sb𝒖𝒖 = 𝐕𝒖w𝒖𝒖
Việc chuyển dữ liệu từ không gian ban đầu sang không gian mới tương tự như phương pháp PCA
C Máy Vector hỗ trợ
Máy vectơ hỗ trợ (Support Vector Machine – SVM) [6] làm một giải thuật học máy dựa trên lý thuyết học thống kê Giả sử cho trước n điểm trong không gian 𝑑𝑑 chiều (mỗi điểm thuộc vào một lớp kí hiệu là +1 hoặc
-1, mục đích của giải thuật SVM là tìm một siêu phẳng (hyperplane) phân hoạch tối ưu cho phép chia các điểm này thành hai phần sao cho các điểm cùng một lớp nằm
về một phía với siêu phẳng này
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Trang 3Xét tập dữ liệu mẫu có thể tách rời tuyến tính
{(𝒙𝒙1, 𝑦𝑦1), (𝒙𝒙2, 𝑦𝑦2), … , (𝒙𝒙𝑛𝑛, 𝑦𝑦𝑛𝑛)} với 𝒙𝒙𝑖𝑖∈ 𝑹𝑹𝑑𝑑 và 𝑦𝑦𝑖𝑖∈
{−1, 1} Siêu phẳng phân tập dữ liệu này thành hai lớp
là siêu phẳng có thể tách rời dữ liệu thành hai lớp riêng
biệt với lề (margin) lớn nhất Tức là, cần tìm siêu phẳng
phân tách dữ liệu H: 𝒘𝒘 ∙ 𝒙𝒙 + b = 0 và hai siêu phẳng H1,
H2 song song với H và có cùng khoảng cách đến H Với
điều kiện không có phần tử nào của tập mẫu nằm giữa
H1 và H2, khi đó:
{𝒘𝒘 ∙ 𝒙𝒙 + b ≥ 1 y = 1
𝒘𝒘 ∙ 𝒙𝒙 + b ≤ 1 y = −1
Kết hợp hai điều kiện trên ta có 𝑦𝑦𝑦𝒘𝒘 ∙ 𝒙𝒙 𝑦 𝑦𝑦𝑦≥ 𝑦𝑦
Khoảng cách (còn gọi là “lề”) của giữa 2 siêu phẳng
H1 và H2 đến H là ‖w‖ Bài toán đặt ra là tìm siêu phẳng
Hsao cho lề lớn nhất, tức là cần tìm min
𝑤𝑤𝑤𝑤𝑤‖w‖ với ràng buộc 𝑦𝑦𝑦𝒘𝒘 ∙ 𝒙𝒙 𝑦 𝑦𝑦𝑦≥ 𝑦𝑦 Bài toán này có thể chuyển
sang bài toán tương đương dễ giải hơn là min𝑤𝑤𝑤𝑤𝑤 12‖w‖2
với ràng buộc𝑦𝑦𝑦𝑦𝒘𝒘 ∙ 𝒙𝒙 𝑦 𝑦𝑦 𝑦≥ 𝑦𝑦 Lời giải cho bài toán
tối ưu này là cực tiểu hóa hàm Lagrange:
L(𝒘𝒘, 𝑏𝑏, 𝛼𝛼) = 12‖𝒘𝒘‖2− ∑ 𝛼𝛼𝑖𝑖[𝑦𝑦𝑖𝑖(𝒘𝒘 ∙ 𝒙𝒙𝑖𝑖𝑦 𝑏𝑏) − 1]
𝑛𝑛
𝑖𝑖=1
Trong đó 𝛼𝛼 là các hệ số Lagrange, 𝛼𝛼 ≥ 𝛼 Sau đó
người ta chuyển thành bài toán đối ngẫu là cực đại hóa
hàm W(𝛼𝛼):
max𝛼𝛼 W(𝛼𝛼) = max𝛼𝛼 (min𝒘𝒘,𝑤𝑤L(𝒘𝒘, 𝑏𝑏, 𝛼𝛼))
Giải bài toán trên ta được 𝒘𝒘𝑤 𝑏𝑏 và 𝛼𝛼 Việc phân lớp
chỉ là việc kiểm tra hàm dấu sign(𝒘𝒘 ∙ 𝒙𝒙 + b) Hình 2là
một minh họa siêu phẳng với lề cực đại trong không gian
hai chiều Các phần tử nằm trên lề gọi là vectơ hỗ trợ
Hình 2 Siêu phẳng với lề cực đại trong không gian 2D
III.PHƯƠNGPHÁPĐỀXUẤT
Bài báo này kết hợp các phương pháp trích chọn đặc
tính sử dụng phương pháp trọng số nhằm nâng cao hiệu
quả nhận dạng Giải pháp đề xuất được tổng quát theo
Hình 3 bao gồm các khối chức năng chính: Tiền xử lý,
trích chọn đặc tính, học máy sử dụng SVM và phương
pháp trọng số
Hình 3 Mô hình đề xuất nhận dạng hành động
A Quá trình tiền xử lý
Mô hình bộ xương 3D của con người có một số lượng lớn các đoạn xương, kết hợp với độ tự do của mỗi khớp sẽ làm tăng số chiều của thuộc tính Hơn nữa, mỗi hành động của người có thời gian dài ngắn khác nhau nên quá trình tiền xử lý này giải quyết hai vấn đề:
Giảm số chiều của thuộc tính bằng cách giảm số lượng các xương được lựa chọn trong quá trình trích chọn đặc tính Bài báo này tham khảo phương pháp của K Adistambha [7] trong việc lựa chọn một nhóm các xương có thể thay thế cho toàn bộ xương trong quá trình nhận dạng mà vẫn đảm bảo độ chính xác của mô hình
Chuẩn hóa thời gian quan trắc dữ liệu của hành động của người Bài báo này chọn phương pháp đơn giản nhất là sử dụng thời gian của hành động ngắn nhất
B Trích chọn đặc tính
Mục đích chính là tìm vectơ biểu diễn dữ liệu với số chiều nhỏ hơn dữ liệu ban đầu nhưng vẫn đảm bảo được hiệu quả nhận dạng hành động người Bài báo này sử dụng 3 phương pháp trong quá trình trích chọn đặc tính
Phương pháp trích chọn đặc tính thủ công [7] bằng cách thực hiện lựa chọn một số nhóm xương từ tất cả các xương quan trắc được Việc xây dựng vectơ thuộc tính là quá trình tạo vectơ
từ các góc quay của các xương so với khớp quay của chúng Nếu sử dụng 11 xương, mỗi xương đều có thể quay tự do theo 3 hướng thì số chiều của vectơ sẽ là 11 × 3 × frame Trong đó frame
là số số lượng quan trắc được trong một hành động
Phương pháp sử dụng PCA Sử dụng tất cả các xương quan trắc được, tạo tất cả vectơ thuộc tính cho tất cả các hành động người Sau đó, giải bài toán tìm vectơ riêng và không gian mới từ các vectơ riêng có giá trị riêng lớn
Phương pháp sử dụng mutli-class LDA Tương
tự như cách sử dụng tất cả các xương đối với phương pháp PCA
C Phương pháp trọng số
Mỗi phương pháp trích chọn đặc tính cho một kết quả khác nhau và có những ưu điểm cũng như nhược điểm khác nhau Kết hợp các phương pháp trích chọn này sẽ có thể khắc phục những nhược điểm của từng
Trang 4Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
phương pháp Mỗi phương pháp trích chọn đặc tính
thường có tỷ lệ nhận dạng khác nhau nên bài báo này đề
sử dụng tỷ lệ nhận dạng trong việc xác định trọng số gán
nhãn trong phương pháp đề xuất Cụ thể là, bài báo đề
xuất việc xác định trọng số và cách gán nhãn cho hành
động cần nhận dạng như sau:
Giả sử ta có 𝑏𝑏 phương pháp trích chọn đặc tính và 𝑐𝑐
loại hành động khác nhau (cụ thể trong bài báo này 𝑏𝑏 =
3, 𝑐𝑐 = 4) Các phương pháp được đánh số thứ tự từ 1 đến
𝑏𝑏; các loại hành động được gán nhãn từ 1 đến 𝑐𝑐 Gọi 𝑓𝑓𝑖𝑖
là nhãn của hành động nhận dạng được từ mô hình sử
dụng phương pháp trích chọn đặc tính 𝑖𝑖, 𝜔𝜔𝑖𝑖 là tỷ lệ nhận
dạng của phương pháp trích chọn đặc tính 𝑖𝑖, 𝑖𝑖 𝑖 𝑖𝑖𝑖 𝑖 𝑖𝑖𝑖,
𝑓𝑓𝑖𝑖 ∈ 𝑖𝑖𝑖 𝑖 𝑚𝑚𝑖
Gọi 𝑝𝑝𝑗𝑗 là trọng số để gán nhãn 𝑗𝑗 cho hành động cần
nhận dạng, 𝑗𝑗 𝑖 𝑖𝑖𝑖 𝑖 𝑚𝑚𝑖 Khi đó 𝑝𝑝𝑗𝑗 đươc xác định bởi
công thức sau:
𝑝𝑝𝑗𝑗𝑖 ∑ 𝜔𝜔𝑖𝑖
𝑓𝑓𝑖𝑖=𝑗𝑗
Nhãn 𝑓𝑓̂ cần tìm được xác định như sau:
𝑓𝑓̂ 𝑖 argmax
𝑗𝑗 (𝑝𝑝𝑗𝑗)
IV.KẾTQUẢTHỰCNGHIỆM
Bài báo này sử dụng dữ liệu 3D của CMU Mocap
trong việc kiểm chứng kết quả nhận dạng Quá trình
thực nghiệm được chia làm hai giai đoạn Giai đoạn thứ
nhất là tiến hành xây dựng mô hình nhận dạng với dữ
liệu đầu vào ứng với các phương pháp trích chọn đặc
tính khác nhau Giai đoạn tiếp theo sẽ kết hợp các
phương pháp trích chọn đặc tính sử dụng tỉ lệ nhận dạng
thu được ở giai đoạn thứ nhất
A Dữ liệu 3D của CMU Mocap
Để theo dõi chuyển động của các đối tượng, Đại học
Carnegie Mellon (CMU) [2] đã xây dựng một phòng thí
nghiệm gồm 12 camera hồng ngoại MX-40 lắp đặt xung
quanh một không gian hình chữ nhật có kích thước
3m×8m Một người mang bộ áo liền quần có gắn các
marker bên trên và di chuyển tự do trong vùng ghi hình
Các camera sẽ định vị marker bằng sóng hồng ngoại
Tín hiệu thu được từ hệ thống camera được xử lý và cho
ra kết quả cuối cùng là dữ liệu dạng mô hình hóa 3D của
cơ thể người Một số cấu trúc định dạng khác nhau được
sử dụng như asf/amc, vsk/v, c3d, bvh, txt
Bài báo này sử dụng dữ liệu định dạng bởi cấu trúc
ASF (Acclaim Skeleton File) và AMC (Acclaim Motion
Capture)
ASF mô tả sự gắn kết giữa các xương trong cơ
thể và độ tự do (degrees of freedom - dof) của
các khớp ASF chính là trạng thái ban đầu của dữ
liệu chuyển động và chứa các thông tin về chiều
dài, hướng, độ tự do của mỗi xương
AMC chứa các thông tin có thể thay đổi trong hệ
thống các khớp xương Dữ liệu hành động thay
đổi theo thời gian nên AMC được tạo thành bởi
nhiều frame, mỗi frame thể hiện dữ liệu gồm vị
trí và các góc quay của các xương cho một thời
điểm Bài báo này, chỉ sử dụng các góc quay của các xương được lưu trữ trong cấu trúc AMC
Hình 4 là một biễu diễn của cấu trúc ASF Bài báo
này sử dụng dữ liệu gồm 29 xương thể hiện như Hình
4 Hình 5 là một ví dụ về hình ảnh 3D của xương người
được dựng lại từ cấu trúc AMC
Hình 4 Mô hình bộ xương [7]
Hình 5 Xương người 3D được dựng lại từ AMC
B Kết quả thực nghiệm
Để tiến hành thực nghiệm bài báo chọn bốn hành động là: chạy (run), đi (walk), nhảy (jump) và khiêu vũ (dance) Dữ liệu được chia ngẫu nhiên thành ba nhóm khác nhau như Bảng 1 Dữ liệu huấn luyện gồm 165
lượt hành động dùng trong việc xây dựng mô hình với PCA, multi-class LDA và SVM Dữ liệu kiểm định gồm
163 lượt hành động dùng trong việc tìm tỷ lệ nhận dạng của từ phương pháp trích chọn đặc tính và dữ liệu kiểm thử gồm 163 lượt hành động dùng để thử nghiệm kết quả cuối cùng của phương pháp đề xuất
B ẢNG 1 T HỐNG KÊ SỐ LƯỢNG DỮ LIỆU
Dữ liệu huấn luyện 24 75 43 23 165
1) Kết quả nhận dạng sử dụng phương pháp thủ công
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Trang 5Bài báo sử dụng phương pháp thủ công bằng cách lựa
chọn các nhóm xương tham khảo từ kết quả nghiên cứu
của K Adistambha [7] Việc phân chia các nhóm dựa
trên nguyên tắc nhóm sau là nhóm trước thêm vào một
số xương khác, chi tiết ở Hình 4:
Nhóm 3 xương: root, lowerback, upperback
Nhóm 4 xương = nhóm 3 + thorax
Nhóm 7 xương = nhóm 4 + lowerneck,
upperneck, head
Nhóm 11 xương = nhóm 7 + left and right
clavicle, left and right humerus
Nhóm 13 xương = nhóm 11+ left and right
femur
Nhóm 17 xương = nhóm 13 + left and right
radius, left and right tibia
Nhóm 23 xương = nhóm 17 + left and right wrist,
left and right hand, left and right foot
Việc thực nghiệm cũng theo thứ tự này, có nghĩa là
bắt đầu với nhóm có ít xương nhất, sau đó thêm các
xương vào để sinh ra nhóm mới, cuối cùng tìm ra mô
hình SVM có kết quả khả quan nhất, chi tiết tại Bảng 2
B ẢNG 2 K ẾT QUẢ THỰC NGHIỆM VỚI PHƯƠNG PHÁP THỦ CÔNG
3 0,0% 93,3% 14,3% 18,2% 49,4%
4 0,0% 93,3% 14,3% 13,6% 48,8%
7 0,0% 94,7% 30,9% 13,6% 53,7%
13 0,0% 96,0% 28,5% 18,2% 54,3%
23 78,3% 98,7% 81,0% 31,9% 82,1%
11 78,3% 98,7% 81,0% 36,4% 82,7%
Tất cả (29) 78,3% 98,7% 81,0% 41,0% 83,3%
Bảng 3 và 4 là kết quả nhận dạng chi tiết khi sử dụng
11 xương và tất cả 29 xương Tỷ lệ thu được khi thực
nghiệm 11 xương trung bình là 82,7% tương đối cao và
chỉ thấp hơn một ít so với việc sử dụng tất cả 29 xương
là 83.3% Vì vậy có thể sử dụng nhóm dữ liệu gồm 11
xương như một phương pháp lựa chọn đặc tính trong
việc xây dựng phương pháp trọng số trong mô hình đề
xuất nhận dạng hành động người
B ẢNG 3 K ẾT QUẢ CHI TIẾT KHI SỬ DỤNG 11 XƯƠNG
B ẢNG 4 K ẾT QUẢ CHI TIẾT KHI SỬ DỤNG TẤT CẢ 29 XƯƠNG
Tuy kết quả nhận dạng trung bình của phương pháp
sử dụng 11 xương khá cao nhưng đối với các loại hành động phức tạp như “dance”, đặc tính của dữ liệu không thể hiện rõ trong không gian hiện tại, dẫn tới tỉ lệ nhận dạng đúng rất thấp (36.4%) Các đặc tính của hành động phức tạp này sẽ thể hiện rõ hơn nếu áp dụng các phương pháp biến đổi để tìm ra một không gian mới, mà ở đó độ biến thiên của dữ liệu là cao nhất
2) Kết quả nhận dạng sử dụng PCA
Đối với phương pháp PCA, thông số cần xác định là
số lượng các vectơ riêng (chính là số chiều trong không gian mới) để mô hình nhận dạng có độ chích xác cao nhất Hình 6 biểu diễn sự biến thiên của tỉ lệ nhận dạng
khi số chiều thay đổi sử dụng PCA
Hình 6 Sự biến thiên của tỉ lệ nhận dạng PCA
Với số chiều tăng dần, độ chính xác tăng theo hình răng cưa đến một giá trị ngưỡng (90.1% với số chiều bằng 49), sau đó bắt đầu giảm và dần trở thành đường thẳng khi số chiều lớn Bảng 5 là kết quả nhận dạng chi
tiết với số chiều bằng 49 trong PCA Ta thấy so với phương pháp thủ công, tỷ lệ nhận dạng đúng của hành động “dance” tăng đáng kể
B ẢNG 5 K ẾT QUẢ NHẬN DẠNG CHI TIẾT VỚI SỐ CHIỀU BẰNG 49
TRONG PCA
3) Kết quả nhận dạng sử dụng multi-class LDA
Tương tự như PCA, phương pháp multi-class LDA cũng cần xác định số chiều dữ liệu sau trích chọn để mô hình nhận dạng xây dựng được có độ chính xác cao nhất
Hình 7 biểu diễn sự biến thiên của tỉ lệ nhận dạng khi
số chiều thay đổi sử dụng multi-class LDA So với PCA,
tỷ lệ nhận dạng của phương pháp multi-class LDA dễ tăng với số chiều nhỏ và dễ học quá (over fitting) khi số chiều được lựa chọn là lớn
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
1 5 8 10 13 17 20 23 37 49 53 69 163
Trang 6Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)
Hình 7 Sự biến thiên của tỉ lệ nhận dạng multi-class LDA
Với số chiều là 138, phương pháp multi-class LDA
đạt được kết quả nhận dạng cao nhất là 86% Bảng 6 là
kết quả nhận dạng chi tiết với số chiều bằng 138 trong
multi-class LDA
B ẢNG 6 K ẾT QUẢ NHẬN DẠNG CHI TIẾT VỚI SỐ CHIỀU BẰNG 138
TRONG MULTI - CLASS LDA
C Phương pháp trọng số
Với kết quả của giai đoạn thực nghiệm trên, bài báo
thu được tỷ lệ nhận dạng của các phương pháp trích
chọn đặc tính cho mô hình phương pháp trọng số biễu
diễn ở Bảng 7
B ẢNG 7 T Ỷ LỆ NHẬN DẠNG THU ĐƯỢC
Giai đoạn thực nghiệm tiếp theo sử dụng phương
pháp trọng số kết hợp các mô hình nhận dạng được xây
dựng từ các phương pháp trích chọn đặc tính với nhau
trong giai đoạn thứ nhât Cuối cùng, bài báo sử dụng dữ
liệu kiểm thử để kiểm tra tỷ lệ nhận dạng Hình 8 biễu
diển tỷ lệ nhận dạng thành công của mô hình đề xuất
(“Kết hợp”) so với các phương pháp trích chọn đặc tính
độc lập Bảng 8 là kết quả nhận dạng chi tiết của mô
hình đề xuất
Hình 8 Thống kê kết quả giữa các phương pháp
Khi kết hợp các phương pháp trích chọn đặc tính, tỉ
lệ nhận dạng có tăng lên Tỉ lệ nhận dạng của mô hình kết hợp là 90.7% cao hơn 0.6% so với phương pháp trích chọn đặc tính tốt nhất (90.1%)
B ẢNG 8 K ẾT QUẢ NHẬN DẠNG CHI TIẾT CỦA MÔ HÌNH ĐỀ XUẤT
D Đánh giá kết quả
Với bài toán nhận dạng hành động trong không gian 3D, với phương pháp trích chọn đặc tính thủ công có thể
sử dụng nhóm có 11 xương để xây dựng mô hình huấn luyện và nhận dạng
Từ kết quả thực nghiệm với hai phương pháp trích chọn đặc tính PCA, multi-class LDA, ta thấy với cùng tập dữ liệu huấn luyện và kiểm định thì độ chính xác cao nhất của PCA là 90.1%, độ chính xác cao nhất của multi-class là 86.0% PCA cho kết quả tốt hơn multi-multi-class LDA
Ngoài ra, nếu sử dụng phương pháp trọng số kết hợp các phương pháp trích chọn đặc tính khác nhau thì độ chính xác của mô hình nhận dạng sẽ được cải thiện (90.7% so với phương pháp tốt nhất là 90.1%)
V.KẾTLUẬN Nhận dạng hành động người được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau của cuộc sống Kết hợp hai phương pháp nghiên cứu lý thuyết và thực nghiệm, bài báo đã trình bày về nhận dạng hành động người trong không gian 3D Bài báo đã trình bày các phương pháp trích chọn đặc tính PCA, multi-class LDA và phương pháp phân nhận dạng sử dụng SVM Bên cạnh
đó, bài báo đã nghiên cứu và đề xuất mô hình trọng số kết hợp các phương pháp trích chọn đặc tính khác nhau với độ chính xác cao Kết quả thực nghiệm cho thấy mô hình đề xuất cho kết quả nhận dạng tốt hơn so với mô hình truyền thống Kết quả nghiên cứu có ý nghĩa khoa học và xã hội cao, góp phần mở ra hướng nghiên cứu mới về nhận dạng hành động con người
TÀILIỆUTHAMKHẢO
[1] TS Nguyễn Văn Giáp, KS Trần Việt Hồng “Kỹ thuật nhận dạng Tiếng nói và ứng dụng trong điều khiển” Trường Đại học Bách Khoa TPHCM
[2] CMU Graphics Lab Motion Capture Database Carnegie Mellon University, Pennsylvania, United States Trang web: http://mocap.cs.cmu.edu/
[3] Trần Việt Đức – Trương Minh Hiếu “Nghiên cứu và ứng dụng Kinect vào việc trình chiếu tài liệu” Trường Đại học Lạc Hồng [4] I.T Jolliffe, “Principal Component Analysis”, 2nd Edn., New York: Springer-Verlag 2002
[5] Alan J.I, “Linear Discriminant Analysis”, Springer 2012 [6] Steinwart, Ingo, Christmann, Andreas, "Support Vector Machines", Springer 2008
[7] Adistambha K, Ritz C H, Burnett I S, “Motion Classification Using Dynamic Time Warping”, ICPR 2008, IEEE
0.00%
20.00%
40.00%
60.00%
80.00%
100.00%
70.00%
75.00%
80.00%
85.00%
90.00%
95.00%
100.00%
Hội Thảo Quốc Gia 2015 về Điện Tử, Truyền Thông và Công Nghệ Thông Tin (ECIT 2015)