PHÂN TÍCH DÁNG ĐI NGƯỜI SỬ DỤNG THÔNG TIN ĐƯỜNG BAO Học viên: Trần Anh Tú Chuyên ngành: Khoa học máy tính Mã số: 60480101 Khóa: 32 Trường Đại học Bách khoa – ĐHĐN Tóm tắt – Ngày nay, các
Trang 1ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRẦN ANH TÚ
PHÂN TÍCH DÁNG ĐI NGƯỜI SỬ DỤNG
THÔNG TIN ĐƯỜNG BAO
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Đà Nẵng – Năm 2017
Trang 2ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA
TRẦN ANH TÚ
PHÂN TÍCH DÁNG ĐI NGƯỜI SỬ DỤNG
THÔNG TIN ĐƯỜNG BAO
Chuyên ngành: Khoa học máy tính
Mã số: 60480101
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS HUỲNH HỮU HƯNG
Đà Nẵng – Năm 2017
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn trực tiếp của TS Huỳnh Hữu Hưng
Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm
Tác giả
Trần Anh Tú
Trang 4MỤC LỤC
LỜI CAM ĐOAN i
MỤC LỤC ii
DANH MỤC CÁC TỪ VIẾT TẮT v
DANH MỤC CÁC BẢNG vii
DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ viii
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục đích và nhiệm vụ nghiên cứu 1
2.1 Mục đích nghiên cứu 1
2.2 Nhiệm vụ nghiên cứu 1
3 Đối tượng và phạm vi nghiên cứu 1
3.1 Đối tượng nghiên cứu 1
3.2 Phạm vi nghiên cứu 2
4 Phương pháp nghiên cứu 2
4.1 Phương pháp lý thuyết 2
4.2 Phương pháp thực nghiệm 2
5 Giải pháp đề xuất 2
6 Ý nghĩa khoa học và thực tiễn của đề tài 3
6.1 Ý nghĩa khoa học của đề tài 3
6.2 Ý nghĩa thực tiễn của đề tài 3
7 Kết quả dự kiến 3
8 Cấu trúc luận văn 3
CHƯƠNG 1 - NGHIÊN CỨU TỔNG QUAN 5
1.1 GIỚI THIỆU CHUNG VỀ XỬ LÝ ẢNH 5
1.2 TỔNG QUAN CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH 5
1.2.1 Nắn chỉnh biến dạng 5
1.2.2 Khử nhiễu 6
1.2.3 Chỉnh mức xám 6
1.2.4 Trích chọn đặc trưng 7
1.2.5 Nhận dạng 7
1.2.6 Nén ảnh 8
1.3 CÁC GIAI ĐOẠN TRONG DÁNG ĐI Ở NGƯỜI 9
1.3.1 Giai đoạn tựa (chống) 10
1.3.2 Giai đoạn đu đưa 11
1.3 QUÁ TRÌNH XỬ LÝ VÀ NHẬN DẠNG DÁNG ĐI 12
1.3.1 Các giai đoạn của hệ thống nhận dạng dáng đi 12
1.3.2 Dữ liệu vào 13
1.3.3 Tiền xử lý 13
Trang 51.3.4 Trích chọn đặc trưng 17
1.3.5 Nhận dạng 18
1.4 CÁC ỨNG DỤNG DỰA TRÊN PHÂN TÍCH DÁNG ĐI 18
1.4.1 Ứng dụng trong lĩnh vực an ninh 18
1.4.2 Ứng dụng trong lĩnh vực bảo mật 19
1.4.3 Ứng dụng trong lĩnh vực y tế 19
1.5 NHỮNG THÁCH THỨC TRONG NHẬN DẠNG DÁNG ĐI 20
1.5.1 Bài toán có quá nhiều chiều 20
1.5.2 Hiện tượng bị che khuất 20
1.5.3 Môi trường không kiểm soát 20
1.5.4 Nhận diện thời điểm bắt đầu và kết thúc ở một thì 21
1.5.5 Lựa chọn đặc trưng phù hợp 21
1.5.6 Tốc độ xử lý và tính chính xác trong nhận dạng 21
1.6 KẾT LUẬN CHƯƠNG 1 21
CHƯƠNG 2 - PHÁT HIỆN VÀ PHÂN TÍCH DÁNG ĐI DỰA TRÊN THÔNG TIN ĐƯỜNG BAO 22
2.1 TIỀN XỬ LÝ 22
2.1.1 Phát hiện chuyển động và truy dấu 22
2.1.2 Mô hình nền (Background Modeling) 22
2.1.3 Sự khác biệt (Differencing) 23
2.1.4 Hậu xử lý và truy dấu 23
2.2 Trích chọn đặc trưng 25
2.2.1 Biểu diễn đường bao (Silhouette) 25
2.2.2 Huấn luyện và phép chiếu (Projection) 26
2.2.3 Đặc trưng HOG 29
2.3 KỸ THUẬT NHẬN DẠNG 30
2.3.1 Đo lường sự tương tự (Similarity Measures) 30
2.3.2 Phân lớp 33
2.3.3 Kỹ thuật sử dụng mạng nơ-ron nhân tạo - ANN 34
2.3.4 Kỹ thuật sử dụng máy vector hỗ trợ - SVM 36
2.3.5 Sử dụng mô hình Markov ẩn - HMM 38
2.3 KẾT LUẬN CHƯƠNG 2 39
CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 40
3.1 THU THẬP DỮ LIỆU 40
3.2 TRIỂN KHAI CÀI ĐẶT 40
3.2.1 Tiền xử lý 40
3.2.2 Trích chọn đặc trưng 41
3.2.3 Huấn luyện 44
3.2.4 Triển khai nhận dạng trên nền tảng di động 46
Trang 63.3 KẾT QUẢ THỰC NGHIỆM 49
3.3.1 Kết quả huấn luyện 49
3.3.2 Kết quả nhận dạng 52
3.3.3 So sánh với các phương pháp khác 52
3.4 NHẬN XÉT KẾT QUẢ 53
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54
TÀI LIỆU THAM KHẢO 55
Trang 7PHÂN TÍCH DÁNG ĐI NGƯỜI SỬ DỤNG THÔNG TIN ĐƯỜNG BAO
Học viên: Trần Anh Tú Chuyên ngành: Khoa học máy tính
Mã số: 60480101 Khóa: 32 Trường Đại học Bách khoa – ĐHĐN
Tóm tắt – Ngày nay, các nghiên cứu trong lĩnh vực thị giác máy tính hỗ trợ rất nhiều cho
công tác y tế, đặc biệt là các nghiên cứu phân tích dáng đi giúp nhận dạng một đối tượng hoặc phân tích dáng đi của bệnh nhân Trong luận văn này này đề xuất giải pháp phân tích dáng đi sử dụng thông tin đường bao, sau đó nhận dạng và đưa ra kết quả dựa trên dữ liệu
đã phân lớp Quá trình xử lý bao gồm các bước: (1) thu nhận các đặc trưng đường biên cơ thể thông qua việc sử dụng camera hoặc tập dữ liệu mẫu; (2) tính toán các thông số đặc trưng đặc trưng của đường bao; (3) huấn luyện dữ liệu đặc trưng và thu được mô hình dữ liệu đã phân lớp; (4) tiến hành nhận dạng và so sánh dữ liệu nhận dạng với dữ liệu đã phân lớp để đưa ra kết luận
Từ khóa – Nhận dạng dáng đi, nhận dạng dáng đi người, định danh người, phân tích đường
bao, phân tích dáng đi
SILHOUETTE ANALYSIS-BASED GAIT RECOGNITION
Abstract - Nowadays, visual computing studies support a great deal of medical work,
especially gait analysis studies that help identify an object or analyze the gait of a patient This thesis proposes a parsimensional solution that uses envelope information, then identifies and outputs based on classified data The process consists of the following steps: (1) acquiring bodily features through the use of Kinect; (2) calculation of characteristic parameters including joint location and envelope characteristics; (3) specific data training and obtained stratified data model; (4) Identify and compare identifiers with classed data
to make conclusions
Key words – Gait recognition, human gait recognition, human identification, silhouette
analysis, gait analysis
Trang 8DANH MỤC CÁC TỪ VIẾT TẮT
2D Two Dimension
3D Three Dimension
ANN Artificial Neural Network
BPNN Back propagation neural network
CSDL Cơ sở dữ liệu
DoG Difference of Gaussian
HMM Hidden Markov Model
HOG Histogram Orientation Gradient
Trang 9DANH MỤC CÁC BẢNG
3.1 So sánh độ chính xác với các phương pháp khác 53
Trang 101.4 Mô tả khung xương chân cho giai đoạn chống 9 1.5 Mô tả khung xương chân cho giai đoạn đu đưa 11 1.6 Các giai đoạn của hệ thống nhận dạng dáng đi 12 1.7 Một số hình ảnh các gian đoạn của bước chân 13
1.9 Ví dụ về quá trình chuyển đổi ảnh và lọc nhiễu 15 1.10 Phân đoạn ảnh dựa trên ngưỡng của lược đồ mức xám 15
1.13 Một ví dụ về đối tượng ở sân bay không thể nhận dạng
1.14 Một mô hình nhận diện dáng đi để mở khoá cửa tự động 20 1.15 Một ví dụ về phân tích dáng đi trong y học 20 2.1 Ví dụ của tách đường bao đang chuyển động 24 2.2 Sự thay đổi của các đường bao trong một mẫu dáng đi 25
2.4 Minh họa PCA: tìm các trục tọa độ mới sao cho dữ liệu có
2.5 Ảnh sau khi tính gradient và chia thành các cell 30
2.10 Học sửa lỗi thông qua các điều chỉnh trọng số 36 2.11 Ánh xạ dữ liệu từ không gian gốc sang không gian đặc
trưng cho phép phân chia dữ liệu bởi siêu phẳng 37
2.13 Ví dụ về quá trình phân lớp của SVM đa lớp 38 2.14 Tham số xác suất của một mô hình Markov ẩn 39
Trang 113.1 Một số ví dụ về dữ liệu gốc từ camera 41 3.2 Ba vector đặc trưng đầu tiên cho mỗi góc nhìn được tạo bởi
3.5 Kết quả bước đầu tiên của quá trình huấn luyện 49
3.7 Biểu đồ tương quan giữa độ chính xác và số bước huấn
Trang 12MỞ ĐẦU
1 Lý do chọn đề tài
Các phương pháp sinh trắc học để nhận diện con người dựa trên đặc điểm sinh lý/hành vi của đối tượng như nhận dạng khuôn mặt, giọng nói, mống mắt, vân tay, hình dạng tay và dáng đi, đã và đang đóng vai trò ngày càng quan trọng trong việc nhận dạng con người dựa trên tính phổ biến và độc đáo của chúng
Nhận dạng dựa trên dáng đi là một công nghệ sinh trắc học sử dụng để nhận dạng con người từ dáng đi và kích thước cơ thể Ưu điểm của phương pháo này là dáng đi khó có thể thay đổi, khó có thể bắt chước trong một thời gian dài liên tục [4] Không giống như các phương pháp sinh trắc học khác như ngón tay, mống mắt mặc dù khó nhưng vẫn có thể thay đổi được Nhận dạng dáng đi có thể được sử dụng ở một khoảng cách tương đối lớn mà không bị phát hiện bởi đối tượng
Như vậy chúng ta có thể thấy được ưu điểm của nhận dạng dáng đi so với các phương pháp sinh trắc học khác Tuy nhiên, các phương pháp phổ thông hiện nay chỉ sử dụng dữ liệu 2D có độ chính xác không cao [3]
Từ những lí do trên, tôi đề xuất chọn đề tài luận văn cao học là: “Phân tích dáng
đi người sử dụng thông tin đường bao” dự kiến có thể nâng cao độ chính xác bằng
cách sử dụng thông tin đường bao (Silhouette) với một hoặc nhiều camera
2 Mục đích và nhiệm vụ nghiên cứu
2.1 Mục đích nghiên cứu
Mục tiêu chính của đề tài là sử dụng một hoặc nhiều camera để ghi nhận quá trình chuyển động của đối tượng, sau đó trích thông tin đặc trưng, từ đó phân tích dáng đi
2.2 Nhiệm vụ nghiên cứu
Luận văn tập trung nghiên cứu những vấn đề sau:
- Tìm hiểu các loại camera và bộ SDK hỗ trợ ghi nhận dáng đi
- Nghiên cứu các phương pháp phân tích dáng đi
- Nghiên cứu phương pháp mới hoặc cải tiến phương pháp cũ sử dụng một hoặc nhiều camera và sử dụng dữ liệu đường bao, sau đó phân tích và đánh giá
- Triển khai thực nghiệm để kiểm chứng kết quả
3 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
Luận văn tập trung tìm hiểu những vấn đề sau:
- Khung hình hoặc đoạn video thu được từ camera hoặc từ các bộ dữ liệu có sẵn
- Các phương pháp huấn luyện học máy
- Các phương pháp nhận dạng dựa trên dáng đi
Trang 13Luận văn tập trung nghiên cứu một số lý thuyết như sau:
- Tìm hiểu các tài liệu hiện có về nhận dạng sinh trắc học khác nhau
- Tìm hiểu các phương pháp trích chọn đặc trưng khác nhau
- Tìm hiểu các tài liệu hiện có về nhận dáng dáng đi khác nhau
- Nghiên cứu bài báo liên quan
4.2 Phương pháp thực nghiệm
Luận văn nghiên cứu một số vấn đề về thực nghiệm như sau:
- Ghi nhận dữ liệu từ camera hoặc sử dụng dữ liệu có sẵn
- Phân tích và đánh giá dữ liệu ở trên để kiểm chứng và so sánh tính hiệu quả với các phương pháp khác
5 Giải pháp đề xuất
Quá trình xử lý và các phương pháp dự kiến được nghiên cứu sử dụng:
Hình 0.1 – Sơ đồ phương pháp dự kiến
• Tiền xử lý: Từ dữ liệu thu nhận được ta thực hiện xử lý ảnh cơ bản bao gồm: căn
chỉnh ảnh, chuẩn hóa ánh sáng, loại bỏ nhiễu, tách ngưỡng, lọc tần số, lọc màu da
• Trích chọn đặc trưng: Có thể dựa vào đặc điểm không gian (phân bố mức xám,
phân bố xác suất, biên độ, điểm uốn…), đặc điểm biến đổi, đặc điểm biên và đường
Trang 14biên… của ảnh để trích chọn đặc trưng phù hợp với mục đích nhận dạng Mục tiêu của trích chọn đặc trưng là dựa trên các tín hiệu thu được để mô tả các đối tượng bằng các giá trị xấp xỉ bằng nhau đối với các đối tượng cùng loại, và khác xa nhau nếu khác loại
Số lượng đặc trưng càng ít càng tốt Đầu ra của công đoạn này được gọi là véc tơ đặc trưng của đối tượng
• Huấn luyện hệ thống: Dựa trên các thông số sau khi trích chọn đặc trưng từ các
dữ liệu, có thể sử dụng các phương pháp học máy như: Mạng nơ-ron nhân tạo (Artificial Neural Network- ANN), Mô hình Markov ẩn (Hidden Markov Model - HMM), máy vector hỗ trợ (Support Vector Machines - SVM), mô hình cực đại hóa Entropy (Maximum Entropy Model - MEM) … để huấn luyện tập dữ liệu, đồng thời sử sụng các phương pháp đánh giá chất lượng của tập dữ liệu Kết quả thu được là cơ sở dữ liệu đã được phân lớp
• CSDL đã phân lớp: Tập dữ liệu đạt chất lượng cao đã được huấn luyện và đánh
giá ở bước huấn luyện hệ thống
• Nhận dạng dáng đi: Thực hiện việc so khớp giữa các véc tơ đặc trưng được trích
chọn ở dữ liệu người dùng với các đặc trưng đã được huấn luyện và đánh giá (trong CSDL đã phân lớp) ở tập dữ liệu mẫu phục vụ quá trình nhận dạng, đưa ra kết luận mẫu nhận dạng thuộc phân lớp nào
6 Ý nghĩa khoa học và thực tiễn của đề tài
6.1 Ý nghĩa khoa học của đề tài
Về mặt khoa học, đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết và phương pháp phân tích dáng đi, được áp dụng trong các hướng nghiên cứu sâu hơn, cụ thể hơn
6.2 Ý nghĩa thực tiễn của đề tài
Về mặt thực tiễn, kết quả đề tài có thể được ứng dụng trong các hệ thống an ninh
để nhận dạng các đối tượng cần thiết, và trong lĩnh vực y tế để chuẩn đáng các căn bệnh liên quan tới khung xương thông qua dáng đi
7 Kết quả dự kiến
Luận văn dự kiến sẽ đạt được những kết quả sau:
- Hiểu được các kĩ thuật xử lý ảnh và học máy cơ bản
- Đưa ra được giải pháp cho vấn đề phân tích/nhận dạng dáng đi một cách hiệu quả
- Xây dựng chương trình thực nghiệm phân tích/nhận dạng dáng đi để kiểm chứng
8 Cấu trúc luận văn
Nội dung của luận văn được trình bày với các phần chính như sau:
Mở đầu
Trang 15Chương 1 - Nghiên cứu tổng quan: Chương này trình bày một số vấn đề liên
quan tới phân tích dáng đi như các lý thuyết về nhận dạng dáng đi, các phương pháp
xử lí ảnh, các ứng dụng dựa trên nhận dạng dáng đi
Chương 2 - Phát hiện và phân tích dáng đi dựa trên thông tin đường bao:
Trong chương này trình bày cách phát hiện phân đoạn dáng đi thành chu kì, một số kỹ
thuật trích chọn đặc trưng thường được sử dụng để phục vụ cho bài toán nhận dạng Đồng thời giới thiệu một số kỹ thuật nhận dạng dáng đi phổ biến như: K-NN, SVM, ANN
Trang 16CHƯƠNG 1 - NGHIÊN CỨU TỔNG QUAN
1.1 GIỚI THIỆU CHUNG VỀ XỬ LÝ ẢNH
Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống
Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy
Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh “tốt hơn” hoặc một kết luận [2]
Hình 1.1 - Quá trình xử lý ảnh
Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể xem như một hàm n biến P (c1, c2 , cn) Do đó, ảnh trong xử
lý ảnh có thể xem như ảnh n chiều
1.2 TỔNG QUAN CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH
Ảnh và điểm ảnh: Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại một toạ độ trong không gian của đối tượng và ảnh được xem như là 1 tập hợp các điểm ảnh Mức xám, màu: Là số các giá trị có thể có của các điểm ảnh của ảnh
1.2.1 Nắn chỉnh biến dạng
Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện tử
Hình 1.2 - Ảnh thu nhận và ảnh mong muốn [2]
Trang 17Để khắc phục người ta sử dụng các phép chiếu, các phép chiếu thường được xây dựng trên tập các điểm điều khiển
Giả sử ảnh bị biến đổi chỉ bao gồm: Tịnh tiến, quay, tỷ lệ, biến dạng bậc nhất tuyến tính Khi đó hàm f có dạng:
f (x, y) = (a1x + b1y + c1, a2x + b2y + c2)
Ta có:
Giải hệ phương trình tuyến tính tìm được a1, b1, c1 Tương tự tìm được a2, b2, c2 Xác định được hàm f
1.2.2 Khử nhiễu
Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh
- Nhiều hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi
- Nhiễu ngẫu nhiên: vết bẩn không rõ nguyên nhân → khắc phục bằng các phép lọc
1.2.3 Chỉnh mức xám
Nhằm khắc phục tính không đồng đều của hệ thống gây ra Thông thường có 2 hướng tiếp cận:
Trang 18- Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau thành một
bó Trường hợp chỉ có 2 mức xám thì chính là chuyển về ảnh đen trắng Ứng dụng: In ảnh màu ra máy in đen trắng
- Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ thuật nội suy Kỹ thuật này nhằm tăng cường độ mịn cho ảnh
1.2.4 Trích chọn đặc trưng
Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnh sau đây:
- Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm uốn…
- Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực hiện
lọc vùng (zonal filtering) Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn…)
- Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng và do
vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) …
Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống
1.2.5 Nhận dạng
Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được ứng dụng trong nhiều ngành khoa học khác nhau Tuy nhiên, một câu hỏi đặt ra là: mẫu (pattern) là gì? Watanabe, một trong những người đi đầu trong lĩnh vực này đã định nghĩa: “Ngược lại với hỗn loạn (chaos), mẫu là một thực thể (entity), được xác định một cách ang áng (vaguely defined) và có thể gán cho nó một tên gọi nào đó” Ví dụ mẫu có thể là ảnh của vân tay, ảnh của một vật nào đó được chụp, một chữ viết, khuôn mặt người hoặc một ký đồ tín hiệu tiếng nói Khi biết một mẫu nào đó, để nhận dạng hoặc phân loại mẫu
đó có thể:
Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân tích phân biệt
(discriminant analyis), trong đó mẫu đầu vào được định danh như một thành phần của một lớp đã xác định
Hoặc phân loại không có mẫu (unsupervised classification hay clustering) trong
đó các mẫu được gán vào các lớp khác nhau dựa trên một tiêu chuẩn đồng dạng nào đó Các lớp này cho đến thời điểm phân loại vẫn chưa biết hay chưa được định danh
Trang 19Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu sau đây:
1 Thu nhận dữ liệu và tiền xử lý
2 Biểu diễn dữ liệu
3 Nhận dạng, ra quyết định
Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:
1 Đối sánh mẫu dựa trên các đặc trưng được trích chọn
2 Phân loại thống kê
3 Đối sánh cấu trúc
4 Phân loại dựa trên mạng nơ-ron nhân tạo
Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận đơn lẻ để phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương pháp và cách tiếp cận khác nhau Do vậy, các phương thức phân loại tổ hợp hay được sử dụng khi nhận dạng
và nay đã có những kết quả có triển vọng dựa trên thiết kế các hệ thống lai (hybrid system) bao gồm nhiều mô hình kết hợp
Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những yêu cầu về tốc độ tính toán Đặc điểm chung của tất cả những ứng dụng đó là những đặc điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân tích dữ liệu
1.2.6 Nén ảnh
Nhằm giảm thiểu không gian lưu trữ Thường được tiến hành theo cả hai cách khuynh hướng là nén có bảo toàn và không bảo toàn thông tin Nén không bảo toàn thì thường có khả năng nén cao hơn nhưng khả năng phục hồi thì kém hơn Trên cơ sở hai khuynh hướng, có 4 cách tiếp cận cơ bản trong nén ảnh:
1 Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất xuất hiện của
giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp Một ví dụ điển hình cho kỹ thuật mã hóa này là *.TIF
2 Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các điểm ảnh để
tiến hành mã hóa Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng gần nhau Ví dụ cho kỹ thuật này là mã nén *.PCX
3 Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén không
bảo toàn và do vậy, kỹ thuật thướng nến hiệu quả hơn *.JPG chính là tiếp cận theo kỹ thuật nén này
Trang 204 Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh, thể hiện sự lặp
lại của các chi tiết Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal
1.3 CÁC GIAI ĐOẠN TRONG DÁNG ĐI Ở NGƯỜI
Việc phân biệt các giai đoạn của dáng đi là một bước quan trọng trong quá trình phân đoạn và nhận dạng dáng đi
Dáng đi được định nghĩa là chuỗi liên tục thành nhịp các giai đoạn đu đưa (swing)
và tựa (support) của hai chân khi bàn chân hoặc ở trong không (đu đưa) hoặc tiếp xúc với đất (tựa) Dáng đi được đặc trưng bởi có một giai đoạn tựa kép trong đó cả hai chân tiếp xúc với đất, xen kẽ với các giai đoạn tựa đơn khi chân kia đưa tới trước để bước tiếp Trong khi đi không có giai đoạn hai chân đều hở đất (nghĩa là giai đoạn bay)
Hình 1.3 - Các giai đoạn của dáng đi bình thường [24]
Trong đó:
IC = Initial Contact (chạm gót);
LR = Loading Response (đáp ứng tải);
M-St = Mid support (giữa thì tựa);
T-St = Terminal support (cuối thì tựa);
PS = Preswing (tiền đu đưa);
I-Sw = Initial swing (đầu giai đoạn đu đưa); M-Sw = Mid swing (giữa giai đoạn đu đưa); T-Sw = Terminal swing (cuối giai đoạn đu đưa)
Trang 211.3.1 Giai đoạn tựa (chống)
Là khi bàn chân tiếp xúc với đất (từ điểm bàn chân chạm đất đến khi bàn chân rời khỏi đất) Giai đoạn này thường được chia thành chạm gót, bàn chân bằng (hoặc đáp ứng tải), giữa thì tựa, cuối thì tựa (nhấc gót), và tiền đu đưa (nhấc ngón chân) [24]
Hình 1.4 - Mô tả khung xương chân cho giai đoạn chống [25]
1.3.1.1 Thì chạm đất
Thì chạm đất điển hình xảy ra là gót chạm Hông gập 30 độ, gối hầu như duỗi hoàn toàn, cổ chân ở vị trí trung tính Khi phản lực mặt đất ở phía trước khớp hông, cơ duỗi hông (cơ mông lớn và cơ hamstring) đang kích hoạt để duy trì sự ổn định khớp hông Tại gối, phản lực mặt đất tạo một mô men ngoại lực duỗi vốn được trung hòa bằng hoạt động của cơ hamstring Bàn chân được củng cố trong vị thế trung tính bằng các cơ gập mặt lưng cổ chân
cổ chân, thì mô men ngoại lực làm gập mặt lòng bàn chân xuất hiện khiến bàn chân nhanh chóng hạ thấp xuống còn 10 độ gập mặt lòng Hoạt động này được các cơ gập mặt lưng cổ chân kiểm soát, là các cơ vốn kích hoạt ly tâm Ở cuối thì chuyển trọng lượng, bàn chân tiếp xúc hoàn toàn với mặt đất
Trang 221.3.1.3 Giữa thì chống
Trong suốt giữa thì chống, chân chống đỡ toàn bộ trọng lượng cơ thể trong khi chân đối bên đu ra trước Vec tơ phản lực mặt đất đi qua khớp hông, xóa bỏ nhu cầu hoạt động duỗi khớp hông Tại gối, phản lực mặt đất chuyển từ vị trí phía sau ra vị trí phía trước, tương tự như thế cũng xóa bỏ nhu cầu hoạt động cơ tứ đầu đùi Sự duỗi gối xảy ra và được kiềm lại thụ động bởi bao dây chằng sau của gối, và cũng có thể bị kềm lại chủ động bởi hoạt động ly tâm của cơ khoeo và cơ sinh đôi Tại cổ chân, phản lực mặt đất ở phía trước cổ chân, vì thế sinh ra một mô men ngoại lực gập mặt lưng cổ chân
Mô men này bị trung hòa bởi các cơ gập mặt lòng cổ chân, là các cơ co ly tâm hạn chế
sự gập mặt lưng xảy ra trong suốt thì này
1.3.1.4 Cuối thì chống
Ở cuối thì chống, khối cơ thể tiếp tục tiến ra trước trên chân chống trong khi thân
đổ ra trước Phản lực mặt đất tại khớp hông giờ đây nằm ở phía sau, tạo ra một mô men lực duỗi thụ động ngược lại bởi các dây chằng chậu đùi Hông duỗi tối đa Tại gối, phản lực mặt đất di chuyển từ trước ra sau Khi nhấc gót khỏi mặt đất, phản lực mặt đất di chuyển nhiều hơn ra trước khớp cổ chân, kích hoạt một mô men ngoại lực làm gập mặt lưng cổ chân mô men này được hoạt động của các cơ gập mặt lòng cổ chân cân bằng Trong suốt thì này, cổ chân đang gập mặt lòng, và do đó hoạt động của các cơ gập mặt lòng cổ chân chuyển từ co ly tâm sang hướng tâm
1.3.2 Giai đoạn đu đưa
Xảy ra từ lúc bàn chân rời đất đến khi bàn chân đó chạm đất lại Giai đoạn này thường được chia thành đầu thì đu đưa, giữa thì đu đưa và cuối thì đu đưa [25]
Tỷ lệ thời gian tương ứng sử dụng trong hai giai đoạn đu đưa và tựa này thay đổi đáng kể khi đi và chạy Khi đi bình thường thì tựa chiếm 60%, giai đoạn đu đưa chiếm 40% Khi đi nhanh và chạy, thời gian giai đoạn tựa giảm đi Ví dụ chạy vừa 55%, chạy nhanh 50%
Hình 1.5 - mô tả khung xương chân cho giai đoạn đu đưa [25]
Trang 231.3.2.1 Tiền thì đu
Trong suốt tiền thì đu, chân đu bắt đầu đẩy tới để đu Thì này xảy ra khi chân đối bên tiến từ thì gót chạm đất đến thì chuyển trọng lượng Khi đã duỗi tối đa, khớp hông bắt đầu gập do hoạt động kết hợp của cơ thắt lưng chậu, cơ áp hông và thẳng đùi, lúc này co hướng tâm Gối nhanh chóng gập đến 40 độ khi phản lực mặt đất nhanh chóng
di chuyển ra sau gối Việc gập gối có thể được kiểm soát bằng hoạt động của cơ thẳng đầu đùi Cổ chân gập mặt lòng khoảng 20 độ do sự tiếp tục co cơ hướng tâm của các cơ gập mặt lòng cổ chân
1.3.2.2 Đầu thì đu
Trong suốt đầu thì đu, chân đu bị đẩy ra trước Gập hông xảy ra do đà gập hông
đã kích hoạt từ tiền thì đu và do sự tiếp tục co cơ hướng tâm của các cơ gập hông Cơ thẳng đầu đùi và cơ rộng ngoài hoạt động độc lập trong suốt đầu thì đu, với hoạt động
cơ thẳng đùi trực tiếp liên quan đến tốc độ đi Cơ thẳng đùi hoạt động trong cả thì chuyển trọng lượng lẫn tiền và đầu thì đu, dù ở tốc độ đi nào, với tính biến thiên nhiều trong mẫu hoạt động của cơ Một số người tham gia thể hiện nhiều hoạt động hơn ở nửa sau giai đoạn đứng, trong khi những người khác có độ lớn điện cơ đồ cao hơn ở nửa đầu giai đoạn đứng Gối tiếp tục gập khoảng 65 độ Gối gập xuất hiện thụ động do kết quả kết hợp của gập hông và đà của tiền thì đu Cơ gập mặt lưng cổ chân co hướng tâm gập cổ chân vào mặt lưng để tạo sự nhấc mũi chân
1.3.2.3 Giữa thì đu
Ở giữa thì đu chân đu tiếp tục tiến tới trước, chủ yếu là thụ động như con lắc, từ lực quán tính được kích hoạt ở tiền và đầu thì đu Đà được kích hoạt ở đầu thì đu làm gập hông thụ động Gối bắt đầu duỗi thụ động do trọng lực Cổ chân vẫn ở vị thế trung tính với các cơ gập mặt lưng tiếp tục hoạt động
1.3.2.4 Cuối thì đu
Ở cuối thì đu, đà đã được kích hoạt trước đó được kiểm soát để tạo sự thẳng trục
ổn định cho chân ở thì chạm đất Ở khớp hông và khớp gối, sự co cơ ly tâm của cơ hamstrings giảm tốc độ gập hông và kiểm soát duỗi gối Các cơ gập mặt lưng cổ chân tiếp tục hoạt động cho phép cổ chân ở vị thế trung tính khi chạm đất
1.3 QUÁ TRÌNH XỬ LÝ VÀ NHẬN DẠNG DÁNG ĐI
1.3.1 Các giai đoạn của hệ thống nhận dạng dáng đi
Tiến trình nhận dạng dáng đi cơ bản có dạng như sau:
Hình 1.6 – Các giai đoạn của hệ thống nhận dạng dáng đi
DỮ LIỆU VÀO TIỀN XỬ LÝ TRÍCH CHỌN
ĐẶC TRƯNG NHẬN DẠNG
Trang 241.3.2 Dữ liệu vào
Dữ liệu vào có thể là một hình ảnh, hoặc một chuỗi các hình ảnh (video), được chụp bởi một camera hướng về đối tượng cần nhận dạng Tuy nhiên, có nhiều hệ thống
sử dụng hai hoặc nhiều camera để thu được nhiều thông tin về các dáng đi Ưu điểm của
hệ thống này là có thể ghi nhận được nhiều góc nhìn khác nhau
Hình 1.7 - Một số hình ảnh các gian đoạn của bước chân [26]
1.3.3 Tiền xử lý
Tiền xử lý là nhiệm vụ quan trọng trong hệ thống nhận dạng dáng đi Mục đích cơ bản của giai đoạn này là tối ưu hình ảnh thu được từ giai đoạn trước để chuẩn bị trích xuất các đặc trưng trong giai đoạn tiếp theo Chất lượng hình ảnh thu được phụ thuộc vào điều kiện sáng và và chất lượng của thiết bị ghi hình Một hình ảnh chất lượng thấp
sẽ ảnh hưởng tới độ chính xác của hệ thống Vì vậy, tiền xử lý ảnh là bắt buộc để nâng cao chất lượng ảnh đồng thời cải thiện độ chính xác của hệ thống được đề xuất Từ hình ảnh thu nhận được ở dữ liệu vào ta có thể thực hiện xử lý ảnh cơ bản như: căn chỉnh ảnh, chuẩn hóa ánh sáng, loại bỏ nhiễu, phân đoạn ảnh, lọc màu da Dưới đây là một
số kỹ thuật tiền xử lý thường được áp dụng trong giai đoạn này:
a Chuyển ảnh RGB sang ảnh nhị phân
Ảnh màu RGB nên được chuyển sang dạng ảnh xám hoặc chuyển sang ảnh trong không gian màu YcbCr (Y là độ sáng và Cb, Cr là hai thành phần màu) trước khi nó được chuyển sang ảnh nhị phân
Bước chuyển từ ảnh RGB thành ảnh xám ta cần làm cho 3 thành phần R, G, B bằng nhau theo công thức (1.1):
G=αR+βG+γB với điều kiện α+β+γ=1 (1.1)
Trang 25Để thực hiện chuyển từ RGB sang YCbCr có nhiều công thức theo chuẩn khác
nhau, theo chuẩn ITU-R BT.601 sẽ như sau:
1 Có nhiều kỹ thuật để tìm giá trị ngưỡng, phương pháp thông dụng nhất do Otsu đề xuất [9]
Như vậy, sau khi chuyển ảnh gốc RGB sang ảnh nhị phân chúng ta thu được ảnh đen trắng mà trong đó những điểm ảnh trong người có màu trắng (1) và điểm ảnh nền
có màu đen (0), minh họa ở hình 1.8
(a) (b)
Hình 1.8 - Ví dụ chuyển ảnh RGB sang ảnh nhị phân
(a) Ảnh gốc – (b) Ảnh nhị phân biểu biễn bởi 0 và 1
b Lọc nhiễu
Trong ảnh nhị phân, có thể có một số giá trị 0 trong người và có một số giá trị 1 trong khu vực nền Khi đó, nền có những số 1 được biết đến như nhiễu xung quanh và dáng đi có một vài số 0 được biết đến như nhiễu dáng đi Những nhiễu này có thể dẫn đến một vấn đề trong việc phát hiện đường viền của dáng đi vì vậy cần phải loại bỏ các nhiễu này Một phương pháp bộ lọc hình thái học đã được áp dụng sử dụng chuỗi các
sự giãn nở và xói mòn để có được một đường viền mịn, khép kín, và hoàn chỉnh của một
cử chỉ [6]
Trang 26Hình 1.9 - Ví dụ về quá trình chuyển đổi ảnh và lọc nhiễu
(a) Ảnh nền – (b) Ảnh gốc RGB (c) Ảnh nhị phân – (d) Ảnh đã được lọc nhiễu
c Phân đoạn ảnh
Phân đoạn ảnh là thực hiện việc phân vùng ảnh thành các vùng rời rạc và đồng nhất với nhau hay nói cách khác là xác định các biên của các vùng ảnh đó Các vùng ảnh đồng nhất này thông thường sẽ tương ứng với toàn bộ hay từng phần của các đối tượng thật sự bên trong ảnh Như vậy, mục tiêu của phân đoạn ảnh là làm nổi bật hoặc tách hẳn đối tượng cần quan tâm ra từ ảnh ban đầu, làm đơn giản hóa và thay đổi cách biểu diễn để dễ dàng phân tích hơn Một số kỹ thuật phận đoạn ảnh phổ biến như:
• Phân đoạn ảnh dựa trên ngưỡng
Các kỹ thuật phân đoạn ảnh dựa trên ngưỡng hầu hết đều dựa vào lược đồ mức xám của ảnh để tính toán ngưỡng Việc tính toán ngưỡng bao hàm việc xác định một tập các giá trị ngưỡng (có thể là một hoặc nhiều giá trị ngưỡng), dựa vào giá trị ngưỡng để phân tách ảnh ra thành những vùng có ý nghĩa
Trang 27(a) (b)
Hình 1.10 - Phân đoạn ảnh dựa trên ngưỡng của lược đồ mức xám
(a) sử dụng một ngưỡng T - (b) Sử dụng hai ngưỡng T1 và T2
• Phân đoạn ảnh dựa trên biên (cạnh)
Việc xác định biên ảnh là một vấn đề chủ yếu và đặc điểm quan trọng trong phân tích ảnh vì các kĩ thuật phân đoạn ảnh chủ yếu dựa vào biên Một điểm ảnh được gọi là biên nếu ở đó có sự thay đổi đột ngột về mức xám Tập hợp các điểm biên tạo thành biên, hay còn gọi là đường bao của ảnh Mỗi một biên là một thuộc tính gắn liền với một điểm riêng biệt và được tính toán từ những điểm lân cận của nó Một số phương pháp phát hiện biên thông dụng như: Phương pháp đạo hàm bậc nhất (phương pháp Gradient), phương pháp đạo hàm bậc hai (phương pháp Laplace), phương pháp Canny do John Canny đề xuất vào năm 1986… [6]
(a) (b)
Hình 1.11 - Mô tả tách biên từ ảnh nhị phân
(a) Ảnh nhị phân – (b) Ảnh nhị phân đã tách biên
• Phân đoạn ảnh dựa trên vùng
Dựa trên các đặc điểm về khớp xương và vị trí hiện tại của đối tượng so với vị trí ban đầu
Trang 28Hình 1.12 - Phân đoạn dựa theo vùng [5]
1.3.4 Trích chọn đặc trưng
Một hình ảnh kỹ thuật số có thể chứa một lượng lớn dữ liệu, đặc biệt là đối với ảnh có chất lượng tốt, hình ảnh chuyên nghiệp Vì vậy, để thao tác trên một hình ảnh hiệu quả, cần giảm bớt lượng dữ liệu phải xử lý Cách tốt nhất để giải quyết vấn đề này
là trích xuất các đặc điểm quan trọng nhất của một hình ảnh mà có thể đại diện cho toàn
bộ hình ảnh Những đặc điểm này được gọi là các đặc trưng hình ảnh Như vậy, trích chọn đặc trưng là chiết xuất thông tin từ dữ liệu thô mà nó phù hợp nhất cho mục đích nhận dạng để giảm thiểu các biến thể trong một lớp và tối đa hóa các biến thể giữa các lớp khác nhau
Trong giai đoạn trích chọn đặc trưng, mỗi đối tượng được đại diện bởi một véc tơ đặc trưng Mục tiêu chủ yếu của trích chọn đặc trưng là trích xuất một tập hợp các đặc trưng, trong đó có thể tối đa hóa tỷ lệ nhận dạng với sự nhầm lẫn nhỏ nhất Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnh sau đây:
Đặc điểm không gian: Phân bố mức xám, biên độ, điểm uốn… Các đặc điểm loại
này thường được trích chọn bằng việc áp dụng phép biến đổi Haar-Like trên ảnh
Đặc điểm biến đổi: Đặc điểm biến đổi như hình dáng đường bao Các đặc điểm
loại này được trích chọn bằng việc áp dụng bộ lọc Gabor lên ảnh
Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng rất hữu
ích trong việc trích chọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử Gradient, toán tử la bàn, toán tử Laplace, …
Trang 29Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống [2]
1.3.5 Nhận dạng
Giai đoạn nhận dạng thực hiện việc phân tích từ dữ liệu đầu vào của người dùng
để kiểm tra trong dữ liệu đầu vào đó có chứa cử chỉ đang xét hay không Dữ liệu đầu vào cũng qua các quá trình tiền xử lý, trích chọn đặc trưng và sau đó đưa vào bộ nhận dạng Bộ nhận dạng sẽ phân loại các đặc trưng vào các lớp đã được định nghĩa trong giai đoạn huấn luyện trước đó Việc nhận dạng ở khâu này được áp dụng thêm một số
kỹ thuật nhằm tăng độ chính xác cho hệ thống Sau đó cử chỉ được phân loại nhờ vào việc kết hợp các bộ nhận dạng cử chỉ Mỗi bộ nhận dạng cử chỉ có chức năng nhận dạng một cử chỉ ứng với các đặc trưng đã được huấn luyện
Có nhiều kỹ thuật nhận dạng khác nhau như: đối sánh mẫu, máy hỗ trợ véc tơ (SVM), mạng nơ-ron nhân tạo (ANN), mô hình Makov ẩn (HMM)… Mỗi phương pháp nhận dạng có ưu điểm, hạn chế riêng của nó Tùy thuộc vào từng bài toán nhận dạng cụ thể mà ta lựa chọn phương pháp tối ưu nhất
1.4 CÁC ỨNG DỤNG DỰA TRÊN PHÂN TÍCH DÁNG ĐI
Đồng thời với quá trình nghiên cứu và cải tiến, thì quá trình ứng dụng phân tích dáng đi vào cuộc sống cũng đang được triển khai tích cứu trong nhiều lĩnh vực Đặc biệt được ứng dụng phổ biến nhất trong lĩnh vực an ninh, bảo mật và y tế
1.4.1 Ứng dụng trong lĩnh vực an ninh
Hàng ngày chúng ta đọc báo vẫn thường thấy những thông tin về cướp ngân hàng, khủng bố Đặc điểm nhận dạng phổ biến của đối tượng thường bị che bằng khăn che mặt, khẩu trang, mũ bảo hiểm Vậy làm thế nào để phát hiện sớm và ngăn chặn hành
vi phạm pháp của các đối tượng? Phân tích và nhận dạng dáng đi có thể làm được điều
đó
Hình 1.13 - Một ví dụ về đối tượng ở sân bay không thể nhận dạng khuôn mặt
Trang 301.4.2 Ứng dụng trong lĩnh vực bảo mật
Song hành với lĩnh vực an ninh, phân tích dáng đi còn được sử dụng trong lĩnh vực bảo mật như mở khoá điện thoai di động: các nhà khoa học Phần Lan vừa ứng dụng công, theo dõi chuyển động của chủ sở hữu thiết bị, khiến kẻ trộm khó có thể ăn cắp điện thoại di động hay máy tính xách tay Thiết bị di động sẽ được lắp đặt bộ phận cảm ứng mã dáng đi, ghi nhớ mọi cử động 3 chiều của chủ nhân khi họ lần đầu tiên dùng máy, lặp lại quá trình để kiểm tra và sau đó lưu vào bộ nhớ Nếu dáng đi thay đổi và thiết bị không thể nhận ra, nó sẽ hỏi mật khẩu và tự động khóa máy nếu nhập password không đúng
Ngoài ra các công ty có yêu cầu về bảo mật cho nhân viên được truy cập hệ thống cửa an ninh cũng có thể ứng dụng nhận diện dáng đi thay cho các phương thức bảo mật sinh trắc học khác
Hình 1.14 - Một mô hình nhận diện dáng đi để mở khoá cửa tự động [7]
1.4.3 Ứng dụng trong lĩnh vực y tế
Úng dụng phân tích dáng đi trong lĩnh vực y tế đã được triển khai từ rất sớm để chuẩn đoán và phát hiện các bệnh tiềm ẩn liên quan tới khung xương, ngoài ra còn thế thể chuẩn đoán trạng thái bị té ngã của một đối tượng để cảnh báo tới những người liên quan tới ứng cứu
Trang 31Hình 1.15 - Một ví dụ về phân tích dáng đi trong y học
1.5 NHỮNG THÁCH THỨC TRONG NHẬN DẠNG DÁNG ĐI
Phân tích dáng đi được ứng dụng trong nhiều lĩnh vực, tuy nhiên vẫn có những thách thức lớn trong quá trình nghiên cứu và triển khai nhận dạng dáng đi như sau:
1.5.1 Bài toán có quá nhiều chiều
Khung xương là một đối tượng có nhiều khớp nối với hơn nhiều bậc tự do Ngoài
ra, việc di chuyển và ghi nhận di chuyển có thể phải thực hiện ở nhiều hướng khác nhau, dẫn tới kết quá có sự sai lệch nhất định
1.5.2 Hiện tượng bị che khuất
Các phần của dáng đi có thể bị che khuất bởi các phần khác như vật thể, không gian, hoặc các đối tượng khác Điều này ảnh hưởng đến việc thu nhận đường biên và khung xương không đầy đủ
Ngoài ra việc đối tượng thay đổi quần áo, trang phục khác nhau cũng ảnh hưởng tới quá trình ghi nhận và phân tích dáng đi
1.5.3 Môi trường không kiểm soát
Khi nhận dạng trên phông nền phức tạp, việc tách vùng và biên của đối tượng trong ảnh trở nên khó khăn khi màu của đối tượng giống với màu của các vùng khác trong ảnh Trong trường hợp đối tượng chỉ chiếm một phần nhỏ trong ảnh (đứng xa camera), mức độ chi tiết của đường biên và khung xương thấp nên rất khó phân biệt các hình dạng và dễ bị nhiễu
Nhìn chung, để mở rộng ứng dụng, nhiều hệ thống giao tiếp người - máy được kì
vọng có thể hoạt động trong một môi trường có nền không bị giới hạn và điều kiện ánh
Trang 32sáng thay đổi lớn Nói cách khác, làm việc trên một nền tùy ý luôn là thách thức với hầu hết các hệ thống xử lý ảnh
1.5.4 Nhận diện thời điểm bắt đầu và kết thúc ở một thì
Điều này rất quan trọng trong việc nhận dạng dáng đi từ dữ liệu video bởi vì dữ liệu được tách thành các khung hình để xử lý Mỗi cử chỉ thực hiện trên nhiều khung hình do đó cần phải xác định số khung hình hoàn thành một cử chỉ để không bị lẫn lộn với những thì khác hoặc lặp lại một thì quá nhiều lần
Cần phân biệt một số trạng thái/thì bất thường trong quá trình chuyển động ủa đối tượng Giữa các thì sẽ có một số thao tác chuyển tiếp, và hệ thống nhận dạng cần phân biệt được đâu là một thì bình thường, đâu là một bước đi không bình thường
1.5.5 Lựa chọn đặc trưng phù hợp
Lựa chọn đặc trưng rất quan trọng trong việc nhận dạng, bản thân việc chọn đặc trưng là để giảm số chiều xử lý nhưng phải đảm bảo mô tả được đối tượng tương đối đầy đủ Nếu lựa chọn quá nhiều đặc trưng sẽ làm tốc độ nhận dạng chậm không đáp ứng tốc độ xử lý cũng như lượng bộ nhớ cần thiết Nếu lựa chọn quá ít sẽ làm mất thông tin không đủ để mô tả đối tượng và kết quả nhận dạng không chính xác
1.5.6 Tốc độ xử lý và tính chính xác trong nhận dạng
Để hệ thống nhận dạng dáng đi có thể tương tác được với người dùng trong thực
tế thì hệ thống này phải có tốc độ xử lý phải nhanh Ngay cả trong một khung hình, một
hệ thống xử lý ảnh thời gian thực cần xử lý một lượng lớn dữ liệu Với công nghệ phần cứng hiện nay, một số giải thuật đòi hỏi phần cứng chuyên dụng, đắt tiền và có khả năng
xử lý song song để thực thi thời gian thực
Hiện nay, có nhiều hướng nghiên cứu về nhận dạng dáng đi như: HMM, ANN, SVM…Do đó, cần lựa chọn và sử dụng phương pháp nhận dạng phải đáp ứng được yêu cầu là độ chính xác cao, đây là yêu cầu quan trọng nhất của một hệ thống nhận dạng
1.6 KẾT LUẬN CHƯƠNG 1
Phân tích dáng đi là một lĩnh vực không mới, tuy nhiên vẫn tồn tại nhiều hạn chế trong các phương pháp hiện tại, đồng thời kết quả ghi nhận mang tính tương đối với độ chính xác thấp Ngoài ra các ứng dụng của phân tích dáng đi được ứng dụng rộng khắp, nhưng lại chưa được ứng dụng cho các người dùng phổ thông
Vì thế, đề tài nghiên cứu về phân tích dáng đi hi vọng có thể cải thiện được kết quả của quá trình phân tích, đồng thời đơn giản hoá và nâng cao cơ hội ứng dụng phân tích dáng đi vào đời sống thường nhật
Trang 33CHƯƠNG 2 - PHÁT HIỆN VÀ PHÂN TÍCH DÁNG ĐI DỰA TRÊN
THÔNG TIN ĐƯỜNG BAO
Chương này sẽ tập trung đi sâu vào phương pháp trích chọn đặc trưng dựa trên đường bao, và sau đó là huấn luyện, nhận dạng
2.1 TIỀN XỬ LÝ
2.1.1 Phát hiện chuyển động và truy dấu
Trước khi huấn luyện và nhận dạng, mỗi dãy hình ảnh bao gồm một hình thể của dáng đi (walking figure) được chuyển đổi thành một dãy liên quan theo thứ tự thời gian của tín hiệu khoảng cách ở giai đoạn tiền xử lý
Phát hiện đối tượng người và truy dấu là bước đầu tiên của phân tích dáng đi Mặc dù nó không phải là phần chính của công việc, nhưng vẫn là giai đoạn quan trọng
và cần được giới thiệu đầy đủ Để trích xuất và theo dõi các hình ảnh chuyển động của
một walking figure từ hình nền trong mỗi khung hình, thuật toán phát hiện và theo dõi
sự thay đổi được dựa trên phép trừ mặt sau (background subtraction) và tương quan đường bao (silhouette correlation) [8] Giả thuyết chính được thực hiện ở đây là máy quay ở trạng thái tĩnh, và đối tượng chuyển động duy nhất trong các đoạn video liên tục
là người đi Mặc dù phương pháp tích hợp này thực hiện tốt trên bộ dữ liệu mẫu, nhưng cần lưu ý rằng phát hiện chuyển động nhanh với cường độ cao trong môi người thật không bị giới hạn là một vấn đề chưa được giải quyết đối với các kĩ thuật thị giác máy tính hiện tại bởi vì nó liên quan tới một số vấn đề khó khăn như bóng mờ và chuyển động từ nhiều hướng
2.1.2 Mô hình nền (Background Modeling)
Phép trừ mặt sau được sử dụng rộng rãi trong việc phát hiện mặt trước (foreground detection), nơi một máy ảnh cố định thường được sử dụng để quan sát các cảnh động Làm thế nào để tách ảnh nền từ các đoạn video là vấn đề rất quan trọng [8]
Trong luận văn này, phương pháp LMedS (Least Median of Squares) [9] được
sử dụng để xây dựng hình nền từ một phần nhỏ của các chuỗi hình ảnh, có thể bao
gồm cả các đối tượng di chuyển gọi I đại diện cho một chuỗi hình ảnh bao gồm N ảnh
Kết quả của hình nền bxy được tính toán bởi công thức (2.1) [9]:
(2.1)
Trong đó p là giá trị độ sáng của hình nền được xác định cho vị trí điểm ảnh (x,
y), med đại diện cho giá trị trung tuyến, và t đại diện cho giá trị nằm trong khoảng 1 –
Trang 34N Kết quả cho thấy với N trên 60 là đủ cho dữ liệu được thiết lập để tạo ra một hình nền
đáng tin cậy
Hình 2.1 - Ví dụ của tách đường bao đang chuyển động:
(a) hình nền được xây dựng bởi phương pháp LMedS, (b) ảnh gốc,
(c) đường bao đã được tách từ (b)
2.1.3 Sự khác biệt (Differencing)
Sự thay đổi độ sáng thường là hệ quả của sự thay đổi giữa ảnh nền và ảnh hiện tại Tuy nhiên việc lựa chọn một ngưỡng phù hợp cho việc nhị phân hoá là rất khó, đặc biệt là trong các trường hợp hình tương phản thấp vì hầu hết các đối tượng di chuyển có thể bị bỏ qua bởi vì sự thay đổi độ sang quá thấp để phân biệt các vùng di chuyển khỏi các đối tượng nhiễu [10] Để giải quyết vấn đề này, chúng ta sử dụng công thức (2.2) để gián tiếp thực hiện quá trình phân biệt [10]:
Với mỗi ảnh Ixy sự phân tán của hàm tách ở trên f(a(x,y), b(x,y)) thông qua x và
y có thể dễ dáng thu được Sau đó, các điểm ảnh di chuyển có thể được tách ra bằng
cách so sánh sự phân tán của được hiển thị với giá trị ngưỡng được quyết định bởi công thức (2.9)
2.1.4 Hậu xử lý và truy dấu
Cần lưu ý rằng quá trình trên được thực hiện độc lập cho mỗi thành phần R, G, và
B trong một hình ảnh Đối với một pixel nhất định, nếu một trong ba thành phần xác
Trang 35định nó là điểm thay đổi, thì nó sẽ được đặt ở tiền cảnh (foreground) Quá trình này tạo
ra một mặt nạ (mask) của một khu vực được quan tâm để tiếp tục xử lý [8]
Không có thuật toán phát hiện thay đổi nào là hoàn hảo Do đó bắt buộc phải loại nhiễu và biến dạng hình học càng nhiều càng tốt khỏi tiền cảnh được phân chia Các
toán tử hình thái như mòn hoá (erosion) và giãn nở (dilation) được sử dụng lần đầu tiên
để lọc các pixel có vấn đề, và các lỗ nhỏ bên trong đường bao đã tách đều bị lọc ra Cuối cùng một quá trình phân tích thành phần kết nối nhị phân được áp dụng để trích xuất một khu vực có kết nối nhỏ gọn có kích thước lớn nhất
Để loại bỏ sự không chính xác do quá trình phân đoạn, mỗi vùng tiền cảnh sẽ được theo dõi từ khung hình này tới khung hình kia bằng một phương pháp tương ứng đơn giản dựa trên sự chồng chéo của các biên của khung tương ứng trong hai khung hình bất kì liên tiếp [11] Nghĩa là thực hiện một sự tương quan biên nhị phân (binary edge correlation) giữa cấu trúc hình ảnh hiện tại và hình ảnh trước đó trên một tập các thay đổi nhỏ [11] Một ví dụ về phân đoạn chuyển động và quá trình theo dõi được thể hiện ở Hình 2.2, từ đó chúng ta có thế thấy rằng thủ tục dò tìm và theo dõi con người thực hiện tốt trên dữ liệu mẫu Nó hoàn toàn không ảnh hưởng đến quá trình chọn đặc trưng mặc dù có một phần nhỏ các biến dạng đường bao như mất một phần các bộ phận
cơ thể (ví dụ cánh tay không nhìn thấy trong hình d, j và k) và đường chéo của hai chân được tách ra một chút ví dụ, trong hình f)
Hình 2.2 - Sự thay đổi của các đường bao trong một mẫu dáng đi
Trang 362.2 Trích chọn đặc trưng
2.2.1 Biểu diễn đường bao (Silhouette)
Một dấu hiệu quan trọng trong việc xác định chuyển động cơ bản của người đi bộ
là những thay đổi tạm thời của đường bao Để làm cho phương pháp đề xuất không bị ảnh hưởng của sự thay đổi màu sắc và kết cấu quần áo, chúng ta chỉ sử dụng đường bao nhị phân Ngoài ra, vì lợi ích tính toán, chúng ra chuyển đổi những thay đổi hình dạng đường bao 2 chiều (2D - two dimensions) thành một dãy liên kề các tín hiệu 1 chiều (1D) để mô phỏng hình thái thời gian của quá trình di chuyển Quá trình minh hoạ được thể hiện ở Hình 2.3
Sau khi đường bao động của một hình dạng bước đi được ghi nhận, đường viền bên ngoài của nó có thể thu được bằng cách sử dụng một thuật toán biên “Canny Edge Extraction” [31]
Sau đó chúng ra có thể tính toán vị trí của trọng tâm ( x c, y c ) thông qua một số
phương pháp như k-means [29] Hoặc thông qua công thức tính trọng tâm của một hình được định nghĩa bằng n điểm (x 0 ,y 0 ), (x 1 ,y 1 ), , (x n−1 ,y n−1 )[30]:
Trang 37Hình 2.3 - Biểu diễn đường bao:
(a) minh hoạ việc khai thác cạnh biên và quá trình mở rộng biên theo hướng ngược
chiều kim đồng hồ, (b) tín hiệu khoảng cách được chuẩn hoá bao gồm tất cả các khoảng cách giữa trọng
tâm và các điểm ảnh trên biên [8]
sự đối xứng của chuyển động đi trong quá trình biểu diễn hình dạng (ví dụ: từ trái sang phải cho tất cả các chuỗi chuyển động với một góc nhìn) Bằng cách chuyển đổi một chuỗi các hình ảnh dạng đường bao thành một chuỗi các mẫu tín hiệu 1D liên quan, chúng ta sẽ loại bỏ được những dữ liệu có khả năng nhiễu
2.2.2 Huấn luyện và phép chiếu (Projection)
2.2.2.1 Phân tích thành phần chính (PCA Training)
Mục đích của huấn luyện PCA là để có được một số thành phần chính biểu diễn các đặc trưng dáng đi nguyên bản từ một không gian đa chiều thành một không gian ít chiều Một số đặc tính của PCA như sau [33]:
- Giúp giảm số chiều của dữ liệu
Trang 38- Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ, nghĩa là đảm bảo độ biến thiên (variability) của dữ liệu trên mỗi chiều mới
- Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ, do
đó về mặt ngữ nghĩa, PCA xây dựng đặc trưng mới dựa trên các đặc trưng đã quan sát được Điểm hay là những đặc trưng này vẫn biểu diễn tốt dữ liệu ban đầu
- Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám phá,
mà nếu đặt trong không gian cũ thì khó phát hiện hơn, hoặc những liên kết như thế không thể hiện rõ
Quá trình huấn luyện tương tự [12] được minh hoạ như sau:
Cho s lớp huấn luyện, mỗi lớp đại diện cho một dãy tín hiệu khoảng cách của một đối tượng dáng đi Nhiều thì bước chân của mỗi người có thể được thêm vào một cách tự do để huấn luyện Cho Di,j là tín hiệu khoảng cách thứ j trong lớp i và Ni là số tín hiệu khoảng cách trong lớp thứ i Tổng số mẫu huấn luyện là: Nt = N1+N2+ + Ns ,
và toàn thể tập huấn luyện (tập các tín hiệu khoảng cách của tất cả đối tượng) có thể được biểu diễn bởi [D1,1, D1,2, , D1,N1, D2,1, …, Ds,Ns ] Chúng ta có thể có được số
trung bình md và ma trận hiệp phương sai toàn cục của một tập dữ liệu như vậy
(2.7) (2.8)
Giả sử trọng số của ma trận S là N, thì chúng ta có thể tính N được giá trị đặc
trưng khác 0 l1, l2, l3… lN và các vectors đặc trưng e 1, e 2, e 3…, e Nn dựa trên phân huỷ giá trị đơn SVD (Singular Value Decomposition)
Nói chung, một vài vector đặc trưng đầu tiên tương ứng với sự thay đổi lớn trong các mẫu huấn luyện Do đó, vì hiệu năng của bộ nhớ trong các ứng dụng thực tế, chúng ta bỏ qua các giá trị đặc trưng nhỏ và các điểm tương tự chúng bằng giá trị ngưỡng (threshold value) Ts:
Trang 39sao cho trên mỗi trục, độ biến thiên của dữ liệu trên đó là lớn nhất có thể
Hình 2.4 - Minh họa PCA: tìm các trục tọa độ mới sao cho dữ liệu có độ biến
thiên cao nhất
Như hình 2.4, ta có tập dữ liệu ban đầu (tập điểm màu xanh) được quan sát trong không gian 3 chiều (trục màu đen) như hình bên trái Rõ ràng 3 trục này không biểu diễn được tốt nhất mức độ biến thiên của dữ liệu PCA do đó sẽ tìm hệ trục tọa độ mới (là hệ trục màu đỏ trong hình bên trái) Sau khi tìm được không gian mới, dữ liệu sẽ được chuyển sang không gian này để được biểu diễn như trong hình bên phải Rõ ràng hình bên phải chỉ cần 2 trục tọa độ nhưng biểu diễn tốt hơn độ biến thiên của dữ liệu so với
hệ trục 3 chiều ban đầu
thường được biết tới với k nhỏ hơn nhiều so với kích thước dữ liệu ban đầu N Tức là,
phân tích không gian đặc trưng có thể giảm đáng kể số chiều của dữ liệu mẫu
Đối với mỗi chuỗi huấn luyện, phép chiếu trọng tâm Ci trong không gian đặc
trưng được tính bằng cách lấy trung bình của tất cả các phép đơn chiếu tương ứng với mỗi khung trong chuỗi
(2.11)