PHÂN TÍCH DÁNG ĐI NGƯỜI SỬ DỤNG THÔNG TIN ĐƯỜNG BAO LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

PHÂN TÍCH DÁNG ĐI NGƯỜI SỬ DỤNG THÔNG TIN ĐƯỜNG BAO Học viên: Trần Anh Tú Chuyên ngành: Khoa học máy tính Mã số: 60480101 Khóa: 32 Trường Đại học Bách khoa – ĐHĐN Tóm tắt – Ngày nay, các

Trang 1

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA

TRẦN ANH TÚ

PHÂN TÍCH DÁNG ĐI NGƯỜI SỬ DỤNG

THÔNG TIN ĐƯỜNG BAO

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Đà Nẵng – Năm 2017

Trang 2

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA

TRẦN ANH TÚ

PHÂN TÍCH DÁNG ĐI NGƯỜI SỬ DỤNG

Chuyên ngành: Khoa học máy tính

Mã số: 60480101

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS HUỲNH HỮU HƯNG

Đà Nẵng – Năm 2017

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn trực tiếp của TS Huỳnh Hữu Hưng

Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng tên tác giả, tên công trình, thời gian, địa điểm công bố

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm

Tác giả

Trần Anh Tú

Trang 4

MỤC LỤC

LỜI CAM ĐOAN i

MỤC LỤC ii

DANH MỤC CÁC TỪ VIẾT TẮT v

DANH MỤC CÁC BẢNG vii

DANH MỤC CÁC HÌNH VẼ, ĐỒ THỊ viii

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục đích và nhiệm vụ nghiên cứu 1

2.1 Mục đích nghiên cứu 1

2.2 Nhiệm vụ nghiên cứu 1

3 Đối tượng và phạm vi nghiên cứu 1

3.1 Đối tượng nghiên cứu 1

3.2 Phạm vi nghiên cứu 2

4 Phương pháp nghiên cứu 2

4.1 Phương pháp lý thuyết 2

4.2 Phương pháp thực nghiệm 2

5 Giải pháp đề xuất 2

6 Ý nghĩa khoa học và thực tiễn của đề tài 3

6.1 Ý nghĩa khoa học của đề tài 3

6.2 Ý nghĩa thực tiễn của đề tài 3

7 Kết quả dự kiến 3

8 Cấu trúc luận văn 3

CHƯƠNG 1 - NGHIÊN CỨU TỔNG QUAN 5

1.1 GIỚI THIỆU CHUNG VỀ XỬ LÝ ẢNH 5

1.2 TỔNG QUAN CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH 5

1.2.1 Nắn chỉnh biến dạng 5

1.2.2 Khử nhiễu 6

1.2.3 Chỉnh mức xám 6

1.2.4 Trích chọn đặc trưng 7

1.2.5 Nhận dạng 7

1.2.6 Nén ảnh 8

1.3 CÁC GIAI ĐOẠN TRONG DÁNG ĐI Ở NGƯỜI 9

1.3.1 Giai đoạn tựa (chống) 10

1.3.2 Giai đoạn đu đưa 11

1.3 QUÁ TRÌNH XỬ LÝ VÀ NHẬN DẠNG DÁNG ĐI 12

1.3.1 Các giai đoạn của hệ thống nhận dạng dáng đi 12

1.3.2 Dữ liệu vào 13

1.3.3 Tiền xử lý 13

Trang 5

1.3.5 Nhận dạng 18

1.4 CÁC ỨNG DỤNG DỰA TRÊN PHÂN TÍCH DÁNG ĐI 18

1.4.1 Ứng dụng trong lĩnh vực an ninh 18

1.4.2 Ứng dụng trong lĩnh vực bảo mật 19

1.4.3 Ứng dụng trong lĩnh vực y tế 19

1.5 NHỮNG THÁCH THỨC TRONG NHẬN DẠNG DÁNG ĐI 20

1.5.1 Bài toán có quá nhiều chiều 20

1.5.2 Hiện tượng bị che khuất 20

1.5.3 Môi trường không kiểm soát 20

1.5.4 Nhận diện thời điểm bắt đầu và kết thúc ở một thì 21

1.5.5 Lựa chọn đặc trưng phù hợp 21

1.5.6 Tốc độ xử lý và tính chính xác trong nhận dạng 21

1.6 KẾT LUẬN CHƯƠNG 1 21

CHƯƠNG 2 - PHÁT HIỆN VÀ PHÂN TÍCH DÁNG ĐI DỰA TRÊN THÔNG TIN ĐƯỜNG BAO 22

2.1 TIỀN XỬ LÝ 22

2.1.1 Phát hiện chuyển động và truy dấu 22

2.1.2 Mô hình nền (Background Modeling) 22

2.1.3 Sự khác biệt (Differencing) 23

2.1.4 Hậu xử lý và truy dấu 23

2.2 Trích chọn đặc trưng 25

2.2.1 Biểu diễn đường bao (Silhouette) 25

2.2.2 Huấn luyện và phép chiếu (Projection) 26

2.2.3 Đặc trưng HOG 29

2.3 KỸ THUẬT NHẬN DẠNG 30

2.3.1 Đo lường sự tương tự (Similarity Measures) 30

2.3.2 Phân lớp 33

2.3.3 Kỹ thuật sử dụng mạng nơ-ron nhân tạo - ANN 34

2.3.4 Kỹ thuật sử dụng máy vector hỗ trợ - SVM 36

2.3.5 Sử dụng mô hình Markov ẩn - HMM 38

2.3 KẾT LUẬN CHƯƠNG 2 39

CHƯƠNG 3: THỰC NGHIỆM VÀ ĐÁNH GIÁ 40

3.1 THU THẬP DỮ LIỆU 40

3.2 TRIỂN KHAI CÀI ĐẶT 40

3.2.1 Tiền xử lý 40

3.2.3 Huấn luyện 44

3.2.4 Triển khai nhận dạng trên nền tảng di động 46

Trang 6

3.3 KẾT QUẢ THỰC NGHIỆM 49

3.3.1 Kết quả huấn luyện 49

3.3.2 Kết quả nhận dạng 52

3.3.3 So sánh với các phương pháp khác 52

3.4 NHẬN XÉT KẾT QUẢ 53

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54

TÀI LIỆU THAM KHẢO 55

Trang 7

PHÂN TÍCH DÁNG ĐI NGƯỜI SỬ DỤNG THÔNG TIN ĐƯỜNG BAO

Học viên: Trần Anh Tú Chuyên ngành: Khoa học máy tính

Mã số: 60480101 Khóa: 32 Trường Đại học Bách khoa – ĐHĐN

Tóm tắt – Ngày nay, các nghiên cứu trong lĩnh vực thị giác máy tính hỗ trợ rất nhiều cho

công tác y tế, đặc biệt là các nghiên cứu phân tích dáng đi giúp nhận dạng một đối tượng hoặc phân tích dáng đi của bệnh nhân Trong luận văn này này đề xuất giải pháp phân tích dáng đi sử dụng thông tin đường bao, sau đó nhận dạng và đưa ra kết quả dựa trên dữ liệu

đã phân lớp Quá trình xử lý bao gồm các bước: (1) thu nhận các đặc trưng đường biên cơ thể thông qua việc sử dụng camera hoặc tập dữ liệu mẫu; (2) tính toán các thông số đặc trưng đặc trưng của đường bao; (3) huấn luyện dữ liệu đặc trưng và thu được mô hình dữ liệu đã phân lớp; (4) tiến hành nhận dạng và so sánh dữ liệu nhận dạng với dữ liệu đã phân lớp để đưa ra kết luận

Từ khóa – Nhận dạng dáng đi, nhận dạng dáng đi người, định danh người, phân tích đường

bao, phân tích dáng đi

SILHOUETTE ANALYSIS-BASED GAIT RECOGNITION

Abstract - Nowadays, visual computing studies support a great deal of medical work,

especially gait analysis studies that help identify an object or analyze the gait of a patient This thesis proposes a parsimensional solution that uses envelope information, then identifies and outputs based on classified data The process consists of the following steps: (1) acquiring bodily features through the use of Kinect; (2) calculation of characteristic parameters including joint location and envelope characteristics; (3) specific data training and obtained stratified data model; (4) Identify and compare identifiers with classed data

to make conclusions

Key words – Gait recognition, human gait recognition, human identification, silhouette

analysis, gait analysis

Trang 8

DANH MỤC CÁC TỪ VIẾT TẮT

2D Two Dimension

3D Three Dimension

ANN Artificial Neural Network

BPNN Back propagation neural network

CSDL Cơ sở dữ liệu

DoG Difference of Gaussian

HMM Hidden Markov Model

HOG Histogram Orientation Gradient

Trang 9

DANH MỤC CÁC BẢNG

3.1 So sánh độ chính xác với các phương pháp khác 53

Trang 10

1.4 Mô tả khung xương chân cho giai đoạn chống 9 1.5 Mô tả khung xương chân cho giai đoạn đu đưa 11 1.6 Các giai đoạn của hệ thống nhận dạng dáng đi 12 1.7 Một số hình ảnh các gian đoạn của bước chân 13

1.9 Ví dụ về quá trình chuyển đổi ảnh và lọc nhiễu 15 1.10 Phân đoạn ảnh dựa trên ngưỡng của lược đồ mức xám 15

1.13 Một ví dụ về đối tượng ở sân bay không thể nhận dạng

1.14 Một mô hình nhận diện dáng đi để mở khoá cửa tự động 20 1.15 Một ví dụ về phân tích dáng đi trong y học 20 2.1 Ví dụ của tách đường bao đang chuyển động 24 2.2 Sự thay đổi của các đường bao trong một mẫu dáng đi 25

2.4 Minh họa PCA: tìm các trục tọa độ mới sao cho dữ liệu có

2.5 Ảnh sau khi tính gradient và chia thành các cell 30

2.10 Học sửa lỗi thông qua các điều chỉnh trọng số 36 2.11 Ánh xạ dữ liệu từ không gian gốc sang không gian đặc

trưng cho phép phân chia dữ liệu bởi siêu phẳng 37

2.13 Ví dụ về quá trình phân lớp của SVM đa lớp 38 2.14 Tham số xác suất của một mô hình Markov ẩn 39

Trang 11

3.1 Một số ví dụ về dữ liệu gốc từ camera 41 3.2 Ba vector đặc trưng đầu tiên cho mỗi góc nhìn được tạo bởi

3.5 Kết quả bước đầu tiên của quá trình huấn luyện 49

3.7 Biểu đồ tương quan giữa độ chính xác và số bước huấn

Trang 12

MỞ ĐẦU

1 Lý do chọn đề tài

Các phương pháp sinh trắc học để nhận diện con người dựa trên đặc điểm sinh lý/hành vi của đối tượng như nhận dạng khuôn mặt, giọng nói, mống mắt, vân tay, hình dạng tay và dáng đi, đã và đang đóng vai trò ngày càng quan trọng trong việc nhận dạng con người dựa trên tính phổ biến và độc đáo của chúng

Nhận dạng dựa trên dáng đi là một công nghệ sinh trắc học sử dụng để nhận dạng con người từ dáng đi và kích thước cơ thể Ưu điểm của phương pháo này là dáng đi khó có thể thay đổi, khó có thể bắt chước trong một thời gian dài liên tục [4] Không giống như các phương pháp sinh trắc học khác như ngón tay, mống mắt mặc dù khó nhưng vẫn có thể thay đổi được Nhận dạng dáng đi có thể được sử dụng ở một khoảng cách tương đối lớn mà không bị phát hiện bởi đối tượng

Như vậy chúng ta có thể thấy được ưu điểm của nhận dạng dáng đi so với các phương pháp sinh trắc học khác Tuy nhiên, các phương pháp phổ thông hiện nay chỉ sử dụng dữ liệu 2D có độ chính xác không cao [3]

Từ những lí do trên, tôi đề xuất chọn đề tài luận văn cao học là: “Phân tích dáng

đi người sử dụng thông tin đường bao” dự kiến có thể nâng cao độ chính xác bằng

cách sử dụng thông tin đường bao (Silhouette) với một hoặc nhiều camera

2 Mục đích và nhiệm vụ nghiên cứu

2.1 Mục đích nghiên cứu

Mục tiêu chính của đề tài là sử dụng một hoặc nhiều camera để ghi nhận quá trình chuyển động của đối tượng, sau đó trích thông tin đặc trưng, từ đó phân tích dáng đi

2.2 Nhiệm vụ nghiên cứu

Luận văn tập trung nghiên cứu những vấn đề sau:

- Tìm hiểu các loại camera và bộ SDK hỗ trợ ghi nhận dáng đi

- Nghiên cứu các phương pháp phân tích dáng đi

- Nghiên cứu phương pháp mới hoặc cải tiến phương pháp cũ sử dụng một hoặc nhiều camera và sử dụng dữ liệu đường bao, sau đó phân tích và đánh giá

- Triển khai thực nghiệm để kiểm chứng kết quả

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

Luận văn tập trung tìm hiểu những vấn đề sau:

- Khung hình hoặc đoạn video thu được từ camera hoặc từ các bộ dữ liệu có sẵn

- Các phương pháp huấn luyện học máy

- Các phương pháp nhận dạng dựa trên dáng đi

Trang 13

Luận văn tập trung nghiên cứu một số lý thuyết như sau:

- Tìm hiểu các tài liệu hiện có về nhận dạng sinh trắc học khác nhau

- Tìm hiểu các phương pháp trích chọn đặc trưng khác nhau

- Tìm hiểu các tài liệu hiện có về nhận dáng dáng đi khác nhau

- Nghiên cứu bài báo liên quan

4.2 Phương pháp thực nghiệm

Luận văn nghiên cứu một số vấn đề về thực nghiệm như sau:

- Ghi nhận dữ liệu từ camera hoặc sử dụng dữ liệu có sẵn

- Phân tích và đánh giá dữ liệu ở trên để kiểm chứng và so sánh tính hiệu quả với các phương pháp khác

5 Giải pháp đề xuất

Quá trình xử lý và các phương pháp dự kiến được nghiên cứu sử dụng:

Hình 0.1 – Sơ đồ phương pháp dự kiến

• Tiền xử lý: Từ dữ liệu thu nhận được ta thực hiện xử lý ảnh cơ bản bao gồm: căn

chỉnh ảnh, chuẩn hóa ánh sáng, loại bỏ nhiễu, tách ngưỡng, lọc tần số, lọc màu da

• Trích chọn đặc trưng: Có thể dựa vào đặc điểm không gian (phân bố mức xám,

phân bố xác suất, biên độ, điểm uốn…), đặc điểm biến đổi, đặc điểm biên và đường

Trang 14

biên… của ảnh để trích chọn đặc trưng phù hợp với mục đích nhận dạng Mục tiêu của trích chọn đặc trưng là dựa trên các tín hiệu thu được để mô tả các đối tượng bằng các giá trị xấp xỉ bằng nhau đối với các đối tượng cùng loại, và khác xa nhau nếu khác loại

Số lượng đặc trưng càng ít càng tốt Đầu ra của công đoạn này được gọi là véc tơ đặc trưng của đối tượng

• Huấn luyện hệ thống: Dựa trên các thông số sau khi trích chọn đặc trưng từ các

dữ liệu, có thể sử dụng các phương pháp học máy như: Mạng nơ-ron nhân tạo (Artificial Neural Network- ANN), Mô hình Markov ẩn (Hidden Markov Model - HMM), máy vector hỗ trợ (Support Vector Machines - SVM), mô hình cực đại hóa Entropy (Maximum Entropy Model - MEM) … để huấn luyện tập dữ liệu, đồng thời sử sụng các phương pháp đánh giá chất lượng của tập dữ liệu Kết quả thu được là cơ sở dữ liệu đã được phân lớp

• CSDL đã phân lớp: Tập dữ liệu đạt chất lượng cao đã được huấn luyện và đánh

giá ở bước huấn luyện hệ thống

• Nhận dạng dáng đi: Thực hiện việc so khớp giữa các véc tơ đặc trưng được trích

chọn ở dữ liệu người dùng với các đặc trưng đã được huấn luyện và đánh giá (trong CSDL đã phân lớp) ở tập dữ liệu mẫu phục vụ quá trình nhận dạng, đưa ra kết luận mẫu nhận dạng thuộc phân lớp nào

6 Ý nghĩa khoa học và thực tiễn của đề tài

6.1 Ý nghĩa khoa học của đề tài

Về mặt khoa học, đề tài sẽ mang ý nghĩa cung cấp về mặt lý thuyết và phương pháp phân tích dáng đi, được áp dụng trong các hướng nghiên cứu sâu hơn, cụ thể hơn

6.2 Ý nghĩa thực tiễn của đề tài

Về mặt thực tiễn, kết quả đề tài có thể được ứng dụng trong các hệ thống an ninh

để nhận dạng các đối tượng cần thiết, và trong lĩnh vực y tế để chuẩn đáng các căn bệnh liên quan tới khung xương thông qua dáng đi

7 Kết quả dự kiến

Luận văn dự kiến sẽ đạt được những kết quả sau:

- Hiểu được các kĩ thuật xử lý ảnh và học máy cơ bản

- Đưa ra được giải pháp cho vấn đề phân tích/nhận dạng dáng đi một cách hiệu quả

- Xây dựng chương trình thực nghiệm phân tích/nhận dạng dáng đi để kiểm chứng

8 Cấu trúc luận văn

Nội dung của luận văn được trình bày với các phần chính như sau:

Mở đầu

Trang 15

Chương 1 - Nghiên cứu tổng quan: Chương này trình bày một số vấn đề liên

quan tới phân tích dáng đi như các lý thuyết về nhận dạng dáng đi, các phương pháp

xử lí ảnh, các ứng dụng dựa trên nhận dạng dáng đi

Chương 2 - Phát hiện và phân tích dáng đi dựa trên thông tin đường bao:

Trong chương này trình bày cách phát hiện phân đoạn dáng đi thành chu kì, một số kỹ

thuật trích chọn đặc trưng thường được sử dụng để phục vụ cho bài toán nhận dạng Đồng thời giới thiệu một số kỹ thuật nhận dạng dáng đi phổ biến như: K-NN, SVM, ANN

Trang 16

CHƯƠNG 1 - NGHIÊN CỨU TỔNG QUAN

1.1 GIỚI THIỆU CHUNG VỀ XỬ LÝ ẢNH

Con người thu nhận thông tin qua các giác quan, trong đó thị giác đóng vai trò quan trọng nhất Những năm trở lại đây với sự phát triển của phần cứng máy tính, xử lý ảnh và đồ hoạ đó phát triển một cách mạnh mẽ và có nhiều ứng dụng trong cuộc sống

Xử lý ảnh và đồ hoạ đóng một vai trò quan trọng trong tương tác người máy

Quá trình xử lý ảnh được xem như là quá trình thao tác ảnh đầu vào nhằm cho ra kết quả mong muốn Kết quả đầu ra của một quá trình xử lý ảnh có thể là một ảnh “tốt hơn” hoặc một kết luận [2]

Hình 1.1 - Quá trình xử lý ảnh

Ảnh có thể xem là tập hợp các điểm ảnh và mỗi điểm ảnh được xem như là đặc trưng cường độ sáng hay một dấu hiệu nào đó tại một vị trí nào đó của đối tượng trong không gian và nó có thể xem như một hàm n biến P (c1, c2 , cn) Do đó, ảnh trong xử

lý ảnh có thể xem như ảnh n chiều

1.2 TỔNG QUAN CÁC VẤN ĐỀ CƠ BẢN TRONG XỬ LÝ ẢNH

Ảnh và điểm ảnh: Điểm ảnh được xem như là dấu hiệu hay cường độ sáng tại một toạ độ trong không gian của đối tượng và ảnh được xem như là 1 tập hợp các điểm ảnh Mức xám, màu: Là số các giá trị có thể có của các điểm ảnh của ảnh

1.2.1 Nắn chỉnh biến dạng

Ảnh thu nhận thường bị biến dạng do các thiết bị quang học và điện tử

Hình 1.2 - Ảnh thu nhận và ảnh mong muốn [2]

Trang 17

Để khắc phục người ta sử dụng các phép chiếu, các phép chiếu thường được xây dựng trên tập các điểm điều khiển

Giả sử ảnh bị biến đổi chỉ bao gồm: Tịnh tiến, quay, tỷ lệ, biến dạng bậc nhất tuyến tính Khi đó hàm f có dạng:

f (x, y) = (a1x + b1y + c1, a2x + b2y + c2)

Ta có:

Giải hệ phương trình tuyến tính tìm được a1, b1, c1 Tương tự tìm được a2, b2, c2 Xác định được hàm f

1.2.2 Khử nhiễu

Có 2 loại nhiễu cơ bản trong quá trình thu nhận ảnh

- Nhiều hệ thống: là nhiễu có quy luật có thể khử bằng các phép biến đổi

- Nhiễu ngẫu nhiên: vết bẩn không rõ nguyên nhân → khắc phục bằng các phép lọc

1.2.3 Chỉnh mức xám

Nhằm khắc phục tính không đồng đều của hệ thống gây ra Thông thường có 2 hướng tiếp cận:

Trang 18

- Giảm số mức xám: Thực hiện bằng cách nhóm các mức xám gần nhau thành một

bó Trường hợp chỉ có 2 mức xám thì chính là chuyển về ảnh đen trắng Ứng dụng: In ảnh màu ra máy in đen trắng

- Tăng số mức xám: Thực hiện nội suy ra các mức xám trung gian bằng kỹ thuật nội suy Kỹ thuật này nhằm tăng cường độ mịn cho ảnh

1.2.4 Trích chọn đặc trưng

Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnh sau đây:

- Đặc điểm không gian: Phân bố mức xám, phân bố xác suất, biên độ, điểm uốn…

- Đặc điểm biến đổi: Các đặc điểm loại này được trích chọn bằng việc thực hiện

lọc vùng (zonal filtering) Các bộ vùng được gọi là “mặt nạ đặc điểm” (feature mask) thường là các khe hẹp với hình dạng khác nhau (chữ nhật, tam giác, cung tròn…)

- Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng và do

vậy rất hữu ích trong việc trích trọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử gradient, toán tử la bàn, toán tử Laplace, toán tử “chéo không” (zero crossing) …

Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống

1.2.5 Nhận dạng

Nhận dạng tự động (automatic recognition), mô tả đối tượng, phân loại và phân nhóm các mẫu là những vấn đề quan trọng trong thị giác máy, được ứng dụng trong nhiều ngành khoa học khác nhau Tuy nhiên, một câu hỏi đặt ra là: mẫu (pattern) là gì? Watanabe, một trong những người đi đầu trong lĩnh vực này đã định nghĩa: “Ngược lại với hỗn loạn (chaos), mẫu là một thực thể (entity), được xác định một cách ang áng (vaguely defined) và có thể gán cho nó một tên gọi nào đó” Ví dụ mẫu có thể là ảnh của vân tay, ảnh của một vật nào đó được chụp, một chữ viết, khuôn mặt người hoặc một ký đồ tín hiệu tiếng nói Khi biết một mẫu nào đó, để nhận dạng hoặc phân loại mẫu

đó có thể:

Hoặc phân loại có mẫu (supervised classification), chẳng hạn phân tích phân biệt

(discriminant analyis), trong đó mẫu đầu vào được định danh như một thành phần của một lớp đã xác định

Hoặc phân loại không có mẫu (unsupervised classification hay clustering) trong

đó các mẫu được gán vào các lớp khác nhau dựa trên một tiêu chuẩn đồng dạng nào đó Các lớp này cho đến thời điểm phân loại vẫn chưa biết hay chưa được định danh

Trang 19

Hệ thống nhận dạng tự động bao gồm ba khâu tương ứng với ba giai đoạn chủ yếu sau đây:

1 Thu nhận dữ liệu và tiền xử lý

2 Biểu diễn dữ liệu

3 Nhận dạng, ra quyết định

Bốn cách tiếp cận khác nhau trong lý thuyết nhận dạng là:

1 Đối sánh mẫu dựa trên các đặc trưng được trích chọn

2 Phân loại thống kê

3 Đối sánh cấu trúc

4 Phân loại dựa trên mạng nơ-ron nhân tạo

Trong các ứng dụng rõ ràng là không thể chỉ dùng có một cách tiếp cận đơn lẻ để phân loại “tối ưu” do vậy cần sử dụng cùng một lúc nhiều phương pháp và cách tiếp cận khác nhau Do vậy, các phương thức phân loại tổ hợp hay được sử dụng khi nhận dạng

và nay đã có những kết quả có triển vọng dựa trên thiết kế các hệ thống lai (hybrid system) bao gồm nhiều mô hình kết hợp

Việc giải quyết bài toán nhận dạng trong những ứng dụng mới, nảy sinh trong cuộc sống không chỉ tạo ra những thách thức về thuật giải, mà còn đặt ra những yêu cầu về tốc độ tính toán Đặc điểm chung của tất cả những ứng dụng đó là những đặc điểm đặc trưng cần thiết thường là nhiều, không thể do chuyên gia đề xuất, mà phải được trích chọn dựa trên các thủ tục phân tích dữ liệu

1.2.6 Nén ảnh

Nhằm giảm thiểu không gian lưu trữ Thường được tiến hành theo cả hai cách khuynh hướng là nén có bảo toàn và không bảo toàn thông tin Nén không bảo toàn thì thường có khả năng nén cao hơn nhưng khả năng phục hồi thì kém hơn Trên cơ sở hai khuynh hướng, có 4 cách tiếp cận cơ bản trong nén ảnh:

1 Nén ảnh thống kê: Kỹ thuật nén này dựa vào việc thống kê tần xuất xuất hiện của

giá trị các điểm ảnh, trên cơ sở đó mà có chiến lược mã hóa thích hợp Một ví dụ điển hình cho kỹ thuật mã hóa này là *.TIF

2 Nén ảnh không gian: Kỹ thuật này dựa vào vị trí không gian của các điểm ảnh để

tiến hành mã hóa Kỹ thuật lợi dụng sự giống nhau của các điểm ảnh trong các vùng gần nhau Ví dụ cho kỹ thuật này là mã nén *.PCX

3 Nén ảnh sử dụng phép biến đổi: Đây là kỹ thuật tiếp cận theo hướng nén không

bảo toàn và do vậy, kỹ thuật thướng nến hiệu quả hơn *.JPG chính là tiếp cận theo kỹ thuật nén này

Trang 20

4 Nén ảnh Fractal: Sử dụng tính chất Fractal của các đối tượng ảnh, thể hiện sự lặp

lại của các chi tiết Kỹ thuật nén sẽ tính toán để chỉ cần lưu trữ phần gốc ảnh và quy luật sinh ra ảnh theo nguyên lý Fractal

1.3 CÁC GIAI ĐOẠN TRONG DÁNG ĐI Ở NGƯỜI

Việc phân biệt các giai đoạn của dáng đi là một bước quan trọng trong quá trình phân đoạn và nhận dạng dáng đi

Dáng đi được định nghĩa là chuỗi liên tục thành nhịp các giai đoạn đu đưa (swing)

và tựa (support) của hai chân khi bàn chân hoặc ở trong không (đu đưa) hoặc tiếp xúc với đất (tựa) Dáng đi được đặc trưng bởi có một giai đoạn tựa kép trong đó cả hai chân tiếp xúc với đất, xen kẽ với các giai đoạn tựa đơn khi chân kia đưa tới trước để bước tiếp Trong khi đi không có giai đoạn hai chân đều hở đất (nghĩa là giai đoạn bay)

Hình 1.3 - Các giai đoạn của dáng đi bình thường [24]

Trong đó:

IC = Initial Contact (chạm gót);

LR = Loading Response (đáp ứng tải);

M-St = Mid support (giữa thì tựa);

T-St = Terminal support (cuối thì tựa);

PS = Preswing (tiền đu đưa);

I-Sw = Initial swing (đầu giai đoạn đu đưa); M-Sw = Mid swing (giữa giai đoạn đu đưa); T-Sw = Terminal swing (cuối giai đoạn đu đưa)

Trang 21

1.3.1 Giai đoạn tựa (chống)

Là khi bàn chân tiếp xúc với đất (từ điểm bàn chân chạm đất đến khi bàn chân rời khỏi đất) Giai đoạn này thường được chia thành chạm gót, bàn chân bằng (hoặc đáp ứng tải), giữa thì tựa, cuối thì tựa (nhấc gót), và tiền đu đưa (nhấc ngón chân) [24]

Hình 1.4 - Mô tả khung xương chân cho giai đoạn chống [25]

1.3.1.1 Thì chạm đất

Thì chạm đất điển hình xảy ra là gót chạm Hông gập 30 độ, gối hầu như duỗi hoàn toàn, cổ chân ở vị trí trung tính Khi phản lực mặt đất ở phía trước khớp hông, cơ duỗi hông (cơ mông lớn và cơ hamstring) đang kích hoạt để duy trì sự ổn định khớp hông Tại gối, phản lực mặt đất tạo một mô men ngoại lực duỗi vốn được trung hòa bằng hoạt động của cơ hamstring Bàn chân được củng cố trong vị thế trung tính bằng các cơ gập mặt lưng cổ chân

cổ chân, thì mô men ngoại lực làm gập mặt lòng bàn chân xuất hiện khiến bàn chân nhanh chóng hạ thấp xuống còn 10 độ gập mặt lòng Hoạt động này được các cơ gập mặt lưng cổ chân kiểm soát, là các cơ vốn kích hoạt ly tâm Ở cuối thì chuyển trọng lượng, bàn chân tiếp xúc hoàn toàn với mặt đất

Trang 22

1.3.1.3 Giữa thì chống

Trong suốt giữa thì chống, chân chống đỡ toàn bộ trọng lượng cơ thể trong khi chân đối bên đu ra trước Vec tơ phản lực mặt đất đi qua khớp hông, xóa bỏ nhu cầu hoạt động duỗi khớp hông Tại gối, phản lực mặt đất chuyển từ vị trí phía sau ra vị trí phía trước, tương tự như thế cũng xóa bỏ nhu cầu hoạt động cơ tứ đầu đùi Sự duỗi gối xảy ra và được kiềm lại thụ động bởi bao dây chằng sau của gối, và cũng có thể bị kềm lại chủ động bởi hoạt động ly tâm của cơ khoeo và cơ sinh đôi Tại cổ chân, phản lực mặt đất ở phía trước cổ chân, vì thế sinh ra một mô men ngoại lực gập mặt lưng cổ chân

Mô men này bị trung hòa bởi các cơ gập mặt lòng cổ chân, là các cơ co ly tâm hạn chế

sự gập mặt lưng xảy ra trong suốt thì này

1.3.1.4 Cuối thì chống

Ở cuối thì chống, khối cơ thể tiếp tục tiến ra trước trên chân chống trong khi thân

đổ ra trước Phản lực mặt đất tại khớp hông giờ đây nằm ở phía sau, tạo ra một mô men lực duỗi thụ động ngược lại bởi các dây chằng chậu đùi Hông duỗi tối đa Tại gối, phản lực mặt đất di chuyển từ trước ra sau Khi nhấc gót khỏi mặt đất, phản lực mặt đất di chuyển nhiều hơn ra trước khớp cổ chân, kích hoạt một mô men ngoại lực làm gập mặt lưng cổ chân mô men này được hoạt động của các cơ gập mặt lòng cổ chân cân bằng Trong suốt thì này, cổ chân đang gập mặt lòng, và do đó hoạt động của các cơ gập mặt lòng cổ chân chuyển từ co ly tâm sang hướng tâm

1.3.2 Giai đoạn đu đưa

Xảy ra từ lúc bàn chân rời đất đến khi bàn chân đó chạm đất lại Giai đoạn này thường được chia thành đầu thì đu đưa, giữa thì đu đưa và cuối thì đu đưa [25]

Tỷ lệ thời gian tương ứng sử dụng trong hai giai đoạn đu đưa và tựa này thay đổi đáng kể khi đi và chạy Khi đi bình thường thì tựa chiếm 60%, giai đoạn đu đưa chiếm 40% Khi đi nhanh và chạy, thời gian giai đoạn tựa giảm đi Ví dụ chạy vừa 55%, chạy nhanh 50%

Hình 1.5 - mô tả khung xương chân cho giai đoạn đu đưa [25]

Trang 23

1.3.2.1 Tiền thì đu

Trong suốt tiền thì đu, chân đu bắt đầu đẩy tới để đu Thì này xảy ra khi chân đối bên tiến từ thì gót chạm đất đến thì chuyển trọng lượng Khi đã duỗi tối đa, khớp hông bắt đầu gập do hoạt động kết hợp của cơ thắt lưng chậu, cơ áp hông và thẳng đùi, lúc này co hướng tâm Gối nhanh chóng gập đến 40 độ khi phản lực mặt đất nhanh chóng

di chuyển ra sau gối Việc gập gối có thể được kiểm soát bằng hoạt động của cơ thẳng đầu đùi Cổ chân gập mặt lòng khoảng 20 độ do sự tiếp tục co cơ hướng tâm của các cơ gập mặt lòng cổ chân

1.3.2.2 Đầu thì đu

Trong suốt đầu thì đu, chân đu bị đẩy ra trước Gập hông xảy ra do đà gập hông

đã kích hoạt từ tiền thì đu và do sự tiếp tục co cơ hướng tâm của các cơ gập hông Cơ thẳng đầu đùi và cơ rộng ngoài hoạt động độc lập trong suốt đầu thì đu, với hoạt động

cơ thẳng đùi trực tiếp liên quan đến tốc độ đi Cơ thẳng đùi hoạt động trong cả thì chuyển trọng lượng lẫn tiền và đầu thì đu, dù ở tốc độ đi nào, với tính biến thiên nhiều trong mẫu hoạt động của cơ Một số người tham gia thể hiện nhiều hoạt động hơn ở nửa sau giai đoạn đứng, trong khi những người khác có độ lớn điện cơ đồ cao hơn ở nửa đầu giai đoạn đứng Gối tiếp tục gập khoảng 65 độ Gối gập xuất hiện thụ động do kết quả kết hợp của gập hông và đà của tiền thì đu Cơ gập mặt lưng cổ chân co hướng tâm gập cổ chân vào mặt lưng để tạo sự nhấc mũi chân

1.3.2.3 Giữa thì đu

Ở giữa thì đu chân đu tiếp tục tiến tới trước, chủ yếu là thụ động như con lắc, từ lực quán tính được kích hoạt ở tiền và đầu thì đu Đà được kích hoạt ở đầu thì đu làm gập hông thụ động Gối bắt đầu duỗi thụ động do trọng lực Cổ chân vẫn ở vị thế trung tính với các cơ gập mặt lưng tiếp tục hoạt động

1.3.2.4 Cuối thì đu

Ở cuối thì đu, đà đã được kích hoạt trước đó được kiểm soát để tạo sự thẳng trục

ổn định cho chân ở thì chạm đất Ở khớp hông và khớp gối, sự co cơ ly tâm của cơ hamstrings giảm tốc độ gập hông và kiểm soát duỗi gối Các cơ gập mặt lưng cổ chân tiếp tục hoạt động cho phép cổ chân ở vị thế trung tính khi chạm đất

1.3 QUÁ TRÌNH XỬ LÝ VÀ NHẬN DẠNG DÁNG ĐI

1.3.1 Các giai đoạn của hệ thống nhận dạng dáng đi

Tiến trình nhận dạng dáng đi cơ bản có dạng như sau:

Hình 1.6 – Các giai đoạn của hệ thống nhận dạng dáng đi

DỮ LIỆU VÀO TIỀN XỬ LÝ TRÍCH CHỌN

ĐẶC TRƯNG NHẬN DẠNG

Trang 24

1.3.2 Dữ liệu vào

Dữ liệu vào có thể là một hình ảnh, hoặc một chuỗi các hình ảnh (video), được chụp bởi một camera hướng về đối tượng cần nhận dạng Tuy nhiên, có nhiều hệ thống

sử dụng hai hoặc nhiều camera để thu được nhiều thông tin về các dáng đi Ưu điểm của

hệ thống này là có thể ghi nhận được nhiều góc nhìn khác nhau

Hình 1.7 - Một số hình ảnh các gian đoạn của bước chân [26]

1.3.3 Tiền xử lý

Tiền xử lý là nhiệm vụ quan trọng trong hệ thống nhận dạng dáng đi Mục đích cơ bản của giai đoạn này là tối ưu hình ảnh thu được từ giai đoạn trước để chuẩn bị trích xuất các đặc trưng trong giai đoạn tiếp theo Chất lượng hình ảnh thu được phụ thuộc vào điều kiện sáng và và chất lượng của thiết bị ghi hình Một hình ảnh chất lượng thấp

sẽ ảnh hưởng tới độ chính xác của hệ thống Vì vậy, tiền xử lý ảnh là bắt buộc để nâng cao chất lượng ảnh đồng thời cải thiện độ chính xác của hệ thống được đề xuất Từ hình ảnh thu nhận được ở dữ liệu vào ta có thể thực hiện xử lý ảnh cơ bản như: căn chỉnh ảnh, chuẩn hóa ánh sáng, loại bỏ nhiễu, phân đoạn ảnh, lọc màu da Dưới đây là một

số kỹ thuật tiền xử lý thường được áp dụng trong giai đoạn này:

a Chuyển ảnh RGB sang ảnh nhị phân

Ảnh màu RGB nên được chuyển sang dạng ảnh xám hoặc chuyển sang ảnh trong không gian màu YcbCr (Y là độ sáng và Cb, Cr là hai thành phần màu) trước khi nó được chuyển sang ảnh nhị phân

Bước chuyển từ ảnh RGB thành ảnh xám ta cần làm cho 3 thành phần R, G, B bằng nhau theo công thức (1.1):

G=αR+βG+γB với điều kiện α+β+γ=1 (1.1)

Trang 25

Để thực hiện chuyển từ RGB sang YCbCr có nhiều công thức theo chuẩn khác

nhau, theo chuẩn ITU-R BT.601 sẽ như sau:

1 Có nhiều kỹ thuật để tìm giá trị ngưỡng, phương pháp thông dụng nhất do Otsu đề xuất [9]

Như vậy, sau khi chuyển ảnh gốc RGB sang ảnh nhị phân chúng ta thu được ảnh đen trắng mà trong đó những điểm ảnh trong người có màu trắng (1) và điểm ảnh nền

có màu đen (0), minh họa ở hình 1.8

(a) (b)

Hình 1.8 - Ví dụ chuyển ảnh RGB sang ảnh nhị phân

(a) Ảnh gốc – (b) Ảnh nhị phân biểu biễn bởi 0 và 1

b Lọc nhiễu

Trong ảnh nhị phân, có thể có một số giá trị 0 trong người và có một số giá trị 1 trong khu vực nền Khi đó, nền có những số 1 được biết đến như nhiễu xung quanh và dáng đi có một vài số 0 được biết đến như nhiễu dáng đi Những nhiễu này có thể dẫn đến một vấn đề trong việc phát hiện đường viền của dáng đi vì vậy cần phải loại bỏ các nhiễu này Một phương pháp bộ lọc hình thái học đã được áp dụng sử dụng chuỗi các

sự giãn nở và xói mòn để có được một đường viền mịn, khép kín, và hoàn chỉnh của một

cử chỉ [6]

Trang 26

Hình 1.9 - Ví dụ về quá trình chuyển đổi ảnh và lọc nhiễu

(a) Ảnh nền – (b) Ảnh gốc RGB (c) Ảnh nhị phân – (d) Ảnh đã được lọc nhiễu

c Phân đoạn ảnh

Phân đoạn ảnh là thực hiện việc phân vùng ảnh thành các vùng rời rạc và đồng nhất với nhau hay nói cách khác là xác định các biên của các vùng ảnh đó Các vùng ảnh đồng nhất này thông thường sẽ tương ứng với toàn bộ hay từng phần của các đối tượng thật sự bên trong ảnh Như vậy, mục tiêu của phân đoạn ảnh là làm nổi bật hoặc tách hẳn đối tượng cần quan tâm ra từ ảnh ban đầu, làm đơn giản hóa và thay đổi cách biểu diễn để dễ dàng phân tích hơn Một số kỹ thuật phận đoạn ảnh phổ biến như:

• Phân đoạn ảnh dựa trên ngưỡng

Các kỹ thuật phân đoạn ảnh dựa trên ngưỡng hầu hết đều dựa vào lược đồ mức xám của ảnh để tính toán ngưỡng Việc tính toán ngưỡng bao hàm việc xác định một tập các giá trị ngưỡng (có thể là một hoặc nhiều giá trị ngưỡng), dựa vào giá trị ngưỡng để phân tách ảnh ra thành những vùng có ý nghĩa

Trang 27

(a) (b)

Hình 1.10 - Phân đoạn ảnh dựa trên ngưỡng của lược đồ mức xám

(a) sử dụng một ngưỡng T - (b) Sử dụng hai ngưỡng T1 và T2

• Phân đoạn ảnh dựa trên biên (cạnh)

Việc xác định biên ảnh là một vấn đề chủ yếu và đặc điểm quan trọng trong phân tích ảnh vì các kĩ thuật phân đoạn ảnh chủ yếu dựa vào biên Một điểm ảnh được gọi là biên nếu ở đó có sự thay đổi đột ngột về mức xám Tập hợp các điểm biên tạo thành biên, hay còn gọi là đường bao của ảnh Mỗi một biên là một thuộc tính gắn liền với một điểm riêng biệt và được tính toán từ những điểm lân cận của nó Một số phương pháp phát hiện biên thông dụng như: Phương pháp đạo hàm bậc nhất (phương pháp Gradient), phương pháp đạo hàm bậc hai (phương pháp Laplace), phương pháp Canny do John Canny đề xuất vào năm 1986… [6]

(a) (b)

Hình 1.11 - Mô tả tách biên từ ảnh nhị phân

(a) Ảnh nhị phân – (b) Ảnh nhị phân đã tách biên

• Phân đoạn ảnh dựa trên vùng

Dựa trên các đặc điểm về khớp xương và vị trí hiện tại của đối tượng so với vị trí ban đầu

Trang 28

Hình 1.12 - Phân đoạn dựa theo vùng [5]

1.3.4 Trích chọn đặc trưng

Một hình ảnh kỹ thuật số có thể chứa một lượng lớn dữ liệu, đặc biệt là đối với ảnh có chất lượng tốt, hình ảnh chuyên nghiệp Vì vậy, để thao tác trên một hình ảnh hiệu quả, cần giảm bớt lượng dữ liệu phải xử lý Cách tốt nhất để giải quyết vấn đề này

là trích xuất các đặc điểm quan trọng nhất của một hình ảnh mà có thể đại diện cho toàn

bộ hình ảnh Những đặc điểm này được gọi là các đặc trưng hình ảnh Như vậy, trích chọn đặc trưng là chiết xuất thông tin từ dữ liệu thô mà nó phù hợp nhất cho mục đích nhận dạng để giảm thiểu các biến thể trong một lớp và tối đa hóa các biến thể giữa các lớp khác nhau

Trong giai đoạn trích chọn đặc trưng, mỗi đối tượng được đại diện bởi một véc tơ đặc trưng Mục tiêu chủ yếu của trích chọn đặc trưng là trích xuất một tập hợp các đặc trưng, trong đó có thể tối đa hóa tỷ lệ nhận dạng với sự nhầm lẫn nhỏ nhất Các đặc điểm của đối tượng được trích chọn tuỳ theo mục đích nhận dạng trong quá trình xử lý ảnh Có thể nêu ra một số đặc điểm của ảnh sau đây:

Đặc điểm không gian: Phân bố mức xám, biên độ, điểm uốn… Các đặc điểm loại

này thường được trích chọn bằng việc áp dụng phép biến đổi Haar-Like trên ảnh

Đặc điểm biến đổi: Đặc điểm biến đổi như hình dáng đường bao Các đặc điểm

loại này được trích chọn bằng việc áp dụng bộ lọc Gabor lên ảnh

Đặc điểm biên và đường biên: Đặc trưng cho đường biên của đối tượng rất hữu

ích trong việc trích chọn các thuộc tính bất biến được dùng khi nhận dạng đối tượng Các đặc điểm này có thể được trích chọn nhờ toán tử Gradient, toán tử la bàn, toán tử Laplace, …

Trang 29

Việc trích chọn hiệu quả các đặc điểm giúp cho việc nhận dạng các đối tượng ảnh chính xác, với tốc độ tính toán cao và dung lượng nhớ lưu trữ giảm xuống [2]

1.3.5 Nhận dạng

Giai đoạn nhận dạng thực hiện việc phân tích từ dữ liệu đầu vào của người dùng

để kiểm tra trong dữ liệu đầu vào đó có chứa cử chỉ đang xét hay không Dữ liệu đầu vào cũng qua các quá trình tiền xử lý, trích chọn đặc trưng và sau đó đưa vào bộ nhận dạng Bộ nhận dạng sẽ phân loại các đặc trưng vào các lớp đã được định nghĩa trong giai đoạn huấn luyện trước đó Việc nhận dạng ở khâu này được áp dụng thêm một số

kỹ thuật nhằm tăng độ chính xác cho hệ thống Sau đó cử chỉ được phân loại nhờ vào việc kết hợp các bộ nhận dạng cử chỉ Mỗi bộ nhận dạng cử chỉ có chức năng nhận dạng một cử chỉ ứng với các đặc trưng đã được huấn luyện

Có nhiều kỹ thuật nhận dạng khác nhau như: đối sánh mẫu, máy hỗ trợ véc tơ (SVM), mạng nơ-ron nhân tạo (ANN), mô hình Makov ẩn (HMM)… Mỗi phương pháp nhận dạng có ưu điểm, hạn chế riêng của nó Tùy thuộc vào từng bài toán nhận dạng cụ thể mà ta lựa chọn phương pháp tối ưu nhất

1.4 CÁC ỨNG DỤNG DỰA TRÊN PHÂN TÍCH DÁNG ĐI

Đồng thời với quá trình nghiên cứu và cải tiến, thì quá trình ứng dụng phân tích dáng đi vào cuộc sống cũng đang được triển khai tích cứu trong nhiều lĩnh vực Đặc biệt được ứng dụng phổ biến nhất trong lĩnh vực an ninh, bảo mật và y tế

1.4.1 Ứng dụng trong lĩnh vực an ninh

Hàng ngày chúng ta đọc báo vẫn thường thấy những thông tin về cướp ngân hàng, khủng bố Đặc điểm nhận dạng phổ biến của đối tượng thường bị che bằng khăn che mặt, khẩu trang, mũ bảo hiểm Vậy làm thế nào để phát hiện sớm và ngăn chặn hành

vi phạm pháp của các đối tượng? Phân tích và nhận dạng dáng đi có thể làm được điều

đó

Hình 1.13 - Một ví dụ về đối tượng ở sân bay không thể nhận dạng khuôn mặt

Trang 30

1.4.2 Ứng dụng trong lĩnh vực bảo mật

Song hành với lĩnh vực an ninh, phân tích dáng đi còn được sử dụng trong lĩnh vực bảo mật như mở khoá điện thoai di động: các nhà khoa học Phần Lan vừa ứng dụng công, theo dõi chuyển động của chủ sở hữu thiết bị, khiến kẻ trộm khó có thể ăn cắp điện thoại di động hay máy tính xách tay Thiết bị di động sẽ được lắp đặt bộ phận cảm ứng mã dáng đi, ghi nhớ mọi cử động 3 chiều của chủ nhân khi họ lần đầu tiên dùng máy, lặp lại quá trình để kiểm tra và sau đó lưu vào bộ nhớ Nếu dáng đi thay đổi và thiết bị không thể nhận ra, nó sẽ hỏi mật khẩu và tự động khóa máy nếu nhập password không đúng

Ngoài ra các công ty có yêu cầu về bảo mật cho nhân viên được truy cập hệ thống cửa an ninh cũng có thể ứng dụng nhận diện dáng đi thay cho các phương thức bảo mật sinh trắc học khác

Hình 1.14 - Một mô hình nhận diện dáng đi để mở khoá cửa tự động [7]

1.4.3 Ứng dụng trong lĩnh vực y tế

Úng dụng phân tích dáng đi trong lĩnh vực y tế đã được triển khai từ rất sớm để chuẩn đoán và phát hiện các bệnh tiềm ẩn liên quan tới khung xương, ngoài ra còn thế thể chuẩn đoán trạng thái bị té ngã của một đối tượng để cảnh báo tới những người liên quan tới ứng cứu

Trang 31

Hình 1.15 - Một ví dụ về phân tích dáng đi trong y học

1.5 NHỮNG THÁCH THỨC TRONG NHẬN DẠNG DÁNG ĐI

Phân tích dáng đi được ứng dụng trong nhiều lĩnh vực, tuy nhiên vẫn có những thách thức lớn trong quá trình nghiên cứu và triển khai nhận dạng dáng đi như sau:

1.5.1 Bài toán có quá nhiều chiều

Khung xương là một đối tượng có nhiều khớp nối với hơn nhiều bậc tự do Ngoài

ra, việc di chuyển và ghi nhận di chuyển có thể phải thực hiện ở nhiều hướng khác nhau, dẫn tới kết quá có sự sai lệch nhất định

1.5.2 Hiện tượng bị che khuất

Các phần của dáng đi có thể bị che khuất bởi các phần khác như vật thể, không gian, hoặc các đối tượng khác Điều này ảnh hưởng đến việc thu nhận đường biên và khung xương không đầy đủ

Ngoài ra việc đối tượng thay đổi quần áo, trang phục khác nhau cũng ảnh hưởng tới quá trình ghi nhận và phân tích dáng đi

1.5.3 Môi trường không kiểm soát

Khi nhận dạng trên phông nền phức tạp, việc tách vùng và biên của đối tượng trong ảnh trở nên khó khăn khi màu của đối tượng giống với màu của các vùng khác trong ảnh Trong trường hợp đối tượng chỉ chiếm một phần nhỏ trong ảnh (đứng xa camera), mức độ chi tiết của đường biên và khung xương thấp nên rất khó phân biệt các hình dạng và dễ bị nhiễu

Nhìn chung, để mở rộng ứng dụng, nhiều hệ thống giao tiếp người - máy được kì

vọng có thể hoạt động trong một môi trường có nền không bị giới hạn và điều kiện ánh

Trang 32

sáng thay đổi lớn Nói cách khác, làm việc trên một nền tùy ý luôn là thách thức với hầu hết các hệ thống xử lý ảnh

1.5.4 Nhận diện thời điểm bắt đầu và kết thúc ở một thì

Điều này rất quan trọng trong việc nhận dạng dáng đi từ dữ liệu video bởi vì dữ liệu được tách thành các khung hình để xử lý Mỗi cử chỉ thực hiện trên nhiều khung hình do đó cần phải xác định số khung hình hoàn thành một cử chỉ để không bị lẫn lộn với những thì khác hoặc lặp lại một thì quá nhiều lần

Cần phân biệt một số trạng thái/thì bất thường trong quá trình chuyển động ủa đối tượng Giữa các thì sẽ có một số thao tác chuyển tiếp, và hệ thống nhận dạng cần phân biệt được đâu là một thì bình thường, đâu là một bước đi không bình thường

1.5.5 Lựa chọn đặc trưng phù hợp

Lựa chọn đặc trưng rất quan trọng trong việc nhận dạng, bản thân việc chọn đặc trưng là để giảm số chiều xử lý nhưng phải đảm bảo mô tả được đối tượng tương đối đầy đủ Nếu lựa chọn quá nhiều đặc trưng sẽ làm tốc độ nhận dạng chậm không đáp ứng tốc độ xử lý cũng như lượng bộ nhớ cần thiết Nếu lựa chọn quá ít sẽ làm mất thông tin không đủ để mô tả đối tượng và kết quả nhận dạng không chính xác

1.5.6 Tốc độ xử lý và tính chính xác trong nhận dạng

Để hệ thống nhận dạng dáng đi có thể tương tác được với người dùng trong thực

tế thì hệ thống này phải có tốc độ xử lý phải nhanh Ngay cả trong một khung hình, một

hệ thống xử lý ảnh thời gian thực cần xử lý một lượng lớn dữ liệu Với công nghệ phần cứng hiện nay, một số giải thuật đòi hỏi phần cứng chuyên dụng, đắt tiền và có khả năng

xử lý song song để thực thi thời gian thực

Hiện nay, có nhiều hướng nghiên cứu về nhận dạng dáng đi như: HMM, ANN, SVM…Do đó, cần lựa chọn và sử dụng phương pháp nhận dạng phải đáp ứng được yêu cầu là độ chính xác cao, đây là yêu cầu quan trọng nhất của một hệ thống nhận dạng

1.6 KẾT LUẬN CHƯƠNG 1

Phân tích dáng đi là một lĩnh vực không mới, tuy nhiên vẫn tồn tại nhiều hạn chế trong các phương pháp hiện tại, đồng thời kết quả ghi nhận mang tính tương đối với độ chính xác thấp Ngoài ra các ứng dụng của phân tích dáng đi được ứng dụng rộng khắp, nhưng lại chưa được ứng dụng cho các người dùng phổ thông

Vì thế, đề tài nghiên cứu về phân tích dáng đi hi vọng có thể cải thiện được kết quả của quá trình phân tích, đồng thời đơn giản hoá và nâng cao cơ hội ứng dụng phân tích dáng đi vào đời sống thường nhật

Trang 33

CHƯƠNG 2 - PHÁT HIỆN VÀ PHÂN TÍCH DÁNG ĐI DỰA TRÊN

Chương này sẽ tập trung đi sâu vào phương pháp trích chọn đặc trưng dựa trên đường bao, và sau đó là huấn luyện, nhận dạng

2.1 TIỀN XỬ LÝ

2.1.1 Phát hiện chuyển động và truy dấu

Trước khi huấn luyện và nhận dạng, mỗi dãy hình ảnh bao gồm một hình thể của dáng đi (walking figure) được chuyển đổi thành một dãy liên quan theo thứ tự thời gian của tín hiệu khoảng cách ở giai đoạn tiền xử lý

Phát hiện đối tượng người và truy dấu là bước đầu tiên của phân tích dáng đi Mặc dù nó không phải là phần chính của công việc, nhưng vẫn là giai đoạn quan trọng

và cần được giới thiệu đầy đủ Để trích xuất và theo dõi các hình ảnh chuyển động của

một walking figure từ hình nền trong mỗi khung hình, thuật toán phát hiện và theo dõi

sự thay đổi được dựa trên phép trừ mặt sau (background subtraction) và tương quan đường bao (silhouette correlation) [8] Giả thuyết chính được thực hiện ở đây là máy quay ở trạng thái tĩnh, và đối tượng chuyển động duy nhất trong các đoạn video liên tục

là người đi Mặc dù phương pháp tích hợp này thực hiện tốt trên bộ dữ liệu mẫu, nhưng cần lưu ý rằng phát hiện chuyển động nhanh với cường độ cao trong môi người thật không bị giới hạn là một vấn đề chưa được giải quyết đối với các kĩ thuật thị giác máy tính hiện tại bởi vì nó liên quan tới một số vấn đề khó khăn như bóng mờ và chuyển động từ nhiều hướng

2.1.2 Mô hình nền (Background Modeling)

Phép trừ mặt sau được sử dụng rộng rãi trong việc phát hiện mặt trước (foreground detection), nơi một máy ảnh cố định thường được sử dụng để quan sát các cảnh động Làm thế nào để tách ảnh nền từ các đoạn video là vấn đề rất quan trọng [8]

Trong luận văn này, phương pháp LMedS (Least Median of Squares) [9] được

sử dụng để xây dựng hình nền từ một phần nhỏ của các chuỗi hình ảnh, có thể bao

gồm cả các đối tượng di chuyển gọi I đại diện cho một chuỗi hình ảnh bao gồm N ảnh

Kết quả của hình nền bxy được tính toán bởi công thức (2.1) [9]:

(2.1)

Trong đó p là giá trị độ sáng của hình nền được xác định cho vị trí điểm ảnh (x,

y), med đại diện cho giá trị trung tuyến, và t đại diện cho giá trị nằm trong khoảng 1 –

Trang 34

N Kết quả cho thấy với N trên 60 là đủ cho dữ liệu được thiết lập để tạo ra một hình nền

đáng tin cậy

Hình 2.1 - Ví dụ của tách đường bao đang chuyển động:

(a) hình nền được xây dựng bởi phương pháp LMedS, (b) ảnh gốc,

(c) đường bao đã được tách từ (b)

2.1.3 Sự khác biệt (Differencing)

Sự thay đổi độ sáng thường là hệ quả của sự thay đổi giữa ảnh nền và ảnh hiện tại Tuy nhiên việc lựa chọn một ngưỡng phù hợp cho việc nhị phân hoá là rất khó, đặc biệt là trong các trường hợp hình tương phản thấp vì hầu hết các đối tượng di chuyển có thể bị bỏ qua bởi vì sự thay đổi độ sang quá thấp để phân biệt các vùng di chuyển khỏi các đối tượng nhiễu [10] Để giải quyết vấn đề này, chúng ta sử dụng công thức (2.2) để gián tiếp thực hiện quá trình phân biệt [10]:

Với mỗi ảnh Ixy sự phân tán của hàm tách ở trên f(a(x,y), b(x,y)) thông qua x và

y có thể dễ dáng thu được Sau đó, các điểm ảnh di chuyển có thể được tách ra bằng

cách so sánh sự phân tán của được hiển thị với giá trị ngưỡng được quyết định bởi công thức (2.9)

2.1.4 Hậu xử lý và truy dấu

Cần lưu ý rằng quá trình trên được thực hiện độc lập cho mỗi thành phần R, G, và

B trong một hình ảnh Đối với một pixel nhất định, nếu một trong ba thành phần xác

Trang 35

định nó là điểm thay đổi, thì nó sẽ được đặt ở tiền cảnh (foreground) Quá trình này tạo

ra một mặt nạ (mask) của một khu vực được quan tâm để tiếp tục xử lý [8]

Không có thuật toán phát hiện thay đổi nào là hoàn hảo Do đó bắt buộc phải loại nhiễu và biến dạng hình học càng nhiều càng tốt khỏi tiền cảnh được phân chia Các

toán tử hình thái như mòn hoá (erosion) và giãn nở (dilation) được sử dụng lần đầu tiên

để lọc các pixel có vấn đề, và các lỗ nhỏ bên trong đường bao đã tách đều bị lọc ra Cuối cùng một quá trình phân tích thành phần kết nối nhị phân được áp dụng để trích xuất một khu vực có kết nối nhỏ gọn có kích thước lớn nhất

Để loại bỏ sự không chính xác do quá trình phân đoạn, mỗi vùng tiền cảnh sẽ được theo dõi từ khung hình này tới khung hình kia bằng một phương pháp tương ứng đơn giản dựa trên sự chồng chéo của các biên của khung tương ứng trong hai khung hình bất kì liên tiếp [11] Nghĩa là thực hiện một sự tương quan biên nhị phân (binary edge correlation) giữa cấu trúc hình ảnh hiện tại và hình ảnh trước đó trên một tập các thay đổi nhỏ [11] Một ví dụ về phân đoạn chuyển động và quá trình theo dõi được thể hiện ở Hình 2.2, từ đó chúng ta có thế thấy rằng thủ tục dò tìm và theo dõi con người thực hiện tốt trên dữ liệu mẫu Nó hoàn toàn không ảnh hưởng đến quá trình chọn đặc trưng mặc dù có một phần nhỏ các biến dạng đường bao như mất một phần các bộ phận

cơ thể (ví dụ cánh tay không nhìn thấy trong hình d, j và k) và đường chéo của hai chân được tách ra một chút ví dụ, trong hình f)

Hình 2.2 - Sự thay đổi của các đường bao trong một mẫu dáng đi

Trang 36

2.2 Trích chọn đặc trưng

2.2.1 Biểu diễn đường bao (Silhouette)

Một dấu hiệu quan trọng trong việc xác định chuyển động cơ bản của người đi bộ

là những thay đổi tạm thời của đường bao Để làm cho phương pháp đề xuất không bị ảnh hưởng của sự thay đổi màu sắc và kết cấu quần áo, chúng ta chỉ sử dụng đường bao nhị phân Ngoài ra, vì lợi ích tính toán, chúng ra chuyển đổi những thay đổi hình dạng đường bao 2 chiều (2D - two dimensions) thành một dãy liên kề các tín hiệu 1 chiều (1D) để mô phỏng hình thái thời gian của quá trình di chuyển Quá trình minh hoạ được thể hiện ở Hình 2.3

Sau khi đường bao động của một hình dạng bước đi được ghi nhận, đường viền bên ngoài của nó có thể thu được bằng cách sử dụng một thuật toán biên “Canny Edge Extraction” [31]

Sau đó chúng ra có thể tính toán vị trí của trọng tâm ( x c, y c ) thông qua một số

phương pháp như k-means [29] Hoặc thông qua công thức tính trọng tâm của một hình được định nghĩa bằng n điểm (x 0 ,y 0 ), (x 1 ,y 1 ), , (x n−1 ,y n−1 )[30]:

Trang 37

Hình 2.3 - Biểu diễn đường bao:

(a) minh hoạ việc khai thác cạnh biên và quá trình mở rộng biên theo hướng ngược

chiều kim đồng hồ, (b) tín hiệu khoảng cách được chuẩn hoá bao gồm tất cả các khoảng cách giữa trọng

tâm và các điểm ảnh trên biên [8]

sự đối xứng của chuyển động đi trong quá trình biểu diễn hình dạng (ví dụ: từ trái sang phải cho tất cả các chuỗi chuyển động với một góc nhìn) Bằng cách chuyển đổi một chuỗi các hình ảnh dạng đường bao thành một chuỗi các mẫu tín hiệu 1D liên quan, chúng ta sẽ loại bỏ được những dữ liệu có khả năng nhiễu

2.2.2 Huấn luyện và phép chiếu (Projection)

2.2.2.1 Phân tích thành phần chính (PCA Training)

Mục đích của huấn luyện PCA là để có được một số thành phần chính biểu diễn các đặc trưng dáng đi nguyên bản từ một không gian đa chiều thành một không gian ít chiều Một số đặc tính của PCA như sau [33]:

- Giúp giảm số chiều của dữ liệu

Trang 38

- Thay vì giữ lại các trục tọa độ của không gian cũ, PCA xây dựng một không gian mới ít chiều hơn, nhưng lại có khả năng biểu diễn dữ liệu tốt tương đương không gian cũ, nghĩa là đảm bảo độ biến thiên (variability) của dữ liệu trên mỗi chiều mới

- Các trục tọa độ trong không gian mới là tổ hợp tuyến tính của không gian cũ, do

đó về mặt ngữ nghĩa, PCA xây dựng đặc trưng mới dựa trên các đặc trưng đã quan sát được Điểm hay là những đặc trưng này vẫn biểu diễn tốt dữ liệu ban đầu

- Trong không gian mới, các liên kết tiềm ẩn của dữ liệu có thể được khám phá,

mà nếu đặt trong không gian cũ thì khó phát hiện hơn, hoặc những liên kết như thế không thể hiện rõ

Quá trình huấn luyện tương tự [12] được minh hoạ như sau:

Cho s lớp huấn luyện, mỗi lớp đại diện cho một dãy tín hiệu khoảng cách của một đối tượng dáng đi Nhiều thì bước chân của mỗi người có thể được thêm vào một cách tự do để huấn luyện Cho Di,j là tín hiệu khoảng cách thứ j trong lớp i và Ni là số tín hiệu khoảng cách trong lớp thứ i Tổng số mẫu huấn luyện là: Nt = N1+N2+ + Ns ,

và toàn thể tập huấn luyện (tập các tín hiệu khoảng cách của tất cả đối tượng) có thể được biểu diễn bởi [D1,1, D1,2, , D1,N1, D2,1, …, Ds,Ns ] Chúng ta có thể có được số

trung bình md và ma trận hiệp phương sai toàn cục của một tập dữ liệu như vậy

(2.7) (2.8)

Giả sử trọng số của ma trận S là N, thì chúng ta có thể tính N được giá trị đặc

trưng khác 0 l1, l2, l3… lN và các vectors đặc trưng e 1, e 2, e 3…, e Nn dựa trên phân huỷ giá trị đơn SVD (Singular Value Decomposition)

Nói chung, một vài vector đặc trưng đầu tiên tương ứng với sự thay đổi lớn trong các mẫu huấn luyện Do đó, vì hiệu năng của bộ nhớ trong các ứng dụng thực tế, chúng ta bỏ qua các giá trị đặc trưng nhỏ và các điểm tương tự chúng bằng giá trị ngưỡng (threshold value) Ts:

Trang 39

sao cho trên mỗi trục, độ biến thiên của dữ liệu trên đó là lớn nhất có thể

Hình 2.4 - Minh họa PCA: tìm các trục tọa độ mới sao cho dữ liệu có độ biến

thiên cao nhất

Như hình 2.4, ta có tập dữ liệu ban đầu (tập điểm màu xanh) được quan sát trong không gian 3 chiều (trục màu đen) như hình bên trái Rõ ràng 3 trục này không biểu diễn được tốt nhất mức độ biến thiên của dữ liệu PCA do đó sẽ tìm hệ trục tọa độ mới (là hệ trục màu đỏ trong hình bên trái) Sau khi tìm được không gian mới, dữ liệu sẽ được chuyển sang không gian này để được biểu diễn như trong hình bên phải Rõ ràng hình bên phải chỉ cần 2 trục tọa độ nhưng biểu diễn tốt hơn độ biến thiên của dữ liệu so với

hệ trục 3 chiều ban đầu

thường được biết tới với k nhỏ hơn nhiều so với kích thước dữ liệu ban đầu N Tức là,

phân tích không gian đặc trưng có thể giảm đáng kể số chiều của dữ liệu mẫu

Đối với mỗi chuỗi huấn luyện, phép chiếu trọng tâm Ci trong không gian đặc

trưng được tính bằng cách lấy trung bình của tất cả các phép đơn chiếu tương ứng với mỗi khung trong chuỗi

(2.11)

Định dạng
Số trang	78
Dung lượng	12,1 MB