1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu và xây dựng giải thuật nhận dạng hình trạng người ứng dụng cho việc xây dựng phòng điều trị thông minh

68 32 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 1,88 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nghiên cứu và xây dựng giải thuật nhận dạng hình trạng người ứng dụng cho việc xây dựng phòng điều trị thông minh Nghiên cứu và xây dựng giải thuật nhận dạng hình trạng người ứng dụng cho việc xây dựng phòng điều trị thông minh Nghiên cứu và xây dựng giải thuật nhận dạng hình trạng người ứng dụng cho việc xây dựng phòng điều trị thông minh

Trang 1

ii

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

Nguyễn Thị Thanh Mai

NGHIÊN CỨU VÀ XÂY DỰNG GIẢI THUẬT NHẬN DẠNG HÌNH TRẠNG NGƯỜI ỨNG DỤNG CHO VIỆC XÂY DỰNG PHÒNG ĐIỀU TRỊ

Trang 2

iii

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu được trích dẫn có nguồn gốc Các kết quả trình bày trong luận án là trung thực và chưa từng được ai công bố trong bất kì công trình nào khác

Tác giả luận án

Nguyễn Thị Thanh Mai

Trang 3

iv

LỜI CẢM ƠN

Lời đầu tiên, tôi xin gửi lời cảm ơn sâu sắc và chân thành tới TS Lê Thị Lan, người chị, người thầy đã tận tình hướng dẫn, chỉ bảo và động viên tôi trong suốt quá trình nghiên cứu và viết luận án để tôi có thể hoàn thành luận án này

Xin chân thành cảm ơn các đồng nghiệp tại Viện nghiên cứu Quốc tế MICA, Trường Đại học Bách Khoa Hà Nội, tập thể nhóm thực hiện Đề tài Nghị định thư đã tạo điều kiện giúp đỡ tôi trong quá trình thực hiện luận án

Cuối cùng xin bày tỏ lòng biết ơn sâu sắc tới gia đình và những người bạn đã động viên, chia sẻ, ủng hộ và là chỗ dựa tinh thần giúp tôi tập trung nghiên cứu và hoàn thành luận án của mình

Nguyễn Thị Thanh Mai

Trang 4

1

MỤC LỤC

DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT 3

DANH MỤC CÁC BẢNG 4

DANH MỤC CÁC HÌNH VẼ 5

MỞ ĐẦU 7

CHƯƠNG I GIỚI THIỆU 8

I.1 Giới thiệu chung 8

I.2 Cấu trúc luận văn 10

CHƯƠNG II TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP NHẬN DẠNG HÌNH TRẠNG NGƯỜI 11

II.1 Cách tiếp cận trong không gian hai chiều 12

II.2 Cách tiếp cận trong không gian ba chiều 19

II.3 Nhận xét 24

CHƯƠNG III XÂY DỰNG MÔ ĐUN NHẬN DẠNG HÌNH TRẠNG NGƯỜI 25

III.1 Phân tích và thiết kế hệ thống 25

III.2 Thực thi hệ thống 25

III.2.1 Tiền xử lý 26

III.2.2 Trích chọn đặc trưng 29

III.2.3 Giảm số chiều dữ liệu 31

III.2.4 Phân lớp 35

CHƯƠNG IV THỬ NGHIỆM VÀ ĐÁNH GIÁ 39

IV.1 Cơ sở dữ liệu thử nghiệm 39

IV.1.1 Thiết lập phòng thu 39

IV.1.2 Lựa chọn các lớp hình trạng 41

IV.1.3 Cơ sở dữ liệu hình trạng người 42

IV.1.4 Cơ sở dữ liệu video chứa các sự kiện bất thường 44

IV.1.5 Bố trí thư mục và quy tắc đặt tên file trong cơ sở dữ liệu 45

Trang 5

2

IV.2 Tham số thử nghiệm 46

IV.3 Độ đo đánh giá 46

IV.4 Kết quả thử nghiệm 47

IV.4.1 Thử nghiệm trên cơ sở dữ liệu ảnh hình trạng người 47

IV.4.2 Thử nghiệm trên cơ sở dữ liệu video chứa các sự kiện bất thường 53

IV.5 Nhận xét 60

CHƯƠNG V KẾT LUẬN 62

TÀI LIỆU THAM KHẢO 64

Trang 6

RBF Radial Basis Funtion

RGB Red Green Blue

SIFT Scale Invariance Feature Transform

SIFT Scale-invariant feature transform

SURF Speeded-Up Robust Features

SVM Support Vector Machine

USM Unsharp masking

Trang 7

4

DANH MỤC CÁC BẢNG

Bảng II.1-1: Tỉ lệ nhận dạng thành công cho mỗi hình trạng 18Bảng II.2-1: Bảng ma trận kết quả nhận dạng của 4 bộ phân lớp 23Bảng IV.3-1: Bảng tính toán giá trị TP, FP, FN 47Bảng IV.4-1: Bảng thông tin cơ sở dữ liệu huấn luyện lấy từ cơ sở dữ liệu hình trạng người 49Bảng IV.4-2: Bảng thông tin cơ sở dữ liệu thử nghiệm luyện lấy từ cơ sở dữ liệu hình trạng người 49Bảng IV.4-3: Ma trận kết quả của thử nghiệm phụ thuộc dữ liệu trên cơ sở dữ liệu hình trạng người 50Bảng IV.4-4: Tỉ lệ nhận dạng lỗi và độ nhạy của hệ thống khi thử nghiệm phụ thuộc

dữ liệu trên cơ sở dữ liệu hình trạng người 51Bảng IV.4-5: Ma trận kết quả của thử nghiệm độc lập dữ liệu trên cơ sở dữ liệu hình trạng người 52Bảng IV.4-6: Tỉ lệ nhận dạng lỗi và độ nhạy của hệ thống khi thử nghiệm độc lập

dữ liệu trên cơ sở dữ liệu hình trạng người 53Bảng IV.4-7: Bảng thông tin cơ sở dữ liệu huấn luyện hình trạng người có trong các

sự kiện bất thường 55Bảng IV.4-8: Bảng thông tin cơ sở dữ liệu thử nghiệm luyện hình trạng người có trong các sự kiện bất thường 56Bảng IV.4-9: Ma trận kết quả của thử nghiệm phụ thuộc dữ liệu trên cơ sở dữ liệu hình trạng người có trong các sự kiện bất thường 57Bảng IV.4-10: Tỉ lệ nhận dạng lỗi và độ nhạy của hệ thống khi thử nghiệm phụ thuộc dữ liệu trên cơ sở dữ liệu hình trạng người có trong các sự kiện bất thường 58Bảng IV.4-11: Ma trận kết quả của thử nghiệm độc lập dữ liệu trên cơ sở dữ liệu hình trạng có trong các sự kiện bất thường 59Bảng IV.4-12: Tỉ lệ nhận dạng lỗi và độ nhạy của hệ thống khi thử nghiệm độc lập

dữ liệu trên cơ sở dữ liệu hình trạng người có trong các sự kiện bất thường 60

Trang 8

5

DANH MỤC CÁC HÌNH VẼ

Hình I.1-1: Sơ đồ khối chức năng của hệ thống phát hiện sự kiện dựa trên thông tin

về ảnh 9

Hình II.1-1: Đường biên của các hình trạng khác nhau của cùng một người được trích chọn trong (Haritaoglu, Harwood et al 1998) 13

Hình II.1-2: Minh họa một số ảnh trong chuỗi video thử nghiệm khả năng nhận dạng của hệ thống Ghost 14

Hình II.1-3: Sơ đồ tổng quan về hệ thống 15

Hình II.1-4: Các hình trạng người và các hướng nhìn được xem xét trong 16

Hình II.1-5: Một số ví dụ về theo dõi đối tượng và nhận dạng hình trạng trong các điều kiện khác nhau 17

Hình II.2-1: Mô hình trong không gian ba chiều của hình trạng người ngồi và hình chiếu tương ứng của nó trên ảnh hai chiều 19

Hình II.2-2: Đường biên của hình chiếu của mô hình người trong không gian ba chiều (đường màu trắng liền nét) và đường biên của đối tượng người trong ảnh hai chiều 20

Hình II.2-3: Mô hình nhận dạng của hệ thống nhận dạng hình trạng sử dụng Kinect 22

Hình II.2-4: Vị trí 20 khớp xương được sử dụng làm đặc trưng và vị trí của người với Kinect khi thu cơ sở dữ liệu 23

Hình III.1-1: Thiết kế kiến trúc hệ thống với pha học và pha thử nghiệm 25

Hình III.2-1: Các bước xử lý của hệ thống và các thuật toán tương ứng được lựa chọn 26

Hình III.2-2: Hai bước của bước làm nét ảnh Bước 1: Phát hiện cạnh và sinh ảnh đường biên Bước 2: tăng mức độ tương phản tại đường biên 28

Hình III.2-3: a) Ảnh gốc và các ảnh sau khi đi qua các phép tiền xử lý: b) Ảnh sau khi xám hóa; c) Ảnh sau khi chuẩn hóa mức xám; d) Ảnh sai khi được làm nét 28

Hình III.2-4: Các điểm khóa được phát hiện 31

Hình III.2-5: Biểu diễn đối tượng ảnh sử dụng mô hình BOW 33

Hình III.2-6: Từ điển BOW với kích thước 256 được lưu trữ trong file XML 34

Trang 9

6

Hình III.2-7: Mô tả biểu diễn dữ liệu của SVM trong không gian, mỗi mẫu dữ liệu được biểu diễn trong không gian như các điểm đen và trắng 35Hình III.2-8: Ánh xạ dữ liệu từ không gian gốc sang không gian đặc trưng cho phép phân chia dữ liệu bởi siêu phẳng 36Hình III.2-9: Siêu phẳng tách với khoảng cách lề cực đại 37Hình IV.1-1: Bố trí của phòng giả lập và vị trí của các camera được lắp đặt 39Hình IV.1-2: Vùng quan sát của các camera được lắp đặt tại phòng giả lập của Viện MICA, lần lượt từ trái qua phải: camera 1, camera 2, camera 3 40Hình IV.1-3: Minh họa một số ảnh trong cơ sở dữ liệu được thu trong đề tài 43Hình IV.1-4: Một số hình ảnh của người trong cơ sở dữ liệu video chứa các sự kiện bất thường 44Hình IV.4-1: Một vùng ảnh chứa người được đánh dấu bằng tay sử dụng công cụ Object Marker 48Hình IV.4-2: a) Các kết quả phân vùng sai và b) Các kết quả phân vùng không chứa đầy đủ cơ thể người sẽ bị loại bỏ 54Hình IV.4-3: Một số ảnh trong cơ sở dữ liệu hình trạng người có trong các sự kiện bât thường 55

Trang 10

7

MỞ ĐẦU

Bài toán nhận dạng hình trạng người hiện nay thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu bởi những ứng dụng mà kết quả của nó đem lại như các ứng dụng giám sát, các ứng dụng điều khiển, các ứng dụng về phân tích và hiểu hành

vi của con người … Nghiên cứu trong đề tài nhằm mục đích thử nghiệm một phương pháp nhận dạng hình trạng của toàn bộ cơ thể người Kết quả nhận dạng hình trạng người được xây dựng trong đề tài sẽ được sử dụng trong bước xử lý tiếp theo là nhận dạng sự kiện, phân tích hành vi của người bệnh từ đó có thể hỗ trợ bác sĩ và người nhà chăm sóc và giám sát bệnh nhân trong bệnh viện

Đề tài sẽ nghiên cứu các phương pháp nhận dạng hình trạng người đã tồn tại trên thế giới từ đó đề xuất thử nghiệm một phương pháp nhận dạng hình trạng người

có khả năng nhận dạng bốn lớp hình trạng cơ bản của người trên ảnh là người đứng, người ngồi, người nằm, người cúi trên vùng người đã được phát hiện trên ảnh sử dụng đặc trưng SURF và mô hình máy học SVM

Kết quả của đề tài bao gồm:

 Báo cáo luận văn

 Cơ sở dữ liệu hình trạng người

 Mô đun chương trình nhận dạng hình trạng người dựa trên các điểm đặc biệt được trích chọn trên vùng chứa người được phát hiện trên ảnh

 Bài báo tham gia Hội thảo Quốc tế Commantel 2013 được tổ chức vào

tháng 1/2013 có tên “Human posture recognition using human skeleton provided by Kinect”

Trang 11

8

CHƯƠNG I GIỚI THIỆU

I.1 Giới thiệu chung

Một hình trạng người có thể được hiểu là một tư thế của một phần cơ thể người như: tư thế của đầu, tư thế của bàn tay … hoặc của toàn bộ cơ thể người Nhận dạng hình trạng người là phát hiện và phân lớp hình trạng của người vào các lớp khác nhau Bài toán nhận dạng hình trạng người hiện nay thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu bởi những ứng dụng mà kết quả của nó đem lại Có thể kể ra các loại ứng dụng:

- Các ứng dụng giám sát: theo dõi một hoặc một vài người trong một khoảng thời gian để phân tích hành vi của họ Các hệ thống giám sát dựa trên video

là một ví dụ điển hình của loại ứng dụng này Trong đó, có thể kể đến các

hệ thống giám sát người già được lắp đặt tại các ngôi nhà thông minh (smart home) hay các hệ thống giám sát người bệnh trong phòng điều trị để hỗ trợ chăm sóc bệnh nhân

- Các ứng dụng điều khiển: sử dụng thông tin về hình trạng của người như một chức năng điều khiển Ví dụ, người có thể tương tác với máy tính thông qua một giao diện người – máy thông minh có thể nhận dạng để hiểu các

cử chỉ điều khiển của người thông qua một camera thay vì tương tác qua các thiết bị ngoại vi như chuột hay bàn phím

- Các ứng dụng phân tích cần thông tin chính xác về hình trạng người ví dụ các ứng dụng trong chỉnh hình của y tế, mô phỏng tư thế của người trong thực tại ảo

Nghiên cứu trong đề tài nhằm mục đích thử nghiệm một phương pháp nhận dạng hình trạng của toàn bộ cơ thể người để phát hiện các sự kiện bất thường của người bệnh tại phòng điều trị thông minh

Nghiên cứu trong đề tài này nằm trong khuôn khổ nghiên cứu của đề tài Nghị

định thư “Nghiên cứu, ứng dụng CNTT trong xây dựng hệ thống giám sát, hỗ trợ

Trang 12

9

chăm sóc bệnh nhân tại phòng điều trị thông minh” được thực hiện bởi Viện nghiên

cứu quốc tế MICA, Trường đại học Bách Khoa Hà Nội Mục tiêu của đề tài này là xây dựng một hệ thống giám sát, và hỗ trợ chăm sóc bệnh nhân tại phòng điều trị thông minh dựa trên các thông tin về âm thanh và hình ảnh Thông tin về hình ảnh sẽ được thu nhận từ hệ thống camera giám sát được lắp đặt trong phòng bệnh Sơ đồ khối của hệ thống phát hiện sự kiện dựa trên thông tin về hình ảnh được mô tả trong Hình I.1-1 Hệ thống có hai khối chính: khối phân tích video và khối nhận dạng sự kiện Khối phân tích video nhận đầu vào là các video và trả về các kết quả phân tích video: vị trí của đối tượng, lớp hình trạng của đối tượng, sự thay đổi hình trạng … Khối nhận dạng sự kiện sẽ dựa trên các thông tin này để mô hình hóa sự kiện và nhận dạng 4 lớp sự kiện cần quan tâm bao gồm:

- Bệnh nhân ngã

- Bệnh nhân vắng mặt quá lâu

- Bệnh nhân ở trong nhà tắm quá lâu

- Bệnh nhân nằm bất động quá lâu

Hình I.1-1: Sơ đồ khối chức năng của hệ thống phát hiện sự kiện dựa trên thông tin

về ảnh

Trang 13

I.2 Cấu trúc luận văn

Nội dung của báo cáo được tổ chức như sau:

 Chương I: Giới thiệu về bài toán nhận dạng hình trạng người được nghiên cứu trong đề tài

 Chương II: Nghiên cứu tổng quan về các phương pháp nhận dạng hình trạng người đã tồn tại

 Chương III: Trình bày mô hình hệ thống đề xuất, các phương pháp được lựa chọn để giải quyết bài toán

 Chương IV: Thử nghiệm và đánh giá kết quả của hệ thống trên cơ sở dữ liệu được xây dựng tại Viện nghiên cứu quốc tế MICA

 Chương V: Kết luận

Trang 14

11

CHƯƠNG II TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP NHẬN

DẠNG HÌNH TRẠNG NGƯỜI

Để nhận dạng hình trạng người, điều đầu tiên là cần thu nhận được thông tin

về trạng thái của cơ thể người Thông tin này có thể thu được bằng nhiều loại thiết bị khác nhau Dựa trên loại thiết bị được sử dụng để thu nhận thông tin, có thể phân lớp các phương pháp nhận dạng hình trạng người thành hai nhóm:

 Các phương pháp sử dụng cảm biến vật lí: cảm biến gia tốc, cảm biến chuyển động, găng tay cảm biến … để nhận biết trạng thái của cơ thể người

 Các phương pháp sử dụng cảm biến hình ảnh (các phương pháp dựa trên thị giác): sử dụng một hay nhiều cảm biến hình ảnh để thu nhận hình ảnh của người và dựa trên phân tích ảnh để nhận biết trạng thái của cơ thể người Mỗi loại cảm biến đều có ưu và nhược điểm riêng Phương pháp sử dụng các loại cảm biến vật lý được gắn trực tiếp lên cơ thể người thường có độ chính xác cao, cho phép phát hiện dễ dàng hơn các sự kiện tinh tế, ít biểu hiện ra ngoài và khó quan sát được bởi mắt thường Ví dụ cảm biến chuyển động cho phép phát hiện một người vừa ngồi và vừa có hoạt động nào đó Trong khi với camera thì để phát hiện ra một người vừa ngồi và vừa có hoạt động khác là khó khăn và không phải lúc nào cũng thực hiện được (tùy vào mức độ chi tiết của giải thuật và khả năng quan sát của camera) Tuy nhiên, việc đòi hỏi phải đeo cảm biến trên người trong một khoảng thời gian dài sẽ gây bất tiện cho người sử dụng Một số loại cảm biến vật lý còn có thể gây ra các nguy cơ về sức khỏe như dị ứng do tiếp xúc với cảm biến hoặc nguy cơ gây ung thư với các cảm biến sử dụng sóng điện từ

Với phương pháp dựa trên thị giác sử dụng các cảm biến hình ảnh, người không phải đeo hay mang trên người bất kỳ một loại thiết bị nào Camera có thể cho

dữ liệu liên tục nhưng phương pháp này sẽ gặp những khó khăn khi các yếu tố của môi trường thu nhận ảnh thay đổi như: điều kiện sáng, góc thu nhận, sự che khuất, bóng của đối tượng Người sử dụng đôi khi không thực sự cảm thấy thoải mái khi biết rằng họ bị theo dõi bởi các camera

Trang 15

12

Mô đun được xây dựng trong đề tài này nhận dạng hình trạng người dựa trên hình ảnh nên báo cáo sẽ tập trung nghiên cứu các phương pháp dựa trên thị giác Trong nhóm phương pháp dựa trên thị giác, các phương pháp lại có thể khác nhau về:

- Mô hình nhận dạng

- Không gian biểu diễn đối tượng trong ảnh: hai chiều, ba chiều

- Kiểu cảm biến hình ảnh: hồng ngoại, camera bắt sáng …

- Số lượng của cảm biến hình ảnh được sử dụng: một hay nhiều cảm biến hình ảnh

- Camera tĩnh hay camera động

Trong chương này, các phương pháp sẽ được phân loại thành hai nhóm dựa trên không gian biểu diễn và mô hình hóa đối tượng là các phương pháp nhận dạng hình trạng người dựa trên sự xuất hiện trong không gian hai chiều và các phương pháp nhận dạng hình trạng người trong không gian ba chiều để nghiên cứu

II.1 Cách tiếp cận trong không gian hai chiều

Trong (Haritaoglu, Harwood et al 1998) và (Goldmann, Karaman et al 2004), các tác giả sử dụng phân bố chiếu làm đặc trưng để nhận dạng hình trạng người Phân

bố chiếu là một đặc trưng thường được sử dụng trong phân tích hình dáng Phân bố chiếu cho phép mô tả một vùng của đối tượng bằng cách chiếu các điểm ảnh của vùng này lên tọa độ đề các theo phương dọc và phương ngang Phân bố chiếu là một đặc trưng bất biến với tỉ lệ, nhưng lại bị ảnh hưởng bởi phép quay Để so sánh hai phân

bố ta có thể sử dụng các hàm đo khoảng cách như Minkowski khác nhau như max, Manhattan và khoảng cách Euclidian Trước khi nhận dạng hình trạng người, hệ thống được đề xuất trong (Haritaoglu, Harwood et al 1998), (Goldmann, Karaman et

al 2004) đều có một mô đun phân tách vùng người ra khỏi ảnh và trả về hình bóng của người trong ảnh Để tách vùng người ra khỏi nền, cả hai hệ thống đều sử dụng phương pháp trừ nền của ảnh đang xét cho ảnh chỉ chứa phông nền (do camera tĩnh

Trang 16

13

và phông nền không có sự thay đổi) Ảnh trừ nền sau đó được phân ngưỡng nhị phân, lọc nhiễu, trích chọn đường biên, loại bỏ các vùng có đường biên không đủ lớn để lựa chọn ra vùng hình bóng của người trong ảnh Hình II.1-1 chỉ ra đường biên của các hình trạng của cùng một người được trích chọn trong (Haritaoglu, Harwood et al 1998) Các hình bóng sau khi thu được sẽ được chuẩn hóa bằng cách co giãn chiều dọc của hình bóng về một kích thước chung và giữ nguyên tỉ lệ chiều ngang và chiều dọc của hình bóng Hình bóng sau khi chuẩn hóa sẽ là đầu vào cho mô đun nhận dạng hình trạng người để tính toán phân bố chiếu Mỗi hình trạng sẽ được biểu diễn bởi một cặp hình chiếu ngang và hình chiếu dọc

Hình II.1-1: Đường biên của các hình trạng khác nhau của cùng một người được

trích chọn trong (Haritaoglu, Harwood et al 1998)

Trong (Haritaoglu, Harwood et al 1998), hệ thống được xây dựng có tên là Ghost Mô đun nhận dạng hình trạng có nhiệm vụ cung cấp thông tin về hình trạng người và hướng tương đối giữa người và camera để hệ thống gán nhãn các phần trên

cơ thể người Có 4 lớp hình trạng: đứng, ngồi, nằm, cúi và ba góc nhìn tương đối của camera so với người: chính diện, nghiêng trái và nghiêng phải được nhận dạng Một tập các mô hình của hình chiếu ngang và dọc của các hình bóng người cho từng lớp hình trạng với từng góc nhìn cụ thể sẽ được xây dựng 4500 hình bóng của 7 người ở

3 hướng nhìn khác nhau được sử dụng để tính toán mô hình chính là hình chiếu ngang

và dọc trung bình cho mỗi lớp hình trạng Sau đó, với mỗi ảnh chứa hình trạng cần nhận dạng, đầu tiên, vùng hình bóng của người được phân tách khỏi ảnh Hệ thống tính toán hình chiếu của hình bóng người đang xét và so sánh với các mô hình hình chiếu đã có để đưa ra kết quả là hình trạng người và hướng nhìn tương đồng nhất

Trang 17

14

Ghost phân lớp theo mô hình phân cấp: phân lớp theo hình trạng, với mỗi hình trạng phân lớp vào 1 trong 3 hướng nhìn

Kết quả nhận dạng được thử nghiệm với hai chuỗi video (Hình II.1-2) Chuỗi

1 chứa 1750 khung hình, ghi lại hình ảnh một người đàn ông thực hiện một số hành động đơn giản ở ngoài trời Chuỗi 2 chứa 750 khung hình, ghi lại cảnh một người phụ

nữ thực hiện chuỗi hành động: đi lại – ngồi – đi lại Trong quá trình thực hiện hành động của người trong chuỗi video, hệ thống sẽ đánh dấu vị trí các khung hình mà tại

đó người ở một trong các hình trạng cần nhận dạng Kết quả nhận dạng cho chuỗi video 1 và 2 lần lượt là 95% và 98% hình trạng được nhận dạng đúng

a) Chuỗi video 1

b) Chuỗi video 2 Hình II.1-2: Minh họa một số ảnh trong chuỗi video thử nghiệm khả năng nhận

dạng của hệ thống Ghost

Trong (Goldmann, Karaman et al 2004), các tác giả đề xuất một hệ thống nhận dạng hình trạng người dựa trên đặc trưng MPEG – 7 Sơ đồ của hệ thống được

đề xuất trong được chỉ ra trong Hình II.1-3 gồm 5 mô đun

Sau khi phân vùng và lựa chọn được vùng đối tượng người ra khỏi ảnh bởi mô đun phân vùng và phát hiện đối tượng Các đối tượng sẽ được trích chọn đặc trưng phân bố chiếu tương tự trong Ghost Trong hệ thống này, tác giả sử dụng 2 phân bố

100 chiều do đó kích thước của véc tơ đặc trưng cho phân bố chiếu là 200

Trang 18

15

Hình II.1-3: Sơ đồ tổng quan về hệ thống

Ngoài đặc trưng về phân bố chiếu, trong (Goldmann, Karaman et al 2004), các tác giả còn đề xuất sử dụng bộ mô tả hình dạng đường biên (CBSD) là một trong những bộ mô tả hình dạng dựa trên chuẩn MPEG – 7 (Zhang and Lu 2003) để trích rút đặc trưng về đường biên của hình chiếu Để mô tả đường biên dựa trên chuẩn MPEG-7, người ta sử dụng một ảnh CSS cho mỗi đường biên Để sinh ảnh CSS biểu diễn cho một đường biên, bắt đầu từ một điểm bất kì trên đường biên, chọn lấy N điểm cách đều nhau Tọa độ theo trục x và tọa độ theo trục y của N điểm được chọn

sẽ được nhóm thành hai chuỗi X và Y Đường biên sau đó sẽ được làm mịn dần bằng cách lặp lại việc áp dụng bộ lọc thông thấp có nhân (0.25,0.5,0.25) lên hai chuỗi X

và Y của N điểm được chọn Kết quả của phép làm mịn sẽ làm đầy dần các vùng lõm

và đường biên sẽ dần và trở thành một đường cong lồi Ảnh CSS có chiều ngang tương ướng với các điểm được lựa chọn để biểu diễn trên đường biên (1,…N) và chiều dọc là số lượng các phép lọc cần áp dụng lên điểm đó trong quá trình làm mịn đường cong Bộ mô tả hình dạng dựa trên đường biên bất biến với các phép quay, tỉ

lệ và lấy đối xứng Các đặc trưng này cũng tỏ ra hiệu quả với các nhiễu đường biên

Để so sánh các hình dáng dựa trên các đặc trưng này, các tác giả một độ đo đặc biệt được đề xuất trong chuẩn MPEG-7 Pha phân lớp sử dụng đặc trưng MPEG – 7 sẽ phân lớp đối tượng sử dụng thuật toán K láng giềng gần nhất

Hình II.1-4 minh họa 4 hình trạng cơ bản được xem xét trong (Goldmann, Karaman et al 2004) gồm các hình trạng: đứng, cúi, ngồi, nằm và 4 hướng nhìn tương đối giữa người và camera: hướng nhìn từ phía trước (0o), hướng nhìn từ phía bên phải

Trang 19

16

(90o), hướng nhìn từ phía sau (180o), hướng nhìn từ phía bên trái (270o) được xem xét trong hệ thống

Hình II.1-4: Các hình trạng người và các hướng nhìn được xem xét trong

Mục tiêu của hệ thống là phân lớp các hình trạng theo hình trạng và theo góc nhìn Việc phân lớp có thể được thực hiện theo phương pháp phân cấp hoặc không phân cấp Phương pháp không phân cấp cần 16 bộ phân lớp đơn lẻ, mỗi bộ cho phép phân lớp 1 hình trạng ở 1 hướng nhìn Phương pháp phân lớp phân cấp có thể thực hiện theo thứ tự: phân lớp theo hình trạng sau đó đến hướng nhìn hoặc phân lớp theo hướng nhìn sau đó đến hình trạng

Trong (Chella, Dindo et al 2006) các tác giả đề xuất một phương pháp theo dõi và nhận dạng hình trạng người cho bài toán tương tác người và robot dựa trên đặc trưng trị riêng, véc tơ riêng Hệ thống sử dụng một camera màu, để thu nhận hình ảnh của người trong một bối cảnh cố định và không có sự ràng buộc về kiểu chuyển động

và sự xuất hiện của người Có hai pha trong hệ thống Pha phát hiện và theo dõi sử dụng bộ lọc hạt số với giải thuật Condensation cho hiệu quả cao trong môi trường phức tạp sẽ phân tách ra vùng người cần nhận dạng trong ảnh Pha nhận dạng hình trạng người sử dụng một kĩ thuật cải tiến của không gian véc tơ riêng, nhận dạng hình trạng người trên vùng ảnh tương ứng với người được trả ra bởi pha phát hiện và theo

Trang 20

17

dõi Sử dụng PCA để giảm số chiều dữ liệu, với 7 lớp hình trạng người thường được

sử dụng trong tương tác người-robot, phương pháp không gian véc tơ riêng đã được thử nghiệm thành công chỉ với 12 véc tơ riêng biểu diễn cho mỗi ảnh có phông nền đồng đều Pha nhận dạng hình trạng người sẽ tiến hành ước lượng và nhận dạng mỗi khi người được phát hiện và theo dõi (bởi pha theo dõi) Khi phát hiện ra hiện tượng che lấp (các vùng bao đóng của các đối tượng bị trùng nhau), pha nhận dạng sẽ không hoạt động Trong trường hợp này, hình trạng được nhận dạng ở thời điểm trước khi xảy ra hiện tượng che lấp sẽ được sử dụng Hình II.1-5 chỉ ra một số hình ảnh khi thu nhận cơ sở dữ liệu hình trạng người để thử nghiệm kết quả của hệ thống và các hình bóng tương ứng với hình trạng người đó được phân tách bởi pha phát hiện và theo dõi Các hình bóng của người sẽ được sử dụng để huấn luyện và nhận dạng trong pha nhận dạng

Hình II.1-5: Một số ví dụ về theo dõi đối tượng và nhận dạng hình trạng trong các

điều kiện khác nhau

Bảng II.1-1 chỉ ra kết quả nhận dạng cho mỗi hình trạng của hệ thống được đề xuất trong Tỉ lệ nhận dạng trung bình của hệ thống là 95% , kết quả này cho phép

có thể sử dụng hệ thống vào các ứng dụng thực tế

Trang 21

18

Bảng II.1-1: Tỉ lệ nhận dạng thành công cho mỗi hình trạng

Hình trạng Tỉ lệ nhận dạng

Dừng lại (giang hai tay sang hai bên) 96%

Tỉ lệ nhận dạng trung bình 95.07%

Iwasawa và các cộng sự [5] đề xuất một phương pháp bao gồm ba bước Bước đầu tiên là xác định trọng tâm của hình bóng của người bước hai tính toán hướng của nửa thân trên của người Sau đó, các điểm như bàn chân, bàn tay, khuỷu tay và đầu gối sẽ được ướng lượng sử dụng phép phân tích đường biên gần đúng của hình bóng người

Bobick and Davis [1] sử dụng các mẫu tạm thời được xây dựng từ một tập các khung hình kế tiếp Phương pháp này sẽ biểu diễn chuyển động của người trong một chuỗi ảnh sử dụng ảnh năng lượng (MEI) và ảnh lịch sử chuyển động (MHI) Các ảnh chuyển động được tính toán bằng cách trừ các khung hình kế tiếp được phân ngưỡng về giá trị nhị phân Các ảnh chuyển động sẽ được tích lũy theo thời gian dưới dạng ảnh MEI Các ảnh MEI được nâng cao thành ảnh MHI, trong đó mỗi giá trị điểm ảnh tỉ lệ với chuyển động tại vị trí đó Các đặc trưng dựa trên mô men được trích chọn

từ MEI và MHI và được sử dụng cho nhận dạng sử dụng phương pháp so khớp mẫu

Trang 22

19

II.2 Cách tiếp cận trong không gian ba chiều

Phổ biến nhất trong cách tiếp cận trong không gian ba chiều là xây dựng một

mô hình của người trong không gian ba chiều và chiếu mô hình của người lên không gian hai chiều để thu được biểu diễn của người trong không gian hai chiều khớp với thông tin của người trong ảnh hai chiều đang xét

Trong (Boulay, Bremond et al 2003), các tác giả xây dựng một mô hình của người trong không gian ba chiều từ các đối tượng hình học bao gồm: hình hộp (4), hình cầu (9), hình nón (10) Mỗi hình trạng của người được xác định bằng một tập

111 tham số tương ứng với hướng và vị trí của tất cả các đối tượng hình học trên

Hình II.2-1: Mô hình trong không gian ba chiều của hình trạng người ngồi và hình

chiếu tương ứng của nó trên ảnh hai chiều

Để nhận dạng hình trạng người trong video, trước tiên, hệ thống sử dụng thư viện có tên là VSIP (Visual Surveillance Intelligent Platfom) để phát hiện các đối tượng chuyển động trong ảnh Các đối tượng chuyển động này sẽ được biểu diễn dưới dạng các blob trên ảnh nhị phân, sau đó, được phân lớp vào các lớp đối tượng người,

xe cộ … và được theo vết trong suốt video Tại mỗi khung hình, nếu đối tượng người được phát hiện có trong ảnh, hướng và vị trí của người trong không gian ba chiều sẽ được tính toán dựa trên các thông tin về cảnh và tham số của camera Mô hình của người trong không gian ba chiều sẽ mô phỏng lại người ở đúng vị trí và hướng đó so với camera sau đó hình chiếu của mô hình người sẽ được chiếu lên không gian hai

Trang 23

20

chiều để thu được một blob của người trong ảnh hai chiều Blob này sẽ được sử dụng

để so sánh với blob của người có trong ảnh đang xét sử dụng một trong hai phương pháp nhận dạng hình trạng người trong không gian hai chiều mà hệ thống đề xuất dựa trên phân bố chiếu và mật độ các điểm ảnh chuyển động của blob Hình II.2-1 minh họa mô hình của hình trạng người ngồi trong không gian ba chiều và hình chiếu tương ứng của nó trên ảnh hai chiều

Hệ thống đạt tỉ lệ nhận dạng thành công trung bình là 80% trên bảy lớp hình trạng được chia thành ba nhóm là:

- Nhóm các hình trạng đứng: người đứng với hai tay áp sát người, người đứng với tay trái giơ sang ngang, người đứng với tay phải giơ sang ngang, người đứng với hai tay giơ sang ngang (hình chữ T)

- Nhóm các hình trạng ngồi: người ngồi trên trên ghế và người ngồi trên nền nhà

- Nhóm hình trạng cúi: người cố gắng nhặt một đồ vặt nằm trên nền nhà

Hình II.2-2: Đường biên của hình chiếu của mô hình người trong không gian ba chiều (đường màu trắng liền nét) và đường biên của đối tượng người trong ảnh hai

chiều

Trang 24

21

Tương tự, trong (Delamarre and Faugeras 1999), các tác giả đề xuất một mô hình của người trong không gian ba chiều từ các đối tượng hình học là hình hộp, hình cầu và hình nón Các khớp trên cơ thể người cũng được mô phỏng để mô hình có thể biểu diễn linh hoạt các cử động của người Giải thuật đề xuất trong (Delamarre and Faugeras 1999) sẽ chiếu mô hình người lên không gian hai chiều để tìm một so khớp giữa đường biên của mô hình người trong không gian ba chiều với đường biên của người phát hiện được trong ảnh Trong Hình II.2-2, chỉ ra một so khớp giữa đường biên của hình chiếu của mô hình người trong không gian ba chiều (đường màu trắng liền nét) và đường biên của đối tượng người trong ảnh hai chiều

Ngoài cách tiếp cận dựa trên xây dựng mô hình người trong không gian ba chiều, hiện nay, với sự phổ biến của Kinect, thông tin về độ sâu của người trong ảnh thu được bởi Kinect cũng là một đặc trưng được sử dụng rộng rãi Trong (Patsadu, Nukoolkit et al 2012), các tác giả đề xuất sử dụng đặc trưng là tọa độ của 20 khớp xương người trong không gian ba chiều được xác định bằng Kinect để nhận dạng 3 lớp hình trạng: đứng, ngồi và nằm Có 4 bộ phân lớp được thử nghiệm để so sánh khả năng nhận dạng, bao gồm:

- Mạng nơ ron lan truyền ngược ba lớp: lớp đầu vào 60 nốt, lớp ẩn 10 nốt, lớp đầu ra 3 nốt tương ứng với 3 lớp hình trạng cần nhận dạng

- Cây quyết định xây dựng bởi giải thuật CART

- Mô hình Bayes

- Máy véc tơ hỗ trợ (SVM) với nhân polynomial

Hình II.2-3 chỉ ra quá trình xử lý của hệ thống nhận dạng hình trạng người sử dụng Kinect Để nhận dạng hình trạng người, mỗi bộ phân lớp đều gồm hai pha: pha học và pha nhận dạng Cả 2 pha này đều nhận đầu vào là các véc tơ chứa tọa độ của

20 khớp xương người thu ở cả hai khoảng cách 2m và 3m Để giải quyết vấn đề về tỉ

lệ khi thu ở các khoảng cách khác nhau, các véc tơ sẽ được chuẩn hóa sử dụng phép chuẩn hóa Z-score

Trang 25

22

Hình II.2-3: Mô hình nhận dạng của hệ thống nhận dạng hình trạng sử dụng Kinect

Để thử nghiệm, các tác giả xây dựng cơ sở dữ liệu với sự tham gia của 6 người:

3 nam và 3 nữ với chiều cao và cân nặng khác nhau Người tham gia thu sẽ đứng trước Kinect để thu nhận hình ảnh của 3 lớp hình trạng: đứng, nằm và ngồi ở 2 khoảng cách: 2m và 3m Kinect được đặt ở độ cao 1m (Hình II.2-4)

Tập dữ liệu huấn luyện gồm 1200 véc tơ (mỗi véc tơ biểu diễn một hình trạng người trên một ảnh) * 3 lớp hình trạng * 2 khoảng cách = 7200 véc tơ

Tập dữ liệu thử nghiệm chứa 600 véc tơ (mỗi véc tơ biểu diễn một hình trạng người trên một ảnh) * 3 lớp hình trạng * 2 khoảng cách = 3600 véc tơ

Kết quả thử nghiệm với 4 bộ phân lớp trên tập dữ liệu trên được chỉ ra trong Bảng II.2-1 Nhìn vào bảng ta thấy, mạng nơ ron lan truyền ngược cho kết quả nhận dạng cao nhất trên tập dữ liệu thử nghiệm với độ nhận dạng chính xác 100% SVM cho kết quả nhận dạng cao thứ hai với độ chính xác 99.75% Cây quyết định đạt độ chính xác thấp hơn với tỉ lệ 93.19% Các tác giả cũng chỉ ra rằng, cây quyết định gặp sai sót khi khó phân biệt được hình trạng đứng của người có chiều cao thấp với hình

Trang 26

23

trạng ngồi của người có chiều cao cao Mô hình Bayes với các tham số mặc định KNIME có độ chính xác 81.94% Nhận dạng sai xảy ra do Bayes coi các đặc trưng

có xác suất phân bộ độc lập, điều đó không đúng với tập dữ liệu này

Vị trí 20 khớp xương Vị trí của người và Kinect khi thu cơ sở dữ

liệu Hình II.2-4: Vị trí 20 khớp xương được sử dụng làm đặc trưng và vị trí của người

với Kinect khi thu cơ sở dữ liệu Bảng II.2-1: Bảng ma trận kết quả nhận dạng của 4 bộ phân lớp

Trang 27

24

II.3 Nhận xét

Nhược điểm của các phương pháp dựa trên sự xuất hiện trong không gian hai chiều là sự phụ thuộc vào hướng nhìn Cùng một hình trạng người, ở các góc nhìn khác nhau thì sự xuất hiện của hình trạng đó trong ảnh có thể khác nhau Tuy nhiên các phương pháp này có chi phí thấp và đáp ứng được thời gian thực

Các phương pháp nhận dạng hình trạng người trong không gian ba chiều, hầu hết giải quyết được vấn đề phụ thuộc vào hướng nhìn tuy nhiên lại đòi hỏi chi phí cao trong việc sử dụng các thiết bị thu nhận, tính toán mô hình của người trong không gian ba chiều

Trong đề tài này, phương pháp được lựa chọn để thử nghiệm sẽ dựa trên sự xuất hiện của người trong không gian hai chiều với các ảnh và video được thu nhận

từ các camera màu

Trang 28

25

CHƯƠNG III XÂY DỰNG MÔ ĐUN NHẬN DẠNG HÌNH

TRẠNG NGƯỜI

III.1 Phân tích và thiết kế hệ thống

Kiến trúc của hệ thống được mô tả trong Hình III.1-1, bao gồm các bước khác nhau Đầu ra của bước trước sẽ là đầu vào của bước kế tiếp

Hệ thống bao gồm hai pha chính: pha học và pha thử nghiệm Mỗi pha đều bao gồm một chuỗi các xử lý: tiền xử lý, trích chọn đặc trưng, giảm số chiều dữ liệu

và phân lớp Sự khác nhau giữa pha học và pha thử nghiệm là ở dữ liệu đầu vào và đầu ra cuối cùng của mỗi pha Dữ liệu đầu vào cho pha học (tập dữ liệu học) và pha thử nghiệm (tập dữ liệu thử nghiệm) là hoàn toàn tách biệt Trong pha học, đầu ra cuối cùng là một tập các đặc trưng được học từ tập dữ liệu học Trong pha thử nghiệm, đầu ra là nhãn lớp của đối tượng cần phân lớp trong ảnh

Hình III.1-1: Thiết kế kiến trúc hệ thống với pha học và pha thử nghiệm

Mô tả chi tiết của mỗi bước xử lý trong hệ thống sẽ được mô tả chi tiết trong phần thực thi hệ thống của chương này

III.2 Thực thi hệ thống

Hệ thống được cài đặt bằng ngôn ngữ C++ trên bộ công cụ Visual Studio 2010

và sử dụng thư viện OpenCV 2.4.6 (http://opencv.org/) OpenCV là một thư viện mã

Trang 29

26

nguồn mở về thị giác máy tính và học máy Thư viện có hơn 2.500 thuật toán được tối ưu hóa từ các phép xử lý cơ bản trên ảnh như xám hóa, co giãn ảnh, tính toán biểu

đồ màu … ; các thuật toán trích chọn các đặc trưng ảnh như: Haarlike, SIFT, SURF

và các thuật toán phân lớp dữ liệu như: ANN, KNN, Adaboost, SVM …

Mô hình của hệ thống với các giải thuật tương ứng được lựa chọn cho mỗi bước xử lý được mô tả trong Hình III.2-1 Chi tiết của mỗi bước và lí do lựa chọn thuật toán sẽ được trình bày trong phần dưới

Hình III.2-1: Các bước xử lý của hệ thống và các thuật toán tương ứng được lựa

chọn

III.2.1 Tiền xử lý

Pha tiền xử lý bao gồm ba bước chính:

- Xám hóa ảnh: biến đổi từ ảnh gốc về ảnh đa mức xám

- Chuẩn hóa ảnh: chuẩn hóa các giá trị điểm ảnh trong ảnh đa mức xám về miền giá trị mới để nâng cao chất lượng ảnh

- Làm nét ảnh: Làm nổi bật các chi tiết cục bộ của ảnh để nâng cao độ chính xác của pha trích chọn đặc trưng

III.2.1.1 Xám hóa ảnh

Ảnh xám (ảnh đa mức xám) là một ảnh số mà trong đó mỗi điểm ảnh được biểu diễn duy nhất bởi một giá trị mang thông tin về cường độ sáng Giá trị điểm ảnh biến đổi từ cường độ sáng yếu nhất (màu đen) cho đến cường độ sáng mạnh nhất (màu trắng)

Trang 30

27

Một phương pháp phổ biến để biến đổi ảnh màu thảnh ảnh xám là ánh xạ mỗi

bộ giá trị cường độ sáng biểu diễn một điểm ảnh trong ảnh màu về một giá trị cường

độ sáng biểu diễn điểm ảnh tương ứng trong ảnh xám Trong hệ thống này, để biến đổi ảnh màu về ảnh xám, công thức sau được sử dụng:

Y’ = 0.299R + 0.587G + 0.144B

Trong đó:

- Y’ là cường độ sáng của một điểm ảnh trong ảnh xám

- R, G, B lần lượt là giá trị của các kênh màu đỏ, kênh màu xanh lá cây và kênh màu xanh da trời trong ảnh màu

III.2.1.2 Chuẩn hóa ảnh

Chuẩn hóa ảnh là phép biến đổi các giá trị cường độ sáng của ảnh về miền giá trị mới cho phép cân bằng mức xám và nâng cao độ tương phản của ảnh, làm nổi bật hơn các hình trạng cần nhận dạng trong ảnh

Phép biến đổi trên một ảnh đa mức xám n chiều có biểu diễn toán học như sau:

- Cho ảnh gốc có miền giá trị cường độ sáng của các điểm ảnh trong khoảng {𝑀𝑖𝑛, , 𝑀𝑎𝑥}

III.2.1.3 Làm nét ảnh

Làm nét ảnh (Unsharp masking) là một kĩ thuật trong xử lý ảnh số để làm rõ nét hơn các chi tiết của ảnh Mục đích của bước tiền xử lý này là làm rõ nét đường biên của người trong ảnh

Trang 31

28

Làm nét ảnh được thực hiện bằng cách kết hợp hai ảnh: ảnh ban đầu được gọi

là ảnh negative và một phiên bản làm mờ của ảnh ban đầu gọi là ảnh positive

Đầu tiên, ta tạo ra ảnh positive bằng cách áp dụng bộ lọc Gaussian lên ảnh negative Công thức của hàm Gaussian được biểu diễn như sau:

𝐺(𝑥) = 1

√2𝜋𝜎2𝑒−

𝑥22𝜎2

Sau đó, xác định ảnh đường biên bằng cách trừ ảnh positive cho ảnh negative Ảnh đường biên được xem là một mặt nạ cho phép xác định các vùng cần tăng độ nét

ở trong ảnh ban đầu Chi tiết về các bước tính toán được biểu diễn trong Hình III.2-2

Hình III.2-2: Hai bước của bước làm nét ảnh Bước 1: Phát hiện cạnh và sinh ảnh

đường biên Bước 2: tăng mức độ tương phản tại đường biên

Hình III.2-3: a) Ảnh gốc và các ảnh sau khi đi qua các phép tiền xử lý: b) Ảnh sau khi xám hóa; c) Ảnh sau khi chuẩn hóa mức xám; d) Ảnh sai khi được làm nét

Trang 32

29

III.2.2 Trích chọn đặc trưng

Đặc trưng SURF (Speed Up Robust Features) được sử dụng để biểu diễn hình trạng người trong đề tài SURF là một đặc trưng được sử dụng hiệu quả trong nhận dạng đối tượng dựa trên các điểm bất động Lý thuyết về điểm bất động đã được nghiên cứu nhiều trong toán học và vật lý Việc nghiên cứu áp dụng lý thuyết này để trích chọn các đặc trưng phục vụ cho nhận dạng đối tượng trong xử lý ảnh là hướng tiếp cận mới và có nhiều hứa hẹn nhất là đối với các đối tượng có sự biến đổi về kích thước, hình dạng, bị che khuất một phần hoặc có sự chuyển động trong ảnh v.v

Trong toán học, gọi F: X → X là một ánh xạ Điểm x X gọi là điểm bất động

với ánh xạ F nếu F(x) = x Trong nhận dạng ảnh, một điểm ảnh p được gọi là điểm

bất động (điểm bất biến) nếu G(p) = p Với G là các phép biến đổi hình học trên điểm ảnh đó Căn cứ vào các điểm bất biến này, có thể trích chọn các đặc trưng bất biến với các phép biến đổi hình học trên ảnh để nhận dạng đối tượng

Thuật toán nhận dạng đối tượng trên ảnh dựa trên các điểm bất biến bao gồm

3 bước cơ bản:

- Phát hiện các điểm bất biến trong ảnh bằng các bộ phát hiện điểm bất biến

- Tính toán các đặc trưng dựa trên các điểm bất biến sử dụng một bộ mô tả

và biểu diễn các đặc trưng dưới dạng véc tơ

- So khớp các véc tơ đặc trưng sử dụng các khoảng cách như Mahalanobis hoặc Euclidean

Đã có rất nhiều kĩ thuật trích chọn đặc trưng dựa trên các điểm bất biến được nghiên cứu Năm 1988, Harris (Harris and hens 1988) đề xuất một thuật toán dựa trên giá trị riêng của ma trận mô men bậc hai cho phép trích chọn các đặc trưng bất biến với phép xoay, thay đổi độ sáng và tạp nhiễu ảnh nhưng chưa giải quyết được bất biến về tỉ lệ Lindeberg (Lindeberg 1990) giới thiệu khái niệm tự động lựa chọn tỉ lệ cho phép phát hiện các điểm bất biến trong một ảnh với tỉ lệ riêng của nó Kỹ thuật này đã giải quyết được vấn đề bất biến với tỉ lệ nhưng chưa giải quyết tốt trong trường hợp có các biến đổi affine (các phép co, giãn, xoay … ảnh) đáng kể

Trang 33

30

Mikolajczyk và Schmid (Mikolajczyk and Schmid 2001) cải thiện thuật toán của Lindederg để tạo ra các bộ phát hiện thích nghi tốt với sự biến đổi tỉ lệ có tên là Harris-Laplace và Hessian-Laplace Lowe (Lowe 1999) đề xuất sử dụng Difference

of Gaussian (DoG) để xấp xỉ Laplacian của Gaussians (LoG) để phát hiện các điểm bất biến Phương pháp này được đặt tên là SIFT (Scale Invariance Feature Transform) SIFT cho ta số lượng điểm đặc trưng tốt hơn nhưng thời gian xử lý của SIFT vẫn chậm Các kỹ thuật trên đã giải quyết được việc phát hiện điểm quan tâm bất biến với phép xoay, biến đổi tỉ lệ, thay đổi độ sáng tuy nhiên tốc

độ xử lý vẫn là một hạn chế

SURF là một cải thiện của SIFT, được xem là cải tiến tốt nhất của tất cả các phương pháp phát hiện các điểm bất biến ở trên SURF vẫn giữ được các ưu điểm của SIFT nhưng cải thiện đáng kể thời gian tính toán Kỹ thuật này dựa trên các ma trận Hessian, nhưng sử dụng một xấp xỉ cơ bản, cũng giống như DoG là một phát hiện cơ bản dựa trên Laplacian SURF sử dụng ảnh tích hợp để giảm thời gian tính toán và thuật toán phát hiện các điểm đặc biệt của SURF được gọi là 'Fast-Hessian' Bộ mô tả của SURF mô tả một phân bố các đặc trưng Haarwavelet trong các láng giềng của điểm quan tâm sử dụng kích thước 64 (giảm một nửa so với SIFT) để giảm thời gian tính toán các đặc trưng và so khớp, đồng thời tăng sự chắc chắn Với những ưu điểm trên, đề tài lựa chọn SURF để biểu diễn và nhận dạng đối tượng Phần dưới đây sẽ mô tả cách trích rút đặc trưng SURF trên ảnh trong hệ thống

Sau khi tất cả các ảnh đầu vào được tiền xử lý, các ma trận ảnh sẽ được đưa qua mô đun phát hiện đặc trưng SURF và trích chọn bộ mô tả Mô đun này sử dụng các hàm thực thi của thư viện OpenCV

Đầu vào của bộ phát hiện đặc trưng SURF là các ảnh đã tiền xử lý Bộ phát hiện đặc trưng sẽ cố gắng tìm các điểm bất biến trên toàn bộ ảnh sử dụng thuật toán phát hiện Fast Hessian Nếu không có điểm bất biến này được tìm thấy trên một ảnh đầu vào, hệ thống sẽ gửi một thông điệp cảnh báo, bỏ qua ảnh lỗi và tiếp tục quá trình

Trang 34

31

trích chọn Hình dưới biểu diễn các điểm khóa được tìm thấy bởi bộ phát hiện đặc trưng SURF

Hình III.2-4: Các điểm khóa được phát hiện

Bước thứ hai của pha trích chọn đặc trưng là bước tính toán bộ mô tả SURF dựa trên các điểm khóa đã được phát hiện Từ các điểm khóa đã được phát hiện, bộ

mô tả dựa trên biến đổi Haar Wavelet được tính toán Các bộ mô tả được tính toán cho mỗi ảnh được lưu trữ trong bộ nhớ dưới dạng một ma trận của các số thực biểu diễn các điểm khóa đã phát hiện được, kích thước và hướng của mỗi điểm khóa Số dòng của ma trận mô tả biểu diễn số điểm khóa phát hiện được trong khi số cột là kích thước của mỗi điểm khóa, đề tài sử dụng kích thước điểm khóa là 64

III.2.3 Giảm số chiều dữ liệu

Mục đích của pha giảm số chiều dữ liệu là thay vì biểu diễn ảnh trên một tập lớn các đặc trưng, chúng ta phân cụm các đặc trưng để biểu diễn các ảnh bằng một tập các đặc trưng nhỏ hơn, đặc trưng hơn cho đối tượng Để giảm số chiều của các bộ

mô tả SURF, mô hình Bag-Of-Worlds (BOW) được sử dụng BOW nguyên gốc là một mô hình được sử dụng để giảm số chiều dữ liệu của bài toán phân lớp văn bản Văn bản là một tập các từ đơn có thứ tự sẽ được BOW biểu diễn dưới dạng một “túi các từ” - một tập không có thứ tự các từ đơn và tính toán biểu đồ về tần suất xuất hiện của các từ đơn này Sau đó, thay vì so sánh từng từ đơn giữa hai văn bản để xác định tính tương đồng, BOW sẽ so sánh biểu đồ tần suất xuất hiện của các từ đơn trong hai văn bản

Ngày đăng: 01/02/2021, 19:28

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[5.] Cortes, C. and V. Vapnik (1995). "Support Vector Networks." Journal Machine Learning 20(3): 273 - 297 Sách, tạp chí
Tiêu đề: Support Vector Networks
Tác giả: ] Cortes, C. and V. Vapnik
Năm: 1995
[11.] Lindeberg, T. (1990). "Scale-space for discrete signals." IEEE Transactions on Pattern Analysis and Machine Intelligence 12(3): 234 - 254 Sách, tạp chí
Tiêu đề: Scale-space for discrete signals
Tác giả: ] Lindeberg, T
Năm: 1990
[1.] Arthur, D. and S. Vassilvitskii (2007). K-means++: the advantages of careful seeding. Proceeding SODA '07 Proceedings of the eighteenth annual ACM-SIAM symposium on Discrete algorithms, USA Khác
[2.] Boulay, B., F. Bremond, et al. (2003). Human Posture Recognition in Video Sequence. IEEE International Workshop on VS-PETS, Visual Surveillance and Performance Evaluation of Tracking and Surveillance Khác
[3.] Chella, A., H. Dindo, et al. (2006). People Tracking and Posture Recognition for Human-Robot Interaction International Workshop on Vision Based Human- Robot Interaction. Palermo, Italy Khác
[4.] Constantin, D. (2012). Mobile Plant Classification. The faculty of Computer Science Institute for Anthropomatics Khác
[6.] Delamarre, Q. and O. Faugeras (1999). 3D articulated models and multi-view tracking with silhouettes. IEEE International Conference on ComputerVision Khác
[7.] Goldmann, L., M. Karaman, et al. (2004). Human Body Posture Recognition Using MPEG-7 Descriptors. Proceedings of the first ACM international workshop on Analysis and retrieval of tracked events and motion in imagery streams Khác
[8.] Haritaoglu, I., D. Harwood, et al. (1998). Ghost: A Human Body Part Labeling System Using Silhouettes. International Conference on Pattern Recognition Khác
[9.] Harris, C. and M. S. hens (1988). A combined corner and edge detector, . Alvey Vision Conference Khác
[10.] Le, T.-L., M.-Q. Nguyen, et al. (2013). Human posture recognition using human skeleton provided by Kinect. The International Conference of Computing, Management and Telecomunications 2013. Ho Chi Minh, Viet Nam Khác
[12.] Lowe, D. (1999). Object recognition from local scale-invariant features. The International Conference on Computer Vision Khác
[13.] MacQueen, J. (1967). Some Methods for classification and Analysis of Multivariate Observations. Proceedings of 5th Berkeley Symposium on Mathematical Statistics and Probability Khác
[14.] Mikolajczyk, K. and C. Schmid (2001). Indexing based on scale invariant interest points. ICCV 2001 Eighth IEEE International Conference on Computer Vision. 1: 525 - 531 Khác

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w