Nghiên cứu và xây dựng giải thuật nhận dạng hình trạng người ứng dụng cho việc xây dựng phòng điều trị thông minh Nghiên cứu và xây dựng giải thuật nhận dạng hình trạng người ứng dụng cho việc xây dựng phòng điều trị thông minh Nghiên cứu và xây dựng giải thuật nhận dạng hình trạng người ứng dụng cho việc xây dựng phòng điều trị thông minh
Trang 1ii
BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
Nguyễn Thị Thanh Mai
NGHIÊN CỨU VÀ XÂY DỰNG GIẢI THUẬT NHẬN DẠNG HÌNH TRẠNG NGƯỜI ỨNG DỤNG CHO VIỆC XÂY DỰNG PHÒNG ĐIỀU TRỊ
Trang 2iii
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các số liệu được trích dẫn có nguồn gốc Các kết quả trình bày trong luận án là trung thực và chưa từng được ai công bố trong bất kì công trình nào khác
Tác giả luận án
Nguyễn Thị Thanh Mai
Trang 3iv
LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn sâu sắc và chân thành tới TS Lê Thị Lan, người chị, người thầy đã tận tình hướng dẫn, chỉ bảo và động viên tôi trong suốt quá trình nghiên cứu và viết luận án để tôi có thể hoàn thành luận án này
Xin chân thành cảm ơn các đồng nghiệp tại Viện nghiên cứu Quốc tế MICA, Trường Đại học Bách Khoa Hà Nội, tập thể nhóm thực hiện Đề tài Nghị định thư đã tạo điều kiện giúp đỡ tôi trong quá trình thực hiện luận án
Cuối cùng xin bày tỏ lòng biết ơn sâu sắc tới gia đình và những người bạn đã động viên, chia sẻ, ủng hộ và là chỗ dựa tinh thần giúp tôi tập trung nghiên cứu và hoàn thành luận án của mình
Nguyễn Thị Thanh Mai
Trang 41
MỤC LỤC
DANH MỤC CÁC KÍ HIỆU, CÁC CHỮ VIẾT TẮT 3
DANH MỤC CÁC BẢNG 4
DANH MỤC CÁC HÌNH VẼ 5
MỞ ĐẦU 7
CHƯƠNG I GIỚI THIỆU 8
I.1 Giới thiệu chung 8
I.2 Cấu trúc luận văn 10
CHƯƠNG II TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP NHẬN DẠNG HÌNH TRẠNG NGƯỜI 11
II.1 Cách tiếp cận trong không gian hai chiều 12
II.2 Cách tiếp cận trong không gian ba chiều 19
II.3 Nhận xét 24
CHƯƠNG III XÂY DỰNG MÔ ĐUN NHẬN DẠNG HÌNH TRẠNG NGƯỜI 25
III.1 Phân tích và thiết kế hệ thống 25
III.2 Thực thi hệ thống 25
III.2.1 Tiền xử lý 26
III.2.2 Trích chọn đặc trưng 29
III.2.3 Giảm số chiều dữ liệu 31
III.2.4 Phân lớp 35
CHƯƠNG IV THỬ NGHIỆM VÀ ĐÁNH GIÁ 39
IV.1 Cơ sở dữ liệu thử nghiệm 39
IV.1.1 Thiết lập phòng thu 39
IV.1.2 Lựa chọn các lớp hình trạng 41
IV.1.3 Cơ sở dữ liệu hình trạng người 42
IV.1.4 Cơ sở dữ liệu video chứa các sự kiện bất thường 44
IV.1.5 Bố trí thư mục và quy tắc đặt tên file trong cơ sở dữ liệu 45
Trang 52
IV.2 Tham số thử nghiệm 46
IV.3 Độ đo đánh giá 46
IV.4 Kết quả thử nghiệm 47
IV.4.1 Thử nghiệm trên cơ sở dữ liệu ảnh hình trạng người 47
IV.4.2 Thử nghiệm trên cơ sở dữ liệu video chứa các sự kiện bất thường 53
IV.5 Nhận xét 60
CHƯƠNG V KẾT LUẬN 62
TÀI LIỆU THAM KHẢO 64
Trang 6RBF Radial Basis Funtion
RGB Red Green Blue
SIFT Scale Invariance Feature Transform
SIFT Scale-invariant feature transform
SURF Speeded-Up Robust Features
SVM Support Vector Machine
USM Unsharp masking
Trang 74
DANH MỤC CÁC BẢNG
Bảng II.1-1: Tỉ lệ nhận dạng thành công cho mỗi hình trạng 18Bảng II.2-1: Bảng ma trận kết quả nhận dạng của 4 bộ phân lớp 23Bảng IV.3-1: Bảng tính toán giá trị TP, FP, FN 47Bảng IV.4-1: Bảng thông tin cơ sở dữ liệu huấn luyện lấy từ cơ sở dữ liệu hình trạng người 49Bảng IV.4-2: Bảng thông tin cơ sở dữ liệu thử nghiệm luyện lấy từ cơ sở dữ liệu hình trạng người 49Bảng IV.4-3: Ma trận kết quả của thử nghiệm phụ thuộc dữ liệu trên cơ sở dữ liệu hình trạng người 50Bảng IV.4-4: Tỉ lệ nhận dạng lỗi và độ nhạy của hệ thống khi thử nghiệm phụ thuộc
dữ liệu trên cơ sở dữ liệu hình trạng người 51Bảng IV.4-5: Ma trận kết quả của thử nghiệm độc lập dữ liệu trên cơ sở dữ liệu hình trạng người 52Bảng IV.4-6: Tỉ lệ nhận dạng lỗi và độ nhạy của hệ thống khi thử nghiệm độc lập
dữ liệu trên cơ sở dữ liệu hình trạng người 53Bảng IV.4-7: Bảng thông tin cơ sở dữ liệu huấn luyện hình trạng người có trong các
sự kiện bất thường 55Bảng IV.4-8: Bảng thông tin cơ sở dữ liệu thử nghiệm luyện hình trạng người có trong các sự kiện bất thường 56Bảng IV.4-9: Ma trận kết quả của thử nghiệm phụ thuộc dữ liệu trên cơ sở dữ liệu hình trạng người có trong các sự kiện bất thường 57Bảng IV.4-10: Tỉ lệ nhận dạng lỗi và độ nhạy của hệ thống khi thử nghiệm phụ thuộc dữ liệu trên cơ sở dữ liệu hình trạng người có trong các sự kiện bất thường 58Bảng IV.4-11: Ma trận kết quả của thử nghiệm độc lập dữ liệu trên cơ sở dữ liệu hình trạng có trong các sự kiện bất thường 59Bảng IV.4-12: Tỉ lệ nhận dạng lỗi và độ nhạy của hệ thống khi thử nghiệm độc lập
dữ liệu trên cơ sở dữ liệu hình trạng người có trong các sự kiện bất thường 60
Trang 85
DANH MỤC CÁC HÌNH VẼ
Hình I.1-1: Sơ đồ khối chức năng của hệ thống phát hiện sự kiện dựa trên thông tin
về ảnh 9
Hình II.1-1: Đường biên của các hình trạng khác nhau của cùng một người được trích chọn trong (Haritaoglu, Harwood et al 1998) 13
Hình II.1-2: Minh họa một số ảnh trong chuỗi video thử nghiệm khả năng nhận dạng của hệ thống Ghost 14
Hình II.1-3: Sơ đồ tổng quan về hệ thống 15
Hình II.1-4: Các hình trạng người và các hướng nhìn được xem xét trong 16
Hình II.1-5: Một số ví dụ về theo dõi đối tượng và nhận dạng hình trạng trong các điều kiện khác nhau 17
Hình II.2-1: Mô hình trong không gian ba chiều của hình trạng người ngồi và hình chiếu tương ứng của nó trên ảnh hai chiều 19
Hình II.2-2: Đường biên của hình chiếu của mô hình người trong không gian ba chiều (đường màu trắng liền nét) và đường biên của đối tượng người trong ảnh hai chiều 20
Hình II.2-3: Mô hình nhận dạng của hệ thống nhận dạng hình trạng sử dụng Kinect 22
Hình II.2-4: Vị trí 20 khớp xương được sử dụng làm đặc trưng và vị trí của người với Kinect khi thu cơ sở dữ liệu 23
Hình III.1-1: Thiết kế kiến trúc hệ thống với pha học và pha thử nghiệm 25
Hình III.2-1: Các bước xử lý của hệ thống và các thuật toán tương ứng được lựa chọn 26
Hình III.2-2: Hai bước của bước làm nét ảnh Bước 1: Phát hiện cạnh và sinh ảnh đường biên Bước 2: tăng mức độ tương phản tại đường biên 28
Hình III.2-3: a) Ảnh gốc và các ảnh sau khi đi qua các phép tiền xử lý: b) Ảnh sau khi xám hóa; c) Ảnh sau khi chuẩn hóa mức xám; d) Ảnh sai khi được làm nét 28
Hình III.2-4: Các điểm khóa được phát hiện 31
Hình III.2-5: Biểu diễn đối tượng ảnh sử dụng mô hình BOW 33
Hình III.2-6: Từ điển BOW với kích thước 256 được lưu trữ trong file XML 34
Trang 96
Hình III.2-7: Mô tả biểu diễn dữ liệu của SVM trong không gian, mỗi mẫu dữ liệu được biểu diễn trong không gian như các điểm đen và trắng 35Hình III.2-8: Ánh xạ dữ liệu từ không gian gốc sang không gian đặc trưng cho phép phân chia dữ liệu bởi siêu phẳng 36Hình III.2-9: Siêu phẳng tách với khoảng cách lề cực đại 37Hình IV.1-1: Bố trí của phòng giả lập và vị trí của các camera được lắp đặt 39Hình IV.1-2: Vùng quan sát của các camera được lắp đặt tại phòng giả lập của Viện MICA, lần lượt từ trái qua phải: camera 1, camera 2, camera 3 40Hình IV.1-3: Minh họa một số ảnh trong cơ sở dữ liệu được thu trong đề tài 43Hình IV.1-4: Một số hình ảnh của người trong cơ sở dữ liệu video chứa các sự kiện bất thường 44Hình IV.4-1: Một vùng ảnh chứa người được đánh dấu bằng tay sử dụng công cụ Object Marker 48Hình IV.4-2: a) Các kết quả phân vùng sai và b) Các kết quả phân vùng không chứa đầy đủ cơ thể người sẽ bị loại bỏ 54Hình IV.4-3: Một số ảnh trong cơ sở dữ liệu hình trạng người có trong các sự kiện bât thường 55
Trang 107
MỞ ĐẦU
Bài toán nhận dạng hình trạng người hiện nay thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu bởi những ứng dụng mà kết quả của nó đem lại như các ứng dụng giám sát, các ứng dụng điều khiển, các ứng dụng về phân tích và hiểu hành
vi của con người … Nghiên cứu trong đề tài nhằm mục đích thử nghiệm một phương pháp nhận dạng hình trạng của toàn bộ cơ thể người Kết quả nhận dạng hình trạng người được xây dựng trong đề tài sẽ được sử dụng trong bước xử lý tiếp theo là nhận dạng sự kiện, phân tích hành vi của người bệnh từ đó có thể hỗ trợ bác sĩ và người nhà chăm sóc và giám sát bệnh nhân trong bệnh viện
Đề tài sẽ nghiên cứu các phương pháp nhận dạng hình trạng người đã tồn tại trên thế giới từ đó đề xuất thử nghiệm một phương pháp nhận dạng hình trạng người
có khả năng nhận dạng bốn lớp hình trạng cơ bản của người trên ảnh là người đứng, người ngồi, người nằm, người cúi trên vùng người đã được phát hiện trên ảnh sử dụng đặc trưng SURF và mô hình máy học SVM
Kết quả của đề tài bao gồm:
Báo cáo luận văn
Cơ sở dữ liệu hình trạng người
Mô đun chương trình nhận dạng hình trạng người dựa trên các điểm đặc biệt được trích chọn trên vùng chứa người được phát hiện trên ảnh
Bài báo tham gia Hội thảo Quốc tế Commantel 2013 được tổ chức vào
tháng 1/2013 có tên “Human posture recognition using human skeleton provided by Kinect”
Trang 118
CHƯƠNG I GIỚI THIỆU
I.1 Giới thiệu chung
Một hình trạng người có thể được hiểu là một tư thế của một phần cơ thể người như: tư thế của đầu, tư thế của bàn tay … hoặc của toàn bộ cơ thể người Nhận dạng hình trạng người là phát hiện và phân lớp hình trạng của người vào các lớp khác nhau Bài toán nhận dạng hình trạng người hiện nay thu hút được rất nhiều sự quan tâm của các nhà nghiên cứu bởi những ứng dụng mà kết quả của nó đem lại Có thể kể ra các loại ứng dụng:
- Các ứng dụng giám sát: theo dõi một hoặc một vài người trong một khoảng thời gian để phân tích hành vi của họ Các hệ thống giám sát dựa trên video
là một ví dụ điển hình của loại ứng dụng này Trong đó, có thể kể đến các
hệ thống giám sát người già được lắp đặt tại các ngôi nhà thông minh (smart home) hay các hệ thống giám sát người bệnh trong phòng điều trị để hỗ trợ chăm sóc bệnh nhân
- Các ứng dụng điều khiển: sử dụng thông tin về hình trạng của người như một chức năng điều khiển Ví dụ, người có thể tương tác với máy tính thông qua một giao diện người – máy thông minh có thể nhận dạng để hiểu các
cử chỉ điều khiển của người thông qua một camera thay vì tương tác qua các thiết bị ngoại vi như chuột hay bàn phím
- Các ứng dụng phân tích cần thông tin chính xác về hình trạng người ví dụ các ứng dụng trong chỉnh hình của y tế, mô phỏng tư thế của người trong thực tại ảo
Nghiên cứu trong đề tài nhằm mục đích thử nghiệm một phương pháp nhận dạng hình trạng của toàn bộ cơ thể người để phát hiện các sự kiện bất thường của người bệnh tại phòng điều trị thông minh
Nghiên cứu trong đề tài này nằm trong khuôn khổ nghiên cứu của đề tài Nghị
định thư “Nghiên cứu, ứng dụng CNTT trong xây dựng hệ thống giám sát, hỗ trợ
Trang 129
chăm sóc bệnh nhân tại phòng điều trị thông minh” được thực hiện bởi Viện nghiên
cứu quốc tế MICA, Trường đại học Bách Khoa Hà Nội Mục tiêu của đề tài này là xây dựng một hệ thống giám sát, và hỗ trợ chăm sóc bệnh nhân tại phòng điều trị thông minh dựa trên các thông tin về âm thanh và hình ảnh Thông tin về hình ảnh sẽ được thu nhận từ hệ thống camera giám sát được lắp đặt trong phòng bệnh Sơ đồ khối của hệ thống phát hiện sự kiện dựa trên thông tin về hình ảnh được mô tả trong Hình I.1-1 Hệ thống có hai khối chính: khối phân tích video và khối nhận dạng sự kiện Khối phân tích video nhận đầu vào là các video và trả về các kết quả phân tích video: vị trí của đối tượng, lớp hình trạng của đối tượng, sự thay đổi hình trạng … Khối nhận dạng sự kiện sẽ dựa trên các thông tin này để mô hình hóa sự kiện và nhận dạng 4 lớp sự kiện cần quan tâm bao gồm:
- Bệnh nhân ngã
- Bệnh nhân vắng mặt quá lâu
- Bệnh nhân ở trong nhà tắm quá lâu
- Bệnh nhân nằm bất động quá lâu
Hình I.1-1: Sơ đồ khối chức năng của hệ thống phát hiện sự kiện dựa trên thông tin
về ảnh
Trang 13I.2 Cấu trúc luận văn
Nội dung của báo cáo được tổ chức như sau:
Chương I: Giới thiệu về bài toán nhận dạng hình trạng người được nghiên cứu trong đề tài
Chương II: Nghiên cứu tổng quan về các phương pháp nhận dạng hình trạng người đã tồn tại
Chương III: Trình bày mô hình hệ thống đề xuất, các phương pháp được lựa chọn để giải quyết bài toán
Chương IV: Thử nghiệm và đánh giá kết quả của hệ thống trên cơ sở dữ liệu được xây dựng tại Viện nghiên cứu quốc tế MICA
Chương V: Kết luận
Trang 1411
CHƯƠNG II TỔNG QUAN VỀ CÁC PHƯƠNG PHÁP NHẬN
DẠNG HÌNH TRẠNG NGƯỜI
Để nhận dạng hình trạng người, điều đầu tiên là cần thu nhận được thông tin
về trạng thái của cơ thể người Thông tin này có thể thu được bằng nhiều loại thiết bị khác nhau Dựa trên loại thiết bị được sử dụng để thu nhận thông tin, có thể phân lớp các phương pháp nhận dạng hình trạng người thành hai nhóm:
Các phương pháp sử dụng cảm biến vật lí: cảm biến gia tốc, cảm biến chuyển động, găng tay cảm biến … để nhận biết trạng thái của cơ thể người
Các phương pháp sử dụng cảm biến hình ảnh (các phương pháp dựa trên thị giác): sử dụng một hay nhiều cảm biến hình ảnh để thu nhận hình ảnh của người và dựa trên phân tích ảnh để nhận biết trạng thái của cơ thể người Mỗi loại cảm biến đều có ưu và nhược điểm riêng Phương pháp sử dụng các loại cảm biến vật lý được gắn trực tiếp lên cơ thể người thường có độ chính xác cao, cho phép phát hiện dễ dàng hơn các sự kiện tinh tế, ít biểu hiện ra ngoài và khó quan sát được bởi mắt thường Ví dụ cảm biến chuyển động cho phép phát hiện một người vừa ngồi và vừa có hoạt động nào đó Trong khi với camera thì để phát hiện ra một người vừa ngồi và vừa có hoạt động khác là khó khăn và không phải lúc nào cũng thực hiện được (tùy vào mức độ chi tiết của giải thuật và khả năng quan sát của camera) Tuy nhiên, việc đòi hỏi phải đeo cảm biến trên người trong một khoảng thời gian dài sẽ gây bất tiện cho người sử dụng Một số loại cảm biến vật lý còn có thể gây ra các nguy cơ về sức khỏe như dị ứng do tiếp xúc với cảm biến hoặc nguy cơ gây ung thư với các cảm biến sử dụng sóng điện từ
Với phương pháp dựa trên thị giác sử dụng các cảm biến hình ảnh, người không phải đeo hay mang trên người bất kỳ một loại thiết bị nào Camera có thể cho
dữ liệu liên tục nhưng phương pháp này sẽ gặp những khó khăn khi các yếu tố của môi trường thu nhận ảnh thay đổi như: điều kiện sáng, góc thu nhận, sự che khuất, bóng của đối tượng Người sử dụng đôi khi không thực sự cảm thấy thoải mái khi biết rằng họ bị theo dõi bởi các camera
Trang 1512
Mô đun được xây dựng trong đề tài này nhận dạng hình trạng người dựa trên hình ảnh nên báo cáo sẽ tập trung nghiên cứu các phương pháp dựa trên thị giác Trong nhóm phương pháp dựa trên thị giác, các phương pháp lại có thể khác nhau về:
- Mô hình nhận dạng
- Không gian biểu diễn đối tượng trong ảnh: hai chiều, ba chiều
- Kiểu cảm biến hình ảnh: hồng ngoại, camera bắt sáng …
- Số lượng của cảm biến hình ảnh được sử dụng: một hay nhiều cảm biến hình ảnh
- Camera tĩnh hay camera động
Trong chương này, các phương pháp sẽ được phân loại thành hai nhóm dựa trên không gian biểu diễn và mô hình hóa đối tượng là các phương pháp nhận dạng hình trạng người dựa trên sự xuất hiện trong không gian hai chiều và các phương pháp nhận dạng hình trạng người trong không gian ba chiều để nghiên cứu
II.1 Cách tiếp cận trong không gian hai chiều
Trong (Haritaoglu, Harwood et al 1998) và (Goldmann, Karaman et al 2004), các tác giả sử dụng phân bố chiếu làm đặc trưng để nhận dạng hình trạng người Phân
bố chiếu là một đặc trưng thường được sử dụng trong phân tích hình dáng Phân bố chiếu cho phép mô tả một vùng của đối tượng bằng cách chiếu các điểm ảnh của vùng này lên tọa độ đề các theo phương dọc và phương ngang Phân bố chiếu là một đặc trưng bất biến với tỉ lệ, nhưng lại bị ảnh hưởng bởi phép quay Để so sánh hai phân
bố ta có thể sử dụng các hàm đo khoảng cách như Minkowski khác nhau như max, Manhattan và khoảng cách Euclidian Trước khi nhận dạng hình trạng người, hệ thống được đề xuất trong (Haritaoglu, Harwood et al 1998), (Goldmann, Karaman et
al 2004) đều có một mô đun phân tách vùng người ra khỏi ảnh và trả về hình bóng của người trong ảnh Để tách vùng người ra khỏi nền, cả hai hệ thống đều sử dụng phương pháp trừ nền của ảnh đang xét cho ảnh chỉ chứa phông nền (do camera tĩnh
Trang 1613
và phông nền không có sự thay đổi) Ảnh trừ nền sau đó được phân ngưỡng nhị phân, lọc nhiễu, trích chọn đường biên, loại bỏ các vùng có đường biên không đủ lớn để lựa chọn ra vùng hình bóng của người trong ảnh Hình II.1-1 chỉ ra đường biên của các hình trạng của cùng một người được trích chọn trong (Haritaoglu, Harwood et al 1998) Các hình bóng sau khi thu được sẽ được chuẩn hóa bằng cách co giãn chiều dọc của hình bóng về một kích thước chung và giữ nguyên tỉ lệ chiều ngang và chiều dọc của hình bóng Hình bóng sau khi chuẩn hóa sẽ là đầu vào cho mô đun nhận dạng hình trạng người để tính toán phân bố chiếu Mỗi hình trạng sẽ được biểu diễn bởi một cặp hình chiếu ngang và hình chiếu dọc
Hình II.1-1: Đường biên của các hình trạng khác nhau của cùng một người được
trích chọn trong (Haritaoglu, Harwood et al 1998)
Trong (Haritaoglu, Harwood et al 1998), hệ thống được xây dựng có tên là Ghost Mô đun nhận dạng hình trạng có nhiệm vụ cung cấp thông tin về hình trạng người và hướng tương đối giữa người và camera để hệ thống gán nhãn các phần trên
cơ thể người Có 4 lớp hình trạng: đứng, ngồi, nằm, cúi và ba góc nhìn tương đối của camera so với người: chính diện, nghiêng trái và nghiêng phải được nhận dạng Một tập các mô hình của hình chiếu ngang và dọc của các hình bóng người cho từng lớp hình trạng với từng góc nhìn cụ thể sẽ được xây dựng 4500 hình bóng của 7 người ở
3 hướng nhìn khác nhau được sử dụng để tính toán mô hình chính là hình chiếu ngang
và dọc trung bình cho mỗi lớp hình trạng Sau đó, với mỗi ảnh chứa hình trạng cần nhận dạng, đầu tiên, vùng hình bóng của người được phân tách khỏi ảnh Hệ thống tính toán hình chiếu của hình bóng người đang xét và so sánh với các mô hình hình chiếu đã có để đưa ra kết quả là hình trạng người và hướng nhìn tương đồng nhất
Trang 1714
Ghost phân lớp theo mô hình phân cấp: phân lớp theo hình trạng, với mỗi hình trạng phân lớp vào 1 trong 3 hướng nhìn
Kết quả nhận dạng được thử nghiệm với hai chuỗi video (Hình II.1-2) Chuỗi
1 chứa 1750 khung hình, ghi lại hình ảnh một người đàn ông thực hiện một số hành động đơn giản ở ngoài trời Chuỗi 2 chứa 750 khung hình, ghi lại cảnh một người phụ
nữ thực hiện chuỗi hành động: đi lại – ngồi – đi lại Trong quá trình thực hiện hành động của người trong chuỗi video, hệ thống sẽ đánh dấu vị trí các khung hình mà tại
đó người ở một trong các hình trạng cần nhận dạng Kết quả nhận dạng cho chuỗi video 1 và 2 lần lượt là 95% và 98% hình trạng được nhận dạng đúng
a) Chuỗi video 1
b) Chuỗi video 2 Hình II.1-2: Minh họa một số ảnh trong chuỗi video thử nghiệm khả năng nhận
dạng của hệ thống Ghost
Trong (Goldmann, Karaman et al 2004), các tác giả đề xuất một hệ thống nhận dạng hình trạng người dựa trên đặc trưng MPEG – 7 Sơ đồ của hệ thống được
đề xuất trong được chỉ ra trong Hình II.1-3 gồm 5 mô đun
Sau khi phân vùng và lựa chọn được vùng đối tượng người ra khỏi ảnh bởi mô đun phân vùng và phát hiện đối tượng Các đối tượng sẽ được trích chọn đặc trưng phân bố chiếu tương tự trong Ghost Trong hệ thống này, tác giả sử dụng 2 phân bố
100 chiều do đó kích thước của véc tơ đặc trưng cho phân bố chiếu là 200
Trang 1815
Hình II.1-3: Sơ đồ tổng quan về hệ thống
Ngoài đặc trưng về phân bố chiếu, trong (Goldmann, Karaman et al 2004), các tác giả còn đề xuất sử dụng bộ mô tả hình dạng đường biên (CBSD) là một trong những bộ mô tả hình dạng dựa trên chuẩn MPEG – 7 (Zhang and Lu 2003) để trích rút đặc trưng về đường biên của hình chiếu Để mô tả đường biên dựa trên chuẩn MPEG-7, người ta sử dụng một ảnh CSS cho mỗi đường biên Để sinh ảnh CSS biểu diễn cho một đường biên, bắt đầu từ một điểm bất kì trên đường biên, chọn lấy N điểm cách đều nhau Tọa độ theo trục x và tọa độ theo trục y của N điểm được chọn
sẽ được nhóm thành hai chuỗi X và Y Đường biên sau đó sẽ được làm mịn dần bằng cách lặp lại việc áp dụng bộ lọc thông thấp có nhân (0.25,0.5,0.25) lên hai chuỗi X
và Y của N điểm được chọn Kết quả của phép làm mịn sẽ làm đầy dần các vùng lõm
và đường biên sẽ dần và trở thành một đường cong lồi Ảnh CSS có chiều ngang tương ướng với các điểm được lựa chọn để biểu diễn trên đường biên (1,…N) và chiều dọc là số lượng các phép lọc cần áp dụng lên điểm đó trong quá trình làm mịn đường cong Bộ mô tả hình dạng dựa trên đường biên bất biến với các phép quay, tỉ
lệ và lấy đối xứng Các đặc trưng này cũng tỏ ra hiệu quả với các nhiễu đường biên
Để so sánh các hình dáng dựa trên các đặc trưng này, các tác giả một độ đo đặc biệt được đề xuất trong chuẩn MPEG-7 Pha phân lớp sử dụng đặc trưng MPEG – 7 sẽ phân lớp đối tượng sử dụng thuật toán K láng giềng gần nhất
Hình II.1-4 minh họa 4 hình trạng cơ bản được xem xét trong (Goldmann, Karaman et al 2004) gồm các hình trạng: đứng, cúi, ngồi, nằm và 4 hướng nhìn tương đối giữa người và camera: hướng nhìn từ phía trước (0o), hướng nhìn từ phía bên phải
Trang 1916
(90o), hướng nhìn từ phía sau (180o), hướng nhìn từ phía bên trái (270o) được xem xét trong hệ thống
Hình II.1-4: Các hình trạng người và các hướng nhìn được xem xét trong
Mục tiêu của hệ thống là phân lớp các hình trạng theo hình trạng và theo góc nhìn Việc phân lớp có thể được thực hiện theo phương pháp phân cấp hoặc không phân cấp Phương pháp không phân cấp cần 16 bộ phân lớp đơn lẻ, mỗi bộ cho phép phân lớp 1 hình trạng ở 1 hướng nhìn Phương pháp phân lớp phân cấp có thể thực hiện theo thứ tự: phân lớp theo hình trạng sau đó đến hướng nhìn hoặc phân lớp theo hướng nhìn sau đó đến hình trạng
Trong (Chella, Dindo et al 2006) các tác giả đề xuất một phương pháp theo dõi và nhận dạng hình trạng người cho bài toán tương tác người và robot dựa trên đặc trưng trị riêng, véc tơ riêng Hệ thống sử dụng một camera màu, để thu nhận hình ảnh của người trong một bối cảnh cố định và không có sự ràng buộc về kiểu chuyển động
và sự xuất hiện của người Có hai pha trong hệ thống Pha phát hiện và theo dõi sử dụng bộ lọc hạt số với giải thuật Condensation cho hiệu quả cao trong môi trường phức tạp sẽ phân tách ra vùng người cần nhận dạng trong ảnh Pha nhận dạng hình trạng người sử dụng một kĩ thuật cải tiến của không gian véc tơ riêng, nhận dạng hình trạng người trên vùng ảnh tương ứng với người được trả ra bởi pha phát hiện và theo
Trang 2017
dõi Sử dụng PCA để giảm số chiều dữ liệu, với 7 lớp hình trạng người thường được
sử dụng trong tương tác người-robot, phương pháp không gian véc tơ riêng đã được thử nghiệm thành công chỉ với 12 véc tơ riêng biểu diễn cho mỗi ảnh có phông nền đồng đều Pha nhận dạng hình trạng người sẽ tiến hành ước lượng và nhận dạng mỗi khi người được phát hiện và theo dõi (bởi pha theo dõi) Khi phát hiện ra hiện tượng che lấp (các vùng bao đóng của các đối tượng bị trùng nhau), pha nhận dạng sẽ không hoạt động Trong trường hợp này, hình trạng được nhận dạng ở thời điểm trước khi xảy ra hiện tượng che lấp sẽ được sử dụng Hình II.1-5 chỉ ra một số hình ảnh khi thu nhận cơ sở dữ liệu hình trạng người để thử nghiệm kết quả của hệ thống và các hình bóng tương ứng với hình trạng người đó được phân tách bởi pha phát hiện và theo dõi Các hình bóng của người sẽ được sử dụng để huấn luyện và nhận dạng trong pha nhận dạng
Hình II.1-5: Một số ví dụ về theo dõi đối tượng và nhận dạng hình trạng trong các
điều kiện khác nhau
Bảng II.1-1 chỉ ra kết quả nhận dạng cho mỗi hình trạng của hệ thống được đề xuất trong Tỉ lệ nhận dạng trung bình của hệ thống là 95% , kết quả này cho phép
có thể sử dụng hệ thống vào các ứng dụng thực tế
Trang 2118
Bảng II.1-1: Tỉ lệ nhận dạng thành công cho mỗi hình trạng
Hình trạng Tỉ lệ nhận dạng
Dừng lại (giang hai tay sang hai bên) 96%
Tỉ lệ nhận dạng trung bình 95.07%
Iwasawa và các cộng sự [5] đề xuất một phương pháp bao gồm ba bước Bước đầu tiên là xác định trọng tâm của hình bóng của người bước hai tính toán hướng của nửa thân trên của người Sau đó, các điểm như bàn chân, bàn tay, khuỷu tay và đầu gối sẽ được ướng lượng sử dụng phép phân tích đường biên gần đúng của hình bóng người
Bobick and Davis [1] sử dụng các mẫu tạm thời được xây dựng từ một tập các khung hình kế tiếp Phương pháp này sẽ biểu diễn chuyển động của người trong một chuỗi ảnh sử dụng ảnh năng lượng (MEI) và ảnh lịch sử chuyển động (MHI) Các ảnh chuyển động được tính toán bằng cách trừ các khung hình kế tiếp được phân ngưỡng về giá trị nhị phân Các ảnh chuyển động sẽ được tích lũy theo thời gian dưới dạng ảnh MEI Các ảnh MEI được nâng cao thành ảnh MHI, trong đó mỗi giá trị điểm ảnh tỉ lệ với chuyển động tại vị trí đó Các đặc trưng dựa trên mô men được trích chọn
từ MEI và MHI và được sử dụng cho nhận dạng sử dụng phương pháp so khớp mẫu
Trang 2219
II.2 Cách tiếp cận trong không gian ba chiều
Phổ biến nhất trong cách tiếp cận trong không gian ba chiều là xây dựng một
mô hình của người trong không gian ba chiều và chiếu mô hình của người lên không gian hai chiều để thu được biểu diễn của người trong không gian hai chiều khớp với thông tin của người trong ảnh hai chiều đang xét
Trong (Boulay, Bremond et al 2003), các tác giả xây dựng một mô hình của người trong không gian ba chiều từ các đối tượng hình học bao gồm: hình hộp (4), hình cầu (9), hình nón (10) Mỗi hình trạng của người được xác định bằng một tập
111 tham số tương ứng với hướng và vị trí của tất cả các đối tượng hình học trên
Hình II.2-1: Mô hình trong không gian ba chiều của hình trạng người ngồi và hình
chiếu tương ứng của nó trên ảnh hai chiều
Để nhận dạng hình trạng người trong video, trước tiên, hệ thống sử dụng thư viện có tên là VSIP (Visual Surveillance Intelligent Platfom) để phát hiện các đối tượng chuyển động trong ảnh Các đối tượng chuyển động này sẽ được biểu diễn dưới dạng các blob trên ảnh nhị phân, sau đó, được phân lớp vào các lớp đối tượng người,
xe cộ … và được theo vết trong suốt video Tại mỗi khung hình, nếu đối tượng người được phát hiện có trong ảnh, hướng và vị trí của người trong không gian ba chiều sẽ được tính toán dựa trên các thông tin về cảnh và tham số của camera Mô hình của người trong không gian ba chiều sẽ mô phỏng lại người ở đúng vị trí và hướng đó so với camera sau đó hình chiếu của mô hình người sẽ được chiếu lên không gian hai
Trang 2320
chiều để thu được một blob của người trong ảnh hai chiều Blob này sẽ được sử dụng
để so sánh với blob của người có trong ảnh đang xét sử dụng một trong hai phương pháp nhận dạng hình trạng người trong không gian hai chiều mà hệ thống đề xuất dựa trên phân bố chiếu và mật độ các điểm ảnh chuyển động của blob Hình II.2-1 minh họa mô hình của hình trạng người ngồi trong không gian ba chiều và hình chiếu tương ứng của nó trên ảnh hai chiều
Hệ thống đạt tỉ lệ nhận dạng thành công trung bình là 80% trên bảy lớp hình trạng được chia thành ba nhóm là:
- Nhóm các hình trạng đứng: người đứng với hai tay áp sát người, người đứng với tay trái giơ sang ngang, người đứng với tay phải giơ sang ngang, người đứng với hai tay giơ sang ngang (hình chữ T)
- Nhóm các hình trạng ngồi: người ngồi trên trên ghế và người ngồi trên nền nhà
- Nhóm hình trạng cúi: người cố gắng nhặt một đồ vặt nằm trên nền nhà
Hình II.2-2: Đường biên của hình chiếu của mô hình người trong không gian ba chiều (đường màu trắng liền nét) và đường biên của đối tượng người trong ảnh hai
chiều
Trang 2421
Tương tự, trong (Delamarre and Faugeras 1999), các tác giả đề xuất một mô hình của người trong không gian ba chiều từ các đối tượng hình học là hình hộp, hình cầu và hình nón Các khớp trên cơ thể người cũng được mô phỏng để mô hình có thể biểu diễn linh hoạt các cử động của người Giải thuật đề xuất trong (Delamarre and Faugeras 1999) sẽ chiếu mô hình người lên không gian hai chiều để tìm một so khớp giữa đường biên của mô hình người trong không gian ba chiều với đường biên của người phát hiện được trong ảnh Trong Hình II.2-2, chỉ ra một so khớp giữa đường biên của hình chiếu của mô hình người trong không gian ba chiều (đường màu trắng liền nét) và đường biên của đối tượng người trong ảnh hai chiều
Ngoài cách tiếp cận dựa trên xây dựng mô hình người trong không gian ba chiều, hiện nay, với sự phổ biến của Kinect, thông tin về độ sâu của người trong ảnh thu được bởi Kinect cũng là một đặc trưng được sử dụng rộng rãi Trong (Patsadu, Nukoolkit et al 2012), các tác giả đề xuất sử dụng đặc trưng là tọa độ của 20 khớp xương người trong không gian ba chiều được xác định bằng Kinect để nhận dạng 3 lớp hình trạng: đứng, ngồi và nằm Có 4 bộ phân lớp được thử nghiệm để so sánh khả năng nhận dạng, bao gồm:
- Mạng nơ ron lan truyền ngược ba lớp: lớp đầu vào 60 nốt, lớp ẩn 10 nốt, lớp đầu ra 3 nốt tương ứng với 3 lớp hình trạng cần nhận dạng
- Cây quyết định xây dựng bởi giải thuật CART
- Mô hình Bayes
- Máy véc tơ hỗ trợ (SVM) với nhân polynomial
Hình II.2-3 chỉ ra quá trình xử lý của hệ thống nhận dạng hình trạng người sử dụng Kinect Để nhận dạng hình trạng người, mỗi bộ phân lớp đều gồm hai pha: pha học và pha nhận dạng Cả 2 pha này đều nhận đầu vào là các véc tơ chứa tọa độ của
20 khớp xương người thu ở cả hai khoảng cách 2m và 3m Để giải quyết vấn đề về tỉ
lệ khi thu ở các khoảng cách khác nhau, các véc tơ sẽ được chuẩn hóa sử dụng phép chuẩn hóa Z-score
Trang 2522
Hình II.2-3: Mô hình nhận dạng của hệ thống nhận dạng hình trạng sử dụng Kinect
Để thử nghiệm, các tác giả xây dựng cơ sở dữ liệu với sự tham gia của 6 người:
3 nam và 3 nữ với chiều cao và cân nặng khác nhau Người tham gia thu sẽ đứng trước Kinect để thu nhận hình ảnh của 3 lớp hình trạng: đứng, nằm và ngồi ở 2 khoảng cách: 2m và 3m Kinect được đặt ở độ cao 1m (Hình II.2-4)
Tập dữ liệu huấn luyện gồm 1200 véc tơ (mỗi véc tơ biểu diễn một hình trạng người trên một ảnh) * 3 lớp hình trạng * 2 khoảng cách = 7200 véc tơ
Tập dữ liệu thử nghiệm chứa 600 véc tơ (mỗi véc tơ biểu diễn một hình trạng người trên một ảnh) * 3 lớp hình trạng * 2 khoảng cách = 3600 véc tơ
Kết quả thử nghiệm với 4 bộ phân lớp trên tập dữ liệu trên được chỉ ra trong Bảng II.2-1 Nhìn vào bảng ta thấy, mạng nơ ron lan truyền ngược cho kết quả nhận dạng cao nhất trên tập dữ liệu thử nghiệm với độ nhận dạng chính xác 100% SVM cho kết quả nhận dạng cao thứ hai với độ chính xác 99.75% Cây quyết định đạt độ chính xác thấp hơn với tỉ lệ 93.19% Các tác giả cũng chỉ ra rằng, cây quyết định gặp sai sót khi khó phân biệt được hình trạng đứng của người có chiều cao thấp với hình
Trang 2623
trạng ngồi của người có chiều cao cao Mô hình Bayes với các tham số mặc định KNIME có độ chính xác 81.94% Nhận dạng sai xảy ra do Bayes coi các đặc trưng
có xác suất phân bộ độc lập, điều đó không đúng với tập dữ liệu này
Vị trí 20 khớp xương Vị trí của người và Kinect khi thu cơ sở dữ
liệu Hình II.2-4: Vị trí 20 khớp xương được sử dụng làm đặc trưng và vị trí của người
với Kinect khi thu cơ sở dữ liệu Bảng II.2-1: Bảng ma trận kết quả nhận dạng của 4 bộ phân lớp
Trang 2724
II.3 Nhận xét
Nhược điểm của các phương pháp dựa trên sự xuất hiện trong không gian hai chiều là sự phụ thuộc vào hướng nhìn Cùng một hình trạng người, ở các góc nhìn khác nhau thì sự xuất hiện của hình trạng đó trong ảnh có thể khác nhau Tuy nhiên các phương pháp này có chi phí thấp và đáp ứng được thời gian thực
Các phương pháp nhận dạng hình trạng người trong không gian ba chiều, hầu hết giải quyết được vấn đề phụ thuộc vào hướng nhìn tuy nhiên lại đòi hỏi chi phí cao trong việc sử dụng các thiết bị thu nhận, tính toán mô hình của người trong không gian ba chiều
Trong đề tài này, phương pháp được lựa chọn để thử nghiệm sẽ dựa trên sự xuất hiện của người trong không gian hai chiều với các ảnh và video được thu nhận
từ các camera màu
Trang 2825
CHƯƠNG III XÂY DỰNG MÔ ĐUN NHẬN DẠNG HÌNH
TRẠNG NGƯỜI
III.1 Phân tích và thiết kế hệ thống
Kiến trúc của hệ thống được mô tả trong Hình III.1-1, bao gồm các bước khác nhau Đầu ra của bước trước sẽ là đầu vào của bước kế tiếp
Hệ thống bao gồm hai pha chính: pha học và pha thử nghiệm Mỗi pha đều bao gồm một chuỗi các xử lý: tiền xử lý, trích chọn đặc trưng, giảm số chiều dữ liệu
và phân lớp Sự khác nhau giữa pha học và pha thử nghiệm là ở dữ liệu đầu vào và đầu ra cuối cùng của mỗi pha Dữ liệu đầu vào cho pha học (tập dữ liệu học) và pha thử nghiệm (tập dữ liệu thử nghiệm) là hoàn toàn tách biệt Trong pha học, đầu ra cuối cùng là một tập các đặc trưng được học từ tập dữ liệu học Trong pha thử nghiệm, đầu ra là nhãn lớp của đối tượng cần phân lớp trong ảnh
Hình III.1-1: Thiết kế kiến trúc hệ thống với pha học và pha thử nghiệm
Mô tả chi tiết của mỗi bước xử lý trong hệ thống sẽ được mô tả chi tiết trong phần thực thi hệ thống của chương này
III.2 Thực thi hệ thống
Hệ thống được cài đặt bằng ngôn ngữ C++ trên bộ công cụ Visual Studio 2010
và sử dụng thư viện OpenCV 2.4.6 (http://opencv.org/) OpenCV là một thư viện mã
Trang 2926
nguồn mở về thị giác máy tính và học máy Thư viện có hơn 2.500 thuật toán được tối ưu hóa từ các phép xử lý cơ bản trên ảnh như xám hóa, co giãn ảnh, tính toán biểu
đồ màu … ; các thuật toán trích chọn các đặc trưng ảnh như: Haarlike, SIFT, SURF
và các thuật toán phân lớp dữ liệu như: ANN, KNN, Adaboost, SVM …
Mô hình của hệ thống với các giải thuật tương ứng được lựa chọn cho mỗi bước xử lý được mô tả trong Hình III.2-1 Chi tiết của mỗi bước và lí do lựa chọn thuật toán sẽ được trình bày trong phần dưới
Hình III.2-1: Các bước xử lý của hệ thống và các thuật toán tương ứng được lựa
chọn
III.2.1 Tiền xử lý
Pha tiền xử lý bao gồm ba bước chính:
- Xám hóa ảnh: biến đổi từ ảnh gốc về ảnh đa mức xám
- Chuẩn hóa ảnh: chuẩn hóa các giá trị điểm ảnh trong ảnh đa mức xám về miền giá trị mới để nâng cao chất lượng ảnh
- Làm nét ảnh: Làm nổi bật các chi tiết cục bộ của ảnh để nâng cao độ chính xác của pha trích chọn đặc trưng
III.2.1.1 Xám hóa ảnh
Ảnh xám (ảnh đa mức xám) là một ảnh số mà trong đó mỗi điểm ảnh được biểu diễn duy nhất bởi một giá trị mang thông tin về cường độ sáng Giá trị điểm ảnh biến đổi từ cường độ sáng yếu nhất (màu đen) cho đến cường độ sáng mạnh nhất (màu trắng)
Trang 3027
Một phương pháp phổ biến để biến đổi ảnh màu thảnh ảnh xám là ánh xạ mỗi
bộ giá trị cường độ sáng biểu diễn một điểm ảnh trong ảnh màu về một giá trị cường
độ sáng biểu diễn điểm ảnh tương ứng trong ảnh xám Trong hệ thống này, để biến đổi ảnh màu về ảnh xám, công thức sau được sử dụng:
Y’ = 0.299R + 0.587G + 0.144B
Trong đó:
- Y’ là cường độ sáng của một điểm ảnh trong ảnh xám
- R, G, B lần lượt là giá trị của các kênh màu đỏ, kênh màu xanh lá cây và kênh màu xanh da trời trong ảnh màu
III.2.1.2 Chuẩn hóa ảnh
Chuẩn hóa ảnh là phép biến đổi các giá trị cường độ sáng của ảnh về miền giá trị mới cho phép cân bằng mức xám và nâng cao độ tương phản của ảnh, làm nổi bật hơn các hình trạng cần nhận dạng trong ảnh
Phép biến đổi trên một ảnh đa mức xám n chiều có biểu diễn toán học như sau:
- Cho ảnh gốc có miền giá trị cường độ sáng của các điểm ảnh trong khoảng {𝑀𝑖𝑛, , 𝑀𝑎𝑥}
III.2.1.3 Làm nét ảnh
Làm nét ảnh (Unsharp masking) là một kĩ thuật trong xử lý ảnh số để làm rõ nét hơn các chi tiết của ảnh Mục đích của bước tiền xử lý này là làm rõ nét đường biên của người trong ảnh
Trang 3128
Làm nét ảnh được thực hiện bằng cách kết hợp hai ảnh: ảnh ban đầu được gọi
là ảnh negative và một phiên bản làm mờ của ảnh ban đầu gọi là ảnh positive
Đầu tiên, ta tạo ra ảnh positive bằng cách áp dụng bộ lọc Gaussian lên ảnh negative Công thức của hàm Gaussian được biểu diễn như sau:
𝐺(𝑥) = 1
√2𝜋𝜎2𝑒−
𝑥22𝜎2
Sau đó, xác định ảnh đường biên bằng cách trừ ảnh positive cho ảnh negative Ảnh đường biên được xem là một mặt nạ cho phép xác định các vùng cần tăng độ nét
ở trong ảnh ban đầu Chi tiết về các bước tính toán được biểu diễn trong Hình III.2-2
Hình III.2-2: Hai bước của bước làm nét ảnh Bước 1: Phát hiện cạnh và sinh ảnh
đường biên Bước 2: tăng mức độ tương phản tại đường biên
Hình III.2-3: a) Ảnh gốc và các ảnh sau khi đi qua các phép tiền xử lý: b) Ảnh sau khi xám hóa; c) Ảnh sau khi chuẩn hóa mức xám; d) Ảnh sai khi được làm nét
Trang 3229
III.2.2 Trích chọn đặc trưng
Đặc trưng SURF (Speed Up Robust Features) được sử dụng để biểu diễn hình trạng người trong đề tài SURF là một đặc trưng được sử dụng hiệu quả trong nhận dạng đối tượng dựa trên các điểm bất động Lý thuyết về điểm bất động đã được nghiên cứu nhiều trong toán học và vật lý Việc nghiên cứu áp dụng lý thuyết này để trích chọn các đặc trưng phục vụ cho nhận dạng đối tượng trong xử lý ảnh là hướng tiếp cận mới và có nhiều hứa hẹn nhất là đối với các đối tượng có sự biến đổi về kích thước, hình dạng, bị che khuất một phần hoặc có sự chuyển động trong ảnh v.v
Trong toán học, gọi F: X → X là một ánh xạ Điểm x X gọi là điểm bất động
với ánh xạ F nếu F(x) = x Trong nhận dạng ảnh, một điểm ảnh p được gọi là điểm
bất động (điểm bất biến) nếu G(p) = p Với G là các phép biến đổi hình học trên điểm ảnh đó Căn cứ vào các điểm bất biến này, có thể trích chọn các đặc trưng bất biến với các phép biến đổi hình học trên ảnh để nhận dạng đối tượng
Thuật toán nhận dạng đối tượng trên ảnh dựa trên các điểm bất biến bao gồm
3 bước cơ bản:
- Phát hiện các điểm bất biến trong ảnh bằng các bộ phát hiện điểm bất biến
- Tính toán các đặc trưng dựa trên các điểm bất biến sử dụng một bộ mô tả
và biểu diễn các đặc trưng dưới dạng véc tơ
- So khớp các véc tơ đặc trưng sử dụng các khoảng cách như Mahalanobis hoặc Euclidean
Đã có rất nhiều kĩ thuật trích chọn đặc trưng dựa trên các điểm bất biến được nghiên cứu Năm 1988, Harris (Harris and hens 1988) đề xuất một thuật toán dựa trên giá trị riêng của ma trận mô men bậc hai cho phép trích chọn các đặc trưng bất biến với phép xoay, thay đổi độ sáng và tạp nhiễu ảnh nhưng chưa giải quyết được bất biến về tỉ lệ Lindeberg (Lindeberg 1990) giới thiệu khái niệm tự động lựa chọn tỉ lệ cho phép phát hiện các điểm bất biến trong một ảnh với tỉ lệ riêng của nó Kỹ thuật này đã giải quyết được vấn đề bất biến với tỉ lệ nhưng chưa giải quyết tốt trong trường hợp có các biến đổi affine (các phép co, giãn, xoay … ảnh) đáng kể
Trang 3330
Mikolajczyk và Schmid (Mikolajczyk and Schmid 2001) cải thiện thuật toán của Lindederg để tạo ra các bộ phát hiện thích nghi tốt với sự biến đổi tỉ lệ có tên là Harris-Laplace và Hessian-Laplace Lowe (Lowe 1999) đề xuất sử dụng Difference
of Gaussian (DoG) để xấp xỉ Laplacian của Gaussians (LoG) để phát hiện các điểm bất biến Phương pháp này được đặt tên là SIFT (Scale Invariance Feature Transform) SIFT cho ta số lượng điểm đặc trưng tốt hơn nhưng thời gian xử lý của SIFT vẫn chậm Các kỹ thuật trên đã giải quyết được việc phát hiện điểm quan tâm bất biến với phép xoay, biến đổi tỉ lệ, thay đổi độ sáng tuy nhiên tốc
độ xử lý vẫn là một hạn chế
SURF là một cải thiện của SIFT, được xem là cải tiến tốt nhất của tất cả các phương pháp phát hiện các điểm bất biến ở trên SURF vẫn giữ được các ưu điểm của SIFT nhưng cải thiện đáng kể thời gian tính toán Kỹ thuật này dựa trên các ma trận Hessian, nhưng sử dụng một xấp xỉ cơ bản, cũng giống như DoG là một phát hiện cơ bản dựa trên Laplacian SURF sử dụng ảnh tích hợp để giảm thời gian tính toán và thuật toán phát hiện các điểm đặc biệt của SURF được gọi là 'Fast-Hessian' Bộ mô tả của SURF mô tả một phân bố các đặc trưng Haarwavelet trong các láng giềng của điểm quan tâm sử dụng kích thước 64 (giảm một nửa so với SIFT) để giảm thời gian tính toán các đặc trưng và so khớp, đồng thời tăng sự chắc chắn Với những ưu điểm trên, đề tài lựa chọn SURF để biểu diễn và nhận dạng đối tượng Phần dưới đây sẽ mô tả cách trích rút đặc trưng SURF trên ảnh trong hệ thống
Sau khi tất cả các ảnh đầu vào được tiền xử lý, các ma trận ảnh sẽ được đưa qua mô đun phát hiện đặc trưng SURF và trích chọn bộ mô tả Mô đun này sử dụng các hàm thực thi của thư viện OpenCV
Đầu vào của bộ phát hiện đặc trưng SURF là các ảnh đã tiền xử lý Bộ phát hiện đặc trưng sẽ cố gắng tìm các điểm bất biến trên toàn bộ ảnh sử dụng thuật toán phát hiện Fast Hessian Nếu không có điểm bất biến này được tìm thấy trên một ảnh đầu vào, hệ thống sẽ gửi một thông điệp cảnh báo, bỏ qua ảnh lỗi và tiếp tục quá trình
Trang 3431
trích chọn Hình dưới biểu diễn các điểm khóa được tìm thấy bởi bộ phát hiện đặc trưng SURF
Hình III.2-4: Các điểm khóa được phát hiện
Bước thứ hai của pha trích chọn đặc trưng là bước tính toán bộ mô tả SURF dựa trên các điểm khóa đã được phát hiện Từ các điểm khóa đã được phát hiện, bộ
mô tả dựa trên biến đổi Haar Wavelet được tính toán Các bộ mô tả được tính toán cho mỗi ảnh được lưu trữ trong bộ nhớ dưới dạng một ma trận của các số thực biểu diễn các điểm khóa đã phát hiện được, kích thước và hướng của mỗi điểm khóa Số dòng của ma trận mô tả biểu diễn số điểm khóa phát hiện được trong khi số cột là kích thước của mỗi điểm khóa, đề tài sử dụng kích thước điểm khóa là 64
III.2.3 Giảm số chiều dữ liệu
Mục đích của pha giảm số chiều dữ liệu là thay vì biểu diễn ảnh trên một tập lớn các đặc trưng, chúng ta phân cụm các đặc trưng để biểu diễn các ảnh bằng một tập các đặc trưng nhỏ hơn, đặc trưng hơn cho đối tượng Để giảm số chiều của các bộ
mô tả SURF, mô hình Bag-Of-Worlds (BOW) được sử dụng BOW nguyên gốc là một mô hình được sử dụng để giảm số chiều dữ liệu của bài toán phân lớp văn bản Văn bản là một tập các từ đơn có thứ tự sẽ được BOW biểu diễn dưới dạng một “túi các từ” - một tập không có thứ tự các từ đơn và tính toán biểu đồ về tần suất xuất hiện của các từ đơn này Sau đó, thay vì so sánh từng từ đơn giữa hai văn bản để xác định tính tương đồng, BOW sẽ so sánh biểu đồ tần suất xuất hiện của các từ đơn trong hai văn bản