Cùng với các biện pháp đã nêu trên hệ thống camera giám sát ngày nay đang là một phương tiện hữu ích giúp cho mọi người có thể bảo vệ tính mạng, tài sản và thêm vào đó hệ thống này cũng
Trang 1LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi Các kết quả nêu trong luận văn là trung thực và chƣa từng đƣợc ai công bố trong bất kỳ công trình nào khác
Tôi xin cam đoan rằng các thông tin trích dẫn trong luận văn đều đã đƣợc chỉ rõ nguồn gốc
Hải Phòng, ngày 10 tháng 9 năm 2015
Trang 3MỤC LỤC
Trang
LỜI CAM ĐOAN i
LỜI CÁM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU v
DANH MỤC CÁC HÌNH vi
MỞ ĐẦU 1
CHƯƠNG 1 GIỚI THIỆU 3
1.1 Mục đích của đề tài 3
1.2 Yêu cầu của đề tài 3
1.3 Cách tiếp cận đề tài 4
Cuối cùng, cần xây dựng hệ thống phần mềm kết hợp với các thiết bị phần cứng để tạo thành một hệ thống hoàn thiện vận hành hiệu quả 5
CHƯƠNG 2 PHÁT HIỆN CHUYỂN ĐỘNG VÀ ĐỐI TƯỢNG TRONG VIDEO 6
2.1 Phương pháp phát hiện chuyển động 6
2.2 Phương pháp phát hiện người 14
2.3 Phương pháp phát hiện mặt người 21
CHƯƠNG 3 XÂY DỰNG CHƯƠNG TRÌNH 27
3.1 Thư viện OPENCV và EMGU 27
3.2 Hệ thống video giám sát 31
3.3 Hệ thống giám sát dựa trên chuyển động và người 34
3.4 Dữ liệu kiểm thử và đánh giá hiệu năng 40
Trang 4TÀI LIỆU THAM KHẢO 47
Trang 5DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU
Trang 6DANH MỤC CÁC HÌNH
2 1 Sự phát triển của các ảnh MHI cho 2 hành động khác
nhau Ảnh MHI được tạo ra thể hiện bên dưới các hành động tuần tự
7
2 3 Minh họa sự phụ thuộc vào T để phát triển các ảnh
2 5 Lược đồ luồng hệ thống điển hình của phương thức
MHI cho việc nhận dạng hành động
13
2 6 Minh họa cách cách tính toán vector gradient 15
2 7 Minh họa các mẫu cửa sổ tìm kiếm kích thước
64x128
16
2 8 Minh họa ô kích thước 8x8 trong cửa sổ tìm kiếm 17
2 10 Minh họa cho việc cộng thêm và nhân thêm vào giá
trị của từng điểm ảnh
19
2 11 Minh họa cho sự thay đổi giá trị các vector gradient
khi có sự thay đổi về ánh sáng
Trang 72 14 Đặc trƣng thứ nhất và thứ hai đƣợc lựa chọn bởi
AdaBoost
24
3 2 Minh họa mô hình hệ thống giám sát 31
3 3 Hình ảnh minh họa cho camera giám sát 32
3 4 Hình ảnh minh họa đầu xử lý tín hiệu 33
3 7 Minh họa mô hình giám sát trực tuyến 35
Trang 8MỞ ĐẦU
Ngày nay, song song với sự phát triển của nền kinh tế cũng như xã hội là sự phát triển không mong muốn của các tệ nạn xã hội Khi tình hình an ninh đang ngày càng trở nên đáng báo động thì mỗi người chúng ta đều cần có sự chuẩn bị riêng cho mình nhằm phòng tránh các rủi ro Có rất nhiều các biện pháp an ninh ngày nay được đưa ra như thuê nhân viên an ninh, sử dụng các hệ thống khóa cao cập tuy nhiên chưa có một hệ thống nào cho được kết quả an toàn tuyệt đối Cùng với các biện pháp đã nêu trên hệ thống camera giám sát ngày nay đang là một phương tiện hữu ích giúp cho mọi người có thể bảo vệ tính mạng, tài sản và thêm vào đó hệ thống này cũng là một công cụ giúp cho việc quản lý công việc một cách hiệu quả hơn Hầu hết các cửa hàng kinh doanh vừa và nhỏ cho đến các gia đình hiện nay gần như đều có nhu cầu trang bị cho mình một hệ thống giám sát nhằm tăng cường an ninh nơi sinh sống làm việc cũng như hỗ trợ cho việc quản lý nhân viên, kiểm soát hàng hóa ra vào ở các cửa hàng, công ty, kho bãi
Cùng với sự phát triển của công nghệ và khoa học, các hệ thống phần cứng ngày nay cho phép chúng ta có thể có được hình ảnh từ camera giám sát với chất lượng ngày càng cao hơn cùng với sự tăng cường khả năng giám sát khi việc giám sát đã có thể tiến hành từ xa thông qua mạng internet, giúp chúng ta hoàn toàn có thể theo dõi tình hình ở một nơi ở xa chúng ta, thì sự cần thiết của một hệ thống phần mềm thông minh là cần thiết hơn bao giờ hết để góp phần tạo nên một hệ thống giám sát hoàn thiện cho người sử dụng
Các hệ thống giám sát phổ thông trên thị trường hiện giờ chỉ tập trung vào việc quan sát và ghi hình tại nơi cần giám sát, điều này đôi khi không giúp cho chúng ta trong các trường hợp khẩn cấp cần xử lý ngay Trong thực tế, điều này có thể thấy qua việc một số cửa hàng mặc dù đã lắp hệ thống giám sát nhưng khi bị đột nhập vào buổi đêm thì sáng hôm sau những gì chủ cửa hàng thu lại chỉ duy nhất là đoạn video những kẻ trộm mang khăn bịt mặt lấy đi những tài sản của mình Điều này là chưa đủ so với những gì chúng ta cần trong thực tế, thực tế này đã đặt
Trang 9ra sự cần thiết cho một hệ thống thông minh hơn có thể phát hiện ra được những chuyển động và người trong khi giám sát
Từ thực tế đã nêu trên, tôi đã định hướng sẽ chọn đề tài xây dựng hệ thống giám sát dựa trên phát hiện chuyển động và đối tượng trong ảnh làm đề tài nghiên cứu cho khóa luận của mình Bài tiểu luận này sẽ trình bày làm rõ một số vấn đề của đề tài như cơ sở khoa học, ý nghĩa thực tiễn, mục đích và phương pháp nghiên cứu của đề tài này
Trang 10CHƯƠNG 1 GIỚI THIỆU 1.1 Mục đích của đề tài
Đề tài được đặt ra với mục đích chính nhằm giải quyết được yêu cầu thực tiễn mà xã hội đang đề ra về một hệ thống giám sát hiệu quả cũng như ứng dụng được các kỹ thuật tiên tiến của ngành công nghệ thông tin nói chung và lĩnh vực thị giác máy tính nói riêng vào việc giải quyết các vấn đề liên quan đến giám sát và an ninh
Thêm vào đó, việc nghiên cứu đề tài này sẽ giúp cho tôi nghiên cứu sâu hơn vào lĩnh vực thị giác máy tính, nắm rõ các kỹ thuật phát hiện đối tượng và quan trọng hơn cả là kết hợp những kĩ thuật này để có được một giải pháp hiệu quả hơn cho các bài toán lý thuyết và cho cả bài toán thực tế Từ đây sẽ là tiền đề giúp cá nhân tôi cũng như xã hội có thêm những cách tiếp cận để có thể giải quyết được các bài toán lớn hơn Cụ thể đề tài tập trung nghiên cứu vào ba vấn đề lý thuyết chính là phương pháp phát hiện chuyển động, phương pháp phát hiện người và phát hiện khuôn mặt người trong video
Ngoài ra, đề tài được đặt ra cũng nhằm tới mục đích nghiên cứu, tìm hiểu về
hệ thống thư viện OpenCV nói chung cũng như EMGU nói riêng và từ đó có thể áp dụng các kỹ thuật mới vào trong hệ thống Theo đó, có thể nâng cao tính thực tiễn, hiệu quả cho hệ thống
Cuối cùng, đề tài cũng mong muốn đạt được mục tiêu cân bằng giữa chi phí
và hiệu năng của hệ thống giám sát, cố gắng đạt được hệ giám sát hiệu quả với chi phí chấp nhận được (thực tế hiện giờ đa số các hệ thống giám sát hiện tại ở Việt Nam nếu có hiệu năng cao thì thường rất đắt, còn những hệ thống với mức chi phí chấp nhận được lại thường có tính năng đơn giản và hiệu suất không cao)
1.2 Yêu cầu của đề tài
Với mong muốn có thể áp dụng vào thực tế, đề tài cần phải đáp ứng được các yêu cầu thực tế như sau:
Trang 11- Hệ thống vận hành ổn định trong các điều kiện khác nhau và có độ tin cậy cao với người sử dụng
- Các tính năng của hệ thống cần phải hoạt động nhanh nhưng song song với đó là tính chính xác
- Giao diện của hệ thống thân thiện dễ hiểu, dễ học và dễ sử dụng đối với người sử dụng
- Hệ thống cần có sự tùy chỉnh các cấu hình, thông số dễ dàng để phù hợp với các hoàn cảnh vận hành khác nhau cũng như yêu cầu khác nhau của người sử dụng
- Hệ thống cần được áp dụng những kỹ thuật, công nghệ tân thời để có thể nâng cấp, phát triển dễ dàng sau này
- Hệ thống cần có sự đảm bảo mức kinh phí cân bằng với hiệu năng, có thể vận hành được trên nền tảng phần cứng với mức kinh phí chấp nhận được
- Hệ thống cần được kiểm thử và đánh giá một cách kỹ càng trước khi đưa vào vận hành thực tế
- Thứ hai, tìm hiểu nghiên cứu kết cấu của một hệ thống camera giám sát, nghiên cứu kĩ từng thành phần cũng như cách tổ hợp chúng thành một hệ thống và vấn đề làm thế nào để có thể phát triển được một hệ thống giám sát trực tuyến thông qua mạng internet để từ đây có thể lên được bản thiết
kế thành phần cho hệ thống camera giám sát mà tôi cần phải xây dựng
Trang 12- Thứ ba, tìm hiểu về lý thuyết của các phương pháp Motion Detection, Human Detction và Face Detection để từ những lý thuyết nghiên cứu được tiến hành xây dựng hệ thống phần mềm trong hệ thống giám sát cần thực hiện
- Tìm hiểu về thư viện OpenCV cũng như các ứng dụng của bộ thư viện này để có thể áp dụng vào bài toán thực tế
Cuối cùng, cần xây dựng hệ thống phần mềm kết hợp với các thiết bị phần cứng để tạo thành một hệ thống hoàn thiện vận hành hiệu quả
Trang 13CHƯƠNG 2 PHÁT HIỆN CHUYỂN ĐỘNG VÀ ĐỐI TƯỢNG TRONG
VIDEO 2.1 Phương pháp phát hiện chuyển động
Cách tiếp cận dựa trên lịch sử chuyển động ảnh là một cách nhìn dựa trên phương pháp phát hiện mẫu theo thời gian Đây là một phương pháp đơn giản nhưng lại hiệu quả trong việc biển diễn cho các chuyển động và được sử dụng trong rất nhiều các nghiên cứu liên quan đến việc nhận dạng hành động, phân tích chuyển động và các ứng dụng liên quan khác
a Các mẫu ảnh lịch sử chuyển động (Motion History Image - MHI) và ảnh năng lượng chuyển động (Motion Energy Image - MEI)
Lý thuyết về sự nhận dạng và biểu diễn ảnh được đề xuất bởi Bobick và Davis[5] phân tích sự nhận dạng dựa trên chuyển động cùng với việc mô tả về yếu
tố không gian và mô tả cách thức mà đối tượng chuyển động Theo đó, những điều này biểu diễn sự hình thành của MEI hoặc vùng chuyển động nhị phân (Binary Motion Regiion - BMR), và chúng ta có thể thấy rằng đây là những đại diện cho vị trí các chuyển động có được trong một dãy ảnh MEI biểu diễn hình dạng chuyển động và sự phân chia không gian của chuyển động Sau đó thì MHI được sinh ra Cường độ của mỗi điểm ảnh trong MHI đại diện cho một khoảng của số lần có thể được mã hóa của mỗi khung hình, và phương pháp MHI này sẽ móc nối tỷ lệ thời gian của các cử chỉ của con người
Đặt MEI và MHI cùng nhau, chúng ta sẽ thấy được MHI và MEI có thể được xem như hai phiên bản thành phần của mẫu theo thời gian Trong một ảnh vector, mỗi thành phần của từng điểm ảnh là một số hàm chuyển động tại vị trí điểm ảnh đó Những mẫu quan sát cụ thể được ghép sẽ có sự cạnh tranh với các mẫu lưu trữ của khung nhìn các chuyển động đã biết Hợp nhất các mẫu MEI và MHI ta được cấu tạo phương thức MHI HT(x, y, t) có thể được tính toán từ hàm φ(x, y, t)
Trang 14HT(x, y, t) = max 0, 𝐻 𝑇 𝑣ớ𝑖 φ x, y, t = 1
𝑇 𝑥, 𝑦, 𝑡 − 1 − 𝛿 𝑣ớ𝑖 𝑐á𝑐 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑘ℎá𝑐 (2.1)
Ở đây (x, y) và t thể hiện vị trí và thời gian còn φ(x, y, t) là tín hiệu sự hiện diện hoặc chuyển động trong ảnh video hiện tại Thời gian T quyết định sự kéo dài thời gian của chuyển động và 𝛿 là tham số phân rã Hàm cập nhật φ(x, y, t) này được gọi cho mỗi khung hình mới được phân tích tuần tự Việc tính toán sẽ giúp tạo ra ảnh vô hướng (trong đó sẽ có nhiều hơn các điểm ảnh di chuyển sáng hơn và ngược lại)
Hình 2.1: Minh họa cho sự phát triển của các ảnh MHI cho 2 hành động khác nhau
Ảnh MHI được tạo ra thể hiện bên dưới các hành động tuần tự 1
Một số kĩ thuật xử lý ảnh định nghĩa hàm cập nhật φ(x, y, t) là phép trừ nền,
sự khác biệt ảnh và dòng quang học Thông thường, chúng ta có thể nói rằng MHI được sinh ra từ hình ảnh nhị phân, cụ thể là nó có được từ phép trừ khung sử dụng ngưỡng ξ
1 Nguồn http://www academia edu/360567/Motion_history_image_its_variants_and_applications
Trang 15φ(x, y, t) = 0 𝑣ớ𝑖 𝑐á𝑐 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑘ℎá𝑐 1 𝑣ớ𝑖 D x, y, t ≥ ξ (2.2) D(x, y, t) được định nghĩa với sự khác biệt khoảng cách Δ như sau:
D(x, y, t) = |I(x, y, t) – I(x, y, t ∓ Δ)| (2.3)
Ở đây I(x, y, t) là giá trị cường độ tại điểm (x, y) ở khung thứ t của ảnh tuần
tư Từ đó, chúng ta có thể có được mẫu MHI cuối cùng là HT(x, y, t) Bây giờ chúng ta sẽ định nghĩa về MEI MEI là ảnh chuyển động nhị phân tích lũy Chúng
có thể được mô tả như một vùng mà trong đó chuyển động trong khuôn hình được tính toán từ khung đầu tiên đến khung cuối cùng Sự tuần tự của đối tượng di chuyển quét một vùng riêng biệt của ảnh và hình dạng của vùng đó có thể được dùng để gợi ý cho vùng chuyển động thu được Do hàm cập nhập φ(x, y, t) đại diện dãy ảnh nhị phân chỉ ra vùng chuyển động, MEI ET(x, y, t) có thể được định nghĩa như sau:
ET(x, y, t) = 𝑇−1𝐷(𝑥, 𝑦, 𝑡 − 𝑖)
MEI có thể được suy luận từ MHI (bởi ngưỡng MHI phía trên)
ET(x, y, t) = 0 𝑐á𝑐 𝑡𝑟ườ𝑛𝑔 ℎợ𝑝 𝑐ò𝑛 𝑙ạ𝑖 1 𝑣ớ𝑖 𝐻𝑇 𝑥, 𝑦, 𝑡 ≥ 1 (2.5) Lợi ích của việc sử dụng MHI là sử dụng ảnh đa mức xám nhờ đó mà chúng rất nhạy với hướng của chuyển động, không giống như MEI, vì vậy MHI phù hợp hơn cho việc phân biệt giữa các hành động với hướng ngược nhau (ví dụ đứng lên
và ngồi xuống) Tuy nhiên các ảnh MHI và MEI đều quan trọng cho biểu diễn thông tin chuyển động Hai hình ảnh kết hợp cùng nhau cung cấp sự phân biệt tốt hơn khi chúng ta sử dụng tách biệt chúng
Trang 16Hình 2.2: Ví dụ cho MHI và MEI 2Tròng hình 2.2 phía trên chúng ta có thể thấy bốn cột đầu tiên là các khung liên tiếp và các ảnh trong cột thứ năm là MHI tương ứng Các ảnh ở cột ngoài cung bên phải là MEI tương ứng cho hai hành động tương ứng
b Sự phụ thuộc vào T và δ
Hình 2.3: Minh họa sự phụ thuộc vào T để phát triển các ảnh MHI 3
Trong hành động vẫy tay này, chúng ta tạo ra các MHI khác nhau và các MEI khác nhau và với các giá trị T khác nhau Nếu giá trị T nhỏ hơn số lượng các khung, điều này sẽ dẫn đến việc chúng ta sẽ có thể mất các thông tin trước đó của
2
Nguồn http://www academia edu/360567/Motion_history_image_its_variants_and_applications
3 Nguồn http://www academia edu/360567/Motion_history_image_its_variants_and_applications
Trang 17hành động trong MHI của nó Ví dụ với T = 15 và cho hành động có 26 khung, chúng ta sẽ mất thông tin chuyển động của khung đầu tiên sau 15 khung nếu giá trị của tham số phân rã (δ) là 1 Trong trường hợp ngược lại, nếu giá trị thời gian T được thiết lập rất cao so với số lượng khung, sự thay đổi của các giá trị điểm ảnh của mẫu MHI là không đáng kể Do đó giá trị này cần được xem xét kĩ trong quá trình tạo ra MHI
Hình 2.4: Minh họasự phụ thuộc vào δ trong tính toán mẫu MHI 4
Hình 2.4 thể hiện sự phụ thuộc vào tham số phân rã trong quá trình tính toán ảnh MHI Chúng ta có thể thấy rằng trong phương pháp MHI cơ bản, δ được thay thế bởi 1 Nếu nó không có gì thay đổi trong chuyển động của một điểm cụ thể trong khi khung trước đó có chuyển động, giá trị của điểm ảnh có thể được thay thế bởi δ Tuy nhiên, có các giá trị δ khác nhau có thể cung cấp các thông tin khác nhau một chút Vì vậy, giá trị có thể được chọn dựa trên thực nghiệm Các nhà nghiên cứu có sự xem xét với các tham số trong khi làm việc với MHI Dòng đầu tiên của hình trên thể hiện các ảnh MHI cuối cùng cho cùng một hành động Chúng
ta thấy rằng các giá trị cao hơn cho δ loại bỏ các dấu vết của chuyển động tuần tự Dòng thứ hai thể hiện hành động chạy, trong đó hai ảnh đầu tiên có δ = 1và 2 cái cuối có δ = 3 Trong khi ảnh thứ nhất và thứ ba đưa ra ảnh trung bình trong khi ảnh
Trang 18thứ hai và thứ tư đưa ra hình ảnh hành động tại điểm kết thúc của trình tự Lưu ý thêm rằng với δ = 3, các phần của thông tin chuyển động sớm hơn se bị mất Tương tự như vậy dòng thứ 3 thể hiện các MHI cho hành động đi bộ Dòng cuối cùng thể hiện MHI (ảnh thứ nhất và ảnh thứ ba) và MEI (ảnh thứ hai và ảnh thứ tư) cho hành động đi bộ khi T được thiết lặp là 250 với số khung hình là 100 2 ảnh đầu tiên được xem xét với δ = 3 trong khi 2 ảnh cuối cùng được xem xét với δ = 5 Các thông tin này quan trong dựa trên các yêu cầu của tập hành động
c Lựa chọn hàm cập nhật φ(x, y, t) cho phân khúc chuyển động
Rất nhiều các hệ thống phân tích chuyển động con người dựa trên thị giác bắt đầu bằng việc phát hiện người Phát hiện người nhằm mục đích phân khúc vùng nổi bật tương đồng của người từ phần còn lại của một ảnh Có thể coi đây là một vấn đề quan trọng đáng kể trong các hệ thống phân tích chuyển động người vì các tiến trình tiếp đó như theo dõi và nhận diện hành động phụ thuộc vào hiệu năng
và tính đúng của sự phân chia các vùng nổi bật Trừ nền, khác biệt khung, dòng quang học hay các phương pháp thống kê cho phép trừ là các cách tiếp cận nổi tiếng cho phân khúc chuyển động Dựa trên nền tĩnh (nền không có chuyển động) hoặc nền động, hiệu suất và phương thức cho phép trừ nền rất đa dạng Với nền tĩnh khi các yếu tố khác như ngoài trời hay cảnh lộn xộn không có, thì việc trừ nền
là không đáng kể
Phương thức sự khác biệt các khung cũng được sử dụng rộng rãi để phân khúc chuyển động Các phương thức khác biệt thời gian được sử dụng giữa hai hoặc ba khung liên tiếp được làm phù hợp với môi trường động Để sinh ra MHI và MEI, các phương thức khác biệt thời gian có kết quả rất tốt
Các phương thức dòng quang học có thể được sử dụng trong thế hệ của MHI và các phân khúc chuyển động cho các mục đích đa dạng Ahad [6] đã sử dụng dòng quang học trong các biến thể của MHI để phân khúc chuyển động để từ
đó trích xuất ra đối tượng chuyển động Tính toán chất lượng của dòng quang học
từ các khung hình liên tiếp là một công việc khó khăn Để tạo ra được các kết quả
Trang 19tốt hơn trong sự đại diện của chuyển động và hướng của chúng từ dòng quang học, phương thức đồng thuận mẫu ngẫu nhiên (Random Sample Consensus - RANSAC)
có thể được sử dụng để hạn chế các yếu tố ở xa MHI có thể được xây dựng dựa trên đó để cải thiện vector dòng quang học Do đó cần phải cung cấp hướng tốt hơn
và ảnh rõ ràng hơn cho một đại diện của chuyển động Ahad sử dụng bốn kênh của dòng quang học để tính toán MHI Trong trường hợp này thay vì trừ nền hay khung ảnh, một vector dòng quang học dựa trên gradient được tính toán φ(x, y, t) giữa hai khung liên tiếp và phân chia nó vào bốn kênh Nó dựa trên định nghĩa của
mô tả chuyển động trong phương thức dòng quang học tổng hợp và phẳng
Sự thay đổi thời tiết, điều kiện ánh sáng khác biệt, hành động lặp lại và sự hiển thị của chuyển động camera hoặc môi trường lộn xộn cản trở hiệu suất của cách tiếp cận phân vùng chuyển động Theo đó, một cách tiếp cận phù hợp là quan trọng dựa trên tập dữ liệu hoặc môi trường đặc biệt là môi trường ngoài trời Sự trích xuất vùng tối và gỡ bỏ nó từ phần chuyển động là một điều qua tâm khác trong lĩnh vực thị giác máy tính và là điều rất quan trọng trong việc sinh ra mẫu MHI
Trang 20d Sự phân tích và phân loại vector đặc trưng
Hình 2.5: Lược đồ luồng hệ thống điển hình của phương thức MHI cho việc nhận
dạng hành động 5Hình 2.5 thể hiện các pha của cách tiếp cận MHI cơ bản cho phân loại và nhận dạng chuyển động Theo như phương thức MHI căn bản, các vector đặc trưng được tính toán từ các ảnh MHI và MEI
Sau khi các vector đặc trưng được phát triển, sự phân loại được thực hiện và các chuyển động được nhận diện Các bước này được chỉ ra rất rõ trong sơ đồ luồng hệ thống của phương thức MHI Với việc phân loại, máy vector hỗ trợ (Support Vector Machine - SVM), K láng giềng gần nhất (K Nearest Neighbor), láng giềng gần nhất nhiều lớp(Multi Class Nearest Neighbor), khoảng cách Mahalanobis (Mahalanobis Distance) và khả năng lớn nhất (Maximum Likelihood
- ML) được sử dụng
5 Nguồn http://www academia edu/360567/Motion_history_image_its_variants_and_applications
Image Acquisition
Update Function
MHI
MEI Feature Vector
Classification
Recognition
Trang 212.2 Phương pháp phát hiện người
a Vector gradient
Có thể nói rằng một trong các khái niệm cơ bản rất quan trọng của thị giác máy tính là vector gradient, khái niệm này được sử dụng rất nhiều trong các thuật của toán thị giác máy tính, các thuật toán này thường liên quan đến tính toán các vector gradient cho từng điểm ảnh của 1 bức ảnh
Chúng ta có thể được tính toán vector gradient cho từng điểm ảnh của bức ảnh Nó đơn giản là đo đạcsự thay đổi các giá trị theo chiều ngang và dọc xung quanh mỗi điểm ảnh
Nếu xét với 1 bức ảnh xám, giá trị của các điểm ảnh từ 0 – 255, với 1 điểm ảnh các giá trị lân cận bên trái giả sử là 56 và bên phải là 94 thì chúng ta có sự thay đổi là 94 – 56 = 38 Tương tự như vậy giả sự giá trị lân cận trên và dưới của điểm ảnh lần lượt là 93 và 55 thì sự thay đổi theo chiều dọc là 93 – 55 = 38 Đặt 2 giá trị vừa tính được ở phía trên cùng nhau chúng ta sẽ thu được vector gradient tại điểm đang xét 3838
Trang 22Hình 2.6: Minh họa cách cách tính toán vector gradient 6Ngoài ra chúng ta cũng có thể sử dụng các công thức để tính ra được góc cũng như độ lớn của vector
Độ lớn = 382 + 382 = 53 74
Góc = arctan (38
38) = 45 độ
b Phương pháp phát hiện ngưởi sử dụng HOG
Phương pháp phát hiện người sử dụng HOG và cách tiếp cận SVM hiện là một trong các phương pháp phát hiện người phổ biến và thành công nhất hiện nay HOG (viết tắt của Histograms of Oriented Gradients –Lược đồ gradient định
6 Nguồn https://chrisjmccormick wordpress com
Trang 23hướng) là 1 dạng của mô tả đặc trưng Mô tả đặc trưng có ý nghĩa trong việc tổng quát hóa đối tượng theo một cách khác diễn tả khác để đối tượng tương đồng (trong trường hợp này là 1 người) để có thể có các mô tả đặc trưng gần nhất với nó nhất dù ở trong các điều kiện khác nhau Với các mô tả đặc trưng công việc phân loại trở nên dễ dàng hơn vì khi đó việc xem xét sự tương đồng của các đối tượng được dựa trên việc tính toán khoảng cách giữa các mô tả đặc trưng, thường được biểu diễn dưới dạng các vector đa chiều
Phương pháp phát hiện người HOG có thể coi là 1 phương pháp tương đối đơn giản so với các phương pháp khác Một trong những nguyên nhân chính của sự đơn giản này là phương pháp đã sử dụng đặc trưng toàn cục để mô tả 1 người chứ không thu thập các đặc trưng cục bộ Nói một cách đơn giản hơn, mỗi một người trong ảnh sẽ được đại diện bởi một vector đặc trưng
Phương pháp này sử dụng một cửa sổ phát hiện dạng trượt với kích thước 64x128 di chuyển qua toàn bộ bức ảnh
Hình 2.7: Minh họa các mẫu cửa sổ tìm kiếm kích thước 64x1287
Tại mỗi cửa sổ này, Một mô tả HOG sẽ được tính toán cho cửa sổ tương ứng bằng cách tạo ra các ô kích thước 8x8 trong cửa sổ tìm kiếm Trong mỗi ô, các vector gradient cho từng điểm ảnh sẽ được tính toán, vậy nên chúng ta sẽ có 64 vector cho 1 ô kích thước 8x8
Trang 24Hình 2.8: Minh họa ô kích thước 8x8 trong cửa sổ tìm kiếm8
64 vector này sẽ được đặt vào 9 bin histogram (Khoảng của histogram chạy
từ 0-180 và mỗi bin sẽ ứng với 1 vùng giá trị 20 độ) Với mỗi vector gradient, sự đóng góp vào histogram chính là độ lớn của vector Độ lớn này sẽ được phân chia vào 2 bin gần nhất Ví dụ 1 vector có góc là 85 độ thì ¼ độ lớn của nó sẽ được thêm vào bin 70 và ¾ độ lớn sẽ được thêm vào bin 90
8 Nguồn https://chrisjmccormick wordpress com
Trang 25Hình 2.9: Minh họa cho HOG 9Bước tiếp theo để tính toán vector đặc trưng là chuẩn hóa biểu đồ Chúng ta
có thể nhân 1 lượng bất biến vào các giá trị của điểm ảnh Điều này có thể dẫn tới việc gia tăng độ tương phản do các điểm ảnh sáng sẽ sáng hơn nhiều trong khi điểm ảnh tối chỉ sáng lên 1 chút
Trang 26Hình 2.10: Minh họa cho việc cộng thêm và nhân thêm vào giá trị của từng
điểm ảnh 10Ngoài ra điều này còn làm gia tăng độ lớn của vector gradient một lượng bằng với lượng chúng ta nhân vào từng điểm ảnh nhưng khi đem chia vector đó cho độ lớn của nó thì kết quả không đổi so với trước khi nhân Từ đó có thể thấy kết quả của vector gradient chia cho độ lớn của nó bất biến khi thay đổi điền kiện tương phản Chia vector cho độ lớn của nó có thể quy về chuẩn hóa vector tới độ dài đơn vị vì vector kết quả có độ lớn bằng 1 Chuẩn hóa vector không ảnh hưởng đến hướng mà chỉ ảnh hưởng đến độ lớn
10 Nguồn https://chrisjmccormick wordpress com
Trang 27Hình 2.11: Minh họa cho sự thay đổi giá trị các vector gradient khi có sự
thay đổi về ánh sáng 11Giá trị của từng bin trong histogram được dựa trên độ lớn của các vector gradient trong ô 8x8 Nếu mỗi ô được nhân với 1.5 chúng ta sẽ có độ lớn của mỗi vector sẽ được nhân lên 1.5 Điều này có nghĩa độ lớn các bin cũng sẽ được nhân lên 1.5 Thông qua chuẩn hóa chúng ta có thể có được sự bất biến trong cách thay đổi ánh sáng này
Chúng ta thay vì chuẩn hóa từng histogram riêng biệt của từng ô, các ô này trước tiên sẽ được nhóm vào các khối và chuẩn hóa dựa trên tât cả histogram trong khối đó Các khối ở đây có kích thước 2x2 ô và có 50% bị chồng lấp (Có nghĩa 2 khối có các vùng chung) Việc chuẩn hóa khối này được thực hiện bởi sự móc nối các histogram trong 4 ô của khối vào 1 vector có 36 thành phần (4 biểu đồ x 9 bin) Chia vector này cho độ lớn của chúng để thực hiện chuẩn hóa Ảnh hưởng của sự