Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH
Nguyễn Thị Hồng Nhiên
PHÁT HIỆN MỘT SỐ HÀNH VI VI PHẠM NỘI QUY CỦA HỌC SINH TRUNG HỌC CƠ SỞ DỰA TRÊN BAG OF WORDS VÀ MÁY HỌC
LUẬN VĂN THẠC SĨ MÁY TÍNH
Thành phố Hồ Chí Minh – 2017
Trang 2TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH
Nguyễn Thị Hồng Nhiên
PHÁT HIỆN MỘT SỐ HÀNH VI VI PHẠM NỘI QUY CỦA HỌC SINH TRUNG HỌC CƠ SỞ DỰA TRÊN BAG OF WORDS VÀ MÁY HỌC
Chuyên ngành: Khoa học máy tính
Mã số: 60 48 01 01
LUẬN VĂN THẠC SĨ MÁY TÍNH
NGƯỜI HƯỚNG DẪN KHOA HỌC:
TS NGÔ QUỐC VIỆT
Thành phố Hồ Chí Minh – 2017
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn này là sản phẩm nghiên cứu của tôi và số liệu trong luận văn được điều tra trung thực Mọi tham khảo dùng trong luận văn đều được trích dẫn nguồn rõ ràng và có độ chính xác cao trong phạm vi hiểu biết của học viên
Tôi xin chịu trách nhiệm về nghiên cứu của mình
Học viên thực hiện
Nguyễn Thị Hồng Nhiên
Trang 4
LỜI CẢM ƠN
Lời đầu tiên, tôi xin bày tỏ lòng biết ơn sâu sắc đến TS Ngô Quốc Việt, người
đã tận tình chỉ dẫn, góp ý và động viên tôi trong suốt quá trình hoàn thiện luận văn
Tôi xin chân thành cảm ơn các thầy cô khoa Công Nghệ Thông Tin trường Đại học Sư Phạm TP HCM, trường Đại học Bách Khoa TP.HCM, trường Đại học Khoa học Tự nhiên TP.HCM, trường Đại học Kinh Tế TP.HCM đã trực tiếp giảng dạy tôi,
đã giúp tôi có cơ hội học tập và nâng cao trình độ trong chuyên ngành Khoa Học Máy Tính
Tôi xin cảm ơn các thầy cô đồng nghiệp, các bạn học viên cao học lớp K26 trường Đại học Sư Phạm TP HCM, các em học sinh trường THPT Tân Bình đã giúp tôi trong quá trình học tập và tiến hành TN
KHMT-Xin gửi lời cảm ơn Phòng Sau đại học - trường Đại học Sư Phạm TP HCM, đã tạo điều kiện thuận lợi để luận văn được hoàn thành đúng tiến độ
Cuối cùng tôi xin gửi lời tri ân sâu sắc đến gia đình, đã là ch dựa v ng chắc cho tôi trong nh ng lúc khó khăn nhất để tôi có thể hoàn thành tốt luận văn
M c dù tôi đã cố gắng hết sức nhưng với thời gian có hạn nên luận văn còn có nhiều khuyết điểm và thiếu sót Kính mong nhận được sự góp ý, nhận x t, xây dựng của thầy cô và các bạn để luận văn được hoàn chỉnh hơn
Một lần n a, tôi xin gửi lời tri ân đến tất cả mọi người
TP Hồ Chí Minh, ngày 28 tháng 9 năm 2017
Tác giả
Nguyễn Thị Hồng Nhiên
Trang 5MỤC LỤC
Trang phụ bìa
Lời cam đoan
Lời cảm ơn
Mục lục
Danh mục các ch viết tắt
Danh mục các bảng
Danh mục các hình
MỞ ĐẦU 1
Chương 1 CƠ SỞ LÍ LUẬN VÀ THỰC TIỄN CỦA ĐỀ TÀI 5
1.1 Tổng quan về vấn đề nghiên cứu 5
1.1.1 Các công trình, đề tài nghiên cứu trong nước 5
1.1.2 Các công trình, đề tài nghiên cứu nước ngoài 6
1.2 Cơ sở lý thuyết và nh ng khái niệm cơ bản 8
1.2.1 D liệu video số 8
1.2.2 Quá trình xử lý ảnh 9
1.2.3 Phát hiện đối tượng chuyển động 10
1.2.4 Phương pháp biểu diễn ảnh dựa trên đ c trưng cục bộ SIFT và Bag of Words 11
1.2.5 Phân loại đối tượng 14
Tóm tắt chương 1 17
Chương 2 CƠ SỞ LÝ THUYẾT VỀ PHÁT HIỆN HÀNH VI VI PHẠM NỘI QUY CỦA HỌC SINH TRUNG HỌC CƠ SỞ DỰA TRÊN BAG OF WORDS VÀ MÁY HỌC 19
2.1 Phương pháp trừ nền phát hiện chuyển động 19
2.1.1 Thuật toán trừ nền cơ bản 19
2.1.2 Thuật toán trừ nền trung bình 20
2.1.3 Gaussian Mixture Model 21
2.2 Trích chọn đ c trưng cục bộ bất biến (SIFT) 24
2.2.1 Phát hiện các điểm cực trị trong không gian đo 25
Trang 62.2.2 Định vị các điểm tiềm năng 27
2.2.3 Xác định hướng cho keypoint 29
2.2.4 Mô tả các điểm đ c trưng 29
2.3 Phương pháp biễu diễn ảnh dựa trên mô hình Bag of Words 30
2.4 Support Vector Machine 34
Tóm tắt chương 2 41
Chương 3 THỰC NGHIỆM 44
3.1 Phát biểu bài toán 44
3.2 Mục đích thực nghiệm 44
3.3 Lựa chọn thuật toán 45
3.4 Môi trường thực nghiệm 45
3.5 Tiến hành thực nghiệm 45
Tóm tắt chương 3 58
KẾT LUẬN VÀ KIẾN NGHỊ 59
TÀI LIỆU THAM KHẢO 62
Trang 7DANH MỤC CÁC BẢNG
Hình 1.1 Cấu trúc tổng quát của video 9
Hình 1.2 Sơ đồ các bước cơ bản của quá trình xử lý ảnh 10
Hình 1.3 Quá trình huấn luyện ảnh 15
Hình 1.4 Quá trình kiểm thử ảnh 15
Hình 1.5 Sơ đồ giải quyết bài toán phát hiện hành vi HS 18
Hình 2.1 Hàm mật độ Gauss 21
Hình 2.2 Mô hình GMM 22
Hình 2.3 Sơ đồ các bước cơ bản trong thuật toán SIFT 25
Hình 2.4 Quá trình tính không gian đo (L) và hàm sai khác DoG 26
Hình 2.5 Quá trình tìm điểm cực trị trong các hàm sai khác DoG 27
Hình 2.6 Mô tả quá trình tạo bộ mô tả cục bộ 29
Hình 2.7 Mô hình Bag of Words 31
Hình 2.8 Các bước biểu diễn ảnh của Bag of Words 31
Hình 2.9 Rút trích đ c trưng bằng “Segmentation-based patches” 32
Hình 2.10 Bộ từ điển các từ trực quan 33
Hình 2.11 Học “visual vocabulary” 33
Hình 2.12 Bộ từ điển các từ trực quan được học từ nhóm khuôn m t 34
Hình 2.13 Biểu diễn ảnh bằng Bag of Words 34
Hình 2.14 Ánh xạ Φ từ không gian Input vào không gian feature 35
Hình 2.15 Học siêu phẳng tối ưu trong không gian feature 36
Hình 2.16 Kết quả phát hiện chuyển động bằng trừ nền trung bình và GMM 41
Hình 2.17 Kết quả biểu diễn ảnh bằng Bag of Words 42
Hình 2.18 Kết quả nhận dạng hành vi HS không đeo khăn quàng (KKQ) 42
Hình 2.19 Kết quả nhận dạng hành vi HS đeo khăn quàng (KQ) 43
Hình 3.1 Một số ảnh chụp cả người 46
Hình 3.2 Một số ảnh được crop ở khu vực cổ HS 47
Hình 3.3 Một số ảnh chụp khu vực cổ HS 48
Hình 3.4 Một số khung hình từ video “HSLOP8.mp4” 49
Hình 3.5 Phát hiện chuyển động bằng GMM với video HSLOP7B.mp4 51
Trang 8Hình 3.6 Phát hiện chuyển động bằng GMM với video HSLOP8-KKQ.mp4 51
Hình 3.7 Phát hiện chuyển động bằng GMM với video HSLOP8.mp4 52
Hình 3.8 Kết quả tìm kiếm đ c trưng SIFT 52
Hình 3.9 Kết quả tìm điểm đ c trưng SIFT và các điểm trùng khớp trong ảnh 53
Hình 3.10 Kết quả nhận dạng hành vi HS trong video HSLOP7A.mp4 55
Hình 3.11 Kết quả nhận dạng hành vi HS trong video HSLOP7B.mp4 56
Hình 3.12 Kết quả nhận dạng hành vi HS trong video HSLOP8-KKQ.mp4 57
Trang 9
DANH MỤC CÁC HÌNH VẼ
Hình 1.1 Cấu trúc tổng quát của video 9
Hình 1.2 Sơ đồ các bước cơ bản của quá trình xử lý ảnh 10
Hình 1.3 Quá trình huấn luyện ảnh 15
Hình 1.4 Quá trình kiểm thử ảnh 15
Hình 1.5 Sơ đồ giải quyết bài toán phát hiện hành vi HS 18
Hình 2.1 Hàm mật độ Gauss 21
Hình 2.2 Mô hình GMM 22
Hình 2.3 Sơ đồ các bước cơ bản trong thuật toán SIFT 25
Hình 2.4 Quá trình tính không gian đo (L) và hàm sai khác DoG 26
Hình 2.5 Quá trình tìm điểm cực trị trong các hàm sai khác DoG 27
Hình 2.6 Mô tả quá trình tạo bộ mô tả cục bộ 29
Hình 2.7 Mô hình Bag of Words 31
Hình 2.8 Các bước biểu diễn ảnh của Bag of Words 31
Hình 2.9 Rút trích đ c trưng bằng “Segmentation-based patches” 32
Hình 2.10 Bộ từ điển các từ trực quan 33
Hình 2.11 Học “visual vocabulary” 33
Hình 2.12 Bộ từ điển các từ trực quan được học từ nhóm khuôn m t 34
Hình 2.13 Biểu diễn ảnh bằng Bag of Words 34
Hình 2.14 Ánh xạ Φ từ không gian Input vào không gian feature 35
Hình 2.15 Học siêu phẳng tối ưu trong không gian feature 36
Hình 2.16 Kết quả phát hiện chuyển động bằng trừ nền trung bình và GMM 41
Hình 2.17 Kết quả biểu diễn ảnh bằng Bag of Words 42
Hình 2.18 Kết quả nhận dạng hành vi HS không đeo khăn quàng (KKQ) 42
Hình 2.19 Kết quả nhận dạng hành vi HS đeo khăn quàng (KQ) 43
Hình 3.1 Một số ảnh chụp cả người 46
Hình 3.2 Một số ảnh được crop ở khu vực cổ HS 47
Hình 3.3 Một số ảnh chụp khu vực cổ HS 48
Hình 3.4 Một số khung hình từ video “HSLOP8.mp4” 49
Hình 3.5 Phát hiện chuyển động bằng GMM với video HSLOP7B.mp4 51
Trang 10Hình 3.6 Phát hiện chuyển động bằng GMM với video HSLOP8-KKQ.mp4 51
Hình 3.7 Phát hiện chuyển động bằng GMM với video HSLOP8.mp4 52
Hình 3.8 Kết quả tìm kiếm đ c trưng SIFT 52
Hình 3.9 Kết quả tìm điểm đ c trưng SIFT và các điểm trùng khớp trong ảnh 53
Hình 3.10 Kết quả nhận dạng hành vi HS trong video HSLOP7A.mp4 55
Hình 3.11 Kết quả nhận dạng hành vi HS trong video HSLOP7B.mp4 56
Hình 3.12 Kết quả nhận dạng hành vi HS trong video HSLOP8-KKQ.mp4 57
Trang 11MỞ ĐẦU
1 Lý do chọn đề tài
Giám sát tự động là một hướng nghiên cứu về các phương pháp phát hiện, theo dõi, nhận biết, phân tích và hiểu các hành vi hoạt động của các đối tượng được giám sát một cách tự động dựa trên các kỹ thuật xử lý ảnh kết hợp với máy học Hiện nay, đây là một trong nh ng chủ đề rất được quan tâm trong lĩnh vực thị giác máy tính và ứng dụng trong nhiều lĩnh vực của đời sống xã hội
Thực tế, ngày càng nhiều các hệ thống giám sát bằng camera được sử dụng và mang lại hiệu quả nhất định trên một số lĩnh vực như giám sát hoạt động con người, giám sát giao thông hay lĩnh vực an ninh… Trong giao thông, camera được lắp đ t ở nơi đường giao nhau, đường hầm, bến xe để giám sát giao thông nhằm điều phối phân làn giao thông, dự báo tình trạng ùn tắc, phát hiện các phương tiện vi phạm giao thông Các siêu thị hay bảo tàng, người ta dùng hệ thống camera để giám sát hoạt động của nhân viên, khách hàng, hàng hóa, các vật trưng bày để tránh bị mất cắp Trong lĩnh vực an ninh, các vùng nhạy cảm cần sử dụng hệ thống camera giám sát để phát hiện kịp thời nh ng hành vi bất thường Việc lắp đ t camera trong nhà trường, sẽ giúp
nh ng người quản lý có thể quan sát được tình hình dạy và học, các hoạt động của học sinh trong trường để phát hiện kịp thời các hành vi vi phạm nội quy của học sinh và hạn chế bạo lực học đường
Ngày nay, hệ thống camera giám sát đã sử dụng ở nhiều mức độ khác nhau Từ
hệ thống thủ công đến bán tự động và hệ thống hoàn toàn tự động Hệ thống camera giám sát thủ công cần có người giám sát trực tiếp và chỉ h trợ lưu d liệu ho c trích xuất các đoạn video khi cần thiết Hệ thống giám sát hoàn toàn tự động thì có khả năng thực hiện nhiệm vụ giám sát từ phát hiện đối tượng chuyển động tới phát hiện sự kiện, hành vi của đối tượng được giám sát mà không cần sự can thiệp của con người Ở Việt Nam, các hệ thống giám sát chủ yếu ở mức độ thủ công bởi vì giám sát tự động là một hướng nghiên cứu mới, chưa có nhiều sản phẩm và chi phí cao
Cụ thể như trong lĩnh vực giáo dục, hầu hết các trường học đều sử dụng hệ thống camera giám sát thủ công nên việc theo dõi, quản lý HS thực hiện nội quy nhà trường
Trang 12chưa mang lại hiệu quả cao Chẳng hạn, một trường học có lắp đ t hệ thống giám sát với hơn 20 camera ở các vị trí khác nhau thì tại một thời điểm một giám thị, đóng vai trò giám sát viên, không thể quan sát đầy đủ tất cả các đối tượng trong hệ thống, điều này dẫn đến việc bỏ sót các cảnh quan trọng tại các camera và kết quả là không thể phát hiện và ghi nhận hết tất cả các hành vi vi phạm của HS
Chính vì vậy, việc nghiên cứu kỹ thuật xử lý ảnh kết hợp với mô hình máy học
để h trợ xây dựng hệ thống camera giám sát tự động phát hiện một số hành vi vi phạm của HS THCS trong thực hiện nội quy nhà trường Đây là bài toán thú vị, nhiều thách thức và có ý nghĩa thực tiễn
Vì nh ng lý do trên mà tôi chọn đề tài “Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học” làm đề tài luận văn của mình
2 Mục đích nghiên cứu
Nghiên cứu kỹ thuật xử lý ảnh kết hợp với mô hình máy học để h trợ xây dựng
hệ thống camera giám sát tự động phát hiện một số hành vi của HS THCS trong thực hiện nội quy nhà trường, góp phần giảm áp lực công tác quản lý HS và giúp các em tự giác thực hiện nội quy nhà trường
Mục tiêu: từ d liệu video thu được ở các phòng học, tìm một số thuật toán hợp
lý để phân loại và xác định hành vi HS
3 Nhiệm vụ nghiên cứu
- Nghiên cứu cơ sở lí luận liên quan đến bài toán phát hiện hành vi “Action detection”, các thuật toán phát hiện đối tượng chuyển động trong video, phương pháp biểu diễn ảnh dựa trên đ c trưng SIFT và Bag of Words, phân loại đối tượng
- Nghiên cứu một số vấn đề thực tiễn liên quan đến đề tài
- Đề xuất giải pháp để giải quyết bài toán phát hiện hành vi vi phạm HS THCS trong thực hiện nội quy nhà trường
- Xây dựng chương trình có chức năng phát hiện hành vi vi phạm của HS THCS trong thực hiện nội quy nhà trường như không đeo khăn quàng, có thể mở rộng phát hiện hành vi “bỏ áo ngoài quần”
4 Đối tƣợng và khách thể nghiên cứu
- Đối tượng nghiên cứu: các thuật toán phát hiện đối tượng chuyển động, phương
Trang 13pháp biểu diễn ảnh dựa trên đ c trưng cục bộ SIFT và mô hình Bag of Words và mô
hình máy học để phân loại đối tượng
- Khách thể nghiên cứu: các hình ảnh, video ghi nhận hoạt động của HS tại
trường THPT Tân Bình (cấp 2, 3) huyện Bắc Tân Uyên, tỉnh Bình Dương
+ HS đi thẳng, trực diện và góc nghiêng không đáng kể
+ HS đi đơn, nếu đi đôi, ba thì đi song song ho c m i người cách nhau khoảng xác định
+ Phông nền của ảnh không quá phức tạp
+ Video, ảnh được thu thập trong điều kiện ánh sáng ban ngày và không bị chói hay quá sáng
- Phát hiện hành vi HS không đeo khăn quàng hay bỏ áo ngoài quần
- Thời gian nghiên cứu: từ tháng 09/2016 đến tháng 09/2017
6 Giả thuyết khoa học
Nếu chúng tôi thực hiện thành công chương trình có chức năng đọc d liệu video và phát hiện hành vi HS không đeo khăn quàng hay bỏ áo ngoài quần sẽ h trợ đắc lực cho công tác quản lý HS THCS trong việc thực hiện nội quy nhà trường, góp phần ổn định nề nếp HS
7 Phương pháp nghiên cứu và phương tiện nghiên cứu
7.1 Phương pháp nghiên cứu
- Phương pháp nghiên cứu lý thuyết: Đọc và nghiên cứu các tài liệu có liên quan
đến đề tài; sử dụng phối hợp các phương pháp phân tích, tổng hợp, hệ thống hóa, khái
quát hóa
Trang 14- Phương pháp thực nghiệm: Chụp hình, quay video về HS THCS trường THPT
Tân Bình thực hiện nội quy nhà trường; tìm hiểu code về các thuật toán phát hiện chuyển động, phương pháp biểu diễn ảnh bằng đ c trưng SIFT và mô hình Bag of Words, các mô hình máy học để phân loại đối tượng; tiến hành phân tích và cài đ t chương trình bằng Python có thể đọc d liệu video và phát hiện hành vi HS THCS không đeo khăn quàng hay bỏ áo ngoài quần
7.2 Phương tiện nghiên cứu
- Các loại tài liệu tham khảo: báo, tạp chí, sách và một số trang web liên quan đến đề tài
- Ngôn ng lập trình Python và thư viện Open Computer Vission (OpenCV)
Trang 15Chương 1 CƠ SỞ LÍ LUẬN VÀ THỰC TIỄN CỦA ĐỀ TÀI 1.1 Tổng quan về vấn đề nghiên cứu
1.1.1 Các công trình, đề tài nghiên cứu trong nước
Hiện nay, xử lý ảnh và thị giác máy tính là lĩnh vực được nhiều người quan tâm, nghiên cứu, phát triển và có nhiều ứng dụng thực tiễn Vì vậy, ở Việt Nam có một số tác giả đã trình bày về lĩnh vực này như:
Luận án tiến sĩ của Nguyễn Văn Căn với đề tài “Nghiên cứu phát triển một số thuật toán phát hiện và phân loại phương tiện từ d liệu video giao thông” đã làm phong phú hơn về lí luận cho phương pháp phát hiện và phân loại đối tượng chuyển động trong video Luận án đã xây dựng một tập các phương pháp trích chọn các đ c trưng phương tiện chuyển động, biểu diễn và xử lý các đ c trưng của phương tiện theo từng cấp độ phù hợp cho phân loại và đếm đối tượng gồm đ c trưng khối chuyển động; đ c trưng hình dạng và kích thước đối tượng; đ c trưng luồng quang học; đ c trưng đường viền đối tượng [1]
“Kết hợp so khớp Spatial Pyramid và vector h trợ SVM trong nhận dạng khung cảnh tự nhiên” là đề tài luận văn thạc sĩ của tác giả Nguyễn Thị Ngọc Hà đã giới thiệu tổng quan về bài toán nhận dạng ảnh, trình bày cụ thể cách trích chọn đ c trưng SIFT, mô hình kết hợp của Spatial Pyramid với phương pháp SVM để nhận dạng khung cảnh tự nhiên [2]
Bài báo “Một phương pháp phát hiện đối tượng và ứng dụng trong hệ thống tự động bám mục tiêu” của các tác giả Nguyễn Văn Hùng, Nguyễn Văn Xuất, Lê Mạnh Cường đã đề xuất một phương pháp dựa trên kỹ thuật xử lý ảnh và các thuật toán máy học để phát hiện các mục tiêu quân sự Phương pháp đề xuất dựa trên các đ c trưng hình dạng và màu sắc để tìm đối tượng trong ảnh được chụp từ một camera [3]
Tác giả Tạ Thị Ái Nhi đã trình bày phương pháp trừ nền (Frame Difference, Running Gaussian Average, Codebook) để phát hiện đối tượng; phương pháp phát hiện khuôn m t người (đ c trưng Haar-like, thuật toán Adaboost, …); phương pháp theo vết đối tượng (Meanshift, Camshift) trong luận văn thạc sĩ “Phát hiện và theo vết người từ d liệu video” [4]
Trang 16 Luận văn thạc sĩ “Phát hiện đột nhập bằng camera theo dõi” của Nguyễn Quang Quý đã giới thiệu tổng quan về hệ thống giám sát bằng camera, bài tốn phát hiện chuyển động và ứng dụng Tác giả đã trình bày một số thuật giải như giải thuật trừ nền cơ bản (Simple Background Subtraction); giải thuật trừ nền trung bình (Running Average); giải thuật Σ-Δ (Σ-Δ Estimation); giải thuật Σ-Δ cải tiến (Multiple Σ-Δ Estimation); … [5]
Tác phẩm “Lọc ảnh với mơ hình túi từ trực quan và thuật tốn RMNB” của các tác giả Nguyễn Minh Trung, Nguyễn Ngọc Hưng và Đ Thanh Nghị
ARCX4-đã giới thiệu một phương pháp mới phát hiện nh ng ảnh khiêu dâm dựa trên sự kết hợp gi a phương pháp biểu diễn ảnh bằng các n t đ c trưng cục bộ với nh ng biến đổi
tỉ lệ (Scale Invariant Feature Transform), mơ hình túi từ (Bag of Words) và giải thuật ArcX4 của random Multinomial Nạve Bayes) [6]
1.1.2 Các cơng trình, đề tài nghiên cứu nước ngồi
Trên thế giới, cĩ nhiều cơng trình nghiên cứu liên quan đến phương pháp phát hiện hành động của đối tượng dựa vào kỹ thuật xử lý ảnh kết hợp với máy học như:
Các tác giả Bashar Tahayna, Mohammed Belkhatir, Saadat M Alhashmi, Thomas O'Daniel đã cho rằng dựa vào nh ng keypoint quan trọng được rút trích, hành động của con người cĩ thể được mơ tả như là một "túi từ trực quan" Cách mơ tả này thường được sử dụng trong việc phân loại các d liệu hình ảnh và video Các lựa chọn đại diện liên quan đến kích thước, lựa chọn, và trọng số của từ trực quan là rất quan trọng để thực hiện phân loại Trong bài báo, họ đã giải quyết vấn đề phân loại hành động con người hiệu quả bằng cách chọn một “túi từ” tối ưu để đại diện cho một hành động và giới thiệu thuật tốn phân lớp SVM để giảm kích thước, lựa chọn tập hợp đ c trưng, các từ trực quan cĩ trọng lượng và lựa chọn tham số SVM Tác động của việc tối ưu hĩa này để phân loại hành động con người được nghiên cứu thơng qua các thí nghiệm trên các tập d liệu TRECVID và CMU [7]
Cơng trình “Video Event Classification Using Bag of Words and String Kernels” của các tác giả Lamberto Ballan, Marco Bertini, Alberto Del Bimbo và Giuseppe Serra đã trình bày nhận dạng các sự kiện trong video là một việc làm đầy thách thức trong phân tích video một cách tự động Hiện nay, một trong
Trang 17nh ng cách nhận dạng đối tượng được sử dụng thành công là phương pháp “túi từ” (Bag of Words) Bài báo này đã đưa ra một phương pháp mới nhằm giới thiệu thông tin thay đổi theo thời gian (temporal information) trong cách tiếp cận của Bag of Words Sự kiện có thể mô hình hóa như một chu i gồm các biểu đồ histogram, được tính từ m i khung hình bằng cách sử dụng mô hình Bag of Words truyền thống Các trình tự được xem như các chu i, trong đó m i biểu đồ được coi là đ c trưng Phân loại sự kiện của nh ng trình tự có kích thước thay đổi, tùy thuộc vào độ dài của video clip, được thực hiện bằng cách sử dụng phân loại SVM với hàm nhân (Kernel) Kết quả thực nghiệm thực hiện trên hai bộ d liệu soccer video và TRECVID 2005 chứng minh giá trị của phương pháp đã được đề xuất [11]
Tác giả Junsong Yuan và Zicheng Liu tập trung vào việc phát hiện hành động của con người dựa trên video, mà gần đây đã được chứng minh là rất h u ích trong một loạt các ứng dụng bao gồm cả giám sát video, theo dõi từ xa bệnh nhân và người già, chẩn đoán y tế và đào tạo, phân tích nội dung video và tìm kiếm, và tương tác người máy (HCI) Hành động có thể được đ c trưng bởi mô hình không gian-thời gian Tương tự như phát hiện đối tượng, phát hiện hành động tìm sự l p lại các mô hình không gian-thời gian thông qua mô hình kết hợp Khác với nhận dạng hành động, phân loại hành động, ở ch m i hành động được phân loại vào một trong các lớp hành động được xác định trước, việc phát hiện hành động cần xác định không nh ng ở các loại hành động xảy ra mà còn nơi (vị trí không gian của hình ảnh) và khi nào (định vị thời gian) nó xảy ra trong video Nói chung, đó là một vấn đề khó khăn hơn so với phân loại hành động M t khác, so với việc bắt chuyển động của con người đòi hỏi phải thu hồi tư thế đầy đủ và chuyển động của cơ thể con người, nhiệm vụ phát hiện hành động chỉ cần phát hiện các lần xuất hiện của một loại nhất định của hành động Tác phẩm đã nêu các đ c trưng video phổ biến, các phương pháp phát hiện và giới thiệu một số tài nguyên trực tuyến h u ích [10]
Tác giả Gang Yu và Junsong Yuan nhắm mục tiêu vào việc tạo ra các đề xuất hành động cùng loại trong video M i đề xuất hành động tương ứng với một chu i thời gian trong phạm vi không gian, tức là một video giới hạn không gian -thời gian có khả năng xác định vị trí một hành động của con người Giả sử m i hành động được thực
Trang 18hiện bởi một con người với chuyển động có ý nghĩa, sự xuất hiện và các tín hiệu chuyển động được sử dụng để đo “actionness” của video Sau khi chọn các video có điểm số “actionness” cao, các đề xuất của chúng tôi được trình bày rõ ràng, chính xác như bài toán lớn, bao quát để chọn một tập hợp đề xuất hành động đó có thể tối đa hóa điểm “actionness” So với phương pháp tiếp cận đề xuất hành động hiện có, phương pháp của chúng ta không dựa trên phân đoạn trên video mà có thể được tạo ra gần thời gian thực Kết quả TN trên hai tập d liệu MSRII và UCF 101 nhằm xác nhận hiệu suất cao của các đề xuất hành động của chúng tôi cũng như kết quả cạnh tranh trên phát hiện hành động và tìm kiếm [9]
Nhìn chung, các tác phẩm, luận án, luận văn ở trên đều được các tác giả đầu tư rất nhiều công sức và tâm huyết nên có nh ng đóng góp rất lớn trong lĩnh vực xử lý ảnh và thị giác máy tính
Kết quả nghiên cứu của các công trình, đề tài trên vừa là cơ sở khoa học vừa là nguồn tư liệu quý báu giúp chúng tôi tiếp tục nghiên cứu, khám phá lĩnh vực này và vận dụng kiến thức để xây dựng ứng dụng có thể phát hiện một số hành vi vi phạm của
HS THCS trong thực hiện nội quy nhà trường dựa trên Bag of Words và máy học Nó
có thể h trợ cho việc xây dựng hệ thống camera giám sát tự động trong nhà trường Đây là một việc làm có ý nghĩa thực tiễn, góp phần nâng cao chất lượng giáo dục
1.2 Cơ sở lý thuyết và những khái niệm cơ bản
1.2.1 Dữ liệu video số
Thuật ng video dùng để chỉ nguồn thông tin hình ảnh trực quan, gồm một chu i các ảnh tĩnh liên tiếp nhau, được sắp xếp theo chiều thời gian
Định nghĩa 1.1 Video số
Trang 19Video số là một dãy các khung hình liên tiếp, m i khung hình tương ứng với một hình ảnh tĩnh Khi video được thực hiện, dãy khung hình được hiển thị tuần tự với một tốc độ nhất định Tốc độ hiển thị các khung hình thường là 30
ho c 25 khung hình/giây [1]
Hình 1.1 Cấu trúc tổng quát của video
Một số đặc trƣng của video gồm:
Màu sắc: là một đ c trưng cơ bản của ảnh Lược đồ màu là biểu diễn sự phân
bố màu trong ảnh Biểu đồ màu phụ thuộc vào hệ màu và các phương pháp lượng tử hóa ảnh được dùng
Kết cấu: là một đ c trưng quan trọng của bề m t khung hình Biểu diễn kết
cấu gồm ma trận đồng thời và Tamura Ma trận đồng thời mô tả hướng và khoảng cách
gi a các điểm ảnh Tamura gồm các thuộc tính đo tính thô, độ tương phản, hướng, tính trơn, tính cân đối và độ thô ráp
Hình dạng: là đ c trưng có thể chia thành đ c trưng toàn cục và đ c trưng cục
bộ Đ c trưng toàn cục thu được từ toàn bộ hình dáng đối tượng trong ảnh Đ c trưng cục bộ thu được từ việc thao tác với một phần của ảnh, không phụ thuộc vào toàn bộ ảnh
Chuyển động: là một thuộc tính quan trọng của video
Trang 20Hình 1.2 Sơ đồ các bước cơ bản của quá trình xử lý ảnh
Thu nhận ảnh: là thu ảnh qua một bộ thu ảnh và số hóa nh ng tín hiệu liên tục
được ra bởi bộ thu ảnh đó
Tiền xử lý: các thao tác xử lý tác động lên ảnh như cải thiện độ tương phản của
ảnh, khử nhiễu, cắt xén ảnh, …nhằm giúp ảnh trở nên thích hợp hơn cho các thao tác
xử lý tiếp theo
Phân đoạn: Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp về nhiều
phần tử khác nhau cấu tạo nên ảnh thô Quá trình phân đoạn ảnh gồm phân vùng ảnh
và trích chọn đ c trưng của ảnh
Biểu diễn: các đối tượng được tách ra từ khối phân đoạn sẽ được biểu diễn một
cách chính xác với các đ c trưng của từng đối tượng riêng biệt
Phân lớp: xác định xem các đối tượng riêng biệt được tách ra từ các khối trước
đó có phải là đối tượng cần quan tâm hay không
1.2.3 Phát hiện đối tƣợng chuyển động
Trong thị giác máy tính, phát hiện đối tượng là một giải pháp được sử dụng rộng rãi trên toàn thế giới Phương pháp này ứng dụng các kỹ thuật xử lý ảnh và các thuật toán máy học để tìm các đối tượng trong các hình ảnh Tuy nhiên, việc phát hiện đối tượng trong lĩnh vực thị giác máy tính là một vấn đề khó bởi vì hệ thống phải giải quyết với sự thay đổi về điều kiện tạo ảnh (ánh sáng, thời tiết) và sự thay đổi của các cảnh và môi trường
Bài toán phát hiện đối tượng chuyển động là bài toán cơ sở, từ đó con người đã xây dựng rất nhiều ứng dụng như hệ thống giám sát bảo vệ mục tiêu, hệ thống giám sát
và phân luồng giao thông, phát hiện và theo vết người, phân tích cử động của con người trong nghiên cứu chế tạo robot, …
Đầu
vào
Thu nhận ảnh
Tiền
xử lý ảnh
Phân đoạn ảnh
Biểu diễn ảnh
Phân lớp
Trang 21Hiện nay, có nhiều phương pháp phát hiện đối tượng chuyển động Tuy nhiên, phương pháp trừ nền (Background Subtraction) là một trong nh ng phương pháp phát hiện chuyển động thông dụng
Phương pháp trừ nền còn gọi phương pháp phát hiện tiền cảnh (Foreground detection) là một kỹ thuật trong lĩnh vực xử lý ảnh và thị giác máy tính khi tiền cảnh sẽ được tách ra cho nh ng bước xử lý tiếp theo Thông thường, nh ng vùng ảnh quan tâm
sẽ thuộc vùng tiền cảnh của bức ảnh nên việc trừ nền hiệu quả và chính xác sẽ giúp các
hệ thống đạt được sự ổn định và tính nhanh chóng Phương pháp trừ nền được ứng dụng rộng rãi trong nhiều lĩnh vực như camera giám sát, nhận dạng đối tượng, nhận dạng cử chỉ đối tượng, giao thông để theo dõi lưu lượng xe, …
Một số ứng dụng thực tế của bài toán phát hiện chuyển động là xây dựng hệ thống tự động giám sát mục tiêu và theo dõi đối tượng phục vụ trong lĩnh vực quốc phòng, an ninh quốc gia; xây dựng hệ thống phân loại phương tiện giao thông, xác định số lượng phương tiện tham gia tại từng nút giao thông nhằm điều khiển và phân luồng giao thông; trong lĩnh vực nghiên cứu khoa học có ứng dựng phân tích cử động của con người; tương tác người máy; …
1.2.4 Phương pháp biểu diễn ảnh dựa trên đặc trưng cục bộ SIFT và Bag of Words
Đặc trưng cục bộ SIFT:
Đ c trưng ảnh là nh ng thông tin phân biệt ảnh này với ảnh khác, giúp cho bài toán phân lớp, tìm kiếm ảnh được thực hiện dễ dàng và chính xác Các nghiên cứu gần đây cho thấy có hai cách tiếp cận chính về rút trích đ c trưng ảnh gồm:
- Đ c trưng toàn cục (global features) là đ c trưng biểu diễn cho toàn ảnh
- Đ c trưng cục bộ (local features) là đ c trưng biểu diễn cho từng vùng của ảnh Một vài nét của hai cách tiếp cận chính về trích chọn đ c trưng ảnh được trình bày bằng bảng 1.1 dưới đây:
Trang 22Bảng 1.1 So sánh đặc trƣng toàn cục và đặc trƣng cục bộ
Đặc điểm Cho phép biểu diễn, tổng quát hóa
toàn bộ ảnh thành dạng một vector
Cho phép biểu diễn ảnh một cách chi tiết hơn, m i ảnh được biểu diễn bởi nhiều vector đ c trưng cục bộ
Ví dụ Dựa vào màu sắc, kết cấu, tổ chức
đồ màu (histogram)
SIFT, SURF (Speed Up Robust Features)
Ƣu điểm Tốc độ tính toán nhanh Độ phân biệt cao
Nhƣợc điểm Độ phân biệt không cao Thời gian tính toán, trích chọn lâu
SIFT là một trong nh ng phương pháp hiệu quả để trích chọn các điểm bất biến
từ các ảnh được dùng để thực hiện so khớp tin cậy gi a các tầm nhìn khác nhau của cùng một đối tượng ho c quang cảnh Phương pháp này được gọi là “Ph p biến đổi
đ c trong bất biến tỉ lệ” vì nó biến đổi d liệu ảnh thành các tọa độ bất biến tỉ lệ có liên quan đến đ c trưng cục bộ
Có bốn bước thực hiện trong thuật toán để trích xuất các điểm đ c trưng (keypoint) gồm:
(1) Phát hiện cực trị trong không gian đo (Scale-space Extrema Detection):
Tính không gian đo và áp dụng hàm sai khác Gaussian (DoG - Deffirence of Gaussisan) để tìm ra các điểm có khả năng làm điểm tiềm năng Đó là nh ng điểm rất
ít phụ thuộc vào sự thu phóng ảnh và xoay ảnh
Trang 23(2) Định vị các điểm đặc trưng (Keypoint localization): Từ nh ng điểm tiềm
năng ở trên sẽ lọc và lấy ra tập các điểm đ c trưng tốt nhất
(3) Gán hướng cho các điểm đặc trưng (Oriented Assignment): M i điểm đ c
trưng sẽ được gán cho một ho c nhiều hướng dựa trên hướng gradient của ảnh Các
ph p toán xử lý đã thực hiện dò tìm và gán tọa độ, kích thước và hướng cho m i điểm
đ c trưng
(4) Mô tả điểm đặc trưng (Keypoint Description): Các hướng gradient cục bộ
được đo trong ảnh có kích cỡ cụ thể nào đó trong vùng lân cận với m i điểm đ c trưng Sau đó, chúng sẽ được biễu diễn thành một dạng mà cho ph p mô tả các tầng quan trọng của quá trình bóp m o hình dạng cục bộ và sự thay đổi về độ sáng
Đ c trưng cục bộ SIFT không bị thay đổi trước nh ng biến đổi tỉ lệ ảnh, tịnh tiến, phép quay, không bị thay đổi một phần đối với phép biến đổi hình học affine (thay đổi góc nhìn) và mạnh với nh ng thay đổi về độ sáng, sự nhiễu và che khuất
Mô hình Bag of words:
Mô hình túi từ (Bag of words Model) là cách biểu diễn thường được sử dụng trong xử lý ngôn ng tự nhiên và hệ thống truy vấn thông tin
Trong thị giác máy tính, mô hình túi từ có thể được ứng dụng cho phân lớp ảnh bằng cách xử lý các đ c trưng ảnh như “các từ” trong văn bản Trong phân loại văn bản, “túi từ” là một vector thưa của các từ đã xuất hiện trong văn bản, biểu diễn biểu
đồ tần xuất thưa của từ điển Đối với ảnh, “túi từ trực quan” là một vector thưa của các
từ vựng đã xuất hiện dựa vào các đ c trưng cục bộ của ảnh và tần số xuất hiện của chúng
Để có thể áp dụng mô hình này lên ảnh, trước hết cần phải định nghĩa các “từ” cho ảnh được gọi là “từ trực quan” (visual word) Giai đoạn biểu diễn ảnh theo mô hình này gồm 3 bước chính:
(1) Phát hiện và biểu diễn các nét đặc trưng cục bộ
Đầu tiên, ảnh được đưa về dạng mức xám Các điểm đ c trưng trong ảnh được tính bằng thuật toán phát hiện điểm đ c trưng cục bộ Sau đó, các điểm đ c trưng được xác định và mô tả bằng các vector mô tả cục bộ Véc-tơ mô tả bất biến đối với nh ng
Trang 24biến đổi tỉ lệ, tịnh tiến, ph p quay; một phần đối với nh ng thay đổi về góc nhìn,
nh ng thay đổi về độ sáng, nhiễu
(2) Xây dựng từ điển các từ trực quan
Xây dựng các từ trực quan từ các vector mô tả cục bộ Dùng thuật toán K-mean
để phân các vector mô tả vào các nhóm (cluster) và m i nhóm tương ứng với một từ trực quan Tập các nhóm này tạo thành một từ điển
(3) Biểu diễn ảnh dưới dạng vector tần xuất
Một ảnh sẽ được biểu diễn bằng tần số của các từ trực quan trong ảnh
1.2.5 Phân loại đối tượng
Phân lớp ảnh là một trong nh ng lĩnh vực được chú ý, nghiên cứu và ứng dụng nhiều trong nh ng năm gần đây Phân lớp ảnh (hay Image Classification ho c Image Categorization) là gán nhãn tự động cho từng ảnh theo chủ đề đã được định nghĩa trước dựa vào nội dung của ảnh
Hệ thống phân lớp ảnh thường gồm hai bước: rút trích đ c trưng (Images Features) từ nội dung ảnh và huấn luyện mô hình máy học để gán nhãn tự động từ các
đ c trưng này Hiệu quả của hệ thống phân lớp phụ thuộc vào các phương pháp sử dụng ở hai bước trên
Một số ứng dựng thực tế của bài toán phân loại đối tượng như tìm kiếm ảnh; nhận dạng ảnh; …
Quá trình phân loại ảnh bao gồm quá trình huấn luyện ảnh và quá trình kiểm thử
ảnh Quá trình này được biểu diễn bằng các hình dưới đây:
Trang 25Hình 1.3 Quá trình huấn luyện ảnh
D liệu huấn luyện
(Training Images)
Rút trích đ c trưng (Images Features)
Huấn luyện phân lớp (Classifier Training)
Gán nhãn Training Labels
Phân lớp (Trained Classifier)
D liệu kiểm tra
(Test Images)
Rút trích đ c trưng (Images Features)
Bộ Phân lớp (Trained Classifier)
Dự đoán kết quả Prediction
Trang 26thì bộ phân loại SVM với hàm Kernel rất hiệu quả đối với bài toán phân loại hành động con người hay nhận dạng các sự kiện trong video
Trang 27Tóm tắt chương 1
Hiện nay, có nhiều sách báo, tài liệu, công trình, đề tài nghiên cứu về lĩnh vực thị giác máy tính và đã có nhiều ứng dụng thực tiễn, đ c biệt là các đề tài nghiên cứu về phát hiện, theo dõi, phân loại đối tượng Các đề tài đi trước đã đưa ra các giải pháp để giải quyết bài toán phát hiện, theo dõi, phân loại đối tượng từ video Tuy nhiên, các đề tài chủ yếu nghiên cứu và phục vụ trong lĩnh vụ giám sát an ninh, giao thông Vì vậy,
đề tài nghiên cứu “Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên
mô hình Bag of Words và máy học” là việc làm rất có ý nghĩa về m t khoa học và thực tiễn, đ c biệt đối với vấn đề quản lý HS trong nhà trường và hiệu quả giáo dục của Việt Nam
Căn cứ vào nh ng cơ sở lý thuyết đã tìm hiểu, xác định giải pháp đối với bài toán phát hiện hành vi HS THCS trong thực hiện nội quy nhà trường là:
- Về phát hiện đối tượng, sử dụng phương pháp trừ nền để phát hiện nhanh và chính xác đối tượng
- Về phân loại, trong điều kiện đối tượng quan sát là HS với trang phục áo trắng, quần xanh đậm, đeo khăn quàng, bỏ áo vào quần; phạm vi quan sát trong phòng học nên chúng tôi đã sử dụng các n t đ c trưng cục bộ SIFT và mô hình túi từ để biểu diễn ảnh Sau đó, thực hiện theo quy trình phân loại ảnh bằng bộ phận loại SVM
Sơ đồ cấu trúc giải quyết bài toán phát hiện hành vi HS THCS trong thực hiện nội quy nhà trường từ video được thể hiện ở hình 1.5
Trang 28Hình 1.5 Sơ đồ giải quyết bài toán phát hiện hành vi HS
Thông tin đối tượng
Đối tượng mẫu
Xây dựng đ c trưng mẫu
Cơ sở d liệu
Trang 29Chương 2 CƠ SỞ LÝ THUYẾT VỀ PHÁT HIỆN HÀNH VI VI PHẠM NỘI QUY CỦA HỌC SINH TRUNG HỌC CƠ SỞ DỰA
TRÊN BAG OF WORDS VÀ MÁY HỌC
2.1 Phương pháp trừ nền phát hiện chuyển động
Ý tưởng của phương pháp trừ nền
Để phát hiện được các đối tượng chuyển động trong video, cần phải có mô hình nền (Background Model) Mô hình nền có thể học qua nhiều khung hình (frames) nếu nền bị thay đổi ho c có thể chọn một nền có sẵn nếu nền không bị thay đổi Dùng mô hình nền so sánh với các frames hiện tại và kết quả cho biết đâu là vùng nền, đâu là đối tượng chuyển động hay còn gọi là tiền cảnh (Foreground)
Các thuật toán trừ nền
Phương pháp trừ nền được dùng rất phổ biến Tác giả Nguyễn Văn Căn [1] đã trình bày một số thuật toán trừ nền dùng cho việc phát hiện chuyển động như: trừ nền
cơ bản, trừ nền trung bình, Gaussain Mixture Model
2.1.1 Thuật toán trừ nền cơ bản
Là phương pháp so sánh ảnh đơn giản nhất, dựa trên sự sai khác gi a hai ảnh và
so sánh sự sai khác này với một giá trị ngưỡng cho trước Nếu sự sai khác này lớn hơn giá trị ngưỡng đã cho thì kết luận có đối tượng chuyển động
Gọi D(x,y) là m t nạ nhị phân phát hiện chuyển động được định nghĩa bởi công thức (2.1):
Trang 30Kết luận:
- Nếu D(x,y) = 0, đây là các điểm ảnh của nền
- Nếu D(x,y) = 1, đây là các điểm ảnh của đối tượng chuyển động
Ƣu điểm: Thuật toán đơn giản, thời gian tính toán nhanh, h u dụng trong trường
hợp chỉ cần xác định nh ng thay đổi bộ phận, mà không cần xác định sự thay đổi của toàn bộ khung hình
Nhƣợc điểm: Độ chính xác của thuật toán này thấp, kết quả không chính xác đối
với nh ng trường hợp đối tượng trong đoạn video hầu như không di chuyển, ảnh có nhiều nhiễu
2.1.2 Thuật toán trừ nền trung bình
Thay vì gi nguyên giá trị khung hình nền B(x,y) trong phép trừ thì thuật toán này cập nhật liên tục giá trị khung hình nền nhằm tăng hiệu quả phát hiện đối tượng chuyển động Theo lập luận này, giá trị nền Bt(x,y) được cập nhật theo công thức (2.2):
Bt(x,y) = (1-β) Bt-1(x y) +βIt(x,y) Trong đó:
Giá trị khởi tạo B0(x, y) = I0(x,y)
β là tham số cập nhật nền cho trước thuộc (0,1)
It(x,y) là giá trị frame đến
Bt(x,y) là giá trị nền theo chỉ số khung hình t
Với τ là giá trị ngưỡng sai lệch cho phép gi a các giá trị điểm ảnh của khung hình (frame) It và ảnh nền, thì m t nạ nhị phân D(x,y) phát hiện chuyển động được tính theo công thức (2.3):
( ) { | ( ) ( )|
| ( ) ( )|
Kết luận:
- Nếu D(x,y) = 0, đây là các điểm ảnh của nền
- Nếu D(x,y) = 1, đây là các điểm ảnh của đối tượng chuyển động
Ƣu điểm: độ chính xác phát hiện đối tượng chuyển động tăng so với thuật toán
trừ nền cơ bản Cài đ t đơn giản, độ phức tạp thấp, tốc độ xử lý nhanh
(2.3) (2.2)
Trang 31Nhƣợc điểm: Vẫn chưa giải quyết được nh ng hạn chế của phương pháp trừ nền
cơ bản đó là kết quả phát hiện không chính xác đối với nh ng trường hợp đối tượng
trong đoạn video hầu như không di chuyển, camera thu ảnh có nhiều nhiễu
2.1.3 Gaussian Mixture Model
Giới thiệu Gaussian Mixture Model
Mô hình hợp Gauss là một dạng mô hình thống kê được xây dựng từ việc huấn
luyện các tham số thông qua d liệu học Từ “Gauss” được đ t theo tên của nhà
toán học người Đức Carl Friedrich Gauss
µ là giá trị trung bình; σ là độ lệch chuẩn
- Nếu chọn μ=0 và σ=1 thì fN(x, µ, σ2) được gọi là phân phối chuẩn tắc và hàm mật độ xác xuất được tính bởi công thức (2.5):
( )
√ x ( )
- Nếu x là vector gồm D thành phần, hàm mật độ xác suất của phân phối Gauss
fN(x, µ, Σ) được tính bởi công thức (2.6):
Trang 32Mô hình GMM được mô tả như sau:
Vì vậy, phân phối Gauss có phương sai và trọng số lớn bao nhiêu thì có mức
độ ảnh hưởng lớn bấy nhiêu đối với kết xuất của mô hình
Tóm lại: GMM là mô hình thống kê d liệu; D liệu phân bố theo phân phối
Gaussian nên tham số kỳ vọng, phương sai có thể đ c trưng cho toàn bộ d liệu; GMM tỏ ra tương đối hiệu quả đối với một vài ứng dụng cụ thể
Một số ứng dụng của Gaussian mixture model như phân cụm d liệu; phát
hiện đối tượng chuyển động; nhận dạng phương ng ; định danh người nói độc lập văn bản; …
Ứng dụng phát hiện đối tƣợng chuyển động
Ý tưởng là xử lý giá trị của một điểm ảnh với một mô hình Gaussian h n hợp Nếu một điểm ảnh không khớp với phân phối nền thì nó thuộc đối tượng chuyển động Tác giả Nguyễn Văn Căn [1] đã trình bày cách tiếp cận xác suất sử dụng mô hình Gaussian h n hợp để xác định ảnh nền và đối tượng chuyển động Từ thời điểm bắt đầu đến thời điểm t, ta được tập {X1, X2, , Xt} là một tiến trình điểm Xác suất P của một điểm ảnh hiện tại được tính bởi công thức (2.8):
(2.7)
Trang 33( ) ∑ ( )
Trong đó:
Xt là điểm ảnh tại thời gian t
i,t là trọng số chỉ độ ảnh hưởng của hàm Gaussian thứ i tại thời điểm t
i,t là ma trận hiệp phương sai của phân bố Gauss thứ i (iK) của h n hợp Gauss tại thời gian t
µi,t là cường độ trung bình của Gaussian thứ i tại thời điểm t
Với I là ma trận đơn vị, K là tổng số thành phần của h n hợp Gaussian được sử dụng thuộc (3≤K≤5) để tiện tính ma trận hiệp hiệp phương sai theo công thức (2.9):
là hàm mật độ xác xuất được xác định bởi công thức (2.10):
( | ) ( ) | | ( ) ( )Thuật toán sẽ duyệt qua từng điểm ảnh để cập nhật các tham số của toàn bộ mô hình Gaussian h n hợp cho khung hình đang xử lý Khi một điểm ảnh được xử lý, nó
sẽ được kiểm tra xem có khớp với bất kỳ thành phần nào trong K thành phần của h n hợp Gaussian không Một điểm ảnh gọi là khớp với thành phần Gaussian thứ i tại thời điểm t khi |Xt - µi,t| ≤ 2.5i,t.Với i,t là độ lệch chuẩn của Gaussian thứ i tại thời điểm t Nếu khớp thì các tham số được cập nhật theo các công thức (2.11):
( ) + Với α là tỉ lệ học, Mk,t=1 đối với phân phối Gauss và Mk,t=0 đối với các phân phối khác
Tham số μ và σ được cập nhật theo công thức (2.12) và (2.13):
( ) + ( ) + ( ) ( ) Trong đó được tính bởi công thức (2.14):
( | ) Tiếp theo, K thành phần của h n hợp Gaussian sẽ được xếp hạng theo tỷ số
i,t/i,t Thành phần có thứ hạng cao hơn sẽ có độ biến thiên thấp và xác suất xuất hiện
(2.14)
Trang 34cao nên thể hiện tính chất của nền Vì vậy, các thành phần Gaussian có thứ hạng cao, trọng số lớn hơn ngưỡng thì được xem là mô hình nền Các thành phần Gaussian còn lại là mô hình đối tượng
Ƣu điểm: Giải quyết được vấn đề ánh sáng thay đổi, phù hợp với các nền động,
độ chính xác tăng so với các thuật toán phát hiện chuyển động khác
Nhƣợc điểm: Tính toán nhiều hơn, độ phức tạp tăng so với các phương pháp
Tính chất của SIFT là bất biến khi:
- Thay đổi tỉ lệ ảnh
- Quay ảnh
- Thay đổi góc nhìn
- Thay đổi cường độ chiếu sáng ảnh
Thuật toán SIFT gồm bốn bước thực hiện được thể hiện ở hình 2.3:
Trang 35Hình 2.3 Sơ đồ các bước cơ bản trong thuật toán SIFT
2.2.1 Phát hiện các điểm cực trị trong không gian đo
Tìm nh ng khu vực chứa nh ng điểm tiềm năng có thể trở thành điểm đ c trưng
có tính chất bất biến dưới các phép phóng ảnh và xoay ảnh bằng phương pháp lọc theo tầng dựa vào việc thay đổi tham số bộ lọc Gaussian Cụ thể là dò tìm các vị trí và các
số đo mà chúng không thay đổi trong các khung nhìn khác nhau của cùng một đối tượng
Quá trình tính không gian đo (L) và hàm sai khác DoG
Không gian đo của một ảnh được mô tả bằng hàm L(x,y,σ), được xác định bởi công thức (2.15):
( ) ( ) ( )
Tìm không gian đo
Dùng các hàm sai khác DOG
Định vị các điểm tiềm năng
Loại bỏ các điểm tiềm năng có
tính tương phản kém hay theo
biên đối tượng
Phát hiện các điểm cực trị trong không gian đo
Định vị Keypoints
Xác định hướng cho Keypoints
Mô tả Keypoints
(2.15)
Trang 36Trong đó :
Toán hạng * là ph p nhân chập các ma trận 2 chiều
I (x,y) là ảnh đầu vào
G(x,y,kσ) là biến tỉ lệ Gaussian được tính bởi công thức (2.16) :
( )
( )
Để tìm nh ng điểm đ c trưng có tính bất biến cao, thuật toán đã tìm cực trị cục
bộ của hàm sai khác DoG, kí hiệu là D(x,y,σ) Hàm này được tính từ sự sai khác gi a
2 không gian đo cạnh nhau của một ảnh với tham số đo lệch nhau một hằng số k, xác định bởi công thức (2.17) :
( ) ( ) ( ) ( ( ) ( )) ( )
Từ công thức trên, cho thấy việc dùng hàm Gausian để tính không gian đo (L) rất hiệu quả vì hàm (L) phải tính nhiều để mô tả đ c trưng trong không gian đo Còn tính D(x,y,σ) chỉ cần dùng ph p trừ ma trận
Quá trình tính không gian đo (L) và hàm sai khác DoG được minh họa bằng hình 2.5 dưới đây :
Hình 2.4 Quá trình tính không gian đo (L) và hàm sai khác DoG
(Nguồn: paper of David G Lowe in 2004)
(2.16)
(2.17)