Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)

Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học (Luận văn thạc sĩ)

Trang 1

TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH

Nguyễn Thị Hồng Nhiên

PHÁT HIỆN MỘT SỐ HÀNH VI VI PHẠM NỘI QUY CỦA HỌC SINH TRUNG HỌC CƠ SỞ DỰA TRÊN BAG OF WORDS VÀ MÁY HỌC

LUẬN VĂN THẠC SĨ MÁY TÍNH

Thành phố Hồ Chí Minh – 2017

Trang 2

TRƯỜNG ĐẠI HỌC SƯ PHẠM TP HỒ CHÍ MINH

Nguyễn Thị Hồng Nhiên

PHÁT HIỆN MỘT SỐ HÀNH VI VI PHẠM NỘI QUY CỦA HỌC SINH TRUNG HỌC CƠ SỞ DỰA TRÊN BAG OF WORDS VÀ MÁY HỌC

Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

TS NGÔ QUỐC VIỆT

Thành phố Hồ Chí Minh – 2017

Trang 3

LỜI CAM ĐOAN



Tôi xin cam đoan luận văn này là sản phẩm nghiên cứu của tôi và số liệu trong luận văn được điều tra trung thực Mọi tham khảo dùng trong luận văn đều được trích dẫn nguồn rõ ràng và có độ chính xác cao trong phạm vi hiểu biết của học viên

Tôi xin chịu trách nhiệm về nghiên cứu của mình

Học viên thực hiện

Nguyễn Thị Hồng Nhiên

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, tôi xin bày tỏ lòng biết ơn sâu sắc đến TS Ngô Quốc Việt, người

đã tận tình chỉ dẫn, góp ý và động viên tôi trong suốt quá trình hoàn thiện luận văn

Tôi xin chân thành cảm ơn các thầy cô khoa Công Nghệ Thông Tin trường Đại học Sư Phạm TP HCM, trường Đại học Bách Khoa TP.HCM, trường Đại học Khoa học Tự nhiên TP.HCM, trường Đại học Kinh Tế TP.HCM đã trực tiếp giảng dạy tôi,

đã giúp tôi có cơ hội học tập và nâng cao trình độ trong chuyên ngành Khoa Học Máy Tính

Tôi xin cảm ơn các thầy cô đồng nghiệp, các bạn học viên cao học lớp K26 trường Đại học Sư Phạm TP HCM, các em học sinh trường THPT Tân Bình đã giúp tôi trong quá trình học tập và tiến hành TN

KHMT-Xin gửi lời cảm ơn Phòng Sau đại học - trường Đại học Sư Phạm TP HCM, đã tạo điều kiện thuận lợi để luận văn được hoàn thành đúng tiến độ

Cuối cùng tôi xin gửi lời tri ân sâu sắc đến gia đình, đã là ch dựa v ng chắc cho tôi trong nh ng lúc khó khăn nhất để tôi có thể hoàn thành tốt luận văn

M c dù tôi đã cố gắng hết sức nhưng với thời gian có hạn nên luận văn còn có nhiều khuyết điểm và thiếu sót Kính mong nhận được sự góp ý, nhận x t, xây dựng của thầy cô và các bạn để luận văn được hoàn chỉnh hơn

Một lần n a, tôi xin gửi lời tri ân đến tất cả mọi người

TP Hồ Chí Minh, ngày 28 tháng 9 năm 2017

Tác giả

Nguyễn Thị Hồng Nhiên

Trang 5

MỤC LỤC

Trang phụ bìa

Lời cam đoan

Lời cảm ơn

Mục lục

Danh mục các ch viết tắt

Danh mục các bảng

Danh mục các hình

MỞ ĐẦU 1

Chương 1 CƠ SỞ LÍ LUẬN VÀ THỰC TIỄN CỦA ĐỀ TÀI 5

1.1 Tổng quan về vấn đề nghiên cứu 5

1.1.1 Các công trình, đề tài nghiên cứu trong nước 5

1.1.2 Các công trình, đề tài nghiên cứu nước ngoài 6

1.2 Cơ sở lý thuyết và nh ng khái niệm cơ bản 8

1.2.1 D liệu video số 8

1.2.2 Quá trình xử lý ảnh 9

1.2.3 Phát hiện đối tượng chuyển động 10

1.2.4 Phương pháp biểu diễn ảnh dựa trên đ c trưng cục bộ SIFT và Bag of Words 11

1.2.5 Phân loại đối tượng 14

Tóm tắt chương 1 17

Chương 2 CƠ SỞ LÝ THUYẾT VỀ PHÁT HIỆN HÀNH VI VI PHẠM NỘI QUY CỦA HỌC SINH TRUNG HỌC CƠ SỞ DỰA TRÊN BAG OF WORDS VÀ MÁY HỌC 19

2.1 Phương pháp trừ nền phát hiện chuyển động 19

2.1.1 Thuật toán trừ nền cơ bản 19

2.1.2 Thuật toán trừ nền trung bình 20

2.1.3 Gaussian Mixture Model 21

2.2 Trích chọn đ c trưng cục bộ bất biến (SIFT) 24

2.2.1 Phát hiện các điểm cực trị trong không gian đo 25

Trang 6

2.2.2 Định vị các điểm tiềm năng 27

2.2.3 Xác định hướng cho keypoint 29

2.2.4 Mô tả các điểm đ c trưng 29

2.3 Phương pháp biễu diễn ảnh dựa trên mô hình Bag of Words 30

2.4 Support Vector Machine 34

Chương 3 THỰC NGHIỆM 44

3.1 Phát biểu bài toán 44

3.2 Mục đích thực nghiệm 44

3.3 Lựa chọn thuật toán 45

3.4 Môi trường thực nghiệm 45

3.5 Tiến hành thực nghiệm 45

KẾT LUẬN VÀ KIẾN NGHỊ 59

TÀI LIỆU THAM KHẢO 62

Trang 7

DANH MỤC CÁC BẢNG

Hình 1.1 Cấu trúc tổng quát của video 9

Hình 1.2 Sơ đồ các bước cơ bản của quá trình xử lý ảnh 10

Hình 1.3 Quá trình huấn luyện ảnh 15

Hình 1.4 Quá trình kiểm thử ảnh 15

Hình 1.5 Sơ đồ giải quyết bài toán phát hiện hành vi HS 18

Hình 2.1 Hàm mật độ Gauss 21

Hình 2.2 Mô hình GMM 22

Hình 2.3 Sơ đồ các bước cơ bản trong thuật toán SIFT 25

Hình 2.4 Quá trình tính không gian đo (L) và hàm sai khác DoG 26

Hình 2.5 Quá trình tìm điểm cực trị trong các hàm sai khác DoG 27

Hình 2.6 Mô tả quá trình tạo bộ mô tả cục bộ 29

Hình 2.7 Mô hình Bag of Words 31

Hình 2.8 Các bước biểu diễn ảnh của Bag of Words 31

Hình 2.9 Rút trích đ c trưng bằng “Segmentation-based patches” 32

Hình 2.10 Bộ từ điển các từ trực quan 33

Hình 2.11 Học “visual vocabulary” 33

Hình 2.12 Bộ từ điển các từ trực quan được học từ nhóm khuôn m t 34

Hình 2.13 Biểu diễn ảnh bằng Bag of Words 34

Hình 2.14 Ánh xạ Φ từ không gian Input vào không gian feature 35

Hình 2.15 Học siêu phẳng tối ưu trong không gian feature 36

Hình 2.16 Kết quả phát hiện chuyển động bằng trừ nền trung bình và GMM 41

Hình 2.17 Kết quả biểu diễn ảnh bằng Bag of Words 42

Hình 2.18 Kết quả nhận dạng hành vi HS không đeo khăn quàng (KKQ) 42

Hình 2.19 Kết quả nhận dạng hành vi HS đeo khăn quàng (KQ) 43

Hình 3.1 Một số ảnh chụp cả người 46

Hình 3.2 Một số ảnh được crop ở khu vực cổ HS 47

Hình 3.3 Một số ảnh chụp khu vực cổ HS 48

Hình 3.4 Một số khung hình từ video “HSLOP8.mp4” 49

Hình 3.5 Phát hiện chuyển động bằng GMM với video HSLOP7B.mp4 51

Trang 8

Hình 3.6 Phát hiện chuyển động bằng GMM với video HSLOP8-KKQ.mp4 51

Hình 3.7 Phát hiện chuyển động bằng GMM với video HSLOP8.mp4 52

Hình 3.8 Kết quả tìm kiếm đ c trưng SIFT 52

Hình 3.9 Kết quả tìm điểm đ c trưng SIFT và các điểm trùng khớp trong ảnh 53

Hình 3.10 Kết quả nhận dạng hành vi HS trong video HSLOP7A.mp4 55

Hình 3.11 Kết quả nhận dạng hành vi HS trong video HSLOP7B.mp4 56

Hình 3.12 Kết quả nhận dạng hành vi HS trong video HSLOP8-KKQ.mp4 57

Trang 9

DANH MỤC CÁC HÌNH VẼ

Hình 1.1 Cấu trúc tổng quát của video 9

Hình 1.2 Sơ đồ các bước cơ bản của quá trình xử lý ảnh 10

Hình 1.3 Quá trình huấn luyện ảnh 15

Hình 1.4 Quá trình kiểm thử ảnh 15

Hình 1.5 Sơ đồ giải quyết bài toán phát hiện hành vi HS 18

Hình 2.1 Hàm mật độ Gauss 21

Hình 2.2 Mô hình GMM 22

Hình 2.3 Sơ đồ các bước cơ bản trong thuật toán SIFT 25

Hình 2.4 Quá trình tính không gian đo (L) và hàm sai khác DoG 26

Hình 2.5 Quá trình tìm điểm cực trị trong các hàm sai khác DoG 27

Hình 2.6 Mô tả quá trình tạo bộ mô tả cục bộ 29

Hình 2.7 Mô hình Bag of Words 31

Hình 2.8 Các bước biểu diễn ảnh của Bag of Words 31

Hình 2.9 Rút trích đ c trưng bằng “Segmentation-based patches” 32

Hình 2.10 Bộ từ điển các từ trực quan 33

Hình 2.11 Học “visual vocabulary” 33

Hình 2.12 Bộ từ điển các từ trực quan được học từ nhóm khuôn m t 34

Hình 2.13 Biểu diễn ảnh bằng Bag of Words 34

Hình 2.14 Ánh xạ Φ từ không gian Input vào không gian feature 35

Hình 2.15 Học siêu phẳng tối ưu trong không gian feature 36

Hình 2.16 Kết quả phát hiện chuyển động bằng trừ nền trung bình và GMM 41

Hình 2.17 Kết quả biểu diễn ảnh bằng Bag of Words 42

Hình 2.18 Kết quả nhận dạng hành vi HS không đeo khăn quàng (KKQ) 42

Hình 2.19 Kết quả nhận dạng hành vi HS đeo khăn quàng (KQ) 43

Hình 3.1 Một số ảnh chụp cả người 46

Hình 3.2 Một số ảnh được crop ở khu vực cổ HS 47

Hình 3.3 Một số ảnh chụp khu vực cổ HS 48

Hình 3.4 Một số khung hình từ video “HSLOP8.mp4” 49

Hình 3.5 Phát hiện chuyển động bằng GMM với video HSLOP7B.mp4 51

Trang 10

Hình 3.6 Phát hiện chuyển động bằng GMM với video HSLOP8-KKQ.mp4 51

Hình 3.7 Phát hiện chuyển động bằng GMM với video HSLOP8.mp4 52

Hình 3.8 Kết quả tìm kiếm đ c trưng SIFT 52

Hình 3.9 Kết quả tìm điểm đ c trưng SIFT và các điểm trùng khớp trong ảnh 53

Hình 3.10 Kết quả nhận dạng hành vi HS trong video HSLOP7A.mp4 55

Hình 3.11 Kết quả nhận dạng hành vi HS trong video HSLOP7B.mp4 56

Hình 3.12 Kết quả nhận dạng hành vi HS trong video HSLOP8-KKQ.mp4 57

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Giám sát tự động là một hướng nghiên cứu về các phương pháp phát hiện, theo dõi, nhận biết, phân tích và hiểu các hành vi hoạt động của các đối tượng được giám sát một cách tự động dựa trên các kỹ thuật xử lý ảnh kết hợp với máy học Hiện nay, đây là một trong nh ng chủ đề rất được quan tâm trong lĩnh vực thị giác máy tính và ứng dụng trong nhiều lĩnh vực của đời sống xã hội

Thực tế, ngày càng nhiều các hệ thống giám sát bằng camera được sử dụng và mang lại hiệu quả nhất định trên một số lĩnh vực như giám sát hoạt động con người, giám sát giao thông hay lĩnh vực an ninh… Trong giao thông, camera được lắp đ t ở nơi đường giao nhau, đường hầm, bến xe để giám sát giao thông nhằm điều phối phân làn giao thông, dự báo tình trạng ùn tắc, phát hiện các phương tiện vi phạm giao thông Các siêu thị hay bảo tàng, người ta dùng hệ thống camera để giám sát hoạt động của nhân viên, khách hàng, hàng hóa, các vật trưng bày để tránh bị mất cắp Trong lĩnh vực an ninh, các vùng nhạy cảm cần sử dụng hệ thống camera giám sát để phát hiện kịp thời nh ng hành vi bất thường Việc lắp đ t camera trong nhà trường, sẽ giúp

nh ng người quản lý có thể quan sát được tình hình dạy và học, các hoạt động của học sinh trong trường để phát hiện kịp thời các hành vi vi phạm nội quy của học sinh và hạn chế bạo lực học đường

Ngày nay, hệ thống camera giám sát đã sử dụng ở nhiều mức độ khác nhau Từ

hệ thống thủ công đến bán tự động và hệ thống hoàn toàn tự động Hệ thống camera giám sát thủ công cần có người giám sát trực tiếp và chỉ h trợ lưu d liệu ho c trích xuất các đoạn video khi cần thiết Hệ thống giám sát hoàn toàn tự động thì có khả năng thực hiện nhiệm vụ giám sát từ phát hiện đối tượng chuyển động tới phát hiện sự kiện, hành vi của đối tượng được giám sát mà không cần sự can thiệp của con người Ở Việt Nam, các hệ thống giám sát chủ yếu ở mức độ thủ công bởi vì giám sát tự động là một hướng nghiên cứu mới, chưa có nhiều sản phẩm và chi phí cao

Cụ thể như trong lĩnh vực giáo dục, hầu hết các trường học đều sử dụng hệ thống camera giám sát thủ công nên việc theo dõi, quản lý HS thực hiện nội quy nhà trường

Trang 12

chưa mang lại hiệu quả cao Chẳng hạn, một trường học có lắp đ t hệ thống giám sát với hơn 20 camera ở các vị trí khác nhau thì tại một thời điểm một giám thị, đóng vai trò giám sát viên, không thể quan sát đầy đủ tất cả các đối tượng trong hệ thống, điều này dẫn đến việc bỏ sót các cảnh quan trọng tại các camera và kết quả là không thể phát hiện và ghi nhận hết tất cả các hành vi vi phạm của HS

Chính vì vậy, việc nghiên cứu kỹ thuật xử lý ảnh kết hợp với mô hình máy học

để h trợ xây dựng hệ thống camera giám sát tự động phát hiện một số hành vi vi phạm của HS THCS trong thực hiện nội quy nhà trường Đây là bài toán thú vị, nhiều thách thức và có ý nghĩa thực tiễn

Vì nh ng lý do trên mà tôi chọn đề tài “Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên Bag of Words và máy học” làm đề tài luận văn của mình

2 Mục đích nghiên cứu

Nghiên cứu kỹ thuật xử lý ảnh kết hợp với mô hình máy học để h trợ xây dựng

hệ thống camera giám sát tự động phát hiện một số hành vi của HS THCS trong thực hiện nội quy nhà trường, góp phần giảm áp lực công tác quản lý HS và giúp các em tự giác thực hiện nội quy nhà trường

Mục tiêu: từ d liệu video thu được ở các phòng học, tìm một số thuật toán hợp

lý để phân loại và xác định hành vi HS

3 Nhiệm vụ nghiên cứu

- Nghiên cứu cơ sở lí luận liên quan đến bài toán phát hiện hành vi “Action detection”, các thuật toán phát hiện đối tượng chuyển động trong video, phương pháp biểu diễn ảnh dựa trên đ c trưng SIFT và Bag of Words, phân loại đối tượng

- Nghiên cứu một số vấn đề thực tiễn liên quan đến đề tài

- Đề xuất giải pháp để giải quyết bài toán phát hiện hành vi vi phạm HS THCS trong thực hiện nội quy nhà trường

- Xây dựng chương trình có chức năng phát hiện hành vi vi phạm của HS THCS trong thực hiện nội quy nhà trường như không đeo khăn quàng, có thể mở rộng phát hiện hành vi “bỏ áo ngoài quần”

4 Đối tƣợng và khách thể nghiên cứu

- Đối tượng nghiên cứu: các thuật toán phát hiện đối tượng chuyển động, phương

Trang 13

pháp biểu diễn ảnh dựa trên đ c trưng cục bộ SIFT và mô hình Bag of Words và mô

hình máy học để phân loại đối tượng

- Khách thể nghiên cứu: các hình ảnh, video ghi nhận hoạt động của HS tại

trường THPT Tân Bình (cấp 2, 3) huyện Bắc Tân Uyên, tỉnh Bình Dương

+ HS đi thẳng, trực diện và góc nghiêng không đáng kể

+ HS đi đơn, nếu đi đôi, ba thì đi song song ho c m i người cách nhau khoảng xác định

+ Phông nền của ảnh không quá phức tạp

+ Video, ảnh được thu thập trong điều kiện ánh sáng ban ngày và không bị chói hay quá sáng

- Phát hiện hành vi HS không đeo khăn quàng hay bỏ áo ngoài quần

- Thời gian nghiên cứu: từ tháng 09/2016 đến tháng 09/2017

6 Giả thuyết khoa học

Nếu chúng tôi thực hiện thành công chương trình có chức năng đọc d liệu video và phát hiện hành vi HS không đeo khăn quàng hay bỏ áo ngoài quần sẽ h trợ đắc lực cho công tác quản lý HS THCS trong việc thực hiện nội quy nhà trường, góp phần ổn định nề nếp HS

7 Phương pháp nghiên cứu và phương tiện nghiên cứu

7.1 Phương pháp nghiên cứu

- Phương pháp nghiên cứu lý thuyết: Đọc và nghiên cứu các tài liệu có liên quan

đến đề tài; sử dụng phối hợp các phương pháp phân tích, tổng hợp, hệ thống hóa, khái

quát hóa

Trang 14

- Phương pháp thực nghiệm: Chụp hình, quay video về HS THCS trường THPT

Tân Bình thực hiện nội quy nhà trường; tìm hiểu code về các thuật toán phát hiện chuyển động, phương pháp biểu diễn ảnh bằng đ c trưng SIFT và mô hình Bag of Words, các mô hình máy học để phân loại đối tượng; tiến hành phân tích và cài đ t chương trình bằng Python có thể đọc d liệu video và phát hiện hành vi HS THCS không đeo khăn quàng hay bỏ áo ngoài quần

7.2 Phương tiện nghiên cứu

- Các loại tài liệu tham khảo: báo, tạp chí, sách và một số trang web liên quan đến đề tài

- Ngôn ng lập trình Python và thư viện Open Computer Vission (OpenCV)

Trang 15

Chương 1 CƠ SỞ LÍ LUẬN VÀ THỰC TIỄN CỦA ĐỀ TÀI 1.1 Tổng quan về vấn đề nghiên cứu

1.1.1 Các công trình, đề tài nghiên cứu trong nước

Hiện nay, xử lý ảnh và thị giác máy tính là lĩnh vực được nhiều người quan tâm, nghiên cứu, phát triển và có nhiều ứng dụng thực tiễn Vì vậy, ở Việt Nam có một số tác giả đã trình bày về lĩnh vực này như:

 Luận án tiến sĩ của Nguyễn Văn Căn với đề tài “Nghiên cứu phát triển một số thuật toán phát hiện và phân loại phương tiện từ d liệu video giao thông” đã làm phong phú hơn về lí luận cho phương pháp phát hiện và phân loại đối tượng chuyển động trong video Luận án đã xây dựng một tập các phương pháp trích chọn các đ c trưng phương tiện chuyển động, biểu diễn và xử lý các đ c trưng của phương tiện theo từng cấp độ phù hợp cho phân loại và đếm đối tượng gồm đ c trưng khối chuyển động; đ c trưng hình dạng và kích thước đối tượng; đ c trưng luồng quang học; đ c trưng đường viền đối tượng [1]

 “Kết hợp so khớp Spatial Pyramid và vector h trợ SVM trong nhận dạng khung cảnh tự nhiên” là đề tài luận văn thạc sĩ của tác giả Nguyễn Thị Ngọc Hà đã giới thiệu tổng quan về bài toán nhận dạng ảnh, trình bày cụ thể cách trích chọn đ c trưng SIFT, mô hình kết hợp của Spatial Pyramid với phương pháp SVM để nhận dạng khung cảnh tự nhiên [2]

 Bài báo “Một phương pháp phát hiện đối tượng và ứng dụng trong hệ thống tự động bám mục tiêu” của các tác giả Nguyễn Văn Hùng, Nguyễn Văn Xuất, Lê Mạnh Cường đã đề xuất một phương pháp dựa trên kỹ thuật xử lý ảnh và các thuật toán máy học để phát hiện các mục tiêu quân sự Phương pháp đề xuất dựa trên các đ c trưng hình dạng và màu sắc để tìm đối tượng trong ảnh được chụp từ một camera [3]

 Tác giả Tạ Thị Ái Nhi đã trình bày phương pháp trừ nền (Frame Difference, Running Gaussian Average, Codebook) để phát hiện đối tượng; phương pháp phát hiện khuôn m t người (đ c trưng Haar-like, thuật toán Adaboost, …); phương pháp theo vết đối tượng (Meanshift, Camshift) trong luận văn thạc sĩ “Phát hiện và theo vết người từ d liệu video” [4]

Trang 16

 Luận văn thạc sĩ “Phát hiện đột nhập bằng camera theo dõi” của Nguyễn Quang Quý đã giới thiệu tổng quan về hệ thống giám sát bằng camera, bài tốn phát hiện chuyển động và ứng dụng Tác giả đã trình bày một số thuật giải như giải thuật trừ nền cơ bản (Simple Background Subtraction); giải thuật trừ nền trung bình (Running Average); giải thuật Σ-Δ (Σ-Δ Estimation); giải thuật Σ-Δ cải tiến (Multiple Σ-Δ Estimation); … [5]

 Tác phẩm “Lọc ảnh với mơ hình túi từ trực quan và thuật tốn RMNB” của các tác giả Nguyễn Minh Trung, Nguyễn Ngọc Hưng và Đ Thanh Nghị

ARCX4-đã giới thiệu một phương pháp mới phát hiện nh ng ảnh khiêu dâm dựa trên sự kết hợp gi a phương pháp biểu diễn ảnh bằng các n t đ c trưng cục bộ với nh ng biến đổi

tỉ lệ (Scale Invariant Feature Transform), mơ hình túi từ (Bag of Words) và giải thuật ArcX4 của random Multinomial Nạve Bayes) [6]

1.1.2 Các cơng trình, đề tài nghiên cứu nước ngồi

Trên thế giới, cĩ nhiều cơng trình nghiên cứu liên quan đến phương pháp phát hiện hành động của đối tượng dựa vào kỹ thuật xử lý ảnh kết hợp với máy học như:

 Các tác giả Bashar Tahayna, Mohammed Belkhatir, Saadat M Alhashmi, Thomas O'Daniel đã cho rằng dựa vào nh ng keypoint quan trọng được rút trích, hành động của con người cĩ thể được mơ tả như là một "túi từ trực quan" Cách mơ tả này thường được sử dụng trong việc phân loại các d liệu hình ảnh và video Các lựa chọn đại diện liên quan đến kích thước, lựa chọn, và trọng số của từ trực quan là rất quan trọng để thực hiện phân loại Trong bài báo, họ đã giải quyết vấn đề phân loại hành động con người hiệu quả bằng cách chọn một “túi từ” tối ưu để đại diện cho một hành động và giới thiệu thuật tốn phân lớp SVM để giảm kích thước, lựa chọn tập hợp đ c trưng, các từ trực quan cĩ trọng lượng và lựa chọn tham số SVM Tác động của việc tối ưu hĩa này để phân loại hành động con người được nghiên cứu thơng qua các thí nghiệm trên các tập d liệu TRECVID và CMU [7]

 Cơng trình “Video Event Classification Using Bag of Words and String Kernels” của các tác giả Lamberto Ballan, Marco Bertini, Alberto Del Bimbo và Giuseppe Serra đã trình bày nhận dạng các sự kiện trong video là một việc làm đầy thách thức trong phân tích video một cách tự động Hiện nay, một trong

Trang 17

nh ng cách nhận dạng đối tượng được sử dụng thành công là phương pháp “túi từ” (Bag of Words) Bài báo này đã đưa ra một phương pháp mới nhằm giới thiệu thông tin thay đổi theo thời gian (temporal information) trong cách tiếp cận của Bag of Words Sự kiện có thể mô hình hóa như một chu i gồm các biểu đồ histogram, được tính từ m i khung hình bằng cách sử dụng mô hình Bag of Words truyền thống Các trình tự được xem như các chu i, trong đó m i biểu đồ được coi là đ c trưng Phân loại sự kiện của nh ng trình tự có kích thước thay đổi, tùy thuộc vào độ dài của video clip, được thực hiện bằng cách sử dụng phân loại SVM với hàm nhân (Kernel) Kết quả thực nghiệm thực hiện trên hai bộ d liệu soccer video và TRECVID 2005 chứng minh giá trị của phương pháp đã được đề xuất [11]

 Tác giả Junsong Yuan và Zicheng Liu tập trung vào việc phát hiện hành động của con người dựa trên video, mà gần đây đã được chứng minh là rất h u ích trong một loạt các ứng dụng bao gồm cả giám sát video, theo dõi từ xa bệnh nhân và người già, chẩn đoán y tế và đào tạo, phân tích nội dung video và tìm kiếm, và tương tác người máy (HCI) Hành động có thể được đ c trưng bởi mô hình không gian-thời gian Tương tự như phát hiện đối tượng, phát hiện hành động tìm sự l p lại các mô hình không gian-thời gian thông qua mô hình kết hợp Khác với nhận dạng hành động, phân loại hành động, ở ch m i hành động được phân loại vào một trong các lớp hành động được xác định trước, việc phát hiện hành động cần xác định không nh ng ở các loại hành động xảy ra mà còn nơi (vị trí không gian của hình ảnh) và khi nào (định vị thời gian) nó xảy ra trong video Nói chung, đó là một vấn đề khó khăn hơn so với phân loại hành động M t khác, so với việc bắt chuyển động của con người đòi hỏi phải thu hồi tư thế đầy đủ và chuyển động của cơ thể con người, nhiệm vụ phát hiện hành động chỉ cần phát hiện các lần xuất hiện của một loại nhất định của hành động Tác phẩm đã nêu các đ c trưng video phổ biến, các phương pháp phát hiện và giới thiệu một số tài nguyên trực tuyến h u ích [10]

 Tác giả Gang Yu và Junsong Yuan nhắm mục tiêu vào việc tạo ra các đề xuất hành động cùng loại trong video M i đề xuất hành động tương ứng với một chu i thời gian trong phạm vi không gian, tức là một video giới hạn không gian -thời gian có khả năng xác định vị trí một hành động của con người Giả sử m i hành động được thực

Trang 18

hiện bởi một con người với chuyển động có ý nghĩa, sự xuất hiện và các tín hiệu chuyển động được sử dụng để đo “actionness” của video Sau khi chọn các video có điểm số “actionness” cao, các đề xuất của chúng tôi được trình bày rõ ràng, chính xác như bài toán lớn, bao quát để chọn một tập hợp đề xuất hành động đó có thể tối đa hóa điểm “actionness” So với phương pháp tiếp cận đề xuất hành động hiện có, phương pháp của chúng ta không dựa trên phân đoạn trên video mà có thể được tạo ra gần thời gian thực Kết quả TN trên hai tập d liệu MSRII và UCF 101 nhằm xác nhận hiệu suất cao của các đề xuất hành động của chúng tôi cũng như kết quả cạnh tranh trên phát hiện hành động và tìm kiếm [9]

Nhìn chung, các tác phẩm, luận án, luận văn ở trên đều được các tác giả đầu tư rất nhiều công sức và tâm huyết nên có nh ng đóng góp rất lớn trong lĩnh vực xử lý ảnh và thị giác máy tính

Kết quả nghiên cứu của các công trình, đề tài trên vừa là cơ sở khoa học vừa là nguồn tư liệu quý báu giúp chúng tôi tiếp tục nghiên cứu, khám phá lĩnh vực này và vận dụng kiến thức để xây dựng ứng dụng có thể phát hiện một số hành vi vi phạm của

HS THCS trong thực hiện nội quy nhà trường dựa trên Bag of Words và máy học Nó

có thể h trợ cho việc xây dựng hệ thống camera giám sát tự động trong nhà trường Đây là một việc làm có ý nghĩa thực tiễn, góp phần nâng cao chất lượng giáo dục

1.2 Cơ sở lý thuyết và những khái niệm cơ bản

1.2.1 Dữ liệu video số

Thuật ng video dùng để chỉ nguồn thông tin hình ảnh trực quan, gồm một chu i các ảnh tĩnh liên tiếp nhau, được sắp xếp theo chiều thời gian

Định nghĩa 1.1 Video số

Trang 19

Video số là một dãy các khung hình liên tiếp, m i khung hình tương ứng với một hình ảnh tĩnh Khi video được thực hiện, dãy khung hình được hiển thị tuần tự với một tốc độ nhất định Tốc độ hiển thị các khung hình thường là 30

ho c 25 khung hình/giây [1]

Hình 1.1 Cấu trúc tổng quát của video

Một số đặc trƣng của video gồm:

 Màu sắc: là một đ c trưng cơ bản của ảnh Lược đồ màu là biểu diễn sự phân

bố màu trong ảnh Biểu đồ màu phụ thuộc vào hệ màu và các phương pháp lượng tử hóa ảnh được dùng

 Kết cấu: là một đ c trưng quan trọng của bề m t khung hình Biểu diễn kết

cấu gồm ma trận đồng thời và Tamura Ma trận đồng thời mô tả hướng và khoảng cách

gi a các điểm ảnh Tamura gồm các thuộc tính đo tính thô, độ tương phản, hướng, tính trơn, tính cân đối và độ thô ráp

 Hình dạng: là đ c trưng có thể chia thành đ c trưng toàn cục và đ c trưng cục

bộ Đ c trưng toàn cục thu được từ toàn bộ hình dáng đối tượng trong ảnh Đ c trưng cục bộ thu được từ việc thao tác với một phần của ảnh, không phụ thuộc vào toàn bộ ảnh

 Chuyển động: là một thuộc tính quan trọng của video

Trang 20

Hình 1.2 Sơ đồ các bước cơ bản của quá trình xử lý ảnh

Thu nhận ảnh: là thu ảnh qua một bộ thu ảnh và số hóa nh ng tín hiệu liên tục

được ra bởi bộ thu ảnh đó

Tiền xử lý: các thao tác xử lý tác động lên ảnh như cải thiện độ tương phản của

ảnh, khử nhiễu, cắt xén ảnh, …nhằm giúp ảnh trở nên thích hợp hơn cho các thao tác

xử lý tiếp theo

Phân đoạn: Mục đích của phân đoạn ảnh là để có một miêu tả tổng hợp về nhiều

phần tử khác nhau cấu tạo nên ảnh thô Quá trình phân đoạn ảnh gồm phân vùng ảnh

và trích chọn đ c trưng của ảnh

Biểu diễn: các đối tượng được tách ra từ khối phân đoạn sẽ được biểu diễn một

cách chính xác với các đ c trưng của từng đối tượng riêng biệt

Phân lớp: xác định xem các đối tượng riêng biệt được tách ra từ các khối trước

đó có phải là đối tượng cần quan tâm hay không

1.2.3 Phát hiện đối tƣợng chuyển động

Trong thị giác máy tính, phát hiện đối tượng là một giải pháp được sử dụng rộng rãi trên toàn thế giới Phương pháp này ứng dụng các kỹ thuật xử lý ảnh và các thuật toán máy học để tìm các đối tượng trong các hình ảnh Tuy nhiên, việc phát hiện đối tượng trong lĩnh vực thị giác máy tính là một vấn đề khó bởi vì hệ thống phải giải quyết với sự thay đổi về điều kiện tạo ảnh (ánh sáng, thời tiết) và sự thay đổi của các cảnh và môi trường

Bài toán phát hiện đối tượng chuyển động là bài toán cơ sở, từ đó con người đã xây dựng rất nhiều ứng dụng như hệ thống giám sát bảo vệ mục tiêu, hệ thống giám sát

và phân luồng giao thông, phát hiện và theo vết người, phân tích cử động của con người trong nghiên cứu chế tạo robot, …

Đầu

vào

Thu nhận ảnh

Tiền

xử lý ảnh

Phân đoạn ảnh

Biểu diễn ảnh

Phân lớp

Trang 21

Hiện nay, có nhiều phương pháp phát hiện đối tượng chuyển động Tuy nhiên, phương pháp trừ nền (Background Subtraction) là một trong nh ng phương pháp phát hiện chuyển động thông dụng

Phương pháp trừ nền còn gọi phương pháp phát hiện tiền cảnh (Foreground detection) là một kỹ thuật trong lĩnh vực xử lý ảnh và thị giác máy tính khi tiền cảnh sẽ được tách ra cho nh ng bước xử lý tiếp theo Thông thường, nh ng vùng ảnh quan tâm

sẽ thuộc vùng tiền cảnh của bức ảnh nên việc trừ nền hiệu quả và chính xác sẽ giúp các

hệ thống đạt được sự ổn định và tính nhanh chóng Phương pháp trừ nền được ứng dụng rộng rãi trong nhiều lĩnh vực như camera giám sát, nhận dạng đối tượng, nhận dạng cử chỉ đối tượng, giao thông để theo dõi lưu lượng xe, …

Một số ứng dụng thực tế của bài toán phát hiện chuyển động là xây dựng hệ thống tự động giám sát mục tiêu và theo dõi đối tượng phục vụ trong lĩnh vực quốc phòng, an ninh quốc gia; xây dựng hệ thống phân loại phương tiện giao thông, xác định số lượng phương tiện tham gia tại từng nút giao thông nhằm điều khiển và phân luồng giao thông; trong lĩnh vực nghiên cứu khoa học có ứng dựng phân tích cử động của con người; tương tác người máy; …

1.2.4 Phương pháp biểu diễn ảnh dựa trên đặc trưng cục bộ SIFT và Bag of Words

 Đặc trưng cục bộ SIFT:

Đ c trưng ảnh là nh ng thông tin phân biệt ảnh này với ảnh khác, giúp cho bài toán phân lớp, tìm kiếm ảnh được thực hiện dễ dàng và chính xác Các nghiên cứu gần đây cho thấy có hai cách tiếp cận chính về rút trích đ c trưng ảnh gồm:

- Đ c trưng toàn cục (global features) là đ c trưng biểu diễn cho toàn ảnh

- Đ c trưng cục bộ (local features) là đ c trưng biểu diễn cho từng vùng của ảnh Một vài nét của hai cách tiếp cận chính về trích chọn đ c trưng ảnh được trình bày bằng bảng 1.1 dưới đây:

Trang 22

Bảng 1.1 So sánh đặc trƣng toàn cục và đặc trƣng cục bộ

Đặc điểm Cho phép biểu diễn, tổng quát hóa

toàn bộ ảnh thành dạng một vector

Cho phép biểu diễn ảnh một cách chi tiết hơn, m i ảnh được biểu diễn bởi nhiều vector đ c trưng cục bộ

Ví dụ Dựa vào màu sắc, kết cấu, tổ chức

đồ màu (histogram)

SIFT, SURF (Speed Up Robust Features)

Ƣu điểm Tốc độ tính toán nhanh Độ phân biệt cao

Nhƣợc điểm Độ phân biệt không cao Thời gian tính toán, trích chọn lâu

SIFT là một trong nh ng phương pháp hiệu quả để trích chọn các điểm bất biến

từ các ảnh được dùng để thực hiện so khớp tin cậy gi a các tầm nhìn khác nhau của cùng một đối tượng ho c quang cảnh Phương pháp này được gọi là “Ph p biến đổi

đ c trong bất biến tỉ lệ” vì nó biến đổi d liệu ảnh thành các tọa độ bất biến tỉ lệ có liên quan đến đ c trưng cục bộ

Có bốn bước thực hiện trong thuật toán để trích xuất các điểm đ c trưng (keypoint) gồm:

(1) Phát hiện cực trị trong không gian đo (Scale-space Extrema Detection):

Tính không gian đo và áp dụng hàm sai khác Gaussian (DoG - Deffirence of Gaussisan) để tìm ra các điểm có khả năng làm điểm tiềm năng Đó là nh ng điểm rất

ít phụ thuộc vào sự thu phóng ảnh và xoay ảnh

Trang 23

(2) Định vị các điểm đặc trưng (Keypoint localization): Từ nh ng điểm tiềm

năng ở trên sẽ lọc và lấy ra tập các điểm đ c trưng tốt nhất

(3) Gán hướng cho các điểm đặc trưng (Oriented Assignment): M i điểm đ c

trưng sẽ được gán cho một ho c nhiều hướng dựa trên hướng gradient của ảnh Các

ph p toán xử lý đã thực hiện dò tìm và gán tọa độ, kích thước và hướng cho m i điểm

đ c trưng

(4) Mô tả điểm đặc trưng (Keypoint Description): Các hướng gradient cục bộ

được đo trong ảnh có kích cỡ cụ thể nào đó trong vùng lân cận với m i điểm đ c trưng Sau đó, chúng sẽ được biễu diễn thành một dạng mà cho ph p mô tả các tầng quan trọng của quá trình bóp m o hình dạng cục bộ và sự thay đổi về độ sáng

Đ c trưng cục bộ SIFT không bị thay đổi trước nh ng biến đổi tỉ lệ ảnh, tịnh tiến, phép quay, không bị thay đổi một phần đối với phép biến đổi hình học affine (thay đổi góc nhìn) và mạnh với nh ng thay đổi về độ sáng, sự nhiễu và che khuất

 Mô hình Bag of words:

Mô hình túi từ (Bag of words Model) là cách biểu diễn thường được sử dụng trong xử lý ngôn ng tự nhiên và hệ thống truy vấn thông tin

Trong thị giác máy tính, mô hình túi từ có thể được ứng dụng cho phân lớp ảnh bằng cách xử lý các đ c trưng ảnh như “các từ” trong văn bản Trong phân loại văn bản, “túi từ” là một vector thưa của các từ đã xuất hiện trong văn bản, biểu diễn biểu

đồ tần xuất thưa của từ điển Đối với ảnh, “túi từ trực quan” là một vector thưa của các

từ vựng đã xuất hiện dựa vào các đ c trưng cục bộ của ảnh và tần số xuất hiện của chúng

Để có thể áp dụng mô hình này lên ảnh, trước hết cần phải định nghĩa các “từ” cho ảnh được gọi là “từ trực quan” (visual word) Giai đoạn biểu diễn ảnh theo mô hình này gồm 3 bước chính:

(1) Phát hiện và biểu diễn các nét đặc trưng cục bộ

Đầu tiên, ảnh được đưa về dạng mức xám Các điểm đ c trưng trong ảnh được tính bằng thuật toán phát hiện điểm đ c trưng cục bộ Sau đó, các điểm đ c trưng được xác định và mô tả bằng các vector mô tả cục bộ Véc-tơ mô tả bất biến đối với nh ng

Trang 24

biến đổi tỉ lệ, tịnh tiến, ph p quay; một phần đối với nh ng thay đổi về góc nhìn,

nh ng thay đổi về độ sáng, nhiễu

(2) Xây dựng từ điển các từ trực quan

Xây dựng các từ trực quan từ các vector mô tả cục bộ Dùng thuật toán K-mean

để phân các vector mô tả vào các nhóm (cluster) và m i nhóm tương ứng với một từ trực quan Tập các nhóm này tạo thành một từ điển

(3) Biểu diễn ảnh dưới dạng vector tần xuất

Một ảnh sẽ được biểu diễn bằng tần số của các từ trực quan trong ảnh

1.2.5 Phân loại đối tượng

Phân lớp ảnh là một trong nh ng lĩnh vực được chú ý, nghiên cứu và ứng dụng nhiều trong nh ng năm gần đây Phân lớp ảnh (hay Image Classification ho c Image Categorization) là gán nhãn tự động cho từng ảnh theo chủ đề đã được định nghĩa trước dựa vào nội dung của ảnh

Hệ thống phân lớp ảnh thường gồm hai bước: rút trích đ c trưng (Images Features) từ nội dung ảnh và huấn luyện mô hình máy học để gán nhãn tự động từ các

đ c trưng này Hiệu quả của hệ thống phân lớp phụ thuộc vào các phương pháp sử dụng ở hai bước trên

Một số ứng dựng thực tế của bài toán phân loại đối tượng như tìm kiếm ảnh; nhận dạng ảnh; …

Quá trình phân loại ảnh bao gồm quá trình huấn luyện ảnh và quá trình kiểm thử

ảnh Quá trình này được biểu diễn bằng các hình dưới đây:

Trang 25

Hình 1.3 Quá trình huấn luyện ảnh

D liệu huấn luyện

(Training Images)

Rút trích đ c trưng (Images Features)

Huấn luyện phân lớp (Classifier Training)

Gán nhãn Training Labels

Phân lớp (Trained Classifier)

D liệu kiểm tra

(Test Images)

Rút trích đ c trưng (Images Features)

Bộ Phân lớp (Trained Classifier)

Dự đoán kết quả Prediction

Trang 26

thì bộ phân loại SVM với hàm Kernel rất hiệu quả đối với bài toán phân loại hành động con người hay nhận dạng các sự kiện trong video

Trang 27

Tóm tắt chương 1

Hiện nay, có nhiều sách báo, tài liệu, công trình, đề tài nghiên cứu về lĩnh vực thị giác máy tính và đã có nhiều ứng dụng thực tiễn, đ c biệt là các đề tài nghiên cứu về phát hiện, theo dõi, phân loại đối tượng Các đề tài đi trước đã đưa ra các giải pháp để giải quyết bài toán phát hiện, theo dõi, phân loại đối tượng từ video Tuy nhiên, các đề tài chủ yếu nghiên cứu và phục vụ trong lĩnh vụ giám sát an ninh, giao thông Vì vậy,

đề tài nghiên cứu “Phát hiện một số hành vi vi phạm nội quy của HS THCS dựa trên

mô hình Bag of Words và máy học” là việc làm rất có ý nghĩa về m t khoa học và thực tiễn, đ c biệt đối với vấn đề quản lý HS trong nhà trường và hiệu quả giáo dục của Việt Nam

Căn cứ vào nh ng cơ sở lý thuyết đã tìm hiểu, xác định giải pháp đối với bài toán phát hiện hành vi HS THCS trong thực hiện nội quy nhà trường là:

- Về phát hiện đối tượng, sử dụng phương pháp trừ nền để phát hiện nhanh và chính xác đối tượng

- Về phân loại, trong điều kiện đối tượng quan sát là HS với trang phục áo trắng, quần xanh đậm, đeo khăn quàng, bỏ áo vào quần; phạm vi quan sát trong phòng học nên chúng tôi đã sử dụng các n t đ c trưng cục bộ SIFT và mô hình túi từ để biểu diễn ảnh Sau đó, thực hiện theo quy trình phân loại ảnh bằng bộ phận loại SVM

Sơ đồ cấu trúc giải quyết bài toán phát hiện hành vi HS THCS trong thực hiện nội quy nhà trường từ video được thể hiện ở hình 1.5

Trang 28

Hình 1.5 Sơ đồ giải quyết bài toán phát hiện hành vi HS

Thông tin đối tượng

Đối tượng mẫu

Xây dựng đ c trưng mẫu

Cơ sở d liệu

Trang 29

Chương 2 CƠ SỞ LÝ THUYẾT VỀ PHÁT HIỆN HÀNH VI VI PHẠM NỘI QUY CỦA HỌC SINH TRUNG HỌC CƠ SỞ DỰA

TRÊN BAG OF WORDS VÀ MÁY HỌC

2.1 Phương pháp trừ nền phát hiện chuyển động

Ý tưởng của phương pháp trừ nền

Để phát hiện được các đối tượng chuyển động trong video, cần phải có mô hình nền (Background Model) Mô hình nền có thể học qua nhiều khung hình (frames) nếu nền bị thay đổi ho c có thể chọn một nền có sẵn nếu nền không bị thay đổi Dùng mô hình nền so sánh với các frames hiện tại và kết quả cho biết đâu là vùng nền, đâu là đối tượng chuyển động hay còn gọi là tiền cảnh (Foreground)

Các thuật toán trừ nền

Phương pháp trừ nền được dùng rất phổ biến Tác giả Nguyễn Văn Căn [1] đã trình bày một số thuật toán trừ nền dùng cho việc phát hiện chuyển động như: trừ nền

cơ bản, trừ nền trung bình, Gaussain Mixture Model

2.1.1 Thuật toán trừ nền cơ bản

Là phương pháp so sánh ảnh đơn giản nhất, dựa trên sự sai khác gi a hai ảnh và

so sánh sự sai khác này với một giá trị ngưỡng cho trước Nếu sự sai khác này lớn hơn giá trị ngưỡng đã cho thì kết luận có đối tượng chuyển động

Gọi D(x,y) là m t nạ nhị phân phát hiện chuyển động được định nghĩa bởi công thức (2.1):

Trang 30

Kết luận:

- Nếu D(x,y) = 0, đây là các điểm ảnh của nền

- Nếu D(x,y) = 1, đây là các điểm ảnh của đối tượng chuyển động

Ƣu điểm: Thuật toán đơn giản, thời gian tính toán nhanh, h u dụng trong trường

hợp chỉ cần xác định nh ng thay đổi bộ phận, mà không cần xác định sự thay đổi của toàn bộ khung hình

Nhƣợc điểm: Độ chính xác của thuật toán này thấp, kết quả không chính xác đối

với nh ng trường hợp đối tượng trong đoạn video hầu như không di chuyển, ảnh có nhiều nhiễu

2.1.2 Thuật toán trừ nền trung bình

Thay vì gi nguyên giá trị khung hình nền B(x,y) trong phép trừ thì thuật toán này cập nhật liên tục giá trị khung hình nền nhằm tăng hiệu quả phát hiện đối tượng chuyển động Theo lập luận này, giá trị nền Bt(x,y) được cập nhật theo công thức (2.2):

Bt(x,y) = (1-β) Bt-1(x y) +βIt(x,y) Trong đó:

Giá trị khởi tạo B0(x, y) = I0(x,y)

β là tham số cập nhật nền cho trước thuộc (0,1)

It(x,y) là giá trị frame đến

Bt(x,y) là giá trị nền theo chỉ số khung hình t

Với τ là giá trị ngưỡng sai lệch cho phép gi a các giá trị điểm ảnh của khung hình (frame) It và ảnh nền, thì m t nạ nhị phân D(x,y) phát hiện chuyển động được tính theo công thức (2.3):

( ) { | ( ) ( )|

| ( ) ( )|

Kết luận:

- Nếu D(x,y) = 0, đây là các điểm ảnh của nền

- Nếu D(x,y) = 1, đây là các điểm ảnh của đối tượng chuyển động

Ƣu điểm: độ chính xác phát hiện đối tượng chuyển động tăng so với thuật toán

trừ nền cơ bản Cài đ t đơn giản, độ phức tạp thấp, tốc độ xử lý nhanh

(2.3) (2.2)

Trang 31

Nhƣợc điểm: Vẫn chưa giải quyết được nh ng hạn chế của phương pháp trừ nền

cơ bản đó là kết quả phát hiện không chính xác đối với nh ng trường hợp đối tượng

trong đoạn video hầu như không di chuyển, camera thu ảnh có nhiều nhiễu

2.1.3 Gaussian Mixture Model

 Giới thiệu Gaussian Mixture Model

Mô hình hợp Gauss là một dạng mô hình thống kê được xây dựng từ việc huấn

luyện các tham số thông qua d liệu học Từ “Gauss” được đ t theo tên của nhà

toán học người Đức Carl Friedrich Gauss

µ là giá trị trung bình; σ là độ lệch chuẩn

- Nếu chọn μ=0 và σ=1 thì fN(x, µ, σ2) được gọi là phân phối chuẩn tắc và hàm mật độ xác xuất được tính bởi công thức (2.5):

( )

√ x ( )

- Nếu x là vector gồm D thành phần, hàm mật độ xác suất của phân phối Gauss

fN(x, µ, Σ) được tính bởi công thức (2.6):

Trang 32

Mô hình GMM được mô tả như sau:

Vì vậy, phân phối Gauss có phương sai và trọng số lớn bao nhiêu thì có mức

độ ảnh hưởng lớn bấy nhiêu đối với kết xuất của mô hình

Tóm lại: GMM là mô hình thống kê d liệu; D liệu phân bố theo phân phối

Gaussian nên tham số kỳ vọng, phương sai có thể đ c trưng cho toàn bộ d liệu; GMM tỏ ra tương đối hiệu quả đối với một vài ứng dụng cụ thể

 Một số ứng dụng của Gaussian mixture model như phân cụm d liệu; phát

hiện đối tượng chuyển động; nhận dạng phương ng ; định danh người nói độc lập văn bản; …

 Ứng dụng phát hiện đối tƣợng chuyển động

Ý tưởng là xử lý giá trị của một điểm ảnh với một mô hình Gaussian h n hợp Nếu một điểm ảnh không khớp với phân phối nền thì nó thuộc đối tượng chuyển động Tác giả Nguyễn Văn Căn [1] đã trình bày cách tiếp cận xác suất sử dụng mô hình Gaussian h n hợp để xác định ảnh nền và đối tượng chuyển động Từ thời điểm bắt đầu đến thời điểm t, ta được tập {X1, X2, , Xt} là một tiến trình điểm Xác suất P của một điểm ảnh hiện tại được tính bởi công thức (2.8):

(2.7)

Trang 33

( ) ∑ ( )

Trong đó:

Xt là điểm ảnh tại thời gian t

i,t là trọng số chỉ độ ảnh hưởng của hàm Gaussian thứ i tại thời điểm t

i,t là ma trận hiệp phương sai của phân bố Gauss thứ i (iK) của h n hợp Gauss tại thời gian t

µi,t là cường độ trung bình của Gaussian thứ i tại thời điểm t

Với I là ma trận đơn vị, K là tổng số thành phần của h n hợp Gaussian được sử dụng thuộc (3≤K≤5) để tiện tính ma trận hiệp hiệp phương sai theo công thức (2.9):

 là hàm mật độ xác xuất được xác định bởi công thức (2.10):

( | ) ( ) | | ( ) ( )Thuật toán sẽ duyệt qua từng điểm ảnh để cập nhật các tham số của toàn bộ mô hình Gaussian h n hợp cho khung hình đang xử lý Khi một điểm ảnh được xử lý, nó

sẽ được kiểm tra xem có khớp với bất kỳ thành phần nào trong K thành phần của h n hợp Gaussian không Một điểm ảnh gọi là khớp với thành phần Gaussian thứ i tại thời điểm t khi |Xt - µi,t| ≤ 2.5i,t.Với i,t là độ lệch chuẩn của Gaussian thứ i tại thời điểm t Nếu khớp thì các tham số được cập nhật theo các công thức (2.11):

( ) + Với α là tỉ lệ học, Mk,t=1 đối với phân phối Gauss và Mk,t=0 đối với các phân phối khác

Tham số μ và σ được cập nhật theo công thức (2.12) và (2.13):

( ) + ( ) + ( ) ( ) Trong đó  được tính bởi công thức (2.14):

( | ) Tiếp theo, K thành phần của h n hợp Gaussian sẽ được xếp hạng theo tỷ số

i,t/i,t Thành phần có thứ hạng cao hơn sẽ có độ biến thiên thấp và xác suất xuất hiện

(2.14)

Trang 34

cao nên thể hiện tính chất của nền Vì vậy, các thành phần Gaussian có thứ hạng cao, trọng số lớn hơn ngưỡng thì được xem là mô hình nền Các thành phần Gaussian còn lại là mô hình đối tượng

Ƣu điểm: Giải quyết được vấn đề ánh sáng thay đổi, phù hợp với các nền động,

độ chính xác tăng so với các thuật toán phát hiện chuyển động khác

Nhƣợc điểm: Tính toán nhiều hơn, độ phức tạp tăng so với các phương pháp

Tính chất của SIFT là bất biến khi:

- Thay đổi tỉ lệ ảnh

- Quay ảnh

- Thay đổi góc nhìn

- Thay đổi cường độ chiếu sáng ảnh

Thuật toán SIFT gồm bốn bước thực hiện được thể hiện ở hình 2.3:

Trang 35

Hình 2.3 Sơ đồ các bước cơ bản trong thuật toán SIFT

2.2.1 Phát hiện các điểm cực trị trong không gian đo

Tìm nh ng khu vực chứa nh ng điểm tiềm năng có thể trở thành điểm đ c trưng

có tính chất bất biến dưới các phép phóng ảnh và xoay ảnh bằng phương pháp lọc theo tầng dựa vào việc thay đổi tham số bộ lọc Gaussian Cụ thể là dò tìm các vị trí và các

số đo mà chúng không thay đổi trong các khung nhìn khác nhau của cùng một đối tượng

 Quá trình tính không gian đo (L) và hàm sai khác DoG

Không gian đo của một ảnh được mô tả bằng hàm L(x,y,σ), được xác định bởi công thức (2.15):

( ) ( ) ( )

Tìm không gian đo

Dùng các hàm sai khác DOG

Định vị các điểm tiềm năng

Loại bỏ các điểm tiềm năng có

tính tương phản kém hay theo

biên đối tượng

Phát hiện các điểm cực trị trong không gian đo

Định vị Keypoints

Xác định hướng cho Keypoints

Mô tả Keypoints

(2.15)

Trang 36

Trong đó :

Toán hạng * là ph p nhân chập các ma trận 2 chiều

I (x,y) là ảnh đầu vào

G(x,y,kσ) là biến tỉ lệ Gaussian được tính bởi công thức (2.16) :

( )

Để tìm nh ng điểm đ c trưng có tính bất biến cao, thuật toán đã tìm cực trị cục

bộ của hàm sai khác DoG, kí hiệu là D(x,y,σ) Hàm này được tính từ sự sai khác gi a

2 không gian đo cạnh nhau của một ảnh với tham số đo lệch nhau một hằng số k, xác định bởi công thức (2.17) :

( ) ( ) ( ) ( ( ) ( )) ( )

Từ công thức trên, cho thấy việc dùng hàm Gausian để tính không gian đo (L) rất hiệu quả vì hàm (L) phải tính nhiều để mô tả đ c trưng trong không gian đo Còn tính D(x,y,σ) chỉ cần dùng ph p trừ ma trận

Quá trình tính không gian đo (L) và hàm sai khác DoG được minh họa bằng hình 2.5 dưới đây :

Hình 2.4 Quá trình tính không gian đo (L) và hàm sai khác DoG

(Nguồn: paper of David G Lowe in 2004)

(2.16)

(2.17)

Định dạng
Số trang	73
Dung lượng	2,61 MB