(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video(Luận văn thạc sĩ) Hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video
Trang 1Trang 1 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC NGOẠI NGỮ-TIN HỌC
THÀNH PHỐ HỒ CHÍ MINH
LÊ THÁI TÚ TIỀN
HỆ THỐNG ĐIỂM DANH HỌC SINH THÔNG QUA NHẬN DẠNG ĐẦU HỌC SINH
KẾT HỢP THEO VẾT CHUYỂN ĐỘNG TRONG VIDEO
LUẬN VĂN THẠC SĨ
Ngành: CÔNG NGHỆ THÔNG TIN Mã số: 60480201
NGƯỜI HƯỚNG DẪN KHOA HỌC PGS.TS PHẠM THẾ BẢO
TP HỒ CHÍ MINH – THÁNG 6 NĂM 2019
Trang 2Trang 2 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
LỜI CAM ĐOAN
Tôi xin cam đoan đây là công trình nghiên cứu của bản thân được hướng dẫn bởi PGS.TS Phạm Thế Bảo Các số liệu, kết quả trình bày trong luận văn này là trung thực Những tư liệu được sử dụng trong luận văn có nguồn gốc và trích dẫn
rõ ràng, đầy đủ
Lê Thái Tú Tiền
Trang 3Trang 3 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
Học viên đã bảo vệ thành công luận văn ngày 04/6/2019, tại Hội đồng đánh giá luận văn thạc sĩ thành lập theo Quyết định số 115/QĐ-ĐNT ngày 20/5/2019 của Hiệu trưởng Trường ĐH Ngoại ngữ-Tin học TP.HCM, với sự tham gia của:
Chủ tịch Hội đồng: PGS.TS Trần Văn Lăng ĐH Lạc Hồng (Đồng Nai) Phản biện 1: TS Nguyễn Đức Cường ĐH Ngoại ngữ-Tin học TP.HCM Phản biện 2: PGS.TS Nguyễn Thanh Bình ĐH Bách Khoa (ĐHQG TP.HCM)
Ủy viên: PGS.TS Lê Hoàng Thái ĐH KHTN (ĐHQG TP.HCM) Thư ký: Tiến sĩ Trần Minh Thái ĐH Ngoại ngữ-Tin học TP.HCM
Trang 4Trang 4 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
DANH MỤC CÁC CHỮ VIẾT TẮT
TT TỪ VIẾT
TẮT
TỪ ĐẦY ĐỦ NGHĨA
1 ANN Artificial Neural Network Mạng nơ-ron nhân tạo
2 CNN Convolutional Neural Network Mạng nơ-ron tích chập
3 FCNN Full Convolution Neural
Network
Mạng nơ-ron tích chập đầy đủ
4 HOG Histogram of orientation
7 MLP Multilayer Perceptron Mạng thần kinh nhân tạo
truyền thẳng nhiều lớp
8 R-CNN Region proposals + CNN CNN khu vực
9 SVM Support vector machine Máy vectơ hỗ trợ
10 YOLO You only look once Bạn chỉ nhìn một lần
Trang 5Trang 5 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
DANH MỤC CÁC HÌNH VẼ
1 Hình 1.1 Mô hình phân cấp phát hiện vùng đầu theo thời
gian thực
15
2 Hình 1.2 So sánh các kết quả của entropy của 2 giai đoạn 16
3 Hình 2.1 Cấu trúc của mạng thần kinh nhân tạo 24
4 Hình 2.2 Ma trận trong cửa sổ trượt 26
12 Hình 2.10 Các lớp tạo thành một CNN cho ra 10 giá trị 34
13 Hình 2.11 Giai đoạn phân vùng ảnh 37
14 Hình 2.12 Giai đoạn xác định đối tượng 38
15 Hình 2.13 Chín hình dạng mẫu của một đối tượng 40
16 Hình 3.1 Mô hình bài toán điểm danh học sinh dùng
camera
51
17 Hình 4.1 Danh sách các video quay các lớp học 68
18 Hình 4.2 Danh sách các frame hình được chọn huấn luyện
từ 30 video
69
19 Hình 4.3 Đối tượng bị vật thể che khuất tại lớp TĐC34A 79
20 Hình 4.4 Phát hiện sai đối tượng lớp TKT33-3N 79
Trang 6Trang 6 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
Trang 7Trang 7 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
DANH MỤC CÁC BẢNG BIỂU, SƠ ĐỒ
1 Sơ đồ 1.1 Sơ đồ mô tả phát hiện đối tượng chuyển động 16
2 Bảng 4.1 Danh sách 45 video dùng làm dữ liệu 61 – 63
3 Bảng 4.2 Danh sách 45 video phân nhóm theo buổi 63
4 Bảng 4.3 Danh sách 45 video phân nhóm theo phòng 64
5 Bảng 4.4 Danh sách 45 video phân nhóm theo tầng 64
6 Bảng 4.5 Danh sách 45 video phân nhóm theo ánh sáng 64
7 Bảng 4.6 Độ chính xác của bài toán điểm danh phân nhóm
Trang 8Trang 8 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
MỤC LỤC
LỜI CAM ĐOAN 2
DANH MỤC CÁC CHỮ VIẾT TẮT 4
DANH MỤC CÁC HÌNH VẼ 5
DANH MỤC CÁC BẢNG BIỂU, SƠ ĐỒ 7
MỤC LỤC 8
LỜI CẢM ƠN 10
TỔNG QUAN 11
Đặt vấn đề 11
Giới thiệu bài toán 13
Các hướng tiếp cận 14
1.3.1 Xác định vị trí vùng đầu trong ảnh 14
1.3.2 Theo vết chuyển động của đối tượng 18
Đề xuất hướng giải quyết 21
CƠ SỞ LÝ THUYẾT 23
Mạng nơ-ron nhân tạo 23
Mạng nơ-ron tích chập 26
2.2.1 Tổng quan 26
2.2.2 Mô hình của CNN 27
2.2.3 Xây dựng CNN cho phân loại ảnh 29
Phát hiện đối tượng 34
2.3.1 Tổng quan 34
2.3.2 Phương pháp phát hiện đối tượng 36
Theo vết chuyển động dựa trên tương quan 42
2.4.1 Giới thiệu 42
2.4.2 Những vấn đề liên quan đến thuật toán 44
2.4.3 Thuật toán theo vết đối tượng dựa trên đặc trưng tương quan 47
Trang 9Trang 9 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
2.4.4 Tổng kết 49
XÂY DỰNG THUẬT TOÁN 50
Phát hiện vùng đầu học sinh trong ảnh 51
Theo vết chuyển động 57
Tính vị trí tâm trung bình vùng đầu từng học sinh 60
Điểm danh học sinh trong lớp học 61
KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN 64
Môi trường thực nghiệm 64
Xây dựng dữ liệu 64
Kết quả 69
4.3.1 Kết quả chi tiết 70
4.3.2 Các trường hợp sai trong bài toán điểm danh học sinh 78
Đánh giá 84
4.4.1 Ưu điểm 85
4.4.2 Nhược điểm 85
Hướng phát triển 86
TÀI LIỆU THAM KHẢO 88
Trang 10Tôi xin chân thành cám ơn sâu sắc đến PGS.TS Phạm Thế Bảo, mặc dù rất bận rộn với vô số công việc trong vai trò Trưởng bộ môn Ứng dụng tin học Trường Đại học Khoa học tự nhiên cũng như trong công tác giảng dạy nhưng Thầy đã hướng dẫn rất tận tình, chu đáo, cung cấp nhiều kiến thức chuyên môn kịp thời và bổ ích trong suốt thời gian tôi thực hiện luận văn này
Tôi cũng xin cảm ơn Quý thầy cô, anh chị cán bộ, nhân viên thuộc Ban Khoa học-Hợp tác và Đào tạo sau đại học Trường Đại học Ngoại ngữ-Tin học Thành phố Hồ Chí Minh đã tạo điều kiện thuận lợi cho chúng tôi hoàn thành khóa học
Mặc dù đã cố gắng để hoàn thành tốt luận văn nhưng chắc chắn sẽ không tránh khỏi thiếu sót, rất mong nhận được sự chỉ bảo của Quý thầy cô
Thành phố Hồ Chí Minh, tháng năm 2019
Học viên thực hiện
Lê Thái Tú Tiền
Trang 11Trên thế giới đã có nhiều ứng dụng nhận dạng, quản lý, giám sát hoặc thống
kê rất đa dạng Tại một số trường cao đẳng và đại học nước ngoài, các lớp học thường có số lượng sinh viên tham gia đông đến nỗi khó có thể kiểm soát liệu sinh viên có thực sự tham gia lớp học hay không Nếu dùng cách điểm danh truyền thống bằng cách kí vào danh sách thì có khả năng sinh viên sẽ kí hộ lẫn nhau, điểm danh tên từng người lại mất thời gian [4][17] Tuy nhiên, công nghệ nhận dạng khuôn mặt nay đã có thể giải quyết vấn đề này Để vào lớp và được điểm danh, sinh viên sẽ phải quét nhận dạng khuôn mặt để khớp với dữ liệu đã lưu của trường Vì vậy trừ khi bạn có anh em sinh đôi, nếu không giờ trốn học của bạn sẽ không còn là điều dễ dàng nữa Trường Quản trị ESG ở Pari đang thử nghiệm phần mềm nhận diện khuôn mặt tại hai lớp học trực tuyến để đảm bảo các sinh viên tham gia không xao lãng trong giờ học Trường sử dụng phần mềm có tên là Nestor, webcam trên máy tính cá nhân của mỗi sinh viên sẽ phân tích chuyển động mắt và biểu hiện khuôn mặt để tìm ra liệu sinh viên đó có đang tập trung vào các video bài giảng hay không Sau đó, phần mềm này sẽ tự động tạo ra các câu đố trắc nghiệm về nội dung bài giảng để kiểm tra sự tập trung của người học Công nghệ này cũng vô cùng hữu dụng với giáo viên, để
có thể điều chỉnh bài giảng dựa trên phần nào học viên ít chú ý nhất [11]
Tại Việt Nam đa số các ứng dụng xử lý video thường tập trung vào giám sát các đối tượng con người trong việc phòng chống tội phạm, phát hiện hành vi
Trang 12Trang 12 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
khả nghi của đối tượng; hoặc là các ứng dụng thống kê xe qua trạm thu phí, đếm số lượt ra vào của các loại xe trong một bãi giữ xe, hoặc giám sát, dự báo
và phỏng đoán tình hình kẹt xe tại các giao lộ dựa trên lưu lượng xe đông hoặc
số lượng xe được thống kê của các ứng dụng [7].… Việc thực hiện điểm danh học sinh tại các trường học hiện chưa được thấy triển khai ở Việt Nam, mặc dù
có rất nhiều trường được trang bị hệ thống camera rất hiện đại với số lượng từ 5
- 10 camera/trường, thậm chí có trường bố trí hơn 30 camera trong phạm vi toàn trường (các trường THCS trên địa bàn Quận 6, Quận 11, Quận Bình Tân
và nhiều quận khác cũng được trang bị rất nhiều camera như vậy) Tuy nhiên hệ thống này chủ yếu chỉ để giám thị, giáo viên quan sát, xem lại khi có sự cố, hoàn toàn chưa có xử lý, thống kê và đếm học sinh một cách tự động
Do đó việc thực hiện đề tài điểm danh học sinh trong một lớp học là một nhu cầu theo tôi là cần thiết trong các trường tiểu học, trung học cơ sở, trung học phổ thông cũng như một số trường trung cấp có nhu cầu giám sát và quản lý học sinh
Thực hiện đề tài này sẽ giúp tôi có thêm cơ hội tìm hiểu, học tập và nghiên cứu thêm nhiều kiến thức về công nghệ thông tin nói chung và kiến thức về xử
lý ảnh nói riêng Để xây dựng hệ thống điểm danh học sinh thông qua nhận dạng đầu học sinh kết hợp theo vết chuyển động trong video cần tìm hiểu nhiều tài liệu và kiến thức liên quan về trí tuệ nhân tạo, mạng nơ-ron, kiến thức về học máy và nhất là bài toán về nhận dạng và theo vết chuyển động trong video Thực hiện đề tài này cũng là cơ hội kết hợp những kiến thức đã được học trong chương trình đào tạo ứng dụng vào thực tiễn
Phạm vi nghiên cứu của đề tài bao gồm nghiên cứu nhận dạng đối tượng, chủ yếu nhận dạng đặt trưng vùng đầu, sau đó theo vết chuyển động để xác định
số lượng đối tượng vùng đầu học sinh có trong phòng học Một số phương pháp
có thể sử dụng nghiên cứu thực hiện:
- Phát hiện đối tượng chuyển động (sử dụng các phương pháp):
Trang 13+ Phương pháp Otsu (phân vùng ảnh)
- Theo vết chuyển động (có thể dùng phương pháp):
+ Camshift
+ Particle filter
Đề tài được thực hiện tại các trường học cấp 2, cấp 3 hoặc các trường Trung cấp có lớp học bố trí học sinh ngồi theo sơ đồ
Giới thiệu bài toán
Tại Trường Trung cấp Thủy sản (địa chỉ: 511 An Dương Vương, Phường An Lạc A, Quận Bình Tân, Tp.HCM) có gần 900 học sinh của 27 lớp thuộc quản lý của sáu khoa của Trường, trong đó gần 90% học sinh theo học nghề là các đối tượng học sinh tốt nghiệp THCS (tuổi từ 15 trở lên), các em đa số còn rất nhỏ, hầu hết phụ huynh đều rất lo lắng cho con em họ có đi học đầy đủ, đúng giờ hay không, có bỏ học, trốn tiết hay không Thầy Cô giáo chủ nhiệm, bộ phận giám thị cũng có nhu cầu điểm danh học sinh từng lớp theo buổi và theo tiết để biết học sinh có duy trì sĩ số hay không; phát hiện kịp thời các trường hợp nghỉ,
bỏ học Do đó, ngoài việc giảng dạy thì công tác quản lý các em là một yêu cầu hết sức cần thiết và rất quan trọng với nhà trường Ban giám hiệu và Phòng công tác học sinh giao cho các giám thị phối hợp với giáo viên đứng lớp thường xuyên điểm danh đầu giờ, giữa giờ và cuối giờ để phát hiện các em đi trễ, bỏ học hoặc nghỉ học để kịp thời thông báo cho Phụ huynh ngay trong buổi học hoặc chậm nhất là sau khi kết thúc giờ học
Với số lượng lớp học và học sinh đông như vậy công việc điểm danh hàng ngày tốn rất nhiều thời gian và nhân lực của Trường, thậm chí còn ảnh hưởng
Trang 14Trang 14 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
đến giờ lên lớp của các giáo viên bộ môn vì giám thị phải thường xuyên vào lớp điểm danh từng em và thống kê ngay lập tức để có số lượng chính xác nhất
Xuất phát từ thực tế trên, việc lắp đặt camera trong các phòng học để điểm danh học sinh có mặt trong lớp bằng hệ thống tự động sẽ giúp giảm tải công việc cho các giám thị, giảm nhân lực cho nhà trường, tăng hiệu quả giám sát học sinh Đó là lý do để tôi thực hiện đề tài này
Đề tài nghiên cứu được thực hiện trên tập dữ liệu là video quay tại các lớp học của Trường Trung cấp Thủy sản Những video này được quay bằng các camera lắp cố định trong những lớp học
Các hướng tiếp cận
1.3.1 Xác định vị trí vùng đầu trong ảnh
Nhận dạng người và đếm số lượng người trong môi trường thực tế là một thách thức đối với việc xử lý video Thực tế theo tìm hiểu thì cũng đã có rất nhiều các ứng dụng đếm người dùng Ví dụ như: Tự động đếm hành khách lên xuống xe buýt, xe lửa, tàu điện hoặc hệ thống giao thông công cộng khác [18] Việc nhận dạng các học sinh trong một lớp học phức tạp hơn do nhiều yếu tố như: ánh sáng từng thời điểm trong ngày khác nhau (do mây), không gian lớp học (quá rộng hoặc quá hẹp), số lượng học sinh quá đông hay các em ngồi không theo thứ tự cao thấp, tức là học sinh cao ngồi dưới, học sinh thấp ngồi trên hoặc những học sinh có thân hình to (mập) ngồi trước những học sinh có dáng nhỏ (gầy) Do đó việc nhận dạng và điểm danh học sinh khó có thể dùng phương pháp nhận dạng khuôn mặt, nhưng nếu dùng camera để trên cao hướng xuống lớp học và nhận dạng vùng đầu của các em học sinh thì sẽ khả thi hơn rất nhiều
Thông thường việc nhận dạng đầu thường dùng phương pháp ước lượng di chuyển của người đi bộ dựa trên phân loại các lớp kết hợp với HOG/SVM theo
đề xuất của Dalal và Triggs [20] Phương pháp phát hiện đầu dựa trên các phép tính toán rời rạc và các lớp LPB Nhận dạng vùng đầu tích hợp thời gian thực
Trang 15Trang 15 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
bằng cách sử dụng mô hình ẩn của Markov cho kết quả khá tốt Hình 1.1 mô tả cách thức phát hiện đối tượng theo thời gian thực được xây dựng theo mô hình phân cấp, phát hiện đối tượng theo từng vùng ảnh liên tục [16]
Hình 1.1 Mô hình phân cấp phát hiện vùng đầu theo thời gian thực [16]
Mô hình này được chia làm hai giai đoạn:
- Giai đoạn đầu tiên bao gồm một lớp HOG/SVM đơn giản sử dụng mô hình chỉ một đầu ở độ phân giải thấp Hệ thống dò tìm này tương tự như thiết bị được Dalal và Trigg đề xuất Tập dữ liệu bao gồm khoảng 10.000 hình ảnh được huấn luyện và chú thích thủ công để tạo ra các mẫu ngẫu nhiên tốt nhất
Từ những mẫu sai về khung ảnh không có người đi bộ, hệ thống sẽ được huấn luyện lại để hạn chế nhận dạng sai so với giai đoạn huấn luyện ban đầu Sử dụng một bộ kiểm tra độc lập để đạt được ngưỡng phát hiện tốt nhất có thể
- Giai đoạn thứ hai sử dụng một mô hình dựa trên một phần mà mô hình được đào tạo phát hiện của giai đoạn đầu tiên Mặc dù người đi bộ có thể thay đổi rất nhiều về tư thế và ngoại hình, người đứng đầu chỉ thay đổi chút ít về
Trang 36Trang 36 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
Các phương pháp sử dụng các đặc trưng màu và kết cấu bề mặt của các vùng ảnh có hiệu quả cao trong việc dò tìm các đối tượng mà chúng có màu sắc hoặc kết cấu bề mặt rất khác so với các đối tượng nền khác trong ảnh [3] Điểm yếu của các phương pháp này là chúng rất nhạy cảm với sự thay đổi của các điều kiện ánh sáng và thường lỗi trong trường hợp đối tượng bị ảnh hưởng bởi các vùng rất sáng và các bóng râm [8]
2.3.2 Phương pháp phát hiện đối tượng
Phương pháp được đề xuất sử dụng là dựa vào cạnh, vào màu và kết cấu bề mặt Phương pháp đề xuất dựa trên sự kết hợp giữa đặc trưng màu sắc và đặc trưng hình dạng để xây dựng một mô hình xác suất cho việc phát hiện các mục tiêu trong ảnh Có hai bước chính trong phương pháp này:
- Bước thứ nhất là phân mảnh ảnh đầu vào thành các vùng đồng màu khác nhau
- Bước thứ hai là xác định mục tiêu trong ảnh từ các vùng đồng màu sử dụng các đặc trưng màu và hình dạng Mục tiêu được tìm như là một tập con các vùng đồng màu kết nối với nhau (các vùng này đều thuộc về một vùng lớn) sao cho xác suất hậu nghiệm của tập này là lớn nhất
Các đối tượng cần phát hiện trong các ảnh thu thập được từ camera sẽ bao gồm nhiều đối tượng nền Do vậy việc sử dụng các phương pháp dựa vào cạnh
sẽ không hiệu quả Mặt khác nếu sử dụng các phương pháp dựa vào đặc trưng màu sắc sẽ rất nhạy cảm với điều kiện ánh sáng Từ việc phân tích các kết quả thực nghiệm phân vùng ảnh bằng phương pháp đồ thị trong [22] thì kết quả thuật toán phân vùng ảnh nhanh, có độ chính xác và tin cậy cao Hơn nữa, đặc trưng hình dạng được đề xuất trong [12] là một đặc trưng quan trọng trong việc xác định đối tượng, nó có nhiều ưu điểm như là bất biến với sự méo hình cục
bộ, sự dịch chuyển và xoay Thay vì chỉ sử dụng đặc trưng màu, việc kết hợp đặc trưng hình dạng với đặc trưng màu sắc sẽ tăng đáng kể độ chính xác và độ
Trang 37Trang 37 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
tin cậy trong việc xác định đối tượng dưới các điều kiện môi trường và ánh sáng khác nhau Sử dụng phương pháp xác suất với sự kết hợp giữa đặc trưng hình dạng với đặc trưng màu sắc trong việc phát hiện đối tượng từ các vùng ảnh cục bộ
Đầu tiên, ảnh đầu vào được phân mảnh thành các vùng đồng màu sử dụng thuật toán trong [22] Sau đó, đối tượng cần tìm được xác định trong ảnh như là một tập con các vùng đồng màu kết nối với nhau Tập con này có xác suất hậu nghiệm của đặc trưng màu sắc và hình dạng là cực đại Theo một cách khác, phương pháp đề xuất phát hiện đối tượng trong ảnh bao gồm có hai giai đoạn chính:
- Giai đoạn một: phân vùng ảnh Có nhiều thuật toán phân vùng ảnh khác nhau như các thuật toán chia và trộn vùng, các thuật toán tăng trưởng vùng, các thuật toán áp dụng lý thuyết đồ thị, các thuật toán sử dụng các kỹ thuật máy học, các thuật toán dựa vào cạnh Tuy nhiên phương pháp hiện được tính tổng quát hóa trong phân vùng ảnh và có thể áp dụng cho nhiều trường hợp thực tế là sử dụng thuật toán dựa vào lý thuyết đồ thị được đề xuất trong [22] để phân mảng ảnh đầu vào thành các vùng đồng nhất về màu sắc Thuật toán này có độ chính xác cao và thời gian tính toán nhanh Thuật toán được
chia làm các giai đoạn như hình 2.11
Hình 2.11 Giai đoạn phân vùng ảnh
Frame ảnh
Dữ liệu từ
Phân ảnh thành các vùng đồng màu
Trang 38Trang 38 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
- Giai đoạn hai: xác định đối tượng Thuật toán này thực hiện bằng cách rút trích đặc trưng về hình dạng và màu sắc từ các vùng đồng màu của ảnh ban đầu Sau đó dùng các mô hình xác xuất để xác định đối tượng cần tìm,
hình 2.12
Hình 2.12 Giai đoạn xác định đối tượng
Gọi 𝑺 = {𝑺𝟏, 𝑺𝟐, 𝑺𝟑, 𝑺𝟒, … } là tập các vùng đồng nhất về màu sắc trong
ảnh đầu vào Các vùng đồng màu này có được bằng việc áp dụng thuật toán phân vùng ảnh Đối tượng trong ảnh đầu vào được tìm là một tập con 𝑺∗ từ 𝑺
Tất cả các thành phần 𝑺𝒊 ∈ 𝑺∗ là các thành phần kết nối và đều thuộc về một
vùng ảnh Z Tập con 𝑺∗ từ 𝑺 được xác định bằng cách sử dụng hai đặc trưng nổi bật của đối tượng trong ảnh là: màu sắc và hình dạng Các đặt trưng của đối tượng được tính toán bằng việc sử dụng các hàm mật độ xác suất trên tập
dữ liệu ảnh mẫu
Trên tập dữ liệu ảnh mẫu, mỗi ảnh được phân vùng thành các vùng đồng màu 𝑺𝒊, các vùng thuộc đối tượng được xác định thủ công như là các vùng
𝑺𝒌𝟎 Như vậy từ tập dữ liệu mẫu sẽ tạo ra một tập các vùng đồng màu khác
nhau thuộc về đối tượng 𝑺𝟎 = {𝑺𝟏𝟎, 𝑺𝟐𝟎, 𝑺𝟑𝟎, 𝑺𝟒𝟎, … } Đối với mỗi vùng 𝑺𝒌𝟎, đặc
trưng màu 𝒄 = (𝒄𝟏, 𝒄𝟐, 𝒄𝟑) của nó là một vector mà mỗi thành phần 𝒄𝒊 (𝒊 =
𝟏, 𝟐, 𝟑) là giá trị trung bình của thành phần màu thứ i của tất cả các điểm ảnh
Vùng đồng màu
Rút trích đặc trưng về hình dạng và màu sắc
Đối tượng được tìm
Xác định đối tượng bằng mô hình xác xuất
Trang 39Trang 39 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
trong 𝑺𝒌𝟎 Đặt O biểu thị cho lớp đối tượng cần tìm Hàm mật độ xác suất của
đối tượng đối với màu đặc trưng màu 𝝆(𝒄|𝑶) được tính bằng phương pháp
histogram màu 3D của tất cả các màu 𝒄 của các vùng 𝑺𝒌𝟎 Mỗi thành phần
màu được lượng tử hóa thành N bin
Đặc trưng hình dạng của đối tượng được xác định bằng việc sủ dụng các
bộ đặc tả về hình dạng [12] Bộ đặc tả hình dạng này bất biến khi đối tượng
bị xoay, dịch chuyển, méo, biến đối theo tỷ lệ Đặc trưng hình dạng 𝒔 của một đối tượng bao gồm các đặc tả hình dạng của các điểm ảnh nằm trên đường bao của đối tượng Xét một đối tượng có 𝐾 các điểm mẫu
𝝆𝟏, 𝝆𝟐, 𝝆𝟑, … , 𝝆𝒌 trên đường viền Đặc tả hình dạng của một điểm 𝝆𝒊 là một
histogram của các tọa độ tương đối giữa 𝝆𝒊 và 𝐾 − 1 điểm còn lại trên đường viền của đối tượng như công thức (2.11)
Các bin là đồng nhất trong không gian log
Đối với hai điểm khác nhau trên cùng một đối tượng thì các đặc tả hình dạng của chúng sẽ khác nhau Đối với các đối tượng có hình dạng giống nhau thì đặc tả hình dạng của hai điểm tương ứng nhau sẽ là giống nhau Sự khác nhau giữa hai bộ đặc tả hình dạng của hai điểm 𝜌 và q được tính như công thức (2.12)
Trong công thức (2.12), M là số bin của các histogram tọa độ cực
Gọi 𝑻 = {𝑇1, 𝑇2, 𝑇3, … } là tập các hình dạng mẫu của đối tượng cần tìm Trong bài toán này, mỗi đối tượng bao gồm chín hình dạng mẫu Đối với mỗi hình dạng mẫu, lấy các điểm mẫu 𝝆 nằm trên đường bao của đối tượng sao cho hai điểm liền kề nhau cách nhau 𝝉 điểm ảnh Các bộ đặc tả hình
Trang 40Trang 40 / 90
Luận văn Thạc sĩ Công nghệ thông tin Lê Thái Tú Tiền 16CH201014
dạng của các điểm này là đặc trưng hình dạng của mỗi hình dạng mẫu Đối
với mỗi một vùng ảnh Z (nó có thể bao gồm nhiều vùng đồng màu), thì đặc
trưng hình dạng 𝑺𝒛 của Z là các đặc tả hình dạng của các điểm mẫu nằm trên
đường bao ngoài của Z
Hình 2.13 Chín hình dạng mẫu của một đối tượng [12]
Sự khác nhau về hình dạng giữa một vùng ảnh Z và một hình dạng mẫu T
của đối tượng được tính như công thức (2.13):
dữ liệu mẫu Công thức (2.14) có nghĩa rằng khi hình dạng của vùng ảnh Z tương tự một hình dạng mẫu T của đối tượng thì giá trị𝑫(𝑺𝒛, 𝑻) là nhỏ và
do vậy giái trị 𝝆(𝑺𝒛|𝑶) là cao Ngược lại 𝝆(𝑺𝒛|𝑶) có giá trị thấp khi hình
dạng của vùng ảnh Z khác với các hình dạng mẫu T của đối tượng