1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Hệ thống điểm danh tự động học sinh trung học phổ thông qua camera trong lớp học

80 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 1,37 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung thực hiện Để có thể giải quyết được bài toán điểm danh học sinh trong trường THPT thông qua camera được lắp đặt tại lớp, chúng tôi cần giải quyết các bài toán:  Xác định đầu họ

Trang 1

Nguyễn Thị Sen

HỆ THỐNG ĐIỂM DANH TỰ ĐỘNG HỌC SINH TRUNG HỌC PHỔ THÔNG

QUA CAMERA TRONG LỚP HỌC

LUẬN VĂN THẠC SĨ MÁY TÍNH

Thành phố Hồ Chí Minh - 2018

Trang 2

Nguyễn Thị Sen

HỆ THỐNG ĐIỂM DANH TỰ ĐỘNG HỌC SINH TRUNG HỌC PHỔ THÔNG

QUA CAMERA TRONG LỚP HỌC

Chuyên ngành : Khoa học máy tính

Mã số

LUẬN VĂN THẠC SĨ MÁY TÍNH

NGƯỜI HƯỚNG DẪN KHOA HỌC:

PGS.TS PHẠM THẾ BẢO

Thành phố Hồ Chí Minh - 2018

Trang 3

Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi dưới sựhướng dẫn khoa học của PGS.TS Phạm Thế Bảo Các thông tin và số liệucủa luận văn có nguồn gốc rõ ràng, cụ thể, các trích dẫn theo đúng quy định.Kết quả nghiên cứu của luận văn hoàn toàn trung thực, khách quan vàchưa từng được sử dụng hay công bố trong bất kỳ công trình nghiên cứu nàokhác.

Thành phố Hồ Chí Minh tháng 9 năm 2018

Học viên

Nguyễn Thị Sen

Trang 4

Thầy PGS.TS Phạm Thế Bảo - giảng viên hướng dẫn luận văn Trong quátrình tìm hiểu và nghiên cứu đề tài, tôi đã gặp rất nhiều khó khăn nhưng nhờThầy luôn động viên, hết lòng hướng dẫn và giúp đỡ nên tôi đã hoàn thànhluận văn này.

Tôi cũng xin gửi lời cảm ơn chân thành đến quý Thầy/Cô – Trường Đạihọc Sư phạm Thành phố Hồ Chí Minh đã tận tâm dạy dỗ và truyền đạt nhữngkiến thức quý báu trong quá trình học tập Đồng thời, tôi cũng xin cảm ơnthầy/cô Khoa Công nghệ Thông tin và Phòng Sau Đại học đã hỗ trợ và tạođiều kiện cho tôi trong thời gian qua

Cuối cùng, tôi xin bày tỏ lòng biết ơn đến gia đình, trường THPT VũngTàu – nơi tôi đang công tác, đã luôn động viên và giúp đỡ tôi trong suốt quátrình học tập cũng như thực hiện luận văn

Thành phố Hồ Chí Minh tháng 9 năm

2018 Học viên thực hiện

Nguyễn Thị Sen

Trang 5

Trang phụ bìa

Lời cam đoan

Lời cảm ơn

Mục lục

Danh mục thuật ngữ và viết tắt

Danh mục các bảng

Danh mục hình vẽ, biểu đồ

Chương 1 GIỚI THIỆU 1

1.1 Đặt vấn đề 1

1.2 Mục tiêu của luận văn 2

1.3 Nội dung thực hiện 2

1.4 Những khó khăn thách thức 3

1.5 Các hướng tiếp cận 4

1.6 Hướng giải quyết 8

1.7 Bố cục luận văn 8

Chương 2 CƠ SỞ LÝ THUYẾT 10

2.1 Mạng nơ-ron nhân tạo 10

2.1.1 Cấu trúc của mạng nơ-ron 10

2.1.2 Một số dạng mạng nơ-ron 14

2.1.3 Quá trình học của mạng nơ-ron 14

2.1.4 Mạng nơ-ron nhân tạo trong xử lí ảnh 14

2.2 Mạng nơ-ron tích chập 15

2.2.1 Tích chập 16

2.2.2 Lớp hàm kích hoạt 17

Trang 6

2.2.5 Nguyên lý hoạt động của mạng nơ-ron tích chập 19

2.3 Mô hình YOLO 20

2.3.1 Cấu trúc mạng YOLO 22

2.3.2 Nguyên tắc hoạt động của YOLO 23

2.3.3 Quá trình huấn luyện của YOLO 24

2.4 Lọc theo mức độ tương quan của hàm nhân 27

2.4.1 Các vấn đề liên quan 29

2.4.2 Phương pháp theo dõi đối tượng bằng lọc theo mức độ tương quan của hàm nhân 31 Chương 3 XÂY DỰNG THUẬT TOÁN 40

3.1 Phát hiện đối tượng đầu học sinh 41

3.2 Theo vết chuyển động đầu học sinh trong lớp học 44

3.3 Xác định vị trí đầu học sinh dựa trên trung bình 46

3.4 Điểm danh học sinh 47

Chương 4 KẾT QUẢ THỰC NGHIỆM VÀ HƯỚNG PHÁT TRIỂN 49 4.1 Môi trường thực nghiệm 49

4.2 Xây dựng dữ liệu 49

4.3 Kết quả 49

4.3.1 Thời gian thực hiện 49

4.3.2 Phát hiện đối tượng đầu học sinh 50

4.3.3 Xác định vị trí đối tượng đầu học sinh 52

4.4 Đánh giá 53

4.4.1 Ưu điểm 53

4.4.2 Nhược điểm 54

Trang 8

CNNYOLOYOLO v1YOLO v2YOLO v3EFKUKFDL

ANNDBNCNNRNNR-CNNRELUIOUDCFSRDCFKCFTLDMOSSEHOGDFTRGB

Trang 9

Bảng 4.2 Độ chính xác của giai đoạn phát hiện 50Bảng 4.3 Độ chính xác của giai đoạn theo vết đối tượng đầu học sinh 51

Bảng 4.4 Độ chính xác của giai đoạn xác định vị trí 52

Trang 10

Hình 2.1 Cấu trúc một nơ ron 11

Hình 2.2 Cấu trúc nơ-ron đầy đủ 3 tầng 11

Hình 2.3 Cấu trúc nơ-ron đầy đủ có nhiều tầng 12

Hình 2.4 Cấu trúc nơ-ron không có tầng ẩn 13

Hình 2.5 Mô hình CNN 16

Hình 2.6 Phương pháp tích chập 17

Hình 2.7 Tính toán với phương pháp MaxPooling 19

Hình 2.8 Nguyên lý hoạt động của mạng nơ-ron tích chập 20

Hình 2.9 Hệ thống phát hiện đối tượng dựa vào YOLO 21

Hình 2.10 Mạng phát hiện đối tượng có 24 lớp tích chập và 2 lớp kết nối đầy đủ 23 Hình 2.11 Mô hình phát hiện đối tượng bằng phương pháp hồi quy 25

Hình 2.12 Các mẫu huấn luyện thu được bằng cách thay đổi theo chu kỳ của một mẫu cơ sở không thể đại diện cho nội dung hình ảnh đúng cách 29 Hình 2.13 Ma trận chuẩn hóa không gian 35

Hình 2.14 Sơ đồ thuật toán lọc theo mức độ tương quan 39

Hình 3.1 Mô hình mô tả hoạt động bài toán 40

Hình 4.1 Phát hiện nhiều bao biên trên một đối tượng ở một frame 54

Hình 4.2 Phát hiện nhiều bao biên trên một đối tượng ở frame sau so với hình 4.1 55 Hình 4.3 Kết quả thuật toán 2 55

Hình 4.4 Không thể phát hiện do quá ít thông tin 56

Hình 4.5 Có đối tượng bị vật thể che khuất 56

Hình 4.6 Các bao biên đối tượng bị sai 57

Hình 4.7 Frame đầu tiên của video 57

Trang 11

Biểu đồ 4.1 Độ chính xác phát hiện đối tượng đầu học sinh của các lớp

kiểm tra và độ chính xác trung bình phát hiện đối tượng 51Biểu đồ 4.2 Độ chính xác của giai đoạn theo vết đối tượng đầu học sinh

và tỉ lệ trung bình độ chính xác các lớp kiểm tra 52

Biểu đồ 4.3 Độ chính xác của giai đoạn sau khi sử dụng phép chiếu để

xác định vị trí phát hiện đối tượng đầu học sinh 53

Trang 12

Chương 1 GIỚI THIỆU

Chương 1 luận văn sẽ trình bày tổng quan bài toán “Hệ thống

điểm danh tự động học sinh THPT qua camera trong lớp học”.

1.1 Đặt vấn đề

Ngày nay công nghệ thông tin phát triển không ngừng, điều này đồngnghĩa với sự phát triển song hành các thiết bị phần cứng lẫn phần mềm đápứng nhu cầu con người ngày càng cao và phức tạp Trong đó phải kể đến sựphát triển của các thiết bị thu nhận hình ảnh từ thế giới thực, chẳng hạn nhưcác hệ thống giám sát bằng camera và hệ thống giám sát này xuất hiện khắpnơi: nhà riêng, đường phố, siêu thị, cửa hàng, cơ quan, trường học,… [1]-[3].Thông qua thiết bị thu nhận hình ảnh này nhu cầu khai thác của conngười ở mỗi lĩnh vực khác nhau sẽ có nhu cầu khác nhau, có rất nhiều bàitoán được đặt ra đòi hỏi phải xử lí các hình ảnh thu nhận được từ hệ thốnggiám sát [3] Chẳng hạn như: Các hệ thống giám sát của một ngân hàng nhằmphát hiện các hành vi khả nghi của tội phạm; Hệ thống giám sát ngoài đườngphố nhằm phát hiện tội phạm, những người vi phạm luật giao thông; Hệ thốnggiám sát tại siêu thị, cửa hàng để chống trộm cắp,… Mỗi bài toán sẽ cầnnhững thuật toán – phương pháp xử lý khác nhau để đạt hiệu quả tốt cho từngmôi trường khác nhau

Hiện nay tại các trường học đã và đang sử dụng hệ thống giám sát thôngqua camera gắn cố định trong phòng học nhằm quản lí nền nếp và hỗ trợ điểmdanh cả học sinh lẫn giáo viên trong quá trình diễn ra tiết học tránh tình trạnghọc sinh trốn tiết học Cụ thể, tôi đã khảo sát một số trường THPT tại Thànhphố Vũng Tàu có sử dụng camera giám sát trong lớp học cũng với mục đíchtương tự

Trang 13

Sau khi các trường đầu tư một khoản kinh phí rất lớn để trang bị các thiết

bị cần thiết thì việc quản lí và khai thác các thiết bị cũng gặp rất nhiều khókhăn Nhân viên hoặc giáo viên được phân công trong nhiệm vụ trực giám sátcamera phải thường xuyên thay đổi kích thước hiển thị màn hình để kiểm tra

sĩ số học sinh khi bắt đầu mỗi tiết học và trực cả buổi học để làm công việcnày, một công việc đòi hỏi mất rất nhiều thời gian và kinh phí lẫn sức khỏe

Hiện nay, trên thị trường có nhiều loại thiết bị hỗ trợ điểm danh như: quétvân tay, hay quẹt thẻ từ … [4] , [5] Tuy nhiên, các giải pháp trên rất khó để ứngdụng trong trường học; đặc biệt là ở trường THPT với đặc thù của học sinh chưa

tự giác (quẹt thẻ giùm), tạo ùn tắc (khi quét vân tay) hay dễ hư hỏng

Từ bài toán thực tế của các trường THPT thành phố Vũng Tàu tôi nghiên

cứu “Hệ thống điểm danh tự động học sinh THPT qua camera trong lớp học”

để có thể áp dụng mang lại hiệu quả cao với trang thiết bị đã có sẵn của cáctrường

1.2 Mục tiêu của luận văn

+ Nghiên cứu mạng Nơron tích chập (Convolution Neural Network CNN), mà cụ thể là YOLO v2 (You Only Look Once - YOLO) ứng dụng trong

-bài toán

+ Nghiên cứu bài toán theo vết đối tượng

+ Xây dựng các thuật giải với dữ liệu tại một trường THPT

1.3 Nội dung thực hiện

Để có thể giải quyết được bài toán điểm danh học sinh trong trường THPT thông qua camera được lắp đặt tại lớp, chúng tôi cần giải quyết các bài toán:

 Xác định đầu học sinh trong các frame ảnh, để xác định đối tượng

người – mà cụ thể là học sinh trong lớp thì có nhiều phương pháp như: xác địnhngười, xác định khuôn mặt, … Nhưng vì camera được lắp đặt trong phòng họcthường cao hơn đầu của học sinh nhiều nên việc xác định khuôn mặt sẽ rất khó,

Trang 14

không những vậy việc xác định người bằng các phương pháp cũng rất khó Từđây chúng tôi đề xuất xác định vị trí trong ảnh có vùng đầu của học sinh đểlàm tiền đề cho bài toán điểm danh.

 Trong quá trình dữ liệu lấy từ camera sẽ có những học sinh luôn

di chuyển vì thế chúng tôi sẽ bắt đầu xác định vị trí đầu của học sinh khi giáoviên bắt đầu vào lớp và học sinh đứng lên chào giáo viên Trong khoảng thờigian này vẫn sẽ có những học sinh chuyển động đầu và thân thể; nhưng khôngđáng kể; và vì có chuyển động nên có thể đường biên đầu học sinh này chồnglắp đầu học sinh khác Để giả quyết vấn đề này chúng tôi sẽ xác định vị tríđầu học sinh trong nhiều frame của một đoạn video dữ liệu từ camera rồi tổnghợp để có kết quả tốt nhất về vị trí đầu của học sinh trong lớp học

 Vì học sinh có thể di chuyển đầu trong quá trình xác định đầu nênchúng tôi cần tìm được tâm vùng đầu của từng học sinh trong lớp ở video, nếu

chúng ta xác định đầu trong tất cả các frame của video thì sẽ mất nhiều thờigian nên rất khó để áp dụng vào thực tế, nên chúng tôi sẽ đề xuất dùngphương pháp theo vết chuyển động của đối tượng đầu học sinh để tìm đượccác vùng tâm của từng học sinh

 Từ dữ liệu này, chúng tôi sẽ tìm vị trí trung bình của vùng đầu từnghọc sinh của lớp học Sau đó chúng tôi sẽ chiếu vị trí trung bình này xuống

sơ đồ lớp học để có thể điểm danh tất cả học sinh của lớp

1.4 Những khó khăn thách thức

Trong quá trình khảo sát và thu thập dữ liệu tại một số trường THPT tại

TP Vũng Tàu tôi nhận thấy có những khó khăn thách thức:

 Chất lượng hình ảnh phụ thuộc cơ sở vật chất của trường vì phụthuộc vào kinh phí và thời điểm lắp đặt camera

Trang 15

 Các yếu tố ảnh hưởng đến chất lượng video: ánh sáng, thời tiết…gây nhiễu làm hình ảnh không rõ nét Các thành phần khác trong phòng họclàm che khuất các đối tượng muốn theo dõi như quạt, rèm cửa,…

 Vị trí đặt camera giám sát cũng ảnh hưởng một phần không nhỏ đến dữ liệu muốn thu thập

1.5 Các hướng tiếp cận

Để giải quyết bài toán điểm danh học sinh trong lớp học thông quacamera được lắp đặt trong lớp học, chúng ta cần giải quyết từng bài toán đólà: phát hiện đầu, theo vết chuyển động đầu, tìm vị trí trung bình đầu, chiếu vịtrí trung bình vào sơ đồ lớp học

a. Phát hiện chuyển động của đối tượng đầu học sinh trong lớp học

Phát hiện đối tượng đầu học sinh trong lớp học là bài toán xác định đốitượng trong video và cần xác minh sự hiện diện của các đối tượng trong chuỗiảnh và cũng có thể định vị chính xác Các hệ thống theo dõi đối tượng thườngbắt đầu bằng quá trình phát hiện đối tượng, ngoài ra phát hiện đối tượng đượclặp lại trong chuỗi ảnh sẽ cần thiết cho việc hỗ trợ và xác minh cho quá trìnhtheo vết đối tượng

Một số cách tiếp cận phát hiện đối tượng:

 Phát hiện đối tượng dựa trên đặc trưng

Tùy vào đặc trưng được chọn, ta có các cách tiếp cận khác nhau như:dựa trên hình dáng, dựa trên màu sắc [6], [7] Trong đó, cách tiếp cận dựa trênmàu sắc được xem là thông dụng nhất vì đặc trưng màu sắc thì dễ dàng lấyđược và chi phí tính toán thấp

Trang 16

 Phát hiện đối tượng dựa trên mẫu

Nếu như có một mẫu mô tả đối tượng, thì việc phát hiện đối tượng trởthành quá trình so khớp các đặc trưng giữa mẫu và chuỗi ảnh dưới sự phântích, xác định xem mẫu có xuất hiện trong hình hay không, nếu có khoanhvùng khu vực tương ứng Có hai kiểu so khớp mẫu, so khớp mẫu cố định và

so khớp mẫu biến dạng [8]

Phát hiện đối tượng với việc so khớp chính xác thường tốn nhiều chi phí

và chất lượng so khớp phụ thuộc vào chi tiết và mức độ chính xác của mẫuđối tượng

 Phát hiện đối tượng chuyển động

Phát hiện đối tượng chuyển động từ hệ thống giám sát được quan tâm rấtnhiều bởi hầu hết các hệ thống này giám sát thông qua video và được ứngdụng trong rất nhiều lĩnh vực, có rất nhiều kỹ thuật phát hiện chuyển động củađối tượng được sử dụng

Đối với vấn đề phát hiện đối tượng chuyển động có thể dùng biện pháptrừ nền Bước đầu xây dựng mô hình nền, mô hình nền này có thể được họcqua nhiều frame ảnh nếu nền bị thay đổi, ngược lại ta có thể chọn một nền cósẵn nếu nền không bị thay đổi Sau đó, ta sẽ dùng mô hình nền này để so sánhvới frame ảnh hiện tại và kết quả là ta sẽ nhận biết được đâu là vùng phầnnền, đâu là các phần chuyển động

Ngoài ra, cũng có nhiều kỹ thuật tiếp cận để phát hiện chuyển động tronghình ảnh video liên tục Có thể so sánh khung hình hiện tại với hình nền chúng tachụp từ ban đầu khi bật camera hoặc từ khung hình trước Đối với kỹ thuật trừnền thì giảm được việc xử lý Tuy nhiên, cách tiếp cận có một bất lợi lớn, ví dụnếu có một đối tượng đang di chuyển ở frame đầu tiên nhưng sau đó nó đã biếnmất Với kỹ thuật Yolo v2 thì xử lý phức tạp hơn, xử lý nhiều hơn nhưng lạithích nghi với mọi môi trường, kể cả môi trường ít thay đổi hoặc thay đổi nhiều.Nhược điểm là nếu đối tượng có kích thước nhỏ, bị che khuất thì hệ

Trang 17

thống không phát hiện ra nhưng đối với bài toán cụ thể vẫn đáp ứng được vì ởđây đối tượng là học sinh trong lớp học nên có vị trí ngồi với khoảng cách cốđịnh ít thay đổi Chính vì vậy, đề xuất giải pháp sử dụng Yolo v2 để phát hiệnđối tượng đầu học sinh.

b Theo vết đối tượng đầu học sinh trong lớp

Với bài toán cụ thể, phát hiện và theo dõi đối tượng học sinh trong thờigian thực (real-time object tracking) cũng là vấn đề mà lĩnh vực thị giác máytính (computer vision) rất quan tâm trong thời gian qua Mức độ khó khăn củavấn đề này phụ thuộc nhiều vào đối tượng được phát hiện và theo vết như thếnào Hiện nay, có rất nhiều phương pháp theo vết chuyển động, cụ thể như:

 So khớp mẫu

So khớp mẫu là phương pháp nhằm phân loại đối tượng dựa vào mức độtương tự giữa những đối tượng xem xét với mẫu cho trước Trong trường hợpđược ứng dụng để giải quyết yêu cầu rất cụ thể như cho trước một mẫu và mộthình bất kì đa mức xám lớn hơn mẫu, xác định xem đối tượng mẫu có xuấthiện trong hình hay không, nếu có thì khoanh vùng khu vực tương ứng đó,nếu không thì báo là không tồn tại đối tượng

Ưu điểm của phương pháp này là không chịu ảnh hưởng bởi nhiễu vàhiệu ứng chiếu sáng, có thể theo vết chuyển động được các đối tượng biếndạng nhưng độ phức tạp tính toán cao, chất lượng so khớp phụ thuộc vào chitiết và độ chính xác của mẫu đối tượng

 Mean shift

Dorin Comaniciu [9] đã giới thiệu phương pháp theo vết Mean shift Đây

là một phương pháp theo vết tối ưu hóa tối thiểu cục bộ Mean shift là mộtphương pháp đơn giản và hiệu quả cho theo vết thời gian thực, thích hợp cácvideo có đối tượng thay đổi do máy quay chuyển động, có ảnh nền lộn xộnnhưng nó chỉ tối ưu hoá cục bộ chứ không toàn cục Khi màu nền và màu đốitượng giống nhau, phương pháp này sẽ không thể theo vết đối tượng được

Trang 18

 Lọc Kalman

Lọc Kalman đã được biết như là một phương pháp cổ điển, nổi tiếngđược phát minh từ năm 1960 bởi R.E.Kalman Nó là một thuật toán theo vếttối ưu nhất trong trường hợp hệ là tuyến tính và nhiễu có phân phối Gauss vớinguyên lý “dự đoán – hiệu chỉnh” [10] sử dụng thuật toán hồi quy để ướclượng biến trạng thái của hệ thống Nhưng trong thực tế không phải luôn đảmbảo các yêu cầu ràng buộc của bộ lọc Kalman mà nó hoàn toàn có thể đượcbiểu diễn bởi các phương trình phi tuyến, đồng thời nhiễu là phi Gauss Đểgiải quyết vấn đề này nhiều phương pháp được đưa ra nhằm cải tiến bộ lọcKalman truyền thống như: EKF (Extended Kalman Filter), UKF (UnscentedKalman Filter) Mục đích của các bộ lọc này nhằm tuyến tính hóa các hệthống phi tuyến bằng phương pháp khai triển Taylor các hàm phi tuyến thànhchuỗi các hàm số sơ cấp tuyến tính Các giải pháp này thường gặp phải cácnhược điểm như khối lượng tính toán đòi hỏi quá lớn với các hệ thống phứctạp và nhiễu đo đạc bị phân cực lớn

 Lọc tương quan

Ma et al [11] đề xuất các bộ lọc mức độ tương quan trên mỗi lớp tíchchập và suy luận phân cấp đáp ứng tối đa trên mỗi lớp để xác định vị trí mụctiêu Ý tưởng chính của thuật toán lọc tương quan sẽ học một bộ lọc trongsuốt quá trình theo dõi, sao cho bộ lọc khi tích chập với ảnh bao biên đốitượng thì kết quả sẽ có thông tin tập trung xung quanh tâm của đối tượng.Mỗi phương pháp có điểm mạnh và điểm yếu riêng, tuy nhiên phươngpháp lọc tương quan có thể khắc phục được những nhược điểm của cácphương pháp khác như: theo vết các đối tượng tốt trong trường hợp phi tuyến

và không phải nhiễu Gauss

Trang 19

1.6 Hướng giải quyết

Từ các nhận xét trên chúng tôi đề xuất phương pháp giải quyết cho từng bài toán:

(a) Bài toán 1 – xác định vùng đầu học sinh, chúng tôi sử dụng môhình học chuyên sâu (Deep Learning – DL) để huấn luyện và xác định các vùng

trong ảnh là đầu của học sinh vì DL cho phép “thấy” được nhiều chi tiết nhỏ qua quá trình học rất hiệu quả

(b) Bài toán 2 – theo vết chuyển động các vùng đầu học sinh, vì vùngđầu học sinh (người Việt Nam) có màu đồng nhất (học sinh phổ thông khôngđược nhuộm tóc khi đi học – theo nội quy) nên phương pháp theo vết chuyển

động theo bộ lọc tương quan (trong xác suất thống kê) sẽ có ưu thế hơn so vớicác phương pháp khác

(c) Bài toán 3 – tìm vị trí trung bình tâm các vùng đầu, chúng tôi dùngphương pháp tính tâm trung bình để tìm tâm của các vị trí đầu của một học sinh

(d) Bài toán 4 – điểm danh học sinh theo sơ đồ, chúng tôi dùng

phương pháp chiếu với độ đo Euclide được dùng để điểm danh học sinh theo

sơ đồ lớp

1.7 Bố cục luận văn

Bố cục luận văn được chia thành 4 chương:

Chương 1 trình bày một số vấn đề từ thực tế làm phát sinh vấn đề cần

nghiên cứu Trong đó cũng sẽ giới thiệu những mục tiêu, nội dung nghiêncứu, các giải pháp giải quyết vấn đề, những khó khăn thách thức khi giảiquyết bài toán và cuối cùng là bố cục trình bày của luận văn

Chương 2 trình bày những vấn đề lý thuyết nghiên cứu trong đề tài: mạng nơ-ron nhân tạo, mạng nơ-ron tích chập, lọc theo mức độ tương quan Chương 3 trình bày thuật giải sử dụng để giải quyết từng bài toán.

Trang 20

Chương 4 trình bày kết quả nghiên cứu và hướng phát triển của đề tài

trong tương lai

Trang 21

Chương 2 CƠ SỞ LÝ THUYẾT

Chương 2 luận văn trình bày những vấn đề lý thuyết nghiên cứu trong đề tài: mạng nơ-ron nhân tạo, mạng nơ-ron tích chập, lọc theo mức độ tương

quan

2.1 Mạng nơ-ron nhân tạo

Mạng nơ-ron nhân tạo (Artificial Neural Network - ANN) là một môhình xử lý thông tin phỏng theo cách thức xử lý thông tin của các hệ nơronsinh học Nó được tạo nên từ một số lượng lớn các phần tử (nơ-ron) kết nốivới nhau thông qua các liên kết (trọng số liên kết) làm việc như một thể thốngnhất để giải quyết một vấn đề cụ thể nào đó Một mạng nơ-ron nhân tạo đượccấu hình cho một ứng dụng cụ thể (nhận dạng mẫu, phân loại dữ liệu, ) thôngqua một quá trình học từ tập các mẫu huấn luyện [12]

2.1.1 Cấu trúc của mạng nơ-ron

Cấu trúc của mạng nơ-ron bao gồm một nhóm các nơ-ron nhân tạo (phầntử) liên kết với nhau, mạng nơ-ron xử lý thông tin bằng cách truyền thông tintheo các kết nối và tính giá trị mới tại các hàm, hình 2.1 Trong nhiều trườnghợp, mạng nơ-ron nhân tạo là một hệ thống thích ứng, nghĩa là mạng nơ-ron cóthể tự thay đổi cấu trúc của mình dựa trên các thông tin bên ngoài hay bên trongtruyền qua mạng trong quá trình học.Một ANN gồm ba tầng: tầng đầu vào chạylớp đầu vào, các tầng ẩn hay lớp ẩn và cuối cùng là tầng đầu ra được mô tả tronghình 2.2, trong đó, tầng ẩn gồm nhiều nơ-ron nhận dữ liệu đầu vào từ các lớptrước đó để xử lý và chuyển đổi các dữ liệu này cho các lớp tiếp theo Một ANN

có thể có nhiều lớp ẩn, hình 2.3; hoặc không có lớp ẩn, hình 2.4

Trang 22

Hình 2.1 Cấu trúc một nơ ron

Hình 2.2 Cấu trúc nơ-ron đầy đủ 3 tầng

Trang 23

Mỗi tầng trong ANN có thể có một hay nhiều nơ-ron (tương ứng ta cóthể có nhiều đặc trưng, nhiều dữ liệu, nhiều h(x)…) Về cơ bản, lớp đầu vào

và lớpđầu ra chỉ có một, riêng lớp ẩn có thể có nhiều, số lượng lớp ẩn sẽ khiếncho độ phức tạp của mô hình thay đổi Khi đó ta không cần thêm quá nhiềuthành phần đa thức vào các đặc trưng để khiến cho mô hình đủ phức tạp đểphù hợp với dữ liệu

Hình 2.3 Cấu trúc nơ-ron đầy đủ có nhiều tầng

Hàm kích hoạt hay hàm chuyển đổi ℎ ( ) tính toán đầu ra của một nơ-ron

để chuyển đến lớp tiếp theo trong mạng nơ-ron Hàm kích hoạt phi tuyến được

sử dụng vì mạng chỉ sử dụng các hàm kích hoạt tuyến tính có thể lược giản thôngqua các biến đổi đại số thành mô hình perceptron một lớp (là mô hình ANN đơngiản nhất, không có lớp ẩn) Một số hàm kích hoạt phi tuyến thường dùng làReLU (Rectified Linear Unit), sigmoid, logistic, Gauss, tanh, softmax

Trang 24

Hình 2.4 Cấu trúc nơ-ron không có tầng ẩn

Trang 25

2.1.2 Một số dạng mạng nơ-ron

Hiện nay có một số dạng mạng nơ-ron cơ bản:

 Mạng kết nối đầy đủ nếu mọi đầu ra của một lớp liên kết với mọi nơ-ron của lớp tiếp theo

 Mạng lan truyền thẳng nếu không tồn tại liên kết giữa các nơ-ron thuộc cùng một lớp

 Mạng phản hồi nếu tồn tại đầu ra của một nơ-ron liên kết ngược lại làm đầu vào của một nơ-ron cùng lớp

 Mạng hồi quy nếu các mạng phản hồi có các vòng lặp kín

2.1.3 Quá trình học của mạng nơ-ron

Dữ liệu được học thông qua các lớp của mô hình này sẽ được “học” racác đặc trưng để tiến hành phân lớp một cách hiệu quả

ANN được huấn luyện hay được học theo hai kỹ thuật cơ bản đó là học

có giám sát và học không giám sát

Học có giám sát là quá trình huấn luyện được lặp lại cho đến kết quả củaANN đạt được kết quả mong muốn mà chúng ta đã biết trước Điển hình kỹthuật này là mạng nơ-ron lan truyền ngược

Học không giám sát thì sẽ không sử dụng tri thức bên ngoài trong quátrình học, nên còn gọi là tự tổ chức Mạng nơ-ron điển hình được huấn luyệntheo kiểu Sefl – Organizing Map (SOM)

2.1.4 Mạng nơ-ron nhân tạo trong xử lí ảnh

Mô hình mạng nơ-ron nhân tạo truyền thẳng ra đời đã được áp dụng nhiềutrong các bài toán nhận dạng Tuy nhiên mạng nơ-ron truyền thẳng không thểhiện tốt đối với các dữ liệu như hình ảnh Chính sự liên kết quá đầy đủ tạo nênnhững hạn chế cho mô hình Dữ liệu hình ảnh có kích thước khá lớn, một ảnhxám có kích thước 32×32 (điểm ảnh) sẽ cho ra vector đặc trưng có 1024 chiều,còn đối với ảnh màu cùng kích thước sẽ là 3072 chiều Điều này cũng có nghĩa

Trang 26

là cần tới 3072 trọng số θ nối giữa lớp vào và một phần tử ở lớp ẩn kế tiếp Sốlượng trọng số sẽ càng nhân rộng hơn nữa nếu số lượng phần tử trong lớp ẩntăng lên, số lượng lớp ẩn tăng lên Như vậy chỉ với một ảnh nhỏ (32×32) thìcũng cần đến một mô hình khá lớn Điều này khiến cho việc thao tác với cácảnh có kích thước lớn hơn trở nên khó khăn.

Việc liên kết các điểm ảnh vào một phần tử trong mạng không cần thiết

vì sự phụ thuộc lẫn nhau giữa các điểm ảnh xa nhau là không nhiều mà chủyếu là sự phụ thuộc giữa các điểm lân cận với nó Dựa trên tư tưởng nàymạng nơ-ron tích chập ra đời với một kiến trúc khác so mới mạng truyềnthẳng Thay vì toàn bộ ảnh nối với một phần tử thì chỉ có một phần cục bộtrong ảnh nối đến một phần tử trong lớp tiếp theo

2.2 Mạng nơ-ron tích chập

Mạng nơ-ron tích chập là một kiến trúc dựa trên các phép toán tích chậpgiữa các lớp Tích chập được sử dụng đầu tiên trong xử lý tín hiệu số [13].Nhờ vào nguyên lý biến đổi thông tin, các nhà khoa học đã áp dụng kĩ thuậtnày vào xử lý ảnh và video số [14] Giả sử với một ảnh được biểu thị dướidạng ma trận là dữ liệu ban đầu cho CNN thì các nơ-ron ở tầng chập thứ nhất

sẽ được tạo thành nhờ các phép chập trên ma trận đó Kết quả thu được sẽđược đi qua các hàm kích hoạt Tầng chập thứ hai sẽ được tạo thành bằngphép chập dựa trên kết quả bên trên và cứ thế tiếp diễn

Như vậy ta có thể hiểu ban đầu CNN sẽ phân tích ảnh ra trên nhiều khu vực

và sau đó sẽ kết hợp lại Do kích thước cửa sổ chập ở mỗi tầng có thể khác nêntrong quá trình huấn luyện CNN sẽ tự động học các đặc trưng của các dữ liệu.Việc sử dụng nhiều tầng tức thực hiện phép chập nhiều lần sẽ cho ta biết cụ thểhơn về các tính chất có trong ảnh nên CNN tỏ ra hiệu quả trong việc nhận dạngảnh Tuy nhiên vì sử dụng các phép tính chập cộng với việc cần một lượng dữliệu đầu vào phải nhiều nên chi phí tính toán của CNN sẽ rất lớn dẫn

Trang 27

tới thời gian huấn luyện sẽ khá lâu Ngoài ra CNN chỉ hoạt động dựa trên dữliệu đã được phân loại trước.

CNN gồm nhiều tầng, mỗi tầng sẽ bao gồm các lớp: lớp tích chập, lớphàm kích hoạt, lớp Pooling hay còn gọi là lớp subsampling, lớp kết nối đầy

đủ Trong các tầng của CNN, người thiết kế có thể sử dụng đủ 3 lớp haykhông tùy thuộc vào dữ liệu và mục tiêu

Trong mô hình CNN, các lớp được liên kết với nhau thông qua cơ chế tíchchập, hình 2.5 Lớp tiếp theo là kết quả của tích chập của lớp trước đó, nhờ vậy

mà ta có được các kết nối cục bộ Nghĩa là mỗi nơ-ron ở lớp tiếp theo được sinh

ra từ các bộ lọc áp đặt lên một vùng ảnh cục bộ của nơ-ron ở lớp trước đó

Hình 2.5 Mô hình CNN 2.2.1 Tích chập

Khi có một hình ảnh mới, CNN không biết chính xác nơi chứa các đặctrưng này sẽ khớp hay không nên nó sẽ thử chúng khắp mọi nơi, ở mọi vị trí cóthể Khi tính toán sự khớp của một đặc trưng trên toàn bộ ảnh và làm thành một

bộ lọc Phần toán ta sử dụng để làm điều này được gọi là tích chập, hình 2.6.Lớp này chính là nơi thể hiện tư tưởng ban đầu của mạng nơ-ron tích chập.Thay vì kết nối toàn bộ điểm ảnh, lớp này sẽ sử dụng một bộ các bộ lọc có kíchthước nhỏ so với ảnh (thường là 3×3 hoặc 5×5) áp vào một vùng trong ảnh vàtiến hành tính tích chập giữa bộ lọc và giá trị điểm ảnh trong vùng cục bộ đó

Trang 28

Bộ lọc sẽ lần lượt được dịch chuyển theo một giá trị bước trượt duyệt dọctheo ảnh và quét toàn bộ ảnh.

Hình 2.6 Phương pháp tích chập

Để tính toán sự khớp của một đặc trưng đối với một mảnh của hình ảnh,

ta chỉ cần nhân mỗi điểm ảnh trong phần đặc trưng với giá trị của điểm ảnhtương ứng trong mảnh hình ảnh Sau đó cộng tổng lại và chia cho số lượngđiểm ảnh trong đặc trưng

Như vậy, với một ảnh 32×32 và một bộ lọc 3×3, ta sẽ có kết quả là mộtảnh mới có kích thước 32×32 (với điều kiện đã thêm padding vào ảnh gốc đểtính tích chập cho các trường hợp bộ lọc quét ra các biên cạnh) là kết quả tíchchập của bộ lọc và ảnh Với bao nhiêu bộ lọc trong lớp này thì ta sẽ có bấynhiêu ảnh tương ứng mà lớp này trả ra và được truyền vào lớp tiếp theo Cáctrọng số của bộ lọc ban đầu sẽ được khởi tạo ngẫu nhiên và sẽ được học dầntrong quá trình huấn luyện mô hình

2.2.2 Lớp hàm kích hoạt

Lớp hàm kích hoạt (Rectified Linear Unit - ReLU) thường được cài đặtngay sau lớp tích chập Lớp này sử dụng hàm kích hoạt f(x) = max(0,x) và cónhiệm vụ chuyển toàn bộ giá trị âm trong kết quả lấy từ lớp tích chập thành giátrị 0 Ý nghĩa của cách cài đặt này chính là làm tăng các thuộc tính phi tuyến cho

mô hình Tương tự như trong mạng truyền thẳng, việc xây dựng dựa trên

Trang 29

các phép biến đổi tuyến tính sẽ khiến việc xây dựng đa tầng đa lớp trở nên vônghĩa Có rất nhiều cách để khiến mô hình trở nên phi tuyến như sử dụng cáchàm kích hoạt sigmoid, tanh như đã trình bày trong phần 2.1.1 ở trên, nhưnghàm f(x) = max(0,x) dễ cài đặt, tính toán nhanh mà vẫn hiệu quả.

2.2.3 Lớp tổng hợp

Lớp tổng hợp (Pooling) sử dụng một cửa sổ trượt quét qua toàn bộ ảnh

dữ liệu, mỗi lần trượt theo một bước trượt cho trước Khác với lớp tích chập,lớp tổng hợp không tính tích chập mà tiến hành lấy mẫu Khi cửa sổ trượt trênảnh, chỉ có một giá trị được xem là giá trị đại diện cho thông tin ảnh tại vùng

đó (giá trị mẫu) được giữ lại Các phương pháp tính toán phổ biến trong lớpPooling là: lấy giá trị lớn nhất, lấy giá trị nhỏ nhất, lấy giá trị trung bình

Xét một ảnh có kích thước 4×4 và lớp Pooling sử dụng bộ lọc có kích thước2×2 với bước trượt stride = 2, phương pháp sử dụng là MaxPooling, hình 2.7 Bộlọc sẽ lần lượt duyệt qua ảnh, với mỗi lần duyệt chỉ có giá trị lớn nhất trong 4 giátrị nằm trong vùng cửa sổ 2×2 của bộ lọc được giữ lại và đưa ra đầu ra

Như vậy sau khi qua lớp Pooling, ảnh sẽ giảm kích thước xuống còn2×2 (kích thước mỗi chiều giảm 2 lần)

Lớp Pooling có vai trò giảm kích thước dữ liệu Với một ảnh kích thướclớn qua nhiều lớp Pooling sẽ được thu nhỏ lại tuy nhiên vẫn giữ được nhữngđặc trưng cần cho việc nhận dạng (thông qua cách lấy mẫu) Việc giảm kíchthước dữ liệu sẽ làm giảm lượng tham số, tăng hiệu quả tính toán và góp phầnkiểm soát hiện tượng quá khớp

Trang 30

Hình 2.7 Tính toán với phương pháp MaxPooling 2.2.4 Lớp kết nối đầy đủ

Lớp kết nối đầy đủ tương tự với lớp trong mạng nơ-ron truyền thẳng, cácgiá trị ảnh được liên kết đầy đủ vào phần tử trong lớp tiếp theo Sau khi ảnh được

xử lý và rút trích đặc trưng từ các lớp trước đó, dữ liệu ảnh sẽ không còn quá lớn

so với mô hình truyền thẳng nên ta có thể sử dụng mô hình truyền thẳng để tiếnhành nhận dạng Tóm lại, lớp kết nối đầy đủ đóng vai trò như một mô hình phânlớp và tiến hành dựa trên dữ liệu đã được xử lý ở các lớp trước đó

2.2.5 Nguyên lý hoạt động của mạng nơ-ron tích chập

Mạng nơ-ron tích chập là một tập hợp các lớp tích chập chồng lên nhau

và sử dụng các hàm nonlinear activation như ReLU và tanh để kích hoạt cáctrọng số trong các phần tử Mỗi một lớp sau khi thông qua các hàm kích hoạt

sẽ tạo ra các thông tin cho các lớp tiếp theo Trong mô hình mạng truyềnngược thì mỗi nơ-ron đầu vào cho mỗi nơ-ron đầu ra trong các lớp tiếp theo

Mô hình này gọi là mạng kết nối đầy đủ hay mạng toàn vẹn Còn trong môhình CNN thì ngược lại; Các tầng liên kết được với nhau thông qua cơ chếtích chập Tầng tiếp theo là kết quả tích chập từ tầng trước đó, nhờ vậy mà ta

có được các kết nối cục bộ Như vậy mỗi nơ-ron ở lớp kế tiếp sinh ra từ kếtquả của bộ lọc áp đặt lên một vùng ảnh cục bộ của nơ-ron trước đó, hình 2.8.Mỗi một lớp được sử dụng các bộ lọc khác nhau thông thường có hàngtrăm hàng nghìn bộ lọc như vậy và kết hợp kết quả của chúng lại Ngoài ra có

Trang 31

một số lớp khác như lớp Pooling, lớp subsampling dùng để chắt lọc lại các thông tin hữu ích hơn (loại bỏ các thông tin nhiễu).

Hình 2.8 Nguyên lý hoạt động của mạng nơ-ron tích chập

Trong quá trình huấn luyện mạng CNN tự động học các giá trị qua các bộlọc dựa vào cách thức mà bạn thực hiện Ví dụ trong tác vụ phân lớp ảnh, CNN

sẽ cố gắng tìm ra thông số tối ưu cho các bộ lọc tương ứng theo thứ tự raw pixel

> edges > shapes > facial > high-level features Lớp cuối cùng được dùng để phân lớp ảnh

2.3 Mô hình YOLO

Khi con người quan sát một hình ảnh thì ngay lập tức biết được các đốitượng có trong hình ảnh, vị trí của chúng Trong thị giác máy tính thì điều nàykhông dễ dàng, trước đây việc phát hiện đối tượng bằng cách sử dụng các trìnhphân loại Để phát hiện một đối tượng các hệ thống này phân loại cho đối tượng

đó và đánh giá nó ở các vị trí khác nhau và dựa vào tỉ lệ trong một hình ảnh thửnghiệm Các hệ thống sử dụng cách tiếp cận cửa sổ trượt, nơi trình phân loạiđược chạy ở các vị trí cách đều nhau trên toàn bộ hình ảnh [15] Cụ thể như R-CNN sử dụng phương pháp đề xuất khu vực để tạo ra các bao biên đối tượngtiềm năng đầu tiên trong một hình ảnh và sau đó chạy một bộ phân loại trên các

Trang 32

hộp được đề xuất này Sau khi phân loại, xử lý điều chỉnh các bao biên đốitượng loại bỏ các phát hiện trùng lặp và định lại các hộp dựa trên các đốitượng khác trong cảnh [16] Với phương pháp này phức tạp rất chậm và khótối ưu vì mỗi thành phần phải được huấn luyện riêng lẻ.

“Bạn chỉ nhìn một lần” – YOLO – là một biến thể của CNN cho phép cóthể dự đoán sự hiện diện của đối tượng và đối tượng đó ở đâu nhờ vào bàitoán hồi quy từ điểm ảnh đến tọa độ và xác suất của các lớp liên quan bằngcách sử dụng mạng nơ-ron, hình 2.9 và đây là cách tiếp cận dùng để phát hiệnđối tượng

Hình 2.9 Hệ thống phát hiện đối tượng dựa vào YOLO

(a) Thay đổi kích thước ảnh đầu vào thành 448×448, (b) thực thi CNN trên ảnh, (c) ngưỡng phát hiện kết quả dựa theo độ tin cậy của mô hình.

YOLO huấn luyện hình ảnh đầy đủ và trực tiếp tối ưu hóa hiệu suất pháthiện vì thế YOLO thực hiện rất nhanh Mô hình này có một số lợi ích so vớicác phương pháp phát hiện đối tượng truyền thống và YOLO có thể đạt đượcgấp đôi độ chính xác trung bình của các hệ thống phát hiện đối tượng trongthời gian thực khác

Khi xử lý YOLO đưa ra dự đoán về hình ảnh, nhìn tổng quát toàn bộ vềmột hình ảnh trong thời gian huấn luyện và kiểm tra nó ngầm mã hóa thôngtin của nó theo ngữ cảnh về các lớp cũng như sự xuất hiện của đối tượngkhông giống như các phương pháp khác sử dụng cửa sổ trượt và các kỹ thuậtdựa trên đề xuất vùng

Trang 33

Với Fast R-CNN, một phương pháp phát hiện đối tượng cũng rất hiệuquả [16], tuy nhiên thường phát hiện sai trong một phần nền của một hình ảnhcho các đối tượng bởi vì nó không thể nhìn thấy bối cảnh lớn hơn.

2.3.1 Cấu trúc mạng YOLO

Cấu trúc mạng được lấy ý tưởng từ mô hình GoogLeNet để phân loại hìnhảnh [17] Mạng có 24 lớp tích chập và 2 lớp kết nối đầy đủ, sử dụng các lớpgiảm 1×1 sau đó đến các lớp tích chập 3×3, giống như Lin et al [18], hình 2.10

YOLO được thiết kế để đẩy nhanh quá trình phát hiện đối tượng bằngcách sử dụng mạng nơ-ron có ít lớp tích chập hơn (9 lớp thay vì 24 lớp) và ít

bộ lọc hơn trong các lớp đó gọi là Fast YOLO Khác với kích thước củamạng, tất cả các thông số huấn luyện và thử nghiệm đều giống nhau giữaYOLO và Fast YOLO

Các lớp chuyển tiếp 1×1 xen kẽ làm giảm không gian đặc trưng từ cáclớp trước Giả định các lớp tích chập trên phân loại ImageNet ở một nửa độphân giải (hình ảnh đầu vào 224 × 224) và sau đó tăng gấp đôi độ phân giải đểphát hiện

Trang 34

Hình 2.10 Mạng phát hiện đối tượng có 24 lớp tích chập và 2 lớp kết

nối đầy đủ 2.3.2 Nguyên tắc hoạt động của YOLO

YOLO sử dụng các đặc trưng từ toàn bộ hình ảnh để dự đoán mỗi baobiên đối tượng và cũng dự đoán tất cả các bao biên đối tượng trên tất cả cáclớp cho một hình ảnh cùng một lúc

Hình ảnh đầu vào được chia S × S ô lưới, nếu trung tâm của một đối tượngrơi vào ô lưới nào thì ô lưới đó chịu trách nhiệm phát hiện đối tượng đó

Mỗi ô lưới dự đoán B và độ tin cậy cho các hộp đó Độ tin cậy này phảnánh đối tượng có chứa hay không có chứa trong bao biên đối tượng đó

Để xác định độ tin cậy này dựa theo cách tính Pr( ) ∗ ℎ Nếu không

có đối tượng nào tồn tại trong ô đó thì giá trị của độ tin cậy phải bằng 0 và ngượclại thì giá trị của độ tin cậy chính là phần giao bao biên đối tượng dự đoán vớibao biên đối tượng được huấn luyện đã xác định đó là đối tượng

Mỗi bao biên đối tượng bao gồm 5 dự đoán: x, y, w, h và độ tin cậy Cáctọa độ (x; y) đại diện cho tâm của ô tương ứng với các giới hạn của ô lưới.Chiều rộng w và chiều cao h được dự đoán tương đối so với toàn bộ hình ảnh,

Trang 35

hình 2.11 Chia hình ảnh thành lưới SxS và cho mỗi ô lưới dự đoán các ô có Bbao biên đối tượng, độ tin cậy cho các hộp đó và xác suất lớp C Những dựđoán này được mô tả dưới dạng S × S × (B * 5 + C).

Mỗi ô lưới cũng dự đoán C xác suất lớp có điều kiện Pr( | ) Các xác suất này được điều chỉnh trên ô lưới có chứa một đối tượng và độc lập với số lượng B bao biên đối tượng.

Quá trình thực hiện việc phát hiện đối tượng ta nhân xác suất từng lớpvới độ tin cậy, theo công thức (2.4)

Pr(|) ∗ Pr( ) ∗ ℎ

= Pr() ∗

Kết quả nhận được từ (2.4) là giá trị của độ tin cậy theo từng lớp cụ thểcho từng ô Những giá trị này là xác suất của lớp đó xuất hiện trong hộp vàhộp dự đoán phù hợp với đối tượng như thế nào

2.3.3 Quá trình huấn luyện của YOLO

Các lớp tích chập được thực hiện trên bộ dữ liệu 1000 lớp của ImageNet[19] Đối với trường hợp huấn luyện lại, YOLO sử dụng 20 lớp tích chập đầutiên như hình 2.10 theo sau là một lớp gộp trung bình và một lớp được kết nốiđầy đủ

Sau đó được chuyển đổi mô hình để thực hiện phát hiện Ren et al chobiết việc thêm cả các lớp tích chập và lớp kết nối thì các mạng được huấnluyện lại có thể cải thiện hơn và đạt hiệu quả cao hơn [20]

Ví dụ thêm bốn lớp tích chập và hai lớp được kết nối đầy đủ với trọng sốkhởi tạo ngẫu nhiên Phát hiện thường đòi hỏi thông tin trực quan chi tiết nêngiải pháp tăng độ phân giải đầu vào của mạng từ 224 × 224 lên 448 × 448được chọn

Trang 36

Hình 2.11 Mô hình phát hiện đối tượng bằng phương pháp hồi quy

Lớp cuối cùng của YOLO dự đoán cả hai xác suất lớp và tọa độ bao biênđối tượng Chiều rộng và chiều cao của bao biên đối tượng theo chiều rộng vàchiều cao của ảnh sao cho các giá trị nằm trong khoảng từ 0 đến 1 Các tham

số của bao biên đối tượng gồm x và y là tọa độ của vị trí ô lưới cụ thể vànhững giá trị này cũng bị giới hạn giữa 0 và 1

YOLO sử dụng hàm kích hoạt tuyến tính cho lớp cuối cùng và tất cả cáclớp khác sử dụng kích hoạt tuyến tính, (2.5)

( )={

YOLO tối ưu hóa tổng bình phương lỗi cho kết quả ra từ mô hình

Đối với YOLO v2, sử dụng biện pháp chuẩn hóa trên tất cả các lớp tíchchập nên làm tăng độ chính xác Việc chuẩn hóa thường xuyên giúp cập nhậtlại mô hình và cũng hạn chế trường hợp quá khớp dữ liệu

Trang 37

Tất cả các phương pháp phát hiện hiện đại đều sử dụng trình phân loại đượchuấn luyện trước trên ImageNet [19] Như AlexNet, hầu hết các trình phân loạihoạt động trên các hình ảnh đầu vào nhỏ hơn 256 × 256 [21] YOLO ban đầuhuấn luyện mạng phân loại ở mức 224 × 224 và tăng độ phân giải lên

448 để phát hiện Điều này có nghĩa là mạng phải đồng thời chuyển sang quátrình phát hiệu đối tượng và điều chỉnh theo độ phân giải đầu vào mang lạihiệu quả cao hơn

YOLO dự đoán tọa độ của các bao biên đối tượng trực tiếp bằng cách sửdụng các lớp được kết nối đầy đủ dựa trên các đặc trưng của lớp tích chập Thay

vì dự đoán trước các tọa độ như Faster R-CNN dự đoán các bao biên đối tượngbằng thủ công [22] YOLO loại bỏ các lớp kết nối đầy đủ khỏi YOLO và sử dụngcác hộp neo để dự đoán các bao biên đối tượng Đầu tiên loại bỏ một lớp tổnghợp để làm cho đầu ra của các lớp tích chập của mạng có độ phân giải cao hơn.Sau đó thu hẹp mạng để hoạt động trên 416 hình ảnh đầu vào thay vì 448x448với mong muốn có một số vị trí lẻ trong mô hình đặc trưng và có một

ô trung tâm duy nhất Đối tượng, đặc biệt là các đối tượng lớn có xu hướngchiếm trung tâm của hình ảnh do đó tốt nhất nên có một vị trí ngay tại trung

tâm để dự đoán các đối tượng này thay vì bốn vị trí gần đó Các lớp tích chập củaYOLO giảm kích thước hình ảnh xuống 32 lần bằng cách sử dụng một hình ảnhđầu vào là 416, chúng ta có được một ảnh đầu ra có kích thước 13 × 13

Khi sử dụng hộp neo kích thước được chọn bằng tay sẽ gặp vấn đề nếu

có lựa chọn tốt thì mạng sẽ huấn luyện, dự đoán và phát hiện tốt ngược lại thìkết quả rất tệ Để khắc phục vấn đề này, YOLO cho thực hiện phân cụm K-means trên bộ huấn luyện để có thể đưa ra các bao biên đối tượng dự đoán tốtnhất với giá trị IOU độc lập với kích thước bao biên đối tượng

Trang 38

2.4 Lọc theo mức độ tương quan của hàm nhân

Theo dõi đối tượng là một vấn đề quan trọng trong thị giác máy tính và

có nhiều ứng dụng như tương tác máy tính như giám sát giao thông, phươngtiện không người lái [23], [24] Nhiệm vụ chính của theo dõi đối tượng làphân tích chuỗi video nhằm mục đích thiết lập vị trí của mục tiêu trên mộtchuỗi các khung hình bắt đầu từ hộp giới hạn được đưa ra trong khung đầutiên [23] Mặc dù trong thời gian qua công nghệ đã tiến bộ vượt bậc nhưngviệc thiết kế một thuật toán theo dõi đủ mạnh vẫn là một việc khó khăn do đốitượng bị che khuất, biến dạng, chuyển động nhanh, thay đổi ánh sáng, v.v…

Gần đây, bộ theo dõi dựa trên bộ lọc theo mức độ tương quan mang lại kếtquả cao về độ chính xác, độ mạnh và tốc độ [25], [26], [27], [28] Đặc biệt, lọctheo mức độ tương quan của hàm nhân (Kernelized Correlation Filter – KCF)thực hiện ở hàng trăm khung hình mỗi giây Các thuật toán này giả định các mẫuhuấn luyện và các mẫu phát hiện ứng viên là thay đổi theo chu kỳ

Thuật toán huấn luyện một bộ lọc theo mức độ tương quan từ một tậphợp các mẫu là các thay đổi theo chu kỳ từ mẫu cơ sở và sử dụng bộ lọc theomức độ tương quan được huấn luyện để tìm vị trí của mục tiêu trong phầnphát hiện Các mẫu được phát hiện cũng là những thay đổi theo chu kỳ so vớimẫu cơ sở Giả thiết này cho phép huấn luyện và phát hiện hiệu quả bằng cách

sử dụng phép biến đổi Fourier [26] Tuy nhiên, nó có một số nhược điểm do

sử dụng các thay đổi theo chu kỳ của mẫu cơ sở nên có thể các mẫu huấnluyện không thể thể hiện chính xác nội dung hình ảnh, đặc biệt là khi mục tiêuchuyển sang vùng ranh giới của phần tìm kiếm, hình 2.12 Chính vì vậy, cácmẫu được huấn luyện này làm giảm việc dự đoán các đối tượng từ mô hình đãhọc Trong phần phát hiện, kết quả nhận được chính xác khi đối tượng ở gầntrung tâm của vùng tìm kiếm vì sử dụng các thay đổi tuần hoàn của mẫu banđầu làm mẫu ứng viên nên rất hạn chế khu vực tìm kiếm mục tiêu

Trang 39

Danelljan et al [26] đề xuất hàm chuẩn hóa về không gian vào các bộ lọctheo mức độ tương quan phân biệt (Discriminatively Correlation Filters -DCF) hay còn gọi là chuẩn hóa bộ lọc theo mức độ tương quan phân biệt(Spatially Regularized Discriminatively Correlation Filters- SRDCF) và cảithiện đáng kể hiệu suất của DCF [26] Tuy nhiên, việc đưa thêm hàm chuẩnhóa về không gian dẫn đến việc tính toán cũng phức tạp hơn SRDCF sử dụngmột loạt các phương pháp tối ưu hóa để cải thiện hiệu quả của thuật toán Tuynhiên, SRDCF rất phức tạp và chậm Dựa theo SRDCF , KCF sử dụng một

ma trận được chuẩn hóa không gian bằng công thức hồi quy ridge Với côngthức hồi quy ridge mới có thể được giải quyết một cách hiệu quả bằng cách ápdụng tính chất của ma trận tuần hoàn và trong bộ lọc theo mức độ tương quan

sẽ huấn luyện nhanh hơn

Trong khi đó, các mẫu huấn luyện và mẫu phát hiện ứng cử viên có thểđược thể hiện ở khu vực rộng hơn Từ đó, có nhiều mẫu huấn luyện tốt dẫnđến mô hình phát hiện đối tượng tốt hơn khắc phục được hạn chế khi mục tiêuthay đổi Và nhiều mẫu phát hiện ứng cử viên cho phép nhận được diện tíchlớn hơn độ chính xác cao hơn gần trung tâm của phần tìm kiếm và điều nàycũng mang lại lợi ích cho việc đối tượng bị che khuất, có chuyển động nhanh.KCF chuẩn hóa không gian trong công thức hồi quy ridge có thể giảiquyết một số vấn đề xảy ra khi các mẫu thay đổi tuần hoàn và sử dụng tínhchất của ma trận tuần hoàn để tính toán bằng công thức hồi quy ridge mang lạihiệu quả cao cho bộ lọc theo mức độ tương quan

Trang 40

Hình 2.12 Các mẫu huấn luyện thu được bằng cách thay đổi theo chu kỳ của một mẫu cơ sở không thể đại diện cho nội dung hình ảnh

2.4.1 Các vấn đề liên quan

Theo dõi và phát hiện đối tượng đã được nghiên cứu rộng rãi [29], [30],

[31] [32], [33] Vì những trình theo dõi này thường phân biệt mục tiêu theo dõi

từ nền với các trình phân loại, chúng được phân loại là trình theo dõi phân biệt.Các thuật toán phân loại như máy vectơ hỗ trợ [30], [32], [33], [34], [35], tăngcường [29], [36], nhiều thành phần huấn luyện [37], phương pháp lấy ngẫu

Ngày đăng: 23/12/2020, 22:02

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w