Trong luận văn nảy này, chúng tôi tập trung vào phương pháp sử dụng những mô hình Học sâu hiện có để nhận diện tự động các đối tượng là điểm mốc trên cánh của ruồi cát.. Đằng thời, nhậ
Trang 1TRUONG DAI HOC BACH KHOA HA NOI
LUẬN VĂN THẠC SĨ
Nghiên cứu tự động phát hiện điểm mốc
trên ảnh cánh côn trùng
NGO XUAN QUANG
Quang NXCA190079@sis hust.edu.vn
Ngành: Kỹ thuật Diện tử
Giảng viên hướng dẫn: T5 Võ Lê Cường
Giáng viên đồng hướng dẫn: 18 Nguyễn Hoàng Hà
DA NOL, 06/2021
Trang 2TRUONG DAT AOC BACH KHOA BA NOT
LUAN VAN THAC Si
Nghiên cứu tự động phát hiện điểm mốc
Điện tử - Viễn thông
Giáng viên đồng hướng dẫn: TS Nguyễn Hoàng Hà
HA NOL 06/2021
Trang 3CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
— Tự do— Hạnh phúc
BẢN XÁC NHẠN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn: Ngô Xuân Quang
Để lài luận văn: Nghiên cứu tự động phát hiện điểm mốc trên ảnh
4năm 202] với cáo nội dụng sau:
- Chỉnh sửa và bố sưng luận văn theo đúng quy định của luận văn
- Chỉnh sửa luận văn theo ÿ kiến của hội đồng
Ngày 27 tháng 6 năm 2021
TS Va Lê Cường Ngã Xuân Quang
CHỦ TỊCH HỘI ĐỨNG
TS Phạm Duän Tĩnh
Trang 4LOT CAM DOAN
Téi xin cam doan luan van nay 1 công trình nghiên cứu của cá nhân tôi, dược thực hiện đưới sự hướng đân của F8 Võ Lẻ Cường - cán bộ tại Viện Điện
tử - Viễn thông, trường Đại học Bách Khoa Hả Nội (HUST) và thây 18 Rguyên
‘Hoang Hà — giảng viên tại khoa Công nghệ Théng tin va Truyền thông, trường Pai học Khoa học và Công nghệ Hà Nội (USTH) trong suốt quá trình học tập và nghiên cứu tại Trường Dai hoc Bach khoa TTả Nội
Để hoàn thành luận văn này, tôi tham khảo các tài liệu liên quan đã được liệt kẽ tại cuỗi luận văn này Những tài liệu tham khảo tôi dã chí dẫn trích rõ nguồn trong danh mục tài liệu tham khảo
Hà Nội, ngày 26/06/2021
Hoc viên
Ngô Xuân Quang
Trang 5LOT CAM ON
Trong suốt quá trinh học tập và nghiên cứu cao học khóa Thạc sỹ 2019A ngảnh Kỹ thuật Điện tử ti Viện Điện tử - Viên thông, trường Đại học Bách khoa
Hả Nội, lỗi đã luôn nhận được sự dạy đỗ, chữ bão lận lình của các cán bộ thấy, cỗ
giáo với nhiều kiên thức mở rộng nắng cao
đắt, hướng dẫn, giúp tôi hòa nhập với môi trường nghiên cứu khoa học, tạo mọi điểu kiên tiện lợi nhất cho tôi rong suốt quả trình làm thực nghiệm vá viết
Trang 6TOM TAT NOI DUNG LUAN VAN hận điện điểm mốc là bài toán con thuộc bài toán đoán hình dang Với xnội ảnh đầu vào, hệ thông nhận dạng sẽ cỗ gắng xác định các điểm quan trong
trong RỒI cña ảnh đó Trong Sinh học, giải pháp ứng dụng Học máy, Học sâu
vào nghiên cứu vẫn còn khá mới mẻ, rất đáng, được quan tầm và khai thác Dồng,
thời, nhận thấy được sự quan trọng của việc phân tích hùnh thai dua trên diém mốc, chúng tôi đã tiến hành nghiên cứu phát hiện điểm mốc hinh thai cánh côn trùng tự động bằng Học sâu, cụ thể là trên tập đữ liệu ảnh cánh của loài ruồi giám
(lên khoa học: 2vosophila)
Luận văn nảy tập trung vào vẫn để “Mgiiên cứu tụ động phát hiện điểm
mốc trên ảnh cánh côn trùng” Dựa vào những cơ sở trên, Luận văn này sẽ phân
tích và so sánh hiệu năng giữa các mô bình tiêu biểu, từ đó chọn ra mồ đình tối
nhật Do vậy một số luận điểm và đóng góp cơ bản trong luận văn này bao gồm:
Nghiên cứu tống quan bài Loán Nhận điện đổi tượng và cÌủ tiết các mạng nhận dạng Học sâu Nghiên cứu thực nghiêm, kết quả và đánh giá Trong phan này, nói tới tập dữ liệu vả quả trình huấn luyện, kiểm định cae m6 hinh Déng thời,
hiệu năng và độ chính xác của những mô hình Học sâu cũng được làm rõ thông,
qua thí nghiệm Nghiên cửu tổng kết công việc dã thực hiện, bản luận về hạn chế của đề tài và hướng nghiên cứu tương lai.
Trang 71.2 Các nghiên cứu liên quan
1.3 Quá trình nghiên cứu
1.4 Cấu trúc của luận án
CHƯƠNG 2: PHƯƠNG PHÁP NGHIÊN CỨU
2.I Tông quan bài toán và phương pháp Học Sâu
2.1.1 Téng quan bai toán
2.1.2 Giới thiệu về Hoc S4u (Machine Learning)
2.2 Phương pháp đánh giá mô hình
2.3 Các mạng nhận dạng Học sâu
2.3.1 Một số khái niệm và thuật ngữ thường đủng
2.3.2 Cau trúc cáu mạng backbone trong Học sâu
CHƯƠNG 3: THỰC NGHIỆM, KẾT QUÁ VÀ ĐẢNH GIÁ
iv
Trang 8
DANH MỤC CÁC KỸ HIỆU, CHỮ VIỆT FAT
CHỦ GIẢI TIỂNG ANH
Pairwise Geometric Histogram
Probabilistic Hough ‘lransform Intersection Over Union
Deep neural network Region proposal network
Convolutional Neural Network
Single MultiBox Shot Detector
You Only Look Once
CHÚ GIẢI TIỂNG VIỆT Khu vue quan tam
Máy véc-tơ hỗ trợ
Rimg ngẫu nhiên
Cây phân loại và hồi quy
Biểu dỗ hình học theo cặp
Biến đổi Hough theo xác suất Diện tích phần giao nhau chia
cho diễn tích phần hợp giữa
khung chữ nhật đoán vả khung
pid (ri that
Mang no-ron sau
Mạng để xuất khu vực
Mạng nơ-ron tích chập
M6 hình nhận điện vả phân loại
nhiều đối tượng trong các khung
chữ nhật chỉ với một lần xử lý
Ban chỉ phải nhìn một lần
Trang 9DANH MỤC CÁC BÀ
Bang 3 1: Thông tin về gen alen của Drosophila
Băng 3 2: Kết quá đánh giá của mô hình Faster R-CNN
Bảng 3 3: Kết qua danh gid cia m6 hinh SSD
Bang 3 4: Kết quả đánh giá của mô hình YOLO
Trang 10DANH MUC HINH ANH
Ilinh 1 1 Sơ đề khối quy trình nhận dạng điểm mắc ca
Hình 1 2: Hai phương pháp nhận dựng điểm mỗc - 6 Ilinh 2 1: Khung chữ nhật bao quanh các diém méc duge nhận diện 9
Hình 2 3: Ví dụ về nhận diện dối tượng, 13
Hình 2 4: Mô tả phân hình qua thuật toán tìm kiếm chọn lọc 14
Hình 2 5: Phân loại khung hình dễ xuất khu vực R-CNR 15
Hình 2 6: Kiến trúc của East R-CNN mm
Hình 2 7: So sánh training time, test time giữa R-CNN và Fast R-ONN 17
Tĩnh 2 §: Kiến trúc của Iaster R-CNN T8
Tĩnh 2 9: Chỉ tiết mạng để xuất khu vực - RPN ¬ se Tình 2 10: Công dụng của cửa số trượt và bẩn đồ đặc trưng 19 Tỉnh 2 11: Khung hình chữ nhật của anchor trong RPN 20 Tình 2 12: RPN tạo ra các k mỏ neo tương ứng ở ảnh gốc 21
Hình 2 13: So sah test-time speed R-CNN, Fast R-CNN va Faster R-CNN
wD
Hinh 2 15: Kién tric multi-sacle convolution prediction st dung trong SSI
Hinh 2 16: MultiBox prior And IOU
2 Tỉnh 2 17: Minh họa cho ý tưởng của F:eđ Priors Ố
Hình 2 19: Các bước xử lý rong m mỗ hình You ° 27
Hình 3 1: Dữ liệu ảnh cánh ruỗi giắm Drosophila thu thap được ở [7] 30
Hình 3 2: Dữ liệu ảnh cánh ruồi giảm TDrosophila thu thập dược ở |9] 30
Ilinh 3
Hinh 3
Kết quả kiếm thử từng ảnh của mạng YOLO 35
0: ão sánh độ chỉnh xác sủa cáo mô hình nhận diện 39
2
Hình 3 3: Ảnh bên trái được gắn nhãn 15 điển mốc bằng tay thco bên phả¡31
Hình 3 4: Quá trình gán nhãn thủ công bằng phần mềm TpsDig2 ver2.3131
Hình 3 5: Quá trình huấn luyện Faster R-CNA theo Tensorflow 33 Hình 3 6: Quá trình huấn luyện S5D theo Tensorflow 233 Hinh 3 7: Quá trình huấn luyện YOLO theo Darknet 34
Tlinh 3 8: Két qua kiém thir timg anh cia mang Faster R-CNN va SSD 35
9:
1
Trang 11DAT VAN DE
Tri tué nhan tao (Artificial Intelligence — viét tắt là AT) là một ngành
thuộc lĩnh vực Khoa học máy tính 'Thuật ngữ AI thường được sử dụng để
chỉ các máy móc, máy tính có khả năng bắt chước được chức năng “nhận
thức” của son người Theo đó, Thị giác máy tính là một nhánh trong AI,
với mục đích là “dạy” cho máy tính có thể hiểu và cảm nhận được môi
trường xung quanh thông qua hình ảnh số thu được từ máy ảnh, máy
quay,
Các tác vụ cơ bản thường thấy trong Thị giác máy tính là Phân loại
hinh anh (image classilicalion), Dinh vi vat thé (object localization), Nhận
diện đối tượng (object detection), Phin manh hình ảnh (image segmentation), M6 ta hinh 4nh (image captioning)
Phát hiện diém méc (Lankmark deicetion) trong Thi gidc may tinh ed
quan hệ mật thiết tới tác vụ phân tích hình dang (shape analysis) trong bai
toán nhận diện vật thể Các mô hình học máy cô điển như SupporL Vector Machine (SVM) va Random Forest (RF) tuy đã trích xuất được nhiều đặc
trưng quan trọng như SURF, FREAK, BRISK va IIOG nhung van chua dat
được độ chính xác trên 80% Trong luận văn nảy này, chúng tôi tập trung vào phương pháp sử dụng những mô hình Học sâu hiện có để nhận diện tự
động các đối tượng là điểm mốc trên cánh của ruồi cát Bằng các phép so
sánh và đánh giá về độ chính xác, hiệu quả của từng mô hình, ta có thể
chọn ra một mô hình thích hợp nhất cho bài toán nảy
Từ khúa: Nhận dạng điềm mắc, tự động, Thị giác máy tính, mã hình
Học sâu, độ chính xác cao, hiệu quả
Trang 12CHƯƠNG 1: GIỚI THIỆU 1.1 Lý đo chọn dé tai
Trong hình thái học nghiên cứu hình dang và cấu trúc của sinh vật,
điểm mốc là các điễm có ý nghĩa sinh học giúp xác định tương ứng giữa các cả thể trong một quần thể -> Phát hiện điểm mốc là một công việc quan
trọng trong hình thái học Đã có nhiều nghiên cứu về nhận dạng điểm mốc
như điểm mốc áp dụng trong nhận dạng khuôn mặt và biểu cảm khuôn mặt,
điểm mốc trong ảnh y tế để xác định bệnh, nhận đạng vần tay thông qua
điểm mốc, nhận dạng điểm mốc trên cánh côn trùng
Thông thường điểm mốc cánh côn trùng được đánh đấu bằng tay để
nghiên cửu mối tương quan giữa hình dạng và câu trúc cảnh với các yếu tổ môi trường, bệnh lý, Các diễm mốc là giao diém của các đường pân,
mép cánh có ý nghĩa phân loại và thể hiện đặc tính/trạng thái của sinh vật
Khi số lượng diễm mốc và số lượng ảnh lớn thi đây lả ông việc tốn
nhiều công sức và tiểm ấn sai sót vì thể cần tư động hóa việc đánh đầu
điểm méc
Nghiên cứu và phân tích hình đang của vật thể mang ý nghĩa quan
trọng trong ngành sinh học Các cá thể trong cùng loài được phân biệt bởi
hình đáng riêng Đối với các nhà sinh vật học nói riêng và các nhà khoa
học nói chung phân tích hình dang là một phương pháp được ưa chuông để hiểu rõ hơn về đa dạng loài và biến đổi hình thái học
Nhận diện điểm mốc là bài toán con thuộc bài toán đoán hình đạng,
Với một ảnh đầu vào, hệ thống nhận dạng sẽ cổ gắng xác định các điểm
quan trạng Irong ROI của ánh đó Ứng dụng thường gặp nhất của hệ thống
nảy trong thực tế là xác thực đầu vẫn tay hay nhận diện cảm xúc mặt người,
hoặc đối chiếu liệu hai ảnh chụp khuôn mặt có phải của một người hay
9
không?,
Có nhiều cách tiếp cận dễ giải quyết bài toán phát hiện diễm mố,
Xử lý hình ảnh đến Học máy cổ điển và cao cấp hơn là lọc sâu Xử lý hình
ảnh sử dụng hai phép biển dỗi hinh thái là giãn nở (Dilation) va co
>
Trang 13(Erosion) để phân Lích và xử lý kết cấu hình học, cấu trúc tôpỗ — sự tương
quan giữa các hình dạng vật thể như tính liên thông, tính liên tục Bên cạnh
đó, việc tìm đường viền chủ động cùng thuật toán Khóp mẫu cũng được
dùng trong Xử lý ảnh để nhân diện điểm mốc và đo khoảng cách giữa chúng Học máy cổ điển tận dụng các mô hình toán học xác suất như
Bayesian, hay SVM, RF, SVM là một thuât toán học máy có giám sá
được sử dụng trong các bài toán phân loại và hồi quy, đồng thời có thể xử
lý nhiều biến liên tục và biển phân lớp RF là một tập hợp các cây quyết
dinh ma trong đỏ, mỗi cây lá một bộ phân loại Kỹ thuật RE nảy thu thập
cây phân loại và hỗi quy CART dựa trên một số luật phát triển cây nhất
dịnh, cách kết hợp cây, tự kiểm tra và hậu xử lý Các phương pháp Học sâu
thi mang đến hiệu năng tính toán lứn kẻm với độ chính xác cao hơn từ
những mô hình mạng nơ-ron sâu được huấn luyện cân thận
Trong Sinh học, giải pháp ứng dung Hoc may, Hoc sâu vào nghiên
cứu vẫn còn khá mới mẻ, rất đáng được quan tâm và khai thác Đằng thời,
nhận thấy được sự quan trọng của việc phân tích hình thái dựa trên điểm
mắc, chúng tôi đã tiến hành nghiên cứu phát hiện diễm mốc hình thái cánh
côn trùng tự động bằng Hoc sau, cy thế là trên tập dữ liệu ảnh cánh của loải
xuổi giảm (tên khoa học: Drasaphila)
1.2 Các nghiên cứu liên quan
Thực tế đã tồn tại một số nghiên cứu làm về tự động hóa phân tích hinh dang sinh hoc nhu bai bao “Landmark detcetion in 2D biomages [or
geometric morphometric: a multi-resolution tree-based approach” cla Remy Vandacle va céng su [7], hay “Aulomalic identification of landmarks
in digital images” cia Sasirckha Palaniswamy va céng sự |3|, “8cmi-
automated quantitative Drosophila wings measurements” cla Sheng Yang
Michacl Loh va céng su [8] Sonnenschein, Anne & Vanderzec, David &
Pitchers, William & Chari, Sudarshan & Dworkin, lan (2015) An image
database of Drosophila melanogaster wings for phenomic and biometric
analysis GigaScience [9).
Trang 14Trong bai bao đầu tiên, tác giả sử dụng lập dữ liệu gồm 100 ảnh hộp
sợ, 138 cánh của J3rosopbhila và 113 ảnh cá ngựa Phương pháp má Rémny
và công sự đã thực hiện là lẫy mẫu các điểm mốc (từ 1 đến 15) theo phân phối ngẫu nhiên — với tâm những điểm mốc này được chọn theo giá trị thật, sau đó huấn luyện một mô hình phân lớp (SVM hoặc RF) với mỗi điểm
mốc nảy ĐỀ đánh giá khả nắng phân lớp của mô hình, nhỏm lac gid dit ra
một ngưỡng R Khi mô hình đã đào tạo dự đoán một điểm mốc với khoảng cách nhỏ hon ngưỡng R thì được coi là đúng, ngược lại lá sai Với một
ROI, tac gid chon ra ø diễm mốc (dựa trên thông kế từ bộ đữ liêu) và chạy
phân lớp, thu được z điểm đúng Trung bình giá trị tọa độ của các điểm
đúng dỏ sẽ là điểm dự đoán cuối cùng
Công trình nghiên cứu của Sasirekha và công sự dược thực hiện trên
856 ánh cánh Drosophila do ho ty thu thap Bai bio nay str dung phương
pháp trích xuất các gân trên cảnh, sau đó xấp xỉ những gÂn nay bằng các
đoạn và tìm mỗi quan hệ giữa những đoạn này bằng PGH Kế đến, họ dùng, PIIT để ước tính vị tí và hướng của cánh, sau đó là vùng của mỗi điểm
mốc Cuỗi cùng, họ đối chiếu với mẫu để xác dịnh vị trí chính xác của các
điểm mốc này
Nhóm cia Sheng Yang Michael Loh phat trién hệ thắng nhận điện bán tự đông điểm mốc trên 959 cá thể ruôi từ 16 loai Drosophila thu thap &
ki tic x4 Minami-osawa, Tokyo, Nhat Ban Tap di liệu ảnh của họ gồm
600 ảnh đen trắng, được đánh đấu đầy đủ các điểm mốc quan trọng Tập
ảnh này được kỉ hiệu bằng D,, véi m — 1, 2, 3, , 600 Chọn dầu vào là một ảnh cánh ruồi mới và chưa đánh dẫu, hệ thống này yêu cầu người sử đụng
phải thao tác chọn ra ba điểm mốc cụ thể trên ảnh cảnh mới Sau khi ba
điểm này đã được xác định, thuật toán Khớp mẫu kết hợp với mô hình
đường viễn chủ dông (aclive contours) sẽ đỏ theo các vân trên cánh, tính
toán độ dài dây cung và so sánh ảnh dầu với tập 600 sẵn có đễ tìm ra nốt
ác điểm mắc cà An ki Sung
các điểm mộc còn lại trên ảnh mới nảy
Trang 15Ở bài báo thứ 4 [9] nhóm tác giả đã sử dụng 2270 ảnh đen trắng cánh
đdrosophilia trong đó có 1135 ảnh cánh trái và 1135 ảnh cánh phải được gán
nhãn các điểm mốc theo một quy luật riêng
Những nghiên cứu trên cho ra kết quả rất khả quan, song độ chính
xác vẫn chưa thực sự đạt tới 90% Hiện tại, sức mạnh và ửng dụng của các
mô hình Học sâu đã phát triển vượt trội, cho kết quả cao ở các bài toán Do
đó, tôi đưa ra một phương pháp kĩ thuật là ứng dụng các mô hình Học sâu Nhận diện đối tượng để phát hiện các điểm mốc cánh côn trùng tự động
Luận văn này sẽ phân tích, so sánh hiệu năng giữa các mô hình tiêu biểu và chọn ra mô hinh tốt nhất
1.3 Quá trình nghiên cứu
Hình thái học (Morphology) nghiên cứu hình dạng và cấu trúc của
sinh vật Điểm mốc giải phẫu (anatomical landmark) là các điểm có ý nghĩa
sinh học, giúp xác định tương ứng giữa các cá thể trong một quan thể, đặc
ta hinh dang và cấu trúc thông qua điểm mốc
Nghiên cứu về nhận dạng điểm mốc: Điểm mốc áp dụng trong nhận
dạng khuôn mặt và biểu cảm khuôn mặt như điểm mốc trong ảnh y tế để
xác định bệnh, nhận dạng vân tay thông qua điểm mốc, nhận dạng điểm
mốc trên cánh côn trùng còn ít, chủ yếu trên cánh ruồi dim (Drosophila)
Hình 1 1 Sơ đồ khối quy trình nhận dạng điểm mốc
Ảnh cần xác định điểm mốc được đưa qua khối tiền xử lý ảnh khối
này có nhiệm vụ lọc nhiễu, nối biên, tăng độ tương phản để đưa đến hệ
thống nhận dạng điểm mốc, hệ thống này sẽ phân lớp các khung hình chứa
Trang 16đối tượng xác định điểm mốc cần tìm một cách chính xác nhất, ảnh được
xác đính sau hệ thông nhân dạng điểm mốc sẽ được đánh giá tỉ lệ độ chính
xác và độ tin tưởng của lần xác định đó
Có hai phương pháp nhận dạng điểm mốc, điểm đặc trưng
Hinh 1 2: Hai phương pháp nhận dạng điểm mốc
Có hai phương pháp tổng quan cơ bản sử dụng đặc trưng ảnh trích
chọn bởi người dùng để chọn các điểm đặc trưng một cách thủ công,
phương pháp này tốn nhiều thời gian và công sức, khi số lượng điểm mốc
cao hoặc số lượng ảnh nhiều thì có nhiều nguy cơ dẫn đến sai sót Phương pháp thử hai sử dung mô hình học sâu (deep learning) trích chọn đặc trưng
tự động, phương pháp nảy sẽ tăng được hiệu suất rút ngắn thời gian và gia
tăng đô chính xác cho quá trình trích chọn các điểm đặc trưng Và chưa áp
dụng cho bài toán cánh côn trùng do bộ dữ liệu chưa đủ lớn
Van dé tén tại, sự cần thiết:
Còn ít nghiên cứu về nhận dạng điểm mốc hình thái tự đông cho cánh côn trùng Mới sử dụng phương pháp Handcrated feature trên cánh ruồi dấm
(drosophila) Nghiên cứu cho kết quả tốt nhất hiện nay (Vandaela et al.,
2018) có tốc độ thấp Mô hình học sâu chưa áp dụng cho cánh côn trùng do
thiếu dữ liêu, các phương pháp nhân dạng đều hướng dữ liệu
Mục tiêu của luận văn: Là 'nghiên cứu tự đông phát hiện điểm mốc
trên ảnh cánh côn trùng` mục đích
Nâng cao đô chính xác: Lựa chọn phương pháp dỏ điểm mốc ứng
viên, trích chọn đặc trưng và phân loại phủ hợp, áp dụng mô hình học sâu
Trang 17Cái thiện tốc độ nhận dạng: Lựa chọn Uip dic trung hiệu quả hơn,
giảm số lượng điểm mốc ứng viên cần nhận dạng,
Mục đích, đối tượng, phạm vi nghiên cứu
Dựa vào những cơ sở trên, trong khuôn khổ luận văn nảy, em tập
trung trình bày và đưa ra một phương pháp kĩ thuật là ứng dụng các mô
hình Hẹc sâu Nhận diện đối tượng để phát hiện các điểm mốc cánh côn
trùng tự động Báo cáo này sẽ phân tích vả so sánh hiệu năng giữa các mô
hình tiêu biểu, từ đỏ chọn ra mô hình tốt nhất
Tóm tắt các luận diễm và đóng gúp của tác giá
Trong luận văn này, tôi đề cấp tới vấn đề nghiên cứu tự động phát
hiện điểm mốc lrên ánh cánh côn trùng Do vậy một số luận diém va dong g6p cơ bản trong luận vẫn này bao gồm
- Nghiên cửu tổng quan bài toán Nhận điện đối tượng và chỉ tiết các
mang nhận đạng Học sâu
- Nghiên cứu thực nghiệm, kết quả và đánh giá Trong phần nảy, nói tới tập đữ liệu và quá trình huân luyện, kiểm định các mô hình Đồng thời,
hiệu năng vả dộ chính xác của những mô hình Học sảu cũng dược làm rõ
thông qua thí nghiệm
- Nghiên cứu tông kết công việc đã thực hiện, bàn luận về hạn chế của để tài và hướng nghiên cứu tương lai
Phương pháp nghiên cứu
Trong luận văn này, phương pháp nghiên cứu sử đụng dựa trên
- Nghiên cứu tổng quan về bài toán nhận dạng diễm mốc cánh côn trùng,
- _ Nghiên cửu phương pháp đánh giá mô hình Học sâu:
Nghiên cứu các mạng nhận dạng Học sâu, trong đó có một số khái
niệm và thuật toán thường đừng, cấu trúc các mạng backbone trong Học
sâu
“a
Trang 181.4 Cầu trúc của luận án
Luận án được tổ chức như sau: Chương Ì là giới thiệu để tài Chương
2 đề oập tới phương pháp nghiên cứu Chương này bao gồm lổng quan bai toán Nhân diện đối tượng và chỉ tiết các mang nhận dang Học sâu Chương 3 thể hiện thực nghiệm, kết quả và đánh giá Trong chương này, chúng tôi nói
tới tập đữ liệu và quả Irình huấn luyện, kiểm định các mô hình Đồng thời,
hiệu năng và độ chính xác của những mô hình Học sấu cũng được làm rõ thông qua thí nghiệm Cuỗi củng, chương 4 sẽ tổng kết công việc chúng tôi
đã thực hiện, bản luận về hạn chế của dễ tải và hướng nghiền cửu tương lai
Trang 19CHƯƠNG 2: PHƯƠNG PHÁP NGHIÊN CỨU
2.1 Tổng quan bài toán và phương pháp Học Sâu
2.1.1 Tổng quan bài toán
Bài toán nhận dạng điểm mốc cánh côn trùng có thể được phát biểu
như sau: Cho một ảnh kĩ thuật số dưới dạng ma trận Iy„u với w và A là giá trị
chiều rộng và chiều cao của bức ảnh đó Thành phần của ma trận I có thể là
một giá trị nguyên thuộc [0, 255] cho ảnh đơn sắc, hoặc bộ ba giá trị nguyên
thuộc [0, 255] tương ứng các màu đỏ (R), xanh lá (G), xanh dương (B) đối
với ảnh màu Hãy tìm tọa độ của n điểm mốc LM, (X.y0 (0 < ï < n) với Xị thuộc (0, w), y¡ thuộc (0, h)
Hình 2 1: Khung chữ nhật bao quanh các điểm mốc được nhận điện
Như đã trình bày ở Chương 1, mục tiêu của nghiên cứu này là phát triển một phương pháp sử dụng tiếp cận Học sâu để tự đông hóa bài toán
trên Hiện nay các mạng học sâu đã đạt được kết quả rất tốt cho các bài toán
nhân dạng Đầu ra của các mạng cho các bài toán nhân dạng là các khung chữ nhật (bounding box) Ý tưởng chính trong nghiên cứu này là sử dụng kết quả của các mạng nhận dạng đó bằng cách coi tâm của các khung chữ
nhật được phát hiện chính là tọa đô của các điểm mốc (xem Hình 2 1).
Trang 202.1.2 Giới thiệu về Học Sâu (Machine Learning)
Machine learning gây nên cơn sốt công nghệ trên toàn thê giới trong, vai năm nay Trong giới học thuật, mỗi năm có hang ngan bài bảo khoa học
về đề tài này Irong giới công nghiệp, từ các công ty lớn như Google, Facebook, Mierosoft đến các công ty khởi nghiệp đều đâu tư vào machine
loarning Hang loat cdc img dung sit dung machine learning ra déi trén moi
lĩnh vực của cuộc sống, từ khoa học máy tính đến những ngành ít liên quan
hơn như vật lý, hóa học, y học, chính trị 1iphaGo, cỗ máy đánh cờ vây với
khả năng tính toán trong một không gian có số lượng phần tử cỏn nhiều
hon sé lương hạt trong vũ trụ, tối ưu hơn bắt kì đại kì thủ nảo, là một trong
tất nhiều ví dụ hùng hồn cho sự vượi trội của machinc lcarning so với các phương pháp cỗ diễn
AI thể biện một mục điêu của con người Machine learning là một
phương tiện được kỳ vọng sẽ giúp con người đạt được mục tiêu dỏ VẢ
thực tế thì machine learning đã mang nhân loại đi rất xa trên quãng đường, chỉnh phục AI Nhưng vẫn còn một quãng đường xa hơn rất nhiều cần phải
di Machine learning và AI có mỗi quan hệ chặt chẽ với nhau nhưng không,
hin là trùng khớp vỉ một bên là mục tiêu (AI), một bên là phương tiện (machine learning) Chinh phục AI mặc di vẫn lả mục đích tối thượng của machine learning, nhung hiện tại machine learning tập trung vào những
mmục tiêu ngăn hạn hơn như:
Làm cho máy tính có những khả năng nhận Lhức cơ bản của con người như nghe, nhìn, hiểu được ngôn ngữ, giải toán, lập trình,
Hỗ trợ con người trong việc xử 1ÿ một khối lượng thông lin không 18
mà chủng ta phải đối mặt hàng ngày, hay cỏn gọi là Big Data
Bìg Data thực chất không phải là một ngành khoa học chính thống
Đó là một cụm từ dân gian và dược giới truyễn thông tưng hỗ dé ám chỉ
thời kì bùng nỗ của dữ liệu hiện nay Nó cũng không khác gi với những
cụm từ như "cách mạng công nghiệp", "ki nguyén phan mém" Big Data 1a
một hệ quả tắt yếu của việc mang Internet ngảy cáng cỏ nhiều kết nói Với
10
Trang 21sự ra đời của các mạng xã hội nhưng Facebook, Instagram, Twitter, nhu
cầu chia sẻ thông của con người tăng trưởng một cách chóng mặt Youtube
cũng có thể được xem là một mạng xã hội, nơi mọi người chia sẻ video và
comment về nội dung của video
2.2 Phương pháp đánh giá mô hình
Với mỗi một ảnh, các mô hình Học sâu nhận diện đối tượng sẽ đưa ra
nhiều dự đoán tại các vị trí khác nhau và các đô chic chin (confidence)
khác nhau Với mỗi loại điểm mốc, chúng tôi chỉ chọn dự đoán của model
với độ chắc chắn cao nhất Trong các bài toán nhận dang, IOU (Intersection Over Union) (xem Error! Reference source not found.) là hàm đánh giá
đô chính xác của Mô hình nhận diện vật thể trên tập dữ liệu cụ thể
IOU được tính bằng
Area of Overlap
loU =
Area of Union
Hinh 2 2: Cach tinh IOU
Trong dé Area of Overlap la dién tich phần giao nhau giữa khung chữ
nhat du doan voi khung chit nhat thuc su, con Area of Union 1a dién tich
phan hợp giữa khung chữ nhật dự đoán với khung chữ nhật thực sư Những
khung chữ nhật được gán nhãn bằng tay trong tập huân luyện va tập kiểm
định Nếu IOU > 0.5 thì khả năng dự đoán được đánh giá là tốt
Tuy nhiên, với bài toán nhận diện điểm mốc, vì điểm mốc không có
kích thước nên thực tế, chủng ta chỉ quan tâm đến tọa độ điểm mốc Vì vậy
để đánh giá một lần dự đoán chúng tôi không dùng IOU mà chúng tôi quan
tâm đến khoảng cách từ tâm khung chữ nhật được nhận dạng tới vị trí điểm
11
Trang 22mốc thực tế Cụ thể gọi khoảng cách từ tâm khung chữ nhật dự đoán đến
điểm mốc trên thực tế là z Nếu r nhỏ hơn một ngưỡng ?z;;; thì chúng tôi
nói mô hình đã nhận diện chính xác J„„; được chọn tùy vào kích thước ảnh
của bộ đữ liệu
Chất lượng của mỗi mô hình khi áp dụng cho mỗi điểm mốc được
đánh giả bằng tý lệ độ chính xác: số ánh cá điểm mắc được nhận điện chính xác/tằng số ãnh được kiểm tra
'trong học máy, nhận dạng mẫu và xử lý ảnh, trích xuất đặc trưng là
một khải niệm chọn lọc ra các giá trị có ý nghĩa, không rườm rà - thừa thãi
từ một tập dữ liệu đã do đạc Các thông tin saư khi dược lựa chợn sẽ tạo
điêu kiện thuận lợi cho các bước học tập (của máy) và khái quát hóa Một
số trường hợp, thông qua trích xuất đặc trưng, máy tính có thể diễn giải về
đối tượng dược quan tâm tốt hơn con người
b) Sự quan trọng của 1rích xuất đặc trưng:
Trích xuất đặc trưng tir dé liệu đầu vào giúp tăng độ chính xác của
mồ hình đào tạo Giai doạn này làm giảm số chiều của dữ liệu thông qua
việc loại bổ đữ liệu đư thừa Diều nảy thực sụ hữu hiệu cho trực quan hóa
đữ liệu, chẳng hạn đấi với một lập đữ liệu phức tập có thể được hiển thị
một cách dễ dàng khi số chiều của nó được giảm xuống còn hai hoặc ba chiều Bởi vậy, tác vụ này tăng tốc độ huấn luyên và tốc độ suy luận của
mô hình Thêng qua việc kết hợp vả biến đổi tập các dặc trưng ban dẫu,
trích xuất đặc trưng tạo ra những đặc trưng mới có ich hơn Các đạng đặc
trưng được giữ lại thường thấy trong đữ liệu ảnh là màu sắc, hình dạng, kết
cấu hoặc giá trị pixeL
Trang 233 Ứng dụng
Một số ứng dụng của trích xuất đặc trưng có thể kể tới như phân tích
ngữ nghĩa tiềm ân, nén - giảm số chiều dữ liệu, phân tích và chiếu dữ liệu,
nhận diện mẫu Như đã đề cập ở phần trên, trích xuất tính năng cũng được
dùng để tăng cường tốc độ và hiệu quả của việc học có giảm sát
2.3.1.2 Nhận điện đổi tượng
Thị giác máy tính, như đã đề cập tới ở phần Đặt vẫn đề, là một trong
những lĩnh vực quan trọng của Trí tuê nhân tạo Thị giác máy tính bao gồm
các phương pháp thu nhận, xử lý ảnh kỹ thuật số, phân tích và nhân dạng
các hình ảnh, phát hiện các đối tượng, tạo ảnh, tăng cường đô phân giải - siêu phân giải
Nhân diện đối tượng là một tác vụ trong Thị giác máy tính, chỉ phương pháp tự động xác định vi trí của các đối tượng được quan tâm trong
một ảnh đầu vào Nhiệm vụ của nhận diện đối tượng, hiểu một cách đơn
giản là vẽ một khung chữ nhật bao quanh những vật thể cần xác định và
gắn nhãn cho các khung này cảng chính xác càng tốt (xem Hình 2.3),
Hình 2 3: ƯÍ dụ về nhận điện đổi tượng
2.3.2 Cầu trúc các mang backbone trong Học sâu
2.3.2.1 Faster R-CNN
a) R-CNN (Region with CNN feature)
Ý tưởng thuật toán R-CNN khá đơn giản.
Trang 24Bước 1: Dùng thuật toán tìm kiếm chọn loc dé lay ra khoảng 2000
bounding box trong input mà có khả năng chứa đối tượng Ảnh được phân
hình qua thuật toán phân đoạn hình ảnh dựa trên đồ thị
Đước 2: Với mỗi bounding box ta xác định xem nó là đối tượng nào
(người, ô tô, xe đạp, ) Sau đó các khu vực đề xuất được thay đổi lại về
cùng kích thước và thực hiện huấn luyên với feature extractor
Đầu tiên ảnh được phân hình qua thuật toán phân đoạn hình ảnh dựa
trên đô thị
Hình 2 4: Mô tả phân hình qua thuật toán tìm kiếm chọn lọc
Đầu vào của thuật toán là ảnh màu, Đầu ra là khoảng 2000 Vùng đề
xuất khu vực mà có khả năng chứa các đối tượng Đầu tiên ảnh được phân
hình qua thuật toán phân đoạn hình ảnh dựa trên đồ thị, vì thuật toán dựa
vào lý thuyết đồ thị và không áp dung deep learning Khong thé ding mdi
màu trong ảnh đầu ra để làm một vủng đề xuất khu vực được vi mỗi một
đối tượng có thể chứa nhiều màu, các đối tượng sẽ bị che mất một phần vi
thé cần phải nhóm các vùng màu với nhau để làm khu vực đề xuất các vùng màu được nhóm với nhau dựa trên độ tương đồng về màu sắc, hưởng
gradient, kích thước, Cuối củng các region proposal được xác định dựa
trên các nhóm vùng màu
14
Trang 25R-CNN: Regions with CNN features
‘warped region „/|setoblanerno |
Hinh 2 5: Phan logi khung hình đề xuất khu vực R-CNN
Do thuật toán tìm kiếm có chọn lọc cho tới 2000 đề xuất khu vực nên
có rất nhiều khu vực đề xuất không chứa đối tượng nào Vậy nên ta cần thêm 1 lớp background (không chứa đối tượng nào) Ví dụ như hình 2.5 ta
có 4 region proposal, ta sẽ phân loại mỗi bounding box là người, ngựa hay
background Sau đó các khu vực đề xuất được thay đổi lại về cùng kích
thước và thực hiên huấn luyện với feature extractor (trích xuất đặc trưng),
sau đó các extracted feature được cho vào thuật toán SVML để phân loại
ảnh Bên cạnh đó thì extracted feature cũng được dùng để dự đoán 4 giá trị
ba dip cho mỗi cạnh Ví dụ như khi khu vực đề xuất chứa người nhưng chi
có phần thân và nửa mặt nửa mặt còn lại không có trong khu vực đề xuất
đó thì offset value có thể giúp mở rộng khu vực đề xuất để lấy được toàn
bộ người
Van dé với R-CNN là hồi mới xuất hiên thì thuật toán hoạt động khá
tốt, đối với các thuật toán về computer vision trước đó nhờ vào ƠNN, tuy
nhiên nó vẫn có khá nhiều hạn chế: Vì với mỗi ảnh ta cần phân loại các lớp
cho 2000 khu vực đề xuất nên thời gian huấn luyện rất lâu Không thể áp
dụng cho thời gian thực vì mỗi ảnh trong tập kiểm tra mắt tới 47s để xử lý
Khoảng 1.5 năm sau đó, Fast R-CNN được giới thiệu bởi cùng tác
giả của R-ƠNN, nó giải quyết được một số hạn chế R-CNN để cải thiên tốc
đô
b) Fast R-CNN
Tương tự như R-ƠNN thì Fast R-CNN vin dùng thuật toán tìm kiếm
chọn lọc để ấy ra các khu vực đề xuất Tuy nhiên là nó không tách 2000
15
Trang 26khu vực đề xuất ra khỏi ảnh va thực hiện bải toán phân loại hình ảnh cho
mỗi ảnh Fast R-CNN cho cả bức ảnh vào ConvNet để tạo ra bản đồ đối
tượng khu vực Sau đó các vùng khu vực đề xuất được lấy ra tương ứng từ
bản đồ đối tượng khu vực
Rol feature feature map VÊCtOF ror each Ro
Hình 2 6: Kiến trúe của Fast R-CNN
Tiếp đó được gửi đến (FCs) để dự đoán lớp của khu vực đẻ xuất và
xác định giá trị bù đắp của khung hình Tuy nhiên là kích thước của các
khu vực đề xuất khác nhau vi thé FCs sé tạo ra các vector có kích thước
khác nhau nên không thể áp dung mang no ron được GO R-CNN thi di
resize các khu vực để xuất về củng kích thước trước khi ding transfer
learning Tuy nhiên ở tính năng bản đồ khu vực ta không thể resize được,
nên ta phải có cách khác để chuyên các khu vực đề xuất trong bản đồ khu vực về cùng kích thước => Region of Interest (ROI) pooling ra đời
ROI pooling là một dạng của pooling layer Điểm khác so với max
pooling hay average pooling là bất kể kích thước của tensor imput, ROI pooling luôn cho ra output có kích thước cố định được định nghĩa trước
Fast R-CNN khác với R-CNN là nó thực hiên tính năng bản đồ khu
vực với cả ảnh, sau đó mới lấy các khu vực đề xuất ra từ bản đồ khu vực,
còn R-CNN thực hiện tách các khu vực đề xuất ra rồi mới thực hiện phân loại ảnh trên từng khu vực đề xuất Do đó Fast R-CNN nhanh hơn đáng kể
nhờ tối ưu việc tính toán
16
Trang 27Test time (seconds
Training time (Hours) MB ring ag ( = )
oS SPPNet °
rạn non 12s
Hình 2 7: So sánh training time, test time giữa R-CNN va Fast R-CNN
'Tuy nhiên ở phần Test time voi muc Fast R-CNN thi théi gian tinh
khu vực đề xuất rất lâu và làm chậm thuật toán vì thế cần thay thế thuật toán tìm kiếm chọn lọc bằng Học sâu để tạo ra thuật toán tìm kiếm tối ưu
hon Faster R-CNN
c) Faster R-CNN
Faster R-CNN là mô hình tốt nhất của họ nhà R-CNN, công bố đầu
tiên vào năm 2015 Mô hình này được biết đến như là mô hình Nhận diện
gồm hai giai đoạn Giai đoạn thứ nhất sử dụng DNN để tìm ra vùng có đối
tượng Trong giai đoạn thứ hai, một mô hình Fast R-CNN sẽ xác định lớp
các thực thể từ những phân vùng có được sau giai đoạn đầu tiên
Faster R-CNN sử dụng | mang con gọi là RPN (Region Proposal Network) với mục đích trích xuất ra các vùng có khả năng chứa đối tượng
từ ảnh (hay còn gọi là Rol - Region of Interest), khác hoàn toàn với cách xử
lý của 2 mô hình anh em trước đó là R-CNN và Fast R-CNN.
Trang 28Location
0 Objectness Classification Faster RCNN
Tnput Extract Features Feature Projected Region Feature Maps: , Classification ñ
Hình 2 8: Kiến trúc của Faster R-CNN
Đâu tiên cả bức ảnh được cho qua pre-trained model dé lay feature map (bản đồ khu vực) Sau đỏ feature map được dùng cho Region Proposal
Nelwork để lắp được các region proposal Sau khi lấy được vị trí các
region proposal thì thực hiện tương tự Fast R-CNN Sau đỏ các vùng khu
vực đề xuất được lấy ra tương ứng từ bản đồ đối tượng khi vực
- Mạng đề xuất khu vực - RPN: RPN nhận đầu vào (input) là một
ảnh với kích thước bất kì và cho đầu ra (output) gdm mét tap vị trí của các hình chữ nhật có thể chứa vat thé (toa đô của các bounding-box) cùng với xác suất chứa vật thể của hình chữ nhật tương ứng