1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ

64 26 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 64
Dung lượng 5,12 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

HCM TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ SINH VIÊN NĂM 2021 Tên đề tài tiếng Việt: TÌM HIỂU PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG TRONG KHÔNG Ả

Trang 1

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BÁO CÁO TỔNG KẾT

ĐỀ TÀI KHOA HỌC VÀ CÔNG NGHỆ SINH VIÊN NĂM 2021

Tên đề tài tiếng Việt:

TÌM HIỂU PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG

TRONG KHÔNG ẢNH CHỨA SƯƠNG MỜ

Tên đề tài tiếng Anh:

UNDERSTANDING OBJECT DETECTION METHOD

FOR AERIAL HAZY IMAGES

Khoa/ Bộ môn: Công nghệ phần mềm

Thời gian thực hiện: 06 tháng

Cán bộ hướng dẫn: Ts Nguyễn Tấn Trần Minh Khang

Tham gia thực hiện

TT Họ và tên, MSSV Chịu trách

nhiệm Điện thoại Email

1. Trần Tuấn Minh Chủ nhiệm 0935723862 18520314@gm.uit.edu.vn

2. Trần Văn Bảo Tham gia 0327954919 18520499@gm.uit.edu.vn

Trang 2

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

Ngày nhận hồ sơ

Mã số đề tài

(Do CQ quản lý ghi)

BÁO CÁO TỔNG KẾT

Tên đề tài tiếng Việt:

TÌM HIỂU PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG

TRONG KHÔNG ẢNH CHỨA SƯƠNG MỜ

Tên đề tài tiếng Anh:

UNDERSTANDING OBJECT DETECTION METHOD

FOR AERIAL HAZY IMAGES

Trang 3

THÔNG TIN KẾT QUẢ NGHIÊN CỨU

1 Thông tin chung:

− Tên đề tài: Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứa sương mờ

− Chủ nhiệm: Trần Tuấn Minh

− Thành viên tham gia: Trần Văn Bảo

− Cơ quan chủ trì: Trường Đại học Công nghệ Thông tin

− Thời gian thực hiện: 06 tháng

2 Mục tiêu:

Trong phạm vi đề tài, chúng tôi sẽ tập trung giải quyết các vấn đề sau:

− Tìm hiểu tổng quan về các mạng học sâu đã được ứng dụng trên bài toán dựa trên các nghiên cứu đã có sẵn

− Tìm hiểu về bộ dữ liệu RESIDE và UAVDT-Benchmark-M

− Tìm hiểu về phương pháp FFA-Net để ứng dụng khử sương trong không ảnh và phương pháp PAA để thực hiện phát hiện đối tượng

− Tiến hành thực nghiệm dựa trên các phương pháp đã nghiên cứu trên bộ dữ liệu UAVDT-Benchmark-M

− Đánh giá kết quả thực nghiệm thu được

cũng chính là thách thức của nhiều nghiên cứu trên bộ dữ liệu chứa sương mờ

4 Tóm tắt kết quả nghiên cứu:

− Trình bày tổng quan bài toán phát hiện đối tượng trong không ảnh chứa sương mờ

− Trình bày tổng quan về phương pháp khử sương FFA-Net, phương pháp

Trang 4

áp dụng vào nhiều khía cạnh trong đời sống

7 Hình ảnh, sơ đồ minh họa chính

Cơ quan Chủ trì

(ký, họ và tên, đóng dấu)

Chủ nhiệm đề tài

(ký, họ và tên)

Trang 5

MỤC LỤC

DANH MỤC HÌNH i

DANH MỤC BẢNG iii

DANH MỤC TỪ VIẾT TẮT iv

TÓM TẮT 1

Chương 1 TỔNG QUAN ĐỀ TÀI 2

1.1 Động lực nghiên cứu 2

1.2 Phát biểu bài toán 2

1.3 Các thách thức 4

1.4 Mục tiêu và phạm vi nghiên cứu 5

1.5 Đóng góp của đồ án 5

1.6 Cấu trúc báo cáo đồ án 6

Chương 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN 7 2.1 Giới thiệu tổng quan 7

2.2 Computer Vision 8

2.3 Phát hiện đối tượng 10

2.3.1 Tổng quan 10

2.3.2 Phân loại 12

2.3.3 Ứng dụng 13

2.4 Phương pháp rút trích đặc trưng ảnh dựa trên học sâu 13

2.4.1 Mạng nơ-ron 13

2.4.1.1 Nơ-ron nhân tạo (perceptron) 13

2.4.1.2 Hàm kích hoạt (Activation function) 15

2.4.2 Mạng nơ-ron tích chập (Convolutional Neural Network) 16

Trang 6

2.4.2.1 Tầng tích chập (Convolution layer) 18

2.4.2.2 Tầng tổng hợp (Pooling layer) 19

2.5 Probabilistic Anchor Assignment with IoU Prediction for Object Detection (PAA) 20

2.6 Khử sương mờ đơn ảnh 22

2.7 Feature Fusion Attentoin Network (FFA-Net) 23

2.7.1.1 Khối kiến trúc cơ bản (Basic Block Structure) 25

2.7.1.2 Attention-based different levels Feature Fusion (FAA) 26

Chương 3 THỰC NGHIỆM VÀ ĐÁNH GIÁ 27

3.1 Dữ liệu thực nghiệm 27

3.1.1 Mô tả cơ bản 27

3.2 Mô tả thực nghiệm 29

3.2.1 Mô tả quy trình thực nghiệm 29

3.2.2 Cấu hình thực nghiệm 31

3.2.2.1 Cấu hình phần cứng 31

3.2.2.2 Cấu hình mô hình 31

3.3 Phương pháp đánh giá 32

3.3.1 Intersection over Union 32

3.3.2 Average Precision (AP) 33

3.3.3 Mean Average Precision (mAP) 34

3.4 Kết quả thực nghiệm và đánh giá 35

3.4.1 Kết quả thực nghiệm 35

3.4.1.1 Kết quả khử sương mờ 35

3.4.1.2 Kết quả phát hiện đối tượng 36

Trang 7

3.4.2 Đánh giá kết quả 37

Chương 4 ĐỀ XUẤT CẢI TIẾN VÀ ĐÁNH GIÁ KÉT QUẢ 39

4.1 Đề xuất cải tiến 39

4.2 Đánh giá kết quả đề xuất 39

4.2.1 Kết quả đề xuất 39

4.2.2 Trực quan hóa kết quả 40

4.3 Đánh giá kết quả 41

Chương 5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 43

5.1 Kết luận 43

5.2 Thuận lợi 43

5.3 Khó khăn 44

5.4 Hướng phát triển 44

TÀI LIỆU THAM KHẢO 45

PHỤ LỤC A – BÀI BÁO 47

Trang 8

DANH MỤC HÌNH

Hình 1-2: Bài toán phát hiện đối tượng trong không ảnh chứa sương mờ Đầu vào là

ảnh chụp từ trên không, đầu ra là vị trí và nhãn phương tiện giao thông 3

Hình 2-1: Mối quan hệ giữa AI, Machine Learning và Deep Learning 8

Hình 2-2: Sơ đồ mối liên hệ giữa các kĩ thuật trong Computer Vision 9

Hình 2-3: Các kỹ thuật Phát hiện đối tượng 11

Hình 2-4: So sánh sự mô hình two-stage (a) và one-stage (b) [8] 12

Hình 2-5: Cấu tạo nơ ron thần kinh 14

Hình 2-6: Kiến trúc một mạng nơ-ron nhân tạo cơ bản 15

Hình 2-7: Công thức và đồ thị của một số hàm kích hoạt 15

Hình 2-8: Minh họa Convolution Layer 18

Hình 2-9: Minh họa Pooling Layer 19

Hình 2-10: Minh họa Fully-connected layer 20

Hình 2-11: Một trường hợp về anchor được tính toán bằng mô hình detect và phân bố của chúng [7] 21

Hình 2-12: Bảng so sánh thực nghiệm phương pháp PAA và một số phương pháp khác của tác giả [7] 22

Hình 2-13: Kiến trúc mạng FFA-Net ttrong bài báo gốc [5] 24

Hình 2-14 Ảnh thể hiện mức độ hiệu quả của FFA-Net so với các phương pháp khử mờ khác trên bộ dữ liệu RESIDE [5] 24

Hình 2-15: Feature Attention module 25

Hình 2-16: Ảnh minh họa Khối kiến trúc cơ bản 26

Hình 3-1 Một số hình ảnh trong bộ dữ liệu RESIDE Outdoor Training Set (OTS) [14] 27

Hình 3-2: Biểu đồ phân chia bộ dữ liệu UAVDT-Benchmark-M 28

Hình 3-3: Một số ảnh trong bộ dữ liệu UAVDT-Benchmark-M [6] 28

Hình 3-4: Biểu đồ thống kế số các lớp đối tượng trong bộ dữ liệu UAVDT-Benchmark-M 29

Trang 9

Hình 3-5: Kiến trúc thực nghiệm Ảnh chứa sương mờ thông qua FFA-Net để khử sương mờ sau đó trở thành đầu vào của mô hình phát hiện đối tượng 30Hình 3-6: Công thức minh họa để tính IoU 32Hình 3-7: Precision and recall 34Hình 3-8: Ảnh kết quả khử sương mờ tốt sử dụng FFA-Net (a) Ảnh nguyên bản, (b) Ảnh đã khử sương mờ 35Hình 3-9: Ảnh kết quả khử sương mờ xấu sử dụng FFA-Net (a) Ảnh nguyên bản, (b) Ảnh đã khử sương mờ 36Hình 3-10: Ảnh kết quả phát hiện đối tượng trường hợp sử dụng tập dữ liệu huấn luyện gốc 36Hình 3-11: Ảnh kết quả phát hiện đối tượng trường hợp sử dụng tập dữ liệu huấn luyện khử sương mờ 37Hình 4-1: Ảnh kết quả khử sương loại trừ đối tượng truck 40Hình 4-2 Ảnh kết quả phát hiện đối tượng trên dữ liệu khử sương mờ loại trừ truck (a) Ground truth, (b) Khử sương toàn bộ ảnh, (c) Khử sương loài trừ truck 41

Trang 10

DANH MỤC BẢNG

Bảng 3.1: Bảng kết quả thực nghiệm phương pháp phát hiện đối tượng PAA Kết quả tốt nhất được in đậm 35Bảng 4.1: Bảng kết quả thực nghiệm với bộ dữ liệu huấn luyện được khử sương mờ loại trừ đối tượng truck phương pháp phát hiện đối tượng PAA Kết quả tốt nhất được in đậm 39

Trang 11

DANH MỤC TỪ VIẾT TẮT

AP Average Precision

mAP Mean Average Precision

IoU Intersection over Union

UAVDT Unmanned Aerial Vehicle Benchmark Object Detection and

TrackingUAV Unmanned Aerial Vehicle

CNN Convolutional Nơ-ron Networks

PAA Probabilistic Anchor Assignment with IoU Prediction for

Object Detection FFA-Net Feature Fusion Attention Network

Trang 12

TÓM TẮT

Trong thời kì số hóa, phát triển mạnh mẽ của trí thông minh nhân tạo, vai trò của dữ liệu ngày càng lớn Yêu cầu về sự phong phú, đa dạng của các bộ dữ liệu hình ảnh trong đó có hình ảnh được thu từ thiết bị bay không người lái cũng ngày càng tăng Tuy nhiên, sương mờ, khói bụi tồn tại trong khí quyển ảnh hưởng không nhỏ đến việc phát hiện đối tượng từ không ảnh Dễ thấy như sương mờ gây hạn chế tầm nhìn, làm sai lệch các thông số như màu sắc, tương phản,… Từ đó gây ảnh hưởng trực tiếp đến đặc trưng của các lớp đối tượng dẫn tới quá trình huấn luyện cũng như kết quả không đạt như mong đợi Đó là trở ngại của nhiều nghiên cứu trên bộ dữ liệu chứa sương mờ

Trong đồ án này, nhóm nghiên cứu xem xét hai giả thuyết: sương mờ là yếu

tố gây nhiễu đồng thời sương mờ là một phần đối tượng trong một số trường hợp Nhóm kết hợp loại bỏ sương mờ bằng Feature Fusion Attention Network (FFA-Net)

và phát hiện đối tượng bằng phương pháp Probabilistic Anchor Assigment (PAA) với những ưu điểm đặc thù để đánh giá hai giả thuyết trên Thông quá các thực nghiệm

mở rộng, nhóm nhận thấy việc loại bỏ sương mờ trên lớp car và giữ nguyên trên lớp truck giúp cải thiện kết quả phát hiện đối tượng lớp car lên đến 2,3% trên tập dữ liệu UAVDT-Benchmark-M

Kết quả nghiên cứu được đăng tại Hội nghị Khoa học Trẻ và nghiên cứu sinh

năm 2021 được tổ chức bởi trường Đại học Công nghệ thông tin: “MỘT PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG TRONG KHÔNG ẢNH CHỨA SƯƠNG MỜ”1.

1

Trang 13

https://khoahoctre.uit.edu.vn/trien-lam-khoa-hoc-cong-nghe-hoi-nghi-khoa-hoc-tre-va-nghien-cuu-Chương 1 TỔNG QUAN ĐỀ TÀI

1.1 Động lực nghiên cứu

Ngày nay - bối cảnh công nghệ phát triển vượt bậc, cải tiến không ngừng, cuộc sống con người được hỗ trợ về nhiều mặt khác nhau Các công việc quản lý quy mô lớn, yêu cầu tính toán phức tạp, độ chính xác cao, chi phí thực hiện lớn,… có thể kể tới như quản lý hệ thống giao thông, xác định phương tiện tham gia giao thông, cứu

hộ, cứu nạn ở các khu vực địa hình xấu,…

Từ đó đòi hỏi con người cũng cần có góc nhìn quan sát đa dạng, bao quát mà

cụ thể nhóm quan tâm đến đó chính là góc nhìn từ trên không Các ứng dụng thực tiễn áp dụng phát hiện đối tượng trong không ảnh có thể kể tới như thống kê số lượng phương tiện tham gia giao thông trên một tuyến đường, kiểm soát an ninh khu vực biên giới hay cập nhật tình hình các địa điểm xảy ra thiên tai,… Mặc dù công nghệ hiện đại giúp con người thu được hình ảnh tương đối dễ dàng từ thiết bị bay không người lái nhưng vẫn tồn tại khá nhiều thách thức Đặc biệt là trong điều kiện sương

mờ - vấn đề khá nhiều quốc gia phải đối mặt vì mật độ sương mờ từ khi quyển thời tiết xấu, khói bụi từ công nghiệp, cháy rừng,… Một khi trong ảnh chứa sương mờ sẽ dẫn tới các thông số của đối tượng như độ nét, màu sắc, tương phản,… không còn chuẩn xác Chính điều này ảnh hưởng đến quá trình huấn luyện phát hiện đối tượng mang vai trò trong lĩnh vực máy học nói riêng cũng như trí thông minh nhân tạo nói chung Tuy nhiên, với nỗ lực không ngừng của nghiên cứu khoa học đã tạo ra nhiều phương pháp hỗ trợ công việc nhằm giảm thiểu thách thức gặp phải trong lĩnh vực thị giác máy tính

Điều này đã thôi thúc nhóm thực hiện tìm hiểu, thử nghiệm, nghiên cứu đồ án

“Phát hiện đối tượng trong không ảnh chứa sương mờ”

1.2 Phát biểu bài toán

Phát hiện đối tượng là một trong những bước cốt lõi để phân tích các video được thu thập từ máy bay không người lái (UAV) mang tính ứng dụng thực tế cao

Trang 14

như các bộ phận cảm biến, camera an ninh, hệ thống cứu hộ Việc thực hiện trên không ảnh tồn tại những thách thức riêng do thay đổi góc quay làm cho dữ liệu đa dạng, phong phú Bên cạnh đó, bối cảnh phức tạp hơn bởi xuất hiện đối tượng khác như tòa nhà, bảng hiệu giao thông, cây cối Hình ảnh thu được với góc nhìn không giới hạn, độ phân giải thấp của video, các yếu tố như thời tiết, độ sáng, tốc độ, góc quay, mật độ các đối tượng hay vị trí đều ảnh hưởng đến kết quả phát hiện đối tượng Thực tế, sự tồn tại của khói, bụi, sương mờ trong khí quyển làm hình ảnh đầu vào bị

mờ, độ tương phản thấp, ảnh hưởng màu sắc gây ra nhiều khó khăn trong các tác vụ phân loại, theo dõi, nhận dạng con người, đặc biệt là phát hiện đối tượng

Trang 15

chứa sương mờ, gây hạn chế tầm nhìn, đầu ra bài toán là vị trí các phương tiện giao thông trong ảnh

Một số phương pháp thường được áp dụng cho bài toán khử sương phổ biến như GCA-Net [1], DCP [2], AOD-Net [3], Dehaze-Net [4] cho kết quả tốt Tuy nhiên, kết quả khử sương vẫn còn tồn tại sự sai lệch về màu sắc, độ tương phản Điều này

đã được khắc phục khi phương pháp FFA-Net [5] được công bố gần đây Nghiên cứu

đã chỉ ra được tác động của sương mờ trong bài toán phát hiện phương tiện giao thông

từ không ảnh

Nhóm đánh giá trên bộ dữ liệu chứa sương mờ chọn từ

UAVDT-Benchmark-M [6] chỉ ra rằng giả thuyết coi sương mờ như là một phần của đối tượng và không thực hiện khử sương vùng ảnh chứa đối tượng cho kết quả tốt trên lớp truck

1.3 Các thách thức

Bằng việc tham khảo, khảo sát về các bài toán phát hiện đối tượng trong không ảnh chưa sương mờ, nhóm nhận thấy thách thức của bài toán tương đối đáng kể, đến

từ nhiều hướng khác nhau

Thách thức mang yếu tố bên ngoài như điều kiện thời tiết xấu có thể ảnh hưởng trực tiếp đến chất lượng hình ảnh như mật độ sương mờ dày đặc che khuất đối tượng, ánh sáng phân bổ không đều gây hiệu suất phát hiện đối tượng thấp trong vài trường hợp, các khu vực địa hình mang đặc thù riêng, xuất hiện các vật thể che chắn các đối tượng,…

Thách thức mang yếu tố bên trong điển hình như các phương pháp vẫn còn tồn tại khuyết điểm, không thể khử sương mờ tối ưu, phát hiện đối tượng chưa chuẩn xác hay các bộ dữ liệu mang đặc thù khác nhau, đòi hỏi nhóm phải linh hoạt, thử nghiệm liên tục nhiều trường hợp để đạt kết quả mong muốn

Mặt khác, về khía cạnh dữ liệu, hình ảnh trong các bộ dữ liệu được chụp ở nhiều góc cạnh, điều kiện ánh sáng sáng khác nhau, mật độ của các yếu tố như sương

mờ, mưa, khói không đồng đều Từ đó dẫn đến hình ảnh bị suy giảm độ tương phản

Trang 16

và độ trung thực của màu sắc Điều này gây ảnh hưởng nghiêm trọng đến các tác vụ thị giác trong ảnh, đòi hỏi cần có kỹ thuật tiền xử lý ảnh và rút trích đặc trưng phù hợp Thách thức cốt lõi của bài toán này là làm thế nào để tăng độ chính xác khi nhận diện các đối tượng bị ảnh hưởng nặng nề bởi các yếu tố ngoại cảnh

Về ứng dụng thực tiễn, trong thực tế việc phát hiện đối tượng ở các ảnh bị ảnh hưởng bởi sương mờ vẫn còn nhiều khó khăn do phụ thuộc các yếu tố như mật độ, ánh sáng và tương phản của ảnh,… Do đó việc phát hiện đối tượng trên ảnh sương

mờ vẫn còn là vấn đề cần nghiên cứu thêm để đưa vào các ứng dụng thực tiễn

1.4 Mục tiêu và phạm vi nghiên cứu

Trong phạm vi nghiên cứu đồ án một, những mục tiêu chính được đặt ra như:

- Tìm hiểu tổng quan về các bài toán Phát hiện đối tượng trong không ảnh nói chung cũng như trong không ảnh chứa sương mờ nói riêng

- Tìm hiểu các kỹ thuật, phương pháp học sâu tiên tiến, có kết quả khả quan trên các bộ dữ liệu tương đồng

- Cài đặt thực nghiêm nhiều phương pháp khác nhau để có cái nhìn khái quát

về các phương pháp như FFA-Net, RepPoint, PAA,…

- Phân tích kết quả thực nghiệm, nghiên cứu đề xuất giúp cải thiện kết quả phát hiện đối tượng trong không ảnh chứa sương mờ

- Tổng hợp kết quả, phân tích đánh giá kết quả từ mô hình thực nghiệm và viết báo cáo

1.5 Đóng góp của đồ án

Đóng góp chính của nghiên cứu này bao gồm:

• Đề xuất việc kết hợp hai phương pháp tiên tiến FFANet [5] và PPA [7] cho việc pháp hiện phương tiện trong không ảnh chứa sương mờ trên

bộ dữ liệu UAV DT Benchmark-M [6]

Trang 17

• Tìm hiểu, trình bày lý thuyết cơ sở và các phương pháp liên quan trong bài toán, cài đặt, chạy thực nghiệm các phương pháp tiên tiến trên bộ

dữ liệu thực tế

• Cải tiến, hiệu chỉnh đạt kết quả khả quan trong việc phát hiện đối tượng trong không ảnh chứa sương mờ

Đóng góp 1 bài báo trong Hội nghị Khoa học Trẻ và nghiên cứu sinh năm

2021 được tổ chức bởi trường Đại học Công nghệ thông tin: “MỘT PHƯƠNG PHÁP PHÁT HIỆN ĐỐI TƯỢNG TRONG KHÔNG ẢNH CHỨA SƯƠNG MỜ”2.

1.6 Cấu trúc báo cáo đồ án

Báo cáo đồ án bao gồm 5 chương như sau

- Chương 1: Tổng quan đề tài Giới thiệu nội dung sơ lược bao gồm động

lực nghiên cứu, phát biểu bài toán, các thách thực, mục tiêu, phạm vi của nghiên cứu và đóng góp của đồ án

- Chương 2: Cơ sở lý thuyết và các nghiên cứu liên quan Trình bày phần

tìm hiểu về lý thuyết, các nghiên cứu, hướng tiếp cận trên thế giới

- Chương 3: Thực nghiệm và đánh giá Trình bày dữ liệu thực nghiệm quá

trình cài đặt thực nghiệm, , phương pháp đánh giá và phân tích kết quả

- Chương 4: Đề xuất cải tiến và đánh giá kết quả Trình bày các đề xuất

cải tiến sau khi quan sát kết quả, đánh giá các kết quả đề xuất và so sánh với kết quả của các mô hình mặc định trước đó

- Chương 5 Kết luận và hướng phát triển Tổng kết các kết quả quan trọng

đã đạt được trong đề tài và hướng phát triển của đề tài trong tương lai

2 sinh-nam-2021

Trang 18

https://khoahoctre.uit.edu.vn/trien-lam-khoa-hoc-cong-nghe-hoi-nghi-khoa-hoc-tre-va-nghien-cuu-Chương 2 CƠ SỞ LÝ THUYẾT VÀ CÁC NGHIÊN CỨU LIÊN QUAN

2.1 Giới thiệu tổng quan

Machine Learning là một lĩnh vực của Trí tuệ nhân tạo, liên quan tới việc nghiên cứu và xây dựng các thuật toán, mô hình cho phép các hệ thống có khả năng

"học" tự động từ dữ liệu để giải quyết những vấn đề cụ thể Nếu như trước kia, để giải quyết vấn đề, con người sử dụng dòng code để đưa những chỉ thị, hành động cụ thể cho máy tính thực hiện, thì nay chỉ với dữ liệu và các thuật toán, máy tính được huấn luyện và có thể tự mình đưa ra những quyết định hoặc dự đoán từ quá trình học hỏi Phương pháp này đưa ra kết quả nhanh, chính xác và hiệu quả, thậm chí còn tốt hơn con người rất nhiều nhờ áp dụng các thuật toán để phân tích, thống kê từ hàng trăm, hàng nghìn dữ liệu Nói tóm lại, Machine Learning là quá trình dạy máy tính

có khả năng học hỏi để hoàn thành một nhiệm vụ mà không cần kỹ thuật lập trình phức tạp

Machine Learning là ngành rất rộng về toán, gồm rất nhiều thuật toán và mỗi thuật toán có ứng dụng riêng tùy vào bài toán:

• Linear Regression

• Logistic Regresstion

• Decision Tree và Random Forest

• Support Vector Machines

Trang 19

những ứng dụng của Deep Learning đã và đang tạo ra những bước đột phá thực sự lớn

Hình 2-1: Mối quan hệ giữa AI, Machine Learning và Deep Learning3 Trong nghiên cứu này, nhóm tôi quyết định chọn lĩnh vực Thị giác máy tính (Computer Vision) – một nhánh nhỏ của Deep Learning để thực hiện nghiên cứu và ứng dụng cho bài toán “Phát hiện đối tượng trong không ảnh chứa sương mờ”

2.2 Computer Vision

Thị giác máy tính (Computer Vision) là một trong những lĩnh vực nổi bất nhất của Deep Learning Thị giác máy tính là một lĩnh vực khoa học giúp máy tính tập trung vào việc tái tạo và mô phỏng các phần phức tạp của hệ thống thị giác con người

và cho phép máy tính xác định và xử lý các đối tượng trong hình ảnh và video giống như cách con người làm

3 https://machinelearningcoban.com/2018/06/22/deeplearning/

Trang 20

Hình 2-2: Sơ đồ mối liên hệ giữa các kĩ thuật trong Computer Vision Một số kỹ thuật phổ biến trong Computer Vision gồm:

• Nhận diện vật thể (Object Recognition) là một kỹ thuật liên quan đến việc nhận dạng, xác định và định vị các đối tượng trong một bức ảnh với một mức độ tin cậy nhất định

• Phân loại hình ảnh (Image Classification) là một kỹ thuật liên quan đến việc

dự đoán lớp của một đối tượng trong một hình ảnh

• Định vị vật thể (Object Localization): là một kỹ thuật xác định vị trí của một hoặc nhiều đối tượng trong một hình ảnh và vẽ bounding box xung quanh chúng

• Phát hiện đối tượng (Object Detection): là một kỹ thuật kết hợp phân loại hình ảnh và định vị vật thể cho một hoặc nhiều đối tượng trong hình ảnh

• Phân đoạn đối tượng (Object Segmentation) là một kỹ thuật nhận dạng đối tượng bằng cách nổi bật các pixel cụ thể của đối tượng thay vì bounding box

• Chú thích ảnh (Image Captioning) là một kỹ thuật kết hợp giữa các kiến trúc mạng CNN vs LSTM để đưa ra các lý giải về hành động hoặc mô tả nội dung của một bức ảnh

Trang 21

Nhờ sự tiến bộ của khoa học và ứng dụng các thuật toán tiên tiến, chúng ta đã giúp máy tính có khả năng thu nhận hình ảnh, xử lý và hiểu hình ảnh để ứng dụng chúng trong mọi lĩnh vực xung quanh ta như:

• Nhận diện khuôn mặt trong các smartphone (Face ID)

• Kiểm tra các sản phẩm lỗi trong ngành công nghiệp sản xuất

• Hỗ trợ bác sĩ trong chuẩn đoán và điều trị bệnh ung thư dựa vào ảnh

• Nhận diện biển báo, người đi đường cho các xe tự lái

• Nhận diện cảm xúc để đánh giá hành vi mua hàng trong các cửa hàng

• Nhận biết trường hợp té ngã để kịp thời cấp cứu dựa vào phát hiện hành vi

dị thường của con người

2.3 Phát hiện đối tượng

2.3.1 Tổng quan

Phát hiện đối tượng (Object Detection) là một thuật ngữ chung để mô tả một tập hợp các nhiệm vụ thị giác máy tính có liên quan liên quan đến việc xác định các đối tượng trong ảnh kỹ thuật số Phát hiện đối tượng (Object Detection) kết hợp hai nhiệm vụ bao gồm phân loại hình ảnh (Classifier) và định vị vật thể (Object Localization) Trong đó, mỗi kĩ thuật sẽ có mục đích cũng như input và output khác nhau phù hợp cho từng mục đích sử dụng:

Trang 22

Hình 2-3: Các kỹ thuật Phát hiện đối tượng4

• Phân loại hình ảnh (Image Classification): Dự đoán nhãn của một đối

tượng trong một hình ảnh

o Input: Một hình ảnh với một đối tượng

o Output: Nhãn lớp (ví dụ: một hoặc nhiều số nguyên được ánh xạ tới nhãn lớp)

• Định vị đối tượng (Object Localization): Xác định vị trí hiện diện của các

đối tượng trong ảnh và cho biết vị trí của chúng bằng Bounding box

o Input: Một hình ảnh có một hoặc nhiều đối tượng

o Output: Một hoặc nhiều Bounding box được xác định bởi tọa độ tâm, chiều rộng và chiều cao

• Phát hiện đối tượng (Object Detection): Xác định vị trí hiện diện của các

đối tượng trong Bounding box và nhãn của các đối tượng nằm trong một hình ảnh

o Input: Một hình ảnh có một hoặc nhiều đối tượng

o Output: Một hoặc nhiều Bounding-box và nhãn cho mỗi Bounding-box

4

Trang 23

“https://robocademy.com/2020/05/01/a-gentle-introduction-to-yolo-v4-for-object-detection-in-• Phân đoạn thực thể (Instance Segmentation): Xác định đối tượng (nhãn)

và vị trí hiện diện của các đối tượng bằng cách làm nổi bật các pixel cụ thể của từng đối tượng thay vì các Bounding boxes

2.3.2 Phân loại

Hình 2-4: So sánh sự mô hình two-stage (a) và one-stage (b) [8]

Thuật toán Phát hiện đối tượng bao gồm 2 nhóm chính:

• Two-stage: bao gồm họ các mô hình R-CNN (Region-Based

Convolutional Neural Networks) như Fast R-CNN, Faster R-CNN, Mask R-CNN… Phương pháp này được gọi là two-stage vì model sẽ thực hiện 2 phần gồm trích chọn (extract) các vùng trên ảnh có khả năng chứa đối tượng (RoI) dựa vào các anchor box, sau đó sẽ thực hiện tiếp phân loại đối tượng và xác định vị trí nhờ vào việc chia làm 2 nhánh tại phần cuối của

mô hình (Classifier và Bounding-box Regression) Các mô hình này được dùng để giải quyết các bài toán định vị và nhận diện vật thể tĩnh (hình ảnh) khi ưu tiên độ chính xác hơn là tốc độ xử lý cho ra kết quả

Trang 24

• One-stage: hay còn gọi là single-stage bao gồm các mô hình họ YOLO,

SSD, Restina Phương pháp này được gọi là one-stage vì phần trích chọn các vùng đặc trưng không được sử dụng Các mô hình one-stage sẽ coi việc Phát hiện đối tượng như một bài toán hồi quy và dựa trên pre-define box hay còn gọi là anchor box để phát hiện đối tượng Các mô hình one-stage thường có 10 tốc độ nhanh hơn tuy nhiên độ chính xác thường kém hơn so với two-stage Các mô hình sử dụng thuật toán này thường được sử dụng cho các bài toán nhận dạng đối tượng, đặc biệt là các đối tượng real time như phát hiện đối tượng thông qua video quay từ drone

2.3.3 Ứng dụng

Phát hiện đối tượng đã được sử dụng rộng rãi để phát hiện khuôn mặt, phát hiện xe, đếm số người đi bộ, hệ thống bảo mật và xe không người lái Sự phát triển của các phương pháp phát hiện đối tượng không chỉ đem lại lợi ích cho ngành Công nghệ thông tin mà còn cho rất nhiều ngành nghề lĩnh vực khác như quân sự, y tế, hàng không,…

2.4 Phương pháp rút trích đặc trưng ảnh dựa trên học sâu

2.4.1 Mạng nơ-ron

2.4.1.1 Nơ-ron nhân tạo (perceptron)

Mạng nơ-ron nhân tạo (Artificial Neural Networks) hay gọi tắt Neural Networks (NNs) là mạng lưới thần kinh được liên kết đầy đủ giữa các lớp với nhau ANN xuất phát từ ý tưởng mô phỏng hoạt động của não bộ con người, cụ thể là nơ ron thần kinh

Trang 25

Hình 2-5: Cấu tạo nơ ron thần kinh5 Một mạng NN sẽ có 3 kiểu tầng:

Tầng vào (input layer): Là tầng bên trái cùng của mạng thể hiện cho các đầu vào của mạng

Tầng ra (output layer): Là tầng bên phải cùng của mạng thể hiện cho các đầu

Mạng nơ ron nhân tạo được ứng dụng cho rất nhiều lĩnh vực như: tài chính, giao dịch, phân tích kinh doanh, lập kế hoạch cho doanh nghiệp và bảo trì sản phẩm Neural Network còn được sử dụng khá rộng rãi cho những hoạt động kinh doanh khác như: dự báo thời tiết, và tìm kiếm các giải pháp nhằm nghiên cứu tiếp thị, đánh giá rủi ro và phát hiện gian lận Nhiều trường hợp còn sử dụng mạng nơ ron nhân tạo để thực hiện đánh giá và khai quật những cơ hội giao dịch dựa vào việc phân

5 https://cs231n.github.io/neural-networks-1/

Trang 26

tích dữ liệu lịch sử Mạng nơron còn được áp dụng rất phổ biến để phân biệt sự phụ thuộc giữa các phi tuyến lẫn nhau của đầu vào Đây là vấn đề mà các mô hình phân tích kỹ thuật khác không thể đáp ứng được

Hình 2-6: Kiến trúc một mạng nơ-ron nhân tạo cơ bản

2.4.1.2 Hàm kích hoạt (Activation function)

Hàm kích hoạt (Activation function) mô phỏng tỷ lệ truyền xung qua axon của một neuron thần kinh Trong một mạng nơ-ron nhân tạo, hàm kích hoạt đóng vai trò

là thành phần phi tuyến tại output của các nơ-ron

Hình 2-7: Công thức và đồ thị của một số hàm kích hoạt

Trang 27

Các hàm kích hoạt phổ biến như Sigmoid, Tanh, ReLU, Leaky ReLU, MaxOut,… Khi tìm hiểu về các cấu trúc mạng cụ thể, các activation khác nhau sẽ được sử dụng, tuỳ vào độ sâu của mạng, output mong muốn, thậm chí là dữ liệu của bài toán

2.4.2 Mạng nơ-ron tích chập (Convolutional Neural Network)

Hình 2-8 Một quy trình CNN phân loại chữ số viết tay6 Mạng nơron tích chập (còn gọi là ConvNet / CNN) là một thuật toán Deep Learning có thể lấy hình ảnh đầu vào, gán độ quan trọng cho các đặc trưng/đối tượng khác nhau trong hình ảnh và có thể phân biệt được từng đặc trưng/đối tượng này với nhau Công việc tiền xử lý được yêu cầu cho mạng nơron tích chập thì ít hơn nhiều

so với các thuật toán phân loại khác Trong các phương thức sơ khai, các bộ lọc được thiết kế bằng tay, với một quá trình huấn luyện để chọn ra các bộ lọc/đặc trưng phù hợp thì mạng nơron tích chập lại có khả năng tự học để chọn ra các bộ lọc/ đặc trưng tối ưu nhất

Kiến trúc của nơron tích chập tương tự như mô hình kết nối của các nơron trong bộ não con người và được lấy cảm hứng từ hệ thống vỏ thị giác trong bộ não (visual cortex) Các nơ-ron riêng lẻ chỉ phản ứng với các kích thích trong một khu

6 architecture/

Trang 28

https://www.analyticsvidhya.com/blog/2020/10/what-is-the-convolutional-neural-network-vực hạn chế của trường thị giác được gọi là Trường tiếp nhận (Receptive Field) Một tập hợp các trường như vậy chồng lên nhau để bao phủ toàn bộ khu vực thị giác

Trong mô hình CNN có 2 khía cạnh cần quan tâm là tính bất biến (Location Invariance) và tính kết hợp (Compositionality) Với cùng một đối tượng, nếu đối tượng này được chiếu theo các gốc độ khác nhau (translation, rotation, scaling) thì độ chính xác của thuật toán sẽ bị ảnh hưởng đáng kể Đó là lý do tại sao CNNs cho ra

mô hình với độ chính xác rất cao Cũng giống như cách con người nhận biết các vật thể trong tự nhiên

Mạng CNN sử dụng 3 ý tưởng cơ bản:

- Các trường tiếp nhận cục bộ (local receptive field):

Lớp này có nhiệm vụ tách lọc dữ liệu, thông tin ảnh và lựa chọn các vùng ảnh

có giá trị sử dụng cao nhất.Đầu vào của mạng CNN là một ảnh Ví dụ như ảnh có kích thước 28×28 thì tương ứng đầu vào là một ma trận có 28×28 và giá trị mỗi điểm ảnh là một ô trong ma trận Trong mô hình mạng ANN truyền thống thì chúng ta sẽ kết nối các neuron đầu vào vào tầng ảnh Tuy nhiên trong CNN chúng ta không làm như vậy mà chúng ta chỉ kết nối trong một vùng nhỏ của các neuron đầu vào như một filter có kích thước 5×5 tương ứng (28 - 5 + 1) 24 điểm ảnh đầu vào Mỗi một kết nối

sẽ học một trọng số và mỗi neuron ẩn sẽ học một bias Mỗi một vùng 5×5 đấy gọi là một trường tiếp nhận cục bộ

- Trọng số chia sẻ (shared weights)

Lớp này giúp làm giảm tối đa lượng tham số có tác dụng chính của yếu tố này trong mạng CNN Trong mỗi convolution sẽ có các feature map khác nhau và mỗi feature lại có khả năng giúp detect một vài feature trong ảnh

- Tổng hợp (pooling)

Lớp cuối cùng và có tác dụng làm đơn giản các thông tin đầu ra Có nghĩa là, sau khi đã hoàn tất tính toán và quét qua các lớp thì đến pooling layer để lược bớt các thông tin không cần thiết Từ đó, cho ra kết quả theo như ý mà người dùng mong muốn

Trang 29

Mạng nơ-ron tích chập (Convolutional Nơ-ron Networks - CNN) là một trong những phương pháp được áp dụng nhiều nhất trong lĩnh vực xử lý ảnh (Computer vision) để giải quyết các bài toán như nhận dạng hình ảnh, phân loại hình ảnh, phát hiện đối tượng, nhận diện khuôn mặt, …v.v

Mô hình CNN sẽ có kiến trúc gồm các tầng như sau: tầng tích chập (Convolution), tầng tổng hợp (pooling) dùng để trích xuất đặc trưng và tầng liên kết đầy đủ (fully connected) dùng để phân lớp đối tượng

7 https://www.sciencedirect.com/topics/mathematics/convolutional-layer

Trang 30

Đây là lớp quan trọng nhất của CNN, lớp này có nhiệm vụ thực hiện mọi tính toán Những yếu tố quan trọng của một tầng tích chập là: stride, padding, filter map, feature map CNN sử dụng các bộ lọc để áp dụng vào vùng của hình ảnh Những filter map này được gọi là ma trận 3 chiều, mà bên trong nó là các con số và chúng là trọng

số

2.4.2.2 Tầng tổng hợp (Pooling layer)

Sau tầng tích chập, tầng tổng hợp trích chọn đặc trưng và giảm số chiều cho

dữ liệu đầu vào Khi giảm số chiều, mô hình giảm số lượng tham số, rút ngắn được thời gian huấn luyện và hạn chế over-fitting Cũng như tầng tích chập, tầng tổng hợp

sử dụng bộ lọc trượt qua dữ liệu đầu vào để trích xuất đặc trưng cần thiết, nhưng các

bộ lọc ở đây sẽ không chứa tham số Các phương pháp phổ biến được sử dụng ở tầng tổng hợp là MaxPooling và AveragePooling Trong đó MaxPooling chỉ lấy giá trị cao nhất trong vùng của bộ lọc đi qua còn AveragePooling sẽ tính toán giá trị trung bình trong vùng bộ lọc đi qua

Hình 2-10: Minh họa Pooling Layer8 Kiến trúc của tầng liên kết đầy đủ tương tự kiến trúc của mạng nơ-ron nhân tao Kết quả đầu ra của tầng tích chập và tầng tổng hợp là các ma trận ở dạng hai chiều hoặc ba chiều Các ma trận trên sẽ được làm phẳng (Flatten) thành một vector

Trang 31

rồi mới được đưa vào tầng liên kết đầy đủ Lớp cuối cùng trong tầng liên kết đầy đủ chính là đầu ra cho bài toán

Ngoài ra, nếu như tầng liên kết đầy đủ có được dữ liệu hình ảnh thì chúng sẽ chuyển nó thành mục chưa được phân chia chất lượng Cái này khá giống với phiếu bầu rồi chúng sẽ đánh giá để bầu chọn ra hình ảnh có chất lượng cao nhất

Hình 2-11: Minh họa Fully-connected layer9

2.5 Probabilistic Anchor Assignment with IoU Prediction for Object Detection (PAA)

PAA [7] là phương pháp phát hiện đối tượng chỉnh sửa dựa trên kiến trúc RetinaNet Phương pháp này đề xuất cách gán anchor box mới cho quá trình huấn luyện của mô hình và chỉnh sửa hàm loss

Đối với hầu hết các phương pháp phát hiện đối tượng dựa trên CNN, một trong những cách được sử dụng nhiều nhất để biểu diễn các đối tượng đa dạng về kích thước và hình dáng là trượt anchor box với nhiều tỉ lệ và kích thước khác nhau trên ảnh Trong phương pháp này, quá trình gán anchor là quá trình xác định xem anchor cần phải tượng trưng cho đối tượng nào Phương pháp phổ biến nhất hiện nay để xác định là tính IoU giữa anchor và một ground truth.Với mỗi Ground Truth, một hay nhiều anchor được gán là positive nếu điểm IoU vượt qua một ngưỡng nhất định Tuy nhiên, phương pháp lại không xác định được nội dung thật sự của vùng trùng nhau, vùng này có thể chứa background,các đối tượng gần đó hay những phần ít ý nghĩa

9 https://nttuan8.com/bai-6-convolutional-neural-network/

Trang 32

trong việc phát hiện đối tượng.Từ đó giá trị IoU tính ra không phản ánh đúng được

sự tương đồng giữa anchor và ground truth

Hình 2-12: Một trường hợp về anchor được tính toán bằng mô hình detect

và phân bố của chúng [7]

PAA đề xuất giải quyết vấn đề này bằng cách sử dụng Probabilistic AnchorAssignment with IoU Prediction Các thử nghiệm cho thấy rằng các phương pháp được đề xuất đã tăng đáng kể hiệu suất phát hiện đối tượng trên bộ test-devCOCO

Phương pháp này mô hình hóa việc gán anchor như một thủ tục xác suất bằng tính toán điểm neo từ một mô hình phát hiện đối tượng và tối đa hóa khả năng những điểm số này cho một phân phối xác suất Điều này cho phép mô hình phân công một cách có xác suất và xác định một cách thích ứng các mẫu dương tính Cốt lõi của PAA là xác định mẫu dương tính và mẫu âm tính có lợi của mô hình để nó có thể suy

ra sự phân tách một cách hợp lý về mặt xác suất dẫn đến việc đào tạo dễ dàng hơn so với giả thuyết hay chiến lược phân công không theo xác suất

Để sắp xếp các đối tượng của việc chỉ định anchor được tối ưu hóa, phương pháp đề xuất dự đoán IoU của các detected box và sử dụng điểm số thống nhất của việc phân loại và bản địa hóa làm thước đo xếp hạng cho NMS Trên hết, phương pháp đề xuất phương pháp bỏ phiếu điểm như một phương pháp bổ sung hậu xử lý bằng cách sử dụng điểm số thống nhất để tăng hiệu suất hơn nữa

Ngày đăng: 20/04/2022, 09:26

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] D. Chen et al., “Gated context aggregation network for image dehazing and deraining,” in 2019 IEEE winter conference on applications of computer vision (WACV), 2019, pp. 1375–1383 Sách, tạp chí
Tiêu đề: et al.", “Gated context aggregation network for image dehazing and deraining,” in "2019 IEEE winter conference on applications of computer vision (WACV)
[2] K. He, J. Sun, and X. Tang, “Single image haze removal using dark channel prior,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 33, no. 12, pp. 2341–2353, 2010 Sách, tạp chí
Tiêu đề: Single image haze removal using dark channel prior,” "IEEE Trans. Pattern Anal. Mach. Intell
[3] B. Li, X. Peng, Z. Wang, J. Xu, and D. Feng, “Aod-net: All-in-one dehazing network,” in Proceedings of the IEEE international conference on computer vision, 2017, pp. 4770–4778 Sách, tạp chí
Tiêu đề: Aod-net: All-in-one dehazing network,” in "Proceedings of the IEEE international conference on computer vision
[4] D. Yang and J. Sun, “Proximal dehaze-net: A prior learning-based deep network for single image dehazing,” in Proceedings of the european conference on computer vision (ECCV), 2018, pp. 702–717 Sách, tạp chí
Tiêu đề: Proximal dehaze-net: A prior learning-based deep network for single image dehazing,” in "Proceedings of the european conference on computer vision (ECCV)
[5] X. Qin, Z. Wang, Y. Bai, X. Xie, and H. Jia, “FFA-Net: Feature fusion attention network for single image dehazing,” in Proceedings of the AAAI Conference on Artificial Intelligence, 2020, vol. 34, no. 07, pp. 11908–11915 Sách, tạp chí
Tiêu đề: FFA-Net: Feature fusion attention network for single image dehazing,” in "Proceedings of the AAAI Conference on Artificial Intelligence
[6] D. Du et al., “The unmanned aerial vehicle benchmark: Object detection and tracking,” in Proceedings of the European conference on computer vision (ECCV), 2018, pp. 370–386 Sách, tạp chí
Tiêu đề: et al.", “The unmanned aerial vehicle benchmark: Object detection and tracking,” in "Proceedings of the European conference on computer vision (ECCV)
[7] K. Kim and H. S. Lee, “Probabilistic anchor assignment with iou prediction for object detection,” in European Conference on Computer Vision, 2020, pp. 355–371 Sách, tạp chí
Tiêu đề: Probabilistic anchor assignment with iou prediction for object detection,” in "European Conference on Computer Vision
[8] P. Poirson, P. Ammirato, C.-Y. Fu, W. Liu, J. Kosecka, and A. C. Berg, “Fast single shot detection and pose estimation,” in 2016 Fourth International Conference on 3D Vision (3DV), 2016, pp. 676–684 Sách, tạp chí
Tiêu đề: Fast single shot detection and pose estimation,” in "2016 Fourth International Conference on 3D Vision (3DV)
[9] E. J. McCartney, “Optics of the atmosphere: scattering by molecules and particles,” New York, 1976 Sách, tạp chí
Tiêu đề: Optics of the atmosphere: scattering by molecules and particles,” "New York
[10] S. G. Narasimhan and S. K. Nayar, “Chromatic framework for vision in bad weather,” in Proceedings IEEE Conference on Computer Vision and Pattern Recognition. CVPR 2000 (Cat. No. PR00662), 2000, vol. 1, pp.598–605 Sách, tạp chí
Tiêu đề: Chromatic framework for vision in bad weather,” in "Proceedings IEEE Conference on Computer Vision and Pattern Recognition. CVPR 2000 (Cat. No. PR00662)
[12] B. Cai, X. Xu, K. Jia, C. Qing, and D. Tao, “Dehazenet: An end-to-end system for single image haze removal,” IEEE Trans. Image Process., vol Sách, tạp chí
Tiêu đề: Dehazenet: An end-to-end system for single image haze removal,” "IEEE Trans. Image Process
[13] W. Ren, S. Liu, H. Zhang, J. Pan, X. Cao, and M.-H. Yang, “Single image dehazing via multi-scale convolutional neural networks,” in European conference on computer vision, 2016, pp. 154–169 Sách, tạp chí
Tiêu đề: Single image dehazing via multi-scale convolutional neural networks,” in "European conference on computer vision
[14] B. Li et al., “Benchmarking single-image dehazing and beyond,” IEEE Trans. Image Process., vol. 28, no. 1, pp. 492–505, 2018 Sách, tạp chí
Tiêu đề: et al.", “Benchmarking single-image dehazing and beyond,” "IEEE Trans. Image Process
[15] K. Chen et al., “MMDetection: Open mmlab detection toolbox and benchmark,” arXiv Prepr. arXiv1906.07155, 2019 Sách, tạp chí
Tiêu đề: et al.", “MMDetection: Open mmlab detection toolbox and benchmark,” "arXiv Prepr. arXiv1906.07155

HÌNH ẢNH LIÊN QUAN

7. Hình ảnh, sơ đồ minh họa chính - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
7. Hình ảnh, sơ đồ minh họa chính (Trang 4)
Hình 2-1: Mối quan hệ giữa AI, MachineLearning và DeepLearning 3. Trong nghiên cứu này, nhóm tôi quyết định chọn lĩnh vực Thị giác máy tính  (Computer Vision) – một nhánh nhỏ của Deep Learning để thực hiện nghiên cứu và  ứng dụng cho bài toán “Phát hiện đ - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
Hình 2 1: Mối quan hệ giữa AI, MachineLearning và DeepLearning 3. Trong nghiên cứu này, nhóm tôi quyết định chọn lĩnh vực Thị giác máy tính (Computer Vision) – một nhánh nhỏ của Deep Learning để thực hiện nghiên cứu và ứng dụng cho bài toán “Phát hiện đ (Trang 19)
Hình 2-2: Sơ đồ mối liên hệ giữa các kĩ thuật trong Computer Vision. Một số kỹ thuật phổ biến trong Computer Vision gồm: - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
Hình 2 2: Sơ đồ mối liên hệ giữa các kĩ thuật trong Computer Vision. Một số kỹ thuật phổ biến trong Computer Vision gồm: (Trang 20)
Hình 2-3: Các kỹ thuật Phát hiện đối tượng4. - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
Hình 2 3: Các kỹ thuật Phát hiện đối tượng4 (Trang 22)
Hình 2-4: So sánh sự mô hình two-stage (a) và one-stage (b) [8]. Thuật toán Phát hiện đối tượng bao gồm 2 nhóm chính: - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
Hình 2 4: So sánh sự mô hình two-stage (a) và one-stage (b) [8]. Thuật toán Phát hiện đối tượng bao gồm 2 nhóm chính: (Trang 23)
Hình 2-5: Cấu tạo nơron thần kinh5. Một mạng NN sẽ có 3 kiểu tầng: - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
Hình 2 5: Cấu tạo nơron thần kinh5. Một mạng NN sẽ có 3 kiểu tầng: (Trang 25)
Hình 2-7: Công thức và đồ thị của một số hàm kích hoạt - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
Hình 2 7: Công thức và đồ thị của một số hàm kích hoạt (Trang 26)
Hình 2-6: Kiến trúc một mạng nơ-ron nhân tạo cơ bản. - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
Hình 2 6: Kiến trúc một mạng nơ-ron nhân tạo cơ bản (Trang 26)
Hình 2-8 Một quy trình CNN phân loại chữ số viết tay6. - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
Hình 2 8 Một quy trình CNN phân loại chữ số viết tay6 (Trang 27)
Mô hình CNN sẽ có kiến trúc gồm các tầng như sau: tầng tích chập (Convolution), tầng tổng hợp (pooling) dùng để trích xuất đặc trưng và tầng liên kết  đầy đủ (fully connected) dùng để phân lớp đối tượng - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
h ình CNN sẽ có kiến trúc gồm các tầng như sau: tầng tích chập (Convolution), tầng tổng hợp (pooling) dùng để trích xuất đặc trưng và tầng liên kết đầy đủ (fully connected) dùng để phân lớp đối tượng (Trang 29)
Hình 2-10: Minh họa Pooling Layer8. - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
Hình 2 10: Minh họa Pooling Layer8 (Trang 30)
Ngoài ra, nếu như tầng liên kết đầy đủ có được dữ liệu hình ảnh thì chúng sẽ chuyển nó thành mục chưa được phân chia chất lượng - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
go ài ra, nếu như tầng liên kết đầy đủ có được dữ liệu hình ảnh thì chúng sẽ chuyển nó thành mục chưa được phân chia chất lượng (Trang 31)
Hình 2-12: Một trường hợp về anchor được tính toán bằng mô hình detect và phân bố của chúng [7] - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
Hình 2 12: Một trường hợp về anchor được tính toán bằng mô hình detect và phân bố của chúng [7] (Trang 32)
Hình 2-13: Bảng so sánh thực nghiệm phương pháp PAA và một số phương pháp khác của tác giả [7] - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
Hình 2 13: Bảng so sánh thực nghiệm phương pháp PAA và một số phương pháp khác của tác giả [7] (Trang 33)
Hình 2-15 Ảnh thể hiện mức độ hiệu quả củaFFA-Net so với các phương pháp khử mờ khác trên bộ dữ liệu RESIDE [5] - Tìm hiểu phương pháp phát hiện đối tượng trong không ảnh chứ a sương mờ
Hình 2 15 Ảnh thể hiện mức độ hiệu quả củaFFA-Net so với các phương pháp khử mờ khác trên bộ dữ liệu RESIDE [5] (Trang 35)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w