Đồ án tốt nghiệp XÂY DỰNG HỆ THỐNG TÌM KIẾM TRONG CỨU HỘ SỬ DỤNG MÁY BAY KHÔNG NGƯỜI LÁI ỨNG DỤNG MẠNG HỌC SÂU YOLOv4

ĐỒ ÁN TỐT NGHIỆP SINH VIÊN NGUYỄN NHẬT ANH BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI KHOA ĐIỆN – ĐIỆN TỬ ĐỒ ÁN TỐT NGHIỆP XÂY DỰNG HỆ THỐNG TÌM KIẾM TRONG CỨU HỘ SỬ DỤNG MÁY BAY KHÔNG NGƯỜI LÁI ỨNG DỤNG MẠNG HỌC SÂU Giảng viên hướng dẫn TS NGÔ THANH BÌNH Sinh viên thực hiện NGUYỄN NHẬT ANH Lớp KỸ THUẬT ĐIỆN TỬ VÀ TIN HỌC CÔNG NGHIỆP Khoá KHÓA 56 Hà Nội, tháng năm BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI KHOA ĐIỆN – ĐIỆN TỬ ĐỒ ÁN TỐT NGHIỆP XÂY DỰNG HỆ THỐNG TÌM KIẾ.

Trang 1

TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI

KHOA ĐIỆN – ĐIỆN TỬ

ĐỒ ÁN TỐT NGHIỆP

XÂY DỰNG HỆ THỐNG TÌM KIẾM TRONG CỨU

HỘ SỬ DỤNG MÁY BAY KHÔNG NGƯỜI LÁI ỨNG

DỤNG MẠNG HỌC SÂU

Giảng viên hướng dẫn : TS NGÔ THANH BÌNH

Sinh viên thực hiện: NGUYỄN NHẬT ANH

Lớp : KỸ THUẬT ĐIỆN TỬ VÀ TIN HỌC CÔNG NGHIỆP

Khoá : KHÓA 56

Hà Nội, tháng năm

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC GIAO THÔNG VẬN TẢI

KHOA ĐIỆN – ĐIỆN TỬ

ĐỒ ÁN TỐT NGHIỆP

XÂY DỰNG HỆ THỐNG TÌM KIẾM TRONG CỨU

HỘ SỬ DỤNG MÁY BAY KHÔNG NGƯỜI LÁI ỨNG

DỤNG MẠNG HỌC SÂU

Giảng viên hướng dẫn : TS NGÔ THANH BÌNH

Sinh viên thực hiện: NGUYỄN NHẬT ANH

Lớp : KỸ THUẬT ĐIỆN TỬ VÀ TIN HỌC CÔNG NGHIỆP

Khoá : KHÓA 56

Hà Nội, tháng năm

Trang 3

LỜI CẢM ƠN

Em xin chân thành gửi lời cảm ơn tới toàn thể quý Thầy Cô trong khoa Điện

–Điện tử và Trường Đại học Giao thông vận tải Hà Nội đã tận tình truyền đạt những

kiến thức quý báu cũng như tạo mọi điều kiện thuận lợi nhất cho em trong quá trình

học tập để em có được những kiến thức như ngày hôm nay và từ những kiến thức nền

tảng đó đã giúp em rất nhiều quá trình hoàn thành đồ án tốt nghiệp

Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc đến Thầy giáo TS Ngô Thanh Bình

người đã hết lòng giúp đỡ, tạo mọi điều kiện để em học tập, nghiên cứu khoa học

cũng như hướng dẫn và tận tình chỉ bảo để giúp em có thể hoàn thành đồ án tốt nghiệp

này

Cuối cùng, tôi xin cảm ơn đến gia đình và bạn bè đặc biệt là các thành viên của

nhóm nghiên cứu: bạn Nguyễn Trọng Quý Anh, bạn Nguyễn Đình Trường, tại phòng

thí nghiệm bộ môn kỹ thuật điện tử đã luôn động viên, ủng hộ và giúp đỡ tôi trong

suốt quá trình học tập và hoàn thành tốt nghiệp

Hà Nội, ngày tháng năm 2019 Sinh viên

Nguyễn Nhật Anh

Trang 4

Phương tiện bay không người lái – Unmanned Aerial Vehicles (UAVs) đặc biệt là thiết bị bay không người lái, hay còn được gọi là ‘drone’, được trang bị thiết

bị ghi hình hoặc quan sát đã dần trở nên phổ biến những năm gần đây, với việc sử dụng rộng rãi trong nhiều ứng dụng hơn như chụp ảnh giám sát, quan sát và theo dõi đối tượng và khảo sát địa hình từ trên cao

Những ứng dụng thực tế này yêu cầu sử dụng kỹ thuật thị giác máy tính, đặc biệt là phát hiện và xác định vị trí của đối tượng từ thông tin hình ảnh của thiết bị ghi hình trên máy bay Cùng với sự phát triển của ngành trí tuệ nhân tạo những năm gần đây đã phát minh ra nhiều cấu trúc học sâu mạng tích chập hiện đại nhất – Convolutional Neural Networks (CNNs) được ứng dụng trong thị giác máy tính nhận dạng vật thể và xác định vị trí đối tượng trong hình ảnh Với tính ưu việt của việc ứng dụng công nghệ tiên tiến như trí tuệ nhân tạo vào trong ứng dụng phát hiện đối tượng,

em thực hiện đề tài: “Thiết kế hệ thống nhận dạng người từ trên cao sử dụng thiết bị bay không người lái trên cơ sở trí tuệ nhân tạo” Đề tài bao gồm những nội dung sau:

- Chương 1: Giới thiệu chung về hệ thống UAV – GCS và mạng học sâu

- Chương 2: Nhận dạng người từ trên cao sử dụng mạng học sâu YOLO

- Chương 3: Hệ thống nhận dạng người sử dụng thiết bị bay không người lái

và kết quả bay thử nghiệm

- Chương 4: Kết luận và hướng phát triển

Với những kiến thức đã được học và những kiến thức từ việc tự nghiên cứu từ các tài liệu tham khảo để hoàn thành cuốn đồ án này, nhưng không thể tránh khỏi nhiều thiếu sót trong lý thuyết Em rất mong các quý thầy cô thông cảm

Để hoàn thành cuốn đồ án này, em đã nhận được sự giúp đỡ rất nhiều từ thầy hướng dẫn cùng với các bạn trong nhóm nghiên cứu tại phòng thí nghiệm bộ môn kỹ thuật điện tử Em xin cảm ơn thầy giáo hướng dẫn TS Ngô Thanh Bình vì đã hướng dẫn em trong quá trình nghiên cứu và đã tạo điều kiện cho em được tiếp cận với những công nghệ mới

Em xin chân thành cảm ơn!

Sinh viên thực hiện

Trang 5

LỜI CẢM ƠN

LỜI NÓI ĐẦU

Trang

CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ HỆ THỐNG UAV-GCS

VÀ MẠNG HỌC SÂU 1

1.1 THIẾT BỊ BAY KHÔNG NGƯỜI LÁI 1

1.1.1 Ứng dụng của thiết bị bay VTOL UAV 2

1.1.2 Ứng dụng xử lý ảnh của UAV nhiều cánh quạt (Multicopter UAV) 4

1.2 TRẠM ĐIỀU KHIỂN MẶT ĐẤT 5

1.2.1 Phần cứng GCS 5

1.2.2 Phần mềm GCS 6

1.3 HỌC SÂU: DEEP LEARNING 7

1.3.1 Mạng nơ-ron nhân tạo 8

1.3.2 Mạng lưới thần kinh tích chập: Convolutional Neural Network 11

1.4 MẠNG PHÁT HIỆN ĐỐI TƯỢNG: OBJECT DETECTION 13

1.4.1 Mạng phát hiện đối tượng theo khu vực (Mạng phát hiện hai bước) 14

1.4.2 Mạng phát nhận dạng tượng một bước 16

CHƯƠNG 2: NHẬN DẠNG NGƯỜI TỪ TRÊN CAO SỬ DỤNG MẠNG HỌC SÂU YOLO 21

2.1 CẤU TRÚC VÀ PHƯƠNG THỨC HOẠT ĐỘNG CỦA MẠNG NHẬN DẠNG VẬT THỂ YOLO V 3 21

2.1.1 Cấu trúc mạng YOLOv3 21

2.1.2 Phương thức hoạt động 22

2.2 TRIỂN KHAI MẠNG YOLO V 3 SỬ DỤNG THƯ VIỆN HỌC SÂU PYTORCH 28

2.3 THU THẬP DỮ LIỆU HUẤN LUYỆN VÀ DÁN NHÃN 38

2.4 CẢI THIỆN ĐỘ CHÍNH XÁC CỦA YOLO V 3 39

2.5 HỌC CHUYỂN GIAO VÀ KẾT QUẢ 41

CHƯƠNG 3: HỆ THỐNG TÌM KIẾM NGƯỜI SỬ DỤNG THIẾT BỊ BAY KHÔNG NGƯỜI LÁI VÀ KẾT QUẢ BAY THỬ NGHIỆM 46

3.1 THIẾT KẾ THIẾT BỊ BAY UAV 46

3.1.1 Cấu hình phần cứng của UAV 46

3.1.2 Sơ đồ kết nối phần cứng thiết bị UAV 56

3.2 HỆ THỐNG NHẬN DẠNG NGƯỜI TỪ GCS 58

3.2.1 Tổng quan về hệ thống 58

3.2.2 Phương thức truyền hình ảnh trực tuyến sử dụng Gstreamer 59

3.3 HIỆU CHUẨN MÁY ẢNH 63

3.4 ĐIỀU KHIỂN BAY TỪ TRẠM GCS 65

3.4.1 Phương thức điều khiển tự động 65

3.4.2 Lưu đồ thuật toán điều khiển UAV 66

3.4.3 Điều khiển thiết bị bay UAV 68

Trang 6

3.5.1 Kết quả ứng dụng mạng học sâu để phát hiện người từ trên cao 70

3.5.2 Kết quả chế độ bay tìm kiếm 71

CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 75

4.1 KẾT LUẬN 75

4.2 VẤN ĐỀ CÒN TỒN TẠI 75

4.3 HƯỚNG PHÁT TRIỂN 75

PHỤ LỤC 76

DANH MỤC TÀI LIỆU THAM KHẢO 81

Trang 7

BẢNG 3.1 Số liệu hoạt động của động cơ Racestar 47 BẢNG 3.2 Thông số của Pin LiPO Tattu 3S 48 BẢNG 3.3.Thông số của thiết bị bay Quad X 57

Trang 8

HÌNH 1.1 Thiết bị bay cánh bằng và trực thăng nhiều động cơ 1

HÌNH 1.2 Máy bay flycam sử dụng trong quay phim 1

HÌNH 1.3 Máy bay không người lái trong ứng quân sự và dân sự 2

HÌNH 1.4 Ứng dụng thiết bị bay không người lá trong nông nghiệp 3

HÌNH 1.5 Flycam Skydio 2 sử dụng trí tuệ nhân tạo 4

HÌNH 1.6 Trụ sở trạm điều khiển mặt đất trong quân sự 5

HÌNH 1.7 Trạm điều khiển mặt đất di động 6

HÌNH 1.8 Phần mềm sử dụng trên GCS 6

HÌNH 1.9 Lĩnh vực Học sâu trong Trí tuệ nhân tạo 7

HÌNH 1.10 Hình ảnh tương quan giữa cấu trúc nơ-ron tự nhiên và nhân tạo 8

HÌNH 1.11 Sơ đồ mạng nơ-ron lan truyền thẳng 9

HÌNH 1.12 Sơ đồ thể hiện giá trị mất mát sau khi huấn luyện qua các gói dữ liệu 11

HÌNH 1.13 Cấu trúc của FCN và CNN 11

HÌNH 1.14 Ví dụ về bài toán phân loại ảnh sử dụng CNN 12

HÌNH 1.15 Ví dụ tích chập ảnh với bộ lọc 12

HÌNH 1.16 Cấu trúc mạng Fast R-CNN 14

HÌNH 1.17 Cấu trúc mạng FPN 16

HÌNH 1.18 Cấu trúc mạng SSD sử dụng mạng cơ sở VGG-16 17

HÌNH 1.19 Cấu trúc mạng YOLO phiên bản 1 17

HÌNH 1.20 Cách thức nhận dạng của YOLO 18

HÌNH 1.21 Quá trình nhận dạng của YOLO 19

HÌNH 1.22 Cấu trúc mạng RetinaNet 20

HÌNH 2.1 Biếu đồ so sánh thời gian xử lý và độ chính xác trung bình của các mạng nhận dạng 21

HÌNH 2.2 Cấu trúc mạng YOLO phiên bản 3 22

HÌNH 2.3 Ví dụ ảnh dữ liệu đầu vào 24

HÌNH 2.4 Các thuộc tính của hộp giới hạn dự đoán của YOLO v3 24

HÌNH 2.5 Vị trí của hộp dán nhãn và hộp anchor 25

HÌNH 2.6 Kết quả hộp anchor được biến đổi thành kết quả dự đoán cuối cùng 26

HÌNH 2.7 Mạng YOLOv3 thực hiện nhận dạng dữ liệu hình ảnh trên các tỷ lệ kích thước ảnh khác nhau 27

HÌNH 2.8 Cách xác định độ chính xanh theo vùng chồng chéo IoU và điểm số tự tin của YOLOv3 27

HÌNH 2.9 Biến đổi định dạng kết quả đầu ra 34

HÌNH 2.10 Máy bay Flycam của nhóm nghiên cứu 38

HÌNH 2.11 Một số dữ liệu hình ảnh trích xuất từ Flycam Mavic Mini 39

HÌNH 2.12 Phần mềm dán nhãn LabelImg 39

HÌNH 2.13 Cấu trúc mạng YOLOv3-SPP 40

HÌNH 2.14 Cấu trúc lớp SPP 41

HÌNH 2.15 Máy chủ linux của VastAI 43

HÌNH 2.16 Hình ảnh quá trình huấn luyện mạng yolo 43

HÌNH 2.17 Kết quả học chuyển giao 44

HÌNH 2.18 Kết quả chạy nhận diện người trên tập huấn luyện 44

Trang 9

HÌNH 2.20 Thông số độ chính xác trung bình học chuyển giao 45

HÌNH 2.21 Thông số độ chính xác tuyệt đối 45

HÌNH 3.1 Hình ảnh thực tế và bản vẽ của động cơ 47

HÌNH 3.2 Cánh quạt nhựa 1045 47

HÌNH 3.3 Pin LiPO Tattu 3S 1300mAh 48

HÌNH 3.4 Điều tốc ESC BLHeli-S RacerStar 49

HÌNH 3.5 Mạch điều khiển bay mã nguồn mở Pixhawk 49

HÌNH 3.6 Mô-đun định vị toàn cầu GPS M8n 51

HÌNH 3.7 Dữ liệu điện sóng mô-đun chia nguồn 52

HÌNH 3.8 Mô-đun chia nguồn 53

HÌNH 3.9.Webcam C170 sử dụng để truyền hình ảnh 54

HÌNH 3.10 Hình ảnh mặt trước và sau của máy tính nhúng Raspberry Pi 55

HÌNH 3.11 Sơ đồ kết nối phần cứng 56

HÌNH 3.12 Sơ đồ kết nối nguồn cho máy tính nhúng 56

HÌNH 3.13 Hình ảnh thiết bị bay chụp từ trên xuống 57

HÌNH 3.14 Một số hình ảnh của thiết bị bay UAV sau khi lắp ráp 57

HÌNH 3.15.Sơ đồ khối hệ thống nhận dạng 58

HÌNH 3.16 Wifi kết nối chung ubiquityrobotE95B 59

HÌNH 3.17 Máy tính cá nhân được sử dụng làm trạm điều khiển mặt đất 59

HÌNH 3.18 Qui trình truyền dữ liệu của GStreamer 60

HÌNH 3.19.Qui trình truyền dữ liệu hình ảnh về trạm 61

HÌNH 3.20 Truyền hình ảnh từ UAV (trái) và nhận dữ liệu ở GCS (phải) sử dụng Gstreamer 62

HÌNH 3.21 Qui trình nhận dữ liệu hình ảnh từ thiết bị bay 62

HÌNH 3.22 Các ứng dụng của việc hiệu chuẩn hình ảnh máy ảnh 63

HÌNH 3.23 Quá trình hiệu chuẩn máy ảnh 63

HÌNH 3.24 Phương thức điều khiển thiết bị bay từ trạm mặt đất 65

HÌNH 3.25 Lưu đồ thuật toán điều khiển UAV 66

HÌNH 3.26 Lưu đồ thuật toán điều khiển tìm kiếm người 67

HÌNH 3.27 Cách thức tìm sai lệch điểm ảnh trung tâm 68

HÌNH 3.28 Tính góc sai lệch phương ngang bằng fov 69

HÌNH 3.29 Độ chính xác và thời gian chạy của các mạng học sâu 70

HÌNH 3.30 Một số kết quả phát hiện người của mạng YOLOv3-spp-uav 71

HÌNH 3.31 Tọa độ bay của chế độ tìm kiếm cứu nạn 72

HÌNH 3.32 UAV cất cánh tự động 72

HÌNH 3.33 UAV hạ cánh tự động sau khi hoàn thành nhiệm vụ 72

HÌNH 3.34 Một số hình ảnh phát hiện người từ hình ảnh trực tiếp hiển thị tại GCS 73

HÌNH 3.35 Hình ảnh vị trí vệ tinh (a) và vị trí thực tế (b) 73

Trang 10

STT Từ viết tắt Từ tiếng Anh Nghĩa tiếng Việt

1 AI Artificial Intelligent Trí tuệ nhân tạo

5 GCS Ground Control Station Trạm điều khiển mặt đất

6 GPU Graphics Processing Unit Bộ xử lý hình ảnh

7 IoU Intersection over Union Vùng chồng lấn

8 MMF Multimedia Framework Thư viện đa phương tiện

Suppression Ức chế giá trị không cực đại

10 ROI Region of Interest Vùng chú ý

11 UAV Unmanned Aerial Vehicle Phương tiện bay không người lái

12 SSD Single Shot Multibox

Trang 11

CHƯƠNG 1: GIỚI THIỆU CHUNG VỀ HỆ THỐNG

UAV-GCS VÀ MẠNG HỌC SÂU

Thiết bị bay không người lái (UAV) hay còn được gọi là Máy bay không người lái, là tên gọi chung cho các loại máy bay mà không có người điều khiển trong buồng lái, có khả năng bay tự động hoặc bán tự động dưới sự giám sát từ trạm trung tâm hoặc trạm điều khiển mặt đất UAV được thiết kế dưới hai dạng UAV cánh bằng và UAV trực thăng nhiều động cơ, thậm chí là lai cả hai loại

HÌNH 1.1 Thiết bị bay cánh bằng và trực thăng nhiều động cơ

Ngày nay các thiết bị bay không người lái còn được sử dụng như một giải pháp

bổ sung cho các thiết bị vệ tinh hoặc thiết bị trên không, đặc biệt là cho các khu vực có phạm vi phủ sóng yếu hoặc không thể tiếp cận Nhờ vào khả năng thu thập dữ liệu hình ảnh EHR (Extremely high image spatial resolution - độ phân giải không gian hình ảnh cực cao) nhanh và chi tiết mà UAVs cũng được biết đến như một công cụ có khả năng hoạt động đa chức năng đa ứng dụng nhiệm

vụ với chi phí thấp

HÌNH 1.2 Máy bay flycam sử dụng trong quay phim

Trang 12

Thiết bị bay UAV đã và đang được quan tâm và nghiên cứu rất nhiều về mô hình động học phức tạp và cũng như các giải pháp để điều khiển như điều khiển PID Về các ứng dụng của trí tuệ nhân tạo lên thiết bị bay với mục đích sản các thiết bị rẻ hơn, hoạt động và có thể đáp ứng các ứng dụng mở rộng tốt hơn Như các ứng dụng với mục đích quân sự hay dân sự, từ theo dõi, trinh sát cho đến tìm kiếm và giải cứu

1.1.1 Ứng dụng của thiết bị bay VTOL UAV

Trong những năm gần đây, UAVs đã được phát triển cho những mục đích quân sự nhưng nhờ tiềm năng phát triển to lớn nên thiết bị UAV dần được đưa vào sử dụng trong các ứng dụng dân sự

Ngày nay, UAVs được tìm thấy trong nhiều lĩnh vực và phạm vi ứng dụng từ kiểm soát môi trường đến giám sát khu công nghiệp lớn Hơn nữa kể từ khi thiết

bị UAVs đã chứng mình được khả năng bay vượt trội và chính xác trong việc thu thập thông tin, ưu điểm của công nghệ này đã có được sự quan tâm và trở thành mục tiêu nghiên cứu của rất nhiều trung tâm nghiên cứu, doanh nghiệp công nghệ cao

HÌNH 1.3 Máy bay không người lái trong ứng quân sự và dân sự

Với sự linh hoạt và các ưu điểm vượt trội mà UAV có được đã giúp nó trở thành một công cụ đắc lực cho nhiều ứng dụng, đặc biệt là trong những nhiệm

vụ khó khăn mà con người khó có thể thực hiện Có thể kể đến những thành tựu đáng kể của thiết bị bay trong các ứng dụng thuộc lĩnh vực nông nghiệp Bằng việc sử dụng rất nhiều cảm biến ngoại vi, như cảm biến nhiệt và cảm biến đa chức năng, kết hợp với hình ảnh độ phân giải cao của UAV cho phép cung cấp giải pháp trồng trọt

Trang 13

HÌNH 1.4 Ứng dụng thiết bị bay không người lá trong nông nghiệp

Người nông dân giờ đây họ có khả năng kiểm soát các thông tin cụ thể hơn như độ ẩm của đất hoặc bệnh cây trồng, trong tài liệu [1] Zhang và cộng sự đã trình bày tổng quan đầy đủ về việc khai thác UAV cho ứng dụng nông nghiệp công nghệ cao Trong tài liệu [2], thiết bị UAV được sử dụng với mạng cảm biến không dây cho ứng dụng phun thuốc trừ sâu được miêu tả như sau: Quĩ đạo bay của UAV được điều khiển bởi mạng điều khiển mặt đất, quĩ đạo được quyết định nhờ vào dữ liệu nồng độ thuốc trừ sâu trong không khí mà mạng cảm biến đo được Thiết bị UAVs còn được sử dụng như một thiết bị viễn thám môi trường, dung để đo chất lượng không khí, nước và mặt đất Ví dụ trong một ứng dụng rất hay được nêu trong tài liệu [3], tác giả đã sử dụng hình ảnh của máy ảnh tầm nhiệt để phát hiện ếch trong cánh đồng nhờ đó để tránh giết hại loài ếch khi sử dụng máy cắt cỏ

Trong xây dựng dân dụng và giao thông vận tải, các máy bay không người lái

có thể sử dụng để khảo sát khu vực giúp các kỹ sư có thể nắm bắt được tình hình tổng quát khu vực quy hoạch Ngoài ra hệ thống này có thể để sử dụng để khảo sát hay quản lý các công trình dân dụng, các công trình giao thông vận tải từ xa

Ví dụ như khảo sát đập thủy điện giúp các kỹ sư có thể quan sát những nơi khó chạm đến nhất, nó có thể quét và phát hiện vết nứt và có thể cứu khỏi thảm họa

vỡ đập Hiện nay, trên thế giới đang có rất nhiều hãng lớn đã và đang phát triển ứng dụng của UAV và thương mại hóa như Riegl, DJI, Yellow Scan, Phoenix, ScanSolution Nhưng tại Việt Nam do chính sách, qui định quản lý về UAVs còn

thắt chặt nên việc phát triển công nghệ này vẫn còn là một hạn chế

Trang 14

1.1.2 Ứng dụng xử lý ảnh của UAV nhiều cánh quạt (Multicopter UAV)

Một trong những đặc điểm ưu việt của thiết bị bay UAVs đó chính là khả năng thu thập thông tin ngay lập tức mà không gây ảnh hưởng đến sự an toàn của người dân bởi nó được kiểm soát từ trạm điều khiển mặt đất Ưu điểm này làm cho UAV trở nên chuyên biệt trong cho các ứng dụng giám sát và giải cứu khẩn cấp Ví dụ, trong tài liệu [4], các tác giả mô tả thuật toán để lập ra quĩ đạo bay để khai thác hình ảnh hồng ngoại, qua đó theo dõi chu vi cháy rừng để có được thông tin về sự lan rộng của đám cháy

HÌNH 1.5 Flycam Skydio 2 sử dụng trí tuệ nhân tạo

Trong một ứng dụng khác sử dụng để giám sát, trong tài liệu [5] nhóm tác giả

đã nghiên cứu phương pháp tự động phát hiện người nằm trên mặt đất bằng hình ảnh truyền từ UAV sử dụng trí tuệ nhân tạo Ở một nghiên cứu về vấn đề giám sát khác được trình bày trong [6] trong đó tác giả đề xuất phương pháp tiếp cận với vấn đề bằng cách sử dụng phân loại Haar Cascade để phát hiện người treo thời gian thực

Mới đây, cả thiết bị bay quay phim chụp ảnh thương mại Skydio 2 của hãng skydio họ cũng đã sử dụng trí tuệ nhân tạo trong việc bắt chước hành vi quay phim chuyên nghiệp, skydio 2 thậm chí còn có thể tự động tránh vật cản trong khi bay theo đối tượng người để quay phim và chụp ảnh

Qua các nghiên cứu đó, ta có thể thấy rằng với việc sử dụng mô hình mạng nơ-ron học sâu của công nghệ trí tuệ nhân tạo vào thông tin hình ảnh từ thiết bị bay UAVs có thể giúp giải quyết rất nhiều vấn đề trong nhiều lĩnh vực khác nhau

từ an ninh, giải cứu, y tế, giao thông vận tải

Trang 15

1.2 TRẠM ĐIỀU KHIỂN MẶT ĐẤT

Trạm điều khiển mặt đất, (Ground Control Station - GCS) là trung tâm điều hành tại mặt đất hoặc trên biển, mà nó cung cấp cở sở vật chất cho người điều khiển thiết bị bay không người lái VTOL UAV (hoặc Drone) [7] GCS được phát triển cho mục đích điều khiển và giám sát, cũng như thu nhận hình ảnh theo thời gian thực trong khi vận hành thiết bị UAV Trạm điều khiển GCS bao gồm hai thành phần: phần cứng và phần mềm

HÌNH 1.6 Trụ sở trạm điều khiển mặt đất trong quân sự

1.2.1 Phần cứng GCS

Phần cứng của trạm điều khiển mặt đất thường bao gồm hệ thống phần cứng của trạm điều khiển dùng để điều khiển thiết bị bay không người lái UAV Hệ thống này thường bao gồm phần giao tiếp giữa người và máy, máy tính có bộ xử

lý đồ họa GPU, thiết bị đo từ xa Telemetry truyền bằng song RF, thiết bị truyền song không dây Wifi, ăng-ten song RF định hướng, thiết bị nhận và lưu trữ hình ảnh, cần điều khiển khiển đa hướng để điều khiển yaw, pitch, roll của thiết bị bay UAV, màn hình hiển thị Đối với những thiết bị bay không người lái UAV cỡ nhỏ, người ta thường sử dụng máy tính laptop xách tay đựng vào trong vali để làm trạm GCS xách tay, nên có thể chủ động di chuyển tới các địa điểm khác nhau để triển khai hoạt động trạm điều khiển trên mặt đất

Trang 16

HÌNH 1.7 Trạm điều khiển mặt đất di động

Tuy nhỏ gọn đựng trong vali nhưng trạm điều khiển GCS xách tay có thể đi kèm với máy tính cấu hình cao chạy phần mềm GCS, cùng với video và dữ liệu trạng thái của thiết bị bay UAV được hiển thị với hai màn hình chống lóa và phủ lớp chống chói giúp hiển thị tốt hơn dưới trời nắng

1.2.2 Phần mềm GCS

Phần mềm GCS thường được chạy trên trạm máy tính của trạm điều khiển GCS và được sử dụng để hiển thị dữ liệu trạng thái như góc nghiêng, độ cao, tốc

độ bay của thiết bị bay UAV như buồng lái ảo Ngoài ra, phần mềm GCS hiển thị

dữ liệu định vị và quĩ đạo bay của thiết bị bay UAV trên bản đồ, người dùng có thể thể khai báo các điểm đặt cho nhiệm vụ bay

HÌNH 1.8 Phần mềm sử dụng trên GCS

Trang 17

1.3 HỌC SÂU: DEEP LEARNING

Học sâu (có tên viết tắt tiếng anh là DL – Deep Learning) là một nhánh của học máy (Machine Learning – ML), còn học máy là thuật ngữ để chỉ một phương pháp huấn luyện máy tính trở nên thông minh hơn, tạo nên trí tuệ nhân tạo (Artificial Intelligence – AI)

HÌNH 1.9 Lĩnh vực Học sâu trong Trí tuệ nhân tạo

Kỹ thuật học sâu được ứng dụng vào rất nhiều ngành công nghiệp bao gồm xe hơi tự hành, phát hiện các bệnh lý trong ứng dụng y học, công nghệ điện toán đám mây, nhận diện giọng nói và các ứng dụng trí tuệ Cũng như các thuật toán học máy, học sâu cũng dựa trên các thuật toán phức tạp và kỹ thuật xác suất thống

kê Một số loại mạng nơ-ron nhân tạo phổ biến như mạng tích chập Convolutional Neural Networks (CNN) và mạng nơ-ron hồi qui Recurrent Neutral Netwrok (RNN) là những ứng dụng của kỹ thuật học sâu hiện đại – mạng lưới này mô phỏng tương tự như mạng lưới thần kinh của con người Mỗi một loại mạng nơ-ron được sử dụng vào ứng dụng phức tạp khác nhau như: bài toán phân loại, hay bài toán dự đoán Ví dụ, nhận diện hình ảnh và nhận diện khuôn mặt người ta sẽ sử dụng mạng tích chập CNN, trong khi xử lý ngôn ngữ tự nhiên – Natural Language Processing (NLP) thì người ta lại sử dụng mạng hồi qui RNN

Trang 18

1.3.1 Mạng nơ-ron nhân tạo

1.3.1.1 Mạng nơ-ron nhân tạo

Mạng lưới thần kinh nhân tạo là các mô hình tính toán tuy được ra đời cách đây hơn 60 năm về trước nhưng sự khởi đầu mạnh mẽ của nó mới chỉ diễn ra vào những năm của đầu thế kỷ 20 Và mạng nơ-ron nhân tạo đã trở thành một trong những trụ cột căn bản nhất của ngành điện toán hiện đại chỉ với một số chứng minh của mô hình đơn giản ban đầu Nơ-ron học máy tuy là một hàm nhưng nó lại có cấu tạo dựa trên mô hình cấu trúc như của nơ-ron sinh học

HÌNH 1.10 Hình ảnh tương quan giữa cấu trúc nơ-ron tự nhiên và nhân tạo

Tương tự như trong mô hình sinh học, các xung thần kinh được truyền qua sợi trục thần kinh với một tỷ lệ nào đó, thì ở mô hình học máy khi mô phỏng lại cũng

có một hàm phi tuyến được sử dụng để điều chỉnh tỉ lệ đầu ra sao cho càng giống

dữ liệu đầu vào Hàm đó được gọi là hàm kích hoạt (activation function), có rất nhiều loại hàm kích hoạt có thể kể đến như Sigmoid, ReLU, Tanh Trong đó hàm Leaky ReLU là một trong các hàm kích hoạt được sử dụng phổ biến trong nhiều nghiên cứu những năm gần đây do hàm này khắc phục được hạn chế được “vùng chết” của hàm ReLU

Đầu ra của một “đơn vị” nơ-ron được tính qua công thức (2) hàm tuyến tính

Trang 19

Trong đó 𝑥𝑖 là dữ liệu đầu vào thứ 𝑖𝑡ℎ, 𝑤𝑖 là trọng số của nơ-ron, 𝑏 là nhiễu bias, 𝜎 là hàm kích hoạt

Mạng truyền thẳng nhiều lớp là mô hình mạng lưới nơ-ron nhân tạo được tạo bởi một tập hợp của các nơ-ron Mỗi nơ-ron sẽ chứa một hàm kích hoạt, tùy thuộc vào dữ liệu đầu vào mà mạng lưới sẽ tính toán ra một đầu ra bằng cách áp dụng hàm kết hợp (3) Kiến trúc của mạng nơ-ron bao gồm 3 loại lớp nơ-ron: lớp đầu vào (input layer), lớp ẩn (hidden layer) và lớp đầu ra (output layer) Lớp đầu vào

là nơi dữ liệu được đưa vào hệ thống, phần lớp ẩn là nơi dữ liệu được tính toán

và được kết nối với nhau thông qua các lớp ẩn Mỗi mạng nơ-ron có thể chứa nhiều lớp ẩn, và trong mỗi lớp ẩn 𝑙 đó sẽ bao gồm một tập các node nơ-ron 𝑁(𝑙)

HÌNH 1.11 Sơ đồ mạng nơ-ron lan truyền thẳng

Gọi lớp 𝑙 = 0 là lớp đầu vào, và lớp đầu ra là 𝑙 = 𝐿 − 1, gọi 𝑤𝑗𝑘𝑙 là trọng số kết nối từ node thứ i của lớp 𝑙 − 1 đến node thứ j của lớp 𝑙 Tương tự ta có hệ số bias của node thứ j trong lớp 𝑙 là 𝑏𝑗𝑙, và ta có ma trận hệ số 𝑊𝑙 giữa hai lớp 𝑙 − 1

và lớp 𝑙, ma trận này có kích thước l(k−1)∗ lk Ta tính được tổng hàm tuyến tính của lớp l qua công thức (3) sau:

zil = ∑lj=1(l−1)aj(l−1)∗wji(l)+ bi(l) (3) Rồi áp dụng hàm kích hoạt: ai(l)= σ(zil) (4) Cuối cùng ta sẽ có hàm kích hoạt cho lớp l: al = σ(Wlal−1+ bl) (5)

Trang 20

1.3.1.2 Hàm mất mát và Gradient

Mục tiêu của bài toán khi huấn luyện mạng học sâu là tìm được tham số 𝜃 =(𝑊, 𝑏) dựa trên tập dữ liệu huấn luyện mà ta đưa vào mô hình và dữ liệu đầu ra (𝑥𝑛, 𝑡𝑛), sao cho giảm sai lệch giữa đầu ra của mạng huấn luyến và dữ liệu thực (dữ liệu đã được dán nhãn) Nói cách khác là ta phải làm giảm giá trị của hàm mất mát 𝐶(𝜃) Ví dụ như trong mạng phát hiện vật thể YOLO có sử dụng hàm mất mát sai số toàn phương trung bình (Mean Squared Error Loss Function) để tính giá trị sai lệch tọa độ đầu ra của mạng huấn luyện và giá trị thực của hộp giới hạn (bounding box) Hàm mất mát MSE được viết theo công thức sau:

Để giảm dần giá trị hàm mất mát và tìm hệ số trọng số 𝑊 tối ưu, theo thuật toán giảm độ dốc ta sẽ tính độ dốc gradient của hàm mất mát theo hệ số 𝑊 bằng đạo hàm

độ và rất khó cập nhật được giá trị tối ưu giúp giá trị của hàm là nhỏ nhất

Trang 21

HÌNH 1.12 Sơ đồ thể hiện giá trị mất mát sau khi huấn luyện qua các gói dữ liệu

Giá trị học hợp lý sẽ làm cho giá trị mất mát giảm dần theo thời gian huấn luyện qua các Epoch như trong hình 1.12 Epoch là một tham số để chỉ việc hoàn thành huấn luyện toàn bộ dữ liệu huấn luyện, khi đã hoàn thành bước lan truyền tiến và lan truyền ngược để cập nhật hệ số

1.3.2 Mạng lưới thần kinh tích chập: Convolutional Neural Network

Mạng lưới thần kinh tích chập được tạo ra để giải quyết vấn đề về số lượng tham số rất lớn giữa các nốt của các lớp ẩn trong mạng lưới thần kinh kết nối đầy

đủ Trong mạng lưới thần kinh chuyển đổi, các lớp ẩn được thay đổi bằng các lớp tích chập, tại các lớp ẩn sẽ sử dụng ô tích chập để thực hiện phép tính tích chập lên toàn bộ dữ liệu bức ảnh đầu vào, hay nói cách khác là các pixel chia sẻ

hệ số với nhau

HÌNH 1.13 Cấu trúc của FCN và CNN

Nếu như trong mạng kết nối đầy đủ ta có lớp đầu vào, các lớp ẩn và lớp đầu

ra Ở trong mạng tích chập các nơ-ron được sắp xếp thành 3 chiều: chiều rộng, chiều cao, độ sâu Đây là một thiết kế rất phù hợp cho bài toán phân loại dữ liệu

Trang 22

đầu vào là dữ liệu ảnh có kích thước chiều cao x chiều rộng x 3 kênh màu Lục-Lam) Các nơ-ron trong mạng tích chập không kết nối đầy đủ từng nốt mà chỉ kết nối một vùng nhỏ của lớp tích chập trước đó, liên kết này được gọi là vùng lĩnh hội

(Đỏ-Cấu trúc của mạng tích chập bao gồm đầu vào,→ lớp tích chập → hàm kích hoạt ReLU → Lớp đầu ra, được mô tả trong hình ví dụ dưới đây:

HÌNH 1.14 Ví dụ về bài toán phân loại ảnh sử dụng CNN

Ô tích chập có kích thước n x n sẽ được áp dụng lên toàn bộ dữ liệu ảnh, nó sẽ lần lượt dịch cửa sổ bộ lọc qua từng pixel lần lượt từ trái qua phải, từ trên xuống dưới với bước nhảy (stride) thường là 1, do kết quả của tích chập sẽ cho ra kích thước nhỏ hơn nên nhờ việc thêm padding = 1 sẽ thêm vào các cột và hàng xung quanh dữ liệu ảnh các giá trị bằng không để giúp đầu ra bảo toàn được kích cỡ Sau mỗi lớp tích chập, ta sẽ thu được bản đồ đặc tính trừu tượng (feature map), bản đồ đặc tính trừu tượng sẽ cho ta biết thông tin đặc trưng của ảnh như viền của vật thể nếu như ta cho tích chập ảnh với cửa sổ bộ lọc viền, khi trượt qua ảnh đầu vào những pixel trung tâm sẽ có giá trị lớn nhất, và những pixel xung quanh

sẽ tối đi khi đó nó sẽ để lại những pixel trung tâm, đó chính là viền của vật thể như trong ảnh 1.15 dưới đây

HÌNH 1.15 Ví dụ tích chập ảnh với bộ lọc

tích chập

Trang 23

Sau khi có được bản đồ đặc tính trừu tượng, áp dụng hàm kích hoạt (như Leaky ReLU, ReLU, Sigmoid) để có được các thông tin trừu tượng rõ ràng hơn cho các lớp tiếp theo Tiếp theo, để giảm khối lượng tính toán và giúp cải thiện thời gian học, ta sử dụng lớp tổng hợp Max Pooling, ngoài ra nó còn giúp tránh vấn đề thừa ăn khớp (overfitting) Và cuối cùng lớp đầu ra sẽ sử dụng lớp kết nối đầy

đủ, để biến đổi các đặc trưng trừu tượng 3 chiều thành một véc-tơ một chiều để đưa ra kết quả xác xuất tương ứng với mỗi đặc trưng của từng đối tượng cần phân loại

Phát hiện đối tượng là làm nhiệm vụ xác định một hoặc nhiều đối tượng hiện diện trong cùng một hình ảnh Việc phát hiện đối tượng bao gồm hai phần cụ thể

là phân loại và xác định vị trí Đây là một thách thức trong bài toán này vì phải phân loại đối tượng mà còn phải xác định chính xác vị trí tất cả các đối tượng có trong hình ảnh cùng với việc phát hiện sự hiện diện của chúng Phát hiện đối tượng là một trong số ứng dụng quan trọng, bởi nhiều nhiệm vụ cần sự giám sát của con người có thể tự động hóa bằng cách phát hiện các đối tượng trong hình ảnh Phát hiện đối tượng về cơ bản là phân loại và định vị các đối tượng, gắn nhãn cho chúng bằng các hộp hình chữ nhật để thể hiện điểm tin cậy của dự đoán Mạng phát hiện vật thể đầu tiên được gọi là “Mạng Overleaf” [9], sử dụng Mạng thần kinh chuyển đổi (CNN) kết hợp với sliding windows cửa sổ trược để phân loại từng hình ảnh này có đối tượng hoặc không đối tượng, sau đó kết hợp các kết quả lại với nhau để thực hiện dự đoán Nhờ thành tựu của Overleaf khi sử dụng CNN để giải quyết bài toán phát hiện vật thể mà nó đã giúp thúc đẩy sự phát triển của nhiều mô hình mạng khác tốt hơn ra đời

Trong những năm gần đây, rất nhiều mạng state-of-the-art phát hiện đối tượng

đã được đề xuất bởi cộng đồng học sâu DL, như Faster R-CNN [10], YOLO [11], R-FCN [12], SSD [13] và RetinaNet [14] Mục tiêu chính của các thiết kế này là cải thiện độ chính xác phát hiện theo mAP và độ phức tạp trong tính toán của các

mô hình giúp cải thiện thời gian xử lý, để có thể đạt được hiệu suất thời gian thực cho các nền tảng nhúng và di động Các mô hình mạng phát hiện vật thể này có thể được chia thành hai loại dựa trên kiến trúc của chúng: 1) phương pháp tiếp

Trang 24

cận một bước và 2) phương pháp hai bước (dựa trên khu vực – region based) Cách tiếp cận một bước có tốc độ chạy nhanh hơn và cho thấy hiệu quả bộ nhớ cao hơn trong khi cách tiếp cận hai bước tuy đạt được độ chính xác mAP tốt hơn

nhưng lại tốn bộ nhớ hơn để chạy

1.4.1 Mạng phát hiện đối tượng theo khu vực (Mạng phát hiện hai bước)

Mạng phát hiện đối tượng theo khu vực được chia làm hai bước Bước thứ nhất là tạo các phân vùng trong ảnh mà khả năng đối tượng cần phát hiện sẽ nằm trong đó Bước thứ hai sẽ thực hiện việc phát hiện đối tượng và phân loại đối tượng đó là vật gì dựa theo đầu vào phân vùng được tạo ở bước thứ nhất Có thể

kể đến một số nghiên cứu như R-CNN, Fast R-CNN, FPN và R-FCN

1.4.1.1 Mạng R-CNN nhanh

Mạng Fast R-CNN [10] là mạng cải thiện từ R-CNN, cấu trúc của mạng bao gồm mạng CNN và hai phần SVM dùng cho phân loại và hồi quy Mạng Fast R-CNN đã cải thiện nhược điểm sử dụng quá nhiều tài nguyên bộ nhớ của R-CNN bằng cách chỉ chạy CNN chỉ một lần trên toàn bộ ảnh để tạo ra đặc tính trừu tượng Sau đó họ cắt vùng đặc trưng tạo nên vùng ROI đặc trưng, tọa độ của vùng ROI đặc trưng thu được thông qua “Tìm kiếm chọn lọc”, chính vì điều này giúp cho mạng fast R-CNN giảm được cả thời gian chạy và khối lượng tính toán Ngoài ra Fast R-CNN còn đưa ra phương pháp cho phép các đầu ra phân loại và hồi quy được huấn luyện đồng thời như trong hình 1.16

HÌNH 1.16 Cấu trúc mạng Fast R-CNN

Mạng Fast-RCNN tối ưu tốc độ và tài nguyên hơn R-CNN Thời gian huấn luyện giảm từ 84 giờ xuống 9 giờ và thời gian chạy từ 47 giây xuống 0,32 giây Hàm mất mát dễ huấn luyện hơn và tránh được vấn đề “Nổ” Gradient (Exploding Gradient) Nổ gradient là hiện tượng khi sai số gradient dần bị tích lũy và ngày

Trang 25

càng tăng dâng lên giá trị rất lớn khiến cho mạng học sâu trở nên bất ổn định Không những thế giá trị của trọng số trở nên lớn hơn bất thường còn làm gia tang các tham số tính toán, khiến cho tài nguyên bộ nhớ bị tràn dữ liệu

1.4.1.2 Mạng trích xuất đặc tính trừu tượng hình kim tự tháp

Một loại mạng nữa rất hiệu quả trong việc nhận dạng vật thể, lấy cảm hứng từ kim tự tháp mạng nhận dạng vật thể hai bước Feature Pyramid Network (FPN) Tính bất biến tỷ lệ là một trong những vấn đề mà các mạng R-CNN, Fast R-CNN, Faster R-CNN không giải quyết được

Một mạng nhận diện vật thể tốt có thể kích thước vật thể trên ảnh tùy biến, như vật ở xa thì kích thước của vật trên ảnh sẽ nhỏ, vật ở gần thì kích thước của vật trên ảnh sẽ to hơn Mạng FPN [15] đã xử lý được vấn đề này bằng cách tạo

ra các đặc tính trừu tượng trích xuất dữ liệu đặc trưng từ dữ liệu ảnh với các tỷ

lệ kích thước khác nhau, do đó các khung giới hạn mẫu không cần đảm nhiệm phần tỉ lệ kích thước của vật thay đổi trên dữ liệu ảnh nữa

Lớp mạng sử dụng tích chập sẽ lấy các đầu vào thông qua các kích thước ảnh

để tạo các đặc tính trừu tượng tại các kích thước tương ứng đó Các đặc tính trừu tượng đó sẽ được lấy ra ở lớp cuối của mỗi lớp tỉ lệ kích thước, vậy nên đặc tính trừu tượng ở lớp sâu nhất là đặc tính trừu tượng chứa nhiều dữ liệu đặc trưng nổi bật nhất của vật thể trong ảnh Mỗi đặc tính trừu tượng được đưa qua tích chập

có kích thước cửa sổ 1x1 để tạo độ sâu kênh đến C = 256 Sau đó các bản đồ này

sẽ bổ sung các chi tiết vào bản dữ liệu gần kề có tỷ lệ kích thước lớn hơn của tỷ

lệ hiện tại, như trong hình 1.17

Quá trình này được gọi là liên kết kế bên, sau khi quá trình được thực hiện ở các mức tỷ lệ, đặc tính trừu tượng cuối cùng sẽ được tạo ra bằng việc đưa bản đồ đặc trưng đã được cập nhật qua tích chập có kích thước cửa sổ 3x3 Sau khi hoàn thành bước một tạo ra các đặc tính trừu tượng, bước hai tác giả cho chạy mạng nhận diện vật thể Faster R-CNN lên từng mức tỷ lệ kích thước

Trang 26

HÌNH 1.17 Cấu trúc mạng FPN

1.4.2 Mạng phát nhận dạng tượng một bước

Mạng phát hiện đối tượng một bước có kiến trúc giản đơn và thời gian xử lý của mạng cũng nhanh hơn, với độ chính xác có thể chấp nhận được khi so sánh với các loại mạng phát hiện đối tượng hai bước dựa theo vùng Các mạng phát hiện đối tượng một bước gần giống với mạng phát hiện đối tượng hai bước RPN, nhưng thay vì dự đoan vật hay không phải là vật, mạng phát hiện đối tượng một bước thì dự đoán phân loại vật thuộc lớp nào và cũng xác định vị trí tọa độ của

vật trong ảnh Một số mạng phát hiện đối tượng một bước hiện đại như SSD, YOLO và RetinaNet

1.4.2.1 SSD: Single Shot Multibox Detection

SSD [13] là mạng nhận dạng đối tượng có đầu ra là một tập hợp nhận dạng cùng kích thước mà kết quả có giá trị lớn nhất sẽ được lựa chọn, và giá trị đó được coi là giá trị tượng trưng cho độ tin tưởng đối tượng được nhận diện đó thuộc lớp vật nào Cấu trúc của mạng SSD ở những lớp đầu sử dụng cấu trúc từ các mạng bài toán phân loại như CNN, VGG-16, ResNet để làm mạng cơ sở, hay còn được biết đến như phần xương sống cho mạng học sâu nhận dạng đối tượng

Ở lớp cuối của phần mạng cơ sở đó, lớp kết nối đầy đủ sẽ được bỏ đi, cuối cùng kết quả ở phần xương sống sẽ là đặc tính trừu tượng của dữ liệu ảnh đầu vào

Trang 27

Trong tài liệu [13] tác giả đã sử dụng mạng VGG-16 với một số chỉnh sửa để cấu trúc hoạt động nhanh hơn mà không làm giảm đáng kể động chính xác sau đó Sau đó họ thêm một tập hợp các lớp mạng tích chập ở cuối mạng cơ sở để giảm dần kích thước ảnh, đồng thời chp phép trích xuất thêm đặc điểm đặc trưng ở các

tỷ lệ kích thước khác như như trong hình 1.18 Mỗi bản đồ trích xuất đặc trưng

có kích thước m * n * p

HÌNH 1.18 Cấu trúc mạng SSD sử dụng mạng cơ sở VGG-16

HÌNH 1.19 Cấu trúc mạng YOLO phiên bản 1

Trong đó m * n là số lượng ô đặc trưng trong bản đồ và p là độ sâu của véc-tơ đặc trưng cho mỗi ô Đặc tính trừu tượng của mỗi lớp được sử dụng vào hai việc: thứ nhất là đưa vào lớp tiếp theo, hai là được trực tiếp sử dụng để dự đoán vật thể Đối với mỗi ô, người ta có thể xuất số lượng đầu ra dự đoán cố định (ví dụ

4 đầu ra) liên quan đến vị trí của ô trong ảnh, cho phép các hộp giới hạn có kích thước và vị trí khác nhau Ma trận điểm ảnh ở các lớp ban đầu có kích thước m*n rất lớn sẽ được chi ra thành nhiều phần nhỏ để dự đoán vật thể nhỏ hơn Những cải tiến chính của SSD đã vượt qua YOLO là nó có khả năng tích chập hoàn toàn,

có phát hiện ở nhiều kích thước tỷ lệ khác nhau Với mạng CNN, các lớp được kết nối đầy đủ là cực kỳ tốn kém vì chúng đòi hỏi một số lượng lớn các kết nối như vậy làm chậm đáng kể việc tính toán SSD chỉ sử dụng các lớp tích chập có

Trang 28

nghĩa là nó có thể sử dụng tất cả các tính toán bổ sung đó để tập trung vào số lượng phát hiện lớn hơn nhiều cho từng vị trí trong ảnh Trong hình 1.19, chúng

ta thấy rằng YOLO đưa ra chỉ có 98 dự đoán cho mỗi lớp trong khi SSD có thể tính ra 8732 dự đoán với thời gian xử lý gần bằng nhau Điều này mang lại cho SSD một lợi thế rất lớn khi phát hiện các đối tượng có kích thước khác nhau và khiến lỗi vị trí giảm đáng kể

1.4.2.2 YOLO: You Only Look Once

YOLO [11] là một phương pháp của Đại học Washington, giới thiệu một mạng lưới đơn sắc dự đoán các hộp giới hạn và phân loại của chúng trực tiếp từ một hình ảnh có kích thước đầy đủ Mục tiêu của mạng là chỉ nhìn vào mọi phần của

hình ảnh một lần, do đó có tên You Only Look Once – tạm dịch là “Bạn chỉ nhìn một lần” Để nhận ra điều này, nhóm tác giả đã bắt đầu bằng việc chia hình ảnh

thành một lưới 7x7 trong đó mỗi ô có trách nhiệm dự đoán Đầu tiên, họ dự đoán một nhóm nhỏ các hộp giới hạn mà mỗi hộp có ô là trung tâm của chúng Số lượng dự đoán cho mỗi ô là một hằng số nhỏ, trong bài báo được đặt giá trị bằng

2 Thứ hai, là nó sẽ dự đoán các giá trị độ tin cậy cho mỗi hộp giới hạn Điều này phản ánh mức độ chắc chắn của mạng YOLO là hộp giới hạn đó bao phủ một số đối tượng

HÌNH 1.20 Cách thức nhận dạng của YOLO

Nếu ô không chứa bất kỳ đối tượng nào, nó vẫn sẽ đề xuất cùng một bộ các hộp giới hạn, nhưng giá trị độ tin cậy sẽ thấp hơn so với các hộp giới hạn ở ô có chứa đối tượng Bằng cách kết hợp các kết quả từ mỗi ô 7x7, chúng ta sẽ có được thứ gì đó trông rất giống với dự đoán của khung giới hạn được mô tả trong các

Trang 29

phương thức CNN, nhưng ít trùng lặp hộp giới hạn với nhau hơn So với CNN có khoảng 2000 hộp giới hạn có thể phân loại riêng lẻ, YOLO hiện có 7x7x2 = 98 (2 hộp dự đoán cho mỗi ô trong lưới) với các giá trị độ tin cậy tương ứng Tiếp theo, mạng YOLO sẽ cố gắng phân loại từng hộp giới hạn Điều này không được thực hiện bằng cách chạy riêng cho từng hộp, mà chạy tính trên cho từng ô Bởi vì mọi hộp giới hạn được đặt ở giữa một trong các ô, chúng ta có thể giả định rằng đối tượng sẽ nằm trong hộp giới hạn giống như đối tượng được xác định cho ô Đầu ra cuối cùng sau đó là tất cả các hộp giới hạn với các giá trị độ tin cậy và xác suất cho từng lớp tương ứng Để tìm các hộp chính xác và các lớp của chúng, YOLO đặt ngưỡng cho các giá trị độ tin cậy để loại bỏ tất cả các hộp xác suất hay độ tin cậy thấp hơn Quá trình YOLO được hiển thị trong hình 1.21

R-HÌNH 1.21 Quá trình nhận dạng của YOLO

Đầu ra đặc tính trừu tượng của YOLO có kích thước 7x7x(x+1+5*k) trong đó

k là số lượng ô giới hạn định trước (anchor box), (x+1) là tổng số lượng các đối tượng bao gồm cả lớp nền, còn số 5 ở đây là chỉ giá trị của hộp giới hạn (x,y,height,width) và giá trị điểm tin cậy Mặc dù mạng YOLO có thời gian xử

lý cho tốc độ khung hình gần theo thời gian thực, nhưng nó lại có những giới hạn như số lượng dự đoán hộp giới hạn vì mỗi ô lưới chỉ dự đoán hai hộp giới hạn và chỉ có một đối tượng được dự đoán trong đó

1.4.2.3 RetinaNet

RetinaNet [14] là mạng nhận dạng vật thể một bước có cấu trúc mạng cơ sở FPN và hai mạng con để phân loại đối tượng và hồi quy Mạng cơ sở tạo đặc tính trừu tượng bằng cách tính tích chập lên toàn bộ dữ liệu ảnh đầu vào tương tự như

Trang 30

mạng nhận dạng đối tượng hai bước như Faster R-CNN Mạng RetinaNet sử dụng một mạng FPN được xây dựng trên cơ sở cấu trúc mạng hồi quy Resnet Mạng con phân loại chịu trách nhiệm dự đoán xác xuất xuất hiện đối tượng tại một vị trí có A hộp giới hạn định sẵn (anchor box) và K số lớp đối tượng Mạng con này sẽ lấy đặc tính trừu tượng của dữ liệu hình ảnh từ mạng cơ sở Resnet/FPN với kênh C, và áp dụng 4 lớp tích chập kích thước 3x3, mỗi lớp có bộ lọc C và mỗi lớp có hàm kích hoạt ReLU Cuối cùng tại lớp cuối cùng của mạng con phân loại đối tượng, sử dụng hàm kích hoạt sigmoid Hàm mất mát được sử dụng cho Retina Net là Focal Loss Còn lại mạng con hồi quy xuất ra vị trí đối tượng đối với anchor boxes nếu có đối tượng tại vị trí đó

HÌNH 1.22 Cấu trúc mạng RetinaNet

Lý do vì sao mà một mạng nhận dạng vật thể một bước như RetinaNet có cấu trúc tương tự như một mạng nhận dạng vật thể hai bước nhưng độ chính xác lại kém hơn so với mạng Faster R-CNN là do sự mất cân bằng trọng số trong khi huấn luyện mạng RetinaNet giải quyết vấn đề này bằng hàm mất mát Focal loss giúp cho độ chính xác và tốc độ hơn hẳn so với các mạng nhận dạng vật thể loại một bước khác

Trang 31

CHƯƠNG 2: NHẬN DẠNG NGƯỜI TỪ TRÊN CAO SỬ DỤNG

Tốc độ xử lý cũng như độ chính xác trung bình của mạng YOLO được thể hiện trong hình bên dưới cho thấy nó có khả năng xử lý nhanh vượt bậc so với RetinaNet, và mặc dù có đánh đổi thời gian xử lý để tang độ chính xác trung bình thì YOLOv3 vẫn đạt được độ chính xác 33 mAP với thời gian xử lý 50ms đáp ứng thời gian thực

HÌNH 2.1 Biếu đồ so sánh thời gian xử lý và độ chính xác trung bình của các mạng nhận dạng

Đặc điểm ở phiên bản YOLOv3 này là không sử dụng lớp max pooling tổng hợp nào, mà chỉ sử dụng tích chập với stride = 2 để co (downsample) đặc tính trừu tượng của ảnh lại, nhờ vậy mà tránh được vấn đề mất mát đặc tính trừu tượng cấp thấp ở lớp pooling theo giá trị cực đại – max pooling Để giảm kích thước ảnh của lớp trước đó xuống một nửa, theo tài liệu [16] tác giả có đề cập đến vậy

Trang 32

sử dụng lớp tích chập với bước trượt Ví dụ, nếu bước trượt của mạng là 32, kết quả của ảnh đầu vào 416x416 sẽ cho ra kết quả ảnh mới có kích thước là 13x13 Như vậy, stride của bất kỳ lớp nào trong mạng đều bằng với hệ số mà đầu ra của lớp đó nhỏ hơn hình ảnh đầu vào của mạng n lần bước trượt

2.1.2 Phương thức hoạt động

Cấu trúc của mạng học sâu YOLOv3 được xây dựng trên mạng cơ bản Darknet-53 [16] YOLOv3 có tổng cộng 106 lớp, 62.573.334 tham số học, riêng phần mạng cơ bản Darknet-53 có 51 lớp tích chập, và 24 lớp kết nối dư (residual) hay shortcut Mạng Darknet-53 đóng vai trò là bộ phận phân tích ra bản đồ đặc tính trừu tượng của hình ảnh đầu vào trong khi thu nhỏ dần kích thước của ảnh

Có thể nói là qua đó mạng đã phân tách được dữ liệu đặc trưng của vật nhỏ khi hình ảnh kích thước còn lớn và cả của vật to khi đã thu gọn kích thước của ảnh

HÌNH 2.2 Cấu trúc mạng YOLO phiên bản 3

Trang 33

Tiếp đó, việc dự đoán đối tượng được thực hiện bằng việc sử dụng một loạt các lớp tích chập có kích thước 1x1 và 3x3, cuối cùng là lớp có tích chập kích thước 1x1 với số lượng bộ lọc bằng filter = (B x (5 + C)) Nên đầu ra dự đoán có kích thước bằng với kích thước bản đồ đặc tính trừu tượng trước đó Nhưng ở đây bản đồ dự đoán được diễn giải ở mỗi ô và chỉ dự đoán với số lượng khung

cố định Sau các lớp dự đoán [yolo] cho tỉ lệ kích thước 13x13 đầu tiên tại lớp

82 Sau đó, trước khi được nhân đôi lên thành kích thước 26x26 thì tại lớp 83 sẽ tạo kết nối lấy đặc tính trừu tượng từ lớp 79 trước lớp [yolo] đầu tiên, sau đó đưa qua lớp 84 để lấy thêm đặc tính đặc trưng Sau đó bản đồ đặc định đặc trưng này được “cô đặc” (concatenate) với đặc tính trừu tượng ở lớp 61 có output 26 x 26

x 512, như vậy ta có được bản đồ đặc tính trừu tượng ở lớp “sâu hơn” mới được

bổ sung thông tin từ các lớp trước đó “nông hơn”

81 Sau đó ta lại lấy đặc tính trừu tượng từ lớp 36 lên lớp 91, và thực hiện tương

tự như ở trên để thực hiện dự đoán vật thể cuối ở lớp 106 cho kích thước bản đồ đặc tính trừu tượng 52 x 52 x 18

Điều mà ta mong muốn là với mỗi ô của đặc tính trừu tượng sẽ dự đoán đối tượng thông qua một trong những hộp giới hạn nếu điểm giữa của vật nằm trong vùng của ô đặc tính trừu tượng đó Để xác định được ô nào ta sẽ chia nhỏ dữ liệu hình ảnh đầu vào bằng với kích thước của bản đồ đặc tính trừu tượng của lớp cuối cùng Ví dụ ta có ảnh đầu vào hình sau có kích cỡ 416x416 như hình 2.3 ở phía dưới đây Stride của mạng tích chập là 32, ta sẽ có đầu ra đặc tính trừu tượng

có kích thước 13x13 Ta chia dữ liệu ảnh đầu vào thành 13x13 ô

Trang 34

HÌNH 2.3 Ví dụ ảnh dữ liệu đầu vào

Sau đó, chính ô màu vàng (trong ảnh 2.4) nơi mà chứa điểm chính giữa maud

đỏ của hộp giới hạn dán nhãn màu đỏ (trong hình 2.3) của đối tượng sẽ được chọn trở thành ô phụ trách việc dự đoán đối tượng Tại mỗi ô đặc tính trừu tượng này có thể sử dụng đến ba hộp giới hạn

HÌNH 2.4 Các thuộc tính của hộp giới hạn dự đoán của YOLO v3

Hộp 1 Hộp 2 Hộp 3 Bản đồ đặc tính trừu tượng

Tọa độ hộp giới hạn

Điểm vật thể Độ tự tin Số hộp

Trang 35

Đặc tính trừu tượng của mạng có (B x (5 + C)) đầu vào Trong đó B là số lượng hộp giới hạn mà mỗi ô có thể dự đoán Mỗi hộp dự đoán có 5 + C đặc tính bao gồm tọa độ lệch so với điểm giữa, kích thước, điểm số đánh giá có phải vật hay không và C là độ tự tin của các lớp đối tượng trong mỗi hộp dự đoán

Độ lệch của hai hộp dãn nhãn và hộp anchor ở đây chính là độ lệch giữa hai điểm chính giữa của hai hộp theo như hình 2.5 dưới đây Hộp màu đỏ, tâm màu

đỏ là của hộp dán nhãn và hộp màu vàng và tâm màu vàng là của hộp anchor tại

ô cùng chứa tâm màu đỏ Ta sẽ tính được độ sai lệch 𝜎(𝑡𝑥) và 𝜎(𝑡𝑦) của hộp anchor so với hộp dán nhãn đó

Trang 36

𝑡𝑥, 𝑡𝑦, 𝑡𝑤, 𝑡ℎ là kết quả tọa độ của hộp giới hạn đầu ra của mạng,

𝑐𝑥, 𝑐𝑦 là tọa độ điểm chính giữa của hộp giới hạn gốc (hộp giới hạn đã được dán nhãn),

𝑝𝑤, 𝑝ℎ là kích thước của hộp giới hạn định trước anchor box của hộp

Mạng YOLOv3 không dự đoán chính xác vị trí tọa độ điểm chính giữa của hộp giới hạn mà chỉ dự đoán độ lệch so với tọa độ của hộp dán nhãn của ô dự đoán đối tượng, và chuẩn hóa kích thước của ô từ bản đồ đặc tính trừu tượng thành giá trị từ 0 đến 1 bằng hàm kích hoạt sigmoid Ví dụ trong hình 2.5 ở trên,

dự đoán điểm chính giữa cho ra kết quả cuối của hộp dự đoán là (0.6, 0.7) tức là trong ảnh đặc tính trừu tượng 13x13 tọa độ của điểm đó sẽ là ở (7.8, 9.1) Kích thước của hộp giới hạn được dự đoán bằng biến đổi logarit kết quả đầu ra của mạng [16], rồi nhân với kích thước của anchor box Theo như công thức (11) và (12), kết quả hộp giới hạn dự đoán được biến đổi như theo hình dưới đây [17]

HÌNH 2.6 Kết quả hộp anchor được biến đổi thành kết quả dự đoán cuối cùng

Đối với chiều rộng và chiều cao của hộp giới hạn dự đoán cũng được chuẩn hóa theo kích thước của dự liễu ảnh đầu vào Nên nếu kết quả dự đoán của (𝑏𝑤, 𝑏ℎ) là (0.3, 0.8) thì thực tế trong ảnh đặc tính trừu tượng kích thước 13x13 hộp giới hạn đó sẽ có chiều rộng và độ cao lần lượt là 3.9 và 10.4

Mạng YOLOv3 thực hiện dự đoán qua 3 tỷ lệ kích thước ảnh khách nhau Lớp

dự đoán [16] dự đoán theo bản đồ đặc tính trừu tượng tại 3 kích thước ảnh khác nhai có stride lần lượt là 32,16 và 8 Điều này có nghĩa là với dữ liệu ảnh đầu vào

có kích thước 416x416, mạng sẽ thực hiện dự đoán nhận dạng đối tượng ở 3 tỷ

Trang 37

lệ hình ảnh lần lượt là 13x13, 26x26 và 52x52 Quá trình đó được thể hiện trong hình 2.6

HÌNH 2.7 Mạng YOLOv3 thực hiện nhận dạng dữ liệu hình ảnh trên các tỷ lệ kích thước ảnh khác

nhau

Cuối cùng theo [16] ta có công thức sau để đánh giá độ chính xác trung bình của tọa độ vị trí dự đoán so với gái trị dán nhãn thực của dữ liệu ảnh đầu vào qua hai công thức: Precision được định nghĩa là tỉ lệ số điểm true positive trong số những điểm được phân loại là positive Recall được định nghĩa là tỉ lệ số điểm true positive trong số những điểm thực sự là positive

𝑃𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 = 𝑇𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒

𝑇𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠+𝐹𝑎𝑙𝑠𝑒 𝑃𝑜𝑠𝑖𝑡𝑖𝑣𝑒= 𝑐𝑜𝑢𝑛𝑡(𝑇𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒)

𝑐𝑜𝑢𝑛𝑡(𝑃𝑟𝑒𝑑𝑖𝑐𝑡𝑒𝑑 𝑏𝑏𝑜𝑥𝑒𝑠) (13) 𝑅𝑒𝑐𝑎𝑙𝑙 = 𝑇𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒

𝑇𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒𝑠+𝐹𝑎𝑙𝑠𝑒 𝑁𝑒𝑔𝑎𝑡𝑖𝑣𝑒 = 𝑐𝑜𝑢𝑛𝑡(𝑇𝑟𝑢𝑒 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒)

𝑐𝑜𝑢𝑛𝑡(𝐺𝑟𝑜𝑢𝑛𝑑𝑡𝑟𝑢𝑡ℎ 𝑏𝑏𝑜𝑥𝑒𝑠) (14)

HÌNH 2.8 Cách xác định độ chính xanh theo vùng chồng chéo IoU và điểm số tự tin của YOLOv3

Trang 38

Trong hình 2.8 thể hiện các ô màu đỏ là các hộp giới hạn dự đoán và các ô màu xanh là hộp giới hạn được dán nhãn Trong đó True positive khi có giá trị Iou lớn hơn ngưỡng 0.5 và độ tự tin lớn hơn ngưỡng conf_thres False positive khi IoU dưới ngưỡng nhưng độ tự tin lại lớn hơn ngưỡng, còn False negative là

cả hai giá trị IoU và độ tự tin đều nhỏ hơn ngưỡng đặt Precision cao đồng nghĩa với việc độ chính xác của các ô giới tìm được đối tượng là cao Recall cao đồng nghĩa với việc True Positive Rate cao, tức tỉ lệ bỏ sót các ô ground-truth là thấp

PYTORCH

Vấn đề lớn nhất khi khai triển thuật toán nhận dạng đó chính là làm sao để xử

lý và tính toán dữ liệu hình ảnh sử dụng mạng học sâu YOLOv3 bằng cách xử lý song song các gói ảnh bằng bộ xử lý hình ảnh GPU Đó chính là lý mà em lựa chọn sử dụng công cụ hỗ trợ thư viện tuệ nhân tạo Pytorch Để triển khai kiến trúc của mạng YOLOv3, theo như ở mã nguồn của tác giả [16], họ sử dụng file cfg để miêu tả các các lớp của mạng theo từng khối Tất cả có 5 loại lớp được sử dụng trong cấu trúc của YOLOv3

Lớp tích chập (Convolutional)

Lớp sử dụng tích chập để tìm đặc tính trừu tượng của hình ảnh, hoặc co không gian ảnh khi tham số stride = 2 Filters là số lượng bộ lọc, stride là bước trượt, pad là số lượng ta thêm padding không vào xung quanh viền để đảm bảo kích thước tại đầu ra sau tích chập activation là hàm kích hoạt, ở đây YOLOv3 sử dụng hàm kích họa Leaky ReLU

Trang 39

Lớp nối tắt (Shortcut)

Là điểm nối tắt như được sử dụng trong mạng hồi quy Resnet Tham số from =

- n để chỉ đầu ra của lớp nối tắt có được cộng thêm đặc tính trừu tượng của lớp thứ n trước đó tình từ lớp nối tắt

Ví dụ:

[shortcut]

Lớp tăng kích thước (Upsampling)

Lớp này có chức năng tang kích thước lên n lần theo tham số stride, tham số này cho biết khoảng cách của dịch chuyển của ô tích chập ở mỗi bước dịch chuyển qua các pixel trên ảnh

Ví dụ:

[upsample]

Lớp đường dẫn (Route)

Lớp này tham số layer có thể có 1 gái trị hoặc 2 giá trị Khi layer có một giá trị,

nó xuất ra đặc tính trừu tượng của lớp được chỉ định bởi giá trị Ví dụ, ta có tham

số layer = - 4, có nghĩa là lớp này sẽ xuất ra kết quả đặc tính đặc trưng từ lớp thứ

Trang 40

lines = file read().split( ' \n ' ) #store the lines in a list

lines = [x for x in lines if len(x) > 0] get read of the empty lines

lines = [x.rstrip().lstrip() for x in lines]

block = {}

blocks = []

for line in lines:

if line[0] == "[" : #This marks the start of a new block

2.2.1.1 Xây dựng mô hình mạng học sâu trong Pytorch

Các lớp của mạng học sâu trong Pytorch hoạt động dưới dạng như các đun Từ danh sách các khối được miêu tả trong file cfg Ta triển khai các mô-đun theo hàm create_module, hàm này sẽ trả danh sách các mô-đun nn.ModuleList, bên trong chưa các đối tượng là các khối mô-đun nn.Module

mô-Khi tạo một lớp tích chập mới, phải xác định kích thước của kernel Mặc dù chiều cao và chiều rộng của kernel được cung cấp bởi tệp cfg, độ sâu của kernel chính xác là số lượng bộ lọc (hoặc độ sâu của bản đồ đặc tính trừu tượng) có

Tiêu đề	Xây Dựng Hệ Thống Tìm Kiếm Trong Cứu Hộ Sử Dụng Máy Bay Không Người Lái Ứng Dụng Mạng Học Sâu YoloV4
Tác giả	Nguyễn Nhật Anh
Người hướng dẫn	TS. Ngô Thanh Bình
Trường học	Trường Đại Học Giao Thông Vận Tải
Chuyên ngành	Kỹ Thuật Điện Tử Và Tin Học Công Nghiệp
Thể loại	Đồ án tốt nghiệp
Năm xuất bản	2019
Thành phố	Hà Nội

Định dạng
Số trang	92
Dung lượng	5,51 MB