1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám

103 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Tác giả Hồ Trọng Ánh
Người hướng dẫn TS. Trần Ngọc Thăng
Trường học Đại học bách khoa Hà Nội
Chuyên ngành Toán Tin
Thể loại Luận văn thạc sĩ
Năm xuất bản 2023
Thành phố Hà Nội
Định dạng
Số trang 103
Dung lượng 2,19 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Một số ứng dụng của bài toán phân đoạn ảnh trong nhận dạng ảnh viễn thám bao gồmphân tích và giám sát sự biến đổi đất đai, phân tích các đối tượng trên bề mặt của trái đất,giám sát và th

Trang 1

ĐẠI HỌC BÁCH KHOA HÀ NỘI

Chuyên ngành : Toán Tin

Giảng viên hướng dẫn : TS Trần Ngọc Thăng

Chữ ký GVHD

Hà Nội, 3-2023

Trang 2

Lời cảm ơn

Kính gửi thầy cô, gia đình, đồng nghiệp, và bạn bè

Em xin được này tỏ lòng biết ơn sâu sắc nhất tới tất cả mọi người đã giúp đỡ và hỗ trợ

em trong quá trình nghiên cứu và hoàn thành luận văn thạc sĩ của mình

Đầu tiên, em xin gửi lời cảm ơn đến thầy hướng dẫn của mình là giảng viên Tiến SĩTrần Ngọc Thăng Những lời chỉ dẫn, gợi ý và hướng dẫn quý báu của thầy đã giúp emvượt qua những khó khăn trong quá trình nghiên cứu và hoàn thành luận văn của em mộtcách tốt nhất

Em cũng muốn gửi lời cảm ơn tới gia đình của mình Những lời động viên, sự quantâm và hỗ trợ đã giúp em vượt qua những thời điểm trở ngại trong quá trình nghiên cứu

và đối mặt với các khó khăn

Em cũng xin gửi lời cảm ơn tới các đồng nghiệp và bạn bè của mình Sự hỗ trợ và chia

sẻ kinh nghiệm của các bạn đã giúp mình có được nhiều ý tưởng và thông tin bổ ích

Và cuối cùng là lời cảm ơn đến Nhà trường đã cung cấp cho em môi trường học tập

và nghiên cứu chuyên nghiệp Các giảng viên và nhân viên của Nhà trường đã hỗ trợ emnhiều trong quá trình thực hiện luận văn

Trân trọng,

Hồ Trọng Ánh

Trang 3

Giảng viên hướng dẫn : TS Trần Ngọc Thăng Hồ Trọng Ánh

Tóm tắt luận văn

Luận văn “Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượngtrên ảnh viễn thám” tập trung vào việc nghiên cứu và cải tiến một số mô hình học máy đểcải thiện độ chính xác của việc nhận dạng đối tượng trong ảnh viễn thám

Trong luận văn, chúng tôi đã sử dụng các phương pháp tiền xử lý dữ liệu để cải thiệnchất lượng của dữ liệu ảnh Sau đó, chúng tôi đã tiến hành nghiên cứu và đánh giá các môhình học máy như Mạng nơ ron tích chập (CNN), Unet, U2-Net, Mask R-CNN, trên tập

dữ liệu ảnh viễn thám

Sau khi đánh giá và so sánh hiệu quả của các mô hình, chúng tôi đã đề xuất một sốcải tiến để tăng độ chính xác của mô hình nhận dạng đối tượng Chúng tôi đã đề xuất sửdụng kết hợp đa mô hình (Multi-Model) để cải thiện kết quả trích xuất móng nhà, và cáckết quả này đã được công bố trên tạp chí hội nghị ICISN 2022 [2] Tiếp theo, trong luậnvăn này, chúng tôi có thêm đề xuất sử dụng mô hình tăng cường độ phân giải kết hợp vớihọc đa nhiệm (Multi-Task Learning) để áp dụng cho các vùng dữ liệu móng nhà khó đó

là ảnh có chất lượng độ phân giải kém và quy hoạch chưa tốt cộng với mật độ dày đặcnhư các khu nhà ổ chuột Từ các kết quả đó, chúng tôi hướng đến mục tiêu mở rộng để

áp dụng cho một bài toán khác đó là bài toán phát hiện ranh giới nông trang trên ảnh độphân giải thấp (Sentinel 10m) bằng cách chỉnh sửa, cải tiến mô hình tăng cường độ phângiải Real-ESRGAN từ 4 lần (4X) lên đến 8 lần (8X)

Để chứng minh cho tính hiệu quả của các đề xuất trên, chúng tôi đã thực hiện các thínghiệm để kiểm chứng và thấy rằng các cải tiến đã đưa ra đã cải thiện đáng kể độ chínhxác của mô hình và giúp nâng cao khả năng nhận dạng đối tượng trong ảnh viễn thám

và giúp mở ra hướng mới giúp ứng dụng hiệu quả các nguồn dữ liệu mở thường có chấtlượng dữ liệu thấp hơn cho các bài toán thực tế

Trang 4

Mục lục

1 Giới thiệu chung về bài toán nhận dạng đối tượng trên ảnh viễn thám 1

1.1 Các lớp bài toán thường gặp trong nhận dạng đối tượng ảnh viễn thám 2

1.1.1 Bài toán phân đoạn ảnh 2

1.1.2 Bài toán phân loại ảnh 4

1.1.3 Bài toán nhận dạng cạnh 5

1.1.4 Bài toán nhận diện đối tượng 6

1.2 Một số bài toán được đề cập trong nghiên cứu 7

1.2.1 Bài toán trích xuất móng nhà 7

1.2.2 Bài toán trích xuất ranh giới nông trang 8

2 Cơ sở lý thuyết 10 2.1 Mạng nơ ron 10

2.1.1 Nơ ron 12

2.1.2 Lớp tích chập 14

2.1.3 Hàm kích hoạt 17

2.1.4 Pooling 19

2.1.5 Các chỉ số đánh giá 20

2.1.6 Hàm mất mát 23

2.1.7 Lan truyền ngược 24

2.1.8 Các thuật toán tối ưu hóa 25

2.1.9 Chuẩn hóa theo lô 28

2.1.10 Tăng cường dữ liệu 29

2.2 Viễn Thám 30

Trang 5

2.2.1 Ảnh vệ tinh 30

2.2.2 Ảnh hàng không 31

2.2.3 Các chỉ số quang phổ 32

2.2.4 Cấu trúc dữ liệu ảnh viễn thám và shapefile 33

2.2.5 Tính liên kết hình học trong hệ thống thông tin địa lý 35

3 Một số mô hình học máy trong quá trình nghiên cứu 37 3.1 Mô hình U-Net 37

3.1.1 Thông tin mô hình 37

3.1.2 Hàm mất mát và tiêu chí đánh giá 40

3.1.3 Xử lý dữ liệu vào ra 40

3.1.4 Huấn luyện mô hình 43

3.1.5 Đánh giá ưu, nhược điểm 43

3.2 Mô hình U2-net 44

3.2.1 Thông tin mô hình 44

3.2.2 Hàm mất mát và tiêu chí đánh giá 46

3.2.3 Đánh giá ưu, nhược điểm 47

3.3 Mô hình Mask-RCNN 47

3.3.1 Thông tin mô hình 47

3.3.2 Hàm mất mát và tiêu chí đánh giá 50

3.3.3 Xử lý dữ liệu vào ra 51

3.3.4 Đánh giá ưu, nhược điểm 52

3.4 Mô hình Real-ESRGAN 53

3.4.1 Ý tưởng cho việc tăng cường độ phân giải ảnh 53

3.4.2 Thông tin mô hình 54

3.4.3 Hàm mất mát và tiêu chí đánh giá 56

4 Nghiên cứu và đề xuất một số phương pháp giúp nâng cao kết quả nhận diện trên ảnh viễn thám 59 4.1 Phát biểu bài toán 59

4.2 Phương pháp kết hợp đa mô hình 60

4.2.1 Giới thiệu về đa mô hình 60

4.2.2 Các vùng dữ liệu 61

4.2.3 Tiêu chí đánh giá 62

4.2.4 Kết quả đạt được 62

4.2.5 Đánh giá ưu nhược điểm của kết hợp đa mô hình 64

4.3 Phương pháp học đa nhiệm 65

4.3.1 Giới thiệu về học đa nhiệm 65

Trang 6

4.3.2 Ứng dụng học đa nhiệm cho bài toán trích xuất móng nhà 66

4.3.3 Mô hình mạng phân đoạn đa nhiệm 66

4.3.4 Mô hình Frame Field Learning 67

4.3.5 Triển khai mô hình Frame Field Learning 69

4.3.6 Kết quả thử nghiệm Frame Field Learning 69

4.4 Ứng dụng và cải tiến mô hình Real-ESRGAN giúp nâng cao chất lượng dữ liệu 72

4.4.1 Thử nghiệm mô hình Real-ESRGAN 4X 72

4.4.2 Nâng cấp mô hình Real-ESRGAN lên 8X 78

4.4.3 Triển khai huấn luyện mô hình REAL-ESRGAN 8X 79

4.4.4 Ứng dụng nâng cao hiệu quả sử dụng nguồn dữ liệu mở 81

4.5 Mô hình tổng hợp sử dụng cho nhận dạng trên ảnh chất lượng thấp và mật độ đối tượng dày đặc 85

4.5.1 Nguồn dữ liệu 86

4.5.2 Triển khai thử nghiệm 86

4.5.3 Kết quả thử nghiệm 88

Trang 7

Danh sách hình vẽ

2.1.1 Nơ ron sinh học và nhân tạo 12

2.1.2 Multilayer perceptron (MLP) 13

2.1.3 Tích chập 15

2.1.4 N tích chập 15

2.1.5 Padding and stride 16

2.1.6 Dilation 17

2.1.7 Tích chập chuyển vị 17

2.1.8 Max pooling 20

2.2.1 Phép chiếu từ ảnh viễn thám 34

3.1.1 Kiến trúc mô hình U-Net 39

3.1.2 Hình ảnh tạo mask từ shapefile 41

3.1.3 Phép trượt trong quá trình xử lý ảnh viễn thám 42

3.2.1 Kiến trúc mô hình U-2net 45

3.2.2 Cấu tạo khối RSU 46

3.3.1 Kiến trúc mô hình Mask-RCNN 48

3.3.2 ROI Align 49

3.4.1 Mạng sinh của mô hình Real-ESRGAN 55

3.4.2 Mạng phân biệt U-Net trong Real-ESRGAN 55

3.4.3 Quá trình hạ cấp trong mô hình Real-ESRGAN 56

4.2.1 Kết hợp đa mô hình 61

4.2.2 Kết quả chỉ số đa mô hình 63

4.2.3 So sánh kết quả móng nhà sử dụng đa mô hình 64

4.3.1 Sơ đồ ứng dụng mô hình mạng phân đoạn đa nhiệm giúp cải thiện kết quả nắn chỉnh [13] 67

4.3.2 Cấu trúc mô hình Frame Field Learning 68

4.3.3 Đồ thị các chỉ số đánh giá mô hình Frame Fields Learning 70

4.3.4 Ảnh kết quả mô hình Frame Fields Learning trên Tập VN UAV 71

Trang 8

4.4.1 Hình ảnh một số ảnh ở mức độ phân giải khác nhau 73

4.4.2 Tạo ảnh đa tỉ lệ 74

4.4.3 File index chứa tất cả đường dẫn đến ảnh trong thư mục 74

4.4.4 Hình ảnh lúc khởi tạo training mô hình Real-ESRGAN 75

4.4.5 Một số kết quả tăng cường độ phân giải 76

4.4.6 Mô hình 4X để tăng độ phân giải trên ảnh sentinel 2 77

4.4.7 Hình ảnh summary input và output mô hình Real-ESRGAN 8X 78

4.4.8 Tham số hạ cấp dữ liệu 78

4.4.9 Kết quả mô hình 8X để tăng độ phân giải trên ảnh sentinel 2 80

4.4.10 Quy trình trích xuất dữ liệu ranh giới nông trang 82

4.4.11 Trích xuất nông trang trên ảnh Sentinel 2 83

4.4.12 Đối chiếu kết quả trích xuất nông trang giữa ảnh Sentinel 2 và Google Maps 84

4.5.1 Dữ liệu ảnh có chất lượng thấp và mật độ cao 85

4.5.2 Dữ liệu ảnh vùng ổ chuột Mumbai 86

4.5.3 Ví dụ tăng độ phân giải cho Mumbai 87

4.5.4 Đồ thị đánh giá mô hình tổng hợp 89

4.5.5 Kết quả trích xuất bằng mô hình tổng hợp cho ảnh Mumbai 90

Trang 9

Danh sách bảng

2.2.1 Thông tin ảnh Sentinel 31

4.2.1 Kết quả đa mô hình 62

4.3.1 Kết quả các chỉ số mô hình Frame Fields Learning 69

4.5.1 Kết quả mô hình tổng hợp 88

Trang 10

Thuật ngữ viễn thám (Remote sensing) - điều tra từ xa, xuất hiện từ năm 1960 do mộtnhà địa lý người Mỹ là E.Pruit đặt ra (Thomas, 1999) Ngày nay kỹ thuật viễn thám đãđược phát triển và ứng dụng rất nhanh và rất hiệu quả trong nhiều lĩnh vực Như vậy viễnthám là thông qua kỹ thuật hiện đại không tiếp cận với đối tượng mà xác định nó qua thôngtin ảnh chụp từ xa trên không.

Để có thể sử dụng được dữ liệu viễn thám ta phải có khả năng tách thông tin có ý nghĩa

từ ảnh Đó là nhiệm vụ của việc xử lý ảnh viễn thám Nói cách khác là phải diễn giải vàphân tích ảnh viễn thám Phân tích ảnh viễn thám là thực hiện nhận biết, đo các đối tượngkhác nhau trong ảnh để tách thông tin hữu ích về chúng Xử lý ảnh số viễn thám là thựchiện một loạt thủ tục bao gồm lập khuôn mẫu, hiệu chỉnh dữ liệu, nâng cao chất lượng để

dễ dàng giải đoán hay phân lớp tự động các đối tượng bằng máy tính Để có thể xử lý số

Trang 11

ảnh viễn thám, dữ liệu phải được thu thập dưới dạng số phù hợp và lưu trữ trong máy tính.Đồng thời phải có phần cứng, phần mềm phù hợp, nói cách khác phải có hệ thống phântích ảnh phù hợp.

Bài toán nhận diện đối tượng trên ảnh viễn thám là một trong những bài toán quantrọng trong lĩnh vực xử lý ảnh và thị giác máy tính Nó đặt ra thách thức trong việc phântích và xử lý hình ảnh đa dạng từ các nguồn viễn thám khác nhau như vệ tinh, máy baykhông người lái Bài toán này thường được áp dụng trong nhiều lĩnh vực khác nhau, baogồm quản lý tài nguyên đất đai, giám sát môi trường, bảo vệ động vật hoang dã, kiểm soátchất lượng nước và nông nghiệp Nó cho phép chúng ta nhận biết và phân tích các đốitượng trên bề mặt trái đất như cây trồng, rừng, đất trống, đường, công trình xây dựng, mặtnước Để giải quyết bài toán nhận diện đối tượng trên ảnh viễn thám, các kỹ thuật xử lýảnh và học máy được áp dụng để tạo ra các thuật toán phức tạp để phát hiện và phân loạicác đối tượng Trong luận văn này sẽ tập trung đề cập đến một số mô hình máy học sâu

và cải tiến một số mô hình máy học nhằm nâng cao kết quả nhận dạng đối tượng trên ảnhviễn thám

1.1 Các lớp bài toán thường gặp trong nhận dạng đối tượng ảnh

viễn thám

Nhắm đến việc giới thiệu các bài toán phổ biến trong lĩnh vực nhận dạng đối tượngtrên ảnh viễn thám Việc sử dụng các kỹ thuật và phương pháp nhận dạng đối tượng trênảnh viễn thám giúp cho việc phân tích và xử lý dữ liệu trở nên nhanh chóng và chính xáchơn, từ đó đem lại nhiều lợi ích cho các ứng dụng thực tiễn Chương này sẽ giới thiệu vềcác lớp bài toán phổ biến trong nhận dạng đối tượng trên ảnh viễn thám bao gồm phânđoạn ảnh, phân loại ảnh, nhận dạng cạnh, phát hiện đối tượng Ngoài ra, chương cũng sẽgiải thích chi tiết về mỗi lớp bài toán, cung cấp ví dụ và ứng dụng của chúng trong thựctiễn

1.1.1 Bài toán phân đoạn ảnh

Bài toán phân đoạn ảnh (Image segmentation) trong nhận diện ảnh viễn thám là mộttrong những lớp bài toán quan trọng nhất Bài toán này nhằm tìm cách phân chia ảnh thànhcác vùng khác nhau, mỗi vùng chứa các đối tượng tương tự nhau

Trang 12

Phân đoạn ảnh có thể được sử dụng để xác định các khu vực đất trống, đất canh tác,đất rừng, đất ngập nước và các vùng khác trong ảnh viễn thám Bằng cách phân đoạn ảnh,chúng ta có thể xác định vị trí của các đối tượng như rừng, đường, đồng cỏ, sông, hồ, v.v.

từ đó giúp cho việc phân tích và xử lý ảnh trở nên dễ dàng và chính xác hơn

Để giải quyết bài toán phân đoạn ảnh trong nhận dạng ảnh viễn thám, có nhiều phươngpháp được áp dụng như: phân đoạn dựa trên màu sắc, phân đoạn dựa trên hình dạng, phânđoạn dựa trên đặc trưng, phân đoạn dựa trên mô hình, v.v

Một số ứng dụng của bài toán phân đoạn ảnh trong nhận dạng ảnh viễn thám bao gồmphân tích và giám sát sự biến đổi đất đai, phân tích các đối tượng trên bề mặt của trái đất,giám sát và theo dõi rừng, xác định đường bờ biển, v.v Tuy nhiên, bài toán phân đoạn ảnhtrong nhận dạng ảnh viễn thám cũng đặt ra một số thách thức, bao gồm độ phức tạp của

dữ liệu, độ phân giải, cấu trúc và hình dạng của đối tượng Do đó, việc lựa chọn phươngpháp và công cụ phù hợp để giải quyết bài toán phân đoạn ảnh rất quan trọng để đảm bảokết quả chính xác và hiệu quả

Bài toán phân đoạn ảnh bằng học sâu (Deep Learning based Image Segmentation) làmột trong những phương pháp hiệu quả để giải quyết bài toán phân đoạn ảnh trong nhậndạng ảnh viễn thám Phương pháp này sử dụng các mô hình học sâu như ConvolutionalNeural Networks (CNN) để học và dự đoán phân đoạn ảnh

Một số mô hình học sâu phổ biến được sử dụng trong bài toán phân đoạn ảnh bao gồm:

• U-Net: Đây là một trong những mô hình đầu tiên được sử dụng cho bài toán phân

đoạn ảnh bằng học sâu Nó sử dụng kiến trúc Encoder-Decoder với các kết nối tắt

(Skip conection) để kết hợp thông tin từ các tầng Encoder và Decoder.

• Mask R-CNN: Đây là một mô hình học sâu sử dụng trong bài toán phân đoạn ảnh

và phát hiện đối tượng Nó kết hợp các lớp phân đoạn và phát hiện đối tượng bằngcách sử dụng một mạng CNN để trích xuất đặc trưng và một mô hình R-CNN đểphát hiện và phân đoạn

• DeepLab: Đây là một mô hình phân đoạn ảnh sử dụng mạng ResNet và Atrous

Spatial Pyramid Pooling (ASPP) để xác định kết quả phân đoạn ASPP cho phép

mô hình xem các vùng ảnh ở nhiều tỷ lệ và kết hợp các thông tin đó để phân đoạn

Phương pháp bài toán phân đoạn ảnh bằng học sâu có nhiều ưu điểm, bao gồm khảnăng phát hiện và phân đoạn các vùng ảnh phức tạp, khả năng tự động học và tinh chỉnhcác đặc trưng, độ chính xác cao hơn so với các phương pháp truyền thống Tuy nhiên, điều

Trang 13

quan trọng là việc sử dụng dữ liệu huấn luyện đủ lớn và đa dạng để đảm bảo kết quả chínhxác và hiệu quả.

1.1.2 Bài toán phân loại ảnh

Bài toán phân loại ảnh (Image Classification) trong nhận diện ảnh viễn thám là quá

trình phân loại ảnh thành các lớp đã được xác định trước Mục đích của việc phân loại ảnh

là giúp các nhà nghiên cứu và chuyên gia dễ dàng đưa ra các quyết định và dự đoán về cácđối tượng, đặc tính của một khu vực hoặc một vùng đất nào đó

Bài toán phân loại ảnh bằng học sâu (Deep Learning Image Classification) là một

trong những phương pháp tiên tiến nhất trong nhận diện ảnh viễn thám Nó sử dụng các

mạng neural truyền thống hoặc mạng neural sâu (Deep Neural Network - DNN) để học

các đặc trưng trên ảnh và phân loại chúng vào các lớp đã được định nghĩa trước đó Cácbước chính để giải quyết bài toán phân loại ảnh bằng học sâu bao gồm:

• Chuẩn bị dữ liệu: Bao gồm việc chuẩn hóa và tiền xử lý dữ liệu, tạo ra các tập dữ

liệu huấn luyện, xác nhận và kiểm tra

• Xây dựng mô hình DNN: sử dụng các kiến trúc mạng neural như Convolutional

Neural Networks (CNN), ResNet, EfficientNet, v.v để học các đặc trưng trên ảnh và

phân loại chúng vào các lớp đã được định nghĩa trước đó

• Huấn luyện mô hình: sử dụng tập dữ liệu huấn luyện để đào tạo mô hình và điều

chỉnh các tham số để đạt được hiệu suất tốt nhất

• Đánh giá mô hình: sử dụng tập xác nhận và kiểm tra để đánh giá hiệu suất của mô

hình và kiểm tra xem nó có đáp ứng được yêu cầu của bài toán hay không

Một số kiến trúc mạng neural sử dụng trong bài toán phân loại ảnh bao gồm:

• Mạng nơ ron tích chập (Convolutional Neural Networks - CNN): đây là kiến trúc

mạng neural được sử dụng phổ biến nhất trong bài toán phân loại ảnh Kiến trúc nàyđược thiết kế để học các đặc trưng tại các vùng ảnh khác nhau và từ đó phân loạichúng vào các lớp đã được định nghĩa trước đó

• Residual Network (ResNet): là một kiến trúc mạng neural sâu được đề xuất để giải

quyết vấn đề mất thông tin khi mạng neural sâu trở nên quá sâu

Trang 14

• EfficientNet: là một kiến trúc mạng neural mới nhất được đề xuất để giảm kích

thước mô hình và tăng độ chính xác

Bài toán phân loại ảnh bằng học sâu có nhiều ứng dụng trong thực tế như phân loạicác loại cây trồng, phân loại đất đai, phân loại thực vật, phân loại mây, phân loại đám mây,phân loại đường bộ, phân loại đường ray, phân loại nước và phân loại các vùng sạch hoặc

ô nhiễm

1.1.3 Bài toán nhận dạng cạnh

Bài toán nhận dạng cạnh (Edge Detection) trong nhận diện ảnh viễn thám là quá trình

phát hiện các ranh giới giữa các vùng khác nhau trên ảnh Các cạnh có thể được định nghĩa

là sự thay đổi đột ngột của độ sáng giữa hai vùng trên ảnh

Mục đích của bài toán nhận dạng cạnh trong nhận diện ảnh viễn thám là phát hiện vàđịnh vị các cạnh giữa các vùng khác nhau trên ảnh, từ đó giúp phân tích và hiểu được bứcảnh đó Bài toán này có thể giúp xác định đường bờ biển, đường biên giới, các con đường,đường ray, sông và các đối tượng khác trong ảnh viễn thám

Có nhiều phương pháp để giải quyết bài toán nhận dạng cạnh, bao gồm phương pháp

dựa trên ngưỡng (Thresholding), phương pháp dựa trên bộ lọc (Filter based) và phương pháp dựa trên mô hình (Model Based) Trong đó, phương pháp dựa trên mô hình thường

đạt hiệu quả cao nhất vì nó sử dụng các mô hình học máy để học và phát hiện các cạnh

Mô hình học sâu thường được sử dụng để giải quyết bài toán nhận dạng cạnh là mạng

nơ ron tích chập (CNN) CNN có khả năng học được các đặc trưng của ảnh bằng cách sử

dụng các bộ lọc tích chập để trích xuất thông tin Các bộ lọc tích chập có thể phát hiện cácđặc trưng như cạnh, góc, đường cong và các chi tiết khác của ảnh Sau đó, các lớp kết nối

đầy đủ (Fully Connected Layers) được sử dụng để kết hợp các đặc trưng đã trích xuất và

dự đoán các cạnh trên ảnh

Các mô hình CNN phổ biến được sử dụng để giải quyết bài toán nhận dạng cạnh trong

nhận diện ảnh viễn thám bao gồm U-Net, SegNet và FCN (Fully Convolutional Network).

Trong đó, mô hình U-Net được sử dụng rộng rãi để giải quyết bài toán phân đoạn ảnhtrong nhận diện ảnh viễn thám, nhưng nó cũng có thể được sử dụng để giải quyết bài toán

nhận dạng cạnh Mô hình U-Net có kiến trúc bao gồm một phần mã hóa (Encoding) và một phần giải mã (Decoding), giúp mô hình có khả năng phát hiện các đặc trưng trên ảnh

và đưa ra dự đoán chính xác các cạnh

Trang 15

Tuy nhiên, bài toán nhận dạng cạnh bằng học sâu trong nhận diện ảnh viễn thám cũnggặp phải nhiều thách thức như độ phân giải thấp, sự mờ hình ảnh do mưa, sương mù, khóibụi, tàng kính và độ sâu của vùng ảnh Vì vậy, việc sử dụng dữ liệu chất lượng cao và cácphương pháp tiền xử lý như chuẩn hóa, tăng cường dữ liệu và sử dụng các kỹ thuật phùhợp để có thể giải quyết các thách thức này.

1.1.4 Bài toán nhận diện đối tượng

Bài toán nhận diện đối tượng (Object Detection) là một trong những bài toán quan

trọng trong lĩnh vực xử lý ảnh và máy học Nó liên quan đến việc phát hiện và định vị cácđối tượng khác nhau trong một hình ảnh hoặc một video Bài toán nhận diện đối tượng cónhiều ứng dụng trong thực tiễn, từ an ninh, giám sát đường phố, đến tự động hóa sản xuất

Các mô hình học sâu cho bài toán nhận diện đối tượng thường sử dụng các kiến trúc

mạng neural tích chập (Convolutional Neural Network - CNN) để học các đặc trưng từ ảnh

và tạo ra một bản đồ đặc trưng của ảnh Sau đó, các mô hình này sử dụng các kỹ thuật như

cửa sổ trượt (Sliding Window) hoặc mạng nơ ron tích chập dựa trên vùng (Region Based

Convolutional Neural Network-RCNN) để phát hiện và định vị các đối tượng trong ảnh.

Các mô hình học sâu phổ biến cho bài toán nhận diện đối tượng bao gồm Faster

R-CNN, YOLO (You Only Look Once), SSD (Single Shot Detection) và RetinaNet Để đạt

được kết quả tốt trong bài toán này, cần sử dụng các kỹ thuật tiền xử lý dữ liệu, tăng cường

dữ liệu, cũng như tối ưu hóa các tham số của mô hình để tăng độ chính xác và giảm thiểuthời gian huấn luyện

Trong ảnh viễn thám là việc sử dụng các mô hình học sâu để phát hiện và định vị cácđối tượng trên ảnh Bài toán này là một trong những bài toán quan trọng trong lĩnh vựcnhận diện ảnh viễn thám vì nó có thể giúp phát hiện các đối tượng như tòa nhà, cây cối,mạng lưới giao thông, các đối tượng trên biển, đất đai, v.v

Tuy nhiên, bài toán nhận diện đối tượng bằng học sâu trong ảnh viễn thám cũng gặp

Trang 16

phải nhiều thách thức như độ phân giải thấp, độ sâu của vùng ảnh và sự thay đổi về ánhsáng trong các điều kiện thời tiết khác nhau Vì vậy, việc sử dụng dữ liệu chất lượng cao,các phương pháp tiền xử lý và các kỹ thuật tăng cường dữ liệu là rất quan trọng để đạtđược kết quả tốt trong việc giải quyết bài toán này.

1.2 Một số bài toán được đề cập trong nghiên cứu

1.2.1 Bài toán trích xuất móng nhà

Bài toán trích xuất móng nhà (hay còn gọi là bài toán Building Footprint) là một bài

toán trong lĩnh vực xử lý ảnh và ảnh viễn thám, liên quan đến việc xác định vị trí và kíchthước của các tòa nhà trên bề mặt đất bằng cách phân tích các hình ảnh vệ tinh hoặc máybay không người lái

Mục đích của bài toán trích xuất móng nhà là tìm ra và xác định các tòa nhà, tòa thápcao, nhà xưởng và cấu trúc xây dựng khác được xây dựng trên mặt đất thông qua việcphân tích và phát hiện các đối tượng có dạng và kích thước tương ứng trên ảnh vệ tinhhoặc máy bay không người lái

Để giải quyết bài toán này, các phương pháp xử lý ảnh và ảnh viễn thám, như phânđoạn hình ảnh, phát hiện cạnh, phân tích đối tượng và học máy đều được sử dụng Các môhình học máy được áp dụng rộng rãi như máy vector hỗ trợ (SVM), mạng nơ ron và mạng

nơ ron tích chập (CNN) Có nhiều phương pháp được sử dụng để giải quyết bài toán tríchxuất móng nhà Một số phương pháp phổ biến được sử dụng trong lĩnh vực này như:

• Xử lý ảnh truyền thống: Sử dụng các phương pháp xử lý ảnh truyền thống như

phân đoạn hình ảnh, phát hiện cạnh và xử lý đặc trưng hình ảnh để xác định cácvùng tương ứng với các công trình xây dựng

• Máy vector hỗ trợ (SVM): SVM là một phương pháp học máy phổ biến được sử

dụng trong bài toán trích xuất móng nhà SVM tìm cách phân chia các điểm dữ liệuvào các lớp khác nhau dựa trên đặc trưng của chúng, và được sử dụng để phân loạicác vùng trong ảnh là các công trình xây dựng hoặc không phải là các công trìnhxây dựng

• Mạng nơ ron: Mạng nơ ron được sử dụng rộng rãi trong các bài toán xử lý ảnh và

có thể áp dụng để giải quyết bài toán trích xuất móng nhà Các mạng nơ ron này

Trang 17

có thể được huấn luyện để phân loại các vùng trong ảnh là các công trình xây dựnghoặc không phải là các công trình xây dựng.

• Mạng nơ ron tích chập (CNN): CNN là một mô hình mạng nơ ron được thiết kế

đặc biệt để xử lý ảnh và thường được sử dụng trong bài toán trích xuất móng nhà.CNN có khả năng tự động học các đặc trưng của hình ảnh và xác định các vùngtương ứng với các công trình xây dựng

• Kết hợp các phương pháp: Thường thì việc sử dụng một phương pháp đơn lẻ để

giải quyết bài toán trích xuất móng nhà không đủ hiệu quả Thay vào đó, việc kếthợp các phương pháp khác nhau có thể cải thiện đáng kể kết quả và tăng tính chínhxác của bài toán

Bài toán trích xuất móng nhà có nhiều ứng dụng thực tế trong việc giám sát và quản

lý đô thị, xây dựng hạ tầng, quản lý tài nguyên và bảo vệ môi trường Nó có thể được ápdụng trong các lĩnh vực khác nhau, từ địa chính, quy hoạch đô thị, bảo vệ môi trường đếnbảo vệ lãnh thổ và quốc phòng

1.2.2 Bài toán trích xuất ranh giới nông trang

Bài toán trích xuất ranh giới nông trang (hay còn gọi là bài toán Farm Boundaries) là

một bài toán trong lĩnh vực xử lý ảnh và ảnh viễn thám, liên quan đến việc xác định ranhgiới của các khu vực ruộng trên một hình ảnh hoặc một bộ dữ liệu ảnh viễn thám Bài toánnày có ứng dụng quan trọng trong việc quản lý tài nguyên đất đai, giám sát sản xuất nôngnghiệp, đánh giá và dự báo mùa vụ

Mục tiêu của bài toán trích xuất ranh giới nông trang là xác định được vị trí của cácranh giới ruộng trong ảnh Việc này được thực hiện bằng cách áp dụng các kỹ thuật xử lýảnh và ảnh viễn thám để phân tách các khu vực đất đai khác nhau trong ảnh và xác địnhđược đường biên giới giữa các khu vực này Các phương pháp xử lý ảnh truyền thống vàhọc máy đều được sử dụng để giải quyết bài toán này

Một số phương pháp thường được sử dụng để giải quyết bài toán trích xuất ranh giới

nông trang bao gồm phương pháp phân đoạn hình ảnh (Segmentation), phương pháp phát hiện cạnh (Edge Detection), phân tích đối tượng (Object Analysis), và các mô hình học máy như: SVM (Support Vector Machine), Random Forest, Neural Network, và CNN

(Convolutional Neural Network).

Trang 18

Bài toán trích xuất ranh giới nông trang là một bài toán khó và đòi hỏi sự chính xáccao trong việc xác định đường biên giới của các khu vực đất đai Tuy nhiên, nó có ý nghĩaquan trọng trong việc quản lý tài nguyên đất đai và phát triển nông nghiệp bền vững.

Trang 19

Chương 2

Cơ sở lý thuyết

Phần lý thuyết trong luận văn này được chia thành hai phần: Phần đầu tiên chúng ta sẽthảo luận về mạng nơ ron và trong phần tiếp theo, chúng tôi sẽ đề cập đến việc nhận diệntrên ảnh viễn thám

2.1 Mạng nơ ron

Mạng nơ ron nhân tạo là một trong những kỹ thuật quan trọng của trí tuệ nhân tạo,

nó được lấy cảm hứng từ cấu trúc của các mạng nơ ron trong hệ thống thần kinh của conngười Khi nhắc đến mạng nơ ron nhân tạo, người ta thường đề cập đến bốn thuật ngữ

chính: Mô hình toán, lớp (Layer), học tập (Learning) và trừu tượng hóa (Abstraction).

Mạng nơ ron nhân tạo là một mô hình tính toán, có nghĩa rằng nó nhận đầu vào, xử lý vàtạo ra đầu ra Cấu trúc bên trong của mô hình quyết định nó có thể giải quyết những nhiệm

vụ nào Từ khóa thứ hai đó là lớp, mô hình học sâu được xây dựng từ các lớp, mà chínhcác nơ ron nhân tạo tạo thành chúng Các nơ ron này lấy cảm hứng từ chính nơ ron sinhhọc do đó nó được đặt tên là “mạng nơ ron” Mỗi lớp xử lý đầu vào bằng một phép toánnhất định Các phép toán này phụ thuộc vào các kết nối giữa các nơ ron và độ mạnh củakết nối đó

Mạng nơ ron tích chập (Convolutional Neural Network - CNN) là một trong những

phương pháp quan trọng và hiệu quả nhất trong lĩnh vực xử lý ảnh và thị giác máy tính.Với khả năng học được các đặc trưng ảnh và hiệu quả cao trong việc xử lý dữ liệu lớn,CNN đã trở thành công cụ quan trọng trong nhiều ứng dụng như nhận dạng đối tượng,

Trang 20

phân loại ảnh, phân đoạn ảnh và nhiều lĩnh vực khác.

Chương này sẽ giới thiệu về kiến trúc cơ bản của mạng CNN, cách thức hoạt động của

các lớp tích chập, lớp tổng hợp và các lớp kết nối đầy đủ (Fully Connected) trong mạng

CNN Ngoài ra, chương cũng sẽ đề cập đến các kỹ thuật đào tạo mạng CNN như giảm

thiểu tổn thất (Loss Function), tối ưu hóa gradient (Gradient Optimization) và các kỹ thuật điều chuẩn (Regularization Techniques) Cuối cùng, chương sẽ trình bày về một số ứng

dụng của mạng CNN trong xử lý ảnh và thị giác máy tính

Đối với mỗi đầu vào của mô hình x, có một đầu ra mong muốn của mạng (được gọi là

Ground Truth - mẫu thực) là y t , và đầu ra thực tế (Được dự đoán) là y p Vì đầu ra thực tếphụ thuộc vào tất cả các trọng số bên trong mạng, do đó có một tập hợp các trọng số mà

y p gần nhất với y t Để tìm ra giá trị tối ưu này, một kỹ thuật được gọi là lan truyền ngược

(Backpropagation) được sử dụng trong quá trình học tập Ví dụ về đầu vào cho một mạng

như thế có với đầu vào là một hình ảnh và nhiệm vụ là phân loại đối tượng trong đó Mạngtrong ví dụ này sẽ cố gắng trừu tượng hóa từ các giá trị pixel của hình ảnh thành một lớpnhư “xe hơi” hoặc “cây” Trong các lớp ở bước trung gian, nó tạo ra “nhiều cấp độ trừutượng”: Nếu quan sát các lớp đầu tiên, chúng ta có thể quan sát được kết quả trông giốngnhư làm nổi hay tăng cường các cạnh được hay các màu sắc được lọc và loại bỏ đặc tínhmàu sắc, tuy nhiên, khi đến các lớp sâu hơn, các kết quả đầu ra của mạng rất khó hìnhdung hặc giải thích, đó là nguyên nhân người ta thường hay đề cập là mạng nơ ron không

mạng nơ ron được sử dụng có thể có nhiều lớp (100 hoặc hơn) Có nhiều loại mạng nơ ron

khác nhau, trong luận văn này, chúng ta sẽ tập trung vào mạng nơ ron tích chập (CNN),

vì chúng là phù hợp nhất để phân loại và phân đoạn hình ảnh Hình sau mô tả cấu trúc củamột mạng tích chập hoàn toàn thông dụng được sử dụng cho phân loại hình ảnh Chúngtôi sẽ nhắc lại từng thành phần của nó và giải thích quy trình đào tạo chi tiết hơn ở cácphần tiếp theo

Trang 21

2.1.1 Nơ ron

Vì lấy ý tưởng từ mạng nơ ron ron sinh học, cho nên, trước khi đề cập đến nơ ron nhântạo, chúng ta sẽ phân tích qua về cấu tạo một nơ ron sinh học và các thành phần tươngđương của chúng trong xây dựng nơ ron nhân tạo

Nơ ron là đơn vị chức năng nhỏ nhất trong não Ngoài các phần khác, nó bao gồm thân

tế bào, các nhánh thụ thể và trục axon Các nhánh thụ thể tạo thành ”đầu nhận”của tế bào,trong khi trục axon là “đầu truyền” Thông thường, các nơ ron có nhiều nhánh thụ thể,nhưng chỉ có một trục axon (tuy nhiên có ngoại lệ) Trục axon của một tế bào kết nối vớicác nhánh thụ thể của tế bào khác thông qua các kết nối hóa sinh Những kết nối này cómột sức mạnh nhất định, xác định mức độ tín hiệu được truyền từ một tế bào đến tế bàotiếp theo Đơn giản thì, các tín hiệu đầu vào từ các nhánh thụ thể được tổng hợp trong thân

tế bào và nếu tín hiệu tích lũy vượt qua một ngưỡng nhất định, nó sẽ được truyền tiếp đến

tế bào kế tiếp qua trục axon Trong nhiều thập kỷ, các nhà nghiên cứu đã mô phỏng hành

vi này trong các thí nghiệm máy tính, với kết quả đáng chú ý nhất là perceptron, được phátminh bởi Rosenblatt vào năm 1958 Nó được thiết kế để nhận đầu vào là một vector sốthực và đưa ra một dự đoán nhị phân đơn giản là 0 hoặc 1, dựa trên một tập hợp các trọng

số liên kết với đầu vào Perceptron được sử dụng để giải quyết các bài toán phân loại đơngiản và là nền tảng cho nhiều mạng nơ ron nhân tạo phức tạp hơn

Hình 2.1.1: Thông tin từ các dây thần kinh đến được biểu diễn bởi x i Sức mạnh kết

nối của các khớp thần kinh được mô hình bằng tham số trọng số ω i Tổng trọng sốđược tính bằng cách cộng dồn các giá trị đầu vào được nhân với trọng số tương ứng,

mô phỏng quá trình tích lũy thông tin trong thân tế bào Tiếp theo là hàm kích hoạt

f , quyết định thông tin có được truyền đi hay không Đầu ra cuối cùng y tương đương

với trục truyền thần kinh và trở thành đầu vào (x) cho nơ ron tiếp theo.

Trang 22

Hình 2.1.2: Mỗi hình tròn biểu thị một neuron, thực hiện phép cộng và kích hoạt.

Mỗi đường là một kết nối có trọng số đến các neuron ở lớp trước đó Ví dụ này mô tảcác lớp được kết nối đầy đủ Các lớp trong mạng được gọi là các lớp ẩn

Neuron nhân tạo có thể được mô hình bằng phương trình 2.1, bao gồm tổng trọng số,theo sau bởi một hàm kích hoạt phi tuyến tính (xem 2.1.1) mô phỏng ngưỡng được ápdụng bởi thân tế bào:

x i: Đầu vào của neuron

ω i: Tham số trọng số

β i: Giá trị bias

f : Hàm kích hoạt (xem 2.1.1)

y : Đầu ra của neuron.

Các trọng số kết nối ω i được học trong quá trình lan truyền ngược, mà chúng ta sẽ thảoluận trong phần lan truyền ngược Nhiều neuron có thể được ghép lại để tạo thành các lớp.Bằng cách kết nối các lớp theo chuỗi, các phép toán logic đơn giản có thể được thực hiện.Với sự phức tạp tăng lên, mạng cũng có thể thực hiện các nhiệm vụ phức tạp hơn Hình2.1.2 cho một ví dụ về một đa tầng perceptron (MLP) [26], được bao gồm các lớp đượckết nối đầy đủ Mỗi neuron của một lớp được kết nối với tất cả các neuron trong lớp trướcđó

Trang 23

2.1.2 Lớp tích chập

Lớp tích chập hay tên tiếng Anh là Convolutional Layers là một loại lớp trong mạng

nơ ron sử dụng trong xử lý và phân tích ảnh Lớp tích chập có khả năng học cách tríchxuất các đặc trưng từ dữ liệu hình ảnh thông qua quá trình tích chập của các bộ lọc (filter)với ảnh đầu vào

Mỗi bộ lọc có thể được hiểu như là một ma trận nhỏ H k ×W k ×C thường có kích thước

3× 3 hoặc 5 × 5 pixel, được trượt qua trên toàn bộ ảnh đầu vào để tạo ra một bản đồ đặc

trưng mới Quá trình này tương đương với việc tìm kiếm các đặc trưng cụ thể của ảnh, ví

dụ như cạnh, đường cong hay hình dạng

Đầu ra của phép tích chập là một mảng mới có kích thước (H −H k+ 1)×(W−W k+ 1),

vì vậy chiều sâu bị bào mòn bởi phép tích chập và các chiều dọc bị thu nhỏ đi Phép tínhtích chập có thể được hiểu như việc trượt kernel trên hình ảnh đầu vào, tính tích chập của

phần tử tại mỗi vị trí i, j Công thức sau đây đưa ra định nghĩa toán học của phép tính tích

chập, được sử dụng trong học sâu:

l, m, n : Chỉ số không gian và kênh.

Hình 2.1.3 minh họa cách tính tích chập cho một ảnh xám Để có được đầu ra với cùngkích thước chiều ngang và chiều dọc như đầu vào, đầu vào được lót thêm, có nghĩa là cácgiá trị biên được phản chiếu với một chiều rộng phù hợp (ở đây là một)

Trang 24

Hình 2.1.3: Mô tả cách tính toán phần tử thứ hai của hàng đầu tiên Sau bước này,

cửa sổ tính toán trượt sang phải một bước và sau khi hoàn thành một hàng, nó tiếptục sang hàng kế tiếp, nguồn [22]

Lớp tích chập Một lớp tích chập bao gồm N tích chập đang hoạt động song song trên

cùng một đầu vào, mỗi tích chập có một kernel khác nhau Kết quả trung gian là N hình

ảnh hai chiều khác nhau, được gọi là bản đồ đặc trưng (Feature Map) Những bản đồ

đặc trưng này được xếp chồng lên nhau để tạo ra đầu ra của lớp tích chập, có kích thước

(H − H k + 1, W − W k + 1, N) Thông thường, mỗi lớp tích chập được kèm theo một hàm

kích hoạt, và theo sau đó thường là một lớp pooling, giúp giảm kích thước của bản đồ đặctrưng

Hình 2.1.4: Trong một lớp tích chập, N tích chập hoạt động trên đầu vào với các

kernel khác nhau, dẫn đến N đầu ra hai chiều khác nhau Những đầu ra này được xếpchồng lên nhau để tạo ra bản đồ đặc trưng cuối cùng, là đầu ra của lớp

Trang 25

Padding, Stride and Dilation Padding, stride và dilation là các cách để điều khiển kích

thước đầu ra của phép tính tích chập và cách nó trích xuất thông tin từ đầu vào của nó.Khi lót (padding) một ảnh hoặc bản đồ đặc trưng, các giá trị bổ sung được chèn vào xungquanh biên của nó Padding có thể được thực hiện với giá trị hằng số (thường là không)hoặc là giá trị phản chiếu của biên ảnh, như chúng ta đã thấy trong Hình 2.1.3 Càng tăng

độ rộng (padding), kích thước đầu ra sau tích chập càng lớn Do đó, padding có thể được

sử dụng để giữ kích thước chiều ngang của bản đồ đặc trưng trong quá trình tính tích chập.Kernel có thể trượt qua đầu vào với một độ rộng bước nhất định, là stride Kích thướcđầu ra sẽ nhỏ hơn nếu sử dụng stride lớn hơn Ví dụ, stride bằng hai sẽ làm giảm kíchthước đầu ra xuống một nửa Trong trường hợp trên, chúng ta giả sử stride bằng một, vìvậy không có sự giảm thiểu thông tin mạnh Hình 2.1.5 minh họa kết hợp giữa padding vàstride:

Hình 2.1.5: Trong ví dụ này [4], đầu vào (màu xanh) được đệm với p = 1 Kích

thước kernel là 3 và stride là s = 2 Như kết quả, đầu ra (màu xanh lam) có kíchthước bằng một nửa kích thước của đầu vào đã được đệm

Dilation là một kỹ thuật sử dụng để thay đổi kích thước của kernel bằng cách thêmcác giá trị 0 vào giữa các phần tử của kernel Khi kernel được mở rộng bằng dilation, nó

sẽ bao phủ một vùng lớn hơn của input, cho phép mô hình học được các mối tương quantrên khoảng cách lớn hơn giữa các pixel Kỹ thuật dilation được sử dụng để tăng cườngkhả năng giải quyết vấn đề độ sâu (depth) trong CNNs và cải thiện hiệu suất của mô hình.Phương pháp này được minh hoạ như hình 2.1.6

Trang 26

Hình 2.1.6: Phép tích chập sử dụng Dilation với các giá trị 0 được chèn vào trong

kernel Chỉ các giá trị được tô màu xám đóng góp vào kết quả đầu ra Kết quả củaphép tích chập sẽ nhỏ hơn do kích thước kernel lớn hơn (ở đây là 5 x 5 thay vì 3 x 3).Hình ảnh được lấy từ [4]

Tích chập chuyển vị Trong quá trình tính toán, Tích chập chuyển vị hay transposed

convolutions có thể được coi như một phép giải nén (decompression) hoặc mở rộng sampling) của input Phép tích chập chuyển vị có thể là sự kết hợp của các phép padding,stride và dilation để cho phép mẫu đầu vào được phóng to thông qua tích chập, sử dụngmột phương pháp nội suy có thể học được Chúng ta cần lưu ý không nhầm lẫn transposedconvolutions và deconvolution

(up-Hình 2.1.7: Đầu vào kích thước 3x3 được dilated với các giá trị 0 và được padded

thành kích thước 7x7 Sau đó, một phép tích chập thông thường được thực hiện, dẫnđến đầu ra được phóng to kích thước 5x5

2.1.3 Hàm kích hoạt

Hàm kích hoạt hay còn gọi là activation functions được áp dụng trên đầu ra của mộtphép tính toán hoặc một mạng neuron để giới hạn giá trị đầu ra trong một phạm vi cụ thể,thường là [0, 1] hoặc [-1, 1] Các hàm này là một phần quan trọng của các mô hình học

Trang 27

sâu và được sử dụng để giải quyết vấn đề phi tuyến tính bởi vì phép tính tích chập là mộtphép toán tuyến tính, điều này có nghĩa là nếu áp dụng nhiều phép tích chập liên tiếp đểtạo ra một đầu ra, thì sẽ tồn tại một phép tích chập đơn lẻ tạo ra cùng một đầu ra này Điềunày có nghĩa là một mạng nơ ron không có phi tuyến tính về cơ bản chỉ có thể thực hiệncác công việc hồi quy tuyến tính Do đó, phi tuyến tính đóng vai trò then chốt trong cácmạng nơ ron Sau đây là một số hàm kích hoạt phi tuyến thường gặp.

Hàm kích hoạt ReLU ReLU (Rectified Linear Unit) [1] là một hàm kích hoạt phi tuyến

được sử dụng phổ biến trong mạng nơ ron, đặc biệt là trong các mô hình CNN Hàm ReLU

được định nghĩa là f(x) = max(0, x), nghĩa là kết quả của hàm là giá trị x nếu x > 0, và

là 0 nếu x <= 0 Hàm này đơn giản và tính toán nhanh chóng Ngoài ra, hàm ReLU cũng

có khả năng giúp giảm sự phụ thuộc tuyến tính giữa các đầu vào, làm cho mô hình hội

tụ nhanh hơn Tuy nhiên, hàm ReLU cũng có nhược điểm là có thể dẫn đến vấn đề dyingReLU, khi mà một số neuron có giá trị đầu vào âm liên tục và không bao giờ được kíchhoạt, điều này dẫn đến việc neuron này không học được bất kỳ đặc trưng nào cả

Công thức:

ReLU(x) = max(0, x) (2.3)

Hàm kích hoạt Sigmoid Hàm sigmoid [7] hoặc hàm logistic là một hàm kích hoạt được

sử dụng rộng rãi, nó có đạo hàm liên tục và giới hạn giá trị giữa 0 và 1 Điều này giúp nóđược sử dụng để ánh xạ các giá trị tùy ý vào khoảng này Hàm sigmoid có thể được sửdụng như hàm kích hoạt cuối cùng trong các tác vụ phân loại nhị phân, trong đó 0.5 đượccoi là ngưỡng quyết định để phân loại các sự kiện Điểm mạnh là đạo hàm đầu tiên của nórất đơn giản để tính toán

σ(x) = 1

1 + e −x (2.4)

∂σ(x)

∂x = σ(x)(1 − σ(x)) (2.5)

Hàm kích hoạt Softmax Hàm kích hoạt Softmax [6] là một bản tổng quát hóa của hàm

Sigmoid có thể xử lý đầu vào đa chiều Hàm kích hoạt Softmax là một hàm kích hoạtthường được sử dụng trong bài toán phân loại đa lớp Hàm Softmax nhận đầu vào là một

vector z = (z1, z2, , z k ) và trả về một vector đầu ra y = (y1, y2, , y k) có các phần tử là

các giá trị xác suất, với y j là xác suất của lớp thứ j Công thức của hàm Softmax như sau:

σ(z) j = e z j

C

k=1 e z k for j = 1, , C (2.6)

Trang 28

Ở đây, e là số Euler và k là số lượng lớp cần phân loại Công thức này cho ta xác suất của mỗi lớp j dựa trên giá trị đầu vào z j Việc chọn lớp dự đoán là lớp có xác suất cao nhấttrong các xác suất tính được Hàm Softmax được sử dụng để chuyển đổi giá trị đầu ra củamột mạng nơ ron thành xác suất của các lớp.

Hàm kích hoạt Tanh Hàm Tanh (Tanh Activation) [19] là một hàm kích hoạt phi tuyến

được sử dụng trong các mạng neuron nhân tạo Hàm tanh tương tự như hàm Sigmoid,nhưng có giá trị đầu ra từ -1 đến 1 thay vì 0 đến 1

Công thức của hàm tanh là:

2.1.4 Pooling

Phép pooling là một phép tính toán trong mạng nơ ron nhân tạo được sử dụng để giảmkích thước của đầu ra thông qua việc lấy giá trị trung bình hoặc giá trị lớn nhất của cácphần tử trong một vùng cụ thể của đầu vào Thường được sử dụng sau các lớp tích chập

để giảm số lượng thông tin và giảm thiểu overfitting Pooling có thể được thực hiện trêncác định dạng khác nhau của dữ liệu, chẳng hạn như ma trận 2D, tensor 3D hoặc tensor4D, tùy thuộc vào kiểu mô hình và loại đầu vào Max pooling nhận một mảng làm đầu

vào và thay thế mỗi khối các giá trị n × n bằng giá trị lớn nhất của chúng Các biến thể

pooling khác ví dụ như lấy trung bình của mỗi khối Pooling hoạt động độc lập trên từnglớp chiều sâu, vì vậy chỉ có các kích thước bên cạnh được thay đổi Max pooling với kíchthước 2× 2 ví dụ như loại bỏ 75% thông tin đầu vào, điều này giúp giảm số lượng tham

số trong các lớp sau Điều này giảm nguy cơ overfitting và tăng tốc tính toán Pooling làmột phép tất định và không cần tham số học Đôi khi để giảm kích thước, người ta có thểdùng convolution với stride để thay thế pooling là một phép có chứa tham số học

Sau đây là hình ảnh minh hoạ của phép pooling:

Trang 29

Hình 2.1.8: Ví dụ về max pooling 2x2 Mỗi khối 2x2 được thay thế bằng giá trị lớn

nhất của nó

2.1.5 Các chỉ số đánh giá

Các chỉ số đánh giá hay metrics là các đại lượng số được sử dụng để đo lường hiệusuất của một mô hình học máy hoặc thuật toán trong việc giải quyết một vấn đề cụ thể.Tùy thuộc vào nhiệm vụ, ta phải chọn một chỉ số phù hợp Trong phân loại hình ảnh giữa

C lớp, mạng sẽ trả về một vec tơ được chuẩn hoá y p ∈ R C, mỗi thành phần của vec tơ ứng

với xác suất của lớp tương ứng sẽ được ký hiệu y p,c Khi một mạng phân đoạn hình ảnh,

nó sẽ trả về bản đồ xác suất hoặc ma trậnYp ∈ R H ×W×C Ma trận này sẽ có chiều cao H

hàng, chiều rộng W cột và chiều sâu C kênh, ma trận này sẽ được định hình lại bằng cáchnối các hàng (RH ×W×C → R H.W ×C ) Về cơ bản, nó sẽ chính là các vec tơ kích thước C với

H.W thành phần sẽ được biểu diễn dưới dạngyp,c và vec tơ này sẽ được so sánh với mẫuchính xácyt Tiếp theo sẽ là một số chỉ số đánh giá thường gặp trong các bài toán

Intersection over Union Intersection over Union (IoU) [24] là chỉ số phần giao trên phần

hợp hay còn gọi là chỉ số Jaccard (J) được dùng để đo lường chất lượng phân đoạn hình

ảnh Giá trị này nằm trong khoảng 0 đến 1 Khi tiến dần về 1, kết quả dự đoán và mẫu thực

tế sẽ càng trùng nhau Vơi hai tập A và B có thể được thể hiện qua công thức sau:

Trang 30

cho lớp c có thể được định nghĩa như sau:

ni : Số lượng các trường hợp (hoặc pixel) của lớp i.

Accuracy, Precision and Recall Accuracy là chỉ số được sử dụng để đánh giá hiệu suất

của mô hình phân loại Nó tính tỷ lệ giữa số lần mô hình dự đoán đúng và tổng số dữ liệuđược dự đoán Công thức tính Accuracy được biểu diễn như sau:

Accuracy = TP + TN

TP + TN + FP + FN (2.12)

Trong đó,

TP là True Positive, tức số lượng trường hợp mô hình dự đoán đúng là positive

TN là True Negative, tức số lượng trường hợp mô hình dự đoán đúng là negative

FP là False Positive, tức số lượng trường hợp mô hình dự đoán sai là positive

FN là False Negative, tức số lượng trường hợp mô hình dự đoán sai là negative.

Trang 31

Ví dụ, giả sử chúng ta có một bộ dữ liệu gồm 100 mẫu, trong đó 70 mẫu thuộc lớp A

và 30 mẫu thuộc lớp B Mô hình học máy dự đoán rằng 65 mẫu thuộc lớp A và 35 mẫuthuộc lớp B Khi đó, TP = 65, TN = 5, FP = 0, FN = 30 Từ đó, ta tính được Accuracy của

mô hình như sau:

Accuracy = 65 + 5

65 + 5 + 0 + 30 =

70

100 = 0.7

Do đó, Accuracy của mô hình là 70%

Precision là chỉ số được sử dụng để đánh giá khả năng của mô hình phân loại trongviệc dự đoán đúng các trường hợp positive Nó tính tỷ lệ giữa số lần mô hình dự đoán đúng

là positive và tổng số lần mô hình dự đoán là positive Công thức tính Precision được biểudiễn như sau:

Recall = TP

Ví dụ, giả sử chúng ta có một bộ dữ liệu gồm 100 mẫu, trong đó 70 mẫu thuộc lớp A

và 30 mẫu thuộc lớp B Mô hình học máy dự đoán rằng 65 mẫu thuộc lớp A và 35 mẫuthuộc lớp B Khi đó, TP = 65, FN = 5 Từ đó, ta tính được Recall của mô hình như sau:

Trang 32

và Recall để đánh giá tổng thể hiệu suất của mô hình phân loại Nó được tính bằng trung

bình điều hòa (Harmonic Mean) của Precision và Recall Công thức tính F1-Score được

biểu diễn như sau:

F1_Score = 2 × Precision × Recall

Precision + Recall (2.15)

Với công thức trên, giá trị F1-Score sẽ càng cao nếu cả Precision và Recall đều cao.F1-Score có giá trị từ 0 đến 1, và giá trị càng gần 1 thì mô hình phân loại càng tốt

Ví dụ, giả sử chúng ta có một bộ dữ liệu gồm 100 mẫu, trong đó 70 mẫu thuộc lớp A

và 30 mẫu thuộc lớp B Mô hình học máy dự đoán rằng 65 mẫu thuộc lớp A và 35 mẫuthuộc lớp B Khi đó, TP = 65, FP = 0, FN = 5 Từ đó, ta tính được Precision và Recall của

mô hình như sau:

1 + 1314 ≈ 0.96

Do đó, F1-Score của mô hình là khoảng 96%

2.1.6 Hàm mất mát

Hàm mất mát hay còn gọi là Loss Function là một công cụ quan trọng trong học máy

và học sâu để đánh giá hiệu suất của một mô hình dự đoán trên một tập dữ liệu huấn luyện

Nó thường được sử dụng để đo lường sự khác biệt giữa giá trị đầu ra dự đoán và giá trịthực tế của dữ liệu Hàm mất mát thường được biểu diễn dưới dạng một biểu thức toánhọc, chẳng hạn như:

Trong đó, y là giá trị thực tế của dữ liệu, ˆy là giá trị đầu ra dự đoán của mô hình, l là một hàm mất mát đơn lẻ được áp dụng cho mỗi cặp giá trị (y i , ˆ y i ), và N là số lượng mẫu

trong tập dữ liệu huấn luyện Hàm mất mát này tính trung bình của các hàm mất mát đơn

lẻ trên toàn bộ tập dữ liệu huấn luyện

Trang 33

Trong bài toán phân loại, Công thức của hàm mất mát Categorical Cross Entropy có thể

được viết như sau:

Trong đó, y là vector one-hot encoding của nhãn đúng của dữ liệu và ˆy là vector đầu

ra dự đoán của mô hình, có cùng kích thước với y Hàm mất mát này tính toán tổng của các giá trị logarithm của các phần tử trong ˆy nhân với các phần tử tương ứng trong y Một số hàm mất mát phổ biến khác là là hàm bình phương sai số (Mean Squared

Error), hàm Cross Entropy, và hàm Log Likelihood Việc chọn hàm mất mát phù hợp là

một yếu tố quan trọng trong việc xây dựng một mô hình dự đoán chính xác và hiệu quả

2.1.7 Lan truyền ngược

Giải thuật lan truyền ngược hay Backpropagation là một phương pháp quan trọng

trong học sâu để tính toán đạo hàm của hàm mất mát theo các tham số trong mô hình Nóđược sử dụng trong quá trình huấn luyện mạng nơ ron để cập nhật các trọng số và bias củamạng

Lan truyền ngược được sử dụng để tính toán độ dốc của hàm mất mát theo các trọng

số của mô hình Nó được thực hiện thông qua lan truyền ngược thông tin từ lớp đầu ra đếnlớp đầu vào của mô hình Thuật toán lan truyền ngược có thể được mô tả bằng các bướcsau:

• Tính toán đầu ra của mô hình dự đoán bằng cách sử dụng các trọng số hiện tại vàcác đầu vào của mô hình

ˆy = f(W (L) f(W (L −1) f(W(1)x + b(1)) ) + b (L)) (2.18)

Trong đó, W (i) và b (i) lần lượt là trọng số và bias của lớp thứ i, f là hàm kích hoạt và

x là đầu vào của mô hình.

• Tính toán gradient của hàm mất mát theo đầu ra dự đoán

∂L

Trang 34

• Lan truyền ngược thông tin để tính toán gradient của hàm mất mát theo các trọng

số và bias của mô hình Đầu tiên, tính toán gradient của hàm mất mát theo đầu racủa mỗi lớp

Trong đó, a (i) là giá trị đầu vào của lớp thứ i trước khi áp dụng hàm kích hoạt, ⊙ là

phép nhân Hadamard (element-wise multiplication) và f ′ là đạo hàm của hàm kíchhoạt

• Tính toán độ dốc của hàm mất mát theo các trọng số và bias của mô hình Với mỗi

lớp i từ cuối cùng đến lớp đầu tiên, tính toán độ dốc của hàm mất mát theo trọng số

W (i) và bias b (i):

∂a (i) là độ dốc của hàm mất mát theo đầu vào của lớp i đã được tính toán ở bước 3.

• Cập nhật các trọng số và bias của mô hình bằng cách sử dụng độ dốc đã tính toán và

một thuật toán tối ưu hóa như Gradient Descent, Stochastic Gradient Descent hoặc

Trong đó, η là tham số học Lặp lại các bước này cho tất cả các điểm dữ liệu trong

tập huấn luyện cho đến khi đạt được điều kiện dừng hoặc đạt đủ số lần lặp

2.1.8 Các thuật toán tối ưu hóa

Trong học sâu, thuật toán tối ưu hóa (Optimizers) là một thành phần quan trọng trong

quá trình huấn luyện mô hình Optimizer giúp tối ưu hóa các tham số của mô hình để giảmthiểu giá trị hàm mất mát trên tập huấn luyện

Trang 35

Trong quá trình huấn luyện một mô hình, một bộ dữ liệu được sử dụng để đào tạo môhình, và hàm mất mát được tính để đo lường độ sai khác giữa đầu ra được dự đoán bởi môhình và đầu ra thực tế Hàm mất mát này là một hàm số có nhiều điểm cực tiểu, và việctìm ra giá trị tối ưu của các tham số mô hình để giảm thiểu giá trị của hàm mất mát trêntập huấn luyện là vấn đề quan trọng.

Các thuật toán tối ưu hóa được thiết kế để cập nhật các tham số của mô hình dựa trênđạo hàm của hàm mất mát, với mục tiêu giảm thiểu giá trị của hàm mất mát theo thời gian.Các thuật toán tối ưu hóa khác nhau có các phương pháp cập nhật tham số khác nhau, vớinhững ưu điểm và nhược điểm riêng Một số thuật toán tối ưu hóa phổ biến trong học sâubao gồm:

Stochastic Gradient Descent (SGD) [27] là một thuật toán tối ưu đơn giản và phổ biến

trong học sâu, được sử dụng để tối ưu hóa các hàm mất mát Thuật toán này hoạt độngbằng cách cập nhật trọng số của mô hình theo từng mẫu dữ liệu đơn lẻ thay vì toàn bộ tập

dữ liệu Bên dưới là chi tiết về thuật toán SGD:

Cho một mẫu dữ liệu (x i , y i ) trong tập huấn luyện, với x i là đầu vào và y i là đầu ra

tương ứng Kí hiệu W là tập hợp các tham số cần tối ưu của mô hình, bao gồm các trọng

số và bias

Các bước trong SGD như sau:

• Khởi tạo các tham số ban đầu W0

• Lặp lại các bước sau cho t = 1, 2, , T:

a Lấy ngẫu nhiên một mẫu dữ liệu (x i , y i) từ tập huấn luyện

b Tính đầu ra dự đoán ˆyi bằng cách sử dụng mô hình với các tham số hiện tại Wt − 1.

c Tính đạo hàm của hàm mất mát L theo tham số W tại mẫu dữ liệu (x i , y i):

Trang 36

cao có thể dẫn đến Overshooting (đi qua cực tiểu địa phương), trong khi đó tham

số học quá thấp có thể dẫn đến tốc độ học chậm và mất thời gian huấn luyện

• Kết thúc quá trình huấn luyện và trả về các tham số tối ưu W T

Với các mẫu dữ liệu đơn lẻ, SGD có khả năng tối ưu hóa nhanh hơn so với các phươngpháp tối ưu trên toàn bộ tập dữ liệu Tuy nhiên, SGD cũng có thể dẫn đến các bước cậpnhật tham số không ổn định và dao động nhiều hơn, do đó mô hình có thể hội tụ chậmhoặc không hội tụ, ngoài ra SGD không đảm bảo đạt được cực tiểu toàn cục của hàm mấtmát, vì SGD có thể bị mắc kẹt ở cực tiểu địa phương Tuy nhiên, với sự kết hợp của các kỹ

thuật khác như tham số học Scheduling và Momentum, SGD có thể tránh được tình trạng

này và tối ưu hóa tốt hơn

Adam Adam (Adaptive Moment Estimation) [12] là một trong những thuật toán tối ưu

phổ biến trong học sâu, được phát triển bởi Diederik P Kingma và Jimmy Ba vào năm

2015 Thuật toán Adam kết hợp giữa SGD với Momentum và RMSProp để cập nhật trọng

số của mô hình

Các bước trong thuật toán Adam như sau:

• Khởi tạo các tham số ban đầu: trọng số mô hình W, tham số học α, momentum β1,

và RMSProp decay rate β2

• Khởi tạo giá trị ban đầu cho first moment vector m0 và second moment vector v0

bằng 0

• Lặp lại các bước sau cho t = 1, 2, , T:

1 Lấy một lô ngẫu nhiên gồm m mẫu từ tập huấn luyện.

2 Tính gradient của hàm mất mát J theo trọng số W trên lô này:

Trang 37

5 Chỉnh sửa first và second moment estimate để tránh sự Bias:

• Kết thúc quá trình huấn luyện và trả về trọng số tối ưu W T

Adam sử dụng first moment estimate m t để tính toán độ lớn và hướng của gradient, và second moment estimate v t để thay đổi tham số học dựa trên lịch sử của gradient Những

thông tin này giúp thuật toán cân bằng giữa việc di chuyển nhanh đến điểm cực tiểu vàviệc tránh nhảy qua điểm cực tiểu địa phương Adam cũng giúp tăng tốc quá trình hội tụ

của mô hình bằng cách tự động điều chỉnh tham số học dựa trên độ lớn của gradient và

độ lớn của gradient trung bình.

2.1.9 Chuẩn hóa theo lô

Chuẩn hóa theo lô là một kỹ thuật chuẩn hóa đầu vào trong mạng nơ ron để giúp tăng

tốc độ hội tụ của mô hình và giảm hiện tượng mất gradient Kỹ thuật này được sử dụng

trong nhiều kiến trúc mạng nơ ron

Chuẩn hóa theo lô sẽ thay đổi đầu vào của một layer bằng cách chuẩn hóa và phânphối lại các giá trị theo trung bình và độ lệch chuẩn của một lô dữ liệu Cụ thể, với một

lô gồm m mẫu dữ liệu, giả sử đầu vào của layer là x = x1, x2, , x m, Chuẩn hóa theo lô sẽthực hiện các bước sau:

• Tính toán giá trị trung bình μ và độ lệch chuẩn σ trên một lô, được tính bằng cách:

Trang 38

trong đó m là số lượng các đầu vào trong lô.

• Chuẩn hóa lô bằng cách sử dụng giá trị trung bình và độ lệch chuẩn vừa tính được:

ˆ

x i = √x i − μ B

σ2B + ε trong đó ε là một số rất nhỏ để tránh phép chia cho 0.

• Scale và shift để tăng tính linh hoạt của quá trình chuẩn hóa Chuẩn hóa theo lô

thêm hai tham số mới, γ và β vào quá trình chuẩn hóa, để tăng khả năng biểu diễn

của mô hình Khi đó, đầu ra của quá trình chuẩn hóa được tính bằng công thức:

y i = γˆx i + β

Tham số γ và β được học trong quá trình huấn luyện, thông qua việc cập nhật

gra-dient cho chúng.

2.1.10 Tăng cường dữ liệu

Tăng cường dữ liệu hay Augmentation là một kỹ thuật được sử dụng rộng rãi trong

học máy và thị giác máy tính để tăng cường dữ liệu huấn luyện bằng cách tạo ra các phiênbản mới từ dữ liệu huấn luyện ban đầu bằng cách áp dụng các phép biến đổi đơn giản nhưxoay, lật, thay đổi kích thước, cắt, v.v Kỹ thuật này được sử dụng để mở rộng tập dữ liệuhuấn luyện mà không cần thu thập thêm dữ liệu mới từ thực tế, giúp tăng độ chính xác vàkhả năng tổng quát hóa của mô hình

Các kỹ thuật tăng cường dữ liệu thường được áp dụng trên các tập dữ liệu ảnh, baogồm cả ảnh tĩnh và video, nhưng cũng có thể được áp dụng cho các tập dữ liệu văn bản,

Trang 39

• Cắt ảnh theo các vị trí và kích thước khác nhau

• Áp dụng các bộ lọc màu sắc hoặc độ sáng/khả năng tương phản khác nhau

Và nhiều phép biến đổi khác

Các kỹ thuật tăng cường dữ liệu có thể được áp dụng trước khi đưa dữ liệu vào môhình huấn luyện, hoặc có thể được tích hợp trực tiếp vào mô hình, được gọi là lớp tăngcường dữ liệu hoặc lớp tăng cường ảnh

2.2 Viễn Thám

2.2.1 Ảnh vệ tinh

Ảnh vệ tinh (Satellite Imagery) là loại hình dữ liệu được thu thập từ các vệ tinh quan

sát Trái đất và được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau như địa lý, môitrường, nông nghiệp, dự báo thời tiết, tài nguyên đất đai và bảo vệ môi trường

Các vệ tinh quan sát Trái đất được trang bị các cảm biến và hệ thống máy ảnh để chụphình ảnh Trái đất Các cảm biến này có thể bao gồm cảm biến quang học, hồng ngoại, viễnthám radar và lidar để thu thập thông tin về độ sâu, độ cao, độ ẩm và độ bức xạ Chúngtôi sẽ tập trung chỉ vào các cảm biến quang học, vì chúng là đối tượng nghiên cứu thú vịnhất cho các tác vụ xử lý hình ảnh sâu bằng học máy và được phổ biến nhất

Một số cảm biến quang học trong các vệ tinh quan sát Trái đất được sử dụng để chụpcác hình ảnh có độ phân giải khác nhau, từ đó thu thập thông tin về các yếu tố khác nhautrên Trái đất, chẳng hạn như địa hình, bề mặt đất, tài nguyên nước, môi trường, dân số vàcác yếu tố kinh tế khác

Một số chương trình vệ tinh nổi tiếng nhất bao gồm Landsat, Sentinel và MODIS.Landsat là chương trình vệ tinh đầu tiên được phát triển để thu thập thông tin về các yếu tốmôi trường và tài nguyên trên Trái đất Sentinel là một chương trình vệ tinh do Châu Âuphát triển, được thiết kế để theo dõi thay đổi khí hậu và môi trường MODIS là một cảmbiến được sử dụng trong các chương trình vệ tinh như Aqua và Terra để thu thập thôngtin về khí hậu, môi trường và tài nguyên đất đai Một số vệ tinh quan trọng khác bao gồmPléiades 1A/B và các vệ tinh WorldView Hầu hết các vệ tinh quan sát từ xa cảm biếnquang học quay quanh Trái đất trong quỹ đạo Trái đất thấp, với độ cao trung bình từ 450

Trang 40

km đến 800 km trên quỹ đạo cực bắc, đồng bộ với mặt trời.

Quỹ đạo đồng bộ mặt trời có hai lợi thế chính: đầu tiên, nó cho phép đặt vệ tinh trongánh sáng mặt trời liên tục và thứ hai, một điểm cụ thể trên Trái đất luôn được chụp dướiđiều kiện ánh sáng giống nhau, ngoại trừ các thay đổi mùa Điều này tăng tính khả so sánhcủa các hình ảnh thu được Vì mặt phẳng quỹ đạo đồng bộ mặt trời xoay chậm quanh Tráiđất và Trái đất xoay quanh chính nó, các vệ tinh có thể quay trở lại mỗi khu vực quan tâmtrong vài ngày hoặc thậm chí mỗi ngày Tùy thuộc vào độ cao, tiêu cự và cảm biến, vệtinh chụp một khu vực có chiều rộng nhất định (chiều rộng dải) ở mức độ mặt đất Chiềurộng dải có phạm vi từ 8 km (SkySat) đến 185 km (Landsat 8), dẫn đến một phạm vi lý

thuyết lên đến một triệu km2 mỗi ngày Mỗi vệ tinh chụp ảnh tại một tập các bước sóngnhất định, bảng 2.2.1 cung cấp thông tin về các bước sóng của ảnh Sentinel 2

Bảng 2.2.1: Dải kênh, độ dài bước sóng, chất lượng phân giải ảnh, và mô tả chi tiết

B5 698.0 - 712.0 20 Vegetation Red Edge

B6 733.0 - 747.0 20 Vegetation Red Edge

B7 773.0 - 793.0 20 Vegetation Red Edge

Ảnh hàng không (Aerial Imagery) là kỹ thuật thu thập ảnh không gian từ máy bay hoặc

trực thăng Kỹ thuật này được sử dụng để tạo ra các bản đồ và bản đồ địa chính với độchính xác cao, hỗ trợ cho việc quản lý đất đai, khảo sát môi trường, quản lý tài nguyên vàquản lý thảm họa

Ảnh hàng không có thể được thu thập bằng cách sử dụng các máy bay chuyên dụnghoặc bằng cách gắn máy ảnh trên máy bay thương mại và thực hiện chuyến bay thăm dò

Ngày đăng: 03/06/2023, 08:17

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Abien Fred Agarap. Deep learning using rectified linear units (relu). arXiv preprint arXiv:1803.08375, 2018 Sách, tạp chí
Tiêu đề: Deep learning using rectified linear units (relu)
Tác giả: Abien Fred Agarap
Nhà XB: arXiv
Năm: 2018
[4] Vincent Dumoulin and Francesco Visin. A guide to convolution arithmetic for deep learning, 2018 Sách, tạp chí
Tiêu đề: A guide to convolution arithmetic for deep learning
Tác giả: Vincent Dumoulin, Francesco Visin
Năm: 2018
[5] Nicolas Girard, Dmitriy Smirnov, Justin Solomon, and Yuliya Tarabalka. Polygonal building segmentation by frame field learning, 2021 Sách, tạp chí
Tiêu đề: Polygonal building segmentation by frame field learning
Tác giả: Nicolas Girard, Dmitriy Smirnov, Justin Solomon, Yuliya Tarabalka
Năm: 2021
[6] Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep Learning. MIT Press, 2016. http://www.deeplearningbook.org Sách, tạp chí
Tiêu đề: Deep Learning
Tác giả: Ian Goodfellow, Yoshua Bengio, Aaron Courville
Nhà XB: MIT Press
Năm: 2016
[7] Jun Han and Claudio Moraga. The influence of the sigmoid function parameters on the speed of backpropagation learning. In José Mira and Francisco Sandoval, editors, From Natural to Artificial Neural Computation, pages 195–201, Berlin, Heidelberg, 1995. Springer Berlin Heidelberg. ISBN 978-3-540-49288-7 Sách, tạp chí
Tiêu đề: From Natural to Artificial Neural Computation
Tác giả: Jun Han, Claudio Moraga
Nhà XB: Springer Berlin Heidelberg
Năm: 1995
[8] K. He, G. Gkioxari, P. Dollar, and R. Girshick. Mask r-cnn. In 2017 IEEE In- ternational Conference on Computer Vision (ICCV), pages 2980–2988, 2017. doi:10 . 1109 /ICCV. 2017 . 322 Sách, tạp chí
Tiêu đề: Mask r-cnn
Tác giả: K. He, G. Gkioxari, P. Dollar, R. Girshick
Nhà XB: 2017 IEEE International Conference on Computer Vision (ICCV)
Năm: 2017
[9] Long P. Hoang, Dung D. Le, Tran Anh Tuan, and Tran Ngoc Thang. Improving pareto front learning via multi-sample hypernetworks, 2023 Sách, tạp chí
Tiêu đề: Improving pareto front learning via multi-sample hypernetworks
Tác giả: Long P. Hoang, Dung D. Le, Tran Anh Tuan, Tran Ngoc Thang
Năm: 2023
[10] Justin Johnson, Alexandre Alahi, and Li Fei-Fei. Perceptual losses for real-time style transfer and super-resolution. CoRR, abs/1603.08155, 2016. URL http://arxiv.org/abs/ 1603 . 08155 Sách, tạp chí
Tiêu đề: Perceptual losses for real-time style transfer and super-resolution
Tác giả: Justin Johnson, Alexandre Alahi, Li Fei-Fei
Nhà XB: CoRR
Năm: 2016
[11] Kaggle. 2018 data science bowl. 2018. URL https://www.kaggle.com/competitions/data-science-bowl- 2018 /overview/evaluation. (visited on 2018-12-02) Sách, tạp chí
Tiêu đề: 2018 data science bowl
Tác giả: Kaggle
Năm: 2018
[12] Diederik P. Kingma and Jimmy Ba. Adam: A method for stochastic optimization, 2017 Sách, tạp chí
Tiêu đề: Adam: A method for stochastic optimization
Tác giả: Diederik P. Kingma, Jimmy Ba
Năm: 2017
[13] Weijia Li, Wenqian Zhao, Huaping Zhong, Conghui He, and Dahua Lin. Joint semantic-geometric learning for polygonal building segmentation. Proceedings of the AAAI Conference on Artificial Intelligence, 35, 05 2021. doi: 10 . 1609 /aaai.v 35 i 3 . 16291 Sách, tạp chí
Tiêu đề: Joint semantic-geometric learning for polygonal building segmentation
Tác giả: Weijia Li, Wenqian Zhao, Huaping Zhong, Conghui He, Dahua Lin
Nhà XB: Proceedings of the AAAI Conference on Artificial Intelligence
Năm: 2021
[14] Shijie Looi. Rotated mask r-cnn: From bounding boxes to rotated bounding boxes.https://github.com/mrlooi/rotated_maskrcnn, 2019 Sách, tạp chí
Tiêu đề: Rotated mask r-cnn: From bounding boxes to rotated bounding boxes
Tác giả: Shijie Looi
Năm: 2019
[15] Microsoft. Understanding scale and resolution. 2023. URL https://learn.microsoft.com/en-us/bingmaps/articles/understanding-scale-and-resolution. (visited on 2023-03-30) Sách, tạp chí
Tiêu đề: Understanding scale and resolution
Tác giả: Microsoft
Năm: 2023
[16] Herbei Mihai Valentin. Topology of spatial data. 06 2011. doi: 10 . 5593 /SGEM 2015 / B 22 /S 11 . 146 Sách, tạp chí
Tiêu đề: Topology of spatial data
Tác giả: Herbei Mihai Valentin
Năm: 2011
[17] Anish Mittal, Rajiv Soundararajan, and Alan C. Bovik. Making a “completely blind”image quality analyzer. IEEE Signal Processing Letters, 20(3):209–212, 2013. doi:10 . 1109 /LSP. 2012 . 2227726 Sách, tạp chí
Tiêu đề: Making a “completely blind” image quality analyzer
Tác giả: Anish Mittal, Rajiv Soundararajan, Alan C. Bovik
Nhà XB: IEEE Signal Processing Letters
Năm: 2013
[18] Takeru Miyato, Toshiki Kataoka, Masanori Koyama, and Yuichi Yoshida. Spectral normalization for generative adversarial networks. CoRR, abs/1802.05957, 2018.URL http://arxiv.org/abs/ 1802 . 05957 Sách, tạp chí
Tiêu đề: Spectral normalization for generative adversarial networks
Tác giả: Takeru Miyato, Toshiki Kataoka, Masanori Koyama, Yuichi Yoshida
Nhà XB: CoRR
Năm: 2018
[19] Chigozie Nwankpa, Winifred Ijomah, Anthony Gachagan, and Stephen Marshall.Activation functions: Comparison of trends in practice and research for deep learn- ing. CoRR, abs/1811.03378, 2018. URL http://arxiv.org/abs/ 1811 . 03378 . [20] OSM. Sunnyvale uav labels. 2022. https://www.openstreetmap.org/ Sách, tạp chí
Tiêu đề: Activation functions: Comparison of trends in practice and research for deep learning
Tác giả: Chigozie Nwankpa, Winifred Ijomah, Anthony Gachagan, Stephen Marshall
Nhà XB: CoRR
Năm: 2018
[21] Daniele Panozzo, Enrico Puppo, Marco Tarini, and Olga Sorkine-Hornung. Frame fields: Anisotropic and non-orthogonal cross fields. ACM Transactions on Graphics, 33(4), 2014. ISSN 0730-0301. doi: 10 . 1145 / 2601097 . 2601179 Sách, tạp chí
Tiêu đề: Frame fields: Anisotropic and non-orthogonal cross fields
Tác giả: Daniele Panozzo, Enrico Puppo, Marco Tarini, Olga Sorkine-Hornung
Nhà XB: ACM Transactions on Graphics
Năm: 2014
[22] Michael Plotke. 2d image-kernel convolution animation. 2023. URL https://commons.wikimedia.org/wiki/File: 2 D_Convolution_Animation.gif. [On- line; accessed 30-April-2023] Sách, tạp chí
Tiêu đề: 2d image-kernel convolution animation
Tác giả: Michael Plotke
Năm: 2023
[23] Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R. Zaiane, and Martin Jagersand. U2-net: Going deeper with nested u-structure for salient ob- ject detection. Pattern Recognition, 106:107404, Oct 2020. ISSN 0031-3203. doi:10 . 1016 /j.patcog. 2020 . 107404 . URL http://dx.doi.org/ 10 . 1016 /j.patcog. 2020 . 107404 Sách, tạp chí
Tiêu đề: U2-net: Going deeper with nested u-structure for salient object detection
Tác giả: Xuebin Qin, Zichen Zhang, Chenyang Huang, Masood Dehghan, Osmar R. Zaiane, Martin Jagersand
Nhà XB: Pattern Recognition
Năm: 2020

HÌNH ẢNH LIÊN QUAN

Hình 3.1.1: Kiến trúc mô hình U-Net [25] - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 3.1.1 Kiến trúc mô hình U-Net [25] (Trang 48)
Hình 3.2.1: Kiến trúc mô hình U-2net - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 3.2.1 Kiến trúc mô hình U-2net (Trang 54)
Hình 3.2.2: Cấu tạo khối RSU [23] - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 3.2.2 Cấu tạo khối RSU [23] (Trang 55)
Hình 3.4.3: Quá trình giảm chất lượng ảnh và tạo ra mất mát trong mô hình Real- Real-ESRGAN [30] - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 3.4.3 Quá trình giảm chất lượng ảnh và tạo ra mất mát trong mô hình Real- Real-ESRGAN [30] (Trang 65)
Hình 4.2.1: Mask-R CNN và U2-Net kết hợp để tạo thành một đa mô hình tổng quát [2] - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 4.2.1 Mask-R CNN và U2-Net kết hợp để tạo thành một đa mô hình tổng quát [2] (Trang 70)
Hình 4.2.2: Giá trị AP tại các ngưỡng IoU trên 3 bộ dữ liệu [2] - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 4.2.2 Giá trị AP tại các ngưỡng IoU trên 3 bộ dữ liệu [2] (Trang 72)
Hình 4.3.3: Giá trị AP và AR tại các ngưỡng IoU trên bộ VN UAV - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 4.3.3 Giá trị AP và AR tại các ngưỡng IoU trên bộ VN UAV (Trang 79)
Hình 4.4.1: Hình ảnh ở các mức độ phân giải khác nhau - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 4.4.1 Hình ảnh ở các mức độ phân giải khác nhau (Trang 82)
Hình 4.4.9: Kết quả mô hình 8X để tăng độ phân giải trên ảnh sentinel 2 - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 4.4.9 Kết quả mô hình 8X để tăng độ phân giải trên ảnh sentinel 2 (Trang 89)
Hình 4.4.10: Quy trình trích xuất dữ liệu ranh giới nông trang - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 4.4.10 Quy trình trích xuất dữ liệu ranh giới nông trang (Trang 91)
Hình 4.4.11: Kết quả chạy mô hình trích xuất ranh giới nông trang trên ảnh 8X sen- sen-tinel 2 - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 4.4.11 Kết quả chạy mô hình trích xuất ranh giới nông trang trên ảnh 8X sen- sen-tinel 2 (Trang 92)
Hình 4.4.12: Một số kết quả trên ảnh tăng cường phân giải và trên ảnh Google Maps - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 4.4.12 Một số kết quả trên ảnh tăng cường phân giải và trên ảnh Google Maps (Trang 93)
Hình 4.5.2 là ảnh chụp của vùng dữ liệu đã sử dụng. 4.5.2 - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 4.5.2 là ảnh chụp của vùng dữ liệu đã sử dụng. 4.5.2 (Trang 95)
Hình 4.5.3: Ảnh trước và sau khi tăng chất lượng phân giải - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 4.5.3 Ảnh trước và sau khi tăng chất lượng phân giải (Trang 96)
Hình 4.5.4: Đánh giá dựa trên chỉ số AP và AR của mình tổng hợp với các cách tiếp cận khác - Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượng trên ảnh viễn thám
Hình 4.5.4 Đánh giá dựa trên chỉ số AP và AR của mình tổng hợp với các cách tiếp cận khác (Trang 98)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w