Một số ứng dụng của bài toán phân đoạn ảnh trong nhận dạng ảnh viễn thám bao gồmphân tích và giám sát sự biến đổi đất đai, phân tích các đối tượng trên bề mặt của trái đất,giám sát và th
Trang 1ĐẠI HỌC BÁCH KHOA HÀ NỘI
Chuyên ngành : Toán Tin
Giảng viên hướng dẫn : TS Trần Ngọc Thăng
Chữ ký GVHD
Hà Nội, 3-2023
Trang 2Lời cảm ơn
Kính gửi thầy cô, gia đình, đồng nghiệp, và bạn bè
Em xin được này tỏ lòng biết ơn sâu sắc nhất tới tất cả mọi người đã giúp đỡ và hỗ trợ
em trong quá trình nghiên cứu và hoàn thành luận văn thạc sĩ của mình
Đầu tiên, em xin gửi lời cảm ơn đến thầy hướng dẫn của mình là giảng viên Tiến SĩTrần Ngọc Thăng Những lời chỉ dẫn, gợi ý và hướng dẫn quý báu của thầy đã giúp emvượt qua những khó khăn trong quá trình nghiên cứu và hoàn thành luận văn của em mộtcách tốt nhất
Em cũng muốn gửi lời cảm ơn tới gia đình của mình Những lời động viên, sự quantâm và hỗ trợ đã giúp em vượt qua những thời điểm trở ngại trong quá trình nghiên cứu
và đối mặt với các khó khăn
Em cũng xin gửi lời cảm ơn tới các đồng nghiệp và bạn bè của mình Sự hỗ trợ và chia
sẻ kinh nghiệm của các bạn đã giúp mình có được nhiều ý tưởng và thông tin bổ ích
Và cuối cùng là lời cảm ơn đến Nhà trường đã cung cấp cho em môi trường học tập
và nghiên cứu chuyên nghiệp Các giảng viên và nhân viên của Nhà trường đã hỗ trợ emnhiều trong quá trình thực hiện luận văn
Trân trọng,
Hồ Trọng Ánh
Trang 3Giảng viên hướng dẫn : TS Trần Ngọc Thăng Hồ Trọng Ánh
Tóm tắt luận văn
Luận văn “Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượngtrên ảnh viễn thám” tập trung vào việc nghiên cứu và cải tiến một số mô hình học máy đểcải thiện độ chính xác của việc nhận dạng đối tượng trong ảnh viễn thám
Trong luận văn, chúng tôi đã sử dụng các phương pháp tiền xử lý dữ liệu để cải thiệnchất lượng của dữ liệu ảnh Sau đó, chúng tôi đã tiến hành nghiên cứu và đánh giá các môhình học máy như Mạng nơ ron tích chập (CNN), Unet, U2-Net, Mask R-CNN, trên tập
dữ liệu ảnh viễn thám
Sau khi đánh giá và so sánh hiệu quả của các mô hình, chúng tôi đã đề xuất một sốcải tiến để tăng độ chính xác của mô hình nhận dạng đối tượng Chúng tôi đã đề xuất sửdụng kết hợp đa mô hình (Multi-Model) để cải thiện kết quả trích xuất móng nhà, và cáckết quả này đã được công bố trên tạp chí hội nghị ICISN 2022 [2] Tiếp theo, trong luậnvăn này, chúng tôi có thêm đề xuất sử dụng mô hình tăng cường độ phân giải kết hợp vớihọc đa nhiệm (Multi-Task Learning) để áp dụng cho các vùng dữ liệu móng nhà khó đó
là ảnh có chất lượng độ phân giải kém và quy hoạch chưa tốt cộng với mật độ dày đặcnhư các khu nhà ổ chuột Từ các kết quả đó, chúng tôi hướng đến mục tiêu mở rộng để
áp dụng cho một bài toán khác đó là bài toán phát hiện ranh giới nông trang trên ảnh độphân giải thấp (Sentinel 10m) bằng cách chỉnh sửa, cải tiến mô hình tăng cường độ phângiải Real-ESRGAN từ 4 lần (4X) lên đến 8 lần (8X)
Để chứng minh cho tính hiệu quả của các đề xuất trên, chúng tôi đã thực hiện các thínghiệm để kiểm chứng và thấy rằng các cải tiến đã đưa ra đã cải thiện đáng kể độ chínhxác của mô hình và giúp nâng cao khả năng nhận dạng đối tượng trong ảnh viễn thám
và giúp mở ra hướng mới giúp ứng dụng hiệu quả các nguồn dữ liệu mở thường có chấtlượng dữ liệu thấp hơn cho các bài toán thực tế
Trang 4Mục lục
1 Giới thiệu chung về bài toán nhận dạng đối tượng trên ảnh viễn thám 1
1.1 Các lớp bài toán thường gặp trong nhận dạng đối tượng ảnh viễn thám 2
1.1.1 Bài toán phân đoạn ảnh 2
1.1.2 Bài toán phân loại ảnh 4
1.1.3 Bài toán nhận dạng cạnh 5
1.1.4 Bài toán nhận diện đối tượng 6
1.2 Một số bài toán được đề cập trong nghiên cứu 7
1.2.1 Bài toán trích xuất móng nhà 7
1.2.2 Bài toán trích xuất ranh giới nông trang 8
2 Cơ sở lý thuyết 10 2.1 Mạng nơ ron 10
2.1.1 Nơ ron 12
2.1.2 Lớp tích chập 14
2.1.3 Hàm kích hoạt 17
2.1.4 Pooling 19
2.1.5 Các chỉ số đánh giá 20
2.1.6 Hàm mất mát 23
2.1.7 Lan truyền ngược 24
2.1.8 Các thuật toán tối ưu hóa 25
2.1.9 Chuẩn hóa theo lô 28
2.1.10 Tăng cường dữ liệu 29
2.2 Viễn Thám 30
Trang 52.2.1 Ảnh vệ tinh 30
2.2.2 Ảnh hàng không 31
2.2.3 Các chỉ số quang phổ 32
2.2.4 Cấu trúc dữ liệu ảnh viễn thám và shapefile 33
2.2.5 Tính liên kết hình học trong hệ thống thông tin địa lý 35
3 Một số mô hình học máy trong quá trình nghiên cứu 37 3.1 Mô hình U-Net 37
3.1.1 Thông tin mô hình 37
3.1.2 Hàm mất mát và tiêu chí đánh giá 40
3.1.3 Xử lý dữ liệu vào ra 40
3.1.4 Huấn luyện mô hình 43
3.1.5 Đánh giá ưu, nhược điểm 43
3.2 Mô hình U2-net 44
3.2.1 Thông tin mô hình 44
3.2.2 Hàm mất mát và tiêu chí đánh giá 46
3.2.3 Đánh giá ưu, nhược điểm 47
3.3 Mô hình Mask-RCNN 47
3.3.1 Thông tin mô hình 47
3.3.2 Hàm mất mát và tiêu chí đánh giá 50
3.3.3 Xử lý dữ liệu vào ra 51
3.3.4 Đánh giá ưu, nhược điểm 52
3.4 Mô hình Real-ESRGAN 53
3.4.1 Ý tưởng cho việc tăng cường độ phân giải ảnh 53
3.4.2 Thông tin mô hình 54
3.4.3 Hàm mất mát và tiêu chí đánh giá 56
4 Nghiên cứu và đề xuất một số phương pháp giúp nâng cao kết quả nhận diện trên ảnh viễn thám 59 4.1 Phát biểu bài toán 59
4.2 Phương pháp kết hợp đa mô hình 60
4.2.1 Giới thiệu về đa mô hình 60
4.2.2 Các vùng dữ liệu 61
4.2.3 Tiêu chí đánh giá 62
4.2.4 Kết quả đạt được 62
4.2.5 Đánh giá ưu nhược điểm của kết hợp đa mô hình 64
4.3 Phương pháp học đa nhiệm 65
4.3.1 Giới thiệu về học đa nhiệm 65
Trang 64.3.2 Ứng dụng học đa nhiệm cho bài toán trích xuất móng nhà 66
4.3.3 Mô hình mạng phân đoạn đa nhiệm 66
4.3.4 Mô hình Frame Field Learning 67
4.3.5 Triển khai mô hình Frame Field Learning 69
4.3.6 Kết quả thử nghiệm Frame Field Learning 69
4.4 Ứng dụng và cải tiến mô hình Real-ESRGAN giúp nâng cao chất lượng dữ liệu 72
4.4.1 Thử nghiệm mô hình Real-ESRGAN 4X 72
4.4.2 Nâng cấp mô hình Real-ESRGAN lên 8X 78
4.4.3 Triển khai huấn luyện mô hình REAL-ESRGAN 8X 79
4.4.4 Ứng dụng nâng cao hiệu quả sử dụng nguồn dữ liệu mở 81
4.5 Mô hình tổng hợp sử dụng cho nhận dạng trên ảnh chất lượng thấp và mật độ đối tượng dày đặc 85
4.5.1 Nguồn dữ liệu 86
4.5.2 Triển khai thử nghiệm 86
4.5.3 Kết quả thử nghiệm 88
Trang 7Danh sách hình vẽ
2.1.1 Nơ ron sinh học và nhân tạo 12
2.1.2 Multilayer perceptron (MLP) 13
2.1.3 Tích chập 15
2.1.4 N tích chập 15
2.1.5 Padding and stride 16
2.1.6 Dilation 17
2.1.7 Tích chập chuyển vị 17
2.1.8 Max pooling 20
2.2.1 Phép chiếu từ ảnh viễn thám 34
3.1.1 Kiến trúc mô hình U-Net 39
3.1.2 Hình ảnh tạo mask từ shapefile 41
3.1.3 Phép trượt trong quá trình xử lý ảnh viễn thám 42
3.2.1 Kiến trúc mô hình U-2net 45
3.2.2 Cấu tạo khối RSU 46
3.3.1 Kiến trúc mô hình Mask-RCNN 48
3.3.2 ROI Align 49
3.4.1 Mạng sinh của mô hình Real-ESRGAN 55
3.4.2 Mạng phân biệt U-Net trong Real-ESRGAN 55
3.4.3 Quá trình hạ cấp trong mô hình Real-ESRGAN 56
4.2.1 Kết hợp đa mô hình 61
4.2.2 Kết quả chỉ số đa mô hình 63
4.2.3 So sánh kết quả móng nhà sử dụng đa mô hình 64
4.3.1 Sơ đồ ứng dụng mô hình mạng phân đoạn đa nhiệm giúp cải thiện kết quả nắn chỉnh [13] 67
4.3.2 Cấu trúc mô hình Frame Field Learning 68
4.3.3 Đồ thị các chỉ số đánh giá mô hình Frame Fields Learning 70
4.3.4 Ảnh kết quả mô hình Frame Fields Learning trên Tập VN UAV 71
Trang 84.4.1 Hình ảnh một số ảnh ở mức độ phân giải khác nhau 73
4.4.2 Tạo ảnh đa tỉ lệ 74
4.4.3 File index chứa tất cả đường dẫn đến ảnh trong thư mục 74
4.4.4 Hình ảnh lúc khởi tạo training mô hình Real-ESRGAN 75
4.4.5 Một số kết quả tăng cường độ phân giải 76
4.4.6 Mô hình 4X để tăng độ phân giải trên ảnh sentinel 2 77
4.4.7 Hình ảnh summary input và output mô hình Real-ESRGAN 8X 78
4.4.8 Tham số hạ cấp dữ liệu 78
4.4.9 Kết quả mô hình 8X để tăng độ phân giải trên ảnh sentinel 2 80
4.4.10 Quy trình trích xuất dữ liệu ranh giới nông trang 82
4.4.11 Trích xuất nông trang trên ảnh Sentinel 2 83
4.4.12 Đối chiếu kết quả trích xuất nông trang giữa ảnh Sentinel 2 và Google Maps 84
4.5.1 Dữ liệu ảnh có chất lượng thấp và mật độ cao 85
4.5.2 Dữ liệu ảnh vùng ổ chuột Mumbai 86
4.5.3 Ví dụ tăng độ phân giải cho Mumbai 87
4.5.4 Đồ thị đánh giá mô hình tổng hợp 89
4.5.5 Kết quả trích xuất bằng mô hình tổng hợp cho ảnh Mumbai 90
Trang 9Danh sách bảng
2.2.1 Thông tin ảnh Sentinel 31
4.2.1 Kết quả đa mô hình 62
4.3.1 Kết quả các chỉ số mô hình Frame Fields Learning 69
4.5.1 Kết quả mô hình tổng hợp 88
Trang 10Thuật ngữ viễn thám (Remote sensing) - điều tra từ xa, xuất hiện từ năm 1960 do mộtnhà địa lý người Mỹ là E.Pruit đặt ra (Thomas, 1999) Ngày nay kỹ thuật viễn thám đãđược phát triển và ứng dụng rất nhanh và rất hiệu quả trong nhiều lĩnh vực Như vậy viễnthám là thông qua kỹ thuật hiện đại không tiếp cận với đối tượng mà xác định nó qua thôngtin ảnh chụp từ xa trên không.
Để có thể sử dụng được dữ liệu viễn thám ta phải có khả năng tách thông tin có ý nghĩa
từ ảnh Đó là nhiệm vụ của việc xử lý ảnh viễn thám Nói cách khác là phải diễn giải vàphân tích ảnh viễn thám Phân tích ảnh viễn thám là thực hiện nhận biết, đo các đối tượngkhác nhau trong ảnh để tách thông tin hữu ích về chúng Xử lý ảnh số viễn thám là thựchiện một loạt thủ tục bao gồm lập khuôn mẫu, hiệu chỉnh dữ liệu, nâng cao chất lượng để
dễ dàng giải đoán hay phân lớp tự động các đối tượng bằng máy tính Để có thể xử lý số
Trang 11ảnh viễn thám, dữ liệu phải được thu thập dưới dạng số phù hợp và lưu trữ trong máy tính.Đồng thời phải có phần cứng, phần mềm phù hợp, nói cách khác phải có hệ thống phântích ảnh phù hợp.
Bài toán nhận diện đối tượng trên ảnh viễn thám là một trong những bài toán quantrọng trong lĩnh vực xử lý ảnh và thị giác máy tính Nó đặt ra thách thức trong việc phântích và xử lý hình ảnh đa dạng từ các nguồn viễn thám khác nhau như vệ tinh, máy baykhông người lái Bài toán này thường được áp dụng trong nhiều lĩnh vực khác nhau, baogồm quản lý tài nguyên đất đai, giám sát môi trường, bảo vệ động vật hoang dã, kiểm soátchất lượng nước và nông nghiệp Nó cho phép chúng ta nhận biết và phân tích các đốitượng trên bề mặt trái đất như cây trồng, rừng, đất trống, đường, công trình xây dựng, mặtnước Để giải quyết bài toán nhận diện đối tượng trên ảnh viễn thám, các kỹ thuật xử lýảnh và học máy được áp dụng để tạo ra các thuật toán phức tạp để phát hiện và phân loạicác đối tượng Trong luận văn này sẽ tập trung đề cập đến một số mô hình máy học sâu
và cải tiến một số mô hình máy học nhằm nâng cao kết quả nhận dạng đối tượng trên ảnhviễn thám
1.1 Các lớp bài toán thường gặp trong nhận dạng đối tượng ảnh
viễn thám
Nhắm đến việc giới thiệu các bài toán phổ biến trong lĩnh vực nhận dạng đối tượngtrên ảnh viễn thám Việc sử dụng các kỹ thuật và phương pháp nhận dạng đối tượng trênảnh viễn thám giúp cho việc phân tích và xử lý dữ liệu trở nên nhanh chóng và chính xáchơn, từ đó đem lại nhiều lợi ích cho các ứng dụng thực tiễn Chương này sẽ giới thiệu vềcác lớp bài toán phổ biến trong nhận dạng đối tượng trên ảnh viễn thám bao gồm phânđoạn ảnh, phân loại ảnh, nhận dạng cạnh, phát hiện đối tượng Ngoài ra, chương cũng sẽgiải thích chi tiết về mỗi lớp bài toán, cung cấp ví dụ và ứng dụng của chúng trong thựctiễn
1.1.1 Bài toán phân đoạn ảnh
Bài toán phân đoạn ảnh (Image segmentation) trong nhận diện ảnh viễn thám là mộttrong những lớp bài toán quan trọng nhất Bài toán này nhằm tìm cách phân chia ảnh thànhcác vùng khác nhau, mỗi vùng chứa các đối tượng tương tự nhau
Trang 12Phân đoạn ảnh có thể được sử dụng để xác định các khu vực đất trống, đất canh tác,đất rừng, đất ngập nước và các vùng khác trong ảnh viễn thám Bằng cách phân đoạn ảnh,chúng ta có thể xác định vị trí của các đối tượng như rừng, đường, đồng cỏ, sông, hồ, v.v.
từ đó giúp cho việc phân tích và xử lý ảnh trở nên dễ dàng và chính xác hơn
Để giải quyết bài toán phân đoạn ảnh trong nhận dạng ảnh viễn thám, có nhiều phươngpháp được áp dụng như: phân đoạn dựa trên màu sắc, phân đoạn dựa trên hình dạng, phânđoạn dựa trên đặc trưng, phân đoạn dựa trên mô hình, v.v
Một số ứng dụng của bài toán phân đoạn ảnh trong nhận dạng ảnh viễn thám bao gồmphân tích và giám sát sự biến đổi đất đai, phân tích các đối tượng trên bề mặt của trái đất,giám sát và theo dõi rừng, xác định đường bờ biển, v.v Tuy nhiên, bài toán phân đoạn ảnhtrong nhận dạng ảnh viễn thám cũng đặt ra một số thách thức, bao gồm độ phức tạp của
dữ liệu, độ phân giải, cấu trúc và hình dạng của đối tượng Do đó, việc lựa chọn phươngpháp và công cụ phù hợp để giải quyết bài toán phân đoạn ảnh rất quan trọng để đảm bảokết quả chính xác và hiệu quả
Bài toán phân đoạn ảnh bằng học sâu (Deep Learning based Image Segmentation) làmột trong những phương pháp hiệu quả để giải quyết bài toán phân đoạn ảnh trong nhậndạng ảnh viễn thám Phương pháp này sử dụng các mô hình học sâu như ConvolutionalNeural Networks (CNN) để học và dự đoán phân đoạn ảnh
Một số mô hình học sâu phổ biến được sử dụng trong bài toán phân đoạn ảnh bao gồm:
• U-Net: Đây là một trong những mô hình đầu tiên được sử dụng cho bài toán phân
đoạn ảnh bằng học sâu Nó sử dụng kiến trúc Encoder-Decoder với các kết nối tắt
(Skip conection) để kết hợp thông tin từ các tầng Encoder và Decoder.
• Mask R-CNN: Đây là một mô hình học sâu sử dụng trong bài toán phân đoạn ảnh
và phát hiện đối tượng Nó kết hợp các lớp phân đoạn và phát hiện đối tượng bằngcách sử dụng một mạng CNN để trích xuất đặc trưng và một mô hình R-CNN đểphát hiện và phân đoạn
• DeepLab: Đây là một mô hình phân đoạn ảnh sử dụng mạng ResNet và Atrous
Spatial Pyramid Pooling (ASPP) để xác định kết quả phân đoạn ASPP cho phép
mô hình xem các vùng ảnh ở nhiều tỷ lệ và kết hợp các thông tin đó để phân đoạn
Phương pháp bài toán phân đoạn ảnh bằng học sâu có nhiều ưu điểm, bao gồm khảnăng phát hiện và phân đoạn các vùng ảnh phức tạp, khả năng tự động học và tinh chỉnhcác đặc trưng, độ chính xác cao hơn so với các phương pháp truyền thống Tuy nhiên, điều
Trang 13quan trọng là việc sử dụng dữ liệu huấn luyện đủ lớn và đa dạng để đảm bảo kết quả chínhxác và hiệu quả.
1.1.2 Bài toán phân loại ảnh
Bài toán phân loại ảnh (Image Classification) trong nhận diện ảnh viễn thám là quá
trình phân loại ảnh thành các lớp đã được xác định trước Mục đích của việc phân loại ảnh
là giúp các nhà nghiên cứu và chuyên gia dễ dàng đưa ra các quyết định và dự đoán về cácđối tượng, đặc tính của một khu vực hoặc một vùng đất nào đó
Bài toán phân loại ảnh bằng học sâu (Deep Learning Image Classification) là một
trong những phương pháp tiên tiến nhất trong nhận diện ảnh viễn thám Nó sử dụng các
mạng neural truyền thống hoặc mạng neural sâu (Deep Neural Network - DNN) để học
các đặc trưng trên ảnh và phân loại chúng vào các lớp đã được định nghĩa trước đó Cácbước chính để giải quyết bài toán phân loại ảnh bằng học sâu bao gồm:
• Chuẩn bị dữ liệu: Bao gồm việc chuẩn hóa và tiền xử lý dữ liệu, tạo ra các tập dữ
liệu huấn luyện, xác nhận và kiểm tra
• Xây dựng mô hình DNN: sử dụng các kiến trúc mạng neural như Convolutional
Neural Networks (CNN), ResNet, EfficientNet, v.v để học các đặc trưng trên ảnh và
phân loại chúng vào các lớp đã được định nghĩa trước đó
• Huấn luyện mô hình: sử dụng tập dữ liệu huấn luyện để đào tạo mô hình và điều
chỉnh các tham số để đạt được hiệu suất tốt nhất
• Đánh giá mô hình: sử dụng tập xác nhận và kiểm tra để đánh giá hiệu suất của mô
hình và kiểm tra xem nó có đáp ứng được yêu cầu của bài toán hay không
Một số kiến trúc mạng neural sử dụng trong bài toán phân loại ảnh bao gồm:
• Mạng nơ ron tích chập (Convolutional Neural Networks - CNN): đây là kiến trúc
mạng neural được sử dụng phổ biến nhất trong bài toán phân loại ảnh Kiến trúc nàyđược thiết kế để học các đặc trưng tại các vùng ảnh khác nhau và từ đó phân loạichúng vào các lớp đã được định nghĩa trước đó
• Residual Network (ResNet): là một kiến trúc mạng neural sâu được đề xuất để giải
quyết vấn đề mất thông tin khi mạng neural sâu trở nên quá sâu
Trang 14• EfficientNet: là một kiến trúc mạng neural mới nhất được đề xuất để giảm kích
thước mô hình và tăng độ chính xác
Bài toán phân loại ảnh bằng học sâu có nhiều ứng dụng trong thực tế như phân loạicác loại cây trồng, phân loại đất đai, phân loại thực vật, phân loại mây, phân loại đám mây,phân loại đường bộ, phân loại đường ray, phân loại nước và phân loại các vùng sạch hoặc
ô nhiễm
1.1.3 Bài toán nhận dạng cạnh
Bài toán nhận dạng cạnh (Edge Detection) trong nhận diện ảnh viễn thám là quá trình
phát hiện các ranh giới giữa các vùng khác nhau trên ảnh Các cạnh có thể được định nghĩa
là sự thay đổi đột ngột của độ sáng giữa hai vùng trên ảnh
Mục đích của bài toán nhận dạng cạnh trong nhận diện ảnh viễn thám là phát hiện vàđịnh vị các cạnh giữa các vùng khác nhau trên ảnh, từ đó giúp phân tích và hiểu được bứcảnh đó Bài toán này có thể giúp xác định đường bờ biển, đường biên giới, các con đường,đường ray, sông và các đối tượng khác trong ảnh viễn thám
Có nhiều phương pháp để giải quyết bài toán nhận dạng cạnh, bao gồm phương pháp
dựa trên ngưỡng (Thresholding), phương pháp dựa trên bộ lọc (Filter based) và phương pháp dựa trên mô hình (Model Based) Trong đó, phương pháp dựa trên mô hình thường
đạt hiệu quả cao nhất vì nó sử dụng các mô hình học máy để học và phát hiện các cạnh
Mô hình học sâu thường được sử dụng để giải quyết bài toán nhận dạng cạnh là mạng
nơ ron tích chập (CNN) CNN có khả năng học được các đặc trưng của ảnh bằng cách sử
dụng các bộ lọc tích chập để trích xuất thông tin Các bộ lọc tích chập có thể phát hiện cácđặc trưng như cạnh, góc, đường cong và các chi tiết khác của ảnh Sau đó, các lớp kết nối
đầy đủ (Fully Connected Layers) được sử dụng để kết hợp các đặc trưng đã trích xuất và
dự đoán các cạnh trên ảnh
Các mô hình CNN phổ biến được sử dụng để giải quyết bài toán nhận dạng cạnh trong
nhận diện ảnh viễn thám bao gồm U-Net, SegNet và FCN (Fully Convolutional Network).
Trong đó, mô hình U-Net được sử dụng rộng rãi để giải quyết bài toán phân đoạn ảnhtrong nhận diện ảnh viễn thám, nhưng nó cũng có thể được sử dụng để giải quyết bài toán
nhận dạng cạnh Mô hình U-Net có kiến trúc bao gồm một phần mã hóa (Encoding) và một phần giải mã (Decoding), giúp mô hình có khả năng phát hiện các đặc trưng trên ảnh
và đưa ra dự đoán chính xác các cạnh
Trang 15Tuy nhiên, bài toán nhận dạng cạnh bằng học sâu trong nhận diện ảnh viễn thám cũnggặp phải nhiều thách thức như độ phân giải thấp, sự mờ hình ảnh do mưa, sương mù, khóibụi, tàng kính và độ sâu của vùng ảnh Vì vậy, việc sử dụng dữ liệu chất lượng cao và cácphương pháp tiền xử lý như chuẩn hóa, tăng cường dữ liệu và sử dụng các kỹ thuật phùhợp để có thể giải quyết các thách thức này.
1.1.4 Bài toán nhận diện đối tượng
Bài toán nhận diện đối tượng (Object Detection) là một trong những bài toán quan
trọng trong lĩnh vực xử lý ảnh và máy học Nó liên quan đến việc phát hiện và định vị cácđối tượng khác nhau trong một hình ảnh hoặc một video Bài toán nhận diện đối tượng cónhiều ứng dụng trong thực tiễn, từ an ninh, giám sát đường phố, đến tự động hóa sản xuất
Các mô hình học sâu cho bài toán nhận diện đối tượng thường sử dụng các kiến trúc
mạng neural tích chập (Convolutional Neural Network - CNN) để học các đặc trưng từ ảnh
và tạo ra một bản đồ đặc trưng của ảnh Sau đó, các mô hình này sử dụng các kỹ thuật như
cửa sổ trượt (Sliding Window) hoặc mạng nơ ron tích chập dựa trên vùng (Region Based
Convolutional Neural Network-RCNN) để phát hiện và định vị các đối tượng trong ảnh.
Các mô hình học sâu phổ biến cho bài toán nhận diện đối tượng bao gồm Faster
R-CNN, YOLO (You Only Look Once), SSD (Single Shot Detection) và RetinaNet Để đạt
được kết quả tốt trong bài toán này, cần sử dụng các kỹ thuật tiền xử lý dữ liệu, tăng cường
dữ liệu, cũng như tối ưu hóa các tham số của mô hình để tăng độ chính xác và giảm thiểuthời gian huấn luyện
Trong ảnh viễn thám là việc sử dụng các mô hình học sâu để phát hiện và định vị cácđối tượng trên ảnh Bài toán này là một trong những bài toán quan trọng trong lĩnh vựcnhận diện ảnh viễn thám vì nó có thể giúp phát hiện các đối tượng như tòa nhà, cây cối,mạng lưới giao thông, các đối tượng trên biển, đất đai, v.v
Tuy nhiên, bài toán nhận diện đối tượng bằng học sâu trong ảnh viễn thám cũng gặp
Trang 16phải nhiều thách thức như độ phân giải thấp, độ sâu của vùng ảnh và sự thay đổi về ánhsáng trong các điều kiện thời tiết khác nhau Vì vậy, việc sử dụng dữ liệu chất lượng cao,các phương pháp tiền xử lý và các kỹ thuật tăng cường dữ liệu là rất quan trọng để đạtđược kết quả tốt trong việc giải quyết bài toán này.
1.2 Một số bài toán được đề cập trong nghiên cứu
1.2.1 Bài toán trích xuất móng nhà
Bài toán trích xuất móng nhà (hay còn gọi là bài toán Building Footprint) là một bài
toán trong lĩnh vực xử lý ảnh và ảnh viễn thám, liên quan đến việc xác định vị trí và kíchthước của các tòa nhà trên bề mặt đất bằng cách phân tích các hình ảnh vệ tinh hoặc máybay không người lái
Mục đích của bài toán trích xuất móng nhà là tìm ra và xác định các tòa nhà, tòa thápcao, nhà xưởng và cấu trúc xây dựng khác được xây dựng trên mặt đất thông qua việcphân tích và phát hiện các đối tượng có dạng và kích thước tương ứng trên ảnh vệ tinhhoặc máy bay không người lái
Để giải quyết bài toán này, các phương pháp xử lý ảnh và ảnh viễn thám, như phânđoạn hình ảnh, phát hiện cạnh, phân tích đối tượng và học máy đều được sử dụng Các môhình học máy được áp dụng rộng rãi như máy vector hỗ trợ (SVM), mạng nơ ron và mạng
nơ ron tích chập (CNN) Có nhiều phương pháp được sử dụng để giải quyết bài toán tríchxuất móng nhà Một số phương pháp phổ biến được sử dụng trong lĩnh vực này như:
• Xử lý ảnh truyền thống: Sử dụng các phương pháp xử lý ảnh truyền thống như
phân đoạn hình ảnh, phát hiện cạnh và xử lý đặc trưng hình ảnh để xác định cácvùng tương ứng với các công trình xây dựng
• Máy vector hỗ trợ (SVM): SVM là một phương pháp học máy phổ biến được sử
dụng trong bài toán trích xuất móng nhà SVM tìm cách phân chia các điểm dữ liệuvào các lớp khác nhau dựa trên đặc trưng của chúng, và được sử dụng để phân loạicác vùng trong ảnh là các công trình xây dựng hoặc không phải là các công trìnhxây dựng
• Mạng nơ ron: Mạng nơ ron được sử dụng rộng rãi trong các bài toán xử lý ảnh và
có thể áp dụng để giải quyết bài toán trích xuất móng nhà Các mạng nơ ron này
Trang 17có thể được huấn luyện để phân loại các vùng trong ảnh là các công trình xây dựnghoặc không phải là các công trình xây dựng.
• Mạng nơ ron tích chập (CNN): CNN là một mô hình mạng nơ ron được thiết kế
đặc biệt để xử lý ảnh và thường được sử dụng trong bài toán trích xuất móng nhà.CNN có khả năng tự động học các đặc trưng của hình ảnh và xác định các vùngtương ứng với các công trình xây dựng
• Kết hợp các phương pháp: Thường thì việc sử dụng một phương pháp đơn lẻ để
giải quyết bài toán trích xuất móng nhà không đủ hiệu quả Thay vào đó, việc kếthợp các phương pháp khác nhau có thể cải thiện đáng kể kết quả và tăng tính chínhxác của bài toán
Bài toán trích xuất móng nhà có nhiều ứng dụng thực tế trong việc giám sát và quản
lý đô thị, xây dựng hạ tầng, quản lý tài nguyên và bảo vệ môi trường Nó có thể được ápdụng trong các lĩnh vực khác nhau, từ địa chính, quy hoạch đô thị, bảo vệ môi trường đếnbảo vệ lãnh thổ và quốc phòng
1.2.2 Bài toán trích xuất ranh giới nông trang
Bài toán trích xuất ranh giới nông trang (hay còn gọi là bài toán Farm Boundaries) là
một bài toán trong lĩnh vực xử lý ảnh và ảnh viễn thám, liên quan đến việc xác định ranhgiới của các khu vực ruộng trên một hình ảnh hoặc một bộ dữ liệu ảnh viễn thám Bài toánnày có ứng dụng quan trọng trong việc quản lý tài nguyên đất đai, giám sát sản xuất nôngnghiệp, đánh giá và dự báo mùa vụ
Mục tiêu của bài toán trích xuất ranh giới nông trang là xác định được vị trí của cácranh giới ruộng trong ảnh Việc này được thực hiện bằng cách áp dụng các kỹ thuật xử lýảnh và ảnh viễn thám để phân tách các khu vực đất đai khác nhau trong ảnh và xác địnhđược đường biên giới giữa các khu vực này Các phương pháp xử lý ảnh truyền thống vàhọc máy đều được sử dụng để giải quyết bài toán này
Một số phương pháp thường được sử dụng để giải quyết bài toán trích xuất ranh giới
nông trang bao gồm phương pháp phân đoạn hình ảnh (Segmentation), phương pháp phát hiện cạnh (Edge Detection), phân tích đối tượng (Object Analysis), và các mô hình học máy như: SVM (Support Vector Machine), Random Forest, Neural Network, và CNN
(Convolutional Neural Network).
Trang 18Bài toán trích xuất ranh giới nông trang là một bài toán khó và đòi hỏi sự chính xáccao trong việc xác định đường biên giới của các khu vực đất đai Tuy nhiên, nó có ý nghĩaquan trọng trong việc quản lý tài nguyên đất đai và phát triển nông nghiệp bền vững.
Trang 19Chương 2
Cơ sở lý thuyết
Phần lý thuyết trong luận văn này được chia thành hai phần: Phần đầu tiên chúng ta sẽthảo luận về mạng nơ ron và trong phần tiếp theo, chúng tôi sẽ đề cập đến việc nhận diệntrên ảnh viễn thám
2.1 Mạng nơ ron
Mạng nơ ron nhân tạo là một trong những kỹ thuật quan trọng của trí tuệ nhân tạo,
nó được lấy cảm hứng từ cấu trúc của các mạng nơ ron trong hệ thống thần kinh của conngười Khi nhắc đến mạng nơ ron nhân tạo, người ta thường đề cập đến bốn thuật ngữ
chính: Mô hình toán, lớp (Layer), học tập (Learning) và trừu tượng hóa (Abstraction).
Mạng nơ ron nhân tạo là một mô hình tính toán, có nghĩa rằng nó nhận đầu vào, xử lý vàtạo ra đầu ra Cấu trúc bên trong của mô hình quyết định nó có thể giải quyết những nhiệm
vụ nào Từ khóa thứ hai đó là lớp, mô hình học sâu được xây dựng từ các lớp, mà chínhcác nơ ron nhân tạo tạo thành chúng Các nơ ron này lấy cảm hứng từ chính nơ ron sinhhọc do đó nó được đặt tên là “mạng nơ ron” Mỗi lớp xử lý đầu vào bằng một phép toánnhất định Các phép toán này phụ thuộc vào các kết nối giữa các nơ ron và độ mạnh củakết nối đó
Mạng nơ ron tích chập (Convolutional Neural Network - CNN) là một trong những
phương pháp quan trọng và hiệu quả nhất trong lĩnh vực xử lý ảnh và thị giác máy tính.Với khả năng học được các đặc trưng ảnh và hiệu quả cao trong việc xử lý dữ liệu lớn,CNN đã trở thành công cụ quan trọng trong nhiều ứng dụng như nhận dạng đối tượng,
Trang 20phân loại ảnh, phân đoạn ảnh và nhiều lĩnh vực khác.
Chương này sẽ giới thiệu về kiến trúc cơ bản của mạng CNN, cách thức hoạt động của
các lớp tích chập, lớp tổng hợp và các lớp kết nối đầy đủ (Fully Connected) trong mạng
CNN Ngoài ra, chương cũng sẽ đề cập đến các kỹ thuật đào tạo mạng CNN như giảm
thiểu tổn thất (Loss Function), tối ưu hóa gradient (Gradient Optimization) và các kỹ thuật điều chuẩn (Regularization Techniques) Cuối cùng, chương sẽ trình bày về một số ứng
dụng của mạng CNN trong xử lý ảnh và thị giác máy tính
Đối với mỗi đầu vào của mô hình x, có một đầu ra mong muốn của mạng (được gọi là
Ground Truth - mẫu thực) là y t , và đầu ra thực tế (Được dự đoán) là y p Vì đầu ra thực tếphụ thuộc vào tất cả các trọng số bên trong mạng, do đó có một tập hợp các trọng số mà
y p gần nhất với y t Để tìm ra giá trị tối ưu này, một kỹ thuật được gọi là lan truyền ngược
(Backpropagation) được sử dụng trong quá trình học tập Ví dụ về đầu vào cho một mạng
như thế có với đầu vào là một hình ảnh và nhiệm vụ là phân loại đối tượng trong đó Mạngtrong ví dụ này sẽ cố gắng trừu tượng hóa từ các giá trị pixel của hình ảnh thành một lớpnhư “xe hơi” hoặc “cây” Trong các lớp ở bước trung gian, nó tạo ra “nhiều cấp độ trừutượng”: Nếu quan sát các lớp đầu tiên, chúng ta có thể quan sát được kết quả trông giốngnhư làm nổi hay tăng cường các cạnh được hay các màu sắc được lọc và loại bỏ đặc tínhmàu sắc, tuy nhiên, khi đến các lớp sâu hơn, các kết quả đầu ra của mạng rất khó hìnhdung hặc giải thích, đó là nguyên nhân người ta thường hay đề cập là mạng nơ ron không
mạng nơ ron được sử dụng có thể có nhiều lớp (100 hoặc hơn) Có nhiều loại mạng nơ ron
khác nhau, trong luận văn này, chúng ta sẽ tập trung vào mạng nơ ron tích chập (CNN),
vì chúng là phù hợp nhất để phân loại và phân đoạn hình ảnh Hình sau mô tả cấu trúc củamột mạng tích chập hoàn toàn thông dụng được sử dụng cho phân loại hình ảnh Chúngtôi sẽ nhắc lại từng thành phần của nó và giải thích quy trình đào tạo chi tiết hơn ở cácphần tiếp theo
Trang 212.1.1 Nơ ron
Vì lấy ý tưởng từ mạng nơ ron ron sinh học, cho nên, trước khi đề cập đến nơ ron nhântạo, chúng ta sẽ phân tích qua về cấu tạo một nơ ron sinh học và các thành phần tươngđương của chúng trong xây dựng nơ ron nhân tạo
Nơ ron là đơn vị chức năng nhỏ nhất trong não Ngoài các phần khác, nó bao gồm thân
tế bào, các nhánh thụ thể và trục axon Các nhánh thụ thể tạo thành ”đầu nhận”của tế bào,trong khi trục axon là “đầu truyền” Thông thường, các nơ ron có nhiều nhánh thụ thể,nhưng chỉ có một trục axon (tuy nhiên có ngoại lệ) Trục axon của một tế bào kết nối vớicác nhánh thụ thể của tế bào khác thông qua các kết nối hóa sinh Những kết nối này cómột sức mạnh nhất định, xác định mức độ tín hiệu được truyền từ một tế bào đến tế bàotiếp theo Đơn giản thì, các tín hiệu đầu vào từ các nhánh thụ thể được tổng hợp trong thân
tế bào và nếu tín hiệu tích lũy vượt qua một ngưỡng nhất định, nó sẽ được truyền tiếp đến
tế bào kế tiếp qua trục axon Trong nhiều thập kỷ, các nhà nghiên cứu đã mô phỏng hành
vi này trong các thí nghiệm máy tính, với kết quả đáng chú ý nhất là perceptron, được phátminh bởi Rosenblatt vào năm 1958 Nó được thiết kế để nhận đầu vào là một vector sốthực và đưa ra một dự đoán nhị phân đơn giản là 0 hoặc 1, dựa trên một tập hợp các trọng
số liên kết với đầu vào Perceptron được sử dụng để giải quyết các bài toán phân loại đơngiản và là nền tảng cho nhiều mạng nơ ron nhân tạo phức tạp hơn
Hình 2.1.1: Thông tin từ các dây thần kinh đến được biểu diễn bởi x i Sức mạnh kết
nối của các khớp thần kinh được mô hình bằng tham số trọng số ω i Tổng trọng sốđược tính bằng cách cộng dồn các giá trị đầu vào được nhân với trọng số tương ứng,
mô phỏng quá trình tích lũy thông tin trong thân tế bào Tiếp theo là hàm kích hoạt
f , quyết định thông tin có được truyền đi hay không Đầu ra cuối cùng y tương đương
với trục truyền thần kinh và trở thành đầu vào (x) cho nơ ron tiếp theo.
Trang 22Hình 2.1.2: Mỗi hình tròn biểu thị một neuron, thực hiện phép cộng và kích hoạt.
Mỗi đường là một kết nối có trọng số đến các neuron ở lớp trước đó Ví dụ này mô tảcác lớp được kết nối đầy đủ Các lớp trong mạng được gọi là các lớp ẩn
Neuron nhân tạo có thể được mô hình bằng phương trình 2.1, bao gồm tổng trọng số,theo sau bởi một hàm kích hoạt phi tuyến tính (xem 2.1.1) mô phỏng ngưỡng được ápdụng bởi thân tế bào:
x i: Đầu vào của neuron
ω i: Tham số trọng số
β i: Giá trị bias
f : Hàm kích hoạt (xem 2.1.1)
y : Đầu ra của neuron.
Các trọng số kết nối ω i được học trong quá trình lan truyền ngược, mà chúng ta sẽ thảoluận trong phần lan truyền ngược Nhiều neuron có thể được ghép lại để tạo thành các lớp.Bằng cách kết nối các lớp theo chuỗi, các phép toán logic đơn giản có thể được thực hiện.Với sự phức tạp tăng lên, mạng cũng có thể thực hiện các nhiệm vụ phức tạp hơn Hình2.1.2 cho một ví dụ về một đa tầng perceptron (MLP) [26], được bao gồm các lớp đượckết nối đầy đủ Mỗi neuron của một lớp được kết nối với tất cả các neuron trong lớp trướcđó
Trang 232.1.2 Lớp tích chập
Lớp tích chập hay tên tiếng Anh là Convolutional Layers là một loại lớp trong mạng
nơ ron sử dụng trong xử lý và phân tích ảnh Lớp tích chập có khả năng học cách tríchxuất các đặc trưng từ dữ liệu hình ảnh thông qua quá trình tích chập của các bộ lọc (filter)với ảnh đầu vào
Mỗi bộ lọc có thể được hiểu như là một ma trận nhỏ H k ×W k ×C thường có kích thước
3× 3 hoặc 5 × 5 pixel, được trượt qua trên toàn bộ ảnh đầu vào để tạo ra một bản đồ đặc
trưng mới Quá trình này tương đương với việc tìm kiếm các đặc trưng cụ thể của ảnh, ví
dụ như cạnh, đường cong hay hình dạng
Đầu ra của phép tích chập là một mảng mới có kích thước (H −H k+ 1)×(W−W k+ 1),
vì vậy chiều sâu bị bào mòn bởi phép tích chập và các chiều dọc bị thu nhỏ đi Phép tínhtích chập có thể được hiểu như việc trượt kernel trên hình ảnh đầu vào, tính tích chập của
phần tử tại mỗi vị trí i, j Công thức sau đây đưa ra định nghĩa toán học của phép tính tích
chập, được sử dụng trong học sâu:
l, m, n : Chỉ số không gian và kênh.
Hình 2.1.3 minh họa cách tính tích chập cho một ảnh xám Để có được đầu ra với cùngkích thước chiều ngang và chiều dọc như đầu vào, đầu vào được lót thêm, có nghĩa là cácgiá trị biên được phản chiếu với một chiều rộng phù hợp (ở đây là một)
Trang 24Hình 2.1.3: Mô tả cách tính toán phần tử thứ hai của hàng đầu tiên Sau bước này,
cửa sổ tính toán trượt sang phải một bước và sau khi hoàn thành một hàng, nó tiếptục sang hàng kế tiếp, nguồn [22]
Lớp tích chập Một lớp tích chập bao gồm N tích chập đang hoạt động song song trên
cùng một đầu vào, mỗi tích chập có một kernel khác nhau Kết quả trung gian là N hình
ảnh hai chiều khác nhau, được gọi là bản đồ đặc trưng (Feature Map) Những bản đồ
đặc trưng này được xếp chồng lên nhau để tạo ra đầu ra của lớp tích chập, có kích thước
(H − H k + 1, W − W k + 1, N) Thông thường, mỗi lớp tích chập được kèm theo một hàm
kích hoạt, và theo sau đó thường là một lớp pooling, giúp giảm kích thước của bản đồ đặctrưng
Hình 2.1.4: Trong một lớp tích chập, N tích chập hoạt động trên đầu vào với các
kernel khác nhau, dẫn đến N đầu ra hai chiều khác nhau Những đầu ra này được xếpchồng lên nhau để tạo ra bản đồ đặc trưng cuối cùng, là đầu ra của lớp
Trang 25Padding, Stride and Dilation Padding, stride và dilation là các cách để điều khiển kích
thước đầu ra của phép tính tích chập và cách nó trích xuất thông tin từ đầu vào của nó.Khi lót (padding) một ảnh hoặc bản đồ đặc trưng, các giá trị bổ sung được chèn vào xungquanh biên của nó Padding có thể được thực hiện với giá trị hằng số (thường là không)hoặc là giá trị phản chiếu của biên ảnh, như chúng ta đã thấy trong Hình 2.1.3 Càng tăng
độ rộng (padding), kích thước đầu ra sau tích chập càng lớn Do đó, padding có thể được
sử dụng để giữ kích thước chiều ngang của bản đồ đặc trưng trong quá trình tính tích chập.Kernel có thể trượt qua đầu vào với một độ rộng bước nhất định, là stride Kích thướcđầu ra sẽ nhỏ hơn nếu sử dụng stride lớn hơn Ví dụ, stride bằng hai sẽ làm giảm kíchthước đầu ra xuống một nửa Trong trường hợp trên, chúng ta giả sử stride bằng một, vìvậy không có sự giảm thiểu thông tin mạnh Hình 2.1.5 minh họa kết hợp giữa padding vàstride:
Hình 2.1.5: Trong ví dụ này [4], đầu vào (màu xanh) được đệm với p = 1 Kích
thước kernel là 3 và stride là s = 2 Như kết quả, đầu ra (màu xanh lam) có kíchthước bằng một nửa kích thước của đầu vào đã được đệm
Dilation là một kỹ thuật sử dụng để thay đổi kích thước của kernel bằng cách thêmcác giá trị 0 vào giữa các phần tử của kernel Khi kernel được mở rộng bằng dilation, nó
sẽ bao phủ một vùng lớn hơn của input, cho phép mô hình học được các mối tương quantrên khoảng cách lớn hơn giữa các pixel Kỹ thuật dilation được sử dụng để tăng cườngkhả năng giải quyết vấn đề độ sâu (depth) trong CNNs và cải thiện hiệu suất của mô hình.Phương pháp này được minh hoạ như hình 2.1.6
Trang 26Hình 2.1.6: Phép tích chập sử dụng Dilation với các giá trị 0 được chèn vào trong
kernel Chỉ các giá trị được tô màu xám đóng góp vào kết quả đầu ra Kết quả củaphép tích chập sẽ nhỏ hơn do kích thước kernel lớn hơn (ở đây là 5 x 5 thay vì 3 x 3).Hình ảnh được lấy từ [4]
Tích chập chuyển vị Trong quá trình tính toán, Tích chập chuyển vị hay transposed
convolutions có thể được coi như một phép giải nén (decompression) hoặc mở rộng sampling) của input Phép tích chập chuyển vị có thể là sự kết hợp của các phép padding,stride và dilation để cho phép mẫu đầu vào được phóng to thông qua tích chập, sử dụngmột phương pháp nội suy có thể học được Chúng ta cần lưu ý không nhầm lẫn transposedconvolutions và deconvolution
(up-Hình 2.1.7: Đầu vào kích thước 3x3 được dilated với các giá trị 0 và được padded
thành kích thước 7x7 Sau đó, một phép tích chập thông thường được thực hiện, dẫnđến đầu ra được phóng to kích thước 5x5
2.1.3 Hàm kích hoạt
Hàm kích hoạt hay còn gọi là activation functions được áp dụng trên đầu ra của mộtphép tính toán hoặc một mạng neuron để giới hạn giá trị đầu ra trong một phạm vi cụ thể,thường là [0, 1] hoặc [-1, 1] Các hàm này là một phần quan trọng của các mô hình học
Trang 27sâu và được sử dụng để giải quyết vấn đề phi tuyến tính bởi vì phép tính tích chập là mộtphép toán tuyến tính, điều này có nghĩa là nếu áp dụng nhiều phép tích chập liên tiếp đểtạo ra một đầu ra, thì sẽ tồn tại một phép tích chập đơn lẻ tạo ra cùng một đầu ra này Điềunày có nghĩa là một mạng nơ ron không có phi tuyến tính về cơ bản chỉ có thể thực hiệncác công việc hồi quy tuyến tính Do đó, phi tuyến tính đóng vai trò then chốt trong cácmạng nơ ron Sau đây là một số hàm kích hoạt phi tuyến thường gặp.
Hàm kích hoạt ReLU ReLU (Rectified Linear Unit) [1] là một hàm kích hoạt phi tuyến
được sử dụng phổ biến trong mạng nơ ron, đặc biệt là trong các mô hình CNN Hàm ReLU
được định nghĩa là f(x) = max(0, x), nghĩa là kết quả của hàm là giá trị x nếu x > 0, và
là 0 nếu x <= 0 Hàm này đơn giản và tính toán nhanh chóng Ngoài ra, hàm ReLU cũng
có khả năng giúp giảm sự phụ thuộc tuyến tính giữa các đầu vào, làm cho mô hình hội
tụ nhanh hơn Tuy nhiên, hàm ReLU cũng có nhược điểm là có thể dẫn đến vấn đề dyingReLU, khi mà một số neuron có giá trị đầu vào âm liên tục và không bao giờ được kíchhoạt, điều này dẫn đến việc neuron này không học được bất kỳ đặc trưng nào cả
Công thức:
ReLU(x) = max(0, x) (2.3)
Hàm kích hoạt Sigmoid Hàm sigmoid [7] hoặc hàm logistic là một hàm kích hoạt được
sử dụng rộng rãi, nó có đạo hàm liên tục và giới hạn giá trị giữa 0 và 1 Điều này giúp nóđược sử dụng để ánh xạ các giá trị tùy ý vào khoảng này Hàm sigmoid có thể được sửdụng như hàm kích hoạt cuối cùng trong các tác vụ phân loại nhị phân, trong đó 0.5 đượccoi là ngưỡng quyết định để phân loại các sự kiện Điểm mạnh là đạo hàm đầu tiên của nórất đơn giản để tính toán
σ(x) = 1
1 + e −x (2.4)
∂σ(x)
∂x = σ(x)(1 − σ(x)) (2.5)
Hàm kích hoạt Softmax Hàm kích hoạt Softmax [6] là một bản tổng quát hóa của hàm
Sigmoid có thể xử lý đầu vào đa chiều Hàm kích hoạt Softmax là một hàm kích hoạtthường được sử dụng trong bài toán phân loại đa lớp Hàm Softmax nhận đầu vào là một
vector z = (z1, z2, , z k ) và trả về một vector đầu ra y = (y1, y2, , y k) có các phần tử là
các giá trị xác suất, với y j là xác suất của lớp thứ j Công thức của hàm Softmax như sau:
σ(z) j = e z j
∑C
k=1 e z k for j = 1, , C (2.6)
Trang 28Ở đây, e là số Euler và k là số lượng lớp cần phân loại Công thức này cho ta xác suất của mỗi lớp j dựa trên giá trị đầu vào z j Việc chọn lớp dự đoán là lớp có xác suất cao nhấttrong các xác suất tính được Hàm Softmax được sử dụng để chuyển đổi giá trị đầu ra củamột mạng nơ ron thành xác suất của các lớp.
Hàm kích hoạt Tanh Hàm Tanh (Tanh Activation) [19] là một hàm kích hoạt phi tuyến
được sử dụng trong các mạng neuron nhân tạo Hàm tanh tương tự như hàm Sigmoid,nhưng có giá trị đầu ra từ -1 đến 1 thay vì 0 đến 1
Công thức của hàm tanh là:
2.1.4 Pooling
Phép pooling là một phép tính toán trong mạng nơ ron nhân tạo được sử dụng để giảmkích thước của đầu ra thông qua việc lấy giá trị trung bình hoặc giá trị lớn nhất của cácphần tử trong một vùng cụ thể của đầu vào Thường được sử dụng sau các lớp tích chập
để giảm số lượng thông tin và giảm thiểu overfitting Pooling có thể được thực hiện trêncác định dạng khác nhau của dữ liệu, chẳng hạn như ma trận 2D, tensor 3D hoặc tensor4D, tùy thuộc vào kiểu mô hình và loại đầu vào Max pooling nhận một mảng làm đầu
vào và thay thế mỗi khối các giá trị n × n bằng giá trị lớn nhất của chúng Các biến thể
pooling khác ví dụ như lấy trung bình của mỗi khối Pooling hoạt động độc lập trên từnglớp chiều sâu, vì vậy chỉ có các kích thước bên cạnh được thay đổi Max pooling với kíchthước 2× 2 ví dụ như loại bỏ 75% thông tin đầu vào, điều này giúp giảm số lượng tham
số trong các lớp sau Điều này giảm nguy cơ overfitting và tăng tốc tính toán Pooling làmột phép tất định và không cần tham số học Đôi khi để giảm kích thước, người ta có thểdùng convolution với stride để thay thế pooling là một phép có chứa tham số học
Sau đây là hình ảnh minh hoạ của phép pooling:
Trang 29Hình 2.1.8: Ví dụ về max pooling 2x2 Mỗi khối 2x2 được thay thế bằng giá trị lớn
nhất của nó
2.1.5 Các chỉ số đánh giá
Các chỉ số đánh giá hay metrics là các đại lượng số được sử dụng để đo lường hiệusuất của một mô hình học máy hoặc thuật toán trong việc giải quyết một vấn đề cụ thể.Tùy thuộc vào nhiệm vụ, ta phải chọn một chỉ số phù hợp Trong phân loại hình ảnh giữa
C lớp, mạng sẽ trả về một vec tơ được chuẩn hoá y p ∈ R C, mỗi thành phần của vec tơ ứng
với xác suất của lớp tương ứng sẽ được ký hiệu y p,c Khi một mạng phân đoạn hình ảnh,
nó sẽ trả về bản đồ xác suất hoặc ma trậnYp ∈ R H ×W×C Ma trận này sẽ có chiều cao H
hàng, chiều rộng W cột và chiều sâu C kênh, ma trận này sẽ được định hình lại bằng cáchnối các hàng (RH ×W×C → R H.W ×C ) Về cơ bản, nó sẽ chính là các vec tơ kích thước C với
H.W thành phần sẽ được biểu diễn dưới dạngyp,c và vec tơ này sẽ được so sánh với mẫuchính xácyt Tiếp theo sẽ là một số chỉ số đánh giá thường gặp trong các bài toán
Intersection over Union Intersection over Union (IoU) [24] là chỉ số phần giao trên phần
hợp hay còn gọi là chỉ số Jaccard (J) được dùng để đo lường chất lượng phân đoạn hình
ảnh Giá trị này nằm trong khoảng 0 đến 1 Khi tiến dần về 1, kết quả dự đoán và mẫu thực
tế sẽ càng trùng nhau Vơi hai tập A và B có thể được thể hiện qua công thức sau:
Trang 30cho lớp c có thể được định nghĩa như sau:
ni : Số lượng các trường hợp (hoặc pixel) của lớp i.
Accuracy, Precision and Recall Accuracy là chỉ số được sử dụng để đánh giá hiệu suất
của mô hình phân loại Nó tính tỷ lệ giữa số lần mô hình dự đoán đúng và tổng số dữ liệuđược dự đoán Công thức tính Accuracy được biểu diễn như sau:
Accuracy = TP + TN
TP + TN + FP + FN (2.12)
Trong đó,
TP là True Positive, tức số lượng trường hợp mô hình dự đoán đúng là positive
TN là True Negative, tức số lượng trường hợp mô hình dự đoán đúng là negative
FP là False Positive, tức số lượng trường hợp mô hình dự đoán sai là positive
FN là False Negative, tức số lượng trường hợp mô hình dự đoán sai là negative.
Trang 31Ví dụ, giả sử chúng ta có một bộ dữ liệu gồm 100 mẫu, trong đó 70 mẫu thuộc lớp A
và 30 mẫu thuộc lớp B Mô hình học máy dự đoán rằng 65 mẫu thuộc lớp A và 35 mẫuthuộc lớp B Khi đó, TP = 65, TN = 5, FP = 0, FN = 30 Từ đó, ta tính được Accuracy của
mô hình như sau:
Accuracy = 65 + 5
65 + 5 + 0 + 30 =
70
100 = 0.7
Do đó, Accuracy của mô hình là 70%
Precision là chỉ số được sử dụng để đánh giá khả năng của mô hình phân loại trongviệc dự đoán đúng các trường hợp positive Nó tính tỷ lệ giữa số lần mô hình dự đoán đúng
là positive và tổng số lần mô hình dự đoán là positive Công thức tính Precision được biểudiễn như sau:
Recall = TP
Ví dụ, giả sử chúng ta có một bộ dữ liệu gồm 100 mẫu, trong đó 70 mẫu thuộc lớp A
và 30 mẫu thuộc lớp B Mô hình học máy dự đoán rằng 65 mẫu thuộc lớp A và 35 mẫuthuộc lớp B Khi đó, TP = 65, FN = 5 Từ đó, ta tính được Recall của mô hình như sau:
Trang 32và Recall để đánh giá tổng thể hiệu suất của mô hình phân loại Nó được tính bằng trung
bình điều hòa (Harmonic Mean) của Precision và Recall Công thức tính F1-Score được
biểu diễn như sau:
F1_Score = 2 × Precision × Recall
Precision + Recall (2.15)
Với công thức trên, giá trị F1-Score sẽ càng cao nếu cả Precision và Recall đều cao.F1-Score có giá trị từ 0 đến 1, và giá trị càng gần 1 thì mô hình phân loại càng tốt
Ví dụ, giả sử chúng ta có một bộ dữ liệu gồm 100 mẫu, trong đó 70 mẫu thuộc lớp A
và 30 mẫu thuộc lớp B Mô hình học máy dự đoán rằng 65 mẫu thuộc lớp A và 35 mẫuthuộc lớp B Khi đó, TP = 65, FP = 0, FN = 5 Từ đó, ta tính được Precision và Recall của
mô hình như sau:
1 + 1314 ≈ 0.96
Do đó, F1-Score của mô hình là khoảng 96%
2.1.6 Hàm mất mát
Hàm mất mát hay còn gọi là Loss Function là một công cụ quan trọng trong học máy
và học sâu để đánh giá hiệu suất của một mô hình dự đoán trên một tập dữ liệu huấn luyện
Nó thường được sử dụng để đo lường sự khác biệt giữa giá trị đầu ra dự đoán và giá trịthực tế của dữ liệu Hàm mất mát thường được biểu diễn dưới dạng một biểu thức toánhọc, chẳng hạn như:
Trong đó, y là giá trị thực tế của dữ liệu, ˆy là giá trị đầu ra dự đoán của mô hình, l là một hàm mất mát đơn lẻ được áp dụng cho mỗi cặp giá trị (y i , ˆ y i ), và N là số lượng mẫu
trong tập dữ liệu huấn luyện Hàm mất mát này tính trung bình của các hàm mất mát đơn
lẻ trên toàn bộ tập dữ liệu huấn luyện
Trang 33Trong bài toán phân loại, Công thức của hàm mất mát Categorical Cross Entropy có thể
được viết như sau:
Trong đó, y là vector one-hot encoding của nhãn đúng của dữ liệu và ˆy là vector đầu
ra dự đoán của mô hình, có cùng kích thước với y Hàm mất mát này tính toán tổng của các giá trị logarithm của các phần tử trong ˆy nhân với các phần tử tương ứng trong y Một số hàm mất mát phổ biến khác là là hàm bình phương sai số (Mean Squared
Error), hàm Cross Entropy, và hàm Log Likelihood Việc chọn hàm mất mát phù hợp là
một yếu tố quan trọng trong việc xây dựng một mô hình dự đoán chính xác và hiệu quả
2.1.7 Lan truyền ngược
Giải thuật lan truyền ngược hay Backpropagation là một phương pháp quan trọng
trong học sâu để tính toán đạo hàm của hàm mất mát theo các tham số trong mô hình Nóđược sử dụng trong quá trình huấn luyện mạng nơ ron để cập nhật các trọng số và bias củamạng
Lan truyền ngược được sử dụng để tính toán độ dốc của hàm mất mát theo các trọng
số của mô hình Nó được thực hiện thông qua lan truyền ngược thông tin từ lớp đầu ra đếnlớp đầu vào của mô hình Thuật toán lan truyền ngược có thể được mô tả bằng các bướcsau:
• Tính toán đầu ra của mô hình dự đoán bằng cách sử dụng các trọng số hiện tại vàcác đầu vào của mô hình
ˆy = f(W (L) f(W (L −1) f(W(1)x + b(1)) ) + b (L)) (2.18)
Trong đó, W (i) và b (i) lần lượt là trọng số và bias của lớp thứ i, f là hàm kích hoạt và
x là đầu vào của mô hình.
• Tính toán gradient của hàm mất mát theo đầu ra dự đoán
∂L
Trang 34• Lan truyền ngược thông tin để tính toán gradient của hàm mất mát theo các trọng
số và bias của mô hình Đầu tiên, tính toán gradient của hàm mất mát theo đầu racủa mỗi lớp
Trong đó, a (i) là giá trị đầu vào của lớp thứ i trước khi áp dụng hàm kích hoạt, ⊙ là
phép nhân Hadamard (element-wise multiplication) và f ′ là đạo hàm của hàm kíchhoạt
• Tính toán độ dốc của hàm mất mát theo các trọng số và bias của mô hình Với mỗi
lớp i từ cuối cùng đến lớp đầu tiên, tính toán độ dốc của hàm mất mát theo trọng số
W (i) và bias b (i):
∂a (i) là độ dốc của hàm mất mát theo đầu vào của lớp i đã được tính toán ở bước 3.
• Cập nhật các trọng số và bias của mô hình bằng cách sử dụng độ dốc đã tính toán và
một thuật toán tối ưu hóa như Gradient Descent, Stochastic Gradient Descent hoặc
Trong đó, η là tham số học Lặp lại các bước này cho tất cả các điểm dữ liệu trong
tập huấn luyện cho đến khi đạt được điều kiện dừng hoặc đạt đủ số lần lặp
2.1.8 Các thuật toán tối ưu hóa
Trong học sâu, thuật toán tối ưu hóa (Optimizers) là một thành phần quan trọng trong
quá trình huấn luyện mô hình Optimizer giúp tối ưu hóa các tham số của mô hình để giảmthiểu giá trị hàm mất mát trên tập huấn luyện
Trang 35Trong quá trình huấn luyện một mô hình, một bộ dữ liệu được sử dụng để đào tạo môhình, và hàm mất mát được tính để đo lường độ sai khác giữa đầu ra được dự đoán bởi môhình và đầu ra thực tế Hàm mất mát này là một hàm số có nhiều điểm cực tiểu, và việctìm ra giá trị tối ưu của các tham số mô hình để giảm thiểu giá trị của hàm mất mát trêntập huấn luyện là vấn đề quan trọng.
Các thuật toán tối ưu hóa được thiết kế để cập nhật các tham số của mô hình dựa trênđạo hàm của hàm mất mát, với mục tiêu giảm thiểu giá trị của hàm mất mát theo thời gian.Các thuật toán tối ưu hóa khác nhau có các phương pháp cập nhật tham số khác nhau, vớinhững ưu điểm và nhược điểm riêng Một số thuật toán tối ưu hóa phổ biến trong học sâubao gồm:
Stochastic Gradient Descent (SGD) [27] là một thuật toán tối ưu đơn giản và phổ biến
trong học sâu, được sử dụng để tối ưu hóa các hàm mất mát Thuật toán này hoạt độngbằng cách cập nhật trọng số của mô hình theo từng mẫu dữ liệu đơn lẻ thay vì toàn bộ tập
dữ liệu Bên dưới là chi tiết về thuật toán SGD:
Cho một mẫu dữ liệu (x i , y i ) trong tập huấn luyện, với x i là đầu vào và y i là đầu ra
tương ứng Kí hiệu W là tập hợp các tham số cần tối ưu của mô hình, bao gồm các trọng
số và bias
Các bước trong SGD như sau:
• Khởi tạo các tham số ban đầu W0
• Lặp lại các bước sau cho t = 1, 2, , T:
a Lấy ngẫu nhiên một mẫu dữ liệu (x i , y i) từ tập huấn luyện
b Tính đầu ra dự đoán ˆyi bằng cách sử dụng mô hình với các tham số hiện tại Wt − 1.
c Tính đạo hàm của hàm mất mát L theo tham số W tại mẫu dữ liệu (x i , y i):
Trang 36cao có thể dẫn đến Overshooting (đi qua cực tiểu địa phương), trong khi đó tham
số học quá thấp có thể dẫn đến tốc độ học chậm và mất thời gian huấn luyện
• Kết thúc quá trình huấn luyện và trả về các tham số tối ưu W T
Với các mẫu dữ liệu đơn lẻ, SGD có khả năng tối ưu hóa nhanh hơn so với các phươngpháp tối ưu trên toàn bộ tập dữ liệu Tuy nhiên, SGD cũng có thể dẫn đến các bước cậpnhật tham số không ổn định và dao động nhiều hơn, do đó mô hình có thể hội tụ chậmhoặc không hội tụ, ngoài ra SGD không đảm bảo đạt được cực tiểu toàn cục của hàm mấtmát, vì SGD có thể bị mắc kẹt ở cực tiểu địa phương Tuy nhiên, với sự kết hợp của các kỹ
thuật khác như tham số học Scheduling và Momentum, SGD có thể tránh được tình trạng
này và tối ưu hóa tốt hơn
Adam Adam (Adaptive Moment Estimation) [12] là một trong những thuật toán tối ưu
phổ biến trong học sâu, được phát triển bởi Diederik P Kingma và Jimmy Ba vào năm
2015 Thuật toán Adam kết hợp giữa SGD với Momentum và RMSProp để cập nhật trọng
số của mô hình
Các bước trong thuật toán Adam như sau:
• Khởi tạo các tham số ban đầu: trọng số mô hình W, tham số học α, momentum β1,
và RMSProp decay rate β2
• Khởi tạo giá trị ban đầu cho first moment vector m0 và second moment vector v0
bằng 0
• Lặp lại các bước sau cho t = 1, 2, , T:
1 Lấy một lô ngẫu nhiên gồm m mẫu từ tập huấn luyện.
2 Tính gradient của hàm mất mát J theo trọng số W trên lô này:
Trang 375 Chỉnh sửa first và second moment estimate để tránh sự Bias:
• Kết thúc quá trình huấn luyện và trả về trọng số tối ưu W T
Adam sử dụng first moment estimate m t để tính toán độ lớn và hướng của gradient, và second moment estimate v t để thay đổi tham số học dựa trên lịch sử của gradient Những
thông tin này giúp thuật toán cân bằng giữa việc di chuyển nhanh đến điểm cực tiểu vàviệc tránh nhảy qua điểm cực tiểu địa phương Adam cũng giúp tăng tốc quá trình hội tụ
của mô hình bằng cách tự động điều chỉnh tham số học dựa trên độ lớn của gradient và
độ lớn của gradient trung bình.
2.1.9 Chuẩn hóa theo lô
Chuẩn hóa theo lô là một kỹ thuật chuẩn hóa đầu vào trong mạng nơ ron để giúp tăng
tốc độ hội tụ của mô hình và giảm hiện tượng mất gradient Kỹ thuật này được sử dụng
trong nhiều kiến trúc mạng nơ ron
Chuẩn hóa theo lô sẽ thay đổi đầu vào của một layer bằng cách chuẩn hóa và phânphối lại các giá trị theo trung bình và độ lệch chuẩn của một lô dữ liệu Cụ thể, với một
lô gồm m mẫu dữ liệu, giả sử đầu vào của layer là x = x1, x2, , x m, Chuẩn hóa theo lô sẽthực hiện các bước sau:
• Tính toán giá trị trung bình μ và độ lệch chuẩn σ trên một lô, được tính bằng cách:
Trang 38trong đó m là số lượng các đầu vào trong lô.
• Chuẩn hóa lô bằng cách sử dụng giá trị trung bình và độ lệch chuẩn vừa tính được:
ˆ
x i = √x i − μ B
σ2B + ε trong đó ε là một số rất nhỏ để tránh phép chia cho 0.
• Scale và shift để tăng tính linh hoạt của quá trình chuẩn hóa Chuẩn hóa theo lô
thêm hai tham số mới, γ và β vào quá trình chuẩn hóa, để tăng khả năng biểu diễn
của mô hình Khi đó, đầu ra của quá trình chuẩn hóa được tính bằng công thức:
y i = γˆx i + β
Tham số γ và β được học trong quá trình huấn luyện, thông qua việc cập nhật
gra-dient cho chúng.
2.1.10 Tăng cường dữ liệu
Tăng cường dữ liệu hay Augmentation là một kỹ thuật được sử dụng rộng rãi trong
học máy và thị giác máy tính để tăng cường dữ liệu huấn luyện bằng cách tạo ra các phiênbản mới từ dữ liệu huấn luyện ban đầu bằng cách áp dụng các phép biến đổi đơn giản nhưxoay, lật, thay đổi kích thước, cắt, v.v Kỹ thuật này được sử dụng để mở rộng tập dữ liệuhuấn luyện mà không cần thu thập thêm dữ liệu mới từ thực tế, giúp tăng độ chính xác vàkhả năng tổng quát hóa của mô hình
Các kỹ thuật tăng cường dữ liệu thường được áp dụng trên các tập dữ liệu ảnh, baogồm cả ảnh tĩnh và video, nhưng cũng có thể được áp dụng cho các tập dữ liệu văn bản,
Trang 39• Cắt ảnh theo các vị trí và kích thước khác nhau
• Áp dụng các bộ lọc màu sắc hoặc độ sáng/khả năng tương phản khác nhau
Và nhiều phép biến đổi khác
Các kỹ thuật tăng cường dữ liệu có thể được áp dụng trước khi đưa dữ liệu vào môhình huấn luyện, hoặc có thể được tích hợp trực tiếp vào mô hình, được gọi là lớp tăngcường dữ liệu hoặc lớp tăng cường ảnh
2.2 Viễn Thám
2.2.1 Ảnh vệ tinh
Ảnh vệ tinh (Satellite Imagery) là loại hình dữ liệu được thu thập từ các vệ tinh quan
sát Trái đất và được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau như địa lý, môitrường, nông nghiệp, dự báo thời tiết, tài nguyên đất đai và bảo vệ môi trường
Các vệ tinh quan sát Trái đất được trang bị các cảm biến và hệ thống máy ảnh để chụphình ảnh Trái đất Các cảm biến này có thể bao gồm cảm biến quang học, hồng ngoại, viễnthám radar và lidar để thu thập thông tin về độ sâu, độ cao, độ ẩm và độ bức xạ Chúngtôi sẽ tập trung chỉ vào các cảm biến quang học, vì chúng là đối tượng nghiên cứu thú vịnhất cho các tác vụ xử lý hình ảnh sâu bằng học máy và được phổ biến nhất
Một số cảm biến quang học trong các vệ tinh quan sát Trái đất được sử dụng để chụpcác hình ảnh có độ phân giải khác nhau, từ đó thu thập thông tin về các yếu tố khác nhautrên Trái đất, chẳng hạn như địa hình, bề mặt đất, tài nguyên nước, môi trường, dân số vàcác yếu tố kinh tế khác
Một số chương trình vệ tinh nổi tiếng nhất bao gồm Landsat, Sentinel và MODIS.Landsat là chương trình vệ tinh đầu tiên được phát triển để thu thập thông tin về các yếu tốmôi trường và tài nguyên trên Trái đất Sentinel là một chương trình vệ tinh do Châu Âuphát triển, được thiết kế để theo dõi thay đổi khí hậu và môi trường MODIS là một cảmbiến được sử dụng trong các chương trình vệ tinh như Aqua và Terra để thu thập thôngtin về khí hậu, môi trường và tài nguyên đất đai Một số vệ tinh quan trọng khác bao gồmPléiades 1A/B và các vệ tinh WorldView Hầu hết các vệ tinh quan sát từ xa cảm biếnquang học quay quanh Trái đất trong quỹ đạo Trái đất thấp, với độ cao trung bình từ 450
Trang 40km đến 800 km trên quỹ đạo cực bắc, đồng bộ với mặt trời.
Quỹ đạo đồng bộ mặt trời có hai lợi thế chính: đầu tiên, nó cho phép đặt vệ tinh trongánh sáng mặt trời liên tục và thứ hai, một điểm cụ thể trên Trái đất luôn được chụp dướiđiều kiện ánh sáng giống nhau, ngoại trừ các thay đổi mùa Điều này tăng tính khả so sánhcủa các hình ảnh thu được Vì mặt phẳng quỹ đạo đồng bộ mặt trời xoay chậm quanh Tráiđất và Trái đất xoay quanh chính nó, các vệ tinh có thể quay trở lại mỗi khu vực quan tâmtrong vài ngày hoặc thậm chí mỗi ngày Tùy thuộc vào độ cao, tiêu cự và cảm biến, vệtinh chụp một khu vực có chiều rộng nhất định (chiều rộng dải) ở mức độ mặt đất Chiềurộng dải có phạm vi từ 8 km (SkySat) đến 185 km (Landsat 8), dẫn đến một phạm vi lý
thuyết lên đến một triệu km2 mỗi ngày Mỗi vệ tinh chụp ảnh tại một tập các bước sóngnhất định, bảng 2.2.1 cung cấp thông tin về các bước sóng của ảnh Sentinel 2
Bảng 2.2.1: Dải kênh, độ dài bước sóng, chất lượng phân giải ảnh, và mô tả chi tiết
B5 698.0 - 712.0 20 Vegetation Red Edge
B6 733.0 - 747.0 20 Vegetation Red Edge
B7 773.0 - 793.0 20 Vegetation Red Edge
Ảnh hàng không (Aerial Imagery) là kỹ thuật thu thập ảnh không gian từ máy bay hoặc
trực thăng Kỹ thuật này được sử dụng để tạo ra các bản đồ và bản đồ địa chính với độchính xác cao, hỗ trợ cho việc quản lý đất đai, khảo sát môi trường, quản lý tài nguyên vàquản lý thảm họa
Ảnh hàng không có thể được thu thập bằng cách sử dụng các máy bay chuyên dụnghoặc bằng cách gắn máy ảnh trên máy bay thương mại và thực hiện chuyến bay thăm dò