Để giải quyết bài toán nhận diện đối tượng trên ảnh viễn thám, các kỹthuật xử lý ảnh và học máy được áp dụng để tạo ra các thuật toán phức tạp để phát hiện và phân loại các đối tượng.. M
Trang 1ĐẠI HỌC BÁCH KHOA HÀ NỘI
Chuyên ngành : Toán Tin
Giảng viên hướng dẫn : TS Trần Ngọc Thăng
Toán Tin
Hà Nội, 3-2023
Trang 2Lời cảm ơn
Kính gửi thầy cô, gia đình, đồng nghiệp, và bạn bè
Em xin được này tỏ lòng biết ơn sâu sắc nhất tới tất cả mọi người đã giúp đỡ và hỗtrợ em trong quá trình nghiên cứu và hoàn thành luận văn thạc sĩ của mình
Đầu tiên, em xin gửi lời cảm ơn đến thầy hướng dẫn của mình là giảng viên Tiến SĩTrần Ngọc Thăng Những lời chỉ dẫn, gợi ý và hướng dẫn quý báu của thầy đã giúp emvượt qua những khó khăn trong quá trình nghiên cứu và hoàn thành luận văn của emmột cách tốt nhất
Em cũng muốn gửi lời cảm ơn tới gia đình của mình Những lời động viên, sự quantâm và hỗ trợ đã giúp em vượt qua những thời điểm trở ngại trong quá trình nghiên cứu
và đối mặt với các khó khăn
Em cũng xin gửi lời cảm ơn tới các đồng nghiệp và bạn bè của mình Sự hỗ trợ và chia
sẻ kinh nghiệm của các bạn đã giúp mình có được nhiều ý tưởng và thông tin bổ ích
Và cuối cùng là lời cảm ơn đến Nhà trường đã cung cấp cho em môi trường học tập
và nghiên cứu chuyên nghiệp Các giảng viên và nhân viên của Nhà trường đã hỗ trợ emnhiều trong quá trình thực hiện luận văn
Trân trọng,
Hồ Trọng Ánh
Trang 3Giảng viên hướng dẫn : TS Trần Ngọc Thăng Hồ Trọng Ánh
Tóm tắt luận văn
Luận văn “Nghiên cứu cải tiến một số mô hình học máy trong nhận dạng đối tượngtrên ảnh viễn thám” tập trung vào việc nghiên cứu và cải tiến một số mô hình học máy
để cải thiện độ chính xác của việc nhận dạng đối tượng trong ảnh viễn thám
Trong luận văn, chúng tôi đã sử dụng các phương pháp tiền xử lý dữ liệu để cảithiện chất lượng của dữ liệu ảnh Sau đó, chúng tôi đã tiến hành nghiên cứu và đánh giácác mô hình học máy như Mạng nơ ron tích chập (CNN), Unet, U2-Net, Mask R-CNN,trên tập dữ liệu ảnh viễn thám
Sau khi đánh giá và so sánh hiệu quả của các mô hình, chúng tôi đã đề xuất một sốcải tiến để tăng độ chính xác của mô hình nhận dạng đối tượng Chúng tôi đã đề xuất sửdụng kết hợp đa mô hình (Multi-Model) để cải thiện kết quả trích xuất móng nhà, và cáckết quả này đã được công bố trên tạp chí hội nghị ICISN 2022 [2] Tiếp theo, trong luậnvăn này, chúng tôi có thêm đề xuất sử dụng mô hình tăng cường độ phân giải kết hợpvới học đa nhiệm (Multi-Task Learning) để áp dụng cho các vùng dữ liệu móng nhà khó
đó là ảnh có chất lượng độ phân giải kém và quy hoạch chưa tốt cộng với mật độ dàyđặc như các khu nhà ổ chuột Từ các kết quả đó, chúng tôi hướng đến mục tiêu mở rộng
để áp dụng cho một bài toán khác đó là bài toán phát hiện ranh giới nông trang trên ảnh
độ phân giải thấp (Sentinel 10m) bằng cách chỉnh sửa, cải tiến mô hình tăng cường độphân giải Real-ESRGAN từ 4 lần (4X) lên đến 8 lần (8X)
Để chứng minh cho tính hiệu quả của các đề xuất trên, chúng tôi đã thực hiện các thínghiệm để kiểm chứng và thấy rằng các cải tiến đã đưa ra đã cải thiện đáng kể độ chínhxác của mô hình và giúp nâng cao khả năng nhận dạng đối tượng trong ảnh viễn thám
và giúp mở ra hướng mới giúp ứng dụng hiệu quả các nguồn dữ liệu mở thường có chấtlượng dữ liệu thấp hơn cho các bài toán thực tế
Trang 4Mục lục
1 Giới thiệu chung về bài toán nhận dạng đối tượng trên ảnh viễn thám 1
1.1 Các lớp bài toán thường gặp trong nhận dạng đối tượng ảnh viễn thám 2
1.1.1 Bài toán phân đoạn ảnh 2
1.1.2 Bài toán phân loại ảnh 4
1.1.3 Bài toán nhận dạng cạnh 5
1.1.4 Bài toán nhận diện đối tượng 6
1.2 Một số bài toán được đề cập trong nghiên cứu 7
1.2.1 Bài toán trích xuất móng nhà 7
1.2.2 Bài toán trích xuất ranh giới nông trang 8
2 Cơ sở lý thuyết 10 2.1 Mạng nơ ron 10
2.1.1 Nơ ron 12
2.1.2 Lớp tích chập 14
2.1.3 Hàm kích hoạt 17
2.1.4 Pooling 19
2.1.5 Các chỉ số đánh giá 20
2.1.6 Hàm mất mát 23
2.1.7 Lan truyền ngược 24
2.1.8 Các thuật toán tối ưu hóa 25
2.1.9 Chuẩn hóa theo lô 28
2.1.10 Tăng cường dữ liệu 29
2.2 Viễn Thám 30
Trang 52.2.1 Ảnh vệ tinh 30
2.2.2 Ảnh hàng không 31
2.2.3 Các chỉ số quang phổ 32
2.2.4 Cấu trúc dữ liệu ảnh viễn thám và shapefile 33
2.2.5 Tính liên kết hình học trong hệ thống thông tin địa lý 35
3 Một số mô hình học máy trong quá trình nghiên cứu 37 3.1 Mô hình U-Net 37
3.1.1 Thông tin mô hình 37
3.1.2 Hàm mất mát và tiêu chí đánh giá 40
3.1.3 Xử lý dữ liệu vào ra 40
3.1.4 Huấn luyện mô hình 43
3.1.5 Đánh giá ưu, nhược điểm 43
3.2 Mô hình U2-net 44
3.2.1 Thông tin mô hình 44
3.2.2 Hàm mất mát và tiêu chí đánh giá 46
3.2.3 Đánh giá ưu, nhược điểm 47
3.3 Mô hình Mask-RCNN 47
3.3.1 Thông tin mô hình 47
3.3.2 Hàm mất mát và tiêu chí đánh giá 50
3.3.3 Xử lý dữ liệu vào ra 51
3.3.4 Đánh giá ưu, nhược điểm 52
3.4 Mô hình Real-ESRGAN 53
3.4.1 Ý tưởng cho việc tăng cường độ phân giải ảnh 53
3.4.2 Thông tin mô hình 54
3.4.3 Hàm mất mát và tiêu chí đánh giá 56
4 Nghiên cứu và đề xuất một số phương pháp giúp nâng cao kết quả nhận diện trên ảnh viễn thám 59 4.1 Phát biểu bài toán 59
4.2 Phương pháp kết hợp đa mô hình 60
4.2.1 Giới thiệu về đa mô hình 60
4.2.2 Các vùng dữ liệu 61
4.2.3 Tiêu chí đánh giá 62
4.2.4 Kết quả đạt được 62
4.2.5 Đánh giá ưu nhược điểm của kết hợp đa mô hình 64
4.3 Phương pháp học đa nhiệm 65
4.3.1 Giới thiệu về học đa nhiệm 65
Trang 64.3.2 Ứng dụng học đa nhiệm cho bài toán trích xuất móng nhà 66
4.3.3 Mô hình mạng phân đoạn đa nhiệm 66
4.3.4 Mô hình Frame Field Learning 67
4.3.5 Triển khai mô hình Frame Field Learning 69
4.3.6 Kết quả thử nghiệm Frame Field Learning 69
4.4 Ứng dụng và cải tiến mô hình Real-ESRGAN giúp nâng cao chất lượng dữ liệu 72
4.4.1 Thử nghiệm mô hình Real-ESRGAN 4X 72
4.4.2 Nâng cấp mô hình Real-ESRGAN lên 8X 78
4.4.3 Triển khai huấn luyện mô hình REAL-ESRGAN 8X 79
4.4.4 Ứng dụng nâng cao hiệu quả sử dụng nguồn dữ liệu mở 81
4.5 Mô hình tổng hợp sử dụng cho nhận dạng trên ảnh chất lượng thấp và mật độ đối tượng dày đặc 85
4.5.1 Nguồn dữ liệu 86
4.5.2 Triển khai thử nghiệm 86
4.5.3 Kết quả thử nghiệm 88
Trang 7Danh sách hình vẽ
2.1.1 Nơ ron sinh học và nhân tạo 12
2.1.2 Multilayer perceptron (MLP) 13
2.1.3 Tích chập 15
2.1.4 N tích chập 15
2.1.5 Padding and stride 16
2.1.6 Dilation 17
2.1.7 Tích chập chuyển vị 17
2.1.8 Max pooling 20
2.2.1 Phép chiếu từ ảnh viễn thám 34
3.1.1 Kiến trúc mô hình U-Net 39
3.1.2 Hình ảnh tạo mask từ shapefile 41
3.1.3 Phép trượt trong quá trình xử lý ảnh viễn thám 42
3.2.1 Kiến trúc mô hình U-2net 45
3.2.2 Cấu tạo khối RSU 46
3.3.1 Kiến trúc mô hình Mask-RCNN 48
3.3.2 ROI Align 49
3.4.1 Mạng sinh của mô hình Real-ESRGAN 55
3.4.2 Mạng phân biệt U-Net trong Real-ESRGAN 55
3.4.3 Quá trình hạ cấp trong mô hình Real-ESRGAN 56
4.2.1 Kết hợp đa mô hình 61
4.2.2 Kết quả chỉ số đa mô hình 63
4.2.3 So sánh kết quả móng nhà sử dụng đa mô hình 64
4.3.1 Sơ đồ ứng dụng mô hình mạng phân đoạn đa nhiệm giúp cải thiện kết quả nắn chỉnh [13] 67
4.3.2 Cấu trúc mô hình Frame Field Learning 68
4.3.3 Đồ thị các chỉ số đánh giá mô hình Frame Fields Learning 70
4.3.4 Ảnh kết quả mô hình Frame Fields Learning trên Tập VN UAV 71
Trang 84.4.1 Hình ảnh một số ảnh ở mức độ phân giải khác nhau 73
4.4.2 Tạo ảnh đa tỉ lệ 74
4.4.3 File index chứa tất cả đường dẫn đến ảnh trong thư mục 74
4.4.4 Hình ảnh lúc khởi tạo training mô hình Real-ESRGAN 75
4.4.5 Một số kết quả tăng cường độ phân giải 76
4.4.6 Mô hình 4X để tăng độ phân giải trên ảnh sentinel 2 77
4.4.7 Hình ảnh summary input và output mô hình Real-ESRGAN 8X 78
4.4.8 Tham số hạ cấp dữ liệu 78
4.4.9 Kết quả mô hình 8X để tăng độ phân giải trên ảnh sentinel 2 80
4.4.10 Quy trình trích xuất dữ liệu ranh giới nông trang 82
4.4.11 Trích xuất nông trang trên ảnh Sentinel 2 83
4.4.12 Đối chiếu kết quả trích xuất nông trang giữa ảnh Sentinel 2 và Google Maps 84
4.5.1 Dữ liệu ảnh có chất lượng thấp và mật độ cao 85
4.5.2 Dữ liệu ảnh vùng ổ chuột Mumbai 86
4.5.3 Ví dụ tăng độ phân giải cho Mumbai 87
4.5.4 Đồ thị đánh giá mô hình tổng hợp 89
4.5.5 Kết quả trích xuất bằng mô hình tổng hợp cho ảnh Mumbai 90
Trang 9Danh sách bảng
2.2.1 Thông tin ảnh Sentinel 31
4.2.1 Kết quả đa mô hình 62
4.3.1 Kết quả các chỉ số mô hình Frame Fields Learning 69
4.5.1 Kết quả mô hình tổng hợp 88
Trang 10Thuật ngữ viễn thám (Remote sensing) - điều tra từ xa, xuất hiện từ năm 1960 domột nhà địa lý người Mỹ là E.Pruit đặt ra (Thomas, 1999) Ngày nay kỹ thuật viễn thám
đã được phát triển và ứng dụng rất nhanh và rất hiệu quả trong nhiều lĩnh vực Như vậyviễn thám là thông qua kỹ thuật hiện đại không tiếp cận với đối tượng mà xác định nóqua thông tin ảnh chụp từ xa trên không
Để có thể sử dụng được dữ liệu viễn thám ta phải có khả năng tách thông tin có ý nghĩa
từ ảnh Đó là nhiệm vụ của việc xử lý ảnh viễn thám Nói cách khác là phải diễn giải vàphân tích ảnh viễn thám Phân tích ảnh viễn thám là thực hiện nhận biết, đo các đối tượngkhác nhau trong ảnh để tách thông tin hữu ích về chúng Xử lý ảnh số viễn thám là thựchiện một loạt thủ tục bao gồm lập khuôn mẫu, hiệu chỉnh dữ liệu, nâng cao chất lượng để dễdàng giải đoán hay phân lớp tự động các đối tượng bằng máy tính Để có thể xử lý số
Trang 11ảnh viễn thám, dữ liệu phải được thu thập dưới dạng số phù hợp và lưu trữ trong máytính Đồng thời phải có phần cứng, phần mềm phù hợp, nói cách khác phải có hệ thốngphân tích ảnh phù hợp.
Bài toán nhận diện đối tượng trên ảnh viễn thám là một trong những bài toán quantrọng trong lĩnh vực xử lý ảnh và thị giác máy tính Nó đặt ra thách thức trong việc phântích và xử lý hình ảnh đa dạng từ các nguồn viễn thám khác nhau như vệ tinh, máy baykhông người lái Bài toán này thường được áp dụng trong nhiều lĩnh vực khác nhau,bao gồm quản lý tài nguyên đất đai, giám sát môi trường, bảo vệ động vật hoang dã,kiểm soát chất lượng nước và nông nghiệp Nó cho phép chúng ta nhận biết và phân tíchcác đối tượng trên bề mặt trái đất như cây trồng, rừng, đất trống, đường, công trình xâydựng, mặt nước Để giải quyết bài toán nhận diện đối tượng trên ảnh viễn thám, các kỹthuật xử lý ảnh và học máy được áp dụng để tạo ra các thuật toán phức tạp để phát hiện
và phân loại các đối tượng Trong luận văn này sẽ tập trung đề cập đến một số mô hìnhmáy học sâu và cải tiến một số mô hình máy học nhằm nâng cao kết quả nhận dạng đốitượng trên ảnh viễn thám
1.1 Các lớp bài toán thường gặp trong nhận dạng đối tượng ảnh
viễn thám
Nhắm đến việc giới thiệu các bài toán phổ biến trong lĩnh vực nhận dạng đối tượngtrên ảnh viễn thám Việc sử dụng các kỹ thuật và phương pháp nhận dạng đối tượng trênảnh viễn thám giúp cho việc phân tích và xử lý dữ liệu trở nên nhanh chóng và chínhxác hơn, từ đó đem lại nhiều lợi ích cho các ứng dụng thực tiễn Chương này sẽ giớithiệu về các lớp bài toán phổ biến trong nhận dạng đối tượng trên ảnh viễn thám baogồm phân đoạn ảnh, phân loại ảnh, nhận dạng cạnh, phát hiện đối tượng Ngoài ra,chương cũng sẽ giải thích chi tiết về mỗi lớp bài toán, cung cấp ví dụ và ứng dụng củachúng trong thực tiễn
1.1.1 Bài toán phân đoạn ảnh
Bài toán phân đoạn ảnh (Image segmentation) trong nhận diện ảnh viễn thám là mộttrong những lớp bài toán quan trọng nhất Bài toán này nhằm tìm cách phân chia ảnhthành các vùng khác nhau, mỗi vùng chứa các đối tượng tương tự nhau
Trang 12Phân đoạn ảnh có thể được sử dụng để xác định các khu vực đất trống, đất canh tác,đất rừng, đất ngập nước và các vùng khác trong ảnh viễn thám Bằng cách phân đoạnảnh, chúng ta có thể xác định vị trí của các đối tượng như rừng, đường, đồng cỏ, sông,
hồ, v.v từ đó giúp cho việc phân tích và xử lý ảnh trở nên dễ dàng và chính xác hơn
Để giải quyết bài toán phân đoạn ảnh trong nhận dạng ảnh viễn thám, có nhiềuphương pháp được áp dụng như: phân đoạn dựa trên màu sắc, phân đoạn dựa trên hìnhdạng, phân đoạn dựa trên đặc trưng, phân đoạn dựa trên mô hình, v.v
Một số ứng dụng của bài toán phân đoạn ảnh trong nhận dạng ảnh viễn thám baogồm phân tích và giám sát sự biến đổi đất đai, phân tích các đối tượng trên bề mặt củatrái đất, giám sát và theo dõi rừng, xác định đường bờ biển, v.v Tuy nhiên, bài toánphân đoạn ảnh trong nhận dạng ảnh viễn thám cũng đặt ra một số thách thức, bao gồm
độ phức tạp của dữ liệu, độ phân giải, cấu trúc và hình dạng của đối tượng Do đó, việclựa chọn phương pháp và công cụ phù hợp để giải quyết bài toán phân đoạn ảnh rấtquan trọng để đảm bảo kết quả chính xác và hiệu quả
Bài toán phân đoạn ảnh bằng học sâu (Deep Learning based Image Segmentation) làmột trong những phương pháp hiệu quả để giải quyết bài toán phân đoạn ảnh trong nhậndạng ảnh viễn thám Phương pháp này sử dụng các mô hình học sâu như ConvolutionalNeural Networks (CNN) để học và dự đoán phân đoạn ảnh
Một số mô hình học sâu phổ biến được sử dụng trong bài toán phân đoạn ảnh bao gồm:
• U-Net: Đây là một trong những mô hình đầu tiên được sử dụng cho bài toán phân
đoạn ảnh bằng học sâu Nó sử dụng kiến trúc Encoder-Decoder với các kết nối tắt
(Skip conection) để kết hợp thông tin từ các tầng Encoder và Decoder.
• Mask R-CNN: Đây là một mô hình học sâu sử dụng trong bài toán phân đoạn
ảnh và phát hiện đối tượng Nó kết hợp các lớp phân đoạn và phát hiện đối tượngbằng cách sử dụng một mạng CNN để trích xuất đặc trưng và một mô hình R-CNN để phát hiện và phân đoạn
Spatial Pyramid Pooling (ASPP) để xác định kết quả phân đoạn ASPP cho phép môhình xem các vùng ảnh ở nhiều tỷ lệ và kết hợp các thông tin đó để phân đoạn
Phương pháp bài toán phân đoạn ảnh bằng học sâu có nhiều ưu điểm, bao gồm khả năngphát hiện và phân đoạn các vùng ảnh phức tạp, khả năng tự động học và tinh chỉnh các đặctrưng, độ chính xác cao hơn so với các phương pháp truyền thống Tuy nhiên, điều
Trang 13quan trọng là việc sử dụng dữ liệu huấn luyện đủ lớn và đa dạng để đảm bảo kết quảchính xác và hiệu quả.
1.1.2 Bài toán phân loại ảnh
Bài toán phân loại ảnh (Image Classification) trong nhận diện ảnh viễn thám là quá
trình phân loại ảnh thành các lớp đã được xác định trước Mục đích của việc phân loạiảnh là giúp các nhà nghiên cứu và chuyên gia dễ dàng đưa ra các quyết định và dự đoán
về các đối tượng, đặc tính của một khu vực hoặc một vùng đất nào đó
Bài toán phân loại ảnh bằng học sâu (Deep Learning Image Classification) là một
trong những phương pháp tiên tiến nhất trong nhận diện ảnh viễn thám Nó sử dụng các
mạng neural truyền thống hoặc mạng neural sâu (Deep Neural Network - DNN) để học
các đặc trưng trên ảnh và phân loại chúng vào các lớp đã được định nghĩa trước đó Cácbước chính để giải quyết bài toán phân loại ảnh bằng học sâu bao gồm:
• Chuẩn bị dữ liệu: Bao gồm việc chuẩn hóa và tiền xử lý dữ liệu, tạo ra các tập
dữ liệu huấn luyện, xác nhận và kiểm tra
• Xây dựng mô hình DNN: sử dụng các kiến trúc mạng neural như Convolutional
Neural Networks (CNN), ResNet, EfficientNet, v.v để học các đặc trưng trên ảnh
và phân loại chúng vào các lớp đã được định nghĩa trước đó
• Huấn luyện mô hình: sử dụng tập dữ liệu huấn luyện để đào tạo mô hình và điều
chỉnh các tham số để đạt được hiệu suất tốt nhất
• Đánh giá mô hình: sử dụng tập xác nhận và kiểm tra để đánh giá hiệu suất của
mô hình và kiểm tra xem nó có đáp ứng được yêu cầu của bài toán hay không.Một số kiến trúc mạng neural sử dụng trong bài toán phân loại ảnh bao gồm:
• Mạng nơ ron tích chập (Convolutional Neural Networks - CNN): đây là kiến
trúc mạng neural được sử dụng phổ biến nhất trong bài toán phân loại ảnh Kiếntrúc này được thiết kế để học các đặc trưng tại các vùng ảnh khác nhau và từ đóphân loại chúng vào các lớp đã được định nghĩa trước đó
• Residual Network (ResNet): là một kiến trúc mạng neural sâu được đề xuất để
giải quyết vấn đề mất thông tin khi mạng neural sâu trở nên quá sâu
Trang 14• EfficientNet: là một kiến trúc mạng neural mới nhất được đề xuất để giảm kích
thước mô hình và tăng độ chính xác
Bài toán phân loại ảnh bằng học sâu có nhiều ứng dụng trong thực tế như phân loạicác loại cây trồng, phân loại đất đai, phân loại thực vật, phân loại mây, phân loại đámmây, phân loại đường bộ, phân loại đường ray, phân loại nước và phân loại các vùngsạch hoặc ô nhiễm
1.1.3 Bài toán nhận dạng cạnh
Bài toán nhận dạng cạnh (Edge Detection) trong nhận diện ảnh viễn thám là quá
trình phát hiện các ranh giới giữa các vùng khác nhau trên ảnh Các cạnh có thể đượcđịnh nghĩa là sự thay đổi đột ngột của độ sáng giữa hai vùng trên ảnh
Mục đích của bài toán nhận dạng cạnh trong nhận diện ảnh viễn thám là phát hiện
và định vị các cạnh giữa các vùng khác nhau trên ảnh, từ đó giúp phân tích và hiểu đượcbức ảnh đó Bài toán này có thể giúp xác định đường bờ biển, đường biên giới, các conđường, đường ray, sông và các đối tượng khác trong ảnh viễn thám
Có nhiều phương pháp để giải quyết bài toán nhận dạng cạnh, bao gồm phương pháp
dựa trên ngưỡng (Thresholding), phương pháp dựa trên bộ lọc (Filter based) và phương pháp dựa trên mô hình (Model Based) Trong đó, phương pháp dựa trên mô hình thường đạt
hiệu quả cao nhất vì nó sử dụng các mô hình học máy để học và phát hiện các cạnh
Mô hình học sâu thường được sử dụng để giải quyết bài toán nhận dạng cạnh là
mạng nơ ron tích chập (CNN) CNN có khả năng học được các đặc trưng của ảnh bằng
cách sử dụng các bộ lọc tích chập để trích xuất thông tin Các bộ lọc tích chập có thểphát hiện các đặc trưng như cạnh, góc, đường cong và các chi tiết khác của ảnh Sau đó,
các lớp kết nối đầy đủ (Fully Connected Layers) được sử dụng để kết hợp các đặc trưng
đã trích xuất và dự đoán các cạnh trên ảnh
Các mô hình CNN phổ biến được sử dụng để giải quyết bài toán nhận dạng cạnh
trong nhận diện ảnh viễn thám bao gồm U-Net, SegNet và FCN (Fully Convolutional Network) Trong đó, mô hình U-Net được sử dụng rộng rãi để giải quyết bài toán phân
đoạn ảnh trong nhận diện ảnh viễn thám, nhưng nó cũng có thể được sử dụng để giảiquyết bài toán nhận dạng cạnh Mô hình U-Net có kiến trúc bao gồm một phần mã hóa
(Encoding) và một phần giải mã (Decoding), giúp mô hình có khả năng phát hiện các
đặc trưng trên ảnh và đưa ra dự đoán chính xác các cạnh
Trang 15Tuy nhiên, bài toán nhận dạng cạnh bằng học sâu trong nhận diện ảnh viễn thámcũng gặp phải nhiều thách thức như độ phân giải thấp, sự mờ hình ảnh do mưa, sương
mù, khói bụi, tàng kính và độ sâu của vùng ảnh Vì vậy, việc sử dụng dữ liệu chất lượngcao và các phương pháp tiền xử lý như chuẩn hóa, tăng cường dữ liệu và sử dụng các kỹthuật phù hợp để có thể giải quyết các thách thức này
1.1.4 Bài toán nhận diện đối tượng
Bài toán nhận diện đối tượng (Object Detection) là một trong những bài toán quan
trọng trong lĩnh vực xử lý ảnh và máy học Nó liên quan đến việc phát hiện và định vịcác đối tượng khác nhau trong một hình ảnh hoặc một video Bài toán nhận diện đốitượng có nhiều ứng dụng trong thực tiễn, từ an ninh, giám sát đường phố, đến tự độnghóa sản xuất và xe tự lái
Bài toán nhận diện đối tượng có thể được giải quyết bằng các phương pháp truyềnthống hoặc sử dụng các mô hình học sâu Các phương pháp truyền thống thường sử
dụng các kỹ thuật phân đoạn hình ảnh (Segmentation), phát hiện cạnh (Edge Detection), phân tích đối tượng (Object Analysis) và học máy (Machine Learning) để tìm kiếm và
định vị các đối tượng
Các mô hình học sâu cho bài toán nhận diện đối tượng thường sử dụng các kiến trúc
mạng neural tích chập (Convolutional Neural Network - CNN) để học các đặc trưng từ ảnh
và tạo ra một bản đồ đặc trưng của ảnh Sau đó, các mô hình này sử dụng các kỹ thuật như
cửa sổ trượt (Sliding Window) hoặc mạng nơ ron tích chập dựa trên vùng (Region Based Convolutional Neural Network-RCNN) để phát hiện và định vị các đối tượng trong ảnh.
Các mô hình học sâu phổ biến cho bài toán nhận diện đối tượng bao gồm Faster
R-CNN, YOLO (You Only Look Once), SSD (Single Shot Detection) và RetinaNet Để đạt
được kết quả tốt trong bài toán này, cần sử dụng các kỹ thuật tiền xử lý dữ liệu, tăngcường dữ liệu, cũng như tối ưu hóa các tham số của mô hình để tăng độ chính xác vàgiảm thiểu thời gian huấn luyện
Trong ảnh viễn thám là việc sử dụng các mô hình học sâu để phát hiện và định vịcác đối tượng trên ảnh Bài toán này là một trong những bài toán quan trọng trong lĩnhvực nhận diện ảnh viễn thám vì nó có thể giúp phát hiện các đối tượng như tòa nhà, câycối, mạng lưới giao thông, các đối tượng trên biển, đất đai, v.v
Tuy nhiên, bài toán nhận diện đối tượng bằng học sâu trong ảnh viễn thám cũng gặp
Trang 16phải nhiều thách thức như độ phân giải thấp, độ sâu của vùng ảnh và sự thay đổi về ánhsáng trong các điều kiện thời tiết khác nhau Vì vậy, việc sử dụng dữ liệu chất lượngcao, các phương pháp tiền xử lý và các kỹ thuật tăng cường dữ liệu là rất quan trọng đểđạt được kết quả tốt trong việc giải quyết bài toán này.
1.2 Một số bài toán được đề cập trong nghiên cứu
1.2.1 Bài toán trích xuất móng nhà
Bài toán trích xuất móng nhà (hay còn gọi là bài toán Building Footprint) là một bài
toán trong lĩnh vực xử lý ảnh và ảnh viễn thám, liên quan đến việc xác định vị trí vàkích thước của các tòa nhà trên bề mặt đất bằng cách phân tích các hình ảnh vệ tinhhoặc máy bay không người lái
Mục đích của bài toán trích xuất móng nhà là tìm ra và xác định các tòa nhà, tòatháp cao, nhà xưởng và cấu trúc xây dựng khác được xây dựng trên mặt đất thông quaviệc phân tích và phát hiện các đối tượng có dạng và kích thước tương ứng trên ảnh vệtinh hoặc máy bay không người lái
Để giải quyết bài toán này, các phương pháp xử lý ảnh và ảnh viễn thám, như phânđoạn hình ảnh, phát hiện cạnh, phân tích đối tượng và học máy đều được sử dụng Các môhình học máy được áp dụng rộng rãi như máy vector hỗ trợ (SVM), mạng nơ ron và mạng
nơ ron tích chập (CNN) Có nhiều phương pháp được sử dụng để giải quyết bài toán tríchxuất móng nhà Một số phương pháp phổ biến được sử dụng trong lĩnh vực này như:
• Xử lý ảnh truyền thống: Sử dụng các phương pháp xử lý ảnh truyền thống như
phân đoạn hình ảnh, phát hiện cạnh và xử lý đặc trưng hình ảnh để xác định cácvùng tương ứng với các công trình xây dựng
• Máy vector hỗ trợ (SVM): SVM là một phương pháp học máy phổ biến được sử
dụng trong bài toán trích xuất móng nhà SVM tìm cách phân chia các điểm dữliệu vào các lớp khác nhau dựa trên đặc trưng của chúng, và được sử dụng đểphân loại các vùng trong ảnh là các công trình xây dựng hoặc không phải là cáccông trình xây dựng
• Mạng nơ ron: Mạng nơ ron được sử dụng rộng rãi trong các bài toán xử lý ảnh và có
thể áp dụng để giải quyết bài toán trích xuất móng nhà Các mạng nơ ron này
Trang 17có thể được huấn luyện để phân loại các vùng trong ảnh là các công trình xây dựng hoặc không phải là các công trình xây dựng.
• Mạng nơ ron tích chập (CNN): CNN là một mô hình mạng nơ ron được thiết kế
đặc biệt để xử lý ảnh và thường được sử dụng trong bài toán trích xuất móng nhà.CNN có khả năng tự động học các đặc trưng của hình ảnh và xác định các vùngtương ứng với các công trình xây dựng
• Kết hợp các phương pháp: Thường thì việc sử dụng một phương pháp đơn lẻ để
giải quyết bài toán trích xuất móng nhà không đủ hiệu quả Thay vào đó, việc kếthợp các phương pháp khác nhau có thể cải thiện đáng kể kết quả và tăng tínhchính xác của bài toán
Bài toán trích xuất móng nhà có nhiều ứng dụng thực tế trong việc giám sát và quản
lý đô thị, xây dựng hạ tầng, quản lý tài nguyên và bảo vệ môi trường Nó có thể được ápdụng trong các lĩnh vực khác nhau, từ địa chính, quy hoạch đô thị, bảo vệ môi trườngđến bảo vệ lãnh thổ và quốc phòng
1.2.2 Bài toán trích xuất ranh giới nông trang
Bài toán trích xuất ranh giới nông trang (hay còn gọi là bài toán Farm Boundaries)
là một bài toán trong lĩnh vực xử lý ảnh và ảnh viễn thám, liên quan đến việc xác địnhranh giới của các khu vực ruộng trên một hình ảnh hoặc một bộ dữ liệu ảnh viễn thám.Bài toán này có ứng dụng quan trọng trong việc quản lý tài nguyên đất đai, giám sát sảnxuất nông nghiệp, đánh giá và dự báo mùa vụ
Mục tiêu của bài toán trích xuất ranh giới nông trang là xác định được vị trí của cácranh giới ruộng trong ảnh Việc này được thực hiện bằng cách áp dụng các kỹ thuật xử
lý ảnh và ảnh viễn thám để phân tách các khu vực đất đai khác nhau trong ảnh và xácđịnh được đường biên giới giữa các khu vực này Các phương pháp xử lý ảnh truyềnthống và học máy đều được sử dụng để giải quyết bài toán này
Một số phương pháp thường được sử dụng để giải quyết bài toán trích xuất ranh giới
nông trang bao gồm phương pháp phân đoạn hình ảnh (Segmentation), phương pháp phát hiện cạnh (Edge Detection), phân tích đối tượng (Object Analysis), và các mô hình học máy như: SVM (Support Vector Machine), Random Forest, Neural Network, và CNN (Convolutional Neural Network).
Trang 18Bài toán trích xuất ranh giới nông trang là một bài toán khó và đòi hỏi sự chính xác caotrong việc xác định đường biên giới của các khu vực đất đai Tuy nhiên, nó có ý nghĩa quantrọng trong việc quản lý tài nguyên đất đai và phát triển nông nghiệp bền vững.
Trang 19Chương 2
Cơ sở lý thuyết
Phần lý thuyết trong luận văn này được chia thành hai phần: Phần đầu tiên chúng ta sẽthảo luận về mạng nơ ron và trong phần tiếp theo, chúng tôi sẽ đề cập đến việc nhậndiện trên ảnh viễn thám
Mạng nơ ron nhân tạo là một trong những kỹ thuật quan trọng của trí tuệ nhân tạo,
nó được lấy cảm hứng từ cấu trúc của các mạng nơ ron trong hệ thống thần kinh củacon người Khi nhắc đến mạng nơ ron nhân tạo, người ta thường đề cập đến bốn thuật
ngữ chính: Mô hình toán, lớp (Layer), học tập (Learning) và trừu tượng hóa (Abstraction) Mạng nơ ron nhân tạo là một mô hình tính toán, có nghĩa rằng nó nhận
đầu vào, xử lý và tạo ra đầu ra Cấu trúc bên trong của mô hình quyết định nó có thểgiải quyết những nhiệm vụ nào Từ khóa thứ hai đó là lớp, mô hình học sâu được xâydựng từ các lớp, mà chính các nơ ron nhân tạo tạo thành chúng Các nơ ron này lấy cảmhứng từ chính nơ ron sinh học do đó nó được đặt tên là “mạng nơ ron” Mỗi lớp xử lýđầu vào bằng một phép toán nhất định Các phép toán này phụ thuộc vào các kết nốigiữa các nơ ron và độ mạnh của kết nối đó
Mạng nơ ron tích chập (Convolutional Neural Network - CNN) là một trong những
phương pháp quan trọng và hiệu quả nhất trong lĩnh vực xử lý ảnh và thị giác máy tính.Với khả năng học được các đặc trưng ảnh và hiệu quả cao trong việc xử lý dữ liệu lớn,CNN đã trở thành công cụ quan trọng trong nhiều ứng dụng như nhận dạng đối tượng,
Trang 20phân loại ảnh, phân đoạn ảnh và nhiều lĩnh vực khác.
Chương này sẽ giới thiệu về kiến trúc cơ bản của mạng CNN, cách thức hoạt động
của các lớp tích chập, lớp tổng hợp và các lớp kết nối đầy đủ (Fully Connected) trong
mạng CNN Ngoài ra, chương cũng sẽ đề cập đến các kỹ thuật đào tạo mạng CNN như
giảm thiểu tổn thất (Loss Function), tối ưu hóa gradient (Gradient Optimization) và các
kỹ thuật điều chuẩn (Regularization Techniques) Cuối cùng, chương sẽ trình bày về
một số ứng dụng của mạng CNN trong xử lý ảnh và thị giác máy tính
Đối với mỗi đầu vào của mô hình x, có một đầu ra mong muốn của mạng (được gọi
là Ground Truth - mẫu thực) là y t , và đầu ra thực tế (Được dự đoán) là y p Vì đầu ra
thực tế phụ thuộc vào tất cả các trọng số bên trong mạng, do đó có một tập hợp các
trọng số mà y p gần nhất với y t Để tìm ra giá trị tối ưu này, một kỹ thuật được gọi là lantruyền ngược (Backpropagation) được sử dụng trong quá trình học tập Ví dụ về đầu vào cho một mạng như thế có với đầu vào là một hình ảnh và nhiệm vụ là phân loại đối tượng
trong đó Mạng trong ví dụ này sẽ cố gắng trừu tượng hóa từ các giá trị pixel của hình ảnhthành một lớp như “xe hơi” hoặc “cây” Trong các lớp ở bước trung gian, nó tạo ra “nhiềucấp độ trừu tượng”: Nếu quan sát các lớp đầu tiên, chúng ta có thể quan sát được kết quảtrông giống như làm nổi hay tăng cường các cạnh được hay các màu sắc được lọc và loại bỏđặc tính màu sắc, tuy nhiên, khi đến các lớp sâu hơn, các kết quả đầu ra của mạng rất khóhình dung hặc giải thích, đó là nguyên nhân người ta thường hay đề cập là mạng nơ ronkhông có tính minh bạch
Đây là sự khác biệt chính giữa học sâu và học máy truyền thống Trong trường hợptruyền thống, các đặc trưng mà mô hình sử dụng để đưa ra dự đoán được tạo bởi conngười và do đó có thể được hiểu Trong trường hợp học sâu, chúng là sản phẩm của quátrình backpropagation và là kết quả của tối ưu hóa số học Thuật ngữ ”học sâu”chỉ ra
rằng các mạng nơ ron được sử dụng có thể có nhiều lớp (100 hoặc hơn) Có nhiều loại
mạng nơ ron khác nhau, trong luận văn này, chúng ta sẽ tập trung vào mạng nơ ron tíchchập (CNN), vì chúng là phù hợp nhất để phân loại và phân đoạn hình ảnh Hình sau mô
tả cấu trúc của một mạng tích chập hoàn toàn thông dụng được sử dụng cho phân loạihình ảnh Chúng tôi sẽ nhắc lại từng thành phần của nó và giải thích quy trình đào tạochi tiết hơn ở các phần tiếp theo
Trang 212.1.1 Nơ ron
Vì lấy ý tưởng từ mạng nơ ron ron sinh học, cho nên, trước khi đề cập đến nơ ronnhân tạo, chúng ta sẽ phân tích qua về cấu tạo một nơ ron sinh học và các thành phầntương đương của chúng trong xây dựng nơ ron nhân tạo
Nơ ron là đơn vị chức năng nhỏ nhất trong não Ngoài các phần khác, nó bao gồm thân
tế bào, các nhánh thụ thể và trục axon Các nhánh thụ thể tạo thành ”đầu nhận”của tế bào,trong khi trục axon là “đầu truyền” Thông thường, các nơ ron có nhiều nhánh thụ thể,nhưng chỉ có một trục axon (tuy nhiên có ngoại lệ) Trục axon của một tế bào kết nối vớicác nhánh thụ thể của tế bào khác thông qua các kết nối hóa sinh Những kết nối này có mộtsức mạnh nhất định, xác định mức độ tín hiệu được truyền từ một tế bào đến tế bào tiếptheo Đơn giản thì, các tín hiệu đầu vào từ các nhánh thụ thể được tổng hợp trong thân tếbào và nếu tín hiệu tích lũy vượt qua một ngưỡng nhất định, nó sẽ được truyền tiếp đến tếbào kế tiếp qua trục axon Trong nhiều thập kỷ, các nhà nghiên cứu đã mô phỏng hành
vi này trong các thí nghiệm máy tính, với kết quả đáng chú ý nhất là perceptron, đượcphát minh bởi Rosenblatt vào năm 1958 Nó được thiết kế để nhận đầu vào là mộtvector số thực và đưa ra một dự đoán nhị phân đơn giản là 0 hoặc 1, dựa trên một tậphợp các trọng số liên kết với đầu vào Perceptron được sử dụng để giải quyết các bàitoán phân loại đơn giản và là nền tảng cho nhiều mạng nơ ron nhân tạo phức tạp hơn
Hình 2.1.1: Thông tin từ các dây thần kinh đến được biểu diễn bởi x i Sức mạnh kết nối của các khớp thần kinh được mô hình bằng tham số trọng số ω i Tổng trọng số được tính bằng cách cộng dồn các giá trị đầu vào được nhân với trọng số tương ứng, mô phỏng quá trình tích lũy thông tin trong thân tế bào Tiếp theo là hàm kích hoạt f , quyết định thông tin có được truyền đi hay không Đầu ra cuối cùng
y tương đương với trục truyền thần kinh và trở thành đầu vào (x) cho nơ ron tiếp theo.
Trang 22Hình 2.1.2: Mỗi hình tròn biểu thị một neuron, thực hiện phép cộng và kích hoạt
Mỗi đường là một kết nối có trọng số đến các neuron ở lớp trước đó Ví dụ này mô
tả các lớp được kết nối đầy đủ Các lớp trong mạng được gọi là các lớp ẩn
Neuron nhân tạo có thể được mô hình bằng phương trình 2.1, bao gồm tổng trọng
số, theo sau bởi một hàm kích hoạt phi tuyến tính (xem 2.1.1) mô phỏng ngưỡng được
áp dụng bởi thân tế bào:
y : Đầu ra của neuron.
Các trọng số kết nối ω i được học trong quá trình lan truyền ngược, mà chúng ta sẽ thảoluận trong phần lan truyền ngược Nhiều neuron có thể được ghép lại để tạo thành cáclớp Bằng cách kết nối các lớp theo chuỗi, các phép toán logic đơn giản có thể đượcthực hiện Với sự phức tạp tăng lên, mạng cũng có thể thực hiện các nhiệm vụ phức tạphơn Hình 2.1.2 cho một ví dụ về một đa tầng perceptron (MLP) [26], được bao gồmcác lớp được kết nối đầy đủ Mỗi neuron của một lớp được kết nối với tất cả các neurontrong lớp trước đó
Trang 232.1.2 Lớp tích chập
Lớp tích chập hay tên tiếng Anh là Convolutional Layers là một loại lớp trong mạng
nơ ron sử dụng trong xử lý và phân tích ảnh Lớp tích chập có khả năng học cách tríchxuất các đặc trưng từ dữ liệu hình ảnh thông qua quá trình tích chập của các bộ lọc(filter) với ảnh đầu vào
Mỗi bộ lọc có thể được hiểu như là một ma trận nhỏ H k × W k × C thường có kíchthước 3 × 3 hoặc 5 × 5 pixel, được trượt qua trên toàn bộ ảnh đầu vào để tạo ra một bản đồđặctrưng mới Quá trình này tương đương với việc tìm kiếm các đặc trưng cụ thể của ảnh,
ví dụ như cạnh, đường cong hay hình dạng
Đầu ra của phép tích chập là một mảng mới có kích thước (H − H k + 1) ×( W − W k +
1), vì vậy chiều sâu bị bào mòn bởi phép tích chập và các chiều dọc bị thu nhỏ đi Phéptính tích chập có thể được hiểu như việc trượt kernel trên hình ảnh đầu vào, tính tíchchập của phần tử tại mỗi vị trí i , j Công thức sau đây đưa ra định nghĩa toán học củaphép tính tích chập, được sử dụng trong học sâu:
H k −1 W k −1 C
∑l0 ∑ ∑
(2.2)(I ∗ K)i,j = I i+l,j+m,n K
l, m, n : Chỉ số không gian và kênh.
Hình 2.1.3 minh họa cách tính tích chập cho một ảnh xám Để có được đầu ra vớicùng kích thước chiều ngang và chiều dọc như đầu vào, đầu vào được lót thêm, cónghĩa là các giá trị biên được phản chiếu với một chiều rộng phù hợp (ở đây là một)
Trang 24Hình 2.1.3: Mô tả cách tính toán phần tử thứ hai của hàng đầu tiên Sau bước
này, cửa sổ tính toán trượt sang phải một bước và sau khi hoàn thành mộthàng, nó tiếp tục sang hàng kế tiếp, nguồn [22]
Lớp tích chập Một lớp tích chập bao gồm N tích chập đang hoạt động song song trên
cùng một đầu vào, mỗi tích chập có một kernel khác nhau Kết quả trung gian là N hình
ảnh hai chiều khác nhau, được gọi là bản đồ đặc trưng (Feature Map) Những bản đồ
đặc trưng này được xếp chồng lên nhau để tạo ra đầu ra của lớp tích chập, có kích thước(H − H k + 1, W − W k + 1, N) Thông thường, mỗi lớp tích chập được kèm theo một hàmkích hoạt, và theo sau đó thường là một lớp pooling, giúp giảm kích thước của bản đồđặc trưng
Hình 2.1.4: Trong một lớp tích chập, N tích chập hoạt động trên đầu vào với các
kernel khác nhau, dẫn đến N đầu ra hai chiều khác nhau Những đầu ra này đượcxếp chồng lên nhau để tạo ra bản đồ đặc trưng cuối cùng, là đầu ra của lớp
Trang 25Padding, Stride and Dilation Padding, stride và dilation là các cách để điều khiển kích
thước đầu ra của phép tính tích chập và cách nó trích xuất thông tin từ đầu vào của nó Khilót (padding) một ảnh hoặc bản đồ đặc trưng, các giá trị bổ sung được chèn vào xung quanhbiên của nó Padding có thể được thực hiện với giá trị hằng số (thường là không) hoặc là giátrị phản chiếu của biên ảnh, như chúng ta đã thấy trong Hình 2.1.3 Càng tăng độ rộng(padding), kích thước đầu ra sau tích chập càng lớn Do đó, padding có thể được sử dụng đểgiữ kích thước chiều ngang của bản đồ đặc trưng trong quá trình tính tích chập
Kernel có thể trượt qua đầu vào với một độ rộng bước nhất định, là stride Kíchthước đầu ra sẽ nhỏ hơn nếu sử dụng stride lớn hơn Ví dụ, stride bằng hai sẽ làm giảmkích thước đầu ra xuống một nửa Trong trường hợp trên, chúng ta giả sử stride bằngmột, vì vậy không có sự giảm thiểu thông tin mạnh Hình 2.1.5 minh họa kết hợp giữapadding và stride:
Hình 2.1.5: Trong ví dụ này [4], đầu vào (màu xanh) được đệm với p = 1.
Kích thước kernel là 3 và stride là s = 2 Như kết quả, đầu ra (màu xanhlam) có kích thước bằng một nửa kích thước của đầu vào đã được đệm
Dilation là một kỹ thuật sử dụng để thay đổi kích thước của kernel bằng cách thêmcác giá trị 0 vào giữa các phần tử của kernel Khi kernel được mở rộng bằng dilation, nó
sẽ bao phủ một vùng lớn hơn của input, cho phép mô hình học được các mối tươngquan trên khoảng cách lớn hơn giữa các pixel Kỹ thuật dilation được sử dụng để tăngcường khả năng giải quyết vấn đề độ sâu (depth) trong CNNs và cải thiện hiệu suất của
mô hình Phương pháp này được minh hoạ như hình 2.1.6
Trang 26Hình 2.1.6: Phép tích chập sử dụng Dilation với các giá trị 0 được chèn vào
trong kernel Chỉ các giá trị được tô màu xám đóng góp vào kết quả đầu ra Kếtquả của phép tích chập sẽ nhỏ hơn do kích thước kernel lớn hơn (ở đây là 5 x
5 thay vì 3 x 3) Hình ảnh được lấy từ [4]
Tích chập chuyển vị Trong quá trình tính toán, Tích chập chuyển vị hay transposed
convolutions có thể được coi như một phép giải nén (decompression) hoặc mở rộng sampling) của input Phép tích chập chuyển vị có thể là sự kết hợp của các phéppadding, stride và dilation để cho phép mẫu đầu vào được phóng to thông qua tích chập,
(up-sử dụng một phương pháp nội suy có thể học được Chúng ta cần lưu ý không nhầm lẫntransposed convolutions và deconvolution
Hình 2.1.7: Đầu vào kích thước 3x3 được dilated với các giá trị 0 và được
padded thành kích thước 7x7 Sau đó, một phép tích chập thông thường đượcthực hiện, dẫn đến đầu ra được phóng to kích thước 5x5
2.1.3 Hàm kích hoạt
Hàm kích hoạt hay còn gọi là activation functions được áp dụng trên đầu ra của mộtphép tính toán hoặc một mạng neuron để giới hạn giá trị đầu ra trong một phạm vi cụ thể,thường là [0, 1] hoặc [-1, 1] Các hàm này là một phần quan trọng của các mô hình học
Trang 27sâu và được sử dụng để giải quyết vấn đề phi tuyến tính bởi vì phép tính tích chập làmột phép toán tuyến tính, điều này có nghĩa là nếu áp dụng nhiều phép tích chập liêntiếp để tạo ra một đầu ra, thì sẽ tồn tại một phép tích chập đơn lẻ tạo ra cùng một đầu ranày Điều này có nghĩa là một mạng nơ ron không có phi tuyến tính về cơ bản chỉ có thểthực hiện các công việc hồi quy tuyến tính Do đó, phi tuyến tính đóng vai trò then chốttrong các mạng nơ ron Sau đây là một số hàm kích hoạt phi tuyến thường gặp.
Hàm kích hoạt ReLU ReLU (Rectified Linear Unit) [1] là một hàm kích hoạt phi tuyến
được sử dụng phổ biến trong mạng nơ ron, đặc biệt là trong các mô hình CNN Hàm ReLUđược định nghĩa là f(x) = max(0, x), nghĩa là kết quả của hàm là giá trị x nếu x > 0, và là 0
nếu x <= 0 Hàm này đơn giản và tính toán nhanh chóng Ngoài ra, hàm ReLU cũng có khảnăng giúp giảm sự phụ thuộc tuyến tính giữa các đầu vào, làm cho mô hình hội tụ nhanhhơn Tuy nhiên, hàm ReLU cũng có nhược điểm là có thể dẫn đến vấn đề dying ReLU, khi
mà một số neuron có giá trị đầu vào âm liên tục và không bao giờ được kích hoạt, điều nàydẫn đến việc neuron này không học được bất kỳ đặc trưng nào cả
Công thức:
Hàm kích hoạt Sigmoid Hàm sigmoid [7] hoặc hàm logistic là một hàm kích hoạt
được sử dụng rộng rãi, nó có đạo hàm liên tục và giới hạn giá trị giữa 0 và 1 Điều nàygiúp nó được sử dụng để ánh xạ các giá trị tùy ý vào khoảng này Hàm sigmoid có thểđược sử dụng như hàm kích hoạt cuối cùng trong các tác vụ phân loại nhị phân, trong
đó 0.5 được coi là ngưỡng quyết định để phân loại các sự kiện Điểm mạnh là đạo hàmđầu tiên của nó rất đơn giản để tính toán
1 + e −x
∂σ(x)
= σ(x)(1 − σ(x)) (2.5)
Hàm kích hoạt Softmax Hàm kích hoạt Softmax [6] là một bản tổng quát hóa của hàm
Sigmoid có thể xử lý đầu vào đa chiều Hàm kích hoạt Softmax là một hàm kích hoạtthường được sử dụng trong bài toán phân loại đa lớp Hàm Softmax nhận đầu vào là một
vector z = (z1, z2, , z k ) và trả về một vector đầu ra y = (y1, y2, , y k) có các phần tử là
các giá trị xác suất, với y j là xác suất của lớp thứ j Công thức của hàm Softmax như sau:
σ(z) j = e z j
∑
k C=1 e z k
Trang 28Ở đây, e là số Euler và k là số lượng lớp cần phân loại Công thức này cho ta xác suấtcủa mỗi lớp j dựa trên giá trị đầu vào z j Việc chọn lớp dự đoán là lớp có xác suất caonhất trong các xác suất tính được Hàm Softmax được sử dụng để chuyển đổi giá trị đầu
ra của một mạng nơ ron thành xác suất của các lớp
Hàm kích hoạt Tanh Hàm Tanh (Tanh Activation) [19] là một hàm kích hoạt phi tuyến
được sử dụng trong các mạng neuron nhân tạo Hàm tanh tương tự như hàm Sigmoid,nhưng có giá trị đầu ra từ -1 đến 1 thay vì 0 đến 1
Công thức của hàm tanh là:
e x + e −x
Tương tự như sigmoid, hàm tanh được sử dụng để đưa đầu ra của một lớp nơ ron vềmột phạm vi giá trị cụ thể, giúp cho quá trình học của mô hình được ổn định hơn Hàmtanh thường được sử dụng trong các mô hình về xử lý ngôn ngữ tự nhiên, nhận dạnggiọng nói, và một số ứng dụng khác
2.1.4 Pooling
Phép pooling là một phép tính toán trong mạng nơ ron nhân tạo được sử dụng để giảmkích thước của đầu ra thông qua việc lấy giá trị trung bình hoặc giá trị lớn nhất của các phần
tử trong một vùng cụ thể của đầu vào Thường được sử dụng sau các lớp tích chập để giảm
số lượng thông tin và giảm thiểu overfitting Pooling có thể được thực hiện trên các địnhdạng khác nhau của dữ liệu, chẳng hạn như ma trận 2D, tensor 3D hoặc tensor 4D, tùythuộc vào kiểu mô hình và loại đầu vào Max pooling nhận một mảng làm đầu vào và thaythế mỗi khối các giá trị n × n bằng giá trị lớn nhất của chúng Các biến thể pooling khác ví
dụ như lấy trung bình của mỗi khối Pooling hoạt động độc lập trên từng lớp chiều sâu, vìvậy chỉ có các kích thước bên cạnh được thay đổi Max pooling với kích thước 2 × 2 ví dụnhư loại bỏ 75% thông tin đầu vào, điều này giúp giảm số lượng tham số trong các lớp sau.Điều này giảm nguy cơ overfitting và tăng tốc tính toán Pooling là một phép tất định vàkhông cần tham số học Đôi khi để giảm kích thước, người ta có thể dùng convolution vớistride để thay thế pooling là một phép có chứa tham số học
Sau đây là hình ảnh minh hoạ của phép pooling:
Trang 29Hình 2.1.8: Ví dụ về max pooling 2x2 Mỗi khối 2x2 được thay thế bằng giá
trị lớn nhất của nó
2.1.5 Các chỉ số đánh giá
Các chỉ số đánh giá hay metrics là các đại lượng số được sử dụng để đo lường hiệu suấtcủa một mô hình học máy hoặc thuật toán trong việc giải quyết một vấn đề cụ thể Tùythuộc vào nhiệm vụ, ta phải chọn một chỉ số phù hợp Trong phân loại hình ảnh giữa C lớp,mạng sẽ trả về một vec tơ được chuẩn hoá y p ∈ R C, mỗi thành phần của vec tơ ứng với xácsuất của lớp tương ứng sẽ được ký hiệu y p , c Khi một mạng phân đoạn hình ảnh, nó sẽ trả vềbản đồ xác suất hoặc ma trận Yp ∈ R H W × Ma trận này sẽ có chiều cao H hàng, chiềurộng W cột và chiều sâu C kênh, ma trận này sẽ được định hình lại bằng cách nối các hàng(RH W × → R H . W × ) Về cơ bản, nó sẽ chính là các vec tơ kích thước C với H W thành phần sẽ được biểu diễn dưới dạng yp , c và vec tơ này sẽ được so sánh với mẫu chính xác yt Tiếp theo sẽ là một số chỉ số đánh giá thường gặp trong các bài toán.
Intersection over Union Intersection over Union (IoU) [24] là chỉ số phần giao trên phần
hợp hay còn gọi là chỉ số Jaccard (J) được dùng để đo lường chất lượng phân đoạn hìnhảnh Giá trị này nằm trong khoảng 0 đến 1 Khi tiến dần về 1, kết quả dự đoán và mẫu thực
tế sẽ càng trùng nhau Vơi hai tập A và B có thể được thể hiện qua công thức sau:
Trang 30cho lớp c có thể được định nghĩa như sau:
ni : Số lượng các trường hợp (hoặc pixel) của lớp i
Accuracy, Precision and Recall Accuracy là chỉ số được sử dụng để đánh giá hiệu suất
của mô hình phân loại Nó tính tỷ lệ giữa số lần mô hình dự đoán đúng và tổng số dữliệu được dự đoán Công thức tính Accuracy được biểu diễn như sau:
Accuracy = TP + TN + FP + FN
Trong đó,
TP là True Positive, tức số lượng trường hợp mô hình dự đoán đúng là positive
TN là True Negative, tức số lượng trường hợp mô hình dự đoán đúng là negative
FP là False Positive, tức số lượng trường hợp mô hình dự đoán sai là positive
FN là False Negative, tức số lượng trường hợp mô hình dự đoán sai là negative.
Trang 31Ví dụ, giả sử chúng ta có một bộ dữ liệu gồm 100 mẫu, trong đó 70 mẫu thuộc lớp A và 30 mẫu thuộc lớp B Mô hình học máy dự đoán rằng 65 mẫu thuộc lớp A và 35 mẫu thuộc lớp B Khi đó, TP = 65,
TN = 5, FP = 0, FN = 30 Từ đó, ta tính được Accuracy của mô hình như sau:
Accuracy = 65+5 =70 = 0.7
+5+0+30 10065
Do đó, Accuracy của mô hình là 70%
Precision là chỉ số được sử dụng để đánh giá khả năng của mô hình phân loại trong việc dự đoán đúng các trường hợp positive Nó tính tỷ lệ giữa số lần mô hình dự đoán đúng là positive và tổng số lần
mô hình dự đoán là positive Công thức tính Precision được biểu diễn như sau:
Precision = TP + FP
Trong đó, Ví dụ, giả sử chúng ta có một bộ dữ liệu gồm 100 mẫu, trong đó 70 mẫuthuộc lớp A và 30 mẫu thuộc lớp B Mô hình học máy dự đoán rằng 65 mẫu thuộc lớp
A và 35 mẫu thuộc lớp B Khi đó, TP = 65, FP = 0 Từ đó, ta tính được Precision của
mô hình như sau:
Ví dụ, giả sử chúng ta có một bộ dữ liệu gồm 100 mẫu, trong đó 70 mẫu thuộc lớp A và
30 mẫu thuộc lớp B Mô hình học máy dự đoán rằng 65 mẫu thuộc lớp A và 35 mẫu thuộclớp B Khi đó, TP = 65, FN = 5 Từ đó, ta tính được Recall của mô hình như sau:
Recall = 65 =13 ≈ 0.93
Do đó, Recall của mô hình là khoảng 93% F1-Score là chỉ số kết hợp giữa Precision
22
Trang 32và Recall để đánh giá tổng thể hiệu suất của mô hình phân loại Nó được tính bằng
trung bình điều hòa (Harmonic Mean) của Precision và Recall Công thức tính F1-Score được biểu diễn như sau:
F1_Score =2 × Precision × Recall (2.15)
Precision + Recall
Với công thức trên, giá trị F1-Score sẽ càng cao nếu cả Precision và Recall đều cao.F1-Score có giá trị từ 0 đến 1, và giá trị càng gần 1 thì mô hình phân loại càng tốt
Ví dụ, giả sử chúng ta có một bộ dữ liệu gồm 100 mẫu, trong đó 70 mẫu thuộc lớp
A và 30 mẫu thuộc lớp B Mô hình học máy dự đoán rằng 65 mẫu thuộc lớp A và 35mẫu thuộc lớp B Khi đó, TP = 65, FP = 0, FN = 5 Từ đó, ta tính được Precision vàRecall của mô hình như sau:
23
Trang 33Trong bài toán phân loại, Công thức của hàm mất mát Categorical Cross Entropy có thể được viết như sau:
∑
i1 N H(y, ˆy) = − y i log(ˆy i) (2.17)
=
Trong đó, y là vector one-hot encoding của nhãn đúng của dữ liệu và ˆy là vector đầu ra
dự đoán của mô hình, có cùng kích thước với y Hàm mất mát này tính toán tổng của cácgiá trị logarithm của các phần tử trong ˆy nhân với các phần tử tương ứng trong y
Một số hàm mất mát phổ biến khác là là hàm bình phương sai số (Mean Squared Error), hàm Cross Entropy, và hàm Log Likelihood Việc chọn hàm mất mát phù hợp là
một yếu tố quan trọng trong việc xây dựng một mô hình dự đoán chính xác và hiệu quả
2.1.7 Lan truyền ngược
Giải thuật lan truyền ngược hay Backpropagation là một phương pháp quan trọng
trong học sâu để tính toán đạo hàm của hàm mất mát theo các tham số trong mô hình
Nó được sử dụng trong quá trình huấn luyện mạng nơ ron để cập nhật các trọng số vàbias của mạng
Lan truyền ngược được sử dụng để tính toán độ dốc của hàm mất mát theo các trọng
số của mô hình Nó được thực hiện thông qua lan truyền ngược thông tin từ lớp đầu rađến lớp đầu vào của mô hình Thuật toán lan truyền ngược có thể được mô tả bằng cácbước sau:
• Tính toán đầu ra của mô hình dự đoán bằng cách sử dụng các trọng số hiện tại và các đầu vào của mô hình
ˆy = f(W (L) f(W (L−1) f(W(1)x + b(1)) ) + b (L)) (2.18)
Trong đó, W (i) và b (i) lần lượt là trọng số và bias của lớp thứ i, f là hàm kích hoạt
và x là đầu vào của mô hình
• Tính toán gradient của hàm mất mát theo đầu ra dự đoán
∂ L
(2.19)
∂ˆ y
Trang 34• Lan truyền ngược thông tin để tính toán gradient của hàm mất mát theo các trọng
số và bias của mô hình Đầu tiên, tính toán gradient của hàm mất mát theo đầu racủa mỗi lớp
Trong đó, a (i) là giá trị đầu vào của lớp thứ i trước khi áp dụng hàm kích hoạt, ⊙
là phép nhân Hadamard (element-wise multiplication) và f ′ là đạo hàm của hàmkích hoạt
• Tính toán độ dốc của hàm mất mát theo các trọng số và bias của mô hình Với mỗilớp i từ cuối cùng đến lớp đầu tiên, tính toán độ dốc của hàm mất mát theo trọng số
W (i) và bias b (i):
• Cập nhật các trọng số và bias của mô hình bằng cách sử dụng độ dốc đã tính toán
và một thuật toán tối ưu hóa như Gradient Descent, Stochastic Gradient Descent hoặc Adam:
2.1.8 Các thuật toán tối ưu hóa
Trong học sâu, thuật toán tối ưu hóa (Optimizers) là một thành phần quan trọng
trong quá trình huấn luyện mô hình Optimizer giúp tối ưu hóa các tham số của mô hình
để giảm thiểu giá trị hàm mất mát trên tập huấn luyện
Trang 35Trong quá trình huấn luyện một mô hình, một bộ dữ liệu được sử dụng để đào tạo
mô hình, và hàm mất mát được tính để đo lường độ sai khác giữa đầu ra được dự đoánbởi mô hình và đầu ra thực tế Hàm mất mát này là một hàm số có nhiều điểm cực tiểu,
và việc tìm ra giá trị tối ưu của các tham số mô hình để giảm thiểu giá trị của hàm mấtmát trên tập huấn luyện là vấn đề quan trọng
Các thuật toán tối ưu hóa được thiết kế để cập nhật các tham số của mô hình dựatrên đạo hàm của hàm mất mát, với mục tiêu giảm thiểu giá trị của hàm mất mát theothời gian Các thuật toán tối ưu hóa khác nhau có các phương pháp cập nhật tham sốkhác nhau, với những ưu điểm và nhược điểm riêng Một số thuật toán tối ưu hóa phổbiến trong học sâu bao gồm:
Stochastic Gradient Descent (SGD) [27] là một thuật toán tối ưu đơn giản và phổ biến
trong học sâu, được sử dụng để tối ưu hóa các hàm mất mát Thuật toán này hoạt độngbằng cách cập nhật trọng số của mô hình theo từng mẫu dữ liệu đơn lẻ thay vì toàn bộtập dữ liệu Bên dưới là chi tiết về thuật toán SGD:
Cho một mẫu dữ liệu (x i , y i) trong tập huấn luyện, với x i là đầu vào và y i là đầu ratương ứng Kí hiệu W là tập hợp các tham số cần tối ưu của mô hình, bao gồm các trọng
số và bias
Các bước trong SGD như sau:
• Khởi tạo các tham số ban đầu W0
• Lặp lại các bước sau cho t = 1, 2, , T:
a.Lấy ngẫu nhiên một mẫu dữ liệu (x i , y i) từ tập huấn luyện
b Tính đầu ra dự đoán ˆyi bằng cách sử dụng mô hình với các tham số hiện tại Wt − 1
c. Tính đạo hàm của hàm mất mát L theo tham số W tại mẫu dữ liệu (x i , y i):
∇ W L(W t−1 , x i , y i)
d Cập nhật tham số của mô hình W t bằng cách sử dụng công thức:
W t = W t−1 − η ∇ W L(W t−1 , x i , y i)Trong đó, η là tham số học, quyết định tốc độ học của mô hình Tham số học quá
Trang 36cao có thể dẫn đến Overshooting (đi qua cực tiểu địa phương), trong khi đó tham
số học quá thấp có thể dẫn đến tốc độ học chậm và mất thời gian huấn luyện
• Kết thúc quá trình huấn luyện và trả về các tham số tối ưu W T
Với các mẫu dữ liệu đơn lẻ, SGD có khả năng tối ưu hóa nhanh hơn so với cácphương pháp tối ưu trên toàn bộ tập dữ liệu Tuy nhiên, SGD cũng có thể dẫn đến cácbước cập nhật tham số không ổn định và dao động nhiều hơn, do đó mô hình có thể hội
tụ chậm hoặc không hội tụ, ngoài ra SGD không đảm bảo đạt được cực tiểu toàn cụccủa hàm mất mát, vì SGD có thể bị mắc kẹt ở cực tiểu địa phương Tuy nhiên, với sự
kết hợp của các kỹ thuật khác như tham số học Scheduling và Momentum, SGD có thể
tránh được tình trạng này và tối ưu hóa tốt hơn
Adam Adam (Adaptive Moment Estimation) [12] là một trong những thuật toán tối ưu
phổ biến trong học sâu, được phát triển bởi Diederik P Kingma và Jimmy Ba vào năm
2015 Thuật toán Adam kết hợp giữa SGD với Momentum và RMSProp để cập nhật
trọng số của mô hình
Các bước trong thuật toán Adam như sau:
• Khởi tạo các tham số ban đầu: trọng số mô hình W, tham số học α, momentum β1,
và RMSProp decay rate β2
• Khởi tạo giá trị ban đầu cho first moment vector m0 và second moment vector v0
bằng 0
• Lặp lại các bước sau cho t = 1, 2, , T:
1. Lấy một lô ngẫu nhiên gồm m mẫu từ tập huấn luyện
2. Tính gradient của hàm mất mát J theo trọng số W trên lô này:
Trang 375 Chỉnh sửa first và second moment estimate để tránh sự Bias:
Trong đó, ε là một hằng số rất nhỏ để tránh trường hợp chia cho 0
• Kết thúc quá trình huấn luyện và trả về trọng số tối ưu W T
Adam sử dụng first moment estimate m t để tính toán độ lớn và hướng của gradient,
và second moment estimate v t để thay đổi tham số học dựa trên lịch sử của gradient.
Những thông tin này giúp thuật toán cân bằng giữa việc di chuyển nhanh đến điểm cựctiểu và việc tránh nhảy qua điểm cực tiểu địa phương Adam cũng giúp tăng tốc quátrình hội tụ của mô hình bằng cách tự động điều chỉnh tham số học dựa trên độ lớn của
gradient và độ lớn của gradient trung bình.
2.1.9 Chuẩn hóa theo lô
Chuẩn hóa theo lô là một kỹ thuật chuẩn hóa đầu vào trong mạng nơ ron để giúp
tăng tốc độ hội tụ của mô hình và giảm hiện tượng mất gradient Kỹ thuật này được sử
dụng trong nhiều kiến trúc mạng nơ ron
Chuẩn hóa theo lô sẽ thay đổi đầu vào của một layer bằng cách chuẩn hóa và phânphối lại các giá trị theo trung bình và độ lệch chuẩn của một lô dữ liệu Cụ thể, với một
lô gồm m mẫu dữ liệu, giả sử đầu vào của layer là x = x1, x2, , x m, Chuẩn hóa theo lô
sẽ thực hiện các bước sau:
• Tính toán giá trị trung bình μ và độ lệch chuẩn σ trên một lô, được tính bằng cách:
μ B = m1 ∑m
x i i=1
Trang 38σ2B = m1 ∑m
(x i −
μ B)2 i=1
trong đó m là số lượng các đầu vào trong lô
• Chuẩn hóa lô bằng cách sử dụng giá trị trung bình và độ lệch chuẩn vừa tính được:
trong đó ε là một số rất nhỏ để tránh phép chia cho 0
• Scale và shift để tăng tính linh hoạt của quá trình chuẩn hóa Chuẩn hóa theo lôthêm hai tham số mới, γ và β vào quá trình chuẩn hóa, để tăng khả năng biểu diễncủa mô hình Khi đó, đầu ra của quá trình chuẩn hóa được tính bằng công thức:
y i = γˆx i + β
Tham số γ và β được học trong quá trình huấn luyện, thông qua việc cập nhật
gra-dient cho chúng.
2.1.10 Tăng cường dữ liệu
Tăng cường dữ liệu hay Augmentation là một kỹ thuật được sử dụng rộng rãi trong
học máy và thị giác máy tính để tăng cường dữ liệu huấn luyện bằng cách tạo ra cácphiên bản mới từ dữ liệu huấn luyện ban đầu bằng cách áp dụng các phép biến đổi đơngiản như xoay, lật, thay đổi kích thước, cắt, v.v Kỹ thuật này được sử dụng để mở rộngtập dữ liệu huấn luyện mà không cần thu thập thêm dữ liệu mới từ thực tế, giúp tăng độchính xác và khả năng tổng quát hóa của mô hình
Các kỹ thuật tăng cường dữ liệu thường được áp dụng trên các tập dữ liệu ảnh, baogồm cả ảnh tĩnh và video, nhưng cũng có thể được áp dụng cho các tập dữ liệu văn bản,
Trang 39• Cắt ảnh theo các vị trí và kích thước khác nhau
• Áp dụng các bộ lọc màu sắc hoặc độ sáng/khả năng tương phản khác nhau
Và nhiều phép biến đổi khác
Các kỹ thuật tăng cường dữ liệu có thể được áp dụng trước khi đưa dữ liệu vào môhình huấn luyện, hoặc có thể được tích hợp trực tiếp vào mô hình, được gọi là lớp tăngcường dữ liệu hoặc lớp tăng cường ảnh
2.2.1 Ảnh vệ tinh
Ảnh vệ tinh (Satellite Imagery) là loại hình dữ liệu được thu thập từ các vệ tinh quan
sát Trái đất và được sử dụng rộng rãi trong nhiều lĩnh vực khác nhau như địa lý, môitrường, nông nghiệp, dự báo thời tiết, tài nguyên đất đai và bảo vệ môi trường
Các vệ tinh quan sát Trái đất được trang bị các cảm biến và hệ thống máy ảnh đểchụp hình ảnh Trái đất Các cảm biến này có thể bao gồm cảm biến quang học, hồngngoại, viễn thám radar và lidar để thu thập thông tin về độ sâu, độ cao, độ ẩm và độ bức
xạ Chúng tôi sẽ tập trung chỉ vào các cảm biến quang học, vì chúng là đối tượng nghiêncứu thú vị nhất cho các tác vụ xử lý hình ảnh sâu bằng học máy và được phổ biến nhất.Một số cảm biến quang học trong các vệ tinh quan sát Trái đất được sử dụng đểchụp các hình ảnh có độ phân giải khác nhau, từ đó thu thập thông tin về các yếu tốkhác nhau trên Trái đất, chẳng hạn như địa hình, bề mặt đất, tài nguyên nước, môitrường, dân số và các yếu tố kinh tế khác
Một số chương trình vệ tinh nổi tiếng nhất bao gồm Landsat, Sentinel và MODIS.Landsat là chương trình vệ tinh đầu tiên được phát triển để thu thập thông tin về các yếu tốmôi trường và tài nguyên trên Trái đất Sentinel là một chương trình vệ tinh do Châu Âuphát triển, được thiết kế để theo dõi thay đổi khí hậu và môi trường MODIS là một cảmbiến được sử dụng trong các chương trình vệ tinh như Aqua và Terra để thu thập thông tin
về khí hậu, môi trường và tài nguyên đất đai Một số vệ tinh quan trọng khác bao gồmPléiades 1A/B và các vệ tinh WorldView Hầu hết các vệ tinh quan sát từ xa cảm biếnquang học quay quanh Trái đất trong quỹ đạo Trái đất thấp, với độ cao trung bình từ 450
Trang 40km đến 800 km trên quỹ đạo cực bắc, đồng bộ với mặt trời.
Quỹ đạo đồng bộ mặt trời có hai lợi thế chính: đầu tiên, nó cho phép đặt vệ tinh trongánh sáng mặt trời liên tục và thứ hai, một điểm cụ thể trên Trái đất luôn được chụp dướiđiều kiện ánh sáng giống nhau, ngoại trừ các thay đổi mùa Điều này tăng tính khả so sánhcủa các hình ảnh thu được Vì mặt phẳng quỹ đạo đồng bộ mặt trời xoay chậm quanh Tráiđất và Trái đất xoay quanh chính nó, các vệ tinh có thể quay trở lại mỗi khu vực quan tâmtrong vài ngày hoặc thậm chí mỗi ngày Tùy thuộc vào độ cao, tiêu cự và cảm biến, vệ tinhchụp một khu vực có chiều rộng nhất định (chiều rộng dải) ở mức độ mặt đất Chiều rộngdải có phạm vi từ 8 km (SkySat) đến 185 km (Landsat 8), dẫn đến một phạm vi lý thuyếtlên đến một triệu km2 mỗi ngày Mỗi vệ tinh chụp ảnh tại một tập các bước sóng nhất định,bảng 2.2.1 cung cấp thông tin về các bước sóng của ảnh Sentinel 2
Bảng 2.2.1: Dải kênh, độ dài bước sóng, chất lượng phân giải ảnh, và mô tả
chi tiết của ảnh Sentinel 2
Band Wavelength Range (nm) Resolution (m) Description
Ảnh hàng không (Aerial Imagery) là kỹ thuật thu thập ảnh không gian từ máy bay
hoặc trực thăng Kỹ thuật này được sử dụng để tạo ra các bản đồ và bản đồ địa chínhvới độ chính xác cao, hỗ trợ cho việc quản lý đất đai, khảo sát môi trường, quản lý tàinguyên và quản lý thảm họa
Ảnh hàng không có thể được thu thập bằng cách sử dụng các máy bay chuyên dụnghoặc bằng cách gắn máy ảnh trên máy bay thương mại và thực hiện chuyến bay thăm dò