Luận văn thực hiện nghiên cứu, ứng dụng kỹ thuật mạng nơ ron trong phát hiện nhà trên ảnh viễn thám vệ tinh độ phân giải siêu cao góp phần xây dựng bản đồ quy hoạch, bản đồ số và phát hi
Trang 1Gi ảng viên hướng dẫn: PGS TS Trần Quang Đức
Vi ện: Công nghệ thông tin và Truyền thông
HÀ N ỘI, 2021
Trang 2Gi ảng viên hướng dẫn: PGS TS Trần Quang Đức
Vi ện: Công nghệ thông tin và Truyền thông
HÀ N ỘI, 2021
Chữ ký của GVHD
Trang 3iii
C ỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
B ẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
H ọ và tên tác giả luận văn: Nguyễn Như Cường
Đề tài luận văn: Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ
1 B ổ sung, làm rõ mối quan hệ của nội dung luận văn và tên đề tài luận văn
2 Ch ỉnh sửa cấu trúc luận văn, tên chương mục cụ thể như sau:
Chương 1 Giới thiệu đề tài
Chương 2 Cơ sở lý thuyết
Chương 3 Đề xuất giải pháp và thực nghiệm xây dựng công cụ phân vùng ảnh vệ tinh
3 B ổ sung diễn giải cho cách thức đánh giá độ chính xác thuật toán
4 B ổ sung Danh mục thuật ngữ, chữ viết tắt
5 B ổ sung, chỉnh sửa các mô tả, tham chiếu tới bảng biểu và hình vẽ
6 Ch ỉnh sửa hình thức hiển thị của danh mục tài liệu tham khảo
7 Đồng nhất các thuật ngữ sử dụng trong luận văn
8 Ch ỉnh sữa các lỗi chính tả
Giáo viên hướng dẫn Tác giả luận văn
PGS.TS Tr ần Quang Đức Nguyễn Như Cường
CH Ủ TỊCH HỘI ĐỒNG
TS Tr ịnh Tuấn Đạt
Trang 4iv
Trước hết, học viên xin được gửi lời cảm ơn đến các thầy cô trường Đại học Bách Khoa Hà Nội đã tận tình, nhiệt huyết giảng dạy trong những năm học vừa qua Học viên xin được gửi lời cám ơn tới cán bộ Viện Đào
tạo Sau đại học nay là phòng Đào tạo trường Đại học Bách Khoa Hà Nội và các đơn vị chức năng đã tạo điều kiện thuận lợi cho học viên và lớp Công nghệ thông tin 2018A tham gia học tập, hoàn thiện nghiên cứu
Em xin gửi lời cảm ơn chân thành và sâu sắc nhất đến thầy PGS TS Trần Quang Đức đã tận tình hướng dẫn không chỉ về mặt chuyên môn mà còn cung cấp môi trường, động lực giúp học viên hoàn thành nghiên cứu
Luận văn được tài trợ bởi Quỹ Phát triển khoa học và công nghệ Quốc gia (NAFOSTED) trong đề tài mã số 102.02-2019.314
Luận văn thực hiện nghiên cứu, ứng dụng kỹ thuật mạng nơ ron trong phát hiện nhà trên ảnh viễn thám vệ tinh độ phân giải siêu cao góp phần xây dựng bản đồ quy hoạch, bản đồ số và phát hiện nhà xây dựng trái phép Luận văn sử dụng các phương pháp nghiên cứu như phương pháp thư viện, phương pháp thống kê, phương pháp thực nghiệm Nghiên cứu được
thực hiện dựa trên máy tính cá nhân và nền tảng python với các thư viện như tensorflow, keras, opencv… Luận văn ứng dụng thành công mạng nơ ron trong việc phát hiện nhà trên bộ các mảnh ảnh kích thước nhỏ và đưa ra
giải pháp nhằm phát hiện nhà trên ảnh kích thước lớn mà không phải phân tách ảnh thành nhiều ảnh nhỏ Nghiên cứu của luận văn hỗ trợ cho công
việc lập bản đồ tại Việt Nam Nghiên cứu sẽ tiếp tục được phát triển theo hướng tăng cường độ chính xác, gia tăng thêm không gian mẫu, xử lý ảnh viễn thám đa độ phân giải
H ỌC VIÊN
Nguy ễn Như Cường
Trang 5i
MỤC LỤC I DANH MỤC BẢNG BIỂU III DANH MỤC HÌNH VẼ IV DANH MỤC CHỮ VIẾT TẮT VI
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1
1.1 Tổng quan đề tài 1
1.1.1 Đặt vấn đề 1
1.1.2 Phương pháp nghiên cứu 1
1.1.3 Cấu trúc luận văn 2
1.2 Tổng quan về xây dựng bản đồ số tại Việt Nam 3
1.2.1 Bản đồ số 3
1.2.2 Xây dựng bản đồ số từ ảnh viễn thám vệ tinh 4
1.3 Tổng quan về ảnh vệ tinh 5
1.3.1 Khái niệm về ảnh vệ tinh 5
1.3.2 Phân loại ảnh vệ tinh 6
1.3.3 Giải đoán ảnh vệ tinh 10
1.4 Bài toán phân vùng ảnh 10
1.4.1 Phát biểu bài toán 10
1.4.2 Phân vùng ảnh 11
CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 13
2.1 Mạng nơ ron tích chập 13
2.1.1 Mạng nơ ron 13
2.1.2 Mạng nơ ron tích chập 14
2.1.3 Các quá trình xây dựng mạng CNN 16
2.1.4 Tính chất của mạng CNN 21
2.2 Mô hình Mask R-CNN 22
Trang 6ii
2.2.1 Thuật toán R-CNN 22
2.2.2 Thuật toán Fast R-CNN 24
2.2.3 Thuật toán Faster R-CNN 25
2.2.4 Thuật toán Mask R-CNN 26
2.3 Kiến trúc ResNet 29
2.4 Phương pháp đánh giá mô hình 33
CHƯƠNG 3 ĐỀ XUẤT GIẢI PHÁP VÀ THỰC NGHIỆM XÂY DỰNG CÔNG CỤ PHÂN VÙNG ẢNH VỆ TINH 34
3.1 Giải pháp phân vùng đối tượng trên ảnh vệ tinh 34
3.1.1 Giải pháp 34
3.1.2 Về môi trường thử nghiệm 34
3.1.3 Về bộ dữ liệu 35
3.2 Huấn luyện mạng nơ ron 38
3.2.1 Cài đặt chi tiết 38
3.2.2 Huấn luyện 41
3.2.3 Đánh giá độ chính xác của mô hình 44
3.3 Sử dụng mạng nơ ron 44
3.3.1 Các cài đặt chung 44
3.3.2 Ứng dụng với bộ dữ liệu các ảnh kích thước nhỏ 45
3.3.3 Ứng dụng với ảnh kích thước lớn 45
3.4 Kết quả thực nghiệm 46
3.4.1 Lưu trữ kết quả 46
3.4.2 Kết quả tiến hành trên bộ dữ liệu mẫu 46
3.4.3 Kết quả tiến hành trên bộ dữ liệu tại Việt Nam 50
KẾT LUẬN 57
DANH MỤC TÀI LIỆU THAM KHẢO 58
Trang 7iii
Bảng 1.1 Một số ảnh vệ tinh trên thế giới 7
Bảng 1.2 Một số loại quỹ đạo vệ tinh đối với trái đất 9
Bảng 3.1 Kết quả đánh giá model 44
Trang 8iv
Hình 1.1 Quy trình xây dựng bản đồ số từ ảnh viễn thám vệ tinh 4
Hình 1.2 Phương pháp ghi nhận ảnh viễn thám vệ tinh 7
Hình 1.3 Phổ sóng điện từ 8
Hình 1.4 Các cấp độ của phân vùng ảnh 11
Hình 1.5 Ứng dụng phân vùng ảnh với ảnh vệ tinh 12
Hình 2.1 Mô hình hoạt động cơ bản của mạng nơ ron 13
Hình 2.2 Mô hình liên kết của mạng nơ ron thông thường 15
Hình 2.3 Mô hình liên kết của mạng nơ ron tích chập 16
Hình 2.4 Mô phỏng cấu trúc mạng nơ ron tích chập 16
Hình 2.5 Lớp nơ ron đầu tiên 17
Hình 2.6 Tính toán lớp nơ ron tiếp theo bằng ma trận 5x5 17
Hình 2.7 Tạo nơ rơn đầu tiên 18
Hình 2.8 Dịch chuyển ma trận lọc tạo ra các nơ ron tiếp theo 18
Hình 2.9 Thủ tục max pooling trên lớp ẩn 19
Hình 2.10 Mô hình mạng nơ ron tích chập hoàn chỉnh 20
Hình 2.11 Kiến trúc R-CNN của R.Girshick [5] 23
Hình 2.12 Các thuật toán trong họ thuật toán R-CNN 24
Hình 2.13 Kiến trúc mạng Fast R-CNN [6] 24
Hình 2.14 Sơ đồ hoạt động của Faster R-CNN 25
Hình 2.15 Kiến trúc Mask R-CNN 26
Hình 2.16 Chu trình của thuật toán Mask R-CNN 27
Hình 2.17 Kiến trúc hoàn chỉnh của thuật toán Mask R-CNN 28
Hình 2.18 Mô hình của Residual Block 30
Hình 2.19 Kiến trúc mạng VGG-19, 34-layer tuyến tính và ResNet-34 31
Hình 2.20 Kiến trúc tổng thể của một số mô hình mạng ResNet 31
Hình 2.21 Cấu trúc mạng nơ ron ResNet 32
Hình 2.22 Kiến trúc mạng nơ ron ResNet-50 33
Hình 3.1 Một số hình ảnh dữ liệu mẫu dành cho huấn luyện mô hình 36
Hình 3.2 Bộ dữ liệu khu đô thị Splendora 37
Hình 3.3 Bộ dữ liệu khu đô thị Phú Gia 37
Trang 9v
Hình 3.4 Dữ liệu huấn luyện: Hình bên trái là ảnh gốc, hình bên phải thể
hiện mặt nạ của các ngôi nhà có trong ảnh 42
Hình 3.5 Dữ liệu huấn luyện: Hình bên trái là ảnh gốc, hình bên phải thể hiện mặt nạ của các ngôi nhà có trong ảnh 42
Hình 3.6 Đồ thị epoch loss 43
Hình 3.7 Đồ thị bounding box loss 43
Hình 3.8 Đồ thị mask loss 43
Hình 3.9 Một số ảnh nằm trong bộ dữ liệu mẫu 46
Hình 3.10 Dữ liệu 0.jpg: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 47
Hình 3.11 Dữ liệu 5.jpg: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 47
Hình 3.12 Dữ liệu 35.jpg: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 48
Hình 3.13 Dữ liệu 36.jpg: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 49
Hình 3.14 Bản đồ khu đô thị Splendora (nguồn google map) 50
Hình 3.15 Bản đồ khu đô thị Phú Gia (nguồn google map) 51
Hình 3.16 Mảnh số 1-9: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 51
Hình 3.17 Mảnh số 8-7: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 52
Hình 3.18 Mảnh số 1-4: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 52
Hình 3.19 Mảnh số 6-10: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 53
Hình 3.20 Mảnh số 1-10: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 53
Hình 3.21 Khu đô thị Splendora 55
Hình 3.22 Các đối tượng được dự đoán trên ảnh 55
Hình 3.23 Bản đồ phát hiện đối tượng 56
Trang 10CNN Convolutional neural network
RCNN Region-Based Convolutional Neural Network
ReLU Rectified Linear Unit
ResNet Residual network
IoU Intersection over Union
MS COCO Microsoft Common Objects in Context
Trang 11từ công tác phân tích, số hóa thông tin từ dữ liệu quan trắc, đặc biệt là ảnh
viễn thám vệ tinh Với sự phát triển của ngành khoa học không gian, các vệ tinh viễn thám ngày càng cung cấp các tư liệu với độ phân giải cao hơn với
tần suất lớn hơn
Trong quá trình xây dựng bản đồ số từ ảnh viễn thám, quá trình giải đoán hình ảnh là quá trình phức tạp, tốn nhiều nhân lực nhất Trên thế giới, các công ty cung cấp dịch vụ bản đồ đã và đang phát triển các công cụ
nhằm hỗ trợ con người giải đoán ảnh vệ tinh nhanh chóng và chính xác Tại Việt Nam, công đoạn này còn được thực hiện tương đối thủ công, phụ thuộc nhiều vào trình độ, khả năng của người thực hiện và lượng thời gian tiêu hao để xử lý dữ liệu là lớn
Để phục vụ công tác xây dựng các bản đồ quy hoạch, giám sát hoạt động xây dựng trái phép tại các khu vực khó tiếp cập như khu vực đồi núi, biên giới, hải đảo, yêu cầu đặt ra là phải xây dựng được công cụ hỗ trợ công tác lập bản đồ số mà trước hết là việc giải đoán ảnh vệ viễn thám vệ tinh và trích xuất được thông tin [1] [2] [3] Trong đó, thao tác phân vùng các ngôi nhà xuất hiện trên ảnh vệ tinh là một trong những thao tác tốn kém, nhất là tại các khu đô thị Giải pháp ứng dụng mạng nơ ron nhân tạo
hỗ trợ, tự động phân vùng đối tượng nhà trên ảnh vệ tinh là cấp thiết
1.1.2 Phương pháp nghiên cứu
Với sự bùng nổ của công nghệ số như hiện nay, nhất là thế giới đang bước vào thời kỳ cách mạng công nghệ 4.0, ứng dụng công nghệ trí tuệ nhân tạo, học máy vào giải quyết các vấn đề nhằm giảm thiểu nguồn nhân
Trang 12Trong khuôn khổ luận văn, tác giả đề xuất sử dụng mô hình Mask CNN để giải quyết bài toàn phân vùng đối tượng nhà trên ảnh viễn thám vệ tinh Mô hình Mask R-CNN cho khả năng huấn luyện tới 101 lớp nơ ron ẩn với tài nguyên và thời gian huấn luyện rút ngắn so với các mô hình mạng
R-nơ ron truyền thống Mô hình sẽ được huấn luyện dựa trên bộ dữ liệu mẫu
và tiến hành thử nghiệm thực tế với các địa điểm tại Việt Nam
Đối tượng nghiên cứu của luận văn bao gồm: ảnh vệ tinh viễn thám
độ phân giải siêu cao cho phép phân biệt tốt các đối tượng nhà trên ảnh, mô hình mạng nơ ron nhân tạo Mask R-CNN và ứng dụng mô hình trong phân vùng đối tượng nhà trên ảnh vệ tinh
Để thực hiện luận văn, các phương pháp nghiên cứu được sử dụng là phương pháp thư viện, phương pháp nghiên cứu tài liệu kết hợp với phương pháp thực nghiệm, phương pháp thống kê
1.1.3 C ấu trúc luận văn
Dựa trên mục đích, mục tiêu của luận văn và phương pháp nghiên cứu, nội dung chính luận văn được trình bày trong 3 chương cụ thể như sau:
CHƯƠNG 1 Giới thiệu đề tài: Trình bày tổng quan về bản đồ số và
xây dựng bản đồ số tại Việt Nam Từ đó, xác định mục đích của luận văn là nghiên cứu, xây dựng công cụ ứng dụng mạng nơ ron trong phân vùng đối tượng nhà trên ảnh vệ tinh, góp phần tiết kiệm nguồn lực trong khâu giải đoán ảnh vệ tinh
Trang 133
CHƯƠNG 2 Cơ sở lý thuyết: Trình bày cơ sở lý thuyết về mạng nơ ron, mạng nơ ron tích chập và mô hình Mask R-CNN Từ nghiên cứu mô hình Mask R-CNN xác định sự phù hợp của mô hình với bài toán phân vùng và đưa ra phương pháp đánh giá độ chính xác của mô hình
CHƯƠNG 3 Đề xuất giải pháp và thực nghiệm xây dựng công cụ phân vùng ảnh vệ tinh: Đưa ra đề xuất giải pháp ứng dụng mô hình Mask R-CNN phân vùng đối tượng nhà trên ảnh vệ tinh độ phân giải siêu cao, xây dựng và thử nghiệm công cụ phân vùng đối tượng nhà trên ảnh vệ tinh
độ phân giải siêu cao
Kết luận: Trình bày đánh giá về mô hình và ứng dụng của mô hình Mask R-CNN, kết quả thực nghiệm công cụ phân vùng ảnh vệ tinh Đồng thời, phần đưa ra hướng phát triển của nghiên cứu sau này
1.2 T ổng quan về xây dựng bản đồ số tại Việt Nam
1.2.1 B ản đồ số
Bản đồ số hay được biết là hệ thống thông tin địa lý GIS là một tập hợp, hệ thống lưu trữ, hiển thị, chỉnh sửa các thông tin, dữ liệu bản đồ trên máy tính Với bản đồ số, con người có thể dễ dàng thực hiện các thao tác như: cập nhật, chỉnh sửa thông tin; chồng xếp hoặc tách các lớp bản đồ theo ý muốn; biên tập và xuất bản bản đồ một cách nhanh chóng trên máy tính; phát hành và chia sẻ bản đồ nhanh chóng thông qua hệ thống mạng nội bộ hoặc mạng internet Hiện nay, Việt Nam đã triển khai xây dựng và ứng dụng bản đồ số phục vụ nhiều mục đích, điển hình như: bản đồ biển giới và địa giới hành chính, bản đồ địa chính, bản đồ địa hình …
Việc xây dựng bản đồ số trước tiên bắt đầu từ việc số hóa, lưu trữ thông tin từ các bản đồ giấy sẵn có, đã xây dựng trước đó Trong quá trình xây dựng hoàn thiện, bản đồ số được cập nhật thông tin liên tục từ những
dữ liệu mới nhất được thu thập bằng nhiều cách như dữ liệu thực địa, dữ liệu trắc địa địa hình, dữ liệu ảnh viễn thám (bao gồm ảnh hàng không, ảnh
vệ tinh) Công tác cập nhật dữ liệu bằng ảnh viễn thám vệ tinh được cho là hiệu quả nhất hiện nay do số lượng ảnh vệ tinh lớn, cập nhật thường xuyên nhanh chóng, độ bao phủ rộng lớn
Trang 144
1.2.2 Xây d ựng bản đồ số từ ảnh viễn thám vệ tinh
Trong thành lập bản đồ từ ảnh viễn thám vệ tinh (ảnh vệ tinh), ta cần
những bức ảnh quang, không có ảnh hưởng của mây Do trong quá trình
chụp ảnh từ vệ tinh, ảnh viễn thám thường xuất hiện mây Đặc biệt là trong khu vực khí hậu nhiệt đới gió mùa như nước ta, ảnh viễn thám bị ảnh hưởng nhiều bởi mây Có những mùa trong năm như từ tháng 10 đến tháng
2 hàng năm hay những mùa bão, tại các khu vực biển đông cũng như bắc
bộ, mây che phủ thường xuyên, có khi lên tới hơn 90% diện tích bao phủ
của cảnh ảnh Mây xuất hiện có thể trực tiếp che phủ lên các vùng cần nhận diện, xây dựng bản đồ Ngoài ra, bóng do mây tạo nên từ cộng hưởng với ánh sáng mặt trời gây sai lệch dữ liệu, thay đổi trị số các kênh màu của khu vực quan tâm
Hình 1.1 Quy trình xây d ựng bản đồ số từ ảnh viễn thám vệ tinh
Công tác xây dựng bản đồ số từ ảnh viễn thám vệ tinh là công tác quan trọng, trải qua nhiều giai đoạn khác nhau Quy trình xây dựng bản đồ
số được thực hiện như sau: Tùy theo yêu cầu của bản đồ, các bức ảnh vệ tinh chụp khu vực cần xây dưng được thu thập từ các nguồn khác nhau như nguồn ảnh miễn phí, nguồn ảnh thương mại hay các dữ liệu hợp tác trao đổi Ảnh vệ tinh viễn thám sau khi được thu nhận sẽ trải qua các công đoạn
hiệu chỉnh hình ảnh để khắc phục sai số, chuẩn hóa dữ liệu như hiệu chỉnh bức xạ, hiệu chỉnh hình học, nắn chỉnh tọa độ Sau khi được hiệu chỉnh,
Trang 155
hình ảnh viễn thám được tiến hành các khâu giải đoán khác nhau để thu được các thông tin cần thiết Thông tin thu nhận được sẽ được trích xuất và lưu trữ vào cơ sở dữ liệu địa lý Dữ liệu trong cơ sở dữ liệu sẽ được trích xuất và trình bày dưới dạng các bản đồ khác nhau theo nhu cầu của người
sử dụng
Một trong những khâu quan trọng nhất của quá trình này là khâu giải đoán ảnh viễn thám Hỗ trợ quá trình giải đoán ảnh vệ tinh là mục đích hướng tới của luận văn Trong khuôn khổ nghiên cứu, luận văn đưa ra giải pháp ứng dụng mạng nơ ron nhân tạo trong phân vùng đối tượng nhà trên ảnh vệ tinh Từ quá trình phân vùng đó, thông tin được trích xuất và lưu trữ vào hệ thống tin địa lý
hệ thống thông tin địa lý, các phần mềm chuyên dụng cho công việc xử lý
tư liệu viễn thám Ngoài ra, đối với lĩnh vực viễn thám, các nhà khoa học còn tập trung nghiên cứu khả năng phản xạ cũng như phổ phản xạ của các đối tượng và tác động qua lại của môi trường đến phổ phản xạ nhằm tăng cường chất lượng ảnh viễn thám thu nhận được phục vụ giải quyết các vấn
đề đặt ra trong nghiên cứu
Không chỉ đóng góp vào sự phát triển của khoa học công nghệ, viễn thám còn tác động trực tiếp đến đời sống xã hội Tư liệu viễn thám được khai thác trực tiếp phục cho nhiều mục đích khác nhau như: khí tượng thuỷ văn, địa chất, lâm nghiệp, nông nghiệp, địa chính, địa lý tài nguyên, theo dõi và quản lý môi trường, an ninh, quốc phòng…
Trang 166
Ảnh vệ tinh là ảnh số thể hiện các vật thể trên bề mặt trái đất được thu nhận bởi các bộ cảm biến đặt trên vệ tinh Ảnh viễn thám có thể được lưu theo các kênh ảnh đơn (trắng đen) ở dạng số trong máy tính hoặc các kênh ảnh được tổ hợp (ảnh màu) hoặc có thể in ra giấy, tùy theo mục đích người sử dụng Ảnh vệ tinh là tư liệu, đối tượng, công cụ nghiên cứu chủ
yếu của khoa học viễn thám Ảnh vệ tinh được sử dụng rộng rãi, phục vụ nhiều mục đích khác nhau như thành lập bản đồ, khí tượng, dự báo thời tiết, giám sát môi trường, giám sát hoạt động…
Với sự phát triển của khoa học công nghê, vệ tinh viễn thám ngày càng tính hợp nhiều tính năng và thể hiện sự ưu việt Từ những tấm ảnh đa
phổ 3 – 4 kênh với độ phân giải khoảng 100m đến nay là những bức ảnh
4-10 kênh phổ, độ phân giải đến hàng cm Một số vệ tinh cho độ phân giải dưới 0,5m Ngày nay, một số hệ thống viễn thám có thể cung cấp ảnh hàng ngày của một vị trí trên trái đấy, cung cấp nguồn tư liệu khổng lồ cần xử lý
1.3.2 Phân lo ại ảnh vệ tinh
Dựa trên các phương pháp thu nhận ảnh viễn thám vệ tinh (ảnh vệ tinh) cũng như đặc tính của vệ tinh mà ta có thể phân loại ảnh vệ tinh theo nhiều cách khác nhau như: độ phân giải không gian của ảnh (độ phân giải), bước sóng, phương pháp thu nhận ảnh, quỹ đạo của vệ tinh
a) Phân lo ại theo phương pháp thu nhận dữ liệu
Bản chất hoạt động của vệ tinh viễn thám là ghi nhận các bức xạ năng lượng của vật thể trên trái đất tại cái dải sóng khác nhau Dựa trên phương pháp thu nhận bức xạ, vệ tinh viễn thám được chia thành 2 loại chính là viễn thám chủ động và viễn thám thụ động Phương pháp thụ động
là phương pháp ghi nhận bức xạ do chính vật thể tự phát ra (ảnh vệ tinh quang học) Phương pháp chủ động là vệ tinh chủ động phát xạ đến vật thể
và ghi lại những bức xạ của vật thể từ năng lượng phát xạ đó (ảnh vệ tinh radar)
Trang 177
Hình 1.2 Phương pháp ghi nhận ảnh viễn thám vệ tinh
b) Phân lo ại theo độ phân giải
Độ phân giải không gian của ảnh là khoảng cách tối thiểu giữa hai đối tượng mà chúng được phân chia và tách biệt với nhau trên ảnh Tùy theo mục đích, phạm vi giám sát, các đơn vị nghiên cứu chế tạo ra các vệ tinh cung cấp độ phân giải không gian khác nhau Độ phân giải không gian thường được thể hiện bằng kích thước của 1 pixel
B ảng 1.1 Một số ảnh vệ tinh trên thế giới
Trang 188
B ảng 1.1 cung cấp danh sách và thông tin về một số loại ảnh vệ tinh
được cung cấp, trong đó ảnh vệ tinh Landsat-8 và ảnh vệ tinh Sentinel-2A
là ảnh vệ tinh quang học được cung cấp miễn phí từ Cục khảo sát địa chất
Mỹ - USGS và Cơ quan vũ trụ Châu Âu – ESA VNRedsat-1 là vệ tinh viễn thám đầu tiên của Việt Nam, được phóng lên vũ trụ vào ngày 7/5/2013 Planet Dove là chùm vệ tinh quang học quan sát trái đất của công
ty Planet Labs – Hoa Kỳ
c) Phân lo ại theo bước sóng
Hình 1.3 Phổ sóng điện từ
Nguồn năng lượng được các vệ tinh viễn thám ghi nhận chính là các bức xạ điện từ được các vật thể phản xạ vào trong không gian Trong công nghệ viễn thám, do các vệ tinh bay ngoài khí quyển nên chỉ có thu nhận
được các bước sóng từ hồng ngoại trở lên Hình 1.3 biểu diễn dải phổ của
sóng điện từ với bước từ dài đến ngắn Trong đó, các dải sóng dùng trong
viễn thám thường có bước sóng ngắn, bắt đầu từ vùng sóng hồng ngoài, vùng ánh sáng nhìn thấy, vùng sóng tử ngoại…Nguồn năng lượng chính
của vệ tinh quang học nhìn thấy và quang học hồng ngoại là từ bức xạ mặt
trời được phản xạ lại Nguồn năng lượng của trong viễn thám hồng ngoại nhiệt là bức xạ nhiệt do chính vật thể phát ra Đối với viễn thám siêu cao
tần, chủ yếu là công nghệ viễn thám chủ động – viễn thám radar Trong phạm vi nghiên cứu của đề tài, ta chỉ nghiên cứu ảnh vệ tinh viễn thám quang học trong dải phổ nhìn thấy với bước sóng từ 380 nm đến 760 nm
Trang 199
d) Phân lo ại theo quỹ đạo
Tùy theo độ cao bay, quỹ đạo bay của vệ tinh mà mang tới các đặc tính khác nhau cho ảnh viễn thám vệ tinh Các quỹ đạo của vệ tinh có thể được phân loại như sau:
Bảng 1.2 Một số loại quỹ đạo vệ tinh đối với trái đất
Quỹ đạo địa tĩnh 36.000 km Thường là vệ tinh viễn
Các vệ tinh viễn thám quang học do ghi nhận bức xạ ánh sáng nhìn
thấy của vật thể được phản xạ từ ánh sáng mặt trời nên các vệ tinh này thường được thiết kế để hoạt động theo quỹ đạo đồng bộ mặt trời trên độ cao quỹ đạo thấp Với quỹ đạo đồng bộ mặt trời, khi vệ tinh quan sát một điểm trên trái đất thì đó cũng là lúc mặt trời truyền bức xạ tới điểm đó (trời sáng) Như trong Bảng 1.2, các vệ tinh viễn thám quang học thường bay trên quỹ đạo cách trái đất khoảng từ 600 km đến 800 km
Đối với công tác xây dựng bản đồ số, đặc biệt là các bản đồ quy
hoạch, bản đồ yêu cầu có tỉ lệ chính xác cao nên loại ảnh vệ tinh thường được sử dụng là ảnh vệ tinh viễn thám quang học có độ phân giải cao hoặc
độ phân giải siêu cao Trong khuôn khổ luận văn, nghiên cứu đưa ra giải pháp xử lý ảnh vệ tinh viễn thám quang học độ phân giải siêu cao
Trang 2010
1.3.3 Gi ải đoán ảnh vệ tinh
Giải đoán ảnh vệ tinh là hoạt động sử dụng các công cụ để chiết xuất thông tin từ ảnh vệ tinh Giải đoán ảnh vệ tinh là quá trình xác định, phân vùng, thu nhận thông tin các địa vật, đối tượng theo hình ảnh của chúng trên ảnh, dựa trên các quy luật tạo hình quang học, tạo hình hình học và các quy luật phân bố của chúng
Đối với yêu cầu xác định nhà trong ảnh vệ tinh, phương pháp giải đoán thường được sử dụng là phương pháp giải đoán bằng mắt – kinh nghiệm của người thực hiện giải đoán Phương pháp này sử dụng các khóa
giải đoán – dấu hiệu nhận biết đối tượng trên ảnh để thực hiện giải đoán Phương pháp này có ưu điểm là có thể bổ sung dễ dàng kinh nghiệm của con người, tham khảo tham chiếu trực tiếp tới đối tượng Tuy nhiên khi sử
dụng phương pháp này, thời gian thực hiện tương đối tốn kém Đặc biệt với
số lượng dữ liệu ảnh vệ tinh ngày càng nhiều như hiện nay thì nhân lực sử
dụng trong quá trình giải đoán là rất nhiều Vì vậy, để giảm thiểu thời gian thực hiện giải đoán, ta cần ứng dụng công nghệ, thực hiện giải đoán tự động
Do các đối tượng trên ảnh được xác định bằng các khóa giải đoán Các khóa giải đoán thường được sử dụng là màu sắc, kích thước, hình dạng, hình mẫu của đối tượng Với các khóa giải đoán, quá trình giải đoán ảnh vệ tinh hoàn toàn tương đồng với bài toán phân vùng đối tượng trên ảnh (phân vùng ảnh) Để giải đoán được nhà trên ảnh vệ tinh, ta đồng nhất
nó với bài toán phân vùng đối tượng nhà trên ảnh vệ tinh
1.4 Bài toán phân vùng ảnh
1.4.1 Phát bi ểu bài toán
Phân vùng hình ảnh là kỹ thuật phân chia ảnh thành các vùng hoặc đối tượng để xử lý dữ liệu Phân vùng ảnh giúp phân tách các đối tượng quan tâm với các thành phần khác của ảnh Mỗi đối tượng trong ảnh là một vùng xác định bởi một đường biên là đường bao quanh đối tượng đó Vùng hình chữ nhật nhỏ nhất chứa toàn bộ đối tượng và đường biên của đối tượng gọi là 1 ô – 1 box Vùng này chứa các đặc trưng riêng giúp phân biệt các đối tượng với nhau và với nền ảnh
Trang 2111
1.4.2 Phân vùng ảnh
Hình 1.4 chỉ ra lần lượt các cấp độ của phân vùng ảnh từ phân biệt hình ảnh, phát hiện đối tượng, phân vùng ngữ nghĩa và phân vùng đối tượng Giai đoạn thứ nhất, ta phân biệt hình ảnh của các đối tượng có trong ảnh, dự đoán, gán nhãn loại đối tượng có thể xuất hiện trong ảnh Sau đó ta phát hiện, khoanh vùng các đối tượng có trong ảnh Tiếp đó, ta phân vùng đối tượng theo nhóm, tách đối tượng quan tâm khỏi các thành phần khác
của ảnh (gọi là nền ảnh), tách các nhóm đối tượng khỏi nhau Cuối cùng, trong các đối tượng đã phân vùng được, từng đối tượng được xác định, phân vùng độc lập
Phân vùng ngữ nghĩa (semantic segmentation) là một cấp độ trong phân vùng hình ảnh Phân vùng ngữ nghĩa có thể được hiểu là tiến trình nhóm các thành phần trong một bức ảnh, mỗi nhóm pixel ảnh đại diện cho một lớp đối tượng Phân vùng ngữ nghĩa giúp phân biệt các nhóm đối tượng có trong ảnh nhưng không thể phân biệt hai đối tượng trong cùng lớp Việc phân tách hai đối tượng trong cùng lớp càng khó khăn hơn khi chúng nằm
cạnh, chồng lấn lên nhau
Hình 1.4 Các c ấp độ của phân vùng ảnh
Trang 2212
Hình 1.5 Ứng dụng phân vùng ảnh với ảnh vệ tinh
Đối với ảnh viễn thám, bài toán phân vùng ảnh được sử dụng để phát
hiện, phân vùng các đối tượng quan tâm trên ảnh Hình 1.5 thể hiện bài
toán phân vùng ảnh được sử dụng để phát hiện, phân vùng các ngôi nhà trong ảnh vệ tinh Hình ảnh bên phải thể hiện ngôi nhà được xác định có màu trắng và các đối tượng còn lại được coi là nên được biểu thị bằng màu đen Từ bản đồ phân vùng ở bên phải, thông tin về các ngôi nhà sẽ được trích xuất để thành lập bản đồ như vị trí, kích thước, hình bao…
Trang 23nơ ron nhân tạo được thiết kế nhằm mô phỏng mạng nơ ron của bộ não người Mạng nơ ron nhân tạo được cấu thành từ một tập các phần tử xử lý đơn giản được kết nối với nhau Mỗi phần tử xử lý này chỉ có thể thực hiện được một thao tác tính toán nhỏ, nhưng một mạng lưới các phần tử như vậy
có một khả năng tính toán lớn hơn rất nhiều Phần tử tính toán cơ bản của
mạng nơ ron là một perceptron hay một nơ ron
Hình 2.1 Mô hình ho ạt động cơ bản của mạng nơ ron
Hình 2.1 minh họa một mạng nơ ron truyền thẳng với 3 loại nút mạng là nút đầu vào (input), nút ẩn (hidden), nút đầu ra (output) Nút đầu vào là nút mạng nằm ở lớp trên cùng tiếp xúc với dữ liệu đầu vào Các nút này có nhiệm vụ chứa dữ liệu đầu vào từ bên ngoài và đưa trực tiếp vào các nút ẩn Nút ẩn không chứa kết nối trực tiếp đến dữ liệu từ bên ngoài Nó nhận thông tin từ các nút đầu vào, thực hiện tính toán và đưa ra thông tin ra các nút đầu ra Một mạng nơ ron truyền thẳng có thể có hoặc không có lớp
ẩn Nút đầu ra có nhiệm vụ tính toán và đưa dữ liệu từ trong mạng ra bên ngoài
Trang 24Ở mỗi tầng, số lượng các nút mạng (nơ ron) có thể khác nhau tuỳ thuộc vào bài toán và cách giải quyết Nhưng thường khi làm việc người ta
để các lớp ẩn có số lượng nơ-ron bằng nhau Ngoài ra, các nơ ron ở các lớp thường được liên kết đôi một với nhau tạo thành mạng kết nối đầy đủ (full-connected network) Khi đó ta có thể tính được kích cỡ của mạng dựa vào
số lớp và số nơ-ron
2.1.2 M ạng nơ ron tích chập
Mạng nơ ron tích chập (mạng CNN) là một mạng nơ ron nhân tạo với các toán tử tích chập Nó có khả năng học một lượng lớn các dữ liệu trong khoảng thời gian ngắn hơn nhiều so với mạng nơ ron thông thường
Lý do là nó sử dụng ít trọng số hơn trong khi độ chính xác chỉ kém hơn một phần nhỏ so với kiến trúc truyền thống Thông qua các phép tích chập, các đặc trưng chính từ ảnh được trích xuất và truyền vào các tầng Mỗi một nút mạng là kết quả của biến đổi tích chập từ các nút của tầng trước đó Thiết kế cơ bản của mạng CNN như sau:
INPUT -> [[CONV -> RELU]*N -> POOL?]*M -> [FC -> RELU]*K ->
Trang 2515
Các kí hiệu []N, []M hoặc []*K ám chỉ các khối bên trong [] có thể lặp lại nhiều lần liên tiếp nhau M, K là số lần lặp lại Kí hiệu -> đại diện cho các tầng liền kề nhau mà tầng đứng trước sẽ làm đầu vào cho tầng đứng sau Dấu ? sau POOL để thể hiện tầng POOL có thể có hoặc không sau các khối tích chập
Trong mạng nơ ron thông thường, các nút nằm trên tầng phía sau sẽ liên kết với toàn bộ các nút của tầng liền trước đó Các liên kết này được
quản lý bởi một tập các trọng số Mỗi nút khác nhau sẽ có một tập trọng số riêng để quản lý kết nối của nó tới các nút trước đó
Hình 2.2 Mô hình liên k ết của mạng nơ ron thông thường
Điểm khác biệt của mạng nơ ron tích chập so với mạng nơ ron truyền thống đó là trong liên kết giữa 2 tầng liên tiếp nhau việc các nút ở các tầng phía sau chỉ liên kết với một bộ phận các nút ở tầng phía trước đó gọi là receptive field thông qua một tập các trọng số Hơn nữa tập trọng số này là như nhau đối với mỗi nơ ron ở tầng sau Do đó số lượng tham số cần huấn luyện ít hơn trong khi vẫn giữ được lượng thông tin cần thiết Hay nói cách khác, tầng tiếp theo là kết quả của phép toán tích chập của tầng trước
đó Mỗi nơ ron ở tầng kế tiếp là kết quả của việc áp dụng bộ lọc lên một vùng cục bộ
Trang 2616
Hình 2.3 Mô hình liên kết của mạng nơ ron tích chập
Trong quá trình huấn luyện mạng CNN tự động học các giá trị qua các bộ lọc dựa vào cách thức mà bạn thực hiện Ví dụ trong tác vụ phân lớp ảnh, CNNs sẽ cố gắng tìm ra thông số tối ưu cho các bộ lọc tương ứng theo
thứ tự: raw pixel > edges > shapes > facial > high-level đặc trưng Lớp cuối cùng được dùng để phân lớp ảnh Trong mạng CNN cần quan tâm đến hai
yếu tố tính bất biến và tính kết hợp Với cùng một đối tượng, nếu đối tượng này được xoay các góc khác nhau như dịch chuyển, quay, co giãn thì độ chính xác của thuật toán sẽ bị ảnh hưởng đáng kể
Hình 2.4 Mô ph ỏng cấu trúc mạng nơ ron tích chập
2.1.3 Các quá trình xây d ựng mạng CNN
Mạng CNN được xây dựng dựa trên ba quá trình cơ bản là các trường tiếp nhận cục bộ (local receptive field), trọng số chia sẻ (shared weights) và tổng hợp (pooling)
a) Trường tiếp nhận cục bộ
Giả sử đầu vào của mạng CNN là một ảnh được biểu diễn bởi ma trận 28x28 Mỗi giá trị điểm ảnh là một ô trong ma trận Trong mạng nơ
Trang 2717
ron thông thường, ta sẽ kết nối các điểm trong ma trận với các nơ ron tầng đầu của mạng
Hình 2.5 L ớp nơ ron đầu tiên
Trong mạng CNN, ta không thực hiện kết nối trực tiếp toàn bộ các điểm thuộc ma trận vào thành từng nơ ron như thông thường Ta tiến hành kết nối từng vùng nhỏ của ma trận với tầng nơ ron tiếp theo Ví dụ như tiến hành một vùng (ma trận con) kích thước 5x5 với một nơ ron ở tầng tiếp theo Kết nối được thể hiện như sau:
Hình 2.6 Tính toán l ớp nơ ron tiếp theo bằng ma trận 5x5
Như vậy, ta sẽ thấy cách tạo ra tầng nơ ron đầu tiên bằng việc trượt lần lượt ma trận con trên lớp nơ ron đầu vào Mỗi ma trận con nơ ron của lớp đầu vào sẽ ánh xạ đến một nơ ron ở lớp kế tiếp
Trang 2818
Hình 2.7 T ạo nơ rơn đầu tiên
Hình 2.8 D ịch chuyển ma trận lọc tạo ra các nơ ron tiếp theo
Vùng đó trong ma trận ảnh đầu vào được gọi là vùng tiếp nhận cục
bộ Mỗi kết nối tương ứng với một trọng số Mỗi nơ ron ẩn học với độ lệch Khi tiến hành trượt vùng tiếp nhận cục bộ trên toàn bộ ma trận ảnh, ta sẽ
nhận được tầng ẩn đầu tiên của mạng CNN
Trang 2919
nếu lớp đầu tiên có kết nối đầy đủ nghĩa là chúng ta có 28×28=784 nơ ron đầu vào như vậy ta chỉ có 30 nơ ron ẩn Như vậy ta cần 28x28x30 trọng số chia sẻ và 30 độ chênh chia sẻ Tổng số tham số là 28x28x30+30 tham số
lớn hơn nhiều so với CNN Ví dụ trên chỉ mô tả để thấy được sự ước lượng
số lượng tham số chứ chúng ta không so sánh được trực tiếp vì 2 mô hình khác nhau Nhưng điều chắc chắn là nếu mô hình có số lượng tham số ít hơn thì nó sẽ chạy nhanh hơn
Một tầng tích chập bao gồm các bản đồ đặc trưng khác nhau Mỗi một bản đồ đặc trưng giúp phát hiện một vài đặc trưng trong ảnh Lợi ích
lớn nhất của trọng số chia sẻ là giảm tối số lượng tham số trong mạng CNN Việc này giảm đáng kể thời gian học của mạng CNN
c) Lớp tổng hợp
Ngoài các lớp tích chập, mạng tích chập cũng chứa các lớp tổng hợp Lớp tổng hợp thường nằm ngay sau lớp tích chập Lớp tổng hợp thực hiện
việc đơn giản hóa thông tin đầu ra từ lớp tích chập
Ví dụ, mỗi nơ ron trong lớp tổng hợp được thu gọn bởi ma trận 2x2
nơ ron lớp trước Thủ tục tổng hợp phổ biến là max pooling Thủ tục này chọn giá trị lớn nhất trong vùng đầu vào 2x2
Hình 2.9 Th ủ tục max pooling trên lớp ẩn
Như vậy qua thủ tục max pooling thì số lượng nơ ron giảm đi phân nửa Trong một mạng CNN có nhiều bản đồ đặc trưng nên mỗi Bản đồ đặc
Trang 3020
trưng chúng ta sẽ cho mỗi Max Pooling khác nhau Chúng ta có thể thấy rằng Max Pooling là cách hỏi xem trong các đặc trưng này thì đặc trưng nào là đặc trưng nhất
Hình 2.10 Mô hình m ạng nơ ron tích chập hoàn chỉnh
Sau khi thực hiện đủ bộ ba quá trình, ta sẽ nhận được mạng tích chập hoàn chỉnh Lớp cuối cùng của các kết nối trong mạng là một lớp đầy đủ
kết nối Lớp này nối mọi nơ ron từ lớp tổng hợp tới lớp đầu ra Ba quá trình
cơ bản xây dựng mạng CNN là:
Quá trình tích chập (convolution): Thông qua các tích chập giữa ma trận đầu vào với bộ lọc để tạo thành các đơn vị trong một tầng mới Quá trình này có thể diễn ra liên tục ở phần đầu của mạng và thường sử dụng kèm với hàm kích hoạt ReLU Mục tiêu của tầng này là trích suất đặc trưng hai chiều
Quá trình tổng hợp (max pooling): Các tầng càng về sau khi trích
xuất đặc trưng sẽ cần số lượng tham số lớn do chiều sâu được qui định bởi
số lượng các kênh ở các tầng sau thường tăng tiến theo cấp số nhân Điều
đó làm tăng số lượng tham số và khối lượng tính toán trong mạng nơ ron
Do đó để giảm tải tính toán chúng ta sẽ cần giảm kích thước các chiều của khối ma trận đầu vào hoặc giảm số đơn vị của tầng Vì mỗi một đơn vị sẽ là kết quả đại diện của việc áp dụng 1 bộ lọc để tìm ra một đặc trưng cụ thể nên việc giảm số đơn vị sẽ không khả thi Giảm kích thước khối ma trận đầu vào thông qua việc tìm ra 1 giá trị đại diện cho mỗi một vùng không gian mà bộ lọc đi qua sẽ không làm thay đổi các đường nét chính của bức
Trang 3121
ảnh nhưng lại giảm được kích thước của ảnh Do đó quá trình giảm chiều
ma trận được áp dụng Quá trình này gọi là tổng hợp nhằm mục đích giảm kích thước dài, rộng
Quá trình kết nối hoàn toàn (fully connected): Sau khi đã giảm kích thước đến một mức độ hợp lý, ma trận cần được trải phẳng (flatten) thành
một vector và sử dụng các kết nối hoàn toàn giữa các tầng Quá trình này sẽ diễn ra cuối mạng CNN và sử dụng hàm kích hoạt là ReLU Tầng kết nối hoàn toàn cuối cùng (fully connected layer) sẽ có số lượng đơn vị bằng với
số classes và áp dụng hàm kích hoạt là softmax nhằm mục đích tính phân
phối xác xuất
2.1.4 Tính ch ất của mạng CNN
Tính kết nối trượt: Khác với các mạng nơ ron thông thường, mạng
nơ ron tích chập không kết nối tới toàn bộ hình ảnh mà chỉ kết nối tới từng vùng cục bộ hoặc vùng nhận thức có kích thước bằng kích thước bộ lọc của hình ảnh đó Các bộ lọc sẽ trượt theo chiều của ảnh từ trái qua phải và từ trên xuống dưới đồng thời tính toán các giá trị tích chập và điền vào bản đồ kích hoạt hoặc bản đồ đặc trưng
Tính chia sẻ kết nối và kết nối cục bộ: Chúng ta đã biết quá trình
biến đổi trong mạng tích chập sẽ kết nối các khối nơ ron 3D Tuy nhiên các đơn vị sẽ không kết nối tới toàn bộ khối 3D trước đó theo chiều rộng và cao mà chúng sẽ chọn ra các vùng địa phương (hoặc vùng nhận thức) có kích thước bằng với bộ lọc Các vùng địa phương sẽ được chia sẻ chung một bộ siêu tham số có tác dụng nhận thức đặc trưng của bộ lọc Các kết
nối cục bộ không chỉ diễn ra theo chiều rộng và cao mà kết nối sẽ mở rộng hoàn toàn theo chiều sâu Mỗi bộ lọc sẽ có khả năng trích xuất một đặc trưng nào đó Do đó khi đi qua toàn bộ các vùng địa phương của khối nơ ron 3D, các đặc trưng được trích xuất sẽ hiển thị trên tầng mới
Tính tổng hợp: Ở các tầng tích chập gần cuối số tham số sẽ cực kì
lớn do sự gia tăng của chiều sâu và thông thường sẽ theo cấp số nhân Như vậy nếu không có một cơ chế kiểm soát sự gia tăng tham số, chi phí tính
Trang 3222
toán sẽ cực kì lớn và vượt quá khả năng của một số máy tính cấu hình yếu Một cách tự nhiên là chúng ta sẽ giảm kích thước các chiều rộng và cao bằng kỹ thuật giảm mẫu mà vẫn giữ nguyên được các đặc trưng của khối Theo đó những bộ lọc được di chuyển trên bản đồ đặc trưng và tính trung bình hoặc giá trị lớn nhất của các phần tử trong vùng nhận thức Trước đây các tính trung bình được áp dụng nhiều nhưng các mô hình hiện đại đã thay thế bằng giá trị lớn nhất do tốc độ tính tối đa nhanh hơn so với trung bình
Độ phức tạp phát hiện hình ảnh tăng dần: Ở tầng đầu tiên, hình ảnh
mà chúng ta có chỉ là những giá trị pixels Sau khi đi qua tầng thứ 2 máy tính sẽ nhận diện được các hình dạng cạnh, rìa và các đường nét đơn giản được gọi là đặc trưng bậc thấp Càng ở những tầng tích chập về sau càng có khả năng phát hiện các đường nét phức tạp, đã rõ ràng hình thù và thậm chí
là cấu thành vật thể, đây được gọi là những đặc trưng bậc cao Máy tính sẽ học từ tầng cuối cùng để nhận diện nhãn của hình ảnh
Như vậy, với việc sử dụng mạng nơ ron tích chập, tài nguyên hệ
thống sử dụng được tiết kiệm hơn so với mạng nơ ron truyền thống Hơn nữa, mạng nơ ron tích chập có khả năng huấn luyện nhanh chóng với nhiều lớp ẩn, tăng độ sâu của mạng Việc sử dụng mạng nơ ron tích chập cho bài toán phân vùng trên ảnh vệ tinh là phù hợp và hiệu quả
2.2 Mô hình Mask R-CNN
2.2.1 Thu ật toán R-CNN
Năm 2013, R Girshick và các đồng nghiệp đã phát triển thuật toán phân vùng ảnh dựa trên mạng nơ ron tích chập được gọi là thuật toán R-CNN (regions with CNN features)
Trang 3323
Thuật toán R-CNN phát hiện đối tượng trong ảnh qua bốn bước sau:
- Bước 1: Nhập ảnh vào trong mạng CNN
- Bước 2: Trích xuất vùng quan tâm (vùng có thể chứa đối tượng) thông qua các thuật toán như Selective search
- Bước 3: Trích xuất đặc trưng của từng vùng sử dụng mạng CNN
nhờ khả năng học mạnh mẽ của mạng CNN nhưng thuật toán này gặp vấn
đề về tốc độ thực hiện Tốc độ bị giới hạn là do R-CNN chạy CNN độc lập cho mỗi bao đóng và việc sinh ra bao đóng bởi các thuật toán bên ngoài là
rất nhiều Cụ thể R-CNN chạy mất khoảng 40s cho mỗi ảnh trên GPU Mô hình này rất khó để có thể học do có 2 phần mô hình học máy (CNN và SVM) cần học độc lập Thêm nữa R-CNN yêu cầu một thuật toán bên ngoài như selective search để hoạt động Dựa trên thuật toán R-CNN, các thuật toán đã được phát triển nhằm cải thiện, tối ưu thuật toán này Họ các thuật toán dựa trên R-CNN được thể hiện trong Hình 2.12 dưới đây
Trang 3424
Hình 2.12 Các thu ật toán trong họ thuật toán R-CNN
2.2.2 Thu ật toán Fast R-CNN
Để khắc phục những hạn chế của R-CNN, Girshick đã phát triển thuật toán Fast R-CNN Fast R-CNN được xây dựng dựa trên thuật toán R-CNN với các ý tưởng nhằm cải thiện tốc độ huấn luyện và thực hiện thuật toán Fast R-CNN cho tốc độ huấn luyện mạng VGG16 nhanh gấp 9 lần so
với R-CNN, cho tốc độ thực hiện gấp 213 lần Thời gian phát hiện đối tượng trên một ảnh giảm từ 40s xuống còn 0.2s Ý tưởng chính của Fast R-CNN đó là sử dụng một mạng nơ ron duy nhất cho trích xuất đặc trưng và phân lớp thay thế cho mạng SVM độc lập