1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số

68 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 68
Dung lượng 1,56 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Luận văn thực hiện nghiên cứu, ứng dụng kỹ thuật mạng nơ ron trong phát hiện nhà trên ảnh viễn thám vệ tinh độ phân giải siêu cao góp phần xây dựng bản đồ quy hoạch, bản đồ số và phát hi

Trang 1

Gi ảng viên hướng dẫn: PGS TS Trần Quang Đức

Vi ện: Công nghệ thông tin và Truyền thông

HÀ N ỘI, 2021

Trang 2

Gi ảng viên hướng dẫn: PGS TS Trần Quang Đức

Vi ện: Công nghệ thông tin và Truyền thông

HÀ N ỘI, 2021

Chữ ký của GVHD

Trang 3

iii

C ỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

B ẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ

H ọ và tên tác giả luận văn: Nguyễn Như Cường

Đề tài luận văn: Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ

1 B ổ sung, làm rõ mối quan hệ của nội dung luận văn và tên đề tài luận văn

2 Ch ỉnh sửa cấu trúc luận văn, tên chương mục cụ thể như sau:

Chương 1 Giới thiệu đề tài

Chương 2 Cơ sở lý thuyết

Chương 3 Đề xuất giải pháp và thực nghiệm xây dựng công cụ phân vùng ảnh vệ tinh

3 B ổ sung diễn giải cho cách thức đánh giá độ chính xác thuật toán

4 B ổ sung Danh mục thuật ngữ, chữ viết tắt

5 B ổ sung, chỉnh sửa các mô tả, tham chiếu tới bảng biểu và hình vẽ

6 Ch ỉnh sửa hình thức hiển thị của danh mục tài liệu tham khảo

7 Đồng nhất các thuật ngữ sử dụng trong luận văn

8 Ch ỉnh sữa các lỗi chính tả

Giáo viên hướng dẫn Tác giả luận văn

PGS.TS Tr ần Quang Đức Nguyễn Như Cường

CH Ủ TỊCH HỘI ĐỒNG

TS Tr ịnh Tuấn Đạt

Trang 4

iv

Trước hết, học viên xin được gửi lời cảm ơn đến các thầy cô trường Đại học Bách Khoa Hà Nội đã tận tình, nhiệt huyết giảng dạy trong những năm học vừa qua Học viên xin được gửi lời cám ơn tới cán bộ Viện Đào

tạo Sau đại học nay là phòng Đào tạo trường Đại học Bách Khoa Hà Nội và các đơn vị chức năng đã tạo điều kiện thuận lợi cho học viên và lớp Công nghệ thông tin 2018A tham gia học tập, hoàn thiện nghiên cứu

Em xin gửi lời cảm ơn chân thành và sâu sắc nhất đến thầy PGS TS Trần Quang Đức đã tận tình hướng dẫn không chỉ về mặt chuyên môn mà còn cung cấp môi trường, động lực giúp học viên hoàn thành nghiên cứu

Luận văn được tài trợ bởi Quỹ Phát triển khoa học và công nghệ Quốc gia (NAFOSTED) trong đề tài mã số 102.02-2019.314

Luận văn thực hiện nghiên cứu, ứng dụng kỹ thuật mạng nơ ron trong phát hiện nhà trên ảnh viễn thám vệ tinh độ phân giải siêu cao góp phần xây dựng bản đồ quy hoạch, bản đồ số và phát hiện nhà xây dựng trái phép Luận văn sử dụng các phương pháp nghiên cứu như phương pháp thư viện, phương pháp thống kê, phương pháp thực nghiệm Nghiên cứu được

thực hiện dựa trên máy tính cá nhân và nền tảng python với các thư viện như tensorflow, keras, opencv… Luận văn ứng dụng thành công mạng nơ ron trong việc phát hiện nhà trên bộ các mảnh ảnh kích thước nhỏ và đưa ra

giải pháp nhằm phát hiện nhà trên ảnh kích thước lớn mà không phải phân tách ảnh thành nhiều ảnh nhỏ Nghiên cứu của luận văn hỗ trợ cho công

việc lập bản đồ tại Việt Nam Nghiên cứu sẽ tiếp tục được phát triển theo hướng tăng cường độ chính xác, gia tăng thêm không gian mẫu, xử lý ảnh viễn thám đa độ phân giải

H ỌC VIÊN

Nguy ễn Như Cường

Trang 5

i

MỤC LỤC I DANH MỤC BẢNG BIỂU III DANH MỤC HÌNH VẼ IV DANH MỤC CHỮ VIẾT TẮT VI

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1

1.1 Tổng quan đề tài 1

1.1.1 Đặt vấn đề 1

1.1.2 Phương pháp nghiên cứu 1

1.1.3 Cấu trúc luận văn 2

1.2 Tổng quan về xây dựng bản đồ số tại Việt Nam 3

1.2.1 Bản đồ số 3

1.2.2 Xây dựng bản đồ số từ ảnh viễn thám vệ tinh 4

1.3 Tổng quan về ảnh vệ tinh 5

1.3.1 Khái niệm về ảnh vệ tinh 5

1.3.2 Phân loại ảnh vệ tinh 6

1.3.3 Giải đoán ảnh vệ tinh 10

1.4 Bài toán phân vùng ảnh 10

1.4.1 Phát biểu bài toán 10

1.4.2 Phân vùng ảnh 11

CHƯƠNG 2 CƠ SỞ LÝ THUYẾT 13

2.1 Mạng nơ ron tích chập 13

2.1.1 Mạng nơ ron 13

2.1.2 Mạng nơ ron tích chập 14

2.1.3 Các quá trình xây dựng mạng CNN 16

2.1.4 Tính chất của mạng CNN 21

2.2 Mô hình Mask R-CNN 22

Trang 6

ii

2.2.1 Thuật toán R-CNN 22

2.2.2 Thuật toán Fast R-CNN 24

2.2.3 Thuật toán Faster R-CNN 25

2.2.4 Thuật toán Mask R-CNN 26

2.3 Kiến trúc ResNet 29

2.4 Phương pháp đánh giá mô hình 33

CHƯƠNG 3 ĐỀ XUẤT GIẢI PHÁP VÀ THỰC NGHIỆM XÂY DỰNG CÔNG CỤ PHÂN VÙNG ẢNH VỆ TINH 34

3.1 Giải pháp phân vùng đối tượng trên ảnh vệ tinh 34

3.1.1 Giải pháp 34

3.1.2 Về môi trường thử nghiệm 34

3.1.3 Về bộ dữ liệu 35

3.2 Huấn luyện mạng nơ ron 38

3.2.1 Cài đặt chi tiết 38

3.2.2 Huấn luyện 41

3.2.3 Đánh giá độ chính xác của mô hình 44

3.3 Sử dụng mạng nơ ron 44

3.3.1 Các cài đặt chung 44

3.3.2 Ứng dụng với bộ dữ liệu các ảnh kích thước nhỏ 45

3.3.3 Ứng dụng với ảnh kích thước lớn 45

3.4 Kết quả thực nghiệm 46

3.4.1 Lưu trữ kết quả 46

3.4.2 Kết quả tiến hành trên bộ dữ liệu mẫu 46

3.4.3 Kết quả tiến hành trên bộ dữ liệu tại Việt Nam 50

KẾT LUẬN 57

DANH MỤC TÀI LIỆU THAM KHẢO 58

Trang 7

iii

Bảng 1.1 Một số ảnh vệ tinh trên thế giới 7

Bảng 1.2 Một số loại quỹ đạo vệ tinh đối với trái đất 9

Bảng 3.1 Kết quả đánh giá model 44

Trang 8

iv

Hình 1.1 Quy trình xây dựng bản đồ số từ ảnh viễn thám vệ tinh 4

Hình 1.2 Phương pháp ghi nhận ảnh viễn thám vệ tinh 7

Hình 1.3 Phổ sóng điện từ 8

Hình 1.4 Các cấp độ của phân vùng ảnh 11

Hình 1.5 Ứng dụng phân vùng ảnh với ảnh vệ tinh 12

Hình 2.1 Mô hình hoạt động cơ bản của mạng nơ ron 13

Hình 2.2 Mô hình liên kết của mạng nơ ron thông thường 15

Hình 2.3 Mô hình liên kết của mạng nơ ron tích chập 16

Hình 2.4 Mô phỏng cấu trúc mạng nơ ron tích chập 16

Hình 2.5 Lớp nơ ron đầu tiên 17

Hình 2.6 Tính toán lớp nơ ron tiếp theo bằng ma trận 5x5 17

Hình 2.7 Tạo nơ rơn đầu tiên 18

Hình 2.8 Dịch chuyển ma trận lọc tạo ra các nơ ron tiếp theo 18

Hình 2.9 Thủ tục max pooling trên lớp ẩn 19

Hình 2.10 Mô hình mạng nơ ron tích chập hoàn chỉnh 20

Hình 2.11 Kiến trúc R-CNN của R.Girshick [5] 23

Hình 2.12 Các thuật toán trong họ thuật toán R-CNN 24

Hình 2.13 Kiến trúc mạng Fast R-CNN [6] 24

Hình 2.14 Sơ đồ hoạt động của Faster R-CNN 25

Hình 2.15 Kiến trúc Mask R-CNN 26

Hình 2.16 Chu trình của thuật toán Mask R-CNN 27

Hình 2.17 Kiến trúc hoàn chỉnh của thuật toán Mask R-CNN 28

Hình 2.18 Mô hình của Residual Block 30

Hình 2.19 Kiến trúc mạng VGG-19, 34-layer tuyến tính và ResNet-34 31

Hình 2.20 Kiến trúc tổng thể của một số mô hình mạng ResNet 31

Hình 2.21 Cấu trúc mạng nơ ron ResNet 32

Hình 2.22 Kiến trúc mạng nơ ron ResNet-50 33

Hình 3.1 Một số hình ảnh dữ liệu mẫu dành cho huấn luyện mô hình 36

Hình 3.2 Bộ dữ liệu khu đô thị Splendora 37

Hình 3.3 Bộ dữ liệu khu đô thị Phú Gia 37

Trang 9

v

Hình 3.4 Dữ liệu huấn luyện: Hình bên trái là ảnh gốc, hình bên phải thể

hiện mặt nạ của các ngôi nhà có trong ảnh 42

Hình 3.5 Dữ liệu huấn luyện: Hình bên trái là ảnh gốc, hình bên phải thể hiện mặt nạ của các ngôi nhà có trong ảnh 42

Hình 3.6 Đồ thị epoch loss 43

Hình 3.7 Đồ thị bounding box loss 43

Hình 3.8 Đồ thị mask loss 43

Hình 3.9 Một số ảnh nằm trong bộ dữ liệu mẫu 46

Hình 3.10 Dữ liệu 0.jpg: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 47

Hình 3.11 Dữ liệu 5.jpg: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 47

Hình 3.12 Dữ liệu 35.jpg: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 48

Hình 3.13 Dữ liệu 36.jpg: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 49

Hình 3.14 Bản đồ khu đô thị Splendora (nguồn google map) 50

Hình 3.15 Bản đồ khu đô thị Phú Gia (nguồn google map) 51

Hình 3.16 Mảnh số 1-9: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 51

Hình 3.17 Mảnh số 8-7: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 52

Hình 3.18 Mảnh số 1-4: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 52

Hình 3.19 Mảnh số 6-10: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 53

Hình 3.20 Mảnh số 1-10: a)ảnh gốc; b) ảnh phân vùng; c)bản đồ mặt nạ; d)bản đồ khung 53

Hình 3.21 Khu đô thị Splendora 55

Hình 3.22 Các đối tượng được dự đoán trên ảnh 55

Hình 3.23 Bản đồ phát hiện đối tượng 56

Trang 10

CNN Convolutional neural network

RCNN Region-Based Convolutional Neural Network

ReLU Rectified Linear Unit

ResNet Residual network

IoU Intersection over Union

MS COCO Microsoft Common Objects in Context

Trang 11

từ công tác phân tích, số hóa thông tin từ dữ liệu quan trắc, đặc biệt là ảnh

viễn thám vệ tinh Với sự phát triển của ngành khoa học không gian, các vệ tinh viễn thám ngày càng cung cấp các tư liệu với độ phân giải cao hơn với

tần suất lớn hơn

Trong quá trình xây dựng bản đồ số từ ảnh viễn thám, quá trình giải đoán hình ảnh là quá trình phức tạp, tốn nhiều nhân lực nhất Trên thế giới, các công ty cung cấp dịch vụ bản đồ đã và đang phát triển các công cụ

nhằm hỗ trợ con người giải đoán ảnh vệ tinh nhanh chóng và chính xác Tại Việt Nam, công đoạn này còn được thực hiện tương đối thủ công, phụ thuộc nhiều vào trình độ, khả năng của người thực hiện và lượng thời gian tiêu hao để xử lý dữ liệu là lớn

Để phục vụ công tác xây dựng các bản đồ quy hoạch, giám sát hoạt động xây dựng trái phép tại các khu vực khó tiếp cập như khu vực đồi núi, biên giới, hải đảo, yêu cầu đặt ra là phải xây dựng được công cụ hỗ trợ công tác lập bản đồ số mà trước hết là việc giải đoán ảnh vệ viễn thám vệ tinh và trích xuất được thông tin [1] [2] [3] Trong đó, thao tác phân vùng các ngôi nhà xuất hiện trên ảnh vệ tinh là một trong những thao tác tốn kém, nhất là tại các khu đô thị Giải pháp ứng dụng mạng nơ ron nhân tạo

hỗ trợ, tự động phân vùng đối tượng nhà trên ảnh vệ tinh là cấp thiết

1.1.2 Phương pháp nghiên cứu

Với sự bùng nổ của công nghệ số như hiện nay, nhất là thế giới đang bước vào thời kỳ cách mạng công nghệ 4.0, ứng dụng công nghệ trí tuệ nhân tạo, học máy vào giải quyết các vấn đề nhằm giảm thiểu nguồn nhân

Trang 12

Trong khuôn khổ luận văn, tác giả đề xuất sử dụng mô hình Mask CNN để giải quyết bài toàn phân vùng đối tượng nhà trên ảnh viễn thám vệ tinh Mô hình Mask R-CNN cho khả năng huấn luyện tới 101 lớp nơ ron ẩn với tài nguyên và thời gian huấn luyện rút ngắn so với các mô hình mạng

R-nơ ron truyền thống Mô hình sẽ được huấn luyện dựa trên bộ dữ liệu mẫu

và tiến hành thử nghiệm thực tế với các địa điểm tại Việt Nam

Đối tượng nghiên cứu của luận văn bao gồm: ảnh vệ tinh viễn thám

độ phân giải siêu cao cho phép phân biệt tốt các đối tượng nhà trên ảnh, mô hình mạng nơ ron nhân tạo Mask R-CNN và ứng dụng mô hình trong phân vùng đối tượng nhà trên ảnh vệ tinh

Để thực hiện luận văn, các phương pháp nghiên cứu được sử dụng là phương pháp thư viện, phương pháp nghiên cứu tài liệu kết hợp với phương pháp thực nghiệm, phương pháp thống kê

1.1.3 C ấu trúc luận văn

Dựa trên mục đích, mục tiêu của luận văn và phương pháp nghiên cứu, nội dung chính luận văn được trình bày trong 3 chương cụ thể như sau:

CHƯƠNG 1 Giới thiệu đề tài: Trình bày tổng quan về bản đồ số và

xây dựng bản đồ số tại Việt Nam Từ đó, xác định mục đích của luận văn là nghiên cứu, xây dựng công cụ ứng dụng mạng nơ ron trong phân vùng đối tượng nhà trên ảnh vệ tinh, góp phần tiết kiệm nguồn lực trong khâu giải đoán ảnh vệ tinh

Trang 13

3

CHƯƠNG 2 Cơ sở lý thuyết: Trình bày cơ sở lý thuyết về mạng nơ ron, mạng nơ ron tích chập và mô hình Mask R-CNN Từ nghiên cứu mô hình Mask R-CNN xác định sự phù hợp của mô hình với bài toán phân vùng và đưa ra phương pháp đánh giá độ chính xác của mô hình

CHƯƠNG 3 Đề xuất giải pháp và thực nghiệm xây dựng công cụ phân vùng ảnh vệ tinh: Đưa ra đề xuất giải pháp ứng dụng mô hình Mask R-CNN phân vùng đối tượng nhà trên ảnh vệ tinh độ phân giải siêu cao, xây dựng và thử nghiệm công cụ phân vùng đối tượng nhà trên ảnh vệ tinh

độ phân giải siêu cao

Kết luận: Trình bày đánh giá về mô hình và ứng dụng của mô hình Mask R-CNN, kết quả thực nghiệm công cụ phân vùng ảnh vệ tinh Đồng thời, phần đưa ra hướng phát triển của nghiên cứu sau này

1.2 T ổng quan về xây dựng bản đồ số tại Việt Nam

1.2.1 B ản đồ số

Bản đồ số hay được biết là hệ thống thông tin địa lý GIS là một tập hợp, hệ thống lưu trữ, hiển thị, chỉnh sửa các thông tin, dữ liệu bản đồ trên máy tính Với bản đồ số, con người có thể dễ dàng thực hiện các thao tác như: cập nhật, chỉnh sửa thông tin; chồng xếp hoặc tách các lớp bản đồ theo ý muốn; biên tập và xuất bản bản đồ một cách nhanh chóng trên máy tính; phát hành và chia sẻ bản đồ nhanh chóng thông qua hệ thống mạng nội bộ hoặc mạng internet Hiện nay, Việt Nam đã triển khai xây dựng và ứng dụng bản đồ số phục vụ nhiều mục đích, điển hình như: bản đồ biển giới và địa giới hành chính, bản đồ địa chính, bản đồ địa hình …

Việc xây dựng bản đồ số trước tiên bắt đầu từ việc số hóa, lưu trữ thông tin từ các bản đồ giấy sẵn có, đã xây dựng trước đó Trong quá trình xây dựng hoàn thiện, bản đồ số được cập nhật thông tin liên tục từ những

dữ liệu mới nhất được thu thập bằng nhiều cách như dữ liệu thực địa, dữ liệu trắc địa địa hình, dữ liệu ảnh viễn thám (bao gồm ảnh hàng không, ảnh

vệ tinh) Công tác cập nhật dữ liệu bằng ảnh viễn thám vệ tinh được cho là hiệu quả nhất hiện nay do số lượng ảnh vệ tinh lớn, cập nhật thường xuyên nhanh chóng, độ bao phủ rộng lớn

Trang 14

4

1.2.2 Xây d ựng bản đồ số từ ảnh viễn thám vệ tinh

Trong thành lập bản đồ từ ảnh viễn thám vệ tinh (ảnh vệ tinh), ta cần

những bức ảnh quang, không có ảnh hưởng của mây Do trong quá trình

chụp ảnh từ vệ tinh, ảnh viễn thám thường xuất hiện mây Đặc biệt là trong khu vực khí hậu nhiệt đới gió mùa như nước ta, ảnh viễn thám bị ảnh hưởng nhiều bởi mây Có những mùa trong năm như từ tháng 10 đến tháng

2 hàng năm hay những mùa bão, tại các khu vực biển đông cũng như bắc

bộ, mây che phủ thường xuyên, có khi lên tới hơn 90% diện tích bao phủ

của cảnh ảnh Mây xuất hiện có thể trực tiếp che phủ lên các vùng cần nhận diện, xây dựng bản đồ Ngoài ra, bóng do mây tạo nên từ cộng hưởng với ánh sáng mặt trời gây sai lệch dữ liệu, thay đổi trị số các kênh màu của khu vực quan tâm

Hình 1.1 Quy trình xây d ựng bản đồ số từ ảnh viễn thám vệ tinh

Công tác xây dựng bản đồ số từ ảnh viễn thám vệ tinh là công tác quan trọng, trải qua nhiều giai đoạn khác nhau Quy trình xây dựng bản đồ

số được thực hiện như sau: Tùy theo yêu cầu của bản đồ, các bức ảnh vệ tinh chụp khu vực cần xây dưng được thu thập từ các nguồn khác nhau như nguồn ảnh miễn phí, nguồn ảnh thương mại hay các dữ liệu hợp tác trao đổi Ảnh vệ tinh viễn thám sau khi được thu nhận sẽ trải qua các công đoạn

hiệu chỉnh hình ảnh để khắc phục sai số, chuẩn hóa dữ liệu như hiệu chỉnh bức xạ, hiệu chỉnh hình học, nắn chỉnh tọa độ Sau khi được hiệu chỉnh,

Trang 15

5

hình ảnh viễn thám được tiến hành các khâu giải đoán khác nhau để thu được các thông tin cần thiết Thông tin thu nhận được sẽ được trích xuất và lưu trữ vào cơ sở dữ liệu địa lý Dữ liệu trong cơ sở dữ liệu sẽ được trích xuất và trình bày dưới dạng các bản đồ khác nhau theo nhu cầu của người

sử dụng

Một trong những khâu quan trọng nhất của quá trình này là khâu giải đoán ảnh viễn thám Hỗ trợ quá trình giải đoán ảnh vệ tinh là mục đích hướng tới của luận văn Trong khuôn khổ nghiên cứu, luận văn đưa ra giải pháp ứng dụng mạng nơ ron nhân tạo trong phân vùng đối tượng nhà trên ảnh vệ tinh Từ quá trình phân vùng đó, thông tin được trích xuất và lưu trữ vào hệ thống tin địa lý

hệ thống thông tin địa lý, các phần mềm chuyên dụng cho công việc xử lý

tư liệu viễn thám Ngoài ra, đối với lĩnh vực viễn thám, các nhà khoa học còn tập trung nghiên cứu khả năng phản xạ cũng như phổ phản xạ của các đối tượng và tác động qua lại của môi trường đến phổ phản xạ nhằm tăng cường chất lượng ảnh viễn thám thu nhận được phục vụ giải quyết các vấn

đề đặt ra trong nghiên cứu

Không chỉ đóng góp vào sự phát triển của khoa học công nghệ, viễn thám còn tác động trực tiếp đến đời sống xã hội Tư liệu viễn thám được khai thác trực tiếp phục cho nhiều mục đích khác nhau như: khí tượng thuỷ văn, địa chất, lâm nghiệp, nông nghiệp, địa chính, địa lý tài nguyên, theo dõi và quản lý môi trường, an ninh, quốc phòng…

Trang 16

6

Ảnh vệ tinh là ảnh số thể hiện các vật thể trên bề mặt trái đất được thu nhận bởi các bộ cảm biến đặt trên vệ tinh Ảnh viễn thám có thể được lưu theo các kênh ảnh đơn (trắng đen) ở dạng số trong máy tính hoặc các kênh ảnh được tổ hợp (ảnh màu) hoặc có thể in ra giấy, tùy theo mục đích người sử dụng Ảnh vệ tinh là tư liệu, đối tượng, công cụ nghiên cứu chủ

yếu của khoa học viễn thám Ảnh vệ tinh được sử dụng rộng rãi, phục vụ nhiều mục đích khác nhau như thành lập bản đồ, khí tượng, dự báo thời tiết, giám sát môi trường, giám sát hoạt động…

Với sự phát triển của khoa học công nghê, vệ tinh viễn thám ngày càng tính hợp nhiều tính năng và thể hiện sự ưu việt Từ những tấm ảnh đa

phổ 3 – 4 kênh với độ phân giải khoảng 100m đến nay là những bức ảnh

4-10 kênh phổ, độ phân giải đến hàng cm Một số vệ tinh cho độ phân giải dưới 0,5m Ngày nay, một số hệ thống viễn thám có thể cung cấp ảnh hàng ngày của một vị trí trên trái đấy, cung cấp nguồn tư liệu khổng lồ cần xử lý

1.3.2 Phân lo ại ảnh vệ tinh

Dựa trên các phương pháp thu nhận ảnh viễn thám vệ tinh (ảnh vệ tinh) cũng như đặc tính của vệ tinh mà ta có thể phân loại ảnh vệ tinh theo nhiều cách khác nhau như: độ phân giải không gian của ảnh (độ phân giải), bước sóng, phương pháp thu nhận ảnh, quỹ đạo của vệ tinh

a) Phân lo ại theo phương pháp thu nhận dữ liệu

Bản chất hoạt động của vệ tinh viễn thám là ghi nhận các bức xạ năng lượng của vật thể trên trái đất tại cái dải sóng khác nhau Dựa trên phương pháp thu nhận bức xạ, vệ tinh viễn thám được chia thành 2 loại chính là viễn thám chủ động và viễn thám thụ động Phương pháp thụ động

là phương pháp ghi nhận bức xạ do chính vật thể tự phát ra (ảnh vệ tinh quang học) Phương pháp chủ động là vệ tinh chủ động phát xạ đến vật thể

và ghi lại những bức xạ của vật thể từ năng lượng phát xạ đó (ảnh vệ tinh radar)

Trang 17

7

Hình 1.2 Phương pháp ghi nhận ảnh viễn thám vệ tinh

b) Phân lo ại theo độ phân giải

Độ phân giải không gian của ảnh là khoảng cách tối thiểu giữa hai đối tượng mà chúng được phân chia và tách biệt với nhau trên ảnh Tùy theo mục đích, phạm vi giám sát, các đơn vị nghiên cứu chế tạo ra các vệ tinh cung cấp độ phân giải không gian khác nhau Độ phân giải không gian thường được thể hiện bằng kích thước của 1 pixel

B ảng 1.1 Một số ảnh vệ tinh trên thế giới

Trang 18

8

B ảng 1.1 cung cấp danh sách và thông tin về một số loại ảnh vệ tinh

được cung cấp, trong đó ảnh vệ tinh Landsat-8 và ảnh vệ tinh Sentinel-2A

là ảnh vệ tinh quang học được cung cấp miễn phí từ Cục khảo sát địa chất

Mỹ - USGS và Cơ quan vũ trụ Châu Âu – ESA VNRedsat-1 là vệ tinh viễn thám đầu tiên của Việt Nam, được phóng lên vũ trụ vào ngày 7/5/2013 Planet Dove là chùm vệ tinh quang học quan sát trái đất của công

ty Planet Labs – Hoa Kỳ

c) Phân lo ại theo bước sóng

Hình 1.3 Phổ sóng điện từ

Nguồn năng lượng được các vệ tinh viễn thám ghi nhận chính là các bức xạ điện từ được các vật thể phản xạ vào trong không gian Trong công nghệ viễn thám, do các vệ tinh bay ngoài khí quyển nên chỉ có thu nhận

được các bước sóng từ hồng ngoại trở lên Hình 1.3 biểu diễn dải phổ của

sóng điện từ với bước từ dài đến ngắn Trong đó, các dải sóng dùng trong

viễn thám thường có bước sóng ngắn, bắt đầu từ vùng sóng hồng ngoài, vùng ánh sáng nhìn thấy, vùng sóng tử ngoại…Nguồn năng lượng chính

của vệ tinh quang học nhìn thấy và quang học hồng ngoại là từ bức xạ mặt

trời được phản xạ lại Nguồn năng lượng của trong viễn thám hồng ngoại nhiệt là bức xạ nhiệt do chính vật thể phát ra Đối với viễn thám siêu cao

tần, chủ yếu là công nghệ viễn thám chủ động – viễn thám radar Trong phạm vi nghiên cứu của đề tài, ta chỉ nghiên cứu ảnh vệ tinh viễn thám quang học trong dải phổ nhìn thấy với bước sóng từ 380 nm đến 760 nm

Trang 19

9

d) Phân lo ại theo quỹ đạo

Tùy theo độ cao bay, quỹ đạo bay của vệ tinh mà mang tới các đặc tính khác nhau cho ảnh viễn thám vệ tinh Các quỹ đạo của vệ tinh có thể được phân loại như sau:

Bảng 1.2 Một số loại quỹ đạo vệ tinh đối với trái đất

Quỹ đạo địa tĩnh 36.000 km Thường là vệ tinh viễn

Các vệ tinh viễn thám quang học do ghi nhận bức xạ ánh sáng nhìn

thấy của vật thể được phản xạ từ ánh sáng mặt trời nên các vệ tinh này thường được thiết kế để hoạt động theo quỹ đạo đồng bộ mặt trời trên độ cao quỹ đạo thấp Với quỹ đạo đồng bộ mặt trời, khi vệ tinh quan sát một điểm trên trái đất thì đó cũng là lúc mặt trời truyền bức xạ tới điểm đó (trời sáng) Như trong Bảng 1.2, các vệ tinh viễn thám quang học thường bay trên quỹ đạo cách trái đất khoảng từ 600 km đến 800 km

Đối với công tác xây dựng bản đồ số, đặc biệt là các bản đồ quy

hoạch, bản đồ yêu cầu có tỉ lệ chính xác cao nên loại ảnh vệ tinh thường được sử dụng là ảnh vệ tinh viễn thám quang học có độ phân giải cao hoặc

độ phân giải siêu cao Trong khuôn khổ luận văn, nghiên cứu đưa ra giải pháp xử lý ảnh vệ tinh viễn thám quang học độ phân giải siêu cao

Trang 20

10

1.3.3 Gi ải đoán ảnh vệ tinh

Giải đoán ảnh vệ tinh là hoạt động sử dụng các công cụ để chiết xuất thông tin từ ảnh vệ tinh Giải đoán ảnh vệ tinh là quá trình xác định, phân vùng, thu nhận thông tin các địa vật, đối tượng theo hình ảnh của chúng trên ảnh, dựa trên các quy luật tạo hình quang học, tạo hình hình học và các quy luật phân bố của chúng

Đối với yêu cầu xác định nhà trong ảnh vệ tinh, phương pháp giải đoán thường được sử dụng là phương pháp giải đoán bằng mắt – kinh nghiệm của người thực hiện giải đoán Phương pháp này sử dụng các khóa

giải đoán – dấu hiệu nhận biết đối tượng trên ảnh để thực hiện giải đoán Phương pháp này có ưu điểm là có thể bổ sung dễ dàng kinh nghiệm của con người, tham khảo tham chiếu trực tiếp tới đối tượng Tuy nhiên khi sử

dụng phương pháp này, thời gian thực hiện tương đối tốn kém Đặc biệt với

số lượng dữ liệu ảnh vệ tinh ngày càng nhiều như hiện nay thì nhân lực sử

dụng trong quá trình giải đoán là rất nhiều Vì vậy, để giảm thiểu thời gian thực hiện giải đoán, ta cần ứng dụng công nghệ, thực hiện giải đoán tự động

Do các đối tượng trên ảnh được xác định bằng các khóa giải đoán Các khóa giải đoán thường được sử dụng là màu sắc, kích thước, hình dạng, hình mẫu của đối tượng Với các khóa giải đoán, quá trình giải đoán ảnh vệ tinh hoàn toàn tương đồng với bài toán phân vùng đối tượng trên ảnh (phân vùng ảnh) Để giải đoán được nhà trên ảnh vệ tinh, ta đồng nhất

nó với bài toán phân vùng đối tượng nhà trên ảnh vệ tinh

1.4 Bài toán phân vùng ảnh

1.4.1 Phát bi ểu bài toán

Phân vùng hình ảnh là kỹ thuật phân chia ảnh thành các vùng hoặc đối tượng để xử lý dữ liệu Phân vùng ảnh giúp phân tách các đối tượng quan tâm với các thành phần khác của ảnh Mỗi đối tượng trong ảnh là một vùng xác định bởi một đường biên là đường bao quanh đối tượng đó Vùng hình chữ nhật nhỏ nhất chứa toàn bộ đối tượng và đường biên của đối tượng gọi là 1 ô – 1 box Vùng này chứa các đặc trưng riêng giúp phân biệt các đối tượng với nhau và với nền ảnh

Trang 21

11

1.4.2 Phân vùng ảnh

Hình 1.4 chỉ ra lần lượt các cấp độ của phân vùng ảnh từ phân biệt hình ảnh, phát hiện đối tượng, phân vùng ngữ nghĩa và phân vùng đối tượng Giai đoạn thứ nhất, ta phân biệt hình ảnh của các đối tượng có trong ảnh, dự đoán, gán nhãn loại đối tượng có thể xuất hiện trong ảnh Sau đó ta phát hiện, khoanh vùng các đối tượng có trong ảnh Tiếp đó, ta phân vùng đối tượng theo nhóm, tách đối tượng quan tâm khỏi các thành phần khác

của ảnh (gọi là nền ảnh), tách các nhóm đối tượng khỏi nhau Cuối cùng, trong các đối tượng đã phân vùng được, từng đối tượng được xác định, phân vùng độc lập

Phân vùng ngữ nghĩa (semantic segmentation) là một cấp độ trong phân vùng hình ảnh Phân vùng ngữ nghĩa có thể được hiểu là tiến trình nhóm các thành phần trong một bức ảnh, mỗi nhóm pixel ảnh đại diện cho một lớp đối tượng Phân vùng ngữ nghĩa giúp phân biệt các nhóm đối tượng có trong ảnh nhưng không thể phân biệt hai đối tượng trong cùng lớp Việc phân tách hai đối tượng trong cùng lớp càng khó khăn hơn khi chúng nằm

cạnh, chồng lấn lên nhau

Hình 1.4 Các c ấp độ của phân vùng ảnh

Trang 22

12

Hình 1.5 Ứng dụng phân vùng ảnh với ảnh vệ tinh

Đối với ảnh viễn thám, bài toán phân vùng ảnh được sử dụng để phát

hiện, phân vùng các đối tượng quan tâm trên ảnh Hình 1.5 thể hiện bài

toán phân vùng ảnh được sử dụng để phát hiện, phân vùng các ngôi nhà trong ảnh vệ tinh Hình ảnh bên phải thể hiện ngôi nhà được xác định có màu trắng và các đối tượng còn lại được coi là nên được biểu thị bằng màu đen Từ bản đồ phân vùng ở bên phải, thông tin về các ngôi nhà sẽ được trích xuất để thành lập bản đồ như vị trí, kích thước, hình bao…

Trang 23

nơ ron nhân tạo được thiết kế nhằm mô phỏng mạng nơ ron của bộ não người Mạng nơ ron nhân tạo được cấu thành từ một tập các phần tử xử lý đơn giản được kết nối với nhau Mỗi phần tử xử lý này chỉ có thể thực hiện được một thao tác tính toán nhỏ, nhưng một mạng lưới các phần tử như vậy

có một khả năng tính toán lớn hơn rất nhiều Phần tử tính toán cơ bản của

mạng nơ ron là một perceptron hay một nơ ron

Hình 2.1 Mô hình ho ạt động cơ bản của mạng nơ ron

Hình 2.1 minh họa một mạng nơ ron truyền thẳng với 3 loại nút mạng là nút đầu vào (input), nút ẩn (hidden), nút đầu ra (output) Nút đầu vào là nút mạng nằm ở lớp trên cùng tiếp xúc với dữ liệu đầu vào Các nút này có nhiệm vụ chứa dữ liệu đầu vào từ bên ngoài và đưa trực tiếp vào các nút ẩn Nút ẩn không chứa kết nối trực tiếp đến dữ liệu từ bên ngoài Nó nhận thông tin từ các nút đầu vào, thực hiện tính toán và đưa ra thông tin ra các nút đầu ra Một mạng nơ ron truyền thẳng có thể có hoặc không có lớp

ẩn Nút đầu ra có nhiệm vụ tính toán và đưa dữ liệu từ trong mạng ra bên ngoài

Trang 24

Ở mỗi tầng, số lượng các nút mạng (nơ ron) có thể khác nhau tuỳ thuộc vào bài toán và cách giải quyết Nhưng thường khi làm việc người ta

để các lớp ẩn có số lượng nơ-ron bằng nhau Ngoài ra, các nơ ron ở các lớp thường được liên kết đôi một với nhau tạo thành mạng kết nối đầy đủ (full-connected network) Khi đó ta có thể tính được kích cỡ của mạng dựa vào

số lớp và số nơ-ron

2.1.2 M ạng nơ ron tích chập

Mạng nơ ron tích chập (mạng CNN) là một mạng nơ ron nhân tạo với các toán tử tích chập Nó có khả năng học một lượng lớn các dữ liệu trong khoảng thời gian ngắn hơn nhiều so với mạng nơ ron thông thường

Lý do là nó sử dụng ít trọng số hơn trong khi độ chính xác chỉ kém hơn một phần nhỏ so với kiến trúc truyền thống Thông qua các phép tích chập, các đặc trưng chính từ ảnh được trích xuất và truyền vào các tầng Mỗi một nút mạng là kết quả của biến đổi tích chập từ các nút của tầng trước đó Thiết kế cơ bản của mạng CNN như sau:

INPUT -> [[CONV -> RELU]*N -> POOL?]*M -> [FC -> RELU]*K ->

Trang 25

15

Các kí hiệu []N, []M hoặc []*K ám chỉ các khối bên trong [] có thể lặp lại nhiều lần liên tiếp nhau M, K là số lần lặp lại Kí hiệu -> đại diện cho các tầng liền kề nhau mà tầng đứng trước sẽ làm đầu vào cho tầng đứng sau Dấu ? sau POOL để thể hiện tầng POOL có thể có hoặc không sau các khối tích chập

Trong mạng nơ ron thông thường, các nút nằm trên tầng phía sau sẽ liên kết với toàn bộ các nút của tầng liền trước đó Các liên kết này được

quản lý bởi một tập các trọng số Mỗi nút khác nhau sẽ có một tập trọng số riêng để quản lý kết nối của nó tới các nút trước đó

Hình 2.2 Mô hình liên k ết của mạng nơ ron thông thường

Điểm khác biệt của mạng nơ ron tích chập so với mạng nơ ron truyền thống đó là trong liên kết giữa 2 tầng liên tiếp nhau việc các nút ở các tầng phía sau chỉ liên kết với một bộ phận các nút ở tầng phía trước đó gọi là receptive field thông qua một tập các trọng số Hơn nữa tập trọng số này là như nhau đối với mỗi nơ ron ở tầng sau Do đó số lượng tham số cần huấn luyện ít hơn trong khi vẫn giữ được lượng thông tin cần thiết Hay nói cách khác, tầng tiếp theo là kết quả của phép toán tích chập của tầng trước

đó Mỗi nơ ron ở tầng kế tiếp là kết quả của việc áp dụng bộ lọc lên một vùng cục bộ

Trang 26

16

Hình 2.3 Mô hình liên kết của mạng nơ ron tích chập

Trong quá trình huấn luyện mạng CNN tự động học các giá trị qua các bộ lọc dựa vào cách thức mà bạn thực hiện Ví dụ trong tác vụ phân lớp ảnh, CNNs sẽ cố gắng tìm ra thông số tối ưu cho các bộ lọc tương ứng theo

thứ tự: raw pixel > edges > shapes > facial > high-level đặc trưng Lớp cuối cùng được dùng để phân lớp ảnh Trong mạng CNN cần quan tâm đến hai

yếu tố tính bất biến và tính kết hợp Với cùng một đối tượng, nếu đối tượng này được xoay các góc khác nhau như dịch chuyển, quay, co giãn thì độ chính xác của thuật toán sẽ bị ảnh hưởng đáng kể

Hình 2.4 Mô ph ỏng cấu trúc mạng nơ ron tích chập

2.1.3 Các quá trình xây d ựng mạng CNN

Mạng CNN được xây dựng dựa trên ba quá trình cơ bản là các trường tiếp nhận cục bộ (local receptive field), trọng số chia sẻ (shared weights) và tổng hợp (pooling)

a) Trường tiếp nhận cục bộ

Giả sử đầu vào của mạng CNN là một ảnh được biểu diễn bởi ma trận 28x28 Mỗi giá trị điểm ảnh là một ô trong ma trận Trong mạng nơ

Trang 27

17

ron thông thường, ta sẽ kết nối các điểm trong ma trận với các nơ ron tầng đầu của mạng

Hình 2.5 L ớp nơ ron đầu tiên

Trong mạng CNN, ta không thực hiện kết nối trực tiếp toàn bộ các điểm thuộc ma trận vào thành từng nơ ron như thông thường Ta tiến hành kết nối từng vùng nhỏ của ma trận với tầng nơ ron tiếp theo Ví dụ như tiến hành một vùng (ma trận con) kích thước 5x5 với một nơ ron ở tầng tiếp theo Kết nối được thể hiện như sau:

Hình 2.6 Tính toán l ớp nơ ron tiếp theo bằng ma trận 5x5

Như vậy, ta sẽ thấy cách tạo ra tầng nơ ron đầu tiên bằng việc trượt lần lượt ma trận con trên lớp nơ ron đầu vào Mỗi ma trận con nơ ron của lớp đầu vào sẽ ánh xạ đến một nơ ron ở lớp kế tiếp

Trang 28

18

Hình 2.7 T ạo nơ rơn đầu tiên

Hình 2.8 D ịch chuyển ma trận lọc tạo ra các nơ ron tiếp theo

Vùng đó trong ma trận ảnh đầu vào được gọi là vùng tiếp nhận cục

bộ Mỗi kết nối tương ứng với một trọng số Mỗi nơ ron ẩn học với độ lệch Khi tiến hành trượt vùng tiếp nhận cục bộ trên toàn bộ ma trận ảnh, ta sẽ

nhận được tầng ẩn đầu tiên của mạng CNN

Trang 29

19

nếu lớp đầu tiên có kết nối đầy đủ nghĩa là chúng ta có 28×28=784 nơ ron đầu vào như vậy ta chỉ có 30 nơ ron ẩn Như vậy ta cần 28x28x30 trọng số chia sẻ và 30 độ chênh chia sẻ Tổng số tham số là 28x28x30+30 tham số

lớn hơn nhiều so với CNN Ví dụ trên chỉ mô tả để thấy được sự ước lượng

số lượng tham số chứ chúng ta không so sánh được trực tiếp vì 2 mô hình khác nhau Nhưng điều chắc chắn là nếu mô hình có số lượng tham số ít hơn thì nó sẽ chạy nhanh hơn

Một tầng tích chập bao gồm các bản đồ đặc trưng khác nhau Mỗi một bản đồ đặc trưng giúp phát hiện một vài đặc trưng trong ảnh Lợi ích

lớn nhất của trọng số chia sẻ là giảm tối số lượng tham số trong mạng CNN Việc này giảm đáng kể thời gian học của mạng CNN

c) Lớp tổng hợp

Ngoài các lớp tích chập, mạng tích chập cũng chứa các lớp tổng hợp Lớp tổng hợp thường nằm ngay sau lớp tích chập Lớp tổng hợp thực hiện

việc đơn giản hóa thông tin đầu ra từ lớp tích chập

Ví dụ, mỗi nơ ron trong lớp tổng hợp được thu gọn bởi ma trận 2x2

nơ ron lớp trước Thủ tục tổng hợp phổ biến là max pooling Thủ tục này chọn giá trị lớn nhất trong vùng đầu vào 2x2

Hình 2.9 Th ủ tục max pooling trên lớp ẩn

Như vậy qua thủ tục max pooling thì số lượng nơ ron giảm đi phân nửa Trong một mạng CNN có nhiều bản đồ đặc trưng nên mỗi Bản đồ đặc

Trang 30

20

trưng chúng ta sẽ cho mỗi Max Pooling khác nhau Chúng ta có thể thấy rằng Max Pooling là cách hỏi xem trong các đặc trưng này thì đặc trưng nào là đặc trưng nhất

Hình 2.10 Mô hình m ạng nơ ron tích chập hoàn chỉnh

Sau khi thực hiện đủ bộ ba quá trình, ta sẽ nhận được mạng tích chập hoàn chỉnh Lớp cuối cùng của các kết nối trong mạng là một lớp đầy đủ

kết nối Lớp này nối mọi nơ ron từ lớp tổng hợp tới lớp đầu ra Ba quá trình

cơ bản xây dựng mạng CNN là:

Quá trình tích chập (convolution): Thông qua các tích chập giữa ma trận đầu vào với bộ lọc để tạo thành các đơn vị trong một tầng mới Quá trình này có thể diễn ra liên tục ở phần đầu của mạng và thường sử dụng kèm với hàm kích hoạt ReLU Mục tiêu của tầng này là trích suất đặc trưng hai chiều

Quá trình tổng hợp (max pooling): Các tầng càng về sau khi trích

xuất đặc trưng sẽ cần số lượng tham số lớn do chiều sâu được qui định bởi

số lượng các kênh ở các tầng sau thường tăng tiến theo cấp số nhân Điều

đó làm tăng số lượng tham số và khối lượng tính toán trong mạng nơ ron

Do đó để giảm tải tính toán chúng ta sẽ cần giảm kích thước các chiều của khối ma trận đầu vào hoặc giảm số đơn vị của tầng Vì mỗi một đơn vị sẽ là kết quả đại diện của việc áp dụng 1 bộ lọc để tìm ra một đặc trưng cụ thể nên việc giảm số đơn vị sẽ không khả thi Giảm kích thước khối ma trận đầu vào thông qua việc tìm ra 1 giá trị đại diện cho mỗi một vùng không gian mà bộ lọc đi qua sẽ không làm thay đổi các đường nét chính của bức

Trang 31

21

ảnh nhưng lại giảm được kích thước của ảnh Do đó quá trình giảm chiều

ma trận được áp dụng Quá trình này gọi là tổng hợp nhằm mục đích giảm kích thước dài, rộng

Quá trình kết nối hoàn toàn (fully connected): Sau khi đã giảm kích thước đến một mức độ hợp lý, ma trận cần được trải phẳng (flatten) thành

một vector và sử dụng các kết nối hoàn toàn giữa các tầng Quá trình này sẽ diễn ra cuối mạng CNN và sử dụng hàm kích hoạt là ReLU Tầng kết nối hoàn toàn cuối cùng (fully connected layer) sẽ có số lượng đơn vị bằng với

số classes và áp dụng hàm kích hoạt là softmax nhằm mục đích tính phân

phối xác xuất

2.1.4 Tính ch ất của mạng CNN

Tính kết nối trượt: Khác với các mạng nơ ron thông thường, mạng

nơ ron tích chập không kết nối tới toàn bộ hình ảnh mà chỉ kết nối tới từng vùng cục bộ hoặc vùng nhận thức có kích thước bằng kích thước bộ lọc của hình ảnh đó Các bộ lọc sẽ trượt theo chiều của ảnh từ trái qua phải và từ trên xuống dưới đồng thời tính toán các giá trị tích chập và điền vào bản đồ kích hoạt hoặc bản đồ đặc trưng

Tính chia sẻ kết nối và kết nối cục bộ: Chúng ta đã biết quá trình

biến đổi trong mạng tích chập sẽ kết nối các khối nơ ron 3D Tuy nhiên các đơn vị sẽ không kết nối tới toàn bộ khối 3D trước đó theo chiều rộng và cao mà chúng sẽ chọn ra các vùng địa phương (hoặc vùng nhận thức) có kích thước bằng với bộ lọc Các vùng địa phương sẽ được chia sẻ chung một bộ siêu tham số có tác dụng nhận thức đặc trưng của bộ lọc Các kết

nối cục bộ không chỉ diễn ra theo chiều rộng và cao mà kết nối sẽ mở rộng hoàn toàn theo chiều sâu Mỗi bộ lọc sẽ có khả năng trích xuất một đặc trưng nào đó Do đó khi đi qua toàn bộ các vùng địa phương của khối nơ ron 3D, các đặc trưng được trích xuất sẽ hiển thị trên tầng mới

Tính tổng hợp: Ở các tầng tích chập gần cuối số tham số sẽ cực kì

lớn do sự gia tăng của chiều sâu và thông thường sẽ theo cấp số nhân Như vậy nếu không có một cơ chế kiểm soát sự gia tăng tham số, chi phí tính

Trang 32

22

toán sẽ cực kì lớn và vượt quá khả năng của một số máy tính cấu hình yếu Một cách tự nhiên là chúng ta sẽ giảm kích thước các chiều rộng và cao bằng kỹ thuật giảm mẫu mà vẫn giữ nguyên được các đặc trưng của khối Theo đó những bộ lọc được di chuyển trên bản đồ đặc trưng và tính trung bình hoặc giá trị lớn nhất của các phần tử trong vùng nhận thức Trước đây các tính trung bình được áp dụng nhiều nhưng các mô hình hiện đại đã thay thế bằng giá trị lớn nhất do tốc độ tính tối đa nhanh hơn so với trung bình

Độ phức tạp phát hiện hình ảnh tăng dần: Ở tầng đầu tiên, hình ảnh

mà chúng ta có chỉ là những giá trị pixels Sau khi đi qua tầng thứ 2 máy tính sẽ nhận diện được các hình dạng cạnh, rìa và các đường nét đơn giản được gọi là đặc trưng bậc thấp Càng ở những tầng tích chập về sau càng có khả năng phát hiện các đường nét phức tạp, đã rõ ràng hình thù và thậm chí

là cấu thành vật thể, đây được gọi là những đặc trưng bậc cao Máy tính sẽ học từ tầng cuối cùng để nhận diện nhãn của hình ảnh

Như vậy, với việc sử dụng mạng nơ ron tích chập, tài nguyên hệ

thống sử dụng được tiết kiệm hơn so với mạng nơ ron truyền thống Hơn nữa, mạng nơ ron tích chập có khả năng huấn luyện nhanh chóng với nhiều lớp ẩn, tăng độ sâu của mạng Việc sử dụng mạng nơ ron tích chập cho bài toán phân vùng trên ảnh vệ tinh là phù hợp và hiệu quả

2.2 Mô hình Mask R-CNN

2.2.1 Thu ật toán R-CNN

Năm 2013, R Girshick và các đồng nghiệp đã phát triển thuật toán phân vùng ảnh dựa trên mạng nơ ron tích chập được gọi là thuật toán R-CNN (regions with CNN features)

Trang 33

23

Thuật toán R-CNN phát hiện đối tượng trong ảnh qua bốn bước sau:

- Bước 1: Nhập ảnh vào trong mạng CNN

- Bước 2: Trích xuất vùng quan tâm (vùng có thể chứa đối tượng) thông qua các thuật toán như Selective search

- Bước 3: Trích xuất đặc trưng của từng vùng sử dụng mạng CNN

nhờ khả năng học mạnh mẽ của mạng CNN nhưng thuật toán này gặp vấn

đề về tốc độ thực hiện Tốc độ bị giới hạn là do R-CNN chạy CNN độc lập cho mỗi bao đóng và việc sinh ra bao đóng bởi các thuật toán bên ngoài là

rất nhiều Cụ thể R-CNN chạy mất khoảng 40s cho mỗi ảnh trên GPU Mô hình này rất khó để có thể học do có 2 phần mô hình học máy (CNN và SVM) cần học độc lập Thêm nữa R-CNN yêu cầu một thuật toán bên ngoài như selective search để hoạt động Dựa trên thuật toán R-CNN, các thuật toán đã được phát triển nhằm cải thiện, tối ưu thuật toán này Họ các thuật toán dựa trên R-CNN được thể hiện trong Hình 2.12 dưới đây

Trang 34

24

Hình 2.12 Các thu ật toán trong họ thuật toán R-CNN

2.2.2 Thu ật toán Fast R-CNN

Để khắc phục những hạn chế của R-CNN, Girshick đã phát triển thuật toán Fast R-CNN Fast R-CNN được xây dựng dựa trên thuật toán R-CNN với các ý tưởng nhằm cải thiện tốc độ huấn luyện và thực hiện thuật toán Fast R-CNN cho tốc độ huấn luyện mạng VGG16 nhanh gấp 9 lần so

với R-CNN, cho tốc độ thực hiện gấp 213 lần Thời gian phát hiện đối tượng trên một ảnh giảm từ 40s xuống còn 0.2s Ý tưởng chính của Fast R-CNN đó là sử dụng một mạng nơ ron duy nhất cho trích xuất đặc trưng và phân lớp thay thế cho mạng SVM độc lập

Ngày đăng: 10/12/2021, 19:35

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[5] Ross Girshick, "Rich feature hierarchies for accurate object detection and semantic segmentation," 2013 Sách, tạp chí
Tiêu đề: Rich feature hierarchies for accurate object detection and semantic segmentation
[7] Shaoquing Ren, "Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks," 2015 Sách, tạp chí
Tiêu đề: Faster R-CNN: Towards Real-Time Object Detection with Region Proposal Networks
[8] Jasper Uijlings, "Selective Search for Object Recognition," 2012 Sách, tạp chí
Tiêu đề: Selective Search for Object Recognition
[10] Vincent Feng, "An Overview of ResNet and its Variants," 2017 Sách, tạp chí
Tiêu đề: An Overview of ResNet and its Variants
[11] Kaiming He, "Deep Residual Learning for Image Recognition," 2015. [12] T ổ ch ứ c AICrowd, 2021. [Online]. Available Sách, tạp chí
Tiêu đề: Deep Residual Learning for Image Recognition
[1] Th ủ tướ ng Chính ph ủ , CHI ẾN LƯỢ C NGHIÊN C Ứ U VÀ Ứ NG DỤNG CÔNG NGHỆ VŨ TRỤ ĐẾN NĂM 2020, 14/6/2016 Khác
[2] Thủ tướng Chính phủ, CHIẾN LƯỢC PHÁT TRIỂN VÀ ỨNG D Ụ NG KHOA H Ọ C VÀ CÔNG NGH Ệ VŨ TRỤ ĐẾN NĂM 2030, 04/02/2021 Khác
[3] Thủ tướng Chính phủ, CHIẾN LƯỢC PHÁT TRIỂN VIỄN THÁM QU ỐC GIA ĐẾN NĂM 2030, TẦM NHÌN ĐẾN NĂM 2040, 01/02/2019 Khác
[4] TS. Đàm Xuân Hoàn, Giáo trình trắc địa ảnh viễn thám, Trường Đại h ọ c Nông nghi ệ p Hà N ộ i, 2008 Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.2 Phương pháp ghi nhận ảnh viễn thám vệ tinh - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 1.2 Phương pháp ghi nhận ảnh viễn thám vệ tinh (Trang 17)
Hình 1.4 chỉ ra lần lượt các cấp độ của phân vùng ảnh từ phân biệt - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 1.4 chỉ ra lần lượt các cấp độ của phân vùng ảnh từ phân biệt (Trang 21)
Hình 1.5  Ứng dụng phân vùng ảnh với ảnh vệ tinh - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 1.5 Ứng dụng phân vùng ảnh với ảnh vệ tinh (Trang 22)
Hình 2.6 Tính toán l ớp nơ ron tiếp theo bằng ma trận 5x5 - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 2.6 Tính toán l ớp nơ ron tiếp theo bằng ma trận 5x5 (Trang 27)
Hình 2.7 T ạo nơ rơn đầu tiên - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 2.7 T ạo nơ rơn đầu tiên (Trang 28)
Hình 2.8 D ịch chuyển ma trận lọc tạo ra các nơ ron tiếp theo - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 2.8 D ịch chuyển ma trận lọc tạo ra các nơ ron tiếp theo (Trang 28)
Hình 2.9 Th ủ tục max pooling trên lớp ẩn - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 2.9 Th ủ tục max pooling trên lớp ẩn (Trang 29)
Hình 2.10 Mô hình m ạng nơ ron tích chập hoàn chỉnh - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 2.10 Mô hình m ạng nơ ron tích chập hoàn chỉnh (Trang 30)
Hình 2.11 Ki ến trúc R-CNN của R.Girshick [5] - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 2.11 Ki ến trúc R-CNN của R.Girshick [5] (Trang 33)
Hình 2.12 Các thu ật toán trong họ thuật toán R-CNN - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 2.12 Các thu ật toán trong họ thuật toán R-CNN (Trang 34)
Hình 2.13 Ki ến trúc mạng Fast R-CNN [6] - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 2.13 Ki ến trúc mạng Fast R-CNN [6] (Trang 34)
Hình 2.14 Sơ đồ hoạt động của Faster R-CNN - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 2.14 Sơ đồ hoạt động của Faster R-CNN (Trang 35)
Hình 2.16 Chu trình c ủa thuật toán Mask R-CNN - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 2.16 Chu trình c ủa thuật toán Mask R-CNN (Trang 37)
Hình 2.17 Kiến trúc hoàn chỉnh của thuật toán Mask R-CNN - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 2.17 Kiến trúc hoàn chỉnh của thuật toán Mask R-CNN (Trang 38)
Hình 2.19 Ki ến trúc mạng VGG-19, 34-layer tuyến tính và ResNet-34 - Nghiên cứu, tích hợp một số công cụ xử lý ảnh phục vụ công tác xây dựng bản đồ số
Hình 2.19 Ki ến trúc mạng VGG-19, 34-layer tuyến tính và ResNet-34 (Trang 41)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm