1. Trang chủ
  2. » Luận Văn - Báo Cáo

Slide thuyết trình: Đồ án tốt nghiệp: Bài toán phân vùng ngữ nghĩa trên ảnh_semantic segmentation

26 381 9

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 5,95 MB
File đính kèm Slide_semantic_segmentation.rar (6 MB)

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Slide thuyết trình về bài toán phân vùng ngữ nghĩa trên ảnh_ sematic segmentation. Slide trình bày về một số phương pháp tiên tiến cho bài toàn trên và phương pháp thử nghiệm _ phương pháp Deeplab V3 plus trên tập ảnh mẫu.

Trang 1

ĐỒ ÁN TỐT NGHIỆP

Tìm hiểu và thử nghiệm phương pháp tiên tiến cho bài toán phân vùng ngữ nghĩa

Sinh viên thực hiện: Nguyễn Thị Phương Hằng

Giảng viên hướng dẫn: TS.Nguyễn Thị Oanh

Trang 2

Tổng quan về bài toán phân vùng ngữ nghĩa

Một số phương pháp cho bài toán Cài đặt thử nghiệm, kết quả và đánh giá Kết luận và hướng phát triển

Trang 3

Giới thiệu bài toán phân vùng ngữ nghĩa

Liên kết từng điểm ảnh với nhãn lớp tương ứng mà

nó thuộc về, không quan tâm tới đối tượng

Phân biệt bài toán phân vùng ngữ nghĩa với một số

bài toán xử lý ảnh

Trang 4

Ứng dụng bài toán trong thực tế

Trong thị giác robot Hỗ trợ giải quyết vấn đề nóng trên

thế giới như đô thị hóa, nước biển dâng, cháy rừng,

4

Trang 5

Mục tiêu đồ án tốt nghiệp

 Tìm hiểu về các phương pháp tiếp cận bài toán sử

dụng mạng noron tích chập

 Lựa chọn phương pháp cài đặt

 Tiến hành cài đặt, thử nghiệm và đánh giá

Trang 6

Tổng quan về bài toán phân vùng ngữ

nghĩa

Một số phương pháp cho bài toán

Cài đặt thử nghiệm, kết quả và đánh giá Kết luận và hướng phát triển

Trang 7

Phương pháp dựa trên mạng noron tích chập

• Mô hình chung: Encoder- decoder

Encoder: Mạng noron tích chập (VGG, Googlenet,

Resnet, Xception,…) trích xuất đặc trưng

Decoder: Thực hiện upsample nhằm khôi phục kích

thước ảnh, một số phương pháp như unpooling,

deconvolution, nội suy song tuyến tính,…

Trang 8

Một số phương pháp

upsampling

8

Nội suy song tuyến tính

Tính nội suy tại chiều x:

Trang 9

Một số phương pháp cho bài toán

Trang 10

Một số phương pháp cho bài toán

10

PSPnet

- Nội suy song tuyến tính

- Modun pyramid pooling

Trang 11

Một số phương pháp cho bài toán

• Deeplab V3: Sử dụng ASPP với các rate khác nhau và nội suy

tuyến tính để upsample

• Deeplab V3 plus: Dựa trên Deeplab V3, decoder kết hợp kết quả

bản đồ tính năng cấp thấp và kết quả encoder, qua một số conv để

kết quả tốt hơn

Trang 12

Kết quả trên tập pascal voc 2012

Trang 13

Tổng quan về bài toán phân vùng ngữ nghĩa

Một số phương pháp cho bài toán

Cài đặt thử nghiệm, kết quả và đánh giá

Kết luận và hướng phát triển

Trang 14

Mô hình cài đặt

Encoder – Deeplab v3 plus

• Dựa trên DeeplabV3, sử dụng Aligned Xception

Trang 15

Mô hình cài đặt

Decoder - Deeplab v3 plus

conv 1x1 làm giảm số kênh của bản đồ tính năng cấp

thấp (channels=48) từ modun encoder

 2 conv 3x3 được dùng để có kết quả phân đoạn sắc nét

hơn

 Sử dụng nội suy tuyến tính để upsampling

15

Trang 16

Môi trường thử nghiệm

 GPU KDE lab: GeForce GTX (11177MiB), NVIDIA-SMI 390.48

 Google Colab: GPU Tesla K80 (11.17GiB), giới hạn 12 h

16

Trang 17

Dữ liệu thử nghiệm

• Tập dữ liệu ADE20K gồm 150 lớp và 1 lớp nền:

 Training (20210 ảnh)

 Validation (2000 ảnh) wallceiling building skyroad bed floorwindow treegrass

ground door table mountain plant chair car water painting sofa

Trang 18

Quá trình huấn luyện

• Chuyển ảnh gốc sang Tfrecord được hỗ trợ bởi

Tensorflow để tăng tốc trong quá trình huấn luyện

18

Trang 19

Kết quả thu được

ADE20K: mIoU 29,03%

Trang 20

Kết quả thu được

20

Trang 21

Kết quả thu được

Trang 22

Đánh giá

Kết quả đạt được còn tương đối thấp, đã thực hiện

tăng số lần huấn luyện song do điều kiện phần cứng

còn hạn chế

Một số nguyên nhân có sự sai khác:

 Đối tượng trong ảnh kiểm tra khác với đối tượng, hoặc

không có trong ảnh huấn luyện

 Đối tượng mờ, không rõ ràng

 Thời gian, và số lần huấn luyện mô hình chưa đủ để

đạt kết quả tốt

22

Trang 23

Tổng quan về bài toán phân vùng ngữ

Trang 24

Kết luận và hướng phát triển

Ưu điểm:

• Tìm hiểu về mạng noron tích chập, tìm hiểu và đánh giá

một số phương pháp cho bài toán phân vùng ngữ nghĩa

• Tiến hành cài đặt và đạt kết quả trên tập dữ liệu ADE20K

Nhược điểm: Kết quả cần cải thiện thêm

Khó khăn: Điều kiện tài nguyên phần cứng còn hạn chế

Hướng phát triển:

• Hướng tới xây dựng ứng dụng phân vùng các món ăn, đã thực hiện trích ra 17 class trên tập food101, chuyển đổi dữ liệu, và tiến hành huấn luyện

• Nghiên cứu cải thiện hướng tới mô hình hiệu quả hơn

24

Trang 25

Tài liệu tham khảo

(1) Fully Convolutional Networks for Semantic Segmentation, Jonathan Long, Evan Shelhamer, Trevor Darrell.

(2) SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation, Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla.

(3) Pyramid Scene Parsing Network, Hengshuang Zhao, Jianping Shi, Xiaojuan

Qi, Xiaogang Wang, Jiaya Jia, 2017.

(4) Semantic Image Segmentation with Deep Convolutional Nets and Fully

Connected CRFs, Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L Yuille.

DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs, Liang-Chieh Chen, George

Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L Yuille.

(5) Rethinking Atrous Convolution for Semantic Image Segmentation, Chieh Chen, George Papandreou, Florian Schroff, Hartwig Adam,2017.

Liang-Encoder-Decoder with Atrous Separable Convolution for Semantic Image

Segmentation, Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian

Schroff, Hartwig Adam,2018.

25

Trang 26

Thank you for

listening

Cảm ơn thầy cô và các bạn

đã lắng nghe!

26

Ngày đăng: 03/07/2020, 22:39

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w