Slide thuyết trình về bài toán phân vùng ngữ nghĩa trên ảnh_ sematic segmentation. Slide trình bày về một số phương pháp tiên tiến cho bài toàn trên và phương pháp thử nghiệm _ phương pháp Deeplab V3 plus trên tập ảnh mẫu.
Trang 1ĐỒ ÁN TỐT NGHIỆP
Tìm hiểu và thử nghiệm phương pháp tiên tiến cho bài toán phân vùng ngữ nghĩa
Sinh viên thực hiện: Nguyễn Thị Phương Hằng
Giảng viên hướng dẫn: TS.Nguyễn Thị Oanh
Trang 2Tổng quan về bài toán phân vùng ngữ nghĩa
Một số phương pháp cho bài toán Cài đặt thử nghiệm, kết quả và đánh giá Kết luận và hướng phát triển
Trang 3Giới thiệu bài toán phân vùng ngữ nghĩa
Liên kết từng điểm ảnh với nhãn lớp tương ứng mà
nó thuộc về, không quan tâm tới đối tượng
Phân biệt bài toán phân vùng ngữ nghĩa với một số
bài toán xử lý ảnh
Trang 4Ứng dụng bài toán trong thực tế
Trong thị giác robot Hỗ trợ giải quyết vấn đề nóng trên
thế giới như đô thị hóa, nước biển dâng, cháy rừng,
4
Trang 5Mục tiêu đồ án tốt nghiệp
Tìm hiểu về các phương pháp tiếp cận bài toán sử
dụng mạng noron tích chập
Lựa chọn phương pháp cài đặt
Tiến hành cài đặt, thử nghiệm và đánh giá
Trang 6Tổng quan về bài toán phân vùng ngữ
nghĩa
Một số phương pháp cho bài toán
Cài đặt thử nghiệm, kết quả và đánh giá Kết luận và hướng phát triển
Trang 7Phương pháp dựa trên mạng noron tích chập
• Mô hình chung: Encoder- decoder
• Encoder: Mạng noron tích chập (VGG, Googlenet,
Resnet, Xception,…) trích xuất đặc trưng
• Decoder: Thực hiện upsample nhằm khôi phục kích
thước ảnh, một số phương pháp như unpooling,
deconvolution, nội suy song tuyến tính,…
Trang 8Một số phương pháp
upsampling
8
Nội suy song tuyến tính
Tính nội suy tại chiều x:
Trang 9Một số phương pháp cho bài toán
Trang 10Một số phương pháp cho bài toán
10
PSPnet
- Nội suy song tuyến tính
- Modun pyramid pooling
Trang 11Một số phương pháp cho bài toán
• Deeplab V3: Sử dụng ASPP với các rate khác nhau và nội suy
tuyến tính để upsample
• Deeplab V3 plus: Dựa trên Deeplab V3, decoder kết hợp kết quả
bản đồ tính năng cấp thấp và kết quả encoder, qua một số conv để
kết quả tốt hơn
Trang 12Kết quả trên tập pascal voc 2012
Trang 13Tổng quan về bài toán phân vùng ngữ nghĩa
Một số phương pháp cho bài toán
Cài đặt thử nghiệm, kết quả và đánh giá
Kết luận và hướng phát triển
Trang 14Mô hình cài đặt
Encoder – Deeplab v3 plus
• Dựa trên DeeplabV3, sử dụng Aligned Xception
Trang 15Mô hình cài đặt
Decoder - Deeplab v3 plus
conv 1x1 làm giảm số kênh của bản đồ tính năng cấp
thấp (channels=48) từ modun encoder
2 conv 3x3 được dùng để có kết quả phân đoạn sắc nét
hơn
Sử dụng nội suy tuyến tính để upsampling
15
Trang 16Môi trường thử nghiệm
GPU KDE lab: GeForce GTX (11177MiB), NVIDIA-SMI 390.48
Google Colab: GPU Tesla K80 (11.17GiB), giới hạn 12 h
16
Trang 17Dữ liệu thử nghiệm
• Tập dữ liệu ADE20K gồm 150 lớp và 1 lớp nền:
Training (20210 ảnh)
Validation (2000 ảnh) wallceiling building skyroad bed floorwindow treegrass
ground door table mountain plant chair car water painting sofa
Trang 18Quá trình huấn luyện
• Chuyển ảnh gốc sang Tfrecord được hỗ trợ bởi
Tensorflow để tăng tốc trong quá trình huấn luyện
18
Trang 19Kết quả thu được
ADE20K: mIoU 29,03%
Trang 20Kết quả thu được
20
Trang 21Kết quả thu được
Trang 22Đánh giá
Kết quả đạt được còn tương đối thấp, đã thực hiện
tăng số lần huấn luyện song do điều kiện phần cứng
còn hạn chế
Một số nguyên nhân có sự sai khác:
Đối tượng trong ảnh kiểm tra khác với đối tượng, hoặc
không có trong ảnh huấn luyện
Đối tượng mờ, không rõ ràng
Thời gian, và số lần huấn luyện mô hình chưa đủ để
đạt kết quả tốt
22
Trang 23Tổng quan về bài toán phân vùng ngữ
Trang 24Kết luận và hướng phát triển
Ưu điểm:
• Tìm hiểu về mạng noron tích chập, tìm hiểu và đánh giá
một số phương pháp cho bài toán phân vùng ngữ nghĩa
• Tiến hành cài đặt và đạt kết quả trên tập dữ liệu ADE20K
Nhược điểm: Kết quả cần cải thiện thêm
Khó khăn: Điều kiện tài nguyên phần cứng còn hạn chế
Hướng phát triển:
• Hướng tới xây dựng ứng dụng phân vùng các món ăn, đã thực hiện trích ra 17 class trên tập food101, chuyển đổi dữ liệu, và tiến hành huấn luyện
• Nghiên cứu cải thiện hướng tới mô hình hiệu quả hơn
24
Trang 25Tài liệu tham khảo
(1) Fully Convolutional Networks for Semantic Segmentation, Jonathan Long, Evan Shelhamer, Trevor Darrell.
(2) SegNet: A Deep Convolutional Encoder-Decoder Architecture for Image Segmentation, Vijay Badrinarayanan, Alex Kendall, Roberto Cipolla.
(3) Pyramid Scene Parsing Network, Hengshuang Zhao, Jianping Shi, Xiaojuan
Qi, Xiaogang Wang, Jiaya Jia, 2017.
(4) Semantic Image Segmentation with Deep Convolutional Nets and Fully
Connected CRFs, Liang-Chieh Chen, George Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L Yuille.
DeepLab: Semantic Image Segmentation with Deep Convolutional Nets, Atrous Convolution, and Fully Connected CRFs, Liang-Chieh Chen, George
Papandreou, Iasonas Kokkinos, Kevin Murphy, Alan L Yuille.
(5) Rethinking Atrous Convolution for Semantic Image Segmentation, Chieh Chen, George Papandreou, Florian Schroff, Hartwig Adam,2017.
Liang-Encoder-Decoder with Atrous Separable Convolution for Semantic Image
Segmentation, Liang-Chieh Chen, Yukun Zhu, George Papandreou, Florian
Schroff, Hartwig Adam,2018.
25
Trang 26Thank you for
listening
Cảm ơn thầy cô và các bạn
đã lắng nghe!
26