1. Trang chủ
  2. » Luận Văn - Báo Cáo

FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING

25 4 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Fast and Lightweight Network for Image Inpainting
Tác giả Yong-Goo Shin, Min-Cheol Sagong, Yoon-Jae Yeo, SeungWook Kim, Sung-Jea Ko
Người hướng dẫn TS. Trần Thái Sơn
Trường học Trường Đại Học Khoa Học Tự Nhiên
Chuyên ngành Khoa học máy tính
Thể loại Báo cáo môn học
Năm xuất bản 2021
Thành phố TP.HCM
Định dạng
Số trang 25
Dung lượng 1,64 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Image inpainting là một quá trình hồi phục trong đó các phần bị hư hỏng hoặc thiếu của một hình ảnh được điền vào để tạo ra một hình ảnh hoàn chỉnh. Image inpainting có thể được chia chủ yếu thành hai nhóm. ▪ Nhóm đầu tiên đại diện cho phương pháp truyền thống dựa trên khuếch tán hoặc dựa trên bản vá (patch – base method) với các feature cấp thấp. Phương pháp này chỉ sử dụng low level features, do đó không mang lại hiệu quả cao. ▪ Nhóm thứ hai cố gắng giải quyết inpainting bằng cách tiếp cận dựa trên learningbased.

Trang 1

ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN

BÁO CÁO MÔN HỌC MÁY HỌC

Đề tài :

PEPSI++: FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING

Dựa trên bài báo :

PEPSI++: Fast and Lightweight Network for Image Inpainting (Yong-Goo Shin, Min-Cheol Sagong, Yoon-Jae Yeo, Seung- Wook Kim, and Sung-Jea Ko)

GIẢNG VIÊN HƯỚNG DẪN : TS Trần Thái Sơn

HỌC VIÊN THỰC HIỆN :

Phan Minh Toàn – 20C11057

Võ Thanh Trúc – 20C11058 Nguyễn Thủy Tiên – 20C12032

Trang 2

Mục Lục

Mục Lục 1

Bảng tóm tắt 1

Danh sách bảng 2

Danh sách hình ảnh minh họa 2

1 Giới thiệu Image Inpainting 3

2 Nghiên cứu liên quan 4

3 Mở đầu 5

3.1 Generative adversarial networks 5

3.2 Generative Image Inpainting Network 6

3.2.1 Encoder – Decoder Network 6

3.2.2 Encoder – Decoder Network 7

3.3 Contextual Attention Module (CAM) 7

4 Phương pháp đề xuất 9

4.1 Kiến trúc của Parallel Extended-decoder Path for Semantic Inpainting Network (PEPSI) 9

4.2 Kiến trúc của Diet-PEPSI 10

4.3 Region Ensemble Discriminator (RED) 11

4.4 Chỉnh sửa từ CAM 12

4.5 Hàm lỗi 13

5 Thực nghiệm 14

5.1 Chi tiết triển khai 14

5.1.1 Free-Form Mask 14

5.1.2 Quá trình huấn luyện 15

5.2 Đánh giá hiệu suất 15

5.2.1 So sánh định tính 15

5.2.2 So sánh định lượng 18

6 Kết luận 20

7 Demo code 21

References 22

Trang 3

Bảng phân công nhiệm vụ

GCA : Generator with Contextual Attention

PEPSI : Parallel Extended-decoder Path for Semantic Inpainting

Network

GL : Globally and Locally completion network

SSIM : Structural Similarity Index

Trang 4

Danh sách bảng

Bảng 1 Chi tiết kiến trúc của RED 12

Bảng 2 Kết quả của độ đo PSNR (vùng trống, toàn ảnh) và SSIM trên cả 2 loại mặt nạ, thời gian tính toán, số lượng tham số của các phương pháp trên bộ dữ liệu CelebA-HQ 19

Bảng 3 Kết quả thực nghiệm giảm số lượng tham số bằng kỹ thuật tích chập nhóm 20

Bảng 4 Kết quả của độ đo PSNR (vùng trống, toàn ảnh) và SSIM trên cả 2 loại mặt nạ của các phương pháp trên bộ dữ liệu Place2 20

Danh sách hình ảnh minh họa Hình 1-1 Ví dụ về training deep convolutional neural networks để dự đoán pixel cho các vùng ảnh bị thiếu sót 3

Hình 2-1 Sơ đồ các công trình nghiên cứu liên quan 4

Hình 3-1 Hình minh họa cơ chế hoạt động của Generative adversarial networks (GAN) 5

Hình 3-2 Hàm lost của Discriminator và Generator 6

Hình 3-3 Encoder – Decoder Network 6

HìnhHình 3-4 Coarse-to-fine Network (two-stage network) 7

Hình 3-5 Coarse-to-fine Network 7

Hình 3-6 Hình minh họa cho việc thay thế Refinement network bằng Contextual attention module (CAM) 8

Hình 3-7 Hình minh họa của contextual attention layer 8

Hình 4-1 Kiến trúc của PEPSI 9

Hình 4-2 Kiến trúc của DietPEPSI 10

Hình 4-3 Rate-adaptive scaling and shifting operations 10

Hình 4-4.Minh họa kỹ thuật để tổng hợp thông tin global contextual trong khi giảm số lượng tham số 11

Hình 4-5 Tổng quan về RED 12

Hình 5-1 Ví dụ cho mặt nạ trên ảnh (a) Ảnh gốc (b) Ảnh với mặt nạ thông thường (c) Ảnh với mặt nạ dạng tự do 14

Hình 5-2 Kết quả so sánh trên mặt nạ vuông với bộ dữ liệu CelebA-HQ (a) Ảnh gốc (b) Ảnh cần hoàn thiện (c) Kết quả của CE [4] (d) Kết quả của GL [5] (e) Kết quả của GatedConv [6] (f) Kết quả của PEPSI [7] (g) Kết quả của Diet-PEPSI 16

Hình 5-3 Kết quả so sánh trên mặt nạ dạng tự do với bộ dữ liệu CelebA-HQ (a) Ảnh gốc (b) Ảnh cần hoàn thiện (c) Kết quả của CE [4] (d) Kết quả của GL [5] (e) Kết quả của GatedConv [6] (f) Kết quả của PEPSI [7] (g) Kết quả của Diet-PEPSI 16

Hình 5-4 Kết quả so sánh với bộ dữ liệu Place2 (a) Ảnh gốc (b) Ảnh cần hoàn thiện (c) Kết quả của PatchMatch [13] (d) Kết quả của GatedConv [6] (e) Kết quả của PEPSI [7] (f) Kết quả của Diet-PEPSI 18

Trang 5

1 Giới thiệu Image Inpainting

Image inpainting là một quá trình hồi phục trong đó các phần bị hư hỏng hoặc thiếu của một hình ảnh được điền vào để tạo ra một hình ảnh hoàn chỉnh Image inpainting có thể được chia chủ yếu thành hai nhóm

▪ Nhóm đầu tiên đại diện cho phương pháp truyền thống dựa trên khuếch tán hoặc dựa trên bản vá (patch – base method) với các feature cấp thấp Phương pháp này chỉ sử dụng low level features,

do đó không mang lại hiệu quả cao

▪ Nhóm thứ hai cố gắng giải quyết inpainting bằng cách tiếp cận dựa trên learning-based

Ví dụ: Training deep convolutional neural networks để dự đoán pixel cho các vùng ảnh bị thiếu sót tham khảo Hình 1-1

Hình 1-1 Ví dụ về training deep convolutional neural networks để dự đoán pixel cho các vùng ảnh bị thiếu sót

Trang 6

2 Nghiên cứu liên quan

Năm 2014, Generative Adversarial Network (GAN) ra đời, tạo nên một

sự thay đổi lớn của Neural Network GAN là một phương pháp học và tạo ra

dữ liệu dựa trên phân bố có sẵn của dữ liệu gốc Từ khi GAN ra đời, rất nhiều paper sử dụng đến GAN cũng xuất hiện

Từ năm 2014 trở đi, GAN cũng được áp dụng vào các bài toán Image Inpainting Song song đó, nhiều mô hình đã được đưa ra để giải quyết bài toán Image Inpainting Vào năm 2018, một cải tiến của GAN cho bài toán Image Inpainting là Contextual Attention Module (CAM) ra đời CAM đã cải tiến được một số vấn đề cho bài toán Image Inpainting nhưng vẫn còn một số hạn chế về mặt hiệu suất và resource computing Do đó vào năm 2019, Parallel Extended - decoder Path for Semantic Inpainting Network (PEPSI) ra đời, cải thiện đáng

kể về mặt hiệu suất, tuy nhiên số lượng tham số của mạng Neural Network vẫn khá cao Vì lý do này, năm 2020, Diet-PEPSI (PEPSI++) ra đời, PEPSI++ vẫn giữ nguyên hiệu suất nhừ PEPSI nhưng giảm số lượng tham số của mạng Neural Network đáng kể

Hình 2-1 Sơ đồ các công trình nghiên cứu liên quan

Trang 7

3 Mở đầu

3.1 Generative adversarial networks

GAN gồm 2 network chính là Generator và Discriminator Bên dưới là giải thích các ký hiệu được mô tả ở Hình 3-1 trên:

▪ z: feature đầu vào của Generator

▪ x: dữ liệu thật từ bộ dataset (real sample)

▪ G(z): ảnh được sinh ta từ Generator (fake sample)

▪ D(x): dự đoán của Discriminator cho real sample (P(y|real sample))

và Discriminator sẽ không thực hiện song song, khi Generator hoạt động thì Discriminator sẽ đóng băng và ngược lại Cũng vì cơ chế hoạt động đối đầu nhau của Generator và Discriminator nên có tên gọi là mạng chống đối (adversarial networks)

Trang 8

Cơ chế hoạt động của Discriminator là cố gắng xác định real sample (x)

từ fake sample được tạo ra bới Generator (G(z)) Do đó, Discriminator muốn tối

đa hóa D(x) và tối thiểu hóa D(G(z)) Ngược lại, Generator lại muốn tối đa hóa D(G(z)) để Discriminator không phân biệt được thật giả Do đó, hàm lost của hai network Discriminator và Generator được thể hiện như Hình 3-2

Từ hai hàm lost của hai network Discriminator và Generator, ta có hàm lost tổng hợp như sau:

min

𝜃𝑔 max

𝜃𝑑 [𝐸𝑥~𝑝𝑑𝑎𝑡𝑎𝑙𝑜𝑔𝐷𝜃𝑑(𝑥) + 𝐸𝑧~𝑝(𝑧)𝑙𝑜𝑔 (1 − 𝐷𝜃𝑑(𝐺𝜃𝑔(𝑧)))]

3.2 Generative Image Inpainting Network

Sau khi ra đời, GAN đã được áp dụng rộng rãi vào các bài toán Image Inpainting Trong đó, Encoder – Decoder Network và Coarse-to-fine Network (two-stage network) là hai mạng phổ biến áp dụng GAN

3.2.1 Encoder – Decoder Network

Encoder – Decoder Network extract features và thông qua Generator cho ra Inpainting result Từ Inpainting result sẽ đi qua 2 Discriminator là: Global Discriminator và Local Discriminator Local Discriminator sẽ tập trung phân biệt thật giả cho vùng được sinh ra và Global Discriminator sẽ nhìn vào toàn bộ bức ảnh (tham khảo Hình 3-3)

Hình 3-2 Hàm lost của Discriminator và Generator

Hình 3-3 Encoder – Decoder Network

Trang 9

3.2.2 Encoder – Decoder Network

Khác với Encoder – Decoder Network, Coarse-to-fine Network (tham khảo HìnhHình 3-4) có hai gian đoạn, mỗi giai đoạn sử dụng một mạng Generator khác nhau Giai đoạn thứ nhất, Input và mask đi qua mạng Generator thứ nhất để extract ra Corase result (kết quả thô) Ở giai đoạn này hàm lost là L1 Ở giai đoạn hai, Corase result tiếp tục đi qua mạng Generator thứ hai để cho

ra Inpainting result Sau đó Discriminator thực hiện để phân biệt thật giả Việc chia ra làm hai giai đoạn Corase result và Inpainting result giúp có kết quả tốt hơn so với Encoder – Decoder Network

3.3 Contextual Attention Module (CAM)

Vì Coarse-to-fine Network không đạt hiệu quả cho việc lấy các feature từ các vị trí xa trong ảnh nên Contextual attention layer ra đời để khắc phục vấn

đề này

Giai đoạn đầu Coarse Network vẫn được giữ nguyên, ở giai đoạn hai Refinement network được thay thế bằng Contextual attention module (CAM) Contextual attention layer học và sao chép những feature thông tin từ background patches và dùng để sinh ra phần bị thiếu

HìnhHình 3-4 Coarse-to-fine Network (two-stage network)

Hình 3-5 Coarse-to-fine Network

Trang 10

Dựa trên Coarse result từ mạng encoder-decoder ở giai đoạn đầu, ở giai đoạn sau, hai mạng decoders song song được thực hiện và sau đó hợp nhất lại thành một single decoder để có được Inpainting result Để trực quan hóa attention map, màu sắc cho biết vị trí tương đối của background patch cho mỗi pixel trong foreground Ví dụ: màu trắng (trung tâm của bản đồ mã hóa màu)

có nghĩa là pixel tự tập trung vào chính nó, màu hồng ở dưới cùng bên trái, màu xanh lá cây có nghĩa là ở trên cùng bên phải

Input feature được chia làm hai phần là Foreground và Background Sau

đó sử dụng cosine similarity để tính toán matching score của foreground và background Tiếp theo làm áp dụng softmax để lấy giá trị lớn nhất được tính từ bước trên làm attention score cho mỗi pixel Cuối cùng hồi phục lại foreground với background bằng cách thực hiện Deconvolution dựa trên attention score

Hình 3-6 Hình minh họa cho việc thay thế Refinement network bằng

Contextual attention module (CAM)

Hình 3-7 Hình minh họa của contextual attention layer

Trang 11

CAM đạt hiệu quả cho việc lấy các feature từ các vị trí xa trong ảnh, tuy nhiên, phương pháp này sử dụng tài nguyên tính toán đáng kể do sử dụng kiến trúc two-stage network Do đó Parallel Extended - decoder Path for Semantic Inpainting Network (PEPSI) ra đời để cải thiện vấn đề này

4 Phương pháp đề xuất

4.1 Kiến trúc của Parallel Extended-decoder Path for Semantic Inpainting Network (PEPSI)

Ở PEPSI, two-stage network được thay thế bằng single-stage decoder network PEPSI bao gồm một single encoding network và parallel decoding networks bao gồm coarse and inpainting paths PEPSI trích xuất các feature thông qua single encoding network, tiếp theo parallel decoding networks được tiến hành

encoder-Ở giai đoạn theo parallel decoding networks:

▪ Coarse path tạo ra kết quả thô từ encoded features

▪ Song song bên cạnh đó, Inpainting path cũng lấy encoded features làm input và hồi phục feature map bằng cách sử dụng CAM

▪ Sau đó, feature map được hồi phục sẽ decoded để tạo ra kết quả higher-quality inpainting

▪ Bằng cách chia sẻ trọng số giữa 2 path (Coarse path và Inpainting path) giúp cho việc điều chỉnh trọng số trong inpainting path của Decoding network

▪ Coarse path sử dụng L1 loss và Inpainting path sử dụng cả L1 loss

và GAN loss

Nhờ thay thế two-stage network bằng single-stage encoder-decoder network, PEPSI mạng lại hiệu suất cao hơn so với các phương pháp thông thường Tuy nhiên, nó vẫn cần bộ nhớ đáng kể do sử dụng một loạt dilated convolutional layers trong encoding network, chiếm gần 67% tham số mạng Cách trực quan để giảm tiêu thụ bộ nhớ là cắt bớt channels trong dilated convolutional layers, tuy nhiên phương pháp này thường mang lại kết quả kém

Hình 4-1 Kiến trúc của PEPSI

Trang 12

hơn Để giải quyết vấn đề này Diet-PEPSI (PEPSI++) đã ra đời, làm giảm đáng

kể số tham số mạng trong khi vẫn giữ nguyên hiệu suất

4.2 Kiến trúc của Diet-PEPSI

Diet-PEPSI (PEPSI++) là cải tiến của PEPSI nhằm giảm số lượng parameters mà vẫn giữ nguyên hiệu suất

Để giảm số lượng parameters mà vẫn giữ nguyên hiệu suất, PEPSI++ đã thay thế multiple dilated convolutional layers với Diet-PEPSI units (DPUs) Trong các DPUs, rate-adaptive convolution layers chia sẻ trọng số của chúng trong khi các 1 x 1 standard convolutional layers không chia sẻ trọng số của chúng

Hình 4-2 Kiến trúc của DietPEPSI

Hình 4-3 Rate-adaptive scaling and shifting operations

Trang 13

Rate-adaptive scaling and shifting operations 𝛽𝑑 and 𝛾𝑑 có giá trị khác nhau phụ thuộc vào tỉ lệ đã cho Tensor broadcasting được bao gồm trong các hoạt động scaling and shifting

Sử dụng Convolution với kernel size 1x1: giúp giảm số lượng parameter

mà vẫn giữ feature của feature map trước đó

4.3 Region Ensemble Discriminator (RED)

Mạng GCA [1] sử dụng global và local discriminators để xác định xem một hình ảnh đã được hoàn thành một cách nhất quán hay chưa Tuy nhiên, local

Hình 4-4.Minh họa kỹ thuật để tổng hợp thông tin global contextual trong khi giảm số lượng tham số

Trang 14

discriminator chỉ phân biệt những vùng trống có hình dạng là hình vuông với kích thước cố định, và rất khó khăn với những hình dạng tùy ý bất kỳ trong thực

tế Để giải quyết vấn đề này, RED đã ra đời lấy cảm hứng từ mạng region ensemble [2] phát hiện vùng thật giả với mọi hình dáng và bất kỳ đâu trong ảnh bằng cách xử lý riêng lẻ nhiều vùng đặc trưng

Như được mô tả trong Hình 4-5, RED phân chia đặc trưng của lớp cuối cùng thành pixel-wise block và phân biệt từng đặc trưng là thật hay giả bởi các lớp fully-connected Trái ngược với local discriminator, RED có thể xử lý các vùng trống khác nhau có thể xuất hiện ở bất kỳ đâu trong hình ảnh ở bất kỳ kích thước nào Kiến trúc chi tiết của RED được liệt kê trong Bảng 1

4.4 Chỉnh sửa từ CAM

CAM [1] sử dụng cosine để đo similarity scores giữa các đặc trưng của foreground và background Tuy nhiên, trong cosin, vì độ lớn của foreground và background bị bỏ qua, cách tính này có thể trả về kết quả bị biến dạng Để giảm bớt vấn đề này, CAM được sửa đổi sử dụng khoảng cách Euclidean để đo similarity scores (𝑑(𝑥,𝑦),(𝑥′ ,𝑦′)) mà không cần quy trình chuẩn hóa Vì khoảng

Hình 4-5 Tổng quan về RED

Bảng 1 Chi tiết kiến trúc của RED

Trang 15

cách Euclidean xem xét đồng thời góc giữa hai vectơ và độ lớn, nên nó thích hợp hơn để tái tạo lại mảng đặc trưng Tuy nhiên, vì phạm vi của khoảng cách Euclidean là [0, ∞), nên khó có thể áp dụng trực tiếp cho softmax Để xử lý với vấn đề này, sẽ thực hiện rút ngắn khoảng cách similarity scores như sau:

𝑑̃(𝑥,𝑦),(𝑥′ ,𝑦′) = 𝑡𝑎𝑛ℎ (− (𝑑(𝑥,𝑦),(𝑥

′ ,𝑦′)− 𝑚 (𝑑(𝑥,𝑦),(𝑥′ ,𝑦′))𝜎(𝑑(𝑥,𝑦),(𝑥′ ,𝑦 ′ )) )), với 𝑑(𝑥,𝑦),(𝑥′ ,𝑦′) = ‖𝑓𝑥,𝑦− 𝑏𝑥′ ,𝑦′‖,𝑓𝑥,𝑦 là mảng foreground và 𝑏𝑥′ ,𝑦′ là mảng background Vì 𝑑̃(𝑥,𝑦),(𝑥′ ,𝑦′) có các giá trị giới hạn trong [−1,1], nó hoạt động giống như một ngưỡng để chọn ra distance scores nhỏ hơn giá trị trung bình Nói cách khác, 𝑑̃(𝑥,𝑦),(𝑥′ ,𝑦′) hỗ trợ chia các background thành hai nhóm có thể

có hoặc không liên quan đến foreground

trong đó 𝑃𝑋𝑖 và 𝑃𝑌 lần lượt biểu thị sự phân bố dữ liệu của các kết quả inpainting

và hình ảnh đầu vào Áp dụng spectral normalization [32] cho tất cả các lớp trong RED để ổn định hơn trong việc huấn luyện của GAN Vì mục tiêu của inpainting path để khôi phục phần bị thiếu của hình ảnh gốc một cách chính xác, nên tác giả thêm hàm 𝐿1 vào hàm lỗi của GAN:

𝐿𝐺 =𝜆𝑖

𝑁∑‖𝑋𝑖(𝑛) − 𝑌(𝑛)‖

1 𝑁

𝑛=1

− 𝜆𝑎𝑑𝑣𝐸𝑥~𝑃

𝑋𝑖[𝐷(𝑥)], trong đó 𝑋𝑖(𝑛) và 𝑌(𝑛) đại diện cho cặp hình ảnh thứ n của hình ảnh được tạo ra thông qua inpainting path và hình ảnh gốc tương ứng của nó trong một mini-batch, tương ứng N là số cặp hình ảnh trong một mini-batch, và 𝜆𝑖 và 𝜆𝑎𝑑𝑣 là các hyper-parameter kiểm soát tính quan trọng của mỗi hàm loss

Mặt khác, coarse path chỉ cần tối ưu hóa bằng cách sử dụng hàm 𝐿1 như sau:

𝐿𝐶 = 1

𝑁∑‖𝑋𝑐(𝑛)− 𝑌(𝑛)‖

1 𝑁

Ngày đăng: 21/06/2023, 23:57

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] J. Yu, Z. Lin, J. Yang, X. Shen, X. Lu, and T. S. Huang, "Generative image inpainting with contextual attention," arXiv preprint, 2018 Sách, tạp chí
Tiêu đề: Generative image inpainting with contextual attention
Tác giả: J. Yu, Z. Lin, J. Yang, X. Shen, X. Lu, T. S. Huang
Nhà XB: arXiv preprint
Năm: 2018
[2] H. Guo, G. Wang, X. Chen, C. Zhang, F. Qiao, and H. Yang, “Region ensemble network: Improving convolutional network for hand pose estimation,” in Image Processing (ICIP), 2017 IEEE International Conference on. IEEE, pp. 4512- 4516, 2017 Sách, tạp chí
Tiêu đề: Region ensemble network: Improving convolutional network for hand pose estimation
Tác giả: H. Guo, G. Wang, X. Chen, C. Zhang, F. Qiao, H. Yang
Nhà XB: IEEE
Năm: 2017
[3] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial nets,” in Advances in neural information processing systems, pp. 2672-2680, 2014 Sách, tạp chí
Tiêu đề: Generative adversarial nets
Tác giả: I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, Y. Bengio
Nhà XB: Advances in neural information processing systems
Năm: 2014
[4] D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, and A. A. Efros, “Context encoders: Feature learning by inpainting,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2536-2544, 2016 Sách, tạp chí
Tiêu đề: Context encoders: Feature learning by inpainting
Tác giả: D. Pathak, P. Krahenbuhl, J. Donahue, T. Darrell, A. A. Efros
Nhà XB: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition
Năm: 2016
[5] S. Iizuka, E. Simo-Serra, and H. Ishikawa, "Globally and locally consistent image completion," ACM Transactions on Graphics (TOG), vol. 36, no. 4, p.107, 2017 Sách, tạp chí
Tiêu đề: Globally and locally consistent image completion
Tác giả: S. Iizuka, E. Simo-Serra, H. Ishikawa
Nhà XB: ACM Transactions on Graphics (TOG)
Năm: 2017
[6] J. Yu, Z. Lin, J. Yang, X. Shen, X. Lu, and T. S. Huang, “Free-form image inpainting with gated convolution,” arXiv preprint arXiv:1806.03589, 2018 Sách, tạp chí
Tiêu đề: Free-form image inpainting with gated convolution
Tác giả: J. Yu, Z. Lin, J. Yang, X. Shen, X. Lu, T. S. Huang
Nhà XB: arXiv
Năm: 2018
[7] M.-C. Sagong, Y.-G. Shin, S.-W. Kim, S. Park, and S.-J. Ko, “Pepsi: Fast image inpainting with parallel decoding network,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Sách, tạp chí
Tiêu đề: Pepsi: Fast image inpainting with parallel decoding network
Tác giả: M.-C. Sagong, Y.-G. Shin, S.-W. Kim, S. Park, S.-J. Ko
Nhà XB: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition
[8] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter, “Gans trained by a two time-scale update rule converge to a local nash equilibrium,”in Advances in Neural Information Processing Systems, pp. 6626-6637, 2017 Sách, tạp chí
Tiêu đề: Gans trained by a two time-scale update rule converge to a local nash equilibrium
Tác giả: M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, S. Hochreiter
Nhà XB: Advances in Neural Information Processing Systems
Năm: 2017
[9] T. Karras, T. Aila, S. Laine, and J. Lehtinen, “Progressive growing of gans for improved quality, stability, and variation,” arXiv preprint arXiv:1710.10196, 2017 Sách, tạp chí
Tiêu đề: Progressive growing of gans for improved quality, stability, and variation
Tác giả: T. Karras, T. Aila, S. Laine, J. Lehtinen
Nhà XB: arXiv
Năm: 2017
[10] Z. Liu, P. Luo, X. Wang, and X. Tang, “Deep learning face attributes in the wild,” in Proceedings of the IEEE International Conference on Computer Vision, pp. 3730-3738, 2015 Sách, tạp chí
Tiêu đề: Deep learning face attributes in the wild
Tác giả: Z. Liu, P. Luo, X. Wang, X. Tang
Nhà XB: Proceedings of the IEEE International Conference on Computer Vision
Năm: 2015
[11] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” in Advances in neural information processing systems, pp. 1097-1105, 2012 Sách, tạp chí
Tiêu đề: Advances in neural information processing systems
Tác giả: A. Krizhevsky, I. Sutskever, G. E. Hinton
Năm: 2012
[12] B. Zhou, A. Lapedriza, A. Khosla, A. Oliva, and A. Torralba, “Places: A 10 million image database for scene recognition,” IEEE transactions on pattern analysis and machine intelligence, tập 40, số 6, pp. 1452-1464, 2018 Sách, tạp chí
Tiêu đề: Places: A 10 million image database for scene recognition
Tác giả: B. Zhou, A. Lapedriza, A. Khosla, A. Oliva, A. Torralba
Nhà XB: IEEE transactions on pattern analysis and machine intelligence
Năm: 2018
[13] C. Barnes, E. Shechtman, A. Finkelstein, and D. B. Goldman, "Patchmatch: A randomized correspondence algorithm for structural image editing," ACM Transactions on Graphics (ToG), vol. 28, no. 3, p. 24, 2009 Sách, tạp chí
Tiêu đề: Patchmatch: A randomized correspondence algorithm for structural image editing
Tác giả: C. Barnes, E. Shechtman, A. Finkelstein, D. B. Goldman
Nhà XB: ACM Transactions on Graphics (ToG)
Năm: 2009
[14] Z. Wang, A. C. Bovik, H. R. Sheikh, and E. P. Simoncelli, “Image quality assessment: from error visibility to structural similarity,” IEEE transactions on image processing, tập 13, số 4, pp. 600-612, 2004 Sách, tạp chí
Tiêu đề: Image quality assessment: from error visibility to structural similarity
Tác giả: Z. Wang, A. C. Bovik, H. R. Sheikh, E. P. Simoncelli
Nhà XB: IEEE transactions on image processing
Năm: 2004
[15] X. Zhang, X. Zhou, M. Lin, and J. Sun, “Shufflenet: An extremely efficient convolutional neural network for mobile devices,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 6848-6856, 2018 Sách, tạp chí
Tiêu đề: Shufflenet: An extremely efficient convolutional neural network for mobile devices
Tác giả: X. Zhang, X. Zhou, M. Lin, J. Sun
Nhà XB: Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition
Năm: 2018

HÌNH ẢNH LIÊN QUAN

Hình 1-1. Ví dụ về training deep convolutional neural networks để dự đoán  pixel cho các vùng ảnh bị thiếu sót - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 1 1. Ví dụ về training deep convolutional neural networks để dự đoán pixel cho các vùng ảnh bị thiếu sót (Trang 5)
Hình 2-1. Sơ đồ các công trình nghiên cứu liên quan. - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 2 1. Sơ đồ các công trình nghiên cứu liên quan (Trang 6)
Hình 3-1. Hình minh họa cơ chế hoạt động của Generative adversarial - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 3 1. Hình minh họa cơ chế hoạt động của Generative adversarial (Trang 7)
Hình 3-2. Hàm lost của Discriminator và Generator. - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 3 2. Hàm lost của Discriminator và Generator (Trang 8)
Hình 3-5. Coarse-to-fine Network. - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 3 5. Coarse-to-fine Network (Trang 9)
Hình 3-6. Hình minh họa cho việc thay thế Refinement network bằng - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 3 6. Hình minh họa cho việc thay thế Refinement network bằng (Trang 10)
Hình 3-7. Hình minh họa của contextual attention layer. - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 3 7. Hình minh họa của contextual attention layer (Trang 10)
Hình 4-1. Kiến trúc của PEPSI. - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 4 1. Kiến trúc của PEPSI (Trang 11)
Hình 4-3. Rate-adaptive scaling and shifting operations. - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 4 3. Rate-adaptive scaling and shifting operations (Trang 12)
Hình 4-2. Kiến trúc của DietPEPSI. - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 4 2. Kiến trúc của DietPEPSI (Trang 12)
Hình 4-4.Minh họa kỹ thuật để tổng hợp thông tin global contextual trong khi  giảm số lượng tham số - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 4 4.Minh họa kỹ thuật để tổng hợp thông tin global contextual trong khi giảm số lượng tham số (Trang 13)
Hình 4-5. Tổng quan về RED. - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 4 5. Tổng quan về RED (Trang 14)
Hình 5-2. Kết quả so sánh trên mặt nạ vuông với bộ dữ liệu CelebA-HQ.  (a) Ảnh gốc. (b) Ảnh cần hoàn thiện - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 5 2. Kết quả so sánh trên mặt nạ vuông với bộ dữ liệu CelebA-HQ. (a) Ảnh gốc. (b) Ảnh cần hoàn thiện (Trang 18)
Hình 5-4. Kết quả so sánh với bộ dữ liệu Place2. - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 5 4. Kết quả so sánh với bộ dữ liệu Place2 (Trang 19)
Hình 5-4. Kết quả so sánh với bộ dữ liệu Place2. - FAST AND LIGHTWEIGHT NETWORK FOR IMAGE INPAINTING
Hình 5 4. Kết quả so sánh với bộ dữ liệu Place2 (Trang 20)