Unpaired Image to Image translation using CycleGAN(Các vấn đề hiện đại của kỹ thuật máy tính)

LỜI CẢM ƠN ........................................................................................................................... 2 Tóm tắt ...................................................................................................................................... 4 I. GIỚI THIỆU ..................................................................................................................... 4 II. CÔNG TRÌNH LIÊN QUAN ........................................................................................... 6 III. CÔNG THỨC ................................................................................................................... 8 1. Mất mát ........................................................................................................................... 8 2. Mất mát tính nhất quán của chu kỳ ................................................................................. 8 3. Mục tiêu hoàn chỉnh........................................................................................................ 9 4. Triển khai ...................................................................................................................... 10 IV. KẾT QUẢ ........................................................................................................................ 11 1. Đánh giá ........................................................................................................................ 11 1.1. Số liệu đánh giá ..................................................................................................... 11 1.2. Cơ sở ...................................................................................................................... 12 1.3. So sánh với cơ sở ................................................................................................... 13 1.4. Phân tích hàm mất mát ......................................................................................... 14 1.5. Chất lượng tái tạo hình ảnh ................................................................................... 14 1.6. Kết quả bổ sung trên bộ dữ liệu được ghép nối ..................................................... 15 2. Ứng dụng ...................................................................................................................... 16 V. NHỮNG GIỚI HẠN: ..................................................................................................... 21 VI. ĐÁNH GIÁ .................................................................................................................. 22 Tài liệu tham khảo ................................................................................................................. 26

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

MỤC LỤC

LỜI CẢM ƠN 2

Tóm tắt 4

I GIỚI THIỆU 4

II CÔNG TRÌNH LIÊN QUAN 6

III CÔNG THỨC 8

1 Mất mát 8

2 Mất mát tính nhất quán của chu kỳ 8

3 Mục tiêu hoàn chỉnh 9

4 Triển khai 10

IV KẾT QUẢ 11

1 Đánh giá 11

1.1 Số liệu đánh giá 11

1.2 Cơ sở 12

1.3 So sánh với cơ sở 13

1.4 Phân tích hàm mất mát 14

1.5 Chất lượng tái tạo hình ảnh 14

1.6 Kết quả bổ sung trên bộ dữ liệu được ghép nối 15

2 Ứng dụng 16

V NHỮNG GIỚI HẠN: 21

VI ĐÁNH GIÁ 22

Tài liệu tham khảo 26

Trang 3

LỜI CẢM ƠN

Lời đầu tiên, em gửi lời cảm ơn chân thành đến Trường Đại học Công Nghệ - ĐHQGHN

đã đưa môn học “Các vấn đề hiện đại của Kỹ thuật máy tính” vào chương trình giảng dạy Đặc biệt em xin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn – TS.Hoàng Gia Hưng, thầy Hiếu và thầy Mạnh đã dạy dỗ, truyền đạt những kiến thức quý báu cho chúng em trong suốt thời gian học tập vừa qua Trong thời gian tham gia lớp học, em đã có thêm cho mình nhiều kiến thức

bổ ích, đảm bảo cung cấp đầy đủ kiến thức, gắn liền với thức tế và là hành trang quan trọng cho chúng em khi làm việc Xin gửi lời tri ân nhất của em đối với những điều mà thầy cô đã dành cho sinh viên chúng em

Mặc dù đã cố gắng hoàn thành bài tiểu luận với tất cả nỗ lực và cố gắng của bản thân, nhưng do hạn chế về kiến thức và kinh nghiệm thực tiễn cũng như sự giới hạn về thời gian, bài tiểu luận của em không tránh khỏi những thiếu sót cả về nội dung và hình thức Em rất mong nhận được sự chỉ bảo và góp ý của các thầy cô để giúp cho bài tiểu luận của em thêm hoàn thiện hơn

Em xin chân thành cảm ơn!

Trang 4

Bảng thuật ngữ và viết tắt

GAN Generative Adversarial Networks

CycleGAN Cycle-Consistent Adversarial Networks

StarGAN Star Generative Adversarial Networks

AMT Amazon Mechanical Turk

FCN Fully Convolutional Network

SimGAN Simulated+Unsupervised Generative Adversarial Networks

CoGAN Coupled Generative Adversarial Networks

Trang 5

Tóm tắt

Dịch từ hình ảnh sang hình ảnh là một loại các vấn đề về thị giác và đồ họa trong đó mục tiêu là tìm hiểu ánh xạ giữa hình ảnh đầu vào và hình ảnh đầu ra bằng cách sử dụng tập huấn luyện các cặp hình ảnh được căn chỉnh Tuy nhiên, đối với nhiều tác vụ, dữ liệu tranning được ghép nối sẽ không khả dụng Chúng tôi trình bày một cách tiếp cận để học cách dịch một hình ảnh từ miền nguồn X sang miền đích Y khi không có các ví dụ được ghép nối Mục tiêu của chúng tôi là tìm hiểu một ánh xạ G : X → Y sao cho phân phối hình ảnh từ G(X) không thể phân biệt được với phân phối Y bằng cách sử dụng mất mát đối nghịch Bởi vì ánh

xạ này bị hạn chế rất nhiều, chúng tôi kết hợp nó với ánh xạ ngược F : Y → X và đưa ra sự mất tính nhất quán của chu kỳ để thực thi F(G(X)) ≈ X (và ngược lại) Kết quả định tính được trình bày trên một số tác vụ không tồn tại dữ liệu đào tạo được ghép nối, bao gồm chuyển kiểu bộ sưu tập, biến đổi đối tượng, chuyển mùa, nâng cao ảnh, So sánh định lượng với một số phương pháp trước đây chứng tỏ tính ưu việt của phương pháp tiếp cận của chúng tôi

I GIỚI THIỆU

Hình 1: Với bất kỳ hai bộ sưu tập ảnh không tuân thủ thứ tự X và Y, thuật toán của chúng tôi học cách "dịch" tự động một ảnh từ một bộ sưu tập sang bộ sưu tập khác và ngược lại: (bên trái) các bức tranh của Monet và ảnh phong cảnh từ Flickr; (ở giữa) các con ngựa vằn và ngựa từ ImageNet; (bên phải) các bức ảnh Yosemite mùa hè và mùa đông

từ Flickr Ứng dụng ví dụ (ở dưới): bằng cách sử dụng một bộ sưu tập các bức tranh của các nghệ sĩ nổi tiếng, phương pháp của chúng tôi học cách biến đổi các bức ảnh tự nhiên thành các phong cách tương ứng

Claude Monet đã nhìn thấy gì khi đặt giá vẽ của mình bên bờ sông Seine gần Argenteuil vào một ngày mùa xuân đẹp trời năm 1873 (Hình 1,top-left)? Một bức ảnh màu, có thể ghi lại bầu trời trong xanh và một dòng sông thủy tinh phản chiếu nó Monet đã truyền tải ấn tượng của mình về chính cảnh này thông qua những nét cọ mỏng manh và một bảng màu tươi sáng

Điều gì sẽ xảy ra nếu Monet xảy ra trên bến cảng nhỏ ở Cassis vào một buổi tối mùa hè mát mẻ (Hình 1, phía dưới bên trái)? Dạo một vòng qua phòng trưng bày các bức tranh của

Trang 6

Monet, bạn có thể hình dung ra cách ông ấy sẽ thể hiện cảnh này: có lẽ bằng màu phấn nhạt, với những vệt sơn đột ngột và dải động hơi phẳng

Chúng ta có thể tưởng tượng tất cả những điều này mặc dù chưa bao giờ nhìn thấy một

ví dụ về bức tranh Monet bên cạnh bức ảnh về cảnh anh ấy vẽ Thay vào đó, chúng ta có kiến thức về bộ tranh Monet và bộ ảnh phong cảnh Chúng ta có thể suy luận về sự khác biệt về phong cách giữa hai bối cảnh này, và từ đó hình dung một cảnh sẽ trông như thế nào nếu chúng ta “translate” nó từ bối cảnh này sang bối cảnh khác

Trong bài báo này, chúng tôi trình bày một phương pháp có thể học để làm điều tương tự: nắm bắt các đặc điểm đặc biệt của một bộ sưu tập hình ảnh và tìm ra cách các đặc điểm này có thể được dịch sang bộ sưu tập hình ảnh khác, tất cả đều không có bất kỳ ví dụ đào tạo được ghép nối nào

Vấn đề này có thể được mô tả rộng hơn như là dịch hình ảnh sang hình ảnh [22], chuyển đổi hình ảnh từ một biểu diễn của một cảnh nhất định, x, sang một cảnh khác, y, ví dụ: thang độ xám thành màu, hình ảnh thành nhãn ngữ nghĩa, bản đồ cạnh thành ảnh chụp Nhiều năm nghiên cứu về thị giác máy tính, xử lý hình ảnh, chụp ảnh điện toán và đồ họa

đã tạo ra các hệ thống dịch mạnh mẽ trong môi trường được giám sát, nơi có sẵn các cặp hình ảnh mẫu {𝑥𝑖, 𝑦𝑖}𝑖=1𝑁 (Hình 2, bên trái), ví dụ: [ 11, 19, 22, 23, 28, 33, 45, 56, 58, 62] Tuy nhiên, việc thu thập dữ liệu đào tạo được ghép nối có thể khó khăn và tốn kém Ví dụ: chỉ có một số bộ dữ liệu tồn tại cho các tác vụ như phân đoạn ngữ nghĩa (ví dụ: [4]) và chúng tương đối nhỏ Có được các cặp đầu vào-đầu ra cho các tác vụ đồ họa như cách điệu nghệ thuật có thể còn khó khăn hơn vì đầu ra mong muốn rất phức tạp, thường yêu cầu tác giả nghệ thuật Đối với nhiều tác vụ, chẳng hạn như biến đổi đối tượng (ví dụ: ngựa vằn↔ngựa, Hình 1 trên cùng ở giữa), đầu ra mong muốn thậm chí còn không được xác định rõ

Do đó, chúng tôi tìm kiếm một thuật toán có thể học cách dịch giữa các miền mà không cần các ví dụ đầu vào-đầu ra được ghép nối (Hình 2, bên phải) Chúng tôi cho rằng có một

số mối quan hệ cơ bản giữa các miền – ví dụ: chúng là hai kết xuất khác nhau của cùng một cảnh cơ bản – và tìm cách tìm hiểu mối quan hệ đó Mặc dù chúng tôi thiếu sự giám sát ở dạng các ví dụ được ghép nối, nhưng chúng tôi có thể khai thác sự giám sát ở cấp độ tập

Hình 2: Dữ liệu huấn luyện ghép cặp (bên trái) bao gồm các ví dụ huấn luyện

{𝑥𝑖, 𝑦𝑖}𝑖=1𝑁 , trong đó có sự tương ứng giữa x i và y i đã được xác định [22] Thay vào đó, chúng tôi xem xét dữ liệu huấn luyện không ghép cặp (bên phải), bao gồm một tập nguồn {𝑥𝑖}𝑖=1𝑁 (x i ∈ X) và một tập đích {𝑦𝑗}𝑗=1𝑁 (y i ∈ Y), trong đó không có thông tin về việc xi tương ứng với y j nào

Trang 7

hợp: chúng tôi được cung cấp một tập hợp hình ảnh trong miền X và một tập hợp khác trong miền Y Chúng ta có thể huấn luyện một ánh xạ G : X → Y sao cho đầu ra yˆ = G(x),

x ∈ X, không thể phân biệt được với ảnh y ∈ Y bởi một đối thủ được huấn luyện để phân loại yˆ ngoài y Về lý thuyết, mục tiêu này có thể tạo ra phân phối đầu ra trên yˆ khớp với phân phối thực nghiệm pdata(y) (nói chung, điều này yêu cầu G phải ngẫu nhiên) [16] Do

đó, G tối ưu chuyển miền X thành miền Yˆ được phân phối đồng nhất với Y Tuy nhiên, phép dịch như vậy không đảm bảo rằng một đầu vào riêng lẻ x và đầu ra y được ghép nối theo cách có ý nghĩa – có vô số ánh xạ G sẽ tạo ra phân phối giống nhau trên yˆ Hơn nữa, trong thực tế, chúng tôi thấy rất khó để tối ưu hóa mục tiêu đối nghịch một cách cô lập: các quy trình tiêu chuẩn thường dẫn đến vấn đề sụp đổ chế độ nổi tiếng, trong đó tất cả các hình ảnh đầu vào ánh xạ tới cùng một hình ảnh đầu ra và quá trình tối ưu hóa không đạt được tiến bộ [15]

Những vấn đề này kêu gọi bổ sung thêm cấu trúc cho mục tiêu của chúng tôi Do đó, chúng tôi khai thác thuộc tính rằng bản dịch phải “nhất quán theo chu kỳ”, theo nghĩa là nếu chúng tôi dịch, chẳng hạn, một câu từ tiếng Anh sang tiếng Pháp, rồi dịch ngược lại từ tiếng Pháp sang tiếng Anh, thì chúng tôi sẽ quay lại câu gốc [3] Về mặt toán học, nếu chúng ta có một phép dịch G : X → Y và một phép dịch khác F : Y → X, thì G và F phải

là nghịch đảo của nhau và cả hai ánh xạ phải là phép loại Chúng tôi áp dụng giả định cấu trúc này bằng cách đào tạo đồng thời cả ánh xạ G và F, đồng thời thêm vào một sự suy giảm tính nhất quán của chu trình [64] để khuyến khích F(G(x)) ≈ x và G(F(y)) ≈ y Kết hợp tổn thất này với tổn thất đối nghịch trên các miền X và Y mang lại mục tiêu đầy đủ của chúng tôi cho việc dịch hình ảnh sang hình ảnh chưa ghép nối

Chúng tôi áp dụng phương pháp của mình cho nhiều ứng dụng, bao gồm chuyển kiểu

bộ sưu tập, chuyển đổi đối tượng, chuyển mùa và nâng cao ảnh Chúng tôi cũng so sánh với các phương pháp trước đó dựa trên các yếu tố xác định bằng tay về kiểu dáng và nội dung hoặc dựa trên các chức năng nhúng được chia sẻ và cho thấy rằng phương pháp của chúng tôi vượt trội hơn các đường cơ sở này Chúng tôi cung cấp cả triển khai PyTorch và Torch Xem thêm kết quả tại trang web của chúng tôi

II CÔNG TRÌNH LIÊN QUAN

Hình 3: (a) Mô hình của chúng tôi bao gồm hai hàm ánh xạ G: X → Y và F: Y → X,

và các bộ phân biệt đối kháng D Y và D X tương ứng D Y khuyến khích G chuyển đổi X thành đầu ra không thể phân biệt được với miền Y, và ngược lại với D X và F

Để kiểm soát việc ánh xạ, chúng tôi giới thiệu hai hàm mất mát liên quan đến tính nhất quán chu kỳ, với ý tưởng rằng nếu chúng ta chuyển đổi từ một miền sang miền khác

và quay trở lại, chúng ta sẽ đến nơi xuất phát:

• (b) mất mát nhất quán chu kỳ chuyển tiếp: x → G(x) → F(G(x)) ≈ x, và

• (c) mất mát nhất quán chu kỳ ngược: y → F(y) → G(F(y)) ≈ y

Trang 8

Generative Adversarial Networks (GAN) [16, 63] đã đạt được kết quả ấn tượng trong

việc tạo hình ảnh [6, 39], chỉnh sửa hình ảnh [66] và học đại diện [39, 43, 37] Các phương pháp gần đây áp dụng ý tưởng tương tự cho các ứng dụng tạo hình ảnh có điều kiện, chẳng hạn như text2image [41], inpainting hình ảnh [38] và dự đoán tương lai [36], cũng như các miền khác như video [54] và dữ liệu 3D [57] Chìa khóa thành công của GAN là ý tưởng

về sự mất mát đối thủ buộc các hình ảnh được tạo về nguyên tắc không thể phân biệt được với ảnh thực Sự mất mát này đặc biệt nghiêm trọng đối với các tác vụ tạo hình ảnh, vì đây chính xác là mục tiêu mà phần lớn đồ họa máy tính nhắm đến để tối ưu hóa Chúng tôi chấp nhận mất đối thủ để tìm hiểu ánh xạ sao cho hình ảnh được dịch không thể phân biệt được với hình ảnh trong miền mục tiêu

Image-to-Image Translation: Ý tưởng dịch từ hình ảnh sang hình ảnh ít nhất đã có

từ Image Analogies của Hertzmann và cộng sự [19], người sử dụng mô hình kết cấu phi tham số [10] trên một cặp hình ảnh huấn luyện đầu vào-đầu ra đơn lẻ Các cách tiếp cận gần đây hơn sử dụng tập dữ liệu gồm các ví dụ đầu vào-đầu ra để tìm hiểu hàm dịch tham

số bằng cách sử dụng CNN (ví dụ: [33]) Cách tiếp cận của chúng tôi dựa trên khuôn khổ

“pix2pix” của Isola et al [22], sử dụng mạng đối nghịch tạo điều kiện [16] để tìm hiểu ánh

xạ từ hình ảnh đầu vào đến hình ảnh đầu ra Những ý tưởng tương tự đã được áp dụng cho các tác vụ khác nhau chẳng hạn như tạo ảnh từ bản phác thảo [44] hoặc từ bố cục thuộc tính và ngữ nghĩa [25] Tuy nhiên, không giống như công việc trước đó ở trên, chúng tôi tìm hiểu ánh xạ mà không cần các ví dụ đào tạo được ghép nối Dịch hình ảnh sang hình ảnh không ghép nối

Unpaired Image-to-Image Translation: Một số phương pháp khác cũng xử lý cài đặt

không ghép nối, trong đó mục tiêu là liên kết hai miền dữ liệu: X và Y Rosales et al [42]

đề xuất một khung Bayesian bao gồm trường ngẫu nhiên Markov dựa trên bản vá được tính toán từ hình ảnh nguồn và thuật ngữ khả năng thu được từ nhiều hình ảnh kiểu Gần đây hơn, CoGAN [32] và các mạng cảnh đa phương thức [1] sử dụng chiến lược chia sẻ trọng

số để tìm hiểu biểu diễn chung giữa các miền Đồng thời với phương pháp của chúng tôi, Liu et al [31] mở rộng khuôn khổ trên với sự kết hợp của các bộ mã hóa tự động đa dạng [27] và các mạng đối nghịch chung [16] Một dòng công việc đồng thời khác [46, 49, 2] khuyến khích đầu vào và đầu ra chia sẻ các tính năng “nội dung” cụ thể mặc dù chúng có thể khác nhau về “phong cách“ Các phương pháp này cũng sử dụng các mạng đối nghịch, với các thuật ngữ bổ sung để buộc đầu ra phải gần với đầu vào trong một không gian số liệu được xác định trước, chẳng hạn như không gian nhãn lớp [2], không gian pixel hình ảnh [46] và không gian đặc trưng hình ảnh [49]

Không giống như các cách tiếp cận trên, công thức của chúng tôi không dựa vào bất kỳ chức năng tương tự được xác định trước, dành riêng cho nhiệm vụ nào giữa đầu vào và đầu

ra, chúng tôi cũng không giả định rằng đầu vào và đầu ra phải nằm trong cùng một không gian nhúng có chiều thấp Điều này làm cho phương pháp của chúng tôi trở thành một giải pháp có mục đích chung cho nhiều tác vụ hình ảnh và đồ họa Chúng tôi so sánh trực tiếp với một số cách tiếp cận trước đây và hiện đại trong Phần 5.1

Cycle Consistency: Ý tưởng sử dụng tính bắc cầu như một cách để chuẩn hóa dữ liệu

có cấu trúc đã có một lịch sử lâu dài Trong theo dõi trực quan, việc thực thi tính nhất quán tiến-lùi đơn giản đã là một thủ thuật tiêu chuẩn trong nhiều thập kỷ [24, 48] Trong lĩnh vực ngôn ngữ, xác minh và cải thiện bản dịch thông qua “dịch ngược và đối chiếu” là một

kỹ thuật được sử dụng bởi người dịch [3] (bao gồm cả Mark Twain [51]), cũng như máy [17] Gần đây, tính nhất quán chu kỳ bậc cao đã được sử dụng trong cấu trúc từ chuyển động [61], đối sánh hình dạng 3D [21], phân đoạn [55], căn chỉnh ngữ nghĩa dày đặc [65,

Trang 9

64] và ước tính độ sâu [14] Trong số này, Zhou et al [64] và Godard et al [14] tương tự nhất với công việc của chúng tôi, vì họ sử dụng sự suy giảm tính nhất quán của chu kỳ như một cách sử dụng tính bắc cầu để giám sát đào tạo CNN Trong công việc này, chúng tôi đang giới thiệu một tổn thất tương tự để đẩy G và F nhất quán với nhau Đồng thời với công việc của chúng tôi, trong cùng quá trình tố tụng này, Yi et al [59] sử dụng độc lập một mục tiêu tương tự cho bản dịch hình ảnh sang hình ảnh chưa ghép nối, lấy cảm hứng từ học kép trong dịch máy [17]

Neural Style Transfer [13, 23, 52, 12]: là một cách khác để thực hiện chuyển đổi hình

ảnh sang hình ảnh, tổng hợp một hình ảnh mới lạ bằng cách kết hợp nội dung của một hình ảnh với phong cách của một hình ảnh khác (thường là một bức tranh) dựa trên sự phù hợp thống kê ma trận Gram của các tính năng sâu được đào tạo trước Mặt khác, trọng tâm chính của chúng tôi là tìm hiểu ánh xạ giữa hai bộ sưu tập hình ảnh, thay vì giữa hai hình ảnh cụ thể, bằng cách cố gắng nắm bắt sự tương ứng giữa các cấu trúc ngoại hình cấp cao hơn Do

đó, phương pháp của chúng tôi có thể được áp dụng cho các tác vụ khác, chẳng hạn như vẽ

→ ảnh, biến đổi đối tượng, v.v trong đó các phương pháp truyền mẫu đơn lẻ không hoạt động tốt Chúng tôi so sánh hai phương pháp này trong Phần 5.2

III CÔNG THỨC

Mục tiêu của chúng ta là tìm hiểu các hàm ánh xạ giữa hai miền X và Y cho các mẫu huấn luyện {𝑥𝑖}𝑖=1𝑁 trong đó x i ∈ X và {𝑦𝑗}𝑗=1𝑁 trong đó yj ∈ Y1 Chúng tôi biểu thị phân phối dữ liệu là x ∼ pdata(x) và y ∼ pdata(y) Như được minh họa trong Hình 3 (a), mô hình

của chúng tôi bao gồm hai ánh xạ G : X → Y và F : Y → X Ngoài ra, chúng tôi giới thiệu

hai bộ phân biệt đối nghịch DX và DY , trong đó DX nhằm mục đích phân biệt giữa hình ảnh {x} và bản dịch ảnh {F(y)}; theo cách tương tự, DY nhằm mục đích phân biệt giữa {y}

và {G(x)} Mục tiêu của chúng tôi bao gồm hai loại thuật ngữ: tổn thất do đối thủ [16] để đối sánh việc phân phối hình ảnh được tạo với phân phối dữ liệu trong miền mục tiêu; và mất tính nhất quán của chu trình để ngăn các ánh xạ đã học G và F mâu thuẫn với nhau

1 Mất mát

Chúng tôi áp dụng mất mát [16] cho cả hai hàm ánh xạ Đối với hàm ánh xạ G: X →

Y và bộ phân biệt tương ứng D Y, chúng tôi biểu diễn mục tiêu như sau:

L GAN (G, D Y , X, Y) = E y∼pdata(y) [log D Y (y)]

+ E x∼pdata(x) [log(1 - D Y (G(x)))], (1)

trong đó G cố gắng tạo ra các hình ảnh G(x) giống như hình ảnh từ miền Y, trong khi

DY nhằm phân biệt giữa các mẫu dịch chuyển G(x) và các mẫu thực y G cố gắng tối thiểu

hóa mục tiêu này trước một đối thủ D cố gắng tối đa hóa nó, tức là min G max DY L GAN (G,

DY, X, Y)

Chúng tôi giới thiệu một mất mát đối kháng tương tự cho hàm ánh xạ F: Y → X và

bộ phân biệt tương ứng D X : min F max DX L GAN (F, DX, Y, X)

2 Mất mát tính nhất quán của chu kỳ

Về lý thuyết, đào tạo đối thủ có thể học các ánh xạ G và F tạo ra các đầu ra được phân phối giống hệt như các miền mục tiêu Y và X tương ứng (nói đúng ra, điều này yêu cầu

G và F là các hàm ngẫu nhiên) [15] Tuy nhiên, với dung lượng đủ lớn, mạng có thể ánh

xạ cùng một tập hợp ảnh đầu vào tới bất kỳ hoán vị ngẫu nhiên nào của ảnh trong miền

Trang 10

đích, trong đó bất kỳ ánh xạ đã học nào cũng có thể tạo ra phân phối đầu ra khớp với phân phối đích Do đó, chỉ riêng tổn thất đối nghịch không thể đảm bảo rằng hàm đã học có thể ánh xạ một đầu vào xi riêng lẻ thành một đầu ra mong muốn yi Để tiếp tục giảm không gian của các hàm ánh xạ có thể, chúng tôi lập luận rằng các hàm mappin đã học phải nhất quán theo chu kỳ: như trong Hình 3 (b), đối với mỗi ảnh x từ miền X, chu kỳ dịch ảnh sẽ có thể mang x trở lại hình ảnh ban đầu, tức là x → G(x) → F(G(x)) ≈ x Chúng tôi gọi đây là tính nhất quán của chu kỳ chuyển tiếp Tương tự, như được minh họa trong Hình 3 (c), đối với mỗi ảnh y từ miền Y , G và F cũng phải thỏa mãn tính nhất quán của chu trình ngược: y → F(y) → G(F(y)) ≈ y Chúng tôi khuyến khích hành vi này bằng cách giảm tính nhất quán của chu kỳ:

L cyc (G, F) = E x∼pdata(x) [kF(G(x)) − xk1]

+ E y∼pdata(y) [kG(F(y)) − yk1] (2)

Trong các thử nghiệm sơ bộ, chúng tôi cũng đã thử thay thế định mức L1 trong tổn thất này bằng tổn thất đối kháng giữa F(G(x)) và x và giữa G(F(y)) và y, nhưng không quan sát thấy hiệu suất được cải thiện

Hành vi gây ra bởi sự mất tính nhất quán của chu kỳ có thể được quan sát trong Hình

4 các hình ảnh tái tạo F(G(x)) cuối cùng khớp chặt với các hình ảnh đầu vào x

Hình 4: Các hình ảnh đầu vào x, hình ảnh đầu ra G(x) và các hình ảnh tái tạo F(G(x)) từ các thí nghiệm khác nhau Từ trên xuống dưới: hình ảnh thực tế ↔ hình ảnh trong phong cách Cezanne, hình ảnh ngựa ↔ hình ảnh ngựa vằn, mùa đông → mùa hè Yosemite, hình ảnh từ máy bay ↔ Google maps

Trang 11

G*, F* = arg min (G,F) max (Dx,DY) L(G, F, DX, DY ) (4)

Lưu ý rằng mô hình của chúng tôi có thể được xem như đào tạo hai "bộ mã hóa tự động" [20]: chúng tôi học một bộ mã hóa tự động F ◦ G: X → X cùng với một G ◦ F: Y

→ Y khác Tuy nhiên, các bộ mã hóa tự động này có cấu trúc nội tại đặc biệt: chúng ánh

xạ một hình ảnh vào chính nó thông qua một biểu diễn trung gian là một bản dịch của hình ảnh sang một miền khác Một thiết lập như vậy cũng có thể được coi là một trường hợp đặc biệt của "bộ mã hóa tự động đối địch" [34], sử dụng mất mát đối địch để đào tạo lớp bottleneck của bộ mã hóa tự động khớp với phân phối mục tiêu tùy ý Trong trường hợp của chúng tôi, phân phối mục tiêu cho bộ mã hóa tự động X → X là phân phối của miền Y

Trong Mục 5.1.4, chúng tôi so sánh phương pháp của chúng tôi với các phiên bản rút gọn của mục tiêu đầy đủ, bao gồm chỉ mất mát đối địch LGAN và chỉ mất mát tính nhất quán chu kỳ Lcyc, và chứng minh thực nghiệm rằng cả hai mục tiêu đóng vai trò quan trọng trong việc đạt được kết quả chất lượng cao Chúng tôi cũng đánh giá phương pháp của mình chỉ với mất mát chu kỳ theo một hướng và chứng minh rằng một chu kỳ duy nhất không đủ để điều chỉnh quá trình đào tạo cho vấn đề thiếu ràng buộc này

4 Triển khai

Kiến trúc mạng: Chúng tôi áp dụng kiến trúc của mạng sinh cho mạng của chúng tôi

từ Johnson et al [23], những người đã cho thấy kết quả ấn tượng trong việc chuyển đổi phong cách mạng nơ-ron và siêu phân giải Mạng này bao gồm ba quá trình tích chập, một số khối còn lại [18], hai quá trình tích chập giai đoạn phân tử với bước 1/2, và một quá trình tích chập chuyển đổi đặc trưng thành RGB Chúng tôi sử dụng 6 khối cho ảnh kích thước 128 × 128 và 9 khối cho ảnh đào tạo với độ phân giải 256 × 256 và cao hơn Tương tự như Johnson et al [23], chúng tôi sử dụng chuẩn hóa theo trường hợp [53] Đối với mạng phân biệt, chúng tôi sử dụng PatchGANs kích thước 70 × 70 [22, 30, 29], nhằm phân loại xem các mảnh ảnh chồng lấn kích thước 70 × 70 có là thật hay giả Một kiến trúc mạng phân biệt cấp mảnh như vậy có ít tham số hơn so với mạng phân biệt toàn bộ hình ảnh và có thể hoạt động trên các hình ảnh có kích thước tùy ý theo kiểu toàn phép tích chập [22]

Chi tiết huấn luyện: Chúng tôi áp dụng hai kỹ thuật từ những nghiên cứu gần đây để

ổn định quy trình huấn luyện mô hình của chúng tôi Trước tiên, đối với LGAN (Phương trình 1), chúng tôi thay thế mục tiêu của hàm mất mát logarithm âm bằng một hàm mất mát least-squares [35] Hàm mất mát này ổn định hơn trong quá trình huấn luyện và tạo

ra kết quả chất lượng cao hơn Cụ thể, đối với hàm mất mát GAN L GAN (G, D, X, Y), chúng

tôi huấn luyện mạng sinh G để tối thiểu hóa biểu thức E x∼pdata(x) [(D(G(x)) − 1)^2] và huấn

luyện mạng phân biệt D để tối thiểu hóa biểu thức E y∼pdata(y) [(D(y) - 1)^2] +

E x∼pdata(x) [D(G(x))^2]

Thứ hai, để giảm sự dao động của mô hình [15], chúng tôi tuân theo chiến lược của Shrivastava et al [46] và cập nhật mạng phân biệt bằng cách sử dụng lịch sử các hình ảnh được tạo ra thay vì những hình ảnh được tạo ra gần đây nhất bởi các mạng sinh Chúng tôi duy trì một bộ đệm hình ảnh lưu trữ 50 hình ảnh đã được tạo ra trước đó

Đối với tất cả các thí nghiệm, chúng tôi đặt λ = 10 trong Phương trình 3 Chúng tôi

sử dụng bộ giải quyết Adam [26] với kích thước batch là 1 Tất cả các mạng đều được huấn luyện từ đầu với tốc độ học là 0.0002 Chúng tôi giữ cùng một tốc độ học cho 100 epoch đầu tiên và dần giảm tốc độ học xuống 0 theo hàm tuyến tính trong 100 epoch tiếp theo Vui lòng xem phụ lục (Mục 7) để biết thêm chi tiết về các bộ dữ liệu, kiến trúc và quy trình huấn luyện

Trang 12

IV KẾT QUẢ

1 Đánh giá

Sử dụng các tập dữ liệu đánh giá và các chỉ số tương tự như "pix2pix" [22], chúng tôi

so sánh phương pháp của chúng tôi với một số phương pháp cơ sở cả về mặt chất lượng và định lượng Các nhiệm vụ bao gồm nhãn ngữ nghĩa ↔ hình ảnh trên tập dữ liệu Cityscapes [4], và bản đồ ↔ hình ảnh từ không gian bị gỡ bỏ từ Google Maps Chúng tôi cũng thực hiện nghiên cứu về tác động của các thành phần trong hàm mất mát đầy đủ

1.1 Số liệu đánh giá

Hình 5: Các phương pháp khác nhau cho việc ánh xạ nhãn ↔ hình ảnh được huấn luyện trên các hình ảnh Cityscapes Từ trái qua phải: đầu vào, BiGAN/ALI [7, 9], CoGAN [32], mất mát đặc trưng + GAN, SimGAN [46], CycleGAN (của chúng tôi), pix2pix [22] được huấn luyện trên dữ liệu ghép cặp, và đúng sự thật

Hình 6: Các phương pháp khác nhau cho việc ánh xạ hình ảnh từ không gian ↔ bản đồ trên Google Maps Từ trái qua phải: đầu vào, BiGAN/ALI [7, 9], CoGAN [32], mất mát đặc trưng + GAN, SimGAN [46], CycleGAN (của chúng tôi), pix2pix [22] được huấn luyện trên dữ liệu ghép cặp, và đúng sự thật

Nghiên cứu tri giác AMT: Đối với nhiệm vụ map ↔ aerial photo, chúng tôi đã tiến

hành nghiên cứu tri giác "thật vs giả" trên nền tảng Amazon Mechanical Turk (AMT) để đánh giá tính thực tế của kết quả đầu ra Chúng tôi tuân thủ giao thức nghiên cứu tri giác giống như Isola et al [22], tuy nhiên, chúng tôi chỉ thu thập dữ liệu từ 25 người tham gia cho mỗi thuật toán được kiểm tra Người tham gia được hiển thị một chuỗi cặp ảnh, một ảnh thật (photo hoặc map) và một ảnh giả (do thuật toán của chúng tôi hoặc một phương

Trang 13

pháp cơ sở tạo ra), và được yêu cầu chọn vào ảnh mà họ cho là thật 10 lần thử đầu tiên trong mỗi phiên là luyện tập và được cung cấp phản hồi về việc phản hồi của người tham gia có đúng hay sai 40 lần thử còn lại được sử dụng để đánh giá tỷ lệ mà mỗi thuật toán đánh lừa được người tham gia Mỗi phiên chỉ kiểm tra một thuật toán duy nhất, và người tham gia chỉ được phép hoàn thành một phiên duy nhất Các con số chúng tôi báo cáo ở đây không thể so sánh trực tiếp với con số trong [22] vì ảnh thật của chúng tôi đã được

xử lý một cách khác nhau một chút và nhóm người tham gia mà chúng tôi kiểm tra có thể được phân phối khác nhau so với nhóm được kiểm tra trong [22] (do thực hiện thí nghiệm vào ngày và giờ khác nhau) Do đó, con số của chúng tôi chỉ nên được sử dụng để so sánh phương pháp hiện tại của chúng tôi với các phương pháp cơ sở (được thực hiện dưới các điều kiện giống nhau), thay vì so sánh với [22]

FCN score Mặc dù nghiên cứu tri giác có thể là tiêu chuẩn vàng để đánh giá tính thực

tế đồ họa, chúng tôi cũng tìm kiếm một phép đo tự động số lượng không đòi hỏi thực nghiệm từ con người Vì vậy, chúng tôi áp dụng "FCN score" từ [22] và sử dụng nó để đánh giá nhiệm vụ Cityscapes labels → photo FCN score đánh giá mức độ có thể hiểu được của các bức ảnh được tạo ra dựa trên một thuật toán phân đoạn ngữ nghĩa thông thường (mạng toàn phần convolutional, FCN, từ [33]) FCN dự đoán một bản đồ nhãn cho một bức ảnh được tạo ra Bản đồ nhãn này sau đó có thể được so sánh với nhãn đầu vào thật sử dụng các phép đo phân đoạn ngữ nghĩa tiêu chuẩn được mô tả dưới đây Ý tưởng là nếu chúng ta tạo ra một bức ảnh từ bản đồ nhãn "xe trên đường", thì chúng ta đã thành công nếu FCN áp dụng vào bức ảnh được tạo ra phát hiện "xe trên đường"

Các phép đo phân đoạn ngữ nghĩa Để đánh giá hiệu suất của photo → labels, chúng

tôi sử dụng các phép đo tiêu chuẩn từ bộ đo Cityscapes [4], bao gồm độ chính xác từng pixel, độ chính xác từng lớp và trung bình giá trị giao nhau trên lớp (Class IOU) [4]

1.2 Cơ sở

CoGAN [32] Phương pháp này học một bộ sinh GAN cho miền X và một bộ sinh

GAN cho miền Y, với trọng số được kết nối ở các tầng đầu tiên để chia sẻ biểu diễn tiềm

ẩn Việc chuyển đổi từ X sang Y có thể được đạt được bằng cách tìm một biểu diễn tiềm

ẩn tạo ra hình ảnh X và sau đó chuyển đổi biểu diễn tiềm ẩn này sang phong cách Y

SimGAN [46] Tương tự như phương pháp của chúng tôi, Shrivastava và đồng nghiệp

[46] sử dụng mất mát đối địch để huấn luyện chuyển đổi từ X sang Y Thuật ngữ điều chỉnh kx - G(x)k1 được sử dụng để phạt việc thay đổi lớn tại mức pixel

Feature loss + GAN: Chúng tôi cũng thử nghiệm một biến thể của SimGAN [46]

trong đó sử dụng mất mát L1 được tính toán trên các đặc trưng hình ảnh sâu bằng cách

sử dụng mạng được tiền huấn luyện (VGG-16 relu4_2 [47]), thay vì dựa trên giá trị pixel RGB Việc tính toán khoảng cách trong không gian đặc trưng sâu như vậy cũng có thể được gọi là "mất mát nhận thức" [8, 23]

BiGAN/ALI [9, 7]: GAN không điều kiện [16] học một bộ sinh G: Z → X, biểu diễn

sự ánh xạ từ một nhiễu ngẫu nhiên z đến một hình ảnh x BiGAN [9] và ALI [7] đề xuất học cả hàm ánh xạ nghịch đảo F: X → Z Mặc dù ban đầu chúng được thiết kế để ánh xạ một vectơ ẩn z đến một hình ảnh x, chúng tôi thực hiện mục tiêu tương tự cho việc ánh

xạ một hình ảnh nguồn x đến một hình ảnh đích y

Trang 14

pix2pix [22]: Chúng tôi cũng so sánh với pix2pix [22], một phương pháp được huấn

luyện trên các dữ liệu ghép đôi, để xem chúng tôi có thể đạt được gần như "giới hạn tối đa" này mà không sử dụng bất kỳ dữ liệu ghép đôi nào Để có sự so sánh công bằng, chúng tôi triển khai tất cả các phương pháp cơ sở bằng cùng kiến trúc và chi tiết như phương pháp của chúng tôi, ngoại trừ CoGAN [32] CoGAN dựa trên bộ sinh tạo ra hình ảnh từ một biểu diễn tiềm ẩn chung, điều này không tương thích với mạng hình ảnh-đến-hình ảnh của chúng tôi Chúng tôi sử dụng phiên bản công khai của CoGAN thay vào đó

1.3.So sánh với cơ sở

Như có thể thấy trong Hình 5 và Hình 6, chúng tôi không thể đạt được kết quả thuyết phục với bất kỳ phương pháp cơ sở nào Phương pháp của chúng tôi, ngược lại, có thể tạo ra các bản dịch thường có chất lượng tương đương với pix2pix được huấn luyện hoàn toàn theo giám sát

Bảng 1 báo cáo hiệu suất liên quan đến nhiệm vụ thực tế nhìn thấy bằng cảm nhận từ AMT Ở đây, chúng ta thấy rằng phương pháp của chúng tôi có thể đánh lừa người tham gia khoảng một phần tư số lần thử nghiệm, cả trong hướng maps→aerial photos và hướng aerial photos→maps với độ phân giải 256 × 2563 Tất cả các phương pháp cơ sở gần như không bao giờ đánh lừa người tham gia

Bảng 2 đánh giá hiệu suất của nhiệm vụ labels→photo trên tập dữ liệu Cityscapes và Bảng 3 đánh giá ánh xạ ngược (photos→labels) Ở cả hai trường hợp này, phương pháp của chúng tôi vượt trội hơn so với các phương pháp cơ sở

% Turkers labeled real

Table 1: AMT “real vs fake ” test on maps↔aerial photos at 256 × 256 resolution

Table 2: FCN-scores for different methods, evaluated on Cityscapes labels → photo

Tiêu đề	Unpaired Image-to-Image Translation using CycleGAN
Người hướng dẫn	TS. Hoàng Gia Hưng, TS. Phạm Hùng Mạnh, ThS. Trần Hiếu
Trường học	Đại học Quốc gia Hà Nội - Trường Đại học Công Nghệ
Chuyên ngành	Các vấn đề hiện đại của Kỹ thuật máy tính
Thể loại	tiểu luận
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	29
Dung lượng	2,18 MB

Tài liệu tham khảo	Loại	Chi tiết
[1] Y. Aytar, L. Castrejon, C. Vondrick, H. Pirsiavash, and A. Torralba. Cross-modal scene networks. PAMI, 2016. 3	Khác
[4] M. Cordts, M. Omran, S. Ramos, T. Rehfeld, M. En-zweiler, R. Benenson, U. Franke, S. Roth, and B. Schiele. The cityscapes dataset for semantic urbanscene understanding. In CVPR, 2016. 2, 5, 6, 18	Khác
[5] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei. Imagenet: A largescale hierarchical im-age database. In CVPR, 2009. 8, 13, 18	Khác
[6] E. L. Denton, S. Chintala, R. Fergus, et al. Deep generative image models using a laplacian pyramid of adversarial networks. In NIPS, 2015. 2	Khác
[7] J. Donahue, P. Krahenb ̈ uhl, and T. Darrell. Adversarial ̈feature learning. In ICLR, 2017. 6, 7	Khác
[8] A. Dosovitskiy and T. Brox. Generating images withperceptual similarity metrics based on deep networks.In NIPS, 2016. 7	Khác
[9] V. Dumoulin, I. Belghazi, B. Poole, A. Lamb, M. Ar-jovsky, O. Mastropietro, and A. Courville. Adversarially learned inference. In ICLR, 2017. 6, 7	Khác
[10] A. A. Efros and T. K. Leung. Texture synthesis by non-parametric sampling. In ICCV, 1999. 3	Khác
[11] D. Eigen and R. Fergus. Predicting depth, surface normals and semantic labels with a common multi-scale convolutional architecture. In ICCV, 2015. 2	Khác
[12] L. A. Gatys, M. Bethge, A. Hertzmann, and E. Shecht-man. Preserving color in neural artistic style transfer. arXiv preprint arXiv:1606.05897, 2016. 3	Khác
[13] L. A. Gatys, A. S. Ecker, and M. Bethge. Image style transfer using convolutional neural networks. CVPR,2016. 3, 8, 9, 14, 15	Khác
[14] C. Godard, O. Mac Aodha, and G. J. Brostow. Un-supervised monocular depth estimation with left-right consistency. In CVPR, 2017. 3	Khác
[15] I. Goodfellow. NIPS 2016 tutorial: Generative adversarial networks. arXiv preprint arXiv:1701.00160, 2016. 2, 4, 5	Khác
[16] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu,D. Warde-Farley, S. Ozair, A. Courville, and Y. Ben-gio. Generative adversarial nets. In NIPS, 2014. 2, 3,4, 7	Khác
[17] D. He, Y. Xia, T. Qin, L. Wang, N. Yu, T. Liu, and W.-Y. Ma. Dual learning for machine translation. In NIPS, 2016. 3	Khác
[18] K. He, X. Zhang, S. Ren, and J. Sun. Deep residual learning for image recognition. In CVPR, 2016. 5	Khác
[19] A. Hertzmann, C. E. Jacobs, N. Oliver, B. Curless, and D. H. Salesin. Image analogies. In SIGGRAPH, 2001. 2, 3	Khác
[20] G. E. Hinton and R. R. Salakhutdinov. Reducing the dimensionality of data with neural networks. Science, 313(5786):504–507, 2006. 5	Khác
[21] Q.-X. Huang and L. Guibas. Consistent shape maps via semidefinite programming. In Symposium on Geometry Processing, 2013. 3	Khác
[22] P. Isola, J.-Y. Zhu, T. Zhou, and A. A. Efros. Image-to-image translation with conditional adversarial networks. In CVPR, 2017. 2, 3, 5, 6, 7, 8, 18	Khác