Nghiên cứu ứng dụng mạng OPEN AI GLOW để tùy biến ảnh đối tượng nhằm hỗ trợ công tác điều tra

Hiện nay tình hình tội phạm ngày càng phức tạp và tinh vi, nhiều ứng dụng khoa học công nghệ cao ngày càng được áp dụng rộng rãi trong công tác điều tra, đấu tranh phòng, chống tội phạm. Sự gia tăng của số lượng, tính chất, mức độ nguy hiểm của tội phạm càng khiến cho công tác điều tra, phá án của lực lượng công an càng khó khăn. Công nghệ hiện đại giờ đây có thể cho phép các nhà điều tra dự báo và ngăn chặn tội ác trước khi nó diễn ra. Một trong những phương pháp được quan tâm nghiên cứu hiện nay là sử dụng các giải thuật học máy.

Trang 1

trường Đại học Công nghệ đã tận tình giảng dạy, trang bị cho em những kiến thức quý báu và tạo điều kiện thuận lợi để em thực hiện đề tài tốt nghiệp này.

Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc tới thầy Tạ Việt Cường đã tận tình hướng dẫn chỉ bảo em trong quá trình thực hiện đề tài Mặc dù đã cố gắng hoàn thành khóa luận trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót.

Em rất mong nhận được sự thông cảm, góp ý và tận tình chỉ bảo của quý thầy cô và các bạn.

Trang 2

AI GLOW để tùy biến ảnh đối tượng nhằm hỗ trợ công tác điều tra” là công trình nghiên cứu của bản thân em, các số liệu sử dụng trong khóa luận là trung thực, các tham khảo có nguồn trích dẫn rõ ràng; kết quả nghiên cứu khóa luận không sao chép của bất kỳ công trình nào.

Em xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của em

Hà Nội, tháng 08 năm 2019

Trang 3

CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ HỌC MÁY, HỌC SÂU 6

1.1 Giới thiệu về học máy 6

1.1.1 Khái niệm 6

1.1.2 Quy trình cơ bản của học máy 7

1.1.3 Phân loại 10

1.2 Giới thiệu về học sâu 14

1.2.1 Khái niệm và các thành phần cơ bản 14

1.2.2 Kiến trúc mạng nơ-ron cơ bản 16

1.2.3 Một số kiến trúc mạng học sâu 20

1.3 Ứng dụng của học máy và học sâu 25

CHƯƠNG 2 NGHIÊN CỨU MẠNG GLOW ĐỂ TÙY BIẾN ẢNH ĐỐI TƯỢNG 27

2.1 Vấn đề sinh ảnh phục vụ công tác điều tra 27

2.2 Các thuật toán sinh ảnh 29

2.2.1 Mô hình đối kháng sinh mẫu (Generative adversrial network) 29

2.2.2 Bộ mã hóa tự động biến đổi (Variational auto-encoder) 34

2.2.3 Mô hình sinh dựa vào luồng (Flow-based generative model) 40

2.3 Mô hình GLOW 45

2.3.1 Mô hình sinh Flow-based 45

2.3.2 Luồng sinh 48

CHƯƠNG 3 CÀI ĐẶT THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 52

Trang 4

3.2.1 Cơ sở dữ liệu thử nghiệm 54

3.2.2 Giao diện chương trình 58

3.3 Kết quả thử nghiệm 60

3.3.1 Trộn ảnh 60

3.3.2 Tùy chỉnh đặc trưng 62

KẾT LUẬN 70

DANH MỤC TÀI LIỆU THAM KHẢO 71

PHỤ LỤC 73

Trang 5

Hình 1.2 Các bước thực hiện một bài toán học máy 7

Hình 1.3 Phương pháp 5-Fold Cross Validation 10

Hình 1.4 Mô hình học giám sát 11

Hình 1.5 Nén dữ liệu vẫn giữ thông tin quan trọng 12

Hình 1.6 Mô hình học tăng cường 13

Hình 1.7 Quan hệ giữa trí tuệ nhân tạo – học máy – học sâu 15

Hình 1.8 Nơ-ron sinh học 16

Hình 1.9 Một perceptron cơ bản 16

Hình 1.10 Kiến trúc mạng nơ-ron cơ bản 18

Hình 1.11 Mô hình CNN 21

Hình 1.12 Một node mạng trong mô hình RNN 22

Hình 1.13 So sánh 3 loại mô hình sinh 24

Hình 2.1 Ảnh tạo ra từ công cụ Identi-Kit 2000 28

Hình 2.2 Sơ đồ hoạt động của GAN 30

Hình 2.3 Huấn luyện Discriminator network, cố định Generator network 31

Hình 2.4 Huấn luyện Generator network, cố định Discriminator network 32

Hình 2.5 GAN sinh ảnh từ text thành image 33

Hình 2.6 GAN tạo ra những bức ảnh có độ phân giải cao 33

Hình 2.7 GAN sinh ảnh từ một ảnh khác 34

Hình 2.8 Cách giải mã ảnh thành các thuộc tính ẩn 35

Hình 2.9 VAE giải mã sử dụng phân phối xác suất của thuộc tính 35

Hình 2.10 2 hình ảnh rất giống nhau sinh ra từ các bộ biến ẩn khác nhau 36

Hình 2.11 Quá trình ánh xạ của biến 37

Hình 2.12 Mô hình VAE 38

Hình 2.13 Thêm biến  để tính toán mối quan hệ 38

Trang 6

Hình 2.16 Mô hình luồng chuẩn hóa 41

Hình 2.17 Sơ đồ luồng chuẩn hóa trong mô hình GLOW 47

Hình 2.18 So sánh ba biến thể - hàm nghịch đảo trong RealNVP, một hoán vị ngẫu nhiên cố định và tích chập 1 1 khả nghịch 50

Hình 3.1 Ví dụ một số ảnh với các thuộc tính 55

Hình 3.2 5 vị trí đánh dấu trên khuôn mặt 56

Hình 3.3 Nhãn của 5 thuộc tính của 5 bức ảnh đầu tiên 56

Hình 3.4 Quy trình tải ảnh từ Google image 57

Hình 3.5 Ví dụ 10 ảnh Chi pu được thu thập từ Internet 57

Hình 3.6 Lưới gồm 100 ảnh người Việt sau khi trích chọn khuôn mặt 58

Hình 3.7 Giao diện tùy chỉnh thuộc tính ảnh 59

Hình 3.8 Giao diện trộn 2 bức ảnh 59

Hình 3.9 Loạt ảnh sinh ra bằng phép nội suy tuyến tính đối với bộ dữ liệu CelebA 60

Hình 3.10 Loạt ảnh sinh ra bằng phép nội suy của mô hình GLOW đối với bộ dữ liệu CelebA 60

Hình 3.11 Loạt ảnh sinh ra bằng phép nội suy tuyến tính đối với bộ dữ liệu người Việt Nam 61

Hình 3.12 Loạt ảnh sinh ra bằng phép nội suy của mô hình GLOW đối với bộ dữ liệu người Việt Nam 61

Hình 3.13 Ví dụ về tùy chỉnh thuộc tính khuôn mặt trên một mặt người 62

Hình 3.14 Các mẫu ảnh theo thuộc tính của dữ liệu tốt 63

Hình 3.15 Mẫu ảnh đối tượng sau khi lựa chọn, tinh chỉnh đặc trưng là người Châu Âu 64

Hình 3.16 Các mẫu ảnh theo thuộc tính của dữ liệu người Việt 65

Trang 7

Hình 3.18 Mẫu ảnh đối tượng nam sau khi lựa chọn, tinh chỉnh đặc trưng làngười Việt Nam 67Hình 3.19 Các mẫu theo thuộc tính của dữ liệu trung bình 68Hình 3.20 Một vài ảnh nhận dạng thành công nhưng sinh ảnh không tốt 68

Trang 8

Bảng 3.1 40 thuộc tính được sử dụng 55

Trang 9

T Viết tắt Viết đầy đủ tiếng nước ngoài Viết đầy đủ

1 AI Artificial Intelligence Trí tuệ nhân tạo

2 ANN Artificial Neural Networks Mạng nơ-ron nhân tạo

6 CNN Convolutional Neural Network Mạng nơ-ron tích chập

7 RNN Recurrent Neural Network Mạng nơ-ron hồi quy

8 GAN Generative Adversrial

Network Mạng đối kháng sinh mẫu

9 VAE Variational Auto-Encoder Bộ mã hóa tự động

10 MLP Multi Layer Perceptron Mạng Perceptron nhiều

lớp

Trang 10

LỜI MỞ ĐẦU

1 Tính cấp thiết của đề tài

Ngày nay, trí tuệ nhân tạo đang góp phần thay đổi sâu sắc nhiều khíacạnh của cuộc sống, dần trở thành một yếu tố quan trọng trong hoạt độngmuôn màu muôn vẻ của nhân loại Nhiều bức tranh về tương lai xán lạn do trítuệ nhân tạo mang tới cho loài người đã được khắc họa Riêng về mặt kinh tế,một nghiên cứu của PwC cho thấy trí tuệ nhân tạo trở thành cơ hội thươngmại lớn nhất ngày nay trong nền kinh tế toàn cầu đang thay đổi nhanh chóngvới phần đóng góp của trí tuệ nhân tạo lên tới 15.700 tỷ USD vào năm 2030.Chính vì đó, trí tuệ nhân tạo đã trở thành cuộc đua toàn cầu của hai siêucường kinh tế là Mỹ và Trung Quốc, đồng thời, nhiều nước trên thế giới đã vàđang tiến hành xây dựng chiến lược phát triển trí tuệ nhân tạo quốc gia họ

Tư tưởng “Trí tuệ nhân tạo cùng con người, Trí tuệ nhân tạo vì nhânloại” cần được thấm nhuần và thực thi ở mọi tổ chức xã hội Nhận thức đúngđắn về Trí tuệ nhân tạo, về tương lại của Trí tuệ nhân tạo và các vấn đề liênquan tới Trí tuệ nhân tạo (đặc biệt là các khía cạnh đạo đức và an toàn Trí tuệnhân tạo) là một nội dung quan trọng trong chiến lược phát triển Trí tuệ nhântạo quốc gia của nhiều nước trên thế giới

Hiện nay tình hình tội phạm ngày càng phức tạp và tinh vi, nhiều ứngdụng khoa học công nghệ cao ngày càng được áp dụng rộng rãi trong công tácđiều tra, đấu tranh phòng, chống tội phạm Sự gia tăng của số lượng, tínhchất, mức độ nguy hiểm của tội phạm càng khiến cho công tác điều tra, phá

án của lực lượng công an càng khó khăn Công nghệ hiện đại giờ đây có thểcho phép các nhà điều tra dự báo và ngăn chặn tội ác trước khi nó diễn ra.Một trong những phương pháp được quan tâm nghiên cứu hiện nay là sử dụngcác giải thuật học máy trong dự đoán khuôn mặt tội phạm phục vụ công tácđiều tra, trinh sát Để đi sâu tìm hiểu và đánh giá hiệu quả của học máy trong

Trang 11

tùy biến ảnh mặt người, từ đó ứng dụng trong công tác nghiệp vụ Ngành, tôi

lựa chọn đề tài nghiên cứu “Nghiên cứu ứng dụng mạng OPEN AI GLOW

để tùy biến ảnh đối tượng nhằm hỗ trợ công tác điều tra” Nội dung

nghiên cứu của đề tài là bước nghiên cứu mang tính tiền đề để có thể thựchiện những nghiên cứu chuyên sâu tiếp theo về ứng dụng của học máy trongtùy biến ảnh đối tượng nói riêng và trong các bài toán xử lý ảnh nói chung

2 Tình hình nghiên cứu liên quan

Trong những năm gần đây đã có nhiều nghiên cứu về bài toán sinh ảnhmặt người Với công nghệ hiện tại, chúng ta có thể tạo ra một bức ảnh khuônmặt theo ý của mình bằng một số phương pháp như: phác họa thủ công bằngtay; sử dụng các phần mềm chỉnh ảnh như photoshop, paint.net,…; sử dụng

hệ thống sinh trắc học hiện đại được áp dụng trên thế giới Để hỗ trợ lựclượng công an trong điều tra, truy tìm tội phạm, chúng ta áp dụng bài toántrên để tạo ra một bức ảnh phác họa mặt người giúp cho việc phá án, tìm hungthủ trở nên dễ dàng hơn Hệ thống phác họa mặt người đang được lực lượngcảnh sát trên thế giới rất quan tâm và đã hỗ trợ họ rất nhiều trong những vụ ánlớn

Đề tài nghiên cứu được nêu ra với mục đích giúp giải quyết bài toán trởnên đơn giản hơn, nhanh hơn bằng cách ứng dụng trí tuệ nhân tạo trong bàitoán tùy biến ảnh đối tượng hỗ trợ việc điều tra, phá án của lực lượng công

an Tuy nhiên, đây vẫn còn là lĩnh vực mới với nhiều vấn đề cần tiếp tục,nghiên cứu giải quyết Việc nghiên cứu và ứng dụng trí tuệ nhân tạo để giảiquyết bài toán này của lực lượng cảnh sát các nước vẫn còn rất hạn chế Hiệntại, Việt Nam vẫn chưa có hệ thống nào như vậy Do đó, việc lựa chọn đề tàinày không trùng lặp bất cứ đề tài nghiên cứu nào đã được công bố trong Đạihọc Công nghệ

3 Mục tiêu và nhiệm vụ nghiên cứu

Trang 12

Về mục tiêu nghiên cứu:

- Nghiên cứu mô hình mạng nơ-ron sâu GLOW ứng dụng để tùy biếnảnh mặt người nhằm hỗ trợ công tác điều tra, phá án

- Khắc phục được một số nhược điểm khi sinh ảnh và trích xuất thôngtin của các mô hình hiện tại

Về nhiệm vụ nghiên cứu:

- Nghiên cứu tổng quan bài toán sinh ảnh mặt người sử dụng học máy,các ưu và nhược điểm của một số giải thuật tại thời điểm hiện tại

- Tìm hiểu về mạng GLOW phục vụ việc tùy biến ảnh đối tượng

- Cài đặt, chạy thử nghiệm và đánh giá hiệu quả của mô hình trong việcsinh ảnh mặt người

4 Đối tượng và phạm vi nghiên cứu

Về đối tượng nghiên cứu:

- Nghiên cứu những vấn đề cơ bản trong học máy và học sâu

- Nghiên cứu những vấn đề cơ bản trong bài toán sinh ảnh

- Nghiên cứu một số kiến trúc mạng nơ-ron học sâu

5 Phương pháp nghiên cứu

Trang 13

Trong quá trình nghiên cứu, các phương pháp đã được áp dụng cụ thểlà:

- Phương pháp phân tích và tổng hợp lý thuyết: Tổng hợp, phân tíchcác bài báo, công trình khoa học được kiểm chứng liên quan đến bài toán

- Phương pháp khảo sát thực tế

- Phương pháp chuyên gia: Học hỏi, trao đổi với các chuyên gia tronglĩnh vực học máy, học sâu để có cái nhìn tổng quan với bài toán đang nghiêncứu

- Phương pháp thực nghiệm khoa học

6 Ý nghĩa khoa học, ý nghĩa thực tiễn

- Ý nghĩa khoa học: Khóa luận áp dụng được xu hướng của thời đại sử

dụng trí tuệ nhân tạo vào phục vụ các công việc trong đời sống của con người.Thực hiện nghiên cứu mạng GLOW ứng dụng trong bài toán sinh ảnh mặtngười

- Ý nghĩa thực tiễn: Đề xuất mô hình có tiềm năng ứng dụng trong thực

tiễn Đánh giá hiệu quả của mô hình trong việc tùy biến ảnh đối tượng hỗ trợcông tác điều tra

7 Kết cấu đề tài

Ngoài phần mở đầu, kết luận, danh mục tài liệu tham khảo và phụ lục,

đề tài được cấu trúc gồm 3 chương:

Chương 1: Giới thiệu chung về học máy, học sâu Chương này trình

bày những kiến thức chung nhất về học máy, học sâu: Khái niệm, quy trình,phân loại, vai trò, xu hướng

Chương 2: Nghiên cứu mạng GLOW để tùy biến ảnh đối tượng.

Trong chương này trình bày cơ bản về bài toán, đi sâu tìm hiểu các mô hình

Trang 14

học sâu ứng dụng trong bài toán sinh ảnh Nghiên cứu mạng GLOW để tùybiến ảnh đối tượng nhằm hỗ trợ công tác điều tra.

Chương 3: Cài đặt thực nghiệm và đánh giá kết quả Trong chương

cuối, đưa ra hướng áp dụng một số nền tảng công nghệ hiện tại để xây dựnggiao diện chương trình cho bài toán, đánh giá hiệu quả ứng dụng mô hìnhmạng GLOW trong việc tùy biến ảnh đối tượng

Trang 15

CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ HỌC MÁY, HỌC SÂU 1.1 Giới thiệu về học máy

Ví dụ: Nếu muốn chương trình của bạn dự đoán về lưu lượng xe trênmột con đường quốc lộ đông đúc (tác vụ T), bạn sẽ chạy nó thông qua mộtthuật toán máy học bao gồm dữ liệu có được về lưu lượng xe trong quá khứ(kinh nghiệm E) Sau khi “học” xong, máy sẽ có thể dự đoán về lưu lượng xetrong tương lai (độ chính xác P) Tóm lại, thay vì được lập trình cụ thể bằngtay với hàng loạt đoạn mã, hướng dẫn để thực hiện một nhiệm vụ cụ thể, máytính được “huấn luyện” sử dụng một lượng lớn dữ liệu và các thuật toán đểhọc cách thực hiện nhiệm vụ

Trang 16

Hình 1.1 Quy trình học máy theo Tom Mitchell

1.1.2 Quy trình cơ bản của học máy

Quy tình tổng quát xây dựng một hệ thống học máy gồm 3 bước: Tiền

xử lý dữ liệu, huấn luyện và lựa chọn mô hình, đánh giá và đưa ra dự đoán

Hình 1.2 Các bước thực hiện một bài toán học máy

Trang 17

Hầu hết trong các hệ thống học máy chúng ta không cần tất cả tính chấtcủa dữ liệu thô để giải quyết bài toán, mà chúng ta chỉ quan tâm đến các thuộctính có ý nghĩa đối với bài toán được gọi là đặc trưng (feature)

Bước đầu tiên trong quy trình giải quyết một bài toán học máy là bướctiền xử lý dữ liệu Đây là một trong những bước quan trọng Mục đích củabước này là làm sạch dữ liệu (cleaning data), trích xuất đặc trưng (featureextraction) chuyển đổi dữ liệu sang các kiểu nào đó mà thuật toán có thể hiểu

và thực thi

Nhiều thuật toán yêu cầu các đặc tính (feature) phải được rút gọn theo

tỷ lệ (scale) để tối ưu hiệu suất bằng cách rút gọn các giá trị xuống khoảng [0,1] hoặc có phân phối chuẩn tắc (hay standard normal distribution, là phânphối chuẩn với giá trị trung bình bằng 0 và phương sai bằng 1)

Một số đặc tính đôi khi sẽ có mối quan hệ tương quan khá lớn khôngcần thiết nên có thể cần áp dụng phương pháp hạ bậc không gian để giảm kíchthước dữ liệu và khiến thuật toán chạy nhanh hơn

Để kiểm tra hiệu quả của thuật toán, dữ liệu sẽ được chia thành hainhóm một cách ngẫu nhiên là dữ liệu đào tạo (training data) và dữ liệu kiểmthử (test data) Dữ liệu đào tạo được dùng để huấn luyện và tối ưu thuật toán,

Trang 18

trong khi dữ liệu kiểm thử dùng để kiểm tra độ chính xác và độ khái quát củathuật toán cuối.

1.1.1.2 Huấn luyện và lựa chọn mô hình

Dữ liệu đào tạo sau quá trình tiền xử lý dữ liệu sẽ được đẩy vào cácthuật toán để huấn luyện tối ưu các tham số để tạo mô hình Các thuật toánhọc máy được phát triển để giải quyết những vấn đề khác nhau Dù một sốthuật toán có thể giải quyết cùng một vấn đề nhưng chúng có ưu nhược điểmkhác nhau Do đó cần lựa chọn một số thuật toán phù hợp nhất để xây dựng

mô hình học máy và đánh giá hiệu quả giữa chúng

Một trong những thông số được sử dụng để đánh giá là độ chính xácphân loại (classification accuracy) được tính bằng tỷ lệ của số giá trị đượcthuật toán phân loại đúng so với tổng số giá trị

Trong quá trình huấn luyện chúng ta không sử dụng dữ liệu kiểm thử

và dữ liệu thực tế để huấn luyện mô hình mà dùng nó để đánh giá mô hình

Do đó một phương pháp ra đời để biết mô hình nào hoạt động hiệu quả làkiểm tra chéo (cross validation) [2] Phương pháp này tiếp tục chia nhỏ nhóm

dữ liệu đào tạo thành dữ liệu đào tạo và dữ liệu kiểm tra chéo

Khi huấn luyện mô hình chúng ta không nên tin tưởng hoàn toàn vàotham số (parameter) mặc định của thuật toán mà cần phải tinh chỉnh cả cácsiêu tham số (hyper parameter) để mô hình hoạt động hiệu quả trên cả dữ liệuđầu vào và dữ liệu thực tế

Trang 19

Hình 1.3 Phương pháp 5-Fold Cross Validation 1.1.1.3 Đánh giá mô hình và đưa ra dự đoán

Sau khi lựa chọn các mô hình và huấn luyện chúng bằng nhóm dữ liệuhuấn luyện, chúng ta sẽ dùng nhóm dữ liệu kiểm thử để đánh giá hiệu quả và

độ khái quát của mô hình đối với dữ liệu mới Nếu thấy hài lòng với kết quảđạt được, chúng ta có thể đưa mô hình vào hoạt động thực tiễn

Tuy vậy, quá trình xây dựng mô hình chưa kết thúc Chúng ta phảiđánh giá lại phản hồi của mô hình trong thực tế, cập nhật và hoàn thiện hơn

Vì trong nhiều trường hợp, bộ dữ liệu đầu vào chưa phản ánh tốt các tính chất

dữ liệu thực tế Do đó, một lưu ý khi huấn luyện mô hình là tập dữ liệu huấnluyện ban đầu phải thể hiện tốt đặc trưng của dữ liệu thực tế Giống như việcmột học sinh chỉ giỏi toán đi thi văn vậy

1.1.3 Phân loại

Có 2 cách phổ biến phân nhóm các thuật toán học máy Một là dựa trênphương thức học (learning style), hai là dựa trên chức năng (function)

1.1.1.4 Phân nhóm dựa trên phương thức học

Học máy hiện tại có 4 nhóm chính: Học giám sát, học không giám sát,học bán giám sát và học tăng cường

Học giám sát (Supervised learning)

Trang 20

Học giám sát là thuật toán dự đoán đầu ra (outcome) của một dữ liệumới (new input) dựa trên các cặp (input, outcome) đã biết từ trước Cặp dữliệu này còn được gọi là (data, label), tức (dữ liệu, nhãn) Học giám sát lànhóm phổ biến nhất trong các thuật toán học máy Hình 1 4 dưới đây mô tảquy trình mô hình học giảm sát.

Hình 1.4 Mô hình học giám sát

Thuật toán học giám sát còn được tiếp tục chia thành 2 loại chính Mộtthuật toán được gọi là phân loại (classification) nếu các nhãn (label) của dữliệu đầu vào (input data) được chia thành một số hữu hạn nhóm Ví dụ: Gmailxác định xem có một email có phải spam hay không Một thuật toán được coi

là hồi quy (regression) nếu nhãn (label) của dữ liệu ở dưới dạng giá trị liên tục(continuous values)

Học không giám sát (Unsupervised learning)

Khi sử dụng thuật toán, chúng ta không biết được đầu ra hay nhãn màchỉ có dữ liệu đầu vào Thuật toán học không giám sát sẽ dựa vào cấu trúc của

dữ liệu để thực hiện một công việc nào đó, ví dụ như phân cụm (clustering)hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việclưu trữ và tính toán Một cách toán học, học không giám sát là khi chúng tachỉ có dữ liệu đầu vào mà không biết nhãn tương ứng

Trang 21

Hình 1.5 Nén dữ liệu vẫn giữ thông tin quan trọng

Học bán giám sát (Semi-Supervised learning)

Các bài toán khi chúng ta có một lượng lớn dữ liệu nhưng chỉ một phầntrong chúng được gán nhãn được gọi là học bán giám sát Những bài toánthuộc nhóm này nằm giữa hai nhóm được nêu bên trên

Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh hoặc văn bảnđược gán nhãn (ví dụ bức ảnh về người, động vật hoặc các văn bản khoa học,chính trị) và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thuthập từ internet Thực tế cho thấy rất nhiều các bài toán học máy thuộc vàonhóm này vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phícao Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãnđược (ảnh y học chẳng hạn) Ngược lại, dữ liệu chưa có nhãn có thể được thuthập với chi phí thấp từ internet

Học tăng cường (Reinforcement learning)

Mục đích của mô hình tăng cường là phát triển một hệ thống (agent) cóthể tự tiến bộ dựa trên các tương tác với môi trường Mô hình học tăng cườnglấy thông tin/dữ liệu từ môi trường nhưng có thêm các tín hiệu phần thưởng(reward signal) và trả về kết quả dưới dạng hành động Hành động trả về sau

đó được đo lường hiệu quả thông qua một hàm đo lường tín hiệu phầnthưởng Thông qua khả năng tương tác với môi trường, hệ thống học tăng

Trang 22

cường sẽ học hỏi các chuỗi hành động nhằm tối đa phần thưởng thông quaphương pháp thử (trial and error) hoặc lên kế hoạch chi tiết trước khi thựchiện.

Hình 1.6 Mô hình học tăng cường 1.1.1.5 Phân nhóm dựa trên chức năng

Cách phân nhóm thứ 2 dựa trên chức năng của các thuật toán Một sốnhóm phổ biến gồm:

- Các thuật toán hồi quy (Regresstion algorithms) Thuật toán hồi

quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa mộtbiến phụ thuộc và một nhóm tập hợp các biến độc lập

- Các thuật toán phân loại (Classification algorithms) Các thuật

toán này giúp phân loại dữ liệu đầu vào với đầu ra là tập các dữ liệu rời rạc

- Các thuật toán dựa trên mẫu (Instance-based algorithms) Nhóm

thuật toán này thường xây dựng cơ sở dữ liệu về mẫu và so sánh dữ liệu mớivới cơ sở dữ liệu để tìm kết quả phù hợp và đưa ra dự đoán

- Các thuật toán chuẩn hóa (Regularization algorithms) Các thuật

toán chuẩn hóa ra đời để mở rộng các thuật toán đã có (điển hình là các thuậttoán hồi quy) với mục đích tạo ra mô hình đưa ra dự đoán phù hợp với dữ liệuthực tế

Trang 23

- Các thuật toán phân cụm (Clustering algorithms) Các thuật toán

này sử dụng cấu trúc ban đầu của dữ liệu để tập trung các nhóm dữ liệu có độphổ biến tối đa dựa vào trung tâm (centroid) và thứ bậc (hierarchal)

- Các thuật toán mô hình mạng nơ-ron nhân tạo (Artficial neural network algorithms) Các thuật toán này mô phỏng hoạt động hệ thần kinh

trong não bộ con người Các thuật toán này là tiền đề để xây dựng các môhình học sâu về sau

- Các thuật toán giảm chiều dữ liệu (Dimensionality reduction algorithms) Các thuật toán này cũng lấy dữ liệu vốn có của dữ liệu để tóm

tắt hay mô tả dữ liệu sử dụng ít thông tin hơn nhưng vẫn giữ được lượngthông tin quan trọng Việc này làm đơn giản hóa dữ liệu nhờ đó giảm độ phứctạp của thuật toán khác (điển hình là các thuật toán học giám sát) sau khi sửdụng dữ liệu này

- Các thuật toán tập hợp (Ensemble algorithms) Về cơ bản, các

thuật toán này là các mô hình bao gồm các mô hình yếu hơn Khi chúng đượcđào tạo thì sẽ kết hợp lại theo một cách nào đó để đưa ra dự đoán Đây là một

kỹ thuật rất mạnh và phổ biến

1.2 Giới thiệu về học sâu

1.2.1 Khái niệm và các thành phần cơ bản

Theo các giáo sư LeCun, Bengio và Hinton [3], “Học sâu (Deeplearning) cho phép các mô hình tính toán gồm nhiều tầng xử lý để học biểudiễn dữ liệu với nhiều mức trừu tượng khác nhau” Học sâu dựa trên mạngnơ-ron nhân tạo (Artificial Neural Networks) – mô hình học lấy ý tưởng từ hệthống kết nối các tế bào thần kinh trong bộ não người

Học sâu (Deep Learning) là một nhánh (mảng con) của học máy(Machine Learning) Học máy là một nhánh của trí tuệ nhân tạo Mối quan hệ

Trang 24

này mô tả trong Hình 1 7 Học sâu thực sự bắt đầu thành công từ năm 2010.Mặc dù còn nhiều hạn chế như cần dữ liệu huấn luyện lớn, tiêu tốn nhiềunguồn lực tính toán cũng như năng lượng, thời gian huấn luyện lâu, gần nhưkhông thể gỡ lỗi (debug) – hoạt động như hộp đen – học sâu đã tạo ra đột phávượt bậc gần đây, đặc biệt là lĩnh vực thị giác máy tính và xử lý ngôn ngữ tựnhiên Sự đột phá đó tạo ra làn sóng mới về đầu tư và ứng dụng trí tuệ nhântạo (Artificial Intelligence), mở ra niềm tin mạnh mẽ rằng thời đại mới đangtiến gần, khiến các quốc gia và các tổ chức phải điều chỉnh chiến lược vĩ môlấy trí tuệ nhân tạo làm trọng tâm.

Hình 1.7 Quan hệ giữa trí tuệ nhân tạo – học máy – học sâu

Học sâu còn được biết đến ngành khoa học nghiên cứu về mạng nơ-ron.Học sâu được xây dựng từ các mô hình mạng nơ-ron lấy ý tưởng tử việc môphỏng hệ thống thần kinh Mạng nơ-ron tổ chức thành các lớp (layer), tácđộng qua lại lẫn nhau tạo thành một chuỗi xử lý để đưa ra dự đoán dựa trên

dữ liệu đầu vào Việc này cũng giống như não người khi nhận thông tin từmôi trường bên ngoài để thực hiện một công việc nào đó như nhận dạng vậtthể, hành động, …

Trang 25

1.2.2 Kiến trúc mạng nơ-ron cơ bản

1.1.1.6 Perceptron cơ bản

Perceptron [4] hay còn được gọi là các nơ-ron đơn lẻ trong một môhình mạng nơ-ron Nơ-ron nhân tạo lấy ý tưởng tử nơ-ron sinh học như dướiđây:

ngưỡng quyết định b nào đó:

Trang 26

1.1.1.7 Nơ-ron Sigmoid và hàm kích hoạt

Khi perceptron nhận nhiều đầu vào và cho ra kết quả thì giá trị ta nhậnđược nằm trong tập R Nên để linh động, ta biến đổi giá trị đó thành giá trịmới nằm trong khoảng [0;1] bằng cách sử dụng hàm Sigmoid Hàm sigmoid

- Hàm số liên tục, nhận giá trị trong khoảng (0;1)

- Hàm có đạo hàm tại mọi điểm và dễ tính đạo hàm (để áp dụnggradient descent)

Ngoài hàm sigmoid, hiện nay một số hàm cũng có đặc điểm, độ hiệuquả tốt như hàm sigmoid là: tanh, ReLU, softmax … Các hàm này được gọi làhàm kích hoạt Một cách tổng quát, hàm perceptron được biểu diễn qua mộthàm kích hoạt (activation function) f (z) như sau:

Trang 27

o=f ( z )=f (w T x )

1.1.1.8 Kiến trúc mạng nơ-ron

Mạng nơ-ron là sự kết hợp của các tầng perceptron hay còn gọi làperceptron đa tầng (multilayer perceptron) như hình bên dưới:

Hình 1.10 Kiến trúc mạng nơ-ron cơ bản

Mạng nơ-ron cơ bản gồm 3 loại layer khác nhau:

- Lớp đầu vào (input layer): Thể hiện các đầu vào của mạng

- Lớp ẩn (hidden layer): Thể hiện cho việc suy luận logic của mạng

- Lớp đầu ra (output layer): Thể hiện các đầu ra của mạng

Một mạng nơ-ron chỉ có 1 lớp đầu vào và 1 lớp đầu ra nhưng có thể cónhiều lớp ẩn Ở mỗi lớp, số lượng các nút mạng (nơ-ron) có thể khác nhau tuỳthuộc vào bài toán và cách giải quyết Nhưng thường khi làm việc người ta đểcác lớp ẩn có số lượng nơ-ron bằng nhau Ngoài ra, các nơ-ron ở các lớpthường được liên kết đôi một với nhau tạo thành mạng kết nối đầy đủ (full-connected network) Khi đó ta có thể tính được kích cỡ của mạng dựa vào sốtầng và số nơ-ron

Trang 28

Giả sử số nút ra là K và y k là đầu ra thực tế của nút thứ k , còn σ k là

đầu ra ước lượng được cho nút thứ k tương ứng Khi đó, công thức hàm mất

Thời điểm đầu back-propagation sử dụng thuật toán stochastic gradientdescent (SGD) [6] Hiện nay, có nhiều thuật toán cải tiến cho SGD nhưng vẫn

Trang 29

dựa trên nền tảng là thuật toán này Trong thuật toán này có một tham số làtốc độ học (learning rate) Tốc độ học càng lớn thì quá trình học tìm thấyđiểm tối ưu càng nhanh, nhiều khi tăng tốc độ học làm mô hình học nhanhhơn nhưng lại bỏ qua điểm tối ưu của bài toán, không hội tụ được.

1.2.3 Một số kiến trúc mạng học sâu

1.1.1.10 Mạng nơ-ron tích chập (Convolutional neural network)

Mạng nơ-ron tích chập (viết tắt CNN) [7] là mô hình mạng nơ-ron nổitiếng trong lớp các bài toán thị giác máy tính (computer vision) cũng nhưnhận dạng ảnh (image recognition) Từ “tích chập” (convolution) trong toánhọc được hiểu là phép nhân tích chập các hàm khác nhau với nhau

Có 4 bước trong thiết kế mô hình CNN:

- Tích chập (Convolution): Các tín hiệu đầu vào nhận được ở giai đoạnnày

- Lấy mẫu con (Subsampling): Các đầu vào nhận được từ lớp tích chậpđược làm mịn để tránh hiện tượng nhạy cảm với nhiễu (sensitive to noise) củacác bộ lọc (filter) hoặc các biến thể nào khác

- Kích hoạt (Activation): Lớp này kiểm soát cách tín hiệu truyền từ lớpnày sang lớp khác, tương tự như các tế bào thần kinh trong não bộ chúng ta

- Kết nối đầy đủ (Fully connected): Trong bước này, các lớp của mạngđược kết nối theo cách: mọi nơ-ron lớp trước nối với nơ-ron lớp tiếp theo

Hình 1 11 mô tả mô hình mạng CNN học dữ liệu ảnh:

Trang 30

Hình 1.11 Mô hình CNN

Ưu điểm:

- Ứng dụng tốt trong các bài toán nhận dạng ảnh

- Khi một đoạn ở một khu vực trên hình ảnh được học thì mô hìnhCNN có thể nhận dạng đoạn đấy trên bất kỳ nơi nào khác trong bức ảnh

Nhược điểm:

- Mô hình CNN bị ảnh hưởng rất nhiều bởi kích cỡ và chất lượng dữliệu ảnh huấn luyện

- Mô hình này rất nhạy cảm với nhiễu

1.1.1.11 Mạng nơ-ron hồi quy (Recurrent neural network)

Mô hình mạng hồi quy (RNN) [8] sử dụng phổ biến trong các bài toánkhi mà thứ tự sắp xếp các thông tin được ưu tiên Do đó, chúng ta thường ứngdụng mạng này trong lĩnh vực: xử lý ngôn ngữ tự nhiên, tổng hợp giọng nói

và hệ thống máy dịch

RNN được gọi là hồi quy bởi vì một thao tác chung được áp dụng đồngthời cho tất cả các phần tử của chuỗi, khi đầu ra phụ thuộc vào lần tính toántrước đó Có thể tưởng tượng những mô hình này có một bộ nhớ, nơi mà mọithông tin sau khi tính toán được lưu trữ và sử dụng để tính kết quả cuối cùng

Trang 31

Hình 1.12 Một node mạng trong mô hình RNN

Mô hình mạng nơ-ron hồi quy được chia thành 2 loại:

- Mạng nơ-ron hồi quy 2 chiều (Bidirectional RNN): Đầu ra của môhình này không chỉ phụ thuộc vào đầu ra trước đó mà còn phụ thuộc vào kếtquả trong tương lai

- Mạng nơ-ron hồi quy sâu (Deep RNN): Trong loại mô hình này, mộtbước chạy qua nhiều lớp mạng cho phép tốc độ học cao hơn và chính xáchơn

RNN được áp dụng để tạo ra nhưng chatbot tiêu chuẩn Những conchatbot này được sử dụng để tương tác với khách hàng trên các trang web.RNN cũng có thể tách các ngữ âm trong một đoạn hội thoại nhờ các tín hiệu

từ sóng âm

Ưu điểm:

- Không giống các mô hình mạng nơ-ron truyền thống, RNN chia sẻcùng 1 tham số qua tất cả các bước Điều này làm giảm đáng kể số lượngtham số mà chúng ta cần tìm

- RNN có thể kết hợp với CNN để mô tả chính xác hình ảnh khôngđược gán nhãn

Nhược điểm:

Trang 32

- RNN khó có thể thực hiện tốt trên các phục thuộc dài (long-termdependency) Ví dụ trong trường hợp câu dài và đoạn có quá nhiều từ ở giữadanh từ và động từ.

- Các mô hình RNN không thể xếp chồng lên nhau thành mô hình rấtsâu Lí do là hàm kích hoạt sử dụng trong mô hình làm giảm đạo hàm qua cáclớp mạng

1.1.1.12 Mô hình sinh (Generative model)

Trong xác xuất và thông kê, mô hình sinh [9] là mô hình được sử dụng

để tạo ra giá trị của dữ liệu khi một vài tham số bị ẩn đi

Trong học máy, mô hình sinh là mô hình dự đoán trên các hàm phân bốxác suất liên hiệp

Mô hình sinh có thể học bất kỳ loại dữ liệu phân tán nào bằng phươngpháp học không giám sát Đây là nhóm mô hình phát triển mạnh mẽ trong vàinăm gần đây (điển hình là mô hình GAN [10]) Mục đích của loại mô hìnhnày là học dữ liệu ban đầu của tập dữ liệu huấn luyện để tạo các điểm dữ liệumới với một vài biến đổi

Trong học không giám sát, các mô hình sinh thực thi trên một lượng dữliệu huấn luyện, và thực hiện giảm chiều dữ liệu xuống thành các giá trị sốquan trọng Các mô hình này chạy trên các mạng nơ-ron va có khả năng nhậnbiết các thuộc tính riêng biệt của dữ liệu Các mạng nơ-ron lấy những thông

số cơ bản để hiểu về dữ liệu thế giới thực và sử dụng chúng để mô hình hóathành dữ liệu khó có thể phân biệt với dữ liệu thế giới thực

Đối nghịch với mô hình sinh mẫu là mô hình phân biệt (Discriminativemodel), loại mô hình này không quan tâm đến cách thức dữ liệu được tạo ra,chỉ phân loại dựa trên đầu vào dữ liệu

Trang 33

Hiện nay có 3 mô hình sinh được sử dụng phổ biến: GAN, VAE, based generative model Sau đây là sơ lược về các mô hình:

Flow Mô hình đối kháng sinh mẫu (Generative adversrial network) [10]:Đây là một giải pháp thông minh trong việc mô hình hóa việc tạo dữ liệu, mộtvấn để của học không giám sát Trong GAN cài đặt 2 chức năng, đại diện làcác mạng nơ-ron, Một là phần sinh (generator), hai là phần phân biệt(discriminator) Generator có gắng tối đa khả năng làm dicriminator tin rằng

dữ liệu sinh giống đầu vào, còn dicriminator hướng dẫn generator để tạo dữliệu chân thực nhất

- Bộ mã hóa tự động (Variational autoencoder) [11]: VAE thực hiện tốithiểu hàm mất mát (log-likelihood) của dữ liệu bằng cách tìm cực đại hàm cậndưới (ELBO)

- Mô hình sinh dựa vào luồng (Flow-based generative model) [12]: Môhình được xây dựng bởi một chuỗi biến đổi khả nghịch Mô hình học trực tiếp

từ phân phối dữ liệu p(x) và đảm bảo không mất dữ liệu đầu vào.

Hình 1.13 So sánh 3 loại mô hình sinh

Trang 34

1.3 Ứng dụng của học máy và học sâu

Hầu hết mọi ngành công nghiệp đang làm việc với hàm lượng lớn dữliệu đều nhận ra tầm quan trọng của công nghệ học máy, học sâu Từ những

dữ liệu có độ chính xác cao được xử lý dưới dạng thời gian thực sẽ giúp các

tổ chức vận hành hiệu quả hơn Một số ứng dụng nổi bật trong các ngành như:

- Dịch vụ tài chính Những doanh nghiệp hoạt động trong lĩnh vực tài

chính và ngân hàng sử dụng học máy và học sâu với 2 mục đích: xác định độtin cậy trong dữ liệu và ngăn chặn lừa đảo Nhà đầu tư sẽ biết các cơ hội đầu

tư hoặc thời điểm giao dịch hợp lý

- Y tế Ứng dụng các mô hình học máy, học sâu là 1 xu hướng phát

triển nhanh chóng trong ngành y tế, nhờ vào sự ra đời của các thiết bị và máycảm ứng đeo được sử dụng dữ liệu để đánh giá tình hình sức khỏe của bệnhnhân trong thời gian thực Công nghệ này còn giúp các chuyên gia trongngành y tế có khả năng xác định những xu hướng hoặc tín hiệu để cải thiệnkhả năng điều trị, chuẩn đoán bệnh

- Dầu khí Sử dụng các hệ thống xây dựng từ học máy, học sâu để tìm

kiếm những nguồn nguyên liệu mới, phân tích các mỏ dầu dưới đất, dự đoántình hình thất bại của bộ cảm biến lọc dầu, sắp xếp các kênh phân phối để đạthiệu quả và tiết kiệm chi phí, …

- Chính phủ Các tổ chức chính phủ hoạt động về an ninh công cộng

hoặc tiện ích xã hội sở hữu rất nhiều nguồn dữ liệu quan trọng có thể khaithác Khi phân tích dữ liệu cảm biến, chính phủ sẽ tăng mức độ hiệu quả củadịch vụ và tiết kiệm chi phí Công cụ này còn hỗ trợ phát hiện gian lận vàgiảm thiểu khả năng giả danh tính

- An ninh quốc phòng Các mô hình học máy giúp các hệ thống kiểm

soát an ninh hoạt động hiệu quả như: Hệ thống kiểm soát an ninh sử dụng

Trang 35

công nghệ nhận dạng mặt người, vân tay, tròng mắt, hệ thống truy tìm đốitượng tình nghi, phạm tội sử dụng truy vấn hình ảnh, câu mô tả về đối tượng,

hệ thống phát hiện vi phạm giao thông đường bộ, … Các hệ thống về pháthiện tội phạm (criminal detection) giúp các hệ thống an ninh nhận diện tộiphạm thông qua đặc điểm sinh trắc học, các hệ thống này có độ chính xác rấtcao, xử lý nhanh, có khả năng cảnh báo lực lượng an ninh, phòng ngừa, theodõi đối tượng đề phòng tình huống xấu xảy ra

Trang 36

CHƯƠNG 2 NG HIÊN CỨU MẠNG GLOW ĐỂ TÙY BIẾN ẢNH ĐỐI TƯỢNG 2.1 Vấn đề sinh ảnh phục vụ công tác điều tra

Trong các vụ án hình sự cần truy tìm đối tượng truy nã, chúng ta cần cómột bản thảo mô phỏng chân dung đối tượng Công việc này thực sự có vaitrò rất quan trọng trong công tác điều tra, phá án, truy tìm tội phạm

Việc phác họa chân dung kẻ tình nghi qua mô tả của nhân chứng hoặcnạn nhân đã có từ xa xưa, khi cần truy nã ai đó Đến đầu những năm 1880,nhà tội phạm học người Pháp Alphonse Bertillon đã phát triển hệ thống mới

để nhận diện các tù nhân đưa đến sở cảnh sát Paris, sau này gọi là nhân trắchình sự Kỹ thuật này được ứng dụng lan ra khắp châu Âu và Mỹ tại thờiđiểm đó Đến nay, một trong những kỹ thuật nhân trắc được sử dụng phổ biếnnhất hầu như không thay đổi gì sau cả thế kỷ áp dụng là phác họa pháp y(forensics sketch)

Công việc phác họa pháp y này thực sự rất phức tạp, cần có kiến thứcchuyên môn sâu về hội họa và hiểu biết về tội phạm học như kỹ năng phỏngvấn, trò chuyện để tìm ra những chi tiết chính xác Tuy nhiên, chi phí đào tạocho một nghệ sĩ pháp y là khá lớn trong khi không phải lúc nào cũng thườngxuyên vẽ những chân dung như vậy Do đó, chúng ta cần một phương pháphiệu quả hơn để thay thế công việc này

Từ những năm 1960-1970, người ta đã tìm cách sử dụng kỹ thuật đểcác cảnh sát viên không có kỹ năng về hội họa cũng có thể tự mình dựngđược chân dung nghi phạm, bằng cách sử dụng các bộ mẫu đặc điểm khuônmặt và hoán đổi các đặc điểm này cho đến khi tìm được hình ảnh gần đúngnhất với mô tả của nhân chứng Các bộ hình mẫu như vậy gọi chung là facialcomposite (tổng hợp khuôn mặt)

Trang 37

Cho đến gần đây, các bộ phần mềm có chức năng tổng hợp khuôn mặtđược sử dụng bởi lực lượng cảnh sát quốc tế hầu như đều có chung mộtphương pháp xây dựng: từng đặc điểm khuôn mặt như mắt, mũi, miệng, lôngmày… được lựa chọn từ một cơ sở dữ liệu lớn và sau đó máy tính sẽ xếpchồng các đặc điểm đó để cho ra một hình ảnh tổng hợp Hình 2 14 là mộtphần mềm như vậy.

Hình 2.14 Ảnh tạo ra từ công cụ Identi-Kit 2000

Khi lực lượng công an phát lệnh truy nã một ai đó, chúng ta cần mộtbản chân dung mặt người giống với đối tượng tình nghi nhất có thể Côngviệc này thực sự rất khó và mất thời gian trong thời kỳ đầu Tuy nhiên, các bộcông cụ về nhân sinh trắc học có khả năng mô phỏng lại đối tượng tình nghinhưng chi phí khá cao và việc sử dụng bộ công cụ cũng khá thủ công

Thời điểm hiện tại, khi mà các ứng dụng của trí tuệ nhân tạo, đặc biệt làứng dụng các mô hình học sâu trong xử lý dữ liệu rất hiệu quả thì việc sinhảnh theo ý muốn của mình là khả thi Bằng việc sử dụng các mô hình sinh

Trang 38

(generative model) có thể học được các đặc trưng của ảnh mặt người và sinh

ra mẫu rất chân thực theo tùy chỉnh của mình Ứng dụng trí tuệ nhân tạo thực

sự là lựa chọn tốt có khả năng thay thế các bộ công cụ phác họa thủ công thời

kỳ trước

Mô hình mạng nơ-ron GLOW là một mô hình thuộc nhóm mô hìnhsinh (generative model) Mô hình này tạo ra nhằm khắc phục 2 vấn đề: thiếu

dữ liệu đầu vào và tránh mất mát khi truyền thông tin trong mạng nơ-ron

2.2 Các thuật toán sinh ảnh

2.2.1 Mô hình đối kháng sinh mẫu (Generative adversrial network)

ngầm (latent code) z.

Trang 39

Hình 2.15 Sơ đồ hoạt động của GAN

Generator lấy một đầu vào ngẫu nhiên và cố gắng sinh ra được mẫu của

dữ liệu Như mô tả ở Hình 2 15, generator G( )z lấy đầu vào z từ p ( )z z với z

là mẫu thuộc phân phối xác xuất p( )z , được sinh ngẫu nhiên từ không gian ẩn

(latent space), sau đó gán thêm nhiễu (noise) Mẫu sinh ra từ G( )z được nạp

vào Discriminator network D(x) Công việc của Discriminator network là lấyđầu vào từ tập huấn luyện là các mẫu thực (real sample) và mẫu được sinh ra

từ G (generated sample) để xác định xem mẫu nào mới là thật Mẫu thực(Real sample) x được lấy từ phân phối xác suất pdata(x)

D(x) giải quyết bài toán phân loại nhị phân (binary classification) bằngcách sử dụng hàm sigmoid, trả về kết quả khoảng từ 0 đến 1, với xác suất đầu

ra càng cao thì khả năng mẫu đó là thật (sample lấy từ tập dữ liệu) càng lớn,

và ngược lại

Trang 40

D được huấn luyện để tối đa xác suất gán đúng nhãn cho mẫu, đồngthời G lại được huấn luyện để tối thiểu khả năng phát hiện của D, tươngđương tối thiểu log(1 D G z( ( )).

Nói cách khác, việc huấn luyện D và G tương ứng với trò chơi minimaxgiữa hai người cho hàm số:

E D x là giá trị kỳ vọng khả năng mẫu từ phân phối huấn

luyện được D đánh giá dữ liệu thật Giá trị này càng cao thì khả năng đánh giá

dữ liệu huấn luyện của D càng chính xác

Tổng thể, D cố gắng tìm cực đại ( , )V D G trong khi G thì ngược lại.

Quá trình huấn luyện sẽ hội tụ khi

1( )2

g data

D không thểphân biệt được 1 mẫu là thật hay giả (xác suất đều là 0.5)

1.1.1.14 Quá trình huấn luyện

Bước 1: Huấn luyện Discriminator network, cố định Generatornetwork

Định dạng
Số trang	91
Dung lượng	11,99 MB