Hiện nay tình hình tội phạm ngày càng phức tạp và tinh vi, nhiều ứng dụng khoa học công nghệ cao ngày càng được áp dụng rộng rãi trong công tác điều tra, đấu tranh phòng, chống tội phạm. Sự gia tăng của số lượng, tính chất, mức độ nguy hiểm của tội phạm càng khiến cho công tác điều tra, phá án của lực lượng công an càng khó khăn. Công nghệ hiện đại giờ đây có thể cho phép các nhà điều tra dự báo và ngăn chặn tội ác trước khi nó diễn ra. Một trong những phương pháp được quan tâm nghiên cứu hiện nay là sử dụng các giải thuật học máy.
Trang 1trường Đại học Công nghệ đã tận tình giảng dạy, trang bị cho em những kiến thức quý báu và tạo điều kiện thuận lợi để em thực hiện đề tài tốt nghiệp này.
Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc tới thầy Tạ Việt Cường đã tận tình hướng dẫn chỉ bảo em trong quá trình thực hiện đề tài Mặc dù đã cố gắng hoàn thành khóa luận trong phạm vi và khả năng cho phép nhưng chắc chắn sẽ không tránh khỏi những thiếu sót.
Em rất mong nhận được sự thông cảm, góp ý và tận tình chỉ bảo của quý thầy cô và các bạn.
Trang 2AI GLOW để tùy biến ảnh đối tượng nhằm hỗ trợ công tác điều tra” là công trình nghiên cứu của bản thân em, các số liệu sử dụng trong khóa luận là trung thực, các tham khảo có nguồn trích dẫn rõ ràng; kết quả nghiên cứu khóa luận không sao chép của bất kỳ công trình nào.
Em xin hoàn toàn chịu trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của em
Hà Nội, tháng 08 năm 2019
Trang 3CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ HỌC MÁY, HỌC SÂU 6
1.1 Giới thiệu về học máy 6
1.1.1 Khái niệm 6
1.1.2 Quy trình cơ bản của học máy 7
1.1.3 Phân loại 10
1.2 Giới thiệu về học sâu 14
1.2.1 Khái niệm và các thành phần cơ bản 14
1.2.2 Kiến trúc mạng nơ-ron cơ bản 16
1.2.3 Một số kiến trúc mạng học sâu 20
1.3 Ứng dụng của học máy và học sâu 25
CHƯƠNG 2 NGHIÊN CỨU MẠNG GLOW ĐỂ TÙY BIẾN ẢNH ĐỐI TƯỢNG 27
2.1 Vấn đề sinh ảnh phục vụ công tác điều tra 27
2.2 Các thuật toán sinh ảnh 29
2.2.1 Mô hình đối kháng sinh mẫu (Generative adversrial network) 29
2.2.2 Bộ mã hóa tự động biến đổi (Variational auto-encoder) 34
2.2.3 Mô hình sinh dựa vào luồng (Flow-based generative model) 40
2.3 Mô hình GLOW 45
2.3.1 Mô hình sinh Flow-based 45
2.3.2 Luồng sinh 48
CHƯƠNG 3 CÀI ĐẶT THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 52
Trang 43.2.1 Cơ sở dữ liệu thử nghiệm 54
3.2.2 Giao diện chương trình 58
3.3 Kết quả thử nghiệm 60
3.3.1 Trộn ảnh 60
3.3.2 Tùy chỉnh đặc trưng 62
KẾT LUẬN 70
DANH MỤC TÀI LIỆU THAM KHẢO 71
PHỤ LỤC 73
Trang 5Hình 1.2 Các bước thực hiện một bài toán học máy 7
Hình 1.3 Phương pháp 5-Fold Cross Validation 10
Hình 1.4 Mô hình học giám sát 11
Hình 1.5 Nén dữ liệu vẫn giữ thông tin quan trọng 12
Hình 1.6 Mô hình học tăng cường 13
Hình 1.7 Quan hệ giữa trí tuệ nhân tạo – học máy – học sâu 15
Hình 1.8 Nơ-ron sinh học 16
Hình 1.9 Một perceptron cơ bản 16
Hình 1.10 Kiến trúc mạng nơ-ron cơ bản 18
Hình 1.11 Mô hình CNN 21
Hình 1.12 Một node mạng trong mô hình RNN 22
Hình 1.13 So sánh 3 loại mô hình sinh 24
Hình 2.1 Ảnh tạo ra từ công cụ Identi-Kit 2000 28
Hình 2.2 Sơ đồ hoạt động của GAN 30
Hình 2.3 Huấn luyện Discriminator network, cố định Generator network 31
Hình 2.4 Huấn luyện Generator network, cố định Discriminator network 32
Hình 2.5 GAN sinh ảnh từ text thành image 33
Hình 2.6 GAN tạo ra những bức ảnh có độ phân giải cao 33
Hình 2.7 GAN sinh ảnh từ một ảnh khác 34
Hình 2.8 Cách giải mã ảnh thành các thuộc tính ẩn 35
Hình 2.9 VAE giải mã sử dụng phân phối xác suất của thuộc tính 35
Hình 2.10 2 hình ảnh rất giống nhau sinh ra từ các bộ biến ẩn khác nhau 36
Hình 2.11 Quá trình ánh xạ của biến 37
Hình 2.12 Mô hình VAE 38
Hình 2.13 Thêm biến để tính toán mối quan hệ 38
Trang 6Hình 2.16 Mô hình luồng chuẩn hóa 41
Hình 2.17 Sơ đồ luồng chuẩn hóa trong mô hình GLOW 47
Hình 2.18 So sánh ba biến thể - hàm nghịch đảo trong RealNVP, một hoán vị ngẫu nhiên cố định và tích chập 1 1 khả nghịch 50
Hình 3.1 Ví dụ một số ảnh với các thuộc tính 55
Hình 3.2 5 vị trí đánh dấu trên khuôn mặt 56
Hình 3.3 Nhãn của 5 thuộc tính của 5 bức ảnh đầu tiên 56
Hình 3.4 Quy trình tải ảnh từ Google image 57
Hình 3.5 Ví dụ 10 ảnh Chi pu được thu thập từ Internet 57
Hình 3.6 Lưới gồm 100 ảnh người Việt sau khi trích chọn khuôn mặt 58
Hình 3.7 Giao diện tùy chỉnh thuộc tính ảnh 59
Hình 3.8 Giao diện trộn 2 bức ảnh 59
Hình 3.9 Loạt ảnh sinh ra bằng phép nội suy tuyến tính đối với bộ dữ liệu CelebA 60
Hình 3.10 Loạt ảnh sinh ra bằng phép nội suy của mô hình GLOW đối với bộ dữ liệu CelebA 60
Hình 3.11 Loạt ảnh sinh ra bằng phép nội suy tuyến tính đối với bộ dữ liệu người Việt Nam 61
Hình 3.12 Loạt ảnh sinh ra bằng phép nội suy của mô hình GLOW đối với bộ dữ liệu người Việt Nam 61
Hình 3.13 Ví dụ về tùy chỉnh thuộc tính khuôn mặt trên một mặt người 62
Hình 3.14 Các mẫu ảnh theo thuộc tính của dữ liệu tốt 63
Hình 3.15 Mẫu ảnh đối tượng sau khi lựa chọn, tinh chỉnh đặc trưng là người Châu Âu 64
Hình 3.16 Các mẫu ảnh theo thuộc tính của dữ liệu người Việt 65
Trang 7Hình 3.18 Mẫu ảnh đối tượng nam sau khi lựa chọn, tinh chỉnh đặc trưng làngười Việt Nam 67Hình 3.19 Các mẫu theo thuộc tính của dữ liệu trung bình 68Hình 3.20 Một vài ảnh nhận dạng thành công nhưng sinh ảnh không tốt 68
Trang 8Bảng 3.1 40 thuộc tính được sử dụng 55
Trang 9T Viết tắt Viết đầy đủ tiếng nước ngoài Viết đầy đủ
1 AI Artificial Intelligence Trí tuệ nhân tạo
2 ANN Artificial Neural Networks Mạng nơ-ron nhân tạo
6 CNN Convolutional Neural Network Mạng nơ-ron tích chập
7 RNN Recurrent Neural Network Mạng nơ-ron hồi quy
8 GAN Generative Adversrial
Network Mạng đối kháng sinh mẫu
9 VAE Variational Auto-Encoder Bộ mã hóa tự động
10 MLP Multi Layer Perceptron Mạng Perceptron nhiều
lớp
Trang 10LỜI MỞ ĐẦU
1 Tính cấp thiết của đề tài
Ngày nay, trí tuệ nhân tạo đang góp phần thay đổi sâu sắc nhiều khíacạnh của cuộc sống, dần trở thành một yếu tố quan trọng trong hoạt độngmuôn màu muôn vẻ của nhân loại Nhiều bức tranh về tương lai xán lạn do trítuệ nhân tạo mang tới cho loài người đã được khắc họa Riêng về mặt kinh tế,một nghiên cứu của PwC cho thấy trí tuệ nhân tạo trở thành cơ hội thươngmại lớn nhất ngày nay trong nền kinh tế toàn cầu đang thay đổi nhanh chóngvới phần đóng góp của trí tuệ nhân tạo lên tới 15.700 tỷ USD vào năm 2030.Chính vì đó, trí tuệ nhân tạo đã trở thành cuộc đua toàn cầu của hai siêucường kinh tế là Mỹ và Trung Quốc, đồng thời, nhiều nước trên thế giới đã vàđang tiến hành xây dựng chiến lược phát triển trí tuệ nhân tạo quốc gia họ
Tư tưởng “Trí tuệ nhân tạo cùng con người, Trí tuệ nhân tạo vì nhânloại” cần được thấm nhuần và thực thi ở mọi tổ chức xã hội Nhận thức đúngđắn về Trí tuệ nhân tạo, về tương lại của Trí tuệ nhân tạo và các vấn đề liênquan tới Trí tuệ nhân tạo (đặc biệt là các khía cạnh đạo đức và an toàn Trí tuệnhân tạo) là một nội dung quan trọng trong chiến lược phát triển Trí tuệ nhântạo quốc gia của nhiều nước trên thế giới
Hiện nay tình hình tội phạm ngày càng phức tạp và tinh vi, nhiều ứngdụng khoa học công nghệ cao ngày càng được áp dụng rộng rãi trong công tácđiều tra, đấu tranh phòng, chống tội phạm Sự gia tăng của số lượng, tínhchất, mức độ nguy hiểm của tội phạm càng khiến cho công tác điều tra, phá
án của lực lượng công an càng khó khăn Công nghệ hiện đại giờ đây có thểcho phép các nhà điều tra dự báo và ngăn chặn tội ác trước khi nó diễn ra.Một trong những phương pháp được quan tâm nghiên cứu hiện nay là sử dụngcác giải thuật học máy trong dự đoán khuôn mặt tội phạm phục vụ công tácđiều tra, trinh sát Để đi sâu tìm hiểu và đánh giá hiệu quả của học máy trong
Trang 11tùy biến ảnh mặt người, từ đó ứng dụng trong công tác nghiệp vụ Ngành, tôi
lựa chọn đề tài nghiên cứu “Nghiên cứu ứng dụng mạng OPEN AI GLOW
để tùy biến ảnh đối tượng nhằm hỗ trợ công tác điều tra” Nội dung
nghiên cứu của đề tài là bước nghiên cứu mang tính tiền đề để có thể thựchiện những nghiên cứu chuyên sâu tiếp theo về ứng dụng của học máy trongtùy biến ảnh đối tượng nói riêng và trong các bài toán xử lý ảnh nói chung
2 Tình hình nghiên cứu liên quan
Trong những năm gần đây đã có nhiều nghiên cứu về bài toán sinh ảnhmặt người Với công nghệ hiện tại, chúng ta có thể tạo ra một bức ảnh khuônmặt theo ý của mình bằng một số phương pháp như: phác họa thủ công bằngtay; sử dụng các phần mềm chỉnh ảnh như photoshop, paint.net,…; sử dụng
hệ thống sinh trắc học hiện đại được áp dụng trên thế giới Để hỗ trợ lựclượng công an trong điều tra, truy tìm tội phạm, chúng ta áp dụng bài toántrên để tạo ra một bức ảnh phác họa mặt người giúp cho việc phá án, tìm hungthủ trở nên dễ dàng hơn Hệ thống phác họa mặt người đang được lực lượngcảnh sát trên thế giới rất quan tâm và đã hỗ trợ họ rất nhiều trong những vụ ánlớn
Đề tài nghiên cứu được nêu ra với mục đích giúp giải quyết bài toán trởnên đơn giản hơn, nhanh hơn bằng cách ứng dụng trí tuệ nhân tạo trong bàitoán tùy biến ảnh đối tượng hỗ trợ việc điều tra, phá án của lực lượng công
an Tuy nhiên, đây vẫn còn là lĩnh vực mới với nhiều vấn đề cần tiếp tục,nghiên cứu giải quyết Việc nghiên cứu và ứng dụng trí tuệ nhân tạo để giảiquyết bài toán này của lực lượng cảnh sát các nước vẫn còn rất hạn chế Hiệntại, Việt Nam vẫn chưa có hệ thống nào như vậy Do đó, việc lựa chọn đề tàinày không trùng lặp bất cứ đề tài nghiên cứu nào đã được công bố trong Đạihọc Công nghệ
3 Mục tiêu và nhiệm vụ nghiên cứu
Trang 12Về mục tiêu nghiên cứu:
- Nghiên cứu mô hình mạng nơ-ron sâu GLOW ứng dụng để tùy biếnảnh mặt người nhằm hỗ trợ công tác điều tra, phá án
- Khắc phục được một số nhược điểm khi sinh ảnh và trích xuất thôngtin của các mô hình hiện tại
Về nhiệm vụ nghiên cứu:
- Nghiên cứu tổng quan bài toán sinh ảnh mặt người sử dụng học máy,các ưu và nhược điểm của một số giải thuật tại thời điểm hiện tại
- Tìm hiểu về mạng GLOW phục vụ việc tùy biến ảnh đối tượng
- Cài đặt, chạy thử nghiệm và đánh giá hiệu quả của mô hình trong việcsinh ảnh mặt người
4 Đối tượng và phạm vi nghiên cứu
Về đối tượng nghiên cứu:
- Nghiên cứu những vấn đề cơ bản trong học máy và học sâu
- Nghiên cứu những vấn đề cơ bản trong bài toán sinh ảnh
- Nghiên cứu một số kiến trúc mạng nơ-ron học sâu
5 Phương pháp nghiên cứu
Trang 13Trong quá trình nghiên cứu, các phương pháp đã được áp dụng cụ thểlà:
- Phương pháp phân tích và tổng hợp lý thuyết: Tổng hợp, phân tíchcác bài báo, công trình khoa học được kiểm chứng liên quan đến bài toán
- Phương pháp khảo sát thực tế
- Phương pháp chuyên gia: Học hỏi, trao đổi với các chuyên gia tronglĩnh vực học máy, học sâu để có cái nhìn tổng quan với bài toán đang nghiêncứu
- Phương pháp thực nghiệm khoa học
6 Ý nghĩa khoa học, ý nghĩa thực tiễn
- Ý nghĩa khoa học: Khóa luận áp dụng được xu hướng của thời đại sử
dụng trí tuệ nhân tạo vào phục vụ các công việc trong đời sống của con người.Thực hiện nghiên cứu mạng GLOW ứng dụng trong bài toán sinh ảnh mặtngười
- Ý nghĩa thực tiễn: Đề xuất mô hình có tiềm năng ứng dụng trong thực
tiễn Đánh giá hiệu quả của mô hình trong việc tùy biến ảnh đối tượng hỗ trợcông tác điều tra
7 Kết cấu đề tài
Ngoài phần mở đầu, kết luận, danh mục tài liệu tham khảo và phụ lục,
đề tài được cấu trúc gồm 3 chương:
Chương 1: Giới thiệu chung về học máy, học sâu Chương này trình
bày những kiến thức chung nhất về học máy, học sâu: Khái niệm, quy trình,phân loại, vai trò, xu hướng
Chương 2: Nghiên cứu mạng GLOW để tùy biến ảnh đối tượng.
Trong chương này trình bày cơ bản về bài toán, đi sâu tìm hiểu các mô hình
Trang 14học sâu ứng dụng trong bài toán sinh ảnh Nghiên cứu mạng GLOW để tùybiến ảnh đối tượng nhằm hỗ trợ công tác điều tra.
Chương 3: Cài đặt thực nghiệm và đánh giá kết quả Trong chương
cuối, đưa ra hướng áp dụng một số nền tảng công nghệ hiện tại để xây dựnggiao diện chương trình cho bài toán, đánh giá hiệu quả ứng dụng mô hìnhmạng GLOW trong việc tùy biến ảnh đối tượng
Trang 15CHƯƠNG 1 GIỚI THIỆU CHUNG VỀ HỌC MÁY, HỌC SÂU 1.1 Giới thiệu về học máy
Ví dụ: Nếu muốn chương trình của bạn dự đoán về lưu lượng xe trênmột con đường quốc lộ đông đúc (tác vụ T), bạn sẽ chạy nó thông qua mộtthuật toán máy học bao gồm dữ liệu có được về lưu lượng xe trong quá khứ(kinh nghiệm E) Sau khi “học” xong, máy sẽ có thể dự đoán về lưu lượng xetrong tương lai (độ chính xác P) Tóm lại, thay vì được lập trình cụ thể bằngtay với hàng loạt đoạn mã, hướng dẫn để thực hiện một nhiệm vụ cụ thể, máytính được “huấn luyện” sử dụng một lượng lớn dữ liệu và các thuật toán đểhọc cách thực hiện nhiệm vụ
Trang 16Hình 1.1 Quy trình học máy theo Tom Mitchell
1.1.2 Quy trình cơ bản của học máy
Quy tình tổng quát xây dựng một hệ thống học máy gồm 3 bước: Tiền
xử lý dữ liệu, huấn luyện và lựa chọn mô hình, đánh giá và đưa ra dự đoán
Hình 1.2 Các bước thực hiện một bài toán học máy
Trang 17Hầu hết trong các hệ thống học máy chúng ta không cần tất cả tính chấtcủa dữ liệu thô để giải quyết bài toán, mà chúng ta chỉ quan tâm đến các thuộctính có ý nghĩa đối với bài toán được gọi là đặc trưng (feature)
Bước đầu tiên trong quy trình giải quyết một bài toán học máy là bướctiền xử lý dữ liệu Đây là một trong những bước quan trọng Mục đích củabước này là làm sạch dữ liệu (cleaning data), trích xuất đặc trưng (featureextraction) chuyển đổi dữ liệu sang các kiểu nào đó mà thuật toán có thể hiểu
và thực thi
Nhiều thuật toán yêu cầu các đặc tính (feature) phải được rút gọn theo
tỷ lệ (scale) để tối ưu hiệu suất bằng cách rút gọn các giá trị xuống khoảng [0,1] hoặc có phân phối chuẩn tắc (hay standard normal distribution, là phânphối chuẩn với giá trị trung bình bằng 0 và phương sai bằng 1)
Một số đặc tính đôi khi sẽ có mối quan hệ tương quan khá lớn khôngcần thiết nên có thể cần áp dụng phương pháp hạ bậc không gian để giảm kíchthước dữ liệu và khiến thuật toán chạy nhanh hơn
Để kiểm tra hiệu quả của thuật toán, dữ liệu sẽ được chia thành hainhóm một cách ngẫu nhiên là dữ liệu đào tạo (training data) và dữ liệu kiểmthử (test data) Dữ liệu đào tạo được dùng để huấn luyện và tối ưu thuật toán,
Trang 18trong khi dữ liệu kiểm thử dùng để kiểm tra độ chính xác và độ khái quát củathuật toán cuối.
1.1.1.2 Huấn luyện và lựa chọn mô hình
Dữ liệu đào tạo sau quá trình tiền xử lý dữ liệu sẽ được đẩy vào cácthuật toán để huấn luyện tối ưu các tham số để tạo mô hình Các thuật toánhọc máy được phát triển để giải quyết những vấn đề khác nhau Dù một sốthuật toán có thể giải quyết cùng một vấn đề nhưng chúng có ưu nhược điểmkhác nhau Do đó cần lựa chọn một số thuật toán phù hợp nhất để xây dựng
mô hình học máy và đánh giá hiệu quả giữa chúng
Một trong những thông số được sử dụng để đánh giá là độ chính xácphân loại (classification accuracy) được tính bằng tỷ lệ của số giá trị đượcthuật toán phân loại đúng so với tổng số giá trị
Trong quá trình huấn luyện chúng ta không sử dụng dữ liệu kiểm thử
và dữ liệu thực tế để huấn luyện mô hình mà dùng nó để đánh giá mô hình
Do đó một phương pháp ra đời để biết mô hình nào hoạt động hiệu quả làkiểm tra chéo (cross validation) [2] Phương pháp này tiếp tục chia nhỏ nhóm
dữ liệu đào tạo thành dữ liệu đào tạo và dữ liệu kiểm tra chéo
Khi huấn luyện mô hình chúng ta không nên tin tưởng hoàn toàn vàotham số (parameter) mặc định của thuật toán mà cần phải tinh chỉnh cả cácsiêu tham số (hyper parameter) để mô hình hoạt động hiệu quả trên cả dữ liệuđầu vào và dữ liệu thực tế
Trang 19Hình 1.3 Phương pháp 5-Fold Cross Validation 1.1.1.3 Đánh giá mô hình và đưa ra dự đoán
Sau khi lựa chọn các mô hình và huấn luyện chúng bằng nhóm dữ liệuhuấn luyện, chúng ta sẽ dùng nhóm dữ liệu kiểm thử để đánh giá hiệu quả và
độ khái quát của mô hình đối với dữ liệu mới Nếu thấy hài lòng với kết quảđạt được, chúng ta có thể đưa mô hình vào hoạt động thực tiễn
Tuy vậy, quá trình xây dựng mô hình chưa kết thúc Chúng ta phảiđánh giá lại phản hồi của mô hình trong thực tế, cập nhật và hoàn thiện hơn
Vì trong nhiều trường hợp, bộ dữ liệu đầu vào chưa phản ánh tốt các tính chất
dữ liệu thực tế Do đó, một lưu ý khi huấn luyện mô hình là tập dữ liệu huấnluyện ban đầu phải thể hiện tốt đặc trưng của dữ liệu thực tế Giống như việcmột học sinh chỉ giỏi toán đi thi văn vậy
1.1.3 Phân loại
Có 2 cách phổ biến phân nhóm các thuật toán học máy Một là dựa trênphương thức học (learning style), hai là dựa trên chức năng (function)
1.1.1.4 Phân nhóm dựa trên phương thức học
Học máy hiện tại có 4 nhóm chính: Học giám sát, học không giám sát,học bán giám sát và học tăng cường
Học giám sát (Supervised learning)
Trang 20Học giám sát là thuật toán dự đoán đầu ra (outcome) của một dữ liệumới (new input) dựa trên các cặp (input, outcome) đã biết từ trước Cặp dữliệu này còn được gọi là (data, label), tức (dữ liệu, nhãn) Học giám sát lànhóm phổ biến nhất trong các thuật toán học máy Hình 1 4 dưới đây mô tảquy trình mô hình học giảm sát.
Hình 1.4 Mô hình học giám sát
Thuật toán học giám sát còn được tiếp tục chia thành 2 loại chính Mộtthuật toán được gọi là phân loại (classification) nếu các nhãn (label) của dữliệu đầu vào (input data) được chia thành một số hữu hạn nhóm Ví dụ: Gmailxác định xem có một email có phải spam hay không Một thuật toán được coi
là hồi quy (regression) nếu nhãn (label) của dữ liệu ở dưới dạng giá trị liên tục(continuous values)
Học không giám sát (Unsupervised learning)
Khi sử dụng thuật toán, chúng ta không biết được đầu ra hay nhãn màchỉ có dữ liệu đầu vào Thuật toán học không giám sát sẽ dựa vào cấu trúc của
dữ liệu để thực hiện một công việc nào đó, ví dụ như phân cụm (clustering)hoặc giảm số chiều của dữ liệu (dimension reduction) để thuận tiện trong việclưu trữ và tính toán Một cách toán học, học không giám sát là khi chúng tachỉ có dữ liệu đầu vào mà không biết nhãn tương ứng
Trang 21Hình 1.5 Nén dữ liệu vẫn giữ thông tin quan trọng
Học bán giám sát (Semi-Supervised learning)
Các bài toán khi chúng ta có một lượng lớn dữ liệu nhưng chỉ một phầntrong chúng được gán nhãn được gọi là học bán giám sát Những bài toánthuộc nhóm này nằm giữa hai nhóm được nêu bên trên
Một ví dụ điển hình của nhóm này là chỉ có một phần ảnh hoặc văn bảnđược gán nhãn (ví dụ bức ảnh về người, động vật hoặc các văn bản khoa học,chính trị) và phần lớn các bức ảnh/văn bản khác chưa được gán nhãn được thuthập từ internet Thực tế cho thấy rất nhiều các bài toán học máy thuộc vàonhóm này vì việc thu thập dữ liệu có nhãn tốn rất nhiều thời gian và có chi phícao Rất nhiều loại dữ liệu thậm chí cần phải có chuyên gia mới gán nhãnđược (ảnh y học chẳng hạn) Ngược lại, dữ liệu chưa có nhãn có thể được thuthập với chi phí thấp từ internet
Học tăng cường (Reinforcement learning)
Mục đích của mô hình tăng cường là phát triển một hệ thống (agent) cóthể tự tiến bộ dựa trên các tương tác với môi trường Mô hình học tăng cườnglấy thông tin/dữ liệu từ môi trường nhưng có thêm các tín hiệu phần thưởng(reward signal) và trả về kết quả dưới dạng hành động Hành động trả về sau
đó được đo lường hiệu quả thông qua một hàm đo lường tín hiệu phầnthưởng Thông qua khả năng tương tác với môi trường, hệ thống học tăng
Trang 22cường sẽ học hỏi các chuỗi hành động nhằm tối đa phần thưởng thông quaphương pháp thử (trial and error) hoặc lên kế hoạch chi tiết trước khi thựchiện.
Hình 1.6 Mô hình học tăng cường 1.1.1.5 Phân nhóm dựa trên chức năng
Cách phân nhóm thứ 2 dựa trên chức năng của các thuật toán Một sốnhóm phổ biến gồm:
- Các thuật toán hồi quy (Regresstion algorithms) Thuật toán hồi
quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa mộtbiến phụ thuộc và một nhóm tập hợp các biến độc lập
- Các thuật toán phân loại (Classification algorithms) Các thuật
toán này giúp phân loại dữ liệu đầu vào với đầu ra là tập các dữ liệu rời rạc
- Các thuật toán dựa trên mẫu (Instance-based algorithms) Nhóm
thuật toán này thường xây dựng cơ sở dữ liệu về mẫu và so sánh dữ liệu mớivới cơ sở dữ liệu để tìm kết quả phù hợp và đưa ra dự đoán
- Các thuật toán chuẩn hóa (Regularization algorithms) Các thuật
toán chuẩn hóa ra đời để mở rộng các thuật toán đã có (điển hình là các thuậttoán hồi quy) với mục đích tạo ra mô hình đưa ra dự đoán phù hợp với dữ liệuthực tế
Trang 23- Các thuật toán phân cụm (Clustering algorithms) Các thuật toán
này sử dụng cấu trúc ban đầu của dữ liệu để tập trung các nhóm dữ liệu có độphổ biến tối đa dựa vào trung tâm (centroid) và thứ bậc (hierarchal)
- Các thuật toán mô hình mạng nơ-ron nhân tạo (Artficial neural network algorithms) Các thuật toán này mô phỏng hoạt động hệ thần kinh
trong não bộ con người Các thuật toán này là tiền đề để xây dựng các môhình học sâu về sau
- Các thuật toán giảm chiều dữ liệu (Dimensionality reduction algorithms) Các thuật toán này cũng lấy dữ liệu vốn có của dữ liệu để tóm
tắt hay mô tả dữ liệu sử dụng ít thông tin hơn nhưng vẫn giữ được lượngthông tin quan trọng Việc này làm đơn giản hóa dữ liệu nhờ đó giảm độ phứctạp của thuật toán khác (điển hình là các thuật toán học giám sát) sau khi sửdụng dữ liệu này
- Các thuật toán tập hợp (Ensemble algorithms) Về cơ bản, các
thuật toán này là các mô hình bao gồm các mô hình yếu hơn Khi chúng đượcđào tạo thì sẽ kết hợp lại theo một cách nào đó để đưa ra dự đoán Đây là một
kỹ thuật rất mạnh và phổ biến
1.2 Giới thiệu về học sâu
1.2.1 Khái niệm và các thành phần cơ bản
Theo các giáo sư LeCun, Bengio và Hinton [3], “Học sâu (Deeplearning) cho phép các mô hình tính toán gồm nhiều tầng xử lý để học biểudiễn dữ liệu với nhiều mức trừu tượng khác nhau” Học sâu dựa trên mạngnơ-ron nhân tạo (Artificial Neural Networks) – mô hình học lấy ý tưởng từ hệthống kết nối các tế bào thần kinh trong bộ não người
Học sâu (Deep Learning) là một nhánh (mảng con) của học máy(Machine Learning) Học máy là một nhánh của trí tuệ nhân tạo Mối quan hệ
Trang 24này mô tả trong Hình 1 7 Học sâu thực sự bắt đầu thành công từ năm 2010.Mặc dù còn nhiều hạn chế như cần dữ liệu huấn luyện lớn, tiêu tốn nhiềunguồn lực tính toán cũng như năng lượng, thời gian huấn luyện lâu, gần nhưkhông thể gỡ lỗi (debug) – hoạt động như hộp đen – học sâu đã tạo ra đột phávượt bậc gần đây, đặc biệt là lĩnh vực thị giác máy tính và xử lý ngôn ngữ tựnhiên Sự đột phá đó tạo ra làn sóng mới về đầu tư và ứng dụng trí tuệ nhântạo (Artificial Intelligence), mở ra niềm tin mạnh mẽ rằng thời đại mới đangtiến gần, khiến các quốc gia và các tổ chức phải điều chỉnh chiến lược vĩ môlấy trí tuệ nhân tạo làm trọng tâm.
Hình 1.7 Quan hệ giữa trí tuệ nhân tạo – học máy – học sâu
Học sâu còn được biết đến ngành khoa học nghiên cứu về mạng nơ-ron.Học sâu được xây dựng từ các mô hình mạng nơ-ron lấy ý tưởng tử việc môphỏng hệ thống thần kinh Mạng nơ-ron tổ chức thành các lớp (layer), tácđộng qua lại lẫn nhau tạo thành một chuỗi xử lý để đưa ra dự đoán dựa trên
dữ liệu đầu vào Việc này cũng giống như não người khi nhận thông tin từmôi trường bên ngoài để thực hiện một công việc nào đó như nhận dạng vậtthể, hành động, …
Trang 251.2.2 Kiến trúc mạng nơ-ron cơ bản
1.1.1.6 Perceptron cơ bản
Perceptron [4] hay còn được gọi là các nơ-ron đơn lẻ trong một môhình mạng nơ-ron Nơ-ron nhân tạo lấy ý tưởng tử nơ-ron sinh học như dướiđây:
ngưỡng quyết định b nào đó:
Trang 261.1.1.7 Nơ-ron Sigmoid và hàm kích hoạt
Khi perceptron nhận nhiều đầu vào và cho ra kết quả thì giá trị ta nhậnđược nằm trong tập R Nên để linh động, ta biến đổi giá trị đó thành giá trịmới nằm trong khoảng [0;1] bằng cách sử dụng hàm Sigmoid Hàm sigmoid
- Hàm số liên tục, nhận giá trị trong khoảng (0;1)
- Hàm có đạo hàm tại mọi điểm và dễ tính đạo hàm (để áp dụnggradient descent)
Ngoài hàm sigmoid, hiện nay một số hàm cũng có đặc điểm, độ hiệuquả tốt như hàm sigmoid là: tanh, ReLU, softmax … Các hàm này được gọi làhàm kích hoạt Một cách tổng quát, hàm perceptron được biểu diễn qua mộthàm kích hoạt (activation function) f (z) như sau:
Trang 27o=f ( z )=f (w T x )
1.1.1.8 Kiến trúc mạng nơ-ron
Mạng nơ-ron là sự kết hợp của các tầng perceptron hay còn gọi làperceptron đa tầng (multilayer perceptron) như hình bên dưới:
Hình 1.10 Kiến trúc mạng nơ-ron cơ bản
Mạng nơ-ron cơ bản gồm 3 loại layer khác nhau:
- Lớp đầu vào (input layer): Thể hiện các đầu vào của mạng
- Lớp ẩn (hidden layer): Thể hiện cho việc suy luận logic của mạng
- Lớp đầu ra (output layer): Thể hiện các đầu ra của mạng
Một mạng nơ-ron chỉ có 1 lớp đầu vào và 1 lớp đầu ra nhưng có thể cónhiều lớp ẩn Ở mỗi lớp, số lượng các nút mạng (nơ-ron) có thể khác nhau tuỳthuộc vào bài toán và cách giải quyết Nhưng thường khi làm việc người ta đểcác lớp ẩn có số lượng nơ-ron bằng nhau Ngoài ra, các nơ-ron ở các lớpthường được liên kết đôi một với nhau tạo thành mạng kết nối đầy đủ (full-connected network) Khi đó ta có thể tính được kích cỡ của mạng dựa vào sốtầng và số nơ-ron
Trang 28Giả sử số nút ra là K và y k là đầu ra thực tế của nút thứ k , còn σ k là
đầu ra ước lượng được cho nút thứ k tương ứng Khi đó, công thức hàm mất
Thời điểm đầu back-propagation sử dụng thuật toán stochastic gradientdescent (SGD) [6] Hiện nay, có nhiều thuật toán cải tiến cho SGD nhưng vẫn
Trang 29dựa trên nền tảng là thuật toán này Trong thuật toán này có một tham số làtốc độ học (learning rate) Tốc độ học càng lớn thì quá trình học tìm thấyđiểm tối ưu càng nhanh, nhiều khi tăng tốc độ học làm mô hình học nhanhhơn nhưng lại bỏ qua điểm tối ưu của bài toán, không hội tụ được.
1.2.3 Một số kiến trúc mạng học sâu
1.1.1.10 Mạng nơ-ron tích chập (Convolutional neural network)
Mạng nơ-ron tích chập (viết tắt CNN) [7] là mô hình mạng nơ-ron nổitiếng trong lớp các bài toán thị giác máy tính (computer vision) cũng nhưnhận dạng ảnh (image recognition) Từ “tích chập” (convolution) trong toánhọc được hiểu là phép nhân tích chập các hàm khác nhau với nhau
Có 4 bước trong thiết kế mô hình CNN:
- Tích chập (Convolution): Các tín hiệu đầu vào nhận được ở giai đoạnnày
- Lấy mẫu con (Subsampling): Các đầu vào nhận được từ lớp tích chậpđược làm mịn để tránh hiện tượng nhạy cảm với nhiễu (sensitive to noise) củacác bộ lọc (filter) hoặc các biến thể nào khác
- Kích hoạt (Activation): Lớp này kiểm soát cách tín hiệu truyền từ lớpnày sang lớp khác, tương tự như các tế bào thần kinh trong não bộ chúng ta
- Kết nối đầy đủ (Fully connected): Trong bước này, các lớp của mạngđược kết nối theo cách: mọi nơ-ron lớp trước nối với nơ-ron lớp tiếp theo
Hình 1 11 mô tả mô hình mạng CNN học dữ liệu ảnh:
Trang 30Hình 1.11 Mô hình CNN
Ưu điểm:
- Ứng dụng tốt trong các bài toán nhận dạng ảnh
- Khi một đoạn ở một khu vực trên hình ảnh được học thì mô hìnhCNN có thể nhận dạng đoạn đấy trên bất kỳ nơi nào khác trong bức ảnh
Nhược điểm:
- Mô hình CNN bị ảnh hưởng rất nhiều bởi kích cỡ và chất lượng dữliệu ảnh huấn luyện
- Mô hình này rất nhạy cảm với nhiễu
1.1.1.11 Mạng nơ-ron hồi quy (Recurrent neural network)
Mô hình mạng hồi quy (RNN) [8] sử dụng phổ biến trong các bài toánkhi mà thứ tự sắp xếp các thông tin được ưu tiên Do đó, chúng ta thường ứngdụng mạng này trong lĩnh vực: xử lý ngôn ngữ tự nhiên, tổng hợp giọng nói
và hệ thống máy dịch
RNN được gọi là hồi quy bởi vì một thao tác chung được áp dụng đồngthời cho tất cả các phần tử của chuỗi, khi đầu ra phụ thuộc vào lần tính toántrước đó Có thể tưởng tượng những mô hình này có một bộ nhớ, nơi mà mọithông tin sau khi tính toán được lưu trữ và sử dụng để tính kết quả cuối cùng
Trang 31Hình 1.12 Một node mạng trong mô hình RNN
Mô hình mạng nơ-ron hồi quy được chia thành 2 loại:
- Mạng nơ-ron hồi quy 2 chiều (Bidirectional RNN): Đầu ra của môhình này không chỉ phụ thuộc vào đầu ra trước đó mà còn phụ thuộc vào kếtquả trong tương lai
- Mạng nơ-ron hồi quy sâu (Deep RNN): Trong loại mô hình này, mộtbước chạy qua nhiều lớp mạng cho phép tốc độ học cao hơn và chính xáchơn
RNN được áp dụng để tạo ra nhưng chatbot tiêu chuẩn Những conchatbot này được sử dụng để tương tác với khách hàng trên các trang web.RNN cũng có thể tách các ngữ âm trong một đoạn hội thoại nhờ các tín hiệu
từ sóng âm
Ưu điểm:
- Không giống các mô hình mạng nơ-ron truyền thống, RNN chia sẻcùng 1 tham số qua tất cả các bước Điều này làm giảm đáng kể số lượngtham số mà chúng ta cần tìm
- RNN có thể kết hợp với CNN để mô tả chính xác hình ảnh khôngđược gán nhãn
Nhược điểm:
Trang 32- RNN khó có thể thực hiện tốt trên các phục thuộc dài (long-termdependency) Ví dụ trong trường hợp câu dài và đoạn có quá nhiều từ ở giữadanh từ và động từ.
- Các mô hình RNN không thể xếp chồng lên nhau thành mô hình rấtsâu Lí do là hàm kích hoạt sử dụng trong mô hình làm giảm đạo hàm qua cáclớp mạng
1.1.1.12 Mô hình sinh (Generative model)
Trong xác xuất và thông kê, mô hình sinh [9] là mô hình được sử dụng
để tạo ra giá trị của dữ liệu khi một vài tham số bị ẩn đi
Trong học máy, mô hình sinh là mô hình dự đoán trên các hàm phân bốxác suất liên hiệp
Mô hình sinh có thể học bất kỳ loại dữ liệu phân tán nào bằng phươngpháp học không giám sát Đây là nhóm mô hình phát triển mạnh mẽ trong vàinăm gần đây (điển hình là mô hình GAN [10]) Mục đích của loại mô hìnhnày là học dữ liệu ban đầu của tập dữ liệu huấn luyện để tạo các điểm dữ liệumới với một vài biến đổi
Trong học không giám sát, các mô hình sinh thực thi trên một lượng dữliệu huấn luyện, và thực hiện giảm chiều dữ liệu xuống thành các giá trị sốquan trọng Các mô hình này chạy trên các mạng nơ-ron va có khả năng nhậnbiết các thuộc tính riêng biệt của dữ liệu Các mạng nơ-ron lấy những thông
số cơ bản để hiểu về dữ liệu thế giới thực và sử dụng chúng để mô hình hóathành dữ liệu khó có thể phân biệt với dữ liệu thế giới thực
Đối nghịch với mô hình sinh mẫu là mô hình phân biệt (Discriminativemodel), loại mô hình này không quan tâm đến cách thức dữ liệu được tạo ra,chỉ phân loại dựa trên đầu vào dữ liệu
Trang 33Hiện nay có 3 mô hình sinh được sử dụng phổ biến: GAN, VAE, based generative model Sau đây là sơ lược về các mô hình:
Flow Mô hình đối kháng sinh mẫu (Generative adversrial network) [10]:Đây là một giải pháp thông minh trong việc mô hình hóa việc tạo dữ liệu, mộtvấn để của học không giám sát Trong GAN cài đặt 2 chức năng, đại diện làcác mạng nơ-ron, Một là phần sinh (generator), hai là phần phân biệt(discriminator) Generator có gắng tối đa khả năng làm dicriminator tin rằng
dữ liệu sinh giống đầu vào, còn dicriminator hướng dẫn generator để tạo dữliệu chân thực nhất
- Bộ mã hóa tự động (Variational autoencoder) [11]: VAE thực hiện tốithiểu hàm mất mát (log-likelihood) của dữ liệu bằng cách tìm cực đại hàm cậndưới (ELBO)
- Mô hình sinh dựa vào luồng (Flow-based generative model) [12]: Môhình được xây dựng bởi một chuỗi biến đổi khả nghịch Mô hình học trực tiếp
từ phân phối dữ liệu p(x) và đảm bảo không mất dữ liệu đầu vào.
Hình 1.13 So sánh 3 loại mô hình sinh
Trang 341.3 Ứng dụng của học máy và học sâu
Hầu hết mọi ngành công nghiệp đang làm việc với hàm lượng lớn dữliệu đều nhận ra tầm quan trọng của công nghệ học máy, học sâu Từ những
dữ liệu có độ chính xác cao được xử lý dưới dạng thời gian thực sẽ giúp các
tổ chức vận hành hiệu quả hơn Một số ứng dụng nổi bật trong các ngành như:
- Dịch vụ tài chính Những doanh nghiệp hoạt động trong lĩnh vực tài
chính và ngân hàng sử dụng học máy và học sâu với 2 mục đích: xác định độtin cậy trong dữ liệu và ngăn chặn lừa đảo Nhà đầu tư sẽ biết các cơ hội đầu
tư hoặc thời điểm giao dịch hợp lý
- Y tế Ứng dụng các mô hình học máy, học sâu là 1 xu hướng phát
triển nhanh chóng trong ngành y tế, nhờ vào sự ra đời của các thiết bị và máycảm ứng đeo được sử dụng dữ liệu để đánh giá tình hình sức khỏe của bệnhnhân trong thời gian thực Công nghệ này còn giúp các chuyên gia trongngành y tế có khả năng xác định những xu hướng hoặc tín hiệu để cải thiệnkhả năng điều trị, chuẩn đoán bệnh
- Dầu khí Sử dụng các hệ thống xây dựng từ học máy, học sâu để tìm
kiếm những nguồn nguyên liệu mới, phân tích các mỏ dầu dưới đất, dự đoántình hình thất bại của bộ cảm biến lọc dầu, sắp xếp các kênh phân phối để đạthiệu quả và tiết kiệm chi phí, …
- Chính phủ Các tổ chức chính phủ hoạt động về an ninh công cộng
hoặc tiện ích xã hội sở hữu rất nhiều nguồn dữ liệu quan trọng có thể khaithác Khi phân tích dữ liệu cảm biến, chính phủ sẽ tăng mức độ hiệu quả củadịch vụ và tiết kiệm chi phí Công cụ này còn hỗ trợ phát hiện gian lận vàgiảm thiểu khả năng giả danh tính
- An ninh quốc phòng Các mô hình học máy giúp các hệ thống kiểm
soát an ninh hoạt động hiệu quả như: Hệ thống kiểm soát an ninh sử dụng
Trang 35công nghệ nhận dạng mặt người, vân tay, tròng mắt, hệ thống truy tìm đốitượng tình nghi, phạm tội sử dụng truy vấn hình ảnh, câu mô tả về đối tượng,
hệ thống phát hiện vi phạm giao thông đường bộ, … Các hệ thống về pháthiện tội phạm (criminal detection) giúp các hệ thống an ninh nhận diện tộiphạm thông qua đặc điểm sinh trắc học, các hệ thống này có độ chính xác rấtcao, xử lý nhanh, có khả năng cảnh báo lực lượng an ninh, phòng ngừa, theodõi đối tượng đề phòng tình huống xấu xảy ra
Trang 36CHƯƠNG 2 NG HIÊN CỨU MẠNG GLOW ĐỂ TÙY BIẾN ẢNH ĐỐI TƯỢNG 2.1 Vấn đề sinh ảnh phục vụ công tác điều tra
Trong các vụ án hình sự cần truy tìm đối tượng truy nã, chúng ta cần cómột bản thảo mô phỏng chân dung đối tượng Công việc này thực sự có vaitrò rất quan trọng trong công tác điều tra, phá án, truy tìm tội phạm
Việc phác họa chân dung kẻ tình nghi qua mô tả của nhân chứng hoặcnạn nhân đã có từ xa xưa, khi cần truy nã ai đó Đến đầu những năm 1880,nhà tội phạm học người Pháp Alphonse Bertillon đã phát triển hệ thống mới
để nhận diện các tù nhân đưa đến sở cảnh sát Paris, sau này gọi là nhân trắchình sự Kỹ thuật này được ứng dụng lan ra khắp châu Âu và Mỹ tại thờiđiểm đó Đến nay, một trong những kỹ thuật nhân trắc được sử dụng phổ biếnnhất hầu như không thay đổi gì sau cả thế kỷ áp dụng là phác họa pháp y(forensics sketch)
Công việc phác họa pháp y này thực sự rất phức tạp, cần có kiến thứcchuyên môn sâu về hội họa và hiểu biết về tội phạm học như kỹ năng phỏngvấn, trò chuyện để tìm ra những chi tiết chính xác Tuy nhiên, chi phí đào tạocho một nghệ sĩ pháp y là khá lớn trong khi không phải lúc nào cũng thườngxuyên vẽ những chân dung như vậy Do đó, chúng ta cần một phương pháphiệu quả hơn để thay thế công việc này
Từ những năm 1960-1970, người ta đã tìm cách sử dụng kỹ thuật đểcác cảnh sát viên không có kỹ năng về hội họa cũng có thể tự mình dựngđược chân dung nghi phạm, bằng cách sử dụng các bộ mẫu đặc điểm khuônmặt và hoán đổi các đặc điểm này cho đến khi tìm được hình ảnh gần đúngnhất với mô tả của nhân chứng Các bộ hình mẫu như vậy gọi chung là facialcomposite (tổng hợp khuôn mặt)
Trang 37Cho đến gần đây, các bộ phần mềm có chức năng tổng hợp khuôn mặtđược sử dụng bởi lực lượng cảnh sát quốc tế hầu như đều có chung mộtphương pháp xây dựng: từng đặc điểm khuôn mặt như mắt, mũi, miệng, lôngmày… được lựa chọn từ một cơ sở dữ liệu lớn và sau đó máy tính sẽ xếpchồng các đặc điểm đó để cho ra một hình ảnh tổng hợp Hình 2 14 là mộtphần mềm như vậy.
Hình 2.14 Ảnh tạo ra từ công cụ Identi-Kit 2000
Khi lực lượng công an phát lệnh truy nã một ai đó, chúng ta cần mộtbản chân dung mặt người giống với đối tượng tình nghi nhất có thể Côngviệc này thực sự rất khó và mất thời gian trong thời kỳ đầu Tuy nhiên, các bộcông cụ về nhân sinh trắc học có khả năng mô phỏng lại đối tượng tình nghinhưng chi phí khá cao và việc sử dụng bộ công cụ cũng khá thủ công
Thời điểm hiện tại, khi mà các ứng dụng của trí tuệ nhân tạo, đặc biệt làứng dụng các mô hình học sâu trong xử lý dữ liệu rất hiệu quả thì việc sinhảnh theo ý muốn của mình là khả thi Bằng việc sử dụng các mô hình sinh
Trang 38(generative model) có thể học được các đặc trưng của ảnh mặt người và sinh
ra mẫu rất chân thực theo tùy chỉnh của mình Ứng dụng trí tuệ nhân tạo thực
sự là lựa chọn tốt có khả năng thay thế các bộ công cụ phác họa thủ công thời
kỳ trước
Mô hình mạng nơ-ron GLOW là một mô hình thuộc nhóm mô hìnhsinh (generative model) Mô hình này tạo ra nhằm khắc phục 2 vấn đề: thiếu
dữ liệu đầu vào và tránh mất mát khi truyền thông tin trong mạng nơ-ron
2.2 Các thuật toán sinh ảnh
2.2.1 Mô hình đối kháng sinh mẫu (Generative adversrial network)
ngầm (latent code) z.
Trang 39Hình 2.15 Sơ đồ hoạt động của GAN
Generator lấy một đầu vào ngẫu nhiên và cố gắng sinh ra được mẫu của
dữ liệu Như mô tả ở Hình 2 15, generator G( )z lấy đầu vào z từ p ( )z z với z
là mẫu thuộc phân phối xác xuất p( )z , được sinh ngẫu nhiên từ không gian ẩn
(latent space), sau đó gán thêm nhiễu (noise) Mẫu sinh ra từ G( )z được nạp
vào Discriminator network D(x) Công việc của Discriminator network là lấyđầu vào từ tập huấn luyện là các mẫu thực (real sample) và mẫu được sinh ra
từ G (generated sample) để xác định xem mẫu nào mới là thật Mẫu thực(Real sample) x được lấy từ phân phối xác suất pdata(x)
D(x) giải quyết bài toán phân loại nhị phân (binary classification) bằngcách sử dụng hàm sigmoid, trả về kết quả khoảng từ 0 đến 1, với xác suất đầu
ra càng cao thì khả năng mẫu đó là thật (sample lấy từ tập dữ liệu) càng lớn,
và ngược lại
Trang 40D được huấn luyện để tối đa xác suất gán đúng nhãn cho mẫu, đồngthời G lại được huấn luyện để tối thiểu khả năng phát hiện của D, tươngđương tối thiểu log(1 D G z( ( )).
Nói cách khác, việc huấn luyện D và G tương ứng với trò chơi minimaxgiữa hai người cho hàm số:
E D x là giá trị kỳ vọng khả năng mẫu từ phân phối huấn
luyện được D đánh giá dữ liệu thật Giá trị này càng cao thì khả năng đánh giá
dữ liệu huấn luyện của D càng chính xác
Tổng thể, D cố gắng tìm cực đại ( , )V D G trong khi G thì ngược lại.
Quá trình huấn luyện sẽ hội tụ khi
1( )2
g data
D không thểphân biệt được 1 mẫu là thật hay giả (xác suất đều là 0.5)
1.1.1.14 Quá trình huấn luyện
Bước 1: Huấn luyện Discriminator network, cố định Generatornetwork