Trong số nhiều mô hình được phát triển để giải quyếtbài toán này, báo cáo tập trung vào họ mô hình biến ẩn LVM, với trọng tâm là một mô hìnhtiêu biểu: tự mã hóa biến phân.. 1 Mô hình biế
Trang 1Projects in Mathematics and Applications
Tự mã hóa biến phân
Trang 2Lời cảm ơn
Trước hết nhóm 5 chúng em xin bày tỏ lòng biết ơn sâu sắc đến các nhà sáng lập trại hèPiMA: anh Cấn Trần Thành Trung, anh Trần Hoàng Bảo Linh, anh Lê Việt Hải cùng toàn thểban tổ chức của PiMA đã không ngừng nỗ lực xây dựng và duy trì chương trình suốt 9 nămqua, tạo nên một môi trường học tập và trải nghiệm Toán ứng dụng vô cùng ý nghĩa
Nhóm xin trân trọng cảm ơn các anh, chị mentors đã trực tiếp giảng dạy những kiến thứcnền tảng quan trọng trong giai đoạn học tập đầu tiên Sự nhiệt huyết và tận tâm trong từngbài giảng của các anh chị mentors đã truyền cảm hứng học tập mạnh mẽ, tạo nền tảng vữngchắc cho nhóm chúng em nói riêng và các bạn trại sinh của PiMA 2025 nói chung trong quátrình nghiên cứu và thực hiện dự án
Nhóm 5 chúng em xin gửi lời cảm ơn đặc biệt đến chị Tăng Vĩnh Hà, anh Nguyễn HữuPhước, anh Vòng Vĩnh Toàn và anh Trần Phan Anh Danh Các anh chị đã luôn theo dõi sátsao, hướng dẫn tận tình và đồng hành cùng nhóm trong suốt quá trình triển khai dự án Tự mãhoá biến phân Sự chỉ dẫn quý báu và sự hỗ trợ kiên nhẫn của các anh chị đã giúp nhóm địnhhướng đúng đắn, tháo gỡ khó khăn và hoàn thiện báo cáo này một cách trọn vẹn
Nhóm cũng trân trọng cảm ơn toàn thể các anh, chị mentors và các bạn mentees đến từnhiều nơi khác nhau đã cùng nhau tạo nên một mùa hè ý nghĩa, gắn kết và đầy trải nghiệmđáng nhớ Những kỷ niệm quý giá này sẽ luôn là động lực và hành trang để nhóm tiếp tục phấnđấu trên con đường học tập và nghiên cứu trong tương lai
Cuối cùng, nhóm chúng em xin kính chúc trại hè PiMA sẽ ngày càng phát triển vững mạnh,tiếp tục lan tỏa niềm đam mê Toán học ứng dụng và truyền cảm hứng cho nhiều thế hệ họcsinh THPT trong những năm tiếp theo
Xin chân thành cảm ơn
Trang 3Tóm tắt nội dung
Báo cáo này giới thiệu khái quát về một trong những bài toán quan trọng trong lĩnh vựchọc máy hiện nay là bài toán tạo sinh Trong số nhiều mô hình được phát triển để giải quyếtbài toán này, báo cáo tập trung vào họ mô hình biến ẩn LVM, với trọng tâm là một mô hìnhtiêu biểu: tự mã hóa biến phân
Trong số nhiều cách tiếp cận, trọng tâm được đặt vào mô hình biến ẩn LVM-một họ môhình phổ biến trong học máy Đặc biệt, phần trình bày nhấn mạnh đến mô hình tự mã hoá biếnphân vốn là sự kết hợp giữa các ý tưởng xác suất và mạng nơ-ron sâu
Nội dung bao gồm việc trình bày kiến trúc và nguyên lý hoạt động của mô hình tự mã hoábiến phân, giải thích các công thức toán học quan trọng dưới góc nhìn trực quan, đồng thờiphân tích động lực thiết kế và ứng dụng thực tế Để có thể tiếp cận thuận lợi, cần trang bịkiến thức cơ bản về xác suất-thống kê cùng với một số khái niệm nền tảng trong học máy vàhọc sâu
Trang 4Mục lục
1.1 Mô hình hỗn hợp Gauss 1
1.2 Mô hình biến ẩn và thuật toán cực đại hóa kì vọng 4
2 Mô hình tự mã hóa biến phân 6 2.1 Tổng quan về mô hình tự mã hóa biến phân 6
2.2 Mô hình tự mã hóa biến phân 7
2.3 Xây dựng mô hình 10
2.4 Công thức dạng đóng của các hàm mất mát 12
3 Áp dụng mô hình 14 3.1 Dữ liệu đầu vào cho mô hình 14
3.2 Các bước hoạt động của mô hình 14
3.3 Kết quả của mô hình 15
Trang 5Danh pháp
Thuật toán cực đại hóa kỳ vọng Expectation-Maximization EMThuật toán cực đại hoá hàm hợp lý Maximum Likelihood Estimation MLE
Mô hình hỗn hợp Gaussian Gaussian Mixture Model GMM
Phân kỳ Kullback-Leibler Kullback-Leibler Divergence KL
Mô hình tự mã hoá biến phân Variational Autoencoder VAE
Bảng 1: Bảng danh pháp sử dụng trong báo cáo
Trang 6Kí hiệu toán học
Tên kí hiệu Ý nghĩa
p(x ) xác suất sự kiện/ điều kiện x xảy ra
p(X = x ) xác suất để biến ngẫu nhiên X = x
pθ(x ), qφ(z ) xác suất xảy ra của x , z với tham số tương ứng θ, φ
X ∼ [ ] Biến ngẫu nhiên X tuân theo phân phối [ ]
N (x |µ, σ2) xác suất phân phối chuẩn N (µ, σ2) nhận giá trj x
p(x , z ) xác suất xảy ra đồng thời x và z
p(x|z ) xác suất xảy ra x khi đã xảy ra z
x, µ vector giá trị dữ liệu (x = x1, x2, ) và tham số (µ = µ1, µ2, )E[f (X)] kì vọng của hàm f (X) cho dối với biến ngẫu nhiên X
EX∼[ ][f (X)] kì vọng của hàm f (X) với biến ngẫu nhiên X theo phân phối [ ]
∇φ( ) grad của hàm ( ) với theo biến φ
ELBO(φ, θ, ) hàm chặn dưới chứng cứ với tham số (φ, θ, )
L(φ, θ, ) hàm mất mát với tham số (φ, θ, )
KL(p||q) phân kì KL của 2 phân phối xác suất p và q
Bảng 2: Bảng kí hiệu toán học
Trang 71 Mô hình biến ẩn
1.1 Mô hình hỗn hợp Gauss
Trong nhiều bài toán học máy, việc mô hình hóa dữ liệu thường bắt đầu từ giả định rằng
dữ liệu được phân thành nhiều cụm Phương pháp phân cụm kinh điển như K-Means chỉ chophép mỗi điểm dữ liệu thuộc duy nhất một cụm - phân cụm cứng Tuy nhiên, trong thực tế,một điểm dữ liệu có thể thể hiện đặc tính của nhiều cụm khác nhau Ví dụ, ta có thể dễ dàngphân loại 1 bài viết mang yếu tố khoa học hoặc mang yếu tố nghệ thuật dựa theo các đặcđiểm nổi bật của nó, tuy nhiên có thể có một bài viết có thể vừa mang yếu tố khoa học, vừamang yếu tố nghệ thuật Điều này dẫn đến nhu cầu về một mô hình phân cụm mềm, trong đómột điểm dữ liệu được gán phân phối xác suất trên nhiều cụm Mô hình hỗn hợp Gauss là mộttrong những mô hình phổ biến nhất cho mục đích này
Ví dụ: Ta xét bài toán xác định phân loại tivi thuộc loại tốt hay loại thường Hạn sử dụngmột chiếc tivi loại thường sẽ phân phối theo phân phối chuẩn có giá trị trung bình là 4 năm vàphương sai là 1.4 năm Tương tự, hạn sử dụng một chiếc tivi loại tốt sẽ phân phối theo phânphối chuẩn có giá trị trung bình là 11 năm và phương sai là 2 năm
Hình 1: Hàm xác suất của hạn sử dụng tivi loại thuờng (Đường nét đứt màu xanh), tivi loại tốt(Đường nét đứt màu đỏ), hai loại tivi (Đường nét liền màu đen)
Mặc dù được tổng hợp từ hai phân phối chuẩn nhưng phân phối của cả hai loại tivi khôngphải là một phân phối chuẩn Một phân phối chuẩn phải có dạng đường cong chuông và tiếndần về không khi đi xa giá trị trung bình Ví dụ trên là mô hình hỗn hợp Gaussian là một phânphối được tổng hợp từ những phân phối chuẩn
1
Trang 8k là phương sai của cụm k
1.1.2 Biến ẩn và mô hình sinh dữ liệu
Nếu ta viết lại mô hình hỗn hợp Gaussian dưới dạng mô hình biến ẩn, ta có thể hình dungquá trình sinh dữ liệu như sau:
• Bước 1: Chọn một cụm tiềm ẩn z ∼ Categorical(π1, , πK)
• Bước 2: Sinh dữ liệu x ∼ N (µz, σ2
z)
Biến z ở đây được gọi là biến ẩn Chính z quyết định phân phối Gaussian nào được dùng đểsinh ra x, mặc dù ta không quan sát được z trực tiếp Trong GMM, biến ẩn z cho biết dữ liệuđược sinh từ cụm nào Phân phối tiên nghiệm của z là phân phối Categorical rời rạc:
Trang 91.1.4 Hàm log-hợp lý
Các tham số cần tối ưu của mô hình hỗn hợp Gaussian là: xem slide xong điền vào Ta
sẽ sử dụng phương pháp ước lượng hợp lý cực đại để tìm các tham số này Cho tập dữ liệu
D = {x1, , xN}, log-hợp lý của mô hình là:
Hàm mục tiêu này phản ánh độ phù hợp của mô hình đối với dữ liệu quan sát Tuy nhiên,việc tối ưu là khó khăn do sự xuất hiện của logP, vốn đến từ việc tích hợp qua biến ẩn zn.Đây là lý do cần đến các kỹ thuật đặc thù như thuật toánCực đại hoá kỳ vọng (sẽ được trìnhbày ở phần sau) hoặc các phương pháp suy luận xấp xỉ hiện đại
1.1.5 Ưu điểm và hạn chế của GMM
Ưu điểm:
• Cho phép phân cụm mềm, phản ánh sự mơ hồ tự nhiên trong dữ liệu
• Có nền tảng xác suất rõ ràng, thuận lợi cho việc mở rộng sang các mô hình phức tạphơn
Hạn chế:
• Giả định các cụm có dạng Gaussian, hạn chế với dữ liệu phi tuyến tính hoặc có cấu trúcphức tạp
• Việc cực đại hóa log-hợp lý dễ rơi vào cực trị cục bộ, phụ thuộc khởi tạo
• Khi số chiều dữ liệu cao, ước lượng ma trận hiệp phương sai trở nên khó khăn và không
ổn định
3
Trang 101.2 Mô hình biến ẩn và thuật toán cực đại hóa kì vọng
1.2.1 Mô hình biến ẩn là gì
Mô hình biến ẩn là mô hình đi minh họa phân phối dữ liệu X thông qua việc sinh ra biến ẩn Z
Z ∼ p(z , θ), X|z ∼ p(x |z , θ)Nguyên nhân của việc này là ta không thể tìm trực tiếp phân phối p(x ) Do đó ta thực hiệnthông qua tìm phân phối của X khi đã biết Z (p(x|z , θ)) bằng công thức phân phối đồngđỉnh đồng thời:
p(x ) =
Zp(x , z ) =
Zp(x|z , θ)p(z , θ)
1.2.2 Mô hình Gauss dưới dạng biến ẩn
Ta có thể viết lại mô hình GMM dưới dạng biến ẩn như sau:
PK
k =1πk = 1
X|z = k ∼ N (µk, σ2k)
Do đó trong quá trình tối ưu tham số ta cần tối ưu bộ tham số (π, µ, σ2)
Bộ tham số π sẽ được đánh giá qua việc tính phân phối tiên và hậu nghiệm:
• Phân phối tiên nghiệm là niềm tin ban đầu về phân phối của Z:
Trang 111.2.3 Thuật toán cực đại hóa kì vọng
Ta sẽ đi tìm khoảng cách giữa hàm log hợp lý và hàm ELBO thông qua biến đổi sau:
log pθ(x ) = Eqφ(z ) log pθ(x )
= Eqφ(z )
logpθ(x , z )
pθ(z|x )
= Eqφ(z )
logpθ(x , z ) qφ(z )
qφ(z ) pθ(z|x )
= Eqφ(z )
logpθ(x , z )
Trang 12Với việc chọn tham số như vậy thì KL(qφ(z )∥pθ(z|x )) = 0.
Do vậy ELBO(φ, θ) = log pθ(x ) (hàm log pθ(x ) không phụ thuộc theo φ nên nó sẽ dữnguyên khi chọn φnew)
Hình 2: Minh họa cho E-step
• Bước cực đại hóa: Ta thực hiện chọn tham số θ sao cho hàm ELBO đạt cực đại
Nhờ đó ta có được: ELBO(φ, θol d)≤ ELBO(φ, θnew)
Tức là log pθol d(x ) = ELBO(φ, θol d) ≤ ELBO(φ, θnew)≤ log pθ new(x )
Vì vậy ta cần bước 1 để có log pθol d(x ) = ELBO(φ, θol d), nếu không thì bằng cách chọn
θnew thông thường không thế chắc chắn log pθol d(x )≤ log pθ new(x )
Ta sẽ lặp đi lặp lại thuật toán trên cho đến khi thu được hàm log hợp lý đạt đến giá trịtiệm cận cực đại (giá trị mà khi đó grad quá nhỏ không làm thay đổi các tham số đi nhiều)
2 Mô hình tự mã hóa biến phân
2.1 Tổng quan về mô hình tự mã hóa biến phân
Động lực phát triển mô hình tự mã hoá biến phân xuất phát từ mô hình biến ẩn Khác vớihỗn hợp Gaussian chỉ có hữu hạn thành phần, mô hình tự mã hoá biến phân mở rộng sangkhông gian tiềm ẩn liên tục với vô số thành phần, trong đó mỗi điểm xác định một phân phốiriêng trong không gian quan sát Để xử lý, mô hình tự mã hoá biến phân kết hợp mạng nơ-ron
Trang 13với suy luận biến phân: bộ mã hoá ánh xạ dữ liệu quan sát sang phân phối xấp xỉ trong khônggian tiềm ẩn, còn bộ giải mã tái tạo dữ liệu từ các mẫu rút ra Thông qua tối ưu hoá hàm mụctiêu chặn dưới chứng cứ, mô hình tự mã hoá biến phân vừa đảm bảo tái tạo dữ liệu chính xácvừa duy trì phân phối tiềm ẩn gần với tiên nghiệm giả định Nhờ đó, mô hình tự mã hoá biếnphân được ứng dụng rộng rãi trong nhiều lĩnh vực như sinh ảnh nhân tạo, phân tích dữ liệugene, phát hiện bất thường trong an ninh mạng, giảm chiều và nén dữ liệu, cũng như làm nềntảng cho các mô hình sinh nâng cao hơn như VAE-GAN hay β-VAE.
2.2 Mô hình tự mã hóa biến phân
2.2.1 Từ mô hình hỗn hợp Gauss đến mô hình tự mã hoá biến phân
So với mô hình GMM, ta sẽ có các thay đổi về phân phối tiên nghiệm và phân phối hậunghiệm như sau:
1 Phân phối tiên nghiệm
• Trong GMM, biến ẩn Z có phân phối tiên nghiệm là phân phối Categorical:
Z ∼ Categorical(π1, , πK)Đây là một phân phối rời rạc, biến ẩn chỉ nhận hữu hạn giá trị và đồng thời không
có khả năng sinh ra giá trị mới
• Trong mô hình tự mã hoá biến phân, biến ẩn Z có phân phối tiên nghiệm là phânphối chuẩn tắc cho biến ngẫu nhiên nhiều chiều:
Z∼ N (0, I)
• Đây là một phân phối liên tục, vì vậy biến ẩn có thể nhận vô số giá trị Đồng thời,
ta có thể lấy mẫu từ phân phối chuẩn, từ đó mô hình tự mã hoá biến phân có thểsinh ra giá trị mới
2 Phân phối hậu nghiệm
• Trong GMM, phân phối hậu nghiệm có công thức dạng đóng như sau:
p(Z = k | x ) = πkN (x | µk, σ
2
k)P
Trang 14• Với mỗi mẫu dữ liệu x, sẽ có một phân phối hậu nghiệm khác nhau qφ(z | x ) vàtham số của phân phối này sẽ được tính toán bởi mạng nơ ron µφ(x ) và σ2
φ(x )
2.2.2 Hàm mục tiêu của mô hình tự mã hoá biến phân
Như đã biến đổi ở mục 1.2.3, ta có đẳng thức sau:
qφ(z|x )
(1)
= Eqφ(z )
logpθ(x|z )pθ(z )
qφ(z|x )
(2)
= Eqφ(z )[log pθ(x|z )] + Eqφ(z )
log pθ(z )
qφ(z|x )
(3)
= Eqφ(z )[log pθ(x|z )] − KL(qφ(z|x )||pθ(z )) (4)Trong đó:
• (1): Ta có theo định nghĩa của hàm ELBO
Trang 152.2.3 Thủ thuật tái tham số hóa
Ta có hàm mất mát của mô hình tự mã hoá biến phân như sau:
LV AE(θ, φ) =−Eqφ(z|x ) log pθ(x | z ) + KL qφ(z | x ) ∥ pθ(z )
Ta sẽ tối ưu các tham số θ, φ bằng phương pháp gradient descent
Tuy nhiên, khi ta đạo hàm phần tử đầu tiên:
• ϵ là biến ngẫu nhiên độc lập,
• Hàm Tφ được tham số hóa bởi φ
9
Trang 16Ví dụ, thay vì lấy mẫu trực tiếp z ∼ qφ(z | x ), ta sử dụng thủ thuật tái tham số hoá:
• Bước 1: Lấy mẫu ϵ ∼ N (0, I)
• Bước 2: Biến đổi z thành một biểu thức biểu diễn theo ϵ
z = µ(x ) + σ(x )⊙ ϵ, ϵ∼ N (0, I)
Với ⊙ là phép nhân từng phần tử Nhờ vậy, sự ngẫu nhiên chỉ nằm trong ϵ (không phụthuộc tham số), nên việc tối ưu theo µ, σ trở nên khả vi
2.3 Xây dựng mô hình
Hình 3: Minh họa mô hình mã hoá tự biến phân
2.3.1 Kiến trúc học sâu của mô hình tự mã hoá biến phân
Mô hình mô hình tự mã hoá biến phân là một mô hình biến ẩn với lựa chọn cụ thể họ phânphối cho pθ(z) và pθ(z|x) như sau:
pθ(z) =N (0, Ih)
pθ(x|z) = N (µθ(z), σθ(z))
qφ(z|x) = N (µφ(x), σφ(x))Với:
• N (µ, σ) là phân phối chuẩn nhiều biến
Trang 17• IH là ma trận đơn vị kích thước RHxH Như vậy, biến ẩn Z là phân phối của biến ngẫunhiên nhiều chiều, mỗi chiều đều tuân theo phân phối chuẩn tắc.
• Cặp tham số (µθ, σθ) đi xấp xỉ tham số của phân phối hậu nghiệm qφ(z|x ) được gọi là
Như vậy: quá trình lấy mẫu/tạo sinh của mô hình tự mã hoá biến phân như sau:
• Lấy mẫu z từ phân phối chuẩn tắc
• ta đã có bộ tham số (µφ, σφ) đi xấp xỉ tham số của phân phối pθ(x|z ) nên ta chỉ cần chomẫu z qua mạng nơ ron này để sinh ra các bức ảnh mới
2.3.2 Cài đặt cụ thể
Ta cần lựa chọn các tham số và cài đặt như sau khi cài đặt mạng học sâu cho mô hình tự
mã hóa biến phân:
• n là số điểm dữ liệu
• D là số chiều dữ liệu gốc
• H là số chiều của không gian ẩn sau mã hóa
• Phân phối tiên nghiệm pZ,θi =N (0, IH)
Trang 18Bộ mã hóa là một giả định các điểm dữ liệu tuân theo các phân phối chuẩn độc lập vớinhau do đó lựa chọn ma trận hiệp phương sai của phân phối chuẩn sẽ là ma trận đường chéo
mà các phần tử trên đường chéo đó có thể khác nhau (tức là mỗi chiều có phương sai khácnhau và độc lập nhau)
• Kết quả thu được phân phối: pXi|Z i =z =N (µθ(z ), σ2I)
Bộ giải mã thực hiện quá trình giải mã ngược lại đã được cố định phương sai nên lựa chọnthiết kế ma trận hiệp phương sai của bộ giải mã sẽ là ma trận đường chéo mà các phần tử trênđường chéo đó đều có giá trị bằng nhau - và được chọn trước
Việc lựa chọn cách thiết kế như này có thể hiểu nhằm giúp giảm độ phức tạp của mô hình
Do đó chỉ cần ước lượng ma trận giá trị trung bình (µθ)
2.4 Công thức dạng đóng của các hàm mất mát
Như đã nói ở trên ta sẽ tối ưu hàm mất được tính như sau:
LV AE(θ, φ) = −ELBO = −Eqφ(z )[log pθ(x|z)] + KL(qφ(z|x) ∥ pθ(z))Trong đó:
Eqφ(z )[log pθ(x|z)] là hàm mất mát do tái tạo
KL(qφ(z|x) ∥ pθ(z)) là hàm mất mát KL
Hàm mất mát tái tạo:
Hạng tử thứ nhất trong biểu thức trên là giá trị mất mát do quá trình mã hóa và giải mãngược (hàm đo sự mất mát giữa dữ liệu ban đầu và kết quả thu được) Thay công thức củaphân phối chuẩn cho biến ngãu nhiên nhiều chiều ta được công thức mới cho hạng tử thứ nhất
Trang 19như sau:
EZ∼q i ;φ log pXi|Zi=z(xi; θ) = EZ∼q i ;φ log√ 1
2πσ2 I
−(x − µθ(Z))
2
2σ2 I
]
=− 12σ2EZ∼q i ;φ
h(x − µθ(Z))2i+ log√ 1
2πσ2 I
Với biến đổi công thức mới này, ta có thể dễ dàng tính được giá trị của hàm mất mát táitạo Trong công thức mới, hạng thử thứ 2 là một hằng số và hạng tử thứ nhất là một biểuthức kỳ vọng Vì vậy, ta sẽ liên tưởng tới phương pháp Monte Carlo để ước lượng kỳ vọng
EZ∼qi ;φ
h
(x− µθ(Z))2
i.Thực hiện ước lượng tham số bằng cách sinh ra các mẫu:
Ước lượng bằng phương pháp Monte Carlo với N mẫu sinh ra của Z
EZ∼qi ;φ log pX
i |Zi=z(xi; θ) = 1
N(− 12σ2
2
2σ2
φ(xi) −
log√12π −x
+ x µφ(xi)
KL(qi ;φ∥ pZi;θ) = −s2
φ(xi) + σ2
φ(xi) + µ2
φ(xi)− 12
13