BÁO CÁO BÀI TẬP NHÓM MÔN HỌC: KHAI PHÁ DỮ LIỆU: Đề tài Phương pháp MonteCarlo và Đối mặt với hàm phân hoạch

17.1 Lấy mẫu và phương pháp Monte Carlo Nhiều kĩ thuật được sử dụng để đạt được các mục tiêu học máy dựa trên việclấy các mẫu thử từ một vài phân bố xác suất và sử dụng những mẫu thử này

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

-BÁO CÁO BÀI TẬP NHÓMMÔN HỌC: KHAI PHÁ DỮ LIỆU

NỘI DUNG: Chương 17 - Phương pháp MonteCarlo

Chương 18 – Đối mặt với hàm phân hoạch

Giảng viên: PGS.TS Hà Quang Thụy Nhóm 12:

Sinh viên: Thái Tiến Dũng – 15022052 Sinh viên: Trần Thị Hằng - 15021165 Sinh viên: Hoàng Thị Lệ Thu – 15021364 Sinh viên: Lê Hồng Hội - 15021390 Sinh viên: Lê Trung Hiếu - 15021150

Hà Nội, tháng 9 năm 2018

Phân công trình bày:

Courville Deep Learning The MIT Press, 2016

Trang 2

 Lê Hồng Hội: Chương 18, mục 18.1, 18.2, 18.3, 18.4 - Ian Goodfellow,

Yoshua Bengio, Aaron Courville Deep Learning The MIT Press, 2016

Bengio, Aaron Courville Deep Learning The MIT Press, 2016

Karan Jain Deep Learning for Natural Language Processing Creating Neural Networks with Python Apress, 2018

-Palash Goyal, Sumit Pandey, Karan Jain Deep Learning for Natural Language Processing Creating Neural Networks with Python Apress, 2018

Trang 3

Mục Lục

Chapter 17: Phương pháp MONTE CARLO 6

17.1 Lấy mẫu và phương pháp Monte Carlo 6

17.1.1 Lý do lấy mẫu 6

17.1.2 Khái niệm cơ bản của lấy mẫu Monte Carlo 6

17.2 Lấy mẫu theo độ quan trọng 8

17.3 Phương pháp xích Markov Monte Carlo 10

17.4 Lấy mẫu Gibbs 14

17.5 Thách thức về sự pha trộn giữa các chế độ riêng biệt 15

17.5.1 Xáo trộn để pha trộn giữa các chế độ 17

17.5.2 Độ sâu có thể giúp cho việc pha trộn 19

Chương 18: Đối mặt với hàm phân hoạch 21

18.1 Gradient của logarit hàm hợp lý 21

18.2 Hợp lý cực đại ngẫu nhiên và phân kì tương phản 23

18.3 Pseudolikelihood (Giả hợp lý) 31

18.4: So sánh theo điểm số và so sánh theo tỉ lệ 34

18.5 Giảm nhiễu so sánh điểm 36

18.6 Ước tính tương phản nhiễu 37

18.7 Ước lượng hàm phân hoạch 39

18.7.1 Lấy mẫu theo độ quan trọng 41

18.7.2 Lấy mẫu bắc cầu 44

CHƯƠNG 5 46

Tài liệu Nghiên cứu: Phân tích ý kiến 46

A Giới thiệu 46

1 Giới thiệu 46

2 Tự chú ý nhúng câu 47

3 Phương pháp đề xuất 48

B Penalization Term – Giới hạn trừng phạt 51

1. Khái niệm: 51

2 Trực quan hóa 53

3 Kết quả nghiên cứu 55

4 Triển khai phân loại ý kiến 56

Danh mục tham khảo 57

Trang 5

Hình A- 1 Mô hình nhúng câu được tính như nhiều khoản trạng thái ẩn có trọng số

từ bộ nhớ ngắn hạn dài hai chiều (LSTM) (h1,…, hn) 45

Hình A- 2 Các trọng số tổng (Ai1,…, Ain) được tính như minh họa 46

Hình B 1 bản đồ nhiệt cho hai mô hình được trained trên tập dữ liệu Twitter Age [1] 51Hình B 2 Nhúng câu đối với ba đánh giá Yelp khác nhau 52

Trang 6

Chapter 17: Phương pháp MONTE CARLO

Monte Carlo là nhóm những thuật toán ngẫu nhiên Những thuật toán ngẫunhiên được chia thành hai nhóm chính: thuật toán Las Vegas và thuật toán MonteCarlo Những thuật toán Las Vegas luôn đưa ra câu trả lời chính xác (hoặc thông báokhi thất bại) Ngược lại, các thuật toán Monte Carlo đưa ra câu trả lời với một lượngsai số ngẫu nhiên

.Rất nhiều bài toán trong học máy là rất khó để tìm ra một câu trả lời chínhxác Thay vào đó, chúng ta phải sử dụng các thuật toán xác định xấp xỉ hay xấp xỉMonte Carlo

17.1 Lấy mẫu và phương pháp Monte Carlo

Nhiều kĩ thuật được sử dụng để đạt được các mục tiêu học máy dựa trên việclấy các mẫu thử từ một vài phân bố xác suất và sử dụng những mẫu thử này để đưa raước lượng Monte Carlo cho một số đại lượng mong muốn

con (subsample) của tổng chi phí huấn luyện với lô nhỏ (minibatch) Trong các một

số trường hợp, các thuật toán học yêu cầu phải tính xấp xỉ một tích phân hoặc một

tổng khó tính toán, chẳng hạn như độ dốc của hàm số log-partition (log partition function) trong một mô hình vô hướng Trong nhiều trường hợp khác, lấy mẫu là mục

tiêu chính, khi chúng ta muốn huấn luyện một mô hình có thể lấy mẫu từ phân phốihuấn luyện

17.1.2 Khái niệm cơ bản của lấy mẫu Monte Carlo

Khi một tổng hoặc một tích phân không thể tính chính xác (ví dụ tổng có sốlượng phần tử là một số có dạng luỹ thừa, và không có công thức rút gọn chính xác),

nó thường có thể tính xấp xỉ bằng cách sử dụng lấy mẫu Monte Carlo Ý tưởng là

xem tổng hoặc tích phân như kì vọng của một phân phối, và kì vọng đó xấp xỉ bằng mức trung bình tương ứng Đặt:

Trang 7

Chúng ta có thể xấp xỉ s bằng cách lấy ra n mẫu x(1), ,x(n)x(1), ,x(n) từ psau đó tính trung bình thực nghiệm:

Xấp xỉ này có thể được căn chỉnh thêm bằng một số thuộc tính khác Quan sát

sơ bộ đầu tiên đó là ước lượng s là không thiên vị (unbiased), bởi:

Ngoài ra, luật số lớn phát biểu rằng nếu các mẫu x(i) là một biến phân phối

ngẫu nhiên độc lập và phân biệt (i.i.d = Independent and identically distributed random variables) thì miễn là phương sai của từng đại lượng, Var[f(x(i))], bị chặn,

trung bình của nó sẽ hội tụ gần như chắc chắn tại kì vọng:

Thật vậy, xét phương sai của sn khi tăng n

Miễn là Var[f(x(i))]<∞, phương sai var[sn] giảm dần và hội tụ ở 0:

Kết quả này đồng thời cũng chỉ ra cách để ước lượng sự không chắc chắn trongtrung bình Monte Carlo hay còn gọi là sai số dự kiến trong xấp xỉ Monte Carlo.Chúng ta sẽ tính cả giá trị trung bình thực nghiệm của f(x(i)) và phương sai thựcnghiệm của chúng, sau đó chia phương sai đã ước lượng cho số lượng mẫu thử n để

thu được một ước lượng của var[sn] Theo Định lý giới hạn trung tâm về phân phối của đại lượng trung bình, snhội tụ theo phân phối chuẩn với trung bình (mean) s và

phương sai Var[f(x)] Điều này cho phép chúng ta ước tính khoảng sai số tin cậyxung quanh ước lượng sn, bằng cách sử dụng phân phối luỹ tích của hàm mật độchuẩn

Tất cả điều trên chỉ đúng với giả thiết rằng các mẫu có thể lấy dễ dàng từ phânphối p(x), tuy nhiên điều đó không phải lúc cũng là khả thi Khi lấy mẫu từ p như vậy

là không khả thi, một giải pháp thay thế là sử dụng các lấy mẫu theo độ quan trọng,

sẽ được trình bày trong mục 17.2 Cách tiếp cận khác tổng quát hơn đó là tổ chức một

chuỗi các ước lượng hội tụ theo hướng phân phối mong muốn Nó được gọi là

phương pháp xích Markov Monte Carlo (mục 17.3).

Trang 8

17.2 Lấy mẫu theo độ quan trọng

Một bước quan trọng khi phân tích tích phân (hoặc tổng) dùng trong phương

pháp Monte Carlo ở phương trình 17.2 đó là quyết định phần nào của tích phân đóng

vai trò của xác suất p(x), phần nào của tích phân tương ứng với định lượng f(x) có kìvọng sẽ được ước tính (theo phân bố xác suất trên) Có nhiều hơn một cách để phântích bởi p(x)f(x)luôn có thể viết lại dưới dạng:

Theo đó, ta có thể lấy mẫu từ qq và giá trị trung bình của pf/q Trong nhiềutrường hợp, ta cần phải tính toán kì vọng cho cả p (đã cho trước) và f đã cho, và sựthật là bài toán được xác định để tính một kì vọng ngay từ đầu cho thấy rằng pp và ff

là hiển nhiên khi phân tích Tuy vậy, chỉ dùng những đặc trưng ban đầu có thể khôngphải là lựa chọn tốt ưu về số lượng mẫu thử cần có để đạt được độ chính xác nhấtđịnh May mắn thay, có thể lựa chọn q∗ một cách dễ dàng q∗ tối ưu tương ứng vớiphương pháp lấy mẫu theo độ quan trọng tối ưu

Như đã trình bày ở phương trình 17.8, một ước lượng Monte Carlo bất kì:

(17.9)

Có thể biến đổi thành một ước lượng lấy mẫu theo độ quan trọng:

Dễ thấy, kì vọng của ước lượng không phụ thuộc vào q:

Tuy nhiên, phương sai của ước lượng lấy mẫu theo độ quan trọng lại rất nhạycảm với q, phương sai được cho bởi:

Phương sai tối thiểu khi q là

Trang 9

Với Z là hằng số chuẩn hoá, được chọn sao cho tổng hoặc tích phân của q*(x)

có giá trị là 1 khi thích hợp Các phân phối lấy mẫu theo độ quan trọng sẽ tốt hơn khi

nó có ảnh hướng lớn khi biểu thức dưới dấu tích phân tăng Trong thực tế, khi f(x)

không đổi dấu, Var[s^q∗]=0 var[sq*] , tức là, chỉ cần một mẫu đơn là đủ khi phân

phối tối ưu được sử dụng Tất nhiên, điều này chỉ xảy ra khi việc tính toán q*(x) về

cơ bản đã giải quyết được vấn đề ban đầu, vì vậy sử dụng phương pháp này để lấymột mẫu đơn từ phân phối tối ưu là không thực tế

Bất kì sự lựa chọn về phân phối nào của qq đều là hợp lệ (để tính được giá trị

kì vọng chính xác), và q* chỉ có một phân phối tối ưu (để phương sai là nhỏ nhất).Lấy mẫu từ q* thường là bất khả thi, tuy nhiên sử dụng các lựa chọn qq khác có thểkhả thi trong khi vẫn giảm phương sai

Một cách tiếp cận khác là sử dụng lấy mẫu theo trọng có thiên kiến, thế

mạnh của nó là không yêu cầu pp hay qq phải được chuẩn hoá Trong trường hợp cácbiến rời rạc, lấy mẫu theo độ quan trọng có thiên kiến được cho bởi:

Với q~ và p~ là dạng không chuẩn hoá của p và q, x(i) là các mẫu được lấy từ

q Ước lượng này là thiên kiến bởi E[sBIS]≠s, trừ khi tiệm cận n→∞ và mẫu số ở

phương trình 17.14 hội tụ về 1 Do đó ước lượng này còn được gọi là tiệm cận không

thiên vị

Lựa chọn tốt q có thể cải thiện đáng kể năng suất của ước tính Monte Carlo, nhưngmột lựa chọn tệ đồng thời cũng khiến năng suất kém hơn nhiều Trở lại với phương

trình 17.12, ta thấy, nếu các mẫu thử từ qq mà tại đóp(x) |f(x)|q(x) lớn, phương sai

của ước lượng sẽ có giá trị rất lớn Điều này xảy ra khi q(x) quá nhỏ so với cả p(x) vàf(x) Phân phối của q thường được chọn là một phân phối đơn giản để tiện lợi cho quátrình lấy mẫu Khi x có là một biến nhiều chiều, sự đơn giản này của q lại khiến nókhó khớp với p hay p|f| Khi q(x(i)) >> p(x(i))|f(x(i))|, lấy mẫu theo độ quan trọng chỉthu được các mẫu thử vô dụng (tổng rất nhỏ hoặc bằng không) Nói cách khác, q(x(i)) << p(x(i))|f(x(i))| xảy ra hiếm hơn, khi đó tỉ số sẽ trở nên rất lớn Bởi trườnghợp sau xảy ra rất hiếm, chúng thường không xuất hiện trong các mẫu thử tiêu biểu,

từ đó ta có đánh giá thấp về ss, nhằm bù đắp lại các đánh giá quá cao Các giá trị rấtlớn hoặc rất nhỏ thường rất điển hình khi x là biến nhiều chiều Bởi trong không giannhiều chiều, phạm vi động của các xác suất đồng thời có thể rất lớn

Trang 10

Mặc cho những rủi ro trên, lấy mẫu theo độ quan trọng và các biến thể có nóđược cho là rất hữu ích trong nhiều thuật toán học máy, bao gồm cả các thuật toánhọc sâu Ví dụ như việc sử dụng lấy mẫu theo độ quan trọng nhằm tăng tốc độ huấn

luyện trong mô hình ngôn ngữ neuron với từ điển số lượng lớn (mục 12.4.3.3) hoặc

các mạng neuron khác với nhiều đầu ra Có thể tham khảo thêm cách mà lấy mẫutheo độ quan trọng được sử dụng để ước tính một hàm riêng (hằng số chuẩn hoá của

một phân phối xác suất) trong mục 18.7, và để ước lượng logarit của hàm khả năng

trong mô hình học sâu có hướng, ví dụ bộ tự mã hoá biến phân (variational

autoencoder) được giới thiệu trong mục 20.10.3 lấy mẫu theo độ quan trọng còn

được sử dụng để cải thiện ước lượng độ trượt dốc của hàm chi phí được sử dụng đểhuấn luyện các tham số của mô hình với trượt gradient ngẫu nhiên, đặc biệt với các

mô hình, ví dụ như phân lớp, trong đó phần lớn giá trị cùa hàm mất mát đến từ số ítcác mẫu bị phân lớp sai Càng thử nhiều các mẫu khó hơn càng giảm phương sai củagradient trong những trường hợp như vậy(Hinton, 2006)

17.3 Phương pháp xích Markov Monte Carlo

Trong nhiều trường hợp, chúng ta muốn dùng kĩ thuật Monte Carlo nhưngkhông có phương pháp đơn giản nào cho việc lấy những mẫu chính xác từ phân phốiPmodel(x)hoặc từ một phân bố lấy mẫu theo độ quan trọng (phương sai nhỏ) q(x).Trong bối cảnh của học sâu, việc này thường xảy ra khi Pmodel(x) được biểu diễnbởi một mô hình vô hướng Trong những trường hợp đó, chúng tôi đưa ra một công

cụ toán học gọi là xích Markov để tính xấp xỉ mẫu từ Pmodel(x) Họ các thuật toán dùng xích Markov để thực hiện các tính toán Monte Carlo được gọi là phương pháp xích Markov Monte Carlo (MCMC) Phương pháp xích Markov Monte Carlo cho

máy học được miêu tả chi tiết trong Koller and Friedman (2009) Điều kiện cơ bản

và chung nhất để kĩ thuật MCMC được áp dụng là chỉ khi mô hình không gán xácxuất 0 cho bất kì trạng thái nào Vì thế, cách thuận tiện nhất để biểu diễn những kĩthuật này là thử từ một mô hình hướng năng lượng (EBM) p(x) ∝ exp(−E(x))đượcmiêu tả ở phần 16.2.4 Trong công thức EBM, tất cả trạng thái được đảm bảo có xácxuất khác 0 Phương pháp MCMC được áp dụng rộng rãi trong thực tế và có thể đượcdùng với nhiều phân phối xác xuất chứa trạng thái có xác xuất bằng 0 Tuy nhiên, cácđảm bảo về lí thuyết liên qua đến cách vận hành của phương pháp MCMC phải đượcchứng minh trên cở sở của từng trường hợp cụ thể cho từng họ phân phối Trong bốicảnh của học sâu, cách chung nhất là dựa vào đảm bảo của lý thuyết tổng quát màứng dụng một cách hiển nhiên cho tất cả các mô hình hướng năng lượng

Để hiểu vì sao rút mẫu từ một mô hình hướng năng lượng là việc khó khăn, xétmột EBM trên hai biến, định nghĩa một phân phối p(a,b) Để thử mẫu a, chúng ta phảirút aa từ p(a | b), và tương tự rút bb từ p(b | a) để thử bb Nó dường như giống với bàitoán quả trứng hay gà có trước Những mô hình có hướng tránh vấn đề này bởi vì đồ

thị của nó có hướng và tuần hoàn Để thực hiện lấy mẫu di truyền (ancestral

sampling), ta thực hiện lấy mẫu cho từng biến theo thứ tự tôpô (topological order),

với điều kiện là các biến cha được đảm bảo rằng chúng đã được thử (phần 16.316.3).Lấy mẫu di truyền định nghĩa một phương pháp lấy mẫu có hiệu quả và đơn giản

Trang 11

Trong một EBM, chúng ta có thể tránh bài toán con gà và quả trứng khi lấy mẫu bằngviệc dùng xích Markov Ý tưởng cốt lõi của xích Markov là bắt đầu từ một trạng thái

x có giá trị tùy ý Theo thời gian, ta cập nhật x một cách ngẫu nhiên Cuối cùng, x trởthành (rất gần) một mẫu hợp lí từ p(x) Chính xác hơn, một xích Markov được địnhnghĩa bởi một trạng thái ngẫu nhiên x và một phân phối chuyển tiếp T(x′ | x)chỉ rõxác xuất mà một cập nhật ngẫu nhiên sẽ đi tới trạng thái x′ nếu nó bắt đầu từ x Vậnhành một chuỗi Markov nghĩa là lặp đi lặp lại việc cập nhật trạng thái x thành x′ đượcrút từ T(x′|x)

Để có một số hiểu biết về mặt lí thuyết về cách MCMC hoạt động, việc táitham số hoá bài toán có thể hữu ích Đầu tiên, chúng ta giới hạn chú ý của chúng tavào trường hợp mà biến ngẫu nhiên x có số lượng trạng thái có thể đếm được Chúng

ta có thể biểu diễn trạng thái như là một số nguyên dương x Những giá trị nguyênkhác nhau của x ánh xạ về các trạng thái khác nhau x trong bài toán ban đầu

Điều gì sẽ xảy ra khi chúng ta chạy không giới hạn các xích Markov song song nhau?

Tất cả các trạng thái của chuỗi Markow được rút từ phân bố q(t)(x), trong đó t là số

bước đã duyệt qua Ban đầu, q(0) là phân phối mà chúng ta đã dùng để khởi tạo ngẫu

nhiên x cho mỗi xích Markov Sau đó, q(t) bị ảnh hưởng bởi tất cả các bước xích

Markov đã được duyệt Mục đích là để q(t)(x) hội tụ về p(x)

Bởi vì chúng ta đã tái tham số hoá bài toán dưới dạng một số nguyên dương xnên chúng ta có thể miêu tả phân phối xác suất q bằng cách sử dụng một vector v với

Xét trường hợp khi chúng ta cập một một trạng thái x của một xích Markovthành một trạng thái x′ mới Xác suất của một trạng thái đơn nằm trong trạng thái x′được cho bởi

Sử dụng việc tham số hóa số nguyên, chúng ta có thể biểu diễn ảnh hưởng củatoán tử chuyển tiếp T bằng một ma trận A Chúng ta định nghĩa A sao cho

Với định nghĩa này, chúng ta có thể viết lại phương trình 17.1817.18 Thay vìviết nó theo qq và T để hiểu cách một trạng thái đơn được cập nhật, chúng ta có thểdùng v và A để mô tả cách toàn bộ phân phối trên tất cả các xích Markov chuyển đổinhư thế nào (chạy song song) khi chúng ta áp dụng một cập nhật:

Trang 12

Áp dụng cập nhật xích Markov liên tục tương ứng với phép nhân ma trận nhiềulần Nói cách khác, chúng ta có thể xem quá trình này như xem phép lũy thừa ma trậnA:

Ma trận A có cấu trúc đặc biệt vì mỗi cột của nó biểu diễn một phân phối xác

xuất Những ma trận như A được gọi là ma trận trượt dốc ngẫu nhiên (stochastic

matrices) Nếu không có xác xuất bằng không của việc chuyển tiếp từ bất kì trạng thái x nào tới trạng thái x′x′ khác với số mũ tt thì định lí Perron-Frobenius (Perron, 1907: Frobenius, 1908) đảm bảo rằng giá trị riêng lớn nhất là số thực và bằng 1.

Theo thời gian, chúng ta có thể thấy rằng tất cả các giá trị riêng được lũy thừa:

Quá trình này tạo ra tất cả các giá trị riêng khác 1 đều giảm về 0 Dưới một sốđiều kiện bổ sung khác, A được đảm bảo chỉ có duy nhất một vector riêng với giá trịriêng 1 Do đó, quá trình hội tụ về một phân phối dừng hay gọi cách khác là phânphối cân bằng Tại điểm hội tụ ta có:

điều kiện này được giữ cho tất cả các bước bổ sung Đây là một phương trìnhvetor riêng Để trở thành điểm dừng, v phải là vector riêng với giá trị riêng tương ứng

là 1 Điều kiện này đảm bảo một khi chúng ta đạt đến phân phối dừng, lặp lại ứng

dụng của lọc mẫu chuyển tiếp không thay đổi phân phối của các trạng thái của tất cả

xích Markov khác nhau (mặc dù toán tử chuyển tiếp thay đổi ở mỗi trạng thái riênglẻ)

Nếu chúng ta chọn T chính xác, phân phối dừng sẽ qq sẽ bằng phân phối ppchúng ta muốn thử Chúng tôi sẽ mô tả cách chọn T trong phần 17.417.4

Hầu hết các tính chất của xích Marhov với những trạng thái có thể đếm có thểđược tổng quát hóa thành biến liên tục Trong tình huống này, một số tác giả gọi xích

Marhov là xích Harris, nhưng chúng tôi dùng khái niệm xích Markov cho cả 2 điều

kiện Nói chung, một xích Markov với toán tử chuyển tiếp T sẽ hội tụ dưới các điềukiện nhẹ, đến một điểm cố định được biểu diễn bằng phương trình:

Trong trường hợp biến rời rạc, nó được viết như phương trình 17.2317.23 Khi

x rời rạc, kì vọng tương ứng với một tổng Khi x liên tục, kì vọng tương ứng với mộttích phân

Bất kể trạng thái là liên tục hay rời rạc, tất cả các phương pháp xích Markovđều lặp lại nhiều lần các cập nhật ngẫu nhiên cho đến khi một trạng thái bắt đầu đưa

ra các mẫu thuộc phân phối cân bằng Chạy xích Markov đến khi đạt được phân phối

Trang 13

cân bằng được gọi là đốt cháy(burn in) xích Markov Sau khi xích đã cân bằng, một

chuỗi không giới hạn mẫu có thể được rút từ phân phối cân bằng Chúng có phânphối giống nhau, nhưng bất kì 2 mẫu liên tiếp nào cũng sẽ tương quan chặt chẽ vớinhau Do đó, một chuỗi có giới hạn các mẫu có thể không đại diện cho phân phối cân

bằng Một cách để giảm tải vấn đề này là ta chỉ trả về n mẫu liên tiếp để ước tính của

thống kê trong phân phối cân bằng không bị thiên vị bởi sự tương quan giữa một mẫuMCMC và một vài mẫu kế tiếp Như vậy, dùng các xích Markov khá tốn kém bởi vì

nó cần có thời gian để đốt cháy thành phân phối cân bằng và thời gian chuyển tiếp từmẫu này sang mẫu đã được giải thích hợp lí khác sau khi đạt trạng thái cân bằng Nếumột người mong muốn các mẫu hoàn toàn độc lập, họ có thể chạy nhiều xích Markovsong song Cách này dùng phép tính song song để loại trừ trạng thái ẩn Chiến lượcchỉ sử dụng một chuỗi Markov duy nhất để tạo ra tất cả các mẫu và chiến lược sửdụng một chuỗi Markov cho mỗi mẫu mong muốn là hai trái cực: chuyên gia về họcsâu thường dùng số xích tương đương với số lượng các ví dụ trong một lô nhỏ và sau

đó rút số lượng mẫu cần thiết từ tập hợp hữu hạn xích Markov Số lượng xíchMarkov thường dùng là 100

Một vấn để khác là chúng ta không biết trước bao nhiêu bước xích Markovphải thực hiện cho đến khi đạt đến phân phối cân bằng Quãng thời gian này được gọi

là thời gian trộn (mixing time) Để kiểm tra liệu rằng xích Markov đã đạt đến trạng

thái cân bằng hay chưa là công việc khó Chúng ta không có một lý thuyết nào đủchính xác để giúp ta trả lời câu hỏi này Lí thuyết chỉ chỉ ra rằng xích sẽ hội tụ, màkhông giải thích gì thêm Nếu chúng ta phân tích xích Markov từ điểm nhìn của một

ma trận A hoạt động trên một vector xác xuất v, chúng ta biết được xích sẽ trộn lẫnkhi At không chứa giá trị riêng nào từ A ngoại trừ giá trị riêng duy nhất là 1 Nghĩa là

độ lớn của giá trị riêng lớn thứ 2 sẽ xác định thời gian trộn Mặc dù trong thực tế,chúng ta không thể biểu diễn xích Markov bằng ma trận Số trạng thái mà mô hìnhxác xuất có thể duyệt qua rất lớn so với số lượng biến Nên việc biểu diễn v, A haygiá trị riêng của A là không thể Bởi vì những điều trên, chúng ta thường không biếtmột xích Markov đã trộn hay chưa Thay vào đó, chúng ta đơn giản chạy xíchMarkov trong một khoảng thời gian mà chúng ta tự ước tính là nó vừa đủ và dùngphương pháp đánh giá dựa trên kinh nhiệm để xác định xích đã được trộn chưa.Những phương pháp này bao gồm kiểm tra mẫu thủ công hay đo lường sự tươngquan giữa hai mẫu liên tiếp

17.4 Lấy mẫu Gibbs

Đến đây, chúng tôi đã nói về cách rút mẫu từ một phân phối q(x) bằng việc lặp

lại nhiều lần cập nhật x←x′∼T(x′ | x) Chúng ta chưa mô tả cách đảm bảo q(x) là mộtphân phối hữu ích Có hai cách tiếp cận cơ bản được đề cập đến trong cuốn sách này.Cách thứ nhất là suy ra T từ mô hình Pmodel cho trước, được nói đến ở dưới với

trường hợp lấy mẫu từ EBMs Cách thứ hai là tham số hóa trực tiếp T và học nó để

phân phối dừng của nó định nghĩa ngầm mô hình mong muốn Pmodel Ví dụ củacách thứ hai được miêu tả trong mục 20.1220.12 và 20.1320.13

Trong ngữ cảnh của học sâu, chúng ta thường dùng xích Markov để rút mẫu từ môhình hướng năng lượng mà nó định nghĩa một phân phối pmodel(x) Trong trường

Trang 14

hợp này, chúng ta muốn q(x) trong xích Markov là pmodel(x) Để thu được q(x) nhưmong muốn, chúng ta phải chọn T(x′ | x) phù hợp.

Một cách đơn giản và hiệu quả để xây dựng một xích Markov mà lấy mẫu từ

mô hình pmodel(x) là dùng lấy mẫu Gibbs, trong đó mẫu từ T(x′ | x) được thực hiện

bằng cách chọn một biến xixi và thử nó từ mô hình pmodel với điều kiện là nhữnglân cận của nó trong đồ thị vô hướng G định nghĩa cấu trúc của mô hình hướng nănglượng Chúng ta cũng có thể thử nhiều biến một lúc miễn là các biến đó độc lập vớitất cả các lân cận Như đã nói trong ví dụ của RBM mục 16.7.1, tất cả các lớp ẩn củamột RBM có thể được thử đồng thời vì chúng độc lập với nhau, đối với các lớp hữuhình cho trước khác Tương tự, tất cả các lớp hữu hình có thể được thử đồng thời bởi

vì những lớp đó độc lập với các lấp ẩn khác Phương pháp lấy mẫu Gibbs mà cập

nhật nhiều biến đồng thời theo cách này được gọi là lấy mẫu Gibbs theo khối.

Vẫn có cách khác để thiết kế xích Markov để lấy mẫu từ mô hình Pmodel Ví

dụ, thuật toán Metropolis-Hastings được dùng rộng rãi trong những lĩnh vực khác.Trong bối cảnh của phương pháp học sâu với mô hình vô hướng, lấy mẫu Gibbsthường được sử dụng hơn các phương pháp khác Kĩ thuật cải thiện lấy mẫu là mộtbiên giới có thể nghiên cứu

17.5 Thách thức về sự pha trộn giữa các chế độ riêng biệt

Khó khăn chính liên quan đến các phương pháp MCMC là chúng có xu hướngpha trộn kém Lý tưởng nhất, các mẫu liên tiếp từ một chuỗi Markov được thiết kế đểlấy mẫu từ p(x) sẽ hoàn toàn độc lập với nhau và sẽ duyệt qua nhiều vùng khác nhautrong không gian x tỷ lệ với xác suất của chúng Thay vào đó, đặc biệt trong cáctrường hợp số chiều lớn, các mẫu MCMC trở nên rất tương quan Chúng tôi đề cậptới hành vi này như là sự pha trộn chậm hoặc thậm chí sự pha trộn thất bại Phươngpháp MCMC với việc pha trộn chậm có thể được xem như vô tình thực hiện một cái

gì đó giống như trượt gradient có nhiễu trên hàm năng lượng, hoặc tương đương vớiviệc leo đồi có nhiễu trên xác suất, liên quan tới trạng thái của chuỗi (tức là các biếnngẫu nhiên đang được thử) Chuỗi có xu hướng thực hiện các bước nhỏ (trong khônggian trạng thái của chuỗi Markov), từ một cấu hình x(t-1)đến một cấu hình xt, vớinăng lượng E(x(t)) thường thấp hơn, hoặc xấp xỉ tương đương với năng lượng E(x(y-1)), ưu tiên cho việc chuyển đổi có cấu hình năng lượng thấp hơn Khi đang bắt đầu

từ một cấu hình không ổn định (có năng lượng cao hơn so với các cấu hình đặc trưng

từ p(x), chuỗi có xu hướng giảm dần năng lượng của các trạng thái và chỉ di chuyếntới chế độ khác một cách ngẫu nhiên Khi chuỗi tìm thấy một vùng năng lượng thấp(ví dụ, nếu các biến là các pixel của một bức ảnh, một vùng năng lượng thấp có thể làmột đa tạp được kết nối đến các bức ảnh của cùng đối tượng), được gọi là chế độ

(mode), chuỗi sẽ có xu hướng đi vòng quanh chế độ này (theo một kiểu đi ngẫu

nhiên) Đôi khi, nó sẽ bước ra khỏi chế độ đó và thường trở lại với nó hoặc (nếu nótìm thấy một lời giải) di chuyển sang chế độ khác Vấn đề là các lời giải thành cônghiếm gặp đối với nhiều phân phối thú vị, do vậy chuỗi Markov sẽ tiếp tục thử cùngmột chế độ lâu hơn mức cần thiết

Đây là vấn đề rất rõ ràng khi chúng ta xem xét thuật toán lấy mẫu Gibbs (mục 17.4).Trong ngữ cảnh này, xét xác suất đi từ một chế độ này sang một chế độ khác gần nó

Trang 15

với số bước cho trước Hình dạng của xác suất sẽ được xác định xem nó có phải làgiới tuyến năng lượng giữa các chế độ khác nhau hay không Chuyển tiếp giữa haichế độ riêng biệt bởi một giới tuyến năng lượng cao (một vùng có xác suất thấp) cókhả năng thấp theo cấp số nhân (xét về chiều cao của giới tuyến năng lượng) Điềunày được minh hoạ trong hình 17.1 Vấn đề phát sinh khi có nhiều chế độ với xácsuất cao được phân tách bởi các vùng có xác suất thấp, đặc biệt khi mỗi bước lấy mẫuGibbs chỉ phải cập nhật từng tập nhỏ các biến có giá trị lớn và được xác định bởi cácbiến khác.

Một ví dụ đơn giản, xét một mô hình hướng năng lượng trên hai biến a và b, ởđây cả hai đều có dấu nhị phân, xét trên các giá trị −1 và 1 Nếu E(a, b) =−ab, với mộtvài số dương lớn , thì mô hình sẽ biểu thị chắc chắn rằng a và b cùng dấu Xét việccập nhật b sử dụng một bước lấy mẫu Gibbs với a=1 Phân phối có điều kiện trên bđược tính theo P(b=1|a=1)=σ() Nếu lớn, hàm sigmoid bão hoà, và xác suất khi gán

bb bằng 1 là gần như là 1 Tương tự như vậy, nếu a=1, xác xuất khi gán b=−1 cũnggần như là 1 Theo Pmodel(a,b), dấu của cả hai biến là tương đương nhau TheoPmodel(a | b), cả hai biến có cùng một dấu Điều này có nghĩa rằng lấy mẫu Gibbs sẽ

ít khi đổi dấu của các biến này

Trong các bài toán thực tế, thách thức thậm chí còn lớn hơn bởi vì chúng taquan tâm tới việc tạo ra sự chuyển tiếp không chỉ giữa hai chế độ mà thường là giữatất cả các chế độ có trong một mô hình thực Nếu việc chuyển đổi như vậy khó khăn

do trở ngại của việc trộn lẫn các chế độ, việc có được một tập hợp đáng tin cậy cácmẫu bao phủ hầu hết các chế độ thường tốn kém, và sự hội tụ chuỗi về phân phối cốđịnh thường rất chậm

Đôi lúc vấn đề được giải quyết bằng việc tìm kiếm nhóm các lớp có độ phụthuộc lớn và cập nhật chúng đồng thời trong một khối Không may, khi độ phụ thuộcphức tạp, lấy một mẫu từ nhóm này có thể sẽ khó khăn về mặt tính toán Xét chocùng, bài toán gốc mà chuỗi Markov được giới thiệu để giải quyết là bài toán lấy mẫu

từ một nhóm có nhiều biến

Trong bối cảnh các mô hình có biến tiềm ẩn, ở đây định nghĩa một phân phốichung pmodel(x, h), chúng ta thường lấy các mẫu của x bằng cách xen kẽ các mẫu từpmodel(x | h)và từ pmodel(h | x) Từ quan điểm pha trộn nhanh, chúng ta muốnpmodel(x | h) có entropy cao Từ quan điểm của việc học một biểu diễn hữu ích của

h, chúng ta muốn h mã hoá đủ thông tin về x để tái tạo lại nó, từ đó suy ra h và xnên có nhiều thông tin chung Hai mục tiêu này mâu thuẫn với nhau Chúng tathường học các mô hình sinh mẫu mà mã hoá rất chính xác x thành h nhưng khôngthể kết hợp tốt với nhau Tình trạng này phát sinh thường xuyên với các máyBoltzmann — phân phối mà máy Boltzmann học càng sắc nét, việc lấy mẫu củachuỗi Markov từ phân phối mẫu để pha trộn đều càng khó Vấn đề được minh hoạtrong hình 17.2

Tất cả điều này có thể làm cho phương pháp MCMC kém hữu dụng hơn khiphân phối mong muốn có quan hệ cấu trúc đa tạp với một đa tạp riêng biệt cho mỗilớp: các phân phối tập trung xung quanh nhiều chế độ, và các chế độ này được phântách bởi các vùng lớn có năng lượng cao Loại phân phối này là những gì chúng ta

Trang 16

mong muốn trong nhiều bài toán phân loại, và nó sẽ làm cho các phương phápMCMC hội tụ rất chậm bởi vì sự pha trộn kém giữa các chế độ.

Hình 17 1 Các đường biểu diễn lấy mẫu Gibbs cho ba phân phối

Hình 17.1: Các đường biểu diễn lấy mẫu Gibbs cho ba phân phối, với chuỗi Markovđược khởi tạo tại các chế độ trong cả hai trường hợp (Bên trái) Một phân phối chuẩn

đa chiều với hai biến độc lập Lấy mẫu Gibbs trộn tốt bởi các biến độc lập (Ở giữa)Một phân phối chuẩn đa chiều với các biến tương quan cao Sự tương quan giữa

các biến làm cho việc pha trộn của chuỗi Markov trở nên khó khăn Vì việc cập nhậtcho mỗi biến phải thoả mãn điều kiện trên mỗi biến khác nhau, sự tương quan làm

giảm tốc độ chuỗi Markov có thể di chuyển khỏi điểm bắt đầu (Bên phải) Một phép

trộn Gauss với các chế độ tách biệt rõ ràng mà trục không được căn chỉnh Lấy mẫuGibbs pha trộn rất chậm bởi vì việc thay đổi các chế độ thường khó khi chỉ có mộtbiến được thay đổi ở một thời điểm

17.5.1 Xáo trộn để pha trộn giữa các chế độ

Khi một phân phối có các đỉnh nhọn có xác xuất cao và được bao quanh bởicác vùng xác suất thấp, việc pha trộn giữa các chế độ khác nhau của phân phối đó thìkhó khăn Một vài kĩ thuật để pha trộn nhanh hơn là dựa trên việc xây dựng các phiênbản thay thế của phân phối đích trong đó các đỉnh không cao và các đường rãnh xungquanh không thấp Mô hình hướng năng lượng cung cấp một cách đặc biệt đơn giản

để thực hiện Trước đó, chúng ta đã mô tả một mô hình hướng năng lượng như là mộtphân phối xác suất

Mô hình năng lượng cơ sở có thể có thêm một tham số ββ kiểm soát đỉnh nhọncác phân phối là:

Tham số ββ thường được mô tả như là đối ứng của nhiệt độ (temperature),

phản ánh nguồn gốc của mô hình hướng năng lượng trong vật lý thống kê Khi nhiệt

độ giảm tới 0, và ββ tăng tới vô cực, mô hình hướng năng lượng bắt đầu xác định.Khi nhiệt độ tăng tới vô cực và β giảm về 0, phân phối (với x rời rạc) trở thành phânphối đều

Trang 17

Hình 17 2 Một mình hoạ cho vấn đề pha trộn chậm trong mô hình xác suất sâu

Hình 17.2: Một mình hoạ cho vấn đề pha trộn chậm trong mô hình xác suất

sâu Ta nên đọc mỗi bảng từ trái sang phải, từ trên xuống dưới (Bên trái)(Bên trái)

Các mẫu liên tiếp từ phép lấy mẫu Gibbs được dùng cho huấn luyện một máy học sâuBoltzmann trên tập dữ liệu MNIST Các mẫu này thì tương tự nhau Vì phép lấy mẫuGibbs được thực hiện trên một mô hình đồ hoạ đặc trưng, sự tương tự này dựa trênngữ nghĩa nhiều hơn so với các đặc trưng trực quan thô, nhưng chuỗi Gibbs vẫn sẽgặp khó khăn khi chuyển tiếp từ một chế độ này sang một chế độ khác trong cùng

một phân phối, ví dụ, việc thay đổi số định danh (Bên phải)(Bên phải) Các mẫu liêm tiếp có chung nguồn gốc từ một mạng đối kháng sinh mẫu (generative adversarial network) Bởi vì lấy mẫu di truyền tạo ra các mẫu độc lập với nhau, do đó không xảy

ra vấn đề pha trộn

Thông thường, một mô hình được huấn luyện để được đánh giá tại β=1 Tuy

nhiên chúng ta có thể tận dụng các nhiệt độ khác, đặc biệt những điểm β<1 Xáo trộn

(tempering) là một chiến lược chung cho việc pha trộn giữa các chế độ của p1p1

nhanh chóng bằng việc lấy mẫu với β<1

Chuỗi Markov dựa trên sự chuyển tiếp nóng (tempered transitions) (Neal,

1994) , lấy mẫu tạm từ phân phối có nhiệt độ cao để pha trộn với các chế độ khác, sau

đó tiếp tục lấy mẫu từ phân phối có nhiệt độ đồng nhất Các kỹ thuật này đã được áp

dụng cho được các mô hình như RBM (Salakhutdinov, 2010) Một phương pháp khác

là sử dụng xáo trộn song song (parallel tempering) (Iba, 2001), trong đó chuỗi

Markov mô phỏng nhiều trạng thái khác nhau cùng lúc, với nhiệt độ khác nhau.Trạng thái có nhiệt độ cao nhất pha trộn một cách chậm chạp, trong khi đó trạng thái

có nhiệt độ thấp nhất, có nhiệt độ là 1, cung cấp các mẫu chính xác từ mô hình Hoạtđộng chuyển tiếp bao gồm trao đổi ngẫu nhiên trạng thái giữa hai tầng nhiệt độ khácnhau, sao cho một mẫu xác suất cao từ vị trí có nhiệt độ cao có thể nhảy vào vị trínhiệt độ có thấp hơn một cách suôn sẻ Đây là phương pháp cũng đã được áp dụng

cho các RBM (Desjardins và et al., 2010; Cho và et al., 2010) Mặc dù xáo trộn là

một phương pháp đầy hứa hẹn, tại thời điểm đó nó không cho phép các nhà nghiêncứu tạo một bước tiến lớn trong việc giải quyết thách thức của việc lấy mẫu từ các

Trang 18

mô hình EBM phức tạp Một lý do có thể là có những nhiệt độ cực trị mà quanh

chúng, nhiệt độ chuyển tiếp phải rất chậm (khi nhiệt độ giảm dần) để việc xáo trộntrở nên ổn định

17.5.2 Độ sâu có thể giúp cho việc pha trộn

Khi lấy mẫu từ một mô hình p(h,x) có biến ẩn, ta thấy rằng nếu p(h | x) mã hoá

x tốt, thì việc lấy mẫu từ p(x | h) sẽ không thay đổi x quá nhiều, và việc pha trộn sẽtrở nên kém đi Một cách để giải quyết vấn đề này là biến h thành một biểu diễn có

độ sâu, mã hoá x thành h theo cách mà một chuỗi Markov trong không gian của h cóthể thực hiện việc pha trộn dễ dàng hơn Nhiều thuật toán học cách biểu diễn, như bộ

tự mã hoá và các RBM, có xu hướng sinh ra một phân phối cận biên trên h đồng nhấthơn và đơn giản hơn so với phân phối dữ liệu ban đầu trên x Có thể lập luận rằngđiều này phát sinh từ việc cố gắng tối thiểu sai số khôi phục trong khi sử dụng tất cảkhông gian biểu diễn khả dụng, bởi vì tối thiểu sai số khôi phục trên tập huấn luyệnmẫu sẽ dễ đạt được hơn khi các mẫu trong tập huấn luyện có thể phân biệt dễ dàng

với nhau trong không gian- h, và do đó sẽ có tách biệt tốt Bengio et al.(2013a) đã

quan sát thấy rằng ngăn xếp sâu hơn của bộ tự mã hoá chuẩn hoá hoặc các RBM sinh

ra một phân phối cận biên trong bậc đỉnh của không gian- h mà có độ phủ rộng vàđồng đều hơn, đồng thời khoảng cách giữa các vùng tương ứng với các chế độ cũnggiảm đi (các loại, trong các thực nghiệm) Huấn luyện một RBM trong không giantầng cao hơn đã cho phép lấy mẫu Gibbs pha trộn nhanh hơn giữa các chế độ Tuynhiên, cách để khai thác quan sát này nhằm giúp huấn luyện và lấy mẫu từ các môhình sinh trưởng sâu hơn trở nên tốt hơn vẫn chưa rõ ràng

Mặc dù gặp khó khăn trong việc thực hiện trộn, kỹ thuật Monte Carlo rất hữuích và thường là công cụ tốt nhất sẵn có Thật vậy, chúng là công cụ chính được sửdụng để đối trị với hàm phân chia khó của các mô hình vô hướng, sẽ được thảo luậntiếp theo sau đây

Trang 19

Chương 18: Đối mặt với hàm phân hoạch

Trong phần 16.2.2 ta nhận thấy rằng nhiều mô hình xác suất (thường đượcbiết đến với tên gọi mô hình đồ thị vô hướng) được định nghĩa bởi một phân phốixác suất chưa được chuẩn hóa p~(x;θ)θ)) Ta cần phải chuẩn hóa p~ bằng cách chiacho hàm phân hoạch Z(θ)) để đạt được một phân phối hợp lý:

Hàm phân hoạch là một phép tích phân (đối với biến ngẫu nhiên liên tục)hoặc phép lấy tổng (đối với biến ngẫu nhiên rời rạc) các xác suất chưa chuẩn hóacủa tất cả các trạng thái trong không gian mẫu:

hoặc

Phép toán này khó tính toán (intractable) đối với nhiều mô hình thống kê.

Như ta sẽ thấy trong chương 20, một số mô hình học sâu được thiết kế có hằng số

chuẩn hóa có thể tính toán được (tractable) hoặc được thiết kế để không cần

phải tính p(x) Tuy nhiên, nhiều mô hình khác phải đối mặt với thách thức vớihàm phân hoạch khó tính toán được Trong chương này, chúng ta sẽ mô tả một số

kĩ thuật được sử dụng để huấn luyện và đánh giá các mô hình có hàm phân hoạchkhó tính toán

18.1 Gradient của logarit hàm hợp lý

Nguyên nhân dẫn đến việc học các mô hình vô hướng bằng phương pháp hợp

lý cực đại trở nên khó khăn đó là hàm phân hoạch phụ thuộc vào nhiều tham sô.Gradient của logarit hàm hợp lý ứng với các tham số có một phần tương ứng với

Đây là sự phân tách phổ biến thành pha dương (positive phase) và pha âm (negative phase) trong việc học của mô hình.

Đối với hầu hết các mô hình vô hướng, việc tính toán pha âm gặp khó khăn.Những mô hình không có biến ẩn hoặc có ít tương tác giữa các biến ẩn thường cópha dương tính được Một ví dụ điển hình của mô hình có pha dương tính được vàpha âm không tính được là RBM, trong đó các nút ẩn độc lập có điều kiện vớinhau nếu cho trước giá trị các nút quan sát được Trường hợp khó tính toán phadương, trong những mô hình có nhiều tương tác phức tạp giữa các biến ẩn, chúng

Trang 20

tôi khai thác ở chương 19 Chương này tập trung vào các khó khăn trong việc tínhtoán pha âm.

Ta hãy cùng phân tích công thức gradient của logZ

Để mô hình luôn đảm bảo p(x)>0 với mọi x, ta có thể thaythế p˜(x) bởi exp(logp˜(x)):

Phần đạo hàm này áp dụng trên tổng của tất cả các giá trị xx rời rạc, kết quảtương tự cũng được áp dụng bằng cách tính tích phân biến xx liên tục Trongphiên bản liên tục của đạo hàm, ta sử dụng quy tắc Leibniz cho vi phân để thuđược phép đồng nhất:

Phép đồng nhất này chỉ áp dụng được trong một số điều kiện nhất địnhcủa p˜ và ∇θ)p˜(x) Trong lý thuyết đo lường, các điều kiện này là: (1) Phân phốichưa chuẩn hóa p˜ phải là một hàm tích hợp Lebesgue (Lebesgue-integrable)của x cho mọi giá trị của θ) (2) Gradient ∇θ)p˜(x) phải tồn tại với mọi θ)θ) và gầnnhư với mọi x (3) Phải tồn tại một hàm tích hợp R(x) là cận của ∇θ)p˜(x), mà tại

đó |maxi∂∂θ)ip˜(x)|≤R(x) với mọi θ)θ) và gần như với mọi xx May mắn thay, hầu hếtcác mô hình học máy được nghiên cứu đều có những tính chất này

Phép đồng nhất:

Trang 21

là nền tảng cho nhiều phương pháp Monte Carlo cho việc xấp xỉ hợp lý cực đạicủa các mô hình với hàm phân hoạch không tính được.

Phương pháp tiếp cận Monte Carlo để học các mô hình vô hướng cung cấpmột cơ chế trực quan trong cách chúng ta hiểu về pha dương và pha âm Trongpha dương, ta tăng logp˜(x) với xx được lấy từ tập dữ liệu Trong pha âm, ta giảmhàm phân hoạch bằng cách giảm giá trị logp˜(x) được lấy mẫu từ phân phối của

mô hình

Trong ngữ cảnh học sâu, logp˜ thường được tham số hóa dưới dạng mộthàm năng lượng (phương trình 16.7) Trong trường hợp này, ta có thể diễn giảipha dương như một cách thu giảm năng lượng từ tập huấn luyện và pha âm nhưmột cách tăng năng lượng của mẫu được lấy mẫu từ mô hình, theo như mô phỏngcủa hình 18.1

18.2 Hợp lý cực đại ngẫu nhiên và phân kì tương phản

Một cách đơn giản để thực hiện phương trình 18.15 là sử dụng phép loại bỏ(burning-in) các chuỗi Markov từ một khởi tạo ngẫu nhiên khi cần tính gradient.Khi thực hiện quá trình học sử dụng phương pháp trượt gradient ngẫu nhiên, tathực hiện phép loại bỏ chuỗi Markov tại mỗi bước tính gradient Phương pháptiếp cận này được mô tả trong giải thuật 18.1 Chi phí cao của phép loại bỏ chuỗiMarkov trong mỗi vòng lặp làm cho giải thuật này không khả thi về mặt tính toán,tuy nhiên giải thuật này lại là khởi nguồn cho các giải thuật xấp xỉ khác

Giải thuật 18.1 Một giải thuật MCMC ngây thơ cho cực đại hóa logarit củahàm hợp lý với hàm phân hoạch không tính được, sử dụng Phương pháp giảmtheo gradient

Đặt ϵ, kích cỡ của bước lặp, là một số dương có giá trị nhỏ Đặt k, số bướcGibbs, đủ lớn cho phép loại bỏ chuỗi Markov Khoảng chừng 100 để huấn luyện

mô hình RBM trên tập ảnh nhỏ:

while không hội tụ do

đều hoặc chuẩn, hoặc có thể từ một phân phối có lề phù hợp với lề của môhình)

Trang 22

Bởi vì pha âm có liên quan đến việc lấy mẫu từ phân phối mô hình, ta có thểxem nó như việc tìm những điểm mà mô hình tin vào nhất Vì pha âm đóng vaitrò làm giảm xác suất của những điểm này, nó được hiểu như những niềm tin sailầm của mô hình trong thực tế Nó cũng thường được đề cập trong nhiều tài liệu

như là “các ảo giác” (hallucinations) hay “các phân tử tưởng tượng” (fantasy particles) Thực tế, pha âm đã được đề xuất như một sự giải thích cho giấc mơ

của con người và các loài động vật khác (Crick và Mitchison, 1983), với ý tưởng

bộ não được duy trì bởi một phân phối xác suất về thế giới và việc lấy đạo hàmcủa logp˜ tương ứng với việc ta trải nghiệm những sự kiện thực tế trong trạng tháiđang thức và việc lấy đạo hàm của logp˜ để cực tiểu hóa logZ tương ứng với khi tađang ngủ và trải nghiệm các sự kiện được lấy mẫu từ phân phối của mô hình.Cách nhìn này giải thích khá rõ ràng cho sự phân tách pha âm và pha dương củagiải thuật, tuy nhiên tính đúng đắn của nó chưa được chứng minh với các thí

nghiệm thần kinh học (neuroscientific) Trong các mô hình học máy, việc sử

dụng pha dương và pha âm đồng thời cần thiết hơn là chia thành các giai đoạn

tách biệt như thức và ngủ mơ (REM sleep) Như ta sẽ thấy trong phần 19.5, các

giải thuật học máy khác lấy mẫu từ phân phối mô hình cho nhiều mục đích khácnhau, và các giải thuật này cũng có đề cập đến hàm ngủ mơ

Trang 23

Hình 18 1 Cách nhìn của giải thuật 18.1 có “pha dương” và “pha âm”

Hình 18.1 Cách nhìn của giải thuật 18.1 có “pha dương” và “pha âm”.(Trái) Trong pha dương, ta lấy mẫu từ phân phối dữ liệu và đẩy lên xác suất chưachuẩn hóa của chúng Điều này có nghĩa là những điểm có khả năng thuộc về tập

dữ liệu sẽ được đẩy lên hơn nữa (Phải) Trong pha âm, ta lấy mẫu từ phân phối

mô hình và đẩy xuống xác suất chưa chuẩn hóa của chúng Điều này chống lại xuhướng của pha dương khi chỉ thêm một hằng lớn vào xác suất chưa chuẩn hóakhắp mọi nơi Khi phân phối dữ liệu và phân phối mô hình bằng nhau, pha dương

có cơ hội đẩy lên một điểm dữ liệu ngang với cơ hội đẩy xuống dữ liệu của pha

âm Khi điều này xảy ra, không còn bất kì gradient nào nữa (theo kì vọng), và quátrình huấn luyện cần phải dừng

Với cách hiểu về vai trò của pha dương và pha âm trong học máy, ta cóthiết kế giải thuật ít tốn chi phí hơn giải thuật 18.1 Chi phí chủ yếu của giải thuậtMCMC là chi phí của phép loại bỏ chuỗi Markov từ một khởi tạo ngẫu nhiên tạimỗi bước Một giải pháp tự nhiên là khởi tạo chuỗi Markov từ một phân phối gầnvới phân phối của mô hình, như vậy quá trình loại bỏ chuỗi Markov ít tốn chi phíhơn

Giải thuật 18.2 Giải thuật phân kì tương phản, sử dụng kĩ thuật tối ưu đingược gradient

Đặt ϵ, kích cỡ của bước đi, là một số dương có giá trị nhỏ.Đặt k, số bước Gibbs, đủ lớn để chuỗi Markov xáo trộn khi được khởi tạo từ dữliệu Khoảng chừng 1-20 để huấn luyện mô hình RBM trên tập ảnh nhỏ

 for i=1 to m do

Trang 24

từ phân phối dữ liệu không tốn chi phí, vì chúng ta đã có sẵn tập dữ liệu Ban đầu,phân phối của dữ liệu không giống với phân phối mô hình, vì thế pha âm khôngđược tính chính xác May mắn thay, pha dương có thể làm tăng phân phối môhình của dữ liệu một cách chính xác Sau một thời gian, phân phối mô hình tiếngần tới phân phối của dữ liệu, và pha âm trở nên chính xác hơn.

Dĩ nhiên, CD vẫn là một xấp xỉ của pha âm Điều làm CD thất bại trongviệc hiện thực pha âm một cách chính xác là nó thất bại trong việc ngăn chặnnhững vùng có xác suất cao khác xa với mẫu huấn luyện thực Những vùng này

có xác suất cao theo phân phối mô hình nhưng có xác suất thấp theo phân phối

sinh dữ liệu nên được gọi là mode giả mạo (spurious mode) Hình 18.2 là một

ví dụ Về cơ bản, các mode trong phân phối mô hình cách xa với phân phối dữliệu sẽ không được tiếp cận bởi các chuỗi Markov được khởi tạo từ các điểm huấnluyện, trừ khi giá trị kk rất lớn

Trang 25

Hình 18 2 Mode giả mạo Một ví dụ về làm cách nào mà pha âm trong phân kì tương phản (giải thuật 18.2) thất bại trong việc ngăn chặn mode giả mạo

Hình 18.2 Mode giả mạo Một ví dụ về làm cách nào mà pha âm trong phân

kì tương phản (giải thuật 18.2) thất bại trong việc ngăn chặn mode giả mạo Modegiả mạo là mode hiện diện trong phân phối mô hình nhưng vắng mặt trong phânphối dữ liệu Bởi vì phân kì tương phản khởi tạo các chuỗi Markov từ các điểm

dữ liệu và chỉ chạy chuỗi Markov trong một vài bước, nó không có khả năng tiếpcận mode của mô hình ở cách xa các điểm dữ liệu Điều này có nghĩa rằng, khilấy mẫu từ phân phối mô hình, chúng ta thỉnh thoảng sẽ gặp những mẫu khônggiống với dữ liệu Nó cũng có nghĩa là, do loại bỏ một vài hàm lượng xác suất(probability mass) vào các mode này, mô hình sẽ vật lộn trong việc đặt hàm lượngxác suất cao vào các mode thật sự Để cho trực quan, hình này sử dụng khái niệmkhoảng cách đã được đơn giản hóa - mode giả mạo cách xa mode thật sự dọc theotrục số thực trong R Với nhiều mô hình xác suất đa tầng, chuỗi Markov dựa vàophương thức lấy mẫu Gibbs và có thể dịch chuyển không cục bộ với từng biếnđơn lẻ nhưng không thể dịch chuyển các biến một cách đồng thời Với nhữngtrường hợp này, nên xem xét khoảng cách Levenshtein (edit distance) giữa cácmode, hơn là khoảng cách Euclidean Tuy nhiên khoảng cách Levenshtein trongkhông gian đa chiều khó biểu diễn trong đồ thị 2-D

Carreira-Perpinan và Hinton (2005) bằng thực nghiệm đã chỉ ra rằng ướctính CD bị chệch so với RBMs và các máy Boltzmann quan sát đầy đủ, tức là nóhội tụ vào những điểm khác với xấp xỉ hợp lý cực đại Họ lập luận rằng vì độchệch nhỏ nên CD có thể được xem như một cách ít tốn kém để khởi tạo mô hình

mà sau này có thể được dùng để tinh chỉnh bằng các phương pháp tốn kém nhưMCMC Bengio và Delalleau (2009) chứng minh rằng CD có thể được diễn giảinhư là sự loại bỏ những phần nhỏ nhất trong cập nhật gradient bằng MCMC, từ đógiải thích cho sự chệch này

Trang 26

CD hữu dụng trong việc huấn luyện các mô hình nông như RBM Các môhình này có thể được chồng lên nhau hình thành những mô hình đa tầng nhưDBNs hoặc DBMs Tuy nhiên CD không có nhiều hữu dụng trong việc huấnluyện những mô hình đa tầng này Nguyên nhân là do việc lấy mẫu của các nút ẩnkhi đã biết nút quan sát được gặp khó khăn Vì các nút ẩn không có trong dữ liệu,việc khởi tạo từ các điểm dữ liệu không thể giải quyết được vấn đề Thậm chí nếuchúng ta khởi tạo các nút quan sát được từ dữ liệu, ta cần phải loại bỏ chuỗiMarkov từ phân phối có điều kiện của các nút ẩn khi biết các nút quan sát được.

Giải thuật CD có thể được xem như một hình phạt dành cho mô hình khichuỗi Markov làm thay đổi dữ liệu đầu vào quá nhanh Trong một phạm trù nào

đó, huấn luyện với CD khá giống với huấn luyện bộ tự mã hóa Mặc dù CD có độchệch cao so với một số mô hình huấn luyện khác, nó khá hữu ích trong việc tiềnhuấn luyện các mô hình nông trước khi xếp chồng lên để hình thành mô hình đatầng Nguyên nhân là do các mô hình ban đầu được khuyến khích sao chép nhiềuthông tin vào các biến ẩn, do đó thông tin có thể được truyền đi khi chồng lênthành mô hình đa tầng Đây có thể được xem như cách tận dụng việc huấn luyệnbằng CD hơn là lợi thế về thiết kế mô hình

Sutskever và Tieleman (2010) chỉ ra rằng hướng cập nhật của CD khôngphải là gradient của bất kì hàm nào Điều này có thể dẫn đến trường hợp CD lặptheo chu kì vô tận, tuy nhiên trong thực tế điều này không quá nghiêm trọng

Một chiến lược khác giúp giải quyết nhiều bài toán với CD là khởi tạochuỗi Markov tại mỗi bước tính gradient bằng các trạng thái của bước tínhgradient trước đó Cách tiếp cận này được biết đến lần đầu tiên với tên gọi hợp lýcực đại ngẫu nhiên (SML) trong cộng đồng toán ứng dụng và thống kê (Younes,1998) và sau này được phát hiện một cách độc lập với tên gọi phân kì tương phảnliên tục (PCD, hoặc PCD-k biểu thị k bước Gibbs được sử dụng trong mỗi lần cậpnhật) trong cộng đồng học sâu (Tieleman, 2008) Xem giải thuật 18.3 Ý tưởng cơbản của phương pháp này là, miễn là mỗi bước cập nhật của giải thuật trượtgradient ngẫu nhiên có giá trị nhỏ, mô hình ở bước trước đó sẽ tương tự với môhình ở bước hiện tại Điều đó dẫn đến mẫu được lấy từ phân phối mô hình trước

đó sẽ rất gần với mẫu được lấy từ phân phối mô hình hiện tại, do đó chuỗiMarkov được khởi tạo với các mẫu này sẽ không tốn nhiều thời gian để xáo trộn

Do mỗi chuỗi Markov được cập nhật xuyên suốt quá trình học, thay vì khởiđộng lại chuỗi tại mỗi bước tính đạo hàm, các chuỗi được tự do đi tìm mode của

mô hình SML do đó có tính ổn định hơn trong việc hình thành những mô hìnhvới nhiều mode giả h hơn là CD Hơn nữa, vì nó có khả năng lưu giữ trạng tháicủa những biến đã được lấy mẫu, dù là biến ẩn hay biến quan sát được, SML cungcấp điểm khởi tạo cho các nút ẩn và các nút quan sát được CD chỉ có khả năngcung cấp điểm khởi tạo cho các nút quan sát được, do đó cần có quá trình loại bỏcho các mô hình đa tầng SML có thể huấn luyện các mô hình đa tầng một cách

Trang 27

hiệu quả Marlin và các cộng sự (2010) đã so sánh SML với nhiều phương phápkhác cũng được giới thiệu trong chương này Họ nhận thấy SML cho kết quả tốtnhất trên logarit của hàm hợp lý đối với mô hình RBM và nếu các nút ẩn củaRBM được dùng làm đặc trưng cho bộ phân loại SVM, SML cũng cho ra kết quảphân loại tốt nhất.

Giải thuật 18.3 Giải thuật hợp lý cực đại ngẫu nhiên/phân kì tương phảnliên tục, sử dụng kĩ thuật tối ưu ngược gradient

Đặt ϵ, kích cỡ của bước lặp, là một số dương có giá trị nhỏ.Đặt k, số bước Gibbs, đủ lớn để chuỗi Markov được lấy mẫu từ p(x;θ)θ)+ϵg) để loại

bỏ, khi bắt đầu từ mẫu của p(x;θ)θ)) Khoảng chừng 1 để huấn luyện mô hình RBMtrên tập ảnh nhỏ, hoặc 5-50 cho mô hình phức tạp hơn như DBM

Khởi tạo m mẫu {x˜(1), ,x˜(m)} có giá trị ngẫu nhiên (ví dụ, từ phân phốiđều hoặc chuẩn, hoặc có thể từ một phân phối có lề phù hợp với lề của mô hình)

SML trở nên thiếu chính xác khi giải thuật gradient ngẫu nhiên dịch chuyển

mô hình nhanh hơn quá trình chuỗi Markov giữa các bước hòa trộn vào nhau.Điều này xảy ra khi k quá nhỏ và ϵ quá lớn Không may thay, khoảng giá trị chophép phụ thuộc nhiều vào từng bài toán Không có cách nào để kiểm tra rằngchuỗi Markov xáo trộn thành công giữa các bước Một cách chủ quan, nếu hệ sốhọc quá cao so với số bước lấy mẫu Gibbs, người ta có thể quan sát được phươngsai trong các mẫu pha âm thông qua các bước tính gradient hơn là thông qua cácchuỗi Markov khác nhau Ví dụ, một mô hình được huấn luyện trên tập MNIST

có thể lấy mẫu duy nhất mẫu 7 trong một bước Quá trình học khi đó sẽ đẩyxuống rất mạnh các mode tương ứng với mẫu 7, và mô hình có thể lấy mẫu 9trong bước tiếp theo

Trang 28

Cần có sự chú ý khi đánh giá các mẫu từ mô hình đã huấn luyện với SML.

Ta cần lấy mẫu bắt đầu từ chuỗi Markov mới được khởi tạo ngẫu nhiên sau khi

mô hình đã huấn luyện xong Các mẫu có trong các chuỗi âm liên tục được sửdụng cho huấn luyện chịu ảnh hưởng bởi một số phiên bản trước của mô hình, do

đó có thể làm cho mô hình có dung lượng lớn hơn dung lượng thật của nó

Berglund và Raiko (2013) thực hiện các thí nghiệm để kiểm tra độ chệch vàphương sai trong việc ước tính giá trị gradient của các giải thuật CD và SML CD

có phương sai thấp hơn bộ ước tính dựa vào các phương pháp lấy mẫu chính xác.Trong khi đó, SML có phương sai cao hơn Nguyên nhân CD có phương sai thấp

là do nó sử dụng cùng các điểm huấn luyện trong cả pha âm và dương Nếu pha

âm được khởi tạo từ các điểm huấn luyện khác, phương sai của CD sẽ tăng vượt

cả phương pháp lấy mẫu chính xác

Tất cả các phương pháp dựa vào MCMC để lấy mẫu từ các mô hình vềnguyên tắc có thể được sử dụng với bất kì biến thể nào khác của MCMC Điều đó

có nghĩa là các kĩ thuật như SML có thể được cải thiện bằng cách dùng cácphương pháp MCMC nâng cao được mô tả trong chương 17, chẳng hạn như điềuhòa song song (parallel tempering) (Desjardins và cộng sự, 2010;θ) Cho và cộng sự,2010)

Một hướng tiếp cận để làm tăng tính xáo trộn trong quá trình học không dựavào các kĩ thuật lấy mẫu Monte Carlo mà dựa vào sự thay đổi tham số của môhình và hàm chi phí Fast PCD, hoặc FPCD (Tieleman và Hinton, 2009) thay thếtham số θ) của một mô hình truyền thống bằng biểu thức

Số lượng tham số nhiều gấp đôi lúc trước, và chúng được cộng vào nhautheo từng phần tử tạo nên các tham số trong định nghĩa gốc của mô hình Việc saochép nhanh các tham số được huấn luyện với hệ số học lớn, cho phép mô hìnhthích nghi nhanh chóng với pha âm trong quá trình học và đẩy chuỗi Markov đếnkhu vực mới Nó buộc chuỗi Markov xáo trộn nhanh, mặc dù hiệu ứng này chỉxảy ra trong quá trình học khi các trọng số nhanh được tự do thay đổi Thôngthường ta áp dụng suy giảm trọng số cho các trọng s nhanh, khuyến khích chúnghội tụ về những giá trị nhỏ, ngay sau khi chúng nhận những giá trị lớn đủ lâu đểkhuyến khích chuỗi Markov thay đổi mode

Một trong những lợi ích quan trọng của các phương pháp dựa vào MCMCđược mô tả trong phần này là chúng cung cấp một phương pháp ước lượng giá trịgradient của hàm logZ, và từ đó ta có thể phân tách bài toán thành các thànhphần logp˜ và logZ Ta có thể dùng các phương pháp khác để giảiquyết logp˜(x) và sau đó thêm vào phần gradient pha âm được xấp xỉ Đặc biệt,

Trang 29

điều này có nghĩa là pha dương có thể tận dụng các phương pháp chỉ cung cấpbiên dưới của p˜ Hầu hết các phương pháp khác nhằm tính logZ được giới thiệutrong chương này đều không phù hợp với phương pháp dựa trên biên của phadương.

18.3 Pseudolikelihood (Giả hợp lý)

Các phương pháp xấp xỉ Monte Carlo cho hàm phân hoạch và gradient của

nó là phải giải quyết với hàm phân hoạch Những cách tiếp cận khác để giải quyếtvấn đề này, đó là huấn luyện mô hình mà không cần tính toán hàm phân hoạch.Hầu hết các hướng tiếp cận này là dựa trên quan sát rằng có thể dễ dàng tính toán

tỷ lệ xác suất trong mô hình xác suất vô hướng Điều này là do hàm phân hoạchxuất hiện trong cả tử số và mẫu số và có thể tối giản:

Giả hợp lý dựa trên quan sát rằng các xác suất có điều kiện có dạng dựatrên tỷ lệ này và do đó có thể được tính toán mà không cần biết về hàm phânhoạch Giả thiết rằng ta phân hoạch xx thành a, b và c, trong đó a chứa các biến tamuốn tìm phân phối có điều kiện, b chứa các biến điều kiện, và c chứa các biếnkhông phải là phần cần tìm:

Đại lượng này đòi hỏi phân tách a, có thể là một phép toán hiệu quả vớiđiều kiện là a và c không chứa nhiều biến Trong trường hợp xấu nhất, a có thể làmột biến và cc là rỗng, làm cho phép toán này này chỉ yêu cầu khi có nhiều cách

Thật không may, để tính toán logarit hàm hợp lý, ta cần loại bỏ nhiều biến Nếu

tổng cộng có n, ta phải tách một tập có kích thước n−1 Theo quy tắc chuỗi xác

suất,

Trong trường hợp này, ta tạo ra aa rất nhỏ, nhưng cc có thể lớn hơnbằng x2: Điều gì xảy ra nếu ta đơn giản là đưa c vào b nhằm giảm chi phí tínhtoán? Điều này sinh ra hàm mục tiêu giả hợp lý (Besag, 1975), dựa trên khả năng

dự đoán giá trị đặc trưng xi cho tất cả các đặc trưng x−ikhác:

Trang 30

Nếu mỗi biến ngẫu nhiên có kk giá trị khác nhau, điều này chỉ yêu cầucác k×nk×n đánh giá giá trị p~để tính toán, trái ngược với knkn cách đánh giá cầnthiết để tính toán hàm phân hoạch Điều này trông giống như một mẹo nhỏ màkhông dựa trên cơ sở lý thuyết nào cả, tuy nhiên nó có thể chứng minh rằng việcước lượng nó thông qua tối đa hóa hàm giả hợp lý là tương đối phù hợp (Mase,1995) Tất nhiên, trong trường hợp bộ dữ liệu không đạt tới giới hạn mẫu lớn,hàm giả hợp lý có thể biểu diễn hành vi khác nhau từ phép ước lượng hợp lý cựcđại.

Có thể quy đổi độ phức tạp tính toán giá trị độ lệch từ kỹ thuật hợp lý cựcđại bằng cách sử dụng phép ước lượng giả hợp lý tổng quát (Huang và Ogata,2002) Phép ước lượng giả hợp lý tổng quát sử dụng mm tập khácnhau S(i)S(i),trong đó i=1,…,mi=1,…,m biểu diễn các biến xuất hiện đồng thời ởphía bên trái của thanh điều kiện Trong trường hợp m=1m=1 và S(i),i=1,

…,nS(i),i=1,…,n, giả hợp lý tổng quát khôi phục logarit hàm hợp lý Trong trườnghợp với m=nm=n và S(i)={i}, giả hợp lý tổng quát sẽ khôi phục hàm giả hợp lý.Hàm mục tiêu giả hợp tổng quát được cho như sau:

Tính hiệu quả của phương pháp tiếp cận dựa trên giả hợp lý phụ thuộc phânlớn vào cách mô hình được sử dụng Giả hợp lý hoạt động kém hiệu quả trên cácbài toán yêu cầu một mô hình tốt cho p(x), giống như ước lượng phân bố và lấymẫu Nó có hiệu suất tốt hơn phương pháp hợp lý cực đại với các bài toán chỉ yêucầu phân bố có điều kiện được sử dụng trong suốt quá trình huấn luyện, giốngnhư việc như bổ sung một lượng nhỏ các giá trị thiếu hụt Các kỹ thuật giả hợp lýtổng quát đặc biệt đạt hiệu suất cao nếu dữ liệu có cấu trúc thông thường cho phépcác tập chỉ số SS được thiết kế để thu được độ tương quan cần thiết trong khi loại

bỏ các biến có độ tương quan không đáng kể Ví dụ, trong các ảnh tự nhiên, cácđiểm ảnh được phân chia rộng rãi trong không gian có độ tương quan thấp, vì vậyphương pháp giả hợp lý tổng quát có thể được áp dụng với mỗi tập SS nhỏ là cáccửa sổ trong không gian

Một điểm yếu của phương pháp ước lượng giả hợp lý là nó không được sửdụng với các phương pháp xấp xỉ khác chỉ cung cấp một giới hạn dưới của p~(x)giống như nhiều kết luận khác, được đề cập trong chương 19 Đó là bởi p~ xuấthiện ở mẫu số Một giới hạn dưới ở mẫu số chỉ cung cấp một giới hạn trên trongtoàn bộ biểu thức, và không có cách nào để tối đa hóa giới hạn trên Điều này làm

Trang 31

nó khó ứng dụng các hướng tiếp cận giả hợp lý cho các mô hình sâu nhưBoltzmann, vì có nhiều phương pháp là một trong các hướng tiếp cận chính đểloại bỏ nhiều lớp biến ẩn tương tác với nhau Tuy nhiên, giả hợp lý vẫn có íchtrong học sâu, bởi vì nó có thể được sử dụng để huấn luyện các mô hình một lớphoặc các mô hình sâu sử dụng các phương pháp suy luận gần đúng mà không dựatrên các giới hạn dưới.

Giả hợp lý có chi phí tính toán trên mỗi bước gradient lớn hơn so với SML,bởi nó tính toán rõ ràng tất cả các điều kiện Nhưng giả giả hợp lý tổng quát vàcác tiêu chí tương tự vẫn có thể thực hiện tốt nếu chỉ có một điều kiện được chọnngẫu nhiên được tính toán cho mỗi ví dụ (Goodfellow và cộng sự, 2013b), do đómang lại chi phí tính toán thấp nhằm phù hợp với SML Mặc dù phép ước lượng giả hợp lý không giảm thiểu rõ ràng hàm log Z, nó có thểvẫn được coi là giống với một pha âm Các mẫu số của mỗi kết quả phân phối cóđiều kiện trong phương pháp học triệt tiêu xác suất của tất cả trạng thái chỉ có mộtbiến khác với mẫu huấn luyện

Tham khảo Marlin và Freitas (2011) về việc phân tích về mặt lý thuyết vềtính hiệu quả của hướng tiếp cận theo giả hợp lý

18.4: So sánh theo điểm số và so sánh theo tỉ lệ

So sánh theo điểm (Hyvarinen, 2005) cung cấp một mô hình huấn luyện

nhất quán mà không cần ước lượng Z và đạo hàm của nó Tên score matching bắt

nguồn từ thuật ngữ trong đó đạo hàm của mật độ dạng logarit đối với giá trị của

nó, ∇xlogp(x) gọi là điểm số của nó Chiến lược sử dụng của phương pháp sosánh theo điểm số đó là cực tiểu hóa giá trị sai khác mong muốn bình phươnggiữa các giá trị đạo hàm của hàm mật độ log của mô hình với đầu vào và đạo hàmmật độ log của dữ liệu với đầu vào:

Hàm mục tiêu này tránh những khó khăn liên quan tới sự sai khác hàmphân vùng Z, bởi Z không phải là một hàm của x và do đó ∇xZ=0 Ban đầu,phương pháp so sánh theo điểm số xuất hiện một khó khăn đó là: việc tính toánđiểm số của phân phối dữ liệu yêu cầu kiến thức về phân phối thực tế tạo ra dữliệu huấn luyện, pdata May mắn thay, việc cực tiểu hóa giá trị kỳ vọng của L(x,θ))

là tương đương với việc cực tiểu giá trị kỳ vọng của

Trang 32

trong đó n là kích thước của x.

Do phương pháp so sánh theo điểm số đòi hỏi phải tính đạo hàm đối theo x,

nó không được áp dụng cho các mô hình dữ liệu rời rạc mà là cho các biến ẩntrong mô hình có thể rời rạc

Giống như giả hợp lý, so sánh theo điểm số chỉ hoạt động khi có thể ướclượng được hàm logp~(x) và các đạo hàm của nó một cách trực tiếp Nó khôngthích hợp với các phương pháp chỉ cung cấp một giới hạn dưới của logp~(x) bởi vì

so sánh theo điểm số đòi hỏi các đạo hàm bậc nhất và đạo hàm bậc hai củahàm logp~(x) và một dưới hạn dưới không mang thông tin về giá trị đạo hàm đó.Điều này có nghĩa rằng so sánh theo điểm số không được áp dụng để ước lượngcác mô hình có các unit ẩn tương tác phức tạp với nhau, ví dụ như các mô hình

mã hóa rời rạc hoặc cơ chế Boltzmann sâu Trong khi so sánh theo điểm số có thểđược sử dụng nhằm tiền huấn luyện cho các lớp ẩn đầu tiên trong một mô hìnhlớn, nó không được áp dụng như một chiến lược tiền huấn luyện cho các lớp sâuhơn trong một mô hình lớn Điều này có thể là do các lớp ẩn của các mô hình nhưvậy thường chứa một số biến rời rạc

Trong so sánh theo điểm số không có pha âm rõ ràng, nó có thể được xemnhư một phiên bản phân kỳ tương phản bằng cách sử dụng một chuỗi Markov đặcbiệt (Hyvarinen, 2007a) Chuỗi Markov trong trường hợp này không phải là lấymẫu Gibbs, mà đúng hơn là một cách tiếp cận khác để di chuyển cục bộ dựa trêngiá trị gradient So sánh theo điểm số tương đương với CD với loại chuỗi Markovnày khi kích thước của các chuyển động cục bộ chuyển dần về 0

Lyu (2009) tổng quát phương pháp so sánh theo điểm số với trường hợp rờirạc (nhưng đã có lỗi trong đạo hàm đã được sửa chữa bởi Marlin và cộng sự

[2010]) Marlin và cộng sự (2010) nhận thấy rằng so sánh theo điểm số dạng tổng quát (GSM) không hoạt động trong các không gian rời rạc kích thước lớn,

nơi xác suất quan sát được của nhiều sự kiện bằng 0

Một hướng tiếp cận thành công hơn nhằm mở rộng các ý tưởng cơ bản của

phương pháp so sánh theo điểm số với dữ liệu rời rạc là so sánh theo tỷ lệ (ratio matching) (Hyvarinen, 2007b) So sánh theo tỷ lệ áp dụng cụ thể cho dữ liệu nhị

phân So sánh theo tỷ lệ bao gồm việc cực tiểu hóa giá trị trung bình theo ví dụcủa hàm mục tiêu sau đây:

Trang 33

với f(x,j) trả về xx với bit tại vị trí j ngược So sánh theo tỷ lệ tránh các hàm phân

hoạch bằng cách sử dụng cùng một phép ước lượng giả hợp lý: trong một giá trị

về tỷ lệ giữa hai xác suất, hàm phân hoạch loại bỏ hết Marlin và cộng sự (2010)tìm ra rằng tỷ lệ xu hướng tốt hơn SML, giả hợp lý và GSM về khả năng các môhình được huấn luyện với phương pháp So sánh theo tỷ lệ nhằm làm giảm nhiễu

từ tập ảnh kiểm thử

Giống như phép ước lượng giả hợp lý, So sánh theo tỷ đòi hỏi nn đánh giácủa p~ trên điểm dữ liệu, làm cho chi phí tính toán trên mỗi lần cập nhật caogấp nnlần so với SML

Với phép ước lượng giả hợp lý, So sánh theo tỷ có thể được coi là nhấnxuống tất cả các trạng thái tưởng tựng mà chỉ có một biến khác từ một ví dụ huấnluyện Khi tỷ lệ xu hướng áp dụng cụ thể vào dữ liệu nhị phân, điều này có nghĩarằng nó hoạt động trên tất cả trạng thái tưởng tượng trong khoảng cách Hamming

1 của dữ liệu

Tỷ lệ xu hướng cũng hữu ích khi là cơ sở để xử lý dữ liệu rời rạc, nhiềuchiều như các vector đếm từ Kiểu dữ liệu này đặt ra một thách thức với cácphương pháp dựa trên MCMC vì dữ liệu cực kỳ tốn kém để biểu diễn ở định dạngdày đặc, nhưng bộ lấy mẫu MCMC không mang lại các giá trị rời rạc cho tới khi

mô hình học tập được biểu diễn rời rạc trong phân phối dữ liệu Dauphin vàBengio (2013) đã vượt qua vấn đề này bằng cách thiết kế một phép xấp xỉ ngẫunhiên không phân cực tới tỷ lệ xu hướng Phép xấp xỉ chỉ đánh giá một tập conđược chọn ngẫu nhiên của các thuật ngữ mục tiêu và không đòi hỏi mô hình đểsinh các mẫu tưởng tượng hoàn chỉnh

Tham khảo Marlin và De Freitas (2011) cho phân tích lý thuyết về tính hiệuquả tiệm cận của tỷ lệ xu hướng

18.5 Giảm nhiễu so sánh điểm

Trong một số trường hợp ta có thể chính quy hóa so sánh điểm bằng việc sửdụng phân phối thay vì sử dụng pdata sử dụng công thức sau:

sẽ tạo được pmodel thành một tập các phân phối Dirac tập trung vào điểm huấnluyện

Làm mịn phân phối q giúp giảm thiểu vấn đề này, mất thuộc tính tin cậy tiệmcận Kingma và LeCun (2010) giới thiệu quy trình làm tốt hơn so với so sánh điểmvới phân phối mịn q vốn là nhiễu phân phối chuẩn

Trang 34

Một số thuật toán huấn luyện autoencoder là tương đương với so sánh điểm hoặcgiảm nhiễu so sánh điểm Thuật toán huấn luyện autoencoder do đó khắc phục đượcvấn đề hàm phân hoạch.

18.6 Ước tính tương phản nhiễu

Hầu hết các kỹ thuật ước lượng mô hình với hàm phân hoạch không cho ra ướctính về hàm phân hoạch SML & CD chỉ ước tính gradient của logarit hàm phânhoạch thay vì chính hàm phân hoạch đó So sánh điểm và giả hợp lý(pseudolikelihood) tránh được các vấn đề liên quan đến hàm phân hoạch

Noise-contrastive estimation (NCE) - ước tính tương phản nhiễu đi theo

một chiến lược khác Theo đó, phân phối xác suất được ước lượng từ mô hình đượcbiểu diễn rõ ràng như sau:

log pmodel(x) = log p~model (x;θ)) + c (18.28)

Trong đó c là xấp xỉ -log Z() Thay vì chỉ ước lượng , ước tính tương phản nhiễu coi cnhư một tham số khác và ước lượng và c một cách đồng thời và sử dụng cùng mộtthuật toán Kết quả là pmodel(x) vì vậy sẽ không phản ánh đúng phân phối xác suấthợp lệ, nhưng khi ước lượng c được cải thiện thì nó sẽ càng gần với kết quả hợp lệ.Cách tiếp cận này không thể sử dụng phương pháp cực đại hóa hàm khả năngnhư một tiêu chuẩn cho ước lượng Tiêu chí hàm cực đại khả năng sẽ chọn c tùy ý và

có giá trị lớn thay vì đặt c để tạo ra phân phối xác suất hợp lệ

NCE hoạt động bằng cách giảm vấn đề học không giám sát của ước lượng p(x)

so với việc học của biến phân loại xác suất nhị phân mà trong đó một trong các loại

sẽ tương ứng với dữ liệu được tạo ra bởi mô hình Vấn đề học có giám sát được xâydựng theo cách mà ước tính hàm cực đại khả năng quy định ước lượng tin cậy tiệmcận của vấn đề ban đầu

Đặc biệt, chúng tôi sẽ giới thiệu một phân phối thứ hai, phân phối nhiễupnoise(x) Phân phối nhiễu phải dễ kiểm soát để có thể đánh giá và lấy mẫu Bây giờchúng ta có thể xây dựng mô hình trên cả biến x và biến nhị phân y Trong mô hìnhchung chúng ta xác định như sau:

,c = argmax,cEx,y ptrainlog pjoint(y|x) (18.32)

Phân phối pjoint về cơ bản là mô hình hồi quy logistic được áp dụng cho sựchênh lệch của xác suất log của mô hình và phân phối nhiễu:

pjoint(y = 1|x) = pmodel(x)pmodel(x) + pnoise(x) (18.33) = 11 + pnoisel(x)pmodel(x) (18.34)

Định dạng
Số trang	68
Dung lượng	1,73 MB