Giống như mô hình phân tích thành phần chính PCA có thể được tạonên từ bộ tự động giải mã phi tuyến tính, được để cập trong chương 14, ICA có thể được tạo nên từ mô hình khả tạo phi tuyế
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
BÁO CÁO TIỂU LUẬN
Hà Nội - 2018
Trang 2LỜI MỞ ĐẦU
Khai phá dữ liệu trong những năm gần đây đã và đang được ứng dụng rộng rãi trong nhiều lĩnh vực như: Ngân hàng, Tài chính và thị trường chứng khoán, Thương mại, Giáo dục, Y tế, Sinh học, Bưu chính viễn thông, với nhiều hướng tiếp cận khác nhau như: Phân lớp/Dự đoán, Phân cụm, Luật kết hợp, Các kỹ thuật chính được áp dụng trong khai phá dữ liệu phần lớn được thừa kế từ lĩnh vực: Cơ sở dữ liệu, Máy học (Machine learning), Trí tuệ nhân tạo, Lý thuyết thông tin, Xác suất thống kê, và nổi trội trong đó là phương pháp Khai phá dữ liệu phát hiện luật kết hợp với cơ sở lý thuyết vững chãi và đầy tính ứng dụng thực tiễn.
Vì vậy tập thể nhóm 9 xin gửi lời tri ân đến nhà trường đã tạo điều kiện cho chúng em được học tập và tiếp cận với môn học khai phá dữ liệu này Chúng em cũng đặc biệt cám ơn Thầy giáo, PGS TS Hà Quang Thụy, người đã tận tuỵ giảng dạy lớp chúng em trong 16 tuần học vừa qua để mang đến với chúng em những kiến thức bổ ích.
Chúng em xin chân thành cám ơn !
Trang 3MỤC LỤC
LỜI MỞ ĐẦU 2
MỤC LỤC 3
PHÂN CÔNG CÔNG VIỆC 3
CHƯƠNG 13: CÁC MÔ HÌNH NHÂN TỬ TUYẾN TÍNH 4
13.1 Xác suất trong Phân tích thành phần chính (Principal Component Analysis) và Phân tích nhân tử (Factor Analysis) 5
13.2 Phân tích thành phần độc lập (Independent Component Analysis) 7
13.3 Phân tích đặc trưng chậm (Slow Feature Analysis) 9
13.4 Mã hóa thưa (Sparse Coding) 12
13.5 Thể hiện đa tạp của PCA 16
CHƯƠNG 14: BỘ TỰ MÃ HOÁ 19
14.1 Bộ mã hóa dưới mức (Undercomplete Autoencoders) 20
14.2 Bộ mã hóa có kiểm soát (Regularized Autoencoders) 21
14.2.1 Bộ tự mã hóa thưa (Sparse Autoencoders) 22
14.2.2 Bộ tự mã hóa khử nhiễu (Denoising Autoencoders) 25
14.2.3 Kiểm soát hóa bằng bắt phạt đạo hàm 25
14.3 Sức mạnh của biểu diễn, kích thước tầng và độ sâu 26
14.4 Bộ mã hóa và giải mã ngẫu nhiên (Stochastic Encoders and Decoders) 27
14.5 Bộ tự mã hóa khử nhiễu (Denoising Autoencoders) 28
14.5.1 Ước tính điểm số 30
14.5.2 Bối cảnh lịch sử 32
14.6 Học đa tạp sử dụng bộ tự mã hóa 34
14.7 Bộ tự mã hóa chèn ép (Contractive Autoencoders) 39
14.8 Phân rã thưa tiên đoán (Predictive Sparse Decomposition) 42
14.9 Ứng dụng của bộ tự mã hóa 43
DANH MỤC CÁC THUẬT NGỮ 44
PHỤ LỤC 45
TÀI LIỆU THAM KHẢO 49
Trang 4PHÂN CÔNG CÔNG VIỆC
Trần Văn Nghĩa 13.1 đến 13.2, code demo
Hoàng Trọng Mạnh 13.3 đến 13.5, code bài tập
Nguyễn Văn Quang Huy 14.5 đến 14.9
CHƯƠNG 13: CÁC MÔ HÌNH NHÂN TỬ TUYẾN TÍNH
Nhiều giới hạn của các nhà nghiên cứu về Học sâu có liên quan đến
mô hình có thể sử dụng sự lập luận xác suất để dự đoán bất kì giá trị nàotrong không gian sác xuất của nó và có thể ràng buộc bởi các biến khác
Nhiều trong số các mô hình này có thể chứa các biến ẩn (latent variables) h,
trong đó:
P model (x)=E hpmodel (x|h).
Những biến ẩn này tạo nên một ý nghĩa khác của sự miêu tả dữ liệu
Sự phân loại các miêu tả dữ liệu dựa vào các biến ẩn này có thể đạt được tất
cả các lợi thế của việc học biểu diễn (representation learning) mà chúng ta
có thể thấy ở học sâu lan truyền thuận (deep feedforward) và mạng hồi
quy (recurrent network).
Trong chương này, chúng ta sẽ diễn tả một vài mô hình xác suất đơn
giản có các biến ẩn: hay còn gọi Mô hình nhân tử tuyến tính (linear factor models) Thỉnh thoảng các mô hình này được sử dụng để xây dựng khối các
mô hình hỗn hợp (blocks of mixture models) [Hinton cùng các đồng sự,
1995a; Ghahramani and Hinton, 1996; Roweis cùng các đồng sự, 2002],
hoặc các mô hình lớn hơn, những mô mình xác suất học sâu (deep
probabilistic models) (Tang cùng các đồng sự, 2012) Những nghiên cứu nàycũng chỉ ra các cách tiếp cận căn bản cần thiết cho việc xây dựng các môhình có khả năng phát triển, nhờ đó mà các mô hình học sâu cao cấp hơn cóthể phát triển ra thêm
Một mô hình nhân tử tuyến tính được xác định bởi việc sử dụng một
hàm giải mã tuyến tính ngẫu nhiên, nhờ đó tạo ra x bằng cách thêm vào nhiễu cho một phép chuyển đổi tuyến tính của h Những mô hình này rất
hay, bởi vì chúng cho phép ta khám phá ra các yếu tố giải thích mà chúng cómột phân phối đồng thời đơn giản Sự đơn giản của việc sự dụng phương
Trang 5pháp giải mã tuyến tính đã làm cho những mô hình này trở thành một trongnhững mô hình có biến ẩn đầu tiên được nghiên cứu rộng rãi.
Một mô hình nhân tử tuyến tính thể hiện việc quá trình tổng hợp dữ
liệu như sau Đầu tiên, chúng ta giả định nhân tố giải thích h thuộc một phân
phối:
h∼p(h) (13.1)
ví dụ từ đó Tiếp đến chúng ta giả định giá trị thực của các biến có thể quánsát được cho bởi vector:
Trang 613.1 Xác suất trong Phân tích thành phần chính (Principal
Component Analysis) và Phân tích nhân tử (Factor Analysis)
Xác suất trong phân tích thành phần chính, phân tích nhân tử và các
mô hình nhân tử khác là trường hợp đặc biệt của các phương trình 13.1 và13.2 ở trên, chúng chỉ khác ở những chọn lựa tạo nên phân phối của nhiễu và
tính dự đoán của mô hình thông qua các biến ẩn p(h) trước quan sát p(x).
Trong phân tích nhân tử (Bartholomew, 1987; Basilevsky, 1994), biến
dự đoán ẩn chỉ là phương sai đơn vị của phân phối Gaussian:
h∼N(h;0;I) (13.3)
kiện (conditionally independent) cho bởi h Đặc biệt hơn, sự nhiễu được giả
định là suy ra từ một phương sai chéo của phôi phối Gaussian, với ma trận
phương sai ψ=diag(σ 2 ) với σ 2 =[σ 1 2 ,σ 2 2 , ,σ n 2 ] T là vector của phương sai chomỗi biến
Quy luật của biến ẩn thật ra là để nắm lấy sự phụ thuộc giữa sự khác
dàng là vector x chỉ là một chuỗi đa biến ngẫu nhiên bình thường, với:
x∼N(x;b,WW T +ψ) (13.4)
Để đúc ra Mô hình phân tích thành phần chính trong một khuông khổxác suất, chúng ta có thể làm một sự điều chỉnh nhỏ cho Mô hình phân tích
Điều này dẫn đến phân phối có điều kiện:
x∼N(x;b,WW T +σ 2 I) (13.5)
hoặc tương tự với:
x = Wh + b + σz (13.6)
trong đó z∼N(z;0,I) là nhiễu của Gaussian Sau đó, theo như Tipping and
Bishop (1999) diễn giải, chúng ta có thể sử dụng vòng lặp thuật toán EM để
Mô hình xác suất phân tích thành phần chính này có những điểm
mạnh của sự quan sát, rằng phần nhưng biến đổi trong dữ liệu được nắm bắt
diễn giải bởi Tipping and Bishop (1999), tính xác suất trong phân tích thành
phần chính trở thành Phân tích thành phần chính bình thường khi σ→0 Trong trường hợp này, giá trị mong đợi có điều kiện của h cho bởi x trở
Trang 7thành một phép chiếu trực giao (orthogonal projection) của x=b trên không gian bị mở rộng bởi cột d của W, giống như trong Phân tích thành phần
chính
Như khi σ→0, mật độ của mô hình được xác định bởi tính xác suất
trong phân tích thành phần chính trở thành trở nên rất đặc (verry sharp) xung
quanh những chiều d được mở rông bởi các cột của W Điều này có thể tạo
nên mô hình gán khả năng xảy ra rất thấp cho dữ liệu nếu như dữ liệu khôngthực sự là phân cụm (cluster) gần một không gian phẳng lớn
13.2 Phân tích thành phần độc lập (Independent Component
Analysis)
Phân tích thành phần độc lập (ICA) nằm trong số thuật toán máy họctrình bày lâu đời nhất [Herault and Ans, 1984; Jutten and Herault, 1991;Comon, 1994; Hyvärinen, 1999; Hyvärinen cùng các đồng sự., 2001a;Hinton cùng các đồng sự., 2001; Teh cùng các đồng sự., 2003] Đây là mộtcách tiếp cận đến cách mô hình hóa các nhân tố tuyến tính, từ đây chúng tatìm cách tách biệt tín hiệu được quan sát thành nhiều tín hiệu cơ bản(underlying signals) mà chúng được thu nhỏ và thêm vào với nhau trongđịnh dạng của dữ liệu được quan sát Những tín hiệu này thường được hướngđến như là hoàn toàn độc lập, hơn là chỉ đơn thuần tách biệt với nhau (Ghichú: xem thêm chương 3.8 để bàn luận về sự khác biệt giữa biến khôngtương quan và biến đọc lập)
Có nhiều phương pháp luận cụ thể khác được giới thiệu như là Phântích thành phần độc lập Biến thể phần lớn tương động với các Mô hình khảtạo khác, chúng tôi có diễn giải ở đây [Pham cùng các đồng sự., 1992] như
là một biến thể mà nó huấn luyện một Mô hình đa biến khả tạo đầy đủ Phân
phối của dự đoán trên các yếu tố cơ bản, p(h), phải được cố định trước thời hạn bởi người sử dụng Mô hình sau đó được tạo ra một các xác định x=Wh.
Chung có thể thực hiện một sự thay đổi không tuyến tính của các biến số (sử
dụng phương trình 3.47) để xác định p(x) Việc học sâu của mô hình sau đó
vận hành như thường lệ bằng cách sử dụng Hợp lý cực đại (Maximumlikelihood)
Sự giải bày cho cách tiếp cận này là việc chọn lựa p(h) sao cho độc
lập, chúng ta có thể lược lại các yếu tố cơ bản sao cho chúng càng độc lậpcàng tốt Trong phương thức cài đặt này, mỗi ví dụ huấn luyện là một thời
điểm, mỗi x i là một cảm biến quan sát của các tín hiệu hỗn loạn (mixed
dụ như, chúng ta có n người nói một cách đồng thời Nếu chúng ta có n cái
míc thu âm khác nhau đặt ở các vị trí khác nhau, Phân tích thành phần độc
Trang 8lập (ICA) có thể nhận biết các sự thay đổi trong âm lượng giữa mỗi ngườinói, giống như như nghe được bằng mỗi míc thu âm và tách biệt các tín hiệu,
này được sử dụng rộng rãi trong Khoa học thàn kinh cho điện não đồ, mộtcông nghệ cho phép ghi lại các tín hiệu điện có nguồn gốc bên trong não.Nhiều các cảm biến điện tử được đặt trên đầu của đối tượng nghiên cứu dùng
để đo lường nhiều tín hiệu điện xuất phát từ cơ thể Người thực hiện thínghiệm thường chỉ quan tâm đến các tính nhiệu trong não, tuy nhiên các tínhhiệu từ tim và mắt của đối tượng cũng đủ mạnh để làm nhiễu các phép đo từ
da đầu của đối tượng Các tín nhiệu truyền đến các điện cực bị lẫn vào nhau,
vì vậy Phân tích thành phần độc lập (ICA) là cần thiết để phân tách các kýhiệu điện tử của tim từ các tín hiệu gốc của não, và phân tách các tín hiệucủa các vùng não khác nhau
Như đã đề cập đến trước đó, có nhiều biến thể của Phân tích thànhphần độc lập (ICA) là khả thi Một vài biến thể thêm vào một chút nhiễu
trong quá trình tạo ra x nhiều hơn việc sử dụng một bộ giải mã xác định.
Phần lớn không sử dụng tiêu chí của Hợp lí cực đại, nhưng thay vì nhắm đến
thành mục tiêu này Phương trình 3.47 yêu cầu lấy định thức (determinant)
của W, mà nó có thể là một hoạt động tốn kém và không ổn định về số
lượng Một vài biến thể của Phân tích thành phần độc lập (ICA) tránh đượcvấn đề trong hoạt động này bằng cách hạn chế hh trở thành trực giao
Tất cả các biến thể của Phân tích thành phần độc lập (ICA) đều yêu
cầu p(h) theo phân phối không Chuẩn (non-Gaussian) Điều này bởi vì nếu p(h) là một dự đoán độc lập với các thành phần Gaussian, thì p(W) là
không có thể nhận dạng được Chúng ta có thể đạt được phân phối giống
nhau bởi p(h) cho nhiều giá trị của W Điều này rất khác với những mô hình
tuyến tính nhân tử khác như là Mô hình có tính xác suất của phân tích thànhphần chính và Mô hình phân tích nhân tử, các mô hình này thường yêu
cầu p(h) theo phân phối Gaussian để thực hiện nhiều thao tác trên mô hình
có phương pháp giải xác định Trong các tiếp cận của Hợp lí cực đại, nơi màngười sử dụng xác định rõ ràng phân phối, một sự lựa chọn điển hình là sử
(non-Gaussian) có các đỉnh lớn hơn gần 0, hơn điều mà phân phối Gaussianlàm, thế nên chúng ta có thể xem phần lớn quá trình triển khai của Phân tíchthành phần độc lập (ICA) như là việc học các tính năng rải rác
Nhiều biến thể của Phân tích thành phần độc lập (ICA) thì không phải
là Mô hình có khả tạo (generative models) theo ngữ cảnh sử dụng theo cụm
từ Trong cuốn sách này, một Mô hình khả tạo hoặc là thể hiện p(h) hoặc có
Trang 9thể lấy các mẫu từ đó Nhiều biến thể của ICA chỉ được biến như làm cách
nào để biến đổi giữa x và h nhưng không có cách nào để diễn tả p(h), và vì vậy không thể áp đặt một phân phối lên p(h) Ví dụ như, nhiều biến thể của
độ nhọn cao chỉ ra rằng p(h) là không Chuẩn, nhưng điều này được hoàn thành mà không cần một biểu diễn rõ ràng của p(h) Điều này bời vì ICA
thường được sử dụng nhiều như là một công cụ phân tích cho việc phân táchcác tín hiệu, hơn là cho việc tạo ra dữ liệu hoặc ước tính mật độ của nó
Giống như mô hình phân tích thành phần chính PCA có thể được tạonên từ bộ tự động giải mã phi tuyến tính, được để cập trong chương 14, ICA
có thể được tạo nên từ mô hình khả tạo phi tuyến tính, trong đó chúng ta sử
dụng một phương trình phi tuyến tính f để tạo nên dữ liệu quan sát Đọc
trong [Hyvärinen and Pajunen (1999)] cho nghiên cứu tiền đề của ICA phituyến tính và nó thành công trong việc sử dụng với việc học toàn thể nghiêncứu bởi [Roberts and Everson (2001)] và Lappalainen cùng các đồng sự.(2000) Một sự mở rộng về phi tuyến tính khác của ICA là các tiếp cận
của Ước lượng thành phần phi tuyến tính độc lập (nonlinear independent
components estimation), viết tắt NICE (Dinh cùng các đồng sự., 2014),phương pháp này ngăn cách một loạt các phép biến đổi ngược (các giai đoạn
mã hóa) với đặc tính rằng định thức của Jacobian cho mỗi biến đổi có thểđược tính toán một cách hiệu quả Điều này làm cho phương pháp này tínhtoán khả năng hơp lí chính xác, và giống như ICA, NICE cố gắng chuyển đổi
dữ liệu vào một không gian nơi mà nó có một phân phối khả biên (factorizedmarginal distribution), nhưng nó có nhiều khả năng thành công nhờ vào bộ
mã hóa phi tuyến tính Bởi vì bộ mã hóa được liến kết với một bộ giải mã,
mà nó là nghịch đảo hoàn hảo, thì việc tái tạo mẫu từ mô hình là không phứctạp (bằng lấy mãu đầu tiên từ p(h) và sau đó ứng dụng vào bộ giải mã)
Một cách khải quát khác của ICA là để học nhóm các tính năng, với sựthống kê phụ thuốc đã cho phép trong một nhóm nhưng không tán thànhgiữa các nhóm [Hyvärinen and Hoyer, 1999; Hyvärinen cùng các đồng sự.,2001b] Khi các nhóm của các đơn vị liên quan được chọn là không chồng
chéo, điều này được gọi là Phân tích không gian phụ độc lập (independent
subspace analysis) Nó cũng khả thi để gán tọa độ không gian lên mỗi đơn vị
ẩn và hình thành các nhóm chồng chéo của các không gian đơn vị lân cận.Điều này thúc đẩy những đơn vị lân cận học cùng tính năng Khi ứng dụng
trong hình ảnh tự nhiên, Phép tiếp cận đo vẽ địa hình ICA (topographic
ICA) học bộ lọc Gabor, sao cho các tính năng lân cân có cùng sự địnhhướng, vị trí hoặc tần số Nhiều giai đoạn lệch khác nhau của phương trìnhtương tự Gabor xuất hiện trong mỗi vùng, điều này gộp lại trên các vùng nhỏđem lại sự bất biến tịnh tiến
Trang 1013.3 Phân tích đặc trưng chậm (Slow Feature Analysis)
Phân tích đặc trưng chậm (SFA) là một mô hình nhân tố tuyến tính sử
dụng thông tin từ các tín hiệu thời gian để học các đặc trưng bất biến(Wiskott và Sejnowski, 2002)
Phân tích đặc trưng chậm được thúc đẩy bởi một nguyên lý chung gọi
là nguyên lý chậm Ý tưởng của nguyên lý này là các đặc điểm quan trọngcủa cảnh vật thay đổi rất chậm so với các phép đo riêng mà tạo nên mô tả về
một cảnh Ví dụ, trong thị giác máy tính, giá trị điểm ảnh ( pixel) riêng lẻ có
thể thay đổi rất nhanh Nếu một con ngựa vằn di chuyển từ trái sang phảitrên từng ảnh, một điểm ảnh riêng lẻ sẽ nhanh chóng thay đổi từ màu đensang màu trắng và ngược lại khi các sọc của ngựa vằn trượt trên ảnh Bằngcách so sánh, các đặc trưng cho biết sự thay đổi về hình dạng và vị trí củangựa vằn thay đổi chậm Do đó, chúng ta mong muốn muốn kiểm soát
(regularize) mô hình của mình để học các đặc trưng thay đổi chậm theo thời
gian
Nguyên lý chậm trước đây là những phân tích đặc trưng chậm đã được
áp dụng cho nhiều loại mô hình (Hinton, 1989; Földiák, 1989; Mobahi và cộng sự, 2009; Bergstra và Bengio, 2009) Nói chung, nguyên lý chậm có thể được áp dụng cho bất kỳ một mô hình nào khả vi được huấn luyến với
phương pháp giảm dốc (gradient descent) Nguyên lý chậm có thể được giới
thiệu bằng cách thêm một thành phần vào hàm chi phí, thành phần này có dạng:
(13.7)
trong đó λ là siêu tham số xác định cường độ của thành phần kiểm soát chậm, t là chỉ số trong chuỗi thời gian của các mẫu, f là bộ trích xuất đặc trưng được kiểm soát hóa, và L là hàm tổn thất đo bởi khoảng cách giữa f(x t ) và f(x t+1 ) Thông thường hàm L thường được chọn là hàm khác
nhau trung bình bình phương (mean squared difference).
Phân tích đặc trưng chậm là một ứng dụng đặc biệt hiệu quả củanguyên lý chậm Phân tích này là hiệu quả vì nó được áp dụng cho một bộtrích xuất đặc trưng tuyến tính và do đó có thể được huấn luyện dưới dạngkhép kín Giống như một số biến thể của ICA, SFA về bản chất không hẳn làmột mô hình sinh mẫu, theo nghĩa là nó có một ánh xạ tuyến tính giữa khônggian đầu vào và không gian đặc trưng nhưng không xác định một tiền
Trang 11nghiệm trên không gian đặc trưng và do đó không áp đặt một phân
bố p(x) trên không gian đầu vào.
Thuật toán SFA (Wiskott và Sejnowski, 2002) bao gồm việc định nghĩa một phép biến đổi tuyến tính f(x;θ)), sau đó giải quyết bài toán tối ưu
(13.8)thỏa mãn các ràng buộc:
Và:
(13.10)Ràng buộc mà đặc trưng được học có kỳ vọng bằng không là cần thiết
để làm cho bài toán có một kết quả (lời giải) duy nhất; nếu đặc trưng đượchọc không có kỳ vọng bằng không thì chúng cần được chuẩn hóa bằng cáchcộng một hằng số vào tất cả các giá trị của đặc trưng, bằng cách làm nhưvậy, ta sẽ nhận được một lời giải khác nhưng có giá trị tương ứng của hàmmục tiêu chậm Ràng buộc mà các đặc trưng phương sai đơn vị là cần thiết
để ngăn chặn các lời giải không tốt (pathological solution), khi mà các đặc
trưng tiến dần về 0 Giống như PCA, các đặc trưng SFA được sắp xếp, vớiđặc trưng đầu tiên là chậm nhất Để học nhiều đặc trưng, chúng ta phải thêmràng buộc:
(13.11)Điều này chỉ ra rằng các đặc trưng đã học phải là bất tương quan tuyếntính với nhau Không có ràng buộc này, tất cả các đặc trưng đã học chỉ đơngiản bắt một tín hiệu chậm nhất Người ta có thể nghĩ về việc sử dụng các cơchế khác, chẳng hạn như giảm thiểu lỗi tái tạo, để buộc các đặc trưng đadạng hóa, nhưng cơ chế bất tương quan này thừa nhận một giải pháp đơngiản do tính tuyến tính của các đặc trưng SFA Bài toán SFA có thể đượcgiải quyết dưới dạng khép kín bởi bằng cách sử dụng đại số tuyến tính
SFA thường được sử dụng để học các đặc trưng phi tuyến bằng cách
áp dụng một mở rộng của cơ sở phi tuyến cho x trước khi chạy SFA Ví
dụ, x thường được thay thế với phép mở rộng cơ sở bậc hai, một vector chứa
xếp để học các bộ trích xuất đặc trưng chậm phi tuyến sâu bằng cách thựchiện lặp đi lặp lại: việc học một bộ trích xuất đặc trưng SFA tuyến tính, áp
Trang 12dụng một phép mở rộng cơ sở phi tuyến cho đầu ra của nó, và sau đó họcmột bộ trích xuất đặc trưng SFA tuyến tính khác ở trên phần mở rộng đó.
Khi được huấn luyện trên các cửa sổ (patch) không gian nhỏ được
trích xuất từ video về cảnh thiên nhiên, SFA với các phép mở rộng cơ sở bậchai sẽ học các đặc trưng, các đặc trưng này có nhiều đặc điểm giống với các
tế bào phức tạp ở tiểu vùng V1 của vỏ não (Berkes và Wiskott, 2005) (ND:Tiểu vùng V1 của vỏ não là vùng thị giác sơ cấp (primary visual cortex),nằm ở thùy chẩm (vùng phía sau, trên gáy của vỏ não) Những tế bào thuộcV1 sẽ nhận và xử lý các kích thích thị giác, làm cho con người có cảm giácánh sáng, màu sắc, độ sâu của cảnh vật) Khi được huấn luyện trên các videovới chuyển động ngẫu nhiên trong các môi trường máy tính kết xuất đồ họa3-D, các tầng sâu của SFA sẽ học các đặc trưng, các đặc trưng này có nhiềuđặc điểm giống với các đặc trưng được biểu diễn bởi các tế bào thần kinhtrong bộ não chuột được sử dụng để điều hướng (Franzius cùng các đồngsự., 2007) Do đó, SFA có vẻ là một mô hình sinh học hợp lý đáng tin cậy
Ưu điểm chính của SFA là có thể dự đoán về mặt lý thuyết các đặctrưng mà SFA sẽ học, ngay cả trong cài đặt phi tuyến sâu Để đưa ra những
dự đoán lý thuyết như vậy, mô hình phải xác định được tính động của môitrường về mặt không gian biểu trưng (ví dụ, trong trường hợp chuyển độngngẫu nhiên trong môi trường kết xuất 3-D, phân tích lý thuyết này thu được
từ kiến thức về phân bố xác suất theo vị trí và vận tốc của máy ảnh) Nếu
biết các kiến thức về cách các yếu tố ẩn (underlying factors) thực sự thay đổi
như thế nào, ta có thể giải quyết bằng cách phân tích cho các hàm tối ưu thểhiện các yếu tố này Trong thực tế, các thí nghiệm với SFA sâu được ápdụng cho dữ liệu mô phỏng dường như để phục hồi các chức năng được dựđoán theo lý thuyết So với các thuật toán học khác, trong đó hàm chi phíphụ thuộc rất cao vào các giá trị điểm ảnh đặc biệt, thì điều này (việc phụchồi các chức năng được dự đoán theo lý thuyết) làm cho SFA sâu trở nênkhó khắn hơn trong việc xác định các đặc trưng mà mô hình sẽ học
Các tầng sâu của SFA cũng đã được sử dụng để học các đặc trưng choviệc nhận dạng đối tượng và ước lượng hình dáng (Franzius và cộng sự,2008) Cho đến nay, nguyên lý chậm không trở thành cơ sở cho bất kỳ ứngdụng hiện đại nào Không rõ yếu tố nào đã hạn chế hiệu suất của nó Chúngtôi suy đoán rằng, có lẽ tiền nghiệm chậm quá mạnh, và, thay vì áp đặt mộttiền nghiệm có đặc trưng là hằng số xấp xỉ, ta nên áp đặt một tiền nghiệm cóđặc trưng dễ dự đoán từ bước này tới bước tiếp theo Vị trí của một đốitượng là một đặc trưng hữu ích bất kể tốc độ của vật thể cao hay thấp, nhưngnguyên tắc chậm lại khuyến khích mô hình bỏ qua vị trí của vật thể có vậntốc cao
Trang 1313.4 Mã hóa thưa (Sparse Coding)
Mã hóa thưa (Olshausen và Field, 1996) là một mô hình nhân tử tuyến
tính đã nghiên cứu rất nhiều dưới các dạng học không giám sát và trích rútđặc trưng Nói một cách chính xác, thuật ngữ “mã hóa thưa” ám chỉ quátrình suy luận giá trị của hh trong mô hình này Trong khi đó, “mô hìnhthưa” đề cập đến quá trình thiết kế và học của mô hình Tuy vậy, thôngthường thuật ngữ “mã hóa thưa” thường được sử dụng chung cho cả hai
Giống như hầu hết các mô hình nhân tử tuyến tính khác, mã hóa thưa
sử dụng một bộ giải mã tuyến tính gồm cả nhiễu để tái tạo lại x, như được
chỉ ra ở biểu thức 13.2 Cụ thể hơn, các mô hình mã hóa thưa thường giảđịnh rằng các yếu tố tuyến tính có nhiễu Gauss với độ chính xác đẳng
hướng β:
(13.12)
Phân bố p(h) được chọn là một với các đỉnh nhọn gần 0
(Olshausenand Field, 1996) Các lựa chọn phổ biến thường là phân bốLaplace, phân bố Cauchy hoặc phân bố factorized Student Ví dụ, tiền
nghiệm (prior) Laplace được tham số hóa theo nghĩa hệ số phạt thưa α được
cho bởi:
(13.13)
và tiền nghiệm của phân bố t-student được cho bởi:
(13.14)
Huấn luyện mã hóa thưa bằng độ hợp lý cực đại (maximum likelihood)
là không thể Thay vào đó, huấn luyện luân phiên giữa mã hóa dữ liệu và học
bộ giải mã để tái tạo lại tốt hơn các dữ liệu cho mã hóa Cách tiếp cận này sẽ
được đánh giá chi tiết như là một sấp xỉ theo nguyên tắc (principled
approximation) tới độ hợp lý cực đại trong phần 19.3.
Đối với các mô hình như PCA, chúng ta đã thấy việc sử dụng hàm mã
hóa tham số mà dự đoán chỉ h và chỉ gồm phép nhân với một ma trận trọng
số Bộ mã hóa mà chúng tôi sử dụng với mã hóa thưa không phải là một bộ
mã hóa tham số Thay vào đó, bộ mã hóa một thuật toán tối ưu hóa, bộ mãhóa này giải quyết vấn đề tìm kiếm giá trị đơn như giống với giá trị mã:
Trang 14(13.15)
Khi kết hợp với biểu thức 13.13 và 13.12, ta nhận được bài toán tối ưunhư sau:
trong đó chúng ta đã loại bỏ các thành phần không phụ thuộc vào h và đơn
giản hóa phương trình bằng cách chia cho các hệ số chuẩn hóa dương
(positive scaling factors).
Do sự xuất hiện của chuẩn L 1 trong h, thủ tục này sẽ đưa ra
Để huấn luyện mô hình thay vì chỉ thực hiện suy luận, chúng ta thực
hiện luân phiên giữa quá trình cực tiểu với h và cực tiểu với W Trong biểu diễn này, chúng ta xem β như là một siêu tham số Thông thường tham số
này được gán bằng 1 vì vai trò của nó trong bài toán tối ưu này được chia sẻ
với λ, và không cần thiết sử dụng cả hai siêu tham số Về nguyên tắc, chúng
ta cũng có thể coi β như là một tham số của mô hình và tìm học tham số này.
Trong phần này, chúng tôi đã loại bỏ một số thành phần mà không phụ thuộc
vào h nhưng vẫn phục thuộc vào β Để học tham số β, phải giữ các thành phần (không phụ thuộc vào h nhưng vẫn phục thuộc vào β) trong hàm mục tiêu, nếu không β sẽ tiến dần về 0.
Không phải tất cả các phương pháp tiếp cận mã hóa thưa đều xây
dựng p(h) và p(x|h) một cách rõ ràng Thông thường, chúng ta chỉ quan tâm
đến việc học từ điển của các đặc trưng với các giá trị kích hoạt thường bằngkhông khi được trích xuất bởi quy trình suy luận này
Nếu chúng ta lấy mẫu từ một tiền nghiệm Laplace, thì thực tế là một
sự kiện xác suất bằng không cho một phần tử của h thực sự bằng không Bản
thân các mô hình sinh mẫu không phải là thưa; chỉ bộ trích chọn đặc trưngmới là thưa Goodfellow cùng các đồng sự (2013d) mô tả suy diễn xấp xỉtrong một họ mô hình khác, đó là mô hình mã hóa thưa spike và spab, trong
đó các mẫu từ tiền nghiệm thường chứa true zeros
Trang 15Cách tiếp cận mã hóa thưa kết hợp với việc sử dụng bộ mã hóa khôngtham số về nguyên tắc có thể giảm thiểu sự kết hợp của lỗi tái tạo và log của
tiền nghiệm (log-prior) nhiều hơn so với bất kỳ bộ mã hóa tham số nào Một
lợi thế khác của cách tiếp cận này là bộ mã hóa không có lỗi tổng quát hóa
Một bộ mã hóa tham số phải học cách ánh xạ x tới h theo cách tổng quát hóa Đối với các bất thường x mà không giống với dữ liệu huấn luyện, một
bộ mã hóa tham số đã được học có thể có lỗi khi tìm giả thuyết h cung cấp
tái tạo chính xác hoặc một mã hóa thưa Đối với đại đa số các công thức của
mô hình mã hóa thưa, trong đó bài toán suy diễn là lồi, việc tối ưu hóa luôn
là tìm mã tối ưu (trừ khi các trường hợp suy biến như xảy ra việc thay thếvectơ trọng số) Rõ ràng, chi phí tái tạo và tính thưa có thể tăng trên cácđiểm không quen thuộc, nhưng điều này là do lỗi tổng quát trong trọng sốcủa bộ giải mã, chứ không phải lỗi tổng quát trong bộ mã hóa Việc thiếu lỗitổng quát hóa trong quá trình mã hóa dựa trên tối ưu hóa của mã hóa thưa cóthể mang lại kết quả tổng quát hoát tốt hơn khi mã hóa thưa được sử dụngnhư là một bộ trích chọn đặc trưng cho bộ phân lớp hơn là khi một hàm tham
số được sử dụng để dự đoán mã đó Coates và Ng (2011) đã chứng minhrằng các đặc trưng của mã hóa thưa tổng quát hóa các nhiệm vụ nhận dạngđối tượng tốt là các đặc trưng của một mô hình liên quan dựa trên bộ mã hóatham số, bộ mã hóa tự động với hàm tuyến tính và chữ S Lấy cảm hứng từkết của của Coate và Ng, Goodfellow và cộng sự (2013d) đã chỉ ra rằng mộtbiến thể của mã hóa thưa tổng quát hóa tốt hơn các bộ trích chọn đặc trưngkhác trong trường hợp có ít nhãn (mỗi lớp có 20 nhãn hoặc ít hơn)
Nhược điểm chính của bộ mã hóa không tham số là bộ mã hóa này đòi
hỏi nhiều thời gian để tính toán giả thuyết h khi cho x bởi vì phương pháp
tiếp cận không tham số được giải quyết bằng thuật toán lặp Cách tiếp cận bộ
tự mã hóa tham số, được trình bày cụ thể ở chương 14, chỉ sử dụng một sốlớp cố định, thường chỉ có một lớp Một nhược điểm khác là không đơn giản
để thực hiện lan truyền ngược thông qua bộ mã hóa không tham số, điều nàygây khó khăn trong việc tiền huấn luyện một mô hình mã hóa thưa với tiêu
chuẩn không giám sát và sau đó tinh chỉnh (fine-tune) bộ mã hóa này bằng
cách sử dụng một tiêu chuẩn giám sát Có tồn tại các biến thể của mã hóathưa mà cho phép các tính đạo hàm bằng phương pháp xấp xỉ, nhưng cácbiến thể này không được sử dụng rộng rãi (Bagnell và Bradley, 2009)
Mã hóa thưa, giống như các mô hình nhân tử tuyến tính khác, thườngtạo ra các mẫu kém, như được chỉ ra trong hình 13.2 Điều này xảy ra ngay
cả với mô hình có thể tái tạo lại dữ liệu tốt và cung cấp các đặc trưng hữuích cho một bộ học Lý do là mỗi đặc trưng riêng biệt có thể được học tốt,
nhưng thừa số tiền nghiệm (factorial prior) trên các mã ẩn trả về mô hình
bao gồm các tập con ngẫu nhiên của tất cả các đặc trưng trong mỗi mẫuđược tạo ra Điều này thúc đẩy sự phát triển của các mô hình sâu hơn
Trang 16(deeper model) mà có thể đặt vào một phân bố phi thừa số (nonfactorial
distribution) trên lớp mã sâu nhất, cũng như sự phát triển của các mô hình
nông (shallow model) phức tạp hơn.
Hình 13.2: Ví dụ về mẫu dữ liệu và trọng số từ mô hình mã hóa thưa spike
và slab được huấn luyện trên bộ dữ liệu MNIST Hình bên trái mô tả các mẫu từ mô hình, các mẫu này không tương đồng với các ví dụ huấn luyện Thoạt nhìn, có vẻ mô hình này không được tốt Hình bên phải minh họa các vecto trọng số của mô hinh, các trọng số này đã học được để đại diện cho nét chữ và đôi khi là chữ số hoàn chỉnh Do đó, mô hình đã học được các đặc trưng hữu ích Vấn đề là tiền nghiệm thừa số trên các đặc trưng cho kết quả là các tập con ngẫu nhiên khi kết hợp các đặc trưng Rất ít các tập hợp con đủ để tạo thành một chữ số MNIST dễ nhận biết Điều này thúc đẩy sự phát triển của các mô hình sinh mẫu mà có các phân bố mạnh hơn trên các
mã ẩn của các mô hình này Hình này được tạo lại với sự cho phép của Goodfellow và cộng sự (2013d).
13.5 Thể hiện đa tạp của PCA
Các mô hình nhân tử tuyến tính bao gồm PCA và phân tích nhân tử cóthể được hiểu như là học một đa tạp (Hinton và cộng sự, 1997) Chúng ta cóthể xem xác suất PCA (định nghĩa một vùng có hình bánh kếp mỏng với xácsuất cao) là một một phân bố Gauss hẹp dọc theo một số trục (giống nhưbánh kếp rất phẳng dọc trục tung của nó), nhưng được kéo dài dọc theo cáctrục khác (giống như bánh kếp rất rộng theo trục hoành) Điều này đượcminh họa như trong hình 13.3 PCA có thể được hiểu là sắp xếp miếng bánh
Trang 17kếp này với với một đa tạp tuyến tính trong một không gian với nhiều chiềuhơn Việc hiểu (giải nghĩa) này không chỉ áp dụng với PCA truyền thống màcòn cho bất kỳ bộ mã hóa tự động tuyến tính nào học các ma
trận W và V với mục đích tái tạo lại x sao cho bản tái tạo này nằm gần x nhất có thể.
Coi bộ mã hóa là:
h = f(x) = W⊺(x−μ).) (13.19)
Bộ mã hóa tính một biểu diễn với số chiều nhỏ của h Dưới góc nhìn của bộ
mã hóa tự động, chúng ta có một bộ giải mã tính toán bản tái tạo của x:
(13.20)Các lựa chọn về bộ mã hóa và giải mã tuyến tính mà cực tiểu lỗi tái tạo:
(13.21)
tương ứng với V=W, μ).=b=E[x] và các cột của W tạo nên một cơ sở trực
giao, mà trải rộng cùng không gian con giống như các vecto riêng cơ sở của
ma trận hiệp phương sai:
C = E[(x−μ).)(x−μ).)⊺] (13.22)
Trong trường hợp của PCA, các cột của W là những vecto riêng của
chúng, được sắp xếp theo độ lớn của các giá trị riêng tương ứng (các giá trịriêng này là số thực và không âm)
sai của x theo hướng của vector riêng v (i)
(chọn μ, b, V và W như trên) là:
(13.23)
Do đó, nếu ma trận hiệp phương sai có bậc d, các giá trị riêng λ d+1 tới λ D là 0 và lỗi tái tạo cũng là 0
Trang 18Hình 13.3: Biểu diễn Gausian phẳng chỉ ra sự tập trung xác suất gần một đa tạp với số chiều thấp Hình này chỉ ra nửa trên của “bánh kếp” nẳm phía trên “ mặt phẳng đa tạp”, mặt phẳng đa tạp này cắt ngang miếng bánh kếp Phương sai theo hướng trực giao với đa tạp rất nhỏ( mũi tên hướng ra khỏi mặt phẳng) và có thể được coi là “nhiễu”, trong khi các phương sai khác lớn( mũi tên trên mặt phẳng) và tương ứng với “tín hiệu” và với hệ tọa độ với dữ liệu được giảm chiều
Hơn nữa, người ta cũng có thể chỉ ra rằng giải pháp trên có thể thu
được bằng cách cực đại các phương sai các phần tử của h, dưới trực giao W,
thay vì tối thiểu lỗi tái tạo
Mô hình nhân tử tuyến tính là một số mô hình sinh mẫu đơn giản nhất
và một số mô hình đơn giản nhất trong việc học cách biểu diễn dữ liệu.Giống như các mô hình hồi quy tuyến tính và phân lớp tuyến tính có thể
được mở rộng thành các mạng lan truyền thuận sâu (deep feedforward
network), các mô hình nhân tử tuyến tính này có thể được mở rộng thành các
mạng mã hóa tự động và mô hình xác suất sâu (deep probabilistic model),
các mô hình này cùng thực hiện các nhiệm vụ giống nhau nhưng chúng là họcác mô hình có khả năng và tính linh hoạt cao
Trang 19CHƯƠNG 14: BỘ TỰ MÃ HOÁ
Một bộ tự mã hóa (Autoencoder) là một mạng neuron được huấn luyện
để đầu ra có thể sao chép đầu vào của nó Ở bên trong, mạng này có một lớp
ẩn (hidden layer) hh mô tả một đoạn mã hoá (code) dùng để biểu diễn đầu
vào Loại mạng này được cấu tạo bởi hai phần: một hàm mã hóa h=f(x) và một hàm giải mã để tái thiết lại r=g(h) Cấu trúc này được thể hiện trong
hình 14.1 Nếu một bộ tự mã hóa chỉ đơn giản là tái thiết lập
hàm g(f(x))=x chính xác tại mọi điểm, thì mạng này xem ra không có ý nghĩa
gì Thay vào đó, các bộ tự mã hoá được thiết kế để chúng không thể họcđược cách sao chép một cách nguyên vẹn Thông thường, chúng bị giới hạntrong những phương pháp cho phép chúng sao chép giá trị chỉ ở mức xấp xỉ
và chỉ sao chép được tốt những đầu vào giống với dữ liệu huấn luyện Bởi vì
mô hình buộc phải ưu tiên những khía cạnh nên được sao chép của đầu vào,
nó thường học những thuộc tính hữu ích của dữ liệu
Bộ tự mã hóa hiện đại đã khái quát hóa ý tưởng của một bộ mã hóa vàmột bộ giải mã vượt ra khỏi các hàm tất định đến các ánh xạ ngẫu
nhiên p encoder (h|x) và p decoder (x|h).
Ý tưởng của bộ tự mã hóa đã trở thành một phần lịch sử của mạngneuron trong nhiều thập kỉ (LeCun, 1987; Bourlard and Kamp, 1988; Hintonand Zemel, 1994) Thông thường các bộ tự mã hóa được dùng cho nhiệm vụgiảm chiều dữ liệu (dimentional reduction) hay học đặc trưng (featurelearning) Gần đây, các sự kết nối về mặt lý thuyết giữa bộ tự mã hóa và các
mô hình biến tiềm ẩn đã đưa bộ tự mã hóa lên vị trí tiên phong cho mô hìnhhoá sinh dữ liệu, như chúng ta sẽ thấy ở chương 20 Bộ tự mã hóa có thểđược xem như là trường hợp đặc biệt của mạng lan truyền thuận(feedforward networks) và có thể sử dụng tất cả các kỹ thuật tương tự đểhuấn luyện, điển hình là trượt gradient theo lô nhỏ (minibatch gradientdescent) với các gradient được tính bởi thuật toán lan truyền ngược (back-propagation) Không giống như những mạng lan truyền thuận thông thường,
bộ tự mã hóa cũng có thể được huấn luyện bằng cách sử dụng sự tuần
hoàn (recirculation) (Hinton and McClelland, 1988), một thuật toán học dựa
trên việc so sánh về những sự kích hoạt (activations) của mạng trên đầu vàogốc với những sự kích hoạt trên đầu vào sau khi đã được xây dựng lại Sựtuần hoàn được đánh giá là hợp lý hơn về mặt sinh học so với lan truyềnngược nhưng nó hiếm khi được sử dụng cho các ứng dụng học máy
Trang 20Hình 14.1: Cấu trúc chung của một bộ tự mã hóa, ánh xạ một đầu vào x tới một đầu ra (gọi là tái thiết) r thông qua một biểu diễn nội tại, hay đoạn mã hoá h Bộ tự mã hóa có hai thành phần: bộ mã hóa f (ánh xạ từ x tới h) và
bộ giải mã g (ánh xạ từ h tới r).
14.1 Bộ mã hóa dưới mức (Undercomplete Autoencoders)
Việc sao chép đầu vào ở đầu ra nghe có vẻ vô nghĩa, nhưng thường thìchúng ta không quan tâm đến đầu ra của phần giải mã Thay vào đó, chúng
ta hi vọng rằng việc huấn luyện bộ tự mã hóa để thực hiện tác vụ sao chép
đầu vào sẽ giúp h chiết xuất được những thuộc tính hữu ích từ x.
Một cách để thu thập các đặc trưng hữu ích từ bộ tự mã hóa là
buộc h phải có số chiều nhỏ hơn x Một bộ tự mã hóa với chiều của đoạn mã
hoá nhỏ hơn chiều của đầu vào được gọi là dưới mức (undercomplete) Học
một biểu diễn với số chiều nhỏ hơn buộc bộ tự mã hóa phải chiết xuất đượcnhững đặc điểm nổi bật nhất về dữ liệu huấn luyện
Quá trình học có thể được mô tả đơn giản là việc cực tiểu hoá mộthàm mất mát
L(x, g(f(x))) (14.1)
trong đó L là một hàm mất mát trừng phạt khi g(f(x)) khác với x, ví dụ như hàm
sai số trung bình bình phương (mean squared error)
Khi bộ giải mã là tuyến tính và L là hàm sai số trung bình bình
phương, một bộ mã hóa dưới mức học cách mở rộng không gian con giốngkhông gian con của PCA.Trong trường hợp này, bộ tự mã hóa được huấnluyện để thực hiện nhiệm vụ sao chép đã học được chiều không gian conchính (principal subspace) của dữ liệu huấn luyện như một hiệu ứng phụ
Trang 21Bộ tự mã hóa với hàm mã hóa phi tuyến tính f và hàm giải mã phi tuyến tính g có thể học được sự tổng quát phi tuyến tính mãnh mẽ hơn của
PCA Không may là nếu bộ mã hóa và bộ giải mã được cho cấp cho mộtdung lượng quá lớn, bộ tự mã hóa có thể học thực hiện nhiệm vụ sao chép
mà không trích xuất bất kì thông tin hữu nào về sự phân phối của dữ liệu Về
lý thuyết, chúng ta có thể tưởng tượng rằng một bộ tự mã hoá với lớp ẩn chỉmột chiều nhưng có một bộ mã hóa phi tuyến tính mạnh mẽ có thể học cách
học cách ánh xạ những con số mã code này thành những giá trị của ví dụluyện tập tương ứng Trường hợp này tuy không xảy ra trong thực tế, nhưng
nó là một gợi ý rõ ràng cho vấn đề một bộ tự mã hoá được huấn luyện chonhiệm vụ sao chép có thể sẽ thất bại trong việc học một thông tin hữu ích bất
kì về tập dữ liệu nếu bộ tự mã hoá này đươc cấp cho một dung lượng quálớn
14.2 Bộ mã hóa có kiểm soát (Regularized Autoencoders)
Bộ mã hóa dưới mức với số chiều mã hoá nhỏ hơn số chiều của đầuvào có thể học những đặc trưng nổi bật nhất về phân phối của dữ liệu Chúng
ta đã thấy những bộ tự mã hóa thất bại khi học những thứ hữu ích nếu bộ mãhóa và giải mã được cấp một dung lượng quá lớn
Vấn đề tương tự cũng xảy ra trong trường hợp đoạn mã hoá có số
chiều bằng hoặc lớn hơn số chiều của đầu vào, như trong trường hợp vượt
mức (overcomplete) Trong những trường hợp này, ngay cả bộ mã hóa tuyến
tính và bộ giải mã tuyến tính cũng có đủ khả năng để học cách sao chép dữliệu vào đầu ra mà không cần học bất kỳ điều gì hữu ích về việc phân phốicủa dữ liệu
Lý tưởng nhất là chúng ta có thể huấn luyện thành công bất kì kiếntrúc của bộ tự mã hóa nào, được tuỳ ý chọn kích thước của đoạn mã hoá,dung lượng của bộ mã hóa và giải mã dựa trên độ phức tạp của tập dữ liệu
Bộ mã hóa có kiểm soát cung cấp khả năng để thực hiện ý tưởng này Thay
vì hạn chế dung lượng của mô hình bằng việc giữ bộ mã hóa và giải mãkhông sâu (shallow) và kích thước đoạn mã hoá nhỏ, bộ tự mã hóa có kiểmsoát dùng một hàm mất mát khuyến khích mô hình đồng thời có được nhữngtính chất khác bên cạnh khả năng sao chép đầu ở sang đầu ra của nó Cáctính chất khác này bao gồm sự thưa thớt của lớp biểu diễn, độ nhỏ của đạohàm ở lớp biểu diễn và mức độ ổn định đối với nhiễu hoặc đầu vào bị bỏqua Một bộ tự mã hóa có kiểm soát có thể là phi tuyến tính và vượt mứcnhưng vẫn có thể học một số thông tin hữu ích từ dữ liệu, thậm chí nếu dunglượng của mô hình đủ lớn để có thể học được một hàm đồng nhất thôngthường
Trang 22Ngoài các phương pháp được miêu tả ở trên, những phương pháp cóthể nói là dễ suy ra nhất khi nói về bộ tự giải mã có kiểm soát, gần như bất
kì mô hình sinh mẫu nào có biến tiềm ẩn và được trang bị một bộ thiết lậpsuy luận (inference procedure) (để tính toán lớp biểu diễn tiềm ẩn khi biếtđầu vào) cũng được xem là một dạng của bộ tự mã hóa Hai hướng tiếp cận
mô hình sinh mẫu nhấn mạnh sự liên quan với bộ tự mã hóa, cùng kaf kếnhiệm từ máy Helmholtz(Hinton et al, 1995b), là bộ mã hóa biến thiên (phần20.10.3) và mạng sinh mẫu ngẫu nhiên (phần 20.12) Những mô hình nàymột cách tự nhiên học những bộ mã hóa vượt mức, có dung lượng cao từ đầuvào mà không yêu cầu cơ chế kiểm soát nào để quá trình mã hoá trở nên cóích Những bộ mã hóa của chúng tự nhiên đã hữu dụng bởi vì những mô hìnhnày đã được huấn luyện để làm tăng tối đa xác xuất của dữ liệu huấn luyệnthay vì việc sao chép đầu vào thành đầu ra
14.2.1 Bộ tự mã hóa thưa (Sparse Autoencoders)
Một bộ tự mã hóa thưa đơn giản là một bộ mã hóa mà những tiêu
chuẩn huấn luyện của nó liên quan đến một hình phạt thưa Ω(h) tại lớp mã hoá h, sai số tái tạo lại được biểu diễn:
đã được huấn luyện thay vì chỉ thực hiện một hàm đồng nhất đơn giản Với cách này, việc huấn luyện để thực hiện tác vụ sao chép với một phạt thưa có thể tạo ra một mô hình học tập đặc trưng hữu ích như là một sản phẩm phụ (byproduct)
Chúng ta có thể xem hình phạt Ω(h) này đơn giản như một số hạng
kiểm soát được thêm vào một mạng lan truyền tiến mà nhiệm vụ ban đầu của
nó là sao chép đầu vào sang đầu ra(mục tiêu học không giám sát) và cũng có thể thực hiện một vài nhiệm vụ có giám sát(với một mục tiêu học có giám sát) dựa trên những đặc trưng thưa xem chiết xuất được Không giống như những cơ chế kiểm soát hác như suy giảm trọng số(weight decay), không có một cách giải thích Bayesian nào làm sáng tỏ hàm kiểm soát này Như miêu
tả trong phần 5.6.1, huấn luyện theo kiểu suy giảm trọng số và các hình phạt
kiểm soát khác có thể được giải thích như là một xấp xỉ MAP (MAP
approximation) trong hướng tiếp cận Bayesian, với những hình phạt được thêm vào tương ứng với một phân bố xác suất tiên nhiệm về các tham số của
Trang 23mô hình Ở góc nhìn này, hợp lí cực đại có kiểm soát tương ứng với cực đại
của p(θ|x), có giá trị tương đương với cực đại của log p(x|θ) + log p(θ) Khái niệm log p(x|θ) là khái niệm hàm logarit hợp lí dữ liệu thông thường và khái niệm p(θ), logarit tiên nghiệm về tham số, kết hợp chặt chẽ với giá trị cụ thể của θ Góc nhìn này đã được đề cập ở phần 5.6 Rất khó để có một cách giải
thích tương tự về bộ tự mã hóa có kiểm soát bởi vì bộ chuẩn hóa hoàn toàn dựa trên dữ liệu cho nên không thể định nghĩa như là một tiên nghiệm theo đúng ý nghĩa mà từ này mô tả Chúng ta vẫn có thể xem số hạng kiểm soát như là một sự biểu thị ngầm định một sự ưu tiên giữa các hàm
Thay vì xem phạt thưa(sparsity penalty) như một bộ kiểm soát cho nhiệm vụ sao chép, chúng ta có thể nghĩ bộ khung đầy đủ của bộ tự mã hóa thưa như là dạng huấn luyện xấp xỉ cực đại của một mô hình sinh mẫu có
biến tiềm ẩn Giả sử chúng ta có một mô hình với biến có thể nhìn thấy x và biến tiềm ẩn h, với một phân phối đồng
thời pmodel(x,h) = pmodel(h)pmodel(x|h) Chúng ta xem pmodel(h) như là
phân phối tiên nghiệm của mô hình về các biến tiềm ẩn, biểu diễn kiến thức
nền của mô hình trước khi nhìn thấy biến x Cách hiểu này khác với cách
chúng ta đã từng dùng trước đó với từ “tiền nghiệm” (prior) để chỉ phân
phối p(θ) mã hóa các niềm tin của chúng ta về những tham số của mô hình
trước khi nhìn thấy dữ liệu huấn luyện Hàm hợp logarit có thể được phân tích như hình dưới đây:
Chúng ta có thể xem bộ tự mã hóa như là giá trị xấp xỉ của tổng này với một
ước lượng điểm cho mỗi giá trị có khả năng cao là h Điều này tương tự với mô
hình mã hóa sinh mẫu thưa (sparse coding generative model)(phần 13.4),
nhưng h lại là đầu ra của bộ mã hóa tham số thay vì là kết quả của một bộ tối ưu suy luận giá trị h có khả năng cao nhất (the most likely h) Từ góc nhìn này, với việc chọn h, chúng ta tối đa:
logpmodel(h.x) − logpmodel(h) + log(x|h) (14.4)
Chỉ số log pmodel(h) có thể là chỉ số làm thưa (sparsity inducing) Ví dụ,
Lapalce prior:
tương ứng với một giá trị phạt thưa tuyệt đối Biểu diễn logarit tiên nghiệm
Trang 24thành một mức phạt tuyệt đối, chúng ta có
hằng số chỉ phụ thuộc vào λ, không phụ thuộc vào h Chúng ta xem λ như là
một siêu tham số và bỏ phần hằng số vì nó không ảnh hưởng gì đến việc học
tham số Những kiểu tiên nghiệm khác như là số hạng tiên nghiệm Student cũng
có thể gây ra sự thưa thớt Đối với góc nhìn về sự thưa thớt này như là kết quả
từ ảnh hưởng của pmodel(h) lên việc học xấp xỉ hợp lí cực đại, mức phạt thưa
không còn là một số hạng kiểm soát nữa Nó chỉ đơn giản là một hệ quả từ sự phân phối những bíến ẩn của nó của mô hình Góc nhìn này cung cấp một động lực thúc đẩy khác cho việc huấn luyện một bộ tự mã hóa: đó là một cách của huấn luyện xấp xỉ mô hình sinh mẫu Nó đồng thời cũng cung cấp một lí do khác cho câu hỏi vì sao những đặc trưng học được bởi bộ tự mã hóa là hữu ích: những mô tả từ biến ẩn giải thích cho đầu vào
Những công trình đầu tiên về bộ tự mã hóa thưa (Ranzato et al,
2007a, 2008) đã khám phá ra rất nhiều dạng của sự thưa thớt và đưa ra một
kết nối giữa phạt thưa và chỉ số logarit Z xuất hiện khi sử dụng hợp lí cực
việc làm tối thiểu chỉ số logarit Z có thể giúp tránh tạo ra một mô hình xác
xuất có xác xuất cao ở mọi nơi, và việc ép tính thưa thớt xảy ra trên một bộ
tự mã hóa giúp bộ tự mã hóa này tránh được tình huống mức sai số tái thiết ởmọi đầu vào đều thấp Trong trường hợp này, mối liên hệ giữa 2 chỉ số trên được hiểu ở cấp độ hiểu trực giác về cơ chế hoạt động chung hơn là một biểudiễn toán học Sự giải thích của phạt thưa dưới dạng chỉ số
logarit pmodel(h) tương ứng trong một mô hình có hướng pmodel(h)
pmodel(x|h) thì cụ thể hơn về mặt toán học.
Một cách để đạt được những giá trị 0 hoàn toàn (actual zeros)
trong h cho bộ tự mã hóa thưa (và giảm nhiễu) được giới thiệu trong Glorot
và cộng sự (2011b) Ý tưởng ở bài báo này là sử dụng những bộ chỉnh lưu tuyến tính để tạo ra lớp mã hoá Với một tiên nghiệm (prior) có khả năng chuyển những sự biểu diễn về 0 (như giá trị phạt tuyệt đối đã nhắc đến), mô hình tự mã hoá này có thể gián tiếp điều khiển số lượng trung bình những giá trị 0 xuất hiện trong lớp biểu diễn
Trang 2514.2.2 Bộ tự mã hóa khử nhiễu (Denoising Autoencoders)
Thay vì thêm một mức phạt Ω vào hàm chi phí, chúng ta có thể thu
được một bộ tự mã hóa có thể học những thứ hữu ích bằng cách thay đổiphần sai số tái thiết trong hàm chi phí
Như thường lệ, bộ tự mã hoá cực tiểu hoá một hàm:
Trong đó L là hàm mất mát bắt phạt g(f(x)) vì không giống với x, chẳng hạn
hàm đồng nhất đơn thuần nếu chúng có đủ dung lượng để trở thành hàm đó
Một bộ mã hoá tự động khử nhiễu (DAE) thay vào đó cực tiểu hoá:
Trong đó x˜ là một bản sao bị trỗn lẫn một vài dạng nhiễu của x Do đó, bộ
mã tự hóa khử nhiễu phải làm thêm 1 nhiệm vụ là hoàn tác những dạngnhiễu này thay vì chỉ sao chép đầu vào của chúng
Huấn luyện khử nhiễu bắt f và g ngầm tìm hiểu cấu trúc của pdữ liệu(x), như được trình bày bởi Alain và Bengio (2013) và Bengio
cùng cộng sự (2013c) Các bộ tự mã hóa khử nhiễu cung cấp một ví dụ khác
về cách để chiết xuất các thuộc tính hữu dụng như một sản phẩm phụ củaviệc cực tiểu hoá sai số tái thiết Chúng cũng là một ví dụ về cách các môhình vượt mức, dung lượng cao có thể được sử dụng được cho các bộ tự mãhóa miễn là chúng bị ngăn cản khỏi việc học hàm đồng nhất Chi tiết về Bộ
tự mã hoá khử nhiễu sẽ được trình bày trong phần 14.5
14.2.3 Kiểm soát hóa bằng bắt phạt đạo hàm
Một chiến lược khác để kiểm soát hóa bộ tự mã hóa là sử dụng một mức phạt Ω, như trong bộ tự mã hóa thưa: