Tiểu luận Khai phá dữ liệu: ĐỀ TÀI: CÁC MÔ HÌNH NHâN TỬ TUYẾN TÍNH VÀ BỘ TỰ MÃ HOÁ

Giống như mô hình phân tích thành phần chính PCA có thể được tạonên từ bộ tự động giải mã phi tuyến tính, được để cập trong chương 14, ICA có thể được tạo nên từ mô hình khả tạo phi tuyế

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

BÁO CÁO TIỂU LUẬN

Hà Nội - 2018

Trang 2

LỜI MỞ ĐẦU

Khai phá dữ liệu trong những năm gần đây đã và đang được ứng dụng rộng rãi trong nhiều lĩnh vực như: Ngân hàng, Tài chính và thị trường chứng khoán, Thương mại, Giáo dục, Y tế, Sinh học, Bưu chính viễn thông, với nhiều hướng tiếp cận khác nhau như: Phân lớp/Dự đoán, Phân cụm, Luật kết hợp, Các kỹ thuật chính được áp dụng trong khai phá dữ liệu phần lớn được thừa kế từ lĩnh vực: Cơ sở dữ liệu, Máy học (Machine learning), Trí tuệ nhân tạo, Lý thuyết thông tin, Xác suất thống kê, và nổi trội trong đó là phương pháp Khai phá dữ liệu phát hiện luật kết hợp với cơ sở lý thuyết vững chãi và đầy tính ứng dụng thực tiễn.

Vì vậy tập thể nhóm 9 xin gửi lời tri ân đến nhà trường đã tạo điều kiện cho chúng em được học tập và tiếp cận với môn học khai phá dữ liệu này Chúng em cũng đặc biệt cám ơn Thầy giáo, PGS TS Hà Quang Thụy, người đã tận tuỵ giảng dạy lớp chúng em trong 16 tuần học vừa qua để mang đến với chúng em những kiến thức bổ ích.

Chúng em xin chân thành cám ơn !

Trang 3

MỤC LỤC

LỜI MỞ ĐẦU 2

MỤC LỤC 3

PHÂN CÔNG CÔNG VIỆC 3

CHƯƠNG 13: CÁC MÔ HÌNH NHÂN TỬ TUYẾN TÍNH 4

13.1 Xác suất trong Phân tích thành phần chính (Principal Component Analysis) và Phân tích nhân tử (Factor Analysis) 5

13.2 Phân tích thành phần độc lập (Independent Component Analysis) 7

13.3 Phân tích đặc trưng chậm (Slow Feature Analysis) 9

13.4 Mã hóa thưa (Sparse Coding) 12

13.5 Thể hiện đa tạp của PCA 16

CHƯƠNG 14: BỘ TỰ MÃ HOÁ 19

14.1 Bộ mã hóa dưới mức (Undercomplete Autoencoders) 20

14.2 Bộ mã hóa có kiểm soát (Regularized Autoencoders) 21

14.2.1 Bộ tự mã hóa thưa (Sparse Autoencoders) 22

14.2.2 Bộ tự mã hóa khử nhiễu (Denoising Autoencoders) 25

14.2.3 Kiểm soát hóa bằng bắt phạt đạo hàm 25

14.3 Sức mạnh của biểu diễn, kích thước tầng và độ sâu 26

14.4 Bộ mã hóa và giải mã ngẫu nhiên (Stochastic Encoders and Decoders) 27

14.5 Bộ tự mã hóa khử nhiễu (Denoising Autoencoders) 28

14.5.1 Ước tính điểm số 30

14.5.2 Bối cảnh lịch sử 32

14.6 Học đa tạp sử dụng bộ tự mã hóa 34

14.7 Bộ tự mã hóa chèn ép (Contractive Autoencoders) 39

14.8 Phân rã thưa tiên đoán (Predictive Sparse Decomposition) 42

14.9 Ứng dụng của bộ tự mã hóa 43

DANH MỤC CÁC THUẬT NGỮ 44

PHỤ LỤC 45

TÀI LIỆU THAM KHẢO 49

Trang 4

PHÂN CÔNG CÔNG VIỆC

Trần Văn Nghĩa 13.1 đến 13.2, code demo

Hoàng Trọng Mạnh 13.3 đến 13.5, code bài tập

Nguyễn Văn Quang Huy 14.5 đến 14.9

CHƯƠNG 13: CÁC MÔ HÌNH NHÂN TỬ TUYẾN TÍNH

Nhiều giới hạn của các nhà nghiên cứu về Học sâu có liên quan đến

mô hình có thể sử dụng sự lập luận xác suất để dự đoán bất kì giá trị nàotrong không gian sác xuất của nó và có thể ràng buộc bởi các biến khác

Nhiều trong số các mô hình này có thể chứa các biến ẩn (latent variables) h,

trong đó:

P model (x)=E hpmodel (x|h).

Những biến ẩn này tạo nên một ý nghĩa khác của sự miêu tả dữ liệu

Sự phân loại các miêu tả dữ liệu dựa vào các biến ẩn này có thể đạt được tất

cả các lợi thế của việc học biểu diễn (representation learning) mà chúng ta

có thể thấy ở học sâu lan truyền thuận (deep feedforward) và mạng hồi

quy (recurrent network).

Trong chương này, chúng ta sẽ diễn tả một vài mô hình xác suất đơn

giản có các biến ẩn: hay còn gọi Mô hình nhân tử tuyến tính (linear factor models) Thỉnh thoảng các mô hình này được sử dụng để xây dựng khối các

mô hình hỗn hợp (blocks of mixture models) [Hinton cùng các đồng sự,

1995a; Ghahramani and Hinton, 1996; Roweis cùng các đồng sự, 2002],

hoặc các mô hình lớn hơn, những mô mình xác suất học sâu (deep

probabilistic models) (Tang cùng các đồng sự, 2012) Những nghiên cứu nàycũng chỉ ra các cách tiếp cận căn bản cần thiết cho việc xây dựng các môhình có khả năng phát triển, nhờ đó mà các mô hình học sâu cao cấp hơn cóthể phát triển ra thêm

Một mô hình nhân tử tuyến tính được xác định bởi việc sử dụng một

hàm giải mã tuyến tính ngẫu nhiên, nhờ đó tạo ra x bằng cách thêm vào nhiễu cho một phép chuyển đổi tuyến tính của h Những mô hình này rất

hay, bởi vì chúng cho phép ta khám phá ra các yếu tố giải thích mà chúng cómột phân phối đồng thời đơn giản Sự đơn giản của việc sự dụng phương

Trang 5

pháp giải mã tuyến tính đã làm cho những mô hình này trở thành một trongnhững mô hình có biến ẩn đầu tiên được nghiên cứu rộng rãi.

Một mô hình nhân tử tuyến tính thể hiện việc quá trình tổng hợp dữ

liệu như sau Đầu tiên, chúng ta giả định nhân tố giải thích h thuộc một phân

phối:

h∼p(h) (13.1)

ví dụ từ đó Tiếp đến chúng ta giả định giá trị thực của các biến có thể quánsát được cho bởi vector:

Trang 6

13.1 Xác suất trong Phân tích thành phần chính (Principal

Component Analysis) và Phân tích nhân tử (Factor Analysis)

Xác suất trong phân tích thành phần chính, phân tích nhân tử và các

mô hình nhân tử khác là trường hợp đặc biệt của các phương trình 13.1 và13.2 ở trên, chúng chỉ khác ở những chọn lựa tạo nên phân phối của nhiễu và

tính dự đoán của mô hình thông qua các biến ẩn p(h) trước quan sát p(x).

Trong phân tích nhân tử (Bartholomew, 1987; Basilevsky, 1994), biến

dự đoán ẩn chỉ là phương sai đơn vị của phân phối Gaussian:

h∼N(h;0;I) (13.3)

kiện (conditionally independent) cho bởi h Đặc biệt hơn, sự nhiễu được giả

định là suy ra từ một phương sai chéo của phôi phối Gaussian, với ma trận

phương sai ψ=diag(σ 2 ) với σ 2 =[σ 1 2 ,σ 2 2 , ,σ n 2 ] T là vector của phương sai chomỗi biến

Quy luật của biến ẩn thật ra là để nắm lấy sự phụ thuộc giữa sự khác

dàng là vector x chỉ là một chuỗi đa biến ngẫu nhiên bình thường, với:

x∼N(x;b,WW T +ψ) (13.4)

Để đúc ra Mô hình phân tích thành phần chính trong một khuông khổxác suất, chúng ta có thể làm một sự điều chỉnh nhỏ cho Mô hình phân tích

Điều này dẫn đến phân phối có điều kiện:

x∼N(x;b,WW T +σ 2 I) (13.5)

hoặc tương tự với:

x = Wh + b + σz (13.6)

trong đó z∼N(z;0,I) là nhiễu của Gaussian Sau đó, theo như Tipping and

Bishop (1999) diễn giải, chúng ta có thể sử dụng vòng lặp thuật toán EM để

Mô hình xác suất phân tích thành phần chính này có những điểm

mạnh của sự quan sát, rằng phần nhưng biến đổi trong dữ liệu được nắm bắt

diễn giải bởi Tipping and Bishop (1999), tính xác suất trong phân tích thành

phần chính trở thành Phân tích thành phần chính bình thường khi σ→0 Trong trường hợp này, giá trị mong đợi có điều kiện của h cho bởi x trở

Trang 7

thành một phép chiếu trực giao (orthogonal projection) của x=b trên không gian bị mở rộng bởi cột d của W, giống như trong Phân tích thành phần

chính

Như khi σ→0, mật độ của mô hình được xác định bởi tính xác suất

trong phân tích thành phần chính trở thành trở nên rất đặc (verry sharp) xung

quanh những chiều d được mở rông bởi các cột của W Điều này có thể tạo

nên mô hình gán khả năng xảy ra rất thấp cho dữ liệu nếu như dữ liệu khôngthực sự là phân cụm (cluster) gần một không gian phẳng lớn

13.2 Phân tích thành phần độc lập (Independent Component

Analysis)

Phân tích thành phần độc lập (ICA) nằm trong số thuật toán máy họctrình bày lâu đời nhất [Herault and Ans, 1984; Jutten and Herault, 1991;Comon, 1994; Hyvärinen, 1999; Hyvärinen cùng các đồng sự., 2001a;Hinton cùng các đồng sự., 2001; Teh cùng các đồng sự., 2003] Đây là mộtcách tiếp cận đến cách mô hình hóa các nhân tố tuyến tính, từ đây chúng tatìm cách tách biệt tín hiệu được quan sát thành nhiều tín hiệu cơ bản(underlying signals) mà chúng được thu nhỏ và thêm vào với nhau trongđịnh dạng của dữ liệu được quan sát Những tín hiệu này thường được hướngđến như là hoàn toàn độc lập, hơn là chỉ đơn thuần tách biệt với nhau (Ghichú: xem thêm chương 3.8 để bàn luận về sự khác biệt giữa biến khôngtương quan và biến đọc lập)

Có nhiều phương pháp luận cụ thể khác được giới thiệu như là Phântích thành phần độc lập Biến thể phần lớn tương động với các Mô hình khảtạo khác, chúng tôi có diễn giải ở đây [Pham cùng các đồng sự., 1992] như

là một biến thể mà nó huấn luyện một Mô hình đa biến khả tạo đầy đủ Phân

phối của dự đoán trên các yếu tố cơ bản, p(h), phải được cố định trước thời hạn bởi người sử dụng Mô hình sau đó được tạo ra một các xác định x=Wh.

Chung có thể thực hiện một sự thay đổi không tuyến tính của các biến số (sử

dụng phương trình 3.47) để xác định p(x) Việc học sâu của mô hình sau đó

vận hành như thường lệ bằng cách sử dụng Hợp lý cực đại (Maximumlikelihood)

Sự giải bày cho cách tiếp cận này là việc chọn lựa p(h) sao cho độc

lập, chúng ta có thể lược lại các yếu tố cơ bản sao cho chúng càng độc lậpcàng tốt Trong phương thức cài đặt này, mỗi ví dụ huấn luyện là một thời

điểm, mỗi x i là một cảm biến quan sát của các tín hiệu hỗn loạn (mixed

dụ như, chúng ta có n người nói một cách đồng thời Nếu chúng ta có n cái

míc thu âm khác nhau đặt ở các vị trí khác nhau, Phân tích thành phần độc

Trang 8

lập (ICA) có thể nhận biết các sự thay đổi trong âm lượng giữa mỗi ngườinói, giống như như nghe được bằng mỗi míc thu âm và tách biệt các tín hiệu,

này được sử dụng rộng rãi trong Khoa học thàn kinh cho điện não đồ, mộtcông nghệ cho phép ghi lại các tín hiệu điện có nguồn gốc bên trong não.Nhiều các cảm biến điện tử được đặt trên đầu của đối tượng nghiên cứu dùng

để đo lường nhiều tín hiệu điện xuất phát từ cơ thể Người thực hiện thínghiệm thường chỉ quan tâm đến các tính nhiệu trong não, tuy nhiên các tínhhiệu từ tim và mắt của đối tượng cũng đủ mạnh để làm nhiễu các phép đo từ

da đầu của đối tượng Các tín nhiệu truyền đến các điện cực bị lẫn vào nhau,

vì vậy Phân tích thành phần độc lập (ICA) là cần thiết để phân tách các kýhiệu điện tử của tim từ các tín hiệu gốc của não, và phân tách các tín hiệucủa các vùng não khác nhau

Như đã đề cập đến trước đó, có nhiều biến thể của Phân tích thànhphần độc lập (ICA) là khả thi Một vài biến thể thêm vào một chút nhiễu

trong quá trình tạo ra x nhiều hơn việc sử dụng một bộ giải mã xác định.

Phần lớn không sử dụng tiêu chí của Hợp lí cực đại, nhưng thay vì nhắm đến

thành mục tiêu này Phương trình 3.47 yêu cầu lấy định thức (determinant)

của W, mà nó có thể là một hoạt động tốn kém và không ổn định về số

lượng Một vài biến thể của Phân tích thành phần độc lập (ICA) tránh đượcvấn đề trong hoạt động này bằng cách hạn chế hh trở thành trực giao

Tất cả các biến thể của Phân tích thành phần độc lập (ICA) đều yêu

cầu p(h) theo phân phối không Chuẩn (non-Gaussian) Điều này bởi vì nếu p(h) là một dự đoán độc lập với các thành phần Gaussian, thì p(W) là

không có thể nhận dạng được Chúng ta có thể đạt được phân phối giống

nhau bởi p(h) cho nhiều giá trị của W Điều này rất khác với những mô hình

tuyến tính nhân tử khác như là Mô hình có tính xác suất của phân tích thànhphần chính và Mô hình phân tích nhân tử, các mô hình này thường yêu

cầu p(h) theo phân phối Gaussian để thực hiện nhiều thao tác trên mô hình

có phương pháp giải xác định Trong các tiếp cận của Hợp lí cực đại, nơi màngười sử dụng xác định rõ ràng phân phối, một sự lựa chọn điển hình là sử

(non-Gaussian) có các đỉnh lớn hơn gần 0, hơn điều mà phân phối Gaussianlàm, thế nên chúng ta có thể xem phần lớn quá trình triển khai của Phân tíchthành phần độc lập (ICA) như là việc học các tính năng rải rác

Nhiều biến thể của Phân tích thành phần độc lập (ICA) thì không phải

là Mô hình có khả tạo (generative models) theo ngữ cảnh sử dụng theo cụm

từ Trong cuốn sách này, một Mô hình khả tạo hoặc là thể hiện p(h) hoặc có

Trang 9

thể lấy các mẫu từ đó Nhiều biến thể của ICA chỉ được biến như làm cách

nào để biến đổi giữa x và h nhưng không có cách nào để diễn tả p(h), và vì vậy không thể áp đặt một phân phối lên p(h) Ví dụ như, nhiều biến thể của

độ nhọn cao chỉ ra rằng p(h) là không Chuẩn, nhưng điều này được hoàn thành mà không cần một biểu diễn rõ ràng của p(h) Điều này bời vì ICA

thường được sử dụng nhiều như là một công cụ phân tích cho việc phân táchcác tín hiệu, hơn là cho việc tạo ra dữ liệu hoặc ước tính mật độ của nó

Giống như mô hình phân tích thành phần chính PCA có thể được tạonên từ bộ tự động giải mã phi tuyến tính, được để cập trong chương 14, ICA

có thể được tạo nên từ mô hình khả tạo phi tuyến tính, trong đó chúng ta sử

dụng một phương trình phi tuyến tính f để tạo nên dữ liệu quan sát Đọc

trong [Hyvärinen and Pajunen (1999)] cho nghiên cứu tiền đề của ICA phituyến tính và nó thành công trong việc sử dụng với việc học toàn thể nghiêncứu bởi [Roberts and Everson (2001)] và Lappalainen cùng các đồng sự.(2000) Một sự mở rộng về phi tuyến tính khác của ICA là các tiếp cận

của Ước lượng thành phần phi tuyến tính độc lập (nonlinear independent

components estimation), viết tắt NICE (Dinh cùng các đồng sự., 2014),phương pháp này ngăn cách một loạt các phép biến đổi ngược (các giai đoạn

mã hóa) với đặc tính rằng định thức của Jacobian cho mỗi biến đổi có thểđược tính toán một cách hiệu quả Điều này làm cho phương pháp này tínhtoán khả năng hơp lí chính xác, và giống như ICA, NICE cố gắng chuyển đổi

dữ liệu vào một không gian nơi mà nó có một phân phối khả biên (factorizedmarginal distribution), nhưng nó có nhiều khả năng thành công nhờ vào bộ

mã hóa phi tuyến tính Bởi vì bộ mã hóa được liến kết với một bộ giải mã,

mà nó là nghịch đảo hoàn hảo, thì việc tái tạo mẫu từ mô hình là không phứctạp (bằng lấy mãu đầu tiên từ p(h) và sau đó ứng dụng vào bộ giải mã)

Một cách khải quát khác của ICA là để học nhóm các tính năng, với sựthống kê phụ thuốc đã cho phép trong một nhóm nhưng không tán thànhgiữa các nhóm [Hyvärinen and Hoyer, 1999; Hyvärinen cùng các đồng sự.,2001b] Khi các nhóm của các đơn vị liên quan được chọn là không chồng

chéo, điều này được gọi là Phân tích không gian phụ độc lập (independent

subspace analysis) Nó cũng khả thi để gán tọa độ không gian lên mỗi đơn vị

ẩn và hình thành các nhóm chồng chéo của các không gian đơn vị lân cận.Điều này thúc đẩy những đơn vị lân cận học cùng tính năng Khi ứng dụng

trong hình ảnh tự nhiên, Phép tiếp cận đo vẽ địa hình ICA (topographic

ICA) học bộ lọc Gabor, sao cho các tính năng lân cân có cùng sự địnhhướng, vị trí hoặc tần số Nhiều giai đoạn lệch khác nhau của phương trìnhtương tự Gabor xuất hiện trong mỗi vùng, điều này gộp lại trên các vùng nhỏđem lại sự bất biến tịnh tiến

Trang 10

13.3 Phân tích đặc trưng chậm (Slow Feature Analysis)

Phân tích đặc trưng chậm (SFA) là một mô hình nhân tố tuyến tính sử

dụng thông tin từ các tín hiệu thời gian để học các đặc trưng bất biến(Wiskott và Sejnowski, 2002)

Phân tích đặc trưng chậm được thúc đẩy bởi một nguyên lý chung gọi

là nguyên lý chậm Ý tưởng của nguyên lý này là các đặc điểm quan trọngcủa cảnh vật thay đổi rất chậm so với các phép đo riêng mà tạo nên mô tả về

một cảnh Ví dụ, trong thị giác máy tính, giá trị điểm ảnh ( pixel) riêng lẻ có

thể thay đổi rất nhanh Nếu một con ngựa vằn di chuyển từ trái sang phảitrên từng ảnh, một điểm ảnh riêng lẻ sẽ nhanh chóng thay đổi từ màu đensang màu trắng và ngược lại khi các sọc của ngựa vằn trượt trên ảnh Bằngcách so sánh, các đặc trưng cho biết sự thay đổi về hình dạng và vị trí củangựa vằn thay đổi chậm Do đó, chúng ta mong muốn muốn kiểm soát

(regularize) mô hình của mình để học các đặc trưng thay đổi chậm theo thời

gian

Nguyên lý chậm trước đây là những phân tích đặc trưng chậm đã được

áp dụng cho nhiều loại mô hình (Hinton, 1989; Földiák, 1989; Mobahi và cộng sự, 2009; Bergstra và Bengio, 2009) Nói chung, nguyên lý chậm có thể được áp dụng cho bất kỳ một mô hình nào khả vi được huấn luyến với

phương pháp giảm dốc (gradient descent) Nguyên lý chậm có thể được giới

thiệu bằng cách thêm một thành phần vào hàm chi phí, thành phần này có dạng:

(13.7)

trong đó λ là siêu tham số xác định cường độ của thành phần kiểm soát chậm, t là chỉ số trong chuỗi thời gian của các mẫu, f là bộ trích xuất đặc trưng được kiểm soát hóa, và L là hàm tổn thất đo bởi khoảng cách giữa f(x t ) và f(x t+1 ) Thông thường hàm L thường được chọn là hàm khác

nhau trung bình bình phương (mean squared difference).

Phân tích đặc trưng chậm là một ứng dụng đặc biệt hiệu quả củanguyên lý chậm Phân tích này là hiệu quả vì nó được áp dụng cho một bộtrích xuất đặc trưng tuyến tính và do đó có thể được huấn luyện dưới dạngkhép kín Giống như một số biến thể của ICA, SFA về bản chất không hẳn làmột mô hình sinh mẫu, theo nghĩa là nó có một ánh xạ tuyến tính giữa khônggian đầu vào và không gian đặc trưng nhưng không xác định một tiền

Trang 11

nghiệm trên không gian đặc trưng và do đó không áp đặt một phân

bố p(x) trên không gian đầu vào.

Thuật toán SFA (Wiskott và Sejnowski, 2002) bao gồm việc định nghĩa một phép biến đổi tuyến tính f(x;θ)), sau đó giải quyết bài toán tối ưu

(13.8)thỏa mãn các ràng buộc:

Và:

(13.10)Ràng buộc mà đặc trưng được học có kỳ vọng bằng không là cần thiết

để làm cho bài toán có một kết quả (lời giải) duy nhất; nếu đặc trưng đượchọc không có kỳ vọng bằng không thì chúng cần được chuẩn hóa bằng cáchcộng một hằng số vào tất cả các giá trị của đặc trưng, bằng cách làm nhưvậy, ta sẽ nhận được một lời giải khác nhưng có giá trị tương ứng của hàmmục tiêu chậm Ràng buộc mà các đặc trưng phương sai đơn vị là cần thiết

để ngăn chặn các lời giải không tốt (pathological solution), khi mà các đặc

trưng tiến dần về 0 Giống như PCA, các đặc trưng SFA được sắp xếp, vớiđặc trưng đầu tiên là chậm nhất Để học nhiều đặc trưng, chúng ta phải thêmràng buộc:

(13.11)Điều này chỉ ra rằng các đặc trưng đã học phải là bất tương quan tuyếntính với nhau Không có ràng buộc này, tất cả các đặc trưng đã học chỉ đơngiản bắt một tín hiệu chậm nhất Người ta có thể nghĩ về việc sử dụng các cơchế khác, chẳng hạn như giảm thiểu lỗi tái tạo, để buộc các đặc trưng đadạng hóa, nhưng cơ chế bất tương quan này thừa nhận một giải pháp đơngiản do tính tuyến tính của các đặc trưng SFA Bài toán SFA có thể đượcgiải quyết dưới dạng khép kín bởi bằng cách sử dụng đại số tuyến tính

SFA thường được sử dụng để học các đặc trưng phi tuyến bằng cách

áp dụng một mở rộng của cơ sở phi tuyến cho x trước khi chạy SFA Ví

dụ, x thường được thay thế với phép mở rộng cơ sở bậc hai, một vector chứa

xếp để học các bộ trích xuất đặc trưng chậm phi tuyến sâu bằng cách thựchiện lặp đi lặp lại: việc học một bộ trích xuất đặc trưng SFA tuyến tính, áp

Trang 12

dụng một phép mở rộng cơ sở phi tuyến cho đầu ra của nó, và sau đó họcmột bộ trích xuất đặc trưng SFA tuyến tính khác ở trên phần mở rộng đó.

Khi được huấn luyện trên các cửa sổ (patch) không gian nhỏ được

trích xuất từ video về cảnh thiên nhiên, SFA với các phép mở rộng cơ sở bậchai sẽ học các đặc trưng, các đặc trưng này có nhiều đặc điểm giống với các

tế bào phức tạp ở tiểu vùng V1 của vỏ não (Berkes và Wiskott, 2005) (ND:Tiểu vùng V1 của vỏ não là vùng thị giác sơ cấp (primary visual cortex),nằm ở thùy chẩm (vùng phía sau, trên gáy của vỏ não) Những tế bào thuộcV1 sẽ nhận và xử lý các kích thích thị giác, làm cho con người có cảm giácánh sáng, màu sắc, độ sâu của cảnh vật) Khi được huấn luyện trên các videovới chuyển động ngẫu nhiên trong các môi trường máy tính kết xuất đồ họa3-D, các tầng sâu của SFA sẽ học các đặc trưng, các đặc trưng này có nhiềuđặc điểm giống với các đặc trưng được biểu diễn bởi các tế bào thần kinhtrong bộ não chuột được sử dụng để điều hướng (Franzius cùng các đồngsự., 2007) Do đó, SFA có vẻ là một mô hình sinh học hợp lý đáng tin cậy

Ưu điểm chính của SFA là có thể dự đoán về mặt lý thuyết các đặctrưng mà SFA sẽ học, ngay cả trong cài đặt phi tuyến sâu Để đưa ra những

dự đoán lý thuyết như vậy, mô hình phải xác định được tính động của môitrường về mặt không gian biểu trưng (ví dụ, trong trường hợp chuyển độngngẫu nhiên trong môi trường kết xuất 3-D, phân tích lý thuyết này thu được

từ kiến thức về phân bố xác suất theo vị trí và vận tốc của máy ảnh) Nếu

biết các kiến thức về cách các yếu tố ẩn (underlying factors) thực sự thay đổi

như thế nào, ta có thể giải quyết bằng cách phân tích cho các hàm tối ưu thểhiện các yếu tố này Trong thực tế, các thí nghiệm với SFA sâu được ápdụng cho dữ liệu mô phỏng dường như để phục hồi các chức năng được dựđoán theo lý thuyết So với các thuật toán học khác, trong đó hàm chi phíphụ thuộc rất cao vào các giá trị điểm ảnh đặc biệt, thì điều này (việc phụchồi các chức năng được dự đoán theo lý thuyết) làm cho SFA sâu trở nênkhó khắn hơn trong việc xác định các đặc trưng mà mô hình sẽ học

Các tầng sâu của SFA cũng đã được sử dụng để học các đặc trưng choviệc nhận dạng đối tượng và ước lượng hình dáng (Franzius và cộng sự,2008) Cho đến nay, nguyên lý chậm không trở thành cơ sở cho bất kỳ ứngdụng hiện đại nào Không rõ yếu tố nào đã hạn chế hiệu suất của nó Chúngtôi suy đoán rằng, có lẽ tiền nghiệm chậm quá mạnh, và, thay vì áp đặt mộttiền nghiệm có đặc trưng là hằng số xấp xỉ, ta nên áp đặt một tiền nghiệm cóđặc trưng dễ dự đoán từ bước này tới bước tiếp theo Vị trí của một đốitượng là một đặc trưng hữu ích bất kể tốc độ của vật thể cao hay thấp, nhưngnguyên tắc chậm lại khuyến khích mô hình bỏ qua vị trí của vật thể có vậntốc cao

Trang 13

13.4 Mã hóa thưa (Sparse Coding)

Mã hóa thưa (Olshausen và Field, 1996) là một mô hình nhân tử tuyến

tính đã nghiên cứu rất nhiều dưới các dạng học không giám sát và trích rútđặc trưng Nói một cách chính xác, thuật ngữ “mã hóa thưa” ám chỉ quátrình suy luận giá trị của hh trong mô hình này Trong khi đó, “mô hìnhthưa” đề cập đến quá trình thiết kế và học của mô hình Tuy vậy, thôngthường thuật ngữ “mã hóa thưa” thường được sử dụng chung cho cả hai

Giống như hầu hết các mô hình nhân tử tuyến tính khác, mã hóa thưa

sử dụng một bộ giải mã tuyến tính gồm cả nhiễu để tái tạo lại x, như được

chỉ ra ở biểu thức 13.2 Cụ thể hơn, các mô hình mã hóa thưa thường giảđịnh rằng các yếu tố tuyến tính có nhiễu Gauss với độ chính xác đẳng

hướng β:

(13.12)

Phân bố p(h) được chọn là một với các đỉnh nhọn gần 0

(Olshausenand Field, 1996) Các lựa chọn phổ biến thường là phân bốLaplace, phân bố Cauchy hoặc phân bố factorized Student Ví dụ, tiền

nghiệm (prior) Laplace được tham số hóa theo nghĩa hệ số phạt thưa α được

cho bởi:

(13.13)

và tiền nghiệm của phân bố t-student được cho bởi:

(13.14)

Huấn luyện mã hóa thưa bằng độ hợp lý cực đại (maximum likelihood)

là không thể Thay vào đó, huấn luyện luân phiên giữa mã hóa dữ liệu và học

bộ giải mã để tái tạo lại tốt hơn các dữ liệu cho mã hóa Cách tiếp cận này sẽ

được đánh giá chi tiết như là một sấp xỉ theo nguyên tắc (principled

approximation) tới độ hợp lý cực đại trong phần 19.3.

Đối với các mô hình như PCA, chúng ta đã thấy việc sử dụng hàm mã

hóa tham số mà dự đoán chỉ h và chỉ gồm phép nhân với một ma trận trọng

số Bộ mã hóa mà chúng tôi sử dụng với mã hóa thưa không phải là một bộ

mã hóa tham số Thay vào đó, bộ mã hóa một thuật toán tối ưu hóa, bộ mãhóa này giải quyết vấn đề tìm kiếm giá trị đơn như giống với giá trị mã:

Trang 14

(13.15)

Khi kết hợp với biểu thức 13.13 và 13.12, ta nhận được bài toán tối ưunhư sau:

trong đó chúng ta đã loại bỏ các thành phần không phụ thuộc vào h và đơn

giản hóa phương trình bằng cách chia cho các hệ số chuẩn hóa dương

(positive scaling factors).

Do sự xuất hiện của chuẩn L 1 trong h, thủ tục này sẽ đưa ra

Để huấn luyện mô hình thay vì chỉ thực hiện suy luận, chúng ta thực

hiện luân phiên giữa quá trình cực tiểu với h và cực tiểu với W Trong biểu diễn này, chúng ta xem β như là một siêu tham số Thông thường tham số

này được gán bằng 1 vì vai trò của nó trong bài toán tối ưu này được chia sẻ

với λ, và không cần thiết sử dụng cả hai siêu tham số Về nguyên tắc, chúng

ta cũng có thể coi β như là một tham số của mô hình và tìm học tham số này.

Trong phần này, chúng tôi đã loại bỏ một số thành phần mà không phụ thuộc

vào h nhưng vẫn phục thuộc vào β Để học tham số β, phải giữ các thành phần (không phụ thuộc vào h nhưng vẫn phục thuộc vào β) trong hàm mục tiêu, nếu không β sẽ tiến dần về 0.

Không phải tất cả các phương pháp tiếp cận mã hóa thưa đều xây

dựng p(h) và p(x|h) một cách rõ ràng Thông thường, chúng ta chỉ quan tâm

đến việc học từ điển của các đặc trưng với các giá trị kích hoạt thường bằngkhông khi được trích xuất bởi quy trình suy luận này

Nếu chúng ta lấy mẫu từ một tiền nghiệm Laplace, thì thực tế là một

sự kiện xác suất bằng không cho một phần tử của h thực sự bằng không Bản

thân các mô hình sinh mẫu không phải là thưa; chỉ bộ trích chọn đặc trưngmới là thưa Goodfellow cùng các đồng sự (2013d) mô tả suy diễn xấp xỉtrong một họ mô hình khác, đó là mô hình mã hóa thưa spike và spab, trong

đó các mẫu từ tiền nghiệm thường chứa true zeros

Trang 15

Cách tiếp cận mã hóa thưa kết hợp với việc sử dụng bộ mã hóa khôngtham số về nguyên tắc có thể giảm thiểu sự kết hợp của lỗi tái tạo và log của

tiền nghiệm (log-prior) nhiều hơn so với bất kỳ bộ mã hóa tham số nào Một

lợi thế khác của cách tiếp cận này là bộ mã hóa không có lỗi tổng quát hóa

Một bộ mã hóa tham số phải học cách ánh xạ x tới h theo cách tổng quát hóa Đối với các bất thường x mà không giống với dữ liệu huấn luyện, một

bộ mã hóa tham số đã được học có thể có lỗi khi tìm giả thuyết h cung cấp

tái tạo chính xác hoặc một mã hóa thưa Đối với đại đa số các công thức của

mô hình mã hóa thưa, trong đó bài toán suy diễn là lồi, việc tối ưu hóa luôn

là tìm mã tối ưu (trừ khi các trường hợp suy biến như xảy ra việc thay thếvectơ trọng số) Rõ ràng, chi phí tái tạo và tính thưa có thể tăng trên cácđiểm không quen thuộc, nhưng điều này là do lỗi tổng quát trong trọng sốcủa bộ giải mã, chứ không phải lỗi tổng quát trong bộ mã hóa Việc thiếu lỗitổng quát hóa trong quá trình mã hóa dựa trên tối ưu hóa của mã hóa thưa cóthể mang lại kết quả tổng quát hoát tốt hơn khi mã hóa thưa được sử dụngnhư là một bộ trích chọn đặc trưng cho bộ phân lớp hơn là khi một hàm tham

số được sử dụng để dự đoán mã đó Coates và Ng (2011) đã chứng minhrằng các đặc trưng của mã hóa thưa tổng quát hóa các nhiệm vụ nhận dạngđối tượng tốt là các đặc trưng của một mô hình liên quan dựa trên bộ mã hóatham số, bộ mã hóa tự động với hàm tuyến tính và chữ S Lấy cảm hứng từkết của của Coate và Ng, Goodfellow và cộng sự (2013d) đã chỉ ra rằng mộtbiến thể của mã hóa thưa tổng quát hóa tốt hơn các bộ trích chọn đặc trưngkhác trong trường hợp có ít nhãn (mỗi lớp có 20 nhãn hoặc ít hơn)

Nhược điểm chính của bộ mã hóa không tham số là bộ mã hóa này đòi

hỏi nhiều thời gian để tính toán giả thuyết h khi cho x bởi vì phương pháp

tiếp cận không tham số được giải quyết bằng thuật toán lặp Cách tiếp cận bộ

tự mã hóa tham số, được trình bày cụ thể ở chương 14, chỉ sử dụng một sốlớp cố định, thường chỉ có một lớp Một nhược điểm khác là không đơn giản

để thực hiện lan truyền ngược thông qua bộ mã hóa không tham số, điều nàygây khó khăn trong việc tiền huấn luyện một mô hình mã hóa thưa với tiêu

chuẩn không giám sát và sau đó tinh chỉnh (fine-tune) bộ mã hóa này bằng

cách sử dụng một tiêu chuẩn giám sát Có tồn tại các biến thể của mã hóathưa mà cho phép các tính đạo hàm bằng phương pháp xấp xỉ, nhưng cácbiến thể này không được sử dụng rộng rãi (Bagnell và Bradley, 2009)

Mã hóa thưa, giống như các mô hình nhân tử tuyến tính khác, thườngtạo ra các mẫu kém, như được chỉ ra trong hình 13.2 Điều này xảy ra ngay

cả với mô hình có thể tái tạo lại dữ liệu tốt và cung cấp các đặc trưng hữuích cho một bộ học Lý do là mỗi đặc trưng riêng biệt có thể được học tốt,

nhưng thừa số tiền nghiệm (factorial prior) trên các mã ẩn trả về mô hình

bao gồm các tập con ngẫu nhiên của tất cả các đặc trưng trong mỗi mẫuđược tạo ra Điều này thúc đẩy sự phát triển của các mô hình sâu hơn

Trang 16

(deeper model) mà có thể đặt vào một phân bố phi thừa số (nonfactorial

distribution) trên lớp mã sâu nhất, cũng như sự phát triển của các mô hình

nông (shallow model) phức tạp hơn.

Hình 13.2: Ví dụ về mẫu dữ liệu và trọng số từ mô hình mã hóa thưa spike

và slab được huấn luyện trên bộ dữ liệu MNIST Hình bên trái mô tả các mẫu từ mô hình, các mẫu này không tương đồng với các ví dụ huấn luyện Thoạt nhìn, có vẻ mô hình này không được tốt Hình bên phải minh họa các vecto trọng số của mô hinh, các trọng số này đã học được để đại diện cho nét chữ và đôi khi là chữ số hoàn chỉnh Do đó, mô hình đã học được các đặc trưng hữu ích Vấn đề là tiền nghiệm thừa số trên các đặc trưng cho kết quả là các tập con ngẫu nhiên khi kết hợp các đặc trưng Rất ít các tập hợp con đủ để tạo thành một chữ số MNIST dễ nhận biết Điều này thúc đẩy sự phát triển của các mô hình sinh mẫu mà có các phân bố mạnh hơn trên các

mã ẩn của các mô hình này Hình này được tạo lại với sự cho phép của Goodfellow và cộng sự (2013d).

13.5 Thể hiện đa tạp của PCA

Các mô hình nhân tử tuyến tính bao gồm PCA và phân tích nhân tử cóthể được hiểu như là học một đa tạp (Hinton và cộng sự, 1997) Chúng ta cóthể xem xác suất PCA (định nghĩa một vùng có hình bánh kếp mỏng với xácsuất cao) là một một phân bố Gauss hẹp dọc theo một số trục (giống nhưbánh kếp rất phẳng dọc trục tung của nó), nhưng được kéo dài dọc theo cáctrục khác (giống như bánh kếp rất rộng theo trục hoành) Điều này đượcminh họa như trong hình 13.3 PCA có thể được hiểu là sắp xếp miếng bánh

Trang 17

kếp này với với một đa tạp tuyến tính trong một không gian với nhiều chiềuhơn Việc hiểu (giải nghĩa) này không chỉ áp dụng với PCA truyền thống màcòn cho bất kỳ bộ mã hóa tự động tuyến tính nào học các ma

trận W và V với mục đích tái tạo lại x sao cho bản tái tạo này nằm gần x nhất có thể.

Coi bộ mã hóa là:

h = f(x) = W⊺(x−μ).) (13.19)

Bộ mã hóa tính một biểu diễn với số chiều nhỏ của h Dưới góc nhìn của bộ

mã hóa tự động, chúng ta có một bộ giải mã tính toán bản tái tạo của x:

(13.20)Các lựa chọn về bộ mã hóa và giải mã tuyến tính mà cực tiểu lỗi tái tạo:

(13.21)

tương ứng với V=W, μ).=b=E[x] và các cột của W tạo nên một cơ sở trực

giao, mà trải rộng cùng không gian con giống như các vecto riêng cơ sở của

ma trận hiệp phương sai:

C = E[(x−μ).)(x−μ).)⊺] (13.22)

Trong trường hợp của PCA, các cột của W là những vecto riêng của

chúng, được sắp xếp theo độ lớn của các giá trị riêng tương ứng (các giá trịriêng này là số thực và không âm)

sai của x theo hướng của vector riêng v (i)

(chọn μ, b, V và W như trên) là:

(13.23)

Do đó, nếu ma trận hiệp phương sai có bậc d, các giá trị riêng λ d+1 tới λ D là 0 và lỗi tái tạo cũng là 0

Trang 18

Hình 13.3: Biểu diễn Gausian phẳng chỉ ra sự tập trung xác suất gần một đa tạp với số chiều thấp Hình này chỉ ra nửa trên của “bánh kếp” nẳm phía trên “ mặt phẳng đa tạp”, mặt phẳng đa tạp này cắt ngang miếng bánh kếp Phương sai theo hướng trực giao với đa tạp rất nhỏ( mũi tên hướng ra khỏi mặt phẳng) và có thể được coi là “nhiễu”, trong khi các phương sai khác lớn( mũi tên trên mặt phẳng) và tương ứng với “tín hiệu” và với hệ tọa độ với dữ liệu được giảm chiều

Hơn nữa, người ta cũng có thể chỉ ra rằng giải pháp trên có thể thu

được bằng cách cực đại các phương sai các phần tử của h, dưới trực giao W,

thay vì tối thiểu lỗi tái tạo

Mô hình nhân tử tuyến tính là một số mô hình sinh mẫu đơn giản nhất

và một số mô hình đơn giản nhất trong việc học cách biểu diễn dữ liệu.Giống như các mô hình hồi quy tuyến tính và phân lớp tuyến tính có thể

được mở rộng thành các mạng lan truyền thuận sâu (deep feedforward

network), các mô hình nhân tử tuyến tính này có thể được mở rộng thành các

mạng mã hóa tự động và mô hình xác suất sâu (deep probabilistic model),

các mô hình này cùng thực hiện các nhiệm vụ giống nhau nhưng chúng là họcác mô hình có khả năng và tính linh hoạt cao

Trang 19

CHƯƠNG 14: BỘ TỰ MÃ HOÁ

Một bộ tự mã hóa (Autoencoder) là một mạng neuron được huấn luyện

để đầu ra có thể sao chép đầu vào của nó Ở bên trong, mạng này có một lớp

ẩn (hidden layer) hh mô tả một đoạn mã hoá (code) dùng để biểu diễn đầu

vào Loại mạng này được cấu tạo bởi hai phần: một hàm mã hóa h=f(x) và một hàm giải mã để tái thiết lại r=g(h) Cấu trúc này được thể hiện trong

hình 14.1 Nếu một bộ tự mã hóa chỉ đơn giản là tái thiết lập

hàm g(f(x))=x chính xác tại mọi điểm, thì mạng này xem ra không có ý nghĩa

gì Thay vào đó, các bộ tự mã hoá được thiết kế để chúng không thể họcđược cách sao chép một cách nguyên vẹn Thông thường, chúng bị giới hạntrong những phương pháp cho phép chúng sao chép giá trị chỉ ở mức xấp xỉ

và chỉ sao chép được tốt những đầu vào giống với dữ liệu huấn luyện Bởi vì

mô hình buộc phải ưu tiên những khía cạnh nên được sao chép của đầu vào,

nó thường học những thuộc tính hữu ích của dữ liệu

Bộ tự mã hóa hiện đại đã khái quát hóa ý tưởng của một bộ mã hóa vàmột bộ giải mã vượt ra khỏi các hàm tất định đến các ánh xạ ngẫu

nhiên p encoder (h|x) và p decoder (x|h).

Ý tưởng của bộ tự mã hóa đã trở thành một phần lịch sử của mạngneuron trong nhiều thập kỉ (LeCun, 1987; Bourlard and Kamp, 1988; Hintonand Zemel, 1994) Thông thường các bộ tự mã hóa được dùng cho nhiệm vụgiảm chiều dữ liệu (dimentional reduction) hay học đặc trưng (featurelearning) Gần đây, các sự kết nối về mặt lý thuyết giữa bộ tự mã hóa và các

mô hình biến tiềm ẩn đã đưa bộ tự mã hóa lên vị trí tiên phong cho mô hìnhhoá sinh dữ liệu, như chúng ta sẽ thấy ở chương 20 Bộ tự mã hóa có thểđược xem như là trường hợp đặc biệt của mạng lan truyền thuận(feedforward networks) và có thể sử dụng tất cả các kỹ thuật tương tự đểhuấn luyện, điển hình là trượt gradient theo lô nhỏ (minibatch gradientdescent) với các gradient được tính bởi thuật toán lan truyền ngược (back-propagation) Không giống như những mạng lan truyền thuận thông thường,

bộ tự mã hóa cũng có thể được huấn luyện bằng cách sử dụng sự tuần

hoàn (recirculation) (Hinton and McClelland, 1988), một thuật toán học dựa

trên việc so sánh về những sự kích hoạt (activations) của mạng trên đầu vàogốc với những sự kích hoạt trên đầu vào sau khi đã được xây dựng lại Sựtuần hoàn được đánh giá là hợp lý hơn về mặt sinh học so với lan truyềnngược nhưng nó hiếm khi được sử dụng cho các ứng dụng học máy

Trang 20

Hình 14.1: Cấu trúc chung của một bộ tự mã hóa, ánh xạ một đầu vào x tới một đầu ra (gọi là tái thiết) r thông qua một biểu diễn nội tại, hay đoạn mã hoá h Bộ tự mã hóa có hai thành phần: bộ mã hóa f (ánh xạ từ x tới h) và

bộ giải mã g (ánh xạ từ h tới r).

14.1 Bộ mã hóa dưới mức (Undercomplete Autoencoders)

Việc sao chép đầu vào ở đầu ra nghe có vẻ vô nghĩa, nhưng thường thìchúng ta không quan tâm đến đầu ra của phần giải mã Thay vào đó, chúng

ta hi vọng rằng việc huấn luyện bộ tự mã hóa để thực hiện tác vụ sao chép

đầu vào sẽ giúp h chiết xuất được những thuộc tính hữu ích từ x.

Một cách để thu thập các đặc trưng hữu ích từ bộ tự mã hóa là

buộc h phải có số chiều nhỏ hơn x Một bộ tự mã hóa với chiều của đoạn mã

hoá nhỏ hơn chiều của đầu vào được gọi là dưới mức (undercomplete) Học

một biểu diễn với số chiều nhỏ hơn buộc bộ tự mã hóa phải chiết xuất đượcnhững đặc điểm nổi bật nhất về dữ liệu huấn luyện

Quá trình học có thể được mô tả đơn giản là việc cực tiểu hoá mộthàm mất mát

L(x, g(f(x))) (14.1)

trong đó L là một hàm mất mát trừng phạt khi g(f(x)) khác với x, ví dụ như hàm

sai số trung bình bình phương (mean squared error)

Khi bộ giải mã là tuyến tính và L là hàm sai số trung bình bình

phương, một bộ mã hóa dưới mức học cách mở rộng không gian con giốngkhông gian con của PCA.Trong trường hợp này, bộ tự mã hóa được huấnluyện để thực hiện nhiệm vụ sao chép đã học được chiều không gian conchính (principal subspace) của dữ liệu huấn luyện như một hiệu ứng phụ

Trang 21

Bộ tự mã hóa với hàm mã hóa phi tuyến tính f và hàm giải mã phi tuyến tính g có thể học được sự tổng quát phi tuyến tính mãnh mẽ hơn của

PCA Không may là nếu bộ mã hóa và bộ giải mã được cho cấp cho mộtdung lượng quá lớn, bộ tự mã hóa có thể học thực hiện nhiệm vụ sao chép

mà không trích xuất bất kì thông tin hữu nào về sự phân phối của dữ liệu Về

lý thuyết, chúng ta có thể tưởng tượng rằng một bộ tự mã hoá với lớp ẩn chỉmột chiều nhưng có một bộ mã hóa phi tuyến tính mạnh mẽ có thể học cách

học cách ánh xạ những con số mã code này thành những giá trị của ví dụluyện tập tương ứng Trường hợp này tuy không xảy ra trong thực tế, nhưng

nó là một gợi ý rõ ràng cho vấn đề một bộ tự mã hoá được huấn luyện chonhiệm vụ sao chép có thể sẽ thất bại trong việc học một thông tin hữu ích bất

kì về tập dữ liệu nếu bộ tự mã hoá này đươc cấp cho một dung lượng quálớn

14.2 Bộ mã hóa có kiểm soát (Regularized Autoencoders)

Bộ mã hóa dưới mức với số chiều mã hoá nhỏ hơn số chiều của đầuvào có thể học những đặc trưng nổi bật nhất về phân phối của dữ liệu Chúng

ta đã thấy những bộ tự mã hóa thất bại khi học những thứ hữu ích nếu bộ mãhóa và giải mã được cấp một dung lượng quá lớn

Vấn đề tương tự cũng xảy ra trong trường hợp đoạn mã hoá có số

chiều bằng hoặc lớn hơn số chiều của đầu vào, như trong trường hợp vượt

mức (overcomplete) Trong những trường hợp này, ngay cả bộ mã hóa tuyến

tính và bộ giải mã tuyến tính cũng có đủ khả năng để học cách sao chép dữliệu vào đầu ra mà không cần học bất kỳ điều gì hữu ích về việc phân phốicủa dữ liệu

Lý tưởng nhất là chúng ta có thể huấn luyện thành công bất kì kiếntrúc của bộ tự mã hóa nào, được tuỳ ý chọn kích thước của đoạn mã hoá,dung lượng của bộ mã hóa và giải mã dựa trên độ phức tạp của tập dữ liệu

Bộ mã hóa có kiểm soát cung cấp khả năng để thực hiện ý tưởng này Thay

vì hạn chế dung lượng của mô hình bằng việc giữ bộ mã hóa và giải mãkhông sâu (shallow) và kích thước đoạn mã hoá nhỏ, bộ tự mã hóa có kiểmsoát dùng một hàm mất mát khuyến khích mô hình đồng thời có được nhữngtính chất khác bên cạnh khả năng sao chép đầu ở sang đầu ra của nó Cáctính chất khác này bao gồm sự thưa thớt của lớp biểu diễn, độ nhỏ của đạohàm ở lớp biểu diễn và mức độ ổn định đối với nhiễu hoặc đầu vào bị bỏqua Một bộ tự mã hóa có kiểm soát có thể là phi tuyến tính và vượt mứcnhưng vẫn có thể học một số thông tin hữu ích từ dữ liệu, thậm chí nếu dunglượng của mô hình đủ lớn để có thể học được một hàm đồng nhất thôngthường

Trang 22

Ngoài các phương pháp được miêu tả ở trên, những phương pháp cóthể nói là dễ suy ra nhất khi nói về bộ tự giải mã có kiểm soát, gần như bất

kì mô hình sinh mẫu nào có biến tiềm ẩn và được trang bị một bộ thiết lậpsuy luận (inference procedure) (để tính toán lớp biểu diễn tiềm ẩn khi biếtđầu vào) cũng được xem là một dạng của bộ tự mã hóa Hai hướng tiếp cận

mô hình sinh mẫu nhấn mạnh sự liên quan với bộ tự mã hóa, cùng kaf kếnhiệm từ máy Helmholtz(Hinton et al, 1995b), là bộ mã hóa biến thiên (phần20.10.3) và mạng sinh mẫu ngẫu nhiên (phần 20.12) Những mô hình nàymột cách tự nhiên học những bộ mã hóa vượt mức, có dung lượng cao từ đầuvào mà không yêu cầu cơ chế kiểm soát nào để quá trình mã hoá trở nên cóích Những bộ mã hóa của chúng tự nhiên đã hữu dụng bởi vì những mô hìnhnày đã được huấn luyện để làm tăng tối đa xác xuất của dữ liệu huấn luyệnthay vì việc sao chép đầu vào thành đầu ra

14.2.1 Bộ tự mã hóa thưa (Sparse Autoencoders)

Một bộ tự mã hóa thưa đơn giản là một bộ mã hóa mà những tiêu

chuẩn huấn luyện của nó liên quan đến một hình phạt thưa Ω(h) tại lớp mã hoá h, sai số tái tạo lại được biểu diễn:

đã được huấn luyện thay vì chỉ thực hiện một hàm đồng nhất đơn giản Với cách này, việc huấn luyện để thực hiện tác vụ sao chép với một phạt thưa có thể tạo ra một mô hình học tập đặc trưng hữu ích như là một sản phẩm phụ (byproduct)

Chúng ta có thể xem hình phạt Ω(h) này đơn giản như một số hạng

kiểm soát được thêm vào một mạng lan truyền tiến mà nhiệm vụ ban đầu của

nó là sao chép đầu vào sang đầu ra(mục tiêu học không giám sát) và cũng có thể thực hiện một vài nhiệm vụ có giám sát(với một mục tiêu học có giám sát) dựa trên những đặc trưng thưa xem chiết xuất được Không giống như những cơ chế kiểm soát hác như suy giảm trọng số(weight decay), không có một cách giải thích Bayesian nào làm sáng tỏ hàm kiểm soát này Như miêu

tả trong phần 5.6.1, huấn luyện theo kiểu suy giảm trọng số và các hình phạt

kiểm soát khác có thể được giải thích như là một xấp xỉ MAP (MAP

approximation) trong hướng tiếp cận Bayesian, với những hình phạt được thêm vào tương ứng với một phân bố xác suất tiên nhiệm về các tham số của

Trang 23

mô hình Ở góc nhìn này, hợp lí cực đại có kiểm soát tương ứng với cực đại

của p(θ|x), có giá trị tương đương với cực đại của log p(x|θ) + log p(θ) Khái niệm log p(x|θ) là khái niệm hàm logarit hợp lí dữ liệu thông thường và khái niệm p(θ), logarit tiên nghiệm về tham số, kết hợp chặt chẽ với giá trị cụ thể của θ Góc nhìn này đã được đề cập ở phần 5.6 Rất khó để có một cách giải

thích tương tự về bộ tự mã hóa có kiểm soát bởi vì bộ chuẩn hóa hoàn toàn dựa trên dữ liệu cho nên không thể định nghĩa như là một tiên nghiệm theo đúng ý nghĩa mà từ này mô tả Chúng ta vẫn có thể xem số hạng kiểm soát như là một sự biểu thị ngầm định một sự ưu tiên giữa các hàm

Thay vì xem phạt thưa(sparsity penalty) như một bộ kiểm soát cho nhiệm vụ sao chép, chúng ta có thể nghĩ bộ khung đầy đủ của bộ tự mã hóa thưa như là dạng huấn luyện xấp xỉ cực đại của một mô hình sinh mẫu có

biến tiềm ẩn Giả sử chúng ta có một mô hình với biến có thể nhìn thấy x và biến tiềm ẩn h, với một phân phối đồng

thời pmodel(x,h) = pmodel(h)pmodel(x|h) Chúng ta xem pmodel(h) như là

phân phối tiên nghiệm của mô hình về các biến tiềm ẩn, biểu diễn kiến thức

nền của mô hình trước khi nhìn thấy biến x Cách hiểu này khác với cách

chúng ta đã từng dùng trước đó với từ “tiền nghiệm” (prior) để chỉ phân

phối p(θ) mã hóa các niềm tin của chúng ta về những tham số của mô hình

trước khi nhìn thấy dữ liệu huấn luyện Hàm hợp logarit có thể được phân tích như hình dưới đây:

Chúng ta có thể xem bộ tự mã hóa như là giá trị xấp xỉ của tổng này với một

ước lượng điểm cho mỗi giá trị có khả năng cao là h Điều này tương tự với mô

hình mã hóa sinh mẫu thưa (sparse coding generative model)(phần 13.4),

nhưng h lại là đầu ra của bộ mã hóa tham số thay vì là kết quả của một bộ tối ưu suy luận giá trị h có khả năng cao nhất (the most likely h) Từ góc nhìn này, với việc chọn h, chúng ta tối đa:

logpmodel(h.x) − logpmodel(h) + log(x|h) (14.4)

Chỉ số log pmodel(h) có thể là chỉ số làm thưa (sparsity inducing) Ví dụ,

Lapalce prior:

tương ứng với một giá trị phạt thưa tuyệt đối Biểu diễn logarit tiên nghiệm

Trang 24

thành một mức phạt tuyệt đối, chúng ta có

hằng số chỉ phụ thuộc vào λ, không phụ thuộc vào h Chúng ta xem λ như là

một siêu tham số và bỏ phần hằng số vì nó không ảnh hưởng gì đến việc học

tham số Những kiểu tiên nghiệm khác như là số hạng tiên nghiệm Student cũng

có thể gây ra sự thưa thớt Đối với góc nhìn về sự thưa thớt này như là kết quả

từ ảnh hưởng của pmodel(h) lên việc học xấp xỉ hợp lí cực đại, mức phạt thưa

không còn là một số hạng kiểm soát nữa Nó chỉ đơn giản là một hệ quả từ sự phân phối những bíến ẩn của nó của mô hình Góc nhìn này cung cấp một động lực thúc đẩy khác cho việc huấn luyện một bộ tự mã hóa: đó là một cách của huấn luyện xấp xỉ mô hình sinh mẫu Nó đồng thời cũng cung cấp một lí do khác cho câu hỏi vì sao những đặc trưng học được bởi bộ tự mã hóa là hữu ích: những mô tả từ biến ẩn giải thích cho đầu vào

Những công trình đầu tiên về bộ tự mã hóa thưa (Ranzato et al,

2007a, 2008) đã khám phá ra rất nhiều dạng của sự thưa thớt và đưa ra một

kết nối giữa phạt thưa và chỉ số logarit Z xuất hiện khi sử dụng hợp lí cực

việc làm tối thiểu chỉ số logarit Z có thể giúp tránh tạo ra một mô hình xác

xuất có xác xuất cao ở mọi nơi, và việc ép tính thưa thớt xảy ra trên một bộ

tự mã hóa giúp bộ tự mã hóa này tránh được tình huống mức sai số tái thiết ởmọi đầu vào đều thấp Trong trường hợp này, mối liên hệ giữa 2 chỉ số trên được hiểu ở cấp độ hiểu trực giác về cơ chế hoạt động chung hơn là một biểudiễn toán học Sự giải thích của phạt thưa dưới dạng chỉ số

logarit pmodel(h) tương ứng trong một mô hình có hướng pmodel(h)

pmodel(x|h) thì cụ thể hơn về mặt toán học.

Một cách để đạt được những giá trị 0 hoàn toàn (actual zeros)

trong h cho bộ tự mã hóa thưa (và giảm nhiễu) được giới thiệu trong Glorot

và cộng sự (2011b) Ý tưởng ở bài báo này là sử dụng những bộ chỉnh lưu tuyến tính để tạo ra lớp mã hoá Với một tiên nghiệm (prior) có khả năng chuyển những sự biểu diễn về 0 (như giá trị phạt tuyệt đối đã nhắc đến), mô hình tự mã hoá này có thể gián tiếp điều khiển số lượng trung bình những giá trị 0 xuất hiện trong lớp biểu diễn

Trang 25

14.2.2 Bộ tự mã hóa khử nhiễu (Denoising Autoencoders)

Thay vì thêm một mức phạt Ω vào hàm chi phí, chúng ta có thể thu

được một bộ tự mã hóa có thể học những thứ hữu ích bằng cách thay đổiphần sai số tái thiết trong hàm chi phí

Như thường lệ, bộ tự mã hoá cực tiểu hoá một hàm:

Trong đó L là hàm mất mát bắt phạt g(f(x)) vì không giống với x, chẳng hạn

hàm đồng nhất đơn thuần nếu chúng có đủ dung lượng để trở thành hàm đó

Một bộ mã hoá tự động khử nhiễu (DAE) thay vào đó cực tiểu hoá:

Trong đó x˜ là một bản sao bị trỗn lẫn một vài dạng nhiễu của x Do đó, bộ

mã tự hóa khử nhiễu phải làm thêm 1 nhiệm vụ là hoàn tác những dạngnhiễu này thay vì chỉ sao chép đầu vào của chúng

Huấn luyện khử nhiễu bắt f và g ngầm tìm hiểu cấu trúc của pdữ liệu(x), như được trình bày bởi Alain và Bengio (2013) và Bengio

cùng cộng sự (2013c) Các bộ tự mã hóa khử nhiễu cung cấp một ví dụ khác

về cách để chiết xuất các thuộc tính hữu dụng như một sản phẩm phụ củaviệc cực tiểu hoá sai số tái thiết Chúng cũng là một ví dụ về cách các môhình vượt mức, dung lượng cao có thể được sử dụng được cho các bộ tự mãhóa miễn là chúng bị ngăn cản khỏi việc học hàm đồng nhất Chi tiết về Bộ

tự mã hoá khử nhiễu sẽ được trình bày trong phần 14.5

14.2.3 Kiểm soát hóa bằng bắt phạt đạo hàm

Một chiến lược khác để kiểm soát hóa bộ tự mã hóa là sử dụng một mức phạt Ω, như trong bộ tự mã hóa thưa:

Định dạng
Số trang	50
Dung lượng	1,51 MB