Khi thảo luận về tổng quát hóa và quá khớp ở chương 5, chúng tôi đã tập trung vào ba trạng thái khi huấn luyện một họ các mô hình, mà ở đó họ mô hình đang được huấn luyện là1 : bỏ qua qu
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ -
Tiêu luận khai phá dữ liệu
ĐỀ TÀI: Giới thiệu về học sâu và các cơ chế
kiểm soát.
Giảng viên hướng dẫn: PGS.TS Hà Quang Thụy
Trang 2Mục Lục
Chương 7: Các cơ chế kiểm soát trong học sâu 1
7.1 Tham số phạt chuẩn 3
7.1.1 Cơ chế kiểm soát L 2 4
7.1.2 Cơ chế kiểm soát L1 9
7.2 Phạt chuẩn dưới góc nhìn tối ưu có ràng buộc 12
7.3 Cơ chế kiểm soát và các bài toán không ràng buộc 14
7.4 Mở rộng dữ liệu 15
7.5 Tính kháng nhiễu 17
7.5.1 Thêm nhiễu vào nhãn đầu ra 19
7.6 Học bán giám sát 19
7.7 Học đa nhiệm( multitask learning) 20
7.8 Early stopping 21
7.9 Parameter tying và parameter shared 28
7.10 Sparse Representations(đại diện thưa thớt) 29
7.11 Bỏ túi và các phương pháp kết hợp khác 31
7.12 Cơ chế tắt ngẫu nhiên 34
7.13 Huấn luyện đối kháng 47
7.14 Khoảng cách tiếp tuyến, lan truyền tiếp tuyến, bộ phân loại tiếp tuyến đa tạp 49
Chương 1 Giới thiệu về xử lí ngôn ngữ tự nhiên và học sâu 53
1.1 Giới thiệu về học sâu 53
1.2 How Deep is “Deep”? 54
1.3 Mạng noron là gì? 55
1.4 Cấu trúc cơ bản của mạng noron 56
1.5 Các loại mạng noron 60
1.5.1 Mạng noron chuyển tiếp 60
1.5.2 Mạng noron liên kết 61
1.5.3 Mạng noron phản hồi 61
1.5.4 Mạng mã hóa – giải mã 63
1.5.5 Mạng noron đệ quy 63
1.6 Multilayer Perceptrons 64
1.7 Stochastic Gradient Descent: Phương pháp xuống dốc ngẫu nhiên 65
1.8 Backpropagation : lan truyền ngược 66
Trang 3Tài liệu tham khảo 68
Phụ lục 68
Danh mục hình ảnh Hình 1 Hình minh họa ảnh hưởng của bộ kiểm soát L2 7
Hình 2 Minh họa về học đa nhiệm 21
Hình 3 Minh họa quá trình huấn luyện 22
Hình 4 Minh họa về quá trình early stopping 26
Hình 5 Minh họa về sparse representation 30
Hình 6 Một mô tả bằng hình ảnh về cách phương pháp bỏ túi hoạt động 32
Hình 7 Cơ chế tắt ngẫu nhiên huấn luyện một mô hình hợp thể tất cả các mạng con 35
Hình 8 Quá trình lan truyền thuận qua một mạng lan truyền thuận 37
Hình 9 Một ví dụ tạo ra mẫu đối kháng được ứng dụng trong GoogLeNet 47
Hình 10 Minh họa ý tưởng chính của thuật lan truyền tiếp tuyến 50
Hình 11 So sánh Deep learning và Older learning algorithms 53
Hình 12 Mô hình của mạng sâu và nông 54
Hình 13 Các nền tảng và thư viện mã nguồn mở hỗ trợ học sâu 56
Hình 14 Cấu trúc noron 57
Hình 15 Hàm bước 57
Hình 16 Đồ thị hàm sigmoid 58
Hình 17 Đồ thị hàm ReLU 59
Hình 18 Cấu trúc mạng noron 60
Hình 19 Mạng noron đa lớp feedforward 61
Hình 20 Mạng noron phản hồi 62
Hình 21 Mã hóa RNNs 62
Hình 22 Tạo RNNs 63
Hình 23 Mạng RNNs 63
Hình 24 Mạng noron đệ quy 64
Trang 4Chương 7: Các cơ chế kiểm soát trong học sâu
Một trong những vấn đề trọng tâm của học máy là tìm cách tạo ra một thuật toán không chỉ hoạt động tốt trên tập huấn luyện, mà còn phải cho ra kết quả tốt đối với các đầu vào mới Nhiều chiến lược trong học máy được thiết kế với mục tiêu rõ ràng là giảm thiểu sai số kiểm thử, mặc dù đổi lại nó có thể làm tăng sai số
huấn luyện Những chiến lược này được gọi chung là cơ chế kiểm
soát (regularization) Có rất nhiều dạng kiểm soát khác nhau có thể được áp dụng
khi xây dựng mô hình học sâu Trong thực tế, việc xây dựng các chiến lược kiểm soát hiệu quả là một trong những hướng nghiên cứu chủ yếu trong học sâu
Chương 5 đã giới thiệu một số khái niệm cơ bản như tổng quát hóa, vị khớp,quá khớp, độ chệch, phương sai và cơ chế kiểm soát Nếu bạn đọc chưa nắm vững những khái niệm trên, thì có thể xem lại chương 5 trước khi đọc tiếp chương này
Trong chương này chúng tôi sẽ đi sâu vào việc mô tả chi tiết về cơ chế kiểm soát, tập trung vào các chiến lược kiểm soát được dùng trong các mô hình học sâu hoặc các mô hình được sử dụng làm nền tảng để xây dựng mô hình đa tầng
Một số phần của chương này sẽ đề cập tới những khái niệm cơ bản của học máy Nếu bạn đã quen thuộc với những khái niệm này, bạn có thể bỏ qua các phần liên quan Tuy nhiên hầu hết nội dung của chương này sẽ liên quan đến những mở rộng của các khái niệm cơ bản trong trường hợp cụ thể của các mạng neuron
Trong mục 5.2.2, chúng tôi đã định nghĩa cơ chế kiểm soát là “bất cứ sự điềuchỉnh nào ở thuật toán học tập nhằm giảm sai số tổng quát hoá chứ không phải sai
số huấn luyện” Có nhiều chiến lược để kiểm soát Một số chiến lược tạo ra những ràng buộc trong mô hình học máy, đơn cử như thêm vào một số giới hạn cho các tham số Một số khác lại cộng thêm các hạng tử bổ sung vào hàm mục tiêu, chúng
có thể được coi như là một ràng buộc mềm đối với giá trị của các tham số Nếu được lựa chọn cẩn thận, những ràng buộc và hàm phạt được thêm vào có thể giúp tăng độ chính xác của mô hình trên tập kiểm thử Thông thường, những ràng buộc
và những hàm phạt này mã hóa những dạng kinh nghiệm tiền đề cụ thể về mô hình.Một số khác điều chỉnh thuật toán học tập theo hướng ưu tiên lựa chọn những mô hình đơn giản nhằm tăng cường tính tổng quát Một số khác lại cần thiết khi ta muốn biến một bài toán vô định trở thành xác định Ngoài ra cơ chế kiểm soát còn
được biết đến như phương pháp tập thể (esemble method), là phương pháp kết hợp
cùng lúc nhiều giả thuyết để giải thích dữ liệu huấn luyện
Trang 5Trong ngữ cảnh của học sâu, hầu hết những chiến lược kiểm soát đều dựa trên việc kiểm soát các bộ ước lượng Cơ chế kiểm soát của một bộ ước lượng hoạtđộng theo cách đánh đổi việc giảm phương sai bằng cách tăng độ chệch Một cơ chế kiểm soát được xem là hiệu quả nếu nó giúp làm giảm phương sai một cách đáng kể trong khi không tăng độ chệch của mô hình lên quá nhiều Khi thảo luận
về tổng quát hóa và quá khớp ở chương 5, chúng tôi đã tập trung vào ba trạng thái khi huấn luyện một họ các mô hình, mà ở đó họ mô hình đang được huấn luyện là(1) : bỏ qua quá trình sinh dữ liệu thực tế – tương ứng với hiện tương vị khớp và gây ra độ chệch, hoặc (2) : khớp chính xác quá trình sinh dữ liệu thực tế, hoặc (3) :bao gồm không chỉ quá trình sinh dữ liệu thực tế mà còn bao gồm nhiều cơ chế sinh dữ liệu khác nhau – trạng thái quá khớp trong đó phương sai chi phối sai số của mô hình thay vì độ chệch Mục tiêu của các cơ chế kiểm soát là đưa mô hình đang ở trạng thái thứ 3hoặc trở về trạng thái thứ 2.
Trong thực tế, một họ mô hình quá phức tạp không nhất thiết bao gồm hàm mục tiêu hay hàm sinh thực sự của dữ liệu, hay thậm chí là không chứa cả xấp xỉ của những hàm đó Trong hầu hết các trường hợp, chúng ta không thể tiếp cận hàmsinh dữ liệu thực sự, chính vì vậy ta không thể nào biết được họ mô hình mà chúng
ta dùng để ước lượng có chứa hàm sinh thực sự đó hay không Tuy nhiên, hầu hết các giải thuật học sâu được ứng dụng trong các lĩnh vực mà ở đó hàm sinh dữ liệu thực sự gần như sẽ nằm ngoài họ mô hình ta xây dựng Học sâu thường được ứng dụng trong những lĩnh vực cực kì phức tạp như xử lý ảnh, chuỗi âm thanh hoặc vănbản, mà ở đó hàm sinh dữ liệu thật sự cần bao gồm cả những mô phỏng về mọi thứtrên thế giới Ở một mức độ nào đó, những gì chúng ta đang làm là cố lắp một miếng gỗ vuông (hàm sinh dữ liệu) vào một cái lỗ tròn (họ mô hình do chúng ta xây dựng)
Điều đó có nghĩa là việc kiểm soát độ phức tạp của một mô hình không chỉ đơn giản là việc tìm ra một mô hình với đúng kích thước và đúng số lượng tham
số Thay vào đó, chúng ta có thể thấy - và thực tế là trong các ứng dụng học sâu, chúng ta luôn thấy rằng - mô hình khớp dữ liệu tốt nhất (theo nghĩa có sai số tổng quát hóa nhỏ nhất) là một mô hình lớn được kiểm soát một cách hợp lý
Bây giờ, ta sẽ bắt đầu ôn lại một số những chiến lược để tạo ra những mô hình lớn,
đa tầng và được kiểm soát như vậy
Trang 67.1 Tham số phạt chuẩn
Cơ chế kiểm soát đã được sử dụng từ nhiều thập kỷ trước khi có sự xuất hiệncủa học sâu Những mô hình tuyến tính như hồi quy tuyến tính hay hồi quy logit cho phép áp dụng những chiến lược kiểm soát rất đơn giản, dễ hiểu nhưng cũng rấthiệu quả
Rất nhiều phương pháp kiểm soát được xây dựng bằng cách giới hạn dung lượng của các mô hình như mạng neuron, hồi quy tuyến tính, hay hồi quy logit bằng cách thêm vào hàm mục tiêu J một tham số phạt chuẩn Ω( )θ (norm
penalty) Ta sẽ kí hiệu những hàm mục tiêu được kiểm soát bằng J%:
Trong đó �[0, )� là siêu tham số xác định mức độ đóng góp của hạng tử phạt chuẩn Ω trong hàm mục tiêu J Giá trị của được gán bằng 0 đồng nghĩa với việc không có bất cứ sự kiểm soát nào với hàm mục tiêu Giá trị của càng lớn thìmức độ kiểm soát càng cao
Khi thuật toán huấn luyện của chúng ta cố gắng cực tiểu hóa hàm mục tiêu được kiểm soát J%, thì nó sẽ cùng lúc cả giảm sai số của hàm mục tiêu gốc J lẫn kích thước tập tham số θ(hoặc một tập con của vector tham số θ) Cách chọn chuẩn Ωkhác nhau sẽ dẫn đến các giải pháp khác nhau Trong phần này, chúng ta
sẽ thảo luận về ảnh hưởng của nhiều loại chuẩn khác nhau khi được sử dụng làm các đại lượng phạt tham số của mô hình
Trước khi thảo luận sâu về hành vi kiểm soát của các chuẩn khác nhau, cần phải ghi nhớ một điều rằng đối với các mạng neuron, chúng ta thường chọn những tham số phạt chuẩn Ω chỉ áp dụng mức phạt lên các trọng số của phép biến đổi affin tại mỗi tầng (w), mà không kiểm soát các hệ số tự do (b) Các hệ số tự do thường cần ít dữ liệu hơn các trọng số để khớp một cách tối ưu Mỗi trọng số xác định cách tương tác giữa hai biến Để khớp được tốt trọng số đòi hỏi ta phải quan sát được cả hai biến trong nhiều điều kiện khác nhau Mỗi hệ số tự do chỉ tác động đến một biến duy nhất Điều đó có nghĩa là khi không áp dụng các phương pháp kiểm soát lên hệ số tự do, phương sai sẽ không tăng quá nhiều Mặt khác, việc kiểm soát các hệ số tự do lại thường làm tăng tính vị khớp của mô hình lên đáng
Trang 7kể Do đó chúng tôi sẽ kí hiệu vector w cho toàn bộ các trọng số bị tác động bởi đại lượng phạt chuẩn, trong khi đó vector θsẽ được dùng làm kí hiệu cho toàn bộ tham số, bao gồm w và các tham số không bị kiểm soát.
Trong ngữ cảnh của mạng neuron, đôi khi ta cần sử dụng những hàm phạt riêng biệt với các hệ số αα khác nhau cho mỗi tầng trong mạng Bởi vì chi phí tính toán để tìm tập giá trị siêu tham số tương ứng sẽ rất lớn, dùng một tham số suy giảm trọng số chung cho tất cả các lớp vẫn là một cách hợp lý để giảm không gian tìm kiếm
7.1.1 Cơ chế kiểm soát L 2
Chúng ta đã thấy trong phần 5.2.2, rằng một trong những dạng phạt chuẩn đơn giản và phổ biến nhất: hàm phạt chuẩn L2, hay còn được gọi là suy giảm trọng
số (weight decay) Chiến lược kiểm soát này hướng trọng số gần về gốc tọa
độ bằng cách thêm vào hàm mục tiêu một hạng tử kiểm soát
2 2
1 Ω( )
2
θ ‖ ‖w
Trong một số cộng đồng học thuật khác, kiểm soát L2 còn được biết đến với cái tên
như hồi quy ngọn sóng(ridge regression) hay kiểm soát Tikhonov (Tikhonov
regularization)
Một cách tổng quát hơn, chúng ta có thể kiểm soát để tham số tiến gần tới bất kì điểm nào trong không gian, và điều đáng ngạc nhiên là, dù cách làm này cũng đạt được một số hiệu ứng kiểm soát, nhưng ta sẽ đạt được kết quả tốt hơn nếu
ta kiểm soát tham số tiến gần về giá trị thực sự, với giá trị mặc định là 0 Giá trị mặc định 0 là hợp lý, vì ta không biết giá trị chính xác sẽ là âm hay dương Bởi vì người ta hay kiểm soát các tham số mô hình hướng về gốc tọa độ, chúng ta sẽ chỉ tập trung mô tả trường hợp đặc biệt này
Chúng ta có thể đi sâu hơn vào hành vi của cơ chế kiểm soát suy giảm trọng
số thông qua việc quan sát gradient của hàm mục tiêu được kiểm soát Để trình bàyđơn giản hơn, chúng tôi không xét các hệ số tự do, do đó θ sẽ chỉ là w trong trường hợp này Mô hình như vậy có hàm mục tiêu:
với đạo hàm theo tham số w tương ứng là:
Trang 8Chúng ta thực hiện cập nhật tham số bằng một bước nhảy đạo hàm theo công thức sau:
Nói cách khác, tham số mới sẽ được cập nhật theo
Có thể thấy rằng việc thêm vào đại lượng suy giảm trọng số đã điều chỉnh quy tắc học để thu nhỏ vector trọng số theo cấp số nhân sau mỗi bước, trước khi cập nhật theo gradient như thông thường Điều này có thể lý giải điều gì xảy ra trong từng bước cập nhật Nhưng điều gì sẽ xảy ra sau toàn bộ quá trình huấn luyện?
Chúng ta sẽ tiếp tục đơn giản hoá quá trình phân tích bằng cách tạo ra một xấp xỉ bậc hai của hàm mục tiêu trong một lân cận của tham số, mà ở đó hàm chi phí huấn luyện chưa được kiểm soát có giá trị nhỏ nhất, arg min ( )J
w
Nếu hàm mục tiêu thực sự là một hàm bậc 2, như hàm sai số bình phương trung bình trong trường hợp hồi quy tuyến tính, thì xấp xỉ của ta là chính xác tuyệt đối Xấp xỉcủa ˆJ có dạng:
Trong đó H là ma trận Hesse của J khi w bằng w Không có đại lượng bậc nhất trong xấp xỉ bậc hai này, bởi vì w là điểm cực tiểu, tại đó gradient tiêu biến Tương tự, bởi vì w là điểm cực tiểu của J, ta có thể kết luận rằng H là nửa xác định dương
Cực tiểu của ˆJ đạt được khi gradient của nó:
Bằng 0
Để khảo sát tác động của suy giảm trọng số, chúng ta điều chỉnh phương trình 7.7 bằng cách thêm vào một hạng tử suy giảm trọng số của gradient này Giờ
Trang 9ta có thể tìm điểm cực tiểu của phiên bản được kiểm soát của ˆJ Ta sử dụng biến
%
w để biểu diễn vị trí của điểm cực tiểu này
Khi tiến về 0, lời giải tối ưu đã kiểm soát w% tiến về w Nhưng điều gì sẽ xảy rakhi tăng? Bởi vì H mang giá trị thực và đối xứng, nên ta có thể phân tách nó thành một ma trận đường chéo Λ và một cơ sở trực chuẩn các vector riêng Q, thỏamãn H Q Q Λ �
Áp dụng phép phân tách này vào phương trình 7.10 ta có:
Chúng ta thấy rằng tác động của của suy giảm trọng số là thay đổi tỉ lệ của
w dọc theo trục xác định bởi các vector riêng của H Cụ thể, thành phần của wđược căn chỉnh dọc theo vector riêng thứ i của H sẽ được nhân với tỉ lệ
i i
(Bạn có thể muốn ôn lại cách thức căn chỉnh tỉ lệ kiểu này hoạt động ở hình 2.3.) Dọc theo các hướng mà trị riêng của H tương đối lớn, ví dụ i ? , ảnh hưởng của cơ chế kiểm soát sẽ tương đối nhỏ Tuy nhiên, các thành phần có i = sẽ co
về không Hiện tượng này được minh họa trong hình 7.1
Trang 10Hình 1 Hình minh họa ảnh hưởng của bộ kiểm soát L2
Hình 1: Hình minh họa ảnh hưởng của bộ kiểm soát L2 (hay còn gọi là suy giảm trọng số) đối với giá trị w tối ưu Những đường eclipse liền thể hiện đường đồng mức của các giá trị hàm mục tiêu chưa kiểm soát Các đường tròn đứt quãng thể hiện đường đồng mức của các bộ kiểm soát L2 Tại điểm w%, những hàm mục tiêu cạnh tranh này đạt trạng thái cân bằng Ở chiều thứ nhất, trị riêng của ma trận Hesse của J là nhỏ Hàm mục tiêu không tăng nhiều khi di chuyển theo trục hoành
ma trận Hesse nhỏ, cho ta biết rằng việc di chuyển theo hướng này sẽ không làm tăng gradient đáng kể Các thành phần của vector trọng số tương ứng với những
Trang 11hướng không quan trọng này bị làm suy giảm thông qua việc sử dụng bộ kiểm soát trong quá trình huấn luyện.
Cho đến nay chúng ta đã bàn luận về ảnh hưởng của suy giảm trọng số đến việc tối ưu hóa một hàm chi phí bậc hai tổng quát và mang tính trừu tượng Những ảnh hưởng này liên quan đến học máy như thế nào? Chúng ta có thể tìm ra điều này bằng cách nghiên cứu về hồi quy tuyến tính, một mô hình mà trong đó hàm chiphí thực tế có dạng bậc hai và do đó, phù hợp với cách phân tích mà ta đang sử dụng Áp dụng kiểu phân tích này một lần nữa, ta có thể thu được một trường hợp đặc biệt có cùng kết quả, nhưng các kết quả giờ đây được diễn tả dưới dạng dữ liệuhuấn luyện Với hồi quy tuyến tính, hàm chi phí là tổng của các bình phương sai số:
Khi chúng ta thêm bộ kiểm soát L2, hàm mục tiêu trở thành
Từ đó nghiệm theo phương trình chuẩn chuyển từ
khiến cho thuật toán học tập “có cảm nhận” rằng giá trị đầu vào X có phương sai lớn hơn, khiến nó làm co các trọng số của các đặc trưng có giá trị hiệp phương sai đối với nhãn đầu ra là thấp so với phương sai được thêm vào này
Trang 127.1.2 Cơ chế kiểm soát L1
Ngoài L2 là dạng suy giảm trọng số phổ biến nhất, còn có nhiều giải pháp khác để đặt hình phạt phạt lên kích cỡ của bộ tham số trong mô hình Một trong số
1
Ω( ) || o || | o |
i i i
�
θ w w
.Tiếp theo, ta sẽ thảo luận về ảnh hưởng của bộ kiểm soát L1 lên mô hình hồiquy tuyến tính đơn giản, không bao gồm hệ số tự do, như cách ta đã phân tích cơ chế kiểm soát L2 ở trên Cụ thể, chúng tôi tập trung mô tả sự khác biệt giữa kiểm soát L1 và L2 Tương tự với suy giảm trọng số L2, suy giảm trọng số L1 điều khiển mức độ của kiểm soát bằng cách nhân tỷ lệ phạt Ω với một siêu tham số Như vậy, hàm mục tiêu có kiểm soát J%w X y( ; , ) có dạng sau
với gradient tương ứng (thực ra là subgradient)
Trong đó sign( )w là dấu của w theo từng phần tử
Khảo sát phương trình 7.20, ta thấy ngay rằng ảnh hưởng của bộ kiểm soát
Trang 13không nhất thiết phải tìm được các nghiệm thuần đại số của xấp xỉ bậc hai
( , ; )
J X y w như đối với bộ kiểm soát L2
Mô hình tuyến tính đơn giản của chúng ta có một hàm mất mát bậc 2 có thể biểu diễn được bằng chuỗi Taylor của nó Một cách khác, chúng ta có thể tưởng tượng rằng đây là chuỗi Taylor bị chặt để xấp xỉ hàm chi phí của một mô hình phứctạp hơn Gradient trong trường hợp này được cho bởi
trong đó, lại một lần nữa, H là ma trận Hesse của J theo w tại điểm w
Do mức phạt L1 không làm co các biểu thức thuần đại số trong trường hợp
ma trận Hesse có dạng tổng quát đầy đủ, chúng ta sẽ giả định rằng ma trận Hesse
có dạng đường H diag H[ 1,1 , , � H n n, ]
, trong đó H i i, 0 với mọi i Giả định này
đúng nếu dữ liệu cho bài toán hồi quy tuyến tính được tiền xử lý để loại bỏ toàn bộ
sự tương quan giữa các đặc trưng đầu vào; ta có thể đạt được điều này bằng cách
w
Trang 14Bộ kiểm soát không làm cho w i tiến gần tới 0 mà làm nó dịch
đi theo hướng i một lượng bằng H i i,
.Điều tương tự xảy ra khi w i0, nhưng hàm phạt L1 làm cho w i tăng lên một lượng
bằng H i i,
, hoặc tiến về 0
So với bộ kiểm soát L2, thì bộ kiểm soát L1 sinh ra một nghiệm thưa (sparse) hơn
Tính thưa trong ngữ cảnh này có nghĩa là một số tham số có giá trị tối ưu bằng 0 Tính thưa của bộ kiểm soát L1 là một tính chất khác biệt hẳn so với trong bộ kiểm soát L2 Phương trình 7.13 cho ta nghiệm w% của bộ kiểm soát L2 Nếu nhìn lại phương trình với giả định ma trận Hesse là ma trận đường chéo và xác định dương,như đã được nhắc tới khi phân tích bộ kiểm soát L1, ta thấy rằng
, ,
khác 0, thì w% i vẫn khác 0 Điều này cho thấy cơ chế kiểm soát L2 không làm cho các tham số trở nên thưa, trong khi cơ chế kiểm soát L1 có thể khiến điều
đó xảy ra nếu đủ lớn
Tính thưa do cơ chế kiểm soát L1 gây ra thường được sử dụng như một cơ
chế trích chọn đặc trưng(feature selection) Trích chọn đặc trưng làm đơn giản hóa
một bài toán học máy bằng việc quyết định xem nên sử dụng tập con nào của tập các đặc trưng sẵn có Cụ thể, mô hình nổi tiếng LASSO (least absolute shrinkage and selection operator - toán tử chọn lọc và co rút tuyệt đối nhỏ nhất) kết hợp một hàm phạt L1 với một mô hình tuyến tính và một hàm chi phí bậc hai Hàm phạt L1
khiến một tập con của tập các trọng số nhận giá trị 0, do đó, ta có thể an tâm bỏ đi các đặc trưng tương ứng với tập hợp con đó
Trong phần 5.6.1, chúng tôi thấy nhiều chiến thuật kiểm soát có thể được giải thích dưới dạng suy luận cực đại hậu nghiệm (MAP) Bayes, cụ thể, bộ kiểm soát L2 đóng vai trò tương đương với suy luận MAP Bayes với các trọng số tuân theo tiên nghiệm Gauss Với bộ kiểm soát L1, hàm phạt Ω( ) i | i|
w
w �
, được sử dụng để kiểm soát một hàm chi phí tương đương với một số hạng là logarit của
Trang 15một tiên nghiệm dạng phân phối Laplace đẳng hướng (phương trình 3.26) áp dụng cho các trọng số w� R n
khi cực đại hóa bằng suy luận MAP Bayes
Bởi mục tiêu ở đây là cực đại hàm này với biến w, ta có thể bỏ qua log - log2
vì những số hạng này không phụ thuộc vào w
7.2 Phạt chuẩn dưới góc nhìn tối ưu có ràng buộc
Xét hàm chi phí được kiểm soát bằng một hàm phạt chuẩn như sau:
Nhắc lại mục 4.4, ta có thể cực tiểu hóa một hàm số phụ thuộc vào các ràng buộc bằng cách xây dựng một hàm Lagrange tổng quát, bao gồm hàm mục tiêu banđầu cộng với một tập các hạng tử phạt Mỗi hạng tử phạt là tích giữa một hệ số, gọi
là nhân tử Karush–Kuhn–Tucker, với một hàm số biểu diễn việc liệu ràng buộc có được thỏa mãn hay không Nếu ta muốn giá trị Ω( )θ nhỏ hơn một hằng số kk nào
đó, thì hàm Langrange tổng quát có dạng như sau:
Nghiệm của bài toán với ràng buộc đã cho là:
Như đã mô tả trong mục 4.4, để giải bài toán tối ưu này ta cần biến đổi cả hai giá trị θ và Phần 4.5 cho ta một ví dụ về hồi quy tuyến tính với một ràng buộc L2 Có nhiều phương pháp khác có thể giải quyết vấn đề này, ví dụ như dùng thuật toán trượt gradient, hoặc dùng phương pháp tìm nghiệm của phương trình đạo hàm bằng 0 Tuy nhiên, trong tất cả các phương pháp trên, giá trị của đều phải tăng khi Ω( ) k θ và giảm khi Ω( ) k θ Tham số càng dương thì Ω( )θ
Trang 16càng nhỏ Giá trị tối ưu
làm cho Ω( )θ bé lại nhưng chưa đủ lớn để làm cho Ω( )θnhỏ hơn k
Để hiểu rõ hơn về ảnh hưởng của các ràng buộc, chúng ta có thể cố định giá trị
và coi hàm chỉ có một tham số :
Bài toán này giống với bài toán huấn luyện có kiểm soát để cực tiểu hóa hàm
J% Chúng ta có thể coi việc sử dụng tham số phạt chuẩn ở đây giống như việc áp đặt một ràng buộc lên các trọng số Nếu Ω là chuẩn L2, thì các trọng số bị giới hạnnằm trên trong khối cầu của chuẩn L2 Nếu L2 là chuẩn L1, thì các ma trận trọng số
sẽ bị ràng buộc nằm trên miền bị giới hạn bởi chuẩn L1 Thông thường, chúng ta không biết chính xác kích thước của miền ràng buộc mà ta áp đặt khi sử dụng suy giảm trọng số với hệ số
, bởi giá trị của
không trực tiếp cho ta biết giá trị của
k là bao nhiêu Trên lý thuyết, ta có thể tìm ra k, tuy nhiên mối quan hệ giữa kvà
phụ thuộc vào dạng của hàm J Tuy ta không biết rõ kích thước miền ràng buộc, nhưng chúng ta có thể khống chế nó bằng cách tăng hoặc giảm hệ số để cóthể mở rộng hoặc thu hẹp miền ràng buộc càng nhỏ thì phạm vi của miền ràng buộc càng rộng, và ngược lại, giá trị αα càng lớn thì phạm vi của miền càng hẹp
Đôi khi, chúng ta mong muốn sử dụng các ràng buộc tường minh thay vì sử dụng các hàm phạt Như đã nêu trong phần 4.4, chúng ta có thể điều chỉnh các thuật toán, chẳng hạn như thực hiện trượt gradient ngẫu nhiên trên hàm J θ( ) sau đóchiều ngược θ ngược về điểm gần nhất thỏa mãn điều kiện Ω( ) k θ Điều này khá hữu ích trong trường hợp ta ước lượng được một giá trị k phù hợp và không muốn tốn nhiều thời gian và chi phí tính toán cho việc thay đổi tương ứng với giá trị k này
Một lý do khác để sử dụng các ràng buộc tường minh và phép chiếu ngược (trở lại vùng ràng buộc) thay vì ép các ràng buộc bởi các hạng tử phạt, đó là các hạng tử phạt có thể là nguyên do khiến các phương pháp tối ưu không lồi bị kẹt tại các giá trị cực tiểu địa phương tương ứng với θ nhỏ Khi huấn luyện các mạng neuron, biểu hiện của điều này là các mạng neuron huấn luyện ra một vài “đơn vị chết” (dead unit) Những đơn vị này không đóng góp nhiều vào hành vi của hàm
do mạng học ra, bởi các trọng số đi qua các đơn vị chết đều có giá trị rất nhỏ Khi huấn luyện với một hàm phạt đối với chuẩn của trọng số, những trạng thái trên có
Trang 17thể là các điểm tối ưu cục bộ, ngay cả khi ta có thể giảm J một cách đáng kể bằng cách tăng giá trị các trọng số Các ràng buộc tường minh được thực hiện thông qua phép chiếu ngược có hiệu quả tốt hơn nhiều trong các trường hợp như vậy bởi nó không đẩy các trọng số tiến về gốc tọa độ Các ràng buộc tường minh được thực hiện thông qua phép chiếu ngược chỉ có tác động khi giá trị các trọng số trở lên lớnhơn và cố gắng vượt qua miền ràng buộc.
Cuối cùng, các ràng buộc tường minh với phép chiếu ngược có thể hữu dụngbởi chúng áp đặt một số tính ổn định cho thuật toán tối ưu Khi sử dụng tốc độ học
lớn, ta có thể gặp vấn đề vòng lặp phản hồi tích cực(positive feedback loop) mà ở
đó các giá trị trọng số lớn sẽ gây nên giá trị gradient lớn, dẫn đến bước cập nhật các trọng số cũng lớn Nếu các bước cập nhật trọng số này luôn luôn khiến trọng sốtăng dần thì giá trị của hệ số θ sẽ đi ra xa điểm gốc cho đến khi hiện tượng tràn số xảy ra Các ràng buộc tường minh với phép chiếu ngược sẽ ngăn vòng lặp phản hồi, không cho phép nó tiếp tục tăng độ lớn các trọng số một cách vô hạn Hinton
và cộng sự (2012c) khuyến cáo nên sử dụng các ràng buộc kết hợp với một tốc độ học lớn để nhanh chóng khám phá miền tham số trong khi vẫn duy trì sự ổn định của mô hình
Cụ thể, Hinton và cộng sự (2012c) khuyến nghị một chiến lược đưa ra bởi
Srebro và Shraibman (2005): ta nên ràng buộc chuẩn của mỗi cột trong ma trận
trọng số của mỗi tầng của một mạng neuron, thay vì ràng buộc chuẩn Frobenius trên toàn bộ ma trận trọng số Việc ràng buộc chuẩn của các cột sẽ ngăn các đơn vị
ẩn có ma trận trọng số quá lớn Nếu ta chuyển đổi những ràng buộc này thành một
hệ số phạt trong hàm Lagrange, nó sẽ tương đương với hệ số suy giảm trọng số L2
nhưng sẽ có một nhân tử KKT cho các trọng số tại mỗi đơn vị ẩn Mỗi nhân tử KKT này sẽ được cập nhật một cách riêng biệt để ép mỗi đơn vị ẩn tuân theo các ràng buộc Trong thực tế, giới hạn chuẩn của các cột luôn được triển khai thông qua ràng buộc tường minh với phép chiếu ngược
7.3 Cơ chế kiểm soát và các bài toán không ràng buộc
Trong một số trường hợp, cơ chế kiểm soát là cần thiết để giúp cho các bài toán học máy trở nên xác định Rất nhiều các mô hình tuyến tính trong học máy như hồi quy tuyến tính và phân tích thành phần chính phụ thuộc vào ma trận
nghịch đảo X X�
Điều này sẽ không được thực hiện nếu X X�
là suy biến Ma
Trang 18sai theo một số hướng, hoặc phương sai không thể quan sát được theo một số hướng bởi có quá ít mẫu (các hàng của ma trận X) so với đặc trưng đầu vào (các cột của ma trận X ) Trong trường hợp này, có nhiều dạng kiểm soát tương đương với phép lấy nghịch đảo của X X� I
có thể phân tách tuyến tính Nếu một vector trọng số w có thể phân loại một cách hoàn hảo, thì 2w cũng có thể phân loại hoàn hảo và với mức độ hợp lý cao hơn Một phương pháp tối ưu có dạng lặp như trượt gradient ngẫu nhiên sẽ liên tục tăng
độ lớn của ma trận trọng số w và, theo lý thuyết, có thể không bao giờ dừng Trong thực tế, các gradient sẽ dần tiến tới các trọng số đủ lớn để tạo ra tràn số Tại thời điểm đó, bước xử lý tiếp theo như nào sẽ phụ thuộc vào cách người lập trình quyết định xử lý như thế nào với các giá trị không phải số thực
Hầu hết các dạng kiểm soát có thể đảm bảo tính hội tụ của các phương pháp lặp khi áp dụng cho bài toán vô định Ví dụ, suy giảm trọng số sẽ khiến trượt gradient không tiếp tục tăng độ lớn của các trọng số nữa khi độ dốc của hàm hợp lýbằng với hệ số suy giảm trọng số
Ý tưởng về việc sử dụng cơ chế kiểm soát để giải quyết các bài toán vô định được mở rộng ra cả bên ngoài ngành học máy Ý tưởng như vậy rất hữu ích trong việc giải các bài toán đại số tuyến tính cơ bản
Như đã nêu trong mục 2.9, chúng ta có thể giải các phương trình tuyến tính
vô định bằng cách sử dụng giả nghịch đảo Moore-Penrose Nhớ lại một định nghĩa của giả nghịch đảo X của ma trận X như sau:
Ta có thể nhận ra phương trình 7.29 giống như thực hiện hồi quy tuyến tính với hệ
số suy giảm trọng số Cụ thể hơn, phương trình 7.29 là giới hạn của phương trình 7.17 khi hệ số kiểm soát giảm về 0 Do đó, ta có thể diễn giải giả nghịch đảo là mộtcách ổn định các bài toán toán vô định sử dụng cơ chế kiểm soát
Trang 19Đối với bài toán phân loại, mở rộng dữ liệu được giải quyết dễ dàng hơn Một bộ phân loại cần nhận vào một đầu vào phức tạp với số chiều cao x và phải tóm tắt nó thành một nhãn y duy nhất Điều này có nghĩa nhiệm vụ chính mà một
mô hình phân lớp cần giải quyết đó là nó phải không đổi với một loạt các phép biến đổi khác nhau Chúng ta có thể tạo ra cặp dữ liệu dễ dàng ( , )x y bằng cách biến đổi x trong tập huấn luyện
Phương pháp này không dễ dàng áp dụng với cho nhiều tác vụ khác Ví dụ, rất khó có thể tạo dữ liệu giả cho các bài toán ước lượng mật độ trừ khi chúng ta đãgiải quyết vấn đề về ước lượng mật độ rồi
Mở rộng dữ liệu là một kỹ thuật rất hiệu quả cho bài toán nhận dạng đối tượng, một dạng bài toán phân loại Ảnh là một dữ liệu đa chiều với rất nhiều các biến tố mà nhiều trong số đó có thể được giả lập dễ dàng Các thao tác như dịch ảnh đi một vài điểm ảnh theo mỗi hướng có thể cải thiện đáng kể tính tổng quát hóa, ngay cả khi mô hình đã được thiết kế để phần nào trở nên bất biến với phép
tịnh tiến thông qua sử dụng các phép tích chập và gộp (pooling) được nêu trong
chương 9 Nhiều phép biến đổi cơ bản khác như xoay ảnh hoặc thay đổi tỉ lệ cũng
đã được chứng minh là khá hiệu quả
Tuy nhiên, chúng ta cần phải thận trọng khi áp dụng các phép biến đổi vì chúng có thể thay đổi lớp phân loại thực sự của của đối tượng Ví dụ, các bài toán nhận dạng chữ viết yêu cầu phải phân biệt được sự khác nhau của các cặp kí tự như
“b” và “d” hoặc “6” và “9” Trong những trường hợp này các phép lật theo chiều ngang hay xoay 180 độ không được phép áp dụng để việc mở rộng dữ liệu vì nó làm thay đổi nhãn thực của dữ liệu
Cũng có những phép biến đổi mà chúng ta muốn mô hình phân lớp trở thành
bất biến nhưng điều đó không dễ thực hiện Ví dụ như phép xoay lệch mặt
phẳng (out-of-plane) không thể thực thi được bằng một phép biến đổi hình học
thông thường với các điểm ảnh đầu vào
Trang 20Thêm nhiễu vào dữ liệu đầu vào của một mạng neuron cũng có thể được xem như một dạng mở rộng dữ liệu Với nhiều bài toán phân loại và thậm chí cả bài toán hồi quy, ta vẫn có thể giải quyết được bài toán khi một lượng nhỏ nhiễu ngẫu nhiên được thêm vào dữ liệu đầu vào Tuy nhiên, các mô hình mạng neuron được chứng minh là kháng nhiễu không quá tốt [Tang and Eliasmith, 2010] Một cách đơn giản để cải thiện tính kháng nhiễu của các mạng neuron là huấn luyện nó với dữ liệu đầu vào được thêm nhiễu ngẫu nhiên Thêm nhiễu là một phần của một
số thuật toán học không giám sát, chẳng hạn như bộ tự mã hóa giải nhiễu [Vincent
et al., 2008] Thêm nhiễu cũng được áp dụng với các đơn vị trong lớp ẩn, mà ta có thể coi đó là bước mở rộng dữ liệu với nhiều cấp độ Poole et al (2014) đã chỉ ra rằng phương pháp này có thể đạt hiệu quả cao với điều kiện là độ lớn của nhiễu
được điều chỉnh một cách cẩn thận Cơ chế tắt ngẫu nhiên(dropout), một phương
pháp kiểm soát mạnh được mô tả trong mục 7.12 có thể xem như một quá trình tạo
dữ liệu đầu vào mới bằng cách nhân nó với nhiễu
Khi so sánh các kết quả của các mô hình học máy với nhau, cần phải xét tới hiệu ứng của việc mở rộng dữ liệu Thông thường, phương pháp mở rộng dữ liệu thủ công có thể giảm sai số tổng quát của mô hình học máy một cách rõ rệt Để so sánh tính hiệu quả của các mô hình chúng ta cần thực hiện các thí nghiệm có kiểm soát Khi so sánh mô hình học máy A với mô hình học máy B, cần đảm bảo rằng cảhai mô hình được đánh giá sử dụng cùng một phương pháp mở rộng dữ liệu Giả
sử rằng thuật toán A đạt hiệu quả không tốt khi không áp dụng mở rộng dữ liệu, còn thuật toán B thì chạy tốt khi kết hợp nhiều phép biến đổi tổng hợp dữ liệu đầu vào Trong trường hợp đó, các phép biến đổi tổng hợp có khả năng lớn là đã giúp cải thiện được hiệu suất của mô hình chứ không phải là do việc sử dụng thuật toán
B Đôi khi việc quyết định một thực nghiệm có được kiểm soát đúng cách hay không cần một đánh giá chủ quan Ví dụ, các thuật toán học máy thực hiện thêm nhiễu vào dữ liệu đầu vào chính là một dạng của phương pháp mở rộng dữ liệu Thông thường, các thao tác được áp dụng một cách tổng quát (như thêm nhiễu dạng Gauss vào dữ liệu đầu vào) được xem như một phần của thuật toán học máy, trong khi các phép toán áp dụng chuyên biệt cho một miền ứng dụng cụ thể (như làcắt ngẫu nhiên một vùng trong bức ảnh) được coi là những bước tiền xử lý riêng biệt
7.5 Tính kháng nhiễu
Trang 21Mục 7.4 khơi nguồn cho việc sử dụng nhiễu để áp dụng lên đầu vào như là một cách để mở rộng tập dữ liệu Với một số mô hình, thêm nhiễu vào đầu vào với phương sai cực kỳ nhỏ tương đương với việc gán một mức phạt lên chuẩn của các trọng số [Bishop, 1995a,b] Trong trường hợp tổng quát, cần lưu ý rằng việc thêm nhiễu có thể hiệu quả hơn rất nhiều so với chỉ đơn giản là co độ lớn các tham số, đặc biệt khi nhiễu được thêm vào các đơn vị ẩn Nhiễu áp dụng vào các đơn vị ẩn
là một đề tài quan trọng nên nó xứng đáng được bản luận riêng; cơ chế tắt ngẫu nhiên miêu tả trong mục 7.12 là hướng phát triển chính của phương pháp này
Một cách khác sử dụng nhiễu để kiểm soát các mô hình là thêm nhiễu vào các trọng số Kỹ thuật này được sử dụng chủ yếu trong các mạng neuron truy hồi [Jim et al., 1996; Graves, 2011] Kỹ thuật này có thể được diễn giải như là một cách cài đặt ngẫu nhiên của suy luận Bayes cho các trọng số Phương pháp học Bayes sẽ xem các trọng số trong mô hình là bất định và biểu diễn được qua một phân phối xác suất Thêm nhiễu vào các trọng số là một cách thực tế và mang tính ngẫu nhiên để thể hiện sự bất định này
Nhiễu áp dụng vào các trọng số cũng có được diễn giải một cách tương đương (dưới một số giả định) với một dạng kiểm soát cổ điển, khuyến khích sự ổn định của hàm cần học Xét trong trường hợp hồi quy, ở đó ta cần huấn luyện một hàm y xˆ( ) ánh xạ một tập các đặc trưng x đến một đại lượng vô hướng sử dụng hàm chi phí bình phương tối thiểu giữa dự đoán của mô hình y xˆ( ) và giá trị thực tế
y:
Tập huấn luyện bao gồm mđã gán nhãn (x( )1 ,y(1)), ,(� x( )m ,y( )m )
Bây giờ, ta giả sử rằng với mỗi biểu diễn đầu vào, ta thêm một nhiễu ngẫu nhiên � W N �( ;0,I) vào các trọng số của mạng Giả sử ta có một mô hình MLP với l tầng Ta ký hiệu mô hình (sau khi thêm) nhiễu là yˆ ( )� W x Dù có thêm nhiễu, tavẫn muốn cực tiểu hóa sai số bình phương đầu ra của mạng Hàm mục tiêu trở thành:
Trang 22Với nhỏ, cực tiểu của J với trọng số nhiễu (với hiệp phương sai I) được thêm vào các trọng số, tương đương với cực tiểu của J cộng thêm một đại lượng kiểm soát: Ep( , )x y[ ‖ �W yˆ ( ) ]x ‖2 Dạng kiểm soát này khuyến khích các tham số tiến đến miền không gian tham số mà ở đó, các thay đổi nhỏ của các trọng số có ảnh hưởng tương đối nhỏ đến giá trị đầu ra Nói cách khác, phương pháp này sẽ đẩy mô hình vào vùng mà nó tương đối miễn nhiễm với các biến đổi nhỏ của trọng số, tìm ra các điểm không chỉ là một cực tiểu đơn thuần, mà là một cực tiểu bao quanh bởi các vùng phẳng [Hochreiter and Schmidhuber, 1995] Trong trường hợp đơn giản của hồi quy tuyến tính (khi yˆ( )x w x� b
), đại lượng kiểm soát này được quy về
7.5.1 Thêm nhiễu vào nhãn đầu ra
Gần như mọi tập dữ liệu đều tồn tại những lỗi trong tập nhãn y Và việc cực đại hoá log ( | )p y x khi y là một nhãn sai gây hại cho quá trình huấn luyện Một cách để ngăn chặn điều này là trực tiếp mô hình hoá nhiễu trên các nhãn Ví dụ, ta
có thể giả sử với hằng số ϵ nhỏ, nhãn huấn luyện y là nhãn đúng với xác suất 1−ϵ,
và trong trường hợp khác mọi nhãn khác đều có thể đúng Không khó để đưa giả
sử này vào biểu thức của hàm mục tiêu, thay vì trực tiếp lấy ra các mẫu nhiễu ngẫu
nhiên Ví dụ, làm trơn nhãn (label smoothing) là kĩ thuật kiểm soát mô hình dựa
trên hàm cực đại mềm với k giá trị đầu ra bằng cách thay thế giá trị
cứng 0 và 1 của nhãn phân loại bằng nhãn k 1
Trang 23bao giờ dừng Ta có thể ngăn chặn trường hợp này bằng các chiến lược kiểm soát khác như suy giảm trọng số Phương pháp làm trơn nhãn có lợi thế ngăn chặn việc việc mô hình cố gắng đoán các xác suất cứng mà không ảnh hưởng các phép phân loại đúng Chiến lược này đã được sử dụng từ những năm 1980 và tiếp tục được sửdụng rộng rãi trong các mạng neuron đương đại [Szegedy et al, 2015].
7.6 Học bán giám sát
Trong học bán giám sát, chúng ta sử dụng cả các mẫu không có nhãn
từ P(x) và các mẫu có nhãn từ P(x,y) để ước lượng P(y|x) hoặc dự đoán y từ x.
Trong học sâu, thuật ngữ học bán giám sát thường được dùng để đề cập đến việc
học một biểu diễn h=f(x) Mục tiêu của nó là học một biểu diễn sao cho các mẫu
trong cùng một lớp có các biểu diễn tương tự nhau Học không giám sát có thể cho
ta một vài đầu mối hữu ích về cách gom nhóm các mẫu trong không gian biểu diễn.Các mẫu nằm gần nhau trong không gian đầu vào nên được ánh xạ tới các biểu diễn tương tự nhau Hàm phân loại tuyến tính trong không gian mới có thể đạt được tính tổng quát hóa tốt hơn trong nhiều trường hợp Một biến thể đã được sử dụng từ lâu của hướng tiếp cận này chính là ứng dụng của phân tích thành phần chính như một bước tiền xử lý trước khi áp dụng hàm phân loại (vào dữ liệu đã được chiếu xuống không gian mới)
Thay vì có các thành phần không giám sát và có giám sát riêng biệt trong
một mô hình, ta có thể xây dựng các mô hình mà trong đó một mô hình sinh
mẫu (generative model) của P(x) hay P(x,y) dùng chung tham số với một mô hình phân biệt (discriminative model) của P(y|x) Ta có thể đánh đổi (trade-off) tiêu
chuẩn có giám sát −logP(y|x) với tiêu chuẩn không giám sát hay một mô hình sinh mẫu (ví dụ như −logP(x) hoặc −logP(x,y)) Tiêu chuẩn sinh mẫu từ đó thể hiện
một dạng kinh nghiệm tiền đề về nghiệm của bài toán học có giám sát, cụ thể là
cấu trúc của P(x) được kết nối với cấu trúc của P(y|x) nhờ các tham số chung
Bằng cách kiểm soát xem tiêu chuẩn sinh mẫu chiếm bao nhiêu trong tiêu chuẩn toàn phần, ta có thể tìm được sự cân bằng tốt hơn giữa một mô hình sinh mẫu hoàntoàn hay một mô hình phân biệt hoàn toàn
7.7 Học đa nhiệm( multitask learning)
Trang 24Học đa nhiệm (multitask learning) là mô hình học nhiều nhiệm vụ cùng một
lúc bởi tìm ra câu trúc chia sẻ giữa các dữ liệu khác nhau Nó là một cách cải thiện
sự tổng quát hóa của mô hình bằng cách tổng hợp các ví dụ phát sinh từ một số nhiệm vụ Bằng một cách tương tự, thêm các ví dụ huấn luyện tạo ra nhiều sức ép lên các tham số của mô hình giúp nó tiến tới giá trị có tính tổng quát hơn Khi một phần của mô hình được chia sẻ, các phần đó bị hạn chế bởi các tham số giá trị tốt (giả sử chia sẻ là hợp lý), thường tạo ra sự tổng quát tốt hơn
Hình 2 Minh họa về học đa nhiệm
Hình trên là mô hình phổ biến của học đa nhiệm với 1 bộ input đầu vào X
Mô hình này khác với mô hình học có giám sát( dự đoán Y từ X) đó là cùng với đầu vào X ta dự đoán được nhiều khác nhau hay có thể gọi là học nhiều nhiệm vụ khác nhau cùng một lúc Các nhiệm vụ được chia sẻ từ một input chung thông qua một tầng trung gian gọi là h-shared và thu được các hệ số chung Mô hình có thể được chia làm 2 loại phần và thông số liên quan:
- Task-specific parameters là các tham số mà nó chỉ cho các nhiệm vụ riêng biệt để đạt được sử tổng quát tốt.Nó được thể hiện ở tầng trên của mạng
- Generic parameters là các tham số cho tất cả các nhiệm vụ hay nó là đầu vào chung nhất của các nhiệm vụ Nó được thể hiện là tầng dưới nhất của hình trên
Trang 25Cải tiến sự tổng quát hóa và giới hạn lỗi tổng quát có thể đạt được vì tham sốđược chia sẻ, mà cường độ thống kê có thể cải tiến tốt( tương ứng với số ví dụ tăngcho các tham số chia sẻ so với các mô hình đơn nhiệm Tất nhiên điều này xảy ra chỉ khi nếu giả định về mối quan hệ thống kê giữa các nhiêm vụ khác nhau là hợp
lệ Nghĩa là có một cái gì đó được chia sẻ trên một số nhiệm vụ
7.8 Early stopping
Khi ta huấn luyện một mô hình để cho đủ khả năng biểu diễn được nhiệm
vụ, ta nhận thấy rằng training error ngày càng giảm theo thời gian, nhưng
validation error ngày càng tăng lên Hình dưới đây minh họa cho quá trình đó
Hình 3 Minh họa quá trình huấn luyện.
Điều đó có nghĩa là ta có thể đạt được giá trị tốt hơn của validation error( do
đó cụng có thể hi vọng test error có thể đạt giá trị tốt hơn) đó là cần tìm ra thời điểm mà validation error thấp nhất Mỗi khi validation error đạt giá trị tốt hơn thì
ta sẽ lưu giá trị tham số vào bộ nhớ Khi quá trình huấn luyện kết thúc thì ta lấy giá trị đó ra thay vì ta lấy giá trị cuối cùng của tham số Thuật toán dừng khi không
có giá trị tham số nào có thể cải thiện được giá trị validation error với số bước lặp được xác định trước Thuật toán được trình bày dưới đây:
Trang 26Thuật toán được gọi là early stopping Nó có lẽ được sử dụng phổ biến để
regularization trong deep learning Sự phổ biến của nó là do vừa linh hoạt vừa đơn giản Trong thuật toán này, chúng ta muốn kiểm soát được hiệu quả năng suất của
mô hình bằng cách xác định số bước mà mô hình có thể phù hợp với tập huấn luyện Hầu hết các siêu tham số phải chọn sử dụng các quá trình dự đoán và kiểm tra đắt tiền, nơi mà chúng ta thiết lập một siêu tham số khi bắt đầu huấn luyện, sau
đó chạy quá trình huấn luyện một số bước để xem hiệu ứng của nó Tham số
“training time” là duy nhất bằng cách xác định, một lần chạy đào tạo có thể thử nhiều giá trị của tham số Thủ tục tốn chi phí đáng kể nhất để chọn ra siêu tham số này một cách tự động thông qua kết thúc sớm là đánh giá mô hình trên tập xác thựcmột cách định kỳ trong quá trình huấn luyện Trong trường hợp lý tưởng, thủ tục kiểm thử này sẽ được thực hiện song song với quá trình huấn luyện trên một thiết
bị tách biệt, CPU tách biệt, hoặc GPU tách biệt với quá trình huấn luyện chính Nếu không có đủ tài nguyên thì chi phí của quá trình đánh giá định kỳ có thể được giảm thiểu bằng việc sử dụng tập xác thực nhỏ hơn nhiều so với bộ huấn luyện, hoặc tăng khoảng thời gian giữa hai lần đánh giá sai số trên tập xác thực và thu được một ước lượng của thời gian huấn luyện tối ưu với độ chắc chắn thấp hơn
Trang 27Một chi phí khác phát sinh khi áp dụng early stopping là việc lưu trữ lại bản
sao của bộ tham số tốt nhất Chi phí này là không đáng kể, bởi vì ta có thể chấp nhận việc lưu trữ bộ tham số này ở bộ nhớ với tốc độ xử lý chậm hơn nhưng dung lượng lớn hơn (ví dụ, ta thực hiện huấn luyện trên GPU, nhưng sẽ lưu trữ bộ tham
số tối ưu trên bộ nhớ của máy chủ hoặc trên đĩa cứng) Vì việc lưu trữ bộ tham số tối ưu vào bộ nhớ này là không thường xuyên và không bao giờ cần đọc lại trong quá trình huấn luyện, Cho nên việc lưu trữ với tốc độ chậm hơn không ảnh hưởng nhiều tới thời gian huấn luyện
Thuật toán Early stopping được áp dụng hầu hết với các thuật toán mà
không làm ảnh hưởng gì đến thuật toán, có tính khái quát hơn và rất hiếm khi rơi vào cực tiểu địa phương, điều này trái ngược với tác động trực tiếp vào trọng số của mô hình có thể gây ra sai lệch hoặc có thể rơi vào cực tiểu địa phương trong quá trình lan truyền ngược
Early stopping khác với các thuật toán khác là cần phải yêu cầu có tập
validation, có nghĩa là một số tập dữ liệu không được sử dụng trong quá trình huấn luyện Để khai thác tốt điều này ta có thể huấn luyện tiếp sau khi quá trình huấn
luyện và early stopping đã kết thúc trước đó Ở bước thứ 2 này, tất cả dữ liệu huấn
luyện được thêm vào, ta có 2 chiến lược cơ bản để áp dụng quy trình này
Chiến lược đầu tiên (thuật toán 7.2) là khởi tạo lại mô hình huấn luyện trên toàn bộ dữ liệu Trong lần huấn luyện thứ hai này, chúng ta huấn luyện cho cùng
với số bước như quy trình early stopping ở bước một đã xác định Có một sự tinh
tế liên quan đế thủ tục này Ví dụ không có cách nào tốt nhất để biết rằng có nên huấn luyện lại với số bước đã đã được xác định ở bước 1 hay là huấn luyện lại với
số bước đã đi qua toàn bộ dữ liệu Ở bước thứ hai, mỗi lần qua các tập dữ liệu sẽ yêu cầu cập nhập lớn hơn vì số lượng data lớn hơn Dưới đây là thuật toán:
Trang 28Chiến lược thứ 2 (thuật toán 7.3) là sau khi ta thu được tham số đào tạo từ vòng 1, ta tiếp tục đào tạo dựa trên tham số đó với tất cả bộ dữ liệu Ở chiến lược này, chúng ta sẽ tính tính giá trị trung bình của hàm mất mát trên tập validation và tiếp tục huấn luyện cho đến khi giá trị hàm mất mát của tập validation nhỏ hơn
giá trị hàm mất mát của tập train khi mà quá trình early stopping dừng ở bước 1
Chiến lược tránh cho giá trị của hàm mất mát cao hơn trong quá trình huấn luyện lại từ đầu nhưng không được xử lý tốt Ví dụ như có thể hàm mục tiêu của tập validation có thể không đạt tới giá trị đích nên thuật toán có thể không dừng được Thuật toán được mô tả dưới đây:
Trang 29Một lý do khác khiến kết thúc sớm trở nên hữu ích là bởi vì nó giảm thiểu chi phí tính toán của quá trình huấn luyện Bên cạnh sự giảm thiểu rõ ràng về giới hạn của số lượng vòng lặp huấn luyện, nó cung cấp một dạng kiểm soát mà không yêu cầu cộng thêm một mức phạt phụ thêm nào vào hàm mất mát hoặc tính toán graident của các hạng tử phụ thêm đó
Cách kết thúc sớm hoạt động như một bộ kiểm soát: Ta đã biết rằng early stopping là một chiến lược kiểm soát mô hình Nhưng chỉ giải thích điều này bằng
việc chỉ ra đường cong học tập thể hiện rằng sai số trên tập xác thực có dạng hình chữ U Đâu là cơ chế thực sự mà kết thúc sớm sử dụng để kiểm soát mô hình? Bishop(1995) và Sjöberg và Ljung (1995) cho rằng kết thúc sớm có hiệu ứng hạn chế quá trình tối ưu hóa ở một vùng không gian tham số có thể tích tương đối nhỏ trong một lân cận của giá trị tham số khởi tạo ban đầu θ0, như minh họa trong hình7.4 Cụ thể hơn, tưởng tượng rằng ta áp dụng τ bước tối ưu hóa (tương ứng
với τ bước huấn luyện), với tốc độ học ϵ Ta có thể coi tích ϵτ như là một độ đo củadung lượng có hiệu lực Giả sử rằng gradient là bị chặn, việc hạn chế cả về số lượng vòng lặp lẫn tốc độ học sẽ giới hạn thể tích của không gian tham số có thể đến được từ θ Về mặt này, ϵτ có thể được xem như là đảo nghịch của hệ số sử dụng trong suy giảm trọng số
Hình 4 Minh họa về quá trình early stopping
(Hình bên trái)Đường vạch liền biểu thị đường đồng mức của hàm đối logarit hàm hợp lý Đường gạch đứt biểu thị quỹ đạo tạo ra bởi thuật toán trượt gradient ngẫu
nhiên bắt đầu từ gốc tọa độ Thay vì kết thúc tại điểm mà chi phí là cực tiểu, early
Trang 30stopping cho kết quả trên quỹ đạo tại điểm sớm hơn (Hình bên phải) Minh họa
hiệu ứng của phương pháp kiểm soát để so sánh với kết thúc sớm Đường tròn vạch đứt biểu thị đường đồng mức của phạt chuẩn Kiểm soát khiến cho điểm tối
ưu của tổng chi phí nằm gần gốc tọa độ hơn điểm tối ưu của hàm chi phí không được kiểm soát
Thật vậy, ta có thể chỉ ra rằng, trong trường hợp của một mô hình tuyến tính đơn giản với hàm sai số dạng đa thức bậc hai và chiến lược trượt gradient đơn giản,
early stopping là tương đương với kiểm soát
Để so sánh với cơ chế kiểm soát cổ điển, ta khảo sát một thiết lập đơn giản
trong đó các tham số chỉ là các trọng số tuyến tính (θ=w) Ta có thể xấp xỉ hàm chi phí J bằng một hàm bậc hai trong lân cận của giá trị tối ưu thực nghiệm của trọng
Giả sử rằng w(0)=0 và ϵ được chọn đủ nhỏ để đảm bảo |1−ϵλi|<1, quỹ đạo của
tham số trong quá trình huấn luyện sau t lần cập nhật tham số như sau:
Trang 31(7.40)
Bây giờ, áp dụng phương trình (7.13) cho kiểm soát để viết lại biểu thức thành:
(7.41) (7.42)
So sánh phương trình 7.40 và phương trình 7.42, chúng ta thấy rằng nếu chọn các
siêu tham số ϵ, α và τ sao cho
(7.43)
thì kiểm soát và kết thúc sớm được xem là tương đương (hoặc ít nhất là tương đương đối với xấp xỉ bậc hai của hàm mục tiêu) Phân tích sâu hơn, bằng cách lấy
logarit và sử dụng khai triển chuỗi cho log(1+x), ta có thể kết luận rằng nếu toàn
bộ λi là nhỏ (nghĩa là, ϵλi ≪1 và λi/α ≪1) thì
(7.44)
Tức là, theo các giả định này, số lần huấn luyện τ tỷ lệ nghịch với tham số kiểm
soát , và nghịch đảo của τϵ đóng vai trò là hệ số suy giảm trọng số.
Các giá trị tham số tương ứng với các hướng có độ cong lớn (của hàm mục tiêu) bị kiểm soát ít hơn so với hướng có độ cong nhỏ hơn Dĩ nhiên, trong trường hợp kết thúc sớm, các tham số tương ứng với các hướng có độ cong lớn có xu hướng học sớm hơn so với các tham số tương ứng với hướng có độ cong nhỏ
Các bước suy luận trong phần này đã chỉ ra rằng một quỹ đạo sau τ lần cập nhật tham số dừng tại một điểm tương ứng với một cực tiểu của hàm mục tiêu có kiểm soát Dĩ nhiên, kết thúc sớm không chỉ đơn thuần là kiểm soát chiều dài của quỹ đạo; thay vào đó, kết thúc sớm thường liên quan đến việc giám sát lỗi trên tập xác thực, để dừng quỹ đạo tại một điểm đặc biệt tốt trong không gian Do đó, kết thúc sớm có nhiều lợi thế hơn suy giảm trọng số ở chỗ nó sẽ tự động xác định chính xác lượng kiểm soát, trong khi phương pháp suy giảm trọng số cần thử nghiệm huấn luyện nhiều lần với các giá trị khác nhau của siêu tham số
7.9 Parameter tying và parameter shared
Trang 32Trong chương này chúng ta đã thảo luận về sự ràng buộc tham số và phạt tham số Chúng luôn được thực hiện xong với các vùng giá trị cố định hoặc các điểm Ví dụ như trong regularization phạt các tham số cho sai lệch từ giá trị cố định bằng 0 Tuy nhiên, đôi khi cần một số cách khác để miêu tả những kiến thức trước đó về giá trị thích hơp của tham số Thi thoảng chúng ta không biết chính xácgiá trị mà các tham số nên lấy, nhưng chúng ta đã biết, từ các kiến thức về miền và cấu trúc của mô hình, có một vài phụ thuộc giữa các tham số Một loại phụ thuộc thông thường nhất đó là các tham số nhất định phải gần nhau.
Ví dụ: Chúng ta có 2 mô hình phân lớp thực hiện cùng một nhiệm vụ Thông
thường, với mô hình A thì ta có tham số , với mô hình B có tham số Ta có và
Hãy tưởng tượng rằng nếu hai mô hình này đủ tương tự (cùng đầu vào và phân
phối của đầu ra) thì ta có thể tự tin rằng và rất gần nhau, hay nói các khác Ta
có thể tận dụng thông tin này qua regularization Đặc biệt, khi chúng ta sử dụng chuẩn thì ta thu được
Một loại tiếp cận được đề xuất đó là sử dụng trong regularized của một mô hình Cụ thể là ta train một mô hình phân lớp có giám sát, để gần với các tham số của mô hình khác, mô hình phân lớp bán giám sát Các kiến trúc được xây dựng sao cho nhiều tham số trong mô hình học có giám sát có thể bắt cặp với tham số trong mô hình không giám sát
Parameter sharing có nghĩa là ép cho các tham số bằng nhau, Bởi vì khi các mô hình khác nhau hoặc các thành phần khác nhau của một mô hình được chia sẻ thông tin từ một tập dữ liệu input duy nhất Một lợi thế của parameter sharing là chúng ta chỉ cần lưu một tập con các tham số trong bộ nhớ Nó được thể hiện rất rõtrong mạng CNN
7.10 Sparse Representations(đại diện thưa thớt)
Weight decay hoạt động bằng cách đặt một hình phạt trực tiếp nên tham số
của mô hình Một chiến lược khác là phạt vào hoạt động của một đơn vị trong mạng nơ-ron, khuyến khích các trọng số là thưa thớt Điều này gián tiếp áp đặt một hình phạt lên tham số của mô hình
Như đã trình bày ở trên, hình phạt gây ra sự thưa thớt trong tham số- có nghĩa là có nhiều unit trong tham số bằng 0 hoặc xấp xỉ bằng 0 Sparse
Representations, chính là cách biểu diễn mà nhiều phần tử trong tham số bằng 0
Trang 33hoặc sấp xỉ bằng 0 Dưới đây mà minh họa về Sparse Representations trong linear regression( hồi quy tuyến tính) :
Hình 5 Minh họa về sparse representation
Trong cách biểu thứ nhất, chúng ta có một ví dụ về sự thưa thớt của tham số trong mô hình hồi quy tuyến tính Trong cách biểu diễn thứ hai, chúng ta có mô hình hồi quy tuyến tính với sự thưa thớt của đại diện h Ở đây h có nghĩa là một hàm của x, hay nói cách khác h là một cách biểu diễn thưa thớt của dât x, chứ x không phải là một vector thưa thớt
Representational regularization được thược hiện tương tự như parameter
regularization Hàm mất mất được cộng thêm chuẩn phạt của representation Chuẩn phạt này được kí hiệu là Ta được công thức:
(θ; X, y) = J(θ; X, y) + αΩ(h) Với α
Cụng giống chuẩn gây ra sự thưa thớt cho tham số, một chuẩn phạt trên các phần
tử của đại diện cụng gây ra sự thư thớt của đại diện: Về cơ bản thì bất kì tham
số ẩn nào cụng đều có thể làm thưa thớt
Trang 347.11 Bỏ túi và các phương pháp kết hợp khác
Bỏ túi (bagging) (viết tắt của tổng hợp tự lực (bootstrap aggregating)) là một
kĩ thuật để giảm sai số tổng quát hóa bằng cách kết hợp một số mô hình khác nhau [Breiman, 1994] Ý tưởng ở đây là huấn luyện một vài mô hình khác nhau một cách riêng biệt, sau đó tất cả các mô hình bỏ phiếu xác định đầu ra cho các mẫu kiểm thử Đây là một ví dụ về một chiến lược tổng quát trong học máy được gọi
là trung bình hóa mô hình (model averaging) Những kĩ thuật sử dụng chiến lược này được gọi là các phương pháp hợp thể (ensemble method)
Chiến lược trung bình hóa mô hình hoạt động hiệu quả là nhờ các mô hình khác nhau thường sẽ không tạo các các lỗi giống nhau trên tập kiểm thử
Xem xét ví dụ về một tập k mô hình hồi quy Giả sử rằng mỗi mô hình tạo ramột lỗi ϵi trên mỗi quan sát, với các lỗi được rút ra từ một phân phối chuẩn đa biến
có trung bình 0, phương sai E[ϵ2i]=v và hiệp phương sai E[ϵiϵj]=c Theo đó, những lỗi được tạo ra bằng cách dự đoán trung bình của tất cả các mô hình trong hợp thể
là ∑iϵi Sai số bình phương kì vọng của bộ dự đoán hợp thể là
E[(∑iϵi)2]= E[∑i(ϵ2i+∑i≠jϵiϵj)] (7.50),
= v+ c (7.51)
Trong trường hợp các sai số là tương quan tuyệt đối (perfectly correlated)
và c=v, sai số bình phương trung bình giảm xuống còn v, do đó việc trung bình hóa
mô hình sẽ không mang lại lợi ích gì Trong trường hợp sai số hoàn toàn không tương quan với nhau và c=0, kì vọng bình phương sai số của mô hình hợp thể chỉ còn v Điều này có nghĩa là sai số bình phương kì vọng của mô hình hợp thể sẽ tỉ lệnghịch với kích thước của mô hình hợp thể Nói cách khác, xét theo trung bình, môhình hợp thể sẽ có hiệu suất tốt ít nhất bằng một mô hình thành phần bất kì nào đó của nó, và nếu các mô hình thành phần tạo ra các sai số một cách độc lập, mô hình hợp thể sẽ hiệu quả hơn nhiều so với các mô hình thành phần của nó
Các phương pháp hợp thể khác nhau xây dựng mô hình hợp thể theo các cách khác nhau Ví dụ, mỗi một thành phần của mô hình hợp thể có thể được tạo thành bằng cách huấn luyện các loại mô hình hoàn toàn khác nhau bằng các thuật toán và hàm mục tiêu khác nhau Bỏ túi là một phương pháp cho phép tái sử dụng nhiều lần cùng một loại mô hình, thuật toán huấn luyện, và hàm mục tiêu
Cụ thể, phương pháp bỏ túi sẽ xây dựng k tập dữ liệu khác nhau Mỗi tập dữ liệu có cùng một số lượng mẫu huấn luyện như tập dữ liệu gốc, nhưng mỗi tập dữ
Trang 35liệu được xây dựng bằng cách lấy mẫu có thay thế(sampling with replacement) từ tập dữ liệu gốc Điều này có nghĩa rằng, mỗi tập dữ liệu đều có khả năng cao bị thiếu một số mẫu và chứa một vài mẫu bị trùng lặp so với tập dữ liệu gốc[4] Mô hình i sau đó được huấn luyện trên tập dữ liệu i Sự khác biệt giữa các mẫu được thêm vào trong mỗi tập dữ liệu tạo nên sự khác biệt giữa các mô hình huấn
luyện.Ví dụ hình 7.5
[4] Khi cả tập dữ liệu gốc lẫn tập dữ liệu được tái lấy mẫu đều chứa m mẫu quan sát, tỉ lệ chính xác của các mẫu quan sát bị thiếu trong tập dữ liệu mới là (1−)m Đây là khả năng mà một quan sát cụ thể không được chọn trong số mm quan sát cóthể trong tập dữ liệu gốc để tạo ra tập dữ liệu mới Khi m tiến tới vô cùng, giá trị này hội tụ về 1e Giá trị này lớn hơn một chút so với
Hình 6 Một mô tả bằng hình ảnh về cách phương pháp bỏ túi hoạt động
Hình 6: Một mô tả bằng hình ảnh về cách phương pháp bỏ túi hoạt động Giả sử
chúng ta huấn luyện một bộ nhận diện số 8 trên tập dữ liệu được mô tả ở trên, bao gồm một số 8, một số 6 và một số 9 Giả sử ta tạo ra hai bộ dữ liệu được tái lấy mẫu khác nhau Quá trình huấn luyện bỏ túi xây dựng mỗi một bộ dữ liệu bằng cách tái lấy mẫu có thay thế Bộ dữ liệu đầu tiên bỏ qua số 9 và lặp lại số 8 Trên
bộ dữ liệu này, bộ nhận diện học được rằng có một vòng ở phần phía trên chữ số tương ứng với số 8 Trong bộ dữ liệu thứ hai, chúng ta lặp lại số 9 và loại bỏ số 6 Trong trường hợp này, bộ nhận diện học được rằng có một vòng tròn ở phần dưới của chữ số tương ứng với số 8 Mỗi quy tắc riêng lẻ này là khá yếu, nhưng nếu chúng ta lấy trung bình đầu ra của chúng, thì bộ nhận diện sẽ trở nên mạnh hơn và đạt được độ chính xác tối đa khi cả hai vòng tròn của số 8 xuất hiện
Trang 36Các mạng neuron nhân tạo đạt được bộ điểm tối ưu đủ đa dạng để có thể hưởng lợi từ phương pháp trung bình hóa mô hình ngay cả khi tất cả các mô hình được huấn luyện trên cùng tập dữ liệu Sự khác biệt trong khởi tạo ngẫu nhiên, trong chọn lô nhỏ ngẫu nhiên, trong siêu tham số, hoặc trong kết quả của việc thực thi không xác định các mạng neuron là đủ để khiến các mô hình thành viên khác nhau của mô hình hợp thể tạo ra các sai số độc lập theo từng phần.
Trung bình hóa mô hình là một phương pháp cực kì mạnh và đáng tin cậy đểgiảm thiểu sai số tổng quát hoá Việc sử dụng mô hình này thường không được khuyến khích khi đánh giá xếp loại (benchmarking) các giải thuật cho các bài báo khoa học, bởi vì bất kì một giải thuật học máy nào cũng có thể thu được lợi ích đáng kể từ trung bình hóa mô hình với cái giá phải trả là tăng khối lượng tính toán
và bộ nhớ Vì lý do này, việc đánh giá xếp loại thường được thực hiện sử dụng một
mô hình đơn
Các phương pháp sử dụng trung bình hoá mô hình trên hàng tá mô hình đơn
lẻ thường xuyên chiến thắng trong các cuộc thi học máy Một ví vụ nổi bật gần đây
là Netflix Grand Prize [Koren, 2009]
Không phải toàn bộ các kĩ thuật xây dựng các mô hình hợp thể được thiết kế
để mô hình hợp thể được kiểm soát hơn so với các mô hình đơn lẻ Ví dụ, một kĩ thuật được gọi là học tăng cường (boosting) [Freund và Schapire, 1996b,a] xây dựng một mô hình hợp thể với dung lượng cao hơn những mô hình đơn lẻ Học tăng cường đã và đang được áp dụng để xây dựng các hợp thể của mạng neuron [Schwenk and Bengio, 1998] bằng cách từng bước thêm các mạng neuron vào mô hình hợp thể Học tăng cường cũng đã được áp dụng để diễn giải một mạng neuronđơn lẻ như là một mô hình hợp thể [Bengio et al., 2006a], từng bước thêm các đơn
vị ẩn vào trong mạng
7.12 Cơ chế tắt ngẫu nhiên
Cơ chế tắt ngẫu nhiên (dropout) [Srivastava et al., 2014] cung cấp một
phương pháp đơn giản nhưng hiệu quả để kiểm soát một họ lớn các mô hình Nói một cách tương đối, cơ chế tắt ngẫu nhiên có thể được coi là một phương pháp khiến cho kĩ thuật bỏ túi thực hiện hợp thể rất nhiều mạng neuron lớn trở nên thực
tế hơn Bỏ túi bao gồm việc huấn luyện nhiều mô hình và đánh giá nhiều mô hình trên mỗi mẫu kiểm thử Điều này có vẻ phi thực tế khi mỗi mô hình là một mạng