Giải một số ví dụ phương trình đạo hàm riéng bằng Deep Learning GO đhường mốt, tác giả sẽ trình bày một cách tỔng quan r ý tưởng để giải rưột phương trình đạo hàm riêng bing Deep Lear
Trang 1TRƯỜNG ĐẠI HỌC BACH KHOA HA NOI
LUAN VAN THAC Si
Giải xấp xỉ phương trình đạo
hàm riêng bằng Deep Learning
NGUYÊN LÂM TÙNG Tung NL202889M/@sis hust.eđu vn
Trang 2CONG HOA XA HOT CHU NGHIA VIỆT NAM
Độc lập — Tự do - Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Hạ và tên tác giả luận văn : Nguyễn Lâm Tùng
Bê tài luận văn; Giải xấp xi phương trình đạo hàm riêng bằng Decp Learning
Chuyên ngành: Toán Tin
Mã số SV: 20202889M
Tắc giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn
xác nhận tác giả đã sửa chữa, bỏ sung luận văn theo biên bản họp Hội đồng ngày 21/07/2021 với các nội dung sau:
1 Chinh sửa lại nội dung trang số 12 vẻ xắp xi hàm
2 Chỉnh sửa lại thứ tự tài liệu tham khảo cho đứng chuẩn
Ngày tháng nam
CHỦ TỊCH HỘI ĐÓNG
Trang 3Lời cam đoan
Töi, Nguyễn Lâm Tùng, cam đoan rằng luận vấu thục sĩ với tiêu đề “Giải xấp xi phương trình đạa bàm riêng bằng Deep learning” là công trình nghiên cứu khoa học
của riêng tôi Tôi xin xác nhận rằng:
+ Tmận văn này được thực hiên chủ yến rong chương trình Thạc sĩ Khaa học
Toan Tin tai Viên Toán ứng dụng và Tìn học, Đại học Bách Khoa Hà Nội
«& Bất kỳ nội dung nào củu luận vũn này được sử dụng trong bắt kỳ tồi liệu nào khác đã được nếu rõ rằng,
Ất cả các tài liêu được sử dụng để tham khảo đã được trích dẫn đầy đủ Ngoài
các Lrích dân đó, luậu văn này hoàn loan là kết quả của Lôi
Chữ ký
Trang 4Đề tài luận văn
Tên dề tài: "Giải xắp xï phương trình đạo hàm riêng bằng Deep Learning",
luận văn gồm ba chương:
« Chương 1 '
ng quan về phương pháp giải quyết bài toán
« Chương 2 Kiến thức cơ sở Deen Learning
« Chương 3 Giải một số ví dụ phương trình đạo hàm riéng bằng Deep Learning
GO đhường mốt, tác giả sẽ trình bày một cách tỔng quan r ý tưởng để giải rưột
phương trình đạo hàm riêng bing Deep Learning,
Chương hai, tác giả sẽ rrình bày những kiên thức cơở sở liên quan đến Teen
Learning đồng thời giải thích chỉ tiết những thưặt toán đang được áp dựng phố biển phổ biến hiện nay
Chương ba tác giả sỡ trình bùy việc úp dụng Decp Leurning vào việc giải những
phương trình đạo hàm riêng Cụ thể là bễn ví dụ haa gồm một ví dụ về phương
trình tuyển tính không phụ thuộc thời gian, một: phương trình tuyển tính có phụ
thuộc thời gian, một phương trình phi tuyến không phu thưộc bhầi gian và một phương trình phí tmyên có phụ thuộc thồi gian
Giảng viên hướng dẫn
Kỹ và ghỉ rã hẹ tên
Trang 5Tóm tắt nội dung
Luận văn trình bày về việc giải những phương trình dạo hầm riêng bằng phương,
pháp Deep Learning Mạng no-ron có thể xắp xỉ rất tốt các hàm số liên tục, cùng với
đổ các thuật toán đạng Građient Descent lại rổ ra vô cùng hiện qua trong viée tim giá trị nhỏ nhết của một hàm số Dựa vào những điểm mạnh đó của Deep Learning
mà phương pháp giải xắp xi phương trình đạo hàm riêng bằng Deep Learning cũng
số E— (ƒ(w) — a)? — (gím) — 6)” Chương trình giải xấp xỉ các phương trình đạo hầm riêng được lặp trình bằng ngôn ngữ lập trình Python, cụ thể là việ sử dụng, các framework 1a ‘lensorflow và Keras, thuật toán Áclam được sử dung để cấp nhật
tham số Nhiing kiến thức cơ bản và phần trình bay cn thé các thuật toán tối ưu sẽ
có ở đường 2 trong luận vũn, Chương 3 của luận vấn là giải xấp xỉ những ví dụ cụ
thể từ đơn giản đến nhức tạp Tướng phát triển trong tương lai của Tnận văn đó Tà
những cải thiện thuật toán sao cho việc cập nhật tham số được nhanh hơu và lựa
chọn mạng lưới no-ron và bộ dữ liêu để luyện mỏ hình sao cho tối ưu
Học viên
Trang 6Muc luc
fh TONG QUAN VE PHUONG PHÁP GIẢI QUYẾT BÀI TOÁN
HIẾM |¿ an eres wy ore ww AH Mew OF MAO mE MOE w HOCH "1
lI.2_ Ý tưởng chung về phương pháp| - : : 12
1.3 Ap dung Deep Learning vào ý tưởng chung để giải quyết bài toán| 14
b2 —NDDDEULUDI, - - + ‹.‹ ce meen nee Be ee eek eee 23
2.3 Nesterov Accolratod Gradient(NAG]| 24
Trang 7
Muc Luc
ls_ CAC Vi DU GIAI XAP Xi PHUONG TRÌNH DAO HAM RIENG
[3.1 Phương trình nhiệt không phụ thuộc thời gian] cleo Ssmis seme 31
B.2_ Phương trình nhiệt phụ thuộc thời gian| 34
B3 Phương trình Steady Navier-Stokes| - 37
(3.4 Phương trình Navier-Stoke| 40
Trang 8
Danh sách hình vẽ
Lt Một số vi dụ về đử liệu lưới uuông của bài toán| lỗ
Ba Ví dụ uê mạng ngon] .- 18 2.2 Ví đụ sự phụ thuộc của một nơ-ron vào lúp phía trướt]| 18 b3 Ý tưởng thuật toán Gradient DescenÌ| 21
[2.4 Moi quan hé gitta các thuật todn toi wu) 21
[3.1 Streamline nghiém u cia bai todn Kovasznay| 6 6 eee 30
8.2 Thi nghiệm hiện tượng cavity] 68 tp lc là SÚÐ ngon HOT specieMem ein 41
3.3 Ket qua mo phẳng cavity trong từng giai đoạn | 43
Trang 9Danh sach cac thuat toan
28 28
Trang 10.TL Số liệu uẽ phương trình Poisson không phụ thuộc thời gian] 38
3.2 Số liệu uề phương trình Poisson phụ thuộc thời gian| 36
3.3 Số liệu uê phương trình Stcadu Nauier-Stak| 39
Trang 11của phần cứng máy tính, đặc biệt là GPU, rất nhiều ứng dụng của Deep Learning
đã khẳng định được sự hiện quả của mình, ví dụ như nhận điện khuôn mặt [TJ, phan loại ảnh JĐ], nhận diện giọng nói l], lọc thư rác R], dự báo thời tiết Đ], xử lý ngôn
ngữ tự nhiên [ỗ], phân tích tài chính [7]
Phương trình đạo hàm riêng có vai trò rắt quan trọng trong toán học, chúng có
đối với những phương trình phức tạp như số chiều của biến lớn hoặc có thành phan
phi tuyến trong phương trình, thì việc giải số cũng sẽ vất vả hơn nhiều Vì những
lợi thế trong việc giải quyết tất cả các vấn đề trên, giải phương trình đạo hàm riêng,
bằng Deep Learning la mot phương pháp đáng cân nhắc Trong những nam gan day
đã có rất nhiều những nghiên cứu về việc giải phương trình đạo hàm riêng bằng
Deep Learning như [19], 20}, 2X), 2] 23), 2 251, 20), 27, (2S), J29I [5], BỊ,
ul
Trang 12HAP GIẢI ÊT BÀI TOÁN B;
(f(u) — a)’ + (g(u) — 8)? =0
trên hữu hạn các điểm thuộc miền tính toán để tìm ham w = u(x) Việc giải
phương trình trên được thực hiện bằng cách tìm giá trị nhỏ nhất của hàm số vế
trai L = (f(u) — 4)” + (g(u) — b)” đồng thời xắp xỉ hàm w bing mot mang no ron NN(x.W)
~ a _ „ì 2 „ +
= ta sé di tim min của hàm Z() = (ƒ/(VA@,WW)) =a) + (ø(VAG.W)) =9)
Với Deep Learning, việc tìm giá trị nhỏ nhất của một hàm số được thực hiệ
các thuật toan dang Gradient Descent và phương pháp đạo hàm tự động [30]
dc du(z) dế
để tính đạo hầm của các hàm hợp Mang nơ ron chính là một hàm hợp
Ví dụ như việc tính đạo hàm của ƒ(z) = (30 +2)!
Phương pháp giải phương trình đạo ham riêng này áp dụng cho hầu hết các phương
trình dao ham riêng bất kể là đơn giản hay phức tạp, ít chiều hay nhiều chiều Các
bước cụ thể hơn sẽ được trình bày sau đây
1.2 Ý tưởng chung về phương pháp
Phương trình đạo hàm riêng có dạng chung như sảu:
Trang 13CHƯƠNG 1 TỎNG QUAN VỀ PHƯƠNG PHÁP GIẢI QUYẾT BAL FOẦN BẰNG DERP LEARNING
« £ là một toán tử bác động lên ø(x,£), các đạo hàm riêng của uÖ< #) và các hầm
số không nhụ thuộc vào u(x,t)
Giả sử hàm ø*{x,f) là nghiệm dâng của bài toán Đề giải quyết bài toán, tác giả sẽ
chia lộ trình giải ra làm 4 bước nhỏ:
« Hước 1: Xắp xỉ nghiệm w*(x,t) bằng một hàm số VÀ phụ thuộc vào x,f và
một hệ tham số W, ta có mạng W W(x,†, W)
e Bước 2: Lấy ra một tặp hữu hạn các điểm x rong miều Ø, gọi tập đó là My
« Bước 3: Xây đựng một hàm Loss đẻ đánh giá mức độ hiệu quả của bộ tham
số W Hàm Loss là một hàm số phụ thuộc vào EỪ và tập các diéin x won Qa
Xét riêng trên tập Og, thì giá trị hằm Iass càng nhỏ thì mức độ hiệu quả của
W cing cau doug nghĩa với việc nghiệm xấp xỉ WA'(x,(, MP) càng gần nghiệm:
đúng tử{x, É)
«+ Hước 4: Dựa vào hầm Loss để hiệu chỉnh bộ tham số W# 'Lừ đồ ta có nghiệm
cầu tầm là mạng WN(x 1W)
Tiép theo tac giả sẽ làm rũ lớn từng bước một thông qua một ví dụ đơn giần Ví
dụ trong giải phương trình sau
Giả sử ta xấp xi nghiệm cần tim u* (a) bang mét mang V(x, H’) cé dang nhu sau
NN (a, W) — NN(a, tú, tới, &9, 10g) — wp + aye + ua? + wr
(Chi ¥: mang ne-ron thirémg en thanh mét hàm hạn phức tap phụ thnộc vào nhiều
tham 6 w;, dé giải thích một cách dơn gién, vie gid xd voi như nàng ng-ron trong,
ví dụ này cấu thành một hàm số bậc ba phụ thuộc vào 4 tham số)
Bước 9:
Giả sử ta sẽ lấy tấp hợp gồm 5 phần tử nằm trong miễn [-1,1] là
9¿={ 1L 0.5,0,0.5,1}
Trang 14Trên đã ý tưởng chung về phương pháp giải quyết bài toán, phần tiếp theo
của chương tác giả sẽ trình bày về việc áp dụng Deep Learning để giải phương trình
đạo hàm riêng với ý tưởng vừa nêu
1.3 Ap dung Deep Learning vao ¥ tuéng chung dé giải quyế
bài toán
Việc áp dung Deep Learning để giải xắp xỉ bài toán với ý tưởng trên sẽ có một số
lưu ý về từng bước như sau:
Bước 1:
Ta sẽ xắp xỉ nghiêm ø*(x,f) bằng một mạng nớ-ron, mạng nơ-ron về bản chất
cũng là một hàm Cơ sở cho việc làm này bất nguồn từ các định lý sau:
Trang 15
© Năm 1991, Kurt Hornik đã chứng minh được định lý xắp xỉ phổ quát [7] định
lý đó khẳng định về việc mang neuron có thé xfp xỉ mọi hàm số liên tục trên
tập compaet Tuy nhiên, định lý này chỉ áp dụng cho mạng neuron một tầng
ẩn với số nơ-ron trong tầng đó không giới hạn Nếu chỉ sử dụng một tầng ẩn,
số lượng nd-ron trong đó có thể sẽ rất lớn, khiến việc huấn luyện thực tế là bất
kha thi
Téi nam 2017, Zhou Lu va Hanin [38], [89] da chitag minh một định lý giống với
định lý trong Ef7[ nhưng dành cho có mang chiều sâu thay vì mạng có chiều
rộng không giới han trong [37]
Việc xây dựng một mạng nơ-ron phải trải qua nhiều bước, tác giả sẽ trình bày
chỉ tiết việc xây dựng mạng nơ-ron ở phần P.1]
Bud
Việc lựa chọn một tập hợp hữu hạn các điểm thuộc miền © chính là bước lấy dữ liệu
để luyện mạng lưới trong Deep Learning Có hai hướng chính để tạo ra dữ liệu, đó
là lấy ngẫu nhiên N điểm trong miền (theo (23) |Z0J 22), 2] (25) 29), (30) [T0]
BI, f2) và hướng thứ hai là lấy N đi
Hình 1.1: Một số vi dụ uề dữ liệu lưới uuông của bài toán
ẽ nhiều hơn, từ đó thời gian
Với mặt độ điểm dày hơn, số lượng dữ liệu cần luyệt
để luyện cũng sẽ lâu hơn, bù lại thì mức độ đại điên cho toàn bộ miền của tập dữ liệu đó cũng tốt hơn
Trang 16
Goi tap dữ liêu là Qạ Dé mạng lưới của chúng ta thỏa mãn phương trình đạo hàm
riêng, hàm Loss của bài toán sẽ có dạng
W rdi sau đó lựa chọn, ta có thể Trong Deep Learning, người ta sử dụng
những thuật toán gọi là optimizer để tim W, c6 rat nhiều thuật toán hiệu quả có
jäi bài toán nà
thể sử dụng được vào vi mỗi thuật toán thì đều có những ưu
nhược điểm riêng, tác giả sẽ trình bày chỉ tiết từng thuật toán trong phần
Trang 17Chuong 2
KIEN THUC CG SG DEEP LEARNING
Trong Deep Learning, hai thành phần cơ bản nhất là dữ liệu và mô hình Dữ liệu thì
ở khấp mọi nơi, chúng có thể ở bắt cứ định dạng, kích cỡ nào, ví dụ như bình luận
trên mạng xã hội, hình ảnh trên các website, giọng thu âm của một nhóm người,
Mö hình trong Deep Learning được mô phỏng lại dựa theo cơ chế hoạt đông giống
hệ thần kinh não người, nghĩa là mô hình sẽ tiếp nhận dữ liệu bên ngoài, xử lý dữ
liệu và đưa ra kết quả, ví dụ như quá trình nhận dạng của con người, con người có
thể nhận ra khuôn mặt người quen, giọng nói người quen, phân biệt được giới tính
của một người, nhận dạng màu sắcHỮ| Cụ thể hơn, mö hình Deep Learning là
một hàm số hàm số này phức tạp và phụ thuộc vào nhiều tham số, người dùng sẽ
cố gắng điều chỉnh bộ tham số đó sao cho hàm số đó cho ra được kết quả đầu ra ing
ý nhất Trong chương này tác giả sẽ trình bày về kiến trúc của mô hình và những phương pháp để điều chỉnh bộ tham số eủa mô hình (trong Deep Learning, mô hình
đồng nghĩa với mạng lưới, nên trong luận văn, tác giả sẽ sử dụng thuật ngữ mạng,
lưới thay cho mô hình để tránh nhầm lẫn với thuật ngữ mõ hình trong toán học)
2.1 Kiến trúc của mạng lưới Deep Learning
Một mạng lưới Deep Learning cơ bản sẽ bao gồm nhiều lớp, bao gồm lớp đầu vào (gọi là Input layer), lớp đầu ra (gọi là Output layer) và những lớp ẩn ở giữa (goi là
Hidden layers), mỗi lớp sẽ có một số lượng nơ-ron nhất định Ví dụ như ở hình bên đưới, ta có lớp đầu vào có 2 nơ-ron, 2 lớp ẩn mỗi lớp có 3 nơ-ron, và lớp đầu ra có
1 nd-ron.
Trang 18CHUONG 2 KILN THUC CO SO DEEP
RNING
ee
Hình 2.1: Ví đụ sẻ mạng no-ron
2.1.1 Lan truyền xuôi
Con người tiếp nhân một thông tin vào não, sau khi xử lý thông tỉn đó, não con
người sẽ cho ra kết quả, quá trình lan truyền xui cũng giống như vậy Dây quá
trình tính toán giá trị của tất cả các nơ-ron trong mạng theo chiều từ lớp đầu vào
tới lớp đầu ra[HT], nó giống như tính giá trị của các hàm số ƒ(z) Ta lấy ví dụ với
hình bên dưới
Hình 9.2: Ví dụ sự phụ thuộc của một nd-ron uào lập phía trước
Với hình trên, giả sử h là giá trị của một nơ-ron ở lớp ẩn, ở lớp phía trước đó có
9 nơ-ron nối vào, giá trị của 2 nơ-ron đó lần lượt là z¡ và z¿ Hệ số tương ứng lần
lượt là ø¡ và +ø¿, Giá trị của h sẽ được tính theo công thức
h= (in + zama + b)
Trang 19CHUONG 2, KIEN THUC CO SO DEEP LEARNING
tổng quát hơn đối với đầu vào là vec-tơ n chiều
@ b 1a bias, hay còn gọi là hệ số tự do
Hàm kích hoạt ƒ trên đây thường là hàm phi tuyếnHØ], một số hàm phổ biến có
Luyện một mạng lưới chính là tìm ra bộ các tham số w¿ và b¡ phù hợp để mang
lưới có đầu ra mong muốn Ban đầu bộ tham số œị và bj được người dùng khởi tạo,
Trang 20
nên đầu ra của mạng lưới khả năng cao là không được như ý Cho nên chúng ta cần
phải tìm ra bộ tham số tối ưu Cơ sở của quá trình tối ưu này nằm ở phần tiếp theo
của luận văn, đó là lan truyền ngược
2.1.2 Lan truyền ngược
Dây giống như quá trình học eủa con người, ví dụ như việc chúng ta có thể gọi
được tên của các màu sắc là bởi chúng ta đã được quan sát, nghe và đọc tên của
chúng nhiều lần Mục đích của quá trình lan truyền ngượcH3| đó là cập nhật lại
của ham mất mát đủ nhỏ thì có thể coi như bộ tham số đủ tốt, thường thì khi xây
dựng hàm mắt mát, người ta sẽ để giá trị của hàm luôn không âm Ý tưởng chủ iS Bl
trong đó ; là hệ số học, hay còn gọi là fearning rafe, là một số thực dương được cài
đặt tùy ý bởi người dùng
Trang 21
CHUONG 2,_KIEN THỨC CO SO DEEP LEARNING
Hình 3.3; Ý tưởng thuật toán Gradient Descent
'Từ ý tưởng tổng quát đó, một số thuật toán đã được xây dựng để tối tu hóa quá
trình lan truyền ngược này Một số thuật toán phổ biến sẽ được trình bày ở phần sau
2.2 Các thuật toán tối ưu
Ý tưởng nên là thuật toán Gradient Descent, rất nhiều thuật toán khác đã được
xây dựng nên nhằm tăng tính hiệu quả của việc cập nhật tham số Những thuật
toán đó đã được tích hợp sẵn trong các thư viện hỗ trợ lập trình Deep Learning như
“TensorFlow[ðỊ, Keras[Tũ], Pytorch[T|
Nesterov Aecelerated
Hình 2.4: Mái quan hệ giữa các thuật toán tối ưu
Trang 22
thay vì gọi bộ gồm các tham số wạ và b, Hàm mắt mát được ký hiệu là J, với
J = I(x, wr, Wa Wn, br, ba, ., bm) trong dé x là một veetor đầu vào
2.2.1 Gradient Descent
Gradient Descent [44] 1a thuat toán cơ bản nhất, là nền tảng để phát triển rất nhiều
thuật toán khác sau này
“Thuật toán 1: Gnudient Dcsecnt
chọn giá trị cho learning rate 7 ;
while <diéu kiện đừng chưa thỏa tân > do
sử ta có bộ đữ liệu X = {xi, .xw}, ta chia bộ X thành k tập con
X¿} Thuật toán Gradent Descent được chia làm 3 loại nhỏ tùy thuộc
sẽ phải thực hiện lại, không phù hợp với yêu cầu của một số bài toán hiện nay
Cách thứ hai đó là Stochastie Gradient Descent da duge sinh ra nhầm giải quyết vấn đề của cách thứ nhất, dữ liệu được thêm vào sẽ được đưa vào thuật toán để cập
nhật bộ tham số luôn mà không phải luyện lại dữ liêu cũ, tuy nhiên cách này lại
rất mất thời gian do một điểm dữ liêu không thể đại diện cho toàn bộ dữ liệu được
cho nên sự hội tụ của hàm mắt mát sẽ lâu hơn
Cách thứ ba là mini-bacth Gradient Descent được xây dựng nhằm giải quyết vấn
đề của cả hai cách trên, đó là vẫn đáp ứng được nhu cầu thêm bớt dữ liệu, mà chọn
Trang 23
CHUONG 2,_KIEN THỨC CO 86 DEEP LEARNING
ra một tập con của bộ dữ liệu thì tính đại diện sẽ cao hơn một điểm, cho nên tốc
& Dễ bị mắc vào cực tiểu địa phương,
© Việc lựa chọn hệ số học (learning rate) là tùy ý, nên rất khó lựa chọn sao cho hợp lý Nếu giá trị nhỏ quá, việc hội tụ sẽ lâu, nếu giá trị lớn quá, có thể bộ
tham số đạt được sẽ không tốt
Descent with Momentum, là một cải tiến của thuật toán Gradient Deseent ra đời
để giải quyết nhược điểm đó
“Thuật toán 2: Œrudient Desccnt tìth Momentum
khởi tạo bộ tham số Mi ;
chon gia tri cho learning rate 7 va tham số momentum + ;
khởi tạo bước nhảy ban dau Vj :
while <diéu kién ditng chita théa man> do
“Trên cơ sở lý thuyết của thuật toán này ta có thé đưa ra một vài nhận xét sau:
ø Thuật toán này áp dụng nguyên lý chuyển động có quán tính Giống như một
viên bí thả lăn trên đốc, chỗ nào càng đốc thì sau đó viên bỉ lăn đi càng xa, đo
đó nó có thể sẽ không bị dừng lại ở một cực tiểu địa phương nào đó
Trang 24
CHUONG 2 KIẾN THỨC CO SO DEEP LEARNING
© Tham số + thường được chọn là 0.9 (theo Hồ]) Việc cài đặt tham số + lớn như
làm cho việc cập nhật tham số có được dao động mạnh hơn, dẫn đến
vay s
việc cập nhật tham số có khả năng thoat khoi exe tiéu dia phương cao hơn,
Ưu điểm
© Có khả năng giúp việc cập nhật tham số thoát khỏi cực tiểu địa phương và tiến
gần hơn với eựe tiểu toàn cục
Một phiên bản khác của Gradient Descent with Momentum cé6 tén gọi là Nesterov
Aceelerated Gradient[7Ị Thuật toán này được xây dựng nhằm mục đích khắc phục
nhược điểm hội tụ lâu của Gradient Descent with Momentum
Thuat toan 3: Nesterov Accelerated Gradient
khởi tạo bộ tham s6 Wo ;
chon gia tri cho learning rate 7 và tham số momentum + ;
Khởi tạo bước nhảy ban đầu Ví ;
while <điều kiện đừng chưa thỏa mãn > do
Trang 25CHUONG 2,_KIEN THỨC CO 86 DEEP LEARNING
t — sage tae Ode = i Z ‘
celerated Gradient thi bước nhảy đồ lại ly ĐT „ Ö đây bước nhảy
i
Gradient Deseent (là bước nháy thứ hai) được thực hiện tại bộ tham số ở tương
lai (nghĩa là san khi cập nhật tham số lần đầu với momenttu quán tính, bước
nhảy tiếp theo mới được thực hiện với bộ tham số mới)
® Vòng lặp while của thuật toán tương đương, với
e Uu diém va nhuge điểm cita thuat toan Nesterov Accelerated Gradient thì giống
Gradient Descent with Momentum
So sinh vdi Gradient Descent with Momentum
e thuat toAn Nesterov Accelerated Gradient ¢6 kha nang hoi ty nhanh hon
erov Accelerated Gradient c6 khả năng mắc phải cực tiểu địa
© thuật toán Nes
phương cao hơn
2.2.4 Adagrad
là một biến
Giống như Gradient Deseent with Momentum, thuật toán Adagrad|
thể khác của Gradient Descent
Thuật toán 4: Adagrad
khởi tạo bộ tham số IH, Ớụ ;
Vi du trong bitée cap nhat W, thi gid tri Gy = Thy (ar) 2
ta có thể đưa ra một vài nhận xét sau:
“Trên cơ sở lý thuyết của thuật toán này
Trang 26
¢ Do tham s6 Œ¡ luôn lớn dẫn theo thời gian, do đó thành phần learning rate
LÃ nhỏ dần theo thời gian Bởi thế mà khi chạy lâu, bộ tham số sau thu
được khả năng cao sẽ tốt hơn bộ tham số trước
© Do khả năng lưu trữ của máy tính không lưu được số quá nhỏ, nên máy tính
sẽ coi số quá nhỏ là số 0, do đó hệ số e được cộng vào ở đây là để tránh cho
mẫu số bằng 0
tùng là biến thể của Gradient Descent, tuy nhiên Gradient Descent with Mo-
mentum và Adagrad lại có tính chất hoàn toàn ngược nhau Trong ví dụ một
viên bi đang lăn xuống dốc, đốc càng lớn thì momentum sẽ càng lớn khiến viên
bi di thêm quãng đường càng đài, ngược lại thuật toán Adagrad lại cing kim
hãm bước nhảy của viên bi lai
learning rate quá nhỏ
© Kha nang thoát khỏi cựe tiểu địa phương kém (kém hơn ci Gradient Descent)