42 3.1.2 Tính hội tụ toàn cục của phương pháp gradient liên hợp 3-số hạng với thủ tục tìm theo tia kiểu Wolfe.. Vì việc giải một hệtuyến tính tương đương với tìm cực tiểu của một hàm toà
Trang 1TRƯỜNG ĐẠI HỌC KHOA HỌC
PHẠM THỊ MINH THUẬN
PHƯƠNG PHÁP GRADIENT LIÊN HỢP VÀ ỨNG DỤNG
LUẬN VĂN THẠC SỸ TOÁN HỌC
THÁI NGUYÊN - NĂM 2010
Trang 2TRƯỜNG ĐẠI HỌC KHOA HỌC
PHẠM THỊ MINH THUẬN
PHƯƠNG PHÁP GRADIENT LIÊN HỢP VÀ ỨNG DỤNG
LUẬN VĂN THẠC SỸ TOÁN HỌC
Trang 3Mục lục
1 Cơ sở toán học của phương pháp và các khái niệm liên
1.1 Một số khái niệm và kết quả cơ bản của giải tích lồi 3
1.2 Phương pháp hướng giảm 7
1.2.1 Điều kiện tối ưu 7
1.2.2 Hướng giảm 9
1.2.3 Độ dài bước 11
1.3 Phương pháp gradient 13
1.3.1 Thuật toán gradient với thủ tục tìm chính xác theo tia 13
1.3.2 Thuật toán gradient với thủ tục quay lui 14
1.4 Phương pháp Newton 14
2 Phương pháp gradient liên hợp 17 2.1 Hướng liên hợp 17
2.2 Phương pháp gradient liên hợp 22
2.2.1 Phương pháp Fletcher - Reeves tìm cực tiểu hàm toàn phương (F-R) 22
2.2.2 Phương pháp Fletcher - Reeves tìm cực tiểu hàm khả vi liên tục bất kỳ 35
2.2.3 Một số ví dụ áp dụng 37
2.3 Tốc độ hội tụ của phương pháp gradient liên hợp 40
Trang 43 Mở rộng phương pháp gradient liên hợp 42
3.1 Phương pháp gradient liên hợp 3-số hạng 42
3.1.1 Thuật toán tái khởi Beale-Powell 42
3.1.2 Tính hội tụ toàn cục của phương pháp gradient liên hợp 3-số hạng với thủ tục tìm theo tia kiểu Wolfe 43
3.1.3 Phương pháp gradient liên hợp 3-số hạng Beale 49 3.2 Phương pháp gradient liên hợp hiệu chỉnh trước chỉ số điều kiện 51
Kết luận 55
Tài liệu tham khảo 56
Phụ lục 63
Trang 5Mở đầu
Trong thực tế rất nhiều hoạt động kinh tế, xã hội, đòi hỏi con ngườiphải quan tâm tới việc tìm phương án tốt nhất để đạt được mục tiêu
mong muốn Đó chính là các bài toán tối ưu Các bài toán tối ưu là một
chủ đề hấp dẫn với nhiều kết quả phong phú luôn thu hút sự quan tâmcủa các nhà nghiên cứu
Luận văn này đề cập tới phương pháp gradient liên hợp và ứng dụngcủa nó Phương pháp gradient liên hợp được Hestenes và Stiefel nêu rađầu tiên vào những năm 1950 để giải hệ tuyến tính Vì việc giải một hệtuyến tính tương đương với tìm cực tiểu của một hàm toàn phương xácđịnh dương, nên vào năm 1960 Fletcher - Reeves đã cải biên và pháttriển nó thành phương pháp gradient liên hợp cho cực tiểu không ràngbuộc Nhờ đó phương pháp này hoàn thiện phương pháp giảm nhanhnhất nhằm làm tăng hiệu quả và độ tin cậy của thuật toán Phương phápgradient liên hợp là trung gian giữa phương pháp gradient và phươngpháp Newton, nó thay đổi hướng tìm trong phương pháp gradient bằngcách thêm vào một tỷ lệ dương của hướng dùng ở bước ngay trước đó.Phương pháp này chỉ cần tới đạo hàm riêng bậc nhất nhưng lại khắcphục được tính hội tụ chậm của phương pháp gradient
Mục tiêu của luận văn là tìm hiểu và trình bày những kết quả cơ bản
đã biết liên quan đến phương pháp gradient liên hợp, các tính chất nhưtính liên hợp, tính trực giao, tính hội tụ và một số phương pháp mở rộngcủa phương pháp này Nội dung đề cập trong luận văn được trình bàymột cách chặt chẽ về mặt toán học kèm theo một số ví dụ minh họa.Luận văn được chia làm 3 chương:
Trang 6Chương 1: nhắc lại một số khái niệm cơ bản của giải tích lồi, như tậplồi, hàm lồi và hàm toàn phương, hướng giảm và phương pháp gradient,phương pháp Newton để phục vụ cho các chương tiếp theo.
Chương 2: trình bày các khái niệm, tính chất của hướng liên hợp,phương pháp gradient liên hợp giải bài toán cực tiểu hàm toàn phương,nêu các định lý về tính hội tụ của phương pháp gradient liên hợp và mởrộng phương pháp này để tìm cực tiểu của một hàm khả vi liên tục bất
kỳ Cuối chương tác giả nêu ra một số ví dụ áp dụng
Chương 3: trình bày phương pháp gradient liên hợp 3-số hạng Đó là
sự cải tiến phương pháp F-R tìm cực tiểu hàm khả vi liên tục bất kỳ bởi
vì nếu dùng hướng giảm nhanh nhất thì mức giảm hàm mục tiêu thườngkém so với mức giảm có thể thu được khi không dùng tái khởi; còn nếudùng hướng tái khởi tùy ý thì quan hệ liên hợp đòi hỏi có thể khôngcòn đúng Ngoài ra, trong chương này còn chỉ ra nguyên nhân làm cho
phương pháp gradient liên hợp kết thúc sau nhiều hơn n lần lặp là do
sai số trong quá trình tính toán và từ đó đưa ra biện pháp khắc phụctình trạng này
Các kết quả tính toán thử nghiệm được thực hiện bằng các chươngtrình lập trong môi trường Matlap
Mặc dù đã rất cố gắng, song bản luận văn không thể tránh khỏi nhữngsai sót Tác giả rất mong nhận được sự chỉ bảo, đóng góp của các Thầy
Cô và các bạn đồng nghiệp để luận văn thêm hoàn thiện
Tác giả luận văn xin bày tỏ lòng biết ơn sâu sắc đến Thầy hướng dẫnGS.TS Trần Vũ Thiệu đã tận tình hướng dẫn trong suốt quá trình làmluận văn Tác giả cũng xin chân thành cảm ơn các Thầy Cô, các bạn
bè, đồng nghiệp và gia đình luôn giúp đỡ, động viên, khích lệ trong suốtquá trình học tập và nghiên cứu
Thái Nguyên, ngày 18 tháng 09 năm 2010
Học viênPhạm Thị Minh Thuận
Trang 7Chương 1
Cơ sở toán học của phương pháp và các khái niệm liên quan
Trong chương này ta sẽ giới thiệu một số khái niệm và các kiến thức
cơ bản sẽ dùng ở các chương sau
1.1 Một số khái niệm và kết quả cơ bản của giải
tích lồi
Giải tích lồi đóng vai trò quan trọng trong việc nghiên cứu và xâydựng các thuật toán giải các bài toán tối ưu, trước hết ta sẽ nhắc lại cáckhái niệm tập lồi và hàm lồi
Định nghĩa 1.1 (Tập lồi)
Cho hai điểm a, b ∈ R n , tập tất cả các điểm x = (1 − λ)a + λb với
0 ≤ λ ≤ 1 gọi là đoạn thẳng đóng nối a và b và được kí hiệu là [a, b].
Tập C ∈ R n được gọi là lồi nếu nó chứa mọi đoạn thẳng nối hai điểm bất kỳ thuộc nó Nói cách khác, nếu (1 − λ)a + λb ∈ C, ∀a, b ∈ C và mọi
Trang 8Ta gọi f là hàm lồi chặt trên tập lồi X nếu
f (λx1 + (1 − λ)x2) < λf (x1) + (1 − λ)f (x2)
với bất kì x1, x2 ∈ X, x1 6= x2 và mọi số thực λ ∈ (0, 1).
Hàm f (x) gọi là lõm (hay lõm chặt) trên X nếu −f (x) là lồi (lồi chặt) trên X.
Định nghĩa 1.3 Cho hàm số f xác định trên tập mở X ⊆ R n
Hàm f được gọi là liên tục tại điểm x0 ∈ X nếu với mọi ε > 0, tồn tại
δ > 0 sao cho |f (x) − f (x0)| < ε với mọi x ∈ X thỏa mãn k x − x0 k< δ Nói cách khác, hàm f liên tục tại x0 ∈ X nếu với mọi dãy {x n } ⊂ X hội tụ đến x0, ta có {f (x n )} → f (x0).
Hàm f được gọi là nửa liên tục dưới (t.ư., nửa liên tục trên) tại điểm
x0 ∈ X nếu tồn tại ε > 0, tồn tại δ > 0 sao cho
f (x) ≥ f (x0) − ε (t.ư., f (x) ≤ f (x0) + ε)
với mọi x ∈ X thỏa mãn k x − x0 k< δ Nói cách khác, hàm f là nửa liên tục dưới (t.ư., nửa liên tục trên) tại điểm x0 ∈ X nếu với mọi dãy {x n } ⊂ X hội tụ đến x0 và dãy {f (x n )} ⊂ R hội tụ, ta có
thì liên tục tại điểm đó.
Hàm f được gọi là liên tục (t.ư., nửa liên tục dưới, nửa liên tục trên) trên Xnếu nó liên tục (t.ư., nửa liên tục dưới, nửa liên tục trên) tại mọi điểm của X.
Định nghĩa 1.4 Giả sử f : R n → [−∞, +∞] là hàm số tùy ý và C ⊂ R n
là tập tùy ý.
Điểm x0 ∈ C ∩ domf được gọi là điểm cực tiểu toàn cục của f (x) trên C nếu −∞ < f (x0) ≤ f (x) với mọi x ∈ C.
Trang 9Điểm x0 ∈ C được gọi là điểm cực tiểu địa phương của f (x) trên C, nếu tồn tại lân cận U(x0) của x0 sao cho −∞ < f (x0) ≤ f (x) với mọi
x ∈ C ∩ U(x0).
Các khái niệm cực đại địa phương và cực đại toàn cục được định nghĩa tương tự Đối với hàm f tùy ý trên tập C, ta ký hiệu tập tất cả các điểm cực tiểu (cực đại) toàn cục của f trên C là Argmin
∀k :k x k+1 − x ∗ k≤ c k k x k − x ∗ k và c k → 0, hội tụ đến x ∗ với tốc độ hội tụ bậc hai nếu
Trang 10Do đó
f 0 (x0, d) − h∇f (x0), di
k d k = 0,
và ta nhận được điều phải chứng minh
Nhận xét Đặt ϕ(t) := f (x0 + td) Khi đó, theo định nghĩa ta có
Như vậy, đạo hàm theo hướng của f tại x0 phản ánh tốc độ biến
thiên của f tại x0 theo hướng đó Hơn nữa, theo bất đẳng thức
Cauchy-Bunjakowski-Schwarz trong tất cả các hướng d ∈ R n có k d k= 1, ta
y T ∇2f (x)y > 0, ∀y ∈ R n \{0}.
ii) Hàm f là lõm trên X khi và chỉ khi ma trận Hessian ∇2f (x) là nửa xác định âm trên X, tức là với mỗi x ∈ X,
y T ∇2f (x)y ≤ 0, ∀y ∈ R n
Trang 11Hàm f là lõm chặt trên X nếu ∇2f (x) xác định âm trên X, tức là với mỗi x ∈ X,
y T ∇2f (x)y < 0, ∀y ∈ R n \{0}.
Hệ quả 1.1 Cho hàm toàn phương
f (x) = 1
2hx, Qxi + hx, ai + b,
trong đó Q là ma trận đối xứng cấp n × n Khi đó:
i) f là hàm lồi (t.ư., lồi chặt) trên R n khi và chỉ khi Q là ma trận nửa xác định dương (t.ư., xác định dương).
ii) f là hàm lõm (t.ư., lõm chặt) trên R n khi và chỉ khi Q là ma trận nửa xác định âm (t.ư., xác định âm).
1.2 Phương pháp hướng giảm
Xét bài toán tối ưu không ràng buộc
minf (x) v.đ.k x ∈ R n , (1.1)
trong đó f : R n → R là một hàm phi tuyến, khả vi trên R n
1.2.1 Điều kiện tối ưu
Trang 12Định lí 1.3 Giả sử f là hàm lồi khả vi trên R n Khi đó, x ∗ ∈ R n là nghiệm cực tiểu toàn cục của bài toán (1.1) khi và chỉ khi ∇f (x ∗ ) = 0.
Chứng minh Theo định lý trên, ta chỉ cần chứng minh rằng nếu ∇f (x ∗) =
0 thì x ∗ là nghiệm cực tiểu toàn cục của bài toán (1.1) Thật vậy, do f
là hàm lồi khả vi trên Rn nên nó có đạo hàm theo mọi hướng d ∈ R n tại
Giả sử hàm f khả vi liên tục hai lần trên R n Khi đó:
i) Nếu x ∗ ∈ R n là điểm cực tiểu địa phương của f trên R n thì
Trang 13Bây giờ ta chứng minh ∇2f (x ∗ ) nửa xác định dương, tức là v T ∇2f (x ∗ )v ≥
0 với mọi v ∈ R n
Thật vậy, giả sử phản chứng rằng tồn tại v ∈ R n , v 6= 0, sao cho
v T ∇2f (x ∗ )v < 0 Ta có thể giả thiết rằng k v k< ε Khi đó, vì f là hàm khả vi liên tục hai lần tại x ∗ nên các thành phần của ma trận Hessian
∇2f (x) là các hàm số liên tục tại x ∗ Do đó v T ∇2f (x)v cũng là hàm liên
tục tại x ∗
Theo tính chất của hàm liên tục ta có v T ∇2f (ξ)v < 0 với mọi ξ sao
cho k ξ − x ∗ k đủ nhỏ.
Kết hợp điều này và (1.3) suy ra f (x ∗ + v) < f (x ∗), mâu thuẫn với
tính cực tiểu địa phương của x ∗
ii) Giả sử ∇f (x ∗ ) = 0 và d T ∇2f (x ∗ )d > 0 với mọi d ∈ R n Vì các
thành phần của ∇2f (x) là các hàm liên tục tại x ∗ nên d T ∇2f (x)d cũng
là hàm liên tục tại x ∗ Do đó ta có d T ∇2f (ξ)d > 0 với mọi ξ sao cho
Ý tưởng cơ bản của phương pháp này là: xuất phát từ một điểm bất
kỳ x0 ∈ R n ta xây dựng một dãy điểm x1, x2, x3, , x k , sao cho
f (x0) ≥ f (x1) ≥ f (x2) ≥ · · ·
và dãy {x k } hội tụ đến điểm dừng x ∗ ∈ R n của hàm f , tức là ∇f (x ∗) = 0
Thuật toán 1.1 (Hướng giảm)
Bước 1 Cho một điểm x0 ∈ R n , ε > 0, k := 0 Tính ∇f (x0)
Bước 2 Nếu k ∇f (x0) k< ε Dừng Trái lại đi đến bước 3.
Bước 3 Xác định x k+1 := x k + t k d k sao cho f (x k+1 ) < f (x k)
Bước 4 Đặt k := k + 1 quay trở lại bước 1.
Trang 14Trong thuật toán trên, d k ∈ R n là hướng giảm của f tại x k và số thực
t k > 0 là độ dài bước Sau đây ta sẽ giới thiệu về hướng giảm và các
cách xác định độ dài bước
Định nghĩa 1.7 (Hướng giảm)
Cho x0 ∈ R n Ta gọi d ∈ R n là hướng giảm của hàm f tại x0 nếu tồn tại
ε > 0 sao cho với mọi t thoả mãn 0 < t < ε ta có f (x0 + td) < f (x0).
Mệnh đề 1.2 Cho hàm f khả vi trên R n , điểm x0 ∈ R n và hướng d ∈ R n Nếu h∇f (x0), di < 0 thì d là hướng giảm của f tại x0.
Chứng minh Vì hàm f khả vi tại x0 theo mệnh đề 1.1 và giả thiết củamệnh đề 1.2, ta có
Mệnh đề 1.3 Cho hàm lồi f khả vi trên R n , điểm x0 ∈ R n và hướng
d ∈ R n Khi đó, h∇f (x0), di < 0 khi và chỉ khi d là hướng giảm của f
tại x0.
Chứng minh. Theo mệnh đề 1.2 ta chỉ cần chứng minh điều kiện cần
Giả sử d ∈ R n là hướng giảm của f tại x0, tức là
∃ε > 0 sao cho f (x0 + td) < f (x0), ∀t : 0 < t < ε. (1.4)
Vì hàm f lồi khả vi trên R n và hàm f có đạo hàm theo mọi hướng d tại điểm x0 ∈ R n và
f (x0 + td) − f (x0) ≥ f 0 (x0, td) = h∇f (x0), tdi = th∇f (x0), di Kết hợp điều này và (1.4) với 0 < t < ε ta có
h∇f (x0), di ≤ f (x
0 + td) − f (x0)
t < 0.
Hệ quả 1.2 Cho hàm f khả vi trên R n và điểm x0 ∈ R n Nếu ∇f (x0) 6=
0 thì d = −∇f (x0) là một hướng giảm của f tại x0.
Trang 151.2.3 Độ dài bước
Giả sử đã biết hướng giảm d k của hàm f tại x k theo lược đồ chungcủa phương pháp hướng giảm, điểm lặp tiếp theo được xác định bởi
x k+1 := x k + t k d k ,
với t k là một số thực dương Như vậy, x k+1 là một điểm nằm trên tia
{x k + td k , t > 0}, t k > 0 thông thường có hai cách lựa chọn t k ứng vớihai thủ tục tìm chính xác theo tia và thủ tục quay lui
a Thủ tục tìm chính xác theo tia
Cho điểm x k ∈ R n và hướng giảm d k của hàm f tại x k Thủ tục này
chọn độ dài bước chính xác t k > 0 là nghiệm cực tiểu của hàm f theo
và c ∈ R Cho x k ∈ R n và hướng giảm d k của hàm f tại x k Khi đó, độ dài bước chính xác t k được xác định bởi
t k = − (Ax
k − b) T d k
(d k)T Ad k > 0.
Chứng minh Vì f (x) là hàm lồi nên ϕ k (t) = f (x k + td k) là hàm lồi một
biến Nếu t k là điểm cực tiểu của hàm ϕ k (t) thì
Trang 16Vì ∇f (x) = Ax − b nên
h∇f (x k+1 ), d k i = hA(x k + t k d k ) − b, d k i
= hAx k − b, d k i + t k hAd k , d k i = 0.
Do d k là hướng giảm của hàm f tại x k và f (x) là hàm lồi nên theo mệnh
đề 1.3 h∇f (x k ), d k i = hAx k −b, d k i < 0 Hơn nữa, vì A là xác định dương
Mệnh đề sau là cơ sở của thủ tục quay lui xác định điểm x k+1 khi đã
biết hướng giảm d k của hàm f tại x k
Mệnh đề 1.5 Cho hàm f khả vi trên R n , điểm x k ∈ R n và vectơ d k ∈ R n
thoả mãn h∇f (x k ), d k i < 0 Cho số thực m1 ∈ (0, 1) Khi đó
Trang 171.3.1 Thuật toán gradient với thủ tục tìm chính xác theo tia
Trong thuật toán này, tại mỗi bước lặp k điểm lặp tiếp theo được xác
Bước 1 Cho một điểm x0 ∈ R n , ε > 0, k := 0 Tính ∇f (x0)
Bước 2 Nếu k ∇f (x0) k< ε, dừng Trái lại, đi đến bước 3.
Bước 3 Xác định x k+1 := x k − t k ∇f (x k), trong đó
t k = argmin{ϕ k (t)}.
Bước 4 Tính ∇f (x k+1 ).
Bước 5 Đặt k := k + 1 quay trở lại bước 2.
Định lí 1.5 (xem [1]) Cho x0 ∈ R n và hàm f khả vi liên tục trên R n và
có tập mức dưới {x ∈ R n |f (x) ≤ f (x0)} bị chặn Khi đó, mỗi điểm tụ x ∗
của dãy {x k } được chọn như trong thuật toán trên thoả mãn ∇f (x ∗ ) = 0.
Trang 181.3.2 Thuật toán gradient với thủ tục quay lui
Trong thuật toán này, tại mỗi bước lặp k điểm lặp tiếp theo được xác
định bởi
x k+1 := x k − t k ∇f (x k ), trong đó t k là giá trị đầu tiên trong dãy t, λt, λ2t, λ3t, thoả mãn
f (x k+1 )−f (x k ) ≤ −εt k k ∇f (x k ) k2, trong đó t > 0, ε ∈ (0, 1), λ ∈ (0, 1).
Thuật toán 1.3 (Thuật toán gradient với thủ tục quay lui)
Bước 1 Cho một điểm x0 ∈ R n , ε > 0, k := 0, chọn m1 ∈ (0, 1), α ∈
(0, 1) Tính ∇f (x0), nếu k ∇f (x0) k< ε Dừng Trái lại, đến
Trang 19Newton cổ điển giải hệ phương trình phi tuyến n ẩn, n phương trình để tìm điểm dừng của hàm f , tức là giải hệ phương trình ∇f (x) = 0 Trước hết ta nhắc lại định nghĩa hàm vectơ Hàm vectơ F là một ánh
Giả sử x ∗ ∈ R n là nghiệm của hệ phương trình (1.5) Thuật toán
Newton giải hệ (1.5) cũng xuất phát từ một điểm x0 ∈ R n đủ gần
nghiệm x ∗ và xây dựng một dãy điểm x1, x2, hội tụ đến nghiệm x ∗
Tại điểm x k ∈ R n thuộc dãy này, khai triển Taylor của F tại x k là
F (x k + p) = F (x k ) + DF (x k )p + o(k p k), trong đó vectơ p ∈ R n có k p k đủ nhỏ, DF (x k) là ma trận Jacobian
của F tại điểm x k ∈ R n và o(k p k) là vô cùng bé so với chuẩn k p k khi
p → 0 Khi đó xấp xỉ Taylor bậc nhất hàm F tại x k là
Trang 20và điểm lặp tiếp theo là
x k+1 := x k + p = x k − [DF (x k)]−1 F (x k ).
Đặt x k := x k+1 và lặp lại quá trình tính toán đối với điểm x k mới
Trang 21Chương 2
Phương pháp gradient liên hợp
Trong chương trước ta đã nhắc lại phương pháp gradient, đây làphương pháp thông dụng để giải bài toán cực tiểu không ràng buộc,phương pháp này rất đơn giản và có thể áp dụng cho những lớp hàmrất rộng Tuy nhiên, phương pháp này có tốc độ hội tụ chậm Để khắcphục tình trạng này ta giới thiệu phương pháp gradient liên hợp, đây
là phương pháp trung gian giữa phương pháp gradient và phương phápNewton, phương pháp gradient liên hợp thay đổi hướng trong phươngpháp gradient bằng cách thêm vào một tỷ lệ dương của hướng dùng ởbước cuối cùng, phương pháp này chỉ cần tới đạo hàm riêng bậc nhấtnhưng lại khắc phục được tính hội tụ chậm của phương pháp gradient.Trong chương này, ta sẽ thảo luận các tính chất, thuật toán và tínhhội tụ của phương pháp gradient liên hợp và một số ví dụ áp dụng Cầnchú ý rằng, kỹ thuật tái khởi và hiệu chỉnh là rất quan trọng để cảitiến phương pháp gradient liên hợp Đầu tiên, ta sẽ giới thiệu khái niệmhướng liên hợp và phương pháp hướng liên hợp
Trang 22Định nghĩa 2.1 Cho G là một ma trận cấp n × n, đối xứng và xác định dương, d1, d2, , d m ∈ R n là các vectơ khác vectơ 0, m ≤ n Nếu
hd i , Gd j i = d T
i Gd j = 0, ∀i 6= j, i, j = 1, m thì các vectơ d1, d2, , d m gọi
là G-liên hợp hay đơn giản là liên hợp.
Tính chất 2.1 Nếu d1, d2, , d m là các hướng liên hợp (trong R n ) đối với ma trận G thì các vectơ này độc lập tuyến tính.
Chứng minh. Xét đẳng thức
a1d1 + a2d2 + · · · + a m d m = 0, trong đó a1, a2, , a m là các số thực tuỳ ý Khi đó, với bất kỳ i (1 ≤ i ≤
Do d1, d2, , d m là các hướng liên hợp nên hd j , Gd i i = 0, i 6= j Từ đẳng
thức trên suy ra a i hd i , Gd i i = 0 Do d i 6= 0 và G xác định dương nên
hd i , Gd i i > 0, từ đó suy ra a i = 0 Vì i tuỳ ý nên suy ra các vectơ
d1, d2, , d m độc lập tuyến tính
Tính chất 2.2 Nếu G = I thì tính liên hợp tương đương với tính trực giao.
Tính chất 2.3 Cho G là ma trận cấp n × n, đối xứng, xác định dương,
p1, p2, , p n là các vectơ độc lập tuyến tính Các hướng d k xác định dưới đây là G-liên hợp.
d1 = p1
d k+1 = p k+1 −Pk
i=1
p T k+1 Gd i
Trang 23Vậy tính chất trên đúng với k + 1.
Thuật toán 2.1 (Phương pháp hướng liên hợp tổng quát)
Bước 1 Cho một điểm ban đầu x0, ε > 0, k := 0 Tính g(x) = ∇f (x),
nếu g0 = g(x0); k g0 k≤ ε, dừng Trái lại, tính d0 sao cho d T
Trang 24d2 0
Bước 2 Tính α1 sao cho
f (x1 + α1d1) = min
α≥0 f (x1 + αd1) = min
α≥0 f (−α, −1
2 −1
2α).
Trang 252
!+
Vậy x ∗ = x2 = (−1, −1) T là nghiệm của bài toán
Sau đây ta sẽ chỉ ra rằng, với thủ tục tìm chính xác theo tia phươngpháp hướng liên hợp có tốc độ hội tụ bậc hai, nghĩa là với một hàm toànphương có ma trận Hessian xác định dương thì phương pháp này kếtthúc sau nhiều nhất n bước
Định lí 2.1 (Định lý chính của phương pháp hướng liên hợp)
Một hàm toàn phương có ma trận Hessian G xác định dương, phương pháp hướng liên hợp kết thúc sau nhiều nhất n thủ tục tìm chính xác theo tia Mỗi x i+1 là cực tiểu trong không gian con sinh bởi x0 và hướng
d0, d1, , d i , nghĩa là {x|x = x0 + Pi
j=0
α j d j }.
Chứng minh Vì G là xác định dương và các hướng liên hợp d0, d1, là
độc lập tuyến tính, nên ta chỉ cần chứng minh i ≤ n − 1 là đủ Tức là
Trang 26Khi j = i, (2.2) là kết quả trực tiếp của việc tìm chính xác theo tia Vậy
(2.2) đúng và ta có điều phải chứng minh
g k
x k d k−1 x k−1
d k−2
x k−2
Hình 2.1: Vectơ gradient của phương pháp hướng liên hợp thỏa mãn (2.2)
Định lý này tuy đơn giản nhưng quan trọng, vì mọi phương pháphướng liên hợp đều dựa trên định lý cơ bản này Ta nhấn mạnh một lầnnữa là với cách tìm chính xác theo tia, mọi phương pháp hướng liên hợpđều thỏa mãn (2.2) và có tính chất dừng bậc hai Điều này cho thấyrằng tính liên hợp cộng với cách tìm chính xác theo tia kéo theo tínhchất dừng bậc hai
2.2 Phương pháp gradient liên hợp
Trong phương pháp hướng liên hợp được mô tả ở phần trước chưa
đưa ra một phương pháp chi tiết để xây dựng các vectơ liên hợp d1, d2,
Trong mục này ta sẽ mô tả một phương pháp tạo ra hướng vectơ liênhợp với nhau Phương pháp này gọi là phương pháp gradient liên hợp
2.2.1 Phương pháp Fletcher - Reeves tìm cực tiểu hàm toàn
phương (F-R)
Phương pháp gradient liên hợp được Hestenes và Stiefel nêu ra đầutiên vào những năm 1950 để giải hệ tuyến tính Vì việc giải một hệ tuyếntính tương đương với tìm cực tiểu của một hàm toàn phương xác địnhdương, nên vào năm 1960 Fletcher - Reeves đã cải biên và phát triển nóthành phương pháp gradient liên hợp cho cực tiểu không ràng buộc Nhờ
Trang 27đó phương pháp này hoàn thiện phương pháp giảm nhanh nhất nhằmlàm tăng hiệu quả và độ tin cậy của thuật toán.
Bây giờ ta trình bày phương pháp gradient liên hợp cho trường hợphàm toàn phương Giả sử
f (x) = 1
2x
T Gx + b T x + c, (2.5)
ở đây G là một ma trận cấp n × n đối xứng, xác định dương b ∈ R n và
c là một số thực Rõ ràng, vectơ gradient của f (x) là
g(x) = Gx + b. (2.6)Đặt
Trang 28g T
k g k
g T k−1 g k−1 . (2.17)
Từ trên suy ra sơ đồ lặp của phương pháp gradient F-R
α k là một độ dài bước chính xác, trong trường hợp đặc biệt, với hàmtoàn phương,
β k−1 = g k T (g k − g k−1)
g T k−1 g k−1
β k−1 = g T k g k
d T k−1 (g k − g k−1), (Công thức D-Y) (2.25)
Trang 29Ở đây, công thức H-S (hoặc C-W), PRP, Dixon và D-Y tương ứng
là công thức Hestenes-Stiefel (hoặc Crowder-Wolfe), công thức Polyak, công thức Dixon và Dai-Yuan Dễ thấy, các công thức này làtương đương theo nghĩa tất cả chúng đều sinh ra cùng một hướng tìmkhi chúng được dùng để tìm cực tiểu của hàm toàn phương có ma trậnHessian xác định dương Tuy nhiên, đối với hàm phi tuyến tổng quátvới cách tìm không chính xác theo tia thì tác dụng của chúng rất khácnhau Sau đây, ta sẽ trình bày thuật toán F-R tìm cực tiểu hàm toànphương
Ribière-Thuật toán 2.2 (Phương pháp F-R tìm cực tiểu hàm toàn phương)
Bước 1 Cho một điểm ban đầu x0, ε > 0, k := 0 Tính g0 = g(x0)
lấy d0 = −g0 Nếu k g0 k≤ ε thì dừng Trái lại chuyển bước 2 Bước 2 Tìm α k đạt cực tiểu của hàm f (x k + αd k ).
Bước 3 Đặt x k+1 = x k + α k d k Nếu k g k+1 k≤ ε, dừng Trái lại, đến bước
4
Bước 4 Tính β k = g
T k+1 g k+1
g T
k g k , tính d k+1 = −g k+1 + β k d k . Bước 5 Đặt k := k + 1, quay trở lại bước 2.
Từ (2.18)-(2.20) ta có thể thấy phương pháp gradient liên hợp chỉphức tạp hơn đôi chút so với phương pháp giảm nhanh nhất nhưng nó
có tốc độ hội tụ bậc hai mà không đòi hỏi tính ma trận Hessian hay các
ma trận xấp xỉ Dưới đây, ta sẽ thấy rằng phương pháp gradient liên hợp
có tính chất hội tụ toàn cục và sự hội tụ địa phương sau n bước Do đó,
phương pháp này đặc biệt hấp dẫn với các bài toán tối ưu cỡ lớn
Định lý sau đây nêu lên những tính chất cơ bản của phương phápgradient liên hợp
Định lí 2.2 Với hàm toàn phương xác định dương (2.5), phương pháp gradient liên hợp (2.18)-(2.20) với thủ tục tìm chính xác theo tia kết thúc
Trang 30sau m ≤ n bước và các tính chất sau đây đúng với mọi i, (0 ≤ i ≤ m),
Ở đây m là số giá trị riêng khác nhau của G.
Chứng minh. Ta chứng minh (2.26)-(2.28) bằng phương pháp quy nạp
Với i = 1, nó là tầm thường Giả sử (2.26)-(2.28) đúng với mọi i < m.
α j + β i d
T
i Gd j (2.34)
Trang 31Khi j = i, từ (2.34), (2.27), (2.32) và (2.20) ta có
d T i+1 Gd i = − g
T i+1 g i+1
g T
i g i
d T i Gd i + g
T i+1 g i+1
Cuối cùng, ta sẽ chỉ ra có (2.29) và (2.30) bằng phương pháp quy nạp
Thật vậy, các hệ thức này là tầm thường với i = 0 Bây giờ giả sử các hệ thức đó đúng với i ta sẽ chứng minh chúng đúng với i + 1 Từ giả thiết quy nạp, cả g i và Gd i đều thuộc
[g0, Gg0, , G i g0, G i+1 g0].
Khi đó suy ra từ (2.31) rằng g i+1 ∈ [g0, Gg0, , G i g0, G i+1 g0] Hơn nữa,
ta cần chỉ ra rằng
g i+1 ∈ [g / 0, Gg0, , G i g0] = [d0, , d i ].
Nói tóm lại, vì vectơ d0, , d i là liên hợp, từ định lý 2.1 suy ra g i+1 ⊥
[d0, , d i ] Nếu g i+1 ∈ [g0, Gg0, , G i g0] = [d0, , d i ], thì g i+1 = 0 Điềunày là mâu thuẫn Do đó, suy ra (2.29)
Tương tự, từ (2.19) với giả thiết quy nạp ta có thể nhận được (2.30).Trong định lý này, (2.26)-(2.28) lần lượt biểu thị tính liên hợp của cáchướng, tính trực giao của các vectơ gradient và điều kiện hướng giảm.Các hệ thức (2.29) và (2.30) nêu mối quan hệ giữa các vectơ hướng và
vectơ gradient Thông thường, không gian con [g0, Gg0, , G i g0] gọi là
không gian Krylov Định lý này vẫn còn đúng với các phương pháp
PRP-CG, HS-CG hoặc C-W-PRP-CG, Dixon-PRP-CG, D-Y-CG Dưới đây ta sẽ chứngminh tính hội tụ toàn cục của phương pháp gradient liên hợp F-R trongtrường hợp tìm chính xác theo tia
Trang 32Định lí 2.3 (Tính hội tụ toàn cục của phương pháp gradient liên hợpF-R).
Giả sử f : R n −→ R là hàm khả vi liên tục trên tập mức dưới bị chặn
L = {x ∈ R n |f (x) ≤ f (x0)} và phương pháp gradient liên hợp F-R được
thực hiện với thủ tục tìm chính xác theo tia Khi đó, dãy {x k } sinh ra sẽ
có ít nhất một điểm tụ và điểm tụ đó là một điểm dừng Nghĩa là: (i) Nếu {x k } là một dãy hữu hạn thì điểm cuối cùng x ∗ là một điểm dừng của f
(ii) Nếu {x k } là một dãy vô hạn thì dãy có điểm giới hạn và bất kỳ điểm giới hạn nào của dãy cũng là một điểm dừng.
Chứng minh (i) Khi dãy {x k } là hữu hạn, từ điều kiện kết thúc suy ra
rằng điểm cuối cùng x ∗ thoả mãn ∇f (x ∗ ) = 0, và vì vậy x ∗ là điểm dừng
Giả sử x ∗ là một điểm giới hạn của dãy {x k } Khi đó, tồn tại một dãy
con {x k } K1 của dãy này hội tụ đến x ∗ , ở đây K1 là tập chỉ số của dãy
con của dãy {x k } Vì {x k } K1 ⊂ {x k }, {f (x k )} K1 ⊂ {f (x k )} Từ tính hội
Trang 33f (x k+1 ) = f (x k + α k d k ) ≤ f (x k + αd k ), ∀α > 0, nên với k ∈ K2, k → ∞ và sử dụng (2.39), ta nhận được
Khi đó, ∇f (x k ) = 0 với k nào đó; hoặc f (x k ) → −∞; hoặc ∇f (x k ) → 0.
Định lí 2.5 Cho f (x) hai lần khả vi liên tục và tập mức dưới L = {x ∈
Rn |f (x) ≤ f (x0)} bị chặn Giả sử rằng tồn tại hằng số m > 0 sao cho
với x ∈ L,
m k y k2≤ y T ∇2f (x)y, ∀y ∈ R n (2.42)
Khi đó, dãy {x k } sinh bởi phương pháp PRP với thủ tục tìm chính xác theo tia hội tụ đến điểm cực tiểu duy nhất x ∗ của f