Chương 4 - NỘI DUNG DỰ BÁO CỦA CÁC PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ ĐA CHIỀU Những kết luận khi tiến hành chẩn đoán thống kê cung cấp cho ta khái niệm về cơ chế của quá trình đa chiều, q
Trang 156
khoảng cách Magalonobis và mức thoả mãn các giả thiết phù hợp luật
phân bố chuẩn
Hiện nay, kỹ thuật của phương pháp phân tích phân biệt phi tham số
đang phát triển Hệ phương pháp phân tích phân biệt dựa trên việc giải
bài toán các giá trị riêng và các vectơ riêng của ma trận hiệp biến khối đã
có ứng dụng trong giải quyết nhiều vấn đề hải dương học trong các công
trình của Iu V Nhikolaev [130] Phương pháp tiếp cận này, có tên gọi là
phân tích phân biệt chuẩn hoá, cũng vẫn đang là đối tượng nghiên cứu lý
thuyết [94, 95]
Chương 4 - NỘI DUNG DỰ BÁO CỦA CÁC PHƯƠNG PHÁP PHÂN TÍCH THỐNG KÊ
ĐA CHIỀU
Những kết luận khi tiến hành chẩn đoán thống kê cung cấp cho ta khái niệm về cơ chế của quá trình đa chiều, quá trình này được xác định với độ chính xác cho trước thông qua một số hữu hạn những biến thống
kê đã biết, điều đó có thể xem là căn cứ đầy đủ để triển khai những sơ đồ
dự báo các quá trình Chúng ta sẽ xét vấn đề này trong khuôn khổ hai quan điểm tiếp cận chẩn đoán cơ bản − quan điểm cấu trúc và quan điểm phân loại các quá trình đa chiều Nhiệm vụ chính của chương này − xác định nên ưu tiên những phương pháp dự báo thống kê xác suất nào để dự báo những đặc trưng tổng quát trong những tình huống cụ thể Sự phong phú các phương pháp dự báo về phía mình lại đặt ra nhiệm vụ liên kết (phối hợp) hiệu quả một số phương pháp nhằm xây dựng dự báo tối ưu Khi suy xét về những nét ưu việt quan trọng của giải pháp phương pháp luận này so với những giải pháp truyền thống, cũng không nên bỏ qua những hạn chế khách quan của nó liên quan tới bản thân tính có dự báo được hay không về mặt thống kê của quá trình nghiên cứu Khái niệm này khi áp dụng vào những quá trình hải dương nhiều chiều còn chưa được phân tích trong các tài liệu ứng dụng, mặc dù nó rất lý thú về mặt thực tiễn, vì nó giúp ta tránh được sự tự mãn hẹp hòi trừu tượng trong dự báo và quay về với thực tại sinh động của công tác dự báo hải dương học
4.1 DỰ BÁO CẤU TRÚC CỦA CÁC QUÁ TRÌNH
Nhờ kết quả khai triển trực giao ma trận các biến quan trắc, cấu trúc của các quá trình hải dương được khái quát trong hai tập hợp các tham số
Trang 2thống kê − đó là tập các vectơ riêng, hay các hệ số tỷ trọng nhân tố và tập
những giá trị các thành phần chính, hay những nhân tố chung Những tỷ
trọng của các thành phần và các nhân tố mô tả những mối liên hệ qua lại
khá tin cậy giữa các biến quan trắc và chúng thường ổn định trong thời
gian Mỗi nhân tố chung đặc trưng cho sự tiến triển của quá trình trong
thời gian Vì vậy, thực chất của dự báo cấu trúc quá trình hải dương là bài
toán ngoại suy các nhân tố chung (hay các thành phần chính)
Tuân thủ những quy ước đã chấp nhận ở chương 2, ta viết phương
trình cơ bản của mô hình phân tích nhân tố có tính tới các bài toán dự
báo:
E A F
X= ⋅ T +
Ở đây X− ma trận các quan trắc xuất phát, số dòng của nó i=1, ,N
tương ứng với số quan trắc; số cột j=1, ,M bằng số chiều của quá
trình Ý nghĩa ứng dụng của mô hình phương pháp phân tích nhân tố là ở
chỗ dự báo một vectơ M chiều }xˆ i) ={xˆ(i1),xˆ(i2), ,xˆ(i M) các biến
xuất phát có tính tới các mối liên hệ qua lại với khoảng báo trước (τ)
trong điều kiện giữ nguyên mức sai số xác định (E) Nội dung dự báo là
ở chỗ chuyển từ không gian M chiều các quan trắc xuất phát (X) sang
không gian rút gọn K chiều các hàm tổng quát ( F ), sau đó ngoại suy
các hàm Fˆ qua khoảng thời gian τ và cuối cùng khôi phục các giá trị dự
báo của vectơ M chiều xˆ(i+τ) Những ưu điểm cơ bản của cách tiếp cận
này như sau:
Không cần phải dự báo thành phần nhiễu trong các quan trắc xuất
phát Sự chú ý chính tập trung cho dự báo sự biến động hệ thống trong các
tham số quan trắc, được mô tả bởi ma trận
T
Xˆ = ˆF⋅A Những quy luật thống kê chủ yếu trong sự tiến triển của quá trình
được tích tụ trong các hàm F Điều này làm tăng tính khả báo thống kê
của các hàm đó so với tính khả báo của những tham số quan trắc riêng
biệt, đồng thời giảm số lượng những biến phải ngoại suy: một quá trình
M chiều được dự báo trong một không gian K chiều rút gọn, K<<M Trong phương pháp phân tích nhân tố, luôn luôn phải thoả mãn điều kiện
2 /
M
K≤ , ngoài ra số biến dự báo fj được quy định không chỉ bởi những chỉ tiêu thống kê chung của mô hình, mà còn do khả năng hàm tổng quát cụ thể mô tả phần mang thông tin vật lý về biến động của quá trình
Ngay thủ tục ngoại suy các hàm tổng quát cũng được giản hoá
Không gian K chiều mô tả quá trình sẽ được cho trong hệ trục trực giao
nhau, điều này quyết định sự độc lập thống kê giữa các hàm tổng quát với nhau trên thời khoảng dự báo Do đó, từng hàm có thể được ngoại suy theo thời gian nhờ những phương trình tự dự báo ít tham số đơn giản nhất:
=
+
−
=
l
j l i f l j b j
i f
1
)
) ,
Ở đây fˆ giá trị dự báo của nhân tố chung (thành phần) j tại thời điểm −
τ +
i với khoảng báo trước τ; f − giá trị của nhân tố tính theo mô hình chẩn đoán; b hệ số thứ l của mô hình dự báo bậc p đối với nhân tố − chung j với khoảng báo trước τ Tính độc lập của các nhân tố chung cho phép chọn kiểu và bậc mô hình dự báo tối ưu cho từng nhân tố nhằm đạt cực tiểu phương sai sai số tổng cộng của phép ngoại suy
Kết quả tính toán sẽ hình thành một vectơ các ước lượng dự báo của
K nhân tố chung:
)}
, ( ., ), , ( ), , ( { )
vectơ này được chiếu vào không gian quan trắc M chiều nhờ ma trận các
hệ số chuyển tiếp chẩn đoán ( A ):
T 2
xˆ(i+τ)={x(i+τ, ),x(i+τ, ), ,x(i+τ,M)}= f(i+τ)⋅ Ước lượng dự báo của các giá trị những nhân tố chung không tránh khỏi chứa sai số, sai số này về phần mình sẽ sinh ra sai số trong vectơ các
Trang 358
biến dự báo ban đầu:
) ( ) ( ˆ ) (i+τ −x i+τ =e i+τ
Như vậy, trong ma trận phần dư ( E ) xuất hiện những sai số bổ sung ( eˆ ),
cùng với các sai số chẩn đoán ( e ), nó sẽ quyết định chất lượng chung của
mô hình chẩn đoán và dự báo Mỗi sai số dự báo e(i+τ,j) của biến ban
đầu j sẽ chứa tổng các sai số dự báo của từng nhân tố trong số K nhân
tố eˆ(f)
T
A f
x(i+τ)= (i+τ)⋅ + f(i+τ)⋅ , (4.2) ngoài ra phần đóng góp các sai số sẽ tỷ lệ với phần đóng góp của các số
hạng khai triển, được cho bởi những hệ số tương ứng trong ma trận A
Chỉ có thể kỳ vọng sự cực tiểu các sai số dự báo trong điều kiện ngoại
suy thật chính xác những số hạng khai triển quan trọng nhất (những số
hạng với phần đóng góp cực đại) − những nhân tố hay những thành phần
Những phương pháp ngoại suy các nhân tố chung
Một trong những thành tựu quan trọng nhất của việc chẩn đoán trên
cơ sở ứng dụng khai triển trực giao là tập trung được sự biến động quan
hệ của các biến xuất phát vào các thành phần khai triển đầu tiên Vì vậy,
những nhân tố chung (thành phần chính) thời gian đầu tiên là những
chuỗi với các giá trị tuần tự phụ thuộc nhau, điều này thể hiện trong cấu
trúc các hàm tự tương quan và tự phổ Do đó, ta có thể tính được các ước
lượng dự báo hữu hiệu cho những nhân tố chung đầu tiên dựa trên các mô
hình tự hồi quy bậc )p(AP− p Cấu trúc thống kê của những nhân tố
chung đầu tiên thể hiện những quy luật quy mô lớn nhất trong sự hình
thành các quá trình hải dương, thông thường những quy luật này được
gây nên hoặc bởi những dao động tự thân nội tại hệ thống, hoặc bởi
những tác động tuần hoàn (những biến thiên ngày, mùa và nhiều năm) từ
bên ngoài cùng ảnh hưởng đến các tham số nghiên cứu
Kinh nghiệm ứng dụng các mô hình tự hồi quy (mô hình AP) vào dự
báo những quá trình khí tượng thủy văn quy mô lớn cho thấy rằng bậc tối
ưu của mô hình dao động trong phạm vi p=1 10, và thường xuyên nhất là giữ ở mức p=1 4 [142, 146, 151, 202] Những mô hình như thế cho phép mô tả một loạt kiểu quá trình − quán tính, ngẫu nhiên, tựa tuần hoàn; tất cả tuỳ thuộc vào bậc của mô hình và những hệ số được chọn
Ở đây sẽ không thảo luận chi tiết về những vấn đề này, vì hệ phương pháp tính vectơ các hệ số tự hồi quy (B) đối với các nhân tố chung không có gì khác với hồi quy kinh điển đã được trình bày tỉ mỉ trong các chuyên khảo [33, 93, 146, 206]
Ngoại suy những thành phần khai triển bậc cao
Nhờ những tính chất lọc của các phương pháp phân tích nhân tố và phân tích thành phần chính mà sự biến động quy mô nhỏ, ngẫu nhiên của các biến xuất phát được tập trung vào những giá trị của các thành phần và nhân tố có số hiệu lớn Cấu trúc phổ của những dao động ấy gần với nhiễu trắng, điều đó hạn chế khả năng ngoại suy phần biến động tổng cộng này Trong nhiều trường hợp, dự báo những nhân tố đó được thực hiện theo mô hình trung bình trượt bậc )q(CC− hoặc ứng dụng mô q
hình hỗn hợp (APCC− p, q) [33, 146, 206] Xét thấy rằng những nhân tố này có mức ý nghĩa thấp trong động thái chung của quá trình, người ta có thể bỏ qua không cần dự báo chi tiết về chúng, mà chỉ giới hạn ở mức ước lượng chúng như là hiệu dư giữa những giá trị thực và những giá trị
dự báo các nhân tố chung
Ngoại suy các nhân tố với cấu trúc bất đồng nhất
Trường hợp bất đồng nhất đơn giản nhất liên quan tới hiện tượng biến thiên trong thời gian của những đặc trưng thống kê cơ bản của các nhân tố chung − những ước lượng kỳ vọng toán học và phương sai Với những nhân tố như vậy không thể xây dựng được một mô hình dự báo duy nhất với những hệ số không đổi trong thời gian Ngược lại, trong từng bước phải nắm bắt thêm thông tin mới và cập nhật các hệ số dự báo Với những mô hình dự báo tự hồi quy mà người ta đã sử dụng, điều này
Trang 4đã được thực hiện như sau: Trước hết tại bước i người ta tính lại:
− Ước lượng kỳ vọng toán học:
)) 1 ( ) ( ( 1 ) 1 ( ) ( = − + f i − f i−
N i
f i f
i
;
− Ước lượng độ lệch bình phương trung bình:
)) 1 ( (
1 ) 1 ( ) ( = − + ( ) − ( ) − i−
N i
i
σ σ
− Ước lượng các hệ số tự tương quan với các bước dịch l=1, , p:
)]
( )) ( ) ( ( )) ( ) ( [(
1 ) ( )
N l r
l
i i
Sau đó tính lại các hệ số hồi quy của phương trình tự dự báo nhân tố
chung j (chỉ số j bị bỏ qua cho đơn giản)
Thuật toán khác rất hiệu quả để giải quyết các bài toán dự báo
những chuỗi thời gian bất đồng nhất dựa trên việc sử dụng thủ tục lọc
tối ưu Kalman [40, 210, 240, 259] Vận dụng thuật toán này đối với
các mô hình tự hồi quy cho phép nhanh chóng cải tiến các hệ số hồi
quy căn cứ vào những thay đổi gần nhất trong các nhân tố chung và
các biến xuất phát Chẳng hạn, với mô hình tự hồi quy bậc một
1
−
AP biểu thức tương ứng có dạng
) 1 ( ) , 1 ( ) (i =b i f i−
f (4.3)
)]
1 , 1 ( ) 1 ( ) 1 ( )[
1 ( ) ( ) 1 , 1 ( )
,
1
( i =b i− +s i f i− f i− − f i− b i−
) 1 ( ˆ ) 1 ( 1
)) 1 ( ) 1 ( ( ) 1 ( ) (
2
2
−
− +
−
−
−
−
=
i f i s
i f i s i
s i
trong đó s (i) − hệ số tăng cường Kalman, các trị số của nó xác định
mức độ mô hình nhạy cảm với biến động của dữ liệu tại bước i ;
−
)
1
( i
b hệ số tự hồi quy tại bước i , fˆ − giá trị dự báo của nhân tố
chung Các tham số s và b được ước lượng theo những hệ thức truy
hồi và là một dạng những chỉ tiêu động thái của quá trình được nghiên cứu Nhờ những tham số này mà tiền sử của quá trình kết hợp với sự cải tổ tức thời, ngắn hạn của quá trình được sử dụng hữu hiệu trong
mô hình Vì vậy, sau này mô hình như thế được gọi là mô hình ngẫu nhiên − động lực
4.2 DỰ BÁO NHỮNG LỚP TRẠNG THÁI CỦA CÁC QUÁ TRÌNH
Ý đồ dự báo lớp trong thực tiễn thường do hai nguyên nhân − hoặc
đó là con đường hữu hiệu duy nhất dự báo sự tiến triển của quá trình chuyển mạch (trigger−process) với nhiều trạng thái tựa ổn định, hoặc đơn giản đó là cơ hội duy nhất để, bằng cách nào đó, đánh giá được xu thế phát triển của một quá trình ngẫu nhiên Nội dung bài toán dự báo là: làm sao không những phát hiện và mô tả những trạng thái ổn định của quá trình đa chiều, điều này có thể đã thực hiện được trong khuôn khổ chẩn đoán thống kê, mà còn mô tả định tính quy luật thay thế của các trạng thái trong thời gian
Giống như trong trường hợp dự báo cấu trúc quá trình, ở đây một số chỉ tiêu khái quát nào đó của quá trình sẽ được ngoại suy Những chỉ tiêu
đó là những lớp trạng thái; theo kết quả chẩn đoán những lớp này được đặc trưng bởi các vectơ trọng tâm của lớp và các vectơ biến thiên của các
tham số quan trắc bên trong lớp Trọng tâm của lớp i thường là vectơ M
chiều những giá trị trung bình của các quan trắc trong lớp đã cho
} ,
, { i1 i i M
i = x x 2 , x
x Sự đồng nhất của lớp thường được đặc trưng thông qua vectơ độ lệch bình phương trung bình σi= {σi1,σi2, ,σi M}
Vì vậy, dự báo lớp kết cục quy về dự báo những tham số này − x và i σ i
Sơ đồ dự báo
Giả sử ma trận X phản ánh N quan trắc về một quá trình ngẫu
nhiên M chiều mà ta cần dự báo lớp trạng thái của nó Kết quả nghiên cứu chẩn đoán cho " K " lớp đồng nhất ωi,i=1,2, ,k, mỗi lớp trong số
Trang 560
các lớp thể hiện một trạng thái quan hệ tương hỗ điển hình của các tham
số quá trình thông qua các vectơ giá trị trung bình xi và biến phân σi
Nói một cách chính xác, mỗi lớp được đặc trưng bởi hàm phân bố thực
nghiệm M chiều Nếu hàm này khác ở mức ý nghĩa thống kê với luật
phân bố chuẩn, thì phải lấy những tham số thống kê khác làm các đặc
trưng của các lớp, như mốt, biên độ, tứ vị, với mỗi lớp những tham số
này cũng thể hiện dưới dạng những vectơ M chiều Về vấn đề đánh giá
những đặc trưng thống kê mẫu trong khi nghiên cứu giải quyết các bài
toán khí tượng thủy văn được thảo luận trong các công trình [65, 69, 76,
87, 96, 155, 202]
Dự báo lớp trạng thái của quá trình được xây dựng trên cơ sở những
thủ tục xác suất ước lượng sự thay thế các lớp Sự thay thế được đánh giá
theo danh mục các lớp được lập trong khi chẩn đoán Danh mục là một
xấp xỉ về sự phát triển của quá trình X trong thời gian dưới dạng chuỗi
W gồm N giá trị, trong đó mỗi lớp trong số k lớp tương ứng với mỗi
một vectơ các quan trắc xuất phát xi ={x i1,x i2, , x i M} Như vậy, quá
trình M chiều được thể hiện dưới dạng chuỗi sắp xếp, chứa những giá trị
nguyên số hiệu các lớp từ 1 đến k , chính chuỗi này sẽ được ngoại suy
bằng những phương pháp thống kê xác suất Dưới dạng sơ đồ, những
thao tác đã liệt kê có thể viết thành:
i i i K K N M K M
NX Ω W1 P ω x, σ
Ở đây ta chú ý tới một thực tế rằng trong bản thân ma trận dự báo P
vắng mặt biến thời gian Thời gian được thay thế bằng các xác suất thay
thế một lớp này bởi lớp khác p j: ωj thay cho ωi Ma trận các xác suất
P thực tế mô tả động thái của quá trình M chiều không phải trong
không gian các quan trắc, mà trong không gian pha các trạng thái Vì vậy,
nội dung dự báo quy về tìm một trạng thái (pha) khả dĩ nhất nối tiếp sau
pha phát triển hiện hành của quá trình (chiến lược 1) hoặc tìm xác suất
trạng thái của một pha được cho tiên định của quá trình (chiến lược 2)
Chiến lược dự báo một bước Tiên đề rằng ma trận các xác suất chuyển tiếp của các lớp P là đặc
trưng đầy đủ để xây dựng dự báo là một tiên đề chung nhất cho phần lớn các chiến lược dự báo xác suất Công việc hình thành dự báo chính là ngoại suy các xác suất xuất hiện của các lớp trong khoảng thời gian báo trước theo quy tắc đã đề xuất dựa trên mô hình xác suất đã chấp nhận − danh mục các lớp
Cơ sở đề xuất quy tắc dự báo thường là giả thiết về tính Markov và tính đồng nhất của chuỗi lớp W được kiểm tra bằng tiêu chuẩn 2
χ của
Pierson [44, 65, 259] Khi thoả mãn giả thiết này, ma trận P được xấp xỉ
qua các xác suất có điều kiện thông thường của sự xuất hiện các lớp:
N n
trong đó n j − số trường hợp quan trắc lớp ωi Khi đó việc thực hiện chiến lược dự báo chính là làm sao xác định được lớp ωi với xác suất
chyển tiếp cực đại có thể trong pha phát triển hiện hành ( j ) của quá
trình Theo kiểu sơ đồ có thể viết chuỗi lôgic này dưới dạng sau:
i j
K i
ω
=
max , ( )
max
Một tình huống phức tạp hơn nhiều sẽ xuất hiện trong trường hợp xác suất p xuất hiện các lớp dự báo i ωi không cao Khi đó sẽ tăng đáng
kể tính bất định của ước lượng các trị số của những xác suất chuyển tiếp
có điều kiện p i, p j và giảm chất lượng của việc dự báo dựa trên cách tiếp cận Markov phân tích xác suất kinh điển Phương pháp khả dĩ thay thế trong trường hợp này có thể là phép thống kê Bayes, trong đó cơ sở
để ước lượng các xác suất là tính đến ước lượng định lượng về độ bất định của các tham số dự báo Để thực hiện điều này, đã đưa ra khái niệm xác suất chuyển tiếp kinh nghiệm, được tính theo công thức
p i p K
l
j l
j i
p p
p p
1
=
=
σ (4.4)
Trang 6và chứa các ước lượng xác suất chuyển tiếp có điều kiện p và các xác ij
suất khí hậu tiên định p xuất hiện lớp i ωi Bằng chính cách đó, đối với
mỗi pha quá trình nhờ phương pháp Bayes có thể tính được những hàm
phân bố xác suất có điều kiện, dựa trên đó mà thực hiện ước lượng dự báo
Trên hình 4.1 thể hiện bằng
Hình 4.1 Sự tiến triển trong thời gian
của quá trình đa chiều theo quan điểm động lực xác suất ( p của các )
lớp trạng thái (w được cho trước )
một cách tiên định
sơ đồ sự tiến triển quá trình đa chiều theo quan niệm động lực xác suất
của các lớp trạng thái đã biết trước một cách tiên lượng Thấy rõ rằng
trong mỗi lần, pha phát triển của quá trình được đặc trưng bởi hàm xác
suất đặc thù Ta nhận thấy rõ sự biến động của số hiệu lớp với cực đại xác
suất chuyển tiếp max
j
p và những dao động từ pha này sang pha khác của chính đại lượng pmax Nếu giữ nguyên chiến lược đang xét, ta có thể hiện
thực hoá chiến lược này bằng cách thay thế đơn thuần các xác suất
chuyển tiếp Bayes σ
j
p vào chỗ p j Khi đó ước lượng xác suất dự báo có thể tách ra trên hình vẽ bằng đường cong gạch chấm Hình chiếu của
đường cong này lên mặt phẳng )( t p, cho phép theo dõi trong thời gian
về mức độ ngẫu nhiên hoá của quá trình trong từng pha phát triển của nó
Giá trị xác suất kinh nghiệm càng cao (pmaxj →1) thì tính xác định trong
sự phát triển quá trình càng thể hiện mạnh, khi đó sự thay thế cặp lớp ωj
và ωi trong thời gian có tính xác định đơn trị Ngược lại, khi giảm xác
suất kinh nghiệm max →0
j
p có thể khẳng định sự ngẫu nhiên hoá của quá trình trong khuôn khổ tập hợp các lớp trạng thái đã chọn, điều này làm giảm tính hiệu quả của phương pháp luận dự báo đang xét
Khai thác thông tin trong khi dự báo lớp
Sự ngẫu nhiên hoá của quá trình nhận thấy khi max
j
p giảm mạnh có thể xem như nhân tố liên hệ nghịch, nếu trong chiến lược dự báo có tính tới chuỗi xích nghịch Vấn đề là ở chỗ không hiếm khi sự giảm max
j
do sự biến đổi cấu trúc bên trong của các mối liên hệ giữa các tham số quan trắc chưa được thể hiện trong sơ đồ phân loại ở giai đoạn chẩn đoán
Vì vậy cần phải quay trở lại nhiệm vụ phân loại tối ưu, bổ sung vào thủ tục phân chia chẩn đoán của phương pháp phân loại tự động toàn bộ
thông tin mới tích luỹ Sơ đồ lôgic tính toán cho thời điểm t sẽ có dạng
i j
j K i j
K K
f N
M K
M
=
max
max 1 P
W X
t
1
X
t
Ở đây X1− ma trận dữ liệu xuất phát được bổ sung thêm các quan trắc,
−
Ω1 sự phân chia lớp có hiệu chỉnh, còn W− danh mục lớp mới Kết thúc mục này, phải nhận xét rằng trong thực hành hải dương học, ước lượng dự báo Bayes hiện giờ đang được sử dụng rất ít Chỉ có một số ít công trình công bố về đề tài này [155, 214, 257] Triển vọng ứng dụng của phương pháp này tuỳ thuộc vào hiệu quả kinh tế
4.3 KẾT HỢP CÁC MÔ HÌNH DỰ BÁO
Như đã thấy trong các mục trước, khó mà chỉ ra một phương pháp tối ưu duy nhất dự báo các quá trình đa chiều Người nghiên cứu thường
có cơ hội tiến hành dự báo theo một số mô hình dự báo, sau đó chọn lấy
Trang 762
một ước lượng vectơ trạng thái quá trình nào đạt nhất Sự chọn lựa này
không phải bao giờ cũng tối ưu và tuỳ thuộc nhiều nhân tố chủ quan Tuy
nhiên vẫn có khả năng chính thức hoá thủ tục tối ưu hoá việc dự báo quá
trình đa chiều, nếu sử dụng ý tưởng kết hợp thống kê các dự báo một chiều
và những thuật toán tính toán hình thức thích ứng
Thực ra bản thân ý tưởng kết hợp một số phương pháp dự báo ít tin
cậy để tạo ra ước lượng dự báo tối ưu duy nhất đã được thảo luận trong
những năm sáu mươi ở các công trình của N A Bagrov và E P
Borixenkov đối với các bài toán khí tượng Một phương pháp luận tương
ứng đã hình thành sau đó có tính tới cả đặc thù của các dự báo khí tượng
[14, 35, 36, 65] Chúng ta sẽ thử khái quát một số phương pháp kết hợp
dự báo những chuỗi thời gian để sau đó chuyển sang thảo luận khả năng
kết hợp dự báo các quá trình đa chiều
Nội dung cơ bản của phương pháp luận kết hợp hiện đang giới hạn
trong khuôn khổ những mô hình kết hợp tuyến tính dạng
=
= l
p
p i p k
x
1
ˆ
ˆ (4.5)
trong đó xˆ k − chuỗi các dự báo kết hợp, i=1,2, ,N; xˆi p − ước lượng
dự báo của đại lượng x theo phương pháp dự báo p cho thời khoảng i ;
−
p
a những hệ số kết hợp Các phương pháp kết hợp khác nhau tuỳ
thuộc vào dạng của các mô hình dự báo được sử dụng (định lượng hay
định tính), cũng như theo phương pháp tính những hệ số kết hợp Khi ước
lượng những hệ số a người ta sử dụng một số cách tiếp cận Cách đơn p
giản nhất − kết hợp bằng trung bình số học, khi các hệ số bằng nhau:
l a
a1= .= l =1/ Cách khác − kết hợp hồi quy, khi những giá trị a tương ứng với p
những hệ số hồi quy xˆ của x Việc tính toán tiến hành theo sơ đồ tính p
của hồi quy tuyến tính đa biến (xem chương 1), điều đó cho phép trên tập
xuất phát đang xét cực tiểu hoá được sai số bình phương trung bình của
dự báo kết hợp ε tính theo công thức
11
D
D /
x
σ
=
Ở đây D − định thức, còn D11 − ma trận con tương ứng của ma trận tương quan đầy đủ của các dự báo, σx − độ lệch bình phương trung bình
của chuỗi quan trắc x
Độ chính xác các dự báo kết hợp trong cách tiếp cận này sẽ được mô
tả thông qua những hệ số tương quan giữa các quan trắc x và những giá
trị dự báo xˆ Trong trường hợp độc lập của các chuỗi ước lượng dự báo, p
công thức tương ứng có dạng
1
1 2
=
− σ
=
j
j
x r (x xˆ )
Ta sẽ phân tích khả năng kết hợp dự báo đối với quá trình đa chiều
X gồm N quan trắc về M biến (dấu hiệu) Giả sử đối với mỗi dấu hiệu
tồn tại khả năng đưa ra N dự báo liên tiếp trong thời gian, bằng cách sử dụng l phương pháp khác nhau Khi đó phải tối ưu hoá ma trận ba chiều
các dự báo kích thước N×M×l tương ứng với ma trận các quan trắc
M
N× Nhằm mục đích này, ta thử sử dụng hệ phương pháp kết hợp hồi quy: muốn vậy với giả thiết đồng nhất các quan trắc xuất phát, ta biểu diễn ma trận X dưới dạng vectơ cột 1(N × M)× Bằng cách tương tự, ta biến đổi ma trận các dự báo kết hợp Xˆ thành ma trận hai chiều gồm )(N×M dòng và l
cột Để tính các dự báo kết hợp trong điều kiện biểu diễn các dữ liệu xuất phát
như vậy chỉ cần đánh giá vectơ từ l hệ số hồi quy A và thiết lập phương
trình:
ε A X
X1= × ⋅ 1+
l M N M
) ( )
Những tính toán tương ứng có thể thực hiện theo thuật toán hồi quy tuyến tính đa chiều (xem chương 1), còn sai số bình phương trung bình của sự kết hợp − ước lượng theo các công thức đã dẫn ở trên
Trang 8Sự thành công của phép kết hợp hồi quy và cực tiểu hoá sai số sẽ
được quyết định bởi hai điều kiện:
− Tính đồng nhất thống kê của vectơ các quan trắc X;
− Tính ổn định của các mối liên hệ r(x,xˆj)
Trong trường hợp nếu ma trận các quan trắc là một tập hợp bất đồng
nhất N quan trắc M biến, nên chuyển sang vận dụng phép kết hợp xác
suất [44, 65, 76, 217] Khi đó chuỗi các quan trắc được biểu diễn như một
chuỗi tuần tự của k lớp (trạng thái) quá trình và đưa ra các dự báo theo l
phương pháp Khi đó dự báo kết hợp dưới dạng xác suất có thể viết như
sau:
=
⋅
⋅
⋅
⋅
=
l
k
P P P P
1
2 1
P , (4.6)
trong đó a i − tỉ trọng cho trước tiên định của phương pháp dự báo,
−
j
p xác suất dự báo bằng phương pháp i của cấp trạng thái j của quá
trình Quy tắc quyết định để ước lượng các tỉ trọng của các phương pháp
riêng biệt có thể đưa ra trên cơ sở công thức Bayes Nhờ kết quả tính toán
dự báo kết hợp, quá trình đa chiều sẽ được biểu diễn bằng một bảng các
xác suất xuất hiện tất cả những trạng thái có tính tới tất cả những phương
pháp xuất phát
4.4 TÍNH KHẢ BÁO THỐNG KÊ CỦA CÁC QUÁ TRÌNH HẢI
DƯƠNG HỌC
Việc ước lượng sự biến động các quá trình hải dương trực tiếp liên
quan tới việc phân tích tính khả báo của chúng Để giải quyết thành công
bài toán này, thứ nhất, đòi hỏi xây dựng các mô hình toán đúng đắn về
các quá trình nghiên cứu; thứ hai, phải mô tả những tính chất dự báo của các mô hình này, và cụ thể, xác định những giới hạn tính khả báo của các quá trình với những quy mô không gian − thời gian khác nhau Nhiệm vụ
cơ bản của lý thuyết kinh điển về tính khả báo là làm sao đánh giá tốc độ tích luỹ những sai số bé tồn tại trong mô hình dự báo Trong mô hình bất
kỳ, tính khả báo sẽ phụ thuộc vào bản chất các sai số của mô hình quá trình chấp nhận, cũng như vào những sai số quan trắc quá trình Đại dương được quan niệm như là một hệ đa thành phần phức tạp, sự tương tác giữa các hợp phần của nó mang tính chất ngẫu nhiên Phù hợp với định nghĩa này, hoàn toàn có quyền hướng tới những mô hình thống kê, những mô hình này cho ta khái niệm về sự tiến triển các hiện tượng khí tượng thủy văn trong thời gian như về một quá trình ngẫu nhiên X (t) và cho phép đặt bài toán nghiên cứu những khả năng ngoại suy thống kê quá trính này Các mô hình thống kê ngày càng được ứng dụng hữu hiệu cho các mục đích chẩn đoán và dự báo những quá trình khí tượng thủy văn Nhờ chúng có thể mô tả cấu trúc thống kê, và hệ quả là xác lập được những giới hạn khả báo thống kê của các quá trình nghiên cứu [151] Việc giải quyết đúng đắn bài toán này phụ thuộc nhiều vào dạng thông tin xuất phát (số chiều của vectơ các dấu hiệu, khoảng gián đoạn quan trắc)
và dạng của mô hình thống kê được chọn
Tính khả báo của mô hình quá trình một chiều
Hiện nay khi nghiên cứu những quá trình hải dương phần lớn các tác giả coi trọng những mô hình tự hồi quy bậc 1 (AP − 1) Chính những tham số của các mô hình là cơ sở cho các kết luận về cấu trúc thống kê của các chuỗi thời gian và những giới hạn khả báo thống kê Điều này được giải thích là do: những quá trình khí quyển được mô tả bởi mô hình phổ loại "nhiễu trắng", còn những quá trình hải dương − bởi mô hình
"nhiễu đỏ" Từ đó suy ra kết luận về tính quán tính yếu của các quá trình khí tượng thủy văn, giới hạn dự báo được về mặt thống kê là khoảng báo trước bằng một bước thời gian
Trang 964
Những kết quả này đơn trị xác định tính khả báo loại 1 và loại 2
[234] Chúng tôi nhắc lại rằng tính khả báo loại 1 − đó là khoảng thời
gian báo trước (τ), trong đó sai số bình phương trung bình của dự báo
( 2
ε
σ ) trở nên gần bằng với phương sai của quá trình ( 2
p c
σ )
Như vậy tính khả báo thống kê loại 1 được đặc trưng định lượng
bằng sai số dự báo: sai số càng nhỏ, tính khả báo càng cao Trong thực tế
dự báo biển thường người ta sử dụng phương sai tương đối của các sai số
dự báo d hay tiêu chuẩn chất lượng dự báo Q :
d Q
d=σε2/σΦ2, = , (4.7) trong đó σε2− phương sai sai số dự báo, σΦ2 − phương sai của chuỗi được
dự báo
Rõ ràng, các đại lượng d và Q càng nhỏ thì mô hình dự báo càng
dự báo tốt Trong trường hợp 0d = Q= quá trình được dự báo là quá
trình luật nghiệm và do đó, nó được mô tả đơn trị bằng mô hình luật
nghiệm Khi d = Q=1 quá trình là nhiễu trắng và dự báo tốt nhất là dự
báo khí hậu, tức dự báo giá trị trung bình
Một ước lượng khác về hiệu quả dự báo là ước lượng gián tiếp d
theo hệ số tương quan r giữa những giá trị thực và giá trị dự báo tuỳ
thuộc vào thời gian báo trước của dự báo [151]:
τ
−
1 r
d , (4.8) trong đó τ − giới hạn khả báo thống kê Từ [234] suy ra rằng: việc xác
định giới hạn khả báo thống kê trực tiếp phụ thuộc vào các tham số của
những xác suất thống kê được sử dụng, và cụ thể phụ thuộc vào phương
sai tương đối của sai số dự báo:
r
d
ln 2
1
ln( − )
=
τ , (4.9)
trong đó d được chấp nhận nhỏ hơn 1 Ta nhận thấy rằng tất cả những
chỉ tiêu đã dẫn là những ước lượng thống kê có độ chính xác được quy
định bởi những khoảng tin cậy của các tham số có mặt trong biểu thức
của chúng Do đó, chúng tôi sẽ dẫn thêm một chỉ tiêu nữa để xác định giới hạn dự báo được:
z
z− σ
≤
τ 2 , (4.10) trong đó z tham số Fisher −
−
+
=
r
r z
1
1 2
1
ln ; σz− sai số tính toán bình phương trung bình lý thuyết (σz=1/(N−3))
Nhiều tác giả [35, 65, 69, 135, 146] đã tiến hành phân tích những chuỗi khí tượng thủy văn bằng các mô hình thống kê tuyến tính Kết quả
đã nhận được những biểu thức quan hệ quan trọng giữa các tham số mô hình và các sai số dự báo có thể có Chẳng hạn, người ta đã xác định được rằng việc dự báo sẽ có nghĩa khi d ≤0,9 Tuy nhiên, với tư cách là những chỉ tiêu dự báo thực tiễn, người ta đưa ra những điều kiện cụ thể hơn và khá khắc nghiệt: 0,674σΦ và 0,8σΦ − những trị số tương ứng với
d
45 ,
0 và 0,74d Vì vậy, điều quan trọng là phải xác lập được những biểu thức liên hệ giữa độ xác thực của dự báo với những chỉ tiêu về độ chính xác đang xét và các tham số của mô hình xác suất thống kê
Thí dụ, mức d =0,45 đảm bảo độ xác thực dự báo với điều kiện sai
số dự báo không vượt quá 0,674σΦ trong 100% trường hợp Mức 74
, 0
=
d đảm bảo độ xác thực dự báo 100% khi ε≤0,8σΦ Từ những
tương quan đã nêu dễ dàng xác lập được sự liên hệ tuyến tính giữa d và
độ xác thực của phương pháp dự báo tại mức sai số đang xét, từ đó rút ra rằng về trung bình, mức 74d≤0, đảm bảo dự báo xác thực theo chỉ tiêu
Φ σ
≤
ε 0,674 (hình 4.2)
Theo ý kiến chúng tôi, những kết quả này rất quan trọng đối với người làm công tác dự báo thực tiễn, vì nó cho phép không chỉ xác định giới hạn dự báo được về thống kê của các phương pháp, mà còn phân biệt xem các phương pháp xác suất thống kê, những vùng địa lý, quy mô thời gian và bản thân những đặc trưng được dự báo có thuận hay không thuận
về phương diện dự báo Thực tế là mô hình ngẫu nhiên cho phép tổng quát hoá, phân loại và làm căn cứ cho chẩn đoán và dự báo vật lý các quá
Trang 10trình khí tượng thủy văn
Tính khả báo loại 2 − đó là những biến đổi có thể có của đặc trưng
được dự báo phụ thuộc vào những biến đổi của các tiên lượng Để xác
định tính khả báo loại 2 phải xây dựng mô hình vật lý đúng đắn về quá
trình Sau đó, cho thay đổi các tham số mô hình để xác định giới hạn biến
thiên của đại lượng được dự báo Ta thấy rằng để xác định giới hạn dự
báo được về thống kê loại 1 cũng cần xây dựng mô hình về quá trình
được dự báo, dù ở mức xấp xỉ Như vậy rõ ràng có mối liên hệ giữa tính
khả báo loại 1 và loại 2, được quy định bởi kiểu của mô hình
Hình 4.2 Phụ thuộc lý thuyết giữa độ xác thực dự báo Q và phương sai
tương đối của sai số dự báo d /0 d
Trong [44] cho biết rằng không thể mô tả các quá trình hải dương
khác nhau chỉ bằng một mô hình nào đó Điều này cũng đúng khi ta mô tả
hành vi của từng quá trình riêng biệt trong thời gian: tại những thời đoạn
khác nhau thì có những mô hình xác suất thống kê khác nhau vận hành
Vì vậy, kết luận về tính phù hợp của các mô hình AP−1 với các quá
trình khí tượng thủy văn và giới hạn dự báo được tương đối không lớn
của chúng chỉ nên xem là kết luận gần đúng bước đầu
Ý tưởng kết hợp những mô hình dự báo đơn và đưa ra dự báo tối ưu
có những ưu việt ngay cả dưới góc độ phân tích tính khả báo thống kê
Tính khả báo của quá trình trong khuôn khổ mô hình kết hợp thường cao
hơn tính khả báo trung bình của những mô hình dự báo đơn xuất phát
Điều này sẽ trở nên rõ ràng nếu tính tới điều kiện chất lượng của mô hình
hồi quy kết hợp đã được chứng minh bằng lý thuyết [13, 14, 44, 65, 153]:
dự báo kết hợp bao giờ cũng không kém hơn từng dự báo thành phần Với tính khả báo loại một, khẳng định này tương ứng với điều kiện cực tiểu hoá phương sai sai số dự báo và tăng tương quan giữa những trị số thực tế và trị số dự báo của mô hình kết hợp, tức dẫn tới tăng giới hạn cực đại của tính khả báo τ
Tính khả báo của quá trình đa chiều
Giữ nguyên những khái niệm cơ bản về tính khả báo thống kê khi chuyển sang phân tích các quá trình đa chiều, phải làm chính xác hoá một
số điểm Tính khả báo của các quá trình đa chiều sẽ được xét từ quan điểm đánh giá tính khả báo của các tham số thống kê tổng quát đặc trưng cho một kiểu cụ thể của mô hình dự báo
Tính khả báo của cấu trúc quá trình đa chiều có thể đánh giá trên cơ
sở phân tích những tính chất dự báo của mô hình khai triển trực giao dạng
E A F
Xˆ =ˆ ⋅ T+ ˆ
Ở đây vectơ giá trị của các thành phần độc lập (các nhân tố) là đặc trưng được dự báo, dưới dạng tổng quát đặc trưng này chuyển tải những nét quan trọng nhất trong cấu trúc quá trình nghiên cứu X Ngay từ các công trình [71, 91, 96, 115, 154] đã cho thấy rằng những thành phần khai triển đầu tiên (f ), với phương sai lớn gấp ít nhất hai lần phương sai sai số quan trắc, sẽ mô tả những biến thiên dài hạn của cấu trúc các quá trình Dưới góc độ tự tương quan, tính chất này tương đương với sự tăng bán kính tương quan và tăng độ ổn định của các hàm tự tương quan đối với các thành phần khai triển đầu tiên so với các đặc trưng trung bình của các hàm tự tương quan của các biến xuất phát
Mức độ tăng tính khả báo hiện nay chưa chứng minh được bằng lý thuyết, mặc dù sự phụ thuộc này vào số chiều của quá trình xuất phát và mức độ nén thông tin trong các thành phần khai triển đầu tiên là hiển nhiên
Do sự độc lập của các thành phần khai triển, tính khả báo của mỗi