thuyt %ang có vai trò th,ng th và s3 là h!*ng nghiên c-u chính trong t!"ng lai v*i các mô hình khí hu toàn cCu GCM và các mô hình khí hu khu v#c RCM.. Trong l*p các kE thut tuyn tính, ng
Trang 1CH!"NG 5 PH!"NG PHÁP TH#NG KÊ D$ BÁO H%N MÙA CÁC Y!U T" VÀ HI!N T"#NG KHÍ H$U C%C &OAN '
VI!T NAM 5.1 M! "#u
T!"ng t# nh! các v$n %& khoa h'c khác, có hai ph!"ng pháp ti(p c)n v*i bài toán d# báo mùa: ph!"ng pháp th#c nghi+m d#a trên các quan tr,c quá kh- và ph!"ng pháp l thuy(t xác l)p các mô hình ho/t %0ng c1a h+ th2ng khí h)u Theo ph!"ng pháp th#c nghi+m, d# báo s3 %!4c xây d#ng d#a trên các quan tr,c có %!4c trong quá kh- Các quan tr,c này khi kh5o sát s3 cho th$y m0t s2 m2i quan h+ nh$t %6nh gi7a các y(u t2 khí h)u t8 %ó có th9 %!a ra d# báo t!"ng lai trên c" s: s2 li+u quan tr,c trong quá kh- Theo ph!"ng pháp l thuy(t, h+ th2ng khí h)u s3 %!4c mô ph;ng b<ng m0t mô hình thích h4p theo m0t s2 quy lu)t v)t l nào %ó Mô hình này n(u %!4c ki9m ch-ng s3 cho phép %!a ra các d# báo trong t!"ng lai Cách gi5i quy(t t2i !u trong tr!=ng h4p này là k(t h4p c5 hai ph!"ng pháp, t)n d>ng %i9m m/nh c1a m?i ph!"ng pháp
Di@n gi5i m0t cách c> th9, ph!"ng pháp th#c nghi+m trong d# báo mùa %!4c th#c hi+n thông qua các công c> th2ng kê truy&n th2ng v*i nhân t2 d# báo là các quan tr,c trong quá kh- %!4c tA h4p d!*i d/ng các chB s2 Hi+n t/i, ph!"ng pháp l thuy(t
%ang có vai trò th,ng th( và s3 là h!*ng nghiên c-u chính trong t!"ng lai v*i các mô hình khí h)u toàn cCu GCM và các mô hình khí h)u khu v#c RCM K(t h4p c1a hai ph!"ng pháp này th!=ng %!4c bi(t %(n d!*i tên g'i downscaling th2ng kê (SD) khi quan h+ th2ng kê sD d>ng tr#c ti(p d# báo t8 các mô hình GCM hay RCM làm nhân t2 d# báo bên c/ch các nhân t2 d# báo truy&n th2ng c1a ph!"ng pháp th#c nghi+m
Y(u t2 d# báo %Cu tiên mà các mô hình th2ng kê kinh nghi+m h!*ng %(n là hi+n t!4ng El Nino Barnston và Ropelewski (1992) [31] là các tác gi5 %Cu tiên %ã áp d>ng
kE thu)t phân tích t!"ng quan canon CCA vào d# báo hi+n t!4ng El Nino Y(u t2 d# báo bao gFm giá tr6 nhi+t %0 mGt n!*c bi9n SST t/i 8 khu v#c Nhân t2 d# báo cHng bao gFm các giá tr6 SST nh!ng cho mùa hi+n t/i và sD d>ng thêm y(u t2 áp su$t m#c bi9n pmsl Tr!*c khi %!a vào CCA, c5 y(u t2 và nhân t2 d# báo %&u %!4c th#c hi+n phân tích thành phCn chính PCA CCA là m0t kE thu)t th2ng kê tuy(n tính c#c %/i hóa t!"ng quan gi7a hình mIu bi(n %Ai c1a nhân t2 d# báo và y(u t2 d# báo Trong l*p các
kE thu)t tuy(n tính, ngoài CCA m0t s2 ph!"ng pháp cHng khá thông d>ng gFm có ph!"ng pháp hFi quy tuy(n tính và ph!"ng pháp tách giá tr6 kJ d6 SVD Ph!"ng pháp sau xác %6nh t)p các nhân t2 d# báo gi5i thích %!4c m0t cách t2i !u bi(n %Ai c1a y(u t2 d# báo
Sau y(u t2 El Nino, các y(u t2 khí h)u %6a ph!"ng nh! l!4ng m!a, nhi+t %0, cHng b,t %Cu %!4c quan tâm M0t s2 các tác gi5 %ã áp d>ng CCA vào d# báo mùa nh! d# báo l!4ng m!a trên các %5o nhi+t %*i : khu v#c Thái Bình D!"ng (He và Barnston,
1996 [144]), các y(u t2 khí h)u b& mGt : Alaska (Barnston và He, 1996 [30]) hay nhi+t
%0 và l!4ng m!a : Canada (Shabbar và Barnston, 1996 [287]) Các tác gi5 này th!=ng
sD d>ng tr!=ng SST c1a các nKm tr!*c %ó, %ôi khi sD d>ng thêm các tr!=ng trong khí quy9n làm nhân t2 d# báo Ph!"ng pháp hFi quy tuy(n tính cHng %!4c áp d>ng trong m0t s2 nghiên c-u nh! d# báo l!4ng m!a t/i Nordeste : Brazil (Ward và Folland,
1991 [329]), d# báo nhi+t %0 b& mGt và l!4ng m!a : ME (Unger, 1996 [317]) hay d#
Trang 2Qu2c (Kim và CS, 2007 [183]) M0t s2 tác gi5 sD d>ng ph!"ng pháp th2ng kê ít phA bi(n h"n cho các hi+n t!4ng khí h)u c#c %oan nh! Mishra và Desai (2005) [240] sD d>ng ARIMA d# báo h/n hán
Song song v*i ph!"ng pháp th2ng kê nh! trên, các mô hình khí h)u cHng %!4c phát tri9n Thành công %Cu tiên c1a d# báo s2 v*i bài toán d# báo mùa %/t %!4c khi Cane và CS (1986) [60] %ã có th9 d# báo El Nino b<ng m0t mô hình %"n gi5n k(t h4p gi7a m0t mô hình %/i d!"ng và m0t mô hình khí quy9n Cho t*i nay, các mô hình GCM hay RCM %ã ngày càng tr: nên tinh t( v*i k(t qu5 d# báo vô cùng phong phú Các nghiên c-u gCn %ây %ã chB ra r<ng k(t h4p gi7a d# báo tA h4p %a mô hình và các
kE thu)t th2ng kê s3 %em l/i k(t qu5 t2t nh$t cho bài toán d# báo mùa trên quy mô %6a ph!"ng Nh! %ã trình bày : trên, ph!"ng pháp này th!=ng %!4c bi(t %(n v*i tên g'i downscaling th2ng kê B:i v)y, thay vì cách ti(p c)n theo ph!"ng pháp th2ng kê truy&n th2ng, vIn trên h!*ng nghiên c-u th2ng kê, %& tài s3 ti(p c)n bài toán d# báo mùa theo h!*ng downscaling th2ng kê
Khác v*i th2ng kê truy&n th2ng d#a trên t)p các nhân t2 d# báo t8 quan tr,c quá kh-, các mô hình th2ng kê này d#a trên t)p các nhân t2 d# báo là các tr!=ng d# báo t8 GCM hay RCM Ngoài ph!"ng pháp SD, trong d# báo khí h)u %6a ph!"ng ng!=i ta còn th#c hi+n downscaling theo ph!"ng pháp downscaling %0ng l#c (DD) ch/y lFng m0t mô hình khu v#c phân gi5i cao trong l!*i d# báo phân gi5i th$p c1a GCM Ph!"ng pháp này s3 %!4c trình bày trong ch!"ng 6 c1a %& tài
Cùng v*i s# xu$t hi+n c1a 2 ph!"ng pháp SD và DD, d# báo các hi+n t!4ng khí h)u c#c %oan trên quy mô %6a ph!"ng b,t %Cu nh)n %!4c s# quan tâm c1a c0ng %Fng khoa h'c bên c/ch các y(u t2 thông th!=ng nh! l!4ng m!a hay nhi+t %0 D#a trên các d# báo c1a GCM, Gordon và CS (1992) [133] %ã chB ra r<ng nFng %0 CO2 khi tKng lên s3 dIn %(n nh7ng bi(n %Ai %áng k9 c1a hi+n t!4ng m!a l*n c5 v& tCn xu$t và c!=ng %0 Tuy nhiên, nghiên c-u này m*i chB th#c hi+n trên quy mô l*n L9 xác %6nh bi(n %Ai c1a các hi+n t!4ng c#c %oan trên quy mô %6a ph!"ng, nKm 2001 Liên minh châu Âu
%ã kh:i %0ng d# án STARDEX (Statistical and Regional dynamical Downscaling of Extremes for European regions) D# án k(t thúc vào nKm 2005 v*i 3 k(t lu)n quan tr'ng sau (STARDEX, 2005 [296]):
• Bi(n %Ai c1a các y(u t2 c#c tr6 m!a và nhi+t %0 di@n ra m0t cách h+ th2ng và tác
%0ng t*i châu Âu trong 40 nKm qua Nh7ng bi(n %Ai c" b5n s3 ti(p t>c trong t!"ng lai
• TFn t/i %0 b$t %6nh trong các k6ch b5n bi(n %Ai c1a các y(u t2 c#c tr6 trên quy mô
%6a ph!"ng khi downscale t8 quy mô toàn cCu v& quy mô %6a ph!"ng
• Nên ti(p c)n bài toán bi(n %Ai c1a các y(u t2 c#c tr6 quy mô %6a ph!"ng theo h!*ng %a mô hình dù sD d>ng ph!"ng pháp SD hay DD
Bên ngoài Liên minh châu Âu, Lim và CS (2009) [214] %ã sD d>ng kE thu)t SD d#a trên mô hình CFS, xác %6nh bi(n %Ai c1a các c#c tr6 l!4ng m!a và tác %0ng c1a các bi(n %Ai này t*i v> mùa t/i %ông nam Hoa KJ., Zhu và CS (2008) [360] ti(p c)n bài toán d# báo l!4ng m!a theo h!*ng %a mô hình d#a trên kE thu)t SD cho khu v#c châu Á – Thái Bình D!"ng
Cách ti(p c)n bài toán d# báo khí h)u c1a ph!"ng pháp SD t!"ng t# nh! cách
ti(p c)n c1a ph!"ng pháp perfect prog (PP) trong bài toán d# báo th=i ti(t Tr!*c h(t,
ta gi5 %6nh tFn t/i m0t quan h+ th2ng kê gi7a các y(u t2 khí h)u quy mô l*n v*i các
Trang 3%Gc tr!ng khí h)u trên quy mô %6a ph!"ng L6nh d/ng quan h+ này %!4c xác %6nh tùy thu0c t8ng ph!"ng pháp mà %"n gi5n nh$t là gi5 %6nh m0t quan h+ tuy(n tính nh! v*i ph!"ng pháp hFi quy tuy(n tính S2 li+u sD d>ng trong xác %6nh quan h+ này chB gFm các quan tr,c v*i s2 li+u quy mô l*n t8 tr!=ng tái phân tích và s2 li+u khí h)u %6a ph!"ng t/i các tr/m %o
Quan h+ th2ng kê này sau %ó cCn %!4c ki9m %6nh trên t)p s2 li+u %0c l)p %9 tránh kh5 nKng “quá kh*p” (over-fitting) c1a quan h+ thu %!4c khi sD d>ng t)p s2 li+u ph> thu0c Cách %"n gi5n %9 ki9m %6nh quan h+ này có th9 th#c hi+n b<ng cách chia t)p s2 li+u quan tr,c thành hai t)p con trong %ó m0t t)p sD d>ng %9 xây d#ng quan h+ th2ng
kê và m0t t)p sD d>ng %9 ki9m %6nh quan h+ th2ng kê Ph-c t/p h"n, %9 %5m b5o %0 tin c)y c1a quan h+ thu %!4c, ng!=i ta có th9 th#c hi+n ki9m tra chéo b<ng cách chia %ôi t)p s2 li+u quan tr,c theo nhi&u cách khác nhau, xây d#ng và ki9m tra trên t8ng cách chia này sau %ó l$y trung bình
Sau khi %ã khMng %6nh %!4c %0 tin c)y c1a quan h+ th2ng kê này, ng!=i ta áp d>ng vào d# báo v*i các quan tr,c tr!=ng khí h)u quy mô l*n %!4c thay th( b<ng giá tr6 d# báo t!"ng -ng t8 GCM Li&u này %Fng nghNa v*i gi5 %6nh GCM có kE nKng d# báo v*i ch$t l!4ng t2t các tr!=ng khí h)u trên quy mô l*n và quan h+ th2ng kê gi7a tr!=ng quy mô l*n và y(u t2 %6a ph!"ng có tính phA quát không bi(n %Ai theo th=i gian Gi5 %6nh sau cùng có th9 không chính xác khi xét trên quy mô nhi&u nKm hay th(
kO nh! v*i các d# báo bi(n %Ai khí h)u tuy nhiên trên quy mô tháng hay mùa gi5 thi(t này có th9 ch$p nh)n %!4c
Gi5 %6nh %Cu tiên liên quan %(n sai s2 d# báo c1a GCM Sai s2 này khi xu$t hi+n s3 làm xu$t hi+n nh7ng sai s2 t!"ng -ng trong k(t qu5 d# báo theo ph!"ng pháp SD CCn phân bi+t hai lo/i sai s2 là sai s2 h+ th2ng (bias) và sai s2 ngIu nhiên trong d# báo c1a GCM Tr!*c khi áp d>ng quan h+ th2ng kê vào d# báo, bias cCn %!4c lo/i b; kh;i các tr!=ng d# báo quy mô l*n c1a GCM Nh! th(, GCM cCn th#c hi+n tái d# báo (reforecast) %9 có th9 xác %6nh giá tr6 khí h)u c1a mô hình so v*i giá tr6 khí h)u quan tr,c th#c t8 %ó th#c hi+n khD bias Riêng v*i sai s2 ngIu nhiên không th9 khD b;, ta cCn chú %(n tác %0ng c1a sai s2 này trong các k(t qu5 d# báo cu2i cùng Sai s2 này
có th9 lo/i b; m0t phCn khi sD d>ng d# báo tA h4p v*i nhân t2 d# báo xác %6nh t8 nhi&u GCM khác nhau do quan h+ th2ng kê %!4c xây d#ng hoàn toàn t8 quan tr,c Kh5 nKng lo/i b; %!4c sai s2 h+ th2ng và ngIu nhiên là m0t !u %i9m c1a SD so v*i
DD
M>c ti(p theo s3 mô t5 c" s: l thuy(t c1a các ph!"ng pháp th2ng kê %!4c sD d>ng Chi ti(t h"n v& mGt th#c hành c1a ph!"ng pháp nh! s2 li+u sD d>ng, cách l#a ch'n t)p các nhân t2 d# báo, y(u t2 d# báo, phân mùa d# báo %!4c trình bày trong m>c sau %ó Cu2i cùng s3 trình bày nh7ng k(t qu5 thu %!4c
5.2 C$ s! l% thuy&t
Các kE thu)t SD r$t %a d/ng nh!ng có th9 phân chia thành 3 lo/i chính nh! sau: các s" %F phân l*p th=i ti(t (weather classification schemes), các mô hình hFi quy (regression models) và các b0 sinh th=i ti(t (weather generators) theo Giorgi và CS (2001) [110] Các s" %F phân l*p th=i ti(t và các b0 sinh th=i ti(t h!*ng %(n d# báo cho t8ng ngày dù h/n d# báo vIn trên quy mô tháng và mùa Quan tâm ch1 y(u %(n d# báo tháng và mùa, %& tài s3 sD d>ng l*p các ph!"ng pháp theo mô hình hFi quy Các
Trang 4tuy(n tính hoGc phi tuy(n Các ph!"ng pháp thông d>ng trong l*p các mô hình hFi quy gFm có hFi quy tuy(n tính %a bi(n REG hay MLR (multi-linear regression), phân tích t!"ng quan canon CCA, phân tích riêng bi+t Fisher FDA, m/ng t( bào thCn kinh nhân t/o ANN, Ba kE thu)t s3 %!4c -ng d>ng trong %& tài gFm REG, ANN và FDA D!*i %ây là mô t5 v& l thuy(t các kE thu)t này
5.2.1 H!i quy tuy"n tính #a bi"n REG
Bài toán hFi quy tuy(n tính %a bi(n có d/ng nh! sau: xác %6nh t)p p+1 các h+ s2 t# do a i c1a ph!"ng trình tuy(n tính v*i sai s2 e d# báo y(u t2 Y theo t)p p các nhân t2 d# báo X i
t8 t)p s2 li+u quá kh- và áp d>ng d# báo t!"ng lai Các h+ s2 a i s3 %!4c xác %6nh
theo ph!"ng pháp bình ph!"ng t2i thi9u d#a trên t)p s2 li+u training dung l!4ng mIu
n Vi(t d!*i d/ng ma tr)n công th-c tính vector h+ s2 a i có d/ng sau
trong %ó y là vector y(u t2 d# báo kích th!*c n, X là ma tr)n nhân t2 d# báo kích th!*c (p+1)!n v*i m?i vector c0t t!"ng -ng m0t vector nhân t2 d# báo kích th!*c n Ch$t l!4ng c1a %!=ng hFi quy %!4c xác %6nh thông qua h+ s2 R 2 hay còn g'i là
RV (Reduction of Variance) cho bi(t tO l+ bi(n %0ng c1a y(u t2 d# báo %!4c gi5i thích
b:i %!=ng hFi quy H+ s2 này %!4c k hi+u là R 2 b:i cKn b)c hai c1a nó chính là h+ s2
t!"ng quan Pearson gi7a t)p các giá tr6 Y xác %6nh t8 ph!"ng trình hFi quy và t)p các giá tr6 Y trên th#c t( t8 t)p s2 li+u training V& mGt toán h'c, R 2 %!4c xác %6nh b:i
SST
SSE SST
1
2
])(
i
e SSE
1
2 1
v*i s2 h/ng y mH là giá tr6 c1a y xác %6nh theo ph!"ng trình hFi quy, s2 h/ng y có d$u g/ch ngang là trung bình c1a y trên t)p training, s2 h/ng y không có k hi+u %Gc bi+t nào là giá tr6 quan tr,c th#c c1a y và e chính là sai s2 hFi quy
Khi có m0t t)p l*n các s2 h/ng có t!"ng quan lIn nhau có th9 tr: thành nhân t2 d# báo REG th!=ng sD d>ng kE thu)t hFi quy t8ng b!*c Các s2 h/ng s3 %!4c %!a dCn
vào ph!"ng trình hFi quy v*i p tKng dCn t8 1 cho %(n m0t giá tr6 nào %ó th;a mãn tiêu
chuPn d8ng.T/i m?i b!*c m0t s2 h/ng s3 %!4c l#a ch'n n(u so v*i t$t c5 các s2 h/ng khác s2 h/ng %!a vào cho sai s2 c1a ph!"ng trình hFi quy th$p nh$t Tiêu chuPn d8ng
%!4c xác %6nh v*i m0t s2 phCn trKm cho tr!*c khi các s2 h/ng %!a thêm vào ph!"ng trình hFi quy không làm gi5m thêm sai s2 c1a ph!"ng trình hFi quy v!4t quá s2 phCn trKm này
Trang 5Khi -ng d>ng REG vào d# báo xác su$t REG %!4c bi(t %(n v*i tên g'i REEP
(Regression Estimation of Event Probabilities) (Glahn, 1985 [119]) Khái ni+m d# báo xác su$t : %ây ng> y(u t2 d# báo là m0t bi(n xác su$t, không ph5i m0t bi(n có giá tr6 c> th9 (ví d> y(u t2 d# báo là xác su$t xu$t hi+n m!a ch- không ph5i là giá tr6 l!4ng m!a) Do %ó, y(u t2 d# báo trong t)p s2 li+u ph> thu0c tr!*c h(t cCn %!4c chuy9n %Ai v& d/ng nh6 phân 0 hoGc 1 Giá tr6 0 c1a y(u t2 d# báo cho bi(t hi+n t!4ng không x5y
ra và giá tr6 1 cho bi(t hi+n t!4ng có x5y ra MGc dù t)p y(u t2 d# báo ph> thu0c chB bao gFm giá tr6 0, 1, khi áp d>ng d# báo trong th#c t(, y(u t2 d# báo s3 có giá tr6 bi(n thiên trong kho5ng [0,1] cho ta xác su$t d# báo hi+n t!4ng Tuy nhiên, các giá tr6 !*c l!4ng c1a y(u t2 d# báo vIn có th9 nh)n các giá tr6 nh; h"n 0 và l*n h"n 1 H/n ch( này %!4c kh,c ph>c b<ng cách chBnh l/i các giá tr6 v!4t ng!Qng v& các giá tr6 0 và 1
5.2.2 M$ng th%n kinh nhân t$o ANN
M/ng thCn kinh nhân t/o (Artificial Neural Network - ANN) %ã %!4c bi(t %(n t8
lâu tr!*c khi xu$t hi+n c1a máy tính %i+n tD, nh!ng không có nhi&u k(t qu5 do h/n ch( c1a công ngh+ tính toán t/i th=i %i9m %ó Ngày nay kh5 nKng tính toán t2c %0 cao và dung l!4ng l*n c1a máy tính hi+n %/i %ã t/o %i&u ki+n thu)n l4i cho s# phát tri9n c1a ANN Vi+c nghiên c-u ANN xu$t phát t8 nh7ng quan sát ho/t %0ng c1a b0 não và các t( bào thCn kinh ANN là s# mô ph;ng c$u trúc và ho/t %0ng c1a b0 não ng!=i, %!4c hình thành t8 nh7ng %"n v6 riêng lR g'i là nh7ng t( bào thCn kinh nhân t/o (hay neuron nhân t/o) B5n ch$t c1a ph!"ng pháp là vi+c tìm m0t hàm x$p xB cho chu?i s2 li+u nghiên c-u v*i sai s2 mà ta ch'n V*i m0t chu?i s2 li+u %1 dài và các nhân t2 thích h4p, ng!=i ta có th9 tìm ra qui lu)t bi(n %Ai, giá tr6 n&n c1a y(u t2 d# báo
S2 l*p m/ng ANN là r$t %a d/ng, phân bi+t
theo c$u hình m/ng, ph!"ng th-c c#c ti9u, L&
tài này sD d>ng m0t lo/i ANN phA bi(n là m/ng
feed-forward (xem hình 5.1) M/ng feed-forward
có c$u trúc gFm nhi&u l*p các neuron khác nhau
bao gFm: m0t l*p %Cu vào, m0t l*p %Cu ra và có
hoGc không có m0t hay nhi&u l*p Pn Các neuron
: hai l*p k& nhau có liên k(t v*i nhau thông qua
các tr'ng s2, các neuron cùng m0t l*p hoGc : hai
l*p không k& nhau không có liên k(t v*i nhau
Neuron là %"n v6 c" s: c1a m0t m/ng thCn
kinh nhân t/o M0t neuron nh)n các giá tr6 %Cu
vào th#c, giá tr6 %Cu ra là giá hàm ng!Qng ! v*i
%2i s2 là tA h4p tuy(n tính các giá tr6 %Cu vào
Gi5 sD các giá tr6 %Cu vào là véct" x! = {x 1 , ,x n },
Trang 6i x w x
0vkhi 0
2
1-khi
2
1vkhi
0
21
1
v v
=
exp1
2
1
v*i D là t)p s2 li+u luy+n, t d là giá tr6 %ích (giá tr6 mong mu2n), o d là giá tr6 %Cu ra
c1a ví d> luy+n th- d M>c %ích c1a chúng ta là c#c ti9u hóa E trong không gian w! Quá trình c#c ti9u hóa này (còn %!4c hi9u là quá trình h'c c1a ANN) %!4c ti(n hành theo thu)t toán lan truy&n ng!4c C> th9 xD l toán h'c c1a quá trình này có th9 tìm hi9u trong các tài li+u tham kh5o v& ANN K(t qu5 cu2i cùng s3 là t)p các tr'ng s2 w
và áp d>ng m/ng ANN thu %!4c vào d# báo
5.2.3 Phân tích riêng bi&t Fisher (FDA)
Ph!"ng pháp phân tích riêng bi+t (g'i t,t là FDA - Fisher Discriminant Analysis)
%!4c phát tri9n t8 nKm 1936 b:i R A Fisher là m0t kE thu)t th2ng kê dùng %9 phân lo/i/d# báo các %2i t!4ng cCn nghiên c-u (nh! con ng!=i, khách hàng, %F v)t, …) vào trong m0t hoGc nhi&u nhóm/l*p %ã %!4c bi(t tr!*c d#a trên m0t t)p các %Gc tính mô t5 các %2i t!4ng %ó (gi*i tính, %0 tuAi, thu nh)p, …) Hay nói m0t cách %"n gi5n, là gán m0t %2i t!4ng vào trong m0t nhóm thu0c các nhóm cho tr!*c d#a trên các quan tr,c v& %2i t!4ng này
Trong phân tích FDA, các nhóm %ã %!4c bi(t và các thu0c tính %ã %!4c quan tr,c cho t8ng %2i t!4ng c> th9 Do %ó, bài toán FDA t)p trung vào tr5 l=i cho 2 câu h;i nh! sau: 1) Nh7ng %Gc tính nào là t2t nh$t cho vi+c phân lo/i các %2i t!4ng vào trong các nhóm; và 2) Tiêu chuPn phân lo/i nào là t2t nh$t %9 tách bi+t các nhóm
Trang 7Câu h;i th- nh$t liên quan %(n l#a ch'n %Gc tính và câu h;i còn l/i liên quan %(n bài toán phân lo/i V& mGt ph!"ng pháp lu)n, FDA có th9 %!4c mô t5 nh! sau: gi5 sD
có m0t t)p các vector s2 li+u x bao hàm K y(u t2 (hay là các vector K chi&u) và chúng
ta mong mu2n phân lo/i các vector d7 li+u này vào 2 nhóm d#a trên các y(u t2 vector
riêng lR x k N(u các nhóm %ã %!4c chB %6nh tr!*c, thì bài toán tr: thành quá trình phân lo/i các vector d7 li+u vào trong các nhóm Do v)y, %9 phân lo/i m0t vector quan tr,c vào trong các nhóm nói trên, cCn thi(t ph5i có m0t t)p s2 li+u ph> thu0c trong %ó các
vector x k %ã %!4c gán cho t8ng nhóm c> th9 Vi+c tìm ra các nguyên t,c/tiêu chuPn %9
gán vector d7 li+u x vào trong các nhóm cho tr!*c chính là m>c tiêu c1a ph!"ng pháp
FDA và sau khi %ã tìm ra %!4c các tiêu chuPn phân bi+t, thì FDA có th9 %!4c sD d>ng nh! m0t ph!"ng pháp d# báo
Gi5 sD trong ma tr)n quan tr,c x có n 1 vector quan tr,c thu0c vào nhóm 1 và n 2
quan tr,c thu0c vào nhóm 2 Hay nói cách khác, ma tr)n ban %Cu x có th9 tách thành 2
ma tr)n con t!"ng -ng là X 1 có kích th!*c là (n 1 " K) và ma tr)n X2 có kích th!*c là
g'i là hàm riêng bi+t) sao cho m0t vector quan tr,c K chi&u y nào %ó s3 %!4c phân lo/i
m0t cách chính xác vào nhóm 1 hoGc nhóm 2 L9 tìm ra hàm riêng bi+t, tr!*c h(t cCn tính 2 vector trung bình %Gc tr!ng cho 2 nhóm theo công th-c nh! sau:
=
=
=
,1
11
11
1 ,
1 2 ,
1 1 ,
g g g
n
i i K g
n
i
i g
n
i
i g
T g g
g
x n
x n
x n
X n
: %ây 1 là vector %"n v6 có kích th!*c (n " 1) v*i n = n 1 + n 2, k hi+u mH T mô
t5 ma tr)n chuy9n v6 Vi+c tính toán trung bình trong công th-c (5.2.10) %!4c tính toán riêng bi+t cho t8ng nhóm FDA gi5 thi(t ma tr)n ph!"ng sai-hi+p bi(n (co-variance matrix, v& sau g'i t,t là ma tr)n hi+p bi(n) trong 2 nhóm là nh! nhau Gi5 thi(t này có nghNa 2 vector trung bình c1a 2 nhóm có th9 khác nhau nh!ng b5n ch$t phân tán c1a
các %i9m d7 li+u quanh vector trung bình nh! nhau D#a trên các ma tr)n quan tr,c X 1
và X 2 , các ma tr)n hi+p bi(n S 1 và S 2 s3 %!4c tính theo các công th-c sau:
g g
n X
Trang 8[ ] [ ] [ ]
)1(
)1()1(
2 1
2 2 1 1
!+
!+
!
=
n n
S n S n
N(u n 1 = n 2, ph!"ng trình (5.2.17) s3 tr: thành d/ng trung bình c0ng %"n gi5n
gi7a S 1 và S 2 M>c tiêu c1a FDA là tìm ra m0t h!*ng d trong không gian d7 li+u K
chi&u sao cho kho5ng cách gi7a hai vector trung bình c1a hai nhóm là c#c %/i khi toàn
b0 d7 li+u %!4c chi(u lên h!*ng d này Nh! v)y, vector d7 li+u x s3 %!4c bi(n %Ai
sang m0t bi(n m*i là d T x
=
! (bi(n ! còn %!4c g'i là hàm riêng bi+t tuy(n tính) Hay
nói cách khác, hai nhóm c1a d7 li+u %a bi(n trên không gian K chi&u s3 %!4c chuy9n
v& thành 2 nhóm c1a d7 li+u %"n bi(n %!4c phân b2 d'c theo tr>c d v*i hai giá tr6 trung bình khác nhau Vector riêng bi+t d xác %6nh h!*ng trong %ó s# tách bi+t gi7a 2
nhóm là c#c %/i s3 %!4c xác %6nh theo công th-c sau:
[ ]S 1(x1 x2)
Vi+c xác %6nh m0t vector quan tr,c y trong t!"ng lai s3 thu0c vào nhóm 1 hay
nhóm 2 có th9 %!4c th#c hi+n d#a trên giá tr6 c1a bi(n d T y
y =
! (th#c ch$t là chi(u
vector y lên h!*ng d) Có th9 th$y hàm riêng bi+t !y là m0t s# k(t h4p tuy(n tính c1a
các y(u t2/nhân t2 trong vector y Do %ó, n(u phép chi(u c1a vector y lên tr>c d gCn v*i vector trung bình c1a nhóm 1 thì vector y s3 %!4c phân lo/i thu0c v& nhóm 1 và
ng!4c l/i L9 thu)n ti+n cho vi+c so sánh, m0t %i9m n<m gi7a hai vector trung bình
nhóm d'c theo h!*ng d s3 %!4c xác %6nh nh! sau:
2
2
1 x x
vector quan tr,c y s3 thu0c v& nhóm 1 n(u #y"# !0
vector quan tr,c y s3 thu0c v& nhóm 2 n(u "y!" <0
5.3 Các b'(c th)c hi*n
5.3.1 '(t bài toán
D#a trên t)p s2 li+u tái phân tích %Gc tr!ng cho các tr!=ng khí h)u quan tr,c quy
mô l*n và s2 li+u khí h)u quy mô %6a ph!"ng quan tr,c %!4c t/i các tr/m %o, %& tài s3
áp d>ng m0t s2 kE thu)t th2ng kê SD nh! %ã nêu trong m>c 5.2 xác %6nh quan h+ th2ng kê có th9 gi7a các y(u t2 quy mô l*n v*i các y(u t2 %6a ph!"ng trên khu v#c Vi+t Nam Các quan h+ này n(u %!4c khMng %6nh trên t)p s2 li+u %0c l)p s3 %!4c áp d>ng vào bài toán d# báo khí h)u trên quy mô tháng và mùa v*i t)p nhân t2 t8 d# báo c1a mô hình toàn cCu GCM nào %ó Tùy thu0c vào b5n ch$t t8ng y(u t2 d# báo mà %& tài s3 l#a ch'n m0t s2 ph!"ng pháp thích h4p V*i m?i y(u t2 d# báo, s3 có hai ph!"ng pháp khác nhau %!4c sD d>ng v*i m>c %ích xác %6nh m0t ph!"ng án có ch$t l!4ng d# báo t2t nh$t Các bài toán s3 %!4c ti(n hành bao gFm:
• D# báo nhi+t %0 c#c tr6 b<ng REG và ANN
• D# báo s2 %4t m!a l*n b<ng REG và ANN
• D# báo s2 %4t không khí l/nh b<ng REG và ANN
• D# báo kh5 nKng xu$t hi+n n,ng nóng và rét %)m b<ng REEP và FDA
Trang 9Nh! v)y : %ây ch1 y(u sD d>ng hai kE thu)t REG và ANN cho các y(u t2 d# báo khác nhau Riêng v*i các y(u t2 d# báo mang tính xác su$t, REG s3 %!4c thay th( b:i bi(n th9 t!"ng -ng c1a nó là REEP còn ANN %!4c thay th( b<ng FDA
D# báo s3 %!4c th#c hi+n cho toàn b0 các %i9m tr/m khí t!4ng trên lãnh thA Vi+t Nam n(u chu?i s2 li+u %1 dài %5m b5o xây d#ng ph!"ng trình th2ng kê Các y(u t2 nh! s2 %4t không khí l/nh hay n,ng nóng có th9 %!a ra d# báo cho khu v#c thay vì t/i
%i9m tr/m Tuy nhiên d# báo cho khu v#c có nh7ng khó khKn nh$t %6nh khi s2 tr/m phân b2 trong m?i khu v#c không %1 dày %9 có th9 xác %6nh khu v#c %ó có tr5i qua m0t %4t hi+n t!4ng (chMng h/n, m!a l*n hay n,ng nóng) không Ngoài ra %0 cao không %Fng nh$t t/i m?i khu v#c cHng tác %0ng %(n vi+c xác %6nh y(u t2 d# báo t/i
%ây Ví d> n(u xét %(n y(u t2 rét %)m, do tr/m Sa Pa trên vùng núi cao nên nhi+t %0 trung bình th!=ng nh; h"n 150 t!"ng -ng v*i chB tiêu rét %)m Do v)y, tr!*c h(t cCn kh5o sát kh5 nKng d# báo các y(u t2 này t/i %i9m tr/m b<ng m0t cách %6nh l!4ng thích h4p d#a trên %Gc tr!ng khí h)u t/i m?i %i9m tr/m N(u d# báo t/i %i9m tr/m có k(t qu5 t2t, d# báo theo khu v#c s3 %!4c th#c hi+n CHng có th9 %!a ra d# báo cho khu v#c d#a trên các d# báo t/i %i9m tr/m trên khu v#c %ó T$t nhiên nh7ng y(u t2 nh! nhi+t
%0 c#c tr6 chB nên th#c hi+n d# báo t/i %i9m tr/m
Tùy thu0c y(u t2 d# báo mà h/n d# báo có th9 là tháng hoGc mùa V*i y(u t2 d# báo nh! s2 %4t m!a l*n hay s2 %4t không khí l/nh rõ ràng h/n d# báo ph5i là h/n mùa b:i n(u l$y h/n d# báo tháng, s2 %4t trong m?i tháng s3 bi(n %Ai trên ph/m vi hSp không thích h4p cho bài toán d# báo V*i nhi+t %0 c#c tr6 hay kh5 nKng xu$t hi+n n,ng nóng và rét %)m, h/n d# báo tháng s3 %!4c sD d>ng
Ngoài nh7ng y(u t2 và hi+n t!4ng trên %ây, ho/t %0ng c1a bão, ATNL (t8 %ây g'i chung là bão) cHng %!4c xem là hi+n t!4ng c#c %oan cCn d# báo LGc tr!ng cho s# ho/t %0ng c1a bão là s2 c"n bão và s2 ngày bão ho/t %0ng Nh! v)y các bài toán s3
%!4c ti(n hành : %ây là d# báo:
• S2 ngày ho/t %0ng và s2 c"n bão c1a BVN
• S2 ngày ho/t %0ng và s2 c"n bão c1a BBD
5.3.2 Y"u t) d* báo
Các y(u t2 d# báo nh! %ã nêu trong m>c trên gFm có nhi+t %0 c#c tr6, s2 %4t m!a l*n, s2 %4t không khí l/nh và kh5 nKng xu$t hi+n n,ng nóng và rét %)m M>c này s3 trình bày ph!"ng pháp %6nh l!4ng hóa các y(u t2 này %9 có th9 %!a vào mô hình th2ng
kê V*i y(u t2 d# báo nh! nhi+t %0 c#c tr6, giá tr6 c1a y(u t2 d# báo %"n gi5n chính là giá tr6 nhi+t %0 c#c tr6 trung bình tháng %o %!4c t/i tr/m Các y(u t2 khác %6nh l!4ng s3 ph-c t/p h"n do y(u t2 %!a ra ph5i mang tính phA quát t/i m'i %i9m tr/m không ph> thu0c %Gc tr!ng khí h)u c1a tr/m Ví d> do xác %6nh tr!*c ng!Qng rét %)m là 150C, nh7ng tr/m t/i vùng núi cao nh! Sa Pa hay Là L/t s3 th!=ng xuyên xu$t hi+n rét %)m
dù %i&u này th9 hi+n %Gc tính khí h)u c1a tr/m h"n là các y(u t2 liên quan %(n front l/nh N(u thay vì ng!Qng 150C nh! trên, ta xác %6nh y(u t2 d# báo là nhi+t %0 nh; h"n phân v6 10% c1a phân b2 khí h)u t/i tr/m thì cách xác %6nh nh! v)y %5m b5o tính phA quát t/i m'i %i9m tr/m t8 các tr/m vùng khí h)u núi cao cho t*i các tr/m vùng khí h)u bi9n %5o Nhi+t %0 d!*i phân v6 10% %Fng nghNa v*i s# ki+n hi(m (l/nh b$t th!=ng) x5y ra t/i tr/m
Trang 10M>c tiêu c1a %& tài h!*ng %(n d# báo các y(u t2 khí h)u c#c %oan do %ó cách ti(p c)n theo h!*ng các phân v6 10% hay 90% nh! trên cCn %!4c th#c hi+n NghNa là y(u t2 khí h)u c#c %oan cCn %!4c so sánh t!"ng %2i v*i phân b2 khí h)u t/i %i9m tr/m
So sánh tuy+t %2i nh! v*i ng!Qng 150C cHng có th9 th#c hi+n v*i %i&u ki+n ng!Qng này không n<m quá gCn phân v6 50% (median) c1a phân b2 t/i %i9m tr/m L& tài s3 l#a ch'n hai ng!Qng phân v6 33% và 66% nh! %i&u ki+n cCn %9 có th9 xây d#ng mô hình th2ng kê v*i m0t y(u t2 nào %ó t/i tr/m Tùy theo t8ng y(u t2 mà phân v6 d!*i 33% hay phân v6 trên 66% s3 %!4c sD d>ng b:i m0t hi+n t!4ng chB %!4c coi là c#c
%oan khi ng!Qng t!"ng -ng v*i hi+n t!4ng n<m v& phía hai %Cu c1a phân b2
Ví d>, v*i rét %)m hay không khí l/nh, phân v6 33% cCn ph5i l*n h"n 150C %9 có th9 coi rét %)m là hi+n t!4ng c#c %oan t/i tr/m T!"ng t# v*i n,ng nóng và m!a l*n, phân v6 66% cCn ph5i nh; h"n 350C và 50mm t!"ng -ng Riêng v*i hi+n t!4ng n,ng nóng theo %6nh nghNa %!4c áp d>ng t/i Trung tâm D# báo Khí t!4ng Th1y vKn Trung
!"ng còn ph5i xét thêm y(u t2 %0 Pm t!"ng %2i c#c ti9u (t-c khô nóng), nh!ng : %ây chB áp d>ng %i&u ki+n cCn 66% nh! trên v*i nhi+t %0
Hai y(u t2 kh5 nKng xu$t hi+n n,ng nóng và rét %)m %!4c %6nh l!4ng d!*i d/ng nh6 phân 0,1 Hi+n t!4ng %!4c coi x5y ra trong tháng n(u có nhi&u h"n hoGc b<ng m0t ngày các chB tiêu v*i n,ng nóng (Tx > 350C) và rét %)m (Ttb < 150C) %/t %!4c M0t
%4t không khí l/nh t/i tr/m %!4c %6nh nghNa b:i s# xu$t hi+n c1a m0t s2 ngày liên ti(p x5y ra hi+n t!4ng rét %)m t/i tr/m M0t %4t m!a l*n cHng %!4c %6nh nghNa t!"ng t# v*i hi+n t!4ng m!a l*n (l!4ng m!a tích lHy 24h l*n h"n 50mm)
L2i v*i s# ho/t %0ng c1a bão, mùa bão : Vi+t Nam và trên Bi9n Lông là t8 tháng 6 %(n tháng 12 hàng nKm Do %ó y(u t2 d# báo s3 là d6 th!=ng s2 ngày ho/t
%0ng và s2 c"n bão trong mùa bão so v*i th=i kJ chuPn 1971 – 2000 Th:i %i9m b,t
%Cu làm d# báo là tháng 4 hàng nKm
5.3.3 Nhân t) d* báo
S2 li+u tái phân tích NNRP2 c1a NCEP s3 %!4c sD d>ng làm nhân t2 d# báo t!"ng -ng v*i th=i gian quan tr,c c1a y(u t2 d# báo khi xây d#ng quan h+ th2ng kê Khi áp d>ng vào d# báo, s2 li+u d# báo toàn cCu t8 mô hình CFS cHng c1a NCEP s3 thay th( cho s2 li+u NNRP2 C5 hai t)p s2 li+u này %&u %!4c cho trên l!*i kinh vN %0 phân gi5i 2.50 Các bi(n có th9 tr: thành nhân t2 d# báo chB bao gFm các bi(n c" b5n:
áp su$t m#c bi9n PMSL, %0 %6a th( v6 h, gió u,v, nhi+t %0 T và %0 Pm RH t/i các m#c
áp su$t c" b5n 1000, 850, 700, 500mb Tùy thu0c h/n d# báo c1a y(u t2 mà các tr!=ng nhân t2 s3 là tr!=ng khí h)u trung bình tháng hay trung bình mùa
T8 tr!=ng tái phân tích hay d# báo trên l!*i, các nhân t2 d# báo cCn %!4c xác
%6nh t/i %i9m tr/m b<ng m0t ph!"ng pháp thích h4p L& tài s3 thD nghi+m hai ph!"ng pháp khác nhau khi ch'n các nhân t2 d# báo có th9 cho m?i %i9m tr/m Theo ph!"ng
án %"n gi5n nh$t, giá tr6 các bi(n d# báo nêu trên t/i %i9m l!*i gCn nh$t s3 %!4c sD d>ng khi tuy9n ch'n nhân t2 d# báo cho %i9m tr/m t!"ng -ng Nh! v)y, v*i m?i th=i
%i9m, m?i %i9m tr/m s3 có 21 bi(n có th9 sD d>ng làm nhân t2 d# báo Ph!"ng án hai ph-c t/p h"n, sD d>ng kE thu)t phân tích thành phCn chính PCA trên m0t mi&n cho tr!*c c1a m?i tr!=ng khí quy9n %9 xác %6nh các thành phCn chính PCx trên mi&n này Các thành phCn chính PCx này sau %ó s3 %!4c sD d>ng làm nhân t2 d# báo v*i %i&u ki+n hàm tr#c giao t!"ng -ng EOFx gi5i thích %!4c ít nh$t 5% bi(n %0ng c1a tr!=ng này V*i m?i tr!=ng, t/i m?i m#c, ta s3 có ít nh$t m0t PCx có th9 tr: thành nhân t2 d#
Trang 11báo và do %ó t/i m?i %i9m tr/m s2 bi(n có th9 sD d>ng làm nhân t2 d# báo s3 l*n h"n
21 Khác v*i ph!"ng pháp l$y %i9m gCn nh$t, theo ph!"ng pháp này m'i %i9m tr/m s3 cùng chung t)p các nhân t2 d# báo có th9 Khó khKn ch1 y(u v*i ph!"ng pháp này n<m : khâu l#a ch'n mi&n xác %6nh các thành phCn chính
L9 có m0t t)p nhân t2 d# báo v*i b)c %0 l*n t!"ng %!"ng, các nhân t2 d# báo cCn %!4c chuPn hóa tr!*c khi xây d#ng ph!"ng trình th2ng kê Li&u này khá hi9n nhiên, n(u quan sát các bi(n d# báo : trên có th9 th$y v*i m0t t)p l*n các bi(n d# báo
%!4c %!a vào tuy9n ch'n, b)c %0 l*n bi(n thiên khá r0ng T$t nhiên các bi(n này khác nhau v& th- nguyên và không th9 so sánh v*i nhau, nh!ng ph!"ng trình th2ng kê xem các nhân t2 d# báo nh! nhau, không phân bi+t th- nguyên B)c %0 l*n chênh l+ch quá l*n gi7a các nhân t2 d# báo s3 dIn %(n sai sót trong xây d#ng ph!"ng trình th2ng kê khi các %/i l!4ng quá l*n hay quá nh; s3 b6 b; qua L9 kh,c ph>c v$n %& này, t)p h4p các nhân t2 d# báo s3 %!4c chuPn hóa v& m0t t)p h4p nhân t2 m*i theo công th-c nh! sau:
k
k k
k
sd
x x
: %ây xˆ klà giá tr6 chuPn hóa c1a nhân t2 d# báo th- x k, x kvà sd kt!"ng -ng là
giá tr6 trung bình và %0 l+ch chuPn c1a nhân t2 x k xác %6nh t8 t)p s2 li+u quá kh- Sau khi %!4c chuPn hóa, các nhân t2 m*i xˆ klà vô th- nguyên và có giá tr6 t)p trung trong kho5ng t8 -3 cho %(n +3
Quá trình tuy9n ch'n nhân t2 s3 %!4c th#c hi+n d#a theo chB s2 R 2 hay RV Quá trình này s3 d8ng l/i khi RV không tKng thêm v*i m0t tO l+ phCn trKm cho tr!*c nào %ó
so v*i RV c1a b!*c tr!*c %ó TO l+ này %!4c g'i là tO l+ d8ng, %óng vai trò quan tr'ng
quy(t %6nh t*i s2 l!4ng nhân t2 d# báo N(u tO l+ d8ng quá nh;, hi+n t!4ng quá kh*p
(overfitting) có th9 x5y ra MGc dù RV xác %6nh t8 t)p s2 li+u ph> thu0c có giá tr6 l*n nh!ng RV xác %6nh t8 t)p s2 li+u %0c l)p s3 có giá tr6 nh;, th)m chí âm N(u tD l+ d8ng
quá l*n, m0t s2 thông tin d# báo quan tr'ng s3 không d!4c %!a vào ph!"ng trình d#
báo và RV s3 có giá tr6 nh; L9 xác %6nh tO l+ d8ng t2i !u, ta s3 hi9n th6 %Fng th=i giá tr6 RV tính t8 t)p s2 li+u ph> thu0c và t)p s2 li+u %0c l)p d#a theo các tO l+ d8ng khác
nhau nh! trên hình 5.2 Có th9 th$y RV xác %6nh trên t)p s2 li+u ph> thu0c tKng dCn khi tO l+ d8ng gi5m dCn nh!ng RV xác %6nh trên t)p s2 li+u %0c l)p b,t %Cu gi5m khi tO
l+ d8ng v!4t quá 2% v*i MLR và 7% v*i ANN TO l+ d8ng 2% và 7% do %ó có th9 xem là tO l+ d8ng t2i !u trong nh7ng tr!=ng h4p này Nh! v)y không có m0t tO l+ d8ng duy nh$t t2i !u cho m'i y(u t2 d# báo và m'i ph!"ng pháp
ChB s2 RV %!4c %6nh nghNa trong ph!"ng pháp hFi quy tuy(n tính Khi sD d>ng cho mô hình ANN, cCn ph5i hi9u RV nh! là bình ph!"ng c1a h+ s2 t!"ng quan gi7a
y(u t2 d# báo b:i mô hình v*i quan tr,c th#c c1a y(u t2 d# báo Riêng v*i các y(u t2
hi+n t!4ng, ta không sD d>ng chB s2 RV khi tuy9n ch'n mà sD d>ng chB s2 BSS Ví d>
v& bi(n thiên c1a BSS trong quá trình tuy9n ch'n nhân t2 %!4c cho trên hình 5.3 Chi
ti(t v& d/ng toán h'c c1a các chB s2 RV và BSS %ã %!4c trình bày trong ch!"ng 2 Khác v*i cách ti(p c)n downscaling th2ng kê, d# báo s# ho/t %0ng c1a bão %!4c th#c hi+n theo ph!"ng pháp th2ng kê truy&n th2ng Do %ó nhân t2 d# báo %!4c sD d>ng 2 nhóm nhân t2 là: Nhóm các chB s2 khí h)u và Nhóm chB s2 hoàn l!u (b5ng 5.1)
Trang 12Hình 5.2 Ch* s+ RV trung bình trên khu v,c Vi-t Nam vào mùa xuân khi xây d,ng quan h- th+ng kê có tuy.n ch/n nhân t+ t0ng b1'c theo MLR và ANN cho nhi-t #&
trung bình tháng t t0 s+ li-u tái phân tích NNRP2
5.3.4 Xây d*ng các ph+,ng trình d* báo
Các ph!"ng pháp REG, ANN, REEP và FDA %ã %!4c trình bày v& mGt l thuy(t trong m>c 2.2, phCn d!*i %ây liên quan %(n mGt th#c hành c1a các ph!"ng pháp V& s2 li+u, %& tài sD d>ng s2 li+u tái phân tích NNRP2 2.50 c1a NCEP t8 nKm 1979 cho
%(n nKm 2007 d!*i vai trò s2 li+u tr!=ng quan tr,c quy mô l*n S2 li+u quan tr,c các y(u t2 khí t!4ng c" b5n t/i các %i9m tr/m c1a 58 tr/m khí t!4ng trên lãnh thA Vi+t Nam cHng có %0 dài t!"ng -ng Trên th#c t( chu?i s2 li+u có %0 dài l*n h"n t8 1960
%(n 2007 nh!ng do NNRP2 chB b,t %Cu có t8 1979, nên %& tài cHng chB sD d>ng s2 li+u quan tr,c t8 1979 Tuy nhiên, chu?i s2 li+u quan tr,c t8 1960 vIn có ích trong xác %6nh phân b2 khí h)u c1a các y(u t2 t/i t8ng tr/m nh= dung l!4ng mIu l*n h"n, %5m b5o %0 tin c)y cao h"n Khi áp d>ng vào d# báo %& tài sD d>ng tr!=ng d# báo khí h)u 2.50 c1a
mô hình CFS thu0c NCEP làm nhân t2 d# báo Tr!=ng d# báo này s3 %!4c khD bias thông qua tr!=ng khí h)u thu %!4c c1a mô hình CFS khi th#c hi+n tái d# báo
Hình 5.3 Ch* s+ BSS trung bình trên khu v,c Vi-t Nam vào mùa xuân khi xây d,ng quan h- th+ng kê có tuy.n ch/n nhân t+ t0ng b1'c theo REEP và FDA cho hi-n t12ng
n3ng nóng trong tháng t0 s+ li-u tái phân tích NNRP2
Trang 13B4ng 5.1 Nhân t+ d, báo s5 d6ng trong d, báo BVN và BBD
Nhóm ch! s" khí h#u QBO Dao %0ng t#a hai nKm tCng bình l!u Tháng 8 nKm tr!*c Repac D6 th!=ng áp su$t m#c bi9n Lông Thái Bình D!"ng xích %/o và tháng 8 nKm tr!*c Hi+u gi7a tháng 11 Reqsoi ChB s2 Dao %0ng Nam xích %/o Tháng 6 nKm tr!*c Rindo D6 th!=ng áp su$t m#c bi9n khu v#c Indonesia Tháng 12 nKm tr!*c
AnoNino12 D6 th!=ng SST khu v#c Nino 1+2 (0-10°S; 90°W-80°W) Hi+u gi7a tháng 3 và tháng 2 AnoNino3 D6 th!=ng SST khu v#c khu v#c Nino 3 (5°N-5°S; 150°W-90°W) Hi+u gi7a tháng 3 và tháng 2 AnoNino4 D6 th!=ng SST khu v#c khu v#c Nino 4 (5°N-5°S; 160°E-150°W) và tháng 8 nKm tr!*c Hi+u gi7a tháng 11 AnoNino34 D6 th!=ng SST khu v#c khu v#c Nino 3.4 (5°N-5°S; 170-120°W) Hi+u gi7a tháng 3 và tháng 2
và tháng 8 nKm tr!*c Nhóm chB s2 hoàn l!u
U30-U50 Chênh l+ch gió vN h!*ng m#c 30 mb và 50 mb
khu v#c (8 oN – 16 oN; 80 oE – 100 oE)
Hi+u gi7a tháng 3 và
tháng 2 H500 L0 cao %6a th( v6 m#c 500 mb khu v#c (3035 oN; 160 oE – 180 oE) oN – Hi+u gi7a tháng 3 và tháng 2 U200 Gió vN h!*ng m#c 200 mb khu v#c (15
oN –
20oN; 200 oE – 220 oE)
Hi+u gi7a tháng 3 và
tháng 2 H850 L0 cao %6a th( v6 m#c 850 mb khu v#c (30 35 oN; 160 oE – 180 oE) oN – Hi+u gi7a tháng 3 và tháng 2 U200-U850 Chênh l+ch gió vN h!*ng m#c 200 mb và 850 mb khu v#c (15 oN – 20 oN; 200 oE – 220 oE)
Hi+u gi7a tháng 3 và
tháng 2 V& h/n d# báo, các y(u t2 nhi+t %0 c#c tr6 s3 có quan h+ th2ng kê %!4c xây d#ng cho toàn b0 12 tháng Quan h+ th2ng kê cho y(u t2 n,ng nóng chB %!4c xây d#ng cho các tháng mùa xuân và hè (tháng 3 %(n tháng 8) Quan h+ th2ng kê cho y(u t2 rét %)m chB %!4c xây d#ng cho ba tháng mùa %ông (tháng 12 %(n tháng 2) T!"ng t#, v*i y(u t2 %4t không khí l/nh, mô hình th2ng kê chB %!4c xây d#ng cho mùa %ông và khác v*i các y(u t2 tr!*c h/n d# báo c1a các %4t không khí l/nh là d# báo mùa thay vì d# báo tháng Cu2i cùng mô hình th2ng kê cho s2 %4t m!a l*n cHng có h/n mùa nh!ng %!4c th#c hi+n cho hai mùa hè và thu
L9 ki9m nghi+m ph!"ng trình d# báo thu %!4c chu?i s2 li+u t8 1979 %(n 2007
%!4c phân chia thành hai t)p 1979-1998 và 1999-2007 trong %ó chu?i s2 li+u %Cu
%!4c sD d>ng %9 xây d#ng ph!"ng trình hFi quy, chu?i s2 li+u sau %óng vai trò t)p s2 li+u %0c l)p %9 ki9m tra ph!"ng trình hFi quy Nh! v)y dung l!4ng mIu 20 nKm khi xây d#ng ph!"ng trình hFi quy khá nh; n(u xây d#ng ph!"ng trình riêng cho m?i
Trang 14tháng L9 tKng dung l!4ng mIu các tháng s3 %!4c g0p l/i theo 4 mùa xuân (tháng 3,4,5), h/ (tháng 6,7,8), thu (tháng 9,10,11), %ông (tháng 12,1,2)
V*i hai y(u t2 hi+n t!4ng n,ng nóng và rét %)m, khác v*i REEP, FDA chB phân l*p y(u t2 d# báo thành 2 l*p có x5y ra hi+n t!4ng hay không mà không %!a ra d# báo xác su$t gi7a 0 và 1 L9 thu %!4c giá tr6 xác su$t d# báo ta s3 sD d>ng kE thu)t bi(n
%Ai (transforming) c1a Murphy và Winkler (1987) [244] Giá tr6 phân l*p 0 1 t8 FDA s3 %!4c thay th( b<ng bi(n liên t>c là kho5ng cách t8 %i9m d# báo %(n mGt phMng phân l*p T)p các giá tr6 này, xác %6nh t8 FDA trên t)p s2 li+u ph> thu0c, %!4c s,p x(p theo th- t# tKng dCn và chia %&u thành m!=i phCn V*i m?i phCn, các quan tr,c khi d# báo r"i vào phCn này %!4c t)p h4p l/i và xác %6nh xác su$t l!4ng m!a th#c t( l*n h"n ng!Qng m!a %ang xét t!"ng -ng Giá tr6 này %!4c xem nh! xác su$t d# báo sau %ó khi
áp d>ng FDA trên t)p d7 li+u %0c l)p và kho5ng cách d# báo r"i vào phCn m!=i t!"ng -ng Ví d> khi kho5ng cách d# báo trong kho5ng [1,2] trên t)p s2 li+u ph> thu0c, ta quan sát th$y tCn xu$t m!a th#c t( là 0.9 Giá tr6 0.9 này s3 là giá tr6 xác su$t d# báo n(u kho5ng cách d# báo trên t)p d7 li+u %0c l)p sau %ó thu0c kho5ng [1,2]
V*i hai y(u t2 s2 %4t m!a l*n và s2 %4t không khí l/nh, 2 ph!"ng pháp MLR và ANN có th9 d# báo s2 %4t nh; h"n 0 Trong tr!=ng h4p này ta s3 dùng kE thu)t c,t (clipping) gán nh7ng giá tr6 d# báo nh; h"n 0 b<ng 0 V*i BVN và BBD ph!"ng pháp REG %!4c sD d>ng
5.3.5 Ph+,ng pháp #ánh giá
Do l#a ch'n d# báo t/i %i9m tr/m, %ánh giá d# báo cHng %!4c th#c hi+n t/i các
%i9m tr/m d#a trên các chB tiêu s3 nêu d!*i %ây M0t s2 chB tiêu khi cCn thi(t s3 %!4c
%ánh giá theo vùng d#a theo vùng khí h)u Lánh giá d#a theo vùng %5m b5o m0t t)p d7 li+u %ánh giá %1 l*n, không b6 5nh h!:ng nhi&u khi giá tr6 %o m0t tr/m nào %ó trong khu v#c có sai s2 l*n H"n n7a, ta vIn có th9 quan sát phân b2 c1a ch$t l!4ng d# báo theo không gian t8 %ó có nh7ng khuy(n cáo v& ch$t l!4ng d# báo t/i m0t khu v#c c> th9
Các chB s2 %ánh giá c" b5n cho bài toán d# báo th=i ti(t %ã tr: nên r$t quen thu0c : Vi+t Nam cùng v*i s# xu$t hi+n c1a các mô hình s2 d# báo th=i ti(t tuy nhiên v*i d# báo khí h)u, sD d>ng các chB s2 nào trong %ánh giá vIn còn khá m*i Các chB s2 sD d>ng trong %& tài này hoàn toàn %!4c th#c hi+n theo khuy(n cáo c1a WMO %2i v*i d# báo h/n dài V*i d# báo hi+n t!4ng nh! kh5 nKng xu$t hi+n n,ng nóng hay rét %)m, %& tài sD d>ng bi9u %F tin c)y và chB s2 liên quan tr#c ti(p là BSS (Brier Skill Score) V*i các y(u t2 còn l/i, %& tài sD d>ng hai chB s2 là MSSS (Mean Square Skill Score) và h+ s2 t!"ng quan CORR Hai chB s2 BSS và CORR ngoài sD d>ng trong %ánh giá còn
%!4c sD d>ng khi tuy9n ch'n nhân t2 %9 có th9 thu %!4c d# báo v*i ch$t l!4ng t2t nh$t, tránh x5y ra hi+n t!4ng quá kh*p (overfitting) Trên th#c t( CORR không %!4c sD
d>ng tr#c ti(p nh! BSS mà thông qua chB s2 RV (Reduction of Variance) hay R 2 chính
là bình ph!"ng c1a h+ s2 t!"ng quan Cách th#c hi+n này t/o nên tính th2ng nh$t khi th#c hi+n xây d#ng mô hình th2ng kê Do h+ s2 t!"ng quan là m0t chB s2 c" b5n trong th2ng kê, phCn d!*i %ây s3 chB trình bày các chB s2 còn l/i
Trang 155.4 K&t qu+ tính toán, phân tích và "ánh giá
5.4.1 Tuy-n ch.n nhân t) d* báo
Phân tích thành phCn chính PCA s3 %!4c th#c hi+n trên 4 mi&n khác nhau khi xác %6nh các thành phCn chính PCx %!4c sD d>ng làm nhân t2 d# báo Mi&n 1 l*n nh$t
có t'a %0 700E-2400E, -400S-700N bao ph1 toàn b0 khu v#c Thái Bình D!"ng D/ng c1a hàm tr#c giao %Cu tiên EOF1 và bi(n thiên c1a thành phCn chính t!"ng -ng PC1
cho bi(n PMSL trung bình tháng vào mùa hè trên mi&n này %!4c cho trên hình 5.4
Mi&n 2 nh; h"n có t'a %0 800E-1450E, -100S-400N bao ph1 khu v#c tây b,c Thái Bình D!"ng Hình 5.5 t!"ng t# nh! hình 5.4 cho ta hình 5nh v& mi&n này thông qua hàm EOF1 Mi&n 3 nh; nh$t có t'a %0 950E-1250E, 00S-300N bao ph1 khu v#c Vi+t Nam (hình 2.7) Có th9 th$y rõ t8 hình 5.5 và 5.6, khi mi&n nh; d/ng hàm EOF %Cu tiên mô t5 ho/t %0ng c1a áp cao tây Thái Bình D!"ng vào mùa hè CCn chú r<ng khi th#c hi+n PCA, ta ph5i khD bias %2i v*i các tr!=ng %Cu vào cho nên giá tr6 PC1 thu %!4c s3 dao %0ng quanh giá tr6 0 Cu2i cùng, mi&n 4 có kích th!*c t!"ng t# mi&n 1 nh!ng
%!4c d6ch chuy9n nhi&u h"n v& phía tây v*i t'a %0 00E-1700E, -400S-700N bao ph1 toàn b0 châu Âu, châu Phi và tây b,c Thái Bình D!"ng D/ng hàm EOF1 và bi(n thiên
c1a PC1 c1a bi(n PMSL vào mùa %ông trên mi&n này %!4c cho trên hình 5.7
Hình 5.4 Hàm EOF1 và bi7n thiên c8a
PC1 cho bi7n PMSL trung bình tháng vào
mùa hè trên mi9n 1
Hình 5.5 Hàm EOF1 và bi7n thiên c8a PC1 cho bi7n PMSL trung bình tháng vào
mùa hè trên mi9n 2
Trang 16Hình 5.6 Hàm EOF1 và bi7n thiên c8a
PC1 cho bi7n PMSL trung bình tháng vào
mùa hè trên mi9n 3
Hình 5.7 Hàm EOF1 và bi7n thiên c8a PC1 cho bi7n PMSL trung bình tháng vào
mùa #ông trên mi9n 4
Ki9m nghi+m ch$t l!4ng d# báo theo các ph!"ng pháp l#a ch'n nhân t2 d# báo khác nhau s3 %!4c th#c hi+n nh! %ã trình bày trong ch!"ng 2 t8 t)p s2 li+u %0c l)p 1999-2007 v*i t)p s2 li+u 1979-1998 %!4c sD d>ng xây d#ng ph!"ng trình d# báo Ngoài 4 ph!"ng pháp l#a ch'n nhân t2 d# báo t8 các PCx v*i 4 mi&n khác nhau (PCAMLR1, PCAMLR2, PCAMLR3, PCAMLR4) nêu trên, ph!"ng pháp l#a ch'n nhân t2 d# báo t8 %i9m gCn %i9m tr/m nh$t (MLR) cHng %!4c %!a vào so sánh Có th9 hi9u ph!"ng pháp này là m0t bi(n th9 %Gc bi+t c1a PCA khi mi&n tính co l/i thành m0t
%i9m duy nh$t (hay mi&n 5 chB bao gFm m0t %i9m) Y(u t2 d# báo %!4c l#a ch'n ki9m nghi+m là nhi+t %0 trung bình tháng (T2m) v*i mô hình th2ng kê REG
Ch$t l!4ng d# báo theo các ph!"ng pháp khác nhau s3 %!4c %ánh giá thông qua
chB s2 RV, MSSS Các hình P5.1 %(n P5.4 lCn l!4t mô t5 bi(n thiên c1a chB s2 RV
trung bình trên toàn Vi+t Nam theo 4 mùa v*i 4 ph!"ng pháp l#a ch'n nhân t2 khác
nhau V*i cùng m0t tO l+ d8ng, chB s2 RV trên t)p d7 li+u %0c l)p s3 l*n h"n khi mi&n
tính cho PCA thu nh; l/i Tr!=ng h4p %Gc bi+t khi sD d>ng %i9m gCn %i9m tr/m nh$t làm nhân t2 d# báo (hay mi&n tính PCA thu nh; l/i thành 1 %i9m), ngo/i tr8 mùa %ông,
chB s2 RV thu %!4c luôn l*n h"n chB s2 RV t!"ng -ng t8 các nhân t2 theo PCA v*i
mi&n tính khác nhau
Nh! v)y, kh5o sát theo chB s2 RV, ph!"ng án l#a ch'n nhân t2 theo %i9m gCn
nh$t cho ch$t l!4ng d# báo t2t h"n so v*i các ph!"ng pháp có sD d>ng PCA L9 so sánh c> th9 h"n t/i t8ng %i9m tr/m và sD d>ng thêm %i9m s2 khác khi %ánh giá, hình P5.5 %(n P5.8 mô t5 phân b2 c1a %i9m s2 MSSS t/i các %i9m tr/m t!"ng -ng theo 4 mùa Các hình này chB ti(n hành so sánh gi7a ph!"ng án l$y %i9m gCn nh$t v*i ph!"ng án sD d>ng các PCx t8 PCA trên mi&n tính nh; nh$t (mi&n 3) do khi mi&n tính
Trang 17m: r0ng, ch$t l!4ng d# báo s3 gi5m nh! %ã kh5o sát : trên Có th9 th$y t8 các hình v3 này, ph!"ng án MLR không hoàn toàn có MSSS cao h"n so v*i PCAMLR3 t/i m'i
%i9m tr/m nh!ng tính trung bình d# báo theo MLR th!=ng cho MSSS cao h"n so v*i PCAMLR3 ngo/i tr8 vào mùa %ông Tuy nhiên, không d@ gi5i thích t/i sao PCAMLR3 l/i cho ch$t l!4ng d# báo t2t h"n so v*i MLR vào mùa %ông và th$p h"n vào các mùa khác
V*i các bi(n tr6 s2 khác nh! nhi+t %0 c#c ti9u trung bình tháng (Tmin2m) hay nhi+t %0 c#c %/i trung bình tháng (Tmax2m), %& tài cHng thu %!4c nh7ng nh)n xét t!"ng t# nh! trên Ti(p theo ta s3 kh5o sát ch$t l!4ng d# báo s2 %4t m!a l*n theo các ph!"ng pháp l#a ch'n nhân t2 d# báo %ã nêu trên Khác v*i y(u t2 nhi+t %0 nêu trên
có h/n d# báo tháng, s2 %4t m!a l*n có h/n d# báo mùa và chB th#c hi+n cho mùa hè
và thu ChB s2 RV trung bình d# báo mùa hè và thu trên toàn Vi+t Nam %!4c cho trên
hình P5.9 và P5.10 D@ th$y chB s2 RV trên t)p d7 li+u %0c l)p theo 5 ph!"ng pháp %&u
không có nhi&u khác bi+t và dao %0ng xung quanh giá tr6 0.10 %(n 0.15 dù trên t)p d7
li+u ph> thu0c RV có th9 %/t t*i giá tr6 1 Li&u này cho th$y m0t t!"ng quan r$t y(u
gi7a các y(u t2 khí h)u quy mô l*n v*i y(u t2 s2 %4t m!a l*n trên quy mô %6a ph!"ng L9 phân tách rõ h"n ch$t l!4ng d# báo gi7a PCAMLRx (: %ây ta chB dùng PCAMLR3 làm %/i di+n) và MLR, ta kh5o sát thêm phân b2 c1a MSSS trên hình P5.11 và P5.12 Theo các b5n %F phân b2 này, tr6 s2 MSSS t8 PCAMLR3 th!=ng có giá tr6 th$p h"n nhi&u so v*i tr6 s2 t!"ng -ng t8 MLR có nghNa MLR th!=ng cho d# báo t2t h"n Tuy nhiên, các tr6 s2 này th!=ng có giá tr6 âm có nghNa r<ng c5 hai ph!"ng pháp này %&u có kE nKng th$p h"n so v*i d# báo khí h)u Li&u này cHng th2ng
nh$t v*i di@n bi(n c1a chB s2 RV %ã mô t5 : trên khi RV cho th$y m0t t!"ng quan r$t
th$p gi7a nhân t2 và y(u t2 d# báo, dIn %(n các d# báo có ch$t l!4ng th$p và th!=ng kém h"n so v*i d# báo khí h)u Các nh)n %6nh v*i d# báo s2 %4t m!a l*n : trên cHng t!"ng t# v*i d# báo s2 %4t không khí l/nh
V*i các bi(n hi+n t!4ng, %& tài s3 kh5o sát ch$t l!4ng d# báo kh5 nKng xu$t hi+n rét %)m v*i cùng 5 ph!"ng pháp l#a ch'n nhân t2 nh! trên Ph!"ng pháp th2ng kê sD d>ng vIn là REG nh!ng th!=ng %!4c bi(t %(n v*i tên g'i REEP Do th#c hi+n kh5o
sát bi(n hi+n t!4ng nên chB s2 RV s3 %!4c thay th( b:i chB s2 BSS và ta s3 sD d>ng
thêm bi9u %F tin c)y %9 %ánh giá d# báo Hình P5.13 t!"ng t# nh! các hình tr!*c %ó
mô t5 bi(n thiên c1a BSS theo 5 ph!"ng pháp Trong khi c5 4 ph!"ng pháp PCAMLRx %&u cho BSS nh; h"n 0, MLR t; ra t2t h"n khi BSS có tr6 s2 cQ 0.07 K(t qu5 này ti(p t>c khMng %6nh !u th( c1a ph!"ng pháp l#a ch'n %i9m gCn nh$t so v*i sD d>ng PCA tr!*c khi tuy9n ch'n nhân t2
Bi9u %F tin c)y cho d# báo cho kh5 nKng xu$t hi+n rét %)m %!4c th9 hi+n trên
hình 5.8 v*i ph!"ng pháp PCAMLR3 %/i di+n cho các ph!"ng pháp PCAMLRx %!4c
so sánh v*i MLR D# báo theo MLR có %0 tin c)y và %0 phân gi5i t2t h"n so v*i d# báo t8 PCAMLR3, dIn %(n %i9m s2 BSS trung bình cao h"n (BSS d# báo theo PCAMLR3 th)m chí còn nh; h"n 0 có nghNa d# báo theo PCAMLR3 có kE nKng th$p h"n d# báo khí h)u) Tu %i9m duy nh$t v*i PCAMLR3 là d# báo %!a ra có %0 nh'n l*n khi d# báo t)p trung v& hai %Cu c1a d# báo khí h)u thay vì t)p trung quanh d# báo khí h)u nh! v*i MLR Y(u t2 d# báo kh5 nKng xu$t hi+n n,ng nóng cHng cho các k(t qu5 t!"ng t# nh!ng không %!4c th9 hi+n : %ây