Cách tiếp cận thống kê tương tự như bài toán MOS cho mô hình NWP tất định, đó là sử dụng các kỹ thuật thống kê để hiệu chỉnh các dự báo thành phần của EPS hoặc tổng hợp thông tin EF một
Trang 1MỞ ĐẦU
Trung tâm Dự báo khí tượng thủy văn Trung ương (TTTDBTƯ)
đã triển khai nghiệp vụ hệ thống dự báo tổ hợp thời tiết hạn ngắn (1-3 ngày) - SREPS dựa trên cách tiếp cận đa mô hình đa phân tích và bao gồm 20 dự báo thành phần Các sản phẩm dự báo trung bình tổ hợp (EM) và dự báo xác suất từ SREPS đã và đang góp phần quan trọng trong công tác dự báo thời tiết hạn ngắn tại TTDBTƯ Theo kết quả đánh giá của Võ Văn Hòa và nnk [12], chất lượng dự báo EM và xác suất của SREPS (ký hiệu là Raw) vẫn còn nhiều hạn chế cho một số biến bề mặt và trên cao Những hạn chế này dẫn đến hiệu quả phục
vụ công tác dự báo thời tiết của hệ thống SREPS chưa cao Do vậy, phương pháp hậu xử lý là cần thiết để nâng cao chất lượng dự báo
EM và xác suất của hệ thống dự báo tổ hợp (EPS)
Theo Du [33], trên thế giới hiện tại phổ biển 2 cách tiếp cận để giải quyết những tồn tại nói trên cho các hệ EPS, đó là động lực và thống kê Cách tiếp cận động lực liên quan đến bài toán cải tiến mô hình NWP sử dụng trong EPS hoặc cải tiến cách thức tạo ra các dự báo thành phần cho EPS Cách tiếp cận thống kê tương tự như bài toán MOS cho mô hình NWP tất định, đó là sử dụng các kỹ thuật thống kê để hiệu chỉnh các dự báo thành phần của EPS hoặc tổng hợp thông tin EF một cách hiệu quả nhất để nâng cao được chất lượng dự báo EM và xác suất của EPS thô Do hệ thống SREPS dựa trên cách tiếp cận đa mô hình đa phân tích nên lựa chọn cách tiếp cận động lực đòi hỏi một khối lượng công việc khổng lồ và thực hiện trong thời gian dài Trong khi đó, cách tiếp cận thống kê chỉ tác động đến kết quả đầu ra của hệ thống SREPS mà không ảnh hưởng tới các mô hình NWP được sử dụng cũng như cách thức tạo ra các dự báo thành phần Đây là cách tiếp cận đơn giản, khả thi và có thể đem lại hiệu
Trang 2quả cao khi sai số hệ thống chiếm ưu thế trong sai số tổng cộng Đây chính là lý do tác giả lựa chọn cách tiếp cận thống kê để hiệu chỉnh
dự báo tổ hợp (EF) từ SREPS
Đứng trước yêu cầu cấp thiết này, tác giả thực hiện đề tài:
“Nghiên cứu phát triển và ứng dụng phương pháp thống kê sau mô
hình tổ hợp (EMOS) vào dự báo thời tiết ở Việt Nam” Trong khuôn
khổ luận án, tác giả ứng dụng và thử nghiệm một số phương pháp thống kê để hiệu chỉnh các kết quả dự báo từ SREPS cho một số yếu
tố nhiệt độ bề mặt Sau đó, tiến hành đánh giá và lựa chọn các phương pháp EMOS hiệu quả và khả thi nhất trong bài toán nghiệp
vụ tại TTDBTƯ
Luận điểm bảo vệ của luận án:
Luận án đã lựa chọn và áp dụng một số phương pháp thống kê hiệu chỉnh dự báo tổ hợp (EMOS) phù hợp với
hệ thống SREPS tại TTDBTƯ;
Luận án đã đánh giá và chỉ ra được hiệu quả của các phương pháp EMOS nói trên trong việc nâng cao chất lượng dự báo trung bình tổ hợp và xác suất cho các yếu
tố nhiệt độ bề mặt từ SREPS tại TTDBTƯ;
Luận án đã xác định được phương pháp EMOS tốt nhất
và đánh giá được khả năng ứng dụng nghiệp vụ tại TTDBTƯ
Đối tượng, phạm vi và phương pháp nghiên cứu
Đối tượng nghiên cứu: các yếu tố nhiệt độ bề mặt gồm
nhiệt độ không khí (T2m), nhiệt độ điểm sương (Td2m), nhiệt độ tối cao ngày (Tmax) và tối thấp ngày (Tmin)
Phạm vi nghiên cứu: toàn bộ lãnh thổ Việt Nam đại diện
bởi 174 vị trí trạm quan trắc khí tượng bề mặt;
Trang 3 Phương pháp nghiên cứu: luận án sử dụng các phương
pháp nghiên cứu gồm phương pháp thống kê, phương pháp lập trình mô phỏng, phương pháp toán học và phương pháp đánh giá khách quan
Những đóng góp mới của luận án: Những đóng góp mới
của luận án đồng thời cũng là những luận điểm bảo vệ đã được nêu trên đây
Ý nghĩa khoa học và thực tiễn của luận án: Luận án đã lựa
chọn được một số phương pháp EMOS phù hợp với hệ thống SREPS tại TTDBTƯ Kết quả nghiên cửu thử nghiệm của luận án đã chỉ ra tính hiệu quả của các phương pháp EMOS được chọn trong việc nâng cao chất lượng dự báo EM và xác suất cho một số yếu tố nhiệt độ bề mặt, góp phần làm sáng tỏ khả năng ứng dụng của phương pháp
Cấu trúc của luận án: Ngoài các phần lời cam đoan, lời
cám ơn, danh sách các từ viết tắt, bảng biểu, hình vẽ và đồ thị, mục lục, mở đầu, tài liệu tham khảo và phụ lục, nội dung chính của luận án được bố cục trong 3 chương: Chương 1 trình bày về dự báo tổ hợp và vấn đề hiệu chỉnh thống kê cho
dự báo tổ hợp; Chương 2 mô tả số liệu và phương pháp nghiên cứu; Chương 3 đưa ra các kết quả thử nghiệm và đánh giá Cuối cùng là kết luận và kiến nghị
CHƯƠNG 1 DỰ BÁO TỔ HỢP VÀ VẤN ĐỀ HIỆU CHỈNH
THỐNG KÊ CHO DỰ BÁO TỔ HỢP
1.1 Dự báo tổ hợp và vai trò của dự báo tổ hợp
Theo Kalnay (2003) [66], EF là một tập hợp dự báo xác định tại cùng một thời điểm và hướng đến 3 mục đích: 1) Tăng cường chất
lượng dự báo thông qua EM; 2) Cung cấp một chỉ số định lượng về
Trang 4độ tin cậy của dự báo; và 3) Làm cơ sở cho dự báo xác suất Mục đích đầu tiên được thực hiện để loại bỏ sai khác giữa các thành phần trong khi vẫn giữ lại những đặc tính tương tự Mục đích thứ hai liên quan đến tương quan giữa độ tán và sai số dự báo EM Mục đích thứ
ba được xây dựng dựa trên tần suất dự báo xuất hiện hiện tượng từ các thành phần tổ hợp
Định nghĩa của Kalnay chủ yếu dựa trên các EPS toàn cầu cho mục đích dự báo hạn vừa và hạn dài cho nên tầm quan trọng của dự báo tất định (dự báo từ EM) và dự báo xác suất là như nhau Tuy nhiên, khi các EPS cho mục đích dự báo hạn ngắn xuất hiện, EF đã được định nghĩa theo quan điểm dự báo xác suất Theo Gneiting và
nnk (2003) [51], EF là một tập hợp dự báo xác định tại cùng một thời điểm làm cơ sở cho dự báo xác suất có độ nhọn cực đại trong khi vẫn duy trì độ tin cậy của dự báo xác suất Hai khái niệm độ nhọn và độ
tin cậy đóng vai trò quan trọng trong các EPS ngày nay
1.2 Sự cần thiết phải hiệu chỉnh dự báo tổ hợp
Như đã phân tích ở trên, điều kiện ban đầu chính xác và mô hình hoàn hảo là cơ sở để tạo ra một EPS có chất lượng tốt Tuy nhiên, trên thực tế mô hình sử dụng trong EPS luôn có sai số (do sự chưa hoàn hảo trong động lực, vật lý, phương pháp số, mô tả mặt đệm, …) trong khi nguồn bất định trong một mô hình NWP không thể được
mô tả đầy đủ và chính xác trong một EPS cũng như độ phân giải của
mô hình phụ thuộc vào năng lực tính toán Chính những hạn chế này dẫn đến một EPS không tối ưu Những nhược điểm của một EPS không tối ưu bao gồm: 1) EM không tốt hơn dự báo đối chứng và các
dự báo thành phần; 2) quan hệ giữa kỹ năng dự báo và độ tán tổ hợp thấp (độ tán thường là quá lớn hoặc quá nhỏ); 3) tạo ra các cực trị lớn; 4) dự báo xác suất không tin cậy và thiếu khả năng mô tả chi tiết
Trang 5cấu trúc không gian; … Do vậy, hiệu chỉnh thống kê cho dự báo tổ hợp (EMOS) là cần thiết để nâng cao chất lượng dự báo EM và xác suất cho EPS thô
Theo Du (2007) [34], bằng cách loại bỏ sai số hệ thống của mô hình (mô men bậc 1), dự báo EM sẽ gần với nghiệm thực hơn, các cực trị sẽ giảm đáng kể và dự báo xác suất sẽ tin cậy hơn Đối với EPS đa mô hình, việc hiệu chỉnh sẽ đảm bảo độ tán được tạo ra khi sai số hệ thống của từng mô hình bị loại bỏ sẽ phù hợp hơn Tương
tự, bằng cách hiệu chỉnh mô men bậc 2, vấn đề quan hệ thấp giữa kỹ năng dự báo - độ tán tổ hợp và vấn đề độ tán quá lớn/bé có thể được cải thiện Để cải tiến độ tin cậy của dự báo xác suất, các mô men cao hơn như hàm mật độ xác suất cũng cần được hiệu chỉnh
1.3 Tổng quan các nghiên cứu hiệu chỉnh thống kê cho dự báo tổ hợp
1.3.1 Ngoài nước
Như đã biết, EF đã được nghiên cứu và triển khai nghiệp vụ từ những năm 1990 của thế kỷ trước tại một số trung tâm dự báo lớn trên thế giới Vài năm sau đó, bài toán EMOS cũng đã được nghiên cứu khi các hạn chế trong chất lượng dự báo EM và xác suất của các EPS nghiệp vụ được chỉ ra trong nhiều nghiên cứu Trên thực tế, các nghiên cứu về EMOS phát triển mạnh nhất trong khoảng 10 năm trở lại đây trong đó phần lớn sử dụng cách tiếp thống kê để nâng cao chất lượng dự báo EM và xác suất
Một trong những lớp EMOS đầu tiên là việc áp dụng cho EM (mô men bậc 1) Trong lớp bài toán này, các phương pháp thống kê được sử dụng bao như trung bình trượt [94], hồi quy tuyến tính [70], phương pháp tương tự trong đó trọng số phụ thuộc vào hình thế thời tiết [38], lọc Kalman [29], mạng thần kinh nhân tạo [118], hồi quy
Trang 6Logistic [60], … Bên cạnh các nghiên cứu áp dụng cho EM, đã có nhiều nghiên cứu ứng dụng cho phương sai (mô men bậc 2) và các
mô men bậc cao hơn như hàm phân bố xác suất để nâng cao chất lượng dự báo xác suất cũng như cải thiện quan hệ độ tán - kỹ năng của EPS Trong lớp bài toán này, rất nhiều phương pháp thống kê đã được sử dụng như trung bình mô hình Bayes - BMA [86], hiệu chỉnh hàm mật độ tích lũy - CDF [69], hồi quy Gauss không thuần nhất - NGR [52], hiệu chỉnh dựa trên biểu đồ hạng [41], áp nhân (kernel) hoặc áp hàm mật độ [46], …
1.3.2 Trong nước
Tại Việt nam, NWP vẫn còn ở giai đoạn bước đầu tiếp thu công nghệ và nghiên cứu ứng dụng Do đó, EF cũng đang ở trong giai đoạn bước đầu tìm hiểu và thử nghiệm Các nghiên cứu ứng dụng EF đầu tiên tập trung vào bài toán dự báo quỹ đạo bão trên khu vực Biển Đông dựa trên tổ hợp các dự báo từ các Trung tâm quốc tế như các nghiên cứu của Nguyễn Chi Mai và nnk (2004) [5], Đỗ Lệ Thủy và nnk [1] Trong những nghiên cứu này, các phương pháp tính toán EM với các trọng số tỷ lệ nghịch với sai số dự báo của từng dự báo thành phần tương ứng và hồi quy tuyến tính đa biến được sử dụng
Trần Tân Tiến và nnk (2010, 2013) [9, 10] đã thử nghiệm các phương án tính toán EM khác nhau dựa trên tổ hợp đa mô hình đa vật
lý cho mục đích dự báo quỹ đạo và cường độ bão hạn từ 3-5 ngày trên khu vực Tây Bắc Thái Bình Dương Đối với bài toán dự báo các trường khí tượng, Trần Tân Tiến và nnk (2004) [8] đã thử nghiệm tổ hợp các trường khí tượng từ các mô hình NWP khác nhau dưới dạng trung bình cộng đơn giản và có trọng số Để thử nghiệm EF cho bài toán dự báo mưa lớn ở Việt Nam, Hoàng Đức Cường và nnk (2007) [3] đã ứng dụng các phiên bản tham số hóa vật lý khác nhau trong mô
Trang 7hình MM5 để tạo ra EF Phương án tính toán EM có trọng số tỷ lệ nghịch với phương sai sai số của từng dự báo thành phần đã được thực hiện
Như vậy, có thể thấy việc nghiên cứu và ứng dụng EF nói chung
và EMOS nói riêng ở nước ta còn nhiều hạn chế cả về số lượng và quy mô ứng dụng Các phương pháp EMOS được nghiên cứu chủ yếu tập trung cho bài toán nâng cao chất lượng dự báo EM thông qua
EF có trọng số Bên cạnh đó, chưa có nghiên cứu EMOS hoàn chỉnh nào cho bài toán dự báo thời tiết cũng như chưa có hệ thống EMOS nào được triển khai trong dự báo nghiệp vụ tại các đơn vị dự báo tác nghiệp Đây cũng chính là lý do luận án này được thực hiện và hướng tới mục tiêu triển khai nghiệp vụ hệ thống EMOS để nâng cao chất lượng dự báo từ hệ thống SREPS tại TTDBTƯ
CHƯƠNG 2 MÔ TẢ SỐ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU 2.1 Đặt bài toán
Theo Du (2007) [34], các phương pháp EMOS được nghiên cứu
và ứng dụng cho các EPS không tối ưu để:
1) Loại bỏ sai số hệ thống của các dự báo thành phần để dự báo
EM dựa trên các dự báo đã hiệu chỉnh sai số hệ thống sẽ gần với nghiệm thực hơn, các cực trị sai số sẽ giảm đáng kể, dự báo xác suất
sẽ tin cậy hơn và độ tán được tạo ra sẽ phù hợp hơn;
2) Hiệu chỉnh phương sai dự báo để cải tiến tương quan giữa kỹ năng dự báo EM và độ tán tổ hợp, qua đó giải quyết được vấn đề độ tán quá lớn hoặc quá nhỏ của EPS ban đầu;
3) Hiệu chỉnh hàm phân bố xác suất để cải tiến kỹ năng dự báo xác suất tổng thể (độ tin cậy, độ tán, độ rộng, độ nhọn, cực trị) của EPS ban đầu
Trang 8Như vậy, tùy thuộc vào mục đích của nghiên cứu cải tiến chất lượng dự báo của một EPS đưa ra (đối tượng dự báo hoặc đặc tính sai
số cần cải thiện), các phương pháp EMOS khác nhau sẽ được sử dụng Mỗi một phương pháp EMOS sẽ hướng đến giải quyết một hoặc nhiều hạn chế có liên quan đến sản phẩm dự báo EM hoặc xác suất Trong luận án này, tác giả sẽ tập trung thử nghiệm 2 lớp bài
toán EMOS tách biệt gồm 1) Các phương pháp EMOS chỉ tác động đến chất lượng dự báo EM; và 2) Các phương pháp EMOS tác động đến cả chất lượng dự báo EM và dự báo xác suất Đối với lớp bài
toán EMOS đầu tiên, các phương pháp thống kê được lựa chọn để tạo
ra các cách tính trọng số EM khác nhau Trong khi đối với lớp EMOS thứ hai, các phương pháp thống kê sẽ được lựa chọn để hiệu chỉnh từng dự báo thành phần thông qua việc khử sai số hệ thống hoặc thông qua hàm phân bố cho trước sao cho cực đại hóa kỹ năng
dự báo xác suất
2.2 Nghiên cứu lựa chọn và ứng dụng các phương pháp thống kê
để nâng cao chất lượng dự báo trung bình tổ hợp và dự báo xác suất từ hệ thống SREPS
2.2.1 Các phương pháp thống kê chỉ tác động đến dự báo trung bình tổ hợp
1) Hồi quy tuyến tính đa biến (ký hiệu EMLR):
Cách tiếp cận này dựa trên phương pháp hồi quy tuyến tính đa biến trong đó giả thiết dự EM quan hệ tuyến tính với các dự báo thành phần Fi qua công thức (2.2):
Trang 9MOS Các trọng số ao và ai sẽ được xác định bằng phương pháp bình phương tối thiểu dựa trên bộ số liệu phụ thuộc cho trước
2) Trung bình có trọng số giảm dần theo hàm mũ (EMES):
Phương pháp này được Daley (1991) [31Error! Reference
source not found.] đề xuất trong đó EM được tính theo công thức
nobias i
iFw
với Finobias là dự báo thành phần thứ i (i=1,N) của EPS đưa ra nhưng
đã được hiệu chỉnh sai số hệ thống Các trọng số wi sẽ được tính theo công thức hàm mũ (2.4) dưới đây:
1 j i
với là nhân tố làm trơn, giá trị j trong công thức (2.4) là hạng của
dự báo thành phần thứ i (Finobias) được tính dựa trên sai số bình phương trung bình (MSE) Theo công thức (2.4), trọng số sẽ giảm dần theo đường cong hàm mũ khi j tăng lên
3) Trung bình có trọng số tính theo phương sai sai số (EMMV):
Tương tự phương pháp EMES, phương pháp EMMV cũng được Daley (1991) [31] đề xuất trong đó EM được tính theo công thức (2.3) ở trên và các trọng số wi được tính theo công thức (2.6) dưới đây với j là các chỉ số chạy theo tổng số dự báo thành phần (j=1,N)
N 1
i i
)MSE/1(
)MSE/1(
2.2.2 Các phương pháp thống kê tác động đến cả dự báo trung bình tổ hợp và dự báo xác suất
1) Hiệu chỉnh sai số hệ thống bằng trung bình trượt (BCMA):
Theo phương pháp này, việc hiệu chỉnh cho một dự báo thành phần bất kỳ của EPS được thực hiện theo công thức (2.7) dưới đây:
Trang 10trong đó Fbcma là dự báo đã được hiệu chỉnh bằng phương pháp BCMA, Fraw là dự báo trực tiếp từ EPS và bias là sai số hệ thống được xác định bằng sai số trung bình cộng của n ngày trước đó
2) Hiệu chỉnh sai số hệ thống với trọng số theo hàm mũ (BCES):
Cách hiệu chỉnh theo BCES là tương tự như BCMA nhưng khác
ở trong cách tính sai số hệ thống (bias) Cụ thể, bias sẽ được tính như công thức (2.9) dưới đây:
n 1
)OF(w
với n là tổng số ngày có dữ liệu trước đó Trọng số wi sẽ giảm dần theo hàm mũ như trong công thức (2.4) nhưng chỉ số i là số thứ tự ngày (i =1 cho ngày trước ngày hiện tại và bằng x cho x ngày trước ngày hiện tại)
3) Hiệu chỉnh sai số hệ thống bằng hồi quy tuyến tính (BCLR):
Phương pháp này dựa trên giả thiết có một quan hệ tuyến tính giữa quan trắc O và dự báo F như sau: O = a0 + a1F với a0, a1 là các
hệ số được xác định bằng phương pháp hồi quy tuyến tính dựa trên tập số liệu của n ngày trước đó Khi quan hệ này đã được thiết lập, nó
sẽ được áp dụng cho dự báo của ngày kế tiếp Với giả thiết này, dự báo hiệu chỉnh theo phương pháp BCLR sẽ được tính theo công thức (2.12) dưới đây:
raw 1 0
4) Hiệu chỉnh sai số hệ thống bằng lọc Kalman (BCKF):
Cách thức hiệu chỉnh này dựa trên phương pháp lọc Kalman để khắc phục nhược điểm của phương pháp BCLR, đó là các trọng số a0
và a1 không có khả năng tự cập nhật trong chu kỳ luyện khi có sự đột biến về mặt hình thế thời tiết Với phương pháp lọc Kalman, các
Trang 11trọng số này sẽ được cập nhật hàng ngày trong suốt chu kỳ luyện cho tới thời điểm bắt đầu thử nghiệm dự báo Quá trình cập nhật các trọng số này được thực hiện thông qua phương trình dự báo và quan trắc của Lọc Kalman như công thức (2.13) và (2.14) dưới đây:
1 k 1 k 1
k
k k
trong đó xk là vector trạng thái thời điểm hiện tại, xk-1 là vector trạng thái thời điểm trước đó, uk-1 là vector điều khiển hệ thống tại thời điểm trước đó, wk-1 là véc tơ đặc trưng cho độ bất định của hệ thống
do quy luật tuyến tính mô tả thông qua ma trận A
5) Hồi quy Gauss không thuần nhất trong đó kỳ vọng quan hệ tuyến tính với các dự báo thành phần (NGR_ER):
Kỹ thuật NGR được đề xuất đầu tiên bởi Gneiting và nnk (2005) [52] trong đó dựa trên giả thiết hàm phân bố xác suất cho đại lượng
EM trong công thức (2.2) có thể được xây dựng đơn giản bằng phân
bố chuẩn trong đó kỳ vọng chính là EM và phương sai σ2 là sai số được xác định từ tập số liệu đã sử dụng để xây dựng phương trình (2.2) Với cách làm như vậy, phương sai σ2 sẽ độc lập so với độ tán Khi phương sai nhỏ, phân bố nhọn, độ tin cậy vào EM sẽ lớn Ngược lại khi phương sai lớn, phân bố tù, độ tin cậy dự báo sẽ nhỏ Ý tưởng
cơ bản của phương pháp này nằm ở chỗ giả định phương sai σ2
có quan hệ tuyến tính với độ tán tổ hợp (S2)
)dSc,Xaa(
Trang 12Phương pháp này hoàn toàn tương tự như NGR_ER và chỉ khác
ở chỗ các hệ số ai sau khi được tìm ra sẽ được kiểm tra để đảm bảo không âm Nếu có hệ số ai nào đó âm thì quá trình cực tiểu hóa hàm CRPS sẽ được thực hiện lại nhưng đã loại bỏ dự báo thành phần có
)dSc,Xba(
2.2.3 Ứng dụng các phương pháp EMOS cho hệ thống SREPS
Như đã trình bày ở trên, tổng cộng có 3 kỹ thuật thống kê được thử nghiệm trong lớp bài toán EMOS đầu tiên và 7 kỹ thuật thống kê được thử nghiệm cho lớp bài toán EMOS thứ 2 trong đó có 4 kỹ thuật thống kê liên quan đến hiệu chỉnh các dự báo thành phần theo sai số
hệ thống và 3 kỹ thuật hiệu chỉnh theo hàm phân bố xác suất Các phương pháp EMOS sẽ được áp dụng chung cho tất cả các yếu tố dự báo nhiệt độ bề mặt tại các hạn dự báo chính gồm +24h, +48h và +72h với thời điểm phân tích là 00GMT (7 giờ sáng Việt Nam) Quá trình tính toán sẽ thực hiện trên từng điểm trạm thay vì trên nút lưới Cũng giống như các phương pháp thống kê truyền thống khác, vấn đề ở đây là dung lượng mẫu của tập số liệu phụ thuộc (training dataset) sử dụng cho từng phương pháp EMOS và yếu tố dự báo về nguyên tắc là khác nhau Để đơn giản hóa và dễ dàng trong việc so sánh, chúng tôi sử dụng dung lượng mẫu chung của bộ số liệu phụ