Tính cấp thiết của đề tài Đã có rất nhiều mô hình giải pháp được đề xuất và ứng dụng trong dự báo thông số khí tượng, tuy nhiên cho tới thời điểm này vẫn chưa có một mô hình nào được co
Trang 2- 2 -
Công trình được hoàn thành tại:
Trường Đại học Bách khoa Hà Nội
Người hướng dẫn khoa học:
Vào hồi …… giờ, ngày … tháng … năm ………
Có thể tìm hiểu luận án tại thư viện:
1 Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội
2 Thư viện Quốc gia Việt Nam
Trang 3
- 1 -
MỞ ĐẦU
1 Tính cấp thiết của đề tài
Đã có rất nhiều mô hình giải pháp được đề xuất và ứng dụng trong dự báo thông số khí tượng, tuy nhiên cho tới thời điểm này vẫn chưa có một mô hình nào được coi là chuẩn và áp dụng hiệu quả cho mọi đối tượng Một trong những nguyên nhân chính của vấn đề này là do ở mỗi vùng, mỗi khu vực các thông số khí tượng phụ thuộc khác nhau vào các số liệu trong quá khứ Sự khác nhau này đòi hỏi phải điều chỉnh lại các thông số của một mô hình đã được lựa chọn nào đó hoặc đến mức độ phải xây dựng một mô hình hoàn toàn mới Cũng vì lý
do đó, nên nếu ta sử dụng các giải pháp hoặc phần mềm có sẵn của nước ngoài thì sẽ gặp một số hạn chế như sau:
− Không được chủ động về công nghệ, thuật toán, giải pháp, các hạ tầng kèm theo;
− Các phần mềm của nước ngoài thường có yêu cầu phức tạp về thông tin đầu vào (ảnh vệ tinh, hệ thống đo trên nhiều tầng khí quyển,…), chi phí thu thập thông tin đầu vào cao, các
hệ thống tính toán cấu hình lớn (yêu cầu máy chủ mạnh hoặc mạng nhiều máy tính chạy song song), sử dụng phức tạp;
− Không chủ động trong việc điều chỉnh các thông số, điều chỉnh các yêu cầu của người sử dụng tại địa phương,
Để khắc phục những tồn tại trên, Luận án đề xuất:
− Xây dựng giải pháp cho hai bài toán dự báo và ước lượng thông số khí tượng phổ biến là: mô hình dự báo ngắn hạn thông
số khí tượng dựa vào kết quả đo trong quá khứ và mô hình ước lượng thông số khí tượng dựa trên kết quả đo của các trạm quan trắc lân cận;
− Các giải pháp đạt hướng đến mục tiêu: thông tin đầu vào
ít, dễ thu thập ở điều kiện Việt Nam nhưng vẫn đảm bảo được
độ chính xác phù hợp, chủ động trong thuật toán để thuận tiện cho các việc điều chỉnh mô hình nhằm tối ưu hóa theo số liệu địa phương
Trang 4- 2 -
2 Mục đích nghiên cứu
1 Xây dựng mô hình dự báo ngắn hạn thông số khí tượng (thử nghiệm với hai thông số là nhiệt độ và độ ẩm) dựa trên các kết quả đo quá khứ,
2 Xây dựng mô hình ước lượng thông số khí tượng dựa trên các kết quả đo cùng thời điểm tại các điểm đo lân cận
Các mô hình dự báo hướng tới mục tiêu và đạt yêu cầu:
− Dự báo được thông số khí tượng cho nhiều địa điểm;
− Thu thập số liệu không quá phức tạp;
− Hạ tầng tính toán không cần quá cao;
− Làm chủ được công nghệ xây dựng mô hình dự báo và ước lượng thông số khí tượng
3 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
− Các mô hình ước lượng phi tuyến để ứng dụng trong bài toán dự báo và bài toán ước lượng;
− Bộ số liệu do Đài Khí tượng và Thủy văn Khu vực Đồng bằng Bắc Bộ cung cấp: 8 thông số quan trắc (nhiệt độ lớn nhất, nhỏ nhất; độ ẩm lớn nhất, nhỏ nhất; tốc độ gió lớn nhất, nhỏ nhất; lượng mưa trung bình và số giờ nắng trong ngày); 7 địa điểm quan trắc (tỉnh Thái Bình, Hưng Yên, Bắc Ninh, Quảng Ninh, thị xã Chí Linh, thành phố Hải Phòng và thành phố Hải Dương); thời gian quan trắc từ 01/01/2010 đến 31/12/2015
− Phần mềm mô phỏng sử dụng trong Luận án: Matlab 7.11 (R2010b) và thư viện LS-SVM1.8;
3.2 Phạm vi nghiên cứu
− Nghiên cứu về lý thuyết và các mô hình dự báo thông số khí tượng; các mô hình ứng dụng mạng nơ-rôn nhân tạo trong bài toán ước lượng, dự báo thông số khí tượng;
− Xây dựng mô hình mạng nơ-rôn dự báo, ước lượng thông
số khí tượng (nhiệt độ, độ ẩm lớn nhất và nhỏ nhất trong ngày) cho địa bàn tỉnh Hải Dương dựa trên kết quả đo trong quá khứ
và các điểm quan trắc lân cận
Trang 5- 3 -
4 Phương pháp nghiên cứu
− Thu thập số liệu: các bộ số liệu đo như đã nêu trên
− Thực nghiệm: đánh giá sai số của các mô hình trên cùng
bộ mẫu số liệu, lựa chọn mô hình có sai số kiểm tra nhỏ nhất
5 Ý nghĩa khoa học và thực tiễn của đề tài
5.1 Ý nghĩa khoa học
Đề xuất phương pháp ứng dụng kỹ thuật SVM trong mô hình lai để phân tích, xử lý và dự báo một số thông số khí tượng điển hình là nhiệt độ và độ ẩm:
− Xây dựng mô hình dự báo nhiệt độ, độ ẩm lớn nhất và nhỏ nhất dựa trên các kết quả đo trong quá khứ;
− Xây dựng mô hình ước lượng nhiệt độ, độ ẩm lớn nhất và nhỏ nhất dựa trên các kết quả đo của các khu vực lân cận
5.2 Ý nghĩa thực tiễn của đề tài
Góp phần bổ sung số lượng các giải pháp để tạo điều kiện cho việc lựa chọn ứng dụng thực tế được dễ dàng hơn Phương pháp chỉ yêu cầu sử dụng số liệu đo quan trắc trong quá khứ hoặc kết quả đo quan trắc ở các khu vực lân cận để dự báo, ước lượng thông số khí tượng nên việc thu thập số liệu cũng khá đơn giản, tính kinh tế cao
− Sử dụng mô hình lai đề xuất để xây dựng giải pháp có độ chính xác cao cho bài toán ước lượng thông số khí tượng dựa trên kết quả đo của các trạm quan trắc lân cận
Trang 6- 4 -
7 Bố cục của Luận án
Mở đầu: Trình bày các vấn đề chung của Luận án, tóm tắt nội dung nghiên cứu, những đóng góp và bố cục của Luận án Chương 1 Tổng quan về các mô hình dự báo thông số khí tượng: Trong chương này sẽ trình bày tóm tắt một số mô hình
dự báo khí tượng đã được áp dụng trong điều kiện thực tế hiện nay Từ đó định hướng nghiên cứu của Luận án và mô tả khái quát các bộ số liệu sử dụng trong Luận án
Chương 2 Mô hình lai và ứng dụng trong các vấn đề mô hình hóa phi tuyến: Luận án trình bày về mô hình lai gồm cơ chế làm việc của mô hình, phương pháp xây dựng mô hình phù hợp cho các bộ thông số và ứng dụng nó trong mô hình phi tuyến Ngoài ra, Luận án trình bày một số ví dụ ứng dụng mô hình lai để ước lượng hàm phi tuyến đã được trình bày để minh họa cho khả năng tốt của mô hình lai trong các vấn đề này Chương 3 Xây dựng các giải pháp dự báo, ước lượng sử dụng mô hình lai: Luận án trình bày cách xây dựng mô hình lai Chương 4 Các kết quả tính toán và mô phỏng: Trình bày các kết quả nghiên cứu đã được đề xuất ở chương 3, đánh giá
độ chính xác của các mô hình đã đề xuất
Tiếp theo các kết luận và kiến nghị của Luận án với những vấn đề cần nghiên cứu tiếp, tài tài liệu tham khảo, các công trình
đã công bố quan đến Luận án và phần phụ lục
Chương 1: TỔNG QUAN VỀ CÁC MÔ HÌNH DỰ BÁO
THÔNG SỐ KHÍ TƯỢNG 1.1 Đặt vấn đề
Trình bày tổng quan về các mô hình dự báo thông số khí tượng, các phương pháp dự báo khí tượng, các mô hình dự báo đang được ứng dụng trên thế giới, ở Việt Nam và một số đề xuất nghiên cứu của Luận án
Trang 7- 5 -
1.2 Một số phương pháp dự báo thông số khí tượng
Với sự phát triển của khoa học kĩ thuật, rất nhiều mô hình dự báo thông số khí tượng đã ra đời [12, 15, 16, 19, 24, 27] và được đưa vào ứng dụng trong dự báo nghiệp vụ tại nhiều trung tâm dự báo khí tượng trên thế giới Hiện nay, trên thế giới có rất nhiều nghiên cứu về phương pháp dự báo thông số khí tượng, các nghiên cứu này được chia làm một số nhóm phương pháp chính như sau: Phương pháp synopse [27]; Phương pháp thống kê (Statistical methods) [22, 65, 79]; Phương pháp số trị (Numerical methods) [10, 27, 36]
− Phương pháp dự báo phối kết hợp (Ensemble forecast
1.3.1 Một số mô hình số trị toàn cầu
Mô hình dự báo các trường số trị toàn cầu RHMC [95] do
cơ quan Khí tượng Thuỷ văn Liên bang Nga xây dựng và đưa vào dự báo nghiệp vụ với các hạn dự báo cách nhau 6h một lần
từ 12h đến 240h (10 ngày) Mô hình có ký hiệu T85L31
Mô hình GME [53] (Global Model for Europe) được Cơ quan Khí tượng Cộng hòa Liên bang Đức (DWD) đưa vào dự báo nghiệp vụ từ cuối năm 1999 (độ phân giải khoảng 60 km) GME
là mô hình được xây dựng cho 06 biến là nhiệt độ, khí áp, hơi nước, nước lỏng trong mây và hai thành phần gió ngang
Mô hình AVN của Trung tâm Quốc gia Dự báo Môi trường
Mỹ (National Centers for Environmental Prediction - NCEP)
[92] là mô hình phổ dự báo hạn ngắn toàn cầu Mô hình dự báo
hạn vừa MRF (Medium Range Forecast Model) của NCEP
Trang 8- 6 -
(Mỹ) là mô hình phổ sử dụng hệ toạ độ theo phương thẳng đứng Đây là một trong những mô hình dự báo với hạn dự báo lớn hơn 48h đầu tiên trên thế giới Mô hình MRF có độ phân giải ngang khoảng 150 km và đã được đưa vào dự báo nghiệp
vụ tại Mỹ từ năm 1995 Hiện nay, NCEP thực hiện dự báo hạn vừa và dài (đến 384h hay 16 ngày) bằng mô hình MRF
Mô hình GFS (Global Forecasting System) [92] cũng của NCEP là mô hình phổ toàn cầu, bắt đầu được đưa vào sử dụng
nghiệp vụ tại Trung tâm Khí tượng quốc gia NMC (National
Meteorological Centre), tiền thân của NCEP từ năm 1988
Mô hình GSM (Global Spectral Model) [93] là mô hình phổ
toàn cầu của Cơ quan Khí tượng Nhật Bản (JMA) GSM bắt đầu được đưa vào sử dụng nghiệp vụ tại JMA từ năm 1988
1.3.2 Mô hình số trị khu vực
a Mô hình ETA [59, 66]
Mô hình khu vực hạn chế ETA do Trường Đại học Belgrade
và Viện Khí tượng Thuỷ văn Belgrade cùng với Trung tâm Khí tượng quốc tế Mỹ xây dựng và được áp dụng cho đối tượng đặc biệt là khu vực có địa hình núi
b Mô hình RAMS (Regional Atmospheric Modeling System) [67]
Phiên bản đầu tiên của mô hình RAMS ra đời vào năm
1993, là kết quả kết hợp của hai mô hình có những tính chất giống nhau: mô hình mây quy mô vừa của Tripoli và Cotton và
mô hình mây thuỷ tĩnh của Tremback
c Mô hình HRM (High Resolution Regional Model) [90]
HRM là một mô hình số thuỷ tĩnh cho dự báo thời tiết khu vực hạn chế quy mô vừa, sử dụng hệ phương trình bao gồm nhiều đối tượng vật lý như: bức xạ, mô hình đất, các quá trình rối trong lớp biên, tạo mưa theo lưới, đối lưu nông/sâu,
d Mô hình WRF (Weather Research and Forecasting) [97]
Mô hình WRF được hình thành bởi Trung tâm quốc gia Nghiên cứu Khí quyển Mỹ (National Center of Atmospheric Research-NCAR) với đóng góp của nhiều cơ quan khí tượng và đại học ở Hoa Kỳ cũng như trên thế giới
Trang 9- 7 -
e Mô hình MM5 [94]
Mô hình khí tượng động lực quy mô vừa MM5 là một trong những mô hình thế hệ mới của NCAR và Trường Đại học Tổng
hợp Pennsylvania Mỹ (PSU) MM5 đang được nhiều cơ quan
chính phủ (như Nha Khí Tượng Hoa Kỳ và NASA) cũng như nhiều trường đại học danh tiếng ở Hoa Kỳ và các quốc gia khác trên thế giới như tại Âu Châu, Hồng Kông và Đài Loan dùng
để làm dự báo thời tiết
1.4 Các mô hình dự báo khí tượng được ứng dụng ở Việt Nam
Qua nghiên cứu và tìm hiểu, hiện nay 100% các mô hình dự báo thời tiết đang nghiên cứu và khai thác ứng dụng tại Việt Nam đều được nhập ngoại, chủ yếu là sử dụng các mô hình số trị khu vực như đã tóm tắt ở trên
1.5 Một số mô hình dự báo thông số khí tượng dùng mạng nơ rôn
Mạng nơ-rôn nhân tạo (Artificial Neural Networks-ANN) là
một trong những công cụ mô hình hóa phi tuyến được sử dụng phổ biến hiện nay do nhiều ưu điểm nổi bật như: có thuật toán học để điều chỉnh tự động các thông số của mạng để giảm sai
số trên bộ số liệu mẫu, có thể lựa chọn cấu trúc đơn giản hoặc phức tạp để phù hợp với đối tượng mô phỏng [38,48,51,60,75]
Có nhiều dạng mạng đã được đề xuất và ứng dụng như mạng
MLP (Multi Layer Perceptron), mạng Hopfield, mạng Elman, mạng RBF (Radial Basis Function), mạng lô-gic mờ [49,50,
63,77,78] Gần đây là các mạng Deep Learning [57] Các ứng dụng trong mô hình phi tuyến nói chung và trong các bài toán
dự báo thông số thời tiết, khí tượng, môi trường của các mạng nói riêng cũng rất phong phú
Nội dung chương I đề cập tới 2 nhóm giải pháp: một là nhóm các giải pháp thương mại đang được sử dụng trong thực
tế, hai là nhóm các giải pháp (đang ở mức độ nghiên cứu, mô phỏng) được giới thiệu trong các tài liệu tham khảo Đối với các giải pháp thương mại, do đều là các phần mềm mã nguồn đóng nên không có đầy đủ các thông tin về giải pháp ứng dụng
Trang 10- 8 -
bên trong Nhược điểm chung của các giải pháp này là yêu cầu cao về thông số đầu vào và hạ tầng tính toán, giá thành đắt, khó chủ động cập nhật hay điều chỉnh theo yêu cầu của địa phương Đối với các giải pháp tổng hợp từ các bài báo khoa học, NCS
đã tìm hiểu và trình bày nhiều hơn về các mô hình toán học cũng như một số thông số được các tác giả đưa ra Tuy nhiên khó khăn chung khi so sánh đó là mỗi mô hình được sử dụng cho các địa điểm khác nhau, thông số đầu vào và đầu ra cũng khác nhau Vì vậy các so sánh mới dừng ở mức độ nhất định
1.6 Đề xuất của Luận án
Hiện nay, việc áp dụng các mô hình dự báo thông số khí tượng tiên tiến hiện nay không phù hợp với điều kiện ở Hải Dương do:
− Kinh phí thu thập số liệu quá lớn
− Hạ tầng máy tính và công nghệ thông tin không đáp ứng
− Không chủ động về công nghệ nên khó điều chỉnh các thông số của mô hình cho phù hợp với tỉnh Hải Dương
Để khắc phục những tồn tại trên Luận án đề xuất giải pháp thực hiện các nhiệm vụ sau:
− Dự báo thông số khí tượng cho nhiều địa điểm;
− Thu thập số liệu không quá phức tạp;
− Hạ tầng máy tính không cần quá cao;
− Xây dựng các mô hình ước lượng và dự báo phù hợp với thực tế tại Hải Dương
Chương 2: MÔ HÌNH LAI VÀ ỨNG DỤNG TRONG CÁC
VẤN ĐỀ MÔ HÌNH HÓA PHI TUYẾN
2.1 Giới thiệu chung
Đã có nhiều công trình nghiên cứu chứng minh rằng công cụ
mạng véc-tơ hỗ trợ SVM (Support Vector Machines) có khả
năng tốt hơn không chỉ trong các bài toán nhận dạng và phân loại các mẫu rời rạc mà còn trong cả các bài toán ước lượng các hàm phi tuyến [70, 76, 85] Trong Luận án này NCS đề
Trang 11- 9 -
xuất tiếp tục cải thiện chất lượng sử dụng của SVM bằng việc
tách riêng thành phần tuyến tính, chỉ dùng SVM làm công cụ
ước lượng thành phần phi tuyến trong một mô hình lai [5] Các
kết quả tính toán và mô phỏng cho thấy mô hình lai sử dụng
SVM cho kết quả tốt hơn mô hình lai sử dụng mạng MLP, tốt
hơn khi sử dụng riêng lẻ SVM và cũng tốt hơn một số mô hình
dự báo thông số khí tượng kinh điển
2.2 Mô hình lai và ứng dụng trong mô hình phi tuyến
2.2.1 Mục đích sử dụng mô hình lai
Mục đích của việc sử dụng mô hình lai là tách riêng thành
phần tuyến tính để giảm bớt mức độ phức tạp của mô hình phi
tuyến Khi mô hình phi tuyến có số tham số ít hơn thì các thuật
toán tối ưu hóa sẽ có khối lượng tính toán giảm và xác suất đạt
được nghiệm cực trị tốt hơn sẽ cao Đồng thời các thành phần
tuyến tính được tối ưu hóa bằng các thuật toán chuyên biệt
cũng sẽ đạt được cực trị (toàn cục) nhanh và chính xác hơn khi
tối ưu hóa bằng các thuật toán chuyên dùng cho hàm phi tuyến
2.2.2 Mô tả toán học của mô hình lai
Với véc-tơ đầu vào xác định x ta có đáp ứng đầu ra của hệ
lai là tổng đáp ứng của khối tuyến tính và khối phi tuyến:
d= f x Linear x +NonLinear x (2.1)
2.3 Phương pháp xây dựng mô hình lai từ các bộ số liệu mẫu
Quy trình thực hiện gồm các bước như sau:
2.3.1 Bộ số liệu đầu vào
Đối với bài toán dự báo, hàm truyền đạt phi tuyến tổng quát
có dạng: y( )d = f (x(d−1),x(d−2), ,x(d K− )) (2.2)
trong đó x(d−1) là véc-tơ đầu vào các đại lượng đo ở ngày thứ
1
d− , y( )d là đại lượng cần dự báo ở ngày d, (d−K)− ngày
xa nhất sử dụng trong dự báo Do đó một mẫu số liệu gồm cặp
x(d−1), ,x(d K− );y( )d và được lấy cho nhiều ngày d
Trang 12x là đại lượng đo tại vị trí i ở ngày thứ d, y( )d là đại lượng cần ước lượng ở ngày thứ ( )d ở vị trí khác các x i.Một mẫu số liệu sẽ bao gồm một cặp ( ) ( ) ( )
1d , , N d ; d
được lấy liên tiếp cho nhiều ngày d
2.3.2 Lựa chọn đầu vào
Có nhiều phương pháp khác nhau để lựa chọn đầu vào cho mô hình dự báo [47, 74] Trong số đó, các phương pháp phổ biến được sử dụng là phương pháp phân tích theo các thành phần chính, phương pháp sử dụng hàm tương quan, sử dụng hệ số khai triển tuyến tính,… [9, 43] Luận án thử nghiệm trên cùng bộ số liệu để đánh giá 03 phương pháp trên khi sử dụng với mô hình lai
và lựa chọn phương pháp cho kết quả sai số nhỏ nhất
2.3.3 Xây dựng khối tuyến tính
Mô hình tuyến tính được xác định trên cơ sở tìm các hệ số
2.3.4 Xây dựng khối phi tuyến
Sau khi có mô hình tuyến tính, phần sai số còn lại sẽ được xấp xỉ bởi mô hình phi tuyến sao cho:
Trong Luận án, mô hình phi tuyến sẽ sử dụng mạng SVM
2.4 Ưng dụng SVM xây dựng hàm truyền phi tuyến
2.4.1 Giới thiệu chung
Mục tiêu nghiên cứu là xây dựng mô hình dự báo và mô
Trang 13- 11 -
hình ước lượng nội suy đều là dạng hàm biến thiên liên tục nên Luận án sẽ sử dụng mô hình SVR Nhiều ý tưởng của SVR xuất phát từ các công thức gốc của SVM nên Luận án sẽ trình bày tóm tắt về các công thức này trước khi giới thiệu về SVR
2.4.2 Bài toán phân lớp nhị phân
Bài toán phân lớp nhị phân [85] này được phát biểu như sau:
Cho tập dữ liệu gồm p mẫu huấn luyện xi,d i, i=1, 2, , ,p
i
x và d i 1 là đầu ra rời rạc có thể nhận 1 trong 2 giá trị đại diện cho hai nhóm số liệu Tìm một siêu phẳng wT + =x b 0 để tách tập dữ liệu thành 2 lớp sao cho:
Do có thể tồn tại nhiều mặt phẳng phân cách, nên để có thể
có nghiệm xác định duy nhất, ta bổ sung thêm điều kiện tổng khoảng cách từ các điểm gần nhất của hai nhóm tới mặt phân cách (còn gọi là các véc-tơ hỗ trợ) là lớn nhất [85]
2.4.3 Kỹ thuật SVR (Support Vector Regression)
Phát triển tiếp các ý tưởng của SVM dùng trong các bài toán phân loại, khi các giá trị đầu ra là các mã phân lớp (là các giá trị rời rạc), SVM được mở rộng để sử dụng trong các bài toán
ước lượng bằng cách sử dụng một hàm tổn thất (lost function)
Lúc này, kỹ thuật SVM được gọi là máy véc-tơ đỡ ước lượng
(SVR – Support Vector Regression)
2.4.4 Phương pháp LS-SVM
Phương pháp LS-SVM đã được cải tiến dựa trên kỹ thuật
SVR [23] Xét bộ dữ liệu học gồm p điểm xk,y k kp=1 với dữ liệu đầu vào N