Trong luận văn này, nội dung chính mà tôi thực hiện đó là sử dụng SOM, một trong những phương pháp phân cụm dữ liệu có hiệu quả cao đối với các bài toán khí tượng, áp dụng với bộ số liệu
Trang 11
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Trang 22
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Trang 33
LỜI CẢM ƠN
Lời đầu tiên, tôi xin bày tỏ lòng biết ơn sâu sắc đến PGS.TS Nguyễn Đăng Quế , là người đã tận tình hướng dẫn và chỉ bảo cho tôi hoàn thành luận văn cao học
Tôi cũng xin cảm ơn các Thầy cô và cán bộ trong khoa Khí tượng- Thủy văn- Hải dương học, các anh chị cán bộ phòng Nghiên cứu ứng dụng, Trung tâm
Dự báo khí tượng thủy văn Trung ương đặc biệt là TS Lê Đức đã cung cấp cho tôi các kiến thức chuyên môn quý báu, đồng thời tạo điều kiện thuận lợi nhất trong suốt thời gian tôi thực hiện luận văn này
Cuối cùng tôi xin gửi lời cảm ơn chân thành đến gia đình, người thân, bạn
bè, những người đã luôn ở bên cạnh cổ vũ động viên và tạo mọi điều kiện tốt nhất cho tôi trong suốt thời gian học tập cao học tại trường
Trần Anh Đức
Trang 44
MỤC LỤC
Chương 1 Tổng quan 1
1.1 Tổng quan về các nghiên cứu nhận dạng, phân loại các hình thế thời tiết nói chung và mưa lớn nói riêng trên phạm vi thế giới 14
1.2 Tình hình nghiên cứu tại Việt Nam 21
Chương 2 Số liệu và phương pháp 26
2.1 Số liệu 26
2.2 Phương pháp 29
2.2.1 Lựa chọn miền tái phân tích, yếu tố phù hợp để phân loại các hình thế gây mưa lớn 30
2.2.2 Xử lý số liệu JRA, luyện mạng SOM từ số liệu JRA 31
2.2.3 Trực quan hóa kết quả SOM bằng bản đồ U-Matrix, phân cụm dữ liệu trên bản đồ U-Matrix 34
Chương 3 Kết quả và phân tích 38
3.1 Phân tích các nhóm hình thế gây mưa lớn tại khu vực Tây Bắc Bộ 38
3.1.1 Hình thế : Tồn tại một xoáy thấp trên khu vực Tây Bắc Bộ hoặc vùng núi phía Bắc 38
3.1.2 Hình thế : Tầng thấp là rãnh gió mùa, trên cao là gió Tây Nam thổi từ rìa của áp cao cận nhiệt đới 40
3.1.3 Hình thế: Rãnh Tây Bắc – Đông Nam kết hợp với một xoáy thấp đóng kín trên khu vực Tây Bắc Bộ 42
3.2 Phân tích các nhóm hình thế gây mưa lớn tại khu vực Đông Bắc Bộ 44
3.2.1 Hình thế: Hoạt động mạnh của gió Đông đến Đông Nam do nằm ở vị trí phía Bắc của một xoáy thấp tồn tại trên khu vực Bắc Trung Bộ 44
Trang 55
3.2.2 Hình thế : Một xoáy thấp đóng kín tồn tại trên khu vực Bắc Bộ từ tầng thấp đến các tầng cao 46 3.2.3 Hình thế : Hội tụ kinh hướng tại phía Đông Bắc Bộ 48 3.2.4 Hình thế gây mưa lớn tại khu Đông Bắc Bộ: hội tụ gió tại mực 500mb 49 3.3 Phân tích các nhóm hình thế gây mưa lớn tại khu vực Bắc Trung Bộ 50 3.3.1 Hình thế : Hoạt động mạnh của gió Đông từ tầng thấp đến tầng cao 51 3.3.2 Hình thế : Tầng thấp là rãnh áp thấp, trên cao là gió Đông Nam thổi từ rìa của áp cao cận nhiệt đới 52 3.3.3 Hình thế : Nằm ở phía Bắc của một rãnh áp thấp kết hợp với hoạt động mạnh của gió Đông từ tầng thấp lên đến tầng cao 53 3.3.4 Hình thế : Dải hội tụ nhiệt đới vắt ngang qua Trung Bộ với hoạt động mạnh của gió Đông đến Đông Nam trên khu vực Bắc Trung Bộ 54 3.3.5 Hình thế : Hoạt động mạnh của xoáy thuận nhiệt đới 55 3.3 Phân tích các nhóm hình thế gây mưa lớn tại khu vực Trung Trung Bộ 56 3.4.1 Hình thế : Hoạt động mạnh của đới gió Đông từ tầng thấp lên đến các tầng cao 57 3.4.2 Hình thế: Nằm ở vị trí phía Bắc của rãnh thấp xích đạo, kết hợp với hoạt động của gió Đông Bắc ở tầng thấp và gió Đông Nam ở tầng cao 58 3.4.3 Hình thế : Ảnh hưởng của xoáy thuận nhiệt đới 59 3.4.4 Hình thế : Hoạt động của gió Đông Bắc ở tầng thấp và hoạt động mạnh của gió Đông ở tầng cao 60
3.5 Phân tích các nhóm hình thế gây mƣa lớn tại khu vực Nam Trung Bộ 61
3.5.1 Hình thế: Rãnh thấp xích đạo kết hợp với hoạt động mạnh của gió Đông
từ tầng thấp lên đến các tầng cao 62
Trang 66
3.5.2 Hình thế: Hoạt động mạnh của gió Đông từ tầng thấp lên đến các tầng cao
63
3.5.3 Hình thế: Nhiễu động dạng sóng trong đới gió Đông trên cao và hoạt động của một xoáy ở tầng thấp 64
3.5.4 Hình thế : Hoạt động của dải hội tụ nhiệt đới và nhiễu động trong đới gió Đông ở tầng cao 65
3.5.5 Hình thế : Ảnh hưởng của xoáy thuận nhiệt đới 66
KẾT LUẬN 68
TÀI LIỆU THAM KHẢO 69
Trang 77
DANH MỤC HÌNH VẼ
Hình 2.1 Miền số liệu tái phân tích được lựa chọn để phân loại các hình thế gây mưa lớn cho khu vực Việt Nam 31 Hình 2.2 Cấu trúc của mạng SOM 33 Hình 2.3 Ví dụ minh họa về bản đồ trực quan U-Matrix 36 Hình 2.4 Ví dụ về việc hình thành các cụm trên ma trận U-Matrix từ phương pháp K-means 37 Hình 3.1 Bản đồ U-Matrix và phân cụm trên bản đồ cho khu vực Tây Bắc Bộ 38 Hình 3.2 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế: tồn tại một xoáy thấp trên khu vực Tây Bắc Bộ hoặc vùng núi phía Bắc 39 Hình 3.3 Bản đồ trường khí áp mực biển của hình thế: tồn tại một xoáy thấp trên khu vực Tây Bắc Bộ hoặc vùng núi phía Bắc 40 Hình 3.4 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế: tầng thấp là rãnh gió mùa, trên cao là gió Tây Nam thổi từ rìa của áp cao cận nhiệt đới 41 Hình 3.5 Bản đồ trường khí áp mực biển của hình thế: tầng thấp là rãnh gió mùa, trên cao là gió Tây Nam thổi từ rìa của áp cao cận nhiệt đới 42 Hình 3.6 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế: rãnh Tây Bắc – Đông Nam kết hợp với một xoáy thấp đóng kín trên khu vực Tây Bắc Bộ 43 Hình 3.7 Bản đồ trường khí áp mực biển của hình thế: rãnh Tây Bắc – Đông Nam kết hợp với một xoáy thấp đóng kín trên khu vực Tây Bắc Bộ 43 Hình 3.8 Bản đồ U-Matrix và phân cụm trên bản đồ cho khu vực Đông Bắc Bộ 44
Trang 88
Hình 3.9 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế : hoạt động mạnh của gió Đông đến Đông Nam do nằm ở vị trí phía Bắc của một xoáy thấp tồn tại trên khu vực Bắc Trung Bộ 45 Hình 3.10 Bản đồ trường khí áp mực biển của hình thế : hoạt động mạnh của gió Đông đến Đông Nam do nằm ở vị trí phía Bắc của một xoáy thấp tồn tại trên khu vực Bắc Trung Bộ 46 Hình 3.11 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế : một xoáy thấp đóng kín tồn tại trên khu vực Bắc Bộ từ tầng thấp đến các tầng cao 47 Hình 3.12 Bản đồ trường khí áp mực biển của hình thế : một xoáy thấp đóng kín tồn tại trên khu vực Bắc Bộ từ tầng thấp đến các tầng cao 47 Hình 3.13 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế : Hội
tụ kinh hướng tại phía Đông Bắc Bộ 48 Hình 3.14 Bản đồ trường khí áp mực biển của hình thế : hội tụ kinh hướng tại phía Đông Bắc Bộ 49 Hình 3.15 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế : Hội
tụ gió tại mực 500mb 49 Hình 3.16 Bản đồ trường khí áp mực biển của hình thế : hội tụ gió tại mực 500mb 50 Hình 3.17 Bản đồ U-Matrix và phân cụm trên bản đồ cho khu vực Bắc Trung Bộ 50 Hình 3.18 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế: hoạt động mạnh của gió Đông từ tầng thấp đến các tầng cao 51 Hình 3.19 Bản đồ trường khí áp của hình thế: hoạt động mạnh của gió Đông từ tầng thấp đến các tầng cao 52 Hình 3.20 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế : tầng thấp là rãnh áp thấp, trên cao là gió Đông Nam thổi từ rìa của áp cao cận nhiệt đới 52
Trang 99
Hình 3.21 Bản đồ trường khí áp mực biển của hình thế: tầng thấp là rãnh áp thấp, trên cao là gió Đông Nam thổi từ rìa của áp cao cận nhiệt đới 53 Hình 3.22 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế : nằm
ở phía Bắc của một rãnh áp thấp kết hợp với hoạt động mạnh của gió Đông từ tầng thấp lên đến tầng cao 53 Hình 3.23 Bản đồ trường khí áp mực biển của hình thế : nằm ở phía Bắc của một rãnh
áp thấp kết hợp với hoạt động mạnh của gió Đông từ tầng thấp lên đến tầng cao 54 Hình 3.24 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế : dải hội tụ nhiệt đới vắt ngang qua Trung Bộ với hoạt động mạnh của gió Đông đến Đông Nam trên khu vực Bắc Trung Bộ 54 Hình 3.25 Bản đồ trường khí áp mực biển của hình thế : dải hội tụ nhiệt đới vắt ngang qua Trung Bộ với hoạt động mạnh của gió Đông đến Đông Nam trên khu vực Bắc Trung Bộ 55 Hình 3.26 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế : hoạt động mạnh của xoáy thuận nhiệt đới 55 Hình 3.27 Bản đồ trường khí áp mực biển của hình thế : hoạt động mạnh của xoáy thuận nhiệt đới 56 Hình 3.28 Bản đồ U-Matrix và phân cụm trên bản đồ cho khu vực Trung Trung Bộ 56 Hình 3.29 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế: hoạt động mạnh của đới gió Đông từ tầng thấp lên đến các tầng cao 57 Hình 3.30 Bản đồ khí áp mực biển của hình thế: hoạt động mạnh của đới gió Đông
từ tầng thấp lên đến các tầng cao hay còn gọi là gió Đông dày 58 Hình 3.31 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế: nằm ở
vị trí phía Bắc của rãnh thấp xích đạo, kết hợp với hoạt động của gió Đông Bắc ở tầng thấp và gió Đông Nam ở tầng cao 58
Trang 1010
Hình 3.32 Bản đồ trường khí áp mực biển của hình thế: nằm ở vị trí phía Bắc của rãnh thấp xích đạo, kết hợp với hoạt động của gió Đông Bắc ở tầng thấp và gió Đông Nam ở tầng cao 59 Hình 3.33 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế: ảnh 59 Hình 3.34 Bản đồ trường khí áp mực biển của hình thế: ảnh hưởng của xoáy thuận nhiệt đới 60 Hình 3.35 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế: hoạt động của gió Đông Bắc ở tầng thấp và và hoạt động mạnh của gió Đông ở tầng cao 60 Hình 3.36 Bản đồ trường khí áp mực biển của hình thế: hoạt động của gió Đông Bắc ở tầng thấp và hoạt động mạnh của gió Đông ở tầng cao 61 Hình 3.37 Bản đồ U-Matrix và phân cụm trên bản đồ cho khu vực Nam Trung Bộ 61 Hình 3.38 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế: rãnh thấp xích đạo kết hợp với hoạt động mạnh của gió Đông từ tầng thấp lên đến các tầng cao 62 Hình 3.39 Bản đồ trường khí áp mực biển của hình thế: rãnh thấp xích đạo kết hợp với hoạt động mạnh của gió Đông từ tầng thấp lên đến các tầng cao 63 Hình 3.40 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế: hoạt động mạnh của gió Đông từ tầng thấp lên đến các tầng cao 63 Hình 3.41 Bản đồ trường khí áp của hình thế: hoạt động mạnh của gió Đông từ tầng thấp lên đến các tầng cao 64 Hình 3.42 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế : nhiễu động dạng sóng trong đới gió Đông trên cao và hoạt động của một xoáy ở tầng thấp 64 Hình 3.43 Bản đồ trường khí áp mực biển của hình thế : nhiễu động dạng sóng trong đới gió Đông trên cao và hoạt động của một xoáy ở tầng thấp 65
Trang 1111
Hình 3.44 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế : hoạt động của dải hội tụ nhiệt đới và nhiễu động trong đới gió Đông ở tầng cao 65 Hình 3.45 Bản đồ trường khí áp mực biển của hình thế : hoạt động của dải hội tụ nhiệt đới và nhiễu động trong gió Đông ở tầng cao 66 Hình 3.46 Bản đồ trường gió tại các mực 850, 700, 500, 200mb của hình thế: ảnh hưởng của xoáy thuận nhiệt đới 66 Hình 3.47 Bản đồ trường gió khí áp mực biển của hình thế: ảnh hưởng của xoáy thuận nhiệt đới 67
Trang 1212
DANH MỤC BẢNG BIỂU
Bảng 2.1 Thông tin cơ bản số liệu JRA25 28
Trang 1313
Mở đầu
Với sự gia tăng không ngừng của các loại số liệu khí tượng trong một vài thập niên trở lại đây như số liệu quan trắc từ các trạm cố định bề mặt(Synop), số liệu thám không vô tuyến(Temp), số liệu Radar, số liệu viễn thám, số liệu tái phân tích, việc tìm kiếm một công cụ hiệu quả và chính xác để phân tích và chiết xuất ra những thông tin quan trọng từ nguồn dữ liệu khổng lồ này là hết sức cần thiết, và đây chính là những gì mà bài toán khai phá dữ liệu(Data Mining) hướng tới Một trong những kỹ thuật được sử dụng phổ biến nhất trong khai phá dữ liệu
đó là phân cụm dữ liệu(Data Clustering) Các ứng dụng của phân cụm dữ liệu bao gồm: phân loại hình thế thời, phân vùng khí hậu, nhận dạng mây, downscaling thống kê hay đánh giá tác động của biến đổi khí hậu
Trong luận văn này, nội dung chính mà tôi thực hiện đó là sử dụng SOM, một trong những phương pháp phân cụm dữ liệu có hiệu quả cao đối với các bài toán khí tượng, áp dụng với bộ số liệu tái phân tích JRA25 của Nhật Bản để xây dựng một hệ thống phân loại các hình thế gây mưa lớn cho khu vực Việt Nam
Nội dung của luận văn được chia thành các phần như sau:
Mở đầu
Chương 1: Tổng quan
Chương 2: Số liệu và phương pháp
Chương 3: Kết quả và phân tích
Kết luận
Trang 14toán về khí tượng và dưới đây là một số nghiên cứu tiêu biểu
Năm 2007, Kotsiantis và Kotstoulas[40] đã thực hiện việc dự báo nhiệt độ trung bình ngày, nhiệt độ tối cao và nhiệt độ tối thấp tại thành phố Patras( Hy Lạp) bằng 6 phương pháp khai phá dữ liệu gồm có: mạng neuron thần kinh BP(Feed-Forward Back Propagation), thuật toán phân cụm K lân cận, phương pháp hồi quy tuyến tính, thuật toán M5, thuật toán cây quyết định (IB3) Họ đã sử dụng dữ liệu mưa, độ ẩm tương đối, nhiệt độ với độ dài 4 năm từ năm 2002-2005 và kết quả thu được từ nghiên cứu này là các bộ hệ số tương quan có độ chính xác tương đối cao,
ngoài ra chỉ số đánh giá RMSE trong dự báo cũng là khá thấp
Năm 2004, một nghiên cứu từ Bilgin và Camurcu[41] được thực hiện tại Thổ Nhĩ Kỹ, họ đã sử dụng một thuật toán phân cụm dữ liệu trên lưới là DBSCAN để phân chia lại các phân vùng khí hậu tại nước này Bằng cách sử dụng số liệu nhiệt
Trang 1515
độ tối cao và tối thấp ngày từ 258 trạm quan trắc bề mặt giai đoạn từ năm 1930 đến
1996, hai nhà khoa học này đã phân chia Thổ Nhĩ Kỳ lại làm 4 phân vùng khí hậu
Khai phá dữ liệu cũng đã được sử dụng thành công trong việc xây dựng những ứng dụng quan trọng trên các trường dữ liệu khí tượng như dự đoán các hiện tượng bất thường như bão, áp thấp nhiệt đới và dự báo lũ trên các sông Năm 2004, Zhang và Huang[42] đã đề xuất một bộ công cụ nền tảng để khám phá những quy luật động lực liên quan đến với dự báo thời tiết quy mô địa phương cho thành phố Dallas(Mỹ) Trong một nghiên cứu khác vào năm 2003, Peters và Suraj[43] đã sử dụng số liệu từ radar thời tiết để phát hiện các hiện tượng liên quan đến bão, và phân chúng thành 4 loại gồm có: mưa đá, mưa lớn, lốc xoáy và gió mạnh
Một ứng dụng nữa của khai phá dữ liệu đó là phân loại mây trên ảnh vệ tinh Với các hệ thống mây quy mô vừa có tổ chức, nếu nhận dạng trên số liệu vệ tinh, một trong những đặc tính quan trọng nhất là gradient giữa khu vực mây và môi trường bên ngoài là lớn Hoặc trên số liệu ảnh vệ tinh địa tĩnh GOES, kết hợp giữa phương pháp ngưỡng và phương pháp tương quan cực đại có thể xác định được các
hệ thống mây quy mô vừa dịch chuyển (Carvalho và Jones, 2001[18]) Một phương pháp khác hay được sử dụng trong phân loại mây từ số liệu vệ tinh là phương pháp mạng thần kinh nhân tạo (ANN) hay phương pháp hồi quy phi tuyến Trong phương pháp này, do các đặc tính mây cho trước là khác nhau đối với từng dự liệu vệ tinh trên các kênh phổ khác nhau mà ta có thể phân loại được các dạng mây khác nhau (Weisberg và cộng sự, 1990[32]) Phương pháp ANN cũng được sử dụng trong nhận dạng các khu vực cháy rừng từ số liệu vệ tinh (Li và cộng sự, 2001[30]) Phương pháp ANN nêu trên được phân loại là phương pháp xử l í trên từng điểm của đối tượng (pixel level based method) Các đối tượng nhận dạng sẽ là tập hợp của các điểm được tách lọc với các đặc tính đã xác định Tuy nhiên đối với các hiện tượng thời tiết có quy mô không gian lớn và các đặc tính hết sức phức tạp như hiện tượng front, các hệ thống mây quy mô lớn, dòng xiết, phương pháp theo từng điểm phải kết hợp với phương pháp ở mức đối tượng (object level method) (Carmichael
và Hebert, 2004[17]) Ví dụ Peak và Tag (1994)[36] phát triển phương pháp để
Trang 1616
phân cụm đối với dữ liệu vệ tinh trong bài toán nhận dạng các hệ thống mây quy mô lớn Trong phương pháp này, các vùng biên của vùng mây được nhận dạng bởi một tập hợp các ngưỡng khác nhau và được lưu trữ theo dạng cấu trúc cây thứ bậc (hierarchical tree structure) để lưu giữ quan hệ theo không gian của các đặc tính và sau đó sử dụng phương pháp ANN để phân cụm tiếp tùy thuộc vào kích thước và hình dạng của các đặc tính mây (Peak và Tag, 1994)
Cũng sử dụng phương pháp lai (hybrid) kết hợp từ mức điểm đến mức đối tượng, Ramachandran và cộng sự (2008)[29] đã tự động xác định các hệ thống front
từ số liệu mô hình dự báo thời tiết Trong nghiên cứu này, hệ thống front được định nghĩa là một đới hẹp chuyển giao giữa hai đới không khí có các đặc tính khác biệt nhau Véctơ đặc trưng (feature vector) cho hệ thống front được tác giả xây dựng từ đặc tính của gradient nhiệt độ lớn và sự thay đổi gió ở các đới front Ở mức tiếp cận điểm (pixel level), Ramachandran sử dụng phương pháp phân cụm không tập giám sát (unsupervised K-means) để phân cụm theo không gian các vùng có các đặc tính điểm khác nhau Mục đích của mức xử l í điểm này là để xác định được vùng có khả năng chứa các hệ thống front nhất Cùng sử dụng phương pháp tổng hợp theo Peak
và Tag (1994)[36], tác giả sau đó với xử l í mức đối tượng (object level) sẽ sinh ra các dữ liệu dạng xác suất vị trí, khu vực có hiện tượng đang được xác định
Trung tâm nghiên cứu khí quyển quốc gia Mỹ (NCAR) trong giai đoạn từ 2004-2011 cũng đã áp dụng khai phá dữ liệu trong việc phát hiện và theo dõi sự dịch chuyển của các ổ dông từ ảnh radar, một phần quan trọng trong bài toán dự báo cực ngắn thông qua chương trình có tên là TITANS(Thunderstorm Identification, Tracking, Analysis and NowCasting) Chương trình này hướng tới việc phát hiện, xác định hướng, phân tích và dự báo cực ngắn các ổ dông dựa trên ảnh CAPPI (sản phẩm độ phản hồi vô tuyến trên mặt cắt ngang) Bằng cách sử dụng thuật toán tìm kiếm theo chiều rộng BFS để xác định các ổ dông trên ảnh CAPPI và thuật toán cặp ghép Hungary để xác định hướng dịch chuyển của các ổ dông này, họ đã tạo ra một
hệ thống dự báo cực ngắn ở mức đơn giản nhất tuy nhiên có tính ứng dụng cao Đây
Trang 17số liệu tái phân tích trong bài toán nhận dạng hình thế thời tiết dựa trên các phương
pháp phân nhóm như CA (Composite Analysis) kết hợp với phương pháp phân tích thành phần chính PCA (Principal Component Analysis) (Higgins và những người
khác (nnk), 2000[14], phương pháp K-Mean (Dorling và Davies, 1992[22]), SOM
(Self-Organizing Map) (Hewitson và Crane, 1994[24]), Trong đó, phương pháp
SOM được ứng dụng mạnh mẽ nhất trong bài toán khí tượng trong 10 năm trở lại,
đặc biệt là trong bài toán nhận dạng và phân loại hình thế thời tiết nói chung và mưa lớn nói riêng (Hewitson và Crane, 2002[25]; Cassano và nnk, 2006[19], Schuenemann và nnk, 2009[38], Hsu và Li, 2010[26])
Phương pháp SOM có 2 đặc điểm nổi bật nhất đó là khả năng chuyển tập dữ
liệu nhiều chiều phức tạp về tập dữ liệu hai chiều và bảo toàn quan hệ lân cận hay cấu trúc topo của tập dữ liệu đầu vào Chính nhờ 2 đặc điểm này, kể từ khi ra đời, SOM đã được sử dụng ngày càng rộng rãi trong nhiều bài toán phân lớp và nhận dạng trong nhiều lĩnh vực khoa học và công nghệ SOM bắt đầu được áp dụng trong khí tượng và khí hậu học từ cuối thập niên 90 như một phương pháp bổ sung cho phương pháp phân lớp truyền thống K-mean Khác với các phương pháp phân lớp tuyến tính truyền thống như PCA hay K-mean, SOM là một phương pháp phân lớp
Trang 1818
phi tuyến Do đó có thể kỳ vọng về khả năng nhận dạng tốt hơn của SOM so với các phương pháp trên Trên thực tế điều này đã được chứng minh trong nhiều nghiên cứu của các tác giả khác nhau (Reusch và nnk, 2005[37]; Bacao và nnk, 2005[16]; Lin và Chen, 2006[31]; Solidoro và nnk, 2007[39]) Lobo (2009)[33] đã chỉ ra rằng với một số đơn giản hóa kết quả phân lớp theo SOM sẽ trở thành kết quả nhận được với K-means Điều đó có nghĩa có thể xem K-means như một phiên bản đơn giản hóa của SOM Phương pháp này cũng sử dụng phương pháp phân cụm không tập giám sát để tạo ra các vector mẫu (prototype vector) để thể hiện tập dữ liệu Ví dụ như một điểm được đặc trưng bởi vector gồm thành phần chứa nhiệt độ tại điểm đó, thành phần độ đứt gió, thành phần tốc độ thẳng đứng Hiện nay SOM được áp dụng trong các bài toán khí tượng như phân loại khí hậu, phân loại mây, phân tích mẫu mưa và các thời tiết cực đoan SOM sẽ quy chiếu số liệu từ rất nhiều chiều về không gian ít chiều hơn mà thông thường sẽ là hai chiều và dạng ảnh để phục vụ cho người
sử dụng, và dưới đây là một số ứng dụng tiêu biểu của SOM
Tại Nhật Bản, Nishiyama[35] vào năm 2007 đã sử dụng SOM trong bài toán nhận dạng các hình thế Synop đặc trưng gây mưa lớn trong mùa mưa tại nước này Trong nghiên cứu đó, để hiểu biết một cách có hệ thống và trực quan mối quan hệ phức tạp giữa các trường synop và hiện tượng mưa lớn xảy ra tại đảo Kyushu phía Tây Nam của Nhật Bản trong mùa front Baiu, các trường synop đã được phân nhóm bằng phương pháp SOM, với mục đích chuyển đổi những đặc tính phi tuyến phức tạp trở thành mối quan hệ trên không gian hai chiều Nishiyama đã giả thiết rằng các trường synop đơn giản được thể hiện bởi sự phân bố theo không gian của các thành phần gió tại mực 850mb và giáng thủy tiềm năng(tổng lượng hơi nước trong một cột khí quyển thẳng đứng) Sau khi sử dụng phương pháp SOM cùng kỹ thuật U-matrix và K-means, các trường synop này được chia thành 8 cụm dữ liệu khác nhau, một trong những cụm này có đặc điểm đáng chú ý đó là nó thể hiện một lượng giáng thủy tiềm năng lớn đi kèm với các thành phần gió mạnh được biết với tện gọi là dòng xiết mực thấp(LLJ) Đặc điểm của cụm này chỉ ra hình thế synop đặc trưng gây mưa lớn cho đảo Kyushu trong mùa mưa Ngoài ra một bộ số liệu độc
Trang 1919
lập cũng được sử dụng để xác nhận lại hiệu quả việc sử dụng SOM Các kết quả đã chỉ ra rằng, SOM có thể thành công trong việc chiết xuất ra những hiện tượng mưa lớn liên quan đến hình thế synop điển hình trong mùa front Baiu Điều thú vị hơn đó
là mỗi đơn vị đặc trưng của SOM lại có liên quan chặt chẽ đến sự xuất hiện của hiện tượng mưa lớn quan trắc được trong các quá trình học và quá trình đánh giá Có thể nói kết quả thu được từ nghiên cứu này đã chứng tỏ việc áp dụng phương pháp SOM đã mang lại hiệu quả cao trong việc nhận dạng các hình thế synop gây mưa lớn tại Nhật Bản
Trong lĩnh vực khí hậu, SOM được áp dụng cho việc phân nhóm các chế độ khí hậu gió mùa ở miền Đông Arizona(Cavazos và nnk 2002[44]) và phân nhóm hoàn lưu khí quyển quy mô lớn vào mùa đông và các trường ẩm liên quan đến sự kiên cực trị mưa ở phía Đông Bắc Mexico và Đông Nam của Texas(Cavazos và nnk, 1999[44]) Trong những nghiên cứu này, việc lớn nhất đã đạt được đó là tách biệt khá rõ ràng các chế độ khí hậu khỏi các mối quan hệ phi tuyến phức tạp
Cavazos (1999)[44] cũng đã sử dụng SOM nghiên cứu về tình hình mưa tuyết lớn ở khu vực Nam Mỹ nơi các cơn mưa tuyết lớn tại các khu vực miền núi thường có nguyên nhân trực tiếp là các trận tuyết lở Các trạng thái khí quyển qui
mô Synop đặc biệt là nguyên nhân của các hiện tượng mưa tuyết cực trị này, và điều này cũng đúng cho trường hợp của vùng Andorra, một nước nhỏ tại Pyrenees, nằm giữa Pháp và Tây Ban Nha Trên cơ sở những ngày lượng tuyết có cường độ ít nhất là 30cm trong khoảng 24h, các nghiên cứu hiện tại sử dụng các phân tích thành phần chính (PCA) và các phép phân tích xếp nhóm để mô tả đặc điểm của các hình thế hoàn lưu qui mô synop cho những ngày này trong suốt thời kỳ mùa đông Khu vực nghiên cứu nằm trong khoảng 30 - 60°N; 30°W - 15°E và khoảng thời gian là thời kỳ mùa đông các năm từ 1986 - 1987 tới 2000 - 2001 Sử dụng phương pháp SOM trong nghiên cứu này, có thể phân loại hình thế synop cho các ngày có lượng mưa tuyết lớn và xây dựng các bản đồ cho khí áp mực biển, độ cao địa thế vị 500hPa, độ dày 1000-500m (các đường dòng 5270m, 5400m, 5520m) Các kết quả đưa ra 7 hình thế hoàn lưu, hầu hết là về thành phần gió khu vực Đại Tây Dương,
Trang 2020
một số những hình thế khác với bình lưu khu vực Địa Trung Hải có thể được kết hợp với khí quyển lục địa lạnh
Năm 2000, Cavazos[20] tiếp tục sử dụng SOM áp dụng cho các yếu tố nhiệt
độ và gió hàng ngày để phát hiện những dị thường của hiện tượng mưa cực đoan tại khu vực Bắc Balkan Cũng trong năm này, Cavazos còn sử dụng SOM khám phá ý nghĩa của sự phát triển nội mùa của gió mùa ở Bắc Mỹ thông qua đa yếu tố khí tượng hằng ngày bao gồm gió kinh hướng tại mực 850mb, độ ẩm riêng tại mực 700mb, độ cao địa thế vị tại mực 500mb và độ dày khí quyển trong mực từ 850-500mb Năm 2005, Reusch[37] đã sử dụng SOM để phân loại các biến khí quyển giữa tầng đối lưu(mực 700mb) gồm nhiệt độ không khí, độ cao địa thế vị, và độ ẩm riêng để khái quát lại hoàn lưu khí quyển và xây dựng dựa trên mô hình lõi băng lại hình thế thời tiết trên khu vực Nam Cực Năm 2007, Raju và Kumar[45] lại sử dụng SOM để phân nhóm số liệu quan trắc từ các trạm khí tượng, các yếu tố được sử dụng bao gồm nhiệt độ, độ ẩm, số giờ nắng và bức xạ mặt trời Tương tự năm 2008, Khedairia và Khadir[46] cũng sử dụng SOM và k-means để phân nhóm số liệu khí tượng từ khu vực Annaba phía Đông Bắc của Algeria giai đoạn từ 1995-1999
Vào năm 2006, Cassano[19] lại sử dụng SOM tạo ra bộ số liệu khí hậu 55 năm khí áp mực biển cho khu vực Tây Bắc Cực, với mục đích nghiên cứu mối liên
hệ giữa hoàn lưu khí quyển với nhiệt độ không khí và gió ở các tầng cao.Năm 2009 Schuenemann[39], đã áp dụng SOM với bộ số liệu khí áp mực biển hàng ngày để xác định khách quan các hình thế khí áp mực biển trên khu vực Bắc Đại Tây Dương Năm 2010, Cassano và Schuenemann[47] lại xem xét sự thay đổi của hình thế thời tiết( thông qua trường khí áp mực biển) từ 15 mô hình dự báo và liên hệ những hình thế synop của hoàn lưu khí quyển thu được SOM với lượng giáng thủy trên đảo Greenland vào thế kỷ 20 và 21 Cũng trong năm 2010, Johnson và Feldstein[48] đã áp dụng SOM để minh họa sự biến đổi cặp đôi giữa trường khí áp mực biển tại khu vực Bắc Thái Bình Dương và bức xạ sóng dài đi ra tại khu vực nhiệt đới Ấn Độ Dương và Thái Bình Dương từ đó làm sáng tỏ mối quan hệ giữa trường khí áp tại khu vực Bắc Thái Bình Dương và đối lưu tại khu vực nhiệt đới
Trang 2121
Năm 2007, Reusch[49] đã sử dụng SOM, phân tích trung bình tháng khí áp mực biển phục vụ cho việc nghiên cứu biến đổi khí hậu tại khu vực Bắc Đại Tây Dương
1.2 Tình hình nghiên cứu tại Việt Nam
Việt Nam nằm trong khu vực nhiệt đới gió mùa có đường bờ biển dài trên 3000km tiếp giáp nhiều với biển nên có rất nhiều nguy cơ xảy ra mưa lớn trên nhiều vùng, miền khác nhau Mưa lớn ở nước ta từ trước đến nay được xếp như là một trong những hiện tượng thời tiết nguy hiểm Mưa lớn thường gắn liền với một số hình thế thời tiết điển hình như bão, áp thấp nhiệt đới, gió mùa Đông Bắc, gió mùa Tây nam, dải hội tụ nhiệt đới (ITCZ), các nhiễu động gió Đông nhiệt đới và gió Tây cận nhiệt đới tầng cao
Phạm Ngọc Toàn, Phan Tất Đắc (1993)[7] mặc dù không nêu rõ tác động của từng hình thế thời tiết gây mưa lớn trên các khu vực nhưng đã đưa ra các quy luật khí hậu của các khối khí ảnh hưởng đến Việt Nam, phân vùng khí hậu trên toàn lãnh thổ (tác giả đã chia làm 4 vùng gồm miền khí hậu phía Bắc, miền khí hậu Đông Trường Sơn, miền khí hậu phía Nam và miền khí hậu biển Đông) Trong quá trình miêu tả các miền khí hậu theo mùa, tác giả cũng đã đề cập một cách cơ bản về những nguyên nhân, hình thế gây mưa lớn Tuy nhiên ở đây các tác giả chỉ tập trung vào việc phân tích các điều kiện hình thành khí hậu và mối tương quan giữa hoàn lưu gió mùa, ngoài ra các tác giả cũng xét đến các quy luật cơ bản chi phối diễn biến thời tiết và cấu trúc khí hậu, nhấn mạnh những tính độc đáo trong quy luật phân mùa, trong sự biến động và phân hóa khí hậu địa phương, đồng thời cũng thử nghiệm giải thích các quy luật đó bằng các phân tích Synop thống kê
Nguyễn Ngọc Thục (1992, 1994)[3], khi phân loại các dạng hình thế Synop gây mưa lớn, đặc biệt lớn thuộc các tỉnh Nghệ An – Thừa Thiên Huế, đã đưa ra những khái quát về hình thế gây mưa lớn ở miền Trung, nêu ra định nghĩ thế nào là mưa lớn diện rộng, xác định nguyên nhân gây mưa lớn ở khu vực từ Nghệ An trở vào đến Thừa Thiên Huế Sau đó tác giả tiến hành thống kê các hình thế mưa lớn ở khu vực này và đã chỉ ra có tất cả 7 loại hình thế có khả năng gây mưa lớn ở miền Trung Đối với từng hình thế tác giả đã có những nghiên cứu khá chi tiết, chỉ ra sự
Trang 2222
ảnh hưởng độc lập của từng hình thế cũng như tác động của nó với các hình thế khác, đánh giá xác xuất % của từng hình thế, ảnh hưởng của nó đến từng vùng miền, khu vực ra sao, lượng mưa mà của từng hình thế đối với các vùng sẽ như thế nào, tác giả cũng đã đưa ra những nhận xét về sự giống nhau, khác nhau giữa thời gian kéo dài, phân bố không gian, lượng mưa ngày, tổng lượng mưa, do từng loại hình thế cơ bản và tổ hợp gây ra Đối với các Dự báo viên thì đây có thể coi là cẩm nang cho việc nhận dạng cũng như dự báo mưa lớn cho khu vực miền Trung Nhưng đây cũng chỉ là những nhận định chủ quan, phần nhiều dựa vào kinh nghiệm của người viết, vì thế tính khánh quan, sẽ bị giảm đi đáng kể, nhất là những hình thế chuẩn mà tác giả đưa ra chủ yếu dựa vào các đợt mưa lớn thực tế Trong các bản đồ phân loại hình thế tác giả thường vẽ lại một cách chủ quan, ít có những phần biểu hiện giá trị thực tế cũng như phân bố gió, khí áp, như thế nào, vì thế khi dự báo viên tiếp xúc với những hình thế này thường bị phân vân, nếu muốn không áp dụng những hình thế này một cách máy móc thì người dự báo viên phải có nhiều kinh nghiệm và ít nhất cũng đã trải nghiệm được nhiều lần những hình thế mà tác giả đã nêu, như vậy thì khoảng thời gian hiểu được và thể hiện ra được là rất lâu
Bằng phương pháp tương tự Trần Gia Khánh (1993, 1998)[11] cũng đã tiến hành nghiên cứu và phân loại các hình thế synop gây mưa lớn ở khu vực Quảng Nam – Đà Nẵng đến Khánh Hòa trong các tháng 9, 10 và 11 Cách tiếp cận vấn đề cũng như phương pháp nghiên cứu của tác giả cũng không có gì mới so với tác giả Nguyễn Ngọc Thục Tuy nhiên tác giả cũng đã thống kê được một số chỉ tiêu kinh nghiệm dựa trên thống kê hiệu các giá trị khí áp trạm 902, trạm Láng (Hà Nội), trạm
758 phía Đông Lôi Châu với trạm Đà Nẵng đưa ra xác suất dự báo cho trường hợp KKL với hoạt động của bão hoặc ATNĐ Tất cả các công trình nghiên cứu này đều được tiến hành dựa trên quá trình thống kê và phân tích các bản đồ phân tích synốp
bề mặt và trên cao được phân tích chủ quan bởi các dự báo viên (DBV) Do đó, các kết quả nhận định thường mang tính chủ quan của người nghiên cứu khi phân loại hình thế thời tiết và khó khả thi để ứng dụng vào dự báo nghiệp vụ mưa lớn cho khu vực Việt Nam do việc áp dụng các kết quả nghiên cứu này trong nghiệp vụ dự báo
Trang 23bộ các chỉ số nhiệt động lực cho khu vực mưa lớn
Phạm Thị Thanh Ngà (2007),[8] cũng trên cơ sở này đưa ra bộ các nhân tố cho một số trường hợp mưa lớn diện rộng trên lãnh thổ Việt Nam Các công trình nói trên chỉ tập trung cho bộ các nhân tố gây mưa lớn mà chưa chú trọng đến việc nhận dạng đây là loại hình thế gây mưa lớn gì, liệu trong tương lai khi sản phẩm mô hình lặp lại đúng các nhân tố đó thì có gây mưa lớn hay không
Nguyễn Viết Lành (2011), đã sử dụng bộ sản phẩm tái phân tích của NCAR, NCEP để tìm hiểu và phân loại các hệ thống thời tiết ảnh hưởng đến Việt Nam, hệ quả thồ tiết do các hệ thống này gây ra, trên cở sở phân tích đó tìm hiểu một số các hiện tượng thời tiết cực đoan như mưa đá, tuyết…trên khu vực các tỉnh vùng núi phía Bắc và các tỉnh Nam Bộ Kết quả của công trình này có thể tham khảo như là một giáo trình dùng giảng dạy trong các trường đại học, nhưng về lĩnh vực nhận dạng các hình thế gây mưa lớn thì hầu như ít đề cập và do không mang tính thực tế nên rất khó để sử dụng trong nghiệp vụ dự báo mưa lớn
Năm 2012, Nguyễn Văn Hưởng và Lê Đức[13] lần đâu tiên đã sử dụng bộ số liệu tái phân tích JRA 25 của Nhật Bản và phương pháp K-means để xác định khách
Trang 2424
quan hình thế thời tiết trong các đợt mưa lớn trên khu vực miền Trung Trong nghiên cứu này hai tác giả đã thu được các kết quả như sau: có 6 nhóm hình thế gây mưa lớn cho khu vực Bắc Trung Bộ bao gồm không khí lạnh tương tác với vùng xoáy thấp phát triển đến độ cao khoảng 3000m trên biển Đông, rãnh Tây Bắc- Đông Nam, hội tụ kinh hướng, các đợt không khí lạnh mạnh, dải hội tụ nhiệt đới và xoáy thuận nhiệt đới Với khu vực Trung Trung Bộ cũng có 6 hình thế gây mưa lớn bao gồm: không khí lạnh tương tác với vùng xoáy thấp phát triển đến độ cao khoảng 3000m, không khí lạnh mạnh tương tác với gió Đông hoặc nhiễu động gió Đông trên cao, dải hội tụ nhiệt đới tương tác với không khí lạnh, không khí lạnh, rãnh thấp Tây Bắc – Đông Nam và xoáy thuận nhiệt đới Với khu vực Nam Trung Bộ có
5 hình thế gây mưa lớn gồm không khí lạnh nhiễu động gió Đông trên cao, dải hội
tụ nhiệt đới có không khí lạnh, không khí lạnh tương tác với rãnh thấp xích đạo, không khí lạnh tương tác với vùng áp thấp phát triển lên đến 3000m, xoáy thuận nhiệt đới Còn với khu vực Tây Nguyên các tác giả cũng chỉ ra được 4 hình thế gây mưa lớn gồm: dải hội tụ nhiệt đới có xoáy thuận nhiệt đới, gió mùa Tây Nam, rìa xoáy thuận nhiệt đới, không khí lạnh kết hợp với gió Đông mạnh Tuy nhiên có một nhược điểm lớn nhất trong phương pháp mà hai tác giả đã sử dụng đó là phải định nghĩa trước số lượng các nhóm hình thế gây mưa cho từng khu vực, nên trong trường hợp này gọi là xác định khách quan mà chưa hẳn là khách quan
Năm 2013, dựa trên số liệu mưa trong vòng 25 năm từ 1986 đến 2010 quan trắc tại các trạm và số liệu tái phân tích JRA, các tác giả Nguyễn Khánh Vân, Đỗ Lệ Thủy[14] đã phân tích và thống kê các hình thế thời tiết và tổ hợp của chúng gây ra các đợt mưa lớn và mưa rất lớn sinh lũ lụt cho khu vực Đèo Hải Vân và Đèo Cả(từ
Đà Nẵng đến Phú Yên) Kết quả cho thấy các hình thế gây mưa cho khu vực này gồm có xoáy thuận nhiệt đới, không khí lạnh, xoáy thuận nhiệt đới kết hợp với không khí lạnh, dải hội tụ nhiệt đới, dải hội tụ nhiệt đới kết hợp với không khí lạnh, không khí lạnh kết hợp với nhiễu động gió Đông trên cao
Hiện nay, các hình thế dự báo từ các mô hình NWP mới chỉ được khai thác trong quá trình phân tích hình thế thời tiết bởi các dự báo viên, mà chưa được khai
Trang 25Dựa trên những lập luận nêu trên, tôi đề xuất đề tài luận văn thạc sỹ “Nghiên
cứu xây dựng hệ thống phân loại các hình thế gây mưa lớn cho khu vực Việt Nam bằng phương pháp SOM” Về cơ bản, đề tài này tiếp tục theo hướng nghiên
cứu trên quy mô synốp với các hình thế thuận lợi cho mưa lớn trên khu vực Việt Nam nhưng theo một hướng nghiên cứu mới dựa trên phương pháp SOM và sử dụng tập số liệu tái phân tích thay vì hướng nghiên cứu truyền thống tại Việt Nam
Trang 26 Mưa to : Lượng mưa từ 51 đến 100mm/24h hoặc từ 26 đến 50mm/12h
Mưa rất to: Lượng mưa lớn hơn 100mm/24h hoặc lớn hơn 50mm/12h
Một đợt mưa lớn diện rộng là một đợt mưa xảy ra, phải quá 2/3 số trạm quan trắc và tương đối liên tục trong một khoảng thời gian nhất định, trong đó có ít nhất một ngày đạt tiêu chuẩn mưa lớn Khi quá trình mưa lớn diện rộng xảy ra nhiều đợt trong một thời gian dài, các đợt mưa lớn diện rộng khác nhau phải cách nhau một khoảng thời gian liên tục ít nhất là 24 giờ với trên 1/2 tổng số trạm quan trắc hoàn toàn không có mưa Tổng lượng mưa cả đợt được tính theo lượng mưa đo được thực
tế của từng trạm trong khoảng thời gian của cả đợt mưa kể từ thời gian bắt đầu đến thời gian kết thúc mưa Tổng lượng mưa lớn nhất được chọn trong tổng lượng mưa thực đo của các trạm Việc thống kê này được tôi thực hiện dựa trên số liệu của 58 trạm trong giai đoạn từ 1979-1998, từ giai đoạn 1998-2012 số lượng các trạm này tăng lên và đến năm 2012 thì tổng số trạm đo mà tôi sử dụng là 173 trạm Ngoài ra trong quá trình thống kê này, tôi còn sử dụng số liệu tại các trạm thủy văn và trạm
đo mưa nhân dân từ năm 1998 đến 2012, riêng khu vực Nam Trung Bộ thì nguồn số liệu này là từ năm 1982 đến nay Với những tiêu chi đã nêu ở trên, số lượng các ngày mưa lớn trong các đợt mà tôi thống kê được ở các khu vực như sau:
Khu vực Tây Bắc Bộ 50 ngày
Khu vực Đông Bắc Bộ 90 ngày
Khu vực Bắc Trung Bộ 235 ngày
Khu vực Trung Trung Bộ 394 ngày
Khu vực Nam Trung Bộ 294 ngày
Trang 2727
Khu vực Tây Nguyên 137 ngày
Bước tiếp theo tôi tiến hành thu thập số liệu tái phân tích JRA25 của Nhật Bản tương ứng với các ngày mưa đã được thống kê trong bước đầu tiên JRA25 là nguồn số liệu được ra đời với mục đích kiểm tra, đánh giá chất lượng số liệu mô hình cũng như tham gia vào công tác nghiên cứu khí hậu, đây cũng là bộ số liệu tái phân tích dài hạn toàn cầu đầu tiên được thực hiện trên khu vực châu Á Với độ dài
từ năm 1979 cho đến nay, nguồn số liệu này đã được sử dụng rộng rãi tại trung tâm khí tượng Nhật Bản (JMA) trong các việc đồng hóa số liệu và trong hệ thống dự báo nghiệp vụ Số liệu JRA25 có vai trò quan trọng trong việc cung cấp số liệu tái phân tích phù hợp và chất lượng cao cho công tác nghiên cứu khí hậu, giám sát và các hoạt động dự báo trên quy mô toàn cầu nói chung và đặc biệt là cho khu vực Châu Á nói riêng Kể từ năm 2006, Trung tâm khí tượng Nhật Bản đã khởi động hệ thống hệ thống đồng hóa số liệu khí hậu thời gian thực (JCDAS) JCDAS sử dụng cùng một hệ thống tương tự như JRA25 và độ dài chuỗi số liệu được kéo dài đến hiện tại Các sản phẩm của số liệu JRA25 và JCDAS cho phép người dùng đưa ra những nghiên cứu khí hậu dựa trên một tập số liệu tái phân tích với độ dài thích hợp
Trang 2828
Thời gian 1979/01 - 2012/12
Cập nhật số liệu Không cập nhật và mở rộng
Tổ chức Trung tâm khí tượng Nhật Bản (JMA)
Miền bao phủ Toàn cầu
Đại Dương và Đất Liền Đại dương và đất liền
Vùng không có số liệu Không có
Bước thời gian Hàng ngày hoặc hàng tháng
Sơ đồ đồng hóa 3DVAR
Độ phân giải của mô hình T106, 40 mực thẳng đứng
Độ phân giải không gian 1.125 x 1.125 hoặc 2.5 x 2.5; 0.4 hPA
Đồng hóa được cấu trúc gió xung quanh các cơn bão nhiệt đới
Các đám mây tầng thấp dọc các bờ biển phía Tây của vùng cận nhiệt đới được mô phỏng tốt
Những khuyết điểm của số liệu JRA25:
Không bao gồm các biến đổi của số liệu vệ tinh Điều này có thể gây ảnh hưởng đến xu hướng biến đổi nhiệt độ tại tầng bình lưu
Lượng CO2 được giữ cố định trong 25 năm
Thiên lạnh trong tầng bình lưu và thiên khô trong khu vực Amazon
Như trong bảng tóm tắt các thông tin cơ bản về số liệu JRA25, định dạng số liệu tái phân tích là Grib, đây là một định dạng dữ liệu phù hợp cho việc truyền tải lượng dữ liệu lớn giữa các trung tâm bằng các đường truyền tốc độ cao Hầu hết các trung tâm trên thế giới sử dụng Grib để làm đầu ra cho mô hình số Tuy nhiên trong luận văn này, tôi đã chuyển toàn bộ số liệu định dạng Grib về định dạng NetCDF để
Trang 29 Khu vực Tây Bắc Bộ gồm các tỉnh Lai Châu, Điện Biên, Sơn La và Hòa Bình
Khu vực Đông Bắc Bộ gồm Lào Cai, Yên Bái , Hà Giang, Tuyên Quang, Bắc Kạn, Thái Nguyên, Phú Thọ, Vĩnh Phúc, Cao Bằng, Lang Sơn, Quảng Ninh, Bắc Giang, Bắc Ninh, Hải Phòng, Hà Nội; Hải Dương, Hưng Yên, Nam Định, Hà Nam, Ninh Bình, Thái Bình
Khu vực Bắc Trung Bộ gồm Thanh Hóa, Nghệ An và Hà Tĩnh
Khu vực Trung Trung Bộ gồm các tỉnh từ Quảng Bình đến Quảng Ngãi
Khu vực Nam Trung Bộ gồm các tỉnh từ Bình Định đến Bình Thuận Quá trình xây dựng hệ thống phân loại các hình thế gây mưa lớn cho khu vực Việt Nam gồm các bước sau:
Lựa chọn miền số liệu tái phân tích, yếu tố phù hợp để tiến hành phân loại các hình thế gây mưa lớn
Xử lý số liệu JRA25, luyện mạng SOM từ số liệu JRA
Trực quan hóa kết quả SOM bằng bản đồ U-Matrix, phân cụm dữ liệu trên bản đồ U-Matrix
Trung bình hóa các phần tử trên cùng một cụm, xác định các cụm hình thế
Trang 30tố phân nhóm mà tôi sử dụng tại các vùng như sau:
Các khu vực Đông Bắc Bộ, Tây Bắc Bộ, Bắc Trung Bộ, Nam Trung
Bộ sử dụng 2 yếu tố là pmsl và h500
Khu vực Trung Trung Bộ sử dụng yếu tố phân nhóm là pmsl, u850 và v850
Trang 3131
Hình 2.1 Miền số liệu tái phân tích được lựa chọn để phân loại các hình thế gây
mưa lớn cho khu vực Việt Nam
2.2.2 Xử lý số liệu JRA, luyện mạng SOM từ số liệu JRA
Do các yếu tố trong số liệu tái phân tích khác nhau hoàn toàn về thứ nguyên cũng như phạm vi biến đổi vì thế trước khi đuợc đưa dữ liệu vào mạng SOM để luyện cần có một quá trình cần thiết đó là chuẩn hóa dữ liệu Phương pháp ở đây tôi lựa chọn
để chuẩn hóa dữ liệu là phương pháp z-score, trong chuẩn hóa z-score, các giá trị của thuộc tính A sẽ được chuẩn hóa dựa trên giá trị trung bình và độ lệch chuẩn của A Một giá trị v của A sẽ được chuẩn hóa thành giá trị v’ bằng công thức sau:
Với : giá trị trung bình của A
: độ lệch chuẩn của A
Trang 32Sau khi đã hoàn thiện được toàn bộ số liệu phục vụ quá trình phân nhóm, trong phần tiếp theo phía dưới đây, tôi sẽ trình bày về SOM hay còn gọi là bản đồ tự
tổ chức
Mạng noron SOM được Teuvo Kohonen phát triển vào những năm 80 của thế kỷ 20 Đây là mạng truyền thẳng sử dụng thuật học cạnh tranh, không giám sát, được thiết kế chủ yếu để giảm số chiều dữ liệu và trực quan thông tin Tuy nhiên, có thể kết hợp SOM với các kỹ thuật xác định cụm khác để phân cụm dữ liệu Hiện tại, trong các bài toán phân cụm dữ liệu nếu sử dụng mạng noron SOM cần thực hiện theo hai giai đoạn, giai đoạn thứ nhất là thực hiện giải thuật SOM để tạo “bản đồ” phân bố đặc trưng của tập dữ liệu, giai đoạn thứ hai trực quan “bản đồ” và hình thành đường biên giữa các cụm trên bản đồ (ma trận) trực quan Giai đoạn một có ý nghĩa quan trọng bởi nó tạo ra tập ánh xạ đặc trưng trên lớp ra Kohonen từ tập dữ liệu vào, trong đó các dữ liệu có sự tương đồng nhau sẽ được đặc trưng bởi các noron gần nhau trên lớp Kohonen Xét về bản chất, mỗi noron trên lớp ra Kohonen
là đại diện cho một hoặc một số mẫu dữ liệu, do vậy việc phân cụm dữ liệu chính là phân cụm các noron (xác định mỗi noron thuộc về cụm nào) Tuy nhiên, giải thuật SOM chỉ đóng vai trò gom cụm dữ liệu mà không thực sự quyết định chính xác dữ liệu gì thuộc về cụm nào Vì thế, hiệu quả phân cụm phụ thuộc vào kỹ thuật trực
Trang 33vị i (noron) trọng lớp Kohonen được gắn một vector trọng số w i = [w i1 , w i2 , …,w in ], với n là kích thước vector đầu vào, w ij được hiểu là trọng số của noron i ứng với đầu vào j)
Quá trình huấn luyện mạng được lặp nhiều lần, tại lần lặp thứ t thực hiện
Chọn ngẫu nhiên một đầu vào v từ tập dữ liệu, tính khoảng cách dist giữa v và vector trọng số w tất cả các noron Noron b có dist nhỏ nhất được
chọn làm noron chiến thắng (BMU) Có thể sử dụng các hàm khoảng cách như Euclidian hay Manhattan,
Xác đinh bán kính lân cận của BMU: là hàm nội
suy bán kính giảm dần theo số lần lặp ,với là bán kính tại thời điểm t 0,
hằng số thời gian, với K là tổng số lần lặp
Cập nhật lại trọng số cho các noron lân cận của BMU theo hướng gần hơn với vector đầu vào v : với
là hàm nội suy tốc độ học, là hàm nội suy theo thời gian học, thể
hiện sự tác động của khoảng cách đối với quá trình học, được tính theo công thức: trong đó Rb và Ri là vị trí của 2 noron b và i trong ma trân SOM
Thuật toán học SOM được tóm lược trong 5 bước cơ bản như sau:
Trang 3434
Bước 1: Xác định cấu hình mạng, và các tham số
Bước 2: Khởi tạo ngẫu nhiên trọng số của các noron lớp Kohonen
Lặp lại
Bước 3: Đọc mẫu học v, đưa vào lớp vào
Bước 4: Tìm noron chiến thắng (BMU) trong lớp Kohonen (gần mẫu
học v nhất)
Bước 5: Duyệt mỗi noron trong bán kính lân cận của BMU: Cập nhật lại trọng số
Cho đến khi thỏa mãn điều kiện dừng
Các điểm cần lưu ý trong thuật toán học:
Khởi tạo các tham số: SOM bị ảnh hưởng rất nhiều bởi quá trình lựa
chọn các tham số của mạng Các tham số này bao gồm: kích thước của bản
đồ (Width/Height), số lần lặp (K), bán kính khởi tạo (σ0), giá trị khởi tạo cho
tốc độ học Thực tế không có một hướng dẫn cụ thể cho việc lựa chọn các
tham số này ứng với các bài toán áp dụng SOM, do vậy việc “thử sai” (trial and error) là cần thiết nhằm xác định tập các giá trị thích hợp ứng với tập dữ
liệu đầu vào
Điều kiện dừng: Có thể dựa trên số lần lặp, số mẫu học, hay độ cân
bằng của mạng các trọng số thay đổi dưới một ngưỡng nhất định
Trong bài toán phân cụm này cấu hình mà tôi lựa chọn cho mạng SOM là mạng hình lục giác, có kích thước là 10x10, số lần lặp lại là 2000*10*10/ntime trong đó ntime là số các tín hiệu đầu hay trong trường hợp này là số các ngày mưa tại các vùng, bán kính khởi tạo là 0.2
2.2.3 Trực quan hóa kết quả SOM bằng bản đồ U-Matrix, phân cụm dữ liệu trên bản đồ U-Matrix
Kết quả của quá trình luyện mạng SOM là một ma trận hai chiều các noron Kohonen, và việc tiếp theo đó là phải trực quan hóa ma trận này Kỹ thuật trực quan được sử dụng phổ biến là ma trận khoảng cách, trong đó mỗi phần tử của ma trận là
Trang 3535
khoảng cách trung bình của một đơn vị noron trong SOM đến các láng giềng (noron) liền kề của nó Sau đó người ta mã hóa ma trận này theo các mức xám khác nhau Các cụm trong ma trận là các vùng sáng tương ứng với khoảng cách giữa các vector trọng số của noron là nhỏ, còn các vùng màu tối tương ứng với khoảng cách lớn chính là ranh giới giữa các cụm Nhìn vào đây có thể xác định được có bao nhiêu cụm trên bản đồ, tuy nhiên để xác định một cách rõ ràng nhất ranh giới giữa các cụm, có thể dùng 2 thuật toán sau, thuật toán thứ nhất là thuật toán K-Means còn thuật toán thứ hai là thuật toán tích tụ
Các bước của thuật toán tích tụ như sau:
Bước 1: Quy cho mỗi đơn vị trong ma trận một cụm riêng
Bước 2: Tính toán khoảng cách giữa tất cả các cụm
Bước 3: Ghép hai cụm gần nhất
Bước 4: Nếu số cụm tồn tại bằng số cụm do người dùng định nghĩa trước thì dừng, nếu không lặp lại từ bước 2
Còn đối với thuật toán k-means các bước của nó gồm có
Bước 1: Chọn ngẫu nhiên K tâm (centroid) cho K cụm (cluster) Mỗi cụm được đại diện bằng các tâm của cụm
Bước 2: Tính khoảng cách giữa các đối tượng (objects) đến K tâm (thường dùng khoảng cách Euclidean)
Bước 3: Nhóm các đối tượng vào nhóm gần nhất
Bước 4: Xác định lại tâm mới cho các nhóm
Bước 5: Thực hiện lại bước 2 cho đến khi không có sự thay đổi nhóm nào của các đối tượng
Dưới đây là một hình vẽ minh họa về bản đồ U-Matrix và các cụm hình thành trên bản đồ nhờ thuật toán K-Means
Trang 3636
Hình 2.3 Ví dụ minh họa về bản đồ trực quan U-Matrix
Trang 3737
Hình 2.4 Ví dụ về việc hình thành các cụm trên ma trận U-Matrix từ phương pháp
K-means Cuối cùng sau khi đã xác định được các cụm trên bản đồ U-Matrix, tôi sẽ áp dụng kỹ thuật trung bình hóa nhằm làm nổi bật đặc trưng của mỗi hình thế tương ứng với các cụm đã được xác định Việc trung bình hóa này như một phép làm trơn loại bỏ các dao động giữa các thành phần và làm nổi rõ những đặc điểm chung nhất giữa các phần tử trong cùng một nhóm Điều này cũng giúp quá trình phân tích các hình thế đặc trưng cho một nhóm dễ dàng hơn
Trang 3838
Chương 3 Kết quả và phân tích
3.1 Phân tích các nhóm hình thế gây mưa lớn tại khu vực Tây Bắc Bộ
Đối với khu vực Tây Bắc Bộ, hình 3.1 phía dưới đây sẽ thể hiện kết quả tôi thu được sau khi luyện mạng SOM và trực quan bằng hóa bản đồ U-Matrix
Hình 3.1 Bản đồ U-Matrix và phân cụm trên bản đồ cho khu vực Tây Bắc Bộ Nhìn vào hình 3.1, có thể nhận thấy tồn tại 3 nhóm các hình thế gây mưa lớn cho khu vực Tây Bắc Bộ, sau khi sử dụng kỹ thuật trung bình cho các nhóm này, các hình thế nhận dạng được gồm:
Hình thế 1: Tồn tại một xoáy thấp trên khu vực Tây Bắc Bộ hoặc vùng núi phía Bắc
Hình thế 2: Tầng thấp là rãnh gió mùa, trên cao là gió Tây Nam thổi
từ rìa của áp cao cận nhiệt đới
Hình thế 3: Rãnh Tây Bắc – Đông Nam kết hợp với một xoáy thấp đóng kín trên khu vực Tây Bắc Bộ
3.1.1 Hình thế : Tồn tại một xoáy thấp trên khu vực Tây Bắc Bộ hoặc vùng núi phía Bắc
Xét trên trường phân tích khí áp bề mặt, cho thấy tầng thấp từ mặt đất tới 700mb có dạng như một rãnh áp thấp có trục Tây Bắc – Đông Nam và vắt qua Bắc
Bộ Ngoài ra, trên khu vực Tây Bắc và vùng núi phía Bắc trên trường gió có độ