Bài viết Ứng dụng phân tích thống kê và công nghệ GIS xác định và khoanh vùng đồng nhất số liệu mưa năm vùng đông bằng sông Cửu Long sử dụng phương pháp phân tích thống kê với kĩ thuật kiểm định Phương sai theo 1 dấu hiệu cùng sự trợ giúp của hệ thống thông tin địa lý (GIS) trong việc xác định và đánh giá tính đồng nhất theo không và thời gian của dữ liệu mưa khu vực Đồng bằng sông Cửu Long.
Trang 1ỨNG DỤNG PHÂN TÍCH THỐNG KÊ VÀ CÔNG NGHỆ GIS XÁC ĐỊNH VÀ KHOANH VÙNG ĐỒNG NHẤT SỐ LIỆU MƯA
NĂM VÙNG ĐÔNG BẰNG SÔNG CỬU LONG
Phạm Linh Chi 1 , Phạm Thị Bích Thục 2
1
Khoa Khí tượng - Thủy văn, Trường Đại học Tài nguyên và Môi trường TP HCM
2 Phòng Tài nguyên nước, Viện Địa lý tài nguyên TP HCM
Email: linhchi2111@gmail.com
TÓM TẮT
Bài báo sử dụng phương pháp phân tích thống kê với kĩ thuật kiểm định Phương sai theo 1 dấu hiệu [1] cùng sự trợ giúp của hệ thống thông tin địa lý (GIS) trong việc xác định và đánh giá tính đồng nhất theo không và thời gian của dữ liệu mưa khu vực Đồng bằng sông Cửu Long
Theo đó, dữ liệu mưa được chọn để nghiên cứu là từ năm 1999 - 2015 Kết quả cho thấy, dữ liệu yếu tố mưa phù hợp với thực tế khách quan, các khu vực mưa xác định bằng phân tích thống kê tương đối trùng khớp với với quy luật phân bố mưa do hoạt động của hoàn lưu gió mùa Tây Nam ở
vùng Đồng bằng sông Cửu Long; đồng thời loại bỏ được sai số trong quá trình quan trắc
Từ khóa: Phân tích thống kê, GIS, vùng đồng nhất, số liệu mưa năm, Đồng bằng sông Cửu Long
1 MỞ ĐẦU
Mưa là yếu tố có vai trò rất to lớn đối với sản xuất và đời sống và đây là yếu tố vốn biến động nên mạng lưới quan trắc yếu tố mưa được chú trọng phát triển và còn phát triển dày hơn trong tương lai, trong đó có khu vực ĐBSCL, một trong những đồng bằng lớn và phì nhiêu của Việt Nam, khu vực Đông Nam Á và trên thế giới [4] Với khối lượng dữ liệu đồ sộ việc đánh giá dữ liệu của yếu tố mưa là công tác quan trọng nhằm chuẩn hóa dữ liệu theo không và thời gian tránh các trường hợp sai số trong nghiên cứu và tính toán
Có nhiều nguyên nhân, cả tự nhiên và nhân tạo làm cho tính đồng nhất của chuỗi dữ liệu mưa
bị hạn chế Tuy nhiên khi phân tích các nhân tố hình thành mưa để chỉ ra sự đồng nhất là chưa đủ,
vì chỉ mới là định tính Hợp lí hơn cần sử dụng phương pháp thống kê, nó cho phép đánh giá tính đồng nhất của các chuỗi quan trắc mưa trong dạng định lượng Phương pháp thống kê còn cho phép kiểm định tính đồng nhất của chuỗi dữ liệu mưa theo không gian khi cần kết hợp chúng trong một khu vực địa lí đồng nhất [2]
Bên cạnh đó, kết hợp hệ thống thông tin địa lý GIS để kiểm tra và phân vùng lại kết quả của phương pháp phân tích thống kê bằng kỹ thuật kiểm định phương sai, một cách trực quan theo không gian là phương án thích hợp để tạo ra nguồn dữ liệu tin cậy làm đầu vào phục vụ các yêu cầu tính toán liên quan đến tài nguyên nước mưa cho khu vực Đồng bằng sông Cửu Long
2 KHU VỰC NGHIÊN CỨU
Khu vực khảo sát và nghiên cứu được chọn là 102 trạm đo mưa thuộc 13 tỉnh thành phố vùng Đồng bằng sông Cửu Long (Long An, Tiền Giang, Bến Tre, Vĩnh Long, Trà Vinh, Cần Thơ, Sóc Trăng, Bạc Liêu, Cà Mau, Kiên Giang, An Giang, Đồng Tháp, Hậu Giang) Trong đó có 58 trạm đo
Trang 2mưa nhân dân (nd), 27 trạm Thủy văn (tv) và 17 trạm Khí tượng (kt) được trình bày ở Bảng 1 [5] Khu vực này mang những đặc điểm chung của khí hậu đồng bằng Nam Bộ, có chế độ khí hậu gió mùa cận xích đạo với nền nhiệt cao đều quanh năm, lượng mưa lớn phân hoá theo mùa Một năm có hai mùa: Mùa mưa bắt đầu từ tháng 5, kết thúc vào tháng 11; Mùa khô bắt đầu từ tháng 12, kết thúc vào tháng 4 năm sau Ngoài ra còn chịu ảnh hưởng của chế độ khí hậu nhiệt đới gió mùa và mang tính đặc thù của vùng đồng bằng ven biển [4]
Bảng 1.Thống kê các trạm đo mưa và thời gian có số liệu tại các trạm đo mưa ở ĐBSCL
1
Cà Mau
Cần Thơ
Sóc Trăng
12
Bến Tre
Vĩnh Long
An Giang
20
Long An
Trang 3STT Tỉnh Trạm Năm Loại STT Tỉnh Trạm Năm Loại
29 Hậu Giang Vị Thanh 1977-2016 kt 82
Đồng Tháp
30
Tiền Giang
Kiên Giang
43
Trà Vinh
48
Bạc Liêu
3 DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU 3.1 Dữ liệu nghiên cứu
Dữ liệu nghiên cứu trong báo cáo là số liệu mưa bình quân tháng tại các trạm đo mưa do Đài khí tượng thủy văn Nam Bộ cung cấp Thời gian có số liệu tại các trạm được trình bày ở Bảng 1 Các điểm thu kết quả quan trắc được biểu diễn qua bản đồ Hình 1:
Trang 4Hình 1 Vị trí các điểm thu kết quả quan trắc mưa
3.2 Phương pháp nghiên cứu
3.2.1 Phương pháp Modified Z - Scores [3]
Sử dụng phương pháp Modified Z - Scores [3] để phát hiện những giá trị đo đạc bất thường
(quá lớn hoặc quá nhỏ) trong chuỗi dữ liệu thô
Các bước thực hiện:
B1: Tìm trung vị của độ lệch tuyệt đối (MAD)
MAD = median {|xi − ̅|}, ̅ là trung bình của chuỗi số B2: Tính độ khác biệt giữa các biến số:
Mi = 0,6745 ̅
B3: Nếu | Mi | > 3,5 thì xi là điểm bất thường
3.2.2 Phương pháp thử dần
Tiến hành đánh giá tính đồng nhất cho các trạm trong 1 tỉnh, sau đó đánh giá tính đồng nhất của chuỗi số liệu của các tỉnh lân cận dựa vào giá trị bình quân của các giá trị bình quân mưa nhiều
năm của các trạm (Xtbtb)
3.2.3 Phương pháp phân tích phương sai theo 1 dấu hiệu [1]
3.2.3.1 Một số khái niệm liên quan
a Giả thiết không (Null Hypothesis - Ho)
Giả thiết Ho là giả thiết ban đầu đưa ra để kiểm định Thường giả thiết thiên về sự công nhận
Trang 5b Mức ý nghĩa ( )
Mức ý nghĩa là xác suất khi loại bỏ không chính xác giả thiết Ho, hay còn gọi là xác suất sai lầm loại 1 Ngược lại với mức ý nghĩa là mức tin cậy: = 1 - Giá trị càng nhỏ thì mức tin cậy càng lớn
c Miền tới hạn - Biên tới hạn
Miền tới hạn: Là miền tập hợp các giá trị xác định theo chỉ tiêu kiểm định và mức ý nghĩa, nếu giá trị tính toán rơi vào miền này thì giả thiết Ho bị bác bỏ
Biên tới hạn (Fth): Là ngưỡng giá trị cho phép của Ftt để chấp nhận giả thiết Ho
3.2.3.2 Quy trình phân tích
a Quy trình phân tích
Chọn chuỗi dữ liệu mưa năm từ năm 1999 - 2015 của các trạm đo mưa ở ĐBSCL làm chuỗi dữ liệu nghiên cứu, các bước phân tích kiểm định tính đồng nhất của chuỗi dữ liệu được tiến hành theo từng bước (B) sau:
- B1: Xác lập giả thiết H o
Chọn giá trị trung bình (Xtbtb) của các giá trị trung bình mưa (Xtb) các trạm từ năm 1999-
2015 làm giả thiết là Ho, giả thiết xu thế hội tụ của chuỗi số tiến gần về Xtbtb, khẳng định rằng không có sự khác biệt giữa các giá trị Xtb với giá trị Xtbtb
- B2: Chọn mức ý nghĩa ờng chọn 1, 2, 5 và 10 %) [2]
Chọn 0,05 = 5 % Mức ý nghĩa này cho độ tin cậy là 95 %, có nghĩa là đang chấp nhận sai sót 5 % khi loại bỏ không chính xác giả thiết Ho trường hợp Ho đúng Ngoài ra, mức ý nghĩa còn cho thấy rằng việc chấp nhận có 5 % số liệu Xtb trong chuỗi có sự sai khác với giả thiết Ho (Xtbtb)
- B3: Xác định miền tới hạn và biên tới hạn dựa vào dạng phân bố của chỉ tiêu và mức ý nghĩa
Sử dụng bảng tra Fisher [2] và mức ý nghĩa đã chọn để xác định Fth
- B4: Tính chỉ tiêu thống kê theo tài liệu quan trắc (Ftt) [1]
n-k, k-1: các bậc tự do
k: tổng số lớp, lưu vực
ni: số năm quan trắc trong mỗi lớp i
∑ ̅ ̅
: Tổng bình phương giữa các lớp
∑ ∑ ̅
: Tổng bình phương nội bộ các lớp
- B5: So sánh Ftt với biên tới hạn (Fth) và kết luận chấp nhận hay loại bỏ giả thiết H o
Nếu Ftt < Fth thì chấp nhận giả thiết Ho và ngược lại bác bỏ giả thiết Ho
b Quy trình đánh giá tính đồng nhất của chuỗi số liệu mưa năm (1999 - 2015) của một số trạm
ở ĐBSCL (thuộc nhóm đồng nhất thứ 4)
(Các trạm còn lại được tiến hành phân tích tương tự và kết quả được thống kê ở mục 4.1)
F
tt
= 𝒏 𝒌 ∑ 𝒏𝒊 𝑿̅𝒊 𝑿̅ 𝟐
𝒊 𝒌
𝒊 𝟏
𝒌 𝟏 ∑ ∑𝒋 𝒏𝒊 𝑿𝒊𝒋 𝑿̅𝒊 𝟐
𝒋 𝟏
𝒊 𝒌
𝒊 𝟏
Trang 6Bảng 2 Chuỗi số liệu mưa năm (1999 - 2015) của một số trạm ở ĐBSCL
(thuộc nhóm đồng nhất thứ 4)
STT Trạm Năm Xẻo Rô
An Minh
An Biên
Sông Đốc
Năm Căn MauCà
U Minh
NT
U Minh
Trần Văn Thời
Thới Bình
Viễn
An Đông
B1: Gọi Ho là giá trị bình quân mưa nhiều năm (1999 - 2015) của 11 trạm trong Bảng 2 Xtb.tb
= 2373
B2: Chọn mức ý nghĩa = 0,05
B3: Xác định Fth dựa vào bảng tra Fisher và mức ý nghĩa = 0,05 Thu được: Fth = 3,97 B4: Xác định Ftt dựa vào số liệu quan trắc:
- Đầu tiên, tính Tổng bình phương giữa các lớp:
- Sau đó, xác định Tổng bình phương nội bộ các lớp:
∑𝒊 𝒌𝒏𝒊 𝑿̅𝒊 𝑿̅ 𝟐
∑ ∑𝒋 𝒏𝒊 𝑿𝒊𝒋 𝑿̅𝒊 𝟐
𝒋 𝟏
𝒊 𝒌
Trang 7- Cuối cùng, thu được: F tt = ∑ ̅ ̅
∑ ∑ ̅ = 0,92 B5: Nhận thấy F tt < F th nên giả thiết Ho được chấp nhận, chuỗi số liệu đồng nhất
3.2.4 Phương pháp GIS (Geographic Information S stem)
3.2.4.1 Xây dựng dữ liệu không gian
Sử dụng phần mềm Mapinfo xây dựng:
* Nhóm lớp nền chung: Lớp hành chính, lớp vị trí (các trạm đo mưa), lớp thủy văn
* Nhóm chuyên đề: Lớp đường đồng mức lượng mưa bình quân năm của các trạm đo mưa trong khu vực nghiên cứu
3.2.4.2 Xây dựng dữ liệu thuộc tính
Với mỗi lớp dữ liệu không gian trong Mapinfo sẽ có một bảng thuộc tính đi kèm Từ đó tiến hành xây dựng dữ liệu thuộc tính cho các trạm đo mưa, phục vụ cho công việc vẽ đường đồng mức sau này
4 KẾT QUẢ VÀ THẢO LUẬN 4.1 Kết quả đánh giá tính đồng nhất và phân vùng đồng nhất
Sau khi kiểm định tính đồng nhất chuỗi dữ liệu mưa bình quân nhiều năm các trạm tại ĐBSCL kết quả thu được 6 nhóm vùng đồng nhất, các bước thực hiện phân tích dữ liệu theo phương pháp Phân tích phương sai theo 1 dấu hiệu được tóm tắt và thể hiện trong 6 bảng tương ứng với 6 nhóm dưới đây:
Bảng 1 Nhóm đồng nhất số liệu mưa thứ 1
Trang 8STT Tên trạm Xtb
Đồng nhất
Bảng 2 Nhóm đồng nhất số liệu mưa thứ 2
Đồng nhất
Bảng 3 Nhóm đồng nhất số liệu mưa thứ 3
B5 Kết luận Đồng nhất Ftt < Fth
Bảng 4 Nhóm đồng nhất số liệu mưa thứ 4
Đồng nhất
Trang 9Bảng 5 Nhóm đồng nhất số liệu mưa thứ 5
Đồng nhất
Bảng 6 Nhóm đồng nhất số liệu mưa thứ 6
Đồng nhất
Trong quá trình kiểm định, trong chuỗi dữ liệu mưa bình quân nhiều năm (1999 - 2015) có xuất hiện một số giá trị bất thường nên cần tiến hành loại bỏ các giá trị đó ra khỏi chuỗi để đảm bảo tính đồng nhất cho chuỗi dữ liệu Sử dụng phương pháp Modified Z - Scores tìm được các trạm cần được loại bỏ ra khỏi chuỗi kiểm định gồm: Giồng Trôm, Phú Tân
+ Giồng Trôm: Trạm Giồng Trôm thuộc tỉnh Bến Tre, có lượng mưa bình quân nhiều năm
(1999 - 2015) là Xtb = 1873 trong khi các trạm lân cận Xtb chỉ dao động từ 1400 đến trên 1600 Bởi
vì sự sai khác quá lớn của lượng mưa bình quân nhiều năm của trạm Giồng Trôm so với các trạm lân cận nên cần loại bỏ trạm Giồng Trôm để đảm bảo tính đồng nhất của chuỗi dữ liệu
Chuỗi dữ liệu tính toán gồm lượng mưa bình quân nhiều năm (1999 - 2015) của 25 trạm lân cận trạm Phú Tân, bao gồm: Giồng Trôm (1873 mm), Chợ Lách (1477 mm), Bình Đại (1494 mm), Bến Trại (1547 mm), Ba Tri (1561 mm), Hương Mỹ (1637 mm), Bến Tre (1529 mm), Hòa Bình (1448 mm) vàm Kênh (1511 mm), Long Định (1514 mm), Cai Lậy (1457 mm), Gò Công Đông (1498 mm), Mỹ Phước (1411 mm), Hậu Mỹ Bắc (1686 mm), Cái Bè (1447 mm), Chợ Gạo (1513 mm), Phú Mỹ (1527 mm), Tân An (1561 mm), Kiến Bình (1502 mm), Mộc Hóa (1651 mm), Tuyên Nhơn (1466 mm), Bến Lức (1669 mm), Cần Đước (1469 mm), Đức Hòa (1561 mm), Vĩnh Hưng (1466 mm)
Kết quả tính toán theo phương pháp Modified Z - Scores được trình bày theo các bước như sau:
B1: Tìm trung vị của độ lệch tuyệt đối (MAD)
MAD = median {|xi − ̅|} = 62 (mm), ̅ = 1539 (mm) là trung bình của chuỗi số B2: Tính độ khác biệt giữa các biến số:
Mi = 0,6745 ̅
B3: Nhận thấy tính toán cho trạm Giồng Trôm có | Mi | = 3,51 > 3,5, kết luận rằng giá trị lượng mưa bình quân nhiều năm tại trạm Giồng Trôm là giá trị bất thường cần loại bỏ khỏi chuỗi tính toán
+ Phú Tân: Trạm Phú Tân là trạm nằm ở tỉnh Cà Mau, có lượng mưa bình quân nhiều năm
(1999 - 2015) là Xtb = 1535 trong khi các trạm lân cận có Xtb>1800 Giá trị Xtb của trạm Phú Tân quá nhỏ so với toàn bộ Xtb của các trạm lân cận nó, cho nên cần tiến hành loại bỏ trạm Phú Tân ra khỏi chuỗi dữ liệu để đảm bảo tính đồng nhất cho chuỗi
Trang 10Chuỗi dữ liệu tính toán gồm lượng mưa bình quân nhiều năm (1999 - 2015) của 18 trạm lân cận trạm Phú Tân, bao gồm: Rạch Giá (2194 mm), Gò Quao (2040 mm), Hà Tiên (2081 mm), Kiên Lương (2178 mm), Vĩnh Hòa Hưng (1965 mm), Vĩnh Thuận (2117 mm), Giồng Riêng (1918 mm), Hòn Đất (Tri Tôn) (1915 mm), Cái Nước (2220 mm), Đầm Dơi (1889 mm), Phú Tân (1536mm), Vị Thanh (1971 mm), Phước Long (2073 mm), Gành Hào (1948 mm), Bạc Liêu (2067 mm), Giá Rai (2070 mm), Ngan Dừa (1941 mm), Sóc Trăng (1915 mm) Kết quả tính toán theo phương pháp Modified Z - Scores được trình bày theo các bước như sau:
B1: Tìm trung vị của độ lệch tuyệt đối (MAD)
MAD = median {|xi − ̅|} = 81 (mm), ̅ = 2002 (mm) là trung bình của chuỗi số B2: Tính độ khác biệt giữa các biến số:
Mi = 0.6745 ̅
B3: Nhận thấy tính toán cho trạm Phú Tân có| Mi | = 3,71 > 3,5, kết luận rằng giá trị lượng mưa bình quân nhiều năm tại trạm Phú Tân là giá trị bất thường cần loại bỏ khỏi chuỗi tính toán
- Ngoài ra, đối với Thổ Chu, Phú Quốc là 2 trạm đảo có đặc điểm mưa khác với các trạm trong đất liền nên không tiến hành phân vùng chung với các trạm đất liền
4.2 Kết quả sử dụng phần mềm Mapinfo thể hiện vùng đồng nhất trên bản đồ
Nhằm kiểm tra lại tính chính xác của kết quả kiểm định bằng phương pháp thống kê, tiến hành khoanh vùng các nhóm điểm đồng nhất với nhau trên Mapinfo và thành lập bản đồ đường đồng mức lượng mưa bình quân nhiều năm các trạm đo mưa tại ĐBSCL Các kết quả trên Mapinfo được thể hiện trong Hình 2 và Hình 3
Hình 2 Khoanh vùng đồng nhất lượng mưa bình quân nhiều năm các trạm ở ĐBSCL
(1999 - 2015)
Trang 11Hình 3 Biểu đồ đường đồng mức lượng mưa bình quân nhiều năm các trạm ở ĐBSCL
(1999 - 2015)
Hình 2 là hình thể hiện 6 nhóm vùng đồng nhất theo kết quả kiểm định Các nhóm đồng nhất
có Xtbtb tăng dần theo hướng từ Biển Tây sang Biển Đông (nhóm 4 - nhóm 3 - nhóm 5 - nhóm 2 - nhóm 1 - nhóm 6)
Hình 3 là Biểu đồ đường đồng mức lượng mưa bình quân nhiều năm các trạm ở ĐBSCL (1999-2015) cho thấy rằng lượng mưa ở ĐBSCL tăng dần theo không gian hướng từ Biển Tây sang Biển Đông
5 KẾT LUẬN
Kết quả kiểm định tính đồng nhất bằng phương pháp phân tích phương sai theo 1 dấu hiệu phân chia các trạm đo mưa ở ĐBSCL thành 6 vùng đồng nhất về số liệu mưa bình quân nhiều năm (1999-2015)
Bằng việc sử dụng phương pháp Modified Z - Scores đã phát hiện ra có 2 trạm không phù hợp
và cần được loại bỏ ra khỏi chuỗi kiểm định là trạm Giồng Trôm và Phú Tân
Hiệu quả của việc sử dụng GIS xây dựng Biểu đồ đường đồng mức lượng mưa bình quân nhiều năm các trạm ở ĐBSCL (1999-2015), cho hình ảnh trực quan về quy luật phân bố mưa tại ĐBSCL
Đối chiếu kết quả kiểm định tính đồng nhất và biểu đồ đường đồng mức lượng mưa bình quân ĐBSCL khá trùng khớp, thấy rằng lượng mưa ở ĐBSCL chia làm 3 khu vực rõ rệt và giảm dần theo không gian hướng từ Biển Tây sang Biển Đông đúng với điều kiện hoạt động của gió mùa Tây Nam, nguyên nhân chính hình thành mưa ở khu vực này
Trang 12Kết quả đã đáp ứng được yêu cầu chuẩn hóa dữ liệu theo không và thời gian nhằm tránh các trường hợp sai số trong nghiên cứu và tính toán liên quan đến dữ liệu mưa ở ĐBSCL về sau
TÀI LIỆU THAM KHẢO
1 Ngô Đình Tuấn - Tập Bài giảng Phân tích thống kê trong thủy văn Nxb Nông nghiệp, 1998
2 Nguyễn Hữu Khải - Phân tích thống kê trong thủy văn Giáo trình ĐHKHTN, 2008
3 How to Detect and Handle Outlier - Boris Iglewicz, David Caster Hoaglin ASQC Quality Press, 1993
4 Web Hệ thống thông tin địa lý - http://mgis.vn
5 Đài Khí tượng - thủy văn Khu vực Nam Bộ - Số liệu khí tượng
APPLY STATISTICAL ANALYSIS AND GIS TO IDENTIFY DATA CONSOLIDATION
OF RAINFALL IN MEKONG DELTA Pham Linh Chi 1 , Pham Thi Bich Thuc 2
1
Department Hydro-Meteorology, Ho Chi Minh City University of Natural resources
and Environment
2
Department Water Resources, Ho Chi Minh Institute of Resources Geography
Email:linhchi2111@gmail.com
ABSTRACT
The paper introduced one-way analysis of variance, statistical methods of analysis and geographic information system (GIS) to identify and delineate the data consolidation of the average yearly rainfall data for many years in Mekong Delta According to the rain data were collected in years 1999 to 2015 The results achieved using statistical methods of analysis and GIS accord with objective reality, with 6 areas of rainfall data consolidated and have a good agreement with Southest monsoon activity in Mekong Delta
Keywords: Statistical methods of analysis, uniform area, GIS, rainfall data, Mekong Delta