Bài viết Phân tích lựa chọn hàm phân phối xác suất cho dữ liệu mưa thuộc lưu vực sông Cái tỉnh Ninh Thuận kiến nghị rằng hàm PPXS P3 nên lựa chọn như là mặc định khi tính toán tần suất mưa tại lưu vực sông Cái. Bên cạnh đó, nghiên cứu cũng chỉ ra rằng nên kết hợp cả hai phương pháp đồ thị và chỉ tiêu để thống kê để lựa chọn hàm PPXS phù hợp nhất cho chuỗi số liệu thực đo.
Trang 1PHÂN TÍCH LỰA CHỌN HÀM PHÂN PHỐI XÁC SUẤT
CHO DỮ LIỆU MƯA THUỘC LƯU VỰC SÔNG CÁI
TỈNH NINH THUẬN
Đặng Đồng Nguyên1, Triệu Ánh Ngọc1, Đỗ Văn Đạo1, Nguyễn Đăng Tâm1
1 Cơ sở 2 Đại học Thuỷ lợi, email: nguyendd@tlu.edu.vn
1 GIỚI THIỆU CHUNG
Kết quả từ việc phân tích tần suất mưa sẽ
được phục vụ cho rất nhiều công việc khác
nhau (ví dụ, quy hoạch và quản lý hệ thống
thuỷ lợi, thiết kế công trình, v.v ) Việc lựa
chọn phân phối xác suất (PPXS) không phù
hợp sẽ ảnh hưởng rất nhiều đến kết quả tần
suất mưa Ví dụ như giá trị cường độ mưa
thiết kế có thể lệch rất nhiều so với giá trị thực
đo (thiên lớn hoặc thiên bé) Đặc trưng số liệu
mưa của các lưu vực khác nhau thì sẽ có
những hàm PPXS phù hợp khác nhau Do đó,
lựa chọn phân phối xác suất mô tả tốt nhất số
liệu mưa thực đo cần phải phân tích lựa chọn
từ nhiều dạng hàm PPXS khác nhau
Lưu vực sông Cái là một trong những vùng
có đặc điểm khí hậu khắc nghiệt so với các
lưu vực sông khác Chế độ mưa biến đổi rất
mạnh theo không gian và thời gian Vùng phía
ven biển và đồng bằng thì có lượng mưa
tương đối ít Trong khi đó vùng núi lại có mưa
lớn và thường xuyên gây ra lũ cho lưu vực
Do đó việc lựa chọn hàm PPXS đặc trưng cho
từng vùng của lưu vực sông sẽ có ý nghĩa
quan trọng trong việc quy hoạch và quản lý hệ
thống công trình thuỷ lợi cho toàn lưu vực
Trong nghiên cứu này, nhiều hàm PPXS sẽ
được lựa chọn đánh giá để lựa ra hàm phù
hợp nhất cho từng vùng dựa vào các chỉ tiêu
thống kế (AIC, BIC và ADC) và phương
pháp đồ thị (PP, QQ, CDF và PDF)
2 VÙNG NGHIÊN CỨU VÀ DỮ LIỆU
2.1 Vùng nghiên cứu
Lưu vực Sông Cái thuộc tỉnh Ninh Thuận
Sông dài L = 119 km, chiều rộng trung bình
lưu vực Btb = 31,6km và diện tích lưu vực tính đến cửa sông F = 3,043km2 Nhìn chung, hệ thống sông suối có lưu vực nhỏ, sông hẹp và ngắn Do đặc điểm địa hình, lượng mưa phân
bố không đều trong lưu vực và có xu hướng giảm dần từ vùng núi cao xuống đồng bằng ven biển Lượng mưa 1 ngày lớn nhất đạt 321,8mm tại Phan Rang, tại Tân Mỹ đạt 325,2mm và tại Khánh Sơn đạt 360mm Lượng mưa này đã gây lũ lớn trong lưu vực (Hình 1)
100 200 300
1990 2000 2010
Nam
m) Tram Do Mua
Bathap Phanrang Nhiha Tanmy Songpha Khanhson Quanthe Cana
Hình 1 Boxplot mưa một ngày lớn nhất
cho tất cả các trạm
2.2 Dữ liệu
Dữ liệu mưa ngày từ các trạm đo mưa Phan Rang, Nhị Hà, Ba Tháp, Tân Mỹ, Sông Pha, Khánh Sơn, Quán Thẻ và Cà Ná sẽ được dùng để phân tích trong nghiên cứu này
3 PHƯƠNG PHÁP NGHIÊN CỨU 3.1 Các hàm phân phối xác suất
Các hàm PPXS sẽ được sử dụng trong nghiên cứu này bao gồm: hàm giá trị cực hạn tổng quát (Generalized Extreme Value: GEV), hàm phân phối logarit chuẩn tổng quát (Generalized Log-Normal: LN), hàm giá trị cực hạn loại I (GUMBEL), Pearson loại 3
Trang 2(P3) và hàm phân phối chuẩn (Normal) Đây
là những hàm PPXS hay được sử dụng khi
phân tích tần suất thuỷ văn trong nước cũng
như trên thế giới (Bezak, Brilly et al 2014,
Cheng, AghaKouchak et al 2014, Chí Công
2017, Trường Huy, Hoàng Lâm et al 2017)
3.2 Phương pháp ước lượng các tham
số thống kê
Có rất nhiều phương pháp để ước lượng các
tham số thống kê của hàm PPXS Method of
Moment, L-moments và Maximum Likelihood
(ML) được sử dụng phổ biến trên thế giới
Trong nghiên cứu này, ML được sử dụng để
ước lượng các tham số thống kê bởi vì phương
pháp này cho kết quả tốt với những chuỗi dữ
liệu ngắn và các tham số ước lượng thường
phù hợp với phân phối chuẩn Thêm vào đó,
ML cũng dễ dàng tính toán so với các phương
pháp khác (Strupczewski, Singh et al 2001)
3.3 Phương pháp lựa chọn hàm PPXS
phù hợp
Để đánh giá lựa chọn hàm PPXS phù hợp
với dữ liệu thực đo thì phương pháp so sánh
trực quan bằng đồ thị (Probability-Probability
(PP), Quantile-Quantile (QQ), Cumulative
Distribution Function (CDF) và Probability
Density Function (PDF)) hay được sử dụng
Bên cạnh đó, các tiêu chí thống kê thường
dùng như Akaike Information criterion (AIC),
Bayesian Information Criteria (BIC) và
Anderson-Darling Criteria (ADC) cũng hay
được sử dụng để lựa chọn hàm PPXS phù hợp
nhất (Di Baldassarre, Laio et al 2009) Mô
hình tốt nhất được chọn với giá trị AIC, BIC và
ADC nhỏ nhất Chi tiết về công thức xác định
các tiêu chí thống kê được trình bày ở Bảng 1
Bảng 1 Công thức xác định
các chỉ tiêu thống kê
BIC BIC 2 logL |X ln N 2k
ADC
0.861 ,
i
j
j
ADC
,
1.2 i AD j
0.2
i
i j
ADC
nếu 1.2 i AD j,
AIC AIC 2 logL |X 2k
N là số lượng mẫu, k là số lượng tham số,
L (|X) hàm lớn nhất khả năng i, j và j là
hệ số phụ thuộc
4 KẾT QUẢ NGHIÊN CỨU
Số liệu tại trạm Ba Tháp cho thấy rằng xét
về mức độ phù hợp của đường kinh nghiệm
và tần suất tích luỹ cũng như là hàm mật độ xác suất thì phân phối P3 bám sát các điểm kinh nghiệm so với các hàm PPXS còn lại (Hình 2) Tương tự như vậy, các đồ thị PP và
QQ thì hàm PPXS P3 cũng cho kết quả tốt hơn so với các hàm PPXS khác
50 100 150 200 250
Empirical and theoretical CDFs
data
GEV GUMBEL Normal
Histogram and theoretical densities
data
50 100 150 200 250
P3 GEV GUMBEL Normal
Q-Q plot
Theoretical quantiles
P3 GEV GUMBEL Normal
0.0 0.2 0.4 0.6 0.8 1.0
P-P plot
Theoretical probabilities
P3 GEV GUMBEL Normal
Hình 2 So sánh biểu đồ các hàm PPXS
tại trạm Ba Tháp
Mặc dù, lựa chọn hàm PPXS bằng đồ thị
có ưu điểm là cung cấp biểu đồ trực quan cho người đọc xem xét và so sánh để lựa chọn hàm PPXS phù hợp nhất Tuy nhiên, có nhiều trường hợp kết quả tính toán so sánh giữa các hàm PPXS là rất nhỏ rất khó khăn nếu chỉ căn cứ dựa trên bằng đồ thị Ví dụ, tại trạm
Cà Ná, chỉ có hàm PPXS Normal cho kết quả không tốt với tất cả các hàm còn lại (Hình 3) Tuy nhiên lại rất khó để so sánh và lựa chọn hàm PPXS còn lại (GUMBEL, P3, LN và GEV) Do đó các hàm chỉ tiêu thống kê cũng nên áp dụng song song cùng với phương pháp bằng đồ thị để lựa chọn hàm tốt nhất Kết quả tính toán chỉ ra rằng hàm PPXS Pearson 3 được xem là phù hợp nhất cho hầu hết số liệu đo mưa trên lưu vực sông Cái (Ba Tháp, Phan Rang, Nhị Hà, Tân Mỹ, Quán Thể
và Cà Ná) LN được cho là phù hợp với số liệu đo mưa tại trạm Sông Pha và Khánh Sơn
Trang 350 100 150 200 250 300
Empirical and theoretical CDFs
data
GEV GUMBEL Normal
Histogram and theoretical densities
data
50 100 150 200 250 300
P3 GEV GUMBEL Normal
0 50 100 150 200 250
Q-Q plot
Theoretical quantiles
P3 GEV GUMBEL Normal
0.0 0.2 0.4 0.6 0.8 1.0
P-P plot
Theoretical probabilities
P3 GEV GUMBEL Normal
Hình 3 So sánh biểu đồ các hàm PPXS
tại trạm Cà Ná
Ba tiêu chí thống kê (AIC, BIC và ADC)
đưa ra kết quả hàm PPXS phù hợp nhất gần
như giống nhau (Bảng 2) Do vậy trong
nghiên cứu này chúng tôi lựa chọn AIC như
là chỉ tiêu thống kê chính để tìm hàm PPXS
phù hợp nhất
Bảng 2 Tổng hợp các tiêu chí thống kê
(AIC, BIC, ADC) của các trạm mưa
PPXS
AIC BIC ADC AIC BIC ADC
GEV 350.4 354.8 0.032 332.6 337 0.151
GUMBEL 349.9 352.8 0.082 339.3 342.2 0.777
PPXS
AIC BIC ADC AIC BIC ADC
GEV 328.2 332.6 0.201 362.7 367.1 0.161
GUMBEL 326.5 329.5 0.202 360.8 363.8 0.121
PPXS
AIC BIC ADC AIC BIC ADC
GEV 322.2 326.6 0.127 345.5 349.9 0.103
GUMBEL 324.9 327.9 0.208 348.3 351.2 0.566
PPXS
AIC BIC ADC AIC BIC ADC
GEV 330.8 335.2 0.206 327.1 331.5 0.080
GUMBEL 330.2 333.2 0.132 328.4 331.3 0.188
5 KẾT LUẬN
Các chỉ tiêu thống kê (AIC, BIC và ADC) cùng với phương pháp bằng đồ thị được sử dụng để lựa chọn hàm PPXS phù hợp nhất cho
dữ liệu mưa thuộc lưu vực sông Cái Kết quả chỉ ra rằng chỉ có P3 và LN trong 5 hàm PPXS được xem xét là phù hợp nhất cho lưu vực sông Cái Tuy nhiên, hàm PPXS P3 được xem xét là phù hợp với nhiều số liệu mưa nhất (6 trên 8 trạm) Do đó, nghiên cứu này kiến nghị rằng hàm PPXS P3 nên lựa chọn như là mặc định khi tính toán tần suất mưa tại lưu vực sông Cái Bên cạnh đó, nghiên cứu cũng chỉ ra rằng nên kết hợp cả hai phương pháp đồ thị và chỉ tiêu để thống kê để lựa chọn hàm PPXS phù hợp nhất cho chuỗi số liệu thực đo
6 TÀI LIỆU THAM KHẢO
[1] Bezak, N., et al (2014) "Comparison between the peaks-over-threshold method and the annual maximum method for flood frequency analysis." 59(5): 959-977
[2] Cheng, L., et al (2014) "Non-stationary extreme value analysis in a changing climate." 127(2): 353-369
[3] Chí Công, N (2017) "Xây dựng bản đồ mưa ngày lớn nhất cho tỉnh Quảng Nam dựa trên phân tích tần suất mưa vùng và suy luận Bayesian." Tạp chí Khoa học kỹ thuật Thuỷ lợi và Môi trường(56): 65
[4] Di Baldassarre, G., et al (2009) "Design flood estimation using model selection criteria." 34(10-12): 606-611
[5] Strupczewski, W G., et al (2001) "Non-stationary approach to at-site flood frequency modelling I Maximum likelihood estimation." Journal of Hydrology 248(1): 123-142
[6] Trường Huy, N., et al (2017) "Chọn hàm phân phối xác suất đại diện cho phân phối mưa 1 ngày Max ở Việt Nam." Tạp chí Khoa học kỹ thuật Thuỷ lợi và Môi trường(56): 72