Các đặc tính thường được mô tả baogồm: giá trị trung tâm của dữ liệu, giá trị của độ rộng hay độ biến động , phân phối đốixứng của dữ liệu và có lẽ ước tính về các cực trị, chẳng hạn như
Trang 15 Nguyễn Thị Thùy Dương
6 Huỳnh Lê Khoa
Trang 2Chương 1 Tổng hợp dữ liệu
Khi xác định cách phân tích thích hợp bất kỳ tập hợp dữ liệu nào, điều đầu tiên cần cânnhắc phải là đặc tính của chính các số liệu Một số ít có được bằng cách sử dụng phântích các thủ tục, cái mà giả định rằng dữ liệu có các đặc điểm mà trên thực tế chúngkhông có Các kết quả của những giả định sai như vậy có thể là các diễn giải đượccung cấp bởi phân tích là không chính xác, hoặc không đi đến kết luận một cách khôngcần thiết Do đó, chúng tôi bắt đầu cuốn sách này với một cuộc thảo luận về đặc điểmchung của dữ liệu tài nguyên nước Những đặc điểm này sẽ xác định lựa chọn các thủtục phân tích dữ liệu thích hợp
Một trong những công việc thường xuyên nhất khi phân tích dữ liệu là mô tả và tómtắt những dữ liệu đó trong các hình thức truyền tải các đặc tính quan trọng của chúng
“Nồng độ sunfat mà người ta có thể mong đợi trong lượng mưa tại vị trí này là baonhiêu”? “ Độ dẫn điện của thủy lực thay đổi như thế nào”? “Trận lụt 100 năm” (phân
vị thứ 99 của cực đại lũ lụt hàng năm)? Uớc tính các thống kê này và các tóm tắttương tự là cách cơ bản để hiểu được dữ liệu Các đặc tính thường được mô tả baogồm: giá trị trung tâm của dữ liệu, giá trị của độ rộng hay độ biến động , phân phối đốixứng của dữ liệu và có lẽ ước tính về các cực trị, chẳng hạn như ước tính một phân vịlớn hoặc nhỏ Trong chương này thảo luận về các phương pháp tóm tắt hoặc mô tả dữliệu
Chương đầu tiên này cũng nhanh chóng thể hiện một trong những chủ đề chính củacuốn sách - Việc sử dụng các kỹ thuật bền vững và chắc chắn Những lý do tại saongười ta có thể thích sử dụng một thước đo bền vững, chẳng hạn như trung vị, trên cảmột thước đo điển hình hơn như giá trị trung bình, đã được giải thích
Trang 3Nhóm 2
2
Dữ liệu về một bản tính toán hoặc bảng tóm tắt sẽ được thực hiện được gọi là tổng thể,hoặc đôi khi là mục tiêu tổng thể Đây có thể là nồng độ trong tất cả các nguồn nướccủa tầng ngậm nước hoặc phạm vi tiếp cận luồng hoặc tất cả các luồng chảy theo thờigian tại một địa điểm cụ thể Hiếm khi tất cả dữ liệu như vậy có sẵn cho các nhà khoahọc Có lẽ không thể thu thập tất cả dữ liệu quan tâm (tất cả nước trong dòng chảytrong thời gian nghiên cứu), hoặc có thể không thể thu các dữ liệu của chúng về mặttài chính Thay vào đó, một tập hợp con của dữ liệu được gọi là mẫu được chọn và đolường theo cách kết luận về mẫu có thể được mở rộng cho tổng thể Số liệu thống kêđược tính toán từ mẫu chỉ là những suy luận hoặc ước tính về các đặc tính của tổngthể, chẳng hạn như vị trí, độ lan truyền và độ lệch Các phép đo vị trí thường là trungbình của mẫu và trung vị mẫu Các phép đo độ chênh lệch bao gồm độ lệch chuẩn củamẫu và tứ phân vị Việc sử dụng thuật ngữ "mẫu" trước mỗi thống kê chứng minh rõràng rằng những ước tính giá trị tổng thể, số trung vị hoặc trung bình tổng thể, Vìcác ước tính mẫu phổ biến hơn thước đo dựa trên tổng thể Thuật ngữ “số trung bình”nên được hiểu là “trung bình mẫu”, và tương tự đối với các số liệu thống kê khác được
sử dụng trong cuốn sách này Khi các giá trị tổng thể được xem xét, chúng sẽ đượctrình bày rõ ràng như vậy
1.1 Đặc điểm của dữ liệu tài nguyên nước
Dữ liệu do nhà khoa học tài nguyên nước phân tích thường có các đặc điểm sau
1 Giới hạn dưới của số không Không thể có giá trị âm
2 Sự hiện diện của 'các ngoại biên,theo các quan sát cao hơn hoặc thấp hơn đáng
kể so với hầu hết các dữ liệu Các giá trị ngoại lai ở phía cao thường gặp hơn trongnước tài nguyên
3 Độ lệch dương, do các mục 1 và 2 Một ví dụ về phân phối lệch, phân phối xácsuất loga chuẩn, được trình bày trong hình 1.1 Giá trị của một quan sát trên trục hoànhđược vẽ dựa trên tần suất xuất hiện giá trị đó Các hàm mật độ giống như biểu đồ củacác tập dữ liệu lớn mà các thanh của nó trở nên hẹp vô hạn Có thể mong đợi độ lệchkhi các giá trị ngoại lai chỉ xảy ra theo một hướng
4 Phân phối dữ liệu không chuẩn tắc, do các mục 1-3 ở trên Hình 1.2 cho thấymột phân phối đối xứng Trong khi nhiều thử nghiệm thống kê giả định dữ liệu tuântheo phân phối chuẩn như trong hình 1.2, dữ liệu tài nguyên nước thường giống như
Trang 4cũng như phân phối không chuẩn.
6 Dữ liệu được báo cáo chỉ dưới hoặc trên một số ngưỡng (dữ liệu được kiểmduyệt) Những ví dụ bao gồm nồng độ dưới một hoặc nhiều giới hạn phát hiện, các giaiđoạn lũ lụt hàng năm chỉ được biết đến là thấp hơn mức có thể đã gây ra một kỷ lụccông khai về lũ lụt, và đường dẫn nước chỉ được biết đến ở trên bề mặt đất (GiếngArtesian trên bản đồ cũ)
7 Các mẫu theo mùa Giá trị có xu hướng cao hơn hoặc thấp hơn trong một sốphạm vi nhất định trong năm
8 Tự tương quan chuỗi Các quan sát liên tiếp có xu hướng tương quan chặt chẽvới nhau Đối với loại tự tương quan phổ biến nhất trong tài nguyên nước (tương quanđồng biến), giá trị cao có xu hướng theo giá trị cao và giá trị thấp có xu hướng theo giátrị thấp
9 Sự phụ thuộc vào các biến không kiểm soát khác Giá trị đồng biến mạnh mẽvới dòng chảy nước, độ dẫn thủy lực, kích thước hạt, hoặc một số biến số khác
10 Phương pháp phân tích dữ liệu nguồn nước, liệu các phương pháp tóm tắt đơngiản
như những gì đã nêu trong chương này, hoặc các quy trình phức tạp hơn của cácchương sau, cần hiểu ra những đặc điểm chung này
1.2 Các đơn vị đo về vị trí
11 Giá trị trung bình và trung vị là hai thước đo vị trí được sử dụng phổ biến nhất,
chúng không phải là thước đo duy nhất có sẵn Các tính chất của hai đơn vị đo này là
gì, và khi nào thì nên sử dụng đơn vị này thay vì đơn vị kia?
1.2.1 Đơn vị đo cổ điển - Giá trị trung bình
12 Giá trị trung bình mẫu (X) được tính bằng tổng của tất cả các lượng biến X i, chiacho
số đơn vị tổng thể n :
Trang 5Nhóm 2
Trang 6
[1-15.Đối với dữ liệu thuộc một trong k nhóm, phương trình [1.1] cóthể được viết lại
để chỉ
ra rằng giá trị trung bình tổng thể phụthuộc vào giá trị trungbình của mỗinhóm, cótrọng sốbởi số lần quan sát giá trị n
i ,
trong mỗi nhóm:
Trang 7Nhóm 2
(j) của nó hơn
[1-3]
Trang 822.
23
24 Hình 1-2 Hàm mật độ của phân phối chuẩn
25 Một cách khác để minh họa ảnh hưởng này là nhận ra rằng giá trị trung bình làđiểm
cân bằng của dữ liệu, khi mỗi điểm được xếp chồng lên nhau trên một đường số (hình1.3a) Các điểm dữ liệu xa trung tâm hơn sẽ tác động lực hướng xuống mạnh hơnnhững điểm gần trung tâm hơn Nếu một điểm gần trung tâm bị xóa, điểm cân bằng sẽchỉ cần một sự điều chỉnh nhỏ để giữ cho tập dữ liệu ở trạng thái cân bằng Nhưng nếumột giá trị bên ngoài bị loại bỏ, điểm cân bằng sẽ thay đổi đáng kể (hình 1.3b) Độ
Trang 9Nhóm 2
8
nhạy này đối với độ lớn của một số lượng nhỏ các điểm trong tập dữ liệu xác định lý
do tại sao giá trị trung bình không phải là thước đo vị trí “chính xác" Nó không chínhxác khi có những thay đổi trong khi có mặt, hoặc những thay đổi về cường độ của mộtvài quan sát bên ngoài
26 Khi sự tác động mạnh của một vài lần quan sát được thỏa mãn, giá trị trung bình
một thước đo trung tâm thích hợp Điều này thường xảy ra khi tính toán các đơn vịkhối lượng, chẳng hạn như nồng độ trung bình của trầm tích từ mẫu trong mặt cắtngang Giả sử rằng nồng độ phù sa ở gần bờ sông cao hơn nhiều so với ở trung tâm.Nước mẫu của chai có nồng độ cao sẽ gây ảnh hưởng nhiều hơn (do khối lượng củatrầm tích lớn hơn thể tích của nước) ở nồng độ cuối cùng so với nước ở nồng độ thấphoặc trung bình Điều này là hoàn toàn phù hợp, vì điều này cũng sẽ xảy ra nếu bản
Trang 1030 Trung vị, hay lượng biến ở giữa P
0.50 , là giá trị trung tâm của phân phối khi dữ
liệu xếp
theo độ lớn Đối với dãy số có lượng biến quan sát là số lẻ, trung vị là điểm dữ liệu cólượng biến quan sát bằng nhau ở cả trên và dưới nó Đối với dãy số có lượng biến quansát là số chẵn, trung vị là giá trị trung bình của hai biến quan sát trung tâm Để tính giátrị trung vị, đầu tiên ta sắp xếp các lượng biến quan sát từ bé đến lớn, sao cho x
1 làbiến quan sát nhỏ nhất đến x n là biến quan sát lớn nhất Ta được:
Hình 1-3 Giá trị trung bình (hình tam giác) là điểm cân bằng của tập dữ liệu
Trang 11Nhóm 2
1 0
34 Trung vị bị ảnh hưởng rất ít bởi giá trị từng lượng biến quan sát, nhưng
được xác định
bởi thứ tự tương đối của các lượng biến quan sát Sự kháng lại trước ảnh hưởng củamột giá trị thay đổi hoặc sự có mặt của các lượng biến quan sát khác thường thường làmột đặc tính kỳ vọng Để chứng minh sự kháng lại của trung vị, giả sử giá trị cuối
[1-4]
Trang 12(hay thứ tự (7 21)) không bị ảnh hưởng bởi sự thay đổi.
38 Khi một giá trị tổng hợp được kỳ vọng mà không bị ảnh hưởng mạnh bởi mộtvài
lượng biến quan sát rất lớn, giá trị trung vị sẽ thích hợp hon giá trị trung bình Một ví
dụ về trường hợp này đó là nồng độ hóa chất có thể tìm thấy trong nguồn nước ở mộtkhu vực nhất định Khi sử dụng trung vị, một nguồn nước với nồng độ cao bất thườngkhông ảnh hưởng nhiều đến ước tính so với nồng độ thấp Nồng độ trung bình có thểrất lớn và cao hon nồng độ đo được trong hầu hết các dòng chảy Trung vị sẽ không bịảnh hưởng nhiều như vậy
vì giá trị của nó thường phụ thuộc vào các nhóm bất kỳ của các bảng dữ liệu
Trang 13Nhóm 2
1 2
41 Giá trị trung bình nhân (GM) thường được báo cáo bởi các tập dữ liệu sai lệch
Trang 1445 Sự thỏa hiệp giữa giá trị trung vị và trung bình có tính hiệu quả khi cắt bỏ một
trị thấp nhất và cao nhất, sau đó tính giá trị trung bình của các lượng biến còn lại Cácước tính về vị trí như vậy không bị ảnh hưởng bởi các điểm kết thúc giới hạn (hoặc dịthường) của mẫu, cũng như giá trị trung bình Tuy nhiên, chúng cho phép độ lớn củahầu hết các giá trị ảnh hưởng đến ước tính, không giống như trung vị Những côngthức ước tính này được gọi là “phương tiện loại bỏ”, và bất kỳ phần trăm dữ liệu nàocũng có thể được loại bỏ Cách loại bỏ phổ biến nhất là loại bỏ 25% dữ liệu trên mỗikết quả trung bình của 50% dữ liệu trung tâm thường được gọi là “giá trị bị cắt giảm”,chính xác hơn là giá trị trung bình được cắt giảm 25% Một “giá trị cắt giảm 0%” làgiá trị mẫu của chính nó, trong khi cắt bỏ tất cả ngoại trừ 1 hoặc 2 giá trị trung tâm sẽtạo ra trung vị Phần trăm cắt giảm nên được ghi rõ ràng Giá trị trung bình được cắtgiảm là một ước tính kháng lại, cũng có thể nói nó không bị ảnh hưởng mạnh bởi cácyếu tố khác và hiệu quả đối với nhiều hình dạng phân phối khác nhau (giá trị, log,v.v ) Nó có thể được xem là giá trị trung bình có trọng số, khi dữ liệu vượt quá giớihạn được cho là trọng số của 0 và phần còn lại có trọng số là 1,0 (xem hình 1.4)
46.
47 Hình 1.4 Sơ đồ giá trị trung bình được cắt giảm
Trang 15Nhóm 2
1 4
1.3 Thước đo độ chênh lệch
48 Dữ liệu thay đổi như thế nào cũng quan trọng như vị trí chung của nó Sự thay
tập dữ liệu được đo bằng các đơn vị đo chênh lệch
1.3.1 Đơn vị đo cổ điển
49 Phương sai mẫu, và căn bậc hai của nó là độ lệch chuẩn mẫu, là các đơn vị đothường
sử dụng Tương tự như giá trị trung bình, các đơn vị này ảnh hưởng bởi các giá trịngoại lai
1.3.2 Thước đo sự phân tán
54 Khoảng tứ phân vị (IQR) là đơn vị đo được sử dụng phổ biến nhất Nó chứa
Trang 16vị thứ 75 (P.75), cũng đợi gọi là tứ phân vị trên, là giá trị mà tại đó không vượt quá75% tập dữ liệu và không nhỏ hơn 25% còn lại Tứ phân vị thứ 25 (P.25) hoặc phần tưnhỏ hơn có giá trị không vượt quá 25% tập dữ liệu và nhỏ hươn 75% Nếu xét một tập
dữ liệu theo thứ tự tăng dần: Xi,i=1, ,n Bách phân vị (Pj) được tính bởi công thức(1.8)
Trang 17Nhóm 2
1 6
56 Pj = X(n+1).j
57 Trong đó n là kích thuớc mẫu của Xi
58 J là phần dữ liệu nhỏ hơn hoặc bằng với các phân vị (đối với các
25,50 và 75, J= 25,.50 và 75)
59 Các giá trị không nguyên của (n+1)*j ám chỉ phép nội suy tuyến tính giữa các
liền kề của X Ví dụ 1 tập dữ liệu cho trước, n=7, do đó phân vị thứ 25 là X(7+1).25 hay là
X2 = 4, giá trị quan sát thấp thứ 2 Phân vị thứ 75 là Xô, Giá trị quan sát thấp thứu 6,hay là 11 Do đó IQR sẽ bằng 11-4=7
60 Một các đo sự chênh lệch khác với IQR là độ lệch tuyệt đối trung bình, hayMAD
MAD được tính bằng cách trước hết là liệt kê những giá trị tuyệt đối của các giá trịđang quan sát và trung vị Trung vị của các giá trị tuyệt đối chính là MAD
Trang 1816
139 Khi dữ liệu bị lệch giá trị trung bình không được như dự tính bằng trung vị,nhưng
được kéo về về phía đuôi của bản phân phối Do đó đối với độ lệch dương giá trị trungbình vượt quá 50% dữ liệu, như trong hình 1.1 Độ lệch chuẩn cũng bị thổi phồng bởi
dữ liệu ở phần đuôi Do đó, các bảng thống kê tóm tắt chỉ bao gồm giá trị trung bình
và đội lệch chuẩn hoặc phương sai là có giá trị đáng ngờ đối với dữ liệu tài nguyênnước, vì những dữ liệu này thường có độ lệch dương Giá trị trung bình và độ lệchchuẩn được báo cáo có thể không mô tả phần lớn dữ liệu rất tốt Cả hai đều sẽ bị thổiphồng bởi những sự quan sát bên ngoài Bảng tóm tắt bao gồm giá trị trung bình vàcác giá trị khác phần trăm có khả năng lớn hơn nhiều cho dữ liệu bị lệch Dữ liệu sailệch cũng đặt ra câu hỏi về khả năng áp dụng của các thử nghiệm giả thuyết dựa trêngiả định rằng đữ liệu có phân phối chuẩn Các thử nghiệm này, được gọi là thử nghiệm
Trang 191 8
tham số, có thể có giá trị đáng ngờ khi áp dụng cho dữ liệu tài nguyên nước, vì dữ liệu
Trang 20[1-10]
Trang 21Nhóm 2
2 0
cảm đến một vài quan sát là quan trọng
Trang 22152 để tạo ra hàng loạt những thống kê học nhất quán không bị ảnh
sát bất thường Các nhà địa chất đã sử dụng tỷ lệ phần trăm thứ 16 và tỷ lệ phần trămthứ 84 trong nhiều năm để tính toán chuỗi tương tự của độ đo vững chắc của việc phânphối hạt trầm tích (Inman, 1952) Tuy nhiên, độ đo dựa trên điểm tứ vi phân đã trởthành tiêu chuẩn nói chung, và độ đo khác nên định nghĩa rõ ràng trước khi dùngchúng Trung vị (điểm giữa), IQR, và lệch điểm trị tứ phân có thể dễ dàng tóm tắt vềmặt đồ thị khi dùng biểu đồ hình hộp ( xem chương 2 ) và đều quen thuộc với nhiềunhất nhà phân tích số liệu
154 Mọi người nói rằng các số liệu về lỗ hổng tầng ozone ở Nam Cực (một khu
nồng độ ozone thấp bất thường) đã được thu thập trong khoảng 10 năm, trước khi cónhững sự phát hiện thực tế về nó Tuy nhiên, những công việc thường làm hằng ngàynhư việc kiểm tra số liệu tự động trong suốt quy trình xử lý số liệu lại bao gồm cáchướng dẫn về việc xóa đi “sai số” Những định nghĩa về sai số được dựa trên nồng độozone được tìm thấy ở vĩ độ trung bình Vì thế tất cả các số liệu vượt quá hai độ lệchchuẩn so với giá trị trung bình không bao giờ được xem xét hay nghiên cứu trong một
[1-12]
Trang 23Nhóm 2
2 2
khoảng thời gian Nếu các sai số bị xóa đi, thì rủi ro ở đây là việc họ chỉ nhìn thấyđược những thứ mà bọn họ mong đợi
Trang 24155 Sai số có thể do một trong ba nguyên nhân:
1 Lỗi về đo lường hoặc việc ghi,thu âm thanh,hình ảnh,
2 Sự quan sát tổng thể khác với hầu hết các số liệu, chẳng hạn như việc lũ lụtđược hình thành bởi một vụ vỡ đê chứ không phải là do lượng mưa
3 Một biến cố hiếm hoi từ một tổng thể đon lẻ sai lệch
156 Các phưong pháp đồ thị của Chưong 2 rất hữu ích trong việc xác định các sai
cứ khi nào có sai số xảy ra, trước tiên hãy kiểm tra lại rằng không có sự sao chép lại,dấu thập phân hoặc những lỗi khác rõ ràng đã được thực hiện, nếu không thì có lẽ sẽkhông thể xác định được giá trị đó có hợp lệ hay không Những nổ lực trong việc kiểmtra chẳng hạn như tiến hành kiểm định lại những mẫu trong phòng thí nghiệm, sẽ phụthuộc vào những lợi ích thu được so với chi phí xác minh Các biến cố trong quá khứ
có thể không được sao lại Nếu không có lỗi nào được phát hiện và sửa chữa, sai sốkhông nên bị loại bỏ đi khi chỉ dựa trên thực tế là chúng xuất hiện những giá trị khácthường Các sai số thường bị loại bỏ để làm cho số liệu phù hợp với một lý thuyếtphân phối đã được xác định sẵn Không có lý do gì để họ làm vậy Toàn bộ số liệu domột sự sắp xếp sai lệch ,phép toán logarit hoặc một phép biến đổi khác có thể tạo ra sốliệu khá đối xứng Ngay cả khi không có sự biến đổi nào có sự đối xứng cả, vì thế sai
số không cần phải bị loại bỏ Thay vì loại bỏ những số liệu thực tế (có thể rất quantrọng) để sử dụng các quy trình phân tích đòi hỏi tính đối xứng hoặc chuẩn tắc, nênthiết lập các bước theo trình tự có khả năng chống sai số Nếu tính trung bình ra rất ítgiá trị vì có sai số, trung vị đã được chứng minh là một thước đo thích hợp cho vị trícủa các số liệu sai lệch Nếu thực hiện kiểm định T (được mô tả ở phía sau) thì có vẻ
sẽ bị vô hiệu hóa vì tính bất thường của tập số liệu, hãy sử dụng bài kiểm tra tổng xếphạng để thay thế
157 Nói ngắn gọn, hãy sử dụng những hướng số liệu có các quy trình phân tích