Các đặc tính thường được mô tả bao gồm: giá trị trung tâm của dữ liệu, giá trị của độ rộng hay độ biến động , phân phối đối xứng của dữ liệu và có lẽ ước tính về các cực trị, chẳng hạn n
Trang 1TRƯỜNG ĐẠI HỌC KINH TẾ
BÀI BÁO CÁO MÔN THỐNG KÊ KINH DOANH & KINH TẾ
Đề tài:
Bài tập dịch về Thống kê ứng dụng
Tên thành viên nhóm 2:
1 Lê Nguyễn Thành Đạt
2 Hồ Thị Thanh Trúc
3 Lê Hoàng Kim Ngân
4 Võ Châu Nhật Lai
5 Nguyễn Thị Thùy Dương
6 Huỳnh Lê Khoa
7 Hồ Văn An Quân
8 Nguyễn Khoa Diệu Quỳnh
9 Trần Lê Kim Khánh
GVHD: Đoàn Thị Ngọc Cảnh
Đà Nẵng, 20/10/2021
Trang 2Chương 1 Tổng hợp dữ liệu
Khi xác định cách phân tích thích hợp bất kỳ tập hợp dữ liệu nào, điều đầu tiên cần cân nhắc phải là đặc tính của chính các số liệu Một số ít có được bằng cách sử dụng phân tích các thủ tục, cái mà giả định rằng dữ liệu có các đặc điểm mà trên thực tế chúng không có Các kết quả của những giả định sai như vậy có thể là các diễn giải được cung cấp bởi phân tích là không chính xác, hoặc không đi đến kết luận một cách không cần thiết Do đó, chúng tôi bắt đầu cuốn sách này với một cuộc thảo luận về đặc điểm chung của dữ liệu tài nguyên nước Những đặc điểm này sẽ xác định lựa chọn các thủ tục phân tích dữ liệu thích hợp
Một trong những công việc thường xuyên nhất khi phân tích dữ liệu là mô tả và tóm tắt những dữ liệu đó trong các hình thức truyền tải các đặc tính quan trọng của chúng
“Nồng độ sunfat mà người ta có thể mong đợi trong lượng mưa tại vị trí này là bao nhiêu”? “ Độ dẫn điện của thủy lực thay đổi như thế nào”? “Trận lụt 100 năm” (phân
vị thứ 99 của cực đại lũ lụt hàng năm)? Uớc tính các thống kê này và các tóm tắt tương tự là cách cơ bản để hiểu được dữ liệu Các đặc tính thường được mô tả bao gồm: giá trị trung tâm của dữ liệu, giá trị của độ rộng hay độ biến động , phân phối đối xứng của dữ liệu và có lẽ ước tính về các cực trị, chẳng hạn như ước tính một phân vị lớn hoặc nhỏ Trong chương này thảo luận về các phương pháp tóm tắt hoặc mô tả dữ liệu
Chương đầu tiên này cũng nhanh chóng thể hiện một trong những chủ đề chính của cuốn sách - Việc sử dụng các kỹ thuật bền vững và chắc chắn Những lý do tại sao người ta có thể thích sử dụng một thước đo bền vững, chẳng hạn như trung vị, trên cả một thước đo điển hình hơn như giá trị trung bình, đã được giải thích
Trang 3Dữ liệu về một bản tính toán hoặc bảng tóm tắt sẽ được thực hiện được gọi là tổng thể, hoặc đôi khi là mục tiêu tổng thể Đây có thể là nồng độ trong tất cả các nguồn nước của tầng ngậm nước hoặc phạm vi tiếp cận luồng hoặc tất cả các luồng chảy theo thời gian tại một địa điểm cụ thể Hiếm khi tất cả dữ liệu như vậy có sẵn cho các nhà khoa học Có lẽ không thể thu thập tất cả dữ liệu quan tâm (tất cả nước trong dòng chảy trong thời gian nghiên cứu), hoặc có thể không thể thu các dữ liệu của chúng về mặt tài chính Thay vào đó, một tập hợp con của dữ liệu được gọi là mẫu được chọn và đo lường theo cách kết luận về mẫu có thể được mở rộng cho tổng thể Số liệu thống kê được tính toán từ mẫu chỉ là những suy luận hoặc ước tính về các đặc tính của tổng thể, chẳng hạn như vị trí, độ lan truyền và độ lệch Các phép đo vị trí thường là trung bình của mẫu và trung vị mẫu Các phép đo độ chênh lệch bao gồm độ lệch chuẩn của mẫu và tứ phân vị Việc sử dụng thuật ngữ "mẫu" trước mỗi thống kê chứng minh rõ ràng rằng những ước tính giá trị tổng thể, số trung vị hoặc trung bình tổng thể, Vì các ước tính mẫu phổ biến hơn thước đo dựa trên tổng thể Thuật ngữ “số trung bình” nên được hiểu là “trung bình mẫu”, và tương tự đối với các số liệu thống kê khác được
sử dụng trong cuốn sách này Khi các giá trị tổng thể được xem xét, chúng sẽ được trình bày rõ ràng như vậy
1.1 Đặc điểm của dữ liệu tài nguyên nước
Dữ liệu do nhà khoa học tài nguyên nước phân tích thường có các đặc điểm sau
1 Giới hạn dưới của số không Không thể có giá trị âm
2 Sự hiện diện của 'các ngoại biên,theo các quan sát cao hơn hoặc thấp hơn đáng
kể so với hầu hết các dữ liệu Các giá trị ngoại lai ở phía cao thường gặp hơn trong nước tài nguyên
3 Độ lệch dương, do các mục 1 và 2 Một ví dụ về phân phối lệch, phân phối xác suất loga chuẩn, được trình bày trong hình 1.1 Giá trị của một quan sát trên trục hoành được vẽ dựa trên tần suất xuất hiện giá trị đó Các hàm mật độ giống như biểu đồ của các tập dữ liệu lớn mà các thanh của nó trở nên hẹp vô hạn Có thể mong đợi độ lệch khi các giá trị ngoại lai chỉ xảy ra theo một hướng
4 Phân phối dữ liệu không chuẩn tắc, do các mục 1-3 ở trên Hình 1.2 cho thấy một phân phối đối xứng Trong khi nhiều thử nghiệm thống kê giả định dữ liệu tuân theo phân phối chuẩn như trong hình 1.2, dữ liệu tài nguyên nước thường giống như
Trang 4hình 1.1.Thêm vào đó, tính đối xứng không đảm bảo tính chuẩn tắc Dữ liệu đối xứng với nhiều sự quan sát hơn ở cả hai cực trị hơn là xuất hiện đối với phân phối chuẩn cũng như phân phối không chuẩn
5 Dữ liệu được báo cáo chỉ dưới hoặc trên một số ngưỡng (dữ liệu được kiểm duyệt) Những ví dụ bao gồm nồng độ dưới một hoặc nhiều giới hạn phát hiện, các giai đoạn lũ lụt hàng năm chỉ được biết đến là thấp hơn mức có thể đã gây ra một kỷ lục công khai về lũ lụt, và đường dẫn nước chỉ được biết đến ở trên bề mặt đất (Giếng Artesian trên bản đồ cũ)
6 Các mẫu theo mùa Giá trị có xu hướng cao hơn hoặc thấp hơn trong một số phạm vi nhất định trong năm
7 Tự tương quan chuỗi Các quan sát liên tiếp có xu hướng tương quan chặt chẽ với nhau Đối với loại tự tương quan phổ biến nhất trong tài nguyên nước (tương quan đồng biến), giá trị cao có xu hướng theo giá trị cao và giá trị thấp có xu hướng theo giá trị thấp
8 Sự phụ thuộc vào các biến không kiểm soát khác Giá trị đồng biến mạnh mẽ với dòng chảy nước, độ dẫn thủy lực, kích thước hạt, hoặc một số biến số khác
Phương pháp phân tích dữ liệu nguồn nước, liệu các phương pháp tóm tắt đơn giản như những gì đã nêu trong chương này, hoặc các quy trình phức tạp hơn của các chương sau, cần hiểu ra những đặc điểm chung này
1.2 Các đơn vị đo về vị trí
Giá trị trung bình và trung vị là hai thước đo vị trí được sử dụng phổ biến nhất, mặc dù chúng không phải là thước đo duy nhất có sẵn Các tính chất của hai đơn vị đo này là
gì, và khi nào thì nên sử dụng đơn vị này thay vì đơn vị kia?
1.2.1 Đơn vị đo cổ điển - Giá trị trung bình
Giá trị trung bình mẫu (X) được tính bằng tổng của tất cả các lượng biếnX i, chia cho
số đơn vị tổng thể n :
X= ∑
i=1
n X i n
[1-1]
Trang 5Đối với dữ liệu thuộc một trong k nhóm, phương trình [1.1] có thể được viết lại để chỉ
ra rằng giá trị trung bình tổng thể phụ thuộc vào giá trị trung bình của mỗi nhóm, có trọng số bởi số lần quan sát giá trị n i, trong mỗi nhóm:
X=∑
i=1
n
X n i
khi Xi là trung bình của nhóm i Có thể thấy sự ảnh hưởng của bất kỳ lần quan sát giá trị X j nào lên giá trị trung bình bằng cách đặt tất cả trừ lần quan sát đó trong một
"nhóm", hoặc
X=X ( j) (n−1) n +X j 1n
= X ( j)+ ( X ( j)- X ( j)) 1n [1-3]
Trong đó X ( j) là giá trị trung bình của tất cả các lần quan sát không bao gồmX j Ảnh hưởng của mỗi quan sát đối với trung bình tổng thể Xlà (X j - X ( j)), khoảng cách giữa các lần quan sát và giá trị trung bình không bao gồm quan sát đó Vì vậy, tất cả các quan sát không có cùng ảnh hưởng đến giá trị trung bình Một quan sát 'ngoại lệ', cao hoặc thấp, có ảnh hưởng lớn hơn nhiều đến giá trị trung bình tổng thể Xso với quan sát 'điển hình' , lần quan sát này gần với giá trị X ( j) của nó hơn
Trang 6Hình 1-1 Hàm mật độ của phân phối loga chuẩn
Hình 1-2 Hàm mật độ của phân phối chuẩn Một cách khác để minh họa ảnh hưởng này là nhận ra rằng giá trị trung bình là điểm cân bằng của dữ liệu, khi mỗi điểm được xếp chồng lên nhau trên một đường số (hình 1.3a) Các điểm dữ liệu xa trung tâm hơn sẽ tác động lực hướng xuống mạnh hơn những điểm gần trung tâm hơn Nếu một điểm gần trung tâm bị xóa, điểm cân bằng sẽ chỉ cần một sự điều chỉnh nhỏ để giữ cho tập dữ liệu ở trạng thái cân bằng Nhưng nếu một giá trị bên ngoài bị loại bỏ, điểm cân bằng sẽ thay đổi đáng kể (hình 1.3b) Độ nhạy này đối với độ lớn của một số lượng nhỏ các điểm trong tập dữ liệu xác định lý
do tại sao giá trị trung bình không phải là thước đo vị trí “chính xác" Nó không chính xác khi có những thay đổi trong khi có mặt, hoặc những thay đổi về cường độ của một vài quan sát bên ngoài
Khi sự tác động mạnh của một vài lần quan sát được thỏa mãn, giá trị trung bình sẽ là một thước đo trung tâm thích hợp Điều này thường xảy ra khi tính toán các đơn vị khối lượng, chẳng hạn như nồng độ trung bình của trầm tích từ mẫu trong mặt cắt ngang Giả sử rằng nồng độ phù sa ở gần bờ sông cao hơn nhiều so với ở trung tâm Nước mẫu của chai có nồng độ cao sẽ gây ảnh hưởng nhiều hơn (do khối lượng của trầm tích lớn hơn thể tích của nước) ở nồng độ cuối cùng so với nước ở nồng độ thấp hoặc trung bình Điều này là hoàn toàn phù hợp, vì điều này cũng sẽ xảy ra nếu bản
Trang 7thân dòng chảy bằng cách nào đó được trộn một cách máy móc trên toàn bộ mặt cắt ngang của nó
Hình 1-3 Giá trị trung bình (hình tam giác) là điểm cân bằng của tập dữ liệu
Hình 1-4 Sự dịch chuyển của giá trị trung bình xuống sau khi loại bỏ giá trị ngoại lệ
1.2.2 Đơn vị mốc - Trung vị
Trung vị,hay lượng biến ở giữa P0.50,là giá trị trung tâmcủaphân phốikhi dữ liệu xếp theo độ lớn Đối với dãy số có lượng biến quan sát là số lẻ, trung vị là điểm dữ liệu có lượng biến quan sát bằng nhau ở cả trên và dưới nó Đối với dãy số có lượng biến quan sát là số chẵn, trung vị là giá trị trung bình của hai biến quan sát trung tâm Để tính giá trị trung vị, đầu tiên ta sắp xếp các lượng biến quan sát từ bé đến lớn, sao cho x1 là biến quan sát nhỏ nhất đến x n là biến quan sát lớn nhất Ta được:
Trung vị (P0.50)=X (n+1)/2 khi n lẻ
Trung vị (P0.50)= 12( X (n/2) + X (n/2+1)) khi n chẵn [1-4]
Trung vị bị ảnh hưởng rất ít bởi giá trị từng lượng biến quan sát, nhưng được xác định bởi thứ tự tương đối của các lượng biến quan sát Sự kháng lại trước ảnh hưởng của một giá trị thay đổi hoặc sự có mặt của các lượng biến quan sát khác thường thường là một đặc tính kỳ vọng Để chứng minh sự kháng lại của trung vị, giả sử giá trị cuối
Trang 8cùng của tập dữ liệu (a) gồm 7 lượng biến quan sát nhân với 10 để thu được tập dữ liệu (b):
Ví dụ 1:
(a) 2 4 8 9 11 11 12 X= 8.1 P.50= 9 (b) 2 4 8 9 11 11 120 X= 23.6 P.50= 9
Giá trị trung bình tăng từ 8,1 lên 23,6 Trung vị, hay biến thứ 4 theo thứ tự sắp xếp (hay thứ tự (7+1)2 ) không bị ảnh hưởng bởi sự thay đổi
Khi một giá trị tổng hợp được kỳ vọng mà không bị ảnh hưởng mạnh bởi một vài lượng biến quan sát rất lớn, giá trị trung vị sẽ thích hợp hơn giá trị trung bình Một ví
dụ về trường hợp này đó là nồng độ hóa chất có thể tìm thấy trong nguồn nước ở một khu vực nhất định Khi sử dụng trung vị, một nguồn nước với nồng độ cao bất thường không ảnh hưởng nhiều đến ước tính so với nồng độ thấp Nồng độ trung bình có thể rất lớn và cao hơn nồng độ đo được trong hầu hết các dòng chảy Trung vị sẽ không bị ảnh hưởng nhiều như vậy
1.2.3 Các thước đo khác về vị trí
Có ba thước đo khác về vị trí ít được sử dụng: mốt, trung bình nhân và trung bình tỉa Mốt là giá trị được quan sát thường xuyên nhất Nó là giá trị có tần số cao nhất trong biểu đồ Mốt được áp dụng nhiều cho các bảng dữ liệu, thường là các dữ liệu được ghi lại rơi vào một số danh mục nhất định, hơn là đối với các dữ liệu liên tục Mốt rất dễ nhận thấy, ngoại trừ các cách xác định vị trí ít hiệu quả hơn với bảng dữ liệu liên tục,
vì giá trị của nó thường phụ thuộc vào các nhóm bất kỳ của các bảng dữ liệu
Giá trị trung bình nhân (GM) thường được báo cáo bởi các tập dữ liệu sai lệch Nó là giá trị trung bình của logarit, được chuyển đổi trở lại đơn vị ban đầu của chúng
GM =exp(Y ), where Y i =ln(X¿¿i)¿ [1-5]
Trang 9(Ở đây, logarit tự nhiên với cơ số e sẽ được viết tắt là ln và nghịch đảo e x của nó được viết tắt là exp( x))
Đối với dữ liệu sai lệch rõ ràng, giá trị trung bình nhân thường khá gần với giá trị trung vị Thực tế, khi logarit của dữ liệu là đối xứng, giá trị trung bình nhân là một ước tính không chênh lệch của trung vị Điều này là do logarit trung bình và trung vị bằng nhau, như trong hình 1.2 Khi được chuyển đổi trở lại các đơn vị ban đầu, giá trị trung bình nhân tiếp tục là một ước tính cho trung vị, nhưng không phải là ước tính cho giá trị trung bình (hình 1.1)
Sự thỏa hiệp giữa giá trị trung vị và trung bình có tính hiệu quả khi cắt bỏ một số giá trị thấp nhất và cao nhất, sau đó tính giá trị trung bình của các lượng biến còn lại Các ước tính về vị trí như vậy không bị ảnh hưởng bởi các điểm kết thúc giới hạn (hoặc dị thường) của mẫu, cũng như giá trị trung bình Tuy nhiên, chúng cho phép độ lớn của hầu hết các giá trị ảnh hưởng đến ước tính, không giống như trung vị Những công thức ước tính này được gọi là “phương tiện loại bỏ”, và bất kỳ phần trăm dữ liệu nào cũng có thể được loại bỏ Cách loại bỏ phổ biến nhất là loại bỏ 25% dữ liệu trên mỗi kết quả trung bình của 50% dữ liệu trung tâm thường được gọi là “giá trị bị cắt giảm”, chính xác hơn là giá trị trung bình được cắt giảm 25% Một “giá trị cắt giảm 0%” là giá trị mẫu của chính nó, trong khi cắt bỏ tất cả ngoại trừ 1 hoặc 2 giá trị trung tâm sẽ tạo ra trung vị Phần trăm cắt giảm nên được ghi rõ ràng Giá trị trung bình được cắt giảm làmột ước tính kháng lại, cũng có thể nói nó không bị ảnh hưởng mạnh bởi các yếu tố khác và hiệu quả đối với nhiều hình dạng phân phối khác nhau (giá trị, log, v.v ) Nó có thể được xem là giá trị trung bình có trọng số, khi dữ liệu vượt quá giới hạnđược cho là trọng số của 0 và phần còn lại có trọng số là 1,0 (xem hình 1.4)
Hình 1.4 Sơ đồ giá trị trung bình được cắt giảm
Trang 101.3 Thước đo độ chênh lệch
Dữ liệu thay đổi như thế nào cũng quan trọng như vị trí chung của nó Sự thay đổi của tập dữ liệu được đo bằng các đơn vị đo chênh lệch
1.3.1 Đơn vị đo cổ điển
Phương sai mẫu, và căn bậc hai của nó là độ lệch chuẩn mẫu, là các đơn vị đo thường
sử dụng Tương tự như giá trị trung bình, các đơn vị này ảnh hưởng bởi các giá trị ngoại lai
s2= ∑
i=1
n ( X i − X)
Chúng được tính toán bằng cách bình phương độ lệch chuẩn của dữ liệu so với gía trị trung bình, vì thế các giá trị ngoại lai ảnh hưởng đến các đơn vị đó nhiều hơn so với giá trị trung bình Khi các giá trị ngoại lai thay đổi, các đơn vị này cũng biểu hiện tính bất ổn định Chính vì thế các đơn vị này cho thấy sự chênh lệch rõ hơn so với với khi được chỉ ra bởi các quan sát các tập dữ liệu
1.3.2 Thước đo sự phân tán
Khoảng tứ phân vị (IQR) là đơn vị đo được sử dụng phổ biến nhất Nó chứa 50% biến
số trung tâm và không bị ảnh hưởng bởi 25% ở cả hai đầu Do đó, nó là chiều rộng của cửa sổ trọng số khác 0 cho giá trị trung bình đã cắt của hình 1.4
IQR được định nghĩa là phân vị thứ 75 trừ đi phân vị thứ 25 Phân vị thứ 75, phân vị thứ 50 (trung vị) và phân vị thứ 25 chia dãy dữ liệu thành 4 phần tư bằng nhau Phân
vị thứ 75 (P.75), cũng đợi gọi là tứ phân vị trên, là giá trị mà tại đó không vượt quá 75% tập dữ liệu và không nhỏ hơn 25% còn lại Tứ phân vị thứ 25 (P.25) hoặc phần tư nhỏ hơn có giá trị không vượt quá 25% tập dữ liệu và nhỏ hươn 75% Nếu xét một tập
dữ liệu theo thứ tự tăng dần: Xi,i=1,…,n Bách phân vị (Pj) được tính bởi công thức (1.8)