Từ khóa: Đại lượng ngẫu nhiên, luật phân bố, phân bố thống kê, là trơn phân bố, tiêu chuẩn phù hợp, ước lượng tham số, xác suất tin cậy, khoảng tin cây, hệ các đại lượng ngẫu nhiên, quá
Trang 1
Từ khóa: Đại lượng ngẫu nhiên, luật phân bố, phân bố thống kê, là trơn phân bố, tiêu chuẩn phù hợp, ước lượng tham số, xác suất tin
cậy, khoảng tin cây, hệ các đại lượng ngẫu nhiên, quá trình ngẫu nhiên, tương quan, phương pháp bình phương nhỏ nhất, khai triển phổ,
phân tích điều hòa, là trơn, chu trình tuần hoàn, trung bình trượt, phân tích thống kê các quan trắc khí tượng, hải dương học
Tài liệu trong Thư viện điện tử Trường Đại học Khoa học Tự nhiên có thể được sử dụng cho mục đích học tập và nghiên cứu
cá nhân Nghiêm cấm mọi hình thức sao chép, in ấn phục vụ các mục đích khác nếu không được sự chấp thuận của nhà xuất
bản và tác giả
PHƯƠNG PHÁP THỐNG KÊ TRONG
HẢI DƯƠNG HỌC
Phạm Văn Huấn
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN
Phạm Văn Huấn
PHƯƠNG PHÁP THỐNG KÊ
TRONG HẢI DƯƠNG HỌC
Nhà xuất bản Đại học Quốc gia Hà Nội - 2010
Lời nói đầu
Giáo trình Phương pháp thống kê trong hải dương học phục vụ cho
môn học cùng tên với thời lượng hai tín chỉ trong chương trình đào tạo cử nhân ngành Hải dương học ở Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội
Cuốn sách chọn giới thiệu một cách tóm tắt những khái niệm, phương pháp cơ bản của lý thuyết thống kê toán học hay được sử dụng trong phân tích số liệu quan trắc hải dương học và được sắp xếp thành năm chương theo nhóm vấn đề Đầu mỗi chương thường ôn lại những khái niệm và công thức cơ bản từ toán học thống kê, sau đó giới thiệu sự ứng dụng thông qua các thí dụ để rèn luyện thói quen hiểu ý nghĩa thực tế của khái niệm và kỹ năng thực hành tính toán cụ thể của sinh viên Cuối mỗi chương có phụ lục gồm các đoạn mã chương trình máy tính chính là nhằm mục đích đó Những thí dụ ứng dụng phương pháp thống kê trong hải dương học chưa bao quát hết những vấn đề hải dương học thống kê, mới chỉ giới thiệu ở mức độ giúp cho sinh viên bước đầu biết áp dụng các khái niệm và phương pháp, tính toán đúng theo các công thức liên quan, chưa dành chú ý nhiều đến cách đặt vấn đề, lý giải kết quả phân tích và ý nghĩa thực tế của mỗi bài toán Nội dung sách cũng chưa bao gồm những kết quả nghiên cứu biển và đại dương theo hướng thống kê trong hải dương học trên thế giới và ở Việt Nam Sinh viên ngành hải dương học sẽ thấy những khía cạnh này trong các môn học cơ sở khác của ngành như hải dương học khu vực, thông tin và dự báo khí tượng thủy văn biển, thủy triều, sóng và các bài báo khoa học, sách chuyên khảo về biển Tác giả
Trang 3MỤC LỤC
Chương 1 – Khái niệm về đại lượng ngẫu nhiên 5
1.1 Những đại lượng ngẫu nhiên và luật phân bố 5
1.2 Luật phân bố chuẩn 14
1.3 Quantil phân bố 19
1.4.2 Phân bố của tập mẫu các giá trị cực trị (phân bố
2.2.2 Sơ đồ ứng dụng tiêu chuẩn χ2 để đánh giá sự phù hợp 43
2.2.3 Tiêu chuẩn phù hợp của Kolmogorov 45
2.3 Khái niệm về ước lượng tham số của phân bố 47
2.4 Ước lượng của kỳ vọng toán học và phương sai 47
2.5 Khoảng tin cậy và xác suất tin cậy 48
2.5.1 Khoảng tin cậy đối với kỳ vọng toán học 51
2.5.2 Khoảng tin cậy đối với phương sai 54
2.5.3 Các phương pháp chính xác dựng khoảng tin cậy cho
các tham số của đại lượng ngẫu nhiên phân bố chuẩn
582.6 Ước lượng xác suất theo tần suất 67
Chương 3 – Khái niệm về hệ các đại lượng ngẫu nhiên và ứng
dụng
82
3.2 Các đặc trưng số của hệ hai đại lượng ngẫu nhiên
Mômen tương quan Hệ số tương quan
853.3 Phép là trơn các mối phụ thuộc thực nghiệm bằng phương 90
4.5 Khai triển phổ hàm ngẫu nhiên dừng trên khoảng thời gian hữu hạn
115
Chương 5 - Ứng dụng lý thuyết hàm ngẫu nhiên vào phân tích số
liệu hải dương học
132 5.1 Phân tích chuỗi thời gian trong hải dương học 132 5.1.1 Phân tích các chu trình tuần hoàn 134
5.1.2 Xác định các chu trình tuần hoàn bằng phương pháp phân tích điều hòa
136 5.2 Phổ phương sai của chuỗi thời gian 143 5.3 Loại bỏ chu trình tuần hoàn khỏi chuỗi thời gian 145 5.3.1 Loại bỏ chu trình tuần hoàn bằng phân tích điều hòa 145 5.3.2 Loại bỏ biến trình năm từ chuỗi quan trắc năm 148 5.3.3 Loại bỏ chu trình tuần hoàn và phân tích các chu trình
không tuần hoàn trong thực tế xử lý số liệu
149 5.4 Hàm tương quan và hàm phổ đối với chuỗi thời gian các
yếu tố hải dương học
153
Tài liệu tham khảo 161
Trang 4Chương 1 KHÁI NIỆM VỀ ĐẠI LƯỢNG NGẪU NHIÊN
1.1 Những đại lượng ngẫu nhiên và luật phân bố
Đại lượng ngẫu nhiên là đại lượng mà trong thử nghiệm có thể nhận
một giá trị nào đó không biết trước cụ thể Những giá trị có thể có của đại
lượng ngẫu nhiên rời rạc có thể được kể ra từ trước Những giá trị có thể
có của đại lượng ngẫu nhiên liên tục không thể kể ra trước được và chúng
phân bố liên tục trên một khoảng nào đó
Đối với đại lượng ngẫu nhiên rời rạc X , nếu ta biết xác suất P của
từng giá trị có thể có của nó x1 , x2 , , xn, tức biết
n n
p
p x X P p
x X P p x
X
P
1
2 2 1
1
1
;
;
;
;
thì ta nói rằng đại lượng ngẫu nhiên ấy hoàn toàn đã được xác định về
phương diện xác suất Mối liên hệ giữa các giá trị có thể có của đại lượng
ngẫu nhiên và những xác suất tương ứng của chúng được gọi là luật phân
bố của đại lượng ngẫu nhiên Luật phân bố có thể được cho bởi bảng
phân bố hoặc đa giác phân bố
Đối với đại lượng ngẫu nhiên liên tục, chúng ta không thể kể ra hết
tất cả các giá trị có thể có, hơn nữa từng giá trị riêng biệt của đại lượng
ngẫu nhiên liên tục thường có xác suất bằng không, nên người ta cho
phân bố bằng hàm phân bố F (x ):
(X x)
P x
F( )= < (1.1) Người ta còn gọi F (x ) là hàm phân bố tích phân hay luật phân bố
tích phân
Hàm phân bố là đặc trưng vạn năng nhất của đại lượng ngẫu nhiên
Nó tồn tại cho cả các đại lượng ngẫu nhiên rời rạc lẫn liên tục Hàm phân
bố có tính chất là hàm không giảm, tức F( )x2 ≥F( )x1 nếu x2 > x1, bằng không ở âm vô cùng (F( −∞)=0) và bằng một ở dương vô cùng
(F( +∞)=1) Trong thực tế, nhiều khi cần xác định xác suất P(X ≥x), khi đó
thay vì hàm phân bố F(x) người ta sử dụng hàm độ đảm bảo )Φ(x :
)(1)()(x =P X ≥x = −F x
Φ (1.2)
cho biết xác suất vượt quá giá trị x nào đó
Hàm phân bố của đại lượng ngẫu nhiên rời rạc bất kỳ luôn luôn là một hàm bậc thang gián đoạn Trong thực tế thông thường hàm phân bố của đại lượng ngẫu nhiên liên tục là hàm liên tục
Khi giải những bài toán thực tế nhiều khi đòi hỏi tính xác suất của
sự kiện đại lượng ngẫu nhiên rơi vào khoảng giá trị từ x đến x+Δx:
) ( ) (
Δ
− Δ
(
Nếu Δx→0 thì
) ( ) ( ) ( ) (
x
x F x x F
Δ
− Δ
được gọi là mật độ phân bố (hay “mật độ xác suất”) của đại lượng ngẫu
nhiên Đôi khi người ta còn gọi hàm f (x ) là hàm phân bố vi phân hoặc
Trang 5luật phân bố vi phân của đại lượng ngẫu nhiên liên tục X
Xác suất giá trị của đại lượng ngẫu nhiên X rơi vào khoảng từ α
Có thể biểu thị hàm mật độ phân bố qua hàm phân bố bằng công
thức (1.3) Ngược lại, có thể biểu thị hàm phân bố qua hàm mật độ
∫
∞
−
= x f x dx x
F ( ) ( ) (1.5) Mật độ phân bố là hàm không âm ( f ( x ) ≥ 0 ), tích phân của hàm
mật độ với các giới hạn vô cùng bằng một ( ∫∞
∞
−
= 1 )
( dx x
f ) Như vậy, đường cong phân bố luôn luôn nằm trên trục hoành, diện tích đầy đủ giới
hạn bởi đường cong phân bố và trục hoành bằng một
Thứ nguyên của hàm phân bố F ( x ) giống như xác suất không có
thứ nguyên, thứ nguyên của mật độ phân bố f (x ) nghịch đảo với thứ
nguyên của đại lượng ngẫu nhiên
Trong nhiều vấn đề thực tế, không nhất thiết phải đặc trưng đại
lượng ngẫu nhiên một cách đầy đủ bằng hàm phân bố F (x ) mà chỉ cần
chỉ ra những tham số bằng số riêng biệt ở mức độ nào đó đặc trưng cho
những nét chủ yếu của đại lượng ngẫu nhiên Đó là những đặc trưng số
của đại lượng ngẫu nhiên:
1) Kỳ vọng toán học (giá trị trung bình) của đại lượng ngẫu nhiên:
Nếu đại lượng ngẫu nhiên rời rạc X có các giá trị có thể có
n
x
x
x1 , 2 , , với xác suất p1 , p2 , , pn thì kỳ vọng toán học của đại
lượng ngẫu nhiên sẽ bằng
+ +
+ + +
=
i i i n
i i
n
i i i n
n n
p
p x p
p p
p x p
x p x X m
1 1
1 2
1
2 2 1 1
Kỳ vọng toán học có liên quan với trung bình số học Giả sử chúng
ta thực hiện N thí nghiệm độc lập, trong mỗi lần thí nghiệm đại lượng
X nhận giá trị xác định: giả sử giá trị x1 xuất hiện m1 lần, giá trị x2
xuất hiện m2 lần, nói chung, giá trị xi xuất hiện mi lần Công thức tính trung bình số học các giá trị quan trắc đại lượng X sẽ là
N
m x m
x m x m
m m
m x m
x m x X
+++
2 2 1 1
* 2
++
i
n i i i
i i
n
N
m x N
m x N
m x N
i∗ = là tần suất (hay xác suất thống kê)
Như vậy, trung bình số học của các giá trị quan trắc của đại lượng ngẫu nhiên bằng tổng của các tích của tất cả các giá trị có thể có của đại lượng ngẫu nhiên với tần suất của những giá trị đó
Đối với đại lượng ngẫu nhiên liên tục X kỳ vọng toán học tính theo công thức
Trang 6Cụm từ “hay xảy ra nhất” chỉ hoàn toàn chính xác đối với các đại lượng
ngẫu nhiên rời rạc, đối với đại lượng ngẫu nhiên liên tục thì mốt là giá trị
mà tại đó mật độ xác suất cực đại Người ta ký hiệu mốt bằng chữ M
Trên hình 1.1 biểu diễn mốt của các đại lượng ngẫu nhiên rời rạc và liên
Hình 1.1 Biểu diễn mốt của các đại lương ngẫu nhiên rời rạc và liên tục
Trong trường hợp tổng quát thì mốt và kỳ vọng toán học của đại
lượng ngẫu nhiên không trùng nhau Khi nào phân bố là đối xứng và có
mốt (tức có một mốt) và tồn tại kỳ vọng toán học thì kỳ vọng toán học
trùng với mốt và tâm đối xứng của phân bố
3) Trung vị của đại lượng ngẫu nhiên (thường chỉ dùng cho đại
lượng liên tục) là giá trị Me của nó sao cho
) (
)
Trên đồ thị phân bố, trung vị là hoành độ của điểm mà diện tích giới
hạn bởi đường cong phân bố bị chia làm đôi Trong trường hợp phân bố
đối xứng có mốt thì trung vị trùng với kỳ vọng toán học và mốt
s i
Xo = − (1.12)
gọi là đại lượng ngẫu nhiên quy tâm tương ứng của đại lượng X Dễ dàng thấy rằng kỳ vọng toán học của đại lượng ngẫu nhiên quy tâm bằng không
Các mômen của đại lượng ngẫu nhiên quy tâm được gọi là các mômen tâm Mômen tâm bậc s của đại lượng ngẫu nhiên X là kỳ vọng toán học của luỹ thừa bậc s của đại lượng ngẫu nhiên quy tâm tương ứng
] ) [(
M ] [ M ]
Trang 7( )
∑
=
−
= n
i
i
s x i
1
μ , (1.14) còn đối với đại lượng ngẫu nhiên liên tục:
∫
∞
∞
−
−
x
μ (1.15)
Rõ ràng đối với đại lượng ngẫu nhiên bất kỳ mômen tâm bậc một
bằng không
Tồn tại các công thức liên hệ giữa các mômen tâm và gốc như sau:
⎪
⎪
⎭
⎪
⎪
⎬
⎫ +
−
=
−
=
=
, 2 3
,
, 0
3 2 3
3
2 2 2 1
x x
x
m m
m
α α
μ
α μ
μ
(1.16)
6) Mômen tâm bậc hai là đặc trưng đặc biệt quan trọng trong số các
mômen khác, được ký hiệu là D X [ ] (hoặc Dx) và thường gọi là
phương sai:
] [ M ]
[ D
2 2
o
X
X =μ = (1.17) Như vậy, phương sai của đại lượng ngẫu nhiên X là kỳ vọng toán
học của bình phương đại lượng ngẫu nhiên quy tâm tương ứng
Các công thức để tính trực tiếp phương sai của các đại lượng ngẫu
nhiên rời rạc và liên tục tuần tự là:
∑
=
−
= n
i
i x
x X
1
2
] [
D , (1.18)
∫
∞
∞
−
−
[
D 2 (1.19)
Phương sai của các đại lượng ngẫu nhiên là đặc trưng phân tán, tản mạn của những giá trị đại lượng ngẫu nhiên xung quanh kỳ vọng toán học của nó
7) Phương sai có thứ nguyên bình phương của đại lượng ngẫu nhiên
Để đặc trưng rõ hơn độ tản mạn người ta dùng một đại lượng có thứ
nguyên trùng với thứ nguyên của đại lượng ngẫu nhiên gọi là độ lệch bình phương trung bình σ [ ]X (hay ký hiệu bằng σx):
] [ D ]
σ (1.20) Phương sai và độ lệch bình phương trung bình có thể tính theo mômen gốc bậc hai α2 và kỳ vọng toán học bằng các công thức:
⎪⎭
⎪
⎬
⎫
−
=
=
−
=
,
2 2
2 2
x x
x
x x
m D
m D
α σ
α
(1.21)
8) Mômen tâm bậc ba μ3 dùng để đặc trưng tính bất đối xứng của
phân bố Nếu phân bố đối xứng đối với kỳ vọng toán học thì μ3 (và tất
cả các mômen bậc lẻ) bằng không (xét theo cấu trúc của các công thức (1.14) và (1.15))
Mômen tâm bậc ba có thứ nguyên lập phương đại lượng ngẫu nhiên Người ta dùng đại lượng
33
σ
μ
=
k
S (1.22) không có thứ nguyên để đặc trưng cho tính bất đối xứng của phân bố,
được gọi là hệ số bất đối xứng Khi Sk > 0 ta có phân bố bất đối xứng dương (đường cong 1), khi Sk < 0 − bất đối xứng âm (đường cong 2) trên hình 1.2
Trang 8Hình 1.2 Các đường cong phân bố bất đối xứng
9) Mômen tâm bậc bốn dùng để đặc trưng “độ dốc”, tức mức độ
đỉnh nhọn hay đỉnh dẹt của phân bố Người ta dùng đại lượng gọi là độ
nhọn Ex của đại lượng ngẫu nhiên liên quan với mômen bậc bốn như
μ
x
E (1.223) Đối với luật phân bố chuẩn rất quan trọng và thường gặp trong tự
hơn so với phân bố chuẩn sẽ có Ex < 0 (xem hình 1.3)
Hình 1.3 Các đường cong phân bố có độ nhọn khác nhau
10) Nhiều khi người ta sử dụng những mômen tuyệt đối (gốc và tâm) mà trong số đó thường dùng nhất là mômen tâm tuyệt đối bậc một:
[ X mx ]
M X
M ⎢⎣ ⎡ ⎥⎦ ⎤ = −
1
γ , (1.24) gọi là độ lệch trung bình số học, cũng đặc trưng cho độ tản mạn
1.2 Luật phân bố chuẩn
Trong lý thuyết xác suất người ta đặc biệt quan tâm tới một kiểu luật
phân bố gọi là luật phân bố chuẩn (hay phân bố Gauss) Đây là kiểu phân
bố thường gặp nhất trong thực tế Người ta đã chứng minh được rằng tổng của một số lượng đủ lớn các đại lượng ngẫu nhiên độc lập (hoặc phụ thuộc ít) tuân theo những quy luật phân bố bất kỳ nào đó sẽ xấp xỉ tuân theo quy luật chuẩn và điều này được thể hiện càng chính xác nếu lấy tổng của càng nhiều các đại lượng ngẫu nhiên Điều hạn chế chủ yếu là các đại lượng ngẫu nhiên được cộng lại phải có vai trò đều nhau và tương đối nhỏ trong tổng chung
Trang 9Quy luật phân bố chuẩn được đặc trưng bởi mật độ xác suất dạng:
( )
2 2
2
2
1 )
π σ
m x
e x
f
−
−
= , (1.25) trong đó m− kỳ vọng toán học của đại lượng ngẫu nhiên X , σ − độ
lệch bình phương trung bình của nó
Hình 1.4 Đồ thị hàm mật độ phân bố chuẩn
Đường cong phân bố theo luật chuẩn có dạng hình đồi đối xứng
(hình 1.4) Tung độ cực đại của đường cong bằng
π
σ 2
1 ứng với hoành độ x=m Xa dần m mật độ phân bố giảm đi và khi x→± ∞
đường cong tiệm cận dần tới trục hoành Điểm m là tâm đối xứng của
phân bố, gọi là tâm tản mạn; tham số σ là đặc trưng tản mạn Khi σ
tăng thì tung độ cực đại giảm và đường cong phân bố trở nên phẳng hơn,
duỗi dài theo trục hoành, ngược lại, khi σ giảm đường cong phân bố nhô
cao lên trên, đồng thời co hẹp hai bên lại
Tính toán các đặc trưng bằng số của phân bố chuẩn cho các kết quả
sau: μ0 = 1 ; μ1 = 0 (và tất cả các mômen bậc lẻ bằng không);
; 15 ;
3
6
4 4
2
theo công thức truy hồi μs = ( s − 1 ) σ2μs−2; Sk = 0 ; Ex = 0
Để tính được xác suất mà đại lượng ngẫu nhiên X tuân theo quy luật chuẩn với các tham số m và σ rơi vào khoảng giá trị từ α tới β
phải dùng công thức tổng quát
) ( ) ( )
P < < = − , (1.26) trong đó F ( x ) − hàm phân bố của đại lượng ngẫu nhiên X tính theo công thức (1.5):
dx e
dx x f x
2
2 ) (
2
1)
()
π
Nếu thay biến x − m = t
σ có thể dẫn tích phân trên tới dạng
dt e x
Tích phân (1.27) không biểu thị được bằng các hàm cơ bản, nhưng
có thể tính nó qua hàm đặc biệt biểu thị tích phân xác định của biểu thức
π
φ , (1.28) thì ta tính
Trang 10β β
X
Như vậy, chúng ta đã biểu thị xác suất của đại lượng ngẫu nhiên X
phân bố theo luật chuẩn với các tham số bất kỳ rơi vào khoảng giá trị cho
trước từ α đến β qua hàm phân bố quy chuẩn φ * x ( ) ứng với luật
phân bố chuẩn đơn giản nhất có các tham số tuần tự là m=0 và σ =1
Hàm φ * x ( ) đã được bảng hóa và các giá trị của nó có ở các sách giáo
khoa về lý thuyết xác suất và toán thống kê bất kỳ, ở các tài liệu chuyên
khảo và các cẩm nang toán học Bảng 1.1 là một dạng thuộc loại các bảng
đó
Độ lệch xác suất Trong nhiều ứng dụng lý thuyết xác suất người ta
thường dùng một đặc trưng tản mạn gọi là độ lệch xác suất, ký hiệu bằng
E
Độ lệch xác suất của đại lượng ngẫu nhiên X phân bố theo luật
chuẩn là nửa độ dài của một đoạn đối xứng qua tâm tản mạn mà xác suất
rơi vào đó bằng 0,5 (xem hình 1.5)
Theo tính chất của hàm φ *
) ( 1 ) ( x = − ∗ − x
suy ra
5 , 0 1
,
do đó
75 , 0
Hình 1.5 Biểu diễn độ lệch xác suất
Theo bảng giá trị của hàm φ∗ ta tìm ngược lại được
Trang 11Bảng 1.1 Bảng các giá trị của tích phân xác suất ∫
2
1 ) (
π φ
Trong mục 1.1 ta đã định nghĩa hàm phân bố tích phân F (x), theo
đó đối với x bất kì có thể xác định được xác suất sự kiện đại lượng ngẫu
nhiên X nhận các giá trị không lớn hơn x (gọi là xác suất không vượt
quá) Trong nhiều trường hợp thực tế cần giải quyết bài toán ngược lại:
theo một xác suất không vượt quá cho trước F ( x ) = p xác định giá trị
p
x Để kí hiệu các giá trị xp trong trường hợp này trong toán học thống
kê sử dụng thuật ngữ quantil, cũng có những sách gọi là điểm phần trăm
(percentage point) của phân bố
Vậy quantil-p hay quantil-p% (nếu p cho bằng %) là giá trị của đại
lượng ngẫu nhiên xp ứng với giá trị đã cho của xác suất không vượt quá
p x
F( )= Tương tự với các quantil, trong khí tượng, thủy văn người ta sử dụng các tung độ − pˆ của đường cong độ đảm bảo (1.2) Tung độ đường
cong độ đảm bảo là giá trị của đại lượng ngẫu nhiên X (kí hiệu bằng xˆ p) ứng với xác suất vượt quá Φ ( x ) = p ˆ
Vì Φ ( x ) = 1 − F ( x ) (công thức 1.2) nên p và pˆ liên hệ bằng công thức
p
p ˆ =1 − hay (nếu p cho bằng %) p ˆ =100 − p (1.32)
1.4 Một số luật phân bố khác
1.4.1 Phân bố chuẩn loga
Nhiều yếu tố khí tượng thủy văn có thể được xem như các đại lượng ngẫu nhiên có phân bố bất đối xứng dương Đó là do những yếu tố đó thường có những giá trị luôn lớn hơn không hoặc một giới hạn dưới nào
đó, nhưng không có giới hạn trên về lý thuyết Trong những trường hợp
đó phân bố của đại lượng ngẫu nhiên không tuân theo luật phân bố chuẩn
Tuy nhiên thường phân bố bất đối xứng có thể dẫn tới phân bố chuẩn bằng cách đổi biến thành logarit của nó
Đại lượng ngẫu nhiên không âm X được gọi là phân bố chuẩn loga nếu như logarit của nó
X
Z = ln
Trang 12phân bố theo luật chuẩn
Hàm phân bố đối với đại lượng ngẫu nhiên X trong trường hợp này
1)(
00
e u
F
x x
z u
1 )
( 1
0 0
)
x e
x u
f x
x x
Như vậy phân bố chuẩn loga được xác định bằng hai tham số: m z
và σz Đại lượng m z là kì vọng toán học của đại lượng ngẫu nhiên Z,
còn σz − độ lệch bình phương trung bình của nó
Phương sai, độ lệch bình phương trung bình và kì vọng toán học của
các đại lượng ngẫu nhiên X và Z liên hệ với nhau bằng các biểu thức:
=
2 2
x
x z
2
2 2
x
x x
z x z
m m
m
(1.36)
Sử dụng (1.34), (1.36), (1.37) có thể viết lại biểu thức hàm mật độ
xác suất phân bố chuẩn loga (1.35) như sau:
0
1 2
2 ln
1 2
2 ln 2
1 ln ln
2
2
1ln
2
1)
x x m
x x m x
x x
e m
x
x f
σ σ
σ π
(1.37)
Nếu luật phân bố của đại lượng ngẫu nhiên X chưa biết và phân bố chuẩn loga được sử dụng để xấp xỉ phân bố thực nghiệm của X thì các trị
số m và z σz đối với đại lượng ngẫu nhiên Z có thể khác với m z và σz
nhận được qua mx và σx theo các công thức (1.36) Sự khác biệt sẽ càng lớn nếu luật phân bố của đại lượng ngẫu nhiên X càng khác với
phân bố chuẩn loga
Trong thực tế thường là phân bố thực của đại lượng ngẫu nhiên nghiên cứu không được biết, nên có thể có hai phương án tính toán: 1) ước lượng m z và σz thực hiện theo chuỗi giá trị của đại lượng ngẫu nhiên Z;
2) theo chuỗi giá trị của đại lượng ngẫu nhiên X ước lượng m và x x
σ , sau đó theo các công thức (1.36) xác định m z và σz
Hệ số bất đối xứng của phân bố chuẩn loga xác định theo công thức
x
m m
e
Me = (1.40)
Trang 13Đồ thị hàm mật độ xác suất và hàm phân bố chuẩn loga có dạng như
trên hình 1.6
Hình 1.6 Hàm mật độ xác suất theo quy luật chuẩn loga với
25,2
;5,
x
Xác suất theo quy luật phân bố chuẩn loga được xác định theo bảng
phân bố chuẩn tiêu chuẩn (bảng 1.1), nhưng thay vì đại lượng ngẫu nhiên
nghiên cứu X người ta xét đại lượng Z =lnX
Thí dụ 1.2: Cho bảng số liệu quan trắc lưu lượng lũ năm sông Đà
tại Hòa Bình (bảng 1.2a) Giả sử phân bố của lưu lượng này có dạng phân
bố chuẩn loga, xác định hàm mật độ phân bố đó
Giải: Tính trực tiếp các đặc trưng thống kê (chương 2) của đại lượng
ngẫu nhiên X theo bảng 1.2:
07,270
~
;0,1763
Thế các giá trị này vào (1.37) ta được biểu thức hàm mật độ phân bố
của đại lượng ngẫu nhiên X như sau:
15 , 0 49 , 7 ln4,0
1)(
−
=
x e x x
f
và đồ thị hàm mật độ phân bố chuẩn loga này có dạng như trên hình 1.7
Bảng 1.2 Lưu lượng lũ năm sông Đà trạm Hòa Binh thời kỳ 1929-2002 (a)
Năm Q Năm Q Năm Q Năm Q Năm Q
Trang 14Hình 1.7 Đồ thị hàm mật độ phân bố chuẩn loga
đối với lưu lượng sông Đà tại Hòa Bình
Có những biến thể khác của biến đổi chuẩn loga, ví dụ Alexeev đề
xuất biến đổi Z=ln(X −a), trong đó a tham số bổ sung (tham số thứ −
ba) Phân bố này được gọi là phân bố chuẩn loga ba tham số; phân bố này
có giới hạn dưới bằng a
1.4.2 Phân bố của tập mẫu các giá trị cực trị (phân bố Gumbel)
Luật phân bố Gumbel thường áp dụng đối với đại lượng ngẫu nhiên
mô tả các đặc trưng cực trị của các yếu tố khí tượng thủy văn, ví dụ nhiệt
độ không khí hoặc nước tối cao, tối thấp năm tại trạm, mực nước biển tối
cao, tối thấp năm, lưu lượng sông tối cao, tối thấp năm
Hàm phân bố Gumbel có dạng
y
e e x X P x
F( )= ( ≤ )= −− (1.41) hay hàm độ đảm bảo
y
e e x
X P
x = ≥ = − − −
Φ( ) ( ) 1 (1.42) với
)(x q
y=α − ; (1.43)
−
q mod của đại lượng ngẫu nhiên X, bằng
x x
α
p p
y q
xˆ = + ˆ (1.46) Giá trị yˆ có thể xác định từ (1.42) sau hai lần lấy logarit p
y p (1.47) trong đó p độ đảm bảo cho bằng % Trong bảng 1.3 dẫn các giá trị − yˆ p
ứng với một số giá trị độ đảm bảo hay sử dụng trong thực hành
Bảng 1.3 Các giá trị yˆ p ứng với một số độ đảm bảo khác nhau
%
ˆp yˆ p ˆp % yˆ p ˆp % yˆ p
0,1 6,89 20 1,50 90 -0,83 0,5 5,29 30 1,03 95 -1,10
Trang 15q= x − (1.49) Các tham số y và σy được xác định tùy theo độ dài chuỗi phân tích
(bảng 1.4)
Tính tới công thức (1.43), biểu thức của hàm mật độ xác suất phân
bố Gumbel có dạng
f(x)=αe−α (x−q)−e−α(x−q) (1.50)
Từ (1.50) thấy rằng miền các giá trị có thể của đại lượng ngẫu nhiên
X là khoảng )(−∞,+∞ Phân bố này đơn trị xác định bằng các tham số
x
m và σx
Bảng 1.4 Những giá trị trung bình của các tham số y và σy
theo độ dài chuỗi n (theo Gumbel)
Để xác định hàm mật độ xác suất Gumbel của đại lượng ngẫu nhiên
X với số lượng n khá lớn các giá trị ta có thể tính m và x σx, sử dụng các
công thức (1.44), (1.45) tính α,q và thế vào công thức (1.50) Khi n nhỏ
q
,
α được tính theo các công thức (1.48), (1.49), trong đó y và σy xác
định theo bảng 1.4 tùy thuộc vào n
Thí dụ 1.3: Xác định hàm mật độ phân bố và mực nước tối cao 1%
độ đảm bảo (H1%) theo số liệu bảng 1.2b sử dụng luật phân bố Gumbel
Giải: 1) Tính m và x σx: m x =382,6; σx =18,6 2) Tra bảng 1.4 ứng với 55n= được y=0,5505; 1685σy =1, 3) Tính α và q theo các công thức (1.48-1.49):
4,373
;06,
f ; F ( x ) = e−e−0,06(x−373,4)
) 4 , 373 ( 06 , 0
1)()
6,40,364
%
Trang 16Hình 1.8 Tổ chức đồ, hàm mật độ (xanh) và hàm phân bố Gumbel (đỏ)
đối với mực nước tối cao năm trạm Hòn Dấu
2 Phương sai của đại lượng không ngẫu nhiên:
0 ] [
D c =
3 Đưa đại lượng không ngẫu nhiên ra ngoài dấu KVTH:
] [ M ] [
M cX = c X
4 Đưa đại lượng không ngẫu nhiên ra ngoài dấu phương sai:
] [ D ] [
D cX = c2 X ,
][]
5 KVTH của tổng các đại lượng nhẫu nhiên (ĐLNN):
] [ M ] [ M ] [
(đúng đối với tổng của nhiều số hạng)
6 KVTH của hàm tuyến tính của một số đối số ngẫu nhiên:
n
X X
M
1 1
n
1 i
n
1 i
b X a b X a
b X
a b
X a
i n
i i i
i n
i
i i i
i
+
= +
= +
i
X
1 1
n
1 i
1 i 2 n
XY ] = M [ ] × M [ ] + [
Nếu X và Y không tương quan:
Trang 17] [ M ] [ M ] [
i
X
1 1
] [ M
10 Phương sai của tích các ĐLNN:
][D]
[D]
[D][D][
] [ D ] [ D ] [
D X & Y & = X & Y &
B Kỳ vọng toán học và phương sai của một số đại lượng ngẫu nhiên
Định lý 1: Nếu X1, X2, , Xn − những đại lượng ngẫu nhiên
phân bố như nhau, KVTH của từng ĐLNN trong số chúng bằng a, thì
KVTH của tổng các ĐLNN đó bằng na, còn KVTH của trung bình số
học bằng a:
na X
X X
X X
X + + + n] = M [ ] + M [ ] + + M [ n] =
[
a na n X X
X n n
X X
[ M 1
Định lý 2: Nếu X1, X2, , Xn − những ĐLNN phân bố như nhau,
phương sai của từng ĐLNN bằng σ2, thì phương sai của tổng bằng
2
σ
n , còn phương sai của trung bình số học bằng σ2/ n:
2 2
1 2
1 ] D [ ] D [ ] D [ ]
[
n n
n X X
X n n
X X
1 2 2
⎢⎣
Định lý 3: KVTH của ĐLNN phân bố theo quy luật nhị thức, tức
của số lần xuất hiện sự kiện A trong n thí nghiệm độc lập, mà trong
từng thí nghiệm sự kiện ấy có thể xuất hiện với xác suất không đổi p,
bằng np, còn phương sai bằng npq, với q = 1 − p Chứng minh: Xem ĐLNN trên là tổng của các ĐLNN X1,X2, ,Xn biểu thị số lần xuất hiện sự kiện A tuần tự trong thí nghiệm thứ nhất, thứ hai, , thứ n Vậy chúng chỉ có thể có hai giá trị: bằng 0 nếu
sự kiện A không xảy ra trong lần thí nghiệm i (i = 1 , 2 , , n), bằng 1 nếu A xảy ra Vậy X1,X2, ,Xn phân bố như nhau và độc lập, quy luật phân bố của từng ĐLNN trong chúng có dạng sau:
X
X ] = M [ ] = = M [ n] = 0 ⋅ + 1 ⋅ = [
pq q p pq p q q p
p p q
p X
X
=+
=+
=
⋅
−+
)1()
0(][D
][D][D
2 2
2 2
2 1
(theo công thức (1.17))
Do đó:
np X
X X
X ] = M [ + + + n] = [
npq X
X X D
X ] = [ + + + n] = [
Định lý 4: KVTH của tần suất của sự kiện A trong n thí nghiệm độc lập, mà trong từng thí nghiệm sự kiện A có thể xảy ra với xác suất không đổi p, bằng chính xác suất p, còn phương sai bằng pq / n Chứng minh: Tần suất của sự kiện A trong n thí nghiệm có thể được xem như trung bình số học của các ĐLNN X1,X2, ,Xn phân bố như nhau, độc lập:
Trang 18X X
M M
2 1
2 1
2 1
*
p np n X X
X n
X X
X n
n
X X
X p
n n
n
=
= +
+ +
=
+ + +
X n
n
X X
X p
n
n
=
=+++
1 2
2 1
*
1
D1
DD
C Mã Fortran của chương trình con tính giá trị hàm mật độ xác suất
của phân bố chuẩn theo công thức (1.24)
C Từ x , m , σ (s) tra xác suất phân bố F(x) =φ* ((x−m) /σ), φ* − tích phân
C xác suất (bảng 1.1), được lưu trong file BANG1_1.TKE với quy cách ghi như
C sau: một dòng tiêu đề trên cùng, nối tiếp sau từng cặp đối số và hàm φ , giá *
C trị nhỏ nhất của đối số: -3,99, lớn nhất: 3,99
FUNCTION TraB1_1 (x, m, s) REAL x, m, s, z, v, z1, z2, v1, v2
z = (x-m)/s
IF (z.LT.-3.99) THEN v=0.000003
ELSE IF (z.GT.3.99) THEN v=0.999967
ELSE OPEN (1, FILE = ‘bang1_1.tke’) READ (1, *)
READ (1, *) z1, v1
2 READ (1, *) z2, v2
IF (z.GE.z1.AND.z.LE.z2) THEN
v = v1+(v2-v1)/(z2-z1)*(z-z1) CLOSE (1)
GOTO 1 ELSE z1 = z2 v1 = v2 GOTO 2 ENDIF ENDIF
1 TraB1_1 = v RETURN
END
Trang 19Chương 2 NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT
XỬ LÝ SỐ LIỆU QUAN TRẮC
Giả sử cần nghiên cứu đại lượng ngẫu nhiên X nào đó mà luật
phân bố của nó chưa biết trước đích xác, phải xác định quy luật đó từ thí
nghiệm hay kiểm tra bằng thực nghiệm giả thuyết về một quy luật nào
đó Khi đó, người ta làm một loạt thí nghiệm với đại lượng ngẫu nhiên
X và trong mỗi thí nghiệm (quan trắc), đại lượng X nhận một giá trị
nhất định Tập hợp các số liệu quan trắc của đại lượng được gọi là tập
hợp thống kê đơn giản hay chuỗi thống kê đơn giản Thông thường, tập
hợp thống kê đơn giản được trình bày dưới dạng bảng
2.1 Hàm phân bố thống kê
Hàm phân bố thống kê của đại lượng ngẫu nhiên X là tần suất của
sự kiện X <x trong chuỗi thống kê đó
( ) x P ( X x )
F∗ = ∗ < (2.1)
Để tìm giá trị của hàm phân bố thống kê ứng với x cho trước chỉ
cần đếm số quan trắc mà trong đó đại lượng X nhận giá trị nhỏ hơn x
và chia cho tổng số quan trắc đã thực hiện n
Hàm phân bố thống kê của đại lượng ngẫu nhiên bất kỳ - rời rạc hay
liên tục - sẽ là một hàm bậc thang gián đoạn (hình 2.1) Khi tăng số quan
trắc n , theo định lý Becnuli, với x bất kỳ tần suất sự kiện X < x tiến dần tới xác suất (hội tụ về xác suất) của sự kiện đó Do đó, khi tăng n
hàm phân bố thống kê F∗( x) sẽ tiến tới hàm phân bố thực thụ F ( x) của
đại lượng ngẫu nhiên X
x
F*(x)
1
Hình 2.1 Biểu diễn hàm phân bố thống kê
Nếu số quan trắc lớn (cỡ vài trăm quan trắc) tập hợp thống kê đơn giản sẽ cồng kềnh và ít trực quan, người ta phải sơ lược xử lý nó và xây dựng “chuỗi thống kê” dưới dạng bảng như sau:
Khoảng trị I i x1; x2 x2; x3 x3; x4 x i ; xi 1 x ; k x k+ 1 Tần suất ∗
i
p p1∗ p∗2 p∗3 p i∗ p∗k
và dựa vào bảng này mà xây dựng tổ chức đồ (histogram) (hình 2.2) Khi
tăng số quan trắc tổ chức đồ sẽ là đồ thị của hàm mật độ phân bố đại
lượng ngẫu nhiên X
Từ chuỗi thống kê hay tổ chức đồ, có thể nhận được đồ thị gần đúng của hàm phân bố thống kê (hình 2.3)
Trang 20Hình 2.3 Đồ thị gần đúng của hàm phân bố thống kê
Đối với các phân bố thống kê người ta cũng tính được các đặc trưng
bằng số tương tự như với các đặc trưng bằng số của các đại lượng ngẫu
nhiên:
- Trung bình số học (hay trung bình thống kê) của các giá trị quan
trắc của đại lượng ngẫu nhiên:
[ ]
n
x X
m
n
i i x
D
n
i
x i x
là trơn là chọn hợp lý các tham số đó Một trong những phương pháp
chọn hợp lý là phương pháp mômen, theo phương pháp này một số đặc trưng bằng số quan trọng nhất (các mômen) của phân bố lý thuyết được cho bằng các đặc trưng thống kê tương ứng Thí dụ, nếu muốn mô tả
phân bố của đại lượng ngẫu nhiên X bằng phân bố chuẩn
2 2
22
πσ
m x e x
f
−
−
=)(thì người ta chọn
∗
=m x
m và σ = D =σ∗ = D∗
2.2 Sự phù hợp của phân bố lý thuyết và phân bố thống kê
Giả sử phân bố thống kê đã được là trơn bằng một đường cong lý thuyết f (x ) nào đó Dù đường cong lý thuyết này được chọn tốt thế nào chăng nữa cũng không tránh khỏi những sai khác nào đó Vậy xuất hiện câu hỏi: những sai khác này là ngẫu nhiên liên quan tới số lượng quan trắc hạn chế hay những sai khác này là đáng kể và liên quan tới việc chọn sai đường cong lý thuyết Để trả lời câu hỏi này cần “những tiêu chuẩn phù hợp” Tư tưởng của việc sử dụng các tiêu chuẩn phù hợp như sau:
Trên cơ sở dữ liệu thống kê đã có, cần kiểm tra một giả thuyết H
Trang 21rằng đại lượng ngẫu nhiên X có hàm phân bố F ( x) Để chấp nhận hoặc
bác bỏ giả thuyết H , người ta xét đại lượng U đặc trưng cho mức độ
bất phù hợp của phân bố lý thuyết và phân bố thống kê Đại lượng U có
thể được chọn theo những cách khác nhau, thí dụ, đó có thể là tổng các
bình phương của độ lệch giữa xác suất lý thuyết pi và tần suất tương
ứng pi∗ hay tổng của những bình phương độ lệch đó nhưng với những hệ
số tỷ trọng nào đó, hay độ lệch cực đại của hàm phân bố thống kê F∗( x)
và hàm lý thuyết F ( x)
Giả sử đại lượng U đã chọn được theo một cách nào đó Rõ ràng
U sẽ là một đại lượng ngẫu nhiên Quy luật phân bố của nó phụ thuộc
vào quy luật phân bố của đại lượng ngẫu nhiên X và vào số lượng quan
trắc n Giả sử quy luật phân bố này đã được biết Nhờ dữ liệu thống kê
thấy rằng đại lượng đặc trưng mức độ sai khác U nhận giá trị u Sai
khác này là do những nguyên nhân ngẫu nhiên hay do có sự khác nhau
đáng kể giữa phân bố lý thuyết và thống kê, tức do giả thuyết H sai?
Muốn giải đáp câu hỏi này người ta giả thiết rằng giả thuyết H đúng và
tính xác suất mà do những nguyên nhân ngẫu nhiên liên quan tới số
lượng quan trắc còn thiếu mà đại lượng U không nhỏ hơn giá trị u đã
thấy qua quan trắc, tức tính xác suất của sự kiện
u
U ≥
Nếu xác suất này rất nhỏ, thì phải bác bỏ giả thuyết H ; nếu xác
suất này đáng kể thì người ta công nhận rằng các số liệu quan trắc không
mâu thuẫn với giả thuyết H
2.2.1 Tiêu chuẩn χ2
Trong một số phương pháp chọn U , quy luật phân bố của U có
những tính chất rất đơn giản và khi n đủ lớn thực tế nó không phụ thuộc
vào hàm F (x ) Tiêu chuẩn χ2 của Pierson là một trong những tiêu chuẩn phù hợp được ứng dụng nhiều nhất
Giả sử thực hiện n quan trắc độc lập Kết quả quan trắc được dẫn
tới k khoảng giá trị và cho dưới dạng chuỗi thống kê (bảng phân bố tần suất) Đòi hỏi kiểm tra xem những dữ liệu quan trắc này có phù hợp với
giả thiết rằng đại lượng ngẫu nhiên X có quy luật phân bố F (x ) đã cho không
Biết quy luật phân bố lý thuyết F ( x), có thể tính những xác suất lý
thuyết của sự kiện X rơi vào từng khoảng giá trị:
k p p
p1, 2, ., Bây giờ ta chọn làm mức độ sai khác giữa phân bố lý thuyết và thống kê một tổng như sau
i p p C
U
1
2 (2.4) Các hệ số tỷ trọng Ci (tỷ trọng của các khoảng giá trị) có ý nghĩa là những độ lệch ứng với những khoảng giá trị khác nhau không nên xem là ngang hàng nhau về mức ý nghĩa, cùng một độ lệch pi∗ − pi có thể ít đáng kể khi bản thân xác suất pi lớn nhưng rất đáng kể khi pi nhỏ Pierson đã chứng minh rằng nếu lấy
i i p
n
C = ,
thì với n lớn, luật phân bố của U có những tính chất rất đơn giản: nó
thực tế không phụ thuộc vào hàm F (x ) và số quan trắc n , mà chỉ phụ thuộc vào số những khoảng giá trị k , cụ thể khi n tăng quy luật này sẽ
Trang 22dần tới phân bố χ2 1 Vậy
p p n U
1
2 2
np m U
1
2 2
χ (2.5) Phân bố χ2 phụ thuộc vào tham số r, gọi là số bậc tự do
Số bậc tự do r bằng số các khoảng giá trị k trừ đi số các điều kiện
liên hệ mà p∗i phải tuân theo (số các điều kiện ràng buộc) Thí dụ về các
điều kiện ấy có thể là:
1 Phân bố χ 2 với r bậc tự do là phân bố của tổng các bình phương của r đại
lượng ngẫu nhiên độc lập, từng đại lượng trong số chúng tuân theo luật phân bố
chuẩn với kỳ vọng toán học bằng không và phương sai bằng đơn vị Phân bố này
được đặc trưng bởi hàm mật độ
0 2
2
2 2
u
u u
r u
k
u r
r r
e
khi
khi
) (
trong đó Γ = ∞∫ − − −
0
1 )
i p m x
Phân bố χ2 cho phép đánh giá mức độ phù hợp của phân bố lý
thuyết và thống kê Giả thiết đại lượng X đúng là phân bố theo quy luật
)
(x
F Khi đó xác suất p xác định từ bảng này sẽ là xác suất của sự
kiện: do những nguyên nhân ngẫu nhiên đơn thuần, sai khác của phân bố
lý thuyết và thống kê tính theo biểu thức (2.5) sẽ không nhỏ hơn giá trị 2
χ mà ta thực thấy trong chuỗi quan trắc Nếu xác suất này rất nhỏ (nhỏ đến mức sự kiện với xác suất như vậy có thể xem như thực tế không khả
dĩ), thì phải xem kết quả quan trắc mâu thuẫn với giả thuyết H rằng quy luật phân bố của đại lượng X là F ( x) Cần phải bác bỏ giả thuyết như
là một giả thuyết không hiện thực Nếu xác suất p khá lớn, ta có thể công nhận những khác biệt giữa phân bố lý thuyết và thống kê là không
đáng kể, ngẫu nhiên Giả thuyết H có thể xem là hiện thực hoặc ít ra là
không mâu thuẫn với dữ liệu quan trắc
Trang 23Bảng 2.1 Những giá trị χ2 phụ thuộc vào r và p
2.2.2 Sơ đồ ứng dụng tiêu chuẩn χ2 để đánh giá sự phù hợp
1) Xác định độ sai khác χ2 theo công thức (2.5)
2) Xác định số bậc tự do r như là số khoảng giá trị k trừ đi số liên
hệ s : r= k−s 3) Theo r và χ2 nhờ bảng 2.1 tìm xác suất p của sự kiện: đại lượng có phân bố χ2 với r bậc tự do vượt quá giá trị χ2 đã tính được Nếu p rất nhỏ, giả thuyết bị bác bỏ (trong thực tế nếu p nhỏ hơn 0,1 thì nên kiểm tra lại thí nghiệm); nếu p khá lớn, có thể xem giả thuyết không mâu thuẫn với thực đo
Khi sử dụng tiêu chuẩn χ2, không những chỉ tổng số quan trắc n
đủ lớn mà cả số quan trắc m i trong từng khoảng giá trị cũng phải đủ lớn Trong thực tế tính toán, nên có trong mỗi khoảng giá trị không ít hơn 5 −
10 quan trắc, khi số đó ít hơn thì nên nhóm một số khoảng giá trị lại với nhau
Thí dụ: 1) Cho chuỗi thống kê gồm 500 quan trắc đã được nhóm
thành các khoảng giá trị và được ghi vào bảng như sau:
Trang 242 2
2 ) (
2
1 )
π σ
m x
e x
2 2
2 448 , 1
1 )
3) Kiểm tra sự phù hợp giữa phân bố lý thuyết với phân bố thống
kê: Dùng quy luật chuẩn lý thuyết f ( x) trên đây, tìm các xác suất rơi vào
những khoảng giá trị theo công thức:
np m
Tính số bậc tự do k=8, s (số liên hệ) = 3 (ở đây dùng quy luật chuẩn, lấy cả 3 điều kiện) Vậy r =8−3=5 Theo bảng 2.1 tìm được: với r =5, 94χ2 =3, thì p=0,56
Xác suất 56p=0, không nhỏ Vậy giả thuyết rằng đại lượng quan trắc có phân bố chuẩn với m=0,168 và σ =1,448 có thể xem là hiện thực
2.2.3 Tiêu chuẩn phù hợp của Kolmogorov
Kolmogorov A N đã dùng giá trị cực đại của mô đun hiệu giữa hàm phân bố thống kê F∗( x) và hàm phân bố lý thuyết
)()(
làm mức độ bất phù hợp giữa chúng Chọn như vậy có lợi là rất dễ tính
D và D có quy luật phân bố khá đơn giản Kolmogorov đã chứng minh được rằng dù đại lượng ngẫu nhiên X có hàm phân bố như thế nào thì khi tăng không ngừng số quan trắc độc lập n , xác suất của bất đẳng thức
P(λ) 1 ( 1) 2 2λ2 (2.6) Những giá trị của xác suất P(λ) tính theo công thức (2.6) dẫn trong bảng 2.2
Sơ đồ sử dụng tiêu chuẩn Kolmogorov: Dựng hàm phân bố thống kê
Trang 25( x
F∗ và hàm phân bố lý thuyết F x( ), xác định D cực đại Sau đó xác
định đại lượng λ = D n và theo bảng 2.2 tìm xác suất P(λ) Nếu xác
suất P(λ) rất nhỏ thì phải bác bỏ giả thuyết, nếu xác suất P(λ) khá lớn
thì có thể xem giả thuyết phù hợp với số liệu quan trắc
Bảng 2.2 Những giá trị của xác suất P(λ) phụ thuộc vào λ
Tiêu chuẩn Kolmogorov đơn giản hơn so với tiêu chuẩn χ2 nên
người ta ưa dùng Nhược điểm: chỉ dùng trong trường hợp hàm F x( )
hoàn toàn biết trước từ những lập luận lý thuyết, tức biết trước cả dạng và
những tham số trong nó Trường hợp này ít gặp trong thực tế Thường từ
suy luận lý thuyết ta chỉ biết trước dạng tổng quát của hàm F x( ), còn
những tham số bằng số của nó được xác định theo tài liệu thống kê
Trong khi dùng tiêu chuẩn Pierson, điểm này đã được tính đến bằng cách
giảm số bậc tự do của phân bố χ2 Tiêu chuẩn Kolmogorov không tính
đến điều đó Nếu cứ dùng tiêu chuẩn Kolmogorov trong những trường
hợp mà các tham số của phân bố lý thuyết được ước lượng theo số liệu
thống kê, thì tiêu chuẩn này sẽ cho những giá trị xác suất P(λ) rõ ràng
lớn hơn; vì vậy chúng ta sẽ có thể chấp nhận nhầm giả thuyết
2.3 Khái niệm về ước lượng tham số của phân bố
Để xác định quy luật phân bố, cần có tài liệu thống kê đủ rộng rãi cỡ vài trăm quan trắc Nhưng trong thực tế nhiều khi chúng ta chỉ có những tài liệu quan trắc khá hạn chế, cỡ vài chục số đo Khối lượng tài liệu này không đủ để tìm ra quy luật thống kê, nhưng có thể sử dụng để nhận một vài thông tin về đại lượng ngẫu nhiên, thí dụ, tính một số đặc trưng bằng
số quan trọng nhất như kỳ vọng toán học, phương sai, một vài mômen bậc cao hơn
Ta sẽ xét những bài toán về xác định các đặc trưng mà quy luật phân
bố phụ thuộc vào chúng, theo một lượng quan trắc hạn chế Một tham số bất kỳ tính được theo chuỗi quan trắc hạn chế sẽ chứa yếu tố ngẫu nhiên
Giá trị ngẫu nhiên gần đúng này được gọi là ước lượng của tham số Thí
dụ về ước lượng của kỳ vọng toán học là trung bình số học các giá trị quan trắc Sai số (chênh lệch giữa ước lượng và tham số) sẽ càng lớn nếu
số quan trắc càng ít Cần phải chọn ước lượng sao cho các sai số có thể cực tiểu
Có những đòi hỏi để đảm bảo cho ước lượng, với một ý nghĩa nào
đó, có chất lượng Thí dụ, nếu ta đòi hỏi sao cho ước lượng a~ khi tăng
số quan trắc phải tiến dần tới tham số a thì ước lượng a~ đó có tính chất vững chắc; nếu ước lượng a~ không có xu hướng vượt quá a hay nhỏ hơn a một cách hệ thống, thì ước lượng a ~ có tính chất không chệch; nếu ước lượng không chệch a~ có phương sai so với các ước lượng khác
là nhỏ nhất thì ước lượng a ~ có tính chất hữu hiệu
2.4 Ước lượng của kỳ vọng toán học và phương sai
Người ta chứng minh được rằng ước lượng của kỳ vọng toán học mà chúng ta dùng là trung bình số học các giá trị quan trắc *
m tính theo công thức (2.2)
Trang 26x m
là ước lượng vững chắc, không chệch và trong trường hợp đại lượng X
phân bố chuẩn là hữu hiệu
Ước lượng của phương sai D là phương sai thống kê *
D tính theo công thức (2.3)
n
m x D
Người ta loại trừ độ chệch này bằng cách nhân *
n
i
i ~)(
~
(2.8) hay
1
2 1
x D
2.5 Khoảng tin cậy và xác suất tin cậy
Kiểu ước lượng như trong mục 2.4 gọi là ước lượng điểm Nhiều khi
đòi hỏi không chỉ tìm giá trị bằng số phù hợp của tham số a , mà phải
đánh giá độ chính xác và độ tin cậy của nó, phải biết nếu thay tham số a bằng ước lượng điểm a~ thì có thể dẫn tới những sai số nào và có thể hy vọng rằng những sai số ấy không vượt quá một giới hạn cho trước với mức độ chắc chắn nào
Những bài toán kiểu như vậy đặc biệt cần thiết khi số lượng quan
trắc nhỏ, ước lượng điểm a~ ở mức độ lớn sẽ là ngẫu nhiên và phép thay
thế gần đúng a bằng a~ có thể dẫn tới những sai số nghiêm trọng
Để có khái niệm về độ chính xác và độ tin cậy của ước lượng a~ , trong toán học thống kê dùng khoảng tin cậy và xác suất tin cậy
Giả sử đối với tham số a đã nhận được ước lượng không chệch a~ Bây giờ cần đánh giá sai số có thể có khi dùng ước lượng đó Ta đặt ra một xác suất đủ lớn β nào đó (thí dụ, 99β =0,9 0,95 0, ) sao cho sự kiện với xác suất β có thể xem là thực tế đáng tin, và tìm một giá trị εsao cho
( a~− a <ε )=β
P (2.10)
Khi đó phạm vi của các giá trị sai số khả dĩ xuất hiện khi thay a bằng a~
sẽ chỉ là ± ; những sai số lớn hơn về giá trị tuyệt đối sẽ chỉ xuất hiện εvới xác suất nhỏ α = 1−β Viết lại (2.10) thành
(a−ε <a<a +ε )=β
P ~ ~ , (2.11) đẳng thức (2.11) có nghĩa là: với xác suất β , giá trị chưa biết của tham
số a nằm trong khoảng
)
~
Ở đây cần chú ý rằng đại lượng a không ngẫu nhiên, mà chính
khoảng Iβ ngẫu nhiên (a~ ngẫu nhiên, và 2ε ngẫu nhiên vì ε được tính theo các số liệu quan trắc) Vì vậy trong trường hợp này nên giải thích đại lượng β là xác suất của sự kiện: khoảng ngẫu nhiên Iβ phủ lên
Trang 27điểm a trên trục số (hình 2.4)
β
I
Hình 2.4 Biểu diễn khoảng tin cậy
Xác suất β gọi là xác suất tin cậy, còn khoảng Iβ gọi là khoảng tin
cậy Những ranh giới của khoảng Iβ: a1 = a~−ε và a2 = a~+ε gọi là
những ranh giới tin cậy
Ta xét vấn đề tìm các ranh giới tin cậy a1 và a2:
Giả sử đối với tham số a có ước lượng không chệch a~ Nếu như ta
biết trước luật phân bố của đại lượng a~ , thì bài toán tìm khoảng tin cậy
sẽ đơn giản: chỉ cần tìm một giá trị ε sao cho
( ~a− a <ε)= β
Khó khăn là ở chỗ luật phân bố của ước lượng a~ phụ thuộc vào luật
phân bố của đại lượng X và do đó, phụ thuộc vào những tham số chưa
biết của nó (cụ thể vào chính tham số a )
Để khắc phục khó khăn này, có thể sử dụng một phương pháp gần
đúng thô thiển như sau: thay những tham số chưa biết trong biểu thức của
ε bằng những ước lượng điểm Khi số lượng quan trắc khá lớn (khoảng
30
20÷ ), thì phương pháp này thường cho những kết quả tạm thoả mãn
2.5.1 Khoảng tin cậy đối với kỳ vọng toán học
Giả sử thực hiện n thí nghiệm độc lập với đại lượng ngẫu nhiên
X , các đặc trưng của nó - kỳ vọng toán học m và phương sai D chưa
biết Đối với những tham số này đã nhận được những ước lượng:
1
)
~ (
~
;
2 1
n
X m
n
i i n
i
i
Phải dựng khoảng tin cậy Iβ ứng với xác suất tin cậy β cho kỳ vọng
toán học m của đại lượng X Khi giải bài toán này ta nhớ lại rằng đại lượng m ~ là tổng của n đại
lượng ngẫu nhiên X i độc lập và phân bố như nhau, và do đó, theo định
lý tới hạn trung tâm, khi n đủ lớn luật phân bố của nó gần trùng với luật
phân bố chuẩn Trong thực tế, thậm chí với số lượng các số hạng không lớn lắm (khoảng 10÷20), luật phân bố của tổng có thể xem gần đúng là
chuẩn Vậy ta sẽ xuất phát từ chỗ đại lượng m~ phân bố theo luật chuẩn Các đặc trưng của luật này - kỳ vọng toán học và phương sai tuần tự bằng
m và D / n Giả sử đại lượng D đã biết, và ta tìm đại lượng εβ sao cho
( m~− m <εβ)=β
Biến đổi vế trái của đẳng thức trên đây bằng cách dùng các công thức (1.25), (1.26), (1.28) và (1.29):
Trang 28m m
m m
m m
m m
m m m
P m
m P
σ
εσ
εσ
ε
σ
εσ
εσ
εσ
ε
εε
ε
β β
β
β β
β β
β β
β
Vậy
β σ
trong đó: Φ∗ − tích phân xác suất; σm~ = D/n− độ lệch bình phương
trung bình của ước lượng m~
Từ đó ta tìm được giá trị của εβ:
2
1 arg
σ
εβ m , (2.13) trong đó arg Φ∗( ) x − hàm ngược của hàm Φ∗( ) x , tức giá trị của đối số
mà ứng với nó hàm phân bố chuẩn bằng x
Bảng 2.3 Những trị số tβ tương ứng với xác suất tin cậy β
Phương sai D mà qua nó ta biểu diễn σm~ chưa được biết trước Ta
có thể dùng ước lượng D~ thay cho nó, vậy ta có
n D
m~ = ~ /
σ (2.14) Như vậy, bài toán dựng khoảng tin cậy đã được giải một cách gần đúng
)
~
Để tránh nội suy ngược trong bảng hàm Φ∗( x) khi tính εβ, người
ta lập một bảng chuyên dụng giúp tính các trị số của đại lượng
)
~
;
~ ( m t m~ m t m~
Iβ = − βσ + βσ (2.17) Như vậy đại lượng tβ chính là số lần độ lệch bình phương trung bình cần phải đặt về phía bên trái và bên phải kể từ tâm tản mạn để cho xác suất rơi vào khoảng đó bằng β
Thí dụ 2.1: Có 20 quan trắc về đại lượng X viết thành bảng như
Trang 29Hãy tìm ước lượng m ~ của kỳ vọng toán học m của đại lượng X
và dựng khoảng tin cậy ứng với xác suất tin cậy β =0,8
Giải:
0564 , 0 /
~
064 , 0
~
78 , 10
= t σm
Các ranh giới tin cậy sẽ là:
.,,
~
;,,
~
85100720
711007202
1
=+
m m
Vậy khoảng tin cậy: Iβ = ( 10 , 71 ; 10 , 85 ).
2.5.2 Khoảng tin cậy đối với phương sai
Bài toán về khoảng tin cậy đối vơi phương sai cũng được giải tương
tự Giả sử thực hiện n thí nghiệm độc lập về đại lượng ngẫu nhiên X
với các tham số m và D chưa biết, đối với phương sai D ta tính được
ước lượng không chệch:
11
n
i
i ~)(
~
, (2.18) trong đó
n
X m
n
i i
∑
=
= 1
Yêu cầu dựng gần đúng khoảng tin cậy cho phương sai
Từ công thức (2.18) thấy rằng đại lượng D~ là tổng n đại lượng ngẫu nhiên dạng
Những đại lượng ấy không phải là độc lập,
vì trong mỗi đại lượng đều có mặt m~ phụ thuộc vào tất cả X i Tuy nhiên, người ta có thể chỉ ra rằng khi tăng n luật phân bố của tổng chúng
cũng dần tới luật chuẩn Thực tế với n=20÷30 đã có thể xem là chuẩn
Ta cũng giả thiết như vậy và tìm các đặc trưng của luật phân bố này:
kỳ vọng toán học và phương sai Vì ước lượng D~ không chệch, nên
D D
M[~]= Việc tính D D[~] rất phức tạp nên ở đây chỉ dẫn ra biểu thức cuối cùng:
2 4
1
31
D n n
n n
D D
)(]
~[
−
−
−
= μ , (2.19) trong đó μ4 − mômen tâm bậc bốn của đại lượng X
Để dùng biểu thức này, cần phải đưa vào đó những trị số của μ4 và
D (dù là những trị số gần đúng) Thay cho D có thể sử dụng ước lượng của nó D~ Về nguyên tắc mômen tâm bậc bốn μ4 cũng có thể thay thế bằng ước lượng của nó, thí dụ, bằng đại lượng sau:
n
m X n
i i
μ , (2.20) nhưng thay thế như vậy sẽ cho độ chính xác không cao, vì nhìn chung với
số lượng thí nghiệm hạn chế, các mômen bậc cao xác định với sai số lớn Tuy nhiên, trong thực tế thường là dạng của luật phân bố của đại lượng
X được biết trước, chỉ không biết trước các tham số của phân bố đó mà thôi Khi đó có thể biểu diễn μ4 qua D
Trang 30Thí dụ, trường hợp thường gặp nhất - đại lượng X phân bố theo
luật chuẩn; khi đó mômen tâm bậc bốn được biểu diễn qua phương sai
1
33
D n n
n D n D D
)(]
~[
−
−
−
=hay
21
2
D n D D
−
=]
~[ (2.21)
Trong (2.21) thay D chưa biết bằng ước lượng của nó, ta được
21
2
D n
D~] ~[
Trong một số trường hợp luật phân bố khác, người ta cũng có công
thức biểu thị μ4 qua D Nhưng khi dạng của luật phân bố của đại lượng
X chưa biết, nếu không có cơ sở đặc biệt nào để khẳng định là nó khác
rõ rệt so với luật chuẩn (có độ nhọn dương hoặc âm đáng kể), thì vẫn cứ
nên sử dụng công thức (2.22) để nhận định về σD~
Tóm lại, nếu giá trị định hướng
D~
σ đã tìm được bằng cách nào đó, thì có thể dựng khoảng tin cậy cho phương sai tương tự như cho kỳ vọng
)
~(
σε
βσ
εσ
ε
βεε
β β
β β
β β
D D
D D D
m D
D D D
P
Vậy khoảng tin cậy của phương sai là
)
~
Thí dụ 2.2: Tìm gần đúng khoảng tin cậy 80 % cho phương sai của
đại lượng ngẫu nhiên X qua thí dụ trước (thí dụ 2.1), nếu biết rằng đại lượng X phân bố theo luật gần với luật chuẩn
Giải: đại lượng tβ, cũng giống như trong thí dụ 2.1, được tìm nhờ bảng 2.3 theo β =0,8 bằng
2821,
=β
Theo công thức (2.22)
020700640120
2
,,
; 037 , 0 (
=β
Khoảng tin cậy tương ứng của độ lệch bình phương trung bình là
) 30 , 0
; 19 , 0
Trang 312.5.3 Các phương pháp chính xác dựng khoảng tin cậy cho
các tham số của đại lượng ngẫu nhiên phân bố chuẩn
Để tìm chính xác những khoảng tin cậy nhất thiết phải biết trước
dạng của luật phân bố đại lượng ngẫu nhiên X , trong khi đó nếu dùng
các phương pháp gần đúng thì điều đó không cần thiết
Ý tưởng của các phương pháp chính xác như sau: Một khoảng tin
cậy bất kỳ của ước lượng a~ được tìm từ điều kiện biểu thị xác suất thực
hiện những bất đẳng thức nào đó mà ước lượng a~ có mặt trong đó Luật
phân bố của ước lượng a~ trong trường hợp tổng quát phụ thuộc vào
chính những tham số chưa biết của đại lượng X Tuy nhiên, đôi khi có
thể chuyển đổi trong các bất đẳng thức từ đại lượng ngẫu nhiên a~ sang
một hàm nào đó của các giá trị quan trắc x1 x2 ,x n, và luật phân bố
của hàm đó không phụ thuộc vào các tham số chưa biết, mà chỉ phụ thuộc
vào số lượng thí nghiệm n và dạng của luật phân bố của đại lượng X
Những đại lượng ngẫu nhiên kiểu như vậy đóng vai trò quan trọng trong
toán học thống kê, chúng đã được nghiên cứu kỹ nhất đối với trường hợp
đại lượng X phân bố chuẩn
Thí dụ, người ta chứng minh được rằng nếu đại lượng ngẫu nhiên
X phân bố chuẩn, thì đại lượng ngẫu nhiên
D
m m n T
~
~−
= , (2.24) trong đó
11
2 1
n
X m
n
i i n
i
~
2 2
21
2 1
1 1
) 1 ( ) (
n
n
n n
n
t n
t S
~ ) 1 ( −
= (2.26)
có phân bố χ2 với n−1 bậc tự do, mật độ biểu thị bằng công thức:
( )
.0 khi 0
0 khi 2
1
)(
2
v 2 1
212
1 1
v v
Bây giờ ta xét cách sử dụng các luật phân bố trên đây để xây dựng
khoảng tin cậy cho các tham số m ~ và D~
Giả sử đã thực hiện n thí nghiệm độc lập với đại lượng ngẫu nhiên
X phân bố theo luật chuẩn với các tham số chưa biết m và D Đối với
những tham số này ta đã nhận được các ước lượng
1
)
~ (
~
;
2 1
n
X m
n
i i n
i
i
Đòi hỏi dựng khoảng tin cậy cho hai tham số ứng với xác suất tin cậy β Trước hết dựng khoảng tin cậy cho kỳ vọng toán học Đương nhiên
ta lấy khoảng này đối xứng qua m~ , ký hiệu εβ là nửa độ dài của
Trang 32khoảng Đại lượng εβ cần lấy sao cho thoả mãn điều kiện
( m~− m <εβ)=β
P (2.28)
Ta sẽ chuyển từ đại lượng ngẫu nhiên m~ ở vế trái đẳng thức này thành
đại lượng ngẫu nhiên T phân bố theo luật Student Muốn vậy cần nhân
hai vế của bất đẳng m~− m <εβ với đại lượng dương
m m n P
hay
β n
D T
P (2.30) Đại lượng tβ được tìm từ điều kiện
t T
0
1( )
2 (2.32) Đẳng thức (2.32) xác định đại lượng tβ tùy thuộc vào β Nếu có bảng giá trị của tích phân
)
thì có thể tìm được đại lượng tβ bằng cách nội suy ngược trong bảng đó Tuy nhiên nên lập trước bảng giá trị tβ (bảng 2.4) Trong bảng này dẫn các giá trị tβ phụ thuộc vào β và số bậc tự do n−1 Khi đã xác định được tβ theo bảng 2.4 và cho
m n
D t m
Thí dụ 2.3: Thực hiện 5 thí nghiệm độc lập với đại lượng ngẫu nhiên
X phân bố chuẩn với các tham số chưa biết m và σ: kết quả thí nghiệm dẫn trong bảng sau:
Trang 33(tức khoảng tin cậy ứng với xác suất tin cậy β =0,9)
Giải: Ta có
664
=β
từ đó
452,
Thí dụ 2.4 : Đối với điều kiện thí dụ 1, nếu giả thiết rằng X có phân
bố chuẩn, hãy tìm khoảng tin cậy chính xác
Giải: Theo bảng 2.4, tìm với 19n−1= và β =0,8, được
3281,
=β
từ đó
075 , 0
0 1
Trang 34Dựng khoảng tin cậy cho phương sai:
Ta xét ước lượng không chệch của phương sai
11
n
i
i ~)(
D~ (2.35)
Biết quy luật phân bố của đại lượng V , có thể tìm khoảng iβ mà nó
rơi vào với xác suất cho trước β
Quy luật phân bố k n−1(v) của đại lượng V có dạng như trên hình
2.5
Xuất hiện câu hỏi: chọn khoảng iβ như thế nào? Nếu như quy luật
phân bố của V đối xứng (như quy luật chuẩn hay quy luật Student) thì
đương nhiên lấy khoảng iβ đối xứng qua kỳ vọng toán học Trong
trường hợp đang xét, quy luật k n−1(v) không đối xứng Ta quy ước chọn
khoảng iβ sao cho các xác suất của việc đại lượng V rơi ra ngoài ranh
giới của khoảng về phía bên phải và phía bên trái (các diện tích bị gạch
chéo trên hình 2.5) bằng nhau và bằng
2
12
β
Để dựng khoảng tin cậy iβ với tính chất trên, ta dùng bảng 2.1,
trong đó dẫn các số χ2 sao cho
p V
P( > χ2)=
đối với đại lượng V có phân bố χ2 với r bậc tự do Trong trường hợp
đang xét r = n−1 Ấn định 1r = n− và tìm trong dòng tương ứng của bảng 2.1 hai giá trị χ2: một giá trị ứng với xác suất
21
α
=
p ; giá trị khác ứng với xác suất
2
12
21
Bây giờ ta tìm theo khoảng iβ khoảng tin cậy Iβ cho phương sai với các ranh giới D1 và D2 phủ lên điểm D với xác suất β :
Trang 35Ta dựng khoảng Iβ =(D1; D2) phủ lên điểm D khi và chỉ khi đại
lượng V rơi vào khoảng iβ
11
χχ
;)(
~
n D n
D
I (2.36)
sẽ thỏa mãn điều kiện đó Thật vậy, các bất đẳng thức
D n
D − <
2 1
1χ
)(
~
; D n− > D
2 2
1χ
)(
~
tương đương với các bất đẳng thức
2 1
mà những bất đẳng thức này lại được thỏa mãn với xác suất β Như vậy
khoảng tin cậy cho phương sai được biểu diễn bằng công thức (2.36)
Thí dụ 2.5: Tìm khoảng tin cậy cho phương sai trong điều kiện thí
dụ 2.2 nếu biết rằng đại lượng X có phân bố chuẩn
Giải: Ta có β =0,8; α =0,2; 01
2 = ,
α
Theo bảng 2.1 ta tìm được với r = n−1=19
;,(0045 0104
=β
Khoảng tin cậy tương ứng cho độ lệch bình phương trung bình:
(0,21; 0,32) Khoảng này chỉ khác một chút so với kết quả đã nhận được
ở thí dụ 2.2
2.6 Ước lượng xác suất theo tần suất
Trong thực tế thường người ta phải ước lượng xác suất chưa biết p của sự kiện A theo tần suất * p của nó qua n thí nghiệm độc lập Bây giờ ta xem tần suất của sự kiện A qua n thí nghiệm độc lập là tung bình số học của các giá trị quan trắc của đại lượng X mà đại lượng này trong mỗi thí nghiệm riêng nhận giá trị 1 nếu sự kiện A xảy ra và nhận giá trị 0 nếu sự kiện A không xảy ra:
n
X p
n
i i
Trang 36Bài toán này là một trường hợp bộ phận của bài toán về khoảng tin
cậy của kỳ vọng toán học đã xét ở mục trước, song nó được xem xét một
cách riêng biệt vì ở đây có nét đặc thù: đại lượng X là đại lượng ngẫu
nhiên rời rạc chỉ với hai giá trị có thể có là 0 và 1 Ngoài ra, kỳ vọng toán
học của nó p và phương sai pq= p(1− p) liên quan với nhau bằng mối
liên hệ hàm Điều này làm đơn giản bài toán dựng khoảng tin cậy
1) Xét trường hợp đơn giản nhất, khi số thí nghiệm n khá lớn, còn
xác suất p không quá lớn mà cũng không quá bé Khi đó có thể cho rằng
tần suất *p là đại lượng ngẫu nhiên có phân bố gần chuẩn (theo định lý
giới hạn trung tâm đối với các số hạng phân bố như nhau) Các tính toán
cho thấy rằng có thể sử dụng giả thiết đó thậm chí với các n không rất
lớn: chỉ cần cả hai đại lượng np và nq lớn hơn 4 Ta sẽ coi như những
điều kiện này thỏa mãn và tần suất *p phân bố theo quy luật chuẩn Các
tham số của quy luật này sẽ là:
Đầu tiên ta hãy giả sử p đã biết Ta định ra xác suất tin cậy β và
tìm khoảng (p−εβ, p+εβ) sao cho đại lượng *p rơi vào khoảng này
với xác suất β :
( p*− p <εβ)=β
P (2.40)
Vì p* phân bố chuẩn nên vế trái của (2.40) có thể biểu diễn qua
các giá trị của hàm phân bố chuẩn:
2
1 βσ
ở đây tβ được xác định theo bảng 2.4
Như vậy, với xác suất β có thể khẳng định rằng
n
pq t
p
p*− < β (2.42)
Thực tế chúng ta chưa biết đại lượng p ; nhưng bất đẳng thức (2.42)
sẽ có xác suất β không tùy thuộc vào việc ta đã biết hay chưa biết p
Khi đã nhận được từ thí nghiệm giá trị cụ thể của tần suất p*, có thể dùng bất đẳng thức (2.42) tìm khoảng Iβ phủ lên điểm p với xác suất
β Thật vậy, ta biến đổi bất đẳng thức này thành dạng
n
t p
p − < 1−
2
2 β
(2.43) Các ranh giới tin cậy p1 và p2 có thể tìm từ (2.43) bằng cách thay dấu bất đẳng thức bằng dấu đẳng thức Giải phương trình bình phương
nhận được đối với p ta được hai nghiệm:
Trang 37t
1
)(1
*
;t
1
)(1
*
2 2
n
n
t n
p*
p*
t n
t p p
n
n
t n
p*
p*
t n
t p p
β
β β
β
β
β β
β
2
2 2
2
2
2 2
1
4
12
1
4
12
1
(2.44)
Khoảng tin cậy cho xác suất p sẽ là
) ,(p1 p2
1
n
tβ
trong các công thức (2.44) tiến tới 0, do đó
*
*
,
*)(
*
*
n
p p
t p p
n
p p
t p p
β
β
11
2
1
(2.45)
Những công thức này cũng có thể nhận được ngay nếu dùng cách
gần đúng như khi dựng khoảng tin cậy cho kỳ vọng toán học ở mục
trước, tức cho giá trị của p chưa biết bằng * p rồi xác định ngay σp*
trong (2.41) một cách gần đúng Các công thức (2.45) có thể sử dụng khi
n lớn (bằng khoảng vài trăm) nếu p không quá lớn hay quá nhỏ (thí dụ
khi np và nq bằng khoảng 10 hoặc lớn hơn)
Thí dụ 2.6 : Thực hiện 200 thí nghiệm; tần suất sự kiện A thấy bằng
;,(0292 0388
=β
Theo công thức (2.44):
),
;,(0294 0389
=β
Hai kết quả không khác nhau một cách đáng kể
2) Khi số thí nghiệm ít (cũng như nếu xác suất p rất lớn hay rất nhỏ) thì không thể xem tần số phân bố chuẩn được nữa Trong trường hợp này người ta dựng khoảng tin cậy xuất phát từ quy luật phân bố chính xác của tần số Có thể dễ dàng khẳng định rằng đây là phân bố nhị
thức Thật vậy, số lần xuất hiện sự kiện A trong n thí nghiệm phân bố theo quy luật nhị thức: xác suất của việc sự kiện A xuất hiện đúng m
lần bằng
m n m m n n
P = − , (2.46) (
!)(
!
m n m
Xuất phát từ phân bố này có thể dựng khoảng tin cậy Iβ tương tự
như ta đã làm trong trường hợp n lớn
Giả sử ta đã biết xác suất p và bây giờ tìm khoảng tần suất ( *
1
p ,
* 2
p ) mà với xác suất β = 1−α tần suất sự kiện p* rơi vào trong khoảng đó
Đối với trường hợp n lớn ta đã sử dụng quy luật phân bố chuẩn và
đã lấy khoảng tin cậy là đối xứng qua kỳ vọng toán học Phân bố nhị thức
Trang 38(2.46) không đối xứng Hơn nữa, vì tần suất − đại lượng ngẫu nhiên rời
rạc, có thể không tồn tại một khoảng mà xác suất rơi vào đó đúng bằng
β Vì vậy, ta sẽ lấy khoảng (p1*, p*2) như là một khoảng nhỏ mà xác
suất rơi về phía trái và phía phải nó sẽ lớn hơn
2
α Biên dưới p1 của “khoảng tin cậy” sẽ được xác định bằng cách giải
phương trình sau đây theo p :
m n m
2
10
np
m
m n m
m
C (2.48)
Để không phải giải các phương trình (2.47) và (2.48) từng lần một
người ta có thể lập bảng (hay biểu diễn đồ thị) nghiệm của chúng ứng với
một số giá trị β điển hình Thí dụ, trong cuốn sách Теория
β và β =0,99 Hình 2.6 là thí dụ biểu thị bằng đồ thị nghiệm của
(2.47) và (2.48) cho trường hợp 9β =0, (lấy từ cuốn sách Теория
вероятностией của Е С Вентцель)
Để tìm khoảng tin cậy Iβ theo đồ thị ta đặt trên trục hoành giá trị
tần số p* tìm được theo quan trắc, vẽ qua điểm này một đường thẳng
song song với trục tung, cắt các đường cong ứng với n đã cho ở hai
điểm Tung độ của hai điểm ấy sẽ là giới hạn tin cậy p1 và p2
Thí dụ 2.7: Tìm khoảng tin cậy Iβ(p1, p2) đối với xác suất của
một sự kiện nếu trong 50 lần quan trắc tần suất của nó bằng p*=0,4
Xác suất tin cậy 9β =0,
Giải: Theo hình 2.6, với p*=0,4 và n=50 ta tìm được 28
0
1 ≈ ,
p ; p2 ≈0,52
Hình 2.6 Đồ thị của nghiệm phương trình 2.47
Sử dụng phương pháp khoảng tin cậy, có thể giải gần đúng một bài toán khác quan trọng trong thực hành: số quan trắc phải bằng bao nhiêu
để với xác suất tin cậy β sai số gặp phải khi thay thế xác suất bằng tần suất không vượt quá một giá trị cho trước?
Khi giải bài toán như vậy ta cũng có thể sử dụng hình 2.6, chỉ cần dựng lại nó: biểu diễn các giới hạn tin cậy như là các hàm của số lượng
quan trắc n Thí dụ 2.8: đã thực hiện quan trắc 25 lần, trong đó thấy hiện tượng
Trang 39A xảy ra 12 lần Tìm gần đúng số lần quan trắc n cần thiết để sao cho
với xác suất β =0,9 sai số do thay thế xác suất bằng tần suất không vượt
quá 20 %
Giải: Ta xác định sai số tới hạn cho phép:
1009604802
0, ⋅ , = , ≈ ,
=
Dùng các đường cong trên hình 2.6 dựng đồ thị mới: trên trục hoành
đặt những số lượng quan trắc n khác nhau, trên trục tung − các ranh giới
tin cậy của xác suất (hình 2.7)
Hình 2.7 Đồ thị để xác định số lần quan trắc n
theo xác suất và ranh giới tin cậy
Đường thẳng trung bình song song với trục hoành ứng với tần suất
25
12,
p Phía trên và phía dưới của đường này vẽ các
đường p1(n) và p2(n) (tra theo hình 2.6) Bên cạnh đường thẳng
vì trong trường hợp tổng quát sẽ nhận được giá trị mới của tần suất *p
khác so với giá trị tính được theo những quan trắc cũ Do đó, số lượng quan trắc lại một lần nữa có thể tăng lên Tuy nhiên, phép xấp xỉ bậc nhất nhận được theo phương pháp vừa mô tả có thể dùng làm kế hoạch tạm thời khi bố trí loạt quan trắc
Trường hợp xác suất rất nhỏ Công thức để tính giới hạn trên khi xác suất rất nhỏ (p*=0 qua n quan trắc):
n
p2 =1− 1−β
Sự kiện A với xác suất nhỏ p không gặp thấy qua n quan trắc Số
lượng thí nghiệm n phải bằng bao nhiêu để cho ranh giới trên của xác
suất của sự kiện bằng giá trị p2 cho trước:
)(lg
)(lg
21
Trang 40Phụ lục chương 2
A Mã Fortran của thủ tục tra bảng phân bố χ2 (bảng 2.1)
C Cho phép thực hiện hai kiểu tra bảng: thuận và ngược
C Tham số nguyên ic= 0: từ số bậc tự do (n) và xác suất (xs) tra ra
C giá trị χ Tham số 2 ic= 1: từ n và χ tra 2
C ra xác suất xs Nếu n > 30 có thể ngoại suy
SUBROUTINE TraB21 (ic, n, xs, chi)
READ(9,*) k, (d1(j), j=1, 14) READ(9,*) k, (d2(j), j=1, 14)
DO j=1,14 d1(j) = d1(j)+(d2(j)-d1(j))*(n-29) ENDDO
ENDIF CLOSE(9)
IF (ic.GT.0) THEN
xs = chi d2 = p
p = d1 d1 = d2 ENDIF
IF (ic.EQ.0) THEN
IF (xs.GT.p(1)) THEN j=1
ELSE IF (xs.LT.p(14)) THEN j=13
ELSE j=1
4 IF (xs.LE.p(j).AND.xs.GE.p(j+1)) GOTO 5
j=j+1 GOTO 4 ENDIF ELSE
IF (xs.LT.p(1)) THEN j=1