PHƯƠNG PHÁP THỐNG KÊ TRONG HẢI DƯƠNG HỌC - Phạm Văn Huấn

Từ khóa: Đại lượng ngẫu nhiên, luật phân bố, phân bố thống kê, là trơn phân bố, tiêu chuẩn phù hợp, ước lượng tham số, xác suất tin cậy, khoảng tin cây, hệ các đại lượng ngẫu nhiên, quá

Trang 1

Từ khóa: Đại lượng ngẫu nhiên, luật phân bố, phân bố thống kê, là trơn phân bố, tiêu chuẩn phù hợp, ước lượng tham số, xác suất tin

cậy, khoảng tin cây, hệ các đại lượng ngẫu nhiên, quá trình ngẫu nhiên, tương quan, phương pháp bình phương nhỏ nhất, khai triển phổ,

phân tích điều hòa, là trơn, chu trình tuần hoàn, trung bình trượt, phân tích thống kê các quan trắc khí tượng, hải dương học

Tài liệu trong Thư viện điện tử Trường Đại học Khoa học Tự nhiên có thể được sử dụng cho mục đích học tập và nghiên cứu

cá nhân Nghiêm cấm mọi hình thức sao chép, in ấn phục vụ các mục đích khác nếu không được sự chấp thuận của nhà xuất

bản và tác giả

PHƯƠNG PHÁP THỐNG KÊ TRONG

HẢI DƯƠNG HỌC

Phạm Văn Huấn

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN

Phạm Văn Huấn

PHƯƠNG PHÁP THỐNG KÊ

TRONG HẢI DƯƠNG HỌC

Nhà xuất bản Đại học Quốc gia Hà Nội - 2010

Lời nói đầu

Giáo trình Phương pháp thống kê trong hải dương học phục vụ cho

môn học cùng tên với thời lượng hai tín chỉ trong chương trình đào tạo cử nhân ngành Hải dương học ở Trường Đại học Khoa học Tự nhiên, Đại học Quốc gia Hà Nội

Cuốn sách chọn giới thiệu một cách tóm tắt những khái niệm, phương pháp cơ bản của lý thuyết thống kê toán học hay được sử dụng trong phân tích số liệu quan trắc hải dương học và được sắp xếp thành năm chương theo nhóm vấn đề Đầu mỗi chương thường ôn lại những khái niệm và công thức cơ bản từ toán học thống kê, sau đó giới thiệu sự ứng dụng thông qua các thí dụ để rèn luyện thói quen hiểu ý nghĩa thực tế của khái niệm và kỹ năng thực hành tính toán cụ thể của sinh viên Cuối mỗi chương có phụ lục gồm các đoạn mã chương trình máy tính chính là nhằm mục đích đó Những thí dụ ứng dụng phương pháp thống kê trong hải dương học chưa bao quát hết những vấn đề hải dương học thống kê, mới chỉ giới thiệu ở mức độ giúp cho sinh viên bước đầu biết áp dụng các khái niệm và phương pháp, tính toán đúng theo các công thức liên quan, chưa dành chú ý nhiều đến cách đặt vấn đề, lý giải kết quả phân tích và ý nghĩa thực tế của mỗi bài toán Nội dung sách cũng chưa bao gồm những kết quả nghiên cứu biển và đại dương theo hướng thống kê trong hải dương học trên thế giới và ở Việt Nam Sinh viên ngành hải dương học sẽ thấy những khía cạnh này trong các môn học cơ sở khác của ngành như hải dương học khu vực, thông tin và dự báo khí tượng thủy văn biển, thủy triều, sóng và các bài báo khoa học, sách chuyên khảo về biển Tác giả

Trang 3

MỤC LỤC

Chương 1 – Khái niệm về đại lượng ngẫu nhiên 5

1.1 Những đại lượng ngẫu nhiên và luật phân bố 5

1.2 Luật phân bố chuẩn 14

1.3 Quantil phân bố 19

1.4.2 Phân bố của tập mẫu các giá trị cực trị (phân bố

2.2.2 Sơ đồ ứng dụng tiêu chuẩn χ2 để đánh giá sự phù hợp 43

2.2.3 Tiêu chuẩn phù hợp của Kolmogorov 45

2.3 Khái niệm về ước lượng tham số của phân bố 47

2.4 Ước lượng của kỳ vọng toán học và phương sai 47

2.5 Khoảng tin cậy và xác suất tin cậy 48

2.5.1 Khoảng tin cậy đối với kỳ vọng toán học 51

2.5.2 Khoảng tin cậy đối với phương sai 54

2.5.3 Các phương pháp chính xác dựng khoảng tin cậy cho

các tham số của đại lượng ngẫu nhiên phân bố chuẩn

582.6 Ước lượng xác suất theo tần suất 67

Chương 3 – Khái niệm về hệ các đại lượng ngẫu nhiên và ứng

dụng

82

3.2 Các đặc trưng số của hệ hai đại lượng ngẫu nhiên

Mômen tương quan Hệ số tương quan

853.3 Phép là trơn các mối phụ thuộc thực nghiệm bằng phương 90

4.5 Khai triển phổ hàm ngẫu nhiên dừng trên khoảng thời gian hữu hạn

115

Chương 5 - Ứng dụng lý thuyết hàm ngẫu nhiên vào phân tích số

liệu hải dương học

132 5.1 Phân tích chuỗi thời gian trong hải dương học 132 5.1.1 Phân tích các chu trình tuần hoàn 134

5.1.2 Xác định các chu trình tuần hoàn bằng phương pháp phân tích điều hòa

136 5.2 Phổ phương sai của chuỗi thời gian 143 5.3 Loại bỏ chu trình tuần hoàn khỏi chuỗi thời gian 145 5.3.1 Loại bỏ chu trình tuần hoàn bằng phân tích điều hòa 145 5.3.2 Loại bỏ biến trình năm từ chuỗi quan trắc năm 148 5.3.3 Loại bỏ chu trình tuần hoàn và phân tích các chu trình

không tuần hoàn trong thực tế xử lý số liệu

149 5.4 Hàm tương quan và hàm phổ đối với chuỗi thời gian các

yếu tố hải dương học

153

Tài liệu tham khảo 161

Trang 4

Chương 1 KHÁI NIỆM VỀ ĐẠI LƯỢNG NGẪU NHIÊN

1.1 Những đại lượng ngẫu nhiên và luật phân bố

Đại lượng ngẫu nhiên là đại lượng mà trong thử nghiệm có thể nhận

một giá trị nào đó không biết trước cụ thể Những giá trị có thể có của đại

lượng ngẫu nhiên rời rạc có thể được kể ra từ trước Những giá trị có thể

có của đại lượng ngẫu nhiên liên tục không thể kể ra trước được và chúng

phân bố liên tục trên một khoảng nào đó

Đối với đại lượng ngẫu nhiên rời rạc X , nếu ta biết xác suất P của

từng giá trị có thể có của nó x1 , x2 , , xn, tức biết

n n

p

p x X P p

x X P p x

X

P

1

2 2 1

1

;

thì ta nói rằng đại lượng ngẫu nhiên ấy hoàn toàn đã được xác định về

phương diện xác suất Mối liên hệ giữa các giá trị có thể có của đại lượng

ngẫu nhiên và những xác suất tương ứng của chúng được gọi là luật phân

bố của đại lượng ngẫu nhiên Luật phân bố có thể được cho bởi bảng

phân bố hoặc đa giác phân bố

Đối với đại lượng ngẫu nhiên liên tục, chúng ta không thể kể ra hết

tất cả các giá trị có thể có, hơn nữa từng giá trị riêng biệt của đại lượng

ngẫu nhiên liên tục thường có xác suất bằng không, nên người ta cho

phân bố bằng hàm phân bố F (x ):

(X x)

P x

F( )= < (1.1) Người ta còn gọi F (x ) là hàm phân bố tích phân hay luật phân bố

tích phân

Hàm phân bố là đặc trưng vạn năng nhất của đại lượng ngẫu nhiên

Nó tồn tại cho cả các đại lượng ngẫu nhiên rời rạc lẫn liên tục Hàm phân

bố có tính chất là hàm không giảm, tức F( )x2 ≥F( )x1 nếu x2 > x1, bằng không ở âm vô cùng (F( −∞)=0) và bằng một ở dương vô cùng

(F( +∞)=1) Trong thực tế, nhiều khi cần xác định xác suất P(X ≥x), khi đó

thay vì hàm phân bố F(x) người ta sử dụng hàm độ đảm bảo )Φ(x :

)(1)()(x =P X ≥x = −F x

Φ (1.2)

cho biết xác suất vượt quá giá trị x nào đó

Hàm phân bố của đại lượng ngẫu nhiên rời rạc bất kỳ luôn luôn là một hàm bậc thang gián đoạn Trong thực tế thông thường hàm phân bố của đại lượng ngẫu nhiên liên tục là hàm liên tục

Khi giải những bài toán thực tế nhiều khi đòi hỏi tính xác suất của

sự kiện đại lượng ngẫu nhiên rơi vào khoảng giá trị từ x đến x+Δx:

) ( ) (

Δ

− Δ

(

Nếu Δx→0 thì

) ( ) ( ) ( ) (

x

x F x x F

Δ

− Δ

được gọi là mật độ phân bố (hay “mật độ xác suất”) của đại lượng ngẫu

nhiên Đôi khi người ta còn gọi hàm f (x ) là hàm phân bố vi phân hoặc

Trang 5

luật phân bố vi phân của đại lượng ngẫu nhiên liên tục X

Xác suất giá trị của đại lượng ngẫu nhiên X rơi vào khoảng từ α

Có thể biểu thị hàm mật độ phân bố qua hàm phân bố bằng công

thức (1.3) Ngược lại, có thể biểu thị hàm phân bố qua hàm mật độ

∫

∞

−

= x f x dx x

F ( ) ( ) (1.5) Mật độ phân bố là hàm không âm ( f ( x ) ≥ 0 ), tích phân của hàm

mật độ với các giới hạn vô cùng bằng một ( ∫∞

∞

−

= 1 )

( dx x

f ) Như vậy, đường cong phân bố luôn luôn nằm trên trục hoành, diện tích đầy đủ giới

hạn bởi đường cong phân bố và trục hoành bằng một

Thứ nguyên của hàm phân bố F ( x ) giống như xác suất không có

thứ nguyên, thứ nguyên của mật độ phân bố f (x ) nghịch đảo với thứ

nguyên của đại lượng ngẫu nhiên

Trong nhiều vấn đề thực tế, không nhất thiết phải đặc trưng đại

lượng ngẫu nhiên một cách đầy đủ bằng hàm phân bố F (x ) mà chỉ cần

chỉ ra những tham số bằng số riêng biệt ở mức độ nào đó đặc trưng cho

những nét chủ yếu của đại lượng ngẫu nhiên Đó là những đặc trưng số

của đại lượng ngẫu nhiên:

1) Kỳ vọng toán học (giá trị trung bình) của đại lượng ngẫu nhiên:

Nếu đại lượng ngẫu nhiên rời rạc X có các giá trị có thể có

n

x

x1 , 2 , , với xác suất p1 , p2 , , pn thì kỳ vọng toán học của đại

lượng ngẫu nhiên sẽ bằng

+ +

+ + +

=

i i i n

i i

n

i i i n

n n

p

p x p

p p

p x p

x p x X m

1 1

1 2

1

2 2 1 1

Kỳ vọng toán học có liên quan với trung bình số học Giả sử chúng

ta thực hiện N thí nghiệm độc lập, trong mỗi lần thí nghiệm đại lượng

X nhận giá trị xác định: giả sử giá trị x1 xuất hiện m1 lần, giá trị x2

xuất hiện m2 lần, nói chung, giá trị xi xuất hiện mi lần Công thức tính trung bình số học các giá trị quan trắc đại lượng X sẽ là

N

m x m

x m x m

m m

m x m

x m x X

+++

2 2 1 1

* 2

++

i

n i i i

i i

n

N

m x N

i∗ = là tần suất (hay xác suất thống kê)

Như vậy, trung bình số học của các giá trị quan trắc của đại lượng ngẫu nhiên bằng tổng của các tích của tất cả các giá trị có thể có của đại lượng ngẫu nhiên với tần suất của những giá trị đó

Đối với đại lượng ngẫu nhiên liên tục X kỳ vọng toán học tính theo công thức

Trang 6

Cụm từ “hay xảy ra nhất” chỉ hoàn toàn chính xác đối với các đại lượng

ngẫu nhiên rời rạc, đối với đại lượng ngẫu nhiên liên tục thì mốt là giá trị

mà tại đó mật độ xác suất cực đại Người ta ký hiệu mốt bằng chữ M

Trên hình 1.1 biểu diễn mốt của các đại lượng ngẫu nhiên rời rạc và liên

Hình 1.1 Biểu diễn mốt của các đại lương ngẫu nhiên rời rạc và liên tục

Trong trường hợp tổng quát thì mốt và kỳ vọng toán học của đại

lượng ngẫu nhiên không trùng nhau Khi nào phân bố là đối xứng và có

mốt (tức có một mốt) và tồn tại kỳ vọng toán học thì kỳ vọng toán học

trùng với mốt và tâm đối xứng của phân bố

3) Trung vị của đại lượng ngẫu nhiên (thường chỉ dùng cho đại

lượng liên tục) là giá trị Me của nó sao cho

) (

)

Trên đồ thị phân bố, trung vị là hoành độ của điểm mà diện tích giới

hạn bởi đường cong phân bố bị chia làm đôi Trong trường hợp phân bố

đối xứng có mốt thì trung vị trùng với kỳ vọng toán học và mốt

s i

Xo = − (1.12)

gọi là đại lượng ngẫu nhiên quy tâm tương ứng của đại lượng X Dễ dàng thấy rằng kỳ vọng toán học của đại lượng ngẫu nhiên quy tâm bằng không

Các mômen của đại lượng ngẫu nhiên quy tâm được gọi là các mômen tâm Mômen tâm bậc s của đại lượng ngẫu nhiên X là kỳ vọng toán học của luỹ thừa bậc s của đại lượng ngẫu nhiên quy tâm tương ứng

] ) [(

M ] [ M ]

Trang 7

( )

∑

=

−

= n

i

s x i

1

μ , (1.14) còn đối với đại lượng ngẫu nhiên liên tục:

∫

∞

−

x

μ (1.15)

Rõ ràng đối với đại lượng ngẫu nhiên bất kỳ mômen tâm bậc một

bằng không

Tồn tại các công thức liên hệ giữa các mômen tâm và gốc như sau:

⎪

⎭

⎪

⎬

⎫ +

−

=

−

=

, 2 3

,

, 0

3 2 3

3

2 2 2 1

x x

x

m m

m

α α

μ

α μ

μ

(1.16)

6) Mômen tâm bậc hai là đặc trưng đặc biệt quan trọng trong số các

mômen khác, được ký hiệu là D X [ ] (hoặc Dx) và thường gọi là

phương sai:

] [ M ]

[ D

2 2

o

X

X =μ = (1.17) Như vậy, phương sai của đại lượng ngẫu nhiên X là kỳ vọng toán

học của bình phương đại lượng ngẫu nhiên quy tâm tương ứng

Các công thức để tính trực tiếp phương sai của các đại lượng ngẫu

nhiên rời rạc và liên tục tuần tự là:

∑

=

−

= n

i

i x

x X

1

2

] [

D , (1.18)

∫

∞

−

[

D 2 (1.19)

Phương sai của các đại lượng ngẫu nhiên là đặc trưng phân tán, tản mạn của những giá trị đại lượng ngẫu nhiên xung quanh kỳ vọng toán học của nó

7) Phương sai có thứ nguyên bình phương của đại lượng ngẫu nhiên

Để đặc trưng rõ hơn độ tản mạn người ta dùng một đại lượng có thứ

nguyên trùng với thứ nguyên của đại lượng ngẫu nhiên gọi là độ lệch bình phương trung bình σ [ ]X (hay ký hiệu bằng σx):

] [ D ]

σ (1.20) Phương sai và độ lệch bình phương trung bình có thể tính theo mômen gốc bậc hai α2 và kỳ vọng toán học bằng các công thức:

⎪⎭

⎪

⎬

⎫

−

=

−

=

,

2 2

x x

x

x x

m D

α σ

α

(1.21)

8) Mômen tâm bậc ba μ3 dùng để đặc trưng tính bất đối xứng của

phân bố Nếu phân bố đối xứng đối với kỳ vọng toán học thì μ3 (và tất

cả các mômen bậc lẻ) bằng không (xét theo cấu trúc của các công thức (1.14) và (1.15))

Mômen tâm bậc ba có thứ nguyên lập phương đại lượng ngẫu nhiên Người ta dùng đại lượng

33

σ

μ

=

k

S (1.22) không có thứ nguyên để đặc trưng cho tính bất đối xứng của phân bố,

được gọi là hệ số bất đối xứng Khi Sk > 0 ta có phân bố bất đối xứng dương (đường cong 1), khi Sk < 0 − bất đối xứng âm (đường cong 2) trên hình 1.2

Trang 8

Hình 1.2 Các đường cong phân bố bất đối xứng

9) Mômen tâm bậc bốn dùng để đặc trưng “độ dốc”, tức mức độ

đỉnh nhọn hay đỉnh dẹt của phân bố Người ta dùng đại lượng gọi là độ

nhọn Ex của đại lượng ngẫu nhiên liên quan với mômen bậc bốn như

μ

x

E (1.223) Đối với luật phân bố chuẩn rất quan trọng và thường gặp trong tự

hơn so với phân bố chuẩn sẽ có Ex < 0 (xem hình 1.3)

Hình 1.3 Các đường cong phân bố có độ nhọn khác nhau

10) Nhiều khi người ta sử dụng những mômen tuyệt đối (gốc và tâm) mà trong số đó thường dùng nhất là mômen tâm tuyệt đối bậc một:

[ X mx ]

M X

M ⎢⎣ ⎡ ⎥⎦ ⎤ = −

1

γ , (1.24) gọi là độ lệch trung bình số học, cũng đặc trưng cho độ tản mạn

1.2 Luật phân bố chuẩn

Trong lý thuyết xác suất người ta đặc biệt quan tâm tới một kiểu luật

phân bố gọi là luật phân bố chuẩn (hay phân bố Gauss) Đây là kiểu phân

bố thường gặp nhất trong thực tế Người ta đã chứng minh được rằng tổng của một số lượng đủ lớn các đại lượng ngẫu nhiên độc lập (hoặc phụ thuộc ít) tuân theo những quy luật phân bố bất kỳ nào đó sẽ xấp xỉ tuân theo quy luật chuẩn và điều này được thể hiện càng chính xác nếu lấy tổng của càng nhiều các đại lượng ngẫu nhiên Điều hạn chế chủ yếu là các đại lượng ngẫu nhiên được cộng lại phải có vai trò đều nhau và tương đối nhỏ trong tổng chung

Trang 9

Quy luật phân bố chuẩn được đặc trưng bởi mật độ xác suất dạng:

( )

2 2

2

1 )

π σ

m x

e x

f

−

= , (1.25) trong đó m− kỳ vọng toán học của đại lượng ngẫu nhiên X , σ − độ

lệch bình phương trung bình của nó

Hình 1.4 Đồ thị hàm mật độ phân bố chuẩn

Đường cong phân bố theo luật chuẩn có dạng hình đồi đối xứng

(hình 1.4) Tung độ cực đại của đường cong bằng

π

σ 2

1 ứng với hoành độ x=m Xa dần m mật độ phân bố giảm đi và khi x→± ∞

đường cong tiệm cận dần tới trục hoành Điểm m là tâm đối xứng của

phân bố, gọi là tâm tản mạn; tham số σ là đặc trưng tản mạn Khi σ

tăng thì tung độ cực đại giảm và đường cong phân bố trở nên phẳng hơn,

duỗi dài theo trục hoành, ngược lại, khi σ giảm đường cong phân bố nhô

cao lên trên, đồng thời co hẹp hai bên lại

Tính toán các đặc trưng bằng số của phân bố chuẩn cho các kết quả

sau: μ0 = 1 ; μ1 = 0 (và tất cả các mômen bậc lẻ bằng không);

; 15 ;

3

6

4 4

2

theo công thức truy hồi μs = ( s − 1 ) σ2μs−2; Sk = 0 ; Ex = 0

Để tính được xác suất mà đại lượng ngẫu nhiên X tuân theo quy luật chuẩn với các tham số m và σ rơi vào khoảng giá trị từ α tới β

phải dùng công thức tổng quát

) ( ) ( )

P < < = − , (1.26) trong đó F ( x ) − hàm phân bố của đại lượng ngẫu nhiên X tính theo công thức (1.5):

dx e

dx x f x

2

2 ) (

2

1)

()

π

Nếu thay biến x − m = t

σ có thể dẫn tích phân trên tới dạng

dt e x

Tích phân (1.27) không biểu thị được bằng các hàm cơ bản, nhưng

có thể tính nó qua hàm đặc biệt biểu thị tích phân xác định của biểu thức

π

φ , (1.28) thì ta tính

Trang 10

β β

X

Như vậy, chúng ta đã biểu thị xác suất của đại lượng ngẫu nhiên X

phân bố theo luật chuẩn với các tham số bất kỳ rơi vào khoảng giá trị cho

trước từ α đến β qua hàm phân bố quy chuẩn φ * x ( ) ứng với luật

phân bố chuẩn đơn giản nhất có các tham số tuần tự là m=0 và σ =1

Hàm φ * x ( ) đã được bảng hóa và các giá trị của nó có ở các sách giáo

khoa về lý thuyết xác suất và toán thống kê bất kỳ, ở các tài liệu chuyên

khảo và các cẩm nang toán học Bảng 1.1 là một dạng thuộc loại các bảng

đó

Độ lệch xác suất Trong nhiều ứng dụng lý thuyết xác suất người ta

thường dùng một đặc trưng tản mạn gọi là độ lệch xác suất, ký hiệu bằng

E

Độ lệch xác suất của đại lượng ngẫu nhiên X phân bố theo luật

chuẩn là nửa độ dài của một đoạn đối xứng qua tâm tản mạn mà xác suất

rơi vào đó bằng 0,5 (xem hình 1.5)

Theo tính chất của hàm φ *

) ( 1 ) ( x = − ∗ − x

suy ra

5 , 0 1

,

do đó

75 , 0

Hình 1.5 Biểu diễn độ lệch xác suất

Theo bảng giá trị của hàm φ∗ ta tìm ngược lại được

Trang 11

Bảng 1.1 Bảng các giá trị của tích phân xác suất ∫

2

1 ) (

π φ

Trong mục 1.1 ta đã định nghĩa hàm phân bố tích phân F (x), theo

đó đối với x bất kì có thể xác định được xác suất sự kiện đại lượng ngẫu

nhiên X nhận các giá trị không lớn hơn x (gọi là xác suất không vượt

quá) Trong nhiều trường hợp thực tế cần giải quyết bài toán ngược lại:

theo một xác suất không vượt quá cho trước F ( x ) = p xác định giá trị

p

x Để kí hiệu các giá trị xp trong trường hợp này trong toán học thống

kê sử dụng thuật ngữ quantil, cũng có những sách gọi là điểm phần trăm

(percentage point) của phân bố

Vậy quantil-p hay quantil-p% (nếu p cho bằng %) là giá trị của đại

lượng ngẫu nhiên xp ứng với giá trị đã cho của xác suất không vượt quá

p x

F( )= Tương tự với các quantil, trong khí tượng, thủy văn người ta sử dụng các tung độ − pˆ của đường cong độ đảm bảo (1.2) Tung độ đường

cong độ đảm bảo là giá trị của đại lượng ngẫu nhiên X (kí hiệu bằng xˆ p) ứng với xác suất vượt quá Φ ( x ) = p ˆ

Vì Φ ( x ) = 1 − F ( x ) (công thức 1.2) nên p và pˆ liên hệ bằng công thức

p

p ˆ =1 − hay (nếu p cho bằng %) p ˆ =100 − p (1.32)

1.4 Một số luật phân bố khác

1.4.1 Phân bố chuẩn loga

Nhiều yếu tố khí tượng thủy văn có thể được xem như các đại lượng ngẫu nhiên có phân bố bất đối xứng dương Đó là do những yếu tố đó thường có những giá trị luôn lớn hơn không hoặc một giới hạn dưới nào

đó, nhưng không có giới hạn trên về lý thuyết Trong những trường hợp

đó phân bố của đại lượng ngẫu nhiên không tuân theo luật phân bố chuẩn

Tuy nhiên thường phân bố bất đối xứng có thể dẫn tới phân bố chuẩn bằng cách đổi biến thành logarit của nó

Đại lượng ngẫu nhiên không âm X được gọi là phân bố chuẩn loga nếu như logarit của nó

X

Z = ln

Trang 12

phân bố theo luật chuẩn

Hàm phân bố đối với đại lượng ngẫu nhiên X trong trường hợp này

1)(

00

e u

F

x x

z u

1 )

( 1

0 0

)

x e

x u

f x

x x

Như vậy phân bố chuẩn loga được xác định bằng hai tham số: m z

và σz Đại lượng m z là kì vọng toán học của đại lượng ngẫu nhiên Z,

còn σz − độ lệch bình phương trung bình của nó

Phương sai, độ lệch bình phương trung bình và kì vọng toán học của

các đại lượng ngẫu nhiên X và Z liên hệ với nhau bằng các biểu thức:

=

2 2

x

x z

2

2 2

x

x x

z x z

m m

m

(1.36)

Sử dụng (1.34), (1.36), (1.37) có thể viết lại biểu thức hàm mật độ

xác suất phân bố chuẩn loga (1.35) như sau:

0

1 2

2 ln

1 2

2 ln 2

1 ln ln

2

1ln

2

1)

x x m

x x m x

x x

e m

x

x f

σ σ

σ π

(1.37)

Nếu luật phân bố của đại lượng ngẫu nhiên X chưa biết và phân bố chuẩn loga được sử dụng để xấp xỉ phân bố thực nghiệm của X thì các trị

số m và z σz đối với đại lượng ngẫu nhiên Z có thể khác với m z và σz

nhận được qua mx và σx theo các công thức (1.36) Sự khác biệt sẽ càng lớn nếu luật phân bố của đại lượng ngẫu nhiên X càng khác với

phân bố chuẩn loga

Trong thực tế thường là phân bố thực của đại lượng ngẫu nhiên nghiên cứu không được biết, nên có thể có hai phương án tính toán: 1) ước lượng m z và σz thực hiện theo chuỗi giá trị của đại lượng ngẫu nhiên Z;

2) theo chuỗi giá trị của đại lượng ngẫu nhiên X ước lượng m và x x

σ , sau đó theo các công thức (1.36) xác định m z và σz

Hệ số bất đối xứng của phân bố chuẩn loga xác định theo công thức

x

m m

e

Me = (1.40)

Trang 13

Đồ thị hàm mật độ xác suất và hàm phân bố chuẩn loga có dạng như

trên hình 1.6

Hình 1.6 Hàm mật độ xác suất theo quy luật chuẩn loga với

25,2

;5,

x

Xác suất theo quy luật phân bố chuẩn loga được xác định theo bảng

phân bố chuẩn tiêu chuẩn (bảng 1.1), nhưng thay vì đại lượng ngẫu nhiên

nghiên cứu X người ta xét đại lượng Z =lnX

Thí dụ 1.2: Cho bảng số liệu quan trắc lưu lượng lũ năm sông Đà

tại Hòa Bình (bảng 1.2a) Giả sử phân bố của lưu lượng này có dạng phân

bố chuẩn loga, xác định hàm mật độ phân bố đó

Giải: Tính trực tiếp các đặc trưng thống kê (chương 2) của đại lượng

ngẫu nhiên X theo bảng 1.2:

07,270

~

;0,1763

Thế các giá trị này vào (1.37) ta được biểu thức hàm mật độ phân bố

của đại lượng ngẫu nhiên X như sau:

15 , 0 49 , 7 ln4,0

1)(

−

=

x e x x

f

và đồ thị hàm mật độ phân bố chuẩn loga này có dạng như trên hình 1.7

Bảng 1.2 Lưu lượng lũ năm sông Đà trạm Hòa Binh thời kỳ 1929-2002 (a)

Năm Q Năm Q Năm Q Năm Q Năm Q

Trang 14

Hình 1.7 Đồ thị hàm mật độ phân bố chuẩn loga

đối với lưu lượng sông Đà tại Hòa Bình

Có những biến thể khác của biến đổi chuẩn loga, ví dụ Alexeev đề

xuất biến đổi Z=ln(X −a), trong đó a tham số bổ sung (tham số thứ −

ba) Phân bố này được gọi là phân bố chuẩn loga ba tham số; phân bố này

có giới hạn dưới bằng a

1.4.2 Phân bố của tập mẫu các giá trị cực trị (phân bố Gumbel)

Luật phân bố Gumbel thường áp dụng đối với đại lượng ngẫu nhiên

mô tả các đặc trưng cực trị của các yếu tố khí tượng thủy văn, ví dụ nhiệt

độ không khí hoặc nước tối cao, tối thấp năm tại trạm, mực nước biển tối

cao, tối thấp năm, lưu lượng sông tối cao, tối thấp năm

Hàm phân bố Gumbel có dạng

y

e e x X P x

F( )= ( ≤ )= −− (1.41) hay hàm độ đảm bảo

y

e e x

X P

x = ≥ = − − −

Φ( ) ( ) 1 (1.42) với

)(x q

y=α − ; (1.43)

−

q mod của đại lượng ngẫu nhiên X, bằng

x x

α

p p

y q

xˆ = + ˆ (1.46) Giá trị yˆ có thể xác định từ (1.42) sau hai lần lấy logarit p

y p (1.47) trong đó p độ đảm bảo cho bằng % Trong bảng 1.3 dẫn các giá trị − yˆ p

ứng với một số giá trị độ đảm bảo hay sử dụng trong thực hành

Bảng 1.3 Các giá trị yˆ p ứng với một số độ đảm bảo khác nhau

%

ˆp yˆ p ˆp % yˆ p ˆp % yˆ p

0,1 6,89 20 1,50 90 -0,83 0,5 5,29 30 1,03 95 -1,10

Trang 15

q= x − (1.49) Các tham số y và σy được xác định tùy theo độ dài chuỗi phân tích

(bảng 1.4)

Tính tới công thức (1.43), biểu thức của hàm mật độ xác suất phân

bố Gumbel có dạng

f(x)=αe−α (x−q)−e−α(x−q) (1.50)

Từ (1.50) thấy rằng miền các giá trị có thể của đại lượng ngẫu nhiên

X là khoảng )(−∞,+∞ Phân bố này đơn trị xác định bằng các tham số

x

m và σx

Bảng 1.4 Những giá trị trung bình của các tham số y và σy

theo độ dài chuỗi n (theo Gumbel)

Để xác định hàm mật độ xác suất Gumbel của đại lượng ngẫu nhiên

X với số lượng n khá lớn các giá trị ta có thể tính m và x σx, sử dụng các

công thức (1.44), (1.45) tính α,q và thế vào công thức (1.50) Khi n nhỏ

q

,

α được tính theo các công thức (1.48), (1.49), trong đó y và σy xác

định theo bảng 1.4 tùy thuộc vào n

Thí dụ 1.3: Xác định hàm mật độ phân bố và mực nước tối cao 1%

độ đảm bảo (H1%) theo số liệu bảng 1.2b sử dụng luật phân bố Gumbel

Giải: 1) Tính m và x σx: m x =382,6; σx =18,6 2) Tra bảng 1.4 ứng với 55n= được y=0,5505; 1685σy =1, 3) Tính α và q theo các công thức (1.48-1.49):

4,373

;06,

f ; F ( x ) = e−e−0,06(x−373,4)

) 4 , 373 ( 06 , 0

1)()

6,40,364

%

Trang 16

Hình 1.8 Tổ chức đồ, hàm mật độ (xanh) và hàm phân bố Gumbel (đỏ)

đối với mực nước tối cao năm trạm Hòn Dấu

2 Phương sai của đại lượng không ngẫu nhiên:

0 ] [

D c =

3 Đưa đại lượng không ngẫu nhiên ra ngoài dấu KVTH:

] [ M ] [

M cX = c X

4 Đưa đại lượng không ngẫu nhiên ra ngoài dấu phương sai:

] [ D ] [

D cX = c2 X ,

][]

5 KVTH của tổng các đại lượng nhẫu nhiên (ĐLNN):

] [ M ] [ M ] [

(đúng đối với tổng của nhiều số hạng)

6 KVTH của hàm tuyến tính của một số đối số ngẫu nhiên:

n

X X

M

1 1

n

1 i

n

1 i

b X a b X a

b X

a b

X a

i n

i i i

i n

i

i i i

i

+

= +

i

X

1 1

n

1 i

1 i 2 n

XY ] = M [ ] × M [ ] + [

Nếu X và Y không tương quan:

Trang 17

] [ M ] [ M ] [

i

X

1 1

] [ M

10 Phương sai của tích các ĐLNN:

][D]

[D]

[D][D][

] [ D ] [ D ] [

D X & Y & = X & Y &

B Kỳ vọng toán học và phương sai của một số đại lượng ngẫu nhiên

Định lý 1: Nếu X1, X2, , Xn − những đại lượng ngẫu nhiên

phân bố như nhau, KVTH của từng ĐLNN trong số chúng bằng a, thì

KVTH của tổng các ĐLNN đó bằng na, còn KVTH của trung bình số

học bằng a:

na X

X X

X + + + n] = M [ ] + M [ ] + + M [ n] =

[

a na n X X

X n n

X X

[ M 1

Định lý 2: Nếu X1, X2, , Xn − những ĐLNN phân bố như nhau,

phương sai của từng ĐLNN bằng σ2, thì phương sai của tổng bằng

2

σ

n , còn phương sai của trung bình số học bằng σ2/ n:

2 2

1 2

1 ] D [ ] D [ ] D [ ]

[

n n

n X X

X n n

X X

1 2 2

⎢⎣

Định lý 3: KVTH của ĐLNN phân bố theo quy luật nhị thức, tức

của số lần xuất hiện sự kiện A trong n thí nghiệm độc lập, mà trong

từng thí nghiệm sự kiện ấy có thể xuất hiện với xác suất không đổi p,

bằng np, còn phương sai bằng npq, với q = 1 − p Chứng minh: Xem ĐLNN trên là tổng của các ĐLNN X1,X2, ,Xn biểu thị số lần xuất hiện sự kiện A tuần tự trong thí nghiệm thứ nhất, thứ hai, , thứ n Vậy chúng chỉ có thể có hai giá trị: bằng 0 nếu

sự kiện A không xảy ra trong lần thí nghiệm i (i = 1 , 2 , , n), bằng 1 nếu A xảy ra Vậy X1,X2, ,Xn phân bố như nhau và độc lập, quy luật phân bố của từng ĐLNN trong chúng có dạng sau:

X

X ] = M [ ] = = M [ n] = 0 ⋅ + 1 ⋅ = [

pq q p pq p q q p

p p q

p X

X

=+

=

⋅

−+

)1()

0(][D

][D][D

2 2

2 1

(theo công thức (1.17))

Do đó:

np X

X X

X ] = M [ + + + n] = [

npq X

X X D

X ] = [ + + + n] = [

Định lý 4: KVTH của tần suất của sự kiện A trong n thí nghiệm độc lập, mà trong từng thí nghiệm sự kiện A có thể xảy ra với xác suất không đổi p, bằng chính xác suất p, còn phương sai bằng pq / n Chứng minh: Tần suất của sự kiện A trong n thí nghiệm có thể được xem như trung bình số học của các ĐLNN X1,X2, ,Xn phân bố như nhau, độc lập:

Trang 18

X X

M M

2 1

*

p np n X X

X n

X X

X n

n

X X

X p

n n

n

=

= +

+ +

=

+ + +

X n

n

X X

X p

n

=

=+++

1 2

2 1

*

1

D1

DD

C Mã Fortran của chương trình con tính giá trị hàm mật độ xác suất

của phân bố chuẩn theo công thức (1.24)

C Từ x , m , σ (s) tra xác suất phân bố F(x) =φ* ((x−m) /σ), φ* − tích phân

C xác suất (bảng 1.1), được lưu trong file BANG1_1.TKE với quy cách ghi như

C sau: một dòng tiêu đề trên cùng, nối tiếp sau từng cặp đối số và hàm φ , giá *

C trị nhỏ nhất của đối số: -3,99, lớn nhất: 3,99

FUNCTION TraB1_1 (x, m, s) REAL x, m, s, z, v, z1, z2, v1, v2

z = (x-m)/s

IF (z.LT.-3.99) THEN v=0.000003

ELSE IF (z.GT.3.99) THEN v=0.999967

ELSE OPEN (1, FILE = ‘bang1_1.tke’) READ (1, *)

READ (1, *) z1, v1

2 READ (1, *) z2, v2

IF (z.GE.z1.AND.z.LE.z2) THEN

v = v1+(v2-v1)/(z2-z1)*(z-z1) CLOSE (1)

GOTO 1 ELSE z1 = z2 v1 = v2 GOTO 2 ENDIF ENDIF

1 TraB1_1 = v RETURN

END

Trang 19

Chương 2 NHỮNG KHÁI NIỆM CƠ BẢN CỦA LÝ THUYẾT

XỬ LÝ SỐ LIỆU QUAN TRẮC

Giả sử cần nghiên cứu đại lượng ngẫu nhiên X nào đó mà luật

phân bố của nó chưa biết trước đích xác, phải xác định quy luật đó từ thí

nghiệm hay kiểm tra bằng thực nghiệm giả thuyết về một quy luật nào

đó Khi đó, người ta làm một loạt thí nghiệm với đại lượng ngẫu nhiên

X và trong mỗi thí nghiệm (quan trắc), đại lượng X nhận một giá trị

nhất định Tập hợp các số liệu quan trắc của đại lượng được gọi là tập

hợp thống kê đơn giản hay chuỗi thống kê đơn giản Thông thường, tập

hợp thống kê đơn giản được trình bày dưới dạng bảng

2.1 Hàm phân bố thống kê

Hàm phân bố thống kê của đại lượng ngẫu nhiên X là tần suất của

sự kiện X <x trong chuỗi thống kê đó

( ) x P ( X x )

F∗ = ∗ < (2.1)

Để tìm giá trị của hàm phân bố thống kê ứng với x cho trước chỉ

cần đếm số quan trắc mà trong đó đại lượng X nhận giá trị nhỏ hơn x

và chia cho tổng số quan trắc đã thực hiện n

Hàm phân bố thống kê của đại lượng ngẫu nhiên bất kỳ - rời rạc hay

liên tục - sẽ là một hàm bậc thang gián đoạn (hình 2.1) Khi tăng số quan

trắc n , theo định lý Becnuli, với x bất kỳ tần suất sự kiện X < x tiến dần tới xác suất (hội tụ về xác suất) của sự kiện đó Do đó, khi tăng n

hàm phân bố thống kê F∗( x) sẽ tiến tới hàm phân bố thực thụ F ( x) của

đại lượng ngẫu nhiên X

x

F*(x)

1

Hình 2.1 Biểu diễn hàm phân bố thống kê

Nếu số quan trắc lớn (cỡ vài trăm quan trắc) tập hợp thống kê đơn giản sẽ cồng kềnh và ít trực quan, người ta phải sơ lược xử lý nó và xây dựng “chuỗi thống kê” dưới dạng bảng như sau:

Khoảng trị I i x1; x2 x2; x3 x3; x4 x i ; xi 1 x ; k x k+ 1 Tần suất ∗

i

p p1∗ p∗2 p∗3 p i∗ p∗k

và dựa vào bảng này mà xây dựng tổ chức đồ (histogram) (hình 2.2) Khi

tăng số quan trắc tổ chức đồ sẽ là đồ thị của hàm mật độ phân bố đại

lượng ngẫu nhiên X

Từ chuỗi thống kê hay tổ chức đồ, có thể nhận được đồ thị gần đúng của hàm phân bố thống kê (hình 2.3)

Trang 20

Hình 2.3 Đồ thị gần đúng của hàm phân bố thống kê

Đối với các phân bố thống kê người ta cũng tính được các đặc trưng

bằng số tương tự như với các đặc trưng bằng số của các đại lượng ngẫu

nhiên:

- Trung bình số học (hay trung bình thống kê) của các giá trị quan

trắc của đại lượng ngẫu nhiên:

[ ]

n

x X

m

n

i i x

D

n

i

x i x

là trơn là chọn hợp lý các tham số đó Một trong những phương pháp

chọn hợp lý là phương pháp mômen, theo phương pháp này một số đặc trưng bằng số quan trọng nhất (các mômen) của phân bố lý thuyết được cho bằng các đặc trưng thống kê tương ứng Thí dụ, nếu muốn mô tả

phân bố của đại lượng ngẫu nhiên X bằng phân bố chuẩn

2 2

22

πσ

m x e x

f

−

=)(thì người ta chọn

∗

=m x

m và σ = D =σ∗ = D∗

2.2 Sự phù hợp của phân bố lý thuyết và phân bố thống kê

Giả sử phân bố thống kê đã được là trơn bằng một đường cong lý thuyết f (x ) nào đó Dù đường cong lý thuyết này được chọn tốt thế nào chăng nữa cũng không tránh khỏi những sai khác nào đó Vậy xuất hiện câu hỏi: những sai khác này là ngẫu nhiên liên quan tới số lượng quan trắc hạn chế hay những sai khác này là đáng kể và liên quan tới việc chọn sai đường cong lý thuyết Để trả lời câu hỏi này cần “những tiêu chuẩn phù hợp” Tư tưởng của việc sử dụng các tiêu chuẩn phù hợp như sau:

Trên cơ sở dữ liệu thống kê đã có, cần kiểm tra một giả thuyết H

Trang 21

rằng đại lượng ngẫu nhiên X có hàm phân bố F ( x) Để chấp nhận hoặc

bác bỏ giả thuyết H , người ta xét đại lượng U đặc trưng cho mức độ

bất phù hợp của phân bố lý thuyết và phân bố thống kê Đại lượng U có

thể được chọn theo những cách khác nhau, thí dụ, đó có thể là tổng các

bình phương của độ lệch giữa xác suất lý thuyết pi và tần suất tương

ứng pi∗ hay tổng của những bình phương độ lệch đó nhưng với những hệ

số tỷ trọng nào đó, hay độ lệch cực đại của hàm phân bố thống kê F∗( x)

và hàm lý thuyết F ( x)

Giả sử đại lượng U đã chọn được theo một cách nào đó Rõ ràng

U sẽ là một đại lượng ngẫu nhiên Quy luật phân bố của nó phụ thuộc

vào quy luật phân bố của đại lượng ngẫu nhiên X và vào số lượng quan

trắc n Giả sử quy luật phân bố này đã được biết Nhờ dữ liệu thống kê

thấy rằng đại lượng đặc trưng mức độ sai khác U nhận giá trị u Sai

khác này là do những nguyên nhân ngẫu nhiên hay do có sự khác nhau

đáng kể giữa phân bố lý thuyết và thống kê, tức do giả thuyết H sai?

Muốn giải đáp câu hỏi này người ta giả thiết rằng giả thuyết H đúng và

tính xác suất mà do những nguyên nhân ngẫu nhiên liên quan tới số

lượng quan trắc còn thiếu mà đại lượng U không nhỏ hơn giá trị u đã

thấy qua quan trắc, tức tính xác suất của sự kiện

u

U ≥

Nếu xác suất này rất nhỏ, thì phải bác bỏ giả thuyết H ; nếu xác

suất này đáng kể thì người ta công nhận rằng các số liệu quan trắc không

mâu thuẫn với giả thuyết H

2.2.1 Tiêu chuẩn χ2

Trong một số phương pháp chọn U , quy luật phân bố của U có

những tính chất rất đơn giản và khi n đủ lớn thực tế nó không phụ thuộc

vào hàm F (x ) Tiêu chuẩn χ2 của Pierson là một trong những tiêu chuẩn phù hợp được ứng dụng nhiều nhất

Giả sử thực hiện n quan trắc độc lập Kết quả quan trắc được dẫn

tới k khoảng giá trị và cho dưới dạng chuỗi thống kê (bảng phân bố tần suất) Đòi hỏi kiểm tra xem những dữ liệu quan trắc này có phù hợp với

giả thiết rằng đại lượng ngẫu nhiên X có quy luật phân bố F (x ) đã cho không

Biết quy luật phân bố lý thuyết F ( x), có thể tính những xác suất lý

thuyết của sự kiện X rơi vào từng khoảng giá trị:

k p p

p1, 2, ., Bây giờ ta chọn làm mức độ sai khác giữa phân bố lý thuyết và thống kê một tổng như sau

i p p C

U

1

2 (2.4) Các hệ số tỷ trọng Ci (tỷ trọng của các khoảng giá trị) có ý nghĩa là những độ lệch ứng với những khoảng giá trị khác nhau không nên xem là ngang hàng nhau về mức ý nghĩa, cùng một độ lệch pi∗ − pi có thể ít đáng kể khi bản thân xác suất pi lớn nhưng rất đáng kể khi pi nhỏ Pierson đã chứng minh rằng nếu lấy

i i p

n

C = ,

thì với n lớn, luật phân bố của U có những tính chất rất đơn giản: nó

thực tế không phụ thuộc vào hàm F (x ) và số quan trắc n , mà chỉ phụ thuộc vào số những khoảng giá trị k , cụ thể khi n tăng quy luật này sẽ

Trang 22

dần tới phân bố χ2 1 Vậy

p p n U

1

2 2

np m U

1

2 2

χ (2.5) Phân bố χ2 phụ thuộc vào tham số r, gọi là số bậc tự do

Số bậc tự do r bằng số các khoảng giá trị k trừ đi số các điều kiện

liên hệ mà p∗i phải tuân theo (số các điều kiện ràng buộc) Thí dụ về các

điều kiện ấy có thể là:

1 Phân bố χ 2 với r bậc tự do là phân bố của tổng các bình phương của r đại

lượng ngẫu nhiên độc lập, từng đại lượng trong số chúng tuân theo luật phân bố

chuẩn với kỳ vọng toán học bằng không và phương sai bằng đơn vị Phân bố này

được đặc trưng bởi hàm mật độ

0 2

2

2 2

u

u u

r u

k

u r

r r

e

khi

) (

trong đó Γ = ∞∫ − − −

0

1 )

i p m x

Phân bố χ2 cho phép đánh giá mức độ phù hợp của phân bố lý

thuyết và thống kê Giả thiết đại lượng X đúng là phân bố theo quy luật

)

(x

F Khi đó xác suất p xác định từ bảng này sẽ là xác suất của sự

kiện: do những nguyên nhân ngẫu nhiên đơn thuần, sai khác của phân bố

lý thuyết và thống kê tính theo biểu thức (2.5) sẽ không nhỏ hơn giá trị 2

χ mà ta thực thấy trong chuỗi quan trắc Nếu xác suất này rất nhỏ (nhỏ đến mức sự kiện với xác suất như vậy có thể xem như thực tế không khả

dĩ), thì phải xem kết quả quan trắc mâu thuẫn với giả thuyết H rằng quy luật phân bố của đại lượng X là F ( x) Cần phải bác bỏ giả thuyết như

là một giả thuyết không hiện thực Nếu xác suất p khá lớn, ta có thể công nhận những khác biệt giữa phân bố lý thuyết và thống kê là không

đáng kể, ngẫu nhiên Giả thuyết H có thể xem là hiện thực hoặc ít ra là

không mâu thuẫn với dữ liệu quan trắc

Trang 23

Bảng 2.1 Những giá trị χ2 phụ thuộc vào r và p

2.2.2 Sơ đồ ứng dụng tiêu chuẩn χ2 để đánh giá sự phù hợp

1) Xác định độ sai khác χ2 theo công thức (2.5)

2) Xác định số bậc tự do r như là số khoảng giá trị k trừ đi số liên

hệ s : r= k−s 3) Theo r và χ2 nhờ bảng 2.1 tìm xác suất p của sự kiện: đại lượng có phân bố χ2 với r bậc tự do vượt quá giá trị χ2 đã tính được Nếu p rất nhỏ, giả thuyết bị bác bỏ (trong thực tế nếu p nhỏ hơn 0,1 thì nên kiểm tra lại thí nghiệm); nếu p khá lớn, có thể xem giả thuyết không mâu thuẫn với thực đo

Khi sử dụng tiêu chuẩn χ2, không những chỉ tổng số quan trắc n

đủ lớn mà cả số quan trắc m i trong từng khoảng giá trị cũng phải đủ lớn Trong thực tế tính toán, nên có trong mỗi khoảng giá trị không ít hơn 5 −

10 quan trắc, khi số đó ít hơn thì nên nhóm một số khoảng giá trị lại với nhau

Thí dụ: 1) Cho chuỗi thống kê gồm 500 quan trắc đã được nhóm

thành các khoảng giá trị và được ghi vào bảng như sau:

Trang 24

2 2

2 ) (

2

1 )

π σ

m x

e x

2 2

2 448 , 1

1 )

3) Kiểm tra sự phù hợp giữa phân bố lý thuyết với phân bố thống

kê: Dùng quy luật chuẩn lý thuyết f ( x) trên đây, tìm các xác suất rơi vào

những khoảng giá trị theo công thức:

np m

Tính số bậc tự do k=8, s (số liên hệ) = 3 (ở đây dùng quy luật chuẩn, lấy cả 3 điều kiện) Vậy r =8−3=5 Theo bảng 2.1 tìm được: với r =5, 94χ2 =3, thì p=0,56

Xác suất 56p=0, không nhỏ Vậy giả thuyết rằng đại lượng quan trắc có phân bố chuẩn với m=0,168 và σ =1,448 có thể xem là hiện thực

2.2.3 Tiêu chuẩn phù hợp của Kolmogorov

Kolmogorov A N đã dùng giá trị cực đại của mô đun hiệu giữa hàm phân bố thống kê F∗( x) và hàm phân bố lý thuyết

)()(

làm mức độ bất phù hợp giữa chúng Chọn như vậy có lợi là rất dễ tính

D và D có quy luật phân bố khá đơn giản Kolmogorov đã chứng minh được rằng dù đại lượng ngẫu nhiên X có hàm phân bố như thế nào thì khi tăng không ngừng số quan trắc độc lập n , xác suất của bất đẳng thức

P(λ) 1 ( 1) 2 2λ2 (2.6) Những giá trị của xác suất P(λ) tính theo công thức (2.6) dẫn trong bảng 2.2

Sơ đồ sử dụng tiêu chuẩn Kolmogorov: Dựng hàm phân bố thống kê

Trang 25

( x

F∗ và hàm phân bố lý thuyết F x( ), xác định D cực đại Sau đó xác

định đại lượng λ = D n và theo bảng 2.2 tìm xác suất P(λ) Nếu xác

suất P(λ) rất nhỏ thì phải bác bỏ giả thuyết, nếu xác suất P(λ) khá lớn

thì có thể xem giả thuyết phù hợp với số liệu quan trắc

Bảng 2.2 Những giá trị của xác suất P(λ) phụ thuộc vào λ

Tiêu chuẩn Kolmogorov đơn giản hơn so với tiêu chuẩn χ2 nên

người ta ưa dùng Nhược điểm: chỉ dùng trong trường hợp hàm F x( )

hoàn toàn biết trước từ những lập luận lý thuyết, tức biết trước cả dạng và

những tham số trong nó Trường hợp này ít gặp trong thực tế Thường từ

suy luận lý thuyết ta chỉ biết trước dạng tổng quát của hàm F x( ), còn

những tham số bằng số của nó được xác định theo tài liệu thống kê

Trong khi dùng tiêu chuẩn Pierson, điểm này đã được tính đến bằng cách

giảm số bậc tự do của phân bố χ2 Tiêu chuẩn Kolmogorov không tính

đến điều đó Nếu cứ dùng tiêu chuẩn Kolmogorov trong những trường

hợp mà các tham số của phân bố lý thuyết được ước lượng theo số liệu

thống kê, thì tiêu chuẩn này sẽ cho những giá trị xác suất P(λ) rõ ràng

lớn hơn; vì vậy chúng ta sẽ có thể chấp nhận nhầm giả thuyết

2.3 Khái niệm về ước lượng tham số của phân bố

Để xác định quy luật phân bố, cần có tài liệu thống kê đủ rộng rãi cỡ vài trăm quan trắc Nhưng trong thực tế nhiều khi chúng ta chỉ có những tài liệu quan trắc khá hạn chế, cỡ vài chục số đo Khối lượng tài liệu này không đủ để tìm ra quy luật thống kê, nhưng có thể sử dụng để nhận một vài thông tin về đại lượng ngẫu nhiên, thí dụ, tính một số đặc trưng bằng

số quan trọng nhất như kỳ vọng toán học, phương sai, một vài mômen bậc cao hơn

Ta sẽ xét những bài toán về xác định các đặc trưng mà quy luật phân

bố phụ thuộc vào chúng, theo một lượng quan trắc hạn chế Một tham số bất kỳ tính được theo chuỗi quan trắc hạn chế sẽ chứa yếu tố ngẫu nhiên

Giá trị ngẫu nhiên gần đúng này được gọi là ước lượng của tham số Thí

dụ về ước lượng của kỳ vọng toán học là trung bình số học các giá trị quan trắc Sai số (chênh lệch giữa ước lượng và tham số) sẽ càng lớn nếu

số quan trắc càng ít Cần phải chọn ước lượng sao cho các sai số có thể cực tiểu

Có những đòi hỏi để đảm bảo cho ước lượng, với một ý nghĩa nào

đó, có chất lượng Thí dụ, nếu ta đòi hỏi sao cho ước lượng a~ khi tăng

số quan trắc phải tiến dần tới tham số a thì ước lượng a~ đó có tính chất vững chắc; nếu ước lượng a~ không có xu hướng vượt quá a hay nhỏ hơn a một cách hệ thống, thì ước lượng a ~ có tính chất không chệch; nếu ước lượng không chệch a~ có phương sai so với các ước lượng khác

là nhỏ nhất thì ước lượng a ~ có tính chất hữu hiệu

2.4 Ước lượng của kỳ vọng toán học và phương sai

Người ta chứng minh được rằng ước lượng của kỳ vọng toán học mà chúng ta dùng là trung bình số học các giá trị quan trắc *

m tính theo công thức (2.2)

Trang 26

x m

là ước lượng vững chắc, không chệch và trong trường hợp đại lượng X

phân bố chuẩn là hữu hiệu

Ước lượng của phương sai D là phương sai thống kê *

D tính theo công thức (2.3)

n

m x D

Người ta loại trừ độ chệch này bằng cách nhân *

n

i

i ~)(

~

(2.8) hay

1

2 1

x D

2.5 Khoảng tin cậy và xác suất tin cậy

Kiểu ước lượng như trong mục 2.4 gọi là ước lượng điểm Nhiều khi

đòi hỏi không chỉ tìm giá trị bằng số phù hợp của tham số a , mà phải

đánh giá độ chính xác và độ tin cậy của nó, phải biết nếu thay tham số a bằng ước lượng điểm a~ thì có thể dẫn tới những sai số nào và có thể hy vọng rằng những sai số ấy không vượt quá một giới hạn cho trước với mức độ chắc chắn nào

Những bài toán kiểu như vậy đặc biệt cần thiết khi số lượng quan

trắc nhỏ, ước lượng điểm a~ ở mức độ lớn sẽ là ngẫu nhiên và phép thay

thế gần đúng a bằng a~ có thể dẫn tới những sai số nghiêm trọng

Để có khái niệm về độ chính xác và độ tin cậy của ước lượng a~ , trong toán học thống kê dùng khoảng tin cậy và xác suất tin cậy

Giả sử đối với tham số a đã nhận được ước lượng không chệch a~ Bây giờ cần đánh giá sai số có thể có khi dùng ước lượng đó Ta đặt ra một xác suất đủ lớn β nào đó (thí dụ, 99β =0,9 0,95 0, ) sao cho sự kiện với xác suất β có thể xem là thực tế đáng tin, và tìm một giá trị εsao cho

( a~− a <ε )=β

P (2.10)

Khi đó phạm vi của các giá trị sai số khả dĩ xuất hiện khi thay a bằng a~

sẽ chỉ là ± ; những sai số lớn hơn về giá trị tuyệt đối sẽ chỉ xuất hiện εvới xác suất nhỏ α = 1−β Viết lại (2.10) thành

(a−ε <a<a +ε )=β

P ~ ~ , (2.11) đẳng thức (2.11) có nghĩa là: với xác suất β , giá trị chưa biết của tham

số a nằm trong khoảng

)

~

Ở đây cần chú ý rằng đại lượng a không ngẫu nhiên, mà chính

khoảng Iβ ngẫu nhiên (a~ ngẫu nhiên, và 2ε ngẫu nhiên vì ε được tính theo các số liệu quan trắc) Vì vậy trong trường hợp này nên giải thích đại lượng β là xác suất của sự kiện: khoảng ngẫu nhiên Iβ phủ lên

Trang 27

điểm a trên trục số (hình 2.4)

β

I

Hình 2.4 Biểu diễn khoảng tin cậy

Xác suất β gọi là xác suất tin cậy, còn khoảng Iβ gọi là khoảng tin

cậy Những ranh giới của khoảng Iβ: a1 = a~−ε và a2 = a~+ε gọi là

những ranh giới tin cậy

Ta xét vấn đề tìm các ranh giới tin cậy a1 và a2:

Giả sử đối với tham số a có ước lượng không chệch a~ Nếu như ta

biết trước luật phân bố của đại lượng a~ , thì bài toán tìm khoảng tin cậy

sẽ đơn giản: chỉ cần tìm một giá trị ε sao cho

( ~a− a <ε)= β

Khó khăn là ở chỗ luật phân bố của ước lượng a~ phụ thuộc vào luật

phân bố của đại lượng X và do đó, phụ thuộc vào những tham số chưa

biết của nó (cụ thể vào chính tham số a )

Để khắc phục khó khăn này, có thể sử dụng một phương pháp gần

đúng thô thiển như sau: thay những tham số chưa biết trong biểu thức của

ε bằng những ước lượng điểm Khi số lượng quan trắc khá lớn (khoảng

30

20÷ ), thì phương pháp này thường cho những kết quả tạm thoả mãn

2.5.1 Khoảng tin cậy đối với kỳ vọng toán học

Giả sử thực hiện n thí nghiệm độc lập với đại lượng ngẫu nhiên

X , các đặc trưng của nó - kỳ vọng toán học m và phương sai D chưa

biết Đối với những tham số này đã nhận được những ước lượng:

1

)

~ (

~

;

2 1

n

X m

n

i i n

i

Phải dựng khoảng tin cậy Iβ ứng với xác suất tin cậy β cho kỳ vọng

toán học m của đại lượng X Khi giải bài toán này ta nhớ lại rằng đại lượng m ~ là tổng của n đại

lượng ngẫu nhiên X i độc lập và phân bố như nhau, và do đó, theo định

lý tới hạn trung tâm, khi n đủ lớn luật phân bố của nó gần trùng với luật

phân bố chuẩn Trong thực tế, thậm chí với số lượng các số hạng không lớn lắm (khoảng 10÷20), luật phân bố của tổng có thể xem gần đúng là

chuẩn Vậy ta sẽ xuất phát từ chỗ đại lượng m~ phân bố theo luật chuẩn Các đặc trưng của luật này - kỳ vọng toán học và phương sai tuần tự bằng

m và D / n Giả sử đại lượng D đã biết, và ta tìm đại lượng εβ sao cho

( m~− m <εβ)=β

Biến đổi vế trái của đẳng thức trên đây bằng cách dùng các công thức (1.25), (1.26), (1.28) và (1.29):

Trang 28

m m

m m m

P m

m P

σ

εσ

ε

σ

εσ

ε

εε

ε

β β

β

β β

β

Vậy

β σ

trong đó: Φ∗ − tích phân xác suất; σm~ = D/n− độ lệch bình phương

trung bình của ước lượng m~

Từ đó ta tìm được giá trị của εβ:

2

1 arg

σ

εβ m , (2.13) trong đó arg Φ∗( ) x − hàm ngược của hàm Φ∗( ) x , tức giá trị của đối số

mà ứng với nó hàm phân bố chuẩn bằng x

Bảng 2.3 Những trị số tβ tương ứng với xác suất tin cậy β

Phương sai D mà qua nó ta biểu diễn σm~ chưa được biết trước Ta

có thể dùng ước lượng D~ thay cho nó, vậy ta có

n D

m~ = ~ /

σ (2.14) Như vậy, bài toán dựng khoảng tin cậy đã được giải một cách gần đúng

)

~

Để tránh nội suy ngược trong bảng hàm Φ∗( x) khi tính εβ, người

ta lập một bảng chuyên dụng giúp tính các trị số của đại lượng

)

~

;

~ ( m t m~ m t m~

Iβ = − βσ + βσ (2.17) Như vậy đại lượng tβ chính là số lần độ lệch bình phương trung bình cần phải đặt về phía bên trái và bên phải kể từ tâm tản mạn để cho xác suất rơi vào khoảng đó bằng β

Thí dụ 2.1: Có 20 quan trắc về đại lượng X viết thành bảng như

Trang 29

Hãy tìm ước lượng m ~ của kỳ vọng toán học m của đại lượng X

và dựng khoảng tin cậy ứng với xác suất tin cậy β =0,8

Giải:

0564 , 0 /

~

064 , 0

~

78 , 10

= t σm

Các ranh giới tin cậy sẽ là:

.,,

~

;,,

~

85100720

711007202

1

=+

m m

Vậy khoảng tin cậy: Iβ = ( 10 , 71 ; 10 , 85 ).

2.5.2 Khoảng tin cậy đối với phương sai

Bài toán về khoảng tin cậy đối vơi phương sai cũng được giải tương

tự Giả sử thực hiện n thí nghiệm độc lập về đại lượng ngẫu nhiên X

với các tham số m và D chưa biết, đối với phương sai D ta tính được

ước lượng không chệch:

11

n

i

i ~)(

~

, (2.18) trong đó

n

X m

n

i i

∑

=

= 1

Yêu cầu dựng gần đúng khoảng tin cậy cho phương sai

Từ công thức (2.18) thấy rằng đại lượng D~ là tổng n đại lượng ngẫu nhiên dạng

Những đại lượng ấy không phải là độc lập,

vì trong mỗi đại lượng đều có mặt m~ phụ thuộc vào tất cả X i Tuy nhiên, người ta có thể chỉ ra rằng khi tăng n luật phân bố của tổng chúng

cũng dần tới luật chuẩn Thực tế với n=20÷30 đã có thể xem là chuẩn

Ta cũng giả thiết như vậy và tìm các đặc trưng của luật phân bố này:

kỳ vọng toán học và phương sai Vì ước lượng D~ không chệch, nên

D D

M[~]= Việc tính D D[~] rất phức tạp nên ở đây chỉ dẫn ra biểu thức cuối cùng:

2 4

1

31

D n n

n n

D D

)(]

~[

−

= μ , (2.19) trong đó μ4 − mômen tâm bậc bốn của đại lượng X

Để dùng biểu thức này, cần phải đưa vào đó những trị số của μ4 và

D (dù là những trị số gần đúng) Thay cho D có thể sử dụng ước lượng của nó D~ Về nguyên tắc mômen tâm bậc bốn μ4 cũng có thể thay thế bằng ước lượng của nó, thí dụ, bằng đại lượng sau:

n

m X n

i i

μ , (2.20) nhưng thay thế như vậy sẽ cho độ chính xác không cao, vì nhìn chung với

số lượng thí nghiệm hạn chế, các mômen bậc cao xác định với sai số lớn Tuy nhiên, trong thực tế thường là dạng của luật phân bố của đại lượng

X được biết trước, chỉ không biết trước các tham số của phân bố đó mà thôi Khi đó có thể biểu diễn μ4 qua D

Trang 30

Thí dụ, trường hợp thường gặp nhất - đại lượng X phân bố theo

luật chuẩn; khi đó mômen tâm bậc bốn được biểu diễn qua phương sai

1

33

D n n

n D n D D

)(]

~[

−

=hay

21

2

D n D D

−

=]

~[ (2.21)

Trong (2.21) thay D chưa biết bằng ước lượng của nó, ta được

21

2

D n

D~] ~[

Trong một số trường hợp luật phân bố khác, người ta cũng có công

thức biểu thị μ4 qua D Nhưng khi dạng của luật phân bố của đại lượng

X chưa biết, nếu không có cơ sở đặc biệt nào để khẳng định là nó khác

rõ rệt so với luật chuẩn (có độ nhọn dương hoặc âm đáng kể), thì vẫn cứ

nên sử dụng công thức (2.22) để nhận định về σD~

Tóm lại, nếu giá trị định hướng

D~

σ đã tìm được bằng cách nào đó, thì có thể dựng khoảng tin cậy cho phương sai tương tự như cho kỳ vọng

)

~(

σε

βσ

εσ

ε

βεε

β β

D D

D D D

m D

D D D

P

Vậy khoảng tin cậy của phương sai là

)

~

Thí dụ 2.2: Tìm gần đúng khoảng tin cậy 80 % cho phương sai của

đại lượng ngẫu nhiên X qua thí dụ trước (thí dụ 2.1), nếu biết rằng đại lượng X phân bố theo luật gần với luật chuẩn

Giải: đại lượng tβ, cũng giống như trong thí dụ 2.1, được tìm nhờ bảng 2.3 theo β =0,8 bằng

2821,

=β

Theo công thức (2.22)

020700640120

2

,,

; 037 , 0 (

=β

Khoảng tin cậy tương ứng của độ lệch bình phương trung bình là

) 30 , 0

; 19 , 0

Trang 31

2.5.3 Các phương pháp chính xác dựng khoảng tin cậy cho

các tham số của đại lượng ngẫu nhiên phân bố chuẩn

Để tìm chính xác những khoảng tin cậy nhất thiết phải biết trước

dạng của luật phân bố đại lượng ngẫu nhiên X , trong khi đó nếu dùng

các phương pháp gần đúng thì điều đó không cần thiết

Ý tưởng của các phương pháp chính xác như sau: Một khoảng tin

cậy bất kỳ của ước lượng a~ được tìm từ điều kiện biểu thị xác suất thực

hiện những bất đẳng thức nào đó mà ước lượng a~ có mặt trong đó Luật

phân bố của ước lượng a~ trong trường hợp tổng quát phụ thuộc vào

chính những tham số chưa biết của đại lượng X Tuy nhiên, đôi khi có

thể chuyển đổi trong các bất đẳng thức từ đại lượng ngẫu nhiên a~ sang

một hàm nào đó của các giá trị quan trắc x1 x2 ,x n, và luật phân bố

của hàm đó không phụ thuộc vào các tham số chưa biết, mà chỉ phụ thuộc

vào số lượng thí nghiệm n và dạng của luật phân bố của đại lượng X

Những đại lượng ngẫu nhiên kiểu như vậy đóng vai trò quan trọng trong

toán học thống kê, chúng đã được nghiên cứu kỹ nhất đối với trường hợp

đại lượng X phân bố chuẩn

Thí dụ, người ta chứng minh được rằng nếu đại lượng ngẫu nhiên

X phân bố chuẩn, thì đại lượng ngẫu nhiên

D

m m n T

~

~−

= , (2.24) trong đó

11

2 1

n

X m

n

i i n

i

~

2 2

21

2 1

1 1

) 1 ( ) (

n

n n

n

t n

t S

~ ) 1 ( −

= (2.26)

có phân bố χ2 với n−1 bậc tự do, mật độ biểu thị bằng công thức:

( )

.0 khi 0

0 khi 2

1

)(

2

v 2 1

212

1 1

v v

Bây giờ ta xét cách sử dụng các luật phân bố trên đây để xây dựng

khoảng tin cậy cho các tham số m ~ và D~

Giả sử đã thực hiện n thí nghiệm độc lập với đại lượng ngẫu nhiên

X phân bố theo luật chuẩn với các tham số chưa biết m và D Đối với

những tham số này ta đã nhận được các ước lượng

1

)

~ (

~

;

2 1

n

X m

n

i i n

i

Đòi hỏi dựng khoảng tin cậy cho hai tham số ứng với xác suất tin cậy β Trước hết dựng khoảng tin cậy cho kỳ vọng toán học Đương nhiên

ta lấy khoảng này đối xứng qua m~ , ký hiệu εβ là nửa độ dài của

Trang 32

khoảng Đại lượng εβ cần lấy sao cho thoả mãn điều kiện

( m~− m <εβ)=β

P (2.28)

Ta sẽ chuyển từ đại lượng ngẫu nhiên m~ ở vế trái đẳng thức này thành

đại lượng ngẫu nhiên T phân bố theo luật Student Muốn vậy cần nhân

hai vế của bất đẳng m~− m <εβ với đại lượng dương

m m n P

hay

β n

D T

P (2.30) Đại lượng tβ được tìm từ điều kiện

t T

0

1( )

2 (2.32) Đẳng thức (2.32) xác định đại lượng tβ tùy thuộc vào β Nếu có bảng giá trị của tích phân

)

thì có thể tìm được đại lượng tβ bằng cách nội suy ngược trong bảng đó Tuy nhiên nên lập trước bảng giá trị tβ (bảng 2.4) Trong bảng này dẫn các giá trị tβ phụ thuộc vào β và số bậc tự do n−1 Khi đã xác định được tβ theo bảng 2.4 và cho

m n

D t m

Thí dụ 2.3: Thực hiện 5 thí nghiệm độc lập với đại lượng ngẫu nhiên

X phân bố chuẩn với các tham số chưa biết m và σ: kết quả thí nghiệm dẫn trong bảng sau:

Trang 33

(tức khoảng tin cậy ứng với xác suất tin cậy β =0,9)

Giải: Ta có

664

=β

từ đó

452,

Thí dụ 2.4 : Đối với điều kiện thí dụ 1, nếu giả thiết rằng X có phân

bố chuẩn, hãy tìm khoảng tin cậy chính xác

Giải: Theo bảng 2.4, tìm với 19n−1= và β =0,8, được

3281,

=β

từ đó

075 , 0

0 1

Trang 34

Dựng khoảng tin cậy cho phương sai:

Ta xét ước lượng không chệch của phương sai

11

n

i

i ~)(

D~ (2.35)

Biết quy luật phân bố của đại lượng V , có thể tìm khoảng iβ mà nó

rơi vào với xác suất cho trước β

Quy luật phân bố k n−1(v) của đại lượng V có dạng như trên hình

2.5

Xuất hiện câu hỏi: chọn khoảng iβ như thế nào? Nếu như quy luật

phân bố của V đối xứng (như quy luật chuẩn hay quy luật Student) thì

đương nhiên lấy khoảng iβ đối xứng qua kỳ vọng toán học Trong

trường hợp đang xét, quy luật k n−1(v) không đối xứng Ta quy ước chọn

khoảng iβ sao cho các xác suất của việc đại lượng V rơi ra ngoài ranh

giới của khoảng về phía bên phải và phía bên trái (các diện tích bị gạch

chéo trên hình 2.5) bằng nhau và bằng

2

12

β

Để dựng khoảng tin cậy iβ với tính chất trên, ta dùng bảng 2.1,

trong đó dẫn các số χ2 sao cho

p V

P( > χ2)=

đối với đại lượng V có phân bố χ2 với r bậc tự do Trong trường hợp

đang xét r = n−1 Ấn định 1r = n− và tìm trong dòng tương ứng của bảng 2.1 hai giá trị χ2: một giá trị ứng với xác suất

21

α

=

p ; giá trị khác ứng với xác suất

2

12

21

Bây giờ ta tìm theo khoảng iβ khoảng tin cậy Iβ cho phương sai với các ranh giới D1 và D2 phủ lên điểm D với xác suất β :

Trang 35

Ta dựng khoảng Iβ =(D1; D2) phủ lên điểm D khi và chỉ khi đại

lượng V rơi vào khoảng iβ

11

χχ

;)(

~

n D n

D

I (2.36)

sẽ thỏa mãn điều kiện đó Thật vậy, các bất đẳng thức

D n

D − <

2 1

1χ

)(

~

; D n− > D

2 2

1χ

)(

~

tương đương với các bất đẳng thức

2 1

mà những bất đẳng thức này lại được thỏa mãn với xác suất β Như vậy

khoảng tin cậy cho phương sai được biểu diễn bằng công thức (2.36)

Thí dụ 2.5: Tìm khoảng tin cậy cho phương sai trong điều kiện thí

dụ 2.2 nếu biết rằng đại lượng X có phân bố chuẩn

Giải: Ta có β =0,8; α =0,2; 01

2 = ,

α

Theo bảng 2.1 ta tìm được với r = n−1=19

;,(0045 0104

=β

Khoảng tin cậy tương ứng cho độ lệch bình phương trung bình:

(0,21; 0,32) Khoảng này chỉ khác một chút so với kết quả đã nhận được

ở thí dụ 2.2

2.6 Ước lượng xác suất theo tần suất

Trong thực tế thường người ta phải ước lượng xác suất chưa biết p của sự kiện A theo tần suất * p của nó qua n thí nghiệm độc lập Bây giờ ta xem tần suất của sự kiện A qua n thí nghiệm độc lập là tung bình số học của các giá trị quan trắc của đại lượng X mà đại lượng này trong mỗi thí nghiệm riêng nhận giá trị 1 nếu sự kiện A xảy ra và nhận giá trị 0 nếu sự kiện A không xảy ra:

n

X p

n

i i

Trang 36

Bài toán này là một trường hợp bộ phận của bài toán về khoảng tin

cậy của kỳ vọng toán học đã xét ở mục trước, song nó được xem xét một

cách riêng biệt vì ở đây có nét đặc thù: đại lượng X là đại lượng ngẫu

nhiên rời rạc chỉ với hai giá trị có thể có là 0 và 1 Ngoài ra, kỳ vọng toán

học của nó p và phương sai pq= p(1− p) liên quan với nhau bằng mối

liên hệ hàm Điều này làm đơn giản bài toán dựng khoảng tin cậy

1) Xét trường hợp đơn giản nhất, khi số thí nghiệm n khá lớn, còn

xác suất p không quá lớn mà cũng không quá bé Khi đó có thể cho rằng

tần suất *p là đại lượng ngẫu nhiên có phân bố gần chuẩn (theo định lý

giới hạn trung tâm đối với các số hạng phân bố như nhau) Các tính toán

cho thấy rằng có thể sử dụng giả thiết đó thậm chí với các n không rất

lớn: chỉ cần cả hai đại lượng np và nq lớn hơn 4 Ta sẽ coi như những

điều kiện này thỏa mãn và tần suất *p phân bố theo quy luật chuẩn Các

tham số của quy luật này sẽ là:

Đầu tiên ta hãy giả sử p đã biết Ta định ra xác suất tin cậy β và

tìm khoảng (p−εβ, p+εβ) sao cho đại lượng *p rơi vào khoảng này

với xác suất β :

( p*− p <εβ)=β

P (2.40)

Vì p* phân bố chuẩn nên vế trái của (2.40) có thể biểu diễn qua

các giá trị của hàm phân bố chuẩn:

2

1 βσ

ở đây tβ được xác định theo bảng 2.4

Như vậy, với xác suất β có thể khẳng định rằng

n

pq t

p

p*− < β (2.42)

Thực tế chúng ta chưa biết đại lượng p ; nhưng bất đẳng thức (2.42)

sẽ có xác suất β không tùy thuộc vào việc ta đã biết hay chưa biết p

Khi đã nhận được từ thí nghiệm giá trị cụ thể của tần suất p*, có thể dùng bất đẳng thức (2.42) tìm khoảng Iβ phủ lên điểm p với xác suất

β Thật vậy, ta biến đổi bất đẳng thức này thành dạng

n

t p

p − < 1−

2

2 β

(2.43) Các ranh giới tin cậy p1 và p2 có thể tìm từ (2.43) bằng cách thay dấu bất đẳng thức bằng dấu đẳng thức Giải phương trình bình phương

nhận được đối với p ta được hai nghiệm:

Trang 37

t

1

)(1

*

;t

1

)(1

*

2 2

n

t n

p*

t n

t p p

n

t n

p*

t n

t p p

β

β β

β

β β

β

2

2 2

2

2 2

1

4

12

1

4

12

1

(2.44)

Khoảng tin cậy cho xác suất p sẽ là

) ,(p1 p2

1

n

tβ

trong các công thức (2.44) tiến tới 0, do đó

*

,

*)(

*

n

p p

t p p

n

p p

t p p

β

11

2

1

(2.45)

Những công thức này cũng có thể nhận được ngay nếu dùng cách

gần đúng như khi dựng khoảng tin cậy cho kỳ vọng toán học ở mục

trước, tức cho giá trị của p chưa biết bằng * p rồi xác định ngay σp*

trong (2.41) một cách gần đúng Các công thức (2.45) có thể sử dụng khi

n lớn (bằng khoảng vài trăm) nếu p không quá lớn hay quá nhỏ (thí dụ

khi np và nq bằng khoảng 10 hoặc lớn hơn)

Thí dụ 2.6 : Thực hiện 200 thí nghiệm; tần suất sự kiện A thấy bằng

;,(0292 0388

=β

Theo công thức (2.44):

),

;,(0294 0389

=β

Hai kết quả không khác nhau một cách đáng kể

2) Khi số thí nghiệm ít (cũng như nếu xác suất p rất lớn hay rất nhỏ) thì không thể xem tần số phân bố chuẩn được nữa Trong trường hợp này người ta dựng khoảng tin cậy xuất phát từ quy luật phân bố chính xác của tần số Có thể dễ dàng khẳng định rằng đây là phân bố nhị

thức Thật vậy, số lần xuất hiện sự kiện A trong n thí nghiệm phân bố theo quy luật nhị thức: xác suất của việc sự kiện A xuất hiện đúng m

lần bằng

m n m m n n

P = − , (2.46) (

!)(

!

m n m

Xuất phát từ phân bố này có thể dựng khoảng tin cậy Iβ tương tự

như ta đã làm trong trường hợp n lớn

Giả sử ta đã biết xác suất p và bây giờ tìm khoảng tần suất ( *

1

p ,

* 2

p ) mà với xác suất β = 1−α tần suất sự kiện p* rơi vào trong khoảng đó

Đối với trường hợp n lớn ta đã sử dụng quy luật phân bố chuẩn và

đã lấy khoảng tin cậy là đối xứng qua kỳ vọng toán học Phân bố nhị thức

Trang 38

(2.46) không đối xứng Hơn nữa, vì tần suất − đại lượng ngẫu nhiên rời

rạc, có thể không tồn tại một khoảng mà xác suất rơi vào đó đúng bằng

β Vì vậy, ta sẽ lấy khoảng (p1*, p*2) như là một khoảng nhỏ mà xác

suất rơi về phía trái và phía phải nó sẽ lớn hơn

2

α Biên dưới p1 của “khoảng tin cậy” sẽ được xác định bằng cách giải

phương trình sau đây theo p :

m n m

2

10

np

m

m n m

m

C (2.48)

Để không phải giải các phương trình (2.47) và (2.48) từng lần một

người ta có thể lập bảng (hay biểu diễn đồ thị) nghiệm của chúng ứng với

một số giá trị β điển hình Thí dụ, trong cuốn sách Теория

β và β =0,99 Hình 2.6 là thí dụ biểu thị bằng đồ thị nghiệm của

(2.47) và (2.48) cho trường hợp 9β =0, (lấy từ cuốn sách Теория

вероятностией của Е С Вентцель)

Để tìm khoảng tin cậy Iβ theo đồ thị ta đặt trên trục hoành giá trị

tần số p* tìm được theo quan trắc, vẽ qua điểm này một đường thẳng

song song với trục tung, cắt các đường cong ứng với n đã cho ở hai

điểm Tung độ của hai điểm ấy sẽ là giới hạn tin cậy p1 và p2

Thí dụ 2.7: Tìm khoảng tin cậy Iβ(p1, p2) đối với xác suất của

một sự kiện nếu trong 50 lần quan trắc tần suất của nó bằng p*=0,4

Xác suất tin cậy 9β =0,

Giải: Theo hình 2.6, với p*=0,4 và n=50 ta tìm được 28

0

1 ≈ ,

p ; p2 ≈0,52

Hình 2.6 Đồ thị của nghiệm phương trình 2.47

Sử dụng phương pháp khoảng tin cậy, có thể giải gần đúng một bài toán khác quan trọng trong thực hành: số quan trắc phải bằng bao nhiêu

để với xác suất tin cậy β sai số gặp phải khi thay thế xác suất bằng tần suất không vượt quá một giá trị cho trước?

Khi giải bài toán như vậy ta cũng có thể sử dụng hình 2.6, chỉ cần dựng lại nó: biểu diễn các giới hạn tin cậy như là các hàm của số lượng

quan trắc n Thí dụ 2.8: đã thực hiện quan trắc 25 lần, trong đó thấy hiện tượng

Trang 39

A xảy ra 12 lần Tìm gần đúng số lần quan trắc n cần thiết để sao cho

với xác suất β =0,9 sai số do thay thế xác suất bằng tần suất không vượt

quá 20 %

Giải: Ta xác định sai số tới hạn cho phép:

1009604802

0, ⋅ , = , ≈ ,

=

Dùng các đường cong trên hình 2.6 dựng đồ thị mới: trên trục hoành

đặt những số lượng quan trắc n khác nhau, trên trục tung − các ranh giới

tin cậy của xác suất (hình 2.7)

Hình 2.7 Đồ thị để xác định số lần quan trắc n

theo xác suất và ranh giới tin cậy

Đường thẳng trung bình song song với trục hoành ứng với tần suất

25

12,

p Phía trên và phía dưới của đường này vẽ các

đường p1(n) và p2(n) (tra theo hình 2.6) Bên cạnh đường thẳng

vì trong trường hợp tổng quát sẽ nhận được giá trị mới của tần suất *p

khác so với giá trị tính được theo những quan trắc cũ Do đó, số lượng quan trắc lại một lần nữa có thể tăng lên Tuy nhiên, phép xấp xỉ bậc nhất nhận được theo phương pháp vừa mô tả có thể dùng làm kế hoạch tạm thời khi bố trí loạt quan trắc

Trường hợp xác suất rất nhỏ Công thức để tính giới hạn trên khi xác suất rất nhỏ (p*=0 qua n quan trắc):

n

p2 =1− 1−β

Sự kiện A với xác suất nhỏ p không gặp thấy qua n quan trắc Số

lượng thí nghiệm n phải bằng bao nhiêu để cho ranh giới trên của xác

suất của sự kiện bằng giá trị p2 cho trước:

)(lg

21

Trang 40

Phụ lục chương 2

A Mã Fortran của thủ tục tra bảng phân bố χ2 (bảng 2.1)

C Cho phép thực hiện hai kiểu tra bảng: thuận và ngược

C Tham số nguyên ic= 0: từ số bậc tự do (n) và xác suất (xs) tra ra

C giá trị χ Tham số 2 ic= 1: từ n và χ tra 2

C ra xác suất xs Nếu n > 30 có thể ngoại suy

SUBROUTINE TraB21 (ic, n, xs, chi)

READ(9,*) k, (d1(j), j=1, 14) READ(9,*) k, (d2(j), j=1, 14)

DO j=1,14 d1(j) = d1(j)+(d2(j)-d1(j))*(n-29) ENDDO

ENDIF CLOSE(9)

IF (ic.GT.0) THEN

xs = chi d2 = p

p = d1 d1 = d2 ENDIF

IF (ic.EQ.0) THEN

IF (xs.GT.p(1)) THEN j=1

ELSE IF (xs.LT.p(14)) THEN j=13

ELSE j=1

4 IF (xs.LE.p(j).AND.xs.GE.p(j+1)) GOTO 5

j=j+1 GOTO 4 ENDIF ELSE

IF (xs.LT.p(1)) THEN j=1

Định dạng
Số trang	82
Dung lượng	1,2 MB