KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ7.1 Khái niệm về kiểm nghiệm giả thiết thống kê • Bài toán tổng quát của kiểm nghiệm giả thiết thống kê: “Cho đại lượng ngẫu nhiên X và một giả thiết Ho về
Trang 1LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN HỌC
Phan Văn Tân
Bộ mô Khí tượng
Trang 2CHƯƠNG 7 KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
• Xét hai chuỗi số liệu: Áp suất khí
quyển (khí áp) và nhiệt độ không khí
• Sự khác nhau giữa các thành phần
trong từng chuỗi:
– Giá trị nhận được giữa các lần đo
là khác nhau– Mang tính ngẫu nhiên
• Sự khác nhau giữa các thành phần hai
chuỗi:
– Khí áp khác với Nhiệt độ
– Là bản chất
15.8 1003.3
17.3 996.8
17.7 999.7
19.9 998.2
17.2 998.1
16.5 1003.2
15.9 999.4
15.4 998.7
16.5 1006.7
19.9 1007.6
19.9 1000.7
15.0 1003.5
T( o C)
Ps (mb)
Trang 3CHƯƠNG 7 KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
• Khi nghiên cứu một hiện tượng nào đó thường nảy sinh vấn đề nghi hoặc:
– giữa cái "thật" và cái "giả",
– giữa "đúng" và "sai",
– giữa cái "bản chất“ và "ngẫu nhiên"
• Chẳng hạn, sau khi xem xét chuỗi số liệu lượng mưa ta phát hiện ra rằng "hình như kể từ khi thay đổi vị trí trạm, lượng mưa có dấu hiệu tăng lên so với trước?"
– Điều nghi ngờ đó có đúng hay không?
– Dấu hiệu lượng mưa tăng lên sau khi thay đổi vị trí trạm là bản chất hay chỉ là ngẫu nhiên?
• Để giải quyết mối nghi ngờ đó ta nêu ra giả thiết "lượng mưa tăng lên
kể từ khi thay đổi vị trí trạm" và tiến hành kiểm nghiệm nó
• Ngược lại với giả thiết này là đối thiết "lượng mưa không tăng lên"
Trang 4CHƯƠNG 7 KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
• Bài toán tổng quát của kiểm nghiệm giả thiết thống kê:
“Cho đại lượng ngẫu nhiên X và một giả thiết Ho về phân bố xác suất của X Một mệnh đề khác với Ho được gọi là đối thiết H1 Cần kiểm nghiệm xem Ho đúng hay H1 đúng trên cơ sở tập mẫu (X1, X2, , Xn)”
• Thông thường đối thiết H1 là phủ định của giả thiết Ho
• Giả thiết Ho có thể là giả thiết đơn giản hoặc giả thiết phức tạp
• Giả thiết đơn giản là giả thiết chỉ chứa một giả định Ví dụ, Ho:
a1=a2
• Giả thiết phức tạp là giả thiết chứa nhiều giả định Ví dụ, Ho:
a1<a<a2
Trang 5CHƯƠNG 7 KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
• Nguyên tắc giải:
• Về nguyên tắc, để giải bài toán kiểm nghiệm giả thiết thống kê cần phải:
– Lập không gian mẫu (X1,…,Xn)
– Trên không gian mẫu này xác định một miền D0 là miền chấp nhận H0 và phần bù của D0 là D1 – miền bác bỏ giả thiết H0, tức chấp nhận đối thiết H1
– Mẫu đã lấy được là một điểm xác định trong không gian mẫu– Nếu điểm này thuộc miền D0 ta coi giả thiết H0 là đúng và
chấp nhận H0
– Ngược lại thì bác bỏ H0, tức chấp nhận H1
Trang 6CHƯƠNG 7 KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
Các loại sai lầm:
• Khi kiểm nghiệm giả thiết thống kê, chỉ dựa vào một lần thực nghiệm
là tập mẫu (X1, X2, , Xn), do đó những kết luận đưa ra có thể phạm phải sai lầm
• Có hai loại sai lầm:
– Sai lầm loại I : Là sai lầm bác bỏ giả thiết Ho khi giả thiết này đúng
– Sai lầm loại II : Là sai lầm chấp nhận giả thiết Ho khi giả thiết này sai
• α = P( /Ho) (Bác bỏ Ho khi Ho đúng)
• β = P(Ho/ ) (Chấp nhận Ho khi Ho sai)
• Quan hệ giữa α và β là ngược nhau: α giảm thì β tăng và ngược lại
• Dung lượng mẫu n càng lớn, giá trị của α và β càng nhỏ
o
H
o
H
Trang 7CHƯƠNG 7 KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
Các loại sai lầm:
• Với dung lượng mẫu n cố định, ta cố gắng lựa chọn một chỉ tiêu thích
hợp sao cho có thể loại trừ được cả hai loại sai lầm càng nhiều càng tốt.
• Tuy nhiên ta không thể cực tiểu hoá đồng thời cả α và β, vì chúng liên
hệ với nhau bởi các hệ thức
1)
/(
)/
(H0 H o + P H o H o =
P P(H0 / H0) + P(H o / H0) = 1
Trang 8CHƯƠNG 7 KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
Nguyên lý xác suất nhỏ:
• Sự kiện hiếm thì không xuất hiện trong một lần quan sát
• Sự kiện đã xuất hiên trong một lần quan sát thì được coi
là sự kiện tất yếu
Trang 9CHƯƠNG 7 KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
Miền thừa nhận và miền loại bỏ :
• Trong kiểm nghiệm giả thiết, khi có tập mẫu (X1, X2,…, Xn), tức là ta đã xác định được một điểm trong không gian mẫu, ký hiệu là X*
• Điểm này sẽ thuộc miền Do (miền chấp nhận Ho) hay D1 (miền bác bỏ
Ho, tức chấp nhận H1) tùy thuộc vào ranh giới d phân chia không gian mẫu D thành hai miền Do, D1
Trang 10CHƯƠNG 7 KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
Miền thừa nhận và miền loại bỏ :
• Trong thực tế, từ tập mẫu (X1, X2,…, Xn), ta nhận được một thống kê nào
đó là một giá trị cụ thể x*
• Giá trị này là một điểm trên trục số
• Không gian mẫu D bây giờ là toàn bộ hoặc một phần của trục số, trên đó xác định hai miền Do và D1 bởi giá trị giới hạn d
• x* thuộc Do hay D1 là tùy thuộc vào giá trị của d
Trang 11CHƯƠNG 7 KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.1 Khái niệm về kiểm nghiệm giả thiết thống kê
Miền thừa nhận và miền loại bỏ:
• Với xác suất phạm sai lầm
loại 1 bằng α ta có:
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
α
D 1 = {- ∞; -d} ∪ {d;+∞}
d –d
• Trong trường hợp một chiều, nếu f(x/Ho) là mật độ xác suất có điều kiện của X thì
( 1
) /
( )
/ (
) ( )
/ (
) /
(
1
1
0 0
0 0
0 1
0 1
D
D
ds s f H
D X
P H
D P
ds s f H
D X
P H
D P
/ ( )
/ (
) /
( )
/ ( )
/ (
0 0
0
0 0
0 1
d
d
d d
dx H
x f H
D X
P
dx H
x f dx
H x f H
D X
P
Trang 12CHƯƠNG 7 KIỂM NGHIỆM GIẢ THIẾT THỐNG KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
1 Qui tắc phân bố chuẩn:
• Bài toán 1: Cho biến ngẫu nhiên có phân bố chuNn N (μ,σ) với σ
đã biết, và (X1,…,Xn) là một mẫu của X Hãy kiểm nghiệm sựbằng nhau của μ với số μ0 cho trước
Đặt giả thiết kiểm nghiệm H0: μ=μ0
Vì μ chưa biết nên thay μ bằng ước lượng
Và đưa giả thiết H0 về dạng tương đương:
P Ý nghĩa: X ≠ μ0 hay μ ≠ μ0
Trang 13CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
1 Qui tắc phân bố chuẩn:
• Lập biến mới:
N hư đã biết, vì
n
X u
1)
|(|
u u
P
Và đưa ra kết luận: |u| ≥ u α : Bác bỏ H0, tức μ ≠ μ0
|u| < u α : Chấp nhận H0, tức μ = μ0
Trang 14CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
1 Qui tắc phân bố chuẩn:
• Miền thừa nhận giả thiết H0 (miền D0) chính là (–u α , u α), và do
đó miền loại bỏ H0 (miền D1) là (–∞,–u α) ∪ (+uα ,+∞)
X là biến thống kê mới u
Trang 15CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
1 Qui tắc phân bố chuẩn:
• Bài toán 2: Cho hai biến ngẫu nhiên có phân bố chuNn
X∈N (μx,σx) và Y∈N (μy,σy) với σx và σy đã biết, (X1,…,Xn1) và
(Y1,…,Yn2) là các mẫu tương ứng của X và Y Hãy kiểm nghiệm
sự bằng nhau của μx và μy
• Giải: Đặt giả thiết kiểm nghiệm H0: μx=μy
Vì μx và μy chưa biết nên thay chúng bằng các ước lượng
Và đưa giả thiết H0 về dạng tương đương: ∑ ∑
1
1 ,
i
i y
μ
Y X
H0 : =Khi đó, nếu H0 đúng ta có xác suất phạm sai lầm loại 1 là
α
=
≥
− | )(| X Y d P
Trang 16CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
1 Qui tắc phân bố chuẩn:
d u
n n
Y
X u
y x
Do đó khi H0 đúng biến u có phân bố chuNn chuNn hóa, u∈N(0,1)
Do đó, nếu biết trước α ta có thể tính được u α từ phương trình:
α π
1)
|(|
u u
P
Và đưa ra kết luận: |u| ≥ u α : Bác bỏ H0, tức μx ≠ μy
|u| < u α : Chấp nhận H0, tức μx = μy
),
0()
N Y
X σx σ y
+
∈
−
Trang 17CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
2 Qui tắc Student:
• Bài toán 1: Cho biến ngẫu nhiên có phân bố chuNn N (μ,σ) với σ
chưa biết, và (X1,…,Xn) là một mẫu của X Hãy kiểm nghiệm sựbằng nhau của μ với số μ0 cho trước
Đặt giả thiết kiểm nghiệm H0: μ=μ0
Vì μ chưa biết nên thay μ bằng ước lượng
Và đưa giả thiết H0 về dạng tương đương:
Trang 18CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
2 Qui tắc Student:
• Vì chưa biết σ nên lập biến mới:
Ở đây:
n s
X t
d t
∈St n t
Do đó, nếu biết trước α ta có thể tính được t α từ phương trình:
1,
()
x f t
f(x,n–1) là hàm mật độ phân bố
Student với n–1 bậc tự do
Trang 19CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
2 Qui tắc Student:
• Bài toán 2: Cho hai biến ngẫu nhiên có phân bố chuNn
X∈N (μx,σx) và Y∈N (μy,σy) với σx và σy chưa biết, (X1,…,Xn1)
và (Y1,…,Yn2) là các mẫu tương ứng của X và Y Hãy kiểm
nghiệm sự bằng nhau của μx và μy
• Giải: Đặt giả thiết kiểm nghiệm H0: μx=μy
Vì μx và μy chưa biết nên thay chúng bằng các ước lượng
Và đưa giả thiết H0 về dạng tương đương: ∑ ∑
1
1 ,
i
i y
μ
Y X
H0 : =Khi đó, nếu H0 đúng ta có xác suất phạm sai lầm loại 1 là
α
=
≥
− | )(| X Y d P
Trang 20CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
∈St n n t
Do đó, nếu biết trước α ta có thể tính được t α từ phương trình:
2,
()
n x f t
−+
−
=
2 1
2 1
2
* 2
)1
(
n n
n n
s n
Trang 21CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
3 Qui tắc F:
• Bài toán: Cho hai biến ngẫu nhiên có phân bố chuNn
X∈N (μx,σx) và Y∈N (μy,σy) với σx và σy, (X1,…,Xn1) và
(Y1,…,Yn2) là các mẫu tương ứng của X và Y Hãy kiểm
nghiệm sự bằng nhau của σx và σy
• Giải: Đặt giả thiết kiểm nghiệm
Vì σx và σy chưa biết nên thay chúng bằng các ước lượng
2
* 2
1
2 1
)
(1
i
i y
y
n
i
i x
n
s X
X n
σ
2
* 2
Trang 22Khi đó, nếu H0 đúng thì biến f có phân bố Fisher (phân bố F) với
n 1 -1 và n 2 -1 bậc tự do:
CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
3 Qui tắc F:
)1,
1( 1 − 2 −
∈F n n f
Giả sử s*x2 > s*y2 Ta lập biến mới: 2
s
f =
Và xác suất phạm sai lầm loại 1 là: P( f ≥ fα ) = α
Khi cho trước α có thể xác định được f α từ phương trình:
f
dx n
n x f f
Trang 23CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
4.Qui tắc χ 2:
• Bài toán: Cho biến ngẫu nhiên X và mẫu (X1,…,Xn) Từ mẫu này
ta xây dựng được hàm phân bố thực nghiệm F n (x) Giả thiết rằng
phân bố của X chính xác là hàm F(x,θ) với θ=(θ1,…,θr) là các
tham số Hỏi rằng phân bố thực nghiệm F n (x) có phù hợp với phân
bố lý thuyết F(x,θ) không?
• Các bước giải bài toán như sau:
• Giải: Thực chất của bài toán là kiểm nghiệm giả thiết về sự phù
hợp giữa phân bố thực nghiệm nhận được từ tập mẫu và phân bố
lý thuyết mà ta giả thiết là X tuân theo: H0: F n (x)=F(x)
• B1 Căn cứ vào tập mẫu (X1,…,Xn) chia không gian giá trị của X
thành k khoảng rời nhau; ký hiệu các khoảng đó là S1,…,Sk
Trang 24CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
Các m j được gọi là tần số thực nghiệm ứng với các khoảng Sj
Khi đó các np j (j=1,…,k) được gọi là tần số lý thuyết rơi vào Sj
Hiệu (m j – np j) phản ánh sự sai lệch giữa thực nghiệm và lý thuyết
np
np m
1
2
)(
η
Trang 25CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
7.2 Một số qui tắc kiểm nghiệm giả thiết
4.Qui tắc χ 2:
) 1 (
∈ χ k r
η
Khi H0 đúng, ta có xác suất phạm sai lầm loại 1 là:
N gười ta đã chứng minh được biến η có phân bố χ2 với (k–r–1)
bậc tự do (p là số tham số của phân bố):
• B5 Chọn giá trị α và tính η α từ hệ thức:
α η
η ≥ α ) = (
P
α η
k x f
P f(x,k–r–1) là hàm mật độ phân bố χ 2 với k–r–1 bậc tự do
Và đưa ra kết luận: η ≥ η α : Bác bỏ H0, tức F n (x) ≠ F(x)
η < η α : Chấp nhận H0, tức F n (x)=F(x)
Trang 26CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
Tóm tắt
• Khái niệm về kiểm nghiệm giả thiết thống kê:
– N êu giả thiết: Đưa ra một mệnh đề mà cần phải xác minh xem
nó “đúng” hay “sai” Đó thường là giả thiết H0
– Giả thiết H0 thông thường là một mệnh đề mà ta muốn loại bỏ
• Để kiểm nghiệm, cần có tập mẫu (X1,…,Xn)
– Trên thực tế, đó là một dãy số liệu quan trắc của X, tức (x1, ,xn)– Từ tập mẫu này ta xác định được một đại lượng thống kê nào
đó, ví dụ u, t, f, η,…Đó là một hằng số cụ thể, ký hiệu x*
• Giả thiết H0 đúng hay không đúng (sai) tùy thuộc vào x * thuộc
miền D0 (miền thừa nhận H0) hay D1 (miền bác bỏ H0) Chú ý: D0
và D1 là hai miền không giao nhau, chúng hợp thành không gian mẫu N ói cách khác D1 là phần bù của D0
Trang 27CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
Tóm tắt
• “Ranh giới” phân định D0 và D1 liên quan đến xác suất phạm sai
lầm loại 1 và loại 2; nó được xác định bởi giá trị giới hạn d α nào
đó, ví dụ uα, tα, fα, ηα,…
• Thông thường để xác định ranh giới này ta chọn một giá trị xác
suất phạm sai lầm loại 1 bằng α nào đó
• Từ giá trị α, căn cứ vào luật phân bố của đại lượng thống kê (u, t, f, η,…), giải phương trình P(x*∈D1)=α hoặc P(x *∈D0)=1–α để tính
uα, tα, fα, ηα,…
• Kết luận thống kê được rút ra từ việc so sánh u, t, f, η,… tương
ứng với uα, tα, fα, ηα,…
Trang 28Qui tắc phân bố chuNn:
2
5.0)
1,
(0
x f
0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8
tα α/2
Qui tắc Student:
Trang 29CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
f
dx n
n x
k x f
Qui tắc χ2:
ηα
α
Trang 30CHƯƠN G 7 KIỂM N GHIỆM GIẢ THIẾT THỐN G KÊ
Tóm tắt
Có 4 qui tắc kiểm nghiệm đã được xét:
• Qui tắc phân bố chuNn:
– 2 bài toán (So sánh kỳ vọng với một
số cho trước và so sánh hai kỳ vọng)
– Đã cho biết phương sai
• Qui tắc Student:
– 2 bài toán (So sánh kỳ vọng với một
số cho trước và so sánh hai kỳ vọng)
– Chưa cho biết phương sai
• Qui tắc F: 1 bài toán (So sánh hai
phương sai)
• Qui tắc χ2: 1 bài toán (So sánh phân bố
thực nghiệm với phân bố lý thuyết
• Các biến được
giả thiết là có phân bố chuẩn
• Nếu n đủ lớn
(n>30) thì có thể
không cần sử dụng giả thiết này
HẾT CHƯƠNG 7