Giáo trình: Chương 8:Kiểm địn giả thuyết thống kê
Trang 1Chương 8
KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
(Tests of Hypotheses)
Thông thường đối với tham số θ chưa biết của tập hợp chính ta có thể đưa ra nhiều giả thuyết về θ
Vấn đề đặt ra là làm thế nào kiểm định được giả thuyết nào thích hợp với các số liệu của mẫu quan sát được (x1, x2, …, xn )
8.1 NHỮNG KHÁI NIỆM VỀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
8.1.1 Giả thuyết thống kê ( Statistical Hypothesis)
Là một giả sử hay một phát biểu có thể đúng, có thể sai liên quan đến tham số của một hay nhiều tập hợp chính
8.1.2 Giả thuyết không (giả thuyết đơn) và giả thuyết ngược lại (đối thuyết)
(Null Hypothesis & Alternative Hypothesis)
Giả thuyết không: là sự giả sử mà ta muốn kiếm định thường được ký hiệu là Ho
Giả thuyết ngược lại: Việc bác bỏ giả thuyết không sẽ dẫn đến việc chấp nhận giả
thuyết ngược lại Giả thuyết ngược lại thường được ký hiệu là H1
Ví dụ
Kiếm định giả thuyết Ho: θ ≥ θo có thể θ = θo
Với H1: θ < θo
Kiếm định giả thuyết Ho: θ ≤ θo có thể θ = θo
Với H1: θ > θo
Kiếm định giả thuyết Ho: θ = θo
Với H1: θ ≠ θo
8.1.3 Các loại sai lầm trong việc kiểm định giả thuyết thống kê
Việc kiểm định giả thuyết thống kê có thể phạm phải 2 loại sai lầm
a) Sai lầm loại I (type I error)
Là loại sai lầm mà chúng ta phạm phải trong việc bác bỏ giả thuyết Ho khi Ho đúng Xác suất của việc bác bỏ Ho khi Ho đúng là xác suất của sai lầm loại I và được ký hiệu
là α
α = P ( bác bỏ Ho / Ho đúng) = P(type I error)
α : còn được gọi là mức ý nghĩa ( level of significance)
α = 0,05; 0,01 ; 0,001 …
Trang 2b) Sai lầm II (type II error)
Là loai sai lầm mà chúng ta phạm phải khi không bác bỏ giả thuyết Ho khi Ho sai
Xác suất của việc không bác bỏ Ho khi Ho sai là xác suất của sai lầm loại II và được ký
hiệu là β
β = P (không bác bỏ Ho /Ho sai) = P(type II error)
Bản chất của Ho Quyết định về
giả thuyết không Ho
Không bác bỏ
(chấp nhận )
Quyết định đúng
Prob = 1- α
P (không bác bỏ Ho / Ho) = 1-α
Sai lầm loại II
Prob = β
Bác bỏ
Sai lầm loại I
Prob = α (α = mức ý nghĩa kiểm định)
Quyết định đúng
Prob = 1 - β (1 - β: năng lực kiểm định)
8.1.4 Miền bác bỏ và miền chấp nhận
( Rejection Region & Acceptance Region )
Tất cả các giá trị có thể có của các đại lượng thống kê trong kiểm định có thể chia làm 2
miền: miền bác bỏ và miền chấp nhận
Miền bác bỏ là miền chứa các giá trị làm cho giả thuyết Ho bị bác bỏ
Miền chấp nhận là miền chứa các giá trị giúp cho giả thuyết Ho không bị bác bỏ
Trong thực tế khi Ho không bị bác bỏ cùng nghĩa là nó được chấp nhận
Giá trị chia đôi hai miền được gọi là giá trị giới hạn (Critical value)
8.1.5 Kiểm định một đầu và kiểm định 2 đầu
(one – tailed test & two – tailed test)
a) Kiểm định một đầu
Khi giả thuyết ngược lại H1 có tính chất 1 phía (one – sided) thì việc kiểm định được gọi
là kiểm định 1 đầu
Ho: θ ≤ θo hay Ho: θ ≥ θo
H1: θ > θo H1: θ < θo
b) Kiểm định hai đầu:
Khi giả thuyết ngược lại H1 có tính chất 2 phía (two – sided) thì việc kiểm định được gọi
là kiểm định 2 đầu
Ho: θ = θo
H1: θ ≠ θo
Trang 38.2 CÁC BƯỚC CỦA VIỆC KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ:
Gồm 6 bước:
Bước 1: Thành lập giả thuyết Ho
Ví dụ:
Ho: θ = θo
Ho: θ ≤ θo
Ho: θ ≥ θo
Bước 2: Thành lập giả thuyết H1
Ví dụ:
H1: θ < θo
H1: θ > θo
H1: θ ≠ θo
Bước 3: Xác định mức ý nghĩa α
Bước 4: Chọn các tham số thống kê thích hợp cho việc kiếm định và xác định các miền
bác bỏ, miền chấp nhận và giá trị giới hạn
Bước 5: Tính toán các giá trị của các tham số thống kê trong việc kiểm định dựa trên số
hiệu của mẫu ngẫu nhiên
Bước 6: Ra quyết định: Nếu các giá trị tính toán rơi vào miền bác bỏ Ho thì ra quyết định
bác bỏ Ho Ngược lại sẽ chấp nhận Ho
8.3 KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH µ CỦA PHÂN PHỐI CHUẨN N(µ,σ 2 ) KHI ĐÃ BIẾT σ 2
Cho ( x1, x2 , …, xn) là mẫu ngẫu nhiên cỡ n được lấy từ tập họp chính tuân theo phân phối chuẩn N (µ,σ2 ) trong đó σ2 đã biết
8.3.1 Trường hợp 1
Ho : µ = µo hay µ ≥ µo
H1 : µ < µo
Zα
Không bác bỏ H0
0
Bác bỏ H 0
Trang 4Miền bác bỏ R: Bác bỏ Ho nếu Ztt =
n
X
/
0 σ
µ
−
< - Z α
8.3.2 Trường hợp 2:
Ho : µ = µo hay µ ≤ µo
H1 : µ > µo
Zα
Không bác bỏ H0
0
Bác bỏ H 0
α
Miền bác bỏ R: Bác bỏ Ho nếu Ztt =
n
X
/
0 σ
µ
− > Z α
8.3.3 Trường hợp 3:
Ho : µ=µ0
H1 : µ≠µ0
-Zα/2
Không bác bỏ H0
0
Bác bỏ H 0
Zα/2
Bác bỏ H 0
Miền bác bỏ R: Bác bỏ Ho nếu Ztt < -Zα/2 hoặc Ztt > Zα/2
Với : Ztt =
n
X
/
0 σ
µ
−
Thí dụ
Trong một nhà máy bánh kẹo, một máy tự động sản xuất ra các thanh sô cô la với trọng lượng qui định 250g Biết rằng trọng lượng các thanh sô cô la được sản xuất ra có phân
bố chuẩn N(µ,52) Trong một ngày bộ phân kiểm tra kỹ thuật chọn một mẫu ngẫu nhiên gồm 16 thanh sô cô la và tính trọng lượng trung bình của chúng được 244g Có thể khẳng
Trang 5định máy tự động sản xuất ra các thanh sô cô la có trọng lượng nhỏ hơn qui định không? Với mức ý nghĩa α=0,05 kiểm định giả thuyết thống kê tương ứng
Giải
1/ Ho : µ = 250g
2/ H1 : µ < 250g
3/ α = 0,05
4/ Zα =Z0,05 = 16,45 ⇒ -Zα =-1,645
16 / 5
250 246 /
−
=
n
X
Z tt
σ
µ
=
2
σ 52 ⇒ σ = 5
n = 16 X = 244g , µ = 250g 0
6/ Ztt = -4,8 < -Z0,05 = -1,645
Ra quyết định: Bác bỏ giả thuyết Ho ở mức ý nghĩa 5% Nghĩa là: máy tự động sản xuất
sô cô la có trọng lượng nhỏ hơn qui định ⇒ Phải điều chỉnh lại máy
Thí dụ
Một máy khoan trong dây chuyền sản xuất dùng để khoan lỗ trên các bản thép Khi máy khoan hoạt động đúng chức năng thiết kế đường kính các lỗ khoan sẽ tuân theo phân phối chuẩn với số trung bình là 2 inches và độ lệch chuẩn là 0,06 inches Trong quá trình kiểm tra định kỳ xem máy khoan có hoạt động đúng hay không, người ta lấy đo ngẫu nhiên các
lỗ đã khoan Giả sử độ lệch chuẩn không thay đổi Mẫu ngẫu nhiên gồm 9 lỗ khoan cho ta đường kính trung bình của mẫu là 1,95 inches
Kiểm định giả thuyết Ho : số trung bình của tập hợp chính là 2 inches
Với H1 : số trung bình của tập hợp chính khác 2 inches
Trong quá trình kiểm định dùn α = 5%
Giải:
1/ Ho : µ = µ0 = 2
2/ H1 : µ ≠ 2
3/ α = 0,05
4/ Zα/2 = Z0,025 =1,96 ⇒ -Zα/2 =−1,96
5/ X = 1,95; µ0 =2; σ = 0,06; n = 9
9 / 06 , 0
2 95 , 1 /
−
=
n
X
Z tt
σ
µ
6/ Ta có : Ztt < -Zα/2 =−1,96
Ra quyết định : Bác bỏ giả thuyết Ho ở mức ý nghĩa 5% ⇒ Máy hoạt động không đúng chức năng thiết kế
Trang 68.4 KIỂM ĐỊNH GIÁ TRỊ TRUNG BÌNH µ CỦA PHÂN PHỐI CHUẨN N(µ,σ 2 ) KHI CHƯA BIẾT σ 2
Giả sử ta có mẫu ngẫu nhiên cỡ mẫu là n được lấy từ tập hợp chính tuân theo phân phối chuẩn có số trung bình là µ Gọi X và Sx là số trung bình và độ lệch chuẩn của mẫu, ta sẽ
có 3 trường hợp kiểm định µ với mức ý nghĩa α
8.4.1 Trường hợp 1:
Ho : µ = µo hay µ ≥ µo
H1 : µ < µo
Miền bác bỏ R : Bác bỏ Ho nếu tn-1 < tn-1,α
Với tn-1=
n
X
x/
0 σ
µ
−
, tn-1 tuân theo phân phối Student t với độ tự do n-1
8.4.2 Trường hợp 2:
Ho : µ = µo hay µ ≤ µo
H1 : µ > µo
Miền bác bỏ R: Bác bỏ Ho nếu tn-1 > tn-1,α
8.4.3 Trường hợp 3:
Ho : µ=µ0
H1 : µ≠µ0
Miền bác bỏ R: Bác bỏ Ho nếu tn-1 > tn-1,α/2
Hay tn-1 < - tn-1,α/2
t* n-1,α
Không bác bỏ H 0 Bác bỏ H 0
α
t* n-1,α
Không bác bỏ H 0
Bác bỏ H 0
α
t* n-1,α/2
Không bác bỏ H 0
-t* n-1,α/2
Trang 7Thí dụ
Nhà quản lý các cửa hàng bán lẻ nhận thấy rằng số lượng hàng bán ra trung bình trong tháng 12 cao hơn 20% so với tháng 11 Theo dõi sổ sách của sáu cửa hàng (được chọn một cách ngẫu nhiên) nhà quản lý nhận thấy phần trăm độ tăng trung bình của lượng hàng bán ra tại 6 cửa hàng trong tháng 12 như sau:
19,2%; 18,4%; 19,8%; 20,2%; 20,4% và 19,0%
Giả sử phần trăm độ tăng trung bình của lượng hàng bán ra tại tất cả các cửa hàng trong
hệ thống bán lẻ tuân theo phân phối chuẩn
Kiểm định giả thuyết rằng phần trăm độ tăng trung bình của lượng hàng bán ra trong tháng 12 là 20% so với tháng 11 với α = 10%
Giải:
Giả thuyết: Ho : µ = µ0 = 20
H1 : µ ≠ 20
Ta có: α = 10% tn-1, α/2 = t5, 0.05 = 2,015
-tn-1, α/2 = -t5 , 0.05 = -2,015
Xác định X và Sx
5 , 19 6
117 n
X= ∑x i = =
Sx2 = 0,588 ⇒ Sx = 0,588 = 0,767
tn-1 =
n S
x
x/
0 µ
−
6 / 767 , 0
20 5 ,
19 − =−
Ra quyết định: tn-1, α/2 < tn-1 < tn-1, α/2
-2,015 < -1,597 < 2,015
⇒ Chấp nhận giả thuyết Ho (Những dữ kiện từ mẫu không đủ mạnh để bác bỏ Ho)
8.5 KIỂM ĐỊNH PHƯƠNG SAI CỦA PHÂN PHỐI CHUẨN N(µ,σ 2 )
Giả sử ta có mẫu ngẫu nhiên cỡ mẫu là n được lấy ra từ tập hợp chính tuân theo phân phối chuẩn có phương sai là σ2 Gọi S2x là phương sai của mẫu, ta sẽ có 3 trường hợp kiểm định σ2 với mức ý nhĩa là α
8.5.1 Trường hợp 1:
Ho : σ2 = σ02 hay Ho : σ2 ≥ σ02
H1 : σ2 < σ02
R : Bác bỏ Ho nếu χ2
n-1 < χ2 n-1,1-α
0
2 2
1
) 1 (
σ
n
S
n−
=
n-1 tuân theo phân phối X2 với độ tự do n-1
Trang 88.5.2 Trường hợp 2:
Ho : σ2 = σ02 hay Ho : σ2 ≤ σ02
H1 : σ2 > σ02
R : Bác bỏ Ho nếu χ2
n-1 > χ2 n-1,α
8.5.3 Trường hợp 3:
Ho : σ2 = σ02
H1 : σ2 ≠ σ02
R : Bác bỏ Ho nếu χ2
n-1 > χ2 n-1,α/2 hay χ2
n-1 < χ2 n-1,1-α/2
Thí dụ
Để thỏa mãn tiêu chuẩn đã được ấn định trong hợp đồng là phương sai của hàm lượng chất bẩn trong các lò hàng hoá chất không được vượt quá 4% Lấy ngẫu nhiên 20 lô hàng
ta có phương sai của hàm lượng chất bẩn trong các lô hàng mẫu là 5,62%
Kiểm định giả thuyết phương sai của hàm lượng chất bẩn trong tất cả các lô hàng không quá 4% với α =10% Giả sử rằng tập hợp chính tuân theo phân phối chuẩn
Giải:
Giả thuyết: Ho : σ2 ≤ σ02 = 4
H1 : σ2 > 4
R : Bác bỏ Ho nếu χ2
n-1 >
Ta có: α = 0,1, n = 20 → χ2
n-1,α = χ2
19,0,1 = 27,20
S2
x = 5,62, n = 20, σ2
0 =4
χ2
4
62 , 5
* 19 )
1 (
2 0
2
=
=
−
σ
n
Ra quyết định: Vì χ2
n-1 =26,695 < χ2
n-1,α =27,20
⇒ Không bác bỏ Ho tại mức α =10%
8.6 KIỂM ĐỊNH GIÁ TRỊ TỶ SỐ P CỦA TẬP HỢP CHÍNH TRONG ĐIỀU KIỆN
CỠ MẪU LỚN:
Gọi P là tỉ số của số lần thành công trong tập hợp chính
f là tỉ số của số lần thành công trong n phép thử
Khi cỡ mẫu n lớn, thì biến ngẫu nhiên chuẩn hóa
n / ) p 1 ( p
p f
−
−
=
∑ sẽ gần đúng có phân phối chuẩn hóa
Ta có 3 trường hợp p với mức ý nghĩa α
Trang 98.6.1 Trường hợp 1:
Ho : P = P0 hay Ho : P ≥ P0
H1 : P < P0
R : Bác bỏ Ho nếu Ztt < - Zα
Với
n p p
p f Z
/ ) 1 ( −
−
= , Z ∼ N (0,1)
8.6.2 Trường hợp 2:
Ho : P = P0 hay Ho : P ≤ P0
H1 : P > P0
R : Bác bỏ Ho nếu Z > Zα
8.6.3 Trường hợp 3:
Ho : P = P0
H1 : P ≠ P0
R : Bác bỏ Ho nếu Z > Zα/2 Hay Z < -Zα/2
Thí dụ
Lấy ý kiến 199 giảng viên về việc day học theo lối tín chỉ thì có 104 giảng viên đồng ý Kiếm định với mức về giả thuyết cho rằng có một nửa số giảng viên trong trường Bách khoa đồng ý dạy theo lối tín chỉ
Giải
Gọi P là tỉ lệ số giảng viên trường Đại học Bách Khoa đồng ý dạy theo lối tín chỉ
Giả thuyết: Ho : P = Po =0,5
H1 : P ≠ 0,5
Zα/2 = Z0,05 = 1,645 vì α = 10%
-Zα/2 = -Z0,05 = -1,645
n =199, Po = 0,5 ⇒ f = 0,523
199
104 =
65 , 0 199 / 50 , 0
* 50 , 0
50 , 0 523 , 0 /
) 1
0
−
−
=
n p p
p f Z
Ra quyết định: -Zα/2 < Z < Zα/2
-1,645 < 0,65 < 1,645
⇒ Không bác bỏ Ho
Trang 10Thí dụ
Cũng ví dụ trên, kiếm định giả thuyết số giảng viên đồng ý hơn hoặc bằng một nửa số giảng viên trong trường
Giải:
Giả thuyết: Ho : P ≥ Po = 0,5
H1 : P < 0,5
Zα = Z0,1 = 1,28 ⇒ -Zα = -1,28
Ra quyết định: Z = 0,65 > -Zα = 1,28 ⇒ Không bác bỏ Ho
8.7 KIỂM ĐỊNH GIẢ THUYẾT VỀ QUY LUẬT PHÂN PHỐI LÝ THUYẾT
8.7.1 Kiểm định tính phù hợp (A Goddness-of-Fit Test)
Giả sử ta có mẫu ngẫu nhiên với cỡ mẫu là n Mỗi giá trị quan sát của mẫu ngẫu nhiên có thể xếp vào 1 trong K lớp Gọi số phần tư của lớp thứ i là Oi với i = 1,2, …,K
Trong việc kiểm định tính phù hợp ta có:
Ho : Xác suất để cho các giá trị quan sát rơi vào lớp thứ i = Pi (i =1,2, … k)
H1 : Xác suất để cho các giá trị quan sát rơi vào lớp thứ i ≠ Pi
R : Bác bỏ Ho nếu χ2
k-1 > χ2
k-1,α Với :
i
i i k i k
E
E
1
2 1
) ( −
=∑
=
− χ
Ei :Kỳ vọng của số phần tử trong lớp thứ i Với giả thuyết Ho ta có:
Ei = n*Pi
χ2
k-1 tuân theo phân phối χ2 với độ tự do là k-1
Ví dụ
Một công ty chất đốt dựa vào kinh nghiệm trong quá khứ cho rằng đến cuối mùa đông sẽ
có 80% lượng khách hàng trả đầy đủ tiền ngay 10% trả chậm 1 tháng, 6% trả chậm 2 tháng và 4% trả châm hơn 2 tháng Đến cuối mùa đông để kiểm định lại điều này, Cty lấy ngẫu nhiên mẫu gồm 400 khách hàng và nhận thấy có 287 khách hàng trả ngay, 49 trả chậm 1 tháng, 30 trả chậm 2 tháng và 34 trả chậm hơn 2 tháng Hỏi những kinh nhiệm trong quá khứ có thể áp dựng cho mùa đông năm nay không? Kiểm định với mức ý nghĩa 5%
Giải
Ho : Xác suất lượng khách hàng trả tiền ở mùa đông hiện tại phù hợp với các số liệu trong quá khứ Nghĩa là xác suất tương ứng với 4 loại khách hàng là:
P1 = 0,8, P2 = 0,1, P3 = 0,06, P4 = 0,04
H1 : P1 ≠ 0,8, P2 ≠ 0,1, P3 ≠ 0,06, P4 ≠ 0,04
α = 0,05 , k = 4 ⇒ χ2
k-1,α = χ2
3,0,05 = 7,81
Trang 11Dưới giả thuyết Ho, kỳ vọng số khách hàng trong mỗi loại từ tổng số 400 khách hàng:
E1 = 400 * 0,8 = 320
E2 = 400 * 0,1 = 40
E3 = 400 * 0,06 = 24
E4 = 400 * 0,04 = 16
Ta có:
Số khách hàng dựa vào mẫu quan
Kỳ vọng của số khách hàng trong
χ2
k-1 =
i
2 i i 4
1
) E O ( −
∑
=
=
16
) 16 34 ( 24
) 24 30 ( 40
) 40 49 ( 320
) 320 287
χ2
k-1 =227,187
Ra quyết định: Vì χ2
k-1 > χ2
k-1,α
⇒ Bác bỏ Ho Nghĩa là không thể áp dụng kinh nghiệm trong quá khứ vào năm nay Số
lượng khách hàng trả chậm trong năm nay nhiều hơn các năm trước
8.7.2 Kiểm định giả thuyết về qui luật phân phối lý thuyết
Trong việc kiểm định giả thuyết tính phù hợp của số liệu quan sát với qui luật phân phối
lý thuyết ta có:
Ho : Số liệu quan sát tuân theo qui luật phân phối lý thuyết
H1 : Số liệu quan sát không tuân theo qui luật phân phối lý thuyết
Cách tìm miền bác bỏ R bằng kiểm định χ 2
9 Chia n số liệu quan sát ra làm K khoảng
9 Gọi Oi là số phần tử của mẫu quan sát nằm trong khoảng i (i=1,2, …, K)
9 Gọi Ei là kỳ vọng của số phần tư nằm trong khoảng i (Ei được tính dựa vào qui luật
phân phối lý thuyết)
Ei = n Pi Pi = xác suất để cho các phần tử nằm trong khoảng i
9 Tính χ2
χ2
k-1 =
i
2 i i 4 1
) E O ( −
∑
=
χ2 gần đúng tuân theo phân phối Chi Squared với độ tự do là ν, ν = k -r -1
r : số tham số cần phải ước lượng
Trang 12Với phân phối chuẩn r = 2
Với phân phối Poisson r = 1
9 Tìm miền bác bỏ R
Nếu χ2 > χ2
ν,α ta bác bỏ giả thuyết Ho Nghĩa là số liệu quan sát không tuân theo qui luật phân phối lý thuyết đã định → Đi tìm qui luật phân phối lý thuyết khác
Ví dụ : Kiểm định phân phối chuẩn
Để đo lường chất lượng của 1 lô sản phẩm, người ta lấy ra đo 200 chi tiết và cho kết quả như sau:
Các lớp Số chi tiết quan sát được Oi
54,795 54,80 54,805
54,805 54,81 54,815
54,815 54,82 54,825
54,825 54,83 54,835
54,835 54,84 54,845
54,845 54,85 54,855
54,855 54,86 54,865
54,865 54,87 54,875
6
14
33
47
45
33
15
7
n = 200 Vấn đề đặt ra là các số liệu quan sát được có tuân theo phân phối chuẩn không? Giải:
Giả thuyết: Ho : Các số liệu quan sát tuân theo phân phối chuẩn
H1 : Các số liệu quan sát không tuân theo phân phối chuẩn Tính Ei
Ei = n * pI
Với Pi = P(xi < x < xi+1) = ⎟
⎠
⎞
⎜
⎝
<
<
σ
µ σ
Z
x P
Ở đây lấy µ = X =54,835 (số trung bình của mẫu)
σ = Sx = 0,016 (độ lệch của mẫu)
Ví dụ: Tính P1 , E1
P1 = P (54,795 < X < 54,805) = P (
016 , 0
835 , 54 805 , 54 016
, 0
835 , 54 795 ,
<
<
−
= P (-2,5 < Z <-1,88)
= 0,4938 – 0,4699
P1= 0,0239 ⇒ E1 = n P1 = 200 * 0,0239 =4,78
Tính tương tự cho các lớp khác ta có