Xét biến ngẫu nhiên X của một tổng thể mà ta đã biết quy luật phân phối xác suất nhưng chưa biết tham số đặc trưng θ của X.. ii Đây là bài toán ước lượng bằng khoảng tin cậy bên trái cho
Trang 1Chương 4
Ước lượng tham số
Ước lượng tham số là một trong những bài toán cơ bản của thống kê toán học Khinghiên cứu một dấu hiệu đặc trưng dưới dạng các đặc tính định lượng (chẳng hạn
như chiều cao, cân nặng, độ dài, ) của tổng thể thông qua biến ngẫu nhiên X, nếu xác định được quy luật phân phối xác suất của X thì việc đưa ra các đánh giá
cũng như các dự báo về sự biến động của tổng thể liên quan đến đặc tính này sẽchính xác và khách quan Tuy nhiên không phải lúc nào chúng ta cũng xác định
được quy luật phân phối xác suất của X Trong một số trường hợp, bằng phương
pháp phân tích lý thuyết ta có thể biết được dạng toán học của hàm phân phối
hoặc hàm mật độ của X Tuy nhiên, các tham số đặc trưng của nó như kỳ vọng, phương sai, hoặc tỷ lệ (gọi chung là tham số θ) lại chưa biết nên ta cần phải xác định θ Việc tính chính xác θ là khó có thể thực hiện được mà ta chỉ có thể tính gần đúng Việc tính gần đúng tham số đặc trưng θ thông qua mẫu cụ thể đã có gọi là ước lượng tham số (estimate for parameters).
Chương này sẽ trình bày bài toán ước lượng tham số cho kỳ vọng toán và tỷ lệ.Mục 4.1 sẽ giới thiệu phương pháp ước lượng điểm làm cơ sở quan trọng cho việcgiải quyết bài toán ước lượng bằng khoảng tin cậy được trình bày trong Mục 4.2.Nội dung của chương được tham khảo chủ yếu từ các tài liệu [2], [6]-[8], [10] và [12]
4.1 Phương pháp ước lượng điểm
Bài toán Xét biến ngẫu nhiên X của một tổng thể mà ta đã biết quy luật phân
phối xác suất nhưng chưa biết tham số đặc trưng θ của X Hãy ước lượng θ với độ tin cậy cho trước 1 − α.
Phương pháp chung Từ tổng thể cần nghiên cứu rút ra một mẫu ngẫu nhiên
kích thước n và dựa vào mẫu đó mà xây dựng một thống kê G dùng để ước lượng θ Phương pháp ước lượng điểm (point estimation) chủ trương dùng một giá trị để thay thế cho tham số θ chưa biết về tổng thể, vì bản thân θ là một số xác định Thông thường giá trị được chọn là một thống kê G nào đó của mẫu ngẫu nhiên Có nhiều cách chọn thống kê G khác nhau tạo nên những phương pháp ước lượng điểm
khác nhau
97
Trang 298 Chương 4: Ước lượng tham số
Giả sử cần ước lượng tham số θ của biến ngẫu nhiên X Đối với phương pháp
ước lượng điểm ta có thể tiến hành theo các bước như sau:
• Bước 1 Từ tổng thể lập mẫu ngẫu nhiên kích thước n: W = (X1,X2, ,X n)
• Bước 2 Lập thống kê G = f(X1,X2, ,X n ) được gọi là hàm ước lượng của
θ Thông thường chọn thống kê mẫu tương ứng với tham số θ cần ước lượng, chẳng hạn, để ước lượng kì vọng toán E(X) của biến ngẫu nhiên X thì người
ta thường chọn thống kê là trung bình mẫu X, để ước lượng phương sai V (X), chọn thống kê là phương sai điều chỉnh mẫu S ′2
• Bước 3 Xác định mẫu cụ thể và tính được giá trị g = f(x1,x2, , x n) của
thống kê G trên mẫu cụ thể đó Từ đó suy ra ước lượng của θ là giá trị g vừa
tính được
Chất lượng của ước lượng không thể đánh giá qua một giá trị cụ thể của G vì như vậy chỉ có cách so sánh trực tiếp g và θ mà θ lại chưa biết Do đó chỉ có thể đánh giá chất lượng của ước lượng thông qua bản thân thống kê G = f (X1,X2, ,X n)
Rõ ràng là có vô số cách chọn hàm f , tức là có vô số thống kê G có thể dùng làm ước lượng của θ nên cần đưa ra một tiêu chuẩn để đánh giá chất lượng thống kê G,
từ đó lựa chọn được thống kê “xấp xỉ một cách tốt nhất” tham số ước lượng Có 3tiêu chuẩn cơ bản để chọn thống kê như sau
Định nghĩa 4.1.1 Thống kê G của mẫu được gọi là
(i) ước lượng không chệch của tham số θ của biến ngẫu nhiên X nếu E(G) = θ Ngược lại, nếu E(G) ̸= θ thì G được gọi là ước lượng chệch của θ.
(ii) ước lượng hiệu quả của tham số θ của biến ngẫu nhiên X nếu nó là ước lượng
không chệch và có phương sai nhỏ nhất so với mọi ước lượng không chệch khácđược xây dựng trên cùng một mẫu
(iii) ước lượng vững của tham số θ của biến ngẫu nhiên X nếu G hội tụ theo xác suất đến θ khi n → ∞, tức là với mọi ε dương bé tùy ý ta luôn có lim
x →∞ P ( |G −
θ | < ε) = 1.
Chú ý 4.1.2 (i) G là ước lượng không chệch của tham số θ không có nghĩa là mọi
giá trị của G đều trùng khít với θ mà chỉ có nghĩa là trung bình các giá trị của thống
kê G bằng θ Từng giá trị của G có thể sai lệch rất lớn so với θ.
(ii) Trung bình mẫu X là ước lượng không chệch của kỳ vọng của biến ngẫu nhiên X, nghĩa là E(X) = E(X) Trung bình mẫu X cũng là ước lượng hiệu quả (vững) của E(X).
(iii) Tần suất mẫu f là ước lượng không chệch của xác suất P của biến ngẫu nhiên X, nghĩa là E(f ) = P Tần suất mẫu f là ước lượng hiệu quả (vững) của xác suất P
(iv) Phương sai điều chỉnh mẫu S ′2 là ước lượng không chệch của phương sai
V (X) của biến ngẫu nhiên X, tức là E(S ′2 ) = V (X) Phương sai điều chỉnh mẫu
S ′2 cũng là ước lượng hiệu quả (vững) của phương sai V (X).
Ví dụ 4.1.3 Giả sử một lô hàng của một nhà máy đã được đóng thùng, mỗi thùng
50 sản phẩm Kiểm tra ngẫu nhiên số phế phẩm trong 50 thùng hàng ta thu đượckết quả như sau:
Trang 34.1 Phương pháp ước lượng điểm 99
Số phế phẩm X 0 1 2 3 4 5 6 7 8 9 10
Số thùng (n i) 0 2 3 7 20 6 4 7 2 1 1
(i) Hãy ước lượng cho số phế phẩm trung bình trong mỗi thùng
(ii) Hãy ước lượng cho tỷ lệ phế phẩm của lô hàng đó
(iii) Tìm ước lượng không chệch cho phương sai của số phế phẩm ở mỗi thùng
Giải (i) Gọi X là biến ngẫu nhiên chỉ số phế phẩm ở mỗi thùng Đây là bài toán
ước lượng điểm cho kỳ vọng của tổng thể Ta sẽ dùng trung bình mẫu để ước lượng
số phế phẩm trung bình trong mỗi thùng
Vậy số phế phẩm trung bình ở mỗi thùng hàng là khoảng 5 sản phẩm
(ii) Đây là bài toán ước lượng tỷ lệ của một tổng thể Ta dùng tần suất mẫu (tỷ
lệ phế phẩm của 50 thùng hàng) để ước lượng tỷ lệ phế phẩm của cả lô hàng đó
Vậy tỷ lệ phế phẩm của lô hàng là vào khoảng (0,0908)(100%) = 9,88%.
(iii) Ước lượng không chệch cho phương sai của số phế phẩm ở mỗi thùng chính
là phương sai điều chỉnh mẫu S ′2 Ta có:
Trang 4100 Chương 4: Ước lượng tham số
4.2 Phương pháp ước lượng bằng khoảng tin cậy
4.2.1 Khái niệm
Các phương pháp ước lượng điểm nói trên có một nhược điểm cơ bản là khi kíchthước mẫu nhỏ thì ước lượng điểm tìm được có thể sai lệch rất nhiều so với giá trịcủa tham số cần ước lượng, tức là sai số của ước lượng có thể rất lớn Mặt khácdùng các phương pháp trên không thể đánh giá được khả năng mắc sai lầm khiước lượng bằng bao nhiêu Do đó khi kích thước mẫu nhỏ người ta thường sử dụngphương pháp ước lượng bằng khoảng tin cậy
Định nghĩa 4.2.1 Khoảng (θ1,θ2) của thống kê G được gọi là khoảng tin cậy (interval confidence) của tham số θ với độ tin cậy 1 −α nếu P (θ1 < θ < θ2) = 1−α.
Tham số 1− α = γ được gọi là độ tin cậy của ước lượng, α được gọi là mức ý nghĩa, θ1 là cận trái (giá trị tối thiểu), θ2 là cận phải (giá trị tối đa), còn I = |θ1−θ2|
là độ dài khoảng tin cậy, I/2 là bán kính khoảng.
Để giải một bài toán ước lượng tham số bằng khoảng tin cậy, ta tiến hành cácbước chính như sau:
• Bước 1 Từ tổng thể lập mẫu ngẫu nhiên W = (X1,X2, ,X n)
• Bước 2 Chọn thống kê G = f(X1,X2, ,X n ,θ) sao cho quy luật phân phối xác suất của G hoàn toàn xác định.
• Bước 3 Với độ tin cậy 1 − α cho trước có thể tìm được cặp giá trị α1 và α2sao cho α1+ α2 = α và tương đương với chúng tìm được cặp phân vị θ1 = θα1
và θ2 = θα2 thỏa mãn điều kiện
P (G < θ1) = α1; P (G > θ2) = α2 ⇒ P (θ1 < G < θ2) = 1− (α1+ α2) = 1− α.
Như vậy, với độ tin cậy (1− α) ta đã xây dựng được khoảng tin cậy (θ1, θ2)
cho G Bằng các phép biến đổi tương đương, công thức trên luôn đưa được về dạng
P (G1 < θ < G2) = 1−α, với G1 = f (X1,X2, ,X n ,θ1) và G2 = f (X1,X2, ,X n ,θ2)
Đó chính là khoảng tin cậy cần tìm
Chú ý 4.2.2 (i) Khi tiến hành một phép thử với mẫu ngẫu nhiên W = (X1,X2, ,X n ) ta thu được một mẫu cụ thể w = (x1,x2, ,x n), do đó tính được giá trị
của θ1 và θ2 ứng với mẫu cụ thể Khi đó có kết luận là qua mẫu cụ thể w, với độ
tin cậy 1− α, tham số θ của biến ngẫu nhiên gốc X sẽ nằm trong khoảng (θ1,θ2).(ii) Với độ tin cậy 1− α cho trước ta có thể tìm được vô số cặp (θ1,θ2) thỏa mãn
điều kiện α1 + α2 = α Vì thế có vô số khoảng tin cậy tương ứng với độ tin cậy
đã cho
4.2.2 Ước lượng kỳ vọng toán
Trong mục này ta sẽ xét bài toán ước lượng kỳ vọng toán của biến ngẫu nhiên X xét trong hai trường hợp khi X có phân phối chuẩn và khi X không có phân phối chuẩn.
Trang 54.2 Phương pháp ước lượng bằng khoảng tin cậy 101
1 Khi biến ngẫu nhiên X có phân phối chuẩn N (a,σ2)
Bài toán Cho biến ngẫu nhiên X có phân phối chuẩn N (a,σ2) với kỳ vọng a chưa biết và phương sai σ2 có thể đã biết (chưa biết) Hãy ước lượng tham số kỳ vọng
a với độ tin cậy 1 − α.
Giải.
Bước 1 Từ tổng thể lập một mẫu ngẫu nhiên W = (X1,X2, ,X n ) kích thước n.
Các bước tiếp theo của việc giải bài toán trên phụ thuộc vào việc chọn thống kê
G sao cho phù hợp với các điều kiện của bài toán Ta xét hai trường hợp tùy thuộc vào phương sai σ2 của biến ngẫu nhiên X đã biết hoặc chưa biết.
a Đã biết phương sai σ2 của biến ngẫu nhiên X
là u α1 và u1−α2 thỏa mãn điều kiện
Khoảng tin cậy đối xứng: Nếu α1 = α2 = α
2 thì khoảng tin cậy của a là:
n u1− α2 thì biểu thức có dạng (X − ε; X + ε), ε được gọi
là độ chính xác của ước lượng, nó phản ánh mức độ sai lệch của trung bình mẫu so
với trung bình tổng thể với độ tin cậy (1− α) cho trước.
Trang 6102 Chương 4: Ước lượng tham số
Khoảng tin cậy bên phải (dùng để ước lượng giá trị tối thiểu của a): Nếu α1 =
0, α2 = α thì u1−α1 = +∞ Do đó khoảng tin cậy bên phải của a là:
Khoảng tin cậy bên trái (dùng để ước lượng giá trị tối đa của a): Nếu α2 =
0, α1 = α thì u1−α2 = +∞ Do đó khoảng tin cậy bên trái của a là:
Chú ý 4.2.3 (i) Từ mẫu cụ thể, ta xác định được các giá trị cụ thể x, ε.
(ii) Với cùng độ tin cậy 1− α cho trước thì độ dài của khoảng tin cậy đối xứng (x − ε, x + ε) là ngắn nhất với I = 2ε.
(iii) Các giá trị u1− α
2 và u1−α chính là giá trị tới hạn mức 1− α
2 hoặc 1− α được
tra ở bảng Phụ lục 2
(iv) Nếu tăng cỡ mẫu n, giữ nguyên 1 − α thì ε giảm đi, do đó độ chính xác cao
lên Còn nếu tăng 1− α, giữ nguyên cỡ mẫu n thì ε tăng lên, do đó độ chính xác
giảm đi
Bài toán Xác định cỡ mẫu tối thiểu n sao cho thỏa mãn yêu cầu cho trước về
độ tin cậy 1 − α và độ chính xác ε.
Giải Từ các công thức trên ta có ε = √ σ
n u1− α2 Do đó với ε0 cho trước ta có thể
xác định được cỡ mẫu n như trong công thức sau:
n ≥
[
σ2
ε2 0
u21− α
2
]+1 =
[1
b Chưa biết phương sai của biến ngẫu nhiên X
Bước 1 Tương tự trường hợp đã biết phương sai.
Trang 74.2 Phương pháp ước lượng bằng khoảng tin cậy 103
Bước 2 Dùng độ lệch chuẩn điều chỉnh mẫu S ′ thay cho σ chưa biết và chọn
thống kê như sau:
G = T = X − a
S ′
√ n.
Khi đó thống kê T tuân theo quy luật phân phối Student với (n − 1) bậc tự do nếu kích thước mẫu n ≤ 30 và T xấp xỉ phân phối chuẩn hóa N(0,1) nếu n ≥ 30.
Do đó, ta cần xét hai trường hợp sau
Trường hợp 1 Kích thước mẫu nhỏ, n ≤ 30.
Bước 3 Với độ tin cậy (1 − α) cho trước có thể tìm được cặp giá trị α1 và α2 sao
cho α1+ α2 = α, từ đó tìm được hai phân vị Student tương ứng là t (n α1−1) và t (n α2−1)
thỏa mãn điều kiện
Ta có các trường hợp đặc biệt của khoảng tin cậy
Khoảng tin cậy đối xứng: Nếu α1 = α2 = α
2 thì khoảng tin cậy của a là(
Khoảng tin cậy bên phải (dùng để ước lượng giá trị tối thiểu của a): Khi α1 =
0, α2 = α thì khoảng tin cậy bên phải của a là
Trang 8104 Chương 4: Ước lượng tham số
(iii) Nếu cho trước độ tin cậy và sai số cho phép không vượt quá ε0 thì kích
thước mẫu n phải đo để thỏa mãn yêu cầu đã cho là
n ≥
[
s ′2
ε2 0
Ví dụ 4.2.6 Phỏng vấn 10 gia đình có 3 người về chi phí hàng tháng cho nhu yếu
phẩm ở một huyện vùng cao, thu được các số liệu sau: 160, 175, 180, 190, 190, 190, 200,
200, 250, 300 ngàn đồng.
i ) Hãy ước lượng chi phí trung bình hàng tháng cho nhu yếu phẩm của một hộ
dân có 3 người ở huyện này với độ tin cậy 95%
ii ) Ước lượng chi phí trung bình tối đa hàng tháng cho nhu yếu phẩm của một
hộ dân có 3 người ở địa phương này với độ tin cậy 99%
iii ) Phải phỏng vấn thêm tối thiểu bao nhiêu hộ dân có 3 người để với độ tin
cậy 95% sai số của việc ước lượng chi phí trung bình hàng tháng cho nhu yếuphẩm không vượt quá 25 ngàn đồng Giả thiết chi phí hàng tháng cho nhuyếu phẩm là biến ngẫu nhiên phân phối chuẩn
Giải Gọi X là chi phí hàng tháng cho nhu yếu phẩm của hộ dân 3 người của địa phương đang xét Theo giả thiết X có phân phối chuẩn Vậy chi phí trung bình chính là giá trị a.
(i) Đây là bài toán ước lượng bằng khoảng tin cậy đối xứng cho kỳ vọng toán củabiến ngẫu nhiên có phân phối chuẩn khi chưa biết phương sai với cỡ mẫu nhỏ Khoảng
tin cậy đối xứng của a được tính theo công thức (4.6) Ta có n = 10, 1 − α = 0,95 (tra bảng Phụ lục 3) suy ra t (n1− −1) α
Trang 94.2 Phương pháp ước lượng bằng khoảng tin cậy 105
Sau khi áp dụng công thức đổi lại về biến x, ta có
Vậy với độ tin cậy 95%, mức chi phí trung bình trên một tháng của một gia đình
3 người ở huyện đó nằm trong khoảng từ 174,005 đến 232,995 ngàn đồng.
(ii) Đây là bài toán ước lượng bằng khoảng tin cậy bên trái cho kỳ vọng toáncủa biến ngẫu nhiên có phân phối chuẩn khi chưa biết phương sai với cỡ mẫu nhỏ
Vậy với độ tin cậy 99%, mức chi phí trung bình tối đa cho nhu yếu phẩm của
một hộ dân 3 người ở địa phương đó là 233,243 ngàn đồng.
(iii) Đây là bài toán xác định kích thước mẫu tối thiểu sao cho thỏa mãn độ tincậy 1− α = 95% và độ chính xác ε0 = 25 cho trước Theo công thức (4.9), ta có
Như vậy phải phỏng vấn thêm 14− 10 = 4 gia đình nữa.
Trường hợp 2 Kích thước mẫu lớn, n ≥ 30.
Bước 3 Do T xấp xỉ phân phối chuẩn hóa N (0,1) nên Khoảng tin cậy đối xứng: Nếu α1 = α2 = α
2 thì khoảng tin cậy của a là
Khoảng tin cậy bên phải (dùng để ước lượng giá trị tối thiểu của a): Khi α1 =
0, α2 = α thì khoảng tin cậy bên phải của a là
Khoảng tin cậy bên trái (dùng để ước lượng giá trị tối đa của a): Khi α2 =
0, α1 = α thì khoảng tin cậy bên trái của a là
Trang 10106 Chương 4: Ước lượng tham số
Chú ý 4.2.7 Nếu cho trước độ tin cậy và sai số cho phép không vượt quá ε0 thì
khi đó kích thước mẫu n phải đo để thoả mãn đề bài đã cho là
n ≥
[
s ′2
ε2 0
(ii) Nếu muốn độ dài của khoảng tin cậy đối xứng không quá 1, với độ tin cậy99% thì phải thí nghiệm tối thiểu trên bao nhiêu thửa ruộng
Giải (i) Gọi năng suất lúa trung bình của giống lúa A là a Đây là bài toán ước
lượng bằng khoảng tin cậy bên phải và bên trái cho kỳ vọng toán của biến ngẫunhiên tuân theo luật phân phối chuẩn khi chưa biết phương sai với cỡ mẫu lớn
Khi đó, khoảng tin cậy bên phải và bên trái của a được xác định theo các công thức (4.11) và (4.12) Theo giả thiết, ta có n = 100; 1 − α = 0,95 nên tra bảng Phụ lục 2 ta có u1−α = u 0,95 = 1,645.
Vậy với độ tin cậy 95%, năng suất trung bình tối thiểu và năng suất trung bình
tối đa của giống lúa A lần lượt là 45,6511 tạ/ha và 46,4689 tạ/ha.
Trang 114.2 Phương pháp ước lượng bằng khoảng tin cậy 107(ii) Đây là bài toán xác định cỡ mẫu khi cho trước độ dài của khoảng tin cậy
đối xứng Theo giả thiết I0 = 2ε0 6 1, suy ra ε0 6 0,5 và do 1 − α = 0,99 nên
(u1− α
2)2
]+1 =
2 Khi biến ngẫu nhiên X không theo quy luật phân phối chuẩn
Giả sử ở một tổng thể, dấu hiệu định lượng cần nghiên cứu nào đó được xem như
là biến ngẫu nhiên X phân phối theo một quy luật nào đó khác quy luật chuẩn có
kì vọng toán là a mà ta cần ước lượng Ta vẫn chọn các thống kê G như hai trường
hợp đã biết phương sai hoặc chưa biết phương sai Theo Định lý giới hạn trung tâm
ở Chương 2, khi kích thước của mẫu đủ lớn thì thống kê G được coi là có phân phối chuẩn hóa N (0,1) Do vậy để ước lượng a ta cần phải chọn mẫu có kích thước lớn
và khi đó ta sẽ đi ước lượng a giống như ước lượng a của X có phân phối chuẩn.
4.2.3 Ước lượng tỷ lệ
Giả sử kích thước tổng thể là N , trong đó có M phần tử mang đặc tính A và N −M phần tử không mang đặc tính A Nếu lấy ngẫu nhiên ra một phần tử và gọi X là
số phần tử mang đặc tính A được lấy ra thì X là biến ngẫu nhiên phân phối theo
quy luật không – một
ta có bài toán ước lượng tỷ lệ p như sau.
Bài toán 1 Ước lượng θ = p của biến ngẫu nhiên X có quy luật phân phối
không – một A(p).
Giải Bước 1 Từ tổng thể rút ra mẫu ngẫu nhiên W = (X1,X2, , X n) kích
thước n, trong đó X i , i = 1, 2, ,n là những biến ngẫu nhiên độc lập với nhau và có phân phối không – một với tham số p.
Bước 2 Chọn thống kê
U = √f − p
f (1 − f)
√ n,
trong đó f là tần suất của mẫu Theo Định lý giới hạn trung tâm ở Chương 2, khi
n đủ lớn (n > 30) và f không quá bé và cũng không quá lớn thì U xấp xỉ phân phối chuẩn hóa N (0,1).
Trang 12108 Chương 4: Ước lượng tham số
Bước 3 Với độ tin cậy 1 − α cho trước tìm được cặp giá trị α1 và α2 sao cho
α1+ α2 = α Từ đó tìm được hai phân vị chuẩn là u α1 và u1−α2 thỏa mãn điều kiện
Từ công thức (4.14), ta có các loại khoảng tin cậy thường dùng như sau:
Khoảng tin cậy đối xứng của p (khi α1 = α2 = α
là độ chính xác của ước lượng
(ii) Kích thước của mẫu n cần phải điều tra đảm bảo cho việc ước lượng tham
số p có độ tin cậy 1 − α và sai số cho phép không vượt quá ε0 cho trước là
n ≥
[
f (1 − f)
ε2 0
u21− α
2
]
Trang 134.2 Phương pháp ước lượng bằng khoảng tin cậy 109
Ví dụ 4.2.10 Để xác định tỷ lệ nảy mầm của hạt giống ngô, người ta gieo thử
400 hạt và thấy có 350 hạt nảy mầm
(i) Tỷ lệ nảy mầm tối đa đạt bao nhiêu, với độ tin cậy 95%?
(ii) Để đảm bảo độ chính xác là 0,01 thì cần phải gieo bao nhiêu hạt với cùng
độ tin cậy như trên?
Giải (i) Gọi p là tỷ lệ hạt nảy mầm Đây là bài toán ước lượng tỷ lệ bằng khoảng tin cậy bên trái Khi đó khoảng tin cậy bên trái của p được tính theo công
Kết luận: Với độ tin cậy 95%, tỷ lệ nảy mầm tối đa là 90,2%.
(ii) Đây là bài toán xác định cỡ mẫu tối thiểu khi biết trước độ chính xác ε và
độ tin cậy 1− α của ước lượng Sử dụng công thức (4.18), ta có
[
(0,875)(0,125) 0,012 (1,96)2
]
+1 = [4201,75] + 1 = 4202.
Do đó, để đảm bảo độ chính xác 0,01 thì cần gieo tối thiểu 4202 hạt.
Tiếp theo ta xét một số bài toán thường gặp trong thực tế liên quan đến bàitoán ước lượng tỷ lệ, chẳng hạn cần đưa ra ước lượng về số người mắc một loại bệnh
trong một khu vực dân cư có N người hoặc cần ước lượng về số phế phẩm trong một kho hàng gồm N sản phẩm,
Bài toán 2 Ước lượng số cá thể có đặc tính A trong tổng thể gồm N cá thể.
Giải Gọi M là số cá thể mang đặc tính A trong tổng thể gồm N cá thể Lấy từ tổng thể ra một mẫu ngẫu nhiên (không hoàn lại) gồm n cá thể Gọi X là số cá thể
có đặc tính A trong n cá thể Khi đó, tỷ lệ p = M
N phần tử mang đặc tính A trong
tổng thể có thể xác định được bằng phương pháp ước lượng khoảng tin cậy cho tỷ
lệ Với N đã biết ta sẽ ước lượng được M từ khoảng tin cậy của p Tức là
Trang 14110 Chương 4: Ước lượng tham số
Ví dụ 4.2.11 Tại một vùng núi khu vực Tây Nguyên gồm 10000 người Tiến hànhxét nghiệm tìm ký sinh trùng sốt rét của 200 người thấy có 40 người có ký sinhtrùng sốt rét trong máu Hãy tìm khoảng tin cậy của số người có ký sinh trùng sốtrét trong máu với độ tin cậy 95%
Giải Gọi p và M lần lượt là tỷ lệ người và số người có ký sinh trùng sốt rét trong máu ở khu vực Tây Nguyên Suy ra p = M
đây suy ra (0,14512)(10000) < M < (0,25488)(10000) hay 1451,2 < M < 2548,8.
Vậy với độ tin cậy 95%, số người có ký sinh trùng sốt rét trong máu ở khu vựcTây Nguyên nằm trong khoảng từ 1452 đến 2549 người
Dựa vào bài toán ước lượng tỷ lệ người ta cũng có thể tiến hành bài toán ướclượng kích thước tổng thể bằng cách tạo ra một dấu hiệu đặc trưng cho một số nhấtđịnh các phần tử trong tổng thể sau đó tiến hành ước lượng tỷ lệ phần tử mang dấuhiệu đặc trưng này Dựa vào tỷ lệ đó người ta ước lượng được kích thước của tổng
thể Chẳng hạn, để xác định số lượng N của một loài vật hoang dã trong một khu
rừng hoặc số lượng cá có trong hồ người ta tiến hành theo phương pháp sau: Bắt
M cá thể trong N cá thể và đánh dấu từng cá thể này (chẳng hạn mỗi con thú, mỗi con chim hoặc mỗi con cá được gắn với một vòng nhôm), sau đó thả M cá thể vào môi trường mà chúng đã sinh sống Sau một thời gian ta tìm bắt n cá thể, n < M ,
từ số cá thể X đã được đánh dấu có mặt trong n cá thể vừa bắt được ta sẽ tìm cách xác định số lượng cá thể N
Bài toán 3 Ước lượng kích thước tổng thể.
Giải Trước hết, ta đi ước lượng tỷ lệ p = M
N cá thể được đánh dấu trong tổngthể Từ đó ước lượng được N vì M đã biết Tức là
Công thức (4.20) cho ta khoảng tin cậy của N
Ví dụ 4.2.12 Để kiểm tra số cá trong một hồ, cơ quan quản lí đánh bắt 2000 con
cá, đánh dấu rồi thả xuống hồ Lần sau đánh bắt lại 400 con, được 80 con có dấu.Hãy ước lượng số cá trong hồ với độ tin cậy 95%
Giải Gọi N là số cá có trong hồ (N nguyên, dương) Tỷ lệ cá bị đánh dấu là
p = 2000
N Ta ước lượng p bằng khoảng tin cậy đối xứng Từ mẫu cụ thể ta có
Trang 154.2 Phương pháp ước lượng bằng khoảng tin cậy 111
1 Biết trọng lượng X (kg) của mỗi con gà tại một trại gà có phân phối chuẩn
N (a, σ2) Bắt ngẫu nhiên 20 con gà đem cân ta có kết quả sau:
Trọng lượng X (kg) 2,1 2,3 2,4 2,6 2,7 2,9 3,1 3,3
Với độ tin cậy 95%, hãy ước lượng khoảng tin cậy của kỳ vọng toán a.
2 Sức chịu nén tối đa của một loại vật liệu là một biến ngẫu nhiên có phân phối
chuẩn N (a, σ2) Thử 10 mẫu vật liệu nói trên ta có kết quả sau:
Sức chịu nén tối đa X(kg/cm2) 250 270 300 330 350
Doanh thu X (triệu đồng) 29 31 33 35 37 39 41
Hãy tìm khoảng tin cậy của doanh thu trung bình với độ tin cậy 98%
4 Cân thử 100 quả trứng, ta có kết quả sau:
Trọng lượng X (g) 150 160 165 170 180 185
(a) Tìm khoảng tin cậy cho trọng lượng trung bình của trứng với độ tin cậy 0,95.
(b) Trứng có trọng lượng nhỏ hơn 165g được coi là trứng loại hai Tìm khoảng
ước lượng của tỉ lệ trứng loại hai với độ tin cậy 0,99 Giả thiết trọng lượng trứng gà là biến ngẫu nhiên có phân phối chuẩn N (a, σ2)
5 Giả sử kết quả thi môn xác suất thống kê của một lớp là biến ngẫu nhiên có
phân phối chuẩn N (a, σ2) Kiểm tra 30 sinh viên ta có bảng số liệu sau:
Trang 16112 Chương 4: Ước lượng tham số
Số sinh viên n i 2 3 5 10 4 3 2 1(a) Hãy tìm khoảng tin cậy của điểm trung bình của lớp trên với độ tin cậy 95%.(b) Sinh viên đạt điểm thi lớn hơn hay bằng 7 được xếp loại khá giỏi Hãy tìmkhoảng tin cậy của tỷ lệ sinh viên khá giỏi với độ tin cậy 98%
6 Giả sử trọng lượng sản phẩm là biến ngẫu nhiên có phân phối chuẩn N (a, σ2).Kiểm tra ngẫu nhiên trọng lượng của 28 sản phẩm cùng loại do một máy sảnxuất, ta thu được kết quả:
(b) Hãy ước lượng năng suất lúa trung bình tối đa của huyện trên với độ tincậy 99%
8 Điều tra doanh số hàng tháng (tính bằng triệu đồng) của 100 hộ kinh doanhmột loại mặt hàng người ta thu được bảng số liệu:
Doanh số X (triệu đồng) 11,5 11,6 11,7 11,8 11,9 20
Bằng khoảng tin cậy đối xứng hãy ước lượng doanh số trung bình hàng thángcủa các hộ kinh doanh mặt hàng này với độ tin cậy 95% Giả thiết doanh số
là biến ngẫu nhiên có phân phối chuẩn N (a, σ2)
9 Để xác định chiều cao trung bình của cây bạch đàn trong một lâm trườngngười ta tiến hành đo 35 cây và thu được bảng số liệu sau:
Trang 174.2 Phương pháp ước lượng bằng khoảng tin cậy 113
10 Đo chỉ số mỡ sữa của 100 con bò lai Hà - Ấn F1, được bảng số liệu sau:
Chỉ số mỡ sữa X (g/ml) 3,0 3,6 4,2 4,8 5,4 6,0 6,6
3,6 4,2 4,8 5,4 6,0 6,6 7,2
Hãy ước lượng chỉ số mỡ sữa trung bình của giống bò lai trên với độ tin cậy
95% Giả thiết chỉ số mỡ sữa là biến ngẫu nhiên có phân phối chuẩn N (a, σ2)
11 Đo áp lực X (tính bằng kg/cm2) của 18 thùng chứa, người ta thu được bảng
Bằng khoảng tin cậy đối xứng, hãy ước lượng thời gian gia công trung bìnhmột chi tiết máy với độ tin cậy 93% Giả thiết thời gian gia công chi tiết máy
là biến ngẫu nhiên có phân phối chuẩn N (a, σ2)
13 Chiều cao của cây keo lai là biến ngẫu nhiên có phân phối chuẩn N (a, σ2).Kết quả theo dõi sinh trưởng thông qua chiều cao 30 cây keo lai tại một lâmtrường được cho bởi bảng số liệu sau:
14 Số khuyết tật của một sản phẩm của một xí nghiệp đúc là biến ngẫu nhiên có
phân phối chuẩn N (a, σ2) Sau khi đổi mới thiết bị, kiểm tra ngẫu nhiên 36sản phẩm thu được kết quả sau:
Số khuyết tật X 0 1 2 3 4 5 6
Số sản phẩm n i 7 4 4 6 8 6 1
Trang 18114 Chương 4: Ước lượng tham số
Với độ tin cậy 95% hãy ước lượng số khuyết tật trung bình tối thiểu của mỗisản phẩm sau khi đổi mới thiết bị
15 Hàm lượng đường của một loại trái cây là biến ngẫu nhiên có phân phối chuẩn
N (a, σ2) Người ta chăm bón bằng một loại phân N và sau một thời gian kiểm
tra hàm lượng đường của một số trái cây thu được kết quả sau:
Hàm lượng đường 1 5 9 13 17 21 25 29 37
Số trái n i 51 47 39 36 32 8 7 3 2Ước lượng hàm lượng đường trung bình tối đa của loại trái cây đó với độ tincậy 99%
16 Người ta đo chiều cao của 9 cây quế con trong vườn ươm với công thức dànche 50% và thu được kết quả sau:
Chiều cao (cm) 14,5 15,1 15,3 16,2 15,2 14,1 16,3 15,6 16,1 Hãy ước lượng chiều cao trung bình của lô cây quế con với α = 0,05 Nếu sai
số của ước lượng không vượt quá 0,03 thì cần quan sát mẫu với kích thước
bao nhiêu? Cho biết chiều cao cây quế con là biến ngẫu nhiên tuân theo quy
luật phân phối chuẩn N (a, σ2)
17 Một công ty than có 10000 công nhân làm việc trực tiếp tại các hầm lò Để xácđịnh số công nhân mắc các bệnh về phổi, người ta tiến hành kểm tra 820 ngườithấy có 120 người mắc bệnh về phổi Với độ tin cậy 95%, hãy tìm khoảng tincậy của số công nhân mắc bệnh về phổi trong tổng công ty
18 Để ước lượng số lượng cò tại một vườn cò lớn ở đồng bằng sông Cửu Long,người ta bắt ngẫu nhiên 800 con cò và cho mỗi con đeo một vòng nhôm nhỏsau đó thả lại vườn Một tháng sau bắt lại 320 con thấy có 80 con có đeo vòng
nhôm Hãy ước lượng số cò trong vườn với độ tin cậy 0,95.
19 Kiểm tra 200 con gà tại một trại gà thấy có 80 con mắc bệnh A Hãy tìm khoảng tin cậy của tỷ lệ gà mắc bệnh A ở trại gà nói trên với độ tin cậy 0,92.
20 Để ước lượng số người nghiện ma túy trong một vùng người ta ghi danh 1000người được trả về cộng đồng sau khi cai nghiện Một năm sau tới trung tâmcai nghiện chọn ngẫu nhiên 800 người thấy có 480 người trong số 1000 ngườiđược trả về cộng đồng năm trước phải quay lại trại Hãy ước tính số người
nghiện trong vùng với độ tin cậy 0,97.
Trang 19Chương 5
Kiểm định giả thuyết thống kê
Kiểm định giả thuyết thống kê (statistical hypothesis testing) là phương pháp đưa ra
quyết định sử dụng dữ liệu, hoặc từ thí nghiệm, hoặc từ nghiên cứu quan sát Trongthống kê, một kết quả được gọi là đủ độ tin cậy mang tính thống kê nếu nó có ít khảnăng diễn ra theo một ngưỡng xác suất cho trước (chẳng hạn 5% hay 10%) Kiểmđịnh giả thuyết đôi khi được gọi là phân tích dữ liệu để khẳng định, để so sánh vớiphân tích dữ liệu để khám phá Trong chương này chúng ta xét bài toán kiểm định
giả thuyết thống kê về các tham số đặc trưng θ của biến ngẫu nhiên gốc X.
• Mục 5.1 trình bày những vấn đề cơ bản nhất về bài toán kiểm định giả thuyết
thống kê
• Mục 5.2 giới thiệu bài toán kiểm định giả thuyết thống kê về kỳ vọng toán
trường hợp một tổng thể và hai tổng thể
• Mục 5.3 trình bày bài toán kiểm định giả thuyết thống kê về tỷ lệ.
Nội dung của chương được tham khảo chủ yếu trong các tài liệu [8]-[10] và [12]
5.1 Một số khái niệm cơ bản
5.1.1 Giả thuyết thống kê
Giả thuyết thống kê (statistical hypothesis) là giả thuyết về dạng phân phối xác suất,
về các tham số đặc trưng của biến ngẫu nhiên gốc hoặc về tính độc lập của các biếnngẫu nhiên gốc
Giả thuyết được đưa ra kiểm nghiệm được kí hiệu là H0, gọi là giả thuyết không
(null hypothesis) Đó là giả thuyết mà ta nghi ngờ muốn bác bỏ hoặc giả thuyết ta muốn bảo vệ Ngoài giả thuyết H0, ta còn phải định ra một giả thuyết cạnh tranh
với H0 được gọi là đối thuyết (alternative hypothesis), kí hiệu là H1
Cần chú ý rằng đối thuyết H1 không nhất thiết là phủ định của giả thuyết H0
Chẳng hạn, nhu cầu trung bình của thị trường về một loại hàng hóa là a = 1000 đơn vị/tháng Nếu ta nghi ngờ rằng ý kiến này không đúng thì đối thuyết H1 là
a ̸= 1000, nhưng nếu do tiếp thị tốt, do chính sách hậu mãi tốt người ta nghĩ rằng nhu cầu về loại mặt hàng này tăng lên thì đối thuyết H1 là a > 1000.
Quy tắc kiểm định dựa trên hai nguyên lý sau
115
Trang 20116 Chương 5: Kiểm định giả thuyết thống kê
• Nguyên lý xác suất nhỏ: Nếu một biến cố có xác suất xảy ra rất nhỏ thì trong
một hay vài phép thử thì biến cố đó coi như không xảy ra
• Nguyên lý phản chứng: Để bác bỏ A, ta giả sử A đúng thì dẫn đến một điều
vô lý
Dựa vào hai nguyên lý này ta đưa ra phương pháp chung để kiểm định một giả
thuyết thống kê như sau: Để kiểm định H0 trước hết ta giả sử H0 đúng từ đó tìm
ra được biến cố A mà xác suất xuất hiện biến cố A là rất bé và ta có thể xem là A
không xảy ra trong một phép thử về biến cố này Lúc đó nếu trên một mẫu cụ thể
quan sát được mà biến cố A xuất hiện thì điều này trái với nguyên lý xác suất nhỏ Vậy H0 sai và bác bỏ nó Còn nếu A không xảy ra thì chưa có cơ sở để bác bỏ H0
5.1.2 Tiêu chuẩn kiểm định giả thuyết thống kê
Lập mẫu ngẫu nhiên W = (X1, X2, , X n) và chọn thống kê
G = f (X1, X2, , X n , θ0), (5.1)
trong đó θ0 là tham số liên quan đến giả thuyết kiểm định Nếu H0 đúng thì G có quy luật phân phối xác suất xác định Thống kê G được gọi là tiêu chuẩn kiểm định.
5.1.3 Miền bác bỏ giả thuyết thống kê
Sau khi chọn được tiêu chuẩn kiểm định G, do quy luật phân phối xác suất của G
đã biết nên với xác suất khá bé α cho trước, (thường α = 0,05 hoặc 0,01) và với điều kiện H0 đúng có thể tìm được miền W α sao cho G nhận giá trị trong miền W α với xác suất bằng α
Giá trị α được gọi là mức ý nghĩa của kiểm định và W α được gọi là miền bác
bỏ giả thuyết H0 với mức ý nghĩa α Miền W α được gọi là miền không bác bỏ giả thuyết Điểm giới hạn phân chia miền bác bỏ và miền không bác bỏ được gọi là giá trị tới hạn.
5.1.4 Giá trị quan sát của tiêu chuẩn kiểm định
Thực hiện một phép thử đối với mẫu ngẫu nhiên W = (X1, X2, , X n) ta thu được
mẫu cụ thể w = (x1, x2, , x n), thay giá trị này vào tiêu chuẩn kiểm định (5.1) ta
được giá trị quan sát của tiêu chuẩn kiểm định
G qs = f (x1, x2, , x n , θ0). (5.3)
5.1.5 Quy tắc kiểm định giả thuyết
Sau khi đã tính được G qs , so sánh giá trị này với miền bác bỏ W α và kết luận theoquy tắc sau:
Trang 215.1 Một số khái niệm cơ bản 117
1 Nếu G qs ∈ W α , theo nguyên tắc kiểm định thì H0 sai và do đó bác bỏ H0, thừa
nhận H1
2 Nếu G qs ∈ W / α thì điều đó chưa khẳng định H0 đúng mà chỉ có nghĩa qua mẫu
cụ thể này chưa khẳng định được H0 là sai Do đó ta chỉ có thể nói qua mẫu
cụ thể chưa có cơ sở để bác bỏ H0 (trên thực tế là thừa nhận H0)
5.1.6 Các sai lầm mắc phải khi kiểm định
Với quy tắc kiểm định như trên có thể mắc phải hai loại sai lầm sau:
• Sai lầm loại 1: Giả thuyết H0 đúng mà ta lại bác bỏ Xác suất để mắc phải
sai lầm loại này đúng bằng mức ý nghĩa α do xác suất bác bỏ H0 bằng xác
suất của biến cố G ∈ W α Do đó khi H0 đúng thì P (G ∈ W α |H0) = α Sai lầm
loại 1 sinh ra do mẫu quá nhỏ hoặc do phương pháp lấy mẫu
• Sai lầm loại 2: Giả thuyết H0 sai mà ta lại thừa nhận Điều này xảy ra khi
giá trị quan sát G qs ∈ W / α trong khi H1 đúng Vậy xác suất mắc phải sai lầm
loại 2 là β được xác định như sau
P (G / ∈ W α |H1) = β.
Xác suất của biến cố đối lập của biến cố mắc phải sai lầm loại 2 là P (G ∈
W α |H1) = 1− β được gọi là lực của kiểm định.
Chú ý 5.1.1 Sai lầm loại 1 và loại 2 là mâu thuẫn nhau, tức là với mẫu kích thước
n thì không thể đồng thời giảm cùng lúc cả hai sai lầm trên Chẳng hạn nếu lấy
α = 0 thì sẽ không bác bỏ giả thuyết nào, kể cả giả thuyết sai, vậy β sẽ đạt cực đại.
Ta mong muốn chọn miền W α sao cho cực tiểu cả hai khả năng phạm sai lầm bằng
cách ấn định là mức ý nghĩa α của xác suất phạm sai lầm loại 1, trong vô số miền bác bỏ W α ta chọn ra miền bác bỏ sao cho xác suất mắc phải sai lầm loại 2 là nhỏnhất (hay lực kiểm định là lớn nhất)
5.1.7 Các bước tiến hành bài toán kiểm định giả thuyết
thống kê
Qua nội dung trình bày ở trên ta có thể đưa ra các bước của bài toán kiểm định giảthuyết thống kê bao gồm:
1 Phát biểu giả thuyết H0 và đối thuyết H1
2 Từ tổng thể nghiên cứu lập mẫu ngẫu nhiên kích thước n Chọn tiêu chuẩn kiểm định G và xác định quy luật phân phối xác suất của G với điều kiện giả thuyết H0 đúng
3 Từ mẫu cụ thể tính giá trị quan sát G qs của tiêu chuẩn kiểm định
4 Với mức ý nghĩa α, xác định miền bác bỏ W α tốt nhất tùy thuộc vào đối
thuyết H1
5 So sánh giá trị quan sát của tiêu chuẩn kiểm định G qs với miền bác bỏ W α vàkết luận
Trang 22118 Chương 5: Kiểm định giả thuyết thống kê
5.2 Kiểm định giả thuyết thống kê về kỳ vọng toán
5.2.1 Trường hợp một tổng thể
Bài toán.Cho X là biến ngẫu nhiên có phân phối chuẩn N (a, σ2) Hãy kiểm định tham số kỳ vọng θ = a.
Giải Tham số a của biến ngẫu nhiên gốc chưa biết nhưng có cơ sở để cho rằng
a = a0, tức là ta có giả thuyết H0 : a = a0, trong đó a0 là giá trị cho trước Từ tổng
thể rút ra một mẫu ngẫu nhiên W = (X1, X2, ,X n) Ta tiến hành kiểm định giả
thuyết H0 theo các bước cụ thể như sau:
Bước 1 Trong thực tế, ta có thể xây dựng các cặp giả thuyết và đối thuyết
như sau
H0 : a = a0; H1 : a ̸= a0 ( hoặc H1 : a > a0; H1 : a < a0).
Với mức ý nghĩa α cho trước, các bước tiếp theo của bài toán như sau.
Trường hợp 1: Đã biết phương sai.
Giả sử biến ngẫu nhiên gốc X phân phối theo quy luật chuẩn N (a, σ2) với phương
sai σ2 đã biết nhưng chưa biết a.
Bước 2 Chọn tiêu chuẩn kiểm định là thống kê G = U = X − a
σ
√ n.
Bước 4 Với mức ý nghĩa cho α trước, tra bảng Phụ lục 2 ta sẽ tìm được các giá trị u1− α
2 hoặc u1−α và tìm được miền bác bỏ W α tùy thuộc vào đối thuyết H1
như sau:
- Nếu H1 : a ̸= a0 thì ta tìm miền bác bỏ hai phía: W α = (−∞; −u1− α
2)∪ (u1− α
2; +∞).
- Nếu H1 : a > a0 thì ta tìm miền bác bỏ bên phải: W α = (u1−α; +∞).
- Nếu H1 : a < a0 thì ta tìm miền bác bỏ bên trái: W α = (−∞; −u1−α).
Bước 5 So sánh U qs với W α và kết luận (Xem Hình 5.1, 5.2 và 5.3)
Trang 235.2 Kiểm định giả thuyết thống kê về kỳ vọng toán 119
Hình 5.3: Miền bác bỏ hai phía
Ví dụ 5.2.1 Một vườn cây giống có chiều cao trung bình chưa xác định Theo hợpđồng đã ký giữa người sản xuất cây con và nông trường trồng cây thi chỉ khi nào
chiều cao của cây đạt trên 1m mới đem ra trồng Người ta điều tra ngẫu nhiên 50 cây thì tính được chiều cao trung bình là x = 1,1m Với mức ý nghĩa α = 0,05, hỏi
vườn cây nói trên đã đủ tiêu chuẩn mang ra trồng chưa? Biết rằng chiều cao trung
bình của cây là biến ngẫu nhiên có phân phối chuẩn N (a,σ2) với σ = 0,1.
Giải Đây là bài toán kiểm định giả thuyết thống kê về kỳ vọng toán a của phân phối N (a,σ2) khi đã biết phương sai Gọi a là chiều cao trung bình của cây giống Bước 1 Chọn giả thuyết: H0 : a = 1 và đối thuyết: H1 : a > 1.
Bước 2 Chọn tiêu chuẩn kiểm định U = X − a
Bước 4 Với mức ý nghĩa α = 0,05 thì u1−α = 1,645 Vì đối thuyết có dạng
H1 : a > 1 nên ta tìm miền bác bỏ bên phải W α = (1,645; + ∞).
Bước 5 Ta thấy U qs = 7,1 ∈ W α vậy mệnh đề H1 đúng
Kết luận: Với mức ý nghĩa 5%, vườn cây đạt tiêu chuẩn mang ra trồng
Trường hợp 2: Chưa biết phương sai.
Khi chưa biết phương sai, bước chọn tiêu chuẩn kiểm định thực hiện như sau
Bước 2 Chọn tiêu chuẩn kiểm định là thống kê G = T = X − a
S ′
√ n.
Bước 3 Nếu H0 đúng thì ta có T = X − a0
S ′
√
n Từ mẫu cụ thể ta tìm được T qs
Bước 4 Với mức ý nghĩa α cho trước ta đi tìm miền bác bỏ Ta xét 2 trường
hợp theo kích thước mẫu như sau:
• Kích thước mẫu nhỏ n ≤ 30: Thống kê T tuân theo quy luật phân phối Student với n − 1 bậc tự do Vì thế tra bảng Phụ lục 3, ta tìm được các giá trị phân
vị t (n1− −1) α hoặc t (n1−α −1)
Trang 24120 Chương 5: Kiểm định giả thuyết thống kê
• Kích thước mẫu lớn n ≥ 30: Thống kê T có phân phối Student sẽ tiến tới quy luật phân phối chuẩn hóa N (0,1) nên ta có thể xấp xỉ phân phối Student bằng
phân phối chuẩn Vì thế tra bảng Phụ lục 2 ta tìm được các giá trị phân vị
u1− α
2 hoặc u1−α Từ đó sẽ tìm được miền bác bỏ W α tùy thuộc vào đối thuyết
H1 (tương tự như trường hợp đã biết phương sai)
Bước 5 So sánh và rút ra kết luận (tương tự như trường hợp đã biết phương sai).
Ví dụ 5.2.2 Mức tiêu thụ nhiên liệu (X) của một thiết bị máy móc trong một
khoảng thời gian làm việc nhất định trong một xưởng sản xuất là biến ngẫu nhiên
có phân phối chuẩn với kỳ vọng toán là 50 lít Do các thiết bị mới được bảo dưỡng,người ta cho rằng mức tiêu thụ nhiên liệu trung bình đã giảm xuống Quan sát 30thiết bị cùng loại trong xưởng ta thu được số liệu sau:
Mức tiêu thụ nhiên liệu 48,5 49,0 49,5 50,0 50,5
X (lít) 49,0 49,5 50,0 50,5 51,0
Với mức ý nghĩa α = 0,05, hãy kết luận về ý kiến nêu trên?
Giải Đây là bài toán kiểm định giả thuyết thống kê về kỳ vọng toán của biến ngẫu nhiên có phân phối chuẩn khi chưa biết phương sai với mẫu nhỏ Gọi a là mức
tiêu thụ nhiên liệu trung bình của loại thiết bị đó
Bước 1 Chọn giả thuyết: H0 : a = 50 và đối thuyết: H1 : a < 50.
Bước 2 Chọn tiêu chuẩn kiểm định T = X − a
′
như sau:
x i n i u i n i u i n i u2i 48,75 5 −2 −10 20
Trang 255.2 Kiểm định giả thuyết thống kê về kỳ vọng toán 121
Từ bảng trên ta có kết quả sau:
Ví dụ 5.2.3 Để khảo sát năng suất của giống lúa A mới nhập từ Nhật Bản, người
ta trồng thử trên 100 thửa ruộng và thu được kết quả sau:
Năng suất (X) (tạ/ha) 41 43 45 47 49 51
Biết rằng tại Nhật Bản giống lúa trên có năng suất 46,2 tạ/ha Có chuyên gia
nói rằng do khí hậu Việt Nam thay đổi, năng suất trung bình của giống lúa trên
cũng bị thay đổi Với mức ý nghĩa α = 0,05, hãy xác định xem kết luận trên đúng
hay sai
Giải Đây là bài toán kiểm định giả thuyết thống kê về kỳ vọng toán a của phân phối N (a,σ2) khi chưa biết phương sai với mẫu lớn Gọi a là năng suất lúa trung bình của giống lúa A.
Bước 1 Chọn giả thuyết: H0 : a = 46,2 và đối thuyết: H1 : a ̸= 46,2.
Bước 2 Chọn tiêu chuẩn kiểm định T = X − a
Trang 26122 Chương 5: Kiểm định giả thuyết thống kê
Bước 5 Ta thấy T qs =−5,632 ∈ W α nên bác bỏ H0
Kết luận: Với mức ý nghĩa 5%, kết luận của chuyên gia về sự thay đổi năng suấtcủa giống lúa Nhật Bản là đúng
Chú ý 5.2.4 Nếu biến ngẫu nhiên X không tuân theo quy luật phân phối chuẩn,
ta vẫn chọn các thống kê G như hai trường hợp đã biết phương sai hoặc chưa biết
phương sai Theo Định lý giới hạn trung tâm ở Chương 2, khi kích thước của mẫu
đủ lớn thì thống kê G xấp xỉ phân phối chuẩn hóa N (0,1) Do vậy, ta cần phải chọn mẫu có kích thước đủ lớn (thông thường n ≥ 30) và tiến hành bài toán kiểm định
a tương tự như bài toán kiểm định a của biến ngẫu nhiên X có phân phối chuẩn.
5.2.2 Trường hợp hai tổng thể
Bài toán Giả sử có hai tổng thể nghiên cứu, tổng thể thứ nhất biến ngẫu nhiên gốc
X1 có phân phối chuẩn N (a1, σ12), tổng thể thứ hai biến ngẫu nhiên gốc X2 có phân phối chuẩn N (a2, σ2
2) Các tham số a1 và a2 chưa biết song có cơ sở để giả thuyết rằng giá trị của chúng bằng nhau Hãy kiểm định giả thuyết trên.
Giải Từ hai tổng thể trên rút ra hai mẫu ngẫu nhiên độc lập kích thước tương ứng là n1 và n2:
W1 = (X11, X12, , X 1n1); W2 = (X21, X22, , X 2n2).
Để kiểm định giả thuyết trên, ta cũng thực hiện các bước tương tự như kiểm định
kỳ vọng
Trang 275.2 Kiểm định giả thuyết thống kê về kỳ vọng toán 123
Bước 1 Phát biểu các cặp giả thuyết và đối thuyết như sau:
H0 : a1 = a2; H1 : a1 ̸= a2 (hoặc H1 : a1 > a2, H1 : a1 < a2).
Bước 2 Chọn tiêu chuẩn kiểm định Ta xét hai trường hợp sau:
- Trường hợp 1: Nếu đã biết phương sai σ12 và σ22 của các biến ngẫu nhiên gốctrong tổng thể thì chọn tiêu chuẩn kiểm định
U = (X1− X2)− (a1 − a2)
√
σ2 1
n1 +
σ2 2
n1 +
σ2 2
n2
(5.5)
và cũng có phân phối chuẩn hóa N (0,1).
- Trường hợp 2: Nếu chưa biết phương sai σ12 và σ22 của các biến ngẫu nhiên gốctrong tổng thể thì chọn tiêu chuẩn kiểm định
và cũng có phân phối chuẩn hóa N (0,1) với n đủ lớn (n ≥ 30).
Bước 3 Từ mẫu cụ thể ta sẽ tìm được các giá trị x1, s ′1, và x2, s ′2 cụ thể thay vào(5.5) hoặc (5.7), ta sẽ tìm được giá trị quan sát là
U qs = (x1− x2)
√
σ2 1
n1
+ σ
2 2
khi chưa biết σ1, σ2. (5.9)
Bước 4 Với mức ý nghĩa cho trước tra Bảng Phụ lục 2 ta sẽ tìm được giá trị
u1− α
2 hoặc u1−α từ đó ta tìm miền bác bỏ W α tùy thuộc vào cách đặt đối thuyết H1
Cụ thể,
Trang 28124 Chương 5: Kiểm định giả thuyết thống kê
- Miền bác bỏ hai phía (nếu H1 : a1 ̸= a2): W α = (−∞; −u1− α
2)∪ (u1− α
2; +∞),
- Miền bác bỏ bên phải (nếu H1 : a1 > a2): W α = (u1−α; +∞),
- Miền bác bỏ bên trái (nếu H1 : a1 < a2): W α = (−∞; −u1−α).
Bước 5 So sánh U qs với miền bác bỏ W α rồi rút ra kết luận
Ví dụ 5.2.5 Người ta thí nghiệm hai phương pháp chăn nuôi gà khác nhau Saumột tháng người ta kiểm tra mức độ tăng trọng của 2 lô Kết quả như sau:
• Lô dùng phương pháp 1: Kiểm tra 100 con, x1 = 1,1kg; σ2
1 = 0,04.
• Lô dùng phương pháp 2: Kiểm tra 150 con, x2 = 1,2kg; σ2
2 = 0,09.
Biết trọng lượng của gà là biến ngẫu nhiên có phân phối chuẩn Với mức ý nghĩa
α = 0,05 có thể kết luận phương pháp 2 hiệu quả hơn phương pháp 1 không? Giải Đây là bài toán kiểm định sự bằng nhau của 2 kỳ vọng toán của 2 biến
ngẫu nhiên có phân phối chuẩn khi đã biết phương sai
Bước 1 Đặt giả thuyết H0 : a1 = a2 (Nghĩa là hai phương pháp hiệu quả tương
đương) và đối thuyết H1 : a2 > a1 (phương pháp 2 hiệu quả hơn phương pháp 1)
Bước 2 Chọn tiêu chuẩn kiểm định
U = (X1− X2)− (a1 − a2)
√
σ2 1
n1 +
σ2 2
100 +
0,09
150
= −0,1 0,0316 =−3,1646.
Bước 4 Từ α = 0,05, tra bảng phân vị ta có u1−α = 1,645 Ta tìm được miền bác bỏ bên trái W α = (−∞; −u1−α) = (−∞; −1,645).
Bước 5 Ta thấy U qs ∈ W α nên suy ra bác bỏ H0, tức là ta có thể kết luận phươngpháp 2 hiệu quả hơn phương pháp 1
Ví dụ 5.2.6 Tại một vùng sản xuất lúa, nếu áp dụng biện pháp kỹ thuật thứ
nhất thì khi điều tra ngẫu nhiên n1 = 100 thửa ruộng trồng giống lúa A thu được
năng suất trung bình x1 = 100 tạ/ha và s ′1 = 9 tạ/ha Còn nếu áp dụng biện pháp
kĩ thuật thứ 2 thì khi điều tra ngẫu nhiên n2 = 50 thửa ruộng với cùng giống lúa
A thu được năng suất trung bình x2 = 95 tạ/ha và s ′2 = 11 tạ/ha Hãy kiểm định
với mức ý nghĩa α = 0,05 cho khẳng định sau: Nếu áp dụng biện pháp kĩ thuật thứ
nhất thì năng suất giống lúa A cao hơn thực sự so với kết quả áp dụng biện pháp
kỹ thuật thứ hai Giả thiết năng suất lúa tuân theo quy luật phân phối chuẩn
Giải Gọi X1,X2 tương ứng là năng suất của giống lúa A khi áp dụng biện pháp
kỹ thuật thứ nhất và thứ hai và a1,a2 là năng suất trung bình tương ứng khi ápdụng các biện pháp đó Đây là bài toán kiểm định sự bằng nhau của hai kì vọngcủa hai biến ngẫu nhiên có phân phối chuẩn khi chưa biết phương sai với mẫu lớn
Bước 1 Chọn giả thuyết H0 : a1 = a2 và đối thuyết H1 : a1 > a2
Trang 295.3 Kiểm định giả thuyết thống kê về tỷ lệ 125
Bước 2 Chọn tiêu chuẩn kiểm định là
Bước 5 Ta có U qs ∈ W / α do đó chưa có cơ sở để bác bỏ H0
Kết luận: Với mức ý nghĩa 5%, chưa có cơ sở để khẳng định rằng nếu áp dụngbiện pháp kỹ thuật thứ nhất thì năng suất giống lúa A cao hơn thực sự so với năngsuất đạt được khi áp dụng biện pháp kỹ thuật thứ hai
5.3 Kiểm định giả thuyết thống kê về tỷ lệ
5.3.1 Trường hợp một tổng thể
Bài toán Cho X là biến ngẫu nhiên có quy luật phân phối xác suất không – một
A(p) Hãy kiểm định tham số tỷ lệ θ = p với mức ý nghĩa α cho trước.
Giải Đây là bài toán so sánh tỷ lệ lý thuyết với tỷ lệ quan sát được Giả sử tham
số p chưa biết nhưng ta có cơ sở để cho rằng p = p0, trong đó p0 là tỷ lệ đã biết
Bước 1 Chọn giả thuyết H0 : p = p0 và đối thuyết H1 : p ̸= p0 (hoặc p > p0,
hoặc p < p0)
Bước 2 Từ tổng thể lập mẫu ngẫu nhiên kích thước n, với n đủ lớn ta chọn tiêu
chuẩn kiểm định là thống kê
và U xấp xỉ phân phối chuẩn hóa N (0,1).
Bước 3 Từ mẫu cụ thể ta tính được giá trị quan sát U qs của tiêu chuẩn kiểmđịnh (5.11)
Bước 4 Với mức ý nghĩa cho trước tra Bảng Phụ lục 2 ta sẽ tìm được giá trị
u1− α
2 hoặc u1−α từ đó ta tìm được miền bác bỏ W α căn cứ vào cách phát biểu đối
thuyết H1
Trang 30126 Chương 5: Kiểm định giả thuyết thống kê
- Miền bác bỏ hai phía (nếu H1 : p1 ̸= p2): W α = (−∞; −u1− α
2)∪ (u1− α
2; +∞).
- Miền bác bỏ bên phải (nếu H1 : p1 > p2): W α = (u1−α; +∞).
- Miền bác bỏ bên trái (nếu H1 : p1 < p2): W α = (−∞; −u1−α).
Bước 5 So sánh U qs với miền bác bỏ W α rồi rút ra kết luận
Ví dụ 5.3.1 Một kho hạt giống có tỷ lệ nảy mầm xác định là 0,9 Ngẫu nhiên có
một thiết bị bị hỏng làm thay đổi điều kiện bên trong của kho do đó làm cho tỷ lệnảy mầm thay đổi Người ta làm thí nghiệm trên 200 hạt giống thấy có 140 hạt nảymầm Với độ tin cậy 95%, hãy cho biết tỷ lệ nảy mầm có thay đổi không?
Giải Đây là bài toán kiểm định giả thuyết thống kê về tỷ lệ.
Bước 1 Đặt giả thuyết thống kê H0 : p = 0,9 (tỷ lệ hạt nảy mầm trong kho không bị thay đổi) và đối thuyết H1 : p ̸= 0,9 (tỷ lệ nảy mầm của hạt trong kho bị
Bước 4 Với mức ý nghĩa α = 0,05, tra Bảng Phụ lục 2 ta được u1−α/2 = u 0,975 =
1,96 Vậy miền bác bỏ hai phía là W α = (−∞, −1,96) ∪ (1,96, +∞).
Bước 5 Ta thấy U qs ∈ W α nên bác bỏ H0, chấp nhận H1, nghĩa là tỷ lệ nảy mầmcủa hạt trong kho bị thay đổi
ở hai tổng thể Lập các mẫu ngẫu nhiên kích thước n1 và n2 tương ứng với từngtổng thể
W1 = (X1, X2, ,X n1); W2 = (Y1, Y2, ,Y n2).
Bước 1 Xây dựng các cặp giả thuyết thống kê
H0 : p1 = p2; H1 : p1 ̸= p2 (hoặc H1 : p1 > p2; H1 : p1 < p2).
Trang 315.3 Kiểm định giả thuyết thống kê về tỷ lệ 127
Bước 2 Chọn tiêu chuẩn kiểm định là
U = (f1− f2)− (p1− p2)
√
f (1 − f)
(1
n1 +
1
n2
và T có phân phối chuẩn hóa N (0,1).
Bước 3 Từ mẫu cụ thể ta tính được các giá trị cụ thể f1,f2, f và thay vào (5.13)
ta được giá trị quan sát T qs của tiêu chuẩn kiểm định T
Bước 4 Với mức ý nghĩa cho trước tra Bảng Phụ lục 2 ta sẽ tìm được giá trị
- Miền bác bỏ bên phải (nếu H1 : p1 > p2): W α = (u1−α; +∞).
- Miền bác bỏ bên trái (nếu H1 : p1 < p2): W α = (−∞; −u1−α).
Bước 5 So sánh T qs với miền bác bỏ W α rồi rút ra kết luận
Ví dụ 5.3.2 Có hai loại thuốc A và B cùng điều trị một loại bệnh trên lợn Qua theo dõi, người ta thấy trong 160 con lợn được dùng thuốc A thì có 120 con khỏi bệnh còn trong số 56 con lợn dùng thuốc B thì có 40 con khỏi bệnh Với mức ý nghĩa α = 0,05, hãy kiểm định ý kiến cho rằng thuốc A hiệu quả hơn thuốc B trong
điều trị bệnh cho lợn?
Giải Đây là bài toán kiểm định giả thuyết thống kê về sự bằng nhau của hai
tỷ lệ
Bước 1 Chọn giả thuyết H0 : p1 = p2 (Hai loại thuốc tác dụng tương đương
nhau) và đối thuyết H1 : p1 > p2 (Thuốc A hiệu quả hơn thuốc B).
Bước 2 Giả sử H0 đúng, tức là ta có p1 = p2 Khi đó, ta chọn tiêu chuẩn kiểmđịnh như sau:
U = f1− f2
√
f (1 − f)
(1
n1 +
1
n1
)
Bước 3 Từ mẫu cụ thể, với loại thuốc A ta có: n1 = 160, m1 = 120 nên f1 = 0,75;
và với thuốc B: n2 = 56, m2 = 40 nên f2 = 0,71 Suy ra,
f = m1 + m2
n1 + n2 =
120 + 40
160 + 56 = 0,74.