Giáo trình Xác suất thống kê cung cấp các phương pháp ước lượng các tham số thông kê của tổng thể và kiểm định giả thiết về các tham số của tổng thể, so sánh hai trung bình, hai tỉ lệ của hai tổng thể, tạo nền tản để phân tích các dữ liệu thống kê kinh tế xã hội. Mời các bạn cùng tham khảo nội dung phần 2 giáo trình!
Trang 1Chương 4 ƯỚC LƯỢNG CÁC THAM SỐ ĐẶC TRƯNG CỦA ĐẠI
LƯỢNG NGẪU NHIÊN
Giả sử một ĐLNN X có phân phối xác suất đã biết nhưng các đặc trưng của nó
được phân phối xác suất của X
Từ một tổng thể lấy một mẫu ngẫu nhiên, dựa vào mẫu ngẫu nhiên kích thước n
đó, ta lập ra một đại lượng thống kê θ để thay thế cho ɵ θ , khi đó θ được gọi là ước ɵ
Trong chương này ta sẽ làm quen với các ước lượng điểm, ước lượng khoảng cho trung bình tổng thể, tỷ lệ của tổng thể, phương sai của tổng thể
Giả sử θ là tham số đặc trưng (trung bình, phương sai, tỷ lệ…) của ĐLNN X chưa biết Ta cần xác định xem θ nhận giá trị nào hay nói cách khác ta cần ước
- Ước lượng điểm: dựa vào mẫu ngẫu nhiên (X , X , 1 2 …,X ) n ta xây dựng một thống kê θ*=θ* ( X , X , , X ) 1 2 n để khi mẫu nhận một giá trị cụ thể
( x , x , … , x ) thì xác định được một giá trị θ0 =θ* (x , x , 1 2 …,x ) n ước lượng cho θ
- Ước lượng khoảng: dựa vào một thống kê nào đó, ta tìm được một khoảng
giá trị (θ θ1 , 2) của θ với xác suất định trước để ước lượng cho tham số θ
4.1.2 Các tiêu chuẩn ước lượng
Từ mẫu ngẫu nhiên W (X , X , X 1 2 …,X ) n , ta xây dựng một thống kê
* * ( X , X , , X )
nhau, ta có các dạng ước lượng khác nhau cho tham số θ
Trang 24.1.2.1 Ước lượng không chệch (ước lượng đúng)
Thống kê θ*=θ* ( X , X , , X ) 1 2 n được gọi là ước lượng không chệch của tham số θ nếu E(θ* )= θ
Nếu E(θ* )≠ thì θ θ* được gọi là ước lượng chệch
Nhận xét: Như nêu ở Chương 3, ta có:
Trung bình của mẫu ngẫu nhiên
n i
chệch của phương sai tổng thể Var(X) vì E( S ) Var( X ) 2 =
i 1
1
n =
Var(X) vì E( S ' ) 2 n 1 Var( X ) Var( X )
Trang 34.1.2.2 Ước lượng hiệu quả
Giả sử θ* là ước lượng không chệch của tham số θ Theo bất đẳng thức Tchebychev ta có
Trang 4Ước lượng không chệch θ* được gọi là ước lượng có hiệu quả của tham số
θ nếu Var(θ* ) nhỏ nhất trong các ước lượng của θ
ln ( , )
Trong đó θ* là ước lượng không chệch bất kì của θ và f ( x, )θ là hàm mật
độ xác suất của đại lượng ngẫu nhiên X
Nếu θ*là ước lượng hiệu quả của θ thì dấu “ =” trong bất đẳng thức Grammer – Rao xảy ra
Nhận xét
n
σµ
Trang 5Suy ra
2 2
2 2
µ
σµ
4.2.2 Phương pháp chung
Cho số α khá nhỏ thường 0< ≤α 0,1 Ước lượng khoảng cho θ là chỉ ra khoảng (θ θ1 ; 2) sao cho θ∈(θ θ1 ; 2) với xác suất 1− khá lớn Ở đây: α
Trang 6(θ θ1 ; 2) là khoảng ước lượng của θ ( khoảng tin cậy)
l=θ2−θ1: độ dài khoảng tin cậy
α gọi là mức ý nghĩa
1− được gọi là độ tin cậy ( hệ số tin cậy của ước lượng) α
Cùng độ tin cậy có thể cho nhiều khoảng tin cậy khác nhau, khoảng nào càng hẹp càng tốt
Bài toán tìm ước lượng khoảng với độ tin cậy 1− còn được gọi là α
bài toán tìm khoảng tin cậy 1− αPhương pháp ước lượng khoảng được thực hiện như sau
Bước 1:
- Từ tổng thể lập mẫu ngẫu nhiên W X =(X , X , 1 2 …,X ) n
- Với mẫu ngẫu nhiên W X xây dựng một thống kê G thích hợp có chứa tham số cần ước lượng θ Tức là G= f (X , X , 1 2 …,X , ) nθ có luật phân phối xác định (phân phối chuẩn hóa, phân phối Student hay phân phối khi bình phương,…)
- Khi biết được dạng phân phối của G, với α cho trước có thể tìm được hai giá trị g và 1 g sao cho 2 P( g 1<G< g ) 1 2 = − α
Các số g và 1 g là các phân vị thích hợp của thống kê G Chẳng hạn 2
có thể chọn g 1 =Gα/ 2; g 2 =G 1−α/ 2 tương ứng là phân vị của G mức xác
suất α / 2 và 1−α / 2
- Biến đổi biểu thức trên về dạng P( G 1< <θ G ) 1 2 = − trong đó α
1 2
G ,G là các ĐLNN suy ra từ thống kê G
Khoảng ( G ;G ) được gọi là khoảng tin cậy (hay khoảng ngẫu 1 2
nhiên) của θ tương ứng xác suất 1− α
Bước 2:
Với một mẫu giá trị cụ thể w x =(x , x , 1 2 …,x ) n của W X, thay thế vào
1 2
G ,G ta được các giá trị tương ứng θ θ1 , 2 Khi đó (θ θ1 ; 2) là khoảng ước
lượng cần tìm với mức xác suất 1− α
Chú ý
1 2
G ,G là các ĐLNN và P( G 1 < <θ G ) 1 2 = − , do đó chỉ có thể khẳng αđịnh θ∈(θ θ1 ; 2) với mức xác suất 1− mà không thể viết α P(θ1 < <θ θ2 ) 1= − α
vì θ là hằng số, không phải là ĐLNN
Ta có các dạng bài toán ước lượng cơ bản sau:
Trang 7− Ước lượng khoảng cho tham số kỳ vọng
− Ước khoảng cho tham số tỉ lệ
− Ước lượng khoảng cho tham số phương sai
4.2.3 Ước lượng trung bình
4.2.3.1 Đặt vấn đề
ĐLNN X có trung bình E X( ) =µ chưa biết Với mức α khá nhỏ ta dựng
P µ < <µ µ = − α
4.2.3.2 Phương pháp
Bài toán ước lượng trung bình µ được phân chia theo các trường hợp sau đây
vì phụ thuộc vào các thông tin về phương sai, kích thước mẫu, luật phân phối của X
a) Trường hợp 1
Phương sai Var( X )=σ2 đã biết, kích thước mẫu n ≥ 30 hoặc n < 30 và
X có luật phân phối chuẩn
P(U <u −α ) P(U− <uα ) 1= −α / 2−α / 2
/ 2 1 / 2 P( uα U u −α ) 1 α
Trang 8Với mẫu cụ thể w x =(x , x , 1 2 …,x ) n , trung bình x , từ (4.4) ta có khoảng
tin cậy ( ;µ µ1 2), trong đó µ1= −x ε và µ2 = +x ε
Tóm lại:
Trong thực hành, khi có mẫu cụ thể w x =(x , x , 1 2 …,x ) n và mức ý nghĩa αđược ấn định trước thì khoảng tin cậy ( ;µ µ1 2) cho tham số trung bình µ được tìm tuần tự qua các bước sau:
- Với mẫu cụ thể w Tính trung bình mẫu x x
- Với mức ý nghĩa α, tính 1−α / 2, rồi tra tìm phân vị chuẩn u 1−α/ 2 ở phụ lục phân vị chuẩn bảng 2 hoặc 2’
- Tính độ chính xác u 1 / 2
n
α σ
ε = − (4.5)
- Xác định khoảng tin cậy ( ;µ µ1 2)=(x−ε;x+ε) (4.6)
+ Đặt biệt: Nếu chỉ ước lượng giá trị tối đa hay giá trị tối thiểu cho trung của tổng
thể ta có hai giá trị ước lượng sau:
σ µ
a) Ước lượng trung bình của khối lượng sản phẩm với độ tin cậy 95%
b) Nếu cho bán kính của ước lượng ε =0,4 g thì độ tin cậy của ước lượng là bao nhiêu?
Trang 9c) Với bán kính ước lượng ε =0,4 g , muốn có độ tin cậy 1− =α 95% thì phải kiểm tra ít nhất bao nhiêu sản phẩm?
* Độ tin cậy của ước lượng là 1− =α 0,95 Do đó: 1−α / 2=0,975
* Tra bảng phân vị chuẩn ta được u 1−α/ 2 =u 0,975 =1,96
−
b) Trường hợp 2: Phương sai Var(X) chưa biết, kích thước mẫu n ≥ 30
Về phương pháp cũng tuơng tự như trường hợp 1, chỉ khác là trong trường hợp này phải ước lượng σ2 bằng phương sai mẫu điều chỉnh (được xác định từ mẫu
S
µ
−
Trang 10Trong thực hành, khoảng tin cậy được lập dưới dạng
( ;µ µ ) (= x−ε;x+ε) Với độ chính xác:
+ Đặt biệt: Nếu chỉ ước lượng giá trị tối đa hay giá trị tối thiểu cho trung của tổng
thể ta có hai giá trị ước lượng sau:
Ví dụ 3: Khảo sát chiều cao của cây cùng độ tuổi thu được kết quả sau
Chiều cao (cm) Số cây
Trang 11* Với độ tin cậy 1− =α 0,99 Ta có: 1−α / 2=0,995
* Tra bảng phân vị chuẩn ta được u 1−α/ 2 =u 0,995 =2,576
Trang 12Phương sai Var(X) chưa biết; kích thước mẫu n < 30 và X có luật phân phối chuẩn
Do đó, khi tính độ chính xác giá trị phân vị chuẩn sẽ được thay bằng phân vị student tα/ 2;n−1 với mức xác suất α / 2 và bậc tự do n – 1:
t / 2;n 1 s
n
α
ε = − (4.8)
+ Đặt biệt: Nếu chỉ ước lượng giá trị tối đa hay giá trị tối thiểu cho trung của tổng
thể ta có hai giá trị ước lượng sau:
độ lệch chuẩn mẫu điều chỉnh s=8,25 g
Hãy ước lượng trung bình của chi phí nguyên liệu với độ tin cậy 95%
Giải
phối chuẩn, chưa biết Var(X) và kích thước của mẫu đã cho là n = 25 <30 và trung
bình mẫu x=50 g; độ lệch chuẩn mẫu điều chỉnh s = 8,25 g
σ
−
* Độ tin cậy của ước lượng là 1− =α 0,95 Do đó: α / 2 = 0, 025
* Tra bảng phân vị student với n - 1 = 24 bậc tự do, ta được
/ 2;n 1 0,025;24 2, 0639
Trang 13− Tìm kích cở mẫu khi biết được độ chính xác của ước lượng và độ tin cậy của ước lượng
− Tìm độ tin cậy khi đã biết độ chính xác của mẫu ước lượng
1/ Giám đốc chi nhánh của một ngân hàng muốn ước lượng số tiền gửi
trung bình của mỗi khách hàng tại ngân hàng Chọn ngẫu nhiên 30 khách hàng tính được số tiền gửi trung bình là 4750 USD và độ lệch chuẩn điều mẫu chỉnh là 1200 USD
a) Với độ tin cậy 95% hãy ước lượng số tiền gửi trung bình của mỗi khách hàng tại ngân hàng
b) Nếu sử dụng mẫu trên và muốn có độ chính xác của ước lượng trung bình
là 400 USD thì đảm bảo độ tin cậy là bao nhiêu?
c) Muốn ước lượng trung bình có độ tin cậy 99% và độ chính xác là 300 USD thì cần điều tra thêm bao nhiêu khách hàng?
2/ Tỷ lệ nợ xấu tại một ngân hàng là tỷ số của tổng nợ quá hạn và tổng số nợ cho vay đang được thực hiện Điều tra ngẫu nhiên 7 ngân hàng ở vùng A có
tỉ lệ nợ xấu (tính bằng %) là 7, 4, 6, 7, 5, 4, 9
a) Giả sử tỷ lệ nợ xấu có phân phối chuẩn Với độ tin cậy 95% hãy ước lượng tỷ lệ nợ xấu trung bình của các ngân hàng vùng A
b) Nhân viên thanh tra phàn nàn rằng tỉ lệ nợ xấu của các ngân hàng vùng
A cao hơn tỉ lệ nợ xấu của các ngân hàng vùng B vì ở đó tỉ lệ này chỉ có 3,5% Hãy dùng kết quả câu a, xét xem lời phàn nàn trên đúng không? c) Với các câu hỏi tương tự cho độ tin cậy 99%
?
Trang 144.2.4 Ước lượng tỷ lệ
4.2.4.1 Đặt vấn đề
Tổng thể chia làm hai loại phần tử, những phần tử có tính chất A và không
có tính chất A Giả sử tỷ lệ p các phần tử có tính chất A chưa biết Cho số α khá nhỏ, ước lượng tỷ lệ p là chỉ ra khoảng ( p ; p ) sao cho 1 2 p ( p ; p )∈ 1 2 với mức xác suất 1− (độ tin cậy của ước lượng) α
Gọi X là số phần tử có tính chất A khi lấy ngẫu nhiên 1 phần tử từ tổng thể
X nhận giá trị 1 khi X có tính chất A và ngược lại X nhận giá trị 0 Khi đó X là
ĐLNN có phân phối xác suất:
Gọi X i i( =1, )n là số phần tử có tính chất A trong lần lấy thứ i
Ta có:
n i
chưa biết, q=1-p , n là kích thước mẫu khá lớn, f là thống kê nhận giá trị bằng tần
xuất của tính chất A trong mẫu
Trang 15tự qua các bước sau:
- Với mẫu cụ thể kích thước n, xác định m phần tử mang tính chất A Tính
tần suất có tính chất A trong mẫu: f m
- Xác định khoảng tin cậy: ( p ; p ) ( f 1 2 = −ε; f +ε) (4.10)
+ Đặt biệt: Nếu chỉ ước lượng giá trị tối đa hay giá trị tối thiểu cho tỉ lệ của tổng thể
ta có hai giá trị ước lượng sau:
Trang 16của ước lượng là 1− =α 0,95 Do đó: 1−α / 2=0,975
* Tra bảng phân vị chuẩn ta được u 1−α/ 2 =u 0,995 =2,576
Chú ý: Từ bài toán ước lượng khoảng cho tham số tỉ lệ ta có hai bài toán là tìm cở
mẫu, ước lượng số lượng phần tử tổng thể, ước lượng số phần tử có tính chất cần khảo sát của tổng thể , tìm độ tin cậy của ước lượng
a) Trong đợt bầu cử tổng thống người ta phỏng vấn ngẫu nhiên 1600 cử tri thì được biết có 960 người sẽ bầu cho ứng cử viên A Với độ tin cậy 99%, hãy xem ứng cử viên A có trúng cử hay không ? ( Biết rằng trên 50% người bầu sẽ trúng cử)
b) Giám đốc một ngân hàng muốn xác định số khách hàng gởi tiền tại ngân hàng được chi trả theo tuần Một mẫu ngẫu nhiên 100 khách hàng có 30 người được chi trả theo tuần
i) Với độ tin cậy 90% hãy ước lượng số khách hàng được chi trả theo tuần, biết ngân hàng có 2000 khách hàng
ii) Nếu muốn ước lượng tỉ lệ khách hàng được chi trả theo tuần với độ tin cậy trên và độ chính xác của ước lượng là 0,05 thì cần kích thước mẫu điều tra bao nhiêu ?
c) Trong 5000 sản phẩm của một lô hàng, người ta chọn ngẫu nhiên ra 256 sản phẩm để kiểm tra thấy có 192 sản phẩm loại 1
i) Hãy ước lượng tỉ lệ sản phẩm loại 1 có trong lô hàng
ii) Hãy ước lượng tỉ lệ sản phẩm loại 1, từ đó suy ra số sản phẩm loại
1 có trong lô hàng với độ tin cậy 95%
?
Trang 17iii) Nếu muốn ước lượng tỉ lệ sản phẩm loại 1 của lô hàng đạt được
độ chính xác là 0, 04 sản phẩm và đô tin cậy 97% thì phải kiểm tra bao nhiêu sản phẩm nữa?
4.2.5 Ước lượng phương sai
Ta thấy χ2 có phân phối chi bình phương với n bậc tự do
Gọi χα2 / 2;n 1− và χ1 2−α/ 2;n 1− lần lượt là phân vị khi bình phương, bậc tự do
n-1 với mức xác suất lần lượt là α / 2 và 1−α / 2 (Phụ lục bảng 5 )
1 / 2;n / 2;n P(χ −α <χ <χα ) 1= − α
2 n
Trang 18Với mẫu cụ thể w x =( x ,x , ,x ) 1 2 n , tính các tổng
n
2 i
Chọn thống kê
2 2
phối χ2 với bậc tự do n -1, trong đó n là kích thước mẫu, S 2 là thống kê nhận giá trị
bằng phương sai mẫu điều chỉnh kích thước n
Gọi χα2 / 2;n 1− và χ1 2−α/ 2;n−1 lần lượt là phân vị khi bình phương, bậc tự do n -1 với mức xác suất lần lượt là α / 2 và 1−α / 2 (Phụ lục bảng 5 )
Ta có
1 / 2;n 1 / 2;n 1 P(χ −α − <χ <χα − ) 1= − α
α
−
Với mẫu cụ thể w x =( x ,x , ,x ) 1 2 n , phương sai điều chỉnh s , ta có 2
1 ; 2
2 2
Trang 19Khối lượng x i (g) Số sản phẩm n i 29,3
29,7
30 30,5 30,7
* Độ tin cậy của ước lượng là 1− =α 0,95 Do đó: 1−α / 2=0,975 và
Vậy khoảng ước lượng phương sai với độ tin cậy 95% là ( 0 , 028 ; 0 , 089 )
Tài liệu tham khảo chương 4 : tài liệu 1, 2,3,5,6,7,8
Trang 20BÀI TẬP ÔN TẬP CHƯƠNG 4 1/ Doanh số của một cửa hàng là biến ngẫu nhiên có phân phối chuẩn với độ lệch
chuẩn là σ = ( triệu/tháng) Điều tra ngẫu nhiên doanh số của 600 cửa hàng có 2 quy mô tương tự nhau tìm được doanh số trung bình là 8,5 triệu/tháng Với độ tin cậy 95% hãy ước lượng doanh số trung bình của các cửa hàng thuộc quy mô đó
2/ Để ước lượng tổng doanh thu của một công ty gồm 380 cửa hàng trên toàn quốc
trong một tháng Người ta lấy ngẫu nhiên 10% số cửa hàng và có được doanh thu trong một tháng là:
Với độ tin cậy 99% hãy ước lượng doanh thu trung bình của mỗi cửa hàng và tổng doanh thu của công ty (trong 1 tháng)
3/ Tiến hành quan sát về số lít xăng bán được trong một số ngày của một trạm xăng
người ta thu được kết quả sau
i
x (lít) 200 220 240 260 280 300 320
i n (số ngày) 5 8 12 25 30 16 4
i) Ước lượng số lít xăng bán được trung bình trong ngày với độ tin cậy 99% ii) Xem những ngày bán không đến 250 lít xăng là những ngày “ế hàng” Ước lượng tỷ lệ những ngày “ế hàng” với độ tin cậy 95% iii) Với thông tin mẫu có được, hỏi muốn ước lượng tỷ lệ những ngày “ế hàng” với độ tin cậy 99% và độ chính xác tối đa là 0,05 thì phải lấy mẫu thống kê với kích thước tối thiểu là bao nhiêu ngày? 4/ Kiểm tra ngẫu nhiên một số sản phẩm vừa sản xuất, cân thử và thu được các trọng lượng ( g) sau 201 203 209 204 202 206 200 207 207 Hãy tìm khoảng tin cậy 95% cho trọng lượng trung bình của sản phẩm vừa sản xuất Giả sử khối lượng sản phẩm là 1 đặc tính chuẩn 5/ Quan sát thu nhập của một số người làm việc ở một công ty, ta có kết quả cho ở bảng dưới đây: Thu nhập ( ngàn đ/tháng) Số người Thu nhập (ngàn đ/tháng) Số người 500 − 550 5 750 − 800 47
550 − 600 9 800 − 850 24
600 − 650 12 850 − 900 18
650 − 700 35 900 − 950 6
Trang 21700 − 750 66 950 − 1000 3
a) Tìm ước lượng không chệch cho thu nhập trung bình và phương sai của
một người ở công ty này ?
b) Ước lượng thu nhập trung bình của một người ở công ty này với độ tin cậy
95%?
c) Những người có thu nhập trên 800 ngàn đ/tháng trở lên là những người có
thu nhập cao Hãy ước lượng tỉ lệ người có thu nhập cao của công ty này với độ tin cậy 98%?
d) Hãy ước lượng thu nhập trung bình của một người có thu nhập cao trong
công ty này với độ tin cậy 90%?
e) Khi ước lượng thu nhập trung bình của một người ở công ty này, nếu ta
muốn độ chính xác đạt được là 10 (ngàn đồng), độ tin cậy 95% thì cần phải quan sát bao nhiêu người trong công ty?
6/ Một công nhân muốn ước lượng tỉ lệ sản phẩm đạt chuẩn của lô hàng vừa sản
xuất
a) Với 1000 sản phẩm được kiểm tra có 640 sản phẩm đạt chuẩn Với độ tin
cậy 95% hãy ước lượng tỉ lệ sản phẩm đạt chuẩn của lô hàng này
b) Muốn có độ tin cậy 95% , sai số của ước lượng không vượt quá 0,02 thì
cần kiểm tra tối thiểu bao nhiêu sản phẩm
c) Nếu muốn ước lượng tỉ lệ với sai số của ước lượng giảm đi một nữa so với
ban đầu thì độ tin cậy của ước lượng đạt được là bao nhiêu?
7/ Để đánh giá trữ lượng cá trong hồ người ta đánh bắt 2000 con cá đánh dấu, rồi
thả chúng xuống hồ Sau đó bắt lại ngẫu nhiên 400 con thì thấy có 80 con có đánh dấu
a) Với độ tin cậy 95% hãy ước lượng trữ lượng cá có trong hồ
b) Nếu muốn sai số của ước lượng giảm đi một nửa thì lần sau phải đánh bắt
bao nhiêu con cá
8/ Lô trái cây của một chủ hàng được đóng thành sọt, mỗi sọt 100 trái Kiểm tra 50
sọt thấy có 450 trái cây không đạt chuẩn
a) Ước lượng tỉ lệ trái cây không đạt chuẩn của lô hàng với độ tin cậy 95% b) Muốn ước lượng tỉ lệ trái cây không đạt chuẩn với độ chính xác 0,5% thì
độ tin cậy đạt được là bao nhiêu
c) Muốn ước lượng tỉ lệ trái cây không đạt chuẩn với độ tin cậy 0, 99 và độ
chính xác 1% thì cần kiểm tra bao nhiêu sọt
d) Muốn ước lượng tỉ lệ trái cây không đạt chuẩn với độ tin cậy 90% thì độ
chính xác đạt được là bao nhiêu
Trang 229/ Giả sử rằng trong một mẫu điều tra sơ bộ về những gia đình có máy giặt ta có tần
suất là f = 0, 72
a) Người ta muốn tìm khoảng tin cậy 95% cho tỉ lệ gia đình có máy giặt với
độ chính xác 0.04 Khi đó kích thước của mẫu sẽ là bao nhiêu ?
b) Giả sử với cở mẫu vừa tìm ở câu a), nếu muốn độ chính xác của ước
lượng tỉ lệ gia đình có máy giặt là 0, 03 thì khi đó mức độ tin cậy là bao nhiêu ?
10/ Nhà trường muốn đánh giá số giờ tự học của sinh viên trong tuần Để biết điều
này, phòng đào tạo chọn ngẫu nhiên 25 sinh viên và nhận được kết quả sau:
a) Cho biết số giờ tự học trung bình của sinh viên trong tuần là bao nhiêu
với độ tin cậy 95% Giả thiết số giờ tự học của sinh viên trong tuần tuân theo quy luật phân phối chuẩn
b) Những sinh viên có số giờ tự học trong tuần từ 4 giờ trở xuống là những
sinh viên có thời gian tự học ít Hãy ước lượng số sinh viên có thời gian tự học ít ở
trường đó với độ tin cậy 99% Biết trong trường có tổng cộng 20.000 sinh viên
11/ Công ty Phương Đông đã bán được 550.000 chiếc tủ lạnh trên địa bàn kinh
doanh của mình Để xây dựng kế hoạch kinh doanh cho những năm tới, công ty tiến
hành điều tra ngẫu nhiên 10.000 hộ trên cùng địa bàn thì thấy có 5000 hộ có tủ lạnh
trong đó có 575 hộ có tủ lạnh mang nhãn hiệu công ty Hãy ước lượng số hộ đã có
tủ lạnh trên địa bàn kinh doanh của công ty bằng khoảng tin cậy 95% Giả thiết mỗi
a) Những sản phẩm có chỉ tiêu X không quá 10% là loại 2 Hãy ước lượng tỉ
lệ sản phẩm loại 2 với độ tin cậy 99%
b) Hãy ước lượng trung bình các chỉ tiêu X của các sản phẩm loại 2 với độ
tin cậy 99% ( giả sử X có phân phối chuẩn )
c) Nếu dùng số liệu của mẫu để ước lượng trung bình chỉ tiêu X với độ tin
cậy 95% và độ chính xác 1% thì cần điều tra thêm bao nhiêu sản phẩm nữa
13/ Để biết được số lượng chim có trong một khu rừng, người ta đem từ nơi khác
đến 1000 con chim đã đánh dấu, sau đó thả chúng vào rừng Một thời gian sau
người ta bắt ngẫu nhiên 200 con thì thấy có 40 con có đánh dấu Với độ tin cậy 0,99
thử ước lượng số chim trong khu rừng
Trang 23Chương 5 KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
Trong thực tế có rất nhiều vấn đề mà ta không biết được khả năng đúng cũng như mức độ chính xác của nó ra sau Ta cần kiểm tra, kiểm định vấn đề đó Lý thuyết thống kê xây dựng cho ta các quy tắc, các phương pháp kiểm định các giả thiết rất hiệu quả
Trong chương này ta làm quen với các khái niệm về giả thiết thống kê, đối thiết, các phương pháp cụ thể khi tiến hành kiểm định một giả thiết, các sai lầm loại
1 và loại 2 mắc phải khi kiểm định giả thiết Qua chương này ta sẽ biết được kiểm định về trung bình của tổng thể, tỷ lệ của tổng thể, phương sai của tổng thể, kiểm định sự bằng nhau của hai trung bình, sự bằng nhau của hai tỷ lệ
5.1 Các định nghĩa và phương pháp kiểm định
5.1.1 Các khái niệm và định nghĩa
Kiểm định giả thiết thống kê là một vấn đề quan trọng của thống kê Nội dung công việc này ở đây là căn cứ các số liệu thu được để đưa ra một kết luận về một giả thiết thống kê nào đó mà ta cần quan tâm
Trong các bài toán nghiên cứu thống kê có khi ta cần đánh giá những giả định
về một trung bình của đại lượng nào đó, hoặc một tỷ lệ nào đó, hoặc ta cần so sánh
2 dụng cụ cân đo, hai phương pháp làm thí nghiệm,… xem có hiệu quả chất lượng như nhau không Nói chung là phải xem xét những giả định về các vấn đề thống kê Chúng ta phải đưa ra nhận định về tính thừa nhận được hay không thừa nhận được của các giả định về các vấn đề thống kê
5.1.1.1 Giả thiết thống kê
Khi nghiên cứu về các lĩnh vực nào đó trong thực tế ta thường đưa ra các nhận xét khác nhau về các đối tượng mà ta quan tâm Những nhận xét như vậy thường được coi là các giả thiết, chúng có thể đúng, cũng có thể sai Việc xác định tính đúng sai của một giả thiết được gọi là kiểm định giả thiết
Giả thiết thống kê thường là một dự đoán về:
Giá trị của một đặc trưng số chưa biết của một ĐLNN, chẳng hạn, giả
thiết trung bình E(X) = 20 cm hoặc giả thiết về sự bằng nhau của hai đặc trưng số của hai ĐLNN X, Y như E(X) = E(Y)
Luật phân phối xác suất của ĐLNN, chẳng hạn, giả thiết ĐLNN X có luật
phân phối chuẩn
Tính độc lập của các ĐLNN, chẳng hạn, giả thiết ĐLNN X độc lập với
ĐLNN Y
Trang 24Các giả thiết đưa ra kiểm định được ký hiệu là ( )H 0 , gọi là giả thiết gốc (giả thiết không)
5.1.1.2 Giả thiết đối
Giả thiết đối lập với giả thiết gốc được gọi là giả thiết đối, kí hiệu (H a) Ta thừa nhận khi đã chọn cặp giả thiết ( )H 0 và (H a) thì việc chấp nhận ( )H 0 sẽ chính
là bác bỏ ( )H a và ngược lại
5.1.2 Kiểm định giả thiết thống kê về các đặc trưng của đại lượng ngẫu nhiên
Là kết luận giả thiết đó đúng hay sai, có tính khách quan, dựa trên số liệu của mẫu ngẫu nhiên khi khảo sát một đại lượng ngẫu nhiên nào đó Kết luận nói trên thường đúng với xác suất khá lớn và có thể sai với xác suất khá nhỏ Các bài toán kiểm định giả thiết thống kê về các đặc trưng của đại lượng ngẫu nhiên là:
Quy tắc kiểm định dựa trên 2 nguyên lý sau:
Nguyên lý xác suất nhỏ: “ nếu một biến cố có xác suất nhỏ thì trong một hay vài phép thử thì biến cố đó coi như không xảy ra”
Phương pháp phản chứng: “ Để bác bỏ A ta giả sử A đúng dẫn tới
điều vô lý”
Dựa vào hai nguyên lý này ta đưa ra phương pháp chung để kiểm định một giả thiết thống kê như sau: Để kiểm định (H0) trước hết ta giả sử (H0) đúng từ đó
ta tìm được biến cố A mà xác suất xuất hiện biến cố A là rất bé và ta có thể xem A
không thể xảy ra trong một phép thử về biến cố này Lúc đó trên một mẫu cụ thể
quan sát được mà biến cố A xuất hiện thì điều này trái với nguyên lý xác suất nhỏ
Vậy (H0) sai và bác bỏ nó Còn nếu A không xảy ra thì ta chưa có cơ sở để bác bỏ
Trang 25Giả thiết về đặc trưng số θ chưa biết của ĐLNN X là (H0) :θ θ= 0, kèm theo đối giả thiết H a là một và chỉ một trong các trường hợp sau
Giả thiết về tính đối lập của hai ĐLNN X và Y là (H0): X và Y độc lập với
nhau, kèm theo đối giả thiết (H a): X và Y không độc lập với nhau
Bước 2: Từ mẫu ngẫu nhiên W X =( X , X , , X ) 1 2 n , chọn thống kê
*
(X X, , ,X n, )
luật phân phối xác định
Thống kê θ*được gọi là tiêu chuẩn kiểm định cho giả thiết (H0)
Bước 3: Dựa vào luật phân phối xác suất của θ*, mức ý nghĩa α và đối giả thiết(H a), tìm miền Wα sao cho
Số 1 − được gọi là độ tin cậy của kiểm định α
Bước 4: Lấy mẫu quan sát cụ thể w x =( x ,x , ,x ) 1 2 n thay vào thống kê θ* tính được giá trị quan sát thực tế hay giá trị thực nghiệm u 0
Bước 5: Kết luận về giả thiết (H0) và đối giả thiết (H a)
Nếu u ∈W thì bác bỏ giả thiết (H ), thừa nhận giả thiết (H )
Trang 26Nếu u 0∉Wα thì thừa nhận giả thiết (H0), bác bỏ giả thiết (H a)
Nhận xét
- Cùng một tiêu chuẩn kiểm định θ* và cùng một số liệu mẫu, giả thiết (H0)
bị bác bỏ hay chấp nhận phụ thuộc vào mức ý nghĩa α (hay độ tin cậy 1− ) cho αtrước Hệ thức (1) cho thấy khi α càng nhỏ thì miền Wα càng bị thu hẹp lại, khả năng giá trị quan sát u0∈Wα càng khó khăn hơn, do đó giả thiết (H0) càng bị bác
bỏ hơn
- Kết luận chấp nhận hay bác bỏ giả thiết (H0) theo cách như trên có thể mắc phải một trong hai dạng sai lầm sau:
+ Sai lầm loại 1: Bác bỏ giả thiết (H0) trong khi (H0) đúng
+ Sai lầm loại 2: Chấp nhận giả thiết (H0) trong khi (H0) sai
Chúng ta mong muốn tìm một tiêu chuẩn kiểm định giả thiết để đồng thời
làm giảm các xác suất sai lầm loại 1 và sai lầm loại 2 là nhỏ nhất Nhưng trong thực
tế điều đó khó thực hiện đồng thời Nếu ta giảm xác suất sai lầm loại 1 thì sẽ làm tăng xác suất sai lầm loại 2 và ngược lại Có 2 cách khống chế khả năng mắc phải
sai lầm:
Cách thứ nhất : ta ấn định trước mức mắc sai lầm loại 1 và sai lầm
loại 2, rồi tính toán tìm một mẫu có kích thước nhỏ nhất ứng với hai mức sai lầm này
Cách thứ hai: Ta ấn định trước mức mắc phải sai lầm loại 1 ( tức cho
trước mức ý nghĩa α ) Chọn miền bác bỏ Wα nào đó có xác suất sai lầm loại 2 nhỏ nhất (hay lực lượng của kiểm định giả thiết là nhỏ
nhất) Khi đó tiêu chuẩn kiểm định được gọi là mạnh nhất
Ở đây ta quan tâm tới cách thứ hai mặc dù không trình bày cụ thể cơ sở lý thuyết toán học
5.2 Một số bài toán kiểm định
5.2.1 Kiểm định giả thiết về trung bình
Giả sử ĐLNN X có trung bình E X( ) =µ chưa biết (đó cũng là trung bình của tổng thể)
Xét giả thiết (H0) :µ µ= 0
Kèm theo đối giả thiết (H a) là một và chỉ một trong các trường hợp sau: