Chương 5Ước lượng tham số Giả sử ñặc trưng của tổng thể cần nghiên cứu ñược biểu diễn bởi một biến ngẫu nhiên X, xác ñịnh trên một không gian mẫu M.. Vì chúng ta không nghiên cứu trên
Trang 1Chương 5
Ước lượng tham số
Giả sử ñặc trưng của tổng thể cần nghiên cứu ñược biểu diễn bởi một biến
ngẫu nhiên X, xác ñịnh trên một không gian mẫu M Có thể nói gọn là "tổng thể
X" Tổng thể X có các giá trị cần biết như kỳ vọng, phương sai , ñược gọi là
các tham số của tổng thể (gọi tắt là tham số) Vì chúng ta không nghiên cứu trên
toàn bộ tổng thể, nên các tham số này chưa ñược biết một cách chính xác, mà chỉ ñược ước tính nhờ các quan sát trên mẫu
Một trong những bài toán quan trọng của thống kê toán là ước lượng giá trị của một hoặc nhiều tham số tổng thể Lời giải ñáp cho vấn ñề này có thể có dạng
một giá trị duy nhất, gọi là Ước lượng ñiểm, hoặc có dạng một khoảng, gọi là
1 ƯỚC LƯỢNG ĐIỂM
Giả sử chúng ta ñã biết dạng của h.m.ñ f của BNN X, nhưng giá trị của f
phụ thuộc một tham số θ, với θ có thể lấy bất kỳ giá trị nào trong một tập hợp Ω
Giá trị của f ñược viết dưới dạng f (x;θ ), θ ∈ Ω Tập hợp Ω ñược gọi là không gian tham số Như vậy, chúng ta có một họ các h.m.ñ ñược ký hiệu bởi {f (x; θ ),
θ ∈ Ω}
Với mỗi giá trị của θ , có tương ứng một phần tử của họ Cũng có thể dùng
ký hiệu riêng của phân phối thay cho h.m.ñ của phân phối ñó Thí dụ, họ phân
phối chuẩn {n (θ ,1), θ ∈ }; một phần tử của họ là N(0,1)
Xét họ h.m.ñ {f (x;θ ), θ ∈ Ω} Giả sử chúng ta muốn chọn chính xác một phần tử của họ ñó làm h.m.ñ cho BNN X ñang nghiên cứu, i.e chúng ta cần một
ước lượng ñiểm cho θ
Xét mẫu (X1, X2, , Xn) ñược thành lập từ BNN X có h.m.ñ là một trong các phần tử của họ {f (x;θ ), θ ∈ Ω}, i.e mẫu ñó ñược thành lập từ phân phối có h.m.ñ f (x;θ ), θ ∈ Ω Bài toán ñược ñặt ra là:
Tìm một thống kê T = u(X1, X2, , Xn) sao cho nếu (x1, x2, , xn) là một
mẫu cụ thể, thì số thực t = u(x1, x2, , xn) là một ước lượng ñiểm tốt cho θ
Trang 21.1 Định nghĩa Giả sử (X1, X2, , Xn) là mẫu ñược thành lập từ phân
phối có h.m.ñ f (x;θ ), θ ∈ Ω Một thống kê T = u(X1, X2, , Xn) không phụ
thuộc θ ñược gọi là một ước lượng ñiểm (nói gọn là một ước lượng) của tham
số θ nếu giá trị của nó tại một mẫu cụ thể ñược dùng ñể tính xấp xỉ θ Giá trị ñó ñược gọi là một giá trị ước lượng của θ
Các nhà thống kê ñã nêu lên một số tiêu chuẩn ñể chọn ước lượng tốt nhất
cho tham số θ
1.2 Định nghĩa Giả sử (X1, X2, , Xn) là mẫu ñược thành lập từ phân
phối có h.m.ñ f (x;θ ), θ ∈ Ω, và T = u(X1, X2, , Xn) là một ước lượng của θ
(a) T ñược gọi là một ước lượng không chệch của θ nếu E(T ) = θ
(b) Nếu T là một ước lượng không chệch của θ và D(T) không lớn hơn phương sai của bất kỳ một ước lượng không chệch nào khác của θ, thì T ñược gọi
là một ước lượng hiệu quả của θ
(c) T ñược gọi là một ước lượng vững của θ nếu nếu với mọi ε > 0,
n i n
Trang 3Giả sử (X1, X2, ., Xn) là một mẫu ñược thành lập từ BNN X có h.m.ñ
f (x;θ), θ ∈ Ω, tồn tại I(θ ), và T = u(X1, X2, , Xn) là một ước lượng không chệch của θ Khi ñó,
.I( )
σ ≥
• Như vậy, nếu tồn tại I(θ ) thì một ước lượng không chệch của θ sẽ là một
ước lượng hiệu quả của θ nếu nó có phương sai bằng .I( )1
n θ
Thí dụ Giả sử (X1, X2, , Xn) là một mẫu ñược thành lập từ BNN X có
phân phối chuẩn n(θ , σ2), θ ∈ Thống kê 1
1
n i n i
( ) 1
2 PHƯƠNG PHÁP TÌM ƯỚC LƯỢNG ĐIỂM
Có một số phương pháp ñể tìm hàm ước lượng tốt nhất cho một tham số θ như phương pháp moment, phương pháp hợp lý cực ñại, … Giáo trình này chỉ nêu phương pháp hợp lý cực ñại
2.1 Phương pháp họp lý cực ñại
Giả sử (X1, X2, , Xn) là mẫu ñược thành lập từ tổng thể X có h.m.ñ f (x; θ), θ ∈ Ω Giá trị của h.m.ñ của vectơ ngẫu nhiên (X1, X2, , Xn) tại một mẫu cụ
Trang 4Hàm L: θ ֏ L(θ ) xác ñịnh trên Ω ñược gọi là hàm hợp lý của X
Giả sử rằng chúng ta có thể tìm ñược một hàm u ño ñược trên n sao cho,
khi θ lấy giá trị u(x1, x2, , xn) thì hàm L ñạt cực ñại Khi ñó, thống kê u(X1,
X2, , Xn) ñược gọi là một ước lượng hợp lý cực ñại cho θ, và ñược ký hiệu là
ˆθ, i.e
ˆθ = u(X1, X2, , Xn)
u (x1, x2, , xn) ñược gọi là giá trị ước lượng hợp lý cực ñại cho θ
Chú ý: Nếu L > 0 thì hàm hợp lý L và lnL ñạt giá trị cực ñại tại cùng một ñiểm, nên ñôi khi người ta dùng lnL thay cho L
2.2 Thí dụ Cho (X1, X2, , Xn) là một mẫu ñược thành lập từ phân phối
chuẩn n(θ,1), θ ∈ Hãy tìm một ước lượng hợp lý cực ñại cho θ
Giải
Giá trị của h.m.ñ của vectơ ngẫu nhiên (X1, X2, , Xn) tại một mẫu cụ thể
(x1, x2, , xn) hay giá trị của hàm hợp lý L là:
Trang 5nên L ñạt cực ñại tại duy nhất ñiểm 1
1
n i n i
i n i
= ∑ là giá trị ước lượng hợp lý cực ñại cho θ
X cũng là một ước lượng không chệch, vững và hiệu quả của θ
2.3 Chú ý ( Trường hợp nhiều tham số )
Cho (X1, X2, , Xn) là một mẫu ñược thành lập từ tổng thể X có h.m.ñ phụ
Giả sử rằng chúng ta có thể tìm ñược các hàm ño ñược u1, u2, …, uk xác
ñịnh trên n sao cho, khi θ1, θ2, …, θk, theo thứ tự, lấy giá trị u1(x1, x2, , xn),
u2(x1, x2, , xn), …, u k (x1, x2, , xn) thì hàm L ñạt cực ñại Khi ñó, các thống kê
theo thứ tự, ñược gọi là một ước lượng hợp lý cực ñại cho θ1, θ2, …, θk
3 KHÁI NIỆM ƯỚC LƯỢNG KHOẢNG
Thông báo θ bằng giá trị ước lượng ñiểm t = u(x1, x2, , x n) mà không kèm
theo một ñộ chính xác thì thông báo ñó ít có giá trị vì t = u(x1, x2, , x n) cũng là
Trang 6một giá trị ngẫu nhiên ñược tính từ một mẫu ngẫu nhiên Do vậy, người ta phải dùng thêm phương pháp ước lượng khoảng
Giả sử, dựa vào mẫu (X1, X2, , Xn), chúng ta muốn ước lượng tham số θ của tổng thể Nếu tìm ñược hai thống kê T1 = u1(X1, X2, ., Xn) và T2 =
u2(X1, X2, , Xn) sao cho
P( T1 ≤ θ ≤ T2 ) = γ, với γ ∈ (0,1) cho trước thì khoảng (t1, t2), trong ñó t1 và t2 lần lượt là giá trị của T1 và T2 tại một
mẫu cụ thể, ñược gọi là Khoảng ước lượng của θθθθ với ñộ tin cậy γγγγ (hay nói
gọn là khoảng tin cậy γγγγ của θ ) α = 1 − γ ñược gọi là mức xác suất sai lầm của
khoảng ước lượng
4 KHOẢNG TIN CẬY CHO TRUNG BÌNH TỔNG THỂ
Giả sử tổng thể X tuân theo luật phân phối chuẩn N(µ, σ2), nhưng chưa biết kỳ vọng µ, i.e µ là một hằng số nào ñó mà giá trị của nó chưa ñược biết Chúng ta phải tìm khoảng ước lượng cho µ Phân biệt hai trường hợp
4.1 Trường hợp 1: Biết σσσ
Khi ñó, BNN U (X− µ) n
=
σ tuân theo luật phân phối N(0,1)
Cho trước γ ∈ (0, 1), có số c sao cho:
Trang 7e ñược gọi là Sai số ước lượng (ở ñộ tin cậy γ hay ở mức sai lầm a = 1 −
γ)
Giữa ñộ tin cậy γ, sai số cho phép và cỡ mẫu n có quan hệ mật thiết với nhau Nếu ñộ tin cậy γ càng lớn thì sai số càng lớn và do ñó ước lượng ít có giá trị Muốn giảm bớt sai số ước lượng mà không giảm ñộ tin cậy thì phải tăng cỡ mẫu n
Thí dụ: Giả sử khối lượng của mỗi nam sinh viên năm thứ nhất trường ñại
học A tuân theo luật phân phối chuẩn với ñộ lệch chuẩn 3kg Chọn ngẫu nhiên 25 nam sinh viên năm thứ nhất, người ta tính ñược khối lượng trung bình là 52 kg (1) Hãy tìm khoảng tin cậy 95% cho khối lượng trung bình của mỗi nam sinh viên năm thứ nhất trường ñại học A
(2) Với mẫu trên, nếu muốn bề rộng của khoảng ước lượng trung bình tổng thể là 1,8 kg thì ñộ tin cậy là bao nhiêu?
Với γ (0, 1) cho trước, lý luận tương tự như trên, khoảng ước lượng với
ñộ tin cậy γ cho µ là:
(x − e ; x + e), trong ñó e = 1
2
(n 1). s
n
t + γ− ,
Trang 8và
1
2
(n 1)
t + γ− là bách phân vị mức 1+ γ2 của phân phối t (n − 1)
Thí dụ Biết rằng chiều cao của các thanh niên cùng một lứa tuổi tuân theo
luật phân phối chuẩn Khảo sát ngẫu nhiên chiều cao của 80 thanh niên cùng lứa tuổi ñó, người ta tính ñược chiều cao trung bình là 162cm và ñộ lệch chuẩn là 14cm Hãy ước lượng chiều cao trung bình của mỗi thanh niên ở lứa tuỏi trên bằng khoảng tin cậy 92%,
4.3 Chú ý Trường hợp luật phân phối của tổng thể X chưa ñược biết,
các khoảng tin cậy trong 4.4.1 và 4.4.2 vẫn dùng ñược với ñiều kiện là cỡ mẫu n
phải khá lớn (n > 30) Có ñược ñiều này là do Định lý giới hạn trung tâm
4.4 Trường hợp mẫu nhỏ
Khi mẫu nhỏ (n < 30) và không biết luật phân phối của tổng thể X thì cả
phân phối chuẩn lẫn phân phối t ñều không dùng ñược trong việc xây dựng
khoảng tin cậy cho trung bình tổng thể Tuy nhiên, trong trường hợp này, bất
Với mọi k > 1 cho trước, chúng ta có:
Trang 9( ) 2
2 2
5 KHOẢNG TIN CẬY CHO TỈ LỆ TỔNG THỂ
Giả sử X ~ B(p) và chúng ta muốn tìm khoảng tin cậy cho p Với mẫu (X1,
X2, , Xn), nX = nP có phân phối B(n, p) Phân phối chuẩn sẽ ñược dùng như
một xấp xỉ của phân phối nhị thức trong việc xây dựng khoảng tin cậy cho tỉ lệ tổng thể p khi n ≥ 30, np ≥ 5 và n(1 − p) ≥ 5 Tuy nhiên, nhiều nhà thống kê toán
ñề nghị mẫu cỡ n ≥ 100
Áp dụng 5.4.1, khoảng tin cậy γ cho p là:
(p − e; p + e ), trong ñó p là giá trị tỉ lệ mẫu, và
1 2
Thí dụ Trong một ñợt ñiều tra về nha khoa, khám ngẫu nhiên 100 trẻ em
ở một ñịa phương, người ta thấy có 36 trẻ bị sâu răng Hãy tìm khoảng tin cậy 99% cho tỉ lệ trẻ bị sâu răng ở ñịa phương ñó
Giải
Gọi p là tỉ lệ trẻ bị sâu răng ở ñịa phương ñang khảo sát
Giá trị tỉ lệ trẻ em bị sâu răng trên mẫu :
p = 0,36
Chúng ta nhận thấy np = 36 > 5 và n(1− p) = 64 > 5 nên khoảng tin cậy
99% cho p là:
(p − e; p+ e ), với
Trang 10Trường hợp mẫu cỡ nhỏ, không thể xấp xỉ phân phối nhị thức bằng phân
phối chuẩn hoặc phân phối Poisson mà phải tính khoảng tin cậy cho từng trường
hợp cụ thể bằng phân phối nhị thức Vì phép tính phức tạp nên người ta ñã tính
sẵn và lập thành bảng Nhìn chung, trong trường hợp này, khoảng ước lượng quá rộng, ít có giá trị
6 KHOẢNG TIN CẬY CHO PHƯƠNG SAI TỔNG THỂ
Giả sử tổng thể X có phân phối chuẩn N(µ, σ2), trong ñó σ2 chưa biết và chúng ta nuốn tìm khoảng ước lượng cho σ2 với ñộ tin cậy γ (0 < γ < 1) cho trước
σ
=
= ∑
tuân theo luật phân phối χ2(n).
Với γ cho trước, có hai số a và b sao cho:
P (a < Yn < b) = γ Các số a, b như thế rất nhiều Người ta thường chọn a và b sao cho:
1 2
=
hay:
Trang 116.2 Trường hợp 2: Không biết µµµ
Trong trường hợp này, biến ngẫu nhiên
2 2
6.3.1 Để khảo sát tính chính xác của một cái cân, người ta ñặt quả cân
100g lên cân và ñọc kết quả do cân chỉ Lặp lại nhiều lần, người ta thu ñược các kết quả sau:
x k(g): 102 101 97 102 99 101 102 99 98 Tính chính xác của cân thể hiện qua phương sai Hãy tìm khoảng tin cậy 95% cho phương sai của cân
6.3.2 Cho biết khối lượng trẻ sơ sinh có phân phối chuẩn Một mẫu cỡ 20
cho giá trị trung bình mẫu bằng 2982g và giá trị phương sai mẫu bằng 209108 Tìm khoảng tin cậy 90% cho ñộ lệch chuẩn tổng thể
Giải
Gọi X là BNN chỉ khối lượng trẻ sơ sinh Theo giả thiết,
x = 2982 g và s2 = 209108 Với n = 20 và γ = 90%, chúng ta có:
(n − 1)s2 = 19 × 209108 = 3973052
Trang 12Khoảng tin cậy 90% cho phương sai tổng thể:
Khoảng tin cậy 90% cho σ là: ( 363,046; 626,666) (g)
7 KHOẢNG TIN CẬY CHO HIỆU HAI TRUNG BÌNH TỔNG THỂ (HAI MẪU ĐỘC LẬP)
Xét hai mẫu ñộc lập: Mẫu 1: (X1, X2, , Xn), ñặc tính X ~ N(µX,σ2X)
và mẫu 2: (Y1, Y2, , Ym), ñặc tính Y ~ N(µY,σY2) Tìm khoảng tin cậy cho (µX
7.2 Trường hợp 2: Không biết σσX và σσY , nhưng biết σσX = σσY
Khoảng tin cậy γ cho ( µX - µY ) là: ((x − y) – e; (x − y) + e), với
7.3 Thí dụ Để tìm hiểu về ảnh hưởng của việc lập kế hoạch trên thu nhập
của các ngân hàng, người ta chọn một mẫu ngẫu nhiên gồm 6 ngân hàng ñược lập
kế hoạch tài chính chính qui thì nhận thấy ñộ tăng bách phân trung bình hàng năm của thu nhập ròng là 9,972 và ñộ lệch chuẩn là 7,470 Một mẫu ngẫu nhiên ñộc lập với mẫu trên gồm 9 ngân hàng không có hệ thống lập kế hoạch chính qui thì
ñộ tăng này là 2,098 với ñộ lệch chuẩn là 10,384 Giả sử hai phân phối tổng thể là phân phối chuẩn có cùng phương sai Tìm khoảng tin cậy 90% hiệu giữa hai trung bình tổng thể
Giải
Trang 13Gọi X và Y, theo thứ tự, là BNN chỉ ñộ tăng bách phân hàng năm của thu nhập ròng của ngân hàng có lập kế hoạch tài chính chính qui và của ngân hàng không lập kế hoạch X và Y tuân theo luật phân phối chuẩn có cùng phương sai Theo giả thiết,
8 XÁC ĐỊNH KÍCH THƯỚC MẪU
Trong các bài toán về ước lượng khoảng cho tỉ lệ và trung bình tổng thể, chất lượng của ước lượng ñược phản ánh qua ñộ tin cậy và sai số cho phép Sai số ước lượng lại phụ thuộc vào kích thước mẫu và ñộ tin cậy Bài toán ñược ñặt ra như sau:
Để ñạt ñược ñộ tin cậy γ và sai số cho phép tối ña là ε, kích thước mẫu cần thiết phải là bao nhiêu?
Tuỳ theo từng tình huống cụ thể, từ biểu thức của sai số e tương ứng, chúng
ta tìm ñược kích thước mẫu n cần thiết Trong trường hợp chưa có mẫu thì người
ta tiến hành lấy mẫu thăm dò lần ñầu ñể có số liệu mẫu cần thiết
Chẳng hạn, ñể ước lượng tỉ lệ tổng thể p với ñộ tin cậy γ và sai số cho phép
tối ña là ε, người ta tiến hành lấy một mẫu thăm dò và tính ñược giá trị tỉ lệ mẫu
p Khi ñó, cỡ mẫu n1 phải tìm thỏa:
1
1 2
Trường hợp không có mẫu thăm dò thì người ta dùng giá trị lớn nhất của
hàm y = p(1 − p) trên khoảng (0, 1); giá trị ñó bằng 14 và kích thước mẫu cần thiết là số nguyên n1 thỏa:
1 2
Trang 14Thí dụ Biết chiều cao của những người cùng lứa tuổi có phân phối N(µ,
100) Muốn ước lượng chiều cao trung bình µ với sai số không quá 1cm ở ñộ tin cậy 95% thì phải quan sát ít nhất mấy người ?
(1,96) 100
384,161
Vậy, phải quan sát ít nhất 385 người
9 KHOẢNG TIN CẬY MỘT BÊN
Khoảng tin cậy mà chúng ta xây dựng ở trên, lấy x làm tâm của khoảng, ñược gọi là khoảng tin cậy hai bên Đôi khi, khoảng tin cậy một bên ñược dùng thay cho khoảng tin cậy hai bên Trường hợp này xảy ra nếu chúng ta chỉ quantâm ñến giá trị lớn nhất hoặc nhỏ nhất của trung bình (hoặc tỉ lệ) tổng thể với ñộ tin cậy γ cho trước Giả sử tổng thể có phân phối chuẩn
Chúng ta có kết quả tương tự cho khoảng tin cậy một bên cho tỉ lệ tổng
thể, với các giá trị tương ứng là:
Thí dụ Sản xuất thử 100 sản phẩm trên một dây chuyền tự ñộng, người ta
thấy có 60 sản phẩm ñạt tiêu chuẩn Hãy ước lượng tỉ lệ sản phẩm không ñạt tiêu chuẩn lớn nhất với ñộ tin cậy 95%
Giải
Giá trị tỉ lệ sản phẩm không ñạt tiêu chuẩn trên mẫu thăm dò là: p = 0, 4
Ở ñộ tin cậy 95%, tỉ lệ sản phẩm không ñạt tiêu chuẩn lớn nhất ñược xác ñịnh bởi:
(1 ) 0,4 0,6 0,95 p 100p 0, 4 1, 6449 100 0, 48058
Trang 15Vậy, Ở ñộ tin cậy 95%, tỉ lệ sản phẩm không ñạt tiêu chuẩn không lớn hơn 0,48058
XS T K
2008
BÀI TẬP
5.1 Giả sử rằng tuổi thọ của một loại bóng ñèn hình TV có ñộ lệch chuẩn
bằng 500, nhưng chưa biết trung bình Ngoài ra, tuổi thọ của loại bóng ñèn ñó tuân theo luật phân phối chuẩn Khảo sát trên một mẫu ngẫu nhiên gồm 15 bóng loại trên, người ta tính ñược tuổi thọ trung bình là 8900 giờ Hãy tìm khoảng tin cậy (a) 95% và (b) 92% cho tuổi thọ trung bình của loại bóng ñèn hình nói trên
5.2 Liên hệ bài 5.1 và giả sử phân phối của tổng thể chưa ñược biết Tuy
nhiên, trung bình mẫu bằng 8900 ñược tính trên mẫu cỡ n = 35 Hãy tìm khoảng tin cậy 95% cho tuổi thọ trung bình của loại bóng ñèn hình ñang khảo sát
5.3 Liên hệ bài 5.2 và giả sử rằng phân phối của tổng thể là phân phối
chuẩn, nhưng không biết ñộ lệch chuẩn tổng thể; tuy nhiên, biết giá trị ñộ lệch chuẩn mẫu bằng 500 Hãy tìm khoảng tin cậy 90% cho trung bình tổng thể
5.4 Liên hệ bài 5.1, nhưng không biết ñộ lệch chuẩn tổng thể Biết giá trị
ñộ lệch chuẩn mẫu bằng 500 Hãy tìm khoảng tin cậy 99% cho trung bình tổng thể
5.5 Khối lượng X của một sản phẩm do một nhà máy sản xuất tuân theo
luật phân phối chuẩn Lấy một mẫu ngẫu nhiên (không hoàn lại) gồm 10 phần trăm của một lô hàng gồm 300 sản phẩm của nhà máy ñó, người ta tính ñược x = 148,50 gam và s = 35,75 gam Tìm khoảng tin cậy 95% cho khối lượng trung bình của mỗi sản phẩm trong lô hàng nói trên Biết rằng chi phí ñể sản xuất 1 gam