CHƯƠNG IV ƯỚC LƯỢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ Chương này sẽ giới thiệu các dạng ước lượng cụ thể đối với số trung bình của một đặc trưng định lượng và xác suất của một đặc trưng
Trang 1CHƯƠNG IV ƯỚC LƯỢNG VÀ KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ
Chương này sẽ giới thiệu các dạng ước lượng cụ thể đối với số trung bình của một đặc trưng định lượng và xác suất của một đặc trưng định tính nào đó (tỷ lệ) trong một quần thể (hay công thức); đề cập đến việc kiểm định (so sánh) hai số trung bình của một đặc tính định lượng hay hai xác suất (hai tỷ lệ) của một đặc tính định tính của quần thể
A ƯỚC LƯỢNG
1 ĐẶT VẤN ĐỀ
Như chúng ta đã biết, đối tượng nghiên cứu trong nông nghiệp khá phức tạp, trong quá trình nghiên cứu không thể quan sát và đo đếm tất cả các cá thể có của quần thể (công thức) với những lý do sau:
- Không có điều kiện về nhân lực và thời gian để theo dõi
- Phải bảo vệ đối tượng nghiên cứu
Do đó phải tiến hành lấy mẫu ngẫu nhiên n cá thể mang tính đại diện để tiến hành nghiên cứu (quan sát hay đo đếm) Từ kết quả quan sát của mẫu đưa ra kết luận (đánh giá) cho toàn quần thể (công thức) Kết luận đưa ra được gọi là kết luận thống kê Nên từ quần thể quan sát đưa ra một kết luận (đánh giá) đối với độ lớn của trung bình (hay xác suất) thì ta có một ước lượng
Từ kết quả của mẫu suy ra kết quả của cả đám đông thì không tránh khỏi sai
số, chỉ có điều là khả năng và mức độ sai số là như thế nào? Nội dung của chương này sẽ nghiên cứu sai số và khả năng hạn chế sai số đó khi tiến hành ước lượng để đạt tới mong muốn cho phép mà thôi
2 CÁC PHƯƠNG PHÁP ƯỚC LƯỢNG
2.1 Ước lượng điểm
Ước lượng điểm của một tham số thống kê nào đó là dạng ước lượng mà từ kết quả quan sát của một mẫu lấy ngẫu nhiên mang tính đ ại diện của tổng thể, đưa
ra một con số và cho rằng con số đó là giá trị gần đúng tốt nhất cho tham số muốn biết
Thí dụ: Biến ngẫu nhiên X (định lượng hoặc định tính) có phân phối xác suất phụ
thuộc vào một tham số chưa biết Từ biến ngẫu nhiên này lấy một ngẫu nhiên n quan sát
Gọi xi là quan sát thứ i, còn xi là giá trị cụ thể của Xi Trong mẫu quan sát hàm f(X1, X2, Xn) được dùng để ước lượng Vấn đề đặt ra là chọn hàm nào?
Ký hiệu Qn = f (x1, x2, xn) là hàm ước lượng của Qn là một biến ngẫu nhiên có giá trị cụ thể q = f (x1, x2, xn) Vậy q là ước lượng điểm của
Trang 2 q (4.1)
Có thể tính được độ lệch chuẩn của Qn và ước lượng điểm lúc này sẽ là: q D Q n (4.2)
Trong đó D Q n là độ lệch chuẩn của Qn
Thí dụ: Tổng thể có phân phối chuẩn 2
,
là trung bình (kỳ vọng) chưa
biết cần ước lượng Lấy n quan sát x1, x2, xi, xn. Tính
n
x
x i và
n
s
s x như vậy có thể đưa ra được ước điểm của kỳ vọng
x
hoặc
n
s
x
(4.3)
2.2 Ước lượng khoảng
Ước lượng khoảng của một tham số thống kê nào đó là từ kết quả quan sát của mẫu đưa ra được giá trị tương ứng với một độ tin cậy nhất định Mọi giá trị nằm trong khoảng đó đều được coi là giá trị gần đúng tốt nhất của tham số
Giả sử là tham số cần ước lượng Nếu có q1 là giới hạn dưới và q2 là giới
hạn trên, là xác suất để mắc sai lầm thì ước lượng khoảng của được viết như sau:
P 1 2 1 (4.4)
Trong đó:
[q1 ; q2] là khoảng tin cậy của tham số
P : Gọi là độ tin cậy (thường lấy với xác suất lớn 0,95; 0,99 và 0,999)
1
- P (thường lấy xác suất nhỏ 0,05; 0,01 và 0,001)
3 ƯỚC LƯỢNG GIÁ TRỊ TRUNG BÌNH CỦA TỔNG THỂ (KHI CÁC ĐẶC TRƯNG NGHIÊN CỨU CÓ P HÂN PHỐI CHUẨN)
Do chỉ quan sát được n cá thể trong mẫu mà lại mong muốn đánh giá được của toàn công thức (cần biết trung bình của công thức hay còn gọi là kỳ vọng) Cho nên có thể xem xét cụ thể như sau:
3.1 Ước lượng trị số trung bình của tổng thể khi dung lượng mẫu n n30
Giả sử X có phân phối chuẩn N 2
,
, trong thực tế thì hầu như chúng ta không biết phương sai 2
mà chỉ tính được phương sai thống kê của mẫu s2 Vì vậy, khi dung lượng mẫu đủ lớn thì có thể coi 2 2
s
Theo tính chất của phân phối chuẩn chúng ta có:
Trang 3s
s x hay
n s
Vì vậy, khi phân phối của x là tiệm cận với phân phối chuẩn thì kỳ vọng hay trung bình tổng thể sẽ được xác định qua ước lượng điểm hoặc ước khoảng như sau:
Ước lượng điểm x s x và x
Ước lượng khoảng
xu s x xu s x1
P (4.5)
u là giá trị tra ở bảng 2 (phụ lục)
Nếu lấy độ tin cậy P là 0,95 thì u 1,96; P = 0,99 thì u 2,58 và P = 0,999 thì u 3,29
Tương tự sẽ suy ra khoảng tin cậy cụ thể như sau:
x1,96s x x1,96s x10,050,95
x2,58s x x2,58s x10,010,99
x3,29,s x x3,29s x10,0010,999
Thí dụ: Điều tra năng suất cá thể của một số giống cà chua xuân hè (kg/cây)với
mẫu n = 50 Từ đó có năng suất cá thể trung bình x 1 , 48kg; độ lệch chuẩn của năng suất là 0,35 kg/cây Hãy đưa ra ước lượng cho năng suất cá thể của c à chua điều tra nêu trên
Trước hết ta đưa ra ước lượng điểm có năng suất như sau
1,48 0,05
50
35 , 0 48 ,
Ước lượng khoảng ở độ tin cậy P = 0,95 gọi tắt là khoảng tin cậy sẽ là
95 , 0 05 , 0 1 50
35 , 0 96 , 1 48 , 1 50
35 , 0 96 , 1 48 ,
P
1,480,101,480,1010,050,95
P
Điều này có nghĩa với độ tin cậy 95%, năng suất cá thể của c à chua từ 1,38 đến 1,58 kg/cây
Nếu như 0 , 01 thì khoảng tin cậy được xác định là:
01 , 0 1 50
35 , 0 58 , 2 48 , 1 50
35 , 0 58 , 2 48 ,
P
P1,480,131,480,1310,01
Trang 41,35 1,6110,01
P
Năng suất từ 1,35 đến 1,61 kg/cây với độ tin cậy 99%
3.2 Ước lượng số trung bình quần thể khi dung lượng mẫu n < 30
Lúc này không thể coi phương sai chưa biết 2
là s2 được do đó phải dùng đến phân phối t (Student) Khoảng tin cậy của trị số trung bình có dạng như sau
Pxt(,df)s x xt(,df)s x 1 (4.6)
Ở đây giá trị t(,df) với df = n - 1 tra ở bảng phân phối t (bảng 4 phụ lục)
Thí dụ: Theo dõi năng suất của bắp cải trong thí nghiệm vụ đông xuân tại Đông
Anh Hà Nội, dung lượng mẫu điều tra n = 25, năng suất bình quân x 175 , 5 tạ/ha với độ lệch chuẩn s = 20,5 tạ/ha Hãy đưa ra kho ảng tin cậy 95% cho năng suất bắp cải vụ đông tại điểm nghiên cứu ở Đông Anh Hà Nội
Trước hết ta tra bảng t ở mức 0 , 05 với số bậc tự do
df = n - 1 và df = 25 - 1 = 24 Như vậy, giá trị t(0,05,df24)= 2,06
Khoảng sẽ được xác định như sau
25
5 , 20 06 , 2 5 , 175 25
5 , 20 06 , 2 5 ,
P167,1183,910,05 Hay viết gọn lại P ( 175 , 5 8 , 4) tạ/ha với mức ý nghĩa 0 , 05
4 XÁC ĐỊNH DUNG LƯỢNG MẪU KHI ƯỚC LƯỢNG
Như đã biết khoảng tin cậy với trung bình của quần thể phụ thuộc vào độ tin cậy và dung lượng mẫu Khi dung lượng mẫu lớn khoảng tin cậy trung bình có dạng
X
(4.7) Như vậy là sai số ước lượng và chúng ta muốn với càng nhỏ càng
tốt để khoảng tin cậy hẹp
n
s
u
( ) hoặc
n
s
t df
,
2 2
) (
2 2
) , (
n df (khi dung lượng mẫu nhỏ) Khi 0 , 05 thì u(0,05) 1 , 96 và có thể lấy 2
Còn giá trị t(0,05,df) 1 , 96 phụ thuộc vào độ tự do có thể tra trong bảng 4 phần phụ lục
Trang 5Vậy 4 2
n ct (4.8)
Ở đây có giá trị chứa đơn vị đo như các quan sát xi hoặc x Ta còn có thể tính được độ lớn n cần thiết khi cho trước một sai số ước lượng % qua công thức sau
2 2
2 2
2 2
%) ( ) (
000 40 10000
%) ( ) (
4
x
s x
s
n ct (4.9)
Thí dụ: Quan sát 10 cành cà phê chè Catimor trồng 2 năm Đếm số quả trên cành có
trung bình x121 quả/cành Độ lệch chuẩn s = 25 quả/cành Để số quả bình quân của vườn cà phê mong muốn ( 121 10 ) quả/cành (10quả/cành) thì dung lượng n = 10 như đã lấy thử đủ đảm bảo sai số đưa ra hay chưa với độ tin cậy 95%
n cần thiết cho 10 tính như sau
Do là giá trị số lượng nên cành 25
10
4 625 10
25 4
2
2
ct
Vậy để cho sai số của số quả/c ành là 10 quả/cành thì dung lượng n = 10 như
đã lấy thử là chưa đủ lớn mà phải lấy thêm ít nhất 15 cành nữa để tổng số cành quan sát n25
Nếu lại đưa ra % mong muốn là 5% thì
3 , 68 5
) 121 (
) 25 ( 000 40
2
2
ct
Như vậy, n = 10 còn quá nhỏ so với mong muốn để sai số ước lượng 5% Phải lấy thêm 59 cành nữa mới đủ chấp nhận sai số ước lượng nêu trên
5 ƯỚC LƯỢNG XÁC SUẤT CỦA TỔNG THỂ ( ƯỚC LƯỢNG TỶ LỆ)
Trong thực nghiệm sinh học, rất nhiều trường hợp phải nghiên cứu các xác suất hay tỷ lệ, như tỷ lệ sống của cây con sau khi đem từ vườn ươm trồng ra lô sản xuất, tỷ lệ bệnh, hoặc tỷ lệ mọc mầm của hạt
Thí dụ: Trong một quần thể có N cá thể (N rất lớn) và giả sử có M cá thể có
đặc tính A Như vậy, xác suất của A là p = M/N (đây là theo lý thuyết) Song ta không thể có điều kiện để tính p trực tiếp Vì vậy, phải lấy một mẫu ngẫu nhiên từ quần thể ấy Trong n phần tử của mẫu đếm được m phần tử có đặc tính A Vậy tần suất của đặc tính A trong mẫu sẽ là f = m/n
Để ước lượng xác suất p của các cá thể có đặc tính A cần phải xem xét các điều kiện cụ thể sau:
5.1 Khi sự kiện A có xác suất không gần 0 và 1
5.1.1 Khi dung lượng n đủ lớn (n > 100)
Trang 6Lúc này luật phân phối nhị thức, xác suất của A sẽ tiệm cận với luật phân phối chuẩn, như vậy
n
f f
s p ( 1 ) và biểu thức ước lượng điểm có thể viết như sau:
p
s f
p (4.10)
Hoặc p f (4.11)
Khoảng tin cậy của sự kiện A có xác suất p trong quần thể sẽ có dạng sau:
P(f u s p p f u s p) 1 (4.12)
Hoặc viết gọn như sau:
P(p f u s p) 1 (4.13)
Cụ thể:
p
s f
p 1 , 96 là khoảng tin cậy 95%
p
s f
p 2 , 58 là khoảng tin cậy 99%
p
s f
p 3 , 29 là khoảng tin cậy 99,9%
Thí dụ: Để dự đoán sâu đục quả cà chua vụ xuân hè 2002 tại Gia Lâm, Hà Nội, tiến
hành lấy ngẫu nhiên một mẫu n = 630 quả, trong đó 82 quả bị sâu đục Hãy đưa ra các ước lượng cho tỷ lệ sâu đục quả cà chua trong nghiên cứu trên
Do độ lớn n = 630 là lớn nên:
* Ước lượng điểm:
Gọi p là xác suất bị sâu đục quả của quần thể, f là tần suất của mẫu có quả bị sâu
f = 0 , 130 630
82
p = 0,130 hay 13,0%
Hoặc p = 0,130
630
) 130 , 0 1 ( 130 ,
= 0,130 0 , 0134 hay p = (13,0 1 , 34) %
* Ước lượng khoảng:
Nếu chọn mức ý nghĩa 0 , 05 thì tỷ lệ sâu đục quả cà chua nghiên cứu sẽ được xác định như sau:
p = f 1 , 96s p= 0,130 ( 1 , 96 0 , 0134 )
= 0,0134 0 , 0262 hay p = (13,0 2 , 62 ) %
Trang 7Với độ tin cậy 95% thì tỷ lệ cà chua bị sâu đục quả vụ xuân hè 2002 tại Gia Lâm, Hà Nội nằm trong khoảng từ 10,38% đến 15,62%
- Nếu chọn 0 , 01 thì khoảng tin cậy lúc này là:
P = 0,130 2,58S p 0 , 130 0 , 0346hay từ 9,54% đến 16,46%
- Nếu 0 , 001 thì khoảng sẽ thay đổi từ 8,59% đến 17,4%
5.1.2 Khi dung lượng n < 100 (không đủ lớn)
Do mẫu nhỏ nên không thể áp dụng hàm tiệm cận để ước lượng được mà phải dùng phân phối nhị thức Nhưng việc tính toán sẽ phức tạp nên các nhà toán học thống kê xác suất đã lập bảng tính sẵn cho độ lớn n từ 4 đến 100 (chỉ áp dụng cho khoảng 95% độ tin cậy) Khoảng này sẽ được tìm ở các bảng 6 (a, b, c) phần phụ lục
Bảng 6a áp dụng cho khoảng 95% của tỷ lệ mẫu bé (x = m)
Với 4 n 10
Bảng 6b với tỷ lệ của mẫu khi 10 n 100 và 0 m 25
Bảng 6c với tỷ lệ khi 60 n 100 và 26 m 50
Thí dụ: Áp dụng một biện pháp điều trị bằng thuốc hoá cho bệnh chảy gôm bưởi
thanh trà ta có kết quả sau:
Tiến hành xử lý ở n = 20 cây ; sau xử lý quan sát thấy có 5 cây khỏi bệnh và
15 cây khác không khỏi bệnh Vậy khoảng tin cậy 95% của khỏi bệnh là bao nhiêu?
* Nếu lấy ước lượng điểm thì ở đây xác suất (tỷ lệ) khỏi bệnh chảy gôm cây bưởi sẽ là:
p = f = 0 , 250
20
5
n
m
hay 25,0%
* Nếu tìm khoảng tin cậy 95% cho tỷ lệ khỏi bệnh sẽ dùng trong bảng 6 (b) tra tại cột 5 hàng 20
Hàng trên là p1 % = 8,7%
Hàng dưới là p2 % = 49,1%
Như vậy khoảng tin cậy 95% của tỷ lệ f =
20
5
sẽ là từ 8,7% đến 49,1% (khỏi bệnh chảy gôm cây bưởi)
5.2 Khi sự kiện A có xác suất gần 0 hoặc gần 1
Trong trường hợp này xác suất của A tuân theo luật Poisson (hay còn gọi là hàm phân phối xác suất của sự kiện hiếm) Dựa theo luật Poisson người ta đã lập một bảng tính sẵn để có ước lượng khoảng cho sự kiện A này Tuy nhiên, chỉ ứng với độ tin cậy 95% (bảng 7 phụ lục)
Trang 8Còn với ước lượng điểm thì cũng chỉ lấy gần đúng tốt nhất cho xác suất của tổng thể là xác suất của A trong mẫu quan sát
Thí dụ: Nghiên cứu ảnh hưởng của chiếu xạ lên hạt giống đến hiện tượng dị hình
của cây sau xử lý Mẫu xử lý có độ lớn n = 12500 hạt táo, sau đó đem gieo và theo dõi cây con Gọi A là hiện tượng dị hình, quan sát thấy có A = 105 cây Hãy đưa ra các dạng ước lượng cho kết quả xử lý trên về hiện tượng đột biến kiểu hình
Gọi p là xác suất hay tỷ lệ đột biến kiểu hình của liều lượng xử lý trên, kết quả thống kê mẫu có tần suất:
f 0 , 0084 12500
105
* Vậy ước lượng điểm của hiện tượng đột biến kiểu hình của liều lượng xử
lý trên p f % là 0,84%
* Ước lượng khoảng được xác định sẵn qua bảng 7 phụ lục Song, bảng chỉ cho hai giá trị np1 và np2 ứng với 95% độ tin cậy
P (p1.p2) = 1 – 0,05 với p1 p2 tính từ
p1 =
n
np1
và p2 =
n
np2
Trong trường hợp ở đây np1 và np2 phải được tra từ giá trị gần đúng sau: Trong bảng 7 chỉ có x = m nhiều nhất là 100 Từ giá trị m = 105 không có trong bảng Nên phải giảm (lùi 10 lần); m = 10,5 lấy gần đúng m = 11
Tra ở m = 11 (hàng 10 cột 1) có np1 = 0,025; np2 = 5,572
Muốn có p1 và p2 thì pi =
n
np i
Nhưng vì các giá trị np1 và np2 đều được tính lùi 10 lần nên lúc này n chỉ còn n = 1250 Từ đó
np1 = 5,5 và np2 = 19,7
p1 = 0 , 0044 1250
5 , 5
hay 0,44%
1250
7 , 19
hay 1,576% lấy gần đúng 1,58%
Vậy tỷ lệ đột biến kiểu hình của liều lượng xử lý này sẽ dao động từ 0,44% đến 1,58% với độ tin cậy 95%
Bài tập:
1 Điều tra năng suất ngô của 44 hộ nông dân ta có kết quả sau(tạ/ha) :
14; 38; 35; 42; 42; 36; 40; 36; 34; 36; 35; 36; 34; 42; 39; 39; 44; 37; 44; 36; 41; 43; 42; 42; 42; 43; 39; 43; 39; 44; 40; 43; 43; 35; 38; 39; 39; 42; 43; 37; 44; 40; 39; 43
Trang 9Hãy đưa ra các dạng ước lượng cho năng suất ngô của vùng điều tra nói trên (ước lượng điểm và ước lượng khoảng) với độ tin cậy 95% và 99%)
2 Đếm số hạt trên bông lúa của một giống ta có số liệu sau(hạt/bông):
120; 119; 116; 110; 121; 118; 106; 133; 123; 115; 112; 126; 109; 128; 123; 107; 132; 125; 106; 124
Hãy đưa ra các dạng ước lượng cho số hạt trên bông của giống lúa nói trên (ước lượng điểm và ước lượng khoảng) với độ tin cậy 95% và 99%
3 Người ta đã tiến hành theo dõitỷ lệ bật mầm các mắt ghép ở 200 cây ghép
đã cho thấy kết quả có 148 cây đ ã bật mầm Hãy đưa ra ước lượng điểm và ước lượng khoảng của hiện tượng bật mầm của mắt ghép nêu trên với độ tin cậy là 95%
và 99%
B KIỂM ĐỊNH G IẢ THUYẾT THỐNG KÊ
1 NHỮNG KHÁI NIỆM CHUNG VÀ Ý NGHĨA
Trong nghiên cứu thường phải so sánh các tham số thống kê như số trung bình, phương sai, xác suất của một mẫu với một tiêu chuẩn cho trước nào đó, hoặc 2 mẫu với nhau hay nhiều mẫu với nhau Thông thường các tham số có sự khác nhau (khác nhau về số học), nhưng ta lại cần xem xét sự sai khác này có rõ ràng hay không? ở mức độ nào?
Nếu chúng khác nhau trong phạm vi ngẫu nhiên thì sự khác nhau này được coi như không đáng kể (không có ý nghĩa) Nếu chúng khác nhau ngo ài phạm vi ngẫu nhiên thì kết luận sự khác nhau ấy là do tác động của nhân tố thí nghiệm
Để kiểm định người ta dùng các kết quả thực nghiệm quan sát ở mẫu với việc vận dụng công cụ toán học là lý thuyết xác suất để kiểm tra những giả thuyết
đã cho Nếu tài liệu thực nghiệm phù hợp với giả thuyết thì giả thuyết được chấp nhận Ngược lại thì giả thuyết bị bác bỏ Sự phù hợp mà ta nói ở đây không phải là tuyệt đối mà chỉ là nói phù hợp theo một tiêu chuẩn nào đó xác định trước đủ thỏa mãn những yêu cầu của thực tiễn
Trong nông học người ta thường so sánh (hay kiểm định) sự sinh trưởng, phát triển, diễn biến sâu bệnh hại cây trồng cũng như các chỉ tiêu năng suất được gieo trồng bằng những biện pháp kỹ thuật khác nhau để xem chúng có ảnh hưởng thực sự đến các chỉ tiêu nghiên cứu hay không?
2 TRƯỜNG HỢP HAI MẪU ĐỘC LẬP
Mẫu độc lập hay thí nghiệm độc lập là những khái niệm tương đối Theo nghĩa rộng người ta gọi mẫu độc lập hay thí nghiệm độc lập nếu một quá trình thực nghiệm nào đó được thiết kế một cách độc lập với những thí nghiệm khác
2.1 Tiêu chuẩn u của phân phối tiêu chuẩn
Nếu trong trường hợp kiểu phân phối lý thuyết đặc trưng cho 2 kết quả (2mẫu)
Trang 10nghiên cứu chưa biết thì yêu cầu dung lượng mẫu lấy phải được coi là đủ lớn (n1 >
30 và n2 > 30) Theo luật số lớn thì trong trường hợp mẫu lớn, phân phối xác suất của số trung bình mẫu X xấp xỉ luật chuẩn với kỳ vọng M X và phương sai
n
s
X
D
2
1
2 1 1
n N
2
2 2 2
n N
Giả thiết Ho: 1 2 hay 12 0
Đối thiết H1: 1 2 hay 12 0 (4.14)
2
2 2 1
2 1 2 1 2
n n N
x
(4.15)
Được kiểm định bằng tiêu chuẩn u của phân phối tiêu chuẩn với mức ý nghĩa
tính giá trị thực nghiệm như sau:
2
2 2 1
2 1
2 1
n n
x x
u tn
(4.16)
Nếu phương sai của 2 tổng thể không được biết trước và dung lượng mẫu đủ lớn thì có thể thay một cách gần đúng phương sai tổng thể bằng phương sai mẫu, có nghĩa là 2
1 2
1 s
2 2
2 s
Lúc này tiêu chuẩn phù hợp như sau:
2
2 2 1
2 1
2 1
n
s n s
x x
u tn
(4.17)
Nếu như u tn u tra ở bảng 2 phụ lục với mức ý nghĩa thì giả thiết Ho
được chấp nhận nghĩa là hai trung bình của hai mẫu bằng nhau Ngược lại nếu
u
u tn thì giả thiết bị bác bỏ nghĩa là hai trung bình của hai mẫu là khác nhau
Thí dụ: Đo chiều cao cây cuối cùng của hai giống lúa mới có kết quả như sau:
Giống I: Đo n = 42 khóm có chiều cao trung bình x195,2cm
Độ lệch chuẩn về chiều cao là s1 = 3,2 cm
Giống II: Đo n = 40 khóm có chiều cao trung bình x2 98,5cm