1 Kiểm định giả thuyếtKiểm định tính độc lập Giả thuyết không và đối thuyết Kiểm định giả thuyết là bài toán đi xác định có nên chấp nhận hay bác bỏ một khẳng định về giá trị của một tha
Trang 11 Kiểm định giả thuyết
Kiểm định tính độc lập
Giả thuyết không và đối thuyết
Kiểm định giả thuyết là bài toán đi xác định có
nên chấp nhận hay bác bỏ một khẳng định về giá
trị của một tham số của tổng thể.
Giả thuyết không, ký hiệu H 0 , là một giả định
thăm dò về tham số của tổng thể.
Đối thuyết, ký hiệu H 1 , là khẳng định có trạng
thái đối lập với giả thuyết.
Chúng ta sẽ quyết định bác bỏ giả thuyết H 0 nếu
xác suất xuất hiện của một sự kiện quan sát được
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/20104
Giải
Giả thuyết
Ta cần tính xác suất của giá trị trung bình >295
ngày hoặc <275 ngày (nghĩa là 10 ngày).
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
Trang 2Biểu đồ phân bố xác suất
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
7
275
0.159
295 0.159
Giả sử rằng thời gian mang thai quan sát được ở
giống bò mới là 305 ngày
Biểu đồ phân bố xác suất
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
1 2
265 0.0228
305 0.0228
Trang 3Kết luận
Đây là một xác suất nhỏ (1/20)
hơn có ý nghĩa so với 285 ngày.
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
Rất khó để kiểm soát được sai lầm loại II.
Trong kiểm định, để hạn chế gặp phải sai lầm loại
II, người ta thường sử dụng khẳng định “không
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
1 6
Kết luận Thực tế
Chấp nhận Ho Bác bỏ Ho
H 0 đúng Quyết định đúng Sai lầm loại I
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
1 7
Chương 4
Tổng quan
Kiểm định một mẫu
Kiểm định hai mẫu
Kiểm dịnh sự phù hợp giữa lý thuyết và thực
nghiệm
Kiểm định tính độc lập
Kiểm định giá trị trung bình – Các bước
1 Xây dựng giả thuyết (kiểm định 2 phía).
H 0 : = 0
2 Xác định mức ý nghĩa (thường là 0.05).
3 Lấy mẫu và tính giá trị thống kê của kiểm định
4 Dùng giá trị thống kê kiểm định để tính P-value.
5 Kết luận
• Nếu P-value < Bác bỏ H 0
• Nếu P-value > Không bác bỏ H 0
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
1 8
Trang 4s
/2 = 025
Phân phối mẫu của
Kiểm định z (z test) – đã biết s
Thời gian mang thai của bò có phân bố chuẩn x ~
Kiểm định z (z test) – s đã biết
Nếu độ lệch chuẩn trong trường hợp này cũng là
10 ngày
Như vậy có bằng chứng nào cho thấy trung bình
thời gian mang thai của giống bò mới là khác với
Thời gian mang thai của giống bò mới có giá trị
trung bình lớn hơn có ý nghĩa so với 285 ngày
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
2 4
Trang 5Bảng xác suất của phân bố chuẩn tắc
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
2 5
Áp dụng Minitab
Khi thử nghiệm thuốc gây mê trên chó, người ta muốn kiểm tra xem mức độ epinephrine huyết thanh trong máu khi dùng phương pháp gây mê mới có khác biệt so với phương pháp cũ không
Phương pháp cũ cho kết quả: trung bình = 0.4
Phương pháp mới cho kết quả trên 1 mẫu:
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
• Stat > Basic Statistics > Descriptive Statistics …
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
Trang 6Kiểm tra tính phân bố chuẩn
• Graph > Boxplot …/Simple
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
3 1
Kiểm định Z
• Stat > Basic Statistics > 1-sample Z…
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
Mức epinephrine huyết thanh trong máu tăng có
ý nghĩa sau khi dùng phương pháp gây mê mới
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
3 5
Kiểm định t (t-test) – không biết s
Thời gian mang thai của bò có phân bố chuẩn x ~
Trang 7Kiểm định t (t-test) – không biết s
Giả định trong trường hợp ta không biết phương
sai mẫu
Kết quả phân tích sẽ như thế nào?
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
Thời gian mang thai của giống bò mới có giá trị
trung bình lớn hơn có ý nghĩa so với 285 ngày
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
Khoảng tin cậy của trung bình tổng thể ()
Kiểm định giả thuyết cho ta biết dữ liệu phù hợp hay không phù hợp với một giá trị trung bình xác định
Câu hỏi tiếp theo là khoảng giá trị nào của phù hợp với trung bình mẫu ?
Công việc cần làm là tìm ra khoảng có chứa giá trị .
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
4 2
Trang 8Tính khoảng tin cậy 95% (95%CI)
Trường hợp 1 Phương sai mẫu không khác so
với phương sai tổng thể.
Tính khoảng tin cậy 95% (95%CI)
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
Kiểm định hai mẫu
Kiểm dịnh sự phù hợp giữa lý thuyết và thực
nghiệm
Kiểm định tính độc lập
Kiểm định 2 mẫu
1 Hai mẫu độc lập, phương sai bằng nhau
2 Hai mẫu độc lập, phương sai không bằng nhau
3 Hai mẫu liên hệ - so sánh cặp
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
4 6
Hai mẫu độc lập, Phương sai bằng nhau
Thí dụ: So sánh trọng lượng của hai giống bò.
Dữ liệu thống kê mô tả cho thấy
Liệu có sự sai khác về trọng lượng giữa hai giống
bò nầy hay không?
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/ 2011
4 7
Giống 1 Giống 2
Độ lệch chuẩn mẫu (kg) 10.62 12.30
Hai mẫu độc lập, Phương sai bằng nhau
Số liệu thu thập được có dạng:
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/ 2011
4 8
Trang 9Hai mẫu độc lập, Phương sai bằng nhau
Trong trường hợp này người ta thường dùng
phương pháp kiểm tra t gộp để so sánh hai trung
bình mẫu
Các yêu cầu:
(1) Phương sai hai mẫu phải hoàn toàn độc lập,
không ràng buộc lẫn nhau.
nhỏ (n < 30).
(3) Phương sai của hai nhóm mẫu phải bằng nhau
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
4 9
So sánh phương sai hai mẫu
Cách 1: tỉ lệ giữa hai độ lệch chuẩn <1.5
Cách 2 Kiểm tra F (F test)
Stat > Basic Statistic >/ 2 Variances
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/201150
Vì P > 0.05 nên có thể xem như phương sai của
hai mẫu bằng nhau
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
53
2
1
22 20 18 16 14 12
10
8
6
Test Statistic 0.74P-Value 0.631F-Test
Test for Equal Variances
Trang 10thì t = 9.46 thuộc phân bố t với độ tự do =25.
Giá trị P cho kiểm định t là:
P (hai đuôi) < 0.05 giả thiết H 0 bị bác bỏ
về mặt thống kê với độ tin cậy 95%
Trang 11Khoảng tin cậy 95%
Như vậy có đến 95% cơ hội đúng khi cho rằng sự
khác biệt giữa hai trung bình mẫu nằm trong
• Độ lệch chuẩn
• Phân bố chuẩn
Kiểm định t Nhận xét và kết luận
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2010
6 2
Kiểm tra các điều kiện
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
6 3
220 210 200 190
180
Median
Mean
205 200 195
190
1st Q uartile 188.25Median 195.503rd Q uartile 202.57Maximum 221.10189.43 202.92188.28 202.557.52 18.02
A -S quared 0.30P-V alue 0.530Mean 196.17StD ev 10.62
V ariance 112.70
Sk ew ness 0.95961Kurtosis 1.81461
Minim um 180.30
A nderson-D arling N ormality T est
95% C onfidence Interv al for M ean95% C onfidence I nterval for Median95% C onfidence Interval for S tD ev
9 5 % C onf ide nce Inter v als
Summary for Group A
Kiểm tra các điều kiện
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
6 4
180 170 160 150 140
Median Mean
165 160 155 150 145
1st Q uartile 146.20Median 151.203rd Q uartile 163.50Maximum 181.80146.89 160.51146.24 163.099.01 19.40
A -S quared 0.36
P -V alue 0.407Mean 153.70
S tDev 12.30
V ariance 151.32
S kew ness 0.666732Kurtosis 0.317929
Minim um 135.30
A nderson-Darling Normality Test
95% C onfidence Interv al for M ean95% C onfidence Interv al for M edian95% C onfidence Interv al for S tDev
9 5 % C onfidence Inter v als
Summary for Group B
Trang 12Kiểm định t gộp
Two-sample T for Group A vs Group B
N Mean StDev SE Mean
Group A 12 196.2 10.6 3.1
Group B 15 153.7 12.3 3.2
Difference = mu (Group A) - mu (Group B)
Estimate for difference: 42.48
95% CI for difference: (33.23, 51.72)
T-Test of difference = 0 (vs not =):
T-Value = 9.46 P-Value = 0.000 DF = 25
Both use Pooled StDev = 11.5901
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
6 7
Hai mẫu độc lập, Phương sai không bằng nhau
Thí dụ: So sánh % tăng trọng lượng của cóc và ếch sau 2 giờ nhúng ngập nước.
Dữ liệu thống kê mô tả cho thấy
Cóc hay ếch thu nhận nước nhiều hơn?
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/ 2011
Khoảng tin cậy
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
7 0
1 ) / ( 1 ) / (
) / ( ) / (
2
2 2 2 1
2 1 2
2 2 2 1 2
n s
n s n s df
) / / ( 2 1 2 2
2 1
n s n s
x x t
) / ( ) / (
1 2 2 / 2
Trang 14Mô tả dữ liệu
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
7 9
Mô tả dữ liệu
Kết quả hiển thị trong cửa sổ session
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/201180
Mô tả dữ liệu
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
81
Kiểm định
Stat > Basic Statistics > 2-sample t…
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/201182
Trang 15Nhận xét và kết luận
Qua kết quả phân tích ta thấy P = 0.009 < 0.05
chứng tỏ cóc thu nhận nhiều nước hơn ếch.
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
85
Hai mẫu liên hệ - So sánh cặp
Thí dụ: để so sánh 2 khẩu phần vỗ béo cho heo:
• một khẩu phần bình thường (khẩu phần A)
• một khẩu phần có bổ sung Cu (khẩu phần B)
Tiến hành ở 15 nông trại, mỗi nông trại bố trí hai chuồng heo giống nhau, hai khẩu phần ăn được phân bố ngẫu nhiên và đồng đều vào hai chuồng
Tăng trọng trung bình (lb/ngày) của heo ở mỗi chuồng được ghi nhận
Sự bổ sung Cu trong khẩu phần ăn có ảnh hưởng đến tăng trọng trung bình của lợn hay không?
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/201186
Hai mẫu liên hệ - So sánh cặp
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
87
Hai mẫu liên hệ - So sánh cặp
Ở thí dụ trên, nếu tiến hành theo phương pháp so sánh hai mẫu độc lập, chúng ta sẽ bỏ sót một nguồn biến động quan trọng là nông trại
Trong trường hợp này phương pháp tốt nhất là so
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/201188
Nông trại Sai khác d
Hai mẫu liên hệ - So sánh cặp
Sự sai khác giữa hai khẩu phần ăn là:
d = khẩu phần B – khẩu phần A
Nếu sự bổ sung Cu không có ảnh hưởng thì trung
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
Trang 16Công thức tính
/
với độ tự do df = n – 1
Khoảng tin cậy 95%
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
9 1
/2 1
Như vậy ta có thể kết luận rằng sự bổ sung Cu (khẩu phần B) làm tăng trọng có ý nghĩa ở mức trung bình là 0.09 lb/ngày
Áp dụng Minitab
Nhập liệu Kiểm định
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
9 5
Áp dụng Minitab
Stat > Basic Statistics > Paired t…
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
9 6
Trang 17Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
1 01 1 02 Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
Chương 4 Tổng quan Kiểm định một mẫu Kiểm định hai mẫu
Kiểm dịnh sự phù hợp giữa lý thuyết và thực nghiệm
Kiểm định tính độc lập
Trang 18Kiểm định “Khi bình phương”
Kết luận: tần suất LT và tần suất TN khác biệt có
ý nghĩa với độ tin cậy 95%.
Một nhà di truyền học tiến hành phép lai giữa hai
gồm
• 130 có kiểu hình hoang dại
• 46 có kiểu hình đột biến
Liệu kết quả thu được có phù hợp với tỉ lệ 3 trội :
1 lặn theo định luật phân ly của Mendel hay
Trang 19Nói cách khác ta có thể kết luận rằng kết quả thu được phù hợp với tỉ lệ phân ly 3:1 theo định luật Mendel.
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
Trang 20Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
1 15
Chương 4
Tổng quan
Kiểm định một mẫu
Kiểm định hai mẫu
Kiểm định sự phù hợp giữa lý thuyết và thực
Sau một thời gian, có 38 chuột bị chết:
• 13 con có tiêm kháng huyết thanh
• 25 con không tiêm kháng huyết thanh
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
1 16
Thí dụ 1
Các dữ liệu được trình bày trong bảng tiếp liên
(contingency table) 2 x 2.
Câu hỏi: Tỉ lệ chết của chuột giảm do tiêm kháng
huyết thanh hay ngẫu nhiên?
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011
vào việc tiêm kháng huyết thanh.
H 1 : khả năng sống của chuột nhờ vào việc
tiêm kháng huyết thanh
Thống kê Sinh học (Biostatistics) – Bùi Tấn Anh – Khoa Khoa học Tự Nhiên 12/11/2011