Bài giảng kiểm định giả thuyết thống kê Giảng viên Trần Thị Thu Hà Trường đại học Y dược Thái BìnhBài giảng kiểm định giả thuyết thống kê Giảng viên Trần Thị Thu Hà Trường đại học Y dược Thái BìnhBài giảng kiểm định giả thuyết thống kê Giảng viên Trần Thị Thu Hà Trường đại học Y dược Thái BìnhBài giảng kiểm định giả thuyết thống kê Giảng viên Trần Thị Thu Hà Trường đại học Y dược Thái Bình
Trang 1BÀI TOÁN KIỂM ĐỊNH
GIẢ THUYẾT THỐNG KÊ
GV ThS Trần Thị Thu Hà
Trường ĐHYDTB
Trang 2• Trình bày được các khái niệm về kiểm
định giả thuyết thống kê.
• Biết cách tiến hành kiểm định giả
thuyết thống kê
• Trình bày được các nguyên tắc chọn
test thống kê
• Áp dụng được các test thống kê phổ
biến trong nghiên cứu khoa học
Mục tiêu
Trang 3Một giả thuyết là một điều giả sử về:
Trang 4• Giả thuyết Ho là giả thuyết về không khác biệt
• Ví dụ: Chiều cao trung bình bằng 165 cm
(H 0 : µ = 165)
• Giả thuyết Ho là phủ định của giả thuyết nghiên
cứu Bắt đầu bài toán kiểm định với giả sử rằng giả thuyết H 0 là đúng
Giả thuyết “không”, H0
Trang 5• Là giả thuyết khác với H 0
Ví dụ: Chiều cao trung bình khác 165 cm
(H 0 : µ = 165 ; H 1 : m ≠ 165)
• Đối thuyết H 1 có thể được chấp nhận hoặc
bác bỏ
• Trong một vài tình huống, đối thuyết sẽ dễ
được xác định trước tiên.
Đối thuyết, H1
Trang 6Xây dựng giả thuyết
Câu hỏi nghiên cứu
Giả thuyết H 1
Trang 7Giả thuyết khoa học
• Câu hỏi nghiên cứu được đổi thành giả thuyết
– Giả thuyết không (H 0 )
– Đối thuyết/ Giả thuyết đối (H 1 )
Trang 8Bài toán kiểm định giả thuyết??
Trang 9Quyết định đúng Sai lầm loại II: ()
Trang 10• Kí hiệu:
Một vài giá trị cụ thể thường gặp: 0.01,
0.05, 0.10,…
• Được chọn bởi người nghiên cứu ngay
lúc bắt đầu tiến hành kiểm định.
Trang 12• Là giá trị xác suất nhỏ nhất mà H 0 có thể
bị bác bỏ : p-value = P(H 1 / H 0 )
• Không trực tiếp cho ta kết luận về giả thuyết mà
chỉ gián tiếp cho ta kết luận về việc chấp nhận
Trang 13Các loại kiểm định?
1 Kiểm định tham số là công cụ xử lý các
dữ liệu dạng định lượng có phân phối
chuẩn.
2 Kiểm định phi tham số là công cụ xử lý
các dữ liệu định lượng không có phân
phối chuẩn, dạng định danh và thứ bậc
Trang 14Kiểm định tham số đòi hỏi một số giả định:
1 Các nhóm quan sát phải độc lập với nhau.
2 Các nhóm quan sát phải được rút ra từ các
đám đông có phân phối xác định (chuẩn, nhị thức, )
3 Các nhóm quan sát phải có phương sai tương
đương.
4 Các mẫu ngẫu nhiên
Các loại kiểm định
Trang 15Kiểm định phi tham số ít đòi hỏi các giả định:
– Không đòi hỏi các quan sát phải được rút ra từ các đám đông có phân phối chuẩn.
– Không đòi hỏi các nhóm phải có phương sai tương đương.
– Là cách duy nhất để xử lý dữ liệu định danh.
– Là cách đúng đắn để xử lý dữ liệu với thang đo thứ
tự (ordinal), mặc dù kiểm định tham số có thể áp
Các loại kiểm định
Trang 16não giữa 2 nhóm bệnh nhân
• Huyết áp phụ thuộc vào tuổi
và giới như thế nào
• Tỷ lệ mắc bệnh tim mạch có liên quan đến hút thuốc lá, chế độ ăn như thế nào
Trang 17Tiến trình kiểm định giả thuyết thống kê????
Trang 18Bước 1: Hình thành giả thuyết Bước 2: Chọn test thích hợp
Bước 3: Quyết định
Các bước kiểm định giả thiết
Trang 19Làm thế nào chọn được test thống kê thích hợp?
Trang 20Mục tiêu và kiểu của các câu hỏi nghiên cứu
So sánh nhómQuan hệ giữa các biến
Thống kê khác biệt ( t-test, ANOVA….) Thống kê liên quan
(tương quan,
Lựa chọn kiểm định giả thuyết
Trang 21So sánh, tìm sự khác biệt biến định lượng
Phân bố không chuẩnPhân bố chuẩn
2 nhóm nhóm>2
Đ.lập:
Whitney test
Mann-Gh cặp:
Sign test,
Wallis test
Kruskal-2 nhóm
CI, ttest đlập ttest g.cặp
Sign test, Wilcoxon signed- rank test
Trang 22So sánh, tìm sự khác biệt biến định tính
Trang 23So sánh số trung bình quan sát với số TB lý thuyết
Bước 1: Thiết lập giả thuyết
Bước 2: Giả sử mẫu ngẫu nhiên được chọn từ tổng thể cá phân
phối chuẩn với kỳ vọng µ chưa biết và các quan sát là độc lập với nhau
Trang 24Ví dụ: Kết quả điều tra y tế quốc gia cho thấy cân nặng trung bình của trẻ em lúc mới sinh là 3250g Các nhà quản lý y tế của tỉnh A quyết định tiến hành nghiên cứu trên 30 trẻ mới sinh tại các cơ
sở y tế của tỉnh Kết quả nghiên cứu cho thấy cân nặng trung bình là 2950g và độ lệch chuẩn là 350g (giả sử cân nặng trẻ sơ sinh có phân phối chuẩn) Hỏi cân nặng trung bình của trẻ sơ sinh của tỉnh A
có giống cân nặng trung bình của trẻ sơ sinh toàn quốc không ở mức ý nghĩa 0,05?
So sánh số trung bình quan sát với số TB lý thuyết
Trang 25Giả sử nghiên cứu 2 mẫu với kích thước tương ứng là nA và nB từ
2 tổng thể có phân phối chuẩn có phương sai chưa biết
Nếu : Chấp nhận giả thuyết H0
Nếu : Bác bỏ giả thuyết H F F .
S
S
Kiểm định sự khác biệt về hai phương sai
Bước 1 : Thiết lập giả thuyết
Bước 2: Tính
Bước 3: Quyết định:
Trang 26So sánh hai số trung bình qs trên hai mẫu độc lập
Bước 1: Thiết lập giả thuyết
Bước 2: Xác định phép kiểm định trong các trường hợp:
TH1: 12; 22 đã biết TH2: 2 2 chưa biết, mẫu lớn
Trang 27TH3: Mẫu nhỏ với phương sai chưa biết nhưng biết bằng
Trang 28Kiểm định sự khác biệt về hai số trung bình
Trang 29Ví dụ: Theo dõi thời gian bắt đầu có tác dụng của hai loại thuốc A và B trên hai nhóm bệnh nhân Kết quả như sau Hỏi thời gian bắt đầu có tác dụng của hai loại thuốc có như nhau không?
Thuốc A:
44 51 52 55 60 62 66 68 69 71 71 76 82 91 108 Thuốc B:
52 64 68 74 79 83 84 88 95 97 101 116
So sánh hai số trung bình qs trên hai mẫu độc lập
Trang 30n m
Trang 31Ví dụ: Một cuộc điều tra sau tiêm phòng lao được tiến hành trên 200 trẻ Những trẻ này được chọn ngẫu nhiên từ quần thể A Kết quả cho thấy 176 trẻ có sẹo lao Hỏi tỉ lệ tiêm phòng lao trong quần thể có khác so với chỉ tiêu đề ra là 80%?
So sánh tỉ lệ
Trang 32Ví dụ: Một nghiên cứu về dinh dưỡng tại một bệnh viện như sau: trong 55 bệnh nhân bị tăng huyết áp có 24 bệnh nhân giảm muối và trong
149 bệnh nhân không bị tăng huyết áp có 36 bệnh nhân giảm muối Vậy có thể kết luận rằng
tỷ lệ giảm muối trên bệnh nhân tăng huyết áp khác với bệnh nhân không bị tăng huyết áp không?
So sánh tỉ lệ
Trang 33Bài toán tổng quát: Giả sử ta cần xem xét mối quan hệ giữa 2 đại lượng ngẫu nhiên X, Y Giả sử X nhận r giá trị (r khoảng); Y nhận s giá trị (s khoảng); Ta biểu diễn dưới dạng bảng gồm r hàng và s cột.
Gọi nij là số quan sát tương ứng với hàng thứ i và cột thứ j.
ni: tổng quan sát ở hàng thứ i (i= 1, ,r)
mj: tổng quan sát ở cột thứ j (j= 1,…,s)
Kiểm định khi bình phương (Kiểm định về sự độc lập, sự liên hệ)
Trang 35Bước 1: Đặt giả thuyết
Ho: Không có mối quan hệ giữa hai tiêu thức
H1: Có mối quan hệ giữa hai tiêu thức Bước 2: Tính giá trị kiểm định khi bình phương
Giá trị lý thuyết của mẫu quan sát thứ ij:
Giá trị kiểm định khi bình phương
i j ij
n m M
Trang 36Bước 3: Tra bảng khi bình phương với bậc tự do
(r-1)(s-1) và mức ý nghĩa α và kết luận Nếu : Chấp nhận giả thuyết H 0 Nếu : Bác bỏ giả thuyết H 0
Trang 37Ví dụ: Một nghiên cứu về dinh dưỡng tại một bệnh viện như sau: trong 55 bệnh nhân bị tăng huyết áp có 24 bệnh nhân giảm muối và trong
149 bệnh nhân không bị tăng huyết áp có 36 bệnh nhân giảm muối Vậy có thể kết luận rằng hiện tượng giảm muối và tăng huyết là độc lập với nhau không?
Kiểm định khi bình phương (Kiểm định về sự độc lập, sự liên hệ)
Trang 38BÖnh (Y) Tæng Phơi nhiễm
Kiểm định khi bình phương với bảng 2x2
Công thức tính nhanh Hiệu chỉnh liên tục Yates
Trang 39Hai biến tiêm vắc xin và mắc cúm độc
lập hay liên quan với nhau ???
Kiểm định khi bình phương (Kiểm định về sự độc lập, sự liên hệ)
Trang 40Vắc xin Placebo Tổng Cúm 52,2 47,8 100
Tần số kỳ vọng
(Expected)
Kiểm định khi bình phương (Kiểm định về sự độc lập, sự liên hệ)
Trang 41Tương quan giữa hai biến định tính
Trang 42Ví dụ: Tuổi và kết quả học tập phân theo nhóm tuổi
Kiểm định khi bình phương (Kiểm định về sự độc lập, sự liên hệ)
Trang 43Bước 1: Đặt giả thuyết
Ho: Kết quả học tập không phụ thuộc vào nhóm tuổi
H1: Kết quả học tập phụ thuộc vào nhóm tuổi Bước 2: Tính giá trị kiểm định khi bình phương
Giá trị lý thuyết của mẫu quan sát thứ ij trong bảng
Giá trị kiểm định khi bình phương
i j ij
n m M
Trang 44Bước 3: Tra bảng khi bình phương với bậc tự do
(r-1)(s-1)=3 và mức ý nghĩa α ta được Kết luận:
Bác bỏ giả thuyết Ho; chấp nhận giả thuyết H 1. Có mối
quan hệ giữa tuổi và kết quả học tập
Trang 45Kiểm định McNEMAR
Là một biến thể của χ2 test với 1 độ tự
do Được sử dụng khi số liệu ở dạng cặp đôi và được đo lường ở thang định danh.
Một số kiểm định phi tham số
Trang 46Kiểm định SPEARMAN RHO
Spearman rho test được sử dụng để đo
lường mối liên quan giữa hai đại lượng
nghiên cứu Spearman rho test được sử
dụng khi ít nhất 1 trong 2 biến số khảo sát được đo lường ở thang thứ tự.
Một số kiểm định phi tham số
Trang 47Kiểm định dấu (SIGN TEST)
Kiểm định dấu được sử dụng để so sánh hai
số trung vị Kiểm định dấu thường được sử dụng để đánh giá số liệu ở dạng cặp đôi
(matched pairs) của 1 mẫu khảo sát Sign test không đòi hỏi dân số khảo sát phải là phân phối bình thường
Một số kiểm định phi tham số
Trang 48Kiểm định MANN-WHITNEY
Khi so sánh các mẫu độc lập mà các giả định để
được sử dụng student’s t test không thỏa thì Whitney Wilcoxon test (Mann-Whitney U test) là lựa chọn thay thế Trong test này, số trung vị của 2 dân số, X và Y, được so sánh với nhau Test sử dụng các thứ hạng (ranks) của những giá trị đo được từ 2
Mann-Một số kiểm định phi tham số
Trang 49Kiểm định KRUSKAL-WALLIS
Khi so sánh các mẫu độc lập mà các giả định của test One-way ANOVA không thỏa mãn thì Kruskal-Wallis
là lựa chọn thay thế Kruskal-Walis test đòi hỏi các
mẫu phải độc lập và có ≥ 3 nhóm Trong test này, số trung vị của các dân số được so sánh với nhau Test sử dụng các thứ hạng của những giá trị đo được từ các mẫu và sắp xếp lại như trong 1 mẫu.
Một số kiểm định phi tham số