Nov.30 Nội dung bài học • Mục đích của phân tích phương sai ANOVA • Sai lầm loại I và nhiều kiểm định giả thuyết • Logic của ANOVA • Khái niệm và công thức ANOVA • Các bước tiến hành kiể
Trang 1PHÂN TÍCH
BỘ MÔN DỊCH TỄ - THỐNG KÊ
Trang 21 Hiểu được mục đích tiến hành phân tích
phương sai
2 Biết cách tiến hành kiểm định phân tích
phương sai một chiều (one way ANOVA)
Trang 3Nov.30
Nội dung bài học
• Mục đích của phân tích phương sai (ANOVA)
• Sai lầm loại I và nhiều kiểm định giả thuyết
• Logic của ANOVA
• Khái niệm và công thức ANOVA
• Các bước tiến hành kiểm định ANOVA
• Mối quan hệ giữa ANOVA và kiểm định t hai mẫu
Trang 4• Để so sánh giá trị trung bình của nhiều nhóm
• Giống như kiểm định t, ANOVA được sử dụng khi biến độc lập là biến phân loại (vd: nhóm điều trị) và biến phụ thuộc là biến liên tục (vd: huyết áp)
• Kiểm định t hai mẫu được sử dụng khi chỉ có hai nhóm so sánh ANOVA được sử dụng khi có hai hoặc nhiều hơn hai nhóm
Trang 5• Biến độc lập là một biến mà giá trị của nó độc lập với sự thay đổi của những biến khác
• Biến phụ thuộc là một biến mà sự thay đổi các giá trị của nó được xác định bởi sự thay đổi của một hoặc nhiều biến độc lập
• Trong phân tích phương sai (ANOVA), một biến độc lập được gọi là một yếu tố (ví dụ: loại thuốc điều trị)
• Các nhóm hình thành nên biến độc lập được gọi là mức độ của yếu
tố đó (ví dụ liều thấp, liều cao, nhóm chứng)
• ANOVA chỉ xem xét một biến độc lập (một yếu tố) gọi là phân tích phương sai một chiều
• ANOVA xem xét nhiều hơn một yếu tố được gọi là factorial
ANOVA (ví dụ Nhóm điều trị và giới tính)
Trang 6Ví dụ
Một nhà tâm lý học muốn tìm hiểu chất lượng học tập dưới ba điều kiện nhiệt độ khác nhau: 15 o , 25 o , 35 o Các đối tượng nghiên cứu được phân bổ ngẫu nhiên vào ba điều kiện học tập tương ứng với ba nhóm nhiệt độ trên Họ được giảng về một chủ đề nhất định và sau đó được kiểm tra
Trang 71 2 2 0 0
Trang 8Nhiều kiểm định giả thuyết
Q: Tại sao không sử dụng ba kiểm định t hai mẫu?
So sánh mẫu 15 o với mẫu 25 o
So sánh mẫu 15 o với mẫu 35 o
So sánh mẫu 25 o với mẫu 35 o
Trang 9Sai lầm loại I và nhiều kiểm định
Với α = 0,05, có 5 % nguy cơ mắc sai lầm loại I.
Do vậy, cứ 20 kiểm định giả thuyết, sẽ mắc một sai lầm loại I Càng nhiềm kiểm định, nguy cơ mắc sai lầm loại I càng lớn.
α được chọn cho mỗi kiểm
định giả thuyết
Mức α cho toàn bộ thực nghiệm
Tổng xác suất mắc sai lầm loại một tích luỹ từ các kiểm định riêng rẽ trong thực nghiệm
α cho mỗi kiểm định t = 0.05 ⇒ α cho toàn bộ thực nghiệm là 0,15
Trang 10Tại sao dùng ANOVA
nghĩa để đánh giá tất cả sự khác biệt giữa các trung bình, do vậy tránh được nguy cơ tăng sai lầm loại I
Cặp giả thuyết của kiểm định ANOVA
H o : µ 1 = µ 2 = µ 3
H A : Có ít nhất một cặp TB quần thể khác nhau
Trang 11Logic của ANOVA
Q: Tại sao phân tích phương sai lại dùng để kiểm định giả thuyết về sự khác biệt giữa các trung bình?
A: Có thể suy luận những gì xảy ra với các trung bình quần thể bằng cách xem xét sự biến thiên (phương sai) của số liệu
Nov.30
Trang 12Logic của ANOVA
• Biến thiên tổng cộng của số liệu: tổng bình phương các độ lệch giữa mỗi giá trị quan sát và trung bình chung
• Biến thiên tổng cộng có thể chia thành hai phần:
• Biến thiên giữa các nhóm: SSA
• Biến thiên trong mỗi nhóm: SSW
Trang 13Logic của ANOVA
• Biến thiên giữa các nhóm: Tổng bình phương những khác biệt giữa trung bình mỗi nhóm và trung bình chung
• Biến thiên trong nhóm: Tổng bình phương những khác biệt giữa những giá trị quan sát trong mỗi nhóm và trung bình nhóm
Trang 14Logic của ANOVA
• Bình phương trung bình giữa các nhóm : Tổng bình
phương giữa các nhóm chia cho bậc tự do tương ứng:
• Bình phương trung bình trong nhóm: Tổng bình phương giữa các nhóm chia cho bậc tự do tương ứng:
a
SSA MSa
df
=
w
SSW MS
df
=
w
Trang 15Logic của ANOVA
• Phân tích phương sai một chiều sử dụng kiểm định F (kiểm định tỷ số phương sai):
• MSw: phương sai do ngẫu nhiên
• MSa: phương sai do ngẫu nhiên + ảnh hưởng
của biến độc lập
MSa F
MSw
=
Trang 16Logic của ANOVA
(MSa) (MSw)
Bình phương trung bình (phương sai) giữa các nhóm
Bình phương trung bình (phương sai) trong nhóm
Giá trị kiểm định F
Biến thiên do ngẫu nhiên + ảnh hưởng của biến ĐL
Biến thiên do ngẫu nhiên
F =
=
Trang 17Logic của ANOVA
• Nếu Ho đúng, MSa và MSw xấp xỉ bằng nhau, và giá trị F ≈ 1
• Nếu Ho sai, nghĩa là các trung bình khác nhau, MSa sẽ lớn hơn MSw và giá trị F > 1
Trang 18Ví dụ
Các trung bình nhóm có khác nhau không?
Liệu sự khác biệt giữa các trung bình nhóm có lớn hơn sự khác biệt chỉ do ngẫu nhiên hay không?
1 2 2 0 0
X = 4
Trang 19Nhớ lại cách tính phương sai
1 3 1 0
4 3 6 3 4
1 2 2 0 0
X = 4
Trang 20Ước tính sự biến thiên do ngẫu nhiên?
The image cannot be displayed Your computer may not have enough memory to open the image, or the image may have been corrupted Restart your computer, and then open the file again If the red x still appears, you may have to delete the image and then insert it again
sự biến thiên “trong nhóm”
Logic của ANOVA
1 3 1 0
4 3 6 3 4
1 2 2 0 0
X = 4
Trang 21Ước tính sự biến thiên do ngẫu nhiên?
The image cannot be displayed Your computer may not have enough memory to open the image, or the image may have been corrupted Restart your computer, and then open the file again If the red x still appears, you may have to delete the image and then insert it again
i w
1 2 2 0 0
X = 4
Trang 22Ước tính sự biến thiên do ngẫu nhiên?
The image cannot be displayed Your computer may not have enough memory to open the image, or the image may have been corrupted Restart your computer, and then open the file again If the red x still appears, you may have to delete the image and then insert it again
Tóm tắt sự khác biệt giữa mỗi
giá trị quan sát với trung bình nhóm tương ứng
1 2 2 0 0
X = 4
Trang 23The image cannot be displayed Your computer may not have enough memory to open the image, or the image may have been corrupted Restart your computer, and then open the file again If the red x still appears, you may have to delete the image and then insert it again.
Giá trị kiểm định F
Ph ương sai giữa các trung bình nhóm
Ph ương sai trong nhóm
1 2 2 0 0
X = 4
Trang 24Phương sai giữa các trung bình nhóm?
The image cannot be displayed Your computer may not have enough memory to open the image, or the image may have been corrupted Restart your computer, and then open the file again If the red x still appears, you may have to delete the image and then insert it again
1 2 2 0 0
X = 4
Trang 25Phương sai giữa các trung bình nhóm?
The image cannot be displayed Your computer may not have enough memory to open the image, or the image may have been corrupted Restart your computer, and then open the file again If the red x still appears, you may have to delete the image and then insert it again
Trước tiên, cần tính độ lệch giữa mỗi trung bình nhóm và trung bình chung
Logic của ANOVA
1 2 2 0 0
X = 4
Trang 26Phương sai giữa các trung bình nhóm?
The image cannot be displayed Your computer may not have enough memory to open the image, or the image may have been corrupted Restart your computer, and then open the file again If the red x still appears, you may have to delete the image and then insert it again
Rồi bình phương các độ lệch đó
Logic của ANOVA
4 3 6 3 4
1 2 2 0 0
X = 4
Trang 27Phương sai giữa các trung bình nhóm?
Và gán trọng số bằng cách nhân với cỡ mẫu của mỗi nhóm
1 2 2 0 0
X = 4
Trang 28Phương sai giữa các trung bình nhóm?
The image cannot be displayed Your computer may not have enough memory to open the image, or the image may have been corrupted Restart your computer, and then open the file again If the red x still appears, you may have to delete the image and then insert it again
2
=
X
Cộng lại để được SSA
Logic của ANOVA
1 2 2 0 0
X = 4
Trang 29Phương sai giữa các trung bình nhóm?
The image cannot be displayed Your computer may not have enough memory to open the image, or the image may have been corrupted Restart your computer, and then open the file again If the red x still appears, you may have to delete the image and then insert it again
4 3 6 3 4
1 2 2 0 0
X = 4
Trang 30=
2 2
a w
s F
1 2 2 0 0
X = 4
Trang 31a w
1 2 2 0 0
X = 4
Trang 32Phương sai giữa các nhóm
Phương sai trong nhóm
a w
s F
Trang 33Các công thức trong ANOVA
Trang 341. Mô tả bộ số liệu
2. Đặt giả định
3. Nêu giả thuyết kiểm định
4. Kiểm định thống kê và phân bố xác suất của kiểm định
thống kê
5. Chọn mức ý nghĩa thích hợp
6. Tính toán cụ thể
7. Kết luận về kiểm định
Trang 362 Đặt giả định
• Số liệu quan sát là những mẫu ngẫu nhiên đơn độc lập
• Rút ra từ các quần thể có phân bố chuẩn
• Các quần thể có phương sai bằng nhau
Trang 374 Kiểm định thống kê và phân bố xác suất của kiểm định
Ph ương sai giữa các nhóm
Ph ương sai trong nhóm
F =
Trang 384 Kiểm định thống kê và phân bố xác suất của kiểm định
Trang 394 Kiểm định thống kê và phân bố xác suất của kiểm định thống kê
• Phân bố F lệch dương: Các giá trị tập trung gần 1, không có giá trị nhỏ hơn 0
• F là một tập hợp các đường cong tuỳ theo cặp bậc tự do cụ thể
Nov.30
0
Trang 405 Chọn mức ý nghĩa thích hợp
Nếu chọn mức ý nghĩa α = 0,05 thì
• Giá trị F tra bảng (ngưỡng) với cặp bậc tự do [2; 12] là 3,88
• Bác bỏ giả thuyết Ho nếu:
• Giá trị kiểm định F tính được > F tra bảng
Trang 41Bước 1: Tính từng trung bình nhóm và trung bình chung
1 3 1 0
4 3 6 3 4
1 2 2 0 0
X = 4
Trang 42Bước 2: Tính phương sai trong nhóm ( hay MSW)
6 6 4
1.33 12
s = + + =
2
w s
1 2 2 0 0
X = 4
Trang 43Bước 3: Tính phương sai giữa các nhóm ( hay MSA)
2
=
X
a) Tính bình phương độ lệch của mỗi trung bình nhóm so
với trung bình chung và nhân với cỡ mẫu của từng
a
SSA s
a
2
a s
1 2 2 0 0
X = 4
Trang 44Bước 4: Tính giá trị kiểm định F
1 2 2 0 0
X = 4
Trang 45Nguồn biến thiên Tổng bình
N k −
2 2
a w
Trang 461 2 2 0 0
X 2 = 4
X 1 = 1 X 3 = 1
SST = 46 SSA = 30 SSW = 16
Trang 49Bài tập
Số liệu dưới đây thu được tư một thực nghiệm đo lường hiệu quả của ba loại thuốc giảm đau (A, B, và C) Nhóm thứ tư là nhóm nhận placebo.
0
0
3
0 1 2
3 4 5
Thuốc C
8 5 5
Có bằng chứng nào cho thấy sự khác biệt có ý
nghĩa giữa các nhóm không?
Trang 500 1 2
3 4 5
Thuốc C
8 5 5
Trang 510 1 2
3 4 5
Thuốc C
8 5 5
Trang 52So sánh F và t
Placebo Thuốc C
0 0 3
8 5 5
F và t có mối quan hệ như thế nào?
1 Tính giá trị kiểm định t hai mẫu cho số liệu trên
2 Tính giá trị thống kê kiểm định F
t = -3.54
F = 12.53
Trang 53F và t có mối quan hệ như thế nào?
8 5 5
Trang 54• Nếu chúng ta bác bỏ giả thuyết H 0:
ü Các trung bình khác nhau có ý nghĩa thống kê
ü Không biết sự khác biệt nằm ở cặp trung bình nào
• Có thể muốn so sánh từng cặp bằng kỹ thuật so sánh nhiều cặp (post hoc test)
• Nhiều kỹ thuật khác nhau của các tác giả như Tukey, Keuls, Scheffé, Dunnett
Trang 55Newman-KHI GIẢ ĐỊNH KHÔNG THOẢ
tiến hành kiểm định phi tham số
có thể phải chuyển dạng số liệu
Trang 56• Mục đích của phân tích phương sai một chiều
mẫu