Kiểm định Chi bình phương • Một nghiên cứu trên 384 người dân Huyện X về thực hành phòng chống HIV liên quan với kiến thức về HIV.. Kiểm định mối liên quan – co: phần trăm theo cột –
Trang 1Xử lý và phân tích dữ kiện
Thái Thanh Trúc
Trang 3Quá trình kiểm định ý nghĩa
1 Xây dựng giả thuyết Ho
2 Chọn lựa kiểm định thích hợp
3 Tính giá trị thống kê của số liệu thu thập được
4 Tính xác suất của thống kê - kí hiệu là P() và
được gọi là giá trị p
5 Nếu P() đủ nhỏ chúng ta kết luận P(Ho) nhỏ và
chúng ta bác bỏ giả thuyết Ho
3
Trang 4Hồi quy logistic Hồi quy Poisson
Sống còn Wilcoxon
tổng quát Logrank
Wilcoxon tổng
quát Logrank
Hồi quy Cox
4
Trang 5Kiểm định so sánh 2 tỉ lệ
• Điều trị bệnh X có 2 phương pháp A và B Trong 93
người điều trị theo phương pháp A có 52.7% đáp ứng điều trị Trong 91 người điều trị theo phương pháp B có 19.8% đáp ứng điều trị
• Hỏi: phương pháp nào có tỉ lệ đáp ứng điều trị cao hơn?
• Bước 1: Giả thuyết Ho
– Tỉ lệ đáp ứng điều trị của 2 phương pháp A và B là như nhau – pA = pB
5
Trang 61 n
1 )(
(1 S.E.
-2 1
91
193
1)(
364
0-(1364
0
Trang 8Kiểm định so sánh 2 tỉ lệ
prtesti n1 p1 n2 p2
• Ví dụ: prtesti 93 0.527 91 0.198
8
Trang 9Ví dụ
• Hai nghiên cứu xác định tỉ lệ tăng huyết áp tại 2 tỉnh của Việt Nam Nghiên cứu thứ 1 tiến hành trên 2000 người cho tỉ lệ là 9.6% Nghiên cứu thứ 2 tiến hành trên 3500 người cho tỉ lệ là 8%
• Hãy cho biết kết quả của 2 nghiên cứu trên là tương đồng hay có sự khác biệt?
9
Trang 10Kiểm định Chi bình phương
10
Trang 11Vọng trị
• Một người đặt một con số gồm 2 chữ số quay số để có kết quả
là một số 2 chữ số
• Nếu kết quả trùng với con số được đặt, người đặt sẽ được 70
đồng Nếu kết cuộc không trùng với con số được đặt, người đặt sẽ
Trang 12hàngcủa
Tổngcột
Trang 13Vọng trị
• Hãy tính vọng trị cho nghiên cứu?
13
chungsố
Tổng
hàngcủa
Tổngcột
93 (100%)
(19,8%)
73 (80,2%)
91 (100%)
(36,4%)
117 (63,6%)
184 (100%)
Trang 14Vọng trị
• Hãy tính vọng trị cho nghiên cứu?
14
chungsố
Tổng
hàngcủa
Tổngcột
93 (100%)
(19,8%)
73 (80,2%)
91 (100%)
(36,4%)
117 (63,6%)
184 (100%)
Trang 15Vọng trị
• Tại sao phải tính vọng trị?
– Vọng trị quyết định phép kiểm nào nên dùng khi so sánh tỉ
lệ
– Nếu trên 20% giá trị vọng trị < 5 thì dùng kiểm định Fisher
(một số tác giả gợi ý ≥25)
– Nếu tần số trong ô quá nhỏ (<5) thì dùng kiểm định Fisher
– Nếu không có cả 2 điều kiện trên thì dùng Chi bình
phương
15
Trang 16Vọng trị
• Tại sao phải tính vọng trị?
– Nếu trên 20% giá trị vọng trị < 5 thì dùng kiểm định Fisher
Trang 17Vọng trị
• Tại sao phải tính vọng trị?
– Nếu trên 20% giá trị vọng trị < 5 thì dùng kiểm định Fisher
Trang 18Kiểm định Chi bình phương
) 1 (
,
E d
E c
Trang 19Kiểm định Chi bình phương
• Nhằm so sánh tỉ lệ giữa các nhóm
19
) 1 (
) 1 (
,
93 (100%)
(19,8%)
73 (80,2%)
91 (100%)
(36,4%)
117 (63,6%)
184 (100%)
33.9 59.1
33.1 57.9
4 , 21 94
, 3 89
, 6 86
, 3 73
, 6
9 , 57
) 9 , 57 73
( 1
, 33
) 1 , 33 18
( 1
, 59
) 1 , 59 44
( 9
, 33
) 9 , 33 49
Trang 20Kiểm định Chi bình phương
93 (100%)
(19,8%)
73 (80,2%)
91 (100%)
(36,4%)
117 (63,6%)
184 (100%)
33.9 59.1
33.1 57.9
2
Trang 22tabi 49 44 \ 18 73, exp
• Hãy tính vọng trị cho nghiên cứu?
22
chungsố
Tổng
hàngcủa
Tổngcột
93 (100%)
(19,8%)
73 (80,2%)
91 (100%)
(36,4%)
117 (63,6%)
184 (100%)
Trang 25tabi 49 44 \ 18 73, chi
• So sánh tỉ lệ giữa các nhóm
25
) 1 (
) 1 (
,
93 (100%)
(19,8%)
73 (80,2%)
91 (100%)
(36,4%)
117 (63,6%)
184 (100%)
33.9 59.1 33.1 57.9
4 , 21 94
, 3 89
, 6 86
, 3 73
, 6
9 , 57
) 9 , 57 73
( 1
, 33
) 1 , 33 18
( 1
, 59
) 1 , 59 44
( 9
, 33
) 9 , 33 49
Trang 26, 3 89
, 6 86
, 3 73
, 6
9 , 57
) 9 , 57 73
( 1
, 33
) 1 , 33 18
( 1
, 59
) 1 , 59 44
( 9
, 33
) 9 , 33 49
Trang 27KĐ Chi bình phương
– ro: phần trăm theo hàng
– cell: phần trăm theo tổng
– exp: vọng trị
– chi: Chi bình phương
– exact: Fisher
27
Trang 28KĐ Chi bình phương
– co: phần trăm theo cột tab gioi nhecan, ro
– ro: phần trăm theo hàng
– cell: phần trăm theo tổng
– exp: vọng trị
– chi: Chi bình phương
– exact: Fisher
28
Trang 29KĐ Chi bình phương
– co: phần trăm theo cột tab gioi nhecan, cell
– ro: phần trăm theo hàng
– cell: phần trăm theo tổng
– exp: vọng trị
– chi: Chi bình phương
– exact: Fisher
29
Trang 30n n m m
bc ad
30
Trang 31Kiểm định Chi bình phương
• Một nghiên cứu trên 384 người dân Huyện X về
thực hành phòng chống HIV liên quan với kiến thức
về HIV Có các kết quả như sau:
– Trong số 75 người có thực hành đúng về phòng chống
HIV thì có 49 người có kiến thức đúng
– Có 154 người có thực hành phòng chống HIV sai nhưng lại có kiến thức đúng
Hãy cho biết, liệu rằng, kiến thức về phòng chống HIV có liên quan đến thực hành phòng chống HIV hay không?
31
Trang 32Kiểm định chính xác Fisher
• # Fisher exact
• Cho kết quả chính xác
• Chỉ cần thiết nếu như giá trị vọng trị nhỏ vì khi đó
phép kiểm Chi bình phương không áp dụng được
32
Trang 38Kiểm định chính xác Fisher
6 Giá trị p của KĐ Fisher (2 tail) là tổng giá trị nhỏ
hơn giá trị p value của bảng ban đầu
• P value của bảng ban đầu = 0.252
Trang 40Bài tập
Mở bộ dữ liệu ivf_v2.dta và thực hiện theo yêu cầu NC sau:
Tạo biến nhẹ cân khi trọng lượng sơ sinh <= 2500 gram
a So sánh tình trạng nhẹ cân theo giới tính?
b So sánh tình trạng nhẹ cân theo tình trạng tăng huyết áp
của người mẹ?
c So sánh tình trạng nhẹ cân theo nhóm tuổi của người mẹ?
d So sánh tình trạng nhẹ cân theo tình trạng sinh non?
40
Trang 41Ứng dụng cho phân tích NC cắt ngang
1 Thống kê mô tả số liệu
2 Kiểm định mối liên quan
3 Lượng hóa mối quan hệ (PR)
4 Nhiễu/tương tác (nếu có)
5 Mô hình hóa
41
Trang 42Các bước phân tích
1 Thống kê mô tả số liệu
2 Kiểm định mối liên quan
– co: phần trăm theo cột
– ro: phần trăm theo hàng
– cell: phần trăm theo tổng
Nếu tần số trong ô nhỏ thì dùng kiểm định Fisher
42
Trang 43Các bước phân tích
3 Lượng hóa mối quan hệ (PR)
43
Trang 44Các bước phân tích
3 Lượng hóa mối quan hệ
PR / RR
44
Trang 463 Lượng hóa mối quan hệ (PR)
Mối liên quan giữa nhóm nghề nghiệp và tình trạng nhẹ cân
Các bước phân tích
Nghề nghiệp PR (KTC 95%)
Công nhân 0.87 (0.51 – 1.49) Viên chức 0.63 (0.37 – 1.10)
46
Trang 47Các bước phân tích
3 Lượng hóa mối quan hệ (PR)
Mối liên quan giữa nhóm nghề nghiệp và tình trạng nhẹ cân
Người mẹ có nghề nghiệp là công nhân thì có tỉ lệ sinh nhẹ cân bằng 0.87 lần (KTC 95%: 0.51 – 1.49) so với người mẹ có nghề nghiệp là tự do Tuy nhiên sự khác biệt này không có ý nghĩa thống kê
Giải thích tương tự cho nhóm nghề nghiệp “viên chức”
Công nhân 0.87 (0.51 – 1.49) Viên chức 0.63 (0.37 – 1.10)
47
Trang 48Các bước phân tích
3 Lượng hóa mối quan hệ (PR)
Mối liên quan giữa nhóm tuổi và tình trạng nhẹ cân
Kiểm tra tính khuynh hướng
nptrend nhecan, by(nhomtuoi)
p = 0.611 > 0.05 không có tính chất khuynh hướng trong mối liên quan giữa nhóm tuổi và tình trạng nhẹ cân
Phân tích theo từng tầng 48
Trang 493 Lượng hóa mối quan hệ (PR)
Mối liên quan giữa nhóm tuổi và tình trạng nhẹ cân
49
Trang 503 Lượng hóa mối quan hệ (PR)
cân có tính chất khuynh hướng
50
Trang 513 Lượng hóa mối quan hệ (PR)
cân có tính chất khuynh hướng
51
Trang 523 Lượng hóa mối quan hệ (PR)
cân có tính chất khuynh hướng
PR = 0.94 (KTC 95%: 0.72 – 1.22) Ở những người mẹ có tuổi cao hơn một
nhóm thì có PR sinh nhẹ cân bằng 0.94 lần (KTC 95%: 0.72 – 1.22) Sự khác
biệt này không có ý nghĩa thống kê (p=0,624 > 0.05)
Nhóm tuổi càng cao thì tỉ lệ sinh nhẹ cân càng thấp nhưng điều này không
có ý nghĩa thống kê
52
Trang 53Các bước phân tích
3 Lượng hóa mối quan hệ (PR)
link(log) robust eform
mặc định lấy nhóm đầu tiên làm chuẩn
robust eform
lấy nhóm có giá trị 3 làm chuẩn
53
Trang 54Các bước phân tích
3 Lượng hóa mối quan hệ (OR)
54
Trang 55Các bước phân tích
4 Nhiễu/tương tác
• Yếu tố gây nhiễu
– Liên quan đến phơi nhiễm (biến độc lập)
– Liên quan đến kết cuộc (biến phụ thuộc)
– Khơng phải là yếu tố nguyên nhân của kết cuộc
Thu nhập của gia đình
(biến số gây nhiễu) (biến số độc lập) (biến số phụ thuộc)
55
Trang 56Các bước phân tích
4 Nhiễu/tương tác
• Yếu tố tương tác
– Mối quan hệ (mức độ hoặc hướng) giữa yếu tố phơi
nhiễm và kết cuộc khác nhau theo các mức độ của yếu tố này
56
Trang 57Các bước phân tích 4 Nhiễu/tương tác
PHÂN TÍCH BẢNG 2x2 PHÂN
TẦNG
KIỂM ĐỊNH TÍNH ĐỒNG NHẤT CỦA OR/PR THEO TẦNG
CÓ TƯƠNG TÁC – BÁO CÁO OR/RR TỪNG TẦNG
Trang 58Trai: PRsinhnonnhecan (PR trai)
Gái: PRsinhnonnhecan (PR gái)
2 Kiểm tra tính đồng nhất
PR trai ≠ PR gái : tương tác
PRtrai ≈ PRgái tính PR khi đã có giới (PR kếthợp)
3 Xét sự khác biệt
PR thô ≠ PR kếthợp (>10%): gây nhiễu
PR thô ≈ PR kếthợp (<10%): không gây nhiễu, không tương tác
58
Trang 59Trai: PRsinhnonnhecan (PR trai)
Gái: PRsinhnonnhecan (PR gái)
2 Kiểm tra tính đồng nhất
PR trai ≠ PR gái : tương tác báo cáo từng tầng
PRtrai ≈ PRgái tính PR khi đã có giới (PRkếthợp)
3 Xét sự khác biệt
PR thô ≠ PR kếthợp (>10%): gây nhiễu
báo cáo PR khi đã tính Giới (PR kếthợp )
PR thô ≈ PR kếthợp (<10%): không gây nhiễu, không tương tác
báo cáo PR ban đầu (PR thô ) 59
Trang 60Các bước phân tích
4 Nhiễu/tương tác
Mối quan tâm chính: Sinh non Nhẹ cân (PR thô )
Yếu tố cần xét: Giới
cs nhecan sinhnon, by(gioi)
p = 0.4503 > 0.05 PR ở nhóm trai và nhóm gái là như nhau không
tương tác
Sự khác biệt giữa PR thô và PR kết hợp = (11.961 – 11.945)/11.945 =
0.0013 ≈ 0,13% yếu tố giới xuất hiện không làm thay đổi đáng kể mối
quan hệ giữa sinh non và nhẹ cân (<10%) không là yếu tố gây nhiễu
60
Trang 61Các bước phân tích
4 Nhiễu/tương tác
Mối quan tâm chính: Sinh non Nhẹ cân (PR thô )
Yếu tố cần xét: Tăng huyết áp
cs nhecan sinhnon, by(tang_ha)
p = 0.0925 > 0.05 PR ở nhóm huyết áp bình thường và nhóm huyết áp tăng là như nhau không tương tác
Sự khác biệt giữa PR thô và PR kết hợp = (11.961 – 9.918)/9.918 = 0.2060 ≈ 20,60% yếu tố tăng huyết áp xuất hiện làm thay đổi đáng kể mối quan hệ giữa sinh non và nhẹ cân (>10%) là yếu tố gây nhiễu
61
Trang 62Các bước phân tích
5 Mô hình hóa (kiểm soát nhiều yếu tố tác động)
Kiểm soát yếu tố tăng huyết áp và nghề nghiệp
Sau khi kiểm soát theo yếu tố tăng huyết áp và nghề nghiệp thì người mẹ nào sinh non sẽ có tỉ lệ sinh nhẹ cân bằng 10.88 lần những người không
sinh non Sự khác biệt này có ý nghĩa thống kê (p<0.001) 62
Trang 63Bài tập ứng dụng
• Hãy sử dụng dữ liệu NC về trọng lượng sơ sinh và hoàn tất bài tập
• Hãy sử dụng dữ liệu Chilumba2.dta và hoàn tất bài tập
• Lưu ý: lưu trữ lại câu lệnh
63
Trang 65Việc cần làm tiếp theo
• Với đề cương của mỗi nhóm, hãy bổ sung
– Tiếp tục bổ sung phần phương pháp phân tích số liệu sẽ dùng trong nghiên cứu
– Tiếp tục xây dựng bảng câm cho nghiên cứu
– Tiếp tục xây dựng kịch bản phân tích (nếu có thể)
65
Trang 66Ngày tiếp theo
• Cách viết bài báo NCKH
• Trình bày báo cáo NCKH
• Các lỗi thường gặp
66