t qu hi n th trên màn hình phía trên màn hình Program editor... Back Forward Current Procedureresidence Frequency Percent Cum Percent Back Forward Current Procedure sex Frequency Percen
Trang 1Phân tích s li u
c tiêu
Sau khi h c xong bài này, h c viên có th s d ng c ch ng trình ANALYSIS phân tích:
1 Phân tích mô t cho m t bi n ho c c b s li u
2 Tìm hi u m i liên quan gi a các bi n trong b s li u
3 Phân tích suy lu n cho các giá tr trung bình; giá tr t l
4 d ng phân t ng tìm y u t nhi u
Gi i thi u bài t p
Tr c khi b n th c hành các bài t p trong ph n này, b n hãy mã hoá l i các bi n trong
s d li u N i c a khách hàng, gi i tính, tình tr ng hôn nhân, có xét nghi m Hiv
tr c ây hay không, ngu n thông tin mà b nh nhân bi t d ch v t v n này, nguyênnhân khách hàng t i trung tâm t v n trong b s li u VTC.mdb
Mã l nh th c hi n vi c mã hoá này nh sau
Trang 2Trong bài này, chúng tôi s gi i thi u v i b n c v cách mô t s li u nghiên c u (các
th ng kê mô t ) và so sánh cách s li u nh l ng trong Epi Info tr l i các câu h inghiên c u: mô t các thay i (hay s bi n thiên c a các bi n) và s liên quan c a các
bi n v i nhau Tuy nhiên trong ph m vi cu n sách này chúng tôi không c p v v n
th ng kê m t cách chi ti t nh là mô t s li u nh th nào hay là lý thuy t v ki m
nh th ng kê Nh ng hi u rõ và phiên gi i c k t qu phân tích th ng kê mà máytính a ra, b n c ng c n hi u rõ v các ki n th c c b n trong th ng kê y t B n có ththam kh o và tìm c các cu n sách th ng kê c b n nh cu n Giáo trình Th ng kê Y t
do Tr ng i h c Y t Công c ng biên so n n m 2003
Vi c u tiên trong quá trình phân tích s li u là ch n i l ng và cách mô
s li u ph thu c vào thi t k nghiên c u mà b n ti n hành, lo i bi n mà b n mu n
mô t Ti p theo b n ph i ch n c lo i ki m nh th ng kê phù h p? Vi c b n ph i
ho ch nh m t k ho ch rõ ràng cho b n thân tr c khi ti n hành phân tích s li u
Vi c lên k ho ch này càng rõ ràng thì b n càng tránh c nhi u sai sót v sau Lý
ng nh t là b n ph i a ra m t k ho ch phân tích ngay t i th i m thi t k nghiênu: b n o l ng cái gì ai và khi nào? Các câu h i nghiên c u c n c tr l i khi thi t nghiên c u và chúng ta không th ti n hành phân tích m t b s li u hoàn ch nh n u
n không có m t m c tiêu nghiên c u rõ ràng và các câu h i nghiên c u rõ ràng N u
t nghiên c u mà b n tham gia t thi t k nghiên c u thu th p s li u và phân tích s
li u thì có th d dàng h n cho b n, nh ng n u b n ch tham gia m t ph n thì b n ph i
th o lu n v i các thành viên khác trong nhóm làm rõ các câu h i nghiên c u tr ckhi phân tích s li u
Trong h u h t các nghiên c u thì quá trình phân tích s li u chia làm hai thành ph n
Trang 3V th ng kê mô t thì trong các nghiên c u chúng ta ch y u mô t v các y u t dân
- xã h i c a i t ng nghiên c u và các y u thông tin v i t ng nghiên c u c a
n D a trên các i l ng ã c mô t ó b n có th c l ng, a ra các so sánhTrong b s li u c a chúng ta chúng ta có th phân tích các v n sau
- Mô t tu i, gi i, trình tr ng hôn nhân c a các i t ng n t v n t i trung tâm
- Mô t s ng i c xét nghi m Hiv trên t ng vùng, so sánh các vùng v i nhau
- Tính th i gian trung bình c t v n c a các b nh nhân
- ánh giá c các y u t nguy c và nh n th c c a khách hàng sau khi c t
n thì có thay i nh th nào?
Ph n m m ch giúp b n tính c các i l ng nh ng b n ph i ch n c i l ng
th ng kê nào cho phù h p Trong ch ng trình này chúng tôi ch h ng d n cách các
n dùng ch ng trình Epi Info th c hi n các l nh th ng kê
phân tích s li u trong Epi Info b n dùng ch ng trình Analys Data
Các thành ph n trong ch ng trình Analys Data:
Chú ý r ng t t c các l nh c hi n hi n góc trái màn hình, g i là CommandGenerator (H th ng các l nh) hay Command tree (cây l nh)
Nháy chu t trái vào m t l nh b t kì cây l nh (command tree) s xu t hi n m t
ng Làm theo yêu c u c a các câu h i, và nháy chu t vào OK t o ra và th c
hi n m t l nh c hi n góc d i màn hình N u ch b m chu t vào phím
“Save Only” thì l nh v n c t o nh ng không hi n th lên màn hình
t qu hi n th trên màn hình phía trên màn hình Program editor
Tr c khi ti n hành phân tích, a ra các b ng bi u, các ki m nh th ng kê chúng ta
n thi t ph i c t p s li u vào ch ng trình ANALYSIS và có th c n thi t ph i xemcác s li u trong t p ó có nh ng gì Các b c sau s giúp b n th c hi n u ó
1.Dùng l nh READ c t p s li u RTI.mdb m c Show, ch n ph n All, b ng phía
Trang 4nh Sort òi h i dòng hi n th d ng ch ho c d ng s , s p x p theo m t
ho c nhi u bi n
(++) - S p x p t th p n cao
( ) - S p x p t cao xu ng th p
2.Nháy chu t úp vào bi n N3 b ng Available Variables B ng Sort Variables bên
nh s xu t hi n N3 (++) ngh a là bi n này s c s p x p theo th t t th p lên cao.3.Nháy chu t vào phím Descending b ng Sort Order phía trên, bi n Ageround s xu t
hi n b ng Sort Variables d i d ng Ageround ( ), s p x p theo th t gi m d n Sau
ó nh n OK
4.Sau ó dùng l nh List xác nh n l i k t qu
L nh Sort có hi u l c n khi b n hu b l nh sort ho c c m t b n ghi khác
1 B m chu t vào l nh Graph.
2 ô Graph Type, ch n Bar
3 ô X-Axis ch n tr ng AgeGroup
u ý n nh ng l a
ch n cho các thay i
a th Tu thu c vào t ng lo i th ,
ng l a ch n có th
hi n th ho c không.
Trang 5Ch ng trình Analysis s a ra th m t c a s m i (có th ch nh s a c) Có
t vài ph ng án b n có th l a ch n B m chu t ph i vào th , ch nh và s a ththeo ý mu n và xem l i k t qu
óng c a s Epi Graph l i khi ã ch nh s a xong theo ý mu n th m i s hi n th
i c a s phía trên c a s Program Editor
Khi th hi n ra c a s hi n các k t qu , b n s không ch nh s a c n a
Các b ng t n s và bi u c t c a t n su t (frequency), t l (percent) và t l tích lu(cum percent) mô t m t bi n phân lo i Ngoài ra Epi Info còn cho b n m t bi u
t trong k t qu khi b n dùng l nh frequencies tính k t qu
1.Nh n chu t vào l nh Frequency a ra t n s c a gi i tính các khách hàng n t
n Trung tâm.
2 ô Frequency of ch n bi n Sex (bi n này c b n mã hoá l i t 2 bi n n2c1 vàn2c2)
3.N u k t qu c a b n c s d ng liên t c, b n có th l u l i b ng các a tên b ngvào Output to Table,
4.Kích chu t vào OK.
Câu l nh trong màn hình so n th o câu l nh s nh sau:
Trang 6n c ng có th th c hi n vi c tính toán b ng phân ph i t n s cho nhi u bi n cùng m tlúc.
1.Ch n l nh Frequency trong ch ng trình ANALYSIS
danh sách các bi n, ch n bi n sex (gi i tính), residence (n i ), và married (tình
tr ng hôn nhân) và chuy n chúng vào danh sách bi n c n phân tích b ng cách ch nchúng t th c n Frequency of
EPI INFO s cho k t qu nh sau:
Trang 7Back Forward Current Procedure
residence Frequency Percent Cum Percent
Back Forward Current Procedure
sex Frequency Percent Cum Percent
Trang 84.Tính giá tr trung bình
ng phân ph i t n s là m t ph ng pháp mô t r t t t cho các bi n r i r c, tuy nhiên
nó không phù h p cho m t bi n liên t c vì s có r t nhi u giá tr c a vào b ng.Trong tr ng h p bi n là liên t c, s d ng các th ng kê mô t , ví d các giá tr trungbình và các giá tr trung v , l ch chu n s phù h p h n Vì o l ng liên t c l nggiá cho bi n liên t c, bi u c t liên t c phù h p h n là bi u c t Trong b s li u
u, chúng ta mu n mô t phân b c a tu i trong m u nghiên c u
c l ng giá tr th ng kê (trung bình, l ch chu n) cho m t bi n nh l ng b nlàm nh sau:
1.Ch n l nh MEANS
2.T danh sách bi n, ch n bi n N3 (tu i c a khách hàng) t trong danh sách means of
và chuy n chúng vào danh sách phân tích
2.N u b n không mu n hi n th b ng t n s c a bi n thì có th kích chu t vào nútSETTING sau ó b l a ch n trong ph n Show Tables in Output
Trang 9mô t m i liên quan gi a hai bi n danh m c, chúng ta có th s d ng l nh TABLES
so sánh K t q a s hi n th trong m t b ng bao g m các t n su t, t l c a các ô.Ngoài ra Epi Info c ng cho chúng ta khá nhi u các ch s th ng kê c n thi t cho phépchúng ta phiên gi i m i quan h gi a hai bi n này
1.Ch n l nh TABLES trong ch ng trình ANALYSIS
2.T danh sách bi n, ch n bi n Sex và chuy n vào h p Exposure variable ng cách
ch n trong danh sách
3.Ch n bi n test (bi n c mã hoá l i t câu h i khách hàng có c xét ngi m HIv
tr c ây không) và chuy n vào h p Outcome variable
4.Kích OK hoàn thành l nh
Trang 10t qu trong EPI INFO có d ng:
Tables sex test
Previous Procedure Next Procedure Current Dataset
Forward
TEST sex 0 1 2 3 TOTAL
52.7100.0
31.675.0
182100.066.9
00.00.0
11.125.0
90100.033.1
51.8100.0
41.5100.0
272100.0100.0
Trang 11Single Table Analysis Chi-squared df Probability
2.7470 4 0.6010
Phiên gi i k t qu (gi s b s li u này c thu th p trong vòng m t tháng)Trong nh ng ng i n t v n tháng qua thì có 4 ng i không có thông tin v ã xétnghi m HIV tr c ây ch a? T l ch a xét nghi m Hiv tr c ây chi m 75,4%, trong
ó ch y u là nam 69 ng i chi m 66.3%; trong 19.5 % nh ng ng i xét nghi m có
t qu âm tính thì nam chi m 66% C ng trong tháng qua s ng i xét nghi m mà có
t qu d ng tính là 5 nam; t l xét nghi m nh ng không xác nh c k t qu là1.5 và ch y u là nam; trong 5 ng i sau khi xét nghi m mà không l y k t qu thì có 3
Trang 12Gi s ta c n thi t ph i phân tích gi thuy t sau:
H0: T l ng i n trung tâm t v n cùng v i b n tình t ng ng nhau hai nhómnam và n
ây là m t m i liên quan c tóm t t theo d ng s m và t l ph n tr m, chúng ta có
th s d ng ki m nh Khi bình ph ng th c hi n phân tích này
d ng EPI INFO th c hi n ki m nh Khi Bình Ph ng
1
Row %
Col %
73.850.0
17696.267.2
183100.066.3
2
Row %
77.5
8692.5
93100.0
Trang 13Single Table Analysis
Warning: The expected values of a cell is <5 Fisher Exact Test should be used
Point 95% Confidence IntervalEstimate Lower UpperPARAMETERS: Odds-based
Odds Ratio (cross product) 0.4886 0.1661 1.4373 (T)
Odds Ratio (MLE) 0.4900 0.1597 1.5035 (M)
0.1417 1.6940 (F)PARAMETERS: Risk-based
Risk Ratio (RR) 0.5082 0.1837 1.4058 (T)
Risk Difference (RD%) -3.7017 -9.7411 2.3376 (T)
(T=Taylor series; C=Cornfield; M=Mid-P; F=Fisher Exact)
STATISTICAL TESTS Chi-square 1-tailed p 2-tailed p
Chi square - uncorrected 1.7548 0.1852758042
Chi square - Mantel-Haenszel 1.7484 0.1860740731
Chi square - corrected (Yates) 1.0702 0.3008949844
Trong h u h t các tài li u th ng kê d ng ki m nh Khi bình ph ng hay dùng nh t là
ng ki m nh Khi bình ph ng Pearson Tuy nhiên khi b ng ch có 2 hàng và 2 c t thìchúng ta nên s d ng k t qu hi n ch nh liên t c cho ki m nh Khi bình ph ng (Chi
Trang 14Khi bình ph ng v n có th ti n hành ki m nh úng khi m t ô nào ó có giá tr ctính nh h n 2 (tuy nhiên không quá nhi u ô nh h n 5) Epi Info s ch ra có b t c
t ô nào có giá tr nh h n 5 nh ng v n th c hi n ki m nh Khi bình ph ng Lúc ó
n ph i r t c n th n tránh a ra các k t lu n sai
Trong k t qu u ra trong Epi 2000 thông th ng cho chúng ta k t qu t t c các
lo i ki m nh Khi bình ph ng: Khi bình ph ng không hi u ch nh, ki m nh hi u
ch nh c a Khi bình ph ng , Mantel – Haenszel ,Yates
Trong bài toán c a chúng ta thì các ki m nh u không có ý ngh a th ng kê (giá tr p
>0.05) và có m t ô có giá tr c tính nh h n 5 nên chúng ta s d ng k t q a c a ki m
nh Fisher
Ngoài ra, khi vi t k t lu n th ng kê trong tr ng h p mà ki m nh có ý ngh a chúng ta
có th a ra các b ng ch ng ch ng minh k t lu n c a chúng ta b ng cách li t kê racác giá tr : p, giá tr ki m nh; N u hai bi n a ra trong b ng là m t bi n B nh và m t
bi n v ph i nhi m thì b n có th a vào k t lu n các i l ng v t su t chênh (OR)
và t s nguy c (RR) C n c vào ki u thi t k nghiên c u mà b n ch n m t trong hai
i l ng trên hay c hai
7.So sánh hai giá tr trung bình
bi t c hai giá tr trung bình có khác bi t có ý ngh a th ng kê hay không, chúng ta
có th ti n hành ki m nh ý ngh a cho hai giá tr trung bình Gi s chúng ta mu n so sánh giá tr trung bình tu i c a các ng i n t v n hai nhóm là nam và n Vi c
này c ti n hành trong Epi Info nh sau:
1.Ch n l nh Means –trong ch ng trình ANALYSIS
2.T danh sách các bi n c a Means of, b n mu n so sánh trung bình gì; trong tr ng
p này b n ch n trung bình c a tu i ng i c t v n, t danh sách các bi n b n
Trang 154.Bây gi kích OK.
Chúng ta s có k t qu nh sau:
Descriptive Statistics for Each Value of Crosstab Variable
Obs Total Mean Variance Std Dev
1 182 5728.0000 31.4725 79.6981 8.9274
2 93 2733.0000 29.3871 95.7833 9.7869Minimum 25% Median 75% Maximum Mode
1 18.0000 25.0000 30.0000 35.0000 62.0000 29.0000
2 2.0000 25.0000 30.0000 33.0000 70.0000 28.0000
ANOVA, a Parametric Test for Inequality of Population Means
(For normally distributed data only)Variation SS df MS F statisticBetween 267.6783 1 267.6783 3.1448Within 23237.4272 273 85.1188
Trang 16Total 23505.1055 274
T Statistic =1.7733P-value =0.0773
Bartlett's Test for Inequality of Population Variances
Bartlett's chi square= 1.0459 df=1 P value=0.3065
A small p-value (e.g., less than 0.05) suggests that the variances
are not homogeneous and that the ANOVA may not be appropriate
Mann-Whitney/Wilcoxon Two-Sample Test (Kruskal-Wallis test for two groups)
Kruskal-Wallis H (equivalent to Chi square) = 1.1836
t qu c a ph n m m cung c p cho b n hai tình hu ng: th nh t là hai ph ng sai
ng nh t thì s d ng ki m nh ANOVA và tr ng h p th hai là hai ph ng sai khácnhau s d ng ki m nh (Kruskal – Wallis) Khi ó d a và ki m nh Barlett chúng
ta quy t nh ch n theo tình hu ng nào Trong bài toán c a chúng ta ki m nh Barlett
có giá tr p> 0.05 ( không có ý ngh a th ng kê) nên chúng ta s d ng k t qu ki m nhANOVA v i gi nh là hai ph ng sai ng nh t
Trang 17minh ho cho ph n này b n s d ng b s li u Owesgo c a Epi 6.4 B s li u này
là s li u c a m t nghiên c u c t ngang v m t v ng c th c ph m Nh ng u traviên s h i các thông tin v b a ti c mà nh ng ng i b ng c ã tham d B câu h i
Ill ? <Y> Diarrhea? <Y> Vomiting? <Y>
:####
Food History (Mark Y or N):
Mashed Potatoes: <Y>
Ice Cream: {Vanilla}: <Y> Chocolate: <Y>
u h t các nghiên c u s c kho liên quan n các l ng giá quan sát trên con ng itrong môi tr ng s ng t do, có ít tác ng vào ó u này d n n m t kh n ng l n
s khác bi t gi a các cá nhân che l p b t k s khác bi t nào do can thi p c a chúng
ta ho c s khác bi t th t s gi a các nhóm Các phân tích th ng kê c n ph i tính m
n nh ng khác bi t này càng nhi u càng t t tr c khi tìm ki m s khác bi t th t s màchúng ta quan tâm Nh ng khác bi t phi n ph c này c bi t n nh là các tác ng nhi u.
Nhi u trong nghiên c u y t công c ng còn có ngh a là có tác ng khác xen vào trong
t qu nghiên c u u này có ngh a là m i liên quan gi a bi n ph thu c và bi n c
p có th là th t nh ng c ng có th là có m t vài m i liên quan khác là nguyên nhân
a k t qu này S có m t c a nhi u d n n nh ng k t lu n nghiên c u sai, vì v y
Trang 18thù c a m t ng i c so sánh v i ng i khác trong nhóm ho c nhóm khác nhngh a th ng kê c a nhi u là m t bi n th ba có t ng quan v i c bi n ph thu c và các
bi n c l p mà chúng là m i quan tâm hàng u trong ki m nh gi thuy t này
tìm ra y u t nhi u và các t ng tác s li u, chúng ta dùng ph ng pháp phân t ng
ho c phân tích h i quy M t nguyên nhân chúng ta ti n hành phân t ng d li u là xác
nh bi n phân t ng có th “thay i” ho c nh h ng lên m i quan h gi a ph i nhi m
và b nh “Thay i” ây c hi u là có th làm thay i k t qu lên m i quan h
gi a y u t b nh và ph i nhi m V n t ra cho chúng ta ti p theo là bi n phân t ng
có ph i là y u t nhi u không? bi t c u ó chúng ta so sánh t su t chênh thô
và t su t chênh ã hi u ch nh Thông th ng giá tr OR hi u ch nh l n h n giá tr ORthô nh ng l i có ít ý ngh a h n (kho ng tin c y r ng h n) Không có lo i ki m nh
th ng kê nào cho nhi u, nhà phân tích ph i ch n l a gi a vi c có giá tr chính xác h n
nh ng ít ý ngh a c l ng h n (OR ã hi u ch nh) và giá tr kém chính xác h n nh ng
i có ý ngh a c l ng h n (OR thô) Vi c t ra m c khác nhau c a t su t chênh vàthô bao nhiêu thì k t lu n là có nhi u r t khác nhau và tu thu c t ng ng i phân tích
và t ng v n phân tích Thông th ng theo ý ki n ch quan c a m t s nhà nghiên
u thì s khác nhau c a hai t su t ph i h n 5% ho c 10% thì bi n phân t ng m i
c xem là bi n nhi u Trong quá trình phân tích s li u n u bi n phân t ng không tác
ng vào m i liên quan gi a b nh và ph i nhi m thì b n có th b qua y u t ó khiphân tích sâu h n Khi chúng ta phiên gi i k t qu th ng kê chúng ta có th theo quy t csau ây:
- u OR thô và OR hi u ch nh gi ng nhau thì chúng ta không ph i s d ng bi nphân t ng
- u OR thô và OR hi u ch nh khác nhau thì chúng ta s d ng OR hi u ch nh vìgiá tr ó chính xác h n
Ngoài ra trong m t s tr ng h p chúng ta có th s d ng t s nguy c (RR) ho c t
su t khác nhau (RD) khi trình bày các k t lu n v t ng tác và nhi u
Trong Epi Info 2000 chúng ta có th s d ng ph ng pháp phân t ng tìm ra y u tnhi u ph n cu i c a k t qu u ra có m t ph n tóm t t cho b ng 2 × 2 c phân
ng bao g m các ki m nh th ng kê Các ki m nh này c s d ng trong k t qu
a b n khi mà ã xác nh c bi n phân t ng có ph i là bi n nhi u không?
Câu l nh dùng trong ph ng pháp này là l nh Tables và l nh có d ng nh sau:
Tables <exposure var> <disease var> {<stratifying var>}