xác nh ph ng... pháp tính toán... Tuy nhiên chúng ta ch có th lo i b gi thuy t sau khi ãthông qua các ki m nh th ng kê.
Trang 1Phân tích h i quy
c tiêu bài h c
Sau khi k t thúc bài h c này, sinh viên có kh n ng:
1 Dùng c bi u ch m m bi u di n m i liên quan gi a hai bi n nh
ng liên t c
2 Trình bày, tính và phiên gi i c h s t ng quan
3 Xây d ng và phiên gi i c ng h i qui tuy n tính c a hai bi n nhng
4 Ki m nh c ng h i quy là mô t t t nh t cho m i liên quan gi a hai
Phân tích h i quy r t ti n d ng trong vi c kh ng nh m i liên h gi a m t (ho c nhi u)
bi n ph thu c v i m t (ho c nhi u) bi n c l p M c tiêu cu i cùng c a ph ng phápnày là oán ho c c l ng giá tr c a bi n ph thu c t các giá tr c a m t hay
Gi s khi n t v n t i Trung tâm, các khách hàng tr l i m t b ng h i v cu c s ng
a h Nh ng ng i làm nghiên c u c n c vào b ng h i ó và ánh giá m ch t
ng cu c s ng cho nh ng khách hàng n v i trung tâm Bi n m ch t l ng cu c
ng c ký hi u là Qol trong b s li u vtc1.mdb
Trang 21 Mô hình h i quy tuy n tính
Mô hình h i quy tuy n tính dùng xem xét m i liên h gi a bi n liên t c Y g i là bi n
ph thu c và các bi n c l p Xi. Chúng ta có th có r t nhi u bi n c l p và ây là
t mô hình h i quy a bi n, tuy nhiêu trong khoá h c này chúng ta ch c p n môhình h i quy n gi n ch liên quan n hai bi n X và Y Khi xây d ng m t mô hình h iquy chúng ta ph i xem xét n m t s gi thuy t sau:
• Giá tr c a bi n X là c nh và có m t s l ng gi i h n các giá tr ,
u này có ngh a là các giá tr c a X c xác nh tr c b i nhànghiên c u và s l ng các giá tr c a X là gi i h n ôi khi bi n Xcòn c g i là bi n không ng u nhiên (mô hình h i quy v n có th xây
p giá tr c a bi n Y s ph i có phân b chu n
• t c các ph ng sai c a các t p h p giá tr Y là b ng nhau
• t c các giá tr trung bình c a t p h p giá tr Y u n m trên m t
ng th ng, gi thuy t này c bi t n là gi thuy t tuy n tính, và
nó có th c bi u hi n b ng µ |x =α+βxtrong óµy|x là giá tr trungbình c a t p h p các giá tr Y ng v i m t giá tr c a X.α vàβ c
i là các h s h i quy, v m t hình h c các h s này c g i là
m c t – hay giao m (intercept) và d c (slope) c a ng h iquy
• Các giá tr c a Y là c l p v i nhau Nói m t cách khác i, các giá tr
a Y t ng ng v i m t giá tr nh t nh c a X không ph thu c vào
các giá tr khác c a Y d a trên m t giá tr khác c a X.
Các gi thuy t nói trên có th c tóm t t thành m t ph ng trình nh sau, ph ngtrình này c g i là m t mô hình h i quy:
bx a
trong ó y là m t giá tr t m t trong các t p h p các qu n th c a bi n Y; a, b là các giá
tr c nh ngh a trong các gi thuy t trên e là sai s
1.1Xây d ng mô hình h i quy
c tiêu c a các nhà nghiên c u là mong mu n xây d ng m t ph ng trình h i quy
mô t m i liên h th c gi a bi n c l p X và bi n ph thu c Y xác nh ph ng
Trang 3pháp tính toán Tuy nhiên các b c sau ây có th c s d ng ti n hành m t phântích h i quy m t cách chu n t c.
1.2 Các b c ti n hành m t phân tích h i quy
• ánh giá xem các gi thuy t v m i liên h t ng quan tuy n tính trong
s li u phân tích có tho mãn không
• Xác nh ph ng trình ng h i quy mô t b s li u ó m t cáchchính xác nh t
• ánh giá ph ng trình h i quy xác nh m c c a m i t ng quan
và tính áp d ng c a nó trong vi c d oán và c l ng
• u các s li u c th hi n t t trong mô hình tuy n tính v a xây
ng, s d ng ph ng trình h i quy d oán và c l ng các giá
tr
• Khi chúng ta s d ng ph ng trình h i quy oán chúng ta s d
oán các giá tr c a Y khi ta có các giá tr c a X Khi ta s d ng
ph ng trình h i quy c l ng, chúng ta c l ng giá tr trungbình c a m t t p h p các giá tr c a Y d a trên các giá tr c a X tìm hi u và th c hành ph ng pháp phân tích h i quy chúng ta s th o
lu n m t ví d c th nh sau:
1.3 Bi u ch m m
c u tiên trong vi c ánh giá m i quan h gi a hai bi n là chúng ta s ti n hành v
bi u phân tán d ng ch m m c a các s li u gi ng nh trong hình d i ây Các
m trên th c xác nh b ng cách gán các giá tr c a bi n c l p X trên tr choành c a th và giá tr c a bi n ph thu c Y trên tr c tung c a th Trong ph nnày chúng ta s v bi u ch m m cho m i t ng quan gi a bi n tu i và m ch t
ng cu c s ng
1 Ch n l nh Graph t cây l nh
2 Trong ô Graph type ch n lo i bi u lo i Scatter XY
3 Nh p n3 và qol t ng ng vào ô các bi n
Trang 4Ngoài ra b n có th nh p các th ng s khác nh tên trang và kích OK th c hi n l nh.
Bi u v ra c hi n lên m t c a s riêng bi t m i B n có th ch nh s a l i các
ng c a bi u b ng cách s d ng menu trên c a s u ra K t qu u ra trong ví d
a chúng ta có d ng nh sau:
.
Trang 5ng phân tán c a các ch m m trên th có th g i ý cho chúng ta c m i quan
t nhiên c a hai bi n Nh chúng ta nhìn th y trên th các m ch m d ng nhphân tán xung quanh m t ng th ng nào ó N u ch nhìn vào th các ch m mchúng ta có th v các ng th ng th hi n m i liên h gi a X (tu i) và Y( m ch t
ng cu c s ng), và n u m i ng i v m t ng th ng b t k b ng m t th ng thìkhó có th x y ra tr ng h p hai ng i nào ó v hai ng th ng trùng khít lên nhau.Câu h i t ra cho chúng ta là: v y ng th ng nào trong các ng th ng ó cho phép
mô t t t nh t v m i liên h gi a hai bi n X và Y Chúng ta không th có c câu tr
i ch b ng cách xem xét các ng th ng c v b ng tay và m t th ng, vì khi ti nhành v b ng m t th ng chúng ta s b nh h ng b i nh ng gì chúng ta nhìn th y và
do ó ng th ng mà chúng ta xây d ng nên, ch a ch c ã là mô t t t nh t cho m iquan h gi a hai bi n ó
1.4 ng bình ph ng t i thi u (least-square line)
Ph ng pháp có c ng th ng mô t t t nh t m i liên h gi a hai bi n s c
i là ph ng pháp bình ph ng t i thi u, và ng th ng thu c t ph ng phápnày c g i là ng bình ph ng t i thi u Ph ng trình ng bình ph ng t ithi u có th c tính toán t các s li u m u thông qua các phép tính s h c c b n.Tuy nhiên chúng ta có th s d ng ch ng trình Epi Info tính các h s c a ng
i quy.Gi s mô hình h i quy cho bi n m ch t l ng cu c s ng và bi n tu i1.Ch n l nh Linear Regression t cây l nh Ch ng trình s m ra m t h p tho i c a
nh Linear Regression nh sau:
2 Nh p bi n Qol là bi n outcome variable và bi n n3 vào ô other variable
3 Ch n kho ng tin c y cho h s h i quy là 95%; kích vào ô confidence limit 95%.
Trang 64 Kích Ok th c hi n l nh
Ch ng trình trong Epi s cho k t qu nh sau:
REGRESS qol = n3 PVALUE=95%
Previous Procedure Next Procedure Current Dataset
Ký hi u y bi u th giá tr y c tính t công th c ch không ph i giá tr y quan sát
c
1.5 H s xác nh R2 (R square)
Chúng ta có th ánh giá m nh c a m i liên quan trong ph ng trình h i qui thôngqua vi c so sánh phân tán c a các m s li u so v i ng h i qui và phân tán
a các m này so v i ng trung bình y (trung bình c a bi n Y) N u chúng ta s
ng th phân tán trong ví d trên và v ng th ng c t tr c tung giá tr trung bình
Trang 7y và song song v i tr c hoành, chúng ta có th thu c m t hình nh v m c phântán c a các m th so v i ng trung bình và ng h i quy.
Hình nh th hi n trên th cho th y, phân tán c a các m th so v i ng h iquy s nh h n phân tán so v i ng trung bình Tuy v y chúng ta c ng ch a th
t lu n r ng ng h i quy là m t bi u di n t t nh t cho m i liên h gi a hai bi n, do
ó chúng ta s ph i s d ng m t giá tr khác c g i là s xác nh (coefficient of determination) R 2
Trong ví d này thì R 2= 0,01
Giá tr h s xác nh o l ng s phù h p c a mô hình ng h i quy trong vi c lý
gi i các giá tr quan sát c a bi n Y Khi giá tr (yi -y) nh , t c là kho ng cách t giá trquan sát t i ng h i quy nh thì t ng bình ph ng không c lý gi i s nh unày d n n giá tr t ng bình ph ng c lý gi i s l n h n, và do ó R2 s l n h n.Giá tr R2 l n nh t s b ng 1, và k t qu là t t c các m quan sát s n m trên ng
th ng h i quy Trong tr ng h p ng h i quy hoàn toàn không lý gi i c s bi nthiên c a Y, giá tr R2 s b ng 0 Trong tr ng h p giá tr R2 l n, ng h i quy gi ithích c ph n l n s bi n thiên c a giá tr Y, và chúng ta s ti n hành xem xét n
ph ng trình ng h i quy N u giá tr R2 nh ngh a là ng h i quy này không gi ithích c s bi n thiên c a các giá tr quan sát Y – hay nói cách khác ng h i quinày không giúp gì trong vi c mô t m i liên quan gi a hai bi n s , và do ó chúng ta có
th a ra k t lu n r ng không th dùng ph ng trình h i quy này trong vi c d oán và
c l ng cho b s li u Tuy nhiên chúng ta ch có th lo i b gi thuy t sau khi ãthông qua các ki m nh th ng kê
qu n th ó s cho ta m t ph ng trình ng h i quy không có tác
ng ho c ít giá tr trong vi c d oán ho c c l ng k t qu H n th
a, m c dù chúng ta gi thuy t r ng m i quan h gi a hai bi n X và Y làtuy n tính, nh ng trên th c t r t có th m i quan h này là không tuy ntính V y n u nh trong ki m nh mà gi thuy t H0 là b b ng 0 không b
bác b , chúng ta có th a k t lu n (gi nh r ng chúng ta không m c
ph i sai l m lo i II) là m t trong hai tình hu ng sau: 1) m c dù quan h c ahai bi n X và Y là tuy n tính nh ng m i quan h này ch a m nh có
Trang 8th d oán ho c c l ng c các giá tr Y t các giá tr X; ho c 2) m iquan h gi a bi n X và Y có th không ph i là tuy n tính, m i quan h này
có th là m t m i quan h a th c nào ó
- Khi H0: b=0 b bác b : Bây gi chúng ta s xét n tr ng h p chúng tabác b gi thuy t H0 là b = 0 Gi s r ng chúng ta không m c ph i sai l m
lo i I, chúng ta có th d n n m t trong các k t lu n sau: (1) m i liên htuy n tính gi a bi n X và Y m nh và chúng ta có th s d ng mô hình
i quy d oán ho c c l ng giá tr c a Y t bi n X; ho c (2) môhình tuy n tính có th là m t c l ng t t cho các s li u này, nh ng c ng
có th còn có các mô hình a th c khác cho phép c l ng t t h n
i nh ng phân tích nh v y chúng ta th y r ng, tr c khi s d ng mô hình h i quy oán và c l ng các giá tr , chúng ta c n ph i ti n hành ki m nh gi thuy t
th ng kê H0: b=0 Chúng ta có th s d ng ki m nh F Tr c khi ti n hành các ki m
nh gi thuy t cho giá tr chúng ta s xem xét n vi c xác nh l n c a m i quan
gi a hai bi n này nh th nào
Trong ví d trên ta có k t qu ki m nh mô hình h i quy nh sau:
Ho: b=0, S d ng ki m nh F: F=3,597 và p>0,05 à không bác b gi thuy t Ho Haynói m t cách khác chúng ta ch a th k t lu n c có m t m i quan h gi a m ch t
ng cu c s ng và bi n tu i u này c ng phù h p v i k t lu n c a chúng ta khi giá tr
r2 nh ( = 0.01)
Chúng ta c ng có th ki m nh h s a, tuy nhiên trên th c t , vi c ki m nh ý ngh a
và xác nh kho ng tin c y i v i giá tr a không c quan tâm nhi u, vì giá tr a chcho chúng ta bi t giao m c a ng h i quy v i tr c tung và ây là giá tr kh i m
a Y mà thôi u chúng ta quan tâm là giá tr b, giá tr b cho chúng ta bi t v m iquan h gi a hai bi n X và Y nhi u h n Khi hai bi n X và Y có liên h t ng quan thì
t giá tr b d ng s cho chúng ta th y m i quan h tuy n tính thu n n u giá tr X t ng
thì giá tr c a Y s t ng Ng c l i, m t giá tr b âm s cho th y m t m i quan h tuy n
tính ngh ch, giá tr c a Y s gi m khi X t ng và ng c l i Khi không có m i quan htuy n tính gi a hai bi n thì giá tr b s b ng 0
Kho ng tin c y cho giá tr b
Khi ã xác nh c giá tr c a b là khác 0, chúng ta s xác nh kho ng tin c y chogiá tr b Trong bài toán c a chúng ta ki m nh b 0 không có ý ngh a nên chúng takhông ti p t c tính kho ng tin c y cho giá tr β; N u b n mu n tính kho n g tin c y chogiá tr β b n có th d ng công th c
β+ 1,2896 (S.E)
Trang 91.7 S d ng mô hình h i quy c l ng và d oán
u các ki m nh th ng kê cho th y ph ng trình h i quy bi u di n m i liên h
gi a hai bi n quan sát mà ta quan tâm, chúng ta có th s d ng ph ng trình này vào
t s ng d ng th c t Chúng ta có th s d ng ph ng trình h i quy ó d oángiá tr c a Y t các giá tr c a X cho tr c, ngoài ra chúng ta c ng có th c l ng
kho ng d oán cho giá tr Y.
Chúng ta c ng có th s d ng ph ng trình h i quy c l ng trung bình c a t p
p các giá tr Y d a trên các giá tr X cho tr c, t ng t chúng ta c ng có th c
ng kho ng d oán cho các giá tr trung bình Y
Vì trong ví d c a chúng ta phép ki m nh không có ý ngh a nên chúng tôi ch gi ithi u cho các b n các công th c tính b n có th áp d ng trong các tr ng h p th c t
oán giá tr c a Y khi bi t giá tr c a X: Khi các gi thuy t v h i quy c áp
ng cho ph ng trình h i quy, tính toán giá tr d oán Y, ta ch c n thay giá tr X
và ph ng trình và tính toán Chúng ta có th tính toán kho ng tin c y (100-α) ph n
tr m cho giá tr Y d a trên công th c sau:
trong ó x p là m t giá tr b t k c a x mà chúng ta s d ng d oán kho ng tin c y
cho giá tr Y, b c t do cho vi c tính toán t là (n-2).
2 H i quy logistics
Trong r t nhi u nghiên c u chúng ta s có bi n ph thu c là nh ng bi n r i r c, ví d
nh chúng ta quan tâm n s ki n ó có x y ra hay không, i t ng có b b nh haykhông b b nh, t vong hay không b t vong Và t t c nh ng bi n s nh v y là nh ng
Chúng ta s d ng d li u Oswego vào d ng bài t p này Chúng ta quan tâm n bi n là
t ng i có b b nh hay không b b nh n u trong b a n ó ng i ó có n kemVanilla
Chúng ta c ng có th a ra m t câu h i "T i sao không dùng ph ng pháp bình
ph ng t i thi u phân tích h i quy cho câu h i này” ây là m t câu h i mà r t nhi u
ng i ã t ra, tuy nhiên lý do chúng ta không th dùng là nh sau:
Nh l i chúng ta có ph ng trình ng th ng h i quy nh trên
Y = a + bX
Trong ó:
Trang 10- Y là bi n ph thu c và trong tr ng h p bi n benh thì nó s có giá
- Giá tr sai s s b sai l nh, u này x y ra do ph ng sai c a bi n
c l p khác v i ph ng sai c a bi n ph thu c: var(e)= p(1-p),trong ó p là xác su t xu t hi n s ki n =1
- e không có phân b chu n vì p ch có m i 2 giá tr Do ó gi thi t
i quy không t c
- Giá tr d oán n u s d ng h i quy tuy n tính có th cho chúng
ta các giá tr l n h n 1 ho c nh h n 0 và u này là sai vì bi n
ph thu c c a chúng ta ch có th nh n m t trong hai giá tr là 0
và 1
2.1 Mô hình h i quy logistics
Mô hình h i quy logistics nh d i ây s giúp cho chúng ta kh c ph c nh ng sai
m trên, ph ng trình c a mô hình h i quy logistics c vi t nh sau:
e bX a
p
p
++
- p/(1-p) là giá tr t su t chênh "odds ratio"
- ln[p/(1-p)] là giá tr log c a odds ratio
- các thành ph n khác c a mô hình thì c ng gi ng nh mô hình h iquy tuy n tính
Mô hình h i quy logistics th c ch t là m t bi n i c a mô hình h i quy tuy n tính Nócho phép chúng ta c l ng xác su t n m trong kho ng giá tr [0,1]
Ví d , chúng ta có th c l ng xác su t
]exp[
1
]exp[
bX a
1
1
bX a
p
−
−+
=
i mô hình này, n u chúng ta a + bX =0, thì p = 0,5
u a + bX càng l n thì p s d n t i 1
Trang 11u a + bX càng nh thì p s d n t i 0.
Trên ây là hình nh so sánh 2 mô hình h i quy
Chúng ta th c hi n phân tích h i quy trong Epi Info nh sau:
1 Ch n l nh Logictic regression t cây l nh Ch ng trình s hi n th m t h p tho i
nh sau:
2 Ch n bi n Ill vào ô outcome variables, ch n bi n Vanilla, sex và ô other variable
3 Ch n kho ng tin c y là 95 % vào ô confidence limits
Trang 12LOGISTIC ILL = SEX VANILLA
Có m i liên quan gi a vi c nh ng ng i n kem Vallina và b ng c (p< 0,001) và
và v i OR =32,47 chúng ta có th nói r ng t l nh ng ng i n kem Vallina b ng c
p 32 nh ng ng i không n Trong mô hình này chúng tôi có a y u t gi i (nhi uvào ây) và ki m nh có ý ngh a nên t su t ng c ây c a nh ng ng i n vàkhông n khác nhau hai gi i
Statistic
Z- Value
Trang 14Phân b c a bi n u ra có tuân theo phân ph i chu n hay không ?
Bao nhiêu nhóm s c so sánh? Bao nhiêu nhóm s c so sánh?
1 a
u ra là liên c
1 b
So sánh v i giá tr có s n
TV &
kho ng
S khác nhau gi a các TV và s khác nhau
a kho ng
Các TV &
kho ng
Các TV & kho ng
ki m nh d u
ho c ki m
nh d u h ng Wilcoxond
Ki m nh Mann- Whitney
Ki m nh
Wallis ANOVA
Gi thuy t
(H 0 )
ng quan = 0
TB = giá tr chu n
khác bi t
gi a hai TB = 0
= 0
khác bi t
gi a các TV = 0
khác bi t tuân theo phân
Bi n u ra tuân theo
Bi n u ra tuân theo phân
Trang 15a) ây không ph i là nhóm mà ch là m t bi n c l p liên t c
b) ây không ph i là bi n c l p mà ch là m t th ng kê mô t mà c so sánh v i m t qu n th chu n hay giá tr c tính
c) Là thi t k nghiên c u trong ó nhi u o l ng c ti n hành l p l i trên cùng m t n v quan sát
d) Không l n v i ki m nh t ng h ng Wilcoxon (t ng t nh ki m nh Mann-Whitney)
e) Vi t t t: LC: l ch chu n, TB: trung bình, TV: Trung v , K : Ki m nh