Bài tập nhóm phân tích định lượng: Xây dựng mô hình hồi quy giải thích sự khác biệt về tuổi thọ trung bình của phụ nữ giữa các quốc gia trên thế giới nhằm trình bày về phân tích ma trận tương quan và quan hệ giữa các biến, xây dựng mô hình hổi quy tổng quát dùng phương pháp enter.
Trang 2M T S THU T NG VI T T T DÙNG TRONG BÀI
ANOVA (Analysis of Variance): Phân tích ph ng sai
DF (Degrees of Freedom): B c t do Sig (Observed Significance level): M c ý ngh a quan sát (chính là p-value) Std Deviation (Standard deviation): l ch chu n
Std Error (Standard Error): Sai s chu n
SPSS (Statistical Package for Social Science): Ph n m m th ng kê cho khoa h c xã h i VIF (Variance Inflation Factor): H s phóng i ph ng sai
Trang 3
III.1 Phân tích ma tr n t ng quan và quan h gi a các bi n 6 III.2 Xây d ng mô hình h i quy t ng quát dùng ph ng pháp
Enter
10
III.2.1 Hi n t ng a c ng tuy n 10 III.2.2 T m quan tr ng gi a các bi n
12 III.2.3 Ki m nh phù h p c a mô hình 13 III.2.4 Ki m tra l i m t s vi ph m gi nh c n thi t 13 III.2.4.1 Ki m nh m i quan h tuy n tính gi a bi n c
Trang 4N I DUNG FILE XU T C A SPSS ( MBA8_KT_NHOM_2.SPO)
1 th bi u th quan h gi a bi n urban và bi n lifeexpf
2 th bi u th quan h gi a bi n pop_incr và bi n lifeexpf
3 th bi u th quan h gi a bi n gdp_cap và bi n lifeexpf
4 th bi u th quan h gi a bi n calories và bi n lifeexpf
8 Mô hình h i quy g m 4 bi n: literacy, fertilty, lgurban, lggdpcap
9 Bi u phân tán gi a ph n d chu n hoá và giá tr d oán chu n hoá
10 Bi u t n s c a ph n d chu n hoá
11 K t qu th ng kê t n s tu i th trung bình c a ph n trên th gi i
Trang 5
Bài làm c a nhóm là t xây d ngmô hình h i quy gi i thích s khác bi t v tu i th
ph n gi a các qu c gia trên th gi i v i d li u làm vi c là file World 95 Tieng Viet
.SAV do th y Hoàng Tr ng cung c p. Nhóm ã dùng ph n m m SPSS ver.11 x lý s
li u v i file output có tên là MBA8_KT_nhom_2.SPO , ng th i khi x lý s li u nhóm
c ng gi thuy t là s li u c a file World 95 Tieng Viet SAV ã c làm s ch và có tin c y ch p nh n c v i yêu c u t ra
I.2./ Mô t v d li u
D li u thu th p d li u tu i th trung bình c a ph n 109 qu c gia khác nhau, m i
m t m u tin g m 23 bi n v i 4 bi n nh danh là country (qu c gia), religion (tôn giáo chính), region (khu v c)và climate (khí h u chính).Qua th ng kê t n s ta th y s li u tu i
th trung bình c a ph n c thu th p y (missing = 0) và có giá tr bi n thiên trong kho ng r t r ng t 43 (tu i) n 82 (tu i), tu i th trung bình là 70,16 (tu i)và l ch chu n
Trang 6GVHD : ThS Hoàng Tr ng
II.QUAN SÁT TR C QUAN V T NG QUAN TUY N TÍNH GI A CÁC BI N
u tiên, ta dùng th Scatter và công c curve estimate (trong SPSS) nh n nh
tr c quan m i t ng quan tuy n tính gi a bi n ph thu c tu i th ph n (lifeexpf) v i các
bi n nh l ng c l p khác1 (18 bi n), (b qua 3bi n nh tính là bi n s 1 country (qu c gia), bi n s 5 religion (tôn giáo) và bi ns 12 region (khu v c) Ta có k t q a nh sau (b ng II.1):
2 Populatn S l ng dân Không có
3 Density M t dân s (ng i/km2) Không có
4 Urban T l dân s ng vùng ô th
(%)
Phi Tuy n 2
7 Lifeexpm Tu i th nam gi i Tuy n tính
8 Literacy T l dân bi t ch (%) Tuy n tính
9 pop_incr T c t ng dân s (%/n m) Không rõ 3
10 Babymort T su t t tr s sinh(%) Tuy n tính
11 gdp_cap GDP tính trên u ng i Phi tuy n 4
13 Calories Calori n p h ng ngày TB 1
ng i
Phi Tuy n 5
14 Aids Aids cases Không có
15 birth_rt T su t sinh Tuy n tính
16 death_rt T su t t Tuy n tính
17 aids_rt Number of aids
cases/100.000 people
Không có
18 B_to_d Birth to death ratio Không có
19 Fertilty S con TB c a 1 ph n Tuy n tính
Nh v y qua quan sát trên th Scatter (và Curve estimation) ta ch c n xem l i 12
bi n nh l ng c l p có m i t ng quan v i tu i th trung bình c a ph n (lifeexpf)(b ng II.2)
Trang 74 Urban T l dân s ng vùng ô th (%) Phi tuy n
7 Lifeexpm Tu i th nam gi i Tuy n tính
8 Literacy T l dân bi t ch (%) Tuy n tính
9 pop_incr T c t ng dân s (%/n m) Không rõ
10 Babymort T su t t tr s sinh(%) Tuy n tính
11 gdp_cap GDP tính trên u ng i Phi tuy n
13 Calories Calori n p h ng ngày TB 1 ng i Phi tuy n
15 birth_rt T su t sinh (%) Tuy n tính
16 death_rt T su t t (%) Tuy n tính
19 Fertilty S con TB c a 1 ph n Tuy n tính
21 lit_mal T l nam gi i bi t ch (%) Tuy n tính
22 lit_fema T l n gi i bi t ch (%) Tuy n tính
Do trên th scatter, các bi n s 4(urban), s 9(pop_incr), s 11 (gdp_cap), và 13 (calories) bi u th m i t ng quan v i tu i th ph n (lifeexpf) có d ng phi tuy n ho c không rõ nên ta có th xác minh l i b ng công c Curve estimation trong SPSS6
i v i bi n Urban ta có k t qu nh sau:
Independent: URBAN Dependent Mth Rsq d.f F Sigf LIFEEXPF LIN 553 106 131.00 000
Ta th y giá tr R2 c a ba mô hình b c 2,b c 3 và mô hình log là cao nh t, i u này th
hi n kh n ng gi i thích ba d ng mô hình này là m nh nh t cho m iquan h gi a urban và lifeexpf Tuy r ng R2 c a hai mô hình b c 2,b c 3 cao h n R2 c a mô hình log, nh ng
n gi n hoá mô hình h n n a có th tránh hi n t ng c ng tuy n có th có gi a các bi n urban b c 1 và b c 2,3, ta quy t nh ch n mô hình log - tuy n tính cho quan h g a urban
và lifeexpf b ng cách t o ra bi n lgurban = log10 (urban) Bi n lgurban có s th t là 24
6
Tham kh o th ph n 1,2,3,4 c a file xu t MBA8_KT_nhom_2.spo
Trang 8GVHD : ThS Hoàng Tr ng
i v i bi n pop_incr ta có:
Independent: POP_INCR Dependent Mth Rsq d.f F Sigf LIFEEXPF LIN 336 107 54.07 000 LIFEEXPF LOG
LIFEEXPF INV 034 107 3.76 055 LIFEEXPF QUA 406 106 36.24 000 LIFEEXPF CUB 488 105 33.39 000 LIFEEXPF COM 302 107 46.36 000 LIFEEXPF POW
LIFEEXPF S .031 107 3.44 066 LIFEEXPF GRO 302 107 46.36 000 LIFEEXPF EXP 302 107 46.36 000 LIFEEXPF LGS 302 107 46.36 000 Notes:
12 Independent variable has non-positive values
Giá tr R2 c a các mô hình u nh , th m chí hai mô hình logarith và power không th tính c, do v y ta d t khoát b bi n pop_incr ra kh i mô hình quan h v i bi n lifeexpf
i v i bi n gdp_cap ta có:
Independent: GDP_CAP Dependent Mth Rsq d.f F Sigf LIFEEXPF LIN 412 107 75.11 000
LIFEEXPF LOG 691 107 238.93 000
LIFEEXPF INV 600 107 160.41 000 LIFEEXPF QUA 544 106 63.35 000 LIFEEXPF CUB 604 105 53.32 000 LIFEEXPF COM 364 107 61.26 000 LIFEEXPF POW 652 107 200.32 000 LIFEEXPF S .597 107 158.60 000 LIFEEXPF GRO 364 107 61.26 000 LIFEEXPF EXP 364 107 61.26 000 LIFEEXPF LGS 364 107 61.26 000
Giá tr R2 c a mô hình Logarithm là l n nh t, do ó ta ch n mô hình log - tuy n tính
bi u th m i quan h gi a gdp_cap v i lifeexpf b ng cách t o ra bi n lggdpcap = log10
(gdp_cap) Bi n lggdpcap có s th t là 25
i v i bi n calories ta có:
Independent: CALORIES
Trang 9GVHD : ThS Hoàng Tr ng
Dependent Mth Rsq d.f F Sigf LIFEEXPF LIN 601 73 110.05 000 LIFEEXPF LOG 631 73 125.07 000 LIFEEXPF INV 648 73 134.41 000
LIFEEXPF QUA 667 72 72.00 000
LIFEEXPF CUB 668 72 72.35 000 LIFEEXPF COM 569 73 96.56 000 LIFEEXPF POW 602 73 110.49 000 LIFEEXPF S .622 73 120.18 000 LIFEEXPF GRO 569 73 96.56 000 LIFEEXPF EXP 569 73 96.56 000 LIFEEXPF LGS 569 73 96.56 000
K t qu R2 c a mô hình b c 2 là cao (dù R2 c a mô hình b c 3 cao h n nh ng không áng k mà l i ph c t p h n nhi u) nên ta quy t nh dùng mô hình b c 2 mô t m i quan
h gi a calories và lifeexpf b ng cách t o thêm bi n calories2 = (calories)2 ng th i n
ây ta c ng quy t nh b h n bi n calories ra kh i mô hình vì v b n ch t ch c n bi n sqcalory = (calories)2 thay th cho bi n calories là , n u v n gi bi n calories s r t d gây
hi n t ng a c ng tuy n.Bi n sqcalory s có s th t là 26
Nh v y, qua quan sát tr c quan b ng th scatter và dùng công c curve estimation , tr c h t ta t m th i cho các bi n c l p trong b ng (II.3) vào mô hình xây
d ng h i quy cho tu i th trung bình c a ph n
B ng II.3 K t qu gi l i các bi n nh l ng sau khi dùng Curve Estimation
7 Lifeexpm Tu i th nam gi i Tuy n tính
8 Literacy T l dân bi t ch (%) Tuy n tính
10 babymort T su t t tr s sinh(%) Tuy n tính
15 Birth_rt T su t sinh (%) Tuy n tính
16 Death_rt T su t t (%) Tuy n tính
19 fertilty S con TB c a 1 ph n Tuy n tính
21 lit_mal T l nam gi i bi t ch (%) Tuy n tính
22 lit_fema T l n gi i bi t ch (%) Tuy n tính
24 lgurban Log (urban) Lin-Log
25 lggdpcap Log (gdp_cap) Lin-Log
26 sqcalory Sqrt (calories) Lin-Qua 7
Trang 10GVHD : ThS Hoàng Tr ng
III XÂY D NG MÔ HÌNH
III.1./ Phân tích ma tr n h s t ng quan và quan h gi a các bi n 8
Qua tính toán ma tr n h s t ng quan (xem b ng III.2), ta nh n th y h s t ng quan gi a bi n ph thu c lifeexpf v i 9 bi n c l p ã nêu u cao (th p nh t là -0,696 i
v i bi n death_rt) Tuy nhiên m i t ng quan gi a các bi n này c ng r t cao (thí d gi a h
s t ng quan gi a babymort v i lifeexpm là -0,936, v i literacy là -0,9 Và h s t ng quan
gi a fertilty v i birth_rt là 0,975) và ý ngh a ôi khi t ng ng, do v y ta có th xét l i vi c
a các bi n này vào ph ng trình h i quynh sau:
- Bi n lifeexpm (Tu i th nam gi i) tuy có m i t ng quan v i lifeexpf r t cao (0,982),
nh ng b n ch t gi a hai bi n này là t ng ng, y u t tu i th nam gi i cao không
ph i là y u t làm tu i th n gi i cao.Có ngh a là bi n lifeexpm không ph i là bi n nguyên nhân tác ng t i bi n ph thu c lifeexpf, mà c hai bi n này u b nh
h ng b i m t s bi n nguyên nhân khác Do ó ta có th b bi n này không a vào
mô hình h i quy
- Bi n babymort (T su t t tr s sinh(%)) tuy có h s t ng quan v i lifeexpf r t cao (-0,962) nh ng ng th i l i c ng có quan h ch t ch v i bi n literacy (h s t ng quan = - 0,9) nên ta c ng có th b bi n này ra kh i mô hình ngoài ra xét v b n ch t thì bi n babymort c ng không ph i là y u t nh h ng t i lifeexpf
- Bi n birth_rt (T su t sinh (%))c ng c a ra kh i mô hình h i quy tuy r ng h
s t ng quan v i lifeexpf c ng cao ( -0,862), nh ng b n thân bi n này l i c ng quan
h ch t v i bi n fertilty (h s t ngquan = 0,975) H n n a xét v m t ý ngh a thì
c ng không ph i là y u t nh h ng t i bi n lifeexpf
- Bi n death_rt (T su t t (%)) không c a vào mô hình vì h s t ng quan v i lifeexpf là th p nh t (-0,696) trong b ng k t qu correlation.H n n a xét v m t ý ngh a thì bi n death_rt c ng không ph i là y u t nh h ng t i bi n lifeexpf
- Bi n lit_male (T l nam gi i bi t ch (%)) và lit_fema (T l n gi i bi t ch (%)) tuy có quan h v i lifeexpf (h s t ng quan l n l t là 0,777 và 0,819) nh ng l i
c ngcó quan h ch t v i bi n literacy (h s t ng quan l n l t là 0,948 và 0,973),
do v y có th nóiba bi n literacy,,lit_male và lit_fema là cùng b n ch t(cùng th hi n dân trí vì t l dân bi t ch s ng bi n v i t l nam gi i bi t ch và t l n gi i
bi t ch ) Do v y ta có th b haibi n lit_male và lit_fema không a vào mô hình,
mà ch gi l i m t bi n literacy th hi n do m c dân trí mà thôi
Tóm l i, n ây ch còn b y bi n a vào mô hình h i quy nh b ng (III.1)
8
Xem ph n 5 c a file xu t MBA8_KT_nhom_2.spo
Trang 11Label bi n ph thu c D ng a vào mô hình
8 Literacy T l dân bi t ch (%) Tuy n tính
10 Babymort T su t t tr s sinh (%) Tuy n tính
15 birth_rt T su t sinh (%) Tuy n tính
19 Fetilty S con TB c a 1 ph n Tuy n tính
24 Lggdpcap GDP tính trên u ng i lggdpcap = log(gdp_cap)
25 Lgurban T l dân s ng vùng ô th (%) lgurban = log(urban)
26 Sqcalory Calory n p TB cho 1 ng i/1 ngày Tuy n tính
Trang 12
Tuổi thọ TB nam giới
Tỉ lệ dân biết chữ (%)
Tỉ suất tử trẻ
sơ sinh o/oo
Tỉ suất sinh o/oo
Tỉ suất tử o/oo
Số con TB của 1 phụ nữ
Tỉ lệ nam giớ i biế t chữ (%)
Tỉ lệ nữ giới biết chữ (%)
logarith co
so 10 cua bien urban
logarith co
so 10 cua bien gdp_cap
binh phuong bien calories Tuổi thọ
TB phụ nữ
Pearson Correlation 1 .982(**) .865(**) -.962(**) -.862(**) -.696(**) -.838(**) .777(**) .819(**) .750(**) .831(**) .750(**)
Pearson Correlation 982(**) 1 809(**) -.936(**) -.805(**) -.739(**) -.783(**) 717(**) 745(**) 735(**) 805(**) 739(**)
Pearson Correlation 865(**) 809(**) 1 -.900(**) -.869(**) -.486(**) -.866(**) 948(**) 973(**) 662(**) 732(**) 661(**)
Pearson Correlation -.962(**) -.936(**) -.900(**) 1 865(**) 630(**) 833(**) -.809(**) -.843(**) -.716(**) -.824(**) -.754(**)
Pearson Correlation -.862(**) -.805(**) -.869(**) .865(**) 1 .367(**) .975(**) -.794(**) -.835(**) -.635(**) -.769(**) -.754(**)
Pearson Correlation -.696(**) -.739(**) -.486(**) .630(**) .367(**) 1 .396(**) -.486(**) -.510(**) -.560(**) -.402(**) -.307(**)
Pearson Correlation -.838(**) -.783(**) -.866(**) 833(**) 975(**) 396(**) 1 -.796(**) -.839(**) -.642(**) -.693(**) -.683(**)
Trang 13Pearson Correlation 777(**) 717(**) 948(**) -.809(**) -.794(**) -.486(**) -.796(**) 1 964(**) 590(**) 611(**) 553(**)
Pearson Correlation 819(**) 745(**) 973(**) -.843(**) -.835(**) -.510(**) -.839(**) 964(**) 1 620(**) 632(**) 527(**)
Pearson Correlation 750(**) 735(**) 662(**) -.716(**) -.635(**) -.560(**) -.642(**) 590(**) 620(**) 1 713(**) 638(**)
Pearson Correlation
Pearson Correlation
Trang 14GVHD : ThS Hồng Tr ng
III.2./ Xây d ng mơ hình h i quy t ng quát dùng ph ng pháp Enter
Qua k t qu phân tích trên, ta s xây d ng mơ hình tuy n tính gi a lifeexpf v i b y
bi n literacy, babymort, birth_rt, fertilty, lgurban (logarith c s 10 c a urban), lggdpcap (logarith c s 10 c a gdp_cap),và sqcalory (sqcalory = calories2)
Ta s dùng ph ng pháp Enter trong SPSS, a tồn b b y bi n này vào cùng m t lúc, sau ĩ ta s l n l t dị tìm các vi ph m gi nh c n thi t d n d n tinh ch nh thêm mơ hình h i quy c a ta:
B ng III.3 K t qu ki m nh mơ hình h i quy g m b y bi n c l p
Standardized
Collinearity Statistics
binh phuong bien calories
a Dependent Variable: Tuổi thọ TB phụ nữ
III.2.1/ Hi n t ng a c ng tuy n 9 (xem b ng III.3):
- Bi n t su t t tr s sinh (babymort) cĩ h s VIF (Variance Inflation factor) ~10 (9,848) c ng nh h s tolerance quá nh (0,102) nên cĩ hi n t ng a c ng tuy n
Qua b ng correlation ta th y bi n babymort (T su t t tr s sinh(%)) tuy cĩ h s
t ng quan v i lifeexpf r t cao (-0,962) nh ng ng th i l i c ng cĩ quan h ch t ch
v i bi n literacy (h s t ng quan = - 0,9) nên n u gi l i bi n literacy thì s ph i b
bi n này babymort ra kh i mơ hình
- Bi n t su t sinh (birth_rt) cĩ h s VIF> 10 (37,286) c ng nh h s tolerance quá
nh (0,027) nên cĩ hi n t ng a c ng tuy n Qua b ng Correlation, ta th y bi n birth_rt tuy r ng h s t ng quan v i lifeexpf c ng cao ( -0,862), nh ng b n thân
bi n này l i c ng quan h r t ch t v i bi nfertilty (h s t ngquan = 0,975) Do v y khi gi bi n literacy trong mơ hình thì ta s ph i b bi n birth_rt ra kh i mơ hình
- Bi n s con trung bình c a m t ph n (fertilty) cĩ h s VIF > 10 (28,674) c ng nh
h s tolerance quá nh (0,035) nên cĩ hi n t ng a c ng tuy n.Tuy nhiên qua b ng Correlation, ta th y b n thân bi n này l i c ng quan h r t ch t v i bi n birth_rt (t
9