1. Trang chủ
  2. » Luận Văn - Báo Cáo

Bài tập nhóm phân tích định lượng: Xây dựng mô hình hồi quy giải thích sự khác biệt về tuổi thọ trung bình của phụ nữ giữa các quốc gia trên thế giới

25 146 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 2,84 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài tập nhóm phân tích định lượng: Xây dựng mô hình hồi quy giải thích sự khác biệt về tuổi thọ trung bình của phụ nữ giữa các quốc gia trên thế giới nhằm trình bày về phân tích ma trận tương quan và quan hệ giữa các biến, xây dựng mô hình hổi quy tổng quát dùng phương pháp enter.

Trang 2

M T S THU T NG VI T T T DÙNG TRONG BÀI

ANOVA (Analysis of Variance): Phân tích ph ng sai

DF (Degrees of Freedom): B c t do Sig (Observed Significance level): M c ý ngh a quan sát (chính là p-value) Std Deviation (Standard deviation): l ch chu n

Std Error (Standard Error): Sai s chu n

SPSS (Statistical Package for Social Science): Ph n m m th ng kê cho khoa h c xã h i VIF (Variance Inflation Factor): H s phóng i ph ng sai

Trang 3

III.1 Phân tích ma tr n t ng quan và quan h gi a các bi n 6 III.2 Xây d ng mô hình h i quy t ng quát dùng ph ng pháp

Enter

10

III.2.1 Hi n t ng a c ng tuy n 10 III.2.2 T m quan tr ng gi a các bi n

12 III.2.3 Ki m nh phù h p c a mô hình 13 III.2.4 Ki m tra l i m t s vi ph m gi nh c n thi t 13 III.2.4.1 Ki m nh m i quan h tuy n tính gi a bi n c

Trang 4

N I DUNG FILE XU T C A SPSS ( MBA8_KT_NHOM_2.SPO)

1 th bi u th quan h gi a bi n urban và bi n lifeexpf

2 th bi u th quan h gi a bi n pop_incr và bi n lifeexpf

3 th bi u th quan h gi a bi n gdp_cap và bi n lifeexpf

4 th bi u th quan h gi a bi n calories và bi n lifeexpf

8 Mô hình h i quy g m 4 bi n: literacy, fertilty, lgurban, lggdpcap

9 Bi u phân tán gi a ph n d chu n hoá và giá tr d oán chu n hoá

10 Bi u t n s c a ph n d chu n hoá

11 K t qu th ng kê t n s tu i th trung bình c a ph n trên th gi i

Trang 5

Bài làm c a nhóm là t xây d ngmô hình h i quy gi i thích s khác bi t v tu i th

ph n gi a các qu c gia trên th gi i v i d li u làm vi c là file World 95 Tieng Viet

.SAV do th y Hoàng Tr ng cung c p. Nhóm ã dùng ph n m m SPSS ver.11 x lý s

li u v i file output có tên là MBA8_KT_nhom_2.SPO , ng th i khi x lý s li u nhóm

c ng gi thuy t là s li u c a file World 95 Tieng Viet SAV ã c làm s ch và có tin c y ch p nh n c v i yêu c u t ra

I.2./ Mô t v d li u

D li u thu th p d li u tu i th trung bình c a ph n 109 qu c gia khác nhau, m i

m t m u tin g m 23 bi n v i 4 bi n nh danh là country (qu c gia), religion (tôn giáo chính), region (khu v c)và climate (khí h u chính).Qua th ng kê t n s ta th y s li u tu i

th trung bình c a ph n c thu th p y (missing = 0) và có giá tr bi n thiên trong kho ng r t r ng t 43 (tu i) n 82 (tu i), tu i th trung bình là 70,16 (tu i)và l ch chu n

Trang 6

GVHD : ThS Hoàng Tr ng

II.QUAN SÁT TR C QUAN V T NG QUAN TUY N TÍNH GI A CÁC BI N

u tiên, ta dùng th Scatter và công c curve estimate (trong SPSS) nh n nh

tr c quan m i t ng quan tuy n tính gi a bi n ph thu c tu i th ph n (lifeexpf) v i các

bi n nh l ng c l p khác1 (18 bi n), (b qua 3bi n nh tính là bi n s 1 country (qu c gia), bi n s 5 religion (tôn giáo) và bi ns 12 region (khu v c) Ta có k t q a nh sau (b ng II.1):

2 Populatn S l ng dân Không có

3 Density M t dân s (ng i/km2) Không có

4 Urban T l dân s ng vùng ô th

(%)

Phi Tuy n 2

7 Lifeexpm Tu i th nam gi i Tuy n tính

8 Literacy T l dân bi t ch (%) Tuy n tính

9 pop_incr T c t ng dân s (%/n m) Không rõ 3

10 Babymort T su t t tr s sinh(%) Tuy n tính

11 gdp_cap GDP tính trên u ng i Phi tuy n 4

13 Calories Calori n p h ng ngày TB 1

ng i

Phi Tuy n 5

14 Aids Aids cases Không có

15 birth_rt T su t sinh Tuy n tính

16 death_rt T su t t Tuy n tính

17 aids_rt Number of aids

cases/100.000 people

Không có

18 B_to_d Birth to death ratio Không có

19 Fertilty S con TB c a 1 ph n Tuy n tính

Nh v y qua quan sát trên th Scatter (và Curve estimation) ta ch c n xem l i 12

bi n nh l ng c l p có m i t ng quan v i tu i th trung bình c a ph n (lifeexpf)(b ng II.2)

Trang 7

4 Urban T l dân s ng vùng ô th (%) Phi tuy n

7 Lifeexpm Tu i th nam gi i Tuy n tính

8 Literacy T l dân bi t ch (%) Tuy n tính

9 pop_incr T c t ng dân s (%/n m) Không rõ

10 Babymort T su t t tr s sinh(%) Tuy n tính

11 gdp_cap GDP tính trên u ng i Phi tuy n

13 Calories Calori n p h ng ngày TB 1 ng i Phi tuy n

15 birth_rt T su t sinh (%) Tuy n tính

16 death_rt T su t t (%) Tuy n tính

19 Fertilty S con TB c a 1 ph n Tuy n tính

21 lit_mal T l nam gi i bi t ch (%) Tuy n tính

22 lit_fema T l n gi i bi t ch (%) Tuy n tính

Do trên th scatter, các bi n s 4(urban), s 9(pop_incr), s 11 (gdp_cap), và 13 (calories) bi u th m i t ng quan v i tu i th ph n (lifeexpf) có d ng phi tuy n ho c không rõ nên ta có th xác minh l i b ng công c Curve estimation trong SPSS6

i v i bi n Urban ta có k t qu nh sau:

Independent: URBAN Dependent Mth Rsq d.f F Sigf LIFEEXPF LIN 553 106 131.00 000

Ta th y giá tr R2 c a ba mô hình b c 2,b c 3 và mô hình log là cao nh t, i u này th

hi n kh n ng gi i thích ba d ng mô hình này là m nh nh t cho m iquan h gi a urban và lifeexpf Tuy r ng R2 c a hai mô hình b c 2,b c 3 cao h n R2 c a mô hình log, nh ng

n gi n hoá mô hình h n n a có th tránh hi n t ng c ng tuy n có th có gi a các bi n urban b c 1 và b c 2,3, ta quy t nh ch n mô hình log - tuy n tính cho quan h g a urban

và lifeexpf b ng cách t o ra bi n lgurban = log10 (urban) Bi n lgurban có s th t là 24

6

Tham kh o th ph n 1,2,3,4 c a file xu t MBA8_KT_nhom_2.spo

Trang 8

GVHD : ThS Hoàng Tr ng

i v i bi n pop_incr ta có:

Independent: POP_INCR Dependent Mth Rsq d.f F Sigf LIFEEXPF LIN 336 107 54.07 000 LIFEEXPF LOG

LIFEEXPF INV 034 107 3.76 055 LIFEEXPF QUA 406 106 36.24 000 LIFEEXPF CUB 488 105 33.39 000 LIFEEXPF COM 302 107 46.36 000 LIFEEXPF POW

LIFEEXPF S .031 107 3.44 066 LIFEEXPF GRO 302 107 46.36 000 LIFEEXPF EXP 302 107 46.36 000 LIFEEXPF LGS 302 107 46.36 000 Notes:

12 Independent variable has non-positive values

Giá tr R2 c a các mô hình u nh , th m chí hai mô hình logarith và power không th tính c, do v y ta d t khoát b bi n pop_incr ra kh i mô hình quan h v i bi n lifeexpf

i v i bi n gdp_cap ta có:

Independent: GDP_CAP Dependent Mth Rsq d.f F Sigf LIFEEXPF LIN 412 107 75.11 000

LIFEEXPF LOG 691 107 238.93 000

LIFEEXPF INV 600 107 160.41 000 LIFEEXPF QUA 544 106 63.35 000 LIFEEXPF CUB 604 105 53.32 000 LIFEEXPF COM 364 107 61.26 000 LIFEEXPF POW 652 107 200.32 000 LIFEEXPF S .597 107 158.60 000 LIFEEXPF GRO 364 107 61.26 000 LIFEEXPF EXP 364 107 61.26 000 LIFEEXPF LGS 364 107 61.26 000

Giá tr R2 c a mô hình Logarithm là l n nh t, do ó ta ch n mô hình log - tuy n tính

bi u th m i quan h gi a gdp_cap v i lifeexpf b ng cách t o ra bi n lggdpcap = log10

(gdp_cap) Bi n lggdpcap có s th t là 25

i v i bi n calories ta có:

Independent: CALORIES

Trang 9

GVHD : ThS Hoàng Tr ng

Dependent Mth Rsq d.f F Sigf LIFEEXPF LIN 601 73 110.05 000 LIFEEXPF LOG 631 73 125.07 000 LIFEEXPF INV 648 73 134.41 000

LIFEEXPF QUA 667 72 72.00 000

LIFEEXPF CUB 668 72 72.35 000 LIFEEXPF COM 569 73 96.56 000 LIFEEXPF POW 602 73 110.49 000 LIFEEXPF S .622 73 120.18 000 LIFEEXPF GRO 569 73 96.56 000 LIFEEXPF EXP 569 73 96.56 000 LIFEEXPF LGS 569 73 96.56 000

K t qu R2 c a mô hình b c 2 là cao (dù R2 c a mô hình b c 3 cao h n nh ng không áng k mà l i ph c t p h n nhi u) nên ta quy t nh dùng mô hình b c 2 mô t m i quan

h gi a calories và lifeexpf b ng cách t o thêm bi n calories2 = (calories)2 ng th i n

ây ta c ng quy t nh b h n bi n calories ra kh i mô hình vì v b n ch t ch c n bi n sqcalory = (calories)2 thay th cho bi n calories là , n u v n gi bi n calories s r t d gây

hi n t ng a c ng tuy n.Bi n sqcalory s có s th t là 26

Nh v y, qua quan sát tr c quan b ng th scatter và dùng công c curve estimation , tr c h t ta t m th i cho các bi n c l p trong b ng (II.3) vào mô hình xây

d ng h i quy cho tu i th trung bình c a ph n

B ng II.3 K t qu gi l i các bi n nh l ng sau khi dùng Curve Estimation

7 Lifeexpm Tu i th nam gi i Tuy n tính

8 Literacy T l dân bi t ch (%) Tuy n tính

10 babymort T su t t tr s sinh(%) Tuy n tính

15 Birth_rt T su t sinh (%) Tuy n tính

16 Death_rt T su t t (%) Tuy n tính

19 fertilty S con TB c a 1 ph n Tuy n tính

21 lit_mal T l nam gi i bi t ch (%) Tuy n tính

22 lit_fema T l n gi i bi t ch (%) Tuy n tính

24 lgurban Log (urban) Lin-Log

25 lggdpcap Log (gdp_cap) Lin-Log

26 sqcalory Sqrt (calories) Lin-Qua 7

Trang 10

GVHD : ThS Hoàng Tr ng

III XÂY D NG MÔ HÌNH

III.1./ Phân tích ma tr n h s t ng quan và quan h gi a các bi n 8

Qua tính toán ma tr n h s t ng quan (xem b ng III.2), ta nh n th y h s t ng quan gi a bi n ph thu c lifeexpf v i 9 bi n c l p ã nêu u cao (th p nh t là -0,696 i

v i bi n death_rt) Tuy nhiên m i t ng quan gi a các bi n này c ng r t cao (thí d gi a h

s t ng quan gi a babymort v i lifeexpm là -0,936, v i literacy là -0,9 Và h s t ng quan

gi a fertilty v i birth_rt là 0,975) và ý ngh a ôi khi t ng ng, do v y ta có th xét l i vi c

a các bi n này vào ph ng trình h i quynh sau:

- Bi n lifeexpm (Tu i th nam gi i) tuy có m i t ng quan v i lifeexpf r t cao (0,982),

nh ng b n ch t gi a hai bi n này là t ng ng, y u t tu i th nam gi i cao không

ph i là y u t làm tu i th n gi i cao.Có ngh a là bi n lifeexpm không ph i là bi n nguyên nhân tác ng t i bi n ph thu c lifeexpf, mà c hai bi n này u b nh

h ng b i m t s bi n nguyên nhân khác Do ó ta có th b bi n này không a vào

mô hình h i quy

- Bi n babymort (T su t t tr s sinh(%)) tuy có h s t ng quan v i lifeexpf r t cao (-0,962) nh ng ng th i l i c ng có quan h ch t ch v i bi n literacy (h s t ng quan = - 0,9) nên ta c ng có th b bi n này ra kh i mô hình ngoài ra xét v b n ch t thì bi n babymort c ng không ph i là y u t nh h ng t i lifeexpf

- Bi n birth_rt (T su t sinh (%))c ng c a ra kh i mô hình h i quy tuy r ng h

s t ng quan v i lifeexpf c ng cao ( -0,862), nh ng b n thân bi n này l i c ng quan

h ch t v i bi n fertilty (h s t ngquan = 0,975) H n n a xét v m t ý ngh a thì

c ng không ph i là y u t nh h ng t i bi n lifeexpf

- Bi n death_rt (T su t t (%)) không c a vào mô hình vì h s t ng quan v i lifeexpf là th p nh t (-0,696) trong b ng k t qu correlation.H n n a xét v m t ý ngh a thì bi n death_rt c ng không ph i là y u t nh h ng t i bi n lifeexpf

- Bi n lit_male (T l nam gi i bi t ch (%)) và lit_fema (T l n gi i bi t ch (%)) tuy có quan h v i lifeexpf (h s t ng quan l n l t là 0,777 và 0,819) nh ng l i

c ngcó quan h ch t v i bi n literacy (h s t ng quan l n l t là 0,948 và 0,973),

do v y có th nóiba bi n literacy,,lit_male và lit_fema là cùng b n ch t(cùng th hi n dân trí vì t l dân bi t ch s ng bi n v i t l nam gi i bi t ch và t l n gi i

bi t ch ) Do v y ta có th b haibi n lit_male và lit_fema không a vào mô hình,

mà ch gi l i m t bi n literacy th hi n do m c dân trí mà thôi

Tóm l i, n ây ch còn b y bi n a vào mô hình h i quy nh b ng (III.1)

8

Xem ph n 5 c a file xu t MBA8_KT_nhom_2.spo

Trang 11

Label bi n ph thu c D ng a vào mô hình

8 Literacy T l dân bi t ch (%) Tuy n tính

10 Babymort T su t t tr s sinh (%) Tuy n tính

15 birth_rt T su t sinh (%) Tuy n tính

19 Fetilty S con TB c a 1 ph n Tuy n tính

24 Lggdpcap GDP tính trên u ng i lggdpcap = log(gdp_cap)

25 Lgurban T l dân s ng vùng ô th (%) lgurban = log(urban)

26 Sqcalory Calory n p TB cho 1 ng i/1 ngày Tuy n tính

Trang 12

Tuổi thọ TB nam giới

Tỉ lệ dân biết chữ (%)

Tỉ suất tử trẻ

sơ sinh o/oo

Tỉ suất sinh o/oo

Tỉ suất tử o/oo

Số con TB của 1 phụ nữ

Tỉ lệ nam giớ i biế t chữ (%)

Tỉ lệ nữ giới biết chữ (%)

logarith co

so 10 cua bien urban

logarith co

so 10 cua bien gdp_cap

binh phuong bien calories Tuổi thọ

TB phụ nữ

Pearson Correlation 1 .982(**) .865(**) -.962(**) -.862(**) -.696(**) -.838(**) .777(**) .819(**) .750(**) .831(**) .750(**)

Pearson Correlation 982(**) 1 809(**) -.936(**) -.805(**) -.739(**) -.783(**) 717(**) 745(**) 735(**) 805(**) 739(**)

Pearson Correlation 865(**) 809(**) 1 -.900(**) -.869(**) -.486(**) -.866(**) 948(**) 973(**) 662(**) 732(**) 661(**)

Pearson Correlation -.962(**) -.936(**) -.900(**) 1 865(**) 630(**) 833(**) -.809(**) -.843(**) -.716(**) -.824(**) -.754(**)

Pearson Correlation -.862(**) -.805(**) -.869(**) .865(**) 1 .367(**) .975(**) -.794(**) -.835(**) -.635(**) -.769(**) -.754(**)

Pearson Correlation -.696(**) -.739(**) -.486(**) .630(**) .367(**) 1 .396(**) -.486(**) -.510(**) -.560(**) -.402(**) -.307(**)

Pearson Correlation -.838(**) -.783(**) -.866(**) 833(**) 975(**) 396(**) 1 -.796(**) -.839(**) -.642(**) -.693(**) -.683(**)

Trang 13

Pearson Correlation 777(**) 717(**) 948(**) -.809(**) -.794(**) -.486(**) -.796(**) 1 964(**) 590(**) 611(**) 553(**)

Pearson Correlation 819(**) 745(**) 973(**) -.843(**) -.835(**) -.510(**) -.839(**) 964(**) 1 620(**) 632(**) 527(**)

Pearson Correlation 750(**) 735(**) 662(**) -.716(**) -.635(**) -.560(**) -.642(**) 590(**) 620(**) 1 713(**) 638(**)

Pearson Correlation

Pearson Correlation

Trang 14

GVHD : ThS Hồng Tr ng

III.2./ Xây d ng mơ hình h i quy t ng quát dùng ph ng pháp Enter

Qua k t qu phân tích trên, ta s xây d ng mơ hình tuy n tính gi a lifeexpf v i b y

bi n literacy, babymort, birth_rt, fertilty, lgurban (logarith c s 10 c a urban), lggdpcap (logarith c s 10 c a gdp_cap),và sqcalory (sqcalory = calories2)

Ta s dùng ph ng pháp Enter trong SPSS, a tồn b b y bi n này vào cùng m t lúc, sau ĩ ta s l n l t dị tìm các vi ph m gi nh c n thi t d n d n tinh ch nh thêm mơ hình h i quy c a ta:

B ng III.3 K t qu ki m nh mơ hình h i quy g m b y bi n c l p

Standardized

Collinearity Statistics

binh phuong bien calories

a Dependent Variable: Tuổi thọ TB phụ nữ

III.2.1/ Hi n t ng a c ng tuy n 9 (xem b ng III.3):

- Bi n t su t t tr s sinh (babymort) cĩ h s VIF (Variance Inflation factor) ~10 (9,848) c ng nh h s tolerance quá nh (0,102) nên cĩ hi n t ng a c ng tuy n

Qua b ng correlation ta th y bi n babymort (T su t t tr s sinh(%)) tuy cĩ h s

t ng quan v i lifeexpf r t cao (-0,962) nh ng ng th i l i c ng cĩ quan h ch t ch

v i bi n literacy (h s t ng quan = - 0,9) nên n u gi l i bi n literacy thì s ph i b

bi n này babymort ra kh i mơ hình

- Bi n t su t sinh (birth_rt) cĩ h s VIF> 10 (37,286) c ng nh h s tolerance quá

nh (0,027) nên cĩ hi n t ng a c ng tuy n Qua b ng Correlation, ta th y bi n birth_rt tuy r ng h s t ng quan v i lifeexpf c ng cao ( -0,862), nh ng b n thân

bi n này l i c ng quan h r t ch t v i bi nfertilty (h s t ngquan = 0,975) Do v y khi gi bi n literacy trong mơ hình thì ta s ph i b bi n birth_rt ra kh i mơ hình

- Bi n s con trung bình c a m t ph n (fertilty) cĩ h s VIF > 10 (28,674) c ng nh

h s tolerance quá nh (0,035) nên cĩ hi n t ng a c ng tuy n.Tuy nhiên qua b ng Correlation, ta th y b n thân bi n này l i c ng quan h r t ch t v i bi n birth_rt (t

9

Ngày đăng: 03/01/2020, 16:08

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w