Trong nghiên cứu bán thử nghiệm quasi-experiment, nghiên cứu viên không thể có khả năng thay đổi manipulate các biến độc lập, do đó thường có các biến nhiễu xuất hiện.. Trong hồi quy
Trang 1VIỆN NGHIÊN CỨU Y XÃ HỘI HỌC
Ứng dụng phân tích hồi quy
Nguyễn Trương Nam
Copyright – Bản quyền thuộc về tác giả và thongke.info Khi sử dụng một phần hoặc toàn bộ bài giảng đề nghị mọi người trích dẫn: tên tác giả và
thongke.info Ví dụ: Nguyễn Thị Linh – Thongke.info
Trang 2Nội dung
Trang 3 Đây là ví dụ về hồi quy đa biến, chúng ta ước tính Y=Điểm tổng kết năm đầu tiên đại học X1=xếp hạng THPT, X2= Điểm thi vào đại học, X3=giới tính
Trang 4Tại sao cần phân tích hồi quy?
Trong nghiên cứu bán thử nghiệm (quasi-experiment), nghiên cứu viên không thể có khả năng thay đổi (manipulate) các biến độc lập, do đó thường có các biến nhiễu xuất hiện Chúng ta cố gắng để khắc phục tình huống này bằng phương pháp thống kê cụ thể là sử dụng hồi quy
đa biến
Trong hồi quy đa biến mối liên hệ của biến phụ thuộc (kết quả) và biến độc lập (tác động) được đánh giá trong khi kiểm soát các biến nhiễu khác
Mục đích của hồi quy đa biến: 1) dự báo (prediction): tìm hiểu/phát hiện các yếu tố có thể dự báo một hiện tượng (biến kết quả); 2) giải thích (explaination): tìm hiểu/phát hiện các hệ thống/quy trình hoặc nguyên nhân dẫn tới một hiện tượng
James Cotter (2001) HUMD5122-Applied
Regression Analysis
Trang 5Lý do cần phân tích đa biến- ví dụ
ISMS Nghiên cứu đánh giá tác động của một chương trình can thiệp (kéo dài 2 năm) lên kiến thức và hành vi của trẻ em đường phố tại HP
Như vậy mối liên quan giữa tham gia dự án và thay đổi hành vi phải được xem xét/phân tích khi kiểm soát các tác động của các yếu tố
nhiễu khác Đây chính là nguyên lý của phân tích đa biến
Trang 65.77
± 2.32
7.56 ± 1.18***
6.33 ± 1.85
* P < 0.05, ** P < 0.01, *** P < 0.001
Trang 7Biến độc lập¥
N=582
Có kiến thức đúng về HIV với không có
kiến thức đúng
Tiếp cận với dự án NAM
Trang 8Bảng: So sánh mức độ sử dụng BCS với PNMD trong vòng 6 tháng qua giữa nhóm tiếp cận và không tiếp cận dự án
ở nhóm không tiếp cận với dự án chỉ là 35%
* P < 0.05, ** P < 0.01, *** P < 0.001
Trang 9Biến độc lâp
N=82
Sử dụng BCS với PNMD tất cả các lần (So với không phải tất cả các lần)
Mối quan hệ giữa tiếp cận dự án và sử dụng BCS trong phân tích đa biến không còn ý nghĩa thống kê (P > 0.005) Kết quả này khác so với các phân tích đôi biến, bởi vì mô hình đa biến kiểm soát các yếu tố nhiễu tiềm tàng
Hồi quy logic giữa sử dụng bao cao su với PNMD và tiếp cân với dự án NAM
*P < 05 **P<.01 ***P<.001
Trang 10Xây dựng mô hình hồi quy: đa biến, logic
Trang 11Hồi quy đa biến
Trang 12Hồi quy Logic
Trang 13Ví dụ
Hồi quy đa biến (Multiple Regression)
◦ Số lần khám thai = b0 + b1(tuổi) + b2(dân tộc)+ b3(học vấn) + b4(tình trạng hôn nhân)
Hồi quy Logic (Logistic Regression)
◦ Hành vi nạo phá thai = b0 + b1(tuổi) + b2(dân tộc)+ b3(học vấn) + b4(tình trạng hôn nhân)+b5 (Nghề nghiệp) +b6 (tuổi quan hệ tình dục lần đầu)
Trang 14Các bước xây dựng mô hình hồi quy
◦ Chuyển câu hỏi nghiên cứu thành phương trình hồi quy
◦ Xác định các biến độc lập (biến dự đoán)
2) Đánh giá các yếu tố nguy cơ ảnh hưởng tới hiệu lực của kiểm định thống kê (valid inference)
◦ Cỡ mẫu: đủ mẫu để đảm bảo 20 mẫu/biến độc lập
◦ Phân phối chuẩn của biến số
◦ Đảm bảo các biến độc lập – không tương quan
◦ Kiểm tra và loại trừ outliers
Trang 15Các bước xây dựng mô hình hồi quy
3) Xây dựng mô hình (fitting models)
Fitting full model (dựa trên học thuyết – theory)
Fitting từng model bằng cách thêm biến, đánh giá model fit dựa trên các tiêu chí thống kê, lựa chọn model tốt nhất – good fit (thăm dò – explotary)
Tự động, ví dụ Stepwise regression
4) chạy mô hình hồi quy và trình bày kết quả
Trang 16Xây dựng các mô hình- Chọn các biến trong
mô hình như thế nào?
Y: Biến phụ thuộc (biến kết quả)
X1, X2, X3: Biến độc lập (biến dự đoán)
Mô hình hồi quy đa biến lý tưởng là mô hình có các biến độc lập có mối liên quan lớn (tuyến tính) với Y (biến phụ thuộc) và biến độc lập tương đối độc lập với nhau
Điều này đặt ra câu hỏi chung là làm thế nào để thiết kế mô hình hồi đa biến tốt? Trong trường hợp chúng ta đang sư dụng hồi quy đa biến để kiểm định giả thuyết, tốt nhất là nên dựa vào chính giả thuyết đó để quyết định những biến độc lập nào sẽ được sử dụng trong mô hình
Nhưng trong việc thiết kế mô hình tốt để kiểm định một giả thuyết,
chúng ta cũng cần phải dùng một số các tiêu chí thống kê đã được đề cập để quyết định xây dựng mô hình
James Cotter (2001) HUMD5122-Applied
Regression Analysis
Trang 17Các nguyên tắc để thiết kế mô hình hồi quy đa biến tốt
Cố gắng đưa tất cả các biến có liên quan quan trọng vào
mô hình hồi quy (nếu không thì tham số ước tính có thể bị sai số) Trong nghiên cứu bán thử nghiệm, chúng ta cố
gắng đưa tất cả các biến nhiễu không kiểm soát được quan trọng vào mô hình
và “Good fit” (có thể làm tăng lên bằng cách thêm các
Trang 18Các nguyên tắc để thiết kế mô hình hồi quy đa biến tốt
Sử dụng các biến độc lập không có mối tương quan lẫn
nhau (Tránh Multicolinearity) Biến độc lập phải tương đối
‘độc lập’
Không đưa các biến độc lập giống nhau (thừa) vào cùng một mô hình Ví dụ: không sử dụng 2 biến (X1) cấp học trong kỳ thi cuối cùng và (X2) xếp hạng trong kỳ thi cuối cùng trong cùng một mô hình để dự đoán về một số các
thay đổi kết quả của học sinh- vì 2 biến này đều dựa trên các khái niệm và thống kê gần như nhau (redundant)
James Cotter (2001) HUMD5122-Applied
Regression Analysis
Trang 19Ví dụ
Hồi quy đa biến (Multiple Regression)
◦ Số lần đi khám thai = b0 + b1(tuổi) + b2(dân
tộc)+ b3(học vấn) + b4(tình trạng hôn nhân) + b5(nghề nghiệp)
Hồi quy Logic (Logistic Regression)
◦ Hành vi nạo phá thai = b0 + b1(tuổi) + b2(dân tộc)+ b3(học vấn) + b4(tình trạng hôn nhân)+b5 (Nghề nghiệp) +b6 (tuổi quan hệ tình dục lần đầu)
Trang 20Các biến được sử dụng trong mô hình
1/ Mô hình hồi quy đa biến
Biến phụ thuộc: Số lần đi khám thai (Q83)
2/ Mô hình hồi quy logistic
Biến phụ thuộc: Đã từng nạo phá thai chưa? (Q40_recode)
Trang 21Chuẩn bị các biến cho mô hình hồi quy
(Variable transformation for regression)
1/ Kiểm tra sự phân bố chuẩn của biến phụ thuộc
2/ Kiểm tra tính độc lập-không tương quan của các biến độc lập
3/ tạo hoặc recode lại các biến độc lâp danh mục thành các biến dummy
◦ Với các biến có 2 lựa chọn trả lời, recode lại thành 1 và 0
◦ Với những biến có từ 3 lựa chọn trả lời trở lên, thì sẽ tạo các biến dummy (1-0) cho mỗi lựa chọn Đưa (n-1) biến vào mô hình (biến còn lại mà không được đưa vào mô hình sẽ là biến tham khảo - reference cho các biến khác)
Trang 22Ví dụ: Hồi quy đa biến
Hồi quy đa biến (Multiple Regression)
◦ Số lần đi khám thai = b0 + b1(tuổi) + b2(dân tộc)+ b3(học vấn) + b4(tình trạng hôn nhân) + b5(nghề nghiệp)
◦ Có thể thêm: tình trạnh kinh tế
Trang 23 Kiếm tra sự phân bố chuẩn của biến phụ thuộc: Số lần đi khám thai?
Biến phụ thuộc:
Trang 24Các biến độc lập trong mô hình phải độc lập và không tương quan với nhau
1 Dựa vào kết quả từ các nghiên cứu khác
2 Dựa vào các phương pháp tính toán
- Kiểm tra bằng lệnh correlate:
Analyze/correlate/bivariate
- Kiểm tra trực tiếp trong linear thông qua
collinerity diagnostics : tolerance (<0.1 bad) and VIF (1/tolerance)
Trang 25Cách 1: Kiểm tra bằng lệnh correlate: Analyze/correlate/bivariate
Trang 26Với những giá trị Pearson Corrleration >0.7, chứng tỏ các biến đó tương quan lớn với nhau do đó phải loại 1 trong các biến đó ra khỏi
mô hình
Trang 27Cách 2: Kiểm tra trực tiếp khi chạy regression thông qua colinearity diagnostics
TOLERANCE (<0.1 – bad)
VIF (1/tolerance)
Trang 29Chuyển các biến độc lập (rời rạc) về dạng
missing value ethnicre(9)
Trang 30 *******education********
RECODE q7 (SYSMIS=SYSMIS) (0 thru 5 = 1) (6 thru 9 = 2) (10 thru 12= 3) (13 thru 15=4) (99=SYSMIS) INTO educat
VARIABLE LABEL educat 'educat - Education completed, categorized'
VALUE LABEL educat
1 'Primary/Under primary School'
if (educat=1 or educat=3 or educat=4) edu2=0
VARIABLE LABELS edu2 "Edu2-Secondary school"
value labels edu2 1"Secondary school" 0 "Other"
missing values edu2 (9)
Compute edu3=9
if (educat=3) edu3=1
if (educat=1 or educat=2 or educat=4) edu3=0
VARIABLE LABELS edu3 "Edu3-High school"
value labels edu3 1"High school" 0 "Other"
missing values edu3 (9)
Compute edu4=9
if (educat=4) edu4=1
if (educat=1 or educat=2 or educat=3) edu4=0
VARIABLE LABELS edu4 "Edu4-College/higher"
value labels edu4 1"college/higher" 0 "Other"
missing values edu4 (9)
Trang 31 ***************Marital status
RECODE q5 (1=1) (2=2) (3=1) (4=2) (5=3) INTO q5recode
VARIABLE LABEL Q5RECODE 'Q5recode-Marital status recategorized'
VALUE LABELs Q5recode
1 'Married or lives with partner'
2 'Divorced/widowed/separated/not living with spouse'
3 'Single (never married)'
execute
******Tạo các biến dummy
compute mar1=9
if (q5recode=1) mar1=1
if (q5recode=2 or q5recode=3) mar1=0
VARIABLE LABELS mar1 "Mar1-Married or lives with a partner"
value labels mar1 1"Married/live with a partner" 0"Other"
missing values mar1(9)
execute
compute mar2=9
if (q5recode=2) mar2=1
if (q5recode=1 or q5recode=3) mar2=0
VARIABLE LABELS mar2 "Mar2-divorced/widowed"
value labels mar2 1"widowed/divorced" 0"Other"
missing values mar2(9)
execute
Trang 32***********Occupation
Recode Q8 (1=0) (2 thr 8 =1) into occunew
var label occunew "Occupation-Famer and other" value label occunew 0"Famer" 1"Other"
missing value occunew(9)
Trang 33Fitting full model
SỐ LẦN KHÁM THAI = a + b1(tuổi) + b2(dân tộc) + b3(học vấn cấp 2) + b4 (học vấn cấp 3) + b5(học vấn trên cấp 3) + b6 (tt hôn nhân)+ b7 (nghề nghiệp)
Trang 35Fitting từng model bằng cách thêm biến, đánh giá model fit dựa trên các tiêu chí thống kê
*****Model with 3 independent vars
SỐ LẦN KHÁM THAI = a + b1(tuổi) + b2(dân tộc) + b3 (nghề nghiệp)
Trang 37*******5 independents vars
SỐ LẦN KHÁM THAI = a + b1(tuổi) + b2(dân tộc) + b3 (nghề
nghiệp) + b4(cấp 2) + b5(cấp 3) + b6(> cấp 3)+b7 (tt hôn nhân)
Trang 39Sự thay đổi R 2 sau khi thêm biến nghề nghiệp
và học vấn
Trang 44Ví dụ
Hồi quy Logic (Logistic Regression)
◦ Hành vi nạo phá thai = b0 + b1(tuổi) + b2(dân tộc)+ b3(học vấn) + b4(tình trạng hôn nhân)+b5 (Nghề nghiệp) +b7 (tuổi quan hệ tình dục lần đầu)
Trang 45Các biến độc lập trong mô hình phải uncorrelated or independent với nhau
- Kiểm tra bằng lệnh correlate: Analyze/correlate/bivariate
- Kiểm tra trực tiếp trong logistic regression thông qua
correlation
Trang 47Recode biến độc lập thành biến dummy
*********Age of first intercourse
Recode Q27 (14 thru 17=1) (18 thru 24=2) (25 thru highest=3) into agefirstsex_cat
***Tạo biến dummy**
compute agefirstsex2=9
if (agefirstsex_cat=2) agefirstsex2=1
if (agefirstsex_cat=1) or (agefirstsex_cat=3) agefirstsex2=0
VARIABLE LABELS agefirstsex2 "18-24 had first intercourse"
value labels agefirstsex2 1 "had first sex at 18-24" 0"Other"
missing values agefirstsex2(9)
compute agefirstsex3=9
if (agefirstsex_cat= 3) agefirstsex3=1
if (agefirstsex_cat=1) or (agefirstsex_cat=2) agefirstsex3=0
VARIABLE LABELS agefirstsex3 ">24 had first intercourse"
value labels agefirstsex3 1 "had first sex at >24" 0"Other"
missing values agefirstsex3 (9)
Trang 48Fitting full model
Đã từng nạo thai = a + b1(tuổi) + b2(dân tộc) + b3(hôn
nhân) + b4(nghề nghiệp) + b5(học cấp 2) + b6(học cấp 3) + b7(trên cấp 3) + b8(tuổi lần đầu có sex)
LOGISTIC REGRESSION VARIABLES everabor
/METHOD=ENTER Q2 ethnicre mar1 mar2 occunew edu2 edu3 edu4 agefirstsex2 agefirstsex3
/PRINT=GOODFIT CORR
/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20)
CUT(0.5)
Trang 50Fitting từng model bằng cách thêm biến, đánh giá
model fit dựa trên các tiêu chí thống kê
*****Model với 2 biến độc lập (independent vars)
Đã từng nạo thai = a + b1(tuổi) + b2(dân tộc)
LOGISTIC REGRESSION VARIABLES everabor
/METHOD=ENTER Q2 ethnicre
/PRINT=GOODFIT CORR
/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20) CUT(0.5)
Trang 52*******mô hình với 4 biến độc lập - independents vars
Đã từng nạo thai = a + b1(tuổi) + b2(dân tộc) + b3(hôn nhân) + b4(nghề nghiệp)
LOGISTIC REGRESSION VARIABLES everabor
/METHOD=ENTER Q2 ethnicre mar1 mar2 occunew’ /PRINT=GOODFIT CORR
/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20)
CUT(0.5)
Trang 54Mô hình với 6 biến độc lập - independent vars
Đã từng nạo thai = a + b1(tuổi) + b2(dân tộc) +
b3a(đã lập gia đình) + b3b(ly dị/góa)+ b4(nghề nghiệp) + b5a(học cấp 2) + b5b(học cấp 3) +
b5c(trên cấp 3) + b6a(tuổi lần đầu có sex
19-24)+b6b(tuổi lần đầu có sex >24)
LOGISTIC REGRESSION VARIABLES everabor
/METHOD=ENTER Q2 ethnicre mar1 mar2 occunew
edu2 edu3 edu4 agefirstsex2 agefirstsex3
/PRINT=GOODFIT CORR
/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20)
CUT(0.5)
Trang 56Sự thay đổi của -2log likelihooh
Trang 57Stepwise
*******Backward
LOGISTIC REGRESSION VARIABLES everabor
/METHOD=BSTEP(COND) Q2 ethnicre mar1 mar2 occunew edu2 edu3 edu4 agefirstsex2 agefirstsex3
/PRINT=GOODFIT CORR
/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20) CUT(0.5)
Trang 60******Forward
LOGISTIC REGRESSION VARIABLES everabor
/METHOD=FSTEP(COND) Q2 edu2 edu3 edu4 ethnicre mar1 mar2 occunew agefirstsex2 agefirstsex3
/PRINT=GOODFIT CORR
/CRITERIA=PIN(0.05) POUT(0.10) ITERATE(20)
CUT(0.5)