Đa cộng tuyến - Hai hoặc nhiều biến độc lập trong mô hình hồi qui đa biến có mối liên quan chặt chẽ với nhau, thường là nếu 2 biến độc lập có hệ số tương quan r>0,8 - Không làm thay
Trang 1TRƯỜNG ĐẠI HỌC Y TẾ CÔNG CỘNG
DỊCH TỄ THỐNG KÊ NÂNG CAO
HỒI QUI TUYẾN TÍNH
ĐA BIẾN
Trang 2MỤC TIÊU
1. Trình bày và kiểm chứng được các giả định cho
phân tích hồi qui
2. Sử dụng SPSS xây dựng được mô hình hồi qui
tuyến tính từ đơn biến đến đa biến và phiên giải
Trang 3Ứng dụng của hồi qui tuyến tính
1. Cung cấp sự mô tả tốt nhất về biến phụ thuộc
2. Dự đoán giá trị của biến phụ thuộc
3. Ngoại suy cho quần thể nghiên cứu
4. Ước lượng các tham số
5. Khống chế các biến nhiễu
6. Phát triển các mô hình thực tế
Trang 4Phương trình hồi qui tuyến tính
- Hồi qui tuyến tính đơn biến
- Hồi qui tuyến tính đa biến
y = α + β1x1 + β2x2 + +βkxk + ε
Trang 5logit (pi) = β0 + β1X1 + β2X2 + β3X3
Hồi quy đa biến
PurchaseBệnh/Không bệnh Gender Income AgeGiới Thu nhập Tuổi
Trang 6Các giả định xây dựng mô hình hồi qui
1. Cỡ mẫu
- Ít nhất phải có 3 biến trong mô hình:1 biến phụ
thuộc và 2 biến độc lập
- Cần ít nhất là 20 đối tượng cho một biến độc lập
- Trong mô hình hồi qui đa biến đơn giản nhất
cũng cần cỡ mẫu là n >40 (2 biến độc lập)
Trang 7Các giả định xây dựng mô hình hồi qui
2 Quan hệ tuyến tính
- Biến độc lập và biến phụ thuộc phải có mối
quan hệ tuyến tính
- Kiểm tra giả định bằng biểu đồ chấm điểm
hoặc một số kiểm định thống kê như ANOVA,
so sánh R2
Trang 8Các giả định xây dựng mô hình hồi qui
3 Phân bố chuẩn
- Tất cả các biến đưa vào mô hình phải có phân bố
chuẩn
- Kiểm chứng tính chuẩn thông qua: biểu đồ histogram,
biểu đồ PP plot, các kiểm định goodness of fit
- Nếu biến không có phân bố chuẩn, có thể dùng các
phép biến đổi: log, hàm mũ…
Trang 9Các giả định xây dựng mô hình hồi qui
3 Phân bố chuẩn
Trang 10Các giả định xây dựng mô hình hồi qui
4 Phương sai đồng nhất
- Mỗi nhóm/loại của các biến độc lập cần phải
có phương sai đồng nhất với nhau
- Kiểm định tính đồng nhất phương sai của các
biến độc lập bằng cách sử dụng kiểm định
như Levene, Brown & Forsythe hoặc Barlett
Trang 11Các giả định xây dựng mô hình hồi qui
5 Đa cộng tuyến
- Hai hoặc nhiều biến độc lập trong mô hình hồi
qui đa biến có mối liên quan chặt chẽ với
nhau, thường là nếu 2 biến độc lập có hệ số tương quan r>0,8
- Không làm thay đổi khả năng dự đoán của mô
hình nói chung mà chỉ ảnh hưởng đến việc
tính toán hệ số của các biến độc lập
Trang 12Các giả định xây dựng mô hình hồi qui
5 Đa cộng tuyến
Đánh giá đa cộng tuyến thông qua
– Tolerance value: Ước lượng mối liên quan của
một biến độc lập đến tất cả các biến độc lập còn
lại T< 0,1, cần cân nhắc có hiện tượng đa cộng
tuyến trong mô hình Với T<0,01à chắc chắn có
hiện tượng đa cộng tuyến
Trang 13Các giả định xây dựng mô hình hồi qui
5 Đa cộng tuyến:
Đánh giá đa cộng tuyến thông qua
– Variance inflation factor (VIF): lạm phát phương sai-
Với VIF>10 cho thấy có dấu hiệu của đa cộng tuyến, khi VIF>100à chắc chắn có hiện tượng đa cộng tuyến – Condition Index (điều kiện): Giá trị từ 10-30 cho thấy
cần cân nhắc đến hiện tượng đa cộng tuyến, khi
condition index > 30 à đa cộng tuyến mạnh trong mô hình
Trang 14Các giả định xây dựng mô hình hồi qui
6 Các quan sát độc lập
- Xác định tính độc lập của các quan sát thông qua giá trị
thống kê Durbin-Watson: nếu các quan sát là độc lập thì thường hệ số Durbin – Watson nằm trong khoảng 1,5-2,5
- Có thể dùng cách vẽ biểu đồ để xem sự phân bố của các
giá trị quan sát, nếu các giá trị quan sát nằm rời nhau và không co cụm theo một số hình thái thì có thể nói rằng các quan sát của chúng ta là độc lập với nhau
Trang 15Chiến lược xây dựng mô hình
1 Đi từ mô hình tổng quát đến đơn giản
Sử dụng khung lý thuyết, kết quả của các nghiên cứu
trước, kiến thức và kinh nghiệm của nhà nghiên cứu
để xác định một mô hình tổng quát
Ước lượng mô hình thông qua các kết quả phân tích từ
phần mềm máy tính
Loại bỏ các biến không phù hợp ra khỏi mô hình
Kiểm định tính phù hợp của mô hình
Trang 16Chiến lược xây dựng mô hình
2 Ma trận tương quan
- Phân tích ma trận tương quan giữa tất cả các biến sử
dụng trong mô hình
- Tìm hiểu hiện tượng đa cộng tuyến thông qua hệ số
tương quan giữa hai biến
Trang 17Chiến lược xây dựng mô hình
3 Tiếp cận dựa trên mục đích
- Tùy thuôc vào các mục tiêu khác nhau của mô hình
mà cách xây dựng mô hình cũng khác nhau
- Tùy thuộc vào bản chất, thông tin mà bộ số liệu cung
cấp
hình được gợi ý phù hợp với kiến thức về quá trình
mô hình hóa
- Không có quá trình chọn biến nào có thể thay thế
được sự hiểu biết sâu sắc của nhà nghiên cứu
Trang 18Chiến lược xây dựng mô hình
4 Tính toán tất cả các phương trình hồi qui có thể
- Xây dựng tất cả các mô hình và so sánh để chọn ra
mô hình tốt nhất
- Chỉ áp dụng khi số lượng biến định đưa vào mô hình
không quá nhiều, tuy nhiên về mặt tính toán vẫn có những khó khăn cho dù số lượng biến độc lập ít Ví
dụ, nếu có 10 biến độc lập được chọn, theo lý thuyết
tổ hợp 210- 1=1.023 mô hình
Trang 19Chiến lược xây dựng mô hình
5 Lựa chọn mô hình tốt nhất
- So sánh ngay trong bản thân mô hình: sử dụng
đường bình phương tối thiểu phù hợp khi tổng bình phương phần dư không thể giảm nữa khi loại bỏ 1
biến khỏi mô hình
- Có thể có hai hoặc thậm chí là 3 mô hình được cho là
tốt và giá trị R2 của các mô hình khác nhau rất ítà phải cân nhắc đến những yếu tố khác như sự thay đổi của phần dư, chi phí cho việc thu thập thông tin, kiến thức, sự hiểu biết về mối liên quan giữa các biến trên phương diện y sinh học…
Trang 20Các phương pháp xây dựng mô hình
1 Đưa tất cả biến vào một lúc
Phương pháp Enter: Kết quả cho một mô hình duy
nhất bao gồm tất cả các biến đã được lựa chọn
Áp dụng khi
- đã có một mô hình lý thuyết và
Trang 21Phương pháp Backward
Thực hành Thu nhập K/Thức
Giới Tuổi
Bệnh
Thực hành K/Thức
Giới Bệnh
Mô hình đầy đủ
Mô hình rút gọn
Tiêu chuẩn để loại bỏ ra khỏi mô hình:
Ví dụ: p>0,1
Trang 22Phương pháp Forward
Thực hành Thu nhập K/Thức
Giới Tuổi
Bệnh
Thực hành K/Thức
Giới Bệnh
Mô hình đầy đủ
Mô hình rút gọn
Tiêu chuẩn để thêm vào mô hình:
Ví dụ: p<0.1
Trang 23Phương pháp Stepwise
Thực hành Thu nhập K/Thức
Giới Tuổi
Bệnh
Thực hành K/Thức
Giới Bệnh
Mô hình đầy đủ
Mô hình rút gọn
Tiêu chuẩn để thêm vào/bỏ ra mô hình:
Ví dụ: thêm khi p<0,1, bỏ ra khi p>0,1
Trang 24Các phương pháp xây dựng mô hình
2 Các phương pháp chọn biến
Phương pháp Forward: lần lượt đưa dần từng biến độc
lập vào mô hình và sẽ giữ chúng lại nếu như biến đó
có ý nghĩa thống kê
Phương pháp Backward: đưa toàn bộ các biến độc lập
vào mô hình sau đó bỏ dần từng biến không có ý
nghĩa thống kê
Phương pháp Stepwise kết hợp 2 phương pháp forward
và backward, tại mỗi một bước phương pháp này sẽ tính toán để đưa vào hoặc loại ra các biến độc lập sau khi có sự xuất hiện của các biến khác
Trang 25Các phương pháp lựa chọn mô hình
Trang 26Qui tắc chọn mô hình
Các tiêu chí chọn mô hình
- Hệ số xác định (R2)
Là tỷ lệ tổng bình phương của biến phụ thuộc được giải
thích bởi các biến độc lập trong mô hình
Mục đích xem xét giá trị này là để chọn được một mô
hình mà có thể tính đếm được càng nhiều sự biến đổi của Y càng tốt
Vì R2 không thể giảm khi các biến độc lập được thêm vào
trong mô hình nên mô hình cho giá trị R2 lớn nhất
cũng cần phải là mô hình chứa tất cả các biến độc lập
Trang 27Qui tắc chọn mô hình
Các tiêu chí chọn mô hình
- Trung bình bình phương phần dư MS(Res),
Trung bình bình phương phần dư là một ước lượng cho
mô hình nếu mô hình chứa tất cả các biến độc lập phù hợp, trong trường hợp mô hình có những biến không phù hợp thì MS sẽ bị sai số Nếu một biến độc lập không quan trọng có mặt trong mô hình thì sẽ có tác động nhỏ lên giá trị MS
Trang 28Giá trị R2 hiệu chỉnh liên quan chặt với MS(Res) và được
kết luận tương tự như MS
Trang 29Qui tắc chọn mô hình
Các tiêu chí chọn mô hình
- Tiêu chuẩn thông tin Akaike-AIC
Giá trị Akaike của mô hình được chọn nên thấp hơn các
mô hình khác
Trên thực tế thường chọn một mô hình tương đối,
một mô hình có nhiều tiêu chuẩn tốt nhất
Trang 30Các bước tiến hành hồi qui tt đa biến
1. Kiểm tra mối liên quan tuyến tính
Sử dụng biểu đồ scatter plot
Trang 31Các bước tiến hành hồi qui tt đa biến
2 Kiểm tra tính chuẩn của các biến định lượng liên tục Biểu đồ QQ plot
Trang 32Các bước tiến hành hồi qui tt đa biến
3 Phân tích hồi qui tt đa biến
Phương trình ví dụ:
* Sử dụng bộ số liệu BMI.sav
YBMI = β0 + β1*xcalorine + β2*xthethao + β3*xgioi + β4*xthunhap + ε
Trang 33Các bước tiến hành hồi qui tt đa biến
Thao tác trên SPSS
Sử dụng SPSS với câu lệnh: Analyze/ Regression/ Linear
Trang 34Các bước tiến hành hồi qui tt đa biến
Chọn biến phụ thuộc đưa vào ô
Dependent
Chọn phương pháp hồi qui bạn muốn sử dụng
(Enter/ stepwise/ forward/ backward)
Chọn các biến độc lập đưa vào ô
Independent(s)
Trang 35Các bước tiến hành hồi qui tt đa biến
Giữ lại những biến làm giảm F<=0,05 ở mô
hình
Bỏ những biến làm tăng F>=0,1 ra khỏi mô hình
Trang 36Các bước tiến hành hồi qui tt đa biến
Chọn Estimates
Chọn Model fit,
Descriptives và Collinearity diagnostics trong
Trang 37Các bước tiến hành hồi qui tt đa biến
Bạn có thể xác định phân bố của phần dư trong
thực đơn Plots
Trang 38Kết quả phân tích và phiên giải
So tien danh mua thuc
an trong 1 thang (USD)
Tong thu nhap trong 1
thang (tinh theo USD)
Trang 39Kết quả phân tích và phiên giải
Correlations
1.000 784 -.310 -.534 033 784 1.000 -.193 -.714 -.009 -.310 -.193 1.000 126 -.030 -.534 -.714 126 1.000 706 033 -.009 -.030 706 1.000
So phut tap the duc trong 1 tuan
So tien danh mua thuc
an trong 1 thang (USD) Tong thu nhap trong 1 thang (tinh theo USD) Chi so BMI
Luong calorine an hang ngay
So phut tap the duc trong 1 tuan
So tien danh mua thuc
an trong 1 thang (USD) Tong thu nhap trong 1 thang (tinh theo USD) Chi so BMI
Luong calorine an hang ngay
So phut tap the duc trong 1 tuan
So tien danh mua thuc
an trong 1 thang (USD) Tong thu nhap trong 1 thang (tinh theo USD)
So phut tap the duc trong 1 tuan
So tien danh mua thuc an trong 1 thang (USD)
Tong thu nhap trong 1 thang (tinh theo USD)
Trang 40Kết quả phân tích và phiên giải
R Square Change F Change df1 df2 Sig F Change
Change Statistics
Watson
Durbin-Predictors: (Constant), Luong calorine an hang ngay
Trang 41Kết quả phân tích và phiên giải
Predictors: (Constant), Luong calorine an hang ngay
Trang 42Kết quả phân tích và phiên giải
BMI= 20,866 + 0,002* Caroline – 0,028* thethao
So phut tap the
duc trong 1 tuan
Beta
Standardized Coefficients
Collinearity Statistics
Dependent Variable: Chi so BMI
a
Trang 43Kết quả phân tích và phiên giải
So tien danh mua thuc
an trong 1 thang (USD)
Tong thu nhap trong 1
thang (tinh theo USD)
So tien danh mua thuc
an trong 1 thang (USD)
Tong thu nhap trong 1
thang (tinh theo USD)
Predictors in the Model: (Constant), Luong calorine an hang ngay
Trang 44Kết quả phân tích và phiên giải
Luong calorine an hang ngay
So phut tap the duc trong 1 tuan Variance Proportions
Dependent Variable: Chi so BMI
a
Trang 45Báo cáo kết quả phân tích
Kết quả phân tích hồi qui tuyến tính (mô hình 2) với
phương pháp stepwise cho giá trị Ajusted R2= 0,64; F= 890,7; p<0,0001
Phương trình tuyến tính:
BMI= 20,866 + 0,002* Caroline – 0,028* thethao
Khi ăn thêm 1 calorine BMI sẽ tăng 0,002 khi có thời gian
tập thể dục như nhau; ngược lại, BMI sẽ giảm 0,028 khi số thời gian tập thể dục tăng lên 1 phút khi lượng calorine ăn hàng ngày là như nhau
Trang 462 Một số dạng hồi qui đặc biệt
- Hồi qui có biến nhị phân
Trang 47TÀI LIỆU THAM KHẢO
1 Nguyễn Văn Tuấn, Phân tích thống kê y sinh học bằng
R 2007
2 Trường Đại học Y tế công cộng- Thống kê y tế công
cộng- Phần thống kê cơ bản- Nhà xuất bản Y học
2009
3 Trường Đại học Y tế công cộng- Thống kê y tế công
cộng- Phân tích số liệu sử dụng SPSS- Nhà xuất bản
y học 2009
4 Joseph F Hair, Jr et al, Multivariate data analysis, Fifth
edition
5 Mark Woodward, Epidemiology study design and data
analysis, Chapman & Hall texts in statistics science
series
Trang 48CÁC BỘ SỐ LIỆU
1 Bộ số liệu BMI
2 Bộ số liệu cân nặng sơ sinh