1. Trang chủ
  2. » Giáo án - Bài giảng

Hồi qui tuyến tính đa biến

48 428 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 48
Dung lượng 2 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đa cộng tuyến - Hai hoặc nhiều biến độc lập trong mô hình hồi qui đa biến có mối liên quan chặt chẽ với nhau, thường là nếu 2 biến độc lập có hệ số tương quan r>0,8 - Không làm thay

Trang 1

TRƯỜNG ĐẠI HỌC Y TẾ CÔNG CỘNG

DỊCH TỄ THỐNG KÊ NÂNG CAO

HỒI QUI TUYẾN TÍNH

ĐA BIẾN

Trang 2

MỤC TIÊU

1.  Trình bày và kiểm chứng được các giả định cho

phân tích hồi qui

2.  Sử dụng SPSS xây dựng được mô hình hồi qui

tuyến tính từ đơn biến đến đa biến và phiên giải

Trang 3

Ứng dụng của hồi qui tuyến tính

1.  Cung cấp sự mô tả tốt nhất về biến phụ thuộc

2.  Dự đoán giá trị của biến phụ thuộc

3.  Ngoại suy cho quần thể nghiên cứu

4.  Ước lượng các tham số

5.  Khống chế các biến nhiễu

6.  Phát triển các mô hình thực tế

Trang 4

Phương trình hồi qui tuyến tính

-  Hồi qui tuyến tính đơn biến

-  Hồi qui tuyến tính đa biến

y = α + β1x1 + β2x2 + +βkxk + ε

Trang 5

logit (pi) = β0 + β1X1 + β2X2 + β3X3

Hồi quy đa biến

PurchaseBệnh/Không bệnh Gender Income AgeGiới Thu nhập Tuổi

Trang 6

Các giả định xây dựng mô hình hồi qui

1.  Cỡ mẫu

-  Ít nhất phải có 3 biến trong mô hình:1 biến phụ

thuộc và 2 biến độc lập

-  Cần ít nhất là 20 đối tượng cho một biến độc lập

-  Trong mô hình hồi qui đa biến đơn giản nhất

cũng cần cỡ mẫu là n >40 (2 biến độc lập)

Trang 7

Các giả định xây dựng mô hình hồi qui

2 Quan hệ tuyến tính

-  Biến độc lập và biến phụ thuộc phải có mối

quan hệ tuyến tính

-  Kiểm tra giả định bằng biểu đồ chấm điểm

hoặc một số kiểm định thống kê như ANOVA,

so sánh R2

Trang 8

Các giả định xây dựng mô hình hồi qui

3 Phân bố chuẩn

-  Tất cả các biến đưa vào mô hình phải có phân bố

chuẩn

-  Kiểm chứng tính chuẩn thông qua: biểu đồ histogram,

biểu đồ PP plot, các kiểm định goodness of fit

-  Nếu biến không có phân bố chuẩn, có thể dùng các

phép biến đổi: log, hàm mũ…

Trang 9

Các giả định xây dựng mô hình hồi qui

3 Phân bố chuẩn

Trang 10

Các giả định xây dựng mô hình hồi qui

4 Phương sai đồng nhất

-  Mỗi nhóm/loại của các biến độc lập cần phải

có phương sai đồng nhất với nhau

-  Kiểm định tính đồng nhất phương sai của các

biến độc lập bằng cách sử dụng kiểm định

như Levene, Brown & Forsythe hoặc Barlett

Trang 11

Các giả định xây dựng mô hình hồi qui

5 Đa cộng tuyến

-  Hai hoặc nhiều biến độc lập trong mô hình hồi

qui đa biến có mối liên quan chặt chẽ với

nhau, thường là nếu 2 biến độc lập có hệ số tương quan r>0,8

-  Không làm thay đổi khả năng dự đoán của mô

hình nói chung mà chỉ ảnh hưởng đến việc

tính toán hệ số của các biến độc lập

Trang 12

Các giả định xây dựng mô hình hồi qui

5 Đa cộng tuyến

Đánh giá đa cộng tuyến thông qua

–  Tolerance value: Ước lượng mối liên quan của

một biến độc lập đến tất cả các biến độc lập còn

lại T< 0,1, cần cân nhắc có hiện tượng đa cộng

tuyến trong mô hình Với T<0,01à chắc chắn có

hiện tượng đa cộng tuyến

Trang 13

Các giả định xây dựng mô hình hồi qui

5 Đa cộng tuyến:

Đánh giá đa cộng tuyến thông qua

–  Variance inflation factor (VIF): lạm phát phương sai-

Với VIF>10 cho thấy có dấu hiệu của đa cộng tuyến, khi VIF>100à chắc chắn có hiện tượng đa cộng tuyến –  Condition Index (điều kiện): Giá trị từ 10-30 cho thấy

cần cân nhắc đến hiện tượng đa cộng tuyến, khi

condition index > 30 à đa cộng tuyến mạnh trong mô hình

Trang 14

Các giả định xây dựng mô hình hồi qui

6 Các quan sát độc lập

-  Xác định tính độc lập của các quan sát thông qua giá trị

thống kê Durbin-Watson: nếu các quan sát là độc lập thì thường hệ số Durbin – Watson nằm trong khoảng 1,5-2,5

-  Có thể dùng cách vẽ biểu đồ để xem sự phân bố của các

giá trị quan sát, nếu các giá trị quan sát nằm rời nhau và không co cụm theo một số hình thái thì có thể nói rằng các quan sát của chúng ta là độc lập với nhau

Trang 15

Chiến lược xây dựng mô hình

1 Đi từ mô hình tổng quát đến đơn giản

Sử dụng khung lý thuyết, kết quả của các nghiên cứu

trước, kiến thức và kinh nghiệm của nhà nghiên cứu

để xác định một mô hình tổng quát

Ước lượng mô hình thông qua các kết quả phân tích từ

phần mềm máy tính

Loại bỏ các biến không phù hợp ra khỏi mô hình

Kiểm định tính phù hợp của mô hình

Trang 16

Chiến lược xây dựng mô hình

2 Ma trận tương quan

-  Phân tích ma trận tương quan giữa tất cả các biến sử

dụng trong mô hình

-  Tìm hiểu hiện tượng đa cộng tuyến thông qua hệ số

tương quan giữa hai biến

Trang 17

Chiến lược xây dựng mô hình

3 Tiếp cận dựa trên mục đích

-  Tùy thuôc vào các mục tiêu khác nhau của mô hình

mà cách xây dựng mô hình cũng khác nhau

-  Tùy thuộc vào bản chất, thông tin mà bộ số liệu cung

cấp

hình được gợi ý phù hợp với kiến thức về quá trình

mô hình hóa

-  Không có quá trình chọn biến nào có thể thay thế

được sự hiểu biết sâu sắc của nhà nghiên cứu

Trang 18

Chiến lược xây dựng mô hình

4 Tính toán tất cả các phương trình hồi qui có thể

-  Xây dựng tất cả các mô hình và so sánh để chọn ra

mô hình tốt nhất

-  Chỉ áp dụng khi số lượng biến định đưa vào mô hình

không quá nhiều, tuy nhiên về mặt tính toán vẫn có những khó khăn cho dù số lượng biến độc lập ít Ví

dụ, nếu có 10 biến độc lập được chọn, theo lý thuyết

tổ hợp 210- 1=1.023 mô hình

Trang 19

Chiến lược xây dựng mô hình

5 Lựa chọn mô hình tốt nhất

-  So sánh ngay trong bản thân mô hình: sử dụng

đường bình phương tối thiểu phù hợp khi tổng bình phương phần dư không thể giảm nữa khi loại bỏ 1

biến khỏi mô hình

-  Có thể có hai hoặc thậm chí là 3 mô hình được cho là

tốt và giá trị R2 của các mô hình khác nhau rất ítà phải cân nhắc đến những yếu tố khác như sự thay đổi của phần dư, chi phí cho việc thu thập thông tin, kiến thức, sự hiểu biết về mối liên quan giữa các biến trên phương diện y sinh học…

Trang 20

Các phương pháp xây dựng mô hình

1 Đưa tất cả biến vào một lúc

Phương pháp Enter: Kết quả cho một mô hình duy

nhất bao gồm tất cả các biến đã được lựa chọn

Áp dụng khi

-  đã có một mô hình lý thuyết và

Trang 21

Phương pháp Backward

Thực hành Thu nhập K/Thức

Giới Tuổi

Bệnh

Thực hành K/Thức

Giới Bệnh

Mô hình đầy đủ

Mô hình rút gọn

Tiêu chuẩn để loại bỏ ra khỏi mô hình:

Ví dụ: p>0,1

Trang 22

Phương pháp Forward

Thực hành Thu nhập K/Thức

Giới Tuổi

Bệnh

Thực hành K/Thức

Giới Bệnh

Mô hình đầy đủ

Mô hình rút gọn

Tiêu chuẩn để thêm vào mô hình:

Ví dụ: p<0.1

Trang 23

Phương pháp Stepwise

Thực hành Thu nhập K/Thức

Giới Tuổi

Bệnh

Thực hành K/Thức

Giới Bệnh

Mô hình đầy đủ

Mô hình rút gọn

Tiêu chuẩn để thêm vào/bỏ ra mô hình:

Ví dụ: thêm khi p<0,1, bỏ ra khi p>0,1

Trang 24

Các phương pháp xây dựng mô hình

2 Các phương pháp chọn biến

Phương pháp Forward: lần lượt đưa dần từng biến độc

lập vào mô hình và sẽ giữ chúng lại nếu như biến đó

có ý nghĩa thống kê

Phương pháp Backward: đưa toàn bộ các biến độc lập

vào mô hình sau đó bỏ dần từng biến không có ý

nghĩa thống kê

Phương pháp Stepwise kết hợp 2 phương pháp forward

và backward, tại mỗi một bước phương pháp này sẽ tính toán để đưa vào hoặc loại ra các biến độc lập sau khi có sự xuất hiện của các biến khác

Trang 25

Các phương pháp lựa chọn mô hình

Trang 26

Qui tắc chọn mô hình

Các tiêu chí chọn mô hình

- Hệ số xác định (R2)

Là tỷ lệ tổng bình phương của biến phụ thuộc được giải

thích bởi các biến độc lập trong mô hình

Mục đích xem xét giá trị này là để chọn được một mô

hình mà có thể tính đếm được càng nhiều sự biến đổi của Y càng tốt

Vì R2 không thể giảm khi các biến độc lập được thêm vào

trong mô hình nên mô hình cho giá trị R2 lớn nhất

cũng cần phải là mô hình chứa tất cả các biến độc lập

Trang 27

Qui tắc chọn mô hình

Các tiêu chí chọn mô hình

- Trung bình bình phương phần dư MS(Res),

Trung bình bình phương phần dư là một ước lượng cho

mô hình nếu mô hình chứa tất cả các biến độc lập phù hợp, trong trường hợp mô hình có những biến không phù hợp thì MS sẽ bị sai số Nếu một biến độc lập không quan trọng có mặt trong mô hình thì sẽ có tác động nhỏ lên giá trị MS

Trang 28

Giá trị R2 hiệu chỉnh liên quan chặt với MS(Res) và được

kết luận tương tự như MS

Trang 29

Qui tắc chọn mô hình

Các tiêu chí chọn mô hình

-  Tiêu chuẩn thông tin Akaike-AIC

Giá trị Akaike của mô hình được chọn nên thấp hơn các

mô hình khác

Trên thực tế thường chọn một mô hình tương đối,

một mô hình có nhiều tiêu chuẩn tốt nhất

Trang 30

Các bước tiến hành hồi qui tt đa biến

1.  Kiểm tra mối liên quan tuyến tính

Sử dụng biểu đồ scatter plot

Trang 31

Các bước tiến hành hồi qui tt đa biến

2 Kiểm tra tính chuẩn của các biến định lượng liên tục Biểu đồ QQ plot

Trang 32

Các bước tiến hành hồi qui tt đa biến

3 Phân tích hồi qui tt đa biến

Phương trình ví dụ:

* Sử dụng bộ số liệu BMI.sav

YBMI = β0 + β1*xcalorine + β2*xthethao + β3*xgioi + β4*xthunhap + ε

Trang 33

Các bước tiến hành hồi qui tt đa biến

Thao tác trên SPSS

Sử dụng SPSS với câu lệnh: Analyze/ Regression/ Linear

Trang 34

Các bước tiến hành hồi qui tt đa biến

Chọn biến phụ thuộc đưa vào ô

Dependent

Chọn phương pháp hồi qui bạn muốn sử dụng

(Enter/ stepwise/ forward/ backward)

Chọn các biến độc lập đưa vào ô

Independent(s)

Trang 35

Các bước tiến hành hồi qui tt đa biến

Giữ lại những biến làm giảm F<=0,05 ở mô

hình

Bỏ những biến làm tăng F>=0,1 ra khỏi mô hình

Trang 36

Các bước tiến hành hồi qui tt đa biến

Chọn Estimates

Chọn Model fit,

Descriptives và Collinearity diagnostics trong

Trang 37

Các bước tiến hành hồi qui tt đa biến

Bạn có thể xác định phân bố của phần dư trong

thực đơn Plots

Trang 38

Kết quả phân tích và phiên giải

So tien danh mua thuc

an trong 1 thang (USD)

Tong thu nhap trong 1

thang (tinh theo USD)

Trang 39

Kết quả phân tích và phiên giải

Correlations

1.000 784 -.310 -.534 033 784 1.000 -.193 -.714 -.009 -.310 -.193 1.000 126 -.030 -.534 -.714 126 1.000 706 033 -.009 -.030 706 1.000

So phut tap the duc trong 1 tuan

So tien danh mua thuc

an trong 1 thang (USD) Tong thu nhap trong 1 thang (tinh theo USD) Chi so BMI

Luong calorine an hang ngay

So phut tap the duc trong 1 tuan

So tien danh mua thuc

an trong 1 thang (USD) Tong thu nhap trong 1 thang (tinh theo USD) Chi so BMI

Luong calorine an hang ngay

So phut tap the duc trong 1 tuan

So tien danh mua thuc

an trong 1 thang (USD) Tong thu nhap trong 1 thang (tinh theo USD)

So phut tap the duc trong 1 tuan

So tien danh mua thuc an trong 1 thang (USD)

Tong thu nhap trong 1 thang (tinh theo USD)

Trang 40

Kết quả phân tích và phiên giải

R Square Change F Change df1 df2 Sig F Change

Change Statistics

Watson

Durbin-Predictors: (Constant), Luong calorine an hang ngay

Trang 41

Kết quả phân tích và phiên giải

Predictors: (Constant), Luong calorine an hang ngay

Trang 42

Kết quả phân tích và phiên giải

BMI= 20,866 + 0,002* Caroline – 0,028* thethao

So phut tap the

duc trong 1 tuan

Beta

Standardized Coefficients

Collinearity Statistics

Dependent Variable: Chi so BMI

a

Trang 43

Kết quả phân tích và phiên giải

So tien danh mua thuc

an trong 1 thang (USD)

Tong thu nhap trong 1

thang (tinh theo USD)

So tien danh mua thuc

an trong 1 thang (USD)

Tong thu nhap trong 1

thang (tinh theo USD)

Predictors in the Model: (Constant), Luong calorine an hang ngay

Trang 44

Kết quả phân tích và phiên giải

Luong calorine an hang ngay

So phut tap the duc trong 1 tuan Variance Proportions

Dependent Variable: Chi so BMI

a

Trang 45

Báo cáo kết quả phân tích

Kết quả phân tích hồi qui tuyến tính (mô hình 2) với

phương pháp stepwise cho giá trị Ajusted R2= 0,64; F= 890,7; p<0,0001

Phương trình tuyến tính:

BMI= 20,866 + 0,002* Caroline – 0,028* thethao

Khi ăn thêm 1 calorine BMI sẽ tăng 0,002 khi có thời gian

tập thể dục như nhau; ngược lại, BMI sẽ giảm 0,028 khi số thời gian tập thể dục tăng lên 1 phút khi lượng calorine ăn hàng ngày là như nhau

Trang 46

2 Một số dạng hồi qui đặc biệt

-  Hồi qui có biến nhị phân

Trang 47

TÀI LIỆU THAM KHẢO

1 Nguyễn Văn Tuấn, Phân tích thống kê y sinh học bằng

R 2007

2 Trường Đại học Y tế công cộng- Thống kê y tế công

cộng- Phần thống kê cơ bản- Nhà xuất bản Y học

2009

3 Trường Đại học Y tế công cộng- Thống kê y tế công

cộng- Phân tích số liệu sử dụng SPSS- Nhà xuất bản

y học 2009

4 Joseph F Hair, Jr et al, Multivariate data analysis, Fifth

edition

5 Mark Woodward, Epidemiology study design and data

analysis, Chapman & Hall texts in statistics science

series

Trang 48

CÁC BỘ SỐ LIỆU

1 Bộ số liệu BMI

2 Bộ số liệu cân nặng sơ sinh

Ngày đăng: 16/11/2016, 15:41

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Văn Tuấn, Phân tích thống kê y sinh học bằng R. 2007 Sách, tạp chí
Tiêu đề: Phân tích thống kê y sinh học bằng R
4. Joseph F. Hair, Jr et al, Multivariate data analysis, Fifth edition Sách, tạp chí
Tiêu đề: Multivariate data analysis
5. Mark Woodward, Epidemiology study design and data analysis, Chapman &amp; Hall texts in statistics science series Sách, tạp chí
Tiêu đề: Epidemiology study design and data analysis
2. Trường Đại học Y tế công cộng- Thống kê y tế công cộng- Phần thống kê cơ bản- Nhà xuất bản Y học 2009 Khác
3. Trường Đại học Y tế công cộng- Thống kê y tế công cộng- Phân tích số liệu sử dụng SPSS- Nhà xuất bản y học 2009 Khác

TỪ KHÓA LIÊN QUAN

w