1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Giới thiệu Phân tích hồi quy tuyến tính

50 398 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 795,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Câu hỏi nghiên cứu• Mối tương quan giữa tuổi và nồng độ cholesterol • Mức độ tương quan • Tiên đoán nồng độ cholesterol ứng với mỗi lứa tuổi Phân tích tương quan và hồi quy... Phân tích

Trang 1

Giới thiệu Phân tích hồi quy tuyến tính

Dr Tuan V Nguyen

Garvan Institute of Medical Research

Sydney

Trang 2

Nếu cho một người ba loại vũ khí – tương quan, hồi quy và cây bút, hắn sẽ dùng cả

ba (Anon, 1978)

Trang 4

plot(chol ~ age, pch=16) # Ve bieu do tan xa

Trang 6

Câu hỏi nghiên cứu

• Mối tương quan giữa tuổi và nồng độ cholesterol

• Mức độ tương quan

• Tiên đoán nồng độ cholesterol ứng với mỗi lứa tuổi

Phân tích tương quan và hồi quy

Trang 7

Phương sai và hiệp phương sai:

i

n

y

y y

1

2

1var

• Hiệp phương sai giữa x và y

var(x + y) = var(x) + var(y) + 2cov(x,y)

cov

Trang 8

Phương sai và Hiệp phương sai:

h2 = x2 + y2

x

y h

h2 = x2 + y2 – 2xycos(H)

H

Trang 9

Ý nghĩa của Phương sai và

Hiệp phương sai

• Phương sai luôn luôn là số dương

• Nếu hiệp phương sai = 0, x và y độc lập với nhau.

• Hiệp phương sai là một tổng của một tích chéo: do

Trang 10

Hiệp phương sai và tương quan

• Hiệp phương sai là một đơn vị phụ thuộc

• Hệ số tương quan (r) giữa x và y là một hiệp

phương sai được chuẩn hoá

y

x y

x

y

x r

, cov

Trang 11

T ương quan thuận và nghịch

Trang 12

Kiểm định giả thuyết tương quan

• Sai số chuẩn (Standard error) của r :

• The t-statistic:

2 1

2

r

n r

1

1 ln 2 1

Trang 13

Minh hoạ phân tích tương quan

68 10 ,

56

0 94

0 1

94 0 1 ln 2

t-statistic = 0.56 / 0.26 = 2.17 Critical t-value with 17 df and alpha = 5% is 2.11

Kết luận: Giữa tuổi và nồng độ cholesterol

có một mối tương quan có ý nghĩa thống kê

Trang 14

Phân tích hồi quy tuyến tính đơn

– Điều chỉnh yếu tố nhiễu (trường hợp phân tích đa biến)

• Chỉ khảo sát có hai biến: một là biến đáp ứng

(response variable) và m ột là biến dự đoán

( predictor variable)

• Không có điều chỉnh cho yếu tố nhiễu hoặc các hiệp biến khác

Trang 15

Tương quan giữa tuổi và nồng độ

Trang 16

Mô hình hồi quy tuyến tính

• Y : biến ngẫu nhiên, là một biến đáp ứng (response)

• X : biến ngẫu nhiên, là biến dự đoán, hay yếu tố nguy cơ

(predictor, risk factor)

– Cả Y và X có thể là số liệu nhóm (e.g., yes / no) hoặc biến liên

tục (e.g., age)

– Nếu Y là biến phân nhóm thì sử dụng mô hình logistic

regression; nếu Y là biến liên tục thì sử dụng mô hình hồi quy tuyến tính đơn.

Trang 17

Các giả định của mô hình tuyến tính

• Các thông số có mối tương quan tuyến tính (đường

thẳng) với nhau;

• X đo lường không có sai số;

• Các giá trị Y tương ứng là độc lập với nhau (ví dụ Y1

không có mối tương quan với Y2) ;

• Sai số ngẫu nhiên () có phân phối chuẩn với trung bình

=0 và phương sai cố định.

Trang 18

Giá trị kỳ vọng và phương sai

• Nếu các giả định thoả mãn:

• Giá trị kỳ vọng của Y là: E(Y | x) =  + x

Trang 19

Cho hai điểm A(x1, y1) và B(x2, y2) trong một mặt phẳng 2 chiều,

chúng ta có thể có một phương trình đường thẳng nối hai điểm

1 2

x x

y

y dx

dy m

Ước lượng các thông số của mô

hình hồi quy tuyến tính

Trang 20

Ước tính  và 

• Có một loạt cặp đôi: (x1, y1), (x2, y2), (x3, y3), …, (xn, yn )

• Cho a và b là các ước số của các thông số a và b,

• Chúng ta có phương trình của mẫu nghiên cứu: Y * = a + bx

• Mục đích: tìm các giá trị của a và b sao cho (Y – Y* ) là tối thiểu

• Cho SSE = tổng của (Yi – a – bxi ) 2

• Các giá trị a và b có thể làm SSE đạt giá trị nhỏ nhất gọi là

các ước số bình phương tối thiểu (least square

estimates).

Trang 21

d   ˆ

Mục đích của ước số bình phương tối thiểu là để tìm được các giá trị a

và b sao cho tổng của d2 có giá trị nhỏ nhất.

Trang 23

thiên trong Y có thể giải thích bằng mức độ

biến thiên trong nhóm X.

Trang 24

Tách nhóm biến thiên: khái niệm

• SST = tổng của các mức độ khác biệt bình phương giữa

từng giá trị yi và trị số trung bình của y

• SSR = tổng của các mức độ khác biệt bình phương giữa

giá trị dự đoán của y và trị số trung bình của y

• SSE = tổng của các mức độ khác biệt bình phương giữa

các giá trị quan sát và giá trị dự đoán của y

SST = SSR + SSE

Khi đó hệ số xác định là: R 2 = SSR / SST

Trang 25

Chol (Y)

Age (X)

meanSSR

SSE

SST

Tách nhóm biến thiên: minh hoạ

hình học

Trang 26

• Some statistics:

• Total variation:

• Attributed to the model:

• Residual sum of square:

Tách nhóm biến thiên: đại số

Trang 27

Phân tích phương sai

• SS tăng lên theo tỷ lệ với cỡ mẫu (n)

• Trung bình bình phương (Mean squares, MS): được chuẩn hoá cho bậc tự do (df)

Mean squares (MS)

n – 1

SSR SSE SST

MSR MSE

MSR/MSE

Trang 28

Kiểm định giả thuyết trong các

phân tích hồi quy

là không có mối tương quan nào, là bao nhiêu phần trăm?”

Trang 29

– GIá trị kỳ vọng của b là , i.e E(b) = 

– Sai số chuẩn (standard errors) của b là:

• Vậy kiểm định liêu  = 0 sẽ là: t = b / SE(b) sẽ tuân

theo luật phân phối t với bậc tự do là n-1

 b s S xx

SE  /

Trang 30

K hoảng tin cậy xung quanh giá trị

dự đoán

• Giá trị quan sát là Y i

• Giá trị được dự đoán là:

• Sai số chuẩn (standard error) của giá trị được dự đoán là:

• Ước tính khoảng cho các giá trị Y i :

xx

i i

S

x

x n

s Y

SE

2

1 1

Trang 31

• Tất cả đều có thể biểu diễn bằng biểu đồ

Phần tồn dư (residuals) của mô hình luôn

đóng vai trò quan trọng trong tất cả các bước tiến hành phân tích một mô hình chẩn đoán.

Trang 32

Kiểm tra các giả định

• Phương sai hằng định

– Vẽ đường số liệu tồn dư chuẩn hoá theo phương pháp student (studentized residuals) tương ứng với các giá trị được dự đoán (predicted values) Kiểm tra xem sự biến thiên giữa các giá trị tồn dư liệu có tương đối hằng định qua suốt hết các dãy giá trị đã được xử lý không (fitted values).

• Phân phối chuẩn

– Vẽ đường số liệu tồn dư tương ứng với các giá trị kỳ vọng (expected valué), hay còn gọi là vẽ đường xác suất chuẩn (Normal probability plot) N ếu các giá trị tồn dư này tuân theo luật phân ohuẩn thì nó phải nằm trên con đường xiên 45 o

• Xây dựng công thức đúng?

– V ẽ đường giá trị tồn dư tương ứng với giá trị đã xử lý ( fitted values) Ki ểm tra xem liệu biểu đồ của các giá trị tồn dư có cho thấy xu hướng không tuyến tính của chúng qua các dãy số liệu đã xử lý không (fitted values).

• Mô hình ổn định

– Ki ểm tra xem liệu có một hay nhiều giá trị quan sát bị tác động S ử dụng khoảng cách Cook.

Trang 33

Checking assumptions (tt)

• Khoảng cách Cook (D) là môt đơn vị đo lường

mức độ biến đổi của các giá trị đã xử lý trong mô hình hồi quy nếu loại bỏ một giá trị thứ ith ra khỏi

bộ dữ liệu phân tích.

• Leverage (tác động đòn bẩy) để đo mức độ giá

• Giá trị tồn dư student hoá (Studentized

quan với các giá trị y còn lại

Trang 34

Đo lường chỉnh lý

• Phương sai không hằng định

– Hoán chuyển giá trị đáp ứng (y) sang một thang đơn vị khác (ví

dụ logarithm) thường hữu ích.

– Nếu đã hoán chuyển rồi mà không giải quyết được tình trạng phương sai không hằng định, sử dụng một ước số khác mạnh

hơn, như là bình phương tối thiểu có cân đối tương tác (iterative

weighted least squares).

• Không tuân theo phân phối chuẩn

– Phân phối không chuẩn và phương sai không hằng định thường

đi đôi với nhau.

• Giá trị ngoại lệ (Outliers)

– Kiểm tra xem số liệu có chính xác không

– Sử dụng phương pháp ước tính phụ trợ

Trang 35

Phân tích hồi quy sử dụng R

id <- seq(1:18)

age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22,

43, 57, 33, 22, 63, 40, 48, 28, 49)

chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1, 3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0)

#Fit linear regression model

reg <- lm(chol ~ age)

Trang 36

Phân tích hồi quy

Residual standard error: 0.3027 on 16 degrees of freedom

Multiple R-Squared: 0.8775, Adjusted R-squared: 0.8698

F-statistic: 114.6 on 1 and 16 DF, p-value: 1.058e-08

Trang 38

Ch ẩn đoán : ảnh hưởng của số liệu

Residuals vs Leverage

6

2 8

p<- par(mfrow=c(2,2))

plot(reg)

par(p)

Trang 39

Một minh hoạ không tuyến tính: BMI và mức

độ hấp dẫn tính dục

– Nghiên cứu trên 44 sinh viên đại học

– Đo chỉ số trọng lượng cơ thể (BMI)

– Cho điểm hấp dẫn tính dục (SA)

Trang 40

Phân tích hồi quy tuyến tính giữa BMI

Residual standard error: 1.354 on 42 degrees of freedom

Multiple R-Squared: 0.09376, Adjusted R-squared: 0.07218 F-statistic: 4.345 on 1 and 42 DF, p-value: 0.04323

Trang 41

BMI và SA: phân tích các giá trị tồn dư

Trang 42

BMI and SA: bi ểu đồ tán xạ

reg <- lm(sa ~ bmi)

Trang 43

# Fit 3 regression models

linear <- lm(sa ~ bmi)

quad <- lm(sa ~ poly(bmi, 2))

cubic <- lm(sa ~ poly(bmi, 3))

# Make new BMI axis

bmi.new <- 10:40

# Get predicted values

quad.pred <- predict(quad,data.frame(bmi=bmi.new)) cubic.pred <- predict(cubic,data.frame(bmi=bmi.new))

# Plot predicted values

abline(reg)

lines(bmi.new, quad.pred, col="blue",lwd=3)

lines(bmi.new, cubic.pred, col="red",lwd=3)

Phân tích lại số liệu này

Trang 45

Một số nhận xét:

Diễn dịch mối tương quan

• Giá trị tương quan nằm giữa khoảng –1 và +1 Một hệ số

tương quan rất nhỏ không có nghĩa rằng không có mối tương quan giữa hai biến Mối tương quan này có thể là phi tuyến

tính.

• Đối với các tương quan cong, sử dụng hệ số tương phân phân loại (rank correlation) tốt hơn tương quan Pearson (Pearson’s correlation).

• Một hệ số tương quan thấp (vd: 0.1) có thể có ý nghĩa thống kê nhưng không có ý nghĩa lâm sàng.

• R 2 là một chỉ số đo lường mức độ tương quan r = 0.7 trông có

vẻ hấp dẫn nhưng thực chât R 2 chỉ có 0.49!

• Có tương quan không đồng nghĩa là có quan hệ nhân quả.

Trang 46

Một số nhận xét:

Diễn dịch mối tương quan

• Cần cẩn thận với đa tương quan Đối với số biến là p,

sẽ có p(p – 1)/2 các cặp tương quan, và khi đó sẽ đối

mặt với vấn đề dương tính giả (có tương quan giả)

• Tương quan không thể suy diễn được từ các mối quan hệ

– r(age, weight) = 0.05; r(weight, fat) = 0.03; không có nghĩa rằng r(age, fat) là gần zero

– Nhưng trên thực tế r(age, fat) = 0.79

Trang 47

Một số nhận xét:

Diễn dịch mối tương quan

• Đường biểu diến tương quan (hồi quy) chỉ là một tương quan ước lượng giữa các biến này trong quần thể mà thôi.

• Có một độ bất định liên quan với các thông số được ước tính.

• Đường hồi quy không thể dùng để ước tính các giá trị x nằm ngoài vùng giá trị quan sát (ngoại suy).

• Một mô hình thống kê là một mô hình xấp xỉ; tương quan thực có thể lại là phi tuyến tính, nhưng tương quan tuyến tính là một tương quan xấp xỉ tương đối phù hợp nhất.

Trang 48

Một số nhận xét:

Báo cáo kết quả

• Kết quả phân tích tương quan hồi quy cần được mô tả đầy đủ: bản chất của biến đáp ứng (kết cục), các biến dự đoán (yếu tố nguy cơ); bất kỳ một cách hoán chuyển;

kiểm tra các giả định

• Các hệ số hồi quy (a, b), cùng với các sai số chuẩn

tương ứng, và R2 cũng cần thiết

Trang 49

Vài nhận xét cuối cùng

• Phương trình là cột mốc để cho các ý tưởng

khoa học bám trụ và thăng hoa.

• Các phương trình đẹp như những bài thơ, nhưng cũng thậm chí là những củ hành

• Vì vậy mà phải hết sức cảnh giác và cẩn tắc khi xây dựng phương trình!

Trang 50

Lời Cảm tạ

• Chúng tôi xin chân thành cám

ơn Công ty Dược phẩm Bridge Healthcare, Australia đã tài trợ cho chuyến đi.

Ngày đăng: 18/05/2017, 21:01

HÌNH ẢNH LIÊN QUAN

Hình học - Giới thiệu Phân tích hồi quy tuyến tính
Hình h ọc (Trang 8)
Hình hồi quy tuyến tính - Giới thiệu Phân tích hồi quy tuyến tính
Hình h ồi quy tuyến tính (Trang 19)
Hình học - Giới thiệu Phân tích hồi quy tuyến tính
Hình h ọc (Trang 25)
Bảng tóm tăt phân tích phương sai  (Analysis of variance, ANOVA): - Giới thiệu Phân tích hồi quy tuyến tính
Bảng t óm tăt phân tích phương sai (Analysis of variance, ANOVA): (Trang 27)

TỪ KHÓA LIÊN QUAN

w