Câu hỏi nghiên cứu• Mối tương quan giữa tuổi và nồng độ cholesterol • Mức độ tương quan • Tiên đoán nồng độ cholesterol ứng với mỗi lứa tuổi Phân tích tương quan và hồi quy... Phân tích
Trang 1Giới thiệu Phân tích hồi quy tuyến tính
Dr Tuan V Nguyen
Garvan Institute of Medical Research
Sydney
Trang 2Nếu cho một người ba loại vũ khí – tương quan, hồi quy và cây bút, hắn sẽ dùng cả
ba (Anon, 1978)
Trang 4plot(chol ~ age, pch=16) # Ve bieu do tan xa
Trang 6Câu hỏi nghiên cứu
• Mối tương quan giữa tuổi và nồng độ cholesterol
• Mức độ tương quan
• Tiên đoán nồng độ cholesterol ứng với mỗi lứa tuổi
Phân tích tương quan và hồi quy
Trang 7Phương sai và hiệp phương sai:
i
n
y
y y
1
2
1var
• Hiệp phương sai giữa x và y
var(x + y) = var(x) + var(y) + 2cov(x,y)
cov
Trang 8Phương sai và Hiệp phương sai:
h2 = x2 + y2
x
y h
h2 = x2 + y2 – 2xycos(H)
H
Trang 9Ý nghĩa của Phương sai và
Hiệp phương sai
• Phương sai luôn luôn là số dương
• Nếu hiệp phương sai = 0, x và y độc lập với nhau.
• Hiệp phương sai là một tổng của một tích chéo: do
Trang 10Hiệp phương sai và tương quan
• Hiệp phương sai là một đơn vị phụ thuộc
• Hệ số tương quan (r) giữa x và y là một hiệp
phương sai được chuẩn hoá
y
x y
x
y
x r
, cov
Trang 11T ương quan thuận và nghịch
Trang 12Kiểm định giả thuyết tương quan
• Sai số chuẩn (Standard error) của r :
• The t-statistic:
2 1
2
r
n r
1
1 ln 2 1
Trang 13Minh hoạ phân tích tương quan
68 10 ,
56
0 94
0 1
94 0 1 ln 2
t-statistic = 0.56 / 0.26 = 2.17 Critical t-value with 17 df and alpha = 5% is 2.11
Kết luận: Giữa tuổi và nồng độ cholesterol
có một mối tương quan có ý nghĩa thống kê
Trang 14Phân tích hồi quy tuyến tính đơn
– Điều chỉnh yếu tố nhiễu (trường hợp phân tích đa biến)
• Chỉ khảo sát có hai biến: một là biến đáp ứng
(response variable) và m ột là biến dự đoán
( predictor variable)
• Không có điều chỉnh cho yếu tố nhiễu hoặc các hiệp biến khác
Trang 15Tương quan giữa tuổi và nồng độ
Trang 16Mô hình hồi quy tuyến tính
• Y : biến ngẫu nhiên, là một biến đáp ứng (response)
• X : biến ngẫu nhiên, là biến dự đoán, hay yếu tố nguy cơ
(predictor, risk factor)
– Cả Y và X có thể là số liệu nhóm (e.g., yes / no) hoặc biến liên
tục (e.g., age)
– Nếu Y là biến phân nhóm thì sử dụng mô hình logistic
regression; nếu Y là biến liên tục thì sử dụng mô hình hồi quy tuyến tính đơn.
Trang 17Các giả định của mô hình tuyến tính
• Các thông số có mối tương quan tuyến tính (đường
thẳng) với nhau;
• X đo lường không có sai số;
• Các giá trị Y tương ứng là độc lập với nhau (ví dụ Y1
không có mối tương quan với Y2) ;
• Sai số ngẫu nhiên () có phân phối chuẩn với trung bình
=0 và phương sai cố định.
Trang 18Giá trị kỳ vọng và phương sai
• Nếu các giả định thoả mãn:
• Giá trị kỳ vọng của Y là: E(Y | x) = + x
Trang 19Cho hai điểm A(x1, y1) và B(x2, y2) trong một mặt phẳng 2 chiều,
chúng ta có thể có một phương trình đường thẳng nối hai điểm
1 2
x x
y
y dx
dy m
Ước lượng các thông số của mô
hình hồi quy tuyến tính
Trang 20Ước tính và
• Có một loạt cặp đôi: (x1, y1), (x2, y2), (x3, y3), …, (xn, yn )
• Cho a và b là các ước số của các thông số a và b,
• Chúng ta có phương trình của mẫu nghiên cứu: Y * = a + bx
• Mục đích: tìm các giá trị của a và b sao cho (Y – Y* ) là tối thiểu
• Cho SSE = tổng của (Yi – a – bxi ) 2
• Các giá trị a và b có thể làm SSE đạt giá trị nhỏ nhất gọi là
các ước số bình phương tối thiểu (least square
estimates).
Trang 21d ˆ
Mục đích của ước số bình phương tối thiểu là để tìm được các giá trị a
và b sao cho tổng của d2 có giá trị nhỏ nhất.
Trang 23thiên trong Y có thể giải thích bằng mức độ
biến thiên trong nhóm X.
Trang 24Tách nhóm biến thiên: khái niệm
• SST = tổng của các mức độ khác biệt bình phương giữa
từng giá trị yi và trị số trung bình của y
• SSR = tổng của các mức độ khác biệt bình phương giữa
giá trị dự đoán của y và trị số trung bình của y
• SSE = tổng của các mức độ khác biệt bình phương giữa
các giá trị quan sát và giá trị dự đoán của y
SST = SSR + SSE
Khi đó hệ số xác định là: R 2 = SSR / SST
Trang 25Chol (Y)
Age (X)
meanSSR
SSE
SST
Tách nhóm biến thiên: minh hoạ
hình học
Trang 26• Some statistics:
• Total variation:
• Attributed to the model:
• Residual sum of square:
Tách nhóm biến thiên: đại số
Trang 27Phân tích phương sai
• SS tăng lên theo tỷ lệ với cỡ mẫu (n)
• Trung bình bình phương (Mean squares, MS): được chuẩn hoá cho bậc tự do (df)
Mean squares (MS)
n – 1
SSR SSE SST
MSR MSE
MSR/MSE
Trang 28Kiểm định giả thuyết trong các
phân tích hồi quy
là không có mối tương quan nào, là bao nhiêu phần trăm?”
Trang 29– GIá trị kỳ vọng của b là , i.e E(b) =
– Sai số chuẩn (standard errors) của b là:
• Vậy kiểm định liêu = 0 sẽ là: t = b / SE(b) sẽ tuân
theo luật phân phối t với bậc tự do là n-1
b s S xx
SE /
Trang 30K hoảng tin cậy xung quanh giá trị
dự đoán
• Giá trị quan sát là Y i
• Giá trị được dự đoán là:
• Sai số chuẩn (standard error) của giá trị được dự đoán là:
• Ước tính khoảng cho các giá trị Y i :
xx
i i
S
x
x n
s Y
SE
2
1 1
Trang 31• Tất cả đều có thể biểu diễn bằng biểu đồ
Phần tồn dư (residuals) của mô hình luôn
đóng vai trò quan trọng trong tất cả các bước tiến hành phân tích một mô hình chẩn đoán.
Trang 32Kiểm tra các giả định
• Phương sai hằng định
– Vẽ đường số liệu tồn dư chuẩn hoá theo phương pháp student (studentized residuals) tương ứng với các giá trị được dự đoán (predicted values) Kiểm tra xem sự biến thiên giữa các giá trị tồn dư liệu có tương đối hằng định qua suốt hết các dãy giá trị đã được xử lý không (fitted values).
• Phân phối chuẩn
– Vẽ đường số liệu tồn dư tương ứng với các giá trị kỳ vọng (expected valué), hay còn gọi là vẽ đường xác suất chuẩn (Normal probability plot) N ếu các giá trị tồn dư này tuân theo luật phân ohuẩn thì nó phải nằm trên con đường xiên 45 o
• Xây dựng công thức đúng?
– V ẽ đường giá trị tồn dư tương ứng với giá trị đã xử lý ( fitted values) Ki ểm tra xem liệu biểu đồ của các giá trị tồn dư có cho thấy xu hướng không tuyến tính của chúng qua các dãy số liệu đã xử lý không (fitted values).
• Mô hình ổn định
– Ki ểm tra xem liệu có một hay nhiều giá trị quan sát bị tác động S ử dụng khoảng cách Cook.
Trang 33Checking assumptions (tt)
• Khoảng cách Cook (D) là môt đơn vị đo lường
mức độ biến đổi của các giá trị đã xử lý trong mô hình hồi quy nếu loại bỏ một giá trị thứ ith ra khỏi
bộ dữ liệu phân tích.
• Leverage (tác động đòn bẩy) để đo mức độ giá
• Giá trị tồn dư student hoá (Studentized
quan với các giá trị y còn lại
Trang 34Đo lường chỉnh lý
• Phương sai không hằng định
– Hoán chuyển giá trị đáp ứng (y) sang một thang đơn vị khác (ví
dụ logarithm) thường hữu ích.
– Nếu đã hoán chuyển rồi mà không giải quyết được tình trạng phương sai không hằng định, sử dụng một ước số khác mạnh
hơn, như là bình phương tối thiểu có cân đối tương tác (iterative
weighted least squares).
• Không tuân theo phân phối chuẩn
– Phân phối không chuẩn và phương sai không hằng định thường
đi đôi với nhau.
• Giá trị ngoại lệ (Outliers)
– Kiểm tra xem số liệu có chính xác không
– Sử dụng phương pháp ước tính phụ trợ
Trang 35Phân tích hồi quy sử dụng R
id <- seq(1:18)
age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22,
43, 57, 33, 22, 63, 40, 48, 28, 49)
chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1, 3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0)
#Fit linear regression model
reg <- lm(chol ~ age)
Trang 36Phân tích hồi quy
Residual standard error: 0.3027 on 16 degrees of freedom
Multiple R-Squared: 0.8775, Adjusted R-squared: 0.8698
F-statistic: 114.6 on 1 and 16 DF, p-value: 1.058e-08
Trang 38Ch ẩn đoán : ảnh hưởng của số liệu
Residuals vs Leverage
6
2 8
p<- par(mfrow=c(2,2))
plot(reg)
par(p)
Trang 39Một minh hoạ không tuyến tính: BMI và mức
độ hấp dẫn tính dục
– Nghiên cứu trên 44 sinh viên đại học
– Đo chỉ số trọng lượng cơ thể (BMI)
– Cho điểm hấp dẫn tính dục (SA)
Trang 40Phân tích hồi quy tuyến tính giữa BMI
Residual standard error: 1.354 on 42 degrees of freedom
Multiple R-Squared: 0.09376, Adjusted R-squared: 0.07218 F-statistic: 4.345 on 1 and 42 DF, p-value: 0.04323
Trang 41BMI và SA: phân tích các giá trị tồn dư
Trang 42BMI and SA: bi ểu đồ tán xạ
reg <- lm(sa ~ bmi)
Trang 43# Fit 3 regression models
linear <- lm(sa ~ bmi)
quad <- lm(sa ~ poly(bmi, 2))
cubic <- lm(sa ~ poly(bmi, 3))
# Make new BMI axis
bmi.new <- 10:40
# Get predicted values
quad.pred <- predict(quad,data.frame(bmi=bmi.new)) cubic.pred <- predict(cubic,data.frame(bmi=bmi.new))
# Plot predicted values
abline(reg)
lines(bmi.new, quad.pred, col="blue",lwd=3)
lines(bmi.new, cubic.pred, col="red",lwd=3)
Phân tích lại số liệu này
Trang 45Một số nhận xét:
Diễn dịch mối tương quan
• Giá trị tương quan nằm giữa khoảng –1 và +1 Một hệ số
tương quan rất nhỏ không có nghĩa rằng không có mối tương quan giữa hai biến Mối tương quan này có thể là phi tuyến
tính.
• Đối với các tương quan cong, sử dụng hệ số tương phân phân loại (rank correlation) tốt hơn tương quan Pearson (Pearson’s correlation).
• Một hệ số tương quan thấp (vd: 0.1) có thể có ý nghĩa thống kê nhưng không có ý nghĩa lâm sàng.
• R 2 là một chỉ số đo lường mức độ tương quan r = 0.7 trông có
vẻ hấp dẫn nhưng thực chât R 2 chỉ có 0.49!
• Có tương quan không đồng nghĩa là có quan hệ nhân quả.
Trang 46Một số nhận xét:
Diễn dịch mối tương quan
• Cần cẩn thận với đa tương quan Đối với số biến là p,
sẽ có p(p – 1)/2 các cặp tương quan, và khi đó sẽ đối
mặt với vấn đề dương tính giả (có tương quan giả)
• Tương quan không thể suy diễn được từ các mối quan hệ
– r(age, weight) = 0.05; r(weight, fat) = 0.03; không có nghĩa rằng r(age, fat) là gần zero
– Nhưng trên thực tế r(age, fat) = 0.79
Trang 47Một số nhận xét:
Diễn dịch mối tương quan
• Đường biểu diến tương quan (hồi quy) chỉ là một tương quan ước lượng giữa các biến này trong quần thể mà thôi.
• Có một độ bất định liên quan với các thông số được ước tính.
• Đường hồi quy không thể dùng để ước tính các giá trị x nằm ngoài vùng giá trị quan sát (ngoại suy).
• Một mô hình thống kê là một mô hình xấp xỉ; tương quan thực có thể lại là phi tuyến tính, nhưng tương quan tuyến tính là một tương quan xấp xỉ tương đối phù hợp nhất.
Trang 48Một số nhận xét:
Báo cáo kết quả
• Kết quả phân tích tương quan hồi quy cần được mô tả đầy đủ: bản chất của biến đáp ứng (kết cục), các biến dự đoán (yếu tố nguy cơ); bất kỳ một cách hoán chuyển;
kiểm tra các giả định
• Các hệ số hồi quy (a, b), cùng với các sai số chuẩn
tương ứng, và R2 cũng cần thiết
Trang 49Vài nhận xét cuối cùng
• Phương trình là cột mốc để cho các ý tưởng
khoa học bám trụ và thăng hoa.
• Các phương trình đẹp như những bài thơ, nhưng cũng thậm chí là những củ hành
• Vì vậy mà phải hết sức cảnh giác và cẩn tắc khi xây dựng phương trình!
Trang 50Lời Cảm tạ
• Chúng tôi xin chân thành cám
ơn Công ty Dược phẩm Bridge Healthcare, Australia đã tài trợ cho chuyến đi.