Phương sai và đồng phương sai: đại sốGọi x và y là 2 biến ngẫu nhiên lấy ra từ mẫu n quan sát.. Đồng phương sai âm= độ lệch trong 2 phân phối theo hai hướng ngược nhau, ví dụ sai khác
Trang 1Give a man three weapons – correlation, regression and a
pen – and he will use all three (Anon, 1978)
2
Ví dụ
3
ID Age Chol (mg/ml)
Tuổi và hàm lượng
cholesterol
Trong 18 cá nhân
nghiên cứu
Trang 2Nhập dữ liệu trong R
id <- seq(1:18)
age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22,
43, 57, 33, 22, 63, 40, 48, 28, 49)
chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1,
3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0)
plot(chol ~ age, pch=16)
4
5
a ge
Câu hỏi quan tâm
Mối liên hệ giữa tuổi và hàm lượng cholesterol
Độ mạnh của mối liên hệ
Tiên đoán về hàm lượng cholesterol dựa vào tuổi
6
Phân tích tương quan và hồi quy
Trang 3Phương sai và đồng phương sai: đại số
Gọi x và y là 2 biến ngẫu nhiên lấy ra từ mẫu n quan sát.
Đo lường Measure sự sai khác của x và y: phương sai
7
n
i
i
n
x x
x
1
2
1
n i i n y y y
1 2
1 var
• Đo mức độ đồng phương sai giữa x và y?
• Quan điểm đại số:
var(x + y) = var(x) + var(y)
var(x + y) = var(x) + var(y) + 2cov(x,y)
Trong đó:
i x i x y i y n
y
1
1 1 ,
cov
Phương sai và đồng phương sai: hình học
Sự độc lập hoặc phụ thuộc giữa x và y có thể biểu diễn như
sau:
8
y
x
h
h2= x2+ y2
x
y h
h2= x2+ y2– 2xycos(H)
H
Ý nghĩa của phương sai và đồng phương sai
Phương sai luôn luôn dương
Nếu đồng phương sai= 0, x và y độc lập.
Đồng phương sai là tổng của các sản phẩm: có thể
âm hoặc dương
Đồng phương sai âm= độ lệch trong 2 phân phối
theo hai hướng ngược nhau, ví dụ sai khác về gen
Đồng phương sai dương = độ lệch trong 2 phân
phối cùng hướng
Đồng phương sai= đo độ mạnh của sự liên hệ
9
Trang 4Đồng phương sai và tương quan
Đông phương sai là đơn vị độc lập
Hệ số tương quan (r) giữa x và y là đồng phương sai chuẩn.
r được xác định như sau:
10
y
x SD SD y x y x
y x r
var var
, cov
Hệ số tương quan dương và âm
11
x
x
Kiểm định về giả thiết tương quan
Giả thiết: H o: r = 0 đối giả thiết Ho: r không bằng 0.
Sai số chuẩn của r là:
Kiểm định t:
12
2
1
2
r
n
r
t
• Kiểm định này có phân phối t với bậc tự do, df=n-2
• Chuyển sang số z:
• Sai số chuẩn của z:
• 95% mức độ tin cậy của z có thể được xây dựng
2
n r r SE
r r z
1 1 ln 2 1
3 1
n z SE
3
1
n z
Trang 5Ví dụ về phân tích hệ số tương quan
ID Age Cholesterol
(x) (y; mg/100ml)
1 46 3.5
2 20 1.9
3 52 4.0
4 30 2.6
5 57 4.5
6 25 3.0
7 28 2.9
8 36 3.8
9 22 2.1
10 43 3.8
11 57 4.1
12 33 3.0
13 22 2.5
14 63 4.6
15 40 3.2
16 48 4.2
17 28 2.3
18 49 4.0
13
Cov(x, y) = 10.68
0.94
84 0 60 13 68 10 , cov
y
x SD SD y r
56 0 94 0 1 94 0 1 ln 2 1
z
0 26
15 1 3 1
n z SE
t-statistic = 0.56 / 0.26 = 2.17 Giá trị với n-2=16, alpha = 5% ta có 2.11 Kết luận: Có sự liên hệ có ý nghĩa giữa tuổi cà hàm lượng cholesterol.
Phân tích hồi quy đơn giản
Đánh giá:
Định tính mối quan hệ giữa 2 biến
Dự đoán
Dự đoán và đánh giá kiểm định
Kiểm soát
Điều chỉnh vì hiệu ứng phức tạp (trong trường hợp nhiều biến)
14
• Chỉ có 2 biến quan tâm: một biến trả lời, 2 là biến dự đoán
• Không cần điều chỉnh những biến khó (No adjustment is
needed for confounding or covariate)
Mối quan hệ giữa độ tuổi và hàm lượng cholesterol
15
Trang 6Hồi quy tuyến tính: Mô hình
Y : biến ngẫu nhiên đại diện cho biến trả lời
X : biến ngẫu nhiên đại diện cho biến dự đoán (dự
đoán, yếu tố rủi ro)
liên tục( trứng, tuổi)
biến liên tục thì mô hình hồi quy tuyến tính đơn giản
Mô hình
Y = a + bX + e
a : intercept
b : slope / gradient
: random error (variation between subjects in y even if x is constant,
e.g., variation in cholesterol for patients of the same age.)
16
Hồi quy tuyến tính: giả thiết
X được đo lường không có sai số;
;
không và phương sai là hằng số.
17
Giá trị kỳ vọng và phương sai
Nếu giả thiết là hợp lý:
Giá trị kỳ vọng của Y là: E(Y | x) = a + bx
Phương sai Y is: var(Y) = var(e) = s2
18
Trang 7Ước lượng mô hình tham số
19
Cho 2 điểm A(x1, y1) và B(x2, y2) trong không gian 2 chiều, chúng
ta có thể đưa ra một phương trình nối các điểm
A(x1,y1)
B(x2,y2)
Gradient:
1 2 1 2
x x y y dx dy m
Equation: y = mx + a
Điều gì xẩy ra nếu có nhiều hơn 3 điểm
a
x
y
0
dy
dx
Ước lượng a and b
Cho n cặp số: (x1, y1), (x2, y2), (x3, y3), …, (xn, yn)
Đặt a và b là ước lượng mẫu cho tham số a và b,
Phương trình mẫu: Y * = a + bx
nhỏ nhất
ước lượng bình phương cực tiểu.
20
Tiêu chuẩn ước lượng
21
Chol
Age
i
i a bx
y ˆ
i
i y y
d ˆ
yi
Mục tiêu của ước lượng bình phương cực tiểu là tìm giá trị a và b để d2 là nhỏ nhất.
Trang 8Ước lượng giá trị của a và b
Sau một số công thức tính toán, kết quả thu được như
sau:
22
xx
xy S
S
b x y
S
1 2
n
S
1 Trong đó:
• When the regression assumptions are valid, the estimators of a and b
have the following properties:
– Unbiased
– Uniformly minimal variance (eg efficient)
Goodness-of-fit
Bây giờ, ta có phương trình Y = a + bX + e
Câu hỏi:: Làm cách nào biết phương trình hồi quy mô
tả đúng số liệu?
Trả lời: Hệ số xác định (R2): tổng số sự khác biệt ở Y
được giải thích do sự khác biệt ở X
23
Mô tả sự sai khác: các khái niệm
SST = Sum of squared difference between yiand the mean
of y
SSR = sum of squared difference between the predicted
value of y and the mean of y
SSE = sum of squared difference between the observed
and predicted value of y
SST = SSR + SSE
Hệ số xác định R2là:
R2= SSR / SST
24
Trang 9Mô tả sự sai khác: Hình học
25
Chol (Y)
Age (X)
mean SSR
SSE
SST
Mô tả sự sai khác: Đại số
26
• Một số đại lương thống kê:
• Tổng bình phương phương sai:
• Tổng bình phương phương sai:
của mô hình
• Tổng bình phương sai số:
• Trong đó
• SST = SSR + SSE
• SSR = SST – SSE
n
SST
1
2
y y SSR
1
2
ˆ
n
y y SSE
1
2
ˆ
Phân tích phương sai
SS tăng theo tỉ lệ đối với kích thước mẫu (n)
Bình phương trung bình (MS): chuẩn hóa theo bậc tự do (df )
MSR = SSR / p ( với p = số bậc tự do)
MSE = SSE / (n – p – 1)
MST = SST / (n – 1)
27
• Bảng phân tích phương sai (ANOVA) :
Nguồn gốc
phương sai
Bậc tụ
do
(d.f)
Sum of squares (SS)
Mean squares (MS) F-test
Hồi quy
Phần dư
Tổng
p
N–p –1
n – 1
SSR SSE SST
MSR MSE MSR/MSE
Trang 10Lưu ý: Báo cáo kết quả
Các kết quả nên báo cáo đầy đủ các chi tiết: bản chấn của
biến trả lời, biến dự đoán, bất cứ sự chuyển thể nào, kiểm
tra giả thiết, etc
Hệ số hồi quy (a, b), sai số chuẩn và R2là những tóm tắt
hữu dụng
28
Lưu ý
Các phương trình là nền tảng cho mối liên hệ về kết
quả trả lời (Equations are the cornerstone on which
the edifice of science rests)
Phương trình giống như bài thơ, đôi khi là củ hành
Vì thế cẩn thận khi xây dựng phương trình!
29
Kiểm định giả thiết trong phân tích hồi quy
Ta có
Tập hợp: Y = a + bX + e
Ho: b = 0 Không có sự liên hệ giữa biến kết quả X và
biến dự đoán (Y)
Nói theo ngôn ngữ bình dân: “what is the chance, given
the sample data that we observed, of observing a
sample of data that is less consistent with the null
hypothesis of no association?”
30
Trang 11Suy diễn về độ dốc (tham số b)
Kỳ vọng của giá trị b là b, ví dụ E(b) = b,
Sai số chuẩn của b là:
phân phối t với bậc tự do là n-1
31
SE /
Khoảng tin cậy quanh giá trị dự đoán
Giá trị quan sát là Y i
Giá trị dự đoán là
Sai số chuẩn của giá trị tiên đoán là:
32
Khoảng ước lượng của giá trị Y i
xx
i i
S
x x n s Y
SE
2 1
1
ˆ 1,1 /2
ˆ
Y
i
Y ˆ
Kiểm tra giả thiết
Kiểm tra sự ổn định phương sai
Kiểm tra phân phối chuẩn
Tính chính xác của hàm số
Sự ổn định của mô hình
Tất cả có thể tiến hành bởi phân tích đồ thị Giá trị
phần dư từ mô hình hoặc đồ thị phần dư đóng vai trò
quan trọng trong tất cả các quy trình phân tích
33
Trang 12Kiểm tra giả thiết
Kiểm tra về phương sai (constant)
Plot the studentized residuals versus their predicted values
Examine whether the variability between residuals remains
relatively constant across the range of fitted values.
Assumption of normality
Plot the residuals versus their expected values under normality
(Normal probability plot) If the residuals are normally distributed,
it should fall along a 45 o line.
Correct functional form?
Plot the residuals versus fitted values Examine whether the
residual plot for evidence of a non-linear trend in the value of the
residual across the range of fitted values.
Model stability
Check whether one or more observations are influential Use
Cook’s distance.
34
Checking assumptions (Cont)
Cook’s distance (D) is a measure of the magnitude
by which the fitted values of the regression model
change if the ith observation is removed from the data
set
Leverage is a measure of how extreme the value of x i
is relative to the remaining value of x
The Studentized residual provides a measure of
how extreme the value of yiis relative to the
remaining value of y
35
Đo lường sự chính xác
Non-constant variance
logarithm) is often helpful.
problem, use a more robust estimator such as iterative weighted
least squares.
Non-normality
Outliers
36
Trang 13Regression analysis using R
id <- seq(1:18)
age <- c(46, 20, 52, 30, 57, 25, 28, 36, 22,
43, 57, 33, 22, 63, 40, 48, 28, 49)
chol <- c(3.5, 1.9, 4.0, 2.6, 4.5, 3.0, 2.9, 3.8, 2.1,
3.8, 4.1, 3.0, 2.5, 4.6, 3.2, 4.2, 2.3, 4.0)
#Fit linear regression model
reg <- lm(chol ~ age)
summary(reg)
37
ANOVA result
> anova(reg)
Analysis of Variance Table
Response: chol
Df Sum Sq Mean Sq F value Pr(>F)
age 1 10.4944 10.4944 114.57 1.058e-08 ***
Residuals 16 1.4656 0.0916
-Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
38
Results of R analysis
39
> summary(reg)
Call:
lm(formula = chol ~ age)
Residuals:
Min 1Q Median 3Q Max
-0.40729 -0.24133 -0.04522 0.17939 0.63040
Coefficients:
Estimate Std Error t value Pr(>|t|)
(Intercept) 1.089218 0.221466 4.918 0.000154 ***
age 0.057788 0.005399 10.704 1.06e-08 ***
-Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.3027 on 16 degrees of freedom
Multiple R-Squared: 0.8775, Adjusted R-squared: 0.8698
F-statistic: 114.6 on 1 and 16 DF, p-value: 1.058e-08
Trang 14Diagnostics: influential data
40
par(mfrow=c(2,2))
plot(reg)
2.5 3.0 3.5 4.0 4.5
Fitted values
Residua ls vs F itte d 8 6
1 7
-2 -1 0 1 2
Theoretic al Quantiles
No rmal Q-Q 8 6
17
2.5 3.0 3.5 4.0 4.5
Fitted values
Scale-Loca tion 8 6
1 7
0.00 0.05 0.10 0.15 0.20 0.25
Leverage
Cook's distance 0 5
0 5 1
Re sid uals vs Levera ge
6
2 8
A non-linear illustration: BMI and sexual attractiveness
Study on 44 university students
Measure body mass index (BMI)
Sexual attractiveness (SA) score
41
id <- seq(1:44)
bmi <- c(11.00, 12.00, 12.50, 14.00, 14.00, 14.00, 14.00,
14.00, 14.00, 14.80, 15.00, 15.00, 15.50, 16.00,
16.50, 17.00, 17.00, 18.00, 18.00, 19.00, 19.00,
20.00, 20.00, 20.00, 20.50, 22.00, 23.00, 23.00,
24.00, 24.50, 25.00, 25.00, 26.00, 26.00, 26.50,
28.00, 29.00, 31.00, 32.00, 33.00, 34.00, 35.50,
36.00, 36.00)
sa <- c(2.0, 2.8, 1.8, 1.8, 2.0, 2.8, 3.2, 3.1, 4.0, 1.5,
3.2, 3.7, 5.5, 5.2, 5.1, 5.7, 5.6, 4.8, 5.4, 6.3,
6.5, 4.9, 5.0, 5.3, 5.0, 4.2, 4.1, 4.7, 3.5, 3.7,
3.5, 4.0, 3.7, 3.6, 3.4, 3.3, 2.9, 2.1, 2.0, 2.1,
2.1, 2.0, 1.8, 1.7)
Linear regression analysis of BMI and SA
42
reg <- lm (sa ~ bmi)
summary(reg)
Residuals:
Min 1Q Median 3Q Max
-2.54204 -0.97584 0.05082 1.16160 2.70856
Coefficients:
Estimate Std Error t value Pr(>|t|)
(Intercept) 4.92512 0.64489 7.637 1.81e-09 ***
bmi -0.05967 0.02862 -2.084 0.0432 *
-Signif codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 1.354 on 42 degrees of freedom
Multiple R-Squared: 0.09376, Adjusted R-squared: 0.07218
F-statistic: 4.345 on 1 and 42 DF, p-value: 0.04323
Trang 15BMI and SA: analysis of residuals
43
plot(reg)
3.0 3.5 4.0
Fitted values
Residua ls vs F itte d 21
10 20
-2 -1 0 1 2
Theoretic al Quantiles
No rmal Q-Q
2 1
10
2 0
3.0 3.5 4.0
Fitted values
Scale-Loca tion 21
0.00 0.02 0.04 0.06 0.08 0.10 0.12
Leverage
Cook's distance
Re sid uals vs Levera ge
1
1 0
BMI and SA: a simple plot
44
par(mfrow=c(1,1))
reg <- lm(sa ~ bmi)
plot(sa ~ bmi, pch=16)
abline(reg)
bmi
Re-analysis of sexual attractiveness data
# Fit 3 regression models
linear <- lm(sa ~ bmi)
quad <- lm(sa ~ poly(bmi, 2))
cubic <- lm(sa ~ poly(bmi, 3))
# Make new BMI axis
bmi.new <- 10:40
# Get predicted values
quad.pred <- predict(quad,data.frame(bmi=bmi.new))
cubic.pred <- predict(cubic,data.frame(bmi=bmi.new))
# Plot predicted values
abline(reg)
lines(bmi.new, quad.pred, col="blue",lwd=3)
lines(bmi.new, cubic.pred, col="red",lwd=3)
45
Trang 16b mi
Some comments:
Interpretation of correlation
Correlation lies between –1 and +1 A very small correlation
does not mean that no linear association between the two
variables The relationship may be non-linear
For curlinearity, a rank correlation is better than the
Pearson’s correlation
A small correlation (eg 0.1) may be statistically significant,
but clinically unimportant
R2is another measure of strength of association An r = 0.7
may sound impressive, but R2is 0.49!
Correlation does not mean causation
47
Some comments:
Interpretation of correlation
Be careful with multiple correlations For p variables, there are
p(p – 1)/2 possible pairs of correlation, and false positive is a
problem
Correlation can not be inferred directly from association
r(age, fat) is near zero
48
Trang 17Some comments: Interpretation of regression
The fitted line (regression) is only an estimated of the
relation between these variables in the population
Uncertainty associated with estimated parameters
Regression line should not be used to make prediction
of x values outside the range of values in the observed
data
A statistical model is an approximation; the “true”
relation may be nonlinear, but a linear is a reasonable
approximation
49
Lưu ý: Báo cáo kết quả
Các kết quả nên báo cáo đầy đủ các chi tiết: bản chấn của
biến trả lời, biến dự đoán, bất cứ sự chuyển thể nào, kiểm
tra giả thiết, etc
Hệ số hồi quy (a, b), sai số chuẩn và R2là những tóm tắt
hữu dụng
50
Lưu ý
Các phương trình là nền tảng cho mối liên hệ về kết
quả trả lời (Equations are the cornerstone on which
the edifice of science rests)
Phương trình giống như bài thơ, đôi khi là củ hành
Vì thế cẩn thận khi xây dựng phương trình!
51