Biểu đồ tương quan 18/11/2011 Biostatistics - Bùi Tấn Anh 2 PHÂN TÍCH HỒI QUY • Khái niệm: – Phân tích hồi qui là nghiên cứu sự phụ thuộc của một biến biến phụ thuộc vào một hay nhiều b
Trang 1Nội dung
1 PHÂN TÍCH HỒI QUY
1 Hồi quy đơn (Simple linear regression)
2 Hồi quy bội (Multiple regression)
3 Hồi quy đa thức (Polynomial regression)
4 Xây dựng mô hình tuyến tính từ nhiều biến
2 PHÂN TÍCH TƯƠNG QUAN
1 Hệ số tương quan (Correlation coefficient)
2 Biểu đồ tương quan
18/11/2011 Biostatistics - Bùi Tấn Anh 2
PHÂN TÍCH HỒI QUY
• Khái niệm:
– Phân tích hồi qui là nghiên cứu sự phụ thuộc của
một biến (biến phụ thuộc) vào một hay nhiều biến
khác (biến độc lập)
• Mục đích:
– ước lượng (hay dự đoán) giá trị trung bình của
biến phụ thuộc trên cơ sở các giá trị đã biết của
biến độc lập.
18/11/2011 Biostatistics - Bùi Tấn Anh 3
Hồi quy đơn (Simple linear regression)
• Hàm hồi quy:
y = 0 + 1x
trong đó – b0(intercept) được gọi là tung độ góc = hệ số chặn
(giá trị lúc xi= 0) – b1(slope) được gọi là độ dốc
– x là biến độc lập (còn gọi là predictors) – y là biến phụ thuộc (còn gọi là response).
18/11/2011 Biostatistics - Bùi Tấn Anh 4
• Các tham số 0và 1có thể được ước lượng từ
hai điểm bất kỳ, chẳng hạn (x1, y1) và (x2, y2):
và
0 y1 1 1x y2 1x2
1
Trang 2Hồi quy đơn (Simple linear regression)
• Thí dụ: trọng lượng (kg) và tuổi (tháng) của 7
con bê
18/11/2011 Biostatistics - Bùi Tấn Anh 7
Tuổi (x) Trọng lượng (y)
0
2
3
4
6
8
12
18 32 64 45 91 127 164
Hồi quy đơn (Simple linear regression)
• Biểu đồ phân tán (scatter plot) cho thấy giữa trọng lượng và tuổi có mối tương quan tuyến tính dương
18/11/2011 Biostatistics - Bùi Tấn Anh 8
Hồi quy đơn (Simple linear regression)
• Mô hình:
Trọng lượng = 0 + 1*Tuổi + ei
Dữ liệu = [Thành phần tuyến tính] + [Sai số]
• trong đó các dữ liệu có dạng
(x1, y1), (x2, y2), , (xn, yn)
18/11/2011 Biostatistics - Bùi Tấn Anh 9
Hồi quy đơn (Simple linear regression)
• Các giả định (Assumptions):
– dữ liệu có phân bố chuẩn – phương sai không đổi (s 2 ) – mô hình tuyến tính là đúng:
y i ~ N(0+ 1x i, s2) hoặc ei~ N(0, s2)
• Như vậy với mỗi giá trị xác định của x, y sẽ có
phân bố chuẩn với:
– trung bình là 0+ 1x i
– phương sai là s 2
18/11/2011 Biostatistics - Bùi Tấn Anh 10
• Nếu gọi ước lượng của 0là b0và ước lượng của
1là b1thì mô hình hiệu chỉnh sẽ là:
• Sai số là:
• Phương pháp thường dùng nhất là chọn các giá trị của b0và b1sao cho tổng bình phương sai số (SSE) là nhỏ nhất Phương pháp này được gọi là
ước lượng bình phương tối thiểu (least square estimates)
0 1
ˆ i i
0 1
ˆ
Trang 3Ước lượng các tham số
18/11/2011 Biostatistics - Bùi Tấn Anh 13
y
x
y1
y2
y3 y 4
y5
res5
18/11/2011 Biostatistics - Bùi Tấn Anh 14
• Để tổng bình phương sai số là nhỏ nhất, ta chọn:
và
ˆ
1 1
2
1
n
i n i i
b
0 1
18/11/2011 Biostatistics - Bùi Tấn Anh 15
b1= 1261/98 = 12.867
b0= 77.286 – 12.867*5.00 = 12.94
Tuổi (x i ) Trọng lượng (y i ) X ix ix Y iy iy 2
i
i
0
2
3
4
6
8
12
18
32
64
45
91
127
164
–5 –3 –2 –1
1
3
7
–59.29 –45.29 –13.29 –32.29 13.71 49.71 86.71
25
9
4
1
1
9
49
3,514.80 2,050.80 176.51 1,042.37 188.08 2,471.51 7,519.37
296.43 135.86 26.57 32.29 13.71 149.14 607.00
35 541 0 0.00 98 16,963.43 1,261.00
5.00
18/11/2011 Biostatistics - Bùi Tấn Anh 16
• Phương trình hồi quy:
• Tung độ góc: b0= 12.95 (khi x = 0)
• Độ dốc: b1= 12.87
• Giá trị hiệu chỉnh là trọng lượng trung bình của
bê được ước lượng cho một độ tuổi nhất định
• Thí dụ: một con bê 10 tháng tuổi sẽ có trọng lượng trung bình được ước lượng là:
12.95 + 12.87*10 = 141.62 kg
ˆ12.95 12.87
• Ước lượng của s2là s 2( )
s 2 = SSE/(n-2)
=
• Trong thí dụ trên: s 2= 737.70/5 = 147.54
và s = 12.15 kg
2
Y X
s
2
1 ˆ
2
n
i
y y n
Kiểm định giả thuyết
• Tung độ góc (Intercept)
H 0 : b0= 0 (đường thẳng hồi quy đi qua trục tung)
H 1 : b0≠ 0
• Độ dốc (Slope)
H 0 : b1= 0 (không có tương quan tuyến tính)
H 1 : b1≠ 0
Trang 4Kiểm định tung độ góc
18/11/2011 Biostatistics - Bùi Tấn Anh 19
0
0
( )
b
t
se b
2 1
1
n i i n i i
x
df = n – 2
• Trong thí dụ trên:
• t = 12.95/7.66 = 1.69 với df = 7 – 2 = 5
• P-value: P = 2*P (T5> 1.69) = 0.15 > 0.05 Không thể bác bỏ H0 đường thẳng hồi quy
đi qua trục tung
18/11/2011 Biostatistics - Bùi Tấn Anh 20
0
273
7 *98
Kiểm định độ dốc
18/11/2011 Biostatistics - Bùi Tấn Anh 21
df = n – 2
1
1
( )
b
t
se b
1
2 1
( )
n
i i
s
se b
• Trong thí dụ trên:
• t = 12.87/1.23 = 10.49 với df = 7 – 2 = 5
• P-value: P = 2*P (T5> 10.49) = 0.00 < 0.05 Bác bỏ H0 trọng lượng bê tăng có ý nghĩa theo độ tuổi
18/11/2011 Biostatistics - Bùi Tấn Anh 22
1
12.15
98
Bảng ANOVA
Nguồn
biến động
Tổng
Bình phương Độ tự do
Trung bình Bình phương
Residual SSE n – 2 MSE = SSE/(n – 2)
Total SST n – 1
Bảng ANOVA
• Trong thí dụ trên
Nguồn biến động
Tổng Bình phương Độ tự do
Trung bình Bình phương Regression 16,226 1 16,226 Residual 738 5 147.5 Total 16,964 6
Trang 5Bảng ANOVA
18/11/2011 Biostatistics - Bùi Tấn Anh 25
• Trong hồi quy tuyến tính đơn, có một mối liên
hệ giữa t-test và F-test:
t2= F
• Tỉ lệ của biến thiên được giải thích bởi mô
hình:
2 Regression SS SSR
Áp dụng Minitab
18/11/2011 Biostatistics - Bùi Tấn Anh 26
• Nhập liệu:
Phân tích
18/11/2011 Biostatistics - Bùi Tấn Anh 27
1
Phân tích
18/11/2011 Biostatistics - Bùi Tấn Anh 28
• s = 12.1466 là sai số chuẩn của ước lượng (standard error of estimate
SSE
s = n-2
Trang 6Giải thích
• Phương trình hồi qui đơn là :
y (trọng lượng) = 12.949 + 12.867 x (độ tuổi)
• Tỉ lệ của biến động chung của trọng lượng
theo độ tuổi là:
R-sq = RSS / TSS = 16226 / 16963 = 0.957
= 95.7%
được gọi là hệ số xác định R2(coefficient of
determination)
18/11/2011 Biostatistics - Bùi Tấn Anh 31
Giải thích
• R2= 95.7%, có nghĩa là phương trình tuyến tính giải thích khoảng 96% các khác biệt về trọng lượng giữa các độ tuổi
• Trị số R2có giá trị từ 0 đến 100% (hay 1)
• R2càng cao là một dấu hiệu cho thấy mối liên
hệ giữa hai biến số độ tuổi và trọng lượng càng chặt chẽ
18/11/2011 Biostatistics - Bùi Tấn Anh 32
Giải thích
• R-sq (adj) = Adjusted R squared = hệ số xác
định hiệu chỉnh Đây là hệ số cho ta biết mức
độ cải tiến của phương sai sai số (residual
variance) do yếu tố độ tuổi có mặt trong mô
hình tuyến tính
18/11/2011 Biostatistics - Bùi Tấn Anh 33
R-sq(adj) = 1 (1 R )
n 1 k
Biểu đồ
18/11/2011 Biostatistics - Bùi Tấn Anh 34
Trang 7Biểu đồ
18/11/2011 Biostatistics - Bùi Tấn Anh 37
Thí dụ 2
• Khi nuôi loài bọ cánh cứng Tribolium confusum ở môi trường có độ ẩm khác nhau,
người ta nhận thấy trọng lượng chúng bị giảm
do sự mất nước
• 25 con bọ được chia thành 9 nhóm Lượng nước bị mất (mg) được ghi nhận ở mỗi nhóm sau 6 tuần nuôi (không cho ăn) như bảng bên dưới
• Liệu sự mất nước có liên quan gì đến độ ẩm môi trường hay không?
18/11/2011 Biostatistics - Bùi Tấn Anh 38
18/11/2011 Biostatistics - Bùi Tấn Anh 39
độ ẩm tương đối Giảm trọng
Biểu đồ
18/11/2011 Biostatistics - Bùi Tấn Anh 40
Kết quả phân tích hồi qui
Predictor Coef SE Coef T P
Constant 8.6665 0.1844 46.99 0.000
X -0.052676 0.003135 -16.80 0.000
S = 0.285635 R-Sq = 97.6% R-Sq(adj) = 97.2%
• Dựa trên các kết quả thu được sau khi phân tích hãy
thiết lập phương trình hồi quy, rút ra các nhận xét và
kết luận Từ phương trình hồi quy, hãy ước lượng
xem bọ sẽ bị mất bao nhiêu mg khi độ ẩm tương đối
là 50%.
Hồi qui bội
• Phương trình hồi qui:
Ŷ = a + b 1 x 1 + b 2 x 2 + + b k x k + e i
• Các hệ số b1, b2, bktrong phương trình hồi
quy bội được gọi là độ dốc từng phần (partial slope)
Trang 8Hồi qui bội
Thí dụ 1:
• Bảng dưới đây là kết quả nghiên cứu của một
nhà hoá học về sự giảm khối lượng (y) của một
hợp chất theo thời gian tiếp xúc với không khí
(x1) và độ ẩm của môi trường (x2)
18/11/2011 Biostatistics - Bùi Tấn Anh 43 18/11/2011 Biostatistics - Bùi Tấn Anh 44
Sự giảm khối lượng (pound) Thời gian (giờ) Độ ẩm tương đối
4.3 5.5 6.8 8.0 4.0 5.2 6.6 7.5 2.0 4.0 5.7 6.5
4
5
6
7
4
5
6
7
4
5
6
7
0.2 0.2 0.2 0.2 0.3 0.3 0.3 0.3 0.4 0.4 0.4 0.4
Kết quả phân tích bằng Minitab
• The regression equation is
Khối lượng = 0.667 + 1.32 Thời gian - 8.00 Độ ẩm
Predictor Coef SE Coef T P
Constant 0.6667 0.6942 0.96 0.362
Thời gian 1.31667 0.09981 13.19 0.000
Độ ẩm -8.000 1.367 -5.85 0.000
S = 0.386580 R-Sq = 95.9% R-Sq(adj) = 94.9%
18/11/2011 Biostatistics - Bùi Tấn Anh 45
Kết quả phân tích bằng Minitab
• Hãy dự đoán xem khối lượng của hợp chất bị giảm bao nhiêu khi thời gian tiếp xúc với không khí là 6.5 giờ và độ ẩm tương đối của môi trường là 0.35
18/11/2011 Biostatistics - Bùi Tấn Anh 46
Thí dụ 2
• Dưới đây là kết quả nghiên cứu của Woods,
Steinour & Starke về lượng nhiệt phát ra khi
cho tác dụng giữa bột hàn răng với bốn loại
hóa chất:
– X1= tricalcium aluminate
– X2= tricalcium silicate
– X3= tetracalcium aluminoferrite
– X4= beta-dicalcium silicate
Trang 9Hồi qui đa thức
• Phương trình hồi qui:
Ŷ = a + bX + cX 2 + dX 3 +
• Khi X và Y có mối liên hệ phụ thuộc bậc 2:
Ŷ = a + bX + cX 2
• Khi X và Y có mối liên hệ phụ thuộc bậc 3:
Ŷ = a + bX + cX 2 + dX 3
18/11/2011 Biostatistics - Bùi Tấn Anh 49
Hồi qui đa thức bậc 2
• Để nghiên cứu về khả năng sinh sản của châu chấu, một nhà côn trùng học thí nghiệm trên một mẫu gồm 30 châu chấu cái Chỉ tiêu nghiên cứu là trọng lượng con cái (g) và số lượng trứng do mỗi con đẻ ra
• Dữ liệu được ghi nhận trong bảng sau:
18/11/2011 Biostatistics - Bùi Tấn Anh 50
18/11/2011 Biostatistics - Bùi Tấn Anh 51
SL trứng TL con cái SL trứng TL con cái
Hồi qui đa thức bậc 3
18/11/2011 Biostatistics - Bùi Tấn Anh 52
Mẫu Hàm lượng gỗ cứng (x) Độ căng (y)
1
3
4
6
7
9
10
11
13
14
16
18
19
1.0 2.0 3.0 4.5 5.0
6.0
7.0 9.0 10.0
12.0 14.0 15.0
6.3 11.1
24.0 30.0 33.8
38.1 42.0 46.1
52.0
48.0 27.8 21.9
Hồi quy phi tuyến (Nonlinear Regression)
• Ngoài các dạng hồi quy tuyến tính như đã trình
bày ở trên, trong thực tế nghiên cứu ta còn gặp
phải nhiều dạng liên hệ phi tuyến
• Trong trường hợp này, trước tiên ta phải
chuyển chúng thành các dạng liên hệ tuyến
tính để phân tích và tính các hệ số
• Trong một số trường hợp sau đó phải chuyển
về biến số thực để thiết lập phương trình hồi
quy phi tuyến chính tắc
Hồi quy phi tuyến (Nonlinear Regression)
• Thí dụ: Y = a + ebX
• Có thể tuyến tính hóa bằng cách chuyển dạng biến phụ thuộc Y thành Ln Y Do đó phương trình tuyến tính có dạng là:
Y' = a' + b X – trong đó Y' = Ln Y và a' = Ln a
Trang 10Thí dụ
• Tương quan giữa tỉ lệ triền quang (Y) và chỉ số
diện tích lá (X) ở giống lúa IR8 được ghi nhận
trong bảng dưới đây (theo Gomez, 1987)
18/11/2011 Biostatistics - Bùi Tấn Anh 55
Tương quan giữa tỉ lệ triền quang và chỉ số diện tích lá.
18/11/2011 Biostatistics - Bùi Tấn Anh 56
75.0 1 72.0 1 42.0 2 29.0 3 27.0 3 10.0 5
2.0 10 1.0 10 0.9 12
Regression Analysis: LnY versus X
• The regression equation is
LnY = 4.46 - 0.403 X
Predictor Coef SE Coef T P
Constant 4.45789 0.07817 57.03 0.000
X -0.40342 0.01153 - 34.99 0.000
S = 0.152682 R-Sq = 99.2% R-Sq(adj) = 99.1%
18/11/2011 Biostatistics - Bùi Tấn Anh 57
• Từ kết quả trên ta có
• Dùng các kết quả này để lập phương trình phi tuyến chính tắc
18/11/2011 Biostatistics - Bùi Tấn Anh 58
12 10 8 6 4 2
0
80
70
60
50
40
30
20
10
0
X
Fitted Line Plot
Y = 89.6025 * exp(-0.403 * X)
Phân tích tương quan
• Hệ số tương quan (correlation coefficient) được dùng để đo mức độ liên hệ tuyến tính giữa hai biến
• Hệ số tương quan (HSTQ) có thể có giá trị nằm giữa -1 và +1
• Nếu một biến có xu hướng tăng trong khi biến kia lại giảm thì HSTQ có giá trị âm Ngược lại nếu cả hai biến cùng tăng thì HSTQ có giá trị dương
Trang 11Hệ số tương quan (r)
• Stat > Basic Statistics > Correlation
• r = 0 không có mối tương quan tuyến tính
giữa x và y
• r = +1 hoặc –1 tương quan hoàn hảo
đường thẳng
• r gần = +1 hoặc –1 cho thấy tương quan rất
chặt
• Tổng quát: Tương quan rất chặt khi r > 0 7
hoặc < –0.7
18/11/2011 Biostatistics - Bùi Tấn Anh 61
Biểu đồ tương quan
18/11/2011 Biostatistics - Bùi Tấn Anh 62