Phương pháp nghiên cứu
Trang 1PHÂN TÍCH TƯƠNG QUAN VÀ
HOI QUY
Trang 3Sơ đồ phân tán và hệ số tương quan
Sơ đồ phân tán thể hiện mối quan hệ giửa hai biến
Phân tích hệ số tương quan dùng để đo lường mối quan hệ đồng hành giửa hai biến.
Hệ số tương quan không thể hiện mối quan hệ nhân quả.
Trang 4Sơ đồ phân tán (scatter plot)
Trang 5Sơ đồ phân tán (scatter plot)
Trang 6Sơ đồ phân tán (scatter plot)
(continued)
Trang 7Hệ số tương quan
Hệ số tương quan của đám đông ký hiệu là ρ
(rho) thể hiện sự đồng hành của hai biến.
Hệ số tương quan của mẩu r dùng ước lượng cho
rho và nó thể hiện tương quan tuyến tính dựa trên
các phần tử quan sát được từ mẩu.
(continued)
Trang 8Đặc điểm của ρ and r
Không có đơn vị đo lường
Biến động trong phạm vi -1 và1
Càng gần -1, mối quan hệ nghịch biến càng cao
Càng gần +1, mối quan hệ đồng biến càng cao
Càng gần 0, mối quan hệ tuyến tính càng yếu
Trang 10( ][
) x x
( [
) y y
)(
x x
( r
2 2
Các ký hiệu:
r = Hệ số tương quan của mẩu
n = Cở mẩu
x = các giá trị của biến độc lập
y = Các giá trị của biến phụ thuộc
) y (
n ][
) x (
) x (
n [
y x
xy
n r
2 2
2 2
Cách tính tương đương
Trang 11Ví dụ
Độ cao
của cây
Đường kính thân cây
Trang 12(73) [8(713)
(73)(321) 8(3142)
] y) (
) y ][n(
x) (
) x [n(
y x
xy
n r
2 2
2 2
2 2
r = 0.886 → relatively strong positive
linear association between x and y
Trang 13Excel Output
Tree Height Trunk Diameter
Excel Correlation Output
Tools / data analysis / correlation…
Correlation between Tree Height and Trunk Diameter
Trang 14Kiểm định mức ý nghĩa của hệ số tương
quan
Giả thuyết
H0: ρ = 0 (Không có quan hệ tương quan)
HA: ρ ≠ 0 (Có quan hệ tương quan)
Công thức tính
(with n – 2 degrees of freedom)
2 n
r 1
r t
2
Trang 15.886 1
.886
2 n
r 1
r t
Trang 162 8
.886 1
.886
2 n
r 1
r t
Quyết định :
Từ chối H0
Reject H0Reject H0
Trang 17Mô hình hồi quy tuyến tính giản đơn
Chỉ có một biến đôc lập: x
Mối quan hệ giửa x và y là quan hệ tuyến tính
Sự thay đổi của y được giả định là do sự thay đổi của x.
Trang 18Các mô hình thể hiện mối quan hệ
Quan hệ đồng biến
Quan hệ nghịch biến
Quan hệ phi tuyến
Khong có quan hệ
Trang 19ε x
β β
Bộ phận dự đoán tương quan
Hàm tương quan của đám đông
Hằng số Hệ số góc Hệ số sai
lệch/phần dư Biến phụ thuộc
Biến độc lập
Sai lệch ngẩu nhiên
Trang 20Các giả thuyết của hàm tương quan
Các sai lệch ngẩu nhiên hoàn toàn độc lập với nhau
về phương diện thống kê
Các sai lệch ngẩu nhiên có phân phối chuẩn
Phân phối xác suất của các sai lệch ngẩu nhiên có phương sai không đổi
Quan hệ giửa x và y là quan hệ tuyến tính
Trang 21Hàm tương quan tuyến tính của đám
đông
(continued)
Sai lệch ngẩu nhiên của biến xi
β β
Trang 22x b
b
yˆ i 0 1
Hàm tương quan ước lượng của mẩu
Hằng số ước lượng của hàm tương quan Hệ số góc ước
Trang 23Tiêu chuẩn bình phương bé nhất (Least
Squares Criterion)
b0 và b1 được tính toán theo tiêu chuẩn tổng bình phương bé nhất của phần dư (residuals)
2 1
0
2 2
x)) b
(b (y
) yˆ (y
Trang 24Hệ số của hàm tương quan theo tiêu chuẩn tổng bình phương bé nhất
n
y
x xy
2
1
) (
) )(
(
x x
y y
x
x b
x b y
b0 1
và
Trang 25 b0 là giá trị trung bình của y khi x nhận giá trị bằng 0
trung bình của y mổi khi x thay đổi một đơn
vị
Yù nghĩa của hệ số góc và hằng số
của hàm tương quan
Trang 26Ví dụ về hàm tươg quan giản đơn
Một nhà buôn bất động sản tiến hành khảo sát mối quan hệ giửa giá bán căn hộ và diện tích căn hộ (đo lường bằng m2.
Một mẩu gồm 10 căn hộ được chọn ra
Biến phụ thuộc (y): Giá bán căn hộ (1000USD)
Biến độc lập (x): Diện tích
Trang 27Giá trị các quan sát
Giá bán ($1000)
(y)
Diện tích (x)
Trang 28Sử dụng excel để xây dựng hàm tương
quan
Tools / Data Analysis / Regression
Trang 29Kết quả phân tích trên Excel
The regression equation is:
feet) (square
0.10977 98.24833
price
Trang 300 50 100 150 200 250 300 350 400 450
0.10977 98.24833
Trang 31Giải thích ý nghĩa của hằng số b 0
b0 là giá trị trung bình ước lượng của giá nhà khi giá trị x (số m2) bằng 0.
Trong trường hợp nầy, không có giá tri x nào nhận giá trị 0, cho nên b0 = 98.24833 thể hiện giá nhà
không được giải thích bởi số lượng met vuông.
meter) square
* 0.10977 98.24833
price
Trang 32Giải thích ý nghĩa của hệ số góc b 1
Trong trường hợp nầy b1 = 10977 chỉ ra rằng giá trung bình của can hộ sẽ gia tăng 0.10977 đơn vị ($1000) khi số met vuông tăng 1 đơn vị
feet) (square
0.10977 98.24833
price
Trang 33Các đặc trưng của hàm tưoơng quan theo phương pháp bình phương bé
nhất
giá trị trung bình của x và y
cho β0 và β1
0 )
Trang 34Biến thiên giải thích được và không giải
thích được
Tổng biến thiên bao gồm hai bộ phận
RSS
ESS
Trang 35
Biến thiên giải thích được và không giải
Trang 36 Hệ số xác định thể hiện tỷ trọng của tổng biến thiên của biến phụ thuộc có thể giải thích được bởi biến thiên của biến độc lập
Hệ số xác định được gọi là R bình phương (R2)
Hệ số xác định R2 (coefficient of
determination)
TSS ESS
Trang 37Hệ số xác định R 2
(continued)
Chú ý: Trong trường hợp của hàm tương quan 1 biến , hệ số xác định
nầy bằng bình phương của hệ số tương quan
2 2
r
R
Trang 39Ví dụ về các tình huống đặc biệt của
R 2
y
x y
x
0 < R 2 < 1
Mối quan hệ tuyến tính yếu:
Một bộ phận biến thiên của y được giải thích bằng biến
thiên của x
Trang 40Ví dụ về các tình huống đặc biệt của
Trang 41Kết quả trên Excel
58.08% of the variation in house prices is explained by variation in square feet
0.58082 32600.5000
18934.9348 TSS
ESS
Trang 42Độ lệch tiêu chuẩn của ước lượng
Độ lệch tiêu chuẩn của biến thiên của biến phụ thuộc xoay quanh đường tương quan được ước lượng bởi côg thức
Trang 43Độ lệch chuẩn của hệ số góc của
s )
x (x
s s
2 2
ε 2
ε
b1
where:
= sai lệch tiêu chuẩn của hệ số góc của hàm tương quan
= Sai lệch chuẩn của ước lượng
1
b
s
2 n
RSS
sε
Trang 44Kết quả trên Excel
Trang 45So sánh sai lệch chuẩn của ước lượng
và của hệ số góc của hàm tương quan
1
b
s large
s small
s large
Biến thiên của giá trị quan sát y
khỏi đường tương quan
Biến thiên của hệ số góc của đường tương quan từ các mẩu khác nhau
Trang 46Kiểm định t cho hệ số góc với hàm
tương quan một biến
Kiểm định t
Thiết lập giả thuyết
s
β b
Trang 4798.25 price
Estimated Regression Equation:
Inference about the Slope:
t Test
(continued)
Trang 48From Excel output:
Reject H0
Coefficients Standard Error t Stat P-value
Intercept 98.24833 58.03348 1.69296 0.12892 Square Feet 0.10977 0.03297 3.32938 0.01039
Reject H0Reject H0
Trang 49Phân tích mô tả với hàm tương quan
Khoảng ước lượng của hệ số góc
Excel Printout for House Prices:
At 95% level of confidence, the confidence interval for
the slope is (0.0337, 0.1858)
1
b /2
b a
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square meter 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
d.f = n - 2
Trang 50Phân tích mô tả với hàm tương quan
Since the units of the house price variable is
$1000s, we are 95% confident that the average
impact on sales price is between $33.70 and
$185.80 per square meter of house size
Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square meter 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580
This 95% confidence interval does not include 0
Conclusion: There is a significant relationship between house price and square feet at the 05 level of significance
Trang 51Residual Analysis
Purposes
Examine for linearity assumption
Examine for constant variance for all
levels of x
Evaluate normal distribution assumption
Graphical Analysis of Residuals
Can plot residuals vs x
Can create histogram of residuals to
check for normality
Trang 52Residual Analysis for Linearity
Trang 53Residual Analysis for Constant Variance