Bài giảng Phương pháp nghiên cứu
Trang 1Hàm tương quan đa biến
Trang 2Mục tiêu học tập
Thông hiểu việc xây dựng mô hình với việc
phân tích đa biến
Thực hiện việc xây dựng hàm tương quan đa biến
Phân tích và lý giải kết quả của hàm tương
quan đa biến
Thực hiện các phép kiểm định thống kê với
Trang 3Mô hình của hàm tương quan đa biến
ε x
β x
β x
β β
y 0 1 1 2 2 k k
k k
2 2
1 1
Estimated slope coefficients
Hàm tương quan ước lượng
Estimated intercept
Trang 4Mô hình của hàm tương quan đa biến
(trường hợp hai biến)
Mô hình hai biến
y
x 2
2 2 1
1
0 b x b x b
yˆ
Trang 5Mô hình của hàm tương quan đa biến
(trường hợp hai biến)
1
0 b x b x b
Quan sát thực tế
Trang 6Multiple Regression Assumptions
Giả thuyết
Các sai lệch có phân phối chuẩn
Bình quân của các sai lệch co giá trị bằng 0
Phương sai của các sai lệch là cố định
Các sai lệch hoàn toàn độc lập
e = (y – y)
Sai lệch (errors) hay phần dư (residuals):
Trang 7Ma trận hệ số tương quan
Ma trận hệ số tương quan giữa biến phụ thuôc và các biến độc lập được tính trên Excel:
Tools / Data Analysis… / Correlation
Kiểm tra độ tin cậy thống kê của các hệ số tương quan với phép kiểm định t
Trang 8Ví dụ
tác động của giá cả và quảng cáo đến sản lượng hàng bán ra
Biến phụ thuộc: Sản lượng (Chiếc mỗi tuần)
Biến độc lập: giá cả ($) và chi phí quảng cáo (đơn vị
$100/tuần)
Thông tin được thu thập liên tục trong 15 tuần
Trang 9Hàm tương quan đa biến
Sales = b 0 + b 1 (Price)
+ b 2 (Advertising)
Week
Pie Sales
Price ($)
Advertising ($100s)
Trang 10Giải thích ý nghĩa các hệ số tương
b i
Giá trị trung bình của y sẽ thay đổi b i đơn vị khi gia tăng một đơn vị X i , giả định rằng các biến khác đều cố định
Hằng số tương quan (b 0 )
Giá trị trung bình của y khi mọi biến X i đều bằng
0
Trang 11Kết quả của hàm tương quan đa biến
ertising) 74.131(Adv
ce) 24.975(Pri -
306.526
Trang 12Hệ số xác định của hàm tương quan
đa biến
Tỷ lệ % biến thiên của y có thể giải thích bởi sự biến thiên đồng thời của tất cả các X i
squares of
sum Total
regression squares
of
Sum TSS
ESS
R 2
Trang 13.52148 56493.3
29460.0 SST
SSR
52.1% of the variation in pie sales
is explained by the variation in price and advertising
Hệ số xác định của hàm tương quan
đa biến
(continued)
Trang 14Hệ số xác định đã điều chỉnh (Adjusted
R 2)
R 2 hầu như không bao giờ giảm khi chúng ta thêm
biến độc lập mới vào mô hình
Gây khó khăn trong việc so sánh các mô hình trước và sau khi thêm biến mới
Tác đông thực khi thêm biến mới
Chúng ta sẽ giãm bậc tự do khi có biến mới thêm vào.
Việc thêm biến mới có đũ năng lực giải thích để bù đấp cho sự mất mát khi giãm bậc tự do hay không?
Trang 15 Thể hiện % tổng biến thiên của y có thể giải thích
đượcbởi tất cả các biến Xi đã được điều chỉnh cho số
n
1
n )
R 1
( 1
Trang 16Hệ số xác định đã điều chỉnh (Adjusted
R 2 )
Tác dụng của việc sử dụng R 2 đã điều chỉnh
Trừng phạt việc đưa quá nhiều biến không cần thiết vào mô hình
Hữu dụng trong việc so sánh mô hình Thường giá trị của nó nhỏ hơn R 2
Trang 17R 2 A
44.2% of the variation in pie sales is explained by the variation in price and advertising, taking into account the sample size and number of independent variables
Hệ số xác định đã điều chỉnh
(continued)
Trang 18Kiểm tra độ tin cậy của mô hình tương
H 0 : β 1 = β 2 = … = β k = 0 (không có quan hệ tuyến tính)
H A : Tối thiểu có β i ≠ 0 (Tối thiểu có một biến có quan hệ tuyến tính với y)
Trang 19RSS k
Trang 206.5386 2252.8
14730.0 MSE
Kết quả kiểm định F trên Excel
With 2 and 12 degrees
of freedom P-value for the F-Test
Trang 21The regression model does explain
a significant portion of the variation
in pie sales (There is evidence that at least one independent variable affects y)
Critical Value:
F a = 3.885
Kết quả kiểm định F trên Excel
(continued)
F
Trang 22Kiểm định tương quan tuyến tính của
biến độc lập với biến phụ thuộc
Sử dụng phép kiểm định t
Thể hiện mối quan hệ tuyến tính giửa biến x i và y
Giả thuyết :
H 0 : β i = 0 (không có quan hệ tuyến tính)
H A : β i ≠ 0 (có quan hệ tương quan tuyến tính)
Trang 23Kiểm định tương quan tuyến tính của
biến độc lập với biến phụ thuộc
Trang 24Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
t-value for Price is t = -2.306, with p-value 0398
t-value for Advertising is t = 2.855, with p-value 0145
(continued) Kiểm định tương quan tuyến tính của
biến độc lập với biến phụ thuộc
Trang 25d.f = 15-2-1 = 12
a = 05
Kiểm định tương quan tuyến tính của
biến độc lập với biến phụ thuộc
H 0 : β i = 0
H A : β i 0
The test statistic for each variable falls
in the rejection region (p-values < 05)
There is evidence that both Price and Advertising affect pie sales at a = 05
From Excel output:
Reject H 0 for each variable
Coefficients Standard Error t Stat P-value
Price -24.97509 10.83213 -2.30565 0.03979 Advertising 74.13096 25.96732 2.85478 0.01449
Decision:
Conclusion:
Reject H0Reject H0
Trang 26Ước lượng các thông số của hàm tương quan đám đông từ mẩu
(the effect of changes in price on pie sales):
Example: sản lượng bánh nướng hàng tuần ước lượng sẽ
i
b 2
Trang 27Sai lệch tiêu chuẩn của hàm tương
quan
Cách xác định sai lệch tiêu chuẩn của hàm tương quan:
MRSS k
Muốn đánh giá giá trị nầy lớn hay nhỏ, chúng ta cần
phải so sánh với giá tri trung bình của biến phụ thuộc
Trang 28Coefficients Standard Error t Stat P-value Lower 95% Upper 95%
Sai lệch tiêu chuẩn của hàm tương quan là 47.46
(continued)
Độ lệch tiêu chuẩn của hàm tương quan
Trang 29 Độ lệch tiêu chuẩn của hàm tươg quan là 47.46
Với khoảng ước lượng 2 sigma, khoảng biến động sẽ nàm trong khoảng 2* (47.46)= 94.92.
Sản lượng bánh nướng bán ra trong tuần biến động
Trang 30Hiện tượng đa cộng tuyến
Trang 31Hiện tượng đa cộng tuyến
Dấu của các thông số của hàm tương quan bị sai lệch
(continued)
Trang 32Một vài chỉ báo của hiện tượng đa
cộng tuyến
Sai lệch về dấu của thông số của hàm tương quan
Sự thay đổi về lượng của các thông số của hàm
tương quan khi thêm biến mới vào
Một biến độc lập từ chổ đủ độ tin cậy thống kê sẽ
trở nên không đủ độ tin cậy thống kê khi thêm biến độc lập mới vào
Độ lệch tiêu chuẩn của hàm tương quan sẽ gia tăng
khi biến độc lập mới được thêm vào
Trang 33Phát hiện hiện tượng đa cộng tuyến
(Variance Inflationary Factor)
VIF j is used to measure collinearity:
If VIF j > 5, x j is highly correlated with
the other explanatory variables
R 2
j is the coefficient of determination when the j th
independent variable is regressed against the remaining k – 1 independent variables
Trang 34Dummy-Variable Model Example
(with 2 Levels)
Let:
y = pie sales
x 1 = price
x 2 = holiday (X 2 = 1 if a holiday occurred during the week)
(X 2 = 0 if there was no holiday that week)
2 1
b
yˆ 1 2
Trang 35Qualitative (Dummy) Variables
Categorical explanatory variable (dummy
variable) with two or more levels:
yes or no, on or off, male or female
coded as 0 or 1
Regression intercepts are different if the variable
is significant
Assumes equal slopes for other variables
The number of dummy variables needed is
(number of levels - 1)
Trang 36Same slope
Dummy-Variable Model Example
1 0
1 2
0 1
0
x b
b (0)
b x
b b
yˆ
x b )
b (b
(1) b
x b b
yˆ
1 2
1
1 2
If H 0 : β 2 = 0 is rejected, then
“Holiday” has a significant effect
Trang 37Sales: number of pies sold per week
Price: pie price in $
b 2 = 15: on average, sales were 15 pies greater in
weeks with a holiday than in weeks without a
holiday, given the same price
) 15(Holiday 30(Price)
300
Trang 38Dummy-Variable Models (more than 2 Levels)
The number of dummy variables is one less than the number of levels
Example:
y = house price ; x 1 = square feet
The style of the house is also thought to matter:
Style = ranch, split level, condo
Trang 39Dummy-Variable Models (more than 2 Levels)
0
level split
if
1 x
not
if 0
ranch if
1
3 2
1
b
yˆ 1 2 3
split level style, compared to a condo
(continued)
Let the default category be “condo”
Trang 40Interpreting the Dummy Variable
Coefficients (with 3 Levels)
With the same square feet, a ranch will have an estimated average price of 23.53
thousand dollars more than a condo
With the same square feet, a
split level will have an
Suppose the estimated equation is
3 2
1 23.53x 18.84x 0.045x
20.43
23.53 0.045x
20.43
1 0.045x 20.43
Trang 41 The relationship between the dependent
variable and an independent variable may not
β x
β β
y 0 1 j 2 2 j
Trang 42Polynomial Regression Model
β i = Population regression coefficient for variable x j : j = 1, 2, …k
p = Order of the polynomial
i = Model error
ε x
β x
β x
β β
y 0 1 j 2 2 j p p j
If p = 2 the model is a quadratic model:
General form:
Trang 43Linear fit does not give random residuals
Linear vs Nonlinear Fit
Nonlinear fit gives random residuals
Trang 44Quadratic Regression Model
Quadratic models may be considered when scatter
diagram takes on the following shapes:
y
β 1 < 0 β 1 > 0 β 1 < 0 β 1 > 0 x 1
ε x
β x
β β
y 0 1 j 2 2 j
Trang 45Testing for Significance:
Quadratic Model
F test statistic =
with the linear model
(2 nd order polynomial term is needed)
ε x
β x
β β
ε x
β β
H 0 : β 2 = 0
H A : β 2 0
MSE MSR
Trang 46Higher Order Models
y
x
ε x
β x
β x
β β
If p = 3 the model is a cubic form:
Trang 471 4 3
3
2 1 2 1
Trang 48x β x
β x
β β
Trang 50Interaction Regression Model
Trang 51ε x
x β x
β x
β β
Trang 52 Lower probability of collinearity
Stepwise regression procedure
are added
Best-subset approach
Trang 53 Idea: develop the least squares regression
equation in steps, either through forward selection , backward elimination , or through
standard stepwise regression
The coefficient of partial determination is the
measure of the marginal contribution of each independent variable, given that other
independent variables are in the model
Stepwise Regression
Trang 54Best Subsets Regression
using all possible combinations of independent variables
Choose the best fit by looking for the highest
adjusted R 2 and lowest standard error s ε
Stepwise regression and best subsets
Trang 55Aptness of the Model
Diagnostic checks on the model include verifying the assumptions of multiple
regression:
Each x i is linearly related to y
Errors have constant variance
Errors are independent
Error are normally distributed
) yˆ y
(
Errors (or Residuals) are given by
Trang 57The Normality Assumption
Errors are assumed to be normally distributed
Standardized residuals can be calculated by
computer
Examine a histogram or a normal probability plot
of the standardized residuals to check for normality
Trang 58Chapter Summary
Tested the significance of the multiple
regression model
Tested individual regression coefficients
model
Trang 59(continued)