Các điều kiện vận dụng mô hình Các điều kiện về dạng mô hình : Các điều kiện về sai số mô hình error: và phân phối giống nhau theo phân phối chuẩn với Các điều kiện về các số dự đo
Trang 1ĐIỀU KIỆN VẬN DỤNG MÔ
HÌNH
Trang 2Các nội dung chính
mô hình
Trang 3Các điều kiện vận dụng mô hình
Các điều kiện về dạng mô hình :
Các điều kiện về sai số mô hình (error):
và phân phối giống nhau theo phân phối chuẩn với
Các điều kiện về các số dự đoán:
có sai số
có bội tương quan giữa các biến độc lập - multicollinearity)
Các điều kiện về quan sát:
Trang 4Mô hình với ảnh hưởng cố định ngược
với mô hình với ảnh hưởng ngẫu nhiên
các mô hình có ảnh hưởng cố định
Mô hình cũng hoạt động đối với các biến có
ảnh hưởng ngẫu nhiên
phối chuẩn đa biến
Trang 5Tuyến tính
Vẽ biểu đồ từng phần (partial plots)
Để đánh giá đặc trưng tuyến tính của một
biến X j so với Y, chúng ta hồi qui Y về toàn bộ các biến độc lập trừ X j , và chúng
ta hồi qui X j bằng các biến độc lập khác
(residues) của hai hồi qui Như vậy, chúng ta loại bỏ ảnh hưởng của các biến độc lập khác.
Trang 6-1000-2000
Trang 70-20
Trang 8Scatterplot Dependent Variable: prix
400000 300000
200000 100000
Trang 9Biểu đồ (histogram) phần dư
(residues)
Regression Standardized Residual
Histogram Dependent Variable: prix
100
Std Dev = 1,00 Mean = 0,00
N = 319,00
Trang 10Normal probability plot
(Đồ thị theo hàm chuẩn)
Normal P-P Plot of Regression Standardized Residual Dependent Variable: prix
1,00,75
,50,25
Trang 11Hai kiểm định nhanh để kiểm
tra phân phối chuẩn
Nhờ vào hệ số đối xứng (skewness)
Trong đó, n là kích thước mẫu
Nhờ vào kurtose
Trong đó, n là kích thước mẫu
Nếu giá trị tuyệt đối của Z lớn hơn 1.96, phân
phối là không chuẩn với sai số ở mức rủi ro 5%
n 6
skewness
=
Z
n 24
kurtose
=
Z
Trang 12Phép biến đổi các biến
xuyên không đạt được:
mô hình
số hiện diện trong mô hình là tuyến tính, ngay cả khi các biến độc lập không tuyến tính
Trang 13 • Thống kê JB1
Đây là một thống kê thường được sử dụng để kiểm định xem một biến có phân phối
chuẩn hay không Trong hồi qui tuyến tính cổ điển, thống kê này rất quan trọng cho
việc kiểm định phần dư của mô hình hồi theo phương pháp OLS có phân phối chuẩn
Trong đó, S là độ nghiêng của phân phối, K là độ nhọn của phân phối, N là số quan
sát, và k là số hệ số lượng được sử dụng để tạo ra chuỗi dữ liệu (N-k là bậc tự do)
2
Khi một chuỗi có phân phối chuẩn thì S = 0 và K = 3, nên JB = 0 Chúng ta sẽ biết ở
chương 3 rằng thống kê JB có phân phối Chi bình phương với số bậc tự do là 2
Trang 15Phép biến đổi các biến
tiếp ε
β
3 2
Y
ε β
ε β
Trang 16Các phép biến đổi để làm cho
X , Y log '
Trang 17Các phép biến đổi để làm cho
Y =
X ln
'
Y = α + β
tiếp
Trang 18Các phép biến đổi để làm cho
Y = α + β
X log '
X =
β + α
=
tiếp
Trang 19Các phép biến đổi để làm cho
=
X
X Y
tiếp
X
1 '
X
, Y
1 '
β
− α
=
Trang 20Các phép biến đổi để làm cho
e
β + α
+
=
tiếp
Y 1
Y ln '
Y
−
=
Trang 21Diễn giải các hệ số
logarithm
thay đổi của số trung bình (mean) của Y
Nếu biến độc lập là một số logarithm
của số trung bình của Y
Trang 22Diễn giải các hệ số
Nếu biến phụ thuộc và biến độc lập là
các số logarithms
tiếp
Trang 23Những quan sát lệch lạc ( outliers )
Ba dạng:
Các điểm bẫy (leverage values)
Được đánh dấu bằng các giá trị của ma trận mũ (hat values)
Những quan sát cho thấy ảnh hưởng (influential)
Sự hủy bỏ của các quan sát này nói chung làm thay đổi quan trọng ước lượng các tham số của mô hình
Được đánh dấu bằng các khoảng cách Cook
Những quan sát lệch lạc (outliers):
Những quan sát mà đối với nó, biến phụ thuộc có một giá trị “không bình thường” (anormal) so với các giá trị của các biến độc lập
Những quan sát có giá trị lớn hơn hai hoặc ba lần
độ lệch chuẩn của đường trung tâm trong đồ thị phần dư (residues)
Được đánh dấu bằng các “studentized deleted residuals”
Trang 24Các yếu tố của ma trận mũ “hat
Mỗi giá trị có thể được biểu thị theo các yi
hiji chỉ ra trong chừng mực nào Yi có thể ảnh hưởng đến
Nếu hij là lớn, quan sát thứ ième có thể có một ảnh hưởng
quan trọng đến giá trị được điều chỉnh thứ jème
Chúng ta có thể chứng tỏ rằng
hj=hjj tóm lược ảnh hưởng tiềm tàng của yi đến tất cả các
giá trị được điều chỉnh
n nj i
ij 2
j 2 1
j 1
ii h h
j
Yˆ
j
Yˆ
Trang 25Các yếu tố của ma trận mũ “hat
Nếu không, quan sát được xem như là một điểm bẫy nếu nó lớn hơn 3(k)/n (với ví dụ:
9/319=0,028)
Một điểm bẫy là một giá trị sai lệch trong khoảng không (trên đồ thị) của các biến độc lập
tiếp
Trang 26Studentized Deleted Residuals
là giá trị phê phán đối với kiểm định hai bên ở mức rủi ro 5% (gần bằng 2)
( ) ( )
1
i i
i i
e t
2 p n
t − −
Trang 27Distance de Cook D i
Với số dư chuẩn hoá
tất cả các số liệu và các hệ số đạt được bằng việc rút ra quan sát thứ i
i
SR h D
YX i
e SR
=
−
Trang 28Những quan sát sai lệch ( outliers )
Phải làm gì với các giá trị sai lệch ?
Rút ra khỏi mẫu, với điều kiện có thể
chứng minh được.
tiếp
Trang 29Những quan sát sai lệch ( outliers )
tiếp
Trang 30Những quan sát sai lệch ( outliers )
Centered Leverage Value
Minimum Maximum Mean Std Deviation N
Dependent Variable: prix
a
Trang 31Những quan sát sai lệch ( outliers )
tiếp
Trang 32Casewise Diagnost ics a
3,166 $195,250 $93,887.19 $101,362.81 2,095 $260,650 $193577.3 $67,072.66
- 3,282 $170,200 $275273.7 - $105,073.66 3,514 $278,000 $165513.3 $112,486.70 2,935 $331,000 $237035.5 $93,964.50
171 213 246 247 260 288 290 291 299 306 307 308 315 316
Std Residual prix
Predicted Value Residual
Dependent Variable: prix
Trang 33Biến giả (dummy)
Trang 36Diễn giải hệ số của biến giả
Ví dụ:
Y : tiền lương năm tính bằng triệu đô la
Trung bình, nam thu nhập năm trên 6000$, các điều kiện khác không đổi
Trang 37Ví dụ về hồi qui bội
Trang 38Ví dụ về hồi qui bội
Beta
Standardiz edCoefficients
t Sig Tolerance VIF
- 1114,692 114,857 - ,291 - 9,705 ,000 ,716 1,39750673,109 5682,565 ,282 8,917 ,000 ,646 1,548
Beta
Standardiz edCoefficients
t Sig Tolerance VIF
Collinearity Statistics
Dependent Variable: prix
a
Trang 39Ví dụ về hồi qui bội
Durbin- W atson Predictors: (Constant), age, surface
Durbin- W atson Predictors: (Constant), voisinage, surface, age
a
Dependent Variable: prix
b
Trang 40Những tác dụng của mã hóa (Effects coding)
Sự mã hóa riêng biệt các biến giả cốt là
thay thế các dòng lấy giá trị 0 đối với tất cả các biến giả liên quan đến một biến cụ thể bằng một giá trị -1.
chênh lệch so với trung bình và không so với loại chênh lệch
Trang 41Effects coding
tiếp
Trang 42Durbin- W atson Predictors: (Constant), voisinage, surface, age
Durbin- W atson Predictors: (Constant), voisinage, surface, age
a
Model 3
tiếp
Trang 43Effects coding
Coef f icient s a
33506,107 6682,137 5,014 ,00064,409 2,733 ,636 23,570 ,000 ,885 1,130
- 1114,692 114,857 - ,291 - 9,705 ,000 ,716 1,39750673,109 5682,565 ,282 8,917 ,000 ,646 1,548
Beta
StandardizedCoefficients
t Sig Tolerance VIF
- 1114,692 114,857 - ,291 - 9,705 ,000 ,716 1,39725336,554 2841,282 ,282 8,917 ,000 ,646 1,548
Beta
StandardizedCoefficients
t Sig Tolerance VIF
Trang 44Lựa chọn các biến trong việc xây dựng các mô hình
dụng ít các biến độc lập khi có thể.
nhất với biến phụ thuộc.
thích mà chúng đem lại
Trang 45Đóng góp của một biến
độc lập
cho X k là biến độc lập của mô hình mà
ta muốn đo sự đóng góp của nó
RSS(X k | X 1 , …, X k-1 , X k+1 , …, X p )
= RSS(X 1 , …, X p )-RSS(X 1 , …, X k-1 , X k+1 ,
…, X p )
được giải thích của Y (TSS)
k
X
Trang 46Sự đóng góp của một biến độc
Đo được sự đóng góp của X 1 trong việc giải thích TSS
Từ l’ANOVA của hồi qui
Từ l’ANOVA của hồi qui
Trang 47Hệ số xác định thành phần của
Đo lường phần của biến phụ thuộc (Y)
được giải thích bởi X k , khi các biến khác
vẫn giữ nguyên không đổi (được kiểm
soát)
k
X
) , ,
, , ,
| (
) , ,
(
) , ,
, , ,
| (
1 1
1 1
1 1
1 2
,
1 , 1
, ,
1
.
p k
k k
p
p k
k k
p k
k
Yk
X X
X X
X ESS X
X ESS TSS
X X
X X
X
ESS r
+
−
+
− +
Trang 48) ,
(
)
| (
2 1
2 1
2 1
2 2 1
X X
ESS X
X ESS TSS
X X
Trang 49Đóng góp của một tập con các biến độc lập
Cho X s là một tập con của các biến độc lập của
mô hình trong đó ta muốn đo sự đóng góp của nó
RSS(X s | tất cả các biến trừ X s )
=RSS(X 1 , …, X p )-RSS(tất cả các biến trừ X s )
biến đổi được giải thích của Y (TSS)
Trang 50Đóng góp của một tập con các biến độc lập
Trang 51Kiểm định một phần của mô hình
Xem xét sự đóng góp của một tập con X s
các biến trong mối liên hệ của chúng với Y
Giả thuyết H0:
Các biến của tập con không cải thiện một cách
có ý nghĩa mô hình khi tất cả các biến khác bao gồm trong mô hình
Giả thiết đối (H1):
Ít nhất có một biến có nghĩa
Cần phải so sánh hai hàm hồi qui
Một hàm hồi qui bao gồm tất cả các biến.
Hàm còn lại bao gồm tất cả các biến trừ các
phần được kiểm định
Trang 52Kiểm định thành phần F đối với sự
đóng góp của một tập con các biến
) bien cac
ca tat (
/ ) bien tru
cac ca
RSS
Trang 53Kiểm định thành phần F đối với sự
đóng góp của một biến
Các giả thuyết:
mô hình khi tất cả các biến khác bao gồm trong mô hình
khi các biến khác bao gồm trong mô hình
ca tat (
/ ) bien tru
cac ca
tat
| (
MSS
m X
RSS
X
=
Trang 54 Kiểm tra xem các biến đã được đưa vào mô hình vẫn còn có ý nghĩa hay không Nếu đúng ta chuyển sang bước 3, nếu không, phải rút các biến không còn ý nghĩa nữa ra khỏi mô hình.
Bước 3
Nếu còn các biến có liên quan thành phần một cách có ý nghĩa, ta quay lại bước 2, nếu không ta dừng thuật toán
Trang 55 X2 : mức giá– sự cảm nhận về mức giá của khách hàng
X3 : tính linh hoạt của giá–sự cảm nhận về thiện chí mà các nhân viên giao dịch của HATCO chấp nhận đàm phán giá.
X4 : hình ảnh – hình ảnh của HATCO trong mắt các khách hàng dưới góc
độ là nhà cung cấp
X5 : dịch vụ -chất lượng chung của dịch vụ
X6 : năng lực bán hàng-cảm nhận về năng lực bán hàng của HATCO
X7 : chất lượng sản phẩm
Đại lượng phụ thuộc :
X9 : tỉ trọng của nhà cung cấp –phần trăm các sản phẩm cung cấp bởi HATCO so với các nhà cung cấp khác.
tiếp
Trang 56Durbin- Watson
Predictors: (Constant), qualite du produit, service, force de vente,
flexibilite du prix, niveau de prix, image, vitesse de livraison
- ,042 ,667 - ,005 - ,063 ,950 ,347 2,8798,369 3,918 ,699 2,136 ,035 ,023 43,834
(Constant)vitesse de livraisonniveau de prixflexibilite du priximage
serviceforce de vente
Model
1
B Std Error
UnstandardizedCoefficients
Beta
StandardizedCoefficients
t Sig Tolerance VIF
Collinearity Statistics
Trang 57Phương pháp từng bước
tiếp
Trang 587,974 ,603 ,666 13,221 ,000 ,996 1,004 3,336 ,327 ,515 10,210 ,000 ,996 1,004 -6,520 3,247 -2,008 ,047
7,621 ,607 ,637 12,547 ,000 ,936 1,068 3,376 ,320 ,521 10,562 ,000 ,993 1,007
Beta
Standardized Coefficients
t Sig Tolerance VIF
Collinearity Statistics
Trang 59- ,154a - 2,178 ,032 - ,216 ,997 1,003 ,997,016b ,205 ,838 ,021 ,405 2,469 ,405
- ,020b - ,267 ,790 - ,027 ,464 2,156 ,464,095b 1,808 ,074 ,181 ,892 1,121 ,892,121b 2,378 ,019 ,236 ,939 1,064 ,936,094b 1,683 ,096 ,169 ,799 1,252 ,797,030c ,389 ,698 ,040 ,403 2,483 ,403
- ,029c - ,405 ,687 - ,041 ,462 2,163 ,462
- ,002c - ,021 ,983 - ,002 ,357 2,805 ,357,071c 1,273 ,206 ,130 ,768 1,301 ,768
MinimumToleranceCollinearity Statistics
Predictors in the Model: (Constant), service
Trang 60Phép biến đổi để làm ổn định
phương sai
làm chuẩn hóa sự phân phối của biến
(residues) của mô hình tăng lên với giá trị của một biến độc lập, một phép biến đổi có thể là chia tất cả mô hình ban đầu cho X:
dụng phương pháp bình phương bé nhất
X X
X X
Y
' ,
Trang 61Phép biến đổi để làm ổn định
phương sai
Khi biến phụ thuộc có một độ lệch
chuẩn so với trung bình của nó là lớn (hệ số biến thiên, tình trạng hiện hành đối với các biến kinh tế), một phép biến đổi logarithmic nói chung cho phép:
sai số của mô hình
tiếp