Khái niệmPhân tích hồi quy là nghiên cứu sự phụ thuộc của một biến biến phụ thuộc vào một hay nhiều biến khác biến độc lập, nhằm mục đích ước lượng hay dự đoán giá trị trung bình của bi
Trang 1Khái niệm
Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc) vào một hay nhiều biến khác (biến độc lập), nhằm mục đích ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị biết trước của các biến độc lập.
Phân tích tương quan là đo mức độ quan hệ
tuyến tính giữa hai biến; không có sự phân biệt
giữa các biến; các biến có tính chất đối xứng.
BÀI 7: HỒI QUY HAI BIẾN
Trang 21 Mô hình hồi quy
Mô hình hồi quy tổng thể (PRF)
Yi = β1 + β2Xi + Ui
∀ β 1 : là hệ số chặn – tung độ gốc
∀ β 2 : hệ số góc - hệ số đo độ dốc đường hồi quy
• Ui:sai số ngẫu nhiên của tổng thể ứng với quan sát
thứ i
Với một mẫu n quan sát (Yi, Xi) Cần ước lượng (PRF).
Trang 3Mô hình hồi quy mẫu (SRF)
Mô hình hồi quy mẫu:
Trong đó
: ước lượng cho β1 : Ước lượng cho β2 : Ước lượng cho E(Y/Xi) = Yi
Mô hình hồi quy mẫu ngẫu nhiên
Y = βˆ + βˆ +
Trang 4Theo phương pháp OLS, để
2 i 2 1
i
n
1 i
n
1 i
2 i
e
0 )
1 )(
X ˆ ˆ
Y (
2 ˆ
e
β β
β
Trang 5ˆ Y
ˆ )
X ( n X
Y X n Y
X ˆ
2 1
n
1 i
2
2 i
n
1 i
i i
Ví dụ 1: Giả sử cần nghiên cứu chi tiêu
tiêu dùng của hộ gia đình phụ thuộc thế nào vào thu nhập của họ, người ta tiến hành điều tra, thu được một mẫu gồm
10 hộ gia đình với số liệu như sau :
Trang 82 Các giả thiết cổ điển của mô hình
hồi qui tuyến tính
• Giả thiết 1 : Biến độc lập Xi là phi
ngẫu nhiên, các giá trị của chúng phải được xác định trước
• Giả thiết 2 : Kỳ vọng có điều kiện của
sai số ngẫu nhiên bằng 0 :
Trang 9• Giả thiết 3 : (Phương sai thuần nhất )
Các sai số ngẫu nhiên có phương sai
bằng nhau :
Var (Ui / Xi) = σ2 ∀i
• Giả thiết 4 : Không có hiện tượng tương
quan giữa các sai số ngẫu nhiên :
Cov (Ui , Uj ) = 0 ∀ i ≠ j
• Giả thiết 5 : Không có hiện tượng tương
quan giữa biến độc lập Xi và sai số ngẫu nhiên Ui : Cov (Xi , Ui ) = 0 ∀ i
Trang 10• Định lý Gauss – Markov : Với các giả
thiết từ 1 đến 5 của mô hình hồi qui
tuyến tính cổ điển, các ước lượng OLS
là các ước lượng tuyến tính, không
chệch và có phương sai bé nhất trong
lớp các ước lượng tuyến tính, không
chệch
Trang 113 Phương sai và sai số chuẩn của các
Trang 124 Hệ số xác định và hệ số tương quan
a Hệ số xác định
Mô hình hồi qui tuyến tính được xây dựng nhằm
để giải thích sự biến thiên của biến phụ thuộc Y vào biến độc lập X nhưng liệu mô hình này đã thể hiện một cách tốt nhất mối liên hệ giữa X và Y chưa?
Bao nhiêu phần trăm biến thiên của Y có thể
giải thích bởi sự phụ thuộc tuyến tính của Y vào X?
Hệ số xác định R2 sẽ giúp trả lời điều này
Trang 13Hệ số xác định
TSS
RSS 1
i 1 n
2 i
i 1 n
Trang 14SRF
Trang 16b Hệ số tương quan (Pearson): Là số đo
mức độ chặt chẽ của quan hệ tuyến tính giữa X và Y
Trang 17r > 0,8 : tương quan mạnh
r = 0,4 - 0,8 : tương quan trung bình
r < 0,4 : tương quan yếu
r càng lớn thì tương quan giữa X và Y càng chặt
0 < r ≤ 1 gọi là tương quan tuyến tính thuận (X↑, Y↑) -1 ≤ r < 0 gọi là tương quan tuyến tính nghịch (X↑, Y↓)
r = 0 : giữa X và Y không có liên hệ tuyến tính
Trang 18Tính chất của hệ số tương quan :
1 Miền giá trị của r : -1 ≤ r ≤ 1
| r| 1 : quan hệ tuyến tính giữa X và
Trang 19Hệ số tương quan hạng Spearman
• Được tính dựa trên hạng của dữ liệu chứ không
dựa vào giá trị thực của quan sát
• Trước tiên, ta xếp hạng R X , R Y các giá trị quan
sát x i , y i theo thứ tự tăng dần từ 1 trở đi, (nếu có các giá trị quan sát bằng nhau, thì được xếp
đồng hạng và hạng sẽ là hạng trung bình).
• Hệ số tương quan hạng Spearman r s chính là hệ
số tương quan r giữa các hạng của x i và y i, tức là
vẫn dùng công thức tính r để tính r s, trong đó,
thay x i , y i bằng các hạng của chúng.
Trang 20lưu ý : nếu không xảy ra trường hợp các giá trị x i
hay y i bằng nhau, tức là không xảy ra trường
hợp đồng hạng, r s có thể được tính bằng công thức đơn giản hơn:
n
2 i
Trang 215 Phân phối xác suất của các ước lượng
Giả thiết 6 : Ui có phân phối N (0, σ2),
Với giả thiết 6, các ước lượng có thêm các tính chất sau :
1 Khi số quan sát đủ lớn thì các ước
lượng xấp xỉ với giá trị thực của phân phối :
2
n 2
Trang 22) 1 , 0 ( N
~
ˆ Z
) ,
( N
~ ˆ
) 1 , 0 ( N
~
ˆ Z
) ,
( N
1 1
ˆ
2 2
2 ˆ 2
2
ˆ
1 1
2 ˆ 1
1
β β
β β
σ
β
β σ
β β
σ
β
β σ
β β
(
~
ˆ ) 2 n
(
Trang 236 Khoảng tin cậy của các hệ số hồi qui
Ta có khoảng tin cậy của β2 :
• Sử dụng phân phối của thống kê t :
Ta có khoảng tin cậy của β1 :
Trang 247 Kiểm định giả thiết về các hệ số hồi qui
1 Dùng khoảng tin cậy :
Khoảng tin cậy của β2 là [α, β]
- Nếu a ∈ [α, β] ⇒ chấp nhận H0
Trang 25Có hai cách đọc kết quả kiểm định t :
Cách 1 : dùng giá trị tới hạn
- Tính
2
2 ˆ
Trang 26α/2 α/2
Trang 27Cách 2 : Dùng p-value (mức ý nghĩa chính xác)
p = P(| T| > ta)
với ta =
2
2 ˆ
ˆ at
Trang 288 Kiểm định sự phù hợp của hàm hồi qui Phân tích hồi qui và phân tích
Trang 29Nên có thể dùng qui tắc kiểm định sau :
- Tính
)2n
/(
)R1
(
1/
Trang 30Miền bác bỏ Miền chấp nhận
Thống kê F
Trang 31* Một số chú ý khi kiểm định giả thiết :
- Khi nói “chấp nhận giả thiết H0”,
không có nghĩa H0 đúng
- Lựa chọn mức ý nghĩa α : α có thể tùy chọn, thường người ta chọn mức 1%, 5%, nhiều nhất là 10%
Trang 33b Dự báo giá trị cá biệt :
Trang 34X
dải tin cậy của giá trị trung bình
dải tin cậy của giá trị cá biệt
X
Trang 3510 Trình bày kết quả hồi qui
R 2 =
se = sê ( ) sê ( ) n =
t = t 1 t 2 F =
p = p(>t 1 ) p(>t 2 ) p(> F) = Trong đó :
= 24,4545 + 0,5091 X i R 2 = 0,9621
se = (6,4138) (0,0357) n = 10
t = (3,813) (14,243) F = 202,87
i 2
0
ˆ t
)
ˆ ( eˆ s
0
ˆ t
2
2 2
1
1 1
β
β β
= i
Yˆ
Trang 3611 Đánh giá kết quả của phân tích hồi
qui
• Dấu của các hệ số hồi qui ước lượng
được phù hợp với lý thuyết hay tiên
Trang 37• Ví dụ : có số liệu về thời gian quảng cáo trên
truyền hình và luợng sản phẩm tiêu thụ ở một công ty sản xuất đồ chơi trẻ em như sau: