PHÂN TÍCH TƯƠNG QUAN Mục tiêu: đo lường cường độ của mối quan hệ giữa hai biến ngẫu nhiên X và Y không phân biệt độc lập hay phụ thuộc... Mục tiêu của phân tích hồi qui là xây dựng mố
Trang 1Tương quan và hồi qui tuyến tính
A TƯƠNG QUAN
Trang 2VD1: Giám đốc tiếp thị của
một cty xem xét mối liên hệ
giữa doanh số bán và số
năm kinh nghiệm của các đại
diện bán hàng, số liệu được
thu thập trong bảng sau:
Trang 3A PHÂN TÍCH TƯƠNG QUAN
Mục tiêu: đo lường cường độ của mối quan hệ giữa
hai biến ngẫu nhiên X và Y không phân biệt độc lập hay phụ thuộc.
Ví dụ:
- Thời gian học bài – điểm số
- Số năm đi học ↔ thu nhập
- Chi phí quảng cáo ↔ doanh thu
- Mật độ sạ lúa ↔ Năng suất lúa
- Công tác khuyến nông ↔ Năng suất mía ở Hòa An
Trang 41 Hệ số tương quan:
Giá trị: -1 1
• < 0 : giữa X và Y có mối tương quan nghịch.
• > 0 : giữa X và Y có mối tương quan thuận.
• = 0 : giữa X và Y không có mối liên hệ tuyến tính.
càng lớn, X và Y càng quan hệ chặt chẽ.
* Hệ số tương quan tổng thể sẽ được ước lượng
từ hệ số tương quan mẫu.
A PHÂN TÍCH TƯƠNG QUAN
Trang 51.2 Hệ số tương quan mẫu (r-hệ số tương quan Pearson)
- Gọi (xi,yi) là mẫu n cặp giá trị quan sát thu thập ngẫu nhiên từ 2 tổng thể X và Y.
- Hệ số đo lường mối quan hệ tuyến tính giữa 2 biến x và
y trong mẫu gồm n phần tử sẽ được gọi là hệ số tương quan mẫu – Ký hiệu: “r”
n
i
i i
y y
x x
y y
x x
r
2 2
1
)(
)(
))(
y n y
x n x
y x n y
x r
1
2 2
1
2 2
1
) (
) (
) )(
( )
(
A PHÂN TÍCH TƯƠNG QUAN
Trang 61.2 Hệ số tương quan mẫu
•│r│>0,8: tương quan tuyến tính rất mạnh
•│r│=0,6-0,8: tương quan tuyến tính mạnh
•│r│ =0,4-0,6 : có tương quan tuyến tính
•│r│ =0,2-0,4 : tương quan tuyến tính yếu
•│r│<0,2: tương quan tuyến tính rất yếu
Ví dụ: Số liệu về thời gian quảng cáo trên truyền hình và
lượng sản phẩm tiêu thụ ở một cty như sau:
Thời gian quảng cáo
trong tuần (phút) 28 37 44 36 47 35 26 29 33 32 31 28Lượng tiêu thụ trong
tuần (1000sp) 41 32 49 42 38 33 27 24 35 30 34 25
A PHÂN TÍCH TƯƠNG QUAN
Trang 8) 2 2
1
2 2
1
2 2
1
17 34
* 12 14614
)(
83 33
* 12 14194
(
17 34
* 83 33
* 12 14208
) (
) (
) )(
( )
y n y
x n x
y x
n y
x r
r = 0.639
KL: Giữa thời gian quảng cáo trong tuần và lượng SP tiêu thụ của cty có mối tương quan thuận tương đối mạnh.
(đối với mẫu khảo sát)
A PHÂN TÍCH TƯƠNG QUAN
Trang 9) 1
r t
t t
A PHÂN TÍCH TƯƠNG QUAN
0:
H
0 :
H
0 :
H
1 0
Trang 102 )
2 12 /(
) 639
0 1 (
639
0 )
2 n /(
) r 1 (
r t
Trang 11A PHÂN TÍCH TƯƠNG QUAN
Trang 13B HỒI QUY TUYẾN TÍNH
Trang 14a Liên hệ phi tuyến b Không có liên hệ
c Liên hệ tuyến tính thuận d Liên hệ tuyến tính nghịch
a Liên hệ phi tuyến
Trang 15 Mục tiêu của phân tích hồi qui là xây dựng mối liên hệ của một biến phụ thuộc (Y) vào một hay nhiều biến độc lập (X) bằng mô hình toán học để
từ đó có thể giải quyết các vấn đề sau:
• Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập.
• Kiểm định giả thuyết về bản chất của sự phụ thuộc.
• Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của biến độc lập.
B HỒI QUY TUYẾN TÍNH
Trang 16Hồi qui đơn biến: khảo sát liên hệ giữa 1 biến phụ
thuộc (Y) vào chỉ 1 biến độc lập (X).
VD: Thu nhập trình độ học vấn
Hồi qui đa biến: khảo sát liên hệ giữa 1 biến phụ
thuộc (Y) vào nhiều biến độc lập (X).
VD: Năng suất lúa Phân bón, kinh nghiệm, Giống,…
Các biến độc lập Biến phụ thuộc
Biến phụ thuộc Biến độc lập
B HỒI QUY TUYẾN TÍNH
Trang 18I MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
Y = 0 + 1X + e
+ 0: hệ số tung độ gốc hay hệ số chặn, cho biết giá
trị trung bình của Y khi X = 0.
+ 1: hệ số độ dốc (hay hệ số góc), đo lường lượng
thay đổi trung bình trong biến phụ thuộc Y khi
X thay đổi 1 đơn vị.
+ e: là sai số, biến ngẫu nhiên có pp chuẩn.
1 Phương trình hồi qui tuyến tính đơn biến của tổng thể
Trang 19Với b0, b1 được xác định theo phương pháp bình
phương bé nhất như sau:
x x
y y
x x
1
2
1
)(
))(
(
x b
y
I MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
2 Phương trình hồi qui tuyến tính đơn biến của mẫu
x x
y y
x x
1
2
1
)(
))(
(
x b
y
b1
Trang 20VD1: Giám đốc tiếp thị của
một cty xem xét mối liên hệ
giữa doanh số bán và số
năm kinh nghiệm của các đại
diện bán hàng, số liệu được
thu thập trong bảng sau:
I MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
2 Phương trình hồi qui tuyến tính đơn biến của mẫu
Trang 22VD: Ý nghĩa của các hệ số hồi qui:
• b0 = 175,8288: khi số năm kinh nghiệm bằng 0 tức là 1 đạidiện bán hàng vừa mới làm việc với cty thì cũng có thể đạtdoanh số trung bình khoảng 175,8288 triệu đồng
• b1 = 49,9101: khi số năm kinh nghiệm tăng thêm 1 năm thìdoanh số sẽ tăng trung bình khoảng 49,9101 triệu đồng
Tốt nhất dự đoán Y trong phạm vi: X biến động từ 1 đến 9
I MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
y = 175,8288 + 49,910 x
Trang 23I MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
Do lường sự biến thiên trong mô hình hồi qui tuyến tính
SSR: Biến thiên hồi qui
SSE = Biến thiên phần dư
SST = Tổng biến thiên
Trang 24SSR
R2 = 0,693 cho ta biết 69,3% biến thiên doanh số bán hàng
có thể giải thích được bởi biến thiên trong số năm kinh nghiệm
I MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
3 Hệ số xác định (R2)
I MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
y = 175,829 + 49,910 x
Trang 251.4 Sai số chuẩn của hồi qui
Sai số chuẩn của hồi qui đo lường sự biến thiên của các giátrị Y thực tế xung quanh đường hồi qui
Sai số chuẩn của hồi qui có cùng ĐVT với biến Y
Sai số càng lớn thì biến thiên càng nhiều đường hồi quicàng ít sát với các điểm dữ liệu
I MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
y = 175,829 + 49,910 x
Trang 261.5 Kiểm định F : xem xét giả thuyết về sự tồn tại của
mối liên hệ tuyến tính giữa X và Y
- GT:
+ H0: 1 = 0 (không có mối liên hệ tuyến tính giữa doanh
số bán hàng và số năm kinh nghiệm)
+ H1: 1 0 (có mối liên hệ tuyến tính giữa doanh số bánhàng và số năm kinh nghiệm)
- Tính toán các giá trị kiểm định ( phân tích ps ANOVA)
- Kết luận
Trang 27Bậc tự do (Degrees of freedom - Df)
Trung bình bình phương
(Mean Square)
Giá trị kiểm định (F)
P-value (Sig.)
MSR
MSE
Trang 281.5 Kiểm định F : xem xét giả thuyết về sự tồn tại của
mối liên hệ tuyến tính giữa X và Y
- QĐ: p-value = 0,1%quá nhỏ Bác bỏ H0.
- KL: có mối liên hệ tuyến tính giữa doanh số bán hàng và số năm kinh nghiệm.
Trang 29- Giả thuyết:
H0: 1 = 0 (biến X không có ý nghĩa trong mô hình hồi qui)
H1: 1 0 (biến X có ý nghĩa trong mô hình hồi qui)
- Giá trị kiểm định: t = b1/Sb1
Sb1: sai số chuẩn ước lượng của b1
- Qui tắc quyết định: Ở mức ý nghĩa , bác bỏ H0 khi:
2 / ,
2
tnt
1.6 Kiểm định giả thuyết về mối liên hệ tuyến tính
(tương tự kiểm định F)
I MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
1.6 Kiểm định giả thuyết về mối liên hệ tuyến tính
(tương tự kiểm định F)
I MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
y = 175,829 + 49,910 x
Trang 30- GT:
H0: 1 = 0 (biến X không có ý nghĩa trong mô hình hồi qui)
H1: 1 0 (biến X có ý nghĩa trong mô hình hồi qui)
- QĐ: p-value ≈ 0 quá nhỏ Bác bỏ H0
- KL: biến X có ý nghĩa trong mô hình hồi qui
1.6 Kiểm định giả thuyết về mối liên hệ tuyến tính (tt)
Trang 31• Hệ số b0 và b1 trong phương trình hồi qui mẫu được sử dụngđể ước lượng cho các hệ số 0 và 1 trong phương trình hồi quitổng thể
Khoảng tin cậy (1-).100% cho 0 và 1 :
1.7 Ước lượng khoảng tin cậy của các hệ số hồi quy
Ý nghĩa: nếu biến độc lập X tăng 1 đơn vị thì biến phụ thuộc
Y sẽ tăng trong khoảng (b1 tn-2, /2 x Sb1) đơn vị
Với Sb0, Sb1 là những độ lệch chuẩn đã ước lượng
Ý nghĩa: nếu X = 0 thì giá trị trung bình của Y sẽ nằm trongkhoảng (b0 t n-2, /2 x S b0 ) đơn vị
b0 - t n-2, /2 Sb0 < 0 < b0 + t n-2, /2 Sb0
b1 - t n-2, /2 Sb1 < 1 < b1 + t n-2, /2 Sb1
Trang 321.7 Ước lượng khoảng tin cậy của các hệ số hồi quy
Trang 331.8 Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của biến độc lập.
Trong đó:
- b0, b1 là các hệ số trong mô hình hồi qui mẫu.
- Biến xn+1 là giá trị được cho trước.
I MÔ HÌNH HỒI QUI TUYẾN TÍNH ĐƠN GIẢN
y n+1 = b0 + b1 x n+1
Trang 35a) Giả định liên hệ tuyến tính
Giả định liên hệ tuyến tính & phương sai bằng nhau được thỏa mãn khi:
Giá trị dự đoán và phần dư (đã được chuẩn hóa-Standardized) phân tán ngẫu nhiên
Trang 36b) Giả định phương sai của sai số không đổi
Giả thuyết phương sai của sai số thay đổi khi:
Hệ số tương quan hạng tổng thể giữa phần dư và biến độc lập sẽ khác không (kiểm định tương quan hạng Spearman)
Kết quả kiểm định: p>0,05
Giả thuyết phương sai của sai số không thay đổi
Trang 38c) Giả định về phân phối chuẩn của
phần dư (tt)
PP chuẩn: các điểm quan sát thực
tế tập trung sát đường chéo
Trang 39d) Giả định về tính độc lập của sai số (không có tương quan giữa các phần dư)
của các sai số kề nhau (tương quan chuỗi bậc nhất)
• Nếu 1 < D < 3 thì kết luận mô hình không có sự tương
quan
Trang 41PHÂN BIỆT LIÊN HỆ THỐNG KÊ
VÀ LIÊN HỆ HÀM SỐ KHI PHÂN TÍCH HỒI QUI