Dựa vào đồ thị phân tán ta có thể xác định được dạng quan hệ giữa 2 biến Y và X.. Tương quan tuyến tính Linear Correlation Trong đồ thị phân tán, nếu các điểm Mxi , yi qui tụ xung quanh
Trang 1I Tương quan tuyến tính (Linear Correlation):
1 Đồ thị phân tán (Scatter Diagram):
Đồ thị phân tán của biến Y đối với biến X là tập hợp các điểm M(xi , yi) trong hệ tọa độ vuông góc
Dựa vào đồ thị phân tán ta có thể xác định được dạng quan hệ giữa 2 biến Y và X
2 Tương quan tuyến tính (Linear Correlation)
Trong đồ thị phân tán, nếu các điểm M(xi , yi) qui tụ xung quanh một đường thẳng (D) ta nói hai biến ngẫu Y và X có một sự tương quan tuyến tính Đường thẳng (D) được gọi là đường hồi qui tuyến tính (đường hòa hợp thẳng)
3 Hệ số tương quan ρ của tập hợp chính (The Population Correlation
Coefficient)
Gọi X, Y là cặp giá trị của các biến ngẫu nhiên với số trung bình là μx ,
μy và phương sai là σ2
x, σ2
y Để đo lường mức độ quan hệ giữa X và Y người ta
dùng đại lượng hiệp tương quan (covariance) và hệ số tương quan (correlation
coefficent)
Y
X
Hình 1:Quan hệ tuyến tính
X
Hình 2:Quan hệ phi tuyến
Y
X
Hình 3: Không quan hệ
Trang 2a Hiệp tương quan (Covariance)
)]
)(
[(
) ,
σxy =Cov X Y = E x− x y− y
b Hệ số tương quan của tập hợp chính:
* Tính chất:
− ρ = +1 : X, Y tương quan tuyến tính dương tuyệt đối
− ρ = - 1 : X, Y tương quan tuyến tính âm tuyệt đối
− ρ = 0: X, Y không tương quan tuyến tính
N Y
X Cov
N
xy
y x
∑
=
−
−
=
) )(
( )
,
σ
-1 ≤ ρ ≤ 1
Trang 34 Hệ số tương quan r của mẫu
a Hiệp tương quan của mẫu (Sample Covariance)
b Hệ số tương quan của mẫu r (Sample Correlation Coefficient)
Ghi Chú
−-1 ≤ r ≤ 1
−r được dùng để ước lượng hướng và độ mạnh của mối quan hệ giữa X,Y
| r | > 0,8 tương quan mạnh
| r | = 0,4 - 0,8 tương quan trung bình
| r | < 0,4 tương quan yếu
| r | càng lớn thì tương quan giữa X và Y càng chặt
r > 0 hướng TN - ĐB, r < 0 hướng TB - ĐN
0 < r ≤ 1 : gọi là tương quan tuyến tính thuận (X↑, Y↑)
-1 ≤ r ≤ 0 : gọi là tương quan tuyến tính nghịch (X↑, Y↓)
−r là ước lượng của ρ
Ví dụ 1:
−Tính hệ số tương quan giữa 2 biến X, Y cho bởi bảng tương quan sau:
Trang 4X 0 1 2 3 4
Giải
Số phần tử của mẫu n = 5
xi yi (xi−x) (yi−y) (xi−x) 2 (yi−y) 2 (xi−x) (yi−y)
0
1
2
3
4
6 5 7 8 4
-2 -1 0 1 2
0 -1 1 2 -2
4 1 0 1 4
0 1 1 4 4
0 1 0 2 -4
2 5
=
5
=
1 , 0 10
10
1 )
( )
(
) ).(
( 5 1
5 1
2 2
5
×
−
=
−
×
−
−
−
=
∑
=
i i
y y x
x
y y x x r
r = - 0,1 tương quan yếu
Trang 55 Kiểm định giả thuyết về ρ
Nếu chúng ta muốn kiểm định giả thuyết cho rằng các biến không có tương quan tuyến tính thì ta phải kiểm định giả thuyết H0: ρ = 0 Ta có 3 trường hợp:
Trường hợp 1:
Với
) 2 /(
) 1 ( 2 2
−
−
=
−
n r
r
tn
r : hệ số tương quan của mẫu
n : cỡ mẫu
tn-2 : tuân theo phân phối Student t với độ tự do n-2
Trường hợp 2:
Trường hợp 3
Ví dụ 2: Lấy mẫu ngẫu nhiên 2 biến X và Y ta có các giá trị (xi, yi) cho
bởi bảng sau:
a Tìm hệ số tương quan giưa hai biến X, Y
b Kiểm định giả thiết cho rằng biến giữa X và Y không tương quan, với
α = 0.05
Giải:
a Tính r
H0 : ρ = 0
H1 : ρ > 0
R : bác bỏ H0 nếu tn-2 > - tn - 2, α
Trang 6yi xi 2
i
i
x xiyi 70
55 100 40 15 20
13 18 9 25 36 19
4900 3025 10000 1600 225 400
169 324 81 625 1296 361
910 991 900 1000 540 380
Hệ số tương quan
835 , 0 1030
* 2 , 91
256
−
=
−
=
=
s
s sx y
xy
b) Kiểm định giả thuyết:
1 H0 : ρ = 0
2 H1 : ρ ≠ 0
3 α = 0,05 => α/2 = 0,025
n = 6 => n - 2 = 4
tn -2, α/2 = t4, 0,025 = 2,776
-tn - 2 , α/2 = -2,776
4 r = -0,835
4 / ] ) 835 , 0 ( 1 [
835 , 0 )
2 /(
) 1
2
−
−
−
=
−
−
=
−
n r r
tn
Trang 7tn-2= - 3,03
5 Ra quyết định
tn - 2 = - 3,03 < - tn -2, α/2 = -2,776
=> Bác bỏ H0
Giữa 2 biến Y và X có tương quan nghịch
II Phân tích hồi qui tuyến tính:
1.Khái niệm:
Phân tích hồi qui là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích) với ý tưởng cơ bản là ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị đã biết của biến độc lập
* Một số ví dụ:
Vd1: Công ty địa ốc rất quan tâm đến việc liên hệ giữa giá bán một ngôi
nhà với các đặc trưng của nó như kích thước, diện tích sử dụng, số phòng ngủ và phòng tắm, các loại thiết bị gia dụng, có hồ bơi hay không, cảnh quan có đẹp không,
Vd2: Để nghiên cứu về chiều cao và cân nặng của các em học sinh trong
một trường, chúng ta lấy mẫu ngẫu nhiên gồm n học sinh và thu thập các số liệu
về chiều cao và cân nặng của n học sinh Gọi X là biến ngẫu nhiên để đo chiều cao của học sinh và Y là biến ngẫu nhiên chỉ cân nặng của học sinh Với n học sinh ta có n cặp giá trị (Yi , Xi)
X(m) x1 x2 x3 … xi … xn Y(kg) y1 y2 y3 … yi … yn Trong phân tích hồi qui người ta lại xác định quan hệ giữa hai biến Y và
X dưới dạng phương trình toán học, từ đó ta có thể dự đoán được biến Y (biến phụ thuộc, dependent variable) dựa vào biến X (biến độc lập, independent variable)
2 Phân tích hồi qui giải quyết các vấn đề sau:
− Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập
− Kiểm định giả thiết về bản chất của sự phụ thuộc
− Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của các biến độc lập
− Kết hợp các vấn đề trên
3 Mô hình hồi quy tuyến tính cổ điển:
Trang 8Giả sử X1 , X 2 ,…, X k là k biến độc lập dùng để dự báo và Y là biến phụ
thuộc cần dự báo
Chẳng hạn, trong VD1 ở trên, Y là giá trị hiện hành Khi đó Y phụ thuộc
chủ yếu vào các yếu tố sau :
1) X 1 là diện tích sử dụng (m2),
2) X 2 là vị trí vùng (thành phố, quận, huyện, …),
3) X 3 là giá của năm trước (qúy trước, tháng trước, …),
4) X 4 là chất lượng xây dựng (giá xây dựng trên một m2)
Sự phụ thuộc của biến Y theo các biến X 1 , X 2 ,…, X k nói chung là phức
tạp Mô hình hối quy tuyến tính cổ điển khẳng định Y phụ thuộc tuyến tính vào các X i
Y = β0 + β1 X 1 + … + βk X k + ε
Trong đó ε là sai số ngẫu nhiên và βi , với i= 1 ,k là các hệ số chưa biết Giả sử ta có n mẫu (bản ghi) nhận được từ thực nghiệm với các số liệu
của các thuộc tính X1 , X 2 ,…, X k và Y tương ứng tuân theo mô hình sau:
y 1 = β0 + β1 x 11 + … + βk x 1k + ε1
y 2 = β0 + β1 x 21 + … + βk x 2k + ε2
…
Y n = β0 + β1 x n1 + … + βk x 1k + εn
Trong đó các sai số ε1 , …, εn thỏa ba điều kiện:
1) E(εj ) = 0: việc đo đạc không chịu sai lệch hệ thống.
2) D(εj ) = σ2: phương sai không đổi hay độ chuẩn xác đo đạc như nhau
3) Cov(εi ,εj ) = 0 với i ≠ j
Sự phụ thuộc trên có thể biểu diễn bằng ma trận:
được gọi là ma trận thiết kế
+
y 1
y 2
y 4
1
=
β1
β2
βk
ε1
ε2
εk
1
Ma trận X =
Với β =
β1
β2
βk
ε1
ε2
εn
và ε =
Trang 9biểu thức phụ thuộc trên có thể viết lại: Y = Xβ + ε
III Ứng dụng minh họa:
1 Mô tả dữ liệu:
Dữ liệu lấy từ địa chỉ: http://ykhoa.net
Tập dữ liệu được sử dụng trong tiểu luận được lấy từ một nghiên cứu đo lường cholesterol trong máu của 18 bệnh nhân nam Trong đó có 2 thuộc tính điều kiện là
Age (tuổi) và Bmi (Body Mass Index - Chỉ số khối lượng cơ thể là khối tượng cơ thể
định là Cholesterol (Chol)
như sau:
biến, đầu ra 1 biến.
lại dưới dạng ma trận Y = βX
20 30 40 50 60 age
Trang 101 46 25.4
1 20 20.6
1 52 26.2
1 30 22.6
1 57 25.4
1 25 23.1
X = 1 28 22.7
1 36 24.9
1 22 19.8
1 43 25.3
1 57 23.2
1 33 21.8
1 22 20.9
1 63 26.7
1 40 26.4
1 48 21.2
1 28 21.2
1 49 22.8
Ma trận chuyển vị
Trang 111 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1
X’= 4 6 2 0 5 2 3 0 5 7 2 5 2 8 3 6 2 2 43 5 7 3 3 2 2 6 3 4 0 4 8 2 8 4 9 25.4 20.6 26.2 22.6 25.4 23.1 22.7 24.9 19.8 25.3 23.2 21.8 20.9 26.7 26.4 21.2 21.2 22.8
Từ đó ta có :
XTX=
0.0018 0.0699 0.0420 0.0699 3.0287 1.6670 0.0420 1.6670 0.9892
Trang 12Đặt (XTX)-1 =
=> (XTX) (XTX)-1 =
=> (XTX)-1 XT =
a b c
d e g
i h k
1 0 0
0 1 0
0 0 1
0.0018 0.0699 0.0420
0.0699 3.0287 1.6670
0.0420 1.6670 0.9892
a b c
d e g
i h k
1 0 0
0 1 0
0 0 1
a b c
d e g
i h k
8.9207 0.0371 -0.4414 0.0371 0.0006 -0.0026 -0.4414 -0.0026 0.0232
-0.5861 0.5687 -0.7168 0.0566 -0.1782 -0.3495 -0.0617 -0.7362 0.9960 -0.6532 0.7929 0.5210 0.5104 -0.5296 -1.2500 1.3421 0.6005 0.6729 -0.0010 -0.0043 0.0006 -0.0034 0.0057 -0.0078 -0.0049 -0.0058 -0.0010 -0.0025 0.0115 0.0005 -0.0039 0.0060 -0.0072 0.0112 -0.0010 0.0076 0.0291 -0.0148 0.0321 0.0057 0.0005 0.0303 0.0132 0.0435 -0.0386 0.0346 -0.0506 -0.0207 -0.0130 0.0151 0.0680 -0.0737 -0.0216 -0.0391
=
Trang 13Ta có :
Y=
=>(XTX)-1 XTY =
3.5 1.9 4.0 2.6 4.5 3.0 2.9 3.8 2.1 3.8 4.1 3.0 2.5 4.6 3.2 4.2 2.3 4.0
0.4555 0.0541 0.0334
Trang 14=>
Vậy ta có phương trình hồi quy tuyến tính :
y = 0.4555 + 0.0541x1 + 0.0334x 2
β0 = 0.4555
β1 = 0.0541
β2 = 0.0334
Trang 15MỤC LỤC
Mục lục 2
I Tương quan tuyến tính (Linear Correlation) 3
1 Đồ thị phân tán (Scatter Diagram): 3
2 Tương quan tuyến tính (Linear Correlation) 3
3 Hệ số tương quan ρ của tập hợp chính (The Population Correlation Coefficient) 3
4 Hệ số tương quan r của mẫu 5
5 Kiểm định giả thuyết về ρ 7
II Phân tích hồi qui tuyến tính 9
1.Khái niệm 9
2 Phân tích hồi qui giải quyết các vấn đề sau 9
3 Mô hình hồi quy tuyến tính cổ điển 9
III Ứng dụng minh họa 11
1 Mô tả dữ liệu 11
2 Giải bài toán 12
Trang 16Bảng phân công nhiệm vụ
I Tương quan tuyến tính : Hưng, Ngọc
II Phân tích hồi quy tuyến tính : Chiến, Cự
III Ứng dụng minh họa : Hoàng