1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận môn Hệ hỗ trợ quyết định Tương quan tuyến tính

16 406 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 16
Dung lượng 1,82 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Dựa vào đồ thị phân tán ta có thể xác định được dạng quan hệ giữa 2 biến Y và X.. Tương quan tuyến tính Linear Correlation Trong đồ thị phân tán, nếu các điểm Mxi , yi qui tụ xung quanh

Trang 1

I Tương quan tuyến tính (Linear Correlation):

1 Đồ thị phân tán (Scatter Diagram):

Đồ thị phân tán của biến Y đối với biến X là tập hợp các điểm M(xi , yi) trong hệ tọa độ vuông góc

Dựa vào đồ thị phân tán ta có thể xác định được dạng quan hệ giữa 2 biến Y và X

2 Tương quan tuyến tính (Linear Correlation)

Trong đồ thị phân tán, nếu các điểm M(xi , yi) qui tụ xung quanh một đường thẳng (D) ta nói hai biến ngẫu Y và X có một sự tương quan tuyến tính Đường thẳng (D) được gọi là đường hồi qui tuyến tính (đường hòa hợp thẳng)

3 Hệ số tương quan ρ của tập hợp chính (The Population Correlation

Coefficient)

Gọi X, Y là cặp giá trị của các biến ngẫu nhiên với số trung bình là μx ,

μy và phương sai là σ2

x, σ2

y Để đo lường mức độ quan hệ giữa X và Y người ta

dùng đại lượng hiệp tương quan (covariance) và hệ số tương quan (correlation

coefficent)

Y

X

Hình 1:Quan hệ tuyến tính

X

Hình 2:Quan hệ phi tuyến

Y

X

Hình 3: Không quan hệ

Trang 2

a Hiệp tương quan (Covariance)

)]

)(

[(

) ,

σxy =Cov X Y = E xx yy

b Hệ số tương quan của tập hợp chính:

* Tính chất:

− ρ = +1 : X, Y tương quan tuyến tính dương tuyệt đối

− ρ = - 1 : X, Y tương quan tuyến tính âm tuyệt đối

− ρ = 0: X, Y không tương quan tuyến tính

N Y

X Cov

N

xy

y x

=

=

) )(

( )

,

σ

-1 ≤ ρ ≤ 1

Trang 3

4 Hệ số tương quan r của mẫu

a Hiệp tương quan của mẫu (Sample Covariance)

b Hệ số tương quan của mẫu r (Sample Correlation Coefficient)

Ghi Chú

−-1 ≤ r ≤ 1

−r được dùng để ước lượng hướng và độ mạnh của mối quan hệ giữa X,Y

| r | > 0,8 tương quan mạnh

| r | = 0,4 - 0,8 tương quan trung bình

| r | < 0,4 tương quan yếu

| r | càng lớn thì tương quan giữa X và Y càng chặt

r > 0 hướng TN - ĐB, r < 0 hướng TB - ĐN

0 < r ≤ 1 : gọi là tương quan tuyến tính thuận (X↑, Y↑)

-1 ≤ r ≤ 0 : gọi là tương quan tuyến tính nghịch (X↑, Y↓)

−r là ước lượng của ρ

Ví dụ 1:

−Tính hệ số tương quan giữa 2 biến X, Y cho bởi bảng tương quan sau:

Trang 4

X 0 1 2 3 4

Giải

Số phần tử của mẫu n = 5

xi yi (xix) (yiy) (xix) 2 (yiy) 2 (xix) (yiy)

0

1

2

3

4

6 5 7 8 4

-2 -1 0 1 2

0 -1 1 2 -2

4 1 0 1 4

0 1 1 4 4

0 1 0 2 -4

2 5

=

5

=

1 , 0 10

10

1 )

( )

(

) ).(

( 5 1

5 1

2 2

5

×

=

×

=

=

i i

y y x

x

y y x x r

r = - 0,1 tương quan yếu

Trang 5

5 Kiểm định giả thuyết về ρ

Nếu chúng ta muốn kiểm định giả thuyết cho rằng các biến không có tương quan tuyến tính thì ta phải kiểm định giả thuyết H0: ρ = 0 Ta có 3 trường hợp:

Trường hợp 1:

Với

) 2 /(

) 1 ( 2 2

=

n r

r

tn

r : hệ số tương quan của mẫu

n : cỡ mẫu

tn-2 : tuân theo phân phối Student t với độ tự do n-2

Trường hợp 2:

Trường hợp 3

Ví dụ 2: Lấy mẫu ngẫu nhiên 2 biến X và Y ta có các giá trị (xi, yi) cho

bởi bảng sau:

a Tìm hệ số tương quan giưa hai biến X, Y

b Kiểm định giả thiết cho rằng biến giữa X và Y không tương quan, với

α = 0.05

Giải:

a Tính r

H0 : ρ = 0

H1 : ρ > 0

R : bác bỏ H0 nếu tn-2 > - tn - 2, α

Trang 6

yi xi 2

i

i

x xiyi 70

55 100 40 15 20

13 18 9 25 36 19

4900 3025 10000 1600 225 400

169 324 81 625 1296 361

910 991 900 1000 540 380

Hệ số tương quan

835 , 0 1030

* 2 , 91

256

=

=

=

s

s sx y

xy

b) Kiểm định giả thuyết:

1 H0 : ρ = 0

2 H1 : ρ ≠ 0

3 α = 0,05 => α/2 = 0,025

n = 6 => n - 2 = 4

tn -2, α/2 = t4, 0,025 = 2,776

-tn - 2 , α/2 = -2,776

4 r = -0,835

4 / ] ) 835 , 0 ( 1 [

835 , 0 )

2 /(

) 1

2

=

=

n r r

tn

Trang 7

tn-2= - 3,03

5 Ra quyết định

tn - 2 = - 3,03 < - tn -2, α/2 = -2,776

=> Bác bỏ H0

Giữa 2 biến Y và X có tương quan nghịch

II Phân tích hồi qui tuyến tính:

1.Khái niệm:

Phân tích hồi qui là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích) với ý tưởng cơ bản là ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị đã biết của biến độc lập

* Một số ví dụ:

Vd1: Công ty địa ốc rất quan tâm đến việc liên hệ giữa giá bán một ngôi

nhà với các đặc trưng của nó như kích thước, diện tích sử dụng, số phòng ngủ và phòng tắm, các loại thiết bị gia dụng, có hồ bơi hay không, cảnh quan có đẹp không,

Vd2: Để nghiên cứu về chiều cao và cân nặng của các em học sinh trong

một trường, chúng ta lấy mẫu ngẫu nhiên gồm n học sinh và thu thập các số liệu

về chiều cao và cân nặng của n học sinh Gọi X là biến ngẫu nhiên để đo chiều cao của học sinh và Y là biến ngẫu nhiên chỉ cân nặng của học sinh Với n học sinh ta có n cặp giá trị (Yi , Xi)

X(m) x1 x2 x3 … xi … xn Y(kg) y1 y2 y3 … yi … yn Trong phân tích hồi qui người ta lại xác định quan hệ giữa hai biến Y và

X dưới dạng phương trình toán học, từ đó ta có thể dự đoán được biến Y (biến phụ thuộc, dependent variable) dựa vào biến X (biến độc lập, independent variable)

2 Phân tích hồi qui giải quyết các vấn đề sau:

− Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập

− Kiểm định giả thiết về bản chất của sự phụ thuộc

− Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của các biến độc lập

− Kết hợp các vấn đề trên

3 Mô hình hồi quy tuyến tính cổ điển:

Trang 8

Giả sử X1 , X 2 ,…, X k là k biến độc lập dùng để dự báo và Y là biến phụ

thuộc cần dự báo

Chẳng hạn, trong VD1 ở trên, Y là giá trị hiện hành Khi đó Y phụ thuộc

chủ yếu vào các yếu tố sau :

1) X 1 là diện tích sử dụng (m2),

2) X 2 là vị trí vùng (thành phố, quận, huyện, …),

3) X 3 là giá của năm trước (qúy trước, tháng trước, …),

4) X 4 là chất lượng xây dựng (giá xây dựng trên một m2)

Sự phụ thuộc của biến Y theo các biến X 1 , X 2 ,…, X k nói chung là phức

tạp Mô hình hối quy tuyến tính cổ điển khẳng định Y phụ thuộc tuyến tính vào các X i

Y = β0 + β1 X 1 + … + βk X k + ε

Trong đó ε là sai số ngẫu nhiên và βi , với i= 1 ,k là các hệ số chưa biết Giả sử ta có n mẫu (bản ghi) nhận được từ thực nghiệm với các số liệu

của các thuộc tính X1 , X 2 ,…, X k và Y tương ứng tuân theo mô hình sau:

y 1 = β0 + β1 x 11 + … + βk x 1k + ε1

y 2 = β0 + β1 x 21 + … + βk x 2k + ε2

Y n = β0 + β1 x n1 + … + βk x 1k + εn

Trong đó các sai số ε1 , …, εn thỏa ba điều kiện:

1) E(εj ) = 0: việc đo đạc không chịu sai lệch hệ thống.

2) D(εj ) = σ2: phương sai không đổi hay độ chuẩn xác đo đạc như nhau

3) Cov(εi ,εj ) = 0 với i ≠ j

Sự phụ thuộc trên có thể biểu diễn bằng ma trận:

được gọi là ma trận thiết kế

+

y 1

y 2

y 4

1

=

β1

β2

βk

ε1

ε2

εk

1

Ma trận X =

Với β =

β1

β2

βk

ε1

ε2

εn

và ε =

Trang 9

biểu thức phụ thuộc trên có thể viết lại: Y = Xβ + ε

III Ứng dụng minh họa:

1 Mô tả dữ liệu:

Dữ liệu lấy từ địa chỉ: http://ykhoa.net

Tập dữ liệu được sử dụng trong tiểu luận được lấy từ một nghiên cứu đo lường cholesterol trong máu của 18 bệnh nhân nam Trong đó có 2 thuộc tính điều kiện là

Age (tuổi) và Bmi (Body Mass Index - Chỉ số khối lượng cơ thể là khối tượng cơ thể

định là Cholesterol (Chol)

như sau:

biến, đầu ra 1 biến.

lại dưới dạng ma trận Y = βX

20 30 40 50 60 age

Trang 10

1 46 25.4

1 20 20.6

1 52 26.2

1 30 22.6

1 57 25.4

1 25 23.1

X = 1 28 22.7

1 36 24.9

1 22 19.8

1 43 25.3

1 57 23.2

1 33 21.8

1 22 20.9

1 63 26.7

1 40 26.4

1 48 21.2

1 28 21.2

1 49 22.8

Ma trận chuyển vị

Trang 11

1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1

X’= 4 6 2 0 5 2 3 0 5 7 2 5 2 8 3 6 2 2 43 5 7 3 3 2 2 6 3 4 0 4 8 2 8 4 9 25.4 20.6 26.2 22.6 25.4 23.1 22.7 24.9 19.8 25.3 23.2 21.8 20.9 26.7 26.4 21.2 21.2 22.8

Từ đó ta có :

XTX=

0.0018 0.0699 0.0420 0.0699 3.0287 1.6670 0.0420 1.6670 0.9892

Trang 12

Đặt (XTX)-1 =

=> (XTX) (XTX)-1 =

=> (XTX)-1 XT =

a b c

d e g

i h k

1 0 0

0 1 0

0 0 1

0.0018 0.0699 0.0420

0.0699 3.0287 1.6670

0.0420 1.6670 0.9892

a b c

d e g

i h k

1 0 0

0 1 0

0 0 1

a b c

d e g

i h k

8.9207 0.0371 -0.4414 0.0371 0.0006 -0.0026 -0.4414 -0.0026 0.0232

-0.5861 0.5687 -0.7168 0.0566 -0.1782 -0.3495 -0.0617 -0.7362 0.9960 -0.6532 0.7929 0.5210 0.5104 -0.5296 -1.2500 1.3421 0.6005 0.6729 -0.0010 -0.0043 0.0006 -0.0034 0.0057 -0.0078 -0.0049 -0.0058 -0.0010 -0.0025 0.0115 0.0005 -0.0039 0.0060 -0.0072 0.0112 -0.0010 0.0076 0.0291 -0.0148 0.0321 0.0057 0.0005 0.0303 0.0132 0.0435 -0.0386 0.0346 -0.0506 -0.0207 -0.0130 0.0151 0.0680 -0.0737 -0.0216 -0.0391

=

Trang 13

Ta có :

Y=

=>(XTX)-1 XTY =

3.5 1.9 4.0 2.6 4.5 3.0 2.9 3.8 2.1 3.8 4.1 3.0 2.5 4.6 3.2 4.2 2.3 4.0

0.4555 0.0541 0.0334

Trang 14

=>

Vậy ta có phương trình hồi quy tuyến tính :

y = 0.4555 + 0.0541x1 + 0.0334x 2

β0 = 0.4555

β1 = 0.0541

β2 = 0.0334

Trang 15

MỤC LỤC

Mục lục 2

I Tương quan tuyến tính (Linear Correlation) 3

1 Đồ thị phân tán (Scatter Diagram): 3

2 Tương quan tuyến tính (Linear Correlation) 3

3 Hệ số tương quan ρ của tập hợp chính (The Population Correlation Coefficient) 3

4 Hệ số tương quan r của mẫu 5

5 Kiểm định giả thuyết về ρ 7

II Phân tích hồi qui tuyến tính 9

1.Khái niệm 9

2 Phân tích hồi qui giải quyết các vấn đề sau 9

3 Mô hình hồi quy tuyến tính cổ điển 9

III Ứng dụng minh họa 11

1 Mô tả dữ liệu 11

2 Giải bài toán 12

Trang 16

Bảng phân công nhiệm vụ

I Tương quan tuyến tính : Hưng, Ngọc

II Phân tích hồi quy tuyến tính : Chiến, Cự

III Ứng dụng minh họa : Hoàng

Ngày đăng: 02/06/2015, 10:57

HÌNH ẢNH LIÊN QUAN

1. Đồ thị phân tán (Scatter Diagram): - Tiểu luận môn Hệ hỗ trợ quyết định Tương quan tuyến tính
1. Đồ thị phân tán (Scatter Diagram): (Trang 1)
Đồ thị phân bố của tập dữ liệu là - Tiểu luận môn Hệ hỗ trợ quyết định Tương quan tuyến tính
th ị phân bố của tập dữ liệu là (Trang 9)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w