1. Trang chủ
  2. » Cao đẳng - Đại học

Bài giảng Phương pháp nghiên cứu: Chương 6: phân tích tương quan và lợi quy - Nguyễn Hùng Phong

53 1,6K 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích Tương quan Và Hồi quy
Trường học Trường Đại Học Khoa Học Xã Hội & Nhân Văn TP. Hồ Chí Minh
Chuyên ngành Phương pháp nghiên cứu
Thể loại Bài giảng
Thành phố Hồ Chí Minh
Định dạng
Số trang 53
Dung lượng 423,88 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phương pháp nghiên cứu

Trang 1

PHÂN TÍCH TƯƠNG QUAN VÀ

HOI QUY

Trang 3

Sơ đồ phân tán và hệ số tương quan

 Sơ đồ phân tán thể hiện mối quan hệ giửa hai biến

 Phân tích hệ số tương quan dùng để đo lường mối quan hệ đồng hành giửa hai biến.

 Hệ số tương quan không thể hiện mối quan hệ nhân quả.

Trang 4

Sơ đồ phân tán (scatter plot)

Trang 5

Sơ đồ phân tán (scatter plot)

Trang 6

Sơ đồ phân tán (scatter plot)

(continued)

Trang 7

Hệ số tương quan

 Hệ số tương quan của đám đông ký hiệu là ρ

(rho) thể hiện sự đồng hành của hai biến.

 Hệ số tương quan của mẩu r dùng ước lượng cho

rho và nó thể hiện tương quan tuyến tính dựa trên

các phần tử quan sát được từ mẩu.

(continued)

Trang 8

Đặc điểm của ρ and r

 Không có đơn vị đo lường

 Biến động trong phạm vi -1 và1

 Càng gần -1, mối quan hệ nghịch biến càng cao

 Càng gần +1, mối quan hệ đồng biến càng cao

 Càng gần 0, mối quan hệ tuyến tính càng yếu

Trang 10

( ][

) x x

( [

) y y

)(

x x

( r

2 2

Các ký hiệu:

r = Hệ số tương quan của mẩu

n = Cở mẩu

x = các giá trị của biến độc lập

y = Các giá trị của biến phụ thuộc

) y (

n ][

) x (

) x (

n [

y x

xy

n r

2 2

2 2

Cách tính tương đương

Trang 11

Ví dụ

Độ cao

của cây

Đường kính thân cây

Trang 12

(73) [8(713)

(73)(321) 8(3142)

] y) (

) y ][n(

x) (

) x [n(

y x

xy

n r

2 2

2 2

2 2

r = 0.886 → relatively strong positive

linear association between x and y

Trang 13

Excel Output

Tree Height Trunk Diameter

Excel Correlation Output

Tools / data analysis / correlation…

Correlation between Tree Height and Trunk Diameter

Trang 14

Kiểm định mức ý nghĩa của hệ số tương

quan

 Giả thuyết

H0: ρ = 0 (Không có quan hệ tương quan)

HA: ρ ≠ 0 (Có quan hệ tương quan)

 Công thức tính

 (with n – 2 degrees of freedom)

2 n

r 1

r t

2

Trang 15

.886 1

.886

2 n

r 1

r t

Trang 16

2 8

.886 1

.886

2 n

r 1

r t

Quyết định :

Từ chối H0

Reject H0Reject H0

Trang 17

Mô hình hồi quy tuyến tính giản đơn

 Chỉ có một biến đôc lập: x

 Mối quan hệ giửa x và y là quan hệ tuyến tính

 Sự thay đổi của y được giả định là do sự thay đổi của x.

Trang 18

Các mô hình thể hiện mối quan hệ

Quan hệ đồng biến

Quan hệ nghịch biến

Quan hệ phi tuyến

Khong có quan hệ

Trang 19

ε x

β β

Bộ phận dự đoán tương quan

Hàm tương quan của đám đông

Hằng số Hệ số góc Hệ số sai

lệch/phần dư Biến phụ thuộc

Biến độc lập

Sai lệch ngẩu nhiên

Trang 20

Các giả thuyết của hàm tương quan

 Các sai lệch ngẩu nhiên hoàn toàn độc lập với nhau

về phương diện thống kê

 Các sai lệch ngẩu nhiên có phân phối chuẩn

 Phân phối xác suất của các sai lệch ngẩu nhiên có phương sai không đổi

 Quan hệ giửa x và y là quan hệ tuyến tính

Trang 21

Hàm tương quan tuyến tính của đám

đông

(continued)

Sai lệch ngẩu nhiên của biến xi

β β

Trang 22

x b

b

yˆ i  0  1

Hàm tương quan ước lượng của mẩu

Hằng số ước lượng của hàm tương quan Hệ số góc ước

Trang 23

Tiêu chuẩn bình phương bé nhất (Least

Squares Criterion)

 b0 và b1 được tính toán theo tiêu chuẩn tổng bình phương bé nhất của phần dư (residuals)

2 1

0

2 2

x)) b

(b (y

) yˆ (y

Trang 24

Hệ số của hàm tương quan theo tiêu chuẩn tổng bình phương bé nhất

n

y

x xy

2

1

) (

) )(

(

x x

y y

x

x b

x b y

b0   1

Trang 25

 b0 là giá trị trung bình của y khi x nhận giá trị bằng 0

trung bình của y mổi khi x thay đổi một đơn

vị

Yù nghĩa của hệ số góc và hằng số

của hàm tương quan

Trang 26

Ví dụ về hàm tươg quan giản đơn

 Một nhà buôn bất động sản tiến hành khảo sát mối quan hệ giửa giá bán căn hộ và diện tích căn hộ (đo lường bằng m2.

 Một mẩu gồm 10 căn hộ được chọn ra

 Biến phụ thuộc (y): Giá bán căn hộ (1000USD)

 Biến độc lập (x): Diện tích

Trang 27

Giá trị các quan sát

Giá bán ($1000)

(y)

Diện tích (x)

Trang 28

Sử dụng excel để xây dựng hàm tương

quan

 Tools / Data Analysis / Regression

Trang 29

Kết quả phân tích trên Excel

The regression equation is:

feet) (square

0.10977 98.24833

price

Trang 30

0 50 100 150 200 250 300 350 400 450

0.10977 98.24833

Trang 31

Giải thích ý nghĩa của hằng số b 0

 b0 là giá trị trung bình ước lượng của giá nhà khi giá trị x (số m2) bằng 0.

 Trong trường hợp nầy, không có giá tri x nào nhận giá trị 0, cho nên b0 = 98.24833 thể hiện giá nhà

không được giải thích bởi số lượng met vuông.

meter) square

* 0.10977 98.24833

price

Trang 32

Giải thích ý nghĩa của hệ số góc b 1

 Trong trường hợp nầy b1 = 10977 chỉ ra rằng giá trung bình của can hộ sẽ gia tăng 0.10977 đơn vị ($1000) khi số met vuông tăng 1 đơn vị

feet) (square

0.10977 98.24833

price

Trang 33

Các đặc trưng của hàm tưoơng quan theo phương pháp bình phương bé

nhất

giá trị trung bình của x và y

cho β0 và β1

0 )

Trang 34

Biến thiên giải thích được và không giải

thích được

 Tổng biến thiên bao gồm hai bộ phận

RSS

ESS

Trang 35

Biến thiên giải thích được và không giải

Trang 36

 Hệ số xác định thể hiện tỷ trọng của tổng biến thiên của biến phụ thuộc có thể giải thích được bởi biến thiên của biến độc lập

 Hệ số xác định được gọi là R bình phương (R2)

Hệ số xác định R2 (coefficient of

determination)

TSS ESS

Trang 37

Hệ số xác định R 2

(continued)

Chú ý: Trong trường hợp của hàm tương quan 1 biến , hệ số xác định

nầy bằng bình phương của hệ số tương quan

2 2

r

R 

Trang 39

Ví dụ về các tình huống đặc biệt của

R 2

y

x y

x

0 < R 2 < 1

Mối quan hệ tuyến tính yếu:

Một bộ phận biến thiên của y được giải thích bằng biến

thiên của x

Trang 40

Ví dụ về các tình huống đặc biệt của

Trang 41

Kết quả trên Excel

58.08% of the variation in house prices is explained by variation in square feet

0.58082 32600.5000

18934.9348 TSS

ESS

Trang 42

Độ lệch tiêu chuẩn của ước lượng

 Độ lệch tiêu chuẩn của biến thiên của biến phụ thuộc xoay quanh đường tương quan được ước lượng bởi côg thức

Trang 43

Độ lệch chuẩn của hệ số góc của

s )

x (x

s s

2 2

ε 2

ε

b1

where:

= sai lệch tiêu chuẩn của hệ số góc của hàm tương quan

= Sai lệch chuẩn của ước lượng

1

b

s

2 n

RSS

Trang 44

Kết quả trên Excel

Trang 45

So sánh sai lệch chuẩn của ước lượng

và của hệ số góc của hàm tương quan

1

b

s large

s small

 s large

Biến thiên của giá trị quan sát y

khỏi đường tương quan

Biến thiên của hệ số góc của đường tương quan từ các mẩu khác nhau

Trang 46

Kiểm định t cho hệ số góc với hàm

tương quan một biến

 Kiểm định t

 Thiết lập giả thuyết

s

β b

Trang 47

98.25 price

Estimated Regression Equation:

Inference about the Slope:

t Test

(continued)

Trang 48

From Excel output:

Reject H0

Coefficients Standard Error t Stat P-value

Intercept 98.24833 58.03348 1.69296 0.12892 Square Feet 0.10977 0.03297 3.32938 0.01039

Reject H0Reject H0

Trang 49

Phân tích mô tả với hàm tương quan

Khoảng ước lượng của hệ số góc

Excel Printout for House Prices:

At 95% level of confidence, the confidence interval for

the slope is (0.0337, 0.1858)

1

b /2

b  a

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square meter 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

d.f = n - 2

Trang 50

Phân tích mô tả với hàm tương quan

Since the units of the house price variable is

$1000s, we are 95% confident that the average

impact on sales price is between $33.70 and

$185.80 per square meter of house size

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Intercept 98.24833 58.03348 1.69296 0.12892 -35.57720 232.07386 Square meter 0.10977 0.03297 3.32938 0.01039 0.03374 0.18580

This 95% confidence interval does not include 0

Conclusion: There is a significant relationship between house price and square feet at the 05 level of significance

Trang 51

Residual Analysis

 Purposes

 Examine for linearity assumption

 Examine for constant variance for all

levels of x

 Evaluate normal distribution assumption

 Graphical Analysis of Residuals

 Can plot residuals vs x

 Can create histogram of residuals to

check for normality

Trang 52

Residual Analysis for Linearity

Trang 53

Residual Analysis for Constant Variance

Ngày đăng: 09/06/2014, 15:51

HÌNH ẢNH LIÊN QUAN

Sơ đồ phân tán và hệ số tương quan - Bài giảng Phương pháp nghiên cứu: Chương 6: phân tích tương quan và lợi quy - Nguyễn Hùng Phong
Sơ đồ ph ân tán và hệ số tương quan (Trang 3)
Sơ đồ phân tán (scatter plot) - Bài giảng Phương pháp nghiên cứu: Chương 6: phân tích tương quan và lợi quy - Nguyễn Hùng Phong
Sơ đồ ph ân tán (scatter plot) (Trang 4)
Sơ đồ phân tán (scatter plot) - Bài giảng Phương pháp nghiên cứu: Chương 6: phân tích tương quan và lợi quy - Nguyễn Hùng Phong
Sơ đồ ph ân tán (scatter plot) (Trang 5)
Sơ đồ phân tán (scatter plot) - Bài giảng Phương pháp nghiên cứu: Chương 6: phân tích tương quan và lợi quy - Nguyễn Hùng Phong
Sơ đồ ph ân tán (scatter plot) (Trang 6)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm