1. Trang chủ
  2. » Cao đẳng - Đại học

Bài giảng Phương pháp nghiên cứu: Chương 5: hàm tương quan đa biến - Nguyễn Hùng Phong

59 633 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Hàm Tương Quan Đa Biến
Trường học Prentice-Hall, Inc.
Chuyên ngành Business Statistics
Thể loại Giáo trình
Năm xuất bản 2005
Định dạng
Số trang 59
Dung lượng 425,26 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài giảng Phương pháp nghiên cứu

Trang 1

Hàm tương quan đa biến

Trang 2

Mục tiêu học tập

 Thông hiểu việc xây dựng mô hình với việc

phân tích đa biến

 Thực hiện việc xây dựng hàm tương quan đa biến

 Phân tích và lý giải kết quả của hàm tương

quan đa biến

 Thực hiện các phép kiểm định thống kê với

Trang 3

Mô hình của hàm tương quan đa biến

ε x

β x

β x

β β

y  0  1 1  2 2    k k 

k k

2 2

1 1

Estimated slope coefficients

Hàm tương quan ước lượng

Estimated intercept

Trang 4

Mô hình của hàm tương quan đa biến

(trường hợp hai biến)

Mô hình hai biến

y

x 2

2 2 1

1

0 b x b x b

yˆ   

Trang 5

Mô hình của hàm tương quan đa biến

(trường hợp hai biến)

1

0 b x b x b

Quan sát thực tế

Trang 6

Multiple Regression Assumptions

 Giả thuyết

 Các sai lệch có phân phối chuẩn

 Bình quân của các sai lệch co giá trị bằng 0

 Phương sai của các sai lệch là cố định

 Các sai lệch hoàn toàn độc lập

e = (y – y)

Sai lệch (errors) hay phần dư (residuals):

Trang 7

Ma trận hệ số tương quan

 Ma trận hệ số tương quan giữa biến phụ thuôc và các biến độc lập được tính trên Excel:

 Tools / Data Analysis… / Correlation

 Kiểm tra độ tin cậy thống kê của các hệ số tương quan với phép kiểm định t

Trang 8

Ví dụ

tác động của giá cả và quảng cáo đến sản lượng hàng bán ra

 Biến phụ thuộc: Sản lượng (Chiếc mỗi tuần)

 Biến độc lập: giá cả ($) và chi phí quảng cáo (đơn vị

$100/tuần)

 Thông tin được thu thập liên tục trong 15 tuần

Trang 9

Hàm tương quan đa biến

Sales = b 0 + b 1 (Price)

+ b 2 (Advertising)

Week

Pie Sales

Price ($)

Advertising ($100s)

Trang 10

Giải thích ý nghĩa các hệ số tương

 b i

 Giá trị trung bình của y sẽ thay đổi b i đơn vị khi gia tăng một đơn vị X i , giả định rằng các biến khác đều cố định

 Hằng số tương quan (b 0 )

 Giá trị trung bình của y khi mọi biến X i đều bằng

0

Trang 11

Kết quả của hàm tương quan đa biến

ertising) 74.131(Adv

ce) 24.975(Pri -

306.526

Trang 12

Hệ số xác định của hàm tương quan

đa biến

 Tỷ lệ % biến thiên của y có thể giải thích bởi sự biến thiên đồng thời của tất cả các X i

squares of

sum Total

regression squares

of

Sum TSS

ESS

R 2  

Trang 13

.52148 56493.3

29460.0 SST

SSR

52.1% of the variation in pie sales

is explained by the variation in price and advertising

Hệ số xác định của hàm tương quan

đa biến

(continued)

Trang 14

Hệ số xác định đã điều chỉnh (Adjusted

R 2)

 R 2 hầu như không bao giờ giảm khi chúng ta thêm

biến độc lập mới vào mô hình

 Gây khó khăn trong việc so sánh các mô hình trước và sau khi thêm biến mới

 Tác đông thực khi thêm biến mới

 Chúng ta sẽ giãm bậc tự do khi có biến mới thêm vào.

 Việc thêm biến mới có đũ năng lực giải thích để bù đấp cho sự mất mát khi giãm bậc tự do hay không?

Trang 15

 Thể hiện % tổng biến thiên của y có thể giải thích

đượcbởi tất cả các biến Xi đã được điều chỉnh cho số

n

1

n )

R 1

( 1

Trang 16

Hệ số xác định đã điều chỉnh (Adjusted

R 2 )

Tác dụng của việc sử dụng R 2 đã điều chỉnh

 Trừng phạt việc đưa quá nhiều biến không cần thiết vào mô hình

 Hữu dụng trong việc so sánh mô hình Thường giá trị của nó nhỏ hơn R 2

Trang 17

R 2 A 

44.2% of the variation in pie sales is explained by the variation in price and advertising, taking into account the sample size and number of independent variables

Hệ số xác định đã điều chỉnh

(continued)

Trang 18

Kiểm tra độ tin cậy của mô hình tương

 H 0 : β 1 = β 2 = … = β k = 0 (không có quan hệ tuyến tính)

 H A : Tối thiểu có β i ≠ 0 (Tối thiểu có một biến có quan hệ tuyến tính với y)

Trang 19

RSS k

Trang 20

6.5386 2252.8

14730.0 MSE

Kết quả kiểm định F trên Excel

With 2 and 12 degrees

of freedom P-value for the F-Test

Trang 21

The regression model does explain

a significant portion of the variation

in pie sales (There is evidence that at least one independent variable affects y)

Critical Value:

F a = 3.885

Kết quả kiểm định F trên Excel

(continued)

F

Trang 22

Kiểm định tương quan tuyến tính của

biến độc lập với biến phụ thuộc

 Sử dụng phép kiểm định t

 Thể hiện mối quan hệ tuyến tính giửa biến x i và y

 Giả thuyết :

 H 0 : β i = 0 (không có quan hệ tuyến tính)

 H A : β i ≠ 0 (có quan hệ tương quan tuyến tính)

Trang 23

Kiểm định tương quan tuyến tính của

biến độc lập với biến phụ thuộc

Trang 24

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

t-value for Price is t = -2.306, with p-value 0398

t-value for Advertising is t = 2.855, with p-value 0145

(continued) Kiểm định tương quan tuyến tính của

biến độc lập với biến phụ thuộc

Trang 25

d.f = 15-2-1 = 12

a = 05

Kiểm định tương quan tuyến tính của

biến độc lập với biến phụ thuộc

H 0 : β i = 0

H A : β i  0

The test statistic for each variable falls

in the rejection region (p-values < 05)

There is evidence that both Price and Advertising affect pie sales at a = 05

From Excel output:

Reject H 0 for each variable

Coefficients Standard Error t Stat P-value

Price -24.97509 10.83213 -2.30565 0.03979 Advertising 74.13096 25.96732 2.85478 0.01449

Decision:

Conclusion:

Reject H0Reject H0

Trang 26

Ước lượng các thông số của hàm tương quan đám đông từ mẩu

(the effect of changes in price on pie sales):

Example: sản lượng bánh nướng hàng tuần ước lượng sẽ

i

b 2

Trang 27

Sai lệch tiêu chuẩn của hàm tương

quan

 Cách xác định sai lệch tiêu chuẩn của hàm tương quan:

MRSS k

 Muốn đánh giá giá trị nầy lớn hay nhỏ, chúng ta cần

phải so sánh với giá tri trung bình của biến phụ thuộc

Trang 28

Coefficients Standard Error t Stat P-value Lower 95% Upper 95%

Sai lệch tiêu chuẩn của hàm tương quan là 47.46

(continued)

Độ lệch tiêu chuẩn của hàm tương quan

Trang 29

 Độ lệch tiêu chuẩn của hàm tươg quan là 47.46

 Với khoảng ước lượng 2 sigma, khoảng biến động sẽ nàm trong khoảng 2* (47.46)= 94.92.

 Sản lượng bánh nướng bán ra trong tuần biến động

Trang 30

Hiện tượng đa cộng tuyến

Trang 31

Hiện tượng đa cộng tuyến

 Dấu của các thông số của hàm tương quan bị sai lệch

(continued)

Trang 32

Một vài chỉ báo của hiện tượng đa

cộng tuyến

 Sai lệch về dấu của thông số của hàm tương quan

 Sự thay đổi về lượng của các thông số của hàm

tương quan khi thêm biến mới vào

 Một biến độc lập từ chổ đủ độ tin cậy thống kê sẽ

trở nên không đủ độ tin cậy thống kê khi thêm biến độc lập mới vào

 Độ lệch tiêu chuẩn của hàm tương quan sẽ gia tăng

khi biến độc lập mới được thêm vào

Trang 33

Phát hiện hiện tượng đa cộng tuyến

(Variance Inflationary Factor)

VIF j is used to measure collinearity:

If VIF j > 5, x j is highly correlated with

the other explanatory variables

R 2

j is the coefficient of determination when the j th

independent variable is regressed against the remaining k – 1 independent variables

Trang 34

Dummy-Variable Model Example

(with 2 Levels)

Let:

y = pie sales

x 1 = price

x 2 = holiday (X 2 = 1 if a holiday occurred during the week)

(X 2 = 0 if there was no holiday that week)

2 1

b

yˆ   1  2

Trang 35

Qualitative (Dummy) Variables

 Categorical explanatory variable (dummy

variable) with two or more levels:

 yes or no, on or off, male or female

 coded as 0 or 1

 Regression intercepts are different if the variable

is significant

 Assumes equal slopes for other variables

 The number of dummy variables needed is

(number of levels - 1)

Trang 36

Same slope

Dummy-Variable Model Example

1 0

1 2

0 1

0

x b

b (0)

b x

b b

x b )

b (b

(1) b

x b b

1 2

1

1 2

If H 0 : β 2 = 0 is rejected, then

“Holiday” has a significant effect

Trang 37

Sales: number of pies sold per week

Price: pie price in $

b 2 = 15: on average, sales were 15 pies greater in

weeks with a holiday than in weeks without a

holiday, given the same price

) 15(Holiday 30(Price)

300

Trang 38

Dummy-Variable Models (more than 2 Levels)

 The number of dummy variables is one less than the number of levels

 Example:

y = house price ; x 1 = square feet

 The style of the house is also thought to matter:

Style = ranch, split level, condo

Trang 39

Dummy-Variable Models (more than 2 Levels)

0

level split

if

1 x

not

if 0

ranch if

1

3 2

1

b

yˆ   1  2  3

split level style, compared to a condo

(continued)

Let the default category be “condo”

Trang 40

Interpreting the Dummy Variable

Coefficients (with 3 Levels)

With the same square feet, a ranch will have an estimated average price of 23.53

thousand dollars more than a condo

With the same square feet, a

split level will have an

Suppose the estimated equation is

3 2

1 23.53x 18.84x 0.045x

20.43

23.53 0.045x

20.43

1 0.045x 20.43

Trang 41

 The relationship between the dependent

variable and an independent variable may not

β x

β β

y  0  1 j  2 2 j 

Trang 42

Polynomial Regression Model

β i = Population regression coefficient for variable x j : j = 1, 2, …k

p = Order of the polynomial

 i = Model error

ε x

β x

β x

β β

y  0  1 j  2 2 j    p p j 

If p = 2 the model is a quadratic model:

General form:

Trang 43

Linear fit does not give random residuals

Linear vs Nonlinear Fit

Nonlinear fit gives random residuals

Trang 44

Quadratic Regression Model

Quadratic models may be considered when scatter

diagram takes on the following shapes:

y

β 1 < 0 β 1 > 0 β 1 < 0 β 1 > 0 x 1

ε x

β x

β β

y  0  1 j  2 2 j 

Trang 45

Testing for Significance:

Quadratic Model

 F test statistic =

with the linear model

 (2 nd order polynomial term is needed)

ε x

β x

β β

ε x

β β

H 0 : β 2 = 0

H A : β 2  0

MSE MSR

Trang 46

Higher Order Models

y

x

ε x

β x

β x

β β

If p = 3 the model is a cubic form:

Trang 47

1 4 3

3

2 1 2 1

Trang 48

x β x

β x

β β

Trang 50

Interaction Regression Model

Trang 51

ε x

x β x

β x

β β

Trang 52

 Lower probability of collinearity

 Stepwise regression procedure

are added

 Best-subset approach

Trang 53

 Idea: develop the least squares regression

equation in steps, either through forward selection , backward elimination , or through

standard stepwise regression

 The coefficient of partial determination is the

measure of the marginal contribution of each independent variable, given that other

independent variables are in the model

Stepwise Regression

Trang 54

Best Subsets Regression

using all possible combinations of independent variables

 Choose the best fit by looking for the highest

adjusted R 2 and lowest standard error s ε

Stepwise regression and best subsets

Trang 55

Aptness of the Model

 Diagnostic checks on the model include verifying the assumptions of multiple

regression:

 Each x i is linearly related to y

 Errors have constant variance

 Errors are independent

 Error are normally distributed

) yˆ y

(

Errors (or Residuals) are given by

Trang 57

The Normality Assumption

 Errors are assumed to be normally distributed

 Standardized residuals can be calculated by

computer

 Examine a histogram or a normal probability plot

of the standardized residuals to check for normality

Trang 58

Chapter Summary

 Tested the significance of the multiple

regression model

 Tested individual regression coefficients

model

Trang 59

(continued)

Ngày đăng: 09/06/2014, 15:54

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm