1. Trang chủ
  2. » Luận Văn - Báo Cáo

LUẬN văn sư PHẠM TOÁN tự TƯƠNG QUAN TRONG PHÂN TÍCH hồi QUY

106 224 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 106
Dung lượng 1,9 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Chẳng hạn, một công ty địa ốc rất quan tâm đến việc liên hệ giữa giá bán một căn nhà với các đặc trưng của nó như kích thước, diện tích sử dụng, số phòng ngủ và phòng tắm, các loại thiết

Trang 1

TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN

BỘ MÔN TOÁN

-—²– -

LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC

TỰ TƯƠNG QUAN TRONG PHÂN TÍCH HỒI QUY

CẦN THƠ THÁNG 5/ 2011

Giáo viên hướng dẫn

ThS DƯƠNG THỊ TUYỀN

(Bộ môn toán – Khoa KHTN)

Sinh viên thực hiện

NGUYỄN THỊ THẢO NGUYÊN LỚP: Toán ứng dụng K33

MSSV: 1076642

Trang 2

LỜI MỞ ĐẦU

-—²– -

Hiện nay, khoa học công nghệ ngày càng tiên tiến nên cạnh tranh ngày một nhiều Do đó, khi làm một việc gì con người cần quan tâm đến rất nhiều yếu tố liên quan để tạo điều kiện tốt cho công việc của mình đạt được kết quả như ý muốn Chẳng hạn, một công ty địa ốc rất quan tâm đến việc liên hệ giữa giá bán một căn nhà với các đặc trưng của nó như kích thước, diện tích sử dụng, số phòng ngủ và phòng tắm, các loại thiết bị gia dụng, có hồ bơi hay không, cảnh quan có đẹp hay không?… Và mối liên hệ của tất cả các đặc trưng mà công ty này quan tâm đến sẽ được mô tả bởi một

mô hình hồi quy mà chúng tôi muốn nhắc đến ở đây Đó chính là mô hình hồi quy tuyến tính – một mô hình toán học đang được các nhà kinh tế quan tâm đến Đối với

mô hình trên, để biết được giá bán của một căn nhà, chúng ta cần phải đi phân tích hồi quy đối với tất cả các đặc trưng trên Muốn làm được điều này, cần phải có một quá trình ước lượng, phân tích và dự báo để xây dựng mô hình chính xác Ngày nay để tiết kiệm thời gian và công sức, khoa học công nghệ đã cho ra đời nhiều phần mềm thống

kê để giúp chúng ta giải quyết vấn đề này như SPSS, R, Eview, Stata, Mfit hay Excel cũng có thể tính được Tuy nhiên, khoa học công nghệ có hiện đại đến đâu, thì trong quá trình ước lượng mô hình không phải lúc nào cũng như chúng ta mong muốn, mô hình dự báo có thể không phù hợp do nhiều nguyên nhân như tồn tại hiện tượng phương sai sai số thay đổi, đa cộng tuyến hay tự tương quan… Chính những nguyên nhân này làm cho mô hình không còn phù hợp nữa Vì vậy, cần tìm hiểu nguyên nhân nào làm cho mô hình không phù hợp và từ đó đưa ra các biện pháp khắc phục kịp thời

Và ở đây đề tài mà chúng tôi sẽ trình bày là nghiên cứu một trong các nguyên nhân trên, đó là sự tự tương quan giữa các sai số ngẫu nhiên trong phân tích hồi quy Qua đề tài này, chúng tôi sẽ đi tìm hiểu nguyên nhân của sự tự tương quan là gì? Nếu có hiện tượng tự tương quan thì có áp dụng được phương pháp bình phương nhỏ nhất hay không? Làm thế nào để biết được có sự tự tương quan xảy ra đối với mô hình hồi qui đang xét? Cách khắc phục hiện tượng này như thế nào? Chúng tôi cần phải nghiên cứu và làm rõ các vấn đề trên

Trang 3

* Nội dung đề tài gồm có 3 chương:

- Chương 1: Phân tích mô hình hồi quy tuyến tính

- Chương 2: Tự tương quan

- Chương 3: Bài toán thực tế

Trong quá trình hoàn thành đề tài, chúng tôi đã cố gắng nhưng không tránh khỏi thiếu sót Do đó, kính mong quý thầy cô thông cảm và góp ý thêm để đề tài được hoàn chỉnh

Chúng tôi xin chân thành cám ơn!

Trang 4

Và trong suốt quãng thời gian đi học, người mà em biết ơn nhiều nhất đó chính là

ba mẹ em, người mà ngày đêm vất vả lo cho em ăn học bao năm qua và đạt được kết quả như ngày hôm nay Con xin gửi đến cha mẹ lời cảm ơn chân thành và sâu sắc nhất Cuối cùng, tôi cũng xin cảm ơn tất cả các anh chị cũng như các bạn lớp Toán Ứng Dụng khóa 33 đã luôn sát cánh để động viên và giúp tôi vượt qua rất nhiều khó khăn

Em xin chân thành cám ơn !

Trang 5

Chương 1 PHÂN TÍCH MÔ HÌNH HỒI QUY TUYẾN TÍNH

1.1 BẢN CHẤT CỦA PHÂN TÍCH HỒI QUY

1.1.1 Khái niệm

Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích) với ý tưởng cơ bản là ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị đã biết của biến độc lập

Ta có thể xét một số ví dụ sau đây:

Ví dụ 1.1: Để nghiên cứu về chiều cao và cân nặng của các em học sinh trong một

trường, chúng ta lấy mẫu ngẫu nhiên gồm n học sinh và thu thập các số liệu về chiều cao và cân nặng của n học sinh Gọi X là biến ngẫu nhiên để đo độ tuổi của học sinh

và Y là biến ngẫu nhiên chỉ chiều cao của học sinh Với n học sinh ta có n cặp giá trị (Xi,Yi)

X x1 x2 x3 xi xn Y(inches) y1 y2 y3 yi yn

Hình 1.1: Biểu đồ thể hiện giữa chiều cao và tuổi của học sinh

Ví dụ 1.2: Để cố gắng giúp công chúng bảo toàn năng lượng ta muốn phân tích các nhân tố xác định chi phí sưởi ấm trong gia đình Trong thành phố có mùa mùa đông

Trang 6

dài và lạnh Để xác định được chi phí sưởi ấm của gia đình người ta quan tâm đến các nhân tố như: kích thước căn nhà, số người trong mỗi gia đình và số cửa sổ …

Ví dụ 1.3: Giám đốc tiếp thị của một công ty có thể muốn biết mức cầu đối với sản phẩm của công ty có quan hệ như thế nào với chi phí quảng cáo Một nghiên cứu như thế sẽ rất có ích cho việc xác định độ co dãn của cầu đối với chi phí quảng cáo Tức là

tỷ lệ phần trăm thay đổi về mức cầu khi ngân sách quảng cáo thay đổi 1% Kiến thức này rất có ích cho việc xác định ngân sách quảng cáo tối ưu

Chúng ta có thể đưa ra vô số ví dụ như trên về sự phụ thuộc của một biến vào một hay nhiều biến khác Các kỹ thuật phân tích hồi quy thảo luận trong chương này nhằm nghiên cứ sự phụ thuộc như thế giữa các biến số

Ta ký hiệu: Y - biến phụ thuộc (hay biến được giải thích)

X i - biến độc lập (hay biến giải thích) thứ i

Trong đó, biến phụ thuộc Y là đại lượng ngẫu nhiên, có quy luật phân phối xác

suất Các biến độc lập Xi không phải là ngẫu nhiên, giá trị của chúng đã được biết trước

1.1.2 Phân tích hồi quy nhằm giải quyết các vấn đề sau:

Ø Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập

Ø Kiểm định giả thiết về bản chất của sự phụ thuộc

Ø Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của các biến độc lập

Ø Kết hợp các vấn đề trên

Tóm lại, trong phân tích mô hình hồi quy chúng ta hiểu được các bản chất trên là

đã hiểu được một phần nội dung của phân tích hồi quy là như thế nào Đến đây, chúng tôi sẽ đi tìm hiểu các mô hình cơ bản của phân tích hồi quy

1.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH

Ta xét mô hình hồi quy tuyến tính đơn và mô hình hồi quy tuyến tính bội

1.2.1 Mô hình hồi quy tuyến tính đơn

a) Hàm hồi quy tổng thể (PRF)

Trang 7

Mục tiêu của phân tích hồi quy là mô hình hóa mối liên hệ bằng một mô hình toán học nhằm thể hiện một cách tốt nhất mối liên hệ giữa X và Y Mô hình này được gọi là hàm hồi quy tổng thể (PRF)

b) Hàm hồi quy mẫu (SRF)

Để mô hình hóa mối liên hệ giữa X và Y tức là phải tìm được giá trị của tham số hồi quy và ta chỉ thực hiện được điều này thông qua các quan sát mẫu Do đó, mô hình hồi quy tuyến tính mẫu được sử dụng để ước lượng mô hình hồi quy tổng thể.Tuy nhiên để ước lượng mô hình hồi quy mẫu ta áp dụng phương pháp bình phương nhỏ nhất để ước lượng các tham số

Trước khi ước lượng các số liệu phải thỏa mãn các giả thuyết của phương pháp bình phương nhỏ nhất:

Giả thiết 1: Biến giải thích là phi ngẫu nhiên, tức là các giá trị của chúng là các con số đã được xác định Giả thiết này là đương nhiên, vì phân tích hồi quy được đề

cập là phân tích hồi quy có điều kiện, phụ thuộc vào các giá trị X đã cho

Giả thiết 2: Kỳ vọng của các yếu tố ngẫu nhiên Ui bằng 0, tức là: E( U X ) = 0i i Giả thiết này có nghĩa là các yếu tố không có trong mô hình và giá trịUi đại diện cho chúng, không có ảnh hưởng hệ thống đến giá trị trung bình của Y Cho nên có thể nói, các giá trị Ui dương triệt tiêu với các giá trị Ui âm sao cho trung bình của chúng ảnh hưởng lên Y bằng 0

Trang 8

Chú ý :Giả thiết E ( U X ) = 0i i kéo theo E Y X( i i)= + β 0 β X 1 i

Giả thiết 3: Các Ui có phương sai bằng nhau (phương sai thuần nhất)

độ chênh lệch như nhau

Giả thiết 4: Không có sự tương quan giữa cácUi: Cov (U ,U ) = 0 ( ii j ∀ ≠ j)

Giả thiết này có nghĩa là Ui là ngẫu nhiên Sai số ở quan sát này không ảnh hưởng tới sai số ở quan sát khác

Giả thiết 5: Ui và Xi không tương quan với nhau: Cov (U , X ) = 0i i

Giả thiết 5 là cần thiết vì nếu U và X có tương quan với nhau thì ta không thể tách ảnh hưởng riêng biệt của chúng đến Y, trong khi đó Ui lại đại diện cho các yếu tố không có mặt trong mô hình Giả thiết 5 sẽ thỏa mãn nếu X là phi ngẫu nhiên

Sau khi thõa mãn các giả thuyết trên thì ta có thể ước lượng được một mô hình hồi quy hoàn hảo

Khi đó ta có mô hình hồi quy mẫu (SRF) như sau :

Trang 9

Khi tính được β βˆ1, ˆ2ta dễ dàng viết được mô hình hồi quy mẫu

* Các tính chất của các ước lượng bình phương nhỏ nhất:

– β βˆ1, ˆ2 được xác định một cách duy nhất ứng với n cặp quan sát (Xi, Yi)

– β βˆ1, ˆ2 là các ước lượng điểm của β β1, 2 và là các đại lượng ngẫu nhiên, với các mẫu khác nhau chúng có giá trị khác nhau

c) Hệ số xác định R 2

R2 là hệ số nhằm xác định mức độ quan hệ giữa X và Y có quan hệ hay không, hoặc bao nhiêu phần trăm sự biến thiên của Y có thể giải thích bởi sự phụ thuộc tuyến tính của Y vào X hay nói cách khác hệ số xác định R2 dùng để đánh giá mức độ phù hợp của mô hình hồi quy

Ta có công thức tính như sau:

2 ESS R

2 2

^

2 2

ˆ ES

RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát của biến

Y và các giá trị nhận được từ phương trình hồi quy mẫu

2 2

Trang 10

R2=0: Chứng tỏ X và Y không có quan hệ, tức là mô hình không phù hợp với mẫu nghiên cứu

* Các tính chất của hệ số tương quan:

– R có thể âm hoặc dương, dấu của R phụ thuộc vào dấu của Cov(X, Y), hay dấu của hệ số góc

– R lấy giá trị trong khoảng -1 đến 1: (0 | ≤ R| 1 ≤ )

– R có tính chất đối xứng: RXY = RYX

– R độc lập với gốc tọa độ và các tỉ lệ; nghĩa là nếu ta định nghĩa Xi* = aXi + b và

Yi* = cYi + d, trong đó a > 0, c > 0 và b, d là các hằng số thì R XY =R X Y* *

– Nếu X, Y độc lập theo quan điểm thống kê thì hệ số tương quan giữa chúng bằng

0 Nhưng điều ngược lại thì không đúng

– R chỉ là đại lượng đo sự kết hợp tuyến tính hay phụ thuộc tuyến tính

Ví dụ 1.4: Bảng cho số liệu về tỉ lệ thay đổi tiền lương(Y) và tỉ lệ thất nghiệp (X) của vương quốc Anh trong giai đoạn 1950-1966 Dựa vào bảng số liệu này hãy tính hệ số tương quan ứng với bảng số liệu sau:

Bảng 1.1: Bảng số liệu về tỉ lệ thay đổi tiền lương (Y) và tỉ lệ thất nghiệp (X) của

vương quốc Anh giai đoạn 1950-1966

Trang 11

Tổng -5.488 1.441 65.098

Khi đó ta tính được:

Trang 12

t t t

n n

t t

t t

X Y R

e) Kiểm định sự phù hợp của hàm hồi quy

Chúng ta kiểm định giả thuyết:

( 2) 1

R n F

Nếu F >Fα(1,n− 2) thì bác bỏ giả thuyết Ho

Ngược lại, F<Fα(1,n−2) thì chấp nhận giả thuyết Ho

Trong các phần mềm thống kê khi viết phương trình hồi quy đều tính được giá trị kiểm định F

Ví dụ 1.5: Một cuộc thí nghiệm được tiến hành với 28 chiếc xe, các xe tham gia được cho chạy trên đường cao tốc với các mức độ khác nhau, biến thiên trong khoảng 10 dặm/giờ đến 75 dặm/giờ Dữ liệu về tốc độ và lượng xăng xe tiêu thụ được ghi lại trong bảng sau:

Bảng 1.2: Bảng số liệu về tốc độ và lượng xăng tiêu thụ của 28 chiếc xe

STT Mức tiêu hao xăng (Y) Tốc độ (X)

Trang 14

2 2 1

20458.5 28* 42.5 * 20.146

61950 28* (42.5) ( )

t t t n t t

1.2.2 Mô hình hồi quy tuyến tính bội (mô hình hồi quy tuyến tính đa biến)

Mô hình hồi quy tuyến tính đơn đã trình bày ở trên là khá hữu dụng cho rất nhiều trường hợp khác nhau Mặc dù vậy, nó trở nên không còn phù hợp nữa khi có nhiều hơn một yếu tố tác động đến biến cần giải thích Chẳng hạn, khi nghiên cứu nhu cầu

về một loại hàng hóa nào đó (Y), thì nhu cầu này phụ thuộc vào nhiều yếu tố như thu nhập của người tiêu dùng, giá bán của bản thân hàng hóa, và giá cả của các loại hàng hóa cạnh tranh Và mô hình hồi quy tuyến tính đa biến cho phép chúng ta nghiên cứu những trường hợp như vậy

Trong phần này chúng ta sẽ mở rộng mô hình hồi quy đa biến (hay còn gọi là mô hình hồi quy bội) trong đó không chỉ một mà nhiều biến giải thích có thể được sử dụng

để dự đoán giá trị của biến phụ thuộc

Trang 15

1 2

n

Y Y Y Y

k

ββββ

n

U U U U

ˆ

ˆ ˆ

ˆ

k

ββββ

n

e e e e

Trang 16

d) Kiểm định sự phù hợp của hàm hồi quy

Kiểm định giả thuyết :

Ho : β2=β3= =βk = 0

H1: Không phải tất cả các hệ số hồi quy riêng đồng thời bằng 0

Để kiểm định giả thuyết trên, ta áp dụng quy tắc kiểm định như sau :

• Tính F theo công thức :

Trang 17

2 2

( ) (1 )( 1)

R n k F

Bảng 1.3: Bảng đánh giá kết quả làm việc của nhân viên

Trang 18

-0.354 -0.072 0.420 -0.299 -1.934 -0.192 -0.299 0.684

Trang 19

1

2 1

3 1

4 1

1371 12011.8 12149.3 12561.4

n t t n

t t t

t t t n

t t t

-0.354 -0.072 0.420 -0.299 12149.3 0.801 -1.934 -0.192 -0.299 0.684 12561.4 4.588

1.3 XÂY DỰNG MÔ HÌNH HỒI QUY BỞI CÁC PHẦN MỀM THỐNG KÊ

Để xây dựng một mô hình hồi quy nếu ta áp dụng các công thức như trên sẽ rất mất thời gian Tuy nhiên, để thuận tiện chúng ta có thể sử dụng các phần mềm như: Excel, SPSS, R, Mfit, hay Eview… Ở đây tôi sẽ trình bày phân tích mô hình hồi quy tuyến tính dựa trên Excel, SPSS, R và Eview

1.3.1 Ứng dụng trên Excel

Để thực hiện trên Excel ta thực hiện các bước sau:

• Bước 1: Nhập số liệu

Nhập số liệu theo cột, mỗi cột một biến

• Bước 2: Chọn Tool / Data Analysis / Regression

• Bước 3: Đưa các đối số cần tính vào các vùng xử lí

Trong đó:

- Input Y Range: Chọn vùng xử lí của biến phụ thuộc

- Input X Range: Chọn vùng xử lí của biến độc lập, nếu nhiều biến thì chọn nhiều cột

Ø Labels: Vùng xử lí có tên biến hay không

Ø Constant is Zero: Đây là trường hợp hồi qui với anpha bằng 0

Ø Confidence Level: Độ tin cậy

Trang 20

Ví dụ 1.7: Để dễ dàng so sánh ta sử dụng lại bảng số liệu về tốc độ và lượng xăng xe tiêu thụ ở ví dụ 1.5

Ta thực hiện trên Excel như sau:

Bước 1: Nhập số liệu

Bước 2: Chọn Tool / Data Analysis / Regression

Trang 21

Bước 3: Đưa các đối số cần tính vào các vùng xử lí

Ta được kết quả như sau:

Upper 95%

Intercept 33.282 1.133 29.37 1.8E-21 30.952 35.612

Trang 22

Dựa vào bảng kết quả ta thấy R2 = 0.864 nên mô hình mà ta đang xét khá phù hợp

và ta có mô hình hồi quy như sau: Y = 33.282 - 0.309Xˆ

1.3.2 Ứng dụng trên SPSS

Ta cũng có các bước thực hiện như sau:

• Bước 1: Khai báo biến và nhập số liệu

• Bước 2: Vào menu lệnh Analyze/ Regression/ Linear

• Bước 3: Chọn các biến cần tính đưa vào

+ Đưa biến phụ thuộc vào khung Dependent

+ Đưa biến độc lập vào khung Independent(s), nếu có nhiều biến độc lập cần phân tích thì ta đưa vào khung này

• Bước 4: Đọc kết quả thu được

Ví dụ 1.8: Ta sử dụng lại bảng đánh giá kết quả làm việc của nhân viên để viết phương trình hồi quy

Trang 23

Khi đó hiện bảng Linear Regression

Ta thu được kết quả như sau:

Model Summary

Adjusted R Square Std Error of the Estimate

Trang 24

Coefficients(a)

Model

Unstandardized Coefficients

Standardized Coefficients T Sig

tich tinh huong

a Dependent Variable: Diem danh gia ket qua lam viec

Nhìn vào kết quả xử lí ta thấy mô hình mà ta đang xét là khá phù hợp vì R2 = 0.650

> 0 có nghĩa là 65% kết quả làm việc của nhân viên ở công ty này có thể được giải thích từ mối liên hệ tuyến tính giữa điểm đánh giá kết quả làm việc với điểm phân tích tình huống, điểm khả năng trình bày viết và điểm khả năng trình bày miệng

Khi đó ta có mô hình hồi quy như sau:

^

1 2 3

Y = 27.661 + 1.679X +0.801X +4.588X

1.3.3 Ứng dụng trên R

Đối với phần mềm R khi nhập số liệu hay phân tích một mô hình chúng ta chỉ cần

sử dụng một số hàm có sẵn Để dễ hiểu ta xét ví dụ sau đây:

Ví dụ 1.9 Tốc độ phát triển nền kinh tế (Y) phụ thuốc vào tốc độ phát triển của nông nghiệp (X1), tốc độ tăng trưởng của kim ngạch xuất khẩu (X2) và tỉ lệ lạm phát (X3) được thu thập ở 48 nước dưới đây:

Trang 25

Bảng 1.4:Bảng số liệu về tốc độ phát triển kinh tế, nông nghiệp, xuất khẩu và

Xuất khẩu (X 2 )

Lạm phát (X 3 )

Trang 27

Khi đó ta có mô hình hồi quy:

1.3.4 Ứng dụng trên Eview

* Các bước thực hiện:

• Bước 1: Mở cửa sổ Eview Chọn lệnh File/ Open/ Workfile

Khi cửa sổ Workfile xuất hiện thì định dạng tần suất cho số liệu

Có các lựa chọn tần suất cho từng dạng số liệu:

- Anualy (yyyy): Năm

- Semi Annual: Nửa năm

- Quarterly: Quý

- Monthly: Tháng

- Weekly: Tuần

- Daily [5 day]: Tuần 5 ngày

- Daily [7 day]: Tuần 7 ngày

- Undated or Irregular: Các quy tắc khác

Trang 28

• Bước 2: Sau khi chọn tần suất cho bảng số liệu, tại cửa sổ Eview chọn Quick/ Emty Group Chọn ô đầu tiên bên phải ô obs, nhập tên biến và số liệu ứng với biến này Tiếp tục nhập các biến còn lại ở các cột tiếp theo

• Bước 3: Chọn lệnh Quick/ Estimate Equation để khai báo phương trình hồi quy tại cửa sổ Equation Specification

- Đối với phương trình hồi quy tuyến tính đơn

Sau khi khai báo xong ta chọn OK và đọc kết quả

Ví dụ 1.10 Ta sử dụng lại số liệu ở bảng 1.4: “Bảng số liệu về tốc độ phát triển kinh

tế, nông nghiệp, xuất khẩu và lạm phát của 48 nước” ở ví dụ 1.9

Ta thực hiện trên phần mềm Eview như sau:

Bước 1: Mở cửa sổ Eview Chọn lệnh File/ Open/ Workfile và chọn dạng tần suất cho số liệu

Bước 2: Nhập tên biến và nhập số liệu

Trang 29

Bước 3: Khai báo dạng phương trình hồi quy

Khi đó ta có bảng kết quả như sau:

Trang 30

Vậy ta có phương trình hồi quy như sau:

ˆ

Y = 2.498 + 0.346X +0.101X - 0.1098X

Trang 31

Chương 2 TỰ TƯƠNG QUAN

Một trong các giả định của mô hình hồi quy tuyến tính cổ điển là không có sự tương quan giữa các sai số ngẫu nhiên ui, nhưng trong thực tế có xảy ra hiện tượng tự tương quan hay không? Nguyên nhân của sự tự tương quan là gì? Nếu có hiện tượng

tự tương quan thì có áp dụng được phương pháp bình phương nhỏ nhất hay không? Làm thế nào để biết được có sự tự tương quan xảy ra đối với mô hình hồi qui đang xét? Cách khắc phục hiện tượng này như thế nào? Đó là câu hỏi mà chúng tôi sẽ lần lượt giải đáp trong chương này

2.1 BẢN CHẤT VÀ NGUYÊN NHÂN CỦA HIỆN TƯỢNG TỰ TƯƠNG QUAN 2.1.1 Tự tương quan là gì?

Tự tương quan được hiểu là sự tương quan giữa các thành phần của chuỗi các quan sát được sắp xếp theo thứ tự thời gian hoặc không gian

Trong mô hình hồi quy tuyến tính cổ điển, ta có giả thuyết rằng không có sự tương quan giữa các sai số ngẫu nhiên Ui, tức là:

Cov(Ui, Uj) = 0 (với i ≠ j) (2.1) Nói một cách khác, mô hình hồi quy tuyến tính với giả thuyết rằng: sai số ứng với quan sát nào đó không bị ảnh hưởng bởi sai số ứng với một quan sát khác

Tuy nhiên trong thực tế có thể xảy ra hiện tượng mà các sai số của các quan sát lại phụ thuộc nhau, nghĩa là:

Trang 32

Hình 2.1:Đồ thị biểu diễn giữa sai số ui (hay e i ) theo thời gian t

* Nhận xét: Từ hình 2.1 (a) tới hình 2.1 (d) cho thấy rằng có một dạng của sai số

ui Hình 2.1 cho thấy dạng chu kỳ; hình 2.1 (b) và hình 2.1 (c) cho thấy có xu hướng đi lên hay đi xuống của các sai số; hình 2.1 (d) cho thấy sai số có hai dạng: xu hướng tuyến tính và bình phương Chỉ có hình 2.1 (e) là cho thấy dạng không có hệ thống, thích hợp cho giả định không có sự tương quan trong mô hình hồi quy tuyến tính cổ

điển

2.1.2 Nguyên nhân của sự tự tương quan

a) Nguyên nhân khách quan

u i

(e)

Trang 33

Ví dụ 2.2: Tổng sản phẩm,GDP, chỉ số giá, nạn thất nghiệp… Chẳng hạn giai đoạn đầu của thời kỳ khôi phục kinh tế, tổng sản phẩm có xu hướng đi lên hoặc đi xuống

Do đó giá trị của chuỗi ở thời điểm sau thường lớn hơn hoặc nhỏ hơn thời điểm đầu,

và khi ta đưa các biến vào mô hình hồi qui, các quan sát có khả năng phụ thuộc vào nhau

ii) Hiện tượng mạng nhện

Người ta thấy rằng việc cung nhiều mặt hàng nông sản biểu hiện hiện tượng mang nhện, trong đó lượng cung phản ứng lại với giá có trễ một khoảng thời gian, vì các quyết định cung cần phải mất một khoảng thời gian để thực hiện

Chẳng hạn vào đầu mùa lạc năm nay, người nông dân bị ảnh hưởng bởi giá lạc năm ngoái của các công ty xuất khẩu Cho nên cung về lạc có biểu hiện dưới dạng hàm:

Trong phân tích chuỗi thời gian, chúng ta có thể gặp hiện tượng biến phụ thuộc ở

thời kỳ t phụ thuộc vào chính biến đó ở thời kỳ t-1 và các biến khác

Ví dụ 2.3: Khi nghiên cứu mối quan hệ giữa tiêu dùng và thu nhập, chúng ta thấy rằng tiêu dùng ở thời kỳ hiện tại không những phụ thuộc vào thu nhập mà còn phụ thuộc vào tiêu dùng ở thời kỳ trước đó Để thấy rõ được mối quan hệ này ta xét bảng số liệu sau:

Bảng 2.1: Thu nhập (X) và tiêu dùng (Y) tại một

địa phương từ năm 1977-2007

1977 1494.9 873.8 1988 2208.4 1298.9 1998 2826.7 1803.9

1978 1528.7 899.8 1989 2271.3 1337.7 1999 2958.7 1883.7

Trang 34

a Predictors: (Constant), Y(t-1), ThuNhapX

b Dependent Variable: TDUNGY

Coefficients(a)

Model

Unstandardized Coefficients

Standardized Coefficients T Sig

Std

Trang 35

ThuNhapX 676 015 985 44.184 000

a Dependent Variable: TDUNGY

Nhìn vào kết quả xử lý ta có được mô hình như sau:

Yt = - 160.984 + 0.676X + 0.013Yt-1

* Từ kết quả trên ta có nhận xét: Khi thu nhập X tăng 67.6% và tiêu dùng ở thời

điểm t-1 tăng 1.3% thì tiêu dùng ở thời điểm thực tế giảm 160.984%

b) Nguyên nhân chủ quan

i) Xử lí số liệu

Trong phân tích thực nghiệm, số liệu thô thường được xử lí Chẳng hạn trong hồi quy chuỗi thời gian gắn với các số liệu quý, các số liệu này thường được suy ra từ số liệu tháng bằng cách cộng 3 quan sát rồi chia cho 3 Việc lấy trung bình này làm tròn các số liệu và làm giảm sự giao động trong số liệu tháng Chính sự làm trơn này có thể dẫn đến sai số có hệ thống trong các sai số ngẫu nhiên và gây ra sự tự tương quan Một cách xử lí khác cũng gây ra sự tự tương quan chính là phép nội suy và ngoại suy số liệu Cụ thể là cuộc tổng điều tra dân số tiến hành 10 năm 1 lần, lần cuối cùng vào năm 2007, nếu cần số liệu cho một năm nằm trong khoảng thời gian giữa hai cuộc điều tra, cách phổ biến là dùng phương pháp nội suy Cách xử lí này có thể gây ra sai

số hệ thống mà điều đó không thấy trong số liệu gốc

ii) Sai lệch do lập mô hình

Đây là nguyên nhân thuộc về việc lập mô hình Có 2 loại sai lầm có thể gây ra hiện tượng tự tương quan

* Sai lầm 1: Bỏ sót biến thích hợp hay đưa vào mô hình những biến không phù hợp

Ví dụ 2.4: Xét mô hình sau:

Yt = β + β1X1t+β2X2t+β3 X3t+ Ut (2.4) Trong đó:

Y là nhu cầu về thịt bò

X là giá thịt bò

Trang 36

X2 là thu nhập của người tiêu dùng

X3 là giá thịt heo

T là thời gian

Ut là sai số ngẫu nhiên

Nhưng vì lý do gì đó chúng ta đưa ra mô hình chỉ có hai biến độc lập là X1 và X2:

Yt = β + β2X1t+β3X2t + Vt (2.5) Vậy nếu mô hình (2.4) là mô hình đúng thì khi ta tiến hành hồi quy (2.5) cũng tương đương cho vt = β3 X3t+ ut Nhưng vì việc tăng giá thịt heo có ảnh hưởng đến nhu cầu thịt bò nên thành phần sai số ngẫu nhiên vt sẽ có sai số hệ thống và tạo nên sự tự tương quan

* Sai lầm 2: Dạng hàm sai có thể gây ra tự tương quan

Ví dụ 2.5: Thí nghiệm sau đây tìm mối liên hệ về giữa hàm hàm lượng gỗ cứng (X) và

độ căng của vật liệu (Y) Mười chín vật liệu khác nhau vời hàm lượng gỗ cứng được thử nghiệm để đo độ căng mạnh của vật liệu, và kết quả được tóm lược trong bảng số liệu sau đây:

Trang 37

Residual standard error: 11.82 on 17 degrees of freedom

Multiple R-squared: 0.3054, Adjusted R-squared: 0.2645

F-statistic: 7.474 on 1 and 17 DF, p-value: 0.01414

Qua xử lí trên phần mềm R ta được mô hình hồi quy:

Y = 21.3213 + 1.771X

Phương sai bây giờ là s2 = 11.822 = 139.7

Ta tiến hành vẽ đồ thị xem mô hình này có dạng gì và xem đồ thị có phù hợp với

mô hình trên hay không

> plot(y ~ x,xlab="Ham luong go cung",ylab="Do cang manh",main="Mối liên hệ giữa hàm lượng gỗ cứng và độ căng mạnh của vật liệu",pch=16)

Trang 38

Mối liên hệ giữa hàm luợng gỗ cứng và dộ cang mạnh của vật liệu

Ham luong go cung

> abline(simple.model)

Hình 2.2: Đồ thị phân tán thể hiện mối liên hệ giữa hàm lượng gỗ cứng

và độ căng mạnh của vật liệu

Qua biểu đồ này chúng ta thấy mô hình hồi quy tuyến tính không phù hợp cho số liệu, bởi vì mối liên hệ giữa hai biến này không tuân theo một phương trình đường thẳng, mà là một đường cong Nói cách khác, một mô hình phương trình bậc hai thích hợp hơn Có thể viết mô hình lại như sau:

> quadratic <- lm(y ~ poly(x,2))

Trang 39

Residual standard error: 4.42 on 16 degrees of freedom

Multiple R-squared: 0.9085, Adjusted R-squared: 0.8971

F-statistic: 79.43 on 2 and 16 DF, p-value: 4.912e-09

Khi đó ta được mô hình mới:

Y=34.184 +33.302X – 45.396X2

Phương sai bây giờ là s2 = 4.422 = 19.5, so với mô hình hồi quy tuyến tính rõ ràng mô hình này tốt hơn rất nhiều Tuy nhiên, có thể có các mô hình khác tốt hơn nữa nhưng ở đây ta chỉ xét đến mô hình bậc 2

2.2 ƯỚC LƯỢNG BÌNH PHƯƠNG NHỎ NHẤT KHI CÓ SỰ TỰ TƯƠNG QUAN

Giả sử tất cả các giả định đối với mô hình hồi quy tuyến tính cổ điển đều thỏa mãn trừ giả định không tương quan giữa các sai số ngẫu nhiên Ut Trong trường hợp này điều gì sẽ xảy ra đối với các ước lượng OLS và phương sai của chúng

Xét mô hình với số liệu chuỗi thời gian:

Yt = β1 + β2Xt + Ut (2.6)

Ta giả thuyết: Sai số ngẫu nhiên Ut được tạo ra như sau:

Ut = ρUt-1 + et (-1 < ρ < 1) (2.7) Trong đó:

ρ: hệ số tự tương quan

et: sai số ngẫu nhiên, thỏa mãn những giả định của mô hình hồi quy tuyến tính

cổ điển (et còn được gọi là sai số trắng)

E(et) = 0 (với mọi t) ; Var(et) = σε2; Cov(et, et+s) = 0

Phương trình (2.7) được gọi là phương trình tự hồi quy bậc nhất Markov, ký hiệu phương trình này là: AR(1)

Nếu

Ut = ρ1Ut-1 + ρ2Ut-2 + et (2.8) Thì ta có phương trình tự hồi quy bậc hai: AR(2)

Trang 40

Chú ý rằng hệ số ρ trong phương trình (2.7) có thể giải thích là hệ số tự tương quan bậc nhất hay đúng hơn là sự tương quan trễ một thời kỳ Bây giờ hàm ước lượng OLS của β2 là:

Var

x

σβ

=

=

∑ (2.11)

Ta thấy (2.10) bằng (2.11) cộng với một số hạng phụ thuộc vào ρ

Nếu ρ = 0, thì phương sai sai số của AR(1) bằng phương sai sai số của OLS Nếu sự tương quan giữa các ut và ut-1 rất nhỏ, thì phương sai sai số của AR(1) cũng bằng phương sai sai số của OLS

Vậy nếu ρ tương đối lớn, các ước lượng của β vẫn không chệch nhưng không hiệu quả nữa

Nếu tiếp tục dùng phương pháp OLS và điều chỉnh công thức phương sai thông thường bằng việc sử dụng phương trình AR(1) thì có thể chứng minh được rằng:

- β^2là ước lượng tuyến tính không chệch

- β^2không còn là ước lượng hiệu quả nữa, do đó nó không còn là ước lượng không chệch tốt nhất

Ví dụ 2.6: Dữ liệu về tốc độ tăng trưởng tiền tệ và tỉ lệ lạm phát ở Việt Nam trong giai đoạn 1991-2007

Ngày đăng: 08/04/2018, 11:39

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm