Chẳng hạn, một công ty địa ốc rất quan tâm đến việc liên hệ giữa giá bán một căn nhà với các đặc trưng của nó như kích thước, diện tích sử dụng, số phòng ngủ và phòng tắm, các loại thiết
Trang 1TRƯỜNG ĐẠI HỌC CẦN THƠ KHOA KHOA HỌC TỰ NHIÊN
BỘ MÔN TOÁN
-—²– -
LUẬN VĂN TỐT NGHIỆP ĐẠI HỌC
TỰ TƯƠNG QUAN TRONG PHÂN TÍCH HỒI QUY
CẦN THƠ THÁNG 5/ 2011
Giáo viên hướng dẫn
ThS DƯƠNG THỊ TUYỀN
(Bộ môn toán – Khoa KHTN)
Sinh viên thực hiện
NGUYỄN THỊ THẢO NGUYÊN LỚP: Toán ứng dụng K33
MSSV: 1076642
Trang 2LỜI MỞ ĐẦU
-—²– -
Hiện nay, khoa học công nghệ ngày càng tiên tiến nên cạnh tranh ngày một nhiều Do đó, khi làm một việc gì con người cần quan tâm đến rất nhiều yếu tố liên quan để tạo điều kiện tốt cho công việc của mình đạt được kết quả như ý muốn Chẳng hạn, một công ty địa ốc rất quan tâm đến việc liên hệ giữa giá bán một căn nhà với các đặc trưng của nó như kích thước, diện tích sử dụng, số phòng ngủ và phòng tắm, các loại thiết bị gia dụng, có hồ bơi hay không, cảnh quan có đẹp hay không?… Và mối liên hệ của tất cả các đặc trưng mà công ty này quan tâm đến sẽ được mô tả bởi một
mô hình hồi quy mà chúng tôi muốn nhắc đến ở đây Đó chính là mô hình hồi quy tuyến tính – một mô hình toán học đang được các nhà kinh tế quan tâm đến Đối với
mô hình trên, để biết được giá bán của một căn nhà, chúng ta cần phải đi phân tích hồi quy đối với tất cả các đặc trưng trên Muốn làm được điều này, cần phải có một quá trình ước lượng, phân tích và dự báo để xây dựng mô hình chính xác Ngày nay để tiết kiệm thời gian và công sức, khoa học công nghệ đã cho ra đời nhiều phần mềm thống
kê để giúp chúng ta giải quyết vấn đề này như SPSS, R, Eview, Stata, Mfit hay Excel cũng có thể tính được Tuy nhiên, khoa học công nghệ có hiện đại đến đâu, thì trong quá trình ước lượng mô hình không phải lúc nào cũng như chúng ta mong muốn, mô hình dự báo có thể không phù hợp do nhiều nguyên nhân như tồn tại hiện tượng phương sai sai số thay đổi, đa cộng tuyến hay tự tương quan… Chính những nguyên nhân này làm cho mô hình không còn phù hợp nữa Vì vậy, cần tìm hiểu nguyên nhân nào làm cho mô hình không phù hợp và từ đó đưa ra các biện pháp khắc phục kịp thời
Và ở đây đề tài mà chúng tôi sẽ trình bày là nghiên cứu một trong các nguyên nhân trên, đó là sự tự tương quan giữa các sai số ngẫu nhiên trong phân tích hồi quy Qua đề tài này, chúng tôi sẽ đi tìm hiểu nguyên nhân của sự tự tương quan là gì? Nếu có hiện tượng tự tương quan thì có áp dụng được phương pháp bình phương nhỏ nhất hay không? Làm thế nào để biết được có sự tự tương quan xảy ra đối với mô hình hồi qui đang xét? Cách khắc phục hiện tượng này như thế nào? Chúng tôi cần phải nghiên cứu và làm rõ các vấn đề trên
Trang 3* Nội dung đề tài gồm có 3 chương:
- Chương 1: Phân tích mô hình hồi quy tuyến tính
- Chương 2: Tự tương quan
- Chương 3: Bài toán thực tế
Trong quá trình hoàn thành đề tài, chúng tôi đã cố gắng nhưng không tránh khỏi thiếu sót Do đó, kính mong quý thầy cô thông cảm và góp ý thêm để đề tài được hoàn chỉnh
Chúng tôi xin chân thành cám ơn!
Trang 4Và trong suốt quãng thời gian đi học, người mà em biết ơn nhiều nhất đó chính là
ba mẹ em, người mà ngày đêm vất vả lo cho em ăn học bao năm qua và đạt được kết quả như ngày hôm nay Con xin gửi đến cha mẹ lời cảm ơn chân thành và sâu sắc nhất Cuối cùng, tôi cũng xin cảm ơn tất cả các anh chị cũng như các bạn lớp Toán Ứng Dụng khóa 33 đã luôn sát cánh để động viên và giúp tôi vượt qua rất nhiều khó khăn
Em xin chân thành cám ơn !
Trang 5Chương 1 PHÂN TÍCH MÔ HÌNH HỒI QUY TUYẾN TÍNH
1.1 BẢN CHẤT CỦA PHÂN TÍCH HỒI QUY
1.1.1 Khái niệm
Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích) với ý tưởng cơ bản là ước lượng (hay dự đoán) giá trị trung bình của biến phụ thuộc trên cơ sở các giá trị đã biết của biến độc lập
Ta có thể xét một số ví dụ sau đây:
Ví dụ 1.1: Để nghiên cứu về chiều cao và cân nặng của các em học sinh trong một
trường, chúng ta lấy mẫu ngẫu nhiên gồm n học sinh và thu thập các số liệu về chiều cao và cân nặng của n học sinh Gọi X là biến ngẫu nhiên để đo độ tuổi của học sinh
và Y là biến ngẫu nhiên chỉ chiều cao của học sinh Với n học sinh ta có n cặp giá trị (Xi,Yi)
X x1 x2 x3 xi xn Y(inches) y1 y2 y3 yi yn
Hình 1.1: Biểu đồ thể hiện giữa chiều cao và tuổi của học sinh
Ví dụ 1.2: Để cố gắng giúp công chúng bảo toàn năng lượng ta muốn phân tích các nhân tố xác định chi phí sưởi ấm trong gia đình Trong thành phố có mùa mùa đông
Trang 6dài và lạnh Để xác định được chi phí sưởi ấm của gia đình người ta quan tâm đến các nhân tố như: kích thước căn nhà, số người trong mỗi gia đình và số cửa sổ …
Ví dụ 1.3: Giám đốc tiếp thị của một công ty có thể muốn biết mức cầu đối với sản phẩm của công ty có quan hệ như thế nào với chi phí quảng cáo Một nghiên cứu như thế sẽ rất có ích cho việc xác định độ co dãn của cầu đối với chi phí quảng cáo Tức là
tỷ lệ phần trăm thay đổi về mức cầu khi ngân sách quảng cáo thay đổi 1% Kiến thức này rất có ích cho việc xác định ngân sách quảng cáo tối ưu
Chúng ta có thể đưa ra vô số ví dụ như trên về sự phụ thuộc của một biến vào một hay nhiều biến khác Các kỹ thuật phân tích hồi quy thảo luận trong chương này nhằm nghiên cứ sự phụ thuộc như thế giữa các biến số
Ta ký hiệu: Y - biến phụ thuộc (hay biến được giải thích)
X i - biến độc lập (hay biến giải thích) thứ i
Trong đó, biến phụ thuộc Y là đại lượng ngẫu nhiên, có quy luật phân phối xác
suất Các biến độc lập Xi không phải là ngẫu nhiên, giá trị của chúng đã được biết trước
1.1.2 Phân tích hồi quy nhằm giải quyết các vấn đề sau:
Ø Ước lượng giá trị trung bình của biến phụ thuộc với giá trị đã cho của biến độc lập
Ø Kiểm định giả thiết về bản chất của sự phụ thuộc
Ø Dự đoán giá trị trung bình của biến phụ thuộc khi biết giá trị của các biến độc lập
Ø Kết hợp các vấn đề trên
Tóm lại, trong phân tích mô hình hồi quy chúng ta hiểu được các bản chất trên là
đã hiểu được một phần nội dung của phân tích hồi quy là như thế nào Đến đây, chúng tôi sẽ đi tìm hiểu các mô hình cơ bản của phân tích hồi quy
1.2 MÔ HÌNH HỒI QUY TUYẾN TÍNH
Ta xét mô hình hồi quy tuyến tính đơn và mô hình hồi quy tuyến tính bội
1.2.1 Mô hình hồi quy tuyến tính đơn
a) Hàm hồi quy tổng thể (PRF)
Trang 7Mục tiêu của phân tích hồi quy là mô hình hóa mối liên hệ bằng một mô hình toán học nhằm thể hiện một cách tốt nhất mối liên hệ giữa X và Y Mô hình này được gọi là hàm hồi quy tổng thể (PRF)
b) Hàm hồi quy mẫu (SRF)
Để mô hình hóa mối liên hệ giữa X và Y tức là phải tìm được giá trị của tham số hồi quy và ta chỉ thực hiện được điều này thông qua các quan sát mẫu Do đó, mô hình hồi quy tuyến tính mẫu được sử dụng để ước lượng mô hình hồi quy tổng thể.Tuy nhiên để ước lượng mô hình hồi quy mẫu ta áp dụng phương pháp bình phương nhỏ nhất để ước lượng các tham số
Trước khi ước lượng các số liệu phải thỏa mãn các giả thuyết của phương pháp bình phương nhỏ nhất:
Giả thiết 1: Biến giải thích là phi ngẫu nhiên, tức là các giá trị của chúng là các con số đã được xác định Giả thiết này là đương nhiên, vì phân tích hồi quy được đề
cập là phân tích hồi quy có điều kiện, phụ thuộc vào các giá trị X đã cho
Giả thiết 2: Kỳ vọng của các yếu tố ngẫu nhiên Ui bằng 0, tức là: E( U X ) = 0i i Giả thiết này có nghĩa là các yếu tố không có trong mô hình và giá trịUi đại diện cho chúng, không có ảnh hưởng hệ thống đến giá trị trung bình của Y Cho nên có thể nói, các giá trị Ui dương triệt tiêu với các giá trị Ui âm sao cho trung bình của chúng ảnh hưởng lên Y bằng 0
Trang 8Chú ý :Giả thiết E ( U X ) = 0i i kéo theo E Y X( i i)= + β 0 β X 1 i
Giả thiết 3: Các Ui có phương sai bằng nhau (phương sai thuần nhất)
độ chênh lệch như nhau
Giả thiết 4: Không có sự tương quan giữa cácUi: Cov (U ,U ) = 0 ( ii j ∀ ≠ j)
Giả thiết này có nghĩa là Ui là ngẫu nhiên Sai số ở quan sát này không ảnh hưởng tới sai số ở quan sát khác
Giả thiết 5: Ui và Xi không tương quan với nhau: Cov (U , X ) = 0i i
Giả thiết 5 là cần thiết vì nếu U và X có tương quan với nhau thì ta không thể tách ảnh hưởng riêng biệt của chúng đến Y, trong khi đó Ui lại đại diện cho các yếu tố không có mặt trong mô hình Giả thiết 5 sẽ thỏa mãn nếu X là phi ngẫu nhiên
Sau khi thõa mãn các giả thuyết trên thì ta có thể ước lượng được một mô hình hồi quy hoàn hảo
Khi đó ta có mô hình hồi quy mẫu (SRF) như sau :
Trang 9Khi tính được β βˆ1, ˆ2ta dễ dàng viết được mô hình hồi quy mẫu
* Các tính chất của các ước lượng bình phương nhỏ nhất:
– β βˆ1, ˆ2 được xác định một cách duy nhất ứng với n cặp quan sát (Xi, Yi)
– β βˆ1, ˆ2 là các ước lượng điểm của β β1, 2 và là các đại lượng ngẫu nhiên, với các mẫu khác nhau chúng có giá trị khác nhau
c) Hệ số xác định R 2
R2 là hệ số nhằm xác định mức độ quan hệ giữa X và Y có quan hệ hay không, hoặc bao nhiêu phần trăm sự biến thiên của Y có thể giải thích bởi sự phụ thuộc tuyến tính của Y vào X hay nói cách khác hệ số xác định R2 dùng để đánh giá mức độ phù hợp của mô hình hồi quy
Ta có công thức tính như sau:
2 ESS R
2 2
^
2 2
ˆ ES
RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát của biến
Y và các giá trị nhận được từ phương trình hồi quy mẫu
2 2
Trang 10– R2=0: Chứng tỏ X và Y không có quan hệ, tức là mô hình không phù hợp với mẫu nghiên cứu
* Các tính chất của hệ số tương quan:
– R có thể âm hoặc dương, dấu của R phụ thuộc vào dấu của Cov(X, Y), hay dấu của hệ số góc
– R lấy giá trị trong khoảng -1 đến 1: (0 | ≤ R| 1 ≤ )
– R có tính chất đối xứng: RXY = RYX
– R độc lập với gốc tọa độ và các tỉ lệ; nghĩa là nếu ta định nghĩa Xi* = aXi + b và
Yi* = cYi + d, trong đó a > 0, c > 0 và b, d là các hằng số thì R XY =R X Y* *
– Nếu X, Y độc lập theo quan điểm thống kê thì hệ số tương quan giữa chúng bằng
0 Nhưng điều ngược lại thì không đúng
– R chỉ là đại lượng đo sự kết hợp tuyến tính hay phụ thuộc tuyến tính
Ví dụ 1.4: Bảng cho số liệu về tỉ lệ thay đổi tiền lương(Y) và tỉ lệ thất nghiệp (X) của vương quốc Anh trong giai đoạn 1950-1966 Dựa vào bảng số liệu này hãy tính hệ số tương quan ứng với bảng số liệu sau:
Bảng 1.1: Bảng số liệu về tỉ lệ thay đổi tiền lương (Y) và tỉ lệ thất nghiệp (X) của
vương quốc Anh giai đoạn 1950-1966
Trang 11Tổng -5.488 1.441 65.098
Khi đó ta tính được:
Trang 12t t t
n n
t t
t t
X Y R
e) Kiểm định sự phù hợp của hàm hồi quy
Chúng ta kiểm định giả thuyết:
( 2) 1
R n F
Nếu F >Fα(1,n− 2) thì bác bỏ giả thuyết Ho
Ngược lại, F<Fα(1,n−2) thì chấp nhận giả thuyết Ho
Trong các phần mềm thống kê khi viết phương trình hồi quy đều tính được giá trị kiểm định F
Ví dụ 1.5: Một cuộc thí nghiệm được tiến hành với 28 chiếc xe, các xe tham gia được cho chạy trên đường cao tốc với các mức độ khác nhau, biến thiên trong khoảng 10 dặm/giờ đến 75 dặm/giờ Dữ liệu về tốc độ và lượng xăng xe tiêu thụ được ghi lại trong bảng sau:
Bảng 1.2: Bảng số liệu về tốc độ và lượng xăng tiêu thụ của 28 chiếc xe
STT Mức tiêu hao xăng (Y) Tốc độ (X)
Trang 142 2 1
20458.5 28* 42.5 * 20.146
61950 28* (42.5) ( )
t t t n t t
1.2.2 Mô hình hồi quy tuyến tính bội (mô hình hồi quy tuyến tính đa biến)
Mô hình hồi quy tuyến tính đơn đã trình bày ở trên là khá hữu dụng cho rất nhiều trường hợp khác nhau Mặc dù vậy, nó trở nên không còn phù hợp nữa khi có nhiều hơn một yếu tố tác động đến biến cần giải thích Chẳng hạn, khi nghiên cứu nhu cầu
về một loại hàng hóa nào đó (Y), thì nhu cầu này phụ thuộc vào nhiều yếu tố như thu nhập của người tiêu dùng, giá bán của bản thân hàng hóa, và giá cả của các loại hàng hóa cạnh tranh Và mô hình hồi quy tuyến tính đa biến cho phép chúng ta nghiên cứu những trường hợp như vậy
Trong phần này chúng ta sẽ mở rộng mô hình hồi quy đa biến (hay còn gọi là mô hình hồi quy bội) trong đó không chỉ một mà nhiều biến giải thích có thể được sử dụng
để dự đoán giá trị của biến phụ thuộc
Trang 151 2
n
Y Y Y Y
k
ββββ
n
U U U U
ˆ
ˆ ˆ
ˆ
k
ββββ
n
e e e e
Trang 16d) Kiểm định sự phù hợp của hàm hồi quy
Kiểm định giả thuyết :
Ho : β2=β3= =βk = 0
H1: Không phải tất cả các hệ số hồi quy riêng đồng thời bằng 0
Để kiểm định giả thuyết trên, ta áp dụng quy tắc kiểm định như sau :
• Tính F theo công thức :
Trang 172 2
( ) (1 )( 1)
R n k F
Bảng 1.3: Bảng đánh giá kết quả làm việc của nhân viên
Trang 18-0.354 -0.072 0.420 -0.299 -1.934 -0.192 -0.299 0.684
Trang 19
1
2 1
3 1
4 1
1371 12011.8 12149.3 12561.4
n t t n
t t t
t t t n
t t t
-0.354 -0.072 0.420 -0.299 12149.3 0.801 -1.934 -0.192 -0.299 0.684 12561.4 4.588
1.3 XÂY DỰNG MÔ HÌNH HỒI QUY BỞI CÁC PHẦN MỀM THỐNG KÊ
Để xây dựng một mô hình hồi quy nếu ta áp dụng các công thức như trên sẽ rất mất thời gian Tuy nhiên, để thuận tiện chúng ta có thể sử dụng các phần mềm như: Excel, SPSS, R, Mfit, hay Eview… Ở đây tôi sẽ trình bày phân tích mô hình hồi quy tuyến tính dựa trên Excel, SPSS, R và Eview
1.3.1 Ứng dụng trên Excel
Để thực hiện trên Excel ta thực hiện các bước sau:
• Bước 1: Nhập số liệu
Nhập số liệu theo cột, mỗi cột một biến
• Bước 2: Chọn Tool / Data Analysis / Regression
• Bước 3: Đưa các đối số cần tính vào các vùng xử lí
Trong đó:
- Input Y Range: Chọn vùng xử lí của biến phụ thuộc
- Input X Range: Chọn vùng xử lí của biến độc lập, nếu nhiều biến thì chọn nhiều cột
Ø Labels: Vùng xử lí có tên biến hay không
Ø Constant is Zero: Đây là trường hợp hồi qui với anpha bằng 0
Ø Confidence Level: Độ tin cậy
Trang 20Ví dụ 1.7: Để dễ dàng so sánh ta sử dụng lại bảng số liệu về tốc độ và lượng xăng xe tiêu thụ ở ví dụ 1.5
Ta thực hiện trên Excel như sau:
Bước 1: Nhập số liệu
Bước 2: Chọn Tool / Data Analysis / Regression
Trang 21Bước 3: Đưa các đối số cần tính vào các vùng xử lí
Ta được kết quả như sau:
Upper 95%
Intercept 33.282 1.133 29.37 1.8E-21 30.952 35.612
Trang 22Dựa vào bảng kết quả ta thấy R2 = 0.864 nên mô hình mà ta đang xét khá phù hợp
và ta có mô hình hồi quy như sau: Y = 33.282 - 0.309Xˆ
1.3.2 Ứng dụng trên SPSS
Ta cũng có các bước thực hiện như sau:
• Bước 1: Khai báo biến và nhập số liệu
• Bước 2: Vào menu lệnh Analyze/ Regression/ Linear
• Bước 3: Chọn các biến cần tính đưa vào
+ Đưa biến phụ thuộc vào khung Dependent
+ Đưa biến độc lập vào khung Independent(s), nếu có nhiều biến độc lập cần phân tích thì ta đưa vào khung này
• Bước 4: Đọc kết quả thu được
Ví dụ 1.8: Ta sử dụng lại bảng đánh giá kết quả làm việc của nhân viên để viết phương trình hồi quy
Trang 23Khi đó hiện bảng Linear Regression
Ta thu được kết quả như sau:
Model Summary
Adjusted R Square Std Error of the Estimate
Trang 24Coefficients(a)
Model
Unstandardized Coefficients
Standardized Coefficients T Sig
tich tinh huong
a Dependent Variable: Diem danh gia ket qua lam viec
Nhìn vào kết quả xử lí ta thấy mô hình mà ta đang xét là khá phù hợp vì R2 = 0.650
> 0 có nghĩa là 65% kết quả làm việc của nhân viên ở công ty này có thể được giải thích từ mối liên hệ tuyến tính giữa điểm đánh giá kết quả làm việc với điểm phân tích tình huống, điểm khả năng trình bày viết và điểm khả năng trình bày miệng
Khi đó ta có mô hình hồi quy như sau:
^
1 2 3
Y = 27.661 + 1.679X +0.801X +4.588X
1.3.3 Ứng dụng trên R
Đối với phần mềm R khi nhập số liệu hay phân tích một mô hình chúng ta chỉ cần
sử dụng một số hàm có sẵn Để dễ hiểu ta xét ví dụ sau đây:
Ví dụ 1.9 Tốc độ phát triển nền kinh tế (Y) phụ thuốc vào tốc độ phát triển của nông nghiệp (X1), tốc độ tăng trưởng của kim ngạch xuất khẩu (X2) và tỉ lệ lạm phát (X3) được thu thập ở 48 nước dưới đây:
Trang 25Bảng 1.4:Bảng số liệu về tốc độ phát triển kinh tế, nông nghiệp, xuất khẩu và
Xuất khẩu (X 2 )
Lạm phát (X 3 )
Trang 27Khi đó ta có mô hình hồi quy:
1.3.4 Ứng dụng trên Eview
* Các bước thực hiện:
• Bước 1: Mở cửa sổ Eview Chọn lệnh File/ Open/ Workfile
Khi cửa sổ Workfile xuất hiện thì định dạng tần suất cho số liệu
Có các lựa chọn tần suất cho từng dạng số liệu:
- Anualy (yyyy): Năm
- Semi Annual: Nửa năm
- Quarterly: Quý
- Monthly: Tháng
- Weekly: Tuần
- Daily [5 day]: Tuần 5 ngày
- Daily [7 day]: Tuần 7 ngày
- Undated or Irregular: Các quy tắc khác
Trang 28• Bước 2: Sau khi chọn tần suất cho bảng số liệu, tại cửa sổ Eview chọn Quick/ Emty Group Chọn ô đầu tiên bên phải ô obs, nhập tên biến và số liệu ứng với biến này Tiếp tục nhập các biến còn lại ở các cột tiếp theo
• Bước 3: Chọn lệnh Quick/ Estimate Equation để khai báo phương trình hồi quy tại cửa sổ Equation Specification
- Đối với phương trình hồi quy tuyến tính đơn
Sau khi khai báo xong ta chọn OK và đọc kết quả
Ví dụ 1.10 Ta sử dụng lại số liệu ở bảng 1.4: “Bảng số liệu về tốc độ phát triển kinh
tế, nông nghiệp, xuất khẩu và lạm phát của 48 nước” ở ví dụ 1.9
Ta thực hiện trên phần mềm Eview như sau:
Bước 1: Mở cửa sổ Eview Chọn lệnh File/ Open/ Workfile và chọn dạng tần suất cho số liệu
Bước 2: Nhập tên biến và nhập số liệu
Trang 29Bước 3: Khai báo dạng phương trình hồi quy
Khi đó ta có bảng kết quả như sau:
Trang 30Vậy ta có phương trình hồi quy như sau:
ˆ
Y = 2.498 + 0.346X +0.101X - 0.1098X
Trang 31Chương 2 TỰ TƯƠNG QUAN
Một trong các giả định của mô hình hồi quy tuyến tính cổ điển là không có sự tương quan giữa các sai số ngẫu nhiên ui, nhưng trong thực tế có xảy ra hiện tượng tự tương quan hay không? Nguyên nhân của sự tự tương quan là gì? Nếu có hiện tượng
tự tương quan thì có áp dụng được phương pháp bình phương nhỏ nhất hay không? Làm thế nào để biết được có sự tự tương quan xảy ra đối với mô hình hồi qui đang xét? Cách khắc phục hiện tượng này như thế nào? Đó là câu hỏi mà chúng tôi sẽ lần lượt giải đáp trong chương này
2.1 BẢN CHẤT VÀ NGUYÊN NHÂN CỦA HIỆN TƯỢNG TỰ TƯƠNG QUAN 2.1.1 Tự tương quan là gì?
Tự tương quan được hiểu là sự tương quan giữa các thành phần của chuỗi các quan sát được sắp xếp theo thứ tự thời gian hoặc không gian
Trong mô hình hồi quy tuyến tính cổ điển, ta có giả thuyết rằng không có sự tương quan giữa các sai số ngẫu nhiên Ui, tức là:
Cov(Ui, Uj) = 0 (với i ≠ j) (2.1) Nói một cách khác, mô hình hồi quy tuyến tính với giả thuyết rằng: sai số ứng với quan sát nào đó không bị ảnh hưởng bởi sai số ứng với một quan sát khác
Tuy nhiên trong thực tế có thể xảy ra hiện tượng mà các sai số của các quan sát lại phụ thuộc nhau, nghĩa là:
Trang 32Hình 2.1:Đồ thị biểu diễn giữa sai số ui (hay e i ) theo thời gian t
* Nhận xét: Từ hình 2.1 (a) tới hình 2.1 (d) cho thấy rằng có một dạng của sai số
ui Hình 2.1 cho thấy dạng chu kỳ; hình 2.1 (b) và hình 2.1 (c) cho thấy có xu hướng đi lên hay đi xuống của các sai số; hình 2.1 (d) cho thấy sai số có hai dạng: xu hướng tuyến tính và bình phương Chỉ có hình 2.1 (e) là cho thấy dạng không có hệ thống, thích hợp cho giả định không có sự tương quan trong mô hình hồi quy tuyến tính cổ
điển
2.1.2 Nguyên nhân của sự tự tương quan
a) Nguyên nhân khách quan
u i
(e)
Trang 33Ví dụ 2.2: Tổng sản phẩm,GDP, chỉ số giá, nạn thất nghiệp… Chẳng hạn giai đoạn đầu của thời kỳ khôi phục kinh tế, tổng sản phẩm có xu hướng đi lên hoặc đi xuống
Do đó giá trị của chuỗi ở thời điểm sau thường lớn hơn hoặc nhỏ hơn thời điểm đầu,
và khi ta đưa các biến vào mô hình hồi qui, các quan sát có khả năng phụ thuộc vào nhau
ii) Hiện tượng mạng nhện
Người ta thấy rằng việc cung nhiều mặt hàng nông sản biểu hiện hiện tượng mang nhện, trong đó lượng cung phản ứng lại với giá có trễ một khoảng thời gian, vì các quyết định cung cần phải mất một khoảng thời gian để thực hiện
Chẳng hạn vào đầu mùa lạc năm nay, người nông dân bị ảnh hưởng bởi giá lạc năm ngoái của các công ty xuất khẩu Cho nên cung về lạc có biểu hiện dưới dạng hàm:
Trong phân tích chuỗi thời gian, chúng ta có thể gặp hiện tượng biến phụ thuộc ở
thời kỳ t phụ thuộc vào chính biến đó ở thời kỳ t-1 và các biến khác
Ví dụ 2.3: Khi nghiên cứu mối quan hệ giữa tiêu dùng và thu nhập, chúng ta thấy rằng tiêu dùng ở thời kỳ hiện tại không những phụ thuộc vào thu nhập mà còn phụ thuộc vào tiêu dùng ở thời kỳ trước đó Để thấy rõ được mối quan hệ này ta xét bảng số liệu sau:
Bảng 2.1: Thu nhập (X) và tiêu dùng (Y) tại một
địa phương từ năm 1977-2007
1977 1494.9 873.8 1988 2208.4 1298.9 1998 2826.7 1803.9
1978 1528.7 899.8 1989 2271.3 1337.7 1999 2958.7 1883.7
Trang 34a Predictors: (Constant), Y(t-1), ThuNhapX
b Dependent Variable: TDUNGY
Coefficients(a)
Model
Unstandardized Coefficients
Standardized Coefficients T Sig
Std
Trang 35ThuNhapX 676 015 985 44.184 000
a Dependent Variable: TDUNGY
Nhìn vào kết quả xử lý ta có được mô hình như sau:
Yt = - 160.984 + 0.676X + 0.013Yt-1
* Từ kết quả trên ta có nhận xét: Khi thu nhập X tăng 67.6% và tiêu dùng ở thời
điểm t-1 tăng 1.3% thì tiêu dùng ở thời điểm thực tế giảm 160.984%
b) Nguyên nhân chủ quan
i) Xử lí số liệu
Trong phân tích thực nghiệm, số liệu thô thường được xử lí Chẳng hạn trong hồi quy chuỗi thời gian gắn với các số liệu quý, các số liệu này thường được suy ra từ số liệu tháng bằng cách cộng 3 quan sát rồi chia cho 3 Việc lấy trung bình này làm tròn các số liệu và làm giảm sự giao động trong số liệu tháng Chính sự làm trơn này có thể dẫn đến sai số có hệ thống trong các sai số ngẫu nhiên và gây ra sự tự tương quan Một cách xử lí khác cũng gây ra sự tự tương quan chính là phép nội suy và ngoại suy số liệu Cụ thể là cuộc tổng điều tra dân số tiến hành 10 năm 1 lần, lần cuối cùng vào năm 2007, nếu cần số liệu cho một năm nằm trong khoảng thời gian giữa hai cuộc điều tra, cách phổ biến là dùng phương pháp nội suy Cách xử lí này có thể gây ra sai
số hệ thống mà điều đó không thấy trong số liệu gốc
ii) Sai lệch do lập mô hình
Đây là nguyên nhân thuộc về việc lập mô hình Có 2 loại sai lầm có thể gây ra hiện tượng tự tương quan
* Sai lầm 1: Bỏ sót biến thích hợp hay đưa vào mô hình những biến không phù hợp
Ví dụ 2.4: Xét mô hình sau:
Yt = β + β1X1t+β2X2t+β3 X3t+ Ut (2.4) Trong đó:
Y là nhu cầu về thịt bò
X là giá thịt bò
Trang 36X2 là thu nhập của người tiêu dùng
X3 là giá thịt heo
T là thời gian
Ut là sai số ngẫu nhiên
Nhưng vì lý do gì đó chúng ta đưa ra mô hình chỉ có hai biến độc lập là X1 và X2:
Yt = β + β2X1t+β3X2t + Vt (2.5) Vậy nếu mô hình (2.4) là mô hình đúng thì khi ta tiến hành hồi quy (2.5) cũng tương đương cho vt = β3 X3t+ ut Nhưng vì việc tăng giá thịt heo có ảnh hưởng đến nhu cầu thịt bò nên thành phần sai số ngẫu nhiên vt sẽ có sai số hệ thống và tạo nên sự tự tương quan
* Sai lầm 2: Dạng hàm sai có thể gây ra tự tương quan
Ví dụ 2.5: Thí nghiệm sau đây tìm mối liên hệ về giữa hàm hàm lượng gỗ cứng (X) và
độ căng của vật liệu (Y) Mười chín vật liệu khác nhau vời hàm lượng gỗ cứng được thử nghiệm để đo độ căng mạnh của vật liệu, và kết quả được tóm lược trong bảng số liệu sau đây:
Trang 37Residual standard error: 11.82 on 17 degrees of freedom
Multiple R-squared: 0.3054, Adjusted R-squared: 0.2645
F-statistic: 7.474 on 1 and 17 DF, p-value: 0.01414
Qua xử lí trên phần mềm R ta được mô hình hồi quy:
Y = 21.3213 + 1.771X
Phương sai bây giờ là s2 = 11.822 = 139.7
Ta tiến hành vẽ đồ thị xem mô hình này có dạng gì và xem đồ thị có phù hợp với
mô hình trên hay không
> plot(y ~ x,xlab="Ham luong go cung",ylab="Do cang manh",main="Mối liên hệ giữa hàm lượng gỗ cứng và độ căng mạnh của vật liệu",pch=16)
Trang 38Mối liên hệ giữa hàm luợng gỗ cứng và dộ cang mạnh của vật liệu
Ham luong go cung
> abline(simple.model)
Hình 2.2: Đồ thị phân tán thể hiện mối liên hệ giữa hàm lượng gỗ cứng
và độ căng mạnh của vật liệu
Qua biểu đồ này chúng ta thấy mô hình hồi quy tuyến tính không phù hợp cho số liệu, bởi vì mối liên hệ giữa hai biến này không tuân theo một phương trình đường thẳng, mà là một đường cong Nói cách khác, một mô hình phương trình bậc hai thích hợp hơn Có thể viết mô hình lại như sau:
> quadratic <- lm(y ~ poly(x,2))
Trang 39Residual standard error: 4.42 on 16 degrees of freedom
Multiple R-squared: 0.9085, Adjusted R-squared: 0.8971
F-statistic: 79.43 on 2 and 16 DF, p-value: 4.912e-09
Khi đó ta được mô hình mới:
Y=34.184 +33.302X – 45.396X2
Phương sai bây giờ là s2 = 4.422 = 19.5, so với mô hình hồi quy tuyến tính rõ ràng mô hình này tốt hơn rất nhiều Tuy nhiên, có thể có các mô hình khác tốt hơn nữa nhưng ở đây ta chỉ xét đến mô hình bậc 2
2.2 ƯỚC LƯỢNG BÌNH PHƯƠNG NHỎ NHẤT KHI CÓ SỰ TỰ TƯƠNG QUAN
Giả sử tất cả các giả định đối với mô hình hồi quy tuyến tính cổ điển đều thỏa mãn trừ giả định không tương quan giữa các sai số ngẫu nhiên Ut Trong trường hợp này điều gì sẽ xảy ra đối với các ước lượng OLS và phương sai của chúng
Xét mô hình với số liệu chuỗi thời gian:
Yt = β1 + β2Xt + Ut (2.6)
Ta giả thuyết: Sai số ngẫu nhiên Ut được tạo ra như sau:
Ut = ρUt-1 + et (-1 < ρ < 1) (2.7) Trong đó:
ρ: hệ số tự tương quan
et: sai số ngẫu nhiên, thỏa mãn những giả định của mô hình hồi quy tuyến tính
cổ điển (et còn được gọi là sai số trắng)
E(et) = 0 (với mọi t) ; Var(et) = σε2; Cov(et, et+s) = 0
Phương trình (2.7) được gọi là phương trình tự hồi quy bậc nhất Markov, ký hiệu phương trình này là: AR(1)
Nếu
Ut = ρ1Ut-1 + ρ2Ut-2 + et (2.8) Thì ta có phương trình tự hồi quy bậc hai: AR(2)
Trang 40Chú ý rằng hệ số ρ trong phương trình (2.7) có thể giải thích là hệ số tự tương quan bậc nhất hay đúng hơn là sự tương quan trễ một thời kỳ Bây giờ hàm ước lượng OLS của β2 là:
Var
x
σβ
=
=
∑ (2.11)
Ta thấy (2.10) bằng (2.11) cộng với một số hạng phụ thuộc vào ρ
Nếu ρ = 0, thì phương sai sai số của AR(1) bằng phương sai sai số của OLS Nếu sự tương quan giữa các ut và ut-1 rất nhỏ, thì phương sai sai số của AR(1) cũng bằng phương sai sai số của OLS
Vậy nếu ρ tương đối lớn, các ước lượng của β vẫn không chệch nhưng không hiệu quả nữa
Nếu tiếp tục dùng phương pháp OLS và điều chỉnh công thức phương sai thông thường bằng việc sử dụng phương trình AR(1) thì có thể chứng minh được rằng:
- β^2là ước lượng tuyến tính không chệch
- β^2không còn là ước lượng hiệu quả nữa, do đó nó không còn là ước lượng không chệch tốt nhất
Ví dụ 2.6: Dữ liệu về tốc độ tăng trưởng tiền tệ và tỉ lệ lạm phát ở Việt Nam trong giai đoạn 1991-2007