Mô hình hồi quy tuyến tính đơn có dạng trong đó độc lập với X và tất cả các phân bố xác suất có điều kiện của là cácbiến ngẫu nhiên độc lập.. Kiểm định các hệ số của mô hình: Mô hình hồi
Trang 1Em xin chân thành cảm ơn thầy!
Trang 2PHẦN I: CƠ SỞ LÝ THUYẾT
CHƯƠNG 1: MÔ HÌNH HỒI QUY TUYẾN TÍNH
1. Mô hình hồi quy tuyến tính đơn:
Xét vectơ ngẫu nhiên Mô hình hồi quy tuyến tính đơn có dạng
trong đó độc lập với X và tất cả các phân bố xác suất có điều kiện của là cácbiến ngẫu nhiên độc lập
Đường thẳng được gọi là đường hồi quy
Gọi là các điểm thỏa mãn mô hình hồi quy Khi đó là biến ngẫu nhiên
có phân bố chuẩn với hàm mật độ xác suất
Ta gọi các hàm ước lượng của và lần lượt là
trong đó
2. Mô hình hồi quy bội:
Mô hình hồi quy tuyến tính k biến
trong đó độc lập với tất cả các biến ngẫu nhiên và tất cả các phân bố xácsuất có điều kiện của là các biến ngẫu nhiên độc lập
Gọi với à mẫu số liệu của ,
Trang 3Hàm đạt giá trị nhỏ nhất tại
Gọi với là các điểm thỏa mãn mô hình hồi quy bội Khi đó với điềukiện biến ngẫu nhiên có phân bố chuẩn Hàm ước lượng của β là
3. Tính chất của ước lượng:
Gọi là vectơ hàm ước lượng các hệ số của mô hình hồi quy bội Đặt
(1) là ước lượng không chệch, tức là (2)
là ước lượng không chệch của
4. Kiểm định phù hợp của mô hình:
Nếu tất cả các hệ số của mô hình hồi quy bội với mọi thì mô hình đókhông phù hợp Như vậy dẫn đến bài toán kiểm định sau:
Gọi với là các điểm thỏa mãn mô hình hồi quy bội Kí hiệu
; ; Trong đó Khi đó ta có
5. Kiểm định các hệ số của mô hình:
Mô hình hồi quy tuyến tính k biến
Nếu đúng (thì
có phân bố student n−k−1 bậc tự do Trong đó
Trang 4CHƯƠNG 2: MÔ HÌNH CHUỖI THỜI GIAN
1. Chuỗi thời gian:
Là dãy biến ngẫu nhiên phụ thuộc theo thời gian
a. Các hàm đặc trưng chuỗi thời gian:
2. Chuỗi thời gian dừng:
Chuỗi thời gian được gọi là quá trình dừng nếu thỏa mãn 2 điềukiện:
(i) hàm trung bình là một hằng số (không phụ thuộc vào t);
(ii) (ii) với mỗi s và t, hàm hiệp phương sai ) chỉ phụ thuộc vào độ
dài Nếu là quá trình dừng thì
Do đó ta có thể định nghĩa hàm hiệp phương sai và hàm tự tươngquan của quá trình dừng như sau
Cho là quá trình dừng
Hàm hiệp phương sai:
Hàm tự tương quan:
3. Quá trình trung bình trượt:
a. Chuỗi thời gian được gọi là quá trình trung bình trượt cấp nếu cóbiểu diễn
b. Chuỗi thời gian được gọi là quá trình trung bình trượt cấp vô hạnnếu có biểu diễn
Nếu là quá trình trung bình trượt cấp q thì
(i) ; (ii)
Trang 5(iii) Chú ý rằng
Cho là nhiễu trắng với tham số và là dãy số thỏa mãn:
Khi đó chuỗi thời gian:
là một quá trình và
Hàm hiệp phương sai của là
(i)
3.1 Quá trình tự hồi quy:
Chuỗi thời gian được gọi là quá trình tự hồi quy cấp , kí hiệu là, nếuthỏa mãn phương trình
trong đó là các hằng số , là nhiễu trắng với tham số và không tươngquan với với mọi
Cho là quá trình tự hồi quy Nếu là quá trình dừng thì hàm hiệpphương sai là nghiệm của hệ phương trình Yule-Walker
và
3.2 Quá trình trung bình trượt tự hồi quy:
Chuỗi thời gian được gọi là quá trình trung bình trượt tự hồi quy cấp ,
kí hiệu là , nếu nó thõa mãn:
trong đó là nhiễu trắng với tham số và không tương quan với với mọiCho chuỗi thời gian thỏa mãn :
Trang 6trong đó là nhiễu trắng với tham số và không tương quan với với mọiKhi đó là quá trình dừng khi và chỉ khi đa thức kết hợp
không có nghiệm trên đường tròn đơn vị
Quá trình
có biểu diễn trung bình trượt 1 phía
khi và chỉ khi đa thức kết hợp
không có nghiệm trên hình tròn đơn vị
4. Hàm tự tương quan riêng:
Hàm tự tương quan của quá trình trung bình trượt MA(q) hàm tự tươngquan khi Do đó hàm tự tương quan của MA(q) cung cấp cho chúng ta thôngtin về cấp phụ thuộc của chuỗi Tuy nhiên với quá trình ARMA hay quá trình
AR, hàm tự tương quan k cung cấp cho chúng ta rất ít thông tin về cấp độ phụthuộc Do đó ta cần đưa ra một hàm mới tương tự hàm tự tương quan của quátrình MA(q) nhưng cho quá trình AR(p), hàm đó được gọi là hàm tự tươngquan riêng (PACF)
Cho chuỗi thời gian dừng có kì vọng bằng 0 Với kí hiệu là ước lượnghồi quy tuyến tính tốt nhất của đối với dãy theo nghĩa đạt giá trị nhỏ nhất
Ta có thể viết dạng
,
Kí hiệu là ước lượng hồi quy tuyến tính tốt nhất của đối với dãy Do
là chuỗi dừng nên ta có:
Trang 7Hàm tự tương quan riêng (PACF) của chuỗi dừng ( được xác đinh bởi
(1) = Cor ( = ρ(1)
và (h) = Cor (, h >1.
Chú ý rằng và không tương quan với {}
4.1 Bài toán dự báo
Nếu xét quá trình dừng (), không mất tính tổng quát ta luôn giả thiết E( ) = 0 Nội dung của bài toán dự báo là: giả sử chúng ta quan sát được giá
trị của quá trình tại thời điểm 1,2, ,n là Trên cơ sở đó ta muốn dự báo một cách “tốt nhất” giá trị của quá trình tại thời điểm n+h trong tương lai.
Dự báo tuyến tính căn cứ trên là tổ hợp tuyến tính
Dự báo S được gọi là tốt nhất nếu sai số bình phương trung bình
là nhỏ nhất
Chuỗi quá trình dừng Dự báo tuyến tính tốt nhất của căn cứ trên là
Chuỗi quá trình dừng Dự báo tuyến tính tốt nhất của căn cứ trên là
Trong đó thoả mãn hệ phương trình sau:
5. Ước lượng tham số:
5.1 Ước lượng tham số AR(p):
Trong quá trình tự hồi quy cấp p ( ký hiệu tắt AR(p)), các số liệu của chuỗi thời gian sẽ liên hệ nhau theo biểu thức
Trang 8Trong đó là các hệ số của phương trình còn là ồn trắng WN(0, ) Ta gọi
chuỗi số liệu là tự hồi quy vì giá trị hiện tại của nó được tính truy hồi qua cácgiá trị đứng trước nó Cuối cùng, ồn trắng (còn gọi là sai số) biểu thị các yếu
tố ngẫu nhiên tham gia vào mà không thể giải thích được bằng mô hình
Các giá trị là các hệ số bằng số mô tả mối quan hệ giữa các giá trị thực tại
với các giá trị trước nó Số p được gọi là cấp tự hồi qui của mô hình Nó chỉ
số các giá trị quá khứ của chuỗi cần phải lấy để tính truy hồi
Giá trị chính xác của p được sử dụng sẽ là số làm cho sai ssos dự báo của mô
hình là nhỏ nhất và làm cho các số dư có phân phối ngẫu nhiên Thường thìchúng ta nhận dạng giá trị p như là cấp của quá trình AR(p) bằng cách phântích hê số tự tương quan riêng của chuỗi thời gian Các hệ số tự tương quanriêng α(k) = được tính từ phương trình
Trang 9Vậy quá trình AR(p) là một quá trình tuyến tính
5.2 Ước lượng tham số MA(q):
Quá trình được gọi là trung bình trượt (MA) nếu nó có dạng
là khác 0 thực sự, còn những số sau đó sẽ xấp xỉ 0 Giá trị phân cách này chính là cấp của mô hình MA.
Trang 10PHẦN II: NỘI DỤNG THỰC NGHIỆM
CHƯƠNG 1: MÔ HÌNH HỒI QUY TUYẾN TÍNH
Từ nguồn dữ liệu trong Google, ta lọc được những mẫu số liệu như sau:
Trang 11Đưa dữ liệu vào eview:
ở đây,
Y : Chi tiêu công cho giáo dục, tổng số (% trên GDP);
X1 : Giáo dục tiểu học, số giáo viên;
X2 : Giáo dục tiểu học, số học sinh;
X3 : Giáo dục trung học, số giáo viên;
X4 : Giáo dục trung học, số học sinh
2/ Ước lượng:
Vào Quick -> Estimate Equation -> Xuất hiện cửa sổ Equation Estination
Kiểm định mô hình phù hợp:
Trang 12R-squared 0.947895 Mean dependent var 3459178.
Adjusted R-squared 0.930526 S.D dependent var 301283.1
S.E of regression 79411.92 Akaike info criterion 25.66389
Sum squared resid 3.78E+10 Schwarz criterion 25.72963
Log likelihood -112.4875 Hannan-Quinn criter 25.52202
F-statistic 54.57554 Durbin-Watson stat 2.023192
R-squared 0.933328 Mean dependent var 3459178.
Adjusted R-squared 0.923804 S.D dependent var 301283.1
S.E of regression 83165.12 Akaike info criterion 25.68817
Sum squared resid 4.84E+10 Schwarz criterion 25.73200
Log likelihood -113.5968 Hannan-Quinn criter 25.59359
Durbin-Watson stat 2.683692
Trang 13Qua kiểm định mô hình phù hợp ta thấy.
Trang 14Hiện thị bảng dự báo:
Kết quả:
Trang 15Với X2 = 2989700; X3 = 584535; X4 = 7528300
Dự báo khoảng số liệu năm 2011 với độ tin cậy là 2970366 ± 94864,72 *1,96
Trang 16CHƯƠNG 2: MÔ HÌNH C HUỖI THỜI GIAN
Trang 17Xuất hiện biểu đồ:
Trang 18Kiểm định giả thuyết:
Vào view -> Unit Root Test -> Chọn level -> OK
Null Hypothesis: GMC has a unit root
Exogenous: Constant
Lag Length: 0 (Automatic - based on SIC, maxlag=12)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -0.632959 0.8573
Test critical values: 1% level -3.497727
5% level -2.890926 10% level -2.582514
p- giá trị = 0,8573 > 0,05 nên chấp nhận
Tiến hành kiểm định quá trình dừng của sai phân bậc 1 và sai phân bậc 2
Vào View -> Unit Root Test -> Chọn 1st diference -> OK
Vào View -> Unit Root Test -> Chọn 2nd diference -> OK
Null Hypothesis: D(GMC,2) has a unit root
Exogenous: Constant
Lag Length: 1 (Automatic - based on SIC, maxlag=12)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -12.41322 0.0001
Test critical values: 1% level -3.499910
5% level -2.891871 10% level -2.583017
Ta có sai phân bậc 1 và sai phân bậc 2 đều là quá trình dừng
Kiểm định đồ thị hàm tự tương quan và hàm tự tương quan riêng của sai phân bậc 1 và sai phân bậc 2
Null Hypothesis: D(GMC) has a unit root
Exogenous: Constant
Lag Length: 0 (Automatic - based on SIC, maxlag=12)
t-Statistic Prob.*
Augmented Dickey-Fuller test statistic -10.86546 0.0000
Test critical values: 1% level -3.498439
5% level -2.891234 10% level -2.582678
Trang 19Sai phân bậc 1:
Sai phân bậc 2:
Sai phân bậc 1 là một nhiễu trắng nên không thuộc mô hình ARMA
Sai phân bậc 2 thuộc mô hình ARMA có thể là 1 trong các mô hình ARMA(1,0),ARMA(1,1), ARMA(2,0), ARMA(2,1), ARMA(3,0), ARMA(3,1)
Trang 20Included observations: 97 after adjustments
Convergence achieved after 3 iterations
Variable Coefficient Std Error t-Statistic Prob
AR(1) -0.565205 0.084236 -6.709805 0.0000
R-squared 0.319252 Mean dependent var -0.005155
Adjusted R-squared 0.319252 S.D dependent var 4.840678
S.E of regression 3.993920 Akaike info criterion 5.617679
Sum squared resid 1531.334 Schwarz criterion 5.644223
Log likelihood -271.4575 Hannan-Quinn criter 5.628412
Included observations: 96 after adjustments
Convergence achieved after 3 iterations
Variable Coefficient Std Error t-Statistic Prob
AR(1) -0.768733 0.096195 -7.991424 0.0000
AR(2) -0.355938 0.096470 -3.689618 0.0004
R-squared 0.408040 Mean dependent var 0.002083
Adjusted R-squared 0.401742 S.D dependent var 4.865561
S.E of regression 3.763370 Akaike info criterion 5.509120
Sum squared resid 1331.318 Schwarz criterion 5.562544
Log likelihood -262.4378 Hannan-Quinn criter 5.530715
Included observations: 95 after adjustments
Convergence achieved after 3 iterations
Trang 21Variable Coefficient Std Error t-Statistic Prob
AR(1) -0.869948 0.097381 -8.933489 0.0000
AR(2) -0.560806 0.117777 -4.761612 0.0000
AR(3) -0.235982 0.097435 -2.421931 0.0174
R-squared 0.468656 Mean dependent var 0.086316
Adjusted R-squared 0.457105 S.D dependent var 4.820493
S.E of regression 3.551808 Akaike info criterion 5.403860
Sum squared resid 1160.611 Schwarz criterion 5.484509
Log likelihood -253.6833 Hannan-Quinn criter 5.436448
Durbin-Watson stat 1.837834
Inverted AR Roots -.14-.61i -.14+.61i -.59
Qua kiểm tra chỉ có mô hình ARMA(3,0) là phù hợp
Như vậy nếu kí hiệu Y(t) là sai phân bậc 2 của giá mở cửa X(t) ta có
Y(t) = -0,86Y(t-1) – 0,56Y(t-2) - 0,23Y(t-3) + W(t)
3/ Dự báo:
Vào Proc -> Structure/Resize Curent Page thêm 1 ngày 101
Xuất hiện:
Trang 22Vào Forecast -> gõ vào ô S.E.(optional) :se -> ô Forecast sample gõ giá trị cần
dự báo -> OK
Biểu đồ dự báo:
Trang 23Hiện thị bảng dự báo:
Trang 24Như vậy giá mở cửa thực tế của ngày tiếp theo là: 74,5.
Dự báo khoảng giá mở cửa ngày tiếp theo với độ tin cậy là 74,96 ± 3,57*1,96
Trang 25MỤC LỤC
LỜI CẢM ƠN