1. Trang chủ
  2. » Khoa Học Tự Nhiên

BÀI BÁO CÁO MÔN XỬ LÝ SỐ LIỆU THỐNG KÊ

25 302 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 464,71 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mô hình hồi quy tuyến tính đơn có dạng trong đó độc lập với X và tất cả các phân bố xác suất có điều kiện của là cácbiến ngẫu nhiên độc lập.. Kiểm định các hệ số của mô hình: Mô hình hồi

Trang 1

Em xin chân thành cảm ơn thầy!

Trang 2

PHẦN I: CƠ SỞ LÝ THUYẾT

CHƯƠNG 1: MÔ HÌNH HỒI QUY TUYẾN TÍNH

1. Mô hình hồi quy tuyến tính đơn:

Xét vectơ ngẫu nhiên Mô hình hồi quy tuyến tính đơn có dạng

trong đó độc lập với X và tất cả các phân bố xác suất có điều kiện của là cácbiến ngẫu nhiên độc lập

Đường thẳng được gọi là đường hồi quy

Gọi là các điểm thỏa mãn mô hình hồi quy Khi đó là biến ngẫu nhiên

có phân bố chuẩn với hàm mật độ xác suất

Ta gọi các hàm ước lượng của và lần lượt là

trong đó

2. Mô hình hồi quy bội:

Mô hình hồi quy tuyến tính k biến

trong đó độc lập với tất cả các biến ngẫu nhiên và tất cả các phân bố xácsuất có điều kiện của là các biến ngẫu nhiên độc lập

Gọi với à mẫu số liệu của ,

Trang 3

Hàm đạt giá trị nhỏ nhất tại

Gọi với là các điểm thỏa mãn mô hình hồi quy bội Khi đó với điềukiện biến ngẫu nhiên có phân bố chuẩn Hàm ước lượng của β là

3. Tính chất của ước lượng:

Gọi là vectơ hàm ước lượng các hệ số của mô hình hồi quy bội Đặt

(1) là ước lượng không chệch, tức là (2)

là ước lượng không chệch của

4. Kiểm định phù hợp của mô hình:

Nếu tất cả các hệ số của mô hình hồi quy bội với mọi thì mô hình đókhông phù hợp Như vậy dẫn đến bài toán kiểm định sau:

Gọi với là các điểm thỏa mãn mô hình hồi quy bội Kí hiệu

; ; Trong đó Khi đó ta có

5. Kiểm định các hệ số của mô hình:

Mô hình hồi quy tuyến tính k biến

Nếu đúng (thì

có phân bố student n−k−1 bậc tự do Trong đó

Trang 4

CHƯƠNG 2: MÔ HÌNH CHUỖI THỜI GIAN

1. Chuỗi thời gian:

Là dãy biến ngẫu nhiên phụ thuộc theo thời gian

a. Các hàm đặc trưng chuỗi thời gian:

2. Chuỗi thời gian dừng:

Chuỗi thời gian được gọi là quá trình dừng nếu thỏa mãn 2 điềukiện:

(i) hàm trung bình là một hằng số (không phụ thuộc vào t);

(ii) (ii) với mỗi s và t, hàm hiệp phương sai ) chỉ phụ thuộc vào độ

dài Nếu là quá trình dừng thì

Do đó ta có thể định nghĩa hàm hiệp phương sai và hàm tự tươngquan của quá trình dừng như sau

Cho là quá trình dừng

Hàm hiệp phương sai:

Hàm tự tương quan:

3. Quá trình trung bình trượt:

a. Chuỗi thời gian được gọi là quá trình trung bình trượt cấp nếu cóbiểu diễn

b. Chuỗi thời gian được gọi là quá trình trung bình trượt cấp vô hạnnếu có biểu diễn

Nếu là quá trình trung bình trượt cấp q thì

(i) ; (ii)

Trang 5

(iii) Chú ý rằng

Cho là nhiễu trắng với tham số và là dãy số thỏa mãn:

Khi đó chuỗi thời gian:

là một quá trình và

Hàm hiệp phương sai của là

(i)

3.1 Quá trình tự hồi quy:

Chuỗi thời gian được gọi là quá trình tự hồi quy cấp , kí hiệu là, nếuthỏa mãn phương trình

trong đó là các hằng số , là nhiễu trắng với tham số và không tươngquan với với mọi

Cho là quá trình tự hồi quy Nếu là quá trình dừng thì hàm hiệpphương sai là nghiệm của hệ phương trình Yule-Walker

3.2 Quá trình trung bình trượt tự hồi quy:

Chuỗi thời gian được gọi là quá trình trung bình trượt tự hồi quy cấp ,

kí hiệu là , nếu nó thõa mãn:

trong đó là nhiễu trắng với tham số và không tương quan với với mọiCho chuỗi thời gian thỏa mãn :

Trang 6

trong đó là nhiễu trắng với tham số và không tương quan với với mọiKhi đó là quá trình dừng khi và chỉ khi đa thức kết hợp

không có nghiệm trên đường tròn đơn vị

Quá trình

có biểu diễn trung bình trượt 1 phía

khi và chỉ khi đa thức kết hợp

không có nghiệm trên hình tròn đơn vị

4. Hàm tự tương quan riêng:

Hàm tự tương quan của quá trình trung bình trượt MA(q) hàm tự tươngquan khi Do đó hàm tự tương quan của MA(q) cung cấp cho chúng ta thôngtin về cấp phụ thuộc của chuỗi Tuy nhiên với quá trình ARMA hay quá trình

AR, hàm tự tương quan k cung cấp cho chúng ta rất ít thông tin về cấp độ phụthuộc Do đó ta cần đưa ra một hàm mới tương tự hàm tự tương quan của quátrình MA(q) nhưng cho quá trình AR(p), hàm đó được gọi là hàm tự tươngquan riêng (PACF)

Cho chuỗi thời gian dừng có kì vọng bằng 0 Với kí hiệu là ước lượnghồi quy tuyến tính tốt nhất của đối với dãy theo nghĩa đạt giá trị nhỏ nhất

Ta có thể viết dạng

,

Kí hiệu là ước lượng hồi quy tuyến tính tốt nhất của đối với dãy Do

là chuỗi dừng nên ta có:

Trang 7

Hàm tự tương quan riêng (PACF) của chuỗi dừng ( được xác đinh bởi

(1) = Cor ( = ρ(1)

và (h) = Cor (, h >1.

Chú ý rằng và không tương quan với {}

4.1 Bài toán dự báo

Nếu xét quá trình dừng (), không mất tính tổng quát ta luôn giả thiết E( ) = 0 Nội dung của bài toán dự báo là: giả sử chúng ta quan sát được giá

trị của quá trình tại thời điểm 1,2, ,n là Trên cơ sở đó ta muốn dự báo một cách “tốt nhất” giá trị của quá trình tại thời điểm n+h trong tương lai.

Dự báo tuyến tính căn cứ trên là tổ hợp tuyến tính

Dự báo S được gọi là tốt nhất nếu sai số bình phương trung bình

là nhỏ nhất

Chuỗi quá trình dừng Dự báo tuyến tính tốt nhất của căn cứ trên là

Chuỗi quá trình dừng Dự báo tuyến tính tốt nhất của căn cứ trên là

Trong đó thoả mãn hệ phương trình sau:

5. Ước lượng tham số:

5.1 Ước lượng tham số AR(p):

Trong quá trình tự hồi quy cấp p ( ký hiệu tắt AR(p)), các số liệu của chuỗi thời gian sẽ liên hệ nhau theo biểu thức

Trang 8

Trong đó là các hệ số của phương trình còn là ồn trắng WN(0, ) Ta gọi

chuỗi số liệu là tự hồi quy vì giá trị hiện tại của nó được tính truy hồi qua cácgiá trị đứng trước nó Cuối cùng, ồn trắng (còn gọi là sai số) biểu thị các yếu

tố ngẫu nhiên tham gia vào mà không thể giải thích được bằng mô hình

Các giá trị là các hệ số bằng số mô tả mối quan hệ giữa các giá trị thực tại

với các giá trị trước nó Số p được gọi là cấp tự hồi qui của mô hình Nó chỉ

số các giá trị quá khứ của chuỗi cần phải lấy để tính truy hồi

Giá trị chính xác của p được sử dụng sẽ là số làm cho sai ssos dự báo của mô

hình là nhỏ nhất và làm cho các số dư có phân phối ngẫu nhiên Thường thìchúng ta nhận dạng giá trị p như là cấp của quá trình AR(p) bằng cách phântích hê số tự tương quan riêng của chuỗi thời gian Các hệ số tự tương quanriêng α(k) = được tính từ phương trình

Trang 9

Vậy quá trình AR(p) là một quá trình tuyến tính

5.2 Ước lượng tham số MA(q):

Quá trình được gọi là trung bình trượt (MA) nếu nó có dạng

là khác 0 thực sự, còn những số sau đó sẽ xấp xỉ 0 Giá trị phân cách này chính là cấp của mô hình MA.

Trang 10

PHẦN II: NỘI DỤNG THỰC NGHIỆM

CHƯƠNG 1: MÔ HÌNH HỒI QUY TUYẾN TÍNH

Từ nguồn dữ liệu trong Google, ta lọc được những mẫu số liệu như sau:

Trang 11

Đưa dữ liệu vào eview:

ở đây,

Y : Chi tiêu công cho giáo dục, tổng số (% trên GDP);

X1 : Giáo dục tiểu học, số giáo viên;

X2 : Giáo dục tiểu học, số học sinh;

X3 : Giáo dục trung học, số giáo viên;

X4 : Giáo dục trung học, số học sinh

2/ Ước lượng:

Vào Quick -> Estimate Equation -> Xuất hiện cửa sổ Equation Estination

Kiểm định mô hình phù hợp:

Trang 12

R-squared 0.947895 Mean dependent var 3459178.

Adjusted R-squared 0.930526 S.D dependent var 301283.1

S.E of regression 79411.92 Akaike info criterion 25.66389

Sum squared resid 3.78E+10 Schwarz criterion 25.72963

Log likelihood -112.4875 Hannan-Quinn criter 25.52202

F-statistic 54.57554 Durbin-Watson stat 2.023192

R-squared 0.933328 Mean dependent var 3459178.

Adjusted R-squared 0.923804 S.D dependent var 301283.1

S.E of regression 83165.12 Akaike info criterion 25.68817

Sum squared resid 4.84E+10 Schwarz criterion 25.73200

Log likelihood -113.5968 Hannan-Quinn criter 25.59359

Durbin-Watson stat 2.683692

Trang 13

Qua kiểm định mô hình phù hợp ta thấy.

Trang 14

Hiện thị bảng dự báo:

Kết quả:

Trang 15

Với X2 = 2989700; X3 = 584535; X4 = 7528300

Dự báo khoảng số liệu năm 2011 với độ tin cậy là 2970366 ± 94864,72 *1,96

Trang 16

CHƯƠNG 2: MÔ HÌNH C HUỖI THỜI GIAN

Trang 17

Xuất hiện biểu đồ:

Trang 18

Kiểm định giả thuyết:

Vào view -> Unit Root Test -> Chọn level -> OK

Null Hypothesis: GMC has a unit root

Exogenous: Constant

Lag Length: 0 (Automatic - based on SIC, maxlag=12)

t-Statistic Prob.*

Augmented Dickey-Fuller test statistic -0.632959 0.8573

Test critical values: 1% level -3.497727

5% level -2.890926 10% level -2.582514

p- giá trị = 0,8573 > 0,05 nên chấp nhận

Tiến hành kiểm định quá trình dừng của sai phân bậc 1 và sai phân bậc 2

Vào View -> Unit Root Test -> Chọn 1st diference -> OK

Vào View -> Unit Root Test -> Chọn 2nd diference -> OK

Null Hypothesis: D(GMC,2) has a unit root

Exogenous: Constant

Lag Length: 1 (Automatic - based on SIC, maxlag=12)

t-Statistic Prob.*

Augmented Dickey-Fuller test statistic -12.41322 0.0001

Test critical values: 1% level -3.499910

5% level -2.891871 10% level -2.583017

Ta có sai phân bậc 1 và sai phân bậc 2 đều là quá trình dừng

Kiểm định đồ thị hàm tự tương quan và hàm tự tương quan riêng của sai phân bậc 1 và sai phân bậc 2

Null Hypothesis: D(GMC) has a unit root

Exogenous: Constant

Lag Length: 0 (Automatic - based on SIC, maxlag=12)

t-Statistic Prob.*

Augmented Dickey-Fuller test statistic -10.86546 0.0000

Test critical values: 1% level -3.498439

5% level -2.891234 10% level -2.582678

Trang 19

Sai phân bậc 1:

Sai phân bậc 2:

Sai phân bậc 1 là một nhiễu trắng nên không thuộc mô hình ARMA

Sai phân bậc 2 thuộc mô hình ARMA có thể là 1 trong các mô hình ARMA(1,0),ARMA(1,1), ARMA(2,0), ARMA(2,1), ARMA(3,0), ARMA(3,1)

Trang 20

Included observations: 97 after adjustments

Convergence achieved after 3 iterations

Variable Coefficient Std Error t-Statistic Prob

AR(1) -0.565205 0.084236 -6.709805 0.0000

R-squared 0.319252 Mean dependent var -0.005155

Adjusted R-squared 0.319252 S.D dependent var 4.840678

S.E of regression 3.993920 Akaike info criterion 5.617679

Sum squared resid 1531.334 Schwarz criterion 5.644223

Log likelihood -271.4575 Hannan-Quinn criter 5.628412

Included observations: 96 after adjustments

Convergence achieved after 3 iterations

Variable Coefficient Std Error t-Statistic Prob

AR(1) -0.768733 0.096195 -7.991424 0.0000

AR(2) -0.355938 0.096470 -3.689618 0.0004

R-squared 0.408040 Mean dependent var 0.002083

Adjusted R-squared 0.401742 S.D dependent var 4.865561

S.E of regression 3.763370 Akaike info criterion 5.509120

Sum squared resid 1331.318 Schwarz criterion 5.562544

Log likelihood -262.4378 Hannan-Quinn criter 5.530715

Included observations: 95 after adjustments

Convergence achieved after 3 iterations

Trang 21

Variable Coefficient Std Error t-Statistic Prob

AR(1) -0.869948 0.097381 -8.933489 0.0000

AR(2) -0.560806 0.117777 -4.761612 0.0000

AR(3) -0.235982 0.097435 -2.421931 0.0174

R-squared 0.468656 Mean dependent var 0.086316

Adjusted R-squared 0.457105 S.D dependent var 4.820493

S.E of regression 3.551808 Akaike info criterion 5.403860

Sum squared resid 1160.611 Schwarz criterion 5.484509

Log likelihood -253.6833 Hannan-Quinn criter 5.436448

Durbin-Watson stat 1.837834

Inverted AR Roots -.14-.61i -.14+.61i -.59

Qua kiểm tra chỉ có mô hình ARMA(3,0) là phù hợp

Như vậy nếu kí hiệu Y(t) là sai phân bậc 2 của giá mở cửa X(t) ta có

Y(t) = -0,86Y(t-1) – 0,56Y(t-2) - 0,23Y(t-3) + W(t)

3/ Dự báo:

Vào Proc -> Structure/Resize Curent Page thêm 1 ngày 101

Xuất hiện:

Trang 22

Vào Forecast -> gõ vào ô S.E.(optional) :se -> ô Forecast sample gõ giá trị cần

dự báo -> OK

Biểu đồ dự báo:

Trang 23

Hiện thị bảng dự báo:

Trang 24

Như vậy giá mở cửa thực tế của ngày tiếp theo là: 74,5.

Dự báo khoảng giá mở cửa ngày tiếp theo với độ tin cậy là 74,96 ± 3,57*1,96

Trang 25

MỤC LỤC

LỜI CẢM ƠN

Ngày đăng: 03/01/2019, 21:14

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w