Slide Bài giảng Dữ liệu Chuỗi thời gian Time Series Data trên R, R Studio

Kết quả câu lệnh và giải thích chi tiết kết quả phân tích dữ liệu chuỗi thời gian trên R Studio, Thống kê mô tả, Phân tích tương quan, kiểm định tính dừng, mô hình OLS, VAR, VECM, ARDL. Kiểm định đa cộng tuyến, tự tương quan, phương sai thay đổi. Xác định độ trễ tối ưu, kiểm định đồng liên kết. Thống kê mô tả, Phân tích tương quan, kiểm định tính dừng, mô hình OLS, VAR, VECM, ARDL. Kiểm định đa cộng tuyến, tự tương quan, phương sai thay đổi. Xác định độ trễ tối ưu, kiểm định đồng liên kết. Thống kê mô tả, Phân tích tương quan, kiểm định tính dừng, mô hình OLS, VAR, VECM, ARDL. Kiểm định đa cộng tuyến, tự tương quan, phương sai thay đổi. Xác định độ trễ tối ưu, kiểm định đồng liên kết.

Trang 1

PHÂN TÍCH DỮ LIỆU KHOA HỌC (R/R STUDIO Cơ bản đến Nâng cao)

Trình bày: NKH NGÔ ĐỨC CHIẾN

PHÂN TÍCH DỮ LIỆU VỚI R/R STUDIO

(Dữ liệu Chuỗi thời gian “Time Series”)

Trang 2

R/R STUDIO “Time Series”:

1 Nên coi bài trước khi tham gia mỗi buổi học

2 Phải dành thời gian thực hành lại sau mỗi buỗi học

3 Đã có kiến thức cơ bản về R/R STUDIO & Các chỉ tiêu cơ bản trong kinh tế lượng

4 Cần thiết phải in tài liệu Slide này ra để tiện theo dõi các câu lệnh mỗi buổi học

Các lưu ý khi tham gia Khóa học

Trang 3

DỮ LIỆU CHUỖI THỜI GIAN “TIME SERIES”

(Quy trình Phân tích trên R/R STUDIO)

Trang 5

MÔ HÌNH OLS & Kiểm định mô hình OLS (Đa cộng tuyến, P/Sai thay đổi, Tự tương quan )

Xác định Độ trễ tối ưu

& Kiểm định Tính đồng liên kết

3.1 MÔ HÌNH VAR

(Khi không có đồng liên kết)

& Kiểm định mô hình VAR (Tự tương quan, P/Sai thay đổi, Tính ổn định, Hàm phản ứng xung IRF)

3.2 MÔ HÌNH VAR – GARCH

(Khi Mô hình VAR xấu)

Trang 6

Mô hình hồi quy tuyến tính OLS

Kiểm định sau mô hình OLS

(Đa cộng tuyến, Tự tương quan)

Khắc phục Sự tự tương quan bằng Mô hình sai phân bậc 1

Kiểm định P/Sai thay đổi đối với

Mô hình sai phân bậc 1

Khắc phục P/Sai thay đổi đối với

Kết luận & Đánh giá

Trang 7

Ví dụ minh họa các câu lệnh:

Trang 8

Bước 1: Nhập liệu & Khai báo dữ liệu

Trang 9

Kiểm tra các biến ở dạng Number

Trang 10

Khai báo dữ liệu Chuỗi thời gian

Trang 11

Bước 2: Thống kê các biến

Thống kê mô tả dữ liệu

Trang 12

Bước 3: Phân tích tương quan các biến

9 Trình bày: NKH NGÔ ĐỨC CHIẾN

Phân tích tương quan Pearson, hay còn gọi là hệ số tương quan Pearson, là một phương pháp thống kê dùng để đo lường mức độ quan hệ tuyến tính giữa hai biến số định lượng Hệ số tương quan Pearson được

ký hiệu bằng r và có giá trị nằm trong khoảng từ -1 đến 1.

** Mức ý nghĩa Sig.:

- Sig < 1%: Có ý nghĩa thống kê rất chặt chẽ.

- Sig < 5%: Có ý nghĩa thống kê.

- Sig > 5%: Không có ý nghĩa thống kê.

Thường các nhà nghiên cứu chọn mức ý nghĩa 5%

** Điều kiện áp dụng:

- Hai biến số phải là biến số định lượng.

- Quan hệ giữa hai biến số phải là quan hệ tuyến tính.

- Phân phối của hai biến số nên là phân phối chuẩn (hoặc ít nhất là không quá lệch).

Trang 13

- r = 1: Hai biến số có mối quan hệ tuyến tính dương hoàn hảo

- r = -1: Hai biến số có mối quan hệ tuyến tính âm hoàn hảo

- r = 0: Không có mối quan hệ tuyến tính giữa hai biến số

** Ý nghĩa của hệ số tương quan Pearson r:

- Từ +/- 0,01 đến +/-0,1: Mối tương quan quá thấp, không đáng kể

- Từ +/- 0,2 đến +/-0,3: Mối tương quan thấp

- Từ +/- 0,4 đến +/-0,5: Mối tương quan trung bình

- Từ +/- 0,6 đến +/-0,7: Mối tương quan cao

- Từ +/- 0,8 trở lên: Mối tương quan rất cao

Ví dụ: r = 0,525 thể hiện mối tương quan dương/tích cực ở mức độ trung bình

Trang 14

PHÂN TÍCH TƯƠNG QUAN CÁC BIẾN Lệnh dưới đây vẽ được đồ thị tương quan các biến

 result$r # Ma trận hệ số tương quan Pearson

 result$P # Ma trận giá trị P-Value (giá trị Sig ý nghĩa thống kê)

Trang 15

Lệnh dưới đây vẽ được đồ thị hệ số tương quan các biến

Trang 16

Lệnh dưới đây tính được hệ số tương quan Pearson

Trang 17

Sử dụng gói Hmisc để vừa tính hệ số tương quan vừa có kiểm định p-value:

 install.packages("Hmisc")

 library(Hmisc)

 result<-rcorr(as.matrix(ABCDEFG),type="pearson")

Trang 18

Sử dụng gói Hmisc để vừa tính hệ số tương quan vừa có kiểm định p-value:

 install.packages("Hmisc")

 library(Hmisc)

 result<-rcorr(as.matrix(ABCDEFG),type="pearson")

Trang 19

Bước 4: Kiểm định Tính dừng ADF

Trang 20

Bước 4: Kiểm định Tính dừng ADF

Trang 21

Trường hợp 1: Có ít nhất 1 biến không dừng bậc gốc I(0)

Trang 22

MÔ HÌNH OLS & Kiểm định mô hình OLS (Đa cộng tuyến, P/Sai thay đổi, Tự tương quan )

Xác định Độ trễ tối ưu

& Kiểm định Tính đồng liên kết

3.1 MÔ HÌNH VAR

(Khi không có đồng liên kết)

& Kiểm định mô hình VAR (Tự tương quan, P/Sai thay đổi, Tính ổn định, Hàm phản ứng xung IRF)

3.2 MÔ HÌNH VAR – GARCH

(Khi Mô hình VAR xấu)

Trang 23

TH1: Mô hình hồi quy OLS

Trang 24

Kiểm định sau mô hình hồi quy tuyến tính OLS

 vif(model_ols) # Kiểm định Đa cộng tuyến thông qua hệ số VIF

 dwtest(model_ols) # Kiểm định Tự tương quan (Durbin-Watson Test)

 bptest(model_ols) # Kiểm định Phương sai thay đổi (Breusch-Pagan Test)

 shapiro.test(residuals(model_ols)) # Kiểm định phần dư có phân phối chuẩn (Tham khảo)

 adf.test(residuals(model_ols)) # Kiểm định Tính dừng của chuỗi phần dư (Tham khảo)

 par(mfrow=c(2,2)) & plot(model_ols) # Vẽ đồ thị phần dư để trực quan hóa (Tham khảo)

Trang 25

Đa cộng tuyến là hiện tượng trong mô hình hồi quy khi các biến độc lập có mối tương quan cao với nhau Điều này gây khó khăn trong việc ước lượng chính xác ảnh hưởng riêng

của từng biến lên biến phụ thuộc, làm sai số chuẩn tăng và kết quả hồi quy thiếu tin cậy.

 vif(pool_model) # Kiểm định Đa cộng tuyến thông qua hệ số VIF

Dữ liệu Likert: Hệ số VIF > 2 thường xảy ra đa cộng tuyến

Dữ liệu thứ cấp (Ratio Scale): Hệ số VIF > 10 thường xảy ra đa cộng tuyến

Trang 26

Tự tương quan (autocorrelation) là hiện tượng khi các sai số (residuals) trong mô hình hồi quy có tương quan với nhau, tức là sai số ở thời điểm này bị ảnh hưởng bởi sai

số ở thời điểm trước đó.

Thường xảy ra trong dữ liệu chuỗi thời gian → vi phạm giả định độc lập của sai số trong POOL OLS → làm cho kết quả hồi quy mất hiệu lực kiểm định.

Trang 27

 dwtest(model_ols) # Kiểm định Tự tương quan (Durbin-Watson Test)

Giả thuyết H0: Mô hình không có tự tương quan (Tốt) (Chấp nhận khi P-Value/Sig > 5%) Giả thuyết H1: Mô hình có tự tương quan (Xấu) (Chấp nhận khi P-Value/Sig < 5%)

Trang 28

Kiểm định sau mô hình hồi quy tuyến tính OLS Phương sai thay đổi (heteroskedasticity) là hiện tượng trong mô hình hồi quy khi phương sai của sai số không đồng nhất giữa các quan sát.

Hay nói cách khác, Các sai số (residuals) không phân tán đều quanh đường hồi quy →

gây vi phạm giả định của mô hình POOL OLS, làm cho ước lượng vẫn đúng trung

bình nhưng không hiệu quả (sai số chuẩn sai → kiểm định không chính xác).

Trang 29

 bptest(model_ols) # Kiểm định Phương sai thay đổi (Breusch-Pagan Test)

Giả thuyết H0: Mô hình không có phương sai thay đổi/phương sai đồng nhất (Tốt) (Sig > 5%)Giả thuyết H1: Mô hình có phương sai thay đổi/phương sai không đồng nhất (Xấu) (Sig < 5%)

Trang 30

 shapiro.test(residuals(model_ols)) # Kiểm định phần dư có phân phối chuẩn (Tham khảo)

Giả thuyết H0: Mô hình có phần dư phân phối chuẩn (Tốt) (Sig > 5%)Giả thuyết H1: Mô hình có phần dư không phân phối chuẩn (Xấu) (Sig < 5%)

Trang 31

 adf.test(residuals(model_ols)) # Kiểm định Tính dừng của chuỗi phần dư (Tham khảo)

Giả thuyết H0: Mô hình có Phần dư có đơn vị gốc (không dừng) (Sig > 5%)Giả thuyết H1: Mô hình có Phần dư là dừng (stationary) (Sig < 5%)

Trang 32

 par(mfrow=c(2,2)) & plot(model_ols) # Vẽ đồ thị phần dư để trực quan hóa (Tham khảo)

Trang 33

TH1: Xác định Độ trễ tối ưu

Độ trễ (lag) là khái niệm dùng để chỉ sự chậm trễ về thời gian giữa nguyên nhân và kết quả

trong một quá trình Trong mô hình chuỗi thời gian, độ trễ thể hiện ảnh hưởng của giá trị trong

quá khứ của biến (hoặc của biến khác) đến giá trị hiện tại của biến đang được phân tích.

Nếu một biến tại thời điểm ttt bị ảnh hưởng bởi giá trị của chính nó (hoặc biến khác) ở thời điểm

t−1, thì ta nói biến đó có độ trễ là 1 (lag 1).

Độ trễ tối ưu là số kỳ trễ (lag) được lựa chọn phù hợp nhất trong mô hình chuỗi thời gian

nhằm đảm bảo mô hình:

 Phản ánh đúng mối quan hệ động học giữa các biến,

Giữ lại đầy đủ thông tin cần thiết từ quá khứ,

 Tránh làm mô hình trở nên phức tạp không cần thiết

Độ trễ tối ưu là số lượng thời kỳ lùi về quá khứ mà mô hình cần sử dụng để dự báo hoặc giải

thích biến phụ thuộc một cách hiệu quả nhất Đăng ký học trực tuyến 0905.39.2489

Trang 36

TH1: Kiểm định Tính đồng liên kết

Kiểm định Tính đồng liên kết

Các giả thuyết đưa ra:

Giả thuyết không (H₀): Có r quan hệ đồng liên kết (cointegration vectors) giữa các biến trong hệ

H₀: Không có quan hệ đồng liên kết nào giữa các biến (Khi giá trị test thấp hơn).

H₁: Có ít nhất một quan hệ đồng liên kết (Khi giá trị test cao hơn).

Tại dòng r ≤ 1:

H₀: Có nhiều nhất 1 quan hệ đồng liên kết (Khi giá trị test thấp hơn).

H₁: Có ít nhất 2 quan hệ đồng liên kết (Khi giá trị test cao hơn).

Trang 38

TH1: Mô hình VECM

Mô hình VAR (Vector Autoregression – Mô hình tự hồi quy vector) là một mô hình chuỗi thời

gian đa biến, được sử dụng để mô hình hóa mối quan hệ động học giữa nhiều biến kinh tế có tác

động qua lại lẫn nhau theo thời gian Mô hình VAR cho phép nhiều biến vừa là biến phụ thuộc vừa là biến giải thích cho nhau, theo các độ trễ.

Trang 41

TH1: Kiểm định sau Mô hình VAR

Trang 42

Trang 43

Trang 44

Trang 45

Trang 46

Trang 47

Trang 48

Trang 49

Trang 50

TH1: Mô hình VAR – GARCH

Ω: omega (omega) Hằng số (Intercept)

Đại diện cho phương sai nền (long-run variance)

Nó thể hiện mức độ biến động cố định dù không

Trang 51

β: beta lớn Phương sai có tính ghi nhớ cao/lịch sử ảnh hưởng mạnh mẽ đến hiện tại – nghĩa

là nếu trước đó biến động cao thì bây giờ vẫn có xu hướng cao

α + β ≈ 1

Biến động bền vững lâu dài, hay còn gọi là volatility clustering (đặc trưng trongtài chính: khi thị trường biến động cao, nó sẽ tiếp tục biến động cao một thờigian)

Trang 52

# Gọi lệnh thực hiện Mô hình VAR – GARCH

Trang 53

# Lặp lại cấu hình cho từng chuỗi (6 biến)

Trang 54

Trang 55

Trang 56

TH1: Mô hình VECM

Mô hình VECM (Vector Error Correction Model – Mô hình hiệu chỉnh sai số) là một mô hình

chuỗi thời gian dùng để mô hình hóa cả mối quan hệ ngắn hạn và dài hạn giữa các biến) Mô hình VECM là phiên bản đặc biệt của mô hình VAR được điều chỉnh để phản ánh mối quan hệ dài hạn giữa các biến thông qua thành phần sai số hiệu chỉnh (error correction term - ECT).

Trang 59

TH1: Mô hình ARDL

Mô hình ARDL (viết tắt của Autoregressive Distributed Lag) là một mô hình hồi quy động được

sử dụng trong phân tích chuỗi thời gian nhằm ước lượng mối quan hệ giữa một biến phụ thuộc

với chính nó trong quá khứ (autoregressive) và với các biến giải thích có độ trễ (distributed lag).

Trang 60

ARDL

Trang 63

Trường hợp 2: Tất cả các biến đều dừng bậc gốc I(0)

Trang 64

Kiểm định sau mô hình OLS

(Đa cộng tuyến, Tự tương quan)

Khắc phục Sự tự tương quan bằng Mô hình sai phân bậc 1

Kiểm định P/Sai thay đổi đối với

Khắc phục P/Sai thay đổi đối với

Kết luận & Đánh giá

Trang 65

# Thống kê & Phân tích Tương quan Pearson (như trên)

# Mô hình hồi quy tuyến tính OLS

Trang 66

# Kiểm định sau mô hình hồi quy tuyến tính OLS

# Kiểm định Đa cộng tuyến

Trang 67

# Kiểm định Tự tương quan (Durbin-Watson)

Trang 68

TH2: Mô hình sai phân bậc 1

# Mô hình sai phân bậc 1 để khắc phục Tự tương quan mô hình OLS

Trang 69

TH2: Kiểm định Mô hình sai phân bậc 1

# Kiểm định Phương sai thay đổi (Breusch-Pagan) mô hình sai phân bậc 1

Trang 70

Như vậy với dữ liệu này, độ trễ tối đa là 200^(1/3) = 5,85 ~ 6,00

Trang 71

TH2: Mô hình Robust

# Mô hình Robust khắc phục Phương sai thay đổi mô hình sai phân bậc 1

 VARselect(d.abcdef,lag.max=6,type="const") # Xác định Độ trễ tối ưu

Trang 72

TH2: Mô hình Robust

# Mô hình Robust khắc phục Phương sai thay đổi mô hình sai phân bậc 1

 coeftest(model_ols1,vcov=NeweyWest(model_ols1,lag=4,prewhite=FALSE)) # Mô hình Robust

Trang 73

Chuyên gia Phân tích dữ liệu định lượng

Dịch vụ Phân tích và Đào tạo

SPSS, AMOS, STATA, SMARTPLS, R

Hình thức Online hoặc Offline

Trang 74

“Chúng tôi rất tự hào được đồng hành cùng các bạn trong việc tìm hiểu và chia

sẻ các kiến thức Phân tích định lượng Đó sẽ luôn luôn là nguồn cảm hứng cho

sự hoàn thiện bản thân của chúng tôi!”

Trang 75

Mr Corn’s Official

Tư vấn nội dung:

Trung tâm Đào tạo Phân tích SPSS AMOS STATA SMARTPLS R

Thiết kế & Trình bày ý tưởng:

Trung tâm Đào tạo Phân tích SPSS AMOS STATA SMARTPLS R

Trang 76

THANK YOU!!!

(1) Dịch vụ Phân tích và Đào tạo trực tuyến SPSS AMOS STATA SMARTPLS R (2) Hotline liên hệ: 0905.39.2489

(3) Theo dõi tại: https://www.youtube.com/@spssamosstata

Tiêu đề	Dữ liệu Chuỗi thời gian Time Series Data trên R, R Studio
Tác giả	Ngô Đức Chiến
Trường học	Trường Đại học Khoa Học Tự Nhiên, Đại học Quốc Gia Hà Nội
Chuyên ngành	Khoa Học Máy Tính, Thống Kê, Kinh Tế
Thể loại	Hướng dẫn
Thành phố	Hà Nội

Định dạng
Số trang	76
Dung lượng	4,44 MB