Kết quả câu lệnh và giải thích chi tiết kết quả phân tích dữ liệu chuỗi thời gian trên R Studio, Thống kê mô tả, Phân tích tương quan, kiểm định tính dừng, mô hình OLS, VAR, VECM, ARDL. Kiểm định đa cộng tuyến, tự tương quan, phương sai thay đổi. Xác định độ trễ tối ưu, kiểm định đồng liên kết. Thống kê mô tả, Phân tích tương quan, kiểm định tính dừng, mô hình OLS, VAR, VECM, ARDL. Kiểm định đa cộng tuyến, tự tương quan, phương sai thay đổi. Xác định độ trễ tối ưu, kiểm định đồng liên kết. Thống kê mô tả, Phân tích tương quan, kiểm định tính dừng, mô hình OLS, VAR, VECM, ARDL. Kiểm định đa cộng tuyến, tự tương quan, phương sai thay đổi. Xác định độ trễ tối ưu, kiểm định đồng liên kết.
Trang 1PHÂN TÍCH DỮ LIỆU KHOA HỌC (R/R STUDIO Cơ bản đến Nâng cao)
Trình bày: NKH NGÔ ĐỨC CHIẾN
PHÂN TÍCH DỮ LIỆU VỚI R/R STUDIO
(Dữ liệu Chuỗi thời gian “Time Series”)
Trang 2Trình bày: NKH NGÔ ĐỨC CHIẾN
R/R STUDIO “Time Series”:
1 Nên coi bài trước khi tham gia mỗi buổi học
2 Phải dành thời gian thực hành lại sau mỗi buỗi học
3 Đã có kiến thức cơ bản về R/R STUDIO & Các chỉ tiêu cơ bản trong kinh tế lượng
4 Cần thiết phải in tài liệu Slide này ra để tiện theo dõi các câu lệnh mỗi buổi học
Các lưu ý khi tham gia Khóa học
Trang 3PHÂN TÍCH DỮ LIỆU KHOA HỌC (R/R STUDIO Cơ bản đến Nâng cao)
Trình bày: NKH NGÔ ĐỨC CHIẾN
DỮ LIỆU CHUỖI THỜI GIAN “TIME SERIES”
(Quy trình Phân tích trên R/R STUDIO)
Trang 5MÔ HÌNH OLS & Kiểm định mô hình OLS (Đa cộng tuyến, P/Sai thay đổi, Tự tương quan )
Xác định Độ trễ tối ưu
& Kiểm định Tính đồng liên kết
3.1 MÔ HÌNH VAR
(Khi không có đồng liên kết)
& Kiểm định mô hình VAR (Tự tương quan, P/Sai thay đổi, Tính ổn định, Hàm phản ứng xung IRF)
3.2 MÔ HÌNH VAR – GARCH
(Khi Mô hình VAR xấu)
Trang 6Mô hình hồi quy tuyến tính OLS
Kiểm định sau mô hình OLS
(Đa cộng tuyến, Tự tương quan)
Khắc phục Sự tự tương quan bằng Mô hình sai phân bậc 1
Kiểm định P/Sai thay đổi đối với
Mô hình sai phân bậc 1
Khắc phục P/Sai thay đổi đối với
Mô hình sai phân bậc 1
Kết luận & Đánh giá
Trang 7Ví dụ minh họa các câu lệnh:
Trang 8Bước 1: Nhập liệu & Khai báo dữ liệu
Trang 9Bước 1: Nhập liệu & Khai báo dữ liệu
Kiểm tra các biến ở dạng Number
Trang 10Bước 1: Nhập liệu & Khai báo dữ liệu
Khai báo dữ liệu Chuỗi thời gian
Trang 11Bước 2: Thống kê các biến
Thống kê mô tả dữ liệu
Trang 12Bước 3: Phân tích tương quan các biến
9 Trình bày: NKH NGÔ ĐỨC CHIẾN
Phân tích tương quan Pearson, hay còn gọi là hệ số tương quan Pearson, là một phương pháp thống kê dùng để đo lường mức độ quan hệ tuyến tính giữa hai biến số định lượng Hệ số tương quan Pearson được
ký hiệu bằng r và có giá trị nằm trong khoảng từ -1 đến 1.
** Mức ý nghĩa Sig.:
- Sig < 1%: Có ý nghĩa thống kê rất chặt chẽ.
- Sig < 5%: Có ý nghĩa thống kê.
- Sig > 5%: Không có ý nghĩa thống kê.
Thường các nhà nghiên cứu chọn mức ý nghĩa 5%
** Điều kiện áp dụng:
- Hai biến số phải là biến số định lượng.
- Quan hệ giữa hai biến số phải là quan hệ tuyến tính.
- Phân phối của hai biến số nên là phân phối chuẩn (hoặc ít nhất là không quá lệch).
Trang 13Bước 3: Phân tích tương quan các biến
- r = 1: Hai biến số có mối quan hệ tuyến tính dương hoàn hảo
- r = -1: Hai biến số có mối quan hệ tuyến tính âm hoàn hảo
- r = 0: Không có mối quan hệ tuyến tính giữa hai biến số
** Ý nghĩa của hệ số tương quan Pearson r:
- Từ +/- 0,01 đến +/-0,1: Mối tương quan quá thấp, không đáng kể
- Từ +/- 0,2 đến +/-0,3: Mối tương quan thấp
- Từ +/- 0,4 đến +/-0,5: Mối tương quan trung bình
- Từ +/- 0,6 đến +/-0,7: Mối tương quan cao
- Từ +/- 0,8 trở lên: Mối tương quan rất cao
Ví dụ: r = 0,525 thể hiện mối tương quan dương/tích cực ở mức độ trung bình
Trang 14Bước 3: Phân tích tương quan các biến
PHÂN TÍCH TƯƠNG QUAN CÁC BIẾN Lệnh dưới đây vẽ được đồ thị tương quan các biến
result$r # Ma trận hệ số tương quan Pearson
result$P # Ma trận giá trị P-Value (giá trị Sig ý nghĩa thống kê)
Trang 15Bước 3: Phân tích tương quan các biến
Lệnh dưới đây vẽ được đồ thị hệ số tương quan các biến
Trang 16Bước 3: Phân tích tương quan các biến
Lệnh dưới đây tính được hệ số tương quan Pearson
Trang 17Bước 3: Phân tích tương quan các biến
Sử dụng gói Hmisc để vừa tính hệ số tương quan vừa có kiểm định p-value:
install.packages("Hmisc")
library(Hmisc)
result<-rcorr(as.matrix(ABCDEFG),type="pearson")
result$r # Ma trận hệ số tương quan Pearson
result$P # Ma trận giá trị P-Value (giá trị Sig ý nghĩa thống kê)
Trang 18Bước 3: Phân tích tương quan các biến
Sử dụng gói Hmisc để vừa tính hệ số tương quan vừa có kiểm định p-value:
install.packages("Hmisc")
library(Hmisc)
result<-rcorr(as.matrix(ABCDEFG),type="pearson")
result$r # Ma trận hệ số tương quan Pearson
result$P # Ma trận giá trị P-Value (giá trị Sig ý nghĩa thống kê)
Trang 19Bước 4: Kiểm định Tính dừng ADF
Trang 20Bước 4: Kiểm định Tính dừng ADF
9 Trình bày: NKH NGÔ ĐỨC CHIẾN
Trang 21PHÂN TÍCH DỮ LIỆU KHOA HỌC (R/R STUDIO Cơ bản đến Nâng cao)
Trình bày: NKH NGÔ ĐỨC CHIẾN
DỮ LIỆU CHUỖI THỜI GIAN “TIME SERIES”
(Quy trình Phân tích trên R/R STUDIO)
Trường hợp 1: Có ít nhất 1 biến không dừng bậc gốc I(0)
Trang 22MÔ HÌNH OLS & Kiểm định mô hình OLS (Đa cộng tuyến, P/Sai thay đổi, Tự tương quan )
Xác định Độ trễ tối ưu
& Kiểm định Tính đồng liên kết
3.1 MÔ HÌNH VAR
(Khi không có đồng liên kết)
& Kiểm định mô hình VAR (Tự tương quan, P/Sai thay đổi, Tính ổn định, Hàm phản ứng xung IRF)
3.2 MÔ HÌNH VAR – GARCH
(Khi Mô hình VAR xấu)
Trang 23TH1: Mô hình hồi quy OLS
Mô hình hồi quy tuyến tính OLS
Trang 24TH1: Mô hình hồi quy OLS
Kiểm định sau mô hình hồi quy tuyến tính OLS
vif(model_ols) # Kiểm định Đa cộng tuyến thông qua hệ số VIF
dwtest(model_ols) # Kiểm định Tự tương quan (Durbin-Watson Test)
bptest(model_ols) # Kiểm định Phương sai thay đổi (Breusch-Pagan Test)
shapiro.test(residuals(model_ols)) # Kiểm định phần dư có phân phối chuẩn (Tham khảo)
adf.test(residuals(model_ols)) # Kiểm định Tính dừng của chuỗi phần dư (Tham khảo)
par(mfrow=c(2,2)) & plot(model_ols) # Vẽ đồ thị phần dư để trực quan hóa (Tham khảo)
Trang 25TH1: Mô hình hồi quy OLS
Kiểm định sau mô hình hồi quy tuyến tính OLS
Đa cộng tuyến là hiện tượng trong mô hình hồi quy khi các biến độc lập có mối tương quan cao với nhau Điều này gây khó khăn trong việc ước lượng chính xác ảnh hưởng riêng
của từng biến lên biến phụ thuộc, làm sai số chuẩn tăng và kết quả hồi quy thiếu tin cậy.
vif(pool_model) # Kiểm định Đa cộng tuyến thông qua hệ số VIF
Dữ liệu Likert: Hệ số VIF > 2 thường xảy ra đa cộng tuyến
Dữ liệu thứ cấp (Ratio Scale): Hệ số VIF > 10 thường xảy ra đa cộng tuyến
Trang 26TH1: Mô hình hồi quy OLS
Kiểm định sau mô hình hồi quy tuyến tính OLS
Tự tương quan (autocorrelation) là hiện tượng khi các sai số (residuals) trong mô hình hồi quy có tương quan với nhau, tức là sai số ở thời điểm này bị ảnh hưởng bởi sai
số ở thời điểm trước đó.
Thường xảy ra trong dữ liệu chuỗi thời gian → vi phạm giả định độc lập của sai số trong POOL OLS → làm cho kết quả hồi quy mất hiệu lực kiểm định.
Trang 27TH1: Mô hình hồi quy OLS
Kiểm định sau mô hình hồi quy tuyến tính OLS
dwtest(model_ols) # Kiểm định Tự tương quan (Durbin-Watson Test)
Giả thuyết H0: Mô hình không có tự tương quan (Tốt) (Chấp nhận khi P-Value/Sig > 5%) Giả thuyết H1: Mô hình có tự tương quan (Xấu) (Chấp nhận khi P-Value/Sig < 5%)
Trang 28TH1: Mô hình hồi quy OLS
Kiểm định sau mô hình hồi quy tuyến tính OLS Phương sai thay đổi (heteroskedasticity) là hiện tượng trong mô hình hồi quy khi phương sai của sai số không đồng nhất giữa các quan sát.
Hay nói cách khác, Các sai số (residuals) không phân tán đều quanh đường hồi quy →
gây vi phạm giả định của mô hình POOL OLS, làm cho ước lượng vẫn đúng trung
bình nhưng không hiệu quả (sai số chuẩn sai → kiểm định không chính xác).
Trang 29TH1: Mô hình hồi quy OLS
Kiểm định sau mô hình hồi quy tuyến tính OLS
bptest(model_ols) # Kiểm định Phương sai thay đổi (Breusch-Pagan Test)
Giả thuyết H0: Mô hình không có phương sai thay đổi/phương sai đồng nhất (Tốt) (Sig > 5%)Giả thuyết H1: Mô hình có phương sai thay đổi/phương sai không đồng nhất (Xấu) (Sig < 5%)
Trang 30TH1: Mô hình hồi quy OLS
Kiểm định sau mô hình hồi quy tuyến tính OLS
shapiro.test(residuals(model_ols)) # Kiểm định phần dư có phân phối chuẩn (Tham khảo)
Giả thuyết H0: Mô hình có phần dư phân phối chuẩn (Tốt) (Sig > 5%)Giả thuyết H1: Mô hình có phần dư không phân phối chuẩn (Xấu) (Sig < 5%)
Trang 31TH1: Mô hình hồi quy OLS
Kiểm định sau mô hình hồi quy tuyến tính OLS
adf.test(residuals(model_ols)) # Kiểm định Tính dừng của chuỗi phần dư (Tham khảo)
Giả thuyết H0: Mô hình có Phần dư có đơn vị gốc (không dừng) (Sig > 5%)Giả thuyết H1: Mô hình có Phần dư là dừng (stationary) (Sig < 5%)
Trang 32TH1: Mô hình hồi quy OLS
Kiểm định sau mô hình hồi quy tuyến tính OLS
par(mfrow=c(2,2)) & plot(model_ols) # Vẽ đồ thị phần dư để trực quan hóa (Tham khảo)
Trang 33TH1: Xác định Độ trễ tối ưu
Độ trễ (lag) là khái niệm dùng để chỉ sự chậm trễ về thời gian giữa nguyên nhân và kết quả
trong một quá trình Trong mô hình chuỗi thời gian, độ trễ thể hiện ảnh hưởng của giá trị trong
quá khứ của biến (hoặc của biến khác) đến giá trị hiện tại của biến đang được phân tích.
Nếu một biến tại thời điểm ttt bị ảnh hưởng bởi giá trị của chính nó (hoặc biến khác) ở thời điểm
t−1, thì ta nói biến đó có độ trễ là 1 (lag 1).
Độ trễ tối ưu là số kỳ trễ (lag) được lựa chọn phù hợp nhất trong mô hình chuỗi thời gian
nhằm đảm bảo mô hình:
Phản ánh đúng mối quan hệ động học giữa các biến,
Giữ lại đầy đủ thông tin cần thiết từ quá khứ,
Tránh làm mô hình trở nên phức tạp không cần thiết
Độ trễ tối ưu là số lượng thời kỳ lùi về quá khứ mà mô hình cần sử dụng để dự báo hoặc giải
thích biến phụ thuộc một cách hiệu quả nhất Đăng ký học trực tuyến 0905.39.2489
Trang 36TH1: Kiểm định Tính đồng liên kết
Kiểm định Tính đồng liên kết
Các giả thuyết đưa ra:
Giả thuyết không (H₀): Có r quan hệ đồng liên kết (cointegration vectors) giữa các biến trong hệ
H₀: Không có quan hệ đồng liên kết nào giữa các biến (Khi giá trị test thấp hơn).
H₁: Có ít nhất một quan hệ đồng liên kết (Khi giá trị test cao hơn).
Tại dòng r ≤ 1:
H₀: Có nhiều nhất 1 quan hệ đồng liên kết (Khi giá trị test thấp hơn).
H₁: Có ít nhất 2 quan hệ đồng liên kết (Khi giá trị test cao hơn).
Trang 38TH1: Mô hình VECM
Mô hình VAR (Vector Autoregression – Mô hình tự hồi quy vector) là một mô hình chuỗi thời
gian đa biến, được sử dụng để mô hình hóa mối quan hệ động học giữa nhiều biến kinh tế có tác
động qua lại lẫn nhau theo thời gian Mô hình VAR cho phép nhiều biến vừa là biến phụ thuộc vừa là biến giải thích cho nhau, theo các độ trễ.
Độ trễ (lag) là khái niệm dùng để chỉ sự chậm trễ về thời gian giữa nguyên nhân và kết quả
trong một quá trình Trong mô hình chuỗi thời gian, độ trễ thể hiện ảnh hưởng của giá trị trong
quá khứ của biến (hoặc của biến khác) đến giá trị hiện tại của biến đang được phân tích.
Nếu một biến tại thời điểm ttt bị ảnh hưởng bởi giá trị của chính nó (hoặc biến khác) ở thời điểm
t−1, thì ta nói biến đó có độ trễ là 1 (lag 1).
Trang 41TH1: Kiểm định sau Mô hình VAR
Trang 42TH1: Kiểm định sau Mô hình VAR
Trang 43TH1: Kiểm định sau Mô hình VAR
Trang 44TH1: Kiểm định sau Mô hình VAR
Trang 45TH1: Kiểm định sau Mô hình VAR
Trang 46TH1: Kiểm định sau Mô hình VAR
Trang 47TH1: Kiểm định sau Mô hình VAR
Trang 48TH1: Kiểm định sau Mô hình VAR
Trang 49TH1: Kiểm định sau Mô hình VAR
Trang 50TH1: Mô hình VAR – GARCH
9 Trình bày: NKH NGÔ ĐỨC CHIẾN
Ω: omega (omega) Hằng số (Intercept)
Đại diện cho phương sai nền (long-run variance)
Nó thể hiện mức độ biến động cố định dù không
Trang 51TH1: Mô hình VAR – GARCH
β: beta lớn Phương sai có tính ghi nhớ cao/lịch sử ảnh hưởng mạnh mẽ đến hiện tại – nghĩa
là nếu trước đó biến động cao thì bây giờ vẫn có xu hướng cao
α + β ≈ 1
Biến động bền vững lâu dài, hay còn gọi là volatility clustering (đặc trưng trongtài chính: khi thị trường biến động cao, nó sẽ tiếp tục biến động cao một thờigian)
Trang 52TH1: Mô hình VAR – GARCH
# Gọi lệnh thực hiện Mô hình VAR – GARCH
Trang 53TH1: Mô hình VAR – GARCH
# Lặp lại cấu hình cho từng chuỗi (6 biến)
Trang 54TH1: Mô hình VAR – GARCH
Trang 55TH1: Mô hình VAR – GARCH
Trang 56TH1: Mô hình VECM
Mô hình VECM (Vector Error Correction Model – Mô hình hiệu chỉnh sai số) là một mô hình
chuỗi thời gian dùng để mô hình hóa cả mối quan hệ ngắn hạn và dài hạn giữa các biến) Mô hình VECM là phiên bản đặc biệt của mô hình VAR được điều chỉnh để phản ánh mối quan hệ dài hạn giữa các biến thông qua thành phần sai số hiệu chỉnh (error correction term - ECT).
Độ trễ (lag) là khái niệm dùng để chỉ sự chậm trễ về thời gian giữa nguyên nhân và kết quả
trong một quá trình Trong mô hình chuỗi thời gian, độ trễ thể hiện ảnh hưởng của giá trị trong
quá khứ của biến (hoặc của biến khác) đến giá trị hiện tại của biến đang được phân tích.
Nếu một biến tại thời điểm ttt bị ảnh hưởng bởi giá trị của chính nó (hoặc biến khác) ở thời điểm
t−1, thì ta nói biến đó có độ trễ là 1 (lag 1).
Trang 59TH1: Mô hình ARDL
Mô hình ARDL (viết tắt của Autoregressive Distributed Lag) là một mô hình hồi quy động được
sử dụng trong phân tích chuỗi thời gian nhằm ước lượng mối quan hệ giữa một biến phụ thuộc
với chính nó trong quá khứ (autoregressive) và với các biến giải thích có độ trễ (distributed lag).
Độ trễ (lag) là khái niệm dùng để chỉ sự chậm trễ về thời gian giữa nguyên nhân và kết quả
trong một quá trình Trong mô hình chuỗi thời gian, độ trễ thể hiện ảnh hưởng của giá trị trong
quá khứ của biến (hoặc của biến khác) đến giá trị hiện tại của biến đang được phân tích.
Nếu một biến tại thời điểm ttt bị ảnh hưởng bởi giá trị của chính nó (hoặc biến khác) ở thời điểm
t−1, thì ta nói biến đó có độ trễ là 1 (lag 1).
Trang 60ARDL
Trang 63PHÂN TÍCH DỮ LIỆU KHOA HỌC (R/R STUDIO Cơ bản đến Nâng cao)
Trình bày: NKH NGÔ ĐỨC CHIẾN
DỮ LIỆU CHUỖI THỜI GIAN “TIME SERIES”
(Quy trình Phân tích trên R/R STUDIO)
Trường hợp 2: Tất cả các biến đều dừng bậc gốc I(0)
Trang 64Mô hình hồi quy tuyến tính OLS
Kiểm định sau mô hình OLS
(Đa cộng tuyến, Tự tương quan)
Khắc phục Sự tự tương quan bằng Mô hình sai phân bậc 1
Kiểm định P/Sai thay đổi đối với
Mô hình sai phân bậc 1
Khắc phục P/Sai thay đổi đối với
Mô hình sai phân bậc 1
Kết luận & Đánh giá
Trang 65TH2: Mô hình hồi quy OLS
# Thống kê & Phân tích Tương quan Pearson (như trên)
# Mô hình hồi quy tuyến tính OLS
Trang 66# Kiểm định sau mô hình hồi quy tuyến tính OLS
# Kiểm định Đa cộng tuyến
Trang 67# Kiểm định Tự tương quan (Durbin-Watson)
Trang 68TH2: Mô hình sai phân bậc 1
# Mô hình sai phân bậc 1 để khắc phục Tự tương quan mô hình OLS
Trang 69TH2: Kiểm định Mô hình sai phân bậc 1
# Kiểm định Phương sai thay đổi (Breusch-Pagan) mô hình sai phân bậc 1
Trang 70Như vậy với dữ liệu này, độ trễ tối đa là 200^(1/3) = 5,85 ~ 6,00
Trang 71TH2: Mô hình Robust
# Mô hình Robust khắc phục Phương sai thay đổi mô hình sai phân bậc 1
VARselect(d.abcdef,lag.max=6,type="const") # Xác định Độ trễ tối ưu
Trang 72TH2: Mô hình Robust
# Mô hình Robust khắc phục Phương sai thay đổi mô hình sai phân bậc 1
coeftest(model_ols1,vcov=NeweyWest(model_ols1,lag=4,prewhite=FALSE)) # Mô hình Robust
Trang 73Chuyên gia Phân tích dữ liệu định lượng
Dịch vụ Phân tích và Đào tạo
SPSS, AMOS, STATA, SMARTPLS, R
Hình thức Online hoặc Offline
Trang 74Chuyên gia Phân tích dữ liệu định lượng
“Chúng tôi rất tự hào được đồng hành cùng các bạn trong việc tìm hiểu và chia
sẻ các kiến thức Phân tích định lượng Đó sẽ luôn luôn là nguồn cảm hứng cho
sự hoàn thiện bản thân của chúng tôi!”
Trang 75Bản quyền thuộc về:
Mr Corn’s Official
Tư vấn nội dung:
Trung tâm Đào tạo Phân tích SPSS AMOS STATA SMARTPLS R
Thiết kế & Trình bày ý tưởng:
Trung tâm Đào tạo Phân tích SPSS AMOS STATA SMARTPLS R
Trang 76THANK YOU!!!
(1) Dịch vụ Phân tích và Đào tạo trực tuyến SPSS AMOS STATA SMARTPLS R (2) Hotline liên hệ: 0905.39.2489
(3) Theo dõi tại: https://www.youtube.com/@spssamosstata
Chuyên gia Phân tích dữ liệu định lượng