Trình bày về tổng quan, ngắn gọn các phương pháp đã tồn tại giải bài toán dự báo TTCK, trong đó tập trung tìm hiểu các kết quả nghiên cứu hiện có của hai phương pháp riêng lẻ áp dụng cho
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
PHÙNG ĐÌNH VŨ
ĐỀ TÀI LUẬN VĂN
Dự đoán xu thế, giá chỉ số chứng khoán Việt Nam VN-Index
sử dụng phân tích hồi quy Gaussian Process và mô hình tự hồi quy
Trang 2CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn: Phùng Đình Vũ
Đề tài luận văn: Dự đoán xu thế, giá chỉ số chứng khoán Việt Nam VN-Index sử dụng
phân tích hồi quy Gaussian Process và mô hình tự hồi quy trung bình động ARMA
Chuyên ngành: Công Nghệ Thông Tin
Mã số SV: CB150301
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày 26 tháng 04 năm 2017 với các nội dung sau:
1 Phần mở đầu luận văn
- Học viên viết lại phần mở đầu của luận văn, thay đổi cách đặt vấn đề, trích dẫn các phương pháp hiện có ở Việt Nam và trên thế giới trong bài toán dự báo thị trường chứng khoán (TTCK) Trình bày sơ lược về ưu, nhược điểm của hai phương pháp Gaussian Process và ARMA trong bài toán dự báo TTCK Tóm tắt mục đích và phương pháp kết hợp 2 phương pháp trên trong phương pháp kết hợp GPR-ARMA được tác giả đề xuất
- Bổ sung phần bố cục luận văn
2 Chỉnh sửa chương 1
- Mục 1.1: Bổ sung thêm thông tin về chỉ số VN-Index là đối tượng thu thập thông tin của phương pháp Bổ sung dữ liệu đầu vào của phương pháp là chuỗi thời gian giá đóng cửa chỉ số VN-Index qua các ngày giao dịch
- Mục 1.2: Lược bỏ nội dung hiện có Trình bày về tổng quan, ngắn gọn các phương pháp
đã tồn tại giải bài toán dự báo TTCK, trong đó tập trung tìm hiểu các kết quả nghiên cứu hiện có của hai phương pháp (riêng lẻ) áp dụng cho chuỗi thời gian (là đối tượng nghiên cứu của luận văn): phân tích hồi quy Gaussian Process và mô hình tự hồi quy trung bình động ARMA (chuyển sang từ mục 2.1)
Trang 3- Mục 1.3: Lược bỏ nội dung (không liên quan) về các phương pháp phân tích hồi quy Tập trung trình bày lý thuyết về ba mô hình được sử dụng trong phương pháp GPR-ARMA: mô hình chuỗi thời gian, mô hình tự hồi quy trung bình động ARMA và phân tích hồi quy Gaussian Process Vẽ lại hình 1.1 trong mục này (trang 14)
- Mục 1.4: Thay thế bằng phần kết luận cho chương 1
3 Chỉnh sửa chương 2
- Đổi tên chương thành “XÂY DỰNG PHƯƠNG PHÁP KẾT HỢP GPR-ARMA DỰ ĐOÁN CHUỖI THỜI GIAN” nhằm nhấn mạnh phạm vi bài toán là dự báo chuỗi thời gian (áp dụng cho chỉ số chứng khoán)
- Bổ sung mục 2.1.1 nhằm: Định nghĩa tập dữ liệu đầu vào bài toán, xác định phạm vi đối tượng nghiên cứu của luận văn Lý do lựa chọn tập dữ liệu và tính thực tiễn việc nghiên cứu chỉ số VN-Index Chuyển mục 2.1.3 phân tách tập dữ liệu thành tập huấn luyện và tập kiểm thử về mục 2.1.1 này
- Thay đổi mục 2.1.2 thành “Phân tích dữ liệu lịch sử chỉ số VN-Index”, học viên tập trung vào quá trình phân tích dữ liệu và kết quả phân tích để có thể đưa biến đổi dữ liệu phù hợp cho phương pháp đề xuất
- Mục 2.2: Tập trung vào trình bày các bước thực hiện theo trình tự của phương pháp đề xuất từ việc thu thập dữ liệu đến các bước để tiến hành dự đoán và đưa ra kết quả dự đoán
- Bổ sung mục 2.3 trình bày về quy trình thực hiện phương pháp dự đoán Chuyển nội dung mục 2.1.3 về phân tách tập dữ liệu kiểm thử mô hình vào mục 2.3 này
Trang 47 Sửa một số lỗi về trình bày
- Đánh lại số trang Sử dụng định dạng i, ii, v.v cho các trang đầu gồm lời cam đoan, lời cảm ơn, mục lục, danh mục bảng hình vẽ Sử dụng định dang số 1, 2, v.v bắt đầu từ phần
mở đầu luận văn
- Các công thức, tên hình, tên bảng được đánh số theo chương
- Tên các bảng được đưa lên đầu mỗi bảng Tên hình vẽ đặt ở dưới mỗi hình
- Các lỗi chính tả, sửa liệt kê các tài liệu tham khảo
- Bổ sung, trích dẫn các tài liệu gốc
- Giải thích các đại lượng được sử dụng trong các công thức
- Các thông tin ngày, tháng, năm được viết chữ rõ ràng để tránh nhầm lẫn cho người đọc
- Đánh số lại đề mục một cách hợp lý hơn theo nội dung luận văn
Giáo viên hướng dẫn Tác giả luận văn
CHỦ TỊCH HỘI ĐỒNG
Trang 5i
LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi trong đó có sự giúp đỡ rất lớn
của Thầy hướng dẫn PGS.TS Huỳnh Quyết Thắng, bộ môn Công nghệ phần mềm, Viện Công nghệ thông tin và truyền thông, Đại học Bách Khoa Hà Nội
Các số liệu, kết quả nêu trong luận văn là trung thực, rõ ràng và chưa từng được ai công bố trong bất kỳ công trình nào khác
Trong luận văn tôi có tham khảo đến một số tài liệu đã được liệt kê tại phần Tài liệu tham khảo ở cuối luận văn, các nội dung trích dẫn đã ghi rõ nguồn gốc
Hà Nội, ngày… tháng … năm 2017
Tác giả luận văn
Phùng Đình Vũ
Trang 6ii
LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cám ơn chân thành và sâu sắc tới Thầy PGS.TS Huỳnh Quyết Thắng, Bộ môn Công nghệ phần mềm, Viện Công nghệ thông tin và truyền thông, Đại học Bách Khoa Hà Nội Trong quá trình thực hiện luận văn, Thầy đã hướng dẫn và chỉ bảo tôi ân cần, cung cấp cho tôi nhiều tài liệu quan trọng là nền tảng để tôi tìm tòi
nghiên cứu sâu hơn về đề tài “Dự đoán xu thế, giá chỉ số chứng khoán Việt Nam
VN-Index sử dụng phân tích hồi quy Gaussian Process và mô hình tự hồi quy trung bình động ARMA” Mỗi lời góp ý của Thầy giúp tôi định hướng tốt hơn, đúng đắn hơn cho đề tài
mình đã chọn
Tôi cũng xin gửi lời cám ơn tới các Thầy, Cô trong Viện Công nghệ thông tin và truyền thông, Viện Đào tạo sau đại học đã tận tình dạy dỗ, giúp đỡ, và cung cấp cho tôi nhiều kiến thức chuyên sâu, bổ ích và cần thiết Để từ đó, tôi có đủ khả năng và hiểu biết
để thực hiện và hoàn thành luận văn này một cách tốt nhất
Lời tiếp theo tôi xin gửi lời cám ơn chân thành và sâu sắc tới các Thầy, Cô trong hội đồng chấm luận văn thạc sỹ đã đưa ra các nhận xét, đánh giá, góp ý quý báu giúp tôi chỉnh sửa và hoàn thành luận văn này một cách tốt nhất
Cuối cùng tôi xin dành lời cảm ơn tới người thân gia đình tôi đã quan tâm, chăm sóc, ủng hộ về vật chất và tinh thần lớn lao để tôi có động lực theo đuổi đề tài này
Trang 7
iii
MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC BẢNG VÀ HÌNH VẼ v
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT vi
MỞ ĐẦU 1
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT 4
1.1 Chỉ số chứng khoán VN-Index 4
1.2 Các phương pháp phân tích TTCK 5
1.3 Mô hình phân tích định lượng dựa trên chuỗi thời gian 8
1.3.1 Mô hình chuỗi thời gian 8
1.3.2 Mô hình tự hồi quy trung bình động ARMA 9
1.3.3 Phân tích hồi quy Gaussian Process 13
1.4 Kết chương 17
CHƯƠNG 2: XÂY DỰNG PHƯƠNG PHÁP KẾT HỢP GPR-ARMA DỰ ĐOÁN CHUỖI THỜI GIAN 19
2.1 Xây dựng mô hình dữ liệu đầu vào 19
2.1.1 Mô tả tập dữ liệu bài toán 19
2.1.2 Phân tích dữ liệu lịch sử chỉ số VN-Index 22
2.2 Phương pháp dự đoán chuỗi thời gian GPR-ARMA 27
2.3 Quy trình thực hiện phương pháp dự đoán 34
2.4 Đánh giá sai số cho phương pháp dự đoán 36
2.5 Kết chương 38
CHƯƠNG 3: CÀI ĐẶT VÀ ĐÁNH GIÁ THỰC NGHIỆM 39
3.1 Chương trình thu thập dữ liệu lịch sử chỉ số VN-Index 39
3.2 Chương trình dự đoán theo phương pháp GRP-ARMA 42
3.2.1 Cài đặt các gói phần mềm được sử dụng 42
3.2.2 Thiết kế các module chương trình dự đoán 43
3.2.3 Triển khai chương trình dự đoán 44
Trang 8iv
3.3 Kết quả thử nghiệm chương trình dự đoán 46
3.3.1 Đánh giá kết quả nội suy của phương pháp 46
3.3.2 Đánh giá kết quả ngoại suy của phương pháp 48
3.3.3 So sánh phương pháp GPR-ARMA với từng phương pháp riêng lẻ 54
3.4 Kết chương 56
KẾT LUẬN VÀ ĐỊNH HƯỚNG PHÁT TRIỂN 57
1 Kết luận 57
2 Định hướng phát triển 60
DANH MỤC TÀI LIỆU THAM KHẢO 62
PHỤ LỤC 64
P1 Giải thuật Innovations 64
P2 Biểu đồ tự tương quan và phân phối thành phần xu thế 65
P3 Đánh giá khoảng tin cậy phân phối chuẩn 66
P4 Danh sách đăng ký các máy chủ Google 66
Trang 9v
DANH MỤC CÁC BẢNG VÀ HÌNH VẼ
Danh mục các hình vẽ
Hình 1.1: Biểu diễn đồ thị cho phân tích hồi quy Gaussian Process 14
Hình 2.1: Biểu đồ dữ liệu lịch sử giá đóng cửa chỉ số VN-Index 20
Hình 2.2: Biểu diễn các thành phần chuỗi thời gian đầu vào 24
Hình 2.3: Biểu đồ tự tương quan thành phần ngẫu nhiên 25
Hình 2.4: Phân phối các giá trị của thành phần ngẫu nhiên 25
Hình 2.5: Biểu đồ tự tương quan thành phần biến đổi của xu thế 26
Hình 2.6: Phân phối các giá trị thành phần xu thế biến đổi 27
Hình 2.7: Các bước thực hiện trong phương pháp GPR-ARMA 28
Hình 2.8: Quy trình thực hiện phương pháp dự đoán 35
Hình 3.1: Quá trình thu thập dữ liệu lịch sử giá 40
Hình 3.2: Giao diện chương trình thu thập dữ liệu chỉ số VN-Index 41
Hình 3.3: Các module của chương trình dự đoán 43
Hình 3.4: Đồ thị kết quả dự đoán nội suy của phương pháp GPR-ARMA 47
Hình 3.5: Đồ thị kết quả dự đoán theo phương pháp kết hợp GPR-ARMA 53
Hình 3.6: Đồ thị kết quả dự đoán theo phương pháp Gaussian Process 54
Hình 3.7: Đồ thị kết quả dự đoán theo phương pháp ARMA 55
Danh mục các bảng Bảng 1.1: Một số hàm hiệp phương sai trong Gaussian Process 15
Bảng 2.1: Bảng nhầm lẫn kết quả dự đoán xu thế 37
Bảng 3.1: Danh sách các gói thư viện Python được cài đặt 42
Bảng 3.2: Cấu hình và phân phối dữ liệu kiểm thử cho các máy chủ 45
Bảng 3.3: Đánh giá sai số nội suy của phương pháp GPR-ARMA 46
Bảng 3.4: Bảng nhầm lẫn nội suy với phân lớp tăng 46
Bảng 3.5: Bảng nhầm lẫn nội suy với phân lớp giảm 46
Bảng 3.6: Bảng nhầm lẫn nội suy tổng hợp các phân lớp 46
Bảng 3.7: Giá trị các tham số/siêu tham số mô hình sau mỗi bước lặp 48
Bảng 3.8: Kết quả dự đoán theo phương pháp GPR-ARMA 50
Bảng 3.9: Kết quả dự đoán xu thế theo phương pháp GPR-ARMA 50
Bảng 3.10: Bảng nhầm lẫn ngoại suy với phân lớp tăng 51
Bảng 3.11: Bảng nhầm lẫn ngoại suy với phân lớp giảm 52
Bảng 3.12: Bảng nhầm lẫn ngoại suy tổng hợp các phân lớp 52
Bảng 3.13: Đánh giá sai số ngoại suy của phương pháp GRP-ARMA 52
Bảng 3.14: Đánh giá sai số ngoại suy của phương pháp Gaussian Process 55
Bảng 3.15: Đánh giá sai số ngoại suy của phương pháp ARMA 55
Trang 10vi
DANH MỤC THUẬT NGỮ VÀ TỪ VIẾT TẮT
Minh
Market
Thị trường giao dịch các công ty đại chúng chưa niêm yết
Moving Average
Mô hình tự hồi quy kết hợp trung bình động
phương
Trang 111
MỞ ĐẦU
Thị trường chứng khoán (TTCK) ở Việt Nam và trên thế giới hiện nay đang thu hút nhiều chuyên gia, nhà khoa học tham gia giải quyết bài toán phân tích biến động chỉ số chứng khoán, giá các cổ phiếu trong tương lai nhằm tìm kiếm lợi nhuận từ TTCK Phương pháp phân tích kỹ thuật và phân tích cơ bản [1] là hai phương pháp định tính được sử dụng phổ biến hiện nay Cả hai phương pháp này có nhược điểm là mang tính chất định tính, nghĩa là phụ thuộc vào cảm quan của người phân tích và do đó không thể sử dụng để tự động hóa trong các chiến lược đầu tư Khắc phục nhược điểm này, phương pháp phân tích định lượng là một hướng nghiên cứu đang được phát triển mạnh những năm gần đây Có rất nhiều các mô hình khác nhau được áp dụng trong phân tích định lượng để giải bài toán dự đoán TTCK như: Phân tích hồi quy Gaussian Process [9]; Mô hình tự hồi quy trung bình động ARMA [10]; Mạng Nơron nhân tạo (ANN) [12]; Mạng Nơron kết hợp bộ điều khiển mờ [13]; Giải thuật di truyền (GA) [15]; Mô hình mạng Bayes (BN) [16]; Mô hình máy vector hỗ trợ (SVM) [17], v.v Mỗi mô hình
ở trên có những ưu điểm và nhược điểm riêng và được áp dụng cho các bộ dữ liệu cụ thể Qua tìm hiểu các mô hình này tác giả nhận thấy đa số các mô hình dựa trên các bộ
dữ liệu khá phức tạp Trong khuôn khổ luận văn này tác giả chỉ tập trung nghiên cứu, tìm hiểu mô hình áp dụng trên bộ dữ liệu đầu vào là chuỗi thời gian đó là: phân tích hồi quy Gaussian Proces, mô hình tự hồi quy trung bình động ARMA Chuỗi thời gian là một chuỗi các điểm được thu thập theo từng khoảnh khắc thời gian liền nhau theo một tần suất thống nhất Phân tích hồi quy Gaussian Process là mô hình phân tích hồi quy phi tham số, được sử dụng trong học máy [5] Dựa trên bộ dữ liệu huấn luyện đầu vào với độ dài lịch sử đủ lớn, mô hình này có khả năng “học” để tối ưu hóa các siêu tham
số của mô hình sao cho cực đại hóa hàm xác suất biên (thể hiện mối quan hệ của đầu ra ứng với đầu vào cho trước) Nói cách khác, mô hình phân tích hồi quy Gaussian Process có khả năng phát hiện các mẫu hình (patterns) xuất hiện trong bộ dữ liệu huấn luyện [6] Để tăng khả năng phát hiện các mẫu hình trong phân tích hồi quy Gaussian
Trang 122
Process, dữ liệu huấn luyện đầu vào đòi hỏi phải không có nhiễu hoặc nhiễu rất nhỏ
Mô hình tự hồi quy trung bình động ARMA là mô hình phân tích hồi quy có tham số, được sử dụng như mô hình tiêu biểu trong kinh tế lượng về dự đoán chuỗi thời gian
Mô hình này thể hiện mối quan hệ giữa giá trị tại điểm hiện tại với giá trị tại một số điểm liền trước trong chuỗi thời gian và sai số nhiễu trắng tại các điểm đó thông qua các trọng số Với tính chất này, mô hình tự hồi quy trung bình động ARMA được sử dụng để dự đoán các chuỗi thời gian ngẫu nhiên có tính dừng, và thường không đòi hỏi
dữ liệu lịch sử đầu vào đủ lớn [3] Lý thuyết về mô hình chuỗi thời gian chỉ ra rằng một
hiệu là Rt) sao cho Yt = Tt + St + Rt [2] Sau khi phân tách chuỗi thời gian ta thu được thành phần xu thế với biến thiên giá trị nhỏ hơn hay đồ thị đường xu thế “trơn” hơn, qua đó thể hiện các mẫu hình hay xu thế rõ ràng hơn so với chuỗi thời gian ban đầu Thành phần thời vụ có tính chu kì nên ta không xem xét khi tiến hành dự đoán Thành phần ngẫu nhiên có tính dừng, thể hiện độ tương quan nhỏ giữa các điểm trong chuỗi thời gian Với ý nghĩa của từng thành phần chuỗi thời gian như trên, tác giả đề xuất phương pháp mới gọi là GRP-ARMA kết hợp các mô hình: mô hình chuỗi thời gian, phân tích hồi quy Gaussian Process và mô hình tự hồi quy trung bình động ARMA, nhằm tận dụng những ưu điểm, khắc phục nhược điểm của từng mô hình và qua đó tăng độ chính xác trong kết quả dự đoán của phương pháp kết hợp Trong phương pháp GPR-ARMA, phân tích hồi quy Gaussian Process được áp dụng để dự đoán chuỗi xu thế, mô hình tự hồi quy trung bình động ARMA được áp dụng để dự đoán chuỗi ngẫu nhiên Có thể thấy chuỗi thời gian thành phần xu thế đã được loại bỏ nhiễu từ chuỗi thời gian ban đầu Nhiễu ở đây chính là thành phần ngẫu nhiên Do đó việc sử dụng phân tích hồi quy Gaussian Process làm tăng khả năng phát hiện các mẫu hình trên chuỗi xu thế Chuỗi thời gian thành phần ngẫu nhiên có các tính chất hoàn toàn phù hợp với các điều kiện khi áp dụng mô hình tự hồi quy trung bình động ARMA Do vậy tác giả tiến hành kết hợp các mô hình cho việc dự đoán các thành phần của chuỗi thời
Trang 133
gian như trên Kết quả dự đoán các chuỗi thành phần theo từng phương pháp được tổng hợp lại để đưa ra kết quả dự đoán cho chuỗi thời gian ban đầu Phương pháp GPR-ARMA có thể áp dụng cho một chuỗi thời gian bất kì Trong luận văn này tác giả nghiên cứu và lựa chọn giá đóng cửa của chỉ số VN-Index sau mỗi ngày giao dịch là chuỗi thời gian đầu vào cho phương pháp kết hợp GPR-ARMA
Bố cục của luận văn bao gồm phần mở đầu, kết luận và ba chương:
Chương 1: Trình bày ngắn gọn các cơ sở lý thuyết, bao gồm:
- Mô tả những nét cơ bản về chỉ số VN-Index là đối tượng thu thập thông tin và nghiên cứu trong luận văn
- Tìm hiểu tổng quan về các phương pháp dự đoán TTCK hiện có
- Tìm hiểu chi tiết lý thuyết về mô hình chuỗi thời gian, phân tích hồi quy Gaussian Process và mô hình tự hồi quy trung bình động Đây là các mô hình được tác giả sử dụng trong phương pháp kết hợp GPR-ARMA được đề xuất
Chương 2: Xây dựng phương pháp dự đoán kết hợp GPR-ARMA
- Xác định phạm vi, tính thực tiễn bài toán dự đoán chỉ số chứng khoán Định nghĩa tập dữ liệu mẫu và lý do lựa chọn Phân tích các tính chất của dữ liệu đầu vào để đưa ra phương pháp biến đổi dữ liệu phù hợp sử dụng trong phương pháp GPR-ARMA
- Trình bày động cơ việc kết hợp các mô hình trong phương pháp GPR-ARMA Trình tự các bước tiến hành trong phương pháp dự đoán GPR-ARMA
- Trình bày về quy trình thực hiện phương pháp dự đoán
- Các đại lượng đánh giá sai số cho phương pháp dự đoán TTCK
Chương 3: Cài đặt và đánh giá thực nghiệm phương pháp GPR-ARMA
- Trình bày về chương trình thu thập dữ liệu
- Trình bày về chương trình dự đoán theo phương pháp GPR-ARMA
- Trình bày kết quả thực nghiệm nội suy, ngoại suy của phương pháp ARMA và so sánh với từng phương pháp riêng lẻ
Trang 14GPR-4
CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
Chương này trình bày các vấn đề lý thuyết sau:
o Mô hình chuỗi thời gian
1.1 Chỉ số chứng khoán VN-Index
Ở Việt Nam có ba sàn giao dịch đó là sàn HOSE ở TP Hồ Chí Minh và hai sàn HNX, Upcom ở Hà Nội Chỉ số chứng khoán Việt Nam VN-Index là chỉ số thể hiện xu hướng biến động giá của tất cả cổ phiếu niêm yết và giao dịch tại sàn HOSE Ở đây, giá chỉ số VN-Index được hiểu là giá đóng cửa chỉ số VN-Index sau mỗi ngày giao dịch trên TTCK Việt Nam Đây cũng chính là giá tham chiếu (hay giá mở cửa) cho chỉ số VN-Index trong ngày giao dịch kế tiếp Dưới đây là công thức tính chỉ số VN-Index:
niêm yết của công ty thứ i trên sàn HOSE tại thời điểm hiện tại; pio, qio tương ứng là giá
và số lượng cổ phiếu niêm yết của công ty thứ i trên sàn HOSE tại thời điểm cơ sở Công thức tính CMV và BMV như sau:
Trang 15về phương pháp GPR-ARMA được sử dụng để dự đoán xu thế và giá chỉ số này
1.2 Các phương pháp phân tích TTCK
Các phương pháp phân tích TTCK được phân thành hai loại chính, bao gồm phân tích định tính và phân tích định lượng Trong phân tích định tính, hai phương pháp được sử dụng phổ biến là phân tích cơ bản và phân tích kỹ thuật Phân tích cơ bản là việc đánh giá giá trị thật của công ty thông qua các báo cáo tài chính với các chỉ tiêu tài chính đặc trưng [1] Phân tích kỹ thuật là sự nghiên cứu các biến động của thị trường, chủ yếu thông qua việc sử dụng các đồ thị nhằm mục đích dự đoán các xu thế biến động của giá trong tương lai Mục đích của phân tích kỹ thuật là nhằm xác định sự lặp lại của những dạng biến động của giá đã xuất hiện trong quá khứ, kết hợp với hiện tại
để dự đoán biến động giá trong tương lai [1] Nhược điểm của các phương pháp phân tích định tính là kết quả phụ thuộc vào cảm quan của người phân tích, nên không thể tự động hóa trong các chiến lược đầu tư
Phân tích định lượng TTCK có thể hiểu là việc dự đoán sự biến động của giá cổ phiếu hay chỉ số chứng khoán nhờ xây dựng mô hình toán học và sử dụng khả năng tính toán của máy tính để tìm lời giải cho mô hình đó Phương pháp phân tích định lượng TTCK ngày càng trở nên phổ biến cùng sự phát triển nhanh chóng khả năng tính toán của máy tính, cũng như sự phát triển các lý thuyết toán học áp dụng cho các mô hình trong phương pháp Giả thiết của phương pháp này là các mối liên hệ giữa các yếu
Trang 16nó vận dụng các ưu điểm của phân tích cơ bản, phân tích kỹ thuật, phân tích thống kê, kết hợp với khả năng tính toán, xử lý dữ liệu lớn của máy tính Phương pháp này dựa trên nguyên lý khoa học, không phụ thuộc vào cảm tính của con người nên có thể tự động hóa trong chiến lược đầu tư
Hiện tại có rất nhiều các mô hình khác nhau được sử dụng trong phương pháp định lượng nhằm dự đoán TTCK Một số tác giả áp dụng mô hình mạng Nơron để dự đoán giá đóng cửa hàng tuần chỉ số chứng khoán Ấn Độ BSE SENSEX Dữ liệu dùng để huấn luyện các trọng số trên mạng Nơron bao gồm giá đóng cửa hàng tuần chỉ số BSE SENSEX trong 200 tuần, sự di chuyển giá trung bình trong 52 tuần giao dịch, sự di chuyển giá trung bình trong 5 tuần giao dịch, sự biến động (trồi sụt) giá trong 5 tuần giao dịch, dao động giá trong 10 tuần giao dịch [12] Kết hợp với mô hình mạng Nơron, bộ điều khiển mờ được một số tác giả sử dụng nhằm điều chỉnh tốc độ học của mạng Nơron để cải tiến kết quả dự đoán [13] Trong giải thuật di truyền, các tác giả xây dựng bộ gen nhiễm sắc thể để bao hàm không gian lời giải của bài toán Một quần thể ngẫu nhiên ban đầu được khởi tạo Các toán tử lai ghép, đột biến được áp dụng trên nhiễm sắc thể, và lựa chọn các cá thể tốt nhất theo một hàm lợi ích cho thế hệ tiếp theo trong quần thể Giải thuật sẽ dừng (hội tụ) khi các luật đầu tư được thỏa mãn Các luật đầu tư thường dựa trên các chỉ số dùng trong phân tích cơ bản hay phân tích kĩ thuật [14] Với mô hình nhân quả sử dụng mạng Bayes, các tác giả xây dựng mạng thể hiện mối liên hệ ràng buộc giữa xu thế các chỉ số FTSE100, Nikkei225, DOW30 của ngày giao dịch kế tiếp dựa trên kết quả giao dịch của một hoặc hai ngày trước đó Dữ liệu
Trang 177
đầu vào là giá đóng cửa các chỉ số này trong khoảng thời gian từ tháng một năm 2005 tới tháng mười hai năm 2006 được sử dụng để huấn luyện các tham số xác suất trong mạng và sử dụng để dự đoán xu thế các chỉ số này cho năm 2007 [15] Một điều có thể nhận thấy là các phương pháp định lượng kể trên sử dụng bộ dữ liệu khá phức tạp, thể hiện nhiều ràng buộc, không chỉ đơn thuần là chuỗi thời gian
Tiếp theo tác giả tìm hiểu một số phương pháp định lượng áp dụng dự đoán dựa trên chuỗi thời gian Phân tích hồi quy Gaussian Process được một số tác giả sử dụng cho
dữ liệu chứng khoán là giá cổ phiếu của các công ty Phương pháp này sử dụng một số hàm hiệp phương sai khác nhau như hàm hiệp phương sai lũy thừa bình phương, hàm
tác giả này khẳng định rằng dữ liệu lịch sử càng dài cho kết quả dự đoán càng chính xác để tìm ra cổ phiếu tốt; hàm hiệp phương sai lũy thừa bình phương và hàm hiệp phương sai lớp Matern cho kết quả dự đoán tốt do đó các tác giả khuyên dùng hai hàm hiệp phương sai này; đồng thời các tác giả cũng đánh giá phương pháp phân tích hồi quy Gaussian Process đòi hỏi thời gian tính toán lâu nhất là trên bộ dữ liệu lớn [9] Một
số tác giả khác áp dụng phương pháp tự hồi quy kết hợp trung bình động ARIMA để
dự đoán giá cổ phiếu của 66 công ty từ bảy ngành khác nhau dựa trên bộ dữ liệu lịch sử
độ dài khoảng 23 tháng và dự đoán cho một tháng kế tiếp Để đánh giá các tham số của
mô hình các tác giả sử dụng bộ tham số sao cho thỏa mãn tiêu chuẩn thông tin Akaike với bộ dữ liệu đầu vào đạt giá trị nhỏ nhất [10]
Đối tượng nghiên cứu của luận văn này là chuỗi thời gian, mà cụ thể là giá đóng cửa chỉ số VN-Index qua các ngày giao dịch Phạm vi nghiên cứu trong luận văn này nhằm giải bài toán dự báo chuỗi thời gian Do đó tác giả tập trung tìm hiểu lý thuyết các phương pháp định lượng áp dụng dự đoán trên chuỗi thời gian bao gồm phân tích hồi quy Gaussian Process, mô hình tự hồi quy trung bình động ARMA Lý thuyết về chuỗi thời gian cũng được tác giả trình bày trong phần tiếp theo của luận văn này Các
Trang 188
phương pháp phân tích định lượng khác kể trên không áp dụng để dự đoán chuỗi thời gian nên tác giả không xem xét nghiên cứu chi tiết về lý thuyết
1.3 Mô hình phân tích định lượng dựa trên chuỗi thời gian
1.3.1 Mô hình chuỗi thời gian
Chuỗi thời gian là một chuỗi các điểm dữ liệu, được đo theo từng khoảnh khắc thời gian liền nhau theo một tần suất thời gian thống nhất Một ví dụ cho chuỗi thời gian là
đầu vào Chuỗi thời gian này có thể phân tích thành bốn thành phần [2]:
Thành phần xu thế (gọi là T t ): Xu thế mang tính chất dài hạn, thể hiện mẫu hình
tăng hay giảm của các giá trị trong chuỗi thời gian Kỹ thuật để xác định giá trị thành phần xu thế tại vị trí k trong chuỗi thời gian là lấy trung bình giá trị tại các điểm liên tiếp trong chuỗi thời gian xung quanh lân cận của điểm đó sao cho độ dài bằng khoảng chu kỳ, và xem đó là giá trị xu thế của chuỗi thời gian tại điểm đó Trong trường hợp chu kỳ lẻ có dạng (2C+1), công thức tính giá trị thành phần xu thế như sau:
dụ với chu kỳ năm ngày, giá trị thành phần xu thế tại điểm k = 10 được tính theo công thức triển khai sau:
Thành phần thời vụ (gọi là S t ): Tính thời vụ thể hiện sự tuần hoàn của dữ liệu chuỗi
thời gian trong một khoảng thời gian xác định Thành phần này thể hiện ảnh hưởng của
mùa vụ như tuần, tháng, quý, năm lên giá trị chuỗi dữ liệu
Thành phần chu kỳ (gọi là C t ): Thành phần này được đặc trưng bởi hệ số biến đổi
mùa, thể hiện sự tăng giảm lặp lại của các giá trị trong chuỗi thời gian theo một giai
Trang 199
đoạn không cố định Khoảng thời gian chu kỳ thường lớn hơn nhiều so với khoảng thời gian mùa vụ trong chuỗi thời gian
Thành phần ngẫu nhiên (gọi là R t ): Là thành phần còn lại sau khi loại bỏ đi ba thành
phần ở trên từ chuỗi thời gian ban đầu Thành phần ngẫu nhiên có tính dừng Tính dừng thể hiện ở hàm tự tương quan (ACF) giữa một điểm với các điểm trong quá khứ là nhỏ,
N
hiện khoảng tin cậy 95% của phân phối Gauss chuẩn kỳ vọng 0 và phương sai 1 (Xem trong Phụ lục 3 – P3)
Có hai cách cơ bản để tổng hợp các thành phần của chuỗi thời gian để thu được chuỗi ban đầu Một là phương pháp cộng, thực hiện bằng cách lấy tổng các thành phần (Yt = Tt + St + Ct + Rt) Hai là phương pháp nhân, thực hiện bằng cách lấy tích các thành phần (Yt = Tt * St * Ct * Rt) Trên thực tế các thư viện hỗ trợ phân tách chuỗi thời
Trong luận văn này tác giả lựa chọn phương pháp cộng khi thực hiện phân tách chuỗi thời gian đầu vào
1.3.2 Mô hình tự hồi quy trung bình động ARMA
Mô hình tự hồi quy trung bình động ARMA là mô hình áp dụng trên chuỗi thời gian
phát triển, sử dụng rộng rãi bởi nhiều các tác giả khác nhau về sau này Mô hình này dựa trên giả định là chuỗi thời gian đầu vào phải có tính dừng Ta có thể hiểu mô hình ARMA là một quá trình được tạo ra bởi từ tổ hợp giữa các giá trị của chuỗi trong quá khứ và các giá trị của nhiễu trong quá khứ và hiện tại.Công thức dưới đây thể hiện mối quan hệ giữa các đại lượng trong mô hình [3]:
lượng các tham số ở vế trái của công thức (1.6) Đại lượng q là số lượng các tham số ở
Trang 20Z ~ WN(0, ) Nhiễu trắng là chuỗi các biến ngẫu nhiên
X 1 X X (1.8) Trong khi đó thành phần trung bình động MA(q) thể hiện sự phụ thuộc tuyến tính với các sai số dự đoán trong quá khứ và hiện tại:
vào công thức (1.10), ta thu đƣợc công thức sau với điều kiện 0 1; j 0 j q :
Trang 21* 2
j 2
thứ i Quá trình xác định bộ tham số cho mô hình ARMA gọi là quá trình suy diễn
mối tương quan xác suất với các giá trị chuỗi thời gian đầu vào đã biết Giá trị bộ tham
số sao cho cực đại hóa hàm logarit xác suất khả năng thể hiện rằng mô hình ARMA
Trang 2212
tương ứng với bộ tham số đó là thỏa mãn nhất với bộ dữ liệu đầu vào đã biết Như vậy, các tham số của mô hình được xác định bằng cực đại hàm logarit xác xuất khả năng cho bởi công thức (1.15) ở trên Phương pháp được sử dụng để giải bài toán tối ưu hàm logarit xác suất khả năng là phương pháp Gradient liên hợp Sau khi xác định các tham
số của mô hình, việc dự đoán tại một điểm kế tiếp thu được bằng cách biến đổi chuỗi
1 t
t
X ;1 t mW
2
p 2
r
r 1 w
bởi công thức số (1.12) Áp dụng giải thuật Innovations (Xem trong phụ lục 1 – P1)
tiếp cho chuỗi thời gian {Wi} là:
Các hệ số nj trong công thức (1.18) được tính từ giải thuật Innovations Từ công
Trang 23Công thức (1.20) thể hiện kết quả dự đoán tại một điểm kế tiếp (n+1) theo mô hình
xác định từ giải thuật Innovations (Xem trong Phụ lục 1 – P1) Mỗi điểm dự đoán được
[3] Khoảng tin cậy 95% đối với kết quả dự đoán theo phương pháp này được cho bởi công thức sau (Xem trong Phụ lục 3 – P3):
1.3.3 Phân tích hồi quy Gaussian Process
Gaussian Process chứa một tập hữu hạn (nhưng không giới hạn) số lượng các biến ngẫu nhiên, mỗi biến ngẫu nhiên có phân phối Gauss Nói cách khác, Gaussian Process
là phân phối trên không gian các hàm f(x) chứ không phải trên không gian các trọng số
Trang 2414
Giá trị của hàm hiệp phương sai k(x, x’) biểu thị sự tương quan giữa các đầu ra f(x)
và f(x’) tương ứng với các biến đầu vào x và x’, nói cách khác nó thể hiện sự phân phối giữa các hàm Ta có thể lấy tổng hoặc tích các hàm hiệp phương sai để có được một hàm hiệp phương sai mới với các tính chất khác biệt so với các hàm hiệp phương sai ban đầu Ma trận K biểu diễn mối tương quan giữa tất cả các biến đầu vào gọi là ma trận hiệp phương sai với kích thước n x n
Hình 1.1 dưới đây minh họa bằng đồ thị cho phân tích hồi quy Gaussian Process:
Hình 1.1: Biểu diễn đồ thị cho phân tích hồi quy Gaussian Process
Trong Hình 1.1 trên, các hình vuông biểu thị các giá trị quan sát được (đã biết) Hình
hàm f1,f2,…,f* có phân phối chuẩn Gauss hình thành nên không gian hàm (Function Space) Trong phân tích hồi quy Gaussian Process, việc lựa chọn hàm hiệp phương sai k(x, x’) đóng vai trò rất quan trọng Có rất nhiều các lớp hàm hiệp phương sai đã được nghiên cứu như hàm lũy thừa bình phương, hàm hữu tỷ bậc hai, v.v Bảng 1.1 dưới đây
Y*Đầu Ra
Không gian hàm
Gaussian Proces
Đầu Vào
Trang 2515
chỉ ra một số lớp hàm hiệp phương sai phổ biến được sử dụng trong phân tích hồi quy Gaussian Process
Bảng 1.1: Một số hàm hiệp phương sai trong Gaussian Process
Hàm lũy thừa bình
phương [4]
2 2
dữ liệu huấn luyện đầu vào; Y = [Y1,Y2,…,Yn]T là tập dữ liệu đầu ra tương ứng, p là số
[ , , ]
là tập các siêu tham số của
vào Trong quá trình suy diễn, ta sử dụng công thức xác suất Bayes như sau [17]:
p(Y | X, f )p(f | X)p(f | Y, X) ; p likelihood * prior
marg
osterior
p(Y |X) inal likelihood
Trong đó p(f | Y, X)gọi là xác suất hậu nghiệm (posterior), p(Y | X, f ) gọi là xác suất
Trang 2616
suất biên (marginal likelihood) Xác suất biên thể hiện sự phụ thuộc của đầu ra Y với đầu vào X nên nó độc lập với xác suất hậu nhiệm Công thức tính xác suất biên là:
p(Y | X)p(Y | X, f )p(f | X)df (1.26) Việc triển khai công thức tính p(Y|X) từ công thức (1.26) cho mô hình phân tích hồi quy Gaussian Process là không đơn giản Ở đây, tác giả xin trình bày kết quả được chứng minh trong tài liệu tham khảo [5] về công thức tính hàm logarit xác suất biên là:
log p(Y | X) Y (K)Y log | K | log 2
Ma trận hiệp phương sai K được định nghĩa trong công thức (1.24) phụ thuộc vào bộ
[ , , ]
, nghĩa là hàm logarit xác suất biên trong công thức (1.27) là hàm của các siêu tham số này Giá trị bộ siêu tham số này được xác định sao cho hàm logarit xác suất biên trong công thức (1.27) đạt giá trị lớn nhất Khi đó mô hình Gaussian Process ứng với bộ siêu tham số tìm được này thỏa mãn
dữ liệu đầu vào cho trước nhất Hàm logarit xác suất biên đạt cực đại tại các đạo hàm riêng phần theo các siêu tham số bằng 0 Công thức tính đạo hàm riêng phần của hàm logarit xác suất biên theo siêu tham số là [5]:
phương sai cho tập huấn luyện kèm các điểm của tập kiểm thử như sau:
*
K(X, X) K(X, X )ˆK
K(X , X) K(X , X )
Trang 27đoán các điểm dữ liệu kiểm thử f* sẽ cho độ chính xác với xác suất bao nhiêu Phân
1
1
ˆˆ
f | X , X, f ~ GP(m, k)ˆ
các điểm kiểm thử X* Gọi *
phân tích hồi quy Gaussian Process là:
Phần một cho ta cái nhìn trên góc độ kinh tế về chỉ số chứng khoán Việt Nam Index và cách tính chỉ số này Đây là đối tƣợng nghiên cứu trong bài toán, do vậy phần này giúp ta hình dung đƣợc ý nghĩa của đối tƣợng đƣợc dự đoán
Trang 28VN-18
Phần thứ hai cho ta cái nhìn tổng quan về các phương pháp được áp dụng để phân tích, dự đoán trên TTCK Trong đó tập trung tìm hiểu các mô hình được sử dụng trong phương pháp phân tích định lượng về chuỗi thời gian Phương pháp phân tích định lượng cho ta cái nhìn khoa học về bài toán dự đoán bằng việc xây dựng các mô hình toán học trên đối tượng được nghiên cứu và áp dụng các giải thuật trên mô hình để thu được kết quả dự đoán, đồng thời kiểm chứng kết quả dự đoán Tất cả đều được tự động hóa với việc sử dụng khả năng tính toán của máy tính
Phần cuối cùng của chương này tác giả tìm hiểu lý thuyết chi tiết về chuỗi thời gian
và hai phương pháp định lượng dự đoán chuỗi thời gian là phân tích hồi quy Gaussian Process và mô hình tự hồi quy trung bình động ARMA Phân tích hồi quy Gaussian Process là một phương pháp mới ra đời đang thu hút được sự quan tâm của các nhà nghiên cứu khoa học Phương pháp này là một trong những phương pháp phân tích hồi quy phi tham số, được áp dụng trong học máy nhằm tìm kiếm các mẫu hình trên bộ dữ liệu huấn luyện Mô hình tự hồi quy trung bình động ARMA là một trong những phương pháp phân tích hồi quy có tham số, được lựa chọn như mô hình tiêu biểu trong kinh tế lượng về dự đoán chuỗi thời gian Với mỗi mô hình, tác giả trình bày cơ sở lý thuyết và suy diễn để thu được kết quả dự đoán Phần tiếp theo tác giả trình bày về việc xây dựng phương pháp dự đoán kết hợp dựa trên lý thuyết các mô hình này
Trang 2919
CHƯƠNG 2: XÂY DỰNG PHƯƠNG PHÁP KẾT HỢP GPR-ARMA
DỰ ĐOÁN CHUỖI THỜI GIAN
Chương này trình bày các vấn đề sau:
o Phân tích các thành phần của chuỗi thời gian
2.1 Xây dựng mô hình dữ liệu đầu vào
2.1.1 Mô tả tập dữ liệu bài toán
Đối với bài toán dự đoán TTCK việc xác định tập dữ liệu đầu vào đóng vai trò quan trọng ảnh hưởng trực tiếp đến cách tiệp cận của phương pháp nghiên cứu giải bài toán này Do vậy trước khi đi vào trình bày phương pháp kết hợp GPR-ARMA, tác giả tập trung trình bày và phân tích tập dữ liệu đầu vào của phương pháp Phạm vi nghiên cứu của phương pháp trình bày trong luận văn là bài toán dự đoán chuỗi thời gian Đối tượng nghiên cứu của phương pháp trình bày trong luận văn này là giá đóng cửa chỉ số chứng khoán Việt Nam VN-Index là một chuỗi thời gian Tập dữ liệu đầu vào của phương pháp là chuỗi thời gian giá đóng cửa chỉ số VN-Index qua các ngày giao dịch Hình 2.1 dưới đây biểu diễn trực quan cho tập dữ liệu này, trong đó trục hoành thể hiện thời gian các ngày giao dịch của TTCK Việt Nam từ 02 tháng 01 năm 2009 tới 28 tháng 02 năm 2017 Trục tung là giá đóng cửa chỉ số VN-Index tại các ngày giao dịch tương ứng Như ta biết chỉ số VN-Index là tổng hòa biến động giá của tất cả các cổ phiếu niêm yết trên sàn HOSE – sàn giao dịch chứng khoán lớn nhất Việt Nam hiện tại Đối với cổ phiếu của một công ty riêng lẻ, nhất là các công ty nhỏ, giá (đóng cửa) trên sàn giao dịch chứng khoán “có khả năng” bị chi phối bởi một số cá nhân, tổ chức nào
Trang 3020
đó Ở tầm vĩ mô của chỉ số VN-Index, không thể có một cá nhân hay tổ chức nào có khả năng chi phối chỉ số này Nói cách khác, các quy luật cung cầu thị trường, yếu tố tâm lý nhà đầu tư, các biến động chính trị, tự nhiên, xã hội trong và ngoài nước, v.v đã được phản ảnh qua chỉ số này Trên thực tế chỉ số VN-Index thường được sử dụng để đánh giá độ tăng trưởng của toàn bộ nền kinh tế Điều này là phù hợp với giả thuyết căn bản của phân tích kỹ thuật khi cho rằng tất cả các thông tin trên thị trường được phản ánh vào giá [1]
Hình 2.1: Biểu đồ dữ liệu lịch sử giá đóng cửa chỉ số VN-Index
Hơn nữa, phương pháp phân tích định lượng dựa trên một giả thiết đó là các yếu tố được thiết lập trong quá khứ và hiện tại sẽ lặp lại trong tương lai Giả thiết này cũng tương đồng với giả thiết của phương pháp phân tích kỹ thuật khi cho rằng lịch sử có tính lặp lại Nghĩa là tâm lý các nhà đầu tư có xu hướng phản ứng ở hiện tại tương tự như những gì đã xảy ra ở quá khứ trong cùng điều kiện [1] Nói cách khác dữ liệu lịch
sử giá đóng cửa chỉ số VN-Index có thể được sử dụng để dự đoán giá đóng cửa chỉ số VN-Index trong tương lai
Việc dự đoán đúng giá đóng cửa chỉ số VN-Index trong tương lai có một ý nghĩa thực tiễn nhất định, giúp cho nhà đầu tư có thể hiện thực hóa lợi nhuận từ TTCK Ta có nhận xét là số lượng cổ phiếu của các công ty niêm yết trên TTCK thường ít thay đổi
Trang 3121
theo thời gian Trường hợp có thay đổi số lượng cổ phiếu niêm yết, các công ty phải công khai thông tin trước một khoảng thời gian cho các nhà đầu tư và tuân theo một
niêm yết của công ty tại thời điểm hiện tại và tại thời điểm cơ sở trong công thức (1.2)
và (1.3) có thể coi như hằng số xác định Giá niêm yết của công ty tại thời điểm cơ sở
(1.3) ta nhận thấy giá đóng cửa của chỉ số VN-Index chỉ phụ thuộc vào giá đóng cửa
lượng niêm yết nhỏ nhất trong số các công ty niêm yết trên sàn HOSE Thay công thức (1.2), (1.3) vào (1.1) ta thu được:
it
q(p * )Q
trong ngày kế tiếp Ta xây dựng một chiến lược đầu tư dựa trên kết quả dự đoán này
thời điểm mở cửa ngày giao dịch kế tiếp nhà đầu tư thực hiện mua vào cổ phiếu của tất
cả các công ty niêm yết trên sàn HOSE với giá bằng giá tham chiếu (chính là giá đóng
Trang 3222
min
q
khả thi vì ở thời điểm hiện tại Qmincó độ lớn cỡ hàng triệu đơn vị, do đó giá trị của tỉ số
it
min
q
Q là nhỏ Vào cuối phiên giao dịch, nhà đầu tư thực hiện bán toàn bộ các cổ phiếu
đã mua tại thời điểm mở cửa với giá bằng giá đóng cửa Trong trường hợp dự đoán chỉ
(CP CP ),nhà đầu tư thay vì mua vào cổ phiếu ở đầu phiên như trên thì thực hiện bán ra ở đầu phiên và mua vào ở cuối phiên Có thể thấy số vốn mà nhà đầu tư bỏ ra cho chiến lược đầu tư này là
nhà đầu tư thu được từ chiến lược đầu tư này trong ngày giao dịch kế tiếp trong trường hợp dự đoán đúng xu thế giá đóng cửa chỉ số VN-Index là:
VN-2.1.2 Phân tích dữ liệu lịch sử chỉ số VN-Index
Quá trình phân tích dữ liệu đầu vào giúp tác giả có thể thực hiện biến đổi dữ liệu đầu vào phù hợp để thỏa mãn điều kiện đầu vào và khai thác những ưu điểm của từng phương pháp dự đoán được tác giả sử dụng
Trang 3323
Trước tiên là quá trình phân tách chuỗi thời gian dữ liệu lịch sử chỉ số VN-Index Tác giả thực hiện phân tách chuỗi thời gian đầu vào thành ba thành phần theo phương pháp cộng: thành phần xu thế, thành phần thời vụ và thành phần ngẫu nhiên Thành phần thời vụ thể hiện tính lặp lại của dữ liệu, nó có tính tuần hoàn Ta phải chỉ ra chu
kỳ cho thành phần thời vụ Trong luận văn này sử dụng chu kỳ là 5 ngày Thành phần
xu thế được tính theo phương pháp trung bình động từ hai phía cho bởi công thức sau:
Trong công thức (2.3), XTi là giá trị chuỗi thời gian xu thế tại điểm thứ i; Xi là giá trị
x’, nhận giá trị 0 nếu x khác x’ Mẫu số trong công thức (2.3) có ý nghĩa là số lượng các giá trị XTi khác 0 trong khoảng lân cận 2 quanh điểm Ti Các giá trị
Ti
thời vụ được tính toán từ chuỗi thời gian đầu vào trừ đi thành phần xu thế tính toán được từ công thức (2.3) ở trên, sau đó lấy trung bình giá trị tại các điểm tương ứng trong mỗi chu kỳ ta thu được mảng năm giá trị Cuối cùng lấy từng phần tử trong mảng này trừ đi giá trị trung bình của năm phần tử đó, lặp lại theo chu kỳ các giá trị này ta sẽ thu được chuỗi thời vụ Chuỗi ngẫu nhiên thu được bằng cách lấy giá trị chuỗi thời gian đầu vào trừ đi giá trị chuỗi xu thế và chuỗi thời vụ tính toán được với mỗi điểm tương ứng Hình (2.2) dưới đây minh họa cho ta các thành phần bóc tách được từ chuỗi thời gian ban đầu Đồ thị trên cùng là chuỗi thời gian giá đóng cửa chỉ số VN-Index Đồ thị thứ hai là chuỗi thời gian thành phần xu thế, tiếp đến là chuỗi thời gian thành phần thời
vụ và cuối cùng là chuỗi thời gian thành phần ngẫu nhiên Trong hình 2.2 ta thấy phương pháp lấy trung bình động không những làm cho đường xu thế “trơn” hơn, hay thể hiện xu thế rõ ràng hơn mà nó còn tận dụng được ưu điểm từ phương pháp trung bình động (Moving Average) với nhận xét là giá thường có xu hướng dịch chuyển về giá trị trung bình trong một khoảng chu kỳ Thành phần thời vụ có tính chu kỳ nghĩa là giá trị của chuỗi sẽ được lặp lại, nên ta không xem xét đến trong quá trình dự đoán Do
Trang 34thời gian ta có thể sử dụng biểu đồ tự tương quan thông qua việc xác định hàm tự tương quan (ACF) Giả sử một chuỗi thời gian (X1,X2,…,Xn) có kỳ vọng và phương sai 2
khi đó độ tương quan giữa hai điểm thời gian t1 và t2 (t1 < t2) của chuỗi được tính thông qua độ trễ thời gian (lags) giữa hai điểm đó t2 t1 , cho bởi công thức:
n
phân phối chuẩn (CI=1.96) và n là kích thước chuỗi thời gian Một chuỗi được coi là dừng khi hầu hết các giá trị hàm tự tương quan nằm trong dải hai đường chuẩn Hình 2.3 dưới đây biểu diễn đồ thị hàm tự tương quan chuỗi ngẫu nhiên:
Trang 3525
Hình 2.3: Biểu đồ tự tương quan thành phần ngẫu nhiên
Từ Hình 2.3 ta thấy ngoài điểm lags = 0 nhận giá trị 1 (vì một điểm là tự tương quan với chính nó), còn lại hầu hết tại các độ trễ khác của hàm tự tương quan nằm trong dải hai đường chuẩn màu tím tương ứng với độ tin cậy 95% Từ đó có thể xem thành phần ngẫu nhiên có tính dừng Hơn thế ta biểu diễn phân bố các giá trị trong thành phần ngẫu nhiên trong Hình 2.4 dưới đây Từ Hình 2.4 có thể nhận thấy phân bố này tiệm cận với phân phối chuẩn (đường màu tím) Trên thực tế phân phối chuẩn thường được
sử dụng để biểu diễn cho các quá trình ngẫu nhiên
Hình 2.4: Phân phối các giá trị của thành phần ngẫu nhiên Tương tự như việc kiểm tra tính dừng của chuỗi thời gian đầu vào ở trên, có thể nhận thấy chuỗi xu thế không có tính dừng (Xem phụ lục 2 – P2) Ta phải tìm cách
Trang 3626
biến đổi thành phần xu thế để thu được một thành phần mới có tính dừng Một trong những cách biến đổi cơ bản đó là: đầu tiên lấy logarit cơ số tự nhiên các giá trị trong thành phần xu thế, sau đó lấy sai phân bậc một của thành phần này ta sẽ thu được thành phần mới Do tính chất của hàm logarit, việc lấy logarit thành phần xu thế làm giảm khoảng cách giữa các giá trị trong thành phần xu thế, tiếp đó lấy sai phân bậc một để tăng tính độc lập giữa các điểm trong thành phần biến đổi xu thế Biểu đồ tự tương quan của thành phần biến đổi này cho trong hình 2.5 dưới đây Có thể nhận thấy từ biểu
đồ này là cách biến đổi ở trên làm giảm đáng kể độ tương quan giữa một điểm với các điểm khác trong quá khứ, hay nói cách khác làm tăng tính độc lập giữa các điểm trong chuỗi thời gian Từ đó giúp cho việc xây dựng các mô hình dự đoán xác suất với giả thiết độc lập giữa các điểm hoạt động hiệu quả hơn
Hình 2.5: Biểu đồ tự tương quan thành phần biến đổi của xu thế
Tiếp đến ta xem xét đến phân bố giá trị các điểm trong chuỗi thành phần xu thế biến đổi diff(log(trend)) như chỉ ra trong Hình 2.6 dưới đây Tương tự như phân bố của thành phần ngẫu nhiên, ta có thể thấy phân bố này có hình chuông gần giống với phân phối Gauss (đường màu tím) Chuỗi biến đổi thành phần xu thế được sử dụng là đầu vào cho phương pháp dự đoán phân tích hồi quy Gaussian Process là một phần của phương pháp kết hợp GPR-ARMA được đề xuất
Trang 3727
Hình 2.6: Phân phối các giá trị thành phần xu thế biến đổi
2.2 Phương pháp dự đoán chuỗi thời gian GPR-ARMA
Trong phần này tác giả trình bày phương pháp gọi là GPR-ARMA kết hợp phân tích hồi quy Gaussian Process và mô hình tự hồi quy trung bình động ARMA để dự đoán cho một điểm kế tiếp trong chuỗi thời gian Trong mục 1.2 của luận văn này tác giả đã trình bày một số mô hình được sử dụng trong phương pháp định lượng để dự đoán TTCK Mỗi mô hình có những ưu điểm và nhược điểm và được áp dụng trên các bộ dữ liệu khác nhau Trong số các mô hình được tìm hiểu tác giả nhận thấy có phân tích hồi quy Gaussian Process và mô hình tự hồi quy trung bình động ARMA được áp dụng để
dự đoán trên chuỗi thời gian Các mô hình khác áp dụng dự đoán trên bộ dữ liệu khá phức tạp không chỉ đơn thuần là chuỗi thời gian Đối tượng nghiên cứu của luận văn này chuỗi thời gian và phạm vi nghiên cứu của luận văn là dự đoán chuỗi thời gian Do
đó tác giả tập trung tìm hiểu hai mô hình là phân tích hồi quy Gaussian Process và mô hình tự hồi quy trung bình động ARMA, phân tích những ưu điểm và nhược điểm của từng mô hình Phân tích hồi quy Gaussian Process có ưu điểm là khả năng phát hiện các mẫu hình (xu thế) nhờ khả năng “học máy” dựa trên bộ dữ liệu lịch sử đầu vào đủ dài [5, 6] Nhược điểm của mô hình này đòi hỏi dữ liệu đầu vào phải thể hiện xu thế rõ ràng, hay dữ liệu đầu vào không có nhiễu hoặc nhiễu rất nhỏ Mô hình tự hồi quy trung
Trang 3828
bình động ARMA có ưu điểm là khả năng dự đoán tốt một điểm kế tiếp dựa trên bộ dữ liệu đầu vào kích thước nhỏ Mô hình này phù hợp để dự đoán các chuỗi thời gian ngẫu nhiên có tính dừng Vì tính dừng thể hiện độ tương quan nhỏ giữa các điểm dữ liệu, do
đó giá trị kế tiếp trong chuỗi thời gian chỉ phụ thuộc vào một hay một vài điểm trước
đó Từ kết quả phân tách các thành phần chuỗi thời gian đầu vào như chỉ ra trong mục 2.1.2 ở trên, tác giả nhận thấy việc sử dụng phân tích hồi quy Gaussian Process để dự đoán chuỗi xu thế, sử dụng mô hình tự hồi quy trung bình động ARMA để dự đoán chuỗi ngẫu nhiên là một sự kết hợp tốt nhằm khai thác những ưu điểm, khắc phục những nhược điểm của từng phương pháp trong bài toán dự đoán chuỗi thời gian Chuỗi thời gian xu thế thể hiện biến thiên “trơn” hơn chuỗi thời gian ban đầu, hay nói cách khác xu thế thể hiện rõ ràng hơn trên chuỗi thời gian thành phần xu thế Lý do là
vì chuỗi xu thế đã được loại bỏ nhiễu, chính là thành phần ngẫu nhiên Do đó, chuỗi thời gian xu thế là đầu vào hợp lý cho phương pháp phân tích hồi quy Gaussian Process nhằm tăng độ chính xác kết quả dự đoán chuỗi xu thế Chuỗi thời gian thành phần ngẫu nhiên là chuỗi thời gian có tính dừng, thỏa mãn điều kiện dữ liệu đầu vào cho mô hình
tự hồi quy trung bình động ARMA Kết quả dự đoán các chuỗi thành phần theo từng
mô hình được tổng hợp theo phương pháp cộng để thu được kết quả dự đoán chuỗi thời gian ban đầu Hình 2.7 dưới đây mô tả trình tự các bước thực hiện để giải quyết bài toán dự đoán chuỗi thời gian theo phương pháp GPR-ARMA:
Hình 2.7: Các bước thực hiện trong phương pháp GPR-ARMA
2
3
4