Lý do chọn đề tài Hiện nay, các nghiên cứu về dữ liệu chuỗi thời gian đem lại những ứng dụng quan trọng, mang tính thực tế cao trong các lĩnh vực như thống kê, tài chính, dự báo thiên t
Trang 1NGUYỄN MINH TIẾN
ỨNG DỤNG SVM TRONG DỰ BÁO TÀI CHÍNH
THEO CHUỖI THỜI GIAN
Chuyên ngành : Khoa học máy tính
Người hướng dẫn: TS LÊ XUÂN VIỆT
Bình Định – Năm 2021
Trang 2LỜI CAM ĐOAN
Tôi xin cam đoan toàn bộ nội dung của luận văn với đề tài: “Ứng dụng
SVM trong dự báo tài chính theo chuỗi thời gian” này là do tôi thực hiện dưới
sự hướng dẫn trực tiếp của TS Lê Xuân Việt - Trường Đại học Quy Nhơn Phần thực nghiệm chương trình đều do tôi tự xây dựng có sự hướng dẫn của giảng viên, trong đó có sử dụng một số thư viện chuẩn và các thuật toán được các tác giả xuất bản công khai Kết quả thực nghiệm được minh họa trong luận văn là trung thực
Nội dung luận văn này chưa từng được công bố hay xuất bản dưới bất
kỳ hình thức nào Các tài liệu tham khảo được sử dụng trong luận văn có nguồn gốc rõ ràng và trích dẫn chính xác, đầy đủ Nếu sai tôi xin hoàn toàn chịu trách nhiệm
Phù Cát, ngày tháng năm 2021
Người cam đoan
Nguyễn Minh Tiến
Trang 3
LỜI CẢM ƠN
Trong quá trình nghiên cứu luận văn, mặc dù vẫn còn gặp rất nhiều khó khăn, nhưng tôi vẫn luôn nhận được sự quan tâm, giúp đỡ của quý thầy cô, bạn bè và người thân Đây là nguồn động lực lớn giúp tôi hoàn thành đề tài luận văn này
Tôi xin gửi lời cảm ơn chân thành và lòng biết ơn sâu sắc nhất đến quý Thầy (Cô), những người đã nuôi dưỡng và chắp cánh ước mơ cho bản thân tôi đến với con đường nghiên cứu khoa học đầy đam mê, đặc biệt là TS Lê Xuân Việt - Trường Đại học Qui Nhơn Với tâm huyết của mình, thầy đã chỉ bảo
tận tình chu đáo để bản thân hoàn thành tốt công việc của mình
Và cũng xin cảm ơn các cán bộ, nhân viên phòng Đào tạo Sau đại học, trường Đại học Quy Nhơn đã tạo điều kiện tốt nhất cho tôi trong suốt quá trình học tập tại trường
Cuối cùng, cho tôi được gửi lời biết ơn đến gia đình, bạn bè cùng tất cả những người thân, luôn bên cạnh động viên bản thân tôi trong suốt thời gian học tập và nghiên cứu
Kính chúc quý Thầy (Cô) và các anh chị em trong lớp cao học ngành Khoa học Máy tính khóa 22 sức khỏe, hạnh phúc và thành đạt
Xin chân thành cảm ơn!
Nguyễn Minh Tiến
Trang 4MỤC LỤC
Trang
LỜI CAM ĐOAN
LỜI CẢM ƠN
DANH MỤC CÁC CHỮ VIẾT TẮT
DANH MỤC CÁC HÌNH ẢNH
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục đích nghiên cứu 2
3 Đối tượng và phạm vi nghiên cứu 2
4 Phương pháp nghiên cứu 2
5 Ý nghĩa khoa học và thực tiễn của đề tài 2
Chương 1 TỔNG QUAN VỀ CHUỖI THỜI GIAN 4
1.1 Giới thiệu về chuỗi thời gian 4
1.1.1 Độ nhiễu 6
1.1.2 Tính không cố định 7
1.1.3 Tính không chắc chắn 8
1.1.4 Tính xu hướng 8
1.1.5 Tính chu kỳ 9
1.2 Các khung dự báo chuỗi thời gian 9
1.3 Các kỹ thuật xử lý chuỗi thời gian 11
1.3.1 Xử lý dữ liệu 11
1.3.2 Kỹ thuật làm mịn 11
1.3.3 Differencing (Làm khác) 13
1.4 Quy trình dự báo 14
1.5 Một số mô hình dự báo chuỗi thời gian 15
1.5.1 Mô hình tuyến tính 15
1.5.2 Mô hình phi tuyến tính 16
Trang 51.5.3 Mô hình ARMA 18
1.5.4 Mô hình SMA 19
1.5.5 Mô hình LSTM 21
1.5.6 Mô hình SVM 23
1.6 Kết luận chương 1 24
CHƯƠNG 2 ỨNG DỤNG SVM TRONG DỰ BÁO CHUỖI THỜI GIAN TÀI CHÍNH 25
2.1 Mô hình SVC 25
2.2 Vector hỗ trợ hồi quy (SVR) 28
2.3 Các loại hàm kernel được sử dụng trong SVM 35
2.3.1 Cơ sở toán học của hàm kernel 38
2.3.2 Tính chất của các hàm kernel 41
2.3.3 Một số hàm kernel thông dụng 42
2.4 Các ứng dụng của SVR trong dự đoán chuỗi thời gian tài chính 43 2.5 Đánh giá độ chính xác với MAPE 45
2.6 Phương pháp dự báo dựa vào mô hình SVR 46
2.7 Kết luận chương 2 49
CHƯƠNG 3 THỬ NGHIỆM 50
3.1 Giới thiệu bài toán 50
3.2 Chi tiết hóa 50
3.3 Dữ liệu 52
3.4 Cài đặt thực nghiệm 52
3.6 Kết luận chương 3 56
KẾT LUẬN 57
TÀI LIỆU THAM KHẢO 59
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN THẠC SĨ (BẢN SAO)
Trang 6DANH MỤC CÁC CHỮ VIẾT TẮT
SVM Support Vector Machine Máy hỗ trợ vector
LSTM Long-short term memory Bộ nhớ dài-ngắn hạn
SVC Support Vector Classifier Vector hỗ trợ phân loại
SVR Support Vector Regression Vector hỗ trợ hồi quy
ANN Artificial neural network Mạng thần kinh nhân tạo SMA Simple moving average Đường trung bình động đơn
giản EMA Exponential moving average Đường trung bình động hàm
mũ ARIMA AutoRegressive Integrate
Moving Average
Trung bình trượt kết hợp tự hồi quy
ARMA Autoregressive moving average Tự hồi quy trung bình trượt SNR Signal-To-Noise Ratio Chỉ số đo lường công suất tín
hiệu và độ nhiễu
Trang 7DANH MỤC CÁC HÌNH ẢNH
1.2 Các giai đoạn xây dựng mô hình và dự báo của một hệ
2.1 Bài toán phân loại nhị phân tuyến tính 25
2.4 Minh họa hàm lỗi thông thường và hàm lỗi độ nhạy 30
2.8 Mô hình chuỗi thời gian của lịch sử giá cổ phiếu công ty
2.9 Sơ đồ sử dụng phương pháp GridSearch 49 3.1 Trích một phần trong bộ dữ liệu AAPL_30.CSV 52 3.2 Mô hình thể hiện kết quả dự đoán giữa các kernel 55
Trang 8MỞ ĐẦU
1 Lý do chọn đề tài
Hiện nay, các nghiên cứu về dữ liệu chuỗi thời gian đem lại những ứng dụng quan trọng, mang tính thực tế cao trong các lĩnh vực như thống kê, tài chính, dự báo thiên tai, xử lý dữ liệu số,… Một trong số đó là bài toán Dự báo chuỗi thời gian (hay dự báo các giá trị tương lai của chuỗi thời gian từ các giá trị trong quá khứ) kết hợp xây dựng mô hình dự báo thích hợp
Dự báo tài chính theo chuỗi thời gian được coi là một trong những ứng dụng thách thức nhất của dự đoán chuỗi thời gian hiện đại
Đã có nhiều nghiên cứu sử dụng mạng nơron nhân tạo (ANN) và một
số lượng lớn các ứng dụng thành công cho thấy rằng ANN là một công cụ hữu ích để lập mô hình và dự báo chuỗi thời gian Tuy nhiên, một số nghiên cứu chỉ ra rằng ANN gặp một số hạn chế vì dữ liệu chứng khoán tài chính có
độ nhiễu lớn và số chiều phức tạp
Gần đây, máy hỗ trợ vector (SVM), một thuật toán mạng nơron mới, đã được phát triển bởi Vapnik và cộng sự Không giống các mạng nơron truyền thống khác khi tối thiểu hóa rủi ro trên một tập dữ liệu hữu hạn, SVM thực hiện nguyên tắc giảm thiểu cấu trúc rủi ro bằng cách giảm cận trên của lỗi tổng quát thay vì lỗi đào tạo Dựa trên nguyên tắc này, SVM đảm bảo một mạng nơron tối ưu, tạo ra một sự cân bằng phù hợp giữa lỗi thực nghiệm và khoảng tin cậy Vapnik - Chervonenkis (VC)[1] Ngoài ra, giải pháp của SVM
có thể tổng quát hóa tốt hơn và tối ưu toàn mạng nơron, trong khi các mô hình xây dựng mạng khác chỉ có thể tối ưu cục bộ Đề tài này tập trung nghiên cứu SVM và áp dụng SVM vào dự báo tài chính theo chuỗi thời gian, đồng thời so sánh tính khả thi của nó với các mạng ANN trong dự báo theo chuỗi thời gian
Trang 9Từ những lý do ở trên, tôi chọn đề tài “ỨNG DỤNG SVM TRONG
DỰ BÁO TÀI CHÍNH THEO CHUỖI THỜI GIAN”
2 Mục đích nghiên cứu
Tìm hiểu và nghiên cứu giải pháp SVM Kiểm tra tính khả thi của việc ứng dụng SVM trong dự báo tài chính bằng cách sử dụng các hàm kernel khác nhau, đồng thời so sánh độ chính xác Ứng dụng SVM trong dự báo tài chính theo chuỗi thời gian và khảo sát các đặc điểm chức năng được thể hiện
3 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu:
Dữ liệu chứng khoán dạng chuỗi thời gian, các thuật toán thực hiện dự báo chuỗi thời gian
3.2 Phạm vi nghiên cứu:
Phạm vi nghiên cứu của đề tài này là ứng dụng mô hình SVM vào dự báo dữ liệu chứng khoán chuỗi thời gian Như vậy, đề tài cần các dữ liệu chứng khoán của một hoặc một số công ty trên các sàn chứng khoán để xây dựng cơ sở dữ liệu, từ đó tiến hành dự báo giá trị chứng khoán cho công ty đó trong thời điểm tương lai nhất định
4 Phương pháp nghiên cứu
Phương pháp nghiên cứu của đề tài được lựa chọn là lý thuyết kết hợp với thực nghiệm Các vấn đề cần giải quyết liên quan đến các thuật toán và lý thuyết về chuỗi thời gian, cũng như về học máy và mạng nơron nhân tạo Phân tích, dự báo tài chính chuỗi thời gian được thực hiện trên máy tính với đầu vào là các thông tin thu nhận được từ thực tế
5 Ý nghĩa khoa học và thực tiễn của đề tài
Những giá trị khoa học và thực tiễn của đề tài:
- Các mô hình dựa trên SVM được phát triển và tính khả thi của việc ứng dụng các mô hình này vào dự đoán giá chứng khoán được kiểm chứng
Trang 10- Sự kết hợp tốt nhất của các thông số SVR có thể được sử dụng để xây dựng các mô hình SVR được xác định cho từng dữ liệu cổ phiếu và so sánh điểm tương đồng giữa các giá trị này
- So sánh hiệu suất và độ chính xác giữa các hàm kernel của mô hình SVR khi ứng dụng cho chuỗi thời gian tài chính
NỘI DUNG CHÍNH
Nội dung của đề tài được chia thành 3 chương
Chương 1: Tổng quan về chuỗi thời gian và bài toán dự đoán chuỗi thời gian
Trong chương này, đề tài giới thiệu tổng quan về các khái niệm cơ bản trong lĩnh vực chuỗi thời gian, các kỹ thuật và mô hình được sử dụng để phân tích và dự đoán chuỗi thời gian
Chương 2: Ứng dụng mô hình SVR vào bài toán dự đoán chuỗi thời gian
Lý thuyết về mô hình SVM và SVR Ứng dụng SVR để dự đoán chuỗi thời gian Kỹ thuật GridSearch tối ưu tham số và MAPE để đánh giá hiệu suất
mô hình
Chương 3: Chương trình thử nghiệm
Giới thiệu bài toán, mô tả tập dữ liệu đầu vào được sử dụng, cài đặt thử nghiệm, và đánh giá kết quả thực nghiệm khi giải quyết bài toán theo thực tế
Trang 11
Chương 1 TỔNG QUAN VỀ CHUỖI THỜI GIAN
1.1 Giới thiệu về chuỗi thời gian
Dự báo là một nhu cầu không thể thiếu cho những hoạt động của con người trong bối cảnh bùng nổ thông tin Dự báo sẽ cung cấp những cơ sở cần thiết cho các hoạch định vĩ mô hoặc vi mô, và có thể nói rằng nếu không có khoa học dự báo thì những dự định tương lai của con người vạch ra sẽ không
có sự thuyết phục đáng kể Hiện nay, khoa học dự báo đang là môn học của một số trường đại học trên thế giới và trở thành một trong những phần quan trọng ở các đơn vị kinh doanh cũng như các bộ phận hoạch định chiến lược
Trong công tác phân tích dự báo, vấn đề quan trọng hàng đầu cần đặt ra
là việc nắm bắt tối đa thông tin về lĩnh vực dự báo Thông tin ở đây có thể hiểu một các cụ thể gồm:
(1) Các số liệu quá khứ của lĩnh vực dự báo
(2) Diễn biến tình hình hiện trạng cũng như động thái phát triển của lĩnh vực dự báo
(3) Đánh giá một cách đầy đủ nhất các nhân tố ảnh hưởng cả về định lượng lẫn định tính
Căn cứ vào nội dung phương pháp và mục đích của dự báo, người ta chia dự báo thành hai loại:
+ Phương pháp định tính
+ Phương pháp định lượng
Phương pháp định tính thường phụ thuộc rất nhiều vào kinh nghiệm
của một hay nhiều chuyên gia trong lĩnh vực liên quan Phương pháp này thường được áp dụng, kết quả dự báo sẽ được các chuyên gia trong lĩnh vực liên quan nhận xét, đánh giá và đưa ra kết luận cuối cùng
Phương pháp định lượng sử dụng những dữ liệu quá khứ theo thời
Trang 12gian, dựa trên dữ liệu lịch sử để phát hiện chiều hướng vận động của đối tượng phù hợp với mô hình toán học nào đó và đồng thời sử dụng mô hình này để ước lượng Tiếp cận định lượng dựa trên giả định rằng giá trị tương lai của biến số dự báo sẽ phụ thuộc vào xu thế vận động của đối tượng trong quá khứ Phương pháp dự báo theo chuỗi thời gian là một phương pháp định lượng
Phương pháp chuỗi thời gian một chiều sẽ dựa trên việc phân tích chuỗi quan sát của một biến duy nhất theo biến số độc lập là thời gian Giả định chủ yếu là biến số dự báo sẽ giữ nguyên chiều hướng phát triển đã xảy
ra trong quá khứ và hiện tại
Những dữ liệu quan sát liên tục cho một hiện tượng (vật lý, kinh tế ) trong một khoảng thời gian sẽ tạo nên một chuỗi thời gian Ví dụ, doanh số của công ty trong 20 năm gần đây, hoặc nhiệt độ ghi nhận tại một trạm quan trắc khí tượng, hoặc công suất điện năng tiêu thụ trong một nhà máy, đó là các ví dụ điển hình cho một chuỗi thời gian
Dữ liệu chuỗi thời gian là một tập hợp các quan sát liên tục xảy ra ở các khoảng thời gian cách đều nhau, có thể được ghi lại hàng ngày, hàng tuần, hàng tháng, hàng quý hoặc hàng năm Giá đóng cửa cổ phiếu được xem xét trong đề tài này được ghi nhận hàng ngày ngoại trừ trong các khung thời gian nghỉ như cuối tuần Có nhiều dữ liệu dựa trên thời gian trong thế giới thực bao gồm giá của các cổ phiếu hằng ngày, nhiệt độ trung bình hằng ngày của một thành phố, hay thống kê số lượng hàng bán được trong ngày của một cửa hàng Chuỗi thời gian tài chính là một trong những chuỗi thời gian được phân tích rộng rãi nhất vì mức độ quan trọng về kinh tế của nó; tuy nhiên, đó là một
dữ liệu bất thường vì các tính chất đặc thù của nó
Trang 13Hình 1.1 Một chuỗi thời gian điển hình
Phân loại chuỗi thời gian:
Chuỗi rời rạc: Nếu tập quan sát là rời rạc, các lần thực hiện quan sát được thực hiện rời rạc
Chuỗi liên tục: Nếu tập quan sát là liên tục, các lần quan sát được thực hiện liên tục trong một khoảng thời gian
Có thể nói phần lớn dữ liệu phụ thuộc thời gian phản ánh các hoạt động của đời sống kinh tế - xã hội thường được đo tại các mốc thời gian cách đều nhau nên trong luận văn này chỉ quan tâm đến chuỗi thời gian rời rạc, ở đó các quan sát được đo trong các khoảng thời gian như nhau với phương pháp
đo cố định
Như vậy, chuỗi thời gian là một tập các giá trị các quan sát biến ngẫu
nhiên {z t} đo được trong các khoảng thời gian như nhau (hàng năm, quý, tháng, tuần, ngày,…) và được xếp theo thứ tự thời gian với các đặc điểm có thể kể đến như:
1.1.1 Độ nhiễu
Dữ liệu chuỗi thời gian tài chính thường có tỷ lệ tín hiệu trên nhiễu (SNR) tương đối thấp, điều này chỉ ra rằng hầu hết các yếu tố chịu trách
Trang 14nhiệm cho dữ liệu thực tế không thể được tính vào hay giải thích được SNR
là độ lớn tương đối của thông tin hữu ích trong dữ liệu so với độ không đảm bảo hoặc nhiễu được nhúng Để tránh việc mô hình hóa độ nhiễu trong dữ liệu, một số độ nhiễu thường được giảm hoặc loại bỏ bằng cách sử dụng các
kỹ thuật như làm mịn hoặc lọc, nhưng điều này tạo ra vấn đề độ trễ Vấn đề
độ trễ này xảy ra khi bộ làm mịn đang theo dõi chuỗi dữ liệu thực mà không nói cho chúng ta biết về tương lai của chuỗi dữ liệu Trong kịch bản như thế,
mô hình chỉ có thể đưa ra dự báo cho rất ít các kỳ thời gian trước
Ngoài ra, việc loại bỏ hoặc giảm độ nhiễu cũng không thể đảm bảo một
mô hình chính xác bởi vì độ nhiễu là một phần của môi trường hệ thống tổng thể trong đó các giao dịch tài chính diễn ra và đại diện cho các yếu tố định tính thúc đẩy lĩnh vực đó Một chiến lược khả thi có thể kể đến đó là phát triển các mô hình mà có khả năng kết hợp ý nghĩa của các độ nhiễu như vậy
dữ liệu kiểm thử đặc biệt dành cho chuỗi thời gian không cố định, vì tính không ổn định trong bộ thử nghiệm chưa được xác định bởi mô hình
Trang 151.1.3 Tính không chắc chắn
Thế giới tài chính tràn đầy sự rủi ro và không chắc chắn Rủi ro được đặc trưng bởi sự ngẫu nhiên mà các khả năng xảy ra cần được đo lường một cách chính xác trong khi mức độ không chắc chắn được thể hiện khi sự ngẫu nhiên là vô hạn và không thể tính toán được Mức độ không chắc chắn trong
dữ liệu tài chính tăng lên từ một số nguồn và có thể xảy ra ở các mức độ khác nhau Một số mô hình có thể được phát triển và thành lập dựa trên khái niệm
sử dụng phương sai/ độ lệch chuẩn của chuỗi dữ liệu để ước tính mức độ không đảm bảo của nó (Dionísio và cộng sự, 2005) Trọng tâm để triển khai hiệu quả chiến lược sẽ là sự hiểu biết cơ bản về các nguồn gốc của sự không chắc chắn, và phát triển các mô hình đã được thiết kế để giảm bớt hoặc loại
bỏ chúng Cho đến khi các mô hình như vậy trở nên khả thi, các kỹ thuật có sẵn phải được sử dụng để phát triển các mô hình dự đoán mà cho ra được các giải pháp thích hợp
Dự đoán chuỗi thời gian thường sử dụng dữ liệu theo thứ tự thời gian quan sát được để dự đoán giá trị tương lai của chuỗi, chẳng hạn như
Trong đó
là giá trị của chuỗi tại thời điểm
là giá trị của chuỗi tại thời điểm và cứ như thế
1.1.4 Tính xu hướng
Tính xu hướng là yếu tố thể hiện xu hướng thay đổi của dữ liệu theo thời gian Đây là đặc trưng thường thấy của rất nhiều dữ liệu chuỗi thời gian Đặc biệt là các chuỗi trong kinh tế lượng như: giá cả thị trường chị ảnh hưởng của lạm phát, dân số thế giới tăng qua các năm, nhiệt độ trung bình trái đất tăng theo thời gian do hiệu ứng nhà kính,… Tính xu hướng cũng ảnh hưởng
Trang 16không nhỏ tới việc đưa ra nhận định về mối quan hệ tương quan giữa các chuỗi số Tức là về bản chất các chuỗi không tương quan nhưng do chúng cùng có chung xu hướng theo thời gian nên chúng ta nhận định chúng là tương quan Ví dụ: Số lượng người bị đuối nước hàng năm và sản lượng kem
tiêu thụ có mối quan hệ cùng chiều (hay còn gọi là tương quan tuyến tính
dương) Không khó để chúng ta nhận định được bản chất của sự tương quan
này là do chúng có cùng sự tương quan với nhiệt độ
1.1.5 Tính chu kỳ
Là qui luật có tính chất lặp lại của dữ liệu theo thời gian Sự thay đổi thời tiết, sự phát triển của các loài động vật cho tới hành vi mua sắm, tiêu dùng của con người đều bị ảnh hưởng của chu kỳ và lặp lại theo thời gian Chính vì thế tìm ra được yếu tố chu kỳ sẽ giúp ích cho việc dự báo chính xác hơn Một ví dụ về tầm quan trọng của chu kỳ đó là các doanh nghiệp sản xuất một mặt hàng cụ thể sẽ biết sản lượng tăng vào thời điểm nào trong năm, phải tuyển thêm bao nhiêu lao động Nếu không hiểu được tính chu kỳ của chuỗi thời gian, doanh nghiệp có thể dự báo sai nhu cầu thị trường và dẫn tới thua
lỗ Vì những tính chất riêng biệt nên khi làm việc với dữ liệu chuỗi thời gian chúng ta cần quan sát và xử lý dữ liệu tốt, đồng thời cần áp dụng các khung
dự báo và mô hình thích hợp
1.2 Các khung dự báo chuỗi thời gian
Dự báo là một phần không thể thiếu của việc lập kế hoạch trong bất kỳ
hệ thống nào, cho dù là trong kinh doanh hay chính quyền Mô hình hóa một vấn đề trong thế giới thực và thực hiện dự báo có thể mang lại thông tin mục tiêu quan trọng để phát triển trong tương lai Lưu đồ trong hình 1.2 nêu bật các giai đoạn khác nhau trong việc mô hình hóa một hệ thống trong thế giới thực Điều này bao gồm một số chức năng có thể kể đến như:
Trang 17 Ước tính mô hình: Hiểu bộ máy cơ bản tạo ra dữ liệu hoặc điều
khiển hệ thống, điều này bao gồm việc mô tả và giải thích mọi biến
thể, tính thời vụ và xu hướng
Tạo dự báo: Dự đoán tương lai dựa trên giả định rằng mọi thứ
không thay đổi, nghĩa là, các hoạt động kinh doanh diễn ra như bình thường tại thời điểm đưa ra dự báo
Cập nhật dự báo: Kiểm soát hệ thống, nghĩa là thực hiện các tình
huống “điều gì xảy ra nếu…”
Hình 1.2: Các giai đoạn xây dựng mô hình và dự báo của một hệ thống dự báo
Xử lý dữ liệu
Xác định thông số kỹ thuật của mô hình
Xử lý dữ liệu
Mô hình có thích hợp không?
Khởi tạo dự báo
Xây dựng mô hình Các thủ tục dự báo
Quan sát mới
Mô hình đã ổn định chưa?
Cập nhật dự báo
Trang 181.3 Các kỹ thuật xử lý chuỗi thời gian
1.3.1 Xử lý dữ liệu
Việc kết hợp mô hình dự đoán với dữ liệu chuỗi thời gian là một nhiệm
vụ quan trọng và đòi hỏi nhiều yếu tố Tùy thuộc vào các vấn đề, có thể cần thực hiện một số quá trình tiền xử lý dữ liệu để dữ liệu đầu vào có thể đáp ứng các yêu cầu đối với các kỹ thuật hay mô hình đang được sử dụng Ví dụ: Tiền xử lý có thể được sử dụng để loại bỏ các hiệu ứng theo thời vụ hoặc xu hướng, hoặc dao động theo chu kỳ không mong muốn Nếu không có phiên tiền xử lý, ví dụ một trường hợp, nó có thể liên hệ không chính xác rằng các
xu hướng mẫu hình đã tăng gần đây vẫn tiếp tục tăng vô thời hạn trong khi thực ra xu hướng tăng chỉ diễn ra tại thời điểm được khảo sát trong năm Hai phương pháp thường được sử dụng cho tiền xử lý dữ liệu chuỗi thời gian là làm mịn và làm khác
1.3.2 Kỹ thuật làm mịn
Một đặc điểm của dữ liệu chuỗi thời gian là sự hiện diện của các biến thể ngẫu nhiên Một kỹ thuật thường được sử dụng để giảm sự biến đổi ngẫu nhiên đó chính là kỹ thuật làm mịn Kỹ thuật này được sử dụng với mục đích làm giảm thành phần biến thể ngẫu nhiên, do đó cho thấy bất kỳ xu hướng hoặc thành phần theo thời vụ và / hoặc theo chu kỳ trong dữ liệu gốc
Các phương pháp làm mịn có thể được phân loại theo hai cách: Đường trung bình động đơn giản (SMA) hoặc Đường trung bình động theo cấp số nhân (EMA)
1.3.2.1 Đường trung bình động đơn giản (SMA): Một SMA ngày mất
trung bình ngày dữ liệu quá trước và trình bày giá trị trung bình dưới dạng giá trị của ngày hiện tại
Khi cho một chuỗi dữ liệu như sau: sau khi tính
Trang 19toán SMA với , chuỗi (SMA) mới sẽ trở thành:
[ ] [ ] [ ]
Ví dụ cụ thể, có thể xét một chuỗi cụ thể như sau: A=120, 124, 122,
123, 125, 128, 129, 127; đại diện cho số đơn hàng bán được của một công ty
nội thất trong khoảng thời gian t=1, 2,…, 8
SMA3 cho khoảng thời gian t=4, 5,…, 9 được cho bởi:
1.3.2.2 Đường trung bình động theo cấp số nhân (EMA): Một đường
EMA ngày bắt đầu bằng cách đặt giá trị đầu tiên trong chuỗi , và sau đó, giá trị của ngày thứ i được tính toán như
So sánh giữa chuỗi SMA và EMA, có thể đưa ra một số nhận xét:
Việc lấy SMA của các ngày thứ i sẽ làm giảm số lượng điểm dữ liệu trong chuỗi k, trong khi EMA vẫn giữ nguyên số lượng dữ liệu ban đầu
Khi tính toán SMA3 trong ví dụ, chúng tôi đã mất hai điểm dữ liệu đầu tiên vì những điểm này được sử dụng để tính toán SMA xảy ra tài thời điểm Đây không phải là trường hợp của EMA3 vì số đầu tiên trong chuỗi EMA3 là
Trang 20số đầu tiên trong chuỗi gốc
EMA mang lại nhiều trọng lượng hơn cho dữ liệu sau cùng nếu
so với SMA Trong SMA, một trọng lượng không đổi của được quy cho tất cả các điểm được sử dụng để tính toán đường trung bình động Trong khi
đó ở EMA, các trọng số khác nhau được quy cho các điểm dữ liệu với điểm
dữ liệu gần nhất sẽ nhận được trọng lượng là Trong ví dụ của chúng tôi, một trọng lượng 1/3 được quy cho tất cả các điểm khi sử dụng SMA3, trong khi đó, các trọng số khác nhau đã được sử dụng trong EMA3 với nhiều điểm
dữ liệu ở gần hơn nhận được trọng lượng 2/3
Vì các điểm dữ liệu ở gần nhận được nhiều trọng số hơn các điểm ở xa, EMA có xu hướng phản ứng nhanh hơn với những thay đổi giá trị gần khi so với SMA
với Thủ tục này có thể được lặp lại cho đến khi chuỗi trở nên đứng yên Một số quan sát liên quan đến kỹ thuật làm khác cần được lưu ý: 1) Mỗi sự biến đổi làm khác sẽ làm giảm tổng số điểm dữ liệu đi một điểm 2) Các điểm dữ liệu không còn là độc lập kể từ khi với mỗi điểm ở trong chuỗi, tính từ sau điểm đầu, chia sẻ chung hai điểm từ chuỗi gốc 3) Độ nhiễu ngẫu nhiên trong dữ liệu đã biến đổi sẽ được khuếch đại, bởi vị nhiễu trong
Trang 21mỗi điểm khác biệt đại diện cho phương sai tích lũy có trong hai điểm bao gồm sự khác biệt
đã được phân loại dựa theo các tiêu chuẩn (Chatfield, 2001:2004)[3][13]:
Dự báo Chủ quan được thực hiện dựa trên các đánh giá chủ
quan niềm tin, kiến thức kinh tế và bất kì thông tin “phi khoa học” nào khác xuất phát từ một cá nhân
Dự báo Đơn biến hoàn toàn dựa trên các quan sát trước đây
trong một chuỗi thời gian nhất định, bằng cách điều chỉnh một mô hình dữ liệu và ngoại suy Ví dụ: Dự báo về doanh số bán sản phẩm trong tương lai sẽ hoàn toàn dựa trên dữ liệu doanh số bán hàng trong quá khứ
Dự báo Đa biến được thực hiện bằng cách tính đến các quan sát
khác hoặc các biến khác Ví dụ: giá cổ phiếu có thể phụ thuộc vào tình hình chính trị ở các nước láng giềng Mô hình hồi quy là một trong những loại mô hình này
Trang 22Các mô hình dự báo phức tạp và mạnh mẽ hơn có thể liên quan đến
sự kết hợp của các cách tiếp cận trên (Chatfield, 2004)[13] Một mô hình được cho là mạnh mẽ nếu nó không bị ảnh hưởng bởi những thay đổi nhỏ trong các tham số của nó và/ hoặc những thay đổi trong các giả định được sử dụng trong quá trình xây dựng mô hình
1.5 Một số mô hình dự báo chuỗi thời gian
1.5.1 Mô hình tuyến tính
Mô hình tuyến tính có các đặc điểm sau: đơn giản, hữu ích và dễ dàng ứng dụng Theo như phân loại, mô hình tuyến tính phù hợp nhất cho chuỗi thời gian tuyến tính cố định, nhưng có thể không thành công và đặc biệt là trong các trường hợp không ổn định như trong chuỗi dữ liệu tài chính Ba loại
mô hình tuyến tính đã được áp dụng rộng rãi, cụ thể là:
1.5.1.1 ARIMA và các biến thể của nó
Phương pháp tiếp cận Đường trung bình động tích hợp tự động phục hồi (ARIMA), đã phát triển trong 30 năm qua để bao gồm một số biến thể của
mô hình ban đầu
Ý tưởng đằng sau ARIMA là áp dụng sự khác biệt đối với một chuỗi thời gian không cố định đến khi nó trở nên cố định, và sau đó áp dụng sự kết hợp giữa Tự phục hồi và mô hình đường trung bình động (ARMA) Quy trình này bao gồm năm giai đoạn:
a) Làm khác: Nếu dữ liệu đầu vào không cố định, dữ liệu sẽ được
biến đổi cho đến khi trở nên cố định
b) Nhận dạng mô hình: Bản chất của giai đoạn này là kiểm tra dữ
liệu để xác định mô hình, tức là, để xác định thứ tự nào của và sẽ là thích hợp nhất cho mô hình, với là bậc tự động hồi quy, và là bậc của giá trị di chuyển trung bình Nói chung, không có cách nào tối ưu để phát huy điều này Một số công cụ hữu ích là mẫu chức năng tự tương quan (ACF) và tự tương
Trang 23quan một phần (PACF) ACF đo lường mối tương quan giữa các độ trễ khác nhau của một chuỗi thời gian, trong khi PACF đo lường phần dư tương quan ngụ ý từ độ trễ trước đó bị loại bỏ một phần
c) Ước tính: Trong giai đoạn này, các tham số của mô hình đã chọn
được ước tính Phương pháp bình phương tối thiểu là phương pháp thường được sử dụng để tìm các tham số
d) Kiểm tra chẩn đoán: Để kiểm tra xem kiểu máy đã được chọn
có phải là đủ Một phương pháp là kiểm tra lượng dư từ mô hình đã lắp
e) Cân nhắc mô hình thay thế: Nếu mô hình được trang bị có vẻ
không phù hợp vì bất kỳ lý do gì, sau đó các mô hình ARIMA khác có thể được thử cho đến khi có được mô hình ưng ý
1.5.1.2 Làm mịn theo cấp số nhân
Làm mịn hàm mũ là một loại mô hình tuyến tính khác hoạt động tốt cho chuỗi thời gian tuyến tính nhưng không lập được mô hình phi tuyến tính phức tạp và các xu hướng trong chuỗi thời gian tài chính Một biến thể của
mô hình này đôi khi được áp dụng trong giai đoạn tiền xử lý dữ liệu
1.5.1.3 Mô hình không gian trạng thái
Mô hình không gian trạng thái (Aoki, 1990)[2] là một loại mô hình tuyến tính đại diện cho các đầu vào dưới dạng kết hợp tuyến tính của một tập hợp các vector trạng thái phát triển theo thời gian dựa trên một số phương trình tuyến tính Các mô hình được gọi là mô hình thành phần bởi các nhà kinh tế lượng cũng thuộc dạng không gian trạng thái Tuy nhiên, trong thực
tế, các vector trạng thái và các kích thước liên quan của những mô hình này thường khó để lựa chọn (Chatfield, 2001)[3]
1.5.2 Mô hình phi tuyến tính
Mặc dù các mô hình tuyến tính có sự thuận tiện trong toán học và thực
tế, nhưng không có lý do để giả định rằng chuỗi thời gian trong thực tế luôn
Trang 24tuyến tính; do đó ứng dụng của các mô hình phi tuyến tính rất quan trọng và hứa hẹn (Chatfield, 2001)[3] Ba lớp mô hình mà đã được ứng dụng rộng rãi cho các dữ liệu chuỗi thời gian phi tuyến là các mô hình được xác định trước, các mô hình tổng quát, và các mô hình thay đổi trong biến động
1.5.2.1 Mô hình phi tuyến tính được xác định trước
Trong những năm 1980, các mô hình phi tuyến tính đã được nghiên cứu và đề xuất như là những sửa đổi của các mô hình tuyến tính hiện có, ví dụ như mô hình ARIMA, như đã được trình bày trong các nghiên cứu của Granger và Joyeux (1980)[4] và Priestley (1981)[5] Loại mô hình này bao gồm các mô hình tự phục hồi Bilinear, mô hình thông số thay đổi thời gian,
và mô hình tự phục hồi theo ngưỡng (TAR) (Tong, 1990)[6] Các mô hình vừa kể này tương tự nhau về mức độ giám sát được đưa ra trong sự phát triển
và các cân nhắc thống kê tiêu chuẩn của đặc điểm kỹ thuật mô hình, ước tính
và chẩn đoán, nhưng bản chất tham số chung của chúng có xu hướng đòi hỏi một “kiến thức tiền nhiệm” về dạng của mối quan hệ đang được mô hình hóa
Do đó, những phương pháp này không tỏ ra hiệu quả để lập mô hình chuỗi thời gian tài chính vì các hàm phi tuyến rất khó chọn
1.5.2.2 Mô hình phi tuyến tính tổng quát
Các mô hình phi tuyến tổng quát, có thể được gọi là lớp mô hình thay thế phi tuyến dạng học máy Các mô hình này có thể học cấu trúc dữ liệu cơ bản của một chuỗi thời gian nhất định mà không cần phải đưa ra các giả định phi tuyến tính một cách rõ ràng Các mô hình trong lớp này bao gồm Học tập củng cố, ví dụ, Q-learning, Học không giám sát, ví dụ, các phương pháp phân cụm (Jain, Murty, và Flynn, 1999)[7], Học có giám sát, ví dụ, cây quyết định
và mạng nơron (NN) (Baestaens, 1994 và Haykin, 1999)[8][25] và Học thống
kê bao gồm láng giềng gần nhất (kNN) Máy hỗ trợ vector (SVM) là máy học mới cũng có khả năng mô hình hóa các mối quan hệ phi tuyến của dữ liệu
Trang 25và dựa trên thống kê hoặc lý thuyết Vapnik-Chervonenkis (VC)[1] Ngoài ra, SVM được lập mô hình bằng cách sử dụng một mẫu đào tạo với mục tiêu để đưa ra dự đoán về kết quả trong một thử nghiệm trong tương lai Kết quả là, SVM được sử dụng để thống kê và học có giám sát
1.5.2.3 Mô hình thay đổi trong biến động
Trọng tâm của các mô hình thay đổi trong biến động là sử thay đổi trong phương sai Mục tiêu của các mô hình này là cho ra được ước lượng tốt hơn về phương sai dữ liệu cục bộ để khoảng thời gian dự đoán đáng tin hơn
có thể được tính toán ra, dẫn đến việc đánh giá rủi ro tốt hơn (Chatfield, 2001)[3] Các mô hình thay đổi trong biến động không phải được thiết kế để đưa ra điểm dự báo tốt hơn cho sự quan sát trong tương lai trong chuỗi Sự ước lượng phương sai cục bộ là vô cùng quan trọng trong các ứng dụng về tài chính, khi mà các chuỗi thời gian được quan sát thường cho thấy bằng chứng
rõ ràng về biến động thay đổi, ví dụ: các giá trị tuyệt đối lớn có xu hướng được theo sau bởi các giá trị tuyệt đối lớn hơn, trong khi các giá trị tuyệt đối nhỏ thường được theo sau bởi các giá trị nhỏ hơn, từ đó cho biết mức độ biến động cao hoặc thấp tương ứng
1.5.3 Mô hình ARMA
Mô hình ARMA là mô hình tuyến tính được sử dụng để nắm bắt mối tương quan tuyến tính giữa bất kỳ độ trễ được chỉ định của một chuỗi thời gian đơn biến và thời hạn lỗi của mô hình từ trước thời điểm đó Nói chung,
mô hình có thể được viết như sau:
(1.2)
Với là một tập thứ tự của i.i.d biến ngẫu nhiên có trung bình bằng 0
và phương sai bằng 1, là giá trị trung bình của chuỗi thời gian và cùng
là các hệ số không đổi
Trang 26Mô hình trung bình động (MA) là trường hợp đặc biệt của mô hình
ARMA Trong kiểu mô hình này, quan sát trong thời gian t phụ thuộc vào
thời hạn sai số của mô hình từ các thời điểm trước đó, thông thường những lỗi này được coi là sự kiện ngẫu nhiên (Chatfield, 2004)[13] Nhìn chung, mô hình MA có dạng:
Mô hình tự phục hồi (AR) tạo thành một lớp đặc biệt khác của mô hình
ARMA Trong kiểu mô hình này, sự quan sát trong thời gian t không được
hồi quy trên các biến độc lập khác mà trên một hoặc nhiều giá trị trễ của chuỗi thời gian (Chatfield, 2004)[13] Một dạng chung của mô hình AR là:
(1.4) Với là một quá trình hoàn toàn ngẫu nhiên (còn được gọi là nhiễu trắng) với giá trị trung bình bằng 0 và phương sai là
Tóm lại, mô hình ARMA là sự kết hợp của mô hình AR và MA Một lợi thế của mô hình ARMA là khả năng mô tả chuỗi thời gian tĩnh bằng cách
sử dụng ít tham số hơn so với việc mô hình MA hoặc AR được sử dụng bởi chính nó (Chatfield, 2004)[13]
1.5.4 Mô hình SMA
Đường trung bình trượt đơn giản (SMA) là phương pháp dễ dàng nhất
để tiếp cận bài toán dự báo chuỗi thời gian Nó là giá trị trung bình của một tập hợp con các khoảng thời gian trong một chuỗi thời gian Đường trung bình được định nghĩa là giá trị trung bình của số lượng mục cố định trong chuỗi thời gian di chuyển qua chuỗi bằng cách loại bỏ các mục dưới cùng của nhóm được tính trung bình trước đó và thêm mục tiếp theo và mỗi điểm trung bình liên tiếp
Đường trung bình thường được vẽ dưới dạng biểu đồ đường để đưa ra các ý tưởng về xu hướng tổng thể trong chuỗi Chúng có thể hữu ích trong
Trang 27việc xác nhận hướng của một xu hướng hoặc hình dung về độ lớn của nó Giả định cơ bản đằng sau các mô hình trung bình và làm mịn là chuỗi thời gian cố định cục bộ với giá trị trung bình thay đổi chậm Từ đó lấy giá trị trung bình động (cục bộ) để ước tính giá trị hiện tại của giá trị trung bình và sau đó sử dụng giá trị đó làm dự báo cho tương lai gần hoặc dự báo rất ngắn hạn
Dự báo về giá trị Y tại thời điểm t + 1 được thực hiện tại thời điểm t bằng giá trị trung bình đơn giản của m lần quan sát gần nhất:
̂ Đường trung bình là các chỉ báo tụt hậu, do đó khi có một xu hướng tăng trong biến, đường trung bình sẽ đánh giá thấp vì nó cũng là mức trung bình của các mức giá thấp hơn trước đó Tương tự, đối với một xu hướng giảm Hình 2 dưới đây cho thấy một ví dụ về chuỗi dường như thể hiện các dao động ngẫu nhiên xung quanh một giá trị trung bình thay đổi chậm Do đó, tuổi trung bình của dữ liệu trong đường trung bình động đơn giản là
so với khoảng thời gian mà dự báo được tính: đây là khoảng thời gian
mà các dự báo sẽ có xu hướng tụt hậu so với các bước ngoạt trong dữ liệu Giá trị trung bình trong một SMA được cho là tập trung vào khoảng thời , có nghĩa là ước tính giá trị trung bình hoặc giá trị dự báo có
xu hướng trễ hơn giá trị thực khoảng giai đoạn Đường trung bình động đơn giản trong 5 kỳ hạn được hiển thị bằng đường màu xanh lam Độ tuổi trung bình của dữ liệu trong dự báo này là 3 (= (5 + 1) / 2), do đó nó có
xu hướng tụt hậu so với các bước ngoặt khoảng ba giai đoạn (Ví dụ: suy thoái dường như đã xảy ra ở giai đoạn 21, nhưng các dự báo không thay đổi cho đến
vài giai đoạn sau Nếu m = 1, mô hình trung bình động đơn giản (SMA) tương đương với mô hình đi bộ ngẫu nhiên (không tăng trưởng) Nếu m rất lớn (có
thể so sánh với độ dài của khoảng thời gian ước lượng) thì mô hình SMA
Trang 28tương đương với mô hình trung bình
Hình 1.4 Biểu diễn SMA
Không có quy tắc lý thuyết nào để tìm ra khoảng chính xác cho
MA Thông thường, giai đoạn dự báo càng cao (giai đoạn trung bình), tác động làm dịu của đường trung bình càng lớn, nhưng độ trễ so với các bước
ngoặt càng lớn Khoảng thời gian dự báo, m, có thể được coi là một tham số
của mô hình dự báo SMA và có thể được điều chỉnh để có được sự “phù hợp” nhất với dữ liệu hoặc trung bình có sai số dự báo nhỏ nhất Cách tốt nhất để tính toán khoảng thời gian dự báo là tính toán một số khoảng thời gian dự báo
và tính toán RMSE (Root Mean Square Error) và khoảng thời gian có RMSE thấp nhất được chọn
Khi nào và tại sao sử dụng SMA?
1 SMA là một phương pháp đơn giản và dễ hiểu và thường được ưa thích hơn các phương pháp thống kê chặt chẽ hơn
2 Nó cho ta hình dung tốt về xu hướng và làm rõ những biến động ngắn hạn Nó cũng làm giảm ảnh hưởng của các giá trị cực đoan
3 Mặt trái của phương pháp này không có phương pháp thống kê để xác định thời kỳ dự báo
1.5.5 Mô hình LSTM
Bộ nhớ ngắn–dài hạn ( LSTM ) là một kiến trúc mạng nơ-ron lặp lại
Trang 29nhân tạo (RNN) được sử dụng trong lĩnh vực học sâu Không giống như các mạng nơron truyền thẳng tiêu chuẩn, LSTM có kết nối phản hồi Nó không chỉ có thể xử lý các điểm dữ liệu đơn lẻ (ví dụ: hình ảnh), mà còn toàn bộ chuỗi dữ liệu (chẳng hạn như đầu vào giọng nói hoặc video)
Mạng LSTM - là một dạng đặc biệt của RNN, nó có khả năng học được các phụ thuộc xa LSTM được giới thiệu bởi Hochreiter & Schmidhuber (1997)[10], và sau đó đã được cải tiến và phổ biến bởi rất nhiều người trong ngành Chúng hoạt động cực kì hiệu quả trên nhiều bài toán khác nhau nên dần
đã trở nên phổ biến như hiện nay
Các mô hình LSTM có thể lưu trữ thông tin trong một khoảng thời gian Chúng có khả năng ghi nhớ theo thứ tự Đặc tính này cực kỳ hữu ích khi chúng ta xử lý Chuỗi thời gian hoặc Dữ liệu tuần tự Khi sử dụng mô hình LSTM, chúng ta được tự do và có thể quyết định thông tin nào sẽ được lưu trữ
và thông tin nào sẽ bị loại bỏ
LSTM được thiết kế để tránh được vấn đề phụ thuộc xa (long-term dependency) Việc nhớ thông tin trong suốt thời gian dài là đặc tính mặc định của chúng, chứ ta không cần phải huấn luyện nó để có thể nhớ được Tức là ngay nội tại của nó đã có thể ghi nhớ được mà không cần bất kì can thiệp nào
Hình 1.5 Mô hình mạng LSTM
Trang 301.5.6 Mô hình SVM
Máy hỗ trợ Vector (SVM) lần đầu xuất hiện tại COLT (Hội nghị lý thuyết học tập có tính toán, 1992), được xây dựng dựa trên lý thuyết học thống kê hoặc lý thuyết Vapnik Chervonenkis (VC)[1] Một số đặc điểm của SVM có thể kể đến:
SVM ban đầu được đề xuất để giải quyết các vấn đề phân loại trong
đó mục tiêu không phải là giảm thiểu rủi ro theo kinh nghiệm mà còn để tối
đa hóa lợi nhuận (Vapnik, 1995; Bennett và Bredensteiner, 2000)[11][15]
1.5.6.3 Giải pháp toàn cục và duy nhất
Huấn luyện SVM yêu cầu giải một bài toán lập trình bậc hai qua một không gian nghiệm đã biết là lồi Do đó, mọi optima cục bộ cũng sẽ là một giải pháp toàn cục Vì vậy, đào tạo SVM luôn tìm ra một giải pháp toàn cục thường là duy nhất (Burges và Crisp, 2000)[26] Điều này vượt trội so với
NN, một kỹ thuật thường dẫn đến xác định tùy chọn cục bộ (Burges, 1998)[27]
1.5.6.4 Khả năng truy xuất toán học
Sử dụng một hàm kernel, SVM cung cấp một kỹ thuật huấn luyện thay thế cho hàm đa thức, hàm cơ sở hướng tâm và bộ phân loại perceptron nhiều lớp, trong đó trọng số của mạng được tìm thấy bằng cách giải một bài toán lập trình bậc hai, với tuyến tính bất bình đẳng và những ràng buộc về bình đẳng Đây thường là một kỹ thuật được ưu tiên đối với chế độ đào tạo
Trang 31của NN mà yêu cầu giải pháp giảm thiểu không lồi lõm, không vấn đề hạn chế (Osuna, Freund và Girosi, 1997)[28]
1.6 Kết luận chương 1
Chương 1 trình bày giới thiệu tổng quan về chuỗi thời gian bao gồm giới thiệu khái quát về chuỗi thời gian, các đặc điểm của dữ liệu chuỗi thời gian, các kỹ thuật tiền xử lý dữ liệu chuỗi thời gian và một số mô hình thường được sử dụng để làm việc với kiểu dữ liệu này, được xây dựng với mục đích phân tích và dự báo chuỗi thời gian
Trang 32CHƯƠNG 2 ỨNG DỤNG SVM TRONG DỰ BÁO CHUỖI
THỜI GIAN TÀI CHÍNH
2.1 Mô hình SVC
Khái niệm về máy vector hỗ trợ (SVM) được phát triển bởi Vapnik và cộng sự tại AT&T (Vapnik, 1995)[11] SVM là một kỹ thuật tối ưu hóa cố gắng tìm một siêu phẳng trong không gian đầu vào ban đầu để tách một tập huấn luyện nhất định một cách chính xác và để càng nhiều khoảng cách càng tốt từ các instance gần nhất đến siêu phẳng ở cả hai phía
Như đã biết, với bài toán phân loại nhị phân tuyến tính ta cần vẽ được mặt phân tách (với không gian 2 chiều thì mặt phẳng này là đường phân tách):
để phân biệt được dữ liệu Khi đó dấu của hàm ước lượng { } sẽ thể hiện được điểm dữ
liệu x nằm ở cụm dữ liệu nào
Hình 2.1 Bài toán phân loại nhị phân tuyến tính
Nếu để ý thì ta có thể có nhiều mặt phân tách thoả mãn được việc này và đương nhiên là nếu chọn được mặt mà phân tách tốt thì kết quả phân loại của ta
sẽ tốt hơn Một lẽ rất tự nhiên là dường như mặt nằm vừa khít giữa 2 cụm dữ liệu sao cho nằm xa các tập dữ liệu nhất là mặt tốt nhất
Trang 33Hình 2.2 Max margin biên SVM
SVM chính là một biện pháp để thực hiện được phép lấy mặt phẳng như vậy
Trong ước tính hồi quy, các điểm dữ liệu có thể nhận ra biên tối đa thì được gọi là vector hỗ trợ Nói cách khác, chúng là các điểm dữ liệu có sai số xấp xỉ bằng hoặc lớn hơn cái gọi là kích thước ống của SVM Nếu như tập huấn luyện không thể phân tách một cách tuyến tính, khi đó một ranh giới phi tuyến phải được xây dựng Để đạt được ranh giới, không gian đầu vào ban đầu được ánh xạ thành không gian có chiều cao hơn gọi là không gian đặc trưng Không gian đặc trưng sau đó tìm một siêu phẳng có thể tách các instance trong cùng một không gian đặc trưng Ánh xạ từ không gian đầu vào cho không gian đặc trưng được xác định bởi một hàm kernel Kỹ thuật cũng
cho phép phân loại sai bằng cách đưa vào hệ số phạt C trong mô hình tối ưu
hóa và tổng số hình phạt được tìm thấy bằng cách cộng các hình phạt cho mỗi lần phân loại sai Do đó, kỹ thuật tìm một siêu phẳng tối thiểu hóa tổng nghịch đảo của biên độ và tổng số phạt Hàm hình phạt tổng hợp được nêu như là hàm mục tiêu trong mô hình tối ưu
Từ khi được giới thiệu lần đầu, SVM đã được nghiên cứu rộng rãi và được sử dụng cho một số các ứng dụng như nhận dạng mẫu, ký tự viết tay và
Trang 34phân loại văn bản (Joachims, 1997; Scholkpf và Burges, 1995; Schmidt, 1996)[30][31][32] Do kết quả hiệu suất của nó trong các vấn đề phân loại thế giới thực, nguyên tắc của SVM đã được mở rộng đến các vấn đề hồi quy (Smola và Scholkopf, 1999)[18] Trong tài liệu SVM, khi thuật toán SVM được sử dụng cho các bài toán phân loại, nó được gọi là Vector hỗ trợ phân loại (SVC) và khi nó được sử dụng cho các vấn đề hồi quy, nó được gọi là Vector hỗ trợ hồi quy (SVR) Một số đặc tính hấp dẫn của SVR là việc sử dụng các hàm kernel làm cho kỹ thuật có thể áp dụng cho các tuyến tính và phi tuyến tính xấp xỉ, hiệu suất tổng quát hóa tốt do chỉ sử dụng vector hỗ trợ
để dự đoán, sự vắng mặt của cực tiểu cục bộ là bởi vì thuộc tính lồi của hàm mục tiêu và các ràng buộc của nó, và thực tế là phương pháp luận là dựa trên giảm thiểu rủi ro cấu trúc khi tìm cách giảm thiểu tổng quát hóa thay vì lỗi đào tạo
Máy vectơ hỗ trợ SVM là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy SVM dạng chuẩn nhận dữ liệu vào và phân loại chúng vào hai lớp khác nhau Do đó SVM là một thuật toán phân loại nhị phân Với một bộ các ví dụ luyện tập thuộc hai thể loại cho trước, thuật toán luyện tập SVM xây dựng một mô hình SVM để phân loại các ví dụ khác vào hai thể loại đó Một mô hình SVM là một cách biểu diễn các điểm trong không gian và lựa chọn biên giữa hai loại sao cho khoảng cách từ các ví
dụ luyện tập tới biên là xa nhất có thể Trong nhiều trường hợp, không thể phân chia các lớp dữ liệu một cách tuyến tính trong không gian dùng để mô tả vấn đề Vì vậy, nhiều khi cần phải ánh xạ các điểm dữ liệu trong không gian ban đầu vào một không gian mới nhiều chiều hơn, vì việc phân tách chúng trở nên dễ dàng hơn trong không gian đó Do đó, hiện nay người ta thường sử dụng phương pháp SVR thay cho phương pháp SVM Mục đích của phương