TRƯỜNG ĐẠI HỌC CÔNG NGHỆ PHẠM THỊ THẢO TÌM HIỂU MỘT SỐ MÔ HÌNH KHAI PHÁ DỮ LIỆU THỜI GIAN THỰC ÁP DỤNG VÀO BÀI TOÁN DỰ BÁO ỨNG DỤNG TRONG PHÂN TÍCH SỐ LIỆU TÀI CHÍNH LUẬN VĂN THẠC SĨ C
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ THẢO
TÌM HIỂU MỘT SỐ MÔ HÌNH KHAI PHÁ DỮ LIỆU THỜI GIAN THỰC ÁP DỤNG VÀO BÀI TOÁN DỰ BÁO ỨNG DỤNG TRONG PHÂN TÍCH SỐ LIỆU TÀI CHÍNH
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
HÀ NỘI - 2015
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHẠM THỊ THẢO
TÌM HIỂU MỘT SỐ MÔ HÌNH KHAI PHÁ DỮ LIỆU THỜI GIAN THỰC ÁP DỤNG VÀO BÀI TOÁN DỰ BÁO ỨNG DỤNG TRONG PHÂN TÍCH SỐ LIỆU TÀI CHÍNH
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYỄN HÀ NAM
HÀ NỘI – 2015
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Tìm hiểu một số mô hình khai phá dữ liệu thời gian thực áp dụng vào bài toán dự báo ứng dụng trong phân tích số liệu tài chính" là công trình nghiên cứu của riêng tôi Các số liệu, kết quả được trình bày trong luận văn là hoàn toàn trung thực và chưa được công bố trên bất cứ công trình nào khác Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan Ngoại trừ các tài liệu tham khảo này, luận văn hoàn toàn là nghiên cứu của riêng tôi
Luận văn được hoàn thành trong thời gian tôi là học viên tại Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Hà Nội, ngày 25 tháng 05 năm 2015
Học viên
Phạm Thị Thảo
Trang 4LỜI CẢM ƠN
Lời đầu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS Nguyễn Hà Nam đã tận tình hướng dẫn tôi trong suốt quá trình thực hiện luận văn tốt nghiệp
Tôi xin trân trọng cảm ơn các Thầy, Cô giáo đã tận tình chỉ dạy, cung cấp cho tôi những kiến thức quý báu và luôn nhiệt tình giúp đỡ, tạo điều kiện thuận lợi nhất trong suốt quá trình tôi học tập tại trường Đại học Công nghệ
Tôi xin gửi lời cảm ơn tới các bạn trong nhóm do thầy Nguyễn Hà Nam hướng dẫn đã luôn sát cánh và hỗ trợ cho tôi trong suốt quá trình học tập cũng như quá trình làm luận văn
Cuối cùng, tôi muốn được gửi lời cảm ơn tới gia đình, đồng nghiệp và bạn bè, những người luôn bên cạnh, động viên và tạo điều kiện tốt nhất cho tôi trong suốt quá trình học tập và thực hiện luận văn tốt nghiệp
Tôi xin chân thành cảm ơn!
Trang 5MỤC LỤC
LỜI CAM ĐOAN 5
LỜI CẢM ƠN 2
MỤC LỤC 3
BẢNG CÁC TỪ VIẾT TẮT 5
DANH MỤC BẢNG BIỂU 6
DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ 7
MỞ ĐẦU 8
Chương 1 MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI CHÍNH 10
1.1 Một số khái niệm về tài chính 10
1.1.1 Phân tích tài chính 10
1.1.2 Phương pháp phân tích tài chính 10
not defined.
Chương 2 MỘT SỐ MÔ HÌNH TRONG BÀI TOÁN DỰ BÁO Error! Bookmark
not defined
not defined.
Bookmark not defined.
Trang 62.4.4 Quá trình trung bình trượt MA(q) Error! Bookmark not defined.
Chương 3 PHƯƠNG PHÁP GIẢI QUYẾT BÀI TOÁN Error! Bookmark not
defined
Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ Error! Bookmark not defined.
not defined.
KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11
Trang 8BẢNG CÁC TỪ VIẾT TẮT
Trang 9DANH MỤC BẢNG BIỂU
Bảng 2.1 Các hàm chuyển Error! Bookmark not defined Bảng 3.1 Tổ chức dữ liệu IBM Error! Bookmark not defined Bảng 3.2 Tổ chức dữ liệu của mô hình Error! Bookmark not defined Bảng 4.1 Các trường hợp của tham số đầu vào mạng nơ-ronError! Bookmark not
defined.
Bảng 4.2 Kết quả độ chính xác đối với mô hình ANN Error! Bookmark not defined Bảng 4.3 Kết quả độ chính xác đối với mô hình SVM Error! Bookmark not defined.
not defined.
Bảng 4.5 Kết quả đưa ra lời khuyên cho người dùng Error! Bookmark not defined.
Trang 10DANH MỤC CÁC HÌNH VẼ, BIỂU ĐỒ
Hình 1.1 Biểu đồ dạng đường Error! Bookmark not defined Hình 1.2 Biểu đồ dạng then chắn Error! Bookmark not defined Hình 1.3 Kí tự trong biểu đồ dạng then chắn Error! Bookmark not defined Hình 1.4 Biểu đồ dạng cây nến Error! Bookmark not defined Hình 2.1 Mô hình khai phá dữ liệu Error! Bookmark not defined Hình 2.2 Mô hình nơ-ron sinh học Error! Bookmark not defined Hình 2.3 Cấu trúc của một nơ-ron Error! Bookmark not defined Hình 2.4 Cách tính hàm tổng Error! Bookmark not defined Hình 2.5 Cấu trúc của mạng nơ-ron Error! Bookmark not defined Hình 2.6 Hàm sigmoid Error! Bookmark not defined Hình 2.7 Siêu phẳng phân chia dữ liệu theo phương pháp SVMError! Bookmark not
defined.
Hình 2.8 Minh họa bài toán phân lớp nhị phân bằng phương pháp SVM Error!
Bookmark not defined.
defined.
Hình 3.1 Mô hình dự báo đề xuất Error! Bookmark not defined Hình 3.2 Tạo tập huấn luyện trong mạng nơ-ron Error! Bookmark not defined.
defined.
Hình 4.1 Giá đóng cửa và số lượng giao dịch Error! Bookmark not defined Hình 4.2 Biểu đồ thể hiện tính mùa vụ của close và volumeError! Bookmark not
defined.
Hình 4.3 Đồ thị giá đóng cửa và MA10, MA20 Error! Bookmark not defined.
defined.
Hình 4.5 Kết quả dự đoán của mô hình mạng nơ-ron Error! Bookmark not defined Hình 4.6 Kết quả dự đoán mô hình mạng nơ-ron với bộ tham số tối ưu Error!
Bookmark not defined.
Hình 4.7 Mô hình mạng nơ-ron với bộ tham số tối ưu theo phương pháp vét cạn Error!
Bookmark not defined.
Trang 11Hình 4.8 Kết quả dự đoán của mô hình SVM Error! Bookmark not defined Hình 4.9 Mô hình dự đoán SVM tối ưu theo phương pháp vét cạnError! Bookmark
not defined.
defined.
Hình 4.11 Kết quả mô hình dự đoán SVM tối ưu theo phương pháp GA Error!
Bookmark not defined.
Hình 4.12 Kết quả dự đoán bằng mô hình ARIMA kết hợp phương pháp vét cạn
Error! Bookmark not defined.
MỞ ĐẦU
Dữ liệu tài chính luôn là nguồn dữ liệu vô cùng phong phú trong giai đoạn hiện nay Đặc biệt, sự phát triển mạnh mẽ của công nghệ thông tin cùng mạng internet đã giúp con người có thể dễ dàng tiếp cận với kho dữ liệu khổng lồ đó Tuy nhiên, trên thực tế, con người cần phải biết chắt lọc, chọn lựa những thông tin có ích nhằm phân tích, khai thác, phát hiện tri thức bên trong dữ liệu đó một cách hiệu quả Các phương pháp quản trị và khai thác dữ liệu thủ công, truyền thống tỏ ra kém hiệu quả trước nhu cầu khai thác và phát hiện thông tin trong giai đoạn hiện nay Từ đó, kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD – Knowledge Discorvery and Data Mining) ra đời
đã đem lại hiệu quả cao trong vấn đề khai thác và phát hiện tri thức, áp dụng trên nhiều lĩnh vực khác nhau, đặc biệt là trong quản lý vĩ mô và kinh doanh mà cụ thể hơn nữa
là trong thị trường chứng khoán
Việc dự đoán thị trường chứng khoán là một bài toán đang được nhiều người quan tâm Sự không tuyến tính của thị trường kèm theo đó là tác động của nhiều yếu tố bên ngoài cũng làm ảnh hưởng tới quá trình thay đổi của thị trường chứng khoán Vì vậy, làm thế nào để dự đoán chính xác được sự lên xuống của thị trường là một bài toán mà mọi nhà đầu tư đều quan tâm, tìm hiểu, nghiên cứu và phân tích
Đã có rất nhiều nghiên cứu trên thế giới (trong đó có Việt Nam) về bài toán dự báo thị trường chứng khoán sử dụng các mô hình khai phá dữ liệu khác nhau Năm
2001, Efstathios Kalyvas đã phân tích thị trường chứng khoán sử dụng mô hình mạng nơ-ron và đạt được những kết quả nhất định Và mới đây, năm 2007 trong luận văn thạc sĩ của học viên Phạm Thị Hoàng Nhung (ĐHQGHN) cũng đã nghiên cứu về mạng nơ-ron ứng dụng vào dự báo lưu lượng nước đến hồ Hòa Bình với kết quả dự báo chính xác lớn trên 80%
Trong khuôn khổ của luận văn, tác giả tập trung tìm hiểu nghiên cứu về một số
mô hình khai phá dữ liệu thời gian thực áp dụng cho bài toán phân tích thị trường chứng khoán, cụ thể là mô hình mạng nơ-ron nhân tạo, mô hình máy vector hỗ trợ và
Trang 12mô hình arima Mục tiêu của luận văn là áp dụng giải thuật gen di truyền để tối ưu mô hình mạng nơ-ron và mô hình máy vector hỗ trợ, từ đó so sánh, đánh giá để tìm ra mô hình phù hợp hơn với bộ dữ liệu ban đầu Sau đó, luận văn sẽ đưa ra lời khuyên cho người chơi là nên mua, bán hay giữ nguyên cổ phiếu trong phiên tiếp theo
Luận văn được trình bày trong 4 chương như sau:
Chương 1: Một số khái niệm cơ bản về tài chính
Trong chương này, tác giả sẽ giới thiệu một số khái niệm cơ bản về tài chính và thị trường chứng khoán Chương 1 của luận văn tập trung đi nghiên cứu về các chỉ số
cơ bản trong chứng khoán và phân tích kỹ thuật ứng dụng trong dự báo chứng khoán
Chương 2: Tổng quan về khai phá dữ liệu thời gian thực
Chương này giới thiệu tổng quan về khai phá dữ liệu thời gian thực và một số mô hình dùng trong khai phá dữ liệu như mô hình mạng nơ-ron nhân tạo (ANN), mô hình máy vector hỗ trợ (SVM) và mô hình Arima
Chương 3: Mô hình dự báo thị trường chứng khoán
Chương 3 tập trung vào tìm hiểu về mô hình dự báo trong thị trường chứng khoán Nội dung chủ yếu là lý thuyết tìm hiểu về quy trình trong bài toán khai phá dữ liệu áp dụng cho dự báo thị trường chứng khoán như: giới thiệu về bài toán, xây dựng
mô hình, thu thập và tiền xử lý dữ liệu, đánh giá mô hình
Chương 4: Thực nghiệm và đánh giá
Nội dung chủ yếu của chương 4 là ứng dụng 3 mô hình đã nghiên cứu để dự báo thị trường chứng khoán Mỗi mô hình lần lượt được chạy trên bộ tham số ngẫu nhiên,
bộ tham số tối ưu sử dụng phương pháp vét cạn và bộ tham số sau khi đã tối ưu sử dụng phương pháp học máy (cụ thể là phương pháp gen di truyền) Từ đó so sánh, đánh giá kết quả và đưa ra lựa chọn mô hình phù hợp với bộ dữ liệu cũng như lời khuyên cho người dùng
Trang 13Chương 1 MỘT SỐ KIẾN THỨC CƠ BẢN VỀ TÀI CHÍNH 1.1 Một số khái niệm về tài chính
1.1.1 Phân tích tài chính
Các hệ thống tài chính chứa đựng một kho dữ liệu khổng lồ, phức tạp Việc phân tích tài chính là một nghiệp vụ cần thiết nhằm đánh giá tình hình kinh tế của đất nước, của từng ngành, từng địa phương và trên cơ sở đó xác định được nhu cầu cần thiết của
xã hội và có những định hướng thỏa đáng Đối với doanh nghiệp và các nhà đầu tư thì việc đánh giá, phân tích hoạt động kinh doanh nhằm nắm bắt tình hình tài chính, kinh doanh của doanh nghiệp, giúp họ đưa ra những phương hướng, quyết định đúng đắn trong hoạt động kinh doanh, giúp doanh nghiệp tồn tại và phát triển theo một hướng đi tốt
Vậy Phân tích hoạt động tài chính doanh nghiệp là quá trình thu thập, xử lý các thông tin kế toán, nhằm xem xét, kiểm tra, đối chiếu, so sánh tài chính hiện hành với quá khứ, giúp người sử dụng thông tin có thể đánh giá tình hình tài chính DN, đánh giá
về tiềm năng, hiệu quả kinh doanh cũng như rủi ro trong tương lai
Ý nghĩa của việc phân tích tài chính có giá trị khác nhau tùy thuộc vào mục đích, nhu cầu của người sử dụng Đối với chủ doanh nghiệp và các nhà quản trị doanh nghiệp, mối quan tâm hàng đầu của họ là tìm kiếm lợi nhuận và khả năng tài trợ Đối với các nhà đầu tư thì mối quan tâm của họ là các yếu tố rủi ro, thời gian hoàn vốn, mức sinh lãi và khả năng thanh toán vốn Một điều chung ở đây ta nhận ra là họ đều quan tâm đến khả năng tạo ra dòng tiền, khả năng sinh lời, khả năng thanh toán và mức sinh lời tối đa
Tuy nhiên, để phân tích được chính xác thì cần có một thông tin đầy đủ, chính xác để giúp họ có quyết định đúng đắn khi ra quyết định đầu tư, cho vay, sản xuất Đây là ý nghĩa quan trọng nhất của việc phân tích tài chính doanh nghiệp nói riêng và phân tích tình hình tài chính của một quốc gia nói chung
1.1.2 Phương pháp phân tích tài chính
Để tiến hành phân tích tài chính, thông thường người ta sử dụng kết hợp nhiều phương pháp phân tích để đánh giá tình hình doanh nghiệp một cách xác thực và tối
ưu
Phương pháp chủ yếu hiện nay là phương pháp so sánh và phân tích tỉ lệ [1]
Phương pháp so sánh:
So sánh là phương pháp được sử dụng phổ biến trong phân tích để xác định xu hướng, mức độ biến động của chỉ tiêu phân tích Vì vậy để tiến hành so sánh phải giải quyết những vấn đề cơ bản, cần phải đảm bảo các điều kiện đồng bộ để có thể so sánh được các chỉ tiêu tài chính Như sự thống nhất về không gian, thời gian, nội dung, tính
Trang 14TÀI LIỆU THAM KHẢO Tiếng Việt
[1] Hoài, N.T., Bình, P.T & Duy, N.K (2009), Dự Báo và Phân Tích Dữ Liệu trong
Kinh Tế và Tài Chính, NXB Thống Kê
[2] Luận văn thạc sĩ Phạm Thị Hoàng Nhung, Ứng dụng mạng nơ-ron trong dự báo lượng nước hồ Hòa Bình
[3] TS Lê Văn Phùng; ThS Quách Xuân Trưởng (2012), Khai phá dữ liệu, NXB
Thông tin và Truyền thông
Tiếng Anh
[4] Abhishek Kar (Y8021), Stock Prediction using Artificial Neural Networks
[5] D.E Goldberg (1989), Genetic Algorithm in Search, Optimization and Machine
Learning, Addison Wesley, Reading, MA
[6] Karl Nygren (2004), Stock Prediction – A Neural Network Approach
[8] Rob J Hyndman, 2008, Time series and forecasting in R
[9] Stuart J Russell and Peter Norvig, Artificial Intelligence- A moderm Approach – 2nt Edition
[10] Vahid Khorani, Nafiseh Forouzideh, Ali Motie Nasrabadi (2011), Artificial Neural Network Weights Optimization Using ICA, GA, ICA-GA and R-ICA-GA: Comparing Performances
[11] Wolfgang Karl Härdle, Dedy Dwi Prastyo, Christian Hafner, Support Vectơr Machines with Evolutionary Feature Selection for Default Prediction
http://vietstock.vn/2012/06/du-bao-thi-truong-chung-khoan-bang-phuong-phap-dinh-luong-585-179888.htm