ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CỔNG NGITẸ TRAN THI BiCH NGỌC NGHIÊN CỨU KHAI PHÁ DỮ LIEU VA UNG DUNG PHÂN TÍCH XU THÉ THỊ TRƯỜNG CHỨNG KHOAN LUẬN VĂN THẠC SĨ HỆ THÓNG THÔNG T
Trang 1
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CỔNG NGITẸ
TRAN THI BiCH NGỌC
NGHIÊN CỨU KHAI PHÁ DỮ LIEU VA UNG DUNG
PHÂN TÍCH XU THÉ THỊ TRƯỜNG CHỨNG KHOAN
LUẬN VĂN THẠC SĨ HỆ THÓNG THÔNG TIN
Trang 2
ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CỔNG NGITẸ
TRẢN THỊ BÍCH NGỌC
NGHIÊN CỨU KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG
PHAN TiCH XU THE THI TRUONG CHUNG KHOAN
Ngành: Hệ thống thông tin
Chuyên ngành: IIệ thống thông tin
Mã số: 60 48 01 04
LUAN VAN THAC Si HE THONG THONG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS NGUYEN HA NAM
Trang 31
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Nghiên cứu khai phá dữ liệu và ứng dụng phân tích
xu thể thị trường chứng khoán" là công trình nghiên cứu của riêng lôi Các số liệu, kết
quả được trình bảy trong luận văn là hoàn toàn trung thực vả chưa được công Đồ lrên
At cit công trình nào khác Tôi đã trích dẫn đây đủ các tài Hiệu tham khãa, công trình
nghiên cứu liên quan Ngoại trừ các tài liệu tham khảo nảy, luận văn hoàn toản là nghiên cứu của riêng tôi
Tuan vin duge hoàn thành trong thời gian tôi là học viên lại Khoa Công nghệ
thêng tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
1à Nội, ngày 18 tháng 10 năm 2015
Tọc viên
Trần Thị Bích Ngục
Trang 42
LOI CAM ON
Lời dẫu tiên, tôi xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới PGS.TS
Nguyễn Hà Nam đã tận tình hướng dẫn tôi trong suốt quá trinh thực hiện hiận văn tốt
nghiệp
Tôi xin trân trong cam ơn các Thầy, Cô giáo đã lận tình chỉ dạy, cùng cấp cho lỗi
những kiến thức quý báu và luôn nhiệt tỉnh giúp đỡ, tạo điều kiện thuận lợi nhật trong suốt quả trinh tôi học tập tại Trường Dại học Công nghệ
Tôi xin gửi lời cảm ơn tới các bạn trong nhóm do thấy Nguyễn Hà Nam hướng
đầm đã luôn sát cảnh và hồ trợ cho tôi trong suốt quá trình học tập cũng như quá Irình
làm luận văn
Cuối củng, tôi muốn dược gửi lời cảm ơn tới gia đình, đồng, nghiệp và bạn bẻ, những người luôn bến cạnh, đông viên vả tạo điền kiên tối nhất cho tôi trong suối quá
trình học tập và thực hiện luận văn tết nghiệp
Tôi xin chân thành cấm ơnl
Trang 5
DANH MUC HINH VE
DANH MUC BANG BIEU
MODAU
1 Dat van dé 7
2 Muc téu nghiên cứu
3 Déi trong nghién citu 7
4 Phương pháp nghiêu cứu
5 Cấu trúc luận van
Chwong 1: TONG QUAN VE TH TRUONG CHUNG KHOAN VA CAC KY THUAT
TRUYEN THONG
1.1 - Thị trường chứng khoán
1.2 Miột số kỹ thuật cơ băn rùng (rong thị trường chứng khaản
1.41 Phẩntích kỹ thuật (Technical Analysis)
1.2.1.1, Biểu đỏ đạng đường (Line chart
1.3.1.2 Biểu đỏ đạng thea chin Gar chant)
1.2.1.3 Tiiều đã cấy nên (Candlestick chart)
132 Một số chỉ báo kỹ thuật cơ bản (Technical Indicator)
“Tính hội tụ va phân kỷ của dường trung bình động MÁCD (Moving Averase Convergence Divergence} -
1432 MACD —Histogram
12.23, Dai bing Bollinger
1.224 Chi 36 site manh tuong 461 RSI (Relative Strength Index)
122.5 Aroan
14 Kỹ thuậL ủự báo nâng cu
131 Phan tich héi quy (Regression Analysis)
1.3.1.2 Hệ số xác định (coefficient of determination]
13.2 Mê hình AREMA (AuloRcgressivcIntcgratcd Moving Avcrage) 1Š
Quả trinh MA(Q)
Mô hình ARMA -
Quả trình tích hợp líd)
Mê hinh ARIMA(p.d,q) tổng quát
14 ậ
Chương 2: KHAI PHÁ DỮ LIỆU LÀ CÁC KỸ THUẬT PHÂN TÍCH DỰ BẢO
21 Khai pha trí thức và khai phá dữ liệu
211 Khai phátrithúc
3.12 Khai phá dữ liệu
Trang 6
Phan Lip 20 'ĐĐảnh giả mồ hinh phân láp 20t neo TT
2.2, Mang Neural nhan tgo (Artificial Neural Network)
221 Tiến trúc mang Neural,
2.2.2 Meng Perceptron
2.2.3 MạngMLP _
124 Huấnhyện mạngNgual
2.2.5 Thuậttốn]an truyền ngược (Back Propagation)
2.3 Phương phap ensemble
131 Giớithiệuphuong pháp cnscmbie
Ky thuật Bagging
23.3 KY thudl Boosting noun
Chương 3: PHƯƠNG PHÁP GIẢI QUYẾT, THỰU NGHIỆM VÀ DÀNH GIÁ CHO BAT
TÂN DỰ BẢO THỊ TRƯỜNG CHỮNG KHOẢN
3.117 Cơng cụ hỗ tro giải quyết bải lốn
112 Quy trình giải quyết bái tốn
3.121 Thu thập dữ liệu
3.1243 Tổ chúc đữ liệu
3.1.2.5 Đánh giá mồ hình và nhận xét kết qua
3.2 M6 hinh đề xuất
3.3 Thực nghiệm
Thục hiện dự dộn theo chủ kỷ TÌ1 se
“Thức hiện dự đốn theo chu kỳ T++1
3.3.3.2 Hỏi quy
AA Glitifn3-Mạngnenval cổ thêm các chỉ báo và sĩ đụng phương pháp ensemble th 3.3.4.1 Phin lop LH HH Hinh giai 7 A2 Hỏi quy kh
3.4 Phân tích
KẾT LUẬN
TAI LIEU THAM KHAO
Trang 7
DANH MỤC HÌNH VẼ
Tình 1.1: Biểu đổ đạng đường,
Hinh 1.2: Biểu đỗ dang then chin
Hình 1.3 Biểu đỗ đạng cây nén
Mình 21: Phương pháp Holdou trong bài toán phân lớp
1iình 2.2: Mạng truyền thẳng
Hình 2.3: Mạng, phân hải -
Hình 3.4: Mô hình một Đarceptron
Tình 2.5: Mô hình mạng MLP
Tình 2.6 Mo inh quả bình huẫn luyện muạng MILP bằng thuật toán len huyền ngược
Tình 3.7: Giải thuật thuật toán lan truyễn ngược - - 27 Tình 2.8: Phnong phap Ensemble
Hình 3.1: Quy trình giâi quyết bài toán
Hình 3.2: Mô hình mạng Neural trong giải quyết bãi Loàn dự bảo chứng khoản
tình 3.3: Mô hình đẻ xuất: Mạng Ngural có bố sung thêm vác chỉ báu kỹ thuậi
ttình 3.4: Mô hình đề xnất: Mạng nemal có thêm các chỉ báo và sử dụng phương phán ensembie 36
Hình 3.6: Tỷ lệ lỗi qua các lân hoc của mô hình mạng, Neural - 38
Trình 38: HỆ số trơng quan R 38
Tình 3.9: Tỷ lệ lỗi qua các lân Rpoch cũa mô hình mạng, Nenral 39
Hình 3.10: Biểu đỗ thông kê kết quả đự báo của mô hinh mạng netral theo tiếp cận phân lớp 40
Hình 3.11: Tỷ lệ lỗi MSE
inh 3.13 Biéu d6 thé hign gid tj MSE và hệ số Lương quan qua 20 lân kiểm nghiện 41
Tiình 3.14: TY 18 18i qua ede Bpach eita m6 hinh mang Neural 42
Hình 3.15: Biểu đỏ thắng kế kết quả dự bảo theo hướng tiếp cân phản lớp san cải tiễn 1 43
Hình 3.16: Tỷ lệ lỗi MSE
Tinh 3.18: Biển đô thể hiện giả trị MS và hệ số tương quan qua 20 lân kiếm nghiệm AA Tình 3.19: Hệ sổ tương quan R bằng phương pháp Finsemble cho mạng nenral 48 Hình 3.20: Dé thi giá đóng cửa thực tế và giá đự đoán - 48
Trang 8
DANH MUC BANG BIEU
Bing 3.1: Ditligu cổ phiên MSPT - - - 33 Bang 3.2: So sánh các kết qá thực nghiệm bằng mô hình Arima 37 Bang 3.3: Kat quả dự đoán bằng mồ hình Arima 37
gui dhữn lớp bằng tạng Neunl
Kết quả phân lớp bằng mạng Naural -
Bang 3.8: Két quả dự đoán khi phân tích hôi quy bằng mạng, Nemral cải tên 1 45
Bảng 3.9: Kết quả sử dụng mang neuai để phân lớp đữ liệu
Bảng 3.10: Kết quả sử dụng nưạng neurai để phân tích hỏi quy óữ liệu +
Bang 3.11: Kat quá dự đoán của mạng, Neural truyền théng và mang, Neural cải tiễn l 46
Bang 3.12: Két quả phân lớp bằng phương, pháp Ensemble cho mạng, netraL - 47 Bảng 3.13: Tổng hợp các kết quả đự đoán cũn nhiễn mỏ hình thực nghiêm - 48
Bing 3.14: Lời khuyên cho các nhà đâu tư chứng khoán
Trang 9MO DAU
1 Dat vin dé
Sự phát triển của công nghệ thông tin vả những ứng dụng công nghệ théng tin trong nhiều lĩnh vục cửa dời sống, kinh tế xã hội dã sản sinh ra một lượng dữ liệu không lẻ Các phương pháp quan trị và khai thác đữ liệu thủ công, truyền thống tỏ ra kém hiệu quả trước nhụ sầu khai thắc và phát hiện thông tin có giá Irị ân chứa wrong
lượng lớn dữ liệu nảy Sự ra đời của các kỹ thuật mới như là khai phá tri thức (Knowledge Discovery in Databases} va khai pha dit ligu (Data Mining) da đem lại
hiệu quả cao trong vẫn đề khai thác và phát hiện trị thức, áp dụng trên nhiều lĩnh vực
khác nhau Đặc biệt trong môi trưởng kinh doanh, người ta mong muốn có thật nhiều thông tin hữu ích để hỗ trợ kinh doanh hiệu quá Trong, đó, nhu cầu dự báo cho thị trường chứng khoán để hạn chế rủi ro và thua lễ dược các tổ chức cũng như các nhà đầu tư cá nhân đặt làm môi cuan lâm hàng đầu
Dự đoán xu thẻ của thị trường chứng khoán là một công việc khôi
Sự không tuyến tính của thị trường kèm theo sự tác động của nhiều yếu
cũng làm ãnh hướng tới giả cả của thị trường chủng khoản Do đỏ, việc xây dựng một
hệ thống phân tích dy bảo với các tiêu chỉ đầy đủ, khách quan vả khoa học cả về định tính và định lượng, cả vẻ góc độ tải chính và phi tài chính là cần thiết
2 Mục tiêu nghiên cúu
Luận văn của tôi tập trung nghiên củu cả hai phương pháp định tính và định
lượng với mong muôn cỏ dược một hệ thống dự doán xu thẻ thị trưởng chứng khoản
đủ mạnh hễ trợ đác lực eho cáo nhà đâu tư chứng kheán
3 Đối tượng nghiền cứu
Đổi tượng mã luận vẫn của tôi nghiên cửu chính là xu thể thị tường chứng
khoản Cụ thể, tôi sử dụng giá có phiếu MSEFT của công ty Microsoft Corporation thu
thập từ trang lusuee.yahoo.oom niêm yết trên sản NASDAQ (Ngtional Assoeietion o[
Securities Dealers Automated Quotations) dé tién hanh dự đoán
4 Phương pháp nghiên cứu
Tuan van tap trung vào việc tìm hiếu mỗ hình khai phá đữ liệu và các phân lich
kỹ thuật cơ bản dùng trong lình vực chứng khoản theo cá hai phương pháp định tính và
đình lượng, Tận văn thực hiện việp kết hợp mô hình khai phá dữ ign: mang neural va
các phân tích kỹ thuật cơ bản, sử dụng phương pháp ensemble giúp gia tăng độ chính
xác cho mang ncural dễ dưa ra dánh giá nhằm hỗ trợ các nhà dầu tư trong việc ra quyết
định mua bán cố phiếu.
Trang 105 Cau tric lugn vin
Bá cục của bài hận văn được trinh bày trong 3 chương
Chương 1: Tổng quan về thị trường chứng khoán và các kỹ thuật truyền thống
Chương này trình bảy một số kiến thức nên tảng về thị trường chứng khoán, các
phương pháp nghiên cứu cơ bản và những dặc trưng của thị trường chứng khoản thông,
qua các biểu để, các chỉ báo như MACD, dải bang Bollinger, RSI, Areon Và tim
biểu mô hình hổi quy ARIMA chuyén dụng trong việc dự duán gid cA thi trường chứng
khoán
Chương 2: Khai nhà dữ liệu và các kỹ thuật phân tích dự báo
Tôi tìm hiểu các đặc trưng co bản của lĩnh vực khai phá tri thúc, khai phá đữ liệu và các bài toán đặc trung trong lĩnh vực nảy Mô hình mạng neural là một trong, những mỗ hình khai phá dữ liệu điển bình, có khả năng áp đụng cao cho bài toán phân tích xu thể thị trường chứng khoản Ngoài ra để gia lăng độ chính xác cho mỗ hình
khai phá dữ liệu, phương pháp ensemble được coi lả một trong những giải pháp tối ưu Chương này chủ yêu xây đựng kiến thức miện tầng để tôi Liền hành những thục nghiệm
ở chương sau
Chương 3: Phương pháp giải quyết, thực nghiệm và đánh giá cho bải toàn
dự hảo thị trường chứng khoán
Nội dụng chủ yếu của chương 3 là áp đụng các mô hình đã tìm hiểu vào việc dir báo thị trường chứng khoán Đầu tiên, tôi tiền hành thực nghiệm bài toán với mồ hình: truyền thống: ARIMA và mạng neural Tiếp đó tôi cải tiên độ chỉnh xác cho mang neural, bang cách sử dụng bộ dỡ liệu chứng khoán và bỏ sung thêm một số chỉ bảo kỹ
thuật co ban nhuy MACD, RSE Aroon Nhim gia tăng độ chính xáo cho mô hình
mạng neural tôi tiếp tục cãi tiến làn 2 với kỹ thuật ensemble Cuối củng, tôi tiền hành đánh giá kết quả dự đoán của từng mô hình để tim ra lời khuyên tin cậy nhật cho các
nha dau tu, nhà kimh doanh chứng khoản.
Trang 113
TÀI LIỆU THAM KHẢO
Tiếng việt:
1 Nguyễn Trọng Hoái, Phùng Thanh Binh, Kguyển Khánh Duy, (2009), 2 Báo và
Phân Tích Dữ Liệu trong Kinh Tế và Tài Chính, NXB Thông Kế
2 Nguyễn Minh Phong, (2007), "Nhận điện rủi ro trong đầu tư chúng khoán," Tợp chi Tài chính Số 5 (S11)
3 Hà Quang Thuy, (2013), Bai giảng nhập môn khai phá để liệu, Đại học Công Nghệ-
ĐHQG Hà Nội
Tiếng anh:
4 RE Bamard, I Wessels, (1992), "Avoidig False Iocal Mimmma by Proper
Initialization of Connections", IEEE Trans on Neural Networks, vol 3, no 6, pp 809-
905
5, E, Bauer, R Kohavi, (1999), “An empirical comparison of voting classification
algorithms: Bagging, Boosting and variants”, Machine Learning 36 (1-2) (1999), pp
105-139
6 G Box, G Jenkins, (1970), Time series analy
San Francisca
Forecasting and control, Wiley,
7, Samprit A Chattefuee, Ali 8, Hadi, (2006), Regression Analysis by Example, Youth Edition, Wiley Interscience, Canada, pp 1, 21-44
8, H Demuth, M Beale, (1998), Neural network toolbox for use with MATLAB The MathWorks Inc., Massachusetts, USA
9.11 Drucker, R Schapire, P, Simard, (1993), “Improving performance in neural networks using a boosting algorithm”, Advances in Neural Information Processing Systems 5, California, pp 42-49
10 B Rfron, R Tibshirani, (1993), An Introduction in the Booistrap, Chapman & THaii, New Yek
11, David Hand, Heikki Mannila, Padhraic Smyth, (2001), Principles of Data Mining, MI‘ Press, Massachusetts
12 LK Hansen, P Salamon, “Neural network ensembles”, (1990), JEEE Trans Pattern Analysis and Machine Intelligence 12 (10) 993-1001
13 Rob J Hyndman, George Athanasopoulos, (2014), Forecasting: principles and practice, Olexts, Australia, pp 63-77
14 Kiyoshi Kawaguchi, (2000), 4 multithreaded sofiware model for backpropagation neural network applications, MSe Thesis, The University of Texas at El Paso