Ứng dụng kỹ thuật khai phá văn bản (Text mining) trong dự báo thị trường chứng khoán Việt Nam

Hiện nay trên thế giới đã có một số công trình nghiên cứu ứng dụng khai phá văn bản trong việc dự đoán thị trường chứng khoán cũng như biến động về giá. Tuy nhiên, ở Việt Nam chưa thực sự có nhiều nghiên cứu về khai phá văn bản (Textmining) ứng dụng trong tài chính cũng như xử lý ngôn ngữ tiếng Việt. Bài nghiên cứu là nguồn tham khảo khách quan và có giá trị cho các nhà quản lý và nhà đầu tư trong việc đưa ra các quyết định trên thị trường chứng khoán.

Trang 1

ỨNG DỤNG KỸ THUẬT KHAI PHÁ VĂN BẢN (TEXT MINING) TRONG

DỰ BÁO THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

Nguyễn Thùy Linh*, Nguyễn Linh Diệp, Nguyễn Ngọc Hải

Trường Đại học Kinh tế, Đại học Quốc gia Hà Nội,

144 Xuân Thủy, Cầu Giấy, Hà Nội, Việt Nam

Tóm tắt: Hiện nay trên thế giới đã có một số công trình nghiên cứu ứng dụng khai

phá văn bản trong việc dự đoán thị trường chứng khoán cũng như biến động về giá Tuy nhiên, ở Việt Nam chưa thực sự có nhiều nghiên cứu về khai phá văn bản (Text-mining) ứng dụng trong tài chính cũng như xử lý ngôn ngữ tiếng Việt Sự thiếu hụt này có thể xuất phát từ bản chất liên ngành của nó liên quan đến ngôn ngữ học – học máy – kinh tế học hành vi Do đó, nghiên cứu này sẽ xem xét kỹ thuật khai phá văn bản và ứng dụng nhằm dự báo thị trường chứng khoán Việt Nam Nghiên cứu sử dụng gần 70.000 bài báo từ các trang báo điện tử uy tín của Việt Nam làm dữ liệu đầu vào cho các mô hình: Cây quyết định (Decision Tree), Rừng ngẫu nhiên (Random Forest), K-Láng giềng (KNN) và Vector hỗ trợ (SVM) với tỷ lệ dự đoán chính xác lần lượt là 51,23%, 52,73%, 51,38% và 52,8% Sau khi lựa chọn được mô hình tối ưu (SVM) và tập dữ liệu tốt nhất (Vietstock), các thuật toán nhằm đào sâu và cải thiện kết quả đã tăng độ chính xác lên 60,1% Mặc dù kết quả chưa đạt độ chính xác như kỳ vọng nhưng nghiên cứu đã cho thấy các tin tức về tình hình tài chính, chứng khoán trên báo chí phổ thông có ảnh hưởng đến xu hướng giá cả của chỉ số VN-Index Do đó, kết quả trong bài nghiên cứu là nguồn tham khảo khách quan và có giá trị cho các nhà quản lý

và nhà đầu tư trong việc đưa ra các quyết định trên thị trường chứng khoán

Từ khóa: Khai phá văn bản, học máy, thị trường chứng khoán, SVM, VN-Index

1 GIỚI THIỆU

Chứng khoán được coi là kênh “huyết mạch” để huy động vốn, do đó thị trường chứng khoán trên thế giới nói chung và ở Việt Nam nói riêng đang ngày càng

* Tác giả liên hệ: 094 386 0576

Trang 2

thu hút nhiều nhà đầu tư Theo số liệu từ Trung tâm Lưu ký Chứng khoán Việt Nam, chỉ riêng trong tháng 11/2020, thị trường chứng khoán Việt Nam có hơn 41.200 tài khoản mới (cao nhất theo tháng từ trước đến nay) Hiện nay với hơn 2,7 triệu tài khoản (tính đến cuối tháng 11/2020), thị trường chứng khoán Việt Nam ngày càng được quan tâm và các nhà đầu tư cũng muốn biết thêm về tương lai của thị trường để

có thể đầu tư thành công hơn Chính vì vậy, việc dự đoán thị trường hiệu quả sẽ mang lại lợi ích to lớn ở cả cấp độ vĩ mô và vi mô, giúp nhà đầu tư đưa ra lời khuyên giao dịch hoặc có thể được sử dụng như một phần gợi ý của các đại lý giao dịch tự động

Các phương pháp phân tích cổ điển thường dựa vào số liệu lịch sử giá hoặc kết hợp với các chỉ số tài chính Tuy nhiên, trong khi các thông tin trên thực tế như chỉ số tài chính, kết quả hoạt động kinh doanh thường mang tính chất tổng kết của một thời kỳ (quý, nửa năm, năm), thì tin tức liên quan tới một doanh nghiệp thường

sẽ có tác động ngay đến giá cổ phiếu của doanh nghiệp này Đã có nhiều nghiên cứu trước đây sử dụng các thuật toán để phân tích dữ liệu thị trường thông qua phân tích kỹ thuật như: sử dụng mô hình ARCH và GARCH Tuy nhiên, hiện nay với sự phát triển của khoa học công nghệ, các thuật toán liên quan tới kỹ thuật học máy (Machine learning) đã được áp dụng, khắc phục được những nhược điểm của phương pháp phân tích cổ điển

Theo lý thuyết về “Thị trường hoàn hảo”, nếu như tất cả các nhà đầu tư đều nắm được những thông tin giống nhau thì giá của một chứng khoán sẽ phản ánh đầy đủ giá trị của nó Tuy nhiên, đối với mỗi nhà đầu tư, việc tổng hợp tất cả những tin tức này không chỉ là vấn đề về nguồn tài liệu mà còn là vấn đề về thời gian Theo bài kiểm tra tốc độ đọc được tài trợ bởi Staples, một người lớn có tốc

độ đọc trung bình là 300 từ mỗi phút Trung bình, mỗi trang giấy A4 có từ 400 đến

500 từ Do đó, để đọc một tài liệu gồm 20 trang, một người cần ít nhất 30 phút và thậm chí cần mất nhiều thời gian hơn để hiểu, phân tích và tổng hợp lượng thông tin đó Tuy nhiên, khối lượng thông tin công bố trên Internet ngày càng nhiều đã khiến cho nhu cầu về các công cụ giúp người đọc tìm kiếm, tổng hợp thông tin cũng gia tăng (Aas và Eikvil, 1999)

Trang 3

Trong thời đại bùng nổ thông tin, mỗi ngày người đọc có thể tiếp xúc với vô vàn nguồn tin tức khác nhau Những nguồn tin này có thể là các tin tức trực tiếp liên quan tới tình hình tài chính của thị trường, doanh nghiệp hoặc cũng có thể liên quan gián tiếp tới doanh nghiệp đó thông qua các bài báo nói về đời tư, các cuộc gặp gỡ giữa doanh nghiệp với các doanh nghiệp khác hoặc thậm chí đôi khi các chia sẻ (có thể chưa được kiểm chứng) lan truyền trên mạng xã hội Trên thực tế, văn bản cũng cung cấp thông tin quan trọng như dữ liệu số Thông tin văn bản dễ hiểu hơn và giúp người đọc nắm bắt được một cách tổng quát Đặc biệt đối với các nhà đầu tư mới, còn

ít kinh nghiệm trong việc áp dụng phân tích kỹ thuật để đầu tư chứng khoán, đa phần

họ dựa vào các thông tin văn bản được cung cấp bởi các trang tin tức online hàng đầu

về chứng khoán hoặc các bài báo hàng ngày của các công ty chứng khoán đăng tải dành cho khách hàng Do đó, phân tích văn bản có ý nghĩa quan trọng và bổ sung cho việc phân tích các chỉ số tài chính và các mô hình giá

Text-mining là một kỹ thuật trí tuệ nhân tạo đang là xu hướng được nhiều nhà nghiên cứu lựa chọn để tìm ra giải pháp cho nhiều lĩnh vực trong đời sống, đặc biệt trong dự báo thị trường chứng khoán Việt Nam Việc sử dụng phương pháp Khai phá

dữ liệu văn bản là rất cần thiết, mang tính sáng tạo cao Hơn nữa, không có nghiên cứu nào gần đây tại Việt Nam làm về đề tài tương tự nên nhóm nghiên cứu quyết định tiến hành nghiên cứu tiên phong đề tài trên

2 TỔNG QUAN TÀI LIỆU 2.1 Tổng quan nghiên cứu trong nước

Lĩnh vực dự báo thị trường chứng khoán luôn nhận được sự quan tâm của cộng đồng nghiên cứu trong nước Đã có nhiều công trình trong nước nghiên cứu về dự báo chứng khoán như:

Đặng Hồng Phú (2008) đã trình bày được tổng quan về khai phá dữ liệu: khái niệm, các kỹ thuật khai phá dữ liệu và các ứng dụng của khai phá dữ liệu Trong đó luận văn tập trung vào kỹ thuật khai phá dữ liệu chuỗi thời gian áp dụng vào bài toán thực tế đang được quan tâm đó là bài toán dự báo nói chung và dự báo giá chứng

Trang 4

chuỗi thời gian thực, về mô hình ARIMA (các công cụ áp dụng trong mô hình, quy trình xây dựng mô hình) và phần mềm Eviews, áp dụng Eviews để thi hành các bước của mô hình ARIMA trong dự báo chứng khoán Luận văn đã áp dụng những cơ sở lý thuyết nghiên cứu tiến hành thực nghiệm trên ba chuỗi chứng khoán (chỉ số VnIndex,

mã CK ABT, ACB) dựa trên dữ liệu lịch sử của mỗi chuỗi (gồm 257 quan sát trong quá khứ) và đã dự báo được giá đóng cửa của 10 ngày tiếp theo Kết quả dự báo đã được phân tích, kiểm tra, đối chiếu với giá thực tế và cho thấy kết quả đó là khá chính xác, độ tin cậy cao Như vậy, mô hình ARIMA đưa ra cho mỗi chuỗi chứng khoán trong luận văn là khá phù hợp để dự báo ngắn hạn giá cổ phiếu Tác giả cơ bản nắm được quy trình dùng phần mềm Eviews để xây dựng mô hình ARIMA cho dữ liệu thời gian thực, tính toán giá trị dự báo cho chuỗi dữ liệu chứng khoán

Trịnh Thanh Ngọc (2013) đã sử dụng trang mạng xã hội Twitter kết hợp với kỹ thuật học máy hồi quy hỗ trợ SVR để dự báo xu thế chứng khoán Cụ thể hơn, tác giả

đã xây dựng chương trình dự báo giá cổ phiếu Apple

Lê Văn Tuấn (2021) đã sử dụng một số mô hình thuật toán học máy để dự báo

xu hướng biến động (tăng/giảm) của chỉ số thị trường chứng khoán của Việt Nam Kết quả cho thấy, sự biến động tăng/giảm của thị trường chứng khoán Việt Nam chỉ phụ thuộc vào sự tăng/ giảm của ngày ngay trước mà không phụ thuộc vào các ngày xa hơn, cũng không phụ thuộc vào khối lượng giao dịch Trong các mô hình hồi quy Logistic, mô hình phân tích phân biệt tuyến tính (LDA), phân tích phân biệt toàn phương (QDA) và mô hình K láng giềng (KNN), trong đó mô hình KNN có độ chính xác dự báo tốt nhất với 55,6%

Nguyễn Thị Thu Hiền (2016) đề xuất mô hình dự báo đa trị dựa trên hệ suy luận ANFIS, từ đó xây dựng thuật toán huấn luyện và thuật toán dự báo Để minh chứng tính hiệu quả của mô hình đề xuất, nhóm nghiên cứu xây dựng hai ứng dụng thực nghiệm: (1) Dự báo sản lượng sữa trên cơ sở dữ liệu của công ty Vinamilk; (2)

Dự báo giá cổ phiếu trên cơ sở dữ liệu Cophieu68 Bài báo đã giải quyết được vấn đề

dự báo đồng thời nhiều kết quả, giúp cải thiện đáng kể về tốc độ so với các phương pháp khác như: AR, ARMA, ANFIS, NARX, SANN, MLR, T-Norm dựa trên ANFIS

Trang 5

Điều này đã được minh chứng trong phần kết quả thực nghiệm Hướng phát triển của bài báo là đề xuất hệ ANFIS có khả năng tự nhận biết các trường hợp dị biệt và có khả năng chịu lỗi cao để kết quả dự báo không bị ảnh hưởng bởi các giá trị bất thường

Có thể thấy, các nghiên cứu trên chủ yếu sử dụng dữ liệu số để dự báo giá chứng khoán mà chưa xem xét đến sự tác động của các tin tức của tình hình tài chính, kinh tế, thế giới đến xu hướng biến động của giá chứng khoán

2.2 Tổng quan nghiên cứu nước ngoài

Lĩnh vực sử dụng kỹ thuật học máy để dự báo xu hướng thị trường chứng khoán không chỉ xuất hiện trong những nghiên cứu trong nước mà còn thu hút được

sự quan tâm của cộng đồng nghiên cứu trên thế giới, như:

Arman Khadjeh Nassirtoussi và cộng sự (2014) đã tổng kết những công trình

gần đây về việc áp dụng text mining để dự báo thị trường, trong đó hầu hết các hệ thống được đề xuất trong các công trình nghiên cứu đều theo kiến trúc như sau:

Hình 1: Sơ đồ các thành phần chính của hệ thống dự báo thị trường

Nguồn: Nhóm nghiên cứu tổng hợp

Trang 6

Về các công trình sử dụng kỹ thuật khai phá văn bản để dự báo các chỉ số chứng khoán, có thể kể đến một số nghiên cứu sau:

Tien Thanh Vu và cộng sự (2012) đã khai phá các tính năng từ tin nhắn Twitter

để nắm bắt tâm trạng của công chúng liên quan cho bốn công ty công nghệ để dự đoán biến động giá lên và xuống hàng ngày của cổ phiếu NASDAQ của các công ty này Nghiên cứu đề xuất một mô hình mới kết hợp các tính năng cụ thể là phân tích tâm lý tích cực, tâm lý tiêu cực và niềm tin của người tiêu dùng vào sản phẩm liên quan đến các từ “tăng giá” hoặc “giảm giá” và ba ngày vận động thị trường chứng khoán trước

đó Các tính năng được sử dụng trong bộ phân loại Cây quyết định bằng cách sử dụng xác thực nhiều lần để mang lại độ chính xác 82,93%, 80,49%, 75,61% và 75,00% trong việc dự đoán những thay đổi lên xuống hàng ngày của Apple (AAPL), Google (GOOG), cổ phiếu của Microsoft (MSFT) và Amazon (AMZN) tương ứng trong mẫu

41 ngày thị trường

Hình 2: Mô hình dự báo giá chứng khoán sử dụng dữ liệu Twitter

Trang 7

G Pui Cheong Fung và cộng sự (2003), đã đề xuất kết hợp hai phương pháp là khai phá dữ liệu văn bản và chuỗi thời gian dựa trên giả thuyết thị trường hiệu quả (Eficient Market Hypothesis), giúp đưa ra cái nhìn khái quát hơn về thị trường chứng khoán Tới năm 2004, Marc-André Mittermayer thực hiện nghiên cứu dựa trên các bài báo và dữ liệu giá cổ phiếu năm 2002 của NewsCATS Kết quả cho thấy việc phân loại các bài báo có thể cung cấp thông tin bổ sung và có khả năng được sử dụng để dự báo xu hướng giá cổ phiếu

Robert P Schumaker và Hsinchun Chen (2009) đã sử dụng dữ liệu của 9.211 bài báo tin tức tài chính và 10.259.042 báo giá chứng khoán, bao gồm các cổ phiếu S&P 500 trong thời gian 5 tuần Bằng phương pháp khai phá dữ liệu văn bản, nhóm tác giả cũng đưa ra kết luận với độ chính xác khoảng 57%

Johan Bollena, Huina Maoa và Xiaojun Zeng, (2011) đã thu được một tập hợp các bài đăng công khai được ghi lại từ ngày 28/02 đến ngày 19/12/2008, bao gồm 9.853.498 bài được đăng và khoảng 2,7 triệu người theo dõi Họ phân tích nội dung văn bản của nguồn dữ liệu Twitter hàng ngày bằng hai công cụ theo dõi tâm trạng, là đo lường trạng thái tích cực so với tiêu cực (Opinion Finder) và đo lường tâm trạng theo sáu chiều (Calm, Alert, Sure, Vital, Kind, và Happy) Kết quả cho thấy sự biểu hiện tâm trạng thông qua các bài đăng trên Twitter có ảnh hưởng tới thị trường chứng khoán

Hiện nay trên thế giới đã có một số công trình nghiên cứu ứng dụng khai phá văn bản trong việc dự đoán thị trường chứng khoán cũng như biến động về giá Tuy nhiên, ở phạm vi Việt Nam, các công trình nghiên cứu về dự báo thị trường chứng khoán chủ yếu tiếp cận phương pháp khai phá dữ liệu dựa trên dữ liệu số đơn thuần Như vậy, có thể nói, việc sử dụng phương pháp khai phá văn bản đối với thị trường chứng khoán Việt Nam vẫn còn rất mới mẻ và sẽ đóng góp rõ rệt đối với lĩnh vực này Trong các chương sau, nhóm nghiên cứu trình bày sơ lược các kỹ thuật khai phá văn bản và trình bày mô hình mới và các kết quả thử nghiệm

3 PHƯƠNG PHÁP NGHIÊN CỨU

Trang 8

Nghiên cứu sử dụng các mô hình học máy (Marchine Learning): Véc tơ hỗ trợ (SVM), Cây quyết định (Decision Tree), Rừng ngẫu nhiên (Random Forest), K-láng giềng (KNN) để dự báo biến động giá của thị trường chứng khoán Việt Nam Text-mining của các trang báo điện tử tại Việt Nam Quy trình nghiên cứu cụ thể như sau:

Nhóm nghiên cứu thu thập nguồn dữ liệu văn bản là các bài báo, tin tức từ 4 trang web tài chính nổi tiếng và nguồn dữ liệu số là chỉ số lịch sử giá của VN-INDEX

từ trang: Investing.com sử dụng công cụ là thư viện Beautiful Soup của Python Sau

đó nghiên cứu tiến hành kết hợp tin tức văn bản đồng thời gán nhãn cho các bài báo theo 3 mức độ: tăng, giảm, không đổi, để phục vụ cho công tác nghiên cứu ở những bước tiếp theo Nhóm nghiên cứu loại bỏ các ký tự gây nhiễu, từ dừng bằng việc sử dụng công cụ phân đoạn từ tiếng Việt Word_tokenizer của thư viện Underthesea - công cụ đạt tỷ lệ chính xác 90% trong việc mã hóa các câu tiếng Việt

Các văn bản tin tức sau khi được xử lý sẽ được đưa vào Lựa chọn đặc trưng Ở bước này, nhóm nghiên cứu sử dụng phương pháp TF-DIF để lọc ra 1024 từ đặc trưng

từ tập dữ liệu, là những từ đặc trưng nhất giúp các mô hình máy học từ việc dựa vào

đó để đưa ra kết quả phân loại chính xác nhất Các dữ liệu đó sẽ được đưa vào chương trình Huấn luyện trên 2 tập dữ liệu với tỷ lệ là 70:30 Sau khi được huấn luyện, nhóm nghiên cứu thực hiện Thử nghiệm mô hình để lựa chọn mô hình tối ưu và tập dữ liệu đầu vào tốt nhất, nhằm nâng cao được kết quả nghiên cứu

Trang 9

Hình 3: Quy trình nghiên cứu

4 KẾT QUẢ NGHIÊN CỨU

Nhóm sử dụng các mô hình học máy: Decision Tree, Random Forrest, KNN và SVM để thử nghiệm các tập dữ liệu đầu vào Mô hình có tỷ lệ chính xác cao sẽ được chọn làm mô hình tối ưu

Kết quả thu được như sau:

Bảng 1: Kết quả thử nghiệm mô hình tối ưu Thuật toán/ Mô hình Tỷ lệ chính xác

Từ kết quả trên, ta có thể thấy kết quả của mô hình SVM là đạt tỷ lệ chính xác cao nhất với 52,8% Trong các phần thử nghiệm tiếp theo nhóm sẽ sử dụng mô hình SVM trong dự báo chỉ số giá VN-index (dự báo Thị trường chứng khoán Việt Nam)

Bảng 2: Kết quả thử nghiệm tập dữ liệu đầu vào tốt nhất

Trang 10

Với thử nghiệm sử dụng mô hình SVM để dự báo Chỉ số giá VN-Index bằng

dữ liệu đầu vào trang báo điện tử Vietstock, kết quả cho thấy trang web mang lại kết quả cao nhất (55,87%) Chính vì vậy, chúng tôi lựa chọn dữ liệu đầu vào cho mô hình

là các bài báo tài chính, kinh tế của trang báo điện tử Vietstock

Để nâng cao kết quả chương trình thử nghiệm, chúng tôi sử dụng kỹ thuật thay đổi các tham số C và Gamma Nhóm thử nghiệm thay thế 2 tham số chính cho mô hình là C với các giá trị từ 0,1 đến 1000 và gamma từ 0.0001 đến 1 và kernel là 'rbf' Kết quả tốt nhất thu được là 60,1%

Bảng 3: Kết quả nâng cao chương trình thử nghiệm

Định dạng
Số trang	16
Dung lượng	468,12 KB