BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN CUỐI KỲ KHOA HỌC DỮ LIỆU NGHIÊN CỨU CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG NEURAL NETWORK VÀO C[.]
Trang 1KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
TIỂU LUẬN CUỐI KỲ KHOA HỌC DỮ LIỆU
NGHIÊN CỨU CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG NEURAL NETWORK VÀO CHỈ SỐ TÀI CHÍNH EPS ĐỂ DỰ BÁO TÌNH HÌNH HOẠT ĐỘNG KINH DOANH CỦA CÁC CÔNG TY NIÊM YẾT TRÊN SÀN GIAO DỊCH
CHỨNG KHOÁN TẠI VIỆT NAM
GIẢNG VIÊN HƯỚNG DẪN: NCS.TS THÁI KIM PHỤNG
Trang 2MỤC LỤC
1.3 Đối tượng nghiên cứu và phương pháp nghiên cứu 3
2.1.5 Ứng dụng của khai phá dữ liệu trong đời sống 7
2.1.6 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange 7
Trang 32.2.2.2 Ước lượng độ chính xác của mô hình và phân lớp dữ liệu mới
2.2.4 Chi tiết mô hình khai phá dữ liệu bằng Neural Network 14
2.2.5.1 Ma trận nhầm lẫn (Confusion Matrix) và độ chính xác (Accuracy);
2.2.5.2 Cross Validation: Holdout và K-fold cross validation 20
Chương 3: PHÂN TÍCH DỮ LIỆU HUẤN LUYỆN VÀ DỰ BÁO 22
3.3 Nguồn số liệu, phương pháp thu thập dữ liệu và nghiên cứu 26
Trang 43.8 Kết luận của kết quả nghiên cứu 36
PHỤ LỤC 1: DANH SÁCH CÔNG TY NIÊM YẾT TRONG BỘ DỮ LIỆU HUẤN
HOSE: Sàn giao dịch chứng khoán tại Thành phố Hồ Chí Minh
HNX: Sàn giao dịch chứng khoán tại Hà Nội
UPCOM: Sàn giao dịch chứng khoán tại Thành phố Hồ Chí Minh
AUC: Area Under Curve
ROC: Receiver Operating
Characteristic SVM: Support Vector
Machine
MCU: Multipoint Control Unit
ASEAN: Hiệp hội các quốc gia Đông Nam Á
SAR – COV – 2: Viết tắt của đại dịch COVID – 19
PE: Price to Earning ratio
ROA: Return on Assets
ROE: Return on Equity
Trang 5BV: Price to Book value
DE: Debt to Equity
Trang 6DANH MỤC BẢNG BIỂU – HÌNH VẼ VÀ BIỂU ĐỒ
Hình 2.1 Quy trình khai phá dữ liệu
Hình 2.2 Quá trình phân lớp dữ liệu – Xây dựng mô hình phân lớp
Hình 2.3 Quá trình phân lớp dữ liệu – Ước lượng độ chính xác của mô hình
Hình 2.4 Quá trình phân lớp dữ liệu – Phân lớp dữ liệu mới
Hình 2.5 Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic
Hình 2.6 Biểu đồ thể hiện giá trị Margin và Support Vector
Hình 2.7 Ví dụ mô hình cây quyết định về lựa chọn làm việc một ngày cụ thể
Hình 2.8 Hình vẽ thể hiện mạng lưới hoạt động của Neural Network
Hình 2.9 Đường cong ROC
Hình 2.10 Diện tích đường cong ROC (độ đo AUC)
Bảng 2.1 Ma trận nhầm lẫn
Bảng 2.2 Độ đo AUC với độ chính xác của mô hình phân lớp
Hình 3.1 Dữ liệu huấn luyện của 20 công ty niêm yết
Hình 3.2 Dữ liệu dự báo của 20 công ty niêm yết
Hình 3.3 Mô tả các thuộc tính của các biến
Hình 3.4 Tổng quan về quy trình huấn luyện và dự báo bằng sơ đồ
Hình 3.5 Kết quả của mô hình đánh giá phân lớp bằng Cross Validation
Hình 3.6 Ma trận nhầm lẫn với Neural Network
Hình 3.7 Các thuộc tính của bộ dữ liệu dự báo
Hình 3.8 Kết quả của dự báo bằng Neural
Network Hình 3.9 Chỉ số Neural Network
Biểu đồ 3.1 Biểu đồ thể hiện chỉ số VN–INDEX của Việt Nam giai đoạn 2018 – 2020
Trang 71.1 Lý do lựa chọn đề tài
Chương 1: GIỚI THIỆU
Công nghệ thông tin đóng vai trò hết sức quan trọng trong việc phát triển kinh tế –
xã hội, cũng như về cả mặt văn hóa và chính trị cùng với đó góp phần hình thành nhữngnhân tố mới, con người mới Công nghê thông tin tại Việt Nam ngày nay cũng dần pháttriển và bùng nổ khiến cho việc thu thập một lượng lớn dữ liệu tăng lên nhanh chóng.Mặc dù, đã có nhiều công cụ hỗ trợ cho việc thu nhập, lưu trữ và khai phá dữ liệu, song,với sự bùng nổ lớn mạnh của thông tin được thu thập đã vượt ngoài tầm kiểm soát củacon người để có thể nắm bắt chúng và xử lý kịp thời Cần phải có kỹ thuật khai phá một
bộ dữ liệu lớn, vì thế, khai phá dữ liệu đang là mối quan tâm hàng đầu của các nhà nghiêncứu trong những năm gần đây Khai phá dữ liệu có thể được ứng dụng trên nhiều các lĩnhvực như tài chính, ngân hàng, công nghệ thông tin, y tế, giáo dục,… Đặc biệt, với sự pháttriển không ngừng của ngành tài chính hiện nay, việc mà chúng ta xử lý dữ liệu quá lớncần phải được thực hiện nhanh chóng, triệt để, tránh mất mát nhiều thời gian Ngày nay,công nghệ thông tin càng ngày càng phát triển đồng nghĩa với việc chúng ta cần phải pháttriển hơn các phần mềm, các ứng dụng để nâng cao năng suất làm việc, thay thế chonhững kỹ thuật xử lý thô sơ như trước Chính vì thế, khai phá dữ liệu là công cụ phântích, giúp cho việc xử lý dữ liệu được diễn ra nhanh chóng và thông minh hơn Khai phá
dữ liệu cho phép người sử dụng phân tích dữ liệu với nhiều góc độ khác nhau, phân loại
dữ liệu theo nhiều quan điểm riêng biệt từ đó, tổng kết các mối quan hệ đã được bóc tách
Lĩnh vực tài chính là một trong những lĩnh vực ngày càng nổi tiếng qua nhiều giaiđoạn, đặc biệt là về thị trường chứng khoán có sức hút đối với rất nhiều người, kể cảnhững bạn sinh viên học tập tại các trường Đại học và Cao Đẳng Khai phá dữ liệu tronglĩnh vực tài chính được sử dụng để tăng độ trung thành của một lượng lớn khách hàngthông qua việc thu thập thông tin cá nhân và phân tích các dữ liệu về những hành vi củakhách hàng Lĩnh vực tài chính ở đây chính là các ngân hàng, họ sử dụng các thông tinliên quan để dự báo những hành vi của khách hàng, từ đó sẽ đưa ra các sản phẩm và dịch
vụ thích hợp nhất Không chỉ về mặt dự báo về những hành vi của khách hàng, khai phá
dữ liệu trong chứng khoán sẽ giúp các nhà tài chính có cái nhìn rõ hơn về mối tương quan
Trang 8giữa các chỉ số tài chính, giúp phát hiện ra các rủi ro cao từ những hoạt động giao dịchthường ngày.
Đầu tư tài chính là một trong những hoạt động diễn ra trên thị trường vốn với mộtđóng góp đáng kể vào thu nhập quốc dân của một quốc gia Sở giao dịch chứng khoánThành phố Hồ Chí Minh (HOSE) và Sở giao dịch chứng khoán Hà Nội (HNX, UPCOM)
là một thị trường vốn cho các công cụ tài chính dài hạn khác nhau có thể được giao dịch,dưới dạng nợ hoặc vốn tự có Cổ phiếu là một trong những công cụ thị trường vốn mà cácnhà đầu tư rất quan tâm hiện nay Cổ phiếu như một dấu hiệu của sự tham gia hoặc sở hữucủa một cá nhân hoặc thực thể trong một công ty hữu hạn hoặc cá nhân Trong đó, chỉ sốEPS của cổ phiếu khá là quan trọng trong việc đánh giá một công ty có hoạt động kinhdoanh tốt hay không Tỷ lệ thu nhập trên mỗi cổ phiếu (EPS) được sử dụng để đo lường
sự thành công của ban lãnh đạo trong việc đạt được lợi nhuận cho các chủ sở hữu củacông ty EPS mô tả khả năng sinh lời của công ty được phản ánh trên mỗi cổ phiếu Giátrị của EPS càng cao thì lợi nhuận càng lớn và có khả năng tăng lượng cổ tức mà cổ đôngnhận được Chứng tỏ rằng EPS càng cao, mô hình hoạt động kinh doanh của công ty rấttốt
Vì vậy, để kết hợp giữa các phương pháp khai phá dữ liệu trong lĩnh vực côngnghệ thông tin cùng với phân tích dự báo chỉ số EPS trong lĩnh vực tài chính, tôi quyết
định chọn đề tài “Nghiên cứu các phương pháp khai phá dữ liệu và ứng dụng Neural Network vào chỉ số tài chính EPS để dự báo tình hình hoạt động kinh doanh của các công ty niêm yết trên sàn giao dịch chứng khoán tại Việt Nam”.
1.2 Mục tiêu nghiên cứu
Bài nghiên cứu “Nghiên cứu các phương pháp khai phá dữ liệu và ứng dụng Neural Network vào chỉ số tài chính EPS để dự báo tình hình hoạt động kinh doanh của các công ty niêm yết trên sàn giao dịch chứng khoán tại Việt Nam” nhằm tập
trung những mục tiêu được đề cập dưới đây:
Bài nghiên cứu tiến hành phân tích các lý thuyết của khai phá dữ liệu nhằm tậptrung làm rõ những vấn đề của bài nghiên cứu
Trang 9 Nghiên cứu về các phương pháp của cụ thể, phương pháp phân lớp dữ liệu(phương pháp phân lớp đưa ra các dự báo, phân loại và cũng như phân lớp các đối tượng).Nghiên cứu sẽ đưa các phương pháp phân lớp dữ liệu, và từ đó sẽ chọn ra một phươngpháp tối ưu và đảm bảo nhất cho quá trình dự báo dữ liệu.
Dự báo các mô hình hoạt động kinh doanh sẽ dựa vào bộ dữ liệu đã được huấnluyện, từ đó sẽ đưa ra những mô hình hoạt động kinh doanh tốt nhất cho các doanhnghiệp được niêm yết trên sàn chứng khoán
Qua những kết quả của dữ liệu huấn luyện cùng với đó là dự báo mô hình hoạtđộng kinh doanh thông qua chỉ số EPS, tôi sẽ đưa ra các kết luận, cùng với đó là nhữnghạn chế của bài nghiên cứu, sau đó đưa ra giải pháp tốt nhất cho bài nghiên cứu
1.3 Đối tượng nghiên cứu và phương pháp nghiên cứu
Đối tượng nghiên cứu của đề tài là 337 doanh nghiệp đã được niêm yết trên hai sànchứng khoán tại Việt Nam bao gồm sàn giao dịch chứng khoán Thành phố Hồ Chí Minh(HOSE) và sàn giao dịch chứng khoán Hà Nội (HNX, UPCOM) với số liệu tài chính củaQuý II năm 2021 (số liệu được lấy từ 10 nhóm ngành khác nhau) Số liệu được chia thành
2 phần với 110 mẫu quan sát cho bộ dữ liệu huấn luyện (Ngành Thực Phẩm) và 227 mẫuquan sát cho bộ dữ liệu dự báo trên 9 nhóm ngành (Dịch vụ – Du lịch, Thương Mại,Ngành Thép, Thủy Sản, Nhóm Dầu Khí, Vật Liệu Xây Dựng, Bất Động Sản, Dầu Khí)
Phương pháp nghiên cứu của đề tài là kết hợp giữa phân tích định tính cùng vớiphân tích định tượng (dự báo) Tôi đã thu thập dữ liệu dựa trên nguồn cophieu68.vn thôngqua các báo cáo tài chính, đây là nguồn được đánh giá là tin cậy và khả quan, cũng nhưviệc tính toán các dữ liệu thông qua các phần mềm khác nhau Chúng tôi đã sử dụng cácphương pháp thống kê, phân tích dữ liệu, ứng dụng mô hình hồi quy kinh tế định lượng
để dự báo mô hình kinh tế thông qua chỉ số EPS với sự hỗ trợ của các chương trìnhOrange và Excel (2016)
1.4 Phạm vi nghiên cứu
Thời gian: Dữ liệu của các doanh nghiệp được niêm yết trên sàn chứng khoán ViệtNam bao gồm sàn giao dịch chứng khoán Thành phố Hồ Chí Minh và sàn giao dịchchứng khoán Hà Nội Quý II năm 2021
Trang 10Không gian: Bài nghiên cứu của chúng tôi được thực hiện dựa trên 337 doanhnghiệp ở nhiều lĩnh vực khác nhau như Dịch vụ – Du lịch, Thương Mại, Thực Phẩm,Ngành Thép, Thủy Sản, Nhóm Dầu Khí, Vật Liệu Xây Dựng, Bất Động Sản, Dầu Khí, cóđầy đủ các dữ liệu đã được công bố trong bảng báo cáo tài chính trên trang cophieu68.vn
1.5 Cấu trúc của bài nghiên cứu
Gồm có 4 chương
Chương 1: GIỚI THIỆU
Chương 2: CƠ SỞ LÝ LUẬN
Chương 3: PHÂN TÍCH VÀ DỰ BÁO
Chương 4: KẾT LUẬN VÀ GIẢI PHÁP
Trang 11Quá trình để khai phá dữ liệu là một quá trình rất phức tạp đòi hỏi dữ liệu cần phảichuyên sâu và yêu cầu nhiều kỹ năng tính toán khác nhau Hơn nữa, khai phá dữ liệukhông chỉ giới hạn trong việc trích xuất các dữ liệu mà còn sử dụng để làm sạch, chuyểnđổi, tích hợp dữ liệu và phân tích các mẫu.
2.1.2 Các tính năng chính của khai phá dữ liệu
Có nhiều các tham số quan trọng trong khai phá dữ liệu, ví dụ như các quy tắc vềphân loại và phân cụm Khai phá dữ liệu có 5 tính năng chính như sau:
Dự báo nhiều mẫu dựa trên bộ dữ liệu đã được huấn luyện
Tính toán và dự đoán các kết quả
Tạo nhiều thông tin để phản hồi và phân tích
Bộ dữ liệu khá lớn
Phân cụm dữ liệu một cách trực quan, sinh động
2.1.3 Quy trình khai phá dữ liệu
Quy trình khai phá dữ liệu bao gồm 7 bước như sau cùng với đó quy trình khai phá
dữ liệu được trình bày dưới dạng sơ đồ hình vẽ thông qua hình 2.1 như sau:
Bước 1: Làm sạch dữ liệu Đây là bước đầu tiên trong quy trình khai phá dữ liệu.
Bước này được đánh giá là khá quan trọng vì những dữ liệu bẩn nếu được sử dụng trựctiếp trong khai phá dữ liệu có thể sẽ gây ra kết quả nhầm lẫn, dự báo và tạo ra các kết quảkhông được chính xác
Bước 2: Tích hợp dữ liệu Ở bước này, có thể giúp cho dữ liệu của chúng ta cải
thiện về độ chính xác cũng như tốc độ của quá trình khai phá dữ liệu
Trang 12 Bước 3: Làm giảm dữ liệu Mục đích ở bước này là giúp kích thước của dữ liệu có
khối lượng nhỏ hơn nhưng nó vẫn đảm bảo và vẫn duy trì về tính toàn vẹn
Bước 4: Chuyển đổi dữ liệu Trong bước này, dữ liệu được chuyển thành một dạng
phù hợp với quy trình khai phá dữ liệu Dữ liệu được hợp nhất để quy trình khai phá dữliệu có thể hiệu quả hơn và các mẫu dễ hiểu hơn
Bước 5: Khai thác dữ liệu Ở bước này, chúng ta đi khai thác dữ liệu là để xác định
các mẫu và một lượng lớn dữ liệu từ những suy luận
Bước 6: Đánh giá mẫu Bước này bao gồm việc xác định các mẫu đại diện cho
nhiều kiến thức dựa trên những thước đo, cho biết những kiến thức nào là cần thiết, kiếnthức nào là dư thừa và sẽ bị loại bỏ Các phương pháp trực quan hóa và tóm tắt dữ liệuđược sử dụng để người dùng có thể hiểu được bộ dữ liệu của mình
Bước 7: Trình bày thông tin Dữ liệu sẽ được diễn giải lại dưới các báo cáo, hoặc
các báo cáo dạng bảng,… và sau đó gửi cho bên bộ phân xử lý thông tin này
Hình 2.1 Quy trình khai phá dữ liệu
Nguồn: insight.isb.edu.vn
Trang 132.1.4 Phương pháp khai phá dữ liệu
Phân lớp (Classification): Phương pháp sử dụng để dự báo dữ liệu thông qua bộ
dữ liệu huấn luyện, phân loại đối tượng Tôi sẽ sử dụng phương pháp khai phá dữ liệu nàytrong bài để dự báo số liệu
Hồi quy (Regression): Mục đích chính của phương pháp hồi quy này là dùng để
khám phá và ánh xạ dữ liệu
Phân cụm (Clustering): Phương pháp phân cụm giúp việc mô tả dữ liệu trở nên
dễ dàng hơn bằng các xác định tập hợp hữu hạn các cụm với nhau
Tổng hợp (Summarization): Phương pháp này cho phép người làm tìm kiếm một
mô tả nhỏ gọn
Mô hình ràng buộc (Dependency modeling): Người làm sẽ tìm được mô hình
cục bộ mô tả các phụ thuộc dựa vào phương pháp mô hình ràng buộc
Dò tìm biến đổi và độ lệch (Change and Deviation Dectection): Mục đích của
phương pháp này là để tìm ra những thay đổi quan trọng
2.1.5 Ứng dụng của khai phá dữ liệu trong đời sống
Khai phá dữ liệu được ứng dụng rất nhiều trong đời sống xã hội tiêu biểu ở một sốnhững linh vực như sau: phân tích thị trường – chứng khoán, phát hiện gian lận, quản trịrủi ro doanh nghiệp, bán lẻ, trí tuệ nhân tạo, thương mại điện tử, phòng chống tội phạm,
… và còn rất nhiều các lĩnh vực khác
2.1.6 Công cụ khai phá dữ liệu được sử dụng trong bài nghiên cứu – Orange
Orange là phần mềm dùng để khai thác dữ liệu theo phương diện mã nguồn mở.Orange giúp cho người dùng có một giao diện lập trình sinh động và trực, dễ theo dõi chitiết để phân tích dữ một một cách nhân nhất, chính xác, cụ thể Orange là gói phần mềmdựa trên những công cụ dùng để trực quan hóa dữ liệu, khai thác và phân tích dữ liệuchính xác thông qua ngôn ngữ lập trình Orange cũng là một phần mềm kết hợp công cụkhai phá dữ liệu và học máy, và cung cấp những trực quan tương tác, thẫm mỹ cho ngườidùng phần mềm, nó được viết bằng Python
Orange là phần mềm hướng tới mục tiêu tự động hóa Đây là một trong nhữngphần mềm khai phá dữ liệu tiện dụng, dễ dàng trong việc sử dụng nhờ giao diện nhỏ gọn,
Trang 14các toolbox được sắp xếp một cách mạch lạc, hợp lý, bất kỳ ai cũng có thể sử dụng Vìvậy, Orange là phần mềm mà tôi sẽ sử dụng trong bài nghiên cứu.
2.2 Phân lớp dữ liệu
2.2.1 Khái niệm về phân lớp dữ liệu
Phân lớp dữ liệu chính là một trong những hướng nghiên cứu chính của khai phá
dữ liệu Phân lớp dữ liệu là quá trình phân các đối tượng vào một hay nhiều lớp đã chotrước nhờ vào một mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữliệu đã được gán nhãn trước đó Quá trình gán nhãn cho đối tượng dữ liệu chính là quátrình phân lớp dữ liệu Phân lớp và dự đoán là một trong hai dạng của phân tích dữ liệunhằm rút ra một mô hình mô tả các lớp dữ liệu quan trọng hoặc dự đoán xu hướng của dữliệu trong tương lai
2.2.2 Quy trình phân lớp dữ liệu
Quy trình phân lớp dữ liệu gồm hai bước như sau: Bước thứ nhất là xây dựng môhình phân lớp (Learning) và Bước thứ hai là ước lượng độ chính xác của mô hình cùngvới đó là phân lớp dữ liệu mới (Classification)
2.2.2.1 Xây dựng mô hình phân lớp (Learning)
Ở bước xây dựng mô hình phân lớp nhằm xây dựng một mô hình để mô tả tập hợpcác dữ liệu Ban đầu, tập dữ liệu có cấu trúc, nó được mô tả bằng các thuộc tính và đượctạo ra từ các bộ giá trị có thuộc tính đó Một bộ giá trị sẽ được coi là một phần tử của dữliệu, ngoài ra còn thể thể là các mẫu, đối tượng, Trong tập dữ liệu này, mỗi phần tử dữliệu thuộc về một lớp định trước, lớp ở đât có nghĩa là các giá trị của một thuộc tính đượcchọn làm các thuộc tính gắn nhãn hay còn gọi là các thuộc tính phân lớp Sau đó, sử dụngcác quy tắc phân lớp dưới dạng if – then, cây quyết định (Decision tree), hồi quy logistic(Regression Logistic), Mạng lưới Neural (Neural Network),… Ở bước xây dựng mô hìnhphân lớp có thể được mô tả lại ở hình 2.2 dưới đây:
Hình 2.2 Quá trình phân lớp dữ liệu – Xây dựng mô hình phân lớp
Trang 15Nguồn: Nguyễn Thị Thùy Linh – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
2.2.2.2 Ước lượng độ chính xác của mô hình và phân lớp dữ liệu mới (Classification)
Ở bước này, chúng ta sẽ dùng mô hình đã xây dựng ở bước bước để phân lớp dữliệu mới Đầu tiên, độ chính xác mang tính chất dự đoán của mô hình phân lớp vừa tạo rađược ước lượng Độ chính xác của mô hình trên tập dữ liệu kiểm tra là tỉ lệ phần trăm củacác mẫu trong tập dữ liệu kiểm tra được mô hình phân lớp đúng (so với thực tế) Nếu độchính xác của mô hình được ước lượng dựa trên tập dữ liệu đã được huấn luyện thì kếtquả dự báo thu được rất khả quan Chúng ta cần phải có một bộ dữ liệu dự báo độc lậpvới bộ dữ liệu đã được huấn luyện Nếu độ chính xác của mô hình là có thể chấp nhận thì
mô hình được sử dụng để phân lớp những dữ liệu trong tương lai hoặc dữ liệu mà giá trịthuộc tính phân lớp là chưa biết Ở bước ước lượng độ chính xác của mô hình và phân lớp
dữ liệu mới được mô tả qua hình 2.3 và hình 2.4 như sau:
Hình 2.3 Quá trình phân lớp dữ liệu – Ước lượng độ chính xác của mô hình
Trang 16Nguồn: Nguyễn Thị Thùy Linh – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
Hình 2.4 Quá trình phân lớp dữ liệu – Phân lớp dữ liệu mới
Nguồn: Nguyễn Thị Thùy Linh – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
2.2.3 Các phương pháp phân lớp dữ liệu
Có rất nhiều phương pháp phân lớp dữ liệu được sử dụng dùng để dự báo dự liệu,
có thể kể đến như Hồi quy Logistic (Logistic Regression), SVM (Support VectorMachine), Cây quyết định (Decision Tree), Naive Bayes, Neural Network,… Các phươngpháp sẽ được liệt kê rõ hơn ở bên dưới
2.2.3.1 Hồi quy Logistic (Logistic Regression)
Hồi quy Logistic còn có tên gọi khác là hồi quy nhị thức Hồi quy Logistic được sửdụng để dự đoán xác suất của quan sát vào các loại biến phụ thuộc dựa trên các loại biếnphụ thuộc hay một hoặc nhiều biến độc lập có thể các biến này là liên tục hay được phânloại Ngoài ra, nếu biến phụ thuộc là một số đếm thì phương pháp có thể dùng là hồi quy
Trang 17Poisson Nếu chúng ta có nhiều hơn hai biến phụ thuộc thì khi đó là gọi là hồi quyLogistic đa thức.
Phương pháp hồi quy Logistic hay Logistic Regression là một mô hình xác suất dựđoán giá trị đầu ra rời rạc y (discrete target variable) từ một tập các giá trị đầu vào x
(được thể hiện dưới dạng vector) Việc này khá tương đương với việc phân loại đầu vào x
vào các nhóm y tương ứng
Mô hình hồi quy Logistic sử dụng để chúng ta dự đoán biến phân loại bởi một haynhiều biến độc lập liên tục Biến phụ thuộc của chúng ta có thể là thứ tự, rời rac,… Đốivới biến độc lập có thể là một khoảng hay một tỉ lệ, rời rạc,… hay có thể hỗ hợp của tất
cả Chúng ta có thể biểu diễn công thức của phương pháp hồi quy Logistic như sau:
d là số lượng thuộc tính của dữ liệu
w là trọng số, ban đầu sẽ được khởi tạo ngẫu nhiên, sau đó sẽ được điều chỉnh lại cho phù hợp
Hình 2.5 Mô hình phân lớp nhị phân sử dụng phương pháp hồi quy logistic
Nguồn: Tác giả tổng hợp
Chúng ta có thể biểu diễn hiệu ứng trong Logistic Regression với mục đích ướclượng và dự báo, chúng ta bị giới hạn trong phạm vi từ 0 đến 1 Điều này có thể lý giải
Trang 18rằng nếu một hiệu ứng của biến x cho kết quả của y vượt quá 1 thì đó là một vấn đề Hoặcxác suất của chúng ta không thể nào âm hay tức nhỏ hơn 0, vì vậy diễn giải theo hệ số hồiquy Logistic là vô nghĩa.
2.2.3.2 SVM (Support Vector Machine)
SVM là một thuật toán giám sát, nhưng hầu như nó được dùng cho phân loại Ởthuật toán này, chúng ta sẽ vẽ đi đồ thị dữ liệu là các điểm trong n chiều (ta xác định n làcác tính năng mà chúng ta có sẵn) với giá trị của mỗi tính năng sẽ là một phần liên kết.SVM nhận dữ liệu vào, xem các dữ liệu đầu vào là các vector không gian, sau đó chúngđược phân loại vào các lớp khác nhau thông qua cơ chế xây dựng một siêu phẳng trongkhông gian nhiều chiều làm mặt phân cách các lớp dữ liệu
Để chúng ta có thể tối ưu được kết quả phân lớp thì phải xác định siêu phẳng cókhoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể SVM cónhiều dạng phù hợp với nhiều bài toán về phân loại Để hiểu rõ sâu hơn, chúng ta đi tìmcác khái niệm về Margin cũng như là Support Vector
Margin là khoảng cách giữa siêu phẳng trong trường hợp không gian hai chiều làđường thẳng đến hai điểm dữ liệu gần nhất tương ứng với hai phân lớp SVM tối ưu bằngcách tối đa hóa giá trị margin này, từ đó sẽ tìm ra một siêu phằng đẹp nhất và thích hợpnhất cho phân hai lớp dữ liệu Vì thế, SVM có thể làm giảm thiếu việc phân lớp bị sai(misclassification) đối với dữ liệu điểm mới đưa vào
Hình 2.6 Biểu đồ thể hiện giá trị Margin và Support Vector
Trang 19Nguồn: Tác giả tổng hợp
Ở Support Vector, bài toán của chúng ta trở thành đi tìm ra hai đường biên của hailớp dữ liệu sao cho x2 cho khoảng cách giữa hai đường này là lớn nhất Siêu phẳng cáchđều hai biên đó chính là siêu phẩm cần tìm Nhìn vào hình 2.6 ta có thể xác định các điểmmàu đỏ và xanh dương nằm ở trên hai đường biên màu xanh lá, nó được là là SupportVector, vì chúng có nhiệm vụ hỗ trở để tìm ra siêu phẳng (đường nét đứt màu cam ở hình2.6)
2.2.3.3 Cây quyết định (Decision Tree)
Cây quyết định là một hệ thống phân cấp có cấu trúc được dùng để phân lớp cácđối tượng dựa vào dãy các luật Các thuộc tính của đối tượng có thể thuộc vào nhiều kiểu
dữ liệu khác nhau (Binary, Norminal, Ordinal, Quantitative,…) và thuộc tính phân lớpphải có kiểu dữ liệu là Binary hoặc Ordinal
Từ dữ liệu về các đối tượng sẵn có, phương pháp cây quyết định sẽ giúp chúng ta
mô tả, phân loại, tổng quan dữ liệu cho trước này Cụ thể hơn, cây quyết định sẽ đưa racác dự đoán cho từng đối tượng
Cây quyết định bao gồm hai loại đó là cây hồi quy và cây phân loại Cây hồi quy
có ước tính mô hình là các giá trị số thực và cây phân loại được dùng trong các mô hình
có giá trị cuối cùng nằm mục đích chính là phần loại
Để hiểu rõ hơn về cây quyết định, ta xét ưu và nhược điểm như sau Về ưu điểm,cây quyết định trình bày một cách đơn giản, dễ hiểu, không cần chuẩn hóa dữ liệu, có thể
Trang 20xử lý trên nhiều kiểu dữ liệu khác nhau và xử lý tốt một lượng lớn dữ liệu trong thời giannhanh nhất Mặc khác, cây quyết định cũng có một vài khuyết điểm cơ bản là khó giảiquyết trong tình huống dữ liệu bị ảnh hưởng bởi thời gian hoặc chi phí để xây dựng các
mô hình về cây quyết định khá cao
Hình 2.7 Ví dụ mô hình cây quyết định về lựa chọn làm việc một ngày cụ thể
Nguồn: ichi.pro
2.2.3.4 Neural Network
Neural Network còn có tên gọi khác là Mạng Neural nhân tạo là một chuỗi thuậttoán được đưa ra để dùng xác định các mối quan hệ trong tập hợp các dự liệu cụ thể,thông qua việc bắt chước bộ não của con người Nói một cách dễ hiểu hơn có thể là nhântạo về bản chất Neural Network có khả năng tương thích với mọi thứ ngay từ khi chúng
ta thay đổi dữ liệu đầu vào Nó có thể đưa ra các kết quả một cách tốt nhất mà chúng takhông cần phải xây dựng các tiêu chí đầu ra
2.2.4 Chi tiết mô hình khai phá dữ liệu bằng Neural Network
Như đã tìm hiểu về khái niệm của Neural Network ở mục 2.2.3 (các phương phápphân lớp dữ liệu), bây giờ chúng ta sẽ tìm hiểu chi tiết hơn về Neural Network
Ta có thể xem xét đặc điển của Neural Network trong tài chính chính là hỗ trợ chocác quá trình như giao dịch thuật toán, phân loại và phân tích chứng khoán, dự báo vềchuỗi thời gian, xây dựng các mô hình quản trih rủi ro, công cụ phát sinh giá cả,…
Trang 21Neural Network nhân tạo có thể hoạt động như Neural Network của con người.Mỗi một Neural trung ương thần kinh trong Neural nhân tạo là hàm toán học với chứcnăng cự thể là thu thập và phân loại các thông tin dựa vào các cấu trúc có sẵn NeuralNetwork có sự tương quan mạnh mẽ đối với các phương pháp như phương pháp thống kê,phân tích hồi quy Neural Network chứa các lớp bao hàm các nút được liên kết lại vớinhau Mỗi nút có một cấu trúc tương thích với hàm hồi quy tuyến tính đa biến Chúng sẽđược sắp xếp với các lớp liên kết với nhau Lớp đầu vào sẽ thu nhập các dữ liệu đầu vào
và các lớp đầu ra sẽ nhận các phân loại hoặc tín hiệu đầu ra mà các mẫu đầu vào có thểphản ánh lại
Kiến trúc của mạng Neural Network là có sự kết hợp giữa tầng perceptron hay còngọi là perceptron đa tầng Mỗi mạng Neural Network sẽ gồm ba kiểu tầng như sau:
Tầng input layer (tầng vào): tầng này nằm phía bên trái của mạng, thể hiện cho cácđầu vào của mạng
Tầng output layer (tầng ra): Là tầng bên phải của mạng, nó thể hiện cho các đầu ra của mạng
Tầng hidden layer (tầng ẩn): Tầng này nằm ở giữa tầng vào và tầng ra thể hiện chocác quá trình suy luận logic của Neural Network
Hình 2.8 Hình vẽ thể hiện mạng lưới hoạt động của Neural Network
Nguồn: kipalog.com
Mỗi một Neural Network chỉ có duy nhất một tầng vào và một tầng ra nhưng lại cókhá là nhiều tầng ẩn Giữa các tầng có sự liên kết bởi các Neural trong mỗi tầng hoặc giữa
Trang 22các tầng với nhau Trong mỗi tầng lại có thể có số lượng Neural khác nhau cũng như cócác kết nối cũng khác nhau Với mạng Neural Network thì mỗi một nút mạng là mộtSigmoid Neural nhưng chúng có thể có các hàm kích hoạt khác nhau Nhưng để cho việctính toán đơn giản và thuận lợi hơn thì người ta thường sử dụng chúng cùng lại với nhauhơn Tại mỗi tầng, số lượng nút mạng có thể khác nhau tùy thuộc vào từng bài toán haycác cách giải quyết Khi làm việc, người ta thường sẽ để các tầng ẩn với số lượng cácNeural khác nahu Bên cạnh đó, các Neural nằm ở tầng thường sẽ liên kết với nahu để tạo
ra một mạng lưới đầy đủ nhất Khi đó, người dùng tính toán xem các kích cỡ của mạngkhi dựa vào tầng và số lượng Neural
Ứng dụng của Neural Network có ở rất nhiều lĩnh vực như tài chính, giao dịch,phân tích kinh doanh, lập các kế hoạch cho doanh nghiệp, hay quản trị rủi ro doanhnghiệp,… Ngoài ra, Neural Network còn được sử dụng ở nhiều lĩnh vực khác như dự báothời tiết, đánh giá rủi ro doanh nghiệp, Hoặc có nhiều trường hợp sử dụng NeuralNetwork để đánh giá những giao dịch dựa vào việc các phân tích lịch sử Neural Networkcòn sử dụng khá phổ biến để phân biệt sự phụ thuộc giữa các phi tuyến lẫn nhau của đầuvào Khi chúng ta áp dụng Neural Network để dự báo về giá cổ phiếu cũng hoàn toànkhác nhau Trong việc lan truyền tuyến của Neural Network, các nốt mạng Neural đều cóthể kết hợp đôi một với nhau vào một chiều từ tầng vào đến tầng ra duy nhất Có nghĩa làmỗi nốt ở mỗi tầng sẽ nhận đầu vào là tất cả các tầng trước đó và ngược lại Suy diễnNeural Network là một dạng suy luận tiến (feedforward)
Khi sử dụng Neural Network nhân tạo sẽ có khả năng sử dụng một loại cơ chế hàmtùy ý mà học được từ việc dữ liệu quan sát Tuy nhiên, việc sử dụng chúng khá khó và rấtcần phải có sự hiểu biết nhiều về lý thuyết của Neural Network
Lựa chọn mô hình: phụ thuộc rất nhiều về cách trình bày dữ liệu cũng như các ứngdụng Mô hình này khá phức tạp nên dẫn đến nhiều thử thách cho quá trình học
Thuật toán học: thường sẽ có nhiều thỏa thuận giữa các thuật toán học Chúng làmviệc dựa trên các tham số để huấn luyện dữ liệu mà không thấy các yêu cầu một số lượngđáng kể các thử nghiệm
Trang 23 Mạnh mẽ: nếu như các mô hình, thuật toán và các hàm chi phí được lựa chọn đúngcách thì Neural Network cho ra kết quả vô cùng hợp lý.
Nếu biết cách sử dụng và thực hiện một cách chính xác về Neural Network thìchúng ta có thể ứng dụng chúng vào những tập dữ liệu lớn hơn
2.2.5 Các phương pháp đánh giá mô hình phân lớp
Trong các bài toán phân loại, để chúng ta có thể đánh giá mô hình tốt chúng ta cóthể sử dụng như dựa vào ma trận nhầm lẫn để xác định độ chính xác (Accuracy); ROC,AUC, Precision/Recall và Cross Validation: Holdout và K-fold cross validation Bây giờchúng ta sẽ tìm hiểu chi tiết về mức độ đánh giá của chúng
2.2.5.1 Ma trận nhầm lẫn (Confusion Matrix) và độ chính xác (Accuracy); ROC, AUC, Precision/Recall
Ma trận nhầm lẫn là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự thuộc về mộtlớp cụ thể và được dự đoán rơi vào lớp nào Ma trận nhầm lẫn có kích thước k × k với k là
số lượng của lớp dữ liệu Ma trận nhầm lẫn bao gồm 4 loại giá trị chính như sau:
TP[i] (true positive) là số dự đoán chính xác của lớp i
FP[i] (false positive) là số lượng các mẫu không thuộc lớp i, bị phân loại nhầm vào lớp i
TN[i] (true negative) là số lượng các ví dụ không thuộc lớp i được phân loại chính xác
FN[i] (false negative) là số lương các mẫu thuộc lớp i nhưng bị phân loại nhầm vào lớp khác
Ma trận nhầm lẫn với bài toán cụ thể phân lớp với hai mẫu dữ liệu mang nhãn (+)
và mang nhãn (–) Bảng 2.1 thể hiện rõ hơn ma trận nhầm lẫn:
Bảng 2.1 Ma trận nhầm lẫn Mẫu dữ
liệu
Được phân lớp bởi mô hình
Trang 24Nguồn: Phí Bá Chiến – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
Từ bảng ma trận nhầm lẫn 2.1, ta có thể được các giá trị để đo độ chính xác của
mô hình Độ chính xác (Precision) là tỷ lệ giữa số phân loại đúng là mẫu dương trên tổng
số các mẫu được phân loại là mẫu dương Ta có công thức của Precision được thể hiệnnhư sau:
Precision= TP
TP + FP
Độ bao phủ (Recall) được xác định số mẫu phân loại đúng là mẫu dương trên tổng
số mẫu dương thực, được thể hiện bởi công thức sau đây:
Recall= TP
TP + FN
Từ đó, ta có thể tính được chỉ số F1 – score và nó là tiêu chí đánh giá dựa trên sựkết hợp của độ chính xác (Precision) và độ bao phủ (Recall) Công thức tính F 1 – scorenhư sau:
F −score= 2 × Precision ×Recall
Trang 25Độ đặc hiệu (Specificity) là tỷ lệ số mẫu phân loại đúng là mẫu âm trên tổng số mẫu
âm thực:
Specificity= TN
TN + FP
Ta có thể thấy trong bài toán phân loại hai mẫu dương và âm, kết quả lý tưởng là
độ nhạy và độ đặc hiệu bằng 1 Tức mô hình là phân lớp đúng 100% Nhưng theo thực tếthì không có bất cứ một mô hình phân lớp nào chính xác tuyệt đối 100% Hầu hết, các môhình có độ nhạy cao thì độ đặc hiệu thấp và ngược lại vì vậy biểu đồ ROC (ReceiverOperating Characteristic) là phương pháp phân tích để cân bằng hai độ đo này Biểu đồROC gồm 2 trục X và trục Y Trục hoành X biểu diễn cho giá trị False Positive Rate vàtrục tung Y biểu diễn cho giá trị True Positive Rate Công thức của True Positive Rate vàFalse Positive Rate như sau:
True Positive Rate = TP
TP + FN False Positive Rate= FP
TP + FN
Hình 2.9 Đường cong ROC
Nguồn: Phí Bá Chiến – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
ROC là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phânloại nhị phân Hai giá trị True positive rate và False positive rate được biểu diễn bởi cácđiểm trên biểu đồ ROC Hai chỉ số này biến thiên ngược chiều nhau và tạo thành đường
Trang 26cong ROC Các điểm nằm phía bên trái của đường chéo sẽ cho kết quả tốt AUC (Area
Trang 27Under the Curve) Là diện tích nằm dưới đường cong ROC Giá trị này là một số dươngnhỏ hơn hoặc bằng 1 Giá trị này càng lớn thì mô hình càng tốt (AUC trên 0.5 là mô hìnhtốt)
Hình 2.10 Diện tích đường cong ROC (độ đo AUC)
Nguồn: Phí Bá Chiến – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
Bảng 2.2 Độ đo AUC với độ chính xác của mô hình phân lớp
Nguồn: Phí Bá Chiến – Trường Đại học Công Nghệ (Đại học Quốc Gia Hà Nội)
2.2.5.2 Cross Validation: Holdout và K-fold cross validation
Trong phương pháp Holdout, dữ liệu được chia ngẫu nhiên thành 2 phần như sau là tập dữ liệu huấn luyện và tập dữ liệu dự báo Thông thường 2 dữ liệu cấp cho dữ liệu đào
Trang 28tạo, 1 còn lại cho tập dữ dự báo Ta có thể ví dụ rõ hơn như sau Toàn bộ tập A được chiathành 2 tập con không giao nhau Tập Atrain là bộ dữ liệu đã được huấn luyện, tập dữ liệu dự báo Aforecast để đánh giá hiệu năng của hệ thống đã học Từ đó ta có kết quả như sau:
A =A train ∪ A forecast
∣A train∣≫∣A forecast∣
Chúng ta có các yêu cầu cho phần Holdout Bất kỳ ví dụ nào thuộc tập dự báo
A forecast đều không được sử dụng trong quá trình huấn luyện hệ thống Hay bất kỳ ví dụ nàođược sử dụng trong quá trình huấn luyện thì sẽ không được sử dụng trong quá trình dựbáo Một chi tiết nhỏ cần phải lưu ý là tập A phải có kích thước lớn
Đối với K-fold cross validation dùng với việc tránh trùng lặp giữa các tập kiểm thử(một số ví dụ thường xuất hiện trong các tập kiểm thử khác nhau) Tập dữ liệu A đượcchia thành k tập con không giao nhau (chúng ta gọi là “fold”) có kích thước xấp xỉ nhau.Mỗi lần (trong số k lần) lặp, một tập con sẽ sử dụng làm tập kiểm thử và k – 1 tập con cònlại làm tập huấn luyện k giá trị lỗi (mỗi giá trị tương ứng với một fold) được tính trungbình cộng để thu được giá trị lỗi tổng thể Các lựa chọn của k thông thường sẽ là 10 hoặc
5, phù hợp với tập A vừa và nhỏ Thông thường, mỗi tập con (fold) được lấy mẫu phântầng (xấp xỉ phân bố lớp) trước khi áp dụng quá trình đánh giá Cross-validation
Trang 29Chương 3: PHÂN TÍCH DỮ LIỆU HUẤN LUYỆN VÀ DỰ BÁO3.1 Sơ lược thị trường chứng khoán tại Việt Nam
Thị trường chứng khoán Việt Nam có nhiều biến động trong những năm gần đây.Vào năm 2018, ghi lại nhiều dấu ấn của thị trường chứng khoán và cũng là năm để lại rấtnhiều cảm xúc cho những nhà đầu tư VN–INDEX được xếp trong những chỉ số có mứctăng trưởng khá ấn tượng, cụ thể, nó đã tăng gần 48% so với năm 2017 Trong khi đó,những báo cáo về triển vọng của thị trường đã nghiên hầu hết về kịch bản dành cho chỉ sốVN–INDEX tăng trưởng ở mức 2 con chứ số đạt 1,120 rồi thậm chí có thể là 1,250 điểm.Thị trường chứng khoán mất chưa tới 2 tháng để chứng minh rằng những dữ báo của họkhông phải là không có căn cứ, lần lượt, những mốc chỉ số quan trọng được thiết lập, cụthể như 1,000 điểm hay 1,100 điểm Liên tiếp trong tháng 2 và tháng 3 năm 2018, ViệtNam trở thành thị trường có chứng khoán tăng rất mạnh so với các quốc gia khác trên thếgiới, hơn cả Brazil, Nga, Argentina, và cap gấp 3 lần so với mức tăng chỉ số của Nasdaq(Mỹ) Trải qua những sự biến động khó lường, vào năm 2020, khi đại dịch COVID–19hoành hành tại Việt Nam và cũng như trên thế giới, chỉ số này lại ở mức thấp nhất là696.52 vào giai đoạn cuối tháng 6, đầu tháng 7 của năm 2020
Biểu đồ 3.1: Biểu đồ thể hiện chỉ số VN–INDEX của Việt Nam giai đoạn 2018 – 2020
Nguồn: vn.tradingview.com
Trang 30Năm 2019, nhìn lại tổng quan về thị trường chứng khoán, có thể nhận thấy rằng thịtrường chứng khoán vào năm này diễn ra một cách hết sức đầy biến động, có chiều hướngdiễn biến vô cùng phức tạp Tuy nhiên, thị trường chứng khoán năm 2019 cũng có nhữngtích cực ngoại lệ như các chỉ số vĩ mô được cân bằng và đảm, chính sách tài khóa ổn định
và chính sách tiền tệ được nới lỏng hơn Năm 2019, tình hình kinh tế vĩ mô ổn định tạođiều kiện thuận lợi cho việc phát triển kinh tế Theo đánh giá của Quỹ Tiền tệ Quốc Tếvào năm 2019, Việt Nam cùng 4 nền kinh tế trong khu vực Đông Nam Á lọt top 20 cácnền kinh tế có đóng góp to lớn vào tăng trưởng của tổng sản phẩm quốc nội Việt Namcũng là điểm nóng trong dòng vốn đầu tư quốc tế trong khu vực ASEAN, do có tốc độtăng trưởng vượt trộ cới mức dự báo tăng trưởng năm 2019 của Việt Nam đạt gần 7% sovới chỉ 4 – 5% của các nước khác trong khu vực ASEAN
Không kể đến Virus SAR–COV–2 xuất hiện vào cuối năm 2019 đã đẩy thị trườngchứng khoán Việt Nam rơi vào cảnh thê thảm Chỉ số VN–INDEX sụt giảm tới 33.51%,xuống mức thấp nhất Tuy nhiên, với chính sách kiểm soát dịch bệnh khá chặt chẽ củachính phủ Việt Nam, thị trường chứng khoán đã phục hồi lại nhanh chóng của nửa saunăm 2020, mức độ hồi phục mạnh mẽ kèm với đó là mức lãi suất thấp nhất, đã đẩy dòngdiền chảy mạnh vào kênh đầu tư chứng khoán Thị trường chứng khoán Việt Nam đã ghinhận những thành quả trong sự tham gia của các nhà đầu tư mới cao chưa từng thấy Khidịch bệnh tại nước ta đã được hồi phục, thị trường chứng khoán Việt Nam phát triểnnhanh và mạnh, thuộc top đầu thế giới Thị trường chứng khoán năm 2020 với mức phụchồi khá ấn tượng, tăng 15% so với cuối năm 2018 và là 1 trong 10 thị trường chứngkhoán tăng trưởng mạnh nhất thế giới Năm 2020, đại dịch COVID–19 bùng phát cũng đãảnh hưởng không nhỏ đến hoạt động sản xuất kinh doanh của các công ty niêm yết, cụ thể
là lợi nhuận sau thuế bin ảnh hưởng khá nghiêm trọng, tuy nhiên, nhiều doanh nghiệp,công ty niêm yết vẫn có kết quả kinh doanh khả quan
3.2 Mô hình nghiên cứu
3.2.1 Xây dựng biến số dùng nghiên cứu
3.2.1.1 Biến phụ thuộc
Bài nghiên cứu sử dụng 337 công ty được niêm yết trên sàn chứng khoán ViệtNam và đánh giá các công ty này có mô hình hoạt động kinh doanh như thế nào (tốt/xấu)
Trang 31thông qua chỉ số EPS (cao/thấp) Chỉ số EPS được viết tắt từ Earning Per Share, có nghĩa
là tỷ suất thu nhập trên mỗi cổ phần Chỉ số EPS này có thể nó lên rằng phần lợi nhuậnthu được trên mỗi cổ phần, nó có thể được coi là chỉ số xác định những khoản lợi nhuậnthu được trên những khoản đầu tư ban đầu Nên đây được xem là một trong những chỉ sốquan trọng nous lên khả năng sinh lợi của công ty hay dự án nào đó và từ đó sẽ quyết địnhxem mô hình hoạt động kinh doanh của công ty có tốt hay không Chúng ta có thể ví dụ
rõ hơn về EPS như sau Một doanh nghiệp có 1 triệu cổ phần đang lưu hành trên thịtrường chứng khoán Tương ứng với đó là tổng lợi nhuận sau thuế là 1 triệu USD Thì ta
có cố phiếu đó có EPS là 1 USD, hay nói cách khác là lợi nhuận trên mỗi cổ phiếu chính
là 1 USD Chúng ta có công thức của EPS như sau:
EPS = (Thu nhập ròng – Cổ tức cổ phiếu ưu đãi) / Số lượng cổ phiếu bình quân đang
lưu hành Trong đó:
Thu nhập ròng hay là lợi nhuận ròng chính là tổng thu nhập của một doanh nghiệp Thunhập ròng của một doanh nghiệp được tính từ thu nhập của doanh nghiệp đó, rồi sau đóđiều chỉnh thêm các khoản chi phí hoạt động, thuế, khấu hao, lãi suất, các chi phí khác,…liên quan đến hoạt động kinh doanh Thu nhập ròng có thể tính bằng công thức sau:
Thu nhập ròng = Doanh thu thuần + Lợi nhuận từ hoạt động tài chính + các khoản thu nhập bất thường khác – giá vốn hàng bán – chi phí (chi phí quản lý doanh nghiệp + phí bán hàng + các khoản phí bất thường) – thuế thu nhập doanh nghiệp.
Cổ tức cổ phiếu ưu đãi chính là phần lợi nhuận được thu từ cổ phiếu ưu
đãi Số lượng cổ phiếu bình quân đang lưu hành lấy vào thời điểm cuối kỳ
Chỉ số EPS càng cao thì càng sẽ có nhiều sự thu hút từ những nhà đầu tư hơn EPS
là chỉ số phản ánh những kết quả hoạt động kinh doanh của doanh nghiệp Từ đó có thểgiúp cho các nhà đầu tư dễ dàng tìm hiểu và so sánh giữa nhiều loại cổ phiếu với nhau.EPS còn có thể dùng để tính các chỉ số khác như PE hay ROE,…
Để chúng ta có thể xác định được một công ty hay doanh nghiệp có mô hình hoạt
động kinh doanh tốt hay không, ta dựa vào chỉ số EPS Nếu chỉ số EPS này lớn hơn 1,500
đồng thì ta xác nhận rằng doanh nghiệp hay công ty có mô hình hoạt động kinh doanh tốt
và ngược lại
Trang 32Tuy nhiên, việc dùng chỉ số EPS để dự báo những công ty có mô hình hoạt độngkinh doanh như thế nào cũng còn nhiều hạn chế Chẳng hạn như EPS có thể bị âm, lợinhuận của công ty bị biến động, doanh nghiệp sẽ phát hành thêm trái phiếu, cổ phiếu,…Nhưng bài toán nghiên cứu này chỉ mang tính chất dự báo nên có thể sẽ không đúng hoàntoàn như trong thực tế.
3.2.1.2 Biến độc lập
ROA hay còn gọi là lợi nhuận trên tổng tài sản, là một trong các chỉ số khá quantrọng trong việc đưa ra mô hình hoạt động kinh doanh của công ty Bởi vì những doanhnghiệp hoạt động hiệu quả sẽ mang lại giá trị lớn cho nhiều nhà cổ đông Chỉ số ROA đolường mức độ sử dụng tài sản của một doanh nghiệp Chỉ số ROA sẽ giúp cho các nhàđầu tư sử dụng hiệu quả nguồn tổng tài sản của doanh nghiệp Chúng ta có công thức tínhcủa chỉ số ROA như sau:
ROA= Lợinhuận sauthuế ×100 % Tổng tài sản bình quân
ROA là một chỉ số cơ bản, cho biết mức độ sử dụng hiệu quả tài sản của mộtdoanh nghiệp
Tiếp theo, chúng ta có một chỉ số khác nhằm dự báo EPS đó là chỉ số nợ trên vốnchủ sở hữu Tỷ lệ nợ trên vốn chủ sở hữu (DE) chính là tỷ lệ % giữa vốn doanh nghiệphay động bằng việc đi vay với vốn chủ sở hữu Tỷ lệ này được đưa ra để xem xét nguồnvốn của doanh nghiệp cũng như cách sử dụng để dem lại hiệu quả cao cho công ty Đâycũng là một trong những chỉ số khá quan trọng trong tài chính để đo năng lực và cách vậnhành của công ty như thế nào Các chủ thể có thể nhận thấy rõ các chỉ số này trong bảngcân đối kế toán trong báo cáo tài chính ở từng thời kỳ Qua tỷ lệ nợ trên vốn chủ sở hữucho biết các doanh nghiệp có được mức tài trợ kinh doanh như thế nào từ để đưa ra môhình hoạt động kinh doanh cho mình trong thời điểm hiện tại cũng như trong thời gian sắptới Tỷ lệ nợ trên vốn chủ sở hữu cho biết hai nguồn vốn cơ bản nhất đó là nợ vay và vốnchủ sở hữu của doanh nghiệp Hai nguồn này tuy có đặc điểm riêng khác nhau nhưng lại
đi cạnh nhau và có mối quan hệ tương quan mật thiệt với nhau, được các chuyên gia vềtài chính xem xét và đánh giá các cấu trúc tài chính của doanh nghiệp Ta có thể tính chỉ
số này bằng công thức như sau:
Trang 33DE= Nợ phải trả Vốn chủ sở hữu
Giá trên giá trị sổ sách (BV) hay còn được gọi là tỷ lệ giá trên giá trị sổ sách cónghĩa là một tỷ lệ định giá đầu tư thường được các nhà đầu tư sử dụng để so sánh giá trịthị trường của cổ phiếu của một công ty với giá trị sổ sách của nó BV này cho thấy giá trịchính xác của công ty dựa trên giá cổ phiếu Đây cũng là một chỉ số quan trọng dùng để
dự báo chỉ số EPS từ đó để biết được doanh nghiệp hay công ty đó có mô hình hoạt độngkinh doanh tốt hay không
3.2.2 Mô hình nghiên cứu đề xuất
Mô hình Neural Network là mô hình phân lớp mà bài nghiên cứu sẽ sử dụng cùngvới các lý thuyết về khai phá dữ liệu và cũng như các lý thuyết về tài chính đã được nêu
rõ ở mục trên, bài nghiên cứu của tôi sẽ được xây dựng theo mô hình nghiên cứu như sau
Đối với biến độc lập, bài nghiên cứu bao gồm 3 biến ROA, DE, BV Ta nhận thấyrằng tất cả các biến độc lập đều có mối quan hệ tương quan dương so với biến EPS
Đối với biến phụ thuộc, nếu như công ty hay doanh nghiệp có chỉ số EPS > 1,500
đồng thì công ty hay doanh nghiệp có chỉ số EPS cao điều đó đồng nghĩa với việc công ty
hay doanh nghiệp có mô hình hoạt động kinh doanh tốt và ngược lại, nếu công ty hay
doanh nghiệp có chỉ số EPS < 1,500 đồng thì công ty hay doanh nghiệp đó có chỉ số EPS
thấp thì đồng nghĩa với việc nó có mô hình hoạt động kinh doanh xấu
3.3 Nguồn số liệu, phương pháp thu thập dữ liệu và nghiên cứu
Bài nghiên cứu được lấy dữ liệu của 337 doanh nghiệp đang được niêm yết trênsàn giao dịch chứng khoán Thành phố Hồ Chí Minh và sàn giao dịch chứng khoán HàNội Số liệu sử dụng trong bài dựa trên các báo cáo tài chính đã được kiểm toán của quýII/2021 của 10 nhóm ngành được liệt kê như sau: Hàng Không, Dịch vụ – Du lịch,Thương Mại, Thực Phẩm, Ngành Thép, Thủy Sản, Nhóm Dầu Khí, Vật Liệu Xây Dựng,Bất Động Sản và Chứng Khoán
Phương pháp thu thập dữ liệu: tôi đã thu thập dữ liệu dựa trên nguồn
cophieu68.vn Đây được xem là một trong những nguồn đáng tin cậy để thu thập các dữ
liệu về các chỉ số thuộc lĩnh vực tài chính
Trang 34Phương pháp nghiên cứu: Bài nghiên cứu được sử dụng Excel (2016) để tính toáncác chỉ số về tài chính và chương trình Orange để chạy mô hình dự báo.
3.4 Bộ dữ liệu huấn luyện
Khi ứng dụng mô hình khai phá dữ liệu trong việc dự báo chỉ số EPS để đưa ra môhình hoạt động kinh doanh của doanh nghiệp hay công ty, bài nghiên cứu đã sử dụng bộ
dữ liệu của 3 nhân tố là ROA, DE và BV để đưa ra mô hình hoạt động kinh doanh củacông ty là tốt hay xấu thông qua chỉ số EPS là cao hay thấp của 337 công ty được niêmyết trên sàn chứng khoán Việt Nam được lấy từ 10 nhóm ngành khác nhau trong quýII/2021 (bao gồm các sàn giao dịch như HOSE, HNX, UPCOM) Bộ dữ liệu 337 công tyniêm yết sẽ được chia thành 2 phần bao gồm bộ dữ liệu huấn luyện và bộ dữ liệu dự báo
Bộ dữ liệu huấn luyện sẽ được giải thích chi tiết ở phần dưới, còn bộ dữ liệu dự báo sẽđược giải thích chi tiết ở phần 3.5
Bộ dữ liệu của 110 công ty niêm yết thuộc ngành thực phẩm (Phụ lục 1) dùng đểhuấn luyện được bao gồm 3 biến độc lập là ROA, DE, BV, biến phụ thuộc EPS sẽ được
chia thành 2 loại như sau: nếu EPS > 1,500 đồng thì sẽ được đánh giá là cao, và ngược lại nếu EPS < 1,500 đồng thì sẽ được đánh giá là thấp Hình 3.1 sau thể hiện danh sách của
20 công ty niêm yết đầu tiên của ngành thực phẩm (bộ dữ liệu huấn luyện) như sau:
Hình 3.1 Dữ liệu huấn luyện của 20 công ty niêm yết
Trang 35Nguồn: Kết quả từ chương trình Orange
3.5 Bộ dữ liệu dự báo
Sau khi đã có bộ dự liệu huấn luyện của 110 công ty niêm yết của ngành thựcphẩm, chúng ta sẽ dự báo 227 công ty niêm yết của các ngành còn lại (Phụ lục 2) dựa vào
bộ huấn luyện đã có sẵn của ngành thực phẩm Dự báo sẽ lựa chọn phương pháp phân lớp
dữ liệu để lựa chọn ra phương pháp thích hợp nhất thông qua cách đánh giá của các môhình phân lớp Hình 3.2 thể hiện dữ liệu dự báo của 20 công ty niêm yết như sau:
Hình 3.2 Dữ liệu dự báo của 20 công ty niêm yết
Trang 36Nguồn: Kết quả từ chương trình Orange
3.6 Kết quả của dữ liệu huấn luyện
Đầu tiên, chúng ta sẽ sử dụng phần mềm Orange để đưa bộ dữ liệu huấn luyện vào.Sau khi đưa bộ dữ liệu huấn luyện vào, chúng ta sẽ bắt đầu khai báo các thuộc tính của bộ
dữ liệu huấn luyện Các thuộc tính của bộ dữ liệu huấn luyện được thiết kế như sau Đốivới các biến độc lập ROA, DE, BV sẽ được khai báo thuộc tính là “feature”, sau đó,chúng ta sẽ khai báo thuộc tính “target” cho Assessment (Assessment là kết quả huấnluyện cho kết quả EPS là cao hay thấp) Assessment sẽ được chia ra thành hai loại “HIGH– cao” và “LOW – thấp), đối với EPS, vì đã được quy đổi thành Assessment nên sẽ khôngtham gia vào quá trình dự báo và sẽ được “skip” Còn đối với Code, vì này là dạng ký tựnên sẽ không ảnh hưởng đến quá trình dự báo, vì vậy chúng ta không cần “skip”
Hình 3.3 Mô tả các thuộc tính của các biến
Trang 37Hình 3.4 Tổng quan về quy trình huấn luyện và dự báo bằng sơ đồ
Nguồn: Kết quả từ chương trình Orange
Trang 38and Score để tổng quan các chỉ số và lựa chọn mô hình phù hợp nhất cho bài nghiên cứu.
Ở bài nghiên cứu này sử dụng phương pháp đánh giá mô hình phân lớp với Cross
Validation với Number of fold là 5 ( k = 5) để đánh giá với tính năng vượt trội hơn và tránhtrùng lặp giữa các tập kiểm thử
Hình 3.5 Kết quả của mô hình đánh giá phân lớp bằng Cross Validation
Nguồn: Kết quả từ chương trình Orange
Ở hình 3.5, Neural Network được đánh giá là cao nhất kể cả 4 chỉ số CA, F1, Precision,Recall Giá trị F1 của Neural Network là cao nhất với 94.6% Giá trị này chưa phải là caonhất, trong khi đó, giá trị AUC của Neural Network là 98.1%, một chỉ số rất cao Để tính
được các chỉ số này, bài nghiên cứu sử dụng ma trận nhầm lẫn ở hình 3.6như sau:
Hình 3.6 Ma trận nhầm lẫn với Neural Network
Nguồn: Kết quả từ chương trình Orange
Ta có thể tính giá trị của F1 – Score bằng công thức như đã đề cập ở chương 2 (Cơ
sở lý luận) với TP = 56, FP = 1, FN = 5 và TN = 48 như sau Đầu tiên chúng ta sẽ đi tínhgiá trị của Precision và Recall sau đó áp dụng công thức để tính F1 – Score và kết quảđược thể hiện như ở hình 3.5 tại Neural Network Ở ma trận nhầm lẫn này, ta có thể giảithích như sau Có 61 công ty có chỉ số EPS cao tức mô hình hoạt động kinh doanh của các
Trang 39doanh của các công ty này xấu trong đó có 48 công ty được phân lớp đúng và chỉ có 1công ty bị phân nhầm lớp.
Tôi có thể kết luận rằng, mô hình Neural Network rất thích hợp cho bộ dữ liệu củabài nghiên cứu này và khá phù hợp để dự báo mô hình hoạt động kinh doanh của các công
ty được niêm yết trên sàn giao dịch chứng khoán Sau khi đã phân tích chi tiết về bộ dữliệu huấn luyện Tiếp theo, bài nghiên cứu sẽ đi phân tích dự báo để dự đoán xem môhình Neural Network dự báo như thế nào trong bộ dữ liệu dự báo thông qua bộ dữ liệuhuấn luyện Kết quả của dữ liệu dự báo được trình bày ở mục 3.7
3.7 Kết quả của dữ liệu dự báo
Neural Network là phương pháp phân lớp thích hợp nhất cho bài nghiên cứu, vìvậy sẽ sử dụng Neural Network dự báo chỉ số EPS cho 227 công ty thuộc các ngành cònlại (Phụ lục 2) Tôi cũng tiến hành các bước tương tự như bộ dữ liệu huấn luyện, đưa bộ
dữ liệu dự báo vào chương trình Orange và chạy các thuộc tính cho các biến số ở bộ dữliệu dữ báo giống như bộ dữ liệu huấn luyện
Hình 3.7 Các thuộc tính của bộ dữ liệu dự báo
Nguồn: Kết quả từ chương trình Orange
Cũng giống như bộ dữ liệu dự báo, bài nghiên cứu sẽ khai cái các thuộc tính củaROA, DE, BV là “feature”, ngoài ra, thuộc tính của Assessment cũng là “feature”, khônggiống như bộ dữ liệu huấn luyện là “target” Còn những vấn đề khác không quan trọngchúng ta sẽ khai báo là “skip” Sau đó, chúng ta vào Predictions để xem dự báo bằng
Trang 40Hình 3.8 Kết quả của dự báo bằng Neural Network
Nguồn: Kết quả từ chương trình Orange
Qua kết quả dự báo của 227 công ty thuộc các ngành còn lại, cho thấy có 95 công
ty niêm yết có chỉ số EPS cao hay mô hình hoạt động kinh doanh tốt, và có 132 công ty
có chỉ số EPS thấp hay mô hình hoạt động kinh doanh xấu Lý do nào mà kết quả lại đượcphân lớp như vậy Chúng ta có thể xem kết quả của chỉ số Neural Network ở hình 3.9 đểthấy rõ hơn sự phân lớp của Neural Network