BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU NGHIÊN CỨU MÔ HÌNH KHAI PHÁ DỮ LIỆU SỬ DỤNG THUẬT TOÁN PHÂN LỚP NEURAL N[.]
Trang 1TP.HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH
TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU
NGHIÊN CỨU MÔ HÌNH KHAI PHÁ DỮ LIỆU SỬ DỤNG THUẬT TOÁN PHÂN LỚP NEURAL NETWORK VÀ ỨNG DỤNG TRONG VIỆC RA QUYẾT ĐỊNH ĐẦU TƯ HIỆU QUẢ TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT
NAM
GIẢNG VIÊN HƯỚNG DẪN: NCS TS THÁI KIM PHỤNG MÃ LỚP HỌC PHẦN: 21C1INF50905915 SINH VIÊN THỰC HIỆN: TRƯƠNG THÁI
NGỌC MÃ SỐ SINH VIÊN: 31191025696 – STT:
14
TP Hồ Chí Minh - Tháng 10/2021
Trang 21.3 Đối tượng và phạm vi nghiên cứu 2
1.4.1 Phương pháp nghiên cứu lý luận 31.4.2 Phương pháp nghiên cứu thực tiễn 3
2.1.1 Quá trình phát hiện tri thức và khai phá dữ liệu 42.1.2 Khái niệm khai phá dữ liệu 52.1.3 Quá trình khai phá dữ liệu 52.1.4 Các kỹ thuật khai phá dữ liệu 62.1.4.1 Khai thác tập phổ biến và luật kết hợp 7
2.1.5 Các ứng dụng của khai phá dữ liệu 7
Trang 32.2.2 Phân loại bài toán phân lớp 112.2.3 Một số thuật toán phân lớp dữ liệu được sử dụng trong bài 112.2.3.1 Cây quyết định (Decision tree) 112.2.3.2 Support Vector Machine (SVM) 122.2.3.3 Mạng Nơ ron nhân tạo (Neural Network) 132.2.3.4 Hồi quy Logistic (Logistic Regression) 142.2.4 Một số phương pháp đánh giá mô hình phân lớp 152.2.4.1 Ma trận nhầm lẫn (Confusion matrix) 152.2.4.2 Độ chính xác (Accuracy) 162.2.4.3 Precision, Recall, F1 - score 162.2.4.4 (Receiver Operating Characteristic) và AUC (Area Under the Curve) 172.2.4.5 Cross Validation: K-fold và Holdout 182.3 Mô hình khai phá dữ liệu sử dụng thuật toán phân lớp Neural network 192.3.1 Đặc điểm của Neural network 192.3.2 Kiến trúc của Neural network 192.3.3 Ưu, nhược điểm của Neural network 202.3.4 Ứng dụng của Neural network 202.4 Mô hình nghiên cứu đề xuất 202.4.1 Mô tả các biến sử dụng trong mô hình 20
2.4.1.2.1 Tỷ suất thu nhập trên cổ phần (EPS) 212.4.1.2.2 Hệ số giá trên thu nhập (PE) 21
Trang 42.4.1.2.4 Tỷ suất thu nhập trên vốn chủ sở hữu (ROE) 22
3.1 Tổng quan thị trường chứng khoán Việt Nam hiện nay 243.2 Mô tả bộ dữ liệu huấn luyện và dự báo 25
4.2 Hạn chế của đề tài và hướng nghiên cứu tiếp theo 34
PHỤ LỤC 4: KẾT QUẢ DỰ BÁO DỰA VÀO CHỈ SỐ NEURAL NETWORK
Trang 5Hình 2.1 Quá trình KDD 4Hình 2.2: Quá trình khai phá dữ liệu 6Hình 2.3: Bước 1 của quá trình trình phân lớp: Xây dựng mô hình phân lớp 9Hình 2.4: Bước 2.1 của quá trình trình phân lớp: Đánh giá mô hình 10Hình 2.5: Bước 2.2 của quá trình trình phân lớp: Phân lớp dữ liệu mới 11Hình 2.6: Minh họa thuật toán phân lớp cây quyết định (Decision tree) 12Hình 2.7: Minh họa thuật toán phân lớp Support Vector Machine (SVM) 13Hình 2.8: Minh họa thuật toán phân lớp Mạng Nơ ron nhân tạo (Neural Network) 14Hình 2.9: Minh họa thuật toán phân lớp Hồi quy Logistic (Logistic Regression) 15Hình 2.10: Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix) 16Hình 2.11: Minh họa phương pháp ROC (Receiver Operating Characteristic) 17Hình 2.12: Minh họa phương pháp AUC (Area Under the Curve) 18Hình 3.1: Bộ dữ liệu huấn luyện (minh họa MCK của 25 công ty đầu tiên) 25Hình 3.2: Bộ dữ liệu dự báo (minh họa MCK của 25 công ty đầu tiên) 26Hình 3.3: Khai báo thuộc tính cho các biến trong bộ dữ liệu huấn luyện 27Hình 3.4: Mô tả tổng quan quá trình huấn luyện vào dự báo 28Hình 3.5: Kết quả đánh giá mô hình bằng phương pháp K-fold 28Hình 3.6: Đánh giá mô hình lớp thông qua Ma trận nhầm lẫn 29Hình 3.7: Khai báo thuộc tính cho các biến trong bộ dữ liệu dự báo 30Hình 3.8: Kết quả dự báo (minh họa MCK của 18 công ty đầu tiên) 31Hình 3.9: Kết quả dự báo đựa vào chỉ số Neural Network (minh họa MCK của 25 công ty
Trang 6Chữ viết tắt
Ý nghĩa
TTCK Thị trường chứng khoánKPDL Khai phá dữ liệuHOSE Sở Giao dịch Chứng khoán TP.HCMHNX Sở Giao dịch Chứng khoán Hà NộiUPCOM Thị trường công ty đại chúng chưa niêm
yếtKDD Knowledge Discovery in DatabaseCSDL Cơ sở dữ liệu
SVM Support Vector MachineROC Receive Operating CharacteristicAUC Area Under the CurveMCK Mã chứng khoánEPS Tỷ suất thu nhập trên mỗi cổ phần
PE Hệ số giá trên thu nhậpROA Tỷ số lợi nhuận ròng trên tài sảnROE Tỷ suất thu nhập trên vốn chủ sở hữu
Trang 7CHƯƠNG 1: GIỚI THIỆU 1.1 Lý do lựa chọn đề tài
Trong những năm gần đây, xã hội đang thay đổi và phát triển không ngừng đi cùng với sựbùng nổ của ngành công nghệ thông tin đã khiến kho dữ liệu của các hệ thống thông tinquản lý tăng lên một cách không kiểm soát Đặc biệt, có nghiên cứu cho rằng, luồngthông tin chuyển tải trên thế giới được ước tính tăng gấp đôi cứ khoảng 20 tháng Trướctình hình bùng nổ thông tin đang diễn ra, những người ra quyết định trong các tổ chức tàichính, thương mại, khoa học, không muốn bỏ sót bất cứ thông tin nào thu thập được
Họ muốn lưu trữ tất cả thông tin vì cho rằng trong đó ẩn chứa những giá trị tiềm ẩn cầnđược phát hiện Những lí do trên đây chính là tiền đề cho sự ra đời kỹ thuật khai phá dữliệu (KPDL) (Data Mining) khi nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân tích
dữ liệu, … đòi hỏi kỹ thuật xử lý thông minh và hiệu quả hơn ngày một tăng cao Nhờ đó,chúng ta có khả năng khai thác những tri thức hữu dụng và thật sự cần thiết từ kho dữliệu khổng lồ Việc chọn lọc đúng đắn không những giúp cải thiện kết quả đầu ra tronghiện tại mà còn hỗ trợ việc ra quyết định một cách chính xác hơn
Ngày nay, các kỹ thuật KPDL đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnhvực đời sống, kinh tế xã hội ở các nước trên thế giới, nhưng còn khá mới mẻ tại ViệtNam Rất nhiều doanh nghiệp và tổ chức trên thế giới đã ứng dụng kĩ thuật này vào hoạtđộng sản xuất kinh doanh của mình và thu được những lợi ích đáng kể Tuy nhiên, nhữngnăm gần đây, nước ta cũng dần chấp nhận và đưa nó vào sử dụng Trong đó, một trongnhững lĩnh vực ứng dụng đầu tiên và khá phổ biến cho đến hôm nay chính là lĩnh vực tàichính, đặc biệt không thể không nhắc đến thị trường chứng khoán (TTCK)
Tuy chỉ mới xuất hiện từ những năm 2000, TTCK đang dần chiếm một vị thế vô cùngquan trọng ở Việt Nam, thu hút nhiều nhà đầu tư trong nước tham gia, kể cả sinh viên
Nó hấp dẫn không chỉ vì đóng vai trò hết sức quan trọng trong sự phát triển của nền kinh
tế, nhất là trong thời đại 4.0 như thời nay mà còn có ý nghĩa đối với các nhà đầu tư vì khảnăng sinh lợi của nó Nhưng để khả năng tham gia vào, họ cần phải có các kiến thức cănbản nhất định Đây cũng là hạn chế của những nhà đầu tư Việt Nam TTCK chỉ có thể tồntại và phát triển khi có sự tham gia ngày càng đông của những người có đầy đủ kiến thức
Trang 8về nó Vì vậy, các nhà đầu tư nhận thức được rằng cần có cách tiếp cận thật nhanh đểtham gia đầu tư có hiệu quả vào đó tùy theo điều kiện, khả năng của minh, góp phần đưaTTCK Việt Nam ngày càng phát triển.
Tuy mang đến nhiều lợi ích nhưng TTCK vẫn còn tiềm ẩn nhiều rủi ro Vì vậy, khi tìmhiểu công ty niêm yết nào trên sàn chứng là khoán phù hợp để đưa ra quyết định đầu tư,các nhà đầu tư không thể dựa vào cảm tính ban đầu mà cần nhận được trợ giúp từ cáccông cụ khoa học để giảm thiểu rủi ro và tránh những sai lầm đáng tiếc xảy ra Trong đó,KPDL là một công cụ phù hợp, giúp họ nâng cao kiến thức và kinh nghiệm quý báu phục
vụ cho quyết định đầu tư cũng như vận dụng những gì học được trong đó cho các quyếtđịnh tài chính quan trọng khác Để làm được điều đó, sự phát triển của các mô hình toánhọc và các giải thuật hiệu quả là chìa khóa quyết định, nên trong bài nghiên cứu này, tôichủ yếu đề cập đến kỹ thuật thường dùng trong dự báo là “Phân loại dữ liệu”(Classification), cụ thể là thuật toán Neural Network Qua đó, tôi quyết định chọn đề tài:
“Nghiên cứu mô hình khai phá dữ liệu sử dụng thuật toán phân lớp Neural Network
và ứng dụng trong việc ra quyết định đầu tư hiệu quả trên thị trường chứng khoán Việt Nam.” làm đề tài nghiên cứu.
1.2 Mục tiêu nghiên cứu
Bài nghiên cứu chủ yếu tập trung vào các mục tiêu sau:
● Nghiên cứu các lý thuyết tổng quan về KPDL, cụ thể là thuật toán phân lớp dữ liệu bằng Neural Network
● Xây dựng các mô hình vào dựa bộ dữ liệu huấn luyện có sẵn và lựa chọn mô hình phùhợp nhất tiến hành dự báo đối với bộ dữ liệu dự báo được chọn
● Tạo tiền đề phát triển các bài nghiên cứu sau này
1.3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu:
● Mô hình KPDL và thuật toán phân lớp dữ liệu bằng Neural Network để ứng dụng trong việc ra quyết định đầu tư hiệu quả trên thị trường chứng khoán Việt Nam
● Các yếu tố ảnh hưởng đến quyết định đầu tư hiệu quả của các nhà đầu tư, chính là dữ liệu thực về các chỉ số tài chính được lấy từ trang cophieu68.vn
Trang 9● Phạm vi nghiên cứu: 300 công ty niêm yết trên thị trường chứng khoán Việt Nam, baogồm nhiều ngành hoặc nhóm ngành khác nhau trên các sàn: HOSE, HNX vàUPCOM.
● Thời gian: giá trị của các chỉ số tài chính được thu thập thuộc năm 2020
1.4 Phương pháp nghiên cứu
1.4.1 Phương pháp nghiên cứu lý luận
Tiến hành tìm hiểu, thu thập, chắt lọc và phân tích các dữ liệu, thông tin thông qua đọcsách báo, tài liệu nhằm mục đích tìm chọn những khái niệm và quan điểm để xây dựng
cơ sở lý thuyết cho nghiên cứu, dự đoán về những thuộc tính của đối tượng nghiên cứu,xây dựng những mô hình lý thuyết ban đầu Bao gồm các phương pháp sau:
● Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, papers có được, sau đóđọc và tổng hợp để rút ra những nội dung cần thiết cho luận điểm của bài nghiên cứu
● Phương pháp mô hình hóa: xây dựng mô hình nghiên cứu dựa trên lý thuyết và ứngdụng mô hình để dự báo nhằm kiểm định tính chính xác của mô hình
1.4.2 Phương pháp nghiên cứu thực tiễn
Từ cơ sở lý luận ấy, tiến hành vận dụng vào các phương pháp nghiên cứu thực tiễn:
● Thông qua các thuật toán trong KPDL, đồng thời, sử dụng sử dụng phần mềm Orange
- một công cụ khá trực quan để nghiên cứu về các thuật toán machine learning và thựchành KPDL phổ biến hiện nay để phân tích dữ liệu và làm rõ vấn đề nghiên cứu
● Từ đó, xây dựng các mô hình dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và so sánhcác kết quả rút ra được với nhau nhằm lựa mô hình phù hợp nhất nhằm giúp các nhàđầu tư có quyết định chính xác hơn khi đầu tư hiệu quả
1.5 Cấu trúc nghiên cứu
Ngoài phần mục lục, danh mục bảng biểu và hình vẽ, danh mục chữ viết tắt, tài liệu thamkhảo và phụ lục, đề tài được kết cấu thành 4 chương như sau:
● Chương 1: Giới thiệu
● Chương 2: Cơ sở lý luận
● Chương 3: Phân tích và thảo luận
Trang 10● Chương 4: Kết luận
2.1.1 Quá trình phát hiện tri thức và khai phá dữ liệu
Biết chọn lọc và sử dụng thông tin hiệu quả có thể quyết định sự thành công của bạntrong phân tích dữ liệu Điều đó có nghĩa là phải tìm ra những giá trị tiềm ẩn, các yếu tốtác động và những xu hướng phát triển của các dữ liệu sẵn có ấy Quá trình đó được gọi
là quá trình phát hiện tri thức (Knowledge Discovery in Database – KDD) mà trong đóKPDL là một kỹ thuật quan trọng cho phép ta thu được các tri thức mong muốn
Hình 2.1 Quá trình KDD
Nguồn: Phantuanduy (2013) Quy trình Khai phá dữ liệu (Process of Data mining)
Quá trình phát hiện tri thức gồm 5 bước cơ bản:
● Bước 1: Chọn lọc dữ liệu (selection): Giai đoạn này cần gom các dữ liệu khai thácđược vào một cơ sở dữ liệu (CSDL) riêng Ở đây, chúng ta chỉ chọn lọc và giữ lạinhững dữ liệu nào mà giai đoạn sau yêu cầu Tuy nhiên, công việc này thường khókhăn và tốn nhiều thời gian vì dữ liệu tồn tại ở nhiều dạng khác nhau và nằm rải ráckhắp nơi
● Bước 2: Tiền xử lý dữ liệu (preprocessing): Khi tập hợp dữ liệu thường mắc phải một
số lỗi như dữ liệu thiếu logic, thiếu chặt chẽ, chưa đầy đủ, hiếm khi nào các dữ liệu
Trang 11thu thập được đều mang tính nhất quán Do đó “tiền xử lý” là một bước quan trọngsau đó giúp hạn chế những kết quả sai lệch không mong muốn trước khi bước vào quátrình KPDL.
● Bước 3: Chuyển đổi dữ liệu (transformation): Tại đây, dữ liệu sẽ được chuyển đổi vềdạng thích hợp để dễ dàng tiến hành các bước sau
● Bước 4: Khai phá dữ liệu (Data mining): Giai đoạn này sử dụng các kỹ thuật nhằmphát hiện ra các tri thức tiềm ẩn trong dữ liệu
● Bước 5: Đánh giá kết quả mẫu (interpretation evaluation): Đây cũng là bước cuốicùng trong quá trình KDD Những tiêu chuẩn đánh giá thích hợp sẽ được chọn lọc và
sử dụng sao cho các mẫu dữ liệu được trích xuất bởi các phần mềm KPDL có thể sửdụng được
Từ quá trình phát hiện tri thức, ta thấy các kỹ thuật phát hiện tri thức trải qua rất nhiềugiai đoạn và sử dụng nhiều phương pháp để cho ra kết quả cuối cùng Đây là một quátrình liên tục, đầu vào của giai đoạn sau xuất phát từ đầu ra của giai đoạn trước Trong
đó, KPDL được coi trọng hơn cả bởi việc tìm ra được những tri thức và thông tin có cấutrúc chặt chẽ tiềm ẩn trong kho dữ liệu khổng lồ
2.1.2 Khái niệm khai phá dữ liệu
Khai phá dữ liệu là một tiến trình khám phá ra các mẫu dữ liệu hay các mô hình mongmuốn dưới nhiều góc độ khác nhau nhờ sử dụng các công cụ phân tích, từ đó tìm ra đượccác thông tin và tri thức từ các CSDL cũng như các mối quan hệ giữa các đối tượng bêntrong CSDL
Nếu xét về mặt ý tưởng và mục đích ứng dụng, KPDL thật sự là một nhu cầu tất yếu đặt
ra trong thời đại 4.0, một sự đáp trả cho những tìm tòi, khám phá của thế giới về mặt kỹthuật Đây là một phát hiện vĩ đại, mang đến nhiều lợi ích trong cuộc sống, đồng thờicũng đặt ra nhiều khó khăn và thử thách đối với các nhà nghiên cứu
2.1.3 Quá trình khai phá dữ liệu
Các bước quan trọng trong quá trình KPDL bao gồm:
Trang 12Hình 2.2: Quá trình khai phá dữ liệu
Nguồn: ThS Trần Hùng Cường, ThS Ngô Đức Vĩnh (2011) Tổng quan về phát hiện trithức và khai phá dữ liệu Khoa Công nghệ thông tin Trường Đại học Công nghiệp HàNội, 1 – 6
Quá trình KPDL bắt đầu từ việc xác định vấn đề đang gặp phải một cách chính xác, rồitìm hiểu các dữ liệu liên quan dùng để xây dựng giải pháp Sau đó, các dữ liệu cần thiếtđược thu thập cẩn thận và tiền xử lý thành dạng mà giải thuật KPDL có thể hiểu được.Tuy chỉ gồm một vài bước nhưng đây không phải là một quá trình đơn giản, khi tiến hành
có thể vướng phải một số khó khăn như: nếu mô hình cần chỉnh sửa dữ liệu thì toàn bộquá trình phải lặp đi lặp lại cho đến khi phù hợp gây mất thời gian, hay phải sao ra nhiềubản đối với các dữ liệu được chiết xuất vào các tệp,…
Thực hiện KPDL là bước tiếp theo sau khi chọn được thuật toán thích hợp để tìm ra cácmẫu có ý nghĩa được biểu diễn dưới các dạng tương ứng
Mẫu có đặc điểm là phải mới (ít nhất là đối với hệ thống đó) Độ mới thường được đánhgiá thông qua một hàm logic hoặc hàm đo độ mới và được đo tương ứng với độ thay đổitrong dữ liệu (bằng cách so sánh các giá trị tìm được với các giá trị mong muốn hoặc cácgiá trị trước đó), hoặc bằng tri thức (mối liên hệ giữa phương pháp tìm cũ và phươngpháp mới) Bên cạnh đó, sau khi xử lý các mẫu và cho ra kết quả phải được đánh giáthông qua một hàm lợi ích để đo lường khả năng sử dụng tiềm tàng
2.1.4 Các kỹ thuật khai phá dữ liệu
Có rất nhiều kỹ thuật được áp dụng trong khai phá dữ liệu, nhưng trong bài nghiên cứunày tôi chỉ đề cập đến 3 kỹ thuật chính được biết đến và sử dụng rộng rãi:
Trang 132.1.4.1 Khai thác tập phổ biến và luật kết hợp
Kỹ thuật này nhằm xác định mối quan hệ giữa các biến khác nhau trong CSDL và được
sử dụng để “giải nén” các mẫu tiềm ẩn trong dữ liệu Một luật kết hợp X → Y phản ánh
sự xuất hiện đồng thời của tập Y khi tập X xuất hiện
Kỹ thuật này được sử dụng rất phổ biến ở các doanh nghiệp để phân tích hành vi muasắm, dự đoán xu hướng từ giỏ hàng của khách hàng tiềm năng và dự đoán hành vi ngườitiêu dùng trong ngành bán lẻ hay trong lĩnh vực Công nghệ Thông tin, cụ thể là cácchương trình Machine Learning
2.1.4.2 Phân lớp dữ liệu
Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờmột mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gánnhãn trước đó (thuộc về lớp nào)
Kỹ thuật này dùng để rút trích các thông tin cần thiết từ kho dữ liệu có sẵn Vì thế, đốivới kỹ thuật này, chúng ta sẽ áp dụng các thuật toán khác nhau tùy thuộc vào mục tiêu sửdụng
Đây cũng là kỹ thuật có vai trò quan trọng trong việc dự báo các quy luật, xu hướng, …bằng cách mô tả các thuộc tính liên quan để đối tượng được phân loại vào một lớp cụ thể
2.1.4.3 Phân cụm dữ liệu
Là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm tương đồng vào các cụm/nhóm tương ứng Trong đó: đối tượng nào có những tính chất tương tự nhau sẽ được xếpvào cùng một cụm và ngược lại Dữ liệu sử dụng trong kỹ thuật này là dữ liệu chưa đượcgán nhãn và thường thấy trong thực tế
Trong kinh doanh, kỹ thuật này thường được ứng dụng để quản lý hồ sơ khách hàng hoặcchia phân khúc khách hàng trong lĩnh vực Marketing
2.1.5 Các ứng dụng của khai phá dữ liệu
Mặc dù KPDL còn mang nhiều mặt hạn chế cần được cải thiện nhưng không thể phủnhận tiềm năng hiện tại của nó Đây là kỹ thuật thu hút sự quan tâm của đa số các nhànghiên cứu bởi ứng dụng đa dạng trong nhiều lĩnh vực khác nhau như:
Trang 14● Lĩnh vực tài chính, ngân hàng: Xây dựng mô hình dự báo rủi ro tín dụng, các khoảnvay nợ, hỗ trợ việc ra quyết định khi đầu tư chứng khoán Đây cũng chính là hướngnghiên cứu chính của bài.
● Thương mại điện tử: Phân tích thái độ mua sắm của khách hàng và dựa vào từng loạikhách hàng để có phương án tiếp thị phù hợp
● Lĩnh vực y tế: Phát hiện các mối quan hệ giữa bệnh với phương pháp chữa trị để tìm
ra các loại thuốc mới, dựa trên các yếu tố rủi ro để dự đoán loại bệnh mà bệnh nhân
có thể mắc phải
● Lĩnh vực sinh học: Hỗ trợ thu thập, lưu trữ và phân tích các dữ liệu về di truyền học,nghiên cứu các căn bệnh, các chất dinh dưỡng, thông qua trực quan hóa bằng cácbảng biểu và đồ thị
● Lĩnh vực giáo dục: Giúp phân tích dữ liệu trong môi trường giáo dục để xác định tìnhhình học tập của mỗi học sinh và dự báo kết quả học tập trong tương lai để tìm ra cácphương pháp giảng dạy phù hợp
2.2 Phân lớp dữ liệu
2.2.1 Quá trình phân lớp dữ liệu
Quá trình phân lớp dữ liệu gồm hai bước chính:
● Bước 1: Xây dựng mô hình (hay giai đoạn “học” hoặc “huấn luyện”)
Quá trình huấn luyện nhằm xây dựng một mô hình mô tả một tập dữ liệu sẵn có Đầu vàocủa quá trình này là một tập dữ liệu mẫu đã được gán nhãn và tiền xử lý, mỗi phần tử dữliệu được giả định thuộc về một lớp phân trước, lớp ở đây là giá trị của một thuộc tínhđược chọn làm thuộc tính gán nhãn hay thuộc tính phân lớp Mỗi bộ giá trị được gọichung là một phần tử dữ liệu, có thể là các mẫu, ví dụ, đối tượng, hay trường hợp Kếtquả của bước này là mô hình phân lớp đã được huấn luyện
Quá trình này được mô tả ở hình 2.3
Trang 15Hình 2.3: Bước 1 của quá trình trình phân lớp: Xây dựng mô hình phân lớp
Nguồn: Nguyễn Thị Tùy Linh (2005) Nghiên cứu các thuật toán phân lớp dữ liệu dựa trêncây quyết định Công nghệ thông tin, 3 – 62
● Bước 2: Sử dụng mô hình, được chia thành 2 bước nhỏ:
+ Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)
Đầu vào là một tập dữ liệu mẫu được chọn ngẫu nhiên và độc lập với các mẫu trong tập
dữ liệu huấn luyện, cũng đã được gán nhãn và tiền xử lý Tuy nhiên thuộc tính đã đượcgán nhãn này bị “lờ” khi được đưa vào mô hình tiến hành phân lớp
Bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp từ môhình, ta dễ dàng xác định được tính đúng đắn của mô hình Holdout là một kỹ thuật đơngiản để ước lượng tính đúng đắn này dựa trên tỷ lệ phần trăm các các mẫu trong tập dữliệu dự báo được mô hình phân lớp đúng (so với thực tế) Kết quả của bước này là môhình sẽ được sử dụng để phân lớp những dữ liệu cần thiết trong tương lai, hoặc những dữliệu mà giá trị của thuộc tính phân lớp là chưa biết nếu của mô hình phù hợp và có độchính xác cao
Trang 16Hình 2.4: Bước 2.1 của quá trình trình phân lớp: Đánh giá mô hình
Nguồn: Nguyễn Thị Tùy Linh (2005) Nghiên cứu các thuật toán phân lớp dữ liệu dựatrên cây quyết định Công nghệ thông tin, 3 – 62
+ Bước 2.2: Phân lớp dữ liệu mới
Ở bước này, dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn) Môhình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gìđược huấn luyện ở bước 1
Trang 17Hình 2.5: Bước 2.2 của quá trình trình phân lớp: Phân lớp dữ liệu mới
Nguồn: Nguyễn Thị Tùy Linh (2005) Nghiên cứu các thuật toán phân lớp dữ liệu dựa trên cây quyết định Công nghệ thông tin, 3 – 62
2.2.2 Phân loại bài toán phân lớp
Nhiệm vụ của bài toán phân lớp là phân các đối tượng dữ liệu vào n lớp cho trước: thuộc
về phân lớp nhị phân nếu n = 2 và phân lớp đa lớp nếu n > 2
Bài toán là phân lớp đơn nhãn nếu mỗi đối tượng dữ liệu chỉ thuộc vào 1 lớp duy nhất và phân lớp đa nhãn nếu thuộc về nhiều lớp khác nhau
2.2.3 Một số thuật toán phân lớp dữ liệu được sử dụng trong bài
2.2.3.1 Cây quyết định (Decision tree)
Cây quyết định được định nghĩa theo nhiều cách tùy vào từng khía cạnh:
● Trong lý thuyết quản trị, cây quyết định là một đồ thị của các quyết định cùng các kếtquả đi kèm có thể của nó và là một dạng đặc biệt của cấu trúc cây Nó được sử dụng
để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn cũng như hỗ trợ quátrình ra quyết định
● Trong lĩnh vực KPDL, đây được xem là sự kết hợp hoàn hảo của 2 khía cạnh: kỹthuật toán học và tính toán nhằm hỗ trợ cho việc mô tả, phân loại và tổng quát hóa tập
dữ liệu đầu vào Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đạidiện
Trang 18cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phân loại đó.
● Một tập dữ liệu có thế được biểu diễn bởi nhiều cây quyết định tương ứng Cuối cùng,cây nào ngắn gọn nhất sẽ được lựa chọn (theo nguyên lý Ockham’s Razor)
Hình 2.6: Minh họa thuật toán phân lớp cây quyết định (Decision tree)
Nguồn: help.sap Decision Tree Expression
2.2.3.2 Support Vector Machine (SVM)
SVM là một kỹ thuật trong KPDL để chỉ một tập hợp các thuật toán có giám sát bằngcách nhận dữ liệu vào, xem chúng như những các vector trong không gian Bằng cáchxây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữliệu, thuật toán này giúp ph ân loại chúng vào hai lớp khác nhau Theo cách nhìn trựcquan, để kết quả phân lớp có tính đúng đắn cao nhất, chúng ta cần phải xác định siêuphẳng (hyperplane) nằm ở càng xa các điểm dữ liệu của tất cả các lớp (hàm lề) càng tốt
vì nói chung lề càng lớn thì sai số tổng quát hóa của kỹ thuật phân loại càng bé
Do đó SVM là một thuật toán phân loại nhị phân Với bộ dữ liệu huấn luyện có hai thuộctính sẵn có, SVM xây dựng một mô hình để phân loại các dữ liệu dự báo vào hai thuộc
Trang 19tính Hiện nay, thuật toán này ra đời rất nhiều biến thể để phù hợp với các bài toán phân lớp khác nhau và cũng có thể được sử dụng cho hồi quy hoặc các nhiệm vụ khác.
Hình 2.7: Minh họa thuật toán phân lớp Support Vector Machine (SVM)
Nguồn: Ông Xuân Hồng (2015) Support vector machine (SVM) hỏi gì đáp nấy
2.2.3.3 Mạng Nơ ron nhân tạo (Neural Network)
Mạng Nơ ron nhân tạo (hay Neural Network) là mạng sử dụng một loạt các thuật toánphức tạp nhằm xác định, xử lý thông tin và tìm ra các mối quan hệ cơ bản tiềm ẩn trong
bộ dữ liệu Lấy cảm hứng từ mô hình hoạt động của các tế bào thần kinh và khớp thầnkinh trong não của con người, Neural Network là sự kết nối các nút đơn giản, còn đượcgọi là tế bào thần kinh Và một tập hợp các nút như vậy tạo thành một mạng lưới các nút.Nói cách khác, đây được xem là hệ thống của các tế bào thần kinh nhân tạo, có thể là hữu
cơ hoặc nhân tạo về bản chất
Thuật toán này có khả năng thích ứng được với mọi thay đổi từ dữ liệu đầu vào và đưa rađược mọi kết quả chính xác nhất mà có thể giữ nguyên những tiêu chí đầu ra
Khái niệm này xuất phát từ trí tuệ nhân tạo và được sử dụng rộng rãi từ khi có những hệthống giao dịch ngày càng phát triển
Trang 20Hình 2.8: Minh họa thuật toán phân lớp Mạng Nơ ron nhân tạo (Neural Network)
Nguồn: Innoarchitech AI, Deep Learning, and Neural Networks Explained
2.2.3.4 Hồi quy Logistic (Logistic Regression)
Hồi quy Logistic là một phương pháp thống kê để các giá trị đầu ra rời rạc được dự báothông qua một tập các giá trị đầu vào Thuật toán này sử các hàm được gọi là hàm logit,được biểu diễn dưới dạng vector, bằng cách dự đoán xác suất hoặc cơ hội xảy ra giúp suy
ra mối quan hệ giữa biến phụ thuộc và các biến độc lập
Hồi quy logistic được áp dụng từ đầu thế kỷ XX trong ngành khoa học sinh học Sau đó
mở rộng ra các ngành khoa học xã hội và được sử dụng khi biến phụ thuộc là phân loại
Có 3 dạng hồi quy Logistic:
● Hồi quy logistic nhị phân: Biến phụ thuộc chỉ có hai 2 kết quả / lớp có thể xảy ra
● Hồi quy logistic đa thức: Biến phụ thuộc chỉ có hai hoặc 3 kết quả/lớp trở lên có thể
có mà thứ tự được xếp ngẫu nhiên
● Hồi quy logistic thông thường: Biến phụ thuộc chỉ có hai hoặc nhiều hơn 3 kết quả /lớp có thể có được xếp theo đúng thứ tự
Trang 21Hình 2.9: Minh họa thuật toán phân lớp Hồi quy Logistic (Logistic Regression)
Nguồn: ANALYTICS VIDHYA Understanding Logistic Regression
2.2.4 Một số phương pháp đánh giá mô hình phân lớp
2.2.4.1 Ma trận nhầm lẫn (Confusion matrix)
Ma trận nhầm lẫn là ma trận chỉ ra trong một lớp cụ thể, dự đoán có bao nhiêu điểm dữliệu thực sự thuộc về nó và rơi vào lớp nào Phương pháp này là có kích thước k x k với k
là số lượng lớp của dữ liệu
Đây là một trong những kỹ thuật đo lường hiệu suất được sử dụng rộng rãi, đặc biệt làcho các mô hình phân loại
Trang 22Hình 2.10: Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix)
Nguồn: Sang Hà Ngọc (2021) Confusion Matrix/Ma trận nhầm lẫn/Ma trận lỗi
Giả sử lớp A là lớp tích cực và lớp B là lớp tiêu cực Các thuật ngữ chính của ma trận nhầm lẫn như sau:
Tuy nhiên, nó vẫn có thể giúp chúng ta ta đánh giá hiệu quả dự báo của mô hình trên một
bộ dữ liệu Độ chính xác càng cao thì mô hình càng chuẩn xác
2.2.4.3 Precision, Recall, F1 - score
Dựa vào hình 2.10:
● Precision (độ chính xác) cho biết tỉ lệ số điểm true positive (TP) trong số những điểmđược phân loại là positive (TP + FP)
Trang 23● Recall (độ phủ) hay độ nhạy (sensitivity) hay TPR (True Positive Rate) là tỉ lệ giữa sốđiểm true positive (TP) và những điểm thực sự là positive (TP + FN).
● F1- score là giá trị trung bình điều hòa của hai độ đo Precision và Recall
=> F1 có giá trị gần với giá trị nhỏ hơn giữa 2 giá trị Precision và Recall và F1 càng lớn nếu cả 2 giá trị Precision và Recall đều lớn cho thấy độ tin cậy của mô hình cao hơn
2.2.4.4 (Receiver Operating Characteristic) và AUC (Area Under the Curve)
ROC là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phân loại nhị phân Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau Một mô hình hiệu quả khi có ROC càng tiệm cận với điểm (0;1) hay có TPR cao và FPR thấp thì
mô hình càng phù hợp
Hình 2.11: Minh họa phương pháp ROC (Receiver Operating Characteristic)
Nguồn: ResearchGate COVID_MTNet: COVID-19 Detection with Multi-Task Deep Learning Approaches
Còn AUC là phần diện tích nằm dưới đường cong ROC và có giá trị là một số dương nhỏ hơn hoặc bằng 1 Giá trị này càng lớn thì độ chính xác của mô hình càng cao
Trang 24Hình 2.12: Minh họa phương pháp AUC (Area Under the Curve)
Nguồn: Joakim Warholm (2021) Detecting Unhealthy Comments in Norwegian usingBERT Faculty of Science and Technology Department of Physics and Technology, 3 –67
2.2.4.5 Cross Validation: K-fold và Holdout
Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo 1 tỷ lệ nhấtđịnh Ví dụ, tập huấn luyện chiếm 70% và tập thử nghiệm chiếm 30%
Phương pháp này khi sử dụng cho các tập dữ liệu lớn thường cho hiệu quả khả quan hơn.Tuy nhiên, ở các tập dữ liệu nhỏ hoặc vừa phải, kết quả của mô hình chưa có độ chínhxác cao vì mẫu dữ liệu nhỏ sẽ không mang tính đại diện cho tổng thể Đây cũng là nhượcđiểm của Hold-out Nhưng ta vẫn có thể khắc phục bằng cách điều chỉnh cách chia cũngnhư tỷ lệ chia mẫu dữ liệu sao cho mỗi lớp được phân bố đều trong cả 2 tập dữ liệu huấnluyện và đánh giá hoặc lấy mẫu ngẫu nhiên rồi thực hiện phương pháp k lần với độ chínhxác acc(M) = trung bình cộng k giá trị chính xác
Phương pháp K-fold cross validation phân chia dữ liệu thành k tập con có cùng kíchthước (gọi là các fold), trong đó sử dụng một trong các fold làm tập dữ liệu dự báo và
Trang 25phần còn lại làm tập dữ liệu huấn luyện Quá trình này lặp lại cho đến khi tất cả các foldđều đã được dùng làm tập dữ liệu đánh giá.
So với Phương pháp Hold-out, phương pháp này thường được ưa chuộng hơn do mô hình
sẽ được huấn luyện và dự báo trên nhiều phần dữ liệu khác nhau Từ đó mô hình có độtin cậy càng cao
2.3 Mô hình khai phá dữ liệu sử dụng thuật toán phân lớp Neural network
2.3.1 Đặc điểm của Neural network
Thứ nhất, Neural network hoạt động như mạng nơ ron của con người với mỗi nơ ron thầnkinh trong đó đại diện cho hàm toán học với chức năng thu thập và phân loại các thôngtin cần thiết dựa vào cấu trúc cụ thể
Thứ hai, Neural Network có chứa các nút được liên kết lại với nhau trong những lớp baohàm, trong đó mỗi nút lại là một tri giác có cấu tạo gần giống với hàm hồi quy đa tuyếntính và với những phương pháp thống kê Từ các lớp liên kết chặt chẽ với nhau bên trongmột lớp tri giác đa lớp, chúng sẽ được sắp xếp theo trật tự Lớp đầu vào sẽ thu thập cácmẫu dữ liệu đầu vào và lớp đầu ra sẽ dựa vào đó mà thu nhận các phân loại hoặc tín hiệuđầu ra
2.3.2 Kiến trúc của Neural network
Neural network là sự kết hợp hoàn hảo của những tầng perceptron hay perceptron đatầng, gồm 3 kiểu tầng:
● Tầng input layer (tầng vào): Nằm ở bên trái cùng của mạng, đại diện cho các dữ liệuđầu vào của mạng
● Tầng output layer (tầng ra): Là tầng bên phải cùng và thể hiện cho những dữ liệu đầu
ra của mạng
● Tầng hidden layer (tầng ẩn): Là tầng khá quan trọng, nằm giữa tầng vào và tầng ra cóchức năng kích hoạt thông qua các nút trung gian phân chia không gian đầu vào thànhcác vùng có ranh giới (mềm) và thể hiện cho quá trình suy luận logic của mạng
Đặc biệt, mỗi một Neural Network chỉ có duy nhất một tầng vào và 1 tầng ra nhưng cóthể có rất nhiều tầng ẩn
Trang 262.3.3 Ưu, nhược điểm của Neural network
● Ưu điểm: cho phép xây dựng một mô hình tính toán có khả năng học dữ liệu rất cao
Có thể Neural network là một hộp đen chứa nhiều đầu vào và nhiều đầu ra có khảnăng học được sự liên kết tiềm ẩn giữa 2 bộ dữ liệu: đầu vào và đầu ra dựa trên dữliệu được học
● Nhược điểm: Tuy có khả năng mô phỏng dữ liệu mẫu rất tốt, nhưng phương pháp nàyphụ thuộc phần lớn vào kinh nghiệm của người thực hiện khi chọn bộ dữ liệu huấnluyện có thông số phù hợp cho mạng huấn luyện hội tụ hay không và cũng không cócách tổng quát để đánh giá hoạt động thực sự bên trong mạng
2.3.4 Ứng dụng của Neural network
Neural network hiện nay được ứng dụng phổ biến trong nhiều lĩnh vực như:
● Tài chính, giao dịch, phân tích kinh doanh, lập kế hoạch cho doanh nghiệp và bảo trì sản phẩm
● Các hoạt động kinh doanh khác như: tìm kiếm các giải pháp nhằm nghiên cứu
Marketing, đánh giá rủi ro và phát hiện gian lận
● Sử dụng nhiều trong lĩnh vực công nghệ và các ứng dụng khác như trò chơi điện tử, nhận dạng giọng nói, lọc mạng xã hội, dịch tự động và chẩn đoán y tế
● Đặc biệt, nó còn được sử dụng cho các hoạt động truyền thống và sáng tạo, như hội họa và nghệ thuật
● Nhiều trường hợp nó còn dựa vào việc phân tích dữ liệu lịch sử để thực hiện đánh giá
và tìm kiếm những cơ hội giao dịch tốt hơn
2.4 Mô hình nghiên cứu đề xuất
2.4.1 Mô tả các biến sử dụng trong mô hình
2.4.1.1 Biến phụ thuộc
Đầu tư hiệu quả được hiểu là khi đầu tư sẽ tối đa hóa lợi nhuận với một mức rủi ro nhấtđịnh Trong bài nghiên cứu này, biến phụ thuộc được sử dụng là đánh giá 300 mã chứngkhoán (MCK) của các công ty niêm yết trên sàn chứng khoán Việt Nam có thích hợp đểđầu tư hiệu quả hay không nhằm giúp các nhà đầu tư có quyết định đúng đắn khi đầu tư
Trang 27Biến phụ thuộc của bài được thu thập dựa trên kết quả nghiên cứu bởi những tư vấn viêntrong lĩnh vực tài chính, cụ thể là chứng khoán được công bố trên trang cophieu68.vn Họtiến hành phân tích và đánh giá các chứng khoán trên sàn chứng khoán Việt Nam, dựatrên khẩu vị rủi ro của khách hàng và phụ thuộc vào các chỉ số khác nhau để đánh giánhững cổ phiếu nào sẽ phù hợp với loại đầu tư nào Từ đó, các nhà đầu tư cá nhân có thểxem đây là nguồn tham khảo đáng tin cậy và tiến hành đầu tư.
Cụ thể, các tư vấn viên xếp hạng đối với những cổ phiếu theo mức độ đầu tư hiệu quả từ
1 đến 5 sao Và khi đưa vào trong mô hình, dựa trên kinh nghiệm của bản thân cũng nhưkiến thức thu thập về tài chính trong 2 năm đại học, tôi tiến hành phân loại những cổphiếu từ 4 sao trở lên sẽ thích hợp để đầu tư hiệu quả, còn các cổ phiếu khi đầu tư manglại hiệu quả kém sẽ xếp hạng dưới 4 sao
2.4.1.2 Biến độc lập
2.4.1.2.1 Tỷ suất thu nhập trên cổ phần (EPS)
Đây là phần lợi nhuận sau thuế trên mỗi cổ phiếu thường đang được lưu hành trên thịtrường của các cổ đông được công ty phân bổ và sử dụng như một chỉ số thể hiện khảnăng sinh lời của doanh nghiệp
EPS được tính bởi công thức:
EPS = (Thu nhập ròng – Cổ tức cổ phiếu ưu đãi) / Số lượng cổ phiếu bình quân đang lưu hành.
Đây là một trong hai chỉ số nhận được sự quan tâm hàng đầu khi đánh giá tiềm năng các
cổ phiếu trên thị trường của các nhà đầu tư Thông qua đó cho phép họ dự đoán được tìnhtrạng tốt xấu trong tương lai cổ phiếu đó ra sao để đưa ra quyết định đầu tư thích hợp.Công ty nào có EPS cao hơn sẽ giữ chân được nhiều nhà đầu tư hơn bởi EPS càng caochứng tỏ lợi nhuận cổ đông được tạo ra càng lớn và ngược lại
2.4.1.2.2 Hệ số giá trên thu nhập (PE)
Hệ số giá trên thu nhập (PE) cho nhà đầu tư biết mỗi đồng thu nhập của một cổ phiếu thì
họ thật sự phải trả giá bao nhiêu Đây cũng là một trong những chỉ số tài chính quantrọng mà các nhà đầu tư dùng để phân tích tình trạng chứng khoán khi quyết định đầu tư
và được tính như sau:
Trang 28PE = Giá thị trường / EPS
Chỉ số PE thể hiện tương đối về thời gian các nhà đầu tư được hoàn vốn Dĩ nhiên khiđầu tư, ai cũng mong thu hồi vốn càng nhanh càng tốt Vì thế, nếu thời gian hoàn vốncàng thấp (tức PE thấp) thì mức độ hấp dẫn của cổ phiếu càng cao và ngược lại
2.4.1.2.3 Tỷ số lợi nhuận ròng trên tài sản (ROA)
Đây là chỉ số đo lường khả năng sinh lợi trên mỗi đồng tài sản của công ty và được tínhtheo công thức:
ROA = Lợi nhuận ròng dành cho cổ đông thường / Tổng tài sản
Theo lý thuyết, tài sản của một công ty được hình thành từ vốn vay và vốn chủ sở hữu
Cả hai nguồn vốn này được sử dụng để tài trợ cho các hoạt động của công ty
Vì vậy các nhà đầu tư sẽ càng hứng thú nếu ROA càng cao vì khi đó, hiệu quả của việcchuyển vốn đầu tư thành lợi nhuận cao chứng tỏ công ty đang kiếm được nhiều tiền hơntrên lượng đầu tư ít hơn
2.4.1.2.4 Tỷ suất thu nhập trên vốn chủ sở hữu (ROE)
Đây là tỷ số quan trọng nhất đối với các cổ đông, đo lường khả năng sinh lợi trên mỗiđồng vốn của cổ đông thường và có công thức tính như sau:
ROE = Lợi nhuận ròng dành cho cổ đông thường / Vốn cổ phần thường
Hệ số này thường được các nhà đầu tư tham khảo khi quyết định mua cổ phiếu của công
ty nào bằng cách so sánh với các cổ phiếu cùng ngành trên thị trường vì nó là thước đochính xác để đánh giá một đồng vốn bỏ ra và tích lũy tạo ra bao nhiêu đồng lời
Hệ số ROE càng cao càng hấp dẫn các nhà đầu tư vì khi đó công ty đang sử dụng đồngvốn của cổ đông rất hiệu quả, tức công ty đã cân đối một cách hài hòa giữa vốn cổ đôngvới vốn đi vay để khai thác lợi thế cạnh tranh của mình trong quá trình hoạt động
2.4.1.2.5 Beta
Hệ số beta hay beta là thước đo rủi ro hệ thống của một cổ phiếu hay toàn bộ danh mụcđầu tư, thể hiện mức độ tương quan của biến động cổ phiếu hay danh mục so với sự biếnđộng chung của thị trường Hệ số beta của thị trường mặc định bằng 1
Beta được tính bởi công thức:
Beta = Cov(Stock,Market) / Var(Market)
Trang 29Trong đó:
Cov (Stock, Market): Hiệp phương sai tỷ suất sinh lợi của cổ phiếu và tỷ suất sinh lợi của thị trường
Var (Market): phương sai tỷ suất sinh lợi thị trường
● Nếu Beta =1: biến động giá chứng khoán ngang bằng với mức biến động của thị trường
● Beta > 1: biến động giá chứng khoán cao hơn mức biến động của thị trường
● Beta < 1: biến động giá thấp hơn biến động của thị trường
Các chứng khoán có beta lớn hơn 1 sẽ hấp dẫn các nhà đầu tư hơn vì khi đó chứng khoántiềm ẩn rủi ro hơn nhưng lại có khả năng sinh lợi cao hơn (Theo nguyên tắc “High Risk,High Return”)
2.4.2 Mô hình đề xuất
Dựa trên cơ sở lý thuyết về KPDL, cụ thể là thuật toán phân lớp Neural network cùng lýthuyết về các biến được sử dụng trong mô hình, tôi tiến hành xây dựng mô hình nghiêncứu gồm các yếu tố chính sau đây:
● Biến phụ thuộc là mức độ đánh giá có nên quyết định đầu tư hiệu quả hay không đốivới 300 công ty và được gán nhãn là “nên” hay “không nên đầu tư hiệu quả”
● Biến độc lập: gồm 5 biến EPS, PE, ROA, ROE và beta Trong đó, các biến EPS,ROA, ROE, beta có quan hệ thuận chiều và biến PE có quan hệ nghịch chiều vớiquyết định đầu tư Có nghĩa là khi các chỉ số EPS, ROA, ROE, beta càng cao và biến
PE càng thấp sẽ càng thu hút các nhà đầu tư nên đầu tư hiệu quả
Trang 30CHƯƠNG 3: PHÂN TÍCH VÀ THẢO LUẬN 3.1 Tổng quan thị trường chứng khoán Việt Nam hiện nay
TTCK là nơi diễn ra các hoạt động trao đổi, mua bán và chuyển nhượng các loại chứngkhoán nhằm thay đổi chủ thể nắm giữ loại chứng khoán đó
Tại Việt Nam, TTCK chỉ mới được xác lập gần đây - vào năm 1996 trong khi thế giới đã
có sự xuất hiện của thị trường này từ những năm đầu của thế kỷ XVII Trong hơn 20 nămphát triển, thị trường tuy vẫn còn khá non trẻ nhưng đã có những bước phát triển vô cùngkhả quan, ngày càng vững chắc và hoàn thiện hơn về cơ cấu cũng như dần trở thành mộtkênh huy động vốn mạnh mẽ cho nền kinh tế nước ta
Năm 2020, một năm đầy sự biến động TTCK Việt Nam khi đối mặt với dịch bệnh trêntoàn cầu, tuy có những lúc khó khăn nhưng cuối cùng, TTCK nước ta vẫn được xếp hạng
là 1 trong 10 thị trường có khả năng hồi phục khả quan và vượt qua giai đoạn khủnghoảng nhanh chóng nhất trên thế giới Theo Tổng cục Thống kê, cũng trong năm này,TTCK đạt tổng mức huy động vốn cho nền kinh tế nước ta là 383,6 nghìn tỷ đồng, tăng20% so với cùng kỳ năm 2019; giá trị giao dịch bình quân trên thị trường cổ phiếu đạt7.056 tỷ đồng/phiên và thị trường trái phiếu đạt 10.247 tỷ đồng/phiên, lần lượt tăng51,5% và tăng 11,3% so với bình quân năm ngoái Đặc biệt, vào cuối năm này, thị trường
cổ phiếu nước ta đạt mức vốn hóa tương đương 83% GDP năm trước đã vẽ nên bức tranhphản ánh hiện thực thị trường vốn Việt Nam khi có hàng trăm nghìn tỷ đồng được huyđộng thông qua TTCK bởi các doanh nghiệp và ngân hàng nước ta
Dù trải qua bước tiến mạnh mẽ trong những năm qua, thị trường vốn nước ta vẫn khôngtránh khỏi những thách thức cần được khắc phục để tiếp tục phát triển bền vững hơn như:Quá trình từng bước phục hồi kinh tế còn tiềm ẩn nhiều rủi ro; hạn chế về quy mô cũngnhư tính ổn định của thị trường so với các nước trong khu vực và trên thế giới; số lượngcác sản phẩm còn ít và tính đa dạng còn thấp; chế tài chưa đủ sức răn đe vì thiếu minhbạch và tính chuyên nghiệp còn hạn chế; sự thiếu hụt kiến thức và nền tảng về TTCK cácnhà đầu tư non trẻ dẫn đến nguy cơ bong bóng trên thị trường;
Tuy vậy, sau tất cả, chúng ta có quyền kỳ vọng TTCK Việt Nam sẽ có sự tiến bộ nhanhchóng và mạnh mẽ hơn nữa trong những năm sắp tới, tiếp tục phát huy vai trò chủ lực