1. Trang chủ
  2. » Tất cả

NGHIÊN cứu mô HÌNH KHAI PHÁ dữ LIỆU sử DỤNG THUẬT TOÁN PHÂN lớp NEURAL NETWORK và ỨNG DỤNG TRONG VIỆC RA QUYẾT ĐỊNH đầu tư HIỆU QUẢ TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

58 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 58
Dung lượng 2,17 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU NGHIÊN CỨU MÔ HÌNH KHAI PHÁ DỮ LIỆU SỬ DỤNG THUẬT TOÁN PHÂN LỚP NEURAL N[.]

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP.HCM KHOA CÔNG NGHỆ THÔNG TIN KINH DOANH

TIỂU LUẬN CUỐI KỲ MÔN KHOA HỌC DỮ LIỆU

NGHIÊN CỨU MÔ HÌNH KHAI PHÁ DỮ LIỆU SỬ DỤNG THUẬT TOÁN PHÂN LỚP NEURAL NETWORK VÀ ỨNG DỤNG TRONG VIỆC RA QUYẾT ĐỊNH ĐẦU TƯ HIỆU QUẢ TRÊN THỊ TRƯỜNG CHỨNG KHOÁN VIỆT NAM

GIẢNG VIÊN HƯỚNG DẪN: NCS TS THÁI KIM PHỤNG

MÃ LỚP HỌC PHẦN: 21C1INF50905915 SINH VIÊN THỰC HIỆN: TRƯƠNG THÁI NGỌC

MÃ SỐ SINH VIÊN: 31191025696 – STT: 14

TP Hồ Chí Minh - Tháng 10/2021

Trang 2

MỤC LỤC

MỤC LỤC I DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ III DANH MỤC CHỮ VIẾT TẮT V

CHƯƠNG 1: GIỚI THIỆU 1

1.1 Lý do lựa chọn đề tài 1

1.2 Mục tiêu nghiên cứu 2

1.3 Đối tượng và phạm vi nghiên cứu 2

1.4 Phương pháp nghiên cứu 3

1.4.1 Phương pháp nghiên cứu lý luận 3

1.4.2 Phương pháp nghiên cứu thực tiễn 3

1.5 Cấu trúc nghiên cứu 3

CHƯƠNG 2: CƠ SỞ LÝ LUẬN 4

2.1 Khai phá dữ liệu 4

2.1.1 Quá trình phát hiện tri thức và khai phá dữ liệu 4

2.1.2 Khái niệm khai phá dữ liệu 5

2.1.3 Quá trình khai phá dữ liệu 5

2.1.4 Các kỹ thuật khai phá dữ liệu 6

2.1.4.1 Khai thác tập phổ biến và luật kết hợp 7

2.1.4.2 Phân lớp dữ liệu 7

2.1.4.3 Phân cụm dữ liệu 7

2.1.5 Các ứng dụng của khai phá dữ liệu 7

2.2 Phân lớp dữ liệu 8

2.2.1 Quá trình phân lớp dữ liệu 8

Trang 3

2.2.2 Phân loại bài toán phân lớp 11

2.2.3 Một số thuật toán phân lớp dữ liệu được sử dụng trong bài 11

2.2.3.1 Cây quyết định (Decision tree) 11

2.2.3.2 Support Vector Machine (SVM) 12

2.2.3.3 Mạng Nơ ron nhân tạo (Neural Network) 13

2.2.3.4 Hồi quy Logistic (Logistic Regression) 14

2.2.4 Một số phương pháp đánh giá mô hình phân lớp 15

2.2.4.1 Ma trận nhầm lẫn (Confusion matrix) 15

2.2.4.2 Độ chính xác (Accuracy) 16

2.2.4.3 Precision, Recall, F1 - score 16

2.2.4.4 (Receiver Operating Characteristic) và AUC (Area Under the Curve).17 2.2.4.5 Cross Validation: K-fold và Holdout 18

2.3 Mô hình khai phá dữ liệu sử dụng thuật toán phân lớp Neural network 19

2.3.1 Đặc điểm của Neural network 19

2.3.2 Kiến trúc của Neural network 19

2.3.3 Ưu, nhược điểm của Neural network 20

2.3.4 Ứng dụng của Neural network 20

2.4 Mô hình nghiên cứu đề xuất 20

2.4.1 Mô tả các biến sử dụng trong mô hình 20

2.4.1.1 Biến phụ thuộc 20

2.4.1.2 Biến độc lập 21

2.4.1.2.1 Tỷ suất thu nhập trên cổ phần (EPS) 21

2.4.1.2.2 Hệ số giá trên thu nhập (PE) 21

2.4.1.2.3 Tỷ số lợi nhuận ròng trên tài sản (ROA) 22

Trang 4

2.4.1.2.4 Tỷ suất thu nhập trên vốn chủ sở hữu (ROE) 22

2.4.1.2.5 Beta 22

2.4.2 Mô hình đề xuất 23

CHƯƠNG 3: PHÂN TÍCH VÀ THẢO LUẬN 24

3.1 Tổng quan thị trường chứng khoán Việt Nam hiện nay 24

3.2 Mô tả bộ dữ liệu huấn luyện và dự báo 25

3.3 Kết quả huấn luyện 26

3.4 Kết quả dự báo 30

CHƯƠNG 4: KẾT LUẬN 33

4.1 Kết luận 33

4.2 Hạn chế của đề tài và hướng nghiên cứu tiếp theo 34

TÀI LIỆU THAM KHẢO I PHỤ LỤC 1: BỘ DỮ LIỆU HUẤN LUYỆN (210 CÔNG TY) V PHỤ LỤC 2: BỘ DỮ LIỆU DỰ BÁO (90 CÔNG TY) X PHỤ LỤC 3: KẾT QUẢ DỰ BÁO (90 CÔNG TY) XII PHỤ LỤC 4: KẾT QUẢ DỰ BÁO DỰA VÀO CHỈ SỐ NEURAL NETWORK

(90 CÔNG TY) XV

Trang 5

DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ

Hình 2.1 Quá trình KDD 4

Hình 2.2: Quá trình khai phá dữ liệu 6

Hình 2.3: Bước 1 của quá trình trình phân lớp: Xây dựng mô hình phân lớp 9

Hình 2.4: Bước 2.1 của quá trình trình phân lớp: Đánh giá mô hình 10

Hình 2.5: Bước 2.2 của quá trình trình phân lớp: Phân lớp dữ liệu mới 11

Hình 2.6: Minh họa thuật toán phân lớp cây quyết định (Decision tree) 12

Hình 2.7: Minh họa thuật toán phân lớp Support Vector Machine (SVM) 13

Hình 2.8: Minh họa thuật toán phân lớp Mạng Nơ ron nhân tạo (Neural Network) 14

Hình 2.9: Minh họa thuật toán phân lớp Hồi quy Logistic (Logistic Regression) 15

Hình 2.10: Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix) 16

Hình 2.11: Minh họa phương pháp ROC (Receiver Operating Characteristic) 17

Hình 2.12: Minh họa phương pháp AUC (Area Under the Curve) 18

Hình 3.1: Bộ dữ liệu huấn luyện (minh họa MCK của 25 công ty đầu tiên) 25

Hình 3.2: Bộ dữ liệu dự báo (minh họa MCK của 25 công ty đầu tiên) 26

Hình 3.3: Khai báo thuộc tính cho các biến trong bộ dữ liệu huấn luyện 27

Hình 3.4: Mô tả tổng quan quá trình huấn luyện vào dự báo 28

Hình 3.5: Kết quả đánh giá mô hình bằng phương pháp K-fold 28

Hình 3.6: Đánh giá mô hình lớp thông qua Ma trận nhầm lẫn 29

Hình 3.7: Khai báo thuộc tính cho các biến trong bộ dữ liệu dự báo 30

Hình 3.8: Kết quả dự báo (minh họa MCK của 18 công ty đầu tiên) 31

Hình 3.9: Kết quả dự báo đựa vào chỉ số Neural Network (minh họa MCK của 25 công ty đầu tiên) 32

Trang 6

ROC Receive Operating Characteristic

EPS Tỷ suất thu nhập trên mỗi cổ phần

ROA Tỷ số lợi nhuận ròng trên tài sảnROE Tỷ suất thu nhập trên vốn chủ sở hữu

Trang 7

CHƯƠNG 1: GIỚI THIỆU 1.1 Lý do lựa chọn đề tài

Trong những năm gần đây, xã hội đang thay đổi và phát triển không ngừng đi cùng với

sự bùng nổ của ngành công nghệ thông tin đã khiến kho dữ liệu của các hệ thống thôngtin quản lý tăng lên một cách không kiểm soát Đặc biệt, có nghiên cứu cho rằng, luồngthông tin chuyển tải trên thế giới được ước tính tăng gấp đôi cứ khoảng 20 tháng Trướctình hình bùng nổ thông tin đang diễn ra, những người ra quyết định trong các tổ chức tàichính, thương mại, khoa học, không muốn bỏ sót bất cứ thông tin nào thu thập được

Họ muốn lưu trữ tất cả thông tin vì cho rằng trong đó ẩn chứa những giá trị tiềm ẩn cầnđược phát hiện Những lí do trên đây chính là tiền đề cho sự ra đời kỹ thuật khai phá dữliệu (KPDL) (Data Mining) khi nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân tích

dữ liệu, … đòi hỏi kỹ thuật xử lý thông minh và hiệu quả hơn ngày một tăng cao Nhờ đó,chúng ta có khả năng khai thác những tri thức hữu dụng và thật sự cần thiết từ kho dữliệu khổng lồ Việc chọn lọc đúng đắn không những giúp cải thiện kết quả đầu ra tronghiện tại mà còn hỗ trợ việc ra quyết định một cách chính xác hơn

Ngày nay, các kỹ thuật KPDL đã và đang được nghiên cứu, ứng dụng trong nhiều lĩnhvực đời sống, kinh tế xã hội ở các nước trên thế giới, nhưng còn khá mới mẻ tại ViệtNam Rất nhiều doanh nghiệp và tổ chức trên thế giới đã ứng dụng kĩ thuật này vào hoạtđộng sản xuất kinh doanh của mình và thu được những lợi ích đáng kể Tuy nhiên, nhữngnăm gần đây, nước ta cũng dần chấp nhận và đưa nó vào sử dụng Trong đó, một trongnhững lĩnh vực ứng dụng đầu tiên và khá phổ biến cho đến hôm nay chính là lĩnh vực tàichính, đặc biệt không thể không nhắc đến thị trường chứng khoán (TTCK)

Tuy chỉ mới xuất hiện từ những năm 2000, TTCK đang dần chiếm một vị thế vô cùngquan trọng ở Việt Nam, thu hút nhiều nhà đầu tư trong nước tham gia, kể cả sinh viên

Nó hấp dẫn không chỉ vì đóng vai trò hết sức quan trọng trong sự phát triển của nền kinh

tế, nhất là trong thời đại 4.0 như thời nay mà còn có ý nghĩa đối với các nhà đầu tư vì khảnăng sinh lợi của nó Nhưng để khả năng tham gia vào, họ cần phải có các kiến thức cănbản nhất định Đây cũng là hạn chế của những nhà đầu tư Việt Nam TTCK chỉ có thể tồntại và phát triển khi có sự tham gia ngày càng đông của những người có đầy đủ kiến thức

Trang 8

về nó Vì vậy, các nhà đầu tư nhận thức được rằng cần có cách tiếp cận thật nhanh đểtham gia đầu tư có hiệu quả vào đó tùy theo điều kiện, khả năng của minh, góp phần đưaTTCK Việt Nam ngày càng phát triển

Tuy mang đến nhiều lợi ích nhưng TTCK vẫn còn tiềm ẩn nhiều rủi ro Vì vậy, khi tìmhiểu công ty niêm yết nào trên sàn chứng là khoán phù hợp để đưa ra quyết định đầu tư,các nhà đầu tư không thể dựa vào cảm tính ban đầu mà cần nhận được trợ giúp từ cáccông cụ khoa học để giảm thiểu rủi ro và tránh những sai lầm đáng tiếc xảy ra Trong đó,KPDL là một công cụ phù hợp, giúp họ nâng cao kiến thức và kinh nghiệm quý báu phục

vụ cho quyết định đầu tư cũng như vận dụng những gì học được trong đó cho các quyếtđịnh tài chính quan trọng khác Để làm được điều đó, sự phát triển của các mô hình toánhọc và các giải thuật hiệu quả là chìa khóa quyết định, nên trong bài nghiên cứu này, tôichủ yếu đề cập đến kỹ thuật thường dùng trong dự báo là “Phân loại dữ liệu”(Classification), cụ thể là thuật toán Neural Network Qua đó, tôi quyết định chọn đề tài:

“Nghiên cứu mô hình khai phá dữ liệu sử dụng thuật toán phân lớp Neural Network

và ứng dụng trong việc ra quyết định đầu tư hiệu quả trên thị trường chứng khoán Việt Nam.” làm đề tài nghiên cứu

1.2 Mục tiêu nghiên cứu

Bài nghiên cứu chủ yếu tập trung vào các mục tiêu sau:

 Nghiên cứu các lý thuyết tổng quan về KPDL, cụ thể là thuật toán phân lớp dữ liệubằng Neural Network

 Xây dựng các mô hình vào dựa bộ dữ liệu huấn luyện có sẵn và lựa chọn mô hình phùhợp nhất tiến hành dự báo đối với bộ dữ liệu dự báo được chọn

 Tạo tiền đề phát triển các bài nghiên cứu sau này

1.3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu:

 Mô hình KPDL và thuật toán phân lớp dữ liệu bằng Neural Network để ứng dụngtrong việc ra quyết định đầu tư hiệu quả trên thị trường chứng khoán Việt Nam

 Các yếu tố ảnh hưởng đến quyết định đầu tư hiệu quả của các nhà đầu tư, chính là dữliệu thực về các chỉ số tài chính được lấy từ trang cophieu68.vn

Trang 9

 Phạm vi nghiên cứu: 300 công ty niêm yết trên thị trường chứng khoán Việt Nam, baogồm nhiều ngành hoặc nhóm ngành khác nhau trên các sàn: HOSE, HNX vàUPCOM

 Thời gian: giá trị của các chỉ số tài chính được thu thập thuộc năm 2020

1.4 Phương pháp nghiên cứu

1.4.1 Phương pháp nghiên cứu lý luận

Tiến hành tìm hiểu, thu thập, chắt lọc và phân tích các dữ liệu, thông tin thông qua đọcsách báo, tài liệu nhằm mục đích tìm chọn những khái niệm và quan điểm để xây dựng cơ

sở lý thuyết cho nghiên cứu, dự đoán về những thuộc tính của đối tượng nghiên cứu, xâydựng những mô hình lý thuyết ban đầu Bao gồm các phương pháp sau:

 Phương pháp phân tích – tổng hợp lý thuyết: từ nguồn tài liệu, papers có được, sau đóđọc và tổng hợp để rút ra những nội dung cần thiết cho luận điểm của bài nghiên cứu

 Phương pháp mô hình hóa: xây dựng mô hình nghiên cứu dựa trên lý thuyết và ứngdụng mô hình để dự báo nhằm kiểm định tính chính xác của mô hình

1.4.2 Phương pháp nghiên cứu thực tiễn

Từ cơ sở lý luận ấy, tiến hành vận dụng vào các phương pháp nghiên cứu thực tiễn:

 Thông qua các thuật toán trong KPDL, đồng thời, sử dụng sử dụng phần mềm Orange

- một công cụ khá trực quan để nghiên cứu về các thuật toán machine learning và thựchành KPDL phổ biến hiện nay để phân tích dữ liệu và làm rõ vấn đề nghiên cứu

 Từ đó, xây dựng các mô hình dự báo dựa vào bộ dữ liệu huấn luyện có sẵn và so sánhcác kết quả rút ra được với nhau nhằm lựa mô hình phù hợp nhất nhằm giúp các nhàđầu tư có quyết định chính xác hơn khi đầu tư hiệu quả

1.5 Cấu trúc nghiên cứu

Ngoài phần mục lục, danh mục bảng biểu và hình vẽ, danh mục chữ viết tắt, tài liệu thamkhảo và phụ lục, đề tài được kết cấu thành 4 chương như sau:

 Chương 1: Giới thiệu

 Chương 2: Cơ sở lý luận

 Chương 3: Phân tích và thảo luận

Trang 10

 Chương 4: Kết luận

CHƯƠNG 2: CƠ SỞ LÝ LUẬN 2.1 Khai phá dữ liệu

2.1.1 Quá trình phát hiện tri thức và khai phá dữ liệu

Biết chọn lọc và sử dụng thông tin hiệu quả có thể quyết định sự thành công của bạntrong phân tích dữ liệu Điều đó có nghĩa là phải tìm ra những giá trị tiềm ẩn, các yếu tốtác động và những xu hướng phát triển của các dữ liệu sẵn có ấy Quá trình đó được gọi

là quá trình phát hiện tri thức (Knowledge Discovery in Database – KDD) mà trong đóKPDL là một kỹ thuật quan trọng cho phép ta thu được các tri thức mong muốn

Hình 2.1 Quá trình KDD

Nguồn: Phantuanduy (2013) Quy trình Khai phá dữ liệu (Process of Data mining)

Quá trình phát hiện tri thức gồm 5 bước cơ bản:

 Bước 1: Chọn lọc dữ liệu (selection): Giai đoạn này cần gom các dữ liệu khai thácđược vào một cơ sở dữ liệu (CSDL) riêng Ở đây, chúng ta chỉ chọn lọc và giữ lạinhững dữ liệu nào mà giai đoạn sau yêu cầu Tuy nhiên, công việc này thường khókhăn và tốn nhiều thời gian vì dữ liệu tồn tại ở nhiều dạng khác nhau và nằm rải ráckhắp nơi

 Bước 2: Tiền xử lý dữ liệu (preprocessing): Khi tập hợp dữ liệu thường mắc phải một

số lỗi như dữ liệu thiếu logic, thiếu chặt chẽ, chưa đầy đủ, hiếm khi nào các dữ liệu

Trang 11

thu thập được đều mang tính nhất quán Do đó “tiền xử lý” là một bước quan trọngsau đó giúp hạn chế những kết quả sai lệch không mong muốn trước khi bước vào quátrình KPDL

 Bước 3: Chuyển đổi dữ liệu (transformation): Tại đây, dữ liệu sẽ được chuyển đổi vềdạng thích hợp để dễ dàng tiến hành các bước sau

 Bước 4: Khai phá dữ liệu (Data mining): Giai đoạn này sử dụng các kỹ thuật nhằmphát hiện ra các tri thức tiềm ẩn trong dữ liệu

 Bước 5: Đánh giá kết quả mẫu (interpretation evaluation): Đây cũng là bước cuốicùng trong quá trình KDD Những tiêu chuẩn đánh giá thích hợp sẽ được chọn lọc và

sử dụng sao cho các mẫu dữ liệu được trích xuất bởi các phần mềm KPDL có thể sửdụng được

Từ quá trình phát hiện tri thức, ta thấy các kỹ thuật phát hiện tri thức trải qua rất nhiềugiai đoạn và sử dụng nhiều phương pháp để cho ra kết quả cuối cùng Đây là một quátrình liên tục, đầu vào của giai đoạn sau xuất phát từ đầu ra của giai đoạn trước Trong

đó, KPDL được coi trọng hơn cả bởi việc tìm ra được những tri thức và thông tin có cấutrúc chặt chẽ tiềm ẩn trong kho dữ liệu khổng lồ

2.1.2 Khái niệm khai phá dữ liệu

Khai phá dữ liệu là một tiến trình khám phá ra các mẫu dữ liệu hay các mô hình mongmuốn dưới nhiều góc độ khác nhau nhờ sử dụng các công cụ phân tích, từ đó tìm ra đượccác thông tin và tri thức từ các CSDL cũng như các mối quan hệ giữa các đối tượng bêntrong CSDL

Nếu xét về mặt ý tưởng và mục đích ứng dụng, KPDL thật sự là một nhu cầu tất yếu đặt

ra trong thời đại 4.0, một sự đáp trả cho những tìm tòi, khám phá của thế giới về mặt kỹthuật Đây là một phát hiện vĩ đại, mang đến nhiều lợi ích trong cuộc sống, đồng thờicũng đặt ra nhiều khó khăn và thử thách đối với các nhà nghiên cứu

2.1.3 Quá trình khai phá dữ liệu

Các bước quan trọng trong quá trình KPDL bao gồm:

Trang 12

Hình 2.2: Quá trình khai phá dữ liệu

Nguồn: ThS Trần Hùng Cường, ThS Ngô Đức Vĩnh (2011) Tổng quan về phát hiện trithức và khai phá dữ liệu Khoa Công nghệ thông tin Trường Đại học Công nghiệp HàNội, 1 – 6

Quá trình KPDL bắt đầu từ việc xác định vấn đề đang gặp phải một cách chính xác, rồitìm hiểu các dữ liệu liên quan dùng để xây dựng giải pháp Sau đó, các dữ liệu cần thiếtđược thu thập cẩn thận và tiền xử lý thành dạng mà giải thuật KPDL có thể hiểu được.Tuy chỉ gồm một vài bước nhưng đây không phải là một quá trình đơn giản, khi tiến hành

có thể vướng phải một số khó khăn như: nếu mô hình cần chỉnh sửa dữ liệu thì toàn bộquá trình phải lặp đi lặp lại cho đến khi phù hợp gây mất thời gian, hay phải sao ra nhiềubản đối với các dữ liệu được chiết xuất vào các tệp,…

Thực hiện KPDL là bước tiếp theo sau khi chọn được thuật toán thích hợp để tìm ra cácmẫu có ý nghĩa được biểu diễn dưới các dạng tương ứng

Mẫu có đặc điểm là phải mới (ít nhất là đối với hệ thống đó) Độ mới thường được đánhgiá thông qua một hàm logic hoặc hàm đo độ mới và được đo tương ứng với độ thay đổitrong dữ liệu (bằng cách so sánh các giá trị tìm được với các giá trị mong muốn hoặc cácgiá trị trước đó), hoặc bằng tri thức (mối liên hệ giữa phương pháp tìm cũ và phươngpháp mới) Bên cạnh đó, sau khi xử lý các mẫu và cho ra kết quả phải được đánh giáthông qua một hàm lợi ích để đo lường khả năng sử dụng tiềm tàng

2.1.4 Các kỹ thuật khai phá dữ liệu

Có rất nhiều kỹ thuật được áp dụng trong khai phá dữ liệu, nhưng trong bài nghiên cứunày tôi chỉ đề cập đến 3 kỹ thuật chính được biết đến và sử dụng rộng rãi:

Trang 13

2.1.4.1 Khai thác tập phổ biến và luật kết hợp

Kỹ thuật này nhằm xác định mối quan hệ giữa các biến khác nhau trong CSDL và được

sử dụng để “giải nén” các mẫu tiềm ẩn trong dữ liệu Một luật kết hợp X → Y phản ánh

sự xuất hiện đồng thời của tập Y khi tập X xuất hiện

Kỹ thuật này được sử dụng rất phổ biến ở các doanh nghiệp để phân tích hành vi muasắm, dự đoán xu hướng từ giỏ hàng của khách hàng tiềm năng và dự đoán hành vi ngườitiêu dùng trong ngành bán lẻ hay trong lĩnh vực Công nghệ Thông tin, cụ thể là cácchương trình Machine Learning

2.1.4.2 Phân lớp dữ liệu

Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờmột mô hình phân lớp Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gánnhãn trước đó (thuộc về lớp nào)

Kỹ thuật này dùng để rút trích các thông tin cần thiết từ kho dữ liệu có sẵn Vì thế, đốivới kỹ thuật này, chúng ta sẽ áp dụng các thuật toán khác nhau tùy thuộc vào mục tiêu sửdụng

Đây cũng là kỹ thuật có vai trò quan trọng trong việc dự báo các quy luật, xu hướng, …bằng cách mô tả các thuộc tính liên quan để đối tượng được phân loại vào một lớp cụ thể

2.1.4.3 Phân cụm dữ liệu

Là quá trình gom cụm/nhóm các đối tượng/dữ liệu có đặc điểm tương đồng vào cáccụm/nhóm tương ứng Trong đó: đối tượng nào có những tính chất tương tự nhau sẽ đượcxếp vào cùng một cụm và ngược lại Dữ liệu sử dụng trong kỹ thuật này là dữ liệu chưađược gán nhãn và thường thấy trong thực tế

Trong kinh doanh, kỹ thuật này thường được ứng dụng để quản lý hồ sơ khách hàng hoặcchia phân khúc khách hàng trong lĩnh vực Marketing

2.1.5 Các ứng dụng của khai phá dữ liệu

Mặc dù KPDL còn mang nhiều mặt hạn chế cần được cải thiện nhưng không thể phủnhận tiềm năng hiện tại của nó Đây là kỹ thuật thu hút sự quan tâm của đa số các nhànghiên cứu bởi ứng dụng đa dạng trong nhiều lĩnh vực khác nhau như:

Trang 14

 Lĩnh vực tài chính, ngân hàng: Xây dựng mô hình dự báo rủi ro tín dụng, các khoảnvay nợ, hỗ trợ việc ra quyết định khi đầu tư chứng khoán Đây cũng chính là hướngnghiên cứu chính của bài.

 Thương mại điện tử: Phân tích thái độ mua sắm của khách hàng và dựa vào từng loạikhách hàng để có phương án tiếp thị phù hợp

 Lĩnh vực y tế: Phát hiện các mối quan hệ giữa bệnh với phương pháp chữa trị để tìm

ra các loại thuốc mới, dựa trên các yếu tố rủi ro để dự đoán loại bệnh mà bệnh nhân

có thể mắc phải

 Lĩnh vực sinh học: Hỗ trợ thu thập, lưu trữ và phân tích các dữ liệu về di truyền học,nghiên cứu các căn bệnh, các chất dinh dưỡng, thông qua trực quan hóa bằng cácbảng biểu và đồ thị

 Lĩnh vực giáo dục: Giúp phân tích dữ liệu trong môi trường giáo dục để xác định tìnhhình học tập của mỗi học sinh và dự báo kết quả học tập trong tương lai để tìm ra cácphương pháp giảng dạy phù hợp

2.2 Phân lớp dữ liệu

2.2.1 Quá trình phân lớp dữ liệu

Quá trình phân lớp dữ liệu gồm hai bước chính:

 Bước 1: Xây dựng mô hình (hay giai đoạn “học” hoặc “huấn luyện”)

Quá trình huấn luyện nhằm xây dựng một mô hình mô tả một tập dữ liệu sẵn có Đầu vàocủa quá trình này là một tập dữ liệu mẫu đã được gán nhãn và tiền xử lý, mỗi phần tử dữliệu được giả định thuộc về một lớp phân trước, lớp ở đây là giá trị của một thuộc tínhđược chọn làm thuộc tính gán nhãn hay thuộc tính phân lớp Mỗi bộ giá trị được gọichung là một phần tử dữ liệu, có thể là các mẫu, ví dụ, đối tượng, hay trường hợp Kếtquả của bước này là mô hình phân lớp đã được huấn luyện

Quá trình này được mô tả ở hình 2.3

Trang 15

Hình 2.3: Bước 1 của quá trình trình phân lớp: Xây dựng mô hình phân lớp

Nguồn: Nguyễn Thị Tùy Linh (2005) Nghiên cứu các thuật toán phân lớp dữ liệu dựatrên cây quyết định Công nghệ thông tin, 3 – 62

 Bước 2: Sử dụng mô hình, được chia thành 2 bước nhỏ:

+ Bước 2.1: Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình)

Đầu vào là một tập dữ liệu mẫu được chọn ngẫu nhiên và độc lập với các mẫu trong tập

dữ liệu huấn luyện, cũng đã được gán nhãn và tiền xử lý Tuy nhiên thuộc tính đã đượcgán nhãn này bị “lờ” khi được đưa vào mô hình tiến hành phân lớp

Bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp từ môhình, ta dễ dàng xác định được tính đúng đắn của mô hình Holdout là một kỹ thuật đơngiản để ước lượng tính đúng đắn này dựa trên tỷ lệ phần trăm các các mẫu trong tập dữliệu dự báo được mô hình phân lớp đúng (so với thực tế) Kết quả của bước này là môhình sẽ được sử dụng để phân lớp những dữ liệu cần thiết trong tương lai, hoặc những dữliệu mà giá trị của thuộc tính phân lớp là chưa biết nếu của mô hình phù hợp và có độchính xác cao

Trang 16

Hình 2.4: Bước 2.1 của quá trình trình phân lớp: Đánh giá mô hình

Nguồn: Nguyễn Thị Tùy Linh (2005) Nghiên cứu các thuật toán phân lớp dữ liệu dựatrên cây quyết định Công nghệ thông tin, 3 – 62

+ Bước 2.2: Phân lớp dữ liệu mới

Ở bước này, dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn) Môhình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gìđược huấn luyện ở bước 1

Trang 17

Hình 2.5: Bước 2.2 của quá trình trình phân lớp: Phân lớp dữ liệu mới

Nguồn: Nguyễn Thị Tùy Linh (2005) Nghiên cứu các thuật toán phân lớp dữ liệu dựatrên cây quyết định Công nghệ thông tin, 3 – 62

2.2.2 Phân loại bài toán phân lớp

Nhiệm vụ của bài toán phân lớp là phân các đối tượng dữ liệu vào n lớp cho trước: thuộc

về phân lớp nhị phân nếu n = 2 và phân lớp đa lớp nếu n > 2

Bài toán là phân lớp đơn nhãn nếu mỗi đối tượng dữ liệu chỉ thuộc vào 1 lớp duy nhất vàphân lớp đa nhãn nếu thuộc về nhiều lớp khác nhau

2.2.3 Một số thuật toán phân lớp dữ liệu được sử dụng trong bài

2.2.3.1 Cây quyết định (Decision tree)

Cây quyết định được định nghĩa theo nhiều cách tùy vào từng khía cạnh:

 Trong lý thuyết quản trị, cây quyết định là một đồ thị của các quyết định cùng các kếtquả đi kèm có thể của nó và là một dạng đặc biệt của cấu trúc cây Nó được sử dụng

để xây dựng một kế hoạch nhằm đạt được mục tiêu mong muốn cũng như hỗ trợ quátrình ra quyết định

 Trong lĩnh vực KPDL, đây được xem là sự kết hợp hoàn hảo của 2 khía cạnh: kỹ thuậttoán học và tính toán nhằm hỗ trợ cho việc mô tả, phân loại và tổng quát hóa tập dữliệu đầu vào Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện

Trang 18

cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới phânloại đó

 Một tập dữ liệu có thế được biểu diễn bởi nhiều cây quyết định tương ứng Cuối cùng,cây nào ngắn gọn nhất sẽ được lựa chọn (theo nguyên lý Ockham’s Razor)

Hình 2.6: Minh họa thuật toán phân lớp cây quyết định (Decision tree)

Nguồn: help.sap Decision Tree Expression

2.2.3.2 Support Vector Machine (SVM)

SVM là một kỹ thuật trong KPDL để chỉ một tập hợp các thuật toán có giám sát bằngcách nhận dữ liệu vào, xem chúng như những các vector trong không gian Bằng cáchxây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữliệu, thuật toán này giúp ph ân loại chúng vào hai lớp khác nhau Theo cách nhìn trựcquan, để kết quả phân lớp có tính đúng đắn cao nhất, chúng ta cần phải xác định siêuphẳng (hyperplane) nằm ở càng xa các điểm dữ liệu của tất cả các lớp (hàm lề) càng tốt vìnói chung lề càng lớn thì sai số tổng quát hóa của kỹ thuật phân loại càng bé

Do đó SVM là một thuật toán phân loại nhị phân Với bộ dữ liệu huấn luyện có hai thuộctính sẵn có, SVM xây dựng một mô hình để phân loại các dữ liệu dự báo vào hai thuộc

Trang 19

tính Hiện nay, thuật toán này ra đời rất nhiều biến thể để phù hợp với các bài toán phânlớp khác nhau và cũng có thể được sử dụng cho hồi quy hoặc các nhiệm vụ khác

Hình 2.7: Minh họa thuật toán phân lớp Support Vector Machine (SVM)

Nguồn: Ông Xuân Hồng (2015) Support vector machine (SVM) hỏi gì đáp nấy

2.2.3.3 Mạng Nơ ron nhân tạo (Neural Network)

Mạng Nơ ron nhân tạo (hay Neural Network) là mạng sử dụng một loạt các thuật toánphức tạp nhằm xác định, xử lý thông tin và tìm ra các mối quan hệ cơ bản tiềm ẩn trong

bộ dữ liệu Lấy cảm hứng từ mô hình hoạt động của các tế bào thần kinh và khớp thầnkinh trong não của con người, Neural Network là sự kết nối các nút đơn giản, còn đượcgọi là tế bào thần kinh Và một tập hợp các nút như vậy tạo thành một mạng lưới các nút.Nói cách khác, đây được xem là hệ thống của các tế bào thần kinh nhân tạo, có thể là hữu

cơ hoặc nhân tạo về bản chất

Thuật toán này có khả năng thích ứng được với mọi thay đổi từ dữ liệu đầu vào và đưa rađược mọi kết quả chính xác nhất mà có thể giữ nguyên những tiêu chí đầu ra

Khái niệm này xuất phát từ trí tuệ nhân tạo và được sử dụng rộng rãi từ khi có những hệthống giao dịch ngày càng phát triển

Trang 20

Hình 2.8: Minh họa thuật toán phân lớp Mạng Nơ ron nhân tạo (Neural Network)

Nguồn: Innoarchitech AI, Deep Learning, and Neural Networks Explained

2.2.3.4 Hồi quy Logistic (Logistic Regression)

Hồi quy Logistic là một phương pháp thống kê để các giá trị đầu ra rời rạc được dự báothông qua một tập các giá trị đầu vào Thuật toán này sử các hàm được gọi là hàm logit,được biểu diễn dưới dạng vector, bằng cách dự đoán xác suất hoặc cơ hội xảy ra giúp suy

ra mối quan hệ giữa biến phụ thuộc và các biến độc lập

Hồi quy logistic được áp dụng từ đầu thế kỷ XX trong ngành khoa học sinh học Sau đó

mở rộng ra các ngành khoa học xã hội và được sử dụng khi biến phụ thuộc là phân loại

Có 3 dạng hồi quy Logistic:

 Hồi quy logistic nhị phân: Biến phụ thuộc chỉ có hai 2 kết quả / lớp có thể xảy ra

 Hồi quy logistic đa thức: Biến phụ thuộc chỉ có hai hoặc 3 kết quả/lớp trở lên có thể

có mà thứ tự được xếp ngẫu nhiên

 Hồi quy logistic thông thường: Biến phụ thuộc chỉ có hai hoặc nhiều hơn 3 kết quả /lớp có thể có được xếp theo đúng thứ tự

Trang 21

Hình 2.9: Minh họa thuật toán phân lớp Hồi quy Logistic (Logistic Regression)

Nguồn: ANALYTICS VIDHYA Understanding Logistic Regression

2.2.4 Một số phương pháp đánh giá mô hình phân lớp

2.2.4.1 Ma trận nhầm lẫn (Confusion matrix)

Ma trận nhầm lẫn là ma trận chỉ ra trong một lớp cụ thể, dự đoán có bao nhiêu điểm dữliệu thực sự thuộc về nó và rơi vào lớp nào Phương pháp này là có kích thước k x k với k

là số lượng lớp của dữ liệu

Đây là một trong những kỹ thuật đo lường hiệu suất được sử dụng rộng rãi, đặc biệt làcho các mô hình phân loại

Trang 22

Hình 2.10: Minh họa phương pháp ma trận nhầm lẫn (Confusion matrix)

Nguồn: Sang Hà Ngọc (2021) Confusion Matrix/Ma trận nhầm lẫn/Ma trận lỗi

Giả sử lớp A là lớp tích cực và lớp B là lớp tiêu cực Các thuật ngữ chính của ma trậnnhầm lẫn như sau:

Tuy nhiên, nó vẫn có thể giúp chúng ta ta đánh giá hiệu quả dự báo của mô hình trên một

bộ dữ liệu Độ chính xác càng cao thì mô hình càng chuẩn xác

2.2.4.3 Precision, Recall, F1 - score

Dựa vào hình 2.10:

 Precision (độ chính xác) cho biết tỉ lệ số điểm true positive (TP) trong số những điểmđược phân loại là positive (TP + FP)

Trang 23

 Recall (độ phủ) hay độ nhạy (sensitivity) hay TPR (True Positive Rate) là tỉ lệ giữa sốđiểm true positive (TP) và những điểm thực sự là positive (TP + FN)

 F1- score là giá trị trung bình điều hòa của hai độ đo Precision và Recall

=> F1 có giá trị gần với giá trị nhỏ hơn giữa 2 giá trị Precision và Recall và F1 càng lớnnếu cả 2 giá trị Precision và Recall đều lớn cho thấy độ tin cậy của mô hình cao hơn

2.2.4.4 (Receiver Operating Characteristic) và AUC (Area Under the Curve)

ROC là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phân loại nhịphân Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate(TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau Một môhình hiệu quả khi có ROC càng tiệm cận với điểm (0;1) hay có TPR cao và FPR thấp thì

mô hình càng phù hợp

Hình 2.11: Minh họa phương pháp ROC (Receiver Operating Characteristic)

Nguồn: ResearchGate COVID_MTNet: COVID-19 Detection with Multi-Task DeepLearning Approaches

Còn AUC là phần diện tích nằm dưới đường cong ROC và có giá trị là một số dương nhỏhơn hoặc bằng 1 Giá trị này càng lớn thì độ chính xác của mô hình càng cao

Trang 24

Hình 2.12: Minh họa phương pháp AUC (Area Under the Curve)

Nguồn: Joakim Warholm (2021) Detecting Unhealthy Comments in Norwegian usingBERT Faculty of Science and Technology Department of Physics and Technology, 3 –67

2.2.4.5 Cross Validation: K-fold và Holdout

Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo 1 tỷ lệ nhấtđịnh Ví dụ, tập huấn luyện chiếm 70% và tập thử nghiệm chiếm 30%

Phương pháp này khi sử dụng cho các tập dữ liệu lớn thường cho hiệu quả khả quan hơn.Tuy nhiên, ở các tập dữ liệu nhỏ hoặc vừa phải, kết quả của mô hình chưa có độ chínhxác cao vì mẫu dữ liệu nhỏ sẽ không mang tính đại diện cho tổng thể Đây cũng là nhượcđiểm của Hold-out Nhưng ta vẫn có thể khắc phục bằng cách điều chỉnh cách chia cũngnhư tỷ lệ chia mẫu dữ liệu sao cho mỗi lớp được phân bố đều trong cả 2 tập dữ liệu huấnluyện và đánh giá hoặc lấy mẫu ngẫu nhiên rồi thực hiện phương pháp k lần với độ chínhxác acc(M) = trung bình cộng k giá trị chính xác

Phương pháp K-fold cross validation phân chia dữ liệu thành k tập con có cùng kíchthước (gọi là các fold), trong đó sử dụng một trong các fold làm tập dữ liệu dự báo và

Trang 25

phần còn lại làm tập dữ liệu huấn luyện Quá trình này lặp lại cho đến khi tất cả các foldđều đã được dùng làm tập dữ liệu đánh giá

So với Phương pháp Hold-out, phương pháp này thường được ưa chuộng hơn do mô hình

sẽ được huấn luyện và dự báo trên nhiều phần dữ liệu khác nhau Từ đó mô hình có độ tincậy càng cao

2.3 Mô hình khai phá dữ liệu sử dụng thuật toán phân lớp Neural network

2.3.1 Đặc điểm của Neural network

Thứ nhất, Neural network hoạt động như mạng nơ ron của con người với mỗi nơ ron thầnkinh trong đó đại diện cho hàm toán học với chức năng thu thập và phân loại các thôngtin cần thiết dựa vào cấu trúc cụ thể

Thứ hai, Neural Network có chứa các nút được liên kết lại với nhau trong những lớp baohàm, trong đó mỗi nút lại là một tri giác có cấu tạo gần giống với hàm hồi quy đa tuyếntính và với những phương pháp thống kê Từ các lớp liên kết chặt chẽ với nhau bên trongmột lớp tri giác đa lớp, chúng sẽ được sắp xếp theo trật tự Lớp đầu vào sẽ thu thập cácmẫu dữ liệu đầu vào và lớp đầu ra sẽ dựa vào đó mà thu nhận các phân loại hoặc tín hiệuđầu ra

2.3.2 Kiến trúc của Neural network

Neural network là sự kết hợp hoàn hảo của những tầng perceptron hay perceptron đatầng, gồm 3 kiểu tầng:

 Tầng input layer (tầng vào): Nằm ở bên trái cùng của mạng, đại diện cho các dữ liệuđầu vào của mạng

 Tầng output layer (tầng ra): Là tầng bên phải cùng và thể hiện cho những dữ liệu đầu

ra của mạng

 Tầng hidden layer (tầng ẩn): Là tầng khá quan trọng, nằm giữa tầng vào và tầng ra cóchức năng kích hoạt thông qua các nút trung gian phân chia không gian đầu vào thànhcác vùng có ranh giới (mềm) và thể hiện cho quá trình suy luận logic của mạng Đặc biệt, mỗi một Neural Network chỉ có duy nhất một tầng vào và 1 tầng ra nhưng cóthể có rất nhiều tầng ẩn

Trang 26

2.3.3 Ưu, nhược điểm của Neural network

 Ưu điểm: cho phép xây dựng một mô hình tính toán có khả năng học dữ liệu rất cao

Có thể Neural network là một hộp đen chứa nhiều đầu vào và nhiều đầu ra có khảnăng học được sự liên kết tiềm ẩn giữa 2 bộ dữ liệu: đầu vào và đầu ra dựa trên dữliệu được học

 Nhược điểm: Tuy có khả năng mô phỏng dữ liệu mẫu rất tốt, nhưng phương pháp nàyphụ thuộc phần lớn vào kinh nghiệm của người thực hiện khi chọn bộ dữ liệu huấnluyện có thông số phù hợp cho mạng huấn luyện hội tụ hay không và cũng không cócách tổng quát để đánh giá hoạt động thực sự bên trong mạng

2.3.4 Ứng dụng của Neural network

Neural network hiện nay được ứng dụng phổ biến trong nhiều lĩnh vực như:

 Tài chính, giao dịch, phân tích kinh doanh, lập kế hoạch cho doanh nghiệp và bảo trìsản phẩm

 Các hoạt động kinh doanh khác như: tìm kiếm các giải pháp nhằm nghiên cứuMarketing, đánh giá rủi ro và phát hiện gian lận

 Sử dụng nhiều trong lĩnh vực công nghệ và các ứng dụng khác như trò chơi điện tử,nhận dạng giọng nói, lọc mạng xã hội, dịch tự động và chẩn đoán y tế

 Đặc biệt, nó còn được sử dụng cho các hoạt động truyền thống và sáng tạo, như hộihọa và nghệ thuật

 Nhiều trường hợp nó còn dựa vào việc phân tích dữ liệu lịch sử để thực hiện đánh giá

và tìm kiếm những cơ hội giao dịch tốt hơn

2.4 Mô hình nghiên cứu đề xuất

2.4.1 Mô tả các biến sử dụng trong mô hình

2.4.1.1 Biến phụ thuộc

Đầu tư hiệu quả được hiểu là khi đầu tư sẽ tối đa hóa lợi nhuận với một mức rủi ro nhấtđịnh Trong bài nghiên cứu này, biến phụ thuộc được sử dụng là đánh giá 300 mã chứngkhoán (MCK) của các công ty niêm yết trên sàn chứng khoán Việt Nam có thích hợp đểđầu tư hiệu quả hay không nhằm giúp các nhà đầu tư có quyết định đúng đắn khi đầu tư

Trang 27

Biến phụ thuộc của bài được thu thập dựa trên kết quả nghiên cứu bởi những tư vấn viêntrong lĩnh vực tài chính, cụ thể là chứng khoán được công bố trên trang cophieu68.vn Họtiến hành phân tích và đánh giá các chứng khoán trên sàn chứng khoán Việt Nam, dựatrên khẩu vị rủi ro của khách hàng và phụ thuộc vào các chỉ số khác nhau để đánh giánhững cổ phiếu nào sẽ phù hợp với loại đầu tư nào Từ đó, các nhà đầu tư cá nhân có thểxem đây là nguồn tham khảo đáng tin cậy và tiến hành đầu tư

Cụ thể, các tư vấn viên xếp hạng đối với những cổ phiếu theo mức độ đầu tư hiệu quả từ

1 đến 5 sao Và khi đưa vào trong mô hình, dựa trên kinh nghiệm của bản thân cũng nhưkiến thức thu thập về tài chính trong 2 năm đại học, tôi tiến hành phân loại những cổphiếu từ 4 sao trở lên sẽ thích hợp để đầu tư hiệu quả, còn các cổ phiếu khi đầu tư manglại hiệu quả kém sẽ xếp hạng dưới 4 sao

2.4.1.2 Biến độc lập

2.4.1.2.1 Tỷ suất thu nhập trên cổ phần (EPS)

Đây là phần lợi nhuận sau thuế trên mỗi cổ phiếu thường đang được lưu hành trên thịtrường của các cổ đông được công ty phân bổ và sử dụng như một chỉ số thể hiện khảnăng sinh lời của doanh nghiệp

EPS được tính bởi công thức:

EPS = (Thu nhập ròng – Cổ tức cổ phiếu ưu đãi) /

Số lượng cổ phiếu bình quân đang lưu hành.

Đây là một trong hai chỉ số nhận được sự quan tâm hàng đầu khi đánh giá tiềm năng các

cổ phiếu trên thị trường của các nhà đầu tư Thông qua đó cho phép họ dự đoán được tìnhtrạng tốt xấu trong tương lai cổ phiếu đó ra sao để đưa ra quyết định đầu tư thích hợp.Công ty nào có EPS cao hơn sẽ giữ chân được nhiều nhà đầu tư hơn bởi EPS càng caochứng tỏ lợi nhuận cổ đông được tạo ra càng lớn và ngược lại

2.4.1.2.2 Hệ số giá trên thu nhập (PE)

Hệ số giá trên thu nhập (PE) cho nhà đầu tư biết mỗi đồng thu nhập của một cổ phiếu thì

họ thật sự phải trả giá bao nhiêu Đây cũng là một trong những chỉ số tài chính quantrọng mà các nhà đầu tư dùng để phân tích tình trạng chứng khoán khi quyết định đầu tư

và được tính như sau:

Trang 28

PE = Giá thị trường / EPS

Chỉ số PE thể hiện tương đối về thời gian các nhà đầu tư được hoàn vốn Dĩ nhiên khiđầu tư, ai cũng mong thu hồi vốn càng nhanh càng tốt Vì thế, nếu thời gian hoàn vốncàng thấp (tức PE thấp) thì mức độ hấp dẫn của cổ phiếu càng cao và ngược lại

2.4.1.2.3 Tỷ số lợi nhuận ròng trên tài sản (ROA)

Đây là chỉ số đo lường khả năng sinh lợi trên mỗi đồng tài sản của công ty và được tínhtheo công thức:

ROA = Lợi nhuận ròng dành cho cổ đông thường / Tổng tài sản

Theo lý thuyết, tài sản của một công ty được hình thành từ vốn vay và vốn chủ sở hữu

Cả hai nguồn vốn này được sử dụng để tài trợ cho các hoạt động của công ty

Vì vậy các nhà đầu tư sẽ càng hứng thú nếu ROA càng cao vì khi đó, hiệu quả của việcchuyển vốn đầu tư thành lợi nhuận cao chứng tỏ công ty đang kiếm được nhiều tiền hơntrên lượng đầu tư ít hơn

2.4.1.2.4 Tỷ suất thu nhập trên vốn chủ sở hữu (ROE)

Đây là tỷ số quan trọng nhất đối với các cổ đông, đo lường khả năng sinh lợi trên mỗiđồng vốn của cổ đông thường và có công thức tính như sau:

ROE = Lợi nhuận ròng dành cho cổ đông thường / Vốn cổ phần thường

Hệ số này thường được các nhà đầu tư tham khảo khi quyết định mua cổ phiếu của công

ty nào bằng cách so sánh với các cổ phiếu cùng ngành trên thị trường vì nó là thước đochính xác để đánh giá một đồng vốn bỏ ra và tích lũy tạo ra bao nhiêu đồng lời

Hệ số ROE càng cao càng hấp dẫn các nhà đầu tư vì khi đó công ty đang sử dụng đồngvốn của cổ đông rất hiệu quả, tức công ty đã cân đối một cách hài hòa giữa vốn cổ đôngvới vốn đi vay để khai thác lợi thế cạnh tranh của mình trong quá trình hoạt động

2.4.1.2.5 Beta

Hệ số beta hay beta là thước đo rủi ro hệ thống của một cổ phiếu hay toàn bộ danh mụcđầu tư, thể hiện mức độ tương quan của biến động cổ phiếu hay danh mục so với sự biếnđộng chung của thị trường Hệ số beta của thị trường mặc định bằng 1

Beta được tính bởi công thức:

Beta = Cov(Stock,Market) / Var(Market)

Trang 29

Trong đó:

Cov (Stock, Market): Hiệp phương sai tỷ suất sinh lợi của cổ phiếu và tỷ suất sinh lợi củathị trường

Var (Market): phương sai tỷ suất sinh lợi thị trường

 Nếu Beta =1: biến động giá chứng khoán ngang bằng với mức biến động của thịtrường

 Beta > 1: biến động giá chứng khoán cao hơn mức biến động của thị trường

 Beta < 1: biến động giá thấp hơn biến động của thị trường

Các chứng khoán có beta lớn hơn 1 sẽ hấp dẫn các nhà đầu tư hơn vì khi đó chứng khoántiềm ẩn rủi ro hơn nhưng lại có khả năng sinh lợi cao hơn (Theo nguyên tắc “High Risk,High Return”)

2.4.2 Mô hình đề xuất

Dựa trên cơ sở lý thuyết về KPDL, cụ thể là thuật toán phân lớp Neural network cùng lýthuyết về các biến được sử dụng trong mô hình, tôi tiến hành xây dựng mô hình nghiêncứu gồm các yếu tố chính sau đây:

 Biến phụ thuộc là mức độ đánh giá có nên quyết định đầu tư hiệu quả hay không đốivới 300 công ty và được gán nhãn là “nên” hay “không nên đầu tư hiệu quả”

 Biến độc lập: gồm 5 biến EPS, PE, ROA, ROE và beta Trong đó, các biến EPS,ROA, ROE, beta có quan hệ thuận chiều và biến PE có quan hệ nghịch chiều vớiquyết định đầu tư Có nghĩa là khi các chỉ số EPS, ROA, ROE, beta càng cao và biến

PE càng thấp sẽ càng thu hút các nhà đầu tư nên đầu tư hiệu quả

Ngày đăng: 20/11/2022, 22:48

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w