1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Đề tài DỰ BÁO SỰ TĂNG GIẢM CỦA MỘT MÃ CHỨNG KHOÁN MÔ TẢ

13 115 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 13
Dung lượng 1,37 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

- Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó thuộc về lớp nào - Quá trình gán nhãn thuộc lớp nào cho đối tượng dữ liệu chính là quá trình phân lớp dữ li

Trang 1

TRƯỜNG ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

KHOA QUẢN TRỊ

BÁO CÁO ĐỒ ÁN KHOA HỌC DỮ LIỆU

Đề tài

DỰ BÁO SỰ TĂNG GIẢM CỦA MỘT MÃ CHỨNG KHOÁN

MÔ TẢ

Thành phố Hồ Chí Minh

GVHD: Th.S Hồ Thị Thanh Tuyến

Thực hiện:

Nguyễn Thuỷ Trâm - 31181025406

Hồ Viết Đạt - 31181023465

Trang 2

MỤC LỤC

A LÝ THUYẾT 2

1 BÀI TOÁN PHÂN LỚP DỮ LIỆU 2

1.1 ĐỊNH NGHĨA [1] 2

1.2 MÔ HÌNH [1] 2

2 DỰ ĐOÁN CỔ PHIẾU TRÊN THỊ TRƯỜNG CHỨNG KHOÁN 2

2.1 PHÁT BIỂU BÀI TOÁN 2

2.2 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN CỔ PHIẾU 3

2.3 CÁC PHƯƠNG PHÁP DỰ ĐOÁN [1] 4

B THỰC NGHIỆM 6

1, DỮ LIỆU 6

1.1 TÌM HIỂU VỀ DỮ LIỆU 6

1.2 XỬ LÝ DỮ LIỆU 6

2 MÔ HÌNH - KỊCH BẢN 7

3 PHƯƠNG PHÁP 8

3.1, PHƯƠNG PHÁP THỐNG KÊ 8

3.2, PHƯƠNG PHÁP MÁY HỌC 8

4 KẾT QUẢ 10

4.1 PHƯƠNG PHÁP THỐNG KÊ 10

4.2 PHƯƠNG PHÁP MÁY HỌC 10

Biểu đồ ROC Target class: Giảm 10

Biểu đồ ROC Target class: Không đổi Biểu đồ ROC Target class: Tăng 11

5 NHẬN ĐỊNH – KINH NGHIỆM 11

5.1 KHÓ KHĂN 11

5.2 THUẬN LỢI 11

5.3 ĐÁNH GIÁ (BÀI HỌC KINH NGHIỆM) 12

C TÀI LIỆU THAM KHẢO 12

Trang 3

A LÝ THUYẾT

1 BÀI TOÁN PHÂN LỚP DỮ LIỆU

1.1 ĐỊNH NGHĨA [1]

- Là quá trình phân một đối tượng dữ liệu vào một hay nhiều lớp (loại) đã cho trước nhờ một mô hình phân lớp

- Mô hình này được xây dựng dựa trên một tập dữ liệu đã được gán nhãn trước đó (thuộc về lớp nào)

- Quá trình gán nhãn (thuộc lớp nào) cho đối tượng dữ liệu chính là quá trình phân lớp dữ liệu

1.2 MÔ HÌNH [1]

Quá trình phân lớp dữ liệu:

Bước 1: Xây dựng mô hình phân lớp

- Dữ liệu đầu vào: là dữ liệu mẫu đã được gán nhãn và tiền xử lý

- Các thuật toán phân lớp: cây quyết định, hàm số toán học, tập luật

- Kết quả của bước này là mô hình phân lớp đã được huấn luyện (trình phân lớp)

Bước 2: Sử dụng mô hình chia thành 2 bước nhỏ:

Bước 2.1: Đánh giá mô hình:

- Dữ liệu đầu vào: là một tập dữ liệu mẫu khác đã được gán nhãn và tiền xử lý Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn

- Tính đúng đắn của mô hình sẽ được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình

Bước 2.2: Phân lớp dữ liệu mới:

Dữ liệu đầu vào: là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)

Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vào những gì được huấn luyện ở bước 1

Các phương pháp đánh giá mô hình phân lớp: Là các phương pháp nhằm kiểm tra tính hiệu quả

của mô hình phân lớp trên dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình đó hay không Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp và không quá nhạy cảm với nhiễu (tránh underfitting và overfitting)

- Underfitting (chưa khớp)

- Overfitting (quá khớp)

- Good fitting

2 DỰ ĐOÁN CỔ PHIẾU TRÊN THỊ TRƯỜNG CHỨNG KHOÁN

2.1 PHÁT BIỂU BÀI TOÁN

Chứng khoán luôn là một đề tài sôi nổi hằng ngày của thế giới, Thị trường chứng khoán có

sự hấp dẫn vốn có của nó Nó không chỉ quan trọng đối với nền kinh tế của một nước mà nó còn

tăng giảm của một mã chứng khoán thu hút rất nhiều sự quan tâm, đặc biệt là những ai có tham gia

Trang 4

thị trường chứng khoán, quan tâm đến lợi nhuận kiếm được từ lĩnh vực này Nếu dự đoán đúng, chúng ta có thể điều chỉnh việc mua bán cho phù hợp để mang lại lợi nhuận cao

Trong giới hạn của đồ án này, ta sẽ dựa trên các thông tin về giá cả, lượng cổ phiếu mua vào và bán ra của các ngày trước đó để dự đoán việc nên mua/bán cho các thời điểm sắp tới để nâng cao hiệu quả đầu tư trong thị trường chứng khoán

2.2 CÁC KHÁI NIỆM LIÊN QUAN ĐẾN CỔ PHIẾU

- CurClosePrice [1]:Giá đóng cửa hiện tại (Là giá mở cửa tiếp theo hoặc hoàn toàn phụ thuộc

vào thời điểm xem giá cổ phiếu Sau khi đóng cửa thị trường thì giá đóng cửa và giá đóng cửa hiện tại có thể được coi là như nhau)

- ActualClosePrice [2]: Giá đóng cửa thực tế (ta sử dụng như là dữ liệu giá mở cửa)

- CurEMA [3]: Đường EMA hiện tại (hay Exponential Moving Average) là đường trung bình

lũy thừa được tính bằng công thức hàm mũ, trong đó đặt nặng các biến động giá gần nhất Do

đó, EMA khá nhạy cảm với các biến động ngắn hạn, nhận biết các tín hiệu bất thường nhanh hơn đường SMA giúp nhà đầu tư

- ClosePrice [4]: giá đóng cửa (giá cổ phiếu của một công ty vào cuối một ngày giao dịch trên

thị trường chứng khoán)

- BB[5]: Bollinger bands hay dải bollinger là một chỉ báo kỹ thuật được hình thành từ việc kết hợp đường MA (moving average) và độ lệch chuẩn

- BB-Mid [5]: Dải giữa (Middle Band) là một đường MA (Moving Average) MA là đường

trung bình động được tính bằng giá trị trung bình của giá đóng cửa trong khoảng thời gian qui định

- BB-Upper [5]: Dải trên “(Upper band) = Middle Band + Độ lệch” hay “Upper band = middle

band + 2 x độ lệch chuẩn (standard deviation)”

- BB-Lower [5]: Dải dưới (Lower band) = Middle Band – Độ lệch giá

- EMA5 [6]: là đường trung bình lũy thừa được tính bằng công thức hàm mũ, trong đó đặt nặng

các biến động giá 5 ngày gần nhất

- MACD [7]: Moving Average Convergence Divergence là tên đầy đủ của đường MACD, tức là

Phân kỳ hội tụ đường trung bình Đường MACD thể hiện: Tín hiệu mua bán cổ phiếu; Xác định độ mạnh của xu hướng Nhiều nhà đầu tư còn xem đường MACD đánh giá tài sản (cổ phiếu, coin, forex ) có mua quá nhiều hay bán quá nhiều không Khi chỉ báo MACD nằm dưới SignalLine, nó cho biết tín hiệu bán Khi nó vượt lên trên SignalLine, nó báo hiệu tín hiệu mua

- SignalLine [8]: là đường EMA9

- RSI [9]: RSI (Relative Strength Index – Chỉ số sức mạnh tương đối) là một chỉ báo động

lượng đo lường mức độ thay đổi giá để đánh giá các điều kiện quá mua hoặc quá bán của thị trường Chỉ báo RSI được hiển thị dưới dạng bộ dao động (Oscillator) – là biểu đồ đường di chuyển giữa hai mức giới hạn được đo theo thang điểm từ 0 đến 100

- ROC [10]: Tỷ lệ thay đổi: Rate of Change Chỉ số Tỷ lệ Thay đổi ROC là chỉ số biến động giá,

nó dịch chuyển qua lại đường trung tâm zero line (Mốc số Chỉ số này được tính toán để cho

Trang 5

quý vị biết giá chứng khoán đã dịch chuyển bao xa so với mức giá cũ Có thể xác định khoảng cách tích toán khi lựa chọn các thông số khi vẽ chỉ số này trên biểu đồ

- ROCx [10]: x là khoảng thời gian được sử dụng để tính toán ROC (thời kỳ)

- ROC1 [10]:Tỷ lệ thay đổi thời kỳ 1

- ROC2 [ [10]: Tỷ lệ thay đổi thời kỳ 2

- ROC3[10]: Tỷ lệ thay đổi thời kỳ 3

- ROC4 [10]: Tỷ lệ thay đổi thời kỳ 4

- ROC5 [10]: Tỷ lệ thay đổi thời kỳ 5

- ROC+1 [10]: Tỷ lệ thay đổi thời kỳ +1 Như một tham số đo lường, chúng ta có thể sử dụng

+1 để chỉ ra sự gia tăng của định giá cổ phiếu trong tương lai

2.3 CÁC PHƯƠNG PHÁP DỰ ĐOÁN [1]

2.3.1 PHƯƠNG PHÁP THỐNG KÊ

a, Phương pháp: trung bình trượt (Moving Average):

Công thức tính: 𝐹𝑡 = 1

𝑤∑ 𝐷𝑡−𝑤 =𝐷𝑡−1+𝐷𝑡−2+⋯+𝐷𝑡−𝑤

w

𝑤≤𝑁

𝑛=1

Trong đó:

Ft: là giá trị dự báo kỳ t

Dt: là giá trị thực tế của kỳ t

N: tổng số kỳ thực tế

W: được gọi là cửa sổ trượt (w ≤ N)

b, Phương pháp: San bằng mũ (Exponential Smoothing)

Công thức tính: 𝐹𝑡 = 𝑎 𝐷𝑡−1+ (1 − 𝑎) 𝐹𝑡−1

Trong đó:

- Ft: là giá trị dự báo kỳ t

- Ft-1: là giá trị dự báo kỳ t-1

- Dt-1: là giá trị thực tế của kỳ t-1

- a: là hệ số điều chỉnh (hệ số này tùy chọn sao cho 0 ≤ a ≤ 1)

c, Phương pháp Hồi quy (Regression)

Phân tích hồi quy là nghiên cứu sự phụ thuộc của một biến (biến phụ thuộc hay còn gọi là biến được giải thích) vào một hay nhiều biến khác (biến độc lập hay còn gọi là biến giải thích) Phương trình hồi quy có dạng tổng quát: 𝒀 = 𝒇(𝑿𝟏, 𝑿𝟐, … , 𝑿𝒏)

Trong đó:

- Y: là biến phụ thuộc (dependent variable)

- 𝑋𝑖: là các biến độc lập (independent variable)

Cách thực hiện bằng hàm:

Hàm TREND (Trả về giá trị dọc theo đường hồi quy, theo phương pháp bình phương bé nhất)

Cú pháp: TREND(known_y’s, known_x’s, new_x’s, const)

Trong đó:

 known_y’s, known_x’s, new_x’s, const là các giá trị hoặc vùng địa chỉ chứa giá trị đã biết của x, y tương ứng với giá trị mới của x

 Const là hằng số Ngầm định nếu const = 1 (True) thì hồi quy theo hàm y = a + bx, nếu const = 0 (False) thì hồi quy theo hàm y = bx

Trang 6

Hàm FORECAST (Dự báo giá trị tương lai căn cứ vào các giá trị hiện tại)

Cú pháp: FORECAST(x, known_y’s, known_x’s)

Trong đó:

 X là giá trị dùng để dự báo

 known_y’s là các giá trị hoặc vùng địa chỉ tập số liệu phụ thuộc quan sát được

 known_x’s là các giá trị hoặc vùng địa chỉ tập số liệu độc lập quan sát được

Hàm INTERCEPT (Dùng để tính hệ số a của phương trình hồi quy đơn tuyến tính)

Cú pháp: INTERCEPT (known_y’s, known_x’s)

Hàm SLOPE (Dùng để tính hệ số b của phương trình hồi quy đơn tuyến tính)

Cú pháp: SLOPE (known_y’s, known_x’s)

Hàm CORREL (Dùng để tính hệ số tương quan giữa x và y)

Cú pháp: CORREL(array1, array2)

Trong đó: array1, array2 tương ứng là tập số liệu phụ thuộc và tập số liệu độc lập qiam sát được

2.3.2 PHƯƠNG PHÁP KHAI THÁC DỮ LIỆU - MÁY HỌC

a SVM

Giới thiệu:

- SVM là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như những các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu

- Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách

đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể

- SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau

Một số khái niệm:

- Margin: là khoảng cách giữa siêu phẳng (trong trường hợp không gian 2 chiều là đường

thẳng) đến 2 điểm dữ liệu gần nhất tương ứng với 2 phân lớp

SVM cố gắng tối ưu bằng cách tối đa hóa giá trị margin này, từ đó tìm ra siêu phẳng đẹp nhất để phân 2 lớp dữ liệu Nhờ vậy, SVM có thể giảm thiểu việc phân lớp sai

(misclassification) đối với điểm dữ liệu mới đưa vào

- Support Vectors: Bài toán của chúng ta trở thành tìm ra 2 đường biên của 2 lớp dữ liệu sao

cho khoảng cách giữa 2 đường này là lớn nhất Siêu phẳng cách đều 2 biên đó chính là siêu phẳng cần tìm Các điểm xanh, đỏ nằm trên 2 đường biên được gọi là các support vector,

vì chúng có nhiệm vụ hỗ trợ để tìm ra siêu phẳng

- Tổng quát hóa trong không gian nhiều chiều: Số chiều của không gian bài toán (còn gọi là

không gian đặc trưng) tương ứng với số lương thuộc tính (đặc trưng) của một đối tượng dữ

liệu

Phương trình biểu diễn siêu phẳng cần tìm (hyperlane) trong không gian đa chiều là: 𝑤𝑇𝑥 +

𝑏 = 0 và giá trị margin = 2 |𝑤𝑇𝑥+ 𝑏|

||𝑤|| = 2

||𝑤||

- Mục tiêu của SVM là cần tìm giá trị margin cực đại đồng nghĩa với việc ||w|| đạt

cực tiểu với điều kiện:

𝑦𝑛(𝑤𝑇𝑥𝑛+ 𝑏) ≥ 1, ∀𝑛 = 1,2, … , 𝑁

Trang 7

- Hàm mục tiêu cần tối ưu là một norm nên là một hàm lồi=> bài toán quy hoạch toàn

phương (Quadratic Programing)

b, LOGISTIC REGRESSION

Định nghĩa: Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập các giá trị đầu

vào (biểu diễn dưới dạng vector)

Mô tả: Đối với bài toán phân lớp:

Tập nhãn y = { 𝑦1, 𝑦2,…, 𝑦𝑛} với n là số lớp

Một đối tượng dữ liệu x = {𝑥1, 𝑥2,…, 𝑥𝑑} với d là số thuộc tính của dòng dữ liệu và được

biểu diễn dưới dạng vector

Hàm logistic 𝑃(𝑦 = 1) = 1𝑦𝑛

1+𝑒 −(𝑤0+𝑤1𝑥1+𝑤2𝑥2+⋯+𝑤𝑑𝑤𝑑) dự đoán đối tượng xem đối tượng sở

hữu x sở hữu thuộc tính cụ thể vào lớp y nào

Trong đó:

- d là số lượng đặc trưng (thuộc tính) của dữ liệu,

- w là trọng số, ban đầu sẽ được khởi tạo ngẫu nhiên, sau đó sẽ được điều chỉnh lại cho phù

hợp)

c CÂY QUYẾT ĐỊNH:

Khái niệm: Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả

khả dĩ đi kèm nhằm hỗ trợ quá trình ra quyết định Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước

B THỰC NGHIỆM

1, DỮ LIỆU

1.1 TÌM HIỂU VỀ DỮ LIỆU

Dữ liệu sử dụng là thông tin mua/ bán của một mã chứng khoán theo ngày từ năm 2000 đến 2011 File dữ liệu: VNINDEX_2007-2010_1.csv

File dữ liệu gồm có 19 cột và 2560 dòng dữ liệu với các thông tin về số liệu các mã chứng khoán theo ngày từ năm 2000-2011, trong đó có 2 cột dữ liệu trùng nhau là CurClosePrice và ClosePrice

1.2 XỬ LÝ DỮ LIỆU

a, Thêm nhãn (cột Trend)

 Thêm một cột với nhãn là Trend với mục đích là thể hiện xu huớng tăng giảm của mã chứng khoán trong ngày từ 2000-2011 (tăng/giảm/không đổi)

Vì khi các nhà đầu tư muốn đầu tư vào một mã chứng khoán nào đó người ta sẽ xem xét chủ yếu về biến động động giá của mã chứng khoán đó cụ thể là Giá đóng cửa thực tế

(ActualClosePrice) và giá đóng cửa vào cuối ngày của phiên giao dịch (Closeprice) Hai giá trị này thông thường sẽ có dự chêch lệch nhiều hoặc ít trong một khoảng thời gian biến động nên ta có thể dựa vào đó để dự báo xu hướng của mã chứng khoán

Thêm bằng hàm như sau: =ActualClosePrice>0, "tăng",

IF(ClosePrice-ActualClosePrice <0, "giảm", "không đổi"))

 Tiếp theo copy cột Trend vừa tạo và paste lại với giá trị value, tránh để định dạng “hàm” để

khi vào xử lý dữ liệu không bị lỗi

b, Rút gọn

Trang 8

 Nhận thấy file dữ liệu có 2 cột trùng nhau là CurClosePrice và ClosePrice nên sẽ xoá bớt cột CurClosePrice, để tránh việc trùng lặp dữ liệu, khi xử lý kết quả có độ chính xác không cao

c, Tiền xử lý

Không tiền xử lý vì :

 Dữ liệu đã cho không có dữ liệu thiếu nên không cần impute missing data

 Tập dữ liệu đã cho chỉ có 1 kiểu dữ liệu là giá theo ngày của các mã chứng khoán, không có các đặc trưng không tốt như các dữ liệu vô nghĩa (stop word), các ký tự đặc biệt (? ! / @, )

và dữ liệu biến đổi không quá thấp hay quá cao nên không cần tiền xử lý thêm

2 MÔ HÌNH - KỊCH BẢN

Bước 1 Chuẩn bị dữ liệu

Thêm cột với nhãn “Trend” ở dữ liệu gốc của giảng viên cung cấp (file

VNINDEX_2007-2010_1.csv)

Phương pháp thống kê: Chuyển file từ định dạng csv sang xlsx

Phương pháp máy học:

Tách dữ liệu gốc thành 2 file dữ liệu:

 File dùng để học dữ liệu (huấn luyện và kiểm tra) từ năm 2000 đến năm 2010

(2000-2010.csv)

 File dùng để dự báo là năm 2011: (2011.csv)

Bước 2 Huấn luyện - Đánh giá

Phương pháp thống kê:

 Sử dụng dữ liệu của ActualClosePrice để dự báo xu hướng thay đổi giá thực tế bằng các phương pháp trung bình trượt, san bằng mũ, hồi quy

Phương pháp máy học:

Xác định một số thuộc tính để tiến hành đặt Target/Skip để loại bỏ nhiễu cho bài toán

Đối với file huấn luyện (2000-2010.csv)

+ Do thuộc tính phân lớp ở bài toán này là phân lớp Trend (xu hướng thay đổi của mã

chứng khoán) nên đặt Trend là “target”

+ Vì ta đã dự báo Trend ở file dữ liệu bằng ActualClosePrice và ClosePrice nên để tránh Overfitting xảy ra ta Skip ActualClosePrice, ClosePrice

+ Skip Date vì thuộc tính này không có tác dụng đến bài toán phân lớp

Đối với file dự báo (2011.csv)

+ Skip các thuộc tính tương tự với file huấn luyện, riêng đối với thuộc tính phân lớp Trend thì ta chọn “skip” vì ta phải giả định rằng thuộc tính này không có và cần phải dự đoán

 Tiến hành phân lớp dữ liệu bằng Logistic Regression, SVM kết hợp với Test & Score

 Từ Test & Score lập bảng khảo sát các tham số để chọn ra bộ tham số mang lại độ chính xác (precision) tốt nhất

 Tiến hành dự báo bằng Predictions

Bước 3 Dự đoán

Phương pháp thống kê:

Trang 9

 Dự đoán dựa trên số liệu 2011 thu thập được và một số số liệu của năm 2010, thực hiện dự báo bằng các phương pháp Trung bình trượt, san bằng mũ, hồi quy

Phương pháp máy học:

 Dự đoán bằng Predictions để so sánh và nhận xét

Bước 4 Đánh giá kết quả

 Đánh giá, so sánh và nhận xét kết quả thu được

 So sánh hiệu quả của 2 phương pháp

 Đối với phương pháp thống kê: Từ kết quả thu được, tiến hành tính số chênh lệch của kết quả dự báo với số liệu thực tế, sau đó tính độ chênh lệch (theo tỷ lệ %), cuối cùng là so sánh hiệu quả của cả 3 phương pháp thống kê trên Và vẽ biểu đồ so sánh hiệu quả của các

phương pháp

 Đối với phương pháp máy học : So sánh hiệu quả của SVM và Logistic Regression bằng bảng khảo sát tham số ở trên kết hợp với biểu đồ ROC Analysis và Confusion Matrix

3 PHƯƠNG PHÁP

3.1, PHƯƠNG PHÁP THỐNG KÊ

Sử dụng cả 3 phương pháp dự báo thống kê : Trung bình trượt, san bằng mũ, hồi quy (dùng hàm trend)

Cách thực hiện :

Bước 1 : Sử dụng file dữ liệu “PHƯƠNG-PHÁP-THỐNG-KÊ_TRÂM_ĐẠT.xlsx”

Bước 2 :

- Đối với phương pháp hồi quy: Cú pháp =TREND(known_y’s, known_x’s, new_x’s, const)

- Đối với phương pháp trung bình trượt và san bằng mũ: Dùng công cụ Data Analysis

Bước 3 : Tính toán giá trị chênh lệch và tỷ lệ chênh lệch

Bước 4 : So sánh hiệu năng của 3 phương pháp và vẽ biểu đồ

3.2, PHƯƠNG PHÁP MÁY HỌC

BẢNG KHẢO SÁT THAM SỐ (đơn vị: %)

TEST & SCORE

PHƯƠNG PHÁP

Cross

Leave one out

Test

on trai

n data

Test

on test data

folds

Repeat Train&Test

5

Repeat Train&Test

10

SVM

Cost = 1

𝜺 = 𝟎, 𝟏

Bỏ qua (Do thời gian chạy rất lâu, tầm vài tiếng)

86

Bỏ qua

Cost = 3

𝜺 = 𝟎, 𝟏

Trang 10

𝜺 = 𝟎, 𝟏 Poly 73,1 73,8 73,2 71,9 72,5 73,4 72,4 73,1 73,7

Kết luận: Từ bảng khảo sát tham số như trên ta nhận thấy:

 Với phương pháp Logictis Regression sử dụng bộ tham số L1, C=1000 hoặc 500

 Với phương pháp SVM sử dụng SVM type là SVM với Cost = 3, 𝜀 = 0,1, Kermel là Liner

 Test&Score sử dụng Cross validation là 5 (folds)

=> Sẽ đạt được độ chính xác (Precision) cao nhất với LR = 96,1% và SVM = 91,1%

3.2.1 SVM

Lý do chọn:

- Phương pháp SVM đã cho thấy độ chính xác cao nhất đối với phương pháp dự báo này là 90,4%

- SVM có thể tạo ra một phân loại nhị phân (ví dụ: có khả năng đầu tư so với khó có khả năng đầu) bằng cách sử dụng nhiều biến số cơ bản và kĩ thuật (thuộc tính hình học)

- SVM đưa ra những lợi thế mang yếu tố thú vị hơn, tránh cực tiểu địa phương ở quá trình tối ưu hóa, cũng như cung cấp khả năng mở rộng và khả năng khái quát hóa

- SVM có thể nhanh chóng nắm bắt các đặc điểm của dữ liệu đó với nhiều tính năng trong khi vẫn linh hoạt với các điểm dữ liệu bất thường và các đặc tính tương quan [11]

- SVM có nhiều ứng dụng trong quản lí đầu tư cũng như dự báo xu hướng tăng giảm của một mã

TEST & SCORE

PHƯƠNG PHÁP

Cross

Leave one out

Test

on train data

Test

on test data

5 folds

10 folds

Repeat Train&Test 5

Repeat Train&Test 10 Training set size Training set size 50% 70% 90% 50% 70% 90%

LOGISTIC

REGRESSION

C=1000

Lasso

Bỏ qua (Do thời gian chạy rất lâu, tầm vài tiếng)

96,1

Bỏ qua

Ridge

C=500

Lasso

Ridge

C=1

Lasso

Ridge

C=0.002

Lasso

Ridge

C=0.001

Lasso

Ridge

Ngày đăng: 30/09/2021, 12:22

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2] Stockboard, http://stockboard.sbsc.com.vn/apps/StockBoard/SBSC/help.htm Link
[3] Admiralmarkets, https://admiralmarkets.com/vn/education/articles/forex-indicators/most-important-forex-indicator Link
[4] Saga, https://www.saga.vn/thuat-ngu/closing-price-gia-dong-cua~2035 Link
[5] Cophieux, https://cophieux.com/bollinger-bands-la-gi-phuong-phap-va-kinh-nghiem-voi-bollinger-bands/ Link
[6] Online.hsc, https://online.hsc.com.vn/tin-tuc/de-dau-tu-chung-khoan-hieu-qua/phuong-phap-giao-dich-voi-he-thong-duong-ema.html Link
[7] Sinvest, https://sinvest.vn/macd-la-gi/ Link
[8] Investing, https://investing.vn/huong-dan-cach-doc-duong-macd-chi-tiet-nhat.html Link
[9] Sinvest, https://sinvest.vn/rsi-la-gi/ Link
[10] Entrade, https://blog.entrade.com.vn/ty-le-gia-cua-chi-so-thay-doi Link
[11] Vietnambiz, https://vietnambiz.vn/may-vector-ho-tro-support-vector-machine-svm-la-gi-20200226223210903.htm Link
[1] T. H. T. T. Tuyến, Phân lớp dữ liệu. Slides Bài giảng Data Science, (2020) Khác

HÌNH ẢNH LIÊN QUAN

BẢNG KHẢO SÁT THAM SỐ (đơn vị: %) - Đề tài DỰ BÁO SỰ TĂNG GIẢM CỦA MỘT MÃ CHỨNG KHOÁN MÔ TẢ
n vị: %) (Trang 9)
- Với những biến độc lập đã được xác định dựa trên một mô hình thống kê ở dạng cơ bản của nó sử dụng một hàm logistic để mô hình hóa một biến phụ thuộc nhị phân  - Đề tài DỰ BÁO SỰ TĂNG GIẢM CỦA MỘT MÃ CHỨNG KHOÁN MÔ TẢ
i những biến độc lập đã được xác định dựa trên một mô hình thống kê ở dạng cơ bản của nó sử dụng một hàm logistic để mô hình hóa một biến phụ thuộc nhị phân (Trang 11)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w