1. Trang chủ
  2. » Giáo Dục - Đào Tạo

BÁO CÁO BÀI TẬP LỚN MÔN: CÁC KỸ THUẬT GIẤU TIN Chủ đề: Dự đoán sự thay đổi giá bitcoin sử dụng Machine Learning

25 19 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 733,83 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nhóm 5 BTL docx HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHỆ THÔNG TIN I BÁO CÁO BÀI TẬP LỚN MÔN CÁC KỸ THUẬT GIẤU TIN Chủ đề Dự đoán sự thay đổi giá bitcoin sử dụng Machine Learning Giảng viên hướng dẫn TS Đỗ Xuân Chợ Nhóm thực hiện Nhóm 5 Sinh viên thực hiện Đỗ Văn Hà B18DCAT065 Dương Đình Dũng B18DCAT033 Nguyễn Tuấn Đạt B18DCAT050 Nguyễn Mạnh Hiếu B18DCAT087 Nguyễn Thanh Hưng B18DCAT117 Lê Nguyên Đức B18DCAT058 Phạm Gia Khiêm B18DCAT129 Hà Nội, 52022 MỤC LỤC 4 PHÂN CÔNG CÔNG VIỆC 1.

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

KHOA CÔNG NGHỆ THÔNG TIN I

-BÁO CÁO BÀI TẬP LỚN

MÔN: CÁC KỸ THUẬT GIẤU TIN Chủ đề: Dự đoán sự thay đổi giá bitcoin sử dụng

Lê Nguyên Đức B18DCAT058Phạm Gia Khiêm B18DCAT129

Hà Nội, 5/2022

Trang 2

1.3 Thực trạng sử dụng học máy vào tiền điện tử 5

2 Thị trường tài chính và dự đoán thị trường tài chính 5

2.1 Lý thuyết về hiệu quả thị trường 5

Trang 3

5 PHÂN CÔNG CÔNG VIỆC

1 Đỗ Văn Hà B18DCAT065 Trưởng nhóm:●

2 Dương Đình Dũng B18DCAT033

3 Nguyễn Tuấn Đạt B18DCAT050

4 Nguyễn Mạnh Hiếu B18DCAT087

5 Nguyễn Thanh Hưng B18DCAT117

6 Lê Nguyên Đức B18DCAT058 ●

7 Phạm Gia Khiêm B18DCAT129 ●

6

Trang 4

7 DANH MỤC HÌNH ẢNH

Hình 3.4: Độ chính xác của các mô hình học máy. 17

Hình 3.6: Kết quả của các chiến lược giao dịch. 20

Trang 5

GIỚI THIỆU

Thị trường tiền ảo đang sôi động hơn bao giờ hết Các đồng tiền ảo ngày càngđược nhiều người quan tâm, đặc biệt trong số đó là bitcoin Ở bài báo cáo này, nhómchúng em xin phép được trình bày một số vấn đề liên quan về thị trường tiền ảo,bitcoin và sử dụng học máy vào việc dự đoán giá của nó để có thể cung cấp cho ngườiđọc những kiến thức toàn diện, bổ ích trong việc nghiên cứu thị trường tiền ảo hoặcđầu tư

Trang 6

và được xác minh bởi người giao dịch bằng cách sử dụng bằng chứng mật mã, việcxác minh này diễn ra trong một hệ thống không tin cậy và không yêu cầu trung gian đểchuyển tiền từ người gửi sang người nhận Bitcoin được giao dịch trên 40 sàn giaodịch trên toàn thế giới chấp nhận hơn 30 loại tiền tệ khác nhau và có giá trị vốn hóa thịtrường hiện tại là 9 tỷ đô la Mối quan tâm đến Bitcoin đã tăng lên đáng kể với hơn250.000 giao dịch hiện diễn ra mỗi ngày.

Ngoài việc các cá nhân sử dụng Bitcoin thường xuyên, sự thiếu tương quan của

nó với các tài sản khác đã khiến nó trở thành một lựa chọn bảo hiểm rủi ro đối với cácnhà đầu tư Một số nghiên cứu đã phát hiện ra rằng sự biến động giá của Bitcoin lớnhơn nhiều so với các loại tiền tệ fiat (trái phiếu do chính phủ phát hành) Điều nàymang lại tiềm năng đáng kể so với các thị trường tài chính trưởng thành

17.2 Định nghĩa Machine Learning:

Khai thác dữ liệu có thể được định nghĩa là việc trích xuất thông tin hữu íchtiềm ẩn, chưa biết trước từ dữ liệu ML cung cấp cơ sở kỹ thuật cho việc khai thác dữliệu Tập dữ liệu là các biến quan sát được, các biến này có thể chứa một hoặc nhiềuthuộc tính Nói một cách tổng thể, ML có thể được chia thành hai loại:

● Học có giám sát (Supervised Learning): liên quan đến việc mô hình hóa tập dữliệu dựa trên các cặp (input, outcome) đã biết từ trước Mỗi trường hợp có thể đượcbiểu diễn dưới dạng x và y, với x là tập hợp các thuộc tính dự báo độc lập và y là thuộctính mục tiêu phụ thuộc Thuộc tính y có thể liên tục hoặc rời rạc, tuy nhiên điều này

có ảnh hưởng đến mô hình Nếu biến mục tiêu là liên tục thì sử dụng mô hình hồi quy

và nếu biến mục tiêu là rời rạc thì sử dụng mô hình phân loại

Trang 7

● Học không giám sát (Unsupervised Learning): liên quan đến việc mô hình hóacác tập dữ liệu mà không có kết quả hoặc thuộc tính nào được biết trước Mục đích củacác kỹ thuật này là nhóm dữ liệu tương tự thành các cụm hoặc nhóm.

17.3 Thực trạng sử dụng học máy vào tiền điện tử

Định giá tài sản theo kinh nghiệm là một nhánh chính của nghiên cứu tài chính.Các phương pháp học máy đã được áp dụng ngày càng nhiều trong lĩnh vực này, dokhả năng lựa chọn linh hoạt giữa một số lượng lớn các tính năng tiềm năng và tìm hiểucác mối quan hệ phức tạp, nhiều chiều giữa các tính năng và mục tiêu Mặc dù mộtnhóm nghiên cứu đáng kể đã xem xét việc định giá cổ phiếu và trái phiếu, mang lạimột số lượng đáng kể các yếu tố dự đoán thị trường tiềm năng, nhưng người ít chú ýhơn đến dòng tiền điện tử mới định giá Đặc biệt, khả năng dự đoán ngắn hạn của thịtrường bitcoin vẫn chưa được phân tích một cách toàn diện Hơn nữa, hầu hết cácnghiên cứu chỉ xem xét các tính năng kỹ thuật và chưa phân tích tầm quan trọng củatính năng của các mô hình học máy được sử dụng Báo cáo này sẽ giải quyết vấn đềnày bằng cách cách phân tích tương đối các mô hình học máy khác nhau để dự đoánchuyển động thị trường của loại tiền điện tử có liên quan nhất - bitcoin

2 Thị trường tài chính và dự đoán thị trường tài chính.

27.1 Lý thuyết về hiệu quả thị trường.

Giả thuyết hiệu quả thị trường (efficient market hypothesis) là một giả thuyết của lý thuyết tài chính khẳng định rằng các thị trường tài chính là hiệu quả (efficient),

rằng giá của chứng khoán trên thị trường tài chính, đặc biệt là thị trường chứng khoán,phản ánh đầy đủ mọi thông tin đã biết Do đó không thể kiếm được lợi nhuận bằngcách căn cứ vào các thông tin đã biết hay những hình thái biến động của giá cả trongquá khứ Có thể nói một cách ngắn gọn là các nhà đầu tư “không thể khôn hơn thịtrường”

Có ba phiên bản của "lý thuyết thị trường hiệu quả": dạng yếu (weak form), dạng bán-mạnh (semi-strong form) và dạng mạnh (strong form) Phiên bản weak form

của lý thuyết này cho rằng: giá chứng khoán phản ánh đầy đủ thông tin đã công bốtrong quá khứ (nghĩa là dựa vào thông tin trong quá khứ thì nhà đầu cơ không thắngđược thị trường) Phiên bản dạng semi-strong form của lý thuyết cho rằng: giá chứngkhoán đã chịu tác động đầy đủ của thông tin công bố trong quá khứ cũng như thông tin

Trang 8

vừa công bố xong Nhà đầu cơ không thể dựa vào thông tin trong quá khứ cũng nhưthông tin vừa được công bố để có thể mua rẻ bán đắt chứng khoán, vì ngay khi thôngtin được công bố, giá chứng khoán đã thay đổi phản ánh đầy đủ thông tin vừa công bố.

Dạng strong form của lý thuyết này khẳng định mạnh mẽ hơn nữa về tính hiệuquả của thị trường tài chính, rằng giá của chứng khoán đã phản ánh tất cả thông tincông bố trong quá khứ, hiện tại, cũng như các thông tin nội bộ (insider) Cơ sở đứngsau lý thuyết này là: nếu có thông tin nội bộ, những người biết thông tin nội bộ sẽ muabán ngay chứng khoán để thu lợi nhuận, và như vậy giá chứng khoán sẽ thay đổi, đếnkhi nào người trong cuộc không còn kiếm lời được nữa

Các nghiên cứu thực nghiệm đã chứng minh dạng yếu và dạng bán-mạnh(semi-strong form) của lý thuyết có thể đúng Có nhiều nghiên cứu chống lại lý thuyếtdạng strong form, rằng dạng strong-form không đúng, rằng thị trường không thể hiệuquả đến mức đó Nhiều nghiên cứu chỉ ra nhiều bất hiệu quả (inefficiencies) của thịtrường mà nhà đầu cơ có thể thu được lợi nhuận; ví dụ, chứng minh cho thấy nhà đầu

cơ có thể thắng thị trường nếu mua các cổ phiếu có P/E thấp

27.2 Dự đoán thị trường tài chính.

Theo Giả thuyết Thị trường Hiệu quả (EMH), các nhà đầu tư không thể dự đoángiá cổ phiếu vì thị trường phản ánh tất cả các thông tin hiện có Từ quan điểm này, có

ý kiến cho rằng giá cổ phiếu diễn ra theo phương thức ngẫu nhiên Ý tưởng này cònđược gọi là Giả thuyết Đi bộ Ngẫu nhiên (RWH) Ngược lại; Từ lâu người ta đã đềxuất rằng giá cả có thể được dự đoán bằng cách sử dụng các loại kỹ thuật khác nhau,chủ yếu được phân loại là các mô hình dự báo chuỗi thời gian Trên thực tế, không có

sự đồng thuận nhất định về việc giả thuyết nào thực sự có nhiều khả năng được tin cậyhơn Tuy nhiên, một số lượng lớn các nghiên cứu đã chứng minh bằng thực nghiệmrằng giá có thể được dự đoán - ít nhất là ở một mức độ nhất định - bằng cách sử dụngcác phương pháp khác nhau Ví dụ: (Brock, Lakonishok, & LeBaron, 1992) đã điều trakhả năng dự đoán của chỉ số Trung bình Công nghiệp Dow Jones bằng cách sử dụnghai quy tắc giao dịch kỹ thuật là đường trung bình động và mức phá vỡ phạm vi giaodịch Sử dụng hai quy tắc giao dịch này, chúng tạo ra các tín hiệu mua và bán Kết quảcủa họ cung cấp hỗ trợ mạnh mẽ cho các chiến lược kỹ thuật Đặc biệt là các nghiêncứu gần đây sử dụng các phương pháp trí tuệ nhân tạo (tính toán) như mạng nơ-ronnhân tạo (ANN), máy vectơ hỗ trợ (SVM), thuật toán di truyền (GA), v.v cho thấy

Trang 9

mức độ kém hiệu quả đáng kể của thị trường hiện nay trên nhiều thị trường khả năng

dự đoán của giá cả là khả thi

Dự báo trong chuỗi thời gian tài chính (Forecasting in the financial time series)

về cơ bản là dự đoán hành vi của một bước đi trước chuỗi với sự trợ giúp của các biến

số khác nhau Trong thực tiễn tài chính, các nỗ lực dự đoán / dự báo giá cổ phiếuthường thuộc một trong hai loại là phân tích cơ bản và phân tích kỹ thuật Các kỹ thuật

từ cả hai loại cũng được các nhà dự báo sử dụng đồng thời để cải thiện khả năng dựbáo Hơn nữa, đã có rất nhiều mô hình dự báo chuỗi thời gian có tính chất thống kê sửdụng các biến số từ phân tích cơ bản và kỹ thuật do các học giả đề xuất Ngày càng cónhiều bài báo sử dụng kỹ thuật trí tuệ nhân tạo thuần túy hoặc kết hợp với các kỹ thuậtthống kê khác Một trong những loại được ưa chuộng nhất và cũng được sử dụng rộngrãi trong ngành là ANN

Khi sử dụng ANN trong dự đoán, việc lựa chọn các biến đầu vào để dự báocũng quan trọng như cấu trúc liên kết của ANN Nó đã được chỉ ra rằng cùng một môhình có thể tạo ra các kết quả khác nhau đáng kể khi được cung cấp với các đầu vào(các biến độc lập) khác nhau Một mục đích chính khác của tổng quan này là kiểm tracác nghiên cứu sử dụng độ chính xác dự đoán định hướng hoặc khả năng sinh lời của

mô hình làm tiêu chuẩn vì theo quan điểm thực tế, đây là mục tiêu chính của dự đoánchuỗi thời gian tài chính

27.3 Hiệu quả thị trường bitcoin.

Một số phát hiện trong các tài liệu tài chính 18 , 19 , 20 , 21 chỉ ra rằng bitcoin

có thể tạo thành một loại tài sản mới Do đó, những phát hiện liên quan đến hiệu quảhình thức yếu của các thị trường tài chính khác có thể không phù hợp với thị trườngbitcoin Một số nhà nghiên cứu kiểm tra mức độ hiệu quả của thị trường bitcoin bằngcách sử dụng các khoảng thời gian khác nhau

Đầu tiên, Urquhart 22 điều tra chuỗi thời gian của giá bitcoin hàng ngày (tháng

8 năm 2010 đến tháng 7 năm 2016) Ông nhận thấy rằng thị trường bitcoin thậm chíkhông phải là dạng yếu kém hiệu quả Tuy nhiên, chia nhỏ thời gian nghiên cứu chothấy thị trường bitcoin ngày càng trở nên hiệu quả theo thời gian

Xem lại dữ liệu này, Nadarajah và Chu 23nhận thấy rằng sự chuyển đổi sứcmạnh của lợi nhuận bitcoin đã sử dụng thỏa mãn giả thuyết thị trường hiệu quả dạng

Trang 10

yếu Tương tự, Bariviera 24 kiểm tra giá bitcoin hàng ngày (từ tháng 8 năm 2011 đếntháng 2 năm 2017) và cho thấy rằng thị trường bitcoin không phải là dạng yếu hiệuquả trước năm 2014, nhưng trở thành dạng yếu hiệu quả sau năm 2014.

Vidal-Tomás và Ibañez tiếp cận câu hỏi về hiệu quả thị trường bitcoin dạng bán

mạnh từ góc độ nghiên cứu sự kiện 26 Với dữ liệu về tin tức liên quan đến chính sáchtiền tệ và bitcoin (từ tháng 9 năm 2011 đến tháng 12 năm 2017), chúng cho thấy thịtrường bitcoin không phản ứng với những thay đổi chính sách tiền tệ nhưng ngày càngtrở nên hiệu quả hơn liên quan đến các sự kiện liên quan đến bitcoin

Kiểm tra giả thuyết thị trường thích ứng, Khuntia và Pattanayak 27 phân tíchgiá bitcoin hàng ngày (từ tháng 7 năm 2010 đến tháng 12 năm 2017), tìm ra bằngchứng cho mức độ phát triển của hiệu quả thị trường dạng yếu Họ kết luận rằng pháthiện này tạo thành bằng chứng cho thấy giả thuyết thị trường thích ứng được áp dụngcho thị trường bitcoin

Tóm lại, có nhiều bằng chứng trái chiều giữa các học giả về hiệu quả của thịtrường bitcoin Tuy nhiên, hầu hết các nhà nghiên cứu nhận thấy rằng thị trườngbitcoin đã trở nên hiệu quả hơn trong những năm qua Mức độ hiệu quả ngày càngtăng của thị trường có vẻ trực quan, vì thị trường bitcoin đã phát triển nhanh chóng kể

từ khi thành lập và do đó, ngày càng trở nên cạnh tranh

3 Dự đoán thị trường bitcoin thông qua học máy.

Trang 11

37.3 Dữ liệu thu thập.

Ta sẽ sử dụng data từ Bloomberg, Twitter và Blockchain.com:

● Bloomberg: Bloomberg sẽ cung cấp dữ liệu theo phút về giá của bitcoin, vàng,

dầu mỏ và tỷ suất lợi nhuận của các chỉ số MSCI Worldv, S&P 500 và VIX, … Ngoài

ra còn có tỷ giá tiền tệ và biến động giá bitcoin trong 1 khoảng thời gian

● Twitter: cung cấp sentiment data từ các bài tweets nói về chủ đề bitcoin trêntwitter

● Blockchain.com: Từ Blockchain.com, chúng ta sẽ thu được data theo phút sựtăng trưởng của các giao dịch bitcoin và sự tăng trưởng của mempool( các giao dịchbitcoin chưa được xác thực)

37.4 Phần mềm, phần cứng sử dụng.

Python 3.7 đã được sử dụng rất phổ biến với việc phân tích dữ liệu với việc sửdụng các gói pandas và numpy Với Twitter chúng ta sử dụng thư viện NTLK vàgoogle natural language API để phân tích sentiment

Ngoài ra, thư viện keras44 trên phần phụ trợ tensorflow45 cũng được sử dụng

để xây dựng mạng cấp dữ liệu, LSTM và GRU Xây dựng các bộ phân loại tăng cường

độ dốc với xgboost46 và rừng ngẫu nhiên cũng như các mô hình hồi quy hậu cần bằngcách sử dụng scikit-learning

MSCI World returns Crude Oil WTI returns

SP 500 returns EUR/USD returns

Trang 12

Gold returns JPY/USD returns

Giá trị return là tỷ suất lợi nhuận được tính theo công thức sau:

Ngoài ra các giá trị sentiment, interest được sinh ra từ dữ liệu từ twitter Ở đâychúng ta sẽ chuẩn hóa lại các bài tweets và chọn những bài không chứa hình ảnh vàURLs, và thay thế các từ ngữ về dạng chung để máy dễ nhận dạng, đầu tiên sẽ là xóausernames, những ký tự không đọc được, và khoảng trống thừa Sau đó sẽ thay thếnhững cụm đồng nghĩa ( ví dụ như isn’t bằng is not hay bought với buy) Cuối cùng sẽđưa dữ liệu sau chuẩn hóa vào Google Natural Language API để xử lý tính toánsentiment của từng bài viết Từng phút chúng ta sẽ tính toán số lượng bài viết,sentiment và strength of emotion từng bài tweet

73.5.1.Features cho model sử dụng memory function.

Với những model sử dụng memories function như LTSM và GRU Chúng ta sẽ

sẽ sử dụng dữ liệu dạng time series Mỗi time series sẽ dài 120 phút và một times steps

sẽ là 15 features (1 feature bên trên và 1 feature thứ 15 tính giá trị lợi tức long-term

Trang 13

của bitcoin trong 1 tuần trước sử dụng công thức 1) Kết luận, input của memorymodels sẽ là 15 timeseries ứng với 15 features trong 120 phút.

73.5.2.Features cho model không sử dụng memory function.

Ở model không sử dụng memory function như FNN, RF và lR Input sẽ khôngthể đưa theo timeseries như trên, vì vậy chúng ta sẽ tổng hợp kết quả trong 120p đểđưa vào model Ở đây, chúng ta sẽ tập hợp theo các khoảng thời gian để tổng hợp cáckết quả của features: j ∈{(0, 1], (1, 2], ( 2, 3], ( 3, 4], ( 4, 5], ( 5, 10], ( 10, 20], ( 20,40], ( 40, 60], ( 60, 80], ( 80, 100], ( 100, 120]} Với tiến trình tổng hợp, chúng ta sẽ sửdụng công thức lợi tức để tính toán kết quả trong từng khoảng thời gian Với 12khoảng thời gian, thực tế số lượng features chúng ta đưa vào model sẽ là 14x12 +1 =

160 features khác nhau

37.6 Các Model sử dụng.

Mục đích của báo cáo này là để dự đoán hướng đi của giá Bitcoin Vì đây làmột tác vụ với một mục tiêu đã biết nên nó là một tác vụ học máy có giám sát mặc dùmột số quá trình xử lý trước có thể tận dụng các phương pháp học không được giámsát Các thuật toán bao gồm, một số loại mạng nơ-ron nhân tạo bao gồm MultilayerPerceptron ,Elman Recurrent Neural Network (RNN) và Long Short Term Memory(LSTM), GRU, LR, GBC , RF

GRU Number of memory blocks: {64, 128, 256∗, 512}

LSTM Number of memory blocks: {64, 128, 256∗, 512}

FNN Hidden layer structure: {(512), (512–256), (512-256-128),

(512-256-128-64), (512-256-128-64-32)∗, (512-256-128-64-32-16)}

GBC Maximum tree depth: {1∗, 2, 6, 10, 15, 20, None}

RF Minimum fraction of instances per leaf: {1%, 5%, 10%, 20%∗,

Ngày đăng: 25/05/2022, 00:57

HÌNH ẢNH LIÊN QUAN

Hình 3.2: Sơ đồ mạng LTSM. - BÁO CÁO BÀI TẬP LỚN MÔN: CÁC KỸ THUẬT GIẤU TIN Chủ đề: Dự đoán sự thay đổi giá bitcoin sử dụng  Machine Learning
Hình 3.2 Sơ đồ mạng LTSM (Trang 15)
Hình 3.1: Sơ đồ mạng nơ-ron của FNN. 73.6.3.LSTM và GRU - BÁO CÁO BÀI TẬP LỚN MÔN: CÁC KỸ THUẬT GIẤU TIN Chủ đề: Dự đoán sự thay đổi giá bitcoin sử dụng  Machine Learning
Hình 3.1 Sơ đồ mạng nơ-ron của FNN. 73.6.3.LSTM và GRU (Trang 15)
Hình 3.3: Minh họa cây quyết định. - BÁO CÁO BÀI TẬP LỚN MÔN: CÁC KỸ THUẬT GIẤU TIN Chủ đề: Dự đoán sự thay đổi giá bitcoin sử dụng  Machine Learning
Hình 3.3 Minh họa cây quyết định (Trang 17)
Hình 3.5: Xác suất của các mô hình. - BÁO CÁO BÀI TẬP LỚN MÔN: CÁC KỸ THUẬT GIẤU TIN Chủ đề: Dự đoán sự thay đổi giá bitcoin sử dụng  Machine Learning
Hình 3.5 Xác suất của các mô hình (Trang 19)
Hình 3.4: Độ chính xác của các mô hình học máy. - BÁO CÁO BÀI TẬP LỚN MÔN: CÁC KỸ THUẬT GIẤU TIN Chủ đề: Dự đoán sự thay đổi giá bitcoin sử dụng  Machine Learning
Hình 3.4 Độ chính xác của các mô hình học máy (Trang 19)
Hình 3.6: Kết quả của các chiến lược giao dịch. - BÁO CÁO BÀI TẬP LỚN MÔN: CÁC KỸ THUẬT GIẤU TIN Chủ đề: Dự đoán sự thay đổi giá bitcoin sử dụng  Machine Learning
Hình 3.6 Kết quả của các chiến lược giao dịch (Trang 22)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w