Tuy nhiên, thị trường chứng khoán có tính chất ngẫu nhiên và phi tuyếntính, điều đó có nghĩa là việc dự đoán xu hướng của chứng khoán chỉ bằngnhững dữ liệu lịch sử giá là một bài toán đầ
Trang 1TRƯỜNG ĐẠI HỌC SƯ PHẠM TPHCM
KHOA CÔNG NGHỆ THÔNG TIN
DƯƠNG THỊ HÒA BÌNH NGỤY THẾ DƯƠNG
XÂY DỰNG MÔ HÌNH HỌC SÂU
DỰ ĐOÁN XU HƯỚNG
GIÁ CHỨNG KHOÁN
KHÓA LUẬN TỐT NGHIỆP
TP HỒ CHÍ MINH - NĂM 2022
Trang 2TRƯỜNG ĐẠI HỌC SƯ PHẠM TPHCM
KHOA CÔNG NGHỆ THÔNG TIN
DƯƠNG THỊ HÒA BÌNH NGỤY THẾ DƯƠNG
XÂY DỰNG MÔ HÌNH HỌC SÂU
DỰ ĐOÁN XU HƯỚNG GIÁ CHỨNG KHOÁN
CHUYÊN NGÀNH: KHOA HỌC MÁY TÍNH
KHÓA LUẬN TỐT NGHIỆP
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS KIỀU MY
TS NGUYỄN KHẮC VĂN
TP HỒ CHÍ MINH - NĂM 2022
Trang 3Lời cảm ơn
Đầu tiên, xin gởi lời cảm ơn chân thành đến TS Kiều My, TS Nguyễn KhắcVăn, người đã tận tình hướng dẫn, động viên, giúp đỡ nhóm chúng em trongsuốt thời gian thực hiện đề tài Trong thời gian làm việc với các Thầy chúng emkhông những học hỏi được nhiều kiến thức bổ ích mà còn học được tinh thần
và thái độ làm việc nghiêm túc cũng như những kiến thức về cuộc sống rất quýbáu của các Thầy
Chúng em xin gởi lời cảm ơn đến tất cả các Thầy Cô trong khoa Công nghệThông tin đã dạy dỗ và truyền đạt cho chúng em nhiều kiến thức trong suốtnhững năm học vừa qua Cảm ơn quý thầy, cô trong hội đồng chấm luận văn
đã giúp chúng em có thêm được nhiều kiến thức và biết được những thiếu sóttrong luận văn của nhóm
Xin gởi lời cảm ơn chân thành đến gia đình và bè bạn vì đã luôn là nguồnđộng viên to lớn, giúp đỡ, chia sẻ những khó khăn, vui buồn cùng chúng emtrong suốt thời gian qua
Mặc dù chúng em đã cố gắng hoàn thiện luận văn này với tất cả sự nỗ lựcnhưng không thể tránh khỏi những thiếu sót Chúng em kính mong nhận được
sự thông cảm và chỉ bảo của quý Thầy, Cô cùng các bạn đồng môn
Trang 4Mục lục
1 TỔNG QUAN VỀ BÀI TOÁN DỰ ĐOÁN XU HƯỚNG GIÁ CHỨNG
1.1 Tổng quan về thị trường chứng khoán 17
1.1.1 Khái niệm về chứng khoán 17
1.1.2 Tầm quan trọng của thị trường chứng khoán 17
1.1.3 Khái niệm về cổ phiếu 18
1.2 Tổng quan về bài toán hồi quy 19
1.2.1 Khái niệm về hồi quy 19
1.2.2 Bài toán hồi quy trong Học máy 19
1.2.3 Bài toán dự đoán xu hướng giá chứng khoán 20
1.3 Tình hình nghiên cứu 20
1.3.1 Tình hình nghiên cứu trong nước 22
Trang 52 CƠ SỞ LÝ THUYẾT 25
2.1 Tổng quan về phân tích cơ bản 25
2.2 Tổng quan về phân tích kỹ thuật 26
2.2.1 Một số chỉ báo kỹ thuật 27
2.3 Giới thiệu mô hình chuỗi thời gian ARIMA 28
2.3.1 Lý thuyết mô hình 28
2.3.2 Ưu và nhược điểm của mô hình ARIMA 30
2.4 Ưu và nhược của mô hình Machine Learning 31
2.5 Giới thiệu về mạng nơron nhân tạo 33
2.5.1 Các thành phần cơ bản của ANN 33
2.5.2 Lan truyền thẳng 39
2.5.3 Lan truyền ngược 39
2.6 Giới thiệu về mạng Convolutional Neural Network 40
2.6.1 Kiến trúc cơ bản của CNN 41
2.6.2 Lớp tích chập (Convolutional Layer) 41
2.6.3 Lớp Pooling (Lớp tổng hợp) 45
2.6.4 Lớp Fully connected 45
2.7 Giới thiệu về mạng Recurrent Neural Network 46
2.7.1 Kiến trúc mô hình 46
2.7.2 Các vấn đề của mạng RNN 47
2.7.3 Các biến thể phổ biến 48
2.8 Giới thiệu về mạng Long-short term Memory 50
2.8.1 Cổng quên (Forget gate) 51
2.8.2 Cổng cập nhật (Update gate) 52
2.8.3 Cổng đầu ra (Output gate) 53
2.9 Phương pháp huấn luyện 54
2.9.1 Gradient Descent (GD) 55
2.9.2 Stochastic Gradient Descent (SGD) 56
2.9.3 Momentum 57
Trang 62.9.4 Adagrad 58
2.9.5 RMSprop (Root Mean Square Propagation) 59
2.9.6 Adam 59
3 MÔ HÌNH ĐỀ XUẤT 61 3.1 Kiến trúc mô hình CNN - LSTM kết hợp 61
3.1.1 Tổng quan 61
3.1.2 Các lớp thành phần đề xuất 62
3.2 Phương pháp đánh giá 65
3.2.1 MAPE 65
3.2.2 MAE 65
3.2.3 RMSE 66
3.2.4 MSE 67
3.2.5 AMSE 67
3.2.6 Accuracy 68
4 THỰC NGHIỆM 69 4.1 Dữ liệu thực nghiệm 69
4.1.1 Bộ dữ liệu ở thị trường chứng khoán Việt Nam 69
4.1.2 Bộ dữ liệu ở thị trường chứng khoán ở nước ngoài 70
4.1.3 Tiền xử lý dữ liệu và chuẩn hóa 70
4.2 Quá trình thực nghiệm và đánh giá mô hình đề xuất 74
4.2.1 Môi trường thực nghiệm 74
4.2.2 Quá trình huấn luận mô hình thành phần và kết quả thực nghiệm 75
4.3 So sánh với các công trình đã công bố 81
5 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 84 5.1 Kết luận 84
5.2 Hướng phát triển 85
Trang 7Tiếng Việt 86
Trang 8Danh mục viết tắt
KÝ HIỆU TÊN TIẾNG ANH
TKGD Tài khoản giao dịch
FA Fundamental Analysis
TA Techincal Analysis
RF Reinforcement LearningSVM Support Vector MachineANN Artificial Neural NetworkCNN Convolutional Neural NetworkRNN Recurrent Neural NetworkDRNN Deep Recurrent Neural NetworkLSTM Long-Short term memory
GRU Gated Recurrent UnitARMA Autoregressive Moving AverageARIMA Autoregressive Integrated Moving AverageBi-LSTM Bidirectional Long-Short term memorySVR Support Vector Regression
SMA Simple Moving AverageEMA Exponential Moving AverageRSI Relative Strength Index
Trang 9ROC Rate of Change
MFI Money Flow Index
OBV On-Balance Volume
MACD Moving Average Convergence DivergenceAIC Akaike Information Criterion
KNN K-Nearest Neighbour
ReLU Rectified Linear Unit
GD Gradient Descent
SGD Stochastic Gradient Descent
RMSprop Root Mean Square Propagation
MAPE Mean Absolute Percentage Error
MAE Mean Absolute Error
RMSE Root Mean Squared Error
MSE Mean Squared Error
AMSE Adjusted Mean Squared Error
CKVN Chứng khoán Việt Nam
CKNN Chứng khoán nước ngoài
Trang 10Danh sách hình vẽ
1.1 Mô hình tổng quát bài toán dự đoán xu hướng giá chứng khoán 21
2.1 Mô hình mạng nơron sinh học 33
2.2 Đơn vị xử lý 34
2.3 Minh họa mô hình Logistic regression [3] 35
2.4 Mô hình mạng nơron tổng quát [3] 37
2.5 Mô hình mạng nơron 3 tầng [3] 38
2.6 Mô hình CNN cơ bản [15] 41
2.7 Biểu diễn hình ảnh đầu vào và bộ lọc dưới dạng ma trận [10] 42
2.8 Tính tích chập của ảnh đầu vào với bộ lọc 3 x 3 [10] 43
2.9 Phép tính convolution trên ảnh màu với k=3 [10] 43
2.10 Minh hoạt phép tích chập với đệm = 1 [6] 44
2.11 Minh hoạt phép tích chập với sải bước 3 theo chiều dài và 2 theo chiều rộng [6] 44
2.12 Minh hoạt Max pooling với bộ lọc 2x2 và stride là 2 [6] 45
2.13 Mô hình RNN truyền thống [12] 46
2.14 Mô tả bên trong mô hình RNN [12] 47
2.15 Kiến trúc mô hình BiRNN và DeepRNN [12] 49
2.16 Kiến trúc mô hình GRU [12] 49
2.17 Kiến trúc mô hình LSTM cơ bản [1] 50
2.18 Trạng thái tế bào trong LSTM [1] 51
Trang 112.19 Cổng quên trong LSTM [1] 51
2.20 Tính toán giá trị để cập nhật [1] 52
2.21 Cổng đầu ra [1] 54
2.22 Minh họa thuật toán Gradient Descent [16] 55
2.23 Mô tả Learning rate [32] 56
2.24 Thuật toán Stochastic Gradient Descent [16] 57
2.25 Thuật toán Momentum [16] 58
3.1 Mô hình CNN - LSTM kết hợp [25] 62
3.2 Mô hình thành phần [25] 63
3.3 Chuyển đổi biểu đồ đặc trưng thành chuỗi đặc trưng [25] 64
4.1 Bình thường dữ liệu độc lập 71
4.2 Minh họa phương pháp tạo bộ dữ liệu 72
4.3 Minh họa dữ liệu đầu vào cho mô hình 72
4.4 Minh họa chia tập dữ liệu 73 4.5 So sánh kết quả giá High của tập dữ liệu đơn và gộp trên mã FPT 76 4.6 So sánh kết quả giá Low của tập dữ liệu đơn và gộp trên mã FPT 77 4.7 So sánh kết quả giá Close của tập dữ liệu đơn và gộp trên mã FPT 78
Trang 12Danh sách bảng
2.1 Ưu nhược của các mô hình Machine Learning 32
2.2 Các hàm kích hoạt thông dụng [11] 36
4.1 Bộ dữ liệu CKVN 70
4.2 Bộ dữ liệu CKNN 70
4.3 Mô tả 3 bộ dữ liệu Train, Validation, Test 73
4.4 So sánh kết quả giữa dữ liệu đơn và dữ liệu gộp 75
4.5 So sánh kết quả của bước thời gian 79
4.6 Kết quả huấn luyện của mô hình đề xuất với các mô hình thành phần 79
4.7 Các chỉ báo kỹ thuật được dùng trong mô hình 80
4.8 Đặc trưng đầu vào cho mỗi mô hình 80
4.9 So sánh kết quả của các phương pháp đánh giá 81
4.10 So sánh với công trình của tác giả Huỳnh Quyết Thắng [9] 82
4.11 So sánh với công trình của nhóm tác giả Đỗ Quang Hưng [7] 82
4.12 So sánh với công trình của nhóm tác giả Eapen [23] 82
4.13 So sánh với công trình của nhóm tác giả Hossain [28] 83
Trang 13MỞ ĐẦU
Tính cấp thiết của đề tài
Thị trường chứng khoán vẫn luôn chiếm vị thế nhất định trong thị trườngđầu tư, không chỉ đem lại nguồn thu nhập thụ động mà còn giúp cho nền kinh
tế phát triển một cách mạnh mẽ Do đó đã thu hút được đông đảo các nhà đầu
tư từ các cá nhân nhỏ lẻ cho đến các công ty lớn, bởi đây là thị trường tiềm năngđem đến nguồn tiền tích cực Cùng với sự phát triển của công nghệ, việc truyxuất các dữ liệu giao dịch, các thông tin trực quan của thị trường đã giúp cácnhà đầu tư có cơ sở và quyết định đúng đắn để bắt đầu công cuộc đầu tư củamình, chính vì lẽ đó mà sự phát triển của các sàn chứng khoán trở nên mạnh mẽ
và năng động hơn bao giờ hết
Theo số liệu được cung cấp bởi Statista [13] – Công ty chuyên về thị trường
và dữ liệu người dùng và diễn đàn Asktraders [14], trên thế giới có xấp xỉ 9.6
triệu nhà đầu tư trực tuyến, chiếm vỏn vẹn gần 0.12% dân số trên thế giới Thị
trường chứng khoán ở Mỹ chiếm gần 52% tổng thị trường trên thế giới, tiếp đó
là Nhật Bản và Trung Quốc lần lượt là 7.4% và 5.4%.
Ở thị trường Việt Nam, theo thống kê số lượng tài khoản nhà đầu tư chứngkhoán tại Việt Nam ngày 30/09/2021 [5]:
• Số lượng tài khoản giao dịch (TKGD) trong nước là 3.693.553 tài khoản,
trong đó:
Trang 14– Số lượng TKGD của nhà đầu tư cá nhân: 3.681.168 tài khoản
– Số lượng TKGD của nhà đầu tư tổ chức: 12.385 tài khoản
Chiếm khoảng 3.8% tổng dân số trên cả nước Ngoài ra dưới sự ảnh hưởng
của dịch bệnh Covid 19, lượng tài khoản chứng khoán mới mở cũng tăng mạnh
do nhu cầu khai thác tài chính thụ động được tăng cao “Lũy kế 8 tháng đầu
năm, nhà đầu tư trong nước mở mới 842.405 tài khoản chứng khoán, lớn hơn tổng số tài khoản mở mới trong 3 năm 2018-2020 cộng lại là 837.345 tài khoản”
– Theo CƠ QUAN TRUNG ƯƠNG ĐẢNG CỘNG SẢN VIỆT NAM [4]
Tuy nhiên, thị trường chứng khoán có tính chất ngẫu nhiên và phi tuyếntính, điều đó có nghĩa là việc dự đoán xu hướng của chứng khoán chỉ bằngnhững dữ liệu lịch sử giá là một bài toán đầy thách thức, đồng thời thị trườngchứng khoán cũng bị ảnh hưởng bởi nhiều yếu tố như thị trường cung cầu, tìnhhình thế giới, tình hình chính trị xã hội, biến động kinh tế, báo cáo tài chính Dẫnđến việc giải quyết bài toán này gần như là không thể ở những năm về trước.Nhưng nhờ có sự bùng nổ của lĩnh vực trí tuệ nhân tạo, cụ thể là sự phát triểnnhảy vọt của những kỹ thuật học sâu, các bài toán đầy thách thức ở các lĩnh vựckhác nhau đã lần lượt được giải quyết Các ứng dụng về xử lý ảnh trong lĩnhvực y khoa như dự đoán bệnh qua ảnh CT, ứng dụng xử lý ngôn ngữ tự nhiên,nhận diện giọng nói đã được phát triển và cải thiện vượt bậc Với những đột phá
về công nghệ và kỹ thuật này đã góp phần tạo nên một nền tảng vững chắc đểxây dựng mô hình dự đoán và các tri thức để cải tiến
Mục đích nghiên cứu
Cùng với sự phát triển của nền kinh tế thị trường, nhu cầu tăng thêm thunhập của con người ngày càng cao Đối với tầng lớp lao động, đi làm thuê thìviệc vươn lên tầng lớp doanh nhân, giàu có gần như là rất khó chỉ với nguồn thu
Trang 15và tiềm năng lại chỉ có những chuyên gia tài chính, những cá nhân có vốn hoặcnhững doanh nghiệp dám tham gia vào thị trường đầu tư Với lượng kiến thứcchuyên môn hạn hẹp cùng với số vốn ít ỏi, những tầng lớp phổ thông ít có cơ hộichen chân vào thị trường chứng khoán dồi dào và màu mỡ đó để cải thiện cuộcsống Để giảm thiểu rủi ro thua lỗ và tối ưu hóa lợi nhuận khi đầu tư, giúp chotất cả các nhà đầu tư thuộc mọi tầng lớp có thể tham gia vào thị trường, các môhình học sâu về bài toán dự đoán xu hướng giá chứng khoán đã được nghiêncứu và phát triển.
Tuy nhiên để có được một mô hình có độ tin cậy cao đòi hỏi phải
có một phương pháp tối ưu kết hợp với các phương pháp phân tích cơbản (Fundamental Analysis) và phương pháp phân tích kỹ thuật (TechnicalAnalysis) cũng như dữ liệu giá tương ứng Đến nay, đã có nhiều hướng tiếpcận để giải quyết bài toán như các mô hình máy học Support Vector Machine,Decision Tree, Random Forest Các mô hình học sâu như: Mạng Nơron tíchchập (Convolutional Neural Network), mạng Nơron hồi quy (Recurrent NeuralNetwork) Và một trong những mô hình tiên tiến được cho là mô hình thích hợp
và có độ hiệu quả cao với bài toán có dữ liệu tuần tự (sequence hay time-seriesdata) là mạng LSTM (Long-Short term memory - bộ nhớ dài-ngắn hạn) [29].Như đã phân tích ở trên, bài toán xây dựng mô hình học sâu dự đoán xu hướnggiá chứng khoán có ý nghĩa thực tiễn lớn, không những giúp mang lại thu nhậpthụ động cho nhà đầu tư mà còn giúp thúc đẩy nền kinh tế phát triển bằng việcthúc đẩy dòng tiền chạy liên tục trên thị trường
Trang 16tác nghiên cứu và thực nghiệm.
– Có các chuyên gia tài chính ở Việt Nam/ Mỹ hỗ trợ về mặt lý thuyết
chứng khoán
• Về hướng tiếp cận của bài toán: Có nhiều hướng tiếp cận trong lĩnh vực trítuệ nhân tạo như Học máy (Machine Learning), Học sâu (Deep Learning) vàHọc tăng cường (Reinforcement Learning) nhưng đề tài mà nhóm nghiêncứu thực hiện sẽ tập trung chủ yếu vào các mô hình học sâu kết hợp vớiphương pháp phân tích kỹ thuật
• Về kết quả đầu ra của bài toán: Mô hình đề xuất với kết quả đầu ra là giácao (High) và giá thấp (Low) của cổ phiếu trong ngày tiếp theo dựa trênđầu vào là các dữ liệu lịch sử trong 1 khoảng thời gian
Cấu trúc của khóa luận tốt nghiệp
Chương 1: Giới thiệu tổng quan
Trong chương này, luận văn tập trung giới thiệu về bài toán hồi quy trênloại dữ liệu thời gian Trình bày tình hình nghiên cứu trong và ngoài nước liênquan đến nội dung mà luận văn nghiên cứu
Chương 2: Cơ sở lý thuyết
Trong chương này, luận văn tập trung trình bày về cơ sở lý thuyết khi thựchiện đề tài, các khái niệm về chứng khoán, các phương pháp phân tích cơ bản
và các phương pháp phân tích kỹ thuật; khái niệm về mạng nơron, CNN, RNN,LSTM, và các phương pháp đánh giá mô hình
Chương 3 Mô hình đề xuất
Trong chương này, luận văn tập trung trình bày về mô hình của sinh viên
đề xuất để giải quyết bài toán dự đoán xu hướng giá chứng khoán
Chương 4: Kết quả thực nghiệm
Trang 17Trong chương này, luận văn tập trung trình bày kết quả thực nghiệm môhình đã đề xuất.
Chương 5: Kết luận và hướng phát triển
Trang 18Chương 1
TỔNG QUAN VỀ BÀI TOÁN
DỰ ĐOÁN XU HƯỚNG GIÁ CHỨNG KHOÁN
1.1 Tổng quan về thị trường chứng khoán
1.1.1 Khái niệm về chứng khoán
Chứng khoán là loại tài sản, bao gồm: Cổ phiếu, trái phiếu, chứng chỉ quỹ;
Chứng quyền, chứng quyền có bảo đảm, quyền mua cổ phần, chứng chỉ lưu ký;Chứng khoán phát sinh; Các loại chứng khoán khác do Chính phủ quy định [2]
1.1.2 Tầm quan trọng của thị trường chứng khoán
• Đối với nhà đầu tư: Thị trường chứng khoán là một kênh đầu tư tiềm năng
và phong phú với đa dạng danh mục đầu tư Các loại chứng khoán nàykhác nhau về tính chất, giá cả, mức độ rủi ro và tính thanh khoản, do vậy
Trang 19năng của mình Việc tham gia vào thị trường chứng khoán cũng dễ dàng,thủ tục đơn giản giúp cho các cá nhân nhỏ lẻ hay các tổ chức có nguồn vốnlớn có thể tiếp cận một cách nhanh chóng.
• Đối với doanh nghiệp: Thị trường chứng khoán giúp các doanh nghiệp đa
dạng các hình thức huy động vốn đầu tư bằng việc phát hành cổ phiếu haytrái phiếu, điều này giúp cho cho doanh nghiệp có được một số vốn đầu tưdài hạn mà còn tránh được các khoản vay ngân hàng với lãi suất cao Hơnthế nữa, việc doanh nghiệp có chứng khoán niêm yết trên sàn giao dịchgiúp tạo được niềm tin và sự uy tín đối với công chúng, nhờ đó mà doanhnghiệp có thể huy động được nguồn vốn một cách linh hoạt, hiệu quả và
rẻ hơn Ngoài ra việc mở của trị trường chứng khoán còn giúp cho doanhnghiệp thu hút được thêm các nguồn vốn từ thị trường quốc tế, mở rộng cơhội của doanh nghiệp
• Đối với nền kinh tế: Thị trường chứng khoán tạo ra các công cụ có tính
thanh khoản cao, có thể tích tụ, tập trung và phân phối vốn, chuyển thờihạn của vốn phù hợp với yêu cầu phát triển kinh tế, giúp tạo vốn cho nềnkinh tế quốc dân Nhờ có thị trường chứng khoán, Chính phủ có thể huyđộng các nguồn lực tài chính mà không bị áp lực về lạm phát, đặc biệt khinguồn vốn đầu tư từ khu vực nhà nước còn hạn chế
1.1.3 Khái niệm về cổ phiếu
Cổ phiếu là loại chứng khoán xác nhận quyền và lợi ích hợp pháp của
người sở hữu đối với một phần vốn cổ phần của tổ chức phát hành Hay nóicách khác cổ phiếu là giấy chứng nhận số tiền mà cổ đông đầu tư vào doanhnghiệp
Các công ty cổ phần phát hành cổ phiếu để huy động vốn vào việc kinh doanhcủa họ Cổ phiếu được mua và bán chủ yếu trên các sàn giao dịch chứng khoán.Tại thị trường chứng khoán Việt Nam, một cổ phiếu cơ sở là đại diện cho 10.000
Trang 20đồng vốn điều lệ của doanh nghiệp Các nhà đầu tư mua bán cổ phiếu vì cácmục đích sau:
• Khai thác lợi nhuận từ việc chênh lệch giá mua và bán, hưởng cổ tức – phầnlợi nhuận sau thuế để chia cho cổ đông của công ty
• Để tham gia biểu quyết, nắm quyền quyết định, điều hành của côngty/doanh nghiệp
1.2 Tổng quan về bài toán hồi quy
1.2.1 Khái niệm về hồi quy
Hồi quy (regression) là phương pháp thống kê toán học để ước lượng và
kiểm định các quan hệ giữa các biến ngẫu nhiên, và có thể từ đó đưa ra các dựbáo Các quan hệ ở đây được viết dưới dạng các hàm số hay phương trình
1.2.2 Bài toán hồi quy trong Học máy
Bài toán hồi quy là một trong những bài toán lớn trong lĩnh vực học máy,liên quan đến việc dự đoán một giá trị số thực bằng cách sử dụng các biến sốhọc được thông qua dữ liệu để tìm mối quan hệ giữa các biến số đó Có nhiều
mô hình hồi quy có thể kể đến như: Hồi quy đơn biến, hồi quy đa biến, hồi quytuyến tính hoặc phi tuyến
Trong những năm gần đây, với sự phát triển bùng nổ của khoa học côngnghệ, các nhà nghiên cứu đã nỗ lực để trong việc tìm ra những giải pháp, nhữngphương pháp đánh giá, tối ưu hóa để nâng cao độ chính xác của mô hình Chính
vì lẽ đó mà các bài toán khó tưởng chừng không thể giải quyết đã ngày một đượcgiải đáp thúc đẩy cho nền kinh tế phát triển từ đó các rào cản về công nghệ cũngđược tháo gỡ
Trang 211.2.3 Bài toán dự đoán xu hướng giá chứng khoán
Một trong những bài toán được phần đông những nhà khoa học, nhà kinh
tế quan tâm nhất chính là bài toán dự đoán xu hướng giá chứng khoán Ngay
từ những ngày đầu khi thị trường chứng khoán đầu tiên được thành lập vàonhững năm 1600, các nhà kinh tế đã thấy được sự tiềm năng mà chứng khoánđem lại
Lần lượt các nhà tiên phong về phương pháp dự đoán chuỗi thời gian đã xuấthiện, có thể kể đến mô hình AutoRegressive được nhà thống kê Udny Yule vàcác đồng nghiệp phát minh vào những năm 1920 Mô hình này là nền tảng chomột số mô hình thống kê và kinh tế lượng sau này như ARMA, ARIMA
Điều đó cho thấy từ trước những năm phát triển vượt bậc của lĩnh vực trí tuệnhân tạo, sự quan tâm của các nhà khoa học đối với bài toán này là không hềnhỏ Trong những năm gần đây, các mô hình máy học đã được ứng dụng vào bàitoán này để hỗ trợ các nhà đầu tư tạo ra lợi nhuận, tuy nhiên với những mô hìnhmáy học truyền thống thì độ chính xác vẫn còn những hạn chế nhất định Tuynhiên với sự phát triển của những mô hình học sâu, việc nhận dạng được nhữngmẩu phi tuyến tính trong chuỗi thời gian của chứng khoán đã trở nên dễ tiếpcận hơn bao giờ hết Một hướng tiếp cận khá phổ biến và hiệu quả trong nhữngnăm gần đây cho bài toán dự đoán chuỗi thời gian là sử dụng mô hình LSTMđây là mô hình học sâu thu hút được nhiều sự quan tâm của các nhà nghiên cứutrong và ngoài nước LSTM được sử dụng rất nhiều cho các bài toán có dữ liệuthời gian hay tuần tự như dịch máy, nhận diện giọng nói, dự báo thời tiết với độchính xác cao
1.3 Tình hình nghiên cứu
Từ các phương pháp máy học truyền thống đến các mô hình học sâu, có rấtnhiều kĩ thuật khác nhau dùng để dự đoán chuỗi thời gian tài chính nói chung
Trang 22Hình 1.1: Mô hình tổng quát bài toán dự đoán xu hướng giá chứng khoán
và dự đoán giá/xu hướng giá chứng khoán nói riêng
Đầu tiên có thể kể đến RNN - một mạng nơ ron được thiết kế đặc biệt vớikhả năng xử lý được dữ liệu thời gian và trích xuất thông tin cũng như dự đoándựa trên chuỗi thông tin trước đó Vì vậy, các mô hình RNN và biến thể của nódường như phù hợp để dự đoán cho chuỗi thời gian và cụ thể là chuỗi thời gian
về tài chính
CNN là một trong những mô hình học sâu khác có thể áp dụng cho bàitoán dự đoán giá chứng khoán nhờ vào khả năng trích xuất thông tin hiệu quảqua các bộ lọc Theo một số kết quả thực nghiệm, CNN có một vai trò đáng kểtrong việc xử lý dữ liệu đầu vào và trích xuất đặc trưng Ví dụ, theo [27] có thể
áp dụng cho nhiều dữ liệu từ các nguồn khác nhau, bao gồm nhiều thị trườngkhác nhau, và trích xuất đặc trưng để dự đoán cho các thị trường này Các kếtquả đánh giá cho thấy so với thuật toán cơ sở (baseline algorithm) tốt nhất, hiệusuất dự đoán khi sử dụng CNN cho cải thiện đáng kể
Ngoài ra các nhà nghiên cứu cũng đã áp dụng mô hình Học tăng cường
- một phương pháp học sâu, đưa ra hành động dựa trên tình huống hiện tại
để tối đa hóa lợi nhuận Học tăng cường học cách thực hiện giao dịch (có thể
là mua, bán hoặc giữ cổ phiếu) theo tình hình của thị trường hiện tại Mô hìnhxem thông tin ngữ cảnh (giá cả, tin tức, dư luận, phí giao dịch, hành động giao
Trang 23dịch, lợi nhuận, thua lỗ) như một môi trường để học tăng cường Coi lãi hoặc
lỗ có thể coi như phần thưởng, các giao dịch (bán, mua, giữ) được coi như cáchành động và mô hình cần tối ưu các hành động này để đưa ra lợi nhuận tối ưu
1.3.1 Tình hình nghiên cứu trong nước
Tại Việt Nam trong những năm gần đây có nhiều nhóm nghiên cứu về môhình học sâu để giải quyết bài toán dự đoán giá chứng khoán Điển hình là một
số công trình của:
• Nhóm tác giả Ngoc Hai trình bày về các thực nghiệm trên các biến thể của
mô hình LSTM với dữ liệu chứng khoán ở Việt Nam Trong bài báo nàynhóm tác giả thực nghiệm trên 3 mô hình đề xuất là Vanilla LSTM, StackedLSTM và Bi-LSTM [8]
• Nhóm tác giả Huỳnh Quyết Thắng trình bày phương pháp dự đoán xu thếchỉ số chứng khoán Việt Nam (VN-Index) gồm bốn bước, trong đó dữ liệuđầu vào là dữ liệu lịch sử chỉ số giá của VN-Index Các tác giả áp dụng môhình hồi quy trung bình động (ARMA) để dự đoán thành phần thời gianngẫu nhiên ở bước kế tiếp, phân tích hồi quy quá trình Gauss (GPR) để dựđoán thành phần thời gian xu thế Cuối cùng kết quả dự đoán các thànhphần riêng lẻ được tổng hợp lại để đưa ra kết quả dự đoán cuối cùng chophương pháp tổng hợp GPR-ARMA Nghiên cứu đạt độ chính xác kết quả
dự đoán xu thế là 61,73% và độ lệch trung bình của chỉ số dự đoán so vớichỉ số thực tế khoảng 0.73% [9]
• Quang Hung Doa và Tran Van Trang phát triển hai mô hình dự đoán và
so sánh hiệu suất dự đoán bằng kết quả dự đoán ngày tiếp theo của chỉ
số VN-Index Hai mô hình phát triển gồm hệ thống suy luận mờ dựa trênmạng thích ứng (ANFIS) và bộ nhớ dài-ngắn hạn (LSTM) Kết quả cho thấyrằng mô hình LSTM vượt trội hơn so với mô hình ANFIS trong việc dự đoánchỉ số VN-Index của thị trường chứng khoán Việt Nam [7]
Trang 241.3.2 Tình hình nghiên cứu nước ngoài
Với cách tiếp cận theo mô hình RNN và biến thể của nó, đã có nhiều công trìnhtrên thế giới được công bố, có thể kể đến:
• Weiling Chen và các cộng sự đề xuất mô hình RNN-Boost sử dụng các chỉbáo kĩ thuật, đặc trưng cảm xúc và thuật toán Latent Dirichlet allocation(LDA) để dự đoán giá chứng khoán Kết quả chỉ ra rằng mô hình đề xuấtđem lại kết quả tốt hơn mô hình RNN cơ bản [21]
• Nikou M đề xuất một mô hình LSTM và so sánh với các mô hình ANN, SVR(Support Vector Regression) và RF Kết quả chỉ ra rằng mô hình LSTM đạtkết quả tốt hơn trong việc dự đoán giá đóng cửa ngày tiếp theo của iSharesMSCI United Kingdom ETF (một quỹ hoán đổi danh mục đầu tư vào các cổphiếu trong chỉ số chứng khoán MSCI United Kingdom) so với các mô hìnhđược đề cập [29]
• M A Hossain đề xuất mô hình LSTM kết hợp với Nút Hồi tiếp có Cổng(Gated Recurrent Unit - GRU) Cả LSTM và GRU đều là các mạng hồi quymạnh mẽ có thể hoạt động tốt hơn trong các bài toán hồi quy Mô hình đềxuất hoạt động tốt hơn mô hình chỉ có LSTM, chỉ có GRU và mô hình GRUtheo sau là LSTM [28]
• Xu, Y và V Keselj trình bày một mô hình LSTM kết hợp với cơ chế Attentionđem lại hiệu suất tốt hơn so với việc chỉ sử dụng mô hình LSTM Ngoài ranghiên cứu cũng chỉ ra rằng các bài đăng về tài chính trên Twitter khi thịtrường đóng cửa có tác động mạnh mẽ đến giá của ngày hôm sau [38]Ngoài ra CNN cũng là một hướng nghiên cứu cũng được đông đảo các nhà khoahọc ưa chuộng do các thành công của nó ở nhiều lĩnh vực:
• Ehsan Hoseinzade đề xuất hai mô hình: 2D-CNN và 3D-CNN sử dụng 82chỉ báo kĩ thuật Hai mô hình này có thể cải thiện kết quả dự đoán so với
Trang 25các thuật toán cơ sở khoảng 3-11% [26]
• Hyun Sik Sim và các cộng sự đề xuất một mô hình CNN sử dụng dữ liệuđầu vào gồm 9 chỉ báo kĩ thuật để xác minh khả năng ứng dụng của môhình CNN vào thị trường chứng khoán Mô hình đề xuất sử dụng dữ liệuđầu vào tính theo phút, dùng dữ liệu của 30 phút để dự đoán xu hướng tănghay giảm của giá cổ phiếu vào một phút sau Từ các dữ liệu cơ bản, tính toáncác chỉ báo kĩ thuật sau đó chuyển đổi thành hình ảnh biểu đồ chuỗi thờigian làm hình ảnh đầu vào của mô hình CNN Hyun Sik Sim và các cộng sự
đã kết luận rằng việc sử dụng các chỉ báo kĩ thuật trong dự đoán xu hướnggiá chứng khoán bằng CNN không mang lại nhiều tác động tích cực [35]
• Nhóm tác giả M U Gudelek, S A Boluk and A M Ozbayoglu đề xuất một
mô hình 2D-CNN để dự đoán xu hướng giá chứng khoán Họ trích xuất cácchỉ báo xu hướng (trend indicators) và các chỉ báo động lượng (momentumindicators) thường được sử dụng trong chuỗi thời gian tài chính và sử dụngchúng là đặc trưng đầu vào Mô hình có thể dự đoán xu hướng giá ngàytiếp theo là tăng hay giảm với độ chính xác 72% và kiếm được lợi nhuận với
tỉ lệ 5:1 so với số vốn ban đầu, có tính đến giá trị thực tế của chi phí giaodịch [24]
Bên cạnh đó, một số nghiên cứu kết hợp CNN và LSTM với mong muốn kết hợpđược những điểm mạnh của từng mô hình để cho ra kết quả tốt nhất
• Shuanglong Liu đề xuất một mô hình CNN-LSTM, kết hợp với chiến lượcMomentum (Momentum strategy) và mô hình Benchmark đem lại tỉ lệ sinhlời lần lượt là 0.882 và 1.136 [31]
• Shubin Cai và các cộng sự đề xuất một hệ thống dự đoán CNN và LSTMvới dữ liệu tin tức tài chính và dữ liệu lịch sử của thị trường chứng khoán
Họ xây dựng bảy mô hình riêng lẻ, sau đó kết hợp thành một mô hình tổnghợp (ensemble) Tuy nhiên mô hình đem lại có độ chính xác thấp [20]
Trang 26Chương 2
CƠ SỞ LÝ THUYẾT
2.1 Tổng quan về phân tích cơ bản
Phân tích cơ bản (Fundamental Analysis) là một trong những phương
pháp phân tích đầu tư cổ phiếu phổ biến dùng để xác định tiềm năng của cổphiếu trên thị trường Dựa vào các nhân tố có tính chất nền tảng có tác độnghoặc dẫn tới sự thay đổi giá cả của cổ phiếu nhằm xác định các giá trị cốt lõi của
cổ phiếu
Luận điểm của phương pháp này cho rằng các giá trị nội tại của cổ phiếu
- giá trị được tạo ra bởi chính những hoạt động của công ty, là cơ sở quyết địnhgiá cổ phiếu và xu hướng thay đổi giá trong tương lai so với giá trị nội tại của cổphiếu trên thị trường Phương pháp phân tích cơ bản đo lường giá trị thực củamột công ty thông qua các chỉ tiêu về tài chính như: Lợi nhuận, sự tăng trưởng
về mặt doanh thu; những rủi ro có thể gặp phải; dòng tiền Là một quá trìnhphân tích các vấn đề chủ yếu bao gồm:
• Phân tích kinh tế vĩ mô
• Phân tích kinh tế ngành
Trang 27• Phân tích báo cáo tài chính
Về mặt ưu điểm:
• Phương pháp này thích hợp cho việc dự đoán xu hướng giá cổ phiếu để đầu
tư trong dài hạn
• Giúp cho nhà đầu tư lựa chọn được công ty tốt để đầu tư và biết được cácyếu tố tác động đến giá trị của công ty
Về mặt nhược điểm:
• Tiêu tốn nhiều thời gian và công sức do phải tiếp cận và xử lý khối lượnglớn thông tin kinh tế tài chính
• Mức độ chính xác phụ thuộc và mức độ chính xác của thông tin
• Mang tính chủ quan của người phân tích do có nhiều biến số cần phải phântích
• Bỏ qua yếu tố tâm lý của nhà đầu tư trên thị trường
2.2 Tổng quan về phân tích kỹ thuật
Phân tích kỹ thuật (Technical Analysis) là phương pháp phân tích chứng
khoán dựa vào biểu đồ, đồ thị diễn biến giá và khối lượng giao dịch của cổ phiếunhằm phân tích các biến động cung – cầu đối với cổ phiếu để giúp cho nhà đầu
tư quyết định thời điểm nên mua vào, bán ra hay giữ cổ phiếu trên thị trường.Nếu phân tích cơ bản – được sử dụng để đánh giá giá trị của một cổ phiếudựa trên các giá trị nội tại của doanh nghiệp thì phân tích kỹ thuật tập trungvào việc nghiên cứu diễn biến giá cả của chứng khoán và khối lượng giao dịch.Các công cụ được sử dụng trong phân tích kỹ thuật để xem xét các tácđộng của cung và cầu đối với một cổ phiếu sẽ ảnh hưởng tới giá của cổ phiếu đónhư thế nào Luận điểm của phương pháp kỹ thuật cho rằng giá của thị trường
Trang 28phản ánh tất cả các thông tin có liên quan, do đó phân tích của phương phápnày nhìn vào lịch sử của hình mẫu trao đổi của chứng khoán trước chứ khôngphải là các điều khiển bên ngoài như sự kiện kinh tế, cơ bản và tin tức.
Về mặt ưu điểm:
• Khả năng ứng dụng cao
• Sử dụng nhanh, dễ áp dụng
• Bộ công cụ phân tích đa dạng
• Xác định được xu hướng giá cả của chứng khoán
• Xác định được thời điểm mua vào và bán ra của cổ phiếu
Về mặt nhược điểm:
• Không lường trước được những yếu tố tác động bất lợi cho cổ phiếu
• Phụ thuộc nhiều thông tin khác đang diễn ra trên thị trường, như tin tức,biến động tình hình chính trị, kinh tế và tâm lý nhà đầu tư
• Có độ trễ nhất định
• Bỏ qua các yếu tố nội tại của cổ phiếu
2.2.1 Một số chỉ báo kỹ thuật
Chỉ báo kỹ thuật (Technical Indicator) là công cụ phân tích biểu đồ có thể
giúp các nhà đầu tư hiểu rõ hơn và hành động theo di chuyển của giá
Có nhiều loại chỉ báo kỹ thuật nhưng chủ yếu chúng được chia làm 2 loại chính
là Lớp phủ (Overlays) và Chỉ báo dao động (Oscillators)
Lớp phủ (Overlays) là công cụ phân tích biểu đồ sử dụng cùng một thang đo
như giá được vẽ ở phía trên cùng của giá trên biểu đồ chứng khoán Một số lớpphủ được sử dụng phổ biến:
Trang 29• Đường trung bình (Moving average - MA)
• Đường trung bình đơn giản (Simple Moving Average - SMA)
• Đường trung bình mũ (Exponential Moving Average - EMA)
• Dải Bollinger (Bollinger Band)
Chỉ báo dao động (Oscillators) là công cụ phân tích biểu đồ sử dụng dao động
giữa mức tối thiểu và mức tối đa cục bộ được vẽ trên hoặc dưới biểu đồ giá Cácchỉ báo dao động phổ biến nhất là:
• Chỉ số sức mạnh tương đối (Relative Strength Index - RSI)
• Tỉ lệ thay đổi (Rate of Change - ROC)
• Chỉ báo dòng tiền (Money Flow Index - MFI)
• Khối lượng cân bằng (OBV - On-Balance Volume)
• Đường trung bình hội tụ phân kỳ (Moving Average ConvergenceDivergence - MACD)
2.3 Giới thiệu mô hình chuỗi thời gian ARIMA
2.3.1 Lý thuyết mô hình
Mô hình ARIMA (Autoregressive Integrated Moving Average - Tự hồi quy
tích hợp Trung bình trượt) được đưa ra lần đầu tiên bởi George Box và GwilymJenkins (1976) Mô hình ARIMA là sự kết hợp của ba thành phần chính:
• AR (Auto regression): Mô hình tự hồi quy ước tính giá trị tương lai bằng (p)giá trị trong quá khứ
• I (Integrated): Quá trình đồng tích hợp hoặc lấy sai phân
• MA (Moving average): Mô hình trung bình trượt ước tính giá trị hiện tại
Trang 30theo (q) giá trị quá khứ của sai số nhiễu trắng.
Mô hình sử dụng chuỗi thời gian, sử dụng các giá trị quá khứ của một biến đểphản ánh giá trị tương lai của nó Một mô hình ARIMA được định nghĩa bởi babiến p, d, q hay còn viết là ARIMA (p, d, q) với:
• (p): Bậc của mô hình tự hồi quy (AR)
Nhận dạng mô hình được áp dụng để xác định ba thành phần chính p, d, q của
Trang 31Sau khi kiểm định tính dừng, ta xác định p thông qua biểu đồ của hàm tự tươngquan (ACF) và p thông qua biểu đồ hàm tự tương quan riêng (PACF).
2.3.1.2 Ước lượng mô hình
Ước lượng mô hình bằng các thuật toán tính toán để đưa ra các hệ sốthích hợp cho mô hình Các phương pháp phổ biến nhất sử dụng ước tính khảnăng xảy ra tối đa (maximum likelihood estimation) hoặc ước tính bình phươngnhỏ nhất phi tuyến tính (non-linear least-squares estimation) Lựa chọn mô hìnhthông qua quá trình thực nghiệm, so sánh các tiêu chí để chọn ra mô hình tốtnhất
2.3.1.3 Kiểm định mô hình
Sau khi ước lượng các tham số của mô hình, ta cần kiểm định để đảm bảo
mô hình là phù hợp Mô hình thích hợp nếu nó có phần dư là nhiễu trắng Việckiểm định có thể thực hiện bằng kiểm định Ljung – Box hoặc vẽ biểu đồ tự tươngquan và tự tương quan một phần của phần dư để xác định Nếu tồn tại nhiều
mô hình đúng, ta lựa chọn mô hình có chỉ số AIC nhỏ nhất (Akaike InformationCriterion) Nếu ước lượng không đầy đủ, chúng ta phải quay lại bước một và cốgắng xây dựng một mô hình tốt hơn
Trang 32• Chỉ yêu cầu dữ liệu chuỗi thời gian của biến cần dự đoán.
• Loại mô hình này đã được chứng minh rằng nó hoạt động để dự báo vàphân tích ngắn hạn
• Không giống mô hình AR thuần, các đầu vào lỗi (MA) cho phép mô hìnhhọc được từ những sai lầm trước đó
2.3.2.2 Nhược điểm
• Sử dụng cho chuỗi đơn biến
• Phù hợp cho các dữ liệu tuyến tính
• Việc biến đổi dữ liệu đưa về dạng chuỗi dừng có thể làm mất nhiều thôngtin quan trọng
• Mô hình ARIMA về cơ bản là nhìn ngược, do đó thường kém trong việc dựđoán các điểm ngoặt
• Mô hình đã được xây dựng trên dữ liệu lịch sử, chưa chắc phù hợp với dữliệu tương lai
2.4 Ưu và nhược của mô hình Machine Learning
Trang 342.5 Giới thiệu về mạng nơron nhân tạo
Mạng nơron nhân tạo (Artificial Neural Network - ANN) là mô hình tính
toán, xử lý thông tin được xây dựng dựa trên cách thức hoạt động của hệ thốngthần kinh của sinh vật Nó bao gồm một nhóm các đơn vị tính toán - nơron liênkết chặt chẽ với nhau và các liên kết này đóng vai trò quyết định chức năng củamạng Vì được mô phỏng theo hệ thống thần kinh của sinh vật, mạng ANN cóthể học được các kinh nghiệm (thông qua huấn luyện), lưu trữ các kinh nghiệm
đó (tri thức) và sử dụng những tri thức đó để dự đoán những dữ liệu chưa biết(unseen data)
Hình 2.1: Mô hình mạng nơron sinh học
Ở mỗi nơron có phần thân (soma) chứa nhân, các tín hiệu đầu vào qua sợ nhánh(dendrites) và các tín hiệu đầu ra qua sợi trục (axon) kết nối với các nơron khác
2.5.1 Các thành phần cơ bản của ANN
2.5.1.1 Đơn vị xử lý
ANN được cấu thành từ các đơn vị xử lý đơn lẻ hay còn được gọi là nơronhoặc perceptron, thực hiện một nhiệm vụ đơn giản là tiếp nhận tín hiệu (thông
Trang 35tin) từ các đơn vị phía trước hay một nguồn bên ngoài và sử dụng những tínhiệu đó để tính toán và lan truyền sang các đơn vị khác.
Hình 2.2: Đơn vị xử lý
Trong đó :
• xi: Các giá trị đầu vào (i = 1 n)
• wij: Các trọng số tương ứng với mỗi đầu vào
• θj: Độ lệch (bias)
• aj: Đầu vào mạng (net - input)
• zj: Đầu ra của nơron
• g(x): Hàm hàm kích hoạt
Trong một mạng nơron có ba kiểu đơn vị:
• Các đơn vị đầu vào (Input units), nhận tín hiệu từ bên ngoài
• Các đơn vị đầu ra (Output units), gửi dữ liệu ra bên ngoài
• Các đơn vị ẩn (Hidden units), tín hiệu vào (input) và ra (output) của nó nằmtrong mạng
Trang 362.5.1.2 Hàm kích hoạt (Activation Function)
Hàm kích hoạt (Activation Function) là một thành phần rất quan trọng
của mạng nơron Nó quyết định khi nào thì một nơron được kích hoạt, khi nàothông tin được truyền qua nơron khác Hàm kích hoạt là một phép biến đổi phituyến mà chúng ta thực hiện đối với tín hiệu đầu vào Đầu ra được biến đổi nàyđược dùng làm đầu vào của nơron ở tầng nơron tiếp theo
Nếu không có hàm kích hoạt hoặc hàm kích hoạt chỉ là hàm tuyến tính thì mạngnơron sẽ khó có thể mô hình hóa và giải quyết các vấn đề phức tạp Việc có thêmnhiều tầng nơron hay nhiều nút cũng không mang lại hiệu quả nếu không cóhàm kích hoạt
2.5.1.3 Logistic Regression
Logistic regression hay Hồi quy Logistic được coi là mô hình mạng nơron đơn
giản nhất chỉ gồm 1 lớp đầu vào (input layer) và 1 lớp đầu ra (output layer)Trong đó:
Hình 2.3: Minh họa mô hình Logistic regression [3]
• W: Trọng số mô hình
• W0: Độ lệch bias (hệ số tự do)
Trang 38• z: Phương trình tuyến tính
• σ : Hàm kích hoạt sigmoid
Hình 2.4: Mô hình mạng nơron tổng quát [3]
Trong mô hình mạng nơron ta luôn có:
• Lớp Layer đầu tiên là input layer
• Các lớp layer ở giữa được gọi là hidden layer
• Lớp layer cuối cùng được gọi là output layer
• Các hình tròn được gọi là Node
Mỗi mô hình luôn có 1 input layer, 1 output layer, có thể có hoặc không cáchidden layer Tổng số layer trong mô hình được quy ước là số layer – 1 (Khôngtính input layer) Mỗi node trong hidden layer và output layer :
• Liên kết với tất cả các node ở layer trước đó với các hệ số w riêng
• Mỗi node có 1 hệ số tự do b riêng
• Diễn ra 2 bước: Tính tổng tuyến tính và áp dụng hàm kích hoạt
Kí hiệu
Gọi:
Trang 39Hình 2.5: Mô hình mạng nơron 3 tầng [3]
• Số node trong hidden layer thứ i là l(i)
• Ma trận W(k) kích thước lk−1 ∗ lk là ma trận trọng số giữ lớp k − 1 và lớp k,trong đó w(k)
ij là hệ số nối từ nối thứ i của lớp k − 1 đến node thứ j của lớp k
• Vector b(k)kích thước l(k)∗ 1 là hệ số bias của các node trong layer k, trong đó
b(k)i là bias của node thứ i trong layer k
• Vector z(k) kích thước l(k) ∗ 1 là giá trị các node trong layer k sau bước tínhtổng linear
• Vector a(k) kích thước l(k)∗ 1 là giá trị của các node trong layer k sau khi ápdụng activation function
Với node thứ i trong layer l có bias b(l)
Trang 402.5.2 Lan truyền thẳng
Lan truyền thẳng là quá trình mà mạng nơron truyền thông tin từ lớp đầu
vào sang các lớp tiếp theo và chỉ di chuyển theo một hướng đến khi đến đượclớp cuối cùng
2.5.3 Lan truyền ngược
Lan truyền ngược được giới thiệu lần đầu tiên vào những năm 1960 và chođến năm 1986 mới được phổ biến rộng rãi bởi Rumelhart Hinton và Williamsqua bài báo có tên “Learning representations by back-propagating errors” Theobài báo, lan truyền ngược điều chỉnh liên tục trọng số trong mạng để giảm thiểu
độ chênh lệch giữa đầu ra dự đoán và đầu ra thực tế [33]
Lan truyền ngược là một thuật toán cho việc học có giám sát (supervised
learning) của mạng nơron nhân tạo bằng cách sử dụng gradient descent Mụctiêu chính của thuật toán lan truyền ngược là điều chỉnh trọng số của các nơrontrong mạng trên cơ sở hàm lỗi đã cho, đảm bảo cho việc kết quả dự đoán gầnvới dữ liệu thực tế hơn Nói cách khác, lan truyền ngược nhằm giảm thiểu hàmchi phí (cost function) bằng cách điều chỉnh trọng số của mạng nơron Điều nàyđược thực hiện bằng cách áp dụng quy tắc chuỗi (chain rule) cho hàm lỗi để tínhđạo hàm của hàm hợp
Sau khi khởi tạo ngẫu nhiên trọng số của mạng nơron, thuật toán lan truyềnngược có thể thực hiện qua bốn bước sau:
• Tính lan truyền thẳng (feed-forward)
• Lan truyền ngược cho lớp đầu ra (output layer)
• Lan truyền ngược cho lớp ẩn (hidden layer)
• Cập nhật trọng số
Thuật toán dừng lại khi giá trị của hàm lỗi trở nên đủ nhỏ