Đồ án cuối kì xây dựng hệ thống thu thập và xử lí tin tức tài chính

Em cảm ơn thầy Nguyễn Hữu Tình, thầy là giáo viên chủ nhiệm lớpDHKHDL18A của em, là người thầy đã dõi theo chúng em từ năm hai đến hiệntại, đã giúp đỡ em rất nhiều trong quá trình định h

GIỚI THIỆU

Tổng quan

Trong chương này, chúng tôi sẽ giới thiệu bối cảnh và lý do lựa chọn đề tài nghiên cứu, đồng thời nêu rõ mục tiêu, phạm vi nghiên cứu, cũng như ý nghĩa khoa học và thực tiễn của đề tài.

Trong thời đại hiện nay, việc tham gia vào môi trường kinh doanh tài chính và đưa ra quyết định đầu tư trở nên dễ dàng hơn cho người dùng, ngay cả khi họ thiếu kiến thức và kinh nghiệm Một trong những thách thức lớn nhất mà họ đối mặt là thiếu thông tin cần thiết và khả năng đánh giá chính xác ảnh hưởng của thông tin đến thị trường Để hỗ trợ người dùng trong việc ra quyết định đầu tư, chúng tôi đề xuất cung cấp thêm thông tin thông qua việc phân tích cảm xúc của các khía cạnh trong tin tức tài chính Để dự đoán tác động của một tin tức hay bài báo đến các khía cạnh tài chính, cần thực hiện một quá trình phân tích cẩn thận, bao gồm xác định thông tin chính, nguồn tin, ngữ cảnh thị trường và các tài sản tài chính liên quan Điều này giúp người đọc đánh giá mức độ quan trọng của thông tin trong bài báo đối với quyết định đầu tư và các hành động tác động đến thị trường tài chính.

Sự phát triển của công nghệ và Internet đã làm thay đổi cách người dùng tiếp cận thông tin kinh tế, cho phép họ dễ dàng tìm kiếm thông tin từ nhiều nguồn qua các công cụ, thiết bị di động, mạng xã hội và trang web tin tức Theo baochinhphu.vn, vào năm 2022, nhà đầu tư cá nhân trong nước đã mở mới gần 2,6 triệu tài khoản chứng khoán, một con số kỷ lục trong 22 năm hoạt động Tuy nhiên, việc có quá nhiều thông tin yêu cầu người dùng cần có kiến thức tài chính để hiểu và phân tích chính xác các dữ liệu mà họ tiếp nhận.

Khóa luận tốt nghiệp chuyên ngành Khoa Học Dữ Liệu

Nhiều nhà đầu tư mới chỉ chú trọng vào phân tích kỹ thuật mà bỏ qua thông tin cơ bản về cổ phiếu, dẫn đến những quyết định thiếu cơ sở Để giảm thiểu rủi ro, việc kết hợp phân tích kỹ thuật và phân tích cơ bản là cần thiết, sử dụng cả nguồn thông tin truyền thống và trực tuyến nhằm đảm bảo độ chính xác trong quyết định đầu tư Tin tức có ảnh hưởng mạnh mẽ đến nền kinh tế và thị trường tài chính; tin tích cực có thể kích thích đầu tư và tạo niềm tin, trong khi tin tiêu cực dễ dẫn đến biến động và giảm lòng tin của nhà đầu tư Sự lan truyền thông tin qua truyền thông và mạng xã hội hiện nay đã làm cho thị trường trở nên nhạy cảm hơn, tạo ra một môi trường đầu tư phức tạp Do đó, xây dựng công cụ xác định chính xác tác động của tin tức kinh tế là rất quan trọng trong việc hỗ trợ quyết định đầu tư và quản lý rủi ro.

1.1.2 Lý do chọn đề tài

Chúng tôi nhận thấy rằng việc tiếp cận thị trường đầu tư ngày càng trở nên dễ dàng hơn Vì vậy, chúng tôi mong muốn cung cấp một công cụ hữu ích nhằm hỗ trợ người dùng trong việc tiếp cận thông tin và đưa ra quyết định đầu tư hợp lý.

Mặc dù hiện nay có rất nhiều bài báo kinh tế, nhưng việc phân tích các khía cạnh và tác động của chúng đến thị trường vẫn chưa được phổ biến và khai thác đầy đủ tại Việt Nam.

Mục tiêu nghiên cứu

 Tìm hiểu về kiến trúc mô hình Recurrent Neural Network (RNN), Gated Recurrent Unit (GRU), Long-Short Term Memory (LSTM) trong bài toán xử lý ngôn ngữ tự nhiên.

Nghiên cứu các mô hình xử lý ngôn ngữ tự nhiên (NLP) ứng dụng học máy như RNN, GRU và LSTM trong việc xử lý ngôn ngữ tiếng Việt, đặc biệt trong lĩnh vực tài chính, đang ngày càng trở nên quan trọng Những mô hình này giúp cải thiện khả năng phân tích và hiểu ngữ nghĩa trong các văn bản tài chính, từ đó hỗ trợ ra quyết định hiệu quả hơn Việc áp dụng NLP trong tài chính không chỉ tăng cường độ chính xác mà còn tối ưu hóa quy trình xử lý dữ liệu, giúp các tổ chức tài chính nâng cao hiệu suất làm việc.

 Tìm hiểu về kỹ thuật Supervised Learning.

 Tìm hiểu về các công cụ hỗ trợ chat GPT.

Áp dụng công cụ chat GPT để xử lý nhãn dữ liệu, sau đó tích hợp vào mô hình LSTM nhằm huấn luyện các tin tức từ bài báo kinh tế tại Việt Nam.

Đề xuất một phương pháp xây dựng mô hình dự đoán tác động của tin tức tài chính trên nhiều khía cạnh nhằm cung cấp thông tin bổ sung cho các quyết định đầu tư.

Phạm vi nghiên cứu

 Kiến thức và hiểu biết về các phương pháp phân tích thống kê để áp dụng trong việc xử lý dữ liệu.

 Kiến thức và hiểu biết về các mô hình Recurrent Neural Network, Gated Recurrent Unit, Long-Short Term Memory.

Nguồn dữ liệu cho nghiên cứu này được thu thập từ các trang báo chuyên về tin tức kinh tế, tập trung vào các công ty hoạt động tại Việt Nam và những doanh nghiệp có ảnh hưởng đến thị trường Việt Nam.

Ý nghĩa khoa học và thực tiễn

 Ý nghĩa khoa học: đề xuất mô hình phân tích các khía cạnh của bài báo.

Ý nghĩa thực tế của bài báo là cung cấp giải pháp giúp nhà đầu tư có cái nhìn tổng quan và rõ ràng hơn về các khía cạnh cũng như ảnh hưởng của chúng, từ đó hỗ trợ nhà đầu tư trong việc đưa ra quyết định chính xác hơn.

 Mở rộng: Nghiên cứu này góp phần làm tiền đề cho nghiên cứu về bài toánABSA trong tin tức & dự đoán tài chính.

CƠ SỞ LÝ THUYẾT

Bài toán

Chúng tôi sẽ trình bày tổng quan về bài toán xử lý ngôn ngữ tự nhiên, đặc biệt là phân tích xúc cảm trong lĩnh vực tài chính liên quan đến ngôn ngữ tiếng Việt.

Phân tích xúc cảm (SA) là quá trình phân loại nhãn hoặc dự đoán giá trị xúc cảm từ một đoạn văn bản Chẳng hạn, một bình luận trên mạng xã hội có thể được xác định là “tích cực”, “tiêu cực”, “bình thường” hoặc gán cho một giá trị thực trong khoảng từ -1 đến 1.

2.1.2 Các nghiên cứu trước đó

Nhiệm vụ nghiên cứu và phân tích xúc cảm (SA) trong văn bản hiện nay rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) và phát triển trí tuệ nhân tạo Mục tiêu chính là trích xuất thông tin giá trị từ nhận xét của người dùng, được chia thành ba nhiệm vụ phụ: trích xuất thuật ngữ, phát hiện khía cạnh và phát hiện phân cực Nghiên cứu của Minh-Hao Nguyen và cộng sự tập trung vào phát hiện khía cạnh và phân cực, trong khi Quang-Linh Tran và cộng sự sử dụng các mô hình học sâu như Bi-GRU và Bi-LSTM để phân loại khía cạnh và cảm tính trong thương mại điện tử Đối với lĩnh vực tài chính, Hitkul Jangid và cộng sự cũng áp dụng LSTM để phân tích khía cạnh, nhưng chọn lọc cho một lĩnh vực cụ thể Tuy nhiên, mô hình phân tích khía cạnh tài chính cho tiếng Việt vẫn chưa phổ biến, mặc dù thông tin tài chính ở Việt Nam rất phong phú và số lượng người đầu tư ngày càng tăng, cho thấy tiềm năng lớn khi áp dụng mô hình học sâu trong lĩnh vực này.

6 cạnh, yếu tố ảnh hưởng của các tin

7 tức tài chính ở Việt Nam, giúp hỗ trợ người dùng trong việc đưa ra các quyết định trong đầu tư.

Kỹ thuật

Tokenization là quá trình chia nhỏ văn bản thành các đơn vị được gọi là

Token là đơn vị cơ bản trong xử lý ngôn ngữ tự nhiên, có thể là từ, cụm từ hoặc đoạn văn, tùy thuộc vào phương pháp tokenization Quá trình này rất quan trọng để chuẩn bị dữ liệu đầu vào cho các mô hình máy học, giúp hệ thống hiểu và xử lý ngôn ngữ một cách hiệu quả hơn.

Hình 1 Mô tả cách thức hoạt động của tokenization.

Kỹ thuật loại bỏ từ dừng (Stop Words Removal) là quá trình loại bỏ những từ không mang lại ý nghĩa nhiều trong văn bản, như "và", "hay", "hoặc", "nếu" Mục tiêu của kỹ thuật này là nâng cao hiệu quả của mô hình bằng cách tập trung vào các từ khóa có giá trị và giảm kích thước tập dữ liệu đào tạo Đây là một phương pháp phổ biến trong xử lý ngôn ngữ tự nhiên, nhưng để sử dụng hiệu quả, cần xác định bộ từ dừng dựa trên ngữ cảnh và mục tiêu xử lý dữ liệu.

8 hoá kết quả đạt được [2].

Word Embeddings là kỹ thuật trong xử lý ngôn ngữ tự nhiên, biểu diễn từ vựng dưới dạng vector trong không gian nhiều chiều, giúp máy tính hiểu sự tương tác giữa các từ trong văn bản Nhóm nghiên cứu sử dụng Fasttext cho tiếng Việt để hỗ trợ xử lý Kỹ thuật này giữ lại đặc trưng của từ, với các từ có ngữ nghĩa tương tự được sắp xếp gần nhau trong không gian véc-tơ, từ đó được ứng dụng rộng rãi trong tối ưu hóa các mô hình học máy trong lĩnh vực này.

Language Modeling là một kỹ thuật trong xử lý ngôn ngữ tự nhiên, nhằm dự đoán xác suất của từ hoặc cụm từ Mục tiêu chính của kỹ thuật này là giúp máy tính học hỏi cấu trúc, quy luật và logic của ngôn ngữ tự nhiên, từ đó dự đoán kết quả đầu ra phù hợp với yêu cầu của người dùng.

Hình 2 Mô tả cách thức hoạt động của kỹ thuật Language Modeling.

Min-Max Scaler là một phương pháp chia tỷ lệ dữ liệu hiệu quả, trong đó giá trị tối thiểu được quy định là 0 và giá trị tối đa là 1 Phương pháp này giúp thu nhỏ dữ liệu vào một khoảng đã xác định, thường là từ 0 đến 1, bằng cách mở rộng các giá trị đến một phạm vi nhất định Quá trình này không làm thay đổi hình dạng của phân phối dữ liệu ban đầu, mà chỉ điều chỉnh các giá trị vào một khoảng giá trị cụ thể.

𝑥 𝑚𝑖𝑛 : giá trị tối thiểu ban đầu

𝑥 𝑚𝑎𝑥 : giá trị tối đa ban đầu

Phương pháp đánh giá

Các phương pháp đánh giá hiệu suất mô hình hồi quy phổ biến bao gồm MSE, RMSE và MAE Trong các phương pháp này, 𝑦𝑖 đại diện cho giá trị thực tế, trong khi 𝑦𝑖 là giá trị mà mô hình dự đoán Số lượng quan sát của mô hình được ký hiệu là n.

Sai số bình phương trung bình (MSE) là chỉ số đo lường độ chính xác của phép ước lượng, được tính bằng trung bình của bình phương các sai số MSE phản ánh sự khác biệt giữa các kết quả ước lượng và giá trị thực tế đã được đánh giá.

Sai số bình phương trung bình gốc (RMSE) là một phương pháp quan trọng để đánh giá mô hình hồi quy, dựa trên độ lệch chuẩn của phần dư (lỗi dự đoán) Phần dư được định nghĩa là khoảng cách giữa các điểm dữ liệu và đường hồi quy, trong khi RMSE cung cấp một thước đo cho độ phân tán của các điểm dư này.

MAE - Mean Absolute Error là một phương pháp đánh giá mô hình hồi quy, được tính bằng trung bình tổng của các trị tuyệt đối giữa giá trị dự đoán và giá trị thực tế.

Phương pháp tối ưu

Grid Search là một thuật toán trong Machine Learning được sử dụng để tìm kiếm và tối ưu hóa các tham số cho mô hình học máy Khi đối mặt với không gian siêu tham số lớn, Grid Search xác định một tập hợp các giá trị của các siêu tham số và tạo ra các kết hợp khả thi giữa chúng Mỗi kết hợp này sẽ được áp dụng để huấn luyện mô hình và đánh giá hiệu suất qua các chỉ số như accuracy và F1 score Tùy thuộc vào bài toán cụ thể, phương pháp này giúp tìm ra giá trị tối ưu nhất dựa trên các phép đo hiệu suất, do đó nó thường được áp dụng trong thực tế để tối ưu hóa các tham số trong mô hình.

Stochastic Gradient Descent (SGD) là một phiên bản nâng cao của thuật toán Gradient Descent, được áp dụng để tối ưu hóa các mô hình học máy Phương pháp này giúp cải thiện hiệu suất tính toán so với các phương pháp Gradient Descent truyền thống, đặc biệt khi làm việc với các bộ dữ liệu lớn trong các dự án học máy.

Trong Stochastic Gradient Descent (SGD), thay vì sử dụng toàn bộ dữ liệu cho mỗi lần lặp, chỉ một ví dụ đào tạo ngẫu nhiên được chọn để tính toán độ dốc và cập nhật các tham số của mô hình Việc chọn lựa ngẫu nhiên này tạo ra tính ngẫu nhiên trong quá trình tối ưu hóa.

Thuật toán tối ưu hóa Adam là một phương pháp giảm gradient ngẫu nhiên dựa trên ước tính thích ứng của các khoảnh khắc bậc nhất và bậc hai.

Theo Kingma và cộng sự, phương pháp này có hiệu quả tính toán cao, yêu cầu bộ nhớ thấp và ổn định trước sự thay đổi kích thước chéo của gradient, nên rất phù hợp cho các vấn đề lớn về dữ liệu và tham số Do đó, nó trở thành một thuật toán tối ưu phổ biến trong lĩnh vực xử lý ngôn ngữ tự nhiên và xử lý ảnh.

PHƯƠNG PHÁP THỰC HIỆN VÀ MÔ HÌNH ĐỀ XUẤT

Phương pháp thực hiện

Khi nhóm đã xác định được bài toán cụ thể, sau đây nhóm sẽ đưa ra các bước cần thiết để giải quyết được bài toán này:

Hình 3 Các bước thực hiện để giải quyết bài toán.

Tổng quan thực nghiệm

Nhóm nghiên cứu sẽ tập trung vào bước thực nghiệm, sử dụng dữ liệu nội dung bài báo “Content” làm đầu vào và dữ liệu về khía cạnh cần dự đoán làm đầu ra Dữ liệu được chia thành ba tập: train (70%), test (20%) và validation (10%) để phục vụ cho quá trình huấn luyện và đánh giá mô hình Để đảm bảo hiệu quả thực nghiệm, nhóm đã thảo luận và xây dựng một kế hoạch thực nghiệm cụ thể.

Hình 4 Tổng quan kế hoạch thực nghiệm. như:Khi đã có một kế hoạch thực nghiệm, chúng tôi tận dụng các công cụ có sẵn

- Python: Ngôn ngữ lập trình chính sử dụng xuyên suốt cả đề tài.

- Pytorch: Dùng cho việc xây dựng các cấu trúc mô hình RNN, GRU, LSTM và tạo các phương pháp đánh giá ở Mục 4.2

- Wandb: Một công cụ tiện ích cho việc quan sát kết quả thực nghiệm, hỗ trợ xác định bộ siêu tham số điều chỉnh tối ưu cho mô hình.

- Kaggle: Môi trường chính phục vụ cho việc chạy các mô hình Pytorch, dùng công cụ Wandb thông qua ngôn ngữ lập trình Python.

Hình 5 Các công cụ hỗ trợ thực nghiệm.

Mô hình đề xuất

Mô hình RNN (Recurrent Neural Network) thực hiện tác vụ tuần tự cho từng phần tử trong chuỗi, với đầu vào và đầu ra phụ thuộc vào các phép tính trước đó, cho phép nó nhớ thông tin để dự đoán bước hiện tại Nhờ vào các kết nối tuần hoàn, RNN mạnh mẽ trong việc mô hình hóa dữ liệu dạng chuỗi, thường được sử dụng cho các nhiệm vụ dán nhãn và dự đoán trình tự trong xử lý ngôn ngữ tự nhiên.

Mạng neural hồi quy (RNNs) là một loại mạng neural cho phép sử dụng đầu ra làm đầu vào, đồng thời duy trì các trạng thái ẩn.

Thông thường cấu trúc mô hình có dạng tương tự như sau [21]:

Hình 6 Cấu trúc của mô hình RNN [21].

Tại mỗi bước , giá trị kích hoạt 𝑡 𝑎 và đầu ra 𝑦 được biểu diễn như sau:

𝑦) Với 𝑊 𝑎𝑥 ,𝑊 𝑎𝑎 ,𝑊 𝑦𝑎 ,𝑏 𝑏 𝑎 , 𝑦 là các hệ số được chia sẻ tạm thời và g g1, 2 là các hàm kích hoạt.

Hình 7 Cấu trúc của 1 đơn vị trong mô hình RNN [21].

Mô hình GRU (Gated Recurrent Unit) là một kiến trúc mạng nơ-ron hồi quy (RNN) phổ biến trong xử lý ngôn ngữ tự nhiên và dữ liệu chuỗi thời gian GRU được phát triển để khắc phục vấn đề mất mát thông tin dài hạn trong huấn luyện mạng nơ-ron hồi quy truyền thống Quy trình hoạt động của GRU tương tự như RNN, nhưng khác biệt ở các hoạt động bên trong đơn vị GRU So với LSTM, GRU có cấu trúc đơn giản hơn và sử dụng ít tham số hơn, giúp quá trình huấn luyện diễn ra nhanh chóng hơn.

Mô hình GRU, tương tự như RNN, rất hiệu quả trong lĩnh vực xử lý ngôn ngữ tự nhiên (NLP) Đặc biệt, GRU còn khắc phục tốt vấn đề học tập tuần tự và hiện tượng vanishing gradient descent mà mạng RNN tiêu chuẩn thường gặp phải.

Mô hình GRU bao gồm hai cổng chính: cổng cập nhật và cổng đặt lại, giúp điều chỉnh quá trình truyền thông tin qua các bước thời gian trong mạng nơ ron Cổng cập nhật xác định thông tin cần được cập nhật từ các bước thời gian trước, trong khi cổng đặt lại quyết định thông tin nào cần bị bỏ qua Mỗi cổng có trọng lượng và thành kiến riêng, nhưng trọng lượng và thành kiến cho tất cả các nút trong một lớp là giống nhau.

Hình 8 Cấu trúc của 1 đơn vị trong mô hình GRU [21].

Các phương trình đặc trưng của kiến trúc:

𝑐 : trạng thái ẩn của đơn vị tại thời điểm t

𝑎 : giá trị kích hoạt của đơn vị tại thời điểm t

Mạng bộ nhớ dài-ngắn (Long Short Term Memory networks - LSTM), được giới thiệu bởi Hochreiter & Schmidhuber (1997), là một loại mạng thần kinh hồi quy (RNN) trong học sâu LSTM, với khả năng học các phụ thuộc xa, không chỉ xử lý các điểm dữ liệu đầu vào riêng lẻ mà còn có thể xử lý toàn bộ chuỗi dữ liệu Điều này đặc biệt hữu ích trong các bài toán xử lý ngôn ngữ tự nhiên (NLP), nơi cần phân tích mối quan hệ giữa các từ trong một đoạn văn.

Mô hình LSTM (Long Short-Term Memory) được thiết kế để ghi nhớ thông tin qua khoảng cách và thời gian dài, điều này trái ngược với RNN (Recurrent Neural Network), nơi mà khả năng nhớ thông tin giảm sút khi khoảng cách giữa các dữ liệu ngày càng lớn Trong khi RNN gặp khó khăn trong việc suy luận các câu trả lời phù hợp do yêu cầu về ngữ cảnh, LSTM tự động duy trì thông tin mà không cần quá trình huấn luyện phức tạp, giúp cải thiện hiệu suất trong việc xử lý văn bản dài và phức tạp.

Giống như RNN và GRU, LSTM có khả năng ghi nhớ và mô hình hóa thông tin trong chuỗi đầu vào, giúp nó thực hiện hiệu quả các nhiệm vụ trong xử lý ngôn ngữ tự nhiên (NLP).

Hệ thống mạng LSTM bao gồm các cell và ba cổng: cổng vào (input gate), cổng ra (output gate) và cổng quên (forget gate) Các cell có chức năng ghi nhớ giá trị trong các khoảng thời gian tùy ý, trong khi ba cổng này điều chỉnh luồng thông tin vào và ra khỏi cell.

Mạng RNN tiêu chuẩn sử dụng một tầng ẩn với hàm tanh, trong khi LSTM có cấu trúc phức tạp hơn với bốn tầng ẩn, bao gồm ba tầng sigmoid và một tầng tanh Các tầng này tương tác theo một cấu trúc đặc biệt, tạo ra sự khác biệt rõ rệt so với kiến trúc đơn giản của RNN.

Hình 9 Cấu trúc của 1 đơn vị trong mô hình LSTM [21].

Các phương trình đặc trưng của kiến trúc:

𝑐 : trạng thái ẩn của đơn vị tại thời điểm t

𝑎 : giá trị kích hoạt của đơn vị tại thời điểm t

THỰC NGHIỆM VÀ KẾT QUẢ

Dữ liệu

4.1.1 Giai đoạn thu thập dữ liệu

Trong giai đoạn thu thập dữ liệu, chúng tôi đã sử dụng công cụ Selenium để thu thập thông tin tài chính từ nhiều nguồn đáng tin cậy như cafef.vn, vtv.vn, tpo.vn, vnexpress.net, dantri.com.vn, nhandan.vn, baomoi.com và vietnamplus.vn Các nguồn này được lựa chọn vì chúng cung cấp thông tin tài chính cập nhật liên tục, đầy đủ và cần thiết cho nghiên cứu của chúng tôi Theo lý thuyết, phương pháp quan sát cho phép chúng tôi ghi lại có kiểm soát các thông tin ảnh hưởng đến tổ chức Chúng tôi tập trung vào các tin tức hàng ngày và tìm kiếm những bài báo liên quan để phân tích các khía cạnh được đề cập, từ đó đưa ra quyết định phù hợp cho doanh nghiệp.

4.1.2 Mô tả khái quát bộ dữ liệu

Bộ dữ liệu ban đầu của chúng tôi bao gồm 27 khía cạnh phục vụ cho nhiệm vụ phân tích trong tài chính, dựa trên các nghiên cứu trước về ABSA Điểm đặc biệt là nhóm nghiên cứu tập trung vào tiếng Việt, yêu cầu xây dựng bộ dữ liệu tương ứng với các bài báo tiếng Việt đã thu thập Với nguồn lực và thời gian hạn chế cho khóa luận, nhóm quyết định sử dụng API của OpenAI để áp dụng ChatGPT trong việc đánh giá ảnh hưởng của 27 khía cạnh, bao gồm cả khía cạnh tích cực.

20 tiêu cực) qua 2000 bài báo Sau đây là kết quả thống kê dữ liệu ChatGPT sinh ra:

Hình 10 Tỉ lệ giá trị không ảnh hưởng (0.0) trong mỗi khía cạnh của dữ liệu.

Theo sơ đồ, có 8 khía cạnh có tỷ lệ phần trăm giá trị không ảnh hưởng dưới 60% trên tổng số 2000 bài báo Ngược lại, một số khía cạnh khác có giá trị không ảnh hưởng gần 100% Điều này cho thấy nhóm cần loại bỏ những khía cạnh không có ý nghĩa ảnh hưởng Sau khi loại bỏ các khía cạnh không cần thiết, bộ dữ liệu của chúng tôi còn lại 8 khía cạnh quan trọng, bao gồm: “Reputation” (Danh tiếng của công ty) và “Financial” (Tài chính).

Regulatory factors play a crucial role in shaping market dynamics, influencing risks associated with investments Understanding fundamentals, such as the P/E and P/B ratios, as well as the liabilities to asset ratio, is essential for evaluating financial health Market conditions significantly impact volatility, affecting both risk levels and investment strategies.

Hình 11 Bộ dữ liệu sau khi chọn lọc các khía cạnh cần thiết.

Sau khi áp dụng các biện pháp chọn lọc và trích xuất khía cạnh, chúng tôi đã thu thập thêm dữ liệu dựa trên 8 khía cạnh đã được lựa chọn Cuối cùng, nhóm đã có một bộ dữ liệu với 10,000 bài báo.

4.1.3 Giai đoạn xử lý dữ liệu

Chúng tôi đánh giá độ chính xác của API OpenAI trong phân tích xúc cảm bằng cách thực hiện gán nhãn nhiều lần cho một bài báo Để chọn lọc dữ liệu, chúng tôi tính toán phương sai giữa các lần gán nhãn, chỉ giữ lại những dữ liệu có phương sai thấp hơn 0.2.

𝜎 2 : là phương sai của giá trị nhãn dữ liệu.

𝑋 : là giá trị nhãn dữ liệu.

𝜇 : là giá trị trung bình của nhãn dữ liệu qua 3 lần gán nhãn.

𝑁 : là số lần gán nhãn dữ liệu.

Chúng tôi đã thu thập được giá trị đánh giá khách quan cho từng nhãn dữ liệu, đảm bảo rằng qua nhiều lần gán nhãn, ChatGPT vẫn cho ra cùng một giá trị Dưới đây là kết quả tính toán phương sai qua nhiều lần gán nhãn lặp lại.

Hình 12 Phương sai của các nhãn qua ba lần gán nhãn bằng chat GPT.

Kết quả cho thấy qua ba lần gán nhãn, ChatGPT không có độ lệch phương sai vượt quá 0.2, do đó nhóm quyết định giữ lại giá trị gán nhãn trong đợt 1 làm đại diện cho bộ dữ liệu vì không có nhiều sự thay đổi Sau khi hoàn tất gán nhãn, chúng tôi đã thống kê tần suất ảnh hưởng của các nhãn trong dữ liệu và trực quan hóa chúng bằng biểu đồ histogram.

Biểu đồ histogram cho thấy tần suất giá trị tác động của từng khía cạnh đến dữ liệu tin tức, với phần lớn dữ liệu tập trung quanh giá trị không ảnh hưởng và trải dài từ -1 đến 1 Chúng tôi đã tiến hành tiền xử lý dữ liệu ngôn ngữ tự nhiên bằng các phương pháp như đánh dấu và tách từ, loại bỏ dấu câu và ký tự đặc biệt, chuyển đổi văn bản thành chữ thường, và loại bỏ stopwords Sau đó, chúng tôi thực hiện vectơ hóa văn bản để chuyển đổi văn bản thành các vectơ số học, giúp mô hình học máy hiểu và xử lý dữ liệu Cuối cùng, để chọn lọc dữ liệu phù hợp cho mô hình, chúng tôi sử dụng hệ số z-score trong khoảng (-2,2), tương ứng với độ dài từ 66 đến 365 từ, với độ dài dữ liệu trung bình khoảng

Bài viết này phân tích một bộ dữ liệu gồm 216 từ với độ lệch chuẩn khoảng 75 Kết quả cho thấy khoảng 96.79% tin tức có độ dài phù hợp với phân phối trung bình độ dài tổng thể.

24 của các tin tức trong bộ dữ liệu.

Hình 14 Khoảng dữ liệu phù hợp được lựa chọn

Chúng tôi đã thống kê và trực quan hóa các từ ngữ phổ biến trong bộ dữ liệu để đảm bảo tính đầy đủ và sự phù hợp với lĩnh vực phân tích Việc này giúp chúng tôi tập trung vào các khía cạnh quan trọng trong dự đoán mô hình Cuối cùng, chúng tôi hình thành và xây dựng bộ từ điển để tích hợp vào mô hình học máy.

Hình 15 Các từ ngữ phổ biến trong bộ dữ liệu.

Kết quả thực nghiệm

Trong phần kết quả thực nghiệm, nhóm nghiên cứu sẽ cung cấp thông tin chi tiết về việc điều chỉnh kích thước từ điển và siêu tham số Mô hình đề xuất sẽ được trình bày kèm theo kết quả thực nghiệm và nhận định cho từng bước Kết quả hiển thị loss trong suốt quá trình thực nghiệm sẽ được tính toán bằng phương pháp RMSE.

4.2.1 Tinh chỉnh kích thước từ điển

Trong lĩnh vực NLP, xây dựng bộ từ điển là bước quan trọng quyết định thông tin cho mô hình huấn luyện Nhận thức được tầm quan trọng này, nhóm đã đề xuất các bước để xây dựng bộ từ điển phù hợp với từng bài toán cụ thể cần giải quyết.

Hình 16 Tổng quan các bước xây dựng từ điển từ.

Để xây dựng bộ từ điển hiệu quả, cần chọn lọc từ ngữ từ mỗi khía cạnh đã liệt kê Việc này giúp mô hình học từ các bài báo không bị thiên lệch, tránh nhận quá nhiều thông tin cho một khía cạnh và đồng thời bảo đảm không mất đi thông tin quan trọng cho các khía cạnh khác.

Bộ từ điển có kích thước 1300 từ trong tổng số 29,718 từ độc đáo có thể có, với tần suất thấp nhất của từ/cụm từ là 142 lần trong các bài báo Điều này cho thấy rằng bộ từ điển sẽ tránh đưa vào những từ có tần suất xuất hiện thấp (1 hoặc 2 lần), nhằm nâng cao hiệu quả của mô hình.

28 tin không cần thiết hoặc thậm chí là học không hiệu quả (có dấu hiệu overfitting nhanh).

Nhóm đã áp dụng bộ từ điển 1000 từ hàng đầu để điều chỉnh kích thước từ điển, nhằm cân bằng giữa việc tránh overfitting và bảo toàn thông tin ngữ cảnh khi đưa vào mô hình Bộ từ điển này cũng sẽ được sử dụng cho các bước thực nghiệm tiếp theo.

4.2.2 Tinh chỉnh siêu tham số Ở bước tinh chỉnh siêu tham số, nhóm nghiên cứu nhận thấy để xác định được mô hình có thể đề xuất phải bao gồm: cấu trúc mô hình là gì?, tham số điều chỉnh bao nhiêu là tối ưu? Với câu hỏi đầu tiên để trả lời được, nhóm nghiên cứu cần đi so sánh kết quả đánh giá giữa các cấu trúc mô hình (RNN/GRU/LSTM) với nhau nhưng để so sánh được ta cần trả lời câu hỏi thứ 2 ở mức độ cụ thể hơn là tham số điều chỉnh ở mỗi cấu trúc bao nhiêu là tối ưu? Thì mới có thể đi đến so sánh kết quả giữa các cấu trúc khác nhau và đề xuất mô hình Nhìn chung sẽ bao gồm 2 bước cụ thể trong tinh chỉnh siêu tham số:

1 Sử dụng Grid Search cho mỗi cấu trúc mô hình RNN/GRU/LSTM.

2 Lọc mô hình có bộ tham số tối ưu tương ứng từng cấu trúc trong tất cả mô hình mà Grid Search sinh ra.

Nhóm nghiên cứu sẽ sử dụng thuật toán tối ưu siêu tham số Grid Search, như đã đề cập trong mục 2.5, cùng với các tham số điều chỉnh được liệt kê trong bảng.

Bảng 1 Danh sách siêu tham số dùng cho Grid Search.

Tên tham số điều chỉnh Giá trị tối ưu bằng Grid Search

Số lượng lớp ẩn trong cấu trúc mô hình

Số lượng node trong mỗi lớp ẩn [64, 128, 256]

Thuật toán tối ưu [“Adam”, “Sgd”]

Nhóm nghiên cứu đã tối ưu hóa các tham số và điều chỉnh thời gian thực nghiệm cùng với tốc độ xử lý của phần cứng hiện có, nhằm xác định quá trình huấn luyện cho mỗi mô hình được sinh ra từ Grid Search với 20 epochs Dưới đây là kết quả thực nghiệm đã thu được.

Hình 17 Kết quả thực nghiệm loss validation Grid Search cho mỗi cấu trúc mô hình.

Từ kết quả trên, nhóm nghiên cứu có thể thấy được một số nhận định trên tổng

1458 mô hình được sinh ra từ Grid Search qua cả 3 cấu trúc mô hình Dựa theo mức

Kết quả loss validation của ba cấu trúc mô hình RNN, GRU và LSTM cho thấy sự phân bố chủ yếu quanh giá trị 0.34 Tuy nhiên, RNN có bộ tham số tối ưu với loss validation dao động từ 0.32 đến 0.30, trong khi LSTM đạt mức thấp hơn là 0.28 GRU đạt kết quả tốt nhất với loss validation thấp nhất, vượt qua ngưỡng 0.28 Nhìn chung, nhóm đã có cái nhìn sơ lược từ kết quả thực nghiệm, nhưng để có đánh giá cụ thể hơn, cần tiến hành bước 2 là lọc mô hình với bộ tham số tối ưu cho từng cấu trúc từ tất cả các mô hình do Grid Search tạo ra.

Hình 18 Xếp hạng 9 mô hình cấu trúc LSTM tiềm năng hàng đầu sinh từ Grid

Để minh họa cho tiêu chí chọn lọc ở bước 2, nhóm sử dụng cấu trúc LSTM làm ví dụ Hình ảnh trên thể hiện các mô hình tiềm năng nhất, được lựa chọn từ các mô hình sinh ra qua Grid Search, với hai tiêu chí đánh giá theo mức độ ưu tiên giảm dần.

1 Độ lệch giữa loss train với loss validation là nhỏ nhất Đây là điều kiện tối thiểu để đảm bảo mô hình này khi đã được huấn luyện 20 epochs chưa có dấu hiệu overfitting Vì thế ta có thể tiếp tục lấy mô hình này huấn luyện và kỳ vọng giá trị ở loss validation tiếp tục giảm.

2 Loss validation là thấp nhất Không dừng lại chỉ đảm bảo mô hình chưa overfitting thì cần tối ưu hơn khi chọn lựa bộ siêu tham số tốt nhất với cấu trúc tương ứng.

Theo 2 tiêu chí đã nêu trên và qua biểu đồ nhóm thể hiện, có thể thấy được mô hình ID 20 sẽ là mô hình tiềm năng vì có độ lệch giữa loss train với loss validation cũng như giá trị loss validation là thất nhất Quá trình chọn này sẽ thực hiện tương tự với cấu trúc mô hình RNN, GRU Sau cùng, nhóm sẽ trình bày những bộ siêu tham số tối ưu tương ứng với mỗi cấu trúc mô hình:

Bảng 2 Trình bày bộ siêu tham số tối ưu của mỗi cấu trúc mô hình.

Số lượng lớp ẩn trong cấu trúc mô hình

Số lượng đặc trưng trong mỗi lớp ẩn

Thuật toán tối ưu Adam Adam Adam

Sau khi xác định bộ siêu tham số cho từng cấu trúc, nhóm đã tiến hành huấn luyện với số lượng epochs tăng lên cho mỗi mô hình: RNN với 100 epochs, GRU với 100 epochs và LSTM với 400 epochs Dưới đây là kết quả loss đạt được khi tiếp tục huấn luyện các mô hình này với các bộ siêu tham số tối ưu.

Hình 19 Loss train & validation các mô hình có bộ siêu tham số tối ưu.

Sau khi tiếp tục huấn luyện, RNN đạt được kết quả loss validation tối ưu nhất là 0.294, cho thấy hiệu suất tốt hơn so với các mô hình khác Kết quả này phản ánh sự cải thiện đáng kể trong quá trình đào tạo.

Kết quả dự đoán của mô hình

Trong quá trình thực nghiệm đánh giá và lựa chọn mô hình, chúng tôi đã tiến hành dự đoán kết quả dựa trên các bài báo thực tế Dưới đây là bảng kết quả của các dự đoán từ mô hình mà chúng tôi đề xuất.

Hình 20 Kết quả dự đoán bằng mô hình đề xuất.

Hình 21 Hình ảnh trực quan hoá kết quả dự đoán của chúng tôi.

Tiêu đề	Building A System For Collecting And Processing Financial Finances
Tác giả	Nguyen Dang Thai Bao, Tran Quang Trieu, Nguyen Van Thanh, Tran Anh Khoa
Người hướng dẫn	PhD. Nguyen Chi Kien
Trường học	Industrial University of Ho Chi Minh City
Chuyên ngành	Data Science
Thể loại	Final Project
Năm xuất bản	2024
Thành phố	Ho Chi Minh City

Định dạng
Số trang	55
Dung lượng	5,66 MB