GIỚI THIỆU ĐỀ TÀI
Giới thiệu đề tài
Sự phát triển của IoT (Internet of Things) đã tạo ra cơ hội mới cho việc thu thập và phân tích dữ liệu từ hệ thống cảm biến, dẫn đến một lượng dữ liệu lớn và thách thức trong việc phân tích dữ liệu chuỗi thời gian Mặc dù các cảm biến hoạt động độc lập, chúng có thể được kết nối trong một mạng đồ thị chặt chẽ, cho phép khai thác các đặc trưng dữ liệu và mối liên kết giữa các chuỗi dữ liệu lân cận để dự đoán thông tin trong chuỗi đa biến thời gian thực Các lĩnh vực như giao thông, thời tiết, và địa chấn đang sử dụng phân tích dữ liệu chuỗi thời gian, với các kỹ thuật như ARIMA và LSTM để giải quyết các vấn đề này Dữ liệu chuỗi thời gian thường có tính xu hướng và chu kỳ, ảnh hưởng đến phân tích và mối tương quan giữa các chuỗi dữ liệu, cùng với khó khăn từ nhiễu do yếu tố môi trường Vì vậy, việc phát triển các phương pháp dự đoán hiệu quả cho dữ liệu chuỗi thời gian là rất cần thiết.
Mô hình "2 không khí dựa trên Graph Neural Network" nhằm xây dựng một hệ thống tổng quát có khả năng thể hiện sự phụ thuộc giữa các chuỗi dữ liệu khác nhau và mối quan hệ tương đồng giữa chúng Mặc dù các cảm biến hoạt động độc lập, nhưng có thể thiết lập một mạng đồ thị kết nối chặt chẽ giữa chúng Đây là mục tiêu quan trọng trong việc dự đoán dữ liệu chuỗi thời gian trong lĩnh vực khoa học máy tính.
Mô tả bài toán dự đoán chất lượng không khí dựa trên Graph
Đầu vào của mô hình là tập dữ liệu có cấu trúc đồ thị có dạng
Kích thước của mỗi khối dữ liệu được xác định bởi biến 𝑏𝑎𝑡𝑐ℎ, trong khi 𝑛𝑜𝑑𝑒𝑠 đại diện cho số đỉnh của đồ thị và 𝑛_𝑓𝑒𝑎𝑡 là các đặc trưng tại mỗi đỉnh Dữ liệu đầu vào được mô hình hóa thông qua ma trận Laplacian 𝐿 = 𝐷 − 𝐴, mà là ma trận thể hiện mối quan hệ của đồ thị 𝐺 = (𝑉, 𝐸), với |𝑉| = 𝑛.
D là ma trận bậc (degree matrix) với 𝐷(𝑖, 𝑖) là bậc của đỉnh 𝑖𝑡ℎ, A là ma trận kề với 𝐴(𝑖, 𝑗) = 1 nếu và chỉ nếu (𝑖, 𝑗) ∈ 𝐸
Dự đoán dữ liệu chuỗi thời gian đa biến sử dụng thông tin từ mạng lưới cảm biến và yếu tố không gian để xây dựng cấu trúc đồ thị Mỗi đỉnh trong đồ thị đại diện cho một trạm thu dữ liệu, trong khi trọng số của các đường nối giữa các đỉnh phản ánh khoảng cách địa lý thực tế.
Ví dụ với các chỉ số dữ liệu (𝑃𝑀2.5, 𝑃𝑀10, 𝑁𝑂2, 𝐶𝑂, 𝑆𝑂2, 𝑂3, 𝐴𝑄𝐼, 𝑙𝑎𝑡𝑖𝑡𝑢𝑑𝑒, 𝑙𝑜𝑛𝑔𝑖𝑡𝑢𝑑𝑒) tại mỗi đỉnh, trong đó latitude và longitude giúp xác
3 định vị trí đỉnh trong đồ thị, đầu ra của mô hình sẽ là giá trị dự đoán chỉ số chất lượng không khí AQI (Air Quality Indexing).
Mục tiêu và nhiệm vụ của luận văn
Mục tiêu của luận văn là nghiên cứu và phát triển mô hình dự đoán dữ liệu chuỗi thời gian đa biến thông qua việc áp dụng các phương pháp học sâu kết hợp với lý thuyết phổ của đồ thị.
- Hiểu và sử dụng được các mô hình học sâu, các lý thuyết đồ thị và phổ đồ thị cho biểu diễn dữ liệu
Trong bài toán dự đoán dữ liệu chuỗi thời gian đa biến, cần xác định rõ công việc sẽ tập trung giải quyết, bao gồm đầu vào và đầu ra của mô hình Cần làm rõ liệu mô hình có sử dụng dataset chứa dữ liệu từ cảm biến hay không, cũng như đặc trưng của dataset này liên quan đến các chỉ số không khí.
Gần đây, các phương pháp giải quyết bài toán, đặc biệt là những phương pháp dựa trên mô hình học sâu, đã được nghiên cứu và áp dụng rộng rãi Việc phân tích các phương pháp này cho phép nhận diện rõ ràng ưu và nhược điểm của từng cách tiếp cận, từ đó giúp tối ưu hóa hiệu quả giải quyết vấn đề.
- Đưa ra đề xuất có thể cải thiện hiệu suất của mô hình dựa trên thực nghiệm
Học viên sẽ nắm vững các vấn đề và thách thức trong việc áp dụng học sâu và học máy vào giải quyết bài toán thực tế Đồng thời, họ sẽ đánh giá tính khả thi của các phương pháp này trong thực tiễn và có cái nhìn chính xác hơn về học sâu và học máy.
Từ những mục tiêu trên, học viên đề ra các nhiệm vụ cần thực hiện trong quá trình làm luận văn:
Bài toán dự đoán dữ liệu chuỗi thời gian là một lĩnh vực nghiên cứu quan trọng, với nhiều công trình liên quan đã được thực hiện Các phương pháp giải quyết bài toán này bao gồm hồi quy tuyến tính, mạng nơ-ron và mô hình ARIMA, mỗi phương pháp đều có những ưu điểm và nhược điểm riêng Hồi quy tuyến tính dễ áp dụng nhưng có thể không nắm bắt được các mối quan hệ phi tuyến, trong khi mạng nơ-ron mạnh mẽ nhưng yêu cầu nhiều dữ liệu và thời gian huấn luyện Mô hình ARIMA hiệu quả cho dữ liệu có tính mùa vụ nhưng cần điều chỉnh tham số cẩn thận Việc hiểu rõ các phương pháp này giúp cải thiện độ chính xác trong dự đoán dữ liệu chuỗi thời gian.
- Đề xuất các mô hình giúp cải thiện độ chính xác cho bài toán dự đoán dữ liệu chuỗi thời gian
- Thực nghiệm, đánh giá kết quả của mô hình đề xuất
- Kết luận, nêu ra các vấn đề còn tồn đọng, đồng thời đưa ra các dự định nghiên cứu tương lai.
Giới hạn đề tài
Dự đoán dữ liệu chuỗi thời gian là một phương pháp nghiên cứu phổ biến với nhiều kỹ thuật khác nhau Trong luận văn này, nội dung sẽ được giới hạn để tập trung vào các phương pháp cụ thể trong lĩnh vực này.
- Tập trung vào công việc trích xuất đặc trưng dữ liệu chuỗi thời gian đa biến và mô hình hóa dữ liệu dựa trên phổ đồ thị
- Các mô hình học sâu: CNN, LSTM, GNN
- Mô hình được đánh giá dựa trên độ đo MSE, RMSE, MAE, MAPE cho tác vụ trích xuất đặc trưng của dữ liệu chuỗi thời gian.
Đóng góp của luận văn
Trong luận văn, học viên đề xuất phương pháp giúp cải thiện hiệu quả của mô hình dự đoán
- Sử dụng mạng nơ-ron tích chập đồ thị vào trích xuất dữ liệu chuỗi thời gian tần suất cao
- Sử dụng phương pháp mô hình hóa dữ liệu chuỗi thời gian dựa trên lý thuyết phổ đồ thị
- Kết hợp thông tin phân bố không gian trong mạng các cảm biến vào đặc trưng dữ liệu chuỗi thời gian.
Tóm tắt nội dung
Nội dung của luận văn gồm 5 chương:
Chương 1 giới thiệu về nhu cầu quan trọng của việc dự đoán trong dữ liệu chuỗi thời gian, đặc biệt là trong việc dự đoán chất lượng không khí Bài viết mô tả bài toán dự đoán này dựa trên mạng nơ-ron tích chập đồ thị, cùng với tập dữ liệu chuỗi thời gian được sử dụng và phương pháp đánh giá hiệu quả của dự đoán.
Chương 2 CƠ SỞ KIẾN THỨC khám phá các khái niệm cơ bản trong học sâu, bao gồm mạng nơ-ron tích chập, mạng nơ-ron tích chập đồ thị, hồi quy dịch chuyển trung bình và mạng ghi nhớ dài-ngắn hạn Những kiến thức này đóng vai trò quan trọng trong việc phát triển các mô hình học máy hiệu quả và ứng dụng trong nhiều lĩnh vực khác nhau.
Chương 3 trình bày các công trình nghiên cứu liên quan, bắt đầu từ nghiên cứu mạng học sâu trên đồ thị của Stefan Bloemheuvel, Jurgen van den Hoogen, Dario Jozinović, Alberto Michelini và Martin Atzmueller (2022) Nghiên cứu này đã mở ra nhiều hướng đi mới cho bài toán dự đoán trong dữ liệu chuỗi thời gian, đồng thời tạo nền tảng quan trọng cho nghiên cứu của học viên trong luận văn.
Chương 4 trình bày chi tiết các mô hình đề xuất của học viên nhằm dự đoán chất lượng không khí, kèm theo các kết quả thực nghiệm đã thu được.
Chương 5 KẾT LUẬN tổng kết những đóng góp quan trọng của luận văn về dự đoán dữ liệu chuỗi thời gian, đồng thời chỉ ra các vấn đề còn tồn tại trong nghiên cứu này Bên cạnh đó, chương cũng đề cập đến hướng nghiên cứu trong tương lai, nhằm cải thiện các phương pháp dự đoán và mở rộng ứng dụng của chúng trong các lĩnh vực khác nhau.
CƠ SỞ KIẾN THỨC
Đồ thị
Học sâu với đồ thị tập trung vào cấu trúc dữ liệu đồ thị, thể hiện mối quan hệ giữa các đỉnh (vertices) được kết nối bằng các cạnh (edges) Đồ thị được định nghĩa là 𝐺 = (𝑉, 𝐸), trong đó V là tập đỉnh và E là tập cạnh Mỗi cạnh 𝑒 𝑖𝑗 = (𝑥 𝑖 , 𝑥 𝑗 ) kết nối hai đỉnh 𝑥 𝑖 và 𝑥 𝑗 Một phương pháp phổ biến để biểu diễn đồ thị là sử dụng ma trận kề (Adjacency matrix) 𝐴 ∈ ℝ 𝑁×𝑁, với 𝑁 = |𝑉| Ma trận kề là ma trận vuông có giá trị đường chéo chính 𝐴 𝑖𝑗 = 1 nếu tồn tại cạnh nối đỉnh 𝑥 𝑖 đến 𝑥 𝑗, ngược lại 𝐴 𝑖𝑗 = 0.
Số lượng đỉnh lân cận của đỉnh 𝑥 được xác định dựa trên bậc của đỉnh này, được biểu diễn qua công thức 𝐷 𝑖𝑖 = ∑ 𝐴 𝑗 𝑖𝑗, trong đó D là ma trận bậc Lưu ý rằng các cạnh trong đồ thị có thể có hướng.
Cạnh trong đồ thị có thể được phân loại thành hai loại: cạnh có hướng và cạnh vô hướng Cạnh có hướng chỉ định một hướng cụ thể từ đỉnh nguồn đến đỉnh đích, trong khi cạnh vô hướng không liên quan đến khái niệm về đỉnh nguồn và đỉnh đích.
Các đỉnh, cạnh và toàn bộ biểu đồ có thể có các các đặc trưng (features) của dữ liệu, ví dụ: vector 𝑥 = (𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 ) là một vector đặc trưng của đỉnh 𝑎
Hình 2.1: Vector đặc trưng của mỗi đỉnh thuộc đồ thị
Lý thuyết phổ đồ thị
Lý thuyết phổ đồ thị là nghiên cứu về các tính chất của đồ thị thông qua công cụ đại số, tập trung vào mối quan hệ giữa giá trị riêng và vector riêng, với các ví dụ điển hình như ma trận kề và ma trận Laplacian.
Ma trận Laplacian: Cho đồ thị 𝐺 = (𝑉, 𝐸), với |𝑉| = 𝑛, ma trận Laplacian là ma trận thể hiện mối liên hệ của đồ thị G, có kích thước 𝑛 × 𝑛
Trong đó, D là ma trận bậc (degree matrix) với 𝐷(𝑖, 𝑖) là bậc của đỉnh 𝑖𝑡ℎ,
A là ma trận kề với 𝐴(𝑖, 𝑗) = 1 nếu và chỉ nếu (𝑖, 𝑗) ∈ 𝐸 Vì vậy, ta có thể biểu diễn ma trận Laplacian như sau:
Hình 2.2: Tính ma trận Laplacian từ ma trận bậc và ma trận kề
Trong đồ thị G, phép nhân một vector với ma trận Laplacian thể hiện sự sai biệt của một đỉnh đối với các đỉnh lân cận
Phần tử thứ 𝑖𝑡ℎ của phép nhân 𝐿𝑥 bằng tổng của các hiệu từ phần tử thứ 𝑖𝑡ℎ đến các phần tử còn lại:
Nếu một đỉnh trong đồ thị G có vector đặc trưng 𝑣, thì dạng toàn phương 𝑣 𝑡 𝐿𝑣 mô tả chính xác mối quan hệ của đỉnh này với các đỉnh lân cận Công thức 𝑣 𝑡 𝐿𝑣 được tính bằng tổng bình phương của các hiệu giữa giá trị của đỉnh và các giá trị của đỉnh lân cận.
Graph Neural Network
Mạng nơ-ron đồ thị (Graph Neural Networks - GNNs) là một mô hình học sâu dựa trên cấu trúc đồ thị Trước đây, GNNs được áp dụng thông qua hai phương pháp chính: phương pháp phổ (Spectral method) và phương pháp không gian (Spatial methods) Phương pháp phổ sử dụng vector riêng và trị riêng của ma trận để thực hiện tích chập thông qua phép biến đổi Fourier đồ thị và nghịch đảo biến đổi Fourier đồ thị Biến đổi đầu vào 𝑥 được định nghĩa là 𝐹(𝑥) = 𝑈 𝑇 𝑥 và 𝐹 −1 (𝑥) = 𝑈𝑥, trong đó U là ma trận vector riêng của ma trận chuẩn hóa Laplacian.
Trong đó, D là ma trận bậc của ma trận kề A và I là ma trận đơn vị
Phương pháp không gian sử dụng kỹ thuật message passing để xác định các đỉnh lân cận và thực hiện tính toán giới hạn đến lân cận thứ k Mỗi đỉnh được cập nhật giá trị mới thông qua hàm 𝑓, được biểu diễn bởi hàm 𝑍 𝑓(𝐺)𝑋, trong đó 𝐺 là ma trận chuẩn hóa Laplacian và 𝑋 là đặc trưng của đỉnh.
(node features) Tuy nhiên, vấn đề gặp phải với phương pháp không gian là định nghĩa lớp tích chập kết hợp với k đỉnh lân cận
Hình 2.3: Đồ thị được áp dụng bộ lọc F vào mỗi đỉnh
𝐹 được xác định bởi một hàm số 𝑔 𝜃 = 𝑑𝑖𝑎𝑔(𝜃) trong đó 𝜃 là bộ tham số cần học
Khi áp dụng hàm số 𝑔 𝜃 tại mỗi đỉnh, đồng nghĩa thực hiện phép toán 𝑔 𝜃 ×
Trong công thức 𝑥 = 𝑈𝑔 𝜃 (Λ)𝑈 𝑇, 𝑥 đại diện cho vector đặc trưng, Λ là ma trận giá trị riêng, và 𝑈 là ma trận vector riêng của ma trận chuẩn hóa đồ thị Laplacian Điều này cho thấy rằng hàm số 𝑔 𝜃 (Λ) xác định ma trận giá trị riêng của L, từ đó giúp hiểu rõ hơn về cấu trúc và tính chất của đồ thị.
Tối ưu bằng cách áp dụng đa thức Chebyshev (Hammond, Vandergheynst
& Gribonval, 2011) và phương pháp chuẩn hóa, vì thế có thể tăng tốc độ học và tránh hiện tượng không học được gì (vanishing gradients)
Phương pháp không gian tập trung vào việc kết nối các đồ thị, trong khi phương pháp phổ dựa vào giá trị riêng và vector riêng của chúng Cách thức lan truyền được thể hiện như sau:
Hình 2.4: Phương thức lan truyền của mô hình
Trong đó, 𝐻 (𝑙) là ma trận của lớp kích hoạt thứ 𝑙𝑡ℎ, 𝜎 biểu thị hàm kích hoạt, 𝐷̃ = ∑ 𝐴̃ 𝑗 𝑖𝑗 là ma trận bậc; 𝐴̃ = 𝐴 + 𝐼 𝑁 là ma trận kề của đồ thị vô hướng
G được kết hợp với ma trận đơn vị để thể hiện kết nối của một đỉnh với chính nó, 𝑊 (𝑙) là ma trận trọng số huấn luyện.
Mô hình Artificial Neural Network
Mô hình Mạng nơ-ron nhân tạo, được giới thiệu bởi Hopfield vào năm 1988, là một hệ thống tính toán được phát triển dựa trên cấu trúc và nguyên lý hoạt động của các mạng nơ-ron.
13 thần kinh trong não người nhằm thực hiện một tác vụ nào đó với tập dữ liệu đầu vào
Mạng nơ-ron thần kinh được hình thành từ nhiều nơ-ron sinh học kết nối và hoạt động phối hợp Mỗi nơ-ron này bao gồm các thành phần cơ bản như đuôi gai, thân nơ-ron và sợi trục, được mô tả trong Hình 3.1.
Hình 2.5: Các thành phần cơ bản của một nơ-ron sinh học
Nơ-ron thần kinh tiếp nhận thông tin từ các đuôi gai (dendrites), sau đó xử lý và tổng hợp tại thân nơ-ron (cell body), cuối cùng truyền kết quả đến các nơ-ron khác qua sợi trục (axon).
Có thể dễ dàng rút ra nhận xét rằng mạng nơ-ron thần kinh nhận nhiều thông tin đầu vào nhưng chỉ đưa ra một kết quả duy nhất
Mạng nơ-ron nhân tạo (ANN) được xây dựng từ nhiều nơ-ron gọi là perceptron, hoạt động tương tự như mạng nơ-ron thần kinh tự nhiên Cấu trúc của perceptron được minh họa trong Hình 3.2.
Sợi trục (Axon) Thân nơ-ron
- 𝑥 1 , 𝑥 2 , 𝑥 3 , … 𝑥 𝑛 là các thông tin dữ liệu đầu vào
- Phép cộng và hàm kích hoạt chính là các phép tính toán và tổng hợp các thông tin dữ liệu đầu vào
- 𝑤 0 , 𝑤 1 , 𝑤 2 , 𝑤 3 , … 𝑤 𝑛 là các trọng số cần phải học, đóng vai trò tham gia quá trình tính toán và chuyển đổi các thông tin đầu vào thành thông tin đầu ra
- 𝑦 là dữ liệu đầu ra
Hình 2.6: Cấu trúc của một perceptron
Cụ thể hơn, phương thức tính toán và tổng hợp dữ liệu của một perceptron được mô tả theo từng bước sau:
1 Sau khi tiếp nhận tập các dữ liệu đầu vào {𝑥 1 , 𝑥 2 , … , 𝑥 𝑛 }, perceptron thực hiện phép cộng bằng cách tính tổng giá trị tất cả các tích số của từng cặp dữ liệu đầu vào và giá trị trọng số tương ứng
2 Kết quả 𝑎 của phép cộng được đưa vào hàm kích hoạt là hàm không tuyến tính như sigmoid, tanh, ReLU, LeakyReLU (Hình 3.3)
Hình 2.7: Một số hàm kích hoạt được sử dụng trong perceptron
3 Sau đó, perceptron thực hiện phép so sánh giá trị nhận được từ hàm kích hoạt 𝑓(𝑎) với một giá trị ngưỡng (threshold) là t cho trước nhằm xác định giá trị đầu ra 𝑦̂ được hiểu là tín hiệu kích hoạt của perceptron
Giả sử tín hiệu kích hoạt là 1 và tín hiệu không kích hoạt là 0, ta có:
Hình 2.8: Cấu trúc mô hình Artificial Neural Network
Bằng cách kết hợp nhiều perceptron, chúng ta tạo ra cấu trúc mô hình ANN, trong đó các perceptron được tổ chức thành các lớp với nhiệm vụ riêng biệt.
- Tầng dữ kiện (input layer) là tầng đầu tiên, thể hiện các dữ liệu đầu vào của mô hình
Tầng ẩn (hidden layer) là lớp trung gian trong mạng nơ-ron, thực hiện các phép toán để chuyển đổi dữ liệu đầu vào thành dữ liệu đầu ra Số lượng tầng ẩn có thể không giới hạn và phụ thuộc vào cách tiếp cận giải quyết bài toán cụ thể.
Tầng kết quả (output layer) là tầng cuối cùng của mô hình ANN, thể hiện dữ liệu đầu ra Số lượng tầng ẩn trong mô hình này không giới hạn và phụ thuộc vào bài toán cụ thể Khi có hơn một tầng ẩn, mô hình được gọi là học sâu.
Các tầng ẩn Tầng kết quả Đầu ra 1 Đầu ra m
Mô hình ghi nhớ dài-ngắn hạn
LSTM (Long Short-Term Memory) được phát triển để khắc phục những nhược điểm của RNN, như việc không duy trì dữ liệu trước đó và dễ dàng quên thông tin quan trọng RNN thường ghi đè hoàn toàn thông tin mới lên dữ liệu cũ, dẫn đến việc không thể chọn lọc thông tin quan trọng Ngược lại, LSTM được thiết kế để học các phụ thuộc dài hạn, cải thiện khả năng dự đoán bằng cách chọn lọc thông tin cần nhớ và giải quyết vấn đề vanishing gradient Mô hình LSTM chỉ lưu giữ thông tin cần thiết tại mỗi bước xử lý, vì thông tin phía sau thường chỉ liên quan đến một phần thông tin phía trước (Sepp Hochreiter & Jurgen Schmidhuber, 1997) Cấu trúc của mô hình LSTM được thể hiện trong hình 2.9.
Hình 2.9: Cơ chế hoạt động trong mô hình Long Short-Term Memory
Mỗi đơn vị LSTM bao gồm một cell và ba cổng xử lý: cổng quên, cổng cập nhật và cổng xuất Cell có chức năng ghi nhớ các giá trị trong một khoảng thời gian, trong khi ba cổng này điều chỉnh dòng dữ liệu Cơ chế hoạt động của mô hình LSTM diễn ra qua từng bước cụ thể.
1 Cổng quên (forget gate) là phần quyết định sẽ giữ lại bao nhiêu phần của vector cell state trước 𝑐 𝑡−1 với việc thực hiện phép tính toán đối với vector hidden state trước ℎ 𝑡−1 và vector biểu diễn thành phần dữ liệu thứ 𝑡, sau đó đưa kết quả qua hàm sigmoid:
Cổng cập nhật (update gate)
2 Cổng cập nhật (update gate) là phần quyết định sẽ giữ lại bao nhiêu phần từ vector hidden state trước ℎ 𝑡−1 và vector dữ liệu xt với phép tính sau:
3 Cổng xuất (output gate) là phần quyết định lấy bao nhiêu phần giá trị cell state trước 𝑐 𝑡−1 để trở thành giá trị của hidden state ℎ 𝑡 bằng phép tính:
CÔNG TRÌNH NGHIÊN CỨU LIÊN QUAN
Hồi quy dịch chuyển trung bình
Hồi quy dịch chuyển trung bình (Autoregressive Intergrated Moving
Mô hình hồi quy dịch chuyển trung bình (Average) được xây dựng dựa trên lý thuyết chuỗi dừng và phương sai có sai số không đổi, thường được biết đến với tên gọi ARIMA, thuộc nhóm phương pháp thống kê Mô hình này sử dụng thông tin trong quá khứ của chuỗi thời gian, bao gồm chuỗi tự hồi quy và chuỗi trung bình trượt, để dự báo Để áp dụng mô hình hồi quy dịch chuyển, cần đảm bảo các điều kiện về chuỗi dừng và nhiễu trắng, vì hầu hết các chuỗi thời gian có xu hướng tăng hoặc giảm theo thời gian.
Mạng ghi nhớ dài-ngắn hạn
Trong bài báo “Time Series Forecasting Using LSTM Networks: A
Trong nghiên cứu "Symbolic Approach" năm 2020, Steven Elsworth và Stefan Guttel đã giới thiệu mô hình học sâu sử dụng Long Short-Term Memory (LSTM) cho các bài toán phân loại và dự báo dữ liệu chuỗi thời gian Mô hình LSTM khắc phục những hạn chế của RNN bằng cách sử dụng các thành phần điều chỉnh để học sự phụ thuộc dài hạn của dữ liệu, đồng thời lọc ra thông tin quan trọng và loại bỏ thông tin không cần thiết Nghiên cứu cũng đề xuất kết hợp LSTM với kỹ thuật ABBA (Adaptive Brownian bridge-based), giúp tái cấu trúc dữ liệu, giảm thiểu ảnh hưởng của nhiễu và loại bỏ chuỗi thời gian có xu hướng tuyến tính, từ đó cải thiện độ chính xác của kết quả dự đoán.
Mạng nơ-ron tích chập
Trong nghiên cứu về học sâu (Goodfellow & Bengio, 2016), mạng nơ-ron tích chập (CNN) là tập hợp nhiều lớp perceptron, giúp xử lý dữ liệu cấu trúc nhiều chiều CNNs sử dụng nhiều lớp tích chập chồng lên nhau thay vì nhân các ma trận cùng lúc, và chúng được áp dụng rộng rãi trong lĩnh vực xử lý ngôn ngữ tự nhiên và thị giác máy tính Để tính toán đầu ra của mô hình, các lớp tích chập kết hợp bộ lọc và hàm kích hoạt, với phép tính tích chập được định nghĩa rõ ràng.
Trong đó 𝑦 𝑖 𝑙+1 (𝑗) biểu thị đầu vào của nơ-ron thứ 𝑗 trong bản đồ đặc trưng
Trong lớp 𝑙 + 1, 𝑘 𝑖 𝑙 là bộ trọng số của vùng cục bộ thuộc lớp 𝑙, trong khi 𝑏 𝑖 𝑙 là thông số điều chỉnh (bias) Sau mỗi lớp tích chập, một hàm kích hoạt được áp dụng để trích xuất các đặc trưng phi tuyến, với hàm ReLU (Rectified Linear Unit) là một trong những hàm kích hoạt phổ biến.
𝑅𝑒𝐿𝑈(𝑥) = max (0, 𝑥) (3.2) Trong đó, x là đầu ra của lớp tích chập.
Học sâu trên đồ thị
Nghiên cứu về mạng học sâu trên đồ thị (Bacciu, Errica, Micheli & Podda,
Mặc dù CNN đã đạt được nhiều tiến bộ đáng kể vào năm 2020, nhưng vẫn còn một số hạn chế, đặc biệt là trong việc kết nối giữa học sâu và đồ thị Lớp tích chập của mạng CNN không phát huy hiệu quả khi áp dụng cho dữ liệu có cấu trúc đồ thị, và thực tế cho thấy rằng lớp tích chập thường không được sử dụng cho dữ liệu dạng đồ thị như đối với dữ liệu hình ảnh và video.
Mô hình học sâu trên đồ thị, đặc biệt là mạng nơ-ron đồ thị (Graph Neural Network), chủ yếu được áp dụng trong phân tích và dự báo dữ liệu chuỗi thời gian Các nghiên cứu hiện tại tập trung vào việc điều chỉnh kiến trúc mạng nơ-ron hiện có để giải quyết các bài toán liên quan đến đồ thị (Deng & Hooi, 2021).
Ví dụ: Để tạo ra mô hình sử dụng GNNs, người ta thực hiện lặp đi lặp lại các lớp đồ thị nơ-ron tích chập.
Mạng khuếch tán tích chập
Mạng khuếch tán tích chập (Diffusion-Convolutional Networks) là một mô hình linh hoạt và tổng quát, giúp tăng hiệu quả dự đoán và giảm phức tạp trong huấn luyện Mô hình này mở rộng Convolutional Neural Networks (CNNs) thành cấu trúc dữ liệu dạng đồ thị, cho phép duyệt qua từng đỉnh trên dữ liệu đầu vào thay vì toàn bộ tham số như trong CNN chuẩn Ý tưởng chính là biểu diễn các đồ thị dưới dạng ma trận đa cấp, từ đó nâng cao hiệu quả dự đoán và tối ưu hóa tính toán trên GPU.
Mạng nơ-ron tích chập đồ thị không gian-thời gian
Mạng nơ-ron tích chập đồ thị không gian-thời gian (Khodayar & Wang,
Năm 2018, một phương pháp mới đã được phát triển để khai thác cấu trúc dữ liệu đồ thị có tính chất thay đổi theo thời gian, đặc biệt trong phân tích chuỗi thời gian Mặc dù toán xác suất thống kê và học máy là hai phương pháp chính để xử lý dữ liệu, nhưng hiệu quả của chúng vẫn chưa đạt yêu cầu mong đợi và bị giới hạn bởi giả định rằng chuỗi thời gian phải ổn định.
Mô hình học sâu Graph Neural Network (GNN) đã được đề xuất để xử lý dữ liệu phức tạp, mang lại thành công lớn trong việc trích xuất đặc trưng không gian và thời gian Trong khi các mô hình RNN và LSTM hiệu quả với dữ liệu dạng lưới và phân đoạn, GNN tận dụng tối đa thông tin không gian, từ đó nâng cao hiệu suất của mô hình.
Mạng quang phổ và mạng liên kết cục bộ
In the paper "Spectral Networks and Locally Connected Networks on Graphs" presented at the International Conference on Learning Representations (ICLR 2014), Yann LeCun and colleagues introduced two significant research contributions: hierarchical clustering and graph spectra.
Laplacian được sử dụng để thực hiện tích chập trên các đồ thị có số chiều thấp, cho phép học các lớp tích chập với bộ tham số độc lập so với kích thước đầu vào Nghiên cứu cho thấy điều này giúp mô hình học sâu hoạt động hiệu quả hơn Cụ thể, với đầu vào có 𝑛 tọa độ và 𝑑 chiều, thông qua lớp liên kết đầy đủ với m đầu ra, yêu cầu về số lượng tham số được tối ưu hóa.
Để giảm độ phức tạp từ 𝑂(𝑛^2) xuống 𝑂(𝑛), chúng ta có thể sử dụng các bộ lọc thay vì các lớp liên kết đầy đủ Ý tưởng là xây dựng một mạng kết nối nội bộ (locally connected) với độ phức tạp được biểu diễn bằng 𝑂(𝑘 𝑆), trong đó 𝑘 là số lượng đặc trưng và 𝑆 là số bộ lọc cần thiết.
Mạng nơ-ron tích chập đồ thị với bộ lọc quang phổ nhanh-cục bộ
quang phổ nhanh-cục bộ
Mạng nơ-ron tích chập là một kiến trúc mạnh mẽ cho việc trích xuất thông tin từ dữ liệu đa chiều, với khả năng sử dụng các bộ lọc tích chập để rút trích thông tin một cách hiệu quả Điều này đã dẫn đến những bước đột phá đáng kể trong các tác vụ nhận dạng hình ảnh.
Âm thanh và video là những dạng dữ liệu phổ biến, tuy nhiên, trong các tập dữ liệu phức tạp như người dùng mạng xã hội, sinh học gen di truyền và viễn thông, cấu trúc dữ liệu không đồng nhất có thể được mô phỏng bằng đồ thị Đồ thị giúp biểu diễn các cấu trúc phức tạp và sử dụng các công cụ toán học mạnh mẽ như lý thuyết phổ đồ thị Việc áp dụng mạng nơ-ron tích chập (CNN) vào cấu trúc đồ thị gặp nhiều thách thức, vì các phép tích chập chỉ hoạt động trên cấu trúc dạng lưới Kỹ thuật ứng dụng CNN trên đồ thị bao gồm ba bước chính: thiết kế bộ lọc cục bộ trên đồ thị, nhóm các đỉnh tương đồng, và tổng hợp cùng điều chỉnh thông số bộ lọc (Michal Defferrard, Xavier Bresson & Pierre Vandergheynst, 2017).
MÔ HÌNH ĐỀ XUẤT
Mô hình tham khảo
Học viên tham khảo mô hình huấn luyện được trình bày trong bài báo
“Multivariate Time Series Regression with Graph Neural Networks” công bố vào năm 2022 của nhóm tác giả Stefan Bloemheuvel, Jurgen van den Hoogen, Dario Jozinovi´c, Alberto Michelini và Martin Atzmueller
Hình 4.1 là mô hình học viên chọn làm mô hình tham khảo, đây là mô hình trích xuất đặc trưng kết hợp CNN và GNN
Mô hình tham khảo sử dụng CNN 1D để trích xuất đặc trưng tại mỗi đỉnh, trong khi nhiều lớp GNN thực hiện xử lý các tác vụ tính toán liên quan đến vector đặc trưng.
Flatten Tọa độ cảm biến
Ý tưởng áp dụng CNN cho các vector đặc trưng của mỗi đỉnh trong GCN là rất quan trọng Cuối cùng, đầu ra của GCN được làm phẳng để giữ lại những đặc trưng cần thiết, sử dụng các hàm kích hoạt phổ biến như ReLU và Tanh.
Theo như hình 4.1, mô hình chia ra thành 4 bước chính:
1 Bước này áp dụng hai lớp 1D CNN dùng để xử lý trích xuất đặc trưng thông qua kích thước cửa sổ, bước nhảy nhỏ và số lượng bộ lọc lớn, đồng thời áp dụng hàm kích hoạt ReLU Lớp 1D CNN rất phù hợp cho dữ liệu chuỗi thời gian bởi tính toán ít tốn chi phí và hiệu quả Vai trò của lớp các CNN là học các đặc trưng của dữ liệu có tính thời gian tại mỗi đỉnh
2 Đây là bước chuẩn bị dữ liệu cho các lớp mạng đồ thị tiếp theo, sau khi kết thúc trích xuất đặc trưng dữ liệu dử dụng các lớp nơ-ron tích chập, mô hình sẽ kết hợp vào dữ liệu đầu ra của lớp CNN được thêm vào các đặc trưng là tọa độ của đỉnh (vĩ độ, kinh độ), tại đây mô hình sẽ chuẩn bị thông tin về mạng các cảm biến cho các lớp kế tiếp
3 Tiếp theo là bước trích xuất đặc trưng của mạng đồ thị, đầu vào của lớp GNN cần có cấu trúc dạng (𝑁, 𝐹) trong đó N là số đỉnh của đồ thị và F là vector một chiều biểu diễn đặc trưng của đỉnh 𝑥 1 , 𝑥 2 , … 𝑥 𝑛 Lớp GCN đảm nhiệm vai trò trích xuất thông tin của mỗi trạm cảm biến Cụ thể, mỗi đỉnh N trong mạng GCN nhận một đầu ra của CNN có số chiều (𝑁, 𝐹) như là một đặc trưng của đỉnh đó, trong khi kích thước F là độ dài của vector đặc trưng Hai lớp GCN sử dụng các đặc trưng này của các đỉnh để thu giảm về số chiều (𝑁, 𝐹) bằng cách sử dụng F bộ lọc Hàm kích hoạt được áp dụng cho lớp GCN thứ nhất là hàm 𝑅𝑒𝐿𝑈 và áp dụng hàm Tanh cho lớp GCN thứ hai đã cho hiệu quả dự đoán rất tốt
4 Cuối cùng là các lớp liên kết đầy đủ và hậu xử lý
4.1.2 Mô hình 2: CNN kết hợp LSTM
Học viên đã nghiên cứu mô hình kết hợp CNN và LSTM trong bài viết "A CNN-LSTM based Hybrid Deep Learning Approach to detect Sentiment Polarities On Monkeypox Tweets" của nhóm tác giả Krishna Kumar Mohbey, Gaurav Meena, Sunil Kumar, K Lokesh (2022) Kết quả cho thấy mô hình CNN-LSTM vượt trội so với các mô hình khác như CNN, LSTM, SVM, Random Forest và Decision Tree, với chất lượng cao Cấu trúc của mô hình được minh họa trong hình 4.4.
Hình 4.2: Mô hình kết hợp CNN-LSTM
Mô hình thực hiện bao gồm các bước như sau:
1 Dữ liệu đầu vào mô hình là một chuỗi dữ liệu được trích xuất thông qua lớp 1D CNN
2 Mô hình tiếp tục trích xuất, nắm bắt sự phụ thuộc dài hạn của dữ liệu thông qua các lớp LSTM
3 Cuối cùng là lớp liên kết đầy đủ và đầu ra của mô hình
Nghiên cứu của Jozinović, Lomax, Stajduhar và Michelini (2020) đã đề xuất một mô hình dự đoán chuỗi thời gian bằng cách sử dụng mạng nơ-ron tích chập 1D CNN Mô hình này nhằm giải quyết bài toán dự đoán hiệu quả thông qua việc kết hợp các lớp CNN, LSTM và Dense.
30 giá trị đầu ra trong mạng các cảm biến, dữ liệu đầu vào của mô hình là dữ liệu được mô hình hóa dưới dạng đồ thị
Hình 4.3: Mô hình dự đoán dữ liệu chuỗi thời gian
Mô tả các bước thực hiện chính của mô hình:
1 Đầu vào dữ liệu được áp dụng hai lớp 1D CNN để trích xuất đặc trưng quan trọng của dữ liệu
2 Tiếp theo, mô hình thực hiện tác vụ bổ sung thông tin về tọa độ của các cảm biến trong mạng, sau khi đã trải qua các lớp xử lý như flatten và dropout Đầu vào
3 Cuối cùng là các lớp liên kết đầy đủ
Các bài toán dự đoán dữ liệu chuỗi thời gian đã được nghiên cứu rộng rãi với mô hình LSTM, nhờ vào khả năng học các phụ thuộc dài hạn Mô hình LSTM đã đạt được những tiến bộ đáng kể trong việc dự đoán dữ liệu chuỗi thời gian (Rameshwar Garg, Shriya Barpanda, Girish Rao Salanke N S, Ramya S 2021) Hình 4.3 minh họa các bước của mô hình này.
Hình 4.4: Mô hình sử dụng LSTM
Mô hình phân tích dữ liệu chuỗi thời gian sử dụng hai lớp LSTM để rút trích thông tin quan trọng và xác định sự phụ thuộc của dữ liệu Dữ liệu đầu vào là tập quan sát trên chuỗi thời gian, trong khi lớp liên kết đầy đủ ở cuối mô hình giúp xác định đầu ra.
Phương pháp đánh giá
Mean Absolute Error (MAE) là một chỉ số quan trọng để đánh giá và ước lượng trung bình của lỗi bằng cách sử dụng trị tuyệt đối Tuy nhiên, MAE có nhược điểm là phụ thuộc vào số lượng và quy mô dữ liệu, điều này làm cho việc so sánh giữa các tập dữ liệu khác nhau trở nên khó khăn.
Trong đó, 𝑛 là số lượng dữ liệu quan sát được và 𝑒 𝑖 là hệ số lỗi tại vị trí thứ
Mean Squared Error (MSE) là chỉ số phổ biến trong hồi quy, dùng để ước lượng sai số bình quân giữa giá trị dự đoán và giá trị thực tế MSE là công cụ ước tính hiệu quả, với giá trị luôn không âm; giá trị càng gần 0 thì độ chính xác càng cao.
Trong đó, n là số lượng dữ liệu quan sát, 𝑦 𝑖 là giá trị quan sát và 𝑦̂ 𝑖 là giá trị dự đoán
4.2.3 Root Mean Squared Error (RMSE)
Root Mean Squared Error (RMSE) là một chỉ số phổ biến dùng để đo lường độ chính xác của mô hình thông qua việc tính toán trung bình của các lỗi Chỉ số này phản ánh độ lệch chuẩn của lỗi, tuy nhiên, nó có thể bị ảnh hưởng bởi các sai số lớn, dẫn đến kết quả không chính xác.
Trong đó, 𝑛 là số lượng dữ liệu quan sát được và 𝑒 𝑖 là hệ số lỗi tại vị trí thứ
4.2.4 Mean Absolute Percentage Error (MAPE)
Mean Absolute Percentage Error (MAPE) là một phương pháp phổ biến để đo lường lỗi, tương tự như MAE nhưng loại bỏ yếu tố phụ thuộc bằng cách chuẩn hóa theo giá trị thực MAPE tính toán tỷ lệ phần trăm của lỗi so với giá trị giám sát, giúp dễ dàng diễn giải và trực quan hơn Tuy nhiên, phương pháp này cũng có những hạn chế đáng kể.
Mean Absolute Percentage Error (MAPE) không thể áp dụng cho các giá trị thực có chứa phần tử 0, vì số 0 không thể làm mẫu số Bên cạnh đó, MAPE có thể dẫn đến hiện tượng quá khớp (overfitting) và sẽ có hình phạt nặng hơn so với tình trạng thiếu khớp (underfitting).
Trong đó, 𝑛 là số lượng dữ liệu quan sát được và 𝑒 𝑖 là hệ số lỗi tại vị trí thứ
𝑖 𝑡ℎ và 𝑦 𝑖 là giá trị thực của dữ liệu.
Mô hình đề xuất
4.3.1 Động lực và ý tưởng Động lực cho đề xuất này bắt nguồn từ công trình nghiên cứu về dự báo trong dữ liệu chuỗi thời gian dựa trên mạng nơ-ron tích chập đồ thị (Stefan Bloemheuvel, Jurgen van den Hoogen, Dario Jozinovi´c, Alberto Michelini & Martin Atzmueller, 2022), theo đó tác giả xây dựng mô hình học sâu có khả năng đáp ứng lượng dữ liệu chuỗi thời gian quy mô lớn Các mạng nơ-ron tích chập trước đây khá phổ biến đối với cấu trúc dữ liệu dạng lưới như hình ảnh và âm thanh, phương pháp này thực hiện trích xuất đặc trưng của dữ liệu dựa vào cơ chế dịch chuyển bộ lọc cục bộ trên dữ liệu đầu vào, tuy nhiên lại không hiệu quả đối với những dữ liệu biểu diễn dưới dạng cấu trúc đồ thị, đây là nút thắt quan trọng dẫn đến sự cần thiết của mạng nơ-ron tích chập có thể hoạt động hiệu quả trên đồ thị (Michặl Defferrard, Xavier Bresson & Pierre Vandergheynst, 2017) Sử dụng mạng nơ-ron tích chập đồ thị là một hướng đi tập trung khai thác mối quan hệ của dữ liệu dựa trên phân bố không gian của các thiết bị cảm biến Đối với dữ liệu đầu vào được rút trích dựa trên các lớp 1D CNN, dựa trên đặc trưng của dạng tín hiệu theo thời gian đã đưa ra yêu
Các lớp tích chập đồ thị sẽ khai thác khía cạnh tiềm năng của dữ liệu chuỗi thời gian bằng cách xây dựng mạng lưới thiết bị dựa trên các công cụ toán học của đồ thị Điều này giúp phản ánh mối liên hệ tự nhiên giữa các dữ liệu, cho phép các lớp tích chập học được thông tin phụ thuộc lẫn nhau trong hệ thống Các cảm biến gần nhau sẽ có mối tương đồng và ảnh hưởng qua lại, đặc biệt là khi đối mặt với vấn đề nhiễu, một thách thức thường gặp trong dữ liệu chuỗi thời gian.
Học viên đã phát triển ý tưởng nâng cao hiệu quả mô hình bằng cách gia tăng số lượng lớp 1D CNN để cải thiện khả năng trích xuất thông tin Đồng thời, cấu trúc đồ thị được xây dựng từ dữ liệu chuỗi thời gian, thể hiện mối quan hệ giữa các chuỗi dữ liệu và cảm biến, kết hợp tính thời gian của dữ liệu với tính không gian trong đồ thị.
Song đối với phần lớn các mô hình trước đây vẫn chưa tận dụng tốt các khía cạnh của dữ liệu chuỗi thời gian:
- Phần lớn mô hình thường tập trung rút trích thông tin và bỏ qua yếu tố liên quan đến tính liên kết giữa các thiết bị cảm biến
- Đối với các phương pháp trước đây chủ yếu đưa ra dự đoán dựa vào các giá trị ngắn hạn thu thập trước đó
Duyệt qua chuỗi dữ liệu thời gian lớn có thể gây tốn kém đáng kể cho quá trình huấn luyện, đặc biệt là trong các tình huống thực tế với khối lượng dữ liệu lớn và yêu cầu thời gian thực.
- Hầu hết các mô hình chủ yếu dựa trên chuỗi thời gian đơn biến và có tính ổn định
35 Ý tưởng của học viên để giải quyết vấn đề là:
Mô hình này có khả năng trích xuất hài hòa các đặc trưng về chỉ số không khí và phân bố không gian giữa các thiết bị, từ đó tận dụng tối đa các khía cạnh của dữ liệu để cung cấp thông tin đầy đủ cho quá trình huấn luyện Đồng thời, mô hình cũng phản ánh chính xác hơn mối liên kết giữa các chỉ số của các thiết bị lân cận, vì các cảm biến đặt gần nhau thường có thông số tương đồng.
Khai thác tối đa dữ liệu tiềm năng từ hệ thống Internet vạn vật giúp xây dựng mạng liên kết các thiết bị Bằng cách áp dụng lý thuyết phổ đồ thị dữ liệu, dữ liệu có thể được biểu diễn dưới dạng đồ thị, trong đó mỗi đỉnh chứa một tập hợp các thông số không khí tại thời điểm lấy mẫu.
Học viên đã điều chỉnh mô hình tham khảo bằng cách thay thế các thông số cấu hình của tác giả, sử dụng thuật toán Adam và hàm lỗi Huber để nâng cao hiệu quả Bên cạnh đó, việc tăng số lượng các lớp nơ-ron tích chập cũng giúp cải thiện khả năng trích xuất đặc trưng dữ liệu.
Trong phần này, học viên giới thiệu mô hình dự đoán chất lượng không khí sử dụng mạng nơ-ron tích chập Dữ liệu đầu vào được áp dụng cho khối nơ-ron tích chập đầu tiên, tiếp theo là các lớp nơ-ron tích chập đồ thị và lớp hậu xử lý Hình 4.5 minh họa mô hình đề xuất dựa trên mạng nơ-ron tích chập đồ thị.
Hình 4.5: Mô hình đề xuất dựa trên mạng nơ-ron tích chập đồ thị
Công việc trích xuất dữ liệu được thực hiện qua ba lớp 1D CNN, nơi các lớp nơ-ron tích chập áp dụng bộ lọc với kích thước và độ chính xác phù hợp.
1D CNN (Stride=1) 1D CNN (Stride=1) 1D CNN (Stride=1)
Tọa độ cảm biến Concatenate
Các lớp trượt nhỏ với số lượng bộ lọc và hàm kích hoạt ReLU được sử dụng để học các mẫu dữ liệu theo thời gian từ mỗi thiết bị cảm biến Dữ liệu này sau đó được đưa vào các lớp nơ-ron tích chập đồ thị, trong đó cấu trúc đầu vào của các lớp GCN được xác định bởi (𝑁, 𝐹), với N là số lượng đỉnh của đồ thị và F là vector đặc trưng [𝑥 1 , 𝑥 2 , 𝑥 3 , … 𝑥 𝑛 ] Thêm vào đó, siêu dữ liệu như vĩ độ và kinh độ được bổ sung để hoàn thiện đặc trưng của mỗi đỉnh.
Các lớp nơ-ron tích chập (CNN) thu thập thông tin từ toàn bộ đồ thị, sau đó các lớp tích chập đồ thị (GCN) sử dụng đặc trưng đầu ra của các lớp CNN Mỗi đỉnh N trong GCN nhận một vector đặc trưng từ bộ vector (N, F), trong đó F là độ dài của vector đặc trưng Hai lớp nơ-ron tích chập đồ thị sẽ được thu giảm về dạng (N, ).
Mô hình chứa 128 bộ lọc và sử dụng hàm kích hoạt ReLU và TanH Thuật toán tối ưu Adam (Adaptive Moment Estimation) kết hợp giữa RMSprop và momentum, cùng với hàm lỗi Hubér Phương pháp tổng hợp đặc trưng phổ biến là max hoặc average pooling, nhưng có thể lọc bỏ nhiều thông tin quan trọng Do đó, quá trình hậu xử lý bao gồm việc flatten dữ liệu đầu ra để giữ lại nhiều thông tin nhất có thể, sau đó sử dụng các lớp dense để tổng hợp giá trị dự đoán cho từng đỉnh của đồ thị, từ đó đánh giá chất lượng không khí.
4.3.3 Tham số cấu hình của mô hình
Bảng 4.1 trình bày các tham số cho mô hình, trong đó học viên áp dụng 2 lớp GCN để trích xuất đặc trưng Mô hình được huấn luyện với kích thước batch là 20 và thực hiện trong 500 epoch Tỉ lệ dropout được thiết lập là 0.4, trong khi chỉ số learning rate là 0.0001.
Bảng 4.1: Các tham số trong mô hình
Tham số Giá trị graph count 2235 node count 76 node size count 100 node features 6 batch size 20 epochs 500 learning rate 0.0001 dropout 0.4
Đồ thị có tổng cộng 2235 đồ thị, với 76 đỉnh và mỗi đỉnh chứa 100 điểm dữ liệu Đặc trưng của vector có độ dài 6.
4.3.4 Kết quả thực nghiệm và thảo luận
Bảng 4.2: Kết quả thực nghiệm của các mô hình
Bài viết trình bày các chỉ số đo lường như MSE, RMSE, MAE và MAPE, với mô hình được đề xuất là GNN Mô hình này đã được thử nghiệm trên hai tập dữ liệu khác nhau liên quan đến mật độ phân bố cảm biến, bao gồm hệ thống cảm biến có phân bố dày và hệ thống cảm biến khác.
Mô hình MSE RMSE MAE MAPE
CNN-LSTM 1705.44 41.29 23.49 0.12 Đề xuất GNN
Thử nghiệm trên tập cảm biến dày đặc 247.94 15.74 6.95 0.05
Thử nghiệm trên tập cảm biến thưa thớt 281.34 16.77 7.45 0.05
39 biến phân bố khá thưa, cả 2 hệ thống cảm biến được thể hiện mức độ phân bố khác nhau trong hình 4.6