Ứng dụng nhận dạng motif trên dữ liệu chuỗi thời gian vào việc hỗ trợ gom cụm dữ liệu chuỗi thời gian

Kết quả thực nghiệm cho thấy, kỹ thuật này đã giúp cho quá trình gom cụm được thực hiện nhanh hơn, số vòng lặp gom cụm ít hơn, tính ổn định gom cụm tốt hơn và độ chính xác cao hơn so với

PHÁT BIỂU VẤN ĐỀ

Dữ liệu chuỗi thời gian

Chuỗi dữ liệu thời gian, hay chuỗi thời gian, là tập hợp các quan sát dữ liệu được ghi nhận theo trình tự thời gian Đối với loại dữ liệu này, cấu trúc có thể là hai hoặc nhiều chiều, nhưng luôn có một chiều thời gian, tức là dữ liệu được theo dõi và ghi lại tại các thời điểm xác định Trong hầu hết các ứng dụng thực tế, dữ liệu được đo tại các khoảng thời gian cố định, vì vậy để đơn giản hóa việc lưu trữ và giảm độ phức tạp của dữ liệu, người ta ghi lại trình tự các giá trị theo thời gian dưới dạng X = , trong đó xi là dữ liệu được đo ở thời điểm thứ i.

Ví dụ ta có chuỗi thời gian theo dõi quá trình đo nhiệt độ như sau:

Hình 1.1: Minh họa về dữ liệu chuỗi thời gian theo dõi quá trình đo nhiệt độ

Trong thực tế, dữ liệu chuỗi thời gian xuất hiện ở nhiều lĩnh vực, từ theo dõi biến động giá cổ phiếu, dữ liệu đo điện tim (ECG), dữ liệu mực nước sông đến nhật ký truy cập trang web của người dùng Những dữ liệu này thường có kích thước lớn, được thu thập và lưu trữ trong thời gian dài, khiến việc lưu trữ và khai phá tốn kém về thời gian và chi phí Vì vậy, việc ứng dụng các công cụ khai phá dữ liệu trên nền máy tính đã thu hút sự quan tâm, nghiên cứu và ứng dụng rộng rãi trong nhiều lĩnh vực trong những năm gần đây.

Hình 1.2: Đường biễu diễn dữ liệu chuỗi thời gian

Một số vấn đề khi nghiên cứu chuỗi thời gian:

Trong lĩnh vực chuỗi thời gian, dữ liệu thường có kích thước rất lớn, điển hình là dữ liệu ECG đo trong một giờ có thể lên tới khoảng 1 Gigabyte Quy mô dữ liệu như vậy tạo ra nhiều thách thức cho quá trình phân tích, tính toán và xử lý chuỗi thời gian để đảm bảo kết quả chính xác trong thời gian hợp lý Để vượt qua thách thức này, cần áp dụng các kỹ thuật xử lý hiệu suất cao, tối ưu thuật toán, và kiến trúc hệ thống phù hợp với dữ liệu lớn, đồng thời cân nhắc các phương pháp nén, giảm chiều và phân tích thời gian thực hoặc bán thời gian để tối ưu hóa tài nguyên và tăng độ tin cậy của kết quả.

 Phụ thuộc yếu tố chủ quan

Trong thực tế, kết quả dữ liệu chuỗi thời gian thu được thường chịu ảnh hưởng bởi nhiều yếu tố chủ quan của người đo, như kỹ năng và thao tác đo, cùng với điều kiện môi trường và chất lượng của công cụ đo Những yếu tố này có thể gây nhiễu, lệch hoặc biến động dữ liệu, làm giảm tính nhất quán và khó so sánh giữa các lần đo hoặc giữa các thiết bị khác nhau Để đảm bảo độ tin cậy và khả năng áp dụng của phân tích chuỗi thời gian, cần thực hiện hiệu chuẩn thiết bị định kỳ, kiểm tra chất lượng dữ liệu và áp dụng các phương pháp tiền xử lý, hiệu chỉnh sai số và tiêu chuẩn đo lường phù hợp.

 Dữ liệu không đồng nhất

Trong quá trình thu thập dữ liệu chuỗi thời gian, các dữ liệu được ghi nhận ở nhiều định dạng khác nhau và số lượng cùng tần số lấy mẫu không đồng nhất, điều này ảnh hưởng đến tính toàn vẹn của dữ liệu và chất lượng phân tích Bên cạnh đó, sai lệch đo đạc do nhiễu, thiếu một vài giá trị hoặc dữ liệu không sạch cũng làm giảm độ tin cậy của kết quả và đòi hỏi các bước làm sạch dữ liệu trước khi xử lý chuỗi thời gian.

Bài toán gom cụm dữ liệu chuỗi thời gian

Gom cụm dữ liệu (clustering) là một trong những công tác khai phá dữ liệu chuỗi thời gian phổ biến hiện nay Ý tưởng của phương pháp này là sắp xếp các giá trị dữ liệu liên quan thành các nhóm, mỗi nhóm mang đặc trưng chung riêng Trong các kỹ thuật gom cụm, K-Means là một trong những phương pháp phổ biến nhất Thuật toán K-Means bắt đầu bằng cách cho trước một số nguyên k, là số cụm cần gom, và chọn ngẫu nhiên k giá trị trong không gian dữ liệu làm trung tâm cụm ban đầu Sau đó, ta duyệt qua từng đối tượng của tập dữ liệu, dựa vào hàm tính khoảng cách để gán mỗi dữ liệu về cụm gần nhất Sau khi gán xong cho toàn bộ dữ liệu, ta tính lại tâm cụm và lặp lại quá trình này cho đến khi tâm cụm không đổi theo một tiêu chuẩn đánh giá cụ thể; khi đó thuật toán K-Means dừng lại.

Trong nhiều ứng dụng thực tế, gom cụm (clustering) được sử dụng để phân tích và đánh giá dữ liệu bằng cách nhóm các đối tượng có đặc trưng tương đồng với nhau Ví dụ, dữ liệu chứng khoán Việt Nam có mức độ tương đồng cao có thể được gom thành các cụm để nhận diện xu hướng và rủi ro chung Bên cạnh đó, clustering còn được áp dụng để phân tích mực nước tại các con sông trong một vùng, nhóm các vị trí có biến động mực nước lên xuống giống nhau nhằm hỗ trợ quản lý tài nguyên nước và dự báo mức nước Những ứng dụng này cho thấy clustering là công cụ mạnh để khai thác thông tin từ dữ liệu phức tạp và lớn.

Phương pháp phổ biến cho gom cụm dữ liệu cho ta các cụm dữ liệu được gom lại tương ứng Tuy nhiên, khi áp dụng gom cụm trên chuỗi thời gian, ta gặp hai nhược điểm: thứ nhất là dữ liệu chuỗi thời gian có kích thước rất lớn nên việc gom cụm tốn nhiều thời gian và tài nguyên; thứ hai là việc chọn ngẫu nhiên các tâm cụm ban đầu có thể khiến quá trình gom không tối ưu về mặt thời gian do tăng gánh nặng tính toán để cập nhật tâm cụm.

Để khắc phục hai nhược điểm khi gom cụm chuỗi thời gian, ta có thể vận dụng nhận dạng mẫu trên dữ liệu chuỗi thời gian nhằm hỗ trợ gom dữ liệu chuỗi thời gian thành các cụm một cách hiệu quả, bao gồm các bước sau: (1) tiền xử lý, chuẩn hóa và loại bỏ nhiễu để đảm bảo tính so sánh giữa các chuỗi; (2) trích xuất đặc trưng và biểu diễn thời gian phù hợp với mục tiêu gom cụm; (3) nhận diện các mẫu chu kỳ và xu hướng để đánh giá mức độ tương đồng giữa các chuỗi; (4) chọn và áp dụng thuật toán gom cụm phù hợp dựa trên các đặc trưng đã trích xuất; (5) đánh giá, hiệu chỉnh tham số và xác nhận tính ổn định của các cụm nhằm tối ưu hóa hiệu suất và chất lượng gom nhóm.

 Nhận dạng motif (môtíp): Từ các các chuỗi thời gian riêng biệt ta nhận dạng các môtíp đặc trựng cho từng dữ liệu chuỗi thời gian này

 Gom cụm trên motif (môtíp): Thực hiện gom cụm trên các môtíp đại diện tương ứng với các chuỗi thời gian này bằng giải thuật K-Means

Quy trình bắt đầu bằng việc dùng kết quả gom cụm trên một motif để xác định các tâm cụm khởi đầu cho tập chuỗi thời gian Sau khi có các tâm cụm khởi đầu, tiếp tục áp dụng thuật toán K-Means lên các tâm này để phân nhóm các chuỗi thời gian thành các cụm có đặc trưng tương đồng.

Mục tiêu và giới hạn của đề tài

Mục tiêu nghiên cứu đề tài trên cơ sở dữ liệu chuỗi thời gian tập trung vào hai vấn đề chính:

 Nghiên cứu các giải thuật nhận dạng môtíp trên dữ liệu chuỗi thời gian

Trong cơ sở dữ liệu chuỗi thời gian, dữ liệu thường có quy mô rất lớn Việc nhận dạng các mẫu đặc trưng của chuỗi thời gian và gom cụm trên các mẫu đại diện này sẽ giúp giảm khối lượng dữ liệu và tăng tốc quá trình phân tích Phần này tập trung vào thuật toán K-Means để thực hiện gom cụm trên các mẫu đặc trưng, từ đó tối ưu hóa hiệu suất xử lý và nâng cao khả năng nhận diện xu hướng, biến động và bất thường trong dữ liệu chuỗi thời gian.

Việc nhận dạng mô-típ (mẫu motif) được ứng dụng để hỗ trợ gom cụm dữ liệu chuỗi thời gian, từ đó tối ưu hóa quá trình phân nhóm và nâng cao hiệu quả của các giải thuật gom cụm trên tập dữ liệu chuỗi thời gian ban đầu Việc khai thác đặc trưng mô-típ giúp phát hiện các mẫu lặp lại và cấu trúc ẩn trong chuỗi, làm giảm nhiễu và tăng độ chuẩn xác của việc phân vùng theo nhãn thời gian Ứng dụng này giúp nhận diện xu hướng, chu kỳ và sự biến đổi ngắn hạn, đem lại kết quả clustering ổn định và đáng tin cậy hơn cho các bài toán dữ liệu chuỗi thời gian.

Sau khi nhận diện trung tâm cụm cho các mô tip đại diện chuỗi thời gian, ta xác định tâm cụm khởi đầu cho chuỗi thời gian ban đầu ứng với từng mô tip trung tâm Sau đó, chúng ta áp dụng thuật toán K-Means để gom các chuỗi thời gian trên tập dữ liệu này thành các cụm, nhằm tối ưu hoá việc phân loại theo đặc trưng chung của mỗi mô tip.

Quá trình gom cụm dựa vào nhận diện môtíp cho phép thực hiện gom cụm dữ liệu nhanh hơn và chính xác hơn so với việc áp dụng thuật toán K-Means trên tập dữ liệu ban đầu Tuy nhiên, nghiên cứu của luận văn này vẫn gặp một số giới hạn như khả năng nhận diện môtíp còn phụ thuộc vào đặc trưng của tập dữ liệu, kích thước mẫu và độ phức tạp của dữ liệu ảnh hưởng đến độ tin cậy của kết quả, đồng thời mức độ khái quát hóa và yêu cầu tài nguyên tính toán cũng là những thách thức cần được cân nhắc.

 Việc nhận diện môtíp là tốn kém thời gian và cần phải xác định đặc trưng của dữ liệu cụ thể để xác định thông số nhận diện môtíp bao gồm chiều dài môtíp và bán kính nhận diện cũng như khai thác được đặc trưng phân hoạch của dữ liệu ban đầu

 Do giới hạn về thời gian nghiên cứu cho nên quá trình thực nghiệm chỉ đo đạc trên dữ liệu Heterogeneous và chứng khoán tham khảo được lấy từ nguồn The VCR Time Series Data Mining Archive [24].

Tóm lược những kết quả đạt được

Với việc tập trung vào mục đích chính của luận văn trong suốt quá trình thực hiện và thử nghiệm chúng tôi thu được các kết quả như sau:

Quá trình gom cụm trên tập dữ liệu chuỗi thời gian được tối ưu hóa khi dựa trên kết quả gom cụm của các mô típ đại diện, bởi thời gian thực hiện nhanh hơn so với gom cụm trực tiếp trên tập dữ liệu ban đầu bằng giải thuật K-Means Thời gian chạy sẽ càng nhanh khi thông tin nhận diện mô típ đại diện phù hợp với đặc trưng của tập dữ liệu chuỗi thời gian, và số cụm cần gom được xác định phù hợp với mức phân hoạch dữ liệu Do đó, việc khai thác mô típ đại diện giúp giảm chi phí tính toán đồng thời duy trì hiệu quả phân nhóm dữ liệu chuỗi thời gian.

Quá trình gom cụm dữ liệu chuỗi thời gian nên dựa vào kết quả gom cụm từ các mô típ đại diện có độ ổn định cao, thay vì thực hiện gom cụm trực tiếp trên tập dữ liệu ban đầu bằng thuật toán K-Means Việc lựa chọn các mô típ đại diện giúp nâng cao tính ổn định của nhóm và cải thiện hiệu quả nhận diện mẫu, đồng thời giảm nhiễu và độ phức tạp tính toán đối với dữ liệu chuỗi thời gian.

Độ chính xác của quá trình gom cụm trên tập dữ liệu chuỗi thời gian được cải thiện khi dựa vào kết quả gom cụm trên các mẫu đại diện có chất lượng tốt Các mẫu đại diện này cho phép nắm bắt đặc trưng của chuỗi thời gian tốt hơn so với gom trực tiếp trên cả tập dữ liệu chuỗi thời gian ban đầu và trên tập dữ liệu sau khi giảm số chiều bằng thuật toán K-Means Kết quả cho thấy phương pháp dựa trên mẫu đại diện mang lại hiệu quả gom cụm cao hơn so với hai cách gom trực tiếp.

Độ chính xác của quá trình gom cụm trên tập dữ liệu chuỗi thời gian ban đầu và trên tập dữ liệu sau khi giảm số chiều, dựa trên kết quả gom cụm trên các motif, cho thấy hai tập dữ liệu tương đương về hiệu suất và nhận diện mẫu.

Trong phân tích chuỗi thời gian, số vòng lặp của quá trình gom cụm được cải thiện khi dựa vào kết quả gom cụm trên các mô típ (motifs) Việc sử dụng các mô típ làm đầu vào cho giải thuật K-Means giúp quá trình gom cụm có tính ổn định cao và yêu cầu ít vòng lặp hơn so với gom trực tiếp trên tập dữ liệu chuỗi thời gian ban đầu.

Cấu trúc của luận văn

Dựa theo hướng nghiên cứu chính của luận văn, chúng tôi tổ chức luận văn bao gồm những phần chính sau:

Chương II giới thiệu các công trình liên quan đến luận văn, trong đó nêu chi tiết các phương pháp đo tương tự giữa hai chuỗi thời gian, các kỹ thuật giảm số chiều trên chuỗi thời gian, và các tiếp cận rời rạc hóa dữ liệu Chúng tôi tập trung đặc biệt vào các phương pháp gom cụm dữ liệu nói chung và cụ thể là gom cụm trên tập dữ liệu chuỗi thời gian, nhằm tối ưu hóa việc phân nhóm và khai thác cấu trúc dữ liệu Đồng thời chương trình bày các công trình nhận diện mẫu lặp (motif) trong chuỗi thời gian, giúp phát hiện các hình mẫu lặp lại và các đặc trưng định kỳ Các nội dung trình bày được kết nối chặt chẽ để làm sáng tỏ mối quan hệ giữa đo lường tương tự, giảm chiều và phân cụm trong ngữ cảnh chuỗi thời gian, đồng thời nêu các phương pháp rời rạc hóa dữ liệu nhằm tăng khả năng so sánh và ứng dụng của các tập dữ liệu.

Chương III tập trung vào cơ sở lý thuyết và phương pháp giải quyết vấn đề của luận văn, trình bày mô hình kiến trúc hệ thống gom cụm dữ liệu chuỗi thời gian thông qua các môtíp đại diện Trong chương này, chúng tôi phân tích sâu và tối ưu giải thuật nhận diện môtíp Brute-Force được J Lin và các cộng sự đề xuất vào năm 2002 [1], nhằm nâng cao hiệu quả nhận diện motif và cải thiện chất lượng phân tích dữ liệu chuỗi thời gian thông qua việc xác định các mẫu lặp lại và đại diện cơ bản cho quá trình clustering.

Trong Chương IV, chúng tôi thực hiện hệ thống gom cụm dữ liệu chuỗi thời gian dựa trên kết quả gom cụm trên các mô típ đại diện, đồng thời so sánh thời gian chạy, số vòng lặp gom cụm và độ ổn định của hệ thống với quá trình gom cụm trên tập dữ liệu chuỗi thời gian ban đầu không dựa vào nhận diện mô típ Chương này cũng thực nghiệm và đo đạc độ chính xác của kết quả gom cụm khi thực hiện gom trên tập dữ liệu chuỗi thời gian dựa trên kết quả gom cụm trên các mô típ đại diện, nhằm đánh giá hiệu quả và độ ổn định của phương pháp dựa trên mô típ trong phân tích dữ liệu chuỗi thời gian.

 Chương V là một số kết luận sau khi thực hiện đề tài.

TỔNG QUAN CÁC CÔNG TRÌNH LIÊN QUAN

Độ đo tương tự

Trong hầu hết các bài toán liên quan đến chuỗi thời gian, bài toán đo độ tương đồng giữa hai đối tượng là một vấn đề quan trọng Gọi hai đối tượng là O1 và O2, khoảng cách giữa chúng được ký hiệu D(O1,O2); khi D(O1,O2)=0 thì O1 và O2 được xem là giống nhau, và nếu D(O1,O2) nhỏ hơn một ngưỡng r cho trước thì chúng được coi là tương tự nhau Ta cũng có thể coi D(X,Y) là khoảng cách giữa X và Y, và các tính chất của nó như sau: D(X,Y)=0 nếu và chỉ nếu X=Y; D(X,Y)=D(Y,X); D(X,Y) ≥ 0 với mọi X,Y; và D(X,Y) < D(X,Z) + D(Z,Y).

Trong dữ liệu chuỗi thời gian, khi giảm chiều từ X và Y xuống X_f và Y_f để tính khoảng cách, cần đảm bảo d(X_f, Y_f) phản ánh đúng mức độ tương đồng giữa X và Y và giữ lại các đặc trưng quan trọng của chuỗi như xu hướng, biến động và chu kỳ Việc giảm chiều phải bảo toàn thông tin có ý nghĩa cho các nhiệm vụ nhận diện và phân loại, đồng thời chịu được nhiễu và các biến đổi nhỏ về vị trí thời gian Các tính chất căn bản của một thước đo khoảng cách nên được bảo toàn ở mức gần đúng, bao gồm không âm, d(X,X)=0, d(X,Y)=d(Y,X) và tuân theo tam giác bất đẳng, nhằm phục vụ tốt cho các ứng dụng như phân loại, dự báo và nhận diện mẫu trong dữ liệu chuỗi thời gian.

Cho hai chuỗi thời gian X và Y có dạng X = và Y = , với độ dài bằng nhau n Độ tương tự giữa X và Y được ký hiệu Sim(X, Y) Để xác định độ tương tự giữa hai chuỗi thời gian, người ta thường áp dụng một số phương pháp phổ biến như khoảng cách Euclid để đo sự khác biệt giữa các phần tử tương ứng, hệ số tương quan (Pearson) hoặc cosine để đánh giá mức độ liên kết tuyến tính hoặc hướng của véc-tơ, và đặc biệt Dynamic Time Warping (DTW) nhằm căn chỉnh không đồng bộ thời gian và tối ưu hóa tổng khoảng cách giữa các điểm Ngoài ra còn có các kỹ thuật như cross-correlation, LCSS (Longest Common Subsequence) và các biến thể của DTW với ràng buộc như Sakoe-Chiba nhằm xử lý hiện tượng lệch thời gian, biến đổi tần suất và nhiễu Việc chuẩn hóa dữ liệu và lựa chọn phương pháp phù hợp với đặc trưng chuỗi là chìa khóa để đánh giá Sim(X, Y một cách tin cậy.

2.1.1 Độ đo Minkowski Độ đo tương tự giữa hai chuỗi thời gian X và Y được xác định bằng công thức Minkowski như sau:

Với, a) p = 1: Độ đo Manhatan b) p = 2: Độ đo Euclid c) p = 3: Độ đo Max Ưu điểm

Phương pháp có khả năng mở rộng cho nhiều bài toán dữ liệu khác như gom cụm (clustering) và phân loại (classification), đồng thời tương thích với các phép biến đổi giảm số chiều phổ biến như DFT [7], DWT [4], và PAA [10][23], giúp nâng cao hiệu suất xử lý, tăng độ chính xác và tối ưu hoá tài nguyên tính toán cho các ứng dụng dữ liệu lớn.

 Không thích hợp khi dữ liệu có đường cơ bản khác nhau

 Không thích hợp với dữ liệu có biên độ giao động khác nhau

Trước khi áp dụng so trùng mẫu trên dữ liệu chuỗi thời gian, việc chuẩn hóa dữ liệu là bước thiết yếu để giảm ảnh hưởng của quy mô và biến động bất thường Chuẩn hóa dựa trên giá trị trung bình và độ lệch chuẩn của chuỗi thời gian, với công thức X' = (X - mean(X)) / std(X) Quá trình này đưa dữ liệu về phân phối có trung bình bằng 0 và độ lệch chuẩn bằng 1, từ đó tăng tính ổn định và hiệu quả của các kỹ thuật so trùng mẫu.

Áp dụng phương pháp trung bình di chuyển [20] để làm trơn các đường biểu diễn chuỗi thời gian, nghĩa là giá trị của chuỗi thời gian tại thời điểm i được tính bằng trung bình của các giá trị trong cửa sổ di chuyển quanh i với kích thước 20 Phương pháp này giúp làm mượt dữ liệu, giảm nhiễu ngẫu nhiên và làm nổi bật xu hướng ngắn hạn cũng như dài hạn của chuỗi thời gian Việc áp dụng trung bình di chuyển cải thiện khả năng phân tích và dự báo bằng cách làm giảm biến động đột ngột trên biểu đồ và cung cấp một tín hiệu xu hướng ổn định cho các bước tiền xử lý dữ liệu.

 Áp dụng tính độ tương tự có sửa đổi dựa trên khoảng cách Euclid [4] như sau:

Hình 2.1: Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau, nhưng đường cơ bản khác nhau

Hình 2.2: Minh họa hình dạng dữ liệu chuỗi thời gian có hai đường giống nhau nhưng biên độ giao động khác nhau

2.1.2 Độ đo xoắn thời gian động

Trong trường hợp hai chuỗi thời gian X và Y có sự trùng khớp nhưng lệch về thời gian, việc so sánh phần tử tại cùng vị trí i sẽ cho kết quả không mong đợi Để khắc phục, ta có thể dùng phương pháp ánh xạ một điểm đến nhiều điểm trên hai chuỗi thời gian, được gọi là Dynamic Time Warping (DTW) hay còn được biết tới với tên gọi xoắn thời gian động Phương pháp DTW cho phép căn chỉnh các chuỗi thời gian bất đồng bộ bằng cách tối ưu hóa phép đo khoảng cách giữa các điểm theo một đường cong ánh xạ chung, từ đó cho phép so sánh và phân tích hai chuỗi thời gian một cách tin cậy ngay cả khi chúng lệch nhịp hoặc có nhịp thời gian khác nhau [3].

Hình 2.3: (a) Tính khoảng cách dựa vào phương pháp Euclid, (b) Tính khoảng cách dựa vào phương pháp DWT

Cách tính khoảng cách dựa vào phương pháp DWT

Cho hai chuỗi thời gian X = {x_1, x_2, , x_N} và Y = {y_1, y_2, , y_M} và một tham số khung w được gọi là khung cửa sổ xoắn (warping window) Hai điểm i và j từ hai chuỗi có thể ánh xạ với nhau nếu chỉ số của chúng thỏa điều kiện |i − j| ≤ w Khung cửa sổ giới hạn phạm vi ánh xạ, giảm độ phức tạp tính toán và ngăn chặn sự lệch đồng bộ quá lớn giữa X và Y trong quá trình so khớp Phương pháp này thường được dùng trong DTW để tính khoảng cách giữa hai chuỗi thời gian một cách hiệu quả, đồng thời bảo toàn các đặc trưng thời gian quan trọng của tín hiệu.

|i-j| R, ta kết luận ngay rằng C_j không phải là cụm gần nhất ở bước kiểm tra này và có thể bỏ qua các phép tính tiếp theo cho C_j Ngược lại, nếu D(T_i, center(C_j)) ≤ R, ta có thể tiếp tục so sánh với các trung tâm khác hoặc cập nhật C_j như cụm gần nhất cho T_i tùy vào kết quả của các lần so sánh tiếp theo.

Trong bước kiểm tra C_j, mỗi T_i được gán cho cụm C_j nếu C_j là cụm gần nhất của T_i; ngược lại, ta giữ nguyên C_k là cụm gần nhất với T_i tại bước hiện tại Bước 2: Cập nhật trung tâm cụm Sau mỗi vòng lặp của giải thuật gom cụm, chúng ta phải cập nhật lại trung tâm của các cụm Giả sử với một cụm C_j có trung tâm cũ là center(C_j) và trung tâm mới là center(C_jnew) Để biết sự thay đổi của trung tâm, ta tính khoảng cách D(center(C_j), center(C_jnew)).

Trong bài viết này, chúng ta tiến hành kiểm tra xem các giá trị liên quan đến trung tâm dữ liệu, cụ thể là (C_j) và (C_jnew), có lớn hơn 0 hay không Trong trường hợp này, ta áp dụng quá trình kiểm tra kết thúc sớm với R = 0 Nếu tồn tại một giá trị k với k = 1, , m (m là số chiều của chuỗi dữ liệu thời gian được căn giữa) sao cho điều kiện liên quan đến vị trí k được thỏa mãn, quá trình sẽ được dừng sớm để tối ưu thời gian tính toán và tăng tính ổn định của phương pháp Đây là cách đảm bảo hiệu quả và tối ưu hoá hiệu suất của thuật toán phân tích chuỗi thời gian dựa trên tâm.

Khoảng cách D giữa tâm cụm C_j và tâm cụm mới C_jnew, với tham số k, cho biết mức thay đổi của tâm cụm Nếu D > 0, ta kết luận tâm cụm đã thay đổi và cần cập nhật lại tâm cụm; ngược lại, nếu D = 0 thì tâm cụm không thay đổi.

Nhận diện môtíp chuỗi thời gian bằng thuật toán Brute-Force

Để nhận diện môtíp chuỗi thời gian chúng tôi sử dụng giải thuật Brute-Force

[1] để xác định chuỗi con xuất hiện thường xuyên nhất đặc trưng cho dữ liệu chuỗi thời gian Trước khi đi vào giải thuật, chúng ta nhắc lại định nghĩa khớp (Match), khớp tầm thường (Trvial_Match) và khớp không tầm thường (None_Trivial_Match) giữa hai chuỗi con như sau:

Cho hai chuỗi con C và M có chiều dài n bắt đầu hai vị i và j trong chuỗi thời gian T và một khoảng cách R >0 cho trước Ta nói C khớp với M nếu:

Ta giả sử i ≤ j, tức là vị trí của chuỗi con C nằm trước vị trí của chuỗi con M trong chuỗi thời gian T Khi ấy ta nói C khớp tầm thường với M nếu C và M thỏa hệ đẳng thức sau: Các đẳng thức này mô tả cách C và M liên quan đến nhau về vị trí, độ dài và nội dung của chúng trong T để đảm bảo sự đồng nhất và thứ tự xuất hiện giữa hai chuỗi con Việc xác định C khớp với M giúp tối ưu việc tìm kiếm chuỗi con và phân tích các mẫu lặp trong dữ liệu thời gian, từ đó hỗ trợ các ứng dụng nhận dạng ký tự, xử lý chuỗi và phân tích dữ liệu.

Với C k là chuỗi con bắt đầu vị trí k (3.6)

Từ định nghĩa khớp tầm thường (trivial match) từ công thức (3.6), ta suy ra

C và M khớp không tầm thường với nhau nếu C và M thỏa hệ đẳng thức:

Với C k là chuỗi con bắt đầu vị trí k (3.7)

Khớp không tầm thường được định nghĩa từ công thức (3.7), và để xác định chuỗi con xuất hiện nhiều nhất trong chuỗi thời gian T, ta sử dụng giải thuật Find-1-Motip-Brute-Force [1] Dữ liệu đầu vào của giải thuật này gồm chuỗi thời gian T, kích thước chuỗi con n và một ngưỡng R cho trước; thuật toán sẽ duyệt tất cả các chuỗi con có độ dài n trong T, đếm số lần xuất hiện và trả về chuỗi con có tần suất lớn nhất cùng với giá trị tần suất đó Kết quả thu được có thể phục vụ cho phân tích mẫu, nhận diện khớp và các ứng dụng khác liên quan đến chuỗi thời gian.

Dựa vào giải thuật Find-1-Một-típ-Brute-Force như Hình 3.3, quá trình kiểm tra tính khớp không tầm thường giữa hai chuỗi con ở hai vị trí i và j ở dòng 7 được xem là một đơn vị tính toán, nên độ phức tạp của thuật toán là O(m^2) với m là chiều dài chuỗi thời gian Tuy nhiên trên thực tế chi phí tính toán để kiểm tra tính khớp không tầm thường giữa hai chuỗi con này chiếm một thời gian đáng kể Lý do là ngoài việc kiểm tra được D(C[i:i+n-1], C[j:j+n-1]) có lớn hơn R hay không, chúng ta phải quét qua tất cả các motif bắt đầu tại vị trí k với k từ i+1 đến j-1 để kiểm tra.

D(C [i:i+n-1] , C [k:k+n-1] ) có lớn hơn khoảng cách R hay không Có hai thông tin này chúng ta mới kết luận là C [i: i+n-1] và C [j: j+n-1] có khớp tầm thường với nhau hay không

Một nhược điểm của giải thuật này là chưa tận dụng tính đối xứng của khoảng cách Euclid với định lý D(A, B) = D(B, A) Do đó, độ phức tạp thời gian của thuật toán nhận diện môtíp là O(m^3), bởi việc kiểm tra tính khớp giữa hai chuỗi con tại vị trí i và j trong chuỗi thời gian có độ phức tạp O(m), gây kéo dài thời gian chạy và làm chậm quá trình khai phá motif Bên cạnh đó, đặc trưng của giải thuật là chỉ kiểm tra xem khoảng cách giữa các motif có lớn hơn một ngưỡng R cho trước hay không, thay vì tính toán cụ thể các khoảng cách, từ đó giảm thiểu tính toán nhưng đánh đổi với độ chính xác của kết quả.

Alogorithm Find-1-Motif-Brute-Force(T, n, R)

1 best_motif_count_so_far = 0

2 best_motif_location_so_far = null;

12 if count > best_motif_count_so_far

13 best_motif_count_so_far = count;

14 best_motif_location_so_far = i;

Hình 3.3: Giải thuật tìm kiếm môtíp dữ liệu chuỗi thời gian ( Nguồn [1])

Từ những nhược điểm của giải thuật như trên, chúng ta thực hiện một số cải tiến như sau:

3.5.1 Áp dụng tính chất đối xứng

Theo thuật toán nêu trên, để mỗi cặp điểm trong tập m ta phải gọi hàm tính khoảng cách, dẫn đến độ phức tạp thời gian O(m^2) Tuy nhiên, khi khai triển tính chất đối xứng của khoảng cách Euclid, D(A,B)=D(B,A), số lần tính khoảng cách được giảm một nửa, vì vậy chỉ cần tính cho các cặp A trước B Do đó thuật toán chỉ thực hiện m(m-1)/2 phép gọi tính khoảng cách, tương ứng với số cặp hai điểm trong tập dữ liệu, giúp tối ưu hiệu năng mà vẫn đảm bảo đầy đủ thông tin cần thiết cho các bước xử lý tiếp theo.

3.5.2 Áp dụng bất đẳng thức tam giác Để kiểm tra hai chuỗi con C a và C b có khớp tầm thường hay không trong giải thuật Brute-Force chúng ta chỉ cần kiểm tra khoảng cách giữa D(C a , C b ) có lơn hơn một khoảng cách R (R > 0) cho trước hay không chứ không cần thiết phải tính cụ thể giá trị khoảng cách này Áp dụng tính chất này, bất đẳng thức tam giác được áp dụng để kiểm tra Cụ thể như sau:

Cho một chuỗi con tham chiếu Q, ta tính khoảng cách từ Q tới tất cả các chuỗi con t_i thuộc chuỗi thời gian Ti, gọi D(Q, t_i) là khoảng cách giữa Q và t_i Quá trình này cho phép đo mức độ tương đồng giữa Q và từng chuỗi con của Ti, từ đó xác định các mẫu lặp lại hoặc các đợt biến đổi trong dữ liệu thời gian Để tính D(Q, t_i), có thể sử dụng các metric đo lường sự khác biệt hoặc sự tương đồng phù hợp với bài toán (ví dụ DTW, Hamming, hoặc Euclidean khi dữ liệu được chuẩn hóa) Kết quả là một tập hợp các giá trị khoảng cách D(Q, t_i) cho mọi chuỗi con t_i của Ti, giúp tối ưu hóa quá trình nhận diện mẫu, truy vấn mẫu, hoặc phát hiện bất thường trong chuỗi thời gian.

Ta nhận thấy rằng, với hai chuỗi con C a và C b Ta có bất đẳng thức tam giác như sau:

Dựa vào công thức (3.9) ta thấy rằng để kiểm tra D(C a , C b ) >=R hay không ta chỉ kiểm tra D(Q, C a ) – D(Q, C b ) Nếu D(Q, C a ) – D(Q, C b )>=R, ta suy ra D(C a,

Chọn môtíp tham chiếu Q là bước quan trọng để bất đẳng thức tam giác được kiểm tra một cách chặt chẽ hơn Ta xác định chuỗi con tham chiếu Q sao cho D(Q, Ca) − D(Q, Cb) đạt giá trị lớn nhất Việc tối ưu hóa chênh lệch này làm tăng độ nhạy của điều kiện tam giác và cải thiện khả năng phân biệt giữa Ca và Cb trong quá trình đánh giá Do đó, lựa chọn tham chiếu Q phù hợp sẽ nâng cao hiệu quả kiểm tra và độ chính xác của hệ thống khi áp dụng bất đẳng thức tam giác.

Hình 3.4: Khoảng cách chuỗi con tham chiếu Q nằm giữa C a và C b

Dựa theo Hình 3.4, chuỗi con Q nằm giữa hai chuỗi con C_a và C_b Giả sử D(Q, C_a) = 1 và D(Q, C_b) = 1, ta có D(Q, C_a) − D(Q, C_b) = 0 và từ bất đẳng thức tam giác suy ra D(C_a, C_b) ≥ D(Q, C_a) − D(Q, C_b) = 0; tuy nhiên thực tế D(C_a, C_b) ≥ 2 Khi bán kính kiểm tra R = 1 và chọn chuỗi tham chiếu Q nằm giữa C_a và C_b như Hình 3.4, ta không thể kết luận D(C_a, C_b) > R Để tối ưu quá trình kiểm tra dựa trên bất đẳng thức tam giác, ta chọn chuỗi con tham chiếu Q nằm ngoài hai chuỗi con C_a và C_b như Hình 3.5 Lúc này ta có thể áp dụng bất đẳng thức tam giác để tối ưu quá trình kiểm tra khoảng cách giữa hai chuỗi con.

D(Q, C b ) =1 và D(Q, C a ) =3 Ta thấy D(C a, C b ) > = D(Q, C a ) – D(Q, C b ) =2 Với R ta kết luận D(C a, C b ) >R thay vì tính khoảng cách trực tiếp D(C a, C b ) có lớn hơn R hay không

Hình 3.5: Khoảng cách chuỗi con tham chiếu Q nằm ngoài C a và C b

Trong tập dữ liệu chuỗi thời gian dùng cho bài toán gom cụm, chúng tôi giả định mọi giá trị đều không âm (≥0) Để làm tham chiếu cho việc so khớp giữa các chuỗi, chúng tôi chọn chuỗi con tham chiếu Q là chuỗi con 0 Cụ thể, chuỗi con Q có chiều dài n và với mọi i từ 1 đến n, Qi = 0 Việc thiết lập chuỗi tham chiếu Q là chuỗi 0 giúp đơn giản hóa việc so sánh các chuỗi con và nâng cao hiệu quả phân cụm dựa trên mức độ giống với chuỗi tham chiếu này.

Trong tập dữ liệu chuỗi thời gian, nếu tồn tại giá trị âm, ta sẽ dịch chuyển trục hoành của tọa độ để bảo đảm mọi giá trị đều không âm (≥ 0) Quá trình này giúp chuẩn hóa dữ liệu chuỗi thời gian và được minh họa cụ thể trong Hình 3.6 ở dưới đây.

3.5.3 Áp dụng kỹ thuật kiểm tra kết thúc sớm khi tính hàm khoảng cách để tìm kiếm môtíp dữ liệu chuỗi thời gian

Trong trường hợp bất đẳng thức tam giác không kết luận được D(C a, C b )

>=R hay không vì D(Q, C a ) – D(Q, C b ) R hay không Ta sử dụng một cờ nhớ ban đầu Flag = false Nếu tồn tại giá trị k làm cho D(C [i: i+n-1], C [k: k+n-1] ) >R ta cập nhật cờ nhớ Flag = true Như vậy để kiểm tra tính khớp không tầm thường giữa hai chuỗi con C [i: i+n-1] và C [j: j+n-1] trước tiên ta tính so sánh khoảng cách giữa chúng có lớn hơn R hay không bằng kỹ thuật kết thúc sớm Nếu D(C [i: i+n-1], C [j: j+n-1] ) >

R, ta cập nhật cờ nhớ Flag=true để phục vụ cho việc kiểm tra tính khớp không tầm thường của hai chuỗi con C [i: i+n-1] và C [l: l+n-1] với l>j và kết luận C [i: i+n-1] và C [j: j+n-1] không khớp với nhau Ngược lại nếu D(C [i: i+n-1], C [j: j+n-1] ) R Theo hệ đẳng thức (3.7) ta kết luận hai chuỗi con C [i: i+n-1] và C [j: j+n-

1] là khớp không tầm thường với nhau

 Nếu Flagse: Không tồn tại một giá trị k nằm giữa i và j thỏa D(C [i: i+n-1],

C [k: k+n-1] ) >R Theo hệ đẳng thức (3.7) ta kết luận hai chuỗi con C [i: i+n-1] và

C [j: j+n-1] khớp tầm thường với nhau

Như vậy, với cách cải tiến bằng phương pháp quy hoạch động như trên, độ phức tạp của thuật toán Bruce-Force vẫn là O(m 2 )

Đánh giá chất lượng giải thuật gom cụm

Thuật toán gom cụm dữ liệu dựa trên K-Means là một quá trình học không giám sát, bởi nó không được điều chỉnh sự phân hoạch dữ liệu như các phương pháp học có giám sát khác Vì vậy, chúng ta đánh giá chất lượng gom cụm của tập dữ liệu chuỗi thời gian bằng cách so sánh kết quả gom cụm từ K-Means với kết quả gom cụm từ các phương pháp học có giám sát khác, từ đó xác định mức độ phù hợp của các cụm được hình thành và độ ổn định của quá trình gom cụm.

Giả sử ta có các tập dữ liệu G1, G2, …, Gn là kết quả gom cụm được phân hoạch từ quá trình gom cụm có giám sát, và các tập A1, A2, …, An là tập kết quả được gom cụm phân hoạch trên hệ thống hiện tại Với D là tập dữ liệu đặc trưng ban đầu, dựa vào kết quả gom cụm phân hoạch trong quá trình học có giám sát và hệ thống hiện tại [25], ta tiến hành đếm các giá trị được phân hoạch.

 a là các cặp số liệu thuộc trong một cụm trong G tương ứng thuộc trong một cụm trong A

 b là các cặp số liệu thuộc trong cùng một cụm trong G nhưng không thuộc một cụm trong A

 c là các cặp số liệu thuộc trong cùng một cụm trong A nhưng không thuộc cùng một cụm trong A

 d là các cặp không thuộc trong cùng một cụm trong G và cũng không thuộc trong cùng một cụm trong A

Từ các số liệu thống kê cho được ta sử dụng các phép đo độ chính xác kết quả gom cụm hệ thống hiện tại qua các độ đo sau:

 Hệ số Folkes và Mallow (FM): a * a

 Hệ số đo tương tự giữa các cụm:

 Hệ số Normal Mutual information (NMI):

Với: - N là số lượng chuỗi thời gian trong tập dữ liệu

- | G i | là số lượng chuỗi thời gian trong cụm G i

- | A j | là số lượng chuỗi thời gian trong cụm A j

Kết quả các độ đo đánh giá trên đều có giá trị từ 0 đến 1 Khi độ đo có giá trị càng tiến về 1 thì hệ thống gom cụm càng chính xác Dựa vào các độ đo này, chúng tôi sẽ thực hiện đo đạc độ chính xác giải thuật gom cụm chuỗi thời gian dựa vào gom cụm trên các môtíp đại diện sử dụng giải thuật gom cụm K-Means

Các hệ số đánh giá Jaccard, Rand, FM, CSM, NMI chỉ được dùng để đánh giá chất lượng gom cụm khi kết quả gom cụm đã biết trước

Một cách đánh giá chất lượng gom cụm khác là tối thiểu hóa hàm mục tiêu Hàm mục tiêu này được áp dụng để kiểm tra độ chặt chẽ của giải thuật gom cụm, nhằm thấy được mức phân tán của dữ liệu trong cùng một cụm và độ tách rời giữa các cụm với nhau Hàm mục tiêu được tính qua công thức (3.16) ở phía dưới.

Với x là số mẫu cần phân hoạch và c là số trung tâm các cụm

Phương pháp đánh giá chất lượng gom cụm dựa vào tối thiểu hàm mục tiêu được áp dụng cho hai trường hợp: khi kết quả gom cụm đã biết trước và khi kết quả gom cụm chưa được biết trước Việc tối thiểu hóa hàm mục tiêu đóng vai trò làm thước đo chuẩn cho mức độ tối ưu của quá trình gom cụm, giúp so sánh hiệu suất giữa các thuật toán và lựa chọn mô hình phù hợp với dữ liệu thực tế Phương pháp này mang lại tính nhất quán, khách quan và có thể triển khai trên nhiều tập dữ liệu bất kể dữ liệu đã có nhãn hay chưa, từ đó tăng độ tin cậy của kết quả phân nhóm và hỗ trợ các ứng dụng phân tích dữ liệu hiệu quả.

HIỆN THỰC VÀ THỬ NGHIỆM

Định dạng
Số trang	108
Dung lượng	4,74 MB