Biểu diễn dữ liệu chuỗi thời gian ở mức bít và ứng dụng

Nghiên cứu đề xuất một phương pháp biểu diễn dữ liệu chuỗi thời gian ở mức bit qua sự cải tiến phương pháp xấp xỉ gộp ký hiệu góa SAX và xấp xỉ gộp ký hiệu hóa khả chỉ mục iSAX của nhóm

Trang 1

Đại Học Quốc Gia Tp Hồ Chí Minh

TRƯỜNG ĐẠI HỌC BÁCH KHOA

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH Cán bộ hướng dẫn khoa học : PGS TS Dương Tuấn Anh

Cán bộ chấm nhận xét 1 : PGS TS Đỗ Phúc

Cán bộ chấm nhận xét 2 : TS Quản Thành Thơ

Luận văn thạc sĩ được bảo vệ tại:

HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ

TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm

Trang 3

TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM KHOA CÔNG NGHỆ THÔNG TIN Độc Lập - Tự Do - Hạnh Phúc

- -oOo -

Tp HCM, ngày tháng năm

NHIỆM VỤ LUẬN VĂN THẠC SĨ Họ và tên học viên: PHẠM ĐĂNG NINH … Phái: Nam………

Ngày, tháng, năm sinh: 17 / 12 / 1984 Nơi sinh: Bà Rịa Vũng Tàu

Chuyên ngành: Khoa Học Máy Tính

MSHV: 00707177

1- TÊN ĐỀ TÀI:

BIỂU DIỄN DỮ LIỆU CHUỖI THỜI GIAN Ở MỨC BIT VÀ ỨNG DỤNG

2- NHIỆM VỤ LUẬN VĂN:

Nghiên cứu đề xuất một phương pháp biểu diễn dữ liệu chuỗi thời gian ở mức bit qua sự cải tiến phương pháp xấp xỉ gộp ký hiệu góa SAX và xấp xỉ gộp ký hiệu hóa khả chỉ mục iSAX (của nhóm Keogh) dựa trên một quá trình huấn luyện dữ liệu

Nghiên cứu sử dụng hai cấu trúc chỉ mục phù hợp với kiểu biểu diễn ở mức bit là chỉ mục VA-File và cấu trúc cây phân cấp (hierarchical tree) nhằm giải quyết bài toán so trung mẫu

3- NGÀY GIAO NHIỆM VỤ :

4- NGÀY HOÀN THÀNH NHIỆM VỤ :

5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh

Nội dung và đề cương Luận văn thạc sĩ đã được Hội Đồng Chuyên Ngành thông qua

(Họ tên và chữ ký) QUẢN LÝ CHUYÊN NGÀNH (Họ tên và chữ ký)

(Họ tên và chữ ký)

Trang 4

LỜI CAM ĐOAN

Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như

đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác

Ngày tháng năm

Phạm Đăng Ninh

Trang 5

LỜI CẢM ƠN

Tôi xin gởi lời cảm ơn chân thành và sâu sắc đến PGS TS Dương Tuấn Anh, người Thầy đã tận tình hướng dẫn tôi trong suốt quá trình học Cao học và tạo mọi điều kiện để tôi có thể hoàn thành luận văn này

Tôi cũng xin cảm ơn gia đình, bạn bè đã động viên và tạo mọi điều kiện tốt nhất

để tôi có thể tiếp tục theo đuổi việc học tập và nghiên cứu Tôi trân trọng dành tặng thành quá của luận văn này cho Cha Mẹ Nhờ công lao dưỡng dục của Người mà chúng con mới có được thành quả như ngày hôm nay Con xin hứa sẽ tiếp tục cố gắng phấn đấu để vươn cao hơn nữa

Trang 6

Đề tài này sẽ đề nghị một phương pháp biểu diễn dữ liệu ở mức bit mới thông

qua quá trình cải tiến phương pháp xấp xỉ gộp ký hiệu hóa SAX và xấp xỉ gộp ký

hiệu hóa khả chỉ mục iSAX dựa trên một quá trình huấn luyện dữ liệu

Chúng tôi sử dụng hai cấu trúc chỉ mục tương thích với kiểu biểu diễn bit là chỉ

mục file xấp xỉ hóa vector (vector approximation file) và kiến trúc cây phân cấp

(hierarchical tree) nhằm giải quyết bài toán so trùng mẫu Trong quá trình tìm

kiếm, chúng tôi kết hợp giải thuật tìm kiếm xấp xỉ và giải thuật tìm kiếm chính xác trên cả hai cấu trúc chỉ mục Qua thực nghiệm cho thấy, phương pháp biểu diễn mới hiệu quả hơn so với phương pháp cũ trong bài toán so trùng mẫu

Trang 7

ABSTRACT

The suitable choice of representation greatly affects the ease and efficiency of time series data mining With the increasing amount of time series data in many applications, it is important to investigate a right representation for the areas that have seen the majority of research interest in time series data mining

This thesis introduces a new bit level representation of time series data based on

significant improvements over the current representations: Symbolic Aggregate

approXimation SAX and indexable Symbolic Aggregate approXimation iSAX via a

training phase

To perform query by content, we build vector approximation file (VA-File) and

hierarchical tree as our indexing techniques We have also provided examples of

algorithms that use a combination of approximate search and exact search to reduce search space in both indexing structures We find out our representation competitive with existing approaches by experiments

Trang 8

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

TÓM TẮT LUẬN VĂN iii

ABSTRACT iv

MỤC LỤC v

DANH MỤC HÌNH viii

CHƯƠNG 1: PHÁT BIỂU VẤN ĐỀ 1

1.1 Dữ liệu chuỗi thời gian… 1

1.2 Biểu diễn chuỗi thời gian .2

1.3 Mục tiêu và giới hạn của đề tài 5

1.4 Tóm lược những kết quả đạt được 6

1.5 Cấu trúc của luận văn…… 8

CHƯƠNG 2: TỔNG THUẬT CÁC CÔNG TRÌNH LIÊN QUAN 10

2.1 Các công trình về độ đo tương tự 10

2.1.1 Độ đo Minkowski…… 11

2.1.2 Độ đo xoắn thời gian động (Dynamic Time Warping - DTW) 13

2.1.3 Chuỗi con chung dài nhất (Longest Common Subsequence - LCS) 16

2.2 Các công trình về biểu diễn chuỗi thời gian 17

2.2.1 Các phương pháp thu giảm số chiều 17

2.2.2 Các phương pháp rời rạc dữ liệu 22

2.2.3 Các phương pháp biểu diễn dữ liệu ở mức bit 26

2.3 Cấu trúc chỉ mục………… 28

2.3.1 Cấu trúc chỉ mục R-Tree 28

2.3.2 Mô hình tổng quát bài toán tìm kiếm tương tự 29

2.3.3 Yêu cầu của phương pháp đánh chỉ mục 30

2.3.4 Framework GEMINI 30

CHƯƠNG 3: NHỮNG CƠ SỞ LÝ THUYẾT NỀN TẢNG 33

Trang 9

3.1 Giải thuật gom cụm k-means (hay giải thuật Lloyd) 33

3.2 Cấu trúc chỉ mục file xấp xỉ hóa vectơ (VA-File) 36

3.2.1 Cấu trúc chỉ mục VA-File 36

3.2.2 Chặn trên và chặn dưới của khoảng cách 38

3.2.3 Giải thuật truy vấn n láng giềng gần nhất trên VA-File 40

3.3 Cấu trúc chỉ mục cây phân cấp trong biểu diễn iSAX 43

3.3.1 Biểu diễn dữ liệu bằng phương pháp iSAX (indexable SAX) 43

3.3.2 Cấu trúc chỉ mục cây phân cấp 48

3.3.3 Giải thuật truy vấn chuỗi láng giềng gần nhất (nearest neighbor) 52

CHƯƠNG 4: HỆ THỐNG BIỂU DIỄN CHUỖI THỜI GIAN VÀ ỨNG DỤNG 55

4.1 Đặt vấn đề……… .55

4.2 Hướng giải quyết……… 56

4.2.1 Biểu diễn dữ liệu chuỗi thời gian 56

4.2.2 Độ đo tương tự 57

4.2.3 Cấu trúc chỉ mục 58

4.3 Kiến trúc hệ thống……… 59

4.4 Hoạt động của hệ thống… 62

4.4.1 Môđun huấn luyện dữ liệu 62

4.4.2 Môđun biểu diễn dữ liệu 68

4.4.3 Môđun so trùng mẫu 70

4.5 Kết luận……… .74

CHƯƠNG 5: THỰC NGHIỆM 75

5.1 So sánh độ chặt của chặn dưới khoảng cách 75

5.1.1 Thực nghiệm trên tập dữ liệu Koski_ECG 77

5.1.2 Thực nghiệm trên nhiều tập dữ liệu khác nhau 78

5.2 So sánh tỷ lệ thu giảm truy xuất 78

5.3 So sánh số lần truy xuất đĩa trong quá trình tìm kiếm 82

5.2.1 Thực nghiệm trên cấu trúc chỉ mục VA-File 83

5.2.2 Thực nghiệm trên cấu trúc chỉ mục cây phân cấp 84

Trang 10

5.3 Kết luận……… .85

Chương 6: KẾT LUẬN 86

6.1 Tổng kết……… .86

6.2 Những đóng góp của đề tài 87

6.3 Hướng phát triển………… 87

DANH MỤC TÀI LIỆU THAM KHẢO 89

PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT i

PHỤ LỤC B: LÝ LNCH TRÍCH N GAN G iv

Trang 11

DANH MỤC HÌNH

Hình 1.1 Đường cong biểu diễn chuỗi thời gian 2

Hình 1.2 Cây tóm lược các công trình về biểu diễn chuỗi dữ liệu thời gian (nguồn [17]) 3

Hình 2.1 N hược điểm của độ đo Minkowski (nguồn [17]) 12

Hình 2.2 Sự khác nhau giữa hai độ đo Euclid và DTW (nguồn [17]) 13

Hình 2.3 Phương pháp tính khoảng cách DTW (nguồn [39]) 15

Hình 2.4 Phương pháp chuỗi con chung dài nhất LCS (nguồn [33]) 16

Hình 2.5 Các phương pháp biểu diễn dữ liệu DFT, DWT, SVD (nguồn [17]) 19

Hình 2.6 Các phương pháp biểu diễn dữ liệu APCA, PAA, PLA (nguồn [17]) 21

Hình 2.7 Phương pháp biểu diễn dữ liệu SAX (nguồn [17]) 23

Hình 2.8 Xây dựng cây hậu tố từ S1={4, 5, 6, 7, 6, 6} và S2={4, 6, 7, 8} (nguồn [33]) 25

Hình 2.9 Một số từ mã được huấn luyện bởi GLA (nguồn [30]) 26

Hình 2.10 Phương pháp xén và mã hóa dữ liệu ở mức bit (nguồn [37]) 27

Hình 2.11 Phương pháp biểu diễn dữ liệu iSAX (nguồn [40]) 28

Hình 2.12 Sự phân chia MBR và cấu trúc chỉ mục R-Tree (nguồn [12]) 29

Hình 2.13 Phương pháp đánh chỉ mục trong framework GEMIN I (nguồn [10]) 32

Hình 3.1 Các bước chạy giải thuật k-means với 3 cụm (nguồn [29]) 35

Hình 3.2 Phân bố các điểm trên hai chiều Ox và Oy (nguồn [42]) 37

Hình 3.3 Minh họa chặn trên và chặn dưới với công thức tính khoảng cách L v v p( , )G Gq i (nguồn [42]) 39

Hình 3.4 Mã giả giải thuật VA-SSA (nguồn [42]) 41

Trang 12

Hình 3.5 Mã giả giải thuật VA-NOA (nguồn [42]) 42

Hình 3.6 Phương pháp chuNn hóa trung bình zero (nguồn [17]) 43

Hình 3.7 Quá trình thu giảm số chiều 16 Æ 4 bằng PAA (nguồn [40]) 44

Hình 3.8 Bảng tra giá trị điểm ngắt theo hàm phân phối Gauss (nguồn [26]) 45

Hình 3.9 Rời rạc hóa dữ liệu dùng phương pháp iSAX (nguồn [40]) 45

Hình 3.10 Bảng tra khoảng cách cho 4 mức phân giải (nguồn [40]) 47

Hình 3.11 Cấu trúc chỉ mục cây phân cấp cho iSAX (nguồn [40]) 48

Hình 3.12 Mã giả giải thuật chèn một chuỗi dữ liệu vào cấu trúc chỉ mục (nguồn [40]) 51

Hình 3.13 Mã giả giải thuật tìm kiếm chính xác (nguồn [40]) 54

Hình 4.1 Minh họa tỷ lễ lỗi khi tăng kích thước dữ liệu giữa 2 độ đo Euclid và DTW trên 2 dataset (nguồn [40]) 58

Hình 4.2 Kiến trúc hệ thống 61

Hình 4.3 Môđun huấn luyện dữ liệu 62

Hình 4.4 ChuNn hóa trung bình zero (nguồn [17]) 64

Hình 4.5 Biến đổi PAA 65

Hình 4.6 Mã giả giải thuật gom cụm k-means một chiều 66

Hình 4.6 Một số tập các điểm ngắt thu được từ quá trình huấn luyện 67

Hình 4.7 Biểu diễn aSAX 69

Hình 4.8 Mã giả giải thuật tìm kiếm xấp xỉ 72

Hình 4.9 Mã giả giải thuật tìm kiếm chính xác 73

Hình 5.1 So sánh độ chặt của chặn dưới khoảng cách Euclid của các phương pháp iaSAX, iSAX, aSAX, SAX, PAA trên tập dữ liệu Koski ECG 78

Trang 13

Hình 5.2 So sánh độ chặt của chặn dưới khoảng các Euclid của các phương pháp

iaSAX, iSAX, aSAX, SAX, PAA trên 12 tập dữ liệu với mức thu giảm chiều 32 : 1,

16 : 1 và 8 : 1 79Hình 5.3 So sánh tỉ lệ thu giảm truy xuất của các phương pháp iaSAX, iSAX,

aSAX, SAX trên 3 tập dữ liệu Koski ECG, Foetal ECG và Muscle Activation với

nhiều mức thu giảm chiều khác nhau 81

Hình 5.4 So sánh tỉ lệ thu giảm truy xuất của các phương pháp iaSAX, iSAX,

aSAX, SAX trên 3 tập dữ liệu Koski ECG, Foetal ECG và Muscle Activation với nhiều mức thu giảm chiều khác nhau 84

Hình 5.5 Minh họa số lần truy xuất đĩa trên tập dữ liệu RandomWalk và Koski

ECG trên cấu trúc chỉ mục VAFile 84

Hình 5.6 Minh họa chỉ số số lần truy xuất đĩa trên tập dữ liệu RandomWalk và

Koski ECG trên cấu trúc chỉ mục cây phân cấp .85

Trang 14

CHƯƠNG 1: PHÁT BIỂU VẤN ĐỀ

1.1 Dữ liệu chuỗi thời gian

Dữ liệu chuỗi thời gian hay chuỗi thời gian thường xuất hiện trong nhiều ứng dụng

cụ thể cũng như các công trình nghiên cứu… Để dễ dàng tìm hiểu, chúng ta cần đưa

ra định nghĩa cụ thể về chuỗi thời gian

Chuỗi thời gian (time series) là tập hợp các quan sát tuần tự theo thời gian Dữ

liệu này có thể có hai hay nhiều chiều nhưng phải có một chiều là chiều thời gian

Có rất nhiều dữ liệu có yếu tố thời gian như dữ liệu về giá chứng khoán, điện tâm

đồ, mực nước sông, số truy cập một trang web trong một giây… Thông thường, chuỗi thời gian thường rất lớn Do đó, việc khai phá chuỗi thời gian cần phải sử dụng những công cụ máy tính nhằm tăng khả năng phân tích, tính toán và xử lý Chính vì vậy, việc nghiên cứu và khai phá chuỗi thời gian đang được nghiên cứu nhiều trong lĩnh vực khoa học máy tính và các lĩnh vực khác

Trong phạm vi nghiên cứu của đề tài này, chuỗi thời gian được biểu diễn bằng một chuỗi các số thực tương ứng X =x x1 2 x n, trong đó x i là giá trị đo ở thời điểm

thứ i Một đường cong biểu diễn chuỗi thời gian được minh họa trong hình 1.1

N hững khó khăn và thách thức khi nghiên cứu chuỗi thời gian [22]

o Dữ liệu quá lớn

Ví dụ: trong 1 giờ, dữ liệu điện tâm đồ (ECG) là 1 GigaByte

o Phụ thuộc nhiều yếu tố chủ quan

Việc đánh giá mức độ tương tự giữa các dữ liệu phụ thuộc vào yếu tố chủ quan của người dùng, của tập dữ liệu…

o Sự không đồng nhất của dữ liệu

Định dạng của các loại dữ liệu khác nhau, tần số lấy mẫu khác nhau

N goài ra, dữ liệu có thể bị nhiễu, thiếu một vài giá trị, hoặc không sạch…

Trang 15

Hình 1.1 Đường cong biểu diễn chuỗi thời gian

1.2 Biểu diễn chuỗi thời gian

Trong hầu hết các bài toán về chuỗi thời gian, đặc biệt là bài toán cơ sở, tìm kiếm

tương tự (similarity search) và lập chỉ mục (indexing), việc biểu diễn dữ liệu (representation of data) chính là nhân tố quan trọng nhất ảnh hưởng đến hiệu suất

cũng như kết quả của bài toán N goài ra, nhiều bài toán khác cũng sử dụng kết quả

bài toán tìm kiếm tương tự để giải quyết vấn đề Ví dụ: bài toán gom cụm

(clustering), phân loại (classification), tìm quy luật của dữ liệu (rule discovery), phát hiện điểm bất thường (novelty detection), tìm mẫu lặp (finding motif), dự báo

dữ liệu (prediction) trong tương lai… Do vậy, việc tìm ra những cách thức biểu

diễn chuỗi thời gian thích hợp đang là một thách thức lớn trong cộng đồng các nhà khoa học nghiên cứu về chuỗi thời gian

Trang 16

Biểu diễn chuỗi thời gian hợp lý giúp khắc phục được những yếu tố khó khăn đặc thù của chuỗi thời gian như dữ liệu quá lớn (tốn chi phí I/O và CPU khi truy xuất dữ liệu và tính toán), sự không đồng nhất dữ liệu (kết quả tính toán không chính xác)… Trong phần lớn các công trình về biểu diễn chuỗi thời gian, các

phương pháp biểu diễn đều tập trung làm thu giảm số chiều (dimensionality

reduction) và bảo toàn độ đo tương tự (similarity measure) trên không gian biểu

diễn mới, nhằm thu giảm tối đa chi phí tính toán cũng như tăng độ chính xác của kết quả Hình 1.2 tóm lược các công trình về biểu diễn chuỗi thời gian

Hình 1.2 Cây tóm lược các công trình về biểu diễn chuỗi dữ liệu thời gian

(nguồn [17])

o Biểu diễn dựa trên mô hình (Model Based)

Chuỗi ban đầu và chuỗi truy vấn được biểu diễn dựa trên các đặc điểm đã định nghĩa trước như sự tăng, giảm, không đổi… Sau đó, từ chuỗi dữ liệu

ban đầu này ta xây dựng mô hình xác suất chuyển trạng thái như mô hình

Spectral Wavelets Piecewise

Aggregate Approximation

Piecewise Polynomial

Symbolic

Singular Value Approximation

Random Mappings

Piecewise

Linear

Approximation

Adaptive Piecewise Constant Approximation

Discrete Fourier Transform

Discrete Cosine Transform

N on Lower Bounding

Chebyshev Polynomials

Data

Indexable SAX

Trang 17

Markov ẩn (Hidden Markov Model HMM) [5][34], mô hình ARMA (Autogressive moving average model ARMA) [4]… dựa trên những đặc điểm

hữu hạn đã được định nghĩa trước Sau đó, chúng ta rời rạc hóa chuỗi thời gian thành chuỗi các đặc điểm và áp dụng giải thuật Markov để tính xác suất cho các chuỗi đặc điểm Qua đó đánh giá độ tương tự của các chuỗi thời gian

o Biểu diễn thích nghi dữ liệu (Data Adaptive)

Dữ liệu ở miền thời gian được rút trích đặc trưng (feature) thông qua các phép biến đổi Ma trận chuyển đổi (transform matrix) được tính toán dựa

trên tất cả các giá trị của chuỗi thời gian Khi tập dữ liệu thay đổi, chúng ta cần phải khởi động lại giải thuật Do đó, phương pháp này thường được sử dụng trong một số tập dữ liệu cụ thể, chuyên biệt Một số phương pháp phổ

biến như phân rã giá trị riêng SVD [25], xấp xỉ tuyến tính từng đoạn PLA [21][24], xấp xỉ hằng số từng đoạn thích nghi APCA [20], xấp xỉ gộp ký hiệu

hóa SAX [26]

o Biểu diễn không thích nghi dữ liệu (Non Data Adaptive)

Trong phép biểu diễn này, ma trận chuyển đổi (transform matrix) được xác

định trước và độc lập với tập dữ liệu Phương pháp này sử dụng các phép

biến đổi tín hiệu trong xử lý tín hiệu số như biến đổi Fourier rời rạc DFT [1][10], biến đổi Wavelet rời rạc DWT [6][7] N goài ra, phương pháp xấp xỉ

gộp từng đoạn PAA [19][44] cũng được sử dụng rất phổ biến bởi tính bảo

toàn khoảng cách (khoảng cách Minkowski, khoảng cách Euclid, xoắn thời gian động…)

o Biểu diễn điều khiển bởi dữ liệu (Data Dictated)

Trong tất cả cách cách biểu diễn trên, chúng ta cần phải gán những thông số khởi động cho giải thuật như số lượng đặc trưng cần rút trích (DFT, DWT…) hay số lượng các giá trị cần tính trung bình (PAA) Tương ứng với mỗi loại

dữ liệu, mỗi phương pháp biểu diễn cần được khởi động bởi những thông số

Trang 18

khác nhau Tuy nhiên, trong phương pháp biểu diễn này, tự bản thân dữ liệu

sẽ tạo ra thông số cần thiết cho việc biểu diễn N ói cách khác, tự bản thân dữ

liệu quy ước các thông số cho chính giải thuật Phương pháp xén dữ liệu

(Clipped Data) [4][34] là một ví dụ Phương pháp này được sử dụng kết hợp

với các mô hình thống kê (mô hình ARMA hay mô hình Markov Nn HMM)

để tạo ra kết quả tốt hơn cho bài toán gom cụm [5]

1.3 Mục tiêu và giới hạn của đề tài

Mục tiêu chính của luận văn là biểu diễn chuỗi dữ liệu thời gian ở dạng bit nhằm mục đích thu giảm số chiều nhưng vẫn bảo toàn độ đo tương tự Khi đó, chuỗi dữ liệu ban đầu là những số thực, thường được lưu trữ trong bộ nhớ với kích thước lớn

sẽ được biểu diễn thành các chuỗi bit với không gian lưu trữ nhỏ N hờ vậy, việc tính toán, khai phá dữ liệu sẽ hiệu quả hơn và tốn ít chi phí hơn Mặt khác, nhờ việc kết

hợp những cấu trúc chỉ mục dành cho các chuỗi bit như cấu trúc chỉ mục file xấp xỉ

hóa vectơ (Vector Approximation File – VA-File) [42] hay cấu trúc chỉ mục cây phân cấp (hierarchical tree) [40], bài toán cơ sở tìm kiếm tương tự sẽ được giải

quyết một cách hiệu quả với mức chi phí I/O rất thấp trong quá trình truy vấn dữ liệu

Sau khi khảo sát các phương pháp biểu diễn dữ liệu chuỗi thời gian cùng với các cấu trúc chỉ mục tương ứng với mỗi cách biểu diễn, chúng tôi đề xuất cách tiếp cận bài toán biểu diễn chuỗi dữ liệu thời gian ở mức bit theo hướng sau:

o Thu giảm số chiều bằng phương pháp xấp xỉ gộp từng đoạn PAA do E

Keogh và cộng sự đề nghị [19]

o Huấn luyện dữ liệu nhằm tìm ra những điểm ngắt (breakpoints) thích hợp

nhất cho quá trình rời rạc hóa dữ liệu Thông số đầu vào của giải thuật huấn

luyện sẽ là những điểm ngắt trong phương pháp xấp xỉ gộp ký hiệu hóa SAX

do J Lin và cộng sự đề nghị [26] và các thông số thu giảm chiều trong

phương pháp PAA trước đó

Trang 19

o Rời rạc hóa dữ liệu ở mức bit bằng phương pháp xấp xỉ gộp ký hiệu hóa khả

chỉ mục iSAX do J Shieh và cộng sự đề nghị [40] với các điểm ngắt đã được

xác định trước trong quá trình huấn luyện

o Xây dựng độ đo tương tự dựa trên các điểm ngắt nói trên

o Sử dụng cấu trúc chỉ mục file xấp xỉ hóa vectơ VA-File và cây phân cấp nhằm hạn chế hiện tượng vùng phủ lấp (overlapping region) trong các cấu trúc chỉ mục không gian R-Tree hay R*-Tree… và thu giảm số lần truy xuất

đĩa (disk I/Os) trong quá trình tìm kiếm

o Xây dựng và cải tiến cấu trúc chỉ mục VA-File cũng như giải thuật truy vấn

(query algorithm) trên cấu trúc chỉ mục VA-File cho tương thích với kiểu

biểu diễn mới này

o Hiện thực và kiểm nghiệm bài toán tìm kiếm tương tự dựa trên các tiêu chí:

độ chặt của chặn dưới độ đo tương tự (tightness of lower bound), tỉ lệ phần trăm số lần truy xuất đĩa (percentage of disk I/Os) khi truy vấn dữ liệu trên

cấu trúc chỉ mục cây phân cấp và VA-File

o Xây dựng một kiến trúc hệ thống tổng quát cho tất cả các bài toán liên quan đến khai phá chuỗi dữ liệu thời gian

1.4 Tóm lược những kết quả đạt được

Với những yêu cầu của đề tài, sau thời gian nghiên cứu và hiện thực, chúng tôi đã xây dựng hệ thống tổng quát cho các bài toán liên quan đến dữ liệu chuỗi thời gian Trong giới hạn thời gian hiện thực, chúng tôi đã hiện thực 3 môđun chính trong hệ

thống, bao gồm: môđun huấn luyện dữ liệu, môđun biểu diễn chuỗi dữ liệu thời gian

ở mức bit cùng với cấu trúc chỉ mục tương ứng, môđun so trùng mẫu nhằm giải

quyết bài toán tìm kiếm tương tự một cách tối ưu

Trong môđun thứ nhất, chúng tôi tiến hành huấn luyện dữ liệu nhằm tìm ra các

điểm ngắt (breakpoints) thích hợp nhất đối với từng loại dữ liệu Tập điểm ngắt này

Trang 20

được sử dụng trong các môđun kế tiếp nhằm biểu diễn dữ liệu ở mức bit, đánh chỉ mục và thực thi quá trình tìm kiếm tương tự

Trong môđun thứ hai, chúng tôi cải tiến phương pháp xấp xỉ gộp ký hiệu hóa

hóa, (Symbolic Aggregate approXimation - SAX) [26] nhằm cải thiện độ chặt của chặn dưới (tightness of lower bound) và hạn chế số lần truy xuất đĩa (disk I/Os)

trong quá trình tìm kiếm Phương pháp này được đặt tên là phương pháp xấp xỉ gộp

ký hiệu hóa thích nghi (adaptive Symbolic Aggregate approXimation – aSAX) và

được mở rộng thành phương pháp xấp xỉ gộp ký hiệu hóa thích nghi khả chỉ mục

(indexable adaptive SAX - iaSAX) nhằm thích hợp với cấu trúc chỉ mục cây phân cấp Hai phương pháp biểu diễn nói trên aSAX và iaSAX cho kết quả hiệu quả hơn

hai phương pháp SAX và iSAX do nhóm của E Keogh đề nghị [26][40] trong bài

toán tìm kiếm tương tự Chúng tôi đã sử dụng hai cấu trúc chỉ mục thích hợp nhất

đối với biểu diễn bit của dữ liệu chuỗi thời gian là: cấu trúc chỉ mục file xấp xỉ hóa

vectơ (VA-File) đối với biểu diễn aSAX và cấu trúc chỉ mục cây phân cấp (hierarchical tree) đối với biểu diễn iaSAX N goài ra, chúng tôi đã cải tiến phương

pháp đánh chỉ mục VA-File tương thích với hai phương pháp biểu diễn aSAX và

iaSAX nhằm thu giảm chi phí truy xuất đĩa trong quá trình truy vấn dữ liệu Việc kết

hợp hai cấu trúc chỉ mục nói trên với hai phương pháp biểu diễn dữ liệu mới aSAX

và iaSAX đã nâng cao hiệu quả tìm kiếm cũng như thu giảm thời gian xây dựng cấu

trúc chỉ mục

Môđun thứ ba sẽ thực thi quá trình so trùng chuỗi Trong quá trình này, việc xác định độ tương tự giữa các mẫu là quan trọng nhất Cũng tương tự như các nghiên cứu khác, chúng tôi sử dụng khoảng cách Euclid làm độ đo tương tự Tuy nhiên, ứng với mỗi loại cấu trúc chỉ mục nêu trên, chúng tôi sẽ đề ra những cách thức tính

toán chặn dưới của độ đo (lower bound) và xây dựng một mô hình truy vấn chung

cho cả hai loại chỉ mục nói trên

Trang 21

N goài ra, trong quá trình hiện thực hệ thống, chúng tôi đã đề ra những hướng

mở rộng và ứng dụng của hai phương pháp biểu diễn nói trên trên nhiều phương diện:

o Cải thiện độ chặt của chặn dưới khoảng cách

o Tổng quát hóa cấu trúc chỉ mục trên chuỗi biểu diễn bit

o Tăng hiệu suất quá trình truy vấn

o Xây dựng ứng dụng so trùng mẫu đoạn nhạc nhằm hạn chế hiện tượng ăn cắp bản quyền trong âm nhạc

N hư vậy, hệ thống đã hiện thực mà chúng tôi sẽ trình bày chi tiết ở những chương sau đã đáp ứng những yêu cầu và nhiệm vụ của đề tài

1.5 Cấu trúc của luận văn

Tổ chức của phần còn lại của luận văn theo cấu trúc như sau:

Chương II là tổng quan về các công trình liên quan N hững công trình này trình bày những phương pháp biểu diễn dữ liệu chuỗi thời gian bằng cách thu giảm số chiều, mã hóa và cải thiện hiệu suất tìm kiếm tương tự dựa trên những cấu trúc chỉ mục thích hợp

Chương III giới thiệu một số lý thuyết phức tạp mà chúng ta sẽ sử dụng trong

luận văn Trước hết đó là giải thuật lượng tử hóa tối ưu (optimal quantization) được đưa ra bởi Lloyd, S P năm 1982 [28] hay còn được gọi là giải thuật gom cụm k-

means (k-means clustering) [29] Giải thuật này sẽ được dùng để huấn luyện dữ

liệu, nhằm tìm ra những điểm ngắt thích hợp nhất cho phương pháp aSAX và iaSAX

đối với mỗi kiểu dữ liệu Sau đó là các lý thuyết về cấu trúc chỉ mục cùng với các

giải thuật truy vấn thích hợp với biểu diễn bit của dữ liệu: cấu trúc VA-File và cấu trúc cây phân cấp

Chương IV trình bày những vấn đề đặt ra khi biểu diễn dữ liệu ở mức bit cùng với bài toán tìm kiếm tương tự Trong chương này, chúng tôi sẽ phân tích những

Trang 22

vấn đề chính mà hệ thống cần phải giải quyết: định nghĩa 2 mẫu tương tự nhau, biểu diễn dữ liệu mức bit hợp lý, phương pháp đánh chỉ mục cùng với giải thuật truy vấn tương ứng Sau đó chúng tôi sẽ trình bày từng bước cách giải quyết các vấn đề trên Chương V là một số kết quả thực nghiệm

Chương VI là một số kết luận và hướng mở rộng của đề tài

Trang 23

CHƯƠNG 2: TỔNG THUẬT CÁC CÔNG TRÌNH

LIÊN QUAN

Chương 2 sẽ tổng thuật các công trình về độ đo tương tự, các phương pháp biểu diễn dữ liệu chuỗi thời gian và các phương pháp lập chỉ mục

2.1 Các công trình về độ đo tương tự

Trong mọi bài toán về chuỗi thời gian, vấn đề quan trọng nhất là phương pháp tính

khoảng cách của hai đối tượng O 1 , O 2 Hai đối tượng được xem là giống nhau khi khoảng cách giữa chúng là 0, là tương tự nhau khi khoảng cách giữa chúng nhỏ hơn giá trị ε được quy ước trước đó Để có thể tính toán và so sánh thì khoảng cách này được biểu diễn thành các số thực và phải thỏa các tính chất sau:

ta có thể bỏ qua những không gian tìm kiếm mà chắc chắn không có lời giải thỏa mãn yêu cầu Do đó, thời gian tính toán sẽ giảm

Đối với bài toán tìm kiếm tương tự trên dữ liệu chuỗi thời gian thì dữ liệu được biểu diễn thành các dãy số thực X ={ , , , },x x1 2 x n Y ={y , y , , }1 2 y n Ta cần phải tính

Trang 24

độ tương tự Sim(X,Y) của 2 mẫu này Chúng ta sẽ xem xét những phương pháp đánh

giá mức độ tương tự phổ biến được đề nghị trong [1][2][3][18][19][33][44]

2.1.1 Độ đo Minkowski

1

( , ) p n ( )p

i i i

Nhược điểm

o N hạy cảm với nhiễu

o Không thích hợp khi dữ liệu có đường cơ bản (base line) khác nhau (Hình

2.1a): ví dụ như giá chứng khoáng của A và B thay đổi rất giống nhau nhưng

A dao động ở 100 còn B dao động ở mức 40 N hư vậy A và B là rất khác nhau mặc dù hình dáng rất giống nhau

o Không thích hợp khi dữ liệu có biên độ dao động khác nhau (Hình 2.1b): Trong trường hợp giá chứng khoán của 2 công ty A và B thay đổi rất giống nhau nhưng mà biên độ dao động của A là 20 và 80 còn biên độ dao động của B là 30 và 50 thì độ tương tự của A và B là rất khác nhau

Trang 25

(1) Đường cơ bản khác nhau (2) Biên độ dao động khác nhau Hình 2.1 Nhược điểm của độ đo Minkowski (nguồn [17])

Khắc phục

o Phương pháp chuẩn hóa dữ liệu (Data normalization)

a) Chuẩn hóa trung bình zero (Zero-Mean normalization) [22]

Chuỗi Q được biến đổi thành chuỗi Q’ dựa trên giá trị trung bình mean(Q) và

độ lệch chuNn var(Q) theo công thức sau:

Q’[i] = (Q[i]- mean(Q)) / var(Q)

b) Chuẩn hóa nhỏ nhất – lớn nhất (Min-Max normalization) [2]

Chuỗi Q được biến đổi thành chuỗi Q’ dựa trên giá trị lớn nhất Q max và giá trị

nhỏ nhất Q min theo công thức sau:

max min

[ ]

2[ ]

Trang 26

o Phương pháp trung bình di chuyển (Moving average) [36]

Chuỗi Q được biến đổi thành chuỗi Q’, trong đó điểm ở vị trí i bằng trung bình cộng giá trị tại điểm j và k điểm lân cận Ví dụ trong trường hợp k = 3

2.1.2 Độ đo xoắn thời gian động (Dynamic Time Warping - DTW)

Việc so trùng hai đường biểu diễn không hoàn toàn giống nhau nhưng hình dạng

biến đổi rất giống nhau bằng khoảng cách từng cặp điểm 1-1 (so điểm thứ i của đường thứ nhất và điểm thứ i của đường thứ hai) là không phù hợp Hình 2.2 minh

họa hai đường biểu diễn rất giống nhau về hình dạng nhưng lệch nhau về thời gian Trong trường hợp này, nếu tính khoảng cách bằng cách ánh xạ 1-1 giữa hai đường thì kết quả rất khác nhau và có thể dẫn đến kết quả cuối cùng không giống như mong muốn Vì vậy để khắc phục nhược điểm này, một điểm có thể ánh xạ với nhiều điểm và những ánh xạ này không thẳng hàng Phương pháp này gọi là xoắn thời gian động [39]

(a) Tính theo khoảng cách Euclid (b) Tính theo khoảng cách DTW Hình 2.2 Sự khác nhau giữa hai độ đo Euclid và DTW (nguồn [17])

Trang 27

Dữ liệu vào của phương pháp DTW là 2 đường chuỗi thời gian và thông số

khung cửa sổ xoắn w (warping window) ràng buộc 2 điểm i và j có thể ánh xạ nhau

nếu | i – j | ≤ w Dữ liệu ra là tổng khoảng cách của các điểm được ánh xạ với nhau

Cách tính DTW

Cách đơn giản nhất để tính DTW của hai đường X và Y là xây dựng ma trận D m n×

với m = |X| và n = |Y| Khi đó, D ij = d(x i , y j ) (Hình 2.3) Sau khi xây dựng ma trận

D, ta tìm đường đi từ ô (0, 0) đến ô (m, n) thỏa mãn những ràng buộc sau:

1 Không được đi qua trái hay đi xuống

2 Đường đi phải liên tục

3 Ô (i, j) thuộc đường đi phải thỏa i j− ≤w

Giả sử có K ô đi từ ô (0, 0) đến ô (m, n) thỏa mãn những điều kiện trên, khi đó:

Tuy nhiên, ta có thể dùng quy hoạch động để giải quyết bài toán này [3] Trong

đó, công thức truy hồi để tính D(i, j):

( , ) | i i| min { ( 1, ), ( 1, 1), ( , 1) }

D i j = x −y + D i− j D i− j− D i j−

Trang 28

Hình 2.3 Phương pháp tính khoảng cách DTW (nguồn [39])

o N hược điểm lớn nhất của DTW là thời gian chạy rất lâu, gấp hàng trăm

đến hàng nghìn lần so với độ đo Euclid Giải thuật DTW lúc đầu có w = n (n là chiều dài của dữ liệu) Khi đó, độ phức tạp là O(n 2 ) Do đó, ta đưa ra

thông số cửa sổ xoắn w (w < n) để giảm độ phức tạp là O(wn) [3]

Khắc phục

o Dùng phép ánh xạ để chuyển cách biểu diễn ban đầu sang cách biểu diễn khác bằng cách nén dữ liệu và giảm tần số lấy mẫu Khi đó việc tính toán xấp xỉ theo DTW nhanh hơn [18]

o Trong phương pháp DTW trình bày ở trên ta dùng thông số w để giới hạn miền tìm kiếm Cải tiến này gọi là cận dưới (lower bound) Miền tìm

Trang 29

kiếm này có thể giới hạn bởi 2 đường thẳng song song như hình 2.3 hoặc

có thể có hình dạng khác (tùy theo từng trường hợp cụ thể) [23][39]

2.1.3 Chuỗi con chung dài nhất (Longest Common Subsequence - LCS)

Điểm nổi bật của phương pháp chuỗi con chung dài nhất là nó cho phép bỏ qua những điểm bất thường khi so sánh (Hình 2.4) [2][33] Tư tưởng chính của phương pháp này là tìm những dãy con chung Hai dãy có dãy con chung càng dài thì càng

giống nhau Ví dụ, cho 2 chuỗi X, Y :

X = 3, 2, 5, 7, 4, 8 , 10, 7

Y = 2, 5, 4, 7, 3, 10, 8 , 6 LCS = 2, 5, 7, 10

o Cần chuNn hóa dữ liệu nhằm tránh hiện tượng tịnh tiến (shifting) đường

cơ bản hay co giãn biên độ (scaling)

Hình 2.4 Phương pháp chuỗi con chung dài nhất LCS (nguồn [33])

Trang 30

2.2 Các công trình về biểu diễn chuỗi thời gian

Do đặc thù của chuỗi thời gian là khối lượng dữ liệu rất lớn dẫn đến chi phí cao trong việc truy xuất và tính toán trên dữ liệu thô Vì vậy, các công trình về chuỗi thời gian đều tập trung biểu diễn chuỗi thời gian dưới dạng khác nhằm thu giảm kích thước dữ liệu và nâng cao hiệu năng tìm kiếm, tính toán Phần lớn các phương pháp biểu diễn dữ liệu đều nhằm mục đích thu giảm số chiều nhằm thu giảm kích

thước dữ liệu và hỗ trợ lập chỉ mục Sau đó, chúng ta có thể rời rạc hóa

(discretizeation) dữ liệu thành chuỗi bit hay chuỗi ký tự nhằm khai thác các kỹ thuật

về nén dữ liệu cũng như các kỹ thuật khai phá dữ liệu văn bản (text mining)…

N goài ra, chúng ta cần chuNn hóa dữ liệu trước khi thực hiện quá trình thu giảm số

nhiều nhằm tránh các vấn đề như dữ liệu có đường cơ bản khác nhau (tịnh tiến dữ

liệu) hay biên độ dao động khác nhau (co giãn biên độ)

2.2.1 Các phương pháp thu giảm số chiều

Phương pháp thu giảm số chiều là phương pháp biểu diễn dữ liệu chuỗi thời gian thành những đường cơ bản đã được định nghĩa trước [13] Khi đó, thay vì lưu trữ

chuỗi giá trị n chiều X ={ , , , }x x1 2 x n , ta chỉ cần lưu trữ chuỗi dữ liệu k chiều

1 2

{y , , }k

Y = y y với k hệ số của các đường cơ bản Từ những đường cơ bản này ta cũng có thể phục hồi lại dữ liệu ban đầu N ếu k càng lớn thì đường phục hồi này

càng chính xác với đường ban đầu và ngược lại N hư vậy, thay vì tính toán trên dữ

liệu n chiều, ta chỉ cần tính toán trên dữ liệu k chiều Phương pháp này rất thích hợp

cho cấu trúc chỉ mục trong cơ sở dữ liệu không gian (R-Tree, K-D-Tree…) bởi nó chỉ cho kết quả tốt khi số chiều dữ liệu nhỏ hơn 20 [2]

Trang 31

a) Phương pháp biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT)

Phương pháp DFT do R Agrawal và cộng sự đề nghị năm 1993 [1] Trong phương pháp này, đường dữ liệu ban đầu được biểu diễn bởi các đường cơ bản N hưng đường cơ bản trong trường hợp này là đường sin và cosin (hình 2.5)

o Có khả năng nén dữ liệu và chịu nhiễu tốt

o Cho phép so sánh gián tiếp 2 chuỗi X, Y thông qua khoảng cách của 2 chuỗi X f , Y f đã được biến đổi do: D X Y( , )≥αD X Y( f, )f (trong đó α là hằng số)

o Một số phương pháp lập chỉ mục được đề nghị như F-Index [1], ST-Index [10] hỗ trợ việc tìm kiếm chuỗi con tương tự

o Độ phức tạp của phép biến đổi Fourier tốt nhất Fast Fourier Transform –

FFT là O(nlgn) với n là số lượng điểm

o Khó giải quyết khi các đường biểu diễn có chiều dài khác nhau

b) Phương pháp biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT)

Phương pháp DWT do K Chan và cộng sự đề xuất năm 1999 [6] Phương pháp DWT biểu diễn chuỗi thời gian thành các đường Haar cơ bản (hình 2.5) Đường Haar được định nghĩa theo công thức như sau:

Trang 32

1 0 0,5 ( ) 1 0.5 1 0

i j

Hình 2.5 Các phương pháp biểu diễn dữ liệu DFT, DWT, SVD (nguồn [17])

Ưu điểm

o Độ phức tạp phép biến đổi O(n)

o Có khả năng khử nhiễu rất cao, thích hợp với những dữ liệu tĩnh ít thay đổi do đường Haar cũng không thay đổi liên tục

Trang 33

c) Phương pháp phân rã giá trị riêng (Singular Value Decomposition - SVD)

Phương pháp SVD do F Korn và cộng sự đề xuất năm 1997 [25] Phương pháp

SVD biểu diễn chuỗi thời gian thành các đường eigenwave (hình 2.5) Việc xác định đường eigenwave dựa vào giá trị riêng và vectơ riêng của ma trận D mxn với m

là tập các chuỗi thời gian, n là số chiều Mỗi tập dữ liệu khác nhau có các đường

eigenwave khác nhau (hình 2.5)

Ưu điểm

o Cho phép thấy được hình dạng dữ liệu

o Hỗ trợ kiểu truy vấn ngẫu nhiên (ad-hoc query)

o Độ phức tạp rất cao

o Phải chạy lại giải thuật khi chỉnh sửa tập dữ liệu

d) Phương pháp xấp xỉ gộp từng đoạn (Piecewise Aggregate Approximation -

PAA)

Phương pháp PAA do E Keogh và cộng sự đề xuất năm 2000 [19] Phương pháp

PAA tuần tự xấp xỉ k giá trị liền kề nhau thành cùng một giá trị bằng trung bình cộng của k điểm đó Quá trình cứ tiếp tục như vậy từ trái sang phải Kết quả cuối

cùng Kết quả cuối cùng là đường thẳng có dạng bậc thang (hình 2.6)

( 1) 1

n i N

n

j i N

o Thời gian tính toán rất nhanh

o Hỗ trợ nhiều phương pháp tính khoảng cách (khoảng cách Euclid, DTW, khoảng cách Minkowski…)

Trang 34

o Hỗ trợ dạng câu truy vấn có chiều dài khác nhau

o Xây dựng lại chuỗi ban đầu rất khó và thường sinh lỗi lớn

o Không quan tâm đến những điểm đặc biệt (điểm giá trị nhỏ nhất, lớn

nhất…) trong từng đoạn xấp xỉ

Hình 2.6 Các phương pháp biểu diễn dữ liệu APCA, PAA, PLA (nguồn [17])

e) Phương pháp xấp xỉ từng đoạn thích nghi (Adaptive Piecewise Constant

Trang 35

o Tỷ lệ lỗi khi xây dựng lại dữ liệu nhỏ hơn PAA

o Hỗ trợ tìm kiếm xấp xỉ (approximate searching) và tìm kiếm chính xác

o Độ phức tạp phép biến đổi O(nlog(n))

f) Phương pháp xấp xỉ tuyến tính từng đoạn (Piecewise Linear Approximation -

PLA)

Phương pháp PLA do E Keogh và cộng sự đề nghị năm 1999 [24] Trong phương pháp này ta sẽ biểu diễn dữ liệu ban đầu bằng chuỗi các đoạn thẳng tuyến tính Các đoạn thẳng này có thể rời nhau hoặc liên tục (hình 2.6)

Ưu điểm

o Trực quan và có tỷ lệ lỗi thấp nhất trong quá trình xây dựng lại chuỗi dữ liệu

o Giải thuật tìm các chuỗi đoạn thẳng thực hiện trong thời gian tuyến tính

o Hỗ trợ phép truy vấn mờ (fuzzy query)

o Độ phức tạp khi tính toán khoảng cách trong cấu trúc chỉ mục cao [8]

2.2.2 Các phương pháp rời rạc dữ liệu

Quá trình chia dữ liệu thành những đoạn nhỏ được gọi là quá trình rời rạc hóa Sau

đó, tương ứng với mỗi đoạn nhỏ này ta sẽ mã hóa chúng bởi những đặc trưng của đoạn Tập hợp những đặc trưng của những đoạn nhỏ này sẽ biểu diễn cho chuỗi dữ liệu ban đầu Khác với những phương pháp trước thì độ tương tự được tính dựa trên khoảng cách, trong phương pháp này, độ đo tương tự được tính dựa trên những đặc trưng

Trang 36

a) Phương pháp xấp xỉ gộp ký hiệu hóa (Symbolic Aggregate approXimation -

SAX)

Phương pháp này do J Lin và cộng sự đã đề xuất năm 2003 [26] Dữ liệu ban đầu được chia thành từng đoạn dùng phương pháp PAA Sau đó, dựa trên giá trị trung bình cộng của từng đoạn, ta sẽ biểu diễn đặc trưng của đoạn thành các ký tự Khi

đó, chuỗi dữ liệu ban đầu sẽ được mã hóa rời rạc thành một chuỗi các ký tự (hình 2.7)

Hình 2.7 Phương pháp biểu diễn dữ liệu SAX (nguồn [17])

Ưu điểm

o Tương tác được các dữ liệu lớn, lên đến hàng Terabyte [40]

o Khai phá được các kỹ thuật xử lý trên dữ liệu chuỗi để thực hiện xử lý, phân tích dữ liệu

o Bài toán nhận dạng các mô típ có thể áp dụng các giải thuật đã được nghiên cứu trước đây trong lĩnh vực sinh học tính toán [17]

Trang 37

o Một số phương pháp cải tiến như SAX mở rộng (Extended SAX) [27] hay

SAX khả chỉ mục (indexable SAX – iSAX) [40] được đề nghị nhằm tăng

độ chính xác và giảm chi phí tính toán

o Các điểm ngắt được xác định dựa trên phân phối Gauss, không cụ thể cho

từng loại dữ liệu Do đó, chúng ta cần phải huấn luyện dữ liệu nhằm tìm

ra những điểm ngắt thích hợp nhất tương ứng với mỗi loại dữ liệu

b) Phương pháp cây hậu tố (Suffix Tree)

Phương pháp sử dụng cây hậu tố được S Park và cộng sự đề nghị năm 2000 [33]

Phương pháp này rời rạc dữ liệu dựa vào sự phân loại dữ liệu (categorization) Sau

đó sử dụng cây hậu tố để đánh chỉ mục (hình 2.8) Park đã đưa ra 3 phương pháp phân loại dữ liệu dựa trên:

o Khoảng cách phân loại bằng nhau (Equal Length Interval Categorization)

o Giá trị hỗn độn thông tin lớn nhất (Maximum-Entropy Categorization)

o Bùng nổ các node trong cây khi số lượng phân lớp tăng

o Không thích hợp với các tập dữ liệu lớn

Trang 38

Hình 2.8 Xây dựng cây hậu tố từ S 1 ={4, 5, 6, 7, 6, 6} và S 2 ={4, 6, 7, 8} (nguồn

[33])

c) Phương pháp lượng tử hóa vectơ (Vectơ Quantization - VQ)

Phương pháp VQ được V Megalooikonomou và cộng sự đưa ra năm 2005 [30] Trong phương pháp này, chúng ta rút trính đặc trưng của chuỗi bằng vec-tơ lượng

tử, mỗi phần tử của vec-tơ gọi là từ mã (codeword) Tập các từ mã gọi là sách mã

(codebook) (hình 2.9) Bài báo sử dụng giải thuật GLA (Generalized Lloyd

Algorithm) nhằm huấn luyện dữ liệu, tìm ra những từ mã (codeword) đặc trưng của

dữ liệu, sau đó tính toán khoảng cách dựa trên các thông tin của từ mã như khoảng cách các từ mã, chuỗi con từ mã chung dài nhất, tần số xuất hiện của từ mã

o Thời gian huấn luyện dữ liệu lớn

o Ảnh hưởng bởi nhiễu cao

Trang 39

Hình 2.9 Một số từ mã được huấn luyện bởi GLA (nguồn [30])

2.2.3 Các phương pháp biểu diễn dữ liệu ở mức bit

Đây là phương pháp rời rạc dữ liệu ở mức thấp nhất là các chuỗi bit 1, 0 nhằm tăng

tỷ lệ nén nhờ áp dụng phương pháp mã hóa Huffman, Run Length Encoding RLE…

a) Phương pháp xén dữ liệu (Clipped data)

Phương pháp xén dữ liệu được đề nghị bởi A J Bagnall và cộng sự năm 2004 [4] (hình 2.10) Trong phương pháp này, điểm dữ liệu sau khi được chuNn hóa được xén tại một giá trị định sẵn μ và được mã hóa bởi một bit theo công thức sau:

1 ( ) ( )

o Bảo toàn khoảng cách Euclid và DTW [37]

o Hiện thực gom cụm nhanh chóng trên tập dữ liệu cực lớn [5]

Trang 40

o Tính toán độ đo trực tiếp từ chuỗi truy vấn thô mà không cần phải biến đổi chuỗi truy vấn thành chuỗi các bit [37]

o Chưa có cấu trúc chỉ mục hỗ trợ

o Độ đo tương tự không chặt

Hình 2.10 Phương pháp xén và mã hóa dữ liệu ở mức bit (nguồn [37])

b) Phương pháp xấp xỉ gộp ký hiệu hóa khả chỉ mục (Indexable SAX - iSAX)

Phương pháp iSAX được đề nghị bởi J Shiel và cộng sự năm 2008 [40] Phương pháp iSAX thu giảm số chiều và xác định các điểm ngắt tương tự như SAX, tuy

nhiên chúng ta không sử dụng chuỗi ký tự để mã hóa, mà thay vào đó là chuỗi các bit 1, 0 (hình 2.11)

Ưu điểm

o Chúng ta có thể thao tác các kỹ thuật trên SAX [17]

o Thực hiện đa phân giải nhằm khai phá tốt các dữ liệu lớn

o Có cấu trúc chỉ mục hỗ trợ

Định dạng
Số trang	110
Dung lượng	1,74 MB