Khảo sát hiệu quả của cấu trúc chỉ mục skyline như là cấu trúc chỉ mục cho dữ liệu chuỗi thời gian

- Hiện thực và thực nghiệm để so sánh hiệu quả của cấu trúc chỉ mục Skyline với các cấu trúc chỉ mục còn lại khi thực hiện tìm kiếm tương tự trên dữ liệu chuỗi thời gian.. 108Hình 4.19-

Trang 1

ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN AN HỒ HƯNG

KHẢO SÁT HIỆU QUẢ CỦA CẤU TRÚC CHỈ MỤC SKYLINE NHƯ LÀ CẤU TRÚC CHỈ MỤC CHO DỮ LIỆU

CHUỖI THỜI GIAN

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 12 năm 2012

Trang 2

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

1 TS Nguyễn Văn Minh Mẫn, chủ tịch hội đồng

2 TS Phạm Văn Chung, phản biện 1

3 TS Nguyễn Quang Tấn, phản biện 2

4 PGS.TS Dương Tuấn Anh, ủy viên

Trang 3

ĐẠI HỌC QUỐC GIA TP HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập – Tự do – Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: Nguyễn An Hồ Hưng

Ngày sinh: 18/04/1986

Chuyên ngành: Khoa học máy tính

MSHV: 09070439 Nơi sinh: Bình Định

Mã số: 60.48.01

I TÊN ĐỀ TÀI: Khảo sát hiệu quả của cấu trúc chỉ mục Skyline như là cấu trúc chỉ mục

cho dữ liệu chuỗi thời gian

NHIỆM VỤ VÀ NỘI DUNG:

- Tìm hiểu phương pháp thu giảm số chiều PAA và phương pháp biến đổi Haar Wavelet, các cấu trúc chỉ mục Skyline và các cấu trúc chỉ mục R*-Tree, M-Tree, M+-Tree

- Hiện thực và thực nghiệm để so sánh hiệu quả của cấu trúc chỉ mục Skyline với các cấu trúc chỉ mục còn lại khi thực hiện tìm kiếm tương tự trên dữ liệu chuỗi thời gian

II NGÀY GIAO NHIỆM VỤ: 15/02/2012

III NGÀY HOÀN THÀNH NHIỆM VỤ: 01/12/2012

IV CÁN BỘ HƯỚNG DẪN: PGS TS Dương Tuấn Anh

Trang 4

LỜI CẢM ƠN

Tôi xin gửi lời cảm ơn chân thành và sâu sắc nhất đến Thầy tôi, PGS TS Dương Tuấn Anh, người Thầy đã tận tình hướng dẫn tôi trong suốt quá trình học Cao học cũng như trong thời gian tôi làm Luận văn Cảm ơn Thầy đã tạo mọi điều kiện tốt nhất để em có thể hoàn thành tốt Luận văn này

Tôi cũng xin cảm ơn những người thân trong gia đình, bạn bè đã động viên và tạo mọi điều kiện để tôi có thể tiếp tục theo đuổi việc học tập và nghiên cứu Tôi trân trọng dành tặng thành quả của Luận văn này cho cha mẹ tôi Nhờ công lao dưỡng dục của Người mà con mới có được thành quả như ngày hôm nay Con xin hứa sẽ tiếp tục phấn đấu để tiến xa hơn nữa trên con đường học vấn

Tôi cũng xin gởi lời cám ơn đến toàn thể anh chị em đồng nghiệp và những người trong nhóm nghiên cứu đã giúp đỡ tôi về mặt kiến thức và động viên tôi về mặt tinh thần để tôi vượt qua những khó khăn

Trang 5

TÓM TẮT LUẬN VĂN

Tìm kiếm tương tự trên dữ liệu chuỗi thời gian là một trong những bài toán cơ bản và quan trọng trong lĩnh vực khai phá dữ liệu Với sự phát triển nhanh chóng của dữ liệu chuỗi thời gian trong nhiều ứng dụng từ lĩnh vực tài chính cho đến lĩnh vực khoa học, ngày càng có nhiều ứng dụng đòi hỏi phải xử lý trên dữ liệu chuỗi thời gian

Để tìm kiếm tương tự hiệu quả, có rất nhiều mô hình được đưa ra, mô hình chung

mà nhiều nhà khoa học nghiên cứu nhất đó là thu giảm dữ liệu, sau đó sẽ lưu trữ dữ liệu đó lên một cấu trúc chỉ mục, và thao tác trên dữ liệu thu giảm đó

Có rất nhiều cấu trúc chỉ mục được đưa ra và nhiệm vụ chính của đề tài này là khảo sát độ hiệu quả của cấu trúc chỉ mục Skyline so với các cấu trúc chỉ mục khác, sau đó đưa ra một kết luận chính xác về cấu trúc chỉ mục này

Luận văn đã đưa ra một mô hình chung để giải quyết bài toán tìm kiếm tương tự trên dữ liệu chuỗi thời gian, trong luận văn này, chúng tôi đã sử dụng độ đo Euclid

để tính toán khoảng cách, thu giảm dữ liệu dùng phương pháp thu giảm số chiều PAA và phép biến đổi Haar Wavelet Sau đó tiến hành thực nghiệm trên 4 cấu trúc chỉ mục là R*-Tree, M-Tree, M+-Tree và Skyline

Qua rất nhiều thực nghiệm đã chứng tỏ sự hiệu quả của cấu trúc chỉ mục Skyline

so với 3 cấu trúc chỉ mục còn lại, chúng tôi mạnh dạn đề xuất sử dụng cấu trúc chỉ mục này để lập chỉ mục cho dữ liệu chuỗi thời gian

Trang 6

First; time series is reduced using some technique After that, the reduced data is stored on some index structure And finally, we can query on it

Many index structures are proposed and main objective of this thesis is “to investigate the effectiveness of Skyline index structure as index structures for time series”

In this thesis, we used Euclidean distance for distance measure, we reduced data

by using PAA technique or Haar Wavelet transform

After that, we conducted a lot of experiments to compare four index structures: Skyline, R*-Tree, M-Tree, M+-Tree with many criteria

Based on the results from these experiments, we can conclude that “the Skyline index structure is better than the three index structures” and we recommend to use Skyline index structure for similarity search problems in time series

Trang 7

LỜI CAM ĐOAN

Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong Luận văn, những công việc được trình bày trong Luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của Luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác

Ngày 01 tháng 12 năm 2012

NGUYỄN AN HỒ HƯNG

Trang 8

MỤC LỤC

MỤC LỤC v

DANH MỤC CÁC HÌNH x

1 CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1

1.1 Tổng quan về dữ liệu chuỗi thời gian 1

1.1.1 Giới thiệu dữ liệu chuỗi thời gian 1

1.1.2 Các bài toán của dữ liệu chuỗi thời gian 3

1.1.3 So trùng toàn bộ và so trùng chuỗi con trên dữ liệu chuỗi thời gian 3

1.1.4 Các dạng truy vấn tương tự trên dữ liệu chuỗi thời gian 5

1.1.5 Vấn đề của truy vấn tương tự trên dữ liệu chuỗi thời gian 5

1.2 Giới thiệu đề tài 6

1.3 Mục đích, đối tượng, phạm vi nghiên cứu 8

1.3.1 Mục đích nghiên cứu 8

1.3.2 Đối tượng nghiên cứu 8

1.3.3 Phạm vi nghiên cứu 8

1.4 Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài 9

1.4.1 Ý nghĩa khoa học 9

1.4.2 Ý nghĩa thực tiễn 9

1.5 Cấu trúc của luận văn 9

2 CHƯƠNG 2: TỔNG THUẬT CÁC CÔNG TRÌNH LIÊN QUAN 11

2.1 Các công trình về độ đo tương tự 11

2.1.1 Độ đo Minkowski 12

2.1.2 Độ đo xoắn thời gian động 16

2.2 Các công trình về biểu diễn chuỗi thời gian 17

2.2.1 Các phương pháp thu giảm số chiều 18

2.2.1.1 Các phương pháp biến đổi sang miền tần số 19

Phương pháp biến đổi Fourier rời rạc: 19

Phương pháp biến đổi Wavelet rời rạc: 19

Trang 9

2.2.1.2 Các phương pháp xấp xỉ từng đoạn 21

Phương pháp xấp xỉ tuyến tính từng đoạn: 21

Phương pháp xấp xỉ gộp từng đoạn: 22

Phương pháp xấp xỉ từng đoạn thích nghi: 23

2.2.2 Các phương pháp rời rạc hóa dữ liệu 24

2.2.2.1 Phương pháp xấp xỉ gộp ký hiệu hóa 24

2.2.2.2 Phương pháp iSAX 25

2.3 Các công trình về cấu trúc chỉ mục đa chiều 26

2.3.1 K-D-Tree/Quad Tree 26

2.3.2 Cấu trúc chỉ mục R-Tree/R*-Tree 27

2.3.3 Cấu trúc chỉ mục SR-Tree 27

2.3.4 Cấu trúc chỉ mục M-Tree/M+-Tree 28

2.3.5 Cấu trúc chỉ mục Skyline 28

2.4 Kết luận 29

3 CHƯƠNG 3: CƠ SỞ LÝ THUYẾT 30

3.1 Phương pháp thu giảm số chiều 30

3.1.1 Phương pháp xấp xỉ gộp từng đoạn 30

3.1.2 Phương pháp biến đổi Haar Wavelet 31

3.1.2.1 Khái niệm wavelet và phép biến đổi wavelet 32

3.1.2.2 Tính chất đa phân giải của biến đổi wavelet 32

3.1.2.3 Tính toán mức phân rã hợp lý trong biến đổi Wavelet 34

3.1.2.4 Tính khoảng cách trong phép biến đổi Haar Wavelet 37

3.1.2.5 Kết luận 38

3.2 Cấu trúc chỉ mục 39

3.2.1 Cấu trúc chỉ mục R-Tree/ R*-Tree 39

3.2.1.1 Tổng quan về cấu trúc chỉ mục R-Tree/R*-Tree 39

3.2.1.2 Xây dựng cây R-Tree/ R*-Tree 41

Thao tác thêm mới trong R-Tree 41

Thao tác xóa 54

Trang 10

3.2.1.3 Tìm kiếm trên cây R-Tree/R -Tree 55

3.2.2 Cấu trúc chỉ mục M-Tree 56

3.2.2.1 Tổng quan về cấu trúc chỉ mục M-Tree 56

3.2.2.2 Xây dựng cây M-Tree 58

Thao tác thêm mới trong M-Tree 58

Quản lý việc tách nút 59

Một số các qui tắc xác định nút cùng mức 60

Một số qui tắc phân hoạch các thành phần 61

3.2.2.3 Tìm kiếm trên cây M-Tree 61

Tìm kiếm vùng trên cây M-Tree 62

Tìm kiếm k láng giềng gần nhất trên cây M-Tree 63

3.2.3 Cấu trúc chỉ mục M+-TREE 64

3.2.3.1 Một số khái niệm liên quan 64

Chiều chủ đạo 64

Phương pháp chọn chiều chủ đạo 65

Nguyên lý bộ lọc 66

3.2.3.2 Tổng quan về cấu trúc chỉ mục M+-Tree 67

Khái niệm 67

Phân hoạch không gian dữ liệu của M+-Tree dựa trên chiều chủ đạo 68

Cấu trúc cây M+-Tree 69

3.2.3.3 Xây dựng cây M+-Tree 70

3.2.3.4 Tìm kiếm trên cây M+-Tree 72

Tìm kiếm vùng 72

Tìm kiếm lân cận gần nhất 74

3.2.4 Cấu trúc chỉ mục Skyline 76

3.2.4.1 Giới thiệu 76

3.2.4.2 Vùng bao đường chân trời 77

3.2.4.3 Hàm tính khoảng cách Skyline 80

3.2.4.4 Xây dựng cấu trúc chỉ mục Skyline 80

Thao tác thêm mới trong cấu trúc chỉ mục Skyline: 81

Trang 11

Giải thuật gộp hai đường chân trời: 82

Giải thuật gộp hai phân đoạn kế cận: 82

Xấp xỉ SBR ở nút lá 83

4 CHƯƠNG 4: PHÂN TÍCH, THIẾT KẾ, HIỆN THỰC HỆ THỐNG VÀ TIẾN HÀNH THỰC NGHIỆM 85

4.1 Đặt vấn đề 85

4.2 Giải quyết vấn đề 85

4.2.1 Phân tích, thiết kế, hiện thực hệ thống 85

4.2.1.1 Thành phần lập chỉ mục 88

Chuẩn hóa dữ liệu 89

Thu giảm số chiều dùng phương pháp PAA và Haar Wavelet 90

Tổ chức lưu trữ trên cấu trúc chỉ mục R*-Tree, M-Tree, M+-Tree và Skyline 92

4.2.1.2 Thành phần truy vấn tương tự 92

4.2.2 Thực nghiệm 94

4.2.2.1 Tập dữ liệu mẫu 94

4.2.2.2 Các tiêu chuẩn đánh giá thực nghiệm 97

4.3 Kết quả thực nghiệm so trùng chuỗi con trên truy vấn vùng 99

4.3.1 Thực nghiệm dựa trên kích thước dữ liệu 99

4.3.1.1 Bộ dữ liệu chứng khoán 100

4.3.1.2 Bộ dữ liệu Inline-Skating 101

4.3.1.3 Bộ dữ liệu điện não đồ 102

4.3.1.4 Bộ dữ liệu điện tăng tiêu thụ của trung tâm ECN (Hà Lan) 103

4.3.1.5 Bộ dữ liệu nhu cầu điện năng Italy 104

4.3.1.6 Bộ dữ liệu tỷ giá đồng EUR-USD 105

4.3.2 Thực nghiệm dựa trên số chiều dữ liệu 106

Trang 12

4.3.4 Thực nghiệm dựa trên kích thước cửa sổ trượt 117

4.3.5 Thực nghiệm dựa trên số phần tử tối thiểu và tối đa của Skyline 125

4.4 Kết luận 128

5 CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 129

5.1 Những đóng góp của đề tài 129

5.2 Những hạn chế của đề tài 129

5.3 Hướng phát triển 130

TÀI LIỆU THAM KHẢO 131

Trang 13

DANH MỤC CÁC HÌNH

Hình 1.1- Dữ liệu chuỗi thời gian (a) dữ liệu chứng khoán (b) dữ liệu điện tâm đồ

(nguồn [29]) 2

Hình 1.2- So trùng toàn bộ (nguồn [22]) 4

Hình 1.3- So trùng chuỗi con (nguồn [22]) 4

Hình 2.1- Cách tính độ đo Euclid (nguồn [21]) 13

Hình 2.2- Biến dạng dịch chuyển đường cơ bản và cách loại bỏ (nguồn [21]) 15

Hình 2.3- Biến dạng co dãn biên độ dao động và cách loại bỏ (nguồn [21]) 15

Hình 2.4- Biến dạng xu hướng tuyến tính và cách loại bỏ (nguồn [21]) 16

Hình 2.5- Nhiễu và cách loại bỏ (nguồn [21]) 16

Hình 2.6- Độ đo xoắn thời gian động (b) và độ đo Euclid (a) (nguồn [21]) 17

Hình 2.7- Biến đổi DFT và DWT (nguồn [21]) 20

Hình 2.8- Xấp xỉ chuỗi thời gian bằng phương pháp PLA A) Dữ liệu tàu con thoi B) Dữ liệu điện tâm đồ (nguồn [25]) 21

Hình 2.9- Biểu diễn nôi suy tuyến tính và hồi quy tuyến tính trong PLA (nguồn [25]) 22

Hình 2.10- Minh họa việc thu giảm số chiều bằng phương pháp APCA (nguồn [24]) 23

Hình 2.11- Tổng thể các phương pháp APCA, PAA, PLA, DFT, DWT (nguồn [21]) 24

Hình 2.12- Rời rạc hóa dữ liệu theo phương pháp SAX (nguồn [33]) 25

Hình 2.13- Cách tạo cây K-D-Tree (nguồn [4]) 26

Hình 2.14- Cấu trúc chỉ mục SR-Tree (nguồn [20]) 28

Hình 3.1- Kỹ thuật thu giảm số chiều bằng phương pháp PAA (nguồn [23]) 31

Hình 3.2- Minh họa phương pháp PAA (nguồn [23]) 31

Hình 3.3- Tính chất đa phân giải của wavelet (nguồn [6]) 32

Hình 3.4- Biểu diễn hàm co dãn và hàm wavelet của Haar (nguồn [6]) 33

Hình 3.5- Minh họa sự phân chia dữ liệu trong các hình chữ nhật bao trong R-Tree (nguồn [19]) 40

Trang 14

Hình 3.6- Minh họa việc đánh chỉ mục trong cấu trúc cây R-Tree (nguồn [19]) 41

Hình 3.7- Thêm phần tử vào cây (a) và chọn nút lá để thêm phần tử mới vào (b) trong cây R-Tree (nguồn [45]) 44

Hình 3.8- Minh họa giải thuật PickSeeds (nguồn [45]) 45

Hình 3.9- Minh họa giải thuật PickNext (nguồn [45]) 45

Hình 3.10- Thao tác tách nút trong R-Tree (nguồn [45]) 46

Hình 3.11- Vấn đề vùng bao kéo dài về một chiều trong R-Tree (nguồn [45]) 46

Hình 3.12- Vấn đề chỉ mở rộng một nhóm trong R-Tree (nguồn [45]) 47

Hình 3.13- Phủ lấp khi chèn phần tử vào cây R-Tree (nguồn [7]) 48

Hình 3.14- Minh họa giải thuật chọn cây con để chèn phần tử mới vào cây R*-Tree (nguồn [45]) 50

Hình 3.15- Sắp xếp phần tử theo giá trị cận trên của vùng bao (Sort #1) và giá trị cận dưới vùng bao (Sort #2) trên mỗi chiều (nguồn [45]) 51

Hình 3.16- Minh họa giải thuật tách nút của R*-Tree (nguồn [45]) 52

Hình 3.17- Minh họa quá trình xóa và chèn lại phần tử trong lúc chèn phân tử mới vào cây R*-Tree (nguồn [45]) 54

Hình 3.18- Cấu trúc nút định tuyến trong M-Tree (nguồn [12]) 57

Hình 3.19- Cấu trúc tổng quát của cây của M-Tree (nguồn [53]) 58

Hình 3.20- Thao tác tách nút trong cây M-Tree (nguồn [35]) 60

Hình 3.21- Mô phỏng tách nút dùng siêu mặt phẳng tổng quát hóa (a) và dùng cân bằng (b) (nguồn [53]) 61

Hình 3.22- Hạn chế tính toán dùng tính chất bất đẳng thức tam giác trong M-Tree (nguồn [13]) 63

Hình 3.23- Phân hoạch dữ liệu trong M-Tree (a) và trong M+-Tree (b) (nguồn [55]) 68

Hình 3.24- Cấu trúc của cây M+-Tree (nguồn [55]) 70

Hình 3.25- Điểm yếu của MBR (nguồn [32]) 76

Hình 3.26- Chuỗi thời gian (a) và vùng bao Skyline (b) (nguồn [32]) 77

Hình 3.27- Chuỗi thời gian (a), vùng bao Skyline (b) và xấp xỉ vùng bao Skyline (c) (nguồn [32]) 78

Trang 15

Hình 3.28- Vùng bao dữ liệu (a) Vùng bao chỉ mục APCA (b) và Skyline (c)

(nguồn [32]) 80

Hình 3.29- Minh họa gộp hai đường chân trời (a) hai đường chân trời ban đầu (b) đường chân trời trung gian (c) đường chân trời mới (nguồn [32]) 82

Hình 3.30- Xấp xỉ APCA của chuỗi thời gian (nguồn [32]) 84

Hình 4.1- Mô hình kiến trúc chính của hệ thống tìm kiếm tương tự trên dữ liệu chuỗi thời gian 87

Hình 4.2- Mô hình kiến trúc thành phần lập chỉ mục 88

Hình 4.3- Chuẩn hóa dữ liệu (a) dữ liệu thô ban đầu (b) dữ liệu đã được chuẩn hóa 90

Hình 4.4- Mô hình kiến trúc thành phần truy vấn tương tự 93

Hình 4.5- Dữ liệu tiêu thụ điện năng của trung tâm ECN (Hà Lan) 94

Hình 4.6- Dữ liệu Inline_Skating (chuỗi GluteusMaximus) 95

Hình 4.7- Dữ liệu nhu cầu điện năng của Italia 96

Hình 4.8- Dữ liệu điện não đồ 96

Hình 4.9- Dữ liệu chứng khoán 97

Hình 4.10- Dữ liệu tỷ giá đồng EUR-USD (chuỗi Open) 97

Hình 4.11- Kết quả thực nghiệm trên kích thước dữ liệu của dữ liệu chứng khoán dùng phương pháp thu giảm PAA 100

Hình 4.12- Kết quả thực nghiệm trên kích thước dữ liệu của dữ liệu inline-skating dùng phương pháp thu giảm PAA 101

Hình 4.13- Kết quả thực nghiệm trên kích thước dữ liệu của dữ liệu điện não đồ dùng phương pháp thu giảm PAA 102

Hình 4.14- Kết quả thực nghiệm trên kích thước dữ liệu của dữ liệu điện năng tiêu thụ của trung tâm ECN (Hà Lan) dùng phương pháp thu giảm PAA 103

Hình 4.15- Kết quả thực nghiệm trên kích thước dữ liệu của dữ liệu nhu cầu điện năng Italia dùng phương pháp thu giảm PAA 104

Hình 4.16- Kết quả thực nghiệm trên kích thước dữ liệu của dữ liệu tỷ giá đồng EUR-USD dùng phương pháp thu giảm PAA 105

Trang 16

Hình 4.17- Kết quả thực nghiệm dựa trên số chiều của dữ liệu chứng khoán dùng phương pháp thu giảm PAA 107Hình 4.18- Kết quả thực nghiệm dựa trên số chiều của dữ liệu inline-skating dùng phương pháp thu giảm PAA 108Hình 4.19- Kết quả thực nghiệm dựa trên số chiều của dữ liệu điện não đồ dùng phương pháp thu giảm PAA 109Hình 4.20- Kết quả thực nghiệm dựa trên bán kính truy vấn của dữ liệu chứng khoán dùng phép biến đổi Haar Wavelet 111Hình 4.21- Kết quả thực nghiệm dựa trên bán kính truy vấn của dữ liệu inline-

skating dùng phép biến đổi Haar Wavelet 112Hình 4.22- Kết quả thực nghiệm dựa trên bán kính truy vấn của dữ liệu điện não đồ dùng phép biến đổi Haar Wavelet 113Hình 4.23- Kết quả thực nghiệm dựa trên bán kính truy vấn của dữ liệu điện năng tiêu thụ của trung tâm ECN (Hà Lan) dùng phép biến đổi Haar Wavelet 114Hình 4.24- Kết quả thực nghiệm dựa trên bán kính truy vấn của dữ liệu nhu cầu điện năng Italy dùng phép biến đổi Haar Wavelet 115Hình 4.25- Kết quả thực nghiệm dựa trên bán kính truy vấn của dữ liệu tỷ giá đồng EUR-USD dùng phép biến đổi Haar Wavelet 116Hình 4.26- Kết quả thực nghiệm dựa trên kích thước cửa sổ trượt của dữ liệu chứng khoán dùng phép biến đổi Haar Wavelet 118Hình 4.27- Kết quả thực nghiệm dựa trên kích thước cửa sổ trượt của dữ liệu inline-skating dùng phép biến đổi Haar Wavelet 119Hình 4.28- Kết quả thực nghiệm dựa trên kích thước cửa sổ trượt của dữ liệu điện não đồ dùng phép biến đổi Haar Wavelet 120Hình 4.29- Kết quả thực nghiệm dựa trên kích thước cửa sổ trượt của dữ liệu điện năng tiêu thụ của trung tâm ECN (Hà Lan) dùng phép biến đổi Haar Wavelet 121Hình 4.30- Kết quả thực nghiệm dựa trên kích thước cửa sổ trượt của dữ liệu điện năng Italy dùng phép biến đổi Haar Wavelet 122Hình 4.31- Kết quả thực nghiệm dựa trên kích thước cửa sổ trượt của dữ liệu tỷ giá đồng EUR-USD dùng biến đổi Haar Wavelet 123

Trang 17

Hình 4.32- Kết quả thực nghiệm dựa trên số phần tử tối thiểu và tối đa trong cấu trúc chỉ mục Skyline của dữ liệu chứng khoán 125Hình 4.33- Kết quả thực nghiệm dựa trên số phần tử tối thiểu và tối đa trong cấu trúc chỉ mục Skyline của dữ liệu Inline-Skating 125Hình 4.34- Kết quả thực nghiệm dựa trên số phần tử tối thiểu và tối đa trong cấu trúc chỉ mục Skyline của dữ liệu điện não đồ 126Hình 4.35- Kết quả thực nghiệm dựa trên số phần tử tối thiểu và tối đa trong cấu trúc chỉ mục Skyline của dữ liệu điện năng tiêu thụ của trung tâm ECN 126Hình 4.36- Kết quả thực nghiệm dựa trên số phần tử tối thiểu và tối đa trong cấu trúc chỉ mục Skyline của dữ liệu điện năng Italy 127Hình 4.37- Kết quả thực nghiệm dựa trên số phần tử tối thiểu và tối đa trong cấu trúc chỉ mục Skyline của dữ liệu tỷ giá đồng EUR-USD 127

Trang 18

1 CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI

Thông tin luôn là điều sống còn của xã hội, nhờ có thông tin mà chúng ta mới có được tri thức và kinh nghiệm Tất cả những thứ thông tin rối rắm đó đều có thể biểu diễn ở một dạng cô đọng gọi là dữ liệu Xã hội càng phát triển thì thông tin càng phức tạp và dữ liệu càng phức tạp

Có một điều hiển nhiên là dữ liệu không phải bất biến mà luôn luôn thay đổi theo thời gian Trong cuộc sống chúng ta gặp vô vàn những loại dữ liệu thay đổi theo thời gian như thế trong hầu hết các lĩnh vực của cuộc sống như các dữ liệu kinh tế,

tài chính (tỷ giá ngoại tệ, chứng khoán,…), các dữ liệu y học (EEG, ECG,…), các

dữ liệu thủy văn (mực nước biển, lượng mưa,…) Các dữ liệu trên gọi chung là dữ

liệu chuỗi thời gian (time series), dữ liệu chuỗi thời gian biến đổi liên tục, sản sinh

ra một khối lượng dữ liệu khổng lồ thay đổi theo thời gian Và câu hỏi lớn nhất mà các nhà khoa học đặt ra trong thời gian qua là làm thế nào để quản lý dữ liệu đó một cách hiệu quả nhất nhằm phục vụ tốt nhất nhu cầu của cuộc sống

1.1 Tổng quan về dữ liệu chuỗi thời gian

1.1.1 Giới thiệu dữ liệu chuỗi thời gian

Một chuỗi thời gian (time series) là một chuỗi trị số thực, mỗi trị biểu diễn một

giá trị đo được tại những thời điểm cách đều nhau

Theo khảo sát của Tufte tiến hành năm 1992 thì có đến 75% trong số bốn nghìn bức ảnh ngẫu nhiên trên các tạp chí xuất bản giai đoạn 1974 - 1989 là các hình biểu diễn dữ liệu chuỗi thời gian

Những tập dữ liệu chuỗi thời gian thường rất lớn, xuất hiện trong nhiều lĩnh vực như y tế, kỹ thuật, tài chính,…

- Lĩnh vực tài chính, thương mại như giá cả, thị trường chứng khoán, sản phẩm… + Tìm trong quá khứ, những giai đoạn mà số lượng sản phẩm bán được như tháng vừa rồi

+ Tìm những sản phẩm có chu kỳ bán hàng giống nhau

+ Tìm đoạn nhạc bản quyền trong một bài hát

Trang 19

- Lĩnh vực khoa học như dữ liệu thu được của các bộ cảm biến thời tiết, môi trường, địa lý, …

+ Tìm những tháng trong quá khứ mà lượng mưa giống như tháng vừa rồi

+ Tìm những năm khô hạn, mực nước các sông ở mức thấp

Các lĩnh vực khác có dữ liệu không phải là chuỗi thời gian nhưng từ dữ liệu này

ta có thể chuyển về dạng dữ liệu chuỗi thời gian Các bài toán nhận dạng chữ viết hay các bài toán trong lĩnh vực xử lý ảnh được chuyển thành các bài toán về xử lý

dữ liệu chuỗi thời gian

Hình 1.1 minh họa chuỗi thời gian, hình (a) là biểu diễn chuỗi thời gian của dữ liệu chứng khoán và hình (b) là biểu diễn chuỗi thời gian của dữ liệu điện tâm đồ

Hình 1.1- Dữ liệu chuỗi thời gian (a) dữ liệu chứng khoán (b) dữ liệu điện tâm đồ

+ Trong một giờ, dữ liệu điện tâm đồ (ECG) là 1GB

+ Trong một tuần, dữ liệu ghi nhận số lần truy cập website là 5GB

- Việc đánh giá độ tương tự phụ thuộc phần lớn vào con người, và tính chất của tập

dữ liệu đang dùng

- Dữ liệu quá đa dạng và dễ bị nhiễu

Trang 20

Thao tác tìm kiếm tương tự (similarity search) là thao tác căn bản nhất để khai

phá dữ liệu chuỗi thời gian (Data Mining in Time Series)

1.1.2 Các bài toán của dữ liệu chuỗi thời gian

Khác với cơ sở dữ liệu truyền thống, cơ sở dữ liệu chuỗi thời gian có thể chứa dữ liệu bị nhiễu và dữ liệu sai, do đó khả năng tồn tại hai chuỗi thời gian có cùng giá trị

trong cùng thời điểm là rất nhỏ Vì vậy, tìm kiếm tương tự (similarity search) thích hợp hơn so với tìm kiếm chính xác (exact search)

Tìm kiếm tương tự trong cơ sở dữ liệu chuỗi thời gian là một hướng nghiên cứu quan trọng và được nhiều nhà nghiên cứu quan tâm Bài toán tìm kiếm tương tự là thao tác căn bản nhất, là thành phần không thể thiếu trong các bài toán khai phá dữ liệu chuỗi thời gian Nhiều phương pháp đã được đề xuất để cung cấp những giải thuật xử lý truy vấn hiệu quả trên dữ liệu chuỗi thời gian Có một số nhóm các bài toán khai phá dữ liệu chuỗi thời gian như dưới đây [5]

- Bài toán gom cụm (Clustering)

- Bài toán phân lớp (Classification)

- Bài toán tìm mô típ (Finding motif) [11]

- Bài toán phát hiện mẫu bất thường (Anomaly Detection)

- Bài toán khám phá luật kết hợp (Association Rules)

- Bài toán trực quan hóa dữ liệu (Visualization)

1.1.3 So trùng toàn bộ và so trùng chuỗi con trên dữ liệu chuỗi thời gian

Trong bài toán tìm kiếm tương tự, có hai loại thao tác cơ bản nhất để truy vấn

trên dữ liệu chuỗi thời gian, đó là so trùng toàn bộ (whole matching) và so trùng

chuỗi con (subsequence matching) [5], [11], [17], [22], [32]

- So trùng toàn bộ (whole matching): Đối với những truy vấn so trùng toàn bộ thì

chiều dài của chuỗi dữ liệu truy vấn và chiều dài chuỗi dữ liệu ban đầu là bằng nhau Bài toán này thường được dùng trong việc gom cụm, hay phân loại dữ liệu chuỗi thời gian Ví dụ: Tìm giá chứng khoán của những công ty nào thay đổi giống nhau

Trang 21

Hình 1.2 ở dưới minh họa việc so trùng toàn bộ trong chuỗi thời gian, trong đó câu truy vấn và các đối tượng trong cơ sở dữ liệu có chiều dài bằng nhau

Hình 1.2- So trùng toàn bộ (nguồn [22])

- So trùng chuỗi con (subsequence matching): Trong trường hợp so trùng chuỗi

con thì chiều dài của dữ liệu truy vấn ngắn hơn rất nhiều so với chiều dài của dữ liệu ban đầu Vì vậy, nhiệm vụ chính là tìm những đoạn trong dữ liệu ban đầu tương

tự với dữ liệu truy vấn Một số ứng dụng của bài toán này là tìm những mẫu dữ liệu quan trọng hay những thay đổi bất thường trong dữ liệu ban đầu

Hình 1.3 minh họa việc so trùng chuỗi con trong chuỗi thời gian, trong đó câu truy vấn có chiều dài nhỏ hơn nhiều so với đối tượng trong cơ sở dữ liệu

Hình 1.3- So trùng chuỗi con (nguồn [22])

Bài toán so trùng chuỗi con là bài toán rất căn bản của lĩnh vực nghiên cứu về dữ liệu chuỗi thời gian Từ bài toán so trùng chuỗi con trên dữ liệu chuỗi thời gian thì

ta có thể mở rộng thành so trùng toàn bộ Một số bài toán khác cũng sử dụng kết

quả dựa trên bài toán so trùng chuỗi con như bài toán gom cụm (clustering), phân

Trang 22

lớp (classification), tìm quy luật của dữ liệu (rule discovery), phát hiện điểm bất thường (novelty detection), dự báo dữ liệu trong tương lai (prediction)

1.1.4 Các dạng truy vấn tương tự trên dữ liệu chuỗi thời gian

Định nghĩa truy vấn tương tự (similarity search): Cho trước một đối tượng truy vấn Q, tìm tất cả các đối tượng Q x , trong cơ sở dữ liệu tương tự với Q ở một mức

- Truy vấn tương tự k-láng-giềng-gần-nhất (similarity k-nearest neighbors): cho trước một đối tượng truy vấn q, một tập các đối tượng A và một số nguyên k, tìm tất

cả k đối tượng a i ϵ A (1 ≤ i ≤ | A |) sao cho với bất kỳ đối tượng a j ϵ A (1 ≤ j ≤ |A| và j≠i) thì dist(q, a i ) ≤ dist(q, a j )

- Truy vấn tương tự kết nối (similarity join query): cho hai tập đối tượng A , B và khoảng cách e, tìm tất cả các cặp (a, b) với a ϵ A và b ϵ B sao cho dist(a, b) ≤ e

Bài toán tìm kiếm tương tự có thể được áp dụng so trùng toàn bộ hay so trùng chuỗi con và có thể áp dụng trên chuỗi thời gian tĩnh hoặc chuỗi thời gian dạng luồng

1.1.5 Vấn đề của truy vấn tương tự trên dữ liệu chuỗi thời gian

Chi phí của tìm kiếm tương tự quá lớn nếu như phải so sánh và tính toán độ tương tự giữa câu truy vấn và toàn bộ chuỗi thời gian trong cơ sở dữ liệu Do đó cần phải có cấu trúc chỉ mục lưu trữ hợp lý để chỉ truy vấn những chuỗi thời gian có liên quan đến câu truy vấn mà không cần phải truy vấn vét cạn cơ sở dữ liệu [5]

Theo phương pháp truyền thống thì dữ liệu chuỗi thời gian có chiều dài l (l điểm) thì có thể ánh xạ qua thành một véc tơ l chiều và dùng một phương pháp đánh chỉ

Trang 23

mục không gian như R-Tree [7], [19] để đánh chỉ mục chúng Như vậy, trong suy nghĩ của chúng ta, chỉ cần đem một tập các chuỗi thời gian đi đánh chỉ mục cho chúng để việc thực hiện tìm kiếm tương tự đơn giản hơn

Tuy nhiên, có một vấn đề phức tạp ở đây là dữ liệu của một chuỗi thời gian thường gồm khá nhiều điểm nên chiều dài của chuỗi là rất lớn, nên khi ánh xạ qua véc tơ nhiều chiều thì số chiều của véc tơ rất lớn, vì vậy áp dụng một phương pháp truyền thống xem ra không hiệu quả

Theo phân tích ở trên, chúng ta dễ dàng nhận thấy rằng với dữ liệu chuỗi thời gian, yêu cầu tối ưu về mặt lưu trữ và truy đạt là những vấn đề quan trọng nhất

Về mặt lưu trữ, với khối lượng dữ liệu khổng lồ từ thực tế, các nhà khoa học phải

tổ chức lưu trữ như thế nào cho phù hợp nhằm tiêu tốn ít tài nguyên máy tính mà vẫn đảm bảo được tính đặc trưng của dữ liệu

Về mặt truy đạt, các đối tượng dữ liệu đã được lưu trữ phải bảo đảm tính sẵn sàng cao nhất cho người dùng khi cần truy vấn với thời gian ngắn nhất và độ chính xác tốt nhất

Để đáp ứng hai yêu cầu trên, trong những năm qua, các nhà khoa học đã có nhiều hướng tiếp cận để giải quyết vấn đề, mô hình chung vẫn là thu giảm số chiều của dữ liệu gốc sao cho đảm bảo hiệu quả lưu trữ và truy đạt nhưng vẫn giữ được càng nhiều bản chất của dữ liệu gốc càng tốt, sau đó mới tiến hành sử dụng các cấu trúc chỉ mục không gian đánh chỉ mục các dữ liệu đã được thu giảm để phục vụ cho việc lưu trữ và truy đạt hiệu quả

1.2 Giới thiệu đề tài

Có nhiều phương pháp thu giảm số chiều được áp dụng trong dữ liệu chuỗi thời gian

- Các phương pháp biến đổi sang miền tần số: như các kỹ thuật biến đổi Fourier

rời rạc (Discrete Fourier Transformation – DFT) [1], [2], [17], [41] hay biến đổi Wavelet rời rạc (Discrete Wavelet Transformation - DWT) [9], [39], [44]

- Các phương pháp xấp xỉ tuyến tính như: phương pháp xấp xỉ tuyến tính từng

đoạn (Piecewise Linear Approximation – PLA) [10], [25], [26], phương pháp xấp xỉ

Trang 24

gộp từng đoạn (Piecewise Aggregate Approximation - PAA) [23], phương pháp xấp

xỉ hằng số từng đoạn thích nghi (Adaptive Piecewise Constant Approximation – APCA) [24]

- Các phương pháp điểm quan trọng bao gồm một số phương pháp như phương

pháp điểm mốc (landmark) do Perng và các cộng sự đưa ra năm 2000 [38], phương pháp điểm cực trị do Fint và Pratt đề xuất năm 2001 [18], phương pháp điểm PIP (Perceptually important points) [5]

Sau khi thu giảm số chiều, chúng ta cũng có nhiều sự lựa chọn trong các phương pháp đánh chỉ mục vì có rất nhiều cấu trúc chỉ mục khác nhau đã được nghiên cứu

- Cấu trúc chỉ mục k-d-Tree/Quad Tree

- Cấu trúc chỉ mục R-Tree/R*-Tree [7], [19]

- Cấu trúc chỉ mục M-Tree/M+-Tree [13], [55]

- Và gần đây nhất là cấu trúc chỉ mục Skyline [32]

Như vậy, việc lựa chọn phương pháp thu giảm nào cũng như cấu trúc chỉ mục nào để sử dụng trong bài toán dữ liệu chuỗi thời gian là vấn đề rất quan trọng

Trong khuôn khổ luận văn này, chúng tôi sẽ tập trung chính vào cấu trúc chỉ mục Skyline và khảo sát sự hiệu quả của cấu trúc chỉ mục này bằng cách so sánh với các cấu trúc chỉ mục đã từng sử dụng trước đó như R*-Tree, M-Tree, M+-Tree

Để đáp ứng tốt yêu cầu đặt ra ở trên, trong luận văn này, chúng tôi tập trung giải quyết các vấn đề sau:

- Thực hiện rút trích đặc trưng dữ liệu chuỗi thời gian nhằm thu giảm kích thước

dữ liệu mà vẫn bảo đảm được tính đặc trưng của dữ liệu Trong khuôn khổ luận văn này, chúng tôi tập trung vào hai phương pháp chính để rút trích đặc trưng đó là

phương pháp xấp xỉ gộp từng đoạn - PAA và phương pháp biến đổi Haar Wavelet

- Thực hiện xây dựng cấu trúc chỉ mục thích hợp từ dữ liệu đã được rút trích nhằm phục vụ cho quá trình lưu trữ và truy vấn Các cấu trúc chỉ mục được sử dụng trong luận văn gồm có R*-Tree, M-Tree, M+-Tree, Skyline

- Tiến hành truy vấn trên các tập dữ liệu mẫu, dựa trên các kết quả thực nghiệm, chúng tôi sẽ đánh giá sự hiệu quả của các cấu trúc chỉ mục dựa trên các tiêu chí cho trước

Trang 25

1.3 Mục đích, đối tượng, phạm vi nghiên cứu

1.3.1 Mục đích nghiên cứu

Mục đích nghiên cứu của luận văn này là khảo sát toàn diện sự hiệu quả của cấu trúc chỉ mục Skyline so với các cấu trúc chỉ mục khác đã được sử dụng trước đó như R*-Tree, M-Tree, M+-Tree dựa trên các tiêu chí như thời gian xây dựng chỉ mục, thời gian truy vấn, số lần truy đạt đĩa, số lần gọi hàm tính khoảng cách nhằm đưa ra kết luận chính xác nhất về sự hiệu quả của các cấu trúc chỉ mục, sử dụng chúng lúc nào và như thế nào là hợp lý

1.3.2 Đối tượng nghiên cứu

Đối tượng nghiên cứu gồm ba thành phần như sau:

- Độ đo Euclid

- Phương pháp thu giảm số chiều PAA và Haar Wavelet

- Bốn cấu trúc chỉ mục R*-Tree, M-Tree, M+-Tree và Skyline

1.3.3 Phạm vi nghiên cứu

Luận văn này giới hạn nghiên cứu ở những khía cạnh sau

- Sử dụng trên chuỗi thời gian tĩnh

- Dùng phép biến đổi PAA và Haar Wavelet trong giai đoạn trích xuất đặc trưng

để thu giảm số chiều của dữ liệu chuỗi thời gian

- Sử dụng các cấu trúc chỉ mục R*-Tree, M-Tree, M+-Tree và Skyline trong giai đoạn lập chỉ mục

- Độ đo tương tự của hai đối tượng dữ liệu được dùng trong luận văn là độ đo Minkowski với trường hợp đặc biệt là khoảng cách Euclid

- Chương trình hỗ trợ người dùng so trùng mẫu thông qua một giao diện

- Chương trình được thiết kế để chạy thực nghiệm hàng loạt dữ liệu cho trước và kết quả được lưu trữ vào trong một tập tin excel được thiết kế trước

Trang 26

1.4 Ý nghĩa khoa học và ý nghĩa thực tiễn của đề tài

1.4.1 Ý nghĩa khoa học

So sánh cấu trúc chỉ mục Skyline với các cấu trúc chỉ mục khác nhằm đưa ra đánh giá chính xác nhất cho việc sử dụng cấu trúc chỉ mục này, với kết quả từ đề tài này, các công trình nghiên cứu sau này hoàn toàn có thể dựa vào kết quả này để xác định phương pháp lựa chọn cho phù hợp tùy yêu cầu bài toán

1.4.2 Ý nghĩa thực tiễn

Sự thành công của nghiên cứu này là nền tảng để áp dụng vào nhiều lĩnh vực trong thực tế:

- Dự báo thời tiết

- Tìm những tháng trong quá khứ có lượng mưa giống như tháng vừa rồi

- Dự báo tỉ giá ngoại tệ, vàng, chứng khoán

- Xác định những mã chứng khoán, ngoại tệ có sự thay đổi giá tương tự nhau

- Phát hiện những mẫu bất thường trong một bài hát, hay xem xét việc đạo nhạc

- Chẩn đoán bệnh trong y học

- Nhận dạng khuôn mặt, chữ viết, biển số xe

- Phát hiện mô típ trên dữ liệu chuỗi thời gian

- Nhận dạng mô hình tăng trưởng của công ty

- Xác định những sản phẩm có kiểu mẫu doanh số bán hàng tương tự nhau

- …

1.5 Cấu trúc của luận văn

Luận văn gồm có 5 chương, cấu trúc của luận văn như sau:

Chương 1: Tổng quan về đề tài

Chương này sẽ giới thiệu tổng quan về chuỗi thời gian, các khái niệm cơ bản khi làm việc với chuỗi thời gian Giới thiệu tổng quan về đề tài, nhiệm vụ của đề tài cũng như ý nghĩa khoa học và thực tiễn của đề tài

Chương 2: Tổng thuật các công trình liên quan

Trang 27

Chương này sẽ đề cập đến những công trình nghiên cứu trên thế giới trong thời gian qua về lĩnh vực chuỗi thời gian bao gồm các công trình về độ đo tương tự, các công trình rút trích đặc trưng và xây dựng cấu trúc chỉ mục

Chương 3: Cơ sở lý thuyết nền tảng

Chương này trình bày cơ sở lý thuyết được sử dụng trong luận văn, bao gồm phương pháp biến đổi PAA và Haar Wavelet, cấu trúc chỉ mục R*-Tree, M-Tree,

M+-Tree và Skyline Phần cuối cùng, tác giả sẽ chỉ rõ hướng đề tài nghiên cứu

Chương 4: Hiện thực và thực nghiệm

Trình bày nội dung của đề tài đang nghiên cứu, mô hình xây dựng của đề tài và sau đó đưa ra các kết quả thực nghiệm và những đánh giá của tác giả

Chương 5: Kết luận và hướng phát triển, cũng như đánh giá các điểm làm được và

chưa làm được của đề tài

Trang 28

2 CHƯƠNG 2: TỔNG THUẬT CÁC CÔNG TRÌNH

Các công trình đánh giá độ tương tự (Similarity Distance Measure): Hiện tại,

có rất nhiều phương pháp đánh giá độ tương tự giữa các chuỗi thời gian và việc sử dụng phương pháp nào còn tùy thuộc vào tính chất dữ liệu và mục đích công việc

Các công trình mã hóa dữ liệu: Dữ liệu chuỗi thời gian thường rất lớn, do đó

có rất nhiều công trình đưa ra các giải pháp thu gọn kích thước dữ liệu nhằm nâng cao tốc độ tìm kiếm, truy đạt, thao tác dữ liệu Các phương pháp mã hóa dữ liệu

chuỗi thời gian có thể xếp vào hai loại là các phương pháp thu giảm số chiều (dimensionality reduction) và các phương pháp rời rạc hóa (discretization)

Các công trình xây dựng cấu trúc dữ liệu hỗ trợ lập chỉ mục: Để nâng cao tối

đa tốc độ tìm kiếm, truy đạt và thao tác dữ liệu, có nhiều công trình nghiên cứu các cấu trúc dữ liệu hỗ trợ lập chỉ mục hiệu quả trên các dữ liệu đã được mã hóa

Chương này sẽ trình bày ba loại công trình nghiên cứu vừa nêu Sau đó, ở phần cuối chương, chúng tôi sẽ chọn hướng giải quyết để xây dựng hệ thống tìm kiếm tương tự nhằm đánh giá tính hiệu quả của phương pháp tiếp cận được lựa chọn

2.1 Các công trình về độ đo tương tự

Dữ liệu chuỗi thời gian được biểu diễn thành những dãy số thực, và để thực hiện bài toán tìm kiếm tương tự trên tập dữ liệu chuỗi thời gian đó thì ta phải tính toán

độ tương tự giữa chúng Giả sử ta có hai chuỗi thời gian X = x 1 , x 2 , …, x n và Y = y 1 ,

y 2 , …, y n Độ tương tự giữa hai chuỗi là SIM(X, Y) [5], nếu khoảng cách giữa X và Y

là 0 thì hai đối tượng này được xem là giống hệt nhau, và khoảng cách càng lớn thì hai đối tượng càng khác biệt nhau

Trang 29

Độ đo tương tự có vai trò vô cùng quan trọng trong bài toán tìm kiếm tương tự trên dữ liệu chuỗi thời gian, đặc biệt là trong các mô hình thu giảm số chiều Nếu

gọi X f , Y f là biểu diễn của X, Y sau khi thu giảm số chiều thì độ đo khoảng cách D phải bảo đảm D(X f , Y f ) ≤ D(X, Y) (tính chất chặn dưới khoảng cách)

Độ đo khoảng cách D(A, B) giữa hai đối tượng A, B có các tính chất sau [21]:

- Tính đối xứng (Symmetry): D(A, B) = D(B, A)

- Tính tự tương tự (Constancy of Self-Similarity): D(A, A) = 0

- Tính dương (Positivity): D(A, B) = 0, nếu và chỉ nếu A = B

- Bất đẳng thức tam giác (Triangular Inequality): D(A, B) ≤ D(A, C) + D(B, C)

Để tính khoảng cách của hai chuỗi thì ta có rất nhiều cách được nói đến bên dưới Việc chọn một độ đo nào đó thì tùy thuộc vào rất nhiều vào miền ứng dụng của

chúng ta Trong nhiều trường hợp thì một độ đo thuộc chuẩn L p đơn giản như Euclid

là đủ tốt để dung [5] Theo thống kê thì 80% công trình nghiên cứu trong lĩnh vực khai phá dữ liệu chuỗi thời gian sử dụng độ đo này [21]

Trang 30

( ) √∑( )

Hình 2.1 minh họa cho ta thấy cách tính khoảng cách giữa hai chuỗi dùng độ đo Euclid Độ đo này được tính bằng cách ánh xạ 1-1 trên những điểm của hai chuỗi

Hình 2.1- Cách tính độ đo Euclid (nguồn [21])

Ưu điểm của độ đo khoảng cách Euclid:

+ Dễ hiểu, dễ tính toán

+ Dễ mở rộng cho nhiều bài toán khai phá dữ liệu chuỗi thời gian khác như gom cụm, phân lớp, nhận dạng mô típ, v.v…Đặc biệt, độ đo này rất thích hợp khi sử dụng các biến đổi DFT, DWT, PAA, APCA, SAX…

Nhược điểm của độ đo khoảng cách Euclid:

+ Nhạy cảm với nhiễu và các biến dạng (distortions) của dữ liệu

Các loại biến dạng chính của dữ liệu:

+ Dịch chuyển đường cơ bản (Offset Translation)

+ Co dãn biên độ dao động (Amplitude Scaling)

+ Dữ liệu có xu hướng tuyến tính (Linear Trend)

+ Nhiễu (Noise)

Một số khắc phục

Trang 31

+ Tác giả Gunopulos D., et al (1997) [14] đề nghị nên chuẩn hóa dữ liệu chuỗi thời gian trước khi áp dụng các giải thuật so trùng mẫu dựa trên giá trị trung bình

và độ lệch chuẩn X’ = X – mean(X) hoặc X’ = (X- mean(X)) / var(X)

+ Tác giả Rafiei, D & Mendelzon, A O (1998) [41] đề nghị áp dụng phương

pháp trung bình di chuyển (moving average) để làm trơn các đường biểu diễn dữ

liệu chuỗi thời gian như sau:

Hình 2.2 minh họa việc khắc phục lỗi dịch chuyển đường cơ bản Bằng cách

thông qua việc chuẩn hóa, ta có thể biến đổi hai chuỗi thời gian Q, C về chung một đường cơ bản (thông thường là đường x = 0), sau đó mới tính khoảng cách giữa

chúng

Trang 32

Hình 2.2- Biến dạng dịch chuyển đường cơ bản và cách loại bỏ (nguồn [21])

Hình 2.3 minh họa việc loại bỏ lỗi co dãn biên độ dao động Bằng cách chia kết quả sau khi xử lý dịch chuyển đường cơ bản cho một lượng phương sai, ta có thể loại bỏ được những lỗi do nhiễu này

Hình 2.3- Biến dạng co dãn biên độ dao động và cách loại bỏ (nguồn [21])

Hình 2.4 minh họa việc loại bỏ lỗi xu hướng tuyến tính bằng cách xác định trước hướng và điều chỉnh các chuỗi thời gian theo hướng đó

Trang 33

Hình 2.4- Biến dạng xu hướng tuyến tính và cách loại bỏ (nguồn [21])

Hình 2.5 minh họa việc loại bỏ lỗi do nhiễu bằng cách tính toán lại giá trị của một điểm dựa trên các điểm lân cận với nó

Hình 2.5- Nhiễu và cách loại bỏ (nguồn [21])

2.1.2 Độ đo xoắn thời gian động

Việc so trùng hai đường biểu diễn dữ liệu bằng cách tính khoảng cách từng cặp

điểm 1-1 (điểm thứ i của đường thứ I so với điểm thứ i của đường thứ II) như độ đo

Euclid là không phù hợp trong trường hợp hai đường này không hoàn toàn giống nhau nhưng hình dạng biến đổi rất giống nhau

Như trong hình 2.6, hai đường biểu diễn rất giống nhau về hình dạng nhưng lệch nhau về thời gian Trong trường hợp này, nếu tính khoảng cách bằng cách ánh xạ 1-

1 giữa hai đường thì kết quả rất khác nhau và có thể dẫn đến kết quả cuối cùng không giống như mong muốn

Trang 34

Vì vậy để khắc phục nhược điểm này, thì một điểm có thể ánh xạ với nhiều điểm

và ánh xạ này không thẳng hàng Phương pháp này gọi là xoắn thời gian động (Dynamic Time Warping – DTW) được đề xuất bởi Bernt và Clifford vào năm 1994

[8]

Hình 2.6 dưới minh họa hai độ đo Euclid và DTW cũng như chỉ ra sự khác biệt giữa chúng

Hình 2.6- Độ đo xoắn thời gian động (b) và độ đo Euclid (a) (nguồn [21])

Ưu điểm của phương pháp DTW:

+ Cho kết quả chính xác hơn so với độ đo Euclid, đặc biệt là trong những tập dữ

liệu nhỏ

+ Cho phép nhận dạng mẫu có hình dạng giống nhau nhưng chiều dài hình dạng

về thời gian có thể khác nhau

Nhược điểm của phương pháp DTW:

+ Nhược điểm lớn nhất của phương pháp DTW là thời gian chạy rất lâu, gấp

hàng trăm đến hàng ngàn lần so với độ đo Euclid Giải thuật DTW lúc đầu có w

= n (n là chiều dài của dữ liệu) Khi đó, độ phức tạp là O(n 2 ) Sau này, ta đưa ra

thông số cửa sổ xoắn w (w<n) để giảm độ phức tạp là O(wn) [8]

2.2 Các công trình về biểu diễn chuỗi thời gian

Do đặc thù của chuỗi thời gian là khối lượng dữ liệu rất lớn, do đó việc truy đạt

và thao tác trực tiếp trên dữ liệu chuỗi thời gian thô sẽ không hiệu quả vì chi phí rất

Trang 35

cao Vì vậy, các công trình về chuỗi thời gian đều tập trung biểu diễn chuỗi thời gian dưới dạng khác nhau nhằm thu giảm kích thước dữ liệu và nâng cao hiệu năng tìm kiếm Phần lớn các phương pháp biểu diễn này đều có thể gom vào trong hai

dạng: Đầu tiên là thu giảm số chiều dữ liệu (Dimensionality Reduction) và sau đó, chúng ta có thể rời rạc hóa (discretizeation) dữ liệu thành chuỗi bít hay chuỗi ký tự nhằm khai thác các kỹ thuật về nén dữ liệu cũng như những kỹ thuật khai phá dữ

liệu văn bản (text mining)… Ngoài ra, cần chuẩn hóa dữ liệu trước khi bắt đầu quá

trình thu giảm số chiều nhằm tránh những vấn đề như dữ liệu có đường cơ bản khác nhau (tịnh tiến dữ liệu) hay biên độ dao động khác nhau (co dãn biên độ)

2.2.1 Các phương pháp thu giảm số chiều

Phương pháp thu giảm số chiều là phương pháp biểu diễn chuỗi thời gian thành các đường cơ bản đã được định nghĩa trước Khi đó, thay vì phải lưu trữ, truy đạt và

thao tác trên chuỗi giá trị n chiều của dữ liệu gốc thì ta chỉ cần lưu trữ, truy đạt và thao tác trên chuỗi giá trị k chiều của dữ liệu đã được thu giảm, với k<<n

Có rất nhiều phương pháp thu giảm số chiều được liệt kê ở dưới, nhưng quy trình chung của các phương pháp thu giảm số chiều thì đều có thể tổng quát được như sau:

- Thiết kế kỹ thuật thu giảm số chiều để có thể rút trích một đặc trưng có chiều dài

k (một đặc trưng có k giá trị), với k có thể xử lý một cách hữu hiệu nhờ một cấu trúc

chỉ mục không gian đa chiều

- Thiết lập một độ đo tương tự d

- Cung cấp một độ đo tương tự d k , trên một không gian đặc trưng k chiều và chứng

tỏ rằng nó luôn tuân thủ nguyên tắc sau đây: d k (X’, Y’) ≤ d(X, Y) Nghĩa là hàm

khoảng cách tính trên không gian đặc trưng (không gian thu giảm số chiều) của hai

chuỗi thời gian X’, Y’ đã được biến đổi từ hai chuỗi thời gian ban đầu X, Y phải là

chặn dưới của khoảng cách thật giữa hai chuỗi thời gian nguyên thủy ban đầu trong không gian nguyên thủy của chúng

Có ba nhóm phương pháp chính để thực hiện kỹ thuật thu giảm số chiều dựa trên rút trích đặc trưng như dưới đây

Trang 36

2.2.1.1 Các phương pháp biến đổi sang miền tần số

Phương pháp biến đổi Fourier rời rạc:

Phương pháp biến đổi Fourier rời rạc (Discrete Fourier Transform - DFT) do R

Ưu điểm của phương pháp biến đổi Fourier rời rạc:

+ Có khả năng nén dữ liệu và chịu nhiễu tốt

+ Cho phép so sánh gián tiếp hai chuỗi X, Y thông qua khoảng cách giữa hai chuỗi X f , Y f đã được biến đổi bởi vì D(X, Y) ≥ αD(X f , Y f ) với α là hằng số

Nhược điểm của phương pháp biến đổi Fourier rời rạc:

+ Khó giải quyết nếu chuỗi thời gian có chiều dài khác nhau

Phương pháp biến đổi Wavelet rời rạc:

Phương pháp biến đổi Wavelet rời rạc (Discrete Wavelet Transform - DWT) do

Kin-pong Chan và Ada Wai-chee Fu đề xuất năm 1999 trong [9]

Trong [9], nhóm tác giả cho rằng biến đổi Fourier bị mất thông tin thời gian Một dạng khác của biến đổi Fourier rời rạc được đưa ra để hạn chế nhược điểm

này, đó là biến đổi Fourier từng đoạn (Piecewise Fourier Transform – PFT), tuy

nhiên PFT lại nảy sinh vấn đề khác là các đoạn luôn bằng nhau cho dù các tần số khác nhau Theo tác giả đã đo đạc thì biến đổi Wavelet sẽ mang lại nhiều thông tin hơn, khoảng cách Euclid được bảo toàn trong biến đổi Haar Wavelet và cuối cùng

là biến đổi Wavelet cho kết quả tốt hơn biến đổi Fourier

Có nhiều đường cơ bản được sử dụng trong biến đổi Wavelet rời rạc như Haar, Daubechies, Coiflet, Symmlet, … Theo Chan, K., Fu, A W (1999) [9] phương pháp biến đổi DWT với đường cơ bản Haar hiệu quả với chuỗi dữ liệu thời gian, nhưng theo Popivanov I và Miller R J (2002) [39] tùy vào loại dữ liệu mà phép biến đổi DWT với đường cơ bản Haar hay Daubechies là hiệu quả Tuy nhiên Haar

Trang 37

Wavelet được sử dụng rất nhiều trong khai phá dữ liệu chuỗi thời gian và lập chỉ mục

Đường cơ bản Haar được định nghĩa theo công thức sau:

( ) trong đó:

( ) {

Hình 2.7 minh họa so sánh hai phương pháp biến đổi DFT và DWT

Hình 2.7- Biến đổi DFT và DWT (nguồn [21])

Ưu điểm của phương pháp biến đổi DWT rời rạc [21]:

+ Mã hóa đơn giản và nhanh với độ phức tạp tuyến tính O(n)

+ Hỗ trợ dữ liệu có nhiều mức phân giải, thích hợp với dữ liệu tĩnh và ít thay đổi

+ Hỗ trợ các độ đo khác ngoài Euclid

Nhược điểm của phương pháp biến đổi DWT rời rạc [21]:

+ Chiều dài chuỗi dữ liệu ban đầu là một số lũy thừa của 2 và chiều dài chuỗi dữ

liệu truy vấn cũng nên là một số lũy thừa của 2 thì truy vấn mới hiệu quả

+ Không hỗ trợ các độ đo có trọng số

Trang 38

2.2.1.2 Các phương pháp xấp xỉ từng đoạn

Phương pháp xấp xỉ tuyến tính từng đoạn:

Phương pháp xấp xỉ tuyến tính từng đoạn (Piecewise Linear Approximation –

PLA) do E Keogh và các cộng sự đề nghị năm 1999 [10], [25], [26]

Tư tưởng chính của phương pháp này là biểu diễn dữ liệu ban đầu bằng chuỗi các

đoạn thẳng tuyến tính, mỗi đoạn thẳng tuyến tính nối cặp điểm ở hai đầu đoạn

thẳng xấp xỉ khớp nhất (best-fit-line) những điểm có trong phân đoạn chuỗi thời

gian đó [5]

Hình 2.8 minh họa việc xấp xỉ chuỗi thời gian bằng phương pháp PLA, trực quan cho thấy xấp xỉ bằng PLA làm cho chuỗi được thu giảm có hình dạng khá giống với chuỗi gốc

Hình 2.8- Xấp xỉ chuỗi thời gian bằng phương pháp PLA A) Dữ liệu tàu con thoi

B) Dữ liệu điện tâm đồ (nguồn [25])

PLA được chia làm hai loại dựa vào tính chất các đoạn thẳng [21], [25]

+ Nội suy tuyến tính (Linear Interpolation): các đoạn thẳng nối nhau liên tục + Hồi quy tuyến tính (Linear Regression): các đoạn thẳng rời rạc nhau Theo các

nhà nghiên cứu đánh giá thì loại này biểu diễn xấp xỉ tốt hơn loại trên [21]

Hình 2.9 ở dưới minh họa hai loại PLA Hình (a) biểu diễn nội suy tuyến tính, các đoạn thẳng được nối nhau liên tục và hình (b) biểu diễn hồi quy tuyến tính, các đoạn thẳng rời rạc nhau

Trang 39

Hình 2.9- Biểu diễn nôi suy tuyến tính và hồi quy tuyến tính trong PLA (nguồn [25])

Ưu điểm:

+ Biểu diễn trực quan

+ Phù hợp để nén tất cả các loại dữ liệu chuỗi thời gian

+ Việc tìm các chuỗi đoạn thẳng có thể thực hiện trong thời gian tuyến tính + Có tỉ lệ lỗi thấp khi xây dựng lại chuỗi dữ liệu ban đầu

+ Hỗ trợ phép truy vấn mờ (fuzzy query)

Nhược điểm:

+ Chi phí khi tính toán khoảng cách trong cấu trúc chỉ mục cao

Phương pháp xấp xỉ gộp từng đoạn:

Phương pháp xấp xỉ gộp từng đoạn (Piecewise Aggregate Approximation – PAA)

do E Keogh và các cộng sự đề xuất năm 2001 [23]

Ý tưởng: Để thu giảm số chiều từ n chiều xuống còn N, ta sẽ tiến hành chia chuỗi

dữ liệu ra thành N khung theo thứ tự từ trái sang phải, mỗi khung sẽ có k (k = n/N) giá trị liền kề nhau, sau đó ta xấp xỉ k giá trị liền kề nhau thành một giá trị trung bình cộng của k điểm đó Quá trình cứ tiếp tục từ trái sang phải cho đến khi hết

chuỗi và cuối cùng là ta thu được đường thẳng có dạng bậc thang

Công thức tính giá trị xấp xỉ:

( )

Ưu điểm của phương pháp PAA:

+ Thời gian tính toán nhanh

+ Hỗ trợ nhiều phương pháp tính khoảng cách

Trang 40

+ Hỗ trợ dạng câu truy vấn có chiều dài khác nhau

Nhược điểm của phương pháp PAA:

+ Xây dựng lại chuỗi ban đầu rất khó và tỉ lệ lỗi cao

+ Không quan tâm đến các điểm đặc biệt (điểm có giá trị nhỏ nhất, lớn nhất, …) trong từng đoạn xấp xỉ

Phương pháp xấp xỉ từng đoạn thích nghi:

Phương pháp xấp xỉ từng đoạn thích nghi (Adaptive Piecewíe Constant

Approximation – APCA) do E Keogh và các cộng sự đề xuất năm 2001 [24]

Ý tưởng: dựa trên cơ sở PAA, APCA xấp xỉ đoạn dữ liệu ban đầu thành những đoạn thẳng nằm ngang, tuy nhiên với phương pháp PAA thì các đoạn thẳng có độ dài bằng nhau, còn APCA thì các đoạn thẳng có độ dài khác nhau Những vùng nào trên chuỗi dữ liệu thời gian biến động nhiều thì được phân thành những đoạn ngắn, những chỗ nào biến động ít thì được phân thành những đoạn dài

Cho chuỗi thời gian C = {c 1 , …, c n} thì biểu diễn xấp xỉ theo phương pháp APCA

có dạng C APCA = {<cv 1 , cr 1 >, …, <cv M , cr M >} với cv i là giá trị trung bình của đoạn

thứ i và cr i là điểm đầu mút bên phải của đoạn thứ i Ở đây, ta không cần biểu diễn

chiều dài của đoạn thẳng bởi vì ta có thể tính được chiều dài đoạn thẳng dựa trên

biểu diễn trên Chiều dài của đoạn thẳng thứ i là cr i – cr i-1

Hình 2.10 dưới minh họa phương pháp APCA khi chuỗi C ban đầu được xấp xỉ thành các đoạn thẳng nằm ngang, chiều dài các đoạn thẳng này không bằng nhau

Hình 2.10- Minh họa việc thu giảm số chiều bằng phương pháp APCA (nguồn [24])

Ưu điểm của phương pháp APCA:

+ Tỷ lệ nén cao hơn phương pháp PAA

+ Tỷ lệ lỗi khi xây dựng lại dữ liệu gốc nhỏ hơn so với phương pháp PAA + Hỗ trợ tìm kiếm xấp xỉ và tìm kiếm chính xác

Định dạng
Số trang	159
Dung lượng	3,88 MB