1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm kiếm tương tự trên chuỗi thời gian dạng luồng = similarity search in streaming time series

21 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 21
Dung lượng 14,31 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

iii ABSTRACT In time-series data mining, the problem of similarity search in streaming time series is a big challenge for researchers because similarity search methods in static time s

Trang 1

I H C QU C GIA TP H CHÍ MINH

BÙI CÔNG GIAO

TÌM KI M T NG T TRÊN CHU I TH I GIAN

D NG LU NG (SIMILARITY SEARCH IN STREAMING TIME SERIES)

LU N ÁN TI N S K THU T

TP H CHÍ MINH N M 2019

Trang 2

I H C QU C GIA TP HCM

TÌM KI M T NG T TRÊN CHU I TH I GIAN

D NG LU NG (SIMILARITY SEARCH IN STREAMING TIME SERIES)

Chuyên ngành: Khoa h c máy tính

Trang 4

ii

TÓM T T

Trong khai phá d li u chu i th i gian, bài toán tìm ki m t ng t trên chu i th i gian

d ng lu ng là m t thách th c l n cho các nhà nghiên c u vì các ph ng pháp tìm ki m

t ng t trên chu i th i gian t nh khó có th phù h p v i môi tr ng lu ng Thêm n a,

cho t i nay các công trình tìm ki m t ng t trên chu i th i gian d ng lu ng v n còn

m t s h n ch nh chi phí tính toán cao ho c không chu n hoá d li u Trong lu n án này chúng tôi đ xu t các h ng nghiên c u và ph ng pháp nh m nâng cao hi u qu cho nhi m v tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid và

đ đo DTW

k t qu tìm ki m có ý ngh a và chính xác, chu n hoá d li u chu i th i gian c n

đ c th c hi n tr c khi tìm ki m t ng t Trong môi tr ng lu ng, ho t đ ng tìm

ki m t ng t có đ ph c t p th i gian cao, vì v y các ph ng pháp đ xu t đã s d ng các k thu t t ng t c cho tính toán kho ng cách gi a hai chu i th i gian, và s p đ t các

k thu t này theo ki u x p t ng đ t b s m các tính toán không c n thi t Thêm n a,

các ph ng pháp tìm ki m t ng t trên chu i th i gian d ng lu ng nên s d ng các k thu t tính toán gia t ng nh chu n hoá d li u gia t ng nh m t i thi u chi phí tính toán

K ti p, ph ng pháp tìm ki m t ng t đ c s d ng đ gi i quy t m t vài bài toán

th c t nh d báo tr c tuy n hay phát hi n b t th ng trong chu i th i gian d ng lu ng

t i thi u th i gian th c hi n c a nhi m v d báo tr c tuy n, ph ng pháp đ xu t

s d ng các đi m c c tr quan tr ng trong chu i th i gian d ng lu ng nh là các đi m

m c cho tìm ki m t ng t Còn đ i v i phát hi n b t th ng trong chu i th i gian d ng

lu ng, ph ng pháp đ xu t s d ng các k thu t ch n d i khi tính toán kho ng cách

đ nh n di n các chu i con có ti m n ng b t th ng nh t

K t qu th c nghi m c a các ph ng pháp tìm ki m t ng t trên chu i th i gian d ng

lu ng b ng đ đo Euclid và đ đo DTW ch ng t s hi u qu c a các ph ng pháp đ

xu t Các ph ng pháp tr v k t qu chính xác (không có l i tìm sót) v i chi phí tính toán và không gian b nh th p Còn đ i v i các ng d ng s d ng ph ng pháp tìm

ki m t ng t , đánh giá qua th c nghi m đã ch ng t r ng các ng d ng thu đ c k t

qu nh mong đ i và có th i gian ph n h i nhanh

Trang 5

iii

ABSTRACT

In time-series data mining, the problem of similarity search in streaming time series is

a big challenge for researchers because similarity search methods in static time series

are hardly suitable for a streaming environment Also, so far research works on similarity search in streaming time series have some limitations such as high computational costs and no data normalization In the dissertation we propose research directions and methods to improve the effectiveness and the efficiency of similarity search in streaming time series under Euclidean measure and DTW measure

In order to acquire meaningful and accurate search results, normalizing time-series data needs conducting prior to similarity search In the streaming environment, similarity search is of high time complexity, so the proposed methods have used speed-up techniques for calculating the distance between two time-series sequences, and arrange

these techniques in a cascading fashion for early abandoning of unnecessary

computations Furthermore, methods of similarity search in streaming time series should use incremental calculation techniques such as incremental data normalization to minimize the computational costs

We then utilize the methods of similarity search to solve some real problems such as

online forecasting or anomaly detection in streaming time series In order to minimize

the execution time of online forecasting, the proposed method use major extrema in streaming time series as turning points for similarity search As for anomaly detection

in streaming time series, the proposed method use lower-bounding techniques in

distance computations to identify the most likely subsequences of anomaly

The experimental results of the methods of similarity search in streaming time series under Euclidean measure and DTW measure indicate that these proposed methods are effective and efficient since they bring out accurate results (no false dismissals) with low computational time and memory space With respect to applications using the methods of similarity search, the experimental evaluations demonstrate that these applications obtain desirable results and have fast responses

Trang 6

iv

L I CÁM N

Tôi xin bày t lòng bi t n sâu s c đ n Th y PGS TS D ng Tu n Anh đã t n tình

h ng d n, đ ng viên, ch b o, và đóng góp ý ki n đ tôi có th nghiên c u và hoàn thành Lu n án ti n s

Tôi xin g i l i c m n đ n các Th y, Cô trong Khoa Khoa h c và K thu t Máy tính

tr ng i h c Bách khoa Tp H Chí Minh, nhóm nghiên c u v khai phá d li u chu i

th i gian, và các b n nghiên c u sinh đã đóng góp nhi u ý ki n quí báu cho tôi

Tôi c ng xin c m n các đ ng nghi p Khoa i n t Vi n thông c a tr ng i h c Sài Gòn và Khoa Công ngh thông tin c a H c vi n Công ngh B u Chính Vi n thông

c s Tp H Chí Minh đã luôn đ ng viên, khích l và t o đi u ki n thu n l i cho tôi hoàn thành lu n án

Tôi chân thành c m n Ban Giám hi u tr ng i h c Sài Gòn đã h tr kinh phí và t o

đi u ki n công tác thu n l i đ tôi có th hoàn thành ch ng trình nghiên c u sinh

Cu i cùng, tôi xin bày t lòng bi t n sâu s c và muôn vàn tình yêu đ n ba, m , v , con,

nh ng ng i đã luôn bên c nh và h tr tôi trong su t th i gian qua

Tp H Chí Minh, tháng 9 n m 2019

Nguyên c u sinh

Bùi Công Giao

Trang 7

v

L I CAM OAN i

TÓM T T ii

ABSTRACT iii

L I CÁM N iv

DANH M C CÁC HÌNH NH x

DANH M C B NG BI U xiv

DANH M C GI I THU T xvi

DANH M C CÁC T VI T T T xvii

CH NG 1 GI I THI U 1

1.1 Chu i th i gian d ng lu ng và thách th c x lý chu i th i gian d ng lu ng 1

1.2 M c tiêu, đ i t ng và ph m vi nghiên c u 2

1.3 Ph ng pháp nghiên c u 5

1.4 Tóm t t k t qu đ t đ c 9

1.4.1 Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid 9

1.4.2 Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW 11

1.4.3 D báo tr c tuy n trên chu i th i gian d ng lu ng 12

1.4.4 Phát hi n k chu i con b t th ng nh t trong chu i th i gian d ng lu ng 12

1.5 C u trúc c a lu n án 13

CH NG 2 C S LÝ THUY T N N T NG 14

2.1 đo t ng t 14

2.1.1 đo Euclid 15

2.1.2 đo DTW 16

2.2 Chu n hoá d li u 19

2.3 nh ngh a tìm ki m t ng t trên chu i th i gian 21

2.4 nh ngh a tìm ki m t ng t trên chu i th i gian d ng lu ng 21

2.5 T ng t c trong tính toán đ đo t ng t 22

2.5.1 S d ng bình ph ng kho ng cách 22

2.5.2 T b s m trong khi tính kho ng cách Euclid 22

Trang 8

vi

2.5.3 S p x p l i th t t b s m 23

2.5.4 Hàm ch n d i 23

2.5.5 Ki u x p t ng 23

2.6 Các k thu t t ng t c chuyên bi t cho đ đo DTW 24

2.6.1 Gi i h n s ghép đôi các đi m 24

2.6.2 Hàm ch n d i cho DTW 25

2.6.3 T b s m trong khi tính kho ng cách DTW 27

2.7 Các phép bi n đ i thu gi m s chi u 28

2.7.1 Bi n đ i DFT 29

2.7.2 Bi n đ i DWT 32

2.7.3 Bi n đ i PAA 34

2.8 C u trúc ch m c R-tree 35

2.8.1 Tính ch t c a R-tree 35

2.8.2 Các thao tác trong R-tree 36

2.8.2.1 Xây d ng R-tree 36

2.8.2.2 Tìm ki m trong R-tree 38

2.9 K t ch ng 40

CH NG 3 TÌM KI M T NG T TRÊN CHU I TH I GIAN D NG LU NG B NG O EUCLID 41

3.1 Tìm ki m vùng trên chu i th i gian d ng lu ng b ng đ đo Euclid 41

3.1.1 Các công trình liên quan 41

3.1.2 Bài toán tìm ki m t ng t trên nhi u chu i th i gian d ng lu ng 45

3.1.3 Các k thu t h tr ph ng pháp đ xu t 47

3.1.3.1 Chu n hóa z-score gia t ng 47

3.1.3.2 C u trúc ch m c đa m c phân gi i 47

3.1.3.3 Ti n x lý chu i truy v n 48

3.1.3.4 B đ m xoay vòng 52

3.1.3.5 K thu t đa lu ng 53

3.1.4 Mô hình h th ng tìm ki m t ng t b ng đ đo Euclid 53

3.1.5 Ph ng pháp RangeSearch 55

Trang 9

vii

3.1.6 ánh giá ph ng pháp RangeSearch 59

3.2 Tìm ki m k lân c n g n nh t trên chu i th i gian d ng lu ng b ng đ đo Euclid 65

3.2.1 Các công trình liên quan 65

3.2.2 Ph ng pháp đ xu t 67

3.2.3 ánh giá ph ng pháp k-NNSearch 69

3.3 C i ti n cách t o R-tree 73

3.3.1 Gi i thi u bài toán 73

3.3.2 Các công trình liên quan 74

3.3.3 ng cong l p đ y không gian 74

3.3.4 K thu t STR 75

3.3.5 Ph ng pháp đ xu t 77

3.3.6 ánh giá ISTR1 và ISTR2 79

3.4 K t ch ng 88

CH NG 4 TÌM KI M T NG T TRÊN CHU I TH I GIAN D NG LU NG B NG O DTW 90

4.1 Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW 90

4.1.1 Các công trình liên quan 90

4.1.2 B k thu t UCR-DTW 92

4.1.3 Mô hình h th ng tìm ki m t ng t b ng đ đo DTW 92

4.1.4 Ph ng pháp SUCR-DTW 93

4.1.5 ánh giá ph ng pháp SUCR-DTW 100

4.2 C i ti n ph ng pháp SPRING 105

4.2.1 Gi i thi u ph ng pháp SPRING 105

4.2.2 Ph ng pháp ISPRING 106

4.2.3 ánh giá ph ng pháp ISPRING 112

4.3 Ph ng pháp ESUCR-DTW 118

4.3.1 Gi i thi u ph ng pháp ESUCR-DTW 118

4.3.2 M r ng hàm ch n d i LB_Keogh 119

4.3.3 Gi i thu t ESUCR-DTW 121

4.3.4 ánh giá ph ng pháp ESUCR-DTW 121

Trang 10

viii

4.4 Nh n xét t ng quát v các ph ng pháp tìm ki m t ng t b ng đ đo DTW

130

4.5 K t ch ng 131

CH NG 5 D BÁO TR C TUY N TRÊN CHU I TH I GIAN D NG LU NG 132

5.1 Gi i thi u bài toán d báo tr c tuy n 132

5.2 nh ngh a bài toán 133

5.3 Tiêu chí đo đ chính xác c a d báo 134

5.4 Làm tr n hàm m đ n gi n 134

5.5 Các đi m c c tr c c b trong chu i th i gian 135

5.6 Các công trình liên quan 136

5.7 Ph ng pháp đ xu t 138

5.7.1 Ý t ng chính cho ph ng pháp 138

5.7.2 Môi tr ng ho t đ ng cho ph ng pháp 141

5.7.3 Ho t đ ng c a ph ng pháp 142

5.7.4 ánh giá ph ng pháp đ xu t 145

5.8 K t ch ng 151

CH NG 6 PHÁT HI N K CHU I CON B T TH NG NH T TRONG CHU I TH I GIAN D NG LU NG 153

6.1 Gi i thi u bài toán phát hi n b t th ng trong chu i th i gian d ng lu ng 153 6.2 nh ngh a bài toán 154

6.3 Các công trình liên quan 155

6.4 Ph ng pháp SKDIS 159

6.4.1 Môi tr ng ho t đ ng cho ph ng pháp SKDIS 159

6.4.2 Ý t ng chính cho ph ng pháp SKDIS 160

6.4.3 Các ph ng pháp và k thu t h tr cho ph ng pháp SKDIS 161

6.5 Gi i thu t SKDIS 162

6.5.1 Th t c Pha 2 164

6.5.2 Vài nh n xét v ph ng pháp SKDIS 165

6.6 ánh giá ph ng pháp SKDIS 166

6.6.1 Th ng kê chi ti t ho t đ ng 168

Trang 11

ix

6.6.2 Các c p k t qu 171

6.7 K t ch ng 178

CH NG 7 K T LU N 179

7.1 K t qu đ t đ c 179

7.2 Các đóng góp chính c a lu n án 181

7.3 H n ch c a lu n án 183

7.4 H ng phát tri n 183

DANH M C CÁC CÔNG TRÌNH Ã CÔNG B 185

TÀI NGHIÊN C U KHOA H C Ã THAM GIA TH C HI N 187

TÀI LI U THAM KH O 188

TRÊN CHU I TH I GIAN A1

A.3 Gi i thu t UCR-DTW A11

Trang 12

x

DANH M C CÁC HÌNH NH

Hình 1.1 ng bi u di n chu i th i gian th hi n t giá USD/VND (ngu n [1]) 1

Hình 1.2 L i tìm sót x y ra khi không chu n hoá d li u tr c khi tìm ki m t ng t 6 Hình 2.1 (a) A không t ng t v i B b ng đ đo Euclid (b) A t ng t v i B b ng đ đo DTW (ngu n [42]) 15

Hình 2.2 (a) Ghép đôi các đi m d li u c a C và Q b ng đ đo DTW (b) ng xo n P bi u di n ánh x c p đi m t i u c a hai chu i th i gian 17

Hình 2.3 Hai ki u chu n hoá th ng đ c dùng trong khai phá d li u chu i th i gian 20

Hình 2.4 (a) Ghép đôi các đi m d li u c a C và Q b ng đ đo DTW và d i Sakoe-Chibav i đ r ng w = 3 (b) ng xo n P b gi i h n b i w 24

Hình 2.5 LB_ Kim trên C và Q đã đ c chu n hoá 25

Hình 2.6 LB_ Keogh trên C và Q có cùng chi u dài là n, do đó đ ph c t p th i gian c a hàm ch n d i này là O(n) 26

Hình 2.7 LB_ Keogh ngh ch trên C và Q 27

Hình 2.8 M t minh ho cho m t phép bi n đ i thu gi m s chi u chu i th i gian (ngu n [49]) 28

Hình 2.9 Các phép bi n đ i tín hi u trong mi n th i gian/không gian sang mi n t n s (ngu n [50]) 30

Hình 2.10 Chu i th i gian X qua bi n đ i PAA 34

Hình 2.11 M t R-tree l p ch m c cho các đi m d li u (ngu n [52]) 37

Hình 3.1 Chu i con c m i t i t ng ng v i chu i truy v n q 45

Hình 3.2 Phân đo n chu i truy v n theo ki u không ch ng l p 49

Hình 3.3 M ng R*-tree đ c dùng làm c u trúc ch m c đa m c phân gi i 51

Hình 3.4 Phân đo n chu i truy v n theo ki u ch ng l p 51

Hình 3.5 B đ m xoay vòng ch a các đi m d li u m i (up-to-date) c a chu i th i gian d ng lu ng 52

Hình 3.6 Mô hình h th ng tìm ki m t ng t b ng đ đo Euclid 54

Hình 3.7 L c các chu i truy v n qua t ng m c l c 56

Trang 13

xi

Hình 3.8 M t đ phân b chi u dài các chu i truy v n 61

Hình 3.9 RangeSearch phát hi n chu i con t i t i m c th i gian 127 t ng t v i m u 63

Hình 3.10 Truy v n vùng nâng cao cho đi m đ c tr ng c a q t i đi m đ c tr ng c a c trong không gian ba chi u 68

Hình 3.11 Ba chu i con lân c n g n nh t c a m u 71

Hình 3.12 Th i gian x lý trung bình cho m t đi m d li u m i t i c a ba phép bi n đ i v i k thay đ i t 1 đ n 10 72

Hình 3.13 Các đ ng cong th t Z b c 1, 2, và 3 (ngu n [82]) 75

Hình 3.14 Các đ ng cong Hilbert b c 1, 2, và 3 (ngu n [82]) 75

Hình 3.15 M t minh ho k t n i c a hai đ ng ch y trong ISTR2 78

Hình 3.16 M t minh ho k t n i c a hai đ ng ch y trong ISTR1 78

Hình 3.17 Th i gian t o m ng R-tree b i các cách t o R-tree và các phép bi n đ i 82

Hình 3.18 Th i gian tìm ki m vùng trên các b d li u chu i th i gian 87

Hình 4.1 Mô hình h th ng tìm ki m t ng t b ng đ đo DTW 93

Hình 4.2 Khi c tr t trên tr c th i gian, Head và Tail c a E c c n đ c c p nh t 97

Hình 4.3 Th ng kê th i gian th c hi n c a các ph ng pháp tìm ki m 102

Hình 4.4 SUCR-DTW phát hi n ngay t c th i chu i con m i t i t ng t v i m u 103 Hình 4.5 (a) C a s tr t giám sát các h s min-max (b) Kho ng cách DTW đ c tính toán gia t ng t d i lên trên theo hai c t 108

Hình 4.6 Minh ho tr ng h p mà hai ph ng pháp phát hi n hai chu i con t t nh t cho đ n hi n t i khác nhau cho cùng m t m u 115

Hình 4.7 K t h p các c p đi m m t cách k d gi a S và P 117

Hình 4.8 Th i gian th c hi n c a ISPRING v i các khác nhau 117

Hình 4.9 M t chu i con c m i t i có chi u dài n m trong mi n giá tr [l – : l + ] có th so trùng v i chu i truy v n q 119

Hình 4.10 S d ng LB_ Keogh_extended trong tr ng h p 0 ≤ |C| - |Q| ≤ w 119

Hình 4.11 S d ng LB_ Keogh_extended trong tr ng h p 0 ≤ |Q| - |C| ≤ w 120

Hình 4.12 ánh giá các m u và các chu i con t ng t nh t c a m u v chi u dài trong 100 tr ng h p 126

Ngày đăng: 22/01/2021, 11:44

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w