iii ABSTRACT In time-series data mining, the problem of similarity search in streaming time series is a big challenge for researchers because similarity search methods in static time s
Trang 1I H C QU C GIA TP H CHÍ MINH
BÙI CÔNG GIAO
TÌM KI M T NG T TRÊN CHU I TH I GIAN
D NG LU NG (SIMILARITY SEARCH IN STREAMING TIME SERIES)
LU N ÁN TI N S K THU T
TP H CHÍ MINH N M 2019
Trang 2I H C QU C GIA TP HCM
TÌM KI M T NG T TRÊN CHU I TH I GIAN
D NG LU NG (SIMILARITY SEARCH IN STREAMING TIME SERIES)
Chuyên ngành: Khoa h c máy tính
Trang 4ii
TÓM T T
Trong khai phá d li u chu i th i gian, bài toán tìm ki m t ng t trên chu i th i gian
d ng lu ng là m t thách th c l n cho các nhà nghiên c u vì các ph ng pháp tìm ki m
t ng t trên chu i th i gian t nh khó có th phù h p v i môi tr ng lu ng Thêm n a,
cho t i nay các công trình tìm ki m t ng t trên chu i th i gian d ng lu ng v n còn
m t s h n ch nh chi phí tính toán cao ho c không chu n hoá d li u Trong lu n án này chúng tôi đ xu t các h ng nghiên c u và ph ng pháp nh m nâng cao hi u qu cho nhi m v tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid và
đ đo DTW
k t qu tìm ki m có ý ngh a và chính xác, chu n hoá d li u chu i th i gian c n
đ c th c hi n tr c khi tìm ki m t ng t Trong môi tr ng lu ng, ho t đ ng tìm
ki m t ng t có đ ph c t p th i gian cao, vì v y các ph ng pháp đ xu t đã s d ng các k thu t t ng t c cho tính toán kho ng cách gi a hai chu i th i gian, và s p đ t các
k thu t này theo ki u x p t ng đ t b s m các tính toán không c n thi t Thêm n a,
các ph ng pháp tìm ki m t ng t trên chu i th i gian d ng lu ng nên s d ng các k thu t tính toán gia t ng nh chu n hoá d li u gia t ng nh m t i thi u chi phí tính toán
K ti p, ph ng pháp tìm ki m t ng t đ c s d ng đ gi i quy t m t vài bài toán
th c t nh d báo tr c tuy n hay phát hi n b t th ng trong chu i th i gian d ng lu ng
t i thi u th i gian th c hi n c a nhi m v d báo tr c tuy n, ph ng pháp đ xu t
s d ng các đi m c c tr quan tr ng trong chu i th i gian d ng lu ng nh là các đi m
m c cho tìm ki m t ng t Còn đ i v i phát hi n b t th ng trong chu i th i gian d ng
lu ng, ph ng pháp đ xu t s d ng các k thu t ch n d i khi tính toán kho ng cách
đ nh n di n các chu i con có ti m n ng b t th ng nh t
K t qu th c nghi m c a các ph ng pháp tìm ki m t ng t trên chu i th i gian d ng
lu ng b ng đ đo Euclid và đ đo DTW ch ng t s hi u qu c a các ph ng pháp đ
xu t Các ph ng pháp tr v k t qu chính xác (không có l i tìm sót) v i chi phí tính toán và không gian b nh th p Còn đ i v i các ng d ng s d ng ph ng pháp tìm
ki m t ng t , đánh giá qua th c nghi m đã ch ng t r ng các ng d ng thu đ c k t
qu nh mong đ i và có th i gian ph n h i nhanh
Trang 5iii
ABSTRACT
In time-series data mining, the problem of similarity search in streaming time series is
a big challenge for researchers because similarity search methods in static time series
are hardly suitable for a streaming environment Also, so far research works on similarity search in streaming time series have some limitations such as high computational costs and no data normalization In the dissertation we propose research directions and methods to improve the effectiveness and the efficiency of similarity search in streaming time series under Euclidean measure and DTW measure
In order to acquire meaningful and accurate search results, normalizing time-series data needs conducting prior to similarity search In the streaming environment, similarity search is of high time complexity, so the proposed methods have used speed-up techniques for calculating the distance between two time-series sequences, and arrange
these techniques in a cascading fashion for early abandoning of unnecessary
computations Furthermore, methods of similarity search in streaming time series should use incremental calculation techniques such as incremental data normalization to minimize the computational costs
We then utilize the methods of similarity search to solve some real problems such as
online forecasting or anomaly detection in streaming time series In order to minimize
the execution time of online forecasting, the proposed method use major extrema in streaming time series as turning points for similarity search As for anomaly detection
in streaming time series, the proposed method use lower-bounding techniques in
distance computations to identify the most likely subsequences of anomaly
The experimental results of the methods of similarity search in streaming time series under Euclidean measure and DTW measure indicate that these proposed methods are effective and efficient since they bring out accurate results (no false dismissals) with low computational time and memory space With respect to applications using the methods of similarity search, the experimental evaluations demonstrate that these applications obtain desirable results and have fast responses
Trang 6iv
L I CÁM N
Tôi xin bày t lòng bi t n sâu s c đ n Th y PGS TS D ng Tu n Anh đã t n tình
h ng d n, đ ng viên, ch b o, và đóng góp ý ki n đ tôi có th nghiên c u và hoàn thành Lu n án ti n s
Tôi xin g i l i c m n đ n các Th y, Cô trong Khoa Khoa h c và K thu t Máy tính
tr ng i h c Bách khoa Tp H Chí Minh, nhóm nghiên c u v khai phá d li u chu i
th i gian, và các b n nghiên c u sinh đã đóng góp nhi u ý ki n quí báu cho tôi
Tôi c ng xin c m n các đ ng nghi p Khoa i n t Vi n thông c a tr ng i h c Sài Gòn và Khoa Công ngh thông tin c a H c vi n Công ngh B u Chính Vi n thông
c s Tp H Chí Minh đã luôn đ ng viên, khích l và t o đi u ki n thu n l i cho tôi hoàn thành lu n án
Tôi chân thành c m n Ban Giám hi u tr ng i h c Sài Gòn đã h tr kinh phí và t o
đi u ki n công tác thu n l i đ tôi có th hoàn thành ch ng trình nghiên c u sinh
Cu i cùng, tôi xin bày t lòng bi t n sâu s c và muôn vàn tình yêu đ n ba, m , v , con,
nh ng ng i đã luôn bên c nh và h tr tôi trong su t th i gian qua
Tp H Chí Minh, tháng 9 n m 2019
Nguyên c u sinh
Bùi Công Giao
Trang 7v
L I CAM OAN i
TÓM T T ii
ABSTRACT iii
L I CÁM N iv
DANH M C CÁC HÌNH NH x
DANH M C B NG BI U xiv
DANH M C GI I THU T xvi
DANH M C CÁC T VI T T T xvii
CH NG 1 GI I THI U 1
1.1 Chu i th i gian d ng lu ng và thách th c x lý chu i th i gian d ng lu ng 1
1.2 M c tiêu, đ i t ng và ph m vi nghiên c u 2
1.3 Ph ng pháp nghiên c u 5
1.4 Tóm t t k t qu đ t đ c 9
1.4.1 Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid 9
1.4.2 Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW 11
1.4.3 D báo tr c tuy n trên chu i th i gian d ng lu ng 12
1.4.4 Phát hi n k chu i con b t th ng nh t trong chu i th i gian d ng lu ng 12
1.5 C u trúc c a lu n án 13
CH NG 2 C S LÝ THUY T N N T NG 14
2.1 đo t ng t 14
2.1.1 đo Euclid 15
2.1.2 đo DTW 16
2.2 Chu n hoá d li u 19
2.3 nh ngh a tìm ki m t ng t trên chu i th i gian 21
2.4 nh ngh a tìm ki m t ng t trên chu i th i gian d ng lu ng 21
2.5 T ng t c trong tính toán đ đo t ng t 22
2.5.1 S d ng bình ph ng kho ng cách 22
2.5.2 T b s m trong khi tính kho ng cách Euclid 22
Trang 8vi
2.5.3 S p x p l i th t t b s m 23
2.5.4 Hàm ch n d i 23
2.5.5 Ki u x p t ng 23
2.6 Các k thu t t ng t c chuyên bi t cho đ đo DTW 24
2.6.1 Gi i h n s ghép đôi các đi m 24
2.6.2 Hàm ch n d i cho DTW 25
2.6.3 T b s m trong khi tính kho ng cách DTW 27
2.7 Các phép bi n đ i thu gi m s chi u 28
2.7.1 Bi n đ i DFT 29
2.7.2 Bi n đ i DWT 32
2.7.3 Bi n đ i PAA 34
2.8 C u trúc ch m c R-tree 35
2.8.1 Tính ch t c a R-tree 35
2.8.2 Các thao tác trong R-tree 36
2.8.2.1 Xây d ng R-tree 36
2.8.2.2 Tìm ki m trong R-tree 38
2.9 K t ch ng 40
CH NG 3 TÌM KI M T NG T TRÊN CHU I TH I GIAN D NG LU NG B NG O EUCLID 41
3.1 Tìm ki m vùng trên chu i th i gian d ng lu ng b ng đ đo Euclid 41
3.1.1 Các công trình liên quan 41
3.1.2 Bài toán tìm ki m t ng t trên nhi u chu i th i gian d ng lu ng 45
3.1.3 Các k thu t h tr ph ng pháp đ xu t 47
3.1.3.1 Chu n hóa z-score gia t ng 47
3.1.3.2 C u trúc ch m c đa m c phân gi i 47
3.1.3.3 Ti n x lý chu i truy v n 48
3.1.3.4 B đ m xoay vòng 52
3.1.3.5 K thu t đa lu ng 53
3.1.4 Mô hình h th ng tìm ki m t ng t b ng đ đo Euclid 53
3.1.5 Ph ng pháp RangeSearch 55
Trang 9vii
3.1.6 ánh giá ph ng pháp RangeSearch 59
3.2 Tìm ki m k lân c n g n nh t trên chu i th i gian d ng lu ng b ng đ đo Euclid 65
3.2.1 Các công trình liên quan 65
3.2.2 Ph ng pháp đ xu t 67
3.2.3 ánh giá ph ng pháp k-NNSearch 69
3.3 C i ti n cách t o R-tree 73
3.3.1 Gi i thi u bài toán 73
3.3.2 Các công trình liên quan 74
3.3.3 ng cong l p đ y không gian 74
3.3.4 K thu t STR 75
3.3.5 Ph ng pháp đ xu t 77
3.3.6 ánh giá ISTR1 và ISTR2 79
3.4 K t ch ng 88
CH NG 4 TÌM KI M T NG T TRÊN CHU I TH I GIAN D NG LU NG B NG O DTW 90
4.1 Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW 90
4.1.1 Các công trình liên quan 90
4.1.2 B k thu t UCR-DTW 92
4.1.3 Mô hình h th ng tìm ki m t ng t b ng đ đo DTW 92
4.1.4 Ph ng pháp SUCR-DTW 93
4.1.5 ánh giá ph ng pháp SUCR-DTW 100
4.2 C i ti n ph ng pháp SPRING 105
4.2.1 Gi i thi u ph ng pháp SPRING 105
4.2.2 Ph ng pháp ISPRING 106
4.2.3 ánh giá ph ng pháp ISPRING 112
4.3 Ph ng pháp ESUCR-DTW 118
4.3.1 Gi i thi u ph ng pháp ESUCR-DTW 118
4.3.2 M r ng hàm ch n d i LB_Keogh 119
4.3.3 Gi i thu t ESUCR-DTW 121
4.3.4 ánh giá ph ng pháp ESUCR-DTW 121
Trang 10viii
4.4 Nh n xét t ng quát v các ph ng pháp tìm ki m t ng t b ng đ đo DTW
130
4.5 K t ch ng 131
CH NG 5 D BÁO TR C TUY N TRÊN CHU I TH I GIAN D NG LU NG 132
5.1 Gi i thi u bài toán d báo tr c tuy n 132
5.2 nh ngh a bài toán 133
5.3 Tiêu chí đo đ chính xác c a d báo 134
5.4 Làm tr n hàm m đ n gi n 134
5.5 Các đi m c c tr c c b trong chu i th i gian 135
5.6 Các công trình liên quan 136
5.7 Ph ng pháp đ xu t 138
5.7.1 Ý t ng chính cho ph ng pháp 138
5.7.2 Môi tr ng ho t đ ng cho ph ng pháp 141
5.7.3 Ho t đ ng c a ph ng pháp 142
5.7.4 ánh giá ph ng pháp đ xu t 145
5.8 K t ch ng 151
CH NG 6 PHÁT HI N K CHU I CON B T TH NG NH T TRONG CHU I TH I GIAN D NG LU NG 153
6.1 Gi i thi u bài toán phát hi n b t th ng trong chu i th i gian d ng lu ng 153 6.2 nh ngh a bài toán 154
6.3 Các công trình liên quan 155
6.4 Ph ng pháp SKDIS 159
6.4.1 Môi tr ng ho t đ ng cho ph ng pháp SKDIS 159
6.4.2 Ý t ng chính cho ph ng pháp SKDIS 160
6.4.3 Các ph ng pháp và k thu t h tr cho ph ng pháp SKDIS 161
6.5 Gi i thu t SKDIS 162
6.5.1 Th t c Pha 2 164
6.5.2 Vài nh n xét v ph ng pháp SKDIS 165
6.6 ánh giá ph ng pháp SKDIS 166
6.6.1 Th ng kê chi ti t ho t đ ng 168
Trang 11ix
6.6.2 Các c p k t qu 171
6.7 K t ch ng 178
CH NG 7 K T LU N 179
7.1 K t qu đ t đ c 179
7.2 Các đóng góp chính c a lu n án 181
7.3 H n ch c a lu n án 183
7.4 H ng phát tri n 183
DANH M C CÁC CÔNG TRÌNH Ã CÔNG B 185
TÀI NGHIÊN C U KHOA H C Ã THAM GIA TH C HI N 187
TÀI LI U THAM KH O 188
TRÊN CHU I TH I GIAN A1
A.3 Gi i thu t UCR-DTW A11
Trang 12x
DANH M C CÁC HÌNH NH
Hình 1.1 ng bi u di n chu i th i gian th hi n t giá USD/VND (ngu n [1]) 1
Hình 1.2 L i tìm sót x y ra khi không chu n hoá d li u tr c khi tìm ki m t ng t 6 Hình 2.1 (a) A không t ng t v i B b ng đ đo Euclid (b) A t ng t v i B b ng đ đo DTW (ngu n [42]) 15
Hình 2.2 (a) Ghép đôi các đi m d li u c a C và Q b ng đ đo DTW (b) ng xo n P bi u di n ánh x c p đi m t i u c a hai chu i th i gian 17
Hình 2.3 Hai ki u chu n hoá th ng đ c dùng trong khai phá d li u chu i th i gian 20
Hình 2.4 (a) Ghép đôi các đi m d li u c a C và Q b ng đ đo DTW và d i Sakoe-Chibav i đ r ng w = 3 (b) ng xo n P b gi i h n b i w 24
Hình 2.5 LB_ Kim trên C và Q đã đ c chu n hoá 25
Hình 2.6 LB_ Keogh trên C và Q có cùng chi u dài là n, do đó đ ph c t p th i gian c a hàm ch n d i này là O(n) 26
Hình 2.7 LB_ Keogh ngh ch trên C và Q 27
Hình 2.8 M t minh ho cho m t phép bi n đ i thu gi m s chi u chu i th i gian (ngu n [49]) 28
Hình 2.9 Các phép bi n đ i tín hi u trong mi n th i gian/không gian sang mi n t n s (ngu n [50]) 30
Hình 2.10 Chu i th i gian X qua bi n đ i PAA 34
Hình 2.11 M t R-tree l p ch m c cho các đi m d li u (ngu n [52]) 37
Hình 3.1 Chu i con c m i t i t ng ng v i chu i truy v n q 45
Hình 3.2 Phân đo n chu i truy v n theo ki u không ch ng l p 49
Hình 3.3 M ng R*-tree đ c dùng làm c u trúc ch m c đa m c phân gi i 51
Hình 3.4 Phân đo n chu i truy v n theo ki u ch ng l p 51
Hình 3.5 B đ m xoay vòng ch a các đi m d li u m i (up-to-date) c a chu i th i gian d ng lu ng 52
Hình 3.6 Mô hình h th ng tìm ki m t ng t b ng đ đo Euclid 54
Hình 3.7 L c các chu i truy v n qua t ng m c l c 56
Trang 13xi
Hình 3.8 M t đ phân b chi u dài các chu i truy v n 61
Hình 3.9 RangeSearch phát hi n chu i con t i t i m c th i gian 127 t ng t v i m u 63
Hình 3.10 Truy v n vùng nâng cao cho đi m đ c tr ng c a q t i đi m đ c tr ng c a c trong không gian ba chi u 68
Hình 3.11 Ba chu i con lân c n g n nh t c a m u 71
Hình 3.12 Th i gian x lý trung bình cho m t đi m d li u m i t i c a ba phép bi n đ i v i k thay đ i t 1 đ n 10 72
Hình 3.13 Các đ ng cong th t Z b c 1, 2, và 3 (ngu n [82]) 75
Hình 3.14 Các đ ng cong Hilbert b c 1, 2, và 3 (ngu n [82]) 75
Hình 3.15 M t minh ho k t n i c a hai đ ng ch y trong ISTR2 78
Hình 3.16 M t minh ho k t n i c a hai đ ng ch y trong ISTR1 78
Hình 3.17 Th i gian t o m ng R-tree b i các cách t o R-tree và các phép bi n đ i 82
Hình 3.18 Th i gian tìm ki m vùng trên các b d li u chu i th i gian 87
Hình 4.1 Mô hình h th ng tìm ki m t ng t b ng đ đo DTW 93
Hình 4.2 Khi c tr t trên tr c th i gian, Head và Tail c a E c c n đ c c p nh t 97
Hình 4.3 Th ng kê th i gian th c hi n c a các ph ng pháp tìm ki m 102
Hình 4.4 SUCR-DTW phát hi n ngay t c th i chu i con m i t i t ng t v i m u 103 Hình 4.5 (a) C a s tr t giám sát các h s min-max (b) Kho ng cách DTW đ c tính toán gia t ng t d i lên trên theo hai c t 108
Hình 4.6 Minh ho tr ng h p mà hai ph ng pháp phát hi n hai chu i con t t nh t cho đ n hi n t i khác nhau cho cùng m t m u 115
Hình 4.7 K t h p các c p đi m m t cách k d gi a S và P 117
Hình 4.8 Th i gian th c hi n c a ISPRING v i các khác nhau 117
Hình 4.9 M t chu i con c m i t i có chi u dài n m trong mi n giá tr [l – : l + ] có th so trùng v i chu i truy v n q 119
Hình 4.10 S d ng LB_ Keogh_extended trong tr ng h p 0 ≤ |C| - |Q| ≤ w 119
Hình 4.11 S d ng LB_ Keogh_extended trong tr ng h p 0 ≤ |Q| - |C| ≤ w 120
Hình 4.12 ánh giá các m u và các chu i con t ng t nh t c a m u v chi u dài trong 100 tr ng h p 126