ABSTRACT Motif in time series data is the similar subsequences which appear repeatedly many times in the data set.. Anomaly in time series data is that a subsequence appears only once an
Trang 1-
MÃ S : 60.48.01
TP H CHÍ MINH, tháng 07
Trang 2VT姶云PI"A萎I H窺C BÁCH KHOA
-
MÃ S : 60.48.01
TP H CHÍ MINH, tháng 07
Trang 3C HOÀN THÀNH T I
Cán b ng d n khoa h c : PGS.TS n Anh
Cán b ch m nh n xét 1 : TS y
Cán b ch m nh n xét 2 : TS Võ Th Ng c Châu
Lu c b o v t i h ngày 22 tháng 07 2013 Thành ph n H m: 1 TS Ph m Tr
2 TS Lê Thanh Vân
3 y
4 TS Võ Th Ng c Châu
5 n Anh
CH 曳 T卯CH H浦K"A唄NG T T姶雲NG KHOA
Trang 7v
VïO"V溢V"NW一P"X;P
là m t chu i con ch xu t hi n duy nh t m t l n và khác bi t nh t v i t t c các chu i
i thu t khai phá motif
(dimensionality reduction) và r i r c hóa (discretization) v d ng chu i ký t S d ng
a trên hàm tính kho ng cách Euclid M t ng viên b t
tixn_lùi (forward_backward nh n di n ng viên b ng th t s
là FMG
Trang 8ABSTRACT
Motif in time series data is the similar subsequences which appear repeatedly many times in the data set Anomaly in time series data is that a subsequence appears only once and is most different from the rest of subsequence in the data set Usually, the size of the time series data is very large and growing more and more This is the challenge that makes it difficult for the motif discovery algorithms as well as the anomaly discovery algorithms
In this thesis, we propose a new algorithm, FMG (Feature Match Grouping) algorithm which can find motif as well anomaly on the very large time series data From the initial raw data, after executing normalization step, we will perform dimensionality reduction and discretization Using the sliding window of size w (w defined by the user), it slides through all the symbols in the string The subsequence generated by the sliding window are called the word, each word is considered as a feature A hash table is used to contain these features, two match features will be stored together in the same bucket Finding bucket with the largest size, the corresponding key of this bucket will be the motif candidate For the buckets containing only a single feature, these features are anomaly candidates We can find motif instances from the motif candidate and basing on the dissimilarity maximum threshold Rmax (Rmax defined by user based on Euclid distance function) An anomaly candidate still can be any motif instance with the threshold Rmax, if an anomaly candidate is also an motif instance, it will be eliminated from the anomaly candidate list Then, the remaining candidates will be excluded by forward_backward algorithm
to identify the real anomaly subsequence
FMG algorithm solves the motif discovery and anomaly discovery problem in linear time with the size of the data set, using memory space is a constant The experimental results show that the FMG algorithm is much better than the Random Projection algorithm in motif discovery and much better than HOTSAX algorithm in anomaly discovery
Trang 9vii
M 影C L影C
TÓM T 扱T LU斡d" *d v
ABSTRACT vi
I THI TÀI 1
1.1 D 英 li羽u chu厩i th運i gian 1
1.2 Truy xu医t thông tin trên d英 li羽u chu厩i th運i gian 1
1.3 Khai phá motif và b医v"vj逢運ng trên d英 li羽u chu厩i th運i gian 2
1.4 J逢噂ng ti院p c壱n c栄a lu壱p"x<p 3
1.5 Ý ngj c"e栄a lu壱p"x<p 4
1.6 C医u trúc c栄a lu壱p"x<p 4
NG THU T NH NG CÔNG TRÌNH LIÊN QUAN 5
2.1 M瓜t s嘘 khái ni羽o"e挨"d違n 5
2.2 E e"rj逢挨pi"rj r"v pj"8瓜 8q"v逢挨pi"v詠 8
2.2.1 A瓜 8q"Okpmqyumk 8
2.2.2 A瓜 8q"F{pcoke"Vkog"Yctrkpi"*FVY+ 9
2.3 E e"rj逢挨pi"rj r"dk吋u di宇n d英 li羽u chu厩i th運i gian 10
2.3.1 E e"rj逢挨pi"rj r"vjw"ik違m s嘘 chi隠u 11
2.3.2 Rj逢挨pi"rj r"t運i r衣c hóa d英 li羽u 15
2.4 Gi違i thu壱t khai phá motif chính xác 16
2.5 Gi 違i thu壱t khai phá motif x医p x雨 17
2.6 Gi違i thu壱t khai phá b医v"vj逢運ng 19
2.7 Gi違i thu壱t k院t h嬰p khai phá motif và khai phá b医v"vj逢運ng 23
2.8 K 院t lu壱n 24
I QUY T V 25
3.1 Thu gi違m s嘘 chi隠u v噂k"rj逢挨pi"rj r"RCC 25
3.2 R 運i r衣c hóa d英 li羽u v噂k"rj逢挨pi"rj r"SAX 26
3.3 A瓜 8q"v逢挨pi"v詠 MINDIST 28
3.4 Gi違i thu壱t FMG 30
3.5 Gi 違i thu壱t RFMG 38
3.6 Uq"u pj"rj逢挨pi"rj r"vj詠c hi羽n c栄a các gi違i thu壱v"8q"vt逢噂c 39
3.7 K院t lu壱n 41
N TH C VÀ TH NGHI M 42
4.1 Mô hình hi羽n th詠c các gi違i thu壱t 43
Trang 104.1.2 Gi 違i thu壱t nh壱n d衣ng b医v"vj逢運ng HOTSAX 44
4.1.3 Gi違i thu壱t v瑛a khai phá motif v瑛a khai phá b医v"vj逢運ng FMG 45
4.1.4 Gi違i thu壱t khai phá motif RFMG 46
4.2 Th 詠c nghi羽m các gi違i thu壱v"8«"jk羽n th詠c 47
4.2.1 D英 li羽w"8k羽p"vko"8欝 *GEI+"3220222"8k吋m 49
4.2.2 D英 li羽w"8k羽p"vko"8欝 *GEI+"5220222"8k吋m 52
4.2.3 D英 li羽w"8k羽p"p«q"8欝 *GGI+"320972"8k吋m 54
4.2.4 D英 li羽u doanh nghi羽r"*GTR+"3;:0622"8k吋m 57
4.2.5 D英 li羽w"OGOQT["80:97"8k吋m 59
4.2.6 D 英 li羽w"p<pi"n逢嬰pi"*RQYGT+"570262"8k吋m 62
4.2.7 D英 li羽u ch泳pi"mjq p"*UVQEM+"340862"8k吋m 63
4.3 So sánh các gi違i thu壱t d詠a trên k院t qu違 th詠c nghi羽m 66
T LU N 69
5.1 T鰻ng k院t 69
5.2 Nh英pi"8„pi"i„r"e栄a lu壱p"x<p 69
5.3 J逢噂ng phát tri吋n c栄a lu壱p"x<p 70
TÀI LI U THAM KH O 71
PH L C A: B I CHI U THU T NG ANH-VI T A
PH L C B: LÝ L CH TRÍCH NGANG B
Trang 11ix
FCPJ"O影E"HÌNH 謂PJ
Hình 1.1: D li u chu i th i gian bi u di n giá c phi u [1] 1
Hình 1.2: (a) M t minh h a motif (b) M t minh h a b ng [2] 2
Hình 2.1: Chu i con C và M sinh ra t c a s t và M kh c v i C [5] 6
Hình 2.2: Chu i con C kh p t ng v i chu i con ngay chính v trí c a nó d ch sang trái hay sang ph i m m giá tr [5] 7
Hình 2.3: Kho ng cách hai motif < 2R (A) ; Kho ng cách hai motif > 2R (B) [6] 7
a hai chu i con [9] 9
a hai chu i con [9] 10
Hình 2.6: Phép bi i DFT [19] 11
Hình 2.7: Phép bi i DWT [19] 12
Hình 2.8: Phép bi i PAA [19] 13
Hình 2.9: Phép bi i APCA [19] 14
Hình 2.10: Phép bi i PLA [19] 15
Hình 2.11: Phép bi i r i r c hóa SAX [19] 16
Hình 2.12: Gi i thu t Brute-Force tìm 1-Motif trên d li u chu i th i gian [6] 17
Hình 2.13: Ma tr n 傘 ch a t t c các chu i con t c a s t [5] 18
Hình 2.14: Chi u trên c t 1 và 2, c p nh t ma tr n vuông | 傘|× |傘| [5] 18
Hình 2.15: Chi u trên c t 3 và 4, c p nh t ma tr n vuông | 傘|× |傘| [5] 19
Hình 2.16: Gi i thu t Brute-Force nh n d ng chu i con b ng [21] 20
Hình 2.17: Gi i thu t HOTSAX nh n d ng chu i con b ng [21] 21
Hình 2.18: Hai c u trúc d li u h tr gi i thu t HOTSAX [21] 22
Hình 2.19: Hai t p d li u chu i th u [2] 23
Hình 2.20: Hai t p d li u chu i th i gian sau khi kh p t ng c m hai[2] 24
m chu i d li u có chi u dài n = 128 v w = 8 [19] 25
Hình 3.2: M u d li c v có tính ch t tuy n tính cho th y d li u tuân theo phân b Gauss [19] 26 Hình 3.3: B ng th tra nh m ng t theo phân b Gauss v i s vùng phân b t 3 n 10 [19] 27
Hình 3.4: R i r c hóa v chu i ký t cho m t chu i có chi u dài n = 128, 27
w = 8, a = 3 [19] 27
Hình 3.5: Kho ng cách Euclid gi a hai chu i nguyên th y (A), hai chu m s chi u (B) và hai chu i r c hóa (C) [19] 29
ng cách gi a hai ký t b ng cách tra b ng [19] 29
ch t ch i c a hàm kho ng cách MINDIST v i h s a và w ng [19] 30
Hình 3.8: Gi i thu t Build_FM_HashTable xây d ng b chu i d li i r c hóa 32
Hình 3.9: Minh h ng viên motif và ng viên b ng t i T = aacbaccacbc, c a s t w = 3 33
Hình 3.10: Gi i thu t Get_Motif_Candidate ch n ng viên motif t b 34
Hình 3.11: Gi i thu t Find_Motif tìm t t c nh ng th hi n motif t motif ng kho ng cách t max 35
Hình 3.12: Gi i thu t Forward_Backward nh n d ng nh t 37
Hình 4.1: Mô hình hi n th c c a gi i thu t RP 43
Hình 4.2: Mô hình hi n th c gi i thu t HOTSAX 44
Trang 12Hình 4.4: Mô hình hi n th c gi i thu t RFMG 46
Hình 4.5: Các thành ph n giao di i dùng 47
B ng 1: Ch a các thành ph n giao di n c 48
B ng 2: Thông s u vào cho các t p d li u dùng trong th c nghi m 49
Hình 4.6: K t qu c a gi i thu t RP trên d li m 49
Hình 4.7: K t qu c a gi i thu t RFMG trên d li m 50
Hình 4.8: K t qu c a gi i thu t FMG tìm motif trên d li m 50
Hình 4.9: K t qu c a gi i thu t FMG tìm b ng trên d li m 51
Hình 4.10: K t qu c a gi i thu t HOTSAX khai phá b ng trên d li m 51
Hình 4.11: K t qu c a gi i thu t RP trên d li m 52
Hình 4.12: K t qu c a gi i thu t RFMG trên d li m 52
Hình 4.13: K t qu c a gi i thu t FMG tìm motif trên d li m 53
Hình 4.14: K t qu c a gi i thu t FMG tìm b ng trên d li m 53
Hình 4.15: K t qu c a gi i thu t HOTSAX khai phá b ng trên d li m 54
Hình 4.16: K t qu c a gi i thu t RP trên d li m 54
Hình 4.17: K t qu c a gi i thu t RFMG trên d li m 55
Hình 4.18: K t qu c a gi i thu t FMG tìm motif trên d li m 55
Hình 4.19: K t qu c a gi i thu t FMG tìm b ng trên d li m 56
Hình 4.20: K t qu c a gi i thu t HOTSAX khai phá b ng trên d li m 56
Hình 4.21: K t qu c a gi i thu t RP trên d li m 57
Hình 4.22: K t qu c a gi i thu t RFMG trên d li m 57
Hình 4.23: K t qu c a gi i thu t FMG tìm motif trên d li m 58
Hình 4.24: K t qu c a gi i thu t FMG tìm b ng trên d li m 58
Hình 4.25: K t qu c a gi i thu t HOTSAX khai phá b ng trên d li m 59
Hình 4.26: K t qu c a gi i thu t RP trên d li m 59
Hình 4.27: K t qu c a gi i thu t RFMG trên d li m 60
Hình 4.28: K t qu c a gi i thu t FMG tìm motif trên d li m 60
Hình 4.29: K t qu c a gi i thu t FMG tìm b t ng trên d li m 61
Hình 4.30: K t qu c a gi i thu t HOTSAX khai phá b ng trên d li m 61 Hình 4.31: K t qu c a gi i thu t RP trên d li m 62
Hình 4.32: K t qu c a gi i thu t RFMG trên d li m 62
Hình 4.33: K t qu c a gi i thu t FMG tìm motif trên d li m 63
Hình 4.34: K t qu c a gi i thu t RP trên d li m 63
Hình 4.35: K t qu c a gi i thu t RFMG trên d li m 64
Hình 4.36: K t qu c a gi i thu t FMG tìm motif trên d li u STOCK 12 m 64
Hình 4.37: K t qu c a gi i thu t FMG tìm b ng trên d li m 65
Hình 4.38: K t qu c a gi i thu t HOTSAX khai phá b ng trên d li m 65
B ng 3: T ng k t k t qu khai phá motif c a các gi i thu t 66
B ng 4: T ng k t các k t qu khai phá b ng c a các gi i thu t 67
Hình 4.39: So sánh th i gian th c thi khai phá motif c a các gi i thu t 68
Hình 4.40: So sánh th i gian th c thi khai phá b ng c a các gi i thu t 68
Trang 13EJ姶愛PI"3<"IK閏I THI烏W"A陰 TÀI
1.1 D英 li羽u chu厩i th運i gian
Hình 1.1: D 英 li羽u chu厩i th運i gian bi宇u di宇n giá c鰻 phi院u [1]
càng quan tr ng và thu hút r t nhi u s quan tâm
1.2 Truy xu医t thông tin trên d英 li羽u chu厩i th運i gian
tin là: truy xu t theo m u và truy xu t theo n i dung
thông tin c n tìm, gi i thu t s tìm trong t p d li u nh ng m u thông tin th u
Trang 14hi u M t ví d truy xu t theo m u ngôn ng truy v n có c u trúc (Structured Query Language hay SQL) M t s ng d ng d ng truy xu t này là nh ng
ng d ng trong nh n d ng gi ng nói, h th ng truy xu t âm thanh, nh n d ng hình nh Truy xu t theo n i dung (content-base retrieval): là truy xu t t t c các m u thông
1.3 Khai phá motif và b医v"vj逢運ng trên d英 li羽u chu厩i th運i gian
khác bi t nh t v i t t c các chu i con khác trong d li u chu i th i gian (Hình 1.2b)
Hình 1.2: (a) M 瓜t minh h丑a motif (b) M瓜t minh h丑a b医v"vj逢運ng [2]
Trang 15Trong khai phá b ng k t qu tr v i ph i là k t qu chính xác trong khi
gi i thu t khai phá motif là:
X Khai phá motif chính xác (exact motif): là làm vi c tr c ti p trên d li u thô d a
X Khai phá motif x p x (approximate motif): d li u chu i th i gian s c x lý
trình khai phá có th áp d ng m t s tính ch t d a trên xác su t, tính ng u
c l n
1.4 J逢噂ng ti院p c壱n c栄a lu壱p"x<p
h qu c a quá trình khai phá motif Gi i thu t FMG thích ng t t v i d li u có kích
(normalization) s ti p t c th c hi n thu gi m s chi u (dimensionality reduction) và
Trang 16Th c hi n tìm các th hi n motif t ng viên motif t
1.5 ""pij c"c栄a lu壱n x<p
nhi u l n so v i gi i thu t HOTSAX
1.6 C医u trúc c栄a lu壱p"x<p
c a lu
ng HOTSAX
Trang 17
EJ姶愛PI"4<"V蔚NG THU一T NH頴NG CÔNG TRÌNH
LIÊN QUAN
li u nhi u kênh ta th th y trong d li u motion capture ghi nh n nhi u góc khác
b ng nhau
A鵜pj"pij c"30"Dの liうu chuざi thぜi gian (Time series): M t d li u chu i th i gian T =
A鵜pj"pij c"40"Chuざi con (Subsequense): Cho m t d li u chu i th i gian T có chi u
dài là n, m t chu i con C trong T có chi u dài m là m t m u c a nh ng giá tr liên t c trích t T, C = tp.È0.vp+ m-1 v i 3"ø""r"ø"p"Î m + 1 [6]
A鵜pj"pij c"50"E¬"uぞ dの liうu chuざi thぜi gian (Time series database): là m t t p không
t (Sliding Window)
Trang 18A鵜pj"pij c"60"Cぬa sご vt⇔ぢt (Sliding Window): Cho m t d li u chu i th i gian T có
A鵜pj"pij c"70"Khずp (Match): Cho m t s th c R
Hình 2.1: Chu 厩i con C và M sinh ra t瑛 c穎a s鰻 vt逢嬰t và M kh噂r"8逢嬰c v噂i C [5]
khずp c a hai chu i con thì r t rõ ràng và tr c quan, tuy nhiên chúng
A鵜pj"pij c"80"Khずp tZo"vj⇔ぜng (Trivial match): Cho m t d li u chu i th i gian T và
không t n t i m t chu i OÓ nào b u t i v trí sÓ sao cho F*E."OÓ+"@"T và s">"sÓ">"r
ho c r">"sÓ">"s [5] (Hình 2.2)
Trang 19Hình 2.2: Chu 厩i con C kh噂p t亥o"vj逢運ng v噂i chu厩i con ngay chính v鵜 trí c栄a nó
d 鵜ch sang trái hay sang ph違i m瓜v"x k"8k吋m giá tr鵜 [5]
A鵜pj"pij c"90"K-Motifs: Cho m t d li u chu i th i gian T có chi u dài n, và m t s
v i m i 3"ø""k""ø"K [6] (Hình 2.3B)
n nh n m nh r ng các chu i con trong t p các motif ph i tách
c xem là m t motif (Hình 2.3A)
Hình 2.3: Kho 違ng cách hai motif < 2R (A) ; Kho違ng cách hai motif > 2R (B) [6]
Kh p t m
ng
Trang 20A鵜pj"pij c":0"BXv"vj⇔ぜng(Anomaly): Cho m t d li u chu i th i gian T có chi u dài n,
g n nh t c a nó là l n nh t Nói cách khác chu i con C là chu i con khác bi t nh t
trong T [21]
2.2 E e"rj逢挨pi"rj r"v pj"8瓜 8q"v逢挨pi"v詠
H u h t các công trình nghiên c u trên d li u chu i th i gian d
Khi p = 1 ta có kho ng cách Manhattan
Khi p = 2 ta có kho ng cách Euclid
Khi r"?"ı" ta có kho ng cách Max
Trang 21Hình 2.4: A瓜 8q Minkowski gi英a hai chu厩i con [9]
2.2.2 A瓜 8q Dynamic Time Warping (DTW)
Trang 22m trong chu i này có th ánh x t i nhi m trong chu i kia và nh ng ánh x
Hình 2.5: A瓜 8q Dynamic Time Warping gi英a hai chu厩i con [9]
2.3 E e"rj逢挨pi"rj r"dk吋u di宇n d英 li羽u chu厩i th運i gian
pháp thu gi m s chi u (dimensionality reduction) giúp nâng cao hi u su t truy xu t và
Trang 232.3.1 Cáe"rj逢挨pi"rj r"vjw"ik違m s嘘 chi隠u
Thu gi m s chi u là ta bi u di n d li u chu i th i gian n chi u X = (x1,x2.È.zn) thành
Trang 24tt
gH
0
12
/11
2/10
1)(
ng h p khác
(2.3)
Trang 27Hình 2.10: Phép bi 院p"8鰻i PLA [19]
⇒w"8kあm:
‚ Tr c quan và t l l i th p trong quá trình xây d ng l i chu i d li u g c
‚ Gi i thu t tìm các chu n th c th c hi n trong th i gian tuy n tính
Pj⇔ぢe"8kあm:
2.3.2 Rj逢挨pi"rj r"t運i r衣c hóa d英 li羽u
truy xu t d li u R i r c hóa là m t quá trình ánh x t n trong d li
d li u chu i th i gian nguyên th y v m t chu i bit ho c chu i ký t
Aggrigate approXimation - SAX) chuy n d li u chu i th i gian v chu i các ký t
Trang 28Hình 2.11: Phép bi 院p"8鰻i r運i r衣c hóa SAX [19]
2.4 Gi違i thu壱t khai phá motif chính xác
thu t là 1-Motif b ng cách ki m tra tu n t m t chu i con v i t t c các chu i con khác
Trang 29Hình 2.12: Gi 違i thu壱t Brute-Force tìm 1-Motif trên d英 li羽u chu厩i th運i gian [6]
Nh 壱n xét:
không kh thi
X Tuy nhiên Brute_Force là gi i thu t n n cho nhi u gi i thu t c i ti n v i m t s
ng th c tam giác, tính không âm c a hàm kho ng cách nh m k t thúc s m quá trình tính toán không c n thi t
X Motif tìm th y là motif chính xác
2.5 Gi違i thu壱t khai phá motif x医p x雨
T nh ng h n ch c a các gi i thu t khai phá motif chính xác, nhi u công trình nghiên
Trang 30c bi t gi i thu t r t hi u qu trong khai phá motif x p x ng c a
Hình 2.13: Ma tr 壱n 傘撫 ch泳a t医t c違 các chu厩i con t瑛 c穎a s鰻 vt逢嬰t [5]
Trang 31Hình 2.15: Chi 院u trên c瓜t 3 và 4, c壱p nh壱t ma tr壱n vuông |傘撫|× |傘撫| [5]
Nh 壱n xét:
2.6 Gi違i thu壱t khai phá b医v"vj逢運ng
brute-force) c n so sánh m t chu i con v i t t c nh ng chu i con khác trong t p d li u
v i m là s chu i con trong t p d li u
Trang 32Hình 2.16: Gi 違i thu壱t Brute-Force nh壱n d衣ng chu厩i con b医v"vj逢運ng [21]
xu t gi i thu t HOTSAX (Hình 2.17) c i ti n t gi i thu t Brute-Force b ng cách áp
d ng hai heuristic cho vòng l p ngoài và vòng l p trong v i mong mu n là:
X vòng l p ngoài nh ng chu i con có kh ng th c s cao s
2 best_ so_far_loc = NaN;
3. for i = 1 to length (T) n + 1 //B u vòng l p ngoài
4 nearest_neighbor_dist = infinity;
5. for j = 1 to length (T) n + 1 //B u vòng l p trong
6. if |i - j| 半 n //ki m tra kh p t ng
7. if Dist( t ti+n-1, tj j+n-1) < nearest_neighbor_dist
8 nearest_neighbor_dist = Dist( t ti+n-1, tj j+n-1)
Trang 33Hình 2.17: Gi 違i thu壱t HOTSAX nh壱n d衣ng chu厩i con b医v"vj逢運ng [21]
hi n th c hai heuristic này gi i thu t HOTSAX c n s h tr c a hai c u trúc
ng v i m t chu i con M i nút lá c a Trie ch a m t danh sách các
bhv"8Zu cてa các chuざi con) S ng các ch m c nút lá s c c p nh c l i
c t ngoài cùng bên ph i c a c u trúc dãy các chu i con
Gi i thu t HOTSAX (T, n, Outer_heuristic, Inner_heuristic)
1 best _so_far_dist = 0;
2 best_ so_far_loc = NaN;
3. foreach i in T ordered by Outer_heuristic //B u vòng l p ngoài
10. if Dist( t ti i+n-1, tj j+n-1) 判 nearest_neighbor_dist
11 nearest_neighbor_dist = Dist( t ti+n-1, tj j+n-1)
Trang 34Hình 2.18: Hai c 医u trúc d英 li羽u h厩 tr嬰 gi違i thu壱t HOTSAX [21]
i v i vòng l p ngoài gi i thu t s tìm trên c u trúc dãy, các chu i con ng v i s
c vòng l p trong, các chu i còn l i có th ch n theo th t ng u nhiên
Nh 壱n xét:
X Không có khái ni m x p x cho chu i con b ng nên các gi i thu t khai phá
X Gi i thu t HOTSAX c i ti n gi i thu t Brute-Force b i heuristic x p th t các
Trang 352.7 Gi違i thu壱t k院t h嬰p khai phá motif và khai phá b医v"vj逢運ng
Hình 2.19: Hai t 壱p d英 li羽u chu厩i th運i gian ucw"mjk"ejkc"8q衣p"mj»pi"8欝pi"8隠u [2]
Trang 36Hình 2.20: Hai t 壱p d英 li羽u chu厩i th運i gian sau khi kh噂p t瑛ng c映m hai[2]
Nh 壱n xét:
chính xác cao
ng r t hay và hi u qu cho bài toán nh n d ng chu i con b t
ng
NP-Complete
2.8 K院t lu壱n
nh ng k thu t n n t ng trong khai phá d li u chu i th i gian Có r t nhi u công trình
Trang 37
EJ姶愛PI"5<"RJ姶愛PI"RJèR"IK謂I QUY蔭T V遺P"A陰
c th c hi n c a gi i thu
3.1 Thu gi違m s嘘 chi隠u v噂k"rj逢挨pi"rj r PAA
bình c ng c a các giá tr trong chu i C vào khung th i theo công th c (Hình
Trang 38t tr c
3.2 R運i r衣c hóa d英 li羽u v噂k"rj逢挨pi"rj r SAX
chu n (Gaussian distribution) (Hình 3.2)
Hình 3.2: M 磯u d英 li羽w"8逢嬰c v胤 có tính ch医t tuy院n tính cho th医y d英 li羽u tuân theo
phân b 嘘 Gauss [19]
Gauss
A鵜pj"pij c"; Nhのpi"8kあm nght (Breakpoints): nh m ng t là m t danh sách có
Trang 39Hình 3.3: B 違ng th嘘pi"m‒"f́pi"8吋 tra nh英pi"8k吋m ng逸t theo phân b嘘 Gauss v噂i s嘘
Trang 40A鵜pj"pij c"32 Tな (Word): m t chu i con C có chi u dài n có th c bi u di n b ng
3.3 A瓜 8q"v逢挨pi"v詠 MINDIST
tính theo công th c sau:
D(Q, C) = 紐デ (圏件券 伐 潔件)2
th c sau:
D( 芸博, 系違) = 謬拳券 紐デ (圏博件券 伐 潔違件)2
MINDIST( 芸侮, 系實) = 謬拳券 紐デ (穴件嫌建(圏賦件券 , 潔件))2