1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nhận dạng motif và bất thường trên dữ liệu chuỗi thời gian dựa vào kỹ thuật băm

87 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nhận Dạng Motif Và Bất Thường Trên Dữ Liệu Chuỗi Thời Gian Dựa Vào Kỹ Thuật Băm
Tác giả Phạm Thanh Xuân, TS. Nguyễn Anh, TS. Vừ Thế Ngọc Châu
Người hướng dẫn PGS.TS. Nguyễn Văn A, TS. Lê Thanh Vân
Trường học Đại Học Quốc Gia TP. HCM
Chuyên ngành Khoa Học Máy Tính
Thể loại Luận Văn
Năm xuất bản 2013
Thành phố TP. HCM
Định dạng
Số trang 87
Dung lượng 4,27 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ABSTRACT Motif in time series data is the similar subsequences which appear repeatedly many times in the data set.. Anomaly in time series data is that a subsequence appears only once an

Trang 1

-

MÃ S : 60.48.01

TP H CHÍ MINH, tháng 07

Trang 2

VT姶云PI"A萎I H窺C BÁCH KHOA

-

MÃ S : 60.48.01

TP H CHÍ MINH, tháng 07

Trang 3

C HOÀN THÀNH T I

Cán b ng d n khoa h c : PGS.TS n Anh

Cán b ch m nh n xét 1 : TS y

Cán b ch m nh n xét 2 : TS Võ Th Ng c Châu

Lu c b o v t i h ngày 22 tháng 07 2013 Thành ph n H m: 1 TS Ph m Tr

2 TS Lê Thanh Vân

3 y

4 TS Võ Th Ng c Châu

5 n Anh

CH 曳 T卯CH H浦K"A唄NG T T姶雲NG KHOA

Trang 7

v

VïO"V溢V"NW一P"X;P

là m t chu i con ch xu t hi n duy nh t m t l n và khác bi t nh t v i t t c các chu i

i thu t khai phá motif

(dimensionality reduction) và r i r c hóa (discretization) v d ng chu i ký t S d ng

a trên hàm tính kho ng cách Euclid M t ng viên b t

tixn_lùi (forward_backward nh n di n ng viên b ng th t s

là FMG

Trang 8

ABSTRACT

Motif in time series data is the similar subsequences which appear repeatedly many times in the data set Anomaly in time series data is that a subsequence appears only once and is most different from the rest of subsequence in the data set Usually, the size of the time series data is very large and growing more and more This is the challenge that makes it difficult for the motif discovery algorithms as well as the anomaly discovery algorithms

In this thesis, we propose a new algorithm, FMG (Feature Match Grouping) algorithm which can find motif as well anomaly on the very large time series data From the initial raw data, after executing normalization step, we will perform dimensionality reduction and discretization Using the sliding window of size w (w defined by the user), it slides through all the symbols in the string The subsequence generated by the sliding window are called the word, each word is considered as a feature A hash table is used to contain these features, two match features will be stored together in the same bucket Finding bucket with the largest size, the corresponding key of this bucket will be the motif candidate For the buckets containing only a single feature, these features are anomaly candidates We can find motif instances from the motif candidate and basing on the dissimilarity maximum threshold Rmax (Rmax defined by user based on Euclid distance function) An anomaly candidate still can be any motif instance with the threshold Rmax, if an anomaly candidate is also an motif instance, it will be eliminated from the anomaly candidate list Then, the remaining candidates will be excluded by forward_backward algorithm

to identify the real anomaly subsequence

FMG algorithm solves the motif discovery and anomaly discovery problem in linear time with the size of the data set, using memory space is a constant The experimental results show that the FMG algorithm is much better than the Random Projection algorithm in motif discovery and much better than HOTSAX algorithm in anomaly discovery

Trang 9

vii

M 影C L影C

TÓM T 扱T LU斡d" *d v

ABSTRACT vi

I THI TÀI 1

1.1 D 英 li羽u chu厩i th運i gian 1

1.2 Truy xu医t thông tin trên d英 li羽u chu厩i th運i gian 1

1.3 Khai phá motif và b医v"vj逢運ng trên d英 li羽u chu厩i th運i gian 2

1.4 J逢噂ng ti院p c壱n c栄a lu壱p"x<p 3

1.5 Ý ngj c"e栄a lu壱p"x<p 4

1.6 C医u trúc c栄a lu壱p"x<p 4

NG THU T NH NG CÔNG TRÌNH LIÊN QUAN 5

2.1 M瓜t s嘘 khái ni羽o"e挨"d違n 5

2.2 E e"rj逢挨pi"rj r"v pj"8瓜 8q"v逢挨pi"v詠 8

2.2.1 A瓜 8q"Okpmqyumk 8

2.2.2 A瓜 8q"F{pcoke"Vkog"Yctrkpi"*FVY+ 9

2.3 E e"rj逢挨pi"rj r"dk吋u di宇n d英 li羽u chu厩i th運i gian 10

2.3.1 E e"rj逢挨pi"rj r"vjw"ik違m s嘘 chi隠u 11

2.3.2 Rj逢挨pi"rj r"t運i r衣c hóa d英 li羽u 15

2.4 Gi違i thu壱t khai phá motif chính xác 16

2.5 Gi 違i thu壱t khai phá motif x医p x雨 17

2.6 Gi違i thu壱t khai phá b医v"vj逢運ng 19

2.7 Gi違i thu壱t k院t h嬰p khai phá motif và khai phá b医v"vj逢運ng 23

2.8 K 院t lu壱n 24

I QUY T V 25

3.1 Thu gi違m s嘘 chi隠u v噂k"rj逢挨pi"rj r"RCC 25

3.2 R 運i r衣c hóa d英 li羽u v噂k"rj逢挨pi"rj r"SAX 26

3.3 A瓜 8q"v逢挨pi"v詠 MINDIST 28

3.4 Gi違i thu壱t FMG 30

3.5 Gi 違i thu壱t RFMG 38

3.6 Uq"u pj"rj逢挨pi"rj r"vj詠c hi羽n c栄a các gi違i thu壱v"8q"vt逢噂c 39

3.7 K院t lu壱n 41

N TH C VÀ TH NGHI M 42

4.1 Mô hình hi羽n th詠c các gi違i thu壱t 43

Trang 10

4.1.2 Gi 違i thu壱t nh壱n d衣ng b医v"vj逢運ng HOTSAX 44

4.1.3 Gi違i thu壱t v瑛a khai phá motif v瑛a khai phá b医v"vj逢運ng FMG 45

4.1.4 Gi違i thu壱t khai phá motif RFMG 46

4.2 Th 詠c nghi羽m các gi違i thu壱v"8«"jk羽n th詠c 47

4.2.1 D英 li羽w"8k羽p"vko"8欝 *GEI+"3220222"8k吋m 49

4.2.2 D英 li羽w"8k羽p"vko"8欝 *GEI+"5220222"8k吋m 52

4.2.3 D英 li羽w"8k羽p"p«q"8欝 *GGI+"320972"8k吋m 54

4.2.4 D英 li羽u doanh nghi羽r"*GTR+"3;:0622"8k吋m 57

4.2.5 D英 li羽w"OGOQT["80:97"8k吋m 59

4.2.6 D 英 li羽w"p<pi"n逢嬰pi"*RQYGT+"570262"8k吋m 62

4.2.7 D英 li羽u ch泳pi"mjq p"*UVQEM+"340862"8k吋m 63

4.3 So sánh các gi違i thu壱t d詠a trên k院t qu違 th詠c nghi羽m 66

T LU N 69

5.1 T鰻ng k院t 69

5.2 Nh英pi"8„pi"i„r"e栄a lu壱p"x<p 69

5.3 J逢噂ng phát tri吋n c栄a lu壱p"x<p 70

TÀI LI U THAM KH O 71

PH L C A: B I CHI U THU T NG ANH-VI T A

PH L C B: LÝ L CH TRÍCH NGANG B

Trang 11

ix

FCPJ"O影E"HÌNH 謂PJ

Hình 1.1: D li u chu i th i gian bi u di n giá c phi u [1] 1

Hình 1.2: (a) M t minh h a motif (b) M t minh h a b ng [2] 2

Hình 2.1: Chu i con C và M sinh ra t c a s t và M kh c v i C [5] 6

Hình 2.2: Chu i con C kh p t ng v i chu i con ngay chính v trí c a nó d ch sang trái hay sang ph i m m giá tr [5] 7

Hình 2.3: Kho ng cách hai motif < 2R (A) ; Kho ng cách hai motif > 2R (B) [6] 7

a hai chu i con [9] 9

a hai chu i con [9] 10

Hình 2.6: Phép bi i DFT [19] 11

Hình 2.7: Phép bi i DWT [19] 12

Hình 2.8: Phép bi i PAA [19] 13

Hình 2.9: Phép bi i APCA [19] 14

Hình 2.10: Phép bi i PLA [19] 15

Hình 2.11: Phép bi i r i r c hóa SAX [19] 16

Hình 2.12: Gi i thu t Brute-Force tìm 1-Motif trên d li u chu i th i gian [6] 17

Hình 2.13: Ma tr n 傘 ch a t t c các chu i con t c a s t [5] 18

Hình 2.14: Chi u trên c t 1 và 2, c p nh t ma tr n vuông | 傘|× |傘| [5] 18

Hình 2.15: Chi u trên c t 3 và 4, c p nh t ma tr n vuông | 傘|× |傘| [5] 19

Hình 2.16: Gi i thu t Brute-Force nh n d ng chu i con b ng [21] 20

Hình 2.17: Gi i thu t HOTSAX nh n d ng chu i con b ng [21] 21

Hình 2.18: Hai c u trúc d li u h tr gi i thu t HOTSAX [21] 22

Hình 2.19: Hai t p d li u chu i th u [2] 23

Hình 2.20: Hai t p d li u chu i th i gian sau khi kh p t ng c m hai[2] 24

m chu i d li u có chi u dài n = 128 v w = 8 [19] 25

Hình 3.2: M u d li c v có tính ch t tuy n tính cho th y d li u tuân theo phân b Gauss [19] 26 Hình 3.3: B ng th tra nh m ng t theo phân b Gauss v i s vùng phân b t 3 n 10 [19] 27

Hình 3.4: R i r c hóa v chu i ký t cho m t chu i có chi u dài n = 128, 27

w = 8, a = 3 [19] 27

Hình 3.5: Kho ng cách Euclid gi a hai chu i nguyên th y (A), hai chu m s chi u (B) và hai chu i r c hóa (C) [19] 29

ng cách gi a hai ký t b ng cách tra b ng [19] 29

ch t ch i c a hàm kho ng cách MINDIST v i h s a và w ng [19] 30

Hình 3.8: Gi i thu t Build_FM_HashTable xây d ng b chu i d li i r c hóa 32

Hình 3.9: Minh h ng viên motif và ng viên b ng t i T = aacbaccacbc, c a s t w = 3 33

Hình 3.10: Gi i thu t Get_Motif_Candidate ch n ng viên motif t b 34

Hình 3.11: Gi i thu t Find_Motif tìm t t c nh ng th hi n motif t motif ng kho ng cách t max 35

Hình 3.12: Gi i thu t Forward_Backward nh n d ng nh t 37

Hình 4.1: Mô hình hi n th c c a gi i thu t RP 43

Hình 4.2: Mô hình hi n th c gi i thu t HOTSAX 44

Trang 12

Hình 4.4: Mô hình hi n th c gi i thu t RFMG 46

Hình 4.5: Các thành ph n giao di i dùng 47

B ng 1: Ch a các thành ph n giao di n c 48

B ng 2: Thông s u vào cho các t p d li u dùng trong th c nghi m 49

Hình 4.6: K t qu c a gi i thu t RP trên d li m 49

Hình 4.7: K t qu c a gi i thu t RFMG trên d li m 50

Hình 4.8: K t qu c a gi i thu t FMG tìm motif trên d li m 50

Hình 4.9: K t qu c a gi i thu t FMG tìm b ng trên d li m 51

Hình 4.10: K t qu c a gi i thu t HOTSAX khai phá b ng trên d li m 51

Hình 4.11: K t qu c a gi i thu t RP trên d li m 52

Hình 4.12: K t qu c a gi i thu t RFMG trên d li m 52

Hình 4.13: K t qu c a gi i thu t FMG tìm motif trên d li m 53

Hình 4.14: K t qu c a gi i thu t FMG tìm b ng trên d li m 53

Hình 4.15: K t qu c a gi i thu t HOTSAX khai phá b ng trên d li m 54

Hình 4.16: K t qu c a gi i thu t RP trên d li m 54

Hình 4.17: K t qu c a gi i thu t RFMG trên d li m 55

Hình 4.18: K t qu c a gi i thu t FMG tìm motif trên d li m 55

Hình 4.19: K t qu c a gi i thu t FMG tìm b ng trên d li m 56

Hình 4.20: K t qu c a gi i thu t HOTSAX khai phá b ng trên d li m 56

Hình 4.21: K t qu c a gi i thu t RP trên d li m 57

Hình 4.22: K t qu c a gi i thu t RFMG trên d li m 57

Hình 4.23: K t qu c a gi i thu t FMG tìm motif trên d li m 58

Hình 4.24: K t qu c a gi i thu t FMG tìm b ng trên d li m 58

Hình 4.25: K t qu c a gi i thu t HOTSAX khai phá b ng trên d li m 59

Hình 4.26: K t qu c a gi i thu t RP trên d li m 59

Hình 4.27: K t qu c a gi i thu t RFMG trên d li m 60

Hình 4.28: K t qu c a gi i thu t FMG tìm motif trên d li m 60

Hình 4.29: K t qu c a gi i thu t FMG tìm b t ng trên d li m 61

Hình 4.30: K t qu c a gi i thu t HOTSAX khai phá b ng trên d li m 61 Hình 4.31: K t qu c a gi i thu t RP trên d li m 62

Hình 4.32: K t qu c a gi i thu t RFMG trên d li m 62

Hình 4.33: K t qu c a gi i thu t FMG tìm motif trên d li m 63

Hình 4.34: K t qu c a gi i thu t RP trên d li m 63

Hình 4.35: K t qu c a gi i thu t RFMG trên d li m 64

Hình 4.36: K t qu c a gi i thu t FMG tìm motif trên d li u STOCK 12 m 64

Hình 4.37: K t qu c a gi i thu t FMG tìm b ng trên d li m 65

Hình 4.38: K t qu c a gi i thu t HOTSAX khai phá b ng trên d li m 65

B ng 3: T ng k t k t qu khai phá motif c a các gi i thu t 66

B ng 4: T ng k t các k t qu khai phá b ng c a các gi i thu t 67

Hình 4.39: So sánh th i gian th c thi khai phá motif c a các gi i thu t 68

Hình 4.40: So sánh th i gian th c thi khai phá b ng c a các gi i thu t 68

Trang 13

EJ姶愛PI"3<"IK閏I THI烏W"A陰 TÀI

1.1 D英 li羽u chu厩i th運i gian

Hình 1.1: D 英 li羽u chu厩i th運i gian bi宇u di宇n giá c鰻 phi院u [1]

càng quan tr ng và thu hút r t nhi u s quan tâm

1.2 Truy xu医t thông tin trên d英 li羽u chu厩i th運i gian

tin là: truy xu t theo m u và truy xu t theo n i dung

thông tin c n tìm, gi i thu t s tìm trong t p d li u nh ng m u thông tin th u

Trang 14

hi u M t ví d truy xu t theo m u ngôn ng truy v n có c u trúc (Structured Query Language hay SQL) M t s ng d ng d ng truy xu t này là nh ng

ng d ng trong nh n d ng gi ng nói, h th ng truy xu t âm thanh, nh n d ng hình nh Truy xu t theo n i dung (content-base retrieval): là truy xu t t t c các m u thông

1.3 Khai phá motif và b医v"vj逢運ng trên d英 li羽u chu厩i th運i gian

khác bi t nh t v i t t c các chu i con khác trong d li u chu i th i gian (Hình 1.2b)

Hình 1.2: (a) M 瓜t minh h丑a motif (b) M瓜t minh h丑a b医v"vj逢運ng [2]

Trang 15

Trong khai phá b ng k t qu tr v i ph i là k t qu chính xác trong khi

gi i thu t khai phá motif là:

X Khai phá motif chính xác (exact motif): là làm vi c tr c ti p trên d li u thô d a

X Khai phá motif x p x (approximate motif): d li u chu i th i gian s c x lý

trình khai phá có th áp d ng m t s tính ch t d a trên xác su t, tính ng u

c l n

1.4 J逢噂ng ti院p c壱n c栄a lu壱p"x<p

h qu c a quá trình khai phá motif Gi i thu t FMG thích ng t t v i d li u có kích

(normalization) s ti p t c th c hi n thu gi m s chi u (dimensionality reduction) và

Trang 16

Th c hi n tìm các th hi n motif t ng viên motif t

1.5 ""pij c"c栄a lu壱n x<p

nhi u l n so v i gi i thu t HOTSAX

1.6 C医u trúc c栄a lu壱p"x<p

c a lu

ng HOTSAX

Trang 17

EJ姶愛PI"4<"V蔚NG THU一T NH頴NG CÔNG TRÌNH

LIÊN QUAN

li u nhi u kênh ta th th y trong d li u motion capture ghi nh n nhi u góc khác

b ng nhau

A鵜pj"pij c"30"Dの liうu chuざi thぜi gian (Time series): M t d li u chu i th i gian T =

A鵜pj"pij c"40"Chuざi con (Subsequense): Cho m t d li u chu i th i gian T có chi u

dài là n, m t chu i con C trong T có chi u dài m là m t m u c a nh ng giá tr liên t c trích t T, C = tp.È0.vp+ m-1 v i 3"ø""r"ø"p"Î m + 1 [6]

A鵜pj"pij c"50"E¬"uぞ dの liうu chuざi thぜi gian (Time series database): là m t t p không

t (Sliding Window)

Trang 18

A鵜pj"pij c"60"Cぬa sご vt⇔ぢt (Sliding Window): Cho m t d li u chu i th i gian T có

A鵜pj"pij c"70"Khずp (Match): Cho m t s th c R

Hình 2.1: Chu 厩i con C và M sinh ra t瑛 c穎a s鰻 vt逢嬰t và M kh噂r"8逢嬰c v噂i C [5]

khずp c a hai chu i con thì r t rõ ràng và tr c quan, tuy nhiên chúng

A鵜pj"pij c"80"Khずp tZo"vj⇔ぜng (Trivial match): Cho m t d li u chu i th i gian T và

không t n t i m t chu i OÓ nào b u t i v trí sÓ sao cho F*E."OÓ+"@"T và s">"sÓ">"r

ho c r">"sÓ">"s [5] (Hình 2.2)

Trang 19

Hình 2.2: Chu 厩i con C kh噂p t亥o"vj逢運ng v噂i chu厩i con ngay chính v鵜 trí c栄a nó

d 鵜ch sang trái hay sang ph違i m瓜v"x k"8k吋m giá tr鵜 [5]

A鵜pj"pij c"90"K-Motifs: Cho m t d li u chu i th i gian T có chi u dài n, và m t s

v i m i 3"ø""k""ø"K [6] (Hình 2.3B)

n nh n m nh r ng các chu i con trong t p các motif ph i tách

c xem là m t motif (Hình 2.3A)

Hình 2.3: Kho 違ng cách hai motif < 2R (A) ; Kho違ng cách hai motif > 2R (B) [6]

Kh p t m

ng

Trang 20

A鵜pj"pij c":0"BXv"vj⇔ぜng(Anomaly): Cho m t d li u chu i th i gian T có chi u dài n,

g n nh t c a nó là l n nh t Nói cách khác chu i con C là chu i con khác bi t nh t

trong T [21]

2.2 E e"rj逢挨pi"rj r"v pj"8瓜 8q"v逢挨pi"v詠

H u h t các công trình nghiên c u trên d li u chu i th i gian d

Khi p = 1 ta có kho ng cách Manhattan

Khi p = 2 ta có kho ng cách Euclid

Khi r"?"ı" ta có kho ng cách Max

Trang 21

Hình 2.4: A瓜 8q Minkowski gi英a hai chu厩i con [9]

2.2.2 A瓜 8q Dynamic Time Warping (DTW)

Trang 22

m trong chu i này có th ánh x t i nhi m trong chu i kia và nh ng ánh x

Hình 2.5: A瓜 8q Dynamic Time Warping gi英a hai chu厩i con [9]

2.3 E e"rj逢挨pi"rj r"dk吋u di宇n d英 li羽u chu厩i th運i gian

pháp thu gi m s chi u (dimensionality reduction) giúp nâng cao hi u su t truy xu t và

Trang 23

2.3.1 Cáe"rj逢挨pi"rj r"vjw"ik違m s嘘 chi隠u

Thu gi m s chi u là ta bi u di n d li u chu i th i gian n chi u X = (x1,x2.È.zn) thành

Trang 24

tt

gH

0

12

/11

2/10

1)(

ng h p khác

(2.3)

Trang 27

Hình 2.10: Phép bi 院p"8鰻i PLA [19]

⇒w"8kあm:

‚ Tr c quan và t l l i th p trong quá trình xây d ng l i chu i d li u g c

‚ Gi i thu t tìm các chu n th c th c hi n trong th i gian tuy n tính

Pj⇔ぢe"8kあm:

2.3.2 Rj逢挨pi"rj r"t運i r衣c hóa d英 li羽u

truy xu t d li u R i r c hóa là m t quá trình ánh x t n trong d li

d li u chu i th i gian nguyên th y v m t chu i bit ho c chu i ký t

Aggrigate approXimation - SAX) chuy n d li u chu i th i gian v chu i các ký t

Trang 28

Hình 2.11: Phép bi 院p"8鰻i r運i r衣c hóa SAX [19]

2.4 Gi違i thu壱t khai phá motif chính xác

thu t là 1-Motif b ng cách ki m tra tu n t m t chu i con v i t t c các chu i con khác

Trang 29

Hình 2.12: Gi 違i thu壱t Brute-Force tìm 1-Motif trên d英 li羽u chu厩i th運i gian [6]

Nh 壱n xét:

không kh thi

X Tuy nhiên Brute_Force là gi i thu t n n cho nhi u gi i thu t c i ti n v i m t s

ng th c tam giác, tính không âm c a hàm kho ng cách nh m k t thúc s m quá trình tính toán không c n thi t

X Motif tìm th y là motif chính xác

2.5 Gi違i thu壱t khai phá motif x医p x雨

T nh ng h n ch c a các gi i thu t khai phá motif chính xác, nhi u công trình nghiên

Trang 30

c bi t gi i thu t r t hi u qu trong khai phá motif x p x ng c a

Hình 2.13: Ma tr 壱n 傘撫 ch泳a t医t c違 các chu厩i con t瑛 c穎a s鰻 vt逢嬰t [5]

Trang 31

Hình 2.15: Chi 院u trên c瓜t 3 và 4, c壱p nh壱t ma tr壱n vuông |傘撫|× |傘撫| [5]

Nh 壱n xét:

2.6 Gi違i thu壱t khai phá b医v"vj逢運ng

brute-force) c n so sánh m t chu i con v i t t c nh ng chu i con khác trong t p d li u

v i m là s chu i con trong t p d li u

Trang 32

Hình 2.16: Gi 違i thu壱t Brute-Force nh壱n d衣ng chu厩i con b医v"vj逢運ng [21]

xu t gi i thu t HOTSAX (Hình 2.17) c i ti n t gi i thu t Brute-Force b ng cách áp

d ng hai heuristic cho vòng l p ngoài và vòng l p trong v i mong mu n là:

X vòng l p ngoài nh ng chu i con có kh ng th c s cao s

2 best_ so_far_loc = NaN;

3. for i = 1 to length (T) n + 1 //B u vòng l p ngoài

4 nearest_neighbor_dist = infinity;

5. for j = 1 to length (T) n + 1 //B u vòng l p trong

6. if |i - j| 半 n //ki m tra kh p t ng

7. if Dist( t ti+n-1, tj j+n-1) < nearest_neighbor_dist

8 nearest_neighbor_dist = Dist( t ti+n-1, tj j+n-1)

Trang 33

Hình 2.17: Gi 違i thu壱t HOTSAX nh壱n d衣ng chu厩i con b医v"vj逢運ng [21]

hi n th c hai heuristic này gi i thu t HOTSAX c n s h tr c a hai c u trúc

ng v i m t chu i con M i nút lá c a Trie ch a m t danh sách các

bhv"8Zu cてa các chuざi con) S ng các ch m c nút lá s c c p nh c l i

c t ngoài cùng bên ph i c a c u trúc dãy các chu i con

Gi i thu t HOTSAX (T, n, Outer_heuristic, Inner_heuristic)

1 best _so_far_dist = 0;

2 best_ so_far_loc = NaN;

3. foreach i in T ordered by Outer_heuristic //B u vòng l p ngoài

10. if Dist( t ti i+n-1, tj j+n-1) 判 nearest_neighbor_dist

11 nearest_neighbor_dist = Dist( t ti+n-1, tj j+n-1)

Trang 34

Hình 2.18: Hai c 医u trúc d英 li羽u h厩 tr嬰 gi違i thu壱t HOTSAX [21]

i v i vòng l p ngoài gi i thu t s tìm trên c u trúc dãy, các chu i con ng v i s

c vòng l p trong, các chu i còn l i có th ch n theo th t ng u nhiên

Nh 壱n xét:

X Không có khái ni m x p x cho chu i con b ng nên các gi i thu t khai phá

X Gi i thu t HOTSAX c i ti n gi i thu t Brute-Force b i heuristic x p th t các

Trang 35

2.7 Gi違i thu壱t k院t h嬰p khai phá motif và khai phá b医v"vj逢運ng

Hình 2.19: Hai t 壱p d英 li羽u chu厩i th運i gian ucw"mjk"ejkc"8q衣p"mj»pi"8欝pi"8隠u [2]

Trang 36

Hình 2.20: Hai t 壱p d英 li羽u chu厩i th運i gian sau khi kh噂p t瑛ng c映m hai[2]

Nh 壱n xét:

chính xác cao

ng r t hay và hi u qu cho bài toán nh n d ng chu i con b t

ng

NP-Complete

2.8 K院t lu壱n

nh ng k thu t n n t ng trong khai phá d li u chu i th i gian Có r t nhi u công trình

Trang 37

EJ姶愛PI"5<"RJ姶愛PI"RJèR"IK謂I QUY蔭T V遺P"A陰

c th c hi n c a gi i thu

3.1 Thu gi違m s嘘 chi隠u v噂k"rj逢挨pi"rj r PAA

bình c ng c a các giá tr trong chu i C vào khung th i theo công th c (Hình

Trang 38

t tr c

3.2 R運i r衣c hóa d英 li羽u v噂k"rj逢挨pi"rj r SAX

chu n (Gaussian distribution) (Hình 3.2)

Hình 3.2: M 磯u d英 li羽w"8逢嬰c v胤 có tính ch医t tuy院n tính cho th医y d英 li羽u tuân theo

phân b 嘘 Gauss [19]

Gauss

A鵜pj"pij c"; Nhのpi"8kあm nght (Breakpoints): nh m ng t là m t danh sách có

Trang 39

Hình 3.3: B 違ng th嘘pi"m‒"f́pi"8吋 tra nh英pi"8k吋m ng逸t theo phân b嘘 Gauss v噂i s嘘

Trang 40

A鵜pj"pij c"32 Tな (Word): m t chu i con C có chi u dài n có th c bi u di n b ng

3.3 A瓜 8q"v逢挨pi"v詠 MINDIST

tính theo công th c sau:

D(Q, C) = 紐デ (圏件券 伐 潔件)2

th c sau:

D( 芸博, 系違) = 謬拳券 紐デ (圏博件券 伐 潔違件)2

MINDIST( 芸侮, 系實) = 謬拳券 紐デ (穴件嫌建(圏賦件券 , 潔件))2

Ngày đăng: 20/03/2022, 01:20

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm