iii ABSTRACT In time-series data mining, the problem of similarity search in streaming time series is a big challenge for researchers because similarity search methods in static time s
Chu i th i gian d ng lu ng và thách th c x lý chu i th i gian d ng lu ng
Chu i th i gian (time series) là dãy các giá tr ho c s ki n thu đ c b ng cách ghi nh n k t qu t i nh ng đi m cách đ u nhau theo tr c th i gian D li u này có th có nhi u h n hai chi u nh ng ph i có m t chi u là th i gian Ví d nh chu i th i gian th hi n t giá h i đoái USD/VND đ c ghi nh n theo t ng ngày làm vi c, t 02/01/2017 đ n 29/8/2017 đ c th hi n trong Hình 1.1
Hình 1.1 ng bi u di n chu i th i gian th hi n t giá USD/VND (ngu n [1])
D li u chu i th i gian có th có các tính ch t nh sau:
(ii) m i t ng quan cao gi a các đi m giá tr , và
(iii) d li u có th b nhi u
Các tính ch t này khi n cho vi c khai phá d li u chu i th i gian g p nhi u thách th c
Chu i th i gian d ng lu ng (streaming time series) là m t chu i th i gian có các giá tr m i t i đ c ghi nh n m t cách liên t c và đ c n i vào cu i chu i theo trình t th i gian Xét ví d trong Hình 1.1, t giá h i đoái USD/VND đ c ghi nh n vào ngày
30/8/2017 s đ c thêm vào cu i chu i th i gian Nh v y chu i th i gian này có tính ch t là m t lu ng d li u t i liên t c và đ c ghi nh n theo t ng ngày làm vi c
Theo G Li và các c ng s [2], chu i th i gian d ng lu ng có các đ c tr ng:
• Các ph n t d li u t i tr c tuy n
• H th ng không th đi u khi n th t d li u t i
• Kh i l ng d li u nhi u đ n m c có th là vô t n, do v y b nh ch a d li u không th l u tr t t c d li u
• M t khi m t ph n t d li u đ c x lý, ph n t này đ c l u l i trong m t kho ng th i gian xác đ nh trong b nh , r i đ c c t gi t i n i khác ho c b hu b và không th ph c h i
Nh v y đ x lý nhanh d li u chu i th i gian d ng lu ng trong th i gian th c, ph ng pháp x lý ph i có đ ph c t p th i gian (time complexity) th p và c n quét d li u m t l n (one-pass scan) Hai yêu c u này t o ra thách th c to l n cho các ph ng pháp x lý chu i th i gian t nh n u ta mu n làm cho các ph ng pháp này thích nghi v i vi c x lý chu i th i gian d ng lu ng Vì th c n ph i có các k thu t m i hay c i ti n t các k thu t đã có đ đ m b o vi c x lý chu i th i gian d ng lu ng có hi u qu theo hai tiêu chí đánh giá là ch t l ng k t qu tr v và th i gian th c hi n
Qua kh o sát c a chúng tôi, ngày càng có nhi u ng d ng c n ph i x lý d li u chu i th i gian d ng lu ng nh phân tích l u l ng m ng máy tính [3], giám sát v trí các thi t b di đ ng trong th i gian th c [4], theo dõi các tia b t th ng trong thiên v n [5], giám sát giao d ch c phi u trong th tr ng ch ng khoán [6, 7], v.v Do có nhi u ng d ng liên quan đ n vi c x lý chu i th i gian d ng lu ng và s ph c t p, khó kh n c a lo i x lý này cho nên vào n m 2011, Fu [8] cho r ng bài toán x lý d li u chu i th i gian d ng lu ng là m t trong hai h ng nghiên c u ch y u v khai phá d li u chu i th i gian.
M c tiêu, đ i t ng và ph m vi nghiên c u
Các bài toán th ng đ c nghiên c u trong khai phá d li u chu i th i gian là tìm ki m t ng t (similarity search), phát hi n b t th ng (anomaly detection), phát hi n mô típ
(motif detection), d báo (forecast), k t chu i con (subsequence join), rút trích lu t (rule extraction), v.v Trong các bài toán quan tr ng này, gi i pháp cho bài toán tìm ki m t ng t th ng là c s n n t ng cho gi i pháp c a các bài toán khác Thông th ng, tìm ki m d li u trong c s d li u truy n th ng là s so trùng chính xác còn tìm ki m t ng t trên chu i th i gian là s so trùng x p x ; ngh a là kho ng cách gi a hai chu i th i gian đ c tính b ng m t đ đo nào đó và kho ng cách này ph i nh h n m t ng ng kho ng cách (distance threshold) cho tr c thì hai chu i th i gian m i đ c xem là t ng t nhau
Theo s nh n xét c a chúng tôi, cho t i hi n nay các công trình nghiên c u v tìm ki m t ng t trên chu i th i gian d ng lu ng th ng đ a ra các ph ng pháp tìm ki m t ng t có chi phí tính toán cao ho c không chu n hoá d li u cho nên k t qu tr v ch a chính xác Nh m kh c ph c các khuy t đi m k trên, chúng tôi xác đ nh bài toán tìm ki m t ng t trên chu i th i gian d ng lu ng s là đ i t ng đ c nghiên c u trong lu n án này
Lu n án bao g m hai nhi m v nghiên c u và m c tiêu c th c a t ng nhi m v là
Nhi m v 1: Xây d ng các ph ng pháp tìm ki m t ng t trên chu i th i gian d ng lu ng b ng
• đo Euclid (Euclidean measure) có v n d ng các phép bi n đ i thu gi m s chi u và c u trúc ch m c đa m c phân gi i
• đo xo n th i gian đ ng (Dynamic Time Warping measure) hay còn g i là đ đo
DTW và các k thu t t ng t c cho đ đo này
Nhi m v 2: ng d ng các ph ng pháp tìm ki m t ng t trên chu i th i gian d ng lu ng đ gi i quy t các bài toán sau
• D báo tr c tuy n (online forecating) trên chu i th i gian d ng lu ng có xu h ng và tính mùa (trend and seasonal) b ng đ đo DTW
• Phát hi n k chu i con b t th ng nh t (top-k discords detection) trong chu i th i gian d ng lu ng b ng đ đo Euclid
Tìm ki m t ng t trên chu i th i gian d ng lu ng có th chia thành hai lo i là truy v n t nh (static query) và truy v n d ng lu ng (streaming query) Hai lo i truy v n này đ c mô t nh sau:
• Truy v n t nh Trong lãnh v c tài chính nh th tr ng ch ng khoán có nhi u lo i m u (pattern) c phi u đáng quan tâm và có nhi u chu i th i gian bi u di n s bi n đ ng giá tr c phi u c a các công ty trên sàn giao d ch Các chu i th i gian này xem nh là các lu ng d li u Yêu c u đ t ra là tìm các chu i con trong các chu i th i gian này mà đ ng d ng (có hình d ng t ng t ) v i các m u c phi u có s n Truy v n t nh c ng thích h p trong l nh v c giám sát m ng khi có nhi u lu ng d li u t i liên t c và c n đ c so sánh v i các m u c n phát hi n Nh n xét r ng trong khai phá d li u chu i th i gian, m u th ng đ c bi u di n b ng chu i truy v n (query sequence) đã đ c xác đ nh tr c V i tr ng h p này, ch c n ng tìm ki m t ng t cho chu i truy v n t nh trên chu i th i gian d ng lu ng đ c s d ng
• Truy v n d ng lu ng Trong l nh v c môi tr ng nh bi n đ i khí h u, d li u ghi nh n các thông s th i ti t đ c c p nh t liên t c theo t ng m c th i gian và t o ra chu i th i gian d ng lu ng; còn m u c ng thay đ i do yêu c u truy v n thay đ i theo s bi n đ ng môi tr ng Do v y chu i truy v n c ng thay đ i theo d ng lu ng; ngh a là các d li u truy v n có s ti p n i, k th a d li u, và d li u nào c quá s không còn trong chu i truy v n đ nh ng ch cho d li u m i phát sinh Trong tr ng h p này, ch c n ng tìm ki m t ng t cho chu i truy v n d ng lu ng trên chu i th i gian d ng lu ng đ c s d ng
Tu theo ng d ng mà các nghiên c u c a lu n án s d ng ki u truy v n t ng ng
Nh n xét r ng truy v n t nh d nh n ra và ph bi n h n truy v n d ng lu ng Thêm n a, x lý truy v n t nh không ph c t p nh x lý truy v n d ng lu ng, và truy v n d ng lu ng th ng ch xu t hi n trong m t s ng d ng đ c bi t Vì v y, đ i v i nhi m v nghiên c u th nh t v tìm ki m t ng t trên chu i th i gian d ng lu ng, lu n án đ xu t ph m vi nghiên c u là tìm ki m t ng t cho truy v n t nh Còn đ i v i nhi m v nghiên c u th hai, do b n ch t c a các bài toán c n gi i quy t là truy v n d ng lu ng nên lu n án s m r ng gi i pháp tìm ki m t ng t cho truy v n t nh đ thích ng cho truy v n d ng lu ng
Ph ng pháp nghiên c u
Tìm ki m t ng t trên chu i th i gian b ng đ đo Euclid th ng b t đ u b ng tìm ki m trên đ c tr ng (feature) c a d li u chu i th i gian N u k t qu tìm ki m trên đ c tr ng th a mãn thì b c h u ki m s th c hi n trên d li u chu i th i gian V i cách làm này thì đ ph c t p th i gian c a tìm ki m t ng t trên chu i th i gian s gi m đ n m c đáng k do tìm ki m trên đ c tr ng c a d li u chu i th i gian nhanh h n r t nhi u so v i vi c tìm ki m trên d li u chu i th i gian Thông th ng ta có đ c tr ng c a d li u chu i th i gian t m t phép bi n đ i thu gi m s chi u nào đó đ m b o không có l i tìm sót (false dismissals), phép bi n đ i thu gi m s chi u chu i th i gian ph i có tính ch t ch n d i (lower-bounding property) [9] t ng t c tìm ki m t ng t trên chu i th i gian b ng đ đo Euclid, đ c tr ng c a d li u chu i th i gian th ng đ c l u trong m t c u trúc ch m c ph c v cho vi c tìm ki m nhanh Do d li u chu i th i gian có th đ c đ i di n b i nhi u đ c tr ng nên c u trúc ch m c không gian (spatial index structure) hay còn đ c g i là c u trúc ch m c đa chi u (multi-dimensional index structure) th ng đ c s d ng đ ch a các đ c tr ng Trong khai phá d li u chu i th i gian, c u trúc ch m c không gian th ng đ c s d ng là R-tree [10] và các bi n th c a R-tree nh R * -tree [11] và STR (Sort-Tile- Recursive) [12] Thêm n a, c u trúc ch m c không gian nên đ c t ch c theo đa m c phân gi i (multi-resolutions) đ phù h p v i các chu i truy v n (query sequence) có chi u dài khác nhau hay yêu c u th i gian tìm ki m khác nhau Nh n xét r ng m c phân gi i có ch c n ng l c k t qu nên còn đ c g i là m c l c (filtering level) a m c phân gi i có th giúp quá trình tìm ki m đ c ti n hành t m c l c thô (có yêu c u th i gian tìm ki m nhanh) đ n m c l c tinh (ng i dùng ch p nh n th i gian tìm ki m lâu h n đ có k t qu chính xác h n)
Tr c đây, có nhi u công trình nghiên c u [13 - 21] v tìm ki m t ng t trên chu i th i gian b ng đ đo Euclid theo h ng gi i quy t v n đ nh nêu trên Tuy nhiên h u h t các công trình này không th c hi n chu n hóa d li u tr c khi tìm ki m t ng t vì th các tác gi [22 - 25] cho r ng các công trình trên ít có ý ngh a th c ti n Tuy nhiên, thu n l i c a vi c l đi chu n hoá d li u ho c m c đ nh d li u g c đã đ c chu n hóa
6 giúp t ng t c vi c tìm ki m M t ví d là tính toán h s đ c tr ng c a đi m d li u m i có th s d ng l i h s đ c tr ng c a các đi m d li u tr c đó c ng c thêm l p lu n r ng chu n hoá d li u là đi u c n thi t trong tìm ki m t ng t trên chu i th i gian, lu n án xin đ a ra các ví d sau Xét hai chu i th i gian, m t chu i th i gian ghi nh n l ng m a trong khi chu i th i gian kia thu th p đ m Do hai lo i d li u này đ c đo b ng các đ n v khác nhau nên hai chu i th i gian không th so sánh tr c ti p v i nhau M t ví d khác đ c minh ho nh trong Hình 1.2 Hình 1.2 (b) th hi n m t phân đo n chu i th i gian đ c trích xu t ra t m t chu i th i gian bi u di n d li u EEG t trang web [26] Gi s ta mu n tìm ki m t ng t cho chu i truy v n trong Hình 1.2 (a) trên phân đo n chu i th i gian này K t qu tìm ki m là ch có m t chu i con t ng t đ c tìm th y và có hai chu i con t ng t khác b b sót do hai chu i con này khác cao đ (altitude) v i chu i truy v n N u th c hi n chu n hoá d li u tr c khi tìm ki m t ng t , l i tìm sót ít có kh n ng x y ra
Hình 1.2 L i tìm sót x y ra khi không chu n hoá d li u tr c khi tìm ki m t ng t
T nh ng nh n xét trên, trong bài toán tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid, lu n án đ xu t thêm hai yêu c u nh sau:
1 Th c hi n chu n hóa d li u tr c khi tìm ki m t ng t Chu n hóa d li u nên th c hi n theo cách tính toán gia t ng (incremental computation) nh m gi m chi phí tính toán
2 C i ti n c u trúc ch m c không gian đ t i u không gian l u tr và gi m thi u th i gian tìm ki m trong c u trúc ch m c
Tìm ki m t ng t trên chu i th i gian b ng đ đo DTW cho k t qu tìm đ c th ng chính xác h n tìm ki m b ng đ đo Euclid Tuy nhiên b i vì đ đo DTW có chi phí tính toán cao cho nên tìm ki m t ng t trên chu i th i gian b ng đ đo này t n r t nhi u th i gian Do v y, nhi u k thu t t ng t c cho đ đo DTW đã đ c đ xu t nh gi i h n không gian tính toán cho đ đo DTW trong ba công trình [27 - 29] hay s d ng hàm ch n d i (lower-bounding function) trong ba công trình [30 - 32] c bi t, Rakthanmanon và các c ng s [25] đã đ xu t b k thu t UCR-DTW r t hi u qu cho vi c tìm ki m t ng t trên chu i th i gian t nh b ng đ đo DTW Hai u đi m n i b t c a b k thu t này là có th c hi n chu n hóa d li u gia t ng tr c khi tìm ki m t ng t và k t h p nhi u k thu t t ng t c trong tính toán kho ng cách DTW Tuy nhiên UCR-DTW ch có th tính kho ng cách DTW gi a hai chu i th i gian có chi u dài b ng nhau, vì v y đi u này s làm gi m đi th m nh c a DTW là đ đo này có th th c hi n trên hai chu i th i gian có chi u dài khác nhau T nh n xét trên, lu n án s t p trung vào vi c c i ti n UCR-DTW đ thích ng v i vi c tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW Hai c i ti n đáng k cho UCR-DTW là
1 C p nh t hình bao (envelope) c a chu i con c a chu i th i gian d ng lu ng theo cách th c tính toán gia t ng nh m gi m chi phí tính toán Hình bao này đ c s d ng trong m t hàm ch n d i cho đ đo DTW
2 Thay đ i m t hàm ch n d i cho đ đo DTW đ UCR-DTW có th tính kho ng cách DTW gi a hai chu i th i gian có chi u dài khác nhau
Ngoài ra còn có m t ph ng pháp tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW r t n i ti ng là ph ng pháp SPRING c a Sakurai và các c ng s [33]
Ph ng pháp này có th i gian th c hi n r t nhanh nh ng ph ng pháp ch làm vi c trên d li u (chu i th i gian d ng lu ng) không có chu n hóa Do v y lu n án s c i ti n SPRING đ ph ng pháp này th c hi n vi c tìm ki m t ng t trên d li u chu n hóa
D a vào các gi i pháp đã đ xu t đ tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid và đ đo DTW, lu n án đ a ra gi i pháp cho hai bài toán ng d ng sau:
1 D báo tr c tuy n trên chu i th i gian d ng lu ng có xu h ng và tính mùa b ng đ đo DTW Chu i th i gian có tính mùa có các y u t mùa tác đ ng lên chu i th i
8 gian đ t o ra các pha bi n đ i t ng t Do v y, t các pha bi n đ i t ng t trong quá kh , các đi m d li u theo sau pha bi n đ i hi n t i có th đ c suy ra Các pha bi n đ i trong chu i th i gian có tính mùa có th đ c nh n di n b ng các đi m c c tr trong chu i th i gian Các pha bi n đ i t ng t v i pha đang bi n đ i hi n t i có th đ c tìm ra b ng vi c tìm ki m k lân c n g n nh t (k nearest neighbours) trên chu i th i gian d ng lu ng b ng đ đo DTW B i vì tìm ki m k lân c n g n nh t đ c s d ng cho nên gi i pháp cho bài toán này thích h p v i ph ng pháp h c trì hoãn (lazy learning) [34] K t qu d báo s đ c so sánh v i d li u th c t đ ki m tra đ chính xác c a ph ng pháp đ xu t
2 Phát hi n k chu i con b t th ng nh t trong chu i th i gian d ng lu ng b ng đ đo Euclid Chu i con b t th ng nh t là chu i con khác bi t nhi u nh t v i các chu i con còn l i gi i quy t bài toán này trong môi tr ng lu ng thì c n dùng m t hàm ch n d i trên m t phép bi n đ i thu gi m s chi u chu i th i gian nh bi n đ i DFT [13], bi n đ i Haar wavelet [15], ho c bi n đ i PAA [35], và m t b k thu t tính kho ng cách Euclid hi u qu nh UCR-ED c a Rakthanmanon và các c ng s
[25] Hàm ch n d i và b k thu t UCR-ED c n ph i c i ti n đ có th làm vi c trong môi tr ng lu ng Nh m đánh giá hi u qu c a ph ng pháp đ xu t, k t qu tìm đ c c a ph ng pháp s đ c so sánh v i k t qu c a gi i thu t HOT SAX [36] (m t ph ng pháp tìm ki m b t th ng trong chu i th i gian t nh) và gi i thu t SHOT SAX L u ý r ng SHOT SAX là gi i thu t HOT SAX đã đ c c i biên đ làm vi c trên môi tr ng lu ng
Nh n xét r ng các ph ng pháp gi i quy t hai bài toán ng d ng trên có s d ng tìm ki m t ng t cho chu i truy v n trên chu i th i gian d ng lu ng i m đ c bi t c a hai bài toán này là chu i truy v n c ng thay đ i m i khi có m t đi m d li u m i t i c a chu i th i gian d ng lu ng Do v y các ph ng pháp đ xu t ph i có cách x lý đ c bi t cho truy v n d ng lu ng
V c u trúc d li u đ l u tr d li u chu i th i gian, do chu i th i gian d ng lu ng có xu h ng làm bùng n kích th c l u tr d li u khi th i gian trôi qua, m t b đ m có qui mô l n (large-scaled buffer) nên đ c s d ng đ l u tr d li u và ho t đ ng tìm ki m t ng t trên chu i th i gian d ng lu ng s di n ra trên b đ m này B đ m l u
Tóm t t k t qu đ t đ c
Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid
• Lu n án trình bày m t mô hình h th ng tìm ki m t ng t trên các chu i th i gian d ng lu ng b ng đ đo Euclid và sau đó đ xu t m t ph ng pháp tìm ki m vùng
(range search) đ hi n th c mô hình h th ng H th ng tìm ki m t ng t s d ng
10 k thu t đa lu ng (multi-threading) đ th c hi n đ ng th i vi c tìm ki m t ng t trên nhi u chu i th i gian d ng lu ng Vi c tìm ki m t ng t đ c h tr b i c u trúc ch m c đa m c phân gi i đ c xây d ng t m t m ng R * -tree Ngoài ra, ph ng pháp đ xu t s d ng m t phép bi n đ i thu gi m s chi u chu i th i gian nh bi n đ i DFT, bi n đ i Haar walet, ho c bi n đ i PAA Th c nghi m ch ng t r ng ph ng pháp đ xu t cho k t qu chính xác gi ng nh k t qu tr v c a SUCR-ED
L u ý r ng SUCR-ED là c i ti n c a b k thu t UCR-ED đ có th tìm ki m t ng t trên chu i th i gian d ng lu ng Thêm n a, ph ng pháp đ xu t có th i gian th c hi n nhanh h n nhi u so v i SUCR-ED Ph ng pháp đ xu t đã đ c công b trong hai công trình nghiên c u [CT9] và [CT5]
• Chu n hóa z-score gia t ng (incremental z-score normalization) đ c trình bày trong bài báo [CT9] đ gi m chi phí tính toán do công vi c chu n hóa trong môi tr ng lu ng K thu t chu n hóa này c ng đ c s d ng trong h u h t các ph ng pháp đ xu t khác c a lu n án
• tìm ki m t ng t thích ng v i c u trúc ch m c đa m c phân gi i, chu i truy v n có th đ c phân đo n không ch ng l p ho c đ c phân đo n ch ng l p K thu t phân đo n chu i th i gian không ch ng l p đ c công b trong bài báo [CT9] và k thu t phân đo n chu i th i gian ch ng l p đ c công b trong bài báo [CT5]
• Lu n án đ xu t ph ng pháp tìm ki m k lân c n g n nh t trên các chu i th i gian d ng lu ng Ph ng pháp đ xu t d a trên ph ng pháp tìm ki m vùng trong bài báo [CT9] và có thêm các tính ch t khác đ ph c v tìm ki m k lân c n g n nh t Ví d nh th t c truy v n vùng trong R-tree đ c thay đ i đ có th đ ng th i truy v n vùng v i nhi u ng ng kho ng cách Ngoài ra, ph ng pháp tìm ki m k lân c n g n nh t còn ph i gi i quy t tình hu ng xung đ t khi các ti n trình lu ng (threading process) cùng c p nh t đ ng th i t p h p k lân c n g n nh t c a m t chu i truy v n
K t qu th c nghi m đã ch ng t r ng ph ng pháp đ xu t cho k t qu chính xác và th i gian ph n h i k t qu nhanh Ph ng pháp này đã đ c công b trong công trình nghiên c u [CT8]
• Lu n án c i ti n k thu t STR đ t i u c u trúc d li u R-tree nh m t ng t c cho vi c tìm ki m t ng t trên chu i th i gian K thu t STR đ c c i ti n b ng m t
11 trong hai chi n l c k t n i các đi m đ c tr ng c a chu i th i gian trong các nút c a R-tree Hai chi n l c này làm th i gian tìm ki m trong R-tree nhanh h n các k thu t t o R-tree khác nh Quadratic R-tree [10], R * -tree, và k thu t STR Tìm ki m trong R-tree nhanh h n thì d n đ n th i gian ph n h i k t qu c a tìm ki m t ng t trên chu i th i gian c ng nhanh h n Hai chi n l c c i ti n k thu t STR đã đ c công b trong công trình nghiên c u [CT7].
Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW
• Lu n án trình bày m t mô hình h th ng tìm ki m t ng t trên các chu i th i gian d ng lu ng b ng đ đo DTW và sau đó đ xu t m t ph ng pháp đ hi n th c mô hình h th ng Ph ng pháp đ xu t là s c i ti n t b k thu t UCR-DTW nh m thích ng v i môi tr ng lu ng Hai c i ti n đáng k c a ph ng pháp là s d ng k thu t đa lu ng và c p nh t hình bao c a chu i con c a chu i th i gian d ng lu ng theo cách th c tính toán gia t ng đ gi m chi phí tính toán ánh giá qua th c nghi m đã ch ng t r ng ph ng pháp đ xu t có th i gian ph n h i nhanh và tr v k t qu chính xác nh b k thu t UCR-DTW Tuy nhiên c ng gi ng nh UCR-DTW, ph ng pháp đ xu t ch có th tính kho ng cách DTW trên hai chu i th i gian có chi u dài b ng nhau Ph ng pháp đ xu t đã đ c công b trong công trình nghiên c u [CT6]
• Ph ng pháp SPRING đ c c i ti n đ có chu n hóa d li u tr c khi tìm ki m t ng t trên chu i th i gian d ng lu ng SPRING đ c c i ti n s d ng chu n hóa min- max gia t ng (incremental min-max normalization) tr c khi tính toán kho ng cách
DTW gi a hai chu i th i gian có chi u dài có th khác nhau K t qu tìm ki m t ng t c a SPRING đ c c i ti n t t h n k t qu c a ph ng pháp đ c gi i thi u trong bài báo [CT6] b i vì SPRING đ c c i ti n có th tìm ra các c p chu i th i gian t ng t có chi u dài khác nhau Tuy nhiên SPRING đ c c i ti n có th i gian ph n h i k t qu lâu h n do ph i t n nhi u th i gian đ tính l i kho ng cách DTW m i khi h s min-max thay đ i Ph ng pháp SPRING c i ti n đã đ c công b trong công trình nghiên c u [CT3]
• Lu n án ti p t c phát tri n ph ng pháp đ c gi i thi u trong bài báo [CT6] đ có th tính kho ng cách DTW trên hai chu i th i gian có chi u dài khác nhau th c
12 hi n đi u này thì hàm ch n d i cho đ đo DTW là LB_ Keogh [32] đ c đi u ch nh đ làm vi c trên hai chu i th i gian có chi u dài chênh l ch trong đ r ng c a d i Sakoe- Chiba [28] Nh v y, ph ng pháp đ xu t th c hi n vi c tìm ki m t ng t trên các chu i th i gian d ng lu ng b ng đ đo DTW và k t qu tr v là các c p chu i t ng t mà chi u dài có th khác nhau Ph ng pháp đ xu t đã đ c công b trong công trình nghiên c u [CT4]
T nhi m v nghiên c u th hai, lu n án đã đ xu t gi i pháp cho t ng bài toán ng d ng nh sau.
D báo tr c tuy n trên chu i th i gian d ng lu ng
Lu n án đ xu t ph ng pháp d báo tr c tuy n trên chu i th i gian d ng lu ng có xu h ng và tính mùa d a trên tìm ki m k lân c n g n nh t b ng đ đo DTW Tr c khi th c hi n tìm ki m k lân c n g n nh t, các chu i con bi u di n pha bi n đ i t ng t v i nhau có th đ c rút trích b ng m t k thu t phân đo n chu i th i gian d a vào các đi m c c tr quan tr ng trong chu i th i gian d ng lu ng Sau đó k chu i con x y ra trong quá kh mà t ng t v i chu i con bi u di n pha đang bi n đ i hi n t i có th đ c tìm ra b ng ph ng pháp tìm ki m t ng t cho hai chu i th i gian có chi u dài b ng nhau trên chu i th i gian d ng lu ng b ng đ đo DTW Ph ng pháp d báo tr c tuy n có th đ c lai v i ph ng pháp làm tr n hàm m đ n gi n (Simple Exponential
Smoothing) đ k t qu d báo có th chính xác h n K t qu th c nghi m c a ph ng pháp đ xu t trên các b d li u th i gian th c t đã ch ng t r ng ph ng pháp cho k t qu d báo r t gi ng v i các quan sát đã x y ra và th i gian th c hi n c a ph ng pháp là không đáng k Ph ng pháp đ xu t đã đ c công b trong công trình nghiên c u [CT2].
Phát hi n k chu i con b t th ng nh t trong chu i th i gian d ng lu ng
Lu n án đ xu t ph ng pháp phát hi n k chu i con b t th ng nh t trong chu i th i gian d ng lu ng b ng đ đo Euclid Ph ng pháp đ xu t s d ng l n l t m t ng ng ch n d i, m t hàm ch n d i s d ng m t phép bi n đ i thu gi m s chi u chu i th i gian, và b k thu t UCR-ED đ lo i b s m chu i con nào không b t th ng Hàm ch n d i và UCR-ED đ c đi u ch nh đ thích ng v i môi tr ng lu ng Th c nghi m
13 trên các chu i th i gian khác nhau đã ch ng t r ng ph ng pháp đ xu t cho k t qu g n gi ng nh gi i thu t HOT SAX và có th i gian ph n h i k t qu nhanh h n SHOT SAX Thêm n a, ph ng pháp đ xu t khi th c hi n trên các chu i th i gian d ng lu ng có tính ch t chu k thì có th tr v k chu i con b t th ng nh t nh mong mu n trong khi mà HOT SAX không th phát hi n ra các chu i con b t th ng đó Ph ng pháp đ xu t đ c công b trong công trình nghiên c u [CT1].
C u trúc c a lu n án
Ph n còn l i c a lu n án đ c trình bày trong sáu ch ng Ch ng 2 trình bày c s lý thuy t n n t ng cho các đ xu t c a lu n án Ch ng 3 trình bày ba đ xu t v tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid Ch ng 4 trình bày ba đ xu t v tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW Ch ng 5 trình bày m t đ xu t v d báo tr c tuy n trên chu i th i gian d ng lu ng Ch ng 6 trình bày m t đ xu t v phát hi n k chu i con b t th ng nh t trong chu i th i gian d ng lu ng Ch ng 7 k t lu n v các ph ng pháp đ xu t, đóng góp c a lu n án, và nêu m t s h n ch c a lu n án cùng v i h ng nghiên c u trong t ng lai
M t vài ph ng pháp và gi i thu t ph c t p liên quan đ n các nghiên c u c a lu n án s đ c trình bày trong Ph l c A u tiên là hai ph ng pháp s d ng c u trúc ch m c đa m c phân gi i h tr vi c tìm ki m t ng t trên chu i th i gian, và sau đó là gi i thu t UCR-DTW
CH NG 2 C S LÝ THUY T N N T NG
Ch ng này gi i thi u t ng quan v các đ đo t ng t , cách chu n hóa d li u, đ nh ngh a các nhi m v tìm ki m t ng t trên chu i th i gian, các k thu t t ng t c trong vi c tính toán đ đo t ng t , các phép bi n đ i thu gi m s chi u chu i th i gian, và c u trúc ch m c R-tree Các ki n th c này s là c s lý thuy t n n t ng cho các ph ng pháp đ xu t c a lu n án.
đo t ng t
đo Euclid
đo Euclid đ c th c hi n trên hai véc t A và B có s ph n t b ng nhau, ngh a là m
= n đo này tính kho ng cách c a t ng c p đi m c a A và B mà t ng ng v i nhau theo tr c th i gian
Công th c tính đ đo Euclid:
経(畦,稽) =彪布(欠沈貸決沈) 態
Nh n xét r ng đ đo này d tính toán và có đ ph c t p th i gian là O(n) Ngoài ba tính ch t c a đ đo t ng t đã nêu trên, đ đo Euclid còn th a b t đ ng th c tam giác là
D(A, B) < D(A, C) + D(C, B) Vì v y đ đo Euclid là đ đo trong không gian metric 1
Do v y đ đo này có th thích ng d dàng v i k thu t l p ch m c Ngoài ra đ đo Euclid còn phù h p v i các phép bi n đ i thu gi m s chi u nh bi n đ i DFT, bi n đ i DWT, và bi n đ i PAA N u kho ng cách c a m i c p đi m trong công th c (2.1) có m t tr ng s thì đ c g i là kho ng cách Euclid có tr ng s (weighted Euclidean distance).
Hình 2.1 (a) A không t ng t v i B b ng đ đo Euclid (b) A t ng t v i B b ng đ đo DTW (ngu n [42])
1 Không gian metric là m t t p h p mà kho ng cách gi a các ph n t c a t p h p đã đ c xác đ nh Trong không gian metric, s lân c n c a đ i t ng ch đ c xác đ nh b i m t hàm kho ng cách th a mãn tính ch t d ng, đ i x ng và b t đ ng th c tam giác
Nh c đi m c a đ đo Euclid là ch làm vi c trên hai véc t có s chi u b ng nhau và nh y c m v i nhi u Hình 2.1 (a) minh h a tr ng h p A và B có hình dáng t ng t nh ng do nhi u nên chúng l ch pha v i nhau v tr c th i gian Vi c so kh p t ng c p đi m d li u c a A và B theo tr c th i gian có k t qu là kho ng cách Euclid gi a hai véc t là r t l n và hai đ i t ng này không t ng t
đo DTW
đo xo n th i gian đ ng (Dynamic Time Warping (DTW)) có ngu n g c t yêu c u nh n d ng ti ng nói Ti ng nói r t nh y c m v i các y u t nh t c đ nói, nhi u, v.v
Vì th có tr ng h p là hai m u ti ng nói trong th c t t ng t v i nhau nh ng hai m u l i l ch pha v tr c th i gian (ví d Hình 2.1 (b)) do các y u t k trên Vi c s d ng đ đo Euclid đ so trùng hai m u ti ng nói này thì không th phát hi n s t ng t
Vào n m 1971, Sakoe [43] gi i thi u ph ng pháp quy ho ch đ ng (dynamic programming) t i u d a trên k thu t chu n hoá th i gian (time-normalization) đ nh n d ng ti ng nói K thu t chu n hoá th i gian giúp lo i tr s khác bi t v th i gian gi a hai m u ti ng nói b ng cách xo n (warping) tr c th i gian c a m t m u đ có s trùng kh p nhi u nh t v i m u còn l i K ti p, kho ng cách sau khi chu n hoá th i gian c a hai m u đ c tính và xem nh là kho ng cách còn l i đã đ c t i thi u X lý t i thi u kho ng cách nh th đ c ti n hành r t hi u qu b ng quy ho ch đ ng
Vào n m 1994, Berndt và Clifford [38] s d ng đ đo DTW đ tính kho ng cách cho các chu i th i gian, và k t đó đ đo này th ng đ c s d ng trong các công tác khai phá d li u chu i th i gian
Khác v i đ đo Euclid là thay vì so trùng hai đ ng bi u di n d li u c a A và B b ng cách tính kho ng cách t ng c p đi m m t – m t (đi m th i c a A so v i đi m th i c a
B) thì trong đ đo DTW, m t đi m c a A có th ánh x v i nhi u đi m c a B và ánh x này không th ng hàng M c đích c a ánh x c p đi m trong đ đo DTW là tìm kho ng cách nh nh t (t i u) gi a A và B Hình 2.1 (b) th hi n r ng m c dù A và B l ch pha v i nhau v tr c th i gian nh ng v i kh n ng ánh x c p đi m không th ng hàng trong đ đo DTW thì kho ng cách gi a A và B là nh và hai đ ng bi u di n d li u này t ng
17 t v i nhau Thêm n a, v i cách ánh x c p đi m t i u thì đ đo DTW có th th c hi n trên hai chu i th i gian có chi u dài khác nhau
Có m t đi m đánh l u ý là đ đo DTW không tho b t đ ng th c tam giác nh đ đo Euclid, vì v y đ đo DTW không ph i là đ đo có tính ch t metric H qu là đ đo DTW khó có th thích ng v i k thu t l p ch m c
Chi ti t v cách tính đ đo DTW nh sau Cho hai chu i th i gian C = {c 1, c 2,…, c m } và
Q = {q 1, q 2,…, q n }, kho ng cách DTW gi a C và Q đ c tính b ng quy ho ch đ ng nh sau
経劇激(系,芸) = 紐血(兼,券)
血(件,倹) = 穴盤潔沈,圏珍匪+兼件券 崔血(件,倹 伐1)
血(件 伐1,倹 伐1) v i f(0, 0) = 0, f(i, 0) = f(0, j) = ∞ và d(c i , q j ) = (c i - q j ) 2
Ta có th s d ng d(c i , q j ) = |c i - q j | trong công th c (2.2) Trong tr ng h p này thì DTW(C, Q) = f(m, n)
Hình 2.2 (a) Ghép đôi các đi m d li u c a C và Q b ng đ đo DTW (b) ng xo n P bi u di n ánh x c p đi m t i u c a hai chu i th i gian
Hình 2.2 (a) minh ho s ghép đôi các đi m c a C và Q m t cách t i u theo công th c (2.2) Nh n xét r ng có vài đi m nh c 2, q 9 đ c ghép v i nhi u đi m khác Các c p ghép đôi này là (c 2, q 2), (c 2, q 3), (c 2, q 4), (c 2, q 5 ), (c 6 , q 9), (c 7, q 9),…
V m t tr c quan, đ tìm m t phép ánh x các c p đi m sao cho t i u, m t ma tr n chi phí tích l y (accumulated cost matrix) kích th c m × n đ c xây d ng Trong ma tr n này, m t ph n t (i, j) th hi n s ghép đôi c a hai đi m c i và q j Hình 2.2 (b) minh ho m t ma tr n chi phí tích l y và đ ng xo n (warping path) P đ c t o t các ô màu đen p k = (i, j) k Nh n xét r ng có nhi u cách ghép đôi hai đi m c a C và Q vì v y có nhi u đ ng xo n trong ma tr n chi phí tích l y ng xo n P = {p 1 , p 2 ,…, p K }v i K là s l n ghép đôi và max(m, n) ≤ K ≤ m + n – 1 sao cho t ng chi phí f(m, n) là t i thi u Nh v y kho ng cách DTW gi a C và Q là phép tính c ng d n chi phí d c theo đ ng xo n
経劇激(系,芸) =彪布 穴(喧賃)
Theo công th c (2.2), giá tr c a ô (m, n) là t ng tích lu chi phí d c theo P t ô (1, 1) t i ô (m, n) c a ma tr n Giá tr góc trên bên ph i c a ma tr n là f(m, n) đ c s d ng đ tính kho ng cách DTW gi a C và Q Nh n xét r ng đ đo Euclid là m t tr ng h p đ c bi t c a đ đo DTW khi m = n và đ ng xo n P là đ ng chéo chính c a ma tr n chi phí tích l y
T đó ta có th nh n th y u đi m và các nh c đi m c a đ đo DTW:
• u đi m: Cho phép nh n d ng nh ng chu i th i gian có hình d ng gi ng nhau nh ng có th l ch pha nhau v th i gian và chi u dài các chu i th i gian có th khác nhau
Vì v y đ đo DTW r t thích h p đ so trùng các chu i th i gian bi u di n d li u đa ph ng ti n (multimedia) nh âm thanh và hình nh
• Nh c đi m: o Có đ ph c t p th i gian và không gian cao, O(mn), vì v y chi phí tính toán kho ng cách DTW l n
19 o Không th a tính ch t b t đ ng th c tam giác, vì v y r t khó đ s d ng k thu t l p ch m c v i đ đo DTW đo DTW đ c ng d ng nhi u trong th c t nh ng do đ đo này có đ ph c t p th i gian cao nên đã có nhi u công trình nghiên c u đ a ra các gi i pháp t ng t c tính toán kho ng cách DTW (xem m c 2.6).
Chu n hoá d li u
Chu n hoá d li u là công vi c x lý d li u sao cho d li u chuy n đ i t i cùng m t t l (scale) đ cho phép d li u chu n hoá đ c so sánh v i nhau Ví d , gi s ta mu n so sánh nhi t đ trung bình c a hai thành ph vào tháng 9 M t thành ph có nhi t đ đo b ng Celsius, thành ph kia có nhi t đ đo b ng Fahrenheit Vi c so sánh này ch có th đ c th c hi n n u các d li u đ c chu n hoá v cùng m t đ n v nhi t đ
Cho chu i th i gian X = {x 1, x 2,…, x n }, có hai cách chu n hoá thông d ng cho X:
捲norm = 捲 伐 捲min
捲max 伐 捲min v i x min và x max là giá tr nh nh t và l n nh t c a chu i th i gian X Hai giá tr x min và x max là các h s min-max Nh v y, chu n hoá min-max chuy n giá tr x thành x norm trong mi n giá tr [0, 1]
捲norm =捲 伐 航
購 v i 航 là giá tr trung bình, và 購 là đ l ch chu n đ c tính b ng công th c:
券 布 捲 沈 態
航 và 購 đ c g i là các h s z-score
Han và các c ng s [44] đã nh n xét r ng chu n hoá z-score h u d ng khi khám phá các đi m b t th ng (outlier), ngh a là các đi m có giá tr quá cao hay quá th p, không đ i di n cho d li u (có th do l i khi l y m u)
Nh ta có th th y trong Hình 2.3, c hai phép chu n hoá đ u gìn gi hình d ng c a chu i d li u th i gian g c, nh ng chu n hoá z-score t o hình d ng chu i chu n hoá gi ng chu i d li u ban đ u h n Vì v y chu n hóa z-score đ c s d ng nhi u h n chu n hóa min-max trong khai phá d li u chu i th i gian Tuy nhiên, g n đây c ng có nhi u ng d ng khai phá d li u chu i th i gian (ví d [45, 46]) s d ng chu n hóa min- max b i vì hai lý do sau đây
• Chu n hoá z-score không đ m b o r ng các chu i chu n hóa có biên đ dao đ ng n m trong m t mi n tr đã xác đ nh tr c Ch ng h n, trong quá trình x lý hình nh, c ng đ đi m nh ph i đ c chu n hóa đ n m trong ph m vi t 0 đ n 255 đ i v i d i màu RGB, ho c m t thu t toán đi n hình c a m ng n ron đòi h i d li u trong mi n giá tr [0, 1] Do đó chu n hóa min-max đ c s d ng đ có các giá tr chu n hóa trong mi n giá tr cho tr c nh trong các tr ng h p đã nêu
• Chu n hóa min-max có chi phí tính toán th p h n chu n hóa z-score b i vì chi phí đ tìm h s min-max th p h n chi phí tính toán h s z-score Sau khi duy t qua t t c ph n t c a chu i th i gian thì h s min-max đ c xác đ nh Còn đ i v i chu n hóa z-score ta c n ph i làm thêm hai phép tính n a, đó là tính giá tr trung bình và r i tính đ l ch chu n theo công th c (2.6)
Hình 2.3 Hai ki u chu n hoá th ng đ c dùng trong khai phá d li u chu i th i gian
nh ngh a tìm ki m t ng t trên chu i th i gian
Theo Agrawal và các c ng s [13], các nhi m v thông th ng c a tìm ki m t ng t trên chu i th i gian t nh: nh ngh a 2.1: So trùng toàn b chu i (Whole matching) Cho tr c các chu i th i gian và chu i truy v n, và các chu i này có chi u dài b ng nhau So trùng toàn b chu i là tìm các chu i th i gian mà t ng t v i chu i truy v n nh ngh a 2.2: So trùng chu i con (Subsequence matching) Cho tr c chu i th i gian và chu i truy v n, và chu i th i gian có chi u dài l n h n chi u dài chu i truy v n So trùng chu i con là tìm các chu i con c a chu i th i gian mà t ng t v i chu i truy v n.
nh ngh a tìm ki m t ng t trên chu i th i gian d ng lu ng
Cho X là m t chu i th i gian d ng lu ng đ c th hi n b ng m t dãy các s th c x 1, x 2,…, x n … v i x n là giá tr đ c ghi nh n t i m c th i gian (time tick) m i nh t là n
Nh v y X là chu i th i gian đ n bi n đang ti n tri n v i s gia t ng c a n sau m i m c th i gian t X[x s : x e ] là chu i con b t đ u t i m c th i gian s và k t thúc t i m c th i gian e, và NX[nx s : nx e ] là chu i chu n hóa c a X[x s : x e ] t Y[y 1 : y m ] là chu i truy v n, hay còn g i là m u, có chi u dài là m, và NY[ny 1 : ny m ] là chu i chu n hóa c a Y
Ba nhi m v thông th ng c a tìm ki m t ng t cho Y trên chu i th i gian X d ng lu ng: nh ngh a 2.3: Tìm ki m chu i con t t nh t cho đ n hi n t i (Best-so-far search) Tìm m t chu i con X[x s : x e ] mà có kho ng cách D(NX, NY) là nh nh t i u này có ngh a r ng chu i chu n hóa NX g n nh t chu i chu n hóa NY Kho ng cách nh nh t là giá tr t t nh t đ c ghi nh n và X[x s : x e ] là chu i con t ng t nh t v i Y Kho ng cách nh nh t này còn đ c g i là giá tr bsf c a Y nh ngh a 2.4: Tìm ki m k lân c n g n nh t (k nearest neighbough search) Tìm m t t p h p k lân c n g n nh t ch a k chu i con X[x s : x e ] mà có chu i chu n hóa NX c a nó t ng t v i NY Các chu i con này ph i th a tính ch t sau G i k-NN là t p h p k lân
22 c n g n nh t ch a k chu i con này N u có m t chu i con 戟 鞄 倦-軽軽 thì 褐撃 樺 倦-軽軽 ta có D(NV, NY) ≤ D(NU, NY)
Nh n xét r ng n u k = 1, tìm ki m k lân c n g n nh t tr thành tìm ki m chu i con t t nh t cho đ n hi n t i nh ngh a 2.5: Tìm ki m vùng (Range search) Cho tr c m t ng ng kho ng cách , tìm b t k chu i con X[x s : x e ] nào mà chu i chu n hóa NX c a nó th a D(NX, NY) ≤
Nh n xét r ng c ng là bán kính truy v n vùng (range radius) c a Y Các chu i con t ng t tìm th y có th ch ng l p (overlap) lên nhau, vì th tìm ki m vùng đ c s a đ i thành truy v n tách r i (disjoint query) i u này có ngh a r ng v i t t c các chu i con t ng t đ c tìm th y mà ch ng l p lên nhau, truy v n tách r i ch gi l i chu i con nào mà có giá tr D(NX, NY) nh nh t.
T ng t c trong tính toán đ đo t ng t
S d ng bình ph ng kho ng cách
đo Euclid s d ng phép tính c n b c hai; tuy nhiên, n u b qua phép tính này, th h ng t ng đ i c a các chu i con t ng t v i chu i truy v n không thay đ i vì hàm tính kho ng cách Euclid có tính đ n đi u và lõm (monotonic and concave) Vi c không tính c n b c hai làm cho vi c tính toán kho ng cách Euclid nhanh h n.
T b s m trong khi tính kho ng cách Euclid
Trong quá trình tính toán kho ng cách Euclid, n u t ng các bình ph ng kho ng cách chênh l ch gi a m t s c p đi m d li u c a hai chu i th i gian v t quá ng ng kho ng cách thì vi c tính toán s d ng l i b i vì ng ng này đ c s d ng đ xác đ nh hai chu i th i gian có g n nhau (t ng t ) không Ý t ng t b s m (early abandoning) c ng đ c s d ng trong tính toán kho ng cách DTW (xem m c 2.6.3)
S p x p l i th t t b s m
Thông th ng, vi c tính toán kho ng cách c a hai chu i th i gian đ c th c hi n theo th t t trái sang ph i và t b s m trong khi tính toán kho ng cách c ng theo th t này Tuy nhiên, có m t th t khác đ vi c t b s m x y ra s m h n; đó là th t theo biên đ gi m d n c a các đi m d li u c a chu i th i gian.
Hàm ch n d i
G i D là hàm tính kho ng cách gi a hai chu i th i gian và F là hàm thu gi m s chi u ho c rút trích đ t tr ng c a m t chu i th i gian (xem m c 2.7) Cho tr c chu i th i gian C và chu i truy v n Q, ta c n xác đ nh C là chu i ng viên có th t ng t v i Q hay không b ng cách s d ng hàm ch n d i d F Hàm d F có tính ch t ch n d i n u tho đi u ki n:
Th ng thì hàm ch n d i d F có đ ph c t p th i gian và không gian th p h n nhi u so v i hàm tính kho ng cách D, do v y s d ng d F có th phát hi n s m các chu i th i gian không th t ng t v i chu i truy v n v i chi phí tính toán th p L u ý r ng n u C là chu i con c a m t chu i th i gian và b t đ ng th c (2.7) th a thì C đ c g i là chu i con ng viên
Hi u qu c a hàm d F đ c đánh giá theo kh n ng c t t a (pruning power) Ngh a r ng n u d F có kh n ng c t t a cao thì m t s l ng l n các chu i ng viên mà không th t ng t v i Q s b d F phát hi n s m và r i sau đó các chu i này b lo i ra kh i t p k t qu ch a các chu i t ng t G i g là s chu i ng viên b lo i b s m b i d F , và G là t ng s chu i ng viên, kh n ng c t t a c a d F đ c đ nh ngh a là
Ki u x p t ng
Khi có nhi u k thu t lo i b vi c tính toán kho ng cách không c n thi t, các k thu t này nên đ c s p x p theo ki u x p t ng (cascading fashion); ngh a r ng k thu t có đ ph c t p th i gian th p nh t đ c th c hi n đ u tiên N u k thu t này không th phát hi n các ng viên có th lo i b thì b c ti p theo k thu t nào có đ ph c t p th i d F (F(C), F(Q)) ≤ D(C, Q) (2.7)
24 gian th p nh t k ti p s đ c s d ng V i cách làm nh th thì nh ng k thu t k ti p đ c s d ng theo th t đ ph c t p th i gian gia t ng Vì v y các ng viên có th lo i b s b lo i ra m t m c l c s m nh t v i m t chi phí tính toán ít nh t.
Các k thu t t ng t c chuyên bi t cho đ đo DTW
Gi i h n s ghép đôi các đi m
K thu t này nh m h n ch s l ng các ô đ c đánh giá trong ma tr n chi phí tích l y
Có hai ph ng pháp tiêu bi u cho k thu t này là hình bình hành Itakura [27] và d i Sakoe-Chiba [28] Các tác gi c a hai ph ng pháp đã s a đ i thu t toán DTW chân ph ng nh m phù h p v i ng d ng nh n d ng ti ng nói; đó là m t đi m d li u trong m t chu i th i gian ch có th ghép đôi v i vài đi m lân c n v i nó (theo tr c th i gian) trong chu i kia ch không th ghép c p v i các đi m quá xa Ví d trong Hình 2.4 (a), m t đi m d li u c a C đ c ghép c p v i nhi u nh t 2 × w + 1 = 7 đi m lân c n c a
Q Vì v y đ ng xo n P trong ma tr n chi phí tích l y b gi i h n trong m t vùng c đ nh xung quanh đ ng chéo chính c a ma tr n Do đó đ ph c t p th i gian và không gian c a đ đo DTW đã gi m m t cách đáng k
(a) (b) Hình 2.4 (a) Ghép đôi các đi m d li u c a C và Q b ng đ đo DTW và d i Sakoe-
Chibav i đ r ng w = 3 (b) ng xo n P b gi i h n b i w
D i Sakoe-Chiba th ng đ c s d ng vì s đ n gi n và hi u qu c a ph ng pháp này trong vi c t ng t c khi tính toán kho ng cách DTW Hình 2.4 (b) minh ho d i Sakoe- Chiba có đ r ng w = 3 t o ra m t c a s xo n vùng đ c xác đ nh b i hai đ ng song song v i đ ng chéo chính Rõ ràng r ng d i Sakoe-Chiba ng n ng a đ ng xo n
P bi n d ng m t cách k d khi mà m t đi m d li u c a m t chu i th i gian đ c ghép c p v i quá nhi u đi m d li u c a chu i th hai nh trong Hình 2.2
Keogh và Ratanamahatana [32] đã ch ng t r ng vi c h n ch kích th c c a c a s xo n không ch t ng t c vi c tính toán kho ng cách DTW, b i vì ch m t ph n c a ma tr n chi phí tích l y c n tính toán, mà còn làm ch t tính ch t ch n d i c a công th c (2.7)
Silva và các c ng s [29] vào n m 2018 đã gi i thi u m t k thu t t ng t c trong khi tính toán đ đo DTW b ng cách lo i b vi c ghép đôi các c p đi m không h a h n c a hai chu i th i gian Các tác gi t ng c ng kh n ng lo i b s m các chu i con không có ti m n ng t ng t v i chu i truy v n trong b k thu t UCR-DTW b ng cách s d ng thêm k thu t PrunedDTW [47] Th c nghi m c a công trình nghiên c u này cho th y ph ng pháp c a Silva và các c ng s ch gia t ng hi u qu tìm ki m t ng t khi chi u dài c a chu i truy v n và ràng bu c xo n (warping constraint) l n Nh n xét r ng ràng bu c xo n là đ r ng w c a d i Sakoe-Chiba.
Hàm ch n d i cho DTW
Có hai hàm ch n d i th ng đ c s d ng:
• Hàm ch n d i LB_ Kim đ c trình bày b i Kim và các c ng s [31] Hàm ch n d i này s d ng b n c p đi m đ c tr ng c a hai chu i th i gian c n tính kho ng cách
Hình 2.5 LB_ Kim trên C và Q đã đ c chu n hoá
26 ó là đi m đ u, đi m cu i, đi m có giá tr l n nh t, và đi m có giá tr nh nh t Tuy nhiên, Rakthanmanon và các c ng s [25] cho r ng khi các chu i th i gian đ c chu n hóa, kho ng cách c a c p đi m có giá tr l n nh t và nh nh t th ng r t nh do đó ta có th b qua hai c p đi m này Vì v y đ ph c t p th i gian c a LB_ Kim là
O(1) Hình 2.5 minh ho hàm ch n d i LB_ Kim s d ng c p đi m đ u tiên và c p đi m cu i cùng c a C và Q
• Hàm ch n d i LB_ Keogh đ c trình bày b i Keogh và Ratanamahatana [32] Hàm ch n d i này làm vi c trên hai chu i th i gian có chi u dài b ng nhau; ngh a là |C|
= |Q| = n Các tác gi nh n th y m t th c t r ng h u h t các ng d ng s d ng đ đo DTW đ so trùng hai chu i th i gian đ u có đ ng xo n b gi i h n toàn c c Ngh a r ng i và j trong p k = (i, j) k b ràng bu c b i j - w ≤ i ≤ j + w, trong đó w đ c l p v i i trong tr ng h p c a d i Sakoe-Chiba V i th c t này, ta xây d ng hai chu i th i gian là U là đ ng c n trên (upper bound) và L là đ ng c n d i (lower bound) c a Q sao cho U và L xác đ nh m t hình bao (envelope) mà Q ph i n m bên trong i m d li u c a chu i th i gian U và L đ c tính theo công th c: u i = max{q i - w , q i – w + 1,…, q i + w - 1 , q i + w } l i = min{q i - w , q i – w + 1,…, q i + w - 1 , q i + w }
Hình 2.6 minh ho cách tính hàm ch n d i LB_ Keogh trên C và Q v i hình bao c a Q đ c xác đ nh b i U và L Hàm ch n d i này tính t ng kho ng cách c a các đi m d li u c a C ngoài hình bao Q Các tác gi cho r ng LB_ Keogh làm vi c trên hai chu i th i gian có cùng chi u dài và có đ ng xo n b gi i h n toàn c c b i đ r ng w c a d i Sakoe-Chiba s không gây ra l i tìm sót Vì v y k t khi hàm ch n d i LB_ Keogh đ c
Hình 2.6 LB_ Keogh trên C và Q có cùng chi u dài là n, do đó đ ph c t p th i gian c a hàm ch n d i này là O(n)
27 gi i thi u, đ đo DTW đã tr thành m t công c r t m nh trong khai phá d li u chu i th i gian
Khi C và Q có cùng chi u dài và ta có U và L c a Q, hàm LB_ Keogh đ c đ nh ngh a:
詣稽_ 懲勅墜直朕 (系,芸) = 標布 畔
(潔 沈 伐 憲 沈 ) 態 if 潔 沈 >憲 沈 (潔 沈 伐 健 沈 ) 態 if 潔 沈