1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tìm kiếm tương tự trên chuỗi thời gian dạng luồng = similarity search in streaming time series (uận án tiến sĩ kỹ thuật)

231 8 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 231
Dung lượng 14,31 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 1.1 Chu i th i gian d ng lu ng và thách th c x lý chu i th i gian d ng lu ng (20)
  • 1.2 M c tiêu, đ i t ng và ph m vi nghiên c u (21)
  • 1.3 Ph ng pháp nghiên c u (24)
  • 1.4 Tóm t t k t qu đ t đ c (28)
    • 1.4.1 Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid (28)
    • 1.4.2 Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW (30)
    • 1.4.3 D báo tr c tuy n trên chu i th i gian d ng lu ng (31)
    • 1.4.4 Phát hi n k chu i con b t th ng nh t trong chu i th i gian d ng lu ng (31)
  • 1.5 C u trúc c a lu n án (32)
  • 2.1 đo t ng t (33)
    • 2.1.1 đo Euclid (34)
    • 2.1.2 đo DTW (35)
  • 2.2 Chu n hoá d li u (38)
  • 2.3 nh ngh a tìm ki m t ng t trên chu i th i gian (40)
  • 2.4 nh ngh a tìm ki m t ng t trên chu i th i gian d ng lu ng (40)
  • 2.5 T ng t c trong tính toán đ đo t ng t (41)
    • 2.5.1 S d ng bình ph ng kho ng cách (41)
    • 2.5.2 T b s m trong khi tính kho ng cách Euclid (41)
    • 2.5.3 S p x p l i th t t b s m (42)
    • 2.5.4 Hàm ch n d i (42)
    • 2.5.5 Ki u x p t ng (42)
  • 2.6 Các k thu t t ng t c chuyên bi t cho đ đo DTW (43)
    • 2.6.1 Gi i h n s ghép đôi các đi m (43)
    • 2.6.2 Hàm ch n d i cho DTW (44)
    • 2.6.3 T b s m trong khi tính kho ng cách DTW (46)
  • 2.7 Các phép bi n đ i thu gi m s chi u (47)
    • 2.7.1 Bi n đ i DFT (48)
    • 2.7.2 Bi n đ i DWT (51)
    • 2.7.3 Bi n đ i PAA (53)
  • 2.8 C u trúc ch m c R-tree (54)
    • 2.8.1 Tính ch t c a R-tree (54)
    • 2.8.2 Các thao tác trong R - tree (55)
      • 2.8.2.1 Xây d ng R - tree (55)
      • 2.8.2.2 Tìm ki m trong R-tree (57)
  • 2.9 K t ch ng (59)
  • 3.1 Tìm ki m vùng trên chu i th i gian d ng lu ng b ng đ đo Euclid (60)
    • 3.1.1 Các công trình liên quan (60)
    • 3.1.2 Bài toán tìm ki m t ng t trên nhi u chu i th i gian d ng lu ng (64)
    • 3.1.3 Các k thu t h tr ph ng pháp đ xu t (66)
      • 3.1.3.1 Chu n hóa z - score gia t ng (66)
      • 3.1.3.2 C u trúc ch m c đa m c phân gi i (66)
      • 3.1.3.3 Ti n x lý chu i truy v n (67)
      • 3.1.3.4 B đ m xoay vòng (71)
      • 3.1.3.5 K thu t đa lu ng (72)
    • 3.1.4 Mô hình h th ng tìm ki m t ng t b ng đ đo Euclid (72)
    • 3.1.5 Ph ng pháp RangeSearch (74)
    • 3.1.6 ánh giá ph ng pháp RangeSearch (78)
  • 3.2 Tìm ki m k lân c n g n nh t trên chu i th i gian d ng lu ng b ng đ đo Euclid (84)
    • 3.2.1 Các công trình liên quan (84)
    • 3.2.2 Ph ng pháp đ xu t (86)
    • 3.2.3 ánh giá ph ng pháp k - NNSearch (88)
  • 3.3 C i ti n cách t o R-tree (92)
    • 3.3.1 Gi i thi u bài toán (92)
    • 3.3.2 Các công trình liên quan (93)
    • 3.3.3 ng cong l p đ y không gian (93)
    • 3.3.4 K thu t STR (94)
    • 3.3.5 Ph ng pháp đ xu t (96)
    • 3.3.6 ánh giá ISTR1 và ISTR2 (98)
  • 3.4 K t ch ng (107)
  • 4.1 Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW (109)
    • 4.1.1 Các công trình liên quan (109)
    • 4.1.2 B k thu t UCR - DTW (111)
    • 4.1.3 Mô hình h th ng tìm ki m t ng t b ng đ đo DTW (111)
    • 4.1.4 Ph ng pháp SUCR-DTW (112)
    • 4.1.5 ánh giá ph ng pháp SUCR-DTW (119)
  • 4.2 C i ti n ph ng pháp SPRING (124)
    • 4.2.1 Gi i thi u ph ng pháp SPRING (124)
    • 4.2.2 Ph ng pháp ISPRING (125)
    • 4.2.3 ánh giá ph ng pháp ISPRING (131)
  • 4.3 Ph ng pháp ESUCR - DTW (137)
    • 4.3.1 Gi i thi u ph ng pháp ESUCR - DTW (137)
    • 4.3.2 M r ng hàm ch n d i LB _Keogh (138)
    • 4.3.3 Gi i thu t ESUCR-DTW (140)
    • 4.3.4 ánh giá ph ng pháp ESUCR-DTW (140)
  • 4.5 K t ch ng (150)
  • 5.1 Gi i thi u bài toán d báo tr c tuy n (151)
  • 5.2 nh ngh a bài toán (152)
  • 5.3 Tiêu chí đo đ chính xác c a d báo (153)
  • 5.4 L àm tr n hàm m đ n gi n (153)
  • 5.5 Các đi m c c tr c c b trong chu i th i gian (154)
  • 5.6 Các công trình liên quan (155)
  • 5.7 Ph ng pháp đ xu t (157)
    • 5.7.1 Ý t ng chính cho ph ng pháp (157)
    • 5.7.2 Môi tr ng ho t đ ng cho ph ng pháp (160)
    • 5.7.3 Ho t đ ng c a ph ng pháp (161)
    • 5.7.4 ánh giá ph ng pháp đ xu t (164)
  • 5.8 K t ch ng (170)
  • CHU I TH I GIAN D NG LU NG (123)
    • 6.1 Gi i thi u bài toán phát hi n b t th ng trong chu i th i gian d ng lu ng . 153 (172)
    • 6.2 nh ngh a bài toán (173)
    • 6.3 Các công trình liên quan (174)
    • 6.4 Ph ng pháp SKDIS (178)
      • 6.4.1 Môi tr ng ho t đ ng cho ph ng pháp SKDIS (178)
      • 6.4.2 Ý t ng chính cho ph ng pháp SKDIS (179)
      • 6.4.3 Các ph ng pháp và k thu t h tr cho ph ng pháp SKDIS (180)
    • 6.5 Gi i thu t SKDIS (181)
      • 6.5.1 Th t c Pha 2 (183)
      • 6.5.2 Vài nh n xét v ph ng pháp SKDIS (184)
    • 6.6 ánh giá ph ng pháp SKDIS (185)
      • 6.6.1 Th ng kê chi ti t ho t đ ng (187)
      • 6.6.2 Các c p k t qu (190)
    • 6.7 K t ch ng (197)
    • 7.1 K t qu đ t đ c (198)
    • 7.2 Các đóng góp chính c a lu n án (200)
    • 7.3 H n ch c a lu n án (0)
    • 7.4 H ng phát tri n (0)

Nội dung

iii ABSTRACT In time-series data mining, the problem of similarity search in streaming time series is a big challenge for researchers because similarity search methods in static time s

Chu i th i gian d ng lu ng và thách th c x lý chu i th i gian d ng lu ng

Chu i th i gian (time series) là dãy các giá tr ho c s ki n thu đ c b ng cách ghi nh n k t qu t i nh ng đi m cách đ u nhau theo tr c th i gian D li u này có th có nhi u h n hai chi u nh ng ph i có m t chi u là th i gian Ví d nh chu i th i gian th hi n t giá h i đoái USD/VND đ c ghi nh n theo t ng ngày làm vi c, t 02/01/2017 đ n 29/8/2017 đ c th hi n trong Hình 1.1

Hình 1.1 ng bi u di n chu i th i gian th hi n t giá USD/VND (ngu n [1])

D li u chu i th i gian có th có các tính ch t nh sau:

(ii) m i t ng quan cao gi a các đi m giá tr , và

(iii) d li u có th b nhi u

Các tính ch t này khi n cho vi c khai phá d li u chu i th i gian g p nhi u thách th c

Chu i th i gian d ng lu ng (streaming time series) là m t chu i th i gian có các giá tr m i t i đ c ghi nh n m t cách liên t c và đ c n i vào cu i chu i theo trình t th i gian Xét ví d trong Hình 1.1, t giá h i đoái USD/VND đ c ghi nh n vào ngày

30/8/2017 s đ c thêm vào cu i chu i th i gian Nh v y chu i th i gian này có tính ch t là m t lu ng d li u t i liên t c và đ c ghi nh n theo t ng ngày làm vi c

Theo G Li và các c ng s [2], chu i th i gian d ng lu ng có các đ c tr ng:

• Các ph n t d li u t i tr c tuy n

• H th ng không th đi u khi n th t d li u t i

• Kh i l ng d li u nhi u đ n m c có th là vô t n, do v y b nh ch a d li u không th l u tr t t c d li u

• M t khi m t ph n t d li u đ c x lý, ph n t này đ c l u l i trong m t kho ng th i gian xác đ nh trong b nh , r i đ c c t gi t i n i khác ho c b hu b và không th ph c h i

Nh v y đ x lý nhanh d li u chu i th i gian d ng lu ng trong th i gian th c, ph ng pháp x lý ph i có đ ph c t p th i gian (time complexity) th p và c n quét d li u m t l n (one-pass scan) Hai yêu c u này t o ra thách th c to l n cho các ph ng pháp x lý chu i th i gian t nh n u ta mu n làm cho các ph ng pháp này thích nghi v i vi c x lý chu i th i gian d ng lu ng Vì th c n ph i có các k thu t m i hay c i ti n t các k thu t đã có đ đ m b o vi c x lý chu i th i gian d ng lu ng có hi u qu theo hai tiêu chí đánh giá là ch t l ng k t qu tr v và th i gian th c hi n

Qua kh o sát c a chúng tôi, ngày càng có nhi u ng d ng c n ph i x lý d li u chu i th i gian d ng lu ng nh phân tích l u l ng m ng máy tính [3], giám sát v trí các thi t b di đ ng trong th i gian th c [4], theo dõi các tia b t th ng trong thiên v n [5], giám sát giao d ch c phi u trong th tr ng ch ng khoán [6, 7], v.v Do có nhi u ng d ng liên quan đ n vi c x lý chu i th i gian d ng lu ng và s ph c t p, khó kh n c a lo i x lý này cho nên vào n m 2011, Fu [8] cho r ng bài toán x lý d li u chu i th i gian d ng lu ng là m t trong hai h ng nghiên c u ch y u v khai phá d li u chu i th i gian.

M c tiêu, đ i t ng và ph m vi nghiên c u

Các bài toán th ng đ c nghiên c u trong khai phá d li u chu i th i gian là tìm ki m t ng t (similarity search), phát hi n b t th ng (anomaly detection), phát hi n mô típ

(motif detection), d báo (forecast), k t chu i con (subsequence join), rút trích lu t (rule extraction), v.v Trong các bài toán quan tr ng này, gi i pháp cho bài toán tìm ki m t ng t th ng là c s n n t ng cho gi i pháp c a các bài toán khác Thông th ng, tìm ki m d li u trong c s d li u truy n th ng là s so trùng chính xác còn tìm ki m t ng t trên chu i th i gian là s so trùng x p x ; ngh a là kho ng cách gi a hai chu i th i gian đ c tính b ng m t đ đo nào đó và kho ng cách này ph i nh h n m t ng ng kho ng cách (distance threshold) cho tr c thì hai chu i th i gian m i đ c xem là t ng t nhau

Theo s nh n xét c a chúng tôi, cho t i hi n nay các công trình nghiên c u v tìm ki m t ng t trên chu i th i gian d ng lu ng th ng đ a ra các ph ng pháp tìm ki m t ng t có chi phí tính toán cao ho c không chu n hoá d li u cho nên k t qu tr v ch a chính xác Nh m kh c ph c các khuy t đi m k trên, chúng tôi xác đ nh bài toán tìm ki m t ng t trên chu i th i gian d ng lu ng s là đ i t ng đ c nghiên c u trong lu n án này

Lu n án bao g m hai nhi m v nghiên c u và m c tiêu c th c a t ng nhi m v là

Nhi m v 1: Xây d ng các ph ng pháp tìm ki m t ng t trên chu i th i gian d ng lu ng b ng

• đo Euclid (Euclidean measure) có v n d ng các phép bi n đ i thu gi m s chi u và c u trúc ch m c đa m c phân gi i

• đo xo n th i gian đ ng (Dynamic Time Warping measure) hay còn g i là đ đo

DTW và các k thu t t ng t c cho đ đo này

Nhi m v 2: ng d ng các ph ng pháp tìm ki m t ng t trên chu i th i gian d ng lu ng đ gi i quy t các bài toán sau

• D báo tr c tuy n (online forecating) trên chu i th i gian d ng lu ng có xu h ng và tính mùa (trend and seasonal) b ng đ đo DTW

• Phát hi n k chu i con b t th ng nh t (top-k discords detection) trong chu i th i gian d ng lu ng b ng đ đo Euclid

Tìm ki m t ng t trên chu i th i gian d ng lu ng có th chia thành hai lo i là truy v n t nh (static query) và truy v n d ng lu ng (streaming query) Hai lo i truy v n này đ c mô t nh sau:

• Truy v n t nh Trong lãnh v c tài chính nh th tr ng ch ng khoán có nhi u lo i m u (pattern) c phi u đáng quan tâm và có nhi u chu i th i gian bi u di n s bi n đ ng giá tr c phi u c a các công ty trên sàn giao d ch Các chu i th i gian này xem nh là các lu ng d li u Yêu c u đ t ra là tìm các chu i con trong các chu i th i gian này mà đ ng d ng (có hình d ng t ng t ) v i các m u c phi u có s n Truy v n t nh c ng thích h p trong l nh v c giám sát m ng khi có nhi u lu ng d li u t i liên t c và c n đ c so sánh v i các m u c n phát hi n Nh n xét r ng trong khai phá d li u chu i th i gian, m u th ng đ c bi u di n b ng chu i truy v n (query sequence) đã đ c xác đ nh tr c V i tr ng h p này, ch c n ng tìm ki m t ng t cho chu i truy v n t nh trên chu i th i gian d ng lu ng đ c s d ng

• Truy v n d ng lu ng Trong l nh v c môi tr ng nh bi n đ i khí h u, d li u ghi nh n các thông s th i ti t đ c c p nh t liên t c theo t ng m c th i gian và t o ra chu i th i gian d ng lu ng; còn m u c ng thay đ i do yêu c u truy v n thay đ i theo s bi n đ ng môi tr ng Do v y chu i truy v n c ng thay đ i theo d ng lu ng; ngh a là các d li u truy v n có s ti p n i, k th a d li u, và d li u nào c quá s không còn trong chu i truy v n đ nh ng ch cho d li u m i phát sinh Trong tr ng h p này, ch c n ng tìm ki m t ng t cho chu i truy v n d ng lu ng trên chu i th i gian d ng lu ng đ c s d ng

Tu theo ng d ng mà các nghiên c u c a lu n án s d ng ki u truy v n t ng ng

Nh n xét r ng truy v n t nh d nh n ra và ph bi n h n truy v n d ng lu ng Thêm n a, x lý truy v n t nh không ph c t p nh x lý truy v n d ng lu ng, và truy v n d ng lu ng th ng ch xu t hi n trong m t s ng d ng đ c bi t Vì v y, đ i v i nhi m v nghiên c u th nh t v tìm ki m t ng t trên chu i th i gian d ng lu ng, lu n án đ xu t ph m vi nghiên c u là tìm ki m t ng t cho truy v n t nh Còn đ i v i nhi m v nghiên c u th hai, do b n ch t c a các bài toán c n gi i quy t là truy v n d ng lu ng nên lu n án s m r ng gi i pháp tìm ki m t ng t cho truy v n t nh đ thích ng cho truy v n d ng lu ng

Ph ng pháp nghiên c u

Tìm ki m t ng t trên chu i th i gian b ng đ đo Euclid th ng b t đ u b ng tìm ki m trên đ c tr ng (feature) c a d li u chu i th i gian N u k t qu tìm ki m trên đ c tr ng th a mãn thì b c h u ki m s th c hi n trên d li u chu i th i gian V i cách làm này thì đ ph c t p th i gian c a tìm ki m t ng t trên chu i th i gian s gi m đ n m c đáng k do tìm ki m trên đ c tr ng c a d li u chu i th i gian nhanh h n r t nhi u so v i vi c tìm ki m trên d li u chu i th i gian Thông th ng ta có đ c tr ng c a d li u chu i th i gian t m t phép bi n đ i thu gi m s chi u nào đó đ m b o không có l i tìm sót (false dismissals), phép bi n đ i thu gi m s chi u chu i th i gian ph i có tính ch t ch n d i (lower-bounding property) [9] t ng t c tìm ki m t ng t trên chu i th i gian b ng đ đo Euclid, đ c tr ng c a d li u chu i th i gian th ng đ c l u trong m t c u trúc ch m c ph c v cho vi c tìm ki m nhanh Do d li u chu i th i gian có th đ c đ i di n b i nhi u đ c tr ng nên c u trúc ch m c không gian (spatial index structure) hay còn đ c g i là c u trúc ch m c đa chi u (multi-dimensional index structure) th ng đ c s d ng đ ch a các đ c tr ng Trong khai phá d li u chu i th i gian, c u trúc ch m c không gian th ng đ c s d ng là R-tree [10] và các bi n th c a R-tree nh R * -tree [11] và STR (Sort-Tile- Recursive) [12] Thêm n a, c u trúc ch m c không gian nên đ c t ch c theo đa m c phân gi i (multi-resolutions) đ phù h p v i các chu i truy v n (query sequence) có chi u dài khác nhau hay yêu c u th i gian tìm ki m khác nhau Nh n xét r ng m c phân gi i có ch c n ng l c k t qu nên còn đ c g i là m c l c (filtering level) a m c phân gi i có th giúp quá trình tìm ki m đ c ti n hành t m c l c thô (có yêu c u th i gian tìm ki m nhanh) đ n m c l c tinh (ng i dùng ch p nh n th i gian tìm ki m lâu h n đ có k t qu chính xác h n)

Tr c đây, có nhi u công trình nghiên c u [13 - 21] v tìm ki m t ng t trên chu i th i gian b ng đ đo Euclid theo h ng gi i quy t v n đ nh nêu trên Tuy nhiên h u h t các công trình này không th c hi n chu n hóa d li u tr c khi tìm ki m t ng t vì th các tác gi [22 - 25] cho r ng các công trình trên ít có ý ngh a th c ti n Tuy nhiên, thu n l i c a vi c l đi chu n hoá d li u ho c m c đ nh d li u g c đã đ c chu n hóa

6 giúp t ng t c vi c tìm ki m M t ví d là tính toán h s đ c tr ng c a đi m d li u m i có th s d ng l i h s đ c tr ng c a các đi m d li u tr c đó c ng c thêm l p lu n r ng chu n hoá d li u là đi u c n thi t trong tìm ki m t ng t trên chu i th i gian, lu n án xin đ a ra các ví d sau Xét hai chu i th i gian, m t chu i th i gian ghi nh n l ng m a trong khi chu i th i gian kia thu th p đ m Do hai lo i d li u này đ c đo b ng các đ n v khác nhau nên hai chu i th i gian không th so sánh tr c ti p v i nhau M t ví d khác đ c minh ho nh trong Hình 1.2 Hình 1.2 (b) th hi n m t phân đo n chu i th i gian đ c trích xu t ra t m t chu i th i gian bi u di n d li u EEG t trang web [26] Gi s ta mu n tìm ki m t ng t cho chu i truy v n trong Hình 1.2 (a) trên phân đo n chu i th i gian này K t qu tìm ki m là ch có m t chu i con t ng t đ c tìm th y và có hai chu i con t ng t khác b b sót do hai chu i con này khác cao đ (altitude) v i chu i truy v n N u th c hi n chu n hoá d li u tr c khi tìm ki m t ng t , l i tìm sót ít có kh n ng x y ra

Hình 1.2 L i tìm sót x y ra khi không chu n hoá d li u tr c khi tìm ki m t ng t

T nh ng nh n xét trên, trong bài toán tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid, lu n án đ xu t thêm hai yêu c u nh sau:

1 Th c hi n chu n hóa d li u tr c khi tìm ki m t ng t Chu n hóa d li u nên th c hi n theo cách tính toán gia t ng (incremental computation) nh m gi m chi phí tính toán

2 C i ti n c u trúc ch m c không gian đ t i u không gian l u tr và gi m thi u th i gian tìm ki m trong c u trúc ch m c

Tìm ki m t ng t trên chu i th i gian b ng đ đo DTW cho k t qu tìm đ c th ng chính xác h n tìm ki m b ng đ đo Euclid Tuy nhiên b i vì đ đo DTW có chi phí tính toán cao cho nên tìm ki m t ng t trên chu i th i gian b ng đ đo này t n r t nhi u th i gian Do v y, nhi u k thu t t ng t c cho đ đo DTW đã đ c đ xu t nh gi i h n không gian tính toán cho đ đo DTW trong ba công trình [27 - 29] hay s d ng hàm ch n d i (lower-bounding function) trong ba công trình [30 - 32] c bi t, Rakthanmanon và các c ng s [25] đã đ xu t b k thu t UCR-DTW r t hi u qu cho vi c tìm ki m t ng t trên chu i th i gian t nh b ng đ đo DTW Hai u đi m n i b t c a b k thu t này là có th c hi n chu n hóa d li u gia t ng tr c khi tìm ki m t ng t và k t h p nhi u k thu t t ng t c trong tính toán kho ng cách DTW Tuy nhiên UCR-DTW ch có th tính kho ng cách DTW gi a hai chu i th i gian có chi u dài b ng nhau, vì v y đi u này s làm gi m đi th m nh c a DTW là đ đo này có th th c hi n trên hai chu i th i gian có chi u dài khác nhau T nh n xét trên, lu n án s t p trung vào vi c c i ti n UCR-DTW đ thích ng v i vi c tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW Hai c i ti n đáng k cho UCR-DTW là

1 C p nh t hình bao (envelope) c a chu i con c a chu i th i gian d ng lu ng theo cách th c tính toán gia t ng nh m gi m chi phí tính toán Hình bao này đ c s d ng trong m t hàm ch n d i cho đ đo DTW

2 Thay đ i m t hàm ch n d i cho đ đo DTW đ UCR-DTW có th tính kho ng cách DTW gi a hai chu i th i gian có chi u dài khác nhau

Ngoài ra còn có m t ph ng pháp tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW r t n i ti ng là ph ng pháp SPRING c a Sakurai và các c ng s [33]

Ph ng pháp này có th i gian th c hi n r t nhanh nh ng ph ng pháp ch làm vi c trên d li u (chu i th i gian d ng lu ng) không có chu n hóa Do v y lu n án s c i ti n SPRING đ ph ng pháp này th c hi n vi c tìm ki m t ng t trên d li u chu n hóa

D a vào các gi i pháp đã đ xu t đ tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid và đ đo DTW, lu n án đ a ra gi i pháp cho hai bài toán ng d ng sau:

1 D báo tr c tuy n trên chu i th i gian d ng lu ng có xu h ng và tính mùa b ng đ đo DTW Chu i th i gian có tính mùa có các y u t mùa tác đ ng lên chu i th i

8 gian đ t o ra các pha bi n đ i t ng t Do v y, t các pha bi n đ i t ng t trong quá kh , các đi m d li u theo sau pha bi n đ i hi n t i có th đ c suy ra Các pha bi n đ i trong chu i th i gian có tính mùa có th đ c nh n di n b ng các đi m c c tr trong chu i th i gian Các pha bi n đ i t ng t v i pha đang bi n đ i hi n t i có th đ c tìm ra b ng vi c tìm ki m k lân c n g n nh t (k nearest neighbours) trên chu i th i gian d ng lu ng b ng đ đo DTW B i vì tìm ki m k lân c n g n nh t đ c s d ng cho nên gi i pháp cho bài toán này thích h p v i ph ng pháp h c trì hoãn (lazy learning) [34] K t qu d báo s đ c so sánh v i d li u th c t đ ki m tra đ chính xác c a ph ng pháp đ xu t

2 Phát hi n k chu i con b t th ng nh t trong chu i th i gian d ng lu ng b ng đ đo Euclid Chu i con b t th ng nh t là chu i con khác bi t nhi u nh t v i các chu i con còn l i gi i quy t bài toán này trong môi tr ng lu ng thì c n dùng m t hàm ch n d i trên m t phép bi n đ i thu gi m s chi u chu i th i gian nh bi n đ i DFT [13], bi n đ i Haar wavelet [15], ho c bi n đ i PAA [35], và m t b k thu t tính kho ng cách Euclid hi u qu nh UCR-ED c a Rakthanmanon và các c ng s

[25] Hàm ch n d i và b k thu t UCR-ED c n ph i c i ti n đ có th làm vi c trong môi tr ng lu ng Nh m đánh giá hi u qu c a ph ng pháp đ xu t, k t qu tìm đ c c a ph ng pháp s đ c so sánh v i k t qu c a gi i thu t HOT SAX [36] (m t ph ng pháp tìm ki m b t th ng trong chu i th i gian t nh) và gi i thu t SHOT SAX L u ý r ng SHOT SAX là gi i thu t HOT SAX đã đ c c i biên đ làm vi c trên môi tr ng lu ng

Nh n xét r ng các ph ng pháp gi i quy t hai bài toán ng d ng trên có s d ng tìm ki m t ng t cho chu i truy v n trên chu i th i gian d ng lu ng i m đ c bi t c a hai bài toán này là chu i truy v n c ng thay đ i m i khi có m t đi m d li u m i t i c a chu i th i gian d ng lu ng Do v y các ph ng pháp đ xu t ph i có cách x lý đ c bi t cho truy v n d ng lu ng

V c u trúc d li u đ l u tr d li u chu i th i gian, do chu i th i gian d ng lu ng có xu h ng làm bùng n kích th c l u tr d li u khi th i gian trôi qua, m t b đ m có qui mô l n (large-scaled buffer) nên đ c s d ng đ l u tr d li u và ho t đ ng tìm ki m t ng t trên chu i th i gian d ng lu ng s di n ra trên b đ m này B đ m l u

Tóm t t k t qu đ t đ c

Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid

• Lu n án trình bày m t mô hình h th ng tìm ki m t ng t trên các chu i th i gian d ng lu ng b ng đ đo Euclid và sau đó đ xu t m t ph ng pháp tìm ki m vùng

(range search) đ hi n th c mô hình h th ng H th ng tìm ki m t ng t s d ng

10 k thu t đa lu ng (multi-threading) đ th c hi n đ ng th i vi c tìm ki m t ng t trên nhi u chu i th i gian d ng lu ng Vi c tìm ki m t ng t đ c h tr b i c u trúc ch m c đa m c phân gi i đ c xây d ng t m t m ng R * -tree Ngoài ra, ph ng pháp đ xu t s d ng m t phép bi n đ i thu gi m s chi u chu i th i gian nh bi n đ i DFT, bi n đ i Haar walet, ho c bi n đ i PAA Th c nghi m ch ng t r ng ph ng pháp đ xu t cho k t qu chính xác gi ng nh k t qu tr v c a SUCR-ED

L u ý r ng SUCR-ED là c i ti n c a b k thu t UCR-ED đ có th tìm ki m t ng t trên chu i th i gian d ng lu ng Thêm n a, ph ng pháp đ xu t có th i gian th c hi n nhanh h n nhi u so v i SUCR-ED Ph ng pháp đ xu t đã đ c công b trong hai công trình nghiên c u [CT9] và [CT5]

• Chu n hóa z-score gia t ng (incremental z-score normalization) đ c trình bày trong bài báo [CT9] đ gi m chi phí tính toán do công vi c chu n hóa trong môi tr ng lu ng K thu t chu n hóa này c ng đ c s d ng trong h u h t các ph ng pháp đ xu t khác c a lu n án

• tìm ki m t ng t thích ng v i c u trúc ch m c đa m c phân gi i, chu i truy v n có th đ c phân đo n không ch ng l p ho c đ c phân đo n ch ng l p K thu t phân đo n chu i th i gian không ch ng l p đ c công b trong bài báo [CT9] và k thu t phân đo n chu i th i gian ch ng l p đ c công b trong bài báo [CT5]

• Lu n án đ xu t ph ng pháp tìm ki m k lân c n g n nh t trên các chu i th i gian d ng lu ng Ph ng pháp đ xu t d a trên ph ng pháp tìm ki m vùng trong bài báo [CT9] và có thêm các tính ch t khác đ ph c v tìm ki m k lân c n g n nh t Ví d nh th t c truy v n vùng trong R-tree đ c thay đ i đ có th đ ng th i truy v n vùng v i nhi u ng ng kho ng cách Ngoài ra, ph ng pháp tìm ki m k lân c n g n nh t còn ph i gi i quy t tình hu ng xung đ t khi các ti n trình lu ng (threading process) cùng c p nh t đ ng th i t p h p k lân c n g n nh t c a m t chu i truy v n

K t qu th c nghi m đã ch ng t r ng ph ng pháp đ xu t cho k t qu chính xác và th i gian ph n h i k t qu nhanh Ph ng pháp này đã đ c công b trong công trình nghiên c u [CT8]

• Lu n án c i ti n k thu t STR đ t i u c u trúc d li u R-tree nh m t ng t c cho vi c tìm ki m t ng t trên chu i th i gian K thu t STR đ c c i ti n b ng m t

11 trong hai chi n l c k t n i các đi m đ c tr ng c a chu i th i gian trong các nút c a R-tree Hai chi n l c này làm th i gian tìm ki m trong R-tree nhanh h n các k thu t t o R-tree khác nh Quadratic R-tree [10], R * -tree, và k thu t STR Tìm ki m trong R-tree nhanh h n thì d n đ n th i gian ph n h i k t qu c a tìm ki m t ng t trên chu i th i gian c ng nhanh h n Hai chi n l c c i ti n k thu t STR đã đ c công b trong công trình nghiên c u [CT7].

Tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW

• Lu n án trình bày m t mô hình h th ng tìm ki m t ng t trên các chu i th i gian d ng lu ng b ng đ đo DTW và sau đó đ xu t m t ph ng pháp đ hi n th c mô hình h th ng Ph ng pháp đ xu t là s c i ti n t b k thu t UCR-DTW nh m thích ng v i môi tr ng lu ng Hai c i ti n đáng k c a ph ng pháp là s d ng k thu t đa lu ng và c p nh t hình bao c a chu i con c a chu i th i gian d ng lu ng theo cách th c tính toán gia t ng đ gi m chi phí tính toán ánh giá qua th c nghi m đã ch ng t r ng ph ng pháp đ xu t có th i gian ph n h i nhanh và tr v k t qu chính xác nh b k thu t UCR-DTW Tuy nhiên c ng gi ng nh UCR-DTW, ph ng pháp đ xu t ch có th tính kho ng cách DTW trên hai chu i th i gian có chi u dài b ng nhau Ph ng pháp đ xu t đã đ c công b trong công trình nghiên c u [CT6]

• Ph ng pháp SPRING đ c c i ti n đ có chu n hóa d li u tr c khi tìm ki m t ng t trên chu i th i gian d ng lu ng SPRING đ c c i ti n s d ng chu n hóa min- max gia t ng (incremental min-max normalization) tr c khi tính toán kho ng cách

DTW gi a hai chu i th i gian có chi u dài có th khác nhau K t qu tìm ki m t ng t c a SPRING đ c c i ti n t t h n k t qu c a ph ng pháp đ c gi i thi u trong bài báo [CT6] b i vì SPRING đ c c i ti n có th tìm ra các c p chu i th i gian t ng t có chi u dài khác nhau Tuy nhiên SPRING đ c c i ti n có th i gian ph n h i k t qu lâu h n do ph i t n nhi u th i gian đ tính l i kho ng cách DTW m i khi h s min-max thay đ i Ph ng pháp SPRING c i ti n đã đ c công b trong công trình nghiên c u [CT3]

• Lu n án ti p t c phát tri n ph ng pháp đ c gi i thi u trong bài báo [CT6] đ có th tính kho ng cách DTW trên hai chu i th i gian có chi u dài khác nhau th c

12 hi n đi u này thì hàm ch n d i cho đ đo DTW là LB_ Keogh [32] đ c đi u ch nh đ làm vi c trên hai chu i th i gian có chi u dài chênh l ch trong đ r ng c a d i Sakoe- Chiba [28] Nh v y, ph ng pháp đ xu t th c hi n vi c tìm ki m t ng t trên các chu i th i gian d ng lu ng b ng đ đo DTW và k t qu tr v là các c p chu i t ng t mà chi u dài có th khác nhau Ph ng pháp đ xu t đã đ c công b trong công trình nghiên c u [CT4]

T nhi m v nghiên c u th hai, lu n án đã đ xu t gi i pháp cho t ng bài toán ng d ng nh sau.

D báo tr c tuy n trên chu i th i gian d ng lu ng

Lu n án đ xu t ph ng pháp d báo tr c tuy n trên chu i th i gian d ng lu ng có xu h ng và tính mùa d a trên tìm ki m k lân c n g n nh t b ng đ đo DTW Tr c khi th c hi n tìm ki m k lân c n g n nh t, các chu i con bi u di n pha bi n đ i t ng t v i nhau có th đ c rút trích b ng m t k thu t phân đo n chu i th i gian d a vào các đi m c c tr quan tr ng trong chu i th i gian d ng lu ng Sau đó k chu i con x y ra trong quá kh mà t ng t v i chu i con bi u di n pha đang bi n đ i hi n t i có th đ c tìm ra b ng ph ng pháp tìm ki m t ng t cho hai chu i th i gian có chi u dài b ng nhau trên chu i th i gian d ng lu ng b ng đ đo DTW Ph ng pháp d báo tr c tuy n có th đ c lai v i ph ng pháp làm tr n hàm m đ n gi n (Simple Exponential

Smoothing) đ k t qu d báo có th chính xác h n K t qu th c nghi m c a ph ng pháp đ xu t trên các b d li u th i gian th c t đã ch ng t r ng ph ng pháp cho k t qu d báo r t gi ng v i các quan sát đã x y ra và th i gian th c hi n c a ph ng pháp là không đáng k Ph ng pháp đ xu t đã đ c công b trong công trình nghiên c u [CT2].

Phát hi n k chu i con b t th ng nh t trong chu i th i gian d ng lu ng

Lu n án đ xu t ph ng pháp phát hi n k chu i con b t th ng nh t trong chu i th i gian d ng lu ng b ng đ đo Euclid Ph ng pháp đ xu t s d ng l n l t m t ng ng ch n d i, m t hàm ch n d i s d ng m t phép bi n đ i thu gi m s chi u chu i th i gian, và b k thu t UCR-ED đ lo i b s m chu i con nào không b t th ng Hàm ch n d i và UCR-ED đ c đi u ch nh đ thích ng v i môi tr ng lu ng Th c nghi m

13 trên các chu i th i gian khác nhau đã ch ng t r ng ph ng pháp đ xu t cho k t qu g n gi ng nh gi i thu t HOT SAX và có th i gian ph n h i k t qu nhanh h n SHOT SAX Thêm n a, ph ng pháp đ xu t khi th c hi n trên các chu i th i gian d ng lu ng có tính ch t chu k thì có th tr v k chu i con b t th ng nh t nh mong mu n trong khi mà HOT SAX không th phát hi n ra các chu i con b t th ng đó Ph ng pháp đ xu t đ c công b trong công trình nghiên c u [CT1].

C u trúc c a lu n án

Ph n còn l i c a lu n án đ c trình bày trong sáu ch ng Ch ng 2 trình bày c s lý thuy t n n t ng cho các đ xu t c a lu n án Ch ng 3 trình bày ba đ xu t v tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo Euclid Ch ng 4 trình bày ba đ xu t v tìm ki m t ng t trên chu i th i gian d ng lu ng b ng đ đo DTW Ch ng 5 trình bày m t đ xu t v d báo tr c tuy n trên chu i th i gian d ng lu ng Ch ng 6 trình bày m t đ xu t v phát hi n k chu i con b t th ng nh t trong chu i th i gian d ng lu ng Ch ng 7 k t lu n v các ph ng pháp đ xu t, đóng góp c a lu n án, và nêu m t s h n ch c a lu n án cùng v i h ng nghiên c u trong t ng lai

M t vài ph ng pháp và gi i thu t ph c t p liên quan đ n các nghiên c u c a lu n án s đ c trình bày trong Ph l c A u tiên là hai ph ng pháp s d ng c u trúc ch m c đa m c phân gi i h tr vi c tìm ki m t ng t trên chu i th i gian, và sau đó là gi i thu t UCR-DTW

CH NG 2 C S LÝ THUY T N N T NG

Ch ng này gi i thi u t ng quan v các đ đo t ng t , cách chu n hóa d li u, đ nh ngh a các nhi m v tìm ki m t ng t trên chu i th i gian, các k thu t t ng t c trong vi c tính toán đ đo t ng t , các phép bi n đ i thu gi m s chi u chu i th i gian, và c u trúc ch m c R-tree Các ki n th c này s là c s lý thuy t n n t ng cho các ph ng pháp đ xu t c a lu n án.

đo t ng t

đo Euclid

đo Euclid đ c th c hi n trên hai véc t A và B có s ph n t b ng nhau, ngh a là m

= n đo này tính kho ng cách c a t ng c p đi m c a A và B mà t ng ng v i nhau theo tr c th i gian

Công th c tính đ đo Euclid:

経(畦,稽) =彪布(欠沈貸決沈) 態

Nh n xét r ng đ đo này d tính toán và có đ ph c t p th i gian là O(n) Ngoài ba tính ch t c a đ đo t ng t đã nêu trên, đ đo Euclid còn th a b t đ ng th c tam giác là

D(A, B) < D(A, C) + D(C, B) Vì v y đ đo Euclid là đ đo trong không gian metric 1

Do v y đ đo này có th thích ng d dàng v i k thu t l p ch m c Ngoài ra đ đo Euclid còn phù h p v i các phép bi n đ i thu gi m s chi u nh bi n đ i DFT, bi n đ i DWT, và bi n đ i PAA N u kho ng cách c a m i c p đi m trong công th c (2.1) có m t tr ng s thì đ c g i là kho ng cách Euclid có tr ng s (weighted Euclidean distance).

Hình 2.1 (a) A không t ng t v i B b ng đ đo Euclid (b) A t ng t v i B b ng đ đo DTW (ngu n [42])

1 Không gian metric là m t t p h p mà kho ng cách gi a các ph n t c a t p h p đã đ c xác đ nh Trong không gian metric, s lân c n c a đ i t ng ch đ c xác đ nh b i m t hàm kho ng cách th a mãn tính ch t d ng, đ i x ng và b t đ ng th c tam giác

Nh c đi m c a đ đo Euclid là ch làm vi c trên hai véc t có s chi u b ng nhau và nh y c m v i nhi u Hình 2.1 (a) minh h a tr ng h p A và B có hình dáng t ng t nh ng do nhi u nên chúng l ch pha v i nhau v tr c th i gian Vi c so kh p t ng c p đi m d li u c a A và B theo tr c th i gian có k t qu là kho ng cách Euclid gi a hai véc t là r t l n và hai đ i t ng này không t ng t

đo DTW

đo xo n th i gian đ ng (Dynamic Time Warping (DTW)) có ngu n g c t yêu c u nh n d ng ti ng nói Ti ng nói r t nh y c m v i các y u t nh t c đ nói, nhi u, v.v

Vì th có tr ng h p là hai m u ti ng nói trong th c t t ng t v i nhau nh ng hai m u l i l ch pha v tr c th i gian (ví d Hình 2.1 (b)) do các y u t k trên Vi c s d ng đ đo Euclid đ so trùng hai m u ti ng nói này thì không th phát hi n s t ng t

Vào n m 1971, Sakoe [43] gi i thi u ph ng pháp quy ho ch đ ng (dynamic programming) t i u d a trên k thu t chu n hoá th i gian (time-normalization) đ nh n d ng ti ng nói K thu t chu n hoá th i gian giúp lo i tr s khác bi t v th i gian gi a hai m u ti ng nói b ng cách xo n (warping) tr c th i gian c a m t m u đ có s trùng kh p nhi u nh t v i m u còn l i K ti p, kho ng cách sau khi chu n hoá th i gian c a hai m u đ c tính và xem nh là kho ng cách còn l i đã đ c t i thi u X lý t i thi u kho ng cách nh th đ c ti n hành r t hi u qu b ng quy ho ch đ ng

Vào n m 1994, Berndt và Clifford [38] s d ng đ đo DTW đ tính kho ng cách cho các chu i th i gian, và k t đó đ đo này th ng đ c s d ng trong các công tác khai phá d li u chu i th i gian

Khác v i đ đo Euclid là thay vì so trùng hai đ ng bi u di n d li u c a A và B b ng cách tính kho ng cách t ng c p đi m m t – m t (đi m th i c a A so v i đi m th i c a

B) thì trong đ đo DTW, m t đi m c a A có th ánh x v i nhi u đi m c a B và ánh x này không th ng hàng M c đích c a ánh x c p đi m trong đ đo DTW là tìm kho ng cách nh nh t (t i u) gi a A và B Hình 2.1 (b) th hi n r ng m c dù A và B l ch pha v i nhau v tr c th i gian nh ng v i kh n ng ánh x c p đi m không th ng hàng trong đ đo DTW thì kho ng cách gi a A và B là nh và hai đ ng bi u di n d li u này t ng

17 t v i nhau Thêm n a, v i cách ánh x c p đi m t i u thì đ đo DTW có th th c hi n trên hai chu i th i gian có chi u dài khác nhau

Có m t đi m đánh l u ý là đ đo DTW không tho b t đ ng th c tam giác nh đ đo Euclid, vì v y đ đo DTW không ph i là đ đo có tính ch t metric H qu là đ đo DTW khó có th thích ng v i k thu t l p ch m c

Chi ti t v cách tính đ đo DTW nh sau Cho hai chu i th i gian C = {c 1, c 2,…, c m } và

Q = {q 1, q 2,…, q n }, kho ng cách DTW gi a C và Q đ c tính b ng quy ho ch đ ng nh sau

経劇激(系,芸) = 紐血(兼,券)

血(件,倹) = 穴盤潔沈,圏珍匪+兼件券 崔血(件,倹 伐1)

血(件 伐1,倹 伐1) v i f(0, 0) = 0, f(i, 0) = f(0, j) = ∞ và d(c i , q j ) = (c i - q j ) 2

Ta có th s d ng d(c i , q j ) = |c i - q j | trong công th c (2.2) Trong tr ng h p này thì DTW(C, Q) = f(m, n)

Hình 2.2 (a) Ghép đôi các đi m d li u c a C và Q b ng đ đo DTW (b) ng xo n P bi u di n ánh x c p đi m t i u c a hai chu i th i gian

Hình 2.2 (a) minh ho s ghép đôi các đi m c a C và Q m t cách t i u theo công th c (2.2) Nh n xét r ng có vài đi m nh c 2, q 9 đ c ghép v i nhi u đi m khác Các c p ghép đôi này là (c 2, q 2), (c 2, q 3), (c 2, q 4), (c 2, q 5 ), (c 6 , q 9), (c 7, q 9),…

V m t tr c quan, đ tìm m t phép ánh x các c p đi m sao cho t i u, m t ma tr n chi phí tích l y (accumulated cost matrix) kích th c m × n đ c xây d ng Trong ma tr n này, m t ph n t (i, j) th hi n s ghép đôi c a hai đi m c i và q j Hình 2.2 (b) minh ho m t ma tr n chi phí tích l y và đ ng xo n (warping path) P đ c t o t các ô màu đen p k = (i, j) k Nh n xét r ng có nhi u cách ghép đôi hai đi m c a C và Q vì v y có nhi u đ ng xo n trong ma tr n chi phí tích l y ng xo n P = {p 1 , p 2 ,…, p K }v i K là s l n ghép đôi và max(m, n) ≤ K ≤ m + n – 1 sao cho t ng chi phí f(m, n) là t i thi u Nh v y kho ng cách DTW gi a C và Q là phép tính c ng d n chi phí d c theo đ ng xo n

経劇激(系,芸) =彪布 穴(喧賃)

Theo công th c (2.2), giá tr c a ô (m, n) là t ng tích lu chi phí d c theo P t ô (1, 1) t i ô (m, n) c a ma tr n Giá tr góc trên bên ph i c a ma tr n là f(m, n) đ c s d ng đ tính kho ng cách DTW gi a C và Q Nh n xét r ng đ đo Euclid là m t tr ng h p đ c bi t c a đ đo DTW khi m = n và đ ng xo n P là đ ng chéo chính c a ma tr n chi phí tích l y

T đó ta có th nh n th y u đi m và các nh c đi m c a đ đo DTW:

• u đi m: Cho phép nh n d ng nh ng chu i th i gian có hình d ng gi ng nhau nh ng có th l ch pha nhau v th i gian và chi u dài các chu i th i gian có th khác nhau

Vì v y đ đo DTW r t thích h p đ so trùng các chu i th i gian bi u di n d li u đa ph ng ti n (multimedia) nh âm thanh và hình nh

• Nh c đi m: o Có đ ph c t p th i gian và không gian cao, O(mn), vì v y chi phí tính toán kho ng cách DTW l n

19 o Không th a tính ch t b t đ ng th c tam giác, vì v y r t khó đ s d ng k thu t l p ch m c v i đ đo DTW đo DTW đ c ng d ng nhi u trong th c t nh ng do đ đo này có đ ph c t p th i gian cao nên đã có nhi u công trình nghiên c u đ a ra các gi i pháp t ng t c tính toán kho ng cách DTW (xem m c 2.6).

Chu n hoá d li u

Chu n hoá d li u là công vi c x lý d li u sao cho d li u chuy n đ i t i cùng m t t l (scale) đ cho phép d li u chu n hoá đ c so sánh v i nhau Ví d , gi s ta mu n so sánh nhi t đ trung bình c a hai thành ph vào tháng 9 M t thành ph có nhi t đ đo b ng Celsius, thành ph kia có nhi t đ đo b ng Fahrenheit Vi c so sánh này ch có th đ c th c hi n n u các d li u đ c chu n hoá v cùng m t đ n v nhi t đ

Cho chu i th i gian X = {x 1, x 2,…, x n }, có hai cách chu n hoá thông d ng cho X:

捲norm = 捲 伐 捲min

捲max 伐 捲min v i x min và x max là giá tr nh nh t và l n nh t c a chu i th i gian X Hai giá tr x min và x max là các h s min-max Nh v y, chu n hoá min-max chuy n giá tr x thành x norm trong mi n giá tr [0, 1]

捲norm =捲 伐 航

購 v i 航 là giá tr trung bình, và 購 là đ l ch chu n đ c tính b ng công th c:

券 布 捲 沈 態

航 và 購 đ c g i là các h s z-score

Han và các c ng s [44] đã nh n xét r ng chu n hoá z-score h u d ng khi khám phá các đi m b t th ng (outlier), ngh a là các đi m có giá tr quá cao hay quá th p, không đ i di n cho d li u (có th do l i khi l y m u)

Nh ta có th th y trong Hình 2.3, c hai phép chu n hoá đ u gìn gi hình d ng c a chu i d li u th i gian g c, nh ng chu n hoá z-score t o hình d ng chu i chu n hoá gi ng chu i d li u ban đ u h n Vì v y chu n hóa z-score đ c s d ng nhi u h n chu n hóa min-max trong khai phá d li u chu i th i gian Tuy nhiên, g n đây c ng có nhi u ng d ng khai phá d li u chu i th i gian (ví d [45, 46]) s d ng chu n hóa min- max b i vì hai lý do sau đây

• Chu n hoá z-score không đ m b o r ng các chu i chu n hóa có biên đ dao đ ng n m trong m t mi n tr đã xác đ nh tr c Ch ng h n, trong quá trình x lý hình nh, c ng đ đi m nh ph i đ c chu n hóa đ n m trong ph m vi t 0 đ n 255 đ i v i d i màu RGB, ho c m t thu t toán đi n hình c a m ng n ron đòi h i d li u trong mi n giá tr [0, 1] Do đó chu n hóa min-max đ c s d ng đ có các giá tr chu n hóa trong mi n giá tr cho tr c nh trong các tr ng h p đã nêu

• Chu n hóa min-max có chi phí tính toán th p h n chu n hóa z-score b i vì chi phí đ tìm h s min-max th p h n chi phí tính toán h s z-score Sau khi duy t qua t t c ph n t c a chu i th i gian thì h s min-max đ c xác đ nh Còn đ i v i chu n hóa z-score ta c n ph i làm thêm hai phép tính n a, đó là tính giá tr trung bình và r i tính đ l ch chu n theo công th c (2.6)

Hình 2.3 Hai ki u chu n hoá th ng đ c dùng trong khai phá d li u chu i th i gian

nh ngh a tìm ki m t ng t trên chu i th i gian

Theo Agrawal và các c ng s [13], các nhi m v thông th ng c a tìm ki m t ng t trên chu i th i gian t nh: nh ngh a 2.1: So trùng toàn b chu i (Whole matching) Cho tr c các chu i th i gian và chu i truy v n, và các chu i này có chi u dài b ng nhau So trùng toàn b chu i là tìm các chu i th i gian mà t ng t v i chu i truy v n nh ngh a 2.2: So trùng chu i con (Subsequence matching) Cho tr c chu i th i gian và chu i truy v n, và chu i th i gian có chi u dài l n h n chi u dài chu i truy v n So trùng chu i con là tìm các chu i con c a chu i th i gian mà t ng t v i chu i truy v n.

nh ngh a tìm ki m t ng t trên chu i th i gian d ng lu ng

Cho X là m t chu i th i gian d ng lu ng đ c th hi n b ng m t dãy các s th c x 1, x 2,…, x n … v i x n là giá tr đ c ghi nh n t i m c th i gian (time tick) m i nh t là n

Nh v y X là chu i th i gian đ n bi n đang ti n tri n v i s gia t ng c a n sau m i m c th i gian t X[x s : x e ] là chu i con b t đ u t i m c th i gian s và k t thúc t i m c th i gian e, và NX[nx s : nx e ] là chu i chu n hóa c a X[x s : x e ] t Y[y 1 : y m ] là chu i truy v n, hay còn g i là m u, có chi u dài là m, và NY[ny 1 : ny m ] là chu i chu n hóa c a Y

Ba nhi m v thông th ng c a tìm ki m t ng t cho Y trên chu i th i gian X d ng lu ng: nh ngh a 2.3: Tìm ki m chu i con t t nh t cho đ n hi n t i (Best-so-far search) Tìm m t chu i con X[x s : x e ] mà có kho ng cách D(NX, NY) là nh nh t i u này có ngh a r ng chu i chu n hóa NX g n nh t chu i chu n hóa NY Kho ng cách nh nh t là giá tr t t nh t đ c ghi nh n và X[x s : x e ] là chu i con t ng t nh t v i Y Kho ng cách nh nh t này còn đ c g i là giá tr bsf c a Y nh ngh a 2.4: Tìm ki m k lân c n g n nh t (k nearest neighbough search) Tìm m t t p h p k lân c n g n nh t ch a k chu i con X[x s : x e ] mà có chu i chu n hóa NX c a nó t ng t v i NY Các chu i con này ph i th a tính ch t sau G i k-NN là t p h p k lân

22 c n g n nh t ch a k chu i con này N u có m t chu i con 戟 鞄 倦-軽軽 thì 褐撃 樺 倦-軽軽 ta có D(NV, NY) ≤ D(NU, NY)

Nh n xét r ng n u k = 1, tìm ki m k lân c n g n nh t tr thành tìm ki m chu i con t t nh t cho đ n hi n t i nh ngh a 2.5: Tìm ki m vùng (Range search) Cho tr c m t ng ng kho ng cách , tìm b t k chu i con X[x s : x e ] nào mà chu i chu n hóa NX c a nó th a D(NX, NY) ≤

Nh n xét r ng c ng là bán kính truy v n vùng (range radius) c a Y Các chu i con t ng t tìm th y có th ch ng l p (overlap) lên nhau, vì th tìm ki m vùng đ c s a đ i thành truy v n tách r i (disjoint query) i u này có ngh a r ng v i t t c các chu i con t ng t đ c tìm th y mà ch ng l p lên nhau, truy v n tách r i ch gi l i chu i con nào mà có giá tr D(NX, NY) nh nh t.

T ng t c trong tính toán đ đo t ng t

S d ng bình ph ng kho ng cách

đo Euclid s d ng phép tính c n b c hai; tuy nhiên, n u b qua phép tính này, th h ng t ng đ i c a các chu i con t ng t v i chu i truy v n không thay đ i vì hàm tính kho ng cách Euclid có tính đ n đi u và lõm (monotonic and concave) Vi c không tính c n b c hai làm cho vi c tính toán kho ng cách Euclid nhanh h n.

T b s m trong khi tính kho ng cách Euclid

Trong quá trình tính toán kho ng cách Euclid, n u t ng các bình ph ng kho ng cách chênh l ch gi a m t s c p đi m d li u c a hai chu i th i gian v t quá ng ng kho ng cách thì vi c tính toán s d ng l i b i vì ng ng này đ c s d ng đ xác đ nh hai chu i th i gian có g n nhau (t ng t ) không Ý t ng t b s m (early abandoning) c ng đ c s d ng trong tính toán kho ng cách DTW (xem m c 2.6.3)

S p x p l i th t t b s m

Thông th ng, vi c tính toán kho ng cách c a hai chu i th i gian đ c th c hi n theo th t t trái sang ph i và t b s m trong khi tính toán kho ng cách c ng theo th t này Tuy nhiên, có m t th t khác đ vi c t b s m x y ra s m h n; đó là th t theo biên đ gi m d n c a các đi m d li u c a chu i th i gian.

Hàm ch n d i

G i D là hàm tính kho ng cách gi a hai chu i th i gian và F là hàm thu gi m s chi u ho c rút trích đ t tr ng c a m t chu i th i gian (xem m c 2.7) Cho tr c chu i th i gian C và chu i truy v n Q, ta c n xác đ nh C là chu i ng viên có th t ng t v i Q hay không b ng cách s d ng hàm ch n d i d F Hàm d F có tính ch t ch n d i n u tho đi u ki n:

Th ng thì hàm ch n d i d F có đ ph c t p th i gian và không gian th p h n nhi u so v i hàm tính kho ng cách D, do v y s d ng d F có th phát hi n s m các chu i th i gian không th t ng t v i chu i truy v n v i chi phí tính toán th p L u ý r ng n u C là chu i con c a m t chu i th i gian và b t đ ng th c (2.7) th a thì C đ c g i là chu i con ng viên

Hi u qu c a hàm d F đ c đánh giá theo kh n ng c t t a (pruning power) Ngh a r ng n u d F có kh n ng c t t a cao thì m t s l ng l n các chu i ng viên mà không th t ng t v i Q s b d F phát hi n s m và r i sau đó các chu i này b lo i ra kh i t p k t qu ch a các chu i t ng t G i g là s chu i ng viên b lo i b s m b i d F , và G là t ng s chu i ng viên, kh n ng c t t a c a d F đ c đ nh ngh a là

Ki u x p t ng

Khi có nhi u k thu t lo i b vi c tính toán kho ng cách không c n thi t, các k thu t này nên đ c s p x p theo ki u x p t ng (cascading fashion); ngh a r ng k thu t có đ ph c t p th i gian th p nh t đ c th c hi n đ u tiên N u k thu t này không th phát hi n các ng viên có th lo i b thì b c ti p theo k thu t nào có đ ph c t p th i d F (F(C), F(Q)) ≤ D(C, Q) (2.7)

24 gian th p nh t k ti p s đ c s d ng V i cách làm nh th thì nh ng k thu t k ti p đ c s d ng theo th t đ ph c t p th i gian gia t ng Vì v y các ng viên có th lo i b s b lo i ra m t m c l c s m nh t v i m t chi phí tính toán ít nh t.

Các k thu t t ng t c chuyên bi t cho đ đo DTW

Gi i h n s ghép đôi các đi m

K thu t này nh m h n ch s l ng các ô đ c đánh giá trong ma tr n chi phí tích l y

Có hai ph ng pháp tiêu bi u cho k thu t này là hình bình hành Itakura [27] và d i Sakoe-Chiba [28] Các tác gi c a hai ph ng pháp đã s a đ i thu t toán DTW chân ph ng nh m phù h p v i ng d ng nh n d ng ti ng nói; đó là m t đi m d li u trong m t chu i th i gian ch có th ghép đôi v i vài đi m lân c n v i nó (theo tr c th i gian) trong chu i kia ch không th ghép c p v i các đi m quá xa Ví d trong Hình 2.4 (a), m t đi m d li u c a C đ c ghép c p v i nhi u nh t 2 × w + 1 = 7 đi m lân c n c a

Q Vì v y đ ng xo n P trong ma tr n chi phí tích l y b gi i h n trong m t vùng c đ nh xung quanh đ ng chéo chính c a ma tr n Do đó đ ph c t p th i gian và không gian c a đ đo DTW đã gi m m t cách đáng k

(a) (b) Hình 2.4 (a) Ghép đôi các đi m d li u c a C và Q b ng đ đo DTW và d i Sakoe-

Chibav i đ r ng w = 3 (b) ng xo n P b gi i h n b i w

D i Sakoe-Chiba th ng đ c s d ng vì s đ n gi n và hi u qu c a ph ng pháp này trong vi c t ng t c khi tính toán kho ng cách DTW Hình 2.4 (b) minh ho d i Sakoe- Chiba có đ r ng w = 3 t o ra m t c a s xo n vùng đ c xác đ nh b i hai đ ng song song v i đ ng chéo chính Rõ ràng r ng d i Sakoe-Chiba ng n ng a đ ng xo n

P bi n d ng m t cách k d khi mà m t đi m d li u c a m t chu i th i gian đ c ghép c p v i quá nhi u đi m d li u c a chu i th hai nh trong Hình 2.2

Keogh và Ratanamahatana [32] đã ch ng t r ng vi c h n ch kích th c c a c a s xo n không ch t ng t c vi c tính toán kho ng cách DTW, b i vì ch m t ph n c a ma tr n chi phí tích l y c n tính toán, mà còn làm ch t tính ch t ch n d i c a công th c (2.7)

Silva và các c ng s [29] vào n m 2018 đã gi i thi u m t k thu t t ng t c trong khi tính toán đ đo DTW b ng cách lo i b vi c ghép đôi các c p đi m không h a h n c a hai chu i th i gian Các tác gi t ng c ng kh n ng lo i b s m các chu i con không có ti m n ng t ng t v i chu i truy v n trong b k thu t UCR-DTW b ng cách s d ng thêm k thu t PrunedDTW [47] Th c nghi m c a công trình nghiên c u này cho th y ph ng pháp c a Silva và các c ng s ch gia t ng hi u qu tìm ki m t ng t khi chi u dài c a chu i truy v n và ràng bu c xo n (warping constraint) l n Nh n xét r ng ràng bu c xo n là đ r ng w c a d i Sakoe-Chiba.

Hàm ch n d i cho DTW

Có hai hàm ch n d i th ng đ c s d ng:

• Hàm ch n d i LB_ Kim đ c trình bày b i Kim và các c ng s [31] Hàm ch n d i này s d ng b n c p đi m đ c tr ng c a hai chu i th i gian c n tính kho ng cách

Hình 2.5 LB_ Kim trên C và Q đã đ c chu n hoá

26 ó là đi m đ u, đi m cu i, đi m có giá tr l n nh t, và đi m có giá tr nh nh t Tuy nhiên, Rakthanmanon và các c ng s [25] cho r ng khi các chu i th i gian đ c chu n hóa, kho ng cách c a c p đi m có giá tr l n nh t và nh nh t th ng r t nh do đó ta có th b qua hai c p đi m này Vì v y đ ph c t p th i gian c a LB_ Kim là

O(1) Hình 2.5 minh ho hàm ch n d i LB_ Kim s d ng c p đi m đ u tiên và c p đi m cu i cùng c a C và Q

• Hàm ch n d i LB_ Keogh đ c trình bày b i Keogh và Ratanamahatana [32] Hàm ch n d i này làm vi c trên hai chu i th i gian có chi u dài b ng nhau; ngh a là |C|

= |Q| = n Các tác gi nh n th y m t th c t r ng h u h t các ng d ng s d ng đ đo DTW đ so trùng hai chu i th i gian đ u có đ ng xo n b gi i h n toàn c c Ngh a r ng i và j trong p k = (i, j) k b ràng bu c b i j - w ≤ i ≤ j + w, trong đó w đ c l p v i i trong tr ng h p c a d i Sakoe-Chiba V i th c t này, ta xây d ng hai chu i th i gian là U là đ ng c n trên (upper bound) và L là đ ng c n d i (lower bound) c a Q sao cho U và L xác đ nh m t hình bao (envelope) mà Q ph i n m bên trong i m d li u c a chu i th i gian U và L đ c tính theo công th c: u i = max{q i - w , q i – w + 1,…, q i + w - 1 , q i + w } l i = min{q i - w , q i – w + 1,…, q i + w - 1 , q i + w }

Hình 2.6 minh ho cách tính hàm ch n d i LB_ Keogh trên C và Q v i hình bao c a Q đ c xác đ nh b i U và L Hàm ch n d i này tính t ng kho ng cách c a các đi m d li u c a C ngoài hình bao Q Các tác gi cho r ng LB_ Keogh làm vi c trên hai chu i th i gian có cùng chi u dài và có đ ng xo n b gi i h n toàn c c b i đ r ng w c a d i Sakoe-Chiba s không gây ra l i tìm sót Vì v y k t khi hàm ch n d i LB_ Keogh đ c

Hình 2.6 LB_ Keogh trên C và Q có cùng chi u dài là n, do đó đ ph c t p th i gian c a hàm ch n d i này là O(n)

27 gi i thi u, đ đo DTW đã tr thành m t công c r t m nh trong khai phá d li u chu i th i gian

Khi C và Q có cùng chi u dài và ta có U và L c a Q, hàm LB_ Keogh đ c đ nh ngh a:

詣稽_ 懲勅墜直朕 (系,芸) = 標布 畔

(潔 沈 伐 憲 沈 ) 態 if 潔 沈 >憲 沈 (潔 沈 伐 健 沈 ) 態 if 潔 沈

Ngày đăng: 17/06/2021, 13:08

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm