Phân lớp dữ liệu chuỗi thời gian dựa vào tổ hợp bộ phân lớp 1 NN với độ đo khoảng cách khác nhau

Mặc dù có khá nhiều công trình nghiên cứu về bài toán phân lớp đữ liệu thông thường, hầu hết các giải thuật kinh điễn trong hai lĩnh vực học máy và khai phá dữ liệu đã không làm việc tốt

Trang 1

ĐẠI HỌC QUỐC GIA TP.HCM TRUONG DAI HOC BACH KHOA

PHAM MINH TRI

PHAN LOP DU LIEU CHUOI THOI GIAN DUA VAO

TO HOP BO PHAN LOP 1-NN VOI DO DO KHOANG

CACH KHAC NHAU

Chuyén nganh: Khoa hoc may tinh

Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ

TP HO CHi MINH, thang 8 nam 2020

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRUONG DAI HOC BACH KHOA -DHQG -HCM Cán bộ hướng dan khoa hoc :PGS.TS Duong Tuan Anh

Cán bộ chấm nhận xét 1 :TS Võ Thị Ngọc Châu

Cán bộ chấm nhận xét 2 : TS Phạm Văn Chung

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày

24 tháng 08 năm 2020

Thanh phan Hội đông đánh giá luận văn thạc sĩ gồm:

(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chầm bảo vệ luận văn thạc s1)

1 PGS.TS Quản Thành Thơ - Chủ tịch

3 TS Võ Thị Ngọc Châu - Phan biện 1

4 TS Phạm Văn Chung - Phản biện 2

5 PGS.TS Nguyễn Thanh Hiên - Uỷ viên

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nêu có)

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT TRƯỜNG ĐẠI HỌC BÁCH KHOA NAM Độc lập - Tự do - Hạnh phúc

I NHIỆM VỤ LUẬN VĂN THẠC SĨ

Họ tên học viên: PHẠM MINH TRÍ . s5 x£ MSHV: 1670698

Ngày, tháng, năm sinh: 08/04/1987 cS <5 x53 Noi sinh: Quang Ngai Chuyên ngành: Khoa học máy tính - - «s2 Mã số : 60.48.01.01

I TEN DE TAT:

PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO TÔ HỢP BỘ PHÂN LỚP 1-

NN VỚI ĐỘ ĐO KHOẢNG CÁCH KHÁC NHAU

H NHIỆM VỤ VÀ NỘI DUNG:

Đề xuất, nghiên cứu, hiện thực, đánh giá “Phân lớp dữ liệu chuỗi thời gian dựa vào tổ

hợp bộ phân lớp 1-NN với độ đo khoảng cách khác nhau”

HI NGÀY GIAO NHIỆM VỤ : 24/02/2020

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 21/06/2020

V CÁN BỘ HƯỚNG DẪN : PGS TS Dương Tuan Anh

Tp HCM, ngày tháng năm 20

(Họ tên và chữ ký) (Họ tên và chữ ký)

PGS.TS Dương Tuấn Anh

TRƯỞNG KHOA KH&KTMT

(Họ tên và chữ ký)

Ghỉ chủ: Học viên phải đóng tờ nhiệm vụ này vào trang đầu tiên của tập thuyết minh

LV

Trang 4

LỜI CẢM ƠN

Lời đầu tiên, tôi muốn gửi lời cảm ơn chân thành đến PGS.TS Dương Tuần Anh, người đã định hướng, hỗ trợ, hướng dẫn tôi trong suốt quá trình hoàn thiện luận văn này

và cũng là người truyền lửa để cho tôi có rất nhiều cảm hứng trong con đường học tập

và nghiên cứu hiện tại

Tôi cũng xin gửi lời cảm ơn đến tất cả các giảng viên bộ môn khoa học máy tính

đã luôn sẵn lòng giúp đỡ và hỗ trợ tôi, cũng như đảm bảo môi trường học tập và nghiên

cuu trong suốt thời gian học thạc sĩ

Ngoài ra, tôi xin gửi lời cảm ơn đến Viện Khoa học và Công nghệ Tính toán đã

hỗ trợ hệ thống tính toán hiệu năng cao trong quá trình thực nghiệm kết quả luận văn

của mình

Cuỗi cùng, tôi bày tỏ lòng biết ơn sâu sắc đên gia đình và bạn bè đã hỗ trợ, cô

vũ tôi trong suốt quá trình học tập và thực hiện luận văn này

Xin chan thành cảm ơn

Phạm Minh Trí 29/07/2020

Trang 5

đến dự báo thời tiết

Có nhiều phương pháp phân lớp dữ liệu chuỗi thời gian, chúng tôi chọn cách tiếp cận phương pháp phân lớp đữ liệu chuỗi thời gian dựa vào độ đo khoảng cách Nhiều đánh giá được thực hiện cho thấy rằng bộ phân lớp một lang giéng gan nhat(1-NN) 1a một trong những bộ phân lớp tốt nhất được sử dụng cho dữ liệu chuỗi thời gian Với mục tiêu là tăng độ chính xác phân lớp, chúng tôi đề xuất một cách tiếp cận là xây dựng một bộ tổ hợp phân lớp 1-NN với các độ đo khoảng cách khác nhau

Chúng tôi đã tiến hành thực nghiệm 28 tập dữ liệu mẫu từ website UCR cho để

xuất này và kết quả cho thấy độ chính xác phân lớp tốt hơn so với kỹ thuật phân lớp 1-

NN với từng độ đo khoảng cách riêng rẻ Trong quá trình thực nghiệm, chúng tôi cũng

đã đề xuất tiếp cận kỹ thuật xử lý song song đa luông trên nên tảng CPU để cải thiện

thời gian phân lớp Kết quả thu được là thời gian phân lớp nhanh gấp 2, 3 lần so với khi

chưa áp dụng kỹ thuật xử lý song song đa luồng

Trang 6

ABSTRACT

The research and application of time series data classification techniques have been attracting the attention of data researchers With the rapid development of technology, time series data has been collected by many devices Times series data mining will benefit to many areas, from health to weather forecast

There are many methods of time series data classification We choose the approach to time series data with classification method based on distance measures Many evaluations have been made showed that the one nearest neighbor (1-NN) is one

of the best classifiers used for time series data With the goal of increasing classification accuracy, we propose an approach to build a 1-NN classification ensemble with

different distance measures

We experimented on 28 sample data sets from the UCR website for this proposal and the results showed that the classification accuracy was better than the 1-NN classification technique with individual distance measures During studying, we also propose with technical approach parallel base on CPU with the aim of improving

classification times The results are time classification faster than 2 to 3 times.

Trang 7

LỜI CAM ĐOAN

Trong luận văn này, bất kỳ công thức, ý tưởng, nghiên cứu hay phân tích nào đã mượn bên thứ ba được chú thích nguồn dẫn trong mục tài liệu tham khảo theo quyền của tác giả

Tôi cam đoan rằng, ngoài các tài liệu tham khảo được trích dẫn, toàn bộ nội dung khác (bao gồm lý luận, công thức, hình ảnh, ) là thành quả nghiên cứu của tôi dưới sự

hướng dẫn của PGS.TS Dương Tuần Anh

Tôi khẳng định rằng, toàn bộ các nội dung tìm hiểu đều được chứng thực từ các nguồn tin cậy Các số liệu dẫn chứng và đánh giá hoàn toàn trung thực, tuyệt đối không gian lận hoặc phóng đại

Nêu có bât ky sự gian lận nào, tôi xin hoàn toàn chịu trách nghiệm về luận văn này

TP.Hồ Chí Minh, tháng 7 năm 2020

Phạm Minh Trí

Trang 8

MỤC LỤC

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI ¿+ 5652 S+£S+2E£E2EtEeEEverterrrxerrrered 1

1.1 GiGi thiGu VAI GE t:t:ađai 1

L.2 MUC tO cc cc ceeccccseesccccssccceescccecsscsccsscscesccseesesccussecssesesseunseseescssessesseusescusecscens 3 1.3 Phạm vi nghiÊn CỨU - 0000811101011 101 10 v0 1 11111111 1 re 3 1.4 Tóm lược kết Qua dat 001 ÔÖỐÔỐÖÖ 3 1.5 Câu trúc của luận văn G t HH ng 1113818 5115113818111 155 18 1111115111 He E11 gen re 4

CHƯƠNG 2: CƠ SỞ LÝ THUYT 22 2t 2 222 1221221221271211221211111 21c xe 6

2.1 Chuỗi thời gian - (LG 12113 E1 5 E5 111 11 1 1113 113K TH HT HT HT HH 6 2.2 Các thành phân đữ liệu chuỗi thời gian - - G s9 E83 vvrsrsrsed 7

2.2.1 Thanh phan xu hu6ng no ccccccscscsescscscssscscscscscsssssscsescscssssscscscscsessssssessssssseanes 7

2.2.2 Thanh phan Chu ky .ccecccccscccsccssscscsescscscssscscscscsesssssscsescscsessscscscacsessssssessssscseanes 8

2.2.3 Thành phần theo mmùủia - - 5 SE E5 9 511111118 ngư 8 2.2.4 Thanh phan bat Quy taC cc.cccccscscsescscscssscscscscscssessscsessscsvevscscscacscessesseseatacseaves 8

"3o 0000 1 8 2.3.1 Khải niệm phân lớp dữ liệu ee esssscsresrccccecceceecceceeceeeeeeeeeeeeseseseeseeseeseeees 8 2.3.2 Giải thuật phân lớp k-NN . G0000 9011 H11 g0 1 11 nhờ 10

"10 vi Nào na 11 2.4.1 Độ đo EucÌ1d - - - - ccc 2n ng ng nụ 11 2.4.2 Độ đo xoắn thời gian động (Dynamic Time Warping - DTW) 12 2.4.3 Complexity-invariant Distance (CII) 222331 3331155155185555555555555 16

2.5 Chuẩn hoá dit liGu c ceccscessessesssssssessecsecsesnesessessecuesuesssecsecsesueseesecsecseaneseeseeseeneens 17

2.6 Tiêu chí đáng giá độ chính xác phân lớp . S3 61111 11xxsssssrses 18

CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN .- 5 6s + + £sEekce£seeesee 22

3.1 Phân loại các phương pháp phân lớp dữ liệu chuỗi thời gian . 22

Trang 9

3.2 Phân lớp dữ liệu chuỗi thời gian dựa vào t6 hợp bộ phân lớp - 22 3.3 Một độ đo xoắn thời gian động cải tién: DD TW ccececcccescescesessescescsseseeseesesseseens 23 3.4 Phương pháp tính chặn dưới - - - - c9 1111111111 11v kg 24 3.4.1 Phương pháp tính chặn dưới K1m - - - - - (<< 1111111111111 1111555511152 24 3.4.2 Phương pháp tính chặn dưới của Ÿ1 - - - - - << << S911 11111 11111111111 se 25 3.4.3 KỸ thuật tính chặn dưới của Keogh - - - - << << S111 vn vờ 26

CHƯƠNG 4: PHƯƠNG PHÁP PHÂN LỚP ĐỄ XUẤTT -¿©ccccccsccs2 29

4.1 Sơ đỗ tổng quát của hệ thống - (+ E111 5 5111111111 cx che 29

4.2 Giải thích sơ đồ trình tự của hệ thỐng - - - + tư SE E11 ve, 30

4.3 Quy trình tông quát của hệ thống - - -EkkSưSưSxS SE 5 5151111111, 3] 4.4 Phân lớp dữ liệu với tổ hợp bộ phân lớp 1-NN với độ đo khoảng cách 32

CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ . - + 5+ 5c+cc+cvrcsrsrverxee 37

46

5.3.3 Kết quả thực nghiệm với loại đữ liệu tổng hợp - ¿5 scscscsssxssd 47

5.3.4 Kết quả thực nghiệm với loại dữ liệu mô phỏng hình học 49 5.3.5 Kết quả thực nghiệm với loại dữ liệu cảm bin - G sen ren seeeo 50 5.3.6 Kết quả phân lớp với loại dữ liệu nhịp tỉm 2-22 se £sEsEeEseeeeed 52

Trang 10

CHƯƠNG 6: KẾT LUẬN - -G c1 Sn S28 858 8385389813818 8 18 9885558 53 5155158 8 Eesererd 60

6.1 Những kết luận của luận văn - - S 11311 51511111111, 60

6.2 Huong phat triÊn trong tương lai eee eseesecscscscscsssescsessssscssssseseseseseens 61

TAI LIEU THAM KHẢO ¿<< SE SEEEEEE3 E331 3 51511111111, 62

Trang 11

MỤC LỤC HÌNH

Hình 1 Minh hoạ dữ liệu chuỗi thời gian[ 5] 52 2 S2 +1 E2 E£2E+k£zE+E£zEzxesce2 7

Hình 2 Số lượng sales từ 1993 đến 2013[6] ¿+ + + + 1E Ererererred 7 Hình 3 Tính thời vụ biểu thị sự biến động định kỳ trong lĩnh vực kinh doanh{6 | 8 Hinh 4 Vi du bai toan phan 16p cee eseesssnsessncccccecceceeceeseeseeseeeeeeeeeeeeesseseesseestees 9 Hình 5 Quá trình phân lớp dữ liệu G0001 999 09 030 111 1g ng vớ 9 Hình 6 Một lân cận gần nhất của mẫu thử XX - se E33 ES3 SE SE E8 SE sex reeree 10 Hình 7 Biên độ hai chuỗi thời gian với độ đo Euclid ¿5 + s55 cscsczszse: 12 Hình § So sánh độ đo DTW với Euclid[ 1Ô ], - S313 1 ve 13 Hình 9 Ma trận xoắn của chuỗi thời gian A và BỊ 1 1] . - 2 - - <<: 14 Hình 10 Độ đo xoắn thời gian động với ràng buộc dải Sakoe-Chiba[ 12] 15 Hình 11 Ràng buộc toàn cục của độ đo xoăn thời ø1an động «s2 16 Hình 12 mô tả kỹ thuật chặn dưới của Kim|[ 19 ] ccccccccceeceecceeeseseseeseeeeees 25 Hình 13 mô tả kỹ thuật chặn dưới của Y 1| 19 ] 212311 3111111185185155155355555 25

Hình 14 mô tả đường bao U và L của chuỗi Q[19] 5-5 2 5s £+s+s££+ezxcsz 27

Hình 15 mô tả kỹ thuật chặn dưới của Keogh[ 19] 5 5S S55 S 5S xss2 28 Hình 16 Sơ đồ tông quát hệ thống . - - - E3 5 5 51511111111, 30 Hình 17 Quy trình tổng quan hệ thống .- - - - + k+tSESxSxE#ESESEeESEEEEEeEeErkcvreei 31 Hinh 18 So dé giai thuat phân lớp dữ liệu dựa vào tổ hợp độ đo khoảng cách 33 Hình 19 hinh chụp của một con cá[ 2] .- - 222223333 3313335515185185155555555555 41

Hình 20 Ví dụ về bốn nhóm lớp của bộ dữ liệu Trace -.- - << xxx: 42

Hình 21 biêu diễn ba lớp của dữ liệu CBE - E3 1 1xx, 43

Hình 22 Hình ảnh mô hình thu thập của bộ dữ liệu Haptics - - - - - 43 Hình 23 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu A diac - 5 2 5s <+s£+s<s2 44 Hình 24 thời gian phân lớp trên bộ dữ liệu Adiac S555 45

Hình 25 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu Beef 5-2 2 55 c<c+<ssc<2 46

Hình 26 thời gian phân lớp trên bộ dữ liệu Beef - - c1 ve 47

Hình 27 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu CBE - 2 55 2 +scs£+ecscs2 48

Trang 12

Hình 30 thời gian phân lớp trên bộ dữ liệu Haptics << <5 5S 5S SSs++sssesss 20

Hình 31 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu Trace -. - 55s c+<cscs2 51

Hình 32 thời gian phân lớp trên bộ dữ liệu Trace s53 51 Hình 33 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu ECGFiveDays . 52 Hình 34 thời gian phân lớp trén bd dit ligu ECGFiveDays ceeececceeeeeeeeeeeeees 53

Trang 13

MUC LUC BANG

Bang 1 Ma trận nhầm lẫn . - << S333 E31 EEE115E1515 115151111 rk ri 19

Bang 2 Ki higu cac bO dit 16.0 38

Bang 3 Ki hiéu cdc bé dit liu (ti€p theo) woo cscescssesesssescsesescssevesseseseseeeens 39 Bang 4 thông tin các bộ dữ liệu được sử dụng thực nghiệm - «<< «+ 39 Bảng 5 thông tin các bộ dữ liệu được sử dụng thực nghiệm (tiếp theo) 40

Bảng 6 tổng hợp tỉ lệ lỗi phân lớp của các bộ đữ liệu thực nghiệm 55

Bang 7 tong hgp tỉ lệ lỗi phân lớp của các bộ đữ liệu thực nghiệm(tiễp theo) 55

Bang 8 tổng hợp thời gian phân lớp của các bộ dữ liệu thực nghiệm 55

Bảng 9 tổng hợp thời gian phân lớp của các bộ dữ liệu thực nghiệm (tiếp theo) .56

Bang 10 Thời gian phân lớp khi áp dụng kỹ thuật đa luồng . 5-5-5-5¿ 58 Bảng 11 Thời gian phân lớp khi áp dụng kỹ thuật đa luồng(tiếp theo), 59

Trang 14

CHƯƠNG 1: GIỚI THIỆU ĐÈ TÀI

Trong chương này, chúng tôi sẽ trình bày các vân đê mà đê tài tập trung nghiên cứu, các động cơ đê thực hiện, mục tiêu cụ thê của đê tài Ngoài ra, chúng tôi sẽ mô tả các kêt quả đạt được trong quá trình nghiên cứu, khảo sát nội dung của đề tài

1.1 Giới thiệu van đề

Việc nghiên cứu và ứng dụng kỹ thuật phân lớp chuỗi dữ liệu thời gian hiện nay đang được thu hút nhiều sự chú ý của các nhà nghiên cứu đữ liệu Với sự phát triển nhanh

về công nghệ, dữ liệu chuỗi thời gian được thu thập bởi rất nhiều thiết bị Việc khai phá dữ liệu của dữ liệu chuỗi thời gian mang lại lợi ích hữu hiệu trải dài nhiều lĩnh vực từ y tế đến

dự báo thời tiết

Đối với đữ liệu chuỗi thời gian, vẫn đề đặt ra là chúng ta cần thực hiện phân lớp

(classification) chúng để có thể sử dụng hiệu quả cho các mục đích khác nhau: phân tích

dữ liệu, dự báo Phân lớp dữ liệu chuỗi thời gian là xây dựng một bộ phân lớp (classifier) dựa trên các chuỗi thời gian đã được gắn nhãn lớp để xác định nhãn lớp cho các chuỗi thời gian chưa được phân lớp Một số phương pháp truyền thống đề thực hiện bài toán phân lớp như: k-lan can gan nhất, mang no ron, cay quyét định,

Mặc dù có khá nhiều công trình nghiên cứu về bài toán phân lớp đữ liệu thông

thường, hầu hết các giải thuật kinh điễn trong hai lĩnh vực học máy và khai phá dữ liệu đã không làm việc tốt với dữ liệu chuỗi thời gian, do những tính chất đặc biệt của loại dữ liệu này Ba tính chất của dữ liệu chuỗi thời gian gồm cd: (i) Số chiều nhiều, (ii) mỗi tương quan cao giữa các điểm dữ liệu trên chuỗi thời gian va (iii) đữ liệu có thể có nhiễu đã khiến cho việc phân tích và khai phá dữ liệu trên loại dữ liệu này trở nên khó khăn và đây thách thức

Trang 15

Phương pháp phân lớp chuỗi dữ liệu thời gian có thê chia làm ba loại chính: phương pháp dựa vào đặc trưng, phương pháp dựa vào mô hình, phương pháp dựa vào khoảng cách Thứ nhất, trong phương pháp phân lớp dựa vào đặc trưng, dữ liệu chuỗi thời gian

được chuyên đối thành các vector đặc trưng và sau đó phân lớp bởi các bộ phân lớp thông dụng như mạng neutron nhân tạo hoặc cây quyết định, Một số phương pháp trích xuất đặc trưng bao gồm các phương pháp phổ như: biển đổi chuối Fourier rời rạc(Discrete Fourier transform - DFT) hoặc bién déi wavelet roi rac (Discrete Wavelet transform - DWT), Shapelet[1|, Thứ hai, phương pháp dựa vào mô hình, mô hình phân lớp được giả định rằng tất cả chuỗi thời gian trong một lớp được tạo ra bởi cùng mô hình cơ bản và

do đó một chuỗi thời gian mới được gán với lớp của mô hình hợp hợp nhất với nó Một vài tiếp cận dựa vào mô hình như: f hồi quy(auto-regressive) , Markov dn( hidden Markov), Cuối cùng, phương pháp dựa vào khoảng cách, sử dụng các đo độ tương tự hoặc không tương tự để đo khoảng cách giữa các chuỗi thời gian và sau đó các khoảng cách này được

sử dụng trong các mô hinh phân lớp như: &-nearest neighbor(k-NN) và SVM(Support Vector Machines ), Trong luận văn này, chúng tôi chọn cách tiếp cận ở phương pháp cuối cùng, phương pháp phân lớp dựa vào khoảng cách

Đối với phương pháp phân lớp chuỗi thời gian dựa trên khoảng cách, các độ đo khoảng cách được sử dụng và sau đó khai thác chúng trong bộ phân lớp &-NN Nhiều đánh

giá đã được thực hiện Ding và các cộng sự năm 2008 [2] cho thấy rằng bộ phân lớp 7-NN

là một trong những bộ phân lớp tốt nhất trong các phương pháp phân lớp đữ liệu chuỗi thời gian

Trong các độ do khodng cach (distance measures) dugc str dung trong dir liéu chudi

thời gian Mỗi loại dữ liệu chuỗi thích ứng với một số độ đo nhất định Nhằm mục tiêu tăng

độ chính xác độ phân lớp của dữ liệu chuỗi thời gian Câu hỏi đặt ra rằng liệu rằng chúng

ta xây dựng một /ố hơp(ensemble) các độ đo này sau đó sử dụng chúng vào kỹ thuật phân lớp 1-NN Vi vay, dé tài luận văn này sẽ đưa ra một cách tiếp cận để giải quyết bài toán

tăng độ chính xác phân lớp bằng cách kết hợp các độ đo khoảng cách dữ liệu chuỗi thành

một /ố hợp (ensemble) các độ đo khoảng cách và phân lớp dữ liệu dựa trên tổ hợp này

Trang 16

1.2 Mục tiêu

Chúng tôi thực hiện đề tài này nhằm đánh giá hiệu năng của giải thuật 1-NN với tô hợp các độ đo khoảng cách: Euclid, DTW, DTW với kỹ thuật tính chặn dưới LB_Keogh, DDTW, CID với tiêu chí: (1) độ chính xác phan lớp và (2) đánh giá thời gian thực thi trong việc phân lớp chuỗi thời gian cho bài toán phân lớp chuỗi đữ liệu thời gian, với các vẫn đề

chính như sau:

o Nghiên cứu tính toán độ đo xoắn thời gian động DTW với kỹ thuật tính chặn dưới LB_Keogh

o_ Nghiên cứu độ đo DDTW, biến thể của độ đo DTW

o_ Nghiên cứu độ đo bất biến với độ phức tạp CID

o_ Nghiên cứu hiện thực giải thuật 7-NN với các độ đo khoảng cách: ED, DTW, DTW với

kỹ thuật tính chặn dưới LB_ Keogh, CID

©o Nghiên cứu hiện thực giải thuật 7-NN với tổ hợp các độ đo khoảng cách: ED, DTW, DTW voi ky thuat tinh chan du6i LB_Keogh, DDTW, CID

o_ So sánh độ chính xác(ti lệ lỗi phân lớp càng nhỏ, đo chính xác càng cao) giữa giải thuật

1-NN với các độ đo tương ứng và 1-NN với tô hợp các độ đo trên một số dữ liệu mẫu

1.4 Tóm lược kết qua đạt được

Sau thời gian nghiên cứu và hiện thức, chúng tôi đạt được các kết quả như sau:

- Hiểu rõ độ đo xoăn thời gian động DTW thuần tuý và DTW với kỹ thuật tính

chặn dưới LB_ Keogh

Hiểu rõ độ đo DDTW, một biến thể của độ đo DTW.

Trang 17

-_ Hiểu rõ độ đo bất biến với độ phức tạp CID

-_ Nắm được giải thuật k- lân cận gần nhất (#-NN) dùng cho bài toán phân lớp dữ

liệu chuỗi thời gian

- Hiện thực thành công giải thuật 7-NN với các độ đo: ED, DTW, DTW với kỹ thuật tính chặn dưới LB_ Keogh, DDTW, CID

-_ Hiện thực thành công giải thuật 7-NN với bộ tổ hợp các độ đo khoảng cách: ED, DTW, DIW với kỹ thuật tính chặn dưới LB_ Keogh, DDTW, CID

- So sánh độ chính xác của giải thuật 7-NN các độ đo: ED, DTW, DTW với kỹ thuật tính chặn dưới LB_ Keogh, DD TW, CID và giải thuật 7-NN với bộ tô hợp các

độ đo khoảng cách trên Kết quả thực hiện cho thấy giải thuật 7-NN với bộ tổ hợp các độ đo có độ chính xác cao hơn giải thuật 7-NN với các đo đo khoảng cách riêng

rẻ Nhưng đổi lại thời gian chạy giải thuật 7-NN với bộ tô hợp các độ đo rất lâu so

với giải thuật 7-NN với độ đo khoảng cách riêng rẻ

- _ So sánh độ chính xác và thời gian xử lý của giải thuật 7-NN với các độ đo thành

phân Kết quả cho thấy độ đo CID có độ chính xác và thời gian chạy nhanh hơn so

với các độ đo còn lại

-_ Qua thực nghiệm, chúng tôi cũng đề xuất cải tiến thuật toán song song đa luông

và kết quá thu được là thời gian phân lớp nhanh hơn 2, 3 lần so với thời gian phân

lớp 7-NN với bộ tô hợp các độ đo

Như vậy, về cơ bản chúng tôi đã đáp ứng được yêu cầu của đề tài đặt ra Chúng tôi

sẽ trình bày chỉ tiết trong các phân sau

Ẩ vr - A ww

1.5 Câu trúc của luận văn

Tô chức các thành phân còn lại của luận văn gôm các phần như sau:

Chương 2 là các cơ sở lý thuyết mà chúng tôi sử dụng trong luận văn này Bao gồm

các lý thuyết cơ bản về chuỗi thời gian, lý thuyết về các độ đo khoảng cách của chuỗi thời

gian, các phương pháp phân lớp chuỗi đữ liệu chuỗi thời gian, các phương pháp chuẩn hoá

dữ liệu và các tiêu chí đánh giá độ chính xác trong kỹ thuật phân lớp

Trang 18

Chương 3 của đề tài sẽ giới thiệu các công trình nghiên cứu liên quan Các công trình này trình bày về các kỹ thuật phân lớp, các độ đo khoảng cách trong dữ liệu chuỗi

thời gian, từ cơ sở này đề xuất giải thuật nhằm tăng độ chính xác phân lớp trong việc phân

lớp dữ liệu chuỗi thời gian

Chương 4 bao gồm các nội dung chỉ tiết cho việc thiết kế và hiện thực kỹ thuật phân lớp 7-NN với bộ tổ hợp các độ đo khoảng cách khác nhau

Chương 5 cua dé tai này sẽ trình bày các kết quả thực nghiệm đạt được trong quá trình nghiên cứu, qua đó đánh giá được độ chính xác của kỹ thuật phân lớp, so sánh độ chính xác giữa kỹ thuật phân lớp 7-NN với độ đo khoảng cách: ED, DTW, DTW với kỹ thuật tính chặn dưới LB_ Keopgh, CID và kỹ thuật phân lớp 7-NN với bộ tổ hợp các độ đo khoảng cách Đồng thời, qua việc thực nghiệm, đánh giá được độ chính xác và thời gian thực thi của các độ đo khoảng cách khi được sử dụng trong kỹ thuật phân lớp 7-NN

Chương 6 là một số kết luận, đóng góp của đề tài và hướng phát triển trong tương

lai của đề tải.

Trang 19

CHUONG 2: CO SO LY THUYET

Chương này trình bày cơ sở lý thuyết về chuỗi thời gian, các thành phân của chuỗi thời gian, các độ đo khoảng cách sử dụng cho đữ liệu chuỗi thời gian, các kỹ thuật ràng

buộc, các phương pháp phân lớp chuỗi dữ liệu chuỗi thời gian, các tiêu chí đánh giá độ

chính xác trong kỹ thuật phân lớp

2.1 Chuỗi thời gian

Một chuỗi thời gian (time series), ký hiệu toán học là 7, là chuỗi giá trị số thực,

trong đó mỗi trị biêu diễn một giá trị tại những thời điểm cách đều nhau: 7 = £¿, to, ., th

Phân tích chuỗi thời gian có mục đích là nhận dạng và tập hợp các yếu tố, những biến đôi

theo thời gian mà nó ảnh hưởng đến giá trị của biến quan sát Dữ liệu chuỗi thời gian có

lượng dữ liệu rất lớn và xuất hiện trong nhiều lĩnh vực ngày nay như y học, kỹ thuật, tai chính, v.v [4][5]

Trang 20

Hình 1 Minh hoạ dữ liệu chuỗi thời gian|[5]

Dữ liệu chuỗi thời gian được chia ra thành hai loại chính Thứ nhất, loại chuối thời gian thông thường(regular time series), loại này được gọi là số liệu Loại còn lai 1a chudi thời gian bất thường (events), loại này được gọi là các sự kiện

Trong các ứng dụng thực tế, khi chúng ta quan sát chuỗi thời gian, chúng ta nhận

thấy rằng ở dữ liệu chuỗi thời gian có bốn thành phan ảnh hưởng lên mỗi giá trị đó là xu hướng (trend), chu kỳ ( cyclical), mùa (seaconal) và bất quy tắc (irregular)

2.2 Cac thành phần dữ liệu chuỗi thời gian

2.2.1 Thành phan xu hướng

Thanh phan nay thê hiện sự tăng hay giảm giá trị của chuỗi thời gian trong một giai đoạn nào đó Hình 2 mô tả số lượng người bán hàng của một doanh nghiệp có xu hướng ting (upward trend), xu hướng giảm (downward trend) theo thời gian từ năm 1993 đến năm 2013

Trang 21

2.2.2 Thành phân chu kỳ

Là thành phân có chuỗi biến đổi dạng sóng quanh một xu hướng nào đó Trong thực

tế, thành phần này rất khó xác định và người ta thường xem nó như một phần của thành phần xu hướng

2.2.3 Thành phần theo mùa

Là thành phân thê hiện sự biến đối lặp đi lặp lại tại từng thời điểm cô định theo một khoảng thời gian nào đó Hình 3, minh hoạ tính thời vụ biểu thị sự biến động định kỳ trong các lĩnh vực kinh doanh xảy ra thường xuyên dựa trên một mùa cụ thể

Là thành phần thẻ hiện sự biến đổi ngẫu nhiên, bất thường không thể đoán được của

chuỗi thời gian

2.3 Phân lớp dữ liệu

2.3.1 Khái niệm phân lớp dữ liệu

Phân lớp dữ liệu là kỹ thuật phân tích dữ liệu nhằm rút trích các mô hình mô tả các

lớp đữ liệu từ các mô hình đó Quá trình này bao gồm các bước chính như: huấn luyện

(training) và phân lớp (classification)

Trang 22

Trong bước huấn luyện, chúng ta tiễn hành xây dựng bé phan Iép (classifier) bang

cách phân tích đữ liệu huấn luyện với các mẩu(sample) và nhấn(label) tương ứng Mỗi mẫu

dữ liệu được biểu diễn bởi một vector thuộc tính Một mẫu dữ liệu X được biểu diễn X =

⁄q, Xa, .,„ với n là số lượng thuộc tính của dữ liệu Bước này xem như là quá trình học

của một hàm anh xa: y = ƒ(X) với y là nhãn của lớp được dự đoán cia mau X

Tại bước phân lớp, bộ phân lớp sẽ được sử dụng đề thực hiện gán nhãn lớp cho các

mẫu trong tập kiểm fh{test)

Trong lĩnh vực khai phá dữ liệu, phân lớp là một kỹ thuật rất phố biến và có tầm quan trọng, nó thường là bước cuối cùng trong một tiễn trình khai phá Hình 5 cho chúng

ta thấy các bước để xây dựng một hệ thông phân lớp

Hinh 5 Qua trinh phan lop dit liéu

Trang 23

Việc phân lớp dữ liệu chuỗi thời gian có thể được thực hiện trên các g1ả1 thuật phan

lớp truyền thống khá phố biến như: phân lớp với k-ân cận gần nhất (k-Nearest Neighbor), phân lớp với máy véc tơ hỗ trợ (Support Vector Machine), phân lớp với cây quyết định

(DescIsion Tree), phân lớp với mạng nơ-ron(Neunal Network),

2.3.2 Giải thuật phân lớp k-NN

Giải thuật k-NN (k-Nearest Neighbor) được sử dụng nhiều trong các lĩnh vực khai

phá đữ liệu Đây là kỹ thuật để phân lớp đối tượng dựa vào khoảng cách gân nhất giữa đối

tượng cần gán nhãn lớp với tất cả các đối tượng khác trong tập huấn luyện

Đối với giải thuật &-NN thì một đối tượng sẽ được phân lớp theo lớp chiếm đa số

trong & lân cận gần với nó nhất, trong đó & là một số nguyên dương chọn trước khi thực

hiện giải thuật Việc chọn giá trị & này liên quan đến kết quả phân lớp, nếu k quá nhỏ thì kết quả có khả năng ảnh hưởng bởi nhiễu, nếu k lớn thì nhiều phân tử lân cận sẽ có thê từ

các lớp khác

k-NN là một trong những thuật toán học giám sáí( superv1sed-learning) đơn giản nhất trong máy học Khi huấn luyện, thuật toán này không học được điều øì từ dữ liệu huấn luyện, mọi tính toán được thực hiện khi nó cần dự đoán kêt quả của dữ liệu mới

Hình 6 Một lán cận gần nhất của mẫu thử X

Trang 24

Hình 6 ví dụ rằng chúng ta có hai lớp dấu (+) và dấu (-), một mẫu thử X sẽ thuộc về

lớp (+) hoặc (-) nếu khoảng cách từ mẫu thử X đến lớp đó là gần nhất Giải thuật &-NN tim

thấy một lân cận gần nhất của mẫu thử X là lớp (-) nằm trong vòng tròn Như vậy mẫu thử

X thuộc về lớp (-)

Giải thuật &-NN được thực hiện qua một số bước như sau:

1 Xác định giá trị tham số k (số láng giềng gần nhất)

2 Tính toán khoảng cách giữa chuỗi dữ liệu thời gian Q = {q¡,q›, ,q„ } trong tập kiểm tra (test set) đến tất cả các chuỗi dữ liệu thời gian trong /ập huấn luyện T (training set) sử dụng độ đo khoảng cách

3 Sắp xếp theo thứ tự tăng dân và xác định & lân cận gần nhất với chuỗi thời gian Q

4 Lay tat cả các lớp của k láng giềng gần nhất đã xác định

5 Dựa vào lớp đa số của các láng giềng gần nhất đề xác định lớp cho chuỗi thời gian

Trang 25

TM

PARED Euclidean Distance

Hình 7 Biên độ hai chuỗi thời gian với do do Euclid Hinh 7 1a mét vi du vé bién d6 cua hai dir liéu chudi thdi gian khi 4p dung độ đo khoang cach Euclid

D6 do Euclid chi co thé tinh néu n = m No don giản, hiệu quả và vì vậy độ đo khoảng cách Euclid trở thành phô biến trong nhiều tác vụ khai phá đữ liệu Tuy nhiên, bên cạnh việc yêu câu rằng hai chuỗi thời gian có độ dài bằng nhau, độ đo Euclid còn có nhược

điểm khác là rất nhạy với nhiễu , không thích hợp với dữ liệu có độ co giãn biên độ khác

nhau

2.4.2 Độ đo xoắn thời gian động (Dynamic Time Warping - DTW)

Hai chuỗi thời gian có hình dạng giống nhau nhưng bị lệch pha một khoảng thời gian nào đó thì việc tính khoảng cách hai chuỗi thời gian này bằng cách sử dụng Euclid để tính khoảng cách thì khoảng cách Euclid giữa chúng lớn một cách vô lý Vì vậy nhược điểm này được khắc phục một cách tương đối bằng độ đo DTW Độ đo DTW được cộng đồng xử lý giọng nói giới thiệu bởi Itakura[7] vào năm 1975 và được Sakoe — Chiba[8] cải tiên năm 1978, sau đó được đưa vào ứng dụng trong xử lý chuỗi thời gian do nhóm tác giả Berndt, Donald Clifford, James [9] gidi thiéu vao nam 1994

Điểm khác biệt giữa độ đo khoảng cách Euclid và độ đo xoắn thời gian động là với

độ đo khoảng cách Euclid chỉ có thê tính khoảng cách giữa hai chuỗi thời gian có độ dài

bằng nhau bằng cách tính từng cặp điểm ( điểm thứ ¿ của chuỗi thứ nhất so với điểm thứ ¡

Trang 26

so với chuỗi thứ hai) thì độ đo xoắn thời gian động có thê đo được khoảng cách giữa hai chuỗi thời gian có độ dài khác nhau( hay có biên độ dao động khác nhau)

Với độ đo DTW, một điểm dữ liệu của chuỗi thời gian này có thể ánh xạ với nhiều

điểm của chuỗi thời gian khác, các ánh xạ này không thắng hàng

Hinh 8 So sanh dé do DTW voi Euclid[10]

Độ đo xoắn thời ø1an có nhược điểm so với độ đo Euclid là thời gian tính toán chậm hơn rất nhiều

Cho hai chuỗi thời gian A= đ,d;, ,d„ và B = bị,b;, , b„, để tính khoảng cách DTW giữa 4 và B, chúng ta cần xây dựng một ma trận xoắn Q(4,B) của 4 và B, có kích thước ø x mò, với phân tử Q; ¡ = Q(¡, b,) là khoảng cách giữa hai diém a; va bị

Q(a;,b;) = (a;- bj)? = (2)

Đường xoắn ƒ là tập hợp các giá trị của ma trận thê hiện khoảng cách giữa hai điểm

A và B thể hiện ánh xạ giữa 4 và B Giả sử rằng đường xoắn ƒW có & giá trị, khi đó độ đo

DTW giữa 4 và B là đường xoắn có chỉ phí nhỏ nhất và được tính toán theo công thức:

Trang 27

Œ,j) =d(a;, b,) + min{ð( — 1,j — 1),ôŒ — 1,j),ðŒ,j — 1)} — 4

Trong đó ổ(,j) là tổng khoảng cách tích luỹ tại ô thit (i, 7) ca ma tran OQ

Sequence B | Ì Hình 9 Ma trận xoắn của chuỗi thời gian A và B[11]

Đường đi xoăn ƒƒ cân thoả mãn các điêu kiện như sau:

-_ Điều kiện biên: w; = (1,1) và wy = (n,rn) đảm bảo rằng đường xoắn bắt đầu từ điểm đầu tiên và kết thúc ở điểm cuối cùng của hai chuỗi đang được tính khoảng cách

- Tinh lién tuc: cho wy = (a,b) và wy_„ = (a’, b’) thi (a — a’) va (b — b’) phai bé

hơn hoặc bằng 1 Điều nay đảm bảo rằng các bước trong được đi J là từ một phần

tử trong ma trận Ó đến một phần tử liền kể với phần tử này

- Tinh don diéu tang: cho w, = (a,b) va Wg_1 = (a',b’) thi (a — a’) va (b — b’)

luôn lớn hơn hoặc bằng 0 Điều này đảm bảo rằng chỉ mục của cặp điểm trong bước sau chỉ có thê băng hoặc lớn hơn chỉ mục của cặp điêm trong bước trước

Độ đo DTW linh hoạt hơn so với độ đo Euclid trong việc tính toán độ tương tự giữa hai chuỗi có độ dài bất kì Mặc dù thích hợp hơn cho dữ liệu dạng chuỗi hơn độ đo Euclid nhưng DTW lại có độ phức tạp tính toán cao hơn là Ó/n.1) với m, nở là độ dài của hai chuỗi

so v6i O(n) ở độ đo Euclid với ø là độ dài của hai chuỗi được so sánh Độ do Euclid 1a

14

Trang 28

trường hợp đặc biệt của độ đo DTW khi đường đi xoắn Jƒ thoả mãn điều kiện là phần tử

thứ & trong đường đi xoắn wy = (¡,j) thì ¡ = j = k và hai chuỗi cần tính toán khoảng cách

có độ dài băng nhau

Dé dam bảo đường xoăn không đi chệch hướng quá xa so với đường chéo của ma trận Ó thì người ta đã đưa ra một số ràng buộc mang ý nghĩa toàn cục Ràng buộc này được định nghĩa một tập con của 7a frận xoắn ( warping matrix) cho phép đường xoăn di chuyển

mở rộng và được gọi lại một cửa số xoăn (warping window) Mục đích của các ràng buộc này nhằm tăng tốc tính toán khoảng cách DTW vì làm giảm không gian tìm kiếm đường xoắn và ngăn trường hợp một phân nhỏ của chuỗi này ánh xạ vào phần lớn hơn tương ứng

của chuối khác

- Ràng buộc dải Sakoe- Chiba: Ràng buộc Sakoe-Chiba [8] được đề xuất bởi Sakoe

và Chiba năm 1978 định nghĩa đường xoắn hợp lệ như sau:

W = W\,W;, , W, ., Wy VỚI max(n,n) S K < m + nñT— Ï vàwy # (,j)y là

tập các phần từ liền kề xác định ánh xạ giữa hai chuỗi thời gian với điều kiện

li — j| < ø với ø là một số nguyên dương cho trước gọi là cửa số xoắn

Trang 29

- Ràng buộc hình bình hành ltakura: Ràng buộc này được đề xuất bởi Itakura năm

1975 cũng định nghĩa đường xoắn hợp lệ được ràng buộc trong một tập con của ma

trận xoăn của hai chuỗi thời gian theo dạng hình bình hành Cho điểm i“" và điểm

j?" tương ứng của hai chuỗi 4, Ö thì ràng buộc Itakura phát biêu rằng điểm j** phải

được định nghĩa bởi một hàm biến thiên thời gian theo i?":

ith = w(ith) (5) Với một sô điều kiện biên: w(1) = 1,w(n) = m va điêu kiện liên tục:

2.4.3 Complexity-invariant Distance (CID)

Batista va cong su [13] da dé xuat d6 do CID(Complexity-invariant Distance) bat biến với độ phức tạp sử dụng sự khác nhau về độ phức tạp giữa hai chuỗi thời gian như một hệ số điều chỉnh và áp dụng lên độ đo khoảng cách hiện tại Nó phụ thuộc vào /h bat biến(invariance) được yêu cầu của từng lĩnh vực Trong nhiều năm qua, đã có nhiều nghiên cứu để xuất các phương pháp và độ đo khoảng cách nhằm tìm ra sự tương tự giữa các chuỗi

l6

Trang 30

dữ liệu thời gian, tuy nhiên cộng đồng khoa học còn chưa quan tâm đến độ đo bát biển phức tạp (complex invariane)

Vân đê năm ở chỗ, đôi với các lĩnh vực khác nhau, các lớp có sự phức tạp khác nhau

và cặp hai phân tử phức tạp trông có vẻ giông nhau dưới con mắt nhìn của con người nhưng chúng lại năm ở lớp khác nhau Tiêu biêu là ngành sinh học, ví dụ như loại dơi thuộc lớp thu có vú chứ không phải là thuộc họ chim dù nó có thể bay

Cho hai chuỗi thời gian Ó và C, độ do CID được tính theo công thức sau:

CID(Q,C) = ED(Q,C) x CF(Q,C) (7) Với :

CE(Q) = VUETG — qis1)? (9)

Hệ số điều chỉnh độ bất biến phức tạp của một chuỗi thời gian có cách tính khá đơn

giản, dễ dàng với độ phức tạp Ó/) và dễ dàng áp dụng vào các độ đo khoảng cách

2.5 Chuẩn hoá dữ liệu

Việc quan trọng trước khi tiễn hành phân lớp dữ liệu là quá trình chuẩn hoá dữ liệu, tức là việc chúng ta đưa thuộc tính về một trọng số bằng nhau và ngăn chặn những thuộc tính với miền giá trị lớn khỏi ảnh hưởng tới những thuộc tính với miễn giá trị nhỏ Ở đây, hai kỹ thuật chuẩn hoá dữ liệu như sau:

17

Trang 31

Chuẩn hoá lớn nhất — nhỏ nhất (min-max normalization): phương pháp này dựa

trên giá trị lớn nhất và nhỏ nhất của chuỗi thời gian để ánh xạ những giá trị của chuỗi này

sang chuỗi năm trong một miền xác định lớn nhất — nhỏ nhất mới Chúng ta sẽ quy ước

miễn giá trị mới là /0,77 Với phương pháp này vẫn bảo tồn được mỗi quan hệ của những

giá trị ban đầu

Giả sử chúng ta có dữ liệu chuỗi thời gian 4 Công thức chuẩn hoá như sau:

Giả sử chúng ta có chuỗi A = ø,g;, ,đ„ có chiều dài ø được biến đổi thành

nhimg gia tri cua chudi A’ = (aj, a}, ,a!, ) cũng có chiều dài z dựa trên giá rị trung bình

(mean) và giá trị độ lệch chuẩn của chuỗi 4 Phương pháp này có lợi khi giá trị lớn nhất và

nhỏ nhất là không biết hoặc khi những phân tử có nhiễu làm cho phương pháp min-max không áp được được

A’[i] = z0) voi A = == vaa(A) = Pree (11)

Chuan hoa z-score thường được sử dụng trong khai phá dữ liệu chuỗi thời gian Chuẩn hoá z-score giúp cho các chuỗi đữ liệu có hình dạng giống nhau nhưng khác nhau

về biên đô sẽ tương tự nhau hơn

2.6 Tiêu chí đáng giá độ chính xác phân lớp

Đề đánh giá độ chính xác phân lớp của kỹ thuật phân lớp người ta được ra các độ

đo đê kiêm tra độ chính xác của bộ phân lớp trong việc dự đoán các nhãn lớp của các máu

Trang 32

fhiử (test) là một trong những tiêu chí được quan tâm Các độ đo đánh giá chất lượng phân lớp thường được sử dụng một số thuật ngữ sau:

Mau positive (Positive tuples): là những mẫu thuộc lớp được quan tâm nhất trong quá trình phân lớp

Mau negative (Negative tuples): là những mẫu còn lại không thuộc mẫu positive

True positives (TP): các mẫu positive được phân lớp đúng nhãn

True negatives (TN): các mẫu negative được phân lớp đúng nhãn

False positives(FP): các mẫu negative nhưng được phân lớp là positive

False negatives(FN): các mẫu positve nhưng được phân lớp là negative

Những thuật ngữ này thường được mô tả trong za trận nhầm lân (confusion matrix)

mẫu thuộc lớp i và được gán nhãn là lớp 7 bởi bộ phân lớp, 1 < i,j < m

Các độ đo thường được sử dụng để đánh giá chất lượng phân lớp:

19

Trang 33

D6 chinh xac (accuracy) là tỉ lệ các mẫu được phân lớp đúng nhãn lớp, được tính bởi công thức:

TP+TN P+N

Trong trường hợp tỉ lệ mẫu positive và negative trong tập dữ liệu phân bố không đều Ví dụ như trong trường hợp negative chiếm đa số, trong khi mẫu positive chỉ chiếm

một phan nhỏ thì độ đo độ chính xác có thê không thê đánh giá được chất lượng của sự

phân lớp Vì thế chúng ta cần có độ đo riêng biệt để đánh giá độ tốt trong việc phân lớp

mau positive va negative D6 do sensitivity va specificity dugc stt dung cho viéc danh gia chat luong phan ldp cu thé d6i voi mau positive va negative Sensitivity hay recall là tỉ lệ phân lép dung cho cdc mau possitive Nguoc lai, specificity 1a ti 16 phan lé6p đúng cho các

Trang 34

- Toc a6 (speed): đề cập đến chỉ phi tinh toán trong quá trình khởi tạo và sử dụng các bộ phân lớp

- Sự vững chắc (Robusiness): đề cập đến khả năng phân lớp với dữ liệu nhiễu hoặc

thiếu dữ liệu

- Khả năng thích nghỉ với qui mô đữ liệu (Scalability) : đề cập đến khả năng xây dựng hiệu quả bộ phân lớp trên dữ liệu có kích thước lớn

-_ Khả năng diễn dịch ( Inerpretability): đề cập đến khả năng giải thích về kết quả

có được từ bộ phân lớp Cây quyết định và các luật phân lớp có thể được dễ dàng diễn giải, trong khi đó mạng nơ-ron nhân tạo có khả năng diễn giải mô hình kém

21

Trang 35

CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN

Ở chương này, chúng tôi trình bày các công trình về các kỹ thuật phân lớp, các độ

đo khoảng cách trong dữ liệu chuỗi thời gian, từ cơ sở này đề xuất giải thuật nhằm tăng độ

chính xác phân lớp trong việc phân lớp đữ liệu chuỗi thời gian

3.1 Phân loại các phương pháp phân lớp dữ liệu chuỗi thời gian

Bài toán phân lớp chuỗi thời gian (Time-series classification - TSC) vẫn đang là một trong những vẫn đề được các nhà khoa học đữ liệu quan tâm Theo nhóm tác giả Abanda và cộng sự năm 2019 trong bài báo khảo sát tổng quan [14], phân lớp chuỗi thời gian đang là chủ đề nghiên cứu ngày càng tăng do lượng dữ liệu chuỗi thời gian đang được tạo ra ngày càng lớn trên nhiều lĩnh vực Loại đữ liệu này có rất nhiều trong cuộc sống và

bao phủ rất nhiêu lĩnh vực, vì vậy nó trở thành một nhiệm vụ đây thách thức và nhiều cách tiếp cận khác nhau đã được thực hiện, bao gom cach tiép cận dựa trên khoảng cách 7-NN

là phương pháp phân lớp được sử dụng rộng rãi trong phân lớp dữ liệu chuỗi thời gian dựa trên khoảng cách do tính đơn giản nhưng hiệu suất vẫn tốt Tuy nhiên, hiệu suất của nó được cho là việc sử dụng các thước đo khoảng cách cụ thể trong quá trình phân lớp và không phải chính bộ phân lớp

3.2 Phân lớp dữ liệu chuỗi thời gian dựa vào tô hợp bộ phân lớp

Jason Lines và cộng sự [15], nhóm tác giả đã đề xuất phương pháp phân lớp dữ liệu chuỗi thời gian dựa vào tô hợp bộ phân lớp với độ đo khoảng cách khác nhau đã tiễn hành

kiêm chứng, đánh giá hai giải thuyết: (1) Kiém chứng giải thuyết rằng có sự khác nhau về

độ chính xác khi bộ phân lớp láng giềng gần sử dụng các độ đo khác nhau (2) Kiểm chứng

giải thuyết rằng việc kết hợp các độ đo với tô hợp các bộ phân lớp sẽ đạt được độ chính

xác tốt nhất Tác giả đã tiễn hành các kiểm chứng và rút ra các kết luận như sau: Thứ nhất,

không có sự khác biệt đáng kế về độ chính xác giữa bộ phân lớp sử dụng thước đo khoảng

cách co giãn trên các tập dữ liệu Thứ hai, có sự vượt trội đáng kê độ chính xác của tô hợp

bộ phân lớp so với bộ phân lớp riêng rẽ Như vậy, đối với dữ liệu chuỗi thời gian, để tăng

Trang 36

độ chính xác của bộ phân lớp thì chúng ta có thể kết hợp nhiều bộ phân lớp yếu đề tạo một

bộ phân lớp mạnh hơn

Tác giả Pawlovsky và cộng sự [16] đã giới thiệu bộ tổ hợp dựa trên độ đo khoảng cách sử dụng phương pháp phân lớp láng giềng gân nhất (&-NN) và ứng dụng của phương pháp này vào bộ đữ liệu thông thường chuẩn đoán bệnh tim Tác giả đã đề xuất việc sử dụng tô hợp nhiều độ đo khoảng cách khác nhau như: Euclid, Manhattan, Chebyshev, Sorensen, Canberra và Mahalanobis cho phương pháp phân loại &-NN để tăng độ chính

xác phân lớp đối với đữ liệu thông thường heart disease (chuẩn đoán về bệnh tim mạch) Tác giả đã tiến hành thực nghiệm trên hai câu hình: (1) sử dụng tổ hợp ba độ đo khoảng

cách là Euclid, Manhattan, Mahalanobis và (2) sử dụng tố hợp năm độ đo khoảng cách là Euclid, Manhattan, Chebyshev, Sorensen, Canberra va Mahalanobis Két qua cho thay độ chính xác trung bình gần 85% đối với bất cứ câu hình nào trên tập dữ liệu nhịp tim UCI

Cleveland [17]

3.3 Một độ đo xoắn thời gian động cải tiền: DDTW

Tác giả Keogh và Pazzani[18] năm 2001 đã đề xuất một cải tiến của độ đo xoăn thời

gian động (DTW) được gọi là Derivative Dynamic Time Warping(DDTW) Voi do do này,

đầu tiên sẽ biến đổi chuỗi thời gian thành một chuỗi có khác biệt thứ tự Mục tiêu của

DDTW là giới thiệu một biện pháp tránh các điểm ky di, trong do mot điểm trên một chuỗi

có thê ánh xạ vào một phân lớn của chuỗi thời gian khác tạo nên kết quả sai lệch

Cho một chuỗi thời gian A = a¡,dạ, ,„, được biên đối thành chuỗi thời gian

A' = (a,dq;, , đ„ _ + ) khi a; được định nghĩa là trung bình của các giá trị độ dôc đ;_,

Aj Va Qj, đ;+, Khi đó ø; được tính theo công thức:

Trang 37

Độ đo DDTW được thiết kế để giảm nhiễu có thể ảnh hưởng xấu đến độ đo xoắn

thời gian động (DTW) và cũng được sử dụng cùng với DTW để tính toán độ tương tự giữa

toán và để tạo một ràng buộc chặn dưới tương đối, tức là một phương pháp có thê xấp xỉ

khoảng cách DTW một cách gần nhất Đề làm rõ kỹ thuật chặn dưới này, chúng tôi trình bày ba loại kỹ thuật chặn dưới hiện nay được sử dụng pho biến là của Kim và cộng sự năm

2001, Y1 và cộng sự năm 1998 va Keogh năm 2002 [19]

3.4.1 Phương phúp tính chặn dưới Kim

Mục đích cơ bản của Kim là phát triển một kỹ thuật mà tăng cường hiệu suất tìm

kiếm trong một cơ sở dữ liệu lớn mà không cho phép xảy ra lỗi tìm sót Để thực hiện kỹ thuật này Km và cộng sự đã đưa ra một hàm tính khoảng cách mới mà xap xỉ cận dưới đối với khoảng cách xoăn thời gian động và thoải mãn điêu kiện của bât đăng thức tam giác

Trang 38

Hình 12 mô tả kỹ thuật chặn dưới của Kim| 19]

Hình 12 mô tả kỹ thuật tính chặn dưới của Kim với điểm 4 và D là điểm đầu và

điểm cuôi, B và C là điểm nhỏ nhất và điểm lớn nhât của chuỗi

Ưu điểm của kỹ thuật này là sử dụng giải thuật lập chỉ mục chính xác dùng khoảng

cách DTW để cải thiện hiệu suất tìm kiếm trong tập dữ liệu lớn

Khuyết điểm: kỹ thuật tính chặn dưới của Kim giới thiệu hàm chặn dưới với bốn

đặc trưng đảm bảo việc không xảy ra sự miễn sai so với các kỹ thuật lập chỉ mục thông thường nên không khả thi với việc đánh giá chỉ mục đa chiêu

3.4.2 Phương phúp tính chặn dưới của Y¡

Yi đã phát triển một kỹ thuật đánh chỉ mục xấp xỉ đưới khoảng cach DTW ding

phương pháp FastMap Phương pháp này là ánh xạ một chuỗi có chiều dài ø sang một điểm

k chiều bằng một hàm rút trích đặc trưng và xây dựng một cấu trúc chỉ mục đa chiều trên

tập điểm k chiều này Ngoài ra, kỹ thuật này còn giúp tiết kiệm được chỉ phí CPU và truy cập đĩa bằng cách chấp nhận đánh đổi một tỉ lệ nhỏ độ nhạy

Trang 39

Hình 13 mô tả kỹ thuật tính chặn dưới của Y7 với phần gạch mờ và dọc biểu diễn

phan tối thiếu của những điểm tương ứng đóng góp vào khoảng cách DTW và được xem như là giá trị chặn dưới

Ưu điểm: có thê áp dụng kỹ thuật này để đánh chỉ mục đa chiều với khoảng cách DTW va tiết kiệm được nhiều chi phí CPU và thời gian truy xuất đĩa cứng

Khuyết điểm: kỹ thuật cho phép xảy ra sự miễn sai và độ phức tạp thực tế của nó là 0(Mn?) với M là kích thước của tập dữ liệu nên không thể áp dụng cho các tập dữ liệu

lớn và những chuỗi dài

3.4.3 Kỹ thuật tinh chan duci cia Keogh

Hai phương pháp tính chặn dưới của Kim và Yi đã cho thấy những cải tiến so với

trước nhưng vẫn có nhược điểm là tính chặn dưới của chúng vẫn chưa được chặt Vì vậy,

Keogh va cac cộng sự đã phát triển một kỹ thuật tính chặn dưới dựa trên ý tưởng của ràng buộc toàn cục mà tiêu biểu là hai trường hợp ràng buộc dải Saikoe-Chiba và hình bình hành Itakura Ràng buộc toàn cục mà Keogh sử dụng cho đường xoắn wy = (i,j), sao cho j —

r Si < j+r với r được định nghĩa là phạm vi xoắn cho phép của một điểm trong chuỗi thời gian Trong trường hợp dải Sakoe-Chiba thì z độc lập với ¡ nhưng đỗi với hình

bình hành Itakura thì z là một hàm theo biến ï

Keogh định nghĩa hai chuỗi và 7 tương ứng là chặn trên và chặn dưới mới như

sau:

U; = max (Gi-r:qi+r) (19) L; = min (Qi-r: qi+r) (20)

Vi vay, chuỗi Ó được bao bởi hai đường chặn trên và chặn dưới Ngoài ra, mặc dù dải Sakoe-Chiba với thông số z là độ rộng không thay đổi nhưng khi áp dụng thì đường bao không phải là đường có chiều dày bằng nhau ở mọi thời điểm Thực tế, đường bao

Trang 40

trong trường hợp dải Sakoe-Chiba chỉ rộng hơn khi chuỗi Ó có sự thay đổi nhanh, hẹp khi chuỗi Q càng phẳng

0 5 10 15 20 25 30 35 40

Hình 14 mô tả đường bao D và L của chuối O[19]

Hình 14 mô tả đường bao Ù và L tương ứng với chuỗi Ó trong hai trường hợp ràng buộc toản cục dải Sakoe-Chiba (A) và hình bình hành Itakura (B)

Một tính chất quan trọng của hai đường chặn trên U và chặn dưới 7 đó là: V; U; >

qi = L¡ Tù đó, Keogh xây dựng nên một hảm tính chặn dưới với khoảng cách DTW mới

Định dạng
Số trang	133
Dung lượng	11,96 MB