Mặc dù có khá nhiều công trình nghiên cứu về bài toán phân lớp đữ liệu thông thường, hầu hết các giải thuật kinh điễn trong hai lĩnh vực học máy và khai phá dữ liệu đã không làm việc tốt
Trang 1ĐẠI HỌC QUỐC GIA TP.HCM TRUONG DAI HOC BACH KHOA
PHAM MINH TRI
PHAN LOP DU LIEU CHUOI THOI GIAN DUA VAO
TO HOP BO PHAN LOP 1-NN VOI DO DO KHOANG
CACH KHAC NHAU
Chuyén nganh: Khoa hoc may tinh
Mã số: 60.48.01.01 LUẬN VĂN THẠC SĨ
TP HO CHi MINH, thang 8 nam 2020
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRUONG DAI HOC BACH KHOA -DHQG -HCM Cán bộ hướng dan khoa hoc :PGS.TS Duong Tuan Anh
Cán bộ chấm nhận xét 1 :TS Võ Thị Ngọc Châu
Cán bộ chấm nhận xét 2 : TS Phạm Văn Chung
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày
24 tháng 08 năm 2020
Thanh phan Hội đông đánh giá luận văn thạc sĩ gồm:
(Ghi rõ họ, tên, học hàm, học vị của Hội đồng chầm bảo vệ luận văn thạc s1)
1 PGS.TS Quản Thành Thơ - Chủ tịch
3 TS Võ Thị Ngọc Châu - Phan biện 1
4 TS Phạm Văn Chung - Phản biện 2
5 PGS.TS Nguyễn Thanh Hiên - Uỷ viên
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý chuyên ngành sau khi luận văn đã được sửa chữa (nêu có)
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT TRƯỜNG ĐẠI HỌC BÁCH KHOA NAM Độc lập - Tự do - Hạnh phúc
I NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ tên học viên: PHẠM MINH TRÍ . s5 x£ MSHV: 1670698
Ngày, tháng, năm sinh: 08/04/1987 cS <5 x53 Noi sinh: Quang Ngai Chuyên ngành: Khoa học máy tính - - «s2 Mã số : 60.48.01.01
I TEN DE TAT:
PHÂN LỚP DỮ LIỆU CHUỖI THỜI GIAN DỰA VÀO TÔ HỢP BỘ PHÂN LỚP 1-
NN VỚI ĐỘ ĐO KHOẢNG CÁCH KHÁC NHAU
H NHIỆM VỤ VÀ NỘI DUNG:
Đề xuất, nghiên cứu, hiện thực, đánh giá “Phân lớp dữ liệu chuỗi thời gian dựa vào tổ
hợp bộ phân lớp 1-NN với độ đo khoảng cách khác nhau”
HI NGÀY GIAO NHIỆM VỤ : 24/02/2020
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 21/06/2020
V CÁN BỘ HƯỚNG DẪN : PGS TS Dương Tuan Anh
Tp HCM, ngày tháng năm 20
(Họ tên và chữ ký) (Họ tên và chữ ký)
PGS.TS Dương Tuấn Anh
TRƯỞNG KHOA KH&KTMT
(Họ tên và chữ ký)
Ghỉ chủ: Học viên phải đóng tờ nhiệm vụ này vào trang đầu tiên của tập thuyết minh
LV
Trang 4LỜI CẢM ƠN
Lời đầu tiên, tôi muốn gửi lời cảm ơn chân thành đến PGS.TS Dương Tuần Anh, người đã định hướng, hỗ trợ, hướng dẫn tôi trong suốt quá trình hoàn thiện luận văn này
và cũng là người truyền lửa để cho tôi có rất nhiều cảm hứng trong con đường học tập
và nghiên cứu hiện tại
Tôi cũng xin gửi lời cảm ơn đến tất cả các giảng viên bộ môn khoa học máy tính
đã luôn sẵn lòng giúp đỡ và hỗ trợ tôi, cũng như đảm bảo môi trường học tập và nghiên
cuu trong suốt thời gian học thạc sĩ
Ngoài ra, tôi xin gửi lời cảm ơn đến Viện Khoa học và Công nghệ Tính toán đã
hỗ trợ hệ thống tính toán hiệu năng cao trong quá trình thực nghiệm kết quả luận văn
của mình
Cuỗi cùng, tôi bày tỏ lòng biết ơn sâu sắc đên gia đình và bạn bè đã hỗ trợ, cô
vũ tôi trong suốt quá trình học tập và thực hiện luận văn này
Xin chan thành cảm ơn
Phạm Minh Trí 29/07/2020
Trang 5đến dự báo thời tiết
Có nhiều phương pháp phân lớp dữ liệu chuỗi thời gian, chúng tôi chọn cách tiếp cận phương pháp phân lớp đữ liệu chuỗi thời gian dựa vào độ đo khoảng cách Nhiều đánh giá được thực hiện cho thấy rằng bộ phân lớp một lang giéng gan nhat(1-NN) 1a một trong những bộ phân lớp tốt nhất được sử dụng cho dữ liệu chuỗi thời gian Với mục tiêu là tăng độ chính xác phân lớp, chúng tôi đề xuất một cách tiếp cận là xây dựng một bộ tổ hợp phân lớp 1-NN với các độ đo khoảng cách khác nhau
Chúng tôi đã tiến hành thực nghiệm 28 tập dữ liệu mẫu từ website UCR cho để
xuất này và kết quả cho thấy độ chính xác phân lớp tốt hơn so với kỹ thuật phân lớp 1-
NN với từng độ đo khoảng cách riêng rẻ Trong quá trình thực nghiệm, chúng tôi cũng
đã đề xuất tiếp cận kỹ thuật xử lý song song đa luông trên nên tảng CPU để cải thiện
thời gian phân lớp Kết quả thu được là thời gian phân lớp nhanh gấp 2, 3 lần so với khi
chưa áp dụng kỹ thuật xử lý song song đa luồng
Trang 6ABSTRACT
The research and application of time series data classification techniques have been attracting the attention of data researchers With the rapid development of technology, time series data has been collected by many devices Times series data mining will benefit to many areas, from health to weather forecast
There are many methods of time series data classification We choose the approach to time series data with classification method based on distance measures Many evaluations have been made showed that the one nearest neighbor (1-NN) is one
of the best classifiers used for time series data With the goal of increasing classification accuracy, we propose an approach to build a 1-NN classification ensemble with
different distance measures
We experimented on 28 sample data sets from the UCR website for this proposal and the results showed that the classification accuracy was better than the 1-NN classification technique with individual distance measures During studying, we also propose with technical approach parallel base on CPU with the aim of improving
classification times The results are time classification faster than 2 to 3 times.
Trang 7LỜI CAM ĐOAN
Trong luận văn này, bất kỳ công thức, ý tưởng, nghiên cứu hay phân tích nào đã mượn bên thứ ba được chú thích nguồn dẫn trong mục tài liệu tham khảo theo quyền của tác giả
Tôi cam đoan rằng, ngoài các tài liệu tham khảo được trích dẫn, toàn bộ nội dung khác (bao gồm lý luận, công thức, hình ảnh, ) là thành quả nghiên cứu của tôi dưới sự
hướng dẫn của PGS.TS Dương Tuần Anh
Tôi khẳng định rằng, toàn bộ các nội dung tìm hiểu đều được chứng thực từ các nguồn tin cậy Các số liệu dẫn chứng và đánh giá hoàn toàn trung thực, tuyệt đối không gian lận hoặc phóng đại
Nêu có bât ky sự gian lận nào, tôi xin hoàn toàn chịu trách nghiệm về luận văn này
TP.Hồ Chí Minh, tháng 7 năm 2020
Phạm Minh Trí
Trang 8MỤC LỤC
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI ¿+ 5652 S+£S+2E£E2EtEeEEverterrrxerrrered 1
1.1 GiGi thiGu VAI GE t:t:ađai 1
L.2 MUC tO cc cc ceeccccseesccccssccceescccecsscsccsscscesccseesesccussecssesesseunseseescssessesseusescusecscens 3 1.3 Phạm vi nghiÊn CỨU - 0000811101011 101 10 v0 1 11111111 1 re 3 1.4 Tóm lược kết Qua dat 001 ÔÖỐÔỐÖÖ 3 1.5 Câu trúc của luận văn G t HH ng 1113818 5115113818111 155 18 1111115111 He E11 gen re 4
CHƯƠNG 2: CƠ SỞ LÝ THUYT 22 2t 2 222 1221221221271211221211111 21c xe 6
2.1 Chuỗi thời gian - (LG 12113 E1 5 E5 111 11 1 1113 113K TH HT HT HT HH 6 2.2 Các thành phân đữ liệu chuỗi thời gian - - G s9 E83 vvrsrsrsed 7
2.2.1 Thanh phan xu hu6ng no ccccccscscsescscscssscscscscscsssssscsescscssssscscscscsessssssessssssseanes 7
2.2.2 Thanh phan Chu ky .ccecccccscccsccssscscsescscscssscscscscsesssssscsescscsessscscscacsessssssessssscseanes 8
2.2.3 Thành phần theo mmùủia - - 5 SE E5 9 511111118 ngư 8 2.2.4 Thanh phan bat Quy taC cc.cccccscscsescscscssscscscscscssessscsessscsvevscscscacscessesseseatacseaves 8
"3o 0000 1 8 2.3.1 Khải niệm phân lớp dữ liệu ee esssscsresrccccecceceecceceeceeeeeeeeeeeeseseseeseeseeseeees 8 2.3.2 Giải thuật phân lớp k-NN . G0000 9011 H11 g0 1 11 nhờ 10
"10 vi Nào na 11 2.4.1 Độ đo EucÌ1d - - - - ccc 2n ng ng nụ 11 2.4.2 Độ đo xoắn thời gian động (Dynamic Time Warping - DTW) 12 2.4.3 Complexity-invariant Distance (CII) 222331 3331155155185555555555555 16
2.5 Chuẩn hoá dit liGu c ceccscessessesssssssessecsecsesnesessessecuesuesssecsecsesueseesecsecseaneseeseeseeneens 17
2.6 Tiêu chí đáng giá độ chính xác phân lớp . S3 61111 11xxsssssrses 18
CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN .- 5 6s + + £sEekce£seeesee 22
3.1 Phân loại các phương pháp phân lớp dữ liệu chuỗi thời gian . 22
Trang 93.2 Phân lớp dữ liệu chuỗi thời gian dựa vào t6 hợp bộ phân lớp - 22 3.3 Một độ đo xoắn thời gian động cải tién: DD TW ccececcccescescesessescescsseseeseesesseseens 23 3.4 Phương pháp tính chặn dưới - - - - c9 1111111111 11v kg 24 3.4.1 Phương pháp tính chặn dưới K1m - - - - - (<< 1111111111111 1111555511152 24 3.4.2 Phương pháp tính chặn dưới của Ÿ1 - - - - - << << S911 11111 11111111111 se 25 3.4.3 KỸ thuật tính chặn dưới của Keogh - - - - << << S111 vn vờ 26
CHƯƠNG 4: PHƯƠNG PHÁP PHÂN LỚP ĐỄ XUẤTT -¿©ccccccsccs2 29
4.1 Sơ đỗ tổng quát của hệ thống - (+ E111 5 5111111111 cx che 29
4.2 Giải thích sơ đồ trình tự của hệ thỐng - - - + tư SE E11 ve, 30
4.3 Quy trình tông quát của hệ thống - - -EkkSưSưSxS SE 5 5151111111, 3] 4.4 Phân lớp dữ liệu với tổ hợp bộ phân lớp 1-NN với độ đo khoảng cách 32
CHƯƠNG 5: THỰC NGHIỆM VÀ ĐÁNH GIÁ . - + 5+ 5c+cc+cvrcsrsrverxee 37
46
5.3.3 Kết quả thực nghiệm với loại đữ liệu tổng hợp - ¿5 scscscsssxssd 47
5.3.4 Kết quả thực nghiệm với loại dữ liệu mô phỏng hình học 49 5.3.5 Kết quả thực nghiệm với loại dữ liệu cảm bin - G sen ren seeeo 50 5.3.6 Kết quả phân lớp với loại dữ liệu nhịp tỉm 2-22 se £sEsEeEseeeeed 52
Trang 10CHƯƠNG 6: KẾT LUẬN - -G c1 Sn S28 858 8385389813818 8 18 9885558 53 5155158 8 Eesererd 60
6.1 Những kết luận của luận văn - - S 11311 51511111111, 60
6.2 Huong phat triÊn trong tương lai eee eseesecscscscscsssescsessssscssssseseseseseens 61
TAI LIEU THAM KHẢO ¿<< SE SEEEEEE3 E331 3 51511111111, 62
Trang 11MỤC LỤC HÌNH
Hình 1 Minh hoạ dữ liệu chuỗi thời gian[ 5] 52 2 S2 +1 E2 E£2E+k£zE+E£zEzxesce2 7
Hình 2 Số lượng sales từ 1993 đến 2013[6] ¿+ + + + 1E Ererererred 7 Hình 3 Tính thời vụ biểu thị sự biến động định kỳ trong lĩnh vực kinh doanh{6 | 8 Hinh 4 Vi du bai toan phan 16p cee eseesssnsessncccccecceceeceeseeseeseeeeeeeeeeeeesseseesseestees 9 Hình 5 Quá trình phân lớp dữ liệu G0001 999 09 030 111 1g ng vớ 9 Hình 6 Một lân cận gần nhất của mẫu thử XX - se E33 ES3 SE SE E8 SE sex reeree 10 Hình 7 Biên độ hai chuỗi thời gian với độ đo Euclid ¿5 + s55 cscsczszse: 12 Hình § So sánh độ đo DTW với Euclid[ 1Ô ], - S313 1 ve 13 Hình 9 Ma trận xoắn của chuỗi thời gian A và BỊ 1 1] . - 2 - - <<: 14 Hình 10 Độ đo xoắn thời gian động với ràng buộc dải Sakoe-Chiba[ 12] 15 Hình 11 Ràng buộc toàn cục của độ đo xoăn thời ø1an động «s2 16 Hình 12 mô tả kỹ thuật chặn dưới của Kim|[ 19 ] ccccccccceeceecceeeseseseeseeeeees 25 Hình 13 mô tả kỹ thuật chặn dưới của Y 1| 19 ] 212311 3111111185185155155355555 25
Hình 14 mô tả đường bao U và L của chuỗi Q[19] 5-5 2 5s £+s+s££+ezxcsz 27
Hình 15 mô tả kỹ thuật chặn dưới của Keogh[ 19] 5 5S S55 S 5S xss2 28 Hình 16 Sơ đồ tông quát hệ thống . - - - E3 5 5 51511111111, 30 Hình 17 Quy trình tổng quan hệ thống .- - - - + k+tSESxSxE#ESESEeESEEEEEeEeErkcvreei 31 Hinh 18 So dé giai thuat phân lớp dữ liệu dựa vào tổ hợp độ đo khoảng cách 33 Hình 19 hinh chụp của một con cá[ 2] .- - 222223333 3313335515185185155555555555 41
Hình 20 Ví dụ về bốn nhóm lớp của bộ dữ liệu Trace -.- - << xxx: 42
Hình 21 biêu diễn ba lớp của dữ liệu CBE - E3 1 1xx, 43
Hình 22 Hình ảnh mô hình thu thập của bộ dữ liệu Haptics - - - - - 43 Hình 23 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu A diac - 5 2 5s <+s£+s<s2 44 Hình 24 thời gian phân lớp trên bộ dữ liệu Adiac S555 45
Hình 25 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu Beef 5-2 2 55 c<c+<ssc<2 46
Hình 26 thời gian phân lớp trên bộ dữ liệu Beef - - c1 ve 47
Hình 27 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu CBE - 2 55 2 +scs£+ecscs2 48
Trang 12Hình 30 thời gian phân lớp trên bộ dữ liệu Haptics << <5 5S 5S SSs++sssesss 20
Hình 31 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu Trace -. - 55s c+<cscs2 51
Hình 32 thời gian phân lớp trên bộ dữ liệu Trace s53 51 Hình 33 tỉ lệ lỗi của bộ phân lớp trên bộ đữ liệu ECGFiveDays . 52 Hình 34 thời gian phân lớp trén bd dit ligu ECGFiveDays ceeececceeeeeeeeeeeeees 53
Trang 13MUC LUC BANG
Bang 1 Ma trận nhầm lẫn . - << S333 E31 EEE115E1515 115151111 rk ri 19
Bang 2 Ki higu cac bO dit 16.0 38
Bang 3 Ki hiéu cdc bé dit liu (ti€p theo) woo cscescssesesssescsesescssevesseseseseeeens 39 Bang 4 thông tin các bộ dữ liệu được sử dụng thực nghiệm - «<< «+ 39 Bảng 5 thông tin các bộ dữ liệu được sử dụng thực nghiệm (tiếp theo) 40
Bảng 6 tổng hợp tỉ lệ lỗi phân lớp của các bộ đữ liệu thực nghiệm 55
Bang 7 tong hgp tỉ lệ lỗi phân lớp của các bộ đữ liệu thực nghiệm(tiễp theo) 55
Bang 8 tổng hợp thời gian phân lớp của các bộ dữ liệu thực nghiệm 55
Bảng 9 tổng hợp thời gian phân lớp của các bộ dữ liệu thực nghiệm (tiếp theo) .56
Bang 10 Thời gian phân lớp khi áp dụng kỹ thuật đa luồng . 5-5-5-5¿ 58 Bảng 11 Thời gian phân lớp khi áp dụng kỹ thuật đa luồng(tiếp theo), 59
Trang 14CHƯƠNG 1: GIỚI THIỆU ĐÈ TÀI
Trong chương này, chúng tôi sẽ trình bày các vân đê mà đê tài tập trung nghiên cứu, các động cơ đê thực hiện, mục tiêu cụ thê của đê tài Ngoài ra, chúng tôi sẽ mô tả các kêt quả đạt được trong quá trình nghiên cứu, khảo sát nội dung của đề tài
1.1 Giới thiệu van đề
Việc nghiên cứu và ứng dụng kỹ thuật phân lớp chuỗi dữ liệu thời gian hiện nay đang được thu hút nhiều sự chú ý của các nhà nghiên cứu đữ liệu Với sự phát triển nhanh
về công nghệ, dữ liệu chuỗi thời gian được thu thập bởi rất nhiều thiết bị Việc khai phá dữ liệu của dữ liệu chuỗi thời gian mang lại lợi ích hữu hiệu trải dài nhiều lĩnh vực từ y tế đến
dự báo thời tiết
Đối với đữ liệu chuỗi thời gian, vẫn đề đặt ra là chúng ta cần thực hiện phân lớp
(classification) chúng để có thể sử dụng hiệu quả cho các mục đích khác nhau: phân tích
dữ liệu, dự báo Phân lớp dữ liệu chuỗi thời gian là xây dựng một bộ phân lớp (classifier) dựa trên các chuỗi thời gian đã được gắn nhãn lớp để xác định nhãn lớp cho các chuỗi thời gian chưa được phân lớp Một số phương pháp truyền thống đề thực hiện bài toán phân lớp như: k-lan can gan nhất, mang no ron, cay quyét định,
Mặc dù có khá nhiều công trình nghiên cứu về bài toán phân lớp đữ liệu thông
thường, hầu hết các giải thuật kinh điễn trong hai lĩnh vực học máy và khai phá dữ liệu đã không làm việc tốt với dữ liệu chuỗi thời gian, do những tính chất đặc biệt của loại dữ liệu này Ba tính chất của dữ liệu chuỗi thời gian gồm cd: (i) Số chiều nhiều, (ii) mỗi tương quan cao giữa các điểm dữ liệu trên chuỗi thời gian va (iii) đữ liệu có thể có nhiễu đã khiến cho việc phân tích và khai phá dữ liệu trên loại dữ liệu này trở nên khó khăn và đây thách thức
Trang 15Phương pháp phân lớp chuỗi dữ liệu thời gian có thê chia làm ba loại chính: phương pháp dựa vào đặc trưng, phương pháp dựa vào mô hình, phương pháp dựa vào khoảng cách Thứ nhất, trong phương pháp phân lớp dựa vào đặc trưng, dữ liệu chuỗi thời gian
được chuyên đối thành các vector đặc trưng và sau đó phân lớp bởi các bộ phân lớp thông dụng như mạng neutron nhân tạo hoặc cây quyết định, Một số phương pháp trích xuất đặc trưng bao gồm các phương pháp phổ như: biển đổi chuối Fourier rời rạc(Discrete Fourier transform - DFT) hoặc bién déi wavelet roi rac (Discrete Wavelet transform - DWT), Shapelet[1|, Thứ hai, phương pháp dựa vào mô hình, mô hình phân lớp được giả định rằng tất cả chuỗi thời gian trong một lớp được tạo ra bởi cùng mô hình cơ bản và
do đó một chuỗi thời gian mới được gán với lớp của mô hình hợp hợp nhất với nó Một vài tiếp cận dựa vào mô hình như: f hồi quy(auto-regressive) , Markov dn( hidden Markov), Cuối cùng, phương pháp dựa vào khoảng cách, sử dụng các đo độ tương tự hoặc không tương tự để đo khoảng cách giữa các chuỗi thời gian và sau đó các khoảng cách này được
sử dụng trong các mô hinh phân lớp như: &-nearest neighbor(k-NN) và SVM(Support Vector Machines ), Trong luận văn này, chúng tôi chọn cách tiếp cận ở phương pháp cuối cùng, phương pháp phân lớp dựa vào khoảng cách
Đối với phương pháp phân lớp chuỗi thời gian dựa trên khoảng cách, các độ đo khoảng cách được sử dụng và sau đó khai thác chúng trong bộ phân lớp &-NN Nhiều đánh
giá đã được thực hiện Ding và các cộng sự năm 2008 [2] cho thấy rằng bộ phân lớp 7-NN
là một trong những bộ phân lớp tốt nhất trong các phương pháp phân lớp đữ liệu chuỗi thời gian
Trong các độ do khodng cach (distance measures) dugc str dung trong dir liéu chudi
thời gian Mỗi loại dữ liệu chuỗi thích ứng với một số độ đo nhất định Nhằm mục tiêu tăng
độ chính xác độ phân lớp của dữ liệu chuỗi thời gian Câu hỏi đặt ra rằng liệu rằng chúng
ta xây dựng một /ố hơp(ensemble) các độ đo này sau đó sử dụng chúng vào kỹ thuật phân lớp 1-NN Vi vay, dé tài luận văn này sẽ đưa ra một cách tiếp cận để giải quyết bài toán
tăng độ chính xác phân lớp bằng cách kết hợp các độ đo khoảng cách dữ liệu chuỗi thành
một /ố hợp (ensemble) các độ đo khoảng cách và phân lớp dữ liệu dựa trên tổ hợp này
Trang 161.2 Mục tiêu
Chúng tôi thực hiện đề tài này nhằm đánh giá hiệu năng của giải thuật 1-NN với tô hợp các độ đo khoảng cách: Euclid, DTW, DTW với kỹ thuật tính chặn dưới LB_Keogh, DDTW, CID với tiêu chí: (1) độ chính xác phan lớp và (2) đánh giá thời gian thực thi trong việc phân lớp chuỗi thời gian cho bài toán phân lớp chuỗi đữ liệu thời gian, với các vẫn đề
chính như sau:
o Nghiên cứu tính toán độ đo xoắn thời gian động DTW với kỹ thuật tính chặn dưới LB_Keogh
o_ Nghiên cứu độ đo DDTW, biến thể của độ đo DTW
o_ Nghiên cứu độ đo bất biến với độ phức tạp CID
o_ Nghiên cứu hiện thực giải thuật 7-NN với các độ đo khoảng cách: ED, DTW, DTW với
kỹ thuật tính chặn dưới LB_ Keogh, CID
©o Nghiên cứu hiện thực giải thuật 7-NN với tổ hợp các độ đo khoảng cách: ED, DTW, DTW voi ky thuat tinh chan du6i LB_Keogh, DDTW, CID
o_ So sánh độ chính xác(ti lệ lỗi phân lớp càng nhỏ, đo chính xác càng cao) giữa giải thuật
1-NN với các độ đo tương ứng và 1-NN với tô hợp các độ đo trên một số dữ liệu mẫu
1.4 Tóm lược kết qua đạt được
Sau thời gian nghiên cứu và hiện thức, chúng tôi đạt được các kết quả như sau:
- Hiểu rõ độ đo xoăn thời gian động DTW thuần tuý và DTW với kỹ thuật tính
chặn dưới LB_ Keogh
Hiểu rõ độ đo DDTW, một biến thể của độ đo DTW.
Trang 17-_ Hiểu rõ độ đo bất biến với độ phức tạp CID
-_ Nắm được giải thuật k- lân cận gần nhất (#-NN) dùng cho bài toán phân lớp dữ
liệu chuỗi thời gian
- Hiện thực thành công giải thuật 7-NN với các độ đo: ED, DTW, DTW với kỹ thuật tính chặn dưới LB_ Keogh, DDTW, CID
-_ Hiện thực thành công giải thuật 7-NN với bộ tổ hợp các độ đo khoảng cách: ED, DTW, DIW với kỹ thuật tính chặn dưới LB_ Keogh, DDTW, CID
- So sánh độ chính xác của giải thuật 7-NN các độ đo: ED, DTW, DTW với kỹ thuật tính chặn dưới LB_ Keogh, DD TW, CID và giải thuật 7-NN với bộ tô hợp các
độ đo khoảng cách trên Kết quả thực hiện cho thấy giải thuật 7-NN với bộ tổ hợp các độ đo có độ chính xác cao hơn giải thuật 7-NN với các đo đo khoảng cách riêng
rẻ Nhưng đổi lại thời gian chạy giải thuật 7-NN với bộ tô hợp các độ đo rất lâu so
với giải thuật 7-NN với độ đo khoảng cách riêng rẻ
- _ So sánh độ chính xác và thời gian xử lý của giải thuật 7-NN với các độ đo thành
phân Kết quả cho thấy độ đo CID có độ chính xác và thời gian chạy nhanh hơn so
với các độ đo còn lại
-_ Qua thực nghiệm, chúng tôi cũng đề xuất cải tiến thuật toán song song đa luông
và kết quá thu được là thời gian phân lớp nhanh hơn 2, 3 lần so với thời gian phân
lớp 7-NN với bộ tô hợp các độ đo
Như vậy, về cơ bản chúng tôi đã đáp ứng được yêu cầu của đề tài đặt ra Chúng tôi
sẽ trình bày chỉ tiết trong các phân sau
Ẩ vr - A ww
1.5 Câu trúc của luận văn
Tô chức các thành phân còn lại của luận văn gôm các phần như sau:
Chương 2 là các cơ sở lý thuyết mà chúng tôi sử dụng trong luận văn này Bao gồm
các lý thuyết cơ bản về chuỗi thời gian, lý thuyết về các độ đo khoảng cách của chuỗi thời
gian, các phương pháp phân lớp chuỗi đữ liệu chuỗi thời gian, các phương pháp chuẩn hoá
dữ liệu và các tiêu chí đánh giá độ chính xác trong kỹ thuật phân lớp
Trang 18Chương 3 của đề tài sẽ giới thiệu các công trình nghiên cứu liên quan Các công trình này trình bày về các kỹ thuật phân lớp, các độ đo khoảng cách trong dữ liệu chuỗi
thời gian, từ cơ sở này đề xuất giải thuật nhằm tăng độ chính xác phân lớp trong việc phân
lớp dữ liệu chuỗi thời gian
Chương 4 bao gồm các nội dung chỉ tiết cho việc thiết kế và hiện thực kỹ thuật phân lớp 7-NN với bộ tổ hợp các độ đo khoảng cách khác nhau
Chương 5 cua dé tai này sẽ trình bày các kết quả thực nghiệm đạt được trong quá trình nghiên cứu, qua đó đánh giá được độ chính xác của kỹ thuật phân lớp, so sánh độ chính xác giữa kỹ thuật phân lớp 7-NN với độ đo khoảng cách: ED, DTW, DTW với kỹ thuật tính chặn dưới LB_ Keopgh, CID và kỹ thuật phân lớp 7-NN với bộ tổ hợp các độ đo khoảng cách Đồng thời, qua việc thực nghiệm, đánh giá được độ chính xác và thời gian thực thi của các độ đo khoảng cách khi được sử dụng trong kỹ thuật phân lớp 7-NN
Chương 6 là một số kết luận, đóng góp của đề tài và hướng phát triển trong tương
lai của đề tải.
Trang 19CHUONG 2: CO SO LY THUYET
Chương này trình bày cơ sở lý thuyết về chuỗi thời gian, các thành phân của chuỗi thời gian, các độ đo khoảng cách sử dụng cho đữ liệu chuỗi thời gian, các kỹ thuật ràng
buộc, các phương pháp phân lớp chuỗi dữ liệu chuỗi thời gian, các tiêu chí đánh giá độ
chính xác trong kỹ thuật phân lớp
2.1 Chuỗi thời gian
Một chuỗi thời gian (time series), ký hiệu toán học là 7, là chuỗi giá trị số thực,
trong đó mỗi trị biêu diễn một giá trị tại những thời điểm cách đều nhau: 7 = £¿, to, ., th
Phân tích chuỗi thời gian có mục đích là nhận dạng và tập hợp các yếu tố, những biến đôi
theo thời gian mà nó ảnh hưởng đến giá trị của biến quan sát Dữ liệu chuỗi thời gian có
lượng dữ liệu rất lớn và xuất hiện trong nhiều lĩnh vực ngày nay như y học, kỹ thuật, tai chính, v.v [4][5]
Trang 20Hình 1 Minh hoạ dữ liệu chuỗi thời gian|[5]
Dữ liệu chuỗi thời gian được chia ra thành hai loại chính Thứ nhất, loại chuối thời gian thông thường(regular time series), loại này được gọi là số liệu Loại còn lai 1a chudi thời gian bất thường (events), loại này được gọi là các sự kiện
Trong các ứng dụng thực tế, khi chúng ta quan sát chuỗi thời gian, chúng ta nhận
thấy rằng ở dữ liệu chuỗi thời gian có bốn thành phan ảnh hưởng lên mỗi giá trị đó là xu hướng (trend), chu kỳ ( cyclical), mùa (seaconal) và bất quy tắc (irregular)
2.2 Cac thành phần dữ liệu chuỗi thời gian
2.2.1 Thành phan xu hướng
Thanh phan nay thê hiện sự tăng hay giảm giá trị của chuỗi thời gian trong một giai đoạn nào đó Hình 2 mô tả số lượng người bán hàng của một doanh nghiệp có xu hướng ting (upward trend), xu hướng giảm (downward trend) theo thời gian từ năm 1993 đến năm 2013
Trang 212.2.2 Thành phân chu kỳ
Là thành phân có chuỗi biến đổi dạng sóng quanh một xu hướng nào đó Trong thực
tế, thành phần này rất khó xác định và người ta thường xem nó như một phần của thành phần xu hướng
2.2.3 Thành phần theo mùa
Là thành phân thê hiện sự biến đối lặp đi lặp lại tại từng thời điểm cô định theo một khoảng thời gian nào đó Hình 3, minh hoạ tính thời vụ biểu thị sự biến động định kỳ trong các lĩnh vực kinh doanh xảy ra thường xuyên dựa trên một mùa cụ thể
Là thành phần thẻ hiện sự biến đổi ngẫu nhiên, bất thường không thể đoán được của
chuỗi thời gian
2.3 Phân lớp dữ liệu
2.3.1 Khái niệm phân lớp dữ liệu
Phân lớp dữ liệu là kỹ thuật phân tích dữ liệu nhằm rút trích các mô hình mô tả các
lớp đữ liệu từ các mô hình đó Quá trình này bao gồm các bước chính như: huấn luyện
(training) và phân lớp (classification)
Trang 22Trong bước huấn luyện, chúng ta tiễn hành xây dựng bé phan Iép (classifier) bang
cách phân tích đữ liệu huấn luyện với các mẩu(sample) và nhấn(label) tương ứng Mỗi mẫu
dữ liệu được biểu diễn bởi một vector thuộc tính Một mẫu dữ liệu X được biểu diễn X =
⁄q, Xa, .,„ với n là số lượng thuộc tính của dữ liệu Bước này xem như là quá trình học
của một hàm anh xa: y = ƒ(X) với y là nhãn của lớp được dự đoán cia mau X
Tại bước phân lớp, bộ phân lớp sẽ được sử dụng đề thực hiện gán nhãn lớp cho các
mẫu trong tập kiểm fh{test)
Trong lĩnh vực khai phá dữ liệu, phân lớp là một kỹ thuật rất phố biến và có tầm quan trọng, nó thường là bước cuối cùng trong một tiễn trình khai phá Hình 5 cho chúng
ta thấy các bước để xây dựng một hệ thông phân lớp
Hinh 5 Qua trinh phan lop dit liéu
Trang 23Việc phân lớp dữ liệu chuỗi thời gian có thể được thực hiện trên các g1ả1 thuật phan
lớp truyền thống khá phố biến như: phân lớp với k-ân cận gần nhất (k-Nearest Neighbor), phân lớp với máy véc tơ hỗ trợ (Support Vector Machine), phân lớp với cây quyết định
(DescIsion Tree), phân lớp với mạng nơ-ron(Neunal Network),
2.3.2 Giải thuật phân lớp k-NN
Giải thuật k-NN (k-Nearest Neighbor) được sử dụng nhiều trong các lĩnh vực khai
phá đữ liệu Đây là kỹ thuật để phân lớp đối tượng dựa vào khoảng cách gân nhất giữa đối
tượng cần gán nhãn lớp với tất cả các đối tượng khác trong tập huấn luyện
Đối với giải thuật &-NN thì một đối tượng sẽ được phân lớp theo lớp chiếm đa số
trong & lân cận gần với nó nhất, trong đó & là một số nguyên dương chọn trước khi thực
hiện giải thuật Việc chọn giá trị & này liên quan đến kết quả phân lớp, nếu k quá nhỏ thì kết quả có khả năng ảnh hưởng bởi nhiễu, nếu k lớn thì nhiều phân tử lân cận sẽ có thê từ
các lớp khác
k-NN là một trong những thuật toán học giám sáí( superv1sed-learning) đơn giản nhất trong máy học Khi huấn luyện, thuật toán này không học được điều øì từ dữ liệu huấn luyện, mọi tính toán được thực hiện khi nó cần dự đoán kêt quả của dữ liệu mới
Hình 6 Một lán cận gần nhất của mẫu thử X
Trang 24Hình 6 ví dụ rằng chúng ta có hai lớp dấu (+) và dấu (-), một mẫu thử X sẽ thuộc về
lớp (+) hoặc (-) nếu khoảng cách từ mẫu thử X đến lớp đó là gần nhất Giải thuật &-NN tim
thấy một lân cận gần nhất của mẫu thử X là lớp (-) nằm trong vòng tròn Như vậy mẫu thử
X thuộc về lớp (-)
Giải thuật &-NN được thực hiện qua một số bước như sau:
1 Xác định giá trị tham số k (số láng giềng gần nhất)
2 Tính toán khoảng cách giữa chuỗi dữ liệu thời gian Q = {q¡,q›, ,q„ } trong tập kiểm tra (test set) đến tất cả các chuỗi dữ liệu thời gian trong /ập huấn luyện T (training set) sử dụng độ đo khoảng cách
3 Sắp xếp theo thứ tự tăng dân và xác định & lân cận gần nhất với chuỗi thời gian Q
4 Lay tat cả các lớp của k láng giềng gần nhất đã xác định
5 Dựa vào lớp đa số của các láng giềng gần nhất đề xác định lớp cho chuỗi thời gian
Trang 25
TM
PARED Euclidean Distance
Hình 7 Biên độ hai chuỗi thời gian với do do Euclid Hinh 7 1a mét vi du vé bién d6 cua hai dir liéu chudi thdi gian khi 4p dung độ đo khoang cach Euclid
D6 do Euclid chi co thé tinh néu n = m No don giản, hiệu quả và vì vậy độ đo khoảng cách Euclid trở thành phô biến trong nhiều tác vụ khai phá đữ liệu Tuy nhiên, bên cạnh việc yêu câu rằng hai chuỗi thời gian có độ dài bằng nhau, độ đo Euclid còn có nhược
điểm khác là rất nhạy với nhiễu , không thích hợp với dữ liệu có độ co giãn biên độ khác
nhau
2.4.2 Độ đo xoắn thời gian động (Dynamic Time Warping - DTW)
Hai chuỗi thời gian có hình dạng giống nhau nhưng bị lệch pha một khoảng thời gian nào đó thì việc tính khoảng cách hai chuỗi thời gian này bằng cách sử dụng Euclid để tính khoảng cách thì khoảng cách Euclid giữa chúng lớn một cách vô lý Vì vậy nhược điểm này được khắc phục một cách tương đối bằng độ đo DTW Độ đo DTW được cộng đồng xử lý giọng nói giới thiệu bởi Itakura[7] vào năm 1975 và được Sakoe — Chiba[8] cải tiên năm 1978, sau đó được đưa vào ứng dụng trong xử lý chuỗi thời gian do nhóm tác giả Berndt, Donald Clifford, James [9] gidi thiéu vao nam 1994
Điểm khác biệt giữa độ đo khoảng cách Euclid và độ đo xoắn thời gian động là với
độ đo khoảng cách Euclid chỉ có thê tính khoảng cách giữa hai chuỗi thời gian có độ dài
bằng nhau bằng cách tính từng cặp điểm ( điểm thứ ¿ của chuỗi thứ nhất so với điểm thứ ¡
Trang 26so với chuỗi thứ hai) thì độ đo xoắn thời gian động có thê đo được khoảng cách giữa hai chuỗi thời gian có độ dài khác nhau( hay có biên độ dao động khác nhau)
Với độ đo DTW, một điểm dữ liệu của chuỗi thời gian này có thể ánh xạ với nhiều
điểm của chuỗi thời gian khác, các ánh xạ này không thắng hàng
Hinh 8 So sanh dé do DTW voi Euclid[10]
Độ đo xoắn thời ø1an có nhược điểm so với độ đo Euclid là thời gian tính toán chậm hơn rất nhiều
Cho hai chuỗi thời gian A= đ,d;, ,d„ và B = bị,b;, , b„, để tính khoảng cách DTW giữa 4 và B, chúng ta cần xây dựng một ma trận xoắn Q(4,B) của 4 và B, có kích thước ø x mò, với phân tử Q; ¡ = Q(¡, b,) là khoảng cách giữa hai diém a; va bị
Q(a;,b;) = (a;- bj)? = (2)
Đường xoắn ƒ là tập hợp các giá trị của ma trận thê hiện khoảng cách giữa hai điểm
A và B thể hiện ánh xạ giữa 4 và B Giả sử rằng đường xoắn ƒW có & giá trị, khi đó độ đo
DTW giữa 4 và B là đường xoắn có chỉ phí nhỏ nhất và được tính toán theo công thức:
Trang 27Œ,j) =d(a;, b,) + min{ð( — 1,j — 1),ôŒ — 1,j),ðŒ,j — 1)} — 4
Trong đó ổ(,j) là tổng khoảng cách tích luỹ tại ô thit (i, 7) ca ma tran OQ
Sequence B | Ì Hình 9 Ma trận xoắn của chuỗi thời gian A và B[11]
Đường đi xoăn ƒƒ cân thoả mãn các điêu kiện như sau:
-_ Điều kiện biên: w; = (1,1) và wy = (n,rn) đảm bảo rằng đường xoắn bắt đầu từ điểm đầu tiên và kết thúc ở điểm cuối cùng của hai chuỗi đang được tính khoảng cách
- Tinh lién tuc: cho wy = (a,b) và wy_„ = (a’, b’) thi (a — a’) va (b — b’) phai bé
hơn hoặc bằng 1 Điều nay đảm bảo rằng các bước trong được đi J là từ một phần
tử trong ma trận Ó đến một phần tử liền kể với phần tử này
- Tinh don diéu tang: cho w, = (a,b) va Wg_1 = (a',b’) thi (a — a’) va (b — b’)
luôn lớn hơn hoặc bằng 0 Điều này đảm bảo rằng chỉ mục của cặp điểm trong bước sau chỉ có thê băng hoặc lớn hơn chỉ mục của cặp điêm trong bước trước
Độ đo DTW linh hoạt hơn so với độ đo Euclid trong việc tính toán độ tương tự giữa hai chuỗi có độ dài bất kì Mặc dù thích hợp hơn cho dữ liệu dạng chuỗi hơn độ đo Euclid nhưng DTW lại có độ phức tạp tính toán cao hơn là Ó/n.1) với m, nở là độ dài của hai chuỗi
so v6i O(n) ở độ đo Euclid với ø là độ dài của hai chuỗi được so sánh Độ do Euclid 1a
14
Trang 28trường hợp đặc biệt của độ đo DTW khi đường đi xoắn Jƒ thoả mãn điều kiện là phần tử
thứ & trong đường đi xoắn wy = (¡,j) thì ¡ = j = k và hai chuỗi cần tính toán khoảng cách
có độ dài băng nhau
Dé dam bảo đường xoăn không đi chệch hướng quá xa so với đường chéo của ma trận Ó thì người ta đã đưa ra một số ràng buộc mang ý nghĩa toàn cục Ràng buộc này được định nghĩa một tập con của 7a frận xoắn ( warping matrix) cho phép đường xoăn di chuyển
mở rộng và được gọi lại một cửa số xoăn (warping window) Mục đích của các ràng buộc này nhằm tăng tốc tính toán khoảng cách DTW vì làm giảm không gian tìm kiếm đường xoắn và ngăn trường hợp một phân nhỏ của chuỗi này ánh xạ vào phần lớn hơn tương ứng
của chuối khác
- Ràng buộc dải Sakoe- Chiba: Ràng buộc Sakoe-Chiba [8] được đề xuất bởi Sakoe
và Chiba năm 1978 định nghĩa đường xoắn hợp lệ như sau:
W = W\,W;, , W, ., Wy VỚI max(n,n) S K < m + nñT— Ï vàwy # (,j)y là
tập các phần từ liền kề xác định ánh xạ giữa hai chuỗi thời gian với điều kiện
li — j| < ø với ø là một số nguyên dương cho trước gọi là cửa số xoắn
Trang 29- Ràng buộc hình bình hành ltakura: Ràng buộc này được đề xuất bởi Itakura năm
1975 cũng định nghĩa đường xoắn hợp lệ được ràng buộc trong một tập con của ma
trận xoăn của hai chuỗi thời gian theo dạng hình bình hành Cho điểm i“" và điểm
j?" tương ứng của hai chuỗi 4, Ö thì ràng buộc Itakura phát biêu rằng điểm j** phải
được định nghĩa bởi một hàm biến thiên thời gian theo i?":
ith = w(ith) (5) Với một sô điều kiện biên: w(1) = 1,w(n) = m va điêu kiện liên tục:
2.4.3 Complexity-invariant Distance (CID)
Batista va cong su [13] da dé xuat d6 do CID(Complexity-invariant Distance) bat biến với độ phức tạp sử dụng sự khác nhau về độ phức tạp giữa hai chuỗi thời gian như một hệ số điều chỉnh và áp dụng lên độ đo khoảng cách hiện tại Nó phụ thuộc vào /h bat biến(invariance) được yêu cầu của từng lĩnh vực Trong nhiều năm qua, đã có nhiều nghiên cứu để xuất các phương pháp và độ đo khoảng cách nhằm tìm ra sự tương tự giữa các chuỗi
l6
Trang 30dữ liệu thời gian, tuy nhiên cộng đồng khoa học còn chưa quan tâm đến độ đo bát biển phức tạp (complex invariane)
Vân đê năm ở chỗ, đôi với các lĩnh vực khác nhau, các lớp có sự phức tạp khác nhau
và cặp hai phân tử phức tạp trông có vẻ giông nhau dưới con mắt nhìn của con người nhưng chúng lại năm ở lớp khác nhau Tiêu biêu là ngành sinh học, ví dụ như loại dơi thuộc lớp thu có vú chứ không phải là thuộc họ chim dù nó có thể bay
Cho hai chuỗi thời gian Ó và C, độ do CID được tính theo công thức sau:
CID(Q,C) = ED(Q,C) x CF(Q,C) (7) Với :
CE(Q) = VUETG — qis1)? (9)
Hệ số điều chỉnh độ bất biến phức tạp của một chuỗi thời gian có cách tính khá đơn
giản, dễ dàng với độ phức tạp Ó/) và dễ dàng áp dụng vào các độ đo khoảng cách
2.5 Chuẩn hoá dữ liệu
Việc quan trọng trước khi tiễn hành phân lớp dữ liệu là quá trình chuẩn hoá dữ liệu, tức là việc chúng ta đưa thuộc tính về một trọng số bằng nhau và ngăn chặn những thuộc tính với miền giá trị lớn khỏi ảnh hưởng tới những thuộc tính với miễn giá trị nhỏ Ở đây, hai kỹ thuật chuẩn hoá dữ liệu như sau:
17
Trang 31Chuẩn hoá lớn nhất — nhỏ nhất (min-max normalization): phương pháp này dựa
trên giá trị lớn nhất và nhỏ nhất của chuỗi thời gian để ánh xạ những giá trị của chuỗi này
sang chuỗi năm trong một miền xác định lớn nhất — nhỏ nhất mới Chúng ta sẽ quy ước
miễn giá trị mới là /0,77 Với phương pháp này vẫn bảo tồn được mỗi quan hệ của những
giá trị ban đầu
Giả sử chúng ta có dữ liệu chuỗi thời gian 4 Công thức chuẩn hoá như sau:
Giả sử chúng ta có chuỗi A = ø,g;, ,đ„ có chiều dài ø được biến đổi thành
nhimg gia tri cua chudi A’ = (aj, a}, ,a!, ) cũng có chiều dài z dựa trên giá rị trung bình
(mean) và giá trị độ lệch chuẩn của chuỗi 4 Phương pháp này có lợi khi giá trị lớn nhất và
nhỏ nhất là không biết hoặc khi những phân tử có nhiễu làm cho phương pháp min-max không áp được được
A’[i] = z0) voi A = == vaa(A) = Pree (11)
Chuan hoa z-score thường được sử dụng trong khai phá dữ liệu chuỗi thời gian Chuẩn hoá z-score giúp cho các chuỗi đữ liệu có hình dạng giống nhau nhưng khác nhau
về biên đô sẽ tương tự nhau hơn
2.6 Tiêu chí đáng giá độ chính xác phân lớp
Đề đánh giá độ chính xác phân lớp của kỹ thuật phân lớp người ta được ra các độ
đo đê kiêm tra độ chính xác của bộ phân lớp trong việc dự đoán các nhãn lớp của các máu
Trang 32fhiử (test) là một trong những tiêu chí được quan tâm Các độ đo đánh giá chất lượng phân lớp thường được sử dụng một số thuật ngữ sau:
Mau positive (Positive tuples): là những mẫu thuộc lớp được quan tâm nhất trong quá trình phân lớp
Mau negative (Negative tuples): là những mẫu còn lại không thuộc mẫu positive
True positives (TP): các mẫu positive được phân lớp đúng nhãn
True negatives (TN): các mẫu negative được phân lớp đúng nhãn
False positives(FP): các mẫu negative nhưng được phân lớp là positive
False negatives(FN): các mẫu positve nhưng được phân lớp là negative
Những thuật ngữ này thường được mô tả trong za trận nhầm lân (confusion matrix)
mẫu thuộc lớp i và được gán nhãn là lớp 7 bởi bộ phân lớp, 1 < i,j < m
Các độ đo thường được sử dụng để đánh giá chất lượng phân lớp:
19
Trang 33D6 chinh xac (accuracy) là tỉ lệ các mẫu được phân lớp đúng nhãn lớp, được tính bởi công thức:
TP+TN P+N
Trong trường hợp tỉ lệ mẫu positive và negative trong tập dữ liệu phân bố không đều Ví dụ như trong trường hợp negative chiếm đa số, trong khi mẫu positive chỉ chiếm
một phan nhỏ thì độ đo độ chính xác có thê không thê đánh giá được chất lượng của sự
phân lớp Vì thế chúng ta cần có độ đo riêng biệt để đánh giá độ tốt trong việc phân lớp
mau positive va negative D6 do sensitivity va specificity dugc stt dung cho viéc danh gia chat luong phan ldp cu thé d6i voi mau positive va negative Sensitivity hay recall là tỉ lệ phân lép dung cho cdc mau possitive Nguoc lai, specificity 1a ti 16 phan lé6p đúng cho các
Trang 34- Toc a6 (speed): đề cập đến chỉ phi tinh toán trong quá trình khởi tạo và sử dụng các bộ phân lớp
- Sự vững chắc (Robusiness): đề cập đến khả năng phân lớp với dữ liệu nhiễu hoặc
thiếu dữ liệu
- Khả năng thích nghỉ với qui mô đữ liệu (Scalability) : đề cập đến khả năng xây dựng hiệu quả bộ phân lớp trên dữ liệu có kích thước lớn
-_ Khả năng diễn dịch ( Inerpretability): đề cập đến khả năng giải thích về kết quả
có được từ bộ phân lớp Cây quyết định và các luật phân lớp có thể được dễ dàng diễn giải, trong khi đó mạng nơ-ron nhân tạo có khả năng diễn giải mô hình kém
21
Trang 35CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN
Ở chương này, chúng tôi trình bày các công trình về các kỹ thuật phân lớp, các độ
đo khoảng cách trong dữ liệu chuỗi thời gian, từ cơ sở này đề xuất giải thuật nhằm tăng độ
chính xác phân lớp trong việc phân lớp đữ liệu chuỗi thời gian
3.1 Phân loại các phương pháp phân lớp dữ liệu chuỗi thời gian
Bài toán phân lớp chuỗi thời gian (Time-series classification - TSC) vẫn đang là một trong những vẫn đề được các nhà khoa học đữ liệu quan tâm Theo nhóm tác giả Abanda và cộng sự năm 2019 trong bài báo khảo sát tổng quan [14], phân lớp chuỗi thời gian đang là chủ đề nghiên cứu ngày càng tăng do lượng dữ liệu chuỗi thời gian đang được tạo ra ngày càng lớn trên nhiều lĩnh vực Loại đữ liệu này có rất nhiều trong cuộc sống và
bao phủ rất nhiêu lĩnh vực, vì vậy nó trở thành một nhiệm vụ đây thách thức và nhiều cách tiếp cận khác nhau đã được thực hiện, bao gom cach tiép cận dựa trên khoảng cách 7-NN
là phương pháp phân lớp được sử dụng rộng rãi trong phân lớp dữ liệu chuỗi thời gian dựa trên khoảng cách do tính đơn giản nhưng hiệu suất vẫn tốt Tuy nhiên, hiệu suất của nó được cho là việc sử dụng các thước đo khoảng cách cụ thể trong quá trình phân lớp và không phải chính bộ phân lớp
3.2 Phân lớp dữ liệu chuỗi thời gian dựa vào tô hợp bộ phân lớp
Jason Lines và cộng sự [15], nhóm tác giả đã đề xuất phương pháp phân lớp dữ liệu chuỗi thời gian dựa vào tô hợp bộ phân lớp với độ đo khoảng cách khác nhau đã tiễn hành
kiêm chứng, đánh giá hai giải thuyết: (1) Kiém chứng giải thuyết rằng có sự khác nhau về
độ chính xác khi bộ phân lớp láng giềng gần sử dụng các độ đo khác nhau (2) Kiểm chứng
giải thuyết rằng việc kết hợp các độ đo với tô hợp các bộ phân lớp sẽ đạt được độ chính
xác tốt nhất Tác giả đã tiễn hành các kiểm chứng và rút ra các kết luận như sau: Thứ nhất,
không có sự khác biệt đáng kế về độ chính xác giữa bộ phân lớp sử dụng thước đo khoảng
cách co giãn trên các tập dữ liệu Thứ hai, có sự vượt trội đáng kê độ chính xác của tô hợp
bộ phân lớp so với bộ phân lớp riêng rẽ Như vậy, đối với dữ liệu chuỗi thời gian, để tăng
Trang 36độ chính xác của bộ phân lớp thì chúng ta có thể kết hợp nhiều bộ phân lớp yếu đề tạo một
bộ phân lớp mạnh hơn
Tác giả Pawlovsky và cộng sự [16] đã giới thiệu bộ tổ hợp dựa trên độ đo khoảng cách sử dụng phương pháp phân lớp láng giềng gân nhất (&-NN) và ứng dụng của phương pháp này vào bộ đữ liệu thông thường chuẩn đoán bệnh tim Tác giả đã đề xuất việc sử dụng tô hợp nhiều độ đo khoảng cách khác nhau như: Euclid, Manhattan, Chebyshev, Sorensen, Canberra và Mahalanobis cho phương pháp phân loại &-NN để tăng độ chính
xác phân lớp đối với đữ liệu thông thường heart disease (chuẩn đoán về bệnh tim mạch) Tác giả đã tiến hành thực nghiệm trên hai câu hình: (1) sử dụng tổ hợp ba độ đo khoảng
cách là Euclid, Manhattan, Mahalanobis và (2) sử dụng tố hợp năm độ đo khoảng cách là Euclid, Manhattan, Chebyshev, Sorensen, Canberra va Mahalanobis Két qua cho thay độ chính xác trung bình gần 85% đối với bất cứ câu hình nào trên tập dữ liệu nhịp tim UCI
Cleveland [17]
3.3 Một độ đo xoắn thời gian động cải tiền: DDTW
Tác giả Keogh và Pazzani[18] năm 2001 đã đề xuất một cải tiến của độ đo xoăn thời
gian động (DTW) được gọi là Derivative Dynamic Time Warping(DDTW) Voi do do này,
đầu tiên sẽ biến đổi chuỗi thời gian thành một chuỗi có khác biệt thứ tự Mục tiêu của
DDTW là giới thiệu một biện pháp tránh các điểm ky di, trong do mot điểm trên một chuỗi
có thê ánh xạ vào một phân lớn của chuỗi thời gian khác tạo nên kết quả sai lệch
Cho một chuỗi thời gian A = a¡,dạ, ,„, được biên đối thành chuỗi thời gian
A' = (a,dq;, , đ„ _ + ) khi a; được định nghĩa là trung bình của các giá trị độ dôc đ;_,
Aj Va Qj, đ;+, Khi đó ø; được tính theo công thức:
Trang 37Độ đo DDTW được thiết kế để giảm nhiễu có thể ảnh hưởng xấu đến độ đo xoắn
thời gian động (DTW) và cũng được sử dụng cùng với DTW để tính toán độ tương tự giữa
toán và để tạo một ràng buộc chặn dưới tương đối, tức là một phương pháp có thê xấp xỉ
khoảng cách DTW một cách gần nhất Đề làm rõ kỹ thuật chặn dưới này, chúng tôi trình bày ba loại kỹ thuật chặn dưới hiện nay được sử dụng pho biến là của Kim và cộng sự năm
2001, Y1 và cộng sự năm 1998 va Keogh năm 2002 [19]
3.4.1 Phương phúp tính chặn dưới Kim
Mục đích cơ bản của Kim là phát triển một kỹ thuật mà tăng cường hiệu suất tìm
kiếm trong một cơ sở dữ liệu lớn mà không cho phép xảy ra lỗi tìm sót Để thực hiện kỹ thuật này Km và cộng sự đã đưa ra một hàm tính khoảng cách mới mà xap xỉ cận dưới đối với khoảng cách xoăn thời gian động và thoải mãn điêu kiện của bât đăng thức tam giác
Trang 38
Hình 12 mô tả kỹ thuật chặn dưới của Kim| 19]
Hình 12 mô tả kỹ thuật tính chặn dưới của Kim với điểm 4 và D là điểm đầu và
điểm cuôi, B và C là điểm nhỏ nhất và điểm lớn nhât của chuỗi
Ưu điểm của kỹ thuật này là sử dụng giải thuật lập chỉ mục chính xác dùng khoảng
cách DTW để cải thiện hiệu suất tìm kiếm trong tập dữ liệu lớn
Khuyết điểm: kỹ thuật tính chặn dưới của Kim giới thiệu hàm chặn dưới với bốn
đặc trưng đảm bảo việc không xảy ra sự miễn sai so với các kỹ thuật lập chỉ mục thông thường nên không khả thi với việc đánh giá chỉ mục đa chiêu
3.4.2 Phương phúp tính chặn dưới của Y¡
Yi đã phát triển một kỹ thuật đánh chỉ mục xấp xỉ đưới khoảng cach DTW ding
phương pháp FastMap Phương pháp này là ánh xạ một chuỗi có chiều dài ø sang một điểm
k chiều bằng một hàm rút trích đặc trưng và xây dựng một cấu trúc chỉ mục đa chiều trên
tập điểm k chiều này Ngoài ra, kỹ thuật này còn giúp tiết kiệm được chỉ phí CPU và truy cập đĩa bằng cách chấp nhận đánh đổi một tỉ lệ nhỏ độ nhạy
Trang 39Hình 13 mô tả kỹ thuật tính chặn dưới của Y7 với phần gạch mờ và dọc biểu diễn
phan tối thiếu của những điểm tương ứng đóng góp vào khoảng cách DTW và được xem như là giá trị chặn dưới
Ưu điểm: có thê áp dụng kỹ thuật này để đánh chỉ mục đa chiều với khoảng cách DTW va tiết kiệm được nhiều chi phí CPU và thời gian truy xuất đĩa cứng
Khuyết điểm: kỹ thuật cho phép xảy ra sự miễn sai và độ phức tạp thực tế của nó là 0(Mn?) với M là kích thước của tập dữ liệu nên không thể áp dụng cho các tập dữ liệu
lớn và những chuỗi dài
3.4.3 Kỹ thuật tinh chan duci cia Keogh
Hai phương pháp tính chặn dưới của Kim và Yi đã cho thấy những cải tiến so với
trước nhưng vẫn có nhược điểm là tính chặn dưới của chúng vẫn chưa được chặt Vì vậy,
Keogh va cac cộng sự đã phát triển một kỹ thuật tính chặn dưới dựa trên ý tưởng của ràng buộc toàn cục mà tiêu biểu là hai trường hợp ràng buộc dải Saikoe-Chiba và hình bình hành Itakura Ràng buộc toàn cục mà Keogh sử dụng cho đường xoắn wy = (i,j), sao cho j —
r Si < j+r với r được định nghĩa là phạm vi xoắn cho phép của một điểm trong chuỗi thời gian Trong trường hợp dải Sakoe-Chiba thì z độc lập với ¡ nhưng đỗi với hình
bình hành Itakura thì z là một hàm theo biến ï
Keogh định nghĩa hai chuỗi và 7 tương ứng là chặn trên và chặn dưới mới như
sau:
U; = max (Gi-r:qi+r) (19) L; = min (Qi-r: qi+r) (20)
Vi vay, chuỗi Ó được bao bởi hai đường chặn trên và chặn dưới Ngoài ra, mặc dù dải Sakoe-Chiba với thông số z là độ rộng không thay đổi nhưng khi áp dụng thì đường bao không phải là đường có chiều dày bằng nhau ở mọi thời điểm Thực tế, đường bao
Trang 40trong trường hợp dải Sakoe-Chiba chỉ rộng hơn khi chuỗi Ó có sự thay đổi nhanh, hẹp khi chuỗi Q càng phẳng
0 5 10 15 20 25 30 35 40
Hình 14 mô tả đường bao D và L của chuối O[19]
Hình 14 mô tả đường bao Ù và L tương ứng với chuỗi Ó trong hai trường hợp ràng buộc toản cục dải Sakoe-Chiba (A) và hình bình hành Itakura (B)
Một tính chất quan trọng của hai đường chặn trên U và chặn dưới 7 đó là: V; U; >
qi = L¡ Tù đó, Keogh xây dựng nên một hảm tính chặn dưới với khoảng cách DTW mới