Chuỗi thời gian (time series) là chuỗi trị số thực, mỗi trị biểu diễn một giá trị đo tại những thời điểm cách đều nhau. Dữ liệu chuỗi thời gian phổ biến ở rất nhiều lĩnh vực như kinh tế, tài chính, kỹ thuật, y khoa, địa lý, khí tượng thủy văn, . . . Việc dự báo dữ liệu chuỗi thời gian ngày càng quan trọng và đặc biệt hữu ích. Nhiều phương pháp, mô hình dự báo đã được đề xuất và hiện thực như hồi quy, ARIMA, làm trơn hàm mũ, ANN, SVM. Tuy nhiên ngày nay, việc dự báo đòi hỏi cần phải có độ chính xác cao, chạy nhanh và có khả năng thực thi trực tuyến (online). Một trong những công trình nghiên cứu hiện đại gần đây là kết họp phương pháp phân đoạn bằng các điểm quan trọng PIP với độ đo xoắn thời gian động (DTW) được đề xuất bởi Tsinaslanidis và Kugiumtzis vào 2014. Phương pháp này đạt được độ chính xác dự báo cao, tuy nhiên phương pháp này không thể đạt được yêu cầu chạy trực tuyến và thời gian thực thi còn lớn. Từ các công trình nghiên cứu trên và các nghiên cứu khác có liên quan, đề tài nghiên cứu này sẽ đề xuất một mô hình kết họp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo DTW tăng tốc cho bài toán dự báo dữ liệu chuỗi thời gian, có khả năng thực thi nhanh và có độ chính xác cao, đóng góp một phần nhỏ vào sự phát triển của lĩnh vực dự báo về dữ liệu chuỗi thời gian.
Trang 1ĐẠI HỌC QUỐC GIA TP Hồ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA
NGUYỄN HỮU LỘC
KẾT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỘ ĐO DTW CHO BÀI TOÁN DỰ BÁO DỮ LIỆU CHUỖI
Trang 2CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM
Cán bộ hướng dẫn khoa học : PGS TS DƯONG TUẤN ANH
Cán bộ chấm nhận xét 1 : TS Phạm Văn Chung
Cán bộ chấm nhận xét 2 : TS.Lê Văn Quốc Anh
Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 26 tháng 12 năm 2018
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:
Trang 3ĐẠI HỌC QUỐC GIA TP.HCM
TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
• • • •
Họ tên học viên: NGUYỄN HỮU LỘC MSHV: 1570218
Ngày, tháng, năm sinh: 13/01/1985 Nơi sinh: Long An
Ngành: KHOA HỌC MÁY TÍNH Mã số : 60480101.,
I TÊN ĐỀ TÀI: Kết hợp phương pháp phân đoạn bằng các điểm cực trị quan trọng
và độ đo DTW cho bài toán dự báo dữ liệu chuỗi thời gian
II NHIỆM VỤ VÀ NỘI DUNG: Đề xuất phương pháp kết hợp điểm cự trị quan
trọng, độ đo xoắn thời gian động DTW và giải thuật k lân cận gần nhất K-NN cho
bài toán dự báo chuỗi dữ liệu thời gian
III NGÀY GIAO NHIỆM VỤ: 15/01/2018
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 12/12/2018
Trang 4KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
LỜI CÁM ƠN
Tôi xin gởi lời cám ơn chân thành và sâu sắc đến PGS TS Dương Tuấn Anh, Thầy đã tận tình hướng dẫn, định hướng tôi từ cách đặt vấn đề, phương pháp nghiên cứu khoa học đến những công việc cụ thể trong luận văn này
Xin chân thành cảm ơn tất cả quý Thầy Cô trong Khoa Khoa học và Kỹ Thuật Máy Tính đã tận tình truyền đạt những kiến thức quý báu cho tôi trong suốt quá trình học tập
Cuối cùng và trên hết, con cảm ơn gia đĩnh đã động viên và tạo điều kiện tốt nhất
để con có thể tiếp tục con đường học tập và nghiên cứu Con trân trọng dành tặng thành quả của luận văn này cho Ba Mẹ và cả gia đĩnh
Trang 5KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
TÓM TẮT
Chuỗi thời gian (time series) là chuỗi trị số thực, mỗi trị biểu diễn một giá trị đo tại những thời điểm cách đều nhau Dữ liệu chuỗi thời gian phổ biến ở rất nhiều lĩnh vực như kinh tế, tài chính, kỹ thuật, y khoa, địa lý, khí tượng thủy văn, Việc dự báo dữ liệu chuỗi thời gian ngày càng quan trọng và đặc biệt hữu ích Nhiều phương pháp, mô hình dự báo đã được đề xuất và hiện thực như hồi quy, ARIMA, làm trơn hàm mũ, ANN, SVM Tuy nhiên ngày nay, việc dự báo đòi hỏi cần phải có độ chính xác cao, chạy nhanh và có khả năng thực thi trực tuyến (online)
Một trong những công trình nghiên cứu hiện đại gần đây là kết họp phương pháp phân đoạn bằng các điểm quan trọng PIP với độ đo xoắn thời gian động (DTW) được
đề xuất bởi Tsinaslanidis và Kugiumtzis vào 2014 Phương pháp này đạt được độ chính xác dự báo cao, tuy nhiên phương pháp này không thể đạt được yêu cầu chạy trực tuyến
và thời gian thực thi còn lớn
Từ các công trình nghiên cứu trên và các nghiên cứu khác có liên quan, đề tài nghiên cứu này sẽ đề xuất một mô hình kết họp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo DTW tăng tốc cho bài toán dự báo dữ liệu chuỗi thời gian, có khả năng thực thi nhanh và có độ chính xác cao, đóng góp một phần nhỏ vào sự phát triển của lĩnh vực dự báo về dữ liệu chuỗi thời gian
Trang 6KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
ABSTRACT
Time series is a series of real values, each of which represents a measured value at evenly spaced intervals Time series data are common in many areas such as economy,
meteorology, Forecasting of time series data is increasingly important and particularly useful Many methods, forecasting models have been proposed and implemented such as regression, ARIMA, exponential smoothing, ANN, and SVM However, today's forecasting requires high accuracy, fast execution and online performance
One of the recent recent studies is a combination of the PIP critical point and dynamic time warping (DTW) measure method proposed by Tsinaslanidis and Kugiumtzis in 2014 The prediction accuracy of this approach is high, however, this method can not meet the requirements of online prediction and the execution time is still high
From the above studies and other related studies, this research proposes a model combining the method of segmentation by the important extreme points and the accelerated DTW measure for the forecasting problem With fast execution and high prediction accuracy, the proposed method contributes a small part to the development
of the field of study of time series prediction
Trang 7KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN
LỜI CAM ĐOAN
Tôi xin cam đoan các kết quả báo cáo trong luận văn này và chương trình là sản phẩm do công sức lao động của chính tôi thực hiện, không có sự sao chép từ những công trình nào khác, ngoại trừ những kết quả từ các công trình khác đã ghi rõ trong luận văn Tất cả các kiến thức tôi học hỏi được từ những tài liệu tham khảo đều được trích dẫn nguồn đầy đủ Nếu có bất cứ sai phạm nào so với lời cam đoan, tôi xin chịu các hình thức xử lý theo quy định
Trang 8KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
MUC LUC
• •
CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1
1.1 Giói thiệu vấn đề 1
1.2 Mục tiêu 1
1.3 Phạm vi nghiên cứu 2
1.4 Tóm lược kết quả đạt được 2
1.5 Cấu trúc của luận văn 3
CHƯƠNG 2: Cơ SỞ LÝ THUYẾT 5
2.1 Chuỗi thời gian 5
2.2 Các thành phần của chuỗithời gian 5
2.2.1 Thành phần xu hướng 5
2.2.2 Thành phần chu kỳ 6
2.2.3 Thành phần theo mùa 6
2.2.4 Thành phần bất quy tắc 7
2.3 Bài toán dự báo 7
2.3.1 Các phương pháp dự báo truyền thống - 7
2.3.1.1 Hồi quy - 7
2.3.1.2 Mô hình tự hồi quy tích hợp với trung bĩnh trượt (ARIMA) - 8
2.3.1.3 Phương pháp làm trơn hàm mũ - 8
2.3.2 Các phương pháp dự báo hiện đại (học máy) - 9
2.3.2.1 Mạng nơ ron nhân tạo - 9
10
Trang 9KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
2.4 Phân biệt dự báo trực tuyến, không trực tuyến 11
2.5 Giải thuật K-NN dùng trong dự báo 12
2.6 Độ đo xoắn thời gian động (Dynamic Time Wraping -DTW) 14
2.6.1 Giói thiệu 14
2.6.2 Tính toán trong độ đo DTW 17
2.6.3 Kỹ thuật ràng buộc toàn cục 22
2.6.4 Kỹ thuật tính chặn dưới 23
2.6.4.1 Phương pháp tính chặn dưới của Kim 23
2.6.4.2 Phương pháp tính chặn dưới của Yi 24
2.6.4.3 Phương pháp tính chặn dưới của Keogh 25
2.7 Chuẩn hóa dữ liệu 28
2.7.1 Chuẩn hóa dữ liệu min-max 28
2.7.2 Chuẩn hóa dữ liệu z-score 28
2.8 Phép vị tự (Homothetic transformation) 29
2.9
Các tiêu chí đánh giá độ chính xác dự báo 30
CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN 31
3.1 Các phương pháp phân đoạn - 31
3.1.1 Điểm quan trọng (Perceptually important point - PIP) - 31
3.1.2 -
Điểm cực trị quan trọng (Important Extreme Point - IEP) - 32
3.2 -
Dự báo dữ liệu thời gian bằng mạng nơ rơn nhân tạo - 34
3.3 Dự báo dữ liệu thời gian bằng phương pháp phân đoạn dựa vào các điểm PIP kết hợp với độ đo DTW - 35
Trang 10KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
3.4.2 Kỹ thuật LB_Kim 37
3.4.3 Kỹ thuật LB_KimFL 37
3.4.4 Kỹ thuật từ bỏ sớm của LB_Keogh 38
3.4.5 Kỹ thuật từ bỏ sớm của DTW 38
3.4.6 Kỹ thuật đảo ngược LB_Keogh 39
CHƯƠNG 4: PHƯƠNG PHÁP Dự BÁO ĐỀ XUẤT 41
4.1 Mô hình tổng quan 41
4.2 Mô hình chi tiết 42
4.3 Chi tiết module trong hệ thống 43
4.3.1 Phân đoạn dữ liệu bằng phương pháp điểm cực trị quan trọng 43
4.3.2 Tìm chuỗi đích và chuỗi nguồn 45
4.3.3 Chuẩn hóa dữ liệu 45
4.3.4 Thay đổi chiều dài của chuỗi nguồn bằng phép vị tự 46
4.3.5 Sử dụng bộ UCR-DTW để tăng tốc độ tìm kiếm 47
4.3.6 Giải thuật K-NN 47
4.3.7 Tìm các giá trị tương ứng, chuẩn hóa và lấy trung bình cộng 48
4.3.8 Tìm giá trị cần dự báo - 49
4.4 Tìm hệ số k, hệ số nén R, bề rộng dải Sakoe-Chiba r - 51
CHƯƠNG 5: THựC NGHIỆM VÀ ĐÁNH GIÁ - 52
5.1 Giói thiệu các tập dữ liệu thực nghiệm - 52
5.2 Kết quả thực nghiệm - 54
5.3 So sánh độ đo DTW thuần túy và bộ tăng tốc UCR-DTW - 60
5.3.1 Số lần gọi độ đo xoắn thời gian động DTW - 60
5.3.2 Thời gian thực thi giữa DTW thuần túy và bộ UCR-DTW - 61
Trang 11KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
5.4 So sánh độ chính xác giữa phương pháp đề xuất với phương pháp sử dụng ANN 62
CHƯƠNG 6: KẾT LUẬN 65
6.1 Tổng kết 65
6.2 Những đóng góp của đề tài 65
6.3 Hướng phát triển 66
TÀI LIỆU THAM KHẢO 67 PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT A
Trang 12KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
MUC LUC HÌNH
• •
Hình 2.1 Nhiệt độ mặt đất trung bình toàn cầu từ 1856 đến 2005 6
Hình 2.2 Thành phần theo mùa 7
Hình 2.3 Đường hồi quy tuyến tính đơn biến y= X+ 1 8
Hình 2.4 Mạng nơ rơn nhân tạo 9
Hình 2.5 Support Vector Machines 10
Hình 2.6 Giải thuật K-NN 11
Hình 2.7 Ý tưởng cơ bản của cách tiếp cận dựa trên phương pháp so trùng mẫu 12
Hình 2.8 Minh họa thuật toán dự báo dựa trên phương pháp so trùng mẫu 13
Hình 2.9 Độ đo Euclid (a) và độ đo DTW (b) 16
Hình 2.10 Ma trận xoắn và đường xoắn tối ưu 18
Hình 2.11 Đồ thị biểu diễn hai chuỗi thời gian.[19] 20
Hình 2.14 Ràng buộc toàn cục của độ đo xoắn thời gian động (Nguồn [5]) 23
Hình 2.15 Mô tả kỹ thuật chặn dưói của Kim 24
Hình 2.16 Mô tả kỹ thuật chặn dưói của Yi - 25
Hình 2.17 Mô tả đường bao u và L của chuỗi Q - 26
Hình 2.18 Mô tả kỹ thuật chặn dưới của Keogh - 27
Hình 2.19 Phép biến đổi vị tự - 29
Hình 3.1 Quá trình xác định 5 điểm PIP trong dữ liệu chuỗi thòi gian - 31
Hình 3.2 Điểm cực tiểu quan trọng và điểm cực đại quan trọng - 32
Hình 3.3 Điểm cực đại, cực tiểu - 33
Hình 3.4 Bốn loại điểm cực tiểu quan trọng - 33
Hình 3.5 Mô hình huấn luyện ANN để dự báo chuỗi thời gian - 34
Trang 13KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
Hình 3.6 Dự báo bằng phương pháp PIP([1]) 36
Hình 3.7 LB_ .Kim 37
Hình 3.8 LB_KimFL 37
Hình 3.9 Từ bỏ sớm của LB_Keogh 38
Hình 3.10 Từ bỏ sớm của DTW 38
Hình 3.11 Đảo ngược LB_Keogh 39
Hình 4.1 Mô hình tổng quan 41
Hình 4.2 Mô hình chi tiết của phương pháp dự báo đề xuất 42
Hình 4.3 Các điểm cực trị quan trọng 44
Hình 4.4 Chuỗi đích và các chuỗi nguồn 45
Hình 4.5 Chuẩn hóa dữ liệu 46
Hình 4.6 Co chiều dài chuỗi gốc 46
Hình 4.7 Giản chiều dài chuỗi gốc 47
Hình 4.8 Hai chuỗi nguồn tương tự nhất với chuỗi đích 48
Hình 4.9 Giá trị được dự báo 50
Hình 4.10 Kết quả dự báo nhiều bước 50
Hình 5.1 Bộ dữ liệu Air Passengers - 52
Hình 5.2 Bộ dữ liệu C02 - 53
Hình 5.3 Bộ dữ liệu Fancy - 53
Hình 5.4 Bộ dữ liệu Mdeaths - 53
Hình 5.5 Bộ dữ liệu Red deer - 54
Hình 5.6 Bộ dữ liệu UKgas - 54
Hình 5.7 Ket quả dự báo của bộ dữ liệu Air Passengers - 55
Hình 5.8 Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của - 55
Trang 14KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
Hình 5.9 Kết quả dự báo của bộ dữ liệu CO2 56
Hình 5.11 Kết quả dự báo của bộ dữ liệu Fancy 56 Hình 5.12 Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu Fancy — 57 Hình 5.13 Kết quả dự báo của bộ dữ liệu Mdeaths 57 Hình 5.14 Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu Mdeaths - 57 Hình 5.15 Kết quả dự báo của bộ dữ liệu Red deer 58 Hình 5.16 Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu Red deer- 58 Hình 5.17 Kết quả dự báo của bộ dữ liệu UKgas 59 Hình 5.18 Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu UKgas — 59 Hình 5.19 Biểu đồ so sánh số lần gọi giữa DTW thuần túy và bộ UCR-DTW 61 Hình 5.20 Biểu đồ so sánh thòi gian thực thi DTW thuần túy và bộ UCR-DTW 62 Hình 5.21 minh họa biểu đồ so sánh giữa phương pháp được đề xuất và ANN — 63 Hình 5.21 Biểu đồ so sánh giữa phương pháp được đề xuất và ANN 63
Trang 15KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
MỤC LỤC BẢNG
Bảng 1 Giải thích các ký hiệu của giải thuật DTW 17
Bảng 2 Số liệu so sánh số lần gọi giữa DTW thuần túy và bộ UCR-DTW 60
Bảng 3 Số liệu thời gian thực thi của DTW thuần túy và bộ UCR-DTW 61
Bảng 4 Số liệu MAPE so sánh giữa phương pháp được đề xuất và ANN 63
Trang 16KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
CHƯƠNG 1: GIỚI THIÊU ĐÈ TÀI
Chương này sẽ trình bày vấn đề mà đề tài tập trung nghiên cứu, động cơ để thực hiện đề tài này và mục tiêu của đề tài Ngoài ra, chúng tôi cũng trĩnh bày sơ lược các kết quả đạt được cũng như là nội dung của đề tài
pháp hiện đại như mạng nơ ron nhân tạo, máy véc tơ hỗ trợ, giải thuật k lân cận gần
nhất Tuy nhiên các phương pháp này thường không đạt được độ chính xác cao, một vài phương pháp cải tiến đạt được độ chính xác cao nhưng không đảm bảo được tốc độ thực thi của giải thuật và không phù họp với dự báo trực tuyến Vì vậy yêu cầu đặt ra là cần phải có một phương pháp nhằm đạt được độ chính xác cao của dự báo cũng như tốc độ thực thi nhanh nhằm phục vụ tốt cho nhu cầu dự báo trực tuyến
1.2 Mục tiêu
Mục tiêu nghiên cứu của đề tài này là kết hợp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo xoắn thời gian động (dynamic time warping - DTW) cho bài toán dự báo dữ liệu chuỗi thời gian, với các vấn đề chính sau:
• Nghiên cứu các kỹ thuật phân đoạn dựa trên điểm cực trị quan trọng: ưu điểm của kỹ thuật phân đoạn này là thời gian chạy tuyến tính, nhanh và phù hợp với dự báo trực tuyến
Trang 17KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
• Nghiên cứu về độ đo xoắn thời gian động và các kỹ thuật tăng tốc cách tính độ đo DTW: Độ đo xoắn thời gian động có độ chính xác cao và phù hợp với chuỗi dư liệu thời gian hơn so với độ đo Eclid nhưng tốc độ tính toán chậm hơn, ta sử dụng bộ tăng tốc UCR-DTW nhằm giải quyết vấn đề
về thời gian thực thi
• Tìm hiểu về giải thuật k-NN cho công tác dự báo: Giải thuật k-NN được dùng cho quá trình phân lớp, tuy nhiên nó cũng được dùng cho quá trình
dự báo
• Đề xuất phương pháp kết hợp điểm cự trị quan trọng (important extreme
points - IEP), độ đo xoắn thời gian động DTW và giải thuật k lân cận gần
nhất K-NN cho bài toán dự báo chuỗi dữ liệu thời gian
• So sánh số lần gọi và thòi gian thực thi của độ đo DTW thuần túy so với
1.4 Tóm lược kết quả đạt được
Sau một thời gian nghiên cứu và hiện thực, chúng tôi đã đạt được các kết quả tích cực đó là:
• Nắm được kỹ thuật phân đoạn dựa vào các điểm cực trị quan trọng IEP
• Hiểu rõ độ đo xoắn thời gian động DTW thuần túy và bộ kỹ thuật tăng tốc UCR-DTW
Trang 18KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
• Nắm được cách sử dụng giải thuật k lân cận gần nhất k-NN dùng cho dự
báo chuỗi thời gian
• Hiện thực thành công cách kết hợp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo xoắn thời gian động cho bài toán dự báo dữ liệu chuỗi thời gian
• So sánh số lần gọi và thời gian thực thi của độ đo xoắn thời gian động DTW thuần túy so với bộ tăng tốc UCR-DTW Kết quả thực nghiệm cho thấy số lần gọi DTW của độ đo xoắn thời gian động DTW thuần túy cao hơn nhiều so với bộ tăng tốc UCR-DTW
• So sánh kết quả đạt được của phương pháp đề xuất so với phương pháp dự báo bằng mạng nơ rơn nhân tạo ANN Ket quả thực nghiệm cho thấy phương pháp đề xuất có độ chính xác dự báo cao hơn nhiều so với phương pháp mạng nơ rơn
Như vậy, hệ thống này cơ bản đã đáp ứng được các yêu cầu của bài toán đặt ra
mà chúng tôi sẽ trình bày chi tiết ở các phần sau
1.5 Cấu trúc của luận văn
*
Tổ chức phần còn lại của luận văn gồm những phần như sau:
Chương 2 là các cơ sở lý thuyết mà chúng tôi sử dụng trong nghiên cứu này Chúng bao gồm các lý thuyết về độ đo khoảng cách của chuỗi thời gian, các phương pháp dự báo truyền thống, hiện đại, phân biệt dự báo trực tuyến, không trực tuyến, giải thuật k-NN dùng trong dự báo, độ đo xoắn thời gian động, các kỹ thuật ràng buộc toàn cục, ràng buộc cận dưới, chuẩn hóa dữ liệu, phép biến đổi vị tự, các tiêu chí đánh giá
độ chính xác của dự báo
Chương 3 đề tài giới thiệu về các công trình nghiên cứu liên quan Những công trình này trình bày về điểm quan trọng, điểm cực trị quan trọng, bộ kỹ thuật tăng tốc UCR-DTW, dự báo dữ liệu thời gian bằng mạng nơ rơn nhân tạo ANN, dự báo dữ liệu thời gian bằng phương pháp phân đoạn dựa vào các điểm quan trọng kết hợp với độ đo xoắn thời gian động
Trang 19KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
Chương 4 bao gồm nội dung chi tiết thiết kế và hiện thực hệ thống kết hợp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo DTW cho bài toán dự báo
dữ liệu chuỗi thời gian, dự báo một bước và nhiều bước
Chương 5 trình bày các kết quả thực nghiệm đạt được, qua đó đánh giá độ chính xác của dự báo, so sánh với phương pháp dự báo bằng mạng nơ ron nhân tạo ANN, so sánh giữa độ đo xoắn thời gian động DTW thuần túy và bộ tăng tốc UCR- DTW
Chương 6 là một số kết luận, đóng góp của đề tài cũng như hướng phát triển trong tương lai của đề tài
Trang 20KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
CHƯƠNG 2: cơ SỞ LÝ THUYẾT
Chương này trình bài cơ sở lý thuyết bao gồm chuỗi thòi gian, các thành phần của chuỗi thòi gian, các phương pháp dự báo chuỗi thời gian cổ điển và hiện đại Các độ đo như xoắn thời gian động, các kỹ thuật ràng buộc, chuẩn hóa dữ liệu, phép vị tự và các tiêu chí đánh giá độ chính xác của dự báo
2.1 Chuỗi thời gian
Một chuỗi thời gian (time series) T là chuỗi trị số thực, mỗi trị số biểu diễn một giá
thời gian rất lớn xuất hiện trong nhiều lĩnh vực khác nhau như y khoa, kỹ thuật, kinh tế, tài chính, v.v .[2][15]
Trong thực tế, khi quan sát chuỗi thời gian ta nhận thấy bốn thành phần ảnh hưởng
lên mỗi giá trị của chuỗi thời gian đó là xu hướng (trend), chu kỳ (cyclical), mùa (seasonal), bất quy tẳc (irregular)
2.2 Các thành phần của chuỗi thời gian
2.2.1 Thành phần xu hướng
Là thành phần thể hiện sự tăng hay giảm giá trị của chuỗi thời gian trong một giai đoạn dài hạn nào đó [10] Hình 2.1 là nhiệt độ mặt đất trung bình toàn cầu có tính xu hướng, giá trị tăng theo thời gian từ 1856 đến 2005
Trang 21KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BÂNG GÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOAN
Dự BÁÒ Dữ LIẸU CHUỒI THỜI GIAN _
Hình 2.1 Nhiệt độ mặt đất trung bình toàn cầu từ 1856 đến 2005
2.23 Thành phần theo mùa
Là thành phần thể hiện sự biến đổi lặp đỉ lặp lại tại từng thời điểm cố định theo từng năm của chuỗi thời gian [10] Hình 2.2 mình họa thành phần dữ liệu theo mùa đông, xuân, hạ, thu
Trang 22KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _
Hồi qui (regression) là một mô hình thống kê được sử dụng để dự đoán giá trị cửa biến phụ thuộc (dependence variable) hay cồn gọi là biến kết quả dựa vào những giá trị của ít nhất một biến độc lập (independence variable) hay còn gọi là biến nguyên nhân Nếu mô hình hồi qui phân tích sự phụ thuộc của một biến phụ thuộc vào một biến
độc lập gọi là hồi quỉ đơn, nếu có nhiều biến độc lập gọi là hồi qui bội Hồi qui tuyến
tính là mô hình hồi quỉ trong đó mối quan hệ giữa các biến được biểu diễn bởi một
đường thẳng (đường thẳng là đường phù hợp nhất vởi dữ liệu) Hình 2.3 là đường hồi
giá trị X.
Phương trình hồi quy Y = f(X, 0)
X: các biến dự báo/độc lập; giải thích sự biến đổi của các đáp ứng Y
Y: các biến đáp ứng/phụ thuộc; mô tả các hiện tượng được quan tâm
Trang 23KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
0\ các hệ số hồi qui (regression coefficients); mô tả sự ảnh hưởng tương đối của X
đối với Y
Y1 Y1
XI
X
2.3.I.2 Mô hình tự hồi quy tích họp vói trung bình trượt (ARIMA)
Mô hình tự hồi quy tích hợp với trung bình trượt (ARIMA) là một lóp mô hình tuyến tính sử dụng độ trễ để đưa ra dự báo thích họp
George Box và Gwilym Jenkins (1976) đã nghiên cứu mô hình ARIMA (Autoregressive Integrated Moving Average) hay còn gọi là phương pháp Box- Jenkins với bốn buớc: nhận dạng mô hình thử nghiệm, uớc lượng các tham số, kiểm định bằng chẩn doán, và dự báo
Thông thường các chuỗi dữ liệu kinh tế và tài chính như GDP, CPI, GNP, giá cổ phiếu đều là các chuỗi không dừng (non stationary time series), có yếu tố xu thế Chính
vì vậy để tạo ra chuỗi dừng ta phải khử yếu tố xu thế trong các chuỗi dữ liệu gốc thông qua quy trình lấy sai phân Từ việc dự báo chuỗi dừng này ta suy ra dự báo cho chuỗi
dữ liệu gốc
2.3.I.3 Phương pháp làm trơn hàm mũ
Các phương pháp làm trơn (smoothing method) là tập họp các phương pháp, trong đó các giá trị dự báo mới ở một thời đoạn sẽ được ước lượng bằng việc kết họp giá trị dự báo và giá trị quan sát ở thòi đoạn ngay trước đó Đây là một trong những kĩ thuật đơn giản mô phỏng hiệu quả để sử dụng dự báo đối với dữ liệu chuỗi thời gian có tính chất tuyến tính Gồm có các kỹ thuật sau [10]:
Trang 24KÉT HỢP PHƯƠNG PHẤP PHÂN ĐOẠN BẲNG CÁC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _
Kỹ thuật làm trơn hàm mũ giản đơn (Simple Exponential Smoothing)
Kỹ thuật làm trơn hàm mũ Holt
Kỹ thuật làm trơn hàm mũ Winters (mô hình Holt-Winters)
Kỹ thuật làm trơn hàm mũ Hold được dùng cho dữ liệu chuỗi thời gian có xu hướng
Kỹ thuật làm trơn hàm mũ Holt-Winters được dùng cho dữ liệu chuỗi thời gian có tính
mô phỏng theo mạng nơ ron sinh học trong bộ não người
Trong quá trình phát triển của mình mạng nơ ron nhân tạo đã được ủng dụng thành công trong nhiều bài toán thực tế như nhận dạng chữ viết, nhận dạng tiếng nối, điều khiển tự động, dự báo chuỗi thời gian Hình 2.4 là mạng nơ ron nhân tạo tổng quát vổd
Trang 25KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _ _
Mạng nơ ron nhân tạo không chỉ cố thể dùng cho hài toán phân lớp mà còn cố thể dùng cho bài toán dự báo dữ liệu chuỗi thời gian (xem mục các công trình có liên quan)
23.2.2 Máy vector hẫ trợ
Máy vector hỗ trợ (Support Vector Machines - SVM) là mô hình được sử dụng trong nhiều ngành, là một mô hình máy học giám sát được dùng để dự đoán và phân lớp cho dữ liệu tuyến tính và không tuyến tính
SVM là mô hình xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác Để phân loại tốt nhất thì phải xác định siêu phẳng tốỉ ưu (optimal hyperplane) nằm ở càng xa các điểm dữ liệu của tất cả các lớp (hàm lề) càng tốt, vì nối chung lề càng lớn thì sai số tổng quát hốa của thuật toán phân loại càng bé Hình 2.5 bao gồm siêu phẳng đứng và siêu phẳng xiên Siêu phẳng xiên là siêu phẳng tối ưu
Trang 26KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _
2.3.23 Gỉải thuật tìm k lân cận gần nhất (k-NN)
Giải thuật k~NN (k-Nearest Neighbor) được sử dụng rất phổ biến trong lĩnh vực khai phá dữ liệu nói chung và trong bài toán phân lớp nói riêng Đây là phương pháp để phân lóp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần gán nhãn lớp
và tất cả các đối tượng khác trong tập huấn luyện [9]
Với giải thuật k-NN thì một đối tượng sẽ được phân lớp theo lớp chiếm đa số trong
k lân cận của nó, trong đỏ k là số nguyên dương được chọn khỉ thực hiện thuật toán
Việc chọn giá trị & rất quan trọng vì nếu chúng ta chọn k quá nhò thì kết quả sẽ dễ
bị ảnh hưởng bởi nhiễu, còn nếu chọn k quá lớn thì nhiều phần tử lân cận chọn được có thể đến từ các lóp khác Hình 2.6 là giải thuật k-NN vói k lần lượt là 1 và 4 Với k-ì thì Với k = 1 tin mẫu dấu hỏi sẽ thuộc lớp của lân cận gần nhất là lóp hình vuông Vối k =
4, mẫu dấu hỏi sẽ thuộc lớp chiếm đã số trong 4 lân cận gần nhất 4 lân cận gần nhất
của mẫu dấu hỏi gồm 3 mẫu thuộc lớp hình vuông và 1 mẫu thuộc lớp tam giác, vì vậy mẫu dấu hỏi thuộc lớp hình vuông
2.4 Phân biệt dự báo trực tuyến, không trục tuyến
Dự báo trực tuyến (online prediction) là dự báo mà dữ liệu tới liên tục ta không cần phải tính toán lại toàn bộ giải thuật mà chỉ cần tính toán lại một phần nhỏ trong giải thuật nhằm đảm bảo được kết quả dụ đoán nhanh chỏng, không phải chờ đợi lâu
Trang 27KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _
Dự báo không trực tuyến là dự báo mà dữ liệu ta đã có sẵn đầy đủ trước, khi dữ liệu mới đến ta phải tính toán lại toàn bộ giải thuật
2.5, Gỉảỉ thuật K-NN dùng trong dự báo
Phương pháp làm trơn hàm mũ và mô hình AR1MA là những mô hình tuyến tính
vì vậy chúng chỉ nắm bắt được thành phàn theo xu hướng của chuỗi dữ liệu thời gian Còn ANN là mô hình phi tuyến tính vì vậy nó không nắm bắt được thành phần theo mùa hay xu hướng một cách hiệu quả [4]
Cách tiếp cận k-lân cận gần nhất là một trong những kỹ thuật dự báo phi tham số
(non-parametric), hiểu theo nghĩa người dùng không phải biết trước mối quan hệ lý thuyết nào giữa các trị xuất và các trị nhập trong bài toán dự báo, do đó nó rất tự nhiên
và trực giác Ý tưởng chính của cách tiếp cận này là nhận dạng các mẫu trong quá khứ khớp với mẫu hiện hành và dùng tri thức về cách mà chuỗi thời gian biến đổi trong quá khứ trong những tình huống tương tự để dự báo về biến đổi trong tương lai Ngoài ra, với cách tiếp cận k-lân cận gàn nhất này, các mẫu dự báo có thể được hồi tiếp trở lại
vào tập dữ liệu để sử dụng cho các lần dự báo sau, nhờ vậy tầm (horizon) của dự báo cố
thề được kểo dài theo yêu cầu (kỹ thuật này được gọi là dự báo lặp - iterated prediction) Hình 2.7 trình bày ý tưởng cơ bản của cách tiếp cận này
Hình 2.7 Ý tưởng cơ bản của cách tiếp cận dựa trên phương pháp so trùng
mẫu Thuật toán dự báo chuỗi thời gian dựa vào kỹ thuật &-lân cận gần nhất được thực
hiện như sau Cho một trạng thái (mẫu) hiện hành cố chiều dài w trong chuỗi thời
Trang 28KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _ _
gian có chiều dài n (w « n) và chúng ta phải dự đoán chuỗi có chiều dài m(m<w) sẽ xảy
ra ở bước kế tiếp theo thòi gian (tức là dự báo m bước về phía tương lai) Đầu tiên, thuật toán sẽ tìm kiếm k lân cận gần nhất hay các lân cận trong một ngưỡng T cho trước đối với mẫu đó Sau đó, thuật toán láy các chuỗi có chiều dài m nằm kế cận bên phải của
các lân cận gần nhát tìm được ở bước trên Cuối cùng, chuỗi dự báo được ước lượng bằng cách tính trung bình cộng các chuỗi vừa thu được Trong trường hợp cần dự báo với tầm dự báo nhiều bước, chuỗi ước lượng có thể được chèn vào cuối tập dữ liệu để
dự báo cho các điểm tiếp theo Hình 2.8 minh họa thuật toán dự báo dựa trên phương pháp so trùng mẫu
Chuồi ước lượng Hình 2.8 Minh họa thuật toán dự báo dựa trên phương pháp so trùng mẫu
Giải thuẳt k-lân cân gần nhất dùng trong dư báo:
D là chuỗi thời gian có chiều dài ni,TS là tập kiểm tra có chiều dài H2, w là chiều dài của mẫu, và m là chiều dài của chuỗi dự báo (m < w < m và w « nì) Chú ý là trong trường hợp m <w, chúng ta có thể dùng một biến để lưu tích lũy các chuỗi ước lượng cho tới khi m bằng với w Khi đó, chúng ta có thể chèn chuỗi tích lũy được vào trong
cáu trúc chỉ mục mà không cần phải xây dựng lại cáu trúc chỉ mục khi quay lại thực hiện bước 1
1 Thu giảm số chiều các chuỗi con có chiều dài w trong D và chèn chứng vào
trong một cấu trúc chỉ mục đâ chiều (nếu cần)
TS
Trang 29KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
4 Với mỗi lân cận gần nhất tìm được ở bước 3, khôi phục chuỗi có chiều dài m nằm kế cận nó trong D
5 Tính trung bình cộng các chuỗi tìm được ở bước 4
6 Trả lại kết quả ước lượng ở bước 5
7 Chèn chuỗi ước lượng ở bước 5 vào D để dự báo các mẫu tiếp sau và quay lại
bước 1 (nếu cần)
Từ giải thuật ở trên ta có thể thấy khác với các mô hình thống kê và cả mô hình ANN thường phải xây dựng mô hình từ tập dữ liệu có sẵn (tức là quá trình học), phương
pháp k-\ẫn cận gần nhất coi tập huấn luyện chính là mô hình, do vậy nó tiến hành dự
báo trực tiếp dựa vào tập huấn luyện mà không qua một quá trình học nào cả
Trong giải thuật trên có ba tham số phải xác định: độ đo được dùng để xác định độ
tương tự của hai chuỗi con, số lân cận gần nhất (k) cần tìm và chiều dài (w) của mẫu để
so trùng Độ đo được chọn để dùng trong luận văn này là độ đo DTW Việc xác định
giá trị của k có ảnh hưởng đến chất lượng của dự báo của giải thuật k-lẫn cận gần nhất Trong thực tế, giá trị tốt nhất của k thường nhỏ đối với dữ liệu chuỗi thời gian không có
nếu dữ liệu chuỗi thời gian có chiều dài của mùa là s thì ta nên chọn w bằng với s
2.6 Độ đo xoắn thời gian động (Dynamic Time Wraping - DTW)
Trang 30KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
độ đo Euclid Chính vì tính linh hoạt cho kết quả chính xác hơn nên độ đo xoắn thời gian động bắt đầu đóng vai trò quan trọng trong nhiều lĩnh vực nhu khoa học, y khoa, công nghiệp, hay tài chính nơi mà các dữ liệu yêu cầu tính toán với độ chính xác cao hơn
Đã có rất nhiều công trình nghiên cứu về độ đo này nhu vào năm 1994 thi Bemdt
và Clifford đã giới thiệu chính thức độ đo này trong công trình nghiên cứu về độ đo xoắn thời gian động trong cơ sở dữ liệu Hay các nghiên cứu truớc đó của các nhà nghiên cứu nhu: Itakura 1975; Kruskall và Liberman 1983; Myers et al 1980; Rabiner và Juang 1993; Rabiner et al 1978; Sakoe và Chiba 1978; Tappert and Das 1978 Tuy chỉ có một vài nghiên cứu chính thức nhung ngay sau đó thi độ đo này ngay lập tức góp phần không thể thay thế trong nhiều lĩnh vực Trong năm 2001 thi Aach và Church đã áp dụng thành công việc DTW vào quá trình RNA dữ liệu hồi quy trong ngành sinh học Năm 1995, Gollmer và Posten đã áp dụng DTW thành công vào việc đồng bộ hóa và luu vết các gói tiến trình trong chất liệu polymer ngành hóa học Và còn rất nhiều các công trình nghiên cứu thành công DTW của Gavrila và Davis năm 1995 trong ngành sinh trắc học, Munich và Perona năm 1999 trong ngành chữ ký điện tử, Kovacs và Vajna năm 2000 trong dữ liệu vân tay Mặc dù có nhiều thành công trong các lĩnh vực nhu vậy nhung DTW lại có một điểm yếu là tốc độ giải thuật chua đuợc nhanh Trong phần tiếp theo sau đây chúng tôi sẽ trình bày nghiên cứu của Keogh về các giải pháp tăng hiệu suất của DTW [5][17]
Truớc khi tìm hiểu về độ đo DTW chúng ta cùng nhìn lại độ đo Eucid Ví dụ
cách Eucid đuợc tính nhu sau:
n
Đ i s t ( Q , C ) = ^(Iqj - Cj l ) 2 )
r =1
Độ đo Eucid truớc giờ có uu điểm là dễ hiểu, dễ tính toán và có thể áp dụng cho nhiều
bài toán trong khai phá dữ liệu chuỗi thòi gian nhu gom cụm, phân lớp, mô
Trang 31KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
tip Tuy nhiên độ đo này lại không làm việc tốt trên dữ liệu có nhiễu, hay các đuờng căn bản khác nhau Chúng ta cùng xem xét hình 2.9 để thấy sự khác nhau giữa hai độ
đo Euclid và xoắn thời gian động DTW
(a)
Hình 2.9 Độ đo Euclid (a) và độ đo DTW (b) Trong hình 2.9(a) là tính toán với độ đo Euclid, còn trong hĩnh 2.9(b) là tính toán với độ đo DTW Nhu chúng ta thấy theo tính toán hình 2.9(a) thì Euclid sẽ xét theo hai điểm cùng nằm trên một trục dọc tức là hai giá trị quan sát tại cùng một thời điểm, ta tạm gọi đó là ánh xạ 1-1 Neu theo kiểu tính toán này thì khoảng cách tại điểm thứ 1 trong đuờng 1 và điểm thứ 1 trong đuờng 2 là rất khác nhau mặc dù chúng ta thấy hình dạng 2 đuờng này là giống nhau, chỉ có điều là bị xê dịch về mặt thời gian Chính vì vậy, nếu tính toán theo phuơng pháp này thi kết quả sẽ không chính xác nhất là nếu chúng ta đang tim Mindist (khoảng cách ngắn nhất giữa 2 mẫu dữ liệu) Vĩ lý do đó mà vào năm 1994 thi Bemt và Clifford đã phát triển ra độ đo DTW nhằm khắc phục nhuợc điểm kể trên của Euclid Chúng ta có thể hình dung DTW trong hình 2.9(b) và tìm hiểu
kỹ hơn về DTW trong phần tiếp sau đây [5]
Một vấn đề của các giải thuật so trùng hiện nay là làm sao có thể tăng tốc trên dữ liệu thời gian đồng thời phải có đuợc độ chính xác tốt Hầu hết các giải thuật so trùng hiện nay đang dùng độ đo tuơng tự hay một vài độ đo khác để tính toán khoảng cách giữa 2 đối tuợng dữ liệu trong không gian đa chiều Nhu chúng ta tìm hiểu ở phần trên thì lý do độ đo Euclid phổ biến chính là dễ tính toán và dễ hiểu Tuy nhiên điều đó là chua đủ với các bài toán càng ngày càng phức tạp hiện nay Có rất nhiều mẫu dữ liệu
có hình dạng giống nhau nhung nếu dùng Euclid thì lại
Trang 32KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN
cho kết quả cách xa nhau Vào năm 1994 thì Bemt và Clifford đã phát triển ra một độ
đo có tên gọi là DTW (dynamic time warping)
Kỷ hiẽu
[ Ci: Cjl Một chuỗi con của c, bắt đầu tại điểm Ci và kết thúc tại Cj
Yi và Faloutsos 2000)
LB_Kim Hàm chặn dưới được giới thiệu bởi Kim (2001)
LB_Yi Hàm chặn dưới được giới thiệu bởi Yi (1998)
LB_Keogh Hàm chặn dưới được giới thiệu trong bài báo [5]
Bảng 1 Giải thích các ký hiệu của giải thuật DTW
2.6.2 Tính toán trong độ đo DTW
Kỹ thuật tính toán khoảng cách xoắn thời gian động là cách sắp xếp hai chuỗi thời gian sao cho giá trị khoảng cách là nhỏ nhất [1] Để sắp xếp đươc hai chuỗi này, chúng
Trang 33KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _
Hình 2.10 Ma trận xoắn và đường xoắn tối ưu (Nguồn [5])
Chúng ta có thể tính toán được DTW bằng giải thuật quy hoạch động (dynamic
programming) gồm biến giai đoạn, biến trạng thái và biến quyết định để mô tả quá trình chuyển đổỉ trạng thái hợp lệ Trong đó, biến giai đoạn đơn giản chỉ là một sự tăng đơn điệu các sự kiện, biến trạng thái là các điềm (ỉ,/) trong ma trận và biến quyết định để giới hạn những đường xoắn hợp lệ làm giảm không gian tìm kiếm Việc giới hạn không gian tìm kiếm sẽ giúp tiết kiệm được chi phí tính toán và cải thiện được vấn đề hiệu suất, cho nên đường xoắn thời gian phải tuân theo một vài ràng buộc sau:
• Tính đơn điệu (monotonicity): những điểm phải được sắp thứ tự đơn điệu
b - b '> 0
• Tính liên tục (continuity): từng bước trong đường xoắn phải liền kề nhau,
tức là cho w k = (a,ồ) thì wfc_1 = (a',bl) vói a-a'<l và b-b’< L
• Cửa sổ xoắn (warping window): những điểm hợp lệ phải rơi vào khoảng
cửa sổ xoắn cho trước (ú > 0 với \i k — j k \ < ùì
Trang 34KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
• Ràng buộc độ dốc (slope constraint): những đường xoắn hợp lệ phải bị ràng buộc về độ dốc, điều này giúp tránh trường hợp những bước di chuyển quá lớn theo một hướng
điều này giúp đường xoắn bắt đầu và kết thúc tại các điểm nằm ở góc trên đường chéo của ma trận [11] [19]
Tiếp theo, chúng ta sẽ tính toán khoảng cách DTW bằng quy hoạch động dựa vào mối quan hệ đệ quy sau, mà định nghĩa khoảng cách tích lũy y(i,;') của mỗi điểm:
y(ij) = Dist{q u Cj) + min{YÌi - l,j - 1 ),y(i - l,;'),y(i,;' - 1)}
Khoảng cách đó là tổng khoảng cách giữa các phần tử hiện tại vói khoảng cách tích lũy nhỏ nhất của các điểm xung quanh Độ đo Euclid có thể xem như trường hợp
Chi tiết giải thuật tính khoảng cách DTW như sau:
Ví dụ sau đây sẽ minh họa cho giải thuật tính khoảng cách DTW Giả sử chúng
ta có 2 chuỗi thời gian:
Q = (5, 6, 3,2,9, 5,9,4,8, 5) c
= (3,4,1,8, 3, 7,4,4, 8, 2) Hai chuỗi này được biểu diễn đồ thị bằng hình 2.11
Trang 35KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _
Time Series Data
Hình 2.11 Đồ thị biểu diễn hai chuỗi thời gian [19]
Để tính khoảng cách DTW đầu tiên chúng ta xây dựng ma trận khoảng cách, sau
đó chứng ta xây dựng ma trận tính khoảng cách tích lũy của hai chuỗi trên Mỗi ô trong
ma trận sẽ chứa khoảng cách tích lũy tương ứng của cặp điểm đó
Trang 36KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
Hình 2.13 Ma trận xoắn và đường xoắn tối ưu Trong ma trận xoắn
hình 2.13 ở trên thì các ô được tính toán như sau:
7(l)l) = (Ọi-C1)2
y(ij) = y(i,;' -1) + (Ọi - Cjf
y ( i , l ) = y ( i - l , l ) + ( ỌỂ- C i )2
y(ij) = mintỵự - 1- l),y(i,;' - l),y(i - 1,;')} + (Ọi - Cj) 2
Sau khi đã tính tất cả giá trị tích lũy cho các ô, chúng ta được một đường xoắn tối
ưu bao gồm các ô tham gia tích lũy cho ô (10,10) Trong hình trên thì đường xoắn tối
ưu là các ô được tô màu
Vậy khoảng cách DTW của hai chuỗi trên là -\/28 ~ 5,2915, trong khi khoảng
cách Euclid của hai chuỗi trên là V l 2 2 ~ 11,0454
Ưu điểm: DTW phù hợp với các dữ liệu chuỗi thời gian có hình dạng tương tự nhau nhưng chiều dài thòi gian khác nhau DTW cũng cho ra kết quả chính xác hơn các
độ đo trong không gian Euclid
Khuyết điểm: thời gian tính toán lâu và độ phức tạp của DTW là O(nm)
Trang 37KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _
2.6.3 Kỹ thuật ràng buộc toàn cục
Bên cạnh những ràng buộc đối với đường xoắn thời gian động ở trên thì để đảm bảo đường xoắn không đi chệch hướng quá xa so với đường chéo của ma trận thì người
ta đã đề ra thêm những ràng buộc mang ý nghĩa toàn cục Ràng buộc này định nghĩa
một tập con của ma trận xoắn (warping matrix) mà cho phép đường xoắn tiến hành di chuyển mở rộng và gọi là một cửa sổ xoắn (warping window) Mục đích của ràng buộc
toàn cục là tăng tốc độ tính toán khoảng cách DTW vì làm giảm không gian tìm kiếm đường xoắn và điều quan trọng là ngăn trường họp một phần nhỏ của một chuỗi được ánh xạ vào phần lớn hơn tương ứng của chuỗi khác
Hai ràng buộc toàn cục được dùng phổ biến nhất là dải Sakoe-Chiba [21] và hình bình hành Itakura [22]:
- Ràng buộc dải Sakoe-Chiba (Sakoe-Chiba Band)
Ràng buộc này được đề xuất bởi Sakoe và Chiba năm 1978 định nghĩa đường xoắn họp lệ:
w = w lt w2 l , wk > , W K với max(m,n) < K < m + n - 1 và w k = (i,;')fc là tập các ô
của ma trận xoắn của hai chuỗi thời gian với điều kiện \i — j \ < Củ với Củ là một số
nguyên dương cho trước gọi là cửa sổ xoắn
Hình 2.14 bên trái mô tả cửa sổ xoắn ứng với ràng buộc dải Sakoe-Chiba
Ràng buộc hình bình hành Itakura (Itakura Paralelogram)
Ràng buộc này được đề xuất bởi Itakura năm 1975 cũng định nghĩa đường xoắn họp lệ được ràng buộc trong một tập con của ma trận xoắn của hai chuỗi thời gian theo
thời gian theo i th :
jth = í ư ựth)
với các điều kiện ràng buộc biên: <u(l ) = 1, Cú(n ) = m v à điều kiện liên tục:
<u(i + 1 )- <u(i) = 0,1,2 (<u(i ) ^ <u(i — 1))
Trang 38KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _
Hình 2.14 bên phải mô tả cửa sổ xoắn ứng với ràng buộc hình bình hành của Itakura
Hình 2.14 Ràng buộc toàn cục của độ đo xoắn thời gian động (Nguồn [5])
2.6.4 Kỹ thuật tính chặn duứĩ
Hiện nay, mặc dù việc tính toán DTW cho kết quả tính toán chính xác hơn so với
độ đo Euclid nhưng nó đòi hỏi thời gian thực thi rất lớn Do đỏ, người ta đã phát triển
kỹ thuật tính chặn dưới hiệu quả để cố thể giảm tải bớt không gian tìm kiếm bằng cách loại bỏ những chuỗi không phù hợp càng sớm càng tốt
Mục tiêu của kỹ thuật tính chặn dưới đố là để tăng tốc độ tính toán và để tạo một ràng buộc chặn dưới tương đối chặt chẽ, tức là một phương pháp có thề xấp xỉ khoảng cách DTW thật một cách gần nhất Phần tiếp theo, chúng tôi sẽ giới thiệu ba kỹ thuật tính chặn dưới được sử dụng phổ biến là của Kim et al (2001) Yi et al (1998) và Keogh
et al (2002) [5]
2.6.4.1 Phưomg pháp tíhh chặn dưổỉ của Kìm
Đây là phương pháp đầu tiên mà hỗ trợ việc tìm kiếm tương tự cũng như lập chỉ mục chính xác mà áp dụng với khoảng cách DTW Mục đích cơ bản của Kim là phát triển một kỹ thuật mà tăng cường hiệu suất tìm kiếm trong một cơ sở dữ liệu lớn mà không cho phép xảy ra lỗi tìm sót Đe thực hiện kỹ thuật này Kim và các
Trang 39KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _
đồng sự đã đưa ra một hàm tính khoảng cách mói mà xấp xỉ cận dưới đối với khoảng cách xoắn thời gian và nó thỏa điều kiện của bất đẳng thức tam giác Từ đó, ta cố thể
áp dụng gỉải thuật cho việc lập chỉ mục cũng như tìm kiếm tương tự được dễ dàng
Ưu điểm: kỹ thuật này sử dụng giải thuật lập chỉ mục chính xác dùng khoảng cách DTW để cải thiện hiệu suất tìm kiếm trong các tập dữ liệu lớn Ngoài ra, kỹ thuật cũng giới thiệu hàm chặn dưới với bốn đặc trưng đảm bảo việc không xảy ra sự miễn sai so với các kỹ thuật lập chỉ mục thồng thường
Khuyết điểm: phương pháp chỉ cho sự rút trích bốn đặc trưng nên không khả thi với việc đánh chỉ mục đa chiều Bên cạnh đó, chỉ một đặc trưng thật sự được dùng trong hàm chặn dưới cho nên chặn dưới ở đây rất là đơn sơ và sẽ xảy ra nhiều lỗi mà tốn nhiều thời gian để đánh gỉá hơn
Hình 2.15 mô tả kỹ thuật tính chặn dưới của Kim và đồng sự với điểm A và D là
Hình 2.15 Mô tả kỹ thuật chặn dưới của Kim (Nguồn [5])
2.6.4.2 Phương pháp tính chặn dưới của Yỉ
Kỹ thuật chặn dưới của Yi và các đồng sự ra đồi trong bối cảnh các kỹ thuật lập chỉ mục dữ liệu chuỗi thời gian bấy gỉờ chỉ thực hiện trong không gian Euclid nhưng khi áp dụng vào độ đo xoắn thời gian động thì xuất hiện vấn đề đó là độ phức tạp tính toán lớn và nó không dẫn ra được bất kỳ đặc trưng tự nhiên nào
Trang 40KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN
Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _ _
Chính vì vậy, Yi đã phát triển một kỹ thuật đánh chỉ mục xấp xỉ với khoảng cách DTW
dùng phương pháp FastMap Phương pháp này ánh xạ một chuỗi có độ dài n sang một điểm k chiều, bằng một hàm rút trích đặc trưng, và xây dựng một cấu trúc chỉ mục đa chiều trên tập điểm k chiều này Ngoài ra, nó cũng giúp tiết kiệm được chi phí CPU và
truy cập đĩa bằng cách chấp nhận đánh đổi một tỉ lệ nhỏ độ nhạy cảm
Hình 2.16 mô tả kỹ thuật tính chặn dưới của Yi với phần gạch dọc biểu diễn phàn tối thiểu của những điểm tương ứng đóng góp vào khoảng cách DTW nên được xem như giá trị chặn dưới
Hình 2.16 MÔ tả kỹ thuật chặn dưới của Yi (Nguồn [5])
Ưu đỉềm: có thể áp dụng để đánh chỉ mục đa chiều với khoảng cách DTW và tiết kiệm được nhiều chi phí CPU và thời gian truy cập đĩa
Khuyết đỉểm: kỹ thuật cho phép xảy ra sự miễn sai và độ phức tạp thực tế của nố
và những chuỗi dài
2.Ố.4.3 Phương pháp tính chặn dưứỉ cùa Keogh
Mặc dù hai phương pháp chặn dưởi nêu trên đã cỏ những cải tiến so với trước nhưng vẫn có nhược điềm là tính chặn dưới cửa chứng vẫn chưa chặt Do đó, Keogh và các đồng sự đã phát triền một kỹ thuật tính chặn dưới dựa trên ỷ tưởng ràng buộc toàn cục mà tiêu biểu là hai trường hợp ràng buộc dải Sakoe-Chiba và hình bình hành Itakura