1. Trang chủ
  2. » Luận Văn - Báo Cáo

Kết hợp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo DTW cho bài toán dự báo dữ liệu chuỗi thời gian

86 139 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 2,28 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Chuỗi thời gian (time series) là chuỗi trị số thực, mỗi trị biểu diễn một giá trị đo tại những thời điểm cách đều nhau. Dữ liệu chuỗi thời gian phổ biến ở rất nhiều lĩnh vực như kinh tế, tài chính, kỹ thuật, y khoa, địa lý, khí tượng thủy văn, . . . Việc dự báo dữ liệu chuỗi thời gian ngày càng quan trọng và đặc biệt hữu ích. Nhiều phương pháp, mô hình dự báo đã được đề xuất và hiện thực như hồi quy, ARIMA, làm trơn hàm mũ, ANN, SVM. Tuy nhiên ngày nay, việc dự báo đòi hỏi cần phải có độ chính xác cao, chạy nhanh và có khả năng thực thi trực tuyến (online). Một trong những công trình nghiên cứu hiện đại gần đây là kết họp phương pháp phân đoạn bằng các điểm quan trọng PIP với độ đo xoắn thời gian động (DTW) được đề xuất bởi Tsinaslanidis và Kugiumtzis vào 2014. Phương pháp này đạt được độ chính xác dự báo cao, tuy nhiên phương pháp này không thể đạt được yêu cầu chạy trực tuyến và thời gian thực thi còn lớn. Từ các công trình nghiên cứu trên và các nghiên cứu khác có liên quan, đề tài nghiên cứu này sẽ đề xuất một mô hình kết họp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo DTW tăng tốc cho bài toán dự báo dữ liệu chuỗi thời gian, có khả năng thực thi nhanh và có độ chính xác cao, đóng góp một phần nhỏ vào sự phát triển của lĩnh vực dự báo về dữ liệu chuỗi thời gian.

Trang 1

ĐẠI HỌC QUỐC GIA TP Hồ CHÍ MINH TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN HỮU LỘC

KẾT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỘ ĐO DTW CHO BÀI TOÁN DỰ BÁO DỮ LIỆU CHUỖI

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠI TRƯỜNG ĐẠI HỌC BÁCH KHOA -ĐHQG -HCM

Cán bộ hướng dẫn khoa học : PGS TS DƯONG TUẤN ANH

Cán bộ chấm nhận xét 1 : TS Phạm Văn Chung

Cán bộ chấm nhận xét 2 : TS.Lê Văn Quốc Anh

Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày 26 tháng 12 năm 2018

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm:

Trang 3

ĐẠI HỌC QUỐC GIA TP.HCM

TRƯỜNG ĐẠI HỌC BÁCH KHOA CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM

Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

• • • •

Họ tên học viên: NGUYỄN HỮU LỘC MSHV: 1570218

Ngày, tháng, năm sinh: 13/01/1985 Nơi sinh: Long An

Ngành: KHOA HỌC MÁY TÍNH Mã số : 60480101.,

I TÊN ĐỀ TÀI: Kết hợp phương pháp phân đoạn bằng các điểm cực trị quan trọng

và độ đo DTW cho bài toán dự báo dữ liệu chuỗi thời gian

II NHIỆM VỤ VÀ NỘI DUNG: Đề xuất phương pháp kết hợp điểm cự trị quan

trọng, độ đo xoắn thời gian động DTW và giải thuật k lân cận gần nhất K-NN cho

bài toán dự báo chuỗi dữ liệu thời gian

III NGÀY GIAO NHIỆM VỤ: 15/01/2018

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 12/12/2018

Trang 4

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

LỜI CÁM ƠN

Tôi xin gởi lời cám ơn chân thành và sâu sắc đến PGS TS Dương Tuấn Anh, Thầy đã tận tình hướng dẫn, định hướng tôi từ cách đặt vấn đề, phương pháp nghiên cứu khoa học đến những công việc cụ thể trong luận văn này

Xin chân thành cảm ơn tất cả quý Thầy Cô trong Khoa Khoa học và Kỹ Thuật Máy Tính đã tận tình truyền đạt những kiến thức quý báu cho tôi trong suốt quá trình học tập

Cuối cùng và trên hết, con cảm ơn gia đĩnh đã động viên và tạo điều kiện tốt nhất

để con có thể tiếp tục con đường học tập và nghiên cứu Con trân trọng dành tặng thành quả của luận văn này cho Ba Mẹ và cả gia đĩnh

Trang 5

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

TÓM TẮT

Chuỗi thời gian (time series) là chuỗi trị số thực, mỗi trị biểu diễn một giá trị đo tại những thời điểm cách đều nhau Dữ liệu chuỗi thời gian phổ biến ở rất nhiều lĩnh vực như kinh tế, tài chính, kỹ thuật, y khoa, địa lý, khí tượng thủy văn, Việc dự báo dữ liệu chuỗi thời gian ngày càng quan trọng và đặc biệt hữu ích Nhiều phương pháp, mô hình dự báo đã được đề xuất và hiện thực như hồi quy, ARIMA, làm trơn hàm mũ, ANN, SVM Tuy nhiên ngày nay, việc dự báo đòi hỏi cần phải có độ chính xác cao, chạy nhanh và có khả năng thực thi trực tuyến (online)

Một trong những công trình nghiên cứu hiện đại gần đây là kết họp phương pháp phân đoạn bằng các điểm quan trọng PIP với độ đo xoắn thời gian động (DTW) được

đề xuất bởi Tsinaslanidis và Kugiumtzis vào 2014 Phương pháp này đạt được độ chính xác dự báo cao, tuy nhiên phương pháp này không thể đạt được yêu cầu chạy trực tuyến

và thời gian thực thi còn lớn

Từ các công trình nghiên cứu trên và các nghiên cứu khác có liên quan, đề tài nghiên cứu này sẽ đề xuất một mô hình kết họp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo DTW tăng tốc cho bài toán dự báo dữ liệu chuỗi thời gian, có khả năng thực thi nhanh và có độ chính xác cao, đóng góp một phần nhỏ vào sự phát triển của lĩnh vực dự báo về dữ liệu chuỗi thời gian

Trang 6

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

ABSTRACT

Time series is a series of real values, each of which represents a measured value at evenly spaced intervals Time series data are common in many areas such as economy,

meteorology, Forecasting of time series data is increasingly important and particularly useful Many methods, forecasting models have been proposed and implemented such as regression, ARIMA, exponential smoothing, ANN, and SVM However, today's forecasting requires high accuracy, fast execution and online performance

One of the recent recent studies is a combination of the PIP critical point and dynamic time warping (DTW) measure method proposed by Tsinaslanidis and Kugiumtzis in 2014 The prediction accuracy of this approach is high, however, this method can not meet the requirements of online prediction and the execution time is still high

From the above studies and other related studies, this research proposes a model combining the method of segmentation by the important extreme points and the accelerated DTW measure for the forecasting problem With fast execution and high prediction accuracy, the proposed method contributes a small part to the development

of the field of study of time series prediction

Trang 7

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN

LỜI CAM ĐOAN

Tôi xin cam đoan các kết quả báo cáo trong luận văn này và chương trình là sản phẩm do công sức lao động của chính tôi thực hiện, không có sự sao chép từ những công trình nào khác, ngoại trừ những kết quả từ các công trình khác đã ghi rõ trong luận văn Tất cả các kiến thức tôi học hỏi được từ những tài liệu tham khảo đều được trích dẫn nguồn đầy đủ Nếu có bất cứ sai phạm nào so với lời cam đoan, tôi xin chịu các hình thức xử lý theo quy định

Trang 8

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

MUC LUC

• •

CHƯƠNG 1: GIỚI THIỆU ĐỀ TÀI 1

1.1 Giói thiệu vấn đề 1

1.2 Mục tiêu 1

1.3 Phạm vi nghiên cứu 2

1.4 Tóm lược kết quả đạt được 2

1.5 Cấu trúc của luận văn 3

CHƯƠNG 2: Cơ SỞ LÝ THUYẾT 5

2.1 Chuỗi thời gian 5

2.2 Các thành phần của chuỗithời gian 5

2.2.1 Thành phần xu hướng 5

2.2.2 Thành phần chu kỳ 6

2.2.3 Thành phần theo mùa 6

2.2.4 Thành phần bất quy tắc 7

2.3 Bài toán dự báo 7

2.3.1 Các phương pháp dự báo truyền thống - 7

2.3.1.1 Hồi quy - 7

2.3.1.2 Mô hình tự hồi quy tích hợp với trung bĩnh trượt (ARIMA) - 8

2.3.1.3 Phương pháp làm trơn hàm mũ - 8

2.3.2 Các phương pháp dự báo hiện đại (học máy) - 9

2.3.2.1 Mạng nơ ron nhân tạo - 9

10

Trang 9

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

2.4 Phân biệt dự báo trực tuyến, không trực tuyến 11

2.5 Giải thuật K-NN dùng trong dự báo 12

2.6 Độ đo xoắn thời gian động (Dynamic Time Wraping -DTW) 14

2.6.1 Giói thiệu 14

2.6.2 Tính toán trong độ đo DTW 17

2.6.3 Kỹ thuật ràng buộc toàn cục 22

2.6.4 Kỹ thuật tính chặn dưới 23

2.6.4.1 Phương pháp tính chặn dưới của Kim 23

2.6.4.2 Phương pháp tính chặn dưới của Yi 24

2.6.4.3 Phương pháp tính chặn dưới của Keogh 25

2.7 Chuẩn hóa dữ liệu 28

2.7.1 Chuẩn hóa dữ liệu min-max 28

2.7.2 Chuẩn hóa dữ liệu z-score 28

2.8 Phép vị tự (Homothetic transformation) 29

2.9

Các tiêu chí đánh giá độ chính xác dự báo 30

CHƯƠNG 3: CÁC CÔNG TRÌNH LIÊN QUAN 31

3.1 Các phương pháp phân đoạn - 31

3.1.1 Điểm quan trọng (Perceptually important point - PIP) - 31

3.1.2 -

Điểm cực trị quan trọng (Important Extreme Point - IEP) - 32

3.2 -

Dự báo dữ liệu thời gian bằng mạng nơ rơn nhân tạo - 34

3.3 Dự báo dữ liệu thời gian bằng phương pháp phân đoạn dựa vào các điểm PIP kết hợp với độ đo DTW - 35

Trang 10

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

3.4.2 Kỹ thuật LB_Kim 37

3.4.3 Kỹ thuật LB_KimFL 37

3.4.4 Kỹ thuật từ bỏ sớm của LB_Keogh 38

3.4.5 Kỹ thuật từ bỏ sớm của DTW 38

3.4.6 Kỹ thuật đảo ngược LB_Keogh 39

CHƯƠNG 4: PHƯƠNG PHÁP Dự BÁO ĐỀ XUẤT 41

4.1 Mô hình tổng quan 41

4.2 Mô hình chi tiết 42

4.3 Chi tiết module trong hệ thống 43

4.3.1 Phân đoạn dữ liệu bằng phương pháp điểm cực trị quan trọng 43

4.3.2 Tìm chuỗi đích và chuỗi nguồn 45

4.3.3 Chuẩn hóa dữ liệu 45

4.3.4 Thay đổi chiều dài của chuỗi nguồn bằng phép vị tự 46

4.3.5 Sử dụng bộ UCR-DTW để tăng tốc độ tìm kiếm 47

4.3.6 Giải thuật K-NN 47

4.3.7 Tìm các giá trị tương ứng, chuẩn hóa và lấy trung bình cộng 48

4.3.8 Tìm giá trị cần dự báo - 49

4.4 Tìm hệ số k, hệ số nén R, bề rộng dải Sakoe-Chiba r - 51

CHƯƠNG 5: THựC NGHIỆM VÀ ĐÁNH GIÁ - 52

5.1 Giói thiệu các tập dữ liệu thực nghiệm - 52

5.2 Kết quả thực nghiệm - 54

5.3 So sánh độ đo DTW thuần túy và bộ tăng tốc UCR-DTW - 60

5.3.1 Số lần gọi độ đo xoắn thời gian động DTW - 60

5.3.2 Thời gian thực thi giữa DTW thuần túy và bộ UCR-DTW - 61

Trang 11

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

5.4 So sánh độ chính xác giữa phương pháp đề xuất với phương pháp sử dụng ANN 62

CHƯƠNG 6: KẾT LUẬN 65

6.1 Tổng kết 65

6.2 Những đóng góp của đề tài 65

6.3 Hướng phát triển 66

TÀI LIỆU THAM KHẢO 67 PHỤ LỤC A: BẢNG ĐỐI CHIẾU THUẬT NGỮ ANH - VIỆT A

Trang 12

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

MUC LUC HÌNH

• •

Hình 2.1 Nhiệt độ mặt đất trung bình toàn cầu từ 1856 đến 2005 6

Hình 2.2 Thành phần theo mùa 7

Hình 2.3 Đường hồi quy tuyến tính đơn biến y= X+ 1 8

Hình 2.4 Mạng nơ rơn nhân tạo 9

Hình 2.5 Support Vector Machines 10

Hình 2.6 Giải thuật K-NN 11

Hình 2.7 Ý tưởng cơ bản của cách tiếp cận dựa trên phương pháp so trùng mẫu 12

Hình 2.8 Minh họa thuật toán dự báo dựa trên phương pháp so trùng mẫu 13

Hình 2.9 Độ đo Euclid (a) và độ đo DTW (b) 16

Hình 2.10 Ma trận xoắn và đường xoắn tối ưu 18

Hình 2.11 Đồ thị biểu diễn hai chuỗi thời gian.[19] 20

Hình 2.14 Ràng buộc toàn cục của độ đo xoắn thời gian động (Nguồn [5]) 23

Hình 2.15 Mô tả kỹ thuật chặn dưói của Kim 24

Hình 2.16 Mô tả kỹ thuật chặn dưói của Yi - 25

Hình 2.17 Mô tả đường bao u và L của chuỗi Q - 26

Hình 2.18 Mô tả kỹ thuật chặn dưới của Keogh - 27

Hình 2.19 Phép biến đổi vị tự - 29

Hình 3.1 Quá trình xác định 5 điểm PIP trong dữ liệu chuỗi thòi gian - 31

Hình 3.2 Điểm cực tiểu quan trọng và điểm cực đại quan trọng - 32

Hình 3.3 Điểm cực đại, cực tiểu - 33

Hình 3.4 Bốn loại điểm cực tiểu quan trọng - 33

Hình 3.5 Mô hình huấn luyện ANN để dự báo chuỗi thời gian - 34

Trang 13

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

Hình 3.6 Dự báo bằng phương pháp PIP([1]) 36

Hình 3.7 LB_ .Kim 37

Hình 3.8 LB_KimFL 37

Hình 3.9 Từ bỏ sớm của LB_Keogh 38

Hình 3.10 Từ bỏ sớm của DTW 38

Hình 3.11 Đảo ngược LB_Keogh 39

Hình 4.1 Mô hình tổng quan 41

Hình 4.2 Mô hình chi tiết của phương pháp dự báo đề xuất 42

Hình 4.3 Các điểm cực trị quan trọng 44

Hình 4.4 Chuỗi đích và các chuỗi nguồn 45

Hình 4.5 Chuẩn hóa dữ liệu 46

Hình 4.6 Co chiều dài chuỗi gốc 46

Hình 4.7 Giản chiều dài chuỗi gốc 47

Hình 4.8 Hai chuỗi nguồn tương tự nhất với chuỗi đích 48

Hình 4.9 Giá trị được dự báo 50

Hình 4.10 Kết quả dự báo nhiều bước 50

Hình 5.1 Bộ dữ liệu Air Passengers - 52

Hình 5.2 Bộ dữ liệu C02 - 53

Hình 5.3 Bộ dữ liệu Fancy - 53

Hình 5.4 Bộ dữ liệu Mdeaths - 53

Hình 5.5 Bộ dữ liệu Red deer - 54

Hình 5.6 Bộ dữ liệu UKgas - 54

Hình 5.7 Ket quả dự báo của bộ dữ liệu Air Passengers - 55

Hình 5.8 Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của - 55

Trang 14

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

Hình 5.9 Kết quả dự báo của bộ dữ liệu CO2 56

Hình 5.11 Kết quả dự báo của bộ dữ liệu Fancy 56 Hình 5.12 Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu Fancy — 57 Hình 5.13 Kết quả dự báo của bộ dữ liệu Mdeaths 57 Hình 5.14 Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu Mdeaths - 57 Hình 5.15 Kết quả dự báo của bộ dữ liệu Red deer 58 Hình 5.16 Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu Red deer- 58 Hình 5.17 Kết quả dự báo của bộ dữ liệu UKgas 59 Hình 5.18 Biểu đồ chuỗi dữ liệu mẫu và kết quả dự báo của bộ dữ liệu UKgas — 59 Hình 5.19 Biểu đồ so sánh số lần gọi giữa DTW thuần túy và bộ UCR-DTW 61 Hình 5.20 Biểu đồ so sánh thòi gian thực thi DTW thuần túy và bộ UCR-DTW 62 Hình 5.21 minh họa biểu đồ so sánh giữa phương pháp được đề xuất và ANN — 63 Hình 5.21 Biểu đồ so sánh giữa phương pháp được đề xuất và ANN 63

Trang 15

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

MỤC LỤC BẢNG

Bảng 1 Giải thích các ký hiệu của giải thuật DTW 17

Bảng 2 Số liệu so sánh số lần gọi giữa DTW thuần túy và bộ UCR-DTW 60

Bảng 3 Số liệu thời gian thực thi của DTW thuần túy và bộ UCR-DTW 61

Bảng 4 Số liệu MAPE so sánh giữa phương pháp được đề xuất và ANN 63

Trang 16

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

CHƯƠNG 1: GIỚI THIÊU ĐÈ TÀI

Chương này sẽ trình bày vấn đề mà đề tài tập trung nghiên cứu, động cơ để thực hiện đề tài này và mục tiêu của đề tài Ngoài ra, chúng tôi cũng trĩnh bày sơ lược các kết quả đạt được cũng như là nội dung của đề tài

pháp hiện đại như mạng nơ ron nhân tạo, máy véc tơ hỗ trợ, giải thuật k lân cận gần

nhất Tuy nhiên các phương pháp này thường không đạt được độ chính xác cao, một vài phương pháp cải tiến đạt được độ chính xác cao nhưng không đảm bảo được tốc độ thực thi của giải thuật và không phù họp với dự báo trực tuyến Vì vậy yêu cầu đặt ra là cần phải có một phương pháp nhằm đạt được độ chính xác cao của dự báo cũng như tốc độ thực thi nhanh nhằm phục vụ tốt cho nhu cầu dự báo trực tuyến

1.2 Mục tiêu

Mục tiêu nghiên cứu của đề tài này là kết hợp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo xoắn thời gian động (dynamic time warping - DTW) cho bài toán dự báo dữ liệu chuỗi thời gian, với các vấn đề chính sau:

• Nghiên cứu các kỹ thuật phân đoạn dựa trên điểm cực trị quan trọng: ưu điểm của kỹ thuật phân đoạn này là thời gian chạy tuyến tính, nhanh và phù hợp với dự báo trực tuyến

Trang 17

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

• Nghiên cứu về độ đo xoắn thời gian động và các kỹ thuật tăng tốc cách tính độ đo DTW: Độ đo xoắn thời gian động có độ chính xác cao và phù hợp với chuỗi dư liệu thời gian hơn so với độ đo Eclid nhưng tốc độ tính toán chậm hơn, ta sử dụng bộ tăng tốc UCR-DTW nhằm giải quyết vấn đề

về thời gian thực thi

• Tìm hiểu về giải thuật k-NN cho công tác dự báo: Giải thuật k-NN được dùng cho quá trình phân lớp, tuy nhiên nó cũng được dùng cho quá trình

dự báo

• Đề xuất phương pháp kết hợp điểm cự trị quan trọng (important extreme

points - IEP), độ đo xoắn thời gian động DTW và giải thuật k lân cận gần

nhất K-NN cho bài toán dự báo chuỗi dữ liệu thời gian

• So sánh số lần gọi và thòi gian thực thi của độ đo DTW thuần túy so với

1.4 Tóm lược kết quả đạt được

Sau một thời gian nghiên cứu và hiện thực, chúng tôi đã đạt được các kết quả tích cực đó là:

• Nắm được kỹ thuật phân đoạn dựa vào các điểm cực trị quan trọng IEP

• Hiểu rõ độ đo xoắn thời gian động DTW thuần túy và bộ kỹ thuật tăng tốc UCR-DTW

Trang 18

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

• Nắm được cách sử dụng giải thuật k lân cận gần nhất k-NN dùng cho dự

báo chuỗi thời gian

• Hiện thực thành công cách kết hợp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo xoắn thời gian động cho bài toán dự báo dữ liệu chuỗi thời gian

• So sánh số lần gọi và thời gian thực thi của độ đo xoắn thời gian động DTW thuần túy so với bộ tăng tốc UCR-DTW Kết quả thực nghiệm cho thấy số lần gọi DTW của độ đo xoắn thời gian động DTW thuần túy cao hơn nhiều so với bộ tăng tốc UCR-DTW

• So sánh kết quả đạt được của phương pháp đề xuất so với phương pháp dự báo bằng mạng nơ rơn nhân tạo ANN Ket quả thực nghiệm cho thấy phương pháp đề xuất có độ chính xác dự báo cao hơn nhiều so với phương pháp mạng nơ rơn

Như vậy, hệ thống này cơ bản đã đáp ứng được các yêu cầu của bài toán đặt ra

mà chúng tôi sẽ trình bày chi tiết ở các phần sau

1.5 Cấu trúc của luận văn

*

Tổ chức phần còn lại của luận văn gồm những phần như sau:

Chương 2 là các cơ sở lý thuyết mà chúng tôi sử dụng trong nghiên cứu này Chúng bao gồm các lý thuyết về độ đo khoảng cách của chuỗi thời gian, các phương pháp dự báo truyền thống, hiện đại, phân biệt dự báo trực tuyến, không trực tuyến, giải thuật k-NN dùng trong dự báo, độ đo xoắn thời gian động, các kỹ thuật ràng buộc toàn cục, ràng buộc cận dưới, chuẩn hóa dữ liệu, phép biến đổi vị tự, các tiêu chí đánh giá

độ chính xác của dự báo

Chương 3 đề tài giới thiệu về các công trình nghiên cứu liên quan Những công trình này trình bày về điểm quan trọng, điểm cực trị quan trọng, bộ kỹ thuật tăng tốc UCR-DTW, dự báo dữ liệu thời gian bằng mạng nơ rơn nhân tạo ANN, dự báo dữ liệu thời gian bằng phương pháp phân đoạn dựa vào các điểm quan trọng kết hợp với độ đo xoắn thời gian động

Trang 19

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

Chương 4 bao gồm nội dung chi tiết thiết kế và hiện thực hệ thống kết hợp phương pháp phân đoạn bằng các điểm cực trị quan trọng và độ đo DTW cho bài toán dự báo

dữ liệu chuỗi thời gian, dự báo một bước và nhiều bước

Chương 5 trình bày các kết quả thực nghiệm đạt được, qua đó đánh giá độ chính xác của dự báo, so sánh với phương pháp dự báo bằng mạng nơ ron nhân tạo ANN, so sánh giữa độ đo xoắn thời gian động DTW thuần túy và bộ tăng tốc UCR- DTW

Chương 6 là một số kết luận, đóng góp của đề tài cũng như hướng phát triển trong tương lai của đề tài

Trang 20

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

CHƯƠNG 2: cơ SỞ LÝ THUYẾT

Chương này trình bài cơ sở lý thuyết bao gồm chuỗi thòi gian, các thành phần của chuỗi thòi gian, các phương pháp dự báo chuỗi thời gian cổ điển và hiện đại Các độ đo như xoắn thời gian động, các kỹ thuật ràng buộc, chuẩn hóa dữ liệu, phép vị tự và các tiêu chí đánh giá độ chính xác của dự báo

2.1 Chuỗi thời gian

Một chuỗi thời gian (time series) T là chuỗi trị số thực, mỗi trị số biểu diễn một giá

thời gian rất lớn xuất hiện trong nhiều lĩnh vực khác nhau như y khoa, kỹ thuật, kinh tế, tài chính, v.v .[2][15]

Trong thực tế, khi quan sát chuỗi thời gian ta nhận thấy bốn thành phần ảnh hưởng

lên mỗi giá trị của chuỗi thời gian đó là xu hướng (trend), chu kỳ (cyclical), mùa (seasonal), bất quy tẳc (irregular)

2.2 Các thành phần của chuỗi thời gian

2.2.1 Thành phần xu hướng

Là thành phần thể hiện sự tăng hay giảm giá trị của chuỗi thời gian trong một giai đoạn dài hạn nào đó [10] Hình 2.1 là nhiệt độ mặt đất trung bình toàn cầu có tính xu hướng, giá trị tăng theo thời gian từ 1856 đến 2005

Trang 21

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BÂNG GÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOAN

Dự BÁÒ Dữ LIẸU CHUỒI THỜI GIAN _

Hình 2.1 Nhiệt độ mặt đất trung bình toàn cầu từ 1856 đến 2005

2.23 Thành phần theo mùa

Là thành phần thể hiện sự biến đổi lặp đỉ lặp lại tại từng thời điểm cố định theo từng năm của chuỗi thời gian [10] Hình 2.2 mình họa thành phần dữ liệu theo mùa đông, xuân, hạ, thu

Trang 22

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _

Hồi qui (regression) là một mô hình thống kê được sử dụng để dự đoán giá trị cửa biến phụ thuộc (dependence variable) hay cồn gọi là biến kết quả dựa vào những giá trị của ít nhất một biến độc lập (independence variable) hay còn gọi là biến nguyên nhân Nếu mô hình hồi qui phân tích sự phụ thuộc của một biến phụ thuộc vào một biến

độc lập gọi là hồi quỉ đơn, nếu có nhiều biến độc lập gọi là hồi qui bội Hồi qui tuyến

tính là mô hình hồi quỉ trong đó mối quan hệ giữa các biến được biểu diễn bởi một

đường thẳng (đường thẳng là đường phù hợp nhất vởi dữ liệu) Hình 2.3 là đường hồi

giá trị X.

Phương trình hồi quy Y = f(X, 0)

X: các biến dự báo/độc lập; giải thích sự biến đổi của các đáp ứng Y

Y: các biến đáp ứng/phụ thuộc; mô tả các hiện tượng được quan tâm

Trang 23

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

0\ các hệ số hồi qui (regression coefficients); mô tả sự ảnh hưởng tương đối của X

đối với Y

Y1 Y1

XI

X

2.3.I.2 Mô hình tự hồi quy tích họp vói trung bình trượt (ARIMA)

Mô hình tự hồi quy tích hợp với trung bình trượt (ARIMA) là một lóp mô hình tuyến tính sử dụng độ trễ để đưa ra dự báo thích họp

George Box và Gwilym Jenkins (1976) đã nghiên cứu mô hình ARIMA (Autoregressive Integrated Moving Average) hay còn gọi là phương pháp Box- Jenkins với bốn buớc: nhận dạng mô hình thử nghiệm, uớc lượng các tham số, kiểm định bằng chẩn doán, và dự báo

Thông thường các chuỗi dữ liệu kinh tế và tài chính như GDP, CPI, GNP, giá cổ phiếu đều là các chuỗi không dừng (non stationary time series), có yếu tố xu thế Chính

vì vậy để tạo ra chuỗi dừng ta phải khử yếu tố xu thế trong các chuỗi dữ liệu gốc thông qua quy trình lấy sai phân Từ việc dự báo chuỗi dừng này ta suy ra dự báo cho chuỗi

dữ liệu gốc

2.3.I.3 Phương pháp làm trơn hàm mũ

Các phương pháp làm trơn (smoothing method) là tập họp các phương pháp, trong đó các giá trị dự báo mới ở một thời đoạn sẽ được ước lượng bằng việc kết họp giá trị dự báo và giá trị quan sát ở thòi đoạn ngay trước đó Đây là một trong những kĩ thuật đơn giản mô phỏng hiệu quả để sử dụng dự báo đối với dữ liệu chuỗi thời gian có tính chất tuyến tính Gồm có các kỹ thuật sau [10]:

Trang 24

KÉT HỢP PHƯƠNG PHẤP PHÂN ĐOẠN BẲNG CÁC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _

Kỹ thuật làm trơn hàm mũ giản đơn (Simple Exponential Smoothing)

Kỹ thuật làm trơn hàm mũ Holt

Kỹ thuật làm trơn hàm mũ Winters (mô hình Holt-Winters)

Kỹ thuật làm trơn hàm mũ Hold được dùng cho dữ liệu chuỗi thời gian có xu hướng

Kỹ thuật làm trơn hàm mũ Holt-Winters được dùng cho dữ liệu chuỗi thời gian có tính

mô phỏng theo mạng nơ ron sinh học trong bộ não người

Trong quá trình phát triển của mình mạng nơ ron nhân tạo đã được ủng dụng thành công trong nhiều bài toán thực tế như nhận dạng chữ viết, nhận dạng tiếng nối, điều khiển tự động, dự báo chuỗi thời gian Hình 2.4 là mạng nơ ron nhân tạo tổng quát vổd

Trang 25

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _ _

Mạng nơ ron nhân tạo không chỉ cố thể dùng cho hài toán phân lớp mà còn cố thể dùng cho bài toán dự báo dữ liệu chuỗi thời gian (xem mục các công trình có liên quan)

23.2.2 Máy vector hẫ trợ

Máy vector hỗ trợ (Support Vector Machines - SVM) là mô hình được sử dụng trong nhiều ngành, là một mô hình máy học giám sát được dùng để dự đoán và phân lớp cho dữ liệu tuyến tính và không tuyến tính

SVM là mô hình xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác Để phân loại tốt nhất thì phải xác định siêu phẳng tốỉ ưu (optimal hyperplane) nằm ở càng xa các điểm dữ liệu của tất cả các lớp (hàm lề) càng tốt, vì nối chung lề càng lớn thì sai số tổng quát hốa của thuật toán phân loại càng bé Hình 2.5 bao gồm siêu phẳng đứng và siêu phẳng xiên Siêu phẳng xiên là siêu phẳng tối ưu

Trang 26

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _

2.3.23 Gỉải thuật tìm k lân cận gần nhất (k-NN)

Giải thuật k~NN (k-Nearest Neighbor) được sử dụng rất phổ biến trong lĩnh vực khai phá dữ liệu nói chung và trong bài toán phân lớp nói riêng Đây là phương pháp để phân lóp các đối tượng dựa vào khoảng cách gần nhất giữa đối tượng cần gán nhãn lớp

và tất cả các đối tượng khác trong tập huấn luyện [9]

Với giải thuật k-NN thì một đối tượng sẽ được phân lớp theo lớp chiếm đa số trong

k lân cận của nó, trong đỏ k là số nguyên dương được chọn khỉ thực hiện thuật toán

Việc chọn giá trị & rất quan trọng vì nếu chúng ta chọn k quá nhò thì kết quả sẽ dễ

bị ảnh hưởng bởi nhiễu, còn nếu chọn k quá lớn thì nhiều phần tử lân cận chọn được có thể đến từ các lóp khác Hình 2.6 là giải thuật k-NN vói k lần lượt là 1 và 4 Với k-ì thì Với k = 1 tin mẫu dấu hỏi sẽ thuộc lớp của lân cận gần nhất là lóp hình vuông Vối k =

4, mẫu dấu hỏi sẽ thuộc lớp chiếm đã số trong 4 lân cận gần nhất 4 lân cận gần nhất

của mẫu dấu hỏi gồm 3 mẫu thuộc lớp hình vuông và 1 mẫu thuộc lớp tam giác, vì vậy mẫu dấu hỏi thuộc lớp hình vuông

2.4 Phân biệt dự báo trực tuyến, không trục tuyến

Dự báo trực tuyến (online prediction) là dự báo mà dữ liệu tới liên tục ta không cần phải tính toán lại toàn bộ giải thuật mà chỉ cần tính toán lại một phần nhỏ trong giải thuật nhằm đảm bảo được kết quả dụ đoán nhanh chỏng, không phải chờ đợi lâu

Trang 27

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _

Dự báo không trực tuyến là dự báo mà dữ liệu ta đã có sẵn đầy đủ trước, khi dữ liệu mới đến ta phải tính toán lại toàn bộ giải thuật

2.5, Gỉảỉ thuật K-NN dùng trong dự báo

Phương pháp làm trơn hàm mũ và mô hình AR1MA là những mô hình tuyến tính

vì vậy chúng chỉ nắm bắt được thành phàn theo xu hướng của chuỗi dữ liệu thời gian Còn ANN là mô hình phi tuyến tính vì vậy nó không nắm bắt được thành phần theo mùa hay xu hướng một cách hiệu quả [4]

Cách tiếp cận k-lân cận gần nhất là một trong những kỹ thuật dự báo phi tham số

(non-parametric), hiểu theo nghĩa người dùng không phải biết trước mối quan hệ lý thuyết nào giữa các trị xuất và các trị nhập trong bài toán dự báo, do đó nó rất tự nhiên

và trực giác Ý tưởng chính của cách tiếp cận này là nhận dạng các mẫu trong quá khứ khớp với mẫu hiện hành và dùng tri thức về cách mà chuỗi thời gian biến đổi trong quá khứ trong những tình huống tương tự để dự báo về biến đổi trong tương lai Ngoài ra, với cách tiếp cận k-lân cận gàn nhất này, các mẫu dự báo có thể được hồi tiếp trở lại

vào tập dữ liệu để sử dụng cho các lần dự báo sau, nhờ vậy tầm (horizon) của dự báo cố

thề được kểo dài theo yêu cầu (kỹ thuật này được gọi là dự báo lặp - iterated prediction) Hình 2.7 trình bày ý tưởng cơ bản của cách tiếp cận này

Hình 2.7 Ý tưởng cơ bản của cách tiếp cận dựa trên phương pháp so trùng

mẫu Thuật toán dự báo chuỗi thời gian dựa vào kỹ thuật &-lân cận gần nhất được thực

hiện như sau Cho một trạng thái (mẫu) hiện hành cố chiều dài w trong chuỗi thời

Trang 28

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _ _

gian có chiều dài n (w « n) và chúng ta phải dự đoán chuỗi có chiều dài m(m<w) sẽ xảy

ra ở bước kế tiếp theo thòi gian (tức là dự báo m bước về phía tương lai) Đầu tiên, thuật toán sẽ tìm kiếm k lân cận gần nhất hay các lân cận trong một ngưỡng T cho trước đối với mẫu đó Sau đó, thuật toán láy các chuỗi có chiều dài m nằm kế cận bên phải của

các lân cận gần nhát tìm được ở bước trên Cuối cùng, chuỗi dự báo được ước lượng bằng cách tính trung bình cộng các chuỗi vừa thu được Trong trường hợp cần dự báo với tầm dự báo nhiều bước, chuỗi ước lượng có thể được chèn vào cuối tập dữ liệu để

dự báo cho các điểm tiếp theo Hình 2.8 minh họa thuật toán dự báo dựa trên phương pháp so trùng mẫu

Chuồi ước lượng Hình 2.8 Minh họa thuật toán dự báo dựa trên phương pháp so trùng mẫu

Giải thuẳt k-lân cân gần nhất dùng trong dư báo:

D là chuỗi thời gian có chiều dài ni,TS là tập kiểm tra có chiều dài H2, w là chiều dài của mẫu, và m là chiều dài của chuỗi dự báo (m < w < m và w « nì) Chú ý là trong trường hợp m <w, chúng ta có thể dùng một biến để lưu tích lũy các chuỗi ước lượng cho tới khi m bằng với w Khi đó, chúng ta có thể chèn chuỗi tích lũy được vào trong

cáu trúc chỉ mục mà không cần phải xây dựng lại cáu trúc chỉ mục khi quay lại thực hiện bước 1

1 Thu giảm số chiều các chuỗi con có chiều dài w trong D và chèn chứng vào

trong một cấu trúc chỉ mục đâ chiều (nếu cần)

TS

Trang 29

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

4 Với mỗi lân cận gần nhất tìm được ở bước 3, khôi phục chuỗi có chiều dài m nằm kế cận nó trong D

5 Tính trung bình cộng các chuỗi tìm được ở bước 4

6 Trả lại kết quả ước lượng ở bước 5

7 Chèn chuỗi ước lượng ở bước 5 vào D để dự báo các mẫu tiếp sau và quay lại

bước 1 (nếu cần)

Từ giải thuật ở trên ta có thể thấy khác với các mô hình thống kê và cả mô hình ANN thường phải xây dựng mô hình từ tập dữ liệu có sẵn (tức là quá trình học), phương

pháp k-\ẫn cận gần nhất coi tập huấn luyện chính là mô hình, do vậy nó tiến hành dự

báo trực tiếp dựa vào tập huấn luyện mà không qua một quá trình học nào cả

Trong giải thuật trên có ba tham số phải xác định: độ đo được dùng để xác định độ

tương tự của hai chuỗi con, số lân cận gần nhất (k) cần tìm và chiều dài (w) của mẫu để

so trùng Độ đo được chọn để dùng trong luận văn này là độ đo DTW Việc xác định

giá trị của k có ảnh hưởng đến chất lượng của dự báo của giải thuật k-lẫn cận gần nhất Trong thực tế, giá trị tốt nhất của k thường nhỏ đối với dữ liệu chuỗi thời gian không có

nếu dữ liệu chuỗi thời gian có chiều dài của mùa là s thì ta nên chọn w bằng với s

2.6 Độ đo xoắn thời gian động (Dynamic Time Wraping - DTW)

Trang 30

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

độ đo Euclid Chính vì tính linh hoạt cho kết quả chính xác hơn nên độ đo xoắn thời gian động bắt đầu đóng vai trò quan trọng trong nhiều lĩnh vực nhu khoa học, y khoa, công nghiệp, hay tài chính nơi mà các dữ liệu yêu cầu tính toán với độ chính xác cao hơn

Đã có rất nhiều công trình nghiên cứu về độ đo này nhu vào năm 1994 thi Bemdt

và Clifford đã giới thiệu chính thức độ đo này trong công trình nghiên cứu về độ đo xoắn thời gian động trong cơ sở dữ liệu Hay các nghiên cứu truớc đó của các nhà nghiên cứu nhu: Itakura 1975; Kruskall và Liberman 1983; Myers et al 1980; Rabiner và Juang 1993; Rabiner et al 1978; Sakoe và Chiba 1978; Tappert and Das 1978 Tuy chỉ có một vài nghiên cứu chính thức nhung ngay sau đó thi độ đo này ngay lập tức góp phần không thể thay thế trong nhiều lĩnh vực Trong năm 2001 thi Aach và Church đã áp dụng thành công việc DTW vào quá trình RNA dữ liệu hồi quy trong ngành sinh học Năm 1995, Gollmer và Posten đã áp dụng DTW thành công vào việc đồng bộ hóa và luu vết các gói tiến trình trong chất liệu polymer ngành hóa học Và còn rất nhiều các công trình nghiên cứu thành công DTW của Gavrila và Davis năm 1995 trong ngành sinh trắc học, Munich và Perona năm 1999 trong ngành chữ ký điện tử, Kovacs và Vajna năm 2000 trong dữ liệu vân tay Mặc dù có nhiều thành công trong các lĩnh vực nhu vậy nhung DTW lại có một điểm yếu là tốc độ giải thuật chua đuợc nhanh Trong phần tiếp theo sau đây chúng tôi sẽ trình bày nghiên cứu của Keogh về các giải pháp tăng hiệu suất của DTW [5][17]

Truớc khi tìm hiểu về độ đo DTW chúng ta cùng nhìn lại độ đo Eucid Ví dụ

cách Eucid đuợc tính nhu sau:

n

Đ i s t ( Q , C ) = ^(Iqj - Cj l ) 2 )

r =1

Độ đo Eucid truớc giờ có uu điểm là dễ hiểu, dễ tính toán và có thể áp dụng cho nhiều

bài toán trong khai phá dữ liệu chuỗi thòi gian nhu gom cụm, phân lớp, mô

Trang 31

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

tip Tuy nhiên độ đo này lại không làm việc tốt trên dữ liệu có nhiễu, hay các đuờng căn bản khác nhau Chúng ta cùng xem xét hình 2.9 để thấy sự khác nhau giữa hai độ

đo Euclid và xoắn thời gian động DTW

(a)

Hình 2.9 Độ đo Euclid (a) và độ đo DTW (b) Trong hình 2.9(a) là tính toán với độ đo Euclid, còn trong hĩnh 2.9(b) là tính toán với độ đo DTW Nhu chúng ta thấy theo tính toán hình 2.9(a) thì Euclid sẽ xét theo hai điểm cùng nằm trên một trục dọc tức là hai giá trị quan sát tại cùng một thời điểm, ta tạm gọi đó là ánh xạ 1-1 Neu theo kiểu tính toán này thì khoảng cách tại điểm thứ 1 trong đuờng 1 và điểm thứ 1 trong đuờng 2 là rất khác nhau mặc dù chúng ta thấy hình dạng 2 đuờng này là giống nhau, chỉ có điều là bị xê dịch về mặt thời gian Chính vì vậy, nếu tính toán theo phuơng pháp này thi kết quả sẽ không chính xác nhất là nếu chúng ta đang tim Mindist (khoảng cách ngắn nhất giữa 2 mẫu dữ liệu) Vĩ lý do đó mà vào năm 1994 thi Bemt và Clifford đã phát triển ra độ đo DTW nhằm khắc phục nhuợc điểm kể trên của Euclid Chúng ta có thể hình dung DTW trong hình 2.9(b) và tìm hiểu

kỹ hơn về DTW trong phần tiếp sau đây [5]

Một vấn đề của các giải thuật so trùng hiện nay là làm sao có thể tăng tốc trên dữ liệu thời gian đồng thời phải có đuợc độ chính xác tốt Hầu hết các giải thuật so trùng hiện nay đang dùng độ đo tuơng tự hay một vài độ đo khác để tính toán khoảng cách giữa 2 đối tuợng dữ liệu trong không gian đa chiều Nhu chúng ta tìm hiểu ở phần trên thì lý do độ đo Euclid phổ biến chính là dễ tính toán và dễ hiểu Tuy nhiên điều đó là chua đủ với các bài toán càng ngày càng phức tạp hiện nay Có rất nhiều mẫu dữ liệu

có hình dạng giống nhau nhung nếu dùng Euclid thì lại

Trang 32

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN

cho kết quả cách xa nhau Vào năm 1994 thì Bemt và Clifford đã phát triển ra một độ

đo có tên gọi là DTW (dynamic time warping)

Kỷ hiẽu

[ Ci: Cjl Một chuỗi con của c, bắt đầu tại điểm Ci và kết thúc tại Cj

Yi và Faloutsos 2000)

LB_Kim Hàm chặn dưới được giới thiệu bởi Kim (2001)

LB_Yi Hàm chặn dưới được giới thiệu bởi Yi (1998)

LB_Keogh Hàm chặn dưới được giới thiệu trong bài báo [5]

Bảng 1 Giải thích các ký hiệu của giải thuật DTW

2.6.2 Tính toán trong độ đo DTW

Kỹ thuật tính toán khoảng cách xoắn thời gian động là cách sắp xếp hai chuỗi thời gian sao cho giá trị khoảng cách là nhỏ nhất [1] Để sắp xếp đươc hai chuỗi này, chúng

Trang 33

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _

Hình 2.10 Ma trận xoắn và đường xoắn tối ưu (Nguồn [5])

Chúng ta có thể tính toán được DTW bằng giải thuật quy hoạch động (dynamic

programming) gồm biến giai đoạn, biến trạng thái và biến quyết định để mô tả quá trình chuyển đổỉ trạng thái hợp lệ Trong đó, biến giai đoạn đơn giản chỉ là một sự tăng đơn điệu các sự kiện, biến trạng thái là các điềm (ỉ,/) trong ma trận và biến quyết định để giới hạn những đường xoắn hợp lệ làm giảm không gian tìm kiếm Việc giới hạn không gian tìm kiếm sẽ giúp tiết kiệm được chi phí tính toán và cải thiện được vấn đề hiệu suất, cho nên đường xoắn thời gian phải tuân theo một vài ràng buộc sau:

• Tính đơn điệu (monotonicity): những điểm phải được sắp thứ tự đơn điệu

b - b '> 0

• Tính liên tục (continuity): từng bước trong đường xoắn phải liền kề nhau,

tức là cho w k = (a,ồ) thì wfc_1 = (a',bl) vói a-a'<l và b-b’< L

• Cửa sổ xoắn (warping window): những điểm hợp lệ phải rơi vào khoảng

cửa sổ xoắn cho trước (ú > 0 với \i k — j k \ < ùì

Trang 34

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

• Ràng buộc độ dốc (slope constraint): những đường xoắn hợp lệ phải bị ràng buộc về độ dốc, điều này giúp tránh trường hợp những bước di chuyển quá lớn theo một hướng

điều này giúp đường xoắn bắt đầu và kết thúc tại các điểm nằm ở góc trên đường chéo của ma trận [11] [19]

Tiếp theo, chúng ta sẽ tính toán khoảng cách DTW bằng quy hoạch động dựa vào mối quan hệ đệ quy sau, mà định nghĩa khoảng cách tích lũy y(i,;') của mỗi điểm:

y(ij) = Dist{q u Cj) + min{YÌi - l,j - 1 ),y(i - l,;'),y(i,;' - 1)}

Khoảng cách đó là tổng khoảng cách giữa các phần tử hiện tại vói khoảng cách tích lũy nhỏ nhất của các điểm xung quanh Độ đo Euclid có thể xem như trường hợp

Chi tiết giải thuật tính khoảng cách DTW như sau:

Ví dụ sau đây sẽ minh họa cho giải thuật tính khoảng cách DTW Giả sử chúng

ta có 2 chuỗi thời gian:

Q = (5, 6, 3,2,9, 5,9,4,8, 5) c

= (3,4,1,8, 3, 7,4,4, 8, 2) Hai chuỗi này được biểu diễn đồ thị bằng hình 2.11

Trang 35

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _

Time Series Data

Hình 2.11 Đồ thị biểu diễn hai chuỗi thời gian [19]

Để tính khoảng cách DTW đầu tiên chúng ta xây dựng ma trận khoảng cách, sau

đó chứng ta xây dựng ma trận tính khoảng cách tích lũy của hai chuỗi trên Mỗi ô trong

ma trận sẽ chứa khoảng cách tích lũy tương ứng của cặp điểm đó

Trang 36

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

Hình 2.13 Ma trận xoắn và đường xoắn tối ưu Trong ma trận xoắn

hình 2.13 ở trên thì các ô được tính toán như sau:

7(l)l) = (Ọi-C1)2

y(ij) = y(i,;' -1) + (Ọi - Cjf

y ( i , l ) = y ( i - l , l ) + ( ỌỂ- C i )2

y(ij) = mintỵự - 1- l),y(i,;' - l),y(i - 1,;')} + (Ọi - Cj) 2

Sau khi đã tính tất cả giá trị tích lũy cho các ô, chúng ta được một đường xoắn tối

ưu bao gồm các ô tham gia tích lũy cho ô (10,10) Trong hình trên thì đường xoắn tối

ưu là các ô được tô màu

Vậy khoảng cách DTW của hai chuỗi trên là -\/28 ~ 5,2915, trong khi khoảng

cách Euclid của hai chuỗi trên là V l 2 2 ~ 11,0454

Ưu điểm: DTW phù hợp với các dữ liệu chuỗi thời gian có hình dạng tương tự nhau nhưng chiều dài thòi gian khác nhau DTW cũng cho ra kết quả chính xác hơn các

độ đo trong không gian Euclid

Khuyết điểm: thời gian tính toán lâu và độ phức tạp của DTW là O(nm)

Trang 37

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BẰNG CÁC ĐIỂM cực TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BÂÒ Dữ LIỆU CHUỒI THỜI GIAN _

2.6.3 Kỹ thuật ràng buộc toàn cục

Bên cạnh những ràng buộc đối với đường xoắn thời gian động ở trên thì để đảm bảo đường xoắn không đi chệch hướng quá xa so với đường chéo của ma trận thì người

ta đã đề ra thêm những ràng buộc mang ý nghĩa toàn cục Ràng buộc này định nghĩa

một tập con của ma trận xoắn (warping matrix) mà cho phép đường xoắn tiến hành di chuyển mở rộng và gọi là một cửa sổ xoắn (warping window) Mục đích của ràng buộc

toàn cục là tăng tốc độ tính toán khoảng cách DTW vì làm giảm không gian tìm kiếm đường xoắn và điều quan trọng là ngăn trường họp một phần nhỏ của một chuỗi được ánh xạ vào phần lớn hơn tương ứng của chuỗi khác

Hai ràng buộc toàn cục được dùng phổ biến nhất là dải Sakoe-Chiba [21] và hình bình hành Itakura [22]:

- Ràng buộc dải Sakoe-Chiba (Sakoe-Chiba Band)

Ràng buộc này được đề xuất bởi Sakoe và Chiba năm 1978 định nghĩa đường xoắn họp lệ:

w = w lt w2 l , wk > , W K với max(m,n) < K < m + n - 1 và w k = (i,;')fc là tập các ô

của ma trận xoắn của hai chuỗi thời gian với điều kiện \i — j \ < Củ với Củ là một số

nguyên dương cho trước gọi là cửa sổ xoắn

Hình 2.14 bên trái mô tả cửa sổ xoắn ứng với ràng buộc dải Sakoe-Chiba

Ràng buộc hình bình hành Itakura (Itakura Paralelogram)

Ràng buộc này được đề xuất bởi Itakura năm 1975 cũng định nghĩa đường xoắn họp lệ được ràng buộc trong một tập con của ma trận xoắn của hai chuỗi thời gian theo

thời gian theo i th :

jth = í ư ựth)

với các điều kiện ràng buộc biên: <u(l ) = 1, Cú(n ) = m v à điều kiện liên tục:

<u(i + 1 )- <u(i) = 0,1,2 (<u(i ) ^ <u(i — 1))

Trang 38

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _

Hình 2.14 bên phải mô tả cửa sổ xoắn ứng với ràng buộc hình bình hành của Itakura

Hình 2.14 Ràng buộc toàn cục của độ đo xoắn thời gian động (Nguồn [5])

2.6.4 Kỹ thuật tính chặn duứĩ

Hiện nay, mặc dù việc tính toán DTW cho kết quả tính toán chính xác hơn so với

độ đo Euclid nhưng nó đòi hỏi thời gian thực thi rất lớn Do đỏ, người ta đã phát triển

kỹ thuật tính chặn dưới hiệu quả để cố thể giảm tải bớt không gian tìm kiếm bằng cách loại bỏ những chuỗi không phù hợp càng sớm càng tốt

Mục tiêu của kỹ thuật tính chặn dưới đố là để tăng tốc độ tính toán và để tạo một ràng buộc chặn dưới tương đối chặt chẽ, tức là một phương pháp có thề xấp xỉ khoảng cách DTW thật một cách gần nhất Phần tiếp theo, chúng tôi sẽ giới thiệu ba kỹ thuật tính chặn dưới được sử dụng phổ biến là của Kim et al (2001) Yi et al (1998) và Keogh

et al (2002) [5]

2.6.4.1 Phưomg pháp tíhh chặn dưổỉ của Kìm

Đây là phương pháp đầu tiên mà hỗ trợ việc tìm kiếm tương tự cũng như lập chỉ mục chính xác mà áp dụng với khoảng cách DTW Mục đích cơ bản của Kim là phát triển một kỹ thuật mà tăng cường hiệu suất tìm kiếm trong một cơ sở dữ liệu lớn mà không cho phép xảy ra lỗi tìm sót Đe thực hiện kỹ thuật này Kim và các

Trang 39

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _

đồng sự đã đưa ra một hàm tính khoảng cách mói mà xấp xỉ cận dưới đối với khoảng cách xoắn thời gian và nó thỏa điều kiện của bất đẳng thức tam giác Từ đó, ta cố thể

áp dụng gỉải thuật cho việc lập chỉ mục cũng như tìm kiếm tương tự được dễ dàng

Ưu điểm: kỹ thuật này sử dụng giải thuật lập chỉ mục chính xác dùng khoảng cách DTW để cải thiện hiệu suất tìm kiếm trong các tập dữ liệu lớn Ngoài ra, kỹ thuật cũng giới thiệu hàm chặn dưới với bốn đặc trưng đảm bảo việc không xảy ra sự miễn sai so với các kỹ thuật lập chỉ mục thồng thường

Khuyết điểm: phương pháp chỉ cho sự rút trích bốn đặc trưng nên không khả thi với việc đánh chỉ mục đa chiều Bên cạnh đó, chỉ một đặc trưng thật sự được dùng trong hàm chặn dưới cho nên chặn dưới ở đây rất là đơn sơ và sẽ xảy ra nhiều lỗi mà tốn nhiều thời gian để đánh gỉá hơn

Hình 2.15 mô tả kỹ thuật tính chặn dưới của Kim và đồng sự với điểm A và D là

Hình 2.15 Mô tả kỹ thuật chặn dưới của Kim (Nguồn [5])

2.6.4.2 Phương pháp tính chặn dưới của Yỉ

Kỹ thuật chặn dưới của Yi và các đồng sự ra đồi trong bối cảnh các kỹ thuật lập chỉ mục dữ liệu chuỗi thời gian bấy gỉờ chỉ thực hiện trong không gian Euclid nhưng khi áp dụng vào độ đo xoắn thời gian động thì xuất hiện vấn đề đó là độ phức tạp tính toán lớn và nó không dẫn ra được bất kỳ đặc trưng tự nhiên nào

Trang 40

KÉT HỢP PHƯƠNG PHÁP PHÂN ĐOẠN BANG CÂC ĐIỂM CỰC TRỊ QUAN TRỌNG VÀ ĐỌ ĐO DTW CHO BẢI TOÁN

Dự BẦÒ Dữ LIẸU CHUỒI THỜI GIAN _ _

Chính vì vậy, Yi đã phát triển một kỹ thuật đánh chỉ mục xấp xỉ với khoảng cách DTW

dùng phương pháp FastMap Phương pháp này ánh xạ một chuỗi có độ dài n sang một điểm k chiều, bằng một hàm rút trích đặc trưng, và xây dựng một cấu trúc chỉ mục đa chiều trên tập điểm k chiều này Ngoài ra, nó cũng giúp tiết kiệm được chi phí CPU và

truy cập đĩa bằng cách chấp nhận đánh đổi một tỉ lệ nhỏ độ nhạy cảm

Hình 2.16 mô tả kỹ thuật tính chặn dưới của Yi với phần gạch dọc biểu diễn phàn tối thiểu của những điểm tương ứng đóng góp vào khoảng cách DTW nên được xem như giá trị chặn dưới

Hình 2.16 MÔ tả kỹ thuật chặn dưới của Yi (Nguồn [5])

Ưu đỉềm: có thể áp dụng để đánh chỉ mục đa chiều với khoảng cách DTW và tiết kiệm được nhiều chi phí CPU và thời gian truy cập đĩa

Khuyết đỉểm: kỹ thuật cho phép xảy ra sự miễn sai và độ phức tạp thực tế của nố

và những chuỗi dài

2.Ố.4.3 Phương pháp tính chặn dưứỉ cùa Keogh

Mặc dù hai phương pháp chặn dưởi nêu trên đã cỏ những cải tiến so với trước nhưng vẫn có nhược điềm là tính chặn dưới cửa chứng vẫn chưa chặt Do đó, Keogh và các đồng sự đã phát triền một kỹ thuật tính chặn dưới dựa trên ỷ tưởng ràng buộc toàn cục mà tiêu biểu là hai trường hợp ràng buộc dải Sakoe-Chiba và hình bình hành Itakura

Ngày đăng: 05/12/2019, 21:32

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w