Phát hiện bất thường điện năng tiêu thụ dựa trên phân tích dữ liệu chuỗi thời gian

Luận văn này nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng sử dụng điện để tìm ra phương pháp hiệu quả dùng để phát hiện bất thường trong quá trình sử dụng điện của khách hàng

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-

NGUYỄN MINH HUẤN

PHÁT HIỆN BẤT THƯỜNG ĐIỆN NĂNG TIÊU THỤ DỰA TRÊN PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN

Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ

Mã số: 60.34.04.05

LUẬN VĂN THẠC SĨ

TP HỒ CHÍ MINH, tháng 12 năm 2018

Trang 2

TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG - HCM

Cán bộ hướng dẫn khoa học: PGS TS ĐẶNG TRẦN KHÁNH

(Ghi rõ họ, tên, học hàm, học vị và chữ ký)

Cán bộ chấm nhận xét 1 :

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 2 :

(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm

Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1

2

3

4

5

Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý

chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)

CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KT MÁY TÍNH

Trang 3

TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc

NHIỆM VỤ LUẬN VĂN THẠC SĨ

MSHV: 1670463 Nơi sinh: Đồng Nai

Họ tên học viên: NGUYỄN MINH HUẤN

Ngày, tháng, năm sinh: 26/08/1981

Chuyên ngành: Hệ thống thông tin quản lý Mã số : 60.34.04.05

I TÊN ĐỀ TÀI: PHÁT HIỆN BẤT THƯỜNG ĐIỆN NĂNG TIÊU THỤ DỰA TRÊN

PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN

II NHIỆM VỤ VÀ NỘI DUNG:

- Nhiệm vụ: Thực hiện luận văn thạc sĩ với đề tài Phát hiện bất thường điện năng tiêu thụdựa trên phân tích dữ liệu chuỗi thời gian

- Nội dung:

+ Làm rõ khái niệm bất thường cho tiêu thụ điện

+ Tìm hiểu các phương pháp xác định bất thường

+ Nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng là các doanh nghiệp

+ Thiết kế thí nghiệm để đánh giá một số phương pháp xác định bất thường trên dữ liệuđiện năng tiêu thụ thực tế của một số khách hàng là doanh nghiệp

+ Thiết kế và xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thựcdành cho các đối tượng sử dụng là những người không phải là chuyên gia về phân tích dữliệu

III NGÀY GIAO NHIỆM VỤ : 15/01/2018

IV NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018

V CÁN BỘ HƯỚNG DẪN: PGS TS ĐẶNG TRẦN KHÁNH

Tp HCM, ngày tháng năm 2019

CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT

Trang 4

LỜI CẢM ƠN

Đầu tiên, tôi xin chân thành cảm ơn Thầy, PGS TS Đặng Trần Khánh đã tận

tình hướng dẫn tôi trong quá trình thực hiện luận văn tốt nghiệp Thầy đã đưa ra nhiều

ý tưởng, gợi ý nhiều phương pháp để tôi tìm hiểu, nghiên cứu và áp dụng trong luận

văn này

Tôi xin chân thành cảm ơn các Thầy, Cô của trường Đại học Bách Khoa Thành

phố Hồ Chí Minh đã truyền đạt những kiến thức quí giá giúp tôi ngày càng trưởng

thành hơn trên con đường học vấn của mình

Tôi xin chân thành cảm ơn Ông Nguyễn Phước Đức, Phó Tổng Giám đốc Tổng

công ty Điện lực miền Nam; Ông Trần Hữu Minh, Trưởng Ban Công nghệ thông tin

và các đồng nghiệp tại Tổng công ty Điện lực miền Nam đã tạo điều kiện để tôi tham

gia khóa học và thực hiện luận văn này

Con xin cảm ơn Ba, Mẹ luôn đặt niềm tin và luôn dõi theo con trên con đường

tìm tòi học vấn và kiến thức

Cuối cùng, tôi cảm ơn vợ tôi, Nguyễn Lưu Thùy Ngân, đã luôn động viên,

khuyến khích tôi hoàn thành chương trình học Thạc sĩ Hệ thống thông tin quản lý và

hoàn thành luận văn tốt nghiệp

Thành phố Hồ Chí Minh, tháng 12 năm 2018

Trang 5

TÓM TẮT

Ngày nay, với sự phổ biến của công tơ điện tử, dữ liệu điện năng tiêu thụ của khách hàng sử dụng điện được các Công ty Điện lực thu thập liên tục Luận văn này nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng sử dụng điện để tìm ra phương pháp hiệu quả dùng để phát hiện bất thường trong quá trình sử dụng điện của khách hàng

Phương pháp phát hiện bất thường bao gồm 2 giai đoạn: Giai đoạn thứ nhất, giai đoạn dự báo, nhằm dự báo giá trị điện năng tiêu thụ trong tương lai, sau đó tính toán vùng giá trị bình thường Giai đoạn thứ hai, giai đoạn xác định bất thường, là so sánh điện năng tiêu thụ thực tế với vùng giá trị bình thường để tìm ra các bất thường trong

sử dụng điện của khách hàng

Đối với dự báo điện năng tiêu thụ trong tương lai, luận văn cài đặt thử nghiệm,

so sánh hiệu quả của 04 phương pháp dự báo phổ biến hiện nay là: (1) Auto Regressive integrated Moving Average (ARIMA), (2) Holt-Winters, (3) Double Seasonal Holt-Winters và (4) phương pháp lai giữa mạng nơ ron và ARIMA Các thử nghiệm được thực hiện trên dữ liệu điện năng tiêu thụ điện thực tế của một số khách hàng sử dụng điện của Tổng công ty Điện lực miền Nam (thông tin khách hàng đã được mã hóa)

Bên cạnh đó, luận văn cũng xây dựng công cụ hỗ trợ phát hiện bất thường theo thời gian thực để minh họa cho phương pháp phát hiện bất thường mà luận văn sử dụng

Trang 6

ABSTRACT

Nowadays, the use of digital electric-energy meter has become very popular Thanks to digital electric-energy meters, the electricity company can easily gather electric-energy-consumption data in real time This research compares different data analysis methods to find an effective method for detecting possible anomalies in electric-energy consumption; thus, is beneficial for both electric-energy consumers and suppliers

Our anomaly detection methods follow two broad steps: The first step is to predict the amount of electric-energy consumption at a moment in future and calculate a possible range of normal consumption The second step is to compare the actual consumption value that is collected via the digital electric-energy meter with the predicted range; Values that fall outside this range are considered anomalies For the first step, we study four different methods which have shown good results on other data sets in previous works: (1) Auto Regressive Integrated Moving Average (ARIMA), (2) Holt-Winters, (3) Double Seasonal Holt-Winters, and (4) A hybrid method between Neural Network and ARIMA (NNAR) All of the experiments are carried out on the real electric-energy consumption data of the Southern Electric Power Company – Vietnam (consumers’ information has been anonymized)

Besides, we also built a tool to assist human in detecting anomalies to illustrate the methods implemented in this research

Trang 7

LỜI CAM ĐOAN CỦA TÁC GIẢ

Tôi xin cam đoan những kết quả nghiên cứu được trình bày trong luận văn này do chính bản thân tôi thực hiện Những nội dung tham khảo từ công trình khác đều được trích dẫn đầy đủ

Trang 8

MỤC LỤC

CHƯƠNG 1: MỞ ĐẦU 1

1.1 Giới thiệu đề tài 1

1.2 Mục tiêu nghiên cứu 1

1.3 Đối tượng và phạm vi nghiên cứu 2

1.4 Cấu trúc của luận văn 2

1.5 Đóng góp của luận văn 3

CHƯƠNG 2: TỔNG QUAN 4

2.1 Các công trình trình nghiên cứu liên quan 4

2.2 Hướng nghiên cứu của luận văn 5

CHƯƠNG 3: CƠ SỞ LÝ THUYẾT 6

3.1 Phát hiện bất thường 6

3.1.1 Các dạng bất thường 6

3.1.2 Các phương pháp phát hiện bất thường 6

3.1.3 Các kỹ thuật dùng để phát hiện bất thường phổ biến 7

3.1.3.1 Kỹ thuật phát hiện bất thường dựa trên phân lớp 7

3.1.3.2 Kỹ thuật phát hiện bất thường dựa trên phân cụm 8

3.1.3.3 Kỹ thuật phát hiện bất thường dựa trên thống kê 9

3.2 Phân tích dữ liệu chuỗi thời gian 9

3.2.1 Dữ liệu chuỗi thời gian 9

3.2.1.1 Định nghĩa 9

3.2.1.2 Chuỗi thời gian dừng 10

3.2.1.3 Xu hướng và mùa vụ 10

3.2.2 Các phương pháp dự báo dựa trên phân tích dữ liệu chuỗi thời gian 11

3.2.2.1 ARIMA 11

3.2.2.2 Holt Winters 12

3.2.2.4 Phương pháp dự báo Double Season Exponential Smoothing 14

3.3 Phương pháp pháp hiện bất thường 16

3.4 Đánh giá độ chính xác của mô hình dự báo 17

CHƯƠNG 4: PHƯƠNG PHÁP THÍ NGHIỆM 18

4.1 Dữ liệu 18

Trang 9

4.2 Phương pháp thí nghiệm 23

4.2.1 Phương pháp thực hiện 23

4.2.2 Dữ liệu thực hiện các mô hình dự báo 25

4.2.3 Công cụ thực hiện thí nghiệm 25

4.3 Phương pháp đánh giá 25

CHƯƠNG 5: KẾT QUẢ THÍ NGHIỆM 26

5.1 Thí nghiệm 1 26

5.1.1 Mục tiêu 26

5.1.2 Dữ liệu 26

5.1.3 Kết quả 26

5.2.2 Dữ liệu 28

5.2.3 Kết quả 28

5.3.2 Dữ liệu 29

5.3.3 Kết quả 29

5.4.2 Dữ liệu 31

5.4.3 Kết quả 31

5.5.2 Dữ liệu 38

5.5.3 Kết quả 38

CHƯƠNG 6: CÔNG CỤ PHÁT HIỆN BẤT THƯỜNG 39

6.1 Thiết kế hệ thống 39

6.2 Lớp cơ sở dữ liệu: 40

6.3 Mô đun phân tích 41

6.4 Giao diện 41

CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 43

Trang 10

DANH MỤC CÁC TÀI LIỆU THAM KHẢO 44

HÌNH Hình 1 Bất thường toàn cục và bất thường cụ bộ Nguồn [15] 6

Hình 2 Minh họa dữ liệu chuỗi thời gian 10

Hình 3 Phân rã dữ liệu chuỗi thời gian với hàm decompose của ngôn ngữ R 11

Hình 4 Cấu trúc mạng nơ ron nhân tạo nguồn: https://cs231n.github.io 15

Hình 5 Qui tắc 2-sigma của phân phối chuẩn Nguồn [2] 16

Hình 6 Mô hình thu thập dữ liệu công tơ điện tử từ xa 18

Hình 7 Mô hình phát tuyến của các trạm khách hàng 19

Hình 8 Biểu đồ phụ tải của 19 khách hàng kinh doanh 19

Hình 9 Tổng hợp phụ tải theo ngày của 19 khách hàng 20

Hình 10 Tổng hợp phụ tải theo tuần của 19 khách hàng 20

Hình 11 Biểu đồ phụ tải của các khách hàng có ID là 7,9,17,19 21

Hình 12 Biểu đồ tần suất giá trị phụ tải (histogram) 22

Hình 13 Biểu đồ phân bố dữ liệu, biểu đồ giá trị trung bình với độ lệch chuẩn (Sd) và biểu đồ giá trị trung vị và độ lệch từ trung vị (Mad) 23

Hình 14 Qui trình phát hiện bất thường dữ liệu 24

Hình 15 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE trung bình) trên các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trượt trong 5 tuần 26

Hình 16 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE %) trên các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trong 5 tuần 27

Hình 17 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE trung bình) trên các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trượt trong 5 tuần 28

Hình 18 So sánh các mô hình dự báo của tổng hợp 19 khách hàng sử dụng điện 29

Hình 19 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo 30

Hình 20 Kết quả dự báo của các mô hình cho khách hàng có ID là 7 31

Hình 21 Biểu đồ phụ tải của khách hàng có ID là 7 32

Trang 11

Hình 22 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của khách hàng có ID là 7 32 Hình 23 Kết quả dự báo của các mô hình cho khách hàng có ID là 9 33 Hình 24 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của khách hàng có ID là 9 33 Hình 25 Kết quả dữ báo của các mô hình cho khách hàng có ID là 17 34 Hình 26 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của khách hàng có ID là 17 35 Hình 27 Kết quả dữ báo của các mô hình cho khách hàng có ID là 19 36 Hình 28 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của khách hàng có ID là 19 36 Hình 29 Biểu đồ phụ tải của khách hàng có ID là 19 37 Hình 30 So sánh phương pháp phát hiện bất thường độ lệch chuẩn và độ lệch từ trung vị 38 Hình 31 Qui trình công cụ phát hiện bất thường 39 Hình 32 Giao diện công cụ phát hiện bất thường 42

BẢNG

Bảng 1 Giá trị trung bình, độ lệch chuẩn, giá trị trung vị, độ lệch từ trung vị của các khách hàng có ID là 7,9,17,19 22 Bảng 2 Giá trị MAPE (%) trung bình của các mô hình dự báo đối với dữ liệu của 1 trạm biến áp với các khoảng thời gian huấn luyện là 4 tuần, 16 tuần và 32 tuần 27 Bảng 3 Giá trị MAPE (%) của các mô hình dự báo đối với dữ liệu của 1 trạm biến

áp với các khoảng thời gian huấn luyện là 4 tuần, 16 tuần và 32 tuần trong 5 tuần 27 Bảng 4 Giá trị MAPE trung bình của các mô hình dự báo đối với các khách hàng có

ID lần lược là 7,9,17,19 29 Bảng 5 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo cho tổng hợp 19 khách hàng 30

Trang 12

Bảng 6 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng

có ID là 7 32 Bảng 7 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng

có ID là 19 37 Bảng 10 Kết quả phát hiện bất thường 38 Bảng 12 Thông tin bảng TBLPREDICTION 40

Trang 13

CHƯƠNG 1: MỞ ĐẦU

1.1 Giới thiệu đề tài

Phát hiện bất thường trong tiêu thụ điện là một vấn đề quan trọng đối với các khách hàng sử dụng điện và các các Công ty phân phối điện (Công ty Điện lực) Đối với khách hàng sử dụng điện, đặc biệt là đối với khách hàng sử dụng điện với mục đích sản xuất và kinh doanh (Doanh nghiệp), việc phát hiện bất thường có ý nghĩa rất quan trọng trong việc quản lý sử dụng điện, giúp tránh thất thoát điện và có kế hoạch quản lý và sử dụng điện tốt hơn nhằm tối ưu hóa chi phí sử dụng điện

Đối với các Công ty Điện lực, việc phát hiện bất thường trong quá trình sử dụng điện của khách hàng giúp việc lập kế hoạch và điều hành cung ứng điện tốt hơn, kiểm soát và điều tiết được thời điểm công suất đỉnh trong trường hợp thiếu điện Việc kiểm soát tốt năng lượng điện sử dụng là một trong những giải pháp giúp đối phó với nguy cơ thiếu điện có thể xảy ra tại Việt Nam vào năm 2020 [1] Theo Tập đoàn Điện lực Việt Nam, đến năm 2021-2023 hệ thống điện có khả năng không đáp ứng

đủ nhu cầu và nhiều khả năng xảy ra tình trạng thiếu điện tại miền Nam [1]

Một số nguyên nhân của các bất thường trong sử dụng điện có thể liệt kê như:

sử dụng nhiều đèn chiếu sáng không cần thiết; sử dụng các thiết bị, máy móc không phù hợp [2]; hay liên quan đến các lỗi do con người [3]

Phương pháp thông thường để phát hiện các bất thường trong sử dụng điện là phân tích dữ liệu được ghi nhận từ các thiết bị cảm biến như: cảm biến chuyển động, cảm biến nhiệt độ, máy ghi hình, … với chi phí lắp đặt các cảm biến và phân tích dữ liệu phát sinh cao [2] Ngày nay, với việc ứng dụng công tơ điện tử để thu thập dữ liệu điện năng tiêu thụ với tần suất cao trong ngày có thể giúp phát hiện bất thường trong sử dụng điện và giảm số lượng cảm biến nêu trên

Hiện nay mỗi ngày, Tổng công ty Điện lực miền Nam đang thu thập và quản lý hơn 2 triệu dòng dữ liệu của các khách hàng là các công ty sản xuất, thương mại từ các công tơ điện tử Việc phải rà soát, xử lý một số lượng lớn dữ liệu nêu trên gây khó khăn cho các bộ phận quản lý vận hành tại các Công ty Điện lực để phát hiện, cảnh báo cho khách hàng khi các hiện tượng bất thường xảy ra

Từ những vấn đề nêu trên, luận văn khái quát hóa bài toán cần giải quyết như sau: Từ dữ liệu điện năng tiêu thụ của khách hàng sử dụng điện, máy tính phát hiện các điểm dữ liệu bất thường và thông báo cho khách hàng sử dụng điện theo thời gian thực để có thể tiến hành rà soát, kiểm tra

1.2 Mục tiêu nghiên cứu

Từ bài toán cần giải quyết nêu trên, luận văn đề ra các mục tiêu nghiên cứu sau:

- Làm rõ khái niệm bất thường cho tiêu thụ điện

- Tìm hiểu các phương pháp xác định bất thường

Trang 14

- Nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng là các doanh nghiệp

- Thiết kế thí nghiệm để đánh giá một số phương pháp xác định bất thường trên dữ liệu điện năng tiêu thụ thực tế của một số khách hàng là doanh nghiệp

- Thiết kế và xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thực dành cho các đối tượng sử dụng là những người không phải là chuyên gia về phân tích dữ liệu

1.3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu của luận văn là dữ liệu điện năng tiêu thụ của một số khách hàng sử dụng điện là doanh nghiệp của Tổng công ty Điện lực miền Nam Luận văn sẽ tìm hiểu một số phương pháp phát hiện bất thường, cài đặt so sánh kết quả của các phương pháp đó Giới hạn của luận văn là sẽ thực hiện các thí nghiệm trên dữ liệu điện năng tiêu thụ là dữ liệu chuỗi thời gian một biến

Việc xác định bất thường theo thời gian thực có nghĩa là khi dữ liệu điện năng tiêu thụ được ghi vào hệ thống với tần suất 30 phút 1 lần, một phương pháp được dùng để xác định bất thường ngay lập tức sẽ đưa ra đề xuất dữ liệu điện năng tiêu thụ

là bình thường hay bất thường Bất thường trong tiêu thụ điện có nghĩa là sản lượng điện năng tiêu thụ trong một đơn vị thời gian vượt quá ngưỡng bình thường

Công cụ dùng để xác định bất thường không phải là một phần mềm hoàn chỉnh

mà chỉ mang tính chất minh họa tính khả thi của phương pháp xác định bất thường của điện năng tiêu thụ mà luận văn đề xuất Việc xây dụng phần mềm hoàn chỉnh có thể áp dụng trong thực tế đòi hỏi nhiều nguồn lực về chi phí và thời gian vượt quá giới hạn về nguồn lực của các nhân thực hiện luận văn

1.4 Cấu trúc của luận văn

Cấu trúc của luận văn được chia làm 7 chương, với các nội dung chính như sau: Chương 1: Mở đầu Trình bày lý do chọn đề tài, mục đích, đối tượng và phạm

vi nghiên cứu

Chương 2: Tổng quan Phân tích, đánh giá các công trình nghiên cứu liên quan; nêu những vấn đề còn tồn tại; chỉ ra các vấn đề cần tập trung nghiên cứu giải quyết Chương 3: Cơ sở lý thuyết Trình bày định nghĩa các loại bất thường, các phương pháp xác định bất thường Trình bày các phương pháp dự báo ngắn hạn, cách thức đánh giá hiệu quả của các phương pháp dự báo

Chương 4 Phương pháp thí nghiệm

Chương 5 Kết quả thí nghiệm

Chương 6 Công cụ xác định bất thường theo thời gian thực

Chương 7 Kết luận và hướng phát triển

Trang 15

1.5 Đóng góp của luận văn

- Tìm hiểu dữ liệu điện năng tiêu thụ của các khách hàng sử dụng điện với mục đích ngoài sinh hoạt

- Tìm hiểu và so sánh các mô hình dự báo ngắn hạn như: NNAR [2] [4], ARIMA và Holt-Winters [5], Double Seasonal Holt-Winters [6] trên dữ liệu điện năng tiêu thụ của một số khách hàng tại Tổng công ty Điện lực miền Nam

- So sánh kết quả 2 phương pháp xác định bất thường: Phương pháp thứ nhất dựa vào giá trị trung bình và độ lệch chuẩn [2]; Phương pháp thứ hai dựa vào giá trị trung vị và độ lệch từ trung vị [7]

- Xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thực dựa trên giá trị được dự báo sử dụng 2 phương phát phát hiện bất thường nêu trên

Trang 16

CHƯƠNG 2: TỔNG QUAN

2.1 Các công trình trình nghiên cứu liên quan

Đã có nhiều nghiên cứu phát hiện bất thường bằng các thuật toán khai phá dữ liệu [2] [8] Chou et al [2] đề xuất một phương pháp phát hiện bất thường theo thời gian thực thông qua hai giai đoạn:

- Giai đoạn đầu tiên dự báo tiêu thụ điện bằng thuật toán lai giữa mạng nơ-ron nhân tạo và ARIMA (Auto-Regressive Integrated Moving Average)

- Giai đoạn thứ phát hiện bất thường bằng cách sử dụng giá trị chênh lệch giữa

dữ liệu tiêu thụ thực tế và dự báo

Tương tự, Hill và Barbara [8] cũng đưa ra giải pháp mô hình hóa dữ liệu để phát hiện bất thường bằng cách dự báo sử dụng các mô hình naı¨ve, nearest cluster (NC), single-layer linear network (LN), và multilayer perceptron (MLP) và so sánh dữ liệu thực tế với khoảng giá trị Predict Interval (PI) được tính toán trên cơ sở giá trị dự báo

để xác định các điểm dữ liệu bất thường

Dữ liệu của [2] là dữ liệu điện năng tiêu thụ của phòng thí nghiệm Dữ liệu của [8] là dữ liệu đo tốc độ gió

Araya et al [3] việc chỉ xem xét dữ liệu lịch sử để phát hiện ra các bất thường

có thể đưa ra kết quả sai vì thiếu các thông tin liên quan đến ngữ cảnh khi xảy ra bất thường đó ví dụ như ngày làm việc, ngày nghỉ, giờ làm việc, giờ không làm việc đối với tiêu thụ điện Araya et al [3] cho rằng bất thường có thể đúng trong ngữ cảnh này nhưng trong ngữ cảnh khác thì không phải là bất thường và đề xuất giải pháp CCAD-

SW (Collective Contextual Anomaly Detection using Sliding Window) Dữ liệu là điện năng tiêu thụ của hệ thống điều hòa không khí (Heating, ventilation, and air conditioning – HVAC) trong trường học và các dữ liệu bất thường được giả lập Arjunan et al [9] cũng đề xuất kỹ thuật phát hiện bất thường và giám sát năng lượng tiêu thụ cho nhóm khách hàng dựa trên dữ liệu được phân nhóm theo ngữ cảnh

và dựa trên thông tin các khách hàng lân cận có chung hành vi Dữ liệu điện năng tiêu thụ của các tòa nhà trong trường học và điện năng tiêu thụ của các căn hộ trong một tòa nhà

Arjunan et al [9] đề xuất kỹ thuật phát hiện bất thường gồm 2 bước:

- Bước 1: Tính điểm bất thường cho từng khách hàng

- Bước 2: Điều chỉnh điểm bất thường dựa vào thông tin điện năng tiêu thụ của các khàng lân cận

Kumar et al [10] sử dụng phân cụm (Clustering) để phát hiện bất thường đối với dữ liệu quĩ đạo đường đi Thuật toán clusiVAT của Kumar et al [10] được phát triển và cải tiến từ các thuật toán VAT, iVAT, sVAT được đề suất bởi các nghiên cứu [11] [12] [13] để phân cụm cho dữ liệu lớn Tuy nhiên, phương pháp xác định bất thường do Kumar et al [10] đề xuất không phù hợp khi áp dụng cho dữ liệu điện năng

Trang 17

tiêu thụ của các khách hàng sử dụng điện vì dữ liệu có tính biến đổi lớn phụ thuộc vào các hành vi sử dụng điện của khách hàng

2.2 Hướng nghiên cứu của luận văn

Luận văn áp dụng phương pháp phát hiện bất thường theo thời gian thực được

đề xuất bởi Chou et al [2] và Hill và Barbara [8] là quá trình phát hiện bất thường bao gồm 2 giai đoạn:

- Giai đoạn dự báo:

+ Giúp Công ty Điện lực dự báo đỉnh phụ tải tương lai để chủ động hơn trong điều hành cung ứng điện

+ Giúp KH: Chủ động hơn trong việc xây dựng kế hoạch sử dụng điện

- Giai đoạn phát hiện bất thường: Giúp khách hàng xác định được những bất thường trong tiêu thụ điện

Đối với giai đoạn dự báo, luận văn so sánh các phương pháp dự báo được sử dụng bởi Chou [2] và Zhang [4] là NNAR, phương pháp ARIMA và Holt-Winters được sử dụng bởi các tác giả Laurinec [5] và phương pháp Double Seasonal Holt-Winters (DSHW) được đề xuất bởi Taylor [6] Các phương pháp dự báo được lựa chọn vì đây là các phương pháp dự báo phổ biến được áp dụng cho dữ liệu điện năng tiêu thụ và có kết quả tốt trong các nghiên cứu trên

Đối với giai đoạn xác định bất thường, luận văn sẽ so sánh hai phương pháp: Phương pháp thứ nhất dựa vào giá trị trung bình và độ lệch chuẩn [2]; Phương pháp thứ hai dựa vào giá trị trung vị và độ lệch từ trung vị [7]

Từ phương pháp xác định bất thường nêu trên, luận văn sẽ phát triển công cụ phát hiện bất thường theo thời gian thực có thể áp dụng thực tế cho dữ liệu của các khách hàng sử dụng điện tại Tổng công ty Điện lực miền Nam

Trang 18

CHƯƠNG 3: CƠ SỞ LÝ THUYẾT

3.1 Phát hiện bất thường

3.1.1 Các dạng bất thường

Chandola et al [14] chia bất thường làm 3 loại chính sau:

- Điểm bất thường: Nếu một điểm dữ liệu được coi là không bình thường đối với phần còn lại của dữ liệu thì điểm dữ liệu đó được xem như điểm bất thường Đây

là dạng bất thường cơ bản nhất và được sử dụng trong hầu hết các nguyên cứu liên quan đến phát hiện bất thường

- Chuỗi bất thường: Nếu một tập các điểm dữ liệu có liên quan với nhau dị thường đối với phần còn lại của tập dữ liệu thì được xem là chuỗi bất thường Các điểm dữ liệu riêng biệt trong một chuỗi bất thường có thể không phải là bất thường, nhưng cùng xuất hiện trong một chuỗi dữ liệu thì được xem là bất thường

- Bất thường theo ngữ cảnh: Nếu một điểm hay một chuỗi dữ liệu được xem là bất thường đối với đối với một ngữ cảnh cụ thể thì được gọi là bất thường theo ngữ cảnh

Hochenbaum, Jordan et al [15] đề xuất 2 dạng bất thường sau: Bất thường toàn cục và Bất thường cục bộ

- Bất thường toàn cục: Là bất thường xảy ra tại một thời điểm và khác biệt so với phần còn lại của chuỗi thời gian

- Bất thường cục bộ: Là bất thường xảy rả tại một thời điểm và khác biệt so với cùng ngữ cảnh hay mùa vụ, được so sánh giữa mức tối đa và mức tối thiểu theo cùng ngữ cảnh hay mùa vụ

Hình 1 Bất thường toàn cục và bất thường cụ bộ Nguồn [15]

Luận văn đề xuất sử dụng định nghĩa bất thường theo [15] cho bất thường trong tiêu thụ điện năng vì dữ liệu điện năng tiêu thụ là loại dữ liệu có tính ngữ cảnh và mùa vụ cao

3.1.2 Các phương pháp phát hiện bất thường

Có nhiều phương pháp được đề xuất để phát hiện bất thường Các phương pháp tiên tiến nhất hiện nay dựa trên các mô hình máy học thống kê dựa trên tập dữ liệu

đủ lớn Dữ liệu huấn luyện mô hình phát hiện bất thường có thể có nhãn hoặc không

Trang 19

có nhãn Nhãn của một dữ liệu thể hiện điểm dữ liệu là bình thường hay là bất thường

Có thể chia các phương pháp này thành 3 dạng sau đây [14]:

- Dạng 1: Các phương pháp phát hiện bất thường có giám sát: Là các phương pháp sử dụng các nhãn dữ liệu bình thường và bất thường để xây dựng mô hình phân loại hay dự báo một điểm dữ liệu mới chưa được gán nhãn là bình thường hay là bất thường Để sử dụng phương pháp phát hiện bất thường có giám sát đòi hỏi phải tiêu tốn chi phí cho việc gán nhãn dữ liệu Chandola et al [14] cho rằng có 2 thách thức làm ảnh hưởng đến kết quả phát hiện bất thường có giám sát Một là các điểm dữ liệu

có nhãn là bất thường quá ít so với dữ liệu được gán nhãn bình thường trong tập dữ liệu huấn luyện Hai là vấn đề khó khăn cho việc gán nhãn chính xác cho các dữ liệu bất thường

- Dạng 2: Các phương pháp phát hiện bất thường bán giám sát: Phương pháp này dựa trên việc tập dữ liệu huấn luyện được gán nhãn cho các điểm dữ liệu bình thường Do phương pháp này không yêu cầu gán nhãn cho các điểm dữ liệu bất thường nên được dùng phổ biến hơn các phương pháp phát hiện bất thường có giám sát Nội dung của phương pháp này là dùng tập dữ liệu huấn luyện để xây dựng mô hình cho các hành vi bình thường, sau đó dùng mô hình này để phát hiện bất thường cho tập dữ liệu kiểm tra Thách thức của phương pháp này là tìm ra tất cả các dữ liệu được cho là bình thường của tập dữ liệu huấn luyện

- Dạng 3: Các phương pháp phát hiện bất thường không giám sát: Phương pháp này không sử dụng dữ liệu có nhãn Thay vào đó, phương pháp này giả định rằng hành vi bình thường là thường xảy ra nhất Các điểm dữ liệu bình thường được xem

là các mẫu thường xảy ra nhất, và các điểm hoặc chuỗi bị lệch khỏi các mẫu này được xem là bất thường

3.1.3 Các kỹ thuật dùng để phát hiện bất thường phổ biến

3.1.3.1 Kỹ thuật phát hiện bất thường dựa trên phân lớp

Phát hiện bất thường dựa trên kỹ thuật phân lớp thuộc phương pháp phát hiện bất thường có giám sát hay bán giám sát Kỹ thuật này được thực hiện thông qua 2 giai đoạn: Giai đoạn huấn luyện dùng để học mô hình phân lớp dựa trên dữ liệu huấn luyện có gán nhãn có sẵn; Giai đoạn thử nghiệm phân loại dữ liệu thử nghiệm là bình thường hay bất thường Theo Chandola et al [14] kỹ thuật phát hiện bất thường bằng phân lớp dựa trên giả định có thể phân biệt điểm dữ liệu bình thường và bất thường thông qua các đặc trưng của dữ liệu Một số đại diện của kỹ thuật phát hiện bất thường dựa trên phân lớp là: Neural Network [16], Bayesian Networks [17], Support Vector Machines [18] và Rule-based [19]

Trang 20

Nhược điểm:

- Để phân loại nhiều lớp cần thiết phải gán nhãn chính xác cho các lớp bình thường khác nhau, việc này thường rất khó khăn

- Tốn nhiều thời gian cho giai đoạn huấn luyện dữ liệu

3.1.3.2 Kỹ thuật phát hiện bất thường dựa trên phân cụm

Kỹ thuật gom cụm dùng để nhóm các điểm dữ liệu tương đồng vào cùng một nhóm Kỹ thuật gom cụm thuộc phương pháp phát hiện bất thường không giám sát Dựa trên 3 giả thuyết khác nhau mà kỹ thuật gom cụm được [14] đề xuất chia làm 3 nhóm:

- Nhóm thứ nhất dựa trên giả thuyết điểm dữ liệu bình thường thì thuộc về cùng một cụm trong khi đó điểm dữ liệu bất thường không thuộc về một cụm nào Nhược điểm của kỹ thuật này là nó không được tối ưu để phát hiện bất thường do mục đích chính của nó là phân cụm

- Nhóm thứ hai dựa trên giả thuyết các điểm dữ liệu bình thường nằm gần trung tâm cụm, trong khi đó các điểm bất thường nằm xa trung tâm cụm hơn Khoảng cánh đến điểm trung tâm cụm được dùng để đo độ bất thường cho từng điểm dữ liệu

- Nhóm thứ ba dựa trên giả thuyết các điểm dữ liệu bình thường thuộc về các cụm lớn và dày đặc, trong khi các điểm dữ liệu bất thường thuộc về các cụm nhỏ hoặc cụm thưa thớt Kỹ thuật này yêu cầu tính toán mật độ và kích thước của các cụm Một điểm dữ liệu bất thường nếu mật độ và hoặc kích thước của cụm nó thuộc về dưới một ngưỡng nào đó

Ưu điểm:

- Do kỹ thuật này thuộc về phương pháp phát hiện bất thường không giám sát

do đó không cần gán nhãn dữ liệu

- Giai đoạn phát hiện bất thường tốn ít thời gian hơn

- Có thể áp dụng cho các kiểu dữ liệu phức tạp

Nhược điểm:

- Hiệu năng phục thuộc nhiều vào hiệu quả của thuật toán gom cụm

- Mục tiêu chính là gom cụm dữ liệu, do đó không tối ưu cho việc phát hiện bất thường

- Tiêu tốn nhiều chi phí tính toán cho giai đoạn huấn luyện dữ liệu

- Một số thuật toán gom cụm buộc mỗi điểm dữ liệu được gán cho một số cụm Điều này có thể dẫn đến điểm bất thường được gán cho một cụm lớn, do đó được coi

là trường hợp bình thường bởi các kỹ thuật hoạt động theo giả thuyết rằng bất thường không thuộc về bất kỳ cụm nào

Trang 21

3.1.3.3 Kỹ thuật phát hiện bất thường dựa trên thống kê

Kỹ thuật này dựa trên giả thuyết các điểm dữ liệu bình thường thuộc vùng có xác suất cao của một mô hình ngẫu nhiên, trong khi đó các điểm dữ liệu bất thường thuộc các vùng xác suất thấp của một mô hình ngẫu nhiên [14]

Kỹ thuật dựa trên thống kê có thể được chia thành hai loại: tham số và phi tham

số Các kỹ thuật tham số giả định rằng các điểm dữ liệu bình thường được sinh ra từ một phân phối với các tham số Θ và hàm mật độ xác suất f (x, Θ), trong đó x là một quan sát Nếu các tham số không được xác định, chúng được ước tính từ tập huấn luyện Điểm đo bất thường của một điểm dữ liệu x được cho bởi nghịch đảo của hàm mật độ xác suất tại f(x, Θ) Kiểm tra giả thuyết thống kê cũng có thể được sử dụng để phân loại các điểm dữ liệu

Ưu điểm:

- Thuộc nhóm phương pháp phát hiện bất thường không giám sát, do đó không cần gán nhãn dữ liệu

- Nếu các giả thuyết liên quan đến việc phân phối dữ liệu cơ bản là đúng, các

kỹ thuật thống kê là một giải pháp hợp lý để phát hiện bất thường

- Tốn ít thời gian cho giai đoạn huấn luyện và kiểm tra

Nhược điểm:

- Điểm bất lợi chính của kỹ thuật thống kê là chúng dựa vào giả định rằng dữ liệu được tạo ra từ một phân bố cụ thể Giả định này thường không đúng, đặc biệt là cho các tập dữ liệu thực tế có nhiều chiều

- Khó xác định số liệu thống kê kiểm tra chính xác để sử dụng

- Dựa trên giả định rằng dữ liệu đến từ phân phối thống kê giả định

3.2 Phân tích dữ liệu chuỗi thời gian

3.2.1 Dữ liệu chuỗi thời gian

Trang 22

Hình 2 Minh họa dữ liệu chuỗi thời gian

3.2.1.2 Chuỗi thời gian dừng

Theo [20], một dạng rất quan trọng của chuỗi thời gian là chuỗi thời gian dừng Một chuỗi thời gian được gọi là dừng chặt (strictly stationary) nếu các thuộc tính của

nó không thay đổi theo thời gian Có nghĩa là phân bố xác suất chung của quan sát yt,

yt+1, …, yt+n bằng đúng với phân bố xác suất chung của quan sát yt+k, yt+k+1, …, yt+k+n

thì chuỗi thời gian được coi là dừng chặt

Do đó các thông số như trung bình và phương sai cũng không thay đổi theo thời gian

μy = E(y) = ∫∞ yf(y)dy

−∞ (2.1)

σy2 = Var(y) = ∫ (y − μ∞ y)2f(y)dy

−∞ (2.2) 3.2.1.3 Xu hướng và mùa vụ

Thành phần xu hướng dùng để chi xu hướng tăng hay giảm của quan sát xt theo thời gian, nó ảnh hưởng đến giá trị trung bình của chuỗi thời gian Thành phần mùa

vụ mô tả hiệu ứng theo mùa trên chuỗi thời gian có thể liên quan đến chu kỳ ngày, tuần, tháng v.v

Theo [20], có thể dùng phương pháp “cổ điển” để phân rã các thành phần xu hướng mà mùa vụ theo mô hình toán học sau:

yt = f(St, Tt, εt) (2.3)

Với S t là thành phần mùa vụ, T t là thành phần xu hướng và εt là thành phần lỗi ngẫu nhiên Có 2 dạng của hàm f:

Trang 23

yt = St + Tt + εt (2.4) Dạng mô hình nhân (multiplicative model)

yt = StTtεt (2.5)

Mô hình cộng hưởng thích hợp nếu độ lớn (biên độ) theo mùa không thay đổi theo cấp độ của chuỗi, trong khi mô hình nhân là thích hợp hơn nếu biên độ của biến động theo mùa tăng hoặc giảm với mức trung bình của chuỗi thời gian

Hình 3 Phân rã dữ liệu chuỗi thời gian với hàm decompose của ngôn ngữ R

3.2.2 Các phương pháp dự báo dựa trên phân tích dữ liệu chuỗi thời gian

Dự báo chuỗi thời gian là sử dụng mô hình để tiên đoán giá trị tương lai dựa trên những dữ liệu lịch sử

3.2.2.1 ARIMA

Mô hình ARIMA đã được giới thiệu bởi Box và Jenkins [21] và là một trong những phương pháp dự báo dự báo phổ biến nhất Mô hình bao gồm ba quá trình: (1) Quá trình tự hồi qui – Auto Regressive (AR); (2) Quá trình trung bình trượt – Moving Average (MA); và cuối cùng là (3) Quá trình sai phân

Quá trình tự hồi qui – Auto Regressive (AR) Trong mô hình tự hội qui, phương pháp dự báo bằng cách sử dụng kết hợp tuyến tính các giá trị trong quá khứ, có nghĩa

là hồi qui với chính nó

Một mô hình tự hồi qui bậc p có thể được viết như sau:

yt = c + ϕ1yt−1+ ϕ2yt−2+ ⋯ + ϕpyt−p+ εt (2.6)

Trang 24

Trong đó: εt là nhiễu ngẫu nhiên thuần túy có giá trị trung bình bằng 0 và phương sai không đổi σ2 (white noise), ϕ1, … , ϕp là các tham số Khi thay đổi tham

số dẫn đến thay đổi mẫu của dữ liệu chuỗi thời gian Thay đổi εt sẽ làm thay đổi tỷ lệ của dữ liệu chuỗi thời gian Giới hạn của của mô hình tự hồi qui là áp dụng cho dữ liệu có tính dừng

Quá trình trung bình trượt - Moving Average (MA)

Ta có mô hình sau:

yt = c + εt+ θ1εt−1+ θ2εt−2+ ⋯ + θqεt−q (2.7) Với c là hằng số, εt là số hạng nhiễu ngẫu nhiên thuần túy Với biểu thức trên

ta có mô hình trung bình trượt bậc p Ở đây, y theo thời gian t bằng một hằng số cộng với trung bình trượt của sai số hiện tại và quá khứ

Quá trình tự hồi qui và trung bình trượt (ARMA)

Mô hình tự hồi qui và trung bình trượt bao gồm hai phần, phần tự hồi quy AR

và phần trung bình trượt MA Mô hình thường được coi là mô hình ARMA(p,q) khi

p là bậc của phần tự hồi qui và q là bậc của phần trung bình trượt

Mô hình được biểu diễn theo công thức sau ARMA(p,q):

yt = c + εt + ∑ θq1 iεt−i + ∑ ϕp1 iyt−i (2.8) Quá trình trung bình trượt kết hợp tự hồi qui ARIMA

Mô hình ARMA chỉ thích hợp đối với dữ liệu chuỗi thời gian có tính dừng Do

đó, trước khi thực hiện mô hình ARMA thì chúng ta phải biến đổi dữ liệu để dữ liệu

có tính dừng Quá trình này gọi là quá trình sai phân (differencing)

Khi chúng ta kết hợp sai phân với các mô hình tự hồi qui và trung bình trượt ta

có quá ARIMA, được biểu diễn như sau:

y′t = c + εt+ ∑ θq1 iεt−i + ∑ ϕp1 iy′t−i (2.9) y′t là sai phân của chuỗi thời gian (có thể thực hiện sai phân nhiều lần để chuỗi thời gian có tính dừng) Chúng ta gọi quá trình này là ARIMA(p,d,q), với:

p = là bậc tự hồi qui

d = số bước sai phân

q = bậc của trung bình trượt

3.2.2.2 Holt Winters

Làm trơn hàm mũ (Exponential Smoothing)

Phương pháp dự báo dựa trên Exponential Smoothing dựa trên giả định rằng giá trị được dự báo phụ thuộc và các giá trị của nó trong quá khứ Phương pháp giản đơn nhất giả định giá trị tương lai bằng đúng giá trị quá khứ liền kề trước nó với công thức sau:

Trang 25

Một cách tiếp cận khác là sử dụng phương pháp trung bình với tất cả các dự báo trong tương lai bằng với mức trung bình đơn giản của dữ liệu được quan sát

ŷT+h|T = αyT+ α(1 − α)yT−1+ α(1 − α)2yT−2+ (2.12) Với α có giá trị từ 0 đến 1 là tham số làm trơn (smoothing) và công thức trên

có thể được viết dưới dạng sau:

ŷt+1 = α yt + α(1 − α)yt|t−1 (2.13) Với t=1, …, T, đặt y1|0 = l0 ta có:

ŷt+1 = lt (2.14.1)

lt = α yt+ (1 − α)lt−1 (2.14.2) Với lt là giá trị cấp độ (giá trị làm trơn) của dữ liệu chuỗi tại thời điểm t

Phương pháp Holt’s

Holt (1957) đã mở rộng phương pháp làm trơn hàm mũ giản đơn để có thể dự báo được cho dữ liệu có tính chất xu hướng Phương pháp này bổ sung thêm một công thức làm mượt xu hướng, cụ thể như sau:

Phương pháp Holt-Winters additive

Trang 26

y(t + 1|t ) = l(t )+ hb(t )+ s(t+h−m(k+1) ) (2.16.1) Level 𝑙𝑡 = 𝛼(𝑦𝑡 − 𝑠𝑡−𝑚) + (1 − 𝛼)(𝑙𝑡−1+ 𝑏𝑡−1) (2.16.2) Trend 𝑏𝑡 = 𝛽∗(l𝑡− l𝑡−1) + (1 − 𝛽∗)𝑏𝑡−1 (2.16.3) Seasonality 𝑠𝑡 = γ(𝑦𝑡 − l𝑡−1− 𝑏𝑡−1) + (1 − γ)𝑠𝑡−𝑚 (2.16.4)

Phương pháp Holt-Winters multiplicative

𝑦̂𝑡+ℎ|𝑡 = (l𝑡 + ℎ𝑏𝑡)𝑠𝑡+ℎ−𝑚(𝑘+1) (2.17.1) Level l𝑡 = 𝛼 𝑦𝑡

𝑠 𝑡−𝑚+ (1 − 𝛼)(l𝑡−1+ 𝑏𝑡−1) (2.17.2) Trend 𝑏𝑡 = β (l𝑡− l𝑡−1) + (1 − β )𝑏𝑡−1 (2.17.3) Seasonality 𝑠𝑡 = 𝛾 𝑦𝑡

(l𝑡−1+𝑏 𝑡−1 )+ (1 − 𝛾)𝑠𝑡−𝑚 (2.17.4)

Cả hai biến thể đều có thành phần mùa vụ là 𝑠𝑡 và tham số 𝛾 để xác định mùa

vụ có giá trị từ 0 đến 1

3.2.2.4 Phương pháp dự báo Double Season Exponential Smoothing

Phương pháp dự báo Holt-Winters có thể dự báo tốt đối với dữ liệu chuỗi thời gian có một thành phần mùa vụ, ví dụ dữ liệu sẽ có xu hướng lắp lại theo từng ngày Taylor [6] đã điều chỉnh phương pháp Holt-Wintes để có thể dự báo đối với dữ liệu chỗi thời gian có 2 thành phần mùa vụ, cụ thể như sau:

𝑋̂(𝑘) = (𝑆𝑡 𝑡+ 𝑘𝑇𝑡)𝐷𝑡−𝑠1+𝑘𝑊𝑡−𝑠2+𝑘 (2.18.1) Level 𝑆𝑡 = α ( 𝑋𝑡

𝐷𝑡−𝑠1𝑊𝑡−𝑠2) + (1 − α)(𝑆𝑡−1+ 𝑇𝑡−1) (2.18.2) Trend 𝑇𝑡 = γ(𝑆𝑡 − 𝑆𝑡−1) + (1 − γ)𝑇𝑡−1 (2.18.3) Seasonality 1 𝐷𝑡 = δ ( 𝑋𝑡

𝑆 𝑡 𝑊 𝑡−𝑠2) + (1 − δ)𝐷𝑡−𝑠1 (2.18.4) Seasonality 2 𝑊𝑡 = ω 𝑋𝑡

(𝑆𝑡𝐷𝑡−𝑠1)+ (1 − ω)𝑊𝑡−𝑠2 (2.18.5) Với 𝛼, 𝛾, 𝛿 𝑣à 𝜔 là các tham số làm trơn Taylor đã ứng dụng phương pháp này cho dữ liệu phụ tải điện với tần suất thu thập dữ liệu là 30 phút/ lần, 𝑠1 = 48 và

𝑠2 = 336 lần lượt tương ứng với ngày và tuần [6]

3.2.2.5 Mô hình tự hồi qui mạng nơ ron

Kiến trúc mạng nơ ron nhân tạo (ANN)

Một mạng nơ ron nhân tạo có thể được xem là mạng lưới của những “nơ-ron” được tổ chức thành những lớp khác nhau Các yếu tố dự báo (đầu vào) tạo thành lớp dưới cùng và các dự báo (đầu ra) tạo thành lớp trên cùng Trong mạng lưới mạng nơ ron còn có thể xuất hiện lớp trung gian còn gọi là lớp ẩn

Trang 27

Mạng nơ ron đơn giản nhất không chứa lớp ẩn và nó tương đương với mô hình hồi qui tuyến tính Các hệ thống gắn liền với các yếu tố dự báo gọi là trọng số, dự báo thu được bằng cách kết hợp tuyến tính của các yếu tố đầu vào

Hình 4 Cấu trúc mạng nơ ron nhân tạo nguồn: https://cs231n.github.io

Tất cả các nốt mạng nơ-ron được kết hợp đôi một với nhau theo một chiều duy nhất từ đầu vào đến đầu ra được gọi là suy luận tiến (feed-forward) Mỗi nút mạng sẽ nhận đầu vào là tất cả các nút ở tầng trước đó Các mạng lưới suy luận tiến được gọi

là perceptrons đa lớp (multilayer perceptrons) Mối quan hệ giữa lớp đầu vào (𝑦𝑡−1, 𝑦𝑡−2, … , 𝑦𝑡−𝑝) và lớp đầu ra (𝑦𝑡) được thể hiện qua mô hình toán học sau [4]:

Mô hình kết hợp giữa ANN và ARIMA

Trang 28

Theo Zhang [4], mô hình ARIMA và ANN đều đạt được thành công trong các miền tuyến tính hoặc phi tuyến của riêng chúng Tuy nhiên, không mô hình nào có khả năng xử lý cho tất cả các tình huống Việc xấp xỉ các mô hình ARIMA đối với các vấn đề phi tuyến phức tạp có thể sẽ không phù hợp Mặt khác, sử dụng ANN để

mô hình hóa các vấn đề tuyến tính cũng mang lại nhiều kết quả khác nhau

Để giải quyết vấn đề nêu trên, [4] đề xuất phương pháp kết hợp bao gồm 2 bước sau:

Bước 1: Sử dụng mô hình ARIMA để giải quyết vấn đề tuyến tính

Bước 2: Một mô hình ANN được triển khai để mô hình hóa số dư từ mô hình ARIMA

Mô hình lai khai thác tính năng và sức mạnh độc đáo của mô hình ARIMA cũng như mô hình ANN trong việc xác định các mẫu khác nhau Do đó, mô hình hóa các

mô hình tuyến tính và phi tuyến một cách riêng biệt bằng cách sử dụng các mô hình khác nhau và sau đó kết hợp các dự báo để tăng hiệu suất mô hình hóa và dự báo tổng thể

3.3 Phương pháp pháp hiện bất thường

Luận văn sử dụng phương pháp được nêu ở [2] và [7] để phát hiện bất thường Chou và Telaga [2] đã sử dụng phương pháp 2-sigma để phát hiện bất thường và được

mô tả như sau:

Mô hình phát hiện bất thường có 2 giai đoạn: Giai đoạn dự báo và giai đoạn phát hiện bất thường Ở giai đoạn phát hiện bất thường, điểm dữ liệu được cho là bất thường là điểm dữ liệu nằm trên hay dưới hai lần độ lệch chuẩn (2 x standard deviation) của giá trị dự báo Định nghĩa trên được dựa trên qui tắc thực nghiệm của phân phối chuẩn, theo đó 95% điểm dữ liệu nằm trong khu vực 2σ của giá trị trung bình Do đó, 5% điểm dữ liệu nằm ngoài khu vực 2σ được xem là bất thường

Hình 5 Qui tắc 2-sigma của phân phối chuẩn Nguồn [2]

Trang 29

Theo Leys [7], việc phát hiện bất thường dựa vào 𝑘σ(𝑘 = 2, 2.5, 3) là tùy thuộc vào tình hình và dựa trên các quan điểm được bảo vệ bởi nhà nghiên cứu Theo đó, k=3 (99.7%) là có tính ràng buộc khá chặt, k=2.5 là chặt và k=2 là khá lỏng lẻo Thêm vào đó [7] nêu ra 3 vấn đề khi sử dụng phương pháp giá trị trung bình và

độ lệch chuẩn để phát hiện bất thường Thứ nhất, phương pháp giả định toàn bộ các điểm dữ liệu có phân phối bình thường (bao gồm các điểm bất thường) Thứ hai, giá trị trung bình và độ lệch chuẩn bị tác động mạnh từ các giá trị bất thường Thứ ba, phương pháp này rất khó để xác định các bất thường trong các dữ liệu có kích thước nhỏ

Từ các quan điểm nêu trên, [7] sử dụng phương pháp độ lệch tuyệt đối từ trung

vị (Absolute deviation from the median - MAD), được thể hiện qua công thức sau:

𝑀𝐴𝐷 = 𝑏𝑀𝑖(|𝑥𝑖 − 𝑀𝑗(𝑥𝑗)|) (2.22) Trong đó 𝑥𝑗 là n giá trị quan sát và 𝑀𝑖 là trung vị của chuỗi được tính toán Thông thường, b = 1.4826, một hằng số liên kết với giả định về tính bình thường của

dữ liệu, không quan tâm đến sự bất thường gây ra bởi các ngoại lệ

3.4 Đánh giá độ chính xác của mô hình dự báo

Để đánh giá sự chính xác của mô hình dự báo, luận văn sử dụng chỉ số MAPE (Mean Absolute Percentage Error) lỗi phần trăm trung bình tuyệt đối Chỉ số MAPE được tính như sau:

Định dạng
Số trang	58
Dung lượng	1,67 MB