Luận văn này nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng sử dụng điện để tìm ra phương pháp hiệu quả dùng để phát hiện bất thường trong quá trình sử dụng điện của khách hàng
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA
-
NGUYỄN MINH HUẤN
PHÁT HIỆN BẤT THƯỜNG ĐIỆN NĂNG TIÊU THỤ DỰA TRÊN PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN
Chuyên ngành: HỆ THỐNG THÔNG TIN QUẢN LÝ
Mã số: 60.34.04.05
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, tháng 12 năm 2018
Trang 2TRƯỜNG ĐẠI HỌC BÁCH KHOA –ĐHQG - HCM
Cán bộ hướng dẫn khoa học: PGS TS ĐẶNG TRẦN KHÁNH
(Ghi rõ họ, tên, học hàm, học vị và chữ ký)
Cán bộ chấm nhận xét 1 :
(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Cán bộ chấm nhận xét 2 :
(Ghi rõ họ, tên, học hàm, học vị và chữ ký) Luận văn thạc sĩ được bảo vệ tại Trường Đại học Bách Khoa, ĐHQG Tp HCM ngày tháng năm
Thành phần Hội đồng đánh giá luận văn thạc sĩ gồm: (Ghi rõ họ, tên, học hàm, học vị của Hội đồng chấm bảo vệ luận văn thạc sĩ) 1
2
3
4
5
Xác nhận của Chủ tịch Hội đồng đánh giá LV và Trưởng Khoa quản lý
chuyên ngành sau khi luận văn đã được sửa chữa (nếu có)
CHỦ TỊCH HỘI ĐỒNG TRƯỞNG KHOA KH & KT MÁY TÍNH
Trang 3TRƯỜNG ĐẠI HỌC BÁCH KHOA Độc lập - Tự do - Hạnh phúc
NHIỆM VỤ LUẬN VĂN THẠC SĨ
MSHV: 1670463 Nơi sinh: Đồng Nai
Họ tên học viên: NGUYỄN MINH HUẤN
Ngày, tháng, năm sinh: 26/08/1981
Chuyên ngành: Hệ thống thông tin quản lý Mã số : 60.34.04.05
I TÊN ĐỀ TÀI: PHÁT HIỆN BẤT THƯỜNG ĐIỆN NĂNG TIÊU THỤ DỰA TRÊN
PHÂN TÍCH DỮ LIỆU CHUỖI THỜI GIAN
II NHIỆM VỤ VÀ NỘI DUNG:
- Nhiệm vụ: Thực hiện luận văn thạc sĩ với đề tài Phát hiện bất thường điện năng tiêu thụdựa trên phân tích dữ liệu chuỗi thời gian
- Nội dung:
+ Làm rõ khái niệm bất thường cho tiêu thụ điện
+ Tìm hiểu các phương pháp xác định bất thường
+ Nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng là các doanh nghiệp
+ Thiết kế thí nghiệm để đánh giá một số phương pháp xác định bất thường trên dữ liệuđiện năng tiêu thụ thực tế của một số khách hàng là doanh nghiệp
+ Thiết kế và xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thựcdành cho các đối tượng sử dụng là những người không phải là chuyên gia về phân tích dữliệu
III NGÀY GIAO NHIỆM VỤ : 15/01/2018
IV NGÀY HOÀN THÀNH NHIỆM VỤ: 17/06/2018
V CÁN BỘ HƯỚNG DẪN: PGS TS ĐẶNG TRẦN KHÁNH
Tp HCM, ngày tháng năm 2019
CÁN BỘ HƯỚNG DẪN TRƯỞNG KHOA KH & KTMT
Trang 4LỜI CẢM ƠN
Đầu tiên, tôi xin chân thành cảm ơn Thầy, PGS TS Đặng Trần Khánh đã tận
tình hướng dẫn tôi trong quá trình thực hiện luận văn tốt nghiệp Thầy đã đưa ra nhiều
ý tưởng, gợi ý nhiều phương pháp để tôi tìm hiểu, nghiên cứu và áp dụng trong luận
văn này
Tôi xin chân thành cảm ơn các Thầy, Cô của trường Đại học Bách Khoa Thành
phố Hồ Chí Minh đã truyền đạt những kiến thức quí giá giúp tôi ngày càng trưởng
thành hơn trên con đường học vấn của mình
Tôi xin chân thành cảm ơn Ông Nguyễn Phước Đức, Phó Tổng Giám đốc Tổng
công ty Điện lực miền Nam; Ông Trần Hữu Minh, Trưởng Ban Công nghệ thông tin
và các đồng nghiệp tại Tổng công ty Điện lực miền Nam đã tạo điều kiện để tôi tham
gia khóa học và thực hiện luận văn này
Con xin cảm ơn Ba, Mẹ luôn đặt niềm tin và luôn dõi theo con trên con đường
tìm tòi học vấn và kiến thức
Cuối cùng, tôi cảm ơn vợ tôi, Nguyễn Lưu Thùy Ngân, đã luôn động viên,
khuyến khích tôi hoàn thành chương trình học Thạc sĩ Hệ thống thông tin quản lý và
hoàn thành luận văn tốt nghiệp
Thành phố Hồ Chí Minh, tháng 12 năm 2018
Trang 5TÓM TẮT
Ngày nay, với sự phổ biến của công tơ điện tử, dữ liệu điện năng tiêu thụ của khách hàng sử dụng điện được các Công ty Điện lực thu thập liên tục Luận văn này nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng sử dụng điện để tìm ra phương pháp hiệu quả dùng để phát hiện bất thường trong quá trình sử dụng điện của khách hàng
Phương pháp phát hiện bất thường bao gồm 2 giai đoạn: Giai đoạn thứ nhất, giai đoạn dự báo, nhằm dự báo giá trị điện năng tiêu thụ trong tương lai, sau đó tính toán vùng giá trị bình thường Giai đoạn thứ hai, giai đoạn xác định bất thường, là so sánh điện năng tiêu thụ thực tế với vùng giá trị bình thường để tìm ra các bất thường trong
sử dụng điện của khách hàng
Đối với dự báo điện năng tiêu thụ trong tương lai, luận văn cài đặt thử nghiệm,
so sánh hiệu quả của 04 phương pháp dự báo phổ biến hiện nay là: (1) Auto Regressive integrated Moving Average (ARIMA), (2) Holt-Winters, (3) Double Seasonal Holt-Winters và (4) phương pháp lai giữa mạng nơ ron và ARIMA Các thử nghiệm được thực hiện trên dữ liệu điện năng tiêu thụ điện thực tế của một số khách hàng sử dụng điện của Tổng công ty Điện lực miền Nam (thông tin khách hàng đã được mã hóa)
Bên cạnh đó, luận văn cũng xây dựng công cụ hỗ trợ phát hiện bất thường theo thời gian thực để minh họa cho phương pháp phát hiện bất thường mà luận văn sử dụng
Trang 6ABSTRACT
Nowadays, the use of digital electric-energy meter has become very popular Thanks to digital electric-energy meters, the electricity company can easily gather electric-energy-consumption data in real time This research compares different data analysis methods to find an effective method for detecting possible anomalies in electric-energy consumption; thus, is beneficial for both electric-energy consumers and suppliers
Our anomaly detection methods follow two broad steps: The first step is to predict the amount of electric-energy consumption at a moment in future and calculate a possible range of normal consumption The second step is to compare the actual consumption value that is collected via the digital electric-energy meter with the predicted range; Values that fall outside this range are considered anomalies For the first step, we study four different methods which have shown good results on other data sets in previous works: (1) Auto Regressive Integrated Moving Average (ARIMA), (2) Holt-Winters, (3) Double Seasonal Holt-Winters, and (4) A hybrid method between Neural Network and ARIMA (NNAR) All of the experiments are carried out on the real electric-energy consumption data of the Southern Electric Power Company – Vietnam (consumers’ information has been anonymized)
Besides, we also built a tool to assist human in detecting anomalies to illustrate the methods implemented in this research
Trang 7LỜI CAM ĐOAN CỦA TÁC GIẢ
Tôi xin cam đoan những kết quả nghiên cứu được trình bày trong luận văn này do chính bản thân tôi thực hiện Những nội dung tham khảo từ công trình khác đều được trích dẫn đầy đủ
Trang 8MỤC LỤC
CHƯƠNG 1: MỞ ĐẦU 1
1.1 Giới thiệu đề tài 1
1.2 Mục tiêu nghiên cứu 1
1.3 Đối tượng và phạm vi nghiên cứu 2
1.4 Cấu trúc của luận văn 2
1.5 Đóng góp của luận văn 3
CHƯƠNG 2: TỔNG QUAN 4
2.1 Các công trình trình nghiên cứu liên quan 4
2.2 Hướng nghiên cứu của luận văn 5
CHƯƠNG 3: CƠ SỞ LÝ THUYẾT 6
3.1 Phát hiện bất thường 6
3.1.1 Các dạng bất thường 6
3.1.2 Các phương pháp phát hiện bất thường 6
3.1.3 Các kỹ thuật dùng để phát hiện bất thường phổ biến 7
3.1.3.1 Kỹ thuật phát hiện bất thường dựa trên phân lớp 7
3.1.3.2 Kỹ thuật phát hiện bất thường dựa trên phân cụm 8
3.1.3.3 Kỹ thuật phát hiện bất thường dựa trên thống kê 9
3.2 Phân tích dữ liệu chuỗi thời gian 9
3.2.1 Dữ liệu chuỗi thời gian 9
3.2.1.1 Định nghĩa 9
3.2.1.2 Chuỗi thời gian dừng 10
3.2.1.3 Xu hướng và mùa vụ 10
3.2.2 Các phương pháp dự báo dựa trên phân tích dữ liệu chuỗi thời gian 11
3.2.2.1 ARIMA 11
3.2.2.2 Holt Winters 12
3.2.2.4 Phương pháp dự báo Double Season Exponential Smoothing 14
3.3 Phương pháp pháp hiện bất thường 16
3.4 Đánh giá độ chính xác của mô hình dự báo 17
CHƯƠNG 4: PHƯƠNG PHÁP THÍ NGHIỆM 18
4.1 Dữ liệu 18
Trang 94.2 Phương pháp thí nghiệm 23
4.2.1 Phương pháp thực hiện 23
4.2.2 Dữ liệu thực hiện các mô hình dự báo 25
4.2.3 Công cụ thực hiện thí nghiệm 25
4.3 Phương pháp đánh giá 25
CHƯƠNG 5: KẾT QUẢ THÍ NGHIỆM 26
5.1 Thí nghiệm 1 26
5.1.1 Mục tiêu 26
5.1.2 Dữ liệu 26
5.1.3 Kết quả 26
5.2 Thí nghiệm 2 28
5.2.1 Mục tiêu 28
5.2.2 Dữ liệu 28
5.2.3 Kết quả 28
5.3 Thí nghiệm 3 29
5.3.1 Mục tiêu 29
5.3.2 Dữ liệu 29
5.3.3 Kết quả 29
5.4 Thí nghiệm 4 30
5.4.1 Mục tiêu 30
5.4.2 Dữ liệu 31
5.4.3 Kết quả 31
5.5 Thí nghiệm 5 38
5.5.1 Mục tiêu 38
5.5.2 Dữ liệu 38
5.5.3 Kết quả 38
CHƯƠNG 6: CÔNG CỤ PHÁT HIỆN BẤT THƯỜNG 39
6.1 Thiết kế hệ thống 39
6.2 Lớp cơ sở dữ liệu: 40
6.3 Mô đun phân tích 41
6.4 Giao diện 41
CHƯƠNG 7: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 43
Trang 10DANH MỤC CÁC TÀI LIỆU THAM KHẢO 44
HÌNH Hình 1 Bất thường toàn cục và bất thường cụ bộ Nguồn [15] 6
Hình 2 Minh họa dữ liệu chuỗi thời gian 10
Hình 3 Phân rã dữ liệu chuỗi thời gian với hàm decompose của ngôn ngữ R 11
Hình 4 Cấu trúc mạng nơ ron nhân tạo nguồn: https://cs231n.github.io 15
Hình 5 Qui tắc 2-sigma của phân phối chuẩn Nguồn [2] 16
Hình 6 Mô hình thu thập dữ liệu công tơ điện tử từ xa 18
Hình 7 Mô hình phát tuyến của các trạm khách hàng 19
Hình 8 Biểu đồ phụ tải của 19 khách hàng kinh doanh 19
Hình 9 Tổng hợp phụ tải theo ngày của 19 khách hàng 20
Hình 10 Tổng hợp phụ tải theo tuần của 19 khách hàng 20
Hình 11 Biểu đồ phụ tải của các khách hàng có ID là 7,9,17,19 21
Hình 12 Biểu đồ tần suất giá trị phụ tải (histogram) 22
Hình 13 Biểu đồ phân bố dữ liệu, biểu đồ giá trị trung bình với độ lệch chuẩn (Sd) và biểu đồ giá trị trung vị và độ lệch từ trung vị (Mad) 23
Hình 14 Qui trình phát hiện bất thường dữ liệu 24
Hình 15 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE trung bình) trên các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trượt trong 5 tuần 26
Hình 16 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE %) trên các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trong 5 tuần 27
Hình 17 Biểu đồ so sánh các phương pháp dự báo (giá trị MAPE trung bình) trên các tập dữ liệu huấn luyện 4 tuần, 16 tuần, 32 tuần trượt trong 5 tuần 28
Hình 18 So sánh các mô hình dự báo của tổng hợp 19 khách hàng sử dụng điện 29
Hình 19 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo 30
Hình 20 Kết quả dự báo của các mô hình cho khách hàng có ID là 7 31
Hình 21 Biểu đồ phụ tải của khách hàng có ID là 7 32
Trang 11Hình 22 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của khách hàng có ID là 7 32 Hình 23 Kết quả dự báo của các mô hình cho khách hàng có ID là 9 33 Hình 24 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của khách hàng có ID là 9 33 Hình 25 Kết quả dữ báo của các mô hình cho khách hàng có ID là 17 34 Hình 26 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của khách hàng có ID là 17 35 Hình 27 Kết quả dữ báo của các mô hình cho khách hàng có ID là 19 36 Hình 28 Biểu đồ so sánh MAPE (%) giữa các mô hình dự báo của khách hàng của khách hàng có ID là 19 36 Hình 29 Biểu đồ phụ tải của khách hàng có ID là 19 37 Hình 30 So sánh phương pháp phát hiện bất thường độ lệch chuẩn và độ lệch từ trung vị 38 Hình 31 Qui trình công cụ phát hiện bất thường 39 Hình 32 Giao diện công cụ phát hiện bất thường 42
BẢNG
Bảng 1 Giá trị trung bình, độ lệch chuẩn, giá trị trung vị, độ lệch từ trung vị của các khách hàng có ID là 7,9,17,19 22 Bảng 2 Giá trị MAPE (%) trung bình của các mô hình dự báo đối với dữ liệu của 1 trạm biến áp với các khoảng thời gian huấn luyện là 4 tuần, 16 tuần và 32 tuần 27 Bảng 3 Giá trị MAPE (%) của các mô hình dự báo đối với dữ liệu của 1 trạm biến
áp với các khoảng thời gian huấn luyện là 4 tuần, 16 tuần và 32 tuần trong 5 tuần 27 Bảng 4 Giá trị MAPE trung bình của các mô hình dự báo đối với các khách hàng có
ID lần lược là 7,9,17,19 29 Bảng 5 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo cho tổng hợp 19 khách hàng 30
Trang 12Bảng 6 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng
có ID là 7 32 Bảng 7 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng
có ID là 9 34 Bảng 8 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng
có ID là 17 35 Bảng 9 So sánh độ chính xác MAPE (%) giữa các mô hình dự báo của khách hàng
có ID là 19 37 Bảng 10 Kết quả phát hiện bất thường 38 Bảng 12 Thông tin bảng TBLPREDICTION 40
Trang 13CHƯƠNG 1: MỞ ĐẦU
1.1 Giới thiệu đề tài
Phát hiện bất thường trong tiêu thụ điện là một vấn đề quan trọng đối với các khách hàng sử dụng điện và các các Công ty phân phối điện (Công ty Điện lực) Đối với khách hàng sử dụng điện, đặc biệt là đối với khách hàng sử dụng điện với mục đích sản xuất và kinh doanh (Doanh nghiệp), việc phát hiện bất thường có ý nghĩa rất quan trọng trong việc quản lý sử dụng điện, giúp tránh thất thoát điện và có kế hoạch quản lý và sử dụng điện tốt hơn nhằm tối ưu hóa chi phí sử dụng điện
Đối với các Công ty Điện lực, việc phát hiện bất thường trong quá trình sử dụng điện của khách hàng giúp việc lập kế hoạch và điều hành cung ứng điện tốt hơn, kiểm soát và điều tiết được thời điểm công suất đỉnh trong trường hợp thiếu điện Việc kiểm soát tốt năng lượng điện sử dụng là một trong những giải pháp giúp đối phó với nguy cơ thiếu điện có thể xảy ra tại Việt Nam vào năm 2020 [1] Theo Tập đoàn Điện lực Việt Nam, đến năm 2021-2023 hệ thống điện có khả năng không đáp ứng
đủ nhu cầu và nhiều khả năng xảy ra tình trạng thiếu điện tại miền Nam [1]
Một số nguyên nhân của các bất thường trong sử dụng điện có thể liệt kê như:
sử dụng nhiều đèn chiếu sáng không cần thiết; sử dụng các thiết bị, máy móc không phù hợp [2]; hay liên quan đến các lỗi do con người [3]
Phương pháp thông thường để phát hiện các bất thường trong sử dụng điện là phân tích dữ liệu được ghi nhận từ các thiết bị cảm biến như: cảm biến chuyển động, cảm biến nhiệt độ, máy ghi hình, … với chi phí lắp đặt các cảm biến và phân tích dữ liệu phát sinh cao [2] Ngày nay, với việc ứng dụng công tơ điện tử để thu thập dữ liệu điện năng tiêu thụ với tần suất cao trong ngày có thể giúp phát hiện bất thường trong sử dụng điện và giảm số lượng cảm biến nêu trên
Hiện nay mỗi ngày, Tổng công ty Điện lực miền Nam đang thu thập và quản lý hơn 2 triệu dòng dữ liệu của các khách hàng là các công ty sản xuất, thương mại từ các công tơ điện tử Việc phải rà soát, xử lý một số lượng lớn dữ liệu nêu trên gây khó khăn cho các bộ phận quản lý vận hành tại các Công ty Điện lực để phát hiện, cảnh báo cho khách hàng khi các hiện tượng bất thường xảy ra
Từ những vấn đề nêu trên, luận văn khái quát hóa bài toán cần giải quyết như sau: Từ dữ liệu điện năng tiêu thụ của khách hàng sử dụng điện, máy tính phát hiện các điểm dữ liệu bất thường và thông báo cho khách hàng sử dụng điện theo thời gian thực để có thể tiến hành rà soát, kiểm tra
1.2 Mục tiêu nghiên cứu
Từ bài toán cần giải quyết nêu trên, luận văn đề ra các mục tiêu nghiên cứu sau:
- Làm rõ khái niệm bất thường cho tiêu thụ điện
- Tìm hiểu các phương pháp xác định bất thường
Trang 14- Nghiên cứu dữ liệu điện năng tiêu thụ của các khách hàng là các doanh nghiệp
- Thiết kế thí nghiệm để đánh giá một số phương pháp xác định bất thường trên dữ liệu điện năng tiêu thụ thực tế của một số khách hàng là doanh nghiệp
- Thiết kế và xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thực dành cho các đối tượng sử dụng là những người không phải là chuyên gia về phân tích dữ liệu
1.3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của luận văn là dữ liệu điện năng tiêu thụ của một số khách hàng sử dụng điện là doanh nghiệp của Tổng công ty Điện lực miền Nam Luận văn sẽ tìm hiểu một số phương pháp phát hiện bất thường, cài đặt so sánh kết quả của các phương pháp đó Giới hạn của luận văn là sẽ thực hiện các thí nghiệm trên dữ liệu điện năng tiêu thụ là dữ liệu chuỗi thời gian một biến
Việc xác định bất thường theo thời gian thực có nghĩa là khi dữ liệu điện năng tiêu thụ được ghi vào hệ thống với tần suất 30 phút 1 lần, một phương pháp được dùng để xác định bất thường ngay lập tức sẽ đưa ra đề xuất dữ liệu điện năng tiêu thụ
là bình thường hay bất thường Bất thường trong tiêu thụ điện có nghĩa là sản lượng điện năng tiêu thụ trong một đơn vị thời gian vượt quá ngưỡng bình thường
Công cụ dùng để xác định bất thường không phải là một phần mềm hoàn chỉnh
mà chỉ mang tính chất minh họa tính khả thi của phương pháp xác định bất thường của điện năng tiêu thụ mà luận văn đề xuất Việc xây dụng phần mềm hoàn chỉnh có thể áp dụng trong thực tế đòi hỏi nhiều nguồn lực về chi phí và thời gian vượt quá giới hạn về nguồn lực của các nhân thực hiện luận văn
1.4 Cấu trúc của luận văn
Cấu trúc của luận văn được chia làm 7 chương, với các nội dung chính như sau: Chương 1: Mở đầu Trình bày lý do chọn đề tài, mục đích, đối tượng và phạm
vi nghiên cứu
Chương 2: Tổng quan Phân tích, đánh giá các công trình nghiên cứu liên quan; nêu những vấn đề còn tồn tại; chỉ ra các vấn đề cần tập trung nghiên cứu giải quyết Chương 3: Cơ sở lý thuyết Trình bày định nghĩa các loại bất thường, các phương pháp xác định bất thường Trình bày các phương pháp dự báo ngắn hạn, cách thức đánh giá hiệu quả của các phương pháp dự báo
Chương 4 Phương pháp thí nghiệm
Chương 5 Kết quả thí nghiệm
Chương 6 Công cụ xác định bất thường theo thời gian thực
Chương 7 Kết luận và hướng phát triển
Trang 151.5 Đóng góp của luận văn
- Tìm hiểu dữ liệu điện năng tiêu thụ của các khách hàng sử dụng điện với mục đích ngoài sinh hoạt
- Tìm hiểu và so sánh các mô hình dự báo ngắn hạn như: NNAR [2] [4], ARIMA và Holt-Winters [5], Double Seasonal Holt-Winters [6] trên dữ liệu điện năng tiêu thụ của một số khách hàng tại Tổng công ty Điện lực miền Nam
- So sánh kết quả 2 phương pháp xác định bất thường: Phương pháp thứ nhất dựa vào giá trị trung bình và độ lệch chuẩn [2]; Phương pháp thứ hai dựa vào giá trị trung vị và độ lệch từ trung vị [7]
- Xây dựng công cụ phát hiện bất thường điện năng tiêu thụ theo thời gian thực dựa trên giá trị được dự báo sử dụng 2 phương phát phát hiện bất thường nêu trên
Trang 16CHƯƠNG 2: TỔNG QUAN
2.1 Các công trình trình nghiên cứu liên quan
Đã có nhiều nghiên cứu phát hiện bất thường bằng các thuật toán khai phá dữ liệu [2] [8] Chou et al [2] đề xuất một phương pháp phát hiện bất thường theo thời gian thực thông qua hai giai đoạn:
- Giai đoạn đầu tiên dự báo tiêu thụ điện bằng thuật toán lai giữa mạng nơ-ron nhân tạo và ARIMA (Auto-Regressive Integrated Moving Average)
- Giai đoạn thứ phát hiện bất thường bằng cách sử dụng giá trị chênh lệch giữa
dữ liệu tiêu thụ thực tế và dự báo
Tương tự, Hill và Barbara [8] cũng đưa ra giải pháp mô hình hóa dữ liệu để phát hiện bất thường bằng cách dự báo sử dụng các mô hình naı¨ve, nearest cluster (NC), single-layer linear network (LN), và multilayer perceptron (MLP) và so sánh dữ liệu thực tế với khoảng giá trị Predict Interval (PI) được tính toán trên cơ sở giá trị dự báo
để xác định các điểm dữ liệu bất thường
Dữ liệu của [2] là dữ liệu điện năng tiêu thụ của phòng thí nghiệm Dữ liệu của [8] là dữ liệu đo tốc độ gió
Araya et al [3] việc chỉ xem xét dữ liệu lịch sử để phát hiện ra các bất thường
có thể đưa ra kết quả sai vì thiếu các thông tin liên quan đến ngữ cảnh khi xảy ra bất thường đó ví dụ như ngày làm việc, ngày nghỉ, giờ làm việc, giờ không làm việc đối với tiêu thụ điện Araya et al [3] cho rằng bất thường có thể đúng trong ngữ cảnh này nhưng trong ngữ cảnh khác thì không phải là bất thường và đề xuất giải pháp CCAD-
SW (Collective Contextual Anomaly Detection using Sliding Window) Dữ liệu là điện năng tiêu thụ của hệ thống điều hòa không khí (Heating, ventilation, and air conditioning – HVAC) trong trường học và các dữ liệu bất thường được giả lập Arjunan et al [9] cũng đề xuất kỹ thuật phát hiện bất thường và giám sát năng lượng tiêu thụ cho nhóm khách hàng dựa trên dữ liệu được phân nhóm theo ngữ cảnh
và dựa trên thông tin các khách hàng lân cận có chung hành vi Dữ liệu điện năng tiêu thụ của các tòa nhà trong trường học và điện năng tiêu thụ của các căn hộ trong một tòa nhà
Arjunan et al [9] đề xuất kỹ thuật phát hiện bất thường gồm 2 bước:
- Bước 1: Tính điểm bất thường cho từng khách hàng
- Bước 2: Điều chỉnh điểm bất thường dựa vào thông tin điện năng tiêu thụ của các khàng lân cận
Kumar et al [10] sử dụng phân cụm (Clustering) để phát hiện bất thường đối với dữ liệu quĩ đạo đường đi Thuật toán clusiVAT của Kumar et al [10] được phát triển và cải tiến từ các thuật toán VAT, iVAT, sVAT được đề suất bởi các nghiên cứu [11] [12] [13] để phân cụm cho dữ liệu lớn Tuy nhiên, phương pháp xác định bất thường do Kumar et al [10] đề xuất không phù hợp khi áp dụng cho dữ liệu điện năng
Trang 17tiêu thụ của các khách hàng sử dụng điện vì dữ liệu có tính biến đổi lớn phụ thuộc vào các hành vi sử dụng điện của khách hàng
2.2 Hướng nghiên cứu của luận văn
Luận văn áp dụng phương pháp phát hiện bất thường theo thời gian thực được
đề xuất bởi Chou et al [2] và Hill và Barbara [8] là quá trình phát hiện bất thường bao gồm 2 giai đoạn:
- Giai đoạn dự báo:
+ Giúp Công ty Điện lực dự báo đỉnh phụ tải tương lai để chủ động hơn trong điều hành cung ứng điện
+ Giúp KH: Chủ động hơn trong việc xây dựng kế hoạch sử dụng điện
- Giai đoạn phát hiện bất thường: Giúp khách hàng xác định được những bất thường trong tiêu thụ điện
Đối với giai đoạn dự báo, luận văn so sánh các phương pháp dự báo được sử dụng bởi Chou [2] và Zhang [4] là NNAR, phương pháp ARIMA và Holt-Winters được sử dụng bởi các tác giả Laurinec [5] và phương pháp Double Seasonal Holt-Winters (DSHW) được đề xuất bởi Taylor [6] Các phương pháp dự báo được lựa chọn vì đây là các phương pháp dự báo phổ biến được áp dụng cho dữ liệu điện năng tiêu thụ và có kết quả tốt trong các nghiên cứu trên
Đối với giai đoạn xác định bất thường, luận văn sẽ so sánh hai phương pháp: Phương pháp thứ nhất dựa vào giá trị trung bình và độ lệch chuẩn [2]; Phương pháp thứ hai dựa vào giá trị trung vị và độ lệch từ trung vị [7]
Từ phương pháp xác định bất thường nêu trên, luận văn sẽ phát triển công cụ phát hiện bất thường theo thời gian thực có thể áp dụng thực tế cho dữ liệu của các khách hàng sử dụng điện tại Tổng công ty Điện lực miền Nam
Trang 18CHƯƠNG 3: CƠ SỞ LÝ THUYẾT
3.1 Phát hiện bất thường
3.1.1 Các dạng bất thường
Chandola et al [14] chia bất thường làm 3 loại chính sau:
- Điểm bất thường: Nếu một điểm dữ liệu được coi là không bình thường đối với phần còn lại của dữ liệu thì điểm dữ liệu đó được xem như điểm bất thường Đây
là dạng bất thường cơ bản nhất và được sử dụng trong hầu hết các nguyên cứu liên quan đến phát hiện bất thường
- Chuỗi bất thường: Nếu một tập các điểm dữ liệu có liên quan với nhau dị thường đối với phần còn lại của tập dữ liệu thì được xem là chuỗi bất thường Các điểm dữ liệu riêng biệt trong một chuỗi bất thường có thể không phải là bất thường, nhưng cùng xuất hiện trong một chuỗi dữ liệu thì được xem là bất thường
- Bất thường theo ngữ cảnh: Nếu một điểm hay một chuỗi dữ liệu được xem là bất thường đối với đối với một ngữ cảnh cụ thể thì được gọi là bất thường theo ngữ cảnh
Hochenbaum, Jordan et al [15] đề xuất 2 dạng bất thường sau: Bất thường toàn cục và Bất thường cục bộ
- Bất thường toàn cục: Là bất thường xảy ra tại một thời điểm và khác biệt so với phần còn lại của chuỗi thời gian
- Bất thường cục bộ: Là bất thường xảy rả tại một thời điểm và khác biệt so với cùng ngữ cảnh hay mùa vụ, được so sánh giữa mức tối đa và mức tối thiểu theo cùng ngữ cảnh hay mùa vụ
Hình 1 Bất thường toàn cục và bất thường cụ bộ Nguồn [15]
Luận văn đề xuất sử dụng định nghĩa bất thường theo [15] cho bất thường trong tiêu thụ điện năng vì dữ liệu điện năng tiêu thụ là loại dữ liệu có tính ngữ cảnh và mùa vụ cao
3.1.2 Các phương pháp phát hiện bất thường
Có nhiều phương pháp được đề xuất để phát hiện bất thường Các phương pháp tiên tiến nhất hiện nay dựa trên các mô hình máy học thống kê dựa trên tập dữ liệu
đủ lớn Dữ liệu huấn luyện mô hình phát hiện bất thường có thể có nhãn hoặc không
Trang 19có nhãn Nhãn của một dữ liệu thể hiện điểm dữ liệu là bình thường hay là bất thường
Có thể chia các phương pháp này thành 3 dạng sau đây [14]:
- Dạng 1: Các phương pháp phát hiện bất thường có giám sát: Là các phương pháp sử dụng các nhãn dữ liệu bình thường và bất thường để xây dựng mô hình phân loại hay dự báo một điểm dữ liệu mới chưa được gán nhãn là bình thường hay là bất thường Để sử dụng phương pháp phát hiện bất thường có giám sát đòi hỏi phải tiêu tốn chi phí cho việc gán nhãn dữ liệu Chandola et al [14] cho rằng có 2 thách thức làm ảnh hưởng đến kết quả phát hiện bất thường có giám sát Một là các điểm dữ liệu
có nhãn là bất thường quá ít so với dữ liệu được gán nhãn bình thường trong tập dữ liệu huấn luyện Hai là vấn đề khó khăn cho việc gán nhãn chính xác cho các dữ liệu bất thường
- Dạng 2: Các phương pháp phát hiện bất thường bán giám sát: Phương pháp này dựa trên việc tập dữ liệu huấn luyện được gán nhãn cho các điểm dữ liệu bình thường Do phương pháp này không yêu cầu gán nhãn cho các điểm dữ liệu bất thường nên được dùng phổ biến hơn các phương pháp phát hiện bất thường có giám sát Nội dung của phương pháp này là dùng tập dữ liệu huấn luyện để xây dựng mô hình cho các hành vi bình thường, sau đó dùng mô hình này để phát hiện bất thường cho tập dữ liệu kiểm tra Thách thức của phương pháp này là tìm ra tất cả các dữ liệu được cho là bình thường của tập dữ liệu huấn luyện
- Dạng 3: Các phương pháp phát hiện bất thường không giám sát: Phương pháp này không sử dụng dữ liệu có nhãn Thay vào đó, phương pháp này giả định rằng hành vi bình thường là thường xảy ra nhất Các điểm dữ liệu bình thường được xem
là các mẫu thường xảy ra nhất, và các điểm hoặc chuỗi bị lệch khỏi các mẫu này được xem là bất thường
3.1.3 Các kỹ thuật dùng để phát hiện bất thường phổ biến
3.1.3.1 Kỹ thuật phát hiện bất thường dựa trên phân lớp
Phát hiện bất thường dựa trên kỹ thuật phân lớp thuộc phương pháp phát hiện bất thường có giám sát hay bán giám sát Kỹ thuật này được thực hiện thông qua 2 giai đoạn: Giai đoạn huấn luyện dùng để học mô hình phân lớp dựa trên dữ liệu huấn luyện có gán nhãn có sẵn; Giai đoạn thử nghiệm phân loại dữ liệu thử nghiệm là bình thường hay bất thường Theo Chandola et al [14] kỹ thuật phát hiện bất thường bằng phân lớp dựa trên giả định có thể phân biệt điểm dữ liệu bình thường và bất thường thông qua các đặc trưng của dữ liệu Một số đại diện của kỹ thuật phát hiện bất thường dựa trên phân lớp là: Neural Network [16], Bayesian Networks [17], Support Vector Machines [18] và Rule-based [19]
Trang 20Nhược điểm:
- Để phân loại nhiều lớp cần thiết phải gán nhãn chính xác cho các lớp bình thường khác nhau, việc này thường rất khó khăn
- Tốn nhiều thời gian cho giai đoạn huấn luyện dữ liệu
3.1.3.2 Kỹ thuật phát hiện bất thường dựa trên phân cụm
Kỹ thuật gom cụm dùng để nhóm các điểm dữ liệu tương đồng vào cùng một nhóm Kỹ thuật gom cụm thuộc phương pháp phát hiện bất thường không giám sát Dựa trên 3 giả thuyết khác nhau mà kỹ thuật gom cụm được [14] đề xuất chia làm 3 nhóm:
- Nhóm thứ nhất dựa trên giả thuyết điểm dữ liệu bình thường thì thuộc về cùng một cụm trong khi đó điểm dữ liệu bất thường không thuộc về một cụm nào Nhược điểm của kỹ thuật này là nó không được tối ưu để phát hiện bất thường do mục đích chính của nó là phân cụm
- Nhóm thứ hai dựa trên giả thuyết các điểm dữ liệu bình thường nằm gần trung tâm cụm, trong khi đó các điểm bất thường nằm xa trung tâm cụm hơn Khoảng cánh đến điểm trung tâm cụm được dùng để đo độ bất thường cho từng điểm dữ liệu
- Nhóm thứ ba dựa trên giả thuyết các điểm dữ liệu bình thường thuộc về các cụm lớn và dày đặc, trong khi các điểm dữ liệu bất thường thuộc về các cụm nhỏ hoặc cụm thưa thớt Kỹ thuật này yêu cầu tính toán mật độ và kích thước của các cụm Một điểm dữ liệu bất thường nếu mật độ và hoặc kích thước của cụm nó thuộc về dưới một ngưỡng nào đó
Ưu điểm:
- Do kỹ thuật này thuộc về phương pháp phát hiện bất thường không giám sát
do đó không cần gán nhãn dữ liệu
- Giai đoạn phát hiện bất thường tốn ít thời gian hơn
- Có thể áp dụng cho các kiểu dữ liệu phức tạp
Nhược điểm:
- Hiệu năng phục thuộc nhiều vào hiệu quả của thuật toán gom cụm
- Mục tiêu chính là gom cụm dữ liệu, do đó không tối ưu cho việc phát hiện bất thường
- Tiêu tốn nhiều chi phí tính toán cho giai đoạn huấn luyện dữ liệu
- Một số thuật toán gom cụm buộc mỗi điểm dữ liệu được gán cho một số cụm Điều này có thể dẫn đến điểm bất thường được gán cho một cụm lớn, do đó được coi
là trường hợp bình thường bởi các kỹ thuật hoạt động theo giả thuyết rằng bất thường không thuộc về bất kỳ cụm nào
Trang 213.1.3.3 Kỹ thuật phát hiện bất thường dựa trên thống kê
Kỹ thuật này dựa trên giả thuyết các điểm dữ liệu bình thường thuộc vùng có xác suất cao của một mô hình ngẫu nhiên, trong khi đó các điểm dữ liệu bất thường thuộc các vùng xác suất thấp của một mô hình ngẫu nhiên [14]
Kỹ thuật dựa trên thống kê có thể được chia thành hai loại: tham số và phi tham
số Các kỹ thuật tham số giả định rằng các điểm dữ liệu bình thường được sinh ra từ một phân phối với các tham số Θ và hàm mật độ xác suất f (x, Θ), trong đó x là một quan sát Nếu các tham số không được xác định, chúng được ước tính từ tập huấn luyện Điểm đo bất thường của một điểm dữ liệu x được cho bởi nghịch đảo của hàm mật độ xác suất tại f(x, Θ) Kiểm tra giả thuyết thống kê cũng có thể được sử dụng để phân loại các điểm dữ liệu
Ưu điểm:
- Thuộc nhóm phương pháp phát hiện bất thường không giám sát, do đó không cần gán nhãn dữ liệu
- Nếu các giả thuyết liên quan đến việc phân phối dữ liệu cơ bản là đúng, các
kỹ thuật thống kê là một giải pháp hợp lý để phát hiện bất thường
- Tốn ít thời gian cho giai đoạn huấn luyện và kiểm tra
Nhược điểm:
- Điểm bất lợi chính của kỹ thuật thống kê là chúng dựa vào giả định rằng dữ liệu được tạo ra từ một phân bố cụ thể Giả định này thường không đúng, đặc biệt là cho các tập dữ liệu thực tế có nhiều chiều
- Khó xác định số liệu thống kê kiểm tra chính xác để sử dụng
- Dựa trên giả định rằng dữ liệu đến từ phân phối thống kê giả định
3.2 Phân tích dữ liệu chuỗi thời gian
3.2.1 Dữ liệu chuỗi thời gian
Trang 22Hình 2 Minh họa dữ liệu chuỗi thời gian
3.2.1.2 Chuỗi thời gian dừng
Theo [20], một dạng rất quan trọng của chuỗi thời gian là chuỗi thời gian dừng Một chuỗi thời gian được gọi là dừng chặt (strictly stationary) nếu các thuộc tính của
nó không thay đổi theo thời gian Có nghĩa là phân bố xác suất chung của quan sát yt,
yt+1, …, yt+n bằng đúng với phân bố xác suất chung của quan sát yt+k, yt+k+1, …, yt+k+n
thì chuỗi thời gian được coi là dừng chặt
Do đó các thông số như trung bình và phương sai cũng không thay đổi theo thời gian
μy = E(y) = ∫∞ yf(y)dy
−∞ (2.1)
σy2 = Var(y) = ∫ (y − μ∞ y)2f(y)dy
−∞ (2.2) 3.2.1.3 Xu hướng và mùa vụ
Thành phần xu hướng dùng để chi xu hướng tăng hay giảm của quan sát xt theo thời gian, nó ảnh hưởng đến giá trị trung bình của chuỗi thời gian Thành phần mùa
vụ mô tả hiệu ứng theo mùa trên chuỗi thời gian có thể liên quan đến chu kỳ ngày, tuần, tháng v.v
Theo [20], có thể dùng phương pháp “cổ điển” để phân rã các thành phần xu hướng mà mùa vụ theo mô hình toán học sau:
yt = f(St, Tt, εt) (2.3)
Với S t là thành phần mùa vụ, T t là thành phần xu hướng và εt là thành phần lỗi ngẫu nhiên Có 2 dạng của hàm f:
Trang 23yt = St + Tt + εt (2.4) Dạng mô hình nhân (multiplicative model)
yt = StTtεt (2.5)
Mô hình cộng hưởng thích hợp nếu độ lớn (biên độ) theo mùa không thay đổi theo cấp độ của chuỗi, trong khi mô hình nhân là thích hợp hơn nếu biên độ của biến động theo mùa tăng hoặc giảm với mức trung bình của chuỗi thời gian
Hình 3 Phân rã dữ liệu chuỗi thời gian với hàm decompose của ngôn ngữ R
3.2.2 Các phương pháp dự báo dựa trên phân tích dữ liệu chuỗi thời gian
Dự báo chuỗi thời gian là sử dụng mô hình để tiên đoán giá trị tương lai dựa trên những dữ liệu lịch sử
3.2.2.1 ARIMA
Mô hình ARIMA đã được giới thiệu bởi Box và Jenkins [21] và là một trong những phương pháp dự báo dự báo phổ biến nhất Mô hình bao gồm ba quá trình: (1) Quá trình tự hồi qui – Auto Regressive (AR); (2) Quá trình trung bình trượt – Moving Average (MA); và cuối cùng là (3) Quá trình sai phân
Quá trình tự hồi qui – Auto Regressive (AR) Trong mô hình tự hội qui, phương pháp dự báo bằng cách sử dụng kết hợp tuyến tính các giá trị trong quá khứ, có nghĩa
là hồi qui với chính nó
Một mô hình tự hồi qui bậc p có thể được viết như sau:
yt = c + ϕ1yt−1+ ϕ2yt−2+ ⋯ + ϕpyt−p+ εt (2.6)
Trang 24Trong đó: εt là nhiễu ngẫu nhiên thuần túy có giá trị trung bình bằng 0 và phương sai không đổi σ2 (white noise), ϕ1, … , ϕp là các tham số Khi thay đổi tham
số dẫn đến thay đổi mẫu của dữ liệu chuỗi thời gian Thay đổi εt sẽ làm thay đổi tỷ lệ của dữ liệu chuỗi thời gian Giới hạn của của mô hình tự hồi qui là áp dụng cho dữ liệu có tính dừng
Quá trình trung bình trượt - Moving Average (MA)
Ta có mô hình sau:
yt = c + εt+ θ1εt−1+ θ2εt−2+ ⋯ + θqεt−q (2.7) Với c là hằng số, εt là số hạng nhiễu ngẫu nhiên thuần túy Với biểu thức trên
ta có mô hình trung bình trượt bậc p Ở đây, y theo thời gian t bằng một hằng số cộng với trung bình trượt của sai số hiện tại và quá khứ
Quá trình tự hồi qui và trung bình trượt (ARMA)
Mô hình tự hồi qui và trung bình trượt bao gồm hai phần, phần tự hồi quy AR
và phần trung bình trượt MA Mô hình thường được coi là mô hình ARMA(p,q) khi
p là bậc của phần tự hồi qui và q là bậc của phần trung bình trượt
Mô hình được biểu diễn theo công thức sau ARMA(p,q):
yt = c + εt + ∑ θq1 iεt−i + ∑ ϕp1 iyt−i (2.8) Quá trình trung bình trượt kết hợp tự hồi qui ARIMA
Mô hình ARMA chỉ thích hợp đối với dữ liệu chuỗi thời gian có tính dừng Do
đó, trước khi thực hiện mô hình ARMA thì chúng ta phải biến đổi dữ liệu để dữ liệu
có tính dừng Quá trình này gọi là quá trình sai phân (differencing)
Khi chúng ta kết hợp sai phân với các mô hình tự hồi qui và trung bình trượt ta
có quá ARIMA, được biểu diễn như sau:
y′t = c + εt+ ∑ θq1 iεt−i + ∑ ϕp1 iy′t−i (2.9) y′t là sai phân của chuỗi thời gian (có thể thực hiện sai phân nhiều lần để chuỗi thời gian có tính dừng) Chúng ta gọi quá trình này là ARIMA(p,d,q), với:
p = là bậc tự hồi qui
d = số bước sai phân
q = bậc của trung bình trượt
3.2.2.2 Holt Winters
Làm trơn hàm mũ (Exponential Smoothing)
Phương pháp dự báo dựa trên Exponential Smoothing dựa trên giả định rằng giá trị được dự báo phụ thuộc và các giá trị của nó trong quá khứ Phương pháp giản đơn nhất giả định giá trị tương lai bằng đúng giá trị quá khứ liền kề trước nó với công thức sau:
Trang 25Một cách tiếp cận khác là sử dụng phương pháp trung bình với tất cả các dự báo trong tương lai bằng với mức trung bình đơn giản của dữ liệu được quan sát
ŷT+h|T = αyT+ α(1 − α)yT−1+ α(1 − α)2yT−2+ (2.12) Với α có giá trị từ 0 đến 1 là tham số làm trơn (smoothing) và công thức trên
có thể được viết dưới dạng sau:
ŷt+1 = α yt + α(1 − α)yt|t−1 (2.13) Với t=1, …, T, đặt y1|0 = l0 ta có:
ŷt+1 = lt (2.14.1)
lt = α yt+ (1 − α)lt−1 (2.14.2) Với lt là giá trị cấp độ (giá trị làm trơn) của dữ liệu chuỗi tại thời điểm t
Phương pháp Holt’s
Holt (1957) đã mở rộng phương pháp làm trơn hàm mũ giản đơn để có thể dự báo được cho dữ liệu có tính chất xu hướng Phương pháp này bổ sung thêm một công thức làm mượt xu hướng, cụ thể như sau:
Phương pháp Holt-Winters additive
Trang 26y(t + 1|t ) = l(t )+ hb(t )+ s(t+h−m(k+1) ) (2.16.1) Level 𝑙𝑡 = 𝛼(𝑦𝑡 − 𝑠𝑡−𝑚) + (1 − 𝛼)(𝑙𝑡−1+ 𝑏𝑡−1) (2.16.2) Trend 𝑏𝑡 = 𝛽∗(l𝑡− l𝑡−1) + (1 − 𝛽∗)𝑏𝑡−1 (2.16.3) Seasonality 𝑠𝑡 = γ(𝑦𝑡 − l𝑡−1− 𝑏𝑡−1) + (1 − γ)𝑠𝑡−𝑚 (2.16.4)
Phương pháp Holt-Winters multiplicative
𝑦̂𝑡+ℎ|𝑡 = (l𝑡 + ℎ𝑏𝑡)𝑠𝑡+ℎ−𝑚(𝑘+1) (2.17.1) Level l𝑡 = 𝛼 𝑦𝑡
𝑠 𝑡−𝑚+ (1 − 𝛼)(l𝑡−1+ 𝑏𝑡−1) (2.17.2) Trend 𝑏𝑡 = β (l𝑡− l𝑡−1) + (1 − β )𝑏𝑡−1 (2.17.3) Seasonality 𝑠𝑡 = 𝛾 𝑦𝑡
(l𝑡−1+𝑏 𝑡−1 )+ (1 − 𝛾)𝑠𝑡−𝑚 (2.17.4)
Cả hai biến thể đều có thành phần mùa vụ là 𝑠𝑡 và tham số 𝛾 để xác định mùa
vụ có giá trị từ 0 đến 1
3.2.2.4 Phương pháp dự báo Double Season Exponential Smoothing
Phương pháp dự báo Holt-Winters có thể dự báo tốt đối với dữ liệu chuỗi thời gian có một thành phần mùa vụ, ví dụ dữ liệu sẽ có xu hướng lắp lại theo từng ngày Taylor [6] đã điều chỉnh phương pháp Holt-Wintes để có thể dự báo đối với dữ liệu chỗi thời gian có 2 thành phần mùa vụ, cụ thể như sau:
𝑋̂(𝑘) = (𝑆𝑡 𝑡+ 𝑘𝑇𝑡)𝐷𝑡−𝑠1+𝑘𝑊𝑡−𝑠2+𝑘 (2.18.1) Level 𝑆𝑡 = α ( 𝑋𝑡
𝐷𝑡−𝑠1𝑊𝑡−𝑠2) + (1 − α)(𝑆𝑡−1+ 𝑇𝑡−1) (2.18.2) Trend 𝑇𝑡 = γ(𝑆𝑡 − 𝑆𝑡−1) + (1 − γ)𝑇𝑡−1 (2.18.3) Seasonality 1 𝐷𝑡 = δ ( 𝑋𝑡
𝑆 𝑡 𝑊 𝑡−𝑠2) + (1 − δ)𝐷𝑡−𝑠1 (2.18.4) Seasonality 2 𝑊𝑡 = ω 𝑋𝑡
(𝑆𝑡𝐷𝑡−𝑠1)+ (1 − ω)𝑊𝑡−𝑠2 (2.18.5) Với 𝛼, 𝛾, 𝛿 𝑣à 𝜔 là các tham số làm trơn Taylor đã ứng dụng phương pháp này cho dữ liệu phụ tải điện với tần suất thu thập dữ liệu là 30 phút/ lần, 𝑠1 = 48 và
𝑠2 = 336 lần lượt tương ứng với ngày và tuần [6]
3.2.2.5 Mô hình tự hồi qui mạng nơ ron
Kiến trúc mạng nơ ron nhân tạo (ANN)
Một mạng nơ ron nhân tạo có thể được xem là mạng lưới của những “nơ-ron” được tổ chức thành những lớp khác nhau Các yếu tố dự báo (đầu vào) tạo thành lớp dưới cùng và các dự báo (đầu ra) tạo thành lớp trên cùng Trong mạng lưới mạng nơ ron còn có thể xuất hiện lớp trung gian còn gọi là lớp ẩn
Trang 27Mạng nơ ron đơn giản nhất không chứa lớp ẩn và nó tương đương với mô hình hồi qui tuyến tính Các hệ thống gắn liền với các yếu tố dự báo gọi là trọng số, dự báo thu được bằng cách kết hợp tuyến tính của các yếu tố đầu vào
Hình 4 Cấu trúc mạng nơ ron nhân tạo nguồn: https://cs231n.github.io
Tất cả các nốt mạng nơ-ron được kết hợp đôi một với nhau theo một chiều duy nhất từ đầu vào đến đầu ra được gọi là suy luận tiến (feed-forward) Mỗi nút mạng sẽ nhận đầu vào là tất cả các nút ở tầng trước đó Các mạng lưới suy luận tiến được gọi
là perceptrons đa lớp (multilayer perceptrons) Mối quan hệ giữa lớp đầu vào (𝑦𝑡−1, 𝑦𝑡−2, … , 𝑦𝑡−𝑝) và lớp đầu ra (𝑦𝑡) được thể hiện qua mô hình toán học sau [4]:
Mô hình kết hợp giữa ANN và ARIMA
Trang 28Theo Zhang [4], mô hình ARIMA và ANN đều đạt được thành công trong các miền tuyến tính hoặc phi tuyến của riêng chúng Tuy nhiên, không mô hình nào có khả năng xử lý cho tất cả các tình huống Việc xấp xỉ các mô hình ARIMA đối với các vấn đề phi tuyến phức tạp có thể sẽ không phù hợp Mặt khác, sử dụng ANN để
mô hình hóa các vấn đề tuyến tính cũng mang lại nhiều kết quả khác nhau
Để giải quyết vấn đề nêu trên, [4] đề xuất phương pháp kết hợp bao gồm 2 bước sau:
Bước 1: Sử dụng mô hình ARIMA để giải quyết vấn đề tuyến tính
Bước 2: Một mô hình ANN được triển khai để mô hình hóa số dư từ mô hình ARIMA
Mô hình lai khai thác tính năng và sức mạnh độc đáo của mô hình ARIMA cũng như mô hình ANN trong việc xác định các mẫu khác nhau Do đó, mô hình hóa các
mô hình tuyến tính và phi tuyến một cách riêng biệt bằng cách sử dụng các mô hình khác nhau và sau đó kết hợp các dự báo để tăng hiệu suất mô hình hóa và dự báo tổng thể
3.3 Phương pháp pháp hiện bất thường
Luận văn sử dụng phương pháp được nêu ở [2] và [7] để phát hiện bất thường Chou và Telaga [2] đã sử dụng phương pháp 2-sigma để phát hiện bất thường và được
mô tả như sau:
Mô hình phát hiện bất thường có 2 giai đoạn: Giai đoạn dự báo và giai đoạn phát hiện bất thường Ở giai đoạn phát hiện bất thường, điểm dữ liệu được cho là bất thường là điểm dữ liệu nằm trên hay dưới hai lần độ lệch chuẩn (2 x standard deviation) của giá trị dự báo Định nghĩa trên được dựa trên qui tắc thực nghiệm của phân phối chuẩn, theo đó 95% điểm dữ liệu nằm trong khu vực 2σ của giá trị trung bình Do đó, 5% điểm dữ liệu nằm ngoài khu vực 2σ được xem là bất thường
Hình 5 Qui tắc 2-sigma của phân phối chuẩn Nguồn [2]
Trang 29Theo Leys [7], việc phát hiện bất thường dựa vào 𝑘σ(𝑘 = 2, 2.5, 3) là tùy thuộc vào tình hình và dựa trên các quan điểm được bảo vệ bởi nhà nghiên cứu Theo đó, k=3 (99.7%) là có tính ràng buộc khá chặt, k=2.5 là chặt và k=2 là khá lỏng lẻo Thêm vào đó [7] nêu ra 3 vấn đề khi sử dụng phương pháp giá trị trung bình và
độ lệch chuẩn để phát hiện bất thường Thứ nhất, phương pháp giả định toàn bộ các điểm dữ liệu có phân phối bình thường (bao gồm các điểm bất thường) Thứ hai, giá trị trung bình và độ lệch chuẩn bị tác động mạnh từ các giá trị bất thường Thứ ba, phương pháp này rất khó để xác định các bất thường trong các dữ liệu có kích thước nhỏ
Từ các quan điểm nêu trên, [7] sử dụng phương pháp độ lệch tuyệt đối từ trung
vị (Absolute deviation from the median - MAD), được thể hiện qua công thức sau:
𝑀𝐴𝐷 = 𝑏𝑀𝑖(|𝑥𝑖 − 𝑀𝑗(𝑥𝑗)|) (2.22) Trong đó 𝑥𝑗 là n giá trị quan sát và 𝑀𝑖 là trung vị của chuỗi được tính toán Thông thường, b = 1.4826, một hằng số liên kết với giả định về tính bình thường của
dữ liệu, không quan tâm đến sự bất thường gây ra bởi các ngoại lệ
3.4 Đánh giá độ chính xác của mô hình dự báo
Để đánh giá sự chính xác của mô hình dự báo, luận văn sử dụng chỉ số MAPE (Mean Absolute Percentage Error) lỗi phần trăm trung bình tuyệt đối Chỉ số MAPE được tính như sau: