Nghiên cứu ảnh hưởng, phương pháp chuẩn hóa dữ liệu, giải thuật tìm kiếm ,lưới siêu tham số, tối ưu cho mô hình SVR, dự báo phụ tải điện
Trang 1BỘ CÔNG THƯƠNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH
BÁO CÁO TỔNG KẾT ĐỀ TÀI KHOA HỌC
KẾT QUẢ THỰC HIỆN ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG
Tên đề tài: Nghiên cứu ảnh hưởng của các phương pháp chuẩn hóa dữ liệu đối
với giải thuật tìm kiếm lưới siêu tham số tối ưu cho mô hình SVR đối với bài toán dự báo phụ tải điện.
Mã số đề tài: 21/1D03
Chủ nhiệm đề tài: TS Trần Thanh Ngọc
Đơn vị thực hiện: Khoa Công Nghệ Điện
Trang 2
LỜI CÁM ƠN
Tôi xin gửi lời cảm ơn chân thành đến Lãnh đạo Nhà trường, phòng Quản lý Khoa Học và Hợp tác Quốc tế, phòng Tài chánh Kế toán, Ban chủ nhiệm khoa Công Nghệ Điện của Trường Đại Học Công Nghiệp thành phố Hồ Chí Minh đã tạo điều kiện tốt nhất cho tôi để hoàn thành đề tài này Tôi cũng xin cảm ơn đến các thành viên tham gia thực hiện đề tài và thành viên trong Hội đồng Nghiệm thu đề tài đã có những ý kiến đóng góp quý báu cho đề tài này
Trang 3PHẦN I THÔNG TIN CHUNG
I Thông tin tổng quát
1.1 Tên đề tài: Nghiên cứu ảnh hưởng của các phương pháp chuẩn hóa dữ liệu đối với giải
thuật tìm kiếm lưới siêu tham số tối ưu cho mô hình SVR đối với bài toán dự báo phụ tải điện
Đơn vị công tác Vai trò thực hiện đề tài
1 TS Trần Thanh Ngọc Khoa Công Nghệ Điện Chủ nhiệm đề tài
2 ThS Lê Quang Bình Tổng Công ty Điện lực
TP Hồ Chí Minh
Thành viên tham gia
3 NCS Lâm Bình Minh Khoa Công Nghệ Điện Thành viên tham gia
4 ThS Nguyễn Anh Tuấn Khoa Công Nghệ Điện Thành viên tham gia
1.4 Đơn vị chủ trì: Khoa Công Nghệ Điện
1.5 Thời gian thực hiện:
1.5.1 Theo hợp đồng: 12 tháng, từ tháng 03 năm 2021 đến tháng 03 năm 2022
1.5.2 Gia hạn (nếu có): Không
1.5.3 Thực hiện thực tế: 12 tháng, từ tháng 03 năm 2021 đến tháng 03 năm 2022
1.6 Những thay đổi so với thuyết minh ban đầu (nếu có):
(Về mục tiêu, nội dung, phương pháp, kết quả nghiên cứu và tổ chức thực hiện; Nguyên nhân;
Ý kiến của Cơ quan quản lý)
1.7 Tổng kinh phí được phê duyệt của đề tài: bốn mươi triệu đồng (40,000,000 đồng)
Trang 4II Kết quả nghiên cứu
1 Đặt vấn đề
a) Tình hình nghiên cứu quốc tế
Dự báo phụ tải điện đóng vai trò quan trọng trong hệ thống điện, bao gồm kế hoạch sản xuất, vận hành cũng như quy hoạch phát triển trong tương lai [1-5] Có nhiều phương pháp dự báo phụ tải điện như: Phương pháp hồi quy, phương pháp san bằng hàm mũ, phương pháp ARIMA, phương pháp mạng nơ ron nhân tạo, …[6-12] Trong những năm gần đây, mô hình SVR (Support Vector Regression) đã được áp dụng nhiều cho bài toán dự báo dự báo phụ tải và đã thu được những kết quả tích cực [13-20] Đặc trưng của mô hình SVR là độ chính xác của kết quả dự báo phụ thuộc vào các siêu tham số của nó (Hyperparameters) như
ε (error tolerance), C (penalty parameter), hàm Kernel (Kernel function) và tham số của hàm Kernel (Kernel parameter), vì vậy việc tìm ra siêu tham số tối ưu cho mô hình SVR mang ý nghĩa quan trọng Các giải thuật như tìm kiếm lưới (Grid Search), tìm kiếm ngẫu nhiên (Random Search), di truyền (Genetic Algorithm), … đã được sử dụng để xác định các siêu tham số tối ưu của mô hình SVR, trong đó giải thuật tìm kiếm lưới được áp dụng tương đối phổ biến [21-35] Ngoài ra, một trong những nhân tố ảnh hưởng đến độ chính xác, cũng như thời gian chạy chương trình là đặc tính của dữ liệu đầu vào Vì vậy, nhiều tác giả đã thực hiện nhiều nghiên cứu trong đó áp dụng các phương pháp chuẩn hóa dữ liệu cho các mô hình SVR [13, 16, 18, 36-37]
b) Tình hình nghiên cứu trong nước
Trong những năm gần đây, nhiều tác giả đã áp dụng các giải thuật khác nhau để giải quyết bài toán STLF của Việt Nam Trong [38], các tác giả sử dụng giải thuật dùng mạng fuzzy để dự báo phụ tải cho 7 ngày tiếp theo Một cách tiếp cận khác được trình bày trong [39] khi các tác giả sử dụng mạng wavelet để dự báo phụ tải cho các ngày đặc biệt Mô hình mạng nơ ron đa lớp (Multi-layer Perceptron – MLP) được áp dụng trong [40, 41], các tác giả thiết lập mạng MLP với dữ liệu đầu vào là phụ tải điện trong quá khứ để dự báo cho 24 giờ tiếp theo Giải thuật Deep Learning được giới thiệu trong [42], tác giả sử dụng mô hình Recurrent Neural Networks để dự báo phụ tải cho khu vực TP HCM, kết quả có so sánh với một số mô hình khác Trong [43-44], tác giả sử dụng mô hình SVR kết hợp với chuẩn hóa dữ liệu đầu vào để dự báo phụ tải cực đại ngày cho 7 ngày tiếp theo, các siêu tham số sử dụng
Trang 5cho mô hình SVR được xác định mặc định, và phương pháp chuẩn hóa dữ liệu là phương pháp Max
c) Đánh giá kết quả các công trình nghiên cứu đã công bố (ưu, khuyết, những tồn tại…)
Thông qua phân tích các kết quả nghiên cứu quốc tế và trong nước, có thể thấy rằng các nhóm nghiên cứu về mô hình SVR trong bài toán dự báo phụ tải được chia thành 02 hướng chính Hướng thứ nhất là áp dụng giải thuật xác định siêu tham số tối ưu của mô hình, trong đó có giải thuật tìm kiếm lưới [28-35] Hướng thứ hai là áp dụng mô hình SVR với một giá trị xác định trước cho các siêu tham số kết với chuẩn hóa dữ liệu đầu vào để giải quyết bài toán dự báo [13, 16, 18, 36-37, 43-44] Điều này sẽ dẫn đến là đối với bài toán tìm kiếm lưới siêu tham số tối ưu có thể bỏ qua những kết quả tốt nhất do dữ liệu chưa được chuẩn hóa, chưa kể việc không chuẩn hóa dữ liệu có thể làm thời gian chạy chương trình tăng lên đáng
kể
Vì vậy, vấn đề khảo sát, đánh giá đáp ứng của mô hình tìm kiếm lưới kết hợp với các phương pháp chuẩn hóa dữ liệu cho mô hình SVR là một nhu cầu cần thiết để nâng cao độ chính xác kết quả dự báo cũng như rút ngắn thời gian chạy của chương trình
2 Mục tiêu
a) Mục tiêu tổng quát
Đánh giá được ảnh hưởng của các phương pháp chuẩn hóa dữ liệu của giải thuật tìm kiếm lưới siêu tham số tối ưu cho mô hình SVR áp dụng cho bài toán dự báo phụ tải ngắn hạn
b) Mục tiêu cụ thể
Thiết lập giải thuật tìm kiếm lưới kết hợp với các phương pháp chuẩn hóa dữ liệu
So sánh, đánh giá độ chính xác của giá trị dự báo, thời gian chạy chương trình của các phương pháp chuẩn hóa dữ liệu
Áp dụng cho số liệu phụ tải điện năng thực tế tại khu vực TP Hồ Chí Minh, Việt Nam
và tại bang Queensland, Australia
Trang 63 Phương pháp nghiên cứu
Đề tài gồm có 5 nội dung, với các phương pháp nghiên cứu tương ứng như sau:
Nội dung 1: Tổng quan về mô hình SVR áp dụng cho bài toán dự báo phụ tải
- Cách tiếp cận: Tiếp cận từ các cơ sở lý thuyết, các công trình nghiên cứu
- Phương pháp nghiên cứu, kỹ thuật sử dụng: Phương pháp nghiên cứu lý thuyết
Nội dung 2: Tổng quan về các siêu tham số của mô hình SVR, phương pháp tìm kiếm lưới
để xác định mô hình tối ưu, các phương pháp chuẩn hóa dữ liệu
- Cách tiếp cận: Tiếp cận từ các cơ sở lý thuyết, các công trình nghiên cứu
- Phương pháp nghiên cứu, kỹ thuật sử dụng: Phương pháp nghiên cứu lý thuyết
Nội dung 3: Thiết lập giải thuật tìm kiếm lưới kết hợp với các phương pháp chuẩn hóa dữ
liệu
- Cách tiếp cận: Tiếp cận từ nguyên lý của giải thuật tìm kiếm lưới, mô hình toán học các
phương pháp chuẩn hóa dữ liệu
- Phương pháp nghiên cứu, kỹ thuật sử dụng: Phương pháp nghiên cứu lý thuyết
Nội dung 4: Đánh giá ảnh hưởng của các phương pháp chuẩn hóa dữ liệu đối với giải thuật
tìm kiếm lưới
- Cách tiếp cận: Tiếp cận từ các kết quả mô phỏng, từ đó đưa ra đánh giá, nhận xét
- Phương pháp nghiên cứu, kỹ thuật sử dụng: Phương pháp mô phỏng, phương pháp phân
tích
Nội dung 5: Công bố kết quả nghiên cứu, báo cáo tổng kết
- Cách tiếp cận: Cơ sở lý thuyết, kết quả mô phỏng, đánh giá và nhận xét
Trang 7- Phương pháp nghiên cứu, kỹ thuật sử dụng: Phương pháp nghiên cứu lý thuyết, phương
pháp mô phỏng, phương pháp phân tích
4 Tổng kết về kết quả nghiên cứu
- Thiết lập được mô hình giải thuật Grid Search dựa trên các phương pháp chuẩn hóa dữ liệu cho mạng SVR
- Thực hiện dự báo cho dữ liệu phụ tải thành phố Hồ Chí Minh, Việt Nam và bang
Queensland, Úc
- Đánh giá ảnh hưởng của các phương pháp chuẩn hóa dữ liệu đối với giải thuật Grid Search cho mạng SVR
5 Đánh giá các kết quả đã đạt được và kết luận
- Kết quả thu được của đề tài được đã được đăng trên tạp chí “ International Journal of Electrical and Computer Engineering” thuộc hệ thống Scopus, Q3: “ Thanh Ngoc Tran, Binh Minh Lam, Anh Tuan Nguyen, Quang Binh Le Load forecasting with support vector regression: influence of data normalization on grid search algorithm International Journal of
http://ijece.iaescore.com/index.php/IJECE/article/view/25883 ”
- Kết quả thu được có ý nghĩa quan trọng trong việc áp dụng phương pháp chuẩn hóa dữ liệu đối với giải thuật Grid Search trong mô hình SVR
6 Tóm tắt kết quả (tiếng Việt và tiếng Anh)
1 Thiết lập được mô hình giải thuật Grid
Search dựa trên các phương pháp chuẩn
hóa dữ liệu cho mạng SVR
A Grid Search-based model using different normalization methods for
an SVR network is established
2 Thực hiện dự báo cho dữ liệu phụ tải
thành phố Hồ Chí Minh, Việt Nam và
bang Queensland, Úc
The proposed model is applied to predict electricity loads of Ho Chi
Queensland (Australia)
Trang 83 Đánh giá ảnh hưởng của các phương
pháp chuẩn hóa dữ liệu đối với giải
thuật Grid Search cho mạng SVR
The project evaluates the impact of different normalization methods on the Grid Search algorithm for the SVR model
5 Công bố thành công kết quả nghiên cứu
trên tạp chí Scopus, Q3 “International
Journal of Electrical and Computer
III Sản phẩm đề tài, công bố và kết quả đào tạo
3.1 Kết quả nghiên cứu ( sản phẩm dạng 1,2,3)
Yêu cầu khoa học hoặc/và chỉ tiêu
kinh tế - kỹ thuật
1 Code chương trình
Báo cáo phân tích
Rõ ràng, chi tiết, đầy đủ Rõ ràng, chi tiết, đầy đủ
2 Bài báo: Research on the
influence of Data
Normalization based on
SVR Hyperparameter
Optimization using Grid
Search Algorithm for
Trang 9- Các ấn phẩm (bản photo) đính kèm trong phần phụ lục minh chứng ở cuối báo cáo (đối với ấn phẩm là sách, giáo trình cần có bản photo trang bìa, trang chính và trang cuối kèm thông tin quyết định và số hiệu xuất bản)
3.2 Kết quả đào tạo: Không
TT Họ và tên
Thời gian thực hiện đề tài
IV Tình hình sử dụng kinh phí
T
Kinh phí được duyệt
(triệu đồng)
Kinh phí thực hiện
(triệu đồng)
Ghi chú
A Chi phí trực tiếp
2 Nguyên, nhiên vật liệu, cây con
3 Thiết bị, dụng cụ
4 Công tác phí
5 Dịch vụ thuê ngoài
6 Hội nghị, hội thảo,thù lao nghiệm thu giữa kỳ
8 Chi phí khác
B Chi phí gián tiếp
Trang 101 Quản lý phí
2 Chi phí điện, nước
V Kiến nghị ( về phát triển các kết quả nghiên cứu của đề tài)
- Đề tài hiện tại chỉ dừng ở việc nghiên cứu ảnh hưởng của các phương pháp chuẩn hóa dữ
liệu đối với giải thuật Grid Search cho mạng SVR, có thể mở rộng cho các mô hình máy học
khác
- Áp dụng phương pháp chuẩn hóa dữ liệu cho các giải thuật xác định siêu tham số tối ưu
khác như Bayesian optimization, Evolutionary optimization, …
VI Phụ lục sản phẩm ( liệt kê minh chứng các sản phẩm nêu ở Phần III)
1 Sản phẩm 1: Code chương trình, Báo cáo phân tích
Code chương trình, báo cáo phân tích được đính kèm trong phần III (phụ lục đính kèm)
của báo cáo này
2 Sản phẩm 2: Bài báo ISI
Bản đầy đủ của bài báo Scopus trên tạp chí “International Journal of Electrical and
Computer Engineering ” được đính kèm đính kèm trong phần III (phụ lục đính kèm) của báo
cáo này
Tp HCM, ngày tháng năm 2022
Trưởng Đơn Vị (Họ, tên, chữ ký)
Trang 11PHẦN II BÁO CÁO CHI TIẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC
(báo cáo tổng kết sau khi nghiệm thu, đã bao gồm nội dung góp ý của hội đồng nghiệm thu)
Trang 12MỤC LỤC
I TỔNG QUAN VỀ DỰ BÁO PHỤ TẢI 12
1.1 Tổng quan về dự báo phụ tải 12
1.2 Các phương pháp dự báo phụ tải 13
1.2.1 Phương pháp hồi quy 14
1.2.2 Phương pháp phân tích chuỗi thời gian SARIMA 15
1.2.3 Phương pháp san bằng hàm mũ 17
1.2.4 Phương pháp Mạng nơron nhân tạo 19
II MÔ HÌNH SVR, GIẢI THUẬT GS, VÀ PHƯƠNG PHÁP CHUẨN HÓA DỮ LIỆU 21
2.1 Mô hình SVR 21
2.1.1 Tổng quan mô hình SVR 21
2.1.2 Các siêu tham số (hyperparameters ) của mô hình SVR 23
2.2 Giải thuật Grid Search và chu trình xác thực chéo 24
2.2.1 Giải thuật Grid Search 24
2.2.1 Chu trình xác thực chéo (cross- validation procedure) 26
2.3 Các phương pháp chuẩn hóa dữ liệu (Data Normalization) 27
2.4 Giải thuật Grid Search dựa trên các phương pháp chuẩn hóa dữ liệu 29
III ĐÁNH GIÁ ẢNH HƯỞNG CỦA CÁC PHƯƠNG PHÁP CHUẨN HÓA DỮ LIỆU ĐỐI VỚI GIẢI THUẬT TÌM KIẾM LƯỚI CHO MẠNG SVR 31
3.1 Dữ liệu thử nghiệm và cài đặt tham số 31
3.1.1 Dữ liệu thử nghiệm 31
3.1.2 Thiết lập các tham số trong quá trính thử nghiệm 34
3.2 Kết quả thử nghiệm và đánh giá 35
3.4 Kết luận 41
Trang 13I TỔNG QUAN VỀ DỰ BÁO PHỤ TẢI
1.1 Tổng quan về dự báo phụ tải
Ngành điện là một ngành công nghiệp mũi nhọn, ảnh hưởng trực tiếp đến tất cả các ngành kinh tế của nền kinh tế quốc dân, nó góp phần thúc đẩy sự phát triển kinh tế - xã hội của đất nước Với sự phát triển mạnh mẽ của nền kinh tế như hiện nay, ngành điện vừa có vai trò cung cấp năng lượng thúc đẩy phát triển kinh tế của các ngành vừa trực tiếp tham gia phục vụ đời sống xã hội và sinh hoạt của con người Nhất là khi nước ta đang thúc đẩy nhanh quá trình công nghiệp hoá hiện đại hoá để hội nhập với nền kinh tế khu vực và trên thế giới thì nhu cầu điện năng ngày một tăng nhanh đòi hỏi sự dự báo chính xác là rất cần thiết
Dự báo điện năng (phụ tải) tiêu thụ trong khoảng thời gian nhất định được chia thành dự báo rất ngắn hạn, ngắn hạn, trung hạn và dài hạn với các mốc thời gian như bảng dưới đây
Bảng 1 Phân loại các loại dự báo phụ tải
Dự báo phụ tải rất ngắn hạn – VSTLF: được lập cho vài phút tới 24h và được dùng cho điều khiển nguồn phát tự động
- Dự báo phụ tải ngắn hạn – STLF: được lập cho khoảng thời gian từ 1 ngày tới 2 tuần Kết quả dự báo phụ tải ngắn hạn chủ yếu dùng cho các mục đích thiết lập biểu đồ phát điện Để các công ty điện có thể lên kế hoạch kinh doanh, bảo dưỡng hoặc kế hoạch điều khiển phụ tải để tối thiểu hóa chi phí
Trang 14- Dự báo trung hạn – MTLF: Phạm vi dự báo trung hạn là một giai đoạn từ 1 tháng tới
3 năm Loại dự báo này thường được dùng để xác định thiết bị và lưới điện sẽ lắp đặt hoặc thiết lập các hợp đồng trong thị trường điện
- Dự báo dài hạn - LTLF: Phạm vi dự báo báo gồm một giai đoạn từ 3 tới 30 năm Khoảng thời gian này cần cho quy hoạch, xây dựng các nhà máy, các đường dây truyền tải và phân phối điện
Về mặt bản chất, phụ tải điện có thể được xem như là một chuỗi thời gian Chuỗi thời gian là tập hợp các điểm dữ liệu liên tiếp nhau, được đo theo từng khoảng khắc thời gian liền nhau theo một tần suất thời gian thống nhất Dự báo chuỗi thời gian nói chung, dự báo phụ tải điện nói riêng là việc xây dựng mô hình để dự đoán các giá trị trong tương lai dựa vào các giá trị
đã biết trong quá khứ Với tầm quan trọng của dự báo phụ tải, đã có nhiều phương pháp được nghiên cứu và áp dụng thành công trong nhiều năm gần đây [1-5, 45-50]
1.2 Các phương pháp dự báo phụ tải
Có rất nhiều phương pháp, giải thuật đã được sử dụng trong vấn đề dự báo phụ tải từ những năm 1950 đến nay, bao gồm những những phương pháp phổ biến như: Phương pháp chuyên gia, hồi quy, phân tích chuỗi thời gian, mạng nơ ron nhân tạo, phương pháp san bằng hàm
mũ, logic mờ, máy vector hỗ trợ (SVR), mạng học sâu (deep learnng), … [6-12, 51]
Hình 1 – Lịch sử các phương pháp dự báo phụ tải Tóm tắt một số phương pháp dự báo phụ tải cơ bản như sau:
Trang 151.2.1 Phương pháp hồi quy
Phương pháp hồi quy là phương pháp tương đối đơn giản dùng để dự báo phụ tải
Phương pháp này xác định mối tương quan giữa nhu cầu tiêu thụ điện (công suất, điện năng) của phụ tải với các yếu tố ảnh hưởng quan trọng (tăng trưởng kinh tế, giá điện, thời tiết,
tỷ giá…) Mối tương quan này được phản ánh qua hai loại phương trình như sau [6-12, 50]:
45-Phương trình dạng tuyến tính:
𝑌 = 𝑎0 + ∑𝑛𝑖=1𝑎𝑖 𝑋𝑖 (1) Trong đó:
- n là số thống kê quá khứ (số năm, tháng, tuần, ngày);
- a0, ai là các hệ số;
- Xi là số liệu quá khứ của các yếu tố ảnh hưởng quan trọng (tăng trưởng kinh tế, giá điện, thời tiết, tỷ giá…);
- Y là hàm số điện năng, công suất của năm (tháng, tuần, ngày, giờ)
Phương trình dạng phi tuyến:
𝑌 = 𝑎0 𝑋1𝑎1 𝑋2𝑎2 … 𝑋𝑛𝑎𝑛 (2) Trong đó:
- n là số thống kê quá khứ (số năm, tháng, tuần, ngày);
- a0, ai là các hệ số;
- Xi là số liệu quá khứ của các yếu tố ảnh hưởng quan trọng (tăng trưởng kinh tế, giá điện, thời tiết, tỷ giá…);
- Y là hàm số điện năng, công suất của năm (tháng, tuần, ngày, giờ)
Dạng phương trình 2 có thể đưa về dạng phương trình 1 bằng cách lấy logarit 2 vế Việc lựa chọn hàm hồi quy được tiến hành trên cơ sở so sánh các hệ số tương quan, hệ số tương quan của dạng phương trình nào lớn thì chọn dạng phương trình đó
Trang 161.2.2 Phương pháp phân tích chuỗi thời gian SARIMA
Phương pháp phân tích chuỗi thời gian SARIMA (Seasonal AutoRegressive Integrated Moving Average) được áp dụng nhiều bên lĩnh vực kinh tế, dùng để dự báo cho dữ liệu mang tính chất là một chuỗi thời gian Đặc điểm của phụ tải điện là một chuỗi thời gian có xu hướng lặp lại theo khoảng thời gian nhất định, ví dụ phụ tải cho ngày thứ 2 tuần này sẽ có xu hướng lặp lại thứ 2 của tuần trước đó, do đó mô hình SARIMA tương đối phù hợp áp dụng vào bài toán dự báo phụ tải khi nó được tích hợp yếu tố mùa vụ trong mô hình [6-12, 45-50]
Chuỗi thời gian là một chuỗi các giá trị của một đại lượng nào đó được ghi nhận theo thời gian Các giá trị chuỗi thời gian của đại lượng Y có thể được biểu diễn như phương trình dưới đây, trong đó Yt là giá trị của Y tại thời gian t:
Nếu chuỗi thời gian thỏa mãn tính dừng, ta có thể biểu diễn nó dưới các dạng như AR,
MA, ARMA, ARIMA, và SARIMA như sau
Mô hình tự hồi quy AR (Autoregressive)
1 2
2
( ) ( )
Trang 17Phương trình trên có thể viết dưới dạng sử dụng toán tử B:
Mô hình trung bình trượt và tự hồi quy ARMA
Mô hình ARMA (p,q) kết hợp mô hình AR(p) và mô hình MA(q) có thể viết dưới dạng một trong hai phương trình sau nếu sử dụng toán tử B:
Trang 18Áp dụng mô hình ARMA kết hợp với sai phân bậc d cho chuỗi thời gian ta có mô hình ARIMA(p,d,q) như sau:
(B) (B s)(1-B) (1d B s) YD t (B) (B s) t
Như vậy, mô hình toán học của mô hình SARIMA được thiết lập dựa trên các siêu tham số (p,d,q) và (P,D,Q,s), vì vậy độ chính xác của mô hình rõ ràng phụ thuộc vào các siêu tham số này
Dựa vào các mô hình toán học trên, ta có thể thưc hiện dự báo phụ tải theo mô hình chuỗi thời gian
1.2.3 Phương pháp san bằng hàm mũ
Các phương pháp dự báo san bằng hàm mũ, mà trong đó đặc biệt là phương pháp Winters được sử dụng rộng rãi cho dự báo phụ tải ngắn hạn, bởi vì chúng dễ dàng, đơn giản khi sử dụng, cũng như có khả năng thích ứng cao để dự báo cho các khoảng thời gian khác nhau Các phương pháp san bằng hàm mũ phổ biến bao gồm [6-12, 45-50]:
Holt-a SES
SES (simple exponential smoothing method) là phương pháp san bằng hàm mũ đơn giản nhất, áp dụng cho chuỗi thời gian không xét tới đặc tính mùa và xu hướng Phương trình dự báo của phương pháp SES như dưới đây, trong đó chỉ bao gồm thành cơ bản (level) lt :
𝐹𝑡+ℎ|𝑡 = 𝑙𝑡
b Holt’s linear trend
Trang 19Phương pháp san bằng hàm mũ xu hướng tuyến tính Holt phù hợp cho các dữ liệu không có yếu tố mùa, phương trình dự báo của nó chỉ bao gồm thành phần lt và thành phần xu hướng (trend) bt:
Mô hình cộng (Additive Seasonal Model)
Mô hình trên được gọi là mô hình cộng vì thành phần yếu tố mùa st được cộng vào
Mô hình nhân (Multiplicative Seasonal Model)
Mô hình trên được gọi là mô hình nhân vì thành phần yếu tố mùa st được nhân vào
Trong các phương trình trên, các thành phần như sau:
- h là số bước dự báo (step-ahead forecast), h = 1, 2, …;
- m là chu kỳ tính theo mùa, đối với dữ liệu quý thì m=4, dữ liệu tuần m=7, dữ liệu tháng m=12, …
- k là phần nguyên của (h−1)/m
- α, β, γ là các hệ số (smoothing parameters)
- l, b, s là các thành phần mức độ, xu hướng và mùa (level, trend, and seasonal
Trang 201.2.4 Phương pháp Mạng nơron nhân tạo
Phương pháp mạng nơ ron nhân tạo đã được sử dụng nhiều trong dự báo phụ tải và đã được những kết quả nhất định Mô hình toán học của một mạng nơ-ron nhân tạo đơn giản được trình bày như hình dưới đây [6-12, 45-40]:
3
Net sum
Activation function
bias
Hình 2 – Mô hình mạng nơ ron nhân tạo đơn giản Trong hình trên các khớp thần kinh được mô hình như một vetor đầu vào và thu thập thông tin từ một nơ-ron bên ngoài (Input Values) Các nhánh thần kinh được thay thế bởi các trọng số (Weights) có tác dụng gia tăng hoặc giảm thiểu giá trị của các vector đầu vào (Bias) được
thêm vào với tác dụng tăng cường giá trị tại nhân Nhân tế bào được thay thế bởi bộ tổng (Net sum) Sau khi các tín hiệu đầu vào đi qua bộ tổng, giá trị đầu ra được quyết định bởi một hàm kích hoạt (Activation function)
Phương trình ngõ ra của mạng:
1 1 2 2 3 3
y f x w x w x w x w b (19) Trong đó:
y là giá trị đầu ra (Output Values)
[x 1,x2,x3…xn ] là giá trị đầu vào (Input Values)
Trang 21 [w 1, w2, w3…wn] là trọng số (Weights)
b là giá trị tăng cường (bias)
f là hàm kích hoạt (Activation function)
Mô hình trên có thể mở rộng ra cho mạng nhiều lớp, nhằm tăng cường độ phức tạp của mạng,
từ đó thu được những kết quả chính xác hơn
Layer Input
Hidden Layer 1
Hidden Layer 2
Layer Output
Hình 3 – Mạng nơ ron 2 lớp Trong những năm gần đây, các phương pháp có độ chính xác cao hơn đã được sử dụng trong các bài toán dự báo phụ tải, trong đó có phương pháp máy vector hỗ trợ SVR, và phương pháp này được khảo sát trong các phần sau của nghiên cứu này
Trang 22
II MÔ HÌNH SVR, GIẢI THUẬT GS, VÀ PHƯƠNG PHÁP CHUẨN HÓA DỮ LIỆU
Máy vectơ hỗ trợ (SVM - support vector machine) là một khái niệm trong thống kê và khoa học máy tính cho một tập hợp các phương pháp học có giám sát liên quan đến nhau để phân loại và phân tích hồi quy Nguyên lý của SVM là xây dựng một siêu phẳng hoặc một tập hợp các siêu phẳng trong một không gian nhiều chiều hoặc vô hạn chiều, có thể được sử dụng cho phân loại, hồi quy, hoặc các nhiệm vụ khác Đối với bài toán hồi quy, thông thường
ta sẽ sử dụng mô hình SVR (support vector regression)
2.1 Mô hình SVR
2.1.1 Tổng quan mô hình SVR
Khảo sát một tập dữ liệu{xi, yi}, i =1, …, N; với xi ∈ 𝑅𝑛 là vector đầu vào có kích thước
n, yi ∈ 𝑅 là giá trị mục tiêu và N là số lượng mẫu của tập dữ liệu Nguyên lý cơ bản của mô hình SVR là xác định một ánh xạ phi tuyến dữ liệu đầu vào x vào một không gian đặc trưng
có chiều lớn hơn bằng cách sử dụng hàm ánh xạ 𝜑(): 𝑅𝑛 → 𝑅ℎ Do đó, hàm SVR thể hiện mối quan hệ giữa giá trị đầu vào và giá trị mục tiêu được xác định như sau [9-13]:
Lε là hàm mất mát không nhạy (insensitive loss function) được định nghĩa theo phương trình dưới đây, đại lượng ε (error tolerance) xác định phạm vi giới hạn của hàm f(x) như Hình 4 dưới đây
𝐿𝜀(𝑦𝑖 − 𝑓(𝑥𝑖), 𝑥) = { 0, |𝑦 − 𝑓(𝑥)| ≤ 𝜀
Trang 23Hình 4 – Định nghĩa ε, ξi, ξi* của mô hình SVR
Trong Hình 4, ξi, ξi* là các biến (slack variables) xác định mức độ khoảng cách của dữ liệu nằm trên hoặc nằm dưới phạm vi ε Từ Hình 4, dữ liệu mà nằm ngoài phạm vi ε có thể xác định như sau:
|𝑦 − 𝑓(𝑥)| − 𝜀 = ξ, point above the tube
Bằng cách thay thế các phương trình (23) và (22) vào (21), phương trình (21) có thể được biểu diễn như (24) và tuân theo các ràng buộc được thể hiện trong (25):
Trang 24𝐾(𝑥, 𝑦) = 𝑥𝑇𝑦 (27)
Hàm RBF:
Hàm RBF (Radial Basic Function) hay Gaussian kernel được sử dụng nhiều nhất trong các ứng dụng của mạng SVR, và là lựa chọn mặc định trong các ứng dụng, ví dụ thư viện sklearn trong Python
2.1.2 Các siêu tham số (hyperparameters ) của mô hình SVR
Đối với các mô hình máy học, tồn tại các siêu tham số (hyperparameters) của mô hình Siêu tham số là một đại lượng mà nó thông thường xác định các cấu hình của mô hình Ví dụ đối với mô hình quen thuộc là mạng nơ ron, các siêu thông số là số lớp ẩn, số nơ ron của lớp, các hàm kích hoặc, số epoch, … Các siêu tham số được xác định theo cách thủ công trước khi mô hình được huấn luyện với tập dữ liệu huấn luyện của nó Vì vậy, giá trị của các siêu tham số độc lập với các tập dữ liệu, trong khi các tham số của mô hình (parameters) thì được xác định trong quá trình huấn luyện này
Căn cứ theo mô hình của mô hình SVR đã trình bày ở trên, các siêu tham số ảnh hưởng đến kết quả của mô hình SVR bao gồm các siêu tham số chính như sau:
- Tham số ε xác định phạm vi giới hạn của hàm f (x)
- Tham số C xác định mối quan hệ giữa thành phần điều chỉnh và thành phần sai số
Trang 25- Hàm Kernel: linear, rbf, linear, poly, …
- Tham số hàm Kernel γ, bậc d của hàm poly
Các siêu tham số ảnh hưởng đến tốc độ và độ chính xác của quá trình huấn luyện của mô hình, cũng như ảnh hưởng đến độ chính xác của kết quả dự báo trong tập thử nghiệm Trong Hình 5, tác giả đã cho thấy ảnh hưởng của siêu tham số C và siêu tham số γ của mạng SVR đối với sự chính xác trong quá trình huấn luyện và thử nghiệm [53] Theo đó, có thể thấy rằng khi C và γ thay đổi sẽ dẫn đến sự thay độ chính xác của mô hình trong cả quá trình huấn luyện và thử nghiệm
Hình 5– Ảnh hưởng của C và γ đối với sự chính xác của mô hìnhNhư vậy, để nâng cao độ chính xác của kết quả dự báo cho mô hình SVM thì cần phải xác định các giá trị tối ưu của các siêu tham số như đã liệt kê ở trên Có nhiều phương pháp
để xác định các giá trị tối ưu này như phương pháp tìm kiếm lưới (Grid Search), phương pháp tìm kiếm ngẫu nhiên (Random Search), phương pháp giải thuật di truyền (Genetic Algorithm),
… Trong đó phương pháp Grid Search là phương pháp kinh điển và tương đối hiệu quả sẽ được nghiên cứu trong đề tài này
2.2 Giải thuật Grid Search và chu trình xác thực chéo
2.2.1 Giải thuật Grid Search
Giải thuật Grid Search cung cấp 1 phương pháp hiệu quả để xác định các siêu tham số tối ưu của mô hình SVR Giải thuật Grid Search là một quá trình tìm kiếm toàn diện thông qua các tập con được xác định trước từ tổ hợp các giá trị của các siêu tham số của mô hình Giá trị siêu tham số tối ưu là giá trị ứng với mô hình SVR đạt giá trị sai số nhỏ nhất [28]–[35] Minh họa cho nguyên lý hoạt động của Grid Search được trình bày như Hình 6 dưới
Trang 26đây Giả sử rằng mô hình gồm có hai siêu tham số hyperparameter X và Y Siêu tham số X được thiết lập ba giá trị {x1, x2, x3} và siêu tham số 2 được thiết lập hai giá trị {y1, y2, y3}, tổ hợp của hai siêu tham số là 09 cặp giá trị Grid Search sẽ thực hiện tìm kiếm mô hình tối ưu dựa trên 09 cặp giá trị này
Hình 6 – Giải thuật Grid Search với các siêu tham số X và Y
Giá trị sai số đối với mô hình SVR thông thường được xác định dựa vào các chỉ số đánh giá sai số của giá trị thực tế và giá trị dự báo của mô hình như MAE (Mean Absolute Error), RMSE (Root Mean Square Error)… và có phương trình toán học như sau [29], [35]:
ta cần bảo đảm rằng các giá trị siêu tham số tối ưu thu được là giá trị tối ưu toàn cục, chứ không phải là giá trị tối ưu cục bộ