Xây dựng hệ thống AI nhận diện và dự đoán sản lượng điện năng tiêu thụ bất thường của khách hàng (tt)

Tính cấp thiết và lý do chọn đề tài Hiện nay, Tập đoàn điện lực Việt Nam đã triển khai nhiều chương trình AI trong nhiều lĩnh vực như hệ thống khôi phục lưới điện thông minh, hệ thống n

Trang 1

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA

HOÀNG XUÂN THIỆN

XÂY DỰNG HỆ THỐNG AI NHẬN DIỆN VÀ DỰ ĐOÁN SẢN LƯỢNG ĐIỆN NĂNG TIÊU THỤ BẤT THƯỜNG CỦA

KHÁCH HÀNG

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01

TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Đà Nẵng – Năm 2022

Trang 2

Công trình khoa học được hoàn thành tại

ĐẠI HỌC ĐÀ NẴNG

Người hướng dẫn khoa học: TS BÙI THỊ THANH THANH

Phản biện 1: TS PHẠM CÔNG THẮNG

Phản biện 2: TS LÂM TỪNG GIANG

Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt

nghiệp thạc sĩ Chuyên ngành Khoa học máy tính họp tại Đại

học Đà Nẵng vào ngày 22 tháng 07 năm 2022

Có thể tìm hiểu luận văn tại:

− Trung tâm Học Liệu và TT Tại Đại học Bách Khoa - ĐHĐN

− Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách

Khoa - Đại học Đà Nẵng

Trang 3

MỞ ĐẦU

1 Tính cấp thiết và lý do chọn đề tài

Hiện nay, Tập đoàn điện lực Việt Nam đã triển khai nhiều chương trình AI trong nhiều lĩnh vực như hệ thống khôi phục lưới điện thông minh, hệ thống nhận dạng hình ảnh quản lý đầu tư xây dựng… Sản lượng điện năng là một phần thiết yếu trong dịch vụ kinh doanh khách hàng, các chuyên viên tại phòng Kinh doanh và Kiểm tra Giám sát mua bán điện đang sử dụng các cách thủ công như Microsoft Excel hoặc các chương trình theo dõi đo đếm từ xa theo thời gian trên nền tảng website

Mục tiêu của nghiên cứu này là sử dụng kho dữ liệu sản lượng điện tiêu thụ của khách hàng và thuật toán phân loại Rừng ngẫu nhiên nhằm phát hiện ra các khách hàng có hành vi bất thường nguy

cơ có thể trộm cắp điện, từ đó đánh giá được hiệu quả và độ chính xác của kết quả phân loại

Từ những vấn đề trên, chúng tôi đã tiến hành tìm kiếm các mô hình thuật toán huấn luyện và dự đoán phù hợp với mô hình và dữ liệu sử dụng điện năng của khách hàng mua điện thuộc quản lý của Công ty

Vì những lý do như trên, tôi đề xuất chọn đề tài luận văn cao học:

“Xây dựng hệ thống AI dự đoán khách hàng sử dụng điện bất thường qua sản lượng điện tiêu thụ”

2 Mục tiêu và nội dung nghiên cứu

2.1 Mục tiêu

Xây dựng hệ thống AI nhận diện được các khách hàng có hành

vi bất thường theo sản lượng điện tiêu thụ của tháng Nhằm đảm bảo

xử lý nhanh và kịp thời, hệ thống đồng bộ với hệ thống CMIS của Tập đoàn Điện lực Quốc gia Việt Nam và sẽ tự động hoạt động ngay khi sản lượng điện khách hàng được ra hóa đơn theo tháng để có số liệu chính xác nhất

Trang 4

Nắm rõ được các cơ chế hoạt động của các thuật toán học máy Đặc biệt là thuật toán Rừng ngẫu nhiên trong việc áp dụng tính ngẫu nhiên để đưa ra quyết định

2.2 Mục đích

Giảm thời gian xử lý công việc của các cán bộ chuyên viên giúp tăng năng suất lao động, nâng cao hiệu quả công việc qua các hệ thống học máy Khẳng định được về lợi ích của học máy trong công việc Tăng lòng tin của khách hàng với ngành điện

2.3 Nội dung nghiên cứu

Tìm hiểu lý thuyết học máy và các ứng dụng của học máy trong thời đại công nghệ 4.0 nhất là bám sát chủ đề Chuyển đổi số của Bộ Thông tin và Truyền thông năm 2021

Nghiên cứu lý thuyết thuật toán Rừng ngẫu nhiên và cách xây dựng thuật toán Hiểu rõ các ưu điểm và nhược điểm của thuật toán trong việc nhận diện khách hàng

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

Sản lượng điện năng (kWh) tiêu thụ của khách hàng đăng ký cấp điện trên địa bàn tỉnh miền Trung – Tây Nguyên (Chi tiết nội dung nguồn dữ liệu như Phụ lục 01)

3.2 Phạm vi nghiên cứu

Sử dụng dữ liệu của khách hàng mua bán điện trên địa bàn tỉnh Thừa Thiên Huế trong quá trình nhận diện tự động hằng ngày Tập

dữ liệu huấn luyện cần thu thập mỗi tháng trên địa bàn miền Trung

để tăng số lượng dữ liệu huấn luyện để tăng độ chính xác của thuật toán

4 Phương pháp nghiên cứu

4.1 Phương pháp lý thuyết

Cơ sở lý thuyết về thuật toán Rừng ngẫu nhiên, Cây quyết định

và học có giám sát Hiểu rõ cơ chế hoạt động và các ưu nhược điểm của thuật toán với các loại học máy còn lại

Hiểu sâu cấu trúc thuộc tình của một khách hàng mua bán điện với Công ty Điện lực và cách nhận diện một khách hàng trộm cắp

Trang 5

điện thường cĩ những hành vi như thế nào Sử dụng các khách hàng ngẫu nhiên cĩ hành vi tương tự để đánh giá kết quả tự dự đốn

5 Dự kiến kết quả đạt được

5.1 Về lý thuyết

Nắm rõ cơ sở lý thuật và các ứng dụng cĩ thể áp dụng mơ hình học sâu Đặc biệt là mơ hình học cĩ giám sát trong việc nhận diện đối tượng

Làm chủ được thuật tốn Rừng ngẫu nhiên trong dự đốn sản lượng điện năng Xây dựng các mơ hình tập dữ liệu gốc và dữ liệu huấn luyện để tạo cây quyết định

5.2 Về thực nghiệm

Sử dụng cùng 1 bộ cơ sở dữ liệu để huấn luyện qua 2 giải thuật Random Forest và Nạve Bayes Ngồi ra, bộ dữ liệu cần dự đốn cũng giống nhau để so sánh được tốc độ huấn luyên, dự đốn cũng như tỷ lệ chính xác của thuật tốn Xây dựng phần mềm AI ứng dụng

dự đốn sản lượng điện bất thường của khách hàng với độ chính xác nhận diện khách hàng bất thường khoảng 80% Ngồi ra cịn bổ sung thêm các chức năng như giám sát sản lượng điện năng của khách hàng và tạo phiếu kiểm tra với các khách hàng bất thường

6 Ý nghĩa khoa học và thực tiễn

6.1 Ý nghĩa khoa học

Tổng quan, đánh giá được độ chính xác của thuật tốn Rừng ngẫu nhiên khi áp dụng vào dự đốn sản lượng điện năng theo tháng của khách hàng

Trang 6

Đề tài đã đóng góp một vai trò lớn trong quá trình nâng cao độ tin cậy cho thuật toán Rừng ngẫu nhiên nói riêng và học máy nói chung trong việc nhận diện chính xác các đối tượng cần nghiên cứu

dự đoán

6.2 Ý nghĩa thực tiễn

Đề xuất giải pháp này góp phần giúp Công ty Điện lực Thừa Thiên Huế nhận ra các khách hàng bất thường một cách tự động, giảm công rà soát sản lượng điện khách hàng mỗi ngày các các Giám sát viên Qua đó, có hướng xử lý kịp thời ngay lập tức và giúp các khách hàng tin tưởng ngành điện Hệ thống đã góp phần phổ biến ứng dụng sử dụng trí tuệ nhân tạo trong ngành Điện giúp nâng cao hiệu quả công việc

7 Bố cục của luận văn

Dự kiến luận văn được trình bày bao gồm các phần chính như sau:

Chương 1: Cơ sở lý thuyết

Giới thiệu về học máy, các mô hình học máy thông dụng hiện nay, thuật toán Rừng ngẫu nhiên và các điểm mạnh điểm yếu các thuật toán Rừng ngẫu nhiên Cơ sở lý thuyết thuật toán Naive Bayes Các lý thuyết sử dụng trong đề tài

Chương 2: Ứng dụng thuật toán Random Forest vào bài toán

Giới thiệu thuật toán Random Forest, xây dựng mô hình học máy, xây dựng tập dữ liệu gốc, tập dữ liệu khởi động, tập kiểm thử, giới thiệu cách hệ thống làm việc qua từng bước trong quá trình huấn luyện và dự đoán sản lượng điện năng của khách hàng

Chương 3: Triển khai và đánh giá

Cài đặt cấu hình các môi trường làm việc cho hệ thống Lập trình các chức năng cho hệ thống Thu thập dữ liệu theo thời gian xuất hóa đơn của khách hàng mỗi khi CMIS có dữ liệu để tiến hành

dự đoán kịp thời So sánh đánh giá kết quả dự đoán khách hàng qua

02 thuật toán Random Forest và thuật toán Naive Bayes Phân tích

ưu nhược điểm của 02 thuật toán

Trang 7

CHƯƠNG 1: CƠ SỞ LÝ THUYẾT

1 Học máy (Machine Learning)

1.1 Khái niệm

Machine learning (ML) hay máy học là một nhánh của trí tuệ nhân tạo (AI), nó là một lĩnh vực nghiên cứu cho phép máy tính có khả năng cải thiện chính bản thân chúng dựa trên

dữ liệu mẫu (training data) hoặc dựa vào kinh nghiệm (những

gì đã được học) Machine learning có thể tự dự đoán hoặc đưa

ra quyết định mà không cần được lập trình cụ thể Một vài ứng dụng nổi tiếng sử dụng học máy như Cảnh báo giao thông (trên ứng dụng Google Maps)

1.2 Cây quyết định (Decision Tree)

Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình

dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi

từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định

1.2 Thuật toán Rừng ngẫu nhiên (Random Forest)

1.2.1 Giới thiệu

Rừng ngẫu nhiên hoặc rừng quyết định ngẫu nhiên là một phương pháp học tập tổng hợp để phân loại, hồi quy và các nhiệm vụ khác hoạt động bằng cách xây dựng vô số cây quyết định tại thời điểm đào tạo Đối với các nhiệm vụ phân loại, đầu ra của rừng ngẫu nhiên là loại được chọn bởi hầu hết các cây Đối với các nhiệm vụ hồi quy, giá trị trung bình hoặc dự đoán trung bình của các cây riêng

lẻ được trả về Rừng quyết định ngẫu nhiên phù hợp với thói quen thích nghi quá mức của cây quyết định đối với tập huấn luyện của

Trang 8

chúng Rừng ngẫu nhiên nhìn chung tốt hơn cây quyết định, nhưng

độ chính xác của chúng thấp hơn cây tăng cường độ dốc Tuy nhiên, đặc điểm dữ liệu có thể ảnh hưởng đến hiệu suất của chúng

Hình 1.3 Mô hình thuật toán Random Forest

Thuật toán Rừng ngẫu nhiên cho ra kết quả chính xác cao nhờ yếu tố ngẫu nhiên ra quyết định qua đó bỏ phiếu theo số đông cây quyết định

1.2.2 Các ứng dụng của Rừng ngẫu nhiên

Một số lĩnh vực phổ biến mà Rừng ngẫu nhiên được sử dụng:

− Ngân hàng: Lĩnh vực ngân hàng chủ yếu sử dụng thuật toán này để xác định rủi ro cho vay

− Y học: Với sự trợ giúp của thuật toán này, các xu hướng bệnh và nguy cơ của bệnh có thể được xác định

− Sử dụng đất: Chúng tôi có thể xác định các khu vực sử dụng đất tương tự bằng thuật toán này

− Tiếp thị: Các xu hướng tiếp thị có thể được xác định bằng cách sử dụng thuật toán này

1.2.3 Ưu điểm và nhược điểm của Rừng ngẫu nhiên

1.2.3.1 Ưu điểm của Rừng ngẫu nhiên

Thuật toán giải quyết tốt các bài toán có nhiều dữ liệu nhiễu, thiếu giá trị Do cách chọn ngẫu nhiên thuộc tính nên các giá trị

Trang 9

nhiễu, thiếu ảnh hưởng không lớn đến kết quả Có những sự ước lượng nội tại như độ chính xác của mô hình phỏng đoán hoặc độ mạnh và liên quan giữa các thuộc tính (Out of bag) Dễ dàng thực hiện song song Thay vì một máy thực hiện cả thuật toán, ta có thể sử dụng nhiều máy để xây dựng các cây sau đó ghép lại thành rừng

1.2.3.2 Nhược điểm của Rừng ngẫu nhiên

Cân bằng nhãn lớp khiến kết quả dự đoán của thuật toán có thể lệch về số đông nhãn lớp

Thời gian huấn luyện của rừng có thể kéo dài tùy số cây và

số thuộc tính phân chia.ng cây trong rừng cũng như mối tương quan giữa các cây

1.2.4 Các bước thực hiện

Đầu tiên thuật toán Rừng ngẫu nhiên được xây dựng dựa trên một tập thể cây quyết định Cây quyết định là các khối xây dựng của một thuật toán rừng ngẫu nhiên Cây quyết định là một kỹ thuật hỗ trợ quyết định tạo thành một cấu trúc giống như cây Tổng quan về cây quyết định sẽ giúp chúng ta hiểu cách hoạt động của các thuật toán rừng ngẫu nhiên

Cây quyết định bao gồm ba thành phần: nút quyết định, nút

lá và nút gốc Thuật toán cây quyết định chia tập dữ liệu huấn luyện thành các nhánh, tập dữ liệu này sẽ tách biệt thành các nhánh khác Trình tự này tiếp tục cho đến khi đạt được một nút lá Nút lá không thể được phân tách thêm

Các nút trong cây quyết định đại diện cho các thuộc tính được sử dụng để dự đoán kết quả Các nút quyết định cung cấp một liên kết đến các lá Sơ đồ sau đây cho thấy ba loại nút trong cây quyết định

Trang 10

Hình 1.5 Mô hình bỏ phiếu phân loại của Rừng ngẫu nhiên

Ở bước huấn luyện thì mình sẽ xây dựng nhiều cây quyết định, các cây quyết định có thể khác nhau Sau đó ở bước dự đoán, với một dữ liệu mới, thì ở mỗi cây quyết định mình sẽ đi từ trên xuống theo các điểm nút điều kiện để được các dự đoán, sau đó kết quả cuối cùng được tổng hợp từ kết quả của các cây quyết định

1.3 Naive Bayes

1.3.1 Giới thiệu

Naive Bayes Classification (NBC) là một thuật toán dựa trên định lý Bayes về lý thuyết xác suất để đưa ra các phán đoán cũng như phân loại dữ liệu dựa trên các dữ liệu được quan sát và thống kê Naive Bayes Classification là một trong những thuật toán được ứng dụng rất nhiều trong các lĩnh vực Machine learning dùng để đưa các

dự đoán chính xác nhất dự trên một tập dữ liệu đã được thu thập, vì

nó khá dễ hiểu và độ chính xác cao Nó thuộc vào nhóm Supervised Machine Learning Algorithms (thuật toán học có hướng dẫn), tức là máy học từ các ví dụ từ các mẫu dữ liệu đã có

1.3.2 Định lý Bayes

Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất của A nếu có B" Đại lượng này được gọi là xác suất có điều kiện hay xác suất hậu nghiệm

vì nó được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị

đó

Trang 11

𝑃(𝐴|𝐵)𝑃(𝐵) = 𝑃(𝐴⋂𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴) Công thức (1.1)

1.3.3 Cách hoạt động

Bước 1 Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần

tử dữ liệu X được biểu diễn bằng một vector chứa n giá trị thuộc tính

Bước 2 Giả sử có m lớp C1, C2…Cm Cho một phần tử dữ liệu X, bộ phân lớp sẽ gán nhãn cho X là lớp có xác suất hậu nghiệm lớn nhất Cụ thể, bộ phân lớp Bayes sẽ dự đoán X thuộc vào lớp Ci nếu và chỉ nếu:

P(C_i |X) > P(C_j |X) (1<= i,j <=m,i != j) Công thức (1.4) Giá trị này sẽ tính dựa trên định lý Bayes

Bước 3 Để tìm xác suất lớn nhất, ta nhận thấy các giá trị P(X) là giống nhau với mọi lớp nên không cần tính Do đó ta chỉ cần tìm giá trị lớn nhất của P(X|Ci) * P(Ci) Chú ý rằng P(Ci) được ước lượng bằng |Di|/|D|, trong đó Di là tập các phần tử dữ liệu thuộc lớp

Ci Nếu xác suất tiền nghiệm P(Ci) cũng không xác định được thì ta coi chúng bằng nhau

khi đó ta chỉ cần tìm giá trị P(X|Ci) lớn nhất

Bước 4 Khi số lượng các thuộc tính mô tả dữ liệu là lớn thì chi phí tính toàn P(X|Ci) là rất lớn, dó đó có thể giảm độ phức tạp của thuật toán Naive Bayes giả thiết các thuộc tính độc lập nhau Khi

Trang 12

1.5.3 REST

1.5.4 REST API

1.5.5 Mô hình MVC

Trang 13

CHƯƠNG 2: ỨNG DỤNG THUẬT TOÁN RANDOM FOREST

VÀO BÀI TOÁN 2.1 Thu thập dữ liệu

2.1.1 Quy trình thu thập dữ liệu từ hệ thống CMIS

Hệ thống thông tin quản lý khách hàng dùng điện (CMIS) được EVN đưa vào sử dụng nhằm khai thác có chức năng truy vấn sản lượng điện năng của khách hàng Từ đó, các đơn vị có thể xây dựng các chương trình ứng dụng để phát triển cho đơn vị nhằm tăng năng suất lao động và nâng cao SXKD tại Công ty

Hệ thống AI dự đoán sản lượng điện tiêu thụ của khách hàng dựa trên sản lượng điện tiêu thụ theo tháng (kWh) của khách hàng

đó Do đó, tôi sẽ thu thập dữ liệu theo số liệu sản lượng điện trên hóa đơn tiền điện tháng của khách hàng

Hệ thống thu thập dữ liệu sẽ thoạt động với tần suất 01 lần/01 tháng (kỳ hóa đơn tiền điện của khách hàng) và sẽ thu thập toàn bộ các khách hàng sử dụng điện đã đăng ký mua điện trên địa bàn miền Trung Vì vậy, tương ứng với mỗi năm, một khách hàng sẽ có 12 trường dữ liệu theo hóa đơn thanh toán tiền điện từng tháng của khách hàng đó

Định dạng
Số trang	25
Dung lượng	669,72 KB