Tính cấp thiết và lý do chọn đề tài Hiện nay, Tập đoàn điện lực Việt Nam đã triển khai nhiều chương trình AI trong nhiều lĩnh vực như hệ thống khôi phục lưới điện thông minh, hệ thống n
Trang 1ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA
HOÀNG XUÂN THIỆN
XÂY DỰNG HỆ THỐNG AI NHẬN DIỆN VÀ DỰ ĐOÁN SẢN LƯỢNG ĐIỆN NĂNG TIÊU THỤ BẤT THƯỜNG CỦA
KHÁCH HÀNG
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Đà Nẵng – Năm 2022
Trang 2Công trình khoa học được hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học: TS BÙI THỊ THANH THANH
Phản biện 1: TS PHẠM CÔNG THẮNG
Phản biện 2: TS LÂM TỪNG GIANG
Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt
nghiệp thạc sĩ Chuyên ngành Khoa học máy tính họp tại Đại
học Đà Nẵng vào ngày 22 tháng 07 năm 2022
Có thể tìm hiểu luận văn tại:
− Trung tâm Học Liệu và TT Tại Đại học Bách Khoa - ĐHĐN
− Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách
Khoa - Đại học Đà Nẵng
Trang 3MỞ ĐẦU
1 Tính cấp thiết và lý do chọn đề tài
Hiện nay, Tập đoàn điện lực Việt Nam đã triển khai nhiều chương trình AI trong nhiều lĩnh vực như hệ thống khôi phục lưới điện thông minh, hệ thống nhận dạng hình ảnh quản lý đầu tư xây dựng… Sản lượng điện năng là một phần thiết yếu trong dịch vụ kinh doanh khách hàng, các chuyên viên tại phòng Kinh doanh và Kiểm tra Giám sát mua bán điện đang sử dụng các cách thủ công như Microsoft Excel hoặc các chương trình theo dõi đo đếm từ xa theo thời gian trên nền tảng website
Mục tiêu của nghiên cứu này là sử dụng kho dữ liệu sản lượng điện tiêu thụ của khách hàng và thuật toán phân loại Rừng ngẫu nhiên nhằm phát hiện ra các khách hàng có hành vi bất thường nguy
cơ có thể trộm cắp điện, từ đó đánh giá được hiệu quả và độ chính xác của kết quả phân loại
Từ những vấn đề trên, chúng tôi đã tiến hành tìm kiếm các mô hình thuật toán huấn luyện và dự đoán phù hợp với mô hình và dữ liệu sử dụng điện năng của khách hàng mua điện thuộc quản lý của Công ty
Vì những lý do như trên, tôi đề xuất chọn đề tài luận văn cao học:
“Xây dựng hệ thống AI dự đoán khách hàng sử dụng điện bất thường qua sản lượng điện tiêu thụ”
2 Mục tiêu và nội dung nghiên cứu
2.1 Mục tiêu
Xây dựng hệ thống AI nhận diện được các khách hàng có hành
vi bất thường theo sản lượng điện tiêu thụ của tháng Nhằm đảm bảo
xử lý nhanh và kịp thời, hệ thống đồng bộ với hệ thống CMIS của Tập đoàn Điện lực Quốc gia Việt Nam và sẽ tự động hoạt động ngay khi sản lượng điện khách hàng được ra hóa đơn theo tháng để có số liệu chính xác nhất
Trang 4Nắm rõ được các cơ chế hoạt động của các thuật toán học máy Đặc biệt là thuật toán Rừng ngẫu nhiên trong việc áp dụng tính ngẫu nhiên để đưa ra quyết định
2.2 Mục đích
Giảm thời gian xử lý công việc của các cán bộ chuyên viên giúp tăng năng suất lao động, nâng cao hiệu quả công việc qua các hệ thống học máy Khẳng định được về lợi ích của học máy trong công việc Tăng lòng tin của khách hàng với ngành điện
2.3 Nội dung nghiên cứu
Tìm hiểu lý thuyết học máy và các ứng dụng của học máy trong thời đại công nghệ 4.0 nhất là bám sát chủ đề Chuyển đổi số của Bộ Thông tin và Truyền thông năm 2021
Nghiên cứu lý thuyết thuật toán Rừng ngẫu nhiên và cách xây dựng thuật toán Hiểu rõ các ưu điểm và nhược điểm của thuật toán trong việc nhận diện khách hàng
3 Đối tượng và phạm vi nghiên cứu
3.1 Đối tượng nghiên cứu
Sản lượng điện năng (kWh) tiêu thụ của khách hàng đăng ký cấp điện trên địa bàn tỉnh miền Trung – Tây Nguyên (Chi tiết nội dung nguồn dữ liệu như Phụ lục 01)
3.2 Phạm vi nghiên cứu
Sử dụng dữ liệu của khách hàng mua bán điện trên địa bàn tỉnh Thừa Thiên Huế trong quá trình nhận diện tự động hằng ngày Tập
dữ liệu huấn luyện cần thu thập mỗi tháng trên địa bàn miền Trung
để tăng số lượng dữ liệu huấn luyện để tăng độ chính xác của thuật toán
4 Phương pháp nghiên cứu
4.1 Phương pháp lý thuyết
Cơ sở lý thuyết về thuật toán Rừng ngẫu nhiên, Cây quyết định
và học có giám sát Hiểu rõ cơ chế hoạt động và các ưu nhược điểm của thuật toán với các loại học máy còn lại
Hiểu sâu cấu trúc thuộc tình của một khách hàng mua bán điện với Công ty Điện lực và cách nhận diện một khách hàng trộm cắp
Trang 5điện thường cĩ những hành vi như thế nào Sử dụng các khách hàng ngẫu nhiên cĩ hành vi tương tự để đánh giá kết quả tự dự đốn
5 Dự kiến kết quả đạt được
5.1 Về lý thuyết
Nắm rõ cơ sở lý thuật và các ứng dụng cĩ thể áp dụng mơ hình học sâu Đặc biệt là mơ hình học cĩ giám sát trong việc nhận diện đối tượng
Làm chủ được thuật tốn Rừng ngẫu nhiên trong dự đốn sản lượng điện năng Xây dựng các mơ hình tập dữ liệu gốc và dữ liệu huấn luyện để tạo cây quyết định
5.2 Về thực nghiệm
Sử dụng cùng 1 bộ cơ sở dữ liệu để huấn luyện qua 2 giải thuật Random Forest và Nạve Bayes Ngồi ra, bộ dữ liệu cần dự đốn cũng giống nhau để so sánh được tốc độ huấn luyên, dự đốn cũng như tỷ lệ chính xác của thuật tốn Xây dựng phần mềm AI ứng dụng
dự đốn sản lượng điện bất thường của khách hàng với độ chính xác nhận diện khách hàng bất thường khoảng 80% Ngồi ra cịn bổ sung thêm các chức năng như giám sát sản lượng điện năng của khách hàng và tạo phiếu kiểm tra với các khách hàng bất thường
6 Ý nghĩa khoa học và thực tiễn
6.1 Ý nghĩa khoa học
Tổng quan, đánh giá được độ chính xác của thuật tốn Rừng ngẫu nhiên khi áp dụng vào dự đốn sản lượng điện năng theo tháng của khách hàng
Trang 6Đề tài đã đóng góp một vai trò lớn trong quá trình nâng cao độ tin cậy cho thuật toán Rừng ngẫu nhiên nói riêng và học máy nói chung trong việc nhận diện chính xác các đối tượng cần nghiên cứu
dự đoán
6.2 Ý nghĩa thực tiễn
Đề xuất giải pháp này góp phần giúp Công ty Điện lực Thừa Thiên Huế nhận ra các khách hàng bất thường một cách tự động, giảm công rà soát sản lượng điện khách hàng mỗi ngày các các Giám sát viên Qua đó, có hướng xử lý kịp thời ngay lập tức và giúp các khách hàng tin tưởng ngành điện Hệ thống đã góp phần phổ biến ứng dụng sử dụng trí tuệ nhân tạo trong ngành Điện giúp nâng cao hiệu quả công việc
7 Bố cục của luận văn
Dự kiến luận văn được trình bày bao gồm các phần chính như sau:
Chương 1: Cơ sở lý thuyết
Giới thiệu về học máy, các mô hình học máy thông dụng hiện nay, thuật toán Rừng ngẫu nhiên và các điểm mạnh điểm yếu các thuật toán Rừng ngẫu nhiên Cơ sở lý thuyết thuật toán Naive Bayes Các lý thuyết sử dụng trong đề tài
Chương 2: Ứng dụng thuật toán Random Forest vào bài toán
Giới thiệu thuật toán Random Forest, xây dựng mô hình học máy, xây dựng tập dữ liệu gốc, tập dữ liệu khởi động, tập kiểm thử, giới thiệu cách hệ thống làm việc qua từng bước trong quá trình huấn luyện và dự đoán sản lượng điện năng của khách hàng
Chương 3: Triển khai và đánh giá
Cài đặt cấu hình các môi trường làm việc cho hệ thống Lập trình các chức năng cho hệ thống Thu thập dữ liệu theo thời gian xuất hóa đơn của khách hàng mỗi khi CMIS có dữ liệu để tiến hành
dự đoán kịp thời So sánh đánh giá kết quả dự đoán khách hàng qua
02 thuật toán Random Forest và thuật toán Naive Bayes Phân tích
ưu nhược điểm của 02 thuật toán
Trang 7CHƯƠNG 1: CƠ SỞ LÝ THUYẾT
1 Học máy (Machine Learning)
1.1 Khái niệm
Machine learning (ML) hay máy học là một nhánh của trí tuệ nhân tạo (AI), nó là một lĩnh vực nghiên cứu cho phép máy tính có khả năng cải thiện chính bản thân chúng dựa trên
dữ liệu mẫu (training data) hoặc dựa vào kinh nghiệm (những
gì đã được học) Machine learning có thể tự dự đoán hoặc đưa
ra quyết định mà không cần được lập trình cụ thể Một vài ứng dụng nổi tiếng sử dụng học máy như Cảnh báo giao thông (trên ứng dụng Google Maps)
1.2 Cây quyết định (Decision Tree)
Trong lĩnh vực máy học, cây quyết định là một kiểu mô hình
dự báo (predictive model), nghĩa là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi một nút trong (internal node) tương ứng với một biến; đường nối giữa nó với nút con của nó thể hiện một giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị của các biến được biểu diễn bởi đường đi
từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định
1.2 Thuật toán Rừng ngẫu nhiên (Random Forest)
1.2.1 Giới thiệu
Rừng ngẫu nhiên hoặc rừng quyết định ngẫu nhiên là một phương pháp học tập tổng hợp để phân loại, hồi quy và các nhiệm vụ khác hoạt động bằng cách xây dựng vô số cây quyết định tại thời điểm đào tạo Đối với các nhiệm vụ phân loại, đầu ra của rừng ngẫu nhiên là loại được chọn bởi hầu hết các cây Đối với các nhiệm vụ hồi quy, giá trị trung bình hoặc dự đoán trung bình của các cây riêng
lẻ được trả về Rừng quyết định ngẫu nhiên phù hợp với thói quen thích nghi quá mức của cây quyết định đối với tập huấn luyện của
Trang 8chúng Rừng ngẫu nhiên nhìn chung tốt hơn cây quyết định, nhưng
độ chính xác của chúng thấp hơn cây tăng cường độ dốc Tuy nhiên, đặc điểm dữ liệu có thể ảnh hưởng đến hiệu suất của chúng
Hình 1.3 Mô hình thuật toán Random Forest
Thuật toán Rừng ngẫu nhiên cho ra kết quả chính xác cao nhờ yếu tố ngẫu nhiên ra quyết định qua đó bỏ phiếu theo số đông cây quyết định
1.2.2 Các ứng dụng của Rừng ngẫu nhiên
Một số lĩnh vực phổ biến mà Rừng ngẫu nhiên được sử dụng:
− Ngân hàng: Lĩnh vực ngân hàng chủ yếu sử dụng thuật toán này để xác định rủi ro cho vay
− Y học: Với sự trợ giúp của thuật toán này, các xu hướng bệnh và nguy cơ của bệnh có thể được xác định
− Sử dụng đất: Chúng tôi có thể xác định các khu vực sử dụng đất tương tự bằng thuật toán này
− Tiếp thị: Các xu hướng tiếp thị có thể được xác định bằng cách sử dụng thuật toán này
1.2.3 Ưu điểm và nhược điểm của Rừng ngẫu nhiên
1.2.3.1 Ưu điểm của Rừng ngẫu nhiên
Thuật toán giải quyết tốt các bài toán có nhiều dữ liệu nhiễu, thiếu giá trị Do cách chọn ngẫu nhiên thuộc tính nên các giá trị
Trang 9nhiễu, thiếu ảnh hưởng không lớn đến kết quả Có những sự ước lượng nội tại như độ chính xác của mô hình phỏng đoán hoặc độ mạnh và liên quan giữa các thuộc tính (Out of bag) Dễ dàng thực hiện song song Thay vì một máy thực hiện cả thuật toán, ta có thể sử dụng nhiều máy để xây dựng các cây sau đó ghép lại thành rừng
1.2.3.2 Nhược điểm của Rừng ngẫu nhiên
Cân bằng nhãn lớp khiến kết quả dự đoán của thuật toán có thể lệch về số đông nhãn lớp
Thời gian huấn luyện của rừng có thể kéo dài tùy số cây và
số thuộc tính phân chia.ng cây trong rừng cũng như mối tương quan giữa các cây
1.2.4 Các bước thực hiện
Đầu tiên thuật toán Rừng ngẫu nhiên được xây dựng dựa trên một tập thể cây quyết định Cây quyết định là các khối xây dựng của một thuật toán rừng ngẫu nhiên Cây quyết định là một kỹ thuật hỗ trợ quyết định tạo thành một cấu trúc giống như cây Tổng quan về cây quyết định sẽ giúp chúng ta hiểu cách hoạt động của các thuật toán rừng ngẫu nhiên
Cây quyết định bao gồm ba thành phần: nút quyết định, nút
lá và nút gốc Thuật toán cây quyết định chia tập dữ liệu huấn luyện thành các nhánh, tập dữ liệu này sẽ tách biệt thành các nhánh khác Trình tự này tiếp tục cho đến khi đạt được một nút lá Nút lá không thể được phân tách thêm
Các nút trong cây quyết định đại diện cho các thuộc tính được sử dụng để dự đoán kết quả Các nút quyết định cung cấp một liên kết đến các lá Sơ đồ sau đây cho thấy ba loại nút trong cây quyết định
Trang 10Hình 1.5 Mô hình bỏ phiếu phân loại của Rừng ngẫu nhiên
Ở bước huấn luyện thì mình sẽ xây dựng nhiều cây quyết định, các cây quyết định có thể khác nhau Sau đó ở bước dự đoán, với một dữ liệu mới, thì ở mỗi cây quyết định mình sẽ đi từ trên xuống theo các điểm nút điều kiện để được các dự đoán, sau đó kết quả cuối cùng được tổng hợp từ kết quả của các cây quyết định
1.3 Naive Bayes
1.3.1 Giới thiệu
Naive Bayes Classification (NBC) là một thuật toán dựa trên định lý Bayes về lý thuyết xác suất để đưa ra các phán đoán cũng như phân loại dữ liệu dựa trên các dữ liệu được quan sát và thống kê Naive Bayes Classification là một trong những thuật toán được ứng dụng rất nhiều trong các lĩnh vực Machine learning dùng để đưa các
dự đoán chính xác nhất dự trên một tập dữ liệu đã được thu thập, vì
nó khá dễ hiểu và độ chính xác cao Nó thuộc vào nhóm Supervised Machine Learning Algorithms (thuật toán học có hướng dẫn), tức là máy học từ các ví dụ từ các mẫu dữ liệu đã có
1.3.2 Định lý Bayes
Định lý Bayes cho phép tính xác suất xảy ra của một sự kiện ngẫu nhiên A khi biết sự kiện liên quan B đã xảy ra Xác suất này được ký hiệu là P(A|B), và đọc là "xác suất của A nếu có B" Đại lượng này được gọi là xác suất có điều kiện hay xác suất hậu nghiệm
vì nó được rút ra từ giá trị được cho của B hoặc phụ thuộc vào giá trị
đó
Trang 11𝑃(𝐴|𝐵)𝑃(𝐵) = 𝑃(𝐴⋂𝐵) = 𝑃(𝐵|𝐴)𝑃(𝐴) Công thức (1.1)
1.3.3 Cách hoạt động
Bước 1 Gọi D là tập dữ liệu huấn luyện, trong đó mỗi phần
tử dữ liệu X được biểu diễn bằng một vector chứa n giá trị thuộc tính
Bước 2 Giả sử có m lớp C1, C2…Cm Cho một phần tử dữ liệu X, bộ phân lớp sẽ gán nhãn cho X là lớp có xác suất hậu nghiệm lớn nhất Cụ thể, bộ phân lớp Bayes sẽ dự đoán X thuộc vào lớp Ci nếu và chỉ nếu:
P(C_i |X) > P(C_j |X) (1<= i,j <=m,i != j) Công thức (1.4) Giá trị này sẽ tính dựa trên định lý Bayes
Bước 3 Để tìm xác suất lớn nhất, ta nhận thấy các giá trị P(X) là giống nhau với mọi lớp nên không cần tính Do đó ta chỉ cần tìm giá trị lớn nhất của P(X|Ci) * P(Ci) Chú ý rằng P(Ci) được ước lượng bằng |Di|/|D|, trong đó Di là tập các phần tử dữ liệu thuộc lớp
Ci Nếu xác suất tiền nghiệm P(Ci) cũng không xác định được thì ta coi chúng bằng nhau
khi đó ta chỉ cần tìm giá trị P(X|Ci) lớn nhất
Bước 4 Khi số lượng các thuộc tính mô tả dữ liệu là lớn thì chi phí tính toàn P(X|Ci) là rất lớn, dó đó có thể giảm độ phức tạp của thuật toán Naive Bayes giả thiết các thuộc tính độc lập nhau Khi
Trang 121.5.3 REST
1.5.4 REST API
1.5.5 Mô hình MVC
Trang 13CHƯƠNG 2: ỨNG DỤNG THUẬT TOÁN RANDOM FOREST
VÀO BÀI TOÁN 2.1 Thu thập dữ liệu
2.1.1 Quy trình thu thập dữ liệu từ hệ thống CMIS
Hệ thống thông tin quản lý khách hàng dùng điện (CMIS) được EVN đưa vào sử dụng nhằm khai thác có chức năng truy vấn sản lượng điện năng của khách hàng Từ đó, các đơn vị có thể xây dựng các chương trình ứng dụng để phát triển cho đơn vị nhằm tăng năng suất lao động và nâng cao SXKD tại Công ty
Hệ thống AI dự đoán sản lượng điện tiêu thụ của khách hàng dựa trên sản lượng điện tiêu thụ theo tháng (kWh) của khách hàng
đó Do đó, tôi sẽ thu thập dữ liệu theo số liệu sản lượng điện trên hóa đơn tiền điện tháng của khách hàng
Hệ thống thu thập dữ liệu sẽ thoạt động với tần suất 01 lần/01 tháng (kỳ hóa đơn tiền điện của khách hàng) và sẽ thu thập toàn bộ các khách hàng sử dụng điện đã đăng ký mua điện trên địa bàn miền Trung Vì vậy, tương ứng với mỗi năm, một khách hàng sẽ có 12 trường dữ liệu theo hóa đơn thanh toán tiền điện từng tháng của khách hàng đó