Trong luận văn này, tác giả đề xuất phương pháp để xây dựng đồ thị phụ tải điển hình dựatrên số liệu thu thập được từ hệ thống quản lý công tơ đo đếm từ xa, kết quả đạt được có thểphục v
Trang 1NGUYỄN THANH MINH
NGHIÊN CỨU XÂY DỰNG ĐỒ THỊ PHỤ TẢI ĐIỂN HÌNH,
Chuyên ngành: Kỹ thuật Điện
Trang 2Tôi cam đoan công trình nghiên cứu này được thực hiện dưới sự hướng dẫn củaPGS.TS Nguyễn Hữu Hiếu – Hiệu phó Trường Đại học Bách khoa – Đại học ĐàNẵng Đây là đề tài làm mới, không sao chép hay trùng với đề tài nào đã thực hiện, chỉ
sử dụng những tài liệu tham khảo như đã nêu trong bản thuyết minh
Các số liệu, kết quả nêu trong đề tài là trung thực và chưa từng được ai công bốtrong bất kì công trình nào khác
Đà Nẵng, ngày tháng năm 2019
Học viên thực hiện
Nguyễn Thanh Minh
Trang 3Lời cam đoan
Mục lục
Tóm tắt luận văn
Danh mục các bảng
Danh mục các hình vẽ, đồ thị
MỞ ĐẦU 1
Chương 1: KHÁI QUÁT VỀ LƯỚI ĐIỆN PHÂN PHỐI VÀ ĐỒ THỊ PHỤ TẢI 3
1.1 Tổng quan về hệ thống lưới điện phân phối 3
1.1.1 Đặc điểm của lưới điện phân phối 3
1.1.2 Những yêu cầu đối với lưới điện phân phối 3
1.2 Lý thuyết về đồ thị phụ tải 4
1.2.1 Khái niệm về đồ thị phụ tải 4
1.2.2Đồ thị phụ tải điển hình 5
1.3 Các thành phần phụ tải 5
Chương 2: LƯỚI ĐIỆN PHÂN PHỐI ỈNH THỪA THIÊN HUẾ 7
2.1 Tổng quan lưới điện 7
2.1.1 Đặc điểm nguồn điện khu vực 7
2.1.2 Đặc điểm lưới điện trung áp 8
2.1.3 Công tác quản lý vận hành lưới điện 9
2.2 Đặc điểm phụ tải sử dụng điện 10
Chương 3: XÂY DỰNG ĐỒ THỊ PHỤ TẢI ĐIỂN HÌNH 12
3.1 Dữ liệu về phụ tải trong quá khứ 12
3.1.1 Thu thập dữ liệu từ hệ thống DSPM 12
3.1.2 Khôi phục dữ liệu bị mất 15
3.2 Phát triển các thuật toán để xây dựng đồ thị phụ tải điển hình 17
3.2.1 Một số thuật toán trong bài toán phân nhóm 19
3.2.2 Xây dựng đồ thị phụ tải điển hình bằng thuật toán K-means 21
3.2.3 Tóm tắt thuật toán sử dụng 28
Chương 4: ỨNG DỤNG TẠI CÔNG TY ĐIỆN LỰC THỪA THIÊN HUẾ 30
4.1 Đồ thị nhóm phụ tải Nông - Lâm - Thủy sản 33
4.2 Đồ thị nhóm phụ tải Công nghiệp - Xây dựng 35
4.3 Đồ thị nhóm phụ tải Thương mại dịch vụ 41
4.4 Đồ thị nhóm phụ tải Nhà hàng – Khách sạn 43
4.5 Đồ thị nhóm phụ tải Sinh hoạt 45
Trang 4KẾT LUẬN VÀ KIẾN NGHỊ 51 DANH MỤC TÀI LIỆU THAM KHẢO 52 PHỤ LỤC
QUYẾT ĐỊNH GIAO ĐỀ TÀI LUẬN VĂN
BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG BẢO VỆ LUẬN VĂN
Trang 5Học viên: Nguyễn Thanh Minh Chuyên ngành: Kỹ thuật Điện
Mã số: 8520201 Khóa: K34.KTĐ, Trường Đại học Bách khoa – ĐHĐN
Tóm tắt - Xây dựng đồ thị phụ tải điển hình là nhu cầu rất cần thiết hiện nay của ngành điện
nói chung và Công ty Điện lực Thừa Thiên Huế nói riêng Đồ thị phụ tải điển hình là thông sốquan trọng, là đầu vào cho các chương trình tính toán lưới điện để tính toán tối ưu hóa vậnhành lưới điện cũng như dự báo thị trường điện trong tương lai
Trong luận văn này, tác giả đề xuất phương pháp để xây dựng đồ thị phụ tải điển hình dựatrên số liệu thu thập được từ hệ thống quản lý công tơ đo đếm từ xa, kết quả đạt được có thểphục vụ cho nhiều mục đích khác nhau Phương pháp đề xuất được xây dựng trên nền phầnmềm Matlab và được ứng dụng thực tế từ số liệu có được của Công ty Điện lực Thừa ThiênHuế Kết quả có được đã minh chứng cho tính đúng đắn và khả thi của phương pháp được đềxuất và đã được Công ty Điện lực Thừa Thiên Huế áp dụng vào chương trình quản lý lướiđiện phân phối DMS (Distribution Management System) để phân tích, tính toán, đưa ra cácchế độ vận hành lưới điện tối ưu trên địa bàn tỉnh Thừa Thiên Huế
Từ khóa – đồ thị phụ tải điển hình; hệ thống quản lý công tơ đo đếm từ xa; cụm dữ liệu;
K-means; Fuzzy K-means
RESEARCH TO CALCULATE TYPICAL LOAD CURVES, APPLY AT THUA THIEN HUE POWER COMPANY Abstract – Calculating typical load curves is a crucial need for the electric power industry in
general and for Thua Thien Hue Power Company in particular The typical load curve is animportant parameter and input for grid-calculation programs to calculate and optimize the gridoperation as well as forecast the future of electricity markets
In this thesis, the author proposes a method for calculating a typical load curve based on datacollected from Automatic Meter Reading (AMR) System, the results can be used for manydifferent purposes The proposed method is calculated on Matlab software and appliedpractically from data obtained from Thua Thien Hue Power Company The resultsdemonstrate the correctness and feasibility of the proposed method and have been applied byThua Thien Hue Power Company to the Distribution Management System (DMS) foranalysis, calculate and propose optimal grid operation modes in Thua Thien Hue province
Key words – typical load curve; automatic meter reading (AMR) system; cluster; K-means;
Fuzzy K-means
Trang 6Số hiệu bảng Tên bảng Trang
2.1
Các trạm biến áp 110kV, 220kV cấp điện cho lưới điện tỉnh
8TT-Huế
2.2 Khối lượng quản lý đường dây và trạm biến áp 82.3 Thống kê tỷ lệ khách hàng và điện thương phẩm 10
Trang 7Số hiệu Tên hình vẽ Tranghình vẽ
1.1
Biểu đồ tỷ lệ tổn thất điện năng giai đoạn 2016-2019 của
6Công ty Điện lực Thừa Thiên Huế
2.1 Sơ đồ tổng quan lưới điện tỉnh Thừa Thiên Huế 72.2 Tỷ lệ số lượng khách hàng giữa các thành phần phụ tải 112.3 Tỷ trọng điện thương phẩm giữa các thành phần phụ tải 11
3.2 Mô hình vận hành tổng thể của hệ thống DSPM 143.3 Bộ chỉ số mô phỏng lấy từ chương trình DSPM 15
3.5
Sơ đồ một số phương pháp thông dụng trong thuyết tự học
17của máy móc
3.6 Sơ đồ một số thuật toán trong bài toán Phân nhóm 19
(Clustering)
3.7 Ví dụ về phân cụm dữ liệu (cluster) của thuật toán K-means 22
4.1 Đồ thị phụ tải theo các tiêu chí của nhóm phụ tải Nông- 33
Trang 94.8 Đồ thị phụ tải theo các tiêu chí của nhóm phụ tải sản xuất 39
khác
4.9 Đồ thị phụ tải điển hình của nhóm phụ tải sản xuất khác 40
4.10 Đồ thị phụ tải theo các tiêu chí của nhóm phụ tải Thương 41
4.17 Đồ thị phụ tải điển hình của nhóm các phụ tải Hoạt động 48
khác vào các ngày làm việc từ thứ 2 đến thứ 6
4.18 Đồ thị phụ tải điển hình của nhóm các phụ tải Hoạt động 48
khác vào ngày nghỉ
4.19 Đồ thị phụ tải tỉnh Thừa Thiên Huế 9 tháng đầu năm 2019 494.20 Đồ thị phụ tải điển hình tỉnh Thừa Thiên Huế 9 tháng đầu 50
năm 2019
Trang 10MỞ ĐẦU
1 Lý do chọn đề tài:
Theo lộ trình phát triển thị trường điện cạnh tranh tại Việt Nam đã được Thủtướng Chính phủ ban hành ở Quyết định số 63/2013/QĐ-TTg ngày 08/10/2013, thịtrường bán lẻ điện cạnh tranh sẽ bước vào giai đoạn thí điểm từ năm 2021 đến năm
2023, từ sau năm 2023 là giai đoạn thị trường bán lẻ điện cạnh tranh hoàn chỉnh Để điđúng theo lộ trình này, ngành điện cần chủ động trong việc dự báo được xu hướng pháttriển của các thành phần phụ tải để có kế hoạch kinh doanh hiệu quả, đảm bảo đáp ứngđược nhu cầu phát triển của thị trường điện cạnh tranh
Bộ Công thương cũng đã ban hành Thông tư số 19/2017/TT-BCT ngày29/09/2017, có hiệu lực thi hành từ ngày 16/11/2017, quy định nội dung, phương pháp
và trình tự thực hiện nghiên cứu phụ tải điện, trong đó nêu rõ yêu cầu cần phải xâydựng đồ thị phụ tải điện để làm căn cứ nghiên cứu phụ tải, nhằm hỗ trợ công tác dựbáo nhu cầu phụ tải điện phục vụ vận hành hệ thống điện và thị trường điện
Đồ thị phụ tải điển hình là thông số quan trọng, là đầu vào cho các chương trìnhtính toán lưới điện như PSS/Adept, DMS để tính toán tối ưu hóa vận hành lưới điệncũng như dự báo thị trường điện gồm dự báo giá bán, công suất, sản lượng trong giờtới, ngày tới, tuần tới
Với sự phát triển, ứng dụng của khoa học công nghệ, Công ty Điện lực ThừaThiên Huế đã thực hiện việc đo đạc và lưu trữ các dữ liệu công suất cũng như điệnnăng tiêu thụ của các hộ tiêu thụ Đây là cơ sở quan trọng để tiến hành phân tích cũngnhư xây dựng đồ thị phụ tải điển hình
Vì vậy, việc xây dựng đồ thị phụ tải điển hình dựa vào cơ sở dữ liệu có sẵn củaCông ty Điện lực Thừa Thiên Huế là rất cần thiết, phục vụ cho nhiều nhu cầu khácnhau trong giai đoạn phát triển hiện nay của ngành điện
2 Đối tượng và phạm vi nghiên cứu:
Đối tượng nghiên cứu:
Dữ liệu về công suất và điện năng của 1.226 điểm đo phụ tải sử dụng điện
Phạm vi nghiên cứu:
1.226 phụ tải sử dụng điện đang quản lý đo đếm từ xa qua hệ thống DSPM doCông ty Điện lực Thừa Thiên Huế quản lý Thời gian lấy số liệu từ 01/01/2018 đến30/06/2019
3 Mục tiêu nghiên cứu:
Xây dựng đồ thị phụ tải điển hình dựa vào cơ sở dữ liệu có sẵn về công suất và điện năng tiêu thụ
Trang 114 Phương pháp nghiên cứu:
Tìm hiểu, nghiên cứu các tài liệu, các qui định, sách báo,… có liên quan đến đồ thị phụ tải và các hệ thống quản lý đo đếm từ xa
Phân tích điện năng và công suất các phụ tải từ cơ sở dữ liệu có sẵn của chươngtrình quản lý đo đếm từ xa DSPM
5 Ý nghĩa khoa học và thực tiễn: Về mặt khoa học:
- Phân tích, đánh giá và tổng hợp dữ liệu sử dụng điện của phụ tải để xây dựng nên đồ thị phụ tải điển hình
- Tìm ra phương pháp dự báo xu hướng phát triển phụ tải bám sát thực tế
6 Cấu trúc luận văn:
Luận văn được xây dựng gồm 4 chương chính như sau:
• Chương 1: Khái quát về lưới điện phân phối và đồ thị phụ tải
• Chương 2: Lưới điện phân phối tỉnh Thừa Thiên Huế
• Chương 3: Xây dựng đồ thị phụ tải điển hình
• Chương 4: Ứng dụng tại Công ty Điện lực Thừa Thiên Huế
Trang 12Chương 1: KHÁI QUÁT VỀ LƯỚI ĐIỆN PHÂN PHỐI
VÀ ĐỒ THỊ PHỤ TẢI
1.1 Tổng quan về hệ thống lưới điện phân phối
Phân phối điện là khâu cuối cùng của hệ thống điện để đưa điện năng trực tiếpđến người tiêu dùng Lưới điện phân phối bao gồm lưới điện trung áp (6, 10, 22, 35kV) và lưới điện hạ áp (220/380V) Theo tính toán của EVN, từ nay đến năm 2020 mỗinăm cần đầu tư 7,9 tỷ USD, trong đó 25% vốn đầu tư cho giảm tổn thất điện năng trênlưới điện và nghiên cứu đưa vào vận hành thử nghiệm thị trường điện cạnh tranh
Các chương trình điện nông thôn của Chính phủ sẽ tiếp tục đẩy mạng phát triểnlưới điện phân phối, đảm bảo 100% số xã huyện được cấp điện Cùng với tổng sơ đồquy hoạch phát triển điện lực phê duyệt kế hoạch cải tạo và phát triển lưới điện trung
áp Khối lượng lưới điện phân phối dự kiến xây dựng đến năm 2020 sẽ bao gồm hơn120.000km đường dây trung áp, gần 85.000 MVA trạm phân phối và gần 93.000 kmđường dây hạ áp Với lưới điện phân phối có quy mô ngày càng mở rộng, các công tyĐiện lực và các Điện lực tỉnh, thành phố sẽ phải đối diện với những khó khăn nhấtđịnh trong công tác quản lý và phải chú trọng ngay từ giai đoạn chuẩn bị hiện nay.Trong những năm tới, khi đưa vào thí điểm thị trường điện cạnh tranh thì công tác dựbáo, tối ưu hóa lưới điện phân phối là vấn đề thiết yếu và sẽ là trọng tâm trong côngtác điều hành quản lý Để giải quyết vấn đề này, các công ty Điện lực cần tìm hiểu, ápdụng các biện pháp công nghệ hiện đại để ngày càng nâng cao chất lượng điện năng,vận hành ổn định và tối ưu cho hệ thống lưới điện phân phối
1.1.1 Đặc điểm của lưới điện phân phối
Lưới điện phân phối có các đặc điểm về thiết kế và vận hành khác với lưới điệntruyền tải Lưới điện phân phối phân bố trên diện rộng, thường vận hành không đốixứng và có tổn thất lớn Vấn đề tổn thất trên lưới phân phối liên quan chặt chẽ đến cácvấn đề kỹ thuật của lưới điện từ giai đoạn thiết kế đến vận hành Do đó trên cơ sở các
số liệu về tổn thất có thể đánh giá sơ bộ chất lượng vận hành của lưới điện phân phối
từ đó khi xây dựng các đồ thị phụ tải điển hình có thể chính xác hơn
Phụ tải của lưới điện phân phối đa dạng và phức tạp, các phụ tải sản xuất, kinhdoanh dịch vụ, ánh sáng sinh hoạt có thể cùng tồn tại trong một hộ tiêu thụ Điều đódẫn đến gây khó khăn cho việc tính toán và xây dựng các đồ thị phụ tải đặc trưng
1.1.2 Những yêu cầu đối với lưới điện phân phối
Yêu cầu chính của lưới phân phối là đảm bảo cấp điện liên tục cho hộ tiêu thụvới chất lượng điện năng nằm trong phạm vi cho phép
Trang 13➢ Độ tin cậy cung cấp điện
Hộ tiêu thụ loại 1: Là những hộ tiêu thụ mà khi có sự cố ngừng cấp điện có thể
gây nên những hậu quả nguy hiểm đến tính mạng con người, làm thiệt hại lớn về kinh
tế, dẫn đến hư hỏng thiết bị, gây rối loạn quá trình công nghệ phức tạp hoặc làm hỏnghàng loạt sản phẩm, hoặc có ảnh hưởng không tốt về phương diện chính trị Đối với hộtiêu thụ loại 1 phải được cấp điện với độ tin cậy cao, thường dùng hai nguồn đi đến,đường dây hai lộ đến, có nguồn dự phòng nhằm hạn chế mức thấp nhất về sự cố mấtđiện Thời gian mất điện thường được xem bằng thời gian tự động đóng nguồn dự trữ
Hộ tiêu thụ loại 2: Là những hộ tiêu thụ mà nếu ngừng cung cấp điện chỉ liên
quan đến hàng loạt sản phẩm không sản xuất được, tức là dẫn đến thiệt hại về kinh tế
do ngừng trệ sản xuất, hư hỏng sản phẩm và lãng phí sức lao động Hộ tiêu thụ loạinày có thể dùng phương án có hoặc không có nguồn dự phòng, đường dây một lộ hay
lộ kép Việc chọn phương án cần dựa vào kết quả so sánh giữa vốn đầu tư phải tăngthêm nguồn dự phòng và giá trị thiệt hại kinh tế do ngừng cấp điện
Hộ tiêu thụ loại 3: Là tất cả hộ tiêu thụ còn lại ngoài hộ loại 1 và loại 2, tức là
những hộ cho phép cấp điện với mức độ tin cậy thấp, cho phép mất điện trong thờigian sửa chữa, thay thế thiết bị sự cố, nhưng thường không cho phép quá một ngàyđêm (24 giờ) như các khu nhà ở, các kho, các trường học, hoặc lưới cấp điện cho nôngnghiệp Đối với hộ tiêu thụ loại này có thể dùng một nguồn điện, hoặc đường dây mộtlộ
Chất lượng điện được thường đánh giá qua hai chỉ tiêu là tần số và điện áp Phảiđảm bảo điện áp và tần số ở định mức Trong điều kiện vận hành bình thường của hệthống điện, điện áp đặt vào thiết bị điện chỉ được phép dao động ±5% so với định mức
và tần số được phép dao động ±0,2Hz để đảm bảo cho thiết bị điện và hệ thống điệnvận hành tối ưu nhất Có những thiết bị điện chỉ cho phép điện áp dao động ±2,5% sovới định mức (thiết bị chính xác cao, đèn trong các xí nghiệp…)
Tránh được nguy cơ làm hại thiết bị (quá tải, quá áp…) Thất thu ít nhất (do mấttrộm điện năng)
Vận hành dễ dàng, linh hoạt phù hợp với việc phát triển lưới điện trong tươnglai
Chí phí xây dựng lưới điện là kinh tế nhất
An toàn cho lưới điện và con người
1.2 Lý thuyết về đồ thị phụ tải
1.2.1 Khái niệm về đồ thị phụ tải
Đặc điểm của sản xuất điện năng là sản xuất và tiêu thụ điện phải thực hiệnđồng thời Tại mỗi thời điểm, hộ tiêu thụ (kể cả tổn thất) tiêu thụ bao nhiêu điện năngthì nhà máy điện phải sản xuất ra lượng điện năng tương ứng Trong thực tế, lượng
Trang 14điện năng tiêu thụ trong một ngày đêm thay đổi rất nhiều Quy luật biến thiên của phụtải được biểu diễn trên hình vẽ gọi là đồ thị phụ tải Trục tung của đồ thị biểu diễn cácđại lượng cần đo của phụ tải (công suất, sản lượng); trục hoành của đồ thị biểu diễnthời gian theo giờ hay ngày.
Có thể phân loại đồ thị phụ tải theo nhiều cách: Theo công suất; theo sản lượngtiêu thụ; theo thời gian (ngày, năm hoặc mùa); theo vị trí trong hệ thống (đồ thị phụ tảicủa hệ thống, nhà máy điện, trạm biến áp, hộ tiêu thụ, …)
Đồ thị phụ tải ngày có thể vẽ theo phương pháp từng điểm, nghĩa là cứ sau mộtkhoảng thời gian nhất định thì ta ghi lại trị số của phụ tải rồi biểu diễn từng điểm trên
hệ trục tọa độ Nối các điểm lại sẽ có đường gãy khúc biểu diễn phụ tải một cách gầnđúng Phương pháp vẽ này tuy không chính xác nhưng trong thực tế lại dùng rất phổbiến do dễ thực hiện Để thuận tiện cho việc ứng dụng vào việc xây dựng thị trườngđiện cạnh tranh, thực tế người ta biến đường gãy khúc thành đường bậc thang Khibiến đổi phải đảm bảo hai điều kiện: Một là, diện tích giới hạn bởi đường mới vàđường cũ với trục tọa độ phải bằng nhau; hai là, các điểm cực đại và cực tiểu củađường cũ phải nằm trên đường mới
1.2.2 Đồ thị phụ tải điển hình
Đồ thị phụ tải điển hình là đồ thị phụ tải đặc trưng cho một nhóm đồ thị phụ tảitrong một khoảng thời gian nhất định Đồ thị phụ tải điển hình đó có thể đại diện chomột đồ thị bất kỳ nào đó trong nhóm hay đại diện cho cả nhóm đồ thị để thực hiện mộtmục đích nhất định nào đó
1.3 Các thành phần phụ tải
Theo quy định tại Thông tư số 19/2017/TT-BCT ngày 29/09/2017 của Bộ Côngthương quy định nội dung, phương pháp và trình tự thực hiện nghiên cứu phụ tải điện,các phụ tải điện được chia thành 6 thành phần:
+ Nông nghiệp – Lâm nghiệp – Thủy sản
Trang 15Hình 1.1: Biểu đồ tỷ lệ tổn thất điện năng giai đoạn 2016-2019 của
Công ty Điện lực Thừa Thiên HuếTuy nhiên, muốn việc giảm tỷ lệ tổn thất điện năng và áp dụng vào thị trườngđiện bán lẻ cạnh tranh một cách hiệu quả cần phải có một đồ thị phụ tải chính xác, haycòn được gọi là đồ thị phụ tải điển hình Nhưng trong thực tế, việc chọn đồ thị phụ tảiđiển hình được thực hiện bằng hai cách sau: chọn đồ thị phụ tải một ngày bất kì trongnăm hoặc dùng đồ thị phụ tải cực đại Việc chọn bất kì một đồ thị phụ tải làm đồ thịphụ tải điển hình sẽ gây nên sai số trong việc bù công suất phản kháng như: sai dunglượng, đặt không đúng vị trí, đóng cắt tụ bù liên lục gây giảm tuổi thọ tụ bù cũng nhưcác thiết bị đóng cắt Hơn thế nữa, việc thiếu thu thập dữ liệu một cách liên tục là hếtsức khó khăn do việc cập nhật dữ liệu là mỗi 30 phút một lần nên dữ liệu được xâydựng không thể hoàn hảo 100% do đó việc mất dữ liệu là việc thường xuyên xảy ra.Tất cả những nội dung đó càng cho thấy sự cần thiết phải có phương pháp để xây dựng
đồ thị phụ tải điển hình có tính chính xác cao
Trang 16Chương 2: LƯỚI ĐIỆN PHÂN PHỐI TỈNH THỪA THIÊN HUẾ
2.1 Tổng quan lưới điện
2.1.1 Đặc điểm nguồn điện khu vực
Do sự phân bố dân cư trên địa bàn cũng như tính chất đa dạng của các hộ tiêuthụ, các nhà máy, khu công nghiệp được xây dựng và đã đi vào hoạt động nên nhu cầuphụ tải tăng nhanh và phức tạp hơn Có nhiều nhóm phụ tải được hình thành như: phụtải công nghiệp, phụ tải khu dân cư, phụ tải dịch vụ và các ngành khác Nguồn cungcấp chính cho lưới điện phân phối Tỉnh Thừa Thiên Huế là từ các thanh cái phía hạ áptrạm 110kV, 220 kV và các Nhà máy Thủy điện trên địa bàn Tỉnh
Hình 2.1: Sơ đồ tổng quan lưới điện tỉnh Thừa Thiên HuếTính đến tháng 9/2019, lưới điện phân phối tỉnh Thừa Thiên Huế được cấp từ
12 trạm 110kV và 02 trạm 220kV, với tổng công suất đặt 603MVA, trong đó có 03TBA chuyên biệt cấp điện cho sản xuất xi măng, dệt may là 110kV Văn Xá (Nhà máy Ximăng Luks), 110kV Đồng Lâm (Nhà máy xi măng Đồng Lâm) và 110kV Dệt Huế (Công
ty Dệt may Huế) Lưới điện phân phối tỉnh Thừa Thiên Huế hiện đang vận hành ở cáccấp điện áp 35, 22kV với 54 xuất tuyến trung thế từ các TBA 110kV
Ngoài ra, lưới điện phân phối tỉnh Thừa Thiên Huế còn được cấp điện từ cácnhà máy thủy điện nhỏ đấu nối vào, gồm A Roàng (2x3,6MW), Thượng Lộ(1x6,0MW), A Lin Thượng (1x2,5MW)
Trang 17Bảng 2.1: Các trạm biến áp 110kV, 220kV cấp điện cho lưới điện tỉnh TT-Huế
2.1.2 Đặc điểm lưới điện trung áp
Tính đến tháng 9/2019, Công ty Điện lực Thừa Thiên Huế đang quản lý khối
lượng đường dây, trạm biến áp thống kê tại Bảng 2.2
Bảng 2.2: Khối lượng quản lý đường dây và trạm biến áp
Đường dây (km) Tổng trạm
Trang 19Khu vực phía Nam tỉnh -Huế được cấp nguồn từ TBA 220kV Huế 1(40+40)MVA, 110 kV Phú Bài (40+40)MVA, 110kV Huế 3 (25 MVA), 110kV Lăng
Cô (25 MVA), 110 kV Cầu Hai (25 MVA) và 110kV Chân Mây (25 MVA)
2.1.3 Công tác quản lý vận hành lưới điện
Vận hành hệ thống điện:
a) Vận hành lưới điện: Công ty đã đảm bảo cung cấp điện cho nhu cầu sinh hoạt,SXKD Đặc biệt vào các ngày lễ lớn, các sự kiện diễn ra trên địa bàn toàn tỉnh TT-Huế, cấpđiện mùa khô và các trường hợp xảy ra thiên tai
Trang 20TG/TC, 40 RMU, 51 LBS và 81 Recloser.
- Thực hiện thao tác các thiết bị trên hệ thống SCADA với tỷ lệ thành công:
+ Thiết bị TBA 110kV: 207/207 lần thành công, đạt 100%
+ Thiết bị lưới phân phối: 312/312 lần thành công, đạt 100%
Trang 21- Hệ thống đã phát huy được hiệu quả trong vận hành lưới điện, nâng cao độ tincậy cung cấp điện, ước SAIDI thực hiện giảm 30,1 phút (lũy kế năm 2019 giảm 147,2phút).
Thực hiện các chỉ số độ tin cậy cung cấp điện
Các chỉ số về độ tin cậy cung cấp điện thống kê đến tháng 9 năm 2019
của Công ty Điện lực Thừa Thiên Huế như sau:
- MAIFI (Momentary Average Interruption Frequency Index) - Tần suất trung
bình của mất điện thoáng qua: 0,882/1,46 lần chiếm 60,4% kế hoạch
- SAIDI (System Average Interruption Duration Index) - Thời gian ngừng cung
cấp điện trung bình của hệ thống: 216,774/290 phút chiếm 74,7% kế hoạch
- SAIFI (System Average Interruption Frequency Index) - Tần suất ngừng cung
cấp điện trung bình hệ thống: 1,958/7,62 lần chiếm 25,7% kế hoạch
Dự kiến thực hiện chỉ tiêu SAIDI tổng hợp cho lưới điện toàn tỉnh đến năm
2020 phấn đấu đạt 281 phút, tương đương với các thành phố lớn trong cả nước
2.2 Đặc điểm phụ tải sử dụng điện
Trên địa bàn tỉnh Thừa Thiên Huế, tính đến tháng 9 năm 2019, Công ty Điệnlực Thừa Thiên Huế đang quản lý bán điện cho 303.770 khách hàng Trong đó nhómkhách hàng sinh hoạt mặc dù số lượng chiếm 91,27% nhưng sản lượng điện thươngphẩm chỉ chiếm 35,06%, ngược lại khách hàng nhóm công nghiệp xây dựng tuy chỉchiếm 2,71% về số lượng nhưng đóng góp đến 52,07% tỷ lệ điện thương phẩm
Bảng 2.3: Thống kê tỷ lệ khách hàng và điện thương phẩm
Khách hàng Điện thương phẩmCác tiêu chí
dựng (CN-XD)Theo các thành Kinh doanh - Dịch vụ
phần phụ tải (KD-DV)
Trang 22Hoạt động khác 11.568 3,81 62,36 4,54
Trang 23Hình 2.3: Tỷ trọng điện thương phẩm giữa các thành phần phụ tải
Trang 24Chương 3: XÂY DỰNG ĐỒ THỊ PHỤ TẢI ĐIỂN HÌNH
Theo Thông tư 19, xây dựng đồ thị phụ tải điện được thực hiện bằng cách sửdụng kết hợp giữa hai phương pháp từ dưới lên (Bottom-up) và phương pháp từ trênxuống (Top-down), cụ thể như sau:
- Phương pháp từ dưới lên là phương pháp chính để thực hiện nghiên cứu phụ tảiđiện: Số liệu đo đếm, tiêu thụ điện quá khứ của mẫu phụ tải điện được thu thập, tổnghợp làm số liệu đầu vào để xây dựng biểu đồ phụ tải điện cho mẫu phụ tải điện, phânnhóm phụ tải điện, thành phần phụ tải điện và hệ thống điện
- Phương pháp từ trên xuống là phương pháp được sử dụng để hỗ trợ kiểmchứng, hiệu chỉnh kết quả xây dựng biểu đồ phụ tải điện của phương pháp từ dưới lên cóxét đến các yếu tố về phát triển kinh tế, xã hội: Số liệu đo đếm, tiêu thụ điện quá khứ của
hệ thống điện, phụ tải điện được thu thập để đối chiếu, hiệu chỉnh kết quả xây dựng biểu
đồ phụ tải điện của hệ thống điện, thành phần phụ tải điện, nhóm phụ tải
điện và phân nhóm phụ tải điện đã được thực hiện từ phương pháp nghiên cứu phụ tải điện từ dưới lên
Như vậy, để xây dựng đồ thị phụ tải điển hình ta cần phải có được 2 yếu tố:
- Dữ liệu về phụ tải trong quá khứ
- Phát triển các thuật toán để xây dựng đồ thị phụ tải điển hình
3.1 Dữ liệu về phụ tải trong quá khứ
3.1.1 Thu thập dữ liệu từ hệ thống DSPM
Hệ thống DSPM gồm 3 module chính:
o DSPMComms: Module thực hiện kết nối để thu thập dữ liệu trực tiếptheo thời gian thực đến từng công tơ (Elster, LandisGyr, EDMI, ) bằng các đường truyềnkhác nhau như: ADSL, cáp quang, GSM, GPRS, EDGE, 3G Network
o DSPMAnalyze: Module thực hiện chức năng phân tích số liệu mà moduleDSPMComms thu thập về để đưa vào cơ sở dữ liệu lưu trữ
o DSPM: Module quản lý và khai thác số liệu đo đếm, bao gồm các tính năng chính sau đây:
▪ Xem các thông số vận hành như công suất, phản kháng, dòng, áp, cosphi theo thời gian thực Thông tin chỉ số chốt tháng
▪ Kết nối với hệ thống Quản lý khách hàng để đưa chỉ số vào hệ thống
tính hóa đơn
▪ Đặc biệt là chức năng cảnh báo của chương trình theo các sự kiệncông tơ ghi nhận được và cảnh báo theo thông số vận hành và được gửi đến người cótrách nhiệm qua Email, SMS, qua chương trình,
Trang 25▪ Cung cấp cho khách hàng giao diện web để xem thông số vận hành, biểu đồ phụ tải theo thời gian 30 phút, chỉ số chốt tháng.
- HES IFC có chức năng thu thập dữ liệu công tơ nhà máy thủy điện; trạm biến
áp công cộng; trạm biến áp chuyên dùng; khách hàng có sản lượng lớn;
- HES RF-EMEC có chức năng thu thập dữ liệu công tơ 3 pha 3 giá qua bộ thu thập tập trung;
- HES DSPM có chức năng thu thập dữ liệu công tơ các trạm biến áp 110kV trởlên;
- HES EVNHES có chức năng thu thập công tơ trạm biến áp công cộng đang thử nghiệm các điểm đo nghiên cứu phụ tải
Hình 3.1: Nguyên lý hệ thống DSPM
Hệ thống DSPM sẽ đồng bộ số liệu từ các HES đổ về định kỳ 30 phút về cơ sở
dữ liệu chung để người dùng khai thác cho dù công tơ được thu thập từ HES nào đichăng nữa
Hệ thống DSPM được triển khai đồng thời tại 2 site: Data center (DC) và DataCenter Disaster Recovery (DR) trên các máy chủ theo mô hình Active-Standby Tạimỗi địa điểm, các thành phần của hệ thống được xây dựng tương đồng, trong đó mỗisite gồm 2 server được cài đặt và cấu hình các thành phần sau: 01 server được cài đặt
Trang 26và cấu hình OracleDB 12c; 01 server được cài đặt và cấu hình Weblogic 12c; 01 serverđược cài đặt và cấu hình Web proxy (Apache).
Hình 3.2: Mô hình vận hành tổng thể của hệ thống DSPMTại mỗi site, các thành phần máy chủ đảm nhiệm chức năng cụ thể như sau:
- Web proxy server: Đóng vai trò làm front-end, đảm nhận việc hứng các request
từ phía user và chuyển tiếp đến application server Cụ thể hơn là các yêu cầu truy cập vàoứng dụng được triển khai trên application server
- WebLogic Server: Server đóng vai trò làm môi trường cho ứng dụng DSPM.Ứng dụng DSPM sẽ được cài đặt trên Weblogic Server Các HES sẽ thực hiện việctương tác với hệ thống DSPM bằng cách kết nối trực tiếp đến Application Serverthông qua port 7501/7502 hay 7503
- Oracle Database: Đóng vai trò là cơ sở dữ liệu của ứng dụng DSPM
- Oracle DataGuard được sử dụng để đồng bộ dữ liệu từ DC sang DR thông quagiao thức kết nối TCP cổng 1521 Mọi thay đổi về dữ liệu được thực hiện ở DC sẽ đượcđồng bộ sang DR theo thời gian thực Để đảm bảo tính đồng nhất về dữ liệu giữa 2 site,database tại DC được bật ở chế độ read/write (cho phép đọc và ghi dữ liệu) và databasetại DR được bật ở chế độ read-only (chỉ cho phép đọc dữ liệu)
Hệ thống vận hành chính thức được lưu trữ tại DC và hệ thống dự phòng lưu trữtại DR tại 2 địa điểm vật lý cách xa nhau Hai hệ thống luôn hỗ trợ cho nhau mỗi khimột trong hai có sự cố Khi hệ thống DC gặp trở ngại sẽ được cấu hình để chuyển sang
sử dụng hệ thống DR và ngược lại Dữ liệu tại 2 hệ thống luôn luôn được đồng bộonline với nhau do đó đảm bảo được tính toàn vẹn và nhất quán dữ liệu Mã định danhcủa điểm đo được hệ thống DSPM lưu trữ chính là mã điểm đo hiện có trên hệ thốngQuản lý khách hàng và mã định danh công tơ được kết hợp theo quy tắc Mã chủng loạicông tơ + Năm sản xuất công tơ + Số chế tạo công tơ tạo thành 1 chuỗi mã công tơđảm bảo tính duy nhất của mã công tơ trên hệ thống Điều này đảm bảo nguyên tắc
Trang 27một công tơ không được phép tồn tại 2 điểm đo trên hệ thống DSPM Ngoài ra, dữ liệucông tơ chính mà hệ thống DSPM quản lý là dữ liệu thu thập được từ các HES hằnggiờ đổ về DSPM, bao gồm các thông số vận hành, chỉ số công tơ, chỉ số chốt tự độngtrong thanh ghi công tơ, biểu đồ phụ tải và các sự kiện cảnh báo trong công tơ cũngđược DSPM quản lý chặt chẽ.
Hình 3.3: Bộ chỉ số mô phỏng lấy từ chương trình
DSPM 3.1.2 Khôi phục dữ liệu bị mất
Cơ sở dữ liệu về công suất, sản lượng điện tiêu thụ của các phụ tải được tríchxuất từ hệ thống quản lý đo đếm từ xa DSPM Tuy nhiên việc lấy dữ liệu phụ tải liêntục nhiều năm của tất cả phụ tải trên địa bàn toàn tính là một công việc hết sức khókhăn vì dữ liệu được cập nhật 30 phút một lần, 48 lần/ngày nên dữ liệu được xây dựngkhông thể hoàn thiện 100%, việc mất dữ liệu là điều chắc chắn xảy ra
Do đó, xử lý dữ liệu bị thiếu hay mất là vấn đề vô cùng quan trọng trong việcđảm bảo được nguồn dữ liệu lâu dài cũng như độ chính xác của kết quả xây dựng đồthị phụ tải điển hình
Dữ liệu
bị mất
Hình 3.4: Dữ liệu thu thập được bị mất
Trang 283.1.2.1 Quy định của Bộ công thương về khôi phục dữ liệu
Điều 16 – Thông tư 19 quy định 6 phương pháp hiệu chỉnh và ước lượng số liệu
đo đếm như sau:
➢ Nội suy tuyến tính: Nội suy từ đường đặc tính xu thế tiêu thụ điện.
➢ Ngày tương đồng: Sử dụng dữ liệu ngày tương đồng của tuần hiện tại hoặc tuần trước
➢ Tự động ước lượng: Sử dụng trong trường hợp dữ liệu bị thiếu không quá
➢ Hiệu chỉnh ước lượng giá trị trung bình các tuần của ngày tham chiếu: Căn
cứ vào dữ liệu của 04 tuần gần nhất
3.1.2.2 Các phương pháp khôi phục dữ liệu
Phương pháp này thường được sử dụng để xử lý các giá trị null Ở đây, chúng ta
sẽ xóa một hàng hay một cột cụ thể nếu hàng hoặc cột đó có hơn 70-75% giá trị bịthiếu Phương pháp này chỉ được khuyến nghị khi có đủ mẫu trong tập dữ liệu Phảiđảm bảo rằng sau khi chúng ta xóa dữ liệu, không có sự chênh lệch nào Xóa dữ liệu sẽdẫn đến mất thông tin sẽ không mang lại kết quả như mong đợi khi dự đoán đầu ra
- Mất thông tin và dữ liệu
- Hoạt động kém nếu tỷ lệ phần trăm thiếu giá trị cao (ví dụ 30%), so với toàn
bộ dữ liệu
Phương pháp này được áp dụng khi thiếu một vài điểm dữ liệu, chúng ta có thểtính giá trị trung bình hoặc trung vị của dữ liệu và thay thế nó bằng các giá trị cònthiếu Đây là một phương pháp xấp xỉ nên có thể thêm phương sai vào tập dữ liệu.Nhưng việc mất dữ liệu có thể được phục hồi bằng phương pháp này mang lại kết quảtốt hơn so với việc loại bỏ các hàng và cột Một cách khác là ước tính nó với độ lệchcủa các giá trị lân cận Điều này hoạt động tốt hơn nếu dữ liệu là tuyến tính
Ưu điểm:
Trang 29- Đây là một cách khắc phục tốt khi kích thước của tập dữ liệu nhỏ
- Nó có thể hạn chế mất dữ liệu dẫn đến việc loại bỏ các hàng và cột
Nhược điểm:
- Đưa ra các giá trị gần đúng thêm phương sai và sai lệch
- Hoạt động kém so với các phương pháp đa mục tiêu khác
Ở đây, chúng ta thay thế dữ liệu còn thiếu bằng các dữ liệu liền kề nó Phương
pháp này sẽ thêm nhiều thông tin hơn vào bộ dữ liệu, khắc phục được lượng dữ liệu bị
thiếu Với đặc thù lấy mẫu theo thời gian ngắn và chênh lệch nhỏ thì đây là một phương
pháp rất hiệu quả
Ưu điểm:
- Phương sai thấp vì dữ liệu mang tính xấp xỉ
- Loại bỏ việc mất dữ liệu bằng cách thay thế nó bằng dữ liệu liền kề
- Không hiệu quả khi dữ liệu bị thiếu quá nhiều
Kết luận:
Dựa vào bộ số liệu được trích xuất từ hệ thống DSPM và ưu nhược điểm của các
phương pháp kể trên, phương pháp được sử dụng để bổ sung dữ liệu thiếu trong đề tài
này là phương pháp sử dụng dữ liệu ngày tương đồng của tuần hiện tại hoặc tuần trước
theo quy định tại Điều 16, Thông tư 19
3.2 Phát triển các thuật toán để xây dựng đồ thị phụ tải điển hình
Đề tài này đề xuất phương án xây dựng đồ thị phụ tải điển hình bằng phần mềm
MATLAB dựa trên thuyết tự học của máy móc (Machine Learning Theory) trên dữ
liệu thực tế thu thập được từ các công tơ đo xa trên địa bàn tỉnh Thừa Thiên Huế
Thuyết tự học của máy móc
(Machine Learning Theory)
Tự học có giám sát Tự học không được giám sát
Trang 30Tự học có giám sát (Supervised Learning)
Supervised Learning là phương pháp dự đoán đầu ra (output) của một dữ liệu mới (new input) dựa trên các cặp (input, output) đã biết từ trước Cặp dữ liệu này còn được gọi là (data, label), tức (dữ liệu, nhãn) Supervised Learning là nhóm phổ biến
nhất trong các phương pháp Machine Learning
Một cách toán học, Supervised Learning là khi chúng ta có một tập hợp biến đầu vào X = {x 1 ,x 2 ,…,x N } và một tập hợp nhãn tương ứng Y = {y 1 ,y 2 ,…,y N }, trong đó x i , y i là các vector Các cặp dữ liệu biết trước (x i , y i ) ∈ X×Y được
gọi là tập training data (dữ liệu huấn luyện) Từ tập training data này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần
tử từ tập X sang một phần tử (xấp xỉ) tương ứng của tập Y: Y i ⋍ f(x i ), i = 1,2,…,N Ɐ
Mục đích là xấp xỉ hàm số f thật tốt để khi có dữ liệu x mới, chúng ta có thể tínhđược nhãn dán tương ứng của nó y = f(x)
Ví dụ: Thuật toán dò các khuôn mặt trong một bức ảnh đã được phát triển từ rất
lâu Thời gian đầu, facebook sử dụng thuật toán này để chỉ ra các khuôn mặt trong mộtbức ảnh và yêu cầu người dùng tag friends - tức gán nhãn cho mỗi khuôn mặt Sốlượng cặp dữ liệu (khuôn mặt, tên người) càng lớn, độ chính xác ở những lần tự độngtag tiếp theo sẽ càng lớn
Phương pháp Supervised Learning còn được tiếp tục chia nhỏ ra thành hai loại
chính:
• Classification (Phân loại)
Một bài toán được gọi là Classification nếu các label của input data được chia
thành một số hữu hạn nhóm Ví dụ: Gmail xác định xem một email có phải là spamhay không; các hãng tín dụng xác định xem một khách hàng có khả năng thanh toán nợhay không
• Regression (Hồi quy)
Nếu label không được chia thành các nhóm mà là một giá trị thực cụ thể Ví dụ:
một căn nhà rộng x m2, có y phòng ngủ và cách trung tâm thành phố z km sẽ có giá làbao nhiêu?
Tự học không được giám sát (Unsupervised Learning)
Trong phương pháp này, chúng ta không biết được outcome hay nhãn mà chỉ có
dữ liệu đầu vào Phương pháp Unsupervised Learning sẽ dựa vào cấu trúc của dữ liệu
để thực hiện một công việc nào đó, ví dụ như phân nhóm (clustering) hoặc giảm sốchiều của dữ liệu (dimension reduction) để thuận tiện trong việc lưu trữ và tính toán
Một cách toán học, Unsupervised Learning là khi chúng ta chỉ có dữ liệu vào X
mà không biết nhãn Y tương ứng
Những thuật toán loại này được gọi là Unsupervised Learning vì không giống như Supervised Learning, chúng ta không biết câu trả lời chính xác cho mỗi dữ liệu
Trang 31đầu vào Giống như khi ta học, không có thầy cô giáo nào chỉ cho ta biết đó là chữ A
hay chữ B Cụm không giám sát được đặt tên theo nghĩa này
Các bài toán Unsupervised Learning được tiếp tục chia nhỏ thành hai loại:
• Clustering (Phân nhóm)
Một bài toán phân nhóm toàn bộ dữ liệu X thành các nhóm nhỏ dựa trên sự liênquan giữa các dữ liệu trong mỗi nhóm Ví dụ: phân nhóm khách hàng dựa trên hành vimua hàng Điều này cũng giống như việc ta đưa cho một đứa trẻ rất nhiều mảnh ghépvới các hình thù và màu sắc khác nhau, ví dụ tam giác, vuông, tròn với màu xanh và
đỏ, sau đó yêu cầu trẻ phân chúng thành từng nhóm Mặc dù không cho trẻ biết mảnhnào tương ứng với hình nào hoặc màu nào, nhiều khả năng chúng vẫn có thể phân loạicác mảnh ghép theo màu hoặc hình dạng
• Association (Kết hợp)
Là bài toán khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều dữ liệucho trước Ví dụ: những khách hàng nam mua quần áo thường có xu hướng mua thêmđồng hồ hoặc thắt lưng; những khán giả xem phim tại rạp thường có xu hướng muathêm bắp ngô hay nước uống, dựa vào đó tạo ra một hệ thống gợi ý khách hàng(Recommendation System), thúc đẩy nhu cầu mua sắm
Kết luận: Thông qua các khái niệm trên ta thấy rằng phương pháp Tự học không
được giám sát mà cụ thể là bài toán Phân nhóm là phù hợp với vấn đề cần giải quyết,
bởi vì:
- Số liệu phụ tải là tập hợp các dữ liệu đầu vào (X)
- Chúng ta cần phải phân nhóm toàn bộ dữ liệu X thành các nhóm nhỏ dựatrên sự liên quan giữa các dữ liệu trong mỗi nhóm Dựa vào đó ta tìm được đồ thị phụ tảiđiển hình đặc trưng cho các nhóm phụ tải khác nhau
3.2.1 Một số thuật toán trong bài toán phân nhóm:
ClusteringMethods
K-means methodsK- Bottom-up downTop- DBSCAN OPTICS
Hình 3.6: Sơ đồ một số thuật toán trong bài toán Phân nhóm (Clustering)
Trang 32Thuật toán phân vùng dữ liệu (Partitioning Methods)
Phương pháp này tiến hành phân vùng trên bộ dữ liệu, trước tiên nó tạo một bộ
dữ liệu ban đầu của phân vùng k hay còn gọi là centroids - là giá trị trung tâm củavùng đó, trong đó k là số phân vùng để xây dựng Sau đó dùng kỹ thuật di chuyển lặplại nhằm cải thiện việc phân vùng bằng cách di chuyển các đối tượng từ nhóm nàysang nhóm khác Phương pháp này gồm hai thuật toán phổ biến K-means và K-methods Thông thường K được lựa chọn ngẫu nhiên sau đó lặp lại quá trình phân cụmcủa các điểm dữ liệu vào các phân vùng k sao cho tối ưu hóa tiêu chí phân cụm Cónghĩa là tổng bình phương sai số giữa các đối tượng trong một phân vùng so vớicentroids là nhỏ nhất
Thuật toán phân cấp (Hierarchical Methods)
Phương pháp này tiến hành chia bộ dữ liệu các đối tượng thành một phân cấp củamột nhóm Nút gốc thể hiện toàn bộ tập dữ liệu mỗi nhánh là một đối tượng duy nhấtcủa bộ dữ liệu Các kết quả phân cụm có thể thu được bằng cách cấp dendrogram ở cácmức khác nhau Có hai cách tiếp cận chung cho phương pháp phân cấp: sự kết hợp (từdưới lên) và chia (từ trên xuống) Việc kết hợp hoặc chia sẽ dừng lại khi số lượng cụmmong muốn đã được hình thành Thông thường số lần lặp lại dựa trên một tiêu chí nhấtđịnh và thường là khoảng cách giữa các cụm
Phương pháp dựa trên mật độ (Density-Based Methods)
Để phát hiện các cụm có hình dạng tùy ý, các phương pháp phân cụm dựa trênmật độ đã được phát triển Phương pháp này thường coi các cụm là các vùng dày đặccủa các đối tượng trong không gian dữ liệu được phân tách bởi các vùng có mật độthấp biểu diễn nhiễu Có hai cách tiếp cận chính cho phương pháp này Đầu tiên làghim đến một điểm dữ liệu đào tạo và các thuật toán đại diện bao gồm DBSCAN vàOPTICS Phương pháp tiếp cận thứ hai là ghim đến một điểm trong không gian thuộctính và nó gồm có thuật toán DENCLUE
Bảng 3.1: So sánh các thuật toán
• Có thể mở rộng tương đối và • Suy thoái ở trong không
(Partitioning) • Thích hợp cho các tập dữ • Độ nhảy cao đối với giai
liệu nhỏ gọn, tách biệt tốt đoạn khởi tạo
• Tính linh hoạt cao • Không có khả năng sửa
• Phù hợp với vấn đề liên quan chữa nếu việc tách hoặcPhân cấp đến liên kết điểm áp dụng sát nhập được thực hiện.
với nhiều loại thuộc tính • Tiêu chí dừng còn mơ hồ.(Hierarchical)
• Giá trị hàm tối ưu cao đốivới các tập dữ liệu chiều
Trang 34Thuật toán Thuận lợi Bất lợi
• Tìm ra được các cụm dạng • Độ nhạy cao với thông sốDựa trên mật độ tùy ý với các kích thước đầu vào.
(Density-Based)
• Khả năng chống nhiễu tốt liệu chiều cao
• Mô tả cụm nghèo
Kết luận: Qua các nghiên cứu cho thấy thuật toán được sử dụng rộng rãi hiện
nay để nghiên cứu các bài toán phân nhóm là thuật toán K-Means, là một trong số các
thuật toán thuộc Unsupervised Learning Bởi vì tính đơn giản, dễ thực hiện lại có thể
xử lý được bộ số liệu khá lớn nên ta chọn thuật toán này để giải quyết vấn đề xây dựng
đồ thị phụ tải
3.2.2 Xây dựng đồ thị phụ tải điển hình bằng thuật toán K-means
Giới thiệu về thuật toán
Thuật toán K-Means là một trong những thuật toán tự học không giám sát đơngiản nhất để giải quyết vấn đề phân cụm dữ liệu với số cụm được xác định trước là Kcụm
K-means thuộc nhóm phân cụm dữ liệu cứng/rõ, ý tưởng chính là để xác định ktrọng tâm cho k cụm, một trọng tâm cho mỗi cụm Những trọng tâm nên được đặt ở vịtrí thích hợp nhất vì vị trí khác nhau gây ra kết quả khác nhau Vì vậy, sự lựa chọn tốthơn là đặt chúng càng nhiều càng tốt và cách xa nhau Bước tiếp theo là với mỗi điểmthuộc tập dữ liệu cho trước và liên kết nó với trọng tâm gần nhất
Trong thuật toán K-means, chúng ta không biết nhãn (label) của từng điểm dữliệu Mục đích là làm thế nào để phân dữ liệu thành các cụm (cluster) khác nhau saocho dữ liệu trong cùng một cụm có tính chất giống nhau
Ý tưởng đơn giản nhất về cluster (cụm) là tập hợp các điểm ở gần nhau trong mộtkhông gian nào đó (không gian này có thể có rất nhiều chiều trong trường hợp thông tin
về một điểm dữ liệu là rất lớn) Hình bên dưới là một ví dụ về 3 cụm dữ liệu (cluster)
Giả sử mỗi cluster có một điểm đại diện (centroids), và những điểm xung quanh
mỗi centroids thuộc vào cùng nhóm với centroids đó Một cách đơn giản nhất, xét mộtđiểm bất kỳ, ta xét xem điểm đó gần với centroids nào nhất thì nó thuộc về cùng nhómvới centroids đó
Trang 35Hình 3.7: Ví dụ về phân cụm dữ liệu (cluster) của thuật toán
K-means Phân tích toán học
Mục đích cuối cùng của thuật toán phân nhóm này là: từ dữ liệu đầu vào và sốlượng nhóm chúng ta muốn tìm, hãy chỉ ra centroids của mỗi nhóm và phân các điểm
dữ liệu vào các nhóm tương ứng Giả sử thêm rằng mỗi điểm dữ liệu chỉ thuộc vàođúng một nhóm
Một số kí hiệu toán học
Giả sử có N điểm dữ liệu là X = [x 1 , x 2 , …, x N ] ∈ R d×N và K < N là số cluster chúng ta muốn phân chia Chúng ta cần tìm các centroids M = [m 1 , m 2 , …, m K ] ∈
R d×1 và label Y của mỗi điểm dữ liệu.
label vector là [1,0,0,…,0] thì nó thuộc vào cluster 1, là [0,1,0,…,0] thì nó thuộc vào cluster 2, …
Ràng buộc của yi có thể viết dưới dạng toán học như sau:
∈ {0,1}, ∑ = 1
=1
Hàm tối ưu và bài toán tối ưu
Nếu ta coi centroids m k là centroids (hoặc representative) của mỗi cluster và ước lượng tất cả các điểm được phân vào cluster này bởi m k , thì một điểm dữ liệu x i được phân vào cluster k sẽ có sai số là (x i − m k ) Chúng ta mong muốn sai số này có trị tuyệt đối nhỏ nhất nên ta sẽ tìm cách để đại lượng sau đây đạt giá trị nhỏ nhất: ‖ − ‖2
Trang 36Hơn nữa, vì x được phân vào cluster k nên y =1, y =0, ∀j ≠ k Khi đó, biểu thức bên trên sẽ được viết lại là:
Trong đó: Y = [y1, y2,…, yN], M = [m1, m2, …, mK] lần lượt là các ma trận được
tạo bởi label vector của mỗi điểm dữ liệu và centroids của mỗi cluster Hàm tối ưu
trong bài toán K-means của chúng ta là hàm L(Y, M) với ràng buộc như được nêu
Khái niệm argmin: Chúng ta biết ký hiệu min là giá trị nhỏ nhất của hàm
số, argmin chính là giá trị của biến số để hàm số đó đạt giá trị nhỏ nhất đó Nếu f(x) = f(x) = 2 − 2x + 1 = ( − 1) 2 ; thì giá trị nhỏ nhất của hàm số này bằng 0, đạt
được khi x = 1 Trong ví dụ này minf(x) = 0 và argminf(x) = 1.
Thêm ví dụ khác, nếu x1 = 0, x2 = 10, x3 = 5 Thì ta nói argminxi = 1 vì 1 là chỉ
số để xi đạt giá trị nhỏ nhất (bằng 0) Biến số viết bên dưới min là biến số chúng ta cần
tối ưu Trong các bài toán tối ưu, ta thường quan tâm tới argmin hơn là min
Giải bài toán tối ưu
Bài toán (3.4) là một bài toán khó tìm điểm tối ưu vì nó có thêm các điều kiện
ràng buộc Bài toán này thuộc loại mix-integer programming (điều kiện biến là số
nguyên) - là loại rất khó tìm nghiệm tối ưu toàn cục (global optimal point, tức nghiệm
làm cho hàm tối ưu đạt giá trị nhỏ nhất có thể) Tuy nhiên, trong một số trường hợp
chúng ta vẫn có thể tìm được phương pháp để tìm được nghiệm gần đúng hoặc điểm
cực tiểu
Một cách đơn giản để giải bài toán (3.4) là xen kẽ giải Y và M khi biến còn lại
được cố định Đây là một thuật toán lặp, cũng là kỹ thuật phổ biến khi giải bài toán tối
ưu Chúng ta sẽ lần lượt giải quyết hai bài toán sau đây:
Trang 37Giả sử đã tìm được các centroids, hãy tìm các label vector để hàm tối ưu đạt giá
trị nhỏ nhất Điều này tương đương với việc tìm cluster cho mỗi điểm dữ liệu
Khi các centroids là cố định, bài toán tìm label vector cho toàn bộ dữ liệu có thể
được chia nhỏ thành bài toán tìm label vector cho từng điểm dữ liệu xi như sau:
=1
Thõa mãn điều kiện: ∈ {0,1} ∀ ; ∑ = 1
=1
Vì chỉ có một phần tử của label vector yi bằng 1 nên bài toán (3.6) có thể tiếp tục
được viết dưới dạng đơn giản hơn:
= ‖ − ‖ 2
thuộc vào cluster có centroids gần nó nhất Từ đó ta có thể dễ dàng suy ra label vector của từng điểm dữ liệu.
Giả sử đã tìm được cluster cho từng điểm, hãy tìm center mới cho mỗi cluster để
hàm mất mát đạt giá trị nhỏ nhất
Một khi chúng ta đã xác định được label vector cho từng điểm dữ liệu, bài toán
tìm centroids cho mỗi cluster được rút gọn thành:
=1
Tới đây, ta có thể tìm nghiệm bằng phương pháp giải đạo hàm bằng 0, vì hàm
cần tối ưu là một hàm liên tục và có đạo hàm xác định tại mọi điểm Và quan trọng
hơn, hàm này là hàm convex (lồi) theo mj nên chúng ta sẽ tìm được giá trị nhỏ nhất và
điểm tối ưu tương ứng
Đặt l(mj) là hàm bên trong dấu argmin, ta có đạo hàm:
Trang 38Ta thấy rằng mẫu số chính là phép đếm số lượng các điểm dữ liệu trong cluster j Còn tử số chính là tổng các điểm dữ liệu trong cluster j Hay nói cách khác: mj là trungbình cộng của các điểm trong cluster j Tên gọi K-means cũng xuất phát từ đây.
Thuật toán Fuzzy K-Means
Fuzzy K-Means là một phần mở rộng của K-Means Trong khi K-Means pháthiện ra các cụm cứng (một điểm chỉ thuộc về một cụm), Fuzzy K-Means là mộtphương pháp được chính thức hóa hơn và phát hiện ra các cụm mềm, trong đó mộtđiểm cụ thể có thể thuộc nhiều hơn một cụm với xác suất nhất định
Thuật toán có thể được mô tả như sau :
• Bước 1 : Tạo ngẫu nhiên c phân vùng với c tâm vùng Vi tương ứng
• Bước 2 : Sắp xếp các đối tượng sao cho gần tâm vùng nhất, điều này có nghĩa là:
• Bước 3 : Tính toán lại tâm vùng:
• Bước 4 : Dừng nếu vùng hội tụ, quay lại bước 2 trong trường hợp khác
Như vậy với việc đưa vào G ,V và hàm mục tiêu J, ta có thể mô tả lại việc xácđịnh tâm vùng và gom cụm như sau :
• Bước 2 : Tối thiểu hàm J với G trong khi V được cố định
• Bước 3 : Tối thiểu J với V trong khi G được cố định
Hàm tối ưu trong bài toán Fuzzy K-means:
Trang 39Chương trình thuật toán đề xuất:
Cú pháp:
[Centers, U, objFun] = fcm(data, k, options);
trong đó: data là dữ liệu cần phân cụm
k: số cụm cần phân options: các tùy chọn chỉnh định tham số phân cụm Kết quả trả về:
centers: ma trận trung tâm của cụm.
U: ma trận biểu thị mức độ thành viên của dữ liệu trong cụm.
objFun: giá trị của hàm mục tiêu qua các lần lặp.
So sánh hai thuật toán K-means và Fuzzy K-means
K-means luôn nhanh hơn Fuzzy K-means trong tất cả các bộ dữ liệu có chứacác cụm tán xạ thường xuyên hoặc mô hình không đều Fuzzy K-means là một thuậttoán dựa trên các phép tính lặp đi lặp lại, do đó việc nó tìm thấy phân cụm nhanh hơnmong đợi
Một yếu tố quan trọng trong việc lựa chọn một thuật toán phân cụm thích hợp làhình dạng của các cụm trong bộ dữ liệu được phân tích Thất bại phân cụm của cả haithuật toán được tìm thấy gần như bằng nhau cho tất cả các hình dạng của các cụm tán
xạ Tuy nhiên, sự phân cụm của chúng tốt hơn cho các cụm hình chữ nhật khi so sánhvới các cụm elip Thêm nữa, nghiên cứu thực nghiệm nên được thực hiện để làm rõ vàphát hiện bằng cách sử dụng các hình thức định mức khoảng cách khác như Manhattan
và bằng cách áp dụng các thuật toán phái sinh của K-means và Fuzzy K-means
Sivarathri & Govardhan (2014) nói rằng Fuzzy means tốt hơn so với means về độ chính xác của các cụm trên tập dữ liệu bệnh tiểu đường thu được từ khoUCI Tuy nhiên, trong nghiên cứu này, cả K-means và Fuzzy K-means đã thành côngkhi tìm thấy các cụm lõm và các loại hình dạng tùy ý khác
K-Ví dụ, phương pháp phân cụm phổ và phương pháp kết tụ phân cấp cho các cấutrúc cụm tròn lồng nhau, phương pháp kết tụ phân cấp và mật độ dựa các phương phápnhư Dbscan và Birch cho các cụm lõm có thể là các lựa chọn tốt trong phân tích cụm.Trên dựa trên kết quả thử nghiệm, nên sử dụng K-means với nhiều lần khởi động vì nóthấp hơn thời gian tính toán hơn thời gian của thuật toán Fuzzy K-means cho tất cả cáchình dạng và các cụm tán xạ được phân tách tốt Như được báo cáo trong nhiều nghiêncứu trong khi Fuzzy K-means sẽ cho kết quả tốt hơn đối với các bộ dữ liệu cụm ồn ào
sẽ được sự lựa chọn tốt cho các bộ dữ liệu lớn vì tốc độ thực hiện của nó Vì vậy, việc
sử dụng K-means phải là một điều tốt điểm khởi đầu cho các bộ dữ liệu nông nghiệplớn do thời gian thực hiện nhanh
Như một kết luận cuối cùng, không có bất kỳ thuật toán nào là tốt nhất cho mọitrường hợp Do đó, các bộ dữ liệu cần được kiểm tra cẩn thận về hình dạng và sự phân
Trang 40tán của các cụm để quyết định một thuật toán phù hợp Để đạt được điều này, các sơ
đồ phân tán 2D và/hoặc 3D của bộ dữ liệu cung cấp ý tưởng tốt để hiểu cấu trúc củacụm trong bộ dữ liệu Khi các đối tượng đa tính năng được phân tích, để khắc phục để
vẽ đồ thị cho không gian đa chiều, một kỹ thuật giảm kích thước, chẳng hạn như chia
tỷ lệ đa chiều (MDS) hoặc phân tích thành phần chính (PCA) có thể được áp dụng đểgiảm kích thước của bộ dữ liệu Hơn nữa, bởi sử dụng một phương pháp lấy mẫu phùhợp, quá trình này có thể được hoàn thành trong thời gian thực hiện ngắn hơn
Thuật toán Elbow
Tuy nhiên, K-Means vẫn còn là thuật toán đơn giản, số lượng cụm K do ngườidùng tự quyết định Điều này dẫn đến sự phân cụm có thể đạt độ chính xác chưa cao
Do đó, khi sử dụng thuật toán này người ta sử dụng một số cách để xem K có phải là
số cụm phù hợp không Một phương pháp thường được sử dụng đó là Elbow-method
Ý tưởng của phương pháp này là chạy bài toán phân cụm cho bộ số liệu đầu vàotrong một phạm vi giá trị k (ví dụ: K = 1:10) Ứng với mỗi giá trị K ta tính tổng sai sốbình phương (SSE) độ lệch của các điểm dữ liệu thuộc một cụm so với giá trị trung tâmcủa cụm đó
Sau đó ta vẽ biểu đồ đường của SSE cho mỗi giá trị của K Nếu biểu đồ đườngtrông giống như một cánh tay thì “ khuỷu tay” trên cánh tay cho giá trị k là tốt nhất Ýtưởng của thuật toán này là chúng ta muốn có một SSE nhỏ, nhưng SSE sẽ có xuhướng giảm về 0 khi chúng ta tăng K
Hình 3.8: Mô tả thuật toán Elbow
Kết luận: Mục tiêu của chúng ta là chọn một giá trị K nhỏ mà SSE thấp, và
khuỷu tay (điểm trong vòng tròn màu xanh ở Hình 3.8) là giá trị mà ta cần tìm Tại đó,sai số về sau sẽ bắt đầu giảm không còn đáng kể khi chúng ta tăng K Vì vậy có sự kếthợp giữa việc sử dụng thuật toán K-means và Fuzzy K-means để tìm ra đồ thị phụ tải