Sử dụng thuật toán phân nhóm mờ, dữ liệu các ñồ thị ngày của hộ tiêu thụ sẽ ñược gom thành nhiều nhóm cluster ñồ thị tương tự nhau và ñược ñại diện bởi giá trị tâm của các nhóm cluster c
Trang 1NGUYỄN HỒNG HÀ
ÁP DỤNG LÝ THUYẾT TỰ ðỘNG PHÂN LOẠI CHO BÀI TOÁN XÂY DỰNG ðỒ THỊ PHỤ TẢI ðIỂN HÌNH
CHUYÊN NGÀNH: THIẾT BỊ, MẠNG VÀ NHÀ MÁY ðIỆN
LUẬN VĂN THẠC SĨ
TP HỒ CHÍ MINH, THÁNG 7 NĂM 2010
Trang 2Cán bộ hướng dẫn khoa học: PGS-TS Phan Thị Thanh Bình
Cán bộ chấm nhận xét 1 :
Cán bộ chấm nhận xét 2 :
Luận văn thạc sĩ ñược bảo vệ tại:
HỘI ðỒNG CHẤM BẢO VỆ LUẬN VĂN THẠC SĨ
TRƯỜNG ðẠI HỌC BÁCH KHOA
Ngày 13 tháng 7 năm 2010
Trang 3
TRƯỜNG ðẠI HỌC BÁCH KHOA
KHOA KỸ THUẬT ðIỆN
CỘNG HOÀ XÃ HỘI CHỦ NGHIÃ VIỆT NAM
ðộc Lập - Tự Do - Hạnh Phúc
Tp HCM, ngày … tháng năm
NHIỆM VỤ LUẬN VĂN THẠC SĨ
Họ và tên học viên: Nguyễn Hồng Hà
Phái: Nam
Ngày, tháng, năm sinh: 21/09/1980 Nơi sinh: TPHCM
Chuyên ngành: Thiết bị, Mạng và Nhà máy ñiện
3- NGÀY GIAO NHIỆM VỤ:
4- NGÀY HOÀN THÀNH NHIỆM VỤ: 02/07/2010
5- HỌ VÀ TÊN CÁN BỘ HƯỚNG DẪN: PGS-TS Phan Thị Thanh Bình
Nội dung và ñề cương Luận văn thạc sĩ ñã ñược Hội ðồng Chuyên Ngành thông qua
CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN
QUẢN LÝ CHUYÊN NGÀNH KHOA QL CHUYÊN NGÀNH
PGS.TS Phan Thị Thanh Bình
Trang 4LỜI CẢM ƠN
Trong thời gian học tập, nghiên cứu và thực hiện luận văn tốt nghiệp, tôi ñã nhận ñược sự hướng dẫn, giúp ñỡ và hỗ trợ rất nhiệt tình của các Thầy, Cô giáo, Gia ñình, Bạn bè và ðồng nghiệp Thông qua luận văn này, tôi xin gửi lời cảm ơn chân thành ñến:
o Cô hướng dẫn: PGS-TS Phan Thị Thanh Bình, người ñã trực tiếp hướng dẫn, cung cấp kiến thức, phương pháp nghiên cứu, hỗ trợ, giúp ñỡ tôi thực hiện hoàn thành ñề tài này
o Tập thể các Thầy, Cô giáo trường ñại học Bách Khoa TPHCM ñã tận tình giảng dạy, giúp ñỡ tôi trong suốt quá trình học tập và nghiên cứu tại trường
o Gia ñình, Bạn bè và ðồng nghiệp ñã ñộng viên, khuyến khích và tạo mọi ñiều kiện thuận lợi về thời gian và trang thiết bị ñể tôi có thể hoàn thành luận văn
Một lần nữa xin gửi lời cảm ơn chân thành ñến các Quý Thầy, Cô, Gia ñình, Bạn bè và ðồng nghiệp Chúc mọi người luôn vui vẻ và hạnh phúc!
Trang 5kế thông minh), mở ra triển vọng cho việc ño lường, thu thập dữ liệu phục vụ cho công tác xây dựng các ñồ thị phụ tải ñiển hình cho từng nhóm hộ tiêu thụ ñặc trưng Tuy nhiên, với một số lượng lớn dữ liệu thu nhận ñược, yêu cầu ñặt ra cần thiết phải xây dựng các công cụ ñể xử lý lượng thông tin khổng lồ này, và từ ñó chắt lọc ñược những thông tin thật sự quan trọng, ñảm bảo phản ánh ñầy ñủ các tính chất ñặc trưng của phụ tải, phục vụ cho công tác phân tích và nghiên cứu hệ thống ñiện Các giả thiết trước ñây thường chấp nhận sự phân bố phụ tải của một nhóm các thiết bị, xí nghiệp, hệ thống ñều tuân theo luật phân bố chuẩn Vì vậy, ñể xây dựng
ñồ thị phụ tải ngày ñiển hình của các hộ tiêu thụ này, người ta sẽ sử dụng phương pháp trung bình cộng ñộ lệch chuẩn: xây dựng ñồ thị trung bình và ñồ thị ñộ lệch chuẩn (theo từng giờ) và từ ñó xây dựng ñồ thị ñiển hình Vì rằng, nếu một tập dữ liệu tuân theo phân bố chuẩn, thì giá trị trung bình của tập dữ liệu cũng là giá trị có xác suất cao nhất và có tính ñại diện nhất cho toàn tập dữ liệu Tuy nhiên, kết quả kiểm nghiệm giả thuyết về luật phân bố chuẩn theo lý thuyết xác suất thống kê cho thấy hầu hết các dữ liệu phụ tải ngày ñều không tuân theo luật phân bố này Và vì vậy, cần thiết phải có một công cụ ñủ mạnh ñể xác ñịnh ñồ thị phụ tải ñiển hình bất chấp dạng phân bố của dữ liệu ñầu vào
Xuất phát từ thực tế trên, luận văn này tập trung vào nghiên cứu việc phân nhóm phụ tải và xây dựng ñồ thị phụ tải ngày ñiển hình áp dụng lý thuyết tự ñộng phân nhóm mờ (Fuzzy Clustering) mà cụ thể là thuật toán Fuzzy K Means (FKM)
Trang 6Sử dụng thuật toán phân nhóm mờ, dữ liệu các ñồ thị ngày của hộ tiêu thụ sẽ ñược gom thành nhiều nhóm (cluster) ñồ thị tương tự nhau và ñược ñại diện bởi giá trị tâm của các nhóm (cluster center) Tâm của mỗi nhóm ñều chịu sự ảnh hưởng của ñồ thị các nhóm khác ở các mức ñộ khác nhau (thể hiện qua giá trị hàm liên thuộc mờ) Như vậy ở một chừng mực nào ñó, mỗi tâm này ñều phản ánh ñồ thị của toàn bộ tập dữ liệu, song thiên về phía các ñồ thị của nhóm chứa tâm này Nếu một nhóm chứa số ñông các ñồ thị với tỷ lệ áp ñảo, thì tâm của nhóm này có “cơ hội” trở thành ñại diện cho toàn bộ tập ñồ thị Vì rằng, ñồ thị ñại diện không những chỉ phản ánh các ñặc thù của những ñồ thị thuộc nhóm ñó mà còn phản ánh cho toàn bộ các ñồ thị khác (ở mức ñộ yếu hơn) Nếu sử dụng thuật toán phân nhóm rõ, tâm của mỗi nhóm chỉ phản ánh ñặc thù các ñồ thị của nhóm ñó mà thôi Và một ñiều quan trọng là phương pháp này có thể khắc phục nhược ñiểm khi ñồ thị phụ tải không tuân theo luật phân bố chuẩn
ðể hiểu rõ cấu trúc của một tập dữ liệu, ñã có khá nhiều các tiêu chuẩn ñược xây dựng riêng cho thuật toán FKM nhằm mục ñích trả lời cho câu hỏi: tập dữ liệu ñang xét có cấu trúc phân nhóm hay không, nếu có thì phân làm bao nhiêu nhóm? (k bằng bao nhiêu) Thực tế cho thấy, ñối với cùng một tập dữ liệu, các tiêu chuẩn khác nhau của một thuật toán có thể cho các kết quả khác nhau về số nhóm ðể giải quyết vấn ñề này, luận văn ñề xuất sử dụng phương pháp dung hòa các chỉ số thường dùng trong bài toán tối ưu ña mục tiêu cụ thể: nguyên tắc Bellmand-Zadeh (BZ) và phương pháp Phương pháp mục tiêu toàn cục (Global Criterion Method - GC), nhằm tìm kiếm số nhóm trong ñiều kiện các tiêu chuẩn chọn nhóm không cho một kết quả thống nhất Ngoài ra, ñể có ñược một cái nhìn “tốt” về cấu trúc của dữ liệu, phương pháp phân tích thành phần chính (Principle Component Analysis -PCA) cũng ñược sử dụng nhằm rút trích những ñặc trưng cơ bản của tập dữ liệu (giảm số chiều xuống còn 2 hoặc 3 chiều), ñể từ ñó, bằng trực giác thông thường có thể ñánh giá ñược cấu trúc của dữ liệu nhằm hỗ trợ cho bài toán ước lượng số phân nhóm k ñược hiệu quả
Trang 7Trong luận văn này, dữ liệu phụ tải ngày ñược thu thập từ các tuyến dây 15kV của các trạm biến áp 110 và 220kV tại khu vực TPHCM trong thời gian từ 1/6/2005 ñến ngày 31/5/2006 Ngoài ra, phụ tải của một số khách hàng hạ thế như Xí nghiệp may X28, Cảng Sài Gòn, Khách sạn Hoàn Cầu (từ 13/8/2009 ñến 31/12/2009) cũng ñược tiến hành khảo sát phục vụ cho mục tiêu phân nhóm và xây dựng ñồ thị phụ tải ngày ñiển hình
Kết quả nghiên cứu của luận văn ñã ñược báo cáo tại hội nghị PEOCO 2010 – Shah Alam, Malaysia ngày 23-24/6/2010 (The 4th International Power Engineering and Optimization Conference 2010 - PEOCO 2010 – IEEE Catalog number: CFP1095J-CDR, ISBN: 978-1-4244-7126-3 @2010 IEEE)
Luận văn ñược chia thành 5 chương với nội dung nghiên cứu lần lượt như sau:
Chương 1: Trình bày tổng quan về ñồ thị phụ tải ñiện, mục ñích của việc phân
nhóm phụ tải, vai trò của ñồ thị phụ tải ñiển hình và các phương pháp xác ñịnh ñồ thị phụ tải ñiển hình
Chương 2: Khái quát về lý thuyết phân bố chuẩn và lý thuyết về phân nhóm
dữ liệu
Chương 3: Trình bày các thuật toán chính của thuật toán phân nhóm mờ mà
trọng tâm áp dụng vào luận văn là thuật toán Fuzzy K-means, các tiêu chuẩn xác ñịnh số phân nhóm, giới thiệu 2 cách tiếp cận trong bài toán tối ưu ña mục tiêu, giới thiệu phương pháp phân tích thành phần chính - PCA
Chương 4: Chương quan trọng và chiếm khối lượng chủ yếu nhất của luận
văn: sử dụng các kiến thức trong chương 3 ñể tiến hành phân nhóm và xây dựng ñồ thị phụ tải ngày ñiển hình cho phụ tải khu vực TPHCM và một số hộ tiêu thụ hạ thế
Chương 5: Kết quả kết luận và hướng phát triển ñề tài
Cuối cùng là tài liệu tham khảo cùng phụ lục tính toán
Trang 8DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt Từ nguyên Nghĩa tiếng việt
DSM Demand Side Management Quản lý nhu cầu tiêu thụ
KFKM Kernel based Fuzzy K means
RLC Representative Load Curve ðồ thị ñiển hình
PC Bezdek’s Partition Coefficient
PE Bezdek’s Partition Entropy
MPC Modified Partition Coefficient
PBMF Fuzzy version of PBM-index
Các tiêu chuẩn (chỉ số) xác ñịnh số phân nhóm k
BZ Bellmand-Zadeh principle Nguyên tắc Bellmand-Zadeh
GC Global Criterion Method Phương pháp mục tiêu toàn
cục
PCA Principle Component Analysis Phương pháp phân tích thành
phần chính
Trang 9MỤC LỤC Nhiệm vụ của luận văn
Lời Cảm ơn
Tóm tắt luận văn
Danh mục các từ viết tắt
Mục lục
CHƯƠNG 1 TỔNG QUAN VỀ ðỒ THỊ PHỤ TẢI 11
1.1 Giới thiệu về ñồ thị phụ tải ñiện: 11
1.2 Mục ñích và ý nghĩa của việc phân nhóm ñồ thị phụ tải: 13
1.3 ðồ thị phụ tải ñiển hình (RLC): 15
1.4 Các kỹ thuật xác ñịnh ñồ thị phụ tải ñiển hình: 17
CHƯƠNG 2 LÝ THUYẾT VỀ PHÂN BỐ CHUẨN VÀ PHÂN NHÓM DỮ LIỆU 21
2.1 Lý thuyết về kiểm ñịnh giả thiết phân bố chuẩn: 21
2.1.1 Giới thiệu phân bố chuẩn: 21
2.1.2 Tiêu chuẩn kiểm ñịnh Pearson: 23
2.1.3 Kiểm ñịnh phân bố chuẩn của ñồ thị phụ tải: 25
2.2 Tổng quan về phân nhóm dữ liệu: 25
2.2.1 Giới thiệu: 25
2.2.2 ðộ tương ñồng: 27
2.2.3 Các phương pháp phân nhóm cơ bản: 28
2.2.4 Bàn luận: 31
CHƯƠNG 3 PHÂN NHÓM MỜ 33
3.1 Giới thiệu: 33
3.2 Thuật toán Phân nhóm rõ - K means Algorithm: 34
3.3 Thuật toán Phân nhóm mờ - Fuzzy K means Algorithm: 35
3.4 Kernel based Fuzzy K means Algorithm: 37
3.5 Các tiêu chuẩn ñể xác ñịnh số nhóm k: 39
3.5.1 Bezdek’s Partition Coefficient (PC) 39
3.5.2 Bezdek’s Partition Entropy (PE) 40
3.5.3 Modified Partition Coefficient (MPC) 40
Trang 103.5.4 Xie-Beni (XB) 40
3.5.5 Fuzzy version of PBM-index (PBMF) 40
3.5.6 V W (W) 41
3.5.7 Phương pháp Mark Girolami: 44
3.6 Một số ñề xuất của luận văn về việc xác ñịnh số nhóm k tối ưu: 45
3.6.1 Cách tiếp cận bài toán ña mục tiêu: 45
3.6.2 Phương pháp phân tích thành phần chính (PCA): 50
3.7 Ảnh hưởng của chỉ số mờ alpha ñối với kết quả của thuật toán FKM: 52
3.8 Thử nghiệm các tiêu chuẩn chọn số nhóm trên một số tập dữ liệu: 53
CHƯƠNG 4 ÁP DỤNG CHO CÁC PHỤ TẢI KHU VỰC TPHCM 62
4.1 ðặt vấn ñề 62
4.2 Cách thức tiến hành: 62
4.3 Áp dụng cho phụ tải khu vực TPHCM giai ñoạn 2005-2006: 67
4.4 Áp dụng cho một số phụ tải hạ thế: 73
4.4.1 Xí nghiệp may X28: 74
4.4.2 Cảng Sài Gòn: 78
4.3.3 Khách sạn Hoàn cầu-Continental: 81
CHƯƠNG 5 KẾT QUẢ, KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN ðỀ TÀI 85
TÀI LIỆU THAM KHẢO 88
PHỤ LỤC 1 91
PHỤ LỤC 2 97
PHỤ LỤC 3 103
PHỤ LỤC 4 110
PHỤ LỤC 5 114
PHỤ LỤC 6 117
PHỤ LỤC 7 121
Trang 11CHƯƠNG 1 TỔNG QUAN VỀ ðỒ THỊ PHỤ TẢI
Nội dung chương này trình bày tổng quan về ñồ thị phụ tải ñiện, mục ñích, ý nghĩa của việc phân nhóm phụ tải, vai trò của ñồ thị phụ tải ñiển hình trong công tác phân tích và nghiên cứu hệ thống ñiện ñồng thời giới thiệu một số phương pháp phân nhóm và xây dựng ñồ thị phụ tải ñiển hình ñã từng ñược áp dụng
1.1 Giới thiệu về ñồ thị phụ tải ñiện:
Xác ñịnh phụ tải ñiện là nhiệm vụ ñầu tiên khi tiến hành thiết kế và vận hành lưới ñiện ðộ chính xác của công tác này là tiền ñề quan trọng cho việc xác ñịnh các chỉ số kinh tế của lưới ñiện (dây, khí cụ ), ñảm bảo ñộ tin cậy cho việc triển khai các bước thiết kế tiếp theo ñược chuẩn xác cũng như công tác vận hành lưới ñiện ñược thuận lợi
Do mức tiêu thụ ñiện năng luôn thay ñổi theo thời gian, vì vậy ñể xác ñịnh phụ tải ñiện, người ta tiến hành biểu diễn các quy luật biến thiên của phụ tải theo thời gian trên hình vẽ, gọi là ñồ thị phụ tải Trục tung của ñồ thị có thể biểu diễn: công suất tác dụng, công suất phản kháng, công suất biểu kiến ở dạng ñơn vị có tên hay tương ñối, còn trục hoành biểu diễn thời gian
ðồ thị phụ tải có thể phân loại theo công suất, theo thời gian, theo ñịa dư Khi phân loại theo công suất có ñồ thị phụ tải tác dụng, ñồ thị phụ tải công suất phản kháng, ñồ thị phụ tải công suất biểu kiến Phân loại theo thời gian có ñồ thị phụ tải năm, tháng, ñồ thị phụ tải ngày… Theo ñịa dư có ñồ thị phụ tải toàn hệ thống, của nhà máy ñiện, của trạm biến áp, ñồ thị phụ tải của hộ tiêu thụ…
• ðồ thị phụ tải ngày:
ðồ thị phụ tải ngày vẽ bằng oát-kế tự ghi là chính xác nhất, nhưng cũng có thể
vẽ theo phương pháp từng ñiểm, nghĩa là cứ sau một khoảng thời gian ghi lại trị số phụ tải rồi nối lại thành dạng ñường gấp khúc Phương pháp vẽ từng ñiểm tuy không chính xác, nhưng trong thực tế ñược dùng rất phổ biến
ðể tính toán ñược thuận tiện, thường biến ñường gấp khúc thành dạng bậc thang nhưng phải bảo ñảm hai ñiều kiện: diện tích giới hạn bởi ñường biểu diễn hình bậc thang phải bằng ñúng diện tích giới hạn bởi ñường biểu diễn gấp khúc với
Trang 12trục toạ ñộ, các ñiểm cực ñại và cực tiểu trên cả hai ñường biểu diễn không thay ñổi
Hình 1.1 ðồ thị phụ tải ngày a) ðo bằng watt kế tự ghi b) ñược ghi và vẽ lại bởi các vận hành viên c) thể hiện dạng bậc thang thông số trung bình trong một khoảng thời gian
ðồ thị phụ tải hàng ngày cho ta biết tình trạng làm việc của thiết bị ñể từ ñó sắp xếp lại qui trình vận hành hợp lý nhất, nó cũng làm căn cứ ñể tính chọn thiết bị, tính ñiện năng tiêu thụ…
ðồ thị phụ tải ngày có 5 thông số ñặc trưng sau: phụ tải cực ñại, hệ số công suất cực ñại, ñiện năng tác dụng và phản kháng ngày ñêm, hệ số công suất tương ứng và hệ số ñiền kín của ñồ thị phụ tải
• ðồ thị phụ tải tháng:
ðược xây dựng theo phụ tải trung bình hàng tháng Nghiên cứu ñồ thị này, ta
có thể biết ñược nhịp ñộ làm việc của hộ tiêu thụ và từ ñây có thể ñịnh ra lịch vận hành sửa chữa thiết bị ñiện hợp lý, ñáp ứng ñược yêu cầu sản xuất
Hình 1.2 ðồ thị phụ tải tháng
Trang 13Tóm lại, ñồ thị phụ tải rất cần thiết cho thiết kế và vận hành hệ thống ñiện Khi biết ñồ thị phụ tải toàn hệ thống ñiện có thể phân bố tối ưu công suất cho các nhà máy ñiện trong hệ thống, xác ñịnh mức tiêu hao nhiên liệu… ðồ thị phụ tải ngày của nhà máy hay trạm biến áp dùng ñể chọn dung lượng máy biến áp, tính toán tổn thất trong ñiện năng trong máy biến áp, chọn sơ ñồ nối dây Với ñồ thị phụ tải cực ñại hàng tháng có thể ñưa ra kế hoạch tu sửa thiết bị…
1.2 Mục ñích và ý nghĩa của việc phân nhóm ñồ thị phụ tải:
Do tính lặp lại của công ñoạn sản xuất nên ña số ñồ thị phụ tải của các thiết bị riêng biệt có tính qui luật với mức ñộ nào ñó và có thể phân thành ñồ thị phụ tải có tính chất tuần hoàn, chu trình, không chu trình và không qui luật Các ñồ thị phụ tải nhóm phụ thuộc vào dạng ñồ thị phụ tải riêng biệt của hộ tiêu thụ và mối liên quan của chúng theo quá trình công nghệ Chúng ñược chia thành ñồ thị phụ tải tuần hoàn, hầu như tuần hoàn và không qui luật ðồ thị phụ tải riêng biệt rất cần thiết ñể xác ñịnh công suất của các hộ tiêu thụ riêng biệt có phụ tải ñặc trưng thay ñổi ñột ngột (máy cán kim loại, lò ñiện…) Khi thiết kế cung cấp ñiện cho xí nghiệp,
Trang 14thường sử dụng ñồ thị phụ tải nhóm (xây dựng từ một số hộ tiêu thụ riêng biệt và ñồ thị phụ tải nhóm gồm vài thiết bị cho tới phụ tải của toàn xí nghiệp) Với mục ñích tương tự, mở rộng ra cho hầu hết các lĩnh vực tiêu thụ ñiện, người ta cũng tiến hành phân loại ñồ thị ñối với từng nhóm hộ tiêu thụ ñặc thù: dân dụng (residential consumer), dịch vụ thương mại (commercial consumer) và công nghiệp (industrial consumer)
Trong những năm gần ñây, do sự phát triển nhanh chóng của nền kinh tế và các tiêu chuẩn sống ngày càng cao, công suất cực ñại ñã phát triển nhanh, mạnh hơn công suất trung bình Kết quả là các chỉ số của ñồ thị phụ tải ngày càng xấu ñi, ñòi hỏi phải có một sự quản lý nhu cầu tiêu thụ (DSM – Demand Side Management) hiệu quả ñối với các thiết bị tiêu thụ ñiện Do ñó, khách hàng ñã ñược khuyến khích chấp nhận các chương trình DSM
ðể xây dựng các chương trình DSM, dữ liệu ñầu vào trước hết là các ñồ thị phụ tải của các hộ tiêu thụ Tổng hợp tất cả các ñồ thị này, ta sẽ ñược một ñồ thị tổng mà ngành ñiện cần cung cấp ñể ñáp ứng nhu cầu ñiện năng của các hộ tiêu thụ Thông thường, do các hộ tiêu thụ thường có cùng một tập quán sinh hoạt và sản xuất, ñồ thị tổng nhìn chung sẽ không bằng phẳng, nghĩa là sẽ có những ñỉnh rất cao
và những vị trí rất thấp ðiều này, như trên ñã phân tích sẽ gây không ít khó khăn cho ngành ñiện và nếu không giải quyết ñược những khó khăn này sẽ dẫn ñến việc không ñáp ứng ñược nhu cầu mong muốn của các hộ tiêu thụ với ñộ tin cậy cung cấp ñiện cao, ổn ñịnh và liên tục, chất lượng ñiện năng tốt, giá cả hợp lý trong khi ñây lại là nhiệm vụ trọng tâm của ngành ñiện Giải pháp ñược ñưa ra ở ñây là sẽ dịch chuyển các ñồ thị thành phần trong một khoảng cho phép ñể ñạt ñược một ñồ thị tổng tương ñối bằng phẳng Giải pháp này cần có sự hợp tác của cả phía cung cấp lẫn phía tiêu thụ ñể mang lại lợi ích cho cả hai Sự dịch chuyển này nếu áp dụng một cách thủ công cho một số lượng lớn các ñồ thị thành phần sẽ tương ñối khó khăn cũng như không có ý nghĩa lâu dài nếu phát sinh các nhu cầu tiêu thụ mới trong tương lai Nhờ vào ñặc ñiểm của các ñồ thị thành phần nhận ñược từ các hộ tiêu thụ là không hoàn toàn khác nhau và với mục ñích chương trình DSM ñược xây
Trang 15dựng có thể làm cơ sở dữ liệu ñể sử dụng về sau, giải pháp ñược ñưa ra ở ñây là trước hết sẽ tiến hành phân nhóm các ñồ thị thành phần dựa trên các ñiểm tương ñồng giữa chúng, mỗi nhóm ñược ñại diện bởi một ñồ thị ñặc trưng cho nhóm ñó, sau ñó sẽ dịch chuyển các ñồ thị ñặc trưng ñể có ñược ñồ thị tổng cuối cùng tương ñối bằng phẳng
ðể chương trình DSM ñạt hiệu quả và thuận tiện trong quản lý ñồ thị phụ tải của các khách hàng, nhiệm vụ quan trọng của ngành ñiện là phải phân loại các ñồ thị thành các nhóm ñồ thị phụ tải khác nhau
Việc tự ñộng hoá phân loại ñồ thị cho phép nhận ñược số mô hình tối thiểu nhưng vẫn ñảm bảo ñầy ñủ các tính chất ñặc trưng của phụ tải, phục vụ cho việc xây dựng các ñồ thị phụ tải ñiển hình có ý nghĩa quan trọng trong phân tích và nghiên cứu hệ thống ñiện
1.3 ðồ thị phụ tải ñiển hình (RLC):
ðồ thị phụ tải ñiển hình, hay ñồ thị ñại diện (RLC: Representative Load Curve hoặc TLP: Typical Load Profile) là ñồ thị phụ tải mang ñường nét ñặc trưng nhất, khái quát nhất, phản ánh ñầy ñủ các ñặc ñiểm của toàn tập dữ liệu Người ta ñã tiến hành xây dựng nhiều loại ñồ thị ñại diện cho nhiều nhóm hộ tiêu thụ: dân dụng, dịch vụ thương mại và công nghiệp; các xí nghiệp công nghiệp tiêu biểu, các thiết
bị tiêu thụ ñiện ñặc thù; ñồ thị theo mùa, ñồ thị theo ngày làm việc, ngày nghỉ …ñể tạo ra cơ sở dữ liệu phục vụ cho các công tác thiết kế, quản lý vận hành…
Hình 1.4 ðồ thị ngày và năm ñiển hình của xí nghiệp chế tạo máy giao thông vận tải ñược lưu trữ trong Sách tra cứu về cung cấp ñiện xí nghiệp công nghiệp - Mạng
lưới ñiện công nghiệp
Trang 16a)
b)
c)
Hình 1.5 ðồ thị ñiển hình các ngày làm việc, thứ bảy chủ nhật của các mùa: ñông
(a), hè (b), xuân và thu (c) của nhóm phụ tải dân dụng tại ðức
Trang 17ðịnh nghĩa về RLC chỉ có tính tương ñối vì bản thân việc xác ñịnh RLC một vấn ñề, việc ñịnh lượng ñể ñánh giá RLC cũng là một vấn ñề Cần lưu ý rằng ñồ thị phụ tải ñiển hình không phải là ñồ thị trung bình cộng của toàn tập dữ liệu ðiều này chỉ chính xác khi tập dữ liệu tuân theo phân bố chuẩn Vì vậy, cần một công cụ
ñủ mạnh ñể xác ñịnh RLC bất chấp dạng phân bố của dữ liệu ñầu vào
Vai trò quan trọng của RLC trong ngành ñiện ñược thấy rõ ở những lĩnh vực sau [2], [3], [4], [5]:
•Chiến lược thị trường và ñịnh giá ñiện: là cơ sở ñể cải tiến biểu giá ñiện Với các nước trên thế giới, các dạng phụ tải khác nhau với các ñồ thị khác nhau
sẽ ñược ñịnh giá ñiện khác nhau nhằm mang lại hiệu quả cao nhất cho xã hội trong việc sản xuất và sử dụng năng lượng ñiện
•Công tác thiết kế lưới ñiện: khi thiết kế lưới ñiện, cung cấp ñiện cho các khách hàng, RLC cung cấp cơ sở dữ liệu cho việc chọn công suất trạm và các khí cụ ñiện
•Công tác vận hành lưới ñiện của các ñiện lực: trong bài toán ñánh giá trạng thái lưới ñiện nằm trong tổng thể bài toán hệ thống quản lý lưới phân phối DMS, việc sử dụng các RLC là cơ sở cho bài toán ước lượng và ñánh giá tải (load estimation)
•Tạo cơ sở dữ liệu cho việc quản lý và vận hành lưới ñiện
•Tạo tiền ñề cho việc quản lý sử dụng ñiện tiết kiệm và hiệu quả: với việc ñiều khiển tiêu thụ ñiện nói chung của toàn hệ thống ñiện, việc xây dựng ñược những RLC này giúp ngành ñiện thấy ñược sự tham gia cấu tạo nên tải ñỉnh của hệ thống, từ ñó có thể ñưa ra các biện pháp giảm tải ñỉnh, thực hiện hữu hiệu nhất sự tiết kiệm ñiện năng cho toàn nền kinh tế
1.4 Các kỹ thuật xác ñịnh ñồ thị phụ tải ñiển hình:
Các giả thiết trước ñây thường chấp nhận sự phân bố phụ tải của một nhóm các thiết bị, xí nghiệp, hệ thống ñều tuân theo luật phân bố chuẩn Vì vậy, ñể xây dựng ñồ thị phụ tải ngày ñiển hình của các hộ tiêu thụ này, người ta sẽ sử dụng
Trang 18phương pháp trung bình cộng ñộ lệch chuẩn [4], [5]: xây dựng ñồ thị trung bình và
ñồ thị ñộ lệch chuẩn (theo từng giờ) và từ ñó ñồ thị ñiển hình sẽ xác ñịnh theo:
1
−
− + +
− +
−
n
P P P
P P
•Kỹ thuật thống kê và phân nhóm (clustering and statistical techniques) [6], [7], [8]
•Mạng nơron (neural network) [9], [10], [11]
•Logic mờ (fuzzy logic) [11], [12]
Kết quả việc phân nhóm sẽ tạo ra những mẫu ñồ thị ñại diện cho từng nhóm, ñặc trưng cho hành vi sử dụng ñiện trong cùng một ñiều kiện Mỗi RLC trên ñược
xây dựng dựa trên việc tập hợp những mẫu dữ liệu tải cơ bản trong quá khứ của một nhóm hộ tiêu thụ và sẽ ñại diện cho nhóm ñó
Trang 19Trên thế giới, công tác phân nhóm hộ tiêu thụ và xác ñịnh ñồ thị phụ tải ñiển hình ñã ñược nhiều ñiện lực quốc gia quan tâm nghiên cứu ðiện lực Brazil cũng ñã ứng dụng các thuật toán thuật toán phân nhóm tự ñộng như: K means, Ward, Fuzzy Clustering trong việc phân loại phụ tải và xác ñịnh các ñồ thị ñại diện từ năm 2005 với chương trình ANATIPO
Hình 1.7 Chương trình ANATIPO 2005 của ðiện lực Brazil
Ở Việt Nam trước ñây, do các ñiều kiện kỹ thuật chưa cho phép nên không thể xây dựng ñược các ñồ thị ñiển hình của các loại tải Từ giữa năm 2001, ðiện lực Việt Nam ñã triển khai tương ñối rộng việc lắp ñặt ñiện kế ba giá (ñiện kế ñiện tử),
mở ra triển vọng xây dựng các ñồ thị phụ tải Tuy nhiên số ño lường sẽ rất nhiều và ñiện lực vẫn rất cần thiết chắt lọc từ vô số thông tin ñó ñể nhận ñược thông tin cần thiết: ñồ thị ñiển hình
Luận văn này góp phần nghiên cứu việc xây dựng ñồ thị phụ tải ñiển hình áp dụng lý thuyết phân loại mờ (Fuzzy Clustering) Một trong những hướng nghiên cứu chính của luận văn là thuật toán Fuzzy K Means và ứng dụng vào việc xây dựng ñề thị phụ tải ñiển hình cho TPHCM
Sử dụng thuật toán phân nhóm mờ, dữ liệu các ñồ thị ngày của hộ tiêu thụ sẽ ñược gom thành nhiều nhóm (cluster) ñồ thị tương tự nhau và ñược ñại diện bởi giá trị tâm của các nhóm (cluster center) Tâm của mỗi nhóm ñều chịu sự ảnh hưởng của ñồ thị các nhóm khác ở các mức ñộ khác nhau (thể hiện qua giá trị hàm liên thuộc mờ) Như vậy ở một chừng mực nào ñó, mỗi tâm này ñều phản ánh ñồ thị của toàn bộ tập dữ liệu, song thiên về phía các ñồ thị của nhóm chứa tâm này Nếu một
Trang 20nhóm chứa số ñông các ñồ thị với tỷ lệ áp ñảo, thì tâm của nhóm này có “cơ hội” trở thành ñại diện cho toàn bộ tập ñồ thị Vì rằng, ñồ thị ñại diện không những chỉ phản ánh các ñặc thù của những ñồ thị thuộc nhóm ñó mà còn phản ánh cho toàn bộ các ñồ thị khác (ở mức ñộ yếu hơn) Nếu sử dụng thuật toán phân nhóm rõ, tâm của mỗi nhóm chỉ phản ánh ñặc thù các ñồ thị của nhóm ñó mà thôi Và một ñiều quan trọng là phương pháp này có thể khắc phục nhược ñiểm khi ñồ thị phụ tải không tuân theo luật phân bố chuẩn
Trang 21CHƯƠNG 2 LÝ THUYẾT VỀ PHÂN BỐ
CHUẨN VÀ PHÂN NHÓM DỮ LIỆU
Luật phân bố chuẩn là gì và trên thực tế, dữ liệu ñồ thị phụ tải ngày của các hộ tiêu thụ có tuân theo luật phân bố chuẩn hay không là một câu hỏi cần ñược làm rõ?
ðể trả lời câu hỏi này, nội dung chương 2 trình bày khái quát lý thuyết về phân bố chuẩn và tiêu chuẩn kiểm ñịnh luật phân bố chuẩn Bên cạnh ñó, chương này cũng giới thiệu tổng quan về một số phương pháp phân nhóm dữ liệu thường ñược sử dụng
2.1 Lý thuyết về kiểm ñịnh giả thiết phân bố chuẩn:
2.1.1 Giới thiệu phân bố chuẩn:
Phân bố chuẩn [13], còn gọi là phân bố Gauss, là một phân bố xác suất cực kì quan trọng trong nhiều lĩnh vực Nó là họ phân bố có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình – kỳ vọng µ) và tỉ lệ (phương sai σ2) Phân
bố chuẩn còn ñược gọi là ñường cong chuông (bell curve) vì ñồ thị của mật ñộ xác suất có dạng chuông Hàm mật ñộ của phân bố chuẩn như sau:
2 2
( ) 21
Trang 22Trong ñó σ là căn bậc hai giá trị bình phương trung bình của ñộ lệch giữa một biến
và giá trị trung bình của biến ñó Phương sai ñôi khi còn ñược gọi là giá trị bình phương trung bình hay ñộ lệch chuẩn của của x Nếu lặp lại n lần ñộc lập phép ño ngẫu nhiên với xác suất 1/n nhận ñược kết quả x1, x2, …, xn thì:
• Nhận trục x = µ làm trục ñối xứng
• Tiệm cận với trục hoành khi x ±∞
• ðạt cực ñại tại x = µ và có giá trị cực ñại bằng 1
2
σ π , có 2 ñiểm uốn tại
x = µ ± σ
• Khi µ tăng ñồ thị sẽ dịch sang bên phải và ngược lại Khi σ tăng ñồ thị
sẽ thấp xuống, còn σ giảm ñồ thị sẽ tăng lên
Người ta ñã chứng minh ñược rằng nếu X có phân bố chuẩn N (µ, σ2) thì có ñến 95,44% giá trị của X nằm trong khoảng (µ -2σ, µ +2σ) và hầu như toàn bộ giá
Trang 23trị X ñều thuộc (µ -3σ, µ +3σ) ðây cũng chính là cơ sở của quy tắc 2 xích ma và 3 xích ma thường ñược ứng dụng trong việc xây dựng ñồ thị ñiển hình
Hình 2.2 ðồ thị hàm mật ñộ xác suất với các khoảng ñộ lệch ± 1,2 và 3σ
Do ñó, ñối với một tập dữ liệu tuân theo phân bố chuẩn, thì giá trị trung bình cũng chính là kỳ vọng và là giá trị cực ñại của hàm mật ñộ phân bố xác suất ðiều này cũng có nghĩa là giá trị trung bình chính là giá trị ñược mong ñợi nhất và có tính ñại diện nhất của toàn tập dữ liệu khi và chỉ khi tập dữ liệu có phân bố chuẩn Tuy nhiên một vấn ñề ñặt ra là trên thực tế các dữ liệu ñồ thị phụ tải có mang tính phân bố chuẩn hay không? ðể trả lời câu hỏi trên, Luận văn này ñề xuất sử dụng phương pháp Pearson (phương pháp khi bình phương χ2
) làm tiêu chuẩn kiểm ñịnh giả thiết phân bố chuẩn
2.1.2 Tiêu chuẩn kiểm ñịnh Pearson:
Tiêu chuẩn phù hợp χ2 của Pearson dùng ñể kiểm ñịnh về sự phù hợp của hàm phân phối giả ñịnh F(x,θ) với mẫu quan sát ñược
Cho mẫu (x1, …, xn) ðề ra giả thuyết thống kê H0: các xi có phân bố F0(x,θ), với ñối thuyết H1: hàm phân bố của xi không phải là F0(x,θ)
ðể kiểm ñịnh, chúng ta làm như sau: chia toàn bộ trục số thành k phần:
(−∞, x01], [x01, x02], …, [x0k−1,+ ∞) Cách chọn các ñiểm chia x0i:
Trang 24Số khoảng không quá nhiều (vì sẽ mất nhiều công sức ñể tính toán, mặt khác
số quan sát rơi vào từng khoảng sẽ quá ít), ñồng thời cũng không quá ít (vì khi ñó số quan sát rơi vào một khoảng sẽ quá nhiều); thông thường thì 5 ≤ k ≤ 15
Số quan sát rơi vào từng khoảng không ñược quá nhiều (vì khi ñó các quan sát
“trung hòa” nhau làm cho các ñặc thù của từng quan sát bị che lấp), ñồng thời cũng không ñược quá ít (vì khi ñó tính ngẫu nhiên của từng quan sát sẽ trội hơn quy luật chung chi phối nhiều quan sát) Do ñó thường chọn số quan sát rơi vào từng khoảng
Trang 252 2 2
Cα là hằng số tra ở bảng phân phối χ2 với k−1 bậc tự do và mức ý nghĩa α
2.1.3 Kiểm ñịnh phân bố chuẩn của ñồ thị phụ tải:
Áp dụng tiêu chuẩn kiểm ñịnh Pearson ñể kiểm ñịnh phân bố chuẩn của từng giờ (chiều) của ñồ thị như sau:
• B1.Tách riêng từng chiều
• B2.Tính giá trị min, max của mỗi chiều
• B3.Gọi chương trình chia khoảng
• B4.Dùng thuật toán Pearson kiểm ñịnh tính phân bố chuẩn của 1 chiều
dữ liệu
• B5.Ghi lại kết quả và tiếp tục cho các chiều còn lại
• B6 Kết luận về tính phân bố chuẩn của khối dữ liệu 24 hoặc 48 chiều: nếu tồn tại một chiều không có phân bố chuẩn thì khối dữ liệu 24 hoặc
48 chiều ban ñầu cũng không có phân bố chuẩn
Kết quả kiểm tra trên hầu hết các chiều của một số phụ tải các nhóm hộ tiêu thụ trung và hạ thế ñược khảo sát luận văn (ñược giới thiệu chi tiết trong chương 4) ñều không tuân theo luật phân bố chuẩn (phụ lục 1)
2.2 Tổng quan về phân nhóm dữ liệu:
2.2.1 Giới thiệu:
Phân nhóm dữ liệu là một kỹ thuật quan trọng trong công nghệ tri thức ñược ứng dụng rộng rãi và ña dạng trong các ngành khoa học như sinh học, tâm lý học, y học, ngành marketing, máy tính, và ñiều kiển học … Phân nhóm dữ liệu tổ chức dữ liệu bằng cách nhóm các ñối tượng có ñộ tương ñồng cao ñể khám phá cấu trúc của
dữ liệu mà không yêu cầu các giả thiết cho trước từ các phương pháp thống kê Mục tiêu của phương pháp phân nhóm dữ liệu là tìm kiếm các nhóm ñối tượng theo hình dạng tự nhiên, từ ñó khám phá ra sự phân phối mẫu, sự tương quan thú vị giữa những thuộc tính trong cùng một tập dữ liệu Phương pháp này thường ñược gọi dưới nhiều thuật ngữ khác như: phân nhóm hoặc phân nhóm (Clustering), phân loại
Trang 26tự ñộng (Automatic Classification), quá trình học không giám sát (Unsupervised Learning), phân loại dữ liệu không dán nhãn (Unlabeled Data) và ñược ứng dụng rộng rãi trong trong lĩnh vực nhận dạng mẫu (Pattern Recognition) nói riêng và trong trí tuệ nhân tạo nói chung [14]
Một nhóm bao gồm một tập các ñối tượng có ñộ tương ñồng cao ðịnh nghĩa
về nhóm ñược phát biểu một cách không hình thức như sau: Một nhóm là một tập các thực thể (các ñối tượng) tương tự nhau, và các thực thể ở các nhóm khác nhau thì không giống nhau
Tùy vào từng ứng ứng dụng, ñặc tính của dữ liệu và từng phương pháp phân nhóm cụ thể, chúng ta có thể xem xét các dữ liệu như là các ñiểm trong không gian thỏa mãn ñiều kiện ñộ tương ñồng giữa hai ñiểm bất kỳ trong một nhóm lớn hơn ñộ tương ñồng giữa một ñiểm bất kỳ trong nhóm ñó với một ñiểm bất kỳ không thuộc nhóm hoặc các nhóm có thể ñược mô tả như là các vùng chứa các ñối tượng có mật
ñộ cao trong không gian nhiều chiều, ñược tách với các vùng chứa các ñối tượng có mật ñộ thấp hơn
Các phương pháp phân nhóm dữ liệu thường ñược chia làm 4 loại cơ bản: Phương pháp phân hoạch ( Partition Based Data Clustering Method), phương pháp phân cấp (Hierarchical Based Data Clustering Method), phương pháp mật ñộ (Density Based Data Clustering Method), phương pháp lưới (Grid Based Data Clustering Method) Các phương pháp trên sẽ ñược giới thiệu cụ thể ở phần sau Những ứng dụng chính của phân nhóm:
Nhận dạng mẫu (Pattern Recognition)
Tiền xử lý cho các thuật toán khác
Tiếp thị: khám phá các nhóm khách hàng có thói quen và nhu cầu khác nhau ñể có phương pháp tiếp thị hợp lý
Quy hoạch ñất ñai: phân loại ñất theo công năng hoặc thực tế sử dụng ñể có chính sách quy hoạch phù hợp
Bảo hiểm: phân loại khách hàng ñể có chính sách tính phí hợp lý
Quy hoạch ñô thị: phân loại nhà theo vị trí, giá trị…
Trang 27Y tế: phân loại bệnh nhân
1 d(i,i)=0 với mọi i
2 d(i,k)=d(k,i) với mọi cặp (i,k)
3 d(i,k)>=0 với mọi cặp (i,k)
Hàm ñánh giá ñộ tương ñồng có thể ñược xác ñịnh theo một số cách Giả sử rằng chúng ta có một ma trận mẫu [xij] với xij là giá trị của ñặc trưng thứ j của mẫu
i Tất cả các ñặc trưng là liên tục và ñược ước lượng theo tỷ xích tỷ lệ Hàm khoảng cách phổ biến là khoảng cách Minkowski [14] dùng ñể ước lượng ñộ bất tương ñồng Mẫu thứ i tương ứng với dòng thứ i của ma trận mẫu ñược ký hiệu là một vector cột xi
n i
x x
x
xi = ( i1, i2, , in)T, = 1 , 2 , ,Với d là số ñặc trưng, n là số lượng mẫu, T ký hiệu là vector chuyển vị Khoảng cách Minkowski ñược ñịnh nghĩa như sau:
r d
j
r kj
ij x x k
=
−
Các hàm khoảng cách Minkowski thỏa mãn tính chất các tính chất sau:
4 d(i,k)=0 nếu và chỉ nếu xi=xk
Trang 285 d(i,k)≤d(i,m) +d(m,k) với mọi (i,m,k) Bất ựẳng thức tam giác
Có ba khoảng cách phổ biến sử dụng khoảng cách Minkowsky ựược ựịnh nghĩa như sau:
Khoảng cách Euclidean (r=2):
2 / 1 2
/ 1 1
2
)]
()[(
)
|
|()
,
d j
kj
x k
d j k
Ngoài các hàm khoảng cách ựược sử dụng ựể ựánh giá ựộ tương ựồng của các ựối tượng nêu trên còn có rất nhiều cách ựánh giá ựộ tương ựồng khác, tùy thuộc vào tắnh chất của tập dữ liệu Trong khuôn khổ của luận văn này, khoảng cách Euclidean sẽ ựược sử dụng ựể ựánh giá mức ựộ tương ựồng giữa các ựồ thị
2.2.3 Các phương pháp phân nhóm cơ bản:
Phân nhóm dữ liệu biểu diễn mỗi quan hệ giữa các ựối tượng trong ma trận tương ựồng Nếu các ựối tượng ựược ựặc tả như là các mẫu hoặc các ựiểm trong không gian metric, thì ựộ tương ựồng có thể là khoảng cách giữa các cặp ựối tượng, như là khoảng cách Euclidean Ma trận mẫu và ma trận tương ựồng là những dữ liệu vào cho các thuật toán phân nhóm đã có rất nhiều thuật toán phân nhóm ựược xây dựng nhằm áp dụng vào các mục ựắch cụ thể Các thuật toán này có thể ựược phân vào một trong 4 phương pháp sau ựây:
1 Phương pháp phân hoạch ( Partition Based Data Clustering Method)
Trang 292 Phương pháp phân cấp (Hierarchical Based Data Clustering Method)
3 Phương pháp mật ñộ (Density Based Data Clustering Method)
4 Phương pháp lưới (Grid Based Data Clustering Method)
2.2.3.1 Phương pháp phân hoạch:
Các thuật toán dựa vào phương pháp phân hoạch (Partition Based Data
Clustering Method) ñể phân nhóm dữ liệu là các thuật toán rất phổ biến trong lĩnh vực phân nhóm Cho một tập D gồm n ñối tượng trong không gian d chiều, và một giá trị k là số lượng nhóm Một thuật toán phân hoạch tổ chức các ñối tượng vào trong k nhóm thỏa mãn ñiều kiện tổng sai số về ñộ lệch của mỗi ñối tượng tới tâm của nó hoặc từ phân bố của một nhóm là nhỏ nhất Các thuật toán phân nhóm khác nhau thì thường sử dụng các ñộ lệch khác nhau
Có nhiều thuật toán phân nhóm dựa trên phương pháp phân hoạch như: thuật toán K-Means (còn gọi là phân nhóm cứng hay phân nhóm rõ) (MacQueen, 1967), thuật toán K-Medoids Hai thuật toán này có các cách biểu diễn các nhóm khác nhau Thuật toán K-Means sử dụng tâm (ñiểm trung bình) của các ñối tượng trong một nhóm làm tâm của nhóm ñó trong khi thuật toán K-Medoids sử dụng ñối tượng gần ñiểm trung bình nhất làm tâm Phát triển lên từ thuật toán K-Means, thuật toán Fuzzy K-Means – phân nhóm mờ ñược thiết lập dựa trên ý tưởng về phân vùng mờ
ñể mô tả hàm liên thuộc mờ (fuzzy membership) [1] của giáo sư Lotfi Zadeh Khác với thuật toán K-Means, trên một phần tử không nhất thiết chỉ thuộc về một nhóm duy nhất mà có thể thuộc về tất cả các nhóm, tuỳ thuộc vào mức ñộ của hàm liên thuộc mờ ñể xác ñịnh là nó thuộc về nhóm nào nhiều hơn Giá trị hàm liên thuộc
mờ bây giờ nằm trong khoảng từ 0 ñến 1, vì thế cũng có vô số giá trị trong khoảng này, không nhất thiết chỉ nhận một trong hai giá trị: hoặc là 1, hoặc là 0 Và một vấn
ñề quan trọng không kém là tâm của các nhóm không chỉ ñơn thuần là giá trị trung bình của nhóm mà chịu ảnh hưởng nhất ñịnh của các phần tử thuộc nhóm khác, thể hiện qua giá trị của hàm liên thuộc mờ, hay còn gọi là giá trị trung bình có trọng số Như vậy ở một chừng mực nào ñó, mỗi tâm này ñều phản ánh giá trị của toàn bộ tập
Trang 30dữ liệu song thiên về phía các phần tử của nhóm chứa tâm ðiều này rất phù hợp cho việc xây dựng ñồ thị phụ tải ñiển hình của luận văn
2.2.3.2 Phương pháp phân cấp:
Phương pháp phân cấp tạo (Hierarchical Based Data Clustering Method)
phân tách các tập ñối tượng theo dạng rẽ nhánh và tạo ra một chuỗi các cấp bậc Quá trình phân cấp ñược xây dựng theo hai cách: từ dưới lên (Bottom – Up) hoặc từ trên xuống (Top – Down) Tiếp cận từ dưới lên còn ñược gọi là tiếp cận “vun ñống”, bắt ñầu với mỗi ñối tượng ñược xem như một nhóm, sau ñó trộn các ñối tượng hay các nhóm theo các hàm như hàm khoảng cách giữa các tâm của hai nhóm
và ñiều này ñược thực hiện cho tới khi tất cả các nhóm ñược trộn vào làm một nhóm hoặc cho tới khi ñiều kiện kết thúc ñược thỏa mãn Tiếp cận theo phương pháp trên xuống bắt ñầu với tất cả các ñối tượng nằm trong cùng một nhóm Trong mỗi lần lặp, một nhóm ñược tách ra thành các nhóm nhỏ hơn theo một ước lượng nào ñó ðiều này ñược thực hiện cho tới khi mỗi ñối tượng là một nhóm, hoặc cho tới khi ñiều kiện kết thúc thỏa mãn
2.2.3.3 Phương pháp mật ñộ:
Hầu hết các phương pháp phân hoạch truyền thống phân nhóm ñều dựa trên khoảng cách giữa các ñối tượng Các phương pháp này chủ yếu tìm ra các nhóm có dạng hình cầu và rất khó ñể tìm ra các nhóm có hình dạng ngẫu nhiên Phương pháp phân nhóm dựa vào mật ñộ (Density Based Data Clustering Method) xem các nhóm như là các vùng có mật ñộ trong không gian dữ liệu Các phương pháp dựa vào mật ñộ có thể sử dụng ñể loại bỏ nhiễu, và phát hiện ra các nhóm có hình dạng ngẫu nhiên
Thuật toán dựa vào mật ñộ ñầu tiên là thuật toán DBSCAN(Ester et al., 1996), thuật toán này xem xét mật ñộ theo lân cận của mỗi ñối tượng, nếu số lượng các ñối tượng trong khoảng cách ε của một ñối tượng lớn hơn MinPts thì ñối tượng
ñó ñược xem là nằm trong một nhóm Bởi vì các nhóm tìm ñược phụ thuộc vào tham số ε và MinPts, nên thuật toán DBSCAN dựa trên khả năng của người sử dụng ñể lựa chọn tập tham số tốt
Trang 31ðể tránh ñược vấn ñề này, năm 1999 Ankerst ñể xuất phương pháp sắp xếp các nhóm ñược gọi là OPTICS OPTICS tính toán việc sắp xếp các nhóm có tham
số ñể phân nhóm tự ñộng
2.2.3.4 Phương pháp lưới:
Phương pháp lưới (Grid Based Data Clustering Method) phân chia không gian dữ liệu vào một số lượng hữu hạn các ô tạo nên dạng hình lưới Tiện lợi chính của tiếp cận này là thời gian xử lý nhanh và nó không phụ thuộc vào số lượng các ñối tượng dữ liệu, chỉ phụ thuộc vào số lượng các ô ở mỗi chiều trong không gian lượng hóa
Một số thuật toán cơ bản của tiếp cận dựa trên lưới là thuật toán STING, thuật toán này tìm kiếm theo thống kê các thông tin nằm trong các ô Thuật toán WaveCluster phân nhómdữ liệu sử dụng phương pháp biến ñổi sóng và thuật toán CLIQUE trình bày cách tiếp cận dựa vào mật ñộ và dựa vào lưới ñể phân nhómdữ liệu nằm trong không gian với số chiều lớn
có thể dễ dàng nhận ra dữ liệu có 3 nhóm rõ ràng
Trang 32Hình 2.3 Tập dữ liệu 02 chiều phân làm 03 nhóm
Tuy nhiên, với một tập dữ liệu ñồ sộ nhiều vectơ phần tử và nhiều thuộc tính thì thị giác trực quan ở ñây rất ít phát huy tác dụng, như dữ liệu phụ tải chẳng hạn
Vì sao câu hỏi Q1 này lại quan trọng? Vì khi dữ liệu không có sự tách biệt làm những nhóm riêng rẽ hay những vectơ nằm hỗn ñộn chồng chất, không theo một cấu trúc nào thì quá trình phân nhóm trở nên ít hiệu quả, hay ñôi khi là không cần thiết
Ở câu hỏi Q2 mang tính ñịnh lượng rõ ràng Cụ thể là quá trình phân nhóm thực hiện tính toán như thế nào, vectơ nào thuộc về nhóm nào (ñối với phân nhóm cứng) hay vectơ ñó có xác suất thuộc về nhóm với bao nhiêu phần trăm (ñối với phân nhóm mờ) Có rất nhiều giải thuật ñược dùng ñể giải quyết Q2 Tuy nhiên hai giải thuật phổ biến nhất là K-means (phân nhóm cứng) và Fuzzy K-means (phân nhóm mờ)
Câu hỏi Q3 có liên quan ñến vấn ñề ñánh giá ñộ chính xác quá trình mà chúng
ta phân nhóm khi giải quyết Q2 Hay ngắn ngọn là nó liên quan ñến các chỉ số ñộ chính xác (Cluster Validity Indices) Ở chương 3 sẽ ñề cập ñến các chỉ số này
Trang 33CHƯƠNG 3 PHÂN NHÓM MỜ
Phân loại mờ, hay phân nhóm mờ (Fuzzy Classification, Fuzzy Clustering) sử dụng trong luận văn là giải thuật Fuzzy K-means - FKM (hay Fuzzy C-means) Giải thuật ra ñời dựa trên ý tưởng về ñộ mờ hàm liên thuộc (fuzzy membership) Nội dung chương này giới thiệu các giải thuật trong phân nhóm mờ và giải thuật phân nhóm rõ K-means là giải thuật cơ sở cho Fuzzy K-means
Tuy nhiên, sử dụng thuật toán FKM ñòi hỏi phải biết trước số phân nhóm k và chỉ số mờ alpha Chương 3 sẽ lần lượt giới thiệu các tiêu chuẩn thường ñược sử dụng cho thuật toán FKM ñể xác ñịnh k và tiến hành khảo sát sự ảnh hưởng của alpha ñến quả phân nhóm của thuật toán Ngoài ra, phương pháp Mark Girolami áp dụng ñể xác ñịnh số nhóm thông qua ma trận hàm nhân kernel cũng ñược khảo sát trong chương này
Bên cạnh ñó, một số phương pháp mới (nguyên tắc Bellmand-Zadeh – BZ, phương pháp mục tiêu toàn cục – GC và phương pháp phân tích thành phần chính - PCA) cũng ñược ñề xuất áp dụng nhằm tìm kiếm một kết quả thống nhất về số phân nhóm k khi kết quả của các tiêu chuẩn phân nhóm có sự khác biệt
Tất cả các phương pháp trên sẽ lần lượt ñược tiến hành thử nghiệm trên một số tập dữ liệu thực và nhân tạo ñể ñánh giá kết quả trước khi áp dụng cho việc phân nhóm và xây dựng ñồ thị phụ tải ñiển hình trong chương 4
Mức ñộ phụ thuộc của phần tử Xj vào nhóm i ñược biểu diễn thông qua giá trị hàm liên thuộc wij , ñược ñại diện bằng ma trận W [ k x n]
Các giá trị hàm liên thuộc wij thỏa các ñiều kiện sau:
• Giá trị hàm liên thuộc trong khoảng từ 0 ñến 1:
Trang 34n ij j
w n
=
<∑ < với 1 i≤ ≤k
Tiêu chuẩn ñể phân chia tập dữ liệu thành các nhóm dựa trên mức ñộ tương
ñồng (ño khoảng cách) giữa các phần tử, cụ thể: cực tiểu khoảng cách giữa các
phần tử trong một nhóm với tâm của nhóm ñó (khoảng cách trong) và cực ñại khoảng cách giữa tâm các nhóm (khoảng cách ngoài) ðể làm ñược ñiều này,
người ta ñã tiến hành xây dựng hàm mục tiêu F chứa các thông tin của tập dữ liệu:
W và Z, và sự phân chia tối ưu với số nhóm ñã cho sẽ ñạt ñược nếu giá trị hàm mục tiêu ñạt cực tiểu với các giá trị Z và W tương ứng:
F (Z*, W*) = min (Z, W)
3.2 Thuật toán Phân nhóm rõ - K means Algorithm:
ðối với thuật toán K – means, mỗi phần tử chỉ thuộc về duy nhất một nhóm thể hiện qua 02 giá trị hàm liên thuộc wij = {0, 1}
Thuật toán K-means thực hiện theo các bước sau :
Lấy ra ngẫu nhiên k ñối tượng là những tâm ban ñầu của k tập hợp con
Lặp các bước sau: gom các vectơ phần tử vào một tập hợp mà tập hợp ñó
có vectơ tâm gần nó hơn các vectơ tâm khác Sau ñó cập nhật lại giá trị vectơ tâm của nhóm, với vectơ tâm là trung bình cộng giá trị của các vectơ phần tử trong tập hợp Dừng lặp khi giá trị các tâm không thay ñổi hay hàm mục tiêu F không ñổi
Trang 35Tiêu chuẩn ñộ lệch bình phương, hay hàm mục tiêu F ñược ñịnh nghĩa như sau:
l l i
i
x Z
Có nhiều phương pháp ñể cải thiện giải thuật K - means Những sự cải tiến này phân biệt với nhau bởi cách chọn tâm ban ñầu, cách tính toán sự khác nhau của những ñối tượng, và những chiến thuật ñể tính toán tâm của tập hợp
3.3 Thuật toán Phân nhóm mờ - Fuzzy K means Algorithm:
Thực tế, việc phân chia một tập dữ liệu có cấu trúc không rõ ràng, giới hạn khó phân biệt thành các nhóm riêng biệt là một ñiều rất khó Ví dụ, một ñiểm nằm trên ñường biên của cả hai nhóm, và trong một giới hạn về ñộ chính xác nào ñó sẽ chấp nhận cho phần tử ñó thuộc cả hai tập hợp nhưng với một giá trị trọng lượng cho mỗi nhóm Vì vậy, việc phân loại theo thuật toán rõ thường phản ánh các thông tin thiếu trung thực và không ñầy ñủ về tập dữ liệu cũng như ñưa ra các kết quả không ñáng tin cậy
Năm 1965, Giáo sư Zadeh ñã giới thiệu lý thuyết mờ [1], và từ ñó mô hình mờ
tỏ ra rất thích hợp ñể giải bài toán có cấu trúc không rõ ràng Nó phản ánh ñầy ñủ thông tin về các ñặc trưng, cấu trúc của dữ liệu một cách tự nhiên (natural) như bản
Trang 36chất vốn có của dữ liệu Bằng cách mở rộng miền giá trị của logic kinh ựiển gồm {0,1} thành logic có vô số giá trị thuộc ựoạn [0,1], thuật toán mờ ựã làm Ộmềm hoáỢ
và Ộlinh hoạt hoáỢ ựộ phụ thuộc của các giá trị chứa trong tập hợp ựể diễn ựạt các mức ựộ mờ khác nhau đó cũng là nguyên nhân sử dụng thuật toán mờ trong bài toán nhận dạng mẫu
Thuật toán Fuzzy K-means (FKM) ựầu tiên ựược ựề xuất bởi Dunn, sau ựó phát triển lên bởi Bezdek [15]
Giải thuật FKM có giá trị hàm mục tiêu sau:
α : chỉ số mờ (fuzziness index Ờ weghting exponent)
để giá trị F ựạt min, hàm liên thuộc W và vector tâm Z ựược cho bởi [15]:
2 1
i n
ij j
w x Z
Tóm tắt giải thuật FKM như sau:
Ớ Lấy ra k vectơ tâm ban ựầu bằng cách lấy ngẫu nhiên trong dữ liệu
Ớ Vòng lặp:
Trang 37a Tính khoảng cách từ các vectơ phần tử ñến vectơ tâm Zi, sau ñó tính giá trị wij theo (3.4)
b Tính giá trị hàm mục tiêu F theo (3.3), so sánh ñộ lệch với giá trị của lần lặp trước xem có nhỏ hơn hay bằng ε hay không, nếu nhỏ hơn hay bằng ε thì kết thúc vòng lặp Chú ý giá trị ε lý tưởng là bằng 0, còn không thì càng nhỏ càng tốt
c Cập nhật giá trị các tâm Zi từ wij theo (3.5), quay lại vòng lặp
ðộ phức tạp của FKM là O(tkmn), tương tự như K-means ðây cũng chính là một trong những ưu ñiểm của FKM, ngoài ưu ñiểm về tính mờ của hàm liên thuộc
Vì khi so sánh với các giải thuật khác như giải thuật gom cụm phân tầng (Hierarchical Clustering) chẳng hạn, có ñộ phức tạp O(n2) Chúng ta nhận thấy khi
số lượng các vectơ phần từ trong dữ liệu gia tăng, n>>t, k, m thì lúc này ñộ phức tạp của FKM là nhỏ hơn Kết quả là việc tính toán trên dữ liệu có số lượng phần tử lớn
là nhanh hơn Ưu ñiểm này phù hợp cho dữ liệu phụ tải, vì sự ñồ sộ về số lượng ñồ thị phụ tải trong một năm hay nhiều năm gộp lại
3.4 Kernel based Fuzzy K means Algorithm:
Kernel based Fuzzy K means Algorithm là thuật toán ñược mở rộng lên từ thuật toán Fuzzy K means bằng cách áp dụng các phương pháp hạt nhân (Kernel methods) ñể biến ñổi dữ liệu từ không gian gốc sang một không gian ñặc trưng có
số chiều lớn hơn, mà ở ñó, ñường biên giữa các nhóm dữ liệu trở nên tuyến tính Nhờ ñó, việc phân nhóm tập dữ liệu trở nên dễ dàng hơn
Trang 38Hình 3.1: Ánh xạ Φ biến ñổi tập dữ liệu 2 chiều sang không gian 3 chiều làm xuất
hiện ñường biên tuyến tính giữa các nhóm
Trong ñó, Φ là một ánh xạ phi tuyến từ không gian Rn vào không gian Rm (không gian ñặc trung – Feature space với m > n): Φ Rn Rm , khi ñó: vector xitrong không gian sẽ tương ứng với vector Φ(xi) trong không gian Rm
Việc tính toán trực tiếp với ánh xạ Φ (x) là rất phức tạp và khó khăn Vì vậy, nếu biết hàm nhân (Kernel function): K(xi xj) = Φ(xi)Φ(xj), ñể tính tích vô hướng Φ(xi)Φ(xj) trong không gian m chiều thì không cần làm việc với ánh xạ Φ(xi)
Một số hàm nhân thường ñược sử dụng là:
Hàm Gaussian Kernel – RBF (Radial basis function)
Hàm ña thức (Polynominal Kernel) K x y ( , ) = ( x yT + 1)d
Thuật toán Kernel based Fuzzy K means ñược Zhang và Chen ñề xuất năm
2002 [16] có hàm mục tiêu ñược ánh xạ sang không gian ñặc trưng như sau:
1
( ) ( )1/
Trang 39Tóm tắt giải thuật KFKM như sau:
• Ước lượng ma trận W(0) thỏa
1
1
k ij i
3.5 Các tiêu chuẩn ñể xác ñịnh số nhóm k:
ðể tìm lời giải cho bài toán phân chia tập dữ liệu X thành k nhóm, cụ thể k bằng bao nhiêu luôn là một vấn ñề rất quan trọng Phân làm bao nhiêu nhóm ñể các thành viên trong cùng một nhóm có cùng những ñặc trưng, qui luật tương tự là rất khó, phụ thuộc rất nhiều vào cấu trúc của X Dễ dàng nhận thấy, 1 < k < n Vì nếu k
= 1: cả tập X sẽ thuộc một nhóm, nếu k = n mỗi phần tử Xj là một nhóm
Có rất nhiều tiêu chuẩn ñã ñược ñề xuất nhằm xác ñịnh số nhóm k tối ưu, sau ñây sẽ giới thiệu một số chỉ số ñộ chính xác (Cluster Validity Indices) thông dụng
3.5.1 Bezdek’s Partition Coefficient (PC)
Chỉ số PC [17] ñược tính từ ma trận hàm liên thuộc W
Trang 403.5.2 Bezdek’s Partition Entropy (PE)
Chỉ số PE [17] cũng ñược tính từ hàm liên thuộc W
3.5.3 Modified Partition Coefficient (MPC)
Trong nghiên cứu về phân nhóm cho các nhóm có cấu trúc dạng vỏ, shell clustering, khi xem xét ñến hai chỉ số PC và PE của Bezdek, Rajesh N.Dave [18] ñã
ñề xuất ra một chỉ số mới dựa trên sự chỉnh sửa lại chỉ số PC gọi là chỉ số MPC
(Modified Partition Coefficient)
• Thay vì PC có tầm trong khoảng [1/k,1] thì MPC có tầm trong khoảng [0,1]
• Cả PC và PE ñều có khuynh hướng chọn k = 2 khi ñộ mờ α ∞, nhưng MPC tránh ñược ñiều này
Khi lựa chọn số nhóm, chọn k sao cho MPC lớn nhất
3.5.4 Xie-Beni (XB)
Chỉ số Xie-Beni ñược ñề xuất bởi Xuanli Lisa Xie và Gerardo Beni [19] Chỉ
số này cũng liên quan ñến các khái niệm về ñộ nén chặt và phân ly dùng cho ma trận xác suất W
Trong nghiên cứu về chỉ số này, Xie-Beni cũng ñề cập ñến việc chỉ số không
bị có khuynh hướng chọn k = 2 khi α ∞ như chỉ số PC và PE của Bezdek Khi
lựa chọn số nhóm, chọn k sao cho XB nhỏ nhất
3.5.5 Fuzzy version of PBM-index (PBMF)