ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ HOÀ TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN GIẢI THUẬT DI TRUYỀN LUẬN VĂN THẠC SĨ Hà Nội – 2011.
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
ĐỖ THỊ HOÀ
TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG
PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT DỰA
TRÊN GIẢI THUẬT DI TRUYỀN
LUẬN VĂN THẠC SĨ
Hà Nội – 2011
Trang 2ĐỖ THỊ HOÀ
TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN
GIẢI THUẬT DI TRUYỀN
Ngành: Công nghệ phần mềm
Mã số: 60 48 10
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN
Hà Nội – 2011
Trang 3MỤC LỤC
LỜI CẢM ƠN 3
LỜI CAM ĐOAN 4
MỤC LỤC 5
DANH MỤC BẢNG BIỂU 8
MỞ ĐẦU 9
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 11
1.1 Giới thiệu 11
1.2 Biểu diễn dữ liệu 12
1.3 Độ tương đồng 13
1.4 Các phương pháp phân cụm dữ liệu không giám sát 15
1.4.1 Các phương pháp phân hoạch 16 1.4.2 Các phương pháp phân cấp 19 1.4.3 Phương pháp phân cụm dựa trên mật độ 24 1.4.4 Các phương pháp phân cụm dựa trên lưới 27 1.5 Các phương pháp cụm dữ liệu bán giám sát 29
1.5.1 Giới thiệu 29 1.5.2 Thuật toán phân cụm bán giám sát K-means 30 CHƯƠNG 2: GIẢI THUẬT DI TRUYỀN 34
2.1 Giới thiệu 34
2.2 Giải thuật di truyền cổ điển 34
2.2.1 Phương pháp mã hoá và giải mã 36 2.2.2 Thủ tục chọn lọc 36 2.2.3 Quá trình tái tạo 37 2.2.4 Sự hội tụ của GA 38 2.2.5 Ví dụ 38 2.3 Biểu diễn bằng véc tơ số thực 40
2.3.1 Các toán tử tương giao chéo
41 2.3.2 Các toán tử biến dị
41 2.3.3 Ứng dụng của GA trong các thuật toán phân cụm
41
Trang 43.2 Chuyển đổi dữ liệu 44
3.2.1 Giới thiệu 44 3.2.2 Cơ sở dữ liệu quan hệ 45 3.2.3 Quá trình mã hóa các mẫu tin thành số nhị phân 46 3.3 Dữ liệu đại diện trong một mô hình không gian Vector 50
3.4 Tổng kết dữ liệu bằng cách phân cụm 51
3.5 Kỹ thuật phân cụm bán giám sát 52
3.6 Kỹ thuật phân cụm bán giám sát dựa trên giải thuật di truyền 54
Trang 53.6.1 Giảm dữ liệu và gieo hạt 54
3.6.2 Thuật toán phân cụm dựa trên giải thuật di truyền 55
CHƯƠNG 4:KẾT QUẢ THỬ NGHIỆM THUẬT TOÁN 58
4.1 Giới thiệu 58
4.2 Chương trình và dữ liệu thử nghiệm 58
4.2.1 Module 1 58
4.2.2 Module 2 60
4.3 Kết quả thử nghiệm 70
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 72
TÀI LIỆU THAM KHẢO 73
Trang 6Học viên: Đỗ Thị Hòa
Đơn vị công tác: Trường Đại học Công nghiệp TP.HCM
– Cơ sở đào tạo Thái Bình
Email:dtkhkhtn@gmail.com
GVHD: Hoàng Xuân Huấn Đơn vị công tác: Khoa CNTT – Trường Đại học Công nghệ - Đại học QGHN
Email: huanhx@vnu.edu.vn
Từ khóa: Khai phá dữ liệu, thuật toán phân cụm dữ liệu, giải thuật di truyền, cơ sở dữ liệu quan hệ, Kmeans, tóm tắt dữ liệu quan hệ.
Trong việc giải quyết bài toán phân cụm trong khai
phá dữ liệu quan hệ, các phương pháp truyền thống thường
yêu cầu liên kết dữ liệu được lưu trong nhiều bảng thành một
bảng duy nhất Khi đó, bảng dữ liệu thu được sẽ có kích thước
vô cùng lớn Để truy vấn, phải sử dụng các phép toán đại số
quan hệ và tối ưu các phép toán này bằng phương pháp tối ưu
truy vấn heuristic tức là tìm cách thực hiện các phép chiếu,
phép chọn trước các phép toán 2 ngôi Trong một số trường
hợp khi nối nhiều bảng sẽ gây mất thông tin hoặc trùng lặp dữ
liệu Do đó, chuyển đổi dữ liệu trở thành phức tạp và tóm tắt
dữ liệu thường kém hiệu quả Mặt khác, việc áp dụng các
phương pháp tóm tắt dữ liệu trong khai phá dữ liệu được lưu
trên nhiều bảng có quan hệ một-nhiều thường bị hạn chế do sự
phức tạp của lược đồ cơ sở dữ liệu
Để có thể khắc phục được các vấn đề nêu trên, luận
văn nghiên cứu phương pháp tiếp cận: Sử dụng kỹ thuật phần
cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt dữ
liệu được lưu trong nhiều bảng Nghiên cứu này dựa trên ý
tưởng nghiên cứu của Rayner Alfred Kết quả của thuật toán
được áp dụng phân cụm cho dữ liệu thử nghiệm năng suất lúa
Để giải quyết vấn đề trên, trong luận văn tôi đã trình
bày cụ thể về các thuật toán phân cụm dữ liệu, đánh giá ưu,
nhược điểm của từng phương pháp, từ đó chọn ta hướng tiếp
cận sử dụng phương pháp phân cụm bán giám sát dựa trên giải
thuật di truyền để tóm tắt dữ liệu
Đồng thời, trong luận văn tôi cũng đã trình bày một
cách có hệ thống các kiến thức về phân cụm dữ liệu bán giám
sát với dữ liệu đầu vào là các bảng có quan hệ một – nhiều, cụ
thể:
- Cách liên kết các mẫu tin lưu trong nhiều bảng có
quan hệ một – nhiều
- Cách tạo các vectơ mẫu từ ma trận tần suất là dữ liệu
đầu vào của thuật toán phân cụm bán giám sát
Bên cạnh đó, luận văn tập chung đi sâu nghiên cứu
cách ứng dụng của giải thuật di truyền vào bài toán phân cụm
bán giám sát Bao gồm:
- Cách giảm dữ liệu và gieo hạt
- Cách khởi tạo quần thể các cá thể
Đặc biệt, trong luận văn tôi đã xây dựng thành công chương trình tóm tắt dữ liệu quan hệ từ cơ sở dữ liệu quan hệ chứa nhiều bảng có quan hệ một – nhiều Nghiên cứu được áp dụng để tóm tắt dữ liệu quan hệ trên các tập dữ liệu về thử nghiệm năng suất lúa Trong quá trình xây dựng ứng dụng, tôi tập trung xây dựng hai module quan trọng đó là:
- Module 1: Tạo vectơ, module này có nhiệm vụ
chuyển đổi tệp dữ liệu chứa ma trận thành dữ liệu chứa các vectơ tương ứng với các bản ghi đích
- Module 2: Phân cụm, module này phân cụm các
vectơ đầu vào thành K cụm dựa trên các đặc trưng của các vectơ Kết quả thu được cách phân cụm tốt nhất bằng cách chọn hàm mục tiêu tốt nhất
Với việc sử dụng thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền, luận văn đã giới thiệu bài toán tóm tắt dữ liệu quan hệ từ các bảng có quan hệ một-nhiều Nghiên cứu này chỉ ra quá trình chuyển đổi dữ liệu bằng cách chuyển các đại diện dữ liệu lưu trữ trong cơ sở dữ liệu quan hệ sang định dạng không gian vectơ thích hợp trong phân cụm
Luận văn cũng giới thiệu một phương pháp học bán giám sát để có được các cụm tối ưu Các kết quả thu được trong nghiên cứu này cho rằng phân cụm tự động bằng cách tối ưu sự kết hợp của cụm phân tán và cụm tạp chất sẽ thu được kết quả tốt so với phân cụm truyền thống Tuy nhiên, kết quả tốt nhất có thể đạt được bằng cách tối ưu hoá các giá trị kết hợp của cả hai cụm phân tán và cụm tạp chất, bằng cách đặt trọng số bằng nhau vào 2 cụm này
Hướng pháp triển trong tương lai: Trong thời gian
tới, tôi sẽ khảo sát mịn hơn cặp giá trị vô hướng (β, α) trongβ, α) trong) trong hàm mục tiêu (β, α) trongOFF) từ đó tìm cách cực đại hóa hàm mục tiêu Việc áp dụng thuật giải di truyền vào quá trình phân cụm tỏ ra rất hiệu quả, điều này nảy sinh ý tưởng sử dụng giải thuật di truyền ngay từ giai đoạn tạo dữ liệu đầu vào cho thuật toán phân cụm
Một vấn đề tiếp theo là xây dựng tập dữ liệu, đặc biệt
là cơ sở dữ liệu về quản lý sinh viên trong trường đại học và quản lý khách hàng trong ngân hàng Việc cải tiến chất lượng phân cụm cho một tập dữ liệu bất kỳ trong không gian nhiều chiều cũng là vấn đề mà tôi sẽ quan tâm tới