1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán giám sát dựa trên giải thuật di truyền luận văn ths công nghệ phần mềm 60 48 10

6 39 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 15,9 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC QUỐC GIA HÀ NỘITRƯỜNG ĐẠI HỌC CÔNG NGHỆ ĐỖ THỊ HOÀ TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN GIẢI THUẬT DI TRUYỀN LUẬN VĂN THẠC SĨ Hà Nội – 2011.

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

ĐỖ THỊ HOÀ

TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG

PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT DỰA

TRÊN GIẢI THUẬT DI TRUYỀN

LUẬN VĂN THẠC SĨ

Hà Nội – 2011

Trang 2

ĐỖ THỊ HOÀ

TÓM TẮT DỮ LIỆU QUAN HỆ SỬ DỤNG PHƯƠNG PHÁP PHÂN CỤM BÁN GIÁM SÁT DỰA TRÊN

GIẢI THUẬT DI TRUYỀN

Ngành: Công nghệ phần mềm

Mã số: 60 48 10

LUẬN VĂN THẠC SĨ

NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS HOÀNG XUÂN HUẤN

Hà Nội – 2011

Trang 3

MỤC LỤC

LỜI CẢM ƠN 3

LỜI CAM ĐOAN 4

MỤC LỤC 5

DANH MỤC BẢNG BIỂU 8

MỞ ĐẦU 9

CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU 11

1.1 Giới thiệu 11

1.2 Biểu diễn dữ liệu 12

1.3 Độ tương đồng 13

1.4 Các phương pháp phân cụm dữ liệu không giám sát 15

1.4.1 Các phương pháp phân hoạch 16 1.4.2 Các phương pháp phân cấp 19 1.4.3 Phương pháp phân cụm dựa trên mật độ 24 1.4.4 Các phương pháp phân cụm dựa trên lưới 27 1.5 Các phương pháp cụm dữ liệu bán giám sát 29

1.5.1 Giới thiệu 29 1.5.2 Thuật toán phân cụm bán giám sát K-means 30 CHƯƠNG 2: GIẢI THUẬT DI TRUYỀN 34

2.1 Giới thiệu 34

2.2 Giải thuật di truyền cổ điển 34

2.2.1 Phương pháp mã hoá và giải mã 36 2.2.2 Thủ tục chọn lọc 36 2.2.3 Quá trình tái tạo 37 2.2.4 Sự hội tụ của GA 38 2.2.5 Ví dụ 38 2.3 Biểu diễn bằng véc tơ số thực 40

2.3.1 Các toán tử tương giao chéo

41 2.3.2 Các toán tử biến dị

41 2.3.3 Ứng dụng của GA trong các thuật toán phân cụm

41

Trang 4

3.2 Chuyển đổi dữ liệu 44

3.2.1 Giới thiệu 44 3.2.2 Cơ sở dữ liệu quan hệ 45 3.2.3 Quá trình mã hóa các mẫu tin thành số nhị phân 46 3.3 Dữ liệu đại diện trong một mô hình không gian Vector 50

3.4 Tổng kết dữ liệu bằng cách phân cụm 51

3.5 Kỹ thuật phân cụm bán giám sát 52

3.6 Kỹ thuật phân cụm bán giám sát dựa trên giải thuật di truyền 54

Trang 5

3.6.1 Giảm dữ liệu và gieo hạt 54

3.6.2 Thuật toán phân cụm dựa trên giải thuật di truyền 55

CHƯƠNG 4:KẾT QUẢ THỬ NGHIỆM THUẬT TOÁN 58

4.1 Giới thiệu 58

4.2 Chương trình và dữ liệu thử nghiệm 58

4.2.1 Module 1 58

4.2.2 Module 2 60

4.3 Kết quả thử nghiệm 70

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 72

TÀI LIỆU THAM KHẢO 73

Trang 6

Học viên: Đỗ Thị Hòa

Đơn vị công tác: Trường Đại học Công nghiệp TP.HCM

– Cơ sở đào tạo Thái Bình

Email:dtkhkhtn@gmail.com

GVHD: Hoàng Xuân Huấn Đơn vị công tác: Khoa CNTT – Trường Đại học Công nghệ - Đại học QGHN

Email: huanhx@vnu.edu.vn

Từ khóa: Khai phá dữ liệu, thuật toán phân cụm dữ liệu, giải thuật di truyền, cơ sở dữ liệu quan hệ, Kmeans, tóm tắt dữ liệu quan hệ.

Trong việc giải quyết bài toán phân cụm trong khai

phá dữ liệu quan hệ, các phương pháp truyền thống thường

yêu cầu liên kết dữ liệu được lưu trong nhiều bảng thành một

bảng duy nhất Khi đó, bảng dữ liệu thu được sẽ có kích thước

vô cùng lớn Để truy vấn, phải sử dụng các phép toán đại số

quan hệ và tối ưu các phép toán này bằng phương pháp tối ưu

truy vấn heuristic tức là tìm cách thực hiện các phép chiếu,

phép chọn trước các phép toán 2 ngôi Trong một số trường

hợp khi nối nhiều bảng sẽ gây mất thông tin hoặc trùng lặp dữ

liệu Do đó, chuyển đổi dữ liệu trở thành phức tạp và tóm tắt

dữ liệu thường kém hiệu quả Mặt khác, việc áp dụng các

phương pháp tóm tắt dữ liệu trong khai phá dữ liệu được lưu

trên nhiều bảng có quan hệ một-nhiều thường bị hạn chế do sự

phức tạp của lược đồ cơ sở dữ liệu

Để có thể khắc phục được các vấn đề nêu trên, luận

văn nghiên cứu phương pháp tiếp cận: Sử dụng kỹ thuật phần

cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt dữ

liệu được lưu trong nhiều bảng Nghiên cứu này dựa trên ý

tưởng nghiên cứu của Rayner Alfred Kết quả của thuật toán

được áp dụng phân cụm cho dữ liệu thử nghiệm năng suất lúa

Để giải quyết vấn đề trên, trong luận văn tôi đã trình

bày cụ thể về các thuật toán phân cụm dữ liệu, đánh giá ưu,

nhược điểm của từng phương pháp, từ đó chọn ta hướng tiếp

cận sử dụng phương pháp phân cụm bán giám sát dựa trên giải

thuật di truyền để tóm tắt dữ liệu

Đồng thời, trong luận văn tôi cũng đã trình bày một

cách có hệ thống các kiến thức về phân cụm dữ liệu bán giám

sát với dữ liệu đầu vào là các bảng có quan hệ một – nhiều, cụ

thể:

- Cách liên kết các mẫu tin lưu trong nhiều bảng có

quan hệ một – nhiều

- Cách tạo các vectơ mẫu từ ma trận tần suất là dữ liệu

đầu vào của thuật toán phân cụm bán giám sát

Bên cạnh đó, luận văn tập chung đi sâu nghiên cứu

cách ứng dụng của giải thuật di truyền vào bài toán phân cụm

bán giám sát Bao gồm:

- Cách giảm dữ liệu và gieo hạt

- Cách khởi tạo quần thể các cá thể

Đặc biệt, trong luận văn tôi đã xây dựng thành công chương trình tóm tắt dữ liệu quan hệ từ cơ sở dữ liệu quan hệ chứa nhiều bảng có quan hệ một – nhiều Nghiên cứu được áp dụng để tóm tắt dữ liệu quan hệ trên các tập dữ liệu về thử nghiệm năng suất lúa Trong quá trình xây dựng ứng dụng, tôi tập trung xây dựng hai module quan trọng đó là:

- Module 1: Tạo vectơ, module này có nhiệm vụ

chuyển đổi tệp dữ liệu chứa ma trận thành dữ liệu chứa các vectơ tương ứng với các bản ghi đích

- Module 2: Phân cụm, module này phân cụm các

vectơ đầu vào thành K cụm dựa trên các đặc trưng của các vectơ Kết quả thu được cách phân cụm tốt nhất bằng cách chọn hàm mục tiêu tốt nhất

Với việc sử dụng thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền, luận văn đã giới thiệu bài toán tóm tắt dữ liệu quan hệ từ các bảng có quan hệ một-nhiều Nghiên cứu này chỉ ra quá trình chuyển đổi dữ liệu bằng cách chuyển các đại diện dữ liệu lưu trữ trong cơ sở dữ liệu quan hệ sang định dạng không gian vectơ thích hợp trong phân cụm

Luận văn cũng giới thiệu một phương pháp học bán giám sát để có được các cụm tối ưu Các kết quả thu được trong nghiên cứu này cho rằng phân cụm tự động bằng cách tối ưu sự kết hợp của cụm phân tán và cụm tạp chất sẽ thu được kết quả tốt so với phân cụm truyền thống Tuy nhiên, kết quả tốt nhất có thể đạt được bằng cách tối ưu hoá các giá trị kết hợp của cả hai cụm phân tán và cụm tạp chất, bằng cách đặt trọng số bằng nhau vào 2 cụm này

Hướng pháp triển trong tương lai: Trong thời gian

tới, tôi sẽ khảo sát mịn hơn cặp giá trị vô hướng (β, α) trongβ, α) trong) trong hàm mục tiêu (β, α) trongOFF) từ đó tìm cách cực đại hóa hàm mục tiêu Việc áp dụng thuật giải di truyền vào quá trình phân cụm tỏ ra rất hiệu quả, điều này nảy sinh ý tưởng sử dụng giải thuật di truyền ngay từ giai đoạn tạo dữ liệu đầu vào cho thuật toán phân cụm

Một vấn đề tiếp theo là xây dựng tập dữ liệu, đặc biệt

là cơ sở dữ liệu về quản lý sinh viên trong trường đại học và quản lý khách hàng trong ngân hàng Việc cải tiến chất lượng phân cụm cho một tập dữ liệu bất kỳ trong không gian nhiều chiều cũng là vấn đề mà tôi sẽ quan tâm tới

Ngày đăng: 11/11/2020, 22:21

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w