LUẬN VĂN THẠC SĨ CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU SỬ DỤNG TÍNH TOÁN TIẾN HÓA

TRƯỜNG ĐẠI HỌC CÔNG NGHỆPHAN MINH HẢI CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU SỬ DỤNG TÍNH TOÁN TIẾN HÓA Ngành: Công nghệ thông tin Chuyên ngành: Công nghệ phần mềm Mã số: 60.48.10

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHAN MINH HẢI

CÁC KỸ THUẬT PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU

SỬ DỤNG TÍNH TOÁN TIẾN HÓA

Ngành: Công nghệ thông tin

Chuyên ngành: Công nghệ phần mềm

Mã số: 60.48.10

LUẬN VĂN THẠC SĨ CÔNG NGHỆ PHẦN MỀM

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS BÙI THU LÂM

Hà Nội, 2013

Trang 2

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của bản thân, được xuất phát từyêu cầu phát sinh trong công việc để hình thành hướng nghiên cứu Các số liệu

có nguồn gốc rõ ràng tuân thủ đúng nguyên tắc và kết quả trình bày trong luậnvăn được thu thập được trong quá trình nghiên cứu là trung thực chưa từng được

ai công bố trước đây

Hà Nội, tháng 9 năm 2013 Tác giả luận văn Phan Minh Hải

Trang 3

LỜI CẢM ƠN Luận văn được thực hiện dưới sự hướng dẫn của TS Bùi Thu Lâm – Học viện

Kỹ thuật Quân sự Em xin bày tỏ lòng biết ơn sâu sắc tới Thầy đã hướng dẫn và

có ý kiến chỉ dẫn quý báu trong quá trình em làm luận văn Em xin chân thànhcảm ơn các Thầy giáo trong bộ môn Công nghệ phần mềm Em cũng xin cảm ơncác thầy cô giáo trong Khoa, cán bộ thuộc phòng Khoa học và Đào tạo sau Đạihọc, Trường Đại học Công nghệ đã tạo điều kiện trong quá trình học tập vànghiên cứu tại Trường

Cuối cùng xin bày tỏ lòng cảm ơn tới những người thân trong gia đình, bạn bè

đã động viên và giúp đỡ để tôi hoàn thành bản luận văn này

Hà Nội, Tháng 9 năm 2013 Học viên thực hiện Phan Minh Hải

Trang 4

LỜI CAM ĐOAN 2

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 6

DANH MỤC CÁC BẢNG 7

MỞ ĐẦU 9

1.1 Tổng quan về khám phá tri thức và khai phá dữ liệu 10

1.1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu 10

1.1.2 Quá trình khám phá tri thức 11

1.1.3 Quá trình khai phá dữ liệu 12

1.1.4 Các phương pháp khai phá dữ liệu 12

1.1.5 Các lĩnh vực ứng dụng thực tiễn của KPDL 13

1.1.6 Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong KPDL 13

1.2 Tổng quan về lập trình tiến hóa và thuật toán di truyền 14

1.2.1 Giới thiệu chung về thuật toán di truyền 14

1.2.2 Các đặc tính của thuật toán di truyền 14

1.2.2.1 Các quá trình cơ bản trong thuật toán di truyền 15

1.2.2.2 Các tham số của thuật toán di truyền 17

1.2.3 Thuật tiến hóa vi phân 20

1.2.3.1 Nguyên lý hoạt động 20

1.2.3.2 Xây dựng sơ đồ thuật toán 20

1.3 Kết luận 22

CHƯƠNG 2 MỘT SỐ GIẢI THUẬT PHÂN CỤM 23

2.1 Khái niệm và mục tiêu của phân cụm dữ liệu 23

2.2 Các ứng dụng của phân cụm dữ liệu 24

2.3 Các yêu cầu của phân cụm 25

2.4 Những kỹ thuật tiếp cận trong phân cụm dữ liệu 26

2.4.1 Phương pháp phân cụm phân hoạch 26

2.4.2 Phương pháp phân cụm phân cấp 27

2.4.3 Phương pháp phân cụm dựa trên mật độ 28

2.4.4 Phương pháp phân cụm dựa trên lưới 28

Trang 5

2.4.5 Phương pháp phân cụm dựa trên mô hình 29

2.4.6 Phương pháp phân cụm có dữ liệu ràng buộc 29

2.5 Một số thuật toán cơ bản trong phân cụm dữ liệu 30

2.5.1 Các thuật toán phân cụm phân hoạch 30

2.5.2 Các thuật toán phân cụm phân cấp 33

2.5.3 Các thuật toán phân cụm dựa trên mật độ 34

2.5.4 Các thuật toán phân cụm dựa trên lưới 37

2.5.5 Các thuật toán phân cụm dựa trên mô hình 39

2.5.6 Giải thuật phân cụm dựa trên giải thuật di truyền 40

CHƯƠNG 3 GIẢI THUẬT PHÂN CỤM DỰA TRÊN LAI GHÉP GIẢI THUẬT DI TRUYỀN VÀ KMEANS 41

3.1 Giải thuật phân cụm trong tính toán tiến hóa 41

3.1.1.Giải thuật tổng quát cho phân cụm sử dụng giải thuật di truyền 42

3.1.2 Khởi tạo đại diện cá nhân và quần thể 42

3.1.3 Tính toán độ thích nghi 42

3.1.4 Phép chọn (Selection) 43

3.1.5 Crossover (lai ghép) 44

3.1.6 Mutation (Đột biến) 44

3.1.7 Kmeans dựa trên thuật toán di truyền 45

3.1.8 Phân cụm Kmeans sử dụng thuật tiến hóa vi phân 46

3.2 So sánh giữa thuật toán Kmens và Kmeans sử dụng giải thuật di truyền 48

CHƯƠNG 4 CÀI ĐẶT VÀ THỬ NGHIỆM 49

4.1 Chuẩn bị dữ liệu 49

4.2 Kết quả và phân tích 50

4.2.1 Thí nghiệm với giải thuật Kmeans 50

4.2.2 Thí nghiệm với giải thuật Kmeans có sử dụng giải thuật di truyền 51

KẾT LUẬN 53

TÀI LIỆU THAM KHẢO 55

Trang 6

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

CDL Cụm dữ liệu

CNTT Công nghệ thông tin

CSDL Cơ sở dữ liệu

DE Thuật tiến hóa vi phân Diﬀerential Evolution

GA Giải thuật di truyền Genetic Algorithm

KPDL Khai phá dữ liệu

KPTT Khai phá thông tin

LOX Lai ghép có thứ tự tuyến tính Liner Order Crossover

OX Lai ghép có trật tự Order Crossover

PBX Lai ghép dựa trên vị trí Position Based CrossoverPCDL Phân cụm dữ liệu

PMX Lai ghép từng phần Partially-Matched Crossover

Trang 7

DANH MỤC CÁC BẢNG

Bảng 4.1: Bộ dữ liệu tự sinh có 3 trường dữ liệu 48

Bảng 4.2: Bộ dữ liệu Order Details của Northwind 48

Bảng 4.3: Thuật toán Kmeans với số cụm bằng 2 49

Bảng 4.6: Thuật toán Genetic Kmeans với số cụm bằng 2 50

Bảng 4.7: Chạy lại thuật toán Genetic Kmeans với số cụm bằng 2 50

Bảng 4.8: Khi chạy thuật toán Genetic Kmeans với số cụm bằng 3 50

Bảng 4.9: Chạy lại thuật toán Genetic Kmeans với số cụm bằng 3 51

Trang 8

DANH MỤC CÁC HÌNH VẼ VÀ ĐỒ THỊ

Hình 1.1: Quá trình KPTT 11

Hình 1.2: Quá trình KPDL 12

Hình 1.3: Lai ghép hai cá thể 16

Hình 1.4: Đột biến một nhiễm sắc thể 17

Hình 1.5: Sơ đồ quá trình tính toán của thuật toán di truyền 18

Hình 1.6: Sơ đồ thuật toán tiến hóa vi phân 20

Hình 2.1: Mô tả tập dữ liệu vay nợ được phân thành 3 cụm 23

Hình 2.2: Các chiến lược phân cụm phân cấp 27

Hình 2.3: Cấu trúc phân cấp 28

Hình 2.4: Các cách mà các cụm có thể đưa ra 29

Hình 2.5: Các thiết lập để xác định ranh giới các cụm ban đầu 31

Hình 2.6: Tính toán trọng tâm của các cụm mới 31

Hình 2.7: Khái quát thuật toán CURE 33

Hình 2.8: Các cụm dữ liệu được khám phá bởi CURE 33

Hình 2.9: Hình dạng các cụm được khám phá bởi thuật toán DBSCAN 35

Trang 9

MỞ ĐẦU

Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhau trongtập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm là tươngđồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng Phâncụm dữ liệu không đòi hỏi phải định nghĩa trước các mẫu dữ liệu huấn luyện Vìthế, có thể coi phân cụm dữ liệu là một cách học không giám sát (unsupervisedlearning) Các Kỹ thuật phân cụm được ứng dụng rất nhiều trong các lĩnh vực tàichính ngân hành để phân lọai các nhóm khách hàng khác nhau Ngoài ra phâncụm dữ liệu còn có thế được sử dụng như một bước tiền xử lý cho các thuật toánkhai phá dữ liệu khác như phân loại và mô tả đặc điểm, có tác dụng phát hiện racác cụm

Theo các nghiên cứu cho thấy thì hiện nay chưa có một phương pháp phân cụmtổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc của cácCSDL Hơn nữa, các phương pháp phân cụm cần có cách thức biểu diễn cấu trúccủa các CSDL, với mỗi cách thức biểu diễn khác nhau sẽ có một thuật toán phâncụm phù hợp Vì vậy phân cụm dữ liệu vẫn đang là một vấn đề khó và mở, vìphải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phù hợp với nhiềudạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày càng tăngtrong các hệ quản trị dữ liệu và đây cũng là một trong những thách thức lớntrong KPDL Một điểm khác nữa là các hàm mục tiêu của các thuật toán phâncụm như K-means thường tồn tại nhiều điểm tối ưu cục bộ Do đó mà đề tài tậptrung vào tìm hiểu “Các kỹ thuật phân cụm trong khai phá dữ liệu sử dụng tínhtoán tiến hóa”; một kỹ thuật tiến hóa được thiết kế để khắc phục tính chất cục bộcủa các thuật toán phân cụm

Luận văn gồm có 4 chương chính:

Chương 1: Tổng quan về khám phá tri thức, khai phá dữ liệu và thuật

toán di truyền

Chương 2: Một số giải thuật phân cụm

Chương 3: Giải thuật phân cụm dựa trên lai ghép giải thuật di truyền và

Kmeans

Chương 4: Cài đặt và thử nghiệm

Kết luận định hướng phát triển kết quả nghiên cứu

Trang 10

CHƯƠNG 1 TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC, KHAI PHÁ DỮ LIỆU VÀ THUẬT TOÁN DI TRUYỀN

1.1 Tổng quan về khám phá tri thức và khai phá dữ liệu

1.1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu

Nếu cho rằng, điện tử và truyền thông chính là bản chất của khoa học điện tử, thì

dữ liệu, thông tin, và tri thức hiện đang là tiêu điểm của một lĩnh vực mới đểnghiên cứu và ứng dụng, đó là khám phá tri thức và khai phá dữ liệu

Thông thường, chúng ta coi dữ liệu như là một chuỗi các bits, hoặc các số và các

ký hiệu hay là các “đối tượng” với một ý nghĩa nào đó khi được gửi cho mộtchương trình dưới một dạng nhất định Các bits thường được sử dụng để đothông tin, và xem nó như là dữ liệu đã được loại bỏ phần tử thừa, lặp lại, vàrút gọn tới mức tối thiểu để đặc trưng một cách cơ bản cho dữ liệu Tri thức đượcxem như là các thông tin tích hợp, bao gồm các sự kiện và mối quan hệgiữa chúng, đã được nhận thức, khám phá, hoặc nghiên cứu Nói cách khác, trithức có thể được coi là dữ liệu ở mức độ cao của sự trừu tượng và tổng quát Khám phá tri thức hay phát hiện tri thức trong CSDL là một quy trình nhận biếtcác mẫu hoặc các mô hình trong dữ liệu với các tính năng: Phân tích, tổnghợp, hợp thức, khả ích và có thể hiểu được

Khai phá dữ liệu là một bước trong quá trình khám phá tri thức, gồm cácthuật toán khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tínhtoán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu

Nói cách khác, mục tiêu của Khai phá dữ liệu là tìm kiếm các mẫu hoặc mô hìnhtồn tại trong CSDL nhưng ẩn trong khối lượng lớn dữ liệu

Trang 11

1.1.2 Quá trình khám phá tri thức

Hình 1.1: Quá trình KPTT Bao gồm các bước sau:

Làm sạch dữ liệu (Data Cleaning): Loại bỏ dữ liệu nhiễu và dữ liệu không

nhất quán

Tích hợp dữ liệu (Data Intergation): Dữ liệu của nhiều nguồn có thể được tổ

hợp lại

Lựa chọn dữ liệu (Data Selection): Lựa chọn những dữ liệu phù hợp với

nhiệm vụ phân tích trích rút từ cơ sở dữ liệu

Chuyển đổi dữ liệu (Data Transformation): Dữ liệu được chuyển đổi hay được

hợp nhất về dạng thích hợp cho việc khai phá

Khai phá dữ liệu (Data Mining): Đây là một tiến trình cốt yếu trong đó các

phương pháp thông minh được áp dụng nhằm trích rút ra mẫu dữ liệu

Đánh giá mẫu (Pattern Evaluation): Dựa trên một độ đo nào đó xác định lợi

ích thực sự, độ quan trọng của các mẫu biểu diễn tri thức

Biểu diễn tri thức (Knowledge Presentation): Ở giai đoạn này các kỹ thuật

biểu diễn và hiển thị được sử dụng để đưa tri thức lấy ra cho ngườidùng

Trang 12

1.1.3 Quá trình khai phá dữ liệu

KPDL là một giai đoạn quan trọng trong quá trình KPTT Về bản chất, nó là giaiđoạn duy nhất tìm ra được thông tin mới, thông tin tiềm ẩn có trong CSDL chủyếu phục vụ cho mô tả và dự đoán

Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của nhữngthuộc tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được Dự đoán làdựa trên những dữ liệu hiện thời để dự đoán những quy luật được phát hiện từcác mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó chiết xuất ra cácmẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương lai của cácbiến quan tâm

Quá trình KPDL bao gồm các bước chính được thể hiện như Hình 1.2 sau:

Hình 1.2: Quá trình KPDL

o Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết

o Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp

o Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền

xử lý chúng sao cho thuật toán KPDL có thể hiểu được Đây là một quátrình rất khó khăn, có thể gặp phải rất nhiều các vướng mắc như: dữ liệuphải được sao ra nhiều bản (nếu được chiết xuất vào các tệp), quản lý tậpcác dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình dữliệu thay đổi), v.v

o Thuật toán khai phá dữ liệu: Lựa chọn thuật toán KPDL và thực hiện

việc PKDL để tìm được các mẫu có ý nghĩa, các mẫu này được biểu diễndưới dạng luật kết hợp, cây quyết định tương ứng với ý nghĩa của nó

1.1.4 Các phương pháp khai phá dữ liệu

Với hai mục đích khai phá dữ liệu là Mô tả và Dự đoán, người ta thường

sử dụng các phương pháp sau cho khai phá dữ liệu:

o Luật kết hợp (association rules)

o Phân lớp (Classfication)

Trang 13

o Hồi qui (Regression)

o Trực quan hóa (Visualiztion)

o Phân cụm (Clustering)

o Tổng hợp (Summarization)

o Mô hình ràng buộc (Dependency modeling)

o Biểu diễn mô hình (Model Evaluation)

o Phân tích sự phát triển và độ lệch (Evolution and deviation analyst)

o Phương pháp tìm kiếm (Search Method)

Có nhiều phương pháp khai phá dữ liệu được nghiên cứu ở trên, trong đó có baphương pháp được các nhà nghiên cứu sử dụng nhiều nhất đó là: Luật kếthợp, Phân lớp dữ liệu và Phân cụm dữ liệu

1.1.5 Các lĩnh vực ứng dụng thực tiễn của KPDL

KPDL là một lĩnh vực mới phát triển nhưng thu hút được khá nhiều nhà nghiêncứu nhờ vào những ứng dụng thực tiễn của nó Sau đây là một số lĩnh vực ứngdụng thực tế điển hình của KPDL:

- Phân tích dữ liệu và hỗ trợ ra quyết định

- Phân lớp văn bản, tóm tắt văn bản, phân lớp các trang Web và phâncụm ảnh màu

- Chuẩn đoán triệu chứng, phương pháp trong điều trị y học

- Tìm kiếm, đối sánh các hệ Gene và thông tin di truyền trong sinh học

- Phân tích tình hình tài chính, thị trường, dự báo gía cổ phiếu trong tàichính, thị trường và chứng khoán

- Phân tích dữ liệu marketing, khách hàng

- Điều khiển và lập lịch trình

- Bảo hiểm

- Giáo dục

1.1.6 Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong KPDL

Vấn đề khai phá dữ liệu có thể được phân chia theo lớp các hướng tiếp cận chính sau:

- Phân lớp và dự đoán (classification &prediction): Là quá trình xếp một đối

tượng vào một trong những lớp đã biết trước (ví dụ: phân lớp các bệnh nhântheo dữ liệu hồ sơ bệnh án, phân lớp vùng địa lý theo dữ liệu thời tiết ) Đốivới hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như câyquyết định (decision tree), mạng nơron nhân tạo (neural network), Hay lớpbài toán này còn đươc gọi là học có giám sát - Học có thày (supervised

Trang 14

learning)

- Phân cụm (clustering/segmentation): Sắp xếp các đối tượng theo từng cụm

dữ liệu tự nhiên, tức là số lượng và tên cụm chưa được biết trước Các đốitượng được gom cụm sao cho mức độ tương tự giữa các đối tượng trong cùngmột cụm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong cáccụm khác nhau là nhỏ nhất Lớp bài toán này còn được gọi là học không giámsát - Học không thày (unsupervised learning)

- Luật kết hợp (association rules): Là dạng luật biểu diễn tri thức ở dạng khá

đơn giản (Ví dụ: 80% sinh viên đăng ký học CSDL thì có tới 60% trong số họđăng ký học Phân tích thiết kế hệ thống thông tin) Hướng tiếp cận này đượcứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin sinh học, giáo dục, viễnthông, tài chính và thị trường chứng khoán,

- Phân tích chuỗi theo thời gian (sequential/temporal patterns): Cũng tương tự

như khai phá dữ liệu bằng luật kết hợp nhưng có thêm tính thứ tự và tính thờigian Một luật mô tả mẫu tuần tự có dạng tiêu biểu X -> Y, phản ánh sự xuấthiện của biến cố X sẽ dẫn đến việc xuất hiện biến cố Y Hướng tiếp cận nàyđược ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán bởichúng có tính dự báo cao

- Mô tả khái niệm (concept desccription & summarization): Lớp bài toán

này thiên về mô tả, tổng hợp và tóm tắt khái niệm (Ví dụ: tóm tắt văn bản)

1.2 Tổng quan về giải thuật tiến hóa

Tính toán tiến hóa (Evolutionary computation): ứng dụng các khái niệm sinhhọc như quần thể, biến dị và đấu tranh sinh tồn để sinh các lời giải ngày càng tốthơn cho bài toán Có một số phương pháp tiếp cận được tuân thủ theo tính toántiến hóa và thuật ngữ chung cho cách tiếp cận này là giải thuật tiến hóa Hìnhthức sử dụng rộng rãi nhất của giải thuật tiến hóa là giải thuật di truyền (GeneticAlgorithms) Và trong phần trình bày dưới đây sẽ mô tả giải thuật di truyền vàthuật tiến hóa vi phân (Differential Evolution)

1.2.1 Giải thuật di truyền

Giống như thuật toán tiến hóa nói chung, thuật toán di truyền hình thành dựatrên quan niệm cho rằng quá trình tiến hóa tự nhiên là quá trình hoàn hảo và hợp

lý nhất và tự nó đã mang tính tối ưu Đây là một tiên đề đúng, không thể chứngminh được nhưng phù hợp với thực tế khách quan Trong tính tối ưu trong tựnhiên thể hiện ở chỗ thế hệ sau bao giờ cũng tốt hơn thế hệ trước nhờ hai quátrình cơ bản là sinh sản và chọn lọc tự nhiên Những cá thể nào phát triển thíchnghi với môi trường sẽ tồn tại và ngược lại, những cá thể nào không thích nghi

Trang 15

với môi trường sẽ bị đào thải Sự thay đổi của môi trường sẽ tác động đến quátrình tiến hóa và bản thân quá trình tiến hóa cũng có tác động và làm thay đổimôi trường Cá thể mới sinh ra trong quá trình tiến hóa nhờ vào sự lai ghép ở thế

hệ cha-mẹ Một cá thể mới có thể mang những đặc tính của cha-mẹ ở thế hệtrước (di truyền) hoặc mang những đặc tính mới hoàn toàn (đột biến) Di truyền

và đột biến là hai cơ chế quan trọng như nhau trong quá trình tiến hóa mặc dùxác suất để xảy ra hiện tượng đột biến nhỏ nhiều (hàng chục đến hàng trăm lầntùy từng quá trình) so với hiện tượng di truyền Mặc dù cơ chế là ngẫu nhiênnhưng thuật toán di truyền không phải là một thuật toán ngẫu nhiên Thuật toánkhai thác và tận dụng được một cách hiệu quả thông tin quá khứ để có đượcnhững kết quả mới đạt kết quả như mong muốn Các cải tiến trong việc sử dụngthuật toán di truyền đã làm tăng thêm hiệu quả của việc sử dụng thuật toán trongcác bài toán phức tạp Điều này thể hiện ở việc giảm thời gian tính toán ngàycàng hiệu quả mà ta sẽ tìm hiểu cụ thể hơn ở dưới đây

1.2.1.1 Các quá trình cơ bản trong thuật toán di truyền

a, Mã hóa dữ liệu: hay còn gọi là biểu diễn di truyền cho lời giải của bài toán:

Đây là bước đầu tiên và rất quan trọng đối với việc tìm ra lời giải của bài toán.Mỗi lời giải của bài toán được biểu diễn dưới dạng một chuỗi ký tự hữu hạn haycòn được gọi là một nhiễm sắc thể Các ký tự có thể là số nhị phân, số thậpphân, … tùy vào từng bài toán cụ thể Trong quá trình này, việc mã hóa cái gì,

mã hóa như thế nào, trật tự các thành phần trong nhiễm sắc thể ra sao,… luôn lànhững thách thức cho những người giải bài toán

b, Khởi tạo quần thể (xây dựng tập hợp nghiệm ban đầu) có thể ngẫu nhiên

hoặc không ngẫu nhiên: Có nhiều cách để khởi tạo giá trị quần thể nghiệm banđầu, tùy từng bài toán mà ta lựa chọn phương pháp phù hợp Thông thường, hệnghiệm ban đầu được chọn ngẫu nhiên trong không gian tìm kiếm Tuy vậy,việc chọn này cũng cần phải xem xét về tương quan giữa độ thích nghi của cácnhiễm sắc thể để tránh tình trạng nghiệm tìm ra là nghiệm tối ưu cục bộ hay còngọi là cực trị địa phương Còn vấn đề số lượng nghiệm của tập nghiệm hay qui

mô của quần thể cũng cần được xem xét kỹ dựa vào độ phức tạp của bài toán, độchính xác yêu cầu (cao hay thấp) và thời gian tính toán yêu cầu (nhanh haychậm)

c, Xác định hàm thích nghi hay hàm lượng giá cho mỗi nhiễm sắc thể hay

chính là cho các phương án nghiệm trong tập nghiệm Hàm này dùng để đánhgiá độ thích nghi của các nhiễm sắc thể Hàm thích nghi cần phai đánh giá đượcmức độ thích nghi cho tất cả các nghiệm khả thi và luôn được giả định là không

âm để hiện độ thích nghi của các cá thể Công thức biểu diễn hàm cần phải thể

Trang 16

hiện được tất cả các đặc tính mong muốn của nhiễm sắc thể, thông qua đó có thểchọn lọc được các quần thể nghiệm tốt nhất cho bài toán.

d, Quá trình lai ghép: đây là quá trình nhiễm sắc thể mới được hình thành dựa

trên nhiễm sắc thể cha-mẹ bằng cách lai ghép một hay nhiều đoạn nhiễm sắc thểcha mẹ với nhau Phép lai ghép xay ra với xác suất là p1 có thể được mô phỏngnhư sau:

o Chọn hai (hay nhiều) cá thể bất kỳ trong quần thể Quần thể ở đây baogồm các nhiễm sắc thể (cha-mẹ) có độ dài bằng nhau

o Chọn điểm lai là một điểm có vị trí bất kỳ (như nhau) trên nhiễm sắc thểcha-mẹ và thực hiện hoán đổi các đoạn gen của nhiễm sắc thể cha-mẹ tạiđiểm lai này

o Đưa hai cá thể này vào quần thể để thực hiện vào các quá trình tiến hóatiếp theo

Hình 1.3: Lai ghép hai cá thể

Tuy nhiên trong quá trình tồn tại và phát triển, thuật toán di truyền đã được bổsung rất nhiều các phương pháp lai ghép để nhằm thích ứng với nhiều kiểu bàitoán và cũng là để tăng hiệu quả của thuật toán Có thể kể một số phép lai cảitiến như sau:

Lai ghép có xét tới các đặc tính trội và lặn trong tự nhiên Các đặc tính này đượcquy định trước trong khi biểu diễn cấu trúc nhiễm sắc thể Bằng việc xem xét tớicác đặc tính trội-lặn, quá trình sản sinh ra các "quần thể chất lượng tốt" sẽ nhanhhơn và do đó thời gian tính toán cũng được rút ngắn

o Lai ghép từng phần: Việc giữ lại những đoạn mã đã "tối ưu" trong nhiễmsắc thể cũng là một cách để quá trình lai ghép trở nên hiệu quả hơn

o Lai ghép có trật tự

o Lai ghép dựa trên vị trí

o Lai ghép chu trình

o Lai ghép thứ tự tuyến tính

Trang 17

o Lai ghép đa điểm: Với phương pháp này, chúng ta có thể cho 2 cá thể laighép ở 2 hay nhiều điểm lai ghép Phương thức này làm cho thuật toán trởnên linh hoạt hơn, nhờ đó các thế hệ cá thể con cũng sẽ có chất lượng tốthơn.

e, Quá trình đột biến là quá trình cá thể con mang một bay một số tính trạng

không có trong mã di truyền của cha-mẹ Quá trình này xảy ra với xác suất p2(nhỏ hơn nhiều so với p1) có thể được mô tả như sau:

o Chọn ngẫu nhiên một cá thể bất kỳ trong quần thể

o Chọn một gen bất kỳ của cá thể vừa chọn

o Thay đổi giá trị gen đó (đối với cách mã hóa gen theo số nhị phân thì quátrình thay đổi giá trị là đổi giá trị từ 0 thành 1 hoặc từ 1 thành 0) rồi trả vềquần thể để thực hiện các quá trình tiếp theo

Hình 1.4: Đột biến một nhiễm sắc thể

Tương tự như quá trình lai ghép, trong quá trình phát triển của thuật toán ditruyền cũng đã được bổ sung rất nhiều cách thức để thực hiện quá trình gây độtbiến ngày càng hiệu quả hơn:

o Đột biến đảo ngược (Inversion Mutation)

o Đột biến chèn (Insertion Mutation)

o Đột biến thay thế (Raplacement Mutation)

o Đột biến tương hỗ (Reciprocal Exchange Mutation)

o Đột biến dịch chuyển (Shift Mutation)

f, Quá trình chọn lọc: Quá trình mà các cá thể mới sinh ra được giữ lại hay bị

loại bỏ khỏi quần thể dựa vào độ thích nghi của chúng Độ thích nghi ở đâythường là một hàm gán một giá trị thực cho các cá thể trong quần thể Đối vớiquá trình này có rất nhiều cách để xác định trình tự tính toán và thực hiện tùyvào cách lựa chọn độ thích nghi của cá thể nói riêng và của cả quần thể nóichung

1.2.1.2 Các tham số của thuật toán di truyền

o Kích cỡ hệ nghiệm (pop-size): số lượng cá thể phù hợp trong mỗi thế hệ

o Xác suất lai tạo (pc): xác suất để mỗi cá thể trong quần thể được tham giaquá trình lai ghép

Trang 18

o Xác suất đột biến (pm): xác suất để mỗi bit trong nhiễm sắc thể bị đột biếnThông thường, kích cỡ của quần thể phụ thuộc vào độ phức tạp của bài toán Bàitoán càng phức tạp, nhiều ràng buộc-đơn hoặc đa mục tiêu- thì số lượng cá thểtrong mỗi thế hệ càng phải lớn Hai thông số xác suất trong quá trình di truyền

có khoảng giá trị rất khác nhau Đối với xác suất lai tạo, giá trị thường rơi trongkhoảng 0,5-0,95 nhưng giá trị thông thường của xác suất đột biến thấp hơnnhiều, chỉ ở khoảng 0,001-0,05 Điều này cũng phản ánh đúng xác suất xảy rahai quá trình trong thực tế

Từ một ví dụ trên đây có thể tính được một số ưu điểm của thuật toán di truyềnnhư phương pháp này tìm từ một quần thể các điểm chứ không phải một điểm.Điều này làm cho việc giải các bài toán đa mục tiêu hay việc tìm một tập hợpcác phương án lân cận nghiệm trở nên dễ dàng Thêm vào đó, việc đánh giáthông tin bằng hàm mục tiêu chứ không dùng đạo hàm hay các tri thức bổ sungcũng là một ưu điểm của thuật toán

Trang 19

Hình 1.5: Sơ đồ quá trình tính toán của thuật toán di truyền

Nhận xét cụ thể các bước trong lưu đồ trên:

Bước 1: Khởi tạo/lựa chọn các thông số cho quá trình tính toán: Bước này người

lập trình tính toán phải lựa chọn các thông số như: Số lượng cá thể trong quầnthể, cách thức hóa bài toán cần tính toán dưới dạng các nhiễm sắc thể (độ dàicủa nhiễm sắc thể, kiểu số biểu diễn dữ liệu,…), số thế hệ tính toán, xác suất laighép, xác suất đột biến, hàm thích nghi,…

Bước 2: Khởi tạo quần thể ban đầu: xác định bằng phương pháp tạo số ngẫu

nhiên để tạo giá trị cho các nhiễm sắc thể cho quần thể ban đầu Tùy vào cáchbiểu diễn của các nhiễm sắc thể mà ta chọn phương pháp tạo số ngẫu nhiên phùhợp

Trang 20

Bước 3: Đánh giá các nhiễm sắc thể bằng hàm thích nghi đã xác định ở bước 1.

Trong bước này, ngoài việc đánh giá các nhiễm sắc thể riêng rẽ, chúng ta còn cóthể đánh giá độ thích nghi của một nhiễm sắc thể hay cả quần thể Nếu mộtnhóm hay cả quần thể có độ thích nghi "trung bình" (theo tiêu chí của từngtrường hợp của người lập trình) thấp thì có thể loại nhóm nhiễm sắc thể hayquần thể đó ra khỏi quá trình di truyền

Bước 4: Thực hiện quá trình di truyền thông qua các cơ chế lai ghép và đột biến.

Có thể thực hiện lần lượt hai quá trình này hoặc thực hiện đồng thời theo cácphương pháp đã đề cập bên trên Trong quá trình thực hiện thuật toán di truyền,giai đoạn này là giai đoạn mà mỗi người có thể thực hiện theo những phươngpháp rất khác nhau Giai đoạn này cũng là giai đoạn quyết định tới sự thànhcông của thuật toán Người thực hiện cũng có thể đưa ra những phương thức tiếnhành lai ghép hay đột biến mới trong giai đoạn này Trong quá trình thực hiện,

để có được một bộ các thông số lai ghép hay đột biến hiệu quả, người lập trìnhthường phải trải qua nhiều bước tính toán thử Khâu này phụ thuộc nhiều vàokinh nghiệm và kỹ năng tính toán của người lập trình

Bước 5: Tạo quần thể mới bằng quá trình chọn lọc Quá trình này cũng dựa vào

đánh giá các nhiễm sắc thể thông qua hàm thích nghi Cá thể nào có độ thíchnghi cao sẽ được gữ lại cho thế hệ kế tiếp Cũng giống như ở bước 3, chúng ta

có thể sử dụng những hàm thích nghi phù hợp để đánh giá từng cá thể dơn lẻhoạc cả một nhóm các cá thể Sau quá trình này, nhóm cá thể nào thỏa mã tiêuchuẩn đánh giá với mức độ từ cao xuống thấp sẽ được dưa vào quần thể mới

Bước 6: Đánh giá quần thể vừa có được trong bước 5 Thông thường có hai tiêu

chí để dừng quá trình di truyền tại bước này Thứ nhất, độ thích nghi của từng cáthể và cả quần thể thỏa mãn một điều kiện hội tụ đã được đặt ra ban đầu Cácđiều kiện hội tụ thể hiện mức độ chấp nhận được của kết quả tìm được Thứ hai,quần thể mới tạo thành là quần thể ở thế hệ thứ (N+1) với N là số thế hệ dự địnhtính toán đã giả thiết ban đầu Trong khi thực hiện các quá trình di truyền, nhữngngười tính toán có thể đưa ra những tiêu chí riêng để dừng quá trình di truyền.Các tiêu chí đưa ra góp phần quyết định tới thành công của thuật toán

1.2.2 Thuật tiến hóa vi phân

1.2.2.1 Nguyên lý hoạt động

Trên cơ sở ý tưởng của thuật toán GA, vào năm 1995, Rainer Storn và KennethPrice đã hoàn thiện cơ chế đột biến và lai ghép để tạo ra một thuật toán mới tin cậy,hiệu quả hơn Điểm khác biệt lớn nhất của DE so với GA là luôn duy trì và bổ sung

Trang 21

một cặp 2 véctơ bao gồm (n_popsize) quần thể với (m) chiều các tham số thực và

đã ứng dụng thành công cho nhiều bài toán tối ưu ở các lĩnh vực khác nhau

1.2.2.2 Xây dựng sơ đồ thuật toán

Sơ đồ thuật toán được trình bày trên hình 1.6

Hình 1.6: Sơ đồ thuật toán tiến hóa vi phân

Cũng như thuật toán GA đã trình bày ở trên, thuật toán tiến hoá vi phân cũngkhởi tạo quần thể các điểm ban đầu P(t) theo quy luật ngẫu nhiên phân bố đềutrong miền xác định bài toán sau khi cho các thông số ban đầu (khối 1, 2) Mỗiphần tử trong quần thể ban đầu này cũng được DE thực hiện trên miền tham sốthực với công thức sau [5]:

Sai

3 2

1

5 4

6

7

8

9

Trang 22

x = rand(0,1) *(BU - BL ) + BLij ij ij ij (1) Trong đó:

xij - giá trị của phần tử ij với: i - số cá thể xem xét của bài toán; j - số biếncủa bài toán tối ưu;

BUij, BLij - giới hạn trên và giới hạn dưới của biến xij;

rand (0,1) - số ngẫu nhiên phân bố đều trong khoảng [0, 1]

Ngay sau quá trình tạo quần thể ban đầu, khác với GA, thuật toán DE thực hiệnluôn tiến trình đột biến (khối 3) Trong tiến trình này, DE tiếp tục tạo ra mộtquần thể được đột biến [V] dựa trên quần thể ban đầu Kỹ thuật đột biến trongthuật toán DE là sự kết hợp giữa hệ số tỷ lệ cho trước và các quá trình ngẫunhiên Phương trình (2) biểu diễn giá trị phần tử đột biến vij từ việc tổ hợp baphần tử khác nhau được chọn ngẫu nhiên trong quần thể ban đầu [X]

ij ro,j r1,j r2,j (2)Trong đó:

r0, r1, r2 - các giá trị ngẫu nhiên khác nhau được chọn theo luật phân bốđều trong khoảng [0, n_popsize];

F - hằng số tỷ lệ

F  (0,1) là một số thực dương điều khiển mức độ tiến hóa của quần thể

Trong quá trình lai ghép (khối 4), DE cũng tiến hành lai ghép theo kiểu cặp đôi(dual crossover) tạo ra một quần thể lai ghép [U] có giá trị các tham số được lựachọn ngẫu nhiên từ các quần thể [X] và [V] ban đầu Kỹ thuật lai ghép sử dụngtrong lập trình của DE có thể biểu diễn như sau:

r ij

u =

ij ij

sẽ đảm bảo chắc chắn phần tử lai ghép không trùng với phần tử ban đầu xij Trong quá trình chọn lọc và tái sinh (khối 5, 6), các cá thể trong quần thể laighép [U] được so sánh với các cá thể trong quần thể ban đầu [X] theo hướng cáthể nào có giá trị hàm mục tiêu thấp hơn sẽ được lựa chọn vào quần thể mới [Y]

Kỹ thuật lựa chọn của DE có thể biểu diễn như sau:

Trang 23

Điều kiện dừng của thuật toán DE cũng rất dễ dàng và thuận tiện Các khối 7, 8,

9 biểu diễn điều kiện kiểm tra dừng và xuất kết quả của thuật toán Các giá trị về

số thế hệ tiến hoá (Sth) hoặc một giá trị vô cùng bé (EPS) được đưa ra so sánhvới các sai lệch của quá trình tính Biểu thức điều kiện dừng của thuật toán DE

có thể viết như sau:

Np F(x)i i=1

Np



(5)Trong đó:

F(x)min - giá trị nhỏ nhất của hàm mục tiêu tại thế hệ xét;

F(x)i - giá trị hàm mục tiêu của cá thể thứ i;

Np(= n_popsize) - tổng số cá thể trong quần thể đang xét;

 - giá trị vô cùng bé cho trước (thường chọn = 10-4  10-6 tùy theo loạibài toán)

1.3 Kết luận

KPDL là lĩnh vực đã và đang trở thành một trong những hướng nghiên cứu thuhút được sự quan tâm của nhiều chuyên gia về CNTT trên thế giới Trong nhữngnăm gần đây, rất nhiều các phương pháp và thuật toán mới liên tục được công

bố Điều này chứng tỏ những ưu thế, lợi ích và khả năng ứng dụng thực tế to lớncủa KPDL Chương này đã trình bày một số kiến thức tổng quan về KPTT,những khái niệm và kiến thức cơ bản nhất về KPDL, thuật giải di truyền vàthuật tiến hóa vi phân

Trang 24

CHƯƠNG 2 MỘT SỐ GIẢI THUẬT PHÂN CỤM

2.1 Khái niệm và mục tiêu của phân cụm dữ liệu

Phân cụm dữ liệu là quá trình nhóm một tập các đối tượng tương tự nhautrong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng một cụm

là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ khôngtương đồng Phân cụm dữ liệu là một ví dụ của phương pháp học không cóthầy Không giống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phảiđịnh nghĩa trước các mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữliệu là một cách học bằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ,

… Ngoài ra phân cụm dữ liệu còn có thể được sử dụng như một bước tiền xử lícho các thuật toán khai phá dữ liệu khác như là phân loại và mô tả đặc điểm, cótác dụng trong việc phát hiện ra các cụm

Hình 2.1: Mô tả tập dữ liệu vay nợ được phân thành 3 cụm.

Phân cụm có ý nghĩa rất quan trọng trong hoạt động của con người Ngay từlúc bé, con người đã học cách làm thế nào để phân biệt giữa mèo và chó, giữađộng vật và thực vật và liên tục đưa vào sơ đồ phân loại trong tiềm thức củamình Phân cụm được sử dụng rộng rãi trong nhiều ứng dụng, bao gồm nhậndạng mẫu, phân tích dữ liệu, xử lý ảnh, nghiên cứu thị trường, Với tư cách làmột chức năng khai phá dữ liệu, phân tích phân cụm có thể được sử dụng nhưmột công cụ độc lập chuẩn để quan sát đặc trưng của mỗi cụm thu được bêntrong sự phân bố của dữ liệu và tập trung vào một tập riêng biệt của các cụm đểgiúp cho việc phân tích đạt kết quả

Một vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần cho phân cụmđều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặcthiếu đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lí dữ liệunhằm khắc phục hoặc loại bỏ nhiễu trước khi chuyển sang giai đoạn phân tíchcụm dữ liệu Nhiễu ở đây được hiểu là các đối tượng dữ liệu không chính xác,không tường minh hoặc là các đối tượng dữ liệu khuyết thiếu thông tin về

Trang 25

một số thuộc tính, Một trong các kỹ thuật xử lí nhiễu phổ biến là việcthay thế giá trị các thuộc tính của đối tượng nhiễu bằng giá trị thuộctính tương ứng Ngoài ra, dò tìm phần tử ngoại lai cũng là một trong nhữnghướng nghiên cứu quan trọng trong phân cụm, chức năng của nó là xácđịnh một nhóm nhỏ các đối tượng dữ liệu khác thường so với các dữ liệu trongCSDL, tức là các đối tượng dữ liệu không tuân theo các hành vi hoặc mô hình

dữ liệu nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả của phâncụm

Mục tiêu của phân cụm là xác định được bản chất nhóm trong tập DL chưa cónhãn Nó có thể được chỉ ra rằng không có tiêu chuẩn tuyệt đối “tốt” mà

có thể không phụ thuộc vào kết quả phân cụm Vì vậy, nó đòi hỏi người sửdụng phải cung cấp tiêu chuẩn này, theo cách mà kết quả phân cụm sẽ đáp ứngyêu cầu

Theo các nghiên cứu cho thấy thì hiện nay chưa có một phương pháp phân cụmtổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc CDL Hơnnữa, các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của cácCDL, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật toánphân cụm phù hợp Vì vậy phân cụm dữ liệu vẫn đang là một vấn đề khó và mở,

vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phù hợp với nhiềudạng dữ liệu khác nhau, đặc biệt là đối với dữ liệu hỗn hợp đang ngày càngtăng trong các hệ quản trị dữ liệu và đây cũng là một trong những tháchthức lớn trong lĩnh vực KPDL

2.2 Các ứng dụng của phân cụm dữ liệu

Phân cụm dữ liệu có thể được ứng dụng trong nhiều lĩnh vực như:

 Thương mại: Tìm kiếm nhóm các khách hàng quan trọng có đặc trưng

tương đồng và những đặc tả họ từ các bản ghi mua bán trong CSDL

 Sinh học: Phân loại các gen với các chức năng tương đồng và thu được

các cấu trúc trong mẫu

 Thư viện: Phân loại các cụm sách có nội dung và ý nghĩa tương đồng

nhau để cung cấp cho độc giả

 Bảo hiểm: Nhận dạng nhóm tham gia bảo hiểm có chi phí bồi

thường cao, nhận dạng gian lận thương mại

 Quy hoạch đô thị: Nhận dạng các nhóm nhà theo kiểu và vị trí địa lí,

nhằm cung cấp thông tin cho quy hoạch đô thị

 Nghiên cứu trái đất: Phân cụm để theo dõi các tâm động đất

nhằm cung cấp thông tin cho nhận dạng các vùng nguy hiểm

Định dạng
Số trang	50
Dung lượng	0,94 MB