Chương 5: trình bày về khảo cứu của thuật toán PCDL k-prototypes áp dụng tập dữ liệu có kiểu hỗn hợp giữa thuộc tính số và thuộc tính hạng mục Phần kết luận, phần này trình bày tóm tắt
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Thanh Sơn
PHÂN CỤM DỮ LIỆU
VÀ ỨNG DỤNG TRONG CÔNG TÁC TÁI BẢO HIỂM
LUẬN VĂN THẠC SĨ
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Trần Thanh Sơn
PHÂN CỤM DỮ LIỆU
VÀ ỨNG DỤNG TRONG CÔNG TÁC TÁI BẢO HIỂM
Ngành: Công nghệ thông tin
Mã số: 1.01.10
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC THI
Hà Nội - 2006
Trang 3MỤC LỤC
MỤC LỤC 1
DANH SÁCH HÌNH VẼ 3
DANH SÁCH BẢNG BIỂU 4
BẢNG TỪ VIẾT TẮT 4
TỪ KHOÁ 4
MỞ ĐẦU 6
CHƯƠNG 1: TỔNG QUAN VỀ DATA MINING 9
1.1 Giới thiệu chung 9
1.2 KPDL là gì? 9
1.3 Quá trình khám phá tri thức trong CSDL 10
1.4 Các kỹ thuật áp dụng trong KPDL 11
1.4.1 Các kỹ thuật tiếp cận trong KPDL 11
1.4.2 Các dạng dữ liệu có thể khai phá 13
1.5 Ứng dụng của KPDL 13
1.6 Phân cụm dữ liệu và ứng dụng 13
CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ CÁC TIẾP CẬN 14
2.1 Vấn đề phân cụm dữ liệu 14
2.2 Các ứng dụng của phân cụm dữ liệu 16
2.3 Các kiểu dữ liệu và độ đo tương tự 17
2.3.1 Phân loại các kiểu dữ liệu dựa trên kích thước miền 17
2.3.2 Phân loại các kiểu dữ liệu dựa trên hệ đo 18
2.3.3 Khái niệm về tương tự và phi tương tự 19
2.4 Những kỹ thuật tiếp cận trong phân cụm dữ liệu 23
2.4.1 Phân cụm phân hoạch 23
2.4.2 Phân cụm dữ liệu phân cấp 24
2.4.3 Phân cụm dữ liệu dựa trên mật độ 25
2.4.4 Phân cụm dữ liệu dựa trên lưới 26
2.4.5 Phân cụm dữ liệu dựa trên mô hình 27
2.4.6 Phân cụm dữ liệu có ràng buộc 27
2.5 Các yêu cầu cần thiết cho tạo dựng kỹ thuật PCDL 28
CHƯƠNG 3: CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU ĐIỂN HÌNH31 3.1 Họ các thuật toán phân hoạch 31
3.1.1 Thuật toán k-means 31
3.1.2 Thuật toán PAM 34
3.1.3 Thuật toán CLARA 38
3.1.4 Thuật toán CLARANS 39
3.1.5 Nhận xét chung về họ các thuật toán phân hoạch 42
3.2 Các thuật toán phân cụm phân cấp 43
3.2.1 Thuật toán BIRCH 43
3.2.2 Thuật toán CURE 45
3.3 Các thuật toán phân cụm dựa trên mật độ 47
Trang 43.3.1 Thuật toán DBSCAN 47
3.3.2 Thuật toán OPTICS 52
3.3.3 Thuật toán DENCLUE 53
3.4 Một số thuật toán phân cụm dữ liệu đặc thù 55
3.4.1 Thuật toán STING 55
3.4.2 Thuật toán CLIQUE 56
3.4.3 Thuật toán EM 56
CHƯƠNG 4: PHÂN CỤM DỮ LIỆU MỜ 59
4.1 Vấn đề phân cụm mờ 59
4.2 Thuật toán FCM 60
4.2.1 Hàm tiêu chuẩn 60
4.2.2 Thuật toán FCM 61
4.3 Thuật toán FCM 64
4.3.1 Hàm tiêu chuẩn 64
4.3.2 Thụât toán FCM 66
CHƯƠNG 5: PHÂN CỤM SONG SONG TRÊN TẬP DỮ LIỆU HỖN HỢP 69
5 1 Giới thiệu 69
5.2 Mô hình dữ liệu có kiểu hỗn hợp giữa thuộc tính số và thuộc tính hạng mục 69
5.2.1 Các miền thuộc tính 69
5.2.2 Các đối tượng có kiểu hỗn hợp 70
5 3 Cơ sở toán học cho thuật toán k - prototypes 71
5.3.1 Hàm tiêu chuẩn 71
5.3.2 Độ đo sự tương tự 73
5.4 Thuật toán k- prototypes 74
5.5 Nhận xét chung về phương pháp k-prototypes 82
KẾT LUẬN 83
1 Các kết quả đạt được trong luận văn 83
2 Hướng nghiên cứu tiếp theo 84
PHỤ LỤC 85
1 Đặt bài toán 85
2 Thiết kế chương trình 86
3 Một số module chính của chương trình 91
TÀI LIỆU THAM KHẢO 98
Trang 5DANH SÁCH HÌNH VẼ
Hình 1 - Các bước thực hiện trong quá trình khám phá tri thức 11
Hình 2: Các lĩnh vực liên quan đến Khám phá tri thức trong CSDL 11
Hình 3: Mô phỏng vấn đề PCDL 14
Hình 4 : Các chiến lược phân cụm phân cấp 25
Hình 5: Một số hình dạng cụm dữ liệu khám phá được bởi kỹ thuật PCDL dựa trên mật độ 26
Hình 6: Mô hình cấu trúc dữ liệu lưới 27
Hình 7: Các bước thực hiện của thuật toán k-means 32
Hình 8: Thuật toán k-means chi tiết 33
Hình 9: Thí dụ về một số hình dạng cụm dữ liệu được khám phá bởi k-means 34
Hình 10: Thí dụ về các khả năng thay thế các đối tượng tâm medoid 36
Hình 11: Các bước thực hiện của thuật toán PAM 37
Hình 12: Các bước thực hiện của thuật toán CLARA 39
Hình 14: Cây CF được sử dụng bởi thuật toán BIRCH 44
Hình 15 : Các bước thực hiện cơ bản của thuật toán BIRCH 45
Hình 16: Các cụm dữ liệu được khám phá bởi CURE 46
Hình 17 : Các bước thực hiện cơ bản của thuật toán CURE 47
Hình 18: Thuật toán DBSCAN 52
Hình 19: Thứ tự phân cụm của các đối tượng của OPTICS 53
Hình 20: DENCLUE với hàm phân phối Gaussian 54
Hình 21: Thuật toán FCM 62
Hình 22: Mô phỏng về tập dữ liệu đơn chiều 62
Hình 23: Hàm thuộc với trọng tâm của cụm A trong k-means 63
Hình 24: Hàm thuộc với trọng tâm của cụm A trong FCM 63
Hình 25: Các cụm khám phá được bởi thuật toán phân cụm mờ 64
Hình 26: Thuật toán FCM 66
Hình 27: Sự tác động của t trong phân cụm 73
Hình 28: Các bước thực hiện cơ bản của thuật toán k-prototypes 76
Hình 29: Thuật toán k-prototypes chi tiết 78
Hình 30: Quá trình hội tụ của thuật toán k-prototypes 80
Trang 6DANH SÁCH BẢNG BIỂU
Bảng 1: Bảng tham số 21
Bảng 2: Tổng kết các thuật toán phân cụm 58
Bảng 3: Kết quả thực nghiệm của thuật toán FCM 68
Bảng 4: Dữ liệu có thuộc tính hỗn hợp 70
Bảng 5: Bảng kết quả thực hiện theo độ lớn của dữ liệu 81
Bảng 6: Bảng kết quả thực hiện số cụm thu đƣợc 81
BẢNG TỪ VIẾT TẮT
Từ hoặc cụm từ Từ viết tắt Từ tiếng Anh
Công nghệ thông tin CNTT Information Technology
Database
TỪ KHOÁ
Data mining, phân cụm dữ liệu, dữ liệu hỗn hợp, phân cụm mờ, phân cụm song song
Trang 7LỜI CẢM ƠN
Trước tiên, tôi xin tỏ lòng biết ơn sâu sắc tới thầy giáo PGS.TS Vũ Đức Thi - người hướng dẫn khoa học đã chỉ bảo tận tình và truyền thụ cho tôi kiến thức, nguồn cảm hứng nghiên cứu giúp tôi hoàn thành luận văn này
Tôi xin bày tỏ lòng biết ơn đến các thầy giáo trong trường Đại học Công nghệ: TS Hà Quang Thuỵ, PGS.TS Đỗ Đức Giáo, PGS.TS Trịnh Nhật Tiến, PGS.TS Nguyễn Văn Vị, TS Nguyễn Tuệ, …đã trực tiếp giảng dạy, góp ý chuyên môn, động viên tôi trong suốt khoá học
Cuối cùng tôi xin bày tỏ lòng biết ơn đến gia đình, và các bạn bè đã chia sẻ và động viên tôi hoàn thành luận văn
Trần Thanh Sơn
Trang 8Từ khi ra đời, KPDL đã trở thành một trong những hướng nghiên cứu phổ biến trong lĩnh vực khoa học máy tính và công nghệ tri thức kết hợp với CSDL, thống kê, học máy và những lĩnh vực có liên quan để trích chọn những thông tin giá trị và tri thức hữu ích trong tập hợp dữ liệu lớn Nhiều kết quả nghiên cứu, ứng dụng của KPDL trong các lĩnh vực khoa học, kinh tế, xã hội KPDL bao hàm nhiều hướng nghiên cứu quan trọng, một trong số đó là phân cụm dữ liệu (Data Clustering - PCDL) PCDL là quá trình tìm kiếm và phát hiện ra các cụm hoặc các mẫu dữ liệu tự nhiên trong cơ sở dữ liệu lớn Các kỹ thuật chính được áp dụng trong phân cụm dữ liệu phần lớn được kế thừa từ lĩnh vực thống kê, học máy, nhận dạng, lượng hoá, Đến nay, đã có nhiều ứng dụng phân cụm dữ liệu cho việc giải quyết các vấn đề trong các lĩnh vực như tài chính, thông tin địa lý, sinh học, nhận dạng ảnh, …Trong thời gian gần đây, trong lĩnh vực PCDL, người ta tập trung chủ yếu vào nghiên cứu, phân tích các mô hình dữ liệu phức tạp như dữ liệu văn bản, Web, hình ảnh,…và đặc biệt là mô hình dữ liệu hỗn hợp để áp dụng chúng trong PCDL
Trong bối cảnh nước ta đang đẩy mạnh phát triển, hội nhập kinh tế với thế giới thì nhu cầu về tự động khám phá tri thức từ các dữ liệu sẵn có nhằm tăng năng
Trang 9lực cạnh tranh của các ngành kinh tế là cực kỳ cần thiết và cấp bách Hơn nữa,
KPDL là lĩnh vực rộng nên trong luận văn này tôi chọn đề tài nghiên cứu: "Phân
cụm dữ liệu và ứng dụng trong công tác Tái bảo hiểm" cho luận văn của mình
Đây là một trong các nội dung quan trọng trong KPDL và là hướng nghiên cứu có nhiều triển vọng Luận văn trình bày một số vấn đề về KPDL và tập trung khảo cứu
hệ thống các họ thuật toán PCDL, bao gồm các cách tiếp cận và đặc điểm ứng dụng
Ngoài phần mở đầu và kết luận, cấu trúc nội dung của luận văn bao gồm có 5 chương :
Chương 1: trình bày tổng quan về lĩnh vực KPDL và một số khái niệm liên
quan, đồng thời chỉ ra các giai đoạn thực hiện trong quá trình khám phá tri thức Phần tiếp theo của chương là trình bày ngắn gọn, có hệ thống về các kỹ thuật, các dạng dữ liệu thường được sử dụng trong KPDL
Chương 2: giới thiệu về Phân cụm dữ liệu, đây là một hướng tiếp cận chính
trong KPDL Trong đó, đi sâu phân tích chi tiết các vấn đề cơ bản trong PCDL và ý nghĩa của PCDL, đặc điểm của các kiểu dữ liệu cơ bản thường sử dụng trong PCDL
như: dữ liệu có thuộc tính hạng mục (Categorical), dữ liệu có thuộc tính số,… Các khái niệm về “tương tự” và “phi tương tự” cũng được trình bày trong chương này
Phần cuối của chương trình bày vắn tắt, tổng kết về các đặc trưng của các phương
pháp PCDL được sử dụng phổ biến như: Phương pháp phân cụm phân hoạch, phương pháp phân cụm phân cấp, phương pháp phân cụm dựa trên mật độ,…đồng
thời nêu các kỹ thuật đánh giá kết quả PCDL
Chương 3: trình bày các phân tích, đánh giá các họ các thuật toán PCDL điển
hình và chỉ ra các ưu điểm, nhược điểm của chúng cũng như các yêu cầu đặt ra cho việc tạo dụng thuật toán PCDL
Chương 4: trình bày các khảo cứu về áp dụng các kỹ thuật mờ trong PCDL và
chứng minh tính hiệu quả của nó trong giải quyết với một lớp bài toán trong PCDL Nội dung cụ thể của chương này là trình bày về thuật toán FCM, đây là một thuật toán phân cụm mờ dựa trên lược đồ của thuật toán k-means Thuật toán mở rộng của FCM là FCM được đề xuất nhằm khắc phục cho các nhược điểm của thuật toán FCM là như nhạy cảm với các phần tử nhiễu (noise) và các phần tử ngoại lai trong
Trang 10dữ liệu (outlier) Phần cuối của chương nêu ra một số các kết quả thực nghiệm cho các thuật toán phân cụm mờ đã trình bày ở trên
Chương 5: trình bày về khảo cứu của thuật toán PCDL k-prototypes áp dụng
tập dữ liệu có kiểu hỗn hợp giữa thuộc tính số và thuộc tính hạng mục
Phần kết luận, phần này trình bày tóm tắt về các nội dung thực hiện trong luận văn này, đồng thời đưa ra những vấn đề nghiên cứu tiếp theo cho tương lai
Phần phụ lục trình bày thử nghiệm khai phá dữ liệu “Tái bảo hiểm” bằng phương pháp phân cụm dữ liệu
Trang 11CHƯƠNG 1: TỔNG QUAN VỀ DATA MINING
1.1 Giới thiệu chung
Những năm 60 của thế kỷ trước, người ta đã bắt đầu sử dụng các công cụ tin học để tổ chức và khai thác các CSDL Cùng với sự phát triển vượt bậc của các công nghệ điện tử và truyền thông, khả năng thu thập và lưu trữ và xử lý dữ liệu cho các
hệ thống tin học không ngừng được nâng cao, theo đó, lượng thông tin được lưu trữ trên các thiết bị như đĩa từ, băng từ, đĩa CD-ROM, không ngừng tăng lên
Lượng dữ liệu khổng lồ này thực sự là một nguồn “tài nguyên” có nhiều giá trị bởi thông tin là yếu tố then chốt trong mọi hoạt động quản lý, kinh doanh, phát triển sản xuất và dịch vụ,… nó giúp những người điều hành và quản lý có hiểu biết
về môi trường và tiến trình hoạt động của tổ chức mình trước khi ra quyết định để tác động đến quá trình hoạt động nhằm đạt được các mục tiêu một cách hiệu quả và bền vững
KPDL là một lĩnh vực mới xuất hiện, nhằm tự động khai thác những thông tin, những tri thức có tính tiềm ẩn, hữu ích từ những CSDL lớn cho các đơn vị, tổ chức, doanh nghiệp,… từ đó làm thúc đẩy khả năng sản xuất, kinh doanh, cạnh tranh cho các đơn vị, tổ chức này Các kết quả khoa học cùng những ứng dụng thành công trong khám phá tri thức, cho thấy, KPDL là một lĩnh vực phát triển bền vững, mang lại nhiều lợi ích và có nhiều triển vọng, đồng thời có ưu thế hơn hẳn so với các công
cụ phân tích dữ liệu truyền thống Hiện nay, KPDL đã ứng dụng ngày càng rộng rãi trong các lĩnh vực như: thương mại, tài chính, điều trị y học, viễn thông, tin - sinh,
1.2 KPDL là gì?
KPDL là một hướng nghiên cứu mới ra đời hơn một thập niên trở lại đây, các
kỹ thuật chính được áp dụng trong lĩnh vực này phần lớn được thừa kế từ lĩnh vực CSDL, học máy, trí tuệ nhân tạo, lý thuyết thông tin, xác suất thống kê, và tính toán hiệu năng cao Do sự phát triển nhanh của KPDL về phạm vi áp dụng và các phương pháp tìm kiếm tri thức, nên đã có nhiều quan điểm khác nhau về KPDL Tuy nhiên,
ở một mức trừu tượng nhất định, chúng ta định nghĩa KPDL như sau [11][23]:
Trang 12Định nghĩa: KPDL là một quá trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn,
hữu dụng trong CSDL lớn
Khám phá tri thức trong CSDL (Knowledge Discovery in Databases - KDD)
là mục tiêu chính của KPDL, do vậy hai khái niệm KPDL và KDD được các nhà khoa học trên hai lĩnh vực được xem là tương đương với nhau Thế nhưng, nếu phân chia một cách chi tiết thì KPDL là một bước chính trong quá trình KDD
1.3 Quá trình khám phá tri thức trong CSDL
Khám phá tri thức trong CSDL, KDD, là lĩnh vực liên quan đến các ngành như: thống kê, học máy, CSDL, thuật toán, trực quan hóa dữ liệu, tính toán song song và hiệu năng cao,…
Quá trình KDD có thể phân thành các giai đoạn sau [5][11]:
Trích chọn dữ liệu: là bước trích chọn những tập dữ liệu cần được khai
phá từ các tập dữ liệu lớn (databases, data warehouses, data repositories) ban đầu theo một số tiêu chí nhất định
Tiền xử lý dữ liệu: là bước làm sạch dữ liệu (xử lý với dữ liệu không
đầy đủ, dữ liệu nhiễu, dữ liệu không nhất quán,.v.v.), rút gọn dữ liệu (sử dụng hàm nhóm và tính tổng, các phương pháp nén dữ liệu, sử dụng histograms, lấy mẫu, v.v.), rời rạc hóa dữ liệu (rời rạc hóa dựa vào histograms, dựa vào entropy, dựa vào phân khoảng, v.v.) Sau bước này, dữ liệu sẽ nhất quán, đầy đủ, được rút gọn, và được rời rạc hóa
Biến đổi dữ liệu: đây là bước chuẩn hóa và làm mịn dữ liệu để đưa dữ
liệu về dạng thuận lợi nhất nhằm phục vụ cho các kỹ thuật khai phá ở bước sau
KPDL: đây là bước áp dụng những kỹ thuật phân tích (phần nhiều là
các kỹ thuật của học máy) nhằm để khai thác dữ liệu, trích chọn được những mẫu thông tin, những mối liên hệ đặc biệt trong dữ liệu Đây được xem là bước quan trọng và tốn nhiều thời gian nhất của toàn quá trình KDD
Đánh giá và biểu diễn tri thức: những mẫu thông tin và mối liên hệ
trong dữ liệu đã được khám phá ở bước trên được chuyển dạng và biểu diễn ở một
Trang 13dạng gần gũi với người sử dụng như đồ thị, cây, bảng biểu, luật, v.v Đồng thời bước này cũng đánh giá những tri thức khám phá được theo những tiêu chí nhất định.
Các giai đoạn trong KDD được thể hiện trực quan như hình 1 dưới đây:
Hình 1 - Các bước thực hiện trong quá trình khám phá tri thức
1.4 Các kỹ thuật áp dụng trong KPDL
1.4.1 Các kỹ thuật tiếp cận trong KPDL
Khám phá tri thức trong CSDL là một lĩnh vực liên ngành, bao gồm: tổ chức
dữ liệu, học máy, trí tuệ nhân tạo và các khoa học khác, sự kết hợp này có thể được diễn tả như trong hình 2 dưới đây:
Hình 2: Các lĩnh vực liên quan đến Khám phá tri thức trong CSDL
Nếu đứng trên quan điểm của học máy (Machine Learning), thì các kỹ thuật trong KPDL bao gồm:
Data Mining Các mẫu
Đánh giá và giải thích Biểu diễn tri
thức Tri thức
Các lĩnh vực khoa học khác
Tổ chức dữ liệu
Học máy và trí tuệ nhân tạo
Trang 14 Học có giám sát (Supervised learning): là quá trình gán nhãn lớp cho các phần tử
trong CSDL dựa trên một tập các ví dụ huấn luyện và các thông tin về nhãn lớp
đã biết
Học không có giám sát (Unsupervised learning): là quá trình phân chia một tập
dữ liệu thành các lớp hay là cụm (clustering) dữ liệu tương tự nhau mà chưa biết
trước các thông tin về lớp hay tập các ví dụ huấn luyện
Học nửa giám sát (Semi - Supervised learning): là quá trình phân chia một tập dữ
liệu thành các lớp dựa trên một tập nhỏ các ví dụ huấn luyện và một số các thông tin về một số nhãn lớp đã biết trước
Nếu căn cứ vào lớp các bài toán cần giải quyết, thì KPDL bao gồm các kỹ thuật
áp dụng sau [11][23]:
Phân lớp và dự đoán (classification and prediction): xếp một đối
tượng vào một trong những lớp đã biết trước Ví dụ: phân lớp các bệnh nhân với dữ liệu trong hồ sơ bệnh án Hướng tiếp cận này thường sử dụng một số kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Phân lớp và dự đoán còn được gọi là học có giám sát
Luật kết hợp (association rules): là dạng luật biểu diễn tri thức ở dạng
khá đơn giản Ví dụ: “60 % nữ giới vào siêu thị nếu mua phấn thì có tới 80% trong
số họ sẽ mua thêm son” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kinh doanh, y học, tin-sinh, tài chính và thị trường chứng khoán, v.v
Phân tích chuỗi theo thời gian (sequential/temporal patterns): tương tự
như khai phá luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì
nó có tính dự báo cao
Phân cụm (clustering/segmentation): xếp các đối tượng theo từng cụm
dữ liệu tự nhiên Phân cụm còn được gọi là học không có giám sát (unsupervised
learning)
Mô tả khái niệm (concept description and summarization): thiên về mô
tả, tổng hợp và tóm tắt khái niệm Ví dụ: tóm tắt văn bản
Trang 151.4.2 Các dạng dữ liệu có thể khai phá
Do KPDL được ứng dụng rộng rãi nên nó có thể làm việc với rất nhiều kiểu
dữ liệu khác nhau Sau đây là một số dạng dữ liệu điển hình [11][23]: CSDL quan
hệ, CSDL đa chiều (multidimensional structures, data warehouses), CSDL dạng giao dịch, CSDL quan hệ - hướng đối tượng, dữ liệu không gian và thời gian, dữ liệu chuỗi thời gian, CSDL đa phương tiện, dữ liệu Text và Web, …
1.5 Ứng dụng của KPDL
KPDL là một lĩnh vực được quan tâm và ứng dụng rộng rãi Một số ứng dụng điển hình trong KPDL có thể liệt kê như sau: phân tích dữ liệu và hỗ trợ ra quyết định, điều trị y học, Text mining & Web mining, tin-sinh (bio-informatics), tài chính
và thị trường chứng khoán, bảo hiểm (insurance), v.v
1.6 Phân cụm dữ liệu và ứng dụng
Phân cụm dữ liệu nhằm mục đích chính là khám phá cấu trúc của mẫu dữ liệu
để thành lập các nhóm dữ liệu từ tập dữ liệu lớn, theo đó, cho phép người ta đi sâu vào phân tích và nghiên cứu cho từng cụm dữ liệu này nhằm khám phá và tìm kiếm các thông tin tiềm ẩn, hữu ích phục vụ cho ra quyết định Một vài ví dụ về ý nghĩa thực tiễn của phân cụm dữ liệu như sau: "Khám phá ra các vị trí địa lý thuận lợi cho
việc xây dựng các kho hàng phục vụ mua bàn hàng của một công ty thương mại" hoặc "Xác định các cụm ảnh như ảnh của các loài động vật như loài thú, chim,… trong tập CSDL ảnh
về động vật nhằm phục vụ cho việc tìm kiếm ảnh" hoặc “xác định các nhóm người bệnh nhằm cung cấp thông tin cho việc phân phối các thuốc điều trị trong y tế ”, hoặc “nhóm các khách hàng trong CSDL ngân hàng có vốn các đầu tư vào bất động sản cao”… Như vậy, PCDL là một phương pháp xử lý thông tin quan trọng và phổ biến, nó nhằm khám phá mỗi liên hệ giữa các mẫu dữ liệu bằng cách tổ chức chúng thành các cụm tương
tự.Hiện nay, các kỹ thuật phân cụm đã được ứng dụng rộng rãi trong các ứng dụng như: nhận dạng mẫu, xử lý ảnh, nghiên cứu thị trường, trực quan hoá, Trong nội dung tiếp theo, luận văn sẽ đề cập đến vấn đề PCDL, đây là một hướng nghiên cứu quan trọng trong lĩnh vực KPDL và là nội dung tìm hiểu, nghiên cứu trọng tâm của luận văn
Trang 16CHƯƠNG 2: PHÂN CỤM DỮ LIỆU VÀ CÁC TIẾP CẬN
2.1 Vấn đề phân cụm dữ liệu
Phân cụm dữ liệu là một lĩnh vực liên ngành và đang còn được phát triển mạnh mẽ như thống kê, học máy, nhận dạng, KPDL, … Ở một mức cơ bản nhất, người ta đã đưa ra định nghĩa PCDL như sau [11][12]:
"PCDL là một kỹ thuật trong KPDL, nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan tâm trong tập dữ liệu lớn, từ đó cung cấp thông tin, tri thức hữu ích cho ra quyết định"
Như vậy, PCDL là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm "tương tự" (similar) với nhau và các phần tử trong các cụm khác nhau sẽ "phi tương tự" (dissimilar) với nhau Số các cụm
dữ liệu được phân ở đây có thể được xác định trước theo kinh nghiệm hoặc có thể được tự động xác định của phương pháp phân cụm
Chúng ta có thể minh hoạ vấn đề phân cụm như hình 3 sau đây:
Hình 3: Mô phỏng vấn đề PCDL
Trong hình trên, sau khi phân cụm chúng ta thu được bốn cụm trong đó các
phần tử "gần nhau" hay là "tương tự" thì được xếp vào một cụm, trong khi đó các phần tử "xa nhau" hay là "phi tương tự" thì chúng thuộc về các cụm khác nhau
Trong PCDL khái niệm (Concept Clustering) thì hai hoặc hoặc nhiều đối
tượng cùng được xếp vào một cụm nếu chúng có chung một định nghĩa về khái niệm
Trang 17hoặc chúng xấp xỉ với các khái niệm mô tả cho trước, như vậy, ở đây PCDL không
sử dụng khái niệm “tương tự” như đã trình bày ở trên
Trong học máy, phân cụm dữ liệu được xem là vấn đề học không có giám sát,
vì nó phải đi giải quyết vấn đề tìm một cấu trúc trong tập hợp các dữ liệu chưa biết biết trước các thông tin về lớp hay các thông tin về tập ví dụ huấn luyện Trong nhiều trường hợp, khi phân lớp (classification) được xem vấn đề học có giám sát thì phân cụm dữ liệu là một bước trong phân lớp dữ liệu, trong đó PCDL sẽ khởi tạo các lớp cho phân lớp bằng cách xác định các nhãn cho các nhóm dữ liệu
Một vấn đề thường gặp trong PCDL đó là hầu hết các dữ liệu cần cho phân cụm đều có chứa dữ liệu "nhiễu" (noise) do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý dữ liệu nhằm khắc phục hoặc loại bỏ "nhiễu" trước khi bước vào giai đoạn phân tích phân cụm dữ liệu "Nhiễu" ở đây có thể là các đối tượng dữ liệu không không chính xác, hoặc là các đối tượng dữ liệu khuyết thiếu thông tin về một số thuộc tính Một trong các kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đối tượng
"nhiễu" bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất
Ngoài ra, dò tìm phần tử ngoại lai (outlier) là một trong những hướng nghiên cứu quan trọng trong PCDL cũng như trong KPDL, chức năng của nó là xác định
một nhóm nhỏ các đối tượng dữ liệu "khác thường" so với các dữ liệu trong CSDL -
tức là các đối tượng dữ liệu không tuân theo các hành vi hoặc mô hình dữ liệu - nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả của PCDL Khám phá các phần tử ngoại lai đã được phát triển và ứng dụng trong viễn thông, dò tìm gian lận thương mại và trong làm sạch dữ liệu, v.v
Tóm lại, phân cụm là một vấn đề khó, vì rằng người ta phải đi giải quyết các vấn đề con cơ bản như sau:
Xây dụng hàm tính độ tương tự
Xây dựng các tiêu chuẩn phân cụm
Xây dụng mô hình cho cấu trúc cụm dữ liệu
Xây dựng thuật toán phân cụm và các xác lập các điều kiện khởi tạo
Trang 18Xây dựng các thủ tục biểu diễn và đánh giá kết quả phân cụm
Theo các nghiên cứu, đến nay chưa có một phương pháp phân cụm tổng quát nào
có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cụm dữ liệu Hơn nữa, các phương pháp phân cụm cần có cách thức biểu diễn cấu trúc của các cụm dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứng một thuật toán phân cụm phù hợp PCDL đang là vấn đề mở và khó, vì rằng người ta cần phải đi giải quyết nhiều vấn đề cơ bản như đã đề cập ở trên một cách trọn vẹn và phù hợp với nhiều dạng dữ liệu khác nhau, đặc biệt là đối với các dữ liệu hỗn hợp, đang ngày càng tăng trưởng không ngừng trong các hệ quản trị dữ liệu, đây cũng là một trong những thách thức lớn trong lĩnh vực KPDL trong những thập kỷ tiếp theo
2.2 Các ứng dụng của phân cụm dữ liệu
PCDL là một trong những công cụ chính được ứng dụng trong nhiều lĩnh vực như thương mại và khoa học Các kỹ thuật PCDL đã được áp dụng cho một số ứng
dụng điển hình trong các lĩnh vực sau [11][17]:
Thương mại: trong thương mại, PCDL có thể giúp các thương nhân
khám phá ra các nhóm khách hàng quan trọng có các đặc trưng tương đồng nhau và đặc tả họ từ các mẫu mua bán trong CSDL khách hàng
Sinh học: trong sinh học, PCDL được sử dụng để xác định các loại sinh
vật, phân loại các Gen với chức năng tương đồng và thu được các cấu trúc trong các mẫu
Phân tích dữ liệu không gian: do sự đồ sộ của dữ liệu không gian như
dữ liệu thu được từ các hình ảnh chụp từ vệ tinh các thiết bị y học hoặc hệ thống thông tin địa lý (GIS), …làm cho người dùng rất khó để kiểm tra các dữ liệu không gian một cách chi tiết PCDL có thể trợ giúp người dùng tự động phân tích và xử lý các dữ liêu không gian như nhận dạng và chiết xuất các đặc tính hoặc các mẫu dữ liệu quan tâm có thể tồn tại trong CSDL không gian
Lập quy hoạch đô thị: nhận dạng các nhóm nhà theo kiểu và vị trí địa
lý,…nhằm cung cấp thông tin cho quy hoạch đô thị
Trang 19Nghiên cứu trái đất: phân cụm để theo dõi các tâm động đất nhằm
cung cấp thông tin cho nhận dạng các vùng nguy hiểm
Địa lý: phân lớp các động vật và thực vật và đưa ra đặc trưng của chúng
Web Mining: PCDL có thể khám phá các nhóm tài liệu quan trọng, có
nhiều ý nghĩa trong môi trường Web Các lớp tài liệu này trợ giúp cho việc khám phá tri thức từ dữ liệu,…
2.3 Các kiểu dữ liệu và độ đo tương tự
Trong phần này chúng ta phân tích các kiểu dữ liệu thường được sử dụng
trong PCDL Trong PCDL, các đối tượng dữ liệu cần phân tích có thể là con người, cái nhà, tiền lương, các thực thể phần mềm, Các đối tượng này thường được diễn
tả dưới dạng các đặc tính hay còn gọi là thuộc tính của nó Các thuộc tính này là các tham số cho giải quyết vấn đề PCDL và sự lựa chọn chúng có tác động đáng kể đến các kết quả của phân cụm Phân loại khái niệm các kiểu thuộc tính khác nhau là một vấn đề cần giải quyết đối với hầu hết các tập dữ liệu nhằm cung cấp các phương tiện thuận lợi để nhận dạng sự khác nhau của các phần tử dữ liệu Dưới đây là cách phân lớp dựa trên hai đặc trưng là: kích thước miền (Domain Size) và hệ đo (Measurement Scale) [11][17]
Cho một CSDL D chứa n đối tượng trong không gian k chiều trong đó x, y, z
là các đối tượng thuộc D: x=(x1,x2, ,xk); y=(y1,y2, ,yk); z=(z1,z2, ,zk), trong đó xi, yi,
zi với i 1 ,k là các đặc trưng hoặc thuộc tính tương ứng của các đối tượng x, y, z Vì vậy, hai khái niệm “các kiểu dữ liệu” và “các kiểu thuộc tính dữ liệu” được xem là tương đương với nhau, như vậy, chúng ta sẽ có các kiểu dữ liệu sau:
2.3.1 Phân loại các kiểu dữ liệu dựa trên kích thước miền
Thuộc tính liên tục (Continuous Attribute): nếu miền giá trị của nó là vô
hạn không đếm được, nghĩa là giữa hai giá trị tồn tại vô số giá trị khác Thí dụ như các thuộc tính về màu, nhiệt độ hoặc cường độ âm thanh
Trang 20Thuộc tính rời rạc (DiscretteAttribute): nếu miền giá trị của nó là tập hữu hạn, đếm được Thí dụ như các thuộc tính về số serial của một cuốn sách, số thành viên trong một gia đình, …
Lớp các thuộc tính nhị phân là trường hợp đặc biệt của thuộc tính rời rạc mà
miền giá trị của nó chỉ có 2 phần tử được diễn tả như: Yes/No hoặc Nam/Nữ, False/True,…
2.3.2 Phân loại các kiểu dữ liệu dựa trên hệ đo
Giả sử rằng chúng ta có hai đối tượng x, y và các thuộc tính xi, yi tương ứng với thuộc tính thứ i của chúng Chúng ta có các lớp kiểu dữ liệu như sau:
Thuộc tính định danh (nominal Scale): đây là dạng thuộc tính khái quát
hoá của thuộc tính nhị phân, trong đó miền giá trị là rời rạc không phân biệt thứ tự và
có nhiều hơn hai phần tử - nghĩa là nếu x và y là hai đối tượng thuộc tính thì chỉ có thể xác định là x y hoặc x=y Thí dụ như thuộc tính về nơi sinh hoặc thuộc tính các đội bóng chơi cho giải vô địch quốc gia Việt Nam
Thuộc tính có thứ tự (Ordinal Scale): là thuộc tính định danh có thêm tính thứ tự, nhưng chúng không được định lượng Nếu x và y là hai thuộc tính thứ tự thì
ta có thể xác định là x y hoặc x=y hoặc x>y hoặc x<y Thí dụ như thuộc tính Huy chương của vận động viên thể thao
Thuộc tính khoảng (Interval Scale): nhằm để đo các giá trị theo xấp xỉ
tuyến tính Với thuộc tính khoảng, chúng ta có thể xác định một thuộc tính là đứng trước hoặc đứng sau thuộc tính khác với một khoảng là bao nhiêu Nếu xi>yi thì ta nói x cách y một khoảng xi – yi tương ứng với thuộc tính thứ i Một thí dụ về thuộc
tính khoảng như thuộc tính "số Serial" của một đầu sách trong thư viện hoặc thuộc tính "số kênh" trên truyền hình
Thuộc tính tỉ lệ (Ratio Scale): là thuộc tính khoảng nhưng được xác định một cách tương đối so với điểm mốc, thí dụ như thuộc tính chiều cao hoặc cân nặng lấy điểm 0 làm mốc
Trang 21Trong các thuộc tính dữ liệu trình bày ở trên, thuộc tính định danh và thuộc tính
có thứ tự gọi chung là thuộc tính hạng mục (categorical), trong khi đó thì thuộc tính
khoảng và thuộc tính tỉ lệ được gọi là thuộc tính số (numeric)
Người ta còn đặc biệt quan tâm đến dữ liệu không gian (Spatial Data) Đây là
loại dữ liệu có các thuộc tính số khái quát trong không gian nhiều chiều, dữ liệu không gian mô tả các thông tin liên quan đến không gian chứa đựng các đối tượng, thí dụ như thông tin về hình học, Dữ liệu không gian có thể là dữ liệu liên tục hoặc rời rạc:
o Dữ liệu không gian rời rạc: có thể là một điểm trong không gian nhiều chiều và
cho phép ta xác định được khoảng cách giữa các đối tượng dữ liệu trong không
gian
o Dữ liệu không gian liên tục: bao chứa một vùng trong không gian
Thông thường, các thuộc tính số được đo bằng các đơn vị xác định như là kilogams hay là centimeter Tuy nhiên, các đơn vị đo có ảnh hưởng đến các kết quả phân cụm Thí dụ như thay đổi độ đo cho thuộc tính cân nặng từ kilogams sang pound có thể
mang lại các kết quả khác nhau trong phân cụm Để khắc phục điều này người ta
phải chuẩn hoá dữ liệu, tức là sử dụng các thuộc tính dữ liệu không phụ thuộc vào
đơn vị đo Thực hiện chuẩn hoá phụ thuộc vào ứng dụng và người dùng, thông thường chuẩn hoá dữ liệu được thực hiện bằng cách thay thế mỗi một thuộc tính bằng thuộc tính số hoặc thêm các trọng số cho các thuộc tính
2.3.3 Khái niệm về tương tự và phi tương tự
Khi các đặc tính của dữ liệu được xác định, người ta đi tìm cách thích hợp để xác định "khoảng cách" giữa các đối tượng, hay là phép đo tương tự dữ liệu Đây là các hàm để đo sự giống nhau giữa các cặp đối tượng dữ liệu, thông thường các hàm
này hoặc là để tính độ tương tự (similar) hoặc là tính độ phi tương tự (dissimilar)
giữa các đối tượng dữ liệu Giá trị của hàm tính độ đo tương tự càng lớn thì sự giống nhau giữa đối tượng càng lớn và ngược lại, còn hàm tính độ phi tương tự tỉ lệ nghịch với hàm tính độ tương tự Độ tương tự hoặc độ phi tương tự có nhiều cách để xác định, chúng thường được đo bằng koảng cách giữa các đối tượng Tất cả các cách đo
Trang 22độ tương tự đều phụ thuộc vào kiểu thuộc tính mà chúng ta phân tích Thí dụ, đối với
thuộc tính hạng mục (categorical) người ta không sử dụng độ đo khoảng cách mà sử
hình học Nghĩa là, một tập X (các phần tử của nó có thể là những đối tượng bất kỳ) các đối tượng dữ liệu trong CSDL D như đã đề cập ở trên được gọi là một không gian metric nếu:
Với mỗi cặp phần tử x, y thuộc X đều có xác định theo một quy tắc nào đó, một
số thực δ(x,y), được gọi là khoảng cách giữa x và y
Quy tắc nói trên thoả mãn hệ tính chất sau: (i) δ(x,y)>0 nếu x ≠y; (ii) δ(x,y)=0 nếu x=y; (iii) δ(x,y) = δ(y,x) với mọi x,y; (iv) δ(x,y) ≤ δ(x,z)+δ(z,y)
Hàm δ(x,y) được gọi là một metric của không gian Các phần tử của X được gọi là các điểm của không gian này
Sau đây là các phép đo độ tương tự áp dụng đối với các kiểu dữ liệu khác nhau [11][17]:
Thuộc tính khoảng: Sau khi chuẩn hoá, độ đo phi tương tự của hai đối tượng
dữ liệu x, y được xác định bằng các metric khoảng cách như sau:
o Khoảng cách Minskowski: ( | | )
1
),(
/ 1
1
2
) (
),
biệt của khoảng cách Minskowski trong trường hợp q=2
Trang 23|
|),
biệt của khoảng cách Minskowski trong trường hợp q=1
o Khoảng cách cực đại: ( , ) Max 1|xi yi |
n i
y x
của khoảng cách Minskowski trong trường hợp q->
là tổng số các thuộc tính có giá trị là 1 trong cả hai đối tượng x,y
là tổng số các giá trị thuộc tính có giá trị là 1 trong x và 0 trong y
là tổng số các giá trị thuộc tính có giá trị là 0 trong x và 1 trong y
là tổng số các giá trị thuộc tính có giá trị là 0 trong x và y Các phép đo độ tương tương đồng đối với dữ liệu thuộc tính nhị phân được định nghĩa như sau:
o Hệ số đối sánh đơn giản:
vai trò như nhau, nghĩa là chúng đối xứng và có cùng trọng số
x:1
x:0
Trang 24đối sánh giữa 0-0 Công thức tính này được sử dụng trong trường hợp mà trọng số của các thuộc tính có giá trị 1 của đối tượng dữ liệu có cao hơn nhiều so với các thuộc tính có giá trị 0, như vậy các thuộc tính nhị phân ở đây là không đối xứng
được định nghĩa như sau:
p
m p y x
),
ứng trùng nhau, và p là tổng số các thuộc tính
liệu với thuộc tính thứ tự được thực hiện như sau, ở đây ta giả sử i là thuộc tính thứ
tự có Mi giá trị (Mi kích thước miền giá trị):
o Các trạng thái Mi được sắp thứ tự như sau: [1…Mi], chúng ta có thể thay thế mỗi giá trị của thuộc tính bằng giá trị cùng loại ri, với ri {1…Mi}
o Mỗi một thuộc tính có thứ tự có các miền giá trị khác nhau, vì vậy chúng
ta chuyển đổi chúng về cùng miền giá trị [0,1] bằng cách thực hiện phép biến đổi sau
cho mỗi thuộc tính:
1
1
) ( ) (
i
j i j i
o Sử dụng công thức tính độ phi tương tự của thuộc tính khoảng đối với các
giá trị zi j
)
(
, đây cũng chính là độ phi tương tự của thuộc tính có thứ tự
thuộc tính tỉ lệ Một trong những số đó là sử dụng công thức tính logarit cho mỗi thuộc tính xi, thí dụ qi = log(xi), lúc này qi đóng vai trò như thuộc tính khoảng (Interval-Scale) Phép biến đổi logarit này thích hợp trong trường hợp các giá trị của thuộc tính là số mũ
Trong thực tế, khi tính độ đo tương tự dữ liệu, người ta chỉ xem xét một phần các thuộc tính đặc trưng đối với các kiểu dữ liệu hoặc là đánh trọng số cho cho tất cả các thuộc tính dữ liệu Trong một số trường hợp, người ta loại bỏ đơn vị đo của các thuộc tính dữ liệu bằng cách chuẩn hoá chúng, hoặc gán trọng số cho mỗi thuộc tính
Trang 25giá trị trung bình, độ lệch chuẩn Các trọng số này có thể sử dụng trong các độ đo khoảng cách trên, thí dụ với mỗi thuộc tính dữ liệu đã được gán trọng số tương ứng
wi (1 ik), độ tương đồng dữ liệu được xác định như sau:
) ,
Người ta có thể chuyển đổi giữa các mô hình cho các kiểu dữ liệu trên, thí dụ dữ liệu kiểu hạng mục có thể chuyển đổi thành dữ liệu nhị phân và ngược lại Thế nhưng, giải pháp này rất tốt kém về chi phí tính toán, do vậy, cần phải cân nhắc khi áp dụng cách thức này
Tóm lại, tuỳ từng trường hợp dữ liệu cụ thể mà người ta sử dụng các mô hình tính độ tương tự khác nhau Việc xác định độ tương đồng dữ liệu thích hợp, chính xác, đảm bảo khách quan là rất quan trọng, góp phần xây dựng thuật toán PCDL có hiệu quả cao trong việc đảm bảo chất lượng cũng như chi phí tính toán của thuật toán
2.4 Những kỹ thuật tiếp cận trong phân cụm dữ liệu
Các kỹ thuật áp dụng để giải quyết vấn đề phân cụm dữ liệu đều hướng tới hai mục tiêu chung: Chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán
Hiện nay, các kỹ phân cụm dữ liệu có thể phân loại theo các cách tiếp cận chính sau [11][17]:
2.4.1 Phân cụm phân hoạch
Phương pháp phân cụm phân hoạch nhằm phân một tập dữ liệu có n phần tử cho trước thành k nhóm dữ liệu sao cho: mỗi phần tử dữ liệu chỉ thuộc về một nhóm
dữ liệu và mỗi nhóm dữ liệu có tối thiểu ít nhất một phần tử dữ liệu Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề PCDL, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực tế người ta thường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của các cụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Với chiến lược này, thông thường người ta bắt đầu khởi tạo một phân hoạch ban đầu cho tập dữ liệu theo phép
Trang 26ngẫu nhiên hoặc theo heuristic, và liên tục tinh chỉnh nó cho đến khi thu được một phân hoạch mong muốn, thoả mãn ràng buộc cho trước Các thuật toán phân cụm phân hoạch cố gắng cải tiến tiêu chuẩn phân cụm, bằng cách tính các giá trị đo độ tương tự giữa các đối tượng dữ liệu và sắp xếp các giá trị này, sau đó thuật toán lựa chọn một giá trị trong dãy sắp xếp sao cho hàm tiêu chuẩn đạt giá trị tối thiểu Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (greedy) để tìm kiếm nghiệm Một số thuật toán phân cụm phân hoạch điển hình như k-means, PAM, CLARA, CLARANS,…sẽ được trình bày chi tiết ở chương sau
2.4.2 Phân cụm dữ liệu phân cấp
Phân cụm phân cấp sắp xếp một tập dữ liệu đã cho thành một cấu trúc có
dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Cây phân cụm
có thể được xây dựng theo hai phương pháp tổng quát: phương pháp trên xuống (top down) và phương pháp dưới lên (bottum up)
Phương pháp “dưới lên” (bottom up): phương pháp này bắt đầu với
mỗi đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hành nhóm các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm của hai nhóm), quá trình này được thực hiện cho đến khi tất cả các nhóm được hòa nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiến lược ăn tham trong quá trình phân cụm
Phương pháp “trên xuống” (top down): bắt đầu với trạng thái là tất
cả các đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm
Trang 27Thí dụ: Hình 4 dưới đây là một thí dụ sử dụng hai chiến lược phân cụm phân cấp
khác nhau như đã trình bày ở trên
Hình 4 : Các chiến lược phân cụm phân cấp
Một số thuật toán phân cụm phân cấp điển hình như CURE, BIRCH, …sẽ được trình bày chi tiết ở trong chương sau
Thực tế áp dụng, có nhiều trường hợp người ta kết hợp cả hai phương pháp phân cụm phân hoạch và phương phân cụm phân cấp, nghĩa là kết quả thu được của phương pháp phân cấp có thể cải tiến thông quan bước phân cụm phân hoạch Phân cụm phân hoạch và phân cụm phân cấp là hai phương pháp PCDL cổ điển, hiện nay
đã có nhiều thuật toán cải tiến dựa trên hai phương pháp này đã được áp dụng phổ biến trong KPDL
2.4.3 Phân cụm dữ liệu dựa trên mật độ
Phương pháp này nhóm các đối tượng theo hàm mật độ xác định Mật độ được định nghĩa như là số các đối tượng lân cận của một đối tượng dữ liệu theo một ngưỡng nào đó Trong cách tiếp cận này, khi một cụm dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận của các đối tượng này phải lớn hơn một ngưỡng đã được xác định trước Phương pháp phân cụm dựa vào mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ Tuy vậy, việc xác định các tham số mật độ của thuật toán rất khó khăn, trong khi các tham số này lại có tác động rất lớn
B ư
ớ
c 0
Trang 28đến kết quả phân cụm dữ liệu Hình 5 dưới đây là một minh hoạ về các cụm dữ liệu với các hình thù khác nhau dựa trên mật độ được khám phá từ 3 CSDL khác nhau
Hình 5: Một số hình dạng cụm dữ liệu khám phá được bởi kỹ thuật PCDL dựa trên mật độ
Một số thuật toán PCDL dựa trên mật độ điển hình như DBSCAN, OPTICS, DENCLUE, …sẽ được trình bày chi tiết trong chương tiếp theo
2.4.4 Phân cụm dữ liệu dựa trên lưới
Kỹ thuật phân cụm dựa trên mật độ không thích hợp với dữ liệu nhiều chiều,
để giải quyết cho đòi hỏi này, người ta đã dử dụng phương pháp phân cụm dựa trên lưới Đây là phương pháp dựa trên cấu trúc dữ liệu lưới để PCDL, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Thí dụ như dữ liệu được biểu diễn dưới dạng cấu trúc hình học của đối tượng trong không gian cùng với các quan
hệ, các thuộc tính, các hoạt động của chúng Mục tiêu của phương pháp này là lượng hoá tập dữ liệu thành các ô (cell), các cell này tạo thành cấu trúc dữ liệu lưới, sau đó các thao tác PCDL làm việc với các đối tượng trong từng cell này Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trong các cell mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một cell Trong ngữ cảnh này, phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chỉ có điều chúng không trộn các cell Do vậy các cụm không dựa trên độ đo khoảng cách (hay còn gọi là độ
đo tương tự đối với các dữ liệu không gian) mà nó được quyết định bởi một tham số xác định trước Ưu điểm của phương pháp PCDL dựa trên lưới là thời gian xử lý nhanh và độc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số cell trong mỗi chiều của không gian lưới Một thí dụ về cấu trúc dữ liệu lưới chứa các cell trong không gian như hình 6 sau:
Trang 29.
1st level (top level) could
have only one cell.
A cell of (i-1)th level
Hình 6: Mô hình cấu trúc dữ liệu lưới
Một số thuật toán PCDL dựa trên cấu trúc lưới điển hình như: STING, WAVECluster, CLIQUE,…
2.4.5 Phân cụm dữ liệu dựa trên mô hình
Phương pháp này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lược phân cụm phân hoạch hoặc chiến lược phân cụm phân cấp, dựa trên cấu trúc hoặc
mô hình mà chúng giả định về tập dữ liệu và cách mà chúng tinh chỉnh các mô hình này để nhận dạng ra các phân hoạch
Phương pháp PCDL dựa trên mô hình cố gắng khớp giữa dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phân phối xác
suất cơ bản Các thuật toán phân cụm dựa trên mô hình có hai tiếp cận chính: Mô hình thống kê và Mạng nơron Phương pháp này gần giống với phương pháp dựa
trên mật độ, bởi vì chúng phát triển các cụm riêng biệt nhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắt đầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho các cụm
2.4.6 Phân cụm dữ liệu có ràng buộc
Sự phát triển của phân cụm dữ liệu không gian trên CSDL lớn đã cung cấp nhiều công cụ tiện lợi cho việc phân tích thông tin địa lý, tuy nhiên hầu hết các thuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộc trong thế giới thực cần phải được thoả mãn trong quá trình PCDL Để phân cụm dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toán phân cụm
Mức 1 (mức cao nhất ) có thể
chỉ chứa một Cell
Cell mức i-1 có thể tương ứng
với 4 cell của mức i
Tầng 1
Tầng i-1 Tầng i
Trang 30Thực tế, các phương pháp trên đã và đang được phát triển và áp dụng nhiều trong PCDL Đến nay, đã có một số nhánh nghiên cứu được phát triển trên cơ sở của các phương pháp tiếp cận trong PCDL đã trình bày ở trên như sau:
Phân cụm thống kê: dựa trên các khái niệm phân tích thống kê, nhánh nghiên
cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số
Phân cụm khái niệm: các kỹ thuật phân cụm được phát triển áp dụng cho dữ
liệu hạng mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng xử lý
Phân cụm mờ: sử dụng kỹ thuật mờ để PCDL, trong đó một đối tượng dữ
liệu có thể thuộc vào nhiều cụm dữ liệu khác nhau Các thuật toán thuộc loại này chỉ ra lược
đồ phân cụm thích hợp với tất cả hoạt động đời sống hàng ngày, chúng chỉ xử lý các dữ liệu thực không chắc chắn Thuật toán phân cụm mờ quan trọng nhất là thuật toán FCM (Fuzzy c-means)
Phân cụm mạng Kohonen: loại phân cụm này dựa trên khái niệm của các
mạng nơron Mạng Kohnen có tầng nơron vào và các tầng nơron ra Mỗi nơron của tầng vào tương ứng với mỗi thuộc tính của bản ghi, mỗi một nơron vào kết nối với tất cả các nơron của tầng ra Mỗi liên kết được gắn liền với một trọng số nhằm xác định vị trí của nơron ra tương ứng
Tóm lại, các kỹ thuật PCDL trình bày ở trên đã được sử dụng rộng rãi trong thực tế, thế nhưng hầu hết chúng chỉ nhằm áp dụng cho tập dữ liệu với cùng một kiểu thuộc tính Vì vậy, việc PCDL trên tập dữ liệu có kiểu hỗn hợp là một vấn đề đặt ra trong KPDL trong giai đoạn hiện nay Phần nội dung tiếp theo của luận văn sẽ trình bày tóm lược về các yêu cầu cơ bản làm tiêu chí cho việc lựa chọn, đánh giá kết quả cho các phương pháp phân cụm PCDL
2.5 Các yêu cầu cần thiết cho tạo dựng kỹ thuật PCDL
Việc xây dựng, lựa chọn một thuật toán phân cụm là bước then chốt cho việc giải quyết vấn đề phân cụm, sự lựa chọn này phụ thuộc vào đặc tính dữ liệu cần phân cụm, mục đích của ứng dụng thực tế hoặc xác định độ ưu tiên giữa chất lượng của các cụm hay tốc độ thực hiện thuật toán, …
Trang 31Hầu hết các nghiên cứu và phát triển thuật toán phân cụm dữ liệu đều nhằm thoả mãn các yêu cầu cơ bản sau [11][17]:
Có khả năng mở rộng (Scalability): một số thuật toán có thể ứng dụng tốt
cho tập dữ liệu nhỏ (khoảng 200 bản ghi dữ liệu) nhưng không hiệu quả khi áp dụng cho tập
dữ liệu lớn (khoảng 1 triệu bản ghi)
Thích nghi với các kiểu dữ liệu khác nhau: thuật toán có thể áp dụng hiệu
quả cho việc phân cụm các tập dữ liệu với nhiều kiểu dữ liệu khác nhau như dữ liệu kiểu số, kiểu nhị phân, dữ liệu kiểu hạng mục, và thích nghi với kiểu dữ liệu hỗn hợp giữa các dữ liệu đơn trên
Khám phá ra các cụm với hình thù bất kỳ: do hầu hết các CSDL có chứa
nhiều cụm dữ liệu với các hình thù khác nhau như: hình lõm, hình cầu, hình que, …Vì vậy,
để khám phá được các cụm có tính tự nhiên thì các thuật toán phân cụm cần phải có khả năng khám phá ra các cụm có hình thù bất kỳ
Tối thiểu lượng tri thức cần cho xác định các tham số vào: do các giá trị đầu
vào thường rất ảnh hưởng đến thuật toán phân cụm và rất phức tạp để xác định các giá trị vào thích hợp đối với các CSDL lớn
Ít nhạy cảm với thứ tự của dữ liệu vào: cùng một tập dữ liệu, khi đưa vào xử
lý cho thuật toán PCDL với các thứ tự vào của các đối tượng dữ liệu ở các lần thực hiện
khác nhau thì không ảnh hưởng lớn đến kết quả phân cụm
Khả năng thích nghi với dữ liệu nhiễu cao: hầu hết các dữ liệu phân cụm
trong KPDL đều chứa đựng các dữ liệu lỗi, dữ liệu không đầy đủ, dữ liệu rác Thuật toán phân cụm không những hiệu quả đối với các dữ liệu nhiễu mà còn tránh dẫn đến chất lượng phân cụm thấp do nhạy cảm với nhiễu
Ít nhạy cảm với các tham số đầu vào: nghĩa là giá trị của các tham số đầu
vào khác nhau ít gây ra các thay đổi lớn đối với kết quả phân cụm
Thích nghi với dữ liệu đa chiều: thuật toán có khả năng áp dụng hiệu quả cho
dữ liệu có số chiều khác nhau
Dễ hiểu, cài đặt và khả dụng
Các yêu cầu này đồng thời là các tiêu chí để đánh giá hiệu quả của các phương pháp phân cụm dữ liệu, đây là các thách thức cho các nhà nghiên cứu trong lĩnh vực
Trang 32PCDL Các yêu cầu này sẽ được đề cập đến cụ thể hơn khi đi vào khảo cứu chi tiết
một số thuật toán PCDL được trình bày ở các chương sau
Trang 33CHƯƠNG 3: CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU ĐIỂN HÌNH
PCDL là một lĩnh vực nghiên cứu được phát triển dựa trên nhiều lĩnh vực, do vậy, có rất nhiều thuật toán PCDL được đề xuất và phát triển Sau đây là một số họ thuật toán PCDL điển hình như: họ các thuật toán phân cụm phân hoạch (patitional),
họ các thuật toán phân cụm phân cấp (hierachical), họ các thuật toán phân cụm dựa trên lưới và các thuật toán PCDL đặc thù khác như: các thuật toán phân cụm dựa trên mật độ, các thuật toán phân cụm dựa trên mô hình,…
3.1 Họ các thuật toán phân hoạch
Họ các thuật toán phân cụm phân hoạch bao gồm các thuật toán đề xuất đầu tiên trong lĩnh vực KPDL cũng là các thuật toán được áp dụng nhiều trong thực tế như k-means, PAM (Partioning Around Medoids), CLARA (Clustering LARge Applications), CLARANS (Clustering LARge ApplicatioNS) Trước hết chúng ta đi khảo cứu thuật toán k-means, đây là một thuật toán kinh điển được kế thừa sử dụng rộng rãi
3.1.1 Thuật toán k-means
Thuật toán phân hoạch K-means do MacQeen đề xuất trong lĩnh vực thống kê năm 1967, mục đích của thuật toán k-means là sinh ra k cụm dữ liệu {C1, C2, …,Ck}
từ một tập dữ liệu chứa n đối tượng trong không gian d chiều Xi = (xi1, xi2, …, xid)
(i 1 ,n), sao cho hàm tiêu chuẩn
Trọng tâm của một cụm là một véc tơ, trong đó giá trị của mỗi phần tử của nó
là trung bình cộng của các thành phần tương ứng của các đối tượng vectơ dữ liệu trong cụm đang xét Tham số đầu vào của thuật toán là số cụm k, và tham số đầu ra của thuật toán là các trọng tâm của các cụm dữ liệu Độ đo khoảng cách D giữa các đối tượng dữ liệu thường được sử dụng dụng là khoảng cách Euclide, bởi vì đây là
mô hình khoảng cách dễ để lấy đạo hàm và xác định các cực trị tối thiểu Hàm tiêu chuẩn và độ đo khoảng cách có thể được xác định cụ thể hơn tuỳ vào ứng dụng hoặc
Trang 34các quan điểm của người dùng Thuật toán k-means bao gồm các bước cơ bản như trong hình 7 sau [6][11][17][21]:
Hình 7: Các bước thực hiện của thuật toán k-means
K-means biểu diễn các cụm bởi các trọng tâm của các đối tượng trong cụm đó Thuật toán k-means chi tiết được trình bày như trong hình 8 sau:
Đối với mỗi điểm X i (1<=i<=n), tính toán khoảng cách của nó tới mỗi trọng tâm m j j=1,k Và sau
đó tìm trọng tâm gần nhất đối với mỗi điểm
Trang 35Hình 8: Thuật toán k-means chi tiết
Các khái niệm biến và hàm sử dụng trong thuật toán k-means trong hình 8 như sau:
MSE (Mean Squared Error): được gọi là sai số bình phương trung bình hay còn
gọi là hàm tiêu chuẩn, MSE dùng để lưu giá trị của hàm tiêu chuẩn và được cập nhật qua mỗi lần lặp Thuật toán dừng ngay khi giá MSE tăng lên so với giá trị MSE cũ của vòng lặp trước đó
D 2 (x i , m j ): là khoảng cách Euclide từ đối tượng dữ liệu thứ i tới trọng tâm thứ j; OldMSE, m' j, n' j: là các biến tạm lưu giá trị cho các trạng thái trung gian cho các biến tương ứng: giá trị hàm tiêu chuẩn, giá trị của vectơ tổng của các đối tượng trong cụm thứ j, số các đối tượng của cụm thứ j;
Thụât toán k-means tuần tự trên được chứng minh là hội tụ và có độ phức tạp tính toán là: O((3nkd)Tflop) [11][21][17] Trong đó: n là số đối tượng dữ liệu, k là
số cụm dữ liệu, d là số chiều, là số vòng lặp, Tflop là thời gian để thực hiện một
Trang 36phép tính cơ sở như phép tính nhân, chia,… Như vậy, do k-means phân tích phân
cụm đơn giản nên có thể áp dụng đối với tập dữ liệu lớn Tuy nhiên, nhược điểm của
k-means là chỉ áp dụng với dữ liệu có thuộc tính số và khám ra các cụm có dạng hình cầu, k-means còn rất nhạy cảm với nhiễu và các phần tử ngoại lai trong dữ liệu Hình
9 diễn tả môi phỏng về một số hình dạng cụm dữ liệu khám phá được bởi k-means:
Hình 9: Thí dụ về một số hình dạng cụm dữ liệu được khám phá bởi k-means
Hơn nữa, chất lượng phân cụm dữ liệu của thuật toán k-means phụ thuộc nhiều vào các tham số đầu vào như: số cụm k và k trọng tâm khởi tạo ban đầu Trong trường hợp, các trọng tâm khởi tạo ban đầu mà quá lệch so với các trọng tâm cụm tự nhiên thì kết quả phân cụm của k-means là rất thấp, nghĩa là các cụm dữ liệu được khám phá rất lệch so với các cụm trong thực tế Trên thực tế người ta chưa có một giải pháp tối ưu nào để chọn các tham số đầu vào, giải pháp thường được sử dụng nhất là thử nghiệm với các giá trị đầu vào k khác nhau rồi sau đó chọn giải pháp tốt nhất
Đến nay, đã có rất nhiều thuật toán kế thừa tư tưởng của thuật toán k-means áp dụng trong KPDL để giải quyết với tập dữ liệu có kích thước rất lớn đang được áp dụng rất hiệu quả và phổ biến như thuật toán k-modes, PAM, CLARA, CLARANS, k- prototypes, …
3.1.2 Thuật toán PAM
PAM (Partitioning Around Medoids) là thuật toán mở rộng của thuật toán means, nhằm có khả năng xử lý hiệu quả đối với dữ liệu nhiễu hoặc các phần tử ngoại lai, đây là thụât toán PCDL được đề xuất bởi Kaufman và Rousseeuw [17][20] Thay vì sử dụng các trọng tâm như k-means, PAM sử dụng các đối tượng
k-medoid để biểu diễn cho các cụm dữ liệu, một đối tượng k-medoid là đối tượng đặt tại
vị trí trung tâm nhất bên trong của mỗi cụm Vì vậy, các đối tượng medoid ít bị ảnh
Trang 37hưởng của các đối tượng ở rất xa trung tâm, trong khi đó các trọng tâm của thuật toán k-means lại rất bị tác động bởi các điểm xa trung tâm này Ban đầu, PAM khởi
tạo k đối tượng medoid và phân phối các đối tượng còn lại vào các cụm với các đối
tượng medoid đại diện tương ứng sao cho chúng tương tự với đối tượng medoid
trong cụm nhất
Thí dụ: nếu Oj là đối tượng không phải là medoid và Om là một đối tượng
medoid, khi đó ta nói Oj thuộc về cụm có đối tượng medoid là Om làm đại diện nếu: d(Oj, Om) = minOed(Oj,Oe) Trong đó: d(Oj,Oe) là độ phi tương tự giữa Oj và
Oe , minOe là giá trị nhỏ nhất của độ phi tương tự giữa Oj và tất cả các đối tượng
medoid của các cụm dữ liệu Chất lượng của mỗi cụm được khám phá được đánh
giá thông qua độ phi tương tự trung bình giữa một đối tượng và đối tượng medoid
tương ứng với cụm của nó, nghĩa là chất lượng phân cụm được đánh giá thông qua
chất lượng của tất cả các đối tượng medoid Độ phi tương tự ở đây thông thường
được xác định bằng độ đo khoảng cách, thuật toán PAM ở đây được áp dụng cho dữ
liệu không gian
Để xác định các medoid, PAM bắt đầu bằng cách lựa chọn k đối tượng
medoid bất kỳ Sau mỗi bước thực hiện, PAM cố gằng hoán chuyển giữa đối tượng medoid Om và một đối tượng Op không phải là medoid, miễn là sự hoán chuyển này
nhằm cải tiến chất lượng của phân cụm, quá trình này kết thúc khi chất lượng phân cụm không thay đổi Chất lượng phân cụm được đánh giá thông qua hàm tiêu chuẩn, chất lượng phân cụm tốt nhất khi hàm tiêu chuẩn đạt giá trị tối thiểu
Chúng ta xét ví dụ đơn giản sau: Cho hai đối tượng medoid A và B Đối với tất cả các đối tượng Y thuộc cụm với đối tượng medoid đại diện A, chúng ta tìm medoid của cụm
gần nhất để thay thể Có hai trường hợp có thể xẩy ra, hoặc Y được chuyển tới cụm dữ liệu
có đại diện là B hoặc được chuyển tới cụm dữ liệu có đại diện là M Tiếp đến, chúng ta xét lần lượt cho tất cả các đối tượng trong cụm có đại diện là A Tương tự như vậy, đối với tất các các đối tượng trong cụm có đối tượng đại diện là B, chúng ta có thể di chuyển chúng tới cụm có đại diện là M hoặc là chúng ở lại B Thí dụ này có thể biểu diễn như hình 11 dưới đây:
Trang 38Hình 10: Thí dụ về các khả năng thay thế các đối tượng tâm medoid
Sau đây là một số khái niệm biến được sử dụng cho thuật toán PAM:
Om: là đối tượng medoid hiện thời cần được thay thế
Op: là đối tượng medoid mới thay thế cho Om;
Oj: là đối tượng dữ liệu (không phải là medoid) có thể được di chuyển
sang cụm khác
Oj,2: là đối tượng medoid hiện thời gần đối tượng Oj nhất mà không phải
là các đối tượng A và M như trong ví dụ trên
Bốn trường hợp như mô tả trong thí dụ trên, PAM tính giá trị Cjmp cho tất cả các đối tượng Oj Cjmp ở đây nhằm để làm căn cứ cho việc hoán chuyển giữa Om và
Op Các cách tính Trong mỗi trường hợp Cjmp được tính với 4 cách khác nhau như sau:
Trường hợp 1: Giả sử Oj hiện thời thuộc về cụm có đại diện là Om và Oj
tương tự với Oj, 2 hơn Op (d(Oj, Op)d(Oj, Oj,2)) Trong khi đó, Oj,2 là đối
tượng medoid tương tự xếp thứ 2 tới Oj trong số các medoid Trong trường
hợp này, chúng ta thay thế Om bởi đối tượng medoid mới Op và Oj sẽ thuộc về cụm có đối tượng đại diện là Oj,2 Vì vậy, giá trị hoán chuyển Cjmp được xác định như sau: Cjmp = d(Oj, Oj,2) – d(Oj, Om) (1)
Giá trị Cjmp là không âm
Trường hợp 2: Oj hiện thời thuộc về cụm có đại diện là Om , nhưng Oj ít tương tự với Oj,2 so với Op (Nghĩa là, d(Oj, Op)<d(Oj, Oj,2)) Nếu Om, được
Trang 39thay thế bởi Op thì Oj sẽ thuộc về cụm có đại diện là Op Vì vậy, giá trị Cjmp
được xác định như sau: Cjmp= (Oj, Op) - d(Oj, Om) (2) Cjmp ở đây có thể là âm hoặc dương
Trường hợp 3: Giả sử Oj hiện thời không thuộc về cụm có đối tượng đại diện là Om mà thuộc về cụm có đại diện là Oj,2 Mặt khác, giả sử Oj tương tự với Oj,2 hơn so với Op, khi đó, nếu Om được thay thế bởi Op thì Oj vẫn sẽ ở lại trong cụm có đại diện là Oj,2 Do đó: Cjmp= 0 (3)
Trường hợp 4: Oj hiện thời thuộc về cụm có đại diện là Oj,2 nhưng Oj ít tương tự tới Oj,2 hơnso với Op Vì vậy, nếu chúng ta thay thế Om bởi Op thì Oj
sẽ chuyển từ cụm Oj,2 sang cụm Op Do đó, giá trị hoán chuyển Cjmp được xác định là: Cjmp= (Oj, Op) - d(Oj, Oj,2) (4) Cjmp ở đây luôn âm
Kết hợp cả bốn trường hợp trên, tổng giá trị hoán chuyển Om bằng Op được xác định như sau: TCmp =
Bước 2: Tính TC mp cho tất cả các cặp đối tượng O m , O p Trong đó O m là đối tượng medoid và O p
là đối tượng không phải là modoid
Bước 3: Chọn cặp đối tượng O m và O p Tính min Om, min Op , TC mp
Nếu TC mp là âm, thay thế O m bởi O p và quay lại bước 2 Nếu TC mp dương, chuyển sang bước 4 Bước 4: Với mỗi đối tượng không phải là medoid, xác định đối tượng medoid tương tự với nó
nhất đồng thời gán nhãn cụm cho chúng
END
Hình 11: Các bước thực hiện của thuật toán PAM
Trang 40Trong bước 2 và 3, có PAM phải duyệt tất cả k(n-k) cặp Om, Op Với mỗi cặp, việc tính toán TCmp yêu cầu kiểm tra n-k đối tượng Vì vậy, độ phức tạp tính toán của PAM là O(Ik (n-k)2
), trong đó I là số vòng lặp Như vậy, thuật toán PAM kém hiệu quả về thời gian tính toán khi giá trị của k và n là lớn[11][17]
3.1.3 Thuật toán CLARA
CLARA (Clustering LARge Application) được Kaufman đề xuất năm 1990 [11][20], thuật toán này nhằm khắc phục nhược điểm của thuật toán PAM trong trường hợp giá trị của k và n là lớn CLARA tiến hành trích mẫu cho tập dữ liệu có n phần tử, nó áp dụng thuật toán PAM cho mẫu này và tìm ra các các đối tượng tâm
medoid cho mẫu được trích từ dữ liệu này Người ta thấy rằng, nếu mẫu dữ liệu được
trích theo cách ngẫu nhiên, thì các medoid của nó xấp xỉ với các medoid của toàn bộ tập dữ liệu ban đầu Để tiến tới một xấp xỉ tốt hơn, CLARA đưa ra nhiều cách lấy mẫu và thực hiện phân cụm cho mỗi trường hợp và tiến hành chọn kết quả phân cụm tốt nhất khi thực hiện phân cụm trên các mẫu này Để cho chính xác, chất lượng của các cụm được đánh giá thông độ phi tương tự trung bình của toàn bộ các đối tượng
dữ liệu trong tâp đối tượng ban đầu Kết quả thực nghiệm chỉ ra rằng, 5 mẫu dữ liệu
có kích thước 40+2k cho các kết quả tốt Các bước thực hiện của thuật toán CLARA như hình 12 sau [17][20]:
4 Tính độ phi tương tự trung bình cho phân hoạch các đối tượng dành ở bước trước, nếu giá trị này
bé hơn giá trị tối thiểu hiện thời thì sử dụng giá trị này thay cho giá trị tối thiếu ở trạng thái trước, như vậy, tập k đối tượng medoid xác định ở bước này là tốt nhất cho đến thời điểm này
5 Quay về bước 1