TÓM TẮT NỘI DUNG CÁC CHƯƠNG Luận văn có 4 chương và phần mở đầu, kết luận: Phần mở đầu Phần này nêu lên sự cần thiết của vấn đề phân cụm dữ liệu nói chung và nhất là việc áp dụng vào
Trang 1-
Nguyễn Doãn Hiền
ỨNG DỤNG MỘT SỐ THUẬT TOÁN PHÂN CỤM
PHÂN TÍCH DỮ LIỆU NGÂN HÀNG
LUẬN VĂN THẠC SỸ
Hà Nội – 2006
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-
Nguyễn Doãn Hiền
ỨNG DỤNG MỘT SỐ THUẬT TOÁN PHÂN CỤM
PHÂN TÍCH DỮ LIỆU NGÂN HÀNG
Ngành: Công nghệ Thông tin
Mã số: 1.01.10
LUẬN VĂN THẠC SỸ
Người hướng dẫn khoa học: PGS TSKH Bùi Công Cường
Hà Nội – 2006
Trang 3Lêi c¶m ¬n
Sau một thời gian nghiên cứu và nỗ lực thực hiện, luận văn “Ứng dụng một số thuật toán phân cụm phân tích dữ liệu Ngân hàng” đã cơ bản hoàn thành Ngoài sự cố gắng của bản thân, tôi đã nhận được sự giúp đỡ từ nhà trường, thầy cô giáo, gia đình và bạn bè
Trước hết, tôi xin được cảm ơn mẹ, người đã động viên và chăm sóc tôi trong quá trình học tập và hoàn thành luận văn
Tôi xin cảm ơn các thầy cô giáo trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã truyền đạt những kiến thức quí báu cho tôi cũng như các học viên lớp Cao học Công nghệ K10T3
Đặc biệt, tôi xin cảm ơn sâu sắc tới thầy giáo Bùi Công Cường, người đã trực tiếp tận tình giúp đỡ, hướng dẫn tôi trong quá trình thực hiện luận văn này Nhân đây, tôi cũng gửi lời cảm ơn tới các bạn bè cùng lớp K10T3 đã cùng sát cánh và động viên tôi trong những ngày cùng nhau học tập tại trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội
Trang 4MỤC LỤC
MỞ ĐẦU 6
CHƯƠNG 1 TỔNG QUAN 7
1.1 MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 7
1.2 TÓM TẮT NỘI DUNG CÁC CHƯƠNG 8
CHƯƠNG 2 PHÂN CỤM DỮ LIỆU 10
2.1 KHÁI NIỆM PHÂN CỤM DỮ LIỆU 10
2.2 CÁC BƯỚC CƠ BẢN ĐỂ PHÂN CỤM 11
2.3 CÁC ỨNG DỤNG CỦA PHÂN CỤM 12
2.4 CÁC LOẠI ĐẶC TRƯNG 13
2.5 CÁC ĐỊNH NGHĨA PHÂN CỤM 14
2.5.1 Định nghĩa phân cụm 14
2.5.2 Định nghĩa phân cụm mờ 15
2.6 CÁC ĐỘ ĐO 16
2.6.1 Độ đo không tương tự 16
2.6.2 Độ đo tương tự 16
2.6.3 Độ đo gần gũi giữa các tập con của X 17
2.6.4 Các độ đo gần gũi giữa hai điểm 18
2.6.5 Các hàm gần gũi giữa một điểm và một tập 27
2.6.6 Các hàm gần gũi giữa hai tập 29
2.6.7 Đánh giá phân cụm 30
CHƯƠNG 3 MỘT SỐ THUẬT TOÁN PHÂN CỤM 32
3.1 GIỚI THIỆU VỀ CÁC THUẬT TOÁN PHÂN CỤM 32
3.1.1 Số các phân cụm 32
3.1.2 Phân loại các thuật toán phân cụm 33
3.2 THUẬT TOÁN PHÂN CỤM TUẦN TỰ 34
3.2.1 Thuật toán phân cụm tuần tự 34
3.2.2 Ước lượng số lượng các phân cụm 37
3.2.3 Một thuật toán BSAS cải tiến 39
3.2.4 Sơ đồ tuần tự với hai ngưỡng 41
3.2.5 Thực hiện tinh chỉnh 45
3.3 THUẬT TOÁN PHÂN CỤM K-MEANS 47
3.3.1 Thuật toán K-means 47
3.3.2 Các bước thực hiện thuật toán K-means 47
3.3.3 Ví dụ về áp dụng thuật toán K-means 49
3.3.4 Một số vấn đề và ưu, nhược điểm của K-means 52
3.3.5 Độ phức tạp của thuật toán K-means 53
3.4 THUẬT TOÁN PHÂN CỤM MỜ K-MEANS (FKM) 53
3.4.1 Khái niệm về tập mờ và phân cụm mờ 53
Trang 53.4.2 Thuật toán phân cụm mờ K-means 55
3.4.3 Mô tả thuật toán 57
3.4.4 Độ phức tạp thuật toán 58
3.5 THUẬT TOÁN PHÂN CỤM HIERACHICAL 59
3.5.1 Nguyên lý thực hiện 59
3.5.2 Mô tả thuật toán 60
3.5.3 Ví dụ về thuật toán phân cấp 61
3.5.4 Ưu, nhược điểm của thuật toán 65
3.6 THUẬT TOÁN PHÂN CỤM K-LÁNG GIỀNG GẦN 66
3.6.1 Thuật toán K-láng giềng gần 66
3.6.2 Cách thức thực hiện thuật toán KNN 66
3.6.3 Một ví dụ áp dụng thuật toán KNN 69
3.6.4 Ưu, nhược điểm của thuật toán KNN 71
CHƯƠNG 4 XÂY DỰNG CHƯƠNG TRÌNH PHÂN CỤM 72
4.1 PHÂN TÍCH CÁC MODULE 72
4.1.1 Module chuẩn bị dữ liệu 72
4.1.2 Tinh chỉnh dữ liệu 72
4.1.3 Hàm tính khoảng cách 73
4.2 CHƯƠNG TRÌNH MÔ PHỎNG CÁC THUẬT TOÁN 75
4.2.1 Giới thiệu chương trình 75
4.2.2 Chuyển đổi và tinh chỉnh dữ liệu 75
4.2.3 Thuật toán K-means 76
4.2.4 Thuật toán phân cụm phân cấp (Hierachical) 77
4.2.5 Thuật toán Fuzzy K-means 79
CHƯƠNG 5 ỨNG DỤNG PHÂN CỤM DỮ LIỆU GIAO DỊCH ATM 80
5.1 PHÁT BIỂU BÀI TOÁN 80
5.2 ÁP DỤNG VÀO CHƯƠNG TRÌNH ĐÃ XÂY DỰNG 80
5.2.1 Phương pháp áp dụng 80
5.2.2 Đặc tả dữ liệu và cách thức thực hiện 81
5.2.3 Phân tích, đánh giá kết quả 81
KẾT LUẬN 85
1 TÓM TẮT KẾT QUẢ 85
2 PHƯƠNG HƯỚNG PHÁT TRIỂN 85
TÀI LIỆU THAM KHẢO 87
PHỤ LỤC 1: MÃ NGUỒN CHƯƠNG TRÌNH 88
1 MODULE TÍNH KHOẢNG CÁCH GIỮA CÁC PHẦN TỬ 88
1.1 Tính khoảng cách theo Manhattan 88
1.2 Tính khoảng cách theo công thức Euclide 89
1.3 Tính khoảng cách hỗn hợp (công thức Kaufman và Rousseeuw) 90
2 MODULE THỰC HIỆN THUẬT TOÁN K-MEANS 96
3 MODULE THỰC HIỆN THUẬT TOÁN HIERACHICAL 99
Trang 6PHỤ LỤC 2: MÔ TẢ DỮ LIỆU GIAO DỊCH 102
1 Cấu trúc bảng dữ liệu 102
2 Danh sách mã loại thẻ 102
3 Danh sách mã giao dịch 103
4 Định dạng dữ liệu sau khi chuyển đổi 103
5 Định dạng dữ liệu sau phân cụm bằng thuật toán K-means 104
6 Định dạng dữ liệu sau phân cụm bằng thuật toán Hierachical 104
7 Định dạng cây phân cấp 105
Trang 7MỞ ĐẦU
Đối với các Ngân hàng hiện nay, nắm đƣợc khách hàng là một trong những điểm mấu chốt tạo nên thành công trong kinh doanh Để đạt đƣợc điều này, việc cần thiết đó là thiết lập đƣợc chiến lƣợc khách hàng đúng đắn để sao cho giành đƣợc các khách hàng mới và giữ đƣợc các khách hàng có chất lƣợng cao Để đạt đƣợc những mục tiêu đó, các Ngân hàng đã xây dựng các hệ thống dữ liệu về khách hàng, từ đó có thể phân tích và xây dựng các chiến lƣợc kinh doanh cho mình
Thực tế cho thấy rằng, thay vì nhắm vào tất cả các khách hàng để đối xử, khuyến khích, Ngân hàng có thể lựa chọn các khách hàng đáp ứng một tiêu chuẩn nào đó về lợi nhuận dựa trên các thuộc tính giao dịch hay những thuộc tính khác của khách hàng [7]
Trong những năm gần đây, hệ thống máy giao dịch tự động (ATM – Automatic Teller Machine) đƣợc các Ngân hàng tại Việt Nam triển khai và phát triển khá mạnh mẽ Hệ thống này cho phép khách hàng thực hiện giao
dịch một cách tiện lợi về thời gian (online 24/7) cũng nhƣ cung cấp các dịch
vụ (vấn tin, chuyển khoản, rút tiền, thanh toán hoá đơn, cách dịch vụ tín dụng ) Vì vậy, có thể nói hệ thống ATM trở thành một trong những kênh quan
trọng trong các kênh giao dịch của Ngân hàng cung cấp cho khách hàng Tuy nhiên, để phát huy hiệu quả của hệ thống này, ngoài các thông tin cố định nhƣ lƣợng thẻ, lƣợng giao dịch, số máy ATM… Ngân hàng cần biết đƣợc các thuộc tính ẩn của khách hàng để đề ra chiến lƣợc phát triển đúng đắn cho loại hình dịch vụ này Đó chính là lý do cần đến khoa học khai phá dữ liệu mà ở đây cụ thể hơn, chúng ta sẽ nghiên cứu về các thuật toán phân cụm dữ liệu để tìm ra các thuộc tính ẩn đó
Trang 8CHƯƠNG 1 TỔNG QUAN
1.1 MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Mục tiêu của luận văn
Nắm bắt được cơ sở lý thuyết của các thuật toán phân cụm, đưa ra phương hướng giải quyết cho bài toán áp dụng vào thực tế để thực hiện bài toán phân cụm dữ liệu ATM trong Ngân hàng
Nội dung chính của luận văn
Luận văn có các nội dung chính như sau:
- Khái quát cơ sở lý thuyết về phân cụm dữ liệu
- Tìm hiểu, trình bày một số thuật toán phân cụm đã và đang được sử dụng trên thế giớ1
- Xây dựng chương trình mô phỏng các thuật toán phân cụm dữ liệu
- Áp dụng vào bào toán phân cụm dữ liệu ATM của Ngân hàng Đầu tư và Phát triển Việt nam (BIDV)
Phương pháp nghiên cứu
- Kết hợp lý thuyết, thực nghiệm và thực tế để đưa ra các đánh giá, kết luận
- Học hỏi, nghiên cứu, phân tích các lý thuyết về các lĩnh vực có liên quan trong luận văn, từ các nguồn: các thầy giáo, cô giáo, các nhà khoa học, các chuyên gia, các đồng nghiệp, sách, báo, tài liệu, internet, 5.5
- Tìm hiểu trên thực tế các yêu cầu, các tiêu chuẩn và các đánh giá về các hệ thống
- Xây dựng các sơ đồ cấu trúc, nguyên lý cho các hệ thống sao cho phù hợp với yêu cầu và khả năng, xây dựng mô hình thực nghiệm
- Đưa ra kết luận từ kết quả nghiên cứu
Trang 91.2 TÓM TẮT NỘI DUNG CÁC CHƯƠNG
Luận văn có 4 chương và phần mở đầu, kết luận:
Phần mở đầu
Phần này nêu lên sự cần thiết của vấn đề phân cụm dữ liệu nói chung và nhất
là việc áp dụng vào phân tích dữ liệu trong Ngân hàng để từ đó định hướng cho việc mở rộng các dịch vụ với các dối tượng khách hàng hợp lý
Chương một: Tổng quan
Chương này nêu lên mục tiêu, nội dung và phương pháp nghiên cứu để hoàn thành bản luận văn này
Chương hai: Phân cụm dữ liệu
Chương này nêu lên khái niệm cơ bản về phân cụm dữ liệu, các bước cơ bản
để thực hiện một thuật toán phân cụm, các loại đặc trưng của phân cụm và các định nghĩa liên quan đến phân cụm
Chương hai có đề cập đến một số ứng dụng của việc phân cụm và một nội dung quan trọng nhất của các thuật toán phân cụm là các độ đo
Chương ba: Một số thuật toán phân cụm dữ liệu
Chương ba giới thiệu chi tiết về một số thuật toán phân cụm hiện đang được
áp dụng phổ biến, đó là các thuật toán phân cụm tuần tự (Sequence), thuật toán phân cụm phân cấp (Hierachical), thuật toán K-trung bình (K-Means), K-trung bình mờ (Fuzzy K-Means) và thuật toán K láng giềng gần (K-Nearest Neighbour)
Chương bốn: Xây dựng chương trình phân cụm
Trang 10Chương bốn giới thiệu chương trình thực hiện một số thuật toán nêu tại Chương ba bao gồm phần phân tích các module thực hiện và phần chương trình thực hiện
Chương năm: Ứng dụng phân cụm dữ liệu giao dịch ATM
Chương năm giới thiệu ứng dụng bài toán phân cụm vào việc phân tích dữ liệu giao dịch ATM của Ngân hàng, cụ thể là phát biểu bài toán, nêu phương pháp áp dụng, đặc tả dữ liệu, phân tích đánh giá kết quả đầu ra và đề xuất phương hướng phát triển của chương trình
Trang 11CHƯƠNG 2 PHÂN CỤM DỮ LIỆU
2.1 KHÁI NIỆM PHÂN CỤM DỮ LIỆU
Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm “tương tự” với nhau và các phần tử trong các cụm khác nhau sẽ “không tương tự”
Phân cụm dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu trong tập dữ liệu lớn, từ đó cung cấp thông tin hữu ích cho việc ra quyết định
Hình vẽ sau mô phỏng vấn đề phân cụm:
Hình 2.1: ví dụ phân cụm
Trong hình vẽ trên, sau khi phân cụm chúng ta thu được bốn cụm trong đó các phần tử “gần nhau” hay là “tương tự” thì được xếp vào một cụm, trong khi đó các phần tử “xa nhau” hay “không tương tự” thì thuộc về các cụm khác nhau Trong phân cụm dữ liệu khái niệm (Concept Clustering), hai hoặc nhiều đối tượng cùng được xếp vào một cụm nếu chúng có chung một định nghĩa về khái niệm hoặc xấp xỉ với các khái niệm mô tả cho trước
Trong học máy, phân cụm dữ liệu được xem là vấn đề học không có giám sát
vì nó phải đi giải quyết vấn đề tìm một cấu trúc trong tập hợp các dữ liệu chưa biết trước các thông tin về lớp hay các thông tin về tập ví dụ huấn luyện
Trang 12Trong nhiều trường hợp, khi phân lớp được xem là vấn đề học có giám sát thì phân cụm dữ liệu là một bước trong phân lớp dữ liệu, trong đó phân cụm dữ liệu sẽ khởi tạo các lớp cho phân lớp bằng các xác định các nhãn cho các nhóm dữ liệu
Một vấn đề thường gặp trong phân cụm dữ liệu là hầu hết các dữ liệu cần cho phân cụm đều có chứa nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý dữ liệu nhặm khắc phục và loại bỏ nhiễu trước khi bước vào giai đoạn phân tích phân cụm
dữ liệu “Nhiễu” ở đây có thể là các đối tượng dữ liệu không chính xác, hoặc
là các đối tượng khuyết thiếu thông tin về một số thuộc tính Một trong các kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đối tượng nhiễu bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất
2.2 CÁC BƯỚC CƠ BẢN ĐỂ PHÂN CỤM
- Chọn lựa đặc trưng: các đặc trưng phải được chọn lựa một cách hợp lý để
có thể mã hoá nhiều nhất thông tin liên quan đến công việc quan tâm Mục tiêu chính là phải giảm thiểu sự dư thừa thông tin giữa các đặc trưng Các đặc trưng cần được tiền xử lý trước khi dùng chúng trong các bước sau
- Chọn độ đo gần gũi: đây là một độ đo chỉ ra mức độ tương tự hay không tương tự giữa hai vectơ đặc trưng Phải đảm bảo rằng tất cả các vectơ đặc trưng góp phần như nhau trong việc tính toán độ đo gần gũi và không có đặc trưng nào át hẳn đặc trưng nào, điều này được đảm bảo bởi quá trình tiền xử
lý
- Tiêu chuẩn phân cụm: điều này phụ thuộc vào sự giải thích của chuyên gia cho thuật ngữ “dễ nhận thấy” dựa vào loại của các cụm được chuyên gia cho rằng đang ẩn giấu dưới tập dữ liệu Chẳng hạn, một cụm loại chặt của véctơ đặc trưng trong không gian n chiều có thể dễ nhận thấy theo một tiêu chuẩn, trong khi một cụm loại “dài và mỏng” lại có thể được dễ nhận thấy bởi một
Trang 13tiêu chuẩn khác Tiêu chuẩn phân loại có thể được diễn đạt bởi hàm chi phí hay một vài loại quy tắc khác
- Thuật toán phân loại: cần lựa chọn một sơ đồ thuật toán riêng biệt nhằm làm sáng tỏ cấu trúc phân cụm của tập dữ liệu
- Công nhận kết quả: khi đã có kết quả phân loại thì ta phải kiểm tra tính đúng đắn của nó Điều này thường được thực hiện bởi việc dùng các kiểm định phù hợp
- Giải thích kết quả: trong nhiều trường hợp, chuyên gia trong lĩnh vực ứng dụng phải kết hợp kết quả phân loại với những bằng chứng thực nghiệm và phân tích để đưa ra các kết luận đúng đắn
Trong một số trường hợp, nên có cả bước phân tích khuynh hướng phân cụm, trong bước này có các kiểm định khác nhau để chỉ ra tập dữ liệu có hay không một cấu trúc phân cụm Ví dụ như tập dữ liệu của ta có thể hoàn toàn ngẫu nhiên vì vậy mọi cố gắng phân cụm đều là vô nghĩa
Các lựa chọn khác nhau của các đặc trưng, độ đo gần gũi, tiêu chuẩn phân cụm có thể dẫn tới các kết quả phân cụm khác nhau
- Rút ra các giả thuyết: Các giả thuyết này có liên quan đến tính tự nhiên của
dữ liệu phải được kiểm tra bởi việc dùng một số tập dữ liệu khác
- Kiểm định giả thuyết: Phân cụm để xét xem có tồn tại một cụm nào đó trong tập dữ liệu thoả mãn các giả thiết đã cho hay không
- Dự đoán dựa trên các cụm: Trước hết ta phải phân cụm một tập dữ liệu thành các cụm mang đặc điểm của các dạng mà nó chứa Sau đó, khi có một
Trang 14dạng mới chưa biết xác định xem nó có khả năng thuộc về cụm nào nhất và
dự đoán được một số đặc điểm của dạng này nhờ các đặc trưng chung của cả cụm
Trong thực tế, phân cụm được áp dụng vào nhiều lĩnh vực khác nhau như:
- Tìm kiếm dữ liệu trên mạng: kết quả được phân thành các cụm tuỳ theo độ tương tự với dữ liệu cần tìm
- Marketing: trợ giúp cán bộ thị trường phát hiện được những phân đoạn thị trường để có chiến lược, sản phẩm hợp lý đối với các phân đoạn đó
- Phân loại khách hàng sử dụng các sản phẩm của Ngân hàng và các ngành tài chính, bảo hiểm
- Lập bản đồ thành phố theo nhóm các loại nhà ở, giá trị tài sản hay vị trí địa
lý
2.4 CÁC LOẠI ĐẶC TRƯNG
Có 4 loại đặc trưng đó là:
- Các đặc trưng danh nghĩa (nominal): gồm các đặc trưng mà các giá trị của
nó mã hoá các trạng thá1 Chẳng hạn cho một đặc trưng là giới tính của một người thì các giá trị có thể của nó là 1 ứng với nam và 0 ứng với nữ Rõ ràng
là bất kỳ sự so sánh về lượng nào giữ các giá trị loại này đều vô nghĩa
- Các đặc trưng thứ tự (ordinal): là các đặc trưng mà các giá trị của nó có thể được sắp một cách có ý nghĩa
Ví dụ về một đặc trưng thể hiện sự hoàn thành khoá học của một sinh viên Giả sử các giá trị có thể là 4, 3, 2, 1 tương ứng với với việc xếp loại kết quả học tập của sinh viên là: “xuất sắc”, “giỏi”, “khá”, trung bình khá”, “trung bình” Các giá trị này được sắp xếp theo một thứ tự có ý nghĩa nhưng sự so sánh giữa hai giá trị liên tiếp là không quan trọng lắm về lượng
- Các đặc trưng đo theo khoảng cách (interval-scaled) Với một đặc trưng cụ thể nếu sự khác biệt giữa hai giá trị là có ý nghĩa về mặt số lượng thì ta có đặc trưng đo theo khoảng (còn gọi là thang khoảng)
Trang 15Ví dụ về đặc trưng nhiệt độ, nếu từ 10 – 15 độ thì được coi là rét đậm, còn nếu dưới 10 độ được coi là rét hạ1 Vì vậy mỗi khoảng nhiệt độ mang một ý nghĩa riêng
- Các đặc trưng đo theo tỷ lệ (ratio-scaled):
Cũng với ví dụ nhiệt độ ở trên ta không thể coi tỷ lệ giữa nhiệt độ Hà Nội 10
độ với nhiệt độ Matxcơva 1 độ mang ý nghĩa Hà Nội nóng gấp 10 lần Maxcơva Trong khi đó, một người nặng 100kg được coi là nặng gấp 2 lần một người nặng 50kg, đặc trưng cân nặng là một đặc trưng đo theo tỷ lệ (thang tỷ lệ)
2.5 CÁC ĐỊNH NGHĨA PHÂN CỤM
2.5.1 Định nghĩa phân cụm
Cho X là một tập dữ liệu: X={x 1 , x 2 , , x N }
Ta định nghĩa m-phân cụm của X như một sự phân chia X thành m cụm (tập):
C1, C2, ,Cm sao cho thoả mãn 3 điều kiện:
đo phù hợp, trong khi loại cụm có hình dáng dài và mỏng lại phù hợp hơn với các loại độ đo khác (xem hình vẽ)
Trang 16(a) (b) (c) Hình 2.2: (a) Các tập chặt
(b) Các tập dài và mỏng (c) Các tập dạng cầu và elipxôit Với định nghĩa trên mỗi véctơ chỉ thuộc về một cụm riêng nên loại phân cụm này đôi khi còn được gọi là chặt (hard) hay rõ (crisp)
2.5.2 Định nghĩa phân cụm mờ
Dựa vào khái niệm tập mờ ta có thể định nghĩa như sau:
Một sự phân cụm mờ X thành m cụm được mô tả bởi m hàm thuộc Uj sao cho:
X={x 1 , x 2 , , x N }
Uj : X [0,1] j = 1, , m (2.2)
và:
1 ) ( 1
1
) ( < N-1 j = 1,2, m (2.3) Mỗi cụm trong trường hợp này có thể không được định nghĩa chính xác Nghĩa là mỗi véctơ x thuộc về nhiều hơn một cụm, với mỗi cụm nó lại thuộc
về với độ thuộc uj:
- Khi uj gần 1: mức độ thuộc của x vào cụm thứ j cao
- Khi uj gần 0: mức độ thuộc của x vào cụm thứ j thấp
Nếu một hàm thuộc có giá trị gần 1 với hai véctơ thì hai véctơ này được coi là tương tự nhau
Trang 17Điều kiện (2.3) đảm bảo rằng không tồn tại một cụm mà không chứa bất kỳ véctơ nào
Định nghĩa 2.5.1 là trường hợp riêng của định nghĩa 3.5.2 khi hàm thuộc chỉ nhận giá trị 0 và 1, lúc này nó được gọi là hàm đặc trưng
2.6 CÁC ĐỘ ĐO
Ta xét định nghĩa liên quan đến độ đo giữa các véctơ, sau đó mở rộng cho trường hợp độ đo giữa các tập véctơ
2.6.1 Độ đo không tương tự
Một độ đo không tương tự d trên X là một hàm: d : X x X R
trong đó R là tập số thực sao cho:
Một độ đo tương tự s trên X là một hàm: s : X x X R
trong đó R là tập số thực sao cho:
s0 R: - < s(x,y) so < +, x,yX (2.9) s(x,x) = s0, xX (2.10)
Trang 182.6.3 Độ đo gần gũi giữa các tập con của X
Cho U là một lớp các tập con của X,
Nghĩa là các Di X, i=1, ,k và U= {D1, D2, , Dk}
Một độ đo gần gũi giữa trên U là một hàm: : U x U R
Các công thức (2.4) – (2.8) cho độ đo không tương tự và (2.9)-(2.13) cho độ
đo tương tự được lặp lại với việc thay thế x, y và X lần lượt bởi Di, Dj và U Thông thường, các độ đo gần gũi giữa hai tập Di, Dj được định nghĩa thông qua độ đo gần gũi các phần tử của chúng
i
ss
y x d D
Với d2 là khoảng cách Euclid giữa hai véctơ
Giá trị nhỏ nhất có thể của ss
dm in là 0
Vì khoảng cách Euclid giữa một véctơ với bản thân nó bằng 0 nên:
0 ) , (
m inss i i
D D d
và dminss ( Di, Dj) dminss ( Dj, Di )
Trang 19Vì vậy hàm này là một độ đo không tương tự nhưng nó không phải là một độ
đo không tương tự metric vì không thoả mãn (2.7) Thật vậy, xét các véctơ Di,
Dj có phần tử chung, chẳng hạn: {x1,x 2 } và {x1,x 4 } thì:
1, 2 , 1, 4 0
dss
Trong khi chúng là 2 tập khác nhau
Một cách trực giác thì các định nghĩa trên cho thấy các DM là ngược với các
SM
Chẳng hạn, nếu d là một DM (metric) với d(x,y)>0, x,yX thì s = a/d với a>0 là một SM (metric): s = d max + k – d cũng là một SM (metric), với dmax là
khoảng cách lớn nhất trong mọi cặp phần tử của X
Các nhận xét tương tự cũng đúng với độ đo tương tự và không tương tự giữa các tập véctơ
Trong phần tiếp theo, ta ký hiệu bmax, bmin lần lượt là các giá trị max và min của tập dữ liệu X
2.6.4 Các độ đo gần gũi giữa hai điểm
2.6.4.1 Các vectơ thực
Các độ đo không tương tự:
Các độ đo không tương tự phổ biến nhất trong thực hành là:
+ Các DM metric có trọng số l p:
p i
p i i i
d
/ 1 1
1
) ,
Nếu wi = 1, i = 1, ,l ta có các DM metric không trọng số
Nếu p = 2 ta có khoảng cách Euclid
Các DM metric có trọng số l 2 được tổng quát hoá như sau:
Trang 20) , ( ) (
) ,
Với B là ma trận đối xứng xác định dương Nó bao gồm cả khoảng cách Mahalanobis là một trường hợp đặc biệt và khoảng cách Mahalanobis cũng là một DM metric
Các DM metric có trọng số l p đặc biệt cũng xuất hiện trong thực hành là
i
i i
i x y y
x
Và chuẩn l (có trọng số):
i i i l
i W x y y
, (
Dựa vào các DM trên ta có thể định nghĩa các SM tương ứng là:
sp(x,y) = bmax- dp(x,y) Các DM khác là:
a b
y x l y
x d
1 10
11log)
,
trong đó: bj và aj là các giá trị lớn nhất và nhỏ nhất của đặc trưng thứ j
Dễ dàng thấy đây là một DM metric và nó không chỉ dựa trên x và y mà còn dựa vào toàn bộ tập X Vì thế nếu dG(x,y) là khoảng cách giữa hai vectơ x, y
và d‟G(x,y) là khoảng cách giữa hai vectơ trên nhưng là khi chúng thuộc X* thì nói chung:
dG(x,y) d‟G(x,y) Một độ đo không tương tự nữa là:
Trang 21y x
y x l
y x d
1
2
1 ) ,
Trong phần lớn trường hợp, tích nội được dùng khi các véctơ được chuẩn hoá sao cho chúng có cùng độ dài a Vì vậy, cận trên và cận dưới của tích nội là +a2
và -a2, và nó chỉ phụ thuộc vào góc giữa x và y Một độ đo không tương tự tương ứng với tích nội là:
Dinner(x,y) = bmax- sinner(x,y) + Độ đo Tanimoto:
Được dùng cho cả các véctơ có giá trị thực cũng như rời rạc:
y x y
x
y x y
x s
t
t t
),
Sau khi biến đổi:
y x
y x y x
y x y
x s
t t
t t
)(
)(
1
),(
x s
t
21
1)
,(
(2.21)
Trang 22Trong trường hợp này, độ đo Tanimoto tỷ lệ nghich với a2
/xty Vì thế nếu coi tích nội giữa hai véctơ biểu thị mức độ liên quan giữa chúng thì nếu hai véctơ càng liên quan đến nhau, độ đo Tanimoto giữa chúng càng lớn
+ Một độ đo khác cũng hay được dùng được định nghĩa là:
y x
y x d y
F = {0, 1, , k-1} với k là một số nguyên dương
Ta sẽ có k-1 véctơ x F-1 Chúng nằm trên các đỉnh một lưới l-chiều (hình
Là ma trận k x k Các phần tử a ij là số vị trí mà véctơ đầu tiên có ký hiệu là i
và phần tử tương ứng của véctơ thứ hai có ký hiệu là j trong đó: i, j F Ma
trận này được gọi là bảng ngẫu nhiên Hầu hết các độ đo gần gũi giữa hai
Trang 23véctơ có giá trị rời rạc có thể biểu diễn qua sự kết hợp các phần tử của ma trận
A(x,y)
Các độ đo không tương tự:
+ Khoảng cách Hamming: là số vị trí hai véctơ khác nhau
Sử dụng ma trận A, ta có thể định nghĩa khoảng cách Hamming như sau:
(2.23)
Nghĩa là ta chỉ ra việc tính tổng các vị trí không phải đường chéo của A Khi k = 2, véctơ x F l là một véctơ nhị phân và khoảng cách Hamming trở thành:
i
i i i i
d
1
2 1
) (
) 2 (
) ,
d
1
5 , 0 ) ,
Độ đo tương tự tương ứng là:
) , ( )
x d
1
0
),(
k i j j ij k
i
d
Trang 24và y trừ những cặp mà cả hai toạ độ đều bằng 0 Điều này rất dễ hiểu nếu ta coi giá trị toạ độ thứ i của x như là độ sở hữu của x đối với đặc trưng thứ i, vì vậy cặp (0,0) là kém quan trọng hơn tất cả các cặp còn lạ1
1
1
),
j ij k
i y x
k
i ii T
a n
n
a y
x
Các hàm tương tự khác giữa x và y được định nghĩa thông qua ma trận A Một số hàm thì quan tâm đến số vị trí mà hai véctơ giống nhau nhưng khác 0 Trong khi các hàm khác tính tất cả các vị trí của hai véctơ giống nhau
Hàm tương tự trong trường hợp đầu là:
a k
i ii
Trang 252.6.4.3 Các véctơ với giá trị hỗn hợp
Trong thực tế, ta cũng hay gặp các trường hợp khi không phải tất cả các đặc trưng của véctơ đặc trưng đều có cùng giá trị thực hoặc rời rạc Có 3 cách khắc phục:
- Cách 1: Dùng các độ đo gần gũi cho véctơ thực vì các véctơ rời rạc có thể được so sánh một cách chính xác theo nghĩa các độ đo gần gũi cho véctơ thực, trong khi điều ngược lại nói chung không cho kết quả hợp lý Độ đo được đề xuất tốt cho trường hợp này là khoảng cách l1
- Cách 2: Cách này chuyển các đặc trưng giá trị thực thành rời rạc Nếu một đặc trưng xi lấy giá trị trong khoảng [a,b] ta chia đoạn này thành k đoạn con Nếu giá trị xi nằm trong đoạn con thứ r thì xi = r-1 Kết quả là ta có véc tơ rời rạc và có thể dùng bất kỳ độ đo rời rạc nào đã nói ở trên
- Cách 3: Cho x, y là hai véctơ l-chiều có giá trị hỗn hợp Khi đó hàm tương
tự giữa hai véctơ được định nghĩa là:
w
y x s y
x s
1
1
),()
,(
Trang 26- Trường hợp x, y là nhị phân:
s q (x,y) = 1 nếu x q = y q = 1
- Ngược lại: s q (x,y) = 0 (2.29)
- Trường hợp x, y có giá trị danh nghĩa hoặc thứ tự:
s q (x,y) = 1 nếu x q và y q có cùng giá trị Ngược lại: s q (x,y) = 0
- Trường hợp x, y có giá trị đo theo khoảng hoặc theo tỷ lệ:
q
q q
q
r
y
x y
x
1 ) ,
rq là độ dài của khoảng chứa giá trị các đặc trưng thứ q
2.6.4.4 Các độ đo mờ
Trong phần này chúng ta xét các véctơ thực x, y mà những đặc trưng của nó
có giá trị nằm trong đoạn [0,1]
+ xi càng gần 1 thì càng chắc chắn để khẳng định xi là đặc trưng của x + xi càng gần 0 thì càng chắc chắn để khẳng định xi là không đặc trưng của
x
+ xi càng gần 0,5 thì không thể khẳng định xi là đặc trưng của x hay không Đây là sự tổng quát của logic nhị phân Nhưng logic nhị phân có sự tuyệt đối chắc chắn về sự xuất hiện của một sự kiện còn trong logic mờ thì không, độ chắc chắn thể hiện trong giá trị của x1.
Sự tương đương giữa hai biến nhị phân:
(a b) = ((NOT a) AND (NOT b)) OR (a AND b) (2.31) Toán tử (OR) giữa hai biến nhị phân có thể được xem như toán tử min (max) trên chúng
Toán tử NOT được xem như 1- a
Ta có độ tương tự giữa hai biến có giá trị thực trong đoạn [0,1] là:
s(xi,yi) = max (min (1 - xi, 1 - yi), min (xi, yi)) (2.32)
Trang 27Vì vậy ta có thể định nghĩa độ tương tự (mờ) giữa hai véctơ x, y trong không gian l-chiều là:
q l
i
q i i
q
s
/ 1
1
),()
+ Giá trị max và min của sF là l1/q và 0,5 l1/q
- Với đặc trưng thứ i, tìm giá trị trung bình dựa trên giá trị tương ứng của tất
cả các véctơ đặc trưng của X Sau đó thay thế giá trị này cho các giá trị không xác định
- Với mọi cặp đặc trưng xi,yi của véctơ đặc trưng x, y ta định nghĩa bi như sau:
+ bi = 0 nếu tất cả xi,yi đều có sẵn
+ Ngược lại bi = 1
Và độ đo gần gũi giữa x và y là:
),(1
),(
0 , 1
i i l
b i l
i i
y x b
l y
Trang 28- Tìm các độ đo gần gũi trung bình, avg(i ), giữa tất cả các véctơ đặc trƣng
trong X theo tất cả các thành phần 1 Với các véctơ không có đặc trƣng thứ
i thì bỏ qua véctơ này khi tính avg(i )
)()
,(
i i
avg i
i
y x
i y
i
y x y
2.6.5 Các hàm gần gũi giữa một điểm và một tập
Trong nhiều sơ đồ phân cụm, một véctơ s đƣợc gán vào một cụm C bởi việc tính tộ đo gần gũi giữa x và C, (x, C)
Có hai cách định nghĩa (x, C)
- Cách 1: Tất cả các điểm của C góp phần vào (x, C) đó là:
+ Hàm gần gũi max:
) , ( max )
, (
C y
,(
C y
1 ) ,
n C x
C y C
- Cách 2: C có một đại diện và độ đo gần gũi x và C là độ đo gần gũi giữa x
và đại diện của C
Có 3 loại đại diện đƣợc dùng phổ biến là :
+ Đại diện điểm: thích hợp cho các cụm chặt (hình 2.4 a)
Nếu ngược lại
Trang 29+ Đại diện siêu phẳng: thích hợp cho các cụm có dạng đường thẳng hay tuyến tính (hình 2.4b)
+ Đại diện siêu cầu: thích hợp cho các cụm có dạng cầu (hình 2.4c)
Hình 2.4: Các loại cụm và đại diện của nó
a Các đại diện điểm:
+ Véctơ trung bình (điểm trung bình):
y n
m
C y C
+ Tâm trung bình mCC được định nghĩa là:
med(d( mmed, y) yC) med (d(z,y) yC) z C (2.39) Thường được dùng khi độ đo gần gũi giữa hai điểm không là một metric
Trong đó, T là tập q giá trị vô hướng và med(T) là số nhỏ nhất trong
T sao cho med(T) số thứ [(q+1)/2] của T Một cách để xác định med(T) là xếp các phần tử của T tăng dần và chọn lấy phần tử thứ [(q+1)/2]
b Các đại diện siêu phẳng:
Phương trình tổng quát của một siêu phẳng H là:
0 0 0
l j
Trong đó, a và x là các véctơ 1 chiều
Trang 30Khoảng cách từ một điểm x tới siêu phẳng H là:
) , ( min ) ,
c Các đại diện siêu cầu:
Phương trình tổng quát của một siêu cầu Q là:
(x – c)T (x - c) = r2 (2.43) Trong đó, c và r lần lượt là tâm và bán kính của siêu cầu
Khoảng cách từ một điểm tới siêu cầu là:
) , ( min ) ,
Nếu là một độ đo không tương tự thì hàm gần gũi max không là một độ đo
vì nó không thoả (2.45) Ngược lại, nếu là độ đo tương tự thì hàm gần gũi max là một độ đo nhưng không là metric
- Hàm gần gũi min:
) , ( min )
,
(
, min D D x y
j
i y D D x j i
Nếu là một độ đo không tương tự thì hàm gần gũi min không là một độ đo
vì nó không thoả (2.46) Ngược lại, nếu là độ đo tương tự thì hàm gần gũi min là một độ đo nhưng không là metric
- Hàm gần gũi trung bình:
),(
1)
,
n n D D
i j j
i D x D y D D
j i
Trang 31- Hàm gần gũi giữa các giá trị đại diện:
) ,
( )
,
(
j
i D D j
i
ss mean D D m m
Hàm này là một độ đo khi là một độ đo
- Hàm khác:
) , ( )
, (
j i j
i
j i
D D D
D
D D j
i
ss
n n
n
n D
- Cách duy nhất để đạt đƣợc sự phân cụm một cách hợp lý tập dữ liệu là bằng cách thử – sai cùng với ý kiến của các chuyên gia trong lĩnh vực ứng dụng
Trang 32- Chất lượng của phương pháp phân cụm được đánh giá bởi khả năng khám phá một số hoặc tất cả các thuộc tính ẩn
b Yêu cầu của phân cụm trong khai phá dữ liệu
- Có tính mềm dẻo
- Có thể thực hiện bởi nhiều loại thuộc tính dữ liệu khác nhau
- Có thể phân cụm với các hình dạng cũng như cách thức sắp đặt khác nhau
- Yêu cầu tối thiểu đối với phạm vi tri thức đầu vào cũng như các tham số
- Có thể xử lý nhiễu cũng như xử lý vùng biên
- Không phản ứng với thứ tự dữ liệu đầu vào
- Có thể xử lý với dữ liệu đa chiều
- Có thể hợp nhất các ràng buộc của người sử dụng
- Dễ hiểu và dễ sử dụng
Trang 33CHƯƠNG 3 MỘT SỐ THUẬT TOÁN PHÂN CỤM
3.1 GIỚI THIỆU VỀ CÁC THUẬT TOÁN PHÂN CỤM
3.1.1 Số các phân cụm
Với một thời gian và tài nguyên cho trước, cách tốt nhất để phân cụm là tìm
ra tất cả các cách có thể và lựa chọn cách dễ nhận thấy nhất theo tiêu chuẩn phân cụm đã chọn trước
Ký hiệu S(N,m) là số cách phân cụm N véctơ về m cụm, ta có các tính chất sau [4]:
L hoặc hình thành nên cụm mớ1 Vì vậy ta có thể viết:
1) - m 1, - S(N m) 1, - S(N
* m m)
i i
m
) 1 (
!
1 m)
Trang 343.1.2 Phân loại các thuật toán phân cụm
Các thuật toán phân cụm có thể được xem như các sơ đồ cung cấp cho ta các cụm “dễ nhận thấy” bởi việc chỉ xem xét một phần nhỏ của tập chứa tất cả các cách phân cụm của X Kết quả phụ thuộc vào thuật toán và tiêu chuẩn phân cụm cụ thể được dùng Như vậy, một thuật toán phân cụm là một chức năng học cố gằng tìm ra các đặc trưng riêng biệt của các cụm ẩn giấu dưới tập dữ
liệu Ta có thể phân loại như sau [3]:
3.1.2.1 Các thuật toán tuần tự (Sequential Algorithms)
Các thuật toán này sinh ra một cách phân cụm duy nhất, chúng là các phương pháp trực tiếp và nhanh Trong hầu hết các thuật toán thuộc loại này, tất cả
các vectơ đặc trưng tham gia trong thuật toán một hoặc vài lần (không hơn 6 lần) Kết quả cuối cùng thường phụ thuộc vào thứ tự các véctơ tham gia thuật
toán Những sơ đồ loại này có khuynh hướng sinh ra các cụm có hình dạng chặt và siêu cầu hoặc siêu elipxoit tuỳ theo độ đo được sử dụng
3.1.2.2 Các thuật toán phân cụm phân cấp (Hierachical Aalgorithms)
- Các thuật toán tích tụ (Agglomerative)
Chúng sinh ra một dãy các cách phân cụm mà số cụm m giảm dần ở mỗi bước Cách phân cụm ở mỗi bước là kết quả của cách phân cụm ở bước trước
đó bằng việc trộn 2 cụm làm một Các đại diện chính của loại này là thuật toán liên kết đơn (phù hợp với cụm dài và mỏng) và thuật toán liên kết đầy đủ (phù hợp với các cụm chặt)
- Các thuật toán chia rẽ (Deviside)
Sinh ra một dãy các phân cụm mà số cụm m tăng dần ở mỗi bước Cách phân cụm ở mỗi bước là kết quả cách phân cụm ở bước trước đó bằng việc chia đôi một cụm đơn
3.1.2.3 Các thuật toán phân cụm dựa trên việc tối ưu hoá hàm chi phí
Hàm chi phí J đo độ dễ nhận thấy của các cách phân cụm Thường thì số các cụm m là cố định Thuật toán sẽ dùng các khái niệm về phép tính vi phân và
Trang 35sinh ra các cách phân cụm liên tiếp trong khi cố gắng tối ưu hoá J Thuật toán
sẽ dừng khi một tối ưu địa phương được xác định Các thuật toán này cũng được gọi là các sơ đồ tối ưu hoá hàm lặp Chúng được phân loại tiếp như sau:
- Các thuật toán phân cụm chặt hay rõ
Véctơ thuộc hoàn toàn vào một cụm cụ thể, việc đưa một véctơ về các cụm cụ thể được thực hiện một cách tối ưu theo tiêu chuẩn phân cụm tối ưu
- Các thuật toán phân cụm theo hàm xác suất
Dựa vào lý thuyết phân lớp Bayes và mỗi véctơ được phân về cụm thứ i nếu P(Ci | x) là lớn nhất (xác suất để x được phân đúng vào cụm C i )
- Các thuật toán phân cụm mờ
Các véctơ thuộc về một cụm nào đó với một độ chắc chắn nào đó
- Các thuật toán phân cụm theo khả năng
Trong trường hợp này ta đo khả năng một véctơ đặc trưng thuộc về một cụm nào đó
- Các thuật toán phát hiện biên phân tách
Các thuật toán này cố gắng đặt các biên phân tách một cách tối ưu giữa các cụm
Sau đây chúng ta sẽ đi vào một số thuật toán phân cụm cụ thể, đó là Thuật toán phân cụm tuần tự (Sequential), thuật toán phân cụm K-trung bình (K-means), K-trung bình mờ (Fuzzy K-means), K-láng giềng gần (K-Nearest Neighbor), Phân cụm phân cấp (Hierachical)
3.2 THUẬT TOÁN PHÂN CỤM TUẦN TỰ
3.2.1 Thuật toán phân cụm tuần tự
Giả sử tất cả các véctơ chỉ được tham gia một lần trong thuật toán và số lượng cụm là không biết trước
Gọi d(x,C) là khoảng cách từ một véctơ đặc trưng x tới một cụm C Điều này
có thể được định nghĩa bằng cách đưa vào tính toán tất cả các véctơ thuộc C hoặc một Véctơ đại diện cho nó
Trang 36Các tham số cần thiết do người dùng định nghĩa cho thuật toán này đó là ngưỡng không tương tự và số lượng tối đa các cụm cho phép là q
Ý tưởng cơ bản của thuật toán như sau:
Đối với mỗi Vectơ mới, nó sẽ được gắn vào các cụm có sẵn hoặc tạo một cụm mới tuỳ thuộc vào khoảng cách của nó tới các cụm có sẵn
Gọi m là số cụm mà thuật toán đã tạo lập cho đến thời điểm hiện tại, khi đó thuật toán được khởi tạo như sau:
old Ck
new k new
n
x m
Trang 37Trong đó nCknew là nhân tố chủ yếu của C sau khi gán thêm x vào cho nó và
new
Ck
m (moldCk ) là đại diện của Ck sau (trước) khi cập nhật x vào
Các thuật toán mà mỗi cụm được đại diện bởi một Véctơ được gọi là dựa trên tiêu chuẩn phân cụm toàn cục còn thuật toán mà tất cả các Véctơ đều được sử dụng sẽ được gọi là tiêu chuẩn phân cụm địa phương
Không khó để nhận ra rằng thứ tự mà các Véctơ được bố trí trong thuật toán BSAS đóng vai trò quan trọng đối với kết quả phân cụm Những thứ tự sắp xếp khác nhau có thể dẫn tới những kết quả phân cụm hoàn toàn khác nhau, trong giới hạn số lượng các phân cụm tốt như chính bản thân những phân cụm
Một yếu tố quan trọng nữa ảnh hưởng tới kết quả của thuật toán phân cụm đó
là cách chọn ngưỡng Giá trị này ảnh hưởng trực tiếp tới số lượng các cụm được thiết lập bởi BSAS Nếu quá bé, những cụm không cần thiết sẽ được tạo lập Mặt khác, nếu quá lớn thì số lượng cụm tạo lập sẽ nhỏ hơn số cụm cần thiết Trong cả hai trường hợp, số lượng các cụm phù hợp nhất đối với tập
dữ liệu sẽ bị bỏ qua
Nếu số q của lượng tối đa cho phép các cụm không bị ràng buộc, chúng ta để tuỳ cho thuật toán lựa chọn số lượng cụm phù hợp nhất
Xét ví dụ tại hình 1, nơi ba khối và các cụm tách biệt được tạo thành từ điểm
X Nếu số lượng tối đa các cụm được thiết đặt là 2, khi đó BSAS sẽ không thể phân thành ba cụm Khả năng là thuật toán sẽ nhóm hai nhóm phía bên phải thành một cụm
Trang 38Hình 3.1: ba cụm được tạo thành từ các Véctơ đặc trưng Khi q bị ràng buộc bởi giá trị nhỏ hơn 3, thuật toán BSAS sẽ không phát hiện được chúng
Mặt khác, nếu q không bị ràng buộc bởi thuật toán BSAS thì khi đó sẽ tạo
thành ba cụm (với một sự lựa chọn phù hợp), ít nhất đối với trường hợp
Véctơ trung bình được sử dụng như một đại diện Tuy nhiên, ràng buộc q trở nên cần thiết khi xử lý với sự thi hành nơi mà nguồn lực tính toán sẵn có là hạn chế
Trong phần tiếp theo, một kỹ thuật đơn giản được đề xuất để xác định số lượng các phân cụm
3.2.2 Ước lượng số lượng các phân cụm
Trong phần này, một phương pháp đơn giản được mô tả để xác định số lượng các phân cụm Phương pháp này phù hợp với BSAS như các thuật toán khác, đối với nó, số lượng cụm không cần đưa như một tham số đầu vào
Trong phần tiếp theo, BSAS() có nghĩa là thuật toán BSAS với ngưỡng không tương tự được xác định là
Trang 39Giá trị a và b là các mức khác biệt nhỏ nhất và lớn nhất trong số tất cả các cặp Vectơ trong X, đó là, a = mini,j=1…N d(xi,xj) và b = maxi,j=1…N d(xi,xj)
Lựa chọn của c trực tiếp và bị tác động của d(x,C) Như những giá trị s liên quan, một giá trị s lớn hơn, một tập ví dụ thống kê lớn hơn và vì thế, sẽ cho một kết quả đúng đắn hơn
Phần tiếp theo, chúng ta sẽ phác họa số lượng cụm m đối với Phác hoạ này gồm một số miền phẳng Điều đó cho hy vọng rằng ít nhất trong trường hợp
mà các véctơ được phân thành các cụm riêng rẽ tốt thì đó chính là số lượng cụm mong muốn Chúng ta sẽ giải thích điều này một cách trực giác
Giả sử rằng dữ liệu tạo thành hai tập và tách biệt tốt là C1 và C2 Khoảng cách
bé nhất giữa hai Véctơ trong C1(C2) là r1 (r2) và giả sử rằng r1 < r2 Ta cũng cho rằng r (>r2) là giá trị nhỏ nhất trong số tất cả các khoảng cách d(xi,xj), trong đó xi C1 và xj C2 Điều rõ ràng là đối với [r2, r - r2], số lượng các cụm tạo bởi BSAS là 2 Thêm vào đó, nếu r >> r2, với đầu vào trong phạm vi lớn và vì vậy, nó phù hợp với một miền phẳng lớn trong phác hoạ của mT đối với Ví dụ 2 sẽ minh hoạ rõ thêm ý này
Ví dụ 2: xem xét hai phân bố Gauxơ hai chiều với giá trị nằm trong [0,0]T
và [20,20]T một cách độc lập Ma trận hiệp phương sai là = 0.5I cho cả hai phân bổ với I là ma trận nhận dạng 2 x 2 Tạo 50 điểm cho mỗi phân bố, số
lượng cụm cơ sở là 2 Biểu đồ kết quả từ ứng dụng mô tả phía trên được biểu thị ở hình 3.2b với a = mini,j=1…N d(xi,xj), b = maxi,j=1…N d(xi,xj) và c 0,3 Nó
có thể được nhìn thấy miền phẳng lớn nhất phù hợp với số 2, đó là số lượng cụm cơ sở
Trong thủ tục đã đề cập, chúng ta ngầm giả định rằng các Vectơ đặc trưng lập nên các cụm Nếu không xảy ra trường hợp này, phương pháp sẽ vô ích
Thêm vào đó, nếu các Vectơ tạo thành các cụm liên kết chặt chẽ mà không phân chia rõ ràng, thủ tục có thể cho kết quả không đáng tin cậy, từ đó sẽ
Trang 40không chắc chắn cho đồ thị của m đối với để chứa đựng những vùng phẳng rộng
Hình 3.2: (a) tập dữ liệu; (b) phác hoạ của số lượng các cụm đối với Nó có thể nhìn thấy đối với một vùng rộng của các giá trị của , số lượng các cụm,
m = 2
Trong một số trường hợp, nó có thể thích hợp để xem xét tất cả các số lượng cụm, m mà phù hợp với mọi miền phẳng của kích cỡ lớn trong mô tả m đối với Nếu, chẳng hạn chúng ta có 3 cụm và hai cụm đầu tiên nằm gần nhau
và cách xa cụm thứ 3, miền phẳng nhất có thể xuất hiện đối với m = 2 và miền phẳng thứ hai đối với m = 3 Nếu chúng ta loại bỏ miền phẳng nhất thứ
2, chúng ta có thể bị mất giải pháp phân thành 3 cụm
3.2.3 Một thuật toán BSAS cải tiến
Như đã phát biểu trước, ý tưởng chính sau thuật toán BSAS đó là mỗi Véctơ đầu vào x được gán vào một cụm đã tạo lập từ trước hoặc một cụm mới được tạo lập Tuy nhiên, một quyết định đối với Vectơ x được với lấy trước khi cụm cuối cùng được tạo lập, nó được xác định sau khi tất cả các Vectơ đã được biểu thị Quá trình tinh chế của thuật toán BSAS sau đây được gọi là MBSAS, khắc phục những trở ngại đó Cái giá để thực hiện thuật toán này đó
là mỗi véctơ thuộc X đều được biểu thị hai lần trong thuật toán Lược đồ thuật toán bao gồm hai giai đoạn: giai đoạn thứ nhất liên quan đến việc xác định