Ứng dụng một số thuật toán phân cụm phân tích dữ liệu ngân hàng

TÓM TẮT NỘI DUNG CÁC CHƯƠNG Luận văn có 4 chương và phần mở đầu, kết luận:  Phần mở đầu Phần này nêu lên sự cần thiết của vấn đề phân cụm dữ liệu nói chung và nhất là việc áp dụng vào

Trang 1

-

Nguyễn Doãn Hiền

ỨNG DỤNG MỘT SỐ THUẬT TOÁN PHÂN CỤM

PHÂN TÍCH DỮ LIỆU NGÂN HÀNG

LUẬN VĂN THẠC SỸ

Hà Nội – 2006

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

-

Nguyễn Doãn Hiền

ỨNG DỤNG MỘT SỐ THUẬT TOÁN PHÂN CỤM

PHÂN TÍCH DỮ LIỆU NGÂN HÀNG

Ngành: Công nghệ Thông tin

Mã số: 1.01.10

LUẬN VĂN THẠC SỸ

Người hướng dẫn khoa học: PGS TSKH Bùi Công Cường

Hà Nội – 2006

Trang 3

Lêi c¶m ¬n

Sau một thời gian nghiên cứu và nỗ lực thực hiện, luận văn “Ứng dụng một số thuật toán phân cụm phân tích dữ liệu Ngân hàng” đã cơ bản hoàn thành Ngoài sự cố gắng của bản thân, tôi đã nhận được sự giúp đỡ từ nhà trường, thầy cô giáo, gia đình và bạn bè

Trước hết, tôi xin được cảm ơn mẹ, người đã động viên và chăm sóc tôi trong quá trình học tập và hoàn thành luận văn

Tôi xin cảm ơn các thầy cô giáo trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã truyền đạt những kiến thức quí báu cho tôi cũng như các học viên lớp Cao học Công nghệ K10T3

Đặc biệt, tôi xin cảm ơn sâu sắc tới thầy giáo Bùi Công Cường, người đã trực tiếp tận tình giúp đỡ, hướng dẫn tôi trong quá trình thực hiện luận văn này Nhân đây, tôi cũng gửi lời cảm ơn tới các bạn bè cùng lớp K10T3 đã cùng sát cánh và động viên tôi trong những ngày cùng nhau học tập tại trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội

Trang 4

MỤC LỤC

MỞ ĐẦU 6

CHƯƠNG 1 TỔNG QUAN 7

1.1 MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU 7

1.2 TÓM TẮT NỘI DUNG CÁC CHƯƠNG 8

CHƯƠNG 2 PHÂN CỤM DỮ LIỆU 10

2.1 KHÁI NIỆM PHÂN CỤM DỮ LIỆU 10

2.2 CÁC BƯỚC CƠ BẢN ĐỂ PHÂN CỤM 11

2.3 CÁC ỨNG DỤNG CỦA PHÂN CỤM 12

2.4 CÁC LOẠI ĐẶC TRƯNG 13

2.5 CÁC ĐỊNH NGHĨA PHÂN CỤM 14

2.5.1 Định nghĩa phân cụm 14

2.5.2 Định nghĩa phân cụm mờ 15

2.6 CÁC ĐỘ ĐO 16

2.6.1 Độ đo không tương tự 16

2.6.2 Độ đo tương tự 16

2.6.3 Độ đo gần gũi giữa các tập con của X 17

2.6.4 Các độ đo gần gũi giữa hai điểm 18

2.6.5 Các hàm gần gũi giữa một điểm và một tập 27

2.6.6 Các hàm gần gũi giữa hai tập 29

2.6.7 Đánh giá phân cụm 30

CHƯƠNG 3 MỘT SỐ THUẬT TOÁN PHÂN CỤM 32

3.1 GIỚI THIỆU VỀ CÁC THUẬT TOÁN PHÂN CỤM 32

3.1.1 Số các phân cụm 32

3.1.2 Phân loại các thuật toán phân cụm 33

3.2 THUẬT TOÁN PHÂN CỤM TUẦN TỰ 34

3.2.1 Thuật toán phân cụm tuần tự 34

3.2.2 Ước lượng số lượng các phân cụm 37

3.2.3 Một thuật toán BSAS cải tiến 39

3.2.4 Sơ đồ tuần tự với hai ngưỡng 41

3.2.5 Thực hiện tinh chỉnh 45

3.3 THUẬT TOÁN PHÂN CỤM K-MEANS 47

3.3.1 Thuật toán K-means 47

3.3.2 Các bước thực hiện thuật toán K-means 47

3.3.3 Ví dụ về áp dụng thuật toán K-means 49

3.3.4 Một số vấn đề và ưu, nhược điểm của K-means 52

3.3.5 Độ phức tạp của thuật toán K-means 53

3.4 THUẬT TOÁN PHÂN CỤM MỜ K-MEANS (FKM) 53

3.4.1 Khái niệm về tập mờ và phân cụm mờ 53

Trang 5

3.4.2 Thuật toán phân cụm mờ K-means 55

3.4.3 Mô tả thuật toán 57

3.4.4 Độ phức tạp thuật toán 58

3.5 THUẬT TOÁN PHÂN CỤM HIERACHICAL 59

3.5.1 Nguyên lý thực hiện 59

3.5.2 Mô tả thuật toán 60

3.5.3 Ví dụ về thuật toán phân cấp 61

3.5.4 Ưu, nhược điểm của thuật toán 65

3.6 THUẬT TOÁN PHÂN CỤM K-LÁNG GIỀNG GẦN 66

3.6.1 Thuật toán K-láng giềng gần 66

3.6.2 Cách thức thực hiện thuật toán KNN 66

3.6.3 Một ví dụ áp dụng thuật toán KNN 69

3.6.4 Ưu, nhược điểm của thuật toán KNN 71

CHƯƠNG 4 XÂY DỰNG CHƯƠNG TRÌNH PHÂN CỤM 72

4.1 PHÂN TÍCH CÁC MODULE 72

4.1.1 Module chuẩn bị dữ liệu 72

4.1.2 Tinh chỉnh dữ liệu 72

4.1.3 Hàm tính khoảng cách 73

4.2 CHƯƠNG TRÌNH MÔ PHỎNG CÁC THUẬT TOÁN 75

4.2.1 Giới thiệu chương trình 75

4.2.2 Chuyển đổi và tinh chỉnh dữ liệu 75

4.2.3 Thuật toán K-means 76

4.2.4 Thuật toán phân cụm phân cấp (Hierachical) 77

4.2.5 Thuật toán Fuzzy K-means 79

CHƯƠNG 5 ỨNG DỤNG PHÂN CỤM DỮ LIỆU GIAO DỊCH ATM 80

5.1 PHÁT BIỂU BÀI TOÁN 80

5.2 ÁP DỤNG VÀO CHƯƠNG TRÌNH ĐÃ XÂY DỰNG 80

5.2.1 Phương pháp áp dụng 80

5.2.2 Đặc tả dữ liệu và cách thức thực hiện 81

5.2.3 Phân tích, đánh giá kết quả 81

KẾT LUẬN 85

1 TÓM TẮT KẾT QUẢ 85

2 PHƯƠNG HƯỚNG PHÁT TRIỂN 85

TÀI LIỆU THAM KHẢO 87

PHỤ LỤC 1: MÃ NGUỒN CHƯƠNG TRÌNH 88

1 MODULE TÍNH KHOẢNG CÁCH GIỮA CÁC PHẦN TỬ 88

1.1 Tính khoảng cách theo Manhattan 88

1.2 Tính khoảng cách theo công thức Euclide 89

1.3 Tính khoảng cách hỗn hợp (công thức Kaufman và Rousseeuw) 90

2 MODULE THỰC HIỆN THUẬT TOÁN K-MEANS 96

3 MODULE THỰC HIỆN THUẬT TOÁN HIERACHICAL 99

Trang 6

PHỤ LỤC 2: MÔ TẢ DỮ LIỆU GIAO DỊCH 102

1 Cấu trúc bảng dữ liệu 102

2 Danh sách mã loại thẻ 102

3 Danh sách mã giao dịch 103

4 Định dạng dữ liệu sau khi chuyển đổi 103

5 Định dạng dữ liệu sau phân cụm bằng thuật toán K-means 104

6 Định dạng dữ liệu sau phân cụm bằng thuật toán Hierachical 104

7 Định dạng cây phân cấp 105

Trang 7

MỞ ĐẦU

Đối với các Ngân hàng hiện nay, nắm đƣợc khách hàng là một trong những điểm mấu chốt tạo nên thành công trong kinh doanh Để đạt đƣợc điều này, việc cần thiết đó là thiết lập đƣợc chiến lƣợc khách hàng đúng đắn để sao cho giành đƣợc các khách hàng mới và giữ đƣợc các khách hàng có chất lƣợng cao Để đạt đƣợc những mục tiêu đó, các Ngân hàng đã xây dựng các hệ thống dữ liệu về khách hàng, từ đó có thể phân tích và xây dựng các chiến lƣợc kinh doanh cho mình

Thực tế cho thấy rằng, thay vì nhắm vào tất cả các khách hàng để đối xử, khuyến khích, Ngân hàng có thể lựa chọn các khách hàng đáp ứng một tiêu chuẩn nào đó về lợi nhuận dựa trên các thuộc tính giao dịch hay những thuộc tính khác của khách hàng [7]

Trong những năm gần đây, hệ thống máy giao dịch tự động (ATM – Automatic Teller Machine) đƣợc các Ngân hàng tại Việt Nam triển khai và phát triển khá mạnh mẽ Hệ thống này cho phép khách hàng thực hiện giao

dịch một cách tiện lợi về thời gian (online 24/7) cũng nhƣ cung cấp các dịch

vụ (vấn tin, chuyển khoản, rút tiền, thanh toán hoá đơn, cách dịch vụ tín dụng ) Vì vậy, có thể nói hệ thống ATM trở thành một trong những kênh quan

trọng trong các kênh giao dịch của Ngân hàng cung cấp cho khách hàng Tuy nhiên, để phát huy hiệu quả của hệ thống này, ngoài các thông tin cố định nhƣ lƣợng thẻ, lƣợng giao dịch, số máy ATM… Ngân hàng cần biết đƣợc các thuộc tính ẩn của khách hàng để đề ra chiến lƣợc phát triển đúng đắn cho loại hình dịch vụ này Đó chính là lý do cần đến khoa học khai phá dữ liệu mà ở đây cụ thể hơn, chúng ta sẽ nghiên cứu về các thuật toán phân cụm dữ liệu để tìm ra các thuộc tính ẩn đó

Trang 8

CHƯƠNG 1 TỔNG QUAN

1.1 MỤC TIÊU, NỘI DUNG VÀ PHƯƠNG PHÁP NGHIÊN CỨU

 Mục tiêu của luận văn

Nắm bắt được cơ sở lý thuyết của các thuật toán phân cụm, đưa ra phương hướng giải quyết cho bài toán áp dụng vào thực tế để thực hiện bài toán phân cụm dữ liệu ATM trong Ngân hàng

 Nội dung chính của luận văn

Luận văn có các nội dung chính như sau:

- Khái quát cơ sở lý thuyết về phân cụm dữ liệu

- Tìm hiểu, trình bày một số thuật toán phân cụm đã và đang được sử dụng trên thế giớ1

- Xây dựng chương trình mô phỏng các thuật toán phân cụm dữ liệu

- Áp dụng vào bào toán phân cụm dữ liệu ATM của Ngân hàng Đầu tư và Phát triển Việt nam (BIDV)

 Phương pháp nghiên cứu

- Kết hợp lý thuyết, thực nghiệm và thực tế để đưa ra các đánh giá, kết luận

- Học hỏi, nghiên cứu, phân tích các lý thuyết về các lĩnh vực có liên quan trong luận văn, từ các nguồn: các thầy giáo, cô giáo, các nhà khoa học, các chuyên gia, các đồng nghiệp, sách, báo, tài liệu, internet, 5.5

- Tìm hiểu trên thực tế các yêu cầu, các tiêu chuẩn và các đánh giá về các hệ thống

- Xây dựng các sơ đồ cấu trúc, nguyên lý cho các hệ thống sao cho phù hợp với yêu cầu và khả năng, xây dựng mô hình thực nghiệm

- Đưa ra kết luận từ kết quả nghiên cứu

Trang 9

1.2 TÓM TẮT NỘI DUNG CÁC CHƯƠNG

Luận văn có 4 chương và phần mở đầu, kết luận:

 Phần mở đầu

Phần này nêu lên sự cần thiết của vấn đề phân cụm dữ liệu nói chung và nhất

là việc áp dụng vào phân tích dữ liệu trong Ngân hàng để từ đó định hướng cho việc mở rộng các dịch vụ với các dối tượng khách hàng hợp lý

 Chương một: Tổng quan

Chương này nêu lên mục tiêu, nội dung và phương pháp nghiên cứu để hoàn thành bản luận văn này

 Chương hai: Phân cụm dữ liệu

Chương này nêu lên khái niệm cơ bản về phân cụm dữ liệu, các bước cơ bản

để thực hiện một thuật toán phân cụm, các loại đặc trưng của phân cụm và các định nghĩa liên quan đến phân cụm

Chương hai có đề cập đến một số ứng dụng của việc phân cụm và một nội dung quan trọng nhất của các thuật toán phân cụm là các độ đo

 Chương ba: Một số thuật toán phân cụm dữ liệu

Chương ba giới thiệu chi tiết về một số thuật toán phân cụm hiện đang được

áp dụng phổ biến, đó là các thuật toán phân cụm tuần tự (Sequence), thuật toán phân cụm phân cấp (Hierachical), thuật toán K-trung bình (K-Means), K-trung bình mờ (Fuzzy K-Means) và thuật toán K láng giềng gần (K-Nearest Neighbour)

 Chương bốn: Xây dựng chương trình phân cụm

Trang 10

Chương bốn giới thiệu chương trình thực hiện một số thuật toán nêu tại Chương ba bao gồm phần phân tích các module thực hiện và phần chương trình thực hiện

 Chương năm: Ứng dụng phân cụm dữ liệu giao dịch ATM

Chương năm giới thiệu ứng dụng bài toán phân cụm vào việc phân tích dữ liệu giao dịch ATM của Ngân hàng, cụ thể là phát biểu bài toán, nêu phương pháp áp dụng, đặc tả dữ liệu, phân tích đánh giá kết quả đầu ra và đề xuất phương hướng phát triển của chương trình

Trang 11

CHƯƠNG 2 PHÂN CỤM DỮ LIỆU

2.1 KHÁI NIỆM PHÂN CỤM DỮ LIỆU

Phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tử trong một cụm “tương tự” với nhau và các phần tử trong các cụm khác nhau sẽ “không tương tự”

Phân cụm dữ liệu nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu trong tập dữ liệu lớn, từ đó cung cấp thông tin hữu ích cho việc ra quyết định

Hình vẽ sau mô phỏng vấn đề phân cụm:

Hình 2.1: ví dụ phân cụm

Trong hình vẽ trên, sau khi phân cụm chúng ta thu được bốn cụm trong đó các phần tử “gần nhau” hay là “tương tự” thì được xếp vào một cụm, trong khi đó các phần tử “xa nhau” hay “không tương tự” thì thuộc về các cụm khác nhau Trong phân cụm dữ liệu khái niệm (Concept Clustering), hai hoặc nhiều đối tượng cùng được xếp vào một cụm nếu chúng có chung một định nghĩa về khái niệm hoặc xấp xỉ với các khái niệm mô tả cho trước

Trong học máy, phân cụm dữ liệu được xem là vấn đề học không có giám sát

vì nó phải đi giải quyết vấn đề tìm một cấu trúc trong tập hợp các dữ liệu chưa biết trước các thông tin về lớp hay các thông tin về tập ví dụ huấn luyện

Trang 12

Trong nhiều trường hợp, khi phân lớp được xem là vấn đề học có giám sát thì phân cụm dữ liệu là một bước trong phân lớp dữ liệu, trong đó phân cụm dữ liệu sẽ khởi tạo các lớp cho phân lớp bằng các xác định các nhãn cho các nhóm dữ liệu

Một vấn đề thường gặp trong phân cụm dữ liệu là hầu hết các dữ liệu cần cho phân cụm đều có chứa nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ, vì vậy cần phải xây dựng chiến lược cho bước tiền xử lý dữ liệu nhặm khắc phục và loại bỏ nhiễu trước khi bước vào giai đoạn phân tích phân cụm

dữ liệu “Nhiễu” ở đây có thể là các đối tượng dữ liệu không chính xác, hoặc

là các đối tượng khuyết thiếu thông tin về một số thuộc tính Một trong các kỹ thuật xử lý nhiễu phổ biến là việc thay thế giá trị của các thuộc tính của đối tượng nhiễu bằng giá trị thuộc tính tương ứng của đối tượng dữ liệu gần nhất

2.2 CÁC BƯỚC CƠ BẢN ĐỂ PHÂN CỤM

- Chọn lựa đặc trưng: các đặc trưng phải được chọn lựa một cách hợp lý để

có thể mã hoá nhiều nhất thông tin liên quan đến công việc quan tâm Mục tiêu chính là phải giảm thiểu sự dư thừa thông tin giữa các đặc trưng Các đặc trưng cần được tiền xử lý trước khi dùng chúng trong các bước sau

- Chọn độ đo gần gũi: đây là một độ đo chỉ ra mức độ tương tự hay không tương tự giữa hai vectơ đặc trưng Phải đảm bảo rằng tất cả các vectơ đặc trưng góp phần như nhau trong việc tính toán độ đo gần gũi và không có đặc trưng nào át hẳn đặc trưng nào, điều này được đảm bảo bởi quá trình tiền xử

lý

- Tiêu chuẩn phân cụm: điều này phụ thuộc vào sự giải thích của chuyên gia cho thuật ngữ “dễ nhận thấy” dựa vào loại của các cụm được chuyên gia cho rằng đang ẩn giấu dưới tập dữ liệu Chẳng hạn, một cụm loại chặt của véctơ đặc trưng trong không gian n chiều có thể dễ nhận thấy theo một tiêu chuẩn, trong khi một cụm loại “dài và mỏng” lại có thể được dễ nhận thấy bởi một

Trang 13

tiêu chuẩn khác Tiêu chuẩn phân loại có thể được diễn đạt bởi hàm chi phí hay một vài loại quy tắc khác

- Thuật toán phân loại: cần lựa chọn một sơ đồ thuật toán riêng biệt nhằm làm sáng tỏ cấu trúc phân cụm của tập dữ liệu

- Công nhận kết quả: khi đã có kết quả phân loại thì ta phải kiểm tra tính đúng đắn của nó Điều này thường được thực hiện bởi việc dùng các kiểm định phù hợp

- Giải thích kết quả: trong nhiều trường hợp, chuyên gia trong lĩnh vực ứng dụng phải kết hợp kết quả phân loại với những bằng chứng thực nghiệm và phân tích để đưa ra các kết luận đúng đắn

Trong một số trường hợp, nên có cả bước phân tích khuynh hướng phân cụm, trong bước này có các kiểm định khác nhau để chỉ ra tập dữ liệu có hay không một cấu trúc phân cụm Ví dụ như tập dữ liệu của ta có thể hoàn toàn ngẫu nhiên vì vậy mọi cố gắng phân cụm đều là vô nghĩa

Các lựa chọn khác nhau của các đặc trưng, độ đo gần gũi, tiêu chuẩn phân cụm có thể dẫn tới các kết quả phân cụm khác nhau

- Rút ra các giả thuyết: Các giả thuyết này có liên quan đến tính tự nhiên của

dữ liệu phải được kiểm tra bởi việc dùng một số tập dữ liệu khác

- Kiểm định giả thuyết: Phân cụm để xét xem có tồn tại một cụm nào đó trong tập dữ liệu thoả mãn các giả thiết đã cho hay không

- Dự đoán dựa trên các cụm: Trước hết ta phải phân cụm một tập dữ liệu thành các cụm mang đặc điểm của các dạng mà nó chứa Sau đó, khi có một

Trang 14

dạng mới chưa biết xác định xem nó có khả năng thuộc về cụm nào nhất và

dự đoán được một số đặc điểm của dạng này nhờ các đặc trưng chung của cả cụm

Trong thực tế, phân cụm được áp dụng vào nhiều lĩnh vực khác nhau như:

- Tìm kiếm dữ liệu trên mạng: kết quả được phân thành các cụm tuỳ theo độ tương tự với dữ liệu cần tìm

- Marketing: trợ giúp cán bộ thị trường phát hiện được những phân đoạn thị trường để có chiến lược, sản phẩm hợp lý đối với các phân đoạn đó

- Phân loại khách hàng sử dụng các sản phẩm của Ngân hàng và các ngành tài chính, bảo hiểm

- Lập bản đồ thành phố theo nhóm các loại nhà ở, giá trị tài sản hay vị trí địa

lý

2.4 CÁC LOẠI ĐẶC TRƯNG

Có 4 loại đặc trưng đó là:

- Các đặc trưng danh nghĩa (nominal): gồm các đặc trưng mà các giá trị của

nó mã hoá các trạng thá1 Chẳng hạn cho một đặc trưng là giới tính của một người thì các giá trị có thể của nó là 1 ứng với nam và 0 ứng với nữ Rõ ràng

là bất kỳ sự so sánh về lượng nào giữ các giá trị loại này đều vô nghĩa

- Các đặc trưng thứ tự (ordinal): là các đặc trưng mà các giá trị của nó có thể được sắp một cách có ý nghĩa

Ví dụ về một đặc trưng thể hiện sự hoàn thành khoá học của một sinh viên Giả sử các giá trị có thể là 4, 3, 2, 1 tương ứng với với việc xếp loại kết quả học tập của sinh viên là: “xuất sắc”, “giỏi”, “khá”, trung bình khá”, “trung bình” Các giá trị này được sắp xếp theo một thứ tự có ý nghĩa nhưng sự so sánh giữa hai giá trị liên tiếp là không quan trọng lắm về lượng

- Các đặc trưng đo theo khoảng cách (interval-scaled) Với một đặc trưng cụ thể nếu sự khác biệt giữa hai giá trị là có ý nghĩa về mặt số lượng thì ta có đặc trưng đo theo khoảng (còn gọi là thang khoảng)

Trang 15

Ví dụ về đặc trưng nhiệt độ, nếu từ 10 – 15 độ thì được coi là rét đậm, còn nếu dưới 10 độ được coi là rét hạ1 Vì vậy mỗi khoảng nhiệt độ mang một ý nghĩa riêng

- Các đặc trưng đo theo tỷ lệ (ratio-scaled):

Cũng với ví dụ nhiệt độ ở trên ta không thể coi tỷ lệ giữa nhiệt độ Hà Nội 10

độ với nhiệt độ Matxcơva 1 độ mang ý nghĩa Hà Nội nóng gấp 10 lần Maxcơva Trong khi đó, một người nặng 100kg được coi là nặng gấp 2 lần một người nặng 50kg, đặc trưng cân nặng là một đặc trưng đo theo tỷ lệ (thang tỷ lệ)

2.5 CÁC ĐỊNH NGHĨA PHÂN CỤM

2.5.1 Định nghĩa phân cụm

Cho X là một tập dữ liệu: X={x 1 , x 2 , , x N }

Ta định nghĩa m-phân cụm của X như một sự phân chia X thành m cụm (tập):

C1, C2, ,Cm sao cho thoả mãn 3 điều kiện:

đo phù hợp, trong khi loại cụm có hình dáng dài và mỏng lại phù hợp hơn với các loại độ đo khác (xem hình vẽ)

Trang 16

(a) (b) (c) Hình 2.2: (a) Các tập chặt

(b) Các tập dài và mỏng (c) Các tập dạng cầu và elipxôit Với định nghĩa trên mỗi véctơ chỉ thuộc về một cụm riêng nên loại phân cụm này đôi khi còn được gọi là chặt (hard) hay rõ (crisp)

2.5.2 Định nghĩa phân cụm mờ

Dựa vào khái niệm tập mờ ta có thể định nghĩa như sau:

Một sự phân cụm mờ X thành m cụm được mô tả bởi m hàm thuộc Uj sao cho:

X={x 1 , x 2 , , x N }

Uj : X  [0,1] j = 1, , m (2.2)

và:

1 ) ( 1

1

) ( < N-1 j = 1,2, m (2.3) Mỗi cụm trong trường hợp này có thể không được định nghĩa chính xác Nghĩa là mỗi véctơ x thuộc về nhiều hơn một cụm, với mỗi cụm nó lại thuộc

về với độ thuộc uj:

- Khi uj gần 1: mức độ thuộc của x vào cụm thứ j cao

- Khi uj gần 0: mức độ thuộc của x vào cụm thứ j thấp

Nếu một hàm thuộc có giá trị gần 1 với hai véctơ thì hai véctơ này được coi là tương tự nhau

Trang 17

Điều kiện (2.3) đảm bảo rằng không tồn tại một cụm mà không chứa bất kỳ véctơ nào

Định nghĩa 2.5.1 là trường hợp riêng của định nghĩa 3.5.2 khi hàm thuộc chỉ nhận giá trị 0 và 1, lúc này nó được gọi là hàm đặc trưng

2.6 CÁC ĐỘ ĐO

Ta xét định nghĩa liên quan đến độ đo giữa các véctơ, sau đó mở rộng cho trường hợp độ đo giữa các tập véctơ

2.6.1 Độ đo không tương tự

Một độ đo không tương tự d trên X là một hàm: d : X x X  R

trong đó R là tập số thực sao cho:

Một độ đo tương tự s trên X là một hàm: s : X x X  R

trong đó R là tập số thực sao cho:

s0 R: - < s(x,y)  so < +, x,yX (2.9) s(x,x) = s0, xX (2.10)

Trang 18

2.6.3 Độ đo gần gũi giữa các tập con của X

Cho U là một lớp các tập con của X,

Nghĩa là các Di X, i=1, ,k và U= {D1, D2, , Dk}

Một độ đo gần gũi giữa  trên U là một hàm: : U x U  R

Các công thức (2.4) – (2.8) cho độ đo không tương tự và (2.9)-(2.13) cho độ

đo tương tự được lặp lại với việc thay thế x, y và X lần lượt bởi Di, Dj và U Thông thường, các độ đo gần gũi giữa hai tập Di, Dj được định nghĩa thông qua độ đo gần gũi các phần tử của chúng

i

ss

y x d D

Với d2 là khoảng cách Euclid giữa hai véctơ

Giá trị nhỏ nhất có thể của ss

dm in là 0

Vì khoảng cách Euclid giữa một véctơ với bản thân nó bằng 0 nên:

0 ) , (

m inss i i 

D D d

và dminss ( Di, Dj)  dminss ( Dj, Di )

Trang 19

Vì vậy hàm này là một độ đo không tương tự nhưng nó không phải là một độ

đo không tương tự metric vì không thoả mãn (2.7) Thật vậy, xét các véctơ Di,

Dj có phần tử chung, chẳng hạn: {x1,x 2 } và {x1,x 4 } thì:

  1, 2  ,  1, 4   0

dss

Trong khi chúng là 2 tập khác nhau

Một cách trực giác thì các định nghĩa trên cho thấy các DM là ngược với các

SM

Chẳng hạn, nếu d là một DM (metric) với d(x,y)>0, x,yX thì s = a/d với a>0 là một SM (metric): s = d max + k – d cũng là một SM (metric), với dmax là

khoảng cách lớn nhất trong mọi cặp phần tử của X

Các nhận xét tương tự cũng đúng với độ đo tương tự và không tương tự giữa các tập véctơ

Trong phần tiếp theo, ta ký hiệu bmax, bmin lần lượt là các giá trị max và min của tập dữ liệu X

2.6.4 Các độ đo gần gũi giữa hai điểm

2.6.4.1 Các vectơ thực

 Các độ đo không tương tự:

Các độ đo không tương tự phổ biến nhất trong thực hành là:

+ Các DM metric có trọng số l p:

p i

p i i i

d

/ 1 1

1

) ,

Nếu wi = 1, i = 1, ,l ta có các DM metric không trọng số

Nếu p = 2 ta có khoảng cách Euclid

Các DM metric có trọng số l 2 được tổng quát hoá như sau:

Trang 20

) , ( ) (

) ,

Với B là ma trận đối xứng xác định dương Nó bao gồm cả khoảng cách Mahalanobis là một trường hợp đặc biệt và khoảng cách Mahalanobis cũng là một DM metric

Các DM metric có trọng số l p đặc biệt cũng xuất hiện trong thực hành là

i

i i

i x y y

x

Và chuẩn l (có trọng số):

i i i l

i W x y y

, (

Dựa vào các DM trên ta có thể định nghĩa các SM tương ứng là:

sp(x,y) = bmax- dp(x,y) Các DM khác là:

a b

y x l y

x d

1 10

11log)

,

trong đó: bj và aj là các giá trị lớn nhất và nhỏ nhất của đặc trưng thứ j

Dễ dàng thấy đây là một DM metric và nó không chỉ dựa trên x và y mà còn dựa vào toàn bộ tập X Vì thế nếu dG(x,y) là khoảng cách giữa hai vectơ x, y

và d‟G(x,y) là khoảng cách giữa hai vectơ trên nhưng là khi chúng thuộc X* thì nói chung:

dG(x,y)  d‟G(x,y) Một độ đo không tương tự nữa là:

Trang 21

y x

y x l

y x d

1

2

1 ) ,

Trong phần lớn trường hợp, tích nội được dùng khi các véctơ được chuẩn hoá sao cho chúng có cùng độ dài a Vì vậy, cận trên và cận dưới của tích nội là +a2

và -a2, và nó chỉ phụ thuộc vào góc giữa x và y Một độ đo không tương tự tương ứng với tích nội là:

Dinner(x,y) = bmax- sinner(x,y) + Độ đo Tanimoto:

Được dùng cho cả các véctơ có giá trị thực cũng như rời rạc:

y x y

x

y x y

x s

t

t t





),

Sau khi biến đổi:

y x

y x y x

y x y

x s

t t

)(

1

),(

x s

t

21

1)

,(







(2.21)

Trang 22

Trong trường hợp này, độ đo Tanimoto tỷ lệ nghich với a2

/xty Vì thế nếu coi tích nội giữa hai véctơ biểu thị mức độ liên quan giữa chúng thì nếu hai véctơ càng liên quan đến nhau, độ đo Tanimoto giữa chúng càng lớn

+ Một độ đo khác cũng hay được dùng được định nghĩa là:

y x

y x d y

F = {0, 1, , k-1} với k là một số nguyên dương

Ta sẽ có k-1 véctơ x  F-1 Chúng nằm trên các đỉnh một lưới l-chiều (hình

Là ma trận k x k Các phần tử a ij là số vị trí mà véctơ đầu tiên có ký hiệu là i

và phần tử tương ứng của véctơ thứ hai có ký hiệu là j trong đó: i, j  F Ma

trận này được gọi là bảng ngẫu nhiên Hầu hết các độ đo gần gũi giữa hai

Trang 23

véctơ có giá trị rời rạc có thể biểu diễn qua sự kết hợp các phần tử của ma trận

A(x,y)

 Các độ đo không tương tự:

+ Khoảng cách Hamming: là số vị trí hai véctơ khác nhau

Sử dụng ma trận A, ta có thể định nghĩa khoảng cách Hamming như sau:

(2.23)

Nghĩa là ta chỉ ra việc tính tổng các vị trí không phải đường chéo của A Khi k = 2, véctơ x F l là một véctơ nhị phân và khoảng cách Hamming trở thành:

i

i i i i

d

1

2 1

) (

) 2 (

) ,

d

1

5 , 0 ) ,

Độ đo tương tự tương ứng là:

) , ( )

x d

1

0

),(

k i j j ij k

i

d

Trang 24

và y trừ những cặp mà cả hai toạ độ đều bằng 0 Điều này rất dễ hiểu nếu ta coi giá trị toạ độ thứ i của x như là độ sở hữu của x đối với đặc trưng thứ i, vì vậy cặp (0,0) là kém quan trọng hơn tất cả các cặp còn lạ1

1

),

j ij k

i y x

k

i ii T

a n

n

a y

x

Các hàm tương tự khác giữa x và y được định nghĩa thông qua ma trận A Một số hàm thì quan tâm đến số vị trí mà hai véctơ giống nhau nhưng khác 0 Trong khi các hàm khác tính tất cả các vị trí của hai véctơ giống nhau

Hàm tương tự trong trường hợp đầu là:

a k

i ii

Trang 25

2.6.4.3 Các véctơ với giá trị hỗn hợp

Trong thực tế, ta cũng hay gặp các trường hợp khi không phải tất cả các đặc trưng của véctơ đặc trưng đều có cùng giá trị thực hoặc rời rạc Có 3 cách khắc phục:

- Cách 1: Dùng các độ đo gần gũi cho véctơ thực vì các véctơ rời rạc có thể được so sánh một cách chính xác theo nghĩa các độ đo gần gũi cho véctơ thực, trong khi điều ngược lại nói chung không cho kết quả hợp lý Độ đo được đề xuất tốt cho trường hợp này là khoảng cách l1

- Cách 2: Cách này chuyển các đặc trưng giá trị thực thành rời rạc Nếu một đặc trưng xi lấy giá trị trong khoảng [a,b] ta chia đoạn này thành k đoạn con Nếu giá trị xi nằm trong đoạn con thứ r thì xi = r-1 Kết quả là ta có véc tơ rời rạc và có thể dùng bất kỳ độ đo rời rạc nào đã nói ở trên

- Cách 3: Cho x, y là hai véctơ l-chiều có giá trị hỗn hợp Khi đó hàm tương

tự giữa hai véctơ được định nghĩa là:

w

y x s y

x s

1

),()

,(

Trang 26

- Trường hợp x, y là nhị phân:

s q (x,y) = 1 nếu x q = y q = 1

- Ngược lại: s q (x,y) = 0 (2.29)

- Trường hợp x, y có giá trị danh nghĩa hoặc thứ tự:

s q (x,y) = 1 nếu x q và y q có cùng giá trị Ngược lại: s q (x,y) = 0

- Trường hợp x, y có giá trị đo theo khoảng hoặc theo tỷ lệ:

q

q q

q

r

y

x y

x



 1 ) ,

rq là độ dài của khoảng chứa giá trị các đặc trưng thứ q

2.6.4.4 Các độ đo mờ

Trong phần này chúng ta xét các véctơ thực x, y mà những đặc trưng của nó

có giá trị nằm trong đoạn [0,1]

+ xi càng gần 1 thì càng chắc chắn để khẳng định xi là đặc trưng của x + xi càng gần 0 thì càng chắc chắn để khẳng định xi là không đặc trưng của

x

+ xi càng gần 0,5 thì không thể khẳng định xi là đặc trưng của x hay không Đây là sự tổng quát của logic nhị phân Nhưng logic nhị phân có sự tuyệt đối chắc chắn về sự xuất hiện của một sự kiện còn trong logic mờ thì không, độ chắc chắn thể hiện trong giá trị của x1.

Sự tương đương giữa hai biến nhị phân:

(a  b) = ((NOT a) AND (NOT b)) OR (a AND b) (2.31) Toán tử (OR) giữa hai biến nhị phân có thể được xem như toán tử min (max) trên chúng

Toán tử NOT được xem như 1- a

Ta có độ tương tự giữa hai biến có giá trị thực trong đoạn [0,1] là:

s(xi,yi) = max (min (1 - xi, 1 - yi), min (xi, yi)) (2.32)

Trang 27

Vì vậy ta có thể định nghĩa độ tương tự (mờ) giữa hai véctơ x, y trong không gian l-chiều là:

q l

i

q i i

q

s

/ 1

1

),()

+ Giá trị max và min của sF là l1/q và 0,5 l1/q

- Với đặc trưng thứ i, tìm giá trị trung bình dựa trên giá trị tương ứng của tất

cả các véctơ đặc trưng của X Sau đó thay thế giá trị này cho các giá trị không xác định

- Với mọi cặp đặc trưng xi,yi của véctơ đặc trưng x, y ta định nghĩa bi như sau:

+ bi = 0 nếu tất cả xi,yi đều có sẵn

+ Ngược lại bi = 1

Và độ đo gần gũi giữa x và y là:

),(1

),(

0 , 1

i i l

b i l

i i

y x b

l y

Trang 28

- Tìm các độ đo gần gũi trung bình, avg(i ), giữa tất cả các véctơ đặc trƣng

trong X theo tất cả các thành phần 1 Với các véctơ không có đặc trƣng thứ

i thì bỏ qua véctơ này khi tính avg(i )

)()

,(

i i

avg i

i

y x

i y

i

y x y



2.6.5 Các hàm gần gũi giữa một điểm và một tập

Trong nhiều sơ đồ phân cụm, một véctơ s đƣợc gán vào một cụm C bởi việc tính tộ đo gần gũi giữa x và C, (x, C)

Có hai cách định nghĩa (x, C)

- Cách 1: Tất cả các điểm của C góp phần vào (x, C) đó là:

+ Hàm gần gũi max:

) , ( max )

, (

C y

,(

C y

1 ) ,

n C x

C y C

- Cách 2: C có một đại diện và độ đo gần gũi x và C là độ đo gần gũi giữa x

và đại diện của C

Có 3 loại đại diện đƣợc dùng phổ biến là :

+ Đại diện điểm: thích hợp cho các cụm chặt (hình 2.4 a)

Nếu ngược lại

Trang 29

+ Đại diện siêu phẳng: thích hợp cho các cụm có dạng đường thẳng hay tuyến tính (hình 2.4b)

+ Đại diện siêu cầu: thích hợp cho các cụm có dạng cầu (hình 2.4c)

Hình 2.4: Các loại cụm và đại diện của nó

a Các đại diện điểm:

+ Véctơ trung bình (điểm trung bình):

y n

m

C y C

+ Tâm trung bình mCC được định nghĩa là:

med(d( mmed, y) yC)  med (d(z,y) yC) z C (2.39) Thường được dùng khi độ đo gần gũi giữa hai điểm không là một metric

Trong đó, T là tập q giá trị vô hướng và med(T) là số nhỏ nhất trong

T sao cho med(T)  số thứ [(q+1)/2] của T Một cách để xác định med(T) là xếp các phần tử của T tăng dần và chọn lấy phần tử thứ [(q+1)/2]

b Các đại diện siêu phẳng:

Phương trình tổng quát của một siêu phẳng H là:

0 0 0

l j

Trong đó, a và x là các véctơ 1 chiều

Trang 30

Khoảng cách từ một điểm x tới siêu phẳng H là:

) , ( min ) ,

c Các đại diện siêu cầu:

Phương trình tổng quát của một siêu cầu Q là:

(x – c)T (x - c) = r2 (2.43) Trong đó, c và r lần lượt là tâm và bán kính của siêu cầu

Khoảng cách từ một điểm tới siêu cầu là:

) , ( min ) ,

Nếu  là một độ đo không tương tự thì hàm gần gũi max không là một độ đo

vì nó không thoả (2.45) Ngược lại, nếu  là độ đo tương tự thì hàm gần gũi max là một độ đo nhưng không là metric

- Hàm gần gũi min:

) , ( min )

,

(

, min D D x y

j

i y D D x j i

Nếu  là một độ đo không tương tự thì hàm gần gũi min không là một độ đo

vì nó không thoả (2.46) Ngược lại, nếu  là độ đo tương tự thì hàm gần gũi min là một độ đo nhưng không là metric

- Hàm gần gũi trung bình:

),(

1)

,

n n D D

i j j

i D x D y D D

j i

Trang 31

- Hàm gần gũi giữa các giá trị đại diện:

) ,

( )

,

(

j

i D D j

i

ss mean D D  m m

Hàm này là một độ đo khi  là một độ đo

- Hàm khác:

) , ( )

, (

j i j

i

j i

D D D

D

D D j

i

ss

n n

n

n D

- Cách duy nhất để đạt đƣợc sự phân cụm một cách hợp lý tập dữ liệu là bằng cách thử – sai cùng với ý kiến của các chuyên gia trong lĩnh vực ứng dụng

Trang 32

- Chất lượng của phương pháp phân cụm được đánh giá bởi khả năng khám phá một số hoặc tất cả các thuộc tính ẩn

b Yêu cầu của phân cụm trong khai phá dữ liệu

- Có tính mềm dẻo

- Có thể thực hiện bởi nhiều loại thuộc tính dữ liệu khác nhau

- Có thể phân cụm với các hình dạng cũng như cách thức sắp đặt khác nhau

- Yêu cầu tối thiểu đối với phạm vi tri thức đầu vào cũng như các tham số

- Có thể xử lý nhiễu cũng như xử lý vùng biên

- Không phản ứng với thứ tự dữ liệu đầu vào

- Có thể xử lý với dữ liệu đa chiều

- Có thể hợp nhất các ràng buộc của người sử dụng

- Dễ hiểu và dễ sử dụng

Trang 33

CHƯƠNG 3 MỘT SỐ THUẬT TOÁN PHÂN CỤM

3.1 GIỚI THIỆU VỀ CÁC THUẬT TOÁN PHÂN CỤM

3.1.1 Số các phân cụm

Với một thời gian và tài nguyên cho trước, cách tốt nhất để phân cụm là tìm

ra tất cả các cách có thể và lựa chọn cách dễ nhận thấy nhất theo tiêu chuẩn phân cụm đã chọn trước

Ký hiệu S(N,m) là số cách phân cụm N véctơ về m cụm, ta có các tính chất sau [4]:

L hoặc hình thành nên cụm mớ1 Vì vậy ta có thể viết:

1) - m 1, - S(N m) 1, - S(N

* m m)

i i

m

) 1 (

!

1 m)

Trang 34

3.1.2 Phân loại các thuật toán phân cụm

Các thuật toán phân cụm có thể được xem như các sơ đồ cung cấp cho ta các cụm “dễ nhận thấy” bởi việc chỉ xem xét một phần nhỏ của tập chứa tất cả các cách phân cụm của X Kết quả phụ thuộc vào thuật toán và tiêu chuẩn phân cụm cụ thể được dùng Như vậy, một thuật toán phân cụm là một chức năng học cố gằng tìm ra các đặc trưng riêng biệt của các cụm ẩn giấu dưới tập dữ

liệu Ta có thể phân loại như sau [3]:

3.1.2.1 Các thuật toán tuần tự (Sequential Algorithms)

Các thuật toán này sinh ra một cách phân cụm duy nhất, chúng là các phương pháp trực tiếp và nhanh Trong hầu hết các thuật toán thuộc loại này, tất cả

các vectơ đặc trưng tham gia trong thuật toán một hoặc vài lần (không hơn 6 lần) Kết quả cuối cùng thường phụ thuộc vào thứ tự các véctơ tham gia thuật

toán Những sơ đồ loại này có khuynh hướng sinh ra các cụm có hình dạng chặt và siêu cầu hoặc siêu elipxoit tuỳ theo độ đo được sử dụng

3.1.2.2 Các thuật toán phân cụm phân cấp (Hierachical Aalgorithms)

- Các thuật toán tích tụ (Agglomerative)

Chúng sinh ra một dãy các cách phân cụm mà số cụm m giảm dần ở mỗi bước Cách phân cụm ở mỗi bước là kết quả của cách phân cụm ở bước trước

đó bằng việc trộn 2 cụm làm một Các đại diện chính của loại này là thuật toán liên kết đơn (phù hợp với cụm dài và mỏng) và thuật toán liên kết đầy đủ (phù hợp với các cụm chặt)

- Các thuật toán chia rẽ (Deviside)

Sinh ra một dãy các phân cụm mà số cụm m tăng dần ở mỗi bước Cách phân cụm ở mỗi bước là kết quả cách phân cụm ở bước trước đó bằng việc chia đôi một cụm đơn

3.1.2.3 Các thuật toán phân cụm dựa trên việc tối ưu hoá hàm chi phí

Hàm chi phí J đo độ dễ nhận thấy của các cách phân cụm Thường thì số các cụm m là cố định Thuật toán sẽ dùng các khái niệm về phép tính vi phân và

Trang 35

sinh ra các cách phân cụm liên tiếp trong khi cố gắng tối ưu hoá J Thuật toán

sẽ dừng khi một tối ưu địa phương được xác định Các thuật toán này cũng được gọi là các sơ đồ tối ưu hoá hàm lặp Chúng được phân loại tiếp như sau:

- Các thuật toán phân cụm chặt hay rõ

Véctơ thuộc hoàn toàn vào một cụm cụ thể, việc đưa một véctơ về các cụm cụ thể được thực hiện một cách tối ưu theo tiêu chuẩn phân cụm tối ưu

- Các thuật toán phân cụm theo hàm xác suất

Dựa vào lý thuyết phân lớp Bayes và mỗi véctơ được phân về cụm thứ i nếu P(Ci | x) là lớn nhất (xác suất để x được phân đúng vào cụm C i )

- Các thuật toán phân cụm mờ

Các véctơ thuộc về một cụm nào đó với một độ chắc chắn nào đó

- Các thuật toán phân cụm theo khả năng

Trong trường hợp này ta đo khả năng một véctơ đặc trưng thuộc về một cụm nào đó

- Các thuật toán phát hiện biên phân tách

Các thuật toán này cố gắng đặt các biên phân tách một cách tối ưu giữa các cụm

Sau đây chúng ta sẽ đi vào một số thuật toán phân cụm cụ thể, đó là Thuật toán phân cụm tuần tự (Sequential), thuật toán phân cụm K-trung bình (K-means), K-trung bình mờ (Fuzzy K-means), K-láng giềng gần (K-Nearest Neighbor), Phân cụm phân cấp (Hierachical)

3.2 THUẬT TOÁN PHÂN CỤM TUẦN TỰ

3.2.1 Thuật toán phân cụm tuần tự

Giả sử tất cả các véctơ chỉ được tham gia một lần trong thuật toán và số lượng cụm là không biết trước

Gọi d(x,C) là khoảng cách từ một véctơ đặc trưng x tới một cụm C Điều này

có thể được định nghĩa bằng cách đưa vào tính toán tất cả các véctơ thuộc C hoặc một Véctơ đại diện cho nó

Trang 36

Các tham số cần thiết do người dùng định nghĩa cho thuật toán này đó là ngưỡng không tương tự  và số lượng tối đa các cụm cho phép là q

Ý tưởng cơ bản của thuật toán như sau:

Đối với mỗi Vectơ mới, nó sẽ được gắn vào các cụm có sẵn hoặc tạo một cụm mới tuỳ thuộc vào khoảng cách của nó tới các cụm có sẵn

Gọi m là số cụm mà thuật toán đã tạo lập cho đến thời điểm hiện tại, khi đó thuật toán được khởi tạo như sau:

old Ck

new k new

n

x m

Trang 37

Trong đó nCknew là nhân tố chủ yếu của C sau khi gán thêm x vào cho nó và

new

Ck

m (moldCk ) là đại diện của Ck sau (trước) khi cập nhật x vào

Các thuật toán mà mỗi cụm được đại diện bởi một Véctơ được gọi là dựa trên tiêu chuẩn phân cụm toàn cục còn thuật toán mà tất cả các Véctơ đều được sử dụng sẽ được gọi là tiêu chuẩn phân cụm địa phương

Không khó để nhận ra rằng thứ tự mà các Véctơ được bố trí trong thuật toán BSAS đóng vai trò quan trọng đối với kết quả phân cụm Những thứ tự sắp xếp khác nhau có thể dẫn tới những kết quả phân cụm hoàn toàn khác nhau, trong giới hạn số lượng các phân cụm tốt như chính bản thân những phân cụm

Một yếu tố quan trọng nữa ảnh hưởng tới kết quả của thuật toán phân cụm đó

là cách chọn ngưỡng  Giá trị này ảnh hưởng trực tiếp tới số lượng các cụm được thiết lập bởi BSAS Nếu  quá bé, những cụm không cần thiết sẽ được tạo lập Mặt khác, nếu  quá lớn thì số lượng cụm tạo lập sẽ nhỏ hơn số cụm cần thiết Trong cả hai trường hợp, số lượng các cụm phù hợp nhất đối với tập

dữ liệu sẽ bị bỏ qua

Nếu số q của lượng tối đa cho phép các cụm không bị ràng buộc, chúng ta để tuỳ cho thuật toán lựa chọn số lượng cụm phù hợp nhất

Xét ví dụ tại hình 1, nơi ba khối và các cụm tách biệt được tạo thành từ điểm

X Nếu số lượng tối đa các cụm được thiết đặt là 2, khi đó BSAS sẽ không thể phân thành ba cụm Khả năng là thuật toán sẽ nhóm hai nhóm phía bên phải thành một cụm

Trang 38

Hình 3.1: ba cụm được tạo thành từ các Véctơ đặc trưng Khi q bị ràng buộc bởi giá trị nhỏ hơn 3, thuật toán BSAS sẽ không phát hiện được chúng

Mặt khác, nếu q không bị ràng buộc bởi thuật toán BSAS thì khi đó sẽ tạo

thành ba cụm (với một sự lựa chọn  phù hợp), ít nhất đối với trường hợp

Véctơ trung bình được sử dụng như một đại diện Tuy nhiên, ràng buộc q trở nên cần thiết khi xử lý với sự thi hành nơi mà nguồn lực tính toán sẵn có là hạn chế

Trong phần tiếp theo, một kỹ thuật đơn giản được đề xuất để xác định số lượng các phân cụm

3.2.2 Ước lượng số lượng các phân cụm

Trong phần này, một phương pháp đơn giản được mô tả để xác định số lượng các phân cụm Phương pháp này phù hợp với BSAS như các thuật toán khác, đối với nó, số lượng cụm không cần đưa như một tham số đầu vào

Trong phần tiếp theo, BSAS() có nghĩa là thuật toán BSAS với ngưỡng không tương tự được xác định là 

Trang 39

Giá trị a và b là các mức khác biệt nhỏ nhất và lớn nhất trong số tất cả các cặp Vectơ trong X, đó là, a = mini,j=1…N d(xi,xj) và b = maxi,j=1…N d(xi,xj)

Lựa chọn của c trực tiếp và bị tác động của d(x,C) Như những giá trị s liên quan, một giá trị s lớn hơn, một tập ví dụ thống kê lớn hơn và vì thế, sẽ cho một kết quả đúng đắn hơn

Phần tiếp theo, chúng ta sẽ phác họa số lượng cụm m đối với  Phác hoạ này gồm một số miền phẳng Điều đó cho hy vọng rằng ít nhất trong trường hợp

mà các véctơ được phân thành các cụm riêng rẽ tốt thì đó chính là số lượng cụm mong muốn Chúng ta sẽ giải thích điều này một cách trực giác

Giả sử rằng dữ liệu tạo thành hai tập và tách biệt tốt là C1 và C2 Khoảng cách

bé nhất giữa hai Véctơ trong C1(C2) là r1 (r2) và giả sử rằng r1 < r2 Ta cũng cho rằng r (>r2) là giá trị nhỏ nhất trong số tất cả các khoảng cách d(xi,xj), trong đó xi  C1 và xj  C2 Điều rõ ràng là đối với   [r2, r - r2], số lượng các cụm tạo bởi BSAS là 2 Thêm vào đó, nếu r >> r2, với đầu vào trong phạm vi lớn và vì vậy, nó phù hợp với một miền phẳng lớn trong phác hoạ của mT đối với  Ví dụ 2 sẽ minh hoạ rõ thêm ý này

Ví dụ 2: xem xét hai phân bố Gauxơ hai chiều với giá trị nằm trong [0,0]T

và [20,20]T một cách độc lập Ma trận hiệp phương sai là  = 0.5I cho cả hai phân bổ với I là ma trận nhận dạng 2 x 2 Tạo 50 điểm cho mỗi phân bố, số

lượng cụm cơ sở là 2 Biểu đồ kết quả từ ứng dụng mô tả phía trên được biểu thị ở hình 3.2b với a = mini,j=1…N d(xi,xj), b = maxi,j=1…N d(xi,xj) và c  0,3 Nó

có thể được nhìn thấy miền phẳng lớn nhất phù hợp với số 2, đó là số lượng cụm cơ sở

Trong thủ tục đã đề cập, chúng ta ngầm giả định rằng các Vectơ đặc trưng lập nên các cụm Nếu không xảy ra trường hợp này, phương pháp sẽ vô ích

Thêm vào đó, nếu các Vectơ tạo thành các cụm liên kết chặt chẽ mà không phân chia rõ ràng, thủ tục có thể cho kết quả không đáng tin cậy, từ đó sẽ

Trang 40

không chắc chắn cho đồ thị của m đối với  để chứa đựng những vùng phẳng rộng

Hình 3.2: (a) tập dữ liệu; (b) phác hoạ của số lượng các cụm đối với  Nó có thể nhìn thấy đối với một vùng rộng của các giá trị của , số lượng các cụm,

m = 2

Trong một số trường hợp, nó có thể thích hợp để xem xét tất cả các số lượng cụm, m mà phù hợp với mọi miền phẳng của kích cỡ lớn trong mô tả m đối với  Nếu, chẳng hạn chúng ta có 3 cụm và hai cụm đầu tiên nằm gần nhau

và cách xa cụm thứ 3, miền phẳng nhất có thể xuất hiện đối với m = 2 và miền phẳng thứ hai đối với m = 3 Nếu chúng ta loại bỏ miền phẳng nhất thứ

2, chúng ta có thể bị mất giải pháp phân thành 3 cụm

3.2.3 Một thuật toán BSAS cải tiến

Như đã phát biểu trước, ý tưởng chính sau thuật toán BSAS đó là mỗi Véctơ đầu vào x được gán vào một cụm đã tạo lập từ trước hoặc một cụm mới được tạo lập Tuy nhiên, một quyết định đối với Vectơ x được với lấy trước khi cụm cuối cùng được tạo lập, nó được xác định sau khi tất cả các Vectơ đã được biểu thị Quá trình tinh chế của thuật toán BSAS sau đây được gọi là MBSAS, khắc phục những trở ngại đó Cái giá để thực hiện thuật toán này đó

là mỗi véctơ thuộc X đều được biểu thị hai lần trong thuật toán Lược đồ thuật toán bao gồm hai giai đoạn: giai đoạn thứ nhất liên quan đến việc xác định

Định dạng
Số trang	106
Dung lượng	1,73 MB