Nhom1 64cs1 khaiphadulieu

Chương II: Bài toán phân cụm dựa trên mật độ Trong phần này, kỹ thuật phân cụm dựa trên mật độ được giới thiệu một cách chi tiết.. Các bài toán học không giám sát Các bài toán Unsupervis

Trang 1

TRƯỜNG ĐẠI HỌC XÂY DỰNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN

-o0o -Bài Tập Lớn: Khai Phá Dữ Liệu

Phân cụm dựa trên mật độ

Giảng viên hướng dẫn: Phạm Hồng Phong

Sinh viên thực hiện: Lớp 64CS1- Nhóm 1

Trang 2

Hà Nội, ngày 01/12/2022

Trang 3

2 OPTICS: Ordering Points to Identify the Clustering Structure 9

3 DENCLUE: Clustering Based on Density Distribution Functions 11

1

Trang 5

Mở đầu

Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thông tin trongnhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm qua cũng đồng nghĩa vớilượng dữ liệu đã được các cơ quan thu thập và lưu trữ ngày một tích luỹ nhiều lên

Họ lưu trữ các dữ liệu này vì cho rằng trong nó ẩn chứa những giá trị nhất định nào

đó Tuy nhiên, theo thống kê thì chỉ có một lượng nhỏ của những dữ liệu này (khoảng

từ 5% đến 10%) là luôn được phân tích, số còn lại họ không biết sẽ phải làm gì hoặc

có thể làm gì với chúng nhưng họ vẫn tiếp tục thu thập rất tốn kém với ý nghĩ lo sợrằng sẽ có cái gì đó quan trọng đã bị bỏ qua sau này có lúc cần đến nó Mặt khác,trong môi trường cạnh tranh, người ta ngày càng cần có nhiều thông tin với tốc độnhanh để trợ giúp việc ra quyết định và ngày càng có nhiều câu hỏi mang tính chấtđịnh tính cần phải trả lời dựa trên một khối lượng dữ liệu khổng lồ đã có Với những

lý do như vậy, các phương pháp quản trị và khai thác cơ sở dữ liệu truyền thống ngàycàng không đáp ứng được thực tế đã làm phát triển một khuynh hướng kỹ thuật mới

đó là Kỹ thuật phát hiện tri thức và khai phá dữ liệu (KDD - Knowledge Discoveryand Data Mining)

Kỹ thuật phát hiện tri thức và khai phá dữ liệu đã và đang được nghiên cứu, ứng dụngtrong nhiều lĩnh vực khác nhau ở các nước trên thế giới, tại Việt Nam kỹ thuật nàytương đối còn mới mẻ tuy nhiên cũng đang được nghiên cứu và dần đưa vào ứngdụng Bước quan trọng nhất của quá trình này là Khai phá dữ liệu (Data Mining -DM), giúp người sử dụng thu được những tri thức hữu ích từ những CSDL hoặc cácnguồn dữ liệu khổng lồ khác Rất nhiều doanh nghiệp và tổ chức trên thế giới đã ứngdụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh của mình và đã thuđược những lợi ích to lớn Nhưng để làm được điều đó, sự phát triển của các mô hìnhtoán học và các giải thuật hiệu quả là chìa khoá quan trọng Vì vậy, trong báo cáonày, chúng tôi sẽ đề cập tới kỹ huật thường dùng trong Khai phá dữ liệu, đó là Phâncụm (Clustering hay Cluster Analyse)

Bố cục báo cáo

Ngoài các phần Mở đầu, Mục lục, Danh mục hình, Danh mục bảng, Kết luận, Tài liệutham khảo, báo cáo được chia làm 3 phần:

Chương I: Tổng quan về bài toán phân cụm

khai phá dữ liệu nói riêng Đặc biệt nhấn mạnh về kỹ thuật chính được nghiên cứutrong báo cáo đó là Kỹ thuật phân cụm và độ đo, cách đánh giá của bài toán

Chương II: Bài toán phân cụm dựa trên mật độ

Trong phần này, kỹ thuật phân cụm dựa trên mật độ được giới thiệu một cách chi tiết

Có nhiều thuật toán phân cụm dựa trên mật độ như DBSCAN, OPTICS, DENCLUE.Ngoài ra còn so sánh sự giống và khách nhau giữa các thuật toán

Chương III: Thực nghiệm và đánh giá

Phần này trình bày một số kết quả đã đạt được khi tiến hành áp dụng các giải thuậtkhai phá dữ liệu để khai thác thông tin dữ liệu mẫu

1

Trang 6

CHƯƠNG I: TỔNG QUAN VỀ BÀI TOÁN PHÂN CỤM

Tổng quan

Học máy (Machine Learning) là một ngành khoa học nghiên cứu các thuật toán cho phépmáy tính có thể học được các khái niệm (concept)

Phân loại: Có hai loại phương pháp học máy chính

- Phương pháp quy nạp: Máy học/phân biệt các khái niệm dựa trên dữ liệu đã thuthập được trước đó Phương pháp này cho phép tận dụng được nguồn dữ liệu rấtnhiều và sẵn có

- Phương pháp suy diễn: Máy học/phân biệt các khái niệm dựa vào các luật.Phương pháp này cho phép tận dụng được các kiến thức chuyên ngành để hỗ trợmáy tính

Hiện nay, các thuật toán đều cố gắng tận dụng được ưu điểm của hai phương pháp này.Các ngành khoa học liên quan:

- Lý thuyết thống kê: các kết quả trong xác suất thống kê là tiền đề cho rất nhiềuphương pháp học máy Đặc biệt, lý thuyết thống kê cho phép ước lượng sai số của cácphương pháp học máy

- Các phương pháp tính: các thuật toán học máy thường sử dụng các tính toán sốthực/số nguyên trên dữ liệu rất lớn Trong đó, các bài toán như: tối ưu có/không ràngbuộc, giải phương trình tuyến tính v.v… được sử dụng rất phổ biến

- Khoa học máy tính: là cơ sở để thiết kế các thuật toán, đồng thời đánh giá thời gianchạy, bộ nhớ của các thuật toán học máy

Các nhóm giải thuật học máy:

a Học có giám sát

Các nhà khoa học dữ liệu cung cấp cho thuật toán dữ liệu đào tạo được gắn nhãn và xác định

để đánh giá mối tương quan Dữ liệu mẫu chỉ định cả đầu vào và kết quả của thuật toán Vídụ: Hình ảnh những chữ số viết tay được chú thích để chỉ ra số tương ứng với hình ảnh đó.Một hệ thống học có giám sát có thể nhận ra các cụm điểm ảnh và hình dạng liên quan tớimỗi số, nếu được cung cấp đủ ví dụ Cuối cùng, hệ thống sẽ nhận ra các chữ số viết tay, cóthể phân biệt giữa số 9 và 4 hoặc 6 và 8 một cách đáng tin cậy

Ưu điểm của học có giám sát là tính đơn giản và thiết kế dễ dàng Cách học này rất hữu íchkhi dự đoán một số lượng kết quả có giới hạn, phân loại dữ liệu hoặc kết hợp các kết quả thuđược từ 2 thuật toán máy học khác Tuy nhiên, việc gắn nhãn hàng triệu tập dữ liệu không cónhãn lại là thách thức

b Học không có giám sát

Thuật toán học không có giám sát được đào tạo dựa trên dữ liệu không gắn nhãn Các thuậttoán này quét dữ liệu mới, cố gắng thiết lập kết nối có ý nghĩa giữa dữ liệu đầu vào và kếtquả định sẵn Chúng có thể phát hiện khuôn mẫu và phân loại dữ liệu Ví dụ: thuật toánkhông có giám sát có thể nhóm các bài viết từ nhiều trang tin tức khác nhau theo các mụcphổ biến như thể thao, hình sự, v.v Chúng có thể dùng phương thức xử lý ngôn ngữ tự nhiên

để thấu hiểu ý nghĩa và cảm xúc trong bài viết

Trang 7

Học không có giám sát rất hữu ích trong việc phát hiện khuôn mẫu và sự bất thường, cũngnhư tự động nhóm dữ liệu theo các hạng mục Vì dữ liệu đào tạo không cần gắn nhãn nênviệc thiết lập học không giám sát rất dễ dàng Các thuật toán này cũng có thể được sử dụng

để làm sạch và xử lý dữ liệu nhằm tự động dựng mô hình chuyên sâu hơn Giới hạn củaphương pháp này là thuật toán không thể đưa ra dự đoán chính xác Thêm vào đó, phươngpháp này không thể tự tách biệt một số loại kết quả dữ liệu cụ thể

c Học bán giám sát

Đúng như tên gọi của mình, phương pháp này kết hợp cả học có giám sát lẫn không có giámsát Kỹ thuật này dựa vào một lượng nhỏ dữ liệu được gắn nhãn và một lượng lớn dữ liệukhông gắn nhãn để đào tạo các hệ thống Đầu tiên, dữ liệu được gắn nhãn được sử dụng đểđào tạo một phần thuật toán máy học Sau đó, thuật toán đã được đào tạo một phần sẽ tựmình gắn nhãn cho dữ liệu chưa được gắn nhãn Quá trình này được gọi là giả gắn nhãn Môhình sau đó được đào tạo lại bằng hỗn hợp dữ liệu kết quả mà không được lập trình cụ thể

Ưu điểm của phương pháp này là bạn không cần một lượng lớn dữ liệu được gắn nhãn.Phương pháp này rất hữu ích khi làm việc với loại dữ liệu như các tài liệu dài và tốn quánhiều thời gian để có người đọc và gắn nhãn

d Học tăng cường

Học tăng cường là phương pháp có giá trị thưởng được gắn với các bước khác nhau mà thuậttoán phải trải qua Mục tiêu của mô hình là tích lũy nhiều điểm thưởng hết mức có thể vàcuối cùng sẽ đạt được mục tiêu cuối Hầu hết các ứng dụng thực tiễn của học tăng cườngtrong thập niên vừa qua nằm trong lĩnh vực trò chơi điện tử Các thuật toán học tăng cườngtiên tiến đã đạt được những kết quả ấn tượng trong các trò chơi cổ điển và hiện đại, thường

có kết quả vượt xa đối thủ con người của chúng

Mặc dù phương pháp này hoạt động tốt nhất trong môi trường dữ liệu không chắc chắn vàphức tạp, nó hiếm khi được triển khai trong bối cảnh kinh doanh Phương pháp này khônghiệu quả trong các tác vụ được xác định rõ và thiên kiến của nhà phát triển có thể ảnh hưởngtới kết quả Vì nhà khoa học dữ liệu là người thiết kế phần thưởng, họ có thể tác động tới kếtquả

Các bài toán học không giám sát

Các bài toán Unsupervised learning được tiếp tục chia nhỏ thành hai loại:

- Clustering (phân nhóm): Một bài toán phân nhóm toàn bộ dữ liệu X thành các nhómnhỏ dựa trên sự liên quan giữa các dữ liệu trong mỗi nhóm Ví dụ: phân nhóm kháchhàng dựa trên hành vi mua hàng Điều này cũng giống như việc ta đưa cho một đứatrẻ rất nhiều mảnh ghép với các hình thù và màu sắc khác nhau, ví dụ tam giác,vuông, tròn với màu xanh và đỏ, sau đó yêu cầu trẻ phân chúng thành từng nhóm.Mặc dù không cho trẻ biết mảnh nào tương ứng với hình nào hoặc màu nào, nhiềukhả năng chúng vẫn có thể phân loại các mảnh ghép theo màu hoặc hình dạng

- Association: Là bài toán khi chúng ta muốn khám phá ra một quy luật dựa trên nhiều

dữ liệu cho trước Ví dụ: những khách hàng nam mua quần áo thường có xu hướngmua thêm đồng hồ hoặc thắt lưng dựa vào đó tạo ra một hệ thống gợi ý khách hàng(Recommendation System), thúc đẩy nhu cầu mua sắm

2

Trang 8

Bài toán phân cụm

Clustering là kỹ thuật phổ biến nhất trong học tập không giám sát, nơi dữ liệu được nhóm dựatrên sự giống nhau của các điểm dữ liệu Clustering có nhiều ứng dụng trong đời thực, nơi nó

có thể được sử dụng trong nhiều tình huống khác nhau

Nguyên tắc cơ bản của phân cụm là việc gán một tập hợp các quan sát nhất định thành cácnhóm con hoặc cụm sao cho các quan sát hiện diện trong cùng một cụm có mức độ giốngnhau Đó là việc thực hiện khả năng nhận thức của con người để phân biệt các đối tượng dựatrên bản chất của chúng

Đây là một phương pháp học không giám sát vì không có nhãn bên ngoài gắn vào đối tượng.Máy phải tự học các đặc trưng và mẫu mà không cần bất kỳ ánh xạ đầu vào-đầu ra nào Thuậttoán có thể trích xuất các suy luận từ bản chất của các đối tượng dữ liệu và sau đó tạo các lớpriêng biệt để nhóm chúng một cách thích hợp

Trong Machine learning Clustering, thuật toán chia tập hợp thành các nhóm khác nhau saocho mỗi điểm dữ liệu tương tự với các điểm dữ liệu trong cùng một nhóm và khác với cácđiểm dữ liệu trong các nhóm khác Trên cơ sở sự giống nhau và không giống nhau, sau đóphân nhóm thích hợp cho đối tượng

Các loại thuật toán phân cụm:

- Partitioning Based Clustering (Phân cụm dựa trên phân vùng)

- Hierarchical Clustering (Phân cụm thứ bậc)

- Model-Based Clustering (Phân cụm dựa trên mô hình)

- Density-Based Clustering (Phân cụm dựa trên mật độ)

- Fuzzy Clustering (Phân cụm mờ)

Độ đo, cách đánh giá của bài toán phân cụm

Các độ đo chất lượng phân cụm được phân thành 3 loại là:

- Đánh giá trong ( internal evaluation): Kết quả phân cụm được đánh giá dựa trên

chính dữ liệu được phân cụm bằng cách sử dụng các đại lượng đánh giá sự gắn kếtcụm như mật độ ( density), khoảng cách giữa các phần tử bên trong cụm hay khoảngcách giữa các cụm với nhau, Hướng tiếp cận của loại này dựa trên tiêu chí: các thuậttoán phân cụm tốt là các thuật toán tạo ra các cụm mà các phần tử bên trong mỗi cụm

có độ tương tự với nhau lớn và độ tương tự với các phần tử bên ngoài nhỏ

- Đánh giá ngoài ( external evaluation ): Kết quả phân cụm được đánh giá dựa tập dữ

liệu chuẩn(mẫu) đã được phân từ trước đó Hướng tiếp cận của loại này đánh giá mức

độ tương đồng giữa việc phân cụm bởi thuật toán với tập dữ liệu chuẩn

- Đánh giá quan hệ ( relative evalution ): Đánh giá việc phân cụm bằng cách so sánh

nó với các kết quả phân cụm khác được sinh ra bởi cùng thuật toán nhưng với các giátrị tham số khác nhau

a Độ đo bóng (Silhouette)

Giả sử bộ dữ liệu được chia thành cụm:𝑘

Với mỗi điểm dữ liệu đặt:𝑖

- 𝑎(𝑖)là khoảng cách trung bình từ tới tất cả các điểm dữ liệu trong cùng cụm với 𝑖 𝑖

- 𝑏(𝑖)là khoảng cách trung bình ngắn nhất từ tới bất kì cụm nào không chứa 𝑖 𝑖

Trang 9

Cụm tương ứng với𝑏(𝑖)này được gọi là cụm hàng xóm của 𝑖

Khi đó:

𝑠 𝑖( ) = 𝑚𝑎𝑥 {𝑎 𝑖𝑏 𝑖( )−𝑎(𝑖)( ),𝑏(𝑖)} 1[ ]nằm trong đoạn càng gần 1 thì điểm dữ liệu càng phù hợp với cụm mà nó

được phân vào 𝑠 𝑖( ) = 0 thì không thể xác định được nên thuộc về cụm nào giữa cụm hiện𝑖tại và cụm hàng xóm của nó 𝑠(𝑖)càng gần -1 thì chứng tỏ bị phân sai cụm, nó nên thuộc về𝑖cụm hàng xóm chứ không phải cụm hiện tại

Trang 10

CHƯƠNG II: BÀI TOÁN PHÂN CỤM DỰA TRÊN MẬT ĐỘ

1 Thuật toán DBSCAN

a Ý tưởng

DBSCAN (Density-based spatial clustering of applications with noise) [1] [2] là mộtthuật toán cơ sở để phân nhóm dựa trên mật độ Nó có thể phát hiện ra các cụm có hình dạng

và kích thước khác nhau từ một lượng lớn dữ liệu chứa nhiễu

Các cụm là các vùng dày đặc trong không gian dữ liệu, được phân tách bởi các vùng cómật độ điểm thấp hơn Thuật toán DBSCAN dựa trên khái niệm "cụm" và "nhiễu" Ý tưởngchính là đối với mỗi điểm của một cụm, vùng lân cận của bán kính nhất định phải chứa ítnhất một số điểm tối thiểu

Hình 1: Các cụm dữ liệu có hình cầu hoặc lồi

Phương pháp phân vùng (K-MEANS, phân cụm PAM) và công việc phân cụm phân cấp

để tìm các cụm hình cầu hoặc cụm lồi Nói cách khác, chúng chỉ phù hợp cho các cụmnhỏ gọn và được phân tách tốt Hơn nữa, chúng cũng bị ảnh hưởng nghiêm trọng bởi sựhiện diện của các điểm nhiễu và các ngoại lệ trong dữ liệu

Dữ liệu thực tế có các điểm bất thường như:

- Các cụm có thể có hình dạng tùy ý

- Dữ liệu có thể chứa nhiễu

Trang 11

Hình 2: Các cụm dữ liệu có hình dạng tùy ý

Hình trên cho thấy một tập dữ liệu chứa các cụm không liên quan và chứa các ngoạilệ/nhiễu Với dữ liệu như vậy, thuật toán K-means gặp khó khăn trong việc xác định cáccụm này với các hình dạng tùy ý

b Các định nghĩa thuật toán sử dụng

● Định nghĩa 1

Epsilon lân cận (Eps-neighborhood) của một điểm dữ liệu P được định nghĩa là tập hợp tất

cả các điểm dữ liệu nằm trong phạm vi bán kính epsilon (kí hiệu ) xung quanh điểm P Kíε hiệu tập hợp những điểm này là:

𝑁

𝑒𝑝𝑠( ) = 𝑄 ∈ 𝐷 : 𝑑 𝑃, 𝑄𝑃 { ( ) ≤ ε}Trong đó𝐷 là tập hợp tất cả các điểm dữ liệu của tập huấn luyện

Khả năng tiếp cận trực tiếp mật độ (directly density-reachable) đề cập tới việc một điểm cóthể tiếp cận trực tiếp tới một điểm dữ liệu khác Cụ thể là một điểm Q được coi là có thể

tiếp cận trực tiếp bởi điểm P tương ứng với tham số epsilon và MinPts nếu như nó thoả

mãn hai điều kiện:

Q nằm trong vùng lân cận epsilon của 𝑃: 𝑄 ∈ 𝑁

epsilon lân cậ phải tối thiểu bằng MinPts Khi đó vùng lân cận được coi là có mật độ cao

và sẽ được phân vào các cụm Trái lại thì vùng lân cận sẽ có mật độ thấp Trong trường

hợp mật độ thấp thì điểm dữ liệu ở trung tâm được coi là không kết nối trực tiếp tới những

điểm khác trong vùng lân cận và những điểm này có thể rơi vào biên của cụm hoặc là một điểm dữ liệu nhiễu không thuộc về cụm nào.

6

Trang 12

Khả năng tiếp cận mật độ (density-reachable) liên quan đến cách hình thành một chuỗi liên

kết điểm trong cụm Cụ thể là trong một tập hợp chuỗi điểm {𝑃 mà nếu như bất kì

𝑖}

𝑖=1

𝑛

⊂𝐷một điểm 𝑃 nào cũng đều có thể tiếp cận trực tiếp mật độ (định nghĩa 2) bởi theo

cùng cụm Khả năng tiếp cận mật độ thể hiện sự mở rộng phạm vi của một cụm dữ liệu dựatrên liên kết theo chuỗi Xuất phát từ một điểm dữ liệu ta có thể tìm được các điểm có khả

năng kết nối mật độ tới nó theo lan truyền chuỗi để xác định cụm.

c Phân loại dạng điểm trong DBSCAN

Trong thuật toán DBSCAN sử dụng hai tham số chính đó là:

● epsilon (kí hiệu ):Là giá trị khoảng cách được sử dụng để xác định vùng lân cậnεepsilon của bất kỳ điểm dữ liệu nào Tức là nếu khoảng cách giữa hai điểm thấp hơnhoặc bằng ε thì chúng được coi là hàng xóm Nếu giá trị ‘ ’được chọn quá nhỏ thìεphần lớn dữ liệu sẽ được coi là ngoại lệ Nếu nó được chọn rất lớn thì các cụm sẽ hợpnhất và phần lớn các điểm dữ liệu sẽ ở cùng một cụm

● MinPts: Là số lượng điểm dữ liệu trong bán kính ‘ ’ Số lượng MinPts không baoεgồm điểm ở tâm

Hai tham số trên giúp kết nối chuỗi dữ liệu vào chung một cụm và giúp xác định ba loạiđiểm:

● Điểm lõi (core point): Là một điểm có ít nhất MinPts điểm trong vùng lân cậnepsilon của chính nó

● Điểm biên (border point): Là một điểm có ít nhất một điểm lõi nằm ở vùng lâncận epsilon nhưng mật độ không đủ MinPts điểm

● Điểm nhiễu hoặc ngoại lệ (noise or outlier): Là điểm không phải là điểm lõi hayđiểm biên

Trang 13

Hình 3: Ví dụ về 3 loại điểm trong DBSCAN

Đối với một cặp điểm (P,Q) bất kì sẽ có ba khả năng:

● Cả P và Q đều có khả năng kết nối mật độ được với nhau Khi đó P , Q đều thuộc

về chung một cụm

● P có khả năng kết nối mật độ được với Q nhưng Q không kết nối mật độ được với

P Khi đó P sẽ là điểm lõi của cụm còn Q là một điểm biên

● P và Q đều không kết nối mật độ được với nhau Trường hợp này P và Q sẽ rơivào những cụm khác nhau hoặc một trong hai điểm là điểm nhiễu

c Các bước trong thuật toán DBSCAN

Thuật toán sẽ thực hiện lan truyền để mở rộng dần phạm vi của cụm cho tới khi chạm tớinhững điểm biên thì thuật toán sẽ chuyển sang một cụm mới và lặp lại tiếp quá trình trên.Quy trình cụ thể của thuật toán:

Bước 1: Thuật toán lựa chọn một điểm dữ liệu bất kì Sau đó tiến hành xác định các điểmlõi và điểm biên thông qua vùng lân cận epsilon bằng cách lan truyền theo liên kết chuỗicác điểm thuộc cùng một cụm

Bước 2: Cụm hoàn toàn được xác định khi không thể mở rộng được thêm Khi đó lặp lại

đệ qui toàn bộ quá trình với điểm khởi tạo trong số các điểm dữ liệu còn lại để xác địnhmột cụm mới

Trang 14

12 Noise ← {x ∈ D | id(x) = ∅}

13 Border ← D \{Core ∪ Noise}

14 return C, Core, Border, Noise

DENSITYCONNECTED (x, k):

15 foreach y ∈𝑁 (x) do

ε

16 id(y) ← k // assign y to cluster id k

17 if y ∈ Core then DENSITYCONNECTED (y,k)

e Xác định tham số

Xác định tham số là một bước quan trọng và ảnh hưởng trực tiếp tới kết quả của các thuậttoán Đối với thuật DBSCAN cũng không ngoại lệ Cần phải xác định chính xác tham sốcho thuật toán DBSCAN một cách phù hợp với từng bộ dữ liệu cụ thể, tuỳ theo đặc điểm

và tính chất của phân phối của bộ dữ liệu Hai tham số cần lựa chọn trong DBSCAN đóchính là minPts và epsilon:

minPts: Theo quy tắc chung, minPts tối thiểu có thể được tính theo số chiều D trong tập

dữ liệu đó là minPts ≥ 𝐷 + 1 Một giá trị minPts = 1 không có ý nghĩa, vì khi đó mọiđiểm bản thân nó đều là một cụm Với minPts≤2, kết quả sẽ giống như phân cụm phâncấp (hierarchical clustering) với single linkage với biểu đồ dendrogram được cắt ở độ cao

y = epsilon Do đó, phải được chọn ít nhất là 3 Tuy nhiên, các giá trị lớn hơn thường tốthơn cho các tập dữ liệu có nhiễu và kết quả phân cụm thường hợp lý hơn Theo quy tắcchung thì thường chọn minPts = 2 x dim Trong trường hợp dữ liệu có nhiễu hoặc cónhiều quan sát lặp lại thì cần lựa chọn giá trị minPts lớn hơn nữa tương ứng với những bộ

dữ liệu lớn

epsilon: Giá trị có thể được chọn bằng cách vẽ một biểu đồ k-distance Đây là biểu đồεthể hiện giá trị khoảng cách trong thuật toán k-Means clustering đến k = minPts - 1 điểmlân cận gần nhất Ứng với mỗi điểm chúng ta chỉ lựa chọn ra khoảng cách lớn nhất trong

k khoảng cách Những khoảng cách này trên đồ thị được sắp xếp theo thứ tự giảm dần.Các giá trị tốt của là vị trí mà biểu đồ này cho thấy xuất hiện một điểm khuỷ tay (elbowεpoint): Nếuε được chọn quá nhỏ, một phần lớn dữ liệu sẽ không được phân cụm và đượcxem là nhiễu; trong khi đối với giá trị ε quá cao, các cụm sẽ hợp nhất và phần lớn cácđiểm sẽ nằm trong cùng một cụm Nói chung, các giá trị nhỏ của được ưu tiên hơn vàεtheo quy tắc chung, chỉ một phần nhỏ các điểm nên nằm trong vùng lân cận epsilon

Trang 15

Hàm khoảng cách: Việc lựa chọn hàm khoảng cách có mối liên hệ chặt chẽ với lựa chọn

và tạo ra ảnh hưởng lớn tới kết quả Điểm quan trọng trước tiên đó là chúng ta cần xácđịnh một thước đo hợp lý về độ khác biệt (disimilarity) cho tập dữ liệu trước khi có thểchọn tham số Khoảng cách được sử dụng phổ biến nhất là euclidean distance

f Độ phức tạp

Chi phí chính trong DBSCAN là để tính toán vùng lân cận cho mỗi điểm Nếu số chiềuεkhông quá lớn, điều này có thể được thực hiện một cách hiệu quả bằng cách sử dụng cấutrúc chỉ mục không gian trong thời gian O(nlogn) Khi số chiều lớn, cần O( ) để tính𝑛2toán vùng lân cận cho mỗi điểm Khi𝑁 (x) đã được tính toán, thuật toán chỉ cần một lần

∈

duyệt qua tất cả các điểm để tìm mật độ các cụm được kết nối Do đó, độ phức tạp tổngthể của DBSCAN là O( ) trong trường hợp xấu nhất.𝑛2

2 OPTICS: Ordering Points to Identify the Clustering Structure

Mặc dù giải thuật phân cụm dựa trên mật độ DBSCAN có thể tìm ra cụm các đối tượng

với việc lựa chọn các tham số đầu vào như ε và MinPts, người dùng vẫn chịu trách nhiệm

lựa chọn các giá trị tham số tốt để tìm ra các cụm chính xác Trên thực tế, đây là bài toán

có sự kết hợp của nhiều giải thuật phân cụm khác Các thiết lập tham số như vậy thườngkhá khó để xác định, đặc biệt trong thế giới thực, các tập dữ liệu số chiều cao Hầu hếtcác giải thuật rất nhạy với các giá trị tham số: các thiết lập có sự khác biệt nhỏ có thể dẫntới các phân chia dữ liệu rất khác nhau Hơn nữa, các tập dữ liệu thực số chiều caothường có phân bố rất lệch, thậm chí ở đó không tồn tại một thiết lập tham số toàn cụccho đầu vào, kết quả của một giải thuật phân cụm có thể mô tả bản chất cấu trúc phâncụm một cách chính xác

Để khắc phục khó khăn này, một phương pháp sắp xếp cụm gọi là OPTICS (OrderingPoints To Identify the Clustering Structure) được phát triển bởi (Ankerst, Breunig,Kriegel và Sander 1999) Nó tính một sắp xếp phân cụm tăng dần cho phép phân tíchcụm tự động và tương tác Sắp xếp phân cụm này chứa đựng thông tin tương đương vớiphân cụm dựa trên mật độ phù hợp với một phạm vi rộng các thiết lập tham số

Bằng cách khảo sát giải thuật phân cụm dựa trên mật độ, DBSCAN có thể dễ dàng thấy

rằng đối với một giá trị hằng số MinPts, các cụm dựa trên mật độ đối với mật độ cao hơn

(tức là một giá trị ε thấp hơn) được chứa hoàn toàn trong các tập mật độ liên kết đối vớimột mật độ thấp hơn Bởi vậy, để đưa ra các cụm dựa trên mật độ với một tập các tham

số khoảng cách, giải thuật cần lựa chọn các đối tượng để xử lý theo một trật tự cụ thể đểđối tượng là mật độ tiến đối với giá trị ε thấp nhất được kết thúc trước tiên

Dựa trên ý tưởng này, hai giá trị cần được lưu trữ đối với mỗi đối tượng: khoảng cách

nòng cốt (core-distance) và khoảng cách có thể tiếp cận (reachability- distance).

Khoảng cách nòng cốt của một đối tượng p là khoảng cách nhỏ nhất ε' giữa p và một đối tượng trong ε – lân cận của nó để p sẽ là một đối tượng nòng cốt đối với ε' nếu như lân cận này được chứa trong ε – lân cận của p Nếu không thì khoảng cách nòng cốt là không

xác định

10

Trang 16

Hình 4: Core-distance

Khoảng cách có thể tiếp cận của một đối tượng p đối với một đối tượng o khác là khoảng cách nhỏ nhất để p là mật độ trực tiếp tiến từ o nếu o là một đối tượng nòng cốt Nếu o

không phải là một đối tượng nòng cốt, ngay cả tại khoảng cách phát sinh ε, khoảng cách

có thể tiếp cận của một đối tượng p đối với o là không xác định.

Hình 5: Reachability-distance

Giải thuật OPTICS tạo lập trật tự của một cơ sở dữ liệu, thêm vào đó là lưu trữ khoảngcách nòng cốt và một khoảng cách có thể tiếp cận phù hợp với mỗi đối tượng Thông tinnhư vậy là đủ cho sự rút trích của tất cả các phân cụm dựa trên mật độ đối với bất kỳ một

khoảng cách ε' nhỏ hơn khoảng cách phát sinh ε từ trật tự này.

Sắp xếp cụm của một tập dữ liệu có thể được trình bày và hiểu bằng đồ thị Ví dụ, hình 6

là một biểu đồ tiến cho một tập dữ liệu hai chiều đơn giản, nó biểu diễn một cái nhìn tổngquát về dữ liệu được cấu trúc và phân cụm như thế nào Các phương pháp cũng được pháttriển để quan sát các cấu trúc phân cụm cho dữ liệu số chiều cao

Trang 17

Hình 6: Sắp xếp cụm trong OPTICS

Thuật toán DBSCAN và OPTICS tương tự với nhau về cấu trúc và có cùng độ phức tạp:O(nLogn) (n là kích thước của tập dữ liệu)

So sánh thuật toán OPTICS với DBSCAN

- Chi phí bộ nhớ : Kỹ thuật phân cụm OPTICS yêu cầu nhiều bộ nhớ hơn vì nó duy

trì hàng đợi ưu tiên (Min Heap) để xác định điểm dữ liệu tiếp theo gần nhất vớiđiểm hiện đang được xử lý theo Khoảng cách có thể tiếp cận Nó cũng đòi hỏi nhiềusức mạnh tính toán hơn vì các truy vấn hàng xóm gần nhất phức tạp hơn các truyvấn bán kính trong DBSCAN

- Ít tham số hơn : Kỹ thuật phân cụm OPTICS không cần duy trì tham số epsilon và

chỉ được cung cấp trong mã giả ở trên để giảm thời gian thực hiện Điều này dẫnđến việc giảm quá trình phân tích điều chỉnh tham số

- Kỹ thuật này không tách dữ liệu đã cho thành các cụm Nó chỉ tạo ra một biểu đồkhoảng cách Khả năng tiếp cận và tùy thuộc vào sự giải thích của lập trình viên đểphân cụm các điểm cho phù hợp

3 DENCLUE: Clustering Based on Density Distribution Functions

a Giới thiệu thuật toán DENCLUE

DENCLUE (DENsity -based CLUstEring - phân cụm dựa trên mật độ) (Hinneburg vàKeim 1998) là phương pháp phân cụm dựa trên một tập các hàm phân bố mật độ

Phương pháp được dựa trên ý tưởng sau:

- (1) Tác động của mỗi điểm dữ liệu có thể được làm mô hình chính thức sử dụngmột hàm toán học gọi là hàm tác động, hàm tác động được xem như là một hàm mô

tả tác động của một điểm dữ liệu trong phạm vi lân cận của nó;

- (2) Toàn bộ mật độ của không gian dữ liệu có thể được làm mô hình theo phép phântích tổng các hàm tác động của tất cả các điểm dữ liệu;

- (3) Các cụm sau đó có thể được xác định chính xác bằng cách nhận biết các thu hútmật độ, tại đó các thu hut mật độ cực đại cục bộ của toàn bộ hàm mật độ

12

Trang 18

Hình 7: Hàm mật độ và attactor mật độ

b Điểm thu hút mật độ và độ dốc

Một điểm𝑥*được gọi là một điểm thu hút mật độ nếu nó là cực đại cục bộ của hàm mật độxác suất Một điểm thu hút mật độ được tìm thấy bằng cách tăng dần độ dốc tại một số𝑓điểm Ý tưởng là tính toán độ dốc mật độ, hướng tăng mật độ và di chuyển theo hướng𝑥của độ dốc theo các bước nhỏ, cho đến khi chúng ta đạt đến cực đại cục bộ

Hàm ước tính mật độ đa biến:

𝑑 exp 𝑒𝑥𝑝 − 𝑧

𝑇

𝑧 2

{ } 4[ ]Gaussian kernel gradient:

∂

∂𝑥 𝐾 𝑧( ) = 1

2π ( )

𝑑 exp 𝑒𝑥𝑝 − 𝑧

𝑇

𝑧 2

Trang 19

Sử dụng phương pháp tăng dần độ dốc để tính , tức là bắt đầu từ , chúng ra cập nhật nó𝑥* 𝑥

ở mỗi bước t thông qua quy tắc cập nhật

Tiêu đề	Khai Phá Dữ Liệu Phân Cụm Dựa Trên Mật Độ
Tác giả	Nguyễn Thị Lan Anh, Vũ Duy Đan, Đào Việt Cường, Phạm Huy Hưng, Trần Duy Khánh
Người hướng dẫn	Phạm Hồng Phong
Trường học	Trường đại học Xây dựng Hà Nội
Chuyên ngành	Kỹ thuật phần mềm, Học máy, Khai phá dữ liệu
Thể loại	Bài tập lớn
Năm xuất bản	2022
Thành phố	Hà Nội

Định dạng
Số trang	39
Dung lượng	1,6 MB