1. Trang chủ
  2. » Giáo Dục - Đào Tạo

THUẬT TOÁN TẮC KÈ HOA DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC CỤM CON

25 1 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 25
Dung lượng 8,84 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

THUẬT TOÁN TẮC KÈ HOA DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC CỤM CON Yuru Zhang1 Shifei Ding1,2 Yanru Wang1 Haiwei Hou1 Accepted 24 March 2021 The Author(s), under exclusive licen.THUẬT TOÁN TẮC KÈ HOA DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN TỰ NHIÊN TẠO CÁC CỤM CON

Trang 1

THUẬT TOÁN TẮC KÈ HOA DỰA TRÊN CẢI THIỆN BIỂU ĐỒ LÂN CẬN

TỰ NHIÊN TẠO CÁC CỤM CON

Yuru Zhang1 & Shifei Ding1,2 & Yanru Wang1 & Haiwei Hou1

Để giải quyết vấn đề thứ hai, bài báo này đề xuất một phương pháp mới để tạo racác cụm con trong đồ thị thưa thớt, đơn giản và khách quan Tóm lại, bài báo đềxuất Thuật toán tắc kè hoa tạo các cụm con dựa vào việc cải thiện đồ thị lân cận tựnhiên (INNGS Chameleon) Thuật toán này được thử nghiệm dựa trên 8 tập dữ liệutổng hợp và 10 tập dữ liệu UCI (UCI Machine Learning Repository – Kho lưu trữhọc máy UCI) Kết quả được so sánh với Thuật toán tắc kè hoa, thuật toán cái tiếncủa nó với một số thuật toán cổ điển Kết quả thực nghiệm cho thấy thuật toánINNGS Chameleon là khả thi và hiệu quả

1 GIỚI THIỆU

Ngày nay chúng ta đang ở trong thời đại công nghệ thông tin, khám phá nhữngđiều chưa được biết đến trong thế giới kỹ thuật số Làm thế nào để có được kiến

Trang 2

thức hữu ích từ dữ liệu quy mô lớn để sử dụng hợp lý các nguồn thông tin đã trởthành một nhu cầu rộng rãi [1] Do đó, khai thác dữ liệu xuất hiện vào thời điểmlịch sử Phân cụm là một công cụ quan trọng của công nghệ khai thác dữ liệu và nó

là một trong những phương pháp phân tích dữ liệu phổ biến nhất [2, 3] Phân cụm

là để phân chia các trường hợp tương tự vào cùng một cum theo các đặc điểm của

dữ liệu đối tượng, trong khi mức độ tương tự của các cá thể giữa các cụm khácnhau là rất thấp, để tìm ra cấu trúc ẩn giữa dữ liệu và tìm kiếm thông tin có giá trịtrong dữ liệu phức tạp [4-6] Trong những năm gần đây, phân tích cụm đã được sửdụng rộng rãi trong nhiều khía cạnh, chẳng hạn như tin sinh học [7], nhận dạngmẫu [8], xử lý ảnh [9], cơ sở dữ liệu khai phá tri thức [10] v.v

Theo các đặc điểm khác nhau, cái chung hiện có các phương pháp phân cụm đượcphân loại thành năm lớp: phân cụm dựa trên phân vùng, phân cụm dựa trên mật độ,phân cụm dựa trên lưới, phận cụm dựa trên mô hình và phân cụm phân cấp [11].Trong số nhiều thuật toán phân cụm, phân nhóm phân cấp là một trong những thuậttoán phổ biến nhất Phân cụm theo thứ bậc phân tách tập dữ liệu theo thứ bậc vàxây dựng các cụm dựa vào cấu trúc phân cấp dữ liệu để tạo thành một cây với cáccụm như giao điểm Theo phương pháp phân rã thứ bậc, phân nhóm phân cấp cóthể được chia thành các chế độ từ dưới lên và từ trên xuống, tương ứng với phâncấp tổng hợp phân cụm và phân cụm phân cấp theo thứ bậc [12-14] Tại bắt đầucủa phân cụm phân cấp hội tụ, mỗi đối tượng là một cụm, Theo các tiêu chí nhấtđịnh, hai cụm được hợp nhất để tạo thành một cụm mới sau mỗi lần, cho đến khitất cả các đối tượng thành một cụm hoặc đáp ứng các điều kiện kết thúc nhất định

Ở trong phân cụm phân cấp, tất cả các đối tượng thuộc về một cùm từ đầu Mỗi khimột cụm mới được chia thành nhiều cụm theo các tiêu chí nhất định cho đến khimỗi đối tượng là một cụm hoặc đạt đến một điều kiện chấm dứt nhất định Theothứ bậc thuật toán phân cụm, khi hai cụm được hợp nhất thành một cụm mới hoặcmột cụm mới được chia thành hai cụm mới, quá trình xử lý tiếp theo sẽ hoạt độngtrên cụm mới và quá trình xử lý trước đó không thể bị thu hồi [15] Do đó, các cụmcon phải được lựa chọn ẩn c cẩn thận trước khi quyết định tách hoặc hợp nhất Cácthuật toán phân cụm phân cấp cổ điển được biểu diễn như sau: BIRCH [16] (Lặplại cân bằng Giảm và phân cụm bằng cách sử dụng cấu trúc phân cấp) sử dụng câytính năng theo cụm để tìm các cụm tốt hơn chỉ bằng cách duyệt dữ liệu một lần vàcải thiện hơn chất lượng phân cụm với duyệt bổ sung CURE [17] (Phân cụm sửdụng đại diện) sử dụng trung điểm giữa điểm dựa trên trọng tâm và điểm cực trịtoàn phần, có thể xác định các cụm có hình dạng và mạnh mẽ hơn đối với các

Trang 3

ngoại lệ ROCK [18] (Phân cụm Mạnh mẽ bằng cách sử dụng liên kết) đề xuất mộtkhái niệm mới về các liên kết đến cân nhắc sự giống nhau giữa một cặp đối tượng

dữ liệu và thuật toán phù hợp với dữ liệu có boolean và phân loại thuộc tính Thuậttoán Chameleon [19] đo độ giống nhau của các cụm bằng cách dựa trên các lựachọn dựa trên cả khả năng kết nối lẫn nhau và sự gần gũi của các cụm và nó có cáinhìn sâu sắc về các cụm có nhiều sự khác biệt về hình dạng, kích thước và mật độ.Thuật toán tắc kè hoa là một tập hợp phân cấp cổ điển hình, nhưng nó cần đượctách ra khỏi tổng thể Thuật toán tắc kè hoa bao gồm ba bước: Bước thứ nhất, nócấu trúc đồ thị k-lân cận gần nhất bằng cách lập mô hình ban đầu của tập dữ liệu;Bước thứ hai, Chameleon sử dụng thuật toán hMetis [20] đó là công nghệ phânvùng đồ thị để phân vùng k đồ thị lân cận gần nhất với mục đích tìm các cụm conban đầu; Bước cuối cùng, một chức năng bao gồm liên kết tương đối và tương đốigần được sử dụng làm tiêu chuẩn để tìm các cụm chính bằng nhiều lần hợp nhấtcác cụm con Thuật toán tắc kè hoa kết hợp giữa khoảng cách và khả năng kết nối

để đo cặp cụm tương tự nhất, loại bỏ sự phụ thuộc của các thuật toán truyền thốngvào các mẫu tĩnh Nó tự động thích ứng với các tính năng bên trong của các cụm

đã hợp nhất và có thể xác định một cách nhạy cảm các cụm với hình dạng tùy ý.Mặc dù thuật toán Chameleon hoạt động tốt, nó vẫn còn một số thiếu sót Đầu tiên,thuật toán tắc kè hoa cần phải xây dựng đồ thị thưa k-lân cận gần nhất Các lựachọn k-giá trị có thể được can thiệp thủ công, đó là điểm nhạy cảm và có phạm virộng, các giá trị khác nhau có ảnh hưởng lớn đến kết quả phân cụm [21] Thứ hai,

nó khó khi xây dựng môi trường cho việc sử dụng thuật toán hMetis trong thuậttoán này Hơn nữa, thuật toán hMetis có thể chia hai cụm không liên quan vớinhau, có thể dẫn đến sự không hợp lý trong phân vùng

Để giải quyết những thiếu sót của Chameleon, nhiều nhà nghiên cứu đã cải tiếnthuật toán từ các khía cạnh khác nhau Trong giai đoạn đầu tiên của Tắc kè hoa,giai đoạn thưa thớt, Zhang et al [22] đề xuất thuật toán E_CFSFDP, thuật toán nàykết hợp giữa thuật toán Chameleon với CFSFDP mới (phân nhóm bằng cách tìmkiếm nhanh và tìm các đỉnh mật độ) Nó mang lại một biến thể của k-đồ thị lân cậngần nhất, và sau đó sử dụng Thuật toán CFSFDP để tạo cụm ban đầu, điều nàychứng minh hiệu ứng phân cụm ở một mức độ lớn Trong đồ thị giai đoạn phânvùng, Barton et al [23] đề xuất thuật toán Chameleon 2 để tạo ra phân nhóm chấtlượng cao, trong đó thuật toán phân vùng chia đôi được thực hiện và phương pháplấp đầy được giới thiệu để tiếp tục tạo ra sự cân bằng phân vùng của đồ thị Guo vàcộng sự [24] đề xuất một cải tiến của thuật toán Chameleon, AChameleon, là một

Trang 4

thuật toán phân cụm phân cấp tập trung dựa trên thuật toán AGENES Nó có thểthay thế thuật toán hMetis truyền thống để tạo các cụm con trực tiếp Trong giaiđoạn hợp nhất, Zhang et al [21] đưa ra khái niệm về môđun MC để hướng dẫn hợpnhất thuật toán Chameleon và tìm kiếm trực tiếp kết quả phân cụm cuối cùng Cácthuật toán này có một số cải tiến, nhưng vẫn còn một số vấn đề.

Để khắc phục những thiếu sót của Chameleon, bài báo đề xuất thuật toán tắc kèhoa dựa trên cải tiến biểu đồ lân cận tự nhiên tạo các cụm con (INNGSChameleon) Phương pháp lân cận tự nhiên có thể thích ứng để tạo một biểu đồ lâncận có thể áp dụng theo các tính năng cục bộ của các loại tập dữ liệu Do đó, ýtưởng về lân cận tự nhiên được giới thiệu Để áp dụng tốt hơn cho Thuật toán tắc

kè hoa, một thuật toán lân cận tự nhiên cải tiến được đề xuất để xây dựng một biểu

đồ lân cận tự nhiên được áp dụng cho giai đoạn thưa thớt của Chameleon Sau đó,một phương pháp tạo ra các cụm con trên vùng lân cận tự nhiên cải thiện đồ thịđược đề xuất và áp dụng cho giai đoạn thứ hai của Thuật toán tắc kè hoa Phươngpháp này tạo thành các cụm trên mối quan hệ lân cận giữa dữ liệu và tận dụng tốtbiểu đồ lân cận tự nhiên để xác định các cụm cơ bản, đặc biệt là các cụm phổ biến

và nhiễu Nói chung, chuyên ngành đóng góp của bài báo này là:

(1) Một thuật toán lân cận tự nhiên cải tiến được đề xuất để xây dựng biểu đồ thưathớt, không chỉ loại bỏ độ nhạy cảm của các tham số ở đồ thị thưa thớt k-lân cậngần nhất trong thuật toán Chameleon ban đầu, nhưng cũng có thể nhận ra các cụm

cơ bản trong tập dữ liệu

(2) Chúng tôi đề xuất một phương pháp mới để tạo các cụm con trên đồ thị lân cận

tự nhiên được cải thiện Nó sử dụng tự nhiên biểu đồ lân cận để xác định các đặcđiểm hoặc mức tăng trưởng của các cụm cơ bản trong tập dữ liệu và tránh một mộtloạt các vấn đề do thuật toán hMetis gây ra

(3) Kết quả thử nghiệm cho thấy thuật toán INNGS Chameleon có hiệu suất phânnhóm tốt hơn thuật toán Chameleon, cải tiến thuật toán Chameleon và các thuậttoán phân cụm truyền thống khác trên nhiều bộ dữ liệu trong khi giảm bớt cácthông số do người dùng chỉ định

Các chương còn lại được sắp xếp như sau: Trong Phần 2, chúng tôi giới thiệunguyên lý của thuật toán Chameleon và ý tưởng của lân cận tự nhiên Trong Phần

3, chúng tôi mô tả chi tiết thuật toán INNGS Chameleon được đề xuất trong bàibáo này Ở trong Phần 4, chúng tôi hiển thị kết quả thực nghiệm trên tổng hợp tập

dữ liệu và tập dữ liệu UCI, sau đó phân tích hiệu suất của thuật toán, cuối cùngchúng tôi kết luận bài báo này chỉ ra những thách thức trong tương lai

Trang 5

2 CÔNG VIỆC LIÊN QUAN

2.1 Thuật toán tắc kè hoa ban đầu

Quy trình tổng thể của thuật toán Chameleon để tìm ra các cụm trong tập dữ liệuđược trình bày trong Hình 1 [19] Để bắt đầu, thuật toán Chameleon xây dựng mộtbiểu đồ thưa thớt từ dữ liệu, sau đó tạo các cụm con ban đầu bằng cách sử dụngthuật toán phân vùng đồ thị, và cuối cùng chọn và hợp nhất các cặp cụm con để thuđược các cụm chính xác bằng cách xem xét tính liên kết tương đối và độ gần tươngđối Ưu điểm chính của Chameleon là trong giai đoạn hợp nhất, nó không chỉ xemxét mối quan hệ cấu trúc giữa các cụm được hợp nhất mà còn xem xét đặc điểmbên trong của mỗi cụm Theo đó, thuật toán tắc kè hoa không bị ảnh hưởng bởi môhình tĩnh ban đầu và có thể tìm thấy một cách thích ứng các cụm có hình dạng, mật

mà cụm cần xử lý Giả sử có các điểm dữ liệu X = {x1, x2, , xn} Trong thuậttoán này, đồ thị k-lân cận gần nhất GKNN = (V, E) được xây dựng cho dữ liệu thưathớt của X, trong đó V là tập các đỉnh và E là tập các cạnh Trong biểu đồ thưa thớtGKNN, mỗi đỉnh là một đối tượng dữ liệu và các cạnh có nghĩa là sự giống nhaugiữa các đối tượng dữ liệu K-lân cận gần nhất của một đối tượng là tập hợp cácđối tượng gần nhất với k đầu tiên của đối tượng [25] Nếu có xj trong k-lân cận gầnnhất của xi, thì một cạnh có trọng số được thêm vào giữa hai đỉnh và trọng số củacạnh là nghịch đảo của khoảng cách giữa các đỉnh Tính toán khoảng cách bởi côngthức khoảng cách Euclide

Ngược lại, nếu không có cạnh giữa hai đỉnh, nghĩa là hai đối tượng không có quan

hệ với nhau Nói chung, lựa chọn k cần phải được chỉ định theo cách thủ công vàcác giá trị lớn hơn của k làm cho ranh giới giữa các cụm ít phân biệt hơn

(2) Phân vùng

Trong bước thứ hai, đồ thị k-lân cận gần nhất được phân chia thành một số đồ thịcon bằng thuật toán hMetis Các biểu đồ con này giống như các cụm con ban đầu

Trang 6

trong bước thứ ba của Chameleon và số lượng biểu đồ con yêu cầu phải được chỉđịnh bởi người dùng hMetis là một thuật toán phân giác siêu đồ thị nhiều cấp [20],bản chất của nó là chia đôi đồ thị con hiện tại Sau khi phân vùng, chúng ta có thểnhận được các cụm con có kích thước tương tự và các điểm dữ liệu có độ tươngđồng cao trong cùng một biểu đồ con Rất tiếc là chúng tôi không thể lấy được mãnguồn của hMetis [23].

(3) Hợp nhất

Phân nhóm phân cấp tổng hợp không thể quay lui sau khi chọn các cặp cụm đã hợpnhất Nếu nó không được chọn tốt trong bước này, nó có thể trực tiếp dẫn đến kếtquả phân cụm kém Thuật toán Chameleon rất thận trọng trong bước này và nó sửdụng một phương pháp mới để mô hình hóa tính liên kết và sự gần gũi giữa từngcặp cụm, xem xét đầy đủ các đặc điểm cấu trúc bên trong của dữ liệu Chức năng

đo độ tương đồng của thuật toán phân cụm Chameleon bao gồm tính liên kết tươngđối và tính gần gũi tương đối

Định nghĩa 1 [19]: Tính liên kết tương đối Sự liên kết tương đối giữa các cụmđược định nghĩa là:

Trong đó ∣EC (Ci, Cj) ∣ là tổng trọng số của các cạnh tạo thành cụm Ci và Cj, ∣EC(Ci) ∣ là tổng trọng số của các cạnh đi qua một đường phân giác cắt min chia cụm

Ci ra hai phần gần bằng nhau Theo cách tương tự, ∣EC (Cj) ∣ là tổng trọng số củacác cạnh đi qua một đường phân giác cắt nhỏ nhất chia cụm Cj thành hai phần gầnbằng nhau

Định nghĩa 2 [19]: Sự gần gũi tương đối Sự gần gũi tương đối giữa các cụm Ci và

Cj được hiển thị trong công thức sau Chương 2 Phần 1 (2):

Trong đó C jÞ là trọng lượng trung bình của các cạnh, cụm Ci và Cj SECðCiÞ vàSEC Cj lần lượt là trọng số trung bình của các cạnh cắt đường phân giác cắt mincủa các cụm Ci và Cj | Ci | và | Cj | là số đỉnh trong mỗi cụm

Trang 7

Định nghĩa 3 [19]: Tương tự Độ tương tự của thuật toán Chameleon hợp nhất cáccụm con được đo lường theo kết nối tương đối ở trên và độ gần tương đối, nhưđược thể hiện trong công thức (3):

Trong đó α là một tham số cân bằng điều chỉnh hai chỉ số này: nếu α > 1, điều đó

có nghĩa là độ gần tương đối có ảnh hưởng nhiều hơn đến sự giống nhau; ngượclại, nếu α < 1, nó có tầm quan trọng cao hơn đối với tính liên kết tương đối Trongthuật toán cải tiến của bài báo này, hãy cho α = 1, có nghĩa là liên kết tương đối và

độ gần tương đối đều quan trọng như nhau đối với quá trình hợp nhất cụm Thuậttoán tắc kè hoa ghép cặp cụm sim lớn nhất để tạo thành một cụm thực sự

2.2 Lân cận tự nhiên

Phương pháp Lân cận Tự nhiên được đề xuất bởi Zhu et al [26] lấy cảm hứng từtình bạn của xã hội loài người Thuật toán này khắc phục được thiếu sót của k lâncận gần nhất cần tham số do người dùng chỉ định và nó có thể xác định hiệu quảvùng lân cận mà không cần bất kỳ tham số nào Phương pháp lân cận tự nhiên cóthể lựa chọn một cách thích nghi mối quan hệ lân cận với các đối tượng khác Nếumột đối tượng nằm trong khu vực sử dụng nhiều dữ liệu, thì mối quan hệ lân cận tựnhiên của nó nhiều hơn; ngược lại, nếu ở nơi thưa thớt thì quan hệ lân cận tự nhiênyếu kém hơn Tính lân cận tự nhiên chủ yếu được phản ánh trên ba khía cạnh: khuvực lân cận, thuật toán tìm kiếm và số lượng lân cận

Định nghĩa 4 [26]: Vùng lân cận Giả sử X = {x1, x2, , xn} là một tập hợp cácđiểm dữ liệu và tìm KNN (xi, n) biểu thị chức năng tìm kiếm lân cận gần nhất thứ

n của các điểm xi

Sau đó, vùng lân cận r của đối tượng được biểu thị bằng biểu thức:

Định nghĩa 5 [26]: Trạng thái tìm kiếm ổn định Thực hiện một tìm kiếm vùng lâncận trên tất cả các đối tượng, cho r = 1, 2, 3, , N trong định nghĩa 1 Trong quátrình tìm kiếm này, nếu sau các điều kiện được đáp ứng lần đầu tiên: (∀x) (∃x) (x ≠x) → (xi ∈ KNNr (xj)) ∧ (xj ∈ KNNr (xi)) thì có thể coi trạng thái lúc này đã đạttrạng thái ổn định Giả sử rằng điều kiện này được đáp ứng lần đầu tiên trong vòngtìm kiếm thứ λ (1 ≤ λ ≤ N), thì trạng thái tìm kiếm ổn định là đối với bất kỳ đốitượng nào, có một hoặc nhiều đối tượng, sao cho chúng là λ của lân cận gần nhất.Ngược lại, sau khi tìm kiếm một vòng, đối tượng hiện có không có một λ-1 lân cậnvới chính nó

Trang 8

Định nghĩa 6 [26]: Lân cận tự nhiên Khi thuật toán tìm kiếm ổn định một cách tựnhiên, các điểm dữ liệu là lân cận gần nhau sẽ là lân cận tự nhiên của nhau Giả sửrằng sau vòng tìm kiếm thứ λ, trạng thái tìm kiếm là ổn định, thì đối với bất kỳđiểm dữ liệu nào xi và xj nếu chúng là lân cận của nhau, có mối quan hệ sau:

Trong đó NNλ (xi) là tập lân cận tự nhiên của điểm xi và NNλ (xj) là tập lân cận tựnhiên của xj

Lân cận tự nhiên có hai đặc điểm: tính bất biến và tính ổn định Thuộc tính bất biến

có nghĩa là nếu xi nằm trong tập lân cận tự nhiên của xj khi thuật toán không đạtđến trạng thái ổn định tìm kiếm, thì đúng là xi vẫn là lân cận tự nhiên của xj khithuật toán đạt trạng thái ổn định Tính ổn định chỉ ra rằng đối với cùng một tập dữliệu, bất kể thuật toán được lặp lại bao nhiêu lần, tập lân cận tự nhiên của mỗi điểmthu được bởi thuật toán tìm kiếm lân cận tự nhiên vẫn không thay đổi

3 INNGS – THUẬT TOÁN TẮC KÈ HOA

Lân cận tự nhiên có ưu thế trong việc tự động thích ứng với sự thưa thớt của dữliệu, việc xây dựng đồ thị lân cận tự nhiên là một cách hiệu quả để thể hiện mốiquan hệ giữa các tập dữ liệu đó Giai đoạn đầu tiên của thuật toán Chameleon cầnphải xây dựng một đồ thị thưa thớt, nhưng nếu đồ thị lân cận tự nhiên được ápdụng một cách mù quáng cho giai đoạn đầu của thuật toán Chameleon, về cơ bản

nó sẽ là tập hợp các kết quả không chính xác trên nhiều tập dữ liệu Do đó, để làmcho nó có thể áp dụng cho tất cả các tập dữ liệu, bài báo này đề xuất một phươngpháp lân cận tự nhiên được cải tiến để xây dựng đồ thị thưa thớt Thứ hai, mộtphương pháp tạo cụm con mới được đề xuất dựa trên mối quan hệ của đồ thị thưathớt, không chỉ tận dụng tốt các ưu điểm của đồ thị thưa có thể xác định các cụm

cơ bản mà còn tránh được các khuyết điểm của thuật toán Chameleon truyền thống

sử dụng đồ thị - công nghệ phân vùng

3.1 Biểu đồ lân cận tự nhiên được cải thiện

Số lượng lân cận cho mỗi điểm dữ liệu của phương pháp lân cận tự nhiên có thểkhông nhất quán Các điểm dày đặc có xu hướng có nhiều lân cận hơn, trong khicác điểm thưa thớt có ít lân cận hơn Xây dựng đồ thị lân cận tự nhiên GNN = (V,E′) theo phương pháp lân cận tự nhiên trong 2.2, trong đó V là tập các đỉnh và E làtập các cạnh Tương tự như đồ thị k-lân cận gần nhất, mỗi đỉnh biểu diễn một đốitượng dữ liệu Nếu có một mối quan hệ lân cận tự nhiên giữa các đối tượng dữ liệu,

Trang 9

thì sẽ có một cạnh giữa hai đỉnh Trọng lượng của một cạnh là nghịch đảo củakhoảng cách giữa các đỉnh Hình 2 cho thấy đồ thị gốc 2 (a), đồ thị 2 lân cận gầnnhất 2 (b), đồ thị 3 lân cận gần nhất 2 (c) và đồ thị lân cận tự nhiên 2 (d) của tập dữliệu hai chiều Qua hình vẽ có thể biết rằng so với đồ thị lân cận gần nhất, việc xâydựng đồ thị lân cận tự nhiên không những không có tham số mà còn có thể xácđịnh được mật độ dữ liệu thưa thớt Do đó, việc thay thế k-đồ thị lân cận gần nhấttrong thuật toán Chameleon bằng một đồ thị lân cận tự nhiên có một lợi thế rõ rànghơn.

Tuy nhiên, người ta thấy rằng mặc dù các thí nghiệm cho thấy nếu đồ thị lân cận tựnhiên trực tiếp thay vì đồ thị lân cận k-gần nhất trong thuật toán Chameleon thưathớt, thì nó không thể áp dụng cho tất cả các tập dữ liệu Các đồ thị lân cận tựnhiên của tập dữ liệu Jain và tập dữ liệu Lineblob được thể hiện trong Hình 3 Cácmàu khác nhau trong biểu đồ thể hiện các đồ thị con khác nhau Rõ ràng là cácthành phần được kết nối của nó lớn hơn số lượng các cụm thực của chính chúng

Ví dụ, như trong Hình 3a, biểu đồ lân cận tự nhiên của tập dữ liệu Jain có sáuthành phần được kết nối, tức là sáu đồ thị con không liên quan với nhau

Bất kể thuật toán Chameleon kết hợp sáu đồ thị con này như thế nào, thuật toán sẽkhông kết hợp sáu đồ thị con này Do đó, sau khi phân cụm bằng thuật toánChameleon, ít nhất sáu cụm sẽ được hình thành Tuy nhiên, số cụm thực sự trongtập dữ liệu Jain là 2 Rõ ràng, nếu đồ thị thưa thớt được xây dựng trực tiếp từ loại

đồ thị lân cận tự nhiên này, kết quả phân cụm sẽ bị ảnh hưởng nghiêm trọng Do

đó, bài báo này đề xuất một phương pháp lân cận tự nhiên được cải tiến, được sửdụng để xây dựng biểu đồ lân cận tự nhiên và làm cho nó phù hợp hơn với thuậttoán Chameleon

Trong quá trình tìm kiếm của phương pháp lân cận tự nhiên, lần đầu tiên cần đápứng các điều kiện sau: Với ∀xi, có xjsuch rằng (xi ∈ KNNr (xj)) ∧ (xj ∈ KNNr(xi)), và nó được coi là trạng thái lúc này đã đạt đến trạng thái ổn định Trong thuậttoán cải tiến, chúng tôi thêm một phán đoán về các thành phần kết nối của biểu đồ.Sau khi đạt đến trạng thái ổn định của thuật toán lân cận tự nhiên lần đầu tiên, sốlượng các thành phần được kết nối được tính toán và ký hiệu là asc Nếu c nhỏ hơn

số cụm, chúng ta coi nó là trạng thái cuối cùng; nhưng khi lớn hơn số cụm cuốicùng, chúng tôi tiếp tục vòng tìm kiếm tiếp theo, tức là tăng lên 1, cho đến khithành phần được kết nối nhỏ hơn hoặc bằng số cụm cuối cùng Mặc dù số lượngcụm ở đây cần được người dùng chỉ định, nhưng có vẻ như một tham số mới đượcđưa vào trong thuật toán Tuy nhiên, mục đích cuối cùng của thuật toán này là áp

Trang 10

dụng nó vào thuật toán Chameleon Trong thuật toán Chameleon, bản thân thông

số này cần được người dùng chỉ định Do đó, từ quan điểm của toàn bộ thuật toán,không có tham số mới nào được đưa vào Phương pháp lân cận tự nhiên cải tiếnđược sử dụng để xây dựng đồ thị thưa thớt trong thuật toán của chúng tôi và quytrình giải thuật cụ thể được trình bày trong Thuật toán 1

3.2 Tạo các cụm con

Trong bước thứ hai của thuật toán Chameleon, chúng tôi tìm kiếm một phươngpháp mới để tạo thẳng các cụm con bằng cách tham khảo quy trình phân cụm củathuật toán cổ điển K-Means ++ [27] Đầu tiên, trung tâm cụm được tìm thấy bằngphương pháp K- Means ++ để chọn trung tâm cụm ban đầu, có phân bố trong tập

dữ liệu là đồng nhất Khoảng cách giữa mỗi đối tượng và mỗi trung tâm cụm đượctính toán trong mối quan hệ của biểu đồ lân cận tự nhiên được cải thiện Trongtrường hợp này, khoảng cách là độ dài đường dẫn trong biểu đồ thưa thớt Cuốicùng, đối tượng không phải trung tâm cụm được gán cho trung tâm cụm gần nhất

Trang 11

Sau một loạt các bước trên, nhiều cụm con có thể được hình thành, có thể được sửdụng như cụm ban đầu trong giai đoạn hợp nhất Quy trình cụ thể của quá trình tạocụm con được mô tả trong Thuật toán 2.

3.3 Quy trình chính của thuật toán tắc kè hoa INNGS

Thuật toán INNGS-Chameleon là một sự cải tiến của thuật toán Chameleon dựatrên lân cận tự nhiên được cải tiến và một phương pháp tạo cụm con mới Quá trìnhchính của thuật toán INNGS-Chameleon được kết luận trong Thuật toán 3

Tương tự, thuật toán tắc kè hoa INNGS cũng được chia thành ba bước Thứ nhất,trong giai đoạn thưa thớt, k-đồ thị thưa thớt lân cận gần nhất được thay thế bằngbiểu đồ cải tiến biểu đồ lân cận tự nhiên, hoàn toàn khách quan có cấu trúc Thứhai, trong giai đoạn phân vùng đồ thị, Thuật toán 2 là được sử dụng để tạo thẳngcác cụm con để làm dấu chấm lửng trên biểu đồ quá trình phân đoạn, giúp loại bỏmột loạt các vấn đề gây ra bởi công nghệ phân vùng đồ thị ban đầu và mô phỏngchỉ rõ các vấn đề phức tạp Thứ ba, trong giai đoạn sáp nhập, cùng như là thuậttoán Chameleon ban đầu, liên kết tương đối lực hấp dẫn và độ gần tương đối đượctính là mức độ giống nhau tiêu chuẩn cho sự hợp nhất của các cặp cụm con Cần

Trang 12

lưu ý rằng ∣EC (C) ∣ và ∣EC (C) ∣in công thức (1) và SECðC Þ và SEC C trongcông thức (2) được tính sau thời gian cắt giảm tối thiểu phần bằng thuật toánhMetis Do đó, thuật toán hMetis được sử dụng trong công thức (1) và (2) cũngđược thay thế bằng Thuật toán 2, trong đó số cụm con trong thuật toán là 2.

Thuật toán INNGS-Chameleon giữ lại những ưu điểm của Chameleon ban đầu khixét đến tính liên kết và gần gũi, đồng thời có thể xác định tốt các đặc điểm bêntrong của cụm Thứ hai, thuật toán lân cận tự nhiên được cải tiến được sử dụng đểxây dựng biểu đồ thưa thớt, điều này không chỉ làm cho dữ liệu thưa thớt và giảmtính toán, mà còn thích ứng với các tập dữ liệu khác nhau Thứ ba, một phươngpháp tạo ra các cụm con được đề xuất Sự phân phối là đồng đều và quy trình đơngiản Tóm lại, thuật toán INNGS-Chameleon được cải tiến có thể phát hiện mật độthưa thớt của các điểm dữ liệu khi bắt đầu và mô hình động các cụm con đã hợpnhất, và cuối cùng tạo thành kết quả phân nhóm cuối cùng

4 THỬ NGHIỆM VÀ PHÂN TÍCH

Phần này chủ yếu thực hiện kiểm chứng thử nghiệm đối với thuật toán Chameleon được đề xuất trong bài báo này Thí nghiệm được chia thành năm phần.Phần 4.1 chủ yếu trình bày các tập dữ liệu được sử dụng trong thử nghiệm Phần4.2 đưa ra chỉ số đánh giá được sử dụng trong thí nghiệm Phần 4.3 mô tả phươngpháp thực nghiệm Phần 4.4 trình bày hiệu suất của thuật toán bằng các thí nghiệmtrên tập dữ liệu tổng hợp Phần 4.5 phân tích kết quả thực nghiệm trên tập dữ liệuUCI

INNGS-4.1 Tập dữ liệu thử nghiệm

Để kiểm tra và đánh giá hiệu quả của thuật toán INNGS-Chameleon cải tiến, támtập dữ liệu tổng hợp và mười tập dữ liệu UCI được sử dụng trong thuật toán Chitiết về bộ dữ liệu tổng hợp và bộ dữ liệu UCI được trình bày trong Bảng 1 và Bảng

2 tương ứng

Trong số đó, 8 tập dữ liệu tổng hợp không chỉ là dữ liệu hai chiều thông thường,

mà còn là hai dữ liệu ba chiều Kích thước của 10 bộ dữ liệu UCI đa dạng hơn, từ 4thứ nguyên đến cao nhất đến 35 thứ nguyên Các tập dữ liệu này có nhiều cụmkhác nhau và các ký tự khác nhau trong phân phối Hiệu suất phân nhóm của thuậttoán INNGS- Chameleon có thể được minh họa đầy đủ thông qua nhiều tập dữ liệukhác nhau

4.2 Các chỉ số đánh giá

Ngày đăng: 08/11/2022, 14:06

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w