1. Trang chủ
  2. » Công Nghệ Thông Tin

Ứng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà Nội (tt)

26 468 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 421,12 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ứng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà NộiỨng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường đại học kiến trúc Hà Nội

Trang 1

-

Phạm Văn Vượng

ỨNG DỤNG PHÂN CỤM TRONG KHAI PHÁ DỮ LIỆU

CHO TƯ VẤN NGÀNH NGHỀ SINH VIÊN

TRƯỜNG ĐẠI HỌC KIẾN TRÚC HÀ NỘI

Chuyên ngành: Hệ thống thông tin

Mã số: 8480104

TÓM TẮT LUẬN VĂN THẠC SĨ

(Theo định hướng ứng dụng)

HÀ NỘI – 2018

Trang 2

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: PGS.TS TRẦN ĐÌNH QUẾ

Phản biện 1:

………

………

………

………

………

………

Phản biện 2: ………

………

………

………

………

………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU Tính cấp thiết của đề tài

Bước vào thế kỷ XXI, nghề nghiệp trong xã hội có những chuyển biến nhiều

so với giai đoạn trước đây Cuộc cách mạng khoa học và công nghệ đang tạo điều kiện để nhân loại tiến từ nền kinh tế công nghiệp sang nền kinh tế tri thức Đó là nền kinh tế được xây dựng trên cơ sở sản xuất, phân phối và sử dụng tri thức, thông tin, trong đó máy tính và các công nghệ truyền thông viễn thông là những yếu tố chiến lược Trong khi ngành công nghệ thông tin phát triển không ngừng như hiện nay, để đạt được mục tiêu trên, chúng ta cần một lực lượng lao động có đủ trình độ năng lực và làm chủ được công nghệ kỹ thuật mới, đủ điều kiện đảm bảo hoàn thành tốt công việc trong mọi lĩnh vực của đời sống xã hội Nếu chúng ta không chiếm hữu được tri thức, không sáng tạo và sử dụng được thông tin trong các ngành sản xuất thì không thể thành công trong sự cạnh tranh quyết liệt của thị trường Chính vì vậy việc nâng cao trình độ học vấn, trình độ văn hóa cho nhân dân, đặc biệt là việc định hướng ngành học và định hướng nghề nghiệp cho thế hệ trẻ hôm nay, chủ nhân tương lai của đất nước, cần được quan tâm hơn bao giờ hết Như vậy nghề nghiệp luôn được coi là một trong nhiều yếu tố quan trọng quyết định đến tương lai mỗi con người Vì thế lựa chọn cho mình một ngành nghề phù hợp là vấn đề được nhiều bạn trẻ quan tâm, đặc biệt là những bạn sinh viên trẻ học tập những năm đầu tại các trường đại học Theo khảo sát tại trường đại học Kiến trúc Hà Nội, rất nhiều bạn sinh viên sau khi ra trường không tìm được công việc phù hợp với năng lực cũng như sở thích của bản thân Có một số sinh viên do định hướng kém lựa chọn chuyên ngành không đúng khả năng dẫn đến quá trình học tập kết quả kém, sau thời gian học tập không đạt kết quả tốt dẫn đến việc bỏ học ngay từ những năm đầu, tạo tâm lý chán nản, không có động lực trong học tập

Vì những lý do trên nên học viên đã quyết định lựa chọn đề tài: Ứng dụng phân cụm trong khai phá dữ liệu cho tư vấn ngành nghề sinh viên trường Đại học Kiến trúc Hà Nội

Trang 4

Tổng quan về vấn đề nghiên cứu

Phân cụm cơ sở dữ liệu là một trong những phương pháp quan trọng trong quá trình tìm kiếm tri thức Phân cụm là phương pháp học từ quan sát (learning from obversation) hay còn gọi là học không có giám sát Phân cụm đặc biệt hiệu quả khi ta không biết về thông tin của các cụm, hoặc khi ta quan tâm tới những thuộc tính của cụm mà chưa biết hoặc biết rất ít về những thông tin đó Phân cụm được coi như một công cụ độc lập để xem xét phân bố dữ liệu, làm bước tiền xử lý cho các thuật toán khác Việc phân cụm dữ liệu có rất nhiều ứng dụng như trong tiếp thị, sử dụng đất, bảo hiểm, hoạch định thành phố, định hướng nghề nghiệp … Hiện nay, phân cụm dữ liệu là một hướng được nghiên cứu rất nhiều trong Tin học Thực tế hiện nay tại trường Đại học Kiến trúc Hà Nội rất nhiều sinh viên năm đầu còn phân vân lựa chọn các ngành học trong khoa đã đăng ký do thiếu thông tin

và chưa có sự lựa chọn đúng đắn dựa trên khả năng và sở thích của bản thân Do vậy, để sinh viên có thể phát huy hết khả năng, nhiệt huyết và thuận lợi cho việc đi làm sau này cần có những định hướng đúng đắn và kịp thời ngay những năm đầu đại học

Trong luận văn này tập trung khảo sát các thuật toán phân cụm để từ đó áp dụng phân loại sinh viên nhằm đưa ra giải pháp tư vấn, định hướng giúp sinh viên

và các khoa trong trường đại học Kiến trúc Hà Nội lựa chọn ngành nghề phù hợp

Mục đích luận văn

- Tìm hiểu các kỹ thuật khai phá dữ liệu, một số thuật toán phân cụm dữ liệu

- Lựa chọn thuật toán và ứng dụng giải quyết bài toán phân loại sinh viên nhằm hỗ trợ định hướng các ngành học cho sinh viên các khoa trong trường

- Thu thập dữ liệu và cài đặt thử nghiệm chương trình

Đối tượng nghiên cứu

- Tìm hiểu một số thuật toán phân cụm dữ liệu

- Lựa chọn một thuật toán phân cụm dữ liệu phù hợp có thể áp dụng giải quyết yêu cầu bài toán

Trang 5

- Thu thập dữ liệu: Sinh viên năm đầu đang học tập tại trường Đại học Kiến trúc Hà Nội Tuy nhiên số lượng sinh viên năm đầu rất lớn nên dữ liệu mẫu

sẽ được thu hẹp vào sinh viên của một khoa trong trường

- Tiến hành thực nghiệm trên tập dữ liệu mẫu

Phương pháp nghiên cứu:

- Nghiên cứu lý thuyết về khai phá dữ liệu

- Tìm hiểu một số thuật toán phân cụm dữ liệu

- Xây dựng và phân tích yêu cầu bài toán đặt ra

- Lựa chọn một thuật toán phân cụm dữ liệu phù hợp có thể áp dụng giải quyết yêu cầu bài toán

- Tiến hành thực nghiệm trên tập dữ liệu mẫu

- Phân tích, đánh giá kết quả đạt được

- Phương hướng phát triển

Cấu trúc luận văn:

Luận văn có cấu trúc gồm 03 chương có nội dung như sau:

Chương 1: Tổng quan về phân cụm dữ liệu

Trình bày tổng quan về phân cụm dữ liệu và giới thiệu một số phương pháp phân cụm dữ liệu, đưa ra so sánh, đánh giá, lựa chọn

Chương 2: Phân cụm cho tư vấn lựa chọn ngành nghề

Chương này trình bày khái quát một số kỹ thuật phân cụm đặc trưng Phân tích, đánh giá ứng dụng các kỹ thuật phân cụm để lựa chọn ra được thuật toán thích hợp xây dựng và giải quyết bài toán đặt ra

Chương 3: Thử nghiệm và đánh giá

Giới thiệu về bài toán thực tế, những khó khăn của sinh viên khi lựa chọn ngành nghề phù hợp với nhu cầu và năng lực của bản thân Dựa trên kỹ thuật phân cụm và thuật toán lựa chọn xây dựng hệ thống tư vấn lựa chọn ngành nghề cho sinh viên, giúp họ có những lựa chọn đúng đắn cho tương lai công việc sau này

Trang 6

CHƯƠNG 1: TỔNG QUAN VỀ PHÂN CỤM DỮ LIỆU

1.1 Giới thiệu

Dữ liệu do con người tạo ra ngày càng nhiều hơn về số lượng, tăng nhanh về khối lượng, phát triển mạnh về quy mô khiến việc phân loại, lựa chọn, khai thác, sử dụng gặp những khó khăn nhất định Khái niệm Khai phá dữ liệu ra đời hỗ trợ công việc này; vậy cụ thể khai phá là gì, khai phá dữ liệu được khai thác như thế nào, công nghệ khai phá dữ liệu sử dụng là gì…

Khai phá dữ liệu là một tập hợp các kỹ thuật được sử dụng để tự động khai thác và tìm ra các mối quan hệ lẫn nhau của dữ liệu trong một tập hợp dữ liệu khổng lồ và phức tạp, đồng thời cũng tìm ra các mẫu tiềm ẩn trong tập dữ liệu đó

Về cơ bản, khai phá dữ liệu là xử lý dữ liệu và nhận biết các mẫu và các xu hướng trong thông tin đó để bạn có thể quyết định hoặc đánh giá

Nếu căn cứ vào lớp các bài toán cần giải quyết, thì KPDL bao gồm các kỹ thuật áp dụng sau:

− Phân lớp và dự đoán (classification and prediction)

− Phân cụm (clustering/segmentation)

− Luật kết hợp (association rules)

− Phân tích hồi quy (regression analysis)

− Phân tích các mẫu theo thời gian (sequential/temporal patterns)

− Mô tả khái niệm (concept description and summarization)

1.2 Kỹ thuật phân cụm dữ liệu

1.2.1 Khái niệm

Phân cụm dữ liệu (Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm, phân tích phân đoạn, phân tích phân loại, là quá trình nhóm một tập các đối tượng thực thể hay trừu tượng thành lớp các đối tượng tương

tự Một cụm là một tập hợp các đối tượng dữ liệu mà các phần tử của nó tương tự nhau cùng trong một cụm và phi tương tự với các đối tượng trong

Trang 7

các cụm khác Một cụm các đối tượng dữ liệu có thể xem như là một nhóm trong nhiều ứng dụng

1.2.2 Các bước cơ bản để phân cụm

Chọn lựa đặc trưng

Chọn độ đo gần gũi

Tiêu chuẩn phân cụm

• Thuật toán phân loại

• Công nhận kết quả

• Giải thích kết quả

1.2.3 Các loại đặc trưng trong phân cụm

Có bốn loại đặc trưng, đó là:

- Các đặc trưng danh nghĩa (nominal): Gồm các đặc trưng mà các giá trị của nó

mã hoá các trạng thái Chẳng hạn cho một đặc trưng là giới tính của một người thì các giá trị có thể của nó là 1 ứng với nam và 0 ứng với nữ Rõ ràng là bất kỳ sự so sánh về lượng nào giữa các giá trị loại này đều là vô nghĩa

- Các đặc trưng thứ tự (ordinal): Là các đặc trưng mà các giá trị của nó có thể

sắp một cách có ý nghĩa Ví dụ về một đặc trưng thể hiện sự hoàn thành khoá học của một sinh viên Giả sử các giá trị có thể là 4, 3, 2, 1 tương ứng với các ý nghĩa:

tự có ý nghĩa nhưng sự so sánh giữa hai giá trị liên tiếp là không quan trọng lắm về lượng

- Các đặc trưng đo theo khoảng (interval –scaled): Với một đặc trưng cụ thể

nếu sự khác biệt giữa hai giá trị là có ý nghĩa về mặt số lượng thì ta có đặc trưng đo

theo khoảng (còn gọi là thang khoảng) Ví dụ về đặc trưng nhiệt độ, nếu từ 10-15

độ thì được coi là rét đậm, còn nếu dưới 10 độ thì được coi là rét hại, vì vậy mỗi khoảng nhiệt độ mang một ý nghĩa riêng

Trang 8

- Các đặc trưng đo theo tỷ lệ (ratio-scaled): Cũng với ví dụ nhiệt độ ở trên ta

không thể coi tỷ lệ giữa nhiệt độ Hà Nội 10 độ với nhiệt độ Matxcơva 1 độ mang ý nghĩa rằng Hà Nội nóng gấp mười lần Matxcơva Trong khi đó, một người nặng

100 kg được coi là nặng gấp hai lần một người nặng 50 kg Đặc trưng cân nặng là

một đặc trưng đo theo tỷ lệ (thang tỷ lệ)

1.2.4 Ứng dụng của kỹ thuật phân cụm

Phân cụm là một công cụ quan trọng trong một số ứng dụng Sau đây là một

số ứng dụng của nó:

Giảm dữ liệu: Giả sử ta có một lượng lớn dữ liệu (N) Phân cụm sẽ nhóm

các dữ liệu này thành m cụm dữ liệu dễ nhận thấy và m << N Sau đó xử lý mỗi cụm

như một đối tượng đơn

Rút ra các giả thuyết: Các giả thuyết này có liên quan đến tính tự nhiên

của dữ liệu và phải được kiểm tra bởi việc dùng một số tập dữ liệu khác

Kiểm định giả thuyết: Ta sẽ phân cụm để xét xem có tồn tại một tập dữ

liệu nào đó trong tập dữ liệu thoả mãn các giả thuyết đã cho hay không Chẳng

hạn xem xét giả thuyết sau đây: “Các công ty lớn đầu tư ra nước ngoài “ Để kiểm

tra, ta áp dụng kỹ thuật phân cụm với một tập đại diện lớn các công ty Giả sử rằng mỗi công ty được đặc trưng bởi tầm vóc, các hoạt động ở nước ngoài và khả năng hoàn thành các dự án Nếu sau khi phân cụm, một cụm các công ty được hình thành gồm các công ty lớn và có vốn đầu tư ra nước ngoài (không quan tâm đến khả năng hoàn thành các dự án) thì giả thuyết đó được củng cố bởi kỹ thuật phân cụm đã thực hiện

Dự đoán dựa trên các cụm: Đầu tiên ta sẽ phân cụm một tập dữ liệu

thành các cụm mang đặc điểm của các dạng mà nó chứa Sau đó, khi có một dạng mới chưa biết ta sẽ xác định xem nó sẽ có khả năng thuộc về cụm nào nhất và dự đoán được một số đặc điểm của dạng này nhờ các đặc trưng chung của cả cụm

Trang 9

1.3 Phân loại các thuật toán phân cụm

Các thuật toán phân cụm tuần tự (Sequential Algorithms):

Các thuật toán phân cụm phân cấp (Hierachical Algorithms)

Các thuật toán phân cụm dựa trên việc tối ưu hoá hàm chi phí

Các thuật toán khác

1.4 Kết luận

Chương 1 đã trình bày cái nhìn tổng quát nhất về khai phá dữ liệu, giới thiệu

cơ bản kỹ thuật phân cụm dữ liệu cũng như nhìn nhận và giới thiệu cụ thể từng phương pháp Trong đó tập trung vào giới thiệu một số phương pháp phân cụm dữ liệu để giải quyết bài toán phân cụm được đặt ra Chương 2 tiếp theo đây sẽ đi vào tìm hiểu kỹ hơn các phương pháp này

Trang 10

CHƯƠNG 2: PHÂN CỤM CHO TƯ VẤN LỰA CHỌN

NGÀNH NGH Ề

2.1 Giới thiệu chương 2

Hiện nay, lĩnh vực nghiên cứu khai thác dữ liệu giáo dục đang tiếp tục phát triển, vô số các kỹ thuật khai thác dữ liệu đã được áp dụng cho một loạt các phạm vi giáo dục Trong mỗi trường hợp, mục tiêu là để dịch dữ liệu thô thành các thông tin

có ý nghĩa về quá trình học tập để đưa ra quyết định tốt hơn về thiết kế và quy trình của một môi trường học tập

Các kỹ thuật phân cụm có rất nhiều cách tiếp cận và các ứng dụng trong thực

tế, nó đều hướng tới hai mục tiêu chung đó là chất lượng của các cụm khám phá được và tốc độ thực hiện của thuật toán Hiện nay, các kỹ thuật phân cụm có thể phân loại theo các phương pháp tiếp cận chính sau: phương pháp phân hoạch (Partitioning Methods); phương pháp phân cấp (Hierarchical Methods); phương pháp dựa trên mật độ (Density-Based Methods); phương pháp dựa trên lưới (Grid- Basesd Methods)

2.2 Phương pháp phân hoạch (Partitioning Methods)

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm cho đến khi xác định số các cụm được thiết lập Số các cụm được thiết lập là các đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Ngoài ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác

2.2.1 Thu ật toán K – Means

Thuật toán k-means do MacQueen giới thiệu trong tài liệu “J Some methods for Classification and Analysis of Multivariate Observations” năm 1967 Mục đích của thuật toán là sinh ra k cụm dữ liệu {C1, C2,…, Ck} từ một tập dữ liệu ban đầu gồm n đối tượng trong không gian d chiều Xi= (xi1, xi2, …, xid) (i = ¯1¯,¯n¯), sao

Trang 11

cho hàm tiêu chuẩn E = ∑k ∑s ∈C i D2(x − mi) đạt giá trị cực tiểu Trong đó mi là trọng tâm của cụm Ci D là khoảng cách giữa hai đối tượng

K-Means là thuật toán rất quan trọng và được sử dụng phổ biến trong kỹ thuật phân cụm Tư tưởng chính của thuật toán K-Means là tìm cách phân nhóm các đối tượng (objects) đã cho vào K cụm (K là số các cụm được xác đinh trước, K nguyên dương) sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm (centroid ) là nhỏ nhất

2.2.2 Thuật toán PAM

Thuật toán PAM (Partitioning Around Medoids) được Kaufman và

Rousseeuw đề xuất 1987, là thuật toán mở rộng của thuật toán k-means, nhằm có

khả năng xử lý hiệu quả đối với dữ liệu nhiễu hoặc các phần tử ngoại lai Thay vì sử dụng các trọng tâm như k-means, PAM sử dụng các đối tượng medoid để biểu diễn cho các cụm dữ liệu, một đối tượng medoid là đối tượng đặt tại vị trí trung tâm nhất bên trong của mỗi cụm Vì vậy, các đối tượng medoid ít bị ảnh hưởng của các đối

tượng ở rất xa trung tâm, trong khi đó các trọng tâm của thuật toán k-means lại rất

bị tác động bởi các điểm xa trung tâm này Ban đầu, PAM khởi tạo k đối tượng

medoid và phân phối các đối tượng còn lại vào các cụm với các đối tượng medoid đại diện tương ứng sao cho chúng tương tự với đối tượng medoid trong cụm nhất

2.2.3 Thu ật toán CLARA

CLARA (Clustering LARge Application) được Kaufman và Rousseeuw đề xuất năm 1990, thuật toán này nhằm khắc phục nhược điểm của thuật toán PAM

trong trường hợp giá trị của k và n lớn CLARA tiến hành trích mẫu cho tập dữ liệu

có n phần tử và áp dụng thuật toán PAM cho mẫu này và tìm ra các các đối tượng medoid của mẫu này Người ta thấy rằng, nếu mẫu dữ liệu được trích một cách ngẫu nhiên, thì các medoid của nó xấp xỉ với các medoid của toàn bộ tập dữ liệu ban đầu

Để tiến tới một xấp xỉ tốt hơn, CLARA đưa ra nhiều cách lấy mẫu rồi thực hiện phân cụm cho mỗi trường hợp này và tiến hành chọn kết quả phân cụm tốt nhất khi thực hiện phân cụm trên các mẫu này Để cho chính xác, chất lượng của các cụm

Trang 12

được đánh giá thông độ phi tương tự trung bình của toàn bộ các đối tượng dữ liệu trong tập đối tượng ban đầu Kết quả thực nghiệm chỉ ra rằng, 5 mẫu dữ liệu có kích

thước 40+2k cho các kết quả tốt

2.3 Phương pháp phân cụm phân cấp (Hierarchical Methods)

Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến của kỹ thuật này đó là: hòa nhập nhóm, thường được gọi là tiếp cận (Bottom-Up); phân chia nhóm, thường được gọi là tiếp cận (Top-Down)

2.3.1 Thu ật toán BIRCH

BIRCH (Balanced Iterative Reducing and Clustering Using Hierarchies) do

Tian Zhang, amakrishnan và Livny đề xuất năm 1996, là thuật toán phân cụm phân cấp sử dụng chiến lược Top down Ý tưởng của thuật toán là không cần lưu toàn bộ các đối tượng dữ liệu của các cụm trong bộ nhớ mà chỉ lưu các đại lượng thống kê Đối với mỗi cụm dữ liệu, BIRCH chỉ lưu một bộ ba (n, LS, SS), với n là số đối tượng trong cụm, LS là tổng các giá trị thuộc tính của các đối tượng trong cụm và

SS là tổng bình phương các giá trị thuộc tính của các đối tượng trong cụm Các bộ

ba này được gọi là các đặc trưng của cụm CF=(n, LS, SS) (Cluster Features - CF)

và được lưu giữ trong một cây được gọi là cây CF

2.3.2 Thu ật toán CURE

Việc chọn một cách biểu diễn cho các cụm có thể nâng cao chất lượng phân cụm Thuật toán CURE (Clustering Using REpresentatives) được đề xuất bởi Sudipto Guha, Rajeev Rastogi và Kyuseok Shim năm 1998 là thuật toán sử dụng chiến lược Bottom up của kỹ thuật phân cụm phân cấp

Thay vì sử dụng các trọng tâm hoặc các đối tượng tâm để biểu diễn cụm, CURE sử dụng nhiều đối tượng để diễn tả cho mỗi cụm dữ liệu Các đối tượng đại diện cho cụm này ban đầu được lựa chọn rải rác đều ở các vị trí khác nhau, sau đó chúng được di chuyển bằng cách co lại theo một tỉ lệ nhất định Tại mỗi bước của

Trang 13

thuật toán, hai cụm có cặp đối tượng đại diện gần nhất sẽ được trộn lại thành một cụm

2.4 Phương pháp phân cụm dựa trên lưới (Grid-Based Methods)

Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệu thành các ô tạo thành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ô trên lưới chứ không phải các đối tượng dữ liệu Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúng không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu nhiều chiều mà phương pháp phân phân cụm dựa trên mật độ không giải quyết được.ưu điểm của phương pháp phân cụm dựa trên lưới là thời gian xử lí nhanh và độc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới

2.4.1 Thuật toán STING

STING (STatistical INformation Grid) do Wang, Yang và Muntz đề xuất năm 1997, nó phân rã tập dữ liệu không gian thành số hữu hạn các cell sử dụng cấu trúc phân cấp chữ nhật Có nhiều mức khác nhau cho các cell trong cấu trúc lưới, các cell này hình thành nên cấu trúc phân cấp như sau: Mỗi cell ở mức cao được phân hoạch thành các cell mức thấp hơn trong cấu trúc phân cấp

2.4.2 Thu ật toán CLIQUE

Thuật toán CLIQUE do Agrawal, Gehrke, Gunopulos, Raghavan đề xuất năm 1998, là thuật toán tự động phân cụm không gian con với số chiều lớn, nó cho phép phân cụm tốt hơn không gian nguyên thủy

Ngày đăng: 28/02/2018, 12:05

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w