Nghiên cứu phân tích cụm dữ liệu và ứng dụng trong phân tích, đánh giá kết quả học tập của sinh viên

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH NGUYỄN CÔNG KHA NGHIÊN CỨU PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG TRONG PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA SINH VIÊN Chuyên ngành: Công nghệ thôn

Trang 1

NGUYỄN CÔNG KHA

NGHIÊN CỨU PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG TRONG PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ

HỌC TẬP CỦA SINH VIÊN

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

ĐỒNG THÁP, tháng 3/2017

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH

NGUYỄN CÔNG KHA

NGHIÊN CỨU PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG TRONG PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ HỌC TẬP

CỦA SINH VIÊN

Chuyên ngành: Công nghệ thông tin

Mã số: 60480201

LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: TS PHAN ANH PHONG

Trang 3

LỜI CẢM ƠN

Lần đầu tiên, cho em gửi lời cảm ơn sâu sắc và chân thành đến TS Phan Anh Phong, người đã tận tụy và nhiệt tình hướng dẫn, chỉ bảo và giúp

đỡ em trong suốt quá trình làm luận văn

Em cũng xin chân thành gửi lời cảm ơn đến các thầy, cô đã tham gia giảng dạy và chia sẽ những kinh nghiệm quí báu cho tập thể lớp nói chung và bản thân em nói riêng

Tôi cũng xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp đã luôn ủng hộ và động viên tôi để tôi có thể hoàn thành tốt luận văn

Cuối cùng, tôi xin gửi lời cảm ơn tới Ban giám hiệu trường Đại học Đồng Tháp, Phòng Đào tạo sau đại học đã tạo điều kiện thuận lợi cho tôi tham gia khóa học và hoàn thành luận văn

Một lần nữa, xin chân thành cảm ơn

Đồng Tháp, ngày 02 tháng 3 năm 2017

Học viên

Nguyễn Công Kha

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan luận văn là kết quả của sự tìm hiểu, nghiên cứu các tài liệu một cách nghiêm túc dưới sự hướng dẫn của TS Phan Anh Phong Nội dung luận văn được hình thành và phát triển từ ý tưởng, sự sáng tạo của bản thân, kết quả thu được là hoàn toàn trung thực

Cần Thơ, ngày 02 tháng 3 năm 2017

Người cam đoan

Nguyễn Công Kha

Trang 5

MỤC LỤC

LỜI CẢM ƠN 2

LỜI CAM ĐOAN 3

DANH MỤC CÁC TỪ VIẾT TẮT 6

DANH MỤC CÁC BẢNG 7

DANH MỤC CÁC HÌNH MINH HOẠ 7

MỞ ĐẦU 8

1 Lý do chọn đề tài 8

2 Lịch sử vấn đề 8

3 Đối tượng và phạm vi nghiên cứu 9

3.1 Đối tượng nghiên cứu 9

3.2 Phạm vi nghiên cứu 9

4 Mục đích và nhiệm vụ nghiên cứu 10

5 Phương pháp nghiên cứu 10

6 Đóng góp của luận văn 10

Chương 1: TỔNG QUAN VỀ TẬP MỜ VÀ PHÂN CỤM DỮ LIỆU 11

1.1 Đặt vấn đề 11

1.2 Tập mờ 12

1.2.1 Các khái niệm 12

1.2.2 Các phép toán trên tập mờ 13

1.2.3 T-norms và t-conorm 18

1.2.4 Khoảng cách giữa các tập mờ 20

1.3 Phân cụm dữ liệu 20

1.3.1 Các phương pháp phân cụm 20

1.3.2 Thuật toán phân cụm C-MEANS 25

1.3.3 Một ví dụ về phân cụm C-MEANS 26

1.4 Phân cụm dữ liệu trong giáo dục 31 1.4.1 Ứng dụng phân cụm dữ liệu trong phân tích, đánh giá kết quả học tập

Trang 6

1.4.2 Ứng dụng thuật toán phân cụm dữ liệu để khai thác kết quả thi nhằm

chuẩn hóa chất lượng đề thi trắc nghiệm 32

1.5 Kết luận chương 1 32

Chương 2: PHÂN CỤM MỜ DỮ LIỆU VỚI THUẬT TOÁN FCM 33

2.1 Tổng quan về thuật toán cụm mờ C-means (FCM) 33

2.2 Thuật toán phân cụm mờ FCM 33

2.2.1 Cơ sở toán học FCM 33

2.2.2 Thuật toán FCM 34

2.3 Ưu điểm và nhược điểm của FCM 36

2.4 FCM với các hàm khoảng cách khác nhau 36

2.4.1 Hàm khoảng cách 36

2.4.2 Khoảng cách Euclidian 37

2.4.3 Khoảng cách Chebyshev 37

2.4.4 Khoảng cách Manhattan 38

2.4.5 Nhận xét kết quả phân cụm FCM với các hàm khoảng cách 38

2.5 FCM với sự thay đổi chỉ số mờ “m” 40

2.6 FCM với sự thay đổi số cụm “c” 40

2.7 Kết luận chương 2 41

Chương 3: PHÂN TÍCH VÀ ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA SINH VIÊN SỬ DỤNG KỸ THUẬT PHÂN CỤM 42

3.1 Ứng dụng phân cụm dữ liệu trong phân tích, đánh giá kết quả học tập của sinh viên theo học phần chung 43

3.2 Ứng dụng phân cụm dữ liệu trong phân tích, đánh giá kết quả học tập của sinh viên theo học phần tiên quyết 48

KẾT LUẬN 52

TÀI LIỆU THAM KHẢO 53

Trang 7

DANH MỤC CÁC TỪ VIẾT TẮT

AutoClass Naive Bayes Clustering

BIRCH Balanced Iterative Reducing and Clustering using

Hierarchies CLARA Clustering LARge Applications

CLARANS Clustering Large Applications based on RANdomized

Search

CURE Clustering Using Representatives

DBSCAN Density based Spatial Clutering of Application with

Noise

STING STatistical INformation Grid-based method

WAVECLUSTER Wavelet-Based Functional Clustering

Trang 8

DANH MỤC CÁC BẢNG

Bảng 3.1 So sánh kết quả phân cụm 3 hàm khoảng cách với số cụm 4 47

Bảng 3.2 So sánh kết quả phân cụm Manhattan với kết quả đánh giá Bộ GD&ĐT với số cụm 4 48

DANH MỤC CÁC HÌNH MINH HỌA Hình 1.1 Tập mờ và tập rõ 12

Hình 1.2 Miền tin cậy và miền xác định tập mờ A 13

Hình 1.3 Tập bù A của tập mờ A 14

Hình 1.4 Hợp của hai tập mờ có cùng tập vũ trụ 15

Hình 1.5 Giao của hai tập mờ có cùng tập vũ trụ 15

Hình 2.1 Khoảng cách Chebyshev trên bàn cờ vua 38

Hình 2.2 So sánh giữa khoảng cách Mahattan và khoảng cách Euclide 38

Hình 2.3 So sánh kết quả phân cụm các hàm khoảng cách khác nhau 39

Hình 3.1 Ma trận Uik theo khoảng cách Euclide với số cụm 5 44

Hình 3.2 Ma trận U ik theo khoảng cách Euclide với số cụm 4 46

Hình 3.3 Ma trận Uik theo khoảng cách Manhattan với số cụm 4 47

Hình 3.4 Bảng thuộc tính 20 sinh viên theo học phần tiên quyết 49

Hình 3.5 Giá trị U ik 20 sinh viên theo học phần tiên quyết 50

Hình 3.6 Giá trị Vij 5 học phần tiên quyết theo 3 cụm 51

Trang 9

MỞ ĐẦU

1 Lý do chọn đề tài

Trong giáo dục các nhà quản lý, cán bộ tham gia giảng dạy cần có những công cụ đủ mạnh để có thể thông qua đó có cái nhìn tổng quát và cụ thể hơn về quá trình học và kết quả học tập của sinh viên Phân cụm dữ liệu là công cụ hoàn toàn có thể đáp ứng nhu cầu đó

Trên thế giới hiện nay, phân cụm dữ liệu đã được nhiều quốc gia ứng dụng trong nhiều lĩnh vực, trong đó có giáo dục Và thành công của nó mang lại đã bước đầu được các nhà quản lý giáo dục tại Việt Nam nghiên cứu và ứng dụng

Tại Việt Nam, đã có một số công trình nghiên cứu về phân cụm dữ liệu trong giáo dục như: Ứng dụng phân cụm dữ liệu trong phân tích, đánh giá kết quả học tập của học sinh Tuy nhiên, mức độ ứng dụng chỉ dừng lại ở nghiên cứu

Xuất phát từ những lý do trên, tôi chọn đề tài “Nghiên cứu phân cụm

dữ liệu và ứng dụng trong phân tích, đánh giá kết quả học tập của sinh viên”

2 Lịch sử vấn đề

Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm dữ liệu tiềm năng, quan trọng trong tập dữ liệu ban đầu, từ đó cung cấp những thông tin, tri thức có ích trong việc đưa ra quyết định Bản chất của phân cụm dữ liệu là chia tách tập dữ liệu lớn ban đầu thành các cụm dữ liệu sao cho các phần tử trong cùng một cụm sẽ tương tự nhau và các phần tử trong các cụm khác nhau sẽ không tương tự nhau

Trang 10

Hiện nay có nhiều thuật toán phân cụm khác nhau như: K-means, Pam, C-means, thuật toán phân cụm trừ… Trong đó, thuật toán phân cụm mờ -means được kế thừa và phát triển từ thuật toán phân cụm rõ K-means Cả 2 thuật toán đều sử dụng chung một chiến lược là phân cụm dữ liệu

Phân cụm dữ liệu được ứng dụng trong nhiều lĩnh vực khác nhau như: kinh tế, bảo hiểm, qui hoạch đô thị… và lĩnh vực giáo dục cũng không ngoại

lệ Chẳng hạn, trong lĩnh vực qui hoạch đô thị, ứng dụng phân cụm dữ liệu trong việc nhận dạng các nhóm nhà theo kiểu và vị trí địa lý, nhằm cung cấp cho thông tin qui hoạch Trong lĩnh vực bảo hiểm, nhận dạng các nhóm công

ty bảo hiểm có chính sách bảo hiểm mô tô với chi phí đền bù cao…

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

- Căn bản về tập mờ;

- Phân cụm rõ K-MEANS;

- Phân cụm mờ C-MEANS;

- Kết quả học tập của sinh viên ;

- Cách đánh giá kết quả học tập của sinh viên;

Trang 11

4 Mục đích và nhiệm vụ nghiên cứu

* Mục đích nghiên cứu:

- Nghiên cứu các kỹ thuật phân cụm dữ liệu;

- Nghiên cứu các thuật toán K-MEANS, phân cụm mờ C-MEANS;

- Phân tích và đánh giá kết quả học tập của sinh viên theo học phần chung và học phần tiên quyết sử dụng thuật toán phân cụm mờ C-MEANS;

* Nhiệm vụ nghiên cứu:

- Khảo sát và thu thập điểm điểm tổng kết học phần chung và học phần tiên quyết của sinh viên;

- Nghiên cứu về thuật toán phân cụm mờ C-MEANS và K-MEANS;

- Nghiên cứu việc ứng dụng thuật toán phân cụm mờ C-MEANS, MEANS trong phân tích và đánh giá kết quả học tập của sinh viên

K-5 Phương pháp nghiên cứu

Dựa trên thực trạng quản lý việc dạy và học tại trường Cao đẳng Cần Thơ để nghiên cứu ứng dụng phân cụm dữ liệu vào trong phân tích, đánh giá kết

quả học tập của sinh viên

6 Đóng góp của luận văn

Luận văn góp phần làm cho công tác quản lý của trường Cao đẳng Cần Thơ sẽ dễ dàng hơn Thông qua đó nâng cao chất lượng dạy và học tại trường

Trang 12

Chương 1: TỔNG QUAN VỀ TẬP MỜ VÀ PHÂN CỤM DỮ LIỆU 1.1 Đặt vấn đề

Hiện nay, có nhiều trường đại học, cao đẳng đã chuyển từ hình thức đào tạo niên chế sang chế tín chỉ hoặc tín chỉ Tuy nhiên, bên cạnh những thuận lợi mà nó mang lại như: sinh viên có thể tự chủ việc xây dựng kế hoạch học tập cho mình, sinh viên chỉ cần tích lũy đủ số tín chỉ cần thiết là có thể ra trường…thì việc học theo tín chỉ (hoặc chế tín chỉ) cũng mang lại nhiều khó khăn như: công tác điều hành quản lý sẽ khó khăn do mỗi sinh viên có một kế hoạch học tập khác nhau, sinh viên mất nhiều thời gian cho việc lập kế hoạch học tập, điều chỉnh kế hoạch, đăng ký học phần, việc tổ chức kế hoạch thực tập, thực tế cho sinh viên vì thế cũng gặp khó khăn Vì vậy, việc phân cụm dữ liệu sẽ giúp cho công tác quản lý có cái nhìn đa chiều, toàn diện hơn dựa vào kết quả học tập của sinh viên Từ đó, tổ chức học tập tốt hơn Chẳng hạn như: xếp lớp học lại, phân nhóm sinh viên đi thực tập, thực tế

Thực tế, trên thế giới việc ứng dụng phân cụm dữ liệu vào trong giáo dục đã được thực hiện nhiều Tại Việt Nam cũng đã có một số nghiên cứu về ứng dụng của phân cụm dữ liệu trong giáo dục như: Ứng dụng thuật toán phân cụm dữ liệu để khai thác kết quả thi nhằm chuẩn hóa chất lượng đề thi trắc nghiệm của tác giả Đặng Thái Thịnh hoặc Ứng dụng phân cụm dữ liệu trong phân tích, đánh giá kết quả học tập của học sinh của tác giả Đỗ Văn Minh

Phân cụm dữ liệu có 2 hướng tiếp cận, theo hướng tiếp cận phân cụm

rõ thì mỗi điểm chỉ thuộc một cụm duy nhất, trong khi đó, phân cụm mờ cho phép các điểm dữ liệu linh hoạt hơn, một điểm dữ liệu có thể thuộc nhiều cụm Vì vậy, việc ứng dụng phân cụm mờ vào trong đánh giá kết quả sinh viên là cần thiết

Trang 13

1.2 Tập mờ

1.2.1 Các khái niệm

- Các tập mờ hay tập hợp mờ (Fuzzy set): là một mở rộng của lý

thuyết tập hợp cổ điển và được dùng trong lôgic mờ Trong lý thuyết tập hợp

cổ điển, quan hệ thành viên của các phần tử trong một tập hợp được đánh giá theo kiểu nhị phân theo một điều kiện rõ ràng - một phần tử hoặc thuộc hoặc không thuộc về tập hợp Ngược lại, lý thuyết tập mờ cho phép đánh giá từ từ

về quan hệ thành viên giữa một phần tử và một tập hợp Các tập mờ được coi

là một mở rộng của lý thuyết tập hợp cổ điển là vì với một universe nhất định, một hàm liên thuộc có thể giữ vai trò của một hàm đặc trưng ánh xạ mỗi phần

tử tới một giá trị 0 hoặc 1 như trong khái niệm cổ điển

Một tập mờ A trên khoảng không gian nền X được định nghĩa như sau:

Hàm thuộc µA(x) lượng hóa mức độ mà các phần tử x thuộc về tập cơ

sở X Nếu hàm cho kết quả 0 đối với một phần tử thì phần tử đó không có trong tập đã cho, kết quả một mô tả một thành viên toàn phần của tập hợp Các giá trị trong khoảng mờ từ 0 đến 1 đặc trưng cho các thành viên mờ

Hình 1.1: Tập mờ và tập rõ

- Miền xác định: Biên giới tập mờ A, ký hiệu là supp(A), là tập rõ gồm

các phần tử của X có mức độ phụ thuộc của x vào tập mờ A lớn hơn 0

supp(A) = { x | µA(x) > 0} (1.1)

Trang 14

- Miền tin cậy: Lõi tập mờ A, ký hiệu là core(A), là tập rõ gồm các phần

tử của X có mức độ phụ thuộc của x vào tập mờ A bằng 1

core(A) = { x | µA(x) = 1} (1.2)

Hình 1.2: Miền tin cậy và miền xác định của tập mờ A

1.2.2 Các phép toán trên tập mờ

- Phần bù của tập mờ: Cho tập mờ A trên tập vũ trụ X, tập mờ bù của

A là tập mờ A, hàm thuộc A x được tính từ hàm thuộc A x

 

A x

 = 1- A x (1.3)

Trang 15

Hình 1.3: Tập bù A của tập mờ A Một cách tổng quát để tìm A x từ A x , ta dùng hàm bù c:

    max     , ,

C x A B x A x B x x X

         

  (1.5)

Trang 16

Hình 1.4: Hợp của hai tập mờ có cùng tập vũ trụ Một cách tổng quát ta dùng hàm hợp u: 0,1      0,1  0,1 Hàm thành viên c x có thể được suy từ hàm thành viênA x ,B x như sau:

    ,   

    (1.6)

- Giao của các tập mờ: Cho A, B là hai tập mờ trên vũ trụ X, tập mờ

giao của A và B cũng là một tập mờ, ký hiệu: I  A B

Theo phép giao chuẩn ta có, I x từ các thành viênA x , B x :

Trang 17

Một cách tổng quát ta dùng hàm giao i: 0,1      0,1  0,1 Hàm thành viên I x có thể được suy từ hàm thành viênA x , B x như sau:

    ,   

    (1.8)

- Tích Descartes các tập mờ: Cho A i là các tập mờ trên vũ trụ Xi, i=1,

2, …, n Tích Descartes các tập mờ A i , ký hiệu A A1 2  An hay i n1Ai ,

là một tập mờ trên tập vũ trụ X1X2  Xn được định nghĩa như sau:

     1

1

n n

Một ví dụ ứng dụng của tích Descartes là kết nhập (aggreegation) các thông tin mờ về các thuộc tính khác nhau của một đối tượng Ví dụ trong các

hệ luật của các hệ trợ giúp quyết định hay hệ chuyên gia, hệ luật trong điều khiển thường có các luật dạng sau đây:

Nếu x1là A1và x2 là A2và … và xn là An thì y là B:

Trong đó, các xi là các biến ngôn ngữ (vì giá trị của nó là các ngôn ngữ được xem như là nhãn của các tập mờ) vàAi là các tập mờ trên tập vũ trụ

i

X của biến xi Hầu hết các phương pháp giải liên quan đến các luật

“nếu-thì” trên đều đòi hỏi việc tích hợp các dữ liệu trong phần tiền tố “nếu” nhờ toán tử kết nhập, một trong những toán tử như vậy là lấy tích Descartes

1 2 n

A A  A

Trang 18

- Tính chất của các phép toán trên tập mờ: Như các phép toán trên tập

rõ, các phép toán trên tập mờ cũng có một số tính chất sau đối với các tập mờ

Trang 19

- T-norm: Một hàm 2 biến T: 0,1      0,1  0,1 được gọi là phép t-norm nếu nó thỏa các tính chất sau với a a b c, ', ,  0,1 :

(T1) Tính chất điều kiện biên : T(a, 1) = a

(T2) Tính chất giao hoán : T(a, b) = T(b, a)

(T3) Tính chất đơn điệu : a a' T a b , T a b ', 

(T4) Tính chất kết hợp : T(T(a,b),c) = T(a,T(b,c)) Chúng ta dễ dàng kiểm chứng rằng phép min (˄) và phép tích đại số (.) là các phép t-norm và chúng được ký hiệu tương ứng là Tm và Tp

Ví dụ những phép t-norm hay được sử dụng:

+ Phép giao mờ tiêu chuẩn : Tm(a, b) = min{a,b};

+ Phép tích đại số : a.b;

+ Phép hiệu giới nội : T(a, b) = max{0, a+b-1};

TL(a, b) = max{0, a+b-1};

Trang 20

(S1) Tính chất giới nội : S(a, 0) = a

(S2) Tính chất giao hoán : S(a, b) = S(b, a)

(S3) Tính chất đơn điệu : a a' S a b , S a b ', 

(S4) Tính chất kết hợp : S(S(a,b),c) = S(a,S(b,c)) Như vậy, chỉ có tính chất (T1) và (S1) làm nên sự khác biệt giữa hai họ phép tính T-norm và T-conorm

Trang 21

1.2.4 Khoảng cách giữa các tập mờ

Khoảng cách giữa hai tập mờ là một công cụ cơ bản và quan trọng trong lý thuyết tập mờ Bằng chứng là việc nó được sử dụng trong nhiều lĩnh vực khác nhau Chẳng hạn như: Bonissone [12] đã áp dụng các khoảng cách khác nhau vào phân tích quyết định trong trí tuệ nhân tạo, Wang and Xing [19] chứng minh bằng các khoảng cách khác nhau trong nhận dạng mẫu Hàm d A B , ¡ , với A, B là hai tập mờ trong không gian X, được gọi là

độ đo khoảng cách nếu thỏa mãn các tính chất sau:

- Phương pháp phân cụm phân hoạch (Partitioning Methods)

Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm

Trang 22

các đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Ngoài ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như

để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm

Một số thuật toán trong phương pháp này như: K_means, K-medoids, CLARA, CLARANS

- Phương pháp phân cụm phân cấp (Hierarchical Methods)

Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến của kỹ thuật này đó là: hòa nhập nhóm thường được gọi là tiếp cận Bottom-Up và phân chia nhóm thường được gọi là tiếp cận Top-Down

+ Phương pháp Bottom up: Phương pháp này bắt đầu với mỗi đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hành nhóm các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm

Trang 23

của hai nhóm), quá trình này được thực hiện cho đến khi tất cả các nhóm được hòa nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiến lược ăn tham trong quá trình phân cụm

+ Phương pháp Top Down: Bắt đầu với trạng thái là tất cả các đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm

Một số thuật toán nổi bật trong phương pháp này như: BIRCH, CURE,…

- Phương pháp phân cụm dựa trên mật độ (Density-Based Methods)

Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác định trước Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ Kỹ thuật này có thể khắc phục được các phần tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán là rất khó khăn, trong khi các tham số này lại có tác động rất lớn đến kết quả phân cụm

Một số thuật toán nổi bật trong phương pháp này như: DBSCAN, CLIQUE…

Trang 24

- Phương pháp phân cụm dựa trên lưới (Grid-Based Methods)

Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa

dữ liệu thành các ô tạo thành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ô trên lưới chứ không phải các đối tượng dữ liệu Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúng không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu nhiều chiều mà phương pháp phân phân cụm dựa trên mật

độ không giải quyết được Ưu điểm của phương pháp phân cụm dựa trên lưới

là thời gian xử lí nhanh và độc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới

Một số thuật toán nổi bật trong phương pháp này như: STING, WAVECLUSTER, CLIQUE…

- Phương pháp phân cụm dựa trên mô hình (Model-Based Clustering Methods)

Phương này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc

mô hình mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận dạng ra các phân hoạch

Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu

Trang 25

hợp phân phối xác suất cơ bản Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp cận chính: mô hình thống kê và mạng nơron Phương pháp này gần giống với phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt nhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắt đầu với một số cụm cố định và không sử dụng cùng một

Một số thuật toán nổi bật trong phương pháp này như: EM, AutoClass…

- Phương pháp phân cụm có dữ liệu ràng buộc (Binding data Clustering methods)

Sự phát triển của phân cụm dữ liệu không gian trên cơ sở dữ liệu lớn đã cung cấp nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộc trong thế giới thực cần phải được thỏa mãn trong quá trình phân cụm Để phân cụm dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toán phân cụm

Hiện nay, các phương pháp phân cụm trên đã và đang được phát triển và

áp dụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu được phát triển trên cơ sở của các phương pháp đó như:

+ Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số

+ Phân cụm khái niệm: Kỹ thuật này được phát triển áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng

xử lí

Trang 26

+ Phân cụm mờ: Sử đụng kỹ thuật mờ để phân cụm dữ liệu Các thuật toán thuộc loại này chỉ ra lược đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lí các dữ liệu thực không chắc chắn

+ Phân cụm mạng Kohonen: Loại phân cụm này dựa trên khái niệm của các mạng nơron Mạng Kohonen có tầng nơron vào và các tầng nơron ra Mỗi nơron của tầng vào tương ứng với mỗi thuộc tính của bản ghi, mỗi một nơron vào kết nối với tất cả các nơron của tầng ra Mỗi liên kết được gắn liền với một trọng số nhằm xác định vị trí của nơron ra tương ứng

1.3.2 Thuật toán phân cụm C-MEANS

K-means là thuật toán rất quan trọng và được sử dụng rộng rãi trong phân cụm dữ liệu Thuật toán này có nhiều biến thể khác nhau nhưng nó được

J B MacQueen đưa ra đầu tiên vào năm 1967 Ý tưởng chính của thuật toán k-means là tìm cách phân nhóm các đối tượng vào k cụm sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm là nhỏ nhất

Thuật toán k-means được mô tả thông qua sơ đồ sau:

Start

Number of cluster K

Centroid

Distance object to centroid

Grouping based on

No object

Trang 27

Thuật toán k-means được thực hiện với các bước chính sau:

Bước 1: Chọn ngẫu nhiên k tâm cho k cụm Mỗi cụm đại diện bằng

tâm các cụm

Bước 2: Tính khoảng cách giữa các đối tượng đến k tâm

Bước 3: Nhóm các đối tượng vào cụm gần nhất

Bước 4: Xác định lại tâm mới cho các nhóm

Bước 5: Thực hiện lại bước b cho đến khi không có sự thay đổi nhóm

nào của các đối tượng

Trang 28

Bước 2: Tính khoảng cách từ các đối tượng đến tâm của nhóm (khoảng

4 2   3 1  = 2.8284 + d (C, c2) =   2 2

1 3   4 2  = 2.8284 + d (D, c2) =   2 2

1 3   3 2  = 2.2361

Ta có:

d(C, c1) > d(C, c2) => C thuộc cụm 2 d(D, c1) > d(D, c2) => D thuộc cụm 2

Định dạng
Số trang	56
Dung lượng	0,91 MB