NGUYỄN CÔNG KHA NGHIÊN CỨU PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG TRONG PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA SINH VIÊN Chuyên ngành: Công nghệ thông tin Mã số: 60480201 LUẬN VĂN THẠC SĨ CÔN
Trang 1NGUYỄN CÔNG KHA
NGHIÊN CỨU PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG TRONG PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ
HỌC TẬP CỦA SINH VIÊN
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
ĐỒNG THÁP, tháng 3/2017
Trang 2NGUYỄN CÔNG KHA
NGHIÊN CỨU PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG TRONG PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ HỌC TẬP
CỦA SINH VIÊN
Chuyên ngành: Công nghệ thông tin
Mã số: 60480201
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Người hướng dẫn khoa học: TS PHAN ANH PHONG
Trang 3Phan Anh Phong, người đã tận tụy và nhiệt tình hướng dẫn, chỉ bảo và giúp
đỡ em trong suốt quá trình làm luận văn
Em cũng xin chân thành gửi lời cảm ơn đến các thầy, cô đã tham gia giảng dạy và chia sẽ những kinh nghiệm quí báu cho tập thể lớp nói chung và bản thân em nói riêng
Tôi cũng xin gửi lời cảm ơn tới gia đình, bạn bè, đồng nghiệp đã luôn ủng hộ và động viên tôi để tôi có thể hoàn thành tốt luận văn
Cuối cùng, tôi xin gửi lời cảm ơn tới Ban giám hiệu trường Đại học Đồng Tháp, Phòng Đào tạo sau đại học đã tạo điều kiện thuận lợi cho tôi tham gia khóa học và hoàn thành luận văn
Một lần nữa, xin chân thành cảm ơn
Đồng Tháp, ngày 02 tháng 3 năm 2017
Học viên
Nguyễn Công Kha
Trang 4tài liệu một cách nghiêm túc dưới sự hướng dẫn của TS Phan Anh Phong Nội dung luận văn được hình thành và phát triển từ ý tưởng, sự sáng tạo của bản thân, kết quả thu được là hoàn toàn trung thực
Cần Thơ, ngày 02 tháng 3 năm 2017
Người cam đoan
Nguyễn Công Kha
Trang 5MỤC LỤC
LỜI CẢM ƠN 2
LỜI CAM ĐOAN 3
DANH MỤC CÁC TỪ VIẾT TẮT 6
DANH MỤC CÁC BẢNG 7
DANH MỤC CÁC HÌNH MINH HOẠ 7
MỞ ĐẦU 8
1 Lý do chọn đề tài 8
2 Lịch sử vấn đề 8
3 Đối tượng và phạm vi nghiên cứu 9
3.1 Đối tượng nghiên cứu 9
3.2 Phạm vi nghiên cứu 9
4 Mục đích và nhiệm vụ nghiên cứu 10
5 Phương pháp nghiên cứu 10
6 Đóng góp của luận văn 10
Chương 1: TỔNG QUAN VỀ TẬP MỜ VÀ PHÂN CỤM DỮ LIỆU 11
1.1 Đặt vấn đề 11
1.2 Tập mờ 12
1.2.1 Các khái niệm 12
1.2.2 Các phép toán trên tập mờ 13
1.2.3 T-norms và t-conorm 18
1.2.4 Khoảng cách giữa các tập mờ 20
1.3 Phân cụm dữ liệu 20
1.3.1 Các phương pháp phân cụm 20
1.3.2 Thuật toán phân cụm C-MEANS 25
1.3.3 Một ví dụ về phân cụm C-MEANS 26
1.4 Phân cụm dữ liệu trong giáo dục 31 1.4.1 Ứng dụng phân cụm dữ liệu trong phân tích, đánh giá kết quả học tập
Trang 61.4.2 Ứng dụng thuật toán phân cụm dữ liệu để khai thác kết quả thi nhằm
chuẩn hóa chất lượng đề thi trắc nghiệm 32
1.5 Kết luận chương 1 32
Chương 2: PHÂN CỤM MỜ DỮ LIỆU VỚI THUẬT TOÁN FCM 33
2.1 Tổng quan về thuật toán cụm mờ C-means (FCM) 33
2.2 Thuật toán phân cụm mờ FCM 33
2.2.1 Cơ sở toán học FCM 33
2.2.2 Thuật toán FCM 34
2.3 Ưu điểm và nhược điểm của FCM 36
2.4 FCM với các hàm khoảng cách khác nhau 36
2.4.1 Hàm khoảng cách 36
2.4.2 Khoảng cách Euclidian 37
2.4.3 Khoảng cách Chebyshev 37
2.4.4 Khoảng cách Manhattan 38
2.4.5 Nhận xét kết quả phân cụm FCM với các hàm khoảng cách 38
2.5 FCM với sự thay đổi chỉ số mờ “m” 40
2.6 FCM với sự thay đổi số cụm “c” 40
2.7 Kết luận chương 2 41
Chương 3: PHÂN TÍCH VÀ ĐÁNH GIÁ KẾT QUẢ HỌC TẬP CỦA SINH VIÊN SỬ DỤNG KỸ THUẬT PHÂN CỤM 42
3.1 Ứng dụng phân cụm dữ liệu trong phân tích, đánh giá kết quả học tập của sinh viên theo học phần chung 43
3.2 Ứng dụng phân cụm dữ liệu trong phân tích, đánh giá kết quả học tập của sinh viên theo học phần tiên quyết 48
KẾT LUẬN 52
TÀI LIỆU THAM KHẢO 53
Trang 7DANH MỤC CÁC TỪ VIẾT TẮT
Hierarchies
Search
Noise
Trang 8DANH MỤC CÁC BẢNG
Bảng 3.1 So sánh kết quả phân cụm 3 hàm khoảng cách với số cụm 4 47
Bảng 3.2 So sánh kết quả phân cụm Manhattan với kết quả đánh giá Bộ GD&ĐT với số cụm 4 48
DANH MỤC CÁC HÌNH MINH HỌA Hình 1.1 Tập mờ và tập rõ 12
Hình 1.2 Miền tin cậy và miền xác định tập mờ A 13
Hình 1.3 Tập bù A của tập mờ A 14
Hình 1.4 Hợp của hai tập mờ có cùng tập vũ trụ 15
Hình 1.5 Giao của hai tập mờ có cùng tập vũ trụ 15
Hình 2.1 Khoảng cách Chebyshev trên bàn cờ vua 38
Hình 2.2 So sánh giữa khoảng cách Mahattan và khoảng cách Euclide 38
Hình 2.3 So sánh kết quả phân cụm các hàm khoảng cách khác nhau 39
Hình 3.1 Ma trận Uik theo khoảng cách Euclide với số cụm 5 44
Hình 3.2 Ma trận Uik theo khoảng cách Euclide với số cụm 4 46
Hình 3.3 Ma trận U ik theo khoảng cách Manhattan với số cụm 4 47
Hình 3.4 Bảng thuộc tính 20 sinh viên theo học phần tiên quyết 49
Hình 3.5 Giá trị Uik 20 sinh viên theo học phần tiên quyết 50
Hình 3.6 Giá trị Vij 5 học phần tiên quyết theo 3 cụm 51
Trang 9MỞ ĐẦU
1 Lý do chọn đề tài
Trong giáo dục các nhà quản lý, cán bộ tham gia giảng dạy cần có những công cụ đủ mạnh để có thể thông qua đó có cái nhìn tổng quát và cụ thể hơn về quá trình học và kết quả học tập của sinh viên Phân cụm dữ liệu là công cụ hoàn toàn có thể đáp ứng nhu cầu đó
Trên thế giới hiện nay, phân cụm dữ liệu đã được nhiều quốc gia ứng dụng trong nhiều lĩnh vực, trong đó có giáo dục Và thành công của nó mang lại đã bước đầu được các nhà quản lý giáo dục tại Việt Nam nghiên cứu và ứng dụng
Tại Việt Nam, đã có một số công trình nghiên cứu về phân cụm dữ liệu trong giáo dục như: Ứng dụng phân cụm dữ liệu trong phân tích, đánh giá kết quả học tập của học sinh Tuy nhiên, mức độ ứng dụng chỉ dừng lại ở nghiên cứu
Xuất phát từ những lý do trên, tôi chọn đề tài “Nghiên cứu phân cụm
dữ liệu và ứng dụng trong phân tích, đánh giá kết quả học tập của sinh viên”
2 Lịch sử vấn đề
Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, phát hiện các cụm dữ liệu tiềm năng, quan trọng trong tập dữ liệu ban đầu, từ đó cung cấp những thông tin, tri thức có ích trong việc đưa ra quyết định Bản chất của phân cụm dữ liệu là chia tách tập dữ liệu lớn ban đầu thành các cụm dữ liệu sao cho các phần tử trong cùng một cụm sẽ tương tự nhau và các phần tử trong các cụm khác nhau sẽ không tương tự nhau
Trang 10Hiện nay có nhiều thuật toán phân cụm khác nhau như: K-means, Pam, C-means, thuật toán phân cụm trừ… Trong đó, thuật toán phân cụm mờ -means được kế thừa và phát triển từ thuật toán phân cụm rõ K-means Cả 2 thuật toán đều sử dụng chung một chiến lược là phân cụm dữ liệu
Phân cụm dữ liệu được ứng dụng trong nhiều lĩnh vực khác nhau như: kinh tế, bảo hiểm, qui hoạch đô thị… và lĩnh vực giáo dục cũng không ngoại
lệ Chẳng hạn, trong lĩnh vực qui hoạch đô thị, ứng dụng phân cụm dữ liệu trong việc nhận dạng các nhóm nhà theo kiểu và vị trí địa lý, nhằm cung cấp cho thông tin qui hoạch Trong lĩnh vực bảo hiểm, nhận dạng các nhóm công
ty bảo hiểm có chính sách bảo hiểm mô tô với chi phí đền bù cao…
3 Đối tượng và phạm vi nghiên cứu 3.1 Đối tượng nghiên cứu
- Căn bản về tập mờ;
- Phân cụm rõ K-MEANS;
- Phân cụm mờ C-MEANS;
- Kết quả học tập của sinh viên ;
- Cách đánh giá kết quả học tập của sinh viên;
Trang 114 Mục đích và nhiệm vụ nghiên cứu
* Mục đích nghiên cứu:
- Nghiên cứu các kỹ thuật phân cụm dữ liệu;
- Nghiên cứu các thuật toán K-MEANS, phân cụm mờ C-MEANS;
- Phân tích và đánh giá kết quả học tập của sinh viên theo học phần chung và học phần tiên quyết sử dụng thuật toán phân cụm mờ C-MEANS;
* Nhiệm vụ nghiên cứu:
- Khảo sát và thu thập điểm điểm tổng kết học phần chung và học phần tiên quyết của sinh viên;
- Nghiên cứu về thuật toán phân cụm mờ C-MEANS và K-MEANS;
- Nghiên cứu việc ứng dụng thuật toán phân cụm mờ C-MEANS, MEANS trong phân tích và đánh giá kết quả học tập của sinh viên
K-5 Phương pháp nghiên cứu
Dựa trên thực trạng quản lý việc dạy và học tại trường Cao đẳng Cần Thơ để nghiên cứu ứng dụng phân cụm dữ liệu vào trong phân tích, đánh giá kết
quả học tập của sinh viên
6 Đóng góp của luận văn
Luận văn góp phần làm cho công tác quản lý của trường Cao đẳng Cần Thơ sẽ dễ dàng hơn Thông qua đó nâng cao chất lượng dạy và học tại trường
Trang 12Chương 1: TỔNG QUAN VỀ TẬP MỜ VÀ PHÂN CỤM DỮ LIỆU 1.1 Đặt vấn đề
Hiện nay, có nhiều trường đại học, cao đẳng đã chuyển từ hình thức đào tạo niên chế sang chế tín chỉ hoặc tín chỉ Tuy nhiên, bên cạnh những thuận lợi mà nó mang lại như: sinh viên có thể tự chủ việc xây dựng kế hoạch học tập cho mình, sinh viên chỉ cần tích lũy đủ số tín chỉ cần thiết là có thể ra trường…thì việc học theo tín chỉ (hoặc chế tín chỉ) cũng mang lại nhiều khó khăn như: công tác điều hành quản lý sẽ khó khăn do mỗi sinh viên có một kế hoạch học tập khác nhau, sinh viên mất nhiều thời gian cho việc lập kế hoạch học tập, điều chỉnh kế hoạch, đăng ký học phần, việc tổ chức kế hoạch thực tập, thực tế cho sinh viên vì thế cũng gặp khó khăn Vì vậy, việc phân cụm dữ liệu sẽ giúp cho công tác quản lý có cái nhìn đa chiều, toàn diện hơn dựa vào kết quả học tập của sinh viên Từ đó, tổ chức học tập tốt hơn Chẳng hạn như: xếp lớp học lại, phân nhóm sinh viên đi thực tập, thực tế
Thực tế, trên thế giới việc ứng dụng phân cụm dữ liệu vào trong giáo dục đã được thực hiện nhiều Tại Việt Nam cũng đã có một số nghiên cứu về ứng dụng của phân cụm dữ liệu trong giáo dục như: Ứng dụng thuật toán phân cụm dữ liệu để khai thác kết quả thi nhằm chuẩn hóa chất lượng đề thi trắc nghiệm của tác giả Đặng Thái Thịnh hoặc Ứng dụng phân cụm dữ liệu trong phân tích, đánh giá kết quả học tập của học sinh của tác giả Đỗ Văn Minh
Phân cụm dữ liệu có 2 hướng tiếp cận, theo hướng tiếp cận phân cụm
rõ thì mỗi điểm chỉ thuộc một cụm duy nhất, trong khi đó, phân cụm mờ cho phép các điểm dữ liệu linh hoạt hơn, một điểm dữ liệu có thể thuộc nhiều cụm Vì vậy, việc ứng dụng phân cụm mờ vào trong đánh giá kết quả sinh viên là cần thiết
Trang 131.2 Tập mờ
1.2.1 Các khái niệm
- Các tập mờ hay tập hợp mờ (Fuzzy set): là một mở rộng của lý
thuyết tập hợp cổ điển và được dùng trong lôgic mờ Trong lý thuyết tập hợp
cổ điển, quan hệ thành viên của các phần tử trong một tập hợp được đánh giá theo kiểu nhị phân theo một điều kiện rõ ràng - một phần tử hoặc thuộc hoặc không thuộc về tập hợp Ngược lại, lý thuyết tập mờ cho phép đánh giá từ từ
về quan hệ thành viên giữa một phần tử và một tập hợp Các tập mờ được coi
là một mở rộng của lý thuyết tập hợp cổ điển là vì với một universe nhất định, một hàm liên thuộc có thể giữ vai trò của một hàm đặc trưng ánh xạ mỗi phần
tử tới một giá trị 0 hoặc 1 như trong khái niệm cổ điển
Một tập mờ A trên khoảng không gian nền X được định nghĩa như sau:
Hàm thuộc µA(x) lượng hóa mức độ mà các phần tử x thuộc về tập cơ
sở X Nếu hàm cho kết quả 0 đối với một phần tử thì phần tử đó không có trong tập đã cho, kết quả một mô tả một thành viên toàn phần của tập hợp Các giá trị trong khoảng mờ từ 0 đến 1 đặc trưng cho các thành viên mờ
Hình 1.1: Tập mờ và tập rõ
- Miền xác định: Biên giới tập mờ A, ký hiệu là supp(A), là tập rõ gồm
các phần tử của X có mức độ phụ thuộc của x vào tập mờ A lớn hơn 0
Trang 14- Miền tin cậy: Lõi tập mờ A, ký hiệu là core(A), là tập rõ gồm các phần
tử của X có mức độ phụ thuộc của x vào tập mờ A bằng 1
core(A) = { x | µA(x) = 1} (1.2)
Hình 1.2: Miền tin cậy và miền xác định của tập mờ A
1.2.2 Các phép toán trên tập mờ
- Phần bù của tập mờ: Cho tập mờ A trên tập vũ trụ X, tập mờ bù của
Trang 16- Giao của các tập mờ: Cho A, B là hai tập mờ trên vũ trụ X, tập mờ
Trang 17n n
và B~ = 1,0/1 + 0,6/2 Khi đó, A~ x B~ = 0,5/(1,1) + 1,0/(2,1) + 0,6/(3,1) + 0,5/(1,2) + 0,6/(2,2) + 0,6/(2,3)
Một ví dụ ứng dụng của tích Descartes là kết nhập (aggreegation) các thông tin mờ về các thuộc tính khác nhau của một đối tượng Ví dụ trong các
hệ luật của các hệ trợ giúp quyết định hay hệ chuyên gia, hệ luật trong điều khiển thường có các luật dạng sau đây:
i
“nếu-thì” trên đều đòi hỏi việc tích hợp các dữ liệu trong phần tiền tố “nếu” nhờ toán tử kết nhập, một trong những toán tử như vậy là lấy tích Descartes
A A A
Trang 18- Tính chất của các phép toán trên tập mờ: Như các phép toán trên tập
rõ, các phép toán trên tập mờ cũng có một số tính chất sau đối với các tập mờ
Trang 19Chúng ta dễ dàng kiểm chứng rằng phép min (˄) và phép tích đại số (.) là
Ví dụ những phép t-norm hay được sử dụng:
Trang 20t-conorm, hay còn gọi là S-norm nếu nó thỏa các tính chất sau với
, ', , 0,1
a a b c
Trang 211.2.4 Khoảng cách giữa các tập mờ
Khoảng cách giữa hai tập mờ là một công cụ cơ bản và quan trọng trong lý thuyết tập mờ Bằng chứng là việc nó được sử dụng trong nhiều lĩnh vực khác nhau Chẳng hạn như: Bonissone [12] đã áp dụng các khoảng cách khác nhau vào phân tích quyết định trong trí tuệ nhân tạo, Wang and Xing [19] chứng minh bằng các khoảng cách khác nhau trong nhận dạng mẫu Hàm d A B , ¡ , với A, B là hai tập mờ trong không gian X, được gọi là
độ đo khoảng cách nếu thỏa mãn các tính chất sau:
- Phương pháp phân cụm phân hoạch (Partitioning Methods)
Kỹ thuật này phân hoạch một tập hợp dữ liệu có n phần tử thành k nhóm
Trang 22các đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụm hình cầu trong không gian Euclidean Ngoài ra, phương pháp này cũng phụ thuộc vào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc có quan hệ là xa nhau so với mỗi điểm khác Tuy nhiên, phương pháp này không thể xử lí các cụm có hình dạng kỳ quặc hoặc các cụm có mật độ các điểm dầy đặc Các thuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưu toàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phân hoạch có thể được Chính vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục bộ cho vấn đề này bằng cách sử dụng một hàm tiêu chuẩn để đánh giá chất lượng của cụm cũng như
để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ý tưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm
Một số thuật toán trong phương pháp này như: K_means, K-medoids, CLARA, CLARANS
- Phương pháp phân cụm phân cấp (Hierarchical Methods)
Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệu đang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạng hình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếp cận phổ biến của kỹ thuật này đó là: hòa nhập nhóm thường được gọi là tiếp cận Bottom-Up và phân chia nhóm thường được gọi là tiếp cận Top-Down
+ Phương pháp Bottom up: Phương pháp này bắt đầu với mỗi đối tượng được khởi tạo tương ứng với các cụm riêng biệt, sau đó tiến hành nhóm các đối tượng theo một độ đo tương tự (như khoảng cách giữa hai trung tâm
Trang 23của hai nhóm), quá trình này được thực hiện cho đến khi tất cả các nhóm được hòa nhập vào một nhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điều kiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiến lược ăn tham trong quá trình phân cụm
+ Phương pháp Top Down: Bắt đầu với trạng thái là tất cả các đối tượng được xếp trong cùng một cụm Mỗi vòng lặp thành công, một cụm được tách thành các cụm nhỏ hơn theo giá trị của một phép đo độ tương tự nào đó cho đến khi mỗi đối tượng là một cụm, hoặc cho đến khi điều kiện dừng thỏa mãn Cách tiếp cận này sử dụng chiến lược chia để trị trong quá trình phân cụm
Một số thuật toán nổi bật trong phương pháp này như: BIRCH, CURE,…
- Phương pháp phân cụm dựa trên mật độ (Density-Based Methods)
Kỹ thuật này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định, mật độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được phát triển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớn hơn một ngưỡng đã được xác định trước Phương pháp phân cụm dựa trên mật độ của các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệu với hình thù bất kỳ Kỹ thuật này có thể khắc phục được các phần tử ngoại lai hoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán là rất khó khăn, trong khi các tham số này lại có tác động rất lớn đến kết quả phân cụm
Một số thuật toán nổi bật trong phương pháp này như: DBSCAN, CLIQUE…
Trang 24- Phương pháp phân cụm dựa trên lưới (Grid-Based Methods)
Kỹ thuật phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựa trên cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụng cho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa
dữ liệu thành các ô tạo thành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cần làm việc với các đối tượng trong từng ô trên lưới chứ không phải các đối tượng dữ liệu Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trong các ô mà xây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô Phương pháp này gần giống với phương pháp phân cụm phân cấp nhưng chúng không trộn các ô, đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu nhiều chiều mà phương pháp phân phân cụm dựa trên mật
độ không giải quyết được Ưu điểm của phương pháp phân cụm dựa trên lưới
là thời gian xử lí nhanh và độc lập với số đối tượng dữ liệu trong tập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều của không gian lưới
Một số thuật toán nổi bật trong phương pháp này như: STING, WAVECLUSTER, CLIQUE…
- Phương pháp phân cụm dựa trên mô hình (Model-Based
Clustering Methods)
Phương này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hình sao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lược phân cụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc
mô hình mà chúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận dạng ra các phân hoạch
Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn
Trang 25hợp phân phối xác suất cơ bản Các thuật toán phân cụm dựa trên mô hình có hai cách tiếp cận chính: mô hình thống kê và mạng nơron Phương pháp này gần giống với phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệt nhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắt đầu với một số cụm cố định và không sử dụng cùng một
Một số thuật toán nổi bật trong phương pháp này như: EM, AutoClass…
- Phương pháp phân cụm có dữ liệu ràng buộc (Binding data
Clustering methods)
Sự phát triển của phân cụm dữ liệu không gian trên cơ sở dữ liệu lớn đã cung cấp nhiều công cụ tiện lợi cho việc phân tích thông tin địa lí, tuy nhiên hầu hết các thuật toán này cung cấp rất ít cách thức cho người dùng để xác định các ràng buộc trong thế giới thực cần phải được thỏa mãn trong quá trình phân cụm Để phân cụm dữ liệu không gian hiệu quả hơn, các nghiên cứu bổ sung cần được thực hiện để cung cấp cho người dùng khả năng kết hợp các ràng buộc trong thuật toán phân cụm
Hiện nay, các phương pháp phân cụm trên đã và đang được phát triển và
áp dụng nhiều trong các lĩnh vực khác nhau và đã có một số nhánh nghiên cứu được phát triển trên cơ sở của các phương pháp đó như:
+ Phân cụm thống kê: Dựa trên các khái niệm phân tích hệ thống, nhánh nghiên cứu này sử dụng các độ đo tương tự để phân hoạch các đối tượng, nhưng chúng chỉ áp dụng cho các dữ liệu có thuộc tính số
+ Phân cụm khái niệm: Kỹ thuật này được phát triển áp dụng cho dữ liệu hạng mục, chúng phân cụm các đối tượng theo các khái niệm mà chúng
xử lí
Trang 26+ Phân cụm mờ: Sử đụng kỹ thuật mờ để phân cụm dữ liệu Các thuật toán thuộc loại này chỉ ra lược đồ phân cụm thích hợp với tất cả các hoạt động đời sống hàng ngày, chúng chỉ xử lí các dữ liệu thực không chắc chắn
+ Phân cụm mạng Kohonen: Loại phân cụm này dựa trên khái niệm của các mạng nơron Mạng Kohonen có tầng nơron vào và các tầng nơron ra Mỗi nơron của tầng vào tương ứng với mỗi thuộc tính của bản ghi, mỗi một nơron vào kết nối với tất cả các nơron của tầng ra Mỗi liên kết được gắn liền với một trọng số nhằm xác định vị trí của nơron ra tương ứng
1.3.2 Thuật toán phân cụm C-MEANS
K-means là thuật toán rất quan trọng và được sử dụng rộng rãi trong phân cụm dữ liệu Thuật toán này có nhiều biến thể khác nhau nhưng nó được
J B MacQueen đưa ra đầu tiên vào năm 1967 Ý tưởng chính của thuật toán k-means là tìm cách phân nhóm các đối tượng vào k cụm sao cho tổng bình phương khoảng cách giữa các đối tượng đến tâm nhóm là nhỏ nhất
Thuật toán k-means được mô tả thông qua sơ đồ sau:
Start
Number of cluster K
Centroid
Distance object to centroid
Grouping based on Minimum distance
No object
Trang 27Thuật toán k-means được thực hiện với các bước chính sau:
Bước 1: Chọn ngẫu nhiên k tâm cho k cụm Mỗi cụm đại diện bằng
tâm các cụm
Bước 2: Tính khoảng cách giữa các đối tượng đến k tâm Bước 3: Nhóm các đối tượng vào cụm gần nhất
Bước 4: Xác định lại tâm mới cho các nhóm
Bước 5: Thực hiện lại bước b cho đến khi không có sự thay đổi nhóm
nào của các đối tượng
Trang 28Bước 2: Tính khoảng cách từ các đối tượng đến tâm của nhóm (khoảng