...Vũ Thị Hạnh.pdf tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bài tập lớn về tất cả các lĩnh vực kinh tế,...
Trang 1TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
NGHIÊN CỨU CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG PHÂN CỤM TRONG ĐÁNH
GIÁ KẾT QUẢ CỦA HỌC SINH
Hà Nội, 2016
Trang 2TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
VŨ THỊ HẠNH
NGHIÊN CỨU CÁC THUẬT TOÁN PHÂN CỤM DỮ LIỆU VÀ ỨNG DỤNG PHÂN CỤM TRONG ĐÁNH
GIÁ KẾT QUẢ CỦA HỌC SINH
Chuyên ngành : Công nghệ thông tin
Mã ngành :
NGƯỜI HƯỚNG DẪN: TS HOÀNG VĂN THÔNG
Hà Nội - 2016
Trang 3LỜI CAM ĐOAN
Em xin cam đoan đây là công trình nghiên cứu của riêng em và được sự hướng dẫn của thầy TS Hoàng Văn Thông Các nội dung nghiên cứu, kết quả trong đề tài này là trung thực và chưa công bố dưới bất kỳ hình thức nào trước đây Những số liệu trong các bảng biểu, hình ảnh phục vụ cho việc phân tích, nhận xét, đánh giá được chính tác giả thu thập từ các nguồn khác nhau có ghi
rõ trong phần tài liệu tham khảo
Em xin chịu hoàn toàn trách nhiệm về lời cam đoan của mình trước quý thầy cô, khoa và nhà trường
Hà Nội, ngày 06 tháng 06 năm 2016
Người cam đoan
Vũ Thị Hạnh
Trang 4LỜI CẢM ƠN
Lời đầu tiên em xin gửi lời cảm ơn chân thành đến thầy, cô trường Đại Học Tài Nguyên Và Môi Trường Hà Nội, những người đã trực tiếp giảng dạy, truyền đạt những kiến thức bổ ích cho em, đó chính là nền tảng cơ bản,
là những hành trang vô cùng quý báu để em mang theo trên con đường sự nghiệp trong tương lai Đặc biệt là thầy Hà Mạnh Đào-Trưởng khoa Công Nghệ Thông Tin và cô Đặng Thị Khánh Linh-giáo viên chủ nhiệm, cố vấn học tập của em Cảm ơn thầy, cô đã tận tình quan tâm, giúp đỡ em Nhờ đó,
em mới có thể hoàn thành được báo cáo đồ án tốt nghiệp này
Bên cạnh đó, em xin được gửi lời cảm ơn chân thành tới thầy TS Hoàng Văn Thông-Trường Đại học Giao Thông Vận Tải đã hướng dẫn và giúp đỡ em trong trong quá trình thực hiện đồ án của mình Dù rất bận rộn với công việc nhưng thầy vẫn dành thời gian để gặp gỡ, chỉ bảo, hướng dẫn và tạo mọi điều kiện thuận lợi nhất để em có thể tìm hiểu và thu thập thông tin phục
vụ cho bài báo cáo đồ án tốt nghiệp ngày được hoàn thiện hơn
Trong quá trình làm đồ án và làm báo cáo, vì chưa có nhiều kinh nghiệm thực tế, chỉ dựa vào lý thuyết đã học cũng với khoảng thời gian hạn hẹp nên bài báo cáo chắc chắn sẽ không tránh khỏi những sai sót Kính mong nhận được sự góp ý, nhận xét từ phía quý thầy, cô để kiến thức của em ngày càng hoàn thiện hơn và rút ra được những kinh nghiệm bổ ích để có thể áp dụng vào thực tiễn công việc trong thời gian sắp tới
Kính chúc thầy cô luôn vui vẻ, hạnh phúc, dồi dào sức khỏe và thành công trong công việc
Em xin chân thành cảm ơn
Trang 5MỤC LỤC LỜI CAM ĐOAN
LỜI CẢM ƠN
DANH MỤC BẢNG
DANH MỤC HÌNH VẼ
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ 4
KHAI PHÁ DỮ LIỆU 4
1.1 Giới thiệu chung về khám phá tri thức và khai phá dữ liệu 4
1.2 Quá trình khám phá tri thức 5
1.3 Quá trình khai phá dữ liệu 7
1.4 Các phương pháp khai phá dữ liệu 8
1.5 Các lĩnh vực ứng dụng thực tiễn của khai phá dữ liệu 8
1.6 Các hướng tiếp cận cơ bản và kỹ thuật áp dụng trong khai phá dữ liệu 9
1.7 Những thách thức - khó khăn trong khám phá tri thức và khai phá dữ liệu 11
1.8 Kết luận 12
CHƯƠNG 2 PHÂN CỤM DỮ LIỆU VÀ MỘT SỐ PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU 13
2.1 Khái niệm và mục tiêu của phân cụm dữ liệu 13
2.1.1 Phân cụm dữ liệu là gì? 13
2.1.2 Các mục tiêu của phân cụm dữ liệu 15
2.2 Các ứng dụng của phân cụm dữ liệu 17
2.3 Các yêu cầu và những vấn đề còn tồn tại trong phân cụm dữ liệu 18
2.3.1 Các yêu cầu của phân cụm dữ liệu 18
2.3.2 Những vấn đề còn tồn tại trong phân cụm dữ liệu 20
2.4 Những kỹ thuật tiếp cận trong phân cụm dữ liệu 20
Trang 62.4.1 Phương pháp phân cụm phân hoạch (Partitioning Methods) 21
2.4.2 Phương pháp phân cụm phân cấp (Hierarchical Methods) 22
2.4.3 Phương pháp phân cụm dựa trên mật độ (Density-Based Methods) 23
2.4.4 Phương pháp phân cụm dựa trên lưới (Grid-Based Methods) 24
2.4.5 Phương pháp phân cụm dựa trên mô hình (Model-Based Clustering Methods) 25
2.4.6 Phương pháp phân cụm có dữ liệu ràng buộc (Binding data Clustering Methods) 26
2.5 Một số khái niệm cần thiết khi tiếp cận phân cụm dữ liệu 27
2.5.1 Phân loại các kiểu dữ liệu 27
2.5.2 Độ đo tương tự và phi tương tự 28
2.6 Một số thuật toán cơ bản trong phân cụm dữ liệu 30
2.6.1 Thuật toán K_Means [7] 30
2.6.2 Thuật toán K_MEDOIDS 36
2.6.3 Thuật toán AGNES (thuật toán phân cụm phân cấp) 40
2.6.4 Thuật toán FRUZZY C-MEANS 45
2.7 Kết Luận……… 53
CHƯƠNG 3: ỨNG DỤNG PHÂN CỤM DỮ LIỆU TRONG VIỆC PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ CỦA HỌC SINH VỚI THUẬT TOÁN K_MEANS 54
3.1 Đặt vấn đề 54
3.2 Giải quyết vấn đề 55
3.2.1 Xác định bài toán 55
3.2.2 Lựa chọn thuật toán 55
3.3 Chương trình ứng dụng 55
3.3.1 Mục đích chương trình 55
3.3.2 Cơ sở dữ liệu đưa vào 56
3.3.3 Chức năng chính của chương trình 57
Trang 73.4 Kết quả thử nghiệm 58
3.4.1 Phân cụm theo điểm trung bình cả năm 58
3.4.2 Phân cụm điểm theo điểm trung bình môn học 61
3.5 Kết Luận 63
KẾT LUẬN VÀ KIẾN NGHỊ 65
TÀI LIỆU THAM KHẢO 67
Trang 8DANH MỤC BẢNG
Bảng 2.1: Kết quả phân cụm với thuật toán K_means lần 1 35
Bảng 2.2: Kết quả phân cụm với thuật toán K_means lần 2 36
Bảng 2.3: Kết quả phân cụm với thuật toán K_Medoids lần 1 39
Bảng 2.4: Kết quả phân cụm với thuật toán K_Medoids lần 2 39
Bảng 2.5: Kết quả phân cụm với thuật toán K_Medoids lần 3 40
Bảng 2.6: Ma trận khoảng cách 44
Trang 9DANH MỤC HÌNH VẼ
Hình 1.1 Quá trình khám phá tri thức 5
Hình 1.2 Quá trình khai phá dữ liệu 7
Hình 2.1 Phân cụm ảnh 14
Hình 2.2 Phân cụm tổng quát 14
Hình 2.3 Ví dụ phân cụm các ngôi nhà dựa trên khoảng cách 15
Hình 2.4 Ví dụ phân cụm các ngôi nhà dựa trên kích cỡ 16
Hình 2.5 Các chiến lược phân cục phân cấp [7] 22
Hình 2.6 Ví dụ về phân cụm mật độ [1] 23
Hình 2.7 Cấu trúc phân cụm dựa trên lưới [7] 25
Hình 2.8 Minh họa số đo chiều rộng, chiều cao một đối tượng [6] 29
Hình 2.9 Ví dụ các bước của thuật toán k-means 33
Hình 2.10 Ví dụ về thuật toán K_means 34
Hình 2.11 Sự thay đổi tâm cụm trong k-means khi có phần tử ngoại lai 36
Hình 2.12 Ví dụ về thuật toán K_MEDOIDS 38
Hình 2.13 Phân cụm phân cấp Top-down và Bottom-up 41
Hình 2.14 Single Link 41
Hình 2.15 Complete Link 41
Hình 2.16 Các bước cơ bản của AGNES [7] 42
Hình 2.17 Ví dụ các bước cơ bản của thuật toán AGNES 43
Hình 2.18 Sơ đồ gộp nhóm Single Link 45
Hình 2.19 Sơ đồ cây 45
Hình 2.20 Tập dữ liệu đơn chiều 50
Hình 2.21 Hàm thuộc với trọng tâm của cụm trong K – means 50
Hình 2.22 Hàm thuộc với trọng tâm cụm trong FCM 51
Hình 2.23 Dữ liệu và trung tâm cụm ban đầu 52
Hình 2.24 Dữ liệu được phân cụm bởi FCM 52
Trang 10Hình 3.1 Bảng cơ sở dữ liệu 57 Hình 3.2 Giao diện chính của chương trình 58 Hình 3.3 Phân cụm điểm theo điểm trung bình năm với khối 12, số cụm 3 59 Hình 3.4 Phân cụm điểm theo điểm trung bình năm với khối 11, số cụm 5 60 Hình 3.5 Phân cụm điểm theo điểm trung bình của môn Toán, lớp 12 61 Hình 3.6 Phân cụm theo điểm trung bình của ba môn Toán, Lý, Hóa 62 Hình 3.7 Phân cụm theo điểm trung bình của ba môn Toán, Văn,Anh 63