TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI KHOA CÔNG NGHỆ THÔNG TIN ỨNG DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU ĐỂ PHÂN LOẠI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIỄN THÔNG VIETTEL Hà Nội – 2016.
Trang 1TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
ỨNG DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU
ĐỂ PHÂN LOẠI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ
VIỄN THÔNG VIETTEL
Hà Nội – 2016
Trang 2TRƯỜNG ĐẠI HỌC TÀI NGUYÊN VÀ MÔI TRƯỜNG HÀ NỘI
KHOA CÔNG NGHỆ THÔNG TIN
NGUYỄN KHÁNH DUY
ỨNG DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU
ĐỂ PHÂN LOẠI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ
VIỄN THÔNG VIETTEL
Chuyên ngành : Công Nghệ Thông Tin
Mã ngành :D480201
Người hướng dẫn : TS.NGUYỄN NHƯ SƠN
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là sản phẩm nghiên cứu của bản thân,được xuất phát từ yêu cầu bài toán phát sinh trong công việc để hình thành hướng nghiên cứu được thực hiện dưới sự hướng dẫn của giá viên hướng dẫn Mọi sự tham khảo sử dụng trong đồ án đều được trích dẫn các nguồn tài liệu trong báo cáo và danh mục tài liệu tham khảo Các sao chép không hợp lệ, vi phạm quy chế của nhà trường, tôi xin hoan toàn chịu trách nhiệm
Hà N ội, ngày 11 tháng 06 năm 2016
Tác giả đồ án
Nguyễn Khánh Duy
Trang 4LỜI CẢM ƠN
Trên thực tế không có sự thành công nào mà không gắn liền với những sự giúp
đỡ mọi người dù ít hay nhiều, dù trực tiếp hay gián tiếp Trong suốt thời gian học tập nhất là trong quá trình thực tập, em đã nhận được rất nhiều sự quan tâm giúp đỡ nhiệt tình của các thầy cô, bạn bè và gia đình
Đầu tiên em xin gửi lời cảm ơn sâu sắc đến thầy TS.Nguyễn Như Sơn, thầy đã trực tiếp hướng dẫn và giúp đỡ em rất nhiều trong thời gian em làm niên luận này
Em xin cảm ơn Ban giám đốc Viện Công nghệ thông tin – Viện Hàn Lâm và Khoa Học Việt Nam đã cho phép và tạo điều kiện thuận lợi cho em được thực tập ở Viện
Em cũng xin gửi lời cảm ơn đến thầy Ts.Hà Mạnh Đào, Trưởng khoa Công nghệ thông tin đồng thời cũng là giáo viên chủ nhiệm của lớp em, cùng các thầy cô giáo trong Khoa đã nhiệt tình giúp đỡ em trong quá trình học tập tại trường
Cuối cùng, em xin gửi lời cảm ơn chân thành tới gia đình và bạn bè đã luôn giúp đỡ, động viên và tạo điều kiện tốt nhất cho em trong suốt quá trình học tập cũng như trong cuộc sống
Vì năng lực có hạn nên bài báo cáo của em còn nhiều hạn chế và không thể tránh khỏi những thiếu sót, mong thầy cô và các bạn có những ý kiến đóng góp để
em có thể hoàn thiện và phát triển đề tài hơn
Em xin chân thành cảm ơn!
Hà N ội, ngày 11 tháng 06 năm 2016
Sinh viên thực hiện
Nguyễn Khánh Duy
Trang 5MỤC LỤC
DANH MỤC HÌNH VẼ
DANH MỤC VIẾT TẮT
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN CÁC KIẾN THỨC CƠ BẢN VỀ KHAI PHÁ DỮ LIỆU VÀ KHÁM PHÁ TRI THỨC 3
1.1 Khám phá tri thức và khai phá dữ liệu là gì? 3
1.1.1 Quá trình khám phá tri thức 4
1.1.2 Quá trình khai phá dữ liệu 6
1.2 Các kỹ thuật khai phá dữ liệu 8
1.3 Các dạng dữ liệu có thể khai phá được 13
1.4 Các lĩnh vực liên quan đến khai phá dữ liệu 13
1.4.1 Các lĩnh vực liên quan đến phát hiện tri thức và khai phá dữ liệu 13
1.4.2 Ứng dụng của khai phá dữ liệu 13
1.5 Kết Luận 14
CHƯƠNG 2: GIỚI THIỆU MỘT SỐ KỸ THUẬT PHÂN CỤM DỮ LIỆU DÙNG PHỔ BIẾN TRONG KHAI PHÁ DỮ LIỆU VÀ PHÁT TRIỂN TRI THỨC 15
2.1 Giới thiệu 15
2.2 Một số kỹ thuật phân cụm 16
2.2.1 Phương pháp phân cụm phẳng 16
2.2.2 Phương pháp phân cụm phân cấp 20
2.2.3 Phương pháp phân cụm dựa trên mật độ 26
2.2.4 Phương pháp phân cụm trên lưới 31
2.2.5 Phương pháp phân cụm dữ liệu dựa trên mô hình 34
2.2.6 Phân cụm dữ liệu mờ 36
2.3 Các kiểu dữ liệu trong phân cụm 37
2.4 Các ứng dụng của phân cụm 38
2.5 Kết luận 39
Trang 6CHƯƠNG 3: SỬ DỤNG KỸ THUẬT PHÂN CỤM DỮ LIỆU ĐỂ ỨNG DỤNG
VÀO PHÂN LOẠI KHÁCH HÀNG SỬ DỤNG DỊCH VỤ VIETTEL 41
3.1 Tổng quan về khách hàng 41
3.1.1 Phân tích khách hàng 41
3.1.2 Phân loại khách hàng sử dụng dịch vụ viễn thông 41
3.2 Đặt vấn đề bài toán 42
3.3 Cài đặt cơ sở dữ liệu 42
3.4 Cài đặt thuật toán 45
KẾT LUẬN VÀ KIẾN NGHỊ 50
TÀI LIỆU THAM KHẢO 51
Trang 7DANH MỤC HÌNH VẼ
Hình 1.1 Quá trình khám phá tri thức 4
Hình 1.2 Quá trình khai phá dữ liệu 7
Hình 2.1 Mô hình về phân cụm dựa trên tiêu chuẩn thu nhập và số nợ 15
Hình 2.2 Ví dụ về một số hình dạng cụm dữ liệu được khám phá bởi K-means 18
Hình 2.3 Các trường hợp xảy ra khi thay thế một phần tử đại diện 19
trong thuật toán PAM 19
Hình 2.4 Các chiến lược phân cụm phân cấp 21
Hình 2.5 Cây CF được sử dụng bởi thuật toán BRICH 22
Hình 2.6 Các cụm dữ liệu được khai phá bởi CURE 24
Hình 2.7 Vi dụ thực hiện phân cụm bỏi thuật toán CURE 25
Hình 2.8 Một số hình dạng được khám phá bởi phân cụm dựa trên mật độ 26
Hình 2.9 Lân cận P với ngướng Esp 27
Hinh 2.10 Mật độ đến – được trực tiếp 28
Hình 2.11 Mật độ - đến được 28
Hình 2.12 Mật độ liên thông 28
Hình 2.13 Mật độ liên thông 29
Hình 2.14 Thứ tự phân cụm các đôi tượng theo OPTICS 30
Hình 2.15 Mô hình cấu trúc dữ liệu lưới 31
Hình 2.16 Mô hình thuật toán STING 32
Hình 2.17 Quá trình nhận dạng các ô của CLIQUE 34
Hình 3.1 Các trường khai bào dữ liệu 43
Hình 3.2 Cơ sở dữ liệu đầu vào 43
Hình 3.3 Dữ liệu khách hàng trong SQL 44
Hình 3.4 Giao diện chọn tham số cho thuật toán 46
Hình 3.5 Giao diện chính của quá trình phân cụm 46
Hình 3.6 Giao diện phân cụm theo tiền dịch vụ 47
Hình 3.7 Giao diện phân cụm theo thời lượng gọi 47
Trang 8DANH MỤC CÁC TỪ VIẾT TẮT
STT Viết Tắt Cụm Từ Tiếng Anh Cụm Từ Tiếng Việt
1 CNTT InformationTechnology Công nghệ thông tin
3 KPDL Datamining Khai phá dữ liệu
4 PCDL DataClustering Phân cụm dữ liệu