Để có thể phân tích được các dữ liệu một cách tự động thì nhóm sử dụng phần mềm Orange để xây dựng quy trình khai thác dữ liệu trực quan – đây là phần mềm khai thác dữ liệu phổ biến có t
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH
TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH
KHOA KINH TẾ
TIỂU LUẬN
Môn học: KHOA HỌC DỮ LIỆU
Tp.HCM, tháng 11 năm 2022
Trang 3BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH
TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH
KHOA KINH TẾ
Đề tài: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING.
Giảng viên hướng dẫn: ThS Trần Lê Phúc Thịnh
Siinnh viiêên thhựực hiiệện MSSSV Phhầần trrăăm đóónng góóp
1 Lưươơnng Trruunng Quuốốc 31122001100220044881 10000%
2 Hoàng Võ Cao Sơn 31122001100220044993 10000%
3 Mai Thị Yến Nhi 31122001100226633774 10000%
4 Nguyễn Đức Thắng 31122001100226600448 10000%
5 Trần Nguyễn Trâm Yến 31122001100220066553 10000%
6 Nguyễn Thị Thúy Nga 31122001100220033996 10000%
7 Nguyễn Thị Minh Vương 31122001100220066339 10000%
Mã lớp học phần: 21C1MAR5030011
Trang 4LỜI CẢM ƠN
Để hoàn thành tiểu luận này, em xin gửi lời chân thành đến:
Giảng viên bộ môn Khoa học Dữ liệu - Trần Lê Phúc Thịnh đã giảng dạy tận tình, nhiệt tình và chi tiết để chúng em có kiến thức và vận dụng chúng vào bài tiểu luận này.
Ban giám hiệu trường Đại học UEH vì đã tạo điều kiện về cơ sở vật chất với hệ thống thư viên hiện đại, tài liệu thuận lợi cho việc tìm kiếm, nguyên cứu thông tin.
Do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về kiến thức, trong bài tiểu luận chắc chắn sẽ không tránh khỏi những thiếu sót Rất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình từ phía thầy để bài tiểu luận được hoàn thiện hơn Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành công và hạnh phúc.
Trang 5“ MỤC LỤC
DANH MỤC HÌNH ẢNH 3
LỜI CẢM ƠN 6
LỜI MỞ ĐẦU 7
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 7
1.1 Giới thiệu về Khoa học dữ liệu 7
1.2 Giới thiệu về đề tài “Phân tích và dự đoán sự rời đi của khách hàng trong lĩnh vực viễn thông” 8
1.2.1 Lý do chhọọn đề tàài. 9
1.2.2 Mục tiêiêu nghiêiên cứứu. 9
1.2.3 Phương pháp thực hiện. 9
1.2.4 Ý ngghhĩĩa. 10
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 10
2.1 Tổng quan về phần mềm Orange 10
2.1.1 Mô tả sơ lược về phần mềm Orange. 10
2.1.2 Các tính năng. 11
2.2 Tổng quan về các phương pháp sử dụng 18
2.2.1 Tiền xử lý dữ liệu. 18
2.2.2 Phân lớp dữ liệu. 19
2.2.3 Phân cụm dữ liệu. 21
CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT 25
3.1 Bộ dữ liệu Telecom Customer Churn 25
3.2 Giải thích các thuộc tính của bộ dữ liệu “Telecom Customer Churn” 25 CHƯƠNG 4: KẾT QUẢ THỰC HIỆN 31
4.1 Tiền xử lí dữ liệu 31
4.1.1 Chọn số lượng khảo sát. 32
4.1.2 Loại bỏ các biếiến không phù hợp. 32
4.2 Phân lớp dữ liệu.(lưu ý thứ tự thực hiện) 36
4.2.1 Các phương pháp đánh giá. 36
Trang 64.2.2 Dự bááoo: 42
Trang 74.3 Phân cụm dữ liệu.(lưu ý thứ tự thực hiện) 43
4.3.1 Phương pháp Hierarchical lustering ……….… ………44
Trang 8DANH MỤC HÌNH ẢNH
Hình 1 : Phần mềm orange. 11
Hình 2 : Chọn chức năng Datasets 20
Hình 3 : Chọn bộ dữ liệu Banking Marketing từ Datasets 20
Hình 4 : Liên kết Datasets vào Data Table 21
Hình 5 : Kết quả bộ dữ liệu Banking Marketing trong Data Table 21
Hình 6 : Quy trình tiền xử lý dữ liệu 22
Hình 7 : Các bước thực hiện xử lý dữ liệu trong Preprocess 22
Hình 8 : Kết quả dữ liệu Data_Tiền xử lý dữ liệu với mẫu 4119 quan sát. 23
Hình 9 : Quy trình tạo File Training Data và File Testing Data 23
Hình 10 : Data Sampler của File Training Data 24
Hình 11 : Data Sampler của File Testing Data 24
Hình 12 : Dữ liệu đầu vào. 25
Hình 13 : Lựa chọn chức năng. 26
Hình 14 : Kết quả phân cụm. 26
Hình 15 : Kết quả phân cụm theo chỉ số Silhouette. 27
Hình 16 : Chỉ số Silhouette cao nhất của 2 cụm. 28
Hình 17 : Phân cụm với phương pháp Hierarchical clustering. 28
Hình 18 : Dữ liệu đầu vào. 29
Hình 19 : Phân Cụm với chứng năng K-means. 29
Hình 20 : Bảng kết quả phân cụm 30
Hình 21 : Bảng kết quả phân cụm 1. 31
Hình 22 : Bảng kết quả phân cụm 2. 31
Hình 23 : Bảng chỉ số Silhouette Scores cao nhất của 2 cụm. 32
Hình 24 : Mô hình phân cụm bằng phương pháp K-means. 32
Hình 25 : Mô hình phân cụm dữ liệu Bank Marketing. 33
Hình 26 : Insert File Training Data vào hộp chức năng File 33
Trang 9Hình 27 : Mô hình phân lớp dữ liệu 34
Hình 28 : Kết quả chi mẫu dữ liệu thành 5 phần 35
Hình 29 : Kết quả chia mẫu dữ liệu thành 10 phần 35
Hình 30 : Kết quả chia mẫu dữ liệu với tỷ lệ 10% - 60% 36
Hình 31 : Kết quả chia mẫu dữ liệu với tỷ lệ 20% - 70% 36
Hình 32 : Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression 37
Hình 33 : Kết quả ma trận nhầm lẫn của phương pháp Decision Tree 38
Hình 34 : Kết quả ma trận nhầm lẫn của phương pháp SVM 38
Hình 35 : Kết quả ROC Analysis 39
Hình 36 : Testing Data 40
Hình 37 : Dự báo bằng Prediction với phương pháp Logistic Regression.40
Hình 38 : Kết quả dự báo bằng Logistic Regression của 100 mẫu dữ liệu 41
Trang 10CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu về khoa học dữ liệu
Khoa học dữ liệu là lĩnh vực áp dụng các kỹ thuật phân tích tiên tiến và các nguyên tắc
khoa học để trích xuất thông tin có giá trị từ dữ liệu cho việc ra quyết định kinh doanh, lập
kế hoạch chiến lược và các mục đích sử dụng khác Nó ngày càng quan trọng đối với
các doanh nghiệp: Những hiểu biết sâu sắc mà khoa học dữ liệu tạo ra giúp các
tổ chức tăng hiệu quả hoạt động, xác định các cơ hội kinh doanh mới và cải thiện các chương trình tiếp thị và bán hàng, cùng với các lợi ích khác Cuối cùng, chúng có thể dẫn đến lợi thế cạnh tranh so với các đối thủ kinh doanh.
Khoa học dữ liệu kết hợp nhiều lĩnh vực khác nhau - ví dụ, kỹ thuật dữ liệu, chuẩn bị dữ liệu, khai thác dữ liệu , phân tích dự đoán, học máy và trực quan hóa dữ liệu, cũng như thống kê, toán học và lập trình phần mềm.
Khoa học dữ liệu đóng một vai trò quan trọng trong hầu như tất cả các khía cạnh của hoạt động và chiến lược kinh doanh Ví dụ, nó cung cấp thông tin về khách hàng giúp các
công ty tạo ra các chiến dịch tiếp thị mạnh mẽ hơn và quảng cáo nhắm mục tiêu để tăng doanh số bán sản phẩm Nó hỗ trợ trong việc quản lý rủi ro tài chính, phát hiện các giao dịch gian lận và ngăn ngừa sự cố thiết bị trong các nhà máy sản xuất và các cơ sở công nghiệp khác Nó giúp chặn các cuộc tấn công mạng và các mối đe dọa bảo mật khác trong hệ thống CNTT.
Khoa học dữ liệu cũng rất quan trọng trong các lĩnh vực ngoài hoạt động kinh doanh thông thường Trong chăm sóc sức khỏe, các ứng dụng của nó bao gồm chẩn đoán tình trạng y tế, phân tích hình ảnh, lập kế hoạch điều trị và nghiên cứu y tế Các tổ chức học thuật sử dụng khoa học dữ liệu để theo dõi kết quả hoạt động của sinh viên và cải thiện
hoạt động tiếp thị của họ tới các sinh viên tương lai Các đội thể thao phân tích hiệu suất của người chơi và lập kế hoạch chiến lược trò chơi thông qua khoa học dữ liệu Các cơ quan chính phủ và các tổ chức chính sách công cũng là những người sử dụng lớn.
Vòng đời của khoa học dữ liệu bao gồm sáu bước chính sau:
Xác định một giả thuyết liên quan đến kinh doanh để
kiểm tra Thu thập dữ liệu và chuẩn bị để phân tích.
Thử nghiệm với các mô hình phân tích khác nhau.
Trang 11Chọn mô hình tốt nhất và chạy nó với dữ liệu.
Trình bày kết quả cho các nhà quản trị doanh nghiệp
Triển khai mô hình để sử dụng liên tục với dữ liệu mới.
1.2 Giới thiệu về đề tài.
Makerting hiện đang phổ biến cho mọi ngành nghề Các ngành nghề cần makerting để tối
ưu và tìm hiểu yêu cầu mong muốn của khách hàng hơn nữa còn xác định khả năng sản
xuất với giá thành phù hợp sau đó sản xuất và bán ra thị trường với chiến lược giá đã đề ra.Và đối với bank makerting cũng vậy, ngân hàng cần tiếp thị để phục vụ khách hàng của mình một cách tốt nhất và xem xét cái gì là cần thiết và phù hợp cho khách hàng mục tiêu của mình. 1.2.1 Lý do chọn đề tài.
Hiện nay việc khai thác các dữ liệu đã trở nên không thể thiếu đối với các ngành nghề Đặc biệt ở đây chúng tôi đề cập đến trong thương mại và kinh doanh Một lượng lớn dữ liệu từ khách hàng, hoạt động kinh doanh, đối tác,… Những điều này không thể xử lý bằng sức người, do đó việc số hóa các số liệu này là điều vô cùng cần thiết Để có thể phân tích được các dữ liệu một cách tự động thì nhóm sử dụng phần mềm Orange để xây dựng quy trình khai thác dữ liệu trực quan – đây là phần mềm khai thác dữ liệu phổ biến có thể được thực hiện mà không cần lập trình
Nhóm đã tìm được bộ dữ liệu của một tổ chức ngân hàng, dữ liệu có liên quan Dữ liệu sau khi được phân tích bởi Orange, nhóm sẽ đưa ra một số nhận xét và kết luận của từng cửa
sổ phân tích , đánh giá độ hiệu quả và đề xuất một số hướng phát triển dành cho ???.
Đó cũng là lý do chọn đề tài: “Phân tích bộ dữ liệu Bank Marketing qua các thuật toán trên Orange”.
1.2.2 Mục tiêu nghiên cứu.
Xử lý bộ dữ liệu Bank Makerting để dự đoán liệu khách hàng có đăng ký một khoản tiền gửi có kỳ hạn hay không dựa trên hồ sơ của khách hàng
có các thuộc tính: tuổi, công việc, tình trạng hôn nhân, học vấn,…
1.2.3 Phương pháp thực hiện.
Nhóm sử dụng phần mềm Orange để tiến hành thực hiện xử lý dữ liệu, phân cụm, phân lớp dữ liệu, rồi sau đó tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp.
Trang 12Để thực hiện phân cụm bộ dữ liệu nhóm sử dụng hai phương
pháp chính là: Hierarchical clustering và K-means.
- Đối với phương pháp Hierarchical clustering nhóm tiến hành tính khoàng cách giữa các phân tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quan sát trên Silhouette Plot.
Sau khi thực hiện phân cụm dữ liệu theo hai phương pháp trên, nhóm tiến hành chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu của nhóm.
- Đối với việc phân lớp dữ liệu, nhóm chọn biến "Subscribed" (đã đăng kí) cho việc gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết định (Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (Logistic Rgression) Sử dụng Test and Score, quan sát chỉ số AUC của từng
phương pháp và cuối cùng là quan sát trên ma trận nhầm lẫn.
Trang 13CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG
Các công cụ cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực quan hóa các phần tử dữ liệu.
Trang 14- Quá trình phân lớp dữ liệu gồm hai bước chính:
Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)
Bước 2: Sử dụng mô hình, được chia thành 2 bước nhỏ:
+ Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình):
Dữ liệu đầu vào: Là một tập dữ liệu mẫu khác đã được dán nhãn và tiền xử lý Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn.
Tính đúng đắn của mô hình được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình. + Phân lớp dữ liệu mới.
Dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)
Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng
dữ liệu này dựa vào những gì đã được huấn luyện ở bước 1 2.2.1.3 Một số phương pháp phân lớp.
- Hồi quy Logistic (Logistic Regression): Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập cá giá trị đầu vào (biểu diễn dưới dạng vector).
- Cây quyết định (Decision Tree):
Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm hỗ trợ quá trình ra quyết định.
Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.
- Ưu điểm:
Không đòi hỏi việc chuẩn hóa dữ liệu.
Có thể xử lý trên nhiều kiểu dữ liệu khác nhau.
Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn.
- Khuyết điểm:
Khó giải quyết trong tình huống dữ liệu phụ
thuộc thời gian Cho phí xây dựng mô hình cao.
Trang 15- SVM (Support Vector Machine).
+ Là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.
+ Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.
+ SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau: Hard Margin SVM, Soft Margin SVM, Multi-class SVM, Kernel SVM.
Chưa thể hiện tính xác suất trong phân lớp.
2.2.1.4 Các phương pháp đánh giá mô hình phân lớp.
Khái niệm: Là các phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp trên dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình đó hay không.
Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp và không quá nhạy cảm với nhiễu (tránh underfitting và overfitting).
- Ma trận nhầm lẫn (Confusion Matrix).
Ma trận nhầm lẫn: là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự
phụ thuộc vào một lớp cụ thể và được dự đoán là rơi vào lớp nào.
- Accuracy (tính chính xác).
Là tỉ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu.
Trang 16Accuracy chỉ cho chúng ta biết được tỷ lệ dữ liệu được phân loại đúng mà không chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác.
- ROC, AUC, Precision, Recall, F1-score.
+ ROC (Receiver Operating Characteristic)
Là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phân loại nhị phân Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau.
Mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả.
+ AUC (Area Under The Curve)
Là diện tích nằm dưới đường cong ROC
Giá trị này là một số dương nhỏ hơn hoặc bằng 1
Giá trị này càng lớn thì mô hình càng tốt.
Precision (độ chính xác): cho biết trong số m mẫu được
phân vào lớp i thì có tỷ lệ bao nhiêu mẫu có đúng.
Recall (độ phủ): còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate).
F1-score: giá trị trung bình điều hòa (harmonic mean) của hai
độ đo Precision và Recall.
- Phương pháp phân chia dữ liệu Hold-out
Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo một tỷ lệ nhất định Ví dụ, tập huấn luyện (training set) chiếm 70%, tập thử nghiệm (testing set) chiếm 30%.
Phương pháp này thích hợp cho các tập dữ liệu nhỏ Tuy nhiên, các mẫu
có thể không đại diện cho toàn bộ dữ liệu (thiếu lớp trong tập thử nghiệm).
Có thể cải tiến bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bổ đều trong cả hai tập dữ liệu huấn luyện và đánh giá Hoặc lấy mẫu ngẫu nhiên: thực hiện hold-out k lần và độ chính xác acc(M) = trung bình cộng k giá trị chính xác.
Trang 172.2.2 Phân cụm dữ liệu
2.2.2.1 Khái niệm.
Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có các đặc điểm tương tự nhau và phân vào các cụm/nhóm tương ứng Trong đó:
- Những đối tượng thuộc cùng một cụm sẽ có các thuộc tính tương tự nhau.
- Những đối tượng thuộc những cụm/nhóm khác nhau sẽ có các thuộc tính khác nhau.
Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán
nhãn Đây là dữ liệu tự nhiên thường thấy trong thực tế.
Đặc điểm:
- Nhiệm vụ chính chủ yếu là phát hiện và đo lường sự khác biệt giữa các đối tượng dữ liệu.
- Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning)
vì số lượng nhóm không được biết trước (khác với bài toán phân lớp).
- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:
Độ tương đồng nội bộ cao
Độ tương đồng giữa các cụm thấp (khác biệt
cao) Ứng dụng phân cụm trong kinh tế học
Dự báo khách hàng năng lực
Phân tích xu hướng hành vi khách hàng
Phân tích cạnh tranh giữa các nhà cung cấp, xu hướng
lựa chọn dịch vụ Phân tích đặc tính sản phẩm và dịch vụ
Đánh giá hiệu quả kinh doanh
Phân tích hành vi người dùng mạng xã hội
2.2.2.2 Phân cụm phân cấp (Hierarchical Clustering):
- Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:
Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix) Độ đo khoảng cách giữa các cụm (single link, complete link…)
- Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng.
Trang 18- Các phương pháp điển hình: Diana, Agnes… + Agnes:
Theo chiến lược bottom up:
Bắt đầu với những cụm chỉ là 1 phần tử.
Ở mỗi bước, gom 2 cụm gần nhau thành 1 cụm.
Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình.
Quá trình này lặp lại cho đến khi tất cả các phần tử cùng thuộc một
cụm lớn Kết quả quá trình phát là một dendrogram (cây phân cấp).
Agnes - Dendrogram (cây phân cấp) là sơ đồ/cây biễu diễn sự phân rã các phần tử dữ liệu thành nhiều cấp độ lồng nhau.
+ Diana:
Theo chiến lược top down:
Bắt đầu với một cụm gồm tất cả các phần tử Ở
mỗi bước, chia cụm ban đầu thành hai cụm.
Khoảng cách giữa hai cụm là khoảng cách giữa hai điẻm gần nhất từ hai cụm, khoảng cách trung bình.
Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại cho đến khi mỗi phần tử là một cụm.
Kết quả phát sinh cây phân cấp (dendrogram).
Tốc độ chậm, không thích hợp trên dữ liệu lớn.
Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu 2.2.2.3 Phân cụm phân hoạch (Partitioning Clustering).
Trang 19- Phân tập dữ liệu có n phần tử cho trước thành k tập con (k≤ n), mỗi tập con biễu diễn một cụm.
- Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương
tự (đọ đo phân cụm) sao cho:
Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm
có sự tương tự nhau Mỗi cụm có ít nhất 1 phần tử.
- Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means.
+ Thuật toán K-means
Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch Tư tưởng chính:
Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng).
o Bước 1: chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.
o Bước 2: phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm
dữ liệu ở từng cụm vừa được phân chia không thay đổi so
với kết quả của lần phân chia trước đó thì ta dưng thuật toán.
o Bước 3: cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất
cả các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2.
- Đánh giá thuật toán K-means: + Cần biết trước số lượng cụm k.
+ Nhạy cảm với nhiễu và ngoại biên (outliers).
+ Không phù hợp với phân bổ dữ liệu dạng không lồi (non-convex).
+ Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo các trung tâm cụm ban đầu.
Trường hợp 1: tốc độ hội tụ chậm.
Trường hợp 2: kết quả gom cụm không chính xác (do chỉ tìm được các cực trị địa phương chứ không phải toàn cục).
+ Khắc phục:
Trang 20Áp dụng một số phương pháp tính số cụm.
Chạy thuật toán nhiều lần với các trung tâm khác nhau để
tìm giá trị cực tiểu của hàm mất mát.
2.2.2.4 Các phương pháp đánh giá phân cụm dữ liệu.
- Là vấn đề khó khăn nhất trong bài toán phân cụm.
- Các phương pháp đánh giá việc phân cụm dữ liệu: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối.
- Một số tiêu chí để đánh giá chất lượng phân cụm là:
Độ nén (compactness): các phần tử của cụm phải “gần nhau”.
Độ phân cách (separation): khoảng cách giữa các cụm nên
“xa nhau”, phân cách rõ ràng.
- Các phương pháp đánh giá:
+ Đánh giá ngoài (external validation)
Là đánh giá kết quả phân cụm dựa vào cấu trúc/xu hướng
phân cụm được chỉ định trước cho tập dữ liệu.
So sánh độ sai khác giữa các cụm
So sánh với kết quả mẫu (đáp án).
Các độ đo được sử dụng trong phương pháp này: Rank
statatisistic, Jaccccarard coefficient, Folkes và Mallows index,
+ Đánh giá nội bộ (internal validation).
Là đánh giá kết quả phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựa trên các vector chính của dữ liệu thông qua ma trận xấp xỉ
(proximity matrix) Tối ưu hóa các chỉ số nội bộ: độ nén, độ phân tách.
Các độ đo được sử dụng trong phương pháp này: Hubert’s statistic, Sihouette index, Dunn’s index, F-ratio, DBI (Davics Bouldin Index).
+ Đánh giá tương đối (relative validation)
Đánh giá kết quả gom cụm bằng việc so sánh với:
Kết quả gom cụm ứng với các bộ trị thông số khác nhau.
Trang 21Kết quả gom cụm của các phương pháp khác.
Trang 22CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT VÀ KẾT QUẢ THỰC HIỆN.
3.1 Tiền xử lí dữ liệu
Đầu tiên, ta nạp dữ liệu Banking Marketing vào Datasets
Các bước thực hiện như sau: Ta mở Datasets, tim bộ dữ liệu có tên Banking Marketing, sau đó chọn bộ dữ liệu.
Hình 2: Chọn chức năng Datasets
Hình 3: Chọn bộ dữ liệu Banking Marketing từ Datasets
Để có thể quan sát được dữ liệu, ta liên kết Datasets vào Data Tables
Trang 23Hình 4: Liên kết Datasets vào Data Table
Hình 5: Kết quả bộ dữ liệu Banking Marketing trong Data Table