1. Trang chủ
  2. » Giáo Dục - Đào Tạo

TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING RKETING

46 12 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Bộ Dữ Liệu Bank Marketing
Tác giả Lương Trương Quốc, Hoàng Võ Cao Sơn, Mai Thị Yến Nhi, Nguyễn Đức Thắng, Trần Nguyễn Trâm Yến, Nguyễn Thị Thúy Nga, Nguyễn Thị Minh Vương
Người hướng dẫn ThS. Trần Lê Phúc Thịnh
Trường học Đại học UEH
Chuyên ngành Khoa học dữ liệu
Thể loại tiểu luận
Năm xuất bản 2022
Thành phố Tp.HCM
Định dạng
Số trang 46
Dung lượng 5,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Để có thể phân tích được các dữ liệu một cách tự động thì nhóm sử dụng phần mềm Orange để xây dựng quy trình khai thác dữ liệu trực quan – đây là phần mềm khai thác dữ liệu phổ biến có t

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH

TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH

KHOA KINH TẾ

TIỂU LUẬN

Môn học: KHOA HỌC DỮ LIỆU

Tp.HCM, tháng 11 năm 2022

Trang 3

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH

TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH

KHOA KINH TẾ

Đề tài: PHÂN TÍCH BỘ DỮ LIỆU BANK MARKETING.

Giảng viên hướng dẫn: ThS Trần Lê Phúc Thịnh

Siinnh viiêên thhựực hiiệện MSSSV Phhầần trrăăm đóónng góóp

1 Lưươơnng Trruunng Quuốốc 31122001100220044881 10000%

2 Hoàng Võ Cao Sơn 31122001100220044993 10000%

3 Mai Thị Yến Nhi 31122001100226633774 10000%

4 Nguyễn Đức Thắng 31122001100226600448 10000%

5 Trần Nguyễn Trâm Yến 31122001100220066553 10000%

6 Nguyễn Thị Thúy Nga 31122001100220033996 10000%

7 Nguyễn Thị Minh Vương 31122001100220066339 10000%

Mã lớp học phần: 21C1MAR5030011

Trang 4

LỜI CẢM ƠN

Để hoàn thành tiểu luận này, em xin gửi lời chân thành đến:

Giảng viên bộ môn Khoa học Dữ liệu - Trần Lê Phúc Thịnh đã giảng dạy tận tình, nhiệt tình và chi tiết để chúng em có kiến thức và vận dụng chúng vào bài tiểu luận này.

Ban giám hiệu trường Đại học UEH vì đã tạo điều kiện về cơ sở vật chất với hệ thống thư viên hiện đại, tài liệu thuận lợi cho việc tìm kiếm, nguyên cứu thông tin.

Do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về kiến thức, trong bài tiểu luận chắc chắn sẽ không tránh khỏi những thiếu sót Rất mong nhận được sự nhận xét, ý kiến đóng góp, phê bình từ phía thầy để bài tiểu luận được hoàn thiện hơn Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành công và hạnh phúc.

Trang 5

“ MỤC LỤC

DANH MỤC HÌNH ẢNH 3

LỜI CẢM ƠN 6

LỜI MỞ ĐẦU 7

CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 7

1.1 Giới thiệu về Khoa học dữ liệu 7

1.2 Giới thiệu về đề tài “Phân tích và dự đoán sự rời đi của khách hàng trong lĩnh vực viễn thông” 8

1.2.1 Lý do chhọọn đề tàài. 9

1.2.2 Mục tiêiêu nghiêiên cứứu. 9

1.2.3 Phương pháp thực hiện. 9

1.2.4 Ý ngghhĩĩa. 10

CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 10

2.1 Tổng quan về phần mềm Orange 10

2.1.1 Mô tả sơ lược về phần mềm Orange. 10

2.1.2 Các tính năng. 11

2.2 Tổng quan về các phương pháp sử dụng 18

2.2.1 Tiền xử lý dữ liệu. 18

2.2.2 Phân lớp dữ liệu. 19

2.2.3 Phân cụm dữ liệu. 21

CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT 25

3.1 Bộ dữ liệu Telecom Customer Churn 25

3.2 Giải thích các thuộc tính của bộ dữ liệu “Telecom Customer Churn” 25 CHƯƠNG 4: KẾT QUẢ THỰC HIỆN 31

4.1 Tiền xử lí dữ liệu 31

4.1.1 Chọn số lượng khảo sát. 32

4.1.2 Loại bỏ các biếiến không phù hợp. 32

4.2 Phân lớp dữ liệu.(lưu ý thứ tự thực hiện) 36

4.2.1 Các phương pháp đánh giá. 36

Trang 6

4.2.2 Dự bááoo: 42

Trang 7

4.3 Phân cụm dữ liệu.(lưu ý thứ tự thực hiện) 43

4.3.1 Phương pháp Hierarchical lustering ……….… ………44

Trang 8

DANH MỤC HÌNH ẢNH

Hình 1 : Phần mềm orange. 11

Hình 2 : Chọn chức năng Datasets 20

Hình 3 : Chọn bộ dữ liệu Banking Marketing từ Datasets 20

Hình 4 : Liên kết Datasets vào Data Table 21

Hình 5 : Kết quả bộ dữ liệu Banking Marketing trong Data Table 21

Hình 6 : Quy trình tiền xử lý dữ liệu 22

Hình 7 : Các bước thực hiện xử lý dữ liệu trong Preprocess 22

Hình 8 : Kết quả dữ liệu Data_Tiền xử lý dữ liệu với mẫu 4119 quan sát. 23

Hình 9 : Quy trình tạo File Training Data và File Testing Data 23

Hình 10 : Data Sampler của File Training Data 24

Hình 11 : Data Sampler của File Testing Data 24

Hình 12 : Dữ liệu đầu vào. 25

Hình 13 : Lựa chọn chức năng. 26

Hình 14 : Kết quả phân cụm. 26

Hình 15 : Kết quả phân cụm theo chỉ số Silhouette. 27

Hình 16 : Chỉ số Silhouette cao nhất của 2 cụm. 28

Hình 17 : Phân cụm với phương pháp Hierarchical clustering. 28

Hình 18 : Dữ liệu đầu vào. 29

Hình 19 : Phân Cụm với chứng năng K-means. 29

Hình 20 : Bảng kết quả phân cụm 30

Hình 21 : Bảng kết quả phân cụm 1. 31

Hình 22 : Bảng kết quả phân cụm 2. 31

Hình 23 : Bảng chỉ số Silhouette Scores cao nhất của 2 cụm. 32

Hình 24 : Mô hình phân cụm bằng phương pháp K-means. 32

Hình 25 : Mô hình phân cụm dữ liệu Bank Marketing. 33

Hình 26 : Insert File Training Data vào hộp chức năng File 33

Trang 9

Hình 27 : Mô hình phân lớp dữ liệu 34

Hình 28 : Kết quả chi mẫu dữ liệu thành 5 phần 35

Hình 29 : Kết quả chia mẫu dữ liệu thành 10 phần 35

Hình 30 : Kết quả chia mẫu dữ liệu với tỷ lệ 10% - 60% 36

Hình 31 : Kết quả chia mẫu dữ liệu với tỷ lệ 20% - 70% 36

Hình 32 : Kết quả ma trận nhầm lẫn của phương pháp Logistic Regression 37

Hình 33 : Kết quả ma trận nhầm lẫn của phương pháp Decision Tree 38

Hình 34 : Kết quả ma trận nhầm lẫn của phương pháp SVM 38

Hình 35 : Kết quả ROC Analysis 39

Hình 36 : Testing Data 40

Hình 37 : Dự báo bằng Prediction với phương pháp Logistic Regression.40

Hình 38 : Kết quả dự báo bằng Logistic Regression của 100 mẫu dữ liệu 41

Trang 10

CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 1.1 Giới thiệu về khoa học dữ liệu

Khoa học dữ liệu là lĩnh vực áp dụng các kỹ thuật phân tích tiên tiến và các nguyên tắc

khoa học để trích xuất thông tin có giá trị từ dữ liệu cho việc ra quyết định kinh doanh, lập

kế hoạch chiến lược và các mục đích sử dụng khác Nó ngày càng quan trọng đối với

các doanh nghiệp: Những hiểu biết sâu sắc mà khoa học dữ liệu tạo ra giúp các

tổ chức tăng hiệu quả hoạt động, xác định các cơ hội kinh doanh mới và cải thiện các chương trình tiếp thị và bán hàng, cùng với các lợi ích khác Cuối cùng, chúng có thể dẫn đến lợi thế cạnh tranh so với các đối thủ kinh doanh.

Khoa học dữ liệu kết hợp nhiều lĩnh vực khác nhau - ví dụ, kỹ thuật dữ liệu, chuẩn bị dữ liệu, khai thác dữ liệu , phân tích dự đoán, học máy và trực quan hóa dữ liệu, cũng như thống kê, toán học và lập trình phần mềm.

Khoa học dữ liệu đóng một vai trò quan trọng trong hầu như tất cả các khía cạnh của hoạt động và chiến lược kinh doanh Ví dụ, nó cung cấp thông tin về khách hàng giúp các

công ty tạo ra các chiến dịch tiếp thị mạnh mẽ hơn và quảng cáo nhắm mục tiêu để tăng doanh số bán sản phẩm Nó hỗ trợ trong việc quản lý rủi ro tài chính, phát hiện các giao dịch gian lận và ngăn ngừa sự cố thiết bị trong các nhà máy sản xuất và các cơ sở công nghiệp khác Nó giúp chặn các cuộc tấn công mạng và các mối đe dọa bảo mật khác trong hệ thống CNTT.

Khoa học dữ liệu cũng rất quan trọng trong các lĩnh vực ngoài hoạt động kinh doanh thông thường Trong chăm sóc sức khỏe, các ứng dụng của nó bao gồm chẩn đoán tình trạng y tế, phân tích hình ảnh, lập kế hoạch điều trị và nghiên cứu y tế Các tổ chức học thuật sử dụng khoa học dữ liệu để theo dõi kết quả hoạt động của sinh viên và cải thiện

hoạt động tiếp thị của họ tới các sinh viên tương lai Các đội thể thao phân tích hiệu suất của người chơi và lập kế hoạch chiến lược trò chơi thông qua khoa học dữ liệu Các cơ quan chính phủ và các tổ chức chính sách công cũng là những người sử dụng lớn.

Vòng đời của khoa học dữ liệu bao gồm sáu bước chính sau:

Xác định một giả thuyết liên quan đến kinh doanh để

kiểm tra Thu thập dữ liệu và chuẩn bị để phân tích.

Thử nghiệm với các mô hình phân tích khác nhau.

Trang 11

Chọn mô hình tốt nhất và chạy nó với dữ liệu.

Trình bày kết quả cho các nhà quản trị doanh nghiệp

Triển khai mô hình để sử dụng liên tục với dữ liệu mới.

1.2 Giới thiệu về đề tài.

Makerting hiện đang phổ biến cho mọi ngành nghề Các ngành nghề cần makerting để tối

ưu và tìm hiểu yêu cầu mong muốn của khách hàng hơn nữa còn xác định khả năng sản

xuất với giá thành phù hợp sau đó sản xuất và bán ra thị trường với chiến lược giá đã đề ra.Và đối với bank makerting cũng vậy, ngân hàng cần tiếp thị để phục vụ khách hàng của mình một cách tốt nhất và xem xét cái gì là cần thiết và phù hợp cho khách hàng mục tiêu của mình. 1.2.1 Lý do chọn đề tài.

Hiện nay việc khai thác các dữ liệu đã trở nên không thể thiếu đối với các ngành nghề Đặc biệt ở đây chúng tôi đề cập đến trong thương mại và kinh doanh Một lượng lớn dữ liệu từ khách hàng, hoạt động kinh doanh, đối tác,… Những điều này không thể xử lý bằng sức người, do đó việc số hóa các số liệu này là điều vô cùng cần thiết Để có thể phân tích được các dữ liệu một cách tự động thì nhóm sử dụng phần mềm Orange để xây dựng quy trình khai thác dữ liệu trực quan – đây là phần mềm khai thác dữ liệu phổ biến có thể được thực hiện mà không cần lập trình

Nhóm đã tìm được bộ dữ liệu của một tổ chức ngân hàng, dữ liệu có liên quan Dữ liệu sau khi được phân tích bởi Orange, nhóm sẽ đưa ra một số nhận xét và kết luận của từng cửa

sổ phân tích , đánh giá độ hiệu quả và đề xuất một số hướng phát triển dành cho ???.

Đó cũng là lý do chọn đề tài: “Phân tích bộ dữ liệu Bank Marketing qua các thuật toán trên Orange”.

1.2.2 Mục tiêu nghiên cứu.

Xử lý bộ dữ liệu Bank Makerting để dự đoán liệu khách hàng có đăng ký một khoản tiền gửi có kỳ hạn hay không dựa trên hồ sơ của khách hàng

có các thuộc tính: tuổi, công việc, tình trạng hôn nhân, học vấn,…

1.2.3 Phương pháp thực hiện.

Nhóm sử dụng phần mềm Orange để tiến hành thực hiện xử lý dữ liệu, phân cụm, phân lớp dữ liệu, rồi sau đó tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp.

Trang 12

Để thực hiện phân cụm bộ dữ liệu nhóm sử dụng hai phương

pháp chính là: Hierarchical clustering và K-means.

- Đối với phương pháp Hierarchical clustering nhóm tiến hành tính khoàng cách giữa các phân tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quan sát trên Silhouette Plot.

Sau khi thực hiện phân cụm dữ liệu theo hai phương pháp trên, nhóm tiến hành chọn phương pháp tốt nhất để phân cụm cho bộ dữ liệu của nhóm.

- Đối với việc phân lớp dữ liệu, nhóm chọn biến "Subscribed" (đã đăng kí) cho việc gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây quyết định (Decision Tree), SVM (Support Vector Machine) và Hồi quy Logistic (Logistic Rgression) Sử dụng Test and Score, quan sát chỉ số AUC của từng

phương pháp và cuối cùng là quan sát trên ma trận nhầm lẫn.

Trang 13

CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG

Các công cụ cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng, lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh các thuật toán máy học, trực quan hóa các phần tử dữ liệu.

Trang 14

- Quá trình phân lớp dữ liệu gồm hai bước chính:

Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)

Bước 2: Sử dụng mô hình, được chia thành 2 bước nhỏ:

+ Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình):

Dữ liệu đầu vào: Là một tập dữ liệu mẫu khác đã được dán nhãn và tiền xử lý Tuy nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn.

Tính đúng đắn của mô hình được xác định bằng cách so sánh thuộc tính gán nhãn của dữ liệu đầu vào và kết quả phân lớp của mô hình. + Phân lớp dữ liệu mới.

Dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)

Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng

dữ liệu này dựa vào những gì đã được huấn luyện ở bước 1 2.2.1.3 Một số phương pháp phân lớp.

- Hồi quy Logistic (Logistic Regression): Là một mô hình xác suất dự đoán giá trị đầu ra rời rạc từ một tập cá giá trị đầu vào (biểu diễn dưới dạng vector).

- Cây quyết định (Decision Tree):

Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ đi kèm hỗ trợ quá trình ra quyết định.

Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại và tổng quát hóa tập dữ liệu cho trước.

- Ưu điểm:

Không đòi hỏi việc chuẩn hóa dữ liệu.

Có thể xử lý trên nhiều kiểu dữ liệu khác nhau.

Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn.

- Khuyết điểm:

Khó giải quyết trong tình huống dữ liệu phụ

thuộc thời gian Cho phí xây dựng mô hình cao.

Trang 15

- SVM (Support Vector Machine).

+ Là một thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như các vector trong không gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều chiều làm mặt phân cách các lớp dữ liệu.

+ Để tối ưu kết quả phân lớp thì phải xác định siêu phẳng (hyperplane) có khoảng cách đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.

+ SVM có nhiều biến thể phù hợp với các bài toán phân loại khác nhau: Hard Margin SVM, Soft Margin SVM, Multi-class SVM, Kernel SVM.

Chưa thể hiện tính xác suất trong phân lớp.

2.2.1.4 Các phương pháp đánh giá mô hình phân lớp.

Khái niệm: Là các phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp trên dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình đó hay không.

Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp và không quá nhạy cảm với nhiễu (tránh underfitting và overfitting).

- Ma trận nhầm lẫn (Confusion Matrix).

Ma trận nhầm lẫn: là ma trận chỉ ra có bao nhiêu điểm dữ liệu thực sự

phụ thuộc vào một lớp cụ thể và được dự đoán là rơi vào lớp nào.

- Accuracy (tính chính xác).

Là tỉ lệ số mẫu được phân lớp đúng trong toàn bộ tập dữ liệu.

Trang 16

Accuracy chỉ cho chúng ta biết được tỷ lệ dữ liệu được phân loại đúng mà không chỉ ra được cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiều nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào lớp khác.

- ROC, AUC, Precision, Recall, F1-score.

+ ROC (Receiver Operating Characteristic)

Là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phân loại nhị phân Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau.

Mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả.

+ AUC (Area Under The Curve)

Là diện tích nằm dưới đường cong ROC

Giá trị này là một số dương nhỏ hơn hoặc bằng 1

Giá trị này càng lớn thì mô hình càng tốt.

Precision (độ chính xác): cho biết trong số m mẫu được

phân vào lớp i thì có tỷ lệ bao nhiêu mẫu có đúng.

Recall (độ phủ): còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (True Positive Rate).

F1-score: giá trị trung bình điều hòa (harmonic mean) của hai

độ đo Precision và Recall.

- Phương pháp phân chia dữ liệu Hold-out

Phương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo một tỷ lệ nhất định Ví dụ, tập huấn luyện (training set) chiếm 70%, tập thử nghiệm (testing set) chiếm 30%.

Phương pháp này thích hợp cho các tập dữ liệu nhỏ Tuy nhiên, các mẫu

có thể không đại diện cho toàn bộ dữ liệu (thiếu lớp trong tập thử nghiệm).

Có thể cải tiến bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bổ đều trong cả hai tập dữ liệu huấn luyện và đánh giá Hoặc lấy mẫu ngẫu nhiên: thực hiện hold-out k lần và độ chính xác acc(M) = trung bình cộng k giá trị chính xác.

Trang 17

2.2.2 Phân cụm dữ liệu

2.2.2.1 Khái niệm.

Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có các đặc điểm tương tự nhau và phân vào các cụm/nhóm tương ứng Trong đó:

- Những đối tượng thuộc cùng một cụm sẽ có các thuộc tính tương tự nhau.

- Những đối tượng thuộc những cụm/nhóm khác nhau sẽ có các thuộc tính khác nhau.

Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán

nhãn Đây là dữ liệu tự nhiên thường thấy trong thực tế.

Đặc điểm:

- Nhiệm vụ chính chủ yếu là phát hiện và đo lường sự khác biệt giữa các đối tượng dữ liệu.

- Phân cụm thuộc nhóm phương pháp học không giám sát (unsupervised learning)

vì số lượng nhóm không được biết trước (khác với bài toán phân lớp).

- Một phương pháp phân cụm tốt là phương pháp tạo ra các cụm có chất lượng cao:

Độ tương đồng nội bộ cao

Độ tương đồng giữa các cụm thấp (khác biệt

cao) Ứng dụng phân cụm trong kinh tế học

Dự báo khách hàng năng lực

Phân tích xu hướng hành vi khách hàng

Phân tích cạnh tranh giữa các nhà cung cấp, xu hướng

lựa chọn dịch vụ Phân tích đặc tính sản phẩm và dịch vụ

Đánh giá hiệu quả kinh doanh

Phân tích hành vi người dùng mạng xã hội

2.2.2.2 Phân cụm phân cấp (Hierarchical Clustering):

- Xây dựng một cây phân cấp cho dữ liệu cần gom cụm dựa trên:

Ma trận khoảng cách giữa các phần tử (similarity matrix hoặc dissimilarity matrix) Độ đo khoảng cách giữa các cụm (single link, complete link…)

- Phương pháp này không cần xác định trước số cụm nhưng cần xác định điều kiện dừng.

Trang 18

- Các phương pháp điển hình: Diana, Agnes… + Agnes:

Theo chiến lược bottom up:

Bắt đầu với những cụm chỉ là 1 phần tử.

Ở mỗi bước, gom 2 cụm gần nhau thành 1 cụm.

Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm, hoặc khoảng cách trung bình.

Quá trình này lặp lại cho đến khi tất cả các phần tử cùng thuộc một

cụm lớn Kết quả quá trình phát là một dendrogram (cây phân cấp).

Agnes - Dendrogram (cây phân cấp) là sơ đồ/cây biễu diễn sự phân rã các phần tử dữ liệu thành nhiều cấp độ lồng nhau.

+ Diana:

Theo chiến lược top down:

Bắt đầu với một cụm gồm tất cả các phần tử Ở

mỗi bước, chia cụm ban đầu thành hai cụm.

Khoảng cách giữa hai cụm là khoảng cách giữa hai điẻm gần nhất từ hai cụm, khoảng cách trung bình.

Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại cho đến khi mỗi phần tử là một cụm.

Kết quả phát sinh cây phân cấp (dendrogram).

Tốc độ chậm, không thích hợp trên dữ liệu lớn.

Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu 2.2.2.3 Phân cụm phân hoạch (Partitioning Clustering).

Trang 19

- Phân tập dữ liệu có n phần tử cho trước thành k tập con (k≤ n), mỗi tập con biễu diễn một cụm.

- Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương

tự (đọ đo phân cụm) sao cho:

Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong cụm

có sự tương tự nhau Mỗi cụm có ít nhất 1 phần tử.

- Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means.

+ Thuật toán K-means

Thuộc nhóm thuật toán phân cụm dựa trên phân hoạch Tư tưởng chính:

Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là số lượng thuộc tính của đối tượng).

o Bước 1: chọn k điểm bất kỳ làm các trung tâm ban đầu của k cụm.

o Bước 2: phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm

dữ liệu ở từng cụm vừa được phân chia không thay đổi so

với kết quả của lần phân chia trước đó thì ta dưng thuật toán.

o Bước 3: cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất

cả các điểm dữ liệu đã được gán vào cụm đó sau khi phân chia ở bước 2.

- Đánh giá thuật toán K-means: + Cần biết trước số lượng cụm k.

+ Nhạy cảm với nhiễu và ngoại biên (outliers).

+ Không phù hợp với phân bổ dữ liệu dạng không lồi (non-convex).

+ Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo các trung tâm cụm ban đầu.

Trường hợp 1: tốc độ hội tụ chậm.

Trường hợp 2: kết quả gom cụm không chính xác (do chỉ tìm được các cực trị địa phương chứ không phải toàn cục).

+ Khắc phục:

Trang 20

Áp dụng một số phương pháp tính số cụm.

Chạy thuật toán nhiều lần với các trung tâm khác nhau để

tìm giá trị cực tiểu của hàm mất mát.

2.2.2.4 Các phương pháp đánh giá phân cụm dữ liệu.

- Là vấn đề khó khăn nhất trong bài toán phân cụm.

- Các phương pháp đánh giá việc phân cụm dữ liệu: đánh giá ngoài, đánh giá nội bộ, đánh giá tương đối.

- Một số tiêu chí để đánh giá chất lượng phân cụm là:

Độ nén (compactness): các phần tử của cụm phải “gần nhau”.

Độ phân cách (separation): khoảng cách giữa các cụm nên

“xa nhau”, phân cách rõ ràng.

- Các phương pháp đánh giá:

+ Đánh giá ngoài (external validation)

Là đánh giá kết quả phân cụm dựa vào cấu trúc/xu hướng

phân cụm được chỉ định trước cho tập dữ liệu.

So sánh độ sai khác giữa các cụm

So sánh với kết quả mẫu (đáp án).

Các độ đo được sử dụng trong phương pháp này: Rank

statatisistic, Jaccccarard coefficient, Folkes và Mallows index,

+ Đánh giá nội bộ (internal validation).

Là đánh giá kết quả phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựa trên các vector chính của dữ liệu thông qua ma trận xấp xỉ

(proximity matrix) Tối ưu hóa các chỉ số nội bộ: độ nén, độ phân tách.

Các độ đo được sử dụng trong phương pháp này: Hubert’s statistic, Sihouette index, Dunn’s index, F-ratio, DBI (Davics Bouldin Index).

+ Đánh giá tương đối (relative validation)

Đánh giá kết quả gom cụm bằng việc so sánh với:

Kết quả gom cụm ứng với các bộ trị thông số khác nhau.

Trang 21

Kết quả gom cụm của các phương pháp khác.

Trang 22

CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT VÀ KẾT QUẢ THỰC HIỆN.

3.1 Tiền xử lí dữ liệu

Đầu tiên, ta nạp dữ liệu Banking Marketing vào Datasets

Các bước thực hiện như sau: Ta mở Datasets, tim bộ dữ liệu có tên Banking Marketing, sau đó chọn bộ dữ liệu.

Hình 2: Chọn chức năng Datasets

Hình 3: Chọn bộ dữ liệu Banking Marketing từ Datasets

Để có thể quan sát được dữ liệu, ta liên kết Datasets vào Data Tables

Trang 23

Hình 4: Liên kết Datasets vào Data Table

Hình 5: Kết quả bộ dữ liệu Banking Marketing trong Data Table

Ngày đăng: 05/12/2022, 06:30

HÌNH ẢNH LIÊN QUAN

Hình 1: Phần mềm orange. 2.2 Tổng quan về các phương pháp sử dụng. - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 1 Phần mềm orange. 2.2 Tổng quan về các phương pháp sử dụng (Trang 13)
CHƯƠNG 3: MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT VÀ KẾT QUẢ THỰC HIỆN. - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
3 MƠ HÌNH NGHIÊN CỨU ĐỀ XUẤT VÀ KẾT QUẢ THỰC HIỆN (Trang 22)
Hình 4: Liên kết Datasets vào Data Table - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 4 Liên kết Datasets vào Data Table (Trang 23)
Hình 6: Quy trình tiền xử lý dữ liệu * Loại bỏ các biến không phù hợp - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 6 Quy trình tiền xử lý dữ liệu * Loại bỏ các biến không phù hợp (Trang 24)
Hình 8: Kết quả dữ liệu Data_Tiền xử lý dữ liệu với mẫu 4119 quan sát.. - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 8 Kết quả dữ liệu Data_Tiền xử lý dữ liệu với mẫu 4119 quan sát (Trang 25)
Hình 11: Data Sampler của File Testing Data - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 11 Data Sampler của File Testing Data (Trang 26)
Hình 10: Data Sampler của File Training Data - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 10 Data Sampler của File Training Data (Trang 26)
Hình 12: Dữ liệu đầu vào. - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 12 Dữ liệu đầu vào (Trang 27)
Hình 13: Lựa chọn chức năng. - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 13 Lựa chọn chức năng (Trang 28)
Hình 14: Kết quả phân cụm. - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 14 Kết quả phân cụm (Trang 28)
Hình 15: Kết quả phân cụm theo chỉ số Silhouette. - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 15 Kết quả phân cụm theo chỉ số Silhouette (Trang 29)
Hình 16: Chỉ số Silhouette cao nhất của 2 cụm. - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 16 Chỉ số Silhouette cao nhất của 2 cụm (Trang 30)
Hình 18: Dữ liệu đầu vào. B2: Phân cụm dữ liệu với chứng năng K-means - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 18 Dữ liệu đầu vào. B2: Phân cụm dữ liệu với chứng năng K-means (Trang 31)
B4: Xuất kết quả phân cụm ra thành từng bảng. - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
4 Xuất kết quả phân cụm ra thành từng bảng (Trang 32)
Hình 21: Bảng kết quả phân cụm 1. - TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA  đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING  RKETING
Hình 21 Bảng kết quả phân cụm 1 (Trang 33)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w