TIỂU LUẬN đề tài PHÂN TÍCH bộ dữ LIỆU BANK MA đề tài PHÂN TÍCH bộ dữ LIỆU BANK MARKETING RKETING

Để Để có có thểthể phân tích được các dữ liệu một phân tích được các dữ liệu một cách tự động thì nhóm sử cách tự động thì nhóm sử dụng phần mềm Orange để xâydụng phần mềm Orange để xây

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH

KHOA KINH TẾ

TIỂU LUẬN

Môn học: KHOA HỌC DỮ LIỆU

Tp.HCM, tháng 11 năm 2022

Trang 3

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH

KHOA KINH TẾ

Đề tài: PHÂN TÍCH BỘ DỮ LIỆU BANK MA

Giảng viên hướng dẫn:

Giảng viên hướng dẫn: ThS Trần Lê Phúc Thịnh ThS Trần Lê Phúc Thịnh S

Siin nh h vviiêên n tth hự ực c h hiiệện n M MS SS SV V P Ph hầần n ttrrăăm m đ đóón ng g ggóóp p 11 L Lưươơnng g T Trruunng g Q Quuốốcc 3311220011002200448811 110000% %

Trang 4

LỜI CẢM ƠN

Để hoàn thành tiểu luận này, em xin

Để hoàn thành tiểu luận này, em xin gửi lời chân thành đến:gửi lời chân thành đến:

Giảng viên bộ môn Khoa học Dữ liệu - Trần Lê Phúc Thịnh đã giảng dạy tận tình, nhiệttình và chi tiết để chúng em

tình và chi tiết để chúng em có kiến thức và vận dụng có kiến thức và vận dụng chúng vào bài tiểu luận này.chúng vào bài tiểu luận này

Ban giám hiệu trường Đại học UEH vì đã tạo điều kiện về cơ sở vật chất với hệ thống thưviên hiện đại, tài liệu thuận lợi cho việc tìm

viên hiện đại, tài liệu thuận lợi cho việc tìm kiếm, nguyên cứu thông tin.kiếm, nguyên cứu thông tin

Do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về kiến thức, trong bàitiểu luận chắc chắn sẽ không tránh khỏi những thiếu sót Rất mong nhận được sự nhậnxét, ý kiến đóng góp,

xét, ý kiến đóng góp, phê bình từ phía thầy để phê bình từ phía thầy để bài tiểu luận được hoàn thiện hơn.bài tiểu luận được hoàn thiện hơn

Lời cuối cùng, em xin kính chúc Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành công và hạnh thầy nhiều sức khỏe, thành công và hạnh phúc.phúc

Trang 5

“MỤC LỤC

DANH MỤC HÌNH ẢNH 3

LỜI CẢM ƠN 6

LỜI MỞ ĐẦU 7

CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 7

1.1 1.1 Giới Giới thiệthiệu về u về Khoa Khoa học học dữ dữ liệu liệu 7 7

1.2 1.2 GiớGiới thii thiệu về đề tàệu về đề tài “Phâi “Phân tích vn tích và dự đoáà dự đoán sự rời đi cn sự rời đi của khủa khách hàách hàng trong trong lĩnng lĩnhh vực viễn thông” 8

11 22 11 LLý dý do co chhọọn đn đề tề tààii 9 9

1 1.22.2.2 MụMục tc tiêiêu nu nghghiêiên cn cứứu.u 9 9

1 1.2.2.3.3 PhPhươương ng phpháp áp ththực ực hihiệnện 9 9

11 22 44 Ý Ý nngghhĩĩaa 10 10

CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 10

2.1 Tổng quan về phần mềm Orange 10

2.1.1 2.1.1. Mô tả sơ lược v Mô tả sơ lược về phần mềm Orangề phần mềm Orange.e 10 10

2.1.2 Các tính năng 2.1.2 Các tính năng 11 11

2.2 Tổng quan về các phương pháp sử dụng 18

2.2.1 Tiền xử lý dữ liệu 2.2.1 Tiền xử lý dữ liệu 18 18

2.2.2 Phân lớp dữ liệu 2.2.2 Phân lớp dữ liệu 19 19

2.2.3 Phân cụm dữ liệu 2.2.3 Phân cụm dữ liệu 21 21

CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT 25

3.1 3.1 Bộ Bộ dữ dữ liệu liệu TeleTelecom com CustCustomer omer ChurnChurn 25 25

3.2 3.2 Giải Giải thícthích ch các ác thuộc thuộc tính tính của của bộ dbộ dữ lữ liệu iệu “Tel“Telecom ecom CustCustomer omer ChurnChurn” ” 25.25 CHƯƠNG 4: KẾT QUẢ THỰC HIỆN 31

4.1 4.1 Tiền Tiền xử xử lí lí dữ dữ liệuliệu 3131 4 4.1.1.1.1 ChChọn ọn số số lưlượnợng kg khảhảo so sátát 32 32

4 4.1.1.2.2 LoLoại ại bỏ bỏ cácác bc biếiến kn khôhông ng phphù hù hợpợp 32 32

4.2 4.2 Phân Phân lớp lớp dữ dữ liệuliệu.(lưu (lưu ý tý thứ hứ tự ttự thực hực hiện)hiện) 36 36

4 4.2.2.1.1 CáCác pc phưhươnơng pg pháháp đp đánánh gh giáiá 36 36

44 22 22 DDự ự bbááoo:: 42 42

Trang 6

4.3 Phân Phân cụm cụm dữ dữ liệuliệu.(lưu (lưu ý tý thứ hứ tự tự thực thực hiện)hiện) 43 43 4.3.1.4.3.1. Phương pháp Hier Phương pháp Hierarchical lustearchical lustering ring ……….… ………44 ……….… ………44

4

4.3.3.2.2 PhPhươương ng phpháp áp K-K-memeanans.s 45 45""

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 481

1 Kết Kết luận.luận 48482

2 HướnHướng g phát phát triểtriển n 49 49TÀI LIỆU THAM KHẢO 50TÀI LIỆU THAM KHẢO 50""

Trang 7

DANH MỤC HÌNH ẢNH

Hình Hình 11 : Phần mềm orange.: Phần mềm orange 11 11 Hình

Hình 22 : Chọn chức năng : Chọn chức năng DatasetsDatasets 20 20 Hình

Hình 33 : Chọn bộ dữ liệu Banking Marketing từ Datasets: Chọn bộ dữ liệu Banking Marketing từ Datasets 20 20 Hình

Hình 44 : Liên kết Datasets vào Data Table: Liên kết Datasets vào Data Table 21 21 Hình

Hình 55 : Kết quả bộ dữ : Kết quả bộ dữ liệu Banking Marketing trong Data Tableliệu Banking Marketing trong Data Table 21 21 Hình

Hình 66 : Quy trình tiền xử lý dữ liệu: Quy trình tiền xử lý dữ liệu 22 22 Hình

Hình 77 : Các bước thực hiện xử lý dữ liệu trong Preprocess: Các bước thực hiện xử lý dữ liệu trong Preprocess 22 22 Hình

Hình 88 : Kết quả dữ liệu Data_Tiền xử lý dữ : Kết quả dữ liệu Data_Tiền xử lý dữ liệu với mẫu 4119 quan sát.liệu với mẫu 4119 quan sát 23 23 Hình

Hình 99 : Quy trình tạo File Training Data và File Testing Data: Quy trình tạo File Training Data và File Testing Data 23 23 Hình

Hình 1010 : Data Sampler của : Data Sampler của File Training DataFile Training Data 24 24 Hình

Hình 1111 : Data Sampler của File : Data Sampler của File Testing DataTesting Data 24 24 Hình

Hình 1212 : Dữ liệu đầu vào.: Dữ liệu đầu vào 25 25 Hình

Hình 1313 : Lựa chọn chức năng.: Lựa chọn chức năng 26 26 Hình

Hình 1414 : Kết quả phân cụm.: Kết quả phân cụm 26 26 Hình

Hình 1515 : Kết quả phân cụm theo chỉ số : Kết quả phân cụm theo chỉ số Silhouette.Silhouette 27 27 Hình

Hình 1616 : Chỉ số Silhouette cao nhất của 2 cụm.: Chỉ số Silhouette cao nhất của 2 cụm 28 28 Hình

Hình 1717 : Phân cụm với phương pháp Hierarchical clustering.: Phân cụm với phương pháp Hierarchical clustering 28 28 Hình

Hình 1818 : Dữ liệu đầu vào.: Dữ liệu đầu vào 29 29 Hình

Hình 1919 : Phân Cụm với : Phân Cụm với chứng năng K-means.chứng năng K-means 29 29 Hình

Hình 2020 : Bảng kết quả phân cụm : Bảng kết quả phân cụm 30 30 Hình

Hình 2121 : Bảng kết quả phân cụm : Bảng kết quả phân cụm 1.1 31 31 Hình

Hình 2222 : Bảng kết quả phân cụm : Bảng kết quả phân cụm 2.2 31 31 Hình

Hình 2323 : : Bảng chỉ số SiBảng chỉ số Silhouette Scorlhouette Scores cao nhất của es cao nhất của 2 cụm.2 cụm 32 32 Hình

Hình 2424 : Mô hình phân cụm bằng phương pháp K-means.: Mô hình phân cụm bằng phương pháp K-means 32 32 Hình

Hình 2525 : Mô hình phân cụm dữ liệu Bank Marketing.: Mô hình phân cụm dữ liệu Bank Marketing 33 33 Hình

Hình 2626 : Insert File Training Data vào : Insert File Training Data vào hộp chức năng Filehộp chức năng File 33 33

Trang 8

Hình Hình 2727 : Mô hình phân lớp dữ liệu: Mô hình phân lớp dữ liệu 34 34 Hình

Hình 2828 : Kết quả chi mẫu dữ liệu thành 5 : Kết quả chi mẫu dữ liệu thành 5 phầnphần 35 35 Hình

Hình 2929 : Kết quả chia mẫu dữ liệu thành 10 : Kết quả chia mẫu dữ liệu thành 10 phầnphần 35 35 Hình

Hình 3030 : Kết quả chia mẫu dữ liệu với tỷ : Kết quả chia mẫu dữ liệu với tỷ lệ 10% - 60%lệ 10% - 60% 36 36 Hình

Hình 3131 : Kết quả chia mẫu dữ liệu với tỷ : Kết quả chia mẫu dữ liệu với tỷ lệ 20% - 70%lệ 20% - 70% 36 36 Hình

Hình 3232 : Kết quả ma trận nhầm lẫn của : Kết quả ma trận nhầm lẫn của phương pháp Logistic Regressphương pháp Logistic Regressionion 37 37 Hình

Hình 3333 : Kết quả ma trận nhầm lẫn của : Kết quả ma trận nhầm lẫn của phương pháp Decision Trephương pháp Decision Treee 38 38 Hình

Hình 3434 : Kết quả ma trận nhầm lẫn của : Kết quả ma trận nhầm lẫn của phương pháp SVM phương pháp SVM 38 38 Hình

Hình 3535 : Kết quả ROC Analysis: Kết quả ROC Analysis 39 39 Hình

Hình 3636 : Testing Data: Testing Data 40 40 Hình

Hình 3737 : Dự báo : Dự báo bằng Prediction với phương pháp Logistic Regressionbằng Prediction với phương pháp Logistic Regression 40 40 Hình

Hình 3838 : Kết quả dự báo : Kết quả dự báo bằng Logistic Regression của 100 mẫu dữ liệubằng Logistic Regression của 100 mẫu dữ liệu 41 41

Trang 9

CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI1.1

1.1 Giới thiệu Giới thiệu về khoa học về khoa học dữ liệudữ liệuKhoa học dữ liệu là lĩnh vực áp dụng các kỹ thuật phân tích tiên tiến và các nguyên tắckhoa học để trích xuất thông tin có giá trị từ dữ liệu cho việc ra quyết định kinh doanh,lập kế hoạch chiến lược và các mục đích sử dụng khác Nó ngày càng quan trọng đối vớicác doanh nghiệp: Những hiểu biết sâu sắc mà khoa học dữ liệu tạo ra giúp các tổ chứctăng hiệu quả hoạt động, xác định các cơ hội kinh doanh mới và cải thiện các chươngtrình tiếp thị và bán hàng, cùng với các lợi ích khác Cuối cùng, chúng có thể dẫn đến lợithế cạnh tranh so với các đối thủ

thế cạnh tranh so với các đối thủ kinh doanh.kinh doanh

Khoa học dữ liệu kết hợp nhiều lĩnh vực khác nhau - ví dụ, kỹ thuật dữ liệu, chuẩn bị dữliệu, khai thác dữ liệu , phân tích dự đoán, học máy và trực quan hóa dữ liệu, cũng nhưthống kê, toán học và lập

thống kê, toán học và lập trình phần mềm.trình phần mềm

Khoa học dữ liệu đóng một vai trò quan trọng trong hầu như tất cả các khía cạnh của hoạtđộng và chiến lược kinh doanh Ví dụ, nó cung cấp thông tin về khách hàng giúp cáccông ty tạo ra các chiến dịch tiếp thị mạnh mẽ hơn và quảng cáo nhắm mục tiêu để tăngdoanh số bán sản phẩm Nó hỗ trợ trong việc quản lý rủi ro tài chính, phát hiện các giaodịch gian lận và ngăn ngừa sự cố thiết bị trong các nhà máy sản xuất và các cơ sở côngnghiệp khác Nó giúp chặn các cuộc tấn công mạng và các mối đe dọa bảo mật kháctrong hệ thống CNTT

Khoa học dữ liệu cũng rất quan trọng trong các lĩnh vực ngoài hoạt động kinh doanhthông thường Trong chăm sóc sức khỏe, các ứng dụng của nó bao gồm chẩn đoán tìnhtrạng y tế, phân tích hình ảnh, lập kế

trạng y tế, phân tích hình ảnh, lập kế hoạch điều trị và nghiên cứu y tế Các hoạch điều trị và nghiên cứu y tế Các tổ chức họctổ chức họcthuật sử dụng khoa học dữ liệu để theo dõi kết quả hoạt động của sinh viên và cải thiệnhoạt động tiếp thị của họ tới các sinh viên tương lai Các đội thể thao phân tích hiệu suấtcủa người chơi và lập kế hoạch chiến lược trò chơi thông qua khoa học dữ liệu Các cơ quan chính phủ và các tổ

quan chính phủ và các tổ chức chính sách công cũng là những người chức chính sách công cũng là những người sử dụng lớn.sử dụng lớn

Vòng đời của khoa học dữ Vòng đời của khoa học dữ liệu bao gồm sáu bước chính sau:liệu bao gồm sáu bước chính sau:

 Xác định một giả thuyết liên quan đến Xác định một giả thuyết liên quan đến kinh doanh để kiểm tra.kinh doanh để kiểm tra

 Thu thập dữ liệu và chuẩn Thu thập dữ liệu và chuẩn bị để phân tích.bị để phân tích

Thử nghiệm với các mô hình phân Thử nghiệm với các mô hình phân tích khác nhau.tích khác nhau

Trang 10

 Chọn mô hình tốt nhất và chạy nó với dữ liệu.

 Trình bày kết quả cho các nhà Trình bày kết quả cho các nhà quản trị doanh nghiệp.quản trị doanh nghiệp

 Triển khai mô hình để sử Triển khai mô hình để sử dụng liên tục với dữ liệu mới.dụng liên tục với dữ liệu mới

1.2

1.2 Giới thGiới thiệu về iệu về đề tài.đề tài

Makerting hiện đang phổ biến cho mọi ngành nghề

Makerting hiện đang phổ biến cho mọi ngành nghề Các ngành nghề cần makerting để tốiCác ngành nghề cần makerting để tối

ưu và tìm hiểu yêu cầu mong muốn của khách hàng hơn nữa còn xác định khả năng sảnxuất với giá thành phù hợp sau đó sản xuất và bán ra thị trường với chiến lược giá đã đềra.Và đối với bank makerting cũng vậy, ngân hàng cần tiếp thị để phục vụ khách hàngcủa mình một cách tốt nhất và xem xét cái gì là cần

của mình một cách tốt nhất và xem xét cái gì là cần thiết và phù hợp cho khách hàng mụcthiết và phù hợp cho khách hàng mụctiêu của mình

1.2.1 Lý do chọn đề tài

Hiện nay việc khai thác các dữ liệu đã trở nên không thể thiếu đối với các ngành nghề.Đặc biệt ở đây chúng tôi đề cập đến trong thương mại và kinh doanh Một lượng lớn dữliệu từ khách hàng, hoạt động kinh doanh, đối tác,… Những điều này không thể xử lý bằng

bằng sức sức người, người, do do đó đó việc việc số số hóa hóa các các số số liệu liệu này này là là điều điều vô vô cùng cùng cần cần thiết thiết Để Để có có thểthể phân tích được các dữ liệu một

phân tích được các dữ liệu một cách tự động thì nhóm sử cách tự động thì nhóm sử dụng phần mềm Orange để xâydụng phần mềm Orange để xâydựng quy trình khai thác dữ liệu trực quan – đây là phần mềm khai thác dữ liệu phổ biến

có thể được thực hiện mà không

có thể được thực hiện mà không cần lập trìnhcần lập trình Nhóm đã

Nhóm đã tìm được tìm được bộ bộ dữ dữ liệu của liệu của một tổ một tổ chức ngân chức ngân hàng, dữ hàng, dữ liệu có liệu có liên quan liên quan Dữ liệuDữ liệusau khi được phân tích bởi Orange, nhóm sẽ đưa ra một số nhận xét và kết luận của từngcửa sổ phân tích , đánh giá độ hiệu quả và đề xuất một số hướng phát triển dành cho ???

Đó cũng là lý do chọn đề tài: “Phân tích bộ dữ liệu Bank Marketing qua các thuật toántrên Orange”

1.2.2 Mục tiêu nghiên cứu

Xử lý bộ dữ liệu Bank Makerting để dự đoán liệu khách hàng có đăng ký một khoản tiềngửi có kỳ hạn hay không dựa trên hồ sơ của khách hàng có các thuộc tính: tuổi, côngviệc, tình trạng hôn nhân, học vấn,…

1.2.3 Phương pháp thực hiện

Nhóm sử Nhóm sử dụng phần dụng phần mềm Orange mềm Orange để để tiến hành tiến hành thực hiện thực hiện xử xử lý lý dữ liệu, dữ liệu, phân cụm, phân cụm, phânphânlớp dữ liệu, rồi sau đó

lớp dữ liệu, rồi sau đó tiến hành dự báo cho nhóm tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp.dữ liệu ngẫu nhiên chưa phân lớp

Trang 11

Để thực hiện phân cụm bộ dữ liệu nhóm sử dụng hai phương pháp chính là: Hierarchicalclustering và K-means.

- Đối với

- Đối với phương pháp Hierarchical clustering nhóm tiến hành tính khoàng cách giữa cácphương pháp Hierarchical clustering nhóm tiến hành tính khoàng cách giữa các phân tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và phân tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quanquansát trên Silhouette Plot

Sau khi thực hiện phân cụm dữ liệu theo hai phương pháp trên, nhóm tiến hành chọn phương pháp tốt nhất để phâ

phương pháp tốt nhất để phân cụm cho bộ dữ liệu của n cụm cho bộ dữ liệu của nhóm.nhóm

- Đối với việc phân lớp dữ

- Đối với việc phân lớp dữ liệu, nhóm chọn biến "Subscribed" (đã đăng kí) cho liệu, nhóm chọn biến "Subscribed" (đã đăng kí) cho việcviệcgửi tiền có kỳ hạn

gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây 3 phương pháp là Cây quyếtquyết định (Decision Tree), SVM (Support

định (Decision Tree), SVM (Support Vector Machine) và Hồi quy Vector Machine) và Hồi quy Logistic (LogisticLogistic (LogisticRgression) Sử dụng Test and Score, quan sát chỉ số AUC của từng

Rgression) Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuốiphương pháp và cuốicùng là quan sát trên ma trận nhầm

cùng là quan sát trên ma trận nhầm lẫn.lẫn

Trang 12

CHƯƠNG 2: TỔNG QUAN CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNGCÁC PHƯƠNGPHÁP SỬ DỤNG

2.1 Tổng quan về chương trình sử dụng

Phần mềm Orange biết đến bởi việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở

và học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan vàtương tác dễ dàng Với nhiều chức năng, phần mềm này có thể phân tích được những dữliệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vị và còn giúp việckhai thác dữ liệu và học máy

khai thác dữ liệu và học máy trở nên dễ dàng hơn trở nên dễ dàng hơn cho cả người dùng mới và cho cả người dùng mới và chuyên gia.chuyên gia.Các công cụ cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng,lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh cácthuật toán máy học, trực quan hóa các

thuật toán máy học, trực quan hóa các phần tử dữ liệu.phần tử dữ liệu

Hình 1: Phần m Hình 1: Phần mềm orange.ềm orange

liệu chính là quá trình phân lớp dữ liệu.dữ liệu

2.2.2.2 Quá trình phân lớp 2.2.2.2 Quá trình phân lớp dữ liệu.dữ liệu

Trang 13

- Quá trình phân lớp dữ

- Quá trình phân lớp dữ liệu gồm hai bước chính:liệu gồm hai bước chính:

 Bước 1: Xây dựng mô Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)“học” hoặc “huấn luyện”)

 Bước 2: Sử dụng mô hình, được chia thành 2 bước nhỏ:

+ Đánh giá mô hình + Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình):(kiểm tra tính đúng đắn của mô hình):

 Dữ liệu đầu vào: Là một tập dữ liệu mẫu khác đã được dán nhãn và tiền xử lý Tuynhiên lúc đưa vào mô hình

nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn.đã được gán nhãn

 Tính đúng đắn của mô hình được xác định bằng cách so sánh thuộc tính gán nhãncủa dữ liệu đầu vào và

của dữ liệu đầu vào và kết quả phân lớp của mô kết quả phân lớp của mô hình.hình

+ Phân lớp dữ liệu mới

 Dữ liệu đầu vào là dữ Dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)

 Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vàonhững gì đã được huấn luyện ở bước 1

2.2.1.3 Một số 2.2.1.3 Một số phương pháp phân lớp.phương pháp phân lớp

Hồi quy Logistic Hồi quy Logistic (Logistic Regression):(Logistic Regression): Là một mô hình xác suất dự đoán giá trị đầu Là một mô hình xác suất dự đoán giá trị đầu

ra rời rạc từ một tập

ra rời rạc từ một tập cá giá trị đầu vào (biểu diễn dưới cá giá trị đầu vào (biểu diễn dưới dạng vector).dạng vector)

-

- Cây Cây quyết quyết định định (Decision (Decision Tree):Tree):

Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ

đi kèm hỗ trợ quá trình ra quyết định

Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại

và tổng quát hóa tập dữ

và tổng quát hóa tập dữ liệu cho trước.liệu cho trước

- Ưu điểm:

 Không đòi hỏi việc chuẩn hóa dữ Không đòi hỏi việc chuẩn hóa dữ liệu.liệu

 Có thể xử lý trên Có thể xử lý trên nhiều kiểu dữ liệu khác nhau.nhiều kiểu dữ liệu khác nhau

 Xử lý tốt một lượng dữ Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn.liệu lớn trong thời gian ngắn

- Khuyết điểm:

 Khó giải quyết trong tình huống dữ Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian.liệu phụ thuộc thời gian

 Cho phí xây dựng mô hình cao

Trang 14

SVM (Support Vector Machine).SVM (Support Vector Machine).

+ Là một + Là một thuật toán có giám sát, SVM nhận dữ liệu vào, thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như các vector trongxem chúng như các vector trongkhông gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều c

phẳng trong không gian nhiều chiều làm mặt phân chiều làm mặt phân cách các lớp dữ liách các lớp dữ liệu.ệu

+ Để tối ưu kết quả phân lớp t+ Để tối ưu kết quả phân lớp thì phải xác định siêu hì phải xác định siêu phẳng (hyperplane) có khoảng cphẳng (hyperplane) có khoảng cácháchđến các điểm dữ liệu (margin) của tất cả các lớp

đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.xa nhất có thể

+ SVM có nhiều biế+ SVM có nhiều biến thể phù hợp với các bài toán phân thể phù hợp với các bài toán phân loại khác nhan loại khác nhau: Hard Maru: Hard MarginginSVM, Soft Margin SVM,

SVM, Soft Margin SVM, Multi-class SVM, Kernel SVM.Multi-class SVM, Kernel SVM

- Ưu điểm:

 Tiết kiệm bộ nhớ (do quá Tiết kiệm bộ nhớ (do quá trình test chỉ cần so điểm dữ liệu trình test chỉ cần so điểm dữ liệu mới với mặt siêu phẳngmới với mặt siêu phẳngtìm được mà không cần tính toán

tìm được mà không cần tính toán lại).lại)

 Linh hoạt: vừa có thể phân lớp tuyến tính và phi tuyến (sử dụng các kernel khác

Khái niệm:

Khái niệm: Là các phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp trên Là các phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp trên

dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình đó hay không

Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp và khôngquá nhạy cảm với nhiễu (tránh underfitting và overfitting)

Trang 15

Accuracy chỉ cho chúng ta biết được tỷ lệ dữ liệu được phân loại đúng mà không chỉ rađược cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiềunhất, và dữ liệu thuộc lớp nào

nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào thường bị phân loại nhầm vào lớp khác.lớp khác

- ROC, AUC, Precision, Recall, F1-score

+ ROC

+ ROC (Receiver Operating Characteristic)(Receiver Operating Characteristic)

Là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phân loại nhị phân.Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR)dựa trên tỷ lệ dự

dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau.báo false positive rate (FPR) tại các ngưỡng khác nhau

Mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1)trong đồ thị thì mô

trong đồ thị thì mô hình càng hiệu quả.hình càng hiệu quả

+ AUC (Area Under The Curve)

Là diện tích nằm dưới đường cong ROCGiá trị này là một số dương

Giá trị này là một số dương nhỏ hơn hoặc bằng 1nhỏ hơn hoặc bằng 1Giá trị này càng lớn thì mô

Giá trị này càng lớn thì mô hình càng tốt.hình càng tốt

 Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao nhiêu mẫu có đúng

 Recall (độ phủ): còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (TruePositive Rate)

 F1-score: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision vàRecall

- Phương pháp phân chia dữ

- Phương pháp phân chia dữ liệu Hold-outliệu Hold-outPhương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo một tỷ lệnhất định Ví dụ, tập huấn luyện (training set) chiếm 70%, tập thử nghiệm (testing set)chiếm 30%

Phương pháp này thích hợp cho các tập dữ liệu nhỏ

Phương pháp này thích hợp cho các tập dữ liệu nhỏ Tuy nhiên, các mẫu có thể không đạiTuy nhiên, các mẫu có thể không đạidiện cho toàn bộ dữ

diện cho toàn bộ dữ liệu (thiếu lớp trong tập thử nghiệm).liệu (thiếu lớp trong tập thử nghiệm)

Có thể cải tiến bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bổ đềutrong cả hai tập dữ liệu huấn luyện và đánh giá Hoặc lấy mẫu ngẫu nhiên: thực hiệnhold-out k lần và độ

hold-out k lần và độ chính xác acc(M) = trung bình cộng k chính xác acc(M) = trung bình cộng k giá trị chính xác.giá trị chính xác

Trang 16

2.2.2 Phân cụm dữ liệu2.2.2.1 Khái niệm.

Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có các đặc điểmtương tự nhau và phân

tương tự nhau và phân vào các cụm/nhóm tương ứng Trong đó:vào các cụm/nhóm tương ứng Trong đó:

- Những đối tượng thuộc cùng

- Những đối tượng thuộc cùng một cụm sẽ có các thuộc tính tương một cụm sẽ có các thuộc tính tương tự nhau.tự nhau

- Những đối tượng thuộc những

- Những đối tượng thuộc những cụm/nhóm khác nhau sẽ có các thuộc tính khác nhau.cụm/nhóm khác nhau sẽ có các thuộc tính khác nhau.Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn Đây là dữ liệu tựnhiên thường thấy trong thực tế

- Một phương pháp phân cụm tốt là phương pháp tạo ra tốt là phương pháp tạo ra các cụm có chất lượng cao:các cụm có chất lượng cao:

 Độ tương đồng nội bộ cao

 Độ tương đồng giữa các cụm thấp Độ tương đồng giữa các cụm thấp (khác biệt cao)(khác biệt cao)

 Ứng dụng phân cụm trong kinh tế học

 Dự báo khách hàng năng lực

 Phân tích xu hướng hành vi Phân tích xu hướng hành vi khách hàngkhách hàng

 Phân tích cạnh tranh giữa các nhà cung cấp, xu Phân tích cạnh tranh giữa các nhà cung cấp, xu hướng lựa chọn dịch vụhướng lựa chọn dịch vụ

 Phân tích đặc tính sản phẩm và dịch Phân tích đặc tính sản phẩm và dịch vụvụ

 Đánh giá hiệu quả kinh doanh

 Phân tích hành vi người dùng mạng xã hội2.2.2.2 Phân cụm

2.2.2.2 Phân cụm phân cấp (Hierarchical Clustering):phân cấp (Hierarchical Clustering):

- Xây dựng một cây phân

- Xây dựng một cây phân cấp cho dữ liệu cần gom cấp cho dữ liệu cần gom cụm dựa trên:cụm dựa trên:

 Ma trận khoảng cách Ma trận khoảng cách giữa các phần tử giữa các phần tử (similarity matrix hoặc dissimilarit(similarity matrix hoặc dissimilarity matrix)y matrix)

 Độ đo khoảng cách giữa các cụm (single link, Độ đo khoảng cách giữa các cụm (single link, complete link…)complete link…)

- Phương pháp này không

- Phương pháp này không cần xác định trước số cụm nhưng cần cần xác định trước số cụm nhưng cần xác định điều kiện dừng.xác định điều kiện dừng

Trang 17

- Các phương pháp điển hình: Diana, Agnes…

+ Agnes:

Theo chiến lược bottom up:

 Bắt đầu với những cụm chỉ là 1 phần tử

 Ở mỗi bước, gom 2 cụm gần nhau thành 1 cụm

 Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm,hoặc khoảng cách trung bình

 Quá trình này lặp lại cho đến Quá trình này lặp lại cho đến khi tất cả các phần tử cùng khi tất cả các phần tử cùng thuộc một cụm lớn.thuộc một cụm lớn

 Kết quả quá trình phát là một Kết quả quá trình phát là một dendrogram (cây phân cấp).dendrogram (cây phân cấp)

Agnes - Dendrogram (cây phân cấp) là sơ đồ/cây biễu diễn sự phân rã các phần tử dữ Agnes - Dendrogram (cây phân cấp) là sơ đồ/cây biễu diễn sự phân rã các phần tử dữ liệuliệuthành nhiều cấp độ lồng nhau

+ Diana:

Theo chiến lược top down:

 Bắt đầu với một cụm gồm Bắt đầu với một cụm gồm tất cả các phần tử.tất cả các phần tử

 Ở mỗi bước, chia cụm ban đầu Ở mỗi bước, chia cụm ban đầu thành hai cụm.thành hai cụm

 Khoảng cách giữa hai cụm là khoảng cách giữa hai điẻm gần nhất từ haicụm, khoảng cách trung bình

 Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại cho đến khi mỗi phần

tử là một cụm

 Kết quả phát sinh cây phân cấp (dendrogram)

- Nhận xét về phân cụm

- Nhận xét về phân cụm phân cấp:phân cấp:

 Giải thuật đơn giản

 Kết quả dễ hiểu

 Không cần tham số đầu vào

 Không quay lui được

 Tốc độ chậm, không thích hợp Tốc độ chậm, không thích hợp trên dữ liệu lớn.trên dữ liệu lớn

 Không xử lý được trên Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu.dữ liệu bị thiếu, nhạy cảm với nhiễu

2.2.2.3 Phân cụm 2.2.2.3 Phân cụm phân hoạch (Partitioning Clustering).phân hoạch (Partitioning Clustering)

Trang 18

- Phân tập dữ liệu có n phần tử cho trước thành k tập con (k≤ n), mỗi tập con biễu diễnmột cụm.

- Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (đọ đo phân cụm)sao cho:

 Mỗi đối tượng thuộc duy nhất Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong 1 cụm, các phần tử trong cụm có sự tương tự nhau.cụm có sự tương tự nhau

 Mỗi cụm có ít nhất 1 Mỗi cụm có ít nhất 1 phần tử.phần tử

- Thuật toán

- Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means.điển hình: K-means, K-mediods, Fuzzy C-means

+ Thuật toán K-means

 Thuộc nhóm thuật toán phân cụm dựa Thuộc nhóm thuật toán phân cụm dựa trên phân hoạchtrên phân hoạch

 Tư tưởng chính:

Ta xem mỗi đối tượng trong tập dữ liệu

Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là một điểm trong không gian d chiều (với d là sốlà sốlượng thuộc tính của đối tượng)

o Bước 1: chọn k điểm bất Bước 1: chọn k điểm bất kỳ làm các trung tâm ban đầu kỳ làm các trung tâm ban đầu của k cụm.của k cụm

o Bước 2: phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm

dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả

dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phâncủa lần phânchia trước đó thì ta dưng

chia trước đó thì ta dưng thuật toán.thuật toán

o Bước 3: cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất

cả các điểm dữ liệu đã được gán

cả các điểm dữ liệu đã được gán vào cụm đó sau khi vào cụm đó sau khi phân chia ở bước 2.phân chia ở bước 2

o Bước 4: quay lại bước 2

- Đánh giá thuật toán K-means:

+ Cần biết trước số lượng cụm + Cần biết trước số lượng cụm k.k

+ Nhạy cảm với nhiễu và ngoại + Nhạy cảm với nhiễu và ngoại biên (outliers).biên (outliers)

+ Không phù hợp với phân bổ dữ liệu dạng không lồi (non-convex)

+ Kết quả (nghiệm) bài toán phụ + Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo các trung tâm cụm thuộc vào cách khởi tạo các trung tâm cụm ban đầu.ban đầu

 Trường hợp 1: tốc độ Trường hợp 1: tốc độ hội tụ chậm.hội tụ chậm

 Trường hợp 2: kết quả gom cụm không chính xác (do chỉ tìm được các cực trị địa phương chứ không phải toàn c

phương chứ không phải toàn cục).ục)

+ Khắc phục:

Trang 19

 Áp dụng một số phương Áp dụng một số phương pháp tính số cụm.pháp tính số cụm.

 Chạy thuật toán nhiều lần với các trung tâm khác nhau để tìm giá trị cực tiểu củahàm mất mát

2.2.2.4 Các phương pháp đánh giá 2.2.2.4 Các phương pháp đánh giá phân cụm dữ liệu.phân cụm dữ liệu

- Một số tiêu chí để đánh giá chất lượng phân cụm là:đánh giá chất lượng phân cụm là:

 Độ nén (compactness): các phần tử của cụm phải “gần nhau”

 Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”, phân cách rõràng

- Các phương pháp đánh giá:

+ Đánh giá + Đánh giá ngoài (external validation)ngoài (external validation)

 Là đánh giá kết quả phân cụm dựa vào cấu trúc/xu hướng phân cụm được chỉ địnhtrước cho tập dữ liệu

 So sánh độ sai khác giữa các cụm

 So sánh với kết quả mẫu (đáp So sánh với kết quả mẫu (đáp án).án)

 CáCác c độ độ đo đo đưđược ợc sử sử dụdụng ng trtronong g phphươương ng phpháp áp nànày: y: RaRank nk ststatatisistitic, c, JaJaccccararddcoefficient, Folkes và Mallows index,

+ Đánh giá nội bộ + Đánh giá nội bộ (internal validation).(internal validation)

 Là đánh giá kết quả phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựatrên các vector chính của dữ liệu thông qua

trên các vector chính của dữ liệu thông qua ma trận xấp xỉ (proximity matrix).ma trận xấp xỉ (proximity matrix)

 Tối ưu hóa các chỉ số nội bộ: độ nén, độ phân tách

 Các độ đo được sử dụng trong phương pháp này: Hubert’s statistic, Sihouetteindex, Dunn’s index, F-ratio, DBI

index, Dunn’s index, F-ratio, DBI (Davics Bouldin Index).(Davics Bouldin Index)

+ Đánh giá tương đối (relative validation)Đánh giá kết quả gom cụm bằng

Đánh giá kết quả gom cụm bằng việc so sánh với:việc so sánh với:

 Kết quả gom cụm ứng với Kết quả gom cụm ứng với các bộ trị thông số khác nhau.các bộ trị thông số khác nhau

Trang 20

 Kết quả gom cụm của các phương pháp Kết quả gom cụm của các phương pháp khác.khác.

Trang 21

CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT VÀ KẾT QUẢ THỰC HIỆN.

3.1 Tiền xử lí dữ liệuĐầu tiên, ta nạp dữ liệu Banking Marketing vào DatasetsCác bước thực hiện như sau: Ta mở Datasets, tim bộ dữ liệu có tên Banking Marketing,sau đó chọn bộ dữ liệu

Hình 2: Chọn chứ Hình 2: Chọn chức năng Datasetsc năng Datasets

Hình 3: Chọn bộ dữ Hình 3: Chọn bộ dữ liệu Banking Marliệu Banking Marketing từ Datasketing từ Datasetsets

Để có thể quan sát được dữ

Để có thể quan sát được dữ liệu, ta liên kết Datasets vào Data Tablesliệu, ta liên kết Datasets vào Data Tables

Trang 22

Hình 4: Liên kế Hình 4: Liên kết Datasets vào Dt Datasets vào Data Tableata Table

Hình 5: Kết quả bộ Hình 5: Kết quả bộ dữ liệu Banking Mdữ liệu Banking Marketing tronarketing trong Data Tableg Data Table

Tiêu đề	Phân Tích Bộ Dữ Liệu Bank Marketing
Tác giả	Lương Trung Quốc, Hoàng Võ Cao Sơn, Mai Thị Yến Nhii, Nguyễn Đức Thắng, Trần Nguyễn Trâm Yến, Nguyễn Thị Thúy Nga, Nguyễn Thị Minh Vương
Người hướng dẫn	ThS. Trần Lê Phúc Thịnh
Trường học	Đại học UEH
Chuyên ngành	Khoa học dữ liệu
Thể loại	tiểu luận
Năm xuất bản	2022
Thành phố	Tp.HCM

Định dạng
Số trang	45
Dung lượng	1,09 MB