Để Để có có thểthể phân tích được các dữ liệu một phân tích được các dữ liệu một cách tự động thì nhóm sử cách tự động thì nhóm sử dụng phần mềm Orange để xâydụng phần mềm Orange để xây
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH
KHOA KINH TẾ
TIỂU LUẬN
Môn học: KHOA HỌC DỮ LIỆU
Tp.HCM, tháng 11 năm 2022
Trang 3BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC UEH TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC UEH
KHOA KINH TẾ
Đề tài: PHÂN TÍCH BỘ DỮ LIỆU BANK MA
Giảng viên hướng dẫn:
Giảng viên hướng dẫn: ThS Trần Lê Phúc Thịnh ThS Trần Lê Phúc Thịnh S
Siin nh h vviiêên n tth hự ực c h hiiệện n M MS SS SV V P Ph hầần n ttrrăăm m đ đóón ng g ggóóp p 11 L Lưươơnng g T Trruunng g Q Quuốốcc 3311220011002200448811 110000% %
Trang 4LỜI CẢM ƠN
Để hoàn thành tiểu luận này, em xin
Để hoàn thành tiểu luận này, em xin gửi lời chân thành đến:gửi lời chân thành đến:
Giảng viên bộ môn Khoa học Dữ liệu - Trần Lê Phúc Thịnh đã giảng dạy tận tình, nhiệttình và chi tiết để chúng em
tình và chi tiết để chúng em có kiến thức và vận dụng có kiến thức và vận dụng chúng vào bài tiểu luận này.chúng vào bài tiểu luận này
Ban giám hiệu trường Đại học UEH vì đã tạo điều kiện về cơ sở vật chất với hệ thống thưviên hiện đại, tài liệu thuận lợi cho việc tìm
viên hiện đại, tài liệu thuận lợi cho việc tìm kiếm, nguyên cứu thông tin.kiếm, nguyên cứu thông tin
Do chưa có nhiều kinh nghiệm làm đề tài cũng như những hạn chế về kiến thức, trong bàitiểu luận chắc chắn sẽ không tránh khỏi những thiếu sót Rất mong nhận được sự nhậnxét, ý kiến đóng góp,
xét, ý kiến đóng góp, phê bình từ phía thầy để phê bình từ phía thầy để bài tiểu luận được hoàn thiện hơn.bài tiểu luận được hoàn thiện hơn
Lời cuối cùng, em xin kính chúc Lời cuối cùng, em xin kính chúc thầy nhiều sức khỏe, thành công và hạnh thầy nhiều sức khỏe, thành công và hạnh phúc.phúc
Trang 5“MỤC LỤC
DANH MỤC HÌNH ẢNH 3
LỜI CẢM ƠN 6
LỜI MỞ ĐẦU 7
CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI 7
1.1 1.1 Giới Giới thiệthiệu về u về Khoa Khoa học học dữ dữ liệu liệu 7 7
1.2 1.2 GiớGiới thii thiệu về đề tàệu về đề tài “Phâi “Phân tích vn tích và dự đoáà dự đoán sự rời đi cn sự rời đi của khủa khách hàách hàng trong trong lĩnng lĩnhh vực viễn thông” 8
11 22 11 LLý dý do co chhọọn đn đề tề tààii 9 9
1 1.22.2.2 MụMục tc tiêiêu nu nghghiêiên cn cứứu.u 9 9
1 1.2.2.3.3 PhPhươương ng phpháp áp ththực ực hihiệnện 9 9
11 22 44 Ý Ý nngghhĩĩaa 10 10
CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNG PHÁP SỬ DỤNG 10
2.1 Tổng quan về phần mềm Orange 10
2.1.1 2.1.1. Mô tả sơ lược v Mô tả sơ lược về phần mềm Orangề phần mềm Orange.e 10 10
2.1.2 Các tính năng 2.1.2 Các tính năng 11 11
2.2 Tổng quan về các phương pháp sử dụng 18
2.2.1 Tiền xử lý dữ liệu 2.2.1 Tiền xử lý dữ liệu 18 18
2.2.2 Phân lớp dữ liệu 2.2.2 Phân lớp dữ liệu 19 19
2.2.3 Phân cụm dữ liệu 2.2.3 Phân cụm dữ liệu 21 21
CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT 25
3.1 3.1 Bộ Bộ dữ dữ liệu liệu TeleTelecom com CustCustomer omer ChurnChurn 25 25
3.2 3.2 Giải Giải thícthích ch các ác thuộc thuộc tính tính của của bộ dbộ dữ lữ liệu iệu “Tel“Telecom ecom CustCustomer omer ChurnChurn” ” 25.25 CHƯƠNG 4: KẾT QUẢ THỰC HIỆN 31
4.1 4.1 Tiền Tiền xử xử lí lí dữ dữ liệuliệu 3131 4 4.1.1.1.1 ChChọn ọn số số lưlượnợng kg khảhảo so sátát 32 32
4 4.1.1.2.2 LoLoại ại bỏ bỏ cácác bc biếiến kn khôhông ng phphù hù hợpợp 32 32
4.2 4.2 Phân Phân lớp lớp dữ dữ liệuliệu.(lưu (lưu ý tý thứ hứ tự ttự thực hực hiện)hiện) 36 36
4 4.2.2.1.1 CáCác pc phưhươnơng pg pháháp đp đánánh gh giáiá 36 36
44 22 22 DDự ự bbááoo:: 42 42
Trang 64.3 Phân Phân cụm cụm dữ dữ liệuliệu.(lưu (lưu ý tý thứ hứ tự tự thực thực hiện)hiện) 43 43 4.3.1.4.3.1. Phương pháp Hier Phương pháp Hierarchical lustearchical lustering ring ……….… ………44 ……….… ………44
4
4.3.3.2.2 PhPhươương ng phpháp áp K-K-memeanans.s 45 45""
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 481
1 Kết Kết luận.luận 48482
2 HướnHướng g phát phát triểtriển n 49 49TÀI LIỆU THAM KHẢO 50TÀI LIỆU THAM KHẢO 50""
Trang 7DANH MỤC HÌNH ẢNH
Hình Hình 11 : Phần mềm orange.: Phần mềm orange 11 11 Hình
Hình 22 : Chọn chức năng : Chọn chức năng DatasetsDatasets 20 20 Hình
Hình 33 : Chọn bộ dữ liệu Banking Marketing từ Datasets: Chọn bộ dữ liệu Banking Marketing từ Datasets 20 20 Hình
Hình 44 : Liên kết Datasets vào Data Table: Liên kết Datasets vào Data Table 21 21 Hình
Hình 55 : Kết quả bộ dữ : Kết quả bộ dữ liệu Banking Marketing trong Data Tableliệu Banking Marketing trong Data Table 21 21 Hình
Hình 66 : Quy trình tiền xử lý dữ liệu: Quy trình tiền xử lý dữ liệu 22 22 Hình
Hình 77 : Các bước thực hiện xử lý dữ liệu trong Preprocess: Các bước thực hiện xử lý dữ liệu trong Preprocess 22 22 Hình
Hình 88 : Kết quả dữ liệu Data_Tiền xử lý dữ : Kết quả dữ liệu Data_Tiền xử lý dữ liệu với mẫu 4119 quan sát.liệu với mẫu 4119 quan sát 23 23 Hình
Hình 99 : Quy trình tạo File Training Data và File Testing Data: Quy trình tạo File Training Data và File Testing Data 23 23 Hình
Hình 1010 : Data Sampler của : Data Sampler của File Training DataFile Training Data 24 24 Hình
Hình 1111 : Data Sampler của File : Data Sampler của File Testing DataTesting Data 24 24 Hình
Hình 1212 : Dữ liệu đầu vào.: Dữ liệu đầu vào 25 25 Hình
Hình 1313 : Lựa chọn chức năng.: Lựa chọn chức năng 26 26 Hình
Hình 1414 : Kết quả phân cụm.: Kết quả phân cụm 26 26 Hình
Hình 1515 : Kết quả phân cụm theo chỉ số : Kết quả phân cụm theo chỉ số Silhouette.Silhouette 27 27 Hình
Hình 1616 : Chỉ số Silhouette cao nhất của 2 cụm.: Chỉ số Silhouette cao nhất của 2 cụm 28 28 Hình
Hình 1717 : Phân cụm với phương pháp Hierarchical clustering.: Phân cụm với phương pháp Hierarchical clustering 28 28 Hình
Hình 1818 : Dữ liệu đầu vào.: Dữ liệu đầu vào 29 29 Hình
Hình 1919 : Phân Cụm với : Phân Cụm với chứng năng K-means.chứng năng K-means 29 29 Hình
Hình 2020 : Bảng kết quả phân cụm : Bảng kết quả phân cụm 30 30 Hình
Hình 2121 : Bảng kết quả phân cụm : Bảng kết quả phân cụm 1.1 31 31 Hình
Hình 2222 : Bảng kết quả phân cụm : Bảng kết quả phân cụm 2.2 31 31 Hình
Hình 2323 : : Bảng chỉ số SiBảng chỉ số Silhouette Scorlhouette Scores cao nhất của es cao nhất của 2 cụm.2 cụm 32 32 Hình
Hình 2424 : Mô hình phân cụm bằng phương pháp K-means.: Mô hình phân cụm bằng phương pháp K-means 32 32 Hình
Hình 2525 : Mô hình phân cụm dữ liệu Bank Marketing.: Mô hình phân cụm dữ liệu Bank Marketing 33 33 Hình
Hình 2626 : Insert File Training Data vào : Insert File Training Data vào hộp chức năng Filehộp chức năng File 33 33
Trang 8Hình Hình 2727 : Mô hình phân lớp dữ liệu: Mô hình phân lớp dữ liệu 34 34 Hình
Hình 2828 : Kết quả chi mẫu dữ liệu thành 5 : Kết quả chi mẫu dữ liệu thành 5 phầnphần 35 35 Hình
Hình 2929 : Kết quả chia mẫu dữ liệu thành 10 : Kết quả chia mẫu dữ liệu thành 10 phầnphần 35 35 Hình
Hình 3030 : Kết quả chia mẫu dữ liệu với tỷ : Kết quả chia mẫu dữ liệu với tỷ lệ 10% - 60%lệ 10% - 60% 36 36 Hình
Hình 3131 : Kết quả chia mẫu dữ liệu với tỷ : Kết quả chia mẫu dữ liệu với tỷ lệ 20% - 70%lệ 20% - 70% 36 36 Hình
Hình 3232 : Kết quả ma trận nhầm lẫn của : Kết quả ma trận nhầm lẫn của phương pháp Logistic Regressphương pháp Logistic Regressionion 37 37 Hình
Hình 3333 : Kết quả ma trận nhầm lẫn của : Kết quả ma trận nhầm lẫn của phương pháp Decision Trephương pháp Decision Treee 38 38 Hình
Hình 3434 : Kết quả ma trận nhầm lẫn của : Kết quả ma trận nhầm lẫn của phương pháp SVM phương pháp SVM 38 38 Hình
Hình 3535 : Kết quả ROC Analysis: Kết quả ROC Analysis 39 39 Hình
Hình 3636 : Testing Data: Testing Data 40 40 Hình
Hình 3737 : Dự báo : Dự báo bằng Prediction với phương pháp Logistic Regressionbằng Prediction với phương pháp Logistic Regression 40 40 Hình
Hình 3838 : Kết quả dự báo : Kết quả dự báo bằng Logistic Regression của 100 mẫu dữ liệubằng Logistic Regression của 100 mẫu dữ liệu 41 41
Trang 9CHƯƠNG 1: GIỚI THIỆU VỀ KHOA HỌC DỮ LIỆU VÀ GIỚI THIỆU ĐỀ TÀI1.1
1.1 Giới thiệu Giới thiệu về khoa học về khoa học dữ liệudữ liệuKhoa học dữ liệu là lĩnh vực áp dụng các kỹ thuật phân tích tiên tiến và các nguyên tắckhoa học để trích xuất thông tin có giá trị từ dữ liệu cho việc ra quyết định kinh doanh,lập kế hoạch chiến lược và các mục đích sử dụng khác Nó ngày càng quan trọng đối vớicác doanh nghiệp: Những hiểu biết sâu sắc mà khoa học dữ liệu tạo ra giúp các tổ chứctăng hiệu quả hoạt động, xác định các cơ hội kinh doanh mới và cải thiện các chươngtrình tiếp thị và bán hàng, cùng với các lợi ích khác Cuối cùng, chúng có thể dẫn đến lợithế cạnh tranh so với các đối thủ
thế cạnh tranh so với các đối thủ kinh doanh.kinh doanh
Khoa học dữ liệu kết hợp nhiều lĩnh vực khác nhau - ví dụ, kỹ thuật dữ liệu, chuẩn bị dữliệu, khai thác dữ liệu , phân tích dự đoán, học máy và trực quan hóa dữ liệu, cũng nhưthống kê, toán học và lập
thống kê, toán học và lập trình phần mềm.trình phần mềm
Khoa học dữ liệu đóng một vai trò quan trọng trong hầu như tất cả các khía cạnh của hoạtđộng và chiến lược kinh doanh Ví dụ, nó cung cấp thông tin về khách hàng giúp cáccông ty tạo ra các chiến dịch tiếp thị mạnh mẽ hơn và quảng cáo nhắm mục tiêu để tăngdoanh số bán sản phẩm Nó hỗ trợ trong việc quản lý rủi ro tài chính, phát hiện các giaodịch gian lận và ngăn ngừa sự cố thiết bị trong các nhà máy sản xuất và các cơ sở côngnghiệp khác Nó giúp chặn các cuộc tấn công mạng và các mối đe dọa bảo mật kháctrong hệ thống CNTT
Khoa học dữ liệu cũng rất quan trọng trong các lĩnh vực ngoài hoạt động kinh doanhthông thường Trong chăm sóc sức khỏe, các ứng dụng của nó bao gồm chẩn đoán tìnhtrạng y tế, phân tích hình ảnh, lập kế
trạng y tế, phân tích hình ảnh, lập kế hoạch điều trị và nghiên cứu y tế Các hoạch điều trị và nghiên cứu y tế Các tổ chức họctổ chức họcthuật sử dụng khoa học dữ liệu để theo dõi kết quả hoạt động của sinh viên và cải thiệnhoạt động tiếp thị của họ tới các sinh viên tương lai Các đội thể thao phân tích hiệu suấtcủa người chơi và lập kế hoạch chiến lược trò chơi thông qua khoa học dữ liệu Các cơ quan chính phủ và các tổ
quan chính phủ và các tổ chức chính sách công cũng là những người chức chính sách công cũng là những người sử dụng lớn.sử dụng lớn
Vòng đời của khoa học dữ Vòng đời của khoa học dữ liệu bao gồm sáu bước chính sau:liệu bao gồm sáu bước chính sau:
Xác định một giả thuyết liên quan đến Xác định một giả thuyết liên quan đến kinh doanh để kiểm tra.kinh doanh để kiểm tra
Thu thập dữ liệu và chuẩn Thu thập dữ liệu và chuẩn bị để phân tích.bị để phân tích
Thử nghiệm với các mô hình phân Thử nghiệm với các mô hình phân tích khác nhau.tích khác nhau
Trang 10 Chọn mô hình tốt nhất và chạy nó với dữ liệu.
Trình bày kết quả cho các nhà Trình bày kết quả cho các nhà quản trị doanh nghiệp.quản trị doanh nghiệp
Triển khai mô hình để sử Triển khai mô hình để sử dụng liên tục với dữ liệu mới.dụng liên tục với dữ liệu mới
1.2
1.2 Giới thGiới thiệu về iệu về đề tài.đề tài
Makerting hiện đang phổ biến cho mọi ngành nghề
Makerting hiện đang phổ biến cho mọi ngành nghề Các ngành nghề cần makerting để tốiCác ngành nghề cần makerting để tối
ưu và tìm hiểu yêu cầu mong muốn của khách hàng hơn nữa còn xác định khả năng sảnxuất với giá thành phù hợp sau đó sản xuất và bán ra thị trường với chiến lược giá đã đềra.Và đối với bank makerting cũng vậy, ngân hàng cần tiếp thị để phục vụ khách hàngcủa mình một cách tốt nhất và xem xét cái gì là cần
của mình một cách tốt nhất và xem xét cái gì là cần thiết và phù hợp cho khách hàng mụcthiết và phù hợp cho khách hàng mụctiêu của mình
1.2.1 Lý do chọn đề tài
Hiện nay việc khai thác các dữ liệu đã trở nên không thể thiếu đối với các ngành nghề.Đặc biệt ở đây chúng tôi đề cập đến trong thương mại và kinh doanh Một lượng lớn dữliệu từ khách hàng, hoạt động kinh doanh, đối tác,… Những điều này không thể xử lý bằng
bằng sức sức người, người, do do đó đó việc việc số số hóa hóa các các số số liệu liệu này này là là điều điều vô vô cùng cùng cần cần thiết thiết Để Để có có thểthể phân tích được các dữ liệu một
phân tích được các dữ liệu một cách tự động thì nhóm sử cách tự động thì nhóm sử dụng phần mềm Orange để xâydụng phần mềm Orange để xâydựng quy trình khai thác dữ liệu trực quan – đây là phần mềm khai thác dữ liệu phổ biến
có thể được thực hiện mà không
có thể được thực hiện mà không cần lập trìnhcần lập trình Nhóm đã
Nhóm đã tìm được tìm được bộ bộ dữ dữ liệu của liệu của một tổ một tổ chức ngân chức ngân hàng, dữ hàng, dữ liệu có liệu có liên quan liên quan Dữ liệuDữ liệusau khi được phân tích bởi Orange, nhóm sẽ đưa ra một số nhận xét và kết luận của từngcửa sổ phân tích , đánh giá độ hiệu quả và đề xuất một số hướng phát triển dành cho ???
Đó cũng là lý do chọn đề tài: “Phân tích bộ dữ liệu Bank Marketing qua các thuật toántrên Orange”
1.2.2 Mục tiêu nghiên cứu
Xử lý bộ dữ liệu Bank Makerting để dự đoán liệu khách hàng có đăng ký một khoản tiềngửi có kỳ hạn hay không dựa trên hồ sơ của khách hàng có các thuộc tính: tuổi, côngviệc, tình trạng hôn nhân, học vấn,…
1.2.3 Phương pháp thực hiện
Nhóm sử Nhóm sử dụng phần dụng phần mềm Orange mềm Orange để để tiến hành tiến hành thực hiện thực hiện xử xử lý lý dữ liệu, dữ liệu, phân cụm, phân cụm, phânphânlớp dữ liệu, rồi sau đó
lớp dữ liệu, rồi sau đó tiến hành dự báo cho nhóm tiến hành dự báo cho nhóm dữ liệu ngẫu nhiên chưa phân lớp.dữ liệu ngẫu nhiên chưa phân lớp
Trang 11Để thực hiện phân cụm bộ dữ liệu nhóm sử dụng hai phương pháp chính là: Hierarchicalclustering và K-means.
- Đối với
- Đối với phương pháp Hierarchical clustering nhóm tiến hành tính khoàng cách giữa cácphương pháp Hierarchical clustering nhóm tiến hành tính khoàng cách giữa các phân tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và phân tử bằng Distance rồi quan sát dữ liệu được phân cụm với số cụm từ 2 đến 5 và quanquansát trên Silhouette Plot
Sau khi thực hiện phân cụm dữ liệu theo hai phương pháp trên, nhóm tiến hành chọn phương pháp tốt nhất để phâ
phương pháp tốt nhất để phân cụm cho bộ dữ liệu của n cụm cho bộ dữ liệu của nhóm.nhóm
- Đối với việc phân lớp dữ
- Đối với việc phân lớp dữ liệu, nhóm chọn biến "Subscribed" (đã đăng kí) cho liệu, nhóm chọn biến "Subscribed" (đã đăng kí) cho việcviệcgửi tiền có kỳ hạn
gửi tiền có kỳ hạn là biến mục tiêu, tiến hành phân lớp trên là biến mục tiêu, tiến hành phân lớp trên 3 phương pháp là Cây 3 phương pháp là Cây quyếtquyết định (Decision Tree), SVM (Support
định (Decision Tree), SVM (Support Vector Machine) và Hồi quy Vector Machine) và Hồi quy Logistic (LogisticLogistic (LogisticRgression) Sử dụng Test and Score, quan sát chỉ số AUC của từng
Rgression) Sử dụng Test and Score, quan sát chỉ số AUC của từng phương pháp và cuốiphương pháp và cuốicùng là quan sát trên ma trận nhầm
cùng là quan sát trên ma trận nhầm lẫn.lẫn
Trang 12CHƯƠNG 2: TỔNG QUAN CHƯƠNG 2: TỔNG QUAN VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ VỀ CHƯƠNG TRÌNH SỬ DỤNG VÀ CÁC PHƯƠNGCÁC PHƯƠNGPHÁP SỬ DỤNG
2.1 Tổng quan về chương trình sử dụng
Phần mềm Orange biết đến bởi việc tích hợp các công cụ khai phá dữ liệu mã nguồn mở
và học máy thông minh, đơn giản, được lập trình bằng Python với giao diện trực quan vàtương tác dễ dàng Với nhiều chức năng, phần mềm này có thể phân tích được những dữliệu từ đơn giản đến phức tạp, tạo ra những đồ họa đẹp mắt và thú vị và còn giúp việckhai thác dữ liệu và học máy
khai thác dữ liệu và học máy trở nên dễ dàng hơn trở nên dễ dàng hơn cho cả người dùng mới và cho cả người dùng mới và chuyên gia.chuyên gia.Các công cụ cung cấp các chức năng cơ bản như đọc dữ liệu, hiển thị dữ liệu dạng bảng,lựa chọn thuộc tính đặc điểm của dữ liệu, huấn luyện dữ liệu để dự đoán, so sánh cácthuật toán máy học, trực quan hóa các
thuật toán máy học, trực quan hóa các phần tử dữ liệu.phần tử dữ liệu
Hình 1: Phần m Hình 1: Phần mềm orange.ềm orange
liệu chính là quá trình phân lớp dữ liệu.dữ liệu
2.2.2.2 Quá trình phân lớp 2.2.2.2 Quá trình phân lớp dữ liệu.dữ liệu
Trang 13- Quá trình phân lớp dữ
- Quá trình phân lớp dữ liệu gồm hai bước chính:liệu gồm hai bước chính:
Bước 1: Xây dựng mô Bước 1: Xây dựng mô hình (hay còn gọi là giai đoạn hình (hay còn gọi là giai đoạn “học” hoặc “huấn luyện”)“học” hoặc “huấn luyện”)
Bước 2: Sử dụng mô hình, được chia thành 2 bước nhỏ:
+ Đánh giá mô hình + Đánh giá mô hình (kiểm tra tính đúng đắn của mô hình):(kiểm tra tính đúng đắn của mô hình):
Dữ liệu đầu vào: Là một tập dữ liệu mẫu khác đã được dán nhãn và tiền xử lý Tuynhiên lúc đưa vào mô hình
nhiên lúc đưa vào mô hình phân lớp, ta “lờ” đi thuộc tính phân lớp, ta “lờ” đi thuộc tính đã được gán nhãn.đã được gán nhãn
Tính đúng đắn của mô hình được xác định bằng cách so sánh thuộc tính gán nhãncủa dữ liệu đầu vào và
của dữ liệu đầu vào và kết quả phân lớp của mô kết quả phân lớp của mô hình.hình
+ Phân lớp dữ liệu mới
Dữ liệu đầu vào là dữ Dữ liệu đầu vào là dữ liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)liệu “khuyết” thuộc tính cần dự đoán lớp (nhãn)
Mô hình sẽ tự động phân lớp (gán nhãn) cho các đối tượng dữ liệu này dựa vàonhững gì đã được huấn luyện ở bước 1
2.2.1.3 Một số 2.2.1.3 Một số phương pháp phân lớp.phương pháp phân lớp
Hồi quy Logistic Hồi quy Logistic (Logistic Regression):(Logistic Regression): Là một mô hình xác suất dự đoán giá trị đầu Là một mô hình xác suất dự đoán giá trị đầu
ra rời rạc từ một tập
ra rời rạc từ một tập cá giá trị đầu vào (biểu diễn dưới cá giá trị đầu vào (biểu diễn dưới dạng vector).dạng vector)
-
- Cây Cây quyết quyết định định (Decision (Decision Tree):Tree):
Trong lý thuyết quản trị, cây quyết định là đồ thị các quyết định cùng các kết quả khả dĩ
đi kèm hỗ trợ quá trình ra quyết định
Trong lĩnh vực khai thác dữ liệu, cây quyết định là phương pháp nhằm mô tả, phân loại
và tổng quát hóa tập dữ
và tổng quát hóa tập dữ liệu cho trước.liệu cho trước
- Ưu điểm:
Không đòi hỏi việc chuẩn hóa dữ Không đòi hỏi việc chuẩn hóa dữ liệu.liệu
Có thể xử lý trên Có thể xử lý trên nhiều kiểu dữ liệu khác nhau.nhiều kiểu dữ liệu khác nhau
Xử lý tốt một lượng dữ Xử lý tốt một lượng dữ liệu lớn trong thời gian ngắn.liệu lớn trong thời gian ngắn
- Khuyết điểm:
Khó giải quyết trong tình huống dữ Khó giải quyết trong tình huống dữ liệu phụ thuộc thời gian.liệu phụ thuộc thời gian
Cho phí xây dựng mô hình cao
Trang 14SVM (Support Vector Machine).SVM (Support Vector Machine).
+ Là một + Là một thuật toán có giám sát, SVM nhận dữ liệu vào, thuật toán có giám sát, SVM nhận dữ liệu vào, xem chúng như các vector trongxem chúng như các vector trongkhông gian và phân loại chúng vào các lớp khác nhau bằng cách xây dựng một siêu phẳng trong không gian nhiều c
phẳng trong không gian nhiều chiều làm mặt phân chiều làm mặt phân cách các lớp dữ liách các lớp dữ liệu.ệu
+ Để tối ưu kết quả phân lớp t+ Để tối ưu kết quả phân lớp thì phải xác định siêu hì phải xác định siêu phẳng (hyperplane) có khoảng cphẳng (hyperplane) có khoảng cácháchđến các điểm dữ liệu (margin) của tất cả các lớp
đến các điểm dữ liệu (margin) của tất cả các lớp xa nhất có thể.xa nhất có thể
+ SVM có nhiều biế+ SVM có nhiều biến thể phù hợp với các bài toán phân thể phù hợp với các bài toán phân loại khác nhan loại khác nhau: Hard Maru: Hard MarginginSVM, Soft Margin SVM,
SVM, Soft Margin SVM, Multi-class SVM, Kernel SVM.Multi-class SVM, Kernel SVM
- Ưu điểm:
Tiết kiệm bộ nhớ (do quá Tiết kiệm bộ nhớ (do quá trình test chỉ cần so điểm dữ liệu trình test chỉ cần so điểm dữ liệu mới với mặt siêu phẳngmới với mặt siêu phẳngtìm được mà không cần tính toán
tìm được mà không cần tính toán lại).lại)
Linh hoạt: vừa có thể phân lớp tuyến tính và phi tuyến (sử dụng các kernel khác
Khái niệm:
Khái niệm: Là các phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp trên Là các phương pháp nhằm kiểm tra tính hiệu quả của mô hình phân lớp trên
dữ liệu có đặc thù cụ thể, từ đó quyết định có sử dụng mô hình đó hay không
Một mô hình lý tưởng là một mô hình không quá đơn giản, không quá phức tạp và khôngquá nhạy cảm với nhiễu (tránh underfitting và overfitting)
Trang 15Accuracy chỉ cho chúng ta biết được tỷ lệ dữ liệu được phân loại đúng mà không chỉ rađược cụ thể mỗi loại được phân loại như thế nào, lớp nào được phân loại đúng nhiềunhất, và dữ liệu thuộc lớp nào
nhất, và dữ liệu thuộc lớp nào thường bị phân loại nhầm vào thường bị phân loại nhầm vào lớp khác.lớp khác
- ROC, AUC, Precision, Recall, F1-score
+ ROC
+ ROC (Receiver Operating Characteristic)(Receiver Operating Characteristic)
Là một đồ thị được sử dụng khá phổ biến trong đánh giá các mô hình phân loại nhị phân.Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR)dựa trên tỷ lệ dự
dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau.báo false positive rate (FPR) tại các ngưỡng khác nhau
Mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1)trong đồ thị thì mô
trong đồ thị thì mô hình càng hiệu quả.hình càng hiệu quả
+ AUC (Area Under The Curve)
Là diện tích nằm dưới đường cong ROCGiá trị này là một số dương
Giá trị này là một số dương nhỏ hơn hoặc bằng 1nhỏ hơn hoặc bằng 1Giá trị này càng lớn thì mô
Giá trị này càng lớn thì mô hình càng tốt.hình càng tốt
Precision (độ chính xác): cho biết trong số m mẫu được phân vào lớp i thì có tỷ lệ bao nhiêu mẫu có đúng
Recall (độ phủ): còn gọi là độ phủ hay độ nhạy (sensitivity) hay TPR (TruePositive Rate)
F1-score: giá trị trung bình điều hòa (harmonic mean) của hai độ đo Precision vàRecall
- Phương pháp phân chia dữ
- Phương pháp phân chia dữ liệu Hold-outliệu Hold-outPhương pháp Hold-out phân chia tập dữ liệu ban đầu thành 2 tập độc lập theo một tỷ lệnhất định Ví dụ, tập huấn luyện (training set) chiếm 70%, tập thử nghiệm (testing set)chiếm 30%
Phương pháp này thích hợp cho các tập dữ liệu nhỏ
Phương pháp này thích hợp cho các tập dữ liệu nhỏ Tuy nhiên, các mẫu có thể không đạiTuy nhiên, các mẫu có thể không đạidiện cho toàn bộ dữ
diện cho toàn bộ dữ liệu (thiếu lớp trong tập thử nghiệm).liệu (thiếu lớp trong tập thử nghiệm)
Có thể cải tiến bằng cách dùng phương pháp lấy mẫu sao cho mỗi lớp được phân bổ đềutrong cả hai tập dữ liệu huấn luyện và đánh giá Hoặc lấy mẫu ngẫu nhiên: thực hiệnhold-out k lần và độ
hold-out k lần và độ chính xác acc(M) = trung bình cộng k chính xác acc(M) = trung bình cộng k giá trị chính xác.giá trị chính xác
Trang 162.2.2 Phân cụm dữ liệu2.2.2.1 Khái niệm.
Phân cụm dữ liệu là quá trình gom cụm/nhóm các đối tượng/dữ liệu có các đặc điểmtương tự nhau và phân
tương tự nhau và phân vào các cụm/nhóm tương ứng Trong đó:vào các cụm/nhóm tương ứng Trong đó:
- Những đối tượng thuộc cùng
- Những đối tượng thuộc cùng một cụm sẽ có các thuộc tính tương một cụm sẽ có các thuộc tính tương tự nhau.tự nhau
- Những đối tượng thuộc những
- Những đối tượng thuộc những cụm/nhóm khác nhau sẽ có các thuộc tính khác nhau.cụm/nhóm khác nhau sẽ có các thuộc tính khác nhau.Lưu ý: Dữ liệu của bài toán phân cụm là dữ liệu chưa được gán nhãn Đây là dữ liệu tựnhiên thường thấy trong thực tế
- Một phương pháp phân cụm tốt là phương pháp tạo ra tốt là phương pháp tạo ra các cụm có chất lượng cao:các cụm có chất lượng cao:
Độ tương đồng nội bộ cao
Độ tương đồng giữa các cụm thấp Độ tương đồng giữa các cụm thấp (khác biệt cao)(khác biệt cao)
Ứng dụng phân cụm trong kinh tế học
Dự báo khách hàng năng lực
Phân tích xu hướng hành vi Phân tích xu hướng hành vi khách hàngkhách hàng
Phân tích cạnh tranh giữa các nhà cung cấp, xu Phân tích cạnh tranh giữa các nhà cung cấp, xu hướng lựa chọn dịch vụhướng lựa chọn dịch vụ
Phân tích đặc tính sản phẩm và dịch Phân tích đặc tính sản phẩm và dịch vụvụ
Đánh giá hiệu quả kinh doanh
Phân tích hành vi người dùng mạng xã hội2.2.2.2 Phân cụm
2.2.2.2 Phân cụm phân cấp (Hierarchical Clustering):phân cấp (Hierarchical Clustering):
- Xây dựng một cây phân
- Xây dựng một cây phân cấp cho dữ liệu cần gom cấp cho dữ liệu cần gom cụm dựa trên:cụm dựa trên:
Ma trận khoảng cách Ma trận khoảng cách giữa các phần tử giữa các phần tử (similarity matrix hoặc dissimilarit(similarity matrix hoặc dissimilarity matrix)y matrix)
Độ đo khoảng cách giữa các cụm (single link, Độ đo khoảng cách giữa các cụm (single link, complete link…)complete link…)
- Phương pháp này không
- Phương pháp này không cần xác định trước số cụm nhưng cần cần xác định trước số cụm nhưng cần xác định điều kiện dừng.xác định điều kiện dừng
Trang 17- Các phương pháp điển hình: Diana, Agnes…
+ Agnes:
Theo chiến lược bottom up:
Bắt đầu với những cụm chỉ là 1 phần tử
Ở mỗi bước, gom 2 cụm gần nhau thành 1 cụm
Khoảng cách giữa 2 cụm là khoảng cách giữa 2 điểm gần nhất từ hai cụm,hoặc khoảng cách trung bình
Quá trình này lặp lại cho đến Quá trình này lặp lại cho đến khi tất cả các phần tử cùng khi tất cả các phần tử cùng thuộc một cụm lớn.thuộc một cụm lớn
Kết quả quá trình phát là một Kết quả quá trình phát là một dendrogram (cây phân cấp).dendrogram (cây phân cấp)
Agnes - Dendrogram (cây phân cấp) là sơ đồ/cây biễu diễn sự phân rã các phần tử dữ Agnes - Dendrogram (cây phân cấp) là sơ đồ/cây biễu diễn sự phân rã các phần tử dữ liệuliệuthành nhiều cấp độ lồng nhau
+ Diana:
Theo chiến lược top down:
Bắt đầu với một cụm gồm Bắt đầu với một cụm gồm tất cả các phần tử.tất cả các phần tử
Ở mỗi bước, chia cụm ban đầu Ở mỗi bước, chia cụm ban đầu thành hai cụm.thành hai cụm
Khoảng cách giữa hai cụm là khoảng cách giữa hai điẻm gần nhất từ haicụm, khoảng cách trung bình
Thực hiện đệ quy trên các cụm mới được tách ra và lặp lại cho đến khi mỗi phần
tử là một cụm
Kết quả phát sinh cây phân cấp (dendrogram)
- Nhận xét về phân cụm
- Nhận xét về phân cụm phân cấp:phân cấp:
Giải thuật đơn giản
Kết quả dễ hiểu
Không cần tham số đầu vào
Không quay lui được
Tốc độ chậm, không thích hợp Tốc độ chậm, không thích hợp trên dữ liệu lớn.trên dữ liệu lớn
Không xử lý được trên Không xử lý được trên dữ liệu bị thiếu, nhạy cảm với nhiễu.dữ liệu bị thiếu, nhạy cảm với nhiễu
2.2.2.3 Phân cụm 2.2.2.3 Phân cụm phân hoạch (Partitioning Clustering).phân hoạch (Partitioning Clustering)
Trang 18- Phân tập dữ liệu có n phần tử cho trước thành k tập con (k≤ n), mỗi tập con biễu diễnmột cụm.
- Các cụm hình thành trên cơ sở tối ưu hóa giá trị hàm độ đo tương tự (đọ đo phân cụm)sao cho:
Mỗi đối tượng thuộc duy nhất Mỗi đối tượng thuộc duy nhất 1 cụm, các phần tử trong 1 cụm, các phần tử trong cụm có sự tương tự nhau.cụm có sự tương tự nhau
Mỗi cụm có ít nhất 1 Mỗi cụm có ít nhất 1 phần tử.phần tử
- Thuật toán
- Thuật toán điển hình: K-means, K-mediods, Fuzzy C-means.điển hình: K-means, K-mediods, Fuzzy C-means
+ Thuật toán K-means
Thuộc nhóm thuật toán phân cụm dựa Thuộc nhóm thuật toán phân cụm dựa trên phân hoạchtrên phân hoạch
Tư tưởng chính:
Ta xem mỗi đối tượng trong tập dữ liệu
Ta xem mỗi đối tượng trong tập dữ liệu là một điểm trong không gian d chiều (với d là một điểm trong không gian d chiều (với d là sốlà sốlượng thuộc tính của đối tượng)
o Bước 1: chọn k điểm bất Bước 1: chọn k điểm bất kỳ làm các trung tâm ban đầu kỳ làm các trung tâm ban đầu của k cụm.của k cụm
o Bước 2: phân mỗi điểm dữ liệu vào cụm có trung tâm gần nó nhất Nếu các điểm
dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả
dữ liệu ở từng cụm vừa được phân chia không thay đổi so với kết quả của lần phâncủa lần phânchia trước đó thì ta dưng
chia trước đó thì ta dưng thuật toán.thuật toán
o Bước 3: cập nhật lại trung tâm cho từng cụm bằng cách lấy trung bình cộng của tất
cả các điểm dữ liệu đã được gán
cả các điểm dữ liệu đã được gán vào cụm đó sau khi vào cụm đó sau khi phân chia ở bước 2.phân chia ở bước 2
o Bước 4: quay lại bước 2
- Đánh giá thuật toán K-means:
+ Cần biết trước số lượng cụm + Cần biết trước số lượng cụm k.k
+ Nhạy cảm với nhiễu và ngoại + Nhạy cảm với nhiễu và ngoại biên (outliers).biên (outliers)
+ Không phù hợp với phân bổ dữ liệu dạng không lồi (non-convex)
+ Kết quả (nghiệm) bài toán phụ + Kết quả (nghiệm) bài toán phụ thuộc vào cách khởi tạo các trung tâm cụm thuộc vào cách khởi tạo các trung tâm cụm ban đầu.ban đầu
Trường hợp 1: tốc độ Trường hợp 1: tốc độ hội tụ chậm.hội tụ chậm
Trường hợp 2: kết quả gom cụm không chính xác (do chỉ tìm được các cực trị địa phương chứ không phải toàn c
phương chứ không phải toàn cục).ục)
+ Khắc phục:
Trang 19 Áp dụng một số phương Áp dụng một số phương pháp tính số cụm.pháp tính số cụm.
Chạy thuật toán nhiều lần với các trung tâm khác nhau để tìm giá trị cực tiểu củahàm mất mát
2.2.2.4 Các phương pháp đánh giá 2.2.2.4 Các phương pháp đánh giá phân cụm dữ liệu.phân cụm dữ liệu
- Một số tiêu chí để đánh giá chất lượng phân cụm là:đánh giá chất lượng phân cụm là:
Độ nén (compactness): các phần tử của cụm phải “gần nhau”
Độ phân cách (separation): khoảng cách giữa các cụm nên “xa nhau”, phân cách rõràng
- Các phương pháp đánh giá:
+ Đánh giá + Đánh giá ngoài (external validation)ngoài (external validation)
Là đánh giá kết quả phân cụm dựa vào cấu trúc/xu hướng phân cụm được chỉ địnhtrước cho tập dữ liệu
So sánh độ sai khác giữa các cụm
So sánh với kết quả mẫu (đáp So sánh với kết quả mẫu (đáp án).án)
CáCác c độ độ đo đo đưđược ợc sử sử dụdụng ng trtronong g phphươương ng phpháp áp nànày: y: RaRank nk ststatatisistitic, c, JaJaccccararddcoefficient, Folkes và Mallows index,
+ Đánh giá nội bộ + Đánh giá nội bộ (internal validation).(internal validation)
Là đánh giá kết quả phân cụm mà không có thông tin từ bên ngoài, chủ yếu dựatrên các vector chính của dữ liệu thông qua
trên các vector chính của dữ liệu thông qua ma trận xấp xỉ (proximity matrix).ma trận xấp xỉ (proximity matrix)
Tối ưu hóa các chỉ số nội bộ: độ nén, độ phân tách
Các độ đo được sử dụng trong phương pháp này: Hubert’s statistic, Sihouetteindex, Dunn’s index, F-ratio, DBI
index, Dunn’s index, F-ratio, DBI (Davics Bouldin Index).(Davics Bouldin Index)
+ Đánh giá tương đối (relative validation)Đánh giá kết quả gom cụm bằng
Đánh giá kết quả gom cụm bằng việc so sánh với:việc so sánh với:
Kết quả gom cụm ứng với Kết quả gom cụm ứng với các bộ trị thông số khác nhau.các bộ trị thông số khác nhau
Trang 20 Kết quả gom cụm của các phương pháp Kết quả gom cụm của các phương pháp khác.khác.
Trang 21CHƯƠNG 3: MÔ HÌNH NGHIÊN CỨU ĐỀ XUẤT VÀ KẾT QUẢ THỰC HIỆN.
3.1 Tiền xử lí dữ liệuĐầu tiên, ta nạp dữ liệu Banking Marketing vào DatasetsCác bước thực hiện như sau: Ta mở Datasets, tim bộ dữ liệu có tên Banking Marketing,sau đó chọn bộ dữ liệu
Hình 2: Chọn chứ Hình 2: Chọn chức năng Datasetsc năng Datasets
Hình 3: Chọn bộ dữ Hình 3: Chọn bộ dữ liệu Banking Marliệu Banking Marketing từ Datasketing từ Datasetsets
Để có thể quan sát được dữ
Để có thể quan sát được dữ liệu, ta liên kết Datasets vào Data Tablesliệu, ta liên kết Datasets vào Data Tables
Trang 22Hình 4: Liên kế Hình 4: Liên kết Datasets vào Dt Datasets vào Data Tableata Table
Hình 5: Kết quả bộ Hình 5: Kết quả bộ dữ liệu Banking Mdữ liệu Banking Marketing tronarketing trong Data Tableg Data Table