1. Trang chủ
  2. » Tất cả

Phân tích bộ dữ liệu bank marketing qua các thuật toán trên orange

25 49 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích bộ dữ liệu bank marketing qua các thuật toán trên orange
Tác giả Phạm Ngô Hồng Ngân, Phạm Thị Như Quỳnh, Lê Nhật My
Người hướng dẫn Thầy Trương Việt Phương
Trường học Trường Đại Học Kinh Tế Thành Phố Hồ Chí Minh
Chuyên ngành Khoa học dữ liệu
Thể loại Tiểu luận cuối kỳ
Năm xuất bản 2023
Thành phố Hồ Chí Minh
Định dạng
Số trang 25
Dung lượng 1,38 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thời lượng Duration:- Được định dạng “Numeric” - Thuộc tính này nhằm xác định khoảng thời gian liên lạc gần đây nhất của các đối tượng được thực hiện khảo sát.. - Thuộc tính này nhằm xác

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC KINH TẾ THÀNH PHỐ HỒ CHÍ

MINH

PHÂN HIỆU VĨNH LONG

TIỂU LUẬN CUỐI KÌ

MÔN: KHOA HỌC DỮ LIỆU

MARKETING QUA CÁC THUẬT TOÁN TRÊN

ORANGE

Giáo viên hướng dẫn: Thầy Trương Việt

Phương

Lớp học phần: 22C9INF50905901 Sinh viên thực hiện:

Phạm Ngô Hồng Ngân (31211572372)

Phạm Thị Như Quỳnh (31211572385)

Trang 2

Lê Nhật My (31211570106)

M C L C Ụ Ụ

CH ƯƠ NG 1: T NG QUAN VỀỀ KHOA H C D LI U VÀ ĐỀỀ TÀI Ổ Ọ Ữ Ệ

1 Gi i thi u vềề Khoa h c d li u……… ớ ệ ọ ữ ệ

3.2 Quá trình phân l p d li u……… ớ ữ ệ

3.3 M t sôố ph ộ ươ ng pháp phân l p……… ớ

CH ƯƠ NG 3: MÔ HÌNH NGHIỀN C U Ứ

Trang 3

Vi c phân tch và dùng d li u l i d a vào ba nguôền tri th c: toán h c ( ệ ữ ệ ạ ự ứ ọ thôống kề), công ngh thông tn ( máy h c) và tri th c c a lĩnh v c ng d ng ệ ọ ứ ủ ự ứ ụ

c th M c đích chính c a Khoa h c d li u là biềốn đ i m t l ụ ể ụ ủ ọ ữ ệ ổ ộ ượ ng d li u ữ ệ

l n ch a qua x lí, t đó giúp đ các t ch c tềốt gi m chi phí, gia tắng hi u ớ ư ử ừ ỡ ổ ứ ả ệ

2 T p d li u: ậ ữ ệ

2.1 Bank-additonal-full:

V i tâốt c các ví d (41188) và 20 đâều vào, đ ớ ả ụ ượ c sắốp xềốp theo ngày (t ừ tháng 5 nắm 2008 đềốn tháng 11 nắm 2010), râốt gâền v i d li u đ ớ ữ ệ ượ c phân tch trong [Moro và c ng s , 2014 ộ ự ]

Trang 4

2.2 Bank-additonal:

V i 10% trong sôố các ví d (4119), đ ớ ụ ượ c ch n ngâẫu nhiền t 1) và 20 ọ ừ đâều vào.

2.3 Bank-full:

V i 10% ví d và 17 đâều vào, đ ớ ụ ượ c ch n ngâẫu nhiền t 3 (phiền b n cũ ọ ừ ả

h n c a t p d li u này v i ít đâều vào h n) ơ ủ ậ ữ ệ ớ ơ

- Dùng đ xác đ nh công vi c c a các đôối t ể ị ệ ủ ượ ng nhắềm th c hi n kh o sát ự ệ ả

- Đ ượ c phân lo i nh sau: ạ ư

+ Qu n tr viền ( admin ) ả ị

+ Công nhân ph thông (blue-collar) ổ

+ Doanh nhân (blue-collar)

+ Ng ườ i giúp vi c (housemaid) ệ

+ Qu n lý (management) ả

+ Ngh h u (retred) ỉ ư

+ T kinh doanh(self-employed) ự

+ D ch v (services) ị ụ

+ Sinh viền (student)

+ Kyẫ thu t viền(technician) ậ

+ Thâốt nghi p (unemployed) ệ

+ Không xác đ nh (unknown) ị

c Tình tr ng hôn nhân (marital status) ạ

- Đ nh d ng bắềng “categorical” ị ạ

- Dùng đ xác đ nh hôn nhân c a các đôối t ể ị ủ ượ ng nhắềm th c hi n kh o sát ự ệ ả

- Đ ượ c phân lo i nh sau: ạ ư

Trang 5

- Dùng đ xác đ nh h c vâốn c a các đôối t ể ị ọ ủ ượ ng nhắềm th c hi n kh o sát ự ệ ả

- Đ ượ c phân lo i nh sau: ạ ư

+ 4 năm tiểu học (Basic.4y)

+ 6 năm tiểu học (Basic.6y)

+ Tốt nghiệp Trung học cơ sở (Basic.9y)

+ Tốt ngiệp Trung học phổ thông (High school)

+ Thất học (Illiterate)

+ Đào tạo nghiệp vụ (Professional Course)

+ Tốt nghiệp đại học (University Degree)

Trang 6

- Đ ượ c phân lo i nh sau: ạ ư

+ Điện thoại di động (Cellular)

+ Điện thoại dây (Telephone)

Trang 8

d Thời lượng (Duration):

- Được định dạng “Numeric”

- Thuộc tính này nhằm xác định khoảng thời gian liên lạc gần đây nhất của các đối tượng được thực hiện khảo sát

- Thời lượng liên lạc cuối cùng, tính bằng giây (số)

- Lưu ý quan trọng: thuộc tính này ảnh hưởng nhiều đến mục tiêu đầu ra (ví dụ: nếu thời lượng = 0 thì y = 'không')

- Thời lượng không được biết trước khi thực hiện cuộc gọi Ngoài ra, sau khi kết thúc cuộc gọi, y hiển nhiên được biết đến Do đó, đầu vào này chỉ nên được đưa vào cho mục đích chuẩn và nên bị loại bỏ nếu mục đích là có một

c Kết quả chiến dịch (Poutcome):

- Được định dạng “Categorical”

- Thuộc tính này nhằm xác định kết quả của chiến dịch tiếp thị trước đó của các đối tượng được thực hiện khảo sát

Trang 9

- Các kết quả bao gồm:

+ Thành công (Success)+ Thất bại (Failure)+ Không tồn tại (Nonexistent)

3.4 Thuộc tính bối cảnh kinh tế, xã hội (Social and Economic Context Attributes):

a) Tỷ lệ thay đổi việc làm (Emp.var.rate):

- Được định dạng “Numeric”, giá trị này được chỉ báo hàng quý

- Thuộc tính này nhằm xác định tỷ lệ thay đổi việc làm của các đối tượng khảo sát

b) Chỉ số giá tiêu dùng (Cons.price.idx):

- Được định dạng “Numeric”, giá trị này được chỉ báo hàng tháng

- Thuộc tính này nhằm xác định chỉ số giá tiêu dùng của các đối tượng được khảo sát

c) Chỉ số niềm tin người tiêu dùng (Cons.conf.idx):

- Được định dạng “Numeric”, giá trị này được chỉ báo hàng tháng

- Thuộc tính này nhằm xác định chỉ số niềm tin tiêu dùng của các đối tượng được khảo sát

d) Lãi suất 3 tháng Euribor (Euribor3m):

- Được định dạng “Numeric”, giá trị này được chỉ báo hàng ngày

Trang 10

- Thuộc tính này nhằm xác định lãi suất 3 tháng Euribor của các đối tượng đượckhảo sát

e) Số lượng nhân công (Nr.employed):

- Được định dạng “Numeric”, giá trị này được chỉ báo hàng quý

- Thuộc tính này nhằm xác định số lượng nhân công của các đối tượng được khảo sát

Biềốn đâều ra (Output Variable)

- Biến ‘y’: Khách hàng có quyết định đăng ký gửi tiền lãi có kỳ hạn hay không?

- Nhị phân: ‘Yes’, ‘No’

Trang 11

4 Gi i thi u đềề tài ớ ệ

Nhóm đã tm đ ượ c b d li u Bank Marketng ( c a m t t ch c ngân ộ ữ ệ ủ ộ ổ ứ hàng Bôề Đào Nha, d li u có liền quan đềốn các chiềốn d ch tềốp th bắềng các cu c ữ ệ ị ị ộ kều g i khách hàng đắng kí tềền g i có kì h n c a ngân hàng V i b d li u mà ọ ử ạ ủ ớ ộ ữ ệ nhóm đã thu th p đ ậ ượ c, chúng em seẫ s d ng phâền mềềm Orange đ xây d ng ử ụ ể ự quy trình phân tch và khai thác tr c quan-đây là phâền mềềm có th th c hi n ự ể ự ệ khai thác mà không câền l p trình Và cuôối cùng nhóm ch n đềề tài: “PHÂN TÍCH ậ ọ

B D LI U BANK MARKETING QUA CÁC THU T TOÁN TRỀN ORANGE” Ộ Ữ Ệ Ậ

5 Ph ươ ng pháp th c hi n ự ệ

Nhóm s d ng phâền mềềm Orange đ tềốn hành x lí d li u, phân c m, ử ụ ể ử ữ ệ ụ phân l p d li u sau đó tềốn hành d báo ớ ữ ệ ự

-Đ phân c m d li u nhóm s d ng hai ph ể ụ ữ ệ ử ụ ươ ng pháp chính là

Hierarchical clustering và K-Means.

+ Đôối v i Hierarchical clustering: tnh kho ng cách gi a các phâền t bắềng ớ ả ữ ử Distance rôềi quan sát d li u đ ữ ệ ượ c phân c m v i sôố c m t 2 đềốn 5 đôềng th i ụ ớ ụ ừ ờ quan sát trền Silhouette Plot.

+ Đôối v i K-means: quan sát ch sôố Silhouette trung bình khi phân d li u ớ ỉ ữ ệ

t 2 đềốn 5 c m, ch n sôố c m có ch sôố Silhouette tôốt, phù h p v i sôố l ừ ụ ọ ụ ỉ ợ ớ ượ ng biềốn có sắẫn trền b d li u và quan sát trền Silhouette Plot ộ ữ ệ

Sau khi th c hi n phân c m d li u, nhóm tềốn hành ch n ph ự ệ ụ ữ ệ ọ ươ ng pháp tôốt nhâốt đ phân c m ể ụ

- Đôối v i vi c phân l p, ch n biềốn “y” là biềốn m c tều, phân l p trền 3 ớ ệ ớ ọ ụ ớ

ph ươ ng pháp:

+ Decision Tree: cây quyềốt đ nh ị + SVM ( Support Vector Machine) + Logistc Regression: hôềi quy Logistc.

S d ng Test and Core, quan sát AUC c a t ng ph ử ụ ủ ừ ươ ng pháp và cuôối cùng là quan sát trền ma tr n nhâềm lâẫn ậ

Trang 12

CH ƯƠ NG 2: T NG QUAN VỀỀ PHÂỀN MỀỀM ORANGE Ổ

- Data: dùng đ rút trích, biềốn đ i, n p d li u ( ETL process) ể ổ ạ ữ ệ

- Visualize: bi u diềẫn bi u đôề ( chart) giúp quan sát d li u ể ể ữ ệ

- Model: gôềm các hàm machine learning phân l p d li u ớ ữ ệ

- Evaluate: các ph ươ ng pháp đánh giá mô hình máy h c ọ

- Unsupervised: các hàm machine learning gom nhóm d li u ữ ệ

2 Phân c m ụ

2.1 Đ nh nghĩa ị

Phân c m d li u là quá trình gom c m/ nhóm các đôối t ụ ữ ệ ụ ượ ng hay d li u ữ ệ

có các đ c đi m t ặ ể ươ ng đôềng.

Sau khi xử lý xong và định dạng ở excel, ta tiếp tục phân cụm dữ liệu từ dữ liệu đã được tiền xử lý trước đó, cụ thể:

2.2 Phân c m phân câốp ( ụ Hierarchical Clustering) :

Ta d a vào thu t toán ự ậ Hierarchical Clustering Sau khi chạy dữ liệu, ta có:

3

Trang 13

Hình :Chuôẫi th c hi n quá trình phân c m ự ệ ụ Hierarchical Clustering

3

Trang 14

Hình : kềốt qu phân c m phân câốp ả ụ Hierarchical Clustering

Kết quả này cho thấy, tính liên kết giữa Linkae và phương pháp tính toán average Ta nên chia toàn bộ các mẫu trong dữ liệu ra làm 2 phân cụm

3

Trang 15

Hình : Bảng Silhouette Plot cho 2 phân cụm phân cấp

Nguyên tắc: Gía trị Silhouette nằm ở trong khoảng từ -1 đến 1, nếu như giá trị này càng lớn (tức càng về gần 1) thì kết quả phân cụm sẽ càng tốt (càng đáng tin cậy)

Kết quả cho thấy khi phân ra 2 cụm, cụm 1 ( màu xanh ) có giá trị Silhouette của mẫu nằm trong khoảng 0.828 Còn đối với cụm 2 (màu đỏ) thì có giá trị Silhouette trong khoảng 0.615 Những giá trị này đều nằm trong khoảng dương và dần về giá trị 1, vì thế phân cụm này đáng tin cậy

2.3 Phân cụm phân hoạch (Partitioning Clustering):

Tiến hành phân cụm phân hoạch dựa vào thuật toán K-mean Sau khi chạy dữ liệu, ta có:

Hình :Chuôẫi th c hi n quá trình phân c m ự ệ ụ K-mean

3

Trang 16

Hình : Phân tch K-mean cho b d li u ộ ữ ệ

Trong thuật toán K-Means, ta phân tích thử xem với bộ dữ liệu này ta nên lựa chọn phân

ra làm bao nhiêu cụm là hợp lý nhất Và để đánh giá xem phương án nào là tối ưu nhất thì ta

sẽ dựa vào giá trị Silhouette Cụ thể, ta có thể thấy nếu như ta phân bộ dữ liệu này ra làm 2,3,4,5,6,7 cụm thì giá trị Silhouette trung bình của các phân cụm đó lần lượt sẽ là 0.580, 0.459,0.387,0.348,0.325,0.328 Gía trị Silhouette trung bình càng lớn thì phương án phân cụm sẽ càng đáng tin cậy

 Vì vậy ta sẽ lựa chọn phương án phân ra làm 2 cụm

3

Trang 17

Đồng thời phân tích kỹ hơn về giá trị Silhouette của từng cụm của phương án chia 2 cụmnày, ta có:

3

Trang 18

Hình : : Bảng Silhouette Plot cho 2 phân cụm phân hoạch

Ở đây ta có thể thấy khi phân ra là 2 cụm, với cụm 1 (màu xanh) các giá trị Silhouette nằm trong khoảng 0.828 Còn đối với cụm thứ 2 (màu đỏ) thì giá trị này sẽ chạy trong

3

Trang 19

khoảng 0.615 Những khoảng này đều nằm ở trong khoảng dương và dần về gần giá trị 1, vì vậy kết quả phân cụm như thế này là đáng tin cậy.

2.4 Trích suất dữ liệu: uu

Sau khi đã tiến hành phân cụm, ta bắt đầu tiến hành trích xuất dữ liệu ra bảng dưới định dạng excel để tiến hành phân lớp Với mỗi đối tượng được phân cụm dựa trên 2 phương pháp phâncấp và phân hoạch này, ta đều sử dụng công thức của Euclidean để tính toán khoảng cách

những điểm gần trung tâm nhất Vì vậy khi trích xuất dữ liệu ra bảng Data Table, ta sẽ đưa 2

đầu vào phân cụm này vào để chạy ra kết quả, cụ thể ta có:

Hình : Trích xuất dữ liệu đã phân cụm

Sau đó lưu ở định dạng excel để ta tiến hành chọn 1 trong 2 cụm, tiếp tục tiến hành thực hiện phân lớp dữ liệu 1 trong 2 cụm đó, cụ thể hơn ta sẽ lựa chọn cụm 2

3

Trang 20

Hình : Bảng dữ liệu excel khi đã phân cụm

3.Phân l p d li u ớ ữ ệ :

Sau khi tiến hành trích xuất dữ liệu ra thành 2 cụm C1 và C2 Ta tiến hành

sử dụng dữ liệu mẫu C2 để phân lớp dữ liệu

HÌNH: Chuỗi quá trình thực hiện phân lớp trên Orange

3

Trang 21

Thực hiện quá trình phân lớp dựa trên 3 phương pháp: Logistic

Regression, SVM và Tree và đánh giá xem đâu là phương pháp tốt nhất

trong 3 phương pháp này bằng việc thông qua Text and Score Ta có:

HÌNH: Bảng đánh giá Text and ScoreChỉ số AUC:

- Nguyên tắc: Giá trị này là một số dương ≤ 1 Giá trị càng lớn thì mô hình phân lớp càng tốt

- Chỉ số AUC của 3 phương pháp Logistic Regression, SVM và

Trang 22

- Chỉ số CA của 3 phương pháp Logistic Regression, SVM và

- Chỉ số Recall (chỉ số độ phủ) hay còn gọi là độ nhạy

(Sensitivity) hoặc TPR (True Positive Rate)

- Chỉ số Recall của 3 phương pháp Logistic Regression, SVM và

Xem xét xác suất dự đoán chính xác với thực tế của 3 phương

pháp Logistic Regression, SVM và Tree Phương pháp nào có

xác suất phần trăm dự đoán chính xác với thực tế lớn hơn thì phương pháp đó sẽ tối ưu hơn Ta có:

3

Trang 23

3

Trang 24

3

Trang 25

 Qua việc phân tích các chỉ số trong Text and Score và dựa vào ma trận nhầm lẫn (Confusion Matrix), ta thấy phương pháp Logistic Regression là tối ưu nhất.

3

Ngày đăng: 28/01/2023, 10:34

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w