Nghiên cứu các phương pháp phân lớp dữ liệu cụ thể pfươ pháp phân lớp đưa ra các dự báo, phần loại và cũng như phần lớp các đồi tượng.. Dựa vào các kết quả đã thông kê và nghiên cứu, t
Trang 4P
| GIO!
y aN
°
Phan tri các lý thuyết của khai phá d TT
của bài nghiên cứu
Nghiên cứu các phương pháp phân lớp dữ liệu cụ thể (pfươ
pháp phân lớp đưa ra các dự báo, phần loại và cũng như phần
lớp các đồi tượng)
Dựa vào các kết quả đã thông kê và nghiên cứu, ta đưa ra được kết luận về mức độ hài lòng của khách hàng trong hành trình
Trang 53 Đối tương
Tên bộ dữ iệk)@lAi©Hfc GăkHan tích khách
hàng thương mại điện tử
° Bộ Dữ Liệu được thu thập và tạo ra bởi công ty công nghệ IBM được đăng tải trên trang Web
kaggle bởi ALEXANDER LEONARDO JR
° Tập dữ liệu bao gồm thông tin dữ liệu thô chứa
2240 hàng dữ liệu (khách hàng) và 24 cột (đặc
tính)
° Bộ dữ liệu chứa thông tin chi tiết về khách hàng
trong suốt hành trình mua sắm của họ kể từ năm
2012 tại Singapore, bao gồm thông tin nhân khẩu
hoc phương thức thanh toán và hành vị mua
Trang 6
4 Phương pháp
4.1 Phương pháp nghiên,cưu
Thông NI nghien cu A tI thập từ các trang báo, sách bằng
Dựa trên kết quả phân cụm sẽ tiến hành phân lớp dữ liệu Thế:
4 phương pháp:
¢ Cây quyết định (Decision Tree)
¢ SVM (Support Vector Machine)
¢ HOi guy Logistic (Logistic Regression)
e Mang no-ron (Neural Network}
Sử dụng Test and Score để quan sát chỉ số AUC của từng
phương pháp Quan sát trên Confusion Matrix (Ma trận nhầm i, HÀ
IZ A\ ABA Aiea rn VAtlhiAn
Trang 81 KHAI PHA DU LIEU
¢ Định nghĩa: Quá trình phân tích tập dữ liệu lớn để phát hiện mau ẩn và mối quan hệ quan trọng
°‹ Mục tiêu: Dự đoán xu hướng, nhận diện cơ hội, tối ưu hóa chiến
lược, quản lý rủi ro
Quy trình khai phá dử liệu:
chính, giáo dục, khoa học, giao thông, xã hội và chính trị
Trang 9
2 PHAN LOP VA PHAN CUM
Gán đổi tượng vào các lớp đã
ye ea xác định, xây dựng mô hình, Gom các đối tượng có đặc điểm
Khải niệm dự đoàn tên lớp cho đôi tượng ya de e tương đồng vào các cụm ` ` 7
Dựa trên phân hoạch
Hồi quy logistic (Logistic
Regression)
CY/NM (€tnir¬rm¬nmFrt Y\/¬“t¬Ar MAanrhinga)\ Dựa tren mat do
Trang 10III XỬ LY DỮ
1 Môl4BMnghiên re OT
a.Môtảdữ đề Xuât
liều
Ta chon ra 2240 mau làm dữ liệu ban đầu, øồm 24 thuộc tính
Trong các cột dữ liệu, thuộc tính Satisfaction Level sẽ là biển
Target, cho biết mức độ hài lòng của khách hàng sử dụng các dịch
vụ của khách sạn, thuộc tính Column 1 và ID sẽ là biển skip vì các
biến này không liên quan đến biển dùng để dự đoán
Trong bài này, sinh viên sử dụng 70 % là dữ liệu để huấn luyện và
30 % là để kiểm tra dữ liệu
Trang 11
b Chọn “Role” cho các thuộc
tính
skip
-! Satisfaction_L (@ categorical target
2
skip
¬ Education i@ categorical feature
Chọn Role cho thuộc
tính
Trang 12Dữ liệu thô - Orange
Info
2240 nstances
20 features (0.1 % missing data)
Target with 3 values (0.5 % missing data)
i meta attribute
Variables
Show variable labels (if present)
[_] Visualize numeric values
Color by instance dasses
Selection
Select full rows
Restore Original Order
c Tiền xử lý dữ liệu
Dt_ Customer
04-09-2012 08-03-2014 21-08-2013 10-02-2014 19-01-2014 09-09-2013 13-11-2012 08-05-2013 06-06-2013 13-03-2014 15-11-2013 13-11-2012 15-11-2013
Bang quan sat du
1 meta attribute
Variables
Show variable labels (if present)
[_] Visualize numeric values Color by instance dasses
Selection
Select full rows
Restore Original Order
Unsatisfied Unsatisfied Unsatisfied Satisfied Unsatisfied Unsatisfied Unsatisfied Satisfied Satisfied Satisfied Neutral Unsatisfied
Dt_Customer
04-09-2012 08-03-2014 21-08-2013 10-02-2014 19-01-2014 09-09-2013 13-11-2012 08-05-2013 06-06-2013 13-03-2014 15-11-2013 13-11-2012 15-11-2013
Trang 13MARITAL STATUS Amount of Discount Applied
3.44%
nhân của khách hàng của khách hàng
Trang 14Đánh giá trình độ học vấn và phương thức thanh toán
của khách hàng thức thanh toán của khách hàng
Trang 15Đánh giá thu nhập của khách hà
theo đô tuổi
Trang 16
+
ánh giá thói quen chỉ tiêu, thu nhập
trang hon nhan
= Sum of MntBoo!
e Sum of MntFurn Sum of MntFood
ø Sum of NumWebV
độ chi tiêu của khách của khách hàng qua tình khá
hóa
Trang 17\/] Show variable labels (if present)
[_] Visualize numeric values
\/] Color by instance dasses
[] Visualize numeric values
\/] Color by instance dasses
Selection
J Select full rows
Restore Original Order
2n Cycle
PhD Graduation PhD
Together
Together
Together
Together Married Single Married Marned Married Together
Divorced
Marned
Trang 18Cụriiragki: chứa một dữ liệu và có chỉ
số silhouette index là Cụm C2 với 2239
dữ liệu có chỉ số silhouette index cao là
Ms
CụmnkạØ@ni số silhouette index là 0
Cụm C2 chứa 2239 dữ liệu với chỉ số
silhouette index cao là 0.960
silhouette index là 0.410 và tỷ lệ giá trị
am là 0.154% Ngược lại, cụm C2 với
777 dữ liệu đạt chỉ số silhouette index cao hơn 0.548, cùng với tỷ lệ giá trị âm
thấp hơn chỉ 0.095% |
Vì vậy, việc chọn k-Means làm phương
pháp phân cụm tối ưu là hợp lý.
Trang 19Show variable labels (if present)
L_] Visualize numeric values
Color by instance classes
Selection
Select full rows
Restore Original Order
Clustering:
Satisfaction_Level Satisfied
Unsatisfied
Unsatisfied Unsatisfied Satisfied
Unsatisfied
Unsatisfied Unsatisfied Satisfied
Satisfied Satisfied Neutral
Unsatisfied Neutral
Neutral Neutral
Dt_Customer
04-09-2012 08-03-2014
21-08-2013 O €V
10-02-2014 19-01-2014
rr, = rr - 2/113
V57-vV” 2013
13-11-2012 08-05-2013
06-06-2013
vy VY CY
13-03-2014 15-11-2013 13-11-2012 15-11-2013 15-11-2013 10-10-2012 24-11-2012
3 meta attributes
Variables
Show variable labels (if present)
L_] Visualize numeric values
Color by instance classes Selection
Select full rows Restore Original Order
Satisfaction_Level
Satisfied Unsatisfied Unsatisfied Unsatisfied Satisfied Unsatisfied Unsatisfied Unsatisfied Satisfied Satisfied Satisfied Neutral
13-11-2012 15-11-2013
Cluster
Trang 21\\\\\
ðƯ Test and Score - Orange
©) Leave one out
( ) Test on train data
©) Test on test data
? B | +) 2240|-|mwmn- G 6720) 4x6720
Kết quả khi chia mẫu dữ liệu với K-fold với k=5
Model AUC
0.986 0.975 0.979 0.980
b Danh gia cac mo
Fl 0.946 0.884 0.908 0.973
Prec 0.946 0.885 0.909 0.974
Recall MCC
0.946 0.883 0.908 0.974
0.919 0.825 0.262 0.960
x<
Phân tích chỉ số ÁC cho thấy sự
chênh lệch giữa 4 mơ hình là
Trang 22t⁄2 >trá5eo Neural Network D9897 0.951 0.951 0.951 0.951 0926
Cross vabdation by feature Logistic Regression 0.959 0.839 O840 0834 0.839 0.762
Test on train data Compare models by: Area under ROC curve - L_) Neglobie diff :
Table shows probebdtes that the score for Se mode! hs the sow a hucher then tft of the model « Se column Sos! rum bert stow eo
Kết quả khi lấy ngẫu nhiên mẫu dữ liệ
lập lại là 10 và kích thước 70%
Trang 23Confusion Matrix (Ma trận
nhâm lần)
Learners - Clicking on cells or in headers outputs the Ok, got it
: Show: Proportion of predicted ~
Neural Network |
Tree Neutral Satisfied Unsatisfied
- n a Su Select Correct Select Misclassified Clear Selection ti | é 6 đườ ae ra é O ch in § cao
nhất lần lượt là 96.1%, 97.4%
và 99.1%
Decision Tree
Trang 246 Kết quả huấn
trình bày quá trình huấn i va du báo các thuộc tính củ
báo thể hiện ở hình dưới luyện Kiểm tra kết q
Lawn mp Ame lene © Dimmer 1 nem at Nnknwnn- ann BR Aniline A fimess
i fet aid Scon:-Craice 7 0 x
Dữ liệu huấn luyện ; : ve Test and Score Š 4 Confusion Matrix R epeat train/te tt test: 10 v SVM 978 902 902 992 0902 0.853 0 0 0 0
2 Training set size: 70% v
0 9 \) Test on train data Compare models by: Area under ROC curve v (_) Negligible diff.: 0.1
Trang 25Data — Data Sample — Selected Data —
Trang 26Sample with replacement Target with 3 values 2 Neutral 22-11-2012
Number of subsets: | 10 ° Show variable labels (if present) S Neutral 25-07-2013
L_] Visualize numeric values 6 Neutral 08-06-2013
Unused subset: Color by instance dasses + Satisfied 26-12-2013
Select full rows 9 Satisfied 13-04-2014
cài 11 Unsatisfied 01-12-2013
Stratify sample (when possible) oe 3 Satisfied 03-09-2012
C1 C1 C1 C2 C2 C1 C2 C2 C1 C1 C2 C2 C1
Cluster Silhouette
0.570188 0.580178 0.615644 0.580977 0.494485 0.554377 0.476708 0.462968 0.62083 0.601953 0.526421 0.477698 0.616949
Year *
Trang 27b) Dự báo về mức độ hài lòng của khác
Sau khi đã hoàn thành việc trích 10% dữ liệu, nhóm s
Trang 28| Show variable labels (if present)
Visualize numeric values
“| Color by instance classes
25-2-2135
¡ CỊ C1 C1 C2 C2 C1 C2 C2 C1 C1 C2 C2 C1 C1 C2 C1
C1
Cluster Silhouette
0.570188 0.580178 0.615644 0.580977 0.494485 0.554377 0.476708 0.462968 0.62083
0.601953
0.526421 0.477698
0.616949
0.528231 0.473942 0.599624
Satisfied Satisfied
Neutral Neutral
hla=: :tral
Tree (Neutral)
0 0.977901
0 0.977901
1 0.977901
0
0
0 0.977901
1 0.0220994
0 0.0220994
1
1
1 0.0220994 0.00930851
0
T
1
0 0.0220994
Trang 290.98 :
0.00 : 0.00 : 0.00 : 0.98 : 0.00 :
1.00:
= Predictions - Orange
1.00:
0.02 : 1.00:
0.02 : 0.00 : 0.02 : 1.00:
1.00:
1.00:
0.02 : 0.01
Tree 0.00 — Satisfied
0.00 — Neutral 0.00 — Satisfied 0.00 — Neutral
0.00 — Neutral 0.00 — Neutral
0.00 — Satisfied 0.00 — Satisfied 0.00 — Satisfied 0.00 — Neutral
silhouette:
p 570188 Year_Birth Graduation Education
SESS SESS SSS S ESSE SESS SE SESS SESS SESS SESS ES STSSSSSSSSSS SESS ESSE SESS SESS SESS SEES ESSE ESSE SEES 0999999099999 9990919999 99999999999949999999999 90909909006 (09909994999 94999 4949949494499 4949994949994949499 9499949499999 9099000 PETETEEEEEEEEEE EEE EE EE EE EEE EEEEEEEEEEEE EEE EEER /(09099999499494949994949499494999494994949499494999494999949999999 9A FESEEEEE EES
SESS SSS SSS SESS SS SESS S SEES SESS SESS SEES ESSE ES STSSSSSSSSSS SESS SESS SESS S SESS SESS SESE ES ESSE SES 0999999099999 999999 999999999999999999999999 9090990900 FETE TTTETEE ETE ET ESET EET ET ET ESTEE EEEE EEE EEE EER 0099999999949 49994949994949499949499494949994949999494994999 99900900 /09099994949994949994949994949994949499494999494999494999949999999 9A PESEETEEEES
SESS SESS S SSS SESS SESS ESSE SSS S SESS SESS ESSE EE STSSSSSSSSSS SESS SSSSS SESS SESS ESSE SESE SESS SSESSES 099999909999 9999999999999999999999999999999 9090990900 FEET EEET TEESE ESET ESET E TESTE EEE EEE EEE EEEEEEEEER PETTTHET EEE TEEE EE ET EE EEE EEE EE EEE EEE TEESE EE SEER PETE TEEEEE ESET ESET ESTE ESTE EEEEEEEEEEEEEEEEEEEER PESEETEEEES
SEER EERE EERE EERE RRR R RRR RRR RRR eee eee Seen eee eee eee eRe RRR RRR RR RRR RRR eee eee eee ee See eee ee eee eee EERE ERE PPPS SSS SSS SSS SS SESS ESSE SESS ESSE SE SES ESSE ESSE S, 2999999999090990909990 90999 90999999999999999999999 9990906 E RRR R EERE RRR RRR E ee Semen eee eee RRR RRR R ERR RRR RRR eRe eee 09099 99999999499994999494999949994949999 9999999999699 90600 SECT HEETETE EEE ETEEEE EEE EEEEEEEETEEETEEETEEEEEEER XS tt 91919191901901901019009000000900090090090090090090090090010090090190090090090090090009009009009009000VV GV PETETTEEE TESTE EEE T EEE EEE ESTEE EEEEEEEEEEEEEEEEES Vv V0 V11 4919419194191419019 4019194040199 4019090401909 90190409090 9090909090909090909090909V0VVV Xa 4499499424 PETES EEEEES
SERRE EERE EERE EERE EERE RRR RRR RRR eee Seen ee eee eee eRe R EERE RRR R RRR RRR Ree eee eee SESS S SSS SESS S ESSE ESSE SSS SESS SESS SESE ESSE, 2999999990999 9090990 909990909999999999999999999909996 99090 See eee eee eee RRR REE E ERE R RRR R ERR ERR R REE Semen ee RRR RRR R EERE RRR RRR RRR eRe ee THREE RRR EERE EERE EERE EERE EERE eRe eee eee PETE TETETEE ESET ESTE TEESE ESET EEE TESTE EEEEEEE STEER SETTEETEEEEEE ESET TESTE ESTEE EEE EEEEEEEEEEEEEEEEER SHR e eee eee eee eee eee eee eee e ee eeeeeeeeeeee! Xe e4 99990994 /0999999999999499499994949499949999499994999999999999999A /@9990996966969 %6
Dt_Customer
Sợ
28-02-2013 fa 16-08-2013 c2
25-07-2013 jjC2
26-12-2013 102 17-12-2013 102
Trang 30IV.KET LUAN VA BAN
KUAN với 2 cụm được xem là tối ưu nhất dựa trên chỉ số
silhouette và tỷ lệ giá trị âm
¢ Phân lớp: Decision Tree được chọn là phương pháp tối ưu nhất cho bài toán
phân lớp dữ liệu nhờ chỉ số AUC cao nhất (>0.98) và tỷ lệ chính xác cao nhất
trong Confusion Matrix
°ÒỒ Dự báo: Từ 10% dữ liệu đã được trích xuất, mô hình Decision Tree đã dự báo
BÀ UƯÂWnức độ hài lòng của khách hàng
Đối với phân cụm:
°« Phương pháp K-Means cho ra phần cụm rõ ràng và hợp lý hơn Hierarchical
Clustering
¢ Diém yéu cua K-Means la can phai xác định số lượng cụm từ trước, điều này
có thể làm giảm tính chính xác nếu không chọn đúng số cụm tối ưu
Đối với phân lớp:
Trang 31V.KET LUAN VA KHUYEN
NGHI
1 Két
luan:
Thông Qua quá trình phân tích và đánh giá, dựa trên hai phương pháp
phân cụm cũng như 4 mô hình phân lớp dữ liệu khác nhau cho thầy
phương pháp Decision Tree đưa ra kết quả tốt nhất ( theo như kết quả từ Test and Score va Confusion Matrix), day la phuong phap phu hop nhat
để phân lớp dữ liệu
có chỉ số Silhouette tốt thông qua quan sát trên Silhouette Plo
Trang 322 Dự báo sự tăng trưởng về mức
do hai long cua khách hàng trong
hanh trinh mua sam truc tuyén
ie Singapore nam 2012 Cát xu hướ g có thể thay đổi thông qua các biến động
kinh tế, tùy thuộc vào độ tuổi, trình dộ học vấn, tiền kiếm
được từ việc làm hoặc đầu tư,
Dựa vào dữ liệu số lần truy cập vào website nhiều lần trong
tháng và lượng truy cập web của khách hàng cho thầy tần suất
khách hàng mua sắm trực tuyến đang tăng lên và có xu hướng
mua nhiều qua web hơn trực tiếp