1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Nghiên cứu và Ứng dụng các dữ liệu Để dự Đoán mức Độ hài lòng của khách hàng về trải nghiệm mua sắm trực tuyến Ở singapore năm 2012

33 0 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu và Ứng dụng các dữ liệu Để dự Đoán mức Độ hài lòng của khách hàng về trải nghiệm mua sắm trực tuyến Ở Singapore năm 2012
Tác giả Huỳnh Thị Hồng Hoa, Nông Thị Chung, Vo Thi Ngoc Tram, Nguyén Thi Thao My, Ngo Thanh Xin, Pham Thi Yén Nhi
Người hướng dẫn PTS. Hồ Ua Phung
Trường học Đại học
Chuyên ngành Khoa học máy tính
Thể loại Bài thuyết trình
Năm xuất bản 2012
Thành phố Singapore
Định dạng
Số trang 33
Dung lượng 10,36 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nghiên cứu các phương pháp phân lớp dữ liệu cụ thể pfươ pháp phân lớp đưa ra các dự báo, phần loại và cũng như phần lớp các đồi tượng.. Dựa vào các kết quả đã thông kê và nghiên cứu, t

Trang 4

P

| GIO!

y aN

°

Phan tri các lý thuyết của khai phá d TT

của bài nghiên cứu

Nghiên cứu các phương pháp phân lớp dữ liệu cụ thể (pfươ

pháp phân lớp đưa ra các dự báo, phần loại và cũng như phần

lớp các đồi tượng)

Dựa vào các kết quả đã thông kê và nghiên cứu, ta đưa ra được kết luận về mức độ hài lòng của khách hàng trong hành trình

Trang 5

3 Đối tương

Tên bộ dữ iệk)@lAi©Hfc GăkHan tích khách

hàng thương mại điện tử

° Bộ Dữ Liệu được thu thập và tạo ra bởi công ty công nghệ IBM được đăng tải trên trang Web

kaggle bởi ALEXANDER LEONARDO JR

° Tập dữ liệu bao gồm thông tin dữ liệu thô chứa

2240 hàng dữ liệu (khách hàng) và 24 cột (đặc

tính)

° Bộ dữ liệu chứa thông tin chi tiết về khách hàng

trong suốt hành trình mua sắm của họ kể từ năm

2012 tại Singapore, bao gồm thông tin nhân khẩu

hoc phương thức thanh toán và hành vị mua

Trang 6

4 Phương pháp

4.1 Phương pháp nghiên,cưu

Thông NI nghien cu A tI thập từ các trang báo, sách bằng

Dựa trên kết quả phân cụm sẽ tiến hành phân lớp dữ liệu Thế:

4 phương pháp:

¢ Cây quyết định (Decision Tree)

¢ SVM (Support Vector Machine)

¢ HOi guy Logistic (Logistic Regression)

e Mang no-ron (Neural Network}

Sử dụng Test and Score để quan sát chỉ số AUC của từng

phương pháp Quan sát trên Confusion Matrix (Ma trận nhầm i, HÀ

IZ A\ ABA Aiea rn VAtlhiAn

Trang 8

1 KHAI PHA DU LIEU

¢ Định nghĩa: Quá trình phân tích tập dữ liệu lớn để phát hiện mau ẩn và mối quan hệ quan trọng

°‹ Mục tiêu: Dự đoán xu hướng, nhận diện cơ hội, tối ưu hóa chiến

lược, quản lý rủi ro

Quy trình khai phá dử liệu:

chính, giáo dục, khoa học, giao thông, xã hội và chính trị

Trang 9

2 PHAN LOP VA PHAN CUM

Gán đổi tượng vào các lớp đã

ye ea xác định, xây dựng mô hình, Gom các đối tượng có đặc điểm

Khải niệm dự đoàn tên lớp cho đôi tượng ya de e tương đồng vào các cụm ` ` 7

Dựa trên phân hoạch

Hồi quy logistic (Logistic

Regression)

CY/NM (€tnir¬rm¬nmFrt Y\/¬“t¬Ar MAanrhinga)\ Dựa tren mat do

Trang 10

III XỬ LY DỮ

1 Môl4BMnghiên re OT

a.Môtảdữ đề Xuât

liều

Ta chon ra 2240 mau làm dữ liệu ban đầu, øồm 24 thuộc tính

Trong các cột dữ liệu, thuộc tính Satisfaction Level sẽ là biển

Target, cho biết mức độ hài lòng của khách hàng sử dụng các dịch

vụ của khách sạn, thuộc tính Column 1 và ID sẽ là biển skip vì các

biến này không liên quan đến biển dùng để dự đoán

Trong bài này, sinh viên sử dụng 70 % là dữ liệu để huấn luyện và

30 % là để kiểm tra dữ liệu

Trang 11

b Chọn “Role” cho các thuộc

tính

skip

-! Satisfaction_L (@ categorical target

2

skip

¬ Education i@ categorical feature

Chọn Role cho thuộc

tính

Trang 12

Dữ liệu thô - Orange

Info

2240 nstances

20 features (0.1 % missing data)

Target with 3 values (0.5 % missing data)

i meta attribute

Variables

Show variable labels (if present)

[_] Visualize numeric values

Color by instance dasses

Selection

Select full rows

Restore Original Order

c Tiền xử lý dữ liệu

Dt_ Customer

04-09-2012 08-03-2014 21-08-2013 10-02-2014 19-01-2014 09-09-2013 13-11-2012 08-05-2013 06-06-2013 13-03-2014 15-11-2013 13-11-2012 15-11-2013

Bang quan sat du

1 meta attribute

Variables

Show variable labels (if present)

[_] Visualize numeric values Color by instance dasses

Selection

Select full rows

Restore Original Order

Unsatisfied Unsatisfied Unsatisfied Satisfied Unsatisfied Unsatisfied Unsatisfied Satisfied Satisfied Satisfied Neutral Unsatisfied

Dt_Customer

04-09-2012 08-03-2014 21-08-2013 10-02-2014 19-01-2014 09-09-2013 13-11-2012 08-05-2013 06-06-2013 13-03-2014 15-11-2013 13-11-2012 15-11-2013

Trang 13

MARITAL STATUS Amount of Discount Applied

3.44%

nhân của khách hàng của khách hàng

Trang 14

Đánh giá trình độ học vấn và phương thức thanh toán

của khách hàng thức thanh toán của khách hàng

Trang 15

Đánh giá thu nhập của khách hà

theo đô tuổi

Trang 16

+

ánh giá thói quen chỉ tiêu, thu nhập

trang hon nhan

= Sum of MntBoo!

e Sum of MntFurn Sum of MntFood

ø Sum of NumWebV

độ chi tiêu của khách của khách hàng qua tình khá

hóa

Trang 17

\/] Show variable labels (if present)

[_] Visualize numeric values

\/] Color by instance dasses

[] Visualize numeric values

\/] Color by instance dasses

Selection

J Select full rows

Restore Original Order

2n Cycle

PhD Graduation PhD

Together

Together

Together

Together Married Single Married Marned Married Together

Divorced

Marned

Trang 18

Cụriiragki: chứa một dữ liệu và có chỉ

số silhouette index là Cụm C2 với 2239

dữ liệu có chỉ số silhouette index cao là

Ms

CụmnkạØ@ni số silhouette index là 0

Cụm C2 chứa 2239 dữ liệu với chỉ số

silhouette index cao là 0.960

silhouette index là 0.410 và tỷ lệ giá trị

am là 0.154% Ngược lại, cụm C2 với

777 dữ liệu đạt chỉ số silhouette index cao hơn 0.548, cùng với tỷ lệ giá trị âm

thấp hơn chỉ 0.095% |

Vì vậy, việc chọn k-Means làm phương

pháp phân cụm tối ưu là hợp lý.

Trang 19

Show variable labels (if present)

L_] Visualize numeric values

Color by instance classes

Selection

Select full rows

Restore Original Order

Clustering:

Satisfaction_Level Satisfied

Unsatisfied

Unsatisfied Unsatisfied Satisfied

Unsatisfied

Unsatisfied Unsatisfied Satisfied

Satisfied Satisfied Neutral

Unsatisfied Neutral

Neutral Neutral

Dt_Customer

04-09-2012 08-03-2014

21-08-2013 O €V

10-02-2014 19-01-2014

rr, = rr - 2/113

V57-vV” 2013

13-11-2012 08-05-2013

06-06-2013

vy VY CY

13-03-2014 15-11-2013 13-11-2012 15-11-2013 15-11-2013 10-10-2012 24-11-2012

3 meta attributes

Variables

Show variable labels (if present)

L_] Visualize numeric values

Color by instance classes Selection

Select full rows Restore Original Order

Satisfaction_Level

Satisfied Unsatisfied Unsatisfied Unsatisfied Satisfied Unsatisfied Unsatisfied Unsatisfied Satisfied Satisfied Satisfied Neutral

13-11-2012 15-11-2013

Cluster

Trang 21

\\\\\

ðƯ Test and Score - Orange

©) Leave one out

( ) Test on train data

©) Test on test data

? B | +) 2240|-|mwmn- G 6720) 4x6720

Kết quả khi chia mẫu dữ liệu với K-fold với k=5

Model AUC

0.986 0.975 0.979 0.980

b Danh gia cac mo

Fl 0.946 0.884 0.908 0.973

Prec 0.946 0.885 0.909 0.974

Recall MCC

0.946 0.883 0.908 0.974

0.919 0.825 0.262 0.960

x<

Phân tích chỉ số ÁC cho thấy sự

chênh lệch giữa 4 mơ hình là

Trang 22

t⁄2 >trá5eo Neural Network D9897 0.951 0.951 0.951 0.951 0926

Cross vabdation by feature Logistic Regression 0.959 0.839 O840 0834 0.839 0.762

Test on train data Compare models by: Area under ROC curve - L_) Neglobie diff :

Table shows probebdtes that the score for Se mode! hs the sow a hucher then tft of the model « Se column Sos! rum bert stow eo

Kết quả khi lấy ngẫu nhiên mẫu dữ liệ

lập lại là 10 và kích thước 70%

Trang 23

Confusion Matrix (Ma trận

nhâm lần)

Learners - Clicking on cells or in headers outputs the Ok, got it

: Show: Proportion of predicted ~

Neural Network |

Tree Neutral Satisfied Unsatisfied

- n a Su Select Correct Select Misclassified Clear Selection ti | é 6 đườ ae ra é O ch in § cao

nhất lần lượt là 96.1%, 97.4%

và 99.1%

Decision Tree

Trang 24

6 Kết quả huấn

trình bày quá trình huấn i va du báo các thuộc tính củ

báo thể hiện ở hình dưới luyện Kiểm tra kết q

Lawn mp Ame lene © Dimmer 1 nem at Nnknwnn- ann BR Aniline A fimess

i fet aid Scon:-Craice 7 0 x

Dữ liệu huấn luyện ; : ve Test and Score Š 4 Confusion Matrix R epeat train/te tt test: 10 v SVM 978 902 902 992 0902 0.853 0 0 0 0

2 Training set size: 70% v

0 9 \) Test on train data Compare models by: Area under ROC curve v (_) Negligible diff.: 0.1

Trang 25

Data — Data Sample — Selected Data —

Trang 26

Sample with replacement Target with 3 values 2 Neutral 22-11-2012

Number of subsets: | 10 ° Show variable labels (if present) S Neutral 25-07-2013

L_] Visualize numeric values 6 Neutral 08-06-2013

Unused subset: Color by instance dasses + Satisfied 26-12-2013

Select full rows 9 Satisfied 13-04-2014

cài 11 Unsatisfied 01-12-2013

Stratify sample (when possible) oe 3 Satisfied 03-09-2012

C1 C1 C1 C2 C2 C1 C2 C2 C1 C1 C2 C2 C1

Cluster Silhouette

0.570188 0.580178 0.615644 0.580977 0.494485 0.554377 0.476708 0.462968 0.62083 0.601953 0.526421 0.477698 0.616949

Year *

Trang 27

b) Dự báo về mức độ hài lòng của khác

Sau khi đã hoàn thành việc trích 10% dữ liệu, nhóm s

Trang 28

| Show variable labels (if present)

Visualize numeric values

“| Color by instance classes

25-2-2135

¡ CỊ C1 C1 C2 C2 C1 C2 C2 C1 C1 C2 C2 C1 C1 C2 C1

C1

Cluster Silhouette

0.570188 0.580178 0.615644 0.580977 0.494485 0.554377 0.476708 0.462968 0.62083

0.601953

0.526421 0.477698

0.616949

0.528231 0.473942 0.599624

Satisfied Satisfied

Neutral Neutral

hla=: :tral

Tree (Neutral)

0 0.977901

0 0.977901

1 0.977901

0

0

0 0.977901

1 0.0220994

0 0.0220994

1

1

1 0.0220994 0.00930851

0

T

1

0 0.0220994

Trang 29

0.98 :

0.00 : 0.00 : 0.00 : 0.98 : 0.00 :

1.00:

= Predictions - Orange

1.00:

0.02 : 1.00:

0.02 : 0.00 : 0.02 : 1.00:

1.00:

1.00:

0.02 : 0.01

Tree 0.00 — Satisfied

0.00 — Neutral 0.00 — Satisfied 0.00 — Neutral

0.00 — Neutral 0.00 — Neutral

0.00 — Satisfied 0.00 — Satisfied 0.00 — Satisfied 0.00 — Neutral

silhouette:

p 570188 Year_Birth Graduation Education

SESS SESS SSS S ESSE SESS SE SESS SESS SESS SESS ES STSSSSSSSSSS SESS ESSE SESS SESS SESS SEES ESSE ESSE SEES 0999999099999 9990919999 99999999999949999999999 90909909006 (09909994999 94999 4949949494499 4949994949994949499 9499949499999 9099000 PETETEEEEEEEEEE EEE EE EE EE EEE EEEEEEEEEEEE EEE EEER /(09099999499494949994949499494999494994949499494999494999949999999 9A FESEEEEE EES

SESS SSS SSS SESS SS SESS S SEES SESS SESS SEES ESSE ES STSSSSSSSSSS SESS SESS SESS S SESS SESS SESE ES ESSE SES 0999999099999 999999 999999999999999999999999 9090990900 FETE TTTETEE ETE ET ESET EET ET ET ESTEE EEEE EEE EEE EER 0099999999949 49994949994949499949499494949994949999494994999 99900900 /09099994949994949994949994949994949499494999494999494999949999999 9A PESEETEEEES

SESS SESS S SSS SESS SESS ESSE SSS S SESS SESS ESSE EE STSSSSSSSSSS SESS SSSSS SESS SESS ESSE SESE SESS SSESSES 099999909999 9999999999999999999999999999999 9090990900 FEET EEET TEESE ESET ESET E TESTE EEE EEE EEE EEEEEEEEER PETTTHET EEE TEEE EE ET EE EEE EEE EE EEE EEE TEESE EE SEER PETE TEEEEE ESET ESET ESTE ESTE EEEEEEEEEEEEEEEEEEEER PESEETEEEES

SEER EERE EERE EERE RRR R RRR RRR RRR eee eee Seen eee eee eee eRe RRR RRR RR RRR RRR eee eee eee ee See eee ee eee eee EERE ERE PPPS SSS SSS SSS SS SESS ESSE SESS ESSE SE SES ESSE ESSE S, 2999999999090990909990 90999 90999999999999999999999 9990906 E RRR R EERE RRR RRR E ee Semen eee eee RRR RRR R ERR RRR RRR eRe eee 09099 99999999499994999494999949994949999 9999999999699 90600 SECT HEETETE EEE ETEEEE EEE EEEEEEEETEEETEEETEEEEEEER XS tt 91919191901901901019009000000900090090090090090090090090010090090190090090090090090009009009009009000VV GV PETETTEEE TESTE EEE T EEE EEE ESTEE EEEEEEEEEEEEEEEEES Vv V0 V11 4919419194191419019 4019194040199 4019090401909 90190409090 9090909090909090909090909V0VVV Xa 4499499424 PETES EEEEES

SERRE EERE EERE EERE EERE RRR RRR RRR eee Seen ee eee eee eRe R EERE RRR R RRR RRR Ree eee eee SESS S SSS SESS S ESSE ESSE SSS SESS SESS SESE ESSE, 2999999990999 9090990 909990909999999999999999999909996 99090 See eee eee eee RRR REE E ERE R RRR R ERR ERR R REE Semen ee RRR RRR R EERE RRR RRR RRR eRe ee THREE RRR EERE EERE EERE EERE EERE eRe eee eee PETE TETETEE ESET ESTE TEESE ESET EEE TESTE EEEEEEE STEER SETTEETEEEEEE ESET TESTE ESTEE EEE EEEEEEEEEEEEEEEEER SHR e eee eee eee eee eee eee eee e ee eeeeeeeeeeee! Xe e4 99990994 /0999999999999499499994949499949999499994999999999999999A /@9990996966969 %6

Dt_Customer

Sợ

28-02-2013 fa 16-08-2013 c2

25-07-2013 jjC2

26-12-2013 102 17-12-2013 102

Trang 30

IV.KET LUAN VA BAN

KUAN với 2 cụm được xem là tối ưu nhất dựa trên chỉ số

silhouette và tỷ lệ giá trị âm

¢ Phân lớp: Decision Tree được chọn là phương pháp tối ưu nhất cho bài toán

phân lớp dữ liệu nhờ chỉ số AUC cao nhất (>0.98) và tỷ lệ chính xác cao nhất

trong Confusion Matrix

°ÒỒ Dự báo: Từ 10% dữ liệu đã được trích xuất, mô hình Decision Tree đã dự báo

BÀ UƯÂWnức độ hài lòng của khách hàng

Đối với phân cụm:

°« Phương pháp K-Means cho ra phần cụm rõ ràng và hợp lý hơn Hierarchical

Clustering

¢ Diém yéu cua K-Means la can phai xác định số lượng cụm từ trước, điều này

có thể làm giảm tính chính xác nếu không chọn đúng số cụm tối ưu

Đối với phân lớp:

Trang 31

V.KET LUAN VA KHUYEN

NGHI

1 Két

luan:

Thông Qua quá trình phân tích và đánh giá, dựa trên hai phương pháp

phân cụm cũng như 4 mô hình phân lớp dữ liệu khác nhau cho thầy

phương pháp Decision Tree đưa ra kết quả tốt nhất ( theo như kết quả từ Test and Score va Confusion Matrix), day la phuong phap phu hop nhat

để phân lớp dữ liệu

có chỉ số Silhouette tốt thông qua quan sát trên Silhouette Plo

Trang 32

2 Dự báo sự tăng trưởng về mức

do hai long cua khách hàng trong

hanh trinh mua sam truc tuyén

ie Singapore nam 2012 Cát xu hướ g có thể thay đổi thông qua các biến động

kinh tế, tùy thuộc vào độ tuổi, trình dộ học vấn, tiền kiếm

được từ việc làm hoặc đầu tư,

Dựa vào dữ liệu số lần truy cập vào website nhiều lần trong

tháng và lượng truy cập web của khách hàng cho thầy tần suất

khách hàng mua sắm trực tuyến đang tăng lên và có xu hướng

mua nhiều qua web hơn trực tiếp

Ngày đăng: 20/10/2024, 08:58

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w