1. Trang chủ
  2. » Tất cả

Tiểu luận kết thúc học phần bộ môn khoa học dữ liệu

24 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tiểu luận kết thúc học phần Bộ môn Khoa học Dữ liệu
Người hướng dẫn Thạc sĩ Trương Việt Phương
Trường học Trường Công Nghệ - Thiết Kế Khoa Toán Thống Kê, Đại Học UEH
Chuyên ngành Khoa học Dữ liệu
Thể loại Tiểu luận kết thúc học phần
Năm xuất bản 2022
Thành phố TP Hồ Chí Minh
Định dạng
Số trang 24
Dung lượng 1,18 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tổng quan về đề án: Dự án này đã sử dụng Tập dữ liệu khách hàng bán buôn từ Kho lưu trữ máy họcUCI chứa thói quen chi tiêu hàng năm của 440 khách hàng của toàn bộ nhà phânphối bán hàng..

Trang 1

ĐẠI HỌC UEH TRƯỜNG CÔNG NGHỆ - THIẾT KẾ KHOA TOÁN THỐNG KÊ

TIỂU LUẬN KẾT THÚC HỌC PHẦN

BỘ MÔN: KHOA HỌC DỮ LIỆU

Giảng viên : Trương Việt Phương LỚP – KHOÁ: FM001 – K47

Mã lớp HP: 22C1INF50905975

Phòng học: B2-507

TP Hồ Chí Minh, tháng 10 năm 2022

Downloaded by vu ga (vuchinhhp2@gmail.com)

Trang 2

BẢNG PHÂN CÔNG NHIỆM VỤ

Cao Hùng Vĩ 31171022750

Phan Thái Bảo 31211024766

Lê Cao Anh Minh 31211020005

Trương Nhật Nghi 31211020371

Lê Thị Hồng Nhung 31211023525

Trang 3

MỤC LỤC

PHẦN I: GIỚI THIỆU: 5

1 Mục đích chọn đề tài: 5

2 Tổng quan về đề án: 5

PHẦN II: THU THẬP DỮ LIỆU: 6

1 M漃Ȁ tả tổng quát dư뀃 liệu 6

2 Giải thích bộ dư뀃 liệu 6

3 Xác định biến mục tiêu: 7

4 Các bước tiền xử lý dư뀃 liệu: 7

PHẦN III: KHAI THÁC DỮ LIỆU 8

1 Màn h椃 2 Phân cụm: 9

o Phân cụm phân cấp (Hierarchical Clustering) 11

o Phân cụm phân hoạch (Partitioning Clustering) 13

3 Phân lớp 16

4 Dự báo 21

PHẦN IV: KẾT LUẬN 23

3

Downloaded by vu ga (vuchinhhp2@gmail.com)

Trang 5

PHẦN I: GIỚI THIỆU:

1 Mục đích chọn đề tài:

Lời đầu tiên, chúng em xin gửi lời cảm ơn chân thành đến Thạc sĩ Trương ViệtPhương và 5 thành viên của nhóm Trong suốt thời gian học tập, tìm hiểu và hoànthành đề án môn học Khoa học dữ liệu chúng em đã nhận được sự quan tâm giúp

đỡ, hướng dẫn tận tình và tâm huyết của thầy cùng với sự làm việc ăn ý, hiệu quả

và năng suất của cả nhóm đã giúp chúng em tích lũy thêm nhiều kiến thức để có cáinhìn sâu sắc và hoàn thiện hơn về phần mềm Orange nói riêng và Khoa học dữ liệunói chung Thông qua đồ án này, nhóm em xin trình bày những kiến thức và kỹnăng mà nhóm đã thu thập được trong những buổi học vừa qua Trong quá trìnhhoàn thành đề án chắc chắn không tránh khỏi những thiếu sót Vì vậy, nhóm chúng

em rất mong nhận được lời góp ý đến từ thầy để đề án kết thúc môn học của chúng

em được hoàn thiện hơn

Trước khi bắt đầu, chúng em sẽ trình bày lý do và tính cấp bách của đề tài Có thểphân loại khách hàng thành các nhóm có ý nghĩa (phân khúc khách hàng) dựa trênthói quen chi tiêu là điều có giá trị đối với doanh nghiệp Làm như vậy có thể cungcấp cho doanh nghiệp cái nhìn sâu sắc về cách đáp ứng tốt nhất các nhu cầu cụ thểcủa các nhóm khách hàng khác nhau Nó cũng có thể cho phép một doanh nghiệpthực hiện thử nghiệm A/B hiệu quả hơn, bằng cách phát hiện ra những thay đổi cụthể sẽ ảnh hưởng đến các nhóm khách hàng khác nhau như thế nào

2 Tổng quan về đề án:

Dự án này đã sử dụng Tập dữ liệu khách hàng bán buôn từ Kho lưu trữ máy họcUCI chứa thói quen chi tiêu hàng năm của 440 khách hàng của toàn bộ nhà phânphối bán hàng Mục tiêu là tìm ra cách tốt nhất để mô tả sự biến đổi của các loạikhách hàng khác nhau mà nhà phân phối bán buôn tương tác bằng cách áp dụng các

kỹ thuật phân nhóm

Tập dữ liệu này đề cập đến khách hàng của một nhà phân phối bán buôn Nó baogồm chi tiêu hàng năm tính bằng đơn vị tiền tệ (mu) cho các danh mục sản phẩm đadạng Nhà phân phối bán buôn hoạt động ở các vùng khác nhau của Bồ Đào Nha cóthông tin về chi tiêu hàng năm của một số mặt hàng trong cửa hàng của họ trên cácvùng và kênh khác nhau Bộ dữ liệu bao gồm 440 nhà bán lẻ lớn chi tiêu hàng nămcho 6 loại sản phẩm khác nhau ở 3 khu vực khác nhau (lisbon, oporto, khác) và trêncác kênh bán hàng khác nhau (Khách sạn, kênh bán lẻ)

Để dự đoán khu vực nào và kênh nào sẽ chi tiêu nhiều hơn và khu vực và kênh nào

sẽ chi tiêu ít hơn

5

Downloaded by vu ga (vuchinhhp2@gmail.com)

Trang 6

PHẦN II: THU THẬP DỮ LIỆU:

1 M漃Ȁ tả tổng quát dư뀃 liệu

- Bộ dữ liệu cần phân tích tên là Wholesale customers Data Set, lấy từ

https://archive.ics.uci.edu/ml/datasets/wholesale+customers#

- Dữ liệu : Tập dữ liệu khách hàng bán buôn từ Kho lưu trữ máy học UCI chứa thóiquen chi tiêu hàng năm của 440 khách hàng của toàn bộ nhà phân phối bán hàng, bao gồm một loạt các danh mục sản phẩm Vì mục đích của dự án này là khám phá xem liệu các cụm có ý nghĩa có thể được phát hiện chỉ từ thói quen chi tiêu của khách hàng hay không, nên hai biến đã bị loại bỏ khỏi tập dữ liệu ban đầu Chúng bao gồm các thuộc tính 'Channel' và 'Region' Những gì còn lại là sáu loại sản phẩm

- Data set Characteristic (đặc điểm của tập dữ liệu): Đa biến

- Bản ghi trong tập dữ liệu = 440 ROWS

- Các cột trong tập dữ liệu = 8 COLUMNS

- Attribute Chacteristics (đặc điểm thuộc tính) : Interger

- Missing value( giá trị bị thiếu ) : N/A

2 Giải thích bộ dư뀃 liệu

+ Nguồn: Margarida G M S Cardoso, margarida.cardoso '@' iscte.pt , IUL, Lisbon, Portugal

ISCTE-+ Thông tin Data Set: Tập dữ liệu đề cập đến khách hàng của một nhà phân phối bán buôn Nó bao gồm chi tiêu hàng năm tính bằng đơn vị tiền tệ (mu) cho các loại sản phẩm đa dạng

+ Thông tin thuộc tính: Có 8 loại thuộc tính

Trang 7

1) FRESH: chi tiêu hàng năm (mu) cho các sản phẩm tươi (Định lượng)

2) MILK: chi tiêu hàng năm (mu) cho các sản phẩm sữa (Định lượng)

3) GROCERY: chi tiêu hàng năm (mu) cho các sản phẩm tạp hóa (Định lượng)4) FROZEN: chi tiêu hàng năm (mu) cho các sản phẩm đông lạnh (Định lượng)5) DETERGENTS_PAPER: chi tiêu hàng năm (mu) cho chất tẩy rửa và các sản phẩm giấy (Định lượng)

6) DELICATESSEN: chi tiêu hàng năm (mu) cho các sản phẩm cao cấp (Định lượng)

7) CHANNEL: Kênh khách hàng: Horeca (Khách sạn / Nhà hàng / Quán cà phê) hoặc Kênh bán lẻ (1: Horeca, 2: Bán lẻ) (Định lượng)

8) REGION: Khu vực khách hàng: Lisnon, Oporto hoặc Khác (1: Lisnon, 2:

Oporto, 3: Khác) (Định lượng)

3 Xác định biến mục tiêu:

Channel (1: Horeca, 2: Bán lẻ)

4 Các bước tiền xử lý dư뀃 liệu:

+ Làm sạch dữ liệu (data cleaning/cleansing)

+ Tích hợp dữ liệu (data intergation)

+ Chuyển đổi dữ liệu (exchange data)

+ Rút gọn dữ liệu (data reduction)

u Với dự án của nhóm: Bởi vì các tập dữ liệu mẫu đã đạt tiêu chuẩn, không có dữ

liệu bị lỗi nên sẽ bỏ qua bước tiền xử lý dữ liệu (Không có features nào bị loại

bỏ, và các categorical features đã được tác giả của tập dữ liệu xử lý)

7

Downloaded by vu ga (vuchinhhp2@gmail.com)

Trang 8

PHẦN III: KHAI THÁC DỮ LIỆU

1 Màn h椃

Phân loại dữ liệu: bộ dữ liệu có nhãn

(Nhóm dùng thuật toán phân lớp, phân cụm để xây dựng mô hình)

Trang 9

2 Phân cụm:

Lựa chọn skip Channel

Dùng để quan sát dữ liệu bảng biểu bằng cách nối FILE vào Data table

Khi double - click vào ta sẽ quan sát được dữ liệu

Chức năng Data Table sẽ giúp ta thể hiện thuộc tính dữ liệu trong bảng tính, từ đó

có cái nhìn trực quan và cụ thể hơn về dữ liệu

9

Downloaded by vu ga (vuchinhhp2@gmail.com)

Trang 10

Từ Data Table, có thể thấy không có dữ liệu nào bị thiếu Do đó ta sẽ tiến hành phân cụm dữ liệu.

Ta sử dụng 2 thuật toán phân cụm là Hierarchical Clustering và K-Means

o Phân cụm phân cấp (Hierarchical Clustering)

- Đối với thuật toán Hierarchical Clustering, trước tiên ta phải sử dụng

Distances để tính độ đo phân cụm Ta chọn Distances between Rows do dữ liệu của mỗi phần tử được phân bố theo hàng, và mỗi cột đại diện cho mỗi thuộc tính của phần tử đó Ở mục Distances Metric ta chọn độ đo phân cụm Euclidean

- Chia thành 10 cụm, dùng linkage complete (khoảng cách lớn nhất giữa 1 phần tử trong một cụm với một phần tử ở cụm khác)

Trang 11

- Ở mục Cluster label và Annotations ta chọn Cluster và tiến hành quan sát

11

Downloaded by vu ga (vuchinhhp2@gmail.com)

Trang 12

- Sau khi dữ liệu được chuyển đến Hierarchical Clustering, ta sẽ thấy biểu đồ hiển thị theo dạng cấu trúc cây Ở mục Linkage, ta chọn phương pháp Complete để tính khoảng cách giữa các phần tử và chọn số cụm là 10 Lý do của lựa chọn này

là bởi vì sau khi thử nghiệm qua nhiều số cụm khác nhau, nhìn trực quan dựa trên biểu đồ, ta nhận thấy số cụm là 10 sẽ cho ra kết quả với các phần tử có độ tương đồng trên 0.5, ít phần tử có chỉ số âm và chỉ số dưới 0.5

- Sau đó, ta chuyển kết quả phân cụm qua Data Table để xem chi tiết trong bảng tính

Trang 13

- Cuối cùng, ta chuyển dữ liệu từ Data Table vào Save Data để tiến hành lưu dữ liệu Ta chọn lưu dữ liệu dưới dạng file Excel để có thể dễ dàng đánh giá trực quan và so sánh với thuật toán K-Means, cũng như so sánh với kết quả của dữ liệu gốc

o Phân cụm phân hoạch (Partitioning Clustering)

- Ta tiến hành phân cụm phân hoạch bằng thuật toán K-Means Đầu tiên, ta dẫn dữliệu trực tiếp từ Data Table mà không cần gián tiếp qua Distances

- Ở thuật toán này, trong phần Number of Clusters, ta chọn số cụm chạy từ 2 đến

8 Trong phần Preprocessing, ta chọn Normalize columns Bảng Silhouette Scores bên phải sẽ hiển thị giá trị trung bình ứng với mỗi số cụm

- Sau nhiều lần thử nghiệm để tìm ra trường hợp cho dữ liệu tốt nhất, thì thấy việc phân thành 8 cụm sẽ cho ra kết quả gần sát với thực tế

13

Downloaded by vu ga (vuchinhhp2@gmail.com)

Trang 14

- Ở Silhouette Plot, ta thấy các phần tử có độ tương đồng trên 0.5 chiếm đa số, ít phần tử có chỉ số dưới 0.5 và chỉ số âm.

Trang 15

Thông qua hai thuật toán phân cụm là Hierarchical Clustering và K-Means, ta thấy rằng Phân cụm phân hoạch bằng thuật toán K-Means cho ra kết quả sát với thực tế nhất (>= 0.5) Nên chọn K-Means

 Xem data table và lưu data dưới dạng xlss (Excel)

15

Downloaded by vu ga (vuchinhhp2@gmail.com)

Trang 16

B愃ऀng dư뀃 liẹ뤂u đ甃ᬀơꄣc xuĀt d甃ᬀơꄁi d愃⌀ng file excel:

❖ Số liệu thực tế từ Kho lưu trữ máy học UCI:

Trang 17

Hồi quy logistic (Logistic Regression),

SVM (Support Vector Machine)

Dựa vào các chỉ số để so sánh đánh giá các thuật toán và lựa chọn thuật toán tốt nhất, chính xác nhất phục vụ cho việc dự báo

 Kết quả với tập dữ liệu testing:

q Test and score: Sử dụng phương pháp K-fold cross validation với k = 5

=> Nhận xét: Tại mục Evalution Results cho ta biết được kết quả định lượng của ba

mô hình Logistic Regression, Tree, SVM, giá trị nào là cao nhất Khi xem xét các chỉ số qua trường hợp trên ta thấy mô hình SVM mang lại số liệu đẹp nhất trong các mô hình

- Tính chính xác (CA) là 90.5%

- Gía trị trung bình điều hoà (F1) là 90,4%

17

Downloaded by vu ga (vuchinhhp2@gmail.com)

Trang 18

sẽ một phần nào đó tác động tới khả năng phát triển kinh doanh của công ty

Do đó, nhóm đã trình bày về ma trận nhầm lẫn với mục đích xem xét sự nhầm lẫn xảy ra ở 2 loại khách hàng

- Tỷ lệ dự đoán chính xác Horeca là 90.9%; Bán lẻ là 87.0%

Trang 20

u Nhận xét: Tại Confusion Matrix chỉ số cần quan sát nhất là tỷ lệ dự đoán chính xác loại 1 và dự đoán chính xác loại 2, mô hình tốt nhất và chính xác nhất khi khi có sai lầm loại 1 và sai lầm loại 2 thấp nhất Nhìn vào kết quả ở trên ta thấy

Mô hình SVM là mô hình có tỷ lệ sai lầm bé nhất với sai lầm loại 1 là 12.1% và sai lầm loại 2 là 8.4% Nên phương pháp SVM là phù hợp nhất

q Đươꄀng cong ROC:

- Đường cong này được tạo ra bằng cách biểu diễn tỷ lệ dự báo true positive rate (TPR) dựa trên tỷ lệ dự báo false positive rate (FPR) tại các ngưỡng khác nhau Một mô hình hiệu quả khi có FPR thấp và TPR cao, hay ROC càng tiệm cận với điểm (0;1) trong đồ thị thì mô hình càng hiệu quả

- Qua quan sát đường ROC có thể thấy được mô hình SVM là đường có tỷ lệ báo true positive rate (TPR) cao nhất và tỷ lệ false positive rate (FPR) thấp nhất

Th漃Ȁng qua viẹ뤂c đ愃Ānh gi愃Ā c愃Āc ch椃ऀ sĀ kiऀm đ椃⌀nh ta thấy M漃Ȁ h椃 kiऀm đ椃⌀nh tĀt nhất n攃Ȁn đây s攃̀ l愃

Trang 21

- Kết luận: Phương pháp phân lớp SVM là phương pháp tốt nhất

- Nguyên nhân lựa chọn

+ Phương pháp này có AUC (Area Under the Curve) hay diện tích nằm dưới đường cong ROC là lớn nhất, tức có mô hình tốt nhất

+ Phương pháp này có CA (Accuracy) hay tính chính xác cao nhất

+ Phương pháp này có sai lầm thấp nhất

+ Phương pháp này có hiệu quả cao nhất do có đường cong ROC tiệm cận với điểm (0;1) nhất

=> Chọn SVM và dự đoán qua SVM bằng Predictions

4 Dự báo

Sau khi sử dụng các phương pháp đánh giá mô hình phân lớp, ta đã chọn được phương pháp SVM dể dự báo cho 10% dữ liệu từ bộ dữ liệu phâp lớp xem như chưa có nhãn (44 mẫu)

- Trong File ta skip thuộc tính Channel

- Sử dụng Data Sampler để thực hiện lấy mẫu dữ liệu

- Lấy 10 % mẫu dữ liệu từ file dữ liệu đã được xử lý tiền dữ liệu trước đó

Từ file dữ liệu trên, thông qua Data Sampler, trong mục Fixed proportion of data ta chọn 10% để trích dữ liệu

21

Downloaded by vu ga (vuchinhhp2@gmail.com)

Trang 22

- Sử dụng Predictions để dự báo dữ liệu theo phương pháp SVM.

- Xuất ra Data table và xem lại dữ liệu

Trang 23

PHẦN IV: KẾT LUẬN

Đề án đặt ra để điều tra xem liệu khách hàng của một doanh nghiệp có thể đượcphân chia thành các nhóm có ý nghĩa chỉ dựa trên thói quen chi tiêu hay không.Điều được phát hiện là thói quen chi tiêu của khách hàng thực sự có thể được sửdụng để tạo ra những khám phá như vậy, và nó hoạt động khá tốt Khi so sánh vớicác cụm sự thật cơ bản, chúng tôi thấy rằng một thuật toán học tập không giám sát

đã đưa ra một nhóm khách hàng tương tự thành các nhóm riêng biệt và cũng cócùng số lượng nhóm

Việc có thể phân khúc khách hàng thành các nhóm khác nhau có giá trị lớn đối vớimột doanh nghiệp muốn tiến hành thử nghiệm A/B khi thực hiện những thay đổinhỏ đối với sản phẩm hoặc dịch vụ của mình

Điều này là do những thay đổi này có thể không ảnh hưởng đến tất cả các loạikhách hàng như nhau, có một số có thể bị ảnh hưởng tiêu cực hơn những thay đổikhác Một cách tốt để kiểm tra xem liệu những thay đổi đó có nên được thực hiệnhay không và liệu chúng chỉ nên được thực hiện cho một số khách hàng là sử dụngcác nhóm mà dữ liệu được chỉ định bằng cách sử dụng thuật toán phân cụm Bằngcách thực hiện thử nghiệm A / B trên các tập hợp con khách hàng từ mỗi nhóm, bạn

23

Downloaded by vu ga (vuchinhhp2@gmail.com)

Trang 24

có thể tìm hiểu xem các thay đổi có ảnh hưởng đến bất kỳ hoặc tất cả các nhómriêng biệt đó hay không và cho phép bạn thực hiện những thay đổi đó chỉ đối vớicác nhóm có tích cực (hoặc không tiêu cực) các hiệu ứng

Khả năng nhóm khách hàng thành các phân đoạn khác nhau cũng có thể được sửdụng như một bước tiền xử lý cho một thuật toán học có giám sát khi đưa ra dựđoán về khách hàng Điều này có thể được thực hiện bằng cách sử dụng cụm kháchhàng được dự đoán như một tính năng đầu vào khác cho thuật toán học có giám sát

Ngày đăng: 23/02/2023, 22:04

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w