PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC NGHIỆM DỮ LIỆU TẠI MỘT SIÊU THỊ)

Trong khóa luận đã vận dụng các phương pháp khai phá dữ liệu như phân cụm (clustering methods) và luật kết hợp (association rules) để nghiên cứu bài toán phân khúc khách hàng. Một số thuật toán được dùng là K-means sử dụng Elbow để chọn cụm k và Apriori vốn là các thuật toán nổi tiếng đã được ứng dụng trong nhiều lĩnh vực. Ngoài ra, để kết quả trở nên có ý nghĩa em kết hợp thêm phương pháp thống kê Kruskal Wallis để kiểm định lại kết quả phân cụm. Các kết quả được trực quan hóa dữ liệu bằng Power BI Mục đích của bài nghiên cứu này là tìm ra các phân khúc thị trường thực sự có ý nghĩa hỗ trợ hoạt động bán hàng cho siêu thị.

Trang 1

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC KINH TẾ



KHÓA LUẬN TỐT NGHIỆP

Chuyên ngành: Thương mại điện tử

Đề tài:

PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC NGHIỆM DỮ LIỆU TẠI MỘT SIÊU THỊ)

Nguyễn Thị Phượng 171121522143 43K22

Trang 2

TRANG BÌA PHỤ

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC KINH TẾ



KHÓA LUẬN TỐT NGHIỆP

Chuyên ngành: Thương mại điện tử

Đề tài:

PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC NGHIỆM DỮ LIỆU TẠI MỘT SIÊU THỊ)

Nguyễn Thị Phượng 171121522143 43K22

43

TS Lê Diên Tuấn ThS Trần Văn Lộc

Trang 3

TÓM TẮT

Trên thế giới, các tập đoàn lớn từ Ford đến Apple đã chi hàng tỷ đô la để phântích hành vi khách hàng Họ muốn biết người tiêu dùng đưa ra quyết định mua như thếnào và điều gì ảnh hưởng đến những quyết định đó để phát triển kinh doanh cũng nhưphát triển chiến lược Marketing Trong bối cảnh thời đại công nghệ 4.0 các doanhnghiệp thực hiện triển khai doanh nghiệp số do đó việc phân tích hành vi khách hàngdựa vào dữ liệu là một xu thế Chính vì vậy tôi đã chọn để tài “Phân tích hành vi kháchhàng dựa vào kỹ thuật khai phá dữ liệu nhằm nâng cao hiệu quả bán hàng vàmarketing online”

Mục đích nghiên cứu của đề tài là hệ thống hóa những vấn đề lý luận liên quanđến hành vi khách hàng dựa vào kỹ thuật khai phá dữ liệu như trực quan hóa dữ liệu,phân cụm và luật kết hợp Sau đó phân tích tiến hành đề xuất những giải pháp nhằmnâng cao hiệu quả bán hàng và marketing online cho siêu thị

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài luận văn “Phân tích hành vi khách hàng dựa vào kỹthuật khai phá dữ liệu nhằm nâng cao hiệu quả bán hàng và marketing online” là côngtrình nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của TS Lê Diên Tuấn vàThS Trần Văn Lộc

Bài báo cáo luận văn có sử dụng một số tài liệu tham khảo được trích dẫn cụ thểở mục tài liệu tham khảo Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toànchịu trách nhiệm về nội dung bài báo cáo của mình

Đà Nẵng, ngày 27 tháng 12 năm 2020

Sinh viên thực hiệnNguyễn Thị Phượng

Trang 5

LỜI CẢM ƠN

Trong lời đầu tiên của báo cáo luận văn này, tôi muốn gửi lời cảm ơn và biết ơnsâu sắc nhất của mình tới hai Thầy TS Lê Diên Tuấn và ThS Trần Văn Lộc – Giảngviên khoa Thương mại điện tử, Trường ĐH Kinh Tế-ĐH Đà Nẵng, người đã trực tiếpnhận xét, hỗ trợ và chỉ bảo tôi rất nhiều trong thời gian tôi thực hiện luận văn

Xin chân thành cảm ơn Thầy cô trong khoa Thương mại điện tử và các phòngban đã tạo điều kiện tốt nhất cho tôi trong suốt thời gian tôi được học tập tại trường

Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè đặc biệt là những ngườibạn trong nhóm The Zoo đã động viên tôi trong quá trình học tập và làm đề tài

Do sự hạn chế về kiến thức cũng như thời gian thực hiện nên luận văn chắcchắn sẽ không tránh khỏi những thiếu sót Tôi rất mong nhận được ý kiến đóng gópcủa quý Thầy cô để có thêm kinh nghiệm hoàn thiện luận văn của mình hơn

Tôi xin chân thành cảm ơn!

Đà Nẵng, ngày 27 tháng 12 năm 2020

Sinh viên thực hiệnNguyễn Thị Phượng

Trang 6

MỤC LỤC

TÓM TẮT i

LỜI CAM ĐOAN ii

LỜI CẢM ƠN iii

MỤC LỤC iv

DANH MỤC CÁC BẢNG BIỂU vii

DANH MỤC HÌNH VẼ ĐỒ THỊ viii

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT xi

CHƯƠNG 1: 13

GIỚI THIỆU TỔNG QUAN 13

1.1 Tính cấp thiết của đề tài 13

1.2 Mục tiêu nghiên cứu 14

1.2.1 Lý thuyết 14

1.2.2 Ứng dụng 14

1.3 Đối tượng, phạm vi nghiên cứu 14

1.4 Phương pháp nghiên cứu 14

1.5 Kết cấu đề tài 15

CHƯƠNG 2: 16

CƠ SỞ LÝ THUYẾT 16

2.1 Tổng quan khai phá dữ liệu 16

2.1.1 Khái niệm 16

2.1.2 Sự liên ngành của hệ thống khai phá dữ liệu 20

2.1.3 Các loại dữ liệu sử dụng 24

2.1.4 Hướng tiếp cận và kỹ thuật chính trong khai phá dữ liệu 24

2.1.5 Một số ứng dụng khai phá dữ liệu 26

2.2 Cơ sở hạ tầng kinh doanh thông minh (Business Intelligence) 32

Trang 7

2.2.1 Khái niệm 32

2.2.2 Mục đích và chức năng của BI 32

2.3 Marketing hướng vào dữ liệu 34

2.3.1 Nguồn dữ liệu 35

2.3.2 Sử dụng dữ liệu 38

2.4 Một số kỹ thuật khai phá dữ liệu 43

2.4.1 Phân lớp 43

2.4.2 Phân cụm 43

2.4.3 Luật kết hợp 47

2.5 Giới thiệu một số công cụ phần mềm hỗ trợ 52

2.5.1 Phần mềm chạy thuật toán khai phá dữ liệu 52

2.5.2 Phần mềm trực quan hóa dữ liệu 55

CHƯƠNG 3: 57

PHÂN TÍCH THỰC TRẠNG HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU 57

3.1 Mô tả dữ liệu bán hàng tại siêu thị 57

3.2 Trực quan hóa dữ liệu bán hàng 60

3.2.1 Thông tin về khách hàng 60

3.2.2 Doanh số bán hàng của siêu thị 62

3.3 Phân cụm dữ liệu bằng Rstudio Cloud 65

3.3.1 Mô tả dữ liệu 65

3.3.2 Các kết quả phân tích chính 69

3.3.3 Kết luận 82

3.4 Kiểm định phân cụm 83

3.5 Ứng dụng luật kết hợp 86

3.4.1 Tiền xử lý dữ liệu 86

Trang 8

3.4.2 Thuật toán Apriori 88

3.4.3 Tìm các luật liên quan đến các mặt hàng nhất định 88

3.4.4 Trực quan hóa các luật kết hợp 89

3.4.5 Ý nghĩa 91

CHƯƠNG 4: 92

ĐỀ XUẤT GIẢI PHÁP NHẰM NÂNG CAO HIỆU QUẢ BÁN HÀNG VÀ MARKETING ONLINE, HƯỚNG PHÁT TRIỂN CỦA ĐỂ TÀI 92

4.1 Giải pháp nâng cao hiệu quả bán hàng 92

4.1.1 Giải pháp về chính sách sản phẩm 92

4.1.2 Giải pháp về hợp lý hóa tổ chức bán hàng 93

4.1.3 Giải pháp đối với nhóm khách hàng mục tiêu 94

4.2 Giải pháp đối với marketing online 96

4.2.1 Chiến lược email marketing dựa vào kết quả phân cụm 96

4.2.2 Chạy quảng cáo Google Ads 98

4.2.3 Xây dựng các chương trình tiếp thị liên kết 100

CHƯƠNG 5: 102

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 102

5.1 Kết luận 102

5.2 Hướng phát triển của đề tài 103

TÀI LIỆU THAM KHẢO 108

PHỤ LỤC 111

XÁC NHẬN ĐƠN VỊ THỰC TẬP 112

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 113

NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN 114

Trang 9

DANH MỤC CÁC BẢNG BIỂU

Bảng 3-1 Mô tả thuộc tính 57

Bảng 3-2.Dữ liệu giao dịch khách hàng 58

Bảng 3-3 Mẫu dữ liệu phân cụm 66

Bảng 3-4 Dữ liệu cụm 1 71

Bảng 3-5 Kiểm định Kruskall – Wallis cho các cụm 84

Bảng 3-6 Các chỉ số thống kê kiểm định Kruskal Wallis H 86

Trang 10

DANH MỤC HÌNH VẼ ĐỒ THỊ

Hình 2.0.1 Quá trình khai phá tri thức [4] 16

Hình 2.0.2 Quá trình khai phá dữ liệu 18

Hình 2.0.3 Tiến trình CRISP - DM [7] 19

Hình 2.0.4 Khai phá dữ liệu từ nhiều lĩnh vực [8] 20

Hình 2.0.5 Các vấn đề về học máy [12] 24

Hình 2.0.6 Mô hình tích hợp DM và KM trong Marketing [13] 26

Hình 2.0.7 Khai phá dữ liệu trong CRM [14] 27

Hình 2.0.8 Cơ sở hạ tầng trong BI (Gartner Group 2001) 34

Hình 2.0.9 Nguồn dữ liệu marketing [20] 36

Hình 2.0.10 Quá trình phân cụm [26] 44

Hình 2.0.11 Phương pháp Elbow 46

Hình 2.0.12 Ký hiệu các tập mục 49

Hình 2.0.13 Mô tả thuật toán Apriori [30] 50

Hình 2.0.14 Mô tả thuật toán FP-growth [32] 51

Hình 3.0.1 Mối quan hệ giữa số lượng khách hàng theo các thuộc tính 60

Hình 3.0.2 Mối quan hệ giữa hình thức thanh toán và các thuộc tính 61

Hình 3.0.3 Số lượng khách mua sắm và doanh thu theo tháng 62

Hình 3.0.4 Số lượng khách hàng và doanh thu ở mỗi chi nhánh 63

Hình 3.0.5 Số lượng khách mua và doanh thu theo các danh mục 64

Hình 3.0.6 Top 10 hóa đơn có doanh thu lớn nhất 65

Hình 3.0.7 Thống kê mô tả dữ liệu trước khi tiền xử lý 67

Hình 3.0.8 Thống kê mô tả dữ liệu sau khi xử lý NA 68

Hình 3.0.9 Biểu đồ boxplot để tìm Outliers 68

Hình 3.0.10 Biểu đồ boxplot sau khi xử lý Outliers 69

Trang 11

Hình 3.0.11 Số cụm tối ưu theo phương pháp Elbow 70

Hình 3.0.12 Kết quả phân cụm với k=4 71

Hình 3.0.13 Dữ liệu của cụm 1.1 73

Hình 3.0.14 Đặc điểm khách hàng cụm 1.1 73

Hình 3.0.15 Khách hàng theo giới tính, thanh toán, loại khách hàng 74

Hình 3.0.16 Dữ liệu cụm 1.2 74

Hình 3.0.19 Dữ liệu cụm 1.3 76

Hình 3.0.21 Dữ liệu cụm 1.4 77

Hình 3.0.24 Dữ liệu cụm 2 78

Hình 3.0.25 Đặc điểm khách hàng cụm 2 79

Hình 3.0.26 Dữ liệu cụm 3 79

Hình 3.0.29 Dữ liệu cụm 4 81

Hình 3.0.32 Tiền xử lý dữ liệu 87

Hình 3.0.33 Lưu thành file csv 87

Hình 3.0.34 Luật kết hợp với support = 5%, confidence = 80% 88

Hình 3.0.35 Loại bỏ các luật thừa 88

Trang 12

Hình 3.0.36 Luật kết hợp liên quan đến dây nhảy (Rope) 89

Hình 3.0.37 Luật kết hợp liên quan đến dây nhảy 89

Hình 3.0.38 Biểu đồ scatter biểu diễn luật kết hợp 90

Hình 3.0.39 Biểu diễn mối quan hệ của các luật 90

Hình 3.0.40 Biểu diễn luật kết hợp 91

Hình 4.0.1 Cách sắp xếp kệ trong siêu thị 93

Hình 4.0.2 Gửi bài đăng khuyến mại cho khách hàng bằng Zalo Pro 94

Hình 4.0.3 Giao diện Zalo Pro và thiết lập các thuộc tính 95

Hình 4.0.4 Tiến trình gửi mail cho khách hàng 96

Hình 4.0.5 Giao diện phần mềm gửi mail Blinkcontact 97

Hình 4.0.6 Chức năng tạo danh sách liên hệ trong Blinkcontact 98

Hình 4.0.7 Tiến trình chạy quảng cáo với Google Display Network 98

Hình 4.0.8 Thiết lập mục tiêu chạy quảng cáo trong GDN 99

Hình 4.0.9 Chạy quảng cáo theo khu vực vị tri địa lý 100

Hình 4.0.10 Tiến trình tiếp thị liên kết 100

Hình 5.0.1 Hướng giải pháp tiếp thị hướng dữ liệu 103

Hình 5.0.2 Giải pháp với mạng neuron để tìm ra nhóm khách hàng 104

Hình 5.0.3 Giải pháp với mạng neuron để dữ báo doanh thu 105

Trang 13

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

STT Ký hiệu Nguyên nghĩa

1 KDD Knowledge Discovery in Database (Phát hiện tri

thức trong cơ sở dữ liệu)

2 DM Data Mining (Khai phá dữ liệu)

3 CRISP-DM Cross- Industry Standard Process for Data Mining

(Quy trình tiêu chuẩn xuyên ngành cho khai phá dữ liệu)

4 IR Information Retrieval (Truy xuất thông tin)

5 KM Knowledge Management (Quản lý tri thức)

6 CRM Customer Relationship Management (Quản trị

quan hệ khách hàng)

7 BI Business Intelligence (Kinh doanh thông minh)

8 DSS Decision Support System (Hệ thống hỗ trợ ra

quyết định)

10 EIS Executive Information System (Hệ thống điều

hành thông tin)

11 ETL Extract – Transform – Load (Trích xuất - Chuyển

đổi – Tải)

12 ODS Operational Data Store (Kho lưu trữ dữ liệu vận

hành)

13 OLTP On-line Transactional Processing (Tiến trình xử lý

giao dịch trực tuyến)

14 OLAP On-line Analytical Processing (Tiến trình phân

tích trực tuyến)

Trang 14

15 EM Expectation Maximization (Tối đa hóa sự kỳ

vọng)

16 FP Frequent Pattern (Tập phổ biến)

17 SPSS Statistical Package for the Social Sciences (Gói

phần mềm thống kê cho khoa học xã hội)

18 GDN Google Display Network (Mạng lưới quảng cáo

hiển thị Google)

Trang 15

Có thể nói, dữ liệu thông tin khách hàng đóng vai trò quan trọng trong trungtâm hệ sinh thái kinh doanh của mỗi doanh nghiệp Tuy nhiên, từ dữ liệu đó làm thếnào để có được những kết quả chính xác phục vụ cho việc nâng cao hiệu quả bán hànghay hỗ trợ đưa ra những giải pháp marketing online thì vẫn còn là vấn đề nan giải củanhiều doanh nghiệp.

Tại Việt Nam, thói quen mua sắm của người tiêu dùng tại các đô thị dần thayđổi dưới sự phát triển của thương mại điện tử Với sự tiện nghi và an toàn có thể thấyngười tiêu dùng chuyển hướng sang mua sắm tại siêu thị tăng dần Các giao dịch muasắm của khách hàng được lưu lại trong cơ sở dữ của siêu thị đã tạo ra một nhu cầu rấtcấp thiết về các kỹ thuật và công cụ có thể chuyển đổi dữ liệu thành thông tin và kiến thức hữu ích nhằm hỗ trợ trong kinh doanh Những nhà quản lý siêu thị mong muốntìm ra được những thông tin có giá trị, những hành vi mua sắm của khách hàng nhằmhỗ trợ chiến lược marketing online hiệu quả cũng như hỗ trợ phát triển bán hàng chodoanh nghiệp

Từ nhận định những vấn đề đã phân tích ở trên, tôi đã quyết định chọn đề tàikhóa luận tốt nghiệp “Phân tích hành vi khách hàng dựa vào kỹ thuật khai phá dữ liệunhằm nâng cao hiệu quả bán hàng và Marketing online” với dữ liệu xây dựng thựcnghiệm từ siêu thị

Trang 16

1.2 Mục tiêu nghiên cứu

1.2.1 Lý thuyết

- Tìm hiểu khái quát quy trình khai phá dữ liệu và phát hiện tri thức dựa vào dữliệu, nắm được lý thuyết cơ bản về môi trường BI có liên quan đến khai phá dữliệu

- Hệ thống hóa được các kỹ thuật cơ bản trong khai phá dữ liệu như phân cụm,luật kết hợp

- Nắm được bản chất về marketing online đặc biệt một số lý thuyết liên quan đếnmarketing online hướng vào dữ liệu

1.3 Đối tượng, phạm vi nghiên cứu

Đối tượng nghiên cứu: dữ liệu siêu thị từ cộng đồng nghiên cứu Kaggle

Mẫu nghiên cứu: 500 khách hàng mua sắm tại siêu thị

Thời gian nghiên cứu: từ tháng 9 đến tháng 12 năm 2020

1.4 Phương pháp nghiên cứu

Đề tài sử dụng kết hợp nhiều phương pháp nghiên cứu, với một số phương phápđược liệt kê như sau:

Phương pháp thống kê mô tả

Phương pháp thống kê suy luận

Phương pháp tổng hợp

Phương pháp data mining

Trang 17

Phương pháp mô hình hóa

1.5 Kết cấu đề tài

Kết cấu khóa luận bao gồm 4 chương:

Chương 1: Giới thiệu tổng quan

Chương 2: Cơ sở lý thuyết

Chương 3: Phân tích thực trạng hành vi khách hàng dựa vào kỹ thuật khai phá

Trang 18

CHƯƠNG 2:

CƠ SỞ LÝ THUYẾT 2.1 Tổng quan khai phá dữ liệu

2.1.1 Khái niệm

Phát hiện tri thức từ cơ sở dữ liệu

Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database –KDD) là một quá trình quan trọng để xác định các mẫu hoặc mối quan hệ hợp lệ, mớilạ có thể hữu ích và cuối cùng là dễ hiểu trong tập dữ liệu để đưa ra các quyết địnhquan trọng ( Fayyad, Piatetsky-shapiro, & Smyth, 1996 ) [2]

Để bắt đầu phát hiện tri thức cần phân biệt rõ ba khái niệm: dữ liệu, thông tin vàtri thức Dữ liệu là tín hiệu (signals) thu được do quan sát, đo dạc, thu thập, cụ thể dữliệu là giá trị (values) của các thuộc tính (features) của các đối tượng Thông tin là dữliệu có ý nghĩa (data equiped with meaning), thu được khi xử lý dữ liệu để lọc bỏ đicác phần dư thừa, tìm ra phần cốt lõi đặc trưng cho dữ liệu Kiến thức là nhận thứchoặc công nhận, năng lực hành động và hiểu (biết tại sao) nằm trong hoặc chứa trongtâm trí hoặc trong não Mục đích của kiến thức là cải thiện cuộc sống của chúng

ta Trong bối cảnh kinh doanh, mục đích của kiến thức là tạo ra hoặc gia tăng giá trịcho doanh nghiệp và tất cả các bên liên quan Tóm lại, mục đích cuối cùng của tri thứclà để tạo ra giá trị [3]

Trong hình dưới đây thấy được quá trình phát hiện tri thức gồm nhiều giai đoạn.Đầu ra của giai đoạn này là đầu vào của giai đoạn sau, quá trình phát hiện tri thức gồmcác bước cơ bản sau:

Hình 2.0.1 Quá trình khai phá tri thức [4]

Trang 19

Chọn lọc dữ liệu (Data selection): Giai đoạn này thực hiện hai công việc chính.Thứ nhất, phát triển và tìm hiểu miền ứng dụng Thứ hai tạo tập dữ liệu đích từ nguồndữ liệu vô cùng lớn Kết quả của bước này là dữ liệu mục tiêu (Target data).

Tiền xử lý dữ liệu (Data preprocessing): bao gồm xử lý dữ liệu bị nhiễu vàthiếu Giai đoạn này cũng đảm bảo các giá trị có ý nghĩa thống nhất tạo ra quy trìnhKDD có kết quả chính xác Kết quả của bước này là dữ liệu được làm sạch (Cleaneddata) hoặc dữ liệu được tiền xử lý ( Pre-processed data)

Chuyển đổi dữ liệu (Data transformation): Quá trình này là giai đoạn xử lý dữliệu cuối cùng trước khi áp dụng các kỹ thuật phân tích dữ liệu Nó bao gồm việc tìmkiếm các thuộc tính hữu ích bằng cách áp dụng các phương pháp biến đổi và giảm thứnguyên, đồng thời tìm cách biểu diễn bất biến của dữ liệu Kết quả của tiến trình này làdữ liệu được biến đổi (Transformed data)

Khai phá dữ liệu (Data mining): Quá trình này bao gồm ba bước hoặc nhiệm vụcon Đầu tiên, chọn nhiệm vụ khai thác dữ liệu bằng cách so với các mục tiêu đượcxác định trong giai đoạn đầu với một phương pháp khai thác dữ liệu cụ thể như phâncụm, hồi quy, phân lớp, v.v Thứ hai, chọn (các) thuật toán khai thác dữ liệu và chọn(các) phương pháp và tham số để tìm kiếm các mẫu trong dữ liệu Thứ ba, áp dụng(các) thuật toán khai thác dữ liệu để tạo ra các mẫu dữ liệu trong một dạng biểu diễncụ thể Kết quả của giai đoạn này là mẫu (Patterns) và mô hình (Models)

Đánh giá kết quả mẫu (Interpretation/Evaluation): Quá trình này bao gồm haibước Đầu tiên, diễn giải các mẫu đã khai thác Bước này cũng có thể bao gồm việctrực quan hóa các mẫu và mô hình được trích xuất hoặc dữ liệu được trích xuất từ các

mô hình được trích xuất Thứ hai, củng cố kiến thức đã khám phá bằng cách kết hợpkiến thức đó vào hệ thống thực hiện, hoặc đơn giản là tài liệu hóa và báo cáo cho cácbên mong muốn Bước này có thể bao gồm việc kiểm tra và khắc phục mọi xung độttiềm ẩn với kiến thức đã tin trước đó Kết quả của quá trình này là kiến thức tiềm năng(Knowledge) [5]

Khai phá dữ liệu

Khai phá dữ liệu (Data mining - DM) là một khái niệm có nguồn gốc ra đời vàonhững năm cuối những năm 1980 Nó là quá trình trích xuất thông tin ẩn, ngầm mới lạ

Trang 20

và hữu ích từ trong các kho dữ liệu, cơ sở dữ liệu để ứng dụng vào những quyết địnhkinh doanh hoặc những lĩnh vực khác [6].

Các bước của quá trình khai phá dữ liệu có thể được mô tả dưới sơ đồ sau:

Hình 2.0.2 Quá trình khai phá dữ liệu

Quy trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đềcần giải quyết Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải phápgiải quyết nhiệm vụ bài toán

Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạngsao cho giải thuật khai phá dữ liệu có thể hiểu được Đây thực sự là một quá trình rấtkhó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản(nếu được chiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiềulần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi),… Do đó, trong bước này phảithực hiện tiền xử lý dữ liệu Quá trình tiền xử lý yêu cầu đầu tiên phải nắm được dạngdữ liệu, thuộc tính, mô tả của dữ liệu thao tác Sau đó tiến hành 4 giai đoạn chính: làmsạch, tích hợp, biến đổi, thu giảm dữ liệu

Bước tiếp theo trong quy trình khai phá dữ liệu là chọn thuật toán khai phá dữliệu thích hợp và thực hiện việc khai phá nhằm tìm được các mẫu có ý nghĩa dưới dạngbiểu diễn tương ứng với ý nghĩa đó

CRISP-DM (Cross Industry Standard Process for Data Mining)

Ngày nay, các nhà nghiên cứu với sự tham gia mạnh mẽ trong lĩnh vực côngnghiệp đã nhận ra nhu cầu từ DM đến KDD để cung cấp kiến thức hữu ích cho việc ra

Trang 21

quyết định kinh doanh Theo truyền thống, một tiêu chuẩn, được đặt tên là CRISP-DM(Cross Industry Standard Process for Data Mining).

Hình 2.0.3 Tiến trình CRISP - DM [7]

Hiểu biết kinh doanh: Giai đoạn này tập trung vào việc hiểu các mục tiêu dự ánvà các yêu cầu từ quan điểm kinh doanh

Hiểu dữ liệu: Giai đoạn hiểu dữ liệu bắt đầu với việc thu thập dữ liệu ban đầuvà tiến hành các hoạt động để làm quen với dữ liệu, xác định dữ liệu vấn đềchất lượng, để khám phá thông tin chi tiết đầu tiên về dữ liệu hoặc phát hiện cáctập hợp con thú vị để hình thành các giả thuyết cho thông tin ẩn

Chuẩn bị dữ liệu: Giai đoạn chuẩn bị dữ liệu bao gồm tất cả các hoạt động cầnthiết để xây dựng tập dữ liệu cuối cùng từ dữ liệu thô ban đầu Các nhiệm vụchuẩn bị dữ liệu có thể được thực hiện lặp đi lặp lại và không theo bất kỳ thứ tựquy định nào

Mô hình hóa: Trong giai đoạn này, các kỹ thuật mô hình hóa khác nhau đượclựa chọn và áp dụng và các tham số của chúng được hiệu chỉnh đến giá trị tối

ưu Thông thường, có một số kỹ thuật cho cùng một loại vấn đề DM Một số kỹthuật có các yêu cầu cụ thể về dạng dữ liệu

Trang 22

Đánh giá: Từ góc độ phân tích dữ liệu, các mô hình có vẻ chất lượng cao sẽđược xây dựng trong giai đoạn này của dự án Trước khi chuyển sang mô hìnhcuối cùng triển khai, điều quan trọng là phải đánh giá mô hình kỹ lưỡng hơn vàxem xét các bước thực hiện để xây dựng nó để chắc chắn rằng nó đạt được cácmục tiêu kinh doanh Tại cuối giai đoạn này, cần đạt được quyết định về cáchsử dụng các kết quả DM.

Triển khai: Xây dựng mô hình nói chung không phải là kết thúc của dự án.Thậm chí nếu mục đích của mô hình là tăng cường kiến thức về dữ liệu, kiến thức thu được sẽ cần được tổ chức và trình bày theo cách mà khách hàng có thểsử dụng

2.1.2 Sự liên ngành của hệ thống khai phá dữ liệu

Khai phá dữ liệu đã kết hợp nhiều kỹ thuật từ các lĩnh vực khác như thống kê,học máy, nhận dạng mẫu, cơ sở dữ liệu và hệ thống kho dữ liệu, truy xuất thông tin,trực quan hóa, thuật toán, tính toán hiệu suất cao và nhiều miền ứng dụng khác Bảnchất liên ngành của nghiên cứu và phát triển khai phá dữ liệu đóng góp đáng kể vào sựthành công của khai phá dữ liệu và các ứng dụng rộng rãi của nó

Khai phá dữ liệu có nguồn gốc liên quan đến các lĩnh vực sau:

Hình 2.0.4 Khai phá dữ liệu từ nhiều lĩnh vực [8]

Hệ thống cơ sở dữ liệu và kho dữ liệu

Nghiên cứu hệ thống cơ sở dữ liệu chủ đích để tạo, duy trì và sử dụng cơ sở dữliệu cho các tổ chức và người dùng cuối Đặc biệt, các nhà nghiên cứu hệ thống cơ sởdữ liệu đã thiết lập các nguyên tắc được công nhận cao trong mô hình dữ liệu, ngôn

Trang 23

ngữ truy vấn, phương pháp xử lý và tối ưu hóa truy vấn, lưu trữ dữ liệu cũng nhưphương pháp lập chỉ mục và truy cập Hệ thống cơ sở dữ liệu thường được biết đến vớikhả năng mở rộng cao trong việc xử lý các tập dữ liệu rất lớn, có cấu trúc tương đối.

Các hệ thống cơ sở dữ liệu gần đây đã xây dựng khả năng phân tích dữ liệu cóhệ thống trên dữ liệu cơ sở dữ liệu bằng cách sử dụng kho dữ liệu và các phương tiệnkhai thác dữ liệu Kho dữ liệu tích hợp dữ liệu có nguồn gốc từ nhiều nguồn và nhiềukhung thời gian khác nhau [9] Nó hợp nhất dữ liệu trong không gian đa chiều để tạothành các khối dữ liệu được vật chất hóa một phần Mô hình khối dữ liệu không chỉtạo điều kiện cho OLAP trong cơ sở dữ liệu đa chiều mà còn thúc đẩy khai thác dữ liệu

đa chiều

Thống kê

Thống kê nghiên cứu việc thu thập, phân tích, hoặc giải thích và trình bày dữliệu Khai phá dữ liệu có một kết nối cố hữu với thống kê [10] Mô hình thống kê làmột tập hợp các hàm toán học mô tả hành vi của các đối tượng trong lớp mục tiêu dướidạng các biến ngẫu nhiên và phân phối xác suất liên quan của chúng Mô hình thống

kê được sử dụng rộng rãi để biểu diễn mô hình dữ liệu và các lớp dữ liệu

Chẳng hạn như, trong các tác vụ khai phá dữ liệu như đặc tính và phân loại dữliệu, có thể xây dựng các mô hình thống kê của các lớp mục tiêu Nói cách khác, các

mô hình thống kê như vậy có thể là kết quả của một nhiệm vụ khai thác dữ liệu Ngoài

ra, các nhiệm vụ khai thác dữ liệu có thể được xây dựng dựa trên các mô hình thống

kê Ví dụ, chúng ta có thể sử dụng thống kê để lập mô hình nhiễu và các giá trị dữ liệubị thiếu Sau đó, khi khai thác các mẫu trong một tập dữ liệu lớn, quá trình khai phá dữliệu có thể sử dụng mô hình để giúp xác định và xử lý các giá trị bị nhiễu hoặc bị thiếutrong dữ liệu

Nghiên cứu thống kê phát triển các công cụ để dự đoán và dự báo bằng cách sửdụng dữ liệu và mô hình thống kê Phương pháp thống kê có thể được sử dụng để tómtắt hoặc mô tả một tập hợp dữ liệu

Áp dụng các phương pháp thống kê trong khai thác dữ liệu không phải là điềutầm thường Thông thường, một thách thức nghiêm trọng là làm thế nào để mở rộngmột phương pháp thống kê trên một tập dữ liệu lớn Nhiều phương pháp thống kê có

Trang 24

độ phức tạp cao trong tính toán Khi các phương pháp này được áp dụng trên các tậpdữ liệu lớn cũng được phân phối trên nhiều vị trí logic hoặc vật lý, các thuật toán nênđược thiết kế và điều chỉnh cẩn thận để giảm chi phí tính toán Thách thức này thậmchí còn trở nên khó khăn hơn đối với các ứng dụng trực tuyến, chẳng hạn như đề xuấttruy vấn trực tuyến trong công cụ tìm kiếm, nơi yêu cầu khai thác dữ liệu để liên tụcxử lý các luồng dữ liệu nhanh, theo thời gian thực.

Học máy

Máy học nghiên cứu cách máy tính có thể học (hoặc cải thiện hiệu suất củachúng) dựa trên dữ liệu Một lĩnh vực nghiên cứu chính là dành cho các chương trìnhmáy tính tự động học cách nhận ra các mẫu phức tạp và đưa ra các quyết định thôngminh dựa trên dữ liệu

Đối với các nhiệm vụ phân lớp và phân cụm, nghiên cứu học máy thường tậptrung vào độ chính xác của mô hình Ngoài độ chính xác, nghiên cứu khai phá dữ liệucòn nhấn mạnh vào hiệu quả và khả năng mở rộng của các phương pháp khai thác trêntập dữ liệu lớn, cũng như về các cách xử lý các loại dữ liệu phức tạp và khám phá cácphương pháp thay thế mới

Khoa học thông tin

Đây là lĩnh vực học thuật chủ yếu liên quan đến phân tích, thu thập, phân loại ,thao tác, lưu trữ, truy xuất , di chuyển, phổ biến và bảo vệ thông tin Một mặt là việcmở rộng khám phá kiến thức vào kiến trúc dữ liệu của các kho dữ liệu phân tích vàmặt khác là phân tích hình ảnh, giọng nói và văn bản phức tạp với các thuật toán họcmáy phát triển cao

Truy xuất thông tin (IR) là khoa học tìm kiếm tài liệu hoặc thông tin trong tàiliệu Tài liệu có thể là văn bản hoặc đa phương tiện và có thể nằm trên web Sự khácbiệt giữa hệ thống cơ sở dữ liệu và truy xuất thông tin truyền thống là gấp đôi:

Truy xuất thông tin giả định rằng (1) dữ liệu đang tìm kiếm là không có cấutrúc; và (2) các truy vấn được hình thành chủ yếu bởi các từ khóa, không có cấu trúcphức tạp (không giống như truy vấn SQL trong hệ thống cơ sở dữ liệu) [11]

Hơn nữa, một chủ đề trong một tập hợp các tài liệu văn bản có thể được môhình hóa dưới dạng phân phối xác suất trên từ vựng, được gọi là mô hình chủ đề Một

Trang 25

tài liệu văn bản, có thể liên quan đến một hoặc nhiều chủ đề, có thể được coi là mộthỗn hợp của nhiều mô hình chủ đề Bằng cách tích hợp các mô hình truy xuất thông tinvà kỹ thuật khai phá dữ liệu, có thể tìm thấy các chủ đề chính trong bộ sưu tập tài liệuvà đối với mỗi tài liệu trong bộ sưu tập, các chủ đề chính liên quan.

Ngày càng có nhiều văn bản và dữ liệu đa phương tiện được tích lũy và cungcấp trực tuyến do tốc độ phát triển nhanh chóng của Web và các ứng dụng như thưviện in nghiêng, chính phủ kỹ thuật số và hệ thống thông tin chăm sóc sức khỏe Việctìm kiếm và phân tích hiệu quả của họ đã đặt ra nhiều vấn đề thách thức trong việckhai phá dữ liệu

Trực quan hóa

Trực quan hóa dữ liệu cung cấp một cơ chế mạnh mẽ để hỗ trợ người dùngtrong cả quá trình tiền xử lý dữ liệu và khai thác dữ liệu thực tế Thông qua việc hiểnthị trực quan dữ liệu gốc, người dùng có thể duyệt qua để có được "cảm nhận" về cácthuộc tính của dữ liệu đó Ví dụ, các mẫu lớn có thể được hình dung và phân tích

Đặc biệt, trực quan hóa có thể được sử dụng để phát hiện ngoại lệ, làm nổi bậtnhững điều bất ngờ trong dữ liệu, tức là các trường hợp dữ liệu không tuân thủ hành vihoặc mô hình chung của dữ liệu

Trong quá trình chuyển đổi dữ liệu, việc trực quan hóa dữ liệu có thể giúpngười dùng đảm bảo tính đúng đắn của việc chuyển đổi Nghĩa là, người dùng có thểxác định xem hai chế độ xem (gốc so với đã chuyển đổi) của dữ liệu có tương đươngnhau hay không Hình ảnh hóa cũng có thể được sử dụng để hỗ trợ người dùng khi tíchhợp các nguồn dữ liệu, giúp họ nhìn thấy các mối quan hệ trong các định dạng khácnhau

Các lĩnh vực khác

Ngoài ra, khai phá dữ liệu còn kết hợp các kỹ thuật từ nhiều lĩnh vực khác nhaunhư nhận dạng mẫu (Pattern recognition), thuật toán (Algorithms), Tính toán hiệu suấtcao (High-performance computing)

Trang 26

2.1.3 Các loại dữ liệu sử dụng

Cơ sở dữ liệu quan hệ (Relational database): Một cơ sở dữ liệu quan hệ là mộtloại cơ sở dữ liệu Nó sử dụng một cấu trúc cho phép chúng ta xác định và truy cập dữ

liệu liên quan đến một phần dữ liệu khác trong cơ sở dữ liệu.

Cơ sở dữ liệu đa chiều (Multidimention strutures, data mart, data warehouse):

Cơ sở dữ liệu đa chiều là một dạng mở rộng của mảng dữ liệu hai chiều, chẳng hạnnhư bảng tính, được tổng quát hóa để bao gồm nhiều chiều phục vụ cho quá trình phântích cũng như khai phá tri thức

Cơ sở dữ liệu giao tác (Transactional database): Một bài toán khá điển hình vềdữ liệu giao tác là bài toán khai phá luật kết hợp, mà xuất phát từ việc xem xét cácCSDL giao dịch (bán hàng) Dữ liệu giao tác chính là dữ liệu nguyên thủy xuất hiệntrong định nghĩa về luật kết hợp cùng với các độ đo của luật như độ hỗ trợ và độ tincậy

Cơ sở dữ liệu quan hệ theo hướng đối tượng (Object relational database): làdạng lai giữa hai mô hình hướng đối tượng và quan hệ

Cơ sở dữ liệu đa phương tiện (Multimedia databases): là dạng dữ liệu hình ảnh,văn bản âm thanh,

2.1.4 Hướng tiếp cận và kỹ thuật chính trong khai phá dữ liệu

Hình 2.0.5 Các vấn đề về học máy [12]

Trang 27

Học có giám sát (Supervised Learning): Học có giám sát là một mô hình họcmáy để thu thập thông tin mối quan hệ đầu vào - đầu ra của một hệ thống dựa trên mộttập hợp các mẫu đào tạo đầu vào, đầu ra được ghép nối nhất định

Vì đầu ra được coi là nhãn của dữ liệu đầu vào hoặc sự giám sát, mẫu đào tạođầu vào, đầu ra còn được gọi là dữ liệu đào tạo có nhãn, hoặc dữ liệu được giám sát

Trong các bài toán học có giám sát, các mô hình dự đoán được tạo dựa trên tậphợp các bản ghi đầu vào với dữ liệu đầu ra (số hoặc nhãn) Dựa trên kết quả / phản hồihoặc biến phụ thuộc, các vấn đề học tập có giám sát có thể được phân ra làm hai loạikhác nhau:

Hồi quy : Khi biến kết quả hoặc biến phản hồi là một biến liên tục (số hoặc số),nó có thể được gọi là các bài toán hồi quy

Phân lớp : Khi biến kết quả hoặc biến phản hồi là một biến rời rạc (nhãn), nó cóthể được gọi là các bài toán phân loại

Học không giám sát (Unsupervised learning): Quá trình học tập không đượcgiám sát vì các ví dụ đầu vào không có nhãn lớp Thông thường, có thể sử dụng phâncụm để khám phá các lớp trong dữ liệu Tuy nhiên, vì dữ liệu huấn luyện không đượcgắn nhãn nên mô hình đã học không thể cho chúng ta biết ý nghĩa ngữ nghĩa của cáccụm được tìm thấy

Học bán giám sát (Semi- Supervised learning): Các vấn đề trong đó bạn có mộtlượng lớn dữ liệu đầu vào (X) và chỉ một số dữ liệu được gắn nhãn (Y) được gọi là cácvấn đề học bán giám sát Những vấn đề này nằm giữa cả việc học có giám sát vàkhông giám sát

Trang 28

2.1.5 Một số ứng dụng khai phá dữ liệu

2.1.5.1 Ứng dụng trong marketing

Hình 2.0.6 Mô hình tích hợp DM và KM trong Marketing [13]

Mô hình trên được đề xuất bao gồm hai thành phần được kết nối với nhau: khaithác (DM) và quản lý tri thức (KM)

Thành phần DM bao gồm 2 giai đoạn, giai đoạn 1 “What” nhằm mục đíchkhám phá các mặt hàng được mua cùng nhau Kỹ thuật DM sử dụng cho giai đoạn nàylà luật kết hợp (Association rules) Giai đoạn 2 “Who” nhằm trả lời cho câu hỏi aiđang mua các tập phổ biến được xác định trong giai đoạn 1, tức là xác định thông tinkhách hàng có khả năng mua những món hàng quan trọng Để làm việc này có thể sửdụng kỹ thuật phân cụm (Clustering) hoặc mạng neuron (Neural networks) như trong

sơ đồ

Thành phần thứ hai KM mục đích là nhằm trích xuất kiến thức từ các kết quảthu được trong thành phần DM trước đó Nó còn được gọi là giai đoạn “Know” baogồm hai nhóm hoạt động chính: (1) Chia sẻ các mẫu thú vị và hồ sơ khách hàng, (2)Thu thập các ý tưởng mới, xếp hạng và chọn các ý tưởng tiềm năng, từ đó chuyểnthành các chiến lược tiếp thị mới

Giai đoạn cuối cùng là giai đoạn 4 “How” , nó tập trung tạo ra nhiều chiến lượchỗ trợ cho không những các nhà quản trị marketing và bán hàng mà còn nhân viên

Trang 29

khác Trong giai đoạn này, điều quan trọng là sử dụng các ý tưởng được trích xuấttrong thành phần KM và hình thành các chiến lược mới, chủ yếu là tập trung vào cácloại chiến lược sáng tạo tiếp thị sau được xác định bởi European Commision (2012):(1) Phương tiện hoặc kỹ thuật mới để quảng bá sản phẩm, (2) Các phương pháp mớiđể bố trí sản phẩm hoặc các kênh bán hàng và (3) Các phương pháp mới về định giáhàng hóa hoặc dịch vụ Tác động của giai đoạn này sẽ làm tăng doanh số, chỉ số bánchéo và khả năng cạnh tranh của công ty Chúng cũng nên đóng vai trò là phản hồi chocác thành phần mô hình khác để cải thiện hiệu quả của chúng

2.1.5.2 Ứng dụng trong quản trị quan hệ khách hàng

Khai phá dữ liệu là một phương pháp hoặc công cụ có thể hỗ trợ các doanhnghiệp trong các nhiệm vụ hướng đến khách hàng Mô hình tích hợp bao gồm ba loạiquy trình khai phá dữ liệu, ba giai đoạn của quy trình CRM, một số kỹ thuật cụ thể củakhai phá dữ liệu có thể được sử dụng trong các giai đoạn khác nhau của quy trìnhCRM và khả năng áp dụng các kỹ thuật đó Các ứng dụng của kỹ thuật Khai phá dữliệu trở thành yếu tố kích hoạt quan trọng để đưa ra các quyết định chiến lược liênquan đến quy trình CRM Việc thực hiện các hành động này được thực hiện trong giaiđoạn hành động của vòng đời CRM

Hình 2.0.7 Khai phá dữ liệu trong CRM [14]

Trong sơ đồ có các kỹ thuật khai phá dữ liệu khác nhau ứng dụng vào CRM:

Trang 30

Phân khúc

Quá trình khai phá dữ liệu hỗ trợ trong việc xác định khách hàng mới, phân biệtkhách hàng và tìm cách tốt nhất để tương tác với khách hàng Các kỹ thuật khai phá dữliệu như phân đoạn và phân cụm giúp đạt được những mục tiêu này Các tổ chức cóthể có được thông tin chi tiết về hồ sơ khách hàng thông qua phân đoạn và lần lượtphục vụ tốt hơn bằng cách cung cấp cho họ loại sản phẩm và dịch vụ phù hợp Thôngqua phân khúc, khách hàng có thể được chia thành nhiều nhóm khác nhau dựa trên sởthích của họ và đây là cơ sở cho các chiến lược tiếp thị mục tiêu

Tiếp thị mục tiêu có thể làm tăng xác suất khách hàng thực sự phản hồi chiếndịch tiếp thị, vì hoạt động tiếp thị dựa trên kiến thức về sở thích của họ Hồ sơ kháchhàng được tạo và các chiến dịch tiếp thị được cá nhân hóa cho từng phân khúc kháchhàng, do đó tăng xác suất họ sẽ hưởng ứng chiến dịch

Hoặc ví dụ, quy trình khai phá dữ liệu tại Fingerhut Corporation tiết lộ rằng đốivới khách hàng từ một mã zip, tỷ lệ chi tiêu cho vàng trên mỗi đơn đặt hàng cao hơnbất kỳ sản phẩm nào khác được đặt hàng từ một danh mục cụ thể Điều này gây ra sựquan tâm đến việc phân tích thêm thông tin nhân khẩu học được liên kết với mã Zip.Phân tích này tiết lộ rằng phần lớn dân số cư trú trong phạm vi của mã zip đó là ngườiTây Ban Nha Theo sau cái này thông tin Fingerhut đã sửa đổi danh mục của họ bằngcách đưa thêm nhiều đồ trang sức bằng vàng vào danh mục gửi cho khách hàng gốcTây Ban Nha [15]

AXA Financial sử dụng khai phá dữ liệu để có quan điểm tốt hơn về hành vicủa khách hàng trong việc đưa ra các chiến lược CRM Phân tích tại AXA Financial đãbao gồm đo lường khả năng sinh lời của khách hàng bằng cách sử dụng các hiệp hộivà tính thu nhập phù hợp với các nguyên tắc kế toán được chấp nhận chung Sử dụngcác kỹ thuật khai phá dữ liệu cho phép tổ chức phân khúc khách hàng của họ thành cáccụm sinh lời Điều này sẽ giúp AXA phát triển các mô hình khác nhau như các cấp độdịch vụ hiệu quả về chi phí, các chiến dịch tiếp thị mục tiêu, tính điểm, giữ chân kháchhàng và cũng đề ra các chiến lược bán kèm và bán thêm

 Luật kết hợp

Trang 31

Một kỹ thuật khai phá dữ liệu khác có thể được sử dụng để xác định khách hàngmới là liên kết Kiến thức về lợi ích liên quan của khách hàng có thể cung cấp cơ sở tốtđể bán chéo sản phẩm cho các phân khúc khách hàng Dữ liệu về một khách hàngthường xuyên tiết lộ sở thích đối với một số loại hàng hóa nhất định hoặc dịch vụ,cung cấp thông tin về những sản phẩm liên quan mà khách hàng có nhiều khả năngmua hơn hoặc những loại những chiến dịch mà họ có nhiều khả năng sẽ phản hồi hơn.Trường hợp kinh điển của phân tích giỏ hàng là một ví dụ để xác định các mối liên hệ.Bán chéo là một ứng dụng chính lấy tín hiệu từ luật kết hợp.

Trong bối cảnh khai phá dữ liệu web, khái niệm bán kèm đã trở nên quan trọnghơn dưới hình thức các chiến dịch quảng cáo được cá nhân hóa dựa trên dữ liệu có sẵn.Ví dụ: một cửa hàng trực tuyến, phân tích việc mua sắm giỏ khách hàng của họ có thểcá nhân hóa tốt hơn các chiến dịch quảng cáo của họ và tăng doanh số bán hàng Mặtkhác, một cửa hàng trực tuyến có thể đoán trước những gì khách hàng của mình cần vàđề xuất các sản phẩm khác

Mặc dù luật kết hợp cho phép tổ chức bán kèm, nó cũng giúp quyết định bố tríkho hàng, đó là ứng dụng rất phổ biến của khai thác dữ liệu với chuỗi cửa hàng tạp hóavà bán lẻ Ngoài hỗ trợ trong cách bố trí cửa hàng, luật kết hợp cũng giúp xác định cácmối quan hệ có giá trị giữa các dữ liệu như ví dụ về một cửa hàng tạp hóa ở Anh Việcphân tích cơ sở dữ liệu khách hàng của họ cho thấy rằng một sản phẩm cụ thể đangđược tiêu thụ bởi 25% khách hàng chi tiêu cao nhất Điều này dẫn đến quyết định giữlại sản phẩm trên kệ thay vì ngừng sản xuất [16]

 Mô hình dự đoán

Khả năng mô hình hóa dự đoán của khai phá dữ liệu giúp thu hút và giữ chânkhách hàng có lợi nhuận Sử dụng các kỹ thuật như mô hình phản hồi, hành vi củakhách hàng có thể được dự đoán với mức độ chắc chắn tương đối Dựa trên dữ liệukhách hàng có sẵn, các mô hình phản hồi có thể được xây dựng để dự đoán phản ứngcủa khách hàng trong tương lai hoặc phản ứng của khách hàng hiện tại đối với bất kỳsản phẩm hoặc dịch vụ mới nào được cung cấp

Trang 32

Kỹ thuật này có nhiều ứng dụng trong ngành tín dụng, bảo hiểm và danh mục.Ngay cả trong trường hợp dữ liệu trước đó không có sẵn, nó có thể tạo hồ sơ kháchhàng phản hồi bằng cách nghiên cứu dân số

Dựa trên dự đoán từ mô hình phản hồi, một người có một số đặc điểm kết hợpnhất định có thể được xếp vào loại đáng giá khách hàng hay không Nếu hồ sơ củakhách hàng cho thấy họ là một khách hàng có lợi nhuận, thì có thể đưa ra các chiếnlược để thu hút hoặc để giữ chân họ Quá trình xác định khách hàng sinh lợi này sẽgiúp tổ chức số tiền chi tiêu khổng lồ và giảm thiểu rủi ro có khách hàng xấu

Mô hình phản hồi cũng hỗ trợ tiếp thị mục tiêu hiệu quả hơn và tiết kiệm tàichính của tổ chức Các kỹ thuật khai phá dữ liệu cho phép nhân viên tiếp thị đưa raquyết định sáng suốt về các chiến dịch tiếp thị mà không cần phải đợi lời khuyên củachuyên gia thống kê Ví dụ, Liverpool Victoria là một nhà cung cấp bảo hiểm lớn ởAnh và hợp tác với Quadstone để cung cấp các giải pháp CRM Quadstone đã pháttriển các mô hình CRM dựa trên dữ liệu khách hàng của họ và giúp các nhà tiếp thị cóthể tiếp cận chúng Giờ đây, các Nhà tiếp thị của Liverpool Victoria có một công cụcho phép họ kiểm soát quá trình lập hồ sơ, phân đoạn và mô hình hóa khách hàng(Davis 2001) Kết quả của nỗ lực này, Liverpool Victoria hiện có thể cải thiện tỷ lệ giữchân và giảm tỷ lệ tiêu hao Các nhà tiếp thị cơ sở dữ liệu hiện đang được trao quyềnđể tự mình đưa ra hầu hết các quyết định kinh doanh mà không cần sự trợ giúp của cácnhà thống kê chuyên nghiệp Họ có thể xác minh bản năng kinh doanh của họ về hành

vi của khách hàng khoa học hơn với công cụ có sẵn từ Quadstone

C&A là một nhà bán lẻ thời trang châu Âu, theo truyền thống thuê ngoài cáchoạt động tiếp thị cơ sở dữ liệu của mình Khi một quyết định được đưa ra để thựchiện các chiến lược CRM trong tổ chức, cần có một công cụ tích hợp dữ liệu kháchhàng có sẵn vào chiến lược CRM Một lần nữa, với sự trợ giúp của bộ công cụ CRMcủa Quadstone,

các nhà phân tích tiếp thị hiện được trao quyền để tiến hành phân tích nội bộ và C&Ađã cho thấy sự cải thiện trong tỷ lệ phản hồi gửi thư khoảng 6% C&A cũng đạt đượcnhờ có thể nhắm mục tiêu tốt hơn khách hàng phản hồi cao bằng cách đưa ra các đềnghị tiếp thị phù hợp với nhu cầu của họ Do đó, C&A đã sử dụng dự đoán kỹ thuật

mô hình hóa để cải thiện tỷ lệ phản hồi gửi thư trực tiếp của họ

Trang 33

 Phát hiện độ lệch

Phát hiện độ lệch có lẽ là một trong những ứng dụng quan trọng nhất của việckhai phá dữ liệu đối với CRM Phân tích pháp y giúp người ta xác định những sai lệch

so với tiêu chuẩn Ví dụ: nó đóng một vai trò có giá trị trong việc xác định hành viphạm pháp thực sự và sau đó đưa ra các chiến lược để phân loại hành vi của kháchhàng là hành vi phạm pháp hoặc là ngoại lệ đối với kiểu hành vi

Đối với CRM, phân tích pháp y có thể tiết lộ một mô hình bất thường về mộtkhách hàng cụ thể và sau khi tiến hành phân tích khả năng sinh lời, tổ chức có thể xácđịnh xem liệu có giữ chân được khách hàng đó hay không đáng giá Nếu khách hàngtrở nên đáng giá, các giải pháp tùy chỉnh có thể được cung cấp cho khách hàng đó vàđộng viên ở lại với tổ chức Mặt khác, nếu khách hàng không có lợi nhuận, thì tổ chứccó thể đưa ra quyết định sáng suốt về việc không sử dụng bất kỳ chiến lược duy trì nàođể giữ chân khách hàng không có lợi Phát hiện gian lận đóng một vai trò quan trọngtrong ngành chăm sóc sức khỏe và tín dụng.Các sai lệch được phát hiện thông qua khaiphá dữ liệu có thể được theo dõi dẫn đến tiết kiệm rất lớn cho các công ty

 Phát hiện Churn

Trong ngành công nghiệp viễn thông, rối loạn là một vấn đề phổ biến Churn đềcập đến quá trình khách hàng chuyển sang sử dụng dịch vụ của đối thủ cạnh tranh.Thông thường trong các loại của các ngành, việc mua lại khách hàng đắt hơn việc duytrì khách hàng Nếu một tổ chức đang mất nhiều khách hàng vào tay đối thủ, tổ chứccó thể phân tích hồ sơ của những khách hàng đã mất và dự đoán khách hàng hiện tạicó khả năng làm theo Điều này sẽ cho phép tổ chức đưa ra các chiến lược duy trìkhách hàng và các chương trình trung thành để giữ chân những khách hàng có lợinhuận Ngoài ra, một khi xác định được tình trạng hỗn loạn, cần phải thực hiện khảnăng sinh lời phân tích để xác định xem khách hàng có cần được giữ lại hay không.Điều này sẽ giúp tổ chức không phải đầu tư vào việc giữ chân một khách hàng khôngquá sinh lời

Các công cụ khai phá dữ liệu giúp những người ra quyết định đưa ra quyết địnhsáng suốt về chiến lược CRM của họ Công cụ khai phá thông minh của IBM là một vídụ về một loạt các công cụ có sẵn để hiểu hành vi của khách hàng và xây dựng chiến

Trang 34

lược CRM Tương tự, công cụ khai thác doanh nghiệp của SAS cho phép phân tích dữliệu rộng lớn để phát hiện các mẫu ẩn Các nhà cung cấp giải pháp khác bao gồmSeibel, MarketSwitch và MarketMiner, cung cấp các công cụ tiếp thị mục tiêu và môhình duy trì cho các ứng dụng CRM.

2.2 Cơ sở hạ tầng kinh doanh thông minh (Business Intelligence)

2.2.1 Khái niệm

Kinh doanh thông minh là thuật ngữ đề cập đến:

 Một tập hợp các quy trình kinh doanh

 Công nghệ được sử dụng trong các quy trình này

 Thông tin thu được từ các quá trình này

Những người tham gia vào các quy trình BI có thể sử dụng phần mềm ứng dụngvà các công nghệ khác để thu thập, hàng đầu lưu trữ, phân tích và cung cấp quyền truycập vào dữ liệu (còn được gọi là chu trình BI)

Một số nhà quan sát coi BI là quá trình nâng cao dữ liệu thành thông tin và sauđó thành kiến thức Phần mềm nhằm mục đích giúp mọi người đưa ra quyết định kinhdoanh tốt hơn bằng cách đưa ra thông tin chính xác, cập nhật và phù hợp có sẵn cho họkhi họ cần

Với sự ra đời của mạng nội bộ và các cổng thông tin công ty, EIS truyền thốngđã trở thành một phần của hệ thống thông tin doanh nghiệp Hệ thống thông tin doanhnghiệp (EIS) thường đồng nghĩa với thuật ngữ BI và các công cụ như vậy hiện đượctích hợp với thương mại điện tử và các hệ thống dựa trên Web khác [17]

Turban, et al (2002, 46) định nghĩa BI là một phân tích quyết định dựa trênmáy tính thường được thực hiện trực tuyến của các nhà quản lý và nhân viên Nó baogồm dự báo, phân tích các lựa chọn thay thế và đánh giá rủi ro và hiệu suất

Khi được định nghĩa rộng rãi để bao gồm thông tin về tất cả các yếu tố môitrường, thuật ngữ thích hợp là BI Bản chất của việc xác định BI là rất phức tạp Tuynhiên, có thể kết luận rằng BI là một loại quyết định hệ thống hỗ trợ (DSS)

Trang 35

Hệ thống hỗ trợ ra quyết định là sự sắp xếp của các công cụ máy tính được sửdụng để hỗ trợ việc ra quyết định của người quản lý trong một doanh nghiệp Một DSSthường yêu cầu dữ liệu rộng rãi để cung cấp thông tin.

2.2.2 Mục đích và chức năng của BI

Cơ sở hạ tầng BI cơ bản bao gồm cả quy trình và thực hành kinh doanh và côngnghệ các thành phần Các thành phần công nghệ được sử dụng để hỗ trợ các quy trìnhkinh doanh bao gồm các công cụ bao gồm xử lý phân tích trực tuyến (OLAP), kho dữliệu (DW), khai phá dữ liệu (DM), quản lý hiệu quả kinh doanh, kho tài liệu, khai thácvăn bản, hệ thống điều hành thông tin (EIS) và hệ thống hỗ trợ quyết định (DSS)

Theo McLeod và Schell (2001: 45–47), BI liên quan đến năm nhiệm vụ cơ bản,đó là thu thập dữ liệu, để đánh giá dữ liệu, phân tích dữ liệu, lưu trữ thông tin tình báovà phổ biến thông tin tình báo

Để thu thập dữ liệu: Tổ chức có thể thu được dữ liệu chính hoặc dữ liệu thứ cấp:Dữ liệu sơ cấp được thu thập nội bộ, dữ liệu thứ cấp được thu thập bởi ngườikhác và sau đó được tạo có sẵn cho công ty

Để đánh giá dữ liệu: Tất cả dữ liệu, thứ cấp cũng như chính, phải được đánh giátrước khi sử dụng để đảm bảo độ chính xác của chúng

Để phân tích dữ liệu: Mục đích của bước phân tích là chuyển đổi dữ liệu thànhthông minh

Để lưu trữ thông tin: Thông tin phải được lưu trữ (tốt nhất là bằng kỹ thuật số)theo cách cho phép dễ dàng thu hồi

Một cách tiếp cận tinh vi để phổ biến là chuẩn bị một hồ sơ tình báo cho mỗingười dùng, mô tả ở dạng mã hóa các chủ đề thông minh mà người dùng muốntheo dõi

Có sự khác biệt lớn giữa kho dữ liệu, trung tâm dữ liệu và BI Kho dữ liệu hoặckho dữ liệu cục bộ là kho lưu trữ dữ liệu vật lý cung cấp các công cụ và công nghệ đểquản lý dữ liệu BI bao gồm ứng dụng trên các kho dữ liệu này (Hasheem 2001)

Trang 36

Hình 2.0.8 Cơ sở hạ tầng trong BI (Gartner Group 2001)

Hình 2.0.8 minh họa cơ sở hạ tầng BI, nó sử dụng cả từ trên xuống và từ dướilên các phương pháp tiếp cận BI toàn diện bao gồm:

 Các hoạt động tích hợp thông tin: Tìm nguồn và trích xuất, chuyển đổi vàtải dữ liệu (ETL), kho lưu trữ dữ liệu vận hành (ODS), kho dữ liệu và khodữ liệu cục bộ

 Hoạt động phân tích dữ liệu: Hỗ trợ truy vấn đặc biệt, xử lý giao dịch trựctuyến (OLTP), trực tuyến xử lý phân tích (OLAP), phân tích thống kê, khaiphá dữ liệu, trực quan hóa dữ liệu, khai phá văn bản và khai phá Web

 Các hoạt động triển khai thông minh: Tạo báo cáo soạn trước và tùy chỉnh,cổng Web BI và các phương pháp triển khai khác

2.3 Marketing hướng vào dữ liệu

Thành công của chiến lược tiếp thị được đo lường bằng phản ứng của ngườitiêu dùng và các tổ chức có thể xác định thị trường và xác định các mối đe dọa và cơhội kinh doanh bằng cách sử dụng dữ liệu người tiêu dùng [18]

Trang 37

Thông tin tự nó có ít giá trị, nhưng giá trị đến từ những hiểu biết của kháchhàng được rút ra từ thông tin đó Tạo ra giá trị cho khách hàng và xây dựng mối quanhệ lâu dài đòi hỏi phải nghiên cứu sâu hơn về những mong muốn và nhu cầu của kháchhàng Sau đó, những hiểu biết này có thể được chuyển thành các quyết định tiếp thị tốthơn.

Tuy nhiên, có thể rất khó để có được thông tin chi tiết về khách hàng và thịtrường, với tư cách là khách hàng nhu cầu và động cơ mua có thể khó phân tích Tạomối quan hệ khách hàng mất rất nhiều công việc từ xác định khách hàng và nhu cầucủa họ, thiết kế các dịch vụ và định giá, để quảng bá và phát triển sản phẩm Do đó, đểcó được thông tin chi tiết về khách hàng hiệu quả, các tổ chức cần quản lý thông tintiếp thị từ nhiều nguồn

Theo định nghĩa, tiếp thị theo hướng dữ liệu liên quan đến việc thu thập và kếthợp dữ liệu từ các nguồn trực tuyến và ngoại tuyến, sau đó phân tích dữ liệu thu đượcvà thu thập thông tin chi tiết về khách hàng và hành vi của họ Do đó, nó cho phépgiao tiếp được cá nhân hóa cao với các đối tượng mục tiêu Xu hướng phân tích dữliệu đang chuyển sang dự đoán tương lai, tức là sử dụng dữ liệu để lập chiến lược vàdự đoán nhu cầu của khách hàng, nơi công nghệ đóng một vai trò quan trọng

Việc xây dựng các mô hình dự đoán giúp các công ty thiết lập các quy trình lấykhách hàng làm trung tâm và dữ liệu có thể được sử dụng để xác định nhu cầu củakhách hàng và các yếu tố ảnh hưởng đến quá trình ra quyết định của người tiêu dùng.Tích hợp phân tích dữ liệu bên trong và bên ngoài có thể giúp các công ty phát triểncác sản phẩm và các dịch vụ Lợi ích thu được có thể là nội dung phong phú hơn chokhách hàng, thu hút khách hàng mới và bảo toàn khách hàng hiện tại Cuối cùng, điềunày có thể dẫn đến việc tránh hoặc giảm chi phí và tăng năng suất và hiệu quả [19]

2.3.1 Nguồn dữ liệu

Kumar et al (2013) phân loại các nguồn dữ liệu tiếp thị thành ba nhóm: dữ liệutruyền thống, sinh lý thần kinh, dữ liệu kỹ thuật số và dữ liệu lớn, thể hiện trong Hình2.0.9:

Trang 38

Hình 2.0.9 Nguồn dữ liệu marketing [20]

2.3.1.1 Dữ liệu sinh lý thần kinh

Dữ liệu sinh lý thần kinh ngày càng trở nên phổ biến trong tiếp thị mặc dù nó làphương pháp đắt tiền để thu thập dữ liệu và có những thách thức về đạo đức Các tổchức có thể sử dụng dữ liệu sinh lý thần kinh để đọc phản ứng cảm xúc của kháchhàng, từ đó tạo thông tin chi tiết về cảm xúc chính xác hơn và có thể mở rộng

Ví dụ, theo dõi mắt có thể được sử dụng trong tiếp thị để kiểm tra sự chú ý củathị giác trong quảng cáo ngoài trời hoặc trên báo in Con mắt theo dõi có thể tạo ra kếtquả chính xác hơn về cách các thương hiệu đang thu hút sự chú ý trong kệ siêu thị sovới báo cáo của chính người tiêu dùng Ngoài ra, các kỹ thuật đo sinh lý khác nhau cóthể được sử dụng kết hợp để đo mức dương tính hoặc phản ứng tiêu cực với quảng cáohoặc tương tác với phương tiện truyền thông

2.3.1.2 Dữ liệu truyền thống

Các nguồn dữ liệu truyền thống bao gồm khảo sát, quan sát, nhóm tập trung vàcác cuộc phỏng vấn Nhiều nguồn dữ liệu truyền thống có thể chồng chéo với dữ liệukỹ thuật số như chúng cũng có thể được tiến hành trực tuyến Ví dụ, quan sát có thểđược thực hiện dưới dạng vật lý, trong một cửa hàng hoặc trực tuyến

Trang 39

2.3.1.3 Dữ liệu kỹ thuật số

Các tổ chức có quyền truy cập vào một lượng lớn dữ liệu kỹ thuật số, cả nội bộvà bên ngoài Nhiều tổ chức có cơ sở dữ liệu nội bộ phong phú, thu thập dữ liệu ngườitiêu dùng và thị trường

Khai thác tốt thông tin từ nhiều nguồn khác nhau có thể tạo ra hiệu quả nhữnghiểu biết sâu sắc về khách hàng và tạo lợi thế cạnh tranh Nội bộ cơ sở dữ liệu có thểthu thập thông tin, ví dụ về các giao dịch của khách hàng và hành vi mua, sự hài lòngcủa khách hàng hoặc các vấn đề về dịch vụ, hồ sơ bán hàng, hàng tồn kho và các hoạtđộng của đối thủ cạnh tranh

Thách thức với các loại dữ liệu nội bộ này là dữ liệu được thu thập cho các mụcđích và yêu cầu kỹ năng để tích hợp tất cả dữ liệu vào thông tin chi tiết về tiếp thị.Ngoài ra, số lượng dữ liệu rất lớn và có thể trở nên lỗi thời khá nhanh

Các tổ chức cũng có thể cải thiện việc ra quyết định chiến lược bằng cách sửdụng trí tuệ tiếp thị Thu thập và phân tích thông tin công khai về người tiêu dùng, đốithủ cạnh tranh và thị trường cho phép các tổ chức hiểu biết thêm về môi trường tiêudùng và đánh giá các đối thủ cạnh tranh và các cơ hội kinh doanh cũng như các mối đedọa tiềm ẩn

Có nhiều cách tổ chức có thể sử dụng dữ liệu kỹ thuật số, ví dụ: tìm kiếm và dữliệu dòng nhấp, cũng như dữ liệu từ các blog và mạng xã hội Các kênh truyền thôngxã hội đã trở thành rất phổ biến trong tiếp thị, nhưng các nhà tiếp thị cần hiểu rằngphương tiện truyền thông xã hội hiệu quả các chiến dịch tiếp thị cần được gắn vớichiến lược và hiệu suất của tổ chức các biện pháp

Ngoài ra, các tổ chức cần hiểu, nền tảng truyền thông xã hội nào được sử dụngbởi khách hàng hiện tại hoặc tiềm năng của họ Một dạng kỹ thuật số dữ liệu là dữ liệulớn, có ý nghĩa lớn trong kinh doanh

2.3.1.4 Big data

Ngoài các nguồn dữ liệu kỹ thuật số được đề cập ở trên, một số nguồn dữ liệumới nhất từ nguồn dữ liệu lớn là dữ liệu vị trí từ thiết bị di động và dữ liệu máy móc từIOT các ứng dụng [21]

Trang 40

Đặc điểm của dữ liệu lớn là khối lượng lớn dữ liệu và tốc độ nhanh chóng vànhiều loại dữ liệu được thu thập Do đó, dữ liệu lớn thường được đặc trưng bởi khốilượng, tốc độ và sự đa dạng Khối lượng có thể được coi là đặc điểm chính của dữ liệulớn Một lượng lớn dữ liệu được tạo ra mỗi ngày thông qua các giao dịch trực tuyến,email, video, hình ảnh, v.v và lượng dữ liệu được cho là sẽ tăng gấp đôi sau mỗi hainăm Internet of Things (IOT) là một trong những lý do chính cho sự gia tăng đáng kểvề khối lượng dữ liệu, do các thiết bị khác nhau, từ ô tô đến đồ chơi và đồ gia dụngđều được vi tính hóa Vận tốc đề cập đến việc sản xuất dữ liệu nhanh chóng

Thông qua dữ liệu lớn, các tổ chức có thể có được thông tin chi tiết về hành vicủa khách hàng nhanh chóng và có thể phản ứng với bất kỳ thay đổi nào ngay lập tức.Để tối đa hóa giá trị từ dữ liệu lớn, vận tốc cũng được yêu cầu cho tất cả các quy trình.Các nguồn của dữ liệu lớn là đa dạng và điều đó làm cho nó rất lớn về khối lượng Dữliệu lớn thay đổi từ dữ liệu có cấu trúc (ví dụ: tệp và cơ sở dữ liệu) đến dữ liệu bán cấutrúc hoặc phi cấu trúc (ví dụ: dữ liệu mạng xã hội) Dữ liệu lớn bao gồm nhiều dữ liệuhành vi phi cấu trúc hơn dữ liệu truyền thống [22]

2.3.2 Sử dụng dữ liệu

Tầm quan trọng của dữ liệu phụ thuộc vào khả năng ảnh hưởng đến các quyếtđịnh tiếp thị của nó Từ dữ liệu truyền thống và dữ liệu kỹ thuật số cùng với dữ liệulớn, các tổ chức có thể nhận được một lượng lớn thông tin về xu hướng và chuyển đổithị trường cũng như phân khúc khách hàng Điều này giúp tổ chức đưa ra các quyếtđịnh chiến lược

Do đó, khai phá dữ liệu là cần thiết để xử lý và phân tích số lượng lớn dữ liệu.Để có được thông tin chi tiết hiệu quả nhất, các tổ chức cần kết hợp cả nghiên cứu thịtrường truyền thống và khai phá dữ liệu Nghiên cứu thị trường cung cấp hiểu biết sâusắc ở cấp độ vĩ mô, nhưng khai phá dữ liệu giúp xác định thông tin ẩn mà không thểlấy được thông qua các phương pháp truyền thống [23]

Một khía cạnh quan trọng của việc sử dụng dữ liệu là để thành công, các tổchức cần tạo ra toàn bộ chân dung khách hàng của họ thay vì chỉ một loạt ảnh chụpnhanh Điều này có nghĩa rằng các tổ chức cần thu thập và kết hợp tất cả dữ liệu từ

Tiêu đề	Phân Tích Hành Vi Khách Hàng Dựa Vào Kỹ Thuật Khai Phá Dữ Liệu Nhằm Hỗ Trợ Hoạt Động Bán Hàng (Thực Nghiệm Dữ Liệu Tại Một Siêu Thị)
Tác giả	Nguyễn Thị Phương
Người hướng dẫn	TS. Lê Diên Tuấn, ThS. Trần Văn Lộc
Trường học	Đại học Đà Nẵng
Chuyên ngành	Thương mại điện tử
Thể loại	khóa luận tốt nghiệp
Năm xuất bản	2020
Thành phố	Đà Nẵng

Định dạng
Số trang	117
Dung lượng	4,22 MB