1. Trang chủ
  2. » Luận Văn - Báo Cáo

PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC NGHIỆM DỮ LIỆU TẠI MỘT SIÊU THỊ)

117 115 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Hành Vi Khách Hàng Dựa Vào Kỹ Thuật Khai Phá Dữ Liệu Nhằm Hỗ Trợ Hoạt Động Bán Hàng (Thực Nghiệm Dữ Liệu Tại Một Siêu Thị)
Tác giả Nguyễn Thị Phương
Người hướng dẫn TS. Lê Diên Tuấn, ThS. Trần Văn Lộc
Trường học Đại học Đà Nẵng
Chuyên ngành Thương mại điện tử
Thể loại khóa luận tốt nghiệp
Năm xuất bản 2020
Thành phố Đà Nẵng
Định dạng
Số trang 117
Dung lượng 4,22 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong khóa luận đã vận dụng các phương pháp khai phá dữ liệu như phân cụm (clustering methods) và luật kết hợp (association rules) để nghiên cứu bài toán phân khúc khách hàng. Một số thuật toán được dùng là K-means sử dụng Elbow để chọn cụm k và Apriori vốn là các thuật toán nổi tiếng đã được ứng dụng trong nhiều lĩnh vực. Ngoài ra, để kết quả trở nên có ý nghĩa em kết hợp thêm phương pháp thống kê Kruskal Wallis để kiểm định lại kết quả phân cụm. Các kết quả được trực quan hóa dữ liệu bằng Power BI Mục đích của bài nghiên cứu này là tìm ra các phân khúc thị trường thực sự có ý nghĩa hỗ trợ hoạt động bán hàng cho siêu thị.

Trang 1

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC KINH TẾ



KHÓA LUẬN TỐT NGHIỆP

Chuyên ngành: Thương mại điện tử

Đề tài:

PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC NGHIỆM DỮ LIỆU TẠI MỘT SIÊU THỊ)

Nguyễn Thị Phượng 171121522143 43K22

Trang 2

TRANG BÌA PHỤ

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC KINH TẾ



KHÓA LUẬN TỐT NGHIỆP

Chuyên ngành: Thương mại điện tử

Đề tài:

PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC NGHIỆM DỮ LIỆU TẠI MỘT SIÊU THỊ)

Nguyễn Thị Phượng 171121522143 43K22

43

TS Lê Diên Tuấn ThS Trần Văn Lộc

Trang 3

TÓM TẮT

Trên thế giới, các tập đoàn lớn từ Ford đến Apple đã chi hàng tỷ đô la để phântích hành vi khách hàng Họ muốn biết người tiêu dùng đưa ra quyết định mua như thếnào và điều gì ảnh hưởng đến những quyết định đó để phát triển kinh doanh cũng nhưphát triển chiến lược Marketing Trong bối cảnh thời đại công nghệ 4.0 các doanhnghiệp thực hiện triển khai doanh nghiệp số do đó việc phân tích hành vi khách hàngdựa vào dữ liệu là một xu thế Chính vì vậy tôi đã chọn để tài “Phân tích hành vi kháchhàng dựa vào kỹ thuật khai phá dữ liệu nhằm nâng cao hiệu quả bán hàng vàmarketing online”

Mục đích nghiên cứu của đề tài là hệ thống hóa những vấn đề lý luận liên quanđến hành vi khách hàng dựa vào kỹ thuật khai phá dữ liệu như trực quan hóa dữ liệu,phân cụm và luật kết hợp Sau đó phân tích tiến hành đề xuất những giải pháp nhằmnâng cao hiệu quả bán hàng và marketing online cho siêu thị

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đề tài luận văn “Phân tích hành vi khách hàng dựa vào kỹthuật khai phá dữ liệu nhằm nâng cao hiệu quả bán hàng và marketing online” là côngtrình nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của TS Lê Diên Tuấn vàThS Trần Văn Lộc

Bài báo cáo luận văn có sử dụng một số tài liệu tham khảo được trích dẫn cụ thểở mục tài liệu tham khảo Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toànchịu trách nhiệm về nội dung bài báo cáo của mình

Đà Nẵng, ngày 27 tháng 12 năm 2020

Sinh viên thực hiệnNguyễn Thị Phượng

Trang 5

LỜI CẢM ƠN

Trong lời đầu tiên của báo cáo luận văn này, tôi muốn gửi lời cảm ơn và biết ơnsâu sắc nhất của mình tới hai Thầy TS Lê Diên Tuấn và ThS Trần Văn Lộc – Giảngviên khoa Thương mại điện tử, Trường ĐH Kinh Tế-ĐH Đà Nẵng, người đã trực tiếpnhận xét, hỗ trợ và chỉ bảo tôi rất nhiều trong thời gian tôi thực hiện luận văn

Xin chân thành cảm ơn Thầy cô trong khoa Thương mại điện tử và các phòngban đã tạo điều kiện tốt nhất cho tôi trong suốt thời gian tôi được học tập tại trường

Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè đặc biệt là những ngườibạn trong nhóm The Zoo đã động viên tôi trong quá trình học tập và làm đề tài

Do sự hạn chế về kiến thức cũng như thời gian thực hiện nên luận văn chắcchắn sẽ không tránh khỏi những thiếu sót Tôi rất mong nhận được ý kiến đóng gópcủa quý Thầy cô để có thêm kinh nghiệm hoàn thiện luận văn của mình hơn

Tôi xin chân thành cảm ơn!

Đà Nẵng, ngày 27 tháng 12 năm 2020

Sinh viên thực hiệnNguyễn Thị Phượng

Trang 6

MỤC LỤC

TÓM TẮT i

LỜI CAM ĐOAN ii

LỜI CẢM ƠN iii

MỤC LỤC iv

DANH MỤC CÁC BẢNG BIỂU vii

DANH MỤC HÌNH VẼ ĐỒ THỊ viii

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT xi

CHƯƠNG 1: 13

GIỚI THIỆU TỔNG QUAN 13

1.1 Tính cấp thiết của đề tài 13

1.2 Mục tiêu nghiên cứu 14

1.2.1 Lý thuyết 14

1.2.2 Ứng dụng 14

1.3 Đối tượng, phạm vi nghiên cứu 14

1.4 Phương pháp nghiên cứu 14

1.5 Kết cấu đề tài 15

CHƯƠNG 2: 16

CƠ SỞ LÝ THUYẾT 16

2.1 Tổng quan khai phá dữ liệu 16

2.1.1 Khái niệm 16

2.1.2 Sự liên ngành của hệ thống khai phá dữ liệu 20

2.1.3 Các loại dữ liệu sử dụng 24

2.1.4 Hướng tiếp cận và kỹ thuật chính trong khai phá dữ liệu 24

2.1.5 Một số ứng dụng khai phá dữ liệu 26

2.2 Cơ sở hạ tầng kinh doanh thông minh (Business Intelligence) 32

Trang 7

2.2.1 Khái niệm 32

2.2.2 Mục đích và chức năng của BI 32

2.3 Marketing hướng vào dữ liệu 34

2.3.1 Nguồn dữ liệu 35

2.3.2 Sử dụng dữ liệu 38

2.4 Một số kỹ thuật khai phá dữ liệu 43

2.4.1 Phân lớp 43

2.4.2 Phân cụm 43

2.4.3 Luật kết hợp 47

2.5 Giới thiệu một số công cụ phần mềm hỗ trợ 52

2.5.1 Phần mềm chạy thuật toán khai phá dữ liệu 52

2.5.2 Phần mềm trực quan hóa dữ liệu 55

CHƯƠNG 3: 57

PHÂN TÍCH THỰC TRẠNG HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU 57

3.1 Mô tả dữ liệu bán hàng tại siêu thị 57

3.2 Trực quan hóa dữ liệu bán hàng 60

3.2.1 Thông tin về khách hàng 60

3.2.2 Doanh số bán hàng của siêu thị 62

3.3 Phân cụm dữ liệu bằng Rstudio Cloud 65

3.3.1 Mô tả dữ liệu 65

3.3.2 Các kết quả phân tích chính 69

3.3.3 Kết luận 82

3.4 Kiểm định phân cụm 83

3.5 Ứng dụng luật kết hợp 86

3.4.1 Tiền xử lý dữ liệu 86

Trang 8

3.4.2 Thuật toán Apriori 88

3.4.3 Tìm các luật liên quan đến các mặt hàng nhất định 88

3.4.4 Trực quan hóa các luật kết hợp 89

3.4.5 Ý nghĩa 91

CHƯƠNG 4: 92

ĐỀ XUẤT GIẢI PHÁP NHẰM NÂNG CAO HIỆU QUẢ BÁN HÀNG VÀ MARKETING ONLINE, HƯỚNG PHÁT TRIỂN CỦA ĐỂ TÀI 92

4.1 Giải pháp nâng cao hiệu quả bán hàng 92

4.1.1 Giải pháp về chính sách sản phẩm 92

4.1.2 Giải pháp về hợp lý hóa tổ chức bán hàng 93

4.1.3 Giải pháp đối với nhóm khách hàng mục tiêu 94

4.2 Giải pháp đối với marketing online 96

4.2.1 Chiến lược email marketing dựa vào kết quả phân cụm 96

4.2.2 Chạy quảng cáo Google Ads 98

4.2.3 Xây dựng các chương trình tiếp thị liên kết 100

CHƯƠNG 5: 102

KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 102

5.1 Kết luận 102

5.2 Hướng phát triển của đề tài 103

TÀI LIỆU THAM KHẢO 108

PHỤ LỤC 111

XÁC NHẬN ĐƠN VỊ THỰC TẬP 112

NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 113

NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN 114

Trang 9

DANH MỤC CÁC BẢNG BIỂU

Bảng 3-1 Mô tả thuộc tính 57

Bảng 3-2.Dữ liệu giao dịch khách hàng 58

Bảng 3-3 Mẫu dữ liệu phân cụm 66

Bảng 3-4 Dữ liệu cụm 1 71

Bảng 3-5 Kiểm định Kruskall – Wallis cho các cụm 84

Bảng 3-6 Các chỉ số thống kê kiểm định Kruskal Wallis H 86

Trang 10

DANH MỤC HÌNH VẼ ĐỒ THỊ

Hình 2.0.1 Quá trình khai phá tri thức [4] 16

Hình 2.0.2 Quá trình khai phá dữ liệu 18

Hình 2.0.3 Tiến trình CRISP - DM [7] 19

Hình 2.0.4 Khai phá dữ liệu từ nhiều lĩnh vực [8] 20

Hình 2.0.5 Các vấn đề về học máy [12] 24

Hình 2.0.6 Mô hình tích hợp DM và KM trong Marketing [13] 26

Hình 2.0.7 Khai phá dữ liệu trong CRM [14] 27

Hình 2.0.8 Cơ sở hạ tầng trong BI (Gartner Group 2001) 34

Hình 2.0.9 Nguồn dữ liệu marketing [20] 36

Hình 2.0.10 Quá trình phân cụm [26] 44

Hình 2.0.11 Phương pháp Elbow 46

Hình 2.0.12 Ký hiệu các tập mục 49

Hình 2.0.13 Mô tả thuật toán Apriori [30] 50

Hình 2.0.14 Mô tả thuật toán FP-growth [32] 51

Hình 3.0.1 Mối quan hệ giữa số lượng khách hàng theo các thuộc tính 60

Hình 3.0.2 Mối quan hệ giữa hình thức thanh toán và các thuộc tính 61

Hình 3.0.3 Số lượng khách mua sắm và doanh thu theo tháng 62

Hình 3.0.4 Số lượng khách hàng và doanh thu ở mỗi chi nhánh 63

Hình 3.0.5 Số lượng khách mua và doanh thu theo các danh mục 64

Hình 3.0.6 Top 10 hóa đơn có doanh thu lớn nhất 65

Hình 3.0.7 Thống kê mô tả dữ liệu trước khi tiền xử lý 67

Hình 3.0.8 Thống kê mô tả dữ liệu sau khi xử lý NA 68

Hình 3.0.9 Biểu đồ boxplot để tìm Outliers 68

Hình 3.0.10 Biểu đồ boxplot sau khi xử lý Outliers 69

Trang 11

Hình 3.0.11 Số cụm tối ưu theo phương pháp Elbow 70

Hình 3.0.12 Kết quả phân cụm với k=4 71

Hình 3.0.13 Dữ liệu của cụm 1.1 73

Hình 3.0.14 Đặc điểm khách hàng cụm 1.1 73

Hình 3.0.15 Khách hàng theo giới tính, thanh toán, loại khách hàng 74

Hình 3.0.16 Dữ liệu cụm 1.2 74

Hình 3.0.17 Đặc điểm khách hàng cụm 1.2 75

Hình 3.0.18 Khách hàng theo giới tính, thanh toán, loại khách hàng 75

Hình 3.0.19 Dữ liệu cụm 1.3 76

Hình 3.0.20 Đặc điểm khách hàng cụm 1.3 76

Hình 3.0.21 Dữ liệu cụm 1.4 77

Hình 3.0.22 Đặc điểm khách hàng cụm 1.4 77

Hình 3.0.23 Khách hàng theo giới tính, thanh toán, loại khách hàng 78

Hình 3.0.24 Dữ liệu cụm 2 78

Hình 3.0.25 Đặc điểm khách hàng cụm 2 79

Hình 3.0.26 Dữ liệu cụm 3 79

Hình 3.0.27 Đặc điểm khách hàng cụm 3 80

Hình 3.0.28 Khách hàng theo giới tính, thanh toán, loại khách hàng 80

Hình 3.0.29 Dữ liệu cụm 4 81

Hình 3.0.30 Đặc điểm khách hàng cụm 4 81

Hình 3.0.31 Khách hàng theo giới tính, thanh toán, loại khách hàng 82

Hình 3.0.32 Tiền xử lý dữ liệu 87

Hình 3.0.33 Lưu thành file csv 87

Hình 3.0.34 Luật kết hợp với support = 5%, confidence = 80% 88

Hình 3.0.35 Loại bỏ các luật thừa 88

Trang 12

Hình 3.0.36 Luật kết hợp liên quan đến dây nhảy (Rope) 89

Hình 3.0.37 Luật kết hợp liên quan đến dây nhảy 89

Hình 3.0.38 Biểu đồ scatter biểu diễn luật kết hợp 90

Hình 3.0.39 Biểu diễn mối quan hệ của các luật 90

Hình 3.0.40 Biểu diễn luật kết hợp 91

Hình 4.0.1 Cách sắp xếp kệ trong siêu thị 93

Hình 4.0.2 Gửi bài đăng khuyến mại cho khách hàng bằng Zalo Pro 94

Hình 4.0.3 Giao diện Zalo Pro và thiết lập các thuộc tính 95

Hình 4.0.4 Tiến trình gửi mail cho khách hàng 96

Hình 4.0.5 Giao diện phần mềm gửi mail Blinkcontact 97

Hình 4.0.6 Chức năng tạo danh sách liên hệ trong Blinkcontact 98

Hình 4.0.7 Tiến trình chạy quảng cáo với Google Display Network 98

Hình 4.0.8 Thiết lập mục tiêu chạy quảng cáo trong GDN 99

Hình 4.0.9 Chạy quảng cáo theo khu vực vị tri địa lý 100

Hình 4.0.10 Tiến trình tiếp thị liên kết 100

Hình 5.0.1 Hướng giải pháp tiếp thị hướng dữ liệu 103

Hình 5.0.2 Giải pháp với mạng neuron để tìm ra nhóm khách hàng 104

Hình 5.0.3 Giải pháp với mạng neuron để dữ báo doanh thu 105

Trang 13

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

STT Ký hiệu Nguyên nghĩa

1 KDD Knowledge Discovery in Database (Phát hiện tri

thức trong cơ sở dữ liệu)

2 DM Data Mining (Khai phá dữ liệu)

3 CRISP-DM Cross- Industry Standard Process for Data Mining

(Quy trình tiêu chuẩn xuyên ngành cho khai phá dữ liệu)

4 IR Information Retrieval (Truy xuất thông tin)

5 KM Knowledge Management (Quản lý tri thức)

6 CRM Customer Relationship Management (Quản trị

quan hệ khách hàng)

7 BI Business Intelligence (Kinh doanh thông minh)

8 DSS Decision Support System (Hệ thống hỗ trợ ra

quyết định)

10 EIS Executive Information System (Hệ thống điều

hành thông tin)

11 ETL Extract – Transform – Load (Trích xuất - Chuyển

đổi – Tải)

12 ODS Operational Data Store (Kho lưu trữ dữ liệu vận

hành)

13 OLTP On-line Transactional Processing (Tiến trình xử lý

giao dịch trực tuyến)

14 OLAP On-line Analytical Processing (Tiến trình phân

tích trực tuyến)

Trang 14

15 EM Expectation Maximization (Tối đa hóa sự kỳ

vọng)

16 FP Frequent Pattern (Tập phổ biến)

17 SPSS Statistical Package for the Social Sciences (Gói

phần mềm thống kê cho khoa học xã hội)

18 GDN Google Display Network (Mạng lưới quảng cáo

hiển thị Google)

Trang 15

Có thể nói, dữ liệu thông tin khách hàng đóng vai trò quan trọng trong trungtâm hệ sinh thái kinh doanh của mỗi doanh nghiệp Tuy nhiên, từ dữ liệu đó làm thếnào để có được những kết quả chính xác phục vụ cho việc nâng cao hiệu quả bán hànghay hỗ trợ đưa ra những giải pháp marketing online thì vẫn còn là vấn đề nan giải củanhiều doanh nghiệp.

Tại Việt Nam, thói quen mua sắm của người tiêu dùng tại các đô thị dần thayđổi dưới sự phát triển của thương mại điện tử Với sự tiện nghi và an toàn có thể thấyngười tiêu dùng chuyển hướng sang mua sắm tại siêu thị tăng dần Các giao dịch muasắm của khách hàng được lưu lại trong cơ sở dữ của siêu thị đã tạo ra một nhu cầu rấtcấp thiết về các kỹ thuật và công cụ có thể chuyển đổi dữ liệu thành thông tin và kiến thức hữu ích nhằm hỗ trợ trong kinh doanh Những nhà quản lý siêu thị mong muốntìm ra được những thông tin có giá trị, những hành vi mua sắm của khách hàng nhằmhỗ trợ chiến lược marketing online hiệu quả cũng như hỗ trợ phát triển bán hàng chodoanh nghiệp

Từ nhận định những vấn đề đã phân tích ở trên, tôi đã quyết định chọn đề tàikhóa luận tốt nghiệp “Phân tích hành vi khách hàng dựa vào kỹ thuật khai phá dữ liệunhằm nâng cao hiệu quả bán hàng và Marketing online” với dữ liệu xây dựng thựcnghiệm từ siêu thị

Trang 16

1.2 Mục tiêu nghiên cứu

1.2.1 Lý thuyết

- Tìm hiểu khái quát quy trình khai phá dữ liệu và phát hiện tri thức dựa vào dữliệu, nắm được lý thuyết cơ bản về môi trường BI có liên quan đến khai phá dữliệu

- Hệ thống hóa được các kỹ thuật cơ bản trong khai phá dữ liệu như phân cụm,luật kết hợp

- Nắm được bản chất về marketing online đặc biệt một số lý thuyết liên quan đếnmarketing online hướng vào dữ liệu

1.3 Đối tượng, phạm vi nghiên cứu

Đối tượng nghiên cứu: dữ liệu siêu thị từ cộng đồng nghiên cứu Kaggle

Mẫu nghiên cứu: 500 khách hàng mua sắm tại siêu thị

Thời gian nghiên cứu: từ tháng 9 đến tháng 12 năm 2020

1.4 Phương pháp nghiên cứu

Đề tài sử dụng kết hợp nhiều phương pháp nghiên cứu, với một số phương phápđược liệt kê như sau:

Phương pháp thống kê mô tả

Phương pháp thống kê suy luận

Phương pháp tổng hợp

Phương pháp data mining

Trang 17

Phương pháp mô hình hóa

1.5 Kết cấu đề tài

Kết cấu khóa luận bao gồm 4 chương:

Chương 1: Giới thiệu tổng quan

Chương 2: Cơ sở lý thuyết

Chương 3: Phân tích thực trạng hành vi khách hàng dựa vào kỹ thuật khai phá

Trang 18

CHƯƠNG 2:

CƠ SỞ LÝ THUYẾT 2.1 Tổng quan khai phá dữ liệu

2.1.1 Khái niệm

Phát hiện tri thức từ cơ sở dữ liệu

Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database –KDD) là một quá trình quan trọng để xác định các mẫu hoặc mối quan hệ hợp lệ, mớilạ có thể hữu ích và cuối cùng là dễ hiểu trong tập dữ liệu để đưa ra các quyết địnhquan trọng ( Fayyad, Piatetsky-shapiro, & Smyth, 1996 ) [2]

Để bắt đầu phát hiện tri thức cần phân biệt rõ ba khái niệm: dữ liệu, thông tin vàtri thức Dữ liệu là tín hiệu (signals) thu được do quan sát, đo dạc, thu thập, cụ thể dữliệu là giá trị (values) của các thuộc tính (features) của các đối tượng Thông tin là dữliệu có ý nghĩa (data equiped with meaning), thu được khi xử lý dữ liệu để lọc bỏ đicác phần dư thừa, tìm ra phần cốt lõi đặc trưng cho dữ liệu Kiến thức là nhận thứchoặc công nhận, năng lực hành động và hiểu (biết tại sao) nằm trong hoặc chứa trongtâm trí hoặc trong não Mục đích của kiến thức là cải thiện cuộc sống của chúng

ta Trong bối cảnh kinh doanh, mục đích của kiến thức là tạo ra hoặc gia tăng giá trịcho doanh nghiệp và tất cả các bên liên quan Tóm lại, mục đích cuối cùng của tri thứclà để tạo ra giá trị [3]

Trong hình dưới đây thấy được quá trình phát hiện tri thức gồm nhiều giai đoạn.Đầu ra của giai đoạn này là đầu vào của giai đoạn sau, quá trình phát hiện tri thức gồmcác bước cơ bản sau:

Hình 2.0.1 Quá trình khai phá tri thức [4]

Trang 19

Chọn lọc dữ liệu (Data selection): Giai đoạn này thực hiện hai công việc chính.Thứ nhất, phát triển và tìm hiểu miền ứng dụng Thứ hai tạo tập dữ liệu đích từ nguồndữ liệu vô cùng lớn Kết quả của bước này là dữ liệu mục tiêu (Target data).

Tiền xử lý dữ liệu (Data preprocessing): bao gồm xử lý dữ liệu bị nhiễu vàthiếu Giai đoạn này cũng đảm bảo các giá trị có ý nghĩa thống nhất tạo ra quy trìnhKDD có kết quả chính xác Kết quả của bước này là dữ liệu được làm sạch (Cleaneddata) hoặc dữ liệu được tiền xử lý ( Pre-processed data)

Chuyển đổi dữ liệu (Data transformation): Quá trình này là giai đoạn xử lý dữliệu cuối cùng trước khi áp dụng các kỹ thuật phân tích dữ liệu Nó bao gồm việc tìmkiếm các thuộc tính hữu ích bằng cách áp dụng các phương pháp biến đổi và giảm thứnguyên, đồng thời tìm cách biểu diễn bất biến của dữ liệu Kết quả của tiến trình này làdữ liệu được biến đổi (Transformed data)

Khai phá dữ liệu (Data mining): Quá trình này bao gồm ba bước hoặc nhiệm vụcon Đầu tiên, chọn nhiệm vụ khai thác dữ liệu bằng cách so với các mục tiêu đượcxác định trong giai đoạn đầu với một phương pháp khai thác dữ liệu cụ thể như phâncụm, hồi quy, phân lớp, v.v Thứ hai, chọn (các) thuật toán khai thác dữ liệu và chọn(các) phương pháp và tham số để tìm kiếm các mẫu trong dữ liệu Thứ ba, áp dụng(các) thuật toán khai thác dữ liệu để tạo ra các mẫu dữ liệu trong một dạng biểu diễncụ thể Kết quả của giai đoạn này là mẫu (Patterns) và mô hình (Models)

Đánh giá kết quả mẫu (Interpretation/Evaluation): Quá trình này bao gồm haibước Đầu tiên, diễn giải các mẫu đã khai thác Bước này cũng có thể bao gồm việctrực quan hóa các mẫu và mô hình được trích xuất hoặc dữ liệu được trích xuất từ các

mô hình được trích xuất Thứ hai, củng cố kiến thức đã khám phá bằng cách kết hợpkiến thức đó vào hệ thống thực hiện, hoặc đơn giản là tài liệu hóa và báo cáo cho cácbên mong muốn Bước này có thể bao gồm việc kiểm tra và khắc phục mọi xung độttiềm ẩn với kiến thức đã tin trước đó Kết quả của quá trình này là kiến thức tiềm năng(Knowledge) [5]

Khai phá dữ liệu

Khai phá dữ liệu (Data mining - DM) là một khái niệm có nguồn gốc ra đời vàonhững năm cuối những năm 1980 Nó là quá trình trích xuất thông tin ẩn, ngầm mới lạ

Trang 20

và hữu ích từ trong các kho dữ liệu, cơ sở dữ liệu để ứng dụng vào những quyết địnhkinh doanh hoặc những lĩnh vực khác [6].

Các bước của quá trình khai phá dữ liệu có thể được mô tả dưới sơ đồ sau:

Hình 2.0.2 Quá trình khai phá dữ liệu

Quy trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đềcần giải quyết Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải phápgiải quyết nhiệm vụ bài toán

Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạngsao cho giải thuật khai phá dữ liệu có thể hiểu được Đây thực sự là một quá trình rấtkhó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản(nếu được chiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiềulần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi),… Do đó, trong bước này phảithực hiện tiền xử lý dữ liệu Quá trình tiền xử lý yêu cầu đầu tiên phải nắm được dạngdữ liệu, thuộc tính, mô tả của dữ liệu thao tác Sau đó tiến hành 4 giai đoạn chính: làmsạch, tích hợp, biến đổi, thu giảm dữ liệu

Bước tiếp theo trong quy trình khai phá dữ liệu là chọn thuật toán khai phá dữliệu thích hợp và thực hiện việc khai phá nhằm tìm được các mẫu có ý nghĩa dưới dạngbiểu diễn tương ứng với ý nghĩa đó

CRISP-DM (Cross Industry Standard Process for Data Mining)

Ngày nay, các nhà nghiên cứu với sự tham gia mạnh mẽ trong lĩnh vực côngnghiệp đã nhận ra nhu cầu từ DM đến KDD để cung cấp kiến thức hữu ích cho việc ra

Trang 21

quyết định kinh doanh Theo truyền thống, một tiêu chuẩn, được đặt tên là CRISP-DM(Cross Industry Standard Process for Data Mining).

Hình 2.0.3 Tiến trình CRISP - DM [7]

Hiểu biết kinh doanh: Giai đoạn này tập trung vào việc hiểu các mục tiêu dự ánvà các yêu cầu từ quan điểm kinh doanh

Hiểu dữ liệu: Giai đoạn hiểu dữ liệu bắt đầu với việc thu thập dữ liệu ban đầuvà tiến hành các hoạt động để làm quen với dữ liệu, xác định dữ liệu vấn đềchất lượng, để khám phá thông tin chi tiết đầu tiên về dữ liệu hoặc phát hiện cáctập hợp con thú vị để hình thành các giả thuyết cho thông tin ẩn

Chuẩn bị dữ liệu: Giai đoạn chuẩn bị dữ liệu bao gồm tất cả các hoạt động cầnthiết để xây dựng tập dữ liệu cuối cùng từ dữ liệu thô ban đầu Các nhiệm vụchuẩn bị dữ liệu có thể được thực hiện lặp đi lặp lại và không theo bất kỳ thứ tựquy định nào

Mô hình hóa: Trong giai đoạn này, các kỹ thuật mô hình hóa khác nhau đượclựa chọn và áp dụng và các tham số của chúng được hiệu chỉnh đến giá trị tối

ưu Thông thường, có một số kỹ thuật cho cùng một loại vấn đề DM Một số kỹthuật có các yêu cầu cụ thể về dạng dữ liệu

Trang 22

Đánh giá: Từ góc độ phân tích dữ liệu, các mô hình có vẻ chất lượng cao sẽđược xây dựng trong giai đoạn này của dự án Trước khi chuyển sang mô hìnhcuối cùng triển khai, điều quan trọng là phải đánh giá mô hình kỹ lưỡng hơn vàxem xét các bước thực hiện để xây dựng nó để chắc chắn rằng nó đạt được cácmục tiêu kinh doanh Tại cuối giai đoạn này, cần đạt được quyết định về cáchsử dụng các kết quả DM.

Triển khai: Xây dựng mô hình nói chung không phải là kết thúc của dự án.Thậm chí nếu mục đích của mô hình là tăng cường kiến thức về dữ liệu, kiến thức thu được sẽ cần được tổ chức và trình bày theo cách mà khách hàng có thểsử dụng

2.1.2 Sự liên ngành của hệ thống khai phá dữ liệu

Khai phá dữ liệu đã kết hợp nhiều kỹ thuật từ các lĩnh vực khác như thống kê,học máy, nhận dạng mẫu, cơ sở dữ liệu và hệ thống kho dữ liệu, truy xuất thông tin,trực quan hóa, thuật toán, tính toán hiệu suất cao và nhiều miền ứng dụng khác Bảnchất liên ngành của nghiên cứu và phát triển khai phá dữ liệu đóng góp đáng kể vào sựthành công của khai phá dữ liệu và các ứng dụng rộng rãi của nó

Khai phá dữ liệu có nguồn gốc liên quan đến các lĩnh vực sau:

Hình 2.0.4 Khai phá dữ liệu từ nhiều lĩnh vực [8]

Hệ thống cơ sở dữ liệu và kho dữ liệu

Nghiên cứu hệ thống cơ sở dữ liệu chủ đích để tạo, duy trì và sử dụng cơ sở dữliệu cho các tổ chức và người dùng cuối Đặc biệt, các nhà nghiên cứu hệ thống cơ sởdữ liệu đã thiết lập các nguyên tắc được công nhận cao trong mô hình dữ liệu, ngôn

Trang 23

ngữ truy vấn, phương pháp xử lý và tối ưu hóa truy vấn, lưu trữ dữ liệu cũng nhưphương pháp lập chỉ mục và truy cập Hệ thống cơ sở dữ liệu thường được biết đến vớikhả năng mở rộng cao trong việc xử lý các tập dữ liệu rất lớn, có cấu trúc tương đối.

Các hệ thống cơ sở dữ liệu gần đây đã xây dựng khả năng phân tích dữ liệu cóhệ thống trên dữ liệu cơ sở dữ liệu bằng cách sử dụng kho dữ liệu và các phương tiệnkhai thác dữ liệu Kho dữ liệu tích hợp dữ liệu có nguồn gốc từ nhiều nguồn và nhiềukhung thời gian khác nhau [9] Nó hợp nhất dữ liệu trong không gian đa chiều để tạothành các khối dữ liệu được vật chất hóa một phần Mô hình khối dữ liệu không chỉtạo điều kiện cho OLAP trong cơ sở dữ liệu đa chiều mà còn thúc đẩy khai thác dữ liệu

đa chiều

Thống kê

Thống kê nghiên cứu việc thu thập, phân tích, hoặc giải thích và trình bày dữliệu Khai phá dữ liệu có một kết nối cố hữu với thống kê [10] Mô hình thống kê làmột tập hợp các hàm toán học mô tả hành vi của các đối tượng trong lớp mục tiêu dướidạng các biến ngẫu nhiên và phân phối xác suất liên quan của chúng Mô hình thống

kê được sử dụng rộng rãi để biểu diễn mô hình dữ liệu và các lớp dữ liệu

Chẳng hạn như, trong các tác vụ khai phá dữ liệu như đặc tính và phân loại dữliệu, có thể xây dựng các mô hình thống kê của các lớp mục tiêu Nói cách khác, các

mô hình thống kê như vậy có thể là kết quả của một nhiệm vụ khai thác dữ liệu Ngoài

ra, các nhiệm vụ khai thác dữ liệu có thể được xây dựng dựa trên các mô hình thống

kê Ví dụ, chúng ta có thể sử dụng thống kê để lập mô hình nhiễu và các giá trị dữ liệubị thiếu Sau đó, khi khai thác các mẫu trong một tập dữ liệu lớn, quá trình khai phá dữliệu có thể sử dụng mô hình để giúp xác định và xử lý các giá trị bị nhiễu hoặc bị thiếutrong dữ liệu

Nghiên cứu thống kê phát triển các công cụ để dự đoán và dự báo bằng cách sửdụng dữ liệu và mô hình thống kê Phương pháp thống kê có thể được sử dụng để tómtắt hoặc mô tả một tập hợp dữ liệu

Áp dụng các phương pháp thống kê trong khai thác dữ liệu không phải là điềutầm thường Thông thường, một thách thức nghiêm trọng là làm thế nào để mở rộngmột phương pháp thống kê trên một tập dữ liệu lớn Nhiều phương pháp thống kê có

Trang 24

độ phức tạp cao trong tính toán Khi các phương pháp này được áp dụng trên các tậpdữ liệu lớn cũng được phân phối trên nhiều vị trí logic hoặc vật lý, các thuật toán nênđược thiết kế và điều chỉnh cẩn thận để giảm chi phí tính toán Thách thức này thậmchí còn trở nên khó khăn hơn đối với các ứng dụng trực tuyến, chẳng hạn như đề xuấttruy vấn trực tuyến trong công cụ tìm kiếm, nơi yêu cầu khai thác dữ liệu để liên tụcxử lý các luồng dữ liệu nhanh, theo thời gian thực.

Học máy

Máy học nghiên cứu cách máy tính có thể học (hoặc cải thiện hiệu suất củachúng) dựa trên dữ liệu Một lĩnh vực nghiên cứu chính là dành cho các chương trìnhmáy tính tự động học cách nhận ra các mẫu phức tạp và đưa ra các quyết định thôngminh dựa trên dữ liệu

Đối với các nhiệm vụ phân lớp và phân cụm, nghiên cứu học máy thường tậptrung vào độ chính xác của mô hình Ngoài độ chính xác, nghiên cứu khai phá dữ liệucòn nhấn mạnh vào hiệu quả và khả năng mở rộng của các phương pháp khai thác trêntập dữ liệu lớn, cũng như về các cách xử lý các loại dữ liệu phức tạp và khám phá cácphương pháp thay thế mới

Khoa học thông tin

Đây là lĩnh vực học thuật chủ yếu liên quan đến phân tích, thu thập, phân loại ,thao tác, lưu trữ, truy xuất , di chuyển, phổ biến và bảo vệ thông tin Một mặt là việcmở rộng khám phá kiến thức vào kiến trúc dữ liệu của các kho dữ liệu phân tích vàmặt khác là phân tích hình ảnh, giọng nói và văn bản phức tạp với các thuật toán họcmáy phát triển cao

Truy xuất thông tin (IR) là khoa học tìm kiếm tài liệu hoặc thông tin trong tàiliệu Tài liệu có thể là văn bản hoặc đa phương tiện và có thể nằm trên web Sự khácbiệt giữa hệ thống cơ sở dữ liệu và truy xuất thông tin truyền thống là gấp đôi:

Truy xuất thông tin giả định rằng (1) dữ liệu đang tìm kiếm là không có cấutrúc; và (2) các truy vấn được hình thành chủ yếu bởi các từ khóa, không có cấu trúcphức tạp (không giống như truy vấn SQL trong hệ thống cơ sở dữ liệu) [11]

Hơn nữa, một chủ đề trong một tập hợp các tài liệu văn bản có thể được môhình hóa dưới dạng phân phối xác suất trên từ vựng, được gọi là mô hình chủ đề Một

Trang 25

tài liệu văn bản, có thể liên quan đến một hoặc nhiều chủ đề, có thể được coi là mộthỗn hợp của nhiều mô hình chủ đề Bằng cách tích hợp các mô hình truy xuất thông tinvà kỹ thuật khai phá dữ liệu, có thể tìm thấy các chủ đề chính trong bộ sưu tập tài liệuvà đối với mỗi tài liệu trong bộ sưu tập, các chủ đề chính liên quan.

Ngày càng có nhiều văn bản và dữ liệu đa phương tiện được tích lũy và cungcấp trực tuyến do tốc độ phát triển nhanh chóng của Web và các ứng dụng như thưviện in nghiêng, chính phủ kỹ thuật số và hệ thống thông tin chăm sóc sức khỏe Việctìm kiếm và phân tích hiệu quả của họ đã đặt ra nhiều vấn đề thách thức trong việckhai phá dữ liệu

Trực quan hóa

Trực quan hóa dữ liệu cung cấp một cơ chế mạnh mẽ để hỗ trợ người dùngtrong cả quá trình tiền xử lý dữ liệu và khai thác dữ liệu thực tế Thông qua việc hiểnthị trực quan dữ liệu gốc, người dùng có thể duyệt qua để có được "cảm nhận" về cácthuộc tính của dữ liệu đó Ví dụ, các mẫu lớn có thể được hình dung và phân tích

Đặc biệt, trực quan hóa có thể được sử dụng để phát hiện ngoại lệ, làm nổi bậtnhững điều bất ngờ trong dữ liệu, tức là các trường hợp dữ liệu không tuân thủ hành vihoặc mô hình chung của dữ liệu

Trong quá trình chuyển đổi dữ liệu, việc trực quan hóa dữ liệu có thể giúpngười dùng đảm bảo tính đúng đắn của việc chuyển đổi Nghĩa là, người dùng có thểxác định xem hai chế độ xem (gốc so với đã chuyển đổi) của dữ liệu có tương đươngnhau hay không Hình ảnh hóa cũng có thể được sử dụng để hỗ trợ người dùng khi tíchhợp các nguồn dữ liệu, giúp họ nhìn thấy các mối quan hệ trong các định dạng khácnhau

Các lĩnh vực khác

Ngoài ra, khai phá dữ liệu còn kết hợp các kỹ thuật từ nhiều lĩnh vực khác nhaunhư nhận dạng mẫu (Pattern recognition), thuật toán (Algorithms), Tính toán hiệu suấtcao (High-performance computing)

Trang 26

2.1.3 Các loại dữ liệu sử dụng

Cơ sở dữ liệu quan hệ (Relational database): Một cơ sở dữ liệu quan hệ là mộtloại cơ sở dữ liệu Nó sử dụng một cấu trúc cho phép chúng ta xác định và truy cập dữ

liệu liên quan đến một phần dữ liệu khác trong cơ sở dữ liệu.

Cơ sở dữ liệu đa chiều (Multidimention strutures, data mart, data warehouse):

Cơ sở dữ liệu đa chiều là một dạng mở rộng của mảng dữ liệu hai chiều, chẳng hạnnhư bảng tính, được tổng quát hóa để bao gồm nhiều chiều phục vụ cho quá trình phântích cũng như khai phá tri thức

Cơ sở dữ liệu giao tác (Transactional database): Một bài toán khá điển hình vềdữ liệu giao tác là bài toán khai phá luật kết hợp, mà xuất phát từ việc xem xét cácCSDL giao dịch (bán hàng) Dữ liệu giao tác chính là dữ liệu nguyên thủy xuất hiệntrong định nghĩa về luật kết hợp cùng với các độ đo của luật như độ hỗ trợ và độ tincậy

Cơ sở dữ liệu quan hệ theo hướng đối tượng (Object relational database): làdạng lai giữa hai mô hình hướng đối tượng và quan hệ

Cơ sở dữ liệu đa phương tiện (Multimedia databases): là dạng dữ liệu hình ảnh,văn bản âm thanh,

2.1.4 Hướng tiếp cận và kỹ thuật chính trong khai phá dữ liệu

Hình 2.0.5 Các vấn đề về học máy [12]

Trang 27

Học có giám sát (Supervised Learning): Học có giám sát là một mô hình họcmáy để thu thập thông tin mối quan hệ đầu vào - đầu ra của một hệ thống dựa trên mộttập hợp các mẫu đào tạo đầu vào, đầu ra được ghép nối nhất định

Vì đầu ra được coi là nhãn của dữ liệu đầu vào hoặc sự giám sát, mẫu đào tạođầu vào, đầu ra còn được gọi là dữ liệu đào tạo có nhãn, hoặc dữ liệu được giám sát

Trong các bài toán học có giám sát, các mô hình dự đoán được tạo dựa trên tậphợp các bản ghi đầu vào với dữ liệu đầu ra (số hoặc nhãn) Dựa trên kết quả / phản hồihoặc biến phụ thuộc, các vấn đề học tập có giám sát có thể được phân ra làm hai loạikhác nhau:

Hồi quy : Khi biến kết quả hoặc biến phản hồi là một biến liên tục (số hoặc số),nó có thể được gọi là các bài toán hồi quy

Phân lớp : Khi biến kết quả hoặc biến phản hồi là một biến rời rạc (nhãn), nó cóthể được gọi là các bài toán phân loại

Học không giám sát (Unsupervised learning): Quá trình học tập không đượcgiám sát vì các ví dụ đầu vào không có nhãn lớp Thông thường, có thể sử dụng phâncụm để khám phá các lớp trong dữ liệu Tuy nhiên, vì dữ liệu huấn luyện không đượcgắn nhãn nên mô hình đã học không thể cho chúng ta biết ý nghĩa ngữ nghĩa của cáccụm được tìm thấy

Học bán giám sát (Semi- Supervised learning): Các vấn đề trong đó bạn có mộtlượng lớn dữ liệu đầu vào (X) và chỉ một số dữ liệu được gắn nhãn (Y) được gọi là cácvấn đề học bán giám sát Những vấn đề này nằm giữa cả việc học có giám sát vàkhông giám sát

Trang 28

2.1.5 Một số ứng dụng khai phá dữ liệu

2.1.5.1 Ứng dụng trong marketing

Hình 2.0.6 Mô hình tích hợp DM và KM trong Marketing [13]

Mô hình trên được đề xuất bao gồm hai thành phần được kết nối với nhau: khaithác (DM) và quản lý tri thức (KM)

Thành phần DM bao gồm 2 giai đoạn, giai đoạn 1 “What” nhằm mục đíchkhám phá các mặt hàng được mua cùng nhau Kỹ thuật DM sử dụng cho giai đoạn nàylà luật kết hợp (Association rules) Giai đoạn 2 “Who” nhằm trả lời cho câu hỏi aiđang mua các tập phổ biến được xác định trong giai đoạn 1, tức là xác định thông tinkhách hàng có khả năng mua những món hàng quan trọng Để làm việc này có thể sửdụng kỹ thuật phân cụm (Clustering) hoặc mạng neuron (Neural networks) như trong

sơ đồ

Thành phần thứ hai KM mục đích là nhằm trích xuất kiến thức từ các kết quảthu được trong thành phần DM trước đó Nó còn được gọi là giai đoạn “Know” baogồm hai nhóm hoạt động chính: (1) Chia sẻ các mẫu thú vị và hồ sơ khách hàng, (2)Thu thập các ý tưởng mới, xếp hạng và chọn các ý tưởng tiềm năng, từ đó chuyểnthành các chiến lược tiếp thị mới

Giai đoạn cuối cùng là giai đoạn 4 “How” , nó tập trung tạo ra nhiều chiến lượchỗ trợ cho không những các nhà quản trị marketing và bán hàng mà còn nhân viên

Trang 29

khác Trong giai đoạn này, điều quan trọng là sử dụng các ý tưởng được trích xuấttrong thành phần KM và hình thành các chiến lược mới, chủ yếu là tập trung vào cácloại chiến lược sáng tạo tiếp thị sau được xác định bởi European Commision (2012):(1) Phương tiện hoặc kỹ thuật mới để quảng bá sản phẩm, (2) Các phương pháp mớiđể bố trí sản phẩm hoặc các kênh bán hàng và (3) Các phương pháp mới về định giáhàng hóa hoặc dịch vụ Tác động của giai đoạn này sẽ làm tăng doanh số, chỉ số bánchéo và khả năng cạnh tranh của công ty Chúng cũng nên đóng vai trò là phản hồi chocác thành phần mô hình khác để cải thiện hiệu quả của chúng

2.1.5.2 Ứng dụng trong quản trị quan hệ khách hàng

Khai phá dữ liệu là một phương pháp hoặc công cụ có thể hỗ trợ các doanhnghiệp trong các nhiệm vụ hướng đến khách hàng Mô hình tích hợp bao gồm ba loạiquy trình khai phá dữ liệu, ba giai đoạn của quy trình CRM, một số kỹ thuật cụ thể củakhai phá dữ liệu có thể được sử dụng trong các giai đoạn khác nhau của quy trìnhCRM và khả năng áp dụng các kỹ thuật đó Các ứng dụng của kỹ thuật Khai phá dữliệu trở thành yếu tố kích hoạt quan trọng để đưa ra các quyết định chiến lược liênquan đến quy trình CRM Việc thực hiện các hành động này được thực hiện trong giaiđoạn hành động của vòng đời CRM

Hình 2.0.7 Khai phá dữ liệu trong CRM [14]

Trong sơ đồ có các kỹ thuật khai phá dữ liệu khác nhau ứng dụng vào CRM:

Trang 30

Phân khúc

Quá trình khai phá dữ liệu hỗ trợ trong việc xác định khách hàng mới, phân biệtkhách hàng và tìm cách tốt nhất để tương tác với khách hàng Các kỹ thuật khai phá dữliệu như phân đoạn và phân cụm giúp đạt được những mục tiêu này Các tổ chức cóthể có được thông tin chi tiết về hồ sơ khách hàng thông qua phân đoạn và lần lượtphục vụ tốt hơn bằng cách cung cấp cho họ loại sản phẩm và dịch vụ phù hợp Thôngqua phân khúc, khách hàng có thể được chia thành nhiều nhóm khác nhau dựa trên sởthích của họ và đây là cơ sở cho các chiến lược tiếp thị mục tiêu

Tiếp thị mục tiêu có thể làm tăng xác suất khách hàng thực sự phản hồi chiếndịch tiếp thị, vì hoạt động tiếp thị dựa trên kiến thức về sở thích của họ Hồ sơ kháchhàng được tạo và các chiến dịch tiếp thị được cá nhân hóa cho từng phân khúc kháchhàng, do đó tăng xác suất họ sẽ hưởng ứng chiến dịch

Hoặc ví dụ, quy trình khai phá dữ liệu tại Fingerhut Corporation tiết lộ rằng đốivới khách hàng từ một mã zip, tỷ lệ chi tiêu cho vàng trên mỗi đơn đặt hàng cao hơnbất kỳ sản phẩm nào khác được đặt hàng từ một danh mục cụ thể Điều này gây ra sựquan tâm đến việc phân tích thêm thông tin nhân khẩu học được liên kết với mã Zip.Phân tích này tiết lộ rằng phần lớn dân số cư trú trong phạm vi của mã zip đó là ngườiTây Ban Nha Theo sau cái này thông tin Fingerhut đã sửa đổi danh mục của họ bằngcách đưa thêm nhiều đồ trang sức bằng vàng vào danh mục gửi cho khách hàng gốcTây Ban Nha [15]

AXA Financial sử dụng khai phá dữ liệu để có quan điểm tốt hơn về hành vicủa khách hàng trong việc đưa ra các chiến lược CRM Phân tích tại AXA Financial đãbao gồm đo lường khả năng sinh lời của khách hàng bằng cách sử dụng các hiệp hộivà tính thu nhập phù hợp với các nguyên tắc kế toán được chấp nhận chung Sử dụngcác kỹ thuật khai phá dữ liệu cho phép tổ chức phân khúc khách hàng của họ thành cáccụm sinh lời Điều này sẽ giúp AXA phát triển các mô hình khác nhau như các cấp độdịch vụ hiệu quả về chi phí, các chiến dịch tiếp thị mục tiêu, tính điểm, giữ chân kháchhàng và cũng đề ra các chiến lược bán kèm và bán thêm

 Luật kết hợp

Trang 31

Một kỹ thuật khai phá dữ liệu khác có thể được sử dụng để xác định khách hàngmới là liên kết Kiến thức về lợi ích liên quan của khách hàng có thể cung cấp cơ sở tốtđể bán chéo sản phẩm cho các phân khúc khách hàng Dữ liệu về một khách hàngthường xuyên tiết lộ sở thích đối với một số loại hàng hóa nhất định hoặc dịch vụ,cung cấp thông tin về những sản phẩm liên quan mà khách hàng có nhiều khả năngmua hơn hoặc những loại những chiến dịch mà họ có nhiều khả năng sẽ phản hồi hơn.Trường hợp kinh điển của phân tích giỏ hàng là một ví dụ để xác định các mối liên hệ.Bán chéo là một ứng dụng chính lấy tín hiệu từ luật kết hợp.

Trong bối cảnh khai phá dữ liệu web, khái niệm bán kèm đã trở nên quan trọnghơn dưới hình thức các chiến dịch quảng cáo được cá nhân hóa dựa trên dữ liệu có sẵn.Ví dụ: một cửa hàng trực tuyến, phân tích việc mua sắm giỏ khách hàng của họ có thểcá nhân hóa tốt hơn các chiến dịch quảng cáo của họ và tăng doanh số bán hàng Mặtkhác, một cửa hàng trực tuyến có thể đoán trước những gì khách hàng của mình cần vàđề xuất các sản phẩm khác

Mặc dù luật kết hợp cho phép tổ chức bán kèm, nó cũng giúp quyết định bố tríkho hàng, đó là ứng dụng rất phổ biến của khai thác dữ liệu với chuỗi cửa hàng tạp hóavà bán lẻ Ngoài hỗ trợ trong cách bố trí cửa hàng, luật kết hợp cũng giúp xác định cácmối quan hệ có giá trị giữa các dữ liệu như ví dụ về một cửa hàng tạp hóa ở Anh Việcphân tích cơ sở dữ liệu khách hàng của họ cho thấy rằng một sản phẩm cụ thể đangđược tiêu thụ bởi 25% khách hàng chi tiêu cao nhất Điều này dẫn đến quyết định giữlại sản phẩm trên kệ thay vì ngừng sản xuất [16]

 Mô hình dự đoán

Khả năng mô hình hóa dự đoán của khai phá dữ liệu giúp thu hút và giữ chânkhách hàng có lợi nhuận Sử dụng các kỹ thuật như mô hình phản hồi, hành vi củakhách hàng có thể được dự đoán với mức độ chắc chắn tương đối Dựa trên dữ liệukhách hàng có sẵn, các mô hình phản hồi có thể được xây dựng để dự đoán phản ứngcủa khách hàng trong tương lai hoặc phản ứng của khách hàng hiện tại đối với bất kỳsản phẩm hoặc dịch vụ mới nào được cung cấp

Trang 32

Kỹ thuật này có nhiều ứng dụng trong ngành tín dụng, bảo hiểm và danh mục.Ngay cả trong trường hợp dữ liệu trước đó không có sẵn, nó có thể tạo hồ sơ kháchhàng phản hồi bằng cách nghiên cứu dân số

Dựa trên dự đoán từ mô hình phản hồi, một người có một số đặc điểm kết hợpnhất định có thể được xếp vào loại đáng giá khách hàng hay không Nếu hồ sơ củakhách hàng cho thấy họ là một khách hàng có lợi nhuận, thì có thể đưa ra các chiếnlược để thu hút hoặc để giữ chân họ Quá trình xác định khách hàng sinh lợi này sẽgiúp tổ chức số tiền chi tiêu khổng lồ và giảm thiểu rủi ro có khách hàng xấu

Mô hình phản hồi cũng hỗ trợ tiếp thị mục tiêu hiệu quả hơn và tiết kiệm tàichính của tổ chức Các kỹ thuật khai phá dữ liệu cho phép nhân viên tiếp thị đưa raquyết định sáng suốt về các chiến dịch tiếp thị mà không cần phải đợi lời khuyên củachuyên gia thống kê Ví dụ, Liverpool Victoria là một nhà cung cấp bảo hiểm lớn ởAnh và hợp tác với Quadstone để cung cấp các giải pháp CRM Quadstone đã pháttriển các mô hình CRM dựa trên dữ liệu khách hàng của họ và giúp các nhà tiếp thị cóthể tiếp cận chúng Giờ đây, các Nhà tiếp thị của Liverpool Victoria có một công cụcho phép họ kiểm soát quá trình lập hồ sơ, phân đoạn và mô hình hóa khách hàng(Davis 2001) Kết quả của nỗ lực này, Liverpool Victoria hiện có thể cải thiện tỷ lệ giữchân và giảm tỷ lệ tiêu hao Các nhà tiếp thị cơ sở dữ liệu hiện đang được trao quyềnđể tự mình đưa ra hầu hết các quyết định kinh doanh mà không cần sự trợ giúp của cácnhà thống kê chuyên nghiệp Họ có thể xác minh bản năng kinh doanh của họ về hành

vi của khách hàng khoa học hơn với công cụ có sẵn từ Quadstone

C&A là một nhà bán lẻ thời trang châu Âu, theo truyền thống thuê ngoài cáchoạt động tiếp thị cơ sở dữ liệu của mình Khi một quyết định được đưa ra để thựchiện các chiến lược CRM trong tổ chức, cần có một công cụ tích hợp dữ liệu kháchhàng có sẵn vào chiến lược CRM Một lần nữa, với sự trợ giúp của bộ công cụ CRMcủa Quadstone,

các nhà phân tích tiếp thị hiện được trao quyền để tiến hành phân tích nội bộ và C&Ađã cho thấy sự cải thiện trong tỷ lệ phản hồi gửi thư khoảng 6% C&A cũng đạt đượcnhờ có thể nhắm mục tiêu tốt hơn khách hàng phản hồi cao bằng cách đưa ra các đềnghị tiếp thị phù hợp với nhu cầu của họ Do đó, C&A đã sử dụng dự đoán kỹ thuật

mô hình hóa để cải thiện tỷ lệ phản hồi gửi thư trực tiếp của họ

Trang 33

 Phát hiện độ lệch

Phát hiện độ lệch có lẽ là một trong những ứng dụng quan trọng nhất của việckhai phá dữ liệu đối với CRM Phân tích pháp y giúp người ta xác định những sai lệch

so với tiêu chuẩn Ví dụ: nó đóng một vai trò có giá trị trong việc xác định hành viphạm pháp thực sự và sau đó đưa ra các chiến lược để phân loại hành vi của kháchhàng là hành vi phạm pháp hoặc là ngoại lệ đối với kiểu hành vi

Đối với CRM, phân tích pháp y có thể tiết lộ một mô hình bất thường về mộtkhách hàng cụ thể và sau khi tiến hành phân tích khả năng sinh lời, tổ chức có thể xácđịnh xem liệu có giữ chân được khách hàng đó hay không đáng giá Nếu khách hàngtrở nên đáng giá, các giải pháp tùy chỉnh có thể được cung cấp cho khách hàng đó vàđộng viên ở lại với tổ chức Mặt khác, nếu khách hàng không có lợi nhuận, thì tổ chứccó thể đưa ra quyết định sáng suốt về việc không sử dụng bất kỳ chiến lược duy trì nàođể giữ chân khách hàng không có lợi Phát hiện gian lận đóng một vai trò quan trọngtrong ngành chăm sóc sức khỏe và tín dụng.Các sai lệch được phát hiện thông qua khaiphá dữ liệu có thể được theo dõi dẫn đến tiết kiệm rất lớn cho các công ty

 Phát hiện Churn

Trong ngành công nghiệp viễn thông, rối loạn là một vấn đề phổ biến Churn đềcập đến quá trình khách hàng chuyển sang sử dụng dịch vụ của đối thủ cạnh tranh.Thông thường trong các loại của các ngành, việc mua lại khách hàng đắt hơn việc duytrì khách hàng Nếu một tổ chức đang mất nhiều khách hàng vào tay đối thủ, tổ chứccó thể phân tích hồ sơ của những khách hàng đã mất và dự đoán khách hàng hiện tạicó khả năng làm theo Điều này sẽ cho phép tổ chức đưa ra các chiến lược duy trìkhách hàng và các chương trình trung thành để giữ chân những khách hàng có lợinhuận Ngoài ra, một khi xác định được tình trạng hỗn loạn, cần phải thực hiện khảnăng sinh lời phân tích để xác định xem khách hàng có cần được giữ lại hay không.Điều này sẽ giúp tổ chức không phải đầu tư vào việc giữ chân một khách hàng khôngquá sinh lời

Các công cụ khai phá dữ liệu giúp những người ra quyết định đưa ra quyết địnhsáng suốt về chiến lược CRM của họ Công cụ khai phá thông minh của IBM là một vídụ về một loạt các công cụ có sẵn để hiểu hành vi của khách hàng và xây dựng chiến

Trang 34

lược CRM Tương tự, công cụ khai thác doanh nghiệp của SAS cho phép phân tích dữliệu rộng lớn để phát hiện các mẫu ẩn Các nhà cung cấp giải pháp khác bao gồmSeibel, MarketSwitch và MarketMiner, cung cấp các công cụ tiếp thị mục tiêu và môhình duy trì cho các ứng dụng CRM.

2.2 Cơ sở hạ tầng kinh doanh thông minh (Business Intelligence)

2.2.1 Khái niệm

Kinh doanh thông minh là thuật ngữ đề cập đến:

 Một tập hợp các quy trình kinh doanh

 Công nghệ được sử dụng trong các quy trình này

 Thông tin thu được từ các quá trình này

Những người tham gia vào các quy trình BI có thể sử dụng phần mềm ứng dụngvà các công nghệ khác để thu thập, hàng đầu lưu trữ, phân tích và cung cấp quyền truycập vào dữ liệu (còn được gọi là chu trình BI)

Một số nhà quan sát coi BI là quá trình nâng cao dữ liệu thành thông tin và sauđó thành kiến thức Phần mềm nhằm mục đích giúp mọi người đưa ra quyết định kinhdoanh tốt hơn bằng cách đưa ra thông tin chính xác, cập nhật và phù hợp có sẵn cho họkhi họ cần

Với sự ra đời của mạng nội bộ và các cổng thông tin công ty, EIS truyền thốngđã trở thành một phần của hệ thống thông tin doanh nghiệp Hệ thống thông tin doanhnghiệp (EIS) thường đồng nghĩa với thuật ngữ BI và các công cụ như vậy hiện đượctích hợp với thương mại điện tử và các hệ thống dựa trên Web khác [17]

Turban, et al (2002, 46) định nghĩa BI là một phân tích quyết định dựa trênmáy tính thường được thực hiện trực tuyến của các nhà quản lý và nhân viên Nó baogồm dự báo, phân tích các lựa chọn thay thế và đánh giá rủi ro và hiệu suất

Khi được định nghĩa rộng rãi để bao gồm thông tin về tất cả các yếu tố môitrường, thuật ngữ thích hợp là BI Bản chất của việc xác định BI là rất phức tạp Tuynhiên, có thể kết luận rằng BI là một loại quyết định hệ thống hỗ trợ (DSS)

Trang 35

Hệ thống hỗ trợ ra quyết định là sự sắp xếp của các công cụ máy tính được sửdụng để hỗ trợ việc ra quyết định của người quản lý trong một doanh nghiệp Một DSSthường yêu cầu dữ liệu rộng rãi để cung cấp thông tin.

2.2.2 Mục đích và chức năng của BI

Cơ sở hạ tầng BI cơ bản bao gồm cả quy trình và thực hành kinh doanh và côngnghệ các thành phần Các thành phần công nghệ được sử dụng để hỗ trợ các quy trìnhkinh doanh bao gồm các công cụ bao gồm xử lý phân tích trực tuyến (OLAP), kho dữliệu (DW), khai phá dữ liệu (DM), quản lý hiệu quả kinh doanh, kho tài liệu, khai thácvăn bản, hệ thống điều hành thông tin (EIS) và hệ thống hỗ trợ quyết định (DSS)

Theo McLeod và Schell (2001: 45–47), BI liên quan đến năm nhiệm vụ cơ bản,đó là thu thập dữ liệu, để đánh giá dữ liệu, phân tích dữ liệu, lưu trữ thông tin tình báovà phổ biến thông tin tình báo

Để thu thập dữ liệu: Tổ chức có thể thu được dữ liệu chính hoặc dữ liệu thứ cấp:Dữ liệu sơ cấp được thu thập nội bộ, dữ liệu thứ cấp được thu thập bởi ngườikhác và sau đó được tạo có sẵn cho công ty

Để đánh giá dữ liệu: Tất cả dữ liệu, thứ cấp cũng như chính, phải được đánh giátrước khi sử dụng để đảm bảo độ chính xác của chúng

Để phân tích dữ liệu: Mục đích của bước phân tích là chuyển đổi dữ liệu thànhthông minh

Để lưu trữ thông tin: Thông tin phải được lưu trữ (tốt nhất là bằng kỹ thuật số)theo cách cho phép dễ dàng thu hồi

Một cách tiếp cận tinh vi để phổ biến là chuẩn bị một hồ sơ tình báo cho mỗingười dùng, mô tả ở dạng mã hóa các chủ đề thông minh mà người dùng muốntheo dõi

Có sự khác biệt lớn giữa kho dữ liệu, trung tâm dữ liệu và BI Kho dữ liệu hoặckho dữ liệu cục bộ là kho lưu trữ dữ liệu vật lý cung cấp các công cụ và công nghệ đểquản lý dữ liệu BI bao gồm ứng dụng trên các kho dữ liệu này (Hasheem 2001)

Trang 36

Hình 2.0.8 Cơ sở hạ tầng trong BI (Gartner Group 2001)

Hình 2.0.8 minh họa cơ sở hạ tầng BI, nó sử dụng cả từ trên xuống và từ dướilên các phương pháp tiếp cận BI toàn diện bao gồm:

 Các hoạt động tích hợp thông tin: Tìm nguồn và trích xuất, chuyển đổi vàtải dữ liệu (ETL), kho lưu trữ dữ liệu vận hành (ODS), kho dữ liệu và khodữ liệu cục bộ

 Hoạt động phân tích dữ liệu: Hỗ trợ truy vấn đặc biệt, xử lý giao dịch trựctuyến (OLTP), trực tuyến xử lý phân tích (OLAP), phân tích thống kê, khaiphá dữ liệu, trực quan hóa dữ liệu, khai phá văn bản và khai phá Web

 Các hoạt động triển khai thông minh: Tạo báo cáo soạn trước và tùy chỉnh,cổng Web BI và các phương pháp triển khai khác

2.3 Marketing hướng vào dữ liệu

Thành công của chiến lược tiếp thị được đo lường bằng phản ứng của ngườitiêu dùng và các tổ chức có thể xác định thị trường và xác định các mối đe dọa và cơhội kinh doanh bằng cách sử dụng dữ liệu người tiêu dùng [18]

Trang 37

Thông tin tự nó có ít giá trị, nhưng giá trị đến từ những hiểu biết của kháchhàng được rút ra từ thông tin đó Tạo ra giá trị cho khách hàng và xây dựng mối quanhệ lâu dài đòi hỏi phải nghiên cứu sâu hơn về những mong muốn và nhu cầu của kháchhàng Sau đó, những hiểu biết này có thể được chuyển thành các quyết định tiếp thị tốthơn.

Tuy nhiên, có thể rất khó để có được thông tin chi tiết về khách hàng và thịtrường, với tư cách là khách hàng nhu cầu và động cơ mua có thể khó phân tích Tạomối quan hệ khách hàng mất rất nhiều công việc từ xác định khách hàng và nhu cầucủa họ, thiết kế các dịch vụ và định giá, để quảng bá và phát triển sản phẩm Do đó, đểcó được thông tin chi tiết về khách hàng hiệu quả, các tổ chức cần quản lý thông tintiếp thị từ nhiều nguồn

Theo định nghĩa, tiếp thị theo hướng dữ liệu liên quan đến việc thu thập và kếthợp dữ liệu từ các nguồn trực tuyến và ngoại tuyến, sau đó phân tích dữ liệu thu đượcvà thu thập thông tin chi tiết về khách hàng và hành vi của họ Do đó, nó cho phépgiao tiếp được cá nhân hóa cao với các đối tượng mục tiêu Xu hướng phân tích dữliệu đang chuyển sang dự đoán tương lai, tức là sử dụng dữ liệu để lập chiến lược vàdự đoán nhu cầu của khách hàng, nơi công nghệ đóng một vai trò quan trọng

Việc xây dựng các mô hình dự đoán giúp các công ty thiết lập các quy trình lấykhách hàng làm trung tâm và dữ liệu có thể được sử dụng để xác định nhu cầu củakhách hàng và các yếu tố ảnh hưởng đến quá trình ra quyết định của người tiêu dùng.Tích hợp phân tích dữ liệu bên trong và bên ngoài có thể giúp các công ty phát triểncác sản phẩm và các dịch vụ Lợi ích thu được có thể là nội dung phong phú hơn chokhách hàng, thu hút khách hàng mới và bảo toàn khách hàng hiện tại Cuối cùng, điềunày có thể dẫn đến việc tránh hoặc giảm chi phí và tăng năng suất và hiệu quả [19]

2.3.1 Nguồn dữ liệu

Kumar et al (2013) phân loại các nguồn dữ liệu tiếp thị thành ba nhóm: dữ liệutruyền thống, sinh lý thần kinh, dữ liệu kỹ thuật số và dữ liệu lớn, thể hiện trong Hình2.0.9:

Trang 38

Hình 2.0.9 Nguồn dữ liệu marketing [20]

2.3.1.1 Dữ liệu sinh lý thần kinh

Dữ liệu sinh lý thần kinh ngày càng trở nên phổ biến trong tiếp thị mặc dù nó làphương pháp đắt tiền để thu thập dữ liệu và có những thách thức về đạo đức Các tổchức có thể sử dụng dữ liệu sinh lý thần kinh để đọc phản ứng cảm xúc của kháchhàng, từ đó tạo thông tin chi tiết về cảm xúc chính xác hơn và có thể mở rộng

Ví dụ, theo dõi mắt có thể được sử dụng trong tiếp thị để kiểm tra sự chú ý củathị giác trong quảng cáo ngoài trời hoặc trên báo in Con mắt theo dõi có thể tạo ra kếtquả chính xác hơn về cách các thương hiệu đang thu hút sự chú ý trong kệ siêu thị sovới báo cáo của chính người tiêu dùng Ngoài ra, các kỹ thuật đo sinh lý khác nhau cóthể được sử dụng kết hợp để đo mức dương tính hoặc phản ứng tiêu cực với quảng cáohoặc tương tác với phương tiện truyền thông

2.3.1.2 Dữ liệu truyền thống

Các nguồn dữ liệu truyền thống bao gồm khảo sát, quan sát, nhóm tập trung vàcác cuộc phỏng vấn Nhiều nguồn dữ liệu truyền thống có thể chồng chéo với dữ liệukỹ thuật số như chúng cũng có thể được tiến hành trực tuyến Ví dụ, quan sát có thểđược thực hiện dưới dạng vật lý, trong một cửa hàng hoặc trực tuyến

Trang 39

2.3.1.3 Dữ liệu kỹ thuật số

Các tổ chức có quyền truy cập vào một lượng lớn dữ liệu kỹ thuật số, cả nội bộvà bên ngoài Nhiều tổ chức có cơ sở dữ liệu nội bộ phong phú, thu thập dữ liệu ngườitiêu dùng và thị trường

Khai thác tốt thông tin từ nhiều nguồn khác nhau có thể tạo ra hiệu quả nhữnghiểu biết sâu sắc về khách hàng và tạo lợi thế cạnh tranh Nội bộ cơ sở dữ liệu có thểthu thập thông tin, ví dụ về các giao dịch của khách hàng và hành vi mua, sự hài lòngcủa khách hàng hoặc các vấn đề về dịch vụ, hồ sơ bán hàng, hàng tồn kho và các hoạtđộng của đối thủ cạnh tranh

Thách thức với các loại dữ liệu nội bộ này là dữ liệu được thu thập cho các mụcđích và yêu cầu kỹ năng để tích hợp tất cả dữ liệu vào thông tin chi tiết về tiếp thị.Ngoài ra, số lượng dữ liệu rất lớn và có thể trở nên lỗi thời khá nhanh

Các tổ chức cũng có thể cải thiện việc ra quyết định chiến lược bằng cách sửdụng trí tuệ tiếp thị Thu thập và phân tích thông tin công khai về người tiêu dùng, đốithủ cạnh tranh và thị trường cho phép các tổ chức hiểu biết thêm về môi trường tiêudùng và đánh giá các đối thủ cạnh tranh và các cơ hội kinh doanh cũng như các mối đedọa tiềm ẩn

Có nhiều cách tổ chức có thể sử dụng dữ liệu kỹ thuật số, ví dụ: tìm kiếm và dữliệu dòng nhấp, cũng như dữ liệu từ các blog và mạng xã hội Các kênh truyền thôngxã hội đã trở thành rất phổ biến trong tiếp thị, nhưng các nhà tiếp thị cần hiểu rằngphương tiện truyền thông xã hội hiệu quả các chiến dịch tiếp thị cần được gắn vớichiến lược và hiệu suất của tổ chức các biện pháp

Ngoài ra, các tổ chức cần hiểu, nền tảng truyền thông xã hội nào được sử dụngbởi khách hàng hiện tại hoặc tiềm năng của họ Một dạng kỹ thuật số dữ liệu là dữ liệulớn, có ý nghĩa lớn trong kinh doanh

2.3.1.4 Big data

Ngoài các nguồn dữ liệu kỹ thuật số được đề cập ở trên, một số nguồn dữ liệumới nhất từ nguồn dữ liệu lớn là dữ liệu vị trí từ thiết bị di động và dữ liệu máy móc từIOT các ứng dụng [21]

Trang 40

Đặc điểm của dữ liệu lớn là khối lượng lớn dữ liệu và tốc độ nhanh chóng vànhiều loại dữ liệu được thu thập Do đó, dữ liệu lớn thường được đặc trưng bởi khốilượng, tốc độ và sự đa dạng Khối lượng có thể được coi là đặc điểm chính của dữ liệulớn Một lượng lớn dữ liệu được tạo ra mỗi ngày thông qua các giao dịch trực tuyến,email, video, hình ảnh, v.v và lượng dữ liệu được cho là sẽ tăng gấp đôi sau mỗi hainăm Internet of Things (IOT) là một trong những lý do chính cho sự gia tăng đáng kểvề khối lượng dữ liệu, do các thiết bị khác nhau, từ ô tô đến đồ chơi và đồ gia dụngđều được vi tính hóa Vận tốc đề cập đến việc sản xuất dữ liệu nhanh chóng

Thông qua dữ liệu lớn, các tổ chức có thể có được thông tin chi tiết về hành vicủa khách hàng nhanh chóng và có thể phản ứng với bất kỳ thay đổi nào ngay lập tức.Để tối đa hóa giá trị từ dữ liệu lớn, vận tốc cũng được yêu cầu cho tất cả các quy trình.Các nguồn của dữ liệu lớn là đa dạng và điều đó làm cho nó rất lớn về khối lượng Dữliệu lớn thay đổi từ dữ liệu có cấu trúc (ví dụ: tệp và cơ sở dữ liệu) đến dữ liệu bán cấutrúc hoặc phi cấu trúc (ví dụ: dữ liệu mạng xã hội) Dữ liệu lớn bao gồm nhiều dữ liệuhành vi phi cấu trúc hơn dữ liệu truyền thống [22]

2.3.2 Sử dụng dữ liệu

Tầm quan trọng của dữ liệu phụ thuộc vào khả năng ảnh hưởng đến các quyếtđịnh tiếp thị của nó Từ dữ liệu truyền thống và dữ liệu kỹ thuật số cùng với dữ liệulớn, các tổ chức có thể nhận được một lượng lớn thông tin về xu hướng và chuyển đổithị trường cũng như phân khúc khách hàng Điều này giúp tổ chức đưa ra các quyếtđịnh chiến lược

Do đó, khai phá dữ liệu là cần thiết để xử lý và phân tích số lượng lớn dữ liệu.Để có được thông tin chi tiết hiệu quả nhất, các tổ chức cần kết hợp cả nghiên cứu thịtrường truyền thống và khai phá dữ liệu Nghiên cứu thị trường cung cấp hiểu biết sâusắc ở cấp độ vĩ mô, nhưng khai phá dữ liệu giúp xác định thông tin ẩn mà không thểlấy được thông qua các phương pháp truyền thống [23]

Một khía cạnh quan trọng của việc sử dụng dữ liệu là để thành công, các tổchức cần tạo ra toàn bộ chân dung khách hàng của họ thay vì chỉ một loạt ảnh chụpnhanh Điều này có nghĩa rằng các tổ chức cần thu thập và kết hợp tất cả dữ liệu từ

Ngày đăng: 11/07/2021, 11:19

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[4] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, ‘The KDD process for extracting useful knowledge from volumes of data’, Commun. ACM, vol. 39, no.11, p.27–34, Nov. 1996 Sách, tạp chí
Tiêu đề: ACM
[20] V. Kumar et al., ‘Data driven services marketing in a connected world’, ‐ Journal of Service Management, vol. 24, no. 3, p.330–352, Jun. 2013 Sách, tạp chí
Tiêu đề: et al
[22] I. Yaqoob et al., ‘Big Data: From Beginning to Future’, International Journal of Information Management, vol. 36, Dec. 2016 Sách, tạp chí
Tiêu đề: et al
[1] M. Gilchrist, D. L. Mooers, G. Skrubbeltrang, and F. Vachon, ‘Knowledge Discovery in Databases for Competitive Advantage’, Journal of Management and Strategy, vol.3, no.2, Apr. 2012 Khác
[2] U. Fayyad, G. Piatetsky-Shapiro, and P. Smyth, ‘Knowledge Discovery and Data Mining: Towards a Unifying Framework’, p.7, 1996 Khác
[3] Anthony Liew, ‘Journal of Knowledge Management Practice’, vol.8, no.2, June 2007 Khác
[5] M. North, Data mining for the masses. S.I.: Global Text Project, 2012 Khác
[6] Ruhuh Sarker et al ‘Introducing Data Mining and Knowledge Discovery’, ResearchGate, Jan. 2000 Khác
[7] A. Manasson, ‘A Not So Secret Way Of Becoming A Better Data Scientist’, Medium, Feb. 09, 2020 Khác
[8] M.Sadiku,A.Shadare, and S. Musa, ‘Data mining: A brief introduction’, European Scientific Journal, Jul. 2015 Khác
[9] V. Duc and L. Hai Khoi, ‘Một số nguyên lý hoạt động của kho dữ liệu (Data warehouse)’, Journal of Computer Science and Cybernetics, vol. 15, p. 27–32, Feb.2016 Khác
[10] D. Kuonen, ‘Data Mining and Statistics: What is the Connection?’, The Data Administration Newsletter, Jan. 2004 Khác
[11] Y. Bassil, ‘A Survey on Information Retrieval, Text Categorization, and Web Crawling’, Journal of Computer Science, vol.1, no.6, p.11, 2012 Khác
[12] R. Bunker and F. Thabtah, ‘A Machine Learning Framework for Sport Result Prediction’, Applied Computing and Informatics, vol. 15, Sep. 2017 Khác
[13] M. Zekic-Susac and A. Has, ‘Data Mining as Support to Knowledge Management in Marketing’, Business Systems Research Journal, vol. 6, Sep. 2015 Khác
[14] S. S. Kadiyala and A. Srivastava, ‘Data Mining For Customer Relationship Management’, IBER, vol. 1, no. 6, Mar. 2011 Khác
[15] B. Koester, ‘Data mining and search techniques in the biotechnology and Web environment: a comparison’, SA Journal of Information Management, vol.3, Dec.2001 Khác
[16] V. A. Petrushin and L. Khan, Eds, Multimedia data mining and knowledge discovery. London: Springer, 2007 Khác
[17] J. O’Brien and J. A. Kok, ‘Business intelligence and the telecommunications industry: Can business intelligence lead to higher profits?’ vol.8, no.3, Dec. 2006 Khác
[18] Admin, ‘Michael Solomon - Consumer Behavior - From CSI’, Conference Speakers International, Jun. 11, 2019 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w