Trong khóa luận đã vận dụng các phương pháp khai phá dữ liệu như phân cụm (clustering methods) và luật kết hợp (association rules) để nghiên cứu bài toán phân khúc khách hàng. Một số thuật toán được dùng là K-means sử dụng Elbow để chọn cụm k và Apriori vốn là các thuật toán nổi tiếng đã được ứng dụng trong nhiều lĩnh vực. Ngoài ra, để kết quả trở nên có ý nghĩa em kết hợp thêm phương pháp thống kê Kruskal Wallis để kiểm định lại kết quả phân cụm. Các kết quả được trực quan hóa dữ liệu bằng Power BI Mục đích của bài nghiên cứu này là tìm ra các phân khúc thị trường thực sự có ý nghĩa hỗ trợ hoạt động bán hàng cho siêu thị.
Trang 1ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC KINH TẾ
KHÓA LUẬN TỐT NGHIỆP
Chuyên ngành: Thương mại điện tử
Đề tài:
PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC NGHIỆM DỮ LIỆU TẠI MỘT SIÊU THỊ)
Nguyễn Thị Phượng 171121522143 43K22
Trang 2TRANG BÌA PHỤ
ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC KINH TẾ
KHÓA LUẬN TỐT NGHIỆP
Chuyên ngành: Thương mại điện tử
Đề tài:
PHÂN TÍCH HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM HỖ TRỢ HOẠT ĐỘNG BÁN HÀNG (THỰC NGHIỆM DỮ LIỆU TẠI MỘT SIÊU THỊ)
Nguyễn Thị Phượng 171121522143 43K22
43
TS Lê Diên Tuấn ThS Trần Văn Lộc
Trang 3TÓM TẮT
Trên thế giới, các tập đoàn lớn từ Ford đến Apple đã chi hàng tỷ đô la để phântích hành vi khách hàng Họ muốn biết người tiêu dùng đưa ra quyết định mua như thếnào và điều gì ảnh hưởng đến những quyết định đó để phát triển kinh doanh cũng nhưphát triển chiến lược Marketing Trong bối cảnh thời đại công nghệ 4.0 các doanhnghiệp thực hiện triển khai doanh nghiệp số do đó việc phân tích hành vi khách hàngdựa vào dữ liệu là một xu thế Chính vì vậy tôi đã chọn để tài “Phân tích hành vi kháchhàng dựa vào kỹ thuật khai phá dữ liệu nhằm nâng cao hiệu quả bán hàng vàmarketing online”
Mục đích nghiên cứu của đề tài là hệ thống hóa những vấn đề lý luận liên quanđến hành vi khách hàng dựa vào kỹ thuật khai phá dữ liệu như trực quan hóa dữ liệu,phân cụm và luật kết hợp Sau đó phân tích tiến hành đề xuất những giải pháp nhằmnâng cao hiệu quả bán hàng và marketing online cho siêu thị
Trang 4LỜI CAM ĐOAN
Tôi xin cam đoan đề tài luận văn “Phân tích hành vi khách hàng dựa vào kỹthuật khai phá dữ liệu nhằm nâng cao hiệu quả bán hàng và marketing online” là côngtrình nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của TS Lê Diên Tuấn vàThS Trần Văn Lộc
Bài báo cáo luận văn có sử dụng một số tài liệu tham khảo được trích dẫn cụ thểở mục tài liệu tham khảo Nếu phát hiện có bất kỳ sự gian lận nào tôi xin hoàn toànchịu trách nhiệm về nội dung bài báo cáo của mình
Đà Nẵng, ngày 27 tháng 12 năm 2020
Sinh viên thực hiệnNguyễn Thị Phượng
Trang 5LỜI CẢM ƠN
Trong lời đầu tiên của báo cáo luận văn này, tôi muốn gửi lời cảm ơn và biết ơnsâu sắc nhất của mình tới hai Thầy TS Lê Diên Tuấn và ThS Trần Văn Lộc – Giảngviên khoa Thương mại điện tử, Trường ĐH Kinh Tế-ĐH Đà Nẵng, người đã trực tiếpnhận xét, hỗ trợ và chỉ bảo tôi rất nhiều trong thời gian tôi thực hiện luận văn
Xin chân thành cảm ơn Thầy cô trong khoa Thương mại điện tử và các phòngban đã tạo điều kiện tốt nhất cho tôi trong suốt thời gian tôi được học tập tại trường
Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè đặc biệt là những ngườibạn trong nhóm The Zoo đã động viên tôi trong quá trình học tập và làm đề tài
Do sự hạn chế về kiến thức cũng như thời gian thực hiện nên luận văn chắcchắn sẽ không tránh khỏi những thiếu sót Tôi rất mong nhận được ý kiến đóng gópcủa quý Thầy cô để có thêm kinh nghiệm hoàn thiện luận văn của mình hơn
Tôi xin chân thành cảm ơn!
Đà Nẵng, ngày 27 tháng 12 năm 2020
Sinh viên thực hiệnNguyễn Thị Phượng
Trang 6MỤC LỤC
TÓM TẮT i
LỜI CAM ĐOAN ii
LỜI CẢM ƠN iii
MỤC LỤC iv
DANH MỤC CÁC BẢNG BIỂU vii
DANH MỤC HÌNH VẼ ĐỒ THỊ viii
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT xi
CHƯƠNG 1: 13
GIỚI THIỆU TỔNG QUAN 13
1.1 Tính cấp thiết của đề tài 13
1.2 Mục tiêu nghiên cứu 14
1.2.1 Lý thuyết 14
1.2.2 Ứng dụng 14
1.3 Đối tượng, phạm vi nghiên cứu 14
1.4 Phương pháp nghiên cứu 14
1.5 Kết cấu đề tài 15
CHƯƠNG 2: 16
CƠ SỞ LÝ THUYẾT 16
2.1 Tổng quan khai phá dữ liệu 16
2.1.1 Khái niệm 16
2.1.2 Sự liên ngành của hệ thống khai phá dữ liệu 20
2.1.3 Các loại dữ liệu sử dụng 24
2.1.4 Hướng tiếp cận và kỹ thuật chính trong khai phá dữ liệu 24
2.1.5 Một số ứng dụng khai phá dữ liệu 26
2.2 Cơ sở hạ tầng kinh doanh thông minh (Business Intelligence) 32
Trang 72.2.1 Khái niệm 32
2.2.2 Mục đích và chức năng của BI 32
2.3 Marketing hướng vào dữ liệu 34
2.3.1 Nguồn dữ liệu 35
2.3.2 Sử dụng dữ liệu 38
2.4 Một số kỹ thuật khai phá dữ liệu 43
2.4.1 Phân lớp 43
2.4.2 Phân cụm 43
2.4.3 Luật kết hợp 47
2.5 Giới thiệu một số công cụ phần mềm hỗ trợ 52
2.5.1 Phần mềm chạy thuật toán khai phá dữ liệu 52
2.5.2 Phần mềm trực quan hóa dữ liệu 55
CHƯƠNG 3: 57
PHÂN TÍCH THỰC TRẠNG HÀNH VI KHÁCH HÀNG DỰA VÀO KỸ THUẬT KHAI PHÁ DỮ LIỆU 57
3.1 Mô tả dữ liệu bán hàng tại siêu thị 57
3.2 Trực quan hóa dữ liệu bán hàng 60
3.2.1 Thông tin về khách hàng 60
3.2.2 Doanh số bán hàng của siêu thị 62
3.3 Phân cụm dữ liệu bằng Rstudio Cloud 65
3.3.1 Mô tả dữ liệu 65
3.3.2 Các kết quả phân tích chính 69
3.3.3 Kết luận 82
3.4 Kiểm định phân cụm 83
3.5 Ứng dụng luật kết hợp 86
3.4.1 Tiền xử lý dữ liệu 86
Trang 83.4.2 Thuật toán Apriori 88
3.4.3 Tìm các luật liên quan đến các mặt hàng nhất định 88
3.4.4 Trực quan hóa các luật kết hợp 89
3.4.5 Ý nghĩa 91
CHƯƠNG 4: 92
ĐỀ XUẤT GIẢI PHÁP NHẰM NÂNG CAO HIỆU QUẢ BÁN HÀNG VÀ MARKETING ONLINE, HƯỚNG PHÁT TRIỂN CỦA ĐỂ TÀI 92
4.1 Giải pháp nâng cao hiệu quả bán hàng 92
4.1.1 Giải pháp về chính sách sản phẩm 92
4.1.2 Giải pháp về hợp lý hóa tổ chức bán hàng 93
4.1.3 Giải pháp đối với nhóm khách hàng mục tiêu 94
4.2 Giải pháp đối với marketing online 96
4.2.1 Chiến lược email marketing dựa vào kết quả phân cụm 96
4.2.2 Chạy quảng cáo Google Ads 98
4.2.3 Xây dựng các chương trình tiếp thị liên kết 100
CHƯƠNG 5: 102
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN CỦA ĐỀ TÀI 102
5.1 Kết luận 102
5.2 Hướng phát triển của đề tài 103
TÀI LIỆU THAM KHẢO 108
PHỤ LỤC 111
XÁC NHẬN ĐƠN VỊ THỰC TẬP 112
NHẬN XÉT CỦA GIÁO VIÊN HƯỚNG DẪN 113
NHẬN XÉT CỦA GIÁO VIÊN PHẢN BIỆN 114
Trang 9DANH MỤC CÁC BẢNG BIỂU
Bảng 3-1 Mô tả thuộc tính 57
Bảng 3-2.Dữ liệu giao dịch khách hàng 58
Bảng 3-3 Mẫu dữ liệu phân cụm 66
Bảng 3-4 Dữ liệu cụm 1 71
Bảng 3-5 Kiểm định Kruskall – Wallis cho các cụm 84
Bảng 3-6 Các chỉ số thống kê kiểm định Kruskal Wallis H 86
Trang 10DANH MỤC HÌNH VẼ ĐỒ THỊ
Hình 2.0.1 Quá trình khai phá tri thức [4] 16
Hình 2.0.2 Quá trình khai phá dữ liệu 18
Hình 2.0.3 Tiến trình CRISP - DM [7] 19
Hình 2.0.4 Khai phá dữ liệu từ nhiều lĩnh vực [8] 20
Hình 2.0.5 Các vấn đề về học máy [12] 24
Hình 2.0.6 Mô hình tích hợp DM và KM trong Marketing [13] 26
Hình 2.0.7 Khai phá dữ liệu trong CRM [14] 27
Hình 2.0.8 Cơ sở hạ tầng trong BI (Gartner Group 2001) 34
Hình 2.0.9 Nguồn dữ liệu marketing [20] 36
Hình 2.0.10 Quá trình phân cụm [26] 44
Hình 2.0.11 Phương pháp Elbow 46
Hình 2.0.12 Ký hiệu các tập mục 49
Hình 2.0.13 Mô tả thuật toán Apriori [30] 50
Hình 2.0.14 Mô tả thuật toán FP-growth [32] 51
Hình 3.0.1 Mối quan hệ giữa số lượng khách hàng theo các thuộc tính 60
Hình 3.0.2 Mối quan hệ giữa hình thức thanh toán và các thuộc tính 61
Hình 3.0.3 Số lượng khách mua sắm và doanh thu theo tháng 62
Hình 3.0.4 Số lượng khách hàng và doanh thu ở mỗi chi nhánh 63
Hình 3.0.5 Số lượng khách mua và doanh thu theo các danh mục 64
Hình 3.0.6 Top 10 hóa đơn có doanh thu lớn nhất 65
Hình 3.0.7 Thống kê mô tả dữ liệu trước khi tiền xử lý 67
Hình 3.0.8 Thống kê mô tả dữ liệu sau khi xử lý NA 68
Hình 3.0.9 Biểu đồ boxplot để tìm Outliers 68
Hình 3.0.10 Biểu đồ boxplot sau khi xử lý Outliers 69
Trang 11Hình 3.0.11 Số cụm tối ưu theo phương pháp Elbow 70
Hình 3.0.12 Kết quả phân cụm với k=4 71
Hình 3.0.13 Dữ liệu của cụm 1.1 73
Hình 3.0.14 Đặc điểm khách hàng cụm 1.1 73
Hình 3.0.15 Khách hàng theo giới tính, thanh toán, loại khách hàng 74
Hình 3.0.16 Dữ liệu cụm 1.2 74
Hình 3.0.17 Đặc điểm khách hàng cụm 1.2 75
Hình 3.0.18 Khách hàng theo giới tính, thanh toán, loại khách hàng 75
Hình 3.0.19 Dữ liệu cụm 1.3 76
Hình 3.0.20 Đặc điểm khách hàng cụm 1.3 76
Hình 3.0.21 Dữ liệu cụm 1.4 77
Hình 3.0.22 Đặc điểm khách hàng cụm 1.4 77
Hình 3.0.23 Khách hàng theo giới tính, thanh toán, loại khách hàng 78
Hình 3.0.24 Dữ liệu cụm 2 78
Hình 3.0.25 Đặc điểm khách hàng cụm 2 79
Hình 3.0.26 Dữ liệu cụm 3 79
Hình 3.0.27 Đặc điểm khách hàng cụm 3 80
Hình 3.0.28 Khách hàng theo giới tính, thanh toán, loại khách hàng 80
Hình 3.0.29 Dữ liệu cụm 4 81
Hình 3.0.30 Đặc điểm khách hàng cụm 4 81
Hình 3.0.31 Khách hàng theo giới tính, thanh toán, loại khách hàng 82
Hình 3.0.32 Tiền xử lý dữ liệu 87
Hình 3.0.33 Lưu thành file csv 87
Hình 3.0.34 Luật kết hợp với support = 5%, confidence = 80% 88
Hình 3.0.35 Loại bỏ các luật thừa 88
Trang 12Hình 3.0.36 Luật kết hợp liên quan đến dây nhảy (Rope) 89
Hình 3.0.37 Luật kết hợp liên quan đến dây nhảy 89
Hình 3.0.38 Biểu đồ scatter biểu diễn luật kết hợp 90
Hình 3.0.39 Biểu diễn mối quan hệ của các luật 90
Hình 3.0.40 Biểu diễn luật kết hợp 91
Hình 4.0.1 Cách sắp xếp kệ trong siêu thị 93
Hình 4.0.2 Gửi bài đăng khuyến mại cho khách hàng bằng Zalo Pro 94
Hình 4.0.3 Giao diện Zalo Pro và thiết lập các thuộc tính 95
Hình 4.0.4 Tiến trình gửi mail cho khách hàng 96
Hình 4.0.5 Giao diện phần mềm gửi mail Blinkcontact 97
Hình 4.0.6 Chức năng tạo danh sách liên hệ trong Blinkcontact 98
Hình 4.0.7 Tiến trình chạy quảng cáo với Google Display Network 98
Hình 4.0.8 Thiết lập mục tiêu chạy quảng cáo trong GDN 99
Hình 4.0.9 Chạy quảng cáo theo khu vực vị tri địa lý 100
Hình 4.0.10 Tiến trình tiếp thị liên kết 100
Hình 5.0.1 Hướng giải pháp tiếp thị hướng dữ liệu 103
Hình 5.0.2 Giải pháp với mạng neuron để tìm ra nhóm khách hàng 104
Hình 5.0.3 Giải pháp với mạng neuron để dữ báo doanh thu 105
Trang 13DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
STT Ký hiệu Nguyên nghĩa
1 KDD Knowledge Discovery in Database (Phát hiện tri
thức trong cơ sở dữ liệu)
2 DM Data Mining (Khai phá dữ liệu)
3 CRISP-DM Cross- Industry Standard Process for Data Mining
(Quy trình tiêu chuẩn xuyên ngành cho khai phá dữ liệu)
4 IR Information Retrieval (Truy xuất thông tin)
5 KM Knowledge Management (Quản lý tri thức)
6 CRM Customer Relationship Management (Quản trị
quan hệ khách hàng)
7 BI Business Intelligence (Kinh doanh thông minh)
8 DSS Decision Support System (Hệ thống hỗ trợ ra
quyết định)
10 EIS Executive Information System (Hệ thống điều
hành thông tin)
11 ETL Extract – Transform – Load (Trích xuất - Chuyển
đổi – Tải)
12 ODS Operational Data Store (Kho lưu trữ dữ liệu vận
hành)
13 OLTP On-line Transactional Processing (Tiến trình xử lý
giao dịch trực tuyến)
14 OLAP On-line Analytical Processing (Tiến trình phân
tích trực tuyến)
Trang 1415 EM Expectation Maximization (Tối đa hóa sự kỳ
vọng)
16 FP Frequent Pattern (Tập phổ biến)
17 SPSS Statistical Package for the Social Sciences (Gói
phần mềm thống kê cho khoa học xã hội)
18 GDN Google Display Network (Mạng lưới quảng cáo
hiển thị Google)
Trang 15Có thể nói, dữ liệu thông tin khách hàng đóng vai trò quan trọng trong trungtâm hệ sinh thái kinh doanh của mỗi doanh nghiệp Tuy nhiên, từ dữ liệu đó làm thếnào để có được những kết quả chính xác phục vụ cho việc nâng cao hiệu quả bán hànghay hỗ trợ đưa ra những giải pháp marketing online thì vẫn còn là vấn đề nan giải củanhiều doanh nghiệp.
Tại Việt Nam, thói quen mua sắm của người tiêu dùng tại các đô thị dần thayđổi dưới sự phát triển của thương mại điện tử Với sự tiện nghi và an toàn có thể thấyngười tiêu dùng chuyển hướng sang mua sắm tại siêu thị tăng dần Các giao dịch muasắm của khách hàng được lưu lại trong cơ sở dữ của siêu thị đã tạo ra một nhu cầu rấtcấp thiết về các kỹ thuật và công cụ có thể chuyển đổi dữ liệu thành thông tin và kiến thức hữu ích nhằm hỗ trợ trong kinh doanh Những nhà quản lý siêu thị mong muốntìm ra được những thông tin có giá trị, những hành vi mua sắm của khách hàng nhằmhỗ trợ chiến lược marketing online hiệu quả cũng như hỗ trợ phát triển bán hàng chodoanh nghiệp
Từ nhận định những vấn đề đã phân tích ở trên, tôi đã quyết định chọn đề tàikhóa luận tốt nghiệp “Phân tích hành vi khách hàng dựa vào kỹ thuật khai phá dữ liệunhằm nâng cao hiệu quả bán hàng và Marketing online” với dữ liệu xây dựng thựcnghiệm từ siêu thị
Trang 161.2 Mục tiêu nghiên cứu
1.2.1 Lý thuyết
- Tìm hiểu khái quát quy trình khai phá dữ liệu và phát hiện tri thức dựa vào dữliệu, nắm được lý thuyết cơ bản về môi trường BI có liên quan đến khai phá dữliệu
- Hệ thống hóa được các kỹ thuật cơ bản trong khai phá dữ liệu như phân cụm,luật kết hợp
- Nắm được bản chất về marketing online đặc biệt một số lý thuyết liên quan đếnmarketing online hướng vào dữ liệu
1.3 Đối tượng, phạm vi nghiên cứu
Đối tượng nghiên cứu: dữ liệu siêu thị từ cộng đồng nghiên cứu Kaggle
Mẫu nghiên cứu: 500 khách hàng mua sắm tại siêu thị
Thời gian nghiên cứu: từ tháng 9 đến tháng 12 năm 2020
1.4 Phương pháp nghiên cứu
Đề tài sử dụng kết hợp nhiều phương pháp nghiên cứu, với một số phương phápđược liệt kê như sau:
Phương pháp thống kê mô tả
Phương pháp thống kê suy luận
Phương pháp tổng hợp
Phương pháp data mining
Trang 17Phương pháp mô hình hóa
1.5 Kết cấu đề tài
Kết cấu khóa luận bao gồm 4 chương:
Chương 1: Giới thiệu tổng quan
Chương 2: Cơ sở lý thuyết
Chương 3: Phân tích thực trạng hành vi khách hàng dựa vào kỹ thuật khai phá
Trang 18CHƯƠNG 2:
CƠ SỞ LÝ THUYẾT 2.1 Tổng quan khai phá dữ liệu
2.1.1 Khái niệm
Phát hiện tri thức từ cơ sở dữ liệu
Phát hiện tri thức trong cơ sở dữ liệu (Knowledge Discovery in Database –KDD) là một quá trình quan trọng để xác định các mẫu hoặc mối quan hệ hợp lệ, mớilạ có thể hữu ích và cuối cùng là dễ hiểu trong tập dữ liệu để đưa ra các quyết địnhquan trọng ( Fayyad, Piatetsky-shapiro, & Smyth, 1996 ) [2]
Để bắt đầu phát hiện tri thức cần phân biệt rõ ba khái niệm: dữ liệu, thông tin vàtri thức Dữ liệu là tín hiệu (signals) thu được do quan sát, đo dạc, thu thập, cụ thể dữliệu là giá trị (values) của các thuộc tính (features) của các đối tượng Thông tin là dữliệu có ý nghĩa (data equiped with meaning), thu được khi xử lý dữ liệu để lọc bỏ đicác phần dư thừa, tìm ra phần cốt lõi đặc trưng cho dữ liệu Kiến thức là nhận thứchoặc công nhận, năng lực hành động và hiểu (biết tại sao) nằm trong hoặc chứa trongtâm trí hoặc trong não Mục đích của kiến thức là cải thiện cuộc sống của chúng
ta Trong bối cảnh kinh doanh, mục đích của kiến thức là tạo ra hoặc gia tăng giá trịcho doanh nghiệp và tất cả các bên liên quan Tóm lại, mục đích cuối cùng của tri thứclà để tạo ra giá trị [3]
Trong hình dưới đây thấy được quá trình phát hiện tri thức gồm nhiều giai đoạn.Đầu ra của giai đoạn này là đầu vào của giai đoạn sau, quá trình phát hiện tri thức gồmcác bước cơ bản sau:
Hình 2.0.1 Quá trình khai phá tri thức [4]
Trang 19Chọn lọc dữ liệu (Data selection): Giai đoạn này thực hiện hai công việc chính.Thứ nhất, phát triển và tìm hiểu miền ứng dụng Thứ hai tạo tập dữ liệu đích từ nguồndữ liệu vô cùng lớn Kết quả của bước này là dữ liệu mục tiêu (Target data).
Tiền xử lý dữ liệu (Data preprocessing): bao gồm xử lý dữ liệu bị nhiễu vàthiếu Giai đoạn này cũng đảm bảo các giá trị có ý nghĩa thống nhất tạo ra quy trìnhKDD có kết quả chính xác Kết quả của bước này là dữ liệu được làm sạch (Cleaneddata) hoặc dữ liệu được tiền xử lý ( Pre-processed data)
Chuyển đổi dữ liệu (Data transformation): Quá trình này là giai đoạn xử lý dữliệu cuối cùng trước khi áp dụng các kỹ thuật phân tích dữ liệu Nó bao gồm việc tìmkiếm các thuộc tính hữu ích bằng cách áp dụng các phương pháp biến đổi và giảm thứnguyên, đồng thời tìm cách biểu diễn bất biến của dữ liệu Kết quả của tiến trình này làdữ liệu được biến đổi (Transformed data)
Khai phá dữ liệu (Data mining): Quá trình này bao gồm ba bước hoặc nhiệm vụcon Đầu tiên, chọn nhiệm vụ khai thác dữ liệu bằng cách so với các mục tiêu đượcxác định trong giai đoạn đầu với một phương pháp khai thác dữ liệu cụ thể như phâncụm, hồi quy, phân lớp, v.v Thứ hai, chọn (các) thuật toán khai thác dữ liệu và chọn(các) phương pháp và tham số để tìm kiếm các mẫu trong dữ liệu Thứ ba, áp dụng(các) thuật toán khai thác dữ liệu để tạo ra các mẫu dữ liệu trong một dạng biểu diễncụ thể Kết quả của giai đoạn này là mẫu (Patterns) và mô hình (Models)
Đánh giá kết quả mẫu (Interpretation/Evaluation): Quá trình này bao gồm haibước Đầu tiên, diễn giải các mẫu đã khai thác Bước này cũng có thể bao gồm việctrực quan hóa các mẫu và mô hình được trích xuất hoặc dữ liệu được trích xuất từ các
mô hình được trích xuất Thứ hai, củng cố kiến thức đã khám phá bằng cách kết hợpkiến thức đó vào hệ thống thực hiện, hoặc đơn giản là tài liệu hóa và báo cáo cho cácbên mong muốn Bước này có thể bao gồm việc kiểm tra và khắc phục mọi xung độttiềm ẩn với kiến thức đã tin trước đó Kết quả của quá trình này là kiến thức tiềm năng(Knowledge) [5]
Khai phá dữ liệu
Khai phá dữ liệu (Data mining - DM) là một khái niệm có nguồn gốc ra đời vàonhững năm cuối những năm 1980 Nó là quá trình trích xuất thông tin ẩn, ngầm mới lạ
Trang 20và hữu ích từ trong các kho dữ liệu, cơ sở dữ liệu để ứng dụng vào những quyết địnhkinh doanh hoặc những lĩnh vực khác [6].
Các bước của quá trình khai phá dữ liệu có thể được mô tả dưới sơ đồ sau:
Hình 2.0.2 Quá trình khai phá dữ liệu
Quy trình xử lý khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đềcần giải quyết Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải phápgiải quyết nhiệm vụ bài toán
Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành dạngsao cho giải thuật khai phá dữ liệu có thể hiểu được Đây thực sự là một quá trình rấtkhó khăn, gặp phải rất nhiều vướng mắc như: các dữ liệu phải được sao ra nhiều bản(nếu được chiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiềulần toàn bộ quá trình (nếu mô hình dữ liệu thay đổi),… Do đó, trong bước này phảithực hiện tiền xử lý dữ liệu Quá trình tiền xử lý yêu cầu đầu tiên phải nắm được dạngdữ liệu, thuộc tính, mô tả của dữ liệu thao tác Sau đó tiến hành 4 giai đoạn chính: làmsạch, tích hợp, biến đổi, thu giảm dữ liệu
Bước tiếp theo trong quy trình khai phá dữ liệu là chọn thuật toán khai phá dữliệu thích hợp và thực hiện việc khai phá nhằm tìm được các mẫu có ý nghĩa dưới dạngbiểu diễn tương ứng với ý nghĩa đó
CRISP-DM (Cross Industry Standard Process for Data Mining)
Ngày nay, các nhà nghiên cứu với sự tham gia mạnh mẽ trong lĩnh vực côngnghiệp đã nhận ra nhu cầu từ DM đến KDD để cung cấp kiến thức hữu ích cho việc ra
Trang 21quyết định kinh doanh Theo truyền thống, một tiêu chuẩn, được đặt tên là CRISP-DM(Cross Industry Standard Process for Data Mining).
Hình 2.0.3 Tiến trình CRISP - DM [7]
Hiểu biết kinh doanh: Giai đoạn này tập trung vào việc hiểu các mục tiêu dự ánvà các yêu cầu từ quan điểm kinh doanh
Hiểu dữ liệu: Giai đoạn hiểu dữ liệu bắt đầu với việc thu thập dữ liệu ban đầuvà tiến hành các hoạt động để làm quen với dữ liệu, xác định dữ liệu vấn đềchất lượng, để khám phá thông tin chi tiết đầu tiên về dữ liệu hoặc phát hiện cáctập hợp con thú vị để hình thành các giả thuyết cho thông tin ẩn
Chuẩn bị dữ liệu: Giai đoạn chuẩn bị dữ liệu bao gồm tất cả các hoạt động cầnthiết để xây dựng tập dữ liệu cuối cùng từ dữ liệu thô ban đầu Các nhiệm vụchuẩn bị dữ liệu có thể được thực hiện lặp đi lặp lại và không theo bất kỳ thứ tựquy định nào
Mô hình hóa: Trong giai đoạn này, các kỹ thuật mô hình hóa khác nhau đượclựa chọn và áp dụng và các tham số của chúng được hiệu chỉnh đến giá trị tối
ưu Thông thường, có một số kỹ thuật cho cùng một loại vấn đề DM Một số kỹthuật có các yêu cầu cụ thể về dạng dữ liệu
Trang 22Đánh giá: Từ góc độ phân tích dữ liệu, các mô hình có vẻ chất lượng cao sẽđược xây dựng trong giai đoạn này của dự án Trước khi chuyển sang mô hìnhcuối cùng triển khai, điều quan trọng là phải đánh giá mô hình kỹ lưỡng hơn vàxem xét các bước thực hiện để xây dựng nó để chắc chắn rằng nó đạt được cácmục tiêu kinh doanh Tại cuối giai đoạn này, cần đạt được quyết định về cáchsử dụng các kết quả DM.
Triển khai: Xây dựng mô hình nói chung không phải là kết thúc của dự án.Thậm chí nếu mục đích của mô hình là tăng cường kiến thức về dữ liệu, kiến thức thu được sẽ cần được tổ chức và trình bày theo cách mà khách hàng có thểsử dụng
2.1.2 Sự liên ngành của hệ thống khai phá dữ liệu
Khai phá dữ liệu đã kết hợp nhiều kỹ thuật từ các lĩnh vực khác như thống kê,học máy, nhận dạng mẫu, cơ sở dữ liệu và hệ thống kho dữ liệu, truy xuất thông tin,trực quan hóa, thuật toán, tính toán hiệu suất cao và nhiều miền ứng dụng khác Bảnchất liên ngành của nghiên cứu và phát triển khai phá dữ liệu đóng góp đáng kể vào sựthành công của khai phá dữ liệu và các ứng dụng rộng rãi của nó
Khai phá dữ liệu có nguồn gốc liên quan đến các lĩnh vực sau:
Hình 2.0.4 Khai phá dữ liệu từ nhiều lĩnh vực [8]
Hệ thống cơ sở dữ liệu và kho dữ liệu
Nghiên cứu hệ thống cơ sở dữ liệu chủ đích để tạo, duy trì và sử dụng cơ sở dữliệu cho các tổ chức và người dùng cuối Đặc biệt, các nhà nghiên cứu hệ thống cơ sởdữ liệu đã thiết lập các nguyên tắc được công nhận cao trong mô hình dữ liệu, ngôn
Trang 23ngữ truy vấn, phương pháp xử lý và tối ưu hóa truy vấn, lưu trữ dữ liệu cũng nhưphương pháp lập chỉ mục và truy cập Hệ thống cơ sở dữ liệu thường được biết đến vớikhả năng mở rộng cao trong việc xử lý các tập dữ liệu rất lớn, có cấu trúc tương đối.
Các hệ thống cơ sở dữ liệu gần đây đã xây dựng khả năng phân tích dữ liệu cóhệ thống trên dữ liệu cơ sở dữ liệu bằng cách sử dụng kho dữ liệu và các phương tiệnkhai thác dữ liệu Kho dữ liệu tích hợp dữ liệu có nguồn gốc từ nhiều nguồn và nhiềukhung thời gian khác nhau [9] Nó hợp nhất dữ liệu trong không gian đa chiều để tạothành các khối dữ liệu được vật chất hóa một phần Mô hình khối dữ liệu không chỉtạo điều kiện cho OLAP trong cơ sở dữ liệu đa chiều mà còn thúc đẩy khai thác dữ liệu
đa chiều
Thống kê
Thống kê nghiên cứu việc thu thập, phân tích, hoặc giải thích và trình bày dữliệu Khai phá dữ liệu có một kết nối cố hữu với thống kê [10] Mô hình thống kê làmột tập hợp các hàm toán học mô tả hành vi của các đối tượng trong lớp mục tiêu dướidạng các biến ngẫu nhiên và phân phối xác suất liên quan của chúng Mô hình thống
kê được sử dụng rộng rãi để biểu diễn mô hình dữ liệu và các lớp dữ liệu
Chẳng hạn như, trong các tác vụ khai phá dữ liệu như đặc tính và phân loại dữliệu, có thể xây dựng các mô hình thống kê của các lớp mục tiêu Nói cách khác, các
mô hình thống kê như vậy có thể là kết quả của một nhiệm vụ khai thác dữ liệu Ngoài
ra, các nhiệm vụ khai thác dữ liệu có thể được xây dựng dựa trên các mô hình thống
kê Ví dụ, chúng ta có thể sử dụng thống kê để lập mô hình nhiễu và các giá trị dữ liệubị thiếu Sau đó, khi khai thác các mẫu trong một tập dữ liệu lớn, quá trình khai phá dữliệu có thể sử dụng mô hình để giúp xác định và xử lý các giá trị bị nhiễu hoặc bị thiếutrong dữ liệu
Nghiên cứu thống kê phát triển các công cụ để dự đoán và dự báo bằng cách sửdụng dữ liệu và mô hình thống kê Phương pháp thống kê có thể được sử dụng để tómtắt hoặc mô tả một tập hợp dữ liệu
Áp dụng các phương pháp thống kê trong khai thác dữ liệu không phải là điềutầm thường Thông thường, một thách thức nghiêm trọng là làm thế nào để mở rộngmột phương pháp thống kê trên một tập dữ liệu lớn Nhiều phương pháp thống kê có
Trang 24độ phức tạp cao trong tính toán Khi các phương pháp này được áp dụng trên các tậpdữ liệu lớn cũng được phân phối trên nhiều vị trí logic hoặc vật lý, các thuật toán nênđược thiết kế và điều chỉnh cẩn thận để giảm chi phí tính toán Thách thức này thậmchí còn trở nên khó khăn hơn đối với các ứng dụng trực tuyến, chẳng hạn như đề xuấttruy vấn trực tuyến trong công cụ tìm kiếm, nơi yêu cầu khai thác dữ liệu để liên tụcxử lý các luồng dữ liệu nhanh, theo thời gian thực.
Học máy
Máy học nghiên cứu cách máy tính có thể học (hoặc cải thiện hiệu suất củachúng) dựa trên dữ liệu Một lĩnh vực nghiên cứu chính là dành cho các chương trìnhmáy tính tự động học cách nhận ra các mẫu phức tạp và đưa ra các quyết định thôngminh dựa trên dữ liệu
Đối với các nhiệm vụ phân lớp và phân cụm, nghiên cứu học máy thường tậptrung vào độ chính xác của mô hình Ngoài độ chính xác, nghiên cứu khai phá dữ liệucòn nhấn mạnh vào hiệu quả và khả năng mở rộng của các phương pháp khai thác trêntập dữ liệu lớn, cũng như về các cách xử lý các loại dữ liệu phức tạp và khám phá cácphương pháp thay thế mới
Khoa học thông tin
Đây là lĩnh vực học thuật chủ yếu liên quan đến phân tích, thu thập, phân loại ,thao tác, lưu trữ, truy xuất , di chuyển, phổ biến và bảo vệ thông tin Một mặt là việcmở rộng khám phá kiến thức vào kiến trúc dữ liệu của các kho dữ liệu phân tích vàmặt khác là phân tích hình ảnh, giọng nói và văn bản phức tạp với các thuật toán họcmáy phát triển cao
Truy xuất thông tin (IR) là khoa học tìm kiếm tài liệu hoặc thông tin trong tàiliệu Tài liệu có thể là văn bản hoặc đa phương tiện và có thể nằm trên web Sự khácbiệt giữa hệ thống cơ sở dữ liệu và truy xuất thông tin truyền thống là gấp đôi:
Truy xuất thông tin giả định rằng (1) dữ liệu đang tìm kiếm là không có cấutrúc; và (2) các truy vấn được hình thành chủ yếu bởi các từ khóa, không có cấu trúcphức tạp (không giống như truy vấn SQL trong hệ thống cơ sở dữ liệu) [11]
Hơn nữa, một chủ đề trong một tập hợp các tài liệu văn bản có thể được môhình hóa dưới dạng phân phối xác suất trên từ vựng, được gọi là mô hình chủ đề Một
Trang 25tài liệu văn bản, có thể liên quan đến một hoặc nhiều chủ đề, có thể được coi là mộthỗn hợp của nhiều mô hình chủ đề Bằng cách tích hợp các mô hình truy xuất thông tinvà kỹ thuật khai phá dữ liệu, có thể tìm thấy các chủ đề chính trong bộ sưu tập tài liệuvà đối với mỗi tài liệu trong bộ sưu tập, các chủ đề chính liên quan.
Ngày càng có nhiều văn bản và dữ liệu đa phương tiện được tích lũy và cungcấp trực tuyến do tốc độ phát triển nhanh chóng của Web và các ứng dụng như thưviện in nghiêng, chính phủ kỹ thuật số và hệ thống thông tin chăm sóc sức khỏe Việctìm kiếm và phân tích hiệu quả của họ đã đặt ra nhiều vấn đề thách thức trong việckhai phá dữ liệu
Trực quan hóa
Trực quan hóa dữ liệu cung cấp một cơ chế mạnh mẽ để hỗ trợ người dùngtrong cả quá trình tiền xử lý dữ liệu và khai thác dữ liệu thực tế Thông qua việc hiểnthị trực quan dữ liệu gốc, người dùng có thể duyệt qua để có được "cảm nhận" về cácthuộc tính của dữ liệu đó Ví dụ, các mẫu lớn có thể được hình dung và phân tích
Đặc biệt, trực quan hóa có thể được sử dụng để phát hiện ngoại lệ, làm nổi bậtnhững điều bất ngờ trong dữ liệu, tức là các trường hợp dữ liệu không tuân thủ hành vihoặc mô hình chung của dữ liệu
Trong quá trình chuyển đổi dữ liệu, việc trực quan hóa dữ liệu có thể giúpngười dùng đảm bảo tính đúng đắn của việc chuyển đổi Nghĩa là, người dùng có thểxác định xem hai chế độ xem (gốc so với đã chuyển đổi) của dữ liệu có tương đươngnhau hay không Hình ảnh hóa cũng có thể được sử dụng để hỗ trợ người dùng khi tíchhợp các nguồn dữ liệu, giúp họ nhìn thấy các mối quan hệ trong các định dạng khácnhau
Các lĩnh vực khác
Ngoài ra, khai phá dữ liệu còn kết hợp các kỹ thuật từ nhiều lĩnh vực khác nhaunhư nhận dạng mẫu (Pattern recognition), thuật toán (Algorithms), Tính toán hiệu suấtcao (High-performance computing)
Trang 262.1.3 Các loại dữ liệu sử dụng
Cơ sở dữ liệu quan hệ (Relational database): Một cơ sở dữ liệu quan hệ là mộtloại cơ sở dữ liệu Nó sử dụng một cấu trúc cho phép chúng ta xác định và truy cập dữ
liệu liên quan đến một phần dữ liệu khác trong cơ sở dữ liệu.
Cơ sở dữ liệu đa chiều (Multidimention strutures, data mart, data warehouse):
Cơ sở dữ liệu đa chiều là một dạng mở rộng của mảng dữ liệu hai chiều, chẳng hạnnhư bảng tính, được tổng quát hóa để bao gồm nhiều chiều phục vụ cho quá trình phântích cũng như khai phá tri thức
Cơ sở dữ liệu giao tác (Transactional database): Một bài toán khá điển hình vềdữ liệu giao tác là bài toán khai phá luật kết hợp, mà xuất phát từ việc xem xét cácCSDL giao dịch (bán hàng) Dữ liệu giao tác chính là dữ liệu nguyên thủy xuất hiệntrong định nghĩa về luật kết hợp cùng với các độ đo của luật như độ hỗ trợ và độ tincậy
Cơ sở dữ liệu quan hệ theo hướng đối tượng (Object relational database): làdạng lai giữa hai mô hình hướng đối tượng và quan hệ
Cơ sở dữ liệu đa phương tiện (Multimedia databases): là dạng dữ liệu hình ảnh,văn bản âm thanh,
2.1.4 Hướng tiếp cận và kỹ thuật chính trong khai phá dữ liệu
Hình 2.0.5 Các vấn đề về học máy [12]
Trang 27Học có giám sát (Supervised Learning): Học có giám sát là một mô hình họcmáy để thu thập thông tin mối quan hệ đầu vào - đầu ra của một hệ thống dựa trên mộttập hợp các mẫu đào tạo đầu vào, đầu ra được ghép nối nhất định
Vì đầu ra được coi là nhãn của dữ liệu đầu vào hoặc sự giám sát, mẫu đào tạođầu vào, đầu ra còn được gọi là dữ liệu đào tạo có nhãn, hoặc dữ liệu được giám sát
Trong các bài toán học có giám sát, các mô hình dự đoán được tạo dựa trên tậphợp các bản ghi đầu vào với dữ liệu đầu ra (số hoặc nhãn) Dựa trên kết quả / phản hồihoặc biến phụ thuộc, các vấn đề học tập có giám sát có thể được phân ra làm hai loạikhác nhau:
Hồi quy : Khi biến kết quả hoặc biến phản hồi là một biến liên tục (số hoặc số),nó có thể được gọi là các bài toán hồi quy
Phân lớp : Khi biến kết quả hoặc biến phản hồi là một biến rời rạc (nhãn), nó cóthể được gọi là các bài toán phân loại
Học không giám sát (Unsupervised learning): Quá trình học tập không đượcgiám sát vì các ví dụ đầu vào không có nhãn lớp Thông thường, có thể sử dụng phâncụm để khám phá các lớp trong dữ liệu Tuy nhiên, vì dữ liệu huấn luyện không đượcgắn nhãn nên mô hình đã học không thể cho chúng ta biết ý nghĩa ngữ nghĩa của cáccụm được tìm thấy
Học bán giám sát (Semi- Supervised learning): Các vấn đề trong đó bạn có mộtlượng lớn dữ liệu đầu vào (X) và chỉ một số dữ liệu được gắn nhãn (Y) được gọi là cácvấn đề học bán giám sát Những vấn đề này nằm giữa cả việc học có giám sát vàkhông giám sát
Trang 282.1.5 Một số ứng dụng khai phá dữ liệu
2.1.5.1 Ứng dụng trong marketing
Hình 2.0.6 Mô hình tích hợp DM và KM trong Marketing [13]
Mô hình trên được đề xuất bao gồm hai thành phần được kết nối với nhau: khaithác (DM) và quản lý tri thức (KM)
Thành phần DM bao gồm 2 giai đoạn, giai đoạn 1 “What” nhằm mục đíchkhám phá các mặt hàng được mua cùng nhau Kỹ thuật DM sử dụng cho giai đoạn nàylà luật kết hợp (Association rules) Giai đoạn 2 “Who” nhằm trả lời cho câu hỏi aiđang mua các tập phổ biến được xác định trong giai đoạn 1, tức là xác định thông tinkhách hàng có khả năng mua những món hàng quan trọng Để làm việc này có thể sửdụng kỹ thuật phân cụm (Clustering) hoặc mạng neuron (Neural networks) như trong
sơ đồ
Thành phần thứ hai KM mục đích là nhằm trích xuất kiến thức từ các kết quảthu được trong thành phần DM trước đó Nó còn được gọi là giai đoạn “Know” baogồm hai nhóm hoạt động chính: (1) Chia sẻ các mẫu thú vị và hồ sơ khách hàng, (2)Thu thập các ý tưởng mới, xếp hạng và chọn các ý tưởng tiềm năng, từ đó chuyểnthành các chiến lược tiếp thị mới
Giai đoạn cuối cùng là giai đoạn 4 “How” , nó tập trung tạo ra nhiều chiến lượchỗ trợ cho không những các nhà quản trị marketing và bán hàng mà còn nhân viên
Trang 29khác Trong giai đoạn này, điều quan trọng là sử dụng các ý tưởng được trích xuấttrong thành phần KM và hình thành các chiến lược mới, chủ yếu là tập trung vào cácloại chiến lược sáng tạo tiếp thị sau được xác định bởi European Commision (2012):(1) Phương tiện hoặc kỹ thuật mới để quảng bá sản phẩm, (2) Các phương pháp mớiđể bố trí sản phẩm hoặc các kênh bán hàng và (3) Các phương pháp mới về định giáhàng hóa hoặc dịch vụ Tác động của giai đoạn này sẽ làm tăng doanh số, chỉ số bánchéo và khả năng cạnh tranh của công ty Chúng cũng nên đóng vai trò là phản hồi chocác thành phần mô hình khác để cải thiện hiệu quả của chúng
2.1.5.2 Ứng dụng trong quản trị quan hệ khách hàng
Khai phá dữ liệu là một phương pháp hoặc công cụ có thể hỗ trợ các doanhnghiệp trong các nhiệm vụ hướng đến khách hàng Mô hình tích hợp bao gồm ba loạiquy trình khai phá dữ liệu, ba giai đoạn của quy trình CRM, một số kỹ thuật cụ thể củakhai phá dữ liệu có thể được sử dụng trong các giai đoạn khác nhau của quy trìnhCRM và khả năng áp dụng các kỹ thuật đó Các ứng dụng của kỹ thuật Khai phá dữliệu trở thành yếu tố kích hoạt quan trọng để đưa ra các quyết định chiến lược liênquan đến quy trình CRM Việc thực hiện các hành động này được thực hiện trong giaiđoạn hành động của vòng đời CRM
Hình 2.0.7 Khai phá dữ liệu trong CRM [14]
Trong sơ đồ có các kỹ thuật khai phá dữ liệu khác nhau ứng dụng vào CRM:
Trang 30Phân khúc
Quá trình khai phá dữ liệu hỗ trợ trong việc xác định khách hàng mới, phân biệtkhách hàng và tìm cách tốt nhất để tương tác với khách hàng Các kỹ thuật khai phá dữliệu như phân đoạn và phân cụm giúp đạt được những mục tiêu này Các tổ chức cóthể có được thông tin chi tiết về hồ sơ khách hàng thông qua phân đoạn và lần lượtphục vụ tốt hơn bằng cách cung cấp cho họ loại sản phẩm và dịch vụ phù hợp Thôngqua phân khúc, khách hàng có thể được chia thành nhiều nhóm khác nhau dựa trên sởthích của họ và đây là cơ sở cho các chiến lược tiếp thị mục tiêu
Tiếp thị mục tiêu có thể làm tăng xác suất khách hàng thực sự phản hồi chiếndịch tiếp thị, vì hoạt động tiếp thị dựa trên kiến thức về sở thích của họ Hồ sơ kháchhàng được tạo và các chiến dịch tiếp thị được cá nhân hóa cho từng phân khúc kháchhàng, do đó tăng xác suất họ sẽ hưởng ứng chiến dịch
Hoặc ví dụ, quy trình khai phá dữ liệu tại Fingerhut Corporation tiết lộ rằng đốivới khách hàng từ một mã zip, tỷ lệ chi tiêu cho vàng trên mỗi đơn đặt hàng cao hơnbất kỳ sản phẩm nào khác được đặt hàng từ một danh mục cụ thể Điều này gây ra sựquan tâm đến việc phân tích thêm thông tin nhân khẩu học được liên kết với mã Zip.Phân tích này tiết lộ rằng phần lớn dân số cư trú trong phạm vi của mã zip đó là ngườiTây Ban Nha Theo sau cái này thông tin Fingerhut đã sửa đổi danh mục của họ bằngcách đưa thêm nhiều đồ trang sức bằng vàng vào danh mục gửi cho khách hàng gốcTây Ban Nha [15]
AXA Financial sử dụng khai phá dữ liệu để có quan điểm tốt hơn về hành vicủa khách hàng trong việc đưa ra các chiến lược CRM Phân tích tại AXA Financial đãbao gồm đo lường khả năng sinh lời của khách hàng bằng cách sử dụng các hiệp hộivà tính thu nhập phù hợp với các nguyên tắc kế toán được chấp nhận chung Sử dụngcác kỹ thuật khai phá dữ liệu cho phép tổ chức phân khúc khách hàng của họ thành cáccụm sinh lời Điều này sẽ giúp AXA phát triển các mô hình khác nhau như các cấp độdịch vụ hiệu quả về chi phí, các chiến dịch tiếp thị mục tiêu, tính điểm, giữ chân kháchhàng và cũng đề ra các chiến lược bán kèm và bán thêm
Luật kết hợp
Trang 31Một kỹ thuật khai phá dữ liệu khác có thể được sử dụng để xác định khách hàngmới là liên kết Kiến thức về lợi ích liên quan của khách hàng có thể cung cấp cơ sở tốtđể bán chéo sản phẩm cho các phân khúc khách hàng Dữ liệu về một khách hàngthường xuyên tiết lộ sở thích đối với một số loại hàng hóa nhất định hoặc dịch vụ,cung cấp thông tin về những sản phẩm liên quan mà khách hàng có nhiều khả năngmua hơn hoặc những loại những chiến dịch mà họ có nhiều khả năng sẽ phản hồi hơn.Trường hợp kinh điển của phân tích giỏ hàng là một ví dụ để xác định các mối liên hệ.Bán chéo là một ứng dụng chính lấy tín hiệu từ luật kết hợp.
Trong bối cảnh khai phá dữ liệu web, khái niệm bán kèm đã trở nên quan trọnghơn dưới hình thức các chiến dịch quảng cáo được cá nhân hóa dựa trên dữ liệu có sẵn.Ví dụ: một cửa hàng trực tuyến, phân tích việc mua sắm giỏ khách hàng của họ có thểcá nhân hóa tốt hơn các chiến dịch quảng cáo của họ và tăng doanh số bán hàng Mặtkhác, một cửa hàng trực tuyến có thể đoán trước những gì khách hàng của mình cần vàđề xuất các sản phẩm khác
Mặc dù luật kết hợp cho phép tổ chức bán kèm, nó cũng giúp quyết định bố tríkho hàng, đó là ứng dụng rất phổ biến của khai thác dữ liệu với chuỗi cửa hàng tạp hóavà bán lẻ Ngoài hỗ trợ trong cách bố trí cửa hàng, luật kết hợp cũng giúp xác định cácmối quan hệ có giá trị giữa các dữ liệu như ví dụ về một cửa hàng tạp hóa ở Anh Việcphân tích cơ sở dữ liệu khách hàng của họ cho thấy rằng một sản phẩm cụ thể đangđược tiêu thụ bởi 25% khách hàng chi tiêu cao nhất Điều này dẫn đến quyết định giữlại sản phẩm trên kệ thay vì ngừng sản xuất [16]
Mô hình dự đoán
Khả năng mô hình hóa dự đoán của khai phá dữ liệu giúp thu hút và giữ chânkhách hàng có lợi nhuận Sử dụng các kỹ thuật như mô hình phản hồi, hành vi củakhách hàng có thể được dự đoán với mức độ chắc chắn tương đối Dựa trên dữ liệukhách hàng có sẵn, các mô hình phản hồi có thể được xây dựng để dự đoán phản ứngcủa khách hàng trong tương lai hoặc phản ứng của khách hàng hiện tại đối với bất kỳsản phẩm hoặc dịch vụ mới nào được cung cấp
Trang 32Kỹ thuật này có nhiều ứng dụng trong ngành tín dụng, bảo hiểm và danh mục.Ngay cả trong trường hợp dữ liệu trước đó không có sẵn, nó có thể tạo hồ sơ kháchhàng phản hồi bằng cách nghiên cứu dân số
Dựa trên dự đoán từ mô hình phản hồi, một người có một số đặc điểm kết hợpnhất định có thể được xếp vào loại đáng giá khách hàng hay không Nếu hồ sơ củakhách hàng cho thấy họ là một khách hàng có lợi nhuận, thì có thể đưa ra các chiếnlược để thu hút hoặc để giữ chân họ Quá trình xác định khách hàng sinh lợi này sẽgiúp tổ chức số tiền chi tiêu khổng lồ và giảm thiểu rủi ro có khách hàng xấu
Mô hình phản hồi cũng hỗ trợ tiếp thị mục tiêu hiệu quả hơn và tiết kiệm tàichính của tổ chức Các kỹ thuật khai phá dữ liệu cho phép nhân viên tiếp thị đưa raquyết định sáng suốt về các chiến dịch tiếp thị mà không cần phải đợi lời khuyên củachuyên gia thống kê Ví dụ, Liverpool Victoria là một nhà cung cấp bảo hiểm lớn ởAnh và hợp tác với Quadstone để cung cấp các giải pháp CRM Quadstone đã pháttriển các mô hình CRM dựa trên dữ liệu khách hàng của họ và giúp các nhà tiếp thị cóthể tiếp cận chúng Giờ đây, các Nhà tiếp thị của Liverpool Victoria có một công cụcho phép họ kiểm soát quá trình lập hồ sơ, phân đoạn và mô hình hóa khách hàng(Davis 2001) Kết quả của nỗ lực này, Liverpool Victoria hiện có thể cải thiện tỷ lệ giữchân và giảm tỷ lệ tiêu hao Các nhà tiếp thị cơ sở dữ liệu hiện đang được trao quyềnđể tự mình đưa ra hầu hết các quyết định kinh doanh mà không cần sự trợ giúp của cácnhà thống kê chuyên nghiệp Họ có thể xác minh bản năng kinh doanh của họ về hành
vi của khách hàng khoa học hơn với công cụ có sẵn từ Quadstone
C&A là một nhà bán lẻ thời trang châu Âu, theo truyền thống thuê ngoài cáchoạt động tiếp thị cơ sở dữ liệu của mình Khi một quyết định được đưa ra để thựchiện các chiến lược CRM trong tổ chức, cần có một công cụ tích hợp dữ liệu kháchhàng có sẵn vào chiến lược CRM Một lần nữa, với sự trợ giúp của bộ công cụ CRMcủa Quadstone,
các nhà phân tích tiếp thị hiện được trao quyền để tiến hành phân tích nội bộ và C&Ađã cho thấy sự cải thiện trong tỷ lệ phản hồi gửi thư khoảng 6% C&A cũng đạt đượcnhờ có thể nhắm mục tiêu tốt hơn khách hàng phản hồi cao bằng cách đưa ra các đềnghị tiếp thị phù hợp với nhu cầu của họ Do đó, C&A đã sử dụng dự đoán kỹ thuật
mô hình hóa để cải thiện tỷ lệ phản hồi gửi thư trực tiếp của họ
Trang 33 Phát hiện độ lệch
Phát hiện độ lệch có lẽ là một trong những ứng dụng quan trọng nhất của việckhai phá dữ liệu đối với CRM Phân tích pháp y giúp người ta xác định những sai lệch
so với tiêu chuẩn Ví dụ: nó đóng một vai trò có giá trị trong việc xác định hành viphạm pháp thực sự và sau đó đưa ra các chiến lược để phân loại hành vi của kháchhàng là hành vi phạm pháp hoặc là ngoại lệ đối với kiểu hành vi
Đối với CRM, phân tích pháp y có thể tiết lộ một mô hình bất thường về mộtkhách hàng cụ thể và sau khi tiến hành phân tích khả năng sinh lời, tổ chức có thể xácđịnh xem liệu có giữ chân được khách hàng đó hay không đáng giá Nếu khách hàngtrở nên đáng giá, các giải pháp tùy chỉnh có thể được cung cấp cho khách hàng đó vàđộng viên ở lại với tổ chức Mặt khác, nếu khách hàng không có lợi nhuận, thì tổ chứccó thể đưa ra quyết định sáng suốt về việc không sử dụng bất kỳ chiến lược duy trì nàođể giữ chân khách hàng không có lợi Phát hiện gian lận đóng một vai trò quan trọngtrong ngành chăm sóc sức khỏe và tín dụng.Các sai lệch được phát hiện thông qua khaiphá dữ liệu có thể được theo dõi dẫn đến tiết kiệm rất lớn cho các công ty
Phát hiện Churn
Trong ngành công nghiệp viễn thông, rối loạn là một vấn đề phổ biến Churn đềcập đến quá trình khách hàng chuyển sang sử dụng dịch vụ của đối thủ cạnh tranh.Thông thường trong các loại của các ngành, việc mua lại khách hàng đắt hơn việc duytrì khách hàng Nếu một tổ chức đang mất nhiều khách hàng vào tay đối thủ, tổ chứccó thể phân tích hồ sơ của những khách hàng đã mất và dự đoán khách hàng hiện tạicó khả năng làm theo Điều này sẽ cho phép tổ chức đưa ra các chiến lược duy trìkhách hàng và các chương trình trung thành để giữ chân những khách hàng có lợinhuận Ngoài ra, một khi xác định được tình trạng hỗn loạn, cần phải thực hiện khảnăng sinh lời phân tích để xác định xem khách hàng có cần được giữ lại hay không.Điều này sẽ giúp tổ chức không phải đầu tư vào việc giữ chân một khách hàng khôngquá sinh lời
Các công cụ khai phá dữ liệu giúp những người ra quyết định đưa ra quyết địnhsáng suốt về chiến lược CRM của họ Công cụ khai phá thông minh của IBM là một vídụ về một loạt các công cụ có sẵn để hiểu hành vi của khách hàng và xây dựng chiến
Trang 34lược CRM Tương tự, công cụ khai thác doanh nghiệp của SAS cho phép phân tích dữliệu rộng lớn để phát hiện các mẫu ẩn Các nhà cung cấp giải pháp khác bao gồmSeibel, MarketSwitch và MarketMiner, cung cấp các công cụ tiếp thị mục tiêu và môhình duy trì cho các ứng dụng CRM.
2.2 Cơ sở hạ tầng kinh doanh thông minh (Business Intelligence)
2.2.1 Khái niệm
Kinh doanh thông minh là thuật ngữ đề cập đến:
Một tập hợp các quy trình kinh doanh
Công nghệ được sử dụng trong các quy trình này
Thông tin thu được từ các quá trình này
Những người tham gia vào các quy trình BI có thể sử dụng phần mềm ứng dụngvà các công nghệ khác để thu thập, hàng đầu lưu trữ, phân tích và cung cấp quyền truycập vào dữ liệu (còn được gọi là chu trình BI)
Một số nhà quan sát coi BI là quá trình nâng cao dữ liệu thành thông tin và sauđó thành kiến thức Phần mềm nhằm mục đích giúp mọi người đưa ra quyết định kinhdoanh tốt hơn bằng cách đưa ra thông tin chính xác, cập nhật và phù hợp có sẵn cho họkhi họ cần
Với sự ra đời của mạng nội bộ và các cổng thông tin công ty, EIS truyền thốngđã trở thành một phần của hệ thống thông tin doanh nghiệp Hệ thống thông tin doanhnghiệp (EIS) thường đồng nghĩa với thuật ngữ BI và các công cụ như vậy hiện đượctích hợp với thương mại điện tử và các hệ thống dựa trên Web khác [17]
Turban, et al (2002, 46) định nghĩa BI là một phân tích quyết định dựa trênmáy tính thường được thực hiện trực tuyến của các nhà quản lý và nhân viên Nó baogồm dự báo, phân tích các lựa chọn thay thế và đánh giá rủi ro và hiệu suất
Khi được định nghĩa rộng rãi để bao gồm thông tin về tất cả các yếu tố môitrường, thuật ngữ thích hợp là BI Bản chất của việc xác định BI là rất phức tạp Tuynhiên, có thể kết luận rằng BI là một loại quyết định hệ thống hỗ trợ (DSS)
Trang 35Hệ thống hỗ trợ ra quyết định là sự sắp xếp của các công cụ máy tính được sửdụng để hỗ trợ việc ra quyết định của người quản lý trong một doanh nghiệp Một DSSthường yêu cầu dữ liệu rộng rãi để cung cấp thông tin.
2.2.2 Mục đích và chức năng của BI
Cơ sở hạ tầng BI cơ bản bao gồm cả quy trình và thực hành kinh doanh và côngnghệ các thành phần Các thành phần công nghệ được sử dụng để hỗ trợ các quy trìnhkinh doanh bao gồm các công cụ bao gồm xử lý phân tích trực tuyến (OLAP), kho dữliệu (DW), khai phá dữ liệu (DM), quản lý hiệu quả kinh doanh, kho tài liệu, khai thácvăn bản, hệ thống điều hành thông tin (EIS) và hệ thống hỗ trợ quyết định (DSS)
Theo McLeod và Schell (2001: 45–47), BI liên quan đến năm nhiệm vụ cơ bản,đó là thu thập dữ liệu, để đánh giá dữ liệu, phân tích dữ liệu, lưu trữ thông tin tình báovà phổ biến thông tin tình báo
Để thu thập dữ liệu: Tổ chức có thể thu được dữ liệu chính hoặc dữ liệu thứ cấp:Dữ liệu sơ cấp được thu thập nội bộ, dữ liệu thứ cấp được thu thập bởi ngườikhác và sau đó được tạo có sẵn cho công ty
Để đánh giá dữ liệu: Tất cả dữ liệu, thứ cấp cũng như chính, phải được đánh giátrước khi sử dụng để đảm bảo độ chính xác của chúng
Để phân tích dữ liệu: Mục đích của bước phân tích là chuyển đổi dữ liệu thànhthông minh
Để lưu trữ thông tin: Thông tin phải được lưu trữ (tốt nhất là bằng kỹ thuật số)theo cách cho phép dễ dàng thu hồi
Một cách tiếp cận tinh vi để phổ biến là chuẩn bị một hồ sơ tình báo cho mỗingười dùng, mô tả ở dạng mã hóa các chủ đề thông minh mà người dùng muốntheo dõi
Có sự khác biệt lớn giữa kho dữ liệu, trung tâm dữ liệu và BI Kho dữ liệu hoặckho dữ liệu cục bộ là kho lưu trữ dữ liệu vật lý cung cấp các công cụ và công nghệ đểquản lý dữ liệu BI bao gồm ứng dụng trên các kho dữ liệu này (Hasheem 2001)
Trang 36Hình 2.0.8 Cơ sở hạ tầng trong BI (Gartner Group 2001)
Hình 2.0.8 minh họa cơ sở hạ tầng BI, nó sử dụng cả từ trên xuống và từ dướilên các phương pháp tiếp cận BI toàn diện bao gồm:
Các hoạt động tích hợp thông tin: Tìm nguồn và trích xuất, chuyển đổi vàtải dữ liệu (ETL), kho lưu trữ dữ liệu vận hành (ODS), kho dữ liệu và khodữ liệu cục bộ
Hoạt động phân tích dữ liệu: Hỗ trợ truy vấn đặc biệt, xử lý giao dịch trựctuyến (OLTP), trực tuyến xử lý phân tích (OLAP), phân tích thống kê, khaiphá dữ liệu, trực quan hóa dữ liệu, khai phá văn bản và khai phá Web
Các hoạt động triển khai thông minh: Tạo báo cáo soạn trước và tùy chỉnh,cổng Web BI và các phương pháp triển khai khác
2.3 Marketing hướng vào dữ liệu
Thành công của chiến lược tiếp thị được đo lường bằng phản ứng của ngườitiêu dùng và các tổ chức có thể xác định thị trường và xác định các mối đe dọa và cơhội kinh doanh bằng cách sử dụng dữ liệu người tiêu dùng [18]
Trang 37Thông tin tự nó có ít giá trị, nhưng giá trị đến từ những hiểu biết của kháchhàng được rút ra từ thông tin đó Tạo ra giá trị cho khách hàng và xây dựng mối quanhệ lâu dài đòi hỏi phải nghiên cứu sâu hơn về những mong muốn và nhu cầu của kháchhàng Sau đó, những hiểu biết này có thể được chuyển thành các quyết định tiếp thị tốthơn.
Tuy nhiên, có thể rất khó để có được thông tin chi tiết về khách hàng và thịtrường, với tư cách là khách hàng nhu cầu và động cơ mua có thể khó phân tích Tạomối quan hệ khách hàng mất rất nhiều công việc từ xác định khách hàng và nhu cầucủa họ, thiết kế các dịch vụ và định giá, để quảng bá và phát triển sản phẩm Do đó, đểcó được thông tin chi tiết về khách hàng hiệu quả, các tổ chức cần quản lý thông tintiếp thị từ nhiều nguồn
Theo định nghĩa, tiếp thị theo hướng dữ liệu liên quan đến việc thu thập và kếthợp dữ liệu từ các nguồn trực tuyến và ngoại tuyến, sau đó phân tích dữ liệu thu đượcvà thu thập thông tin chi tiết về khách hàng và hành vi của họ Do đó, nó cho phépgiao tiếp được cá nhân hóa cao với các đối tượng mục tiêu Xu hướng phân tích dữliệu đang chuyển sang dự đoán tương lai, tức là sử dụng dữ liệu để lập chiến lược vàdự đoán nhu cầu của khách hàng, nơi công nghệ đóng một vai trò quan trọng
Việc xây dựng các mô hình dự đoán giúp các công ty thiết lập các quy trình lấykhách hàng làm trung tâm và dữ liệu có thể được sử dụng để xác định nhu cầu củakhách hàng và các yếu tố ảnh hưởng đến quá trình ra quyết định của người tiêu dùng.Tích hợp phân tích dữ liệu bên trong và bên ngoài có thể giúp các công ty phát triểncác sản phẩm và các dịch vụ Lợi ích thu được có thể là nội dung phong phú hơn chokhách hàng, thu hút khách hàng mới và bảo toàn khách hàng hiện tại Cuối cùng, điềunày có thể dẫn đến việc tránh hoặc giảm chi phí và tăng năng suất và hiệu quả [19]
2.3.1 Nguồn dữ liệu
Kumar et al (2013) phân loại các nguồn dữ liệu tiếp thị thành ba nhóm: dữ liệutruyền thống, sinh lý thần kinh, dữ liệu kỹ thuật số và dữ liệu lớn, thể hiện trong Hình2.0.9:
Trang 38Hình 2.0.9 Nguồn dữ liệu marketing [20]
2.3.1.1 Dữ liệu sinh lý thần kinh
Dữ liệu sinh lý thần kinh ngày càng trở nên phổ biến trong tiếp thị mặc dù nó làphương pháp đắt tiền để thu thập dữ liệu và có những thách thức về đạo đức Các tổchức có thể sử dụng dữ liệu sinh lý thần kinh để đọc phản ứng cảm xúc của kháchhàng, từ đó tạo thông tin chi tiết về cảm xúc chính xác hơn và có thể mở rộng
Ví dụ, theo dõi mắt có thể được sử dụng trong tiếp thị để kiểm tra sự chú ý củathị giác trong quảng cáo ngoài trời hoặc trên báo in Con mắt theo dõi có thể tạo ra kếtquả chính xác hơn về cách các thương hiệu đang thu hút sự chú ý trong kệ siêu thị sovới báo cáo của chính người tiêu dùng Ngoài ra, các kỹ thuật đo sinh lý khác nhau cóthể được sử dụng kết hợp để đo mức dương tính hoặc phản ứng tiêu cực với quảng cáohoặc tương tác với phương tiện truyền thông
2.3.1.2 Dữ liệu truyền thống
Các nguồn dữ liệu truyền thống bao gồm khảo sát, quan sát, nhóm tập trung vàcác cuộc phỏng vấn Nhiều nguồn dữ liệu truyền thống có thể chồng chéo với dữ liệukỹ thuật số như chúng cũng có thể được tiến hành trực tuyến Ví dụ, quan sát có thểđược thực hiện dưới dạng vật lý, trong một cửa hàng hoặc trực tuyến
Trang 392.3.1.3 Dữ liệu kỹ thuật số
Các tổ chức có quyền truy cập vào một lượng lớn dữ liệu kỹ thuật số, cả nội bộvà bên ngoài Nhiều tổ chức có cơ sở dữ liệu nội bộ phong phú, thu thập dữ liệu ngườitiêu dùng và thị trường
Khai thác tốt thông tin từ nhiều nguồn khác nhau có thể tạo ra hiệu quả nhữnghiểu biết sâu sắc về khách hàng và tạo lợi thế cạnh tranh Nội bộ cơ sở dữ liệu có thểthu thập thông tin, ví dụ về các giao dịch của khách hàng và hành vi mua, sự hài lòngcủa khách hàng hoặc các vấn đề về dịch vụ, hồ sơ bán hàng, hàng tồn kho và các hoạtđộng của đối thủ cạnh tranh
Thách thức với các loại dữ liệu nội bộ này là dữ liệu được thu thập cho các mụcđích và yêu cầu kỹ năng để tích hợp tất cả dữ liệu vào thông tin chi tiết về tiếp thị.Ngoài ra, số lượng dữ liệu rất lớn và có thể trở nên lỗi thời khá nhanh
Các tổ chức cũng có thể cải thiện việc ra quyết định chiến lược bằng cách sửdụng trí tuệ tiếp thị Thu thập và phân tích thông tin công khai về người tiêu dùng, đốithủ cạnh tranh và thị trường cho phép các tổ chức hiểu biết thêm về môi trường tiêudùng và đánh giá các đối thủ cạnh tranh và các cơ hội kinh doanh cũng như các mối đedọa tiềm ẩn
Có nhiều cách tổ chức có thể sử dụng dữ liệu kỹ thuật số, ví dụ: tìm kiếm và dữliệu dòng nhấp, cũng như dữ liệu từ các blog và mạng xã hội Các kênh truyền thôngxã hội đã trở thành rất phổ biến trong tiếp thị, nhưng các nhà tiếp thị cần hiểu rằngphương tiện truyền thông xã hội hiệu quả các chiến dịch tiếp thị cần được gắn vớichiến lược và hiệu suất của tổ chức các biện pháp
Ngoài ra, các tổ chức cần hiểu, nền tảng truyền thông xã hội nào được sử dụngbởi khách hàng hiện tại hoặc tiềm năng của họ Một dạng kỹ thuật số dữ liệu là dữ liệulớn, có ý nghĩa lớn trong kinh doanh
2.3.1.4 Big data
Ngoài các nguồn dữ liệu kỹ thuật số được đề cập ở trên, một số nguồn dữ liệumới nhất từ nguồn dữ liệu lớn là dữ liệu vị trí từ thiết bị di động và dữ liệu máy móc từIOT các ứng dụng [21]
Trang 40Đặc điểm của dữ liệu lớn là khối lượng lớn dữ liệu và tốc độ nhanh chóng vànhiều loại dữ liệu được thu thập Do đó, dữ liệu lớn thường được đặc trưng bởi khốilượng, tốc độ và sự đa dạng Khối lượng có thể được coi là đặc điểm chính của dữ liệulớn Một lượng lớn dữ liệu được tạo ra mỗi ngày thông qua các giao dịch trực tuyến,email, video, hình ảnh, v.v và lượng dữ liệu được cho là sẽ tăng gấp đôi sau mỗi hainăm Internet of Things (IOT) là một trong những lý do chính cho sự gia tăng đáng kểvề khối lượng dữ liệu, do các thiết bị khác nhau, từ ô tô đến đồ chơi và đồ gia dụngđều được vi tính hóa Vận tốc đề cập đến việc sản xuất dữ liệu nhanh chóng
Thông qua dữ liệu lớn, các tổ chức có thể có được thông tin chi tiết về hành vicủa khách hàng nhanh chóng và có thể phản ứng với bất kỳ thay đổi nào ngay lập tức.Để tối đa hóa giá trị từ dữ liệu lớn, vận tốc cũng được yêu cầu cho tất cả các quy trình.Các nguồn của dữ liệu lớn là đa dạng và điều đó làm cho nó rất lớn về khối lượng Dữliệu lớn thay đổi từ dữ liệu có cấu trúc (ví dụ: tệp và cơ sở dữ liệu) đến dữ liệu bán cấutrúc hoặc phi cấu trúc (ví dụ: dữ liệu mạng xã hội) Dữ liệu lớn bao gồm nhiều dữ liệuhành vi phi cấu trúc hơn dữ liệu truyền thống [22]
2.3.2 Sử dụng dữ liệu
Tầm quan trọng của dữ liệu phụ thuộc vào khả năng ảnh hưởng đến các quyếtđịnh tiếp thị của nó Từ dữ liệu truyền thống và dữ liệu kỹ thuật số cùng với dữ liệulớn, các tổ chức có thể nhận được một lượng lớn thông tin về xu hướng và chuyển đổithị trường cũng như phân khúc khách hàng Điều này giúp tổ chức đưa ra các quyếtđịnh chiến lược
Do đó, khai phá dữ liệu là cần thiết để xử lý và phân tích số lượng lớn dữ liệu.Để có được thông tin chi tiết hiệu quả nhất, các tổ chức cần kết hợp cả nghiên cứu thịtrường truyền thống và khai phá dữ liệu Nghiên cứu thị trường cung cấp hiểu biết sâusắc ở cấp độ vĩ mô, nhưng khai phá dữ liệu giúp xác định thông tin ẩn mà không thểlấy được thông qua các phương pháp truyền thống [23]
Một khía cạnh quan trọng của việc sử dụng dữ liệu là để thành công, các tổchức cần tạo ra toàn bộ chân dung khách hàng của họ thay vì chỉ một loạt ảnh chụpnhanh Điều này có nghĩa rằng các tổ chức cần thu thập và kết hợp tất cả dữ liệu từ