DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ 1 TMCP Thương mại cổ phần 2 VietinBank Ngân hàng TMCP Công Thương Việt Nam 3 MIS Hệ thống quản lý thông tin 4 ICMS Hệ thống quản trị khách hàng thông mi
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
TẠ HUY VŨ
NGHIÊN CỨU THỬ NGHIỆM KỸ THUẬT LUẬT KẾT HỢP VÀ
KHAI PHÁ MẪU TUẦN TỰ TRONG XÂY DỰNG
HỆ THỐNG QUẢN TRỊ KHÁCH HÀNG THÔNG MINH
LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN
Hà Nội - 2016
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
TẠ HUY VŨ
NGHIÊN CỨU THỬ NGHIỆM KỸ THUẬT LUẬT KẾT HỢP VÀ
KHAI PHÁ MẪU TUẦN TỰ TRONG XÂY DỰNG
HỆ THỐNG QUẢN TRỊ KHÁCH HÀNG THÔNG MINH
Chuyên ngành : Công nghệ thông tin
LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC:
PGS TS HUỲNH QUYẾT THẮNG
Hà Nội – 04/2016
Trang 3MỤC LỤC
LỜI CAM ĐOAN 6
MỤC LỤC BẢNG BIỂU, SƠ ĐỒ, HÌNH 7
DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ 8
MỞ ĐẦU 9
1 Lý do chọn đề tài 9
2 Mục tiêu của đề tài 9
3 Đối tượng, phạm vi nghiên cứu 10
4 Phương pháp nghiên cứu 10
5 Bố cục luận văn 10
CHƯƠNG 1 HỆ THỐNG QUẢN TRỊ KHÁCH HÀNG THÔNG MINH 11
1.1 Tổng quan về khách hàng và sản phẩm trong ngân hàng 11
1.1.1 Đặc điểm ngân hàng thương mại 11
1.1.2 Phân loại khách hàng ngành ngân hàng 14
1.1.3 Tầm quan trọng của khách hàng đối với ngân hàng 15
1.1.4 Các sản phẩm dịch vụ của ngân hàng 15
1.2 Hệ thống quản trị khách hàng thông minh .16
1.2.1 Thực trạng quản trị khách hàng trong ngân hàng TMCP Công Thương Việt Nam 16
1.2.2 Hệ thống quản trị khách hàng thông mình trong ngân hàng 17
1.2.2.1 Dữ liệu sử dụng trong hệ thống 17
1.2.2.2 Lợi ích của quản trị khách hàng thông minh .18
KẾT CHƯƠNG I 19
CHƯƠNG 2 KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP VÀ KHAI PHÁ MẪU TUẦN TỰ 20
2.1 Kỹ thuật khai phá luật kết hợp 20
2.1.1 Lý thuyết về luật kết hợp 20
2.1.1.1 Các khái niệm 20
2.1.1.2 Một số tính chất 21
Trang 42.1.2 Kỹ thuật khai phá luật kết hợp với Apriori 23
2.1.2.1 Thuật toán Apriori 23
2.1.2.2 Ví dụ thuật toán Apriori 25
2.2 Kỹ thuật khai phá mẫu tuần tự 27
2.2.1 Tổng quan về khai phá mẫu tuần tự 27
2.2.1.1 Các khái niệm 27
2.2.1.2 Khai phá luật tuần tự 28
2.2.2 Kỹ thuật khai phá mẫu tuần tự với GSP 29
2.2.2.1 Thuật toán GSP 29
2.2.2.2 Ví dụ thuật toán GSP 32
KẾT CHƯƠNG II 36
CHƯƠNG 3 THỬ NGHIỆM KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP VÀ MẪU TUẦN TỰ TRONG HỆ THỐNG QUẢN TRỊ KHÁCH HÀNG THÔNG MINH CỦA NGÂN HÀNG TMCP CÔNG THƯƠNG VIỆT NAM 37
3.1 Tổng quan về khách hàng và giao dịch của khách hàng trong ngân hàng TMCP Công Thương Việt Nam 37
3.2 Thử nghiệm áp dụng khai phá luật kết hợp 37
3.2.1 Phát biểu bài toán 37
3.2.2 Mô tả tập dữ liệu 37
3.2.3 Áp dụng khai khá luật kết hợp với thuật toán Apriori 39
3.2.3.1 Cách thức xây dựng chương trình thử nghiệm 39
3.2.3.2 Kết quả thử nghiệm 39
3.3 Thử nghiệm áp dụng khai phá mẫu tuần tự 49
3.3.1 Phát biểu bài toán 49
3.3.2 Mô tả tập dữ liệu 49
3.3.3 Áp dụng khai khá mẫu tuần tự với thuật toán GSP 50
3.3.3.1 Cách thức xây dựng phần mềm thử nghiệm 50
3.3.3.2 Kết quả thử nghiệm 50
KẾT CHƯƠNG III 57
Trang 5KẾT LUẬN VÀ KIẾN NGHỊ 58
1 Kết luận 58
2 Kiến nghị 59
3 Hướng phát triển của đề tài 60
TÀI LIỆU THAM KHẢO 61
Trang 6LỜI CAM ĐOAN
Tôi xin cam đoan: Luận văn "Nghiên cứu thử nghiệm kỹ thuật luật kết hợp và khai phá mẫu tuần tự trong xây dựng hệ thống quản trị khách hàng thông minh" là
do bản thân tôi tự thực hiện dưới sự hướng dẫn của PGS TS Huỳnh Quyết Thắng – Giảng viên Bộ môn Công nghệ phần mềm, Viện Công nghệ thông tin và Truyền thông, Trường Đại học Bách khoa Hà Nội Các thông tin số liệu và kết quả trong Luận văn có nguồn gốc rõ ràng, nội dung của Luận văn chưa từng được công bố trong bất kỳ một công trình nghiên cứu nào ở trong nước
Hà Nội, ngày 20 tháng 04 năm 2016
Tác giả Luận văn
Tạ Huy Vũ
Trang 7MỤC LỤC BẢNG BIỂU, SƠ ĐỒ, HÌNH
Bảng 3.1: Mô tả dữ liệu các sản phẩm dịch vụ và ký hiệu 38
Bảng 3.2: Dữ liệu của 7 giao dịch sử dụng dịch vụ 38
Bảng 3.2: Tập dữ liệu mô phỏng sau khi sắp xếp theo khách hàng và thời gian 50
Bảng 3.3: CSDL chuỗi 50
Hình 1.1: Sơ đồ các dịch vụ được cung cấp bởi ngân hàng 16
Hình 2.1: Giả mã thuật toán Apriori 24
Hình 2.2: Dữ liệu giao dịch ví dụ thuật toán Apriori 25
Hình 2.3: Quá trình thực hiện thuật toán Apriori 26
Hình 2.4: Kết quả thực hiện thuật toán Apriori 26
Hình 2.5: Giả mã thuật toán GSP 31
Hình 2.6: Mô phỏng các bước thuật toán GSP 36
Hình 3.1: Kết quả thử nghiệm thuật toán Apriori 47
(min_supp = 40%, min_conf = 80%) 47
Hình 3.2: Kết quả thử nghiệm thuật toán Apriori 48
(min_supp = 60%, min_conf = 90%) 48
Hình 3.3: Kết quả thử nghiệm thuật toán GSP (min_sup = 50%) 55
Hình 3.4: Kết quả thử nghiệm thuật toán GSP (min_sup = 50%) 56
Trang 8DANH MỤC TỪ VIẾT TẮT VÀ THUẬT NGỮ
1 TMCP Thương mại cổ phần
2 VietinBank Ngân hàng TMCP Công Thương Việt Nam
3 MIS Hệ thống quản lý thông tin
4 ICMS Hệ thống quản trị khách hàng thông minh
5 VCRM Cổng thông tin tín dụng và quan hệ khách hàng
11 Itemset Tập hợp các phần tử (item) xảy ra cùng lúc
12 Large sequence Dãy phổ biến
13 Maximal sequence Dãy tối đa, dãy phổ biến nhất
14 Projected database CSDL quy chiếu
15 Sequence Dãy
16 Support Độ hỗ trợ
17 Supsequence Dãy con
18 Min_supp Độ hỗ trợ tối thiểu
19 Min_conf Độ tin cậy tối thiểu
20 SPMF Sequential pattern mining framework
Trang 9dữ liệu về giao dịch và nhật ký sử dụng dịch vụ của khách hàng đều được lưu trữ nhưng việc trích xuất dữ liệu và phân tích hiện tại đang được thực hiện một cách thủ công, dẫn đến mất khá nhiều thời gian trong việc đưa ra các điều chỉnh cũng như các chính sách kịp thời để nâng cao chất lượng dịch vụ
Từ những thực tiễn như trên cùng với kỳ vọng của các nhà quản lý trong việc phát triển khách hàng nảy sinh nhu cầu cần có một giải pháp thông minh nhằm tự động đưa ra các phân tích đánh giá, cũng như các dự báo, xu hướng của khách hàng
từ tập dữ liệu giao dịch của khách hàng, qua đó giúp nhà quản lý có cơ sở lập kế hoạch, chiến lược phát triển các sản phẩm dịch vụ và chăm sóc khách hàng Xuất
phát từ lý do đó, tôi quyết định lựa chọn đề tài: ”Nghiên cứu thử nghiệm kỹ thuật luật kết hợp và khai phá mẫu tuần tự trong xây dựng hệ thống quản trị khách hàng thông minh” nhằm đề xuất một giải pháp giải quyết các vấn đề trên
2 Mục tiêu của đề tài
- Nghiên cứu kỹ thuật khai phá luật kết hợp và khai phá mẫu tuần tự trên tập
dữ liệu giao dịch của khách hàng
- Thử nghiệm áp dụng hai kỹ thuật đã nghiên cứu áp dụng trong xây dựng hệ thống quản trị khách hàng thông minh
Trang 10- Cung cấp một giải pháp dựa trên các kỹ thuật công nghệ thông tin ứng dụng trong ngân hàng, cụ thể là ngân hàng TMCP Công Thương Việt Nam giúp đưa ra các dự báo, xu hướng sử dụng sản phẩm của khách hàng
3 Đối tượng, phạm vi nghiên cứu
Đề tài nghiên cứu về kỹ thuật khai phá luật kết hợp và khai phá mẫu tuần tự
áp dụng cho hệ thống quản trị khách hàng thông minh với đầu vào là tập dữ liệu giao dịch của khách hàng, lấy số liệu mô phỏng từ ngân hàng TMCP Công Thương Việt Nam trong năm 2015
4 Phương pháp nghiên cứu
Phương pháp nghiên cứu tài liệu: Nghiên cứu các tài liệu liên quan đến kỹ thuật khai phá luật kết hợp và khai phá mẫu tuần tự từ lý thuyết đến ví dụ, qua đó lựa chọn thuật toán sẽ áp dụng cho mỗi kỹ thuật
Phương pháp thử nghiệm: Mô tả tập dữ liệu ví dụ về giao dịch khách hàng
Áp dụng thử hai kỹ thuật với các thuật toán tương ứng trên tập dữ liệu mẫu, qua đó rút ra đánh giá, kết luận
5 Bố cục luận văn
Luận văn được chia làm 03 chương, nội dung như sau:
Mở đầu
Chương I: Hệ thống quản trị khách hàng thông minh
Chương II: Kỹ thuật khai phá luật kết hợp và khai phá mẫu tuần tự
Chương III: Thử nghiệm kỹ thuật khai phá luật kết hợp và mẫu tuần tự trong hệ
thống quản trị khách hàng thông minh của ngân hàng TMCP Công thương Việt Nam
Kết luận và kiến nghị
Trang 11CHƯƠNG 1 HỆ THỐNG QUẢN TRỊ KHÁCH HÀNG THÔNG MINH 1.1 Tổng quan về khách hàng và sản phẩm trong ngân hàng
1.1.1 Đặc điểm ngân hàng thương mại
Ngân hàng thương mại là một đơn vị kinh doanh tiền tệ với ba hoạt động truyền thống là: huy động vốn, hoạt động tín dụng, và hoạt động thanh toán [1]
Vay vốn của ngân hàng nhà nước: các ngân hàng được vay vốn của ngân hàng nhà nước dưới hình thức tái cấp vốn theo quy định của luật ngân hàng nhà nước
- Hoạt động tín dụng:
Ngân hàng được cấp tín dụng cho tổ chức, cá nhân dưới các hình thức cho vay, chiết khấu thương phiếu và giấy tờ có giá, cho thuê tài chính và các hình thức khác theo quy định của ngân hàng nhà nước
- Dịch vụ thanh toán và ngân quỹ:
Ngân hàng thực hiện các dịch vụ thanh toán như: cung ứng các phương tiện thanh toán, thực hiện thanh toán trong nước, thanh toán quốc tế, thực hiện dịch vụ thu hộ, chi hộ và phát tiền mặt cho khách hàng
Trang 12- Sự gia tăng nhanh chóng của các danh mục dịch vụ: Các ngân hàng ngày
nay đang mở rộng danh mục dịch vụ tài chính mà họ đã cung cấp cho khách hàng Quá trình mở rộng danh mục dịch vụ đã tăng tốc trong những năm gần đây dưới áp lực cạnh tranh gia tăng từ các tổ chức tài chính khác, từ sự hiểu biết và đòi hỏi cao hơn của khách hàng và từ sự thay đổi công nghệ Nó làm tăng chi phí của ngân hàng và dẫn đến rủi ro phá sản cao hơn Bên cạnh đó nó cũng tạo ra nguồn thu mới cho ngân hàng
- Sự gia tăng cạnh tranh: Sự cạnh tranh trong lĩnh vực dịch vụ tài chính đang
ngày càng trở lên quyết liệt khi ngân hàng và các đối thủ cạnh tranh mở rộng danh mục dịch vụ Các ngân hàng địa phương cung cấp tín dụng, kế hoạch tiết kiệm, kế hoạch hưu trí, dịch vụ tư vấn tài chính cho các doanh nghiệp và người tiêu dùng Đây là những dịch vụ đang phải đối mặt với sự cạnh tranh trực tiếp từ các ngân hàng khác, các hiệp hội tín dụng, các công ty kinh doanh chứng khoán Áp lực cạnh tranh đóng vai trò như một lực đẩy tạo ra sự phát triển dịch vụ cho tương lai
- Phi quản lý hóa: Cạnh tranh và quá trình mở rộng dịch vụ ngân hàng được
thúc đẩy bởi sự nới lỏng các quy định – giảm bớt sức mạnh kiểm soát của chính phủ, cụ thể chính phủ nâng lãi suất trần đối với tền gửi tiết kiệm nhằm cố gắng giúp công chúng có được mức thu nhập khá hơn từ khoản tiết kiệm của mình
- Sự gia tăng chi phí vốn: Sự nới lỏng luật lệ kết hợp sự gia tăng cạnh tranh
làm tăng chi phí trung bình thực tế của tài khoản tiền gửi – nguồn vốn cơ bản của ngân hàng Với sự nới lỏng các luật lệ, ngân hàng buộc phải trả lãi suất do thị trường cạnh tranh quyết định cho phần lớn tiền gửi Đồng thời nhà nước yêu cầu các ngân hàng phải sử dụng vốn sở hữu nhiều hơn để tài trợ cho các tài sản của mình Các ngân hàng buộc phải tìm các nguồn vốn mới
- Sự gia tăng nguồn vốn nhạy cảm với lãi suất: Ngân hàng nhận thấy các
khoản tiền gửi “trung thành” của họ có thể bị lôi kéo bởi các đối thủ cạnh tranh mạnh mẽ Do đó ngân hàng cần phải phấn đấu để tăng cường khả năng cạnh tranh trên phương diện thu nhập trả cho công chúng gửi tiền và phải nhạy cảm hơn với ý thức thay đổi của xã hội về vấn đề phân phối các khoản tiết kiệm
Trang 13- Cách mạng trong công nghệ ngân hàng: Đối mặt với chi phí hoạt động cao
hơn, từ nhiều năm gần đây các ngân hàng đã và đang sử dụng hệ thống hoạt động tự động và điện tử thay thế cho hệ thống dựa trên lao động thủ công, đặc biệt là trong việc nhận tiền gửi, thanh toán bù trừ và cấp tín dụng Ví dụ như: Máy rút tiền tự động ATM; máy thanh toán tiền POS được lắp đặt ở các bách hóa và trung tâm bán hàng thay thế cho các phương tiện thanh toán hàng hóa dịch vụ bằng giấy; và hệ thống máy vi tính hiện đại xử lý hàng ngàn giao dịch một cách nhanh chóng trên toàn thế giới
- Sự củng cố và mở rộng hoạt động về địa lý: Sử dụng có hiệu quả quá trình
tự động hóa và những đổi mới công nghệ đòi hỏi các hoạt động ngân hàng phải có quy mô lớn Vì vậy ngân hàng cần phải mở rộng cơ sở khách hàng bằng cách mở rộng ra các thị trường mới và gia tăng số lượng tài khoản Kết quả là hoạt động mở chi nhánh ngân hàng diễn ra Hiện nay ngân hàng đang tìm cách để đạt được sự đa dạng hóa và ngân hàng không còn muốn duy trì mô hình ngân hàng cổ điển và nhấn mạnh vai trò của nó như các tổ chức tài chính năng động, đổi mới và hướng về khách hàng
- Quá trình toàn cầu hóa ngân hàng: Sự bành trướng địa lý và hợp nhất các
ngân hàng đã vượt ra khỏi ranh giới lãnh thổ một quốc gia đơn lẻ và lan rộng ra với quy mô toàn cầu Ngày nay các ngân hàng lớn nhất trên thế giới cạnh tranh với nhau trên tất cả các lục địa
- Rủi ro trong vỡ nợ gia tăng và sự yếu kém của hệ thống bảo hiểm tiền gửi:
Trong khi xu hướng hợp nhất và bành trướng về mặt địa lý đã giúp nhiều ngân hàng
ít tổn thương trước điều kiện kinh tế trong nước thì sự đẩy mạnh cạnh tranh giữa các ngân hàng và các tổ chức phi ngân hàng kèm theo các khoản tín dụng có vấn đề của một nền kinh tế luôn biến động đã dẫn tới sự phá sản ngân hàng ở nhiều quốc gia trên thế giới Xu hướng phi quản lý hóa trong lĩnh vực tài chính xảo trá hơn, nơi
mà sự phá sản, thôn tính và thanh lý ngân hàng dễ xảy ra hơn
Trang 141.1.2 Phân loại khách hàng ngành ngân hàng
Ngân hàng cần phải thu thập các thông tin về khách hàng tiềm năng, phân loại và phân tích các thông tin để đưa ra danh sách các khách hàng mà ngân hàng hướng tới Việc phân loại khách hàng theo các nhóm nhằm mục tiêu quản lý, khai thác khách hàng có hiệu quả [1]
Các ngân hàng phân khách hàng thành hai nhóm đó là khách hàng tổ chức, doanh nghiệp và khách hàng cá nhân, yêu cầu về dịch vụ của các tổ chức thường phức tạp hơn dịch vụ cá nhân; cách định giá đối với các tổ chức thường linh hoạt và
có ưu đãi do giao dịch với số lượng lớn trong khi giá bán dịch vụ đối với cá nhân khá đồng đều và cố định Khách hàng là tổ chức có số lượng giao dịch lớn nên không có sự chăm sóc tốt sẽ bị đối thủ cạnh tranh thu hút
Đối với mỗi nhóm khách hàng có thể chia thành các nhóm nhỏ hơn đó là: khách hàng gửi tiền, khách hàng vay tiền và khách hàng sử dụng dịch vụ khác, cụ thể [1]:
- Thứ nhất, nhóm khách hàng có quan hệ gửi tiền: Đây là nhóm khách hàng
quan hệ với ngân hàng để được hưởng một mức thu nhập danh nghĩa qua lãi suất Qua công tác huy động vốn vay, ngân hàng phát triển được các dịch vụ thanh toán, chuyển tiền trong và ngoài nước, mua bán ngoại tệ
- Thứ hai, nhóm khách hàng có quan hệ vay vốn: Đây là nhóm khách hàng
có quan hệ với ngân hàng để thỏa mãn nhu cầu sử dụng một khoản tiền không phải của mình nhằm tạo ra lợi nhuận cho chính mình và cho cả nền kinh tế Cho vay vốn
là khâu quan trọng trong hoạt động của các ngân hàng thương mại Hiện nay đây là nhóm khách hàng tạo ra lợi nhuận chủ yếu cho ngân hàng
- Thứ ba, nhóm khách hàng sử dụng dịch vụ khác của ngân hàng: Đây là
nhóm khách hàng quan hệ với ngân hàng với mục đích sử dụng dịch vụ của ngân hàng như thanh toán trong và ngoài nước, mua bán ngoại tệ, sử dụng thẻ, ủy thác, bảo lãnh, bảo quản an toàn vật có giá trị, tư vấn, mua bán chứng khoán
Trang 151.1.3 Tầm quan trọng của khách hàng đối với ngân hàng
Có lẽ chẳng khó khăn gì khi đề cập đến tầm quan trọng của khách hàng đối với các ngân hàng thương mại vì nhu cầu của khách hàng chính là tiền đề cho việc kinh doanh của các ngân hàng thương mại Bản chất của việc kinh doanh của ngân hàng thương mại là thu được lợi nhuận thông qua quá trình huy động vốn, cho vay
và các hoạt động giao dịch liên quan đến tiền trên thị trường, quá trình này chỉ có thể xảy ra khi có khách hàng Như vậy, có thể khẳng định rằng: Khách hàng chính
là nguồn sống của các ngân hàng Nếu không có nhu cầu của khách hàng, sẽ không
có bất cứ hoạt động kinh doanh của ngân hàng nào được diễn ra nhằm mục đích tìm kiếm lợi nhuận
1.1.4 Các sản phẩm dịch vụ của ngân hàng
Trong nhưng năm gần đây, việc đẩy mạnh hiện đại hóa công nghệ ngân hàng, ứng dụng công nghệ vào hoạt động ngân hàng và việc mở rộng mạng lưới giao dịch đã tạo điều kiện để phát triển các dịch vụ ngân hàng mới và hiện đại đa tiện ích như: ATM, Internet banking, Home Banking, PC Banking, Mobile Banking,… đã đánh dấu những bước phát triển mới của thị trường dịch vụ ngân hàng TMCP Công Thương Việt Nam
Có thể liệt kê các sản phẩm dịch vụ ngân hàng đang được cung cấp như: Tín dụng; dịch vụ tiền mặt; thanh toán chuyển khoản: UNC, Cheque, thẻ; chuyển tiền, T/T, Bankdraft; khấu trừ tự động, ủy nhiệm chi định kỳ; Cho thuê két sắt; Ngân hàng tại nhà (Home Banking), mobile banking, internet banking, thanh toán điện tử; kiều hối; thanh lý tài sản theo di chúc của khách hàng; dịch vụ ủy thác; tư vấn; bảo hiểm; dịch vụ bất động sản; thiết lập và thẩm định dự án; dịch vụ ngân hàng trên thị trường chứng khoán; môi giới tiền tệ; mua bán ngoại tệ; thanh toán quốc tế; … được tóm tắt thông qua sơ đồ sau:
Trang 16Nguồn: Ngân hàng TMCP Công thương Việt Nam
Hình 1.1: Sơ đồ các dịch vụ được cung cấp bởi ngân hàng
1.2 Hệ thống quản trị khách hàng thông minh
1.2.1 Thực trạng quản trị khách hàng trong ngân hàng TMCP Công Thương Việt Nam
Ý thức được tầm quan trọng của các hoạt động hướng tới khách hàng, ngày càng có nhiều ngân hàng thương mại quan tâm hơn đến các ứng dụng quản trị khách hàng Đây là một giải pháp toàn diện nhằm thiết lập, duy trì và phát triển mối quan hệ khách hàng Trước sự cạnh tranh gay gắt giữa các ngân hàng thương mại,
để hướng tới phát triển lâu dài và bền vững, VietinBank đã triển khai và áp dụng các chính sách về mặt công nghệ để quản trị khách hàng và đã đạt được những thành công ban đầu
Vietinbank đã ứng dụng hệ thống Contact-Center vào trong các hoạt động quan hệ khách hàng của mình Đây là giải pháp kỹ thuật và công nghệ thông tin trong quản trị khách hàng thông qua trung tâm chăm sóc, hỗ trợ khách hàng Contact center giúp khách hàng được tư vấn từ xa và cũng là công cụ để ngân hàng thu thập thông tin khách hàng, từ đó có thể chăm sóc khách hàng tốt nhất như: giới thiệu các dịch vụ mới cho khách hàng, gửi thư cảm ơn, chúc mừng khách hàng, …
Trang 17Có thể nói Contact Center là khu vực ngập trong dữ liệu, bao gồm thông tin của khách hàng, được tổng hợp từ các cuộc điện thoại, email, thư tín, fax, các thông tin
về đặt hàng, hóa đơn, chi tiết sử dụng dịch vụ Công nghệ mới giúp tích hợp toàn bộ thông tin của khách hàng từ nhiều kênh khác nhau, vì vậy việc duy trì cũng như phát triển mối quan hệ với khách hàng trở lên dễ dàng hơn Cùng với sự cập nhật dữ liệu chính xác, kịp thời, khả năng khai thác, phân tích dữ liệu có chất lượng, là một phương pháp cung cấp, chia sẻ thông tin vừa mang tính định lượng, vừa mang tính tổng quan, chắc chắn ngân hàng cũng như khách hàng sẽ cảm thấy tiện lợi hơn
1.2.2 Hệ thống quản trị khách hàng thông mình trong ngân hàng
Cùng với hệ thống Contact Center được nêu ở trên, VietinBank còn áp dụng một số hệ thống khác nhằm hỗ trợ việc quản trị khách hàng như hệ thống MIS (quản lý thông tin), VCRM (Cổng thông tin tín dụng và quan hệ khách hàng), … tuy nhiên ở các hệ thống này mới đang dừng lại ở góc độ quản lý khách hàng, quản
lý quan hệ khách hàng, phục vụ việc chăm sóc khách hàng mà chưa có khả năng phân tích dữ liệu giao dịch khách hàng từ đó đưa ra các dự báo, xu hướng giúp nhà quản trị xây dựng chiến lược và kế hoạch chăm sóc khách hàng Do vậy luận văn này đề xuất một hệ thống quản trị khách hàng thông minh được áp dụng các thuật toán trong khai phá dữ liệu nhằm cải thiện hơn công tác quản trị, chăm sóc khách hàng trong ngân hàng
1.2.2.1 Dữ liệu sử dụng trong hệ thống
Các dữ liệu được sử dụng trong hệ thống quản trị khách hàng thông minh gồm hai nguồn chính:
- Dữ liệu giao dịch của khách hàng: Đây là dữ liệu lịch sử giao dịch của
khách hàng hàng ngày, hàng tháng gồm các thông tin như mã khách hàng, thời điểm giao dịch, dịch vụ khách hàng sử dụng, số tiền,… và các dữ liệu này mang tính tuần tự theo thời gian
- Dữ liệu nhật ký sử dụng dịch vụ của khách hàng: Đây là dữ liệu hàng ngày
hàng tháng thể hiện việc khách hàng đến ngân hàng và sử dụng những dịch vụ nào của ngân hàng trong một lần giao dịch (một lần đến ngân hàng)
Trang 181.2.2.2 Lợi ích của quản trị khách hàng thông minh
Với việc phân tích các dữ liệu liên quan đến giao dịch khách hàng, qua đó đưa ra các dự báo, xu hướng sử dụng dịch vụ của khách hàng, ngân hàng sẽ thu được các lợi ích như sau từ hệ thống quản trị khách hàng thông minh:
- Giúp phân loại khách hàng: Ngày nay, các ngân hàng đã chuyển định
hướng kinh doanh từ dịch vụ sang định hướng khách hàng một cách có chọn lọc Vì vậy, chiến lược phân loại khách hàng hiệu quả nhất mà hệ thống quản trị khách hàng thông minh hỗ trợ là dựa trên giá trị kinh doanh, hay đo lường khả năng sinh lợi của khách hàng hệ thống quản trị khách hàng thông minh giúp ngân hàng phân chia khách hàng thành 4 nhóm: nhóm khách hàng giá trị nhất; nhóm khách hàng có khả năng tăng trưởng cao nhất; nhóm khách hàng có giá trị âm và nhóm khách hàng cần dịch chuyển Từ đó có thể hoạch định các chiến lược marketing phù hợp với từng đối tượng khách hàng
- Cá biệt hoá dịch vụ khách hàng: Dựa trên các thông tin về lịch sử giao
dịch, đặc điểm, thói quen của khách hàng, hệ thống quản trị khách hàng thông minh
hỗ trợ ngân hàng tuỳ biến các phương thức phục vụ nhằm thoả mãn tối đa nhu cầu của từng khách hàng và tạo ra sự khác biệt so với các đối thủ cạnh tranh
- Hỗ trợ bán chéo sản phẩm: Nhờ khả năng phân tích và mô hình dự báo
hành vi khách hàng, hệ thống quản trị khách hàng thông minh đề xuất chiến lược bán chéo bằng cách lọc ra danh sách các nhóm khách hàng tiềm năng có khả năng
sử dụng các sản phẩm, dịch vụ ngân hàng liên quan và khuyến nghị áp dụng chiến lược marketing phù hợp
- Tăng khả năng tương tác giữa ngân hàng và khách hàng: Giải pháp hệ
thống quản trị khách hàng thông minh hỗ trợ tương tác đa kênh, trong đó web và email được xem là những phương tiện tương tác hiệu quả với chi phí thấp Ngoài ra, việc thu thập những phản hồi đánh giá từ phía khách hàng có ý nghĩa quan trọng đối với bất kì một chiến lược marketing nào Những ý kiến của khách hàng được hệ thống quản trị khách hàng thông minh phân tích và tổng hợp, từ đó giúp ngân hàng xây dựng cho mình chiến lược marketing nhằm đạt được hiệu quả cao nhất
Trang 19- Tăng cường lòng trung thành của khách hàng: hệ thống quản trị khách
hàng thông minh chú trọng phát triển mối quan hệ gắn bó giữa ngân hàng và khách hàng dựa trên sự am hiểu khách hàng tốt hơn so với các đối thủ cạnh tranh và thoả mãn nhu cầu của họ Điều này khiến khách hàng cảm thấy mình được trân trọng hơn, và do đó góp phần củng cố lòng trung thành của họ đối với ngân hàng
- Kiểm soát và quy hoạch thị trường: Thông tin phản ứng của thị trường
(nhận thức, thái độ, hành vi) đối với sản phẩm, dịch vụ có vai trò quan trọng trong việc định hướng chính sách marketing của ngân hàng Với khả năng tổng hợp thông tin và cung cấp các công cụ phân tích, dự báo hành vi khách hàng, hệ thống quản trị khách hàng thông minh sẽ hỗ trợ ngân hàng khai thác có hiệu quả các cơ sở dữ liệu (CSDL) thông tin về thị trường, phân đoạn khách hàng để giúp ngân hàng đưa ra các chiến lược khách hàng đúng đắn
KẾT CHƯƠNG I
Trong chương đầu tiên của luận văn, học viên đã trình bày một cách tổng quan về ngân hàng thương mại và hệ thống quản trị khách hàng thông minh gồm có:
- Đặc điểm ngân hàng thương mại, khách hàng và các sản phẩm, dịch vụ trong ngân hàng
- Thực trạng quản trị khách hàng, đề xuất hệ thống quản trị khách hàng thông minh và các lợi ích mà hệ thống này mang lại
Trong chương tiếp theo, học viên sẽ trình bày lý thuyết các kỹ thuật được áp dụng trong xây dựng hệ thống quản trị khách hàng thông minh cùng với các ví dụ minh họa tương ứng
Trang 20CHƯƠNG 2 KỸ THUẬT KHAI PHÁ LUẬT KẾT HỢP VÀ KHAI PHÁ
MẪU TUẦN TỰ 2.1 Kỹ thuật khai phá luật kết hợp
c Cơ sở dữ liệu giao dịch: Gọi D là CSDL của n giao dịch
d Độ hỗ trợ: Một giao dịch T D hỗ trợ một tập X I nếu nó chứa tất cả các item của X Điều này nghĩa là X T, trong một số trường hợp người ta dùng ký hiệu T(X) để chỉ tập các giao dịch hỗ trợ cho X Kí hiệu support(X) (hoặc sup(X), s(X)) là tỷ lệ phần trăm của các giao dịch hỗ trợ X trên tổng các giao dịch trong D, nghĩa là [3]:
D
T X D T
X |
)sup( (2.1)
e Độ hỗ trợ tối thiểu (minsup): là một giá trị cho trước bởi người sử dụng
Nếu tập mục X có sup(X) minsup thì ta nói X là một tập các mục phổ biến
f Luật kết hợp: Một luật kết hợp có dạng R: X => Y, trong đó X, Y là tập các
mục, X, Y I và X Y = X được gọi là tiên đề và Y được gọi là hệ quả của luật
Luật X => Y tồn tại một độ tin cậy
g Độ tin cậy (c): là khả năng giao dịch T hỗ trợ X thì cũng hỗ trợ Y Ta có
công thức tính độ tin cậy c như sau [3]:
)sup(
)sup(
)(
)(
|()(
X
Y X T
X p
T X T Y p I X I Y p Y X
Trang 21Khai phá luật kết hợp được phân thành hai bước[3]:
Bước 1: Tìm tất cả các tập mục mà có độ hỗ trợ lớn hơn độ hỗ trợ tối thiểu
do người dùng xác định Các tập mục thoả mãn độ hỗ trợ tối thiểu được gọi là các tập mục phổ biến
Bước 2: Dùng các tập mục phổ biến để sinh ra các luật mong muốn
Ví dụ: nếu gọi ABCD và AB là các tập mục phổ biến, thì chúng ta có thể xác
định luật nếu AB => CD giữ lại với tỷ lệ độ tin cậy [3]:
) sup(
) sup(
AB
ABCD conf (2.3) Nếu conf ≥ minconf thì luật được giữ lại (luật này sẽ thoả mãn độ hỗ trợ tối thiểu vì ABCD là phổ biến)
2.1.1.2 Một số tính chất
a Tập mục phổ biến:
Tính chất 1 (Độ hỗ trợ của tập con)[3]:
Với A và B là tập các mục, nếu A B thì sup(A) sup(B)
Điều này là rõ ràng vì tất cả các giao tác của D hỗ trợ B thì cũng hỗ trợ A
Tính chất 2[3]:
Một tập chứa một tập không phổ biến thì cũng là tập không phổ biến
Nếu một mục trong B không có độ hỗ trợ tối thiểu trên D nghĩa là sup(B) < minsup thì một tập con A của B sẽ không phải là một tập phổ biến vì support(B) support(A) < minsup (theo tính chất 1)
Tính chất 3: Các tập con của tập phổ biến cũng là tập phổ biến[3]
Nếu mục B là mục phổ biến trên D, nghĩa là support(B) minsup thì mọi tập con A của B là tập phổ biến trên D vì support(A) support(B) > minsup
b Luật kết hợp:
Tính chất 1:( Không hợp các luật kết hợp)[3]
Nếu có XZ và YZ trong D thì không nhất thiết XYZ là đúng
Xét trường hợp X Z = và các tác vụ trong D hỗ trợ Z nếu và chỉ nếu chúng hỗ trợ mỗi X hoặc Y, khi đó luật XYZ có độ hỗ trợ 0%
Trang 22Tương tự : XY XZ XYZ
Tính chất 2:(Không tách luật)[3]
Nếu XYZ thì XZ và YZ chưa chắc xảy ra
Ví dụ trường hợp Z có mặt trong một giao tác chỉ khi cả hai X và Y cũng có mặt, tức là sup(XY)= sup(Z), nếu độ hỗ trợ của X và Y đủ lớn hơn sup(XY), tức
là sup(X) > sup(XY) và sup(Y) > sup(XY) thì hai luật riêng biệt sẽ không đủ độ tin cậy
Tuy nhiên đảo lại: XYZ XY XZ
Tính chất 3: (Các luật kết hợp không có tính bắc cầu)[3]
Nếu XY và YZ, chúng ta không thể suy ra XZ
Ví dụ: giả sử T(X) T(Y) T(Z), ở đó T(X), T(Y), T(Z) tương ứng là các giao dịch chứa X,Y,Z, và độ tin cậy cực tiểu minconf
conf(XY) = conf(YZ) = minconf thế thì: conf(XY) = minconf2 < minconf vì minconf < 1, do đó luật XZ không đủ độ tin cậy
Tính chất 4[3]:
Nếu A(L - A) không thoả mãn độ tin cậy cực tiểu thì luật
B (L -B) cũng không thoả mãn, với các tập mục L,A,B và B A L
Vì supp(B) sup(A) (theo tính chất 1) và định nghĩa độ tin cậy, chúng ta
B
L B
L B
)sup(
)sup(
)sup(
)sup(
)(
conf(B (2.4) Cũng như vậy: Nếu có (L-C) C thì ta cũng có luật (L – D)D, với DC
) sup(
)
sup(
C L
L D
L
L minconf (2.5)
Trang 232.1.2 Kỹ thuật khai phá luật kết hợp với Apriori
2.1.2.1 Thuật toán Apriori
a Giới thiệu về thuật toán:
Apriori là một thuật giải được do Rakesh Agrawal, Tomasz Imielinski, Arun Swami đề xuất lần đầu vào năm 1993 Thuật toán tìm giao dịch t có độ hỗ trợ và độ tin cậy thoả mãn lớn hơn một giá trị ngưỡng nào đó Thuật toán được lược bỏ những tập ứng cử viên có tập con không phổ biến trước khi tính độ hỗ trợ.[3]
Ký hiệu: Giả sử các mục trong mỗi giao dịch được lưu trữ theo thứ tự Gọi số các mục trong một tập mục là kích thước của nó và gọi tập mục có kích thước k là tập k-mục (tập k mục) Các mục trong mỗi tập mục cũng được sắp xếp theo thứ tự
Ta sử dụng các ký hiệu sau:
L k: Tập các tập k-mục phổ biến (với độ hỗ trợ cực tiểu minsup nào đó)
C k : Tập các tập k-mục ứng cử (các tập mục phổ biến tiềm năng)
Tư tưởng của thuật toán Apriori là:
- Tìm tất cả các tập thường xuyên (frequent itemsets): k-itemset (itemsets gồm k items) được dùng để tìm (k+1)-itemset
- Đầu tiên tìm 1-itemset (ký hiệu L1); L1 được dùng để tìm L2 (2-itemsets); L2 được dùng để tìm L3 (3-itemset) và tiếp tục cho đến khi không có k-itemset được tìm thấy
- Từ các tập thường xuyên (frequent itemsets) sinh ra các luật kết hợp mạnh (các luật kết hợp thỏa mãn 2 tham số min_sup và min_conf)
b Trình bày thuật toán:
- Tên thuật toán: Apriori [3]
Trang 24- Đầu vào: Cơ sở dữ liệu D và độ hỗ trợ cực tiểu min_sup
for (k = 1; L k !=Ø; k++) {
C k+1 = apriori_gen(L k ); //Tạo tập ứng viên (k+1) hạng mục
for mỗi giao dịch trong D { // Duyệt CSDL D để tính support
C t = subset(C k+1 , t); //Lấy ra tập con của t là ứng viên
for mỗi ứng viên c ∈ C t
c.count ++
}
L k+1 = { c ∈ C k+1 | c.count >= minsupp }
}
return L = k L k //Đầu ra: Tập chỉ mục phổ biến trong D
Hình 2.1: Giả mã thuật toán Apriori
+ Cụ thể, thực hiện theo các bước sau:
Bước 1: Duyệt toàn bộ CSDL để có được độ hỗ trợ s của 1-itemset, so sánh s với
Bước 2.2: Loại bỏ các ứng viên không có lợi, nếu các ứng viên được sinh ra
từ bước 2.1 không thỏa mãn điều kiện “các tập con có k thành viên của nó không nằm trong L k” thì ta sẽ loại bỏ ứng viên này
Bước 3: Duyệt CSDL để có được độ hỗ trợ của mỗi tập ứng viên k-itemset, so sánh
giá trị này với min_sup để loại bỏ các ứng viên không thỏa mãn (có độ hỗ trợ < min_sup), thu được tập thường xuyên k–itemset (Lk)
Trang 25Bước 4: Lặp lại từ bước 2 cho đến khi tập ứng viên là rỗng (không tìm thấy tập
thường xuyên)
Bước 5: Với mỗi tập thường xuyên Lk, sinh tất cả các tập con s không rỗng của Lk
Bước 6: Sinh ra các luật s => (Lk - s) nếu độ tin cậy (confidence) của nó > = min_conf
2.1.2.2 Ví dụ thuật toán Apriori
Chẳng hạn với I= {A1,A2,A5},các tập con của I:
{A1}, {A2}, {A5}, {A1,A2},{A1,A5},{A2,A5}
sẽ có các luật sau
{A1} => {A2,A5},{A2} =>{A1,A5},{A5} =>{A1,A2}
{A1,A2} =>{A5},{A1,A5} =>{A2},{A2,A5} => {A1}
Ví dụ: Giả sử ta có có sở dữ liệu giao dịch như sau, độ hỗ trợ tối thiểu = 50%, độ tin cậy tối thiểu bằng 80% :
Hình 2.2: Dữ liệu giao dịch ví dụ thuật toán Apriori
Trang 26Thuật toán Apriori khai phá luật kết hợp được mô tả qua các bước sau
Hình 2.3: Quá trình thực hiện thuật toán Apriori
Ta có tập thường xuyên I ={B,C,E}, với min_conf = 80% ta có 2 luật kết hợp là {B,C} => {E} và {C,E} => {B}
Hình 2.4: Kết quả thực hiện thuật toán Apriori
Trang 272.2 Kỹ thuật khai phá mẫu tuần tự
2.2.1 Tổng quan về khai phá mẫu tuần tự
2.2.1.1 Các khái niệm
a Tập mục (itemset): là một tập không rỗng các phần tử (item), kí hiệu là i
bởi (i1i2 im), trong đó ij là một phần tử
b Dãy (sequence): là một danh sách có thứ tự các itemset, ký hiệu là s bởi
(s1s2 sn), trong đó sj là một itemset
c Quan hệ được chứa: Dãy (a1a2 an) được chứa trong dãy (b1b2 bn) nếu ở
đó tồn tại các số nguyên i1 < i2 < < in sao cho a1 bi1 , a2 bi2 , , an bin Ta
sử dụng ký hiệu π để biểu thị quan hệ “được chứa trong” Ví dụ, dãy <(3) (4,5) (8)> π <(7) (3 8) (9) (4 5 6) (8)>, vì ((3) (3 8), (4 5) (4 5 6) và (8) (8) Tuy nhiên, dãy <(3) (5)> không được chứa trong <(3 5)> và ngược lại Phần tử 3 và 5 trong dãy <(3) (5)> mô tả chúng không nằm trong cùng một lần giao dịch, trong khi phần tử 3 và 5 trong dãy <(3 5)> mô tả chúng nằm trong một lần giao dịch
d Dãy tối đa: Trong một tập các dãy, một dãy s là lớn nhất hay tối đa
(maximal) nếu s không được chứa trong bất kỳ dãy nào khác
e Dãy khách hàng: Là tất cả các giao dịch của cùng một khách hàng có thể
được xem như là một dãy Trong đó, mỗi giao dịch được xem như một tập các phần
tử, và danh sách các giao dịch theo thứ tự tăng dần về thời gian giao dịch tương ứng với một dãy
f Độ hỗ trợ: Một khách hàng hỗ trợ một dãy s nếu s được chứa trong dãy
customer-sequence đối với khách hàng đó Độ hỗ trợ của một dãy được định nghĩa
là số khách hàng hỗ trợ dãy đó
g Mẫu dãy: Các dãy tối đa trong số tất cả các dãy phổ biến đáp ứng mức hỗ
trợ tối thiểu cụ thể nào đó được gọi là luật dãy hay mẫu dãy (sequential patterns)
h CSDL dãy: Là CSDL có chưa các thông tin về định danh của dãy hoặc
định danh khách hàng (sequence-id or customer-id), thời gian giao dịch (transaction-time) và mặt hàng liên quan trong giao dịch (item)
Trang 282.2.1.2 Khai phá luật tuần tự
Khai phá luật tuần tự thực hiện xử lý dữ liệu điển hình là các dãy (một dãy là một tập hợp các phần tử được sắp thứ tự)[2] Khai phá luật tuần tự có thể được áp dụng rộng rãi trên các ứng dụng từ nhiều loại dữ liệu có thời gian liên quan
Khai phá luật dãy được chia thành các giai đoạn sau đây[5]:
- Giai đoạn sắp xếp (Sort Phase): CSDL (D) được sắp xếp, với mã khách
hàng (custorm-id) là khóa chính và thời gian giao dịch (transaction-time) là khóa phụ Bước này chuyển đổi ngầm cơ sơ dữ liệu giao dịch gốc thành CSDL dãy khách hàng
- Giai đoạn Litemset (Litemset Phase): Giai đoạn này thực hiện tìm tất cả
các tập phần tử lớn nhất litemsets L, đồng thời cũng tìm kiếm tập tất cả các dãy phổ biến 1-sequence, vì tập này cũng là {<l> | l L}
Với giao dịch của một khách hàng, độ hỗ trợ được tính tăng lên chỉ một lần ngay cả khi khách hàng mua cùng một tập các sản phẩm trong hai hay nhiều giao dịch khác nhau
- Giai đoạn chuyển đổi (Transformation Phase): Trong một dãy khách hàng
được chuyển đổi, mỗi giao dịch được thay thế bằng tập tất cả các litemsets được chứa trong giao dịch đó Nếu một giao dịch không chứa bất kỳ litemset nào, nó không được giữ lại trong dãy chuyển đổi Nếu một dãy khách hàng không chứa bất
kỳ litemset nào thì dãy này bị loại bỏ trong CSDL chuyển đổi Tuy nhiên, nó vẫn góp phần vào việc tính tổng số lượng khách hàng Một dãy các khách hàng khi đó được thể hiện bởi một danh sách tập các litemsets Mỗi tập litemsets được biểu diễn bởi {l1, l2, , ln}, trong đó li là một litemset
- Giai đoạn dãy (Sequence Phase): Sử dụng tập các litemsets để tìm các dãy
ứng viên Thực hiện các quá trình duyệt lặp đi lặp lại trên dữ liệu Trong mỗi lần duyệt, ta bắt đầu với một tập khởi tạo các dãy phổ biến Ta sử dụng tập khởi tạo này
để sinh ra các dãy phổ biến mới, tiềm năng, gọi là các dãy ứng viên (candidate sequences) Tìm độ hỗ trợ cho các dãy ứng viên này trong suốt quá trình duyệt dữ liệu
Trang 29Tại lần duyệt cuối cùng của mỗi bước, xác định dãy nào trong các dãy ứng viên là dãy phổ biến thực sự Các dãy ứng viên phổ biến trở thành khởi tạo cho lần duyệt tiếp theo Trong lần duyệt đầu tiên, tất cả các 1-sequences với độ hỗ trợ tối thiểu, được chứa trong giai đoạn litemset, tạo nên tập khởi tạo
- Giai đoạn tìm dãy tối đa (Maximal Phase): Tìm các dãy tối đa trong tập các
dãy phổ biến (large sequences)
2.2.2 Kỹ thuật khai phá mẫu tuần tự với GSP
2.2.2.1 Thuật toán GSP
a Giới thiệu về thuật toán
GSP là một giải thuật được R Srikant và R Agrawal đề xuất vào năm 1996 [4] Thuật toán GSP khai phá mẫu dãy tổng quát Cấu trúc cơ bản của thuật toán GSP tìm kiếm mẫu dãy là thuật toán duyệt dữ liệu nhiều lần, lần duyệt đầu tiên xác định độ hỗ trợ của từng phần tử, tức là số lượng dữ liệu dãy có chứa các phần tử Kết thúc lần duyệt đầu tiên, thuật toán đưa ra được các phần tử thường xuyên, nghĩa
là thỏa mãn độ hỗ trợ tối thiểu Mỗi dãy con bắt đầu duyệt với tập khởi đầu là các dãy phổ biến được tìm thấy trong lần duyệt trước đó Tập khởi đầu được sử dụng để sinh ra các dãy ứng viên Mỗi dãy ứng viên có ít nhất một phần tử thuộc dãy khởi đầu, vì thế tất cả các dãy ứng viên trong một lần duyệt sẽ có cùng số phần tử Với mỗi lần duyệt, ta thực hiện tính độ hỗ trợ cho các ứng viên từ đó chọn ra được các ứng viên thường xuyên Những ứng viên này trở thành tập khởi đầu cho lần duyệt tiếp theo Thuật toán kết thúc khi không tìm được dãy phổ biến nào ở cuối lần duyệt, hoặc khi không có dãy ứng viên nào được sinh ra
Thuật toán được thực hiện qua hai quá trình là sinh các dãy ứng viên và tính
độ hỗ trợ để xác định dãy ứng viên[4]
- Sinh dãy ứng viên
Xét một dãy có k phần tử, gọi là k-sequence Gọi Lk là tập tất cả các dãy phổ biến k-sequence và Ck là tập các dãy ứng viên k-sequence Gọi s = <s1 s2 … sn> là một dãy, c là dãy con liên tục của s nếu thỏa mãn bất kỳ điều kiện nào sau đây[4]:
Trang 30i c nhận được từ s bằng cách lược bỏ phần tử s 1 hoặc s n
ii c nhận được từ s bằng cách lược bỏ một phần tử từ thành phần s i mà s i
có ít nhất hai phần tử
iii c là dãy con liên tục của c’, và c’ là dãy con liên tục của s
Ví dụ: Giả sử có dãy s = <(1,2) (3,4) (5) (6)> Khi đó, các dãy con liên tục của s là <(2) (3,4) (5)>; <(1,2) (3) (5) (6)>; <(3) (5)> Các dãy không phải là dãy con liên tục của s như: <(1,2) (3,4) (6)>; <(1,2) (5) (6)>
Dữ liệu dãy có chứa dãy s cũng sẽ chứa bất kỳ dãy con liên tục nào của s Thực hiện sinh các dãy ứng viên qua hai bước:
+ Bước nối: Thực hiện sinh các dãy ứng viên bằng phép nối Lk-1 với Lk-1 Một dãy s1 nối với s2 nếu dãy con thu được bằng cách loại bỏ phần tử đầu tiên của
s1 và dãy thu được bằng cách loại bỏ phần tử cuối cùng của s2 là giống nhau Dãy ứng viên được sinh bằng phép nối s1 với s2 là dãy s1 được mở rộng với phần tử cuối cùng trong s2 Phần tử được thêm trở nên thành phần riêng biệt nếu đó là một thành phần riêng biệt trong s2, và một phần của thành phần cuối cùng của s1 khác
+ Bước loại bỏ: Ta loại bỏ các dãy ứng viên có dãy con liên tục
(k-1)-subsequence mà có độ hỗ trợ nhỏ hơn độ hỗ trợ tối thiểu
- Tính độ hỗ trợ các ứng viên
Với mỗi lần duyệt dữ liệu ta thực hiện đếm số lần xuất hiện của mỗi ứng viên trong mỗi dãy, giá trị này có ý nghĩa là số giao dịch hỗ trợ ứng viên
b Trình bày thuật toán
- Tên thuật toán: GSP (Generalized Sequential Pattern)[4]
- Các ký hiệu:
+ Ck: Tập chuỗi ứng viên chiều dài k
+ Fk: Tập chuỗi phổ biến chiều dài k
- Các bước thực hiện:
+ Giả mã: