LỜI CAM ĐOAN Tôi xin cam đoan luận văn “Nghiên cứu ứng dụng các kỹ thuật khai phá dữ liệu nhằm phân lớp hành vi khách hàng phục vụ một số nghiệp vụ ngân hàng” là công trình nghiên cứu củ
Trang 1LÊ ANH LÂN
NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU NHẰM PHÂN LỚP HÀNH VI KHÁCH HÀNG PHỤC VỤ MỘT SỐ NGHIỆP VỤ NGÂN HÀNG
LUẬN VĂN THẠC SĨ MÁY TÍNH
THANH HÓA, NĂM 2022
Trang 3BỘ GIÁO DỤC VÀ ĐÀO TẠO UBND TỈNH THANH HÓA
TRƯỜNG ĐẠI HỌC HỒNG ĐỨC
LÊ ANH LÂN
NGHIÊN CỨU ỨNG DỤNG CÁC KỸ THUẬT KHAI PHÁ
DỮ LIỆU NHẰM PHÂN LỚP HÀNH VI KHÁCH HÀNG PHỤC VỤ MỘT SỐ NGHIỆP VỤ NGÂN HÀNG
LUẬN VĂN THẠC SĨ MÁY TÍNH
Chuyên ngành: Khoa học máy tính
Mã số: 8480101
Người hướng dẫn khoa học: TS Nguyễn Thế Cường
THANH HÓA, NĂM 2022
Trang 4i
Danh sách Hội đồng đánh giá luận văn Thạc sỹ khoa học
(Theo Quyết định số: /QĐ- ĐHHĐ ngày tháng năm 2022
của Hiệu trưởng Trường Đại học Hồng Đức)
Học hàm, học vị
Họ và tên
Cơ quan Công tác
Chức danh trong Hội đồng
Chủ tịch HĐ
UV, Phản biện 1
UV, Phản biện 2
Uỷ viên
Uỷ viên, Thư ký
Xác nhận của Người hướng dẫn
Học viên đã chỉnh sửa theo ý kiến của Hội đồng
Ngày tháng năm 2022
Trang 5LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Nghiên cứu ứng dụng các kỹ thuật khai phá dữ liệu nhằm phân lớp hành vi khách hàng phục vụ một số nghiệp vụ ngân hàng” là công trình nghiên cứu của cá nhân dưới sự hướng dẫn của Tiến
sĩ Nguyễn Thế Cường, là trung thực và không sao chép của tác giả khác Các
vấn đề nghiên cứu được trình bày trong luận văn đều là những tìm hiểu và nghiên cứu của chính cá nhân tôi hoặc là được trích dẫn từ các nguồn tài liệu
có ghi tham khảo rõ ràng, hợp pháp
Tôi xin chịu mọi trách nhiệm cho lời cam đoan này
Thanh Hoá, ngày 12 tháng 9 năm 2022
Người cam đoan
Lê Anh Lân
Trang 6i
LỜI CẢM ƠN
Luận văn “Nghiên cứu ứng dụng các kỹ thuật khai phá dữ liệu nhằm phân lớp hành vi khách hàng phục vụ một số nghiệp vụ ngân hàng” được hoàn thành không những nhờ sự nỗ lực của cá nhân tác giả mà còn có sự trợ giúp, giúp đỡ từ rất nhiều tập thể và cá nhân
Trước hết, tác giả xin chân thành cảm ơn tất cả các thầy giáo, cô giáo của Khoa Công nghệ thông tin & Truyền thông, Trường Đại học Hồng Đức đã nhiệt tình giảng dạy, chỉ bảo, tạo điều kiện thuận lợi cho tác giả trong quá trình học tập, nghiên cứu, hoàn thành chương trình học tập của khóa học
Đặc biệt, tác giả bày tỏ lòng biết ơn sâu sắc đến thầy TS Nguyễn Thế
Cường, thầy hướng dẫn trực tiếp luận văn của tác giả đã dành thời gian chỉ bảo
tận tình giúp tác giả hoàn thành luận văn Xin cám ơn các anh/chị, các kỹ sư tại công ty cổ phần Thinklabs đã hỗ trợ tác giả trong quá trình hoàn thành luận văn
Tác giả xin cảm ơn gia đình, bạn bè, đồng nghiệp, đã động viên tiếp thêm nghị lực để tác giả hoàn thành khóa học và luận văn
Mặc dù đã có nhiều cố gắng, song luận văn khó tránh khỏi những thiếu sót Tác giả rất mong sự chỉ bảo, góp ý của các nhà khoa học, các thầy cô giáo
và đồng nghiệp
Xin trân trọng cảm ơn!
Thanh Hoá, ngày 12 tháng 9 năm 2022
Tác giả luận văn
Lê Anh Lân
Trang 7MỤC LỤC
LỜI CAM ĐOAN - 1 -
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC HÌNH v
MỞ ĐẦU 1
1 Lý do chọn đề tài 1
2 Mục tiêu và nhiệm vụ nghiên cứu 3
3 Đối tượng và phạm vi nghiên cứu 3
4 Phương pháp nghiên cứu 4
5 Kết quả đạt được 4
6 Ý nghĩa khoa học và thực tiễn 5
7 Bố cục của luận văn 5
Chương 1 TỔNG QUAN VỀ BÀI TOÁN PHÂN CỤM KHÁCH HÀNG 6 1.1 Tổng quan về bài toán phân cụm khách hàng 6
1.1.1 Kỹ thuật phân cụm K trung bình (K-mean Clustering) 7
1.1.2 Kỹ thuật phân cụm tổng hợp (Agglomerative Clustering) 7
1.1.3 Kỹ thuật phân cụm dịch chuyển trung bình (Mean shift Clustering) 7
1.1.4 Biểu đồ Dendrogram 8
1.2 Tổng quan về các kỹ thuật phân cụm 9
1.2.1 Giải thuật phân cụm dựa trên phân đoạn 9
1.2.2 Giải thuật phân cụm dựa trên phân cấp 9
1.2.3 Giải thuật phân cụm dựa trên phân phối 10
1.2.4 Giải thuật phân cụm dựa trên mật độ 11
1.3 Phát biểu bài toán phân lớp khách hàng trong hoạt động ngân hàng VIB 11
Kết luận chương 1 16
Chương 2.KHAI PHÁ DỮ LIỆU VÀ CÁC KỸ THUẬT PHÂN CỤM 18
2.1 Khai phá dữ liệu 18
2.1.1.Khái niệm 18
2.1.2.Quá trình khai phá dữ liệu 18
2.1.3.Các kỹ thuật khai phá dữ liệu chính 23
2.2.Một số kỹ thuật phân cụm chính 26
Trang 8v
2.2.1.Kỹ thuật phân cụm K trung bình (K-mean) 27
2.2.2.Kỹ thuật phân cụm tổng hợp 29
2.2.3.Phương thức khuỷu tay (Elbow method) xác định số cụm 36
2.3.Công cụ khai phá dữ liệu 38
2.3.1.Môi trường lập trình Google Colaboratory 38
2.3.2.Môi trường thực thi Python trong Google Colab 39
2.3.3.Ngôn ngữ lập trình Python với khai phá dữ liệu 41
2.4 Scale dữ liệu 43
2.4.1.Các phương pháp scale dữ liệu 43
2.4.2.Scale dữ liệu trong học máy 44
Kết luận chương 2 46
Chương 3 PHÂN CỤM KHÁCH HÀNG SỬ DỤNG DỊCH VỤ NGÂN HÀNG VIB 46
3.1.Phân tích và lựa chọn đặc trưng của dữ liệu 46
3.2.Giảm chiều dữ liệu 54
3.3.Thực hiện phân cụm dữ liệu 55
3.3.1.Xác định số cụm phù hợp 55
3.3.2.Thực hiện phân cụm 56
Kết luận chương 3 58
KẾT LUẬN 59
1 Kết quả đạt được 59
2 Hạn chế 59
3 Hướng phát triển 59
TÀI LIỆU THAM KHẢO 60
Trang 9DANH MỤC CÁC HÌNH
Hình 1.1: Ví dụ về một lược đồ dendrogram 8
Hình 2.1: Các giai đoạn trong khai phá dữ liệu [3] 23
Hình 2.2: Ví dụ về phân cụm dữ liệu 25
Hình 2.3: Quá trình mô hình hóa dựa trên phương thức phân cụm K-mean [8] 29
Hình 2.4: Đồ thị của quá trình phân chia hoặc hợp nhất theo phương pháp phân cụm phân cấp 30
Hình 2.5: Hình minh hoạ các bước được thực hiện trên thuật toán phân cụm phân cấp sử dụng chiến lược hợp nhất đối với 6 điểm dữ liệu 32
Hình 2.6: Đồ thị hàm biến dạng của thuật toán k-Means Trục tung là giá trị của hàm biến dạng và trục hoành là giá trị của số lượng cụm cần phân chia trong thuật toán k-Means 37
Hình 3.1: Một số dữ liệu ví dụ của cơ sở dữ liệu dùng phân cụm 53
Hình 3.2: Bản đồ tương quan của các đặc trưng 54
Hình 3.3: Thông tin cơ bản về tập dữ liệu sau khi thực hiện PCA 55
Hình 3.4: Sử dụng phương thức elbow để xác định số cụm phù hợp 55
Hình 3.5: Minh họa một số bản ghi đã được xác định cụm 56
Hình 3.6: Mức độ phân bố của các cụm dữ liệu 56
Hình 3.7: Sự phân bố của các cụm trong quan hệ giữa Độ tuổi và Hình thức thanh toán 57
Hình 3.8: Sự phân bố của các cụm trong quan hệ giữa Độ tuổi và Số lượng tiền lưu chuyển trung bình 57
Trang 10MỞ ĐẦU
1 Lý do chọn đề tài
Theo tiến sỹ V.L.M Oliveira, quản trị quan hệ khách hàng (CRM: Customer Relationship Management) là một công cụ không thể thiếu trong các ngân hàng nhằm giúp họ xây dựng chiến lược kinh doanh tốt hơn Việc quản trị quan hệ khách hàng (CRM) gồm 4 giai đoạn chính: Nhận diện khách hàng, thu hút khách hàng, chăm sóc khách hàng, phát triển khách hàng (Customer Identification, Customer Attraction, Customer Retention, Customer Development) [3] Trong đó,
- Nhận diện khách hàng tiềm năng (Customer Identification): Đây là công việc đầu tiên trong quá trình CRM, nó gồm các công việc chính là phân loại và phân tích khách hàng Khách hàng được chia thành các tập con nhỏ hơn với các thuộc tính giống nhau Nhiệm vụ phân tích khách hàng gồm các việc tìm ra các phân khúc hấp dẫn của công ty dựa trên những thuộc tính của khách hàng Ngoài ra, trong giai đoạn này, các công cụ khác như nghiên cứu thị trường tiêu dùng (Consumer Market Research), theo dõi hành vi tiêu dùng của khách hàng (User Tracking), đặc biệt kỹ thuật khai phá dữ liệu (Data mining) được sử dụng phổ biến trong giai đoạn này để hỗ trợ việc nhận diện khách hàng tiềm năng
- Thu hút khách hàng tiềm năng (Customer Attraction): Giai đoạn này
là bước theo dõi, chăm sóc các khách hàng đã được nhận diện ở giai đoạn trước Nhận diện được các lớp khách hàng khác nhau, ngân hàng có thể tập trung vào các nguồn lực hiện có để thu hút khách hàng ở từng lớp khách hàng
đó Để có được lợi thế cạnh tranh, các ngân hàng có thể dùng các phương pháp như quản lý, phân tích các khiếu nại của khách hàng (Complaint Management)
để điều chỉnh hành vi kinh doanh phù hợp Bên cạnh đó, các ngân hàng có thể
sử dụng phương pháp khác như tích điểm khách hàng (Bench Marketing), giới thiệu sản phẩm (Sale Promotion), tiếp thị trực tiếp (Direct Marketing), thực hiện trên một số khách hàng đã được lựa chọn có chủ định (Sample)
Trang 11- Phát triển khách hàng tiềm năng (Customer Development): Nhiệm vụ chính của giai đoạn này là làm sao để tăng doanh thu bằng các hình thức như tăng số lượng giao dịch, tăng giá trị giao dịch của khách hàng Các công cụ trong giai đoạn này thường được sử dụng như các chương trình bán hàng đặc biệt (Up-Selling, Cross Selling), hoặc là cung cấp các sản phẩm cũng như các dịch vụ tốt hơn, cao hơn (Product/Service Bundling) Các phương pháp này được thực hiện dựa trên sự đánh giá hành vi tiêu dùng của từng khách hàng
- Duy trì khách hàng tiềm năng (Customer Rentention): Đây là một trong các vấn đề trọng tâm của CRM Sự hài lòng của khách hàng có thể coi là
kỳ vọng, hình ảnh, mục tiêu của các ngân hàng thương mại (NHTM) Bằng sự phân tích, dự đoán được hành vi tiêu dùng của khách hàng, ngân hàng có thể
sử dụng các phương thức chăm sóc tới từng khách hàng riêng lẻ (Personalization), phân thành các lớp khách hàng có cùng sở thích (Customer Club), giới thiệu sản phẩm trực tiếp tới khách hàng (One-to-One Marketing) hoặc thực hiện các chương trình cho khách hàng trung thành (Loyalty-Bonus Programs)
Khai phá dữ liệu với mục đích là khám phá tri thức từ dữ liệu để hỗ trợ
ra quyết định, đây là phương pháp hiệu quả giúp chúng ta cải thiện được tình trạng bị tràn ngập trong dữ liệu nhưng thiếu thông tin Có nhiều mô hình có thể được phát triển để khai phá dữ liệu, tuy nhiên, việc lựa chọn mô hình nào cho phù hợp cũng là một bài toán cần giải quyết trong bài toán lớn khai phá dữ liệu Các mô hình gồm có: mô hình phân tích dữ liệu thăm dò (Exploratory Data Analysis), mô hình phụ thuộc (Dependency Modeling), mô hình phân cụm (Clustering), mô hình phát hiện các yếu tố bất thường (Anomaly Detection), mô hình phân tích dự báo (Predictive Analysics)
Trong bối cảnh hiện nay, việc nghiên cứu các kỹ thuật phân lớp khách hàng trong quản lý quan hệ khách hàng là cực kỳ quan trọng Thứ nhất, kho dữ liệu về các giao dịch trong các ngân hàng hiện nay rất lớn, nó lớn lên từng ngày tuy nhiên không phải thông tin nào trong đó cũng hữu ích, có giá trị hỗ trợ việc
Trang 12ra quyết định kinh doanh của các NHTM Việc khai thác tri thức có ích trong kho dữ liệu đó chính là phương pháp khai phá dữ liệu Thông tin được khai phá sẽ giúp cho việc phát triển, hoàn thiện hệ thống quản trị Quan hệ khách hàng tại các ngân hàng hiệu quả hơn Từ đó giúp cho việc định hướng các chiến lược phát triển tốt nhất cho các sản phẩm, dịch vụ tại các NHTM Thứ hai, ngành Ngân hàng Việt Nam trong nhưng năm gần đây được đánh giá là ngành mới mẻ và có nhiều tiềm năng với tốc độ tăng trưởng ấn tượng Lượng giao dịch tại các ngân hàng Việt Nam tăng lên không ngừng cùng với lượng khách hàng lớn tạo ra kho dữ liệu về khách hàng ngân hàng vô cùng lớn Tuy nhiên, hầu hết các ngân hàng Việt Nam chưa khai thác được hết các thông tin quí hiếm được ẩn chứa từ kho dữ liệu quí báu này để đưa ra được các định hướng phát triển và hoàn thiện quá trình CRM của các NHTM Những thông tin này giúp ngân hàng đưa ra được các chiến lược kinh doanh hợp lý và phát hiện các rủi ro có thể xảy ra Thứ ba, nghiên cứu và ứng dụng các phương pháp khai phá dữ liệu áp dụng cho các NHTM là vô cùng cần thiết Dựa vào các kỹ thuật khai phá dữ liệu, cụ thể là các kỹ thuật dự báo, các thông tin hữu ích ẩn chứa trong dữ liệu mới được sử dụng hiệu quả và phát huy được tác dụng của nó Các nhà quản lý ngân hàng sẽ sử dụng các thông tin này để làm cơ sở cho việc
ra quyết định kinh doanh của họ
2 Mục tiêu và nhiệm vụ nghiên cứu
Xây dựng được mô hình phân lớp khách hàng sử dụng dịch vụ của ngân hàng để xây dựng các chiến lược phát triển phù hợp Để thực hiện mục đích ý tưởng của đề tài, cần nghiên cứu và tiến hành triển khai các nội dung:
- Nghiên cứu tổng quan các kỹ thuật khai phá dữ liệu
- Nghiên cứu, phân tích dữ liệu hành vi người dùng ngân hàng cụ thể để xem xét các thông tin liên quan
- Xây dựng mô hình phân lớp dữ liệu khách hàng dựa trên hành vi
- Kiểm thử mô hình trên dữ liệu mẫu và đánh giá kết quả
3 Đối tượng và phạm vi nghiên cứu
Trang 13Đối tượng nghiên cứu:
- Quy trình quản lý khách hàng, cách thức xây dựng các chiến lược chăm sóc khách hàng
- Các đặc điểm, đặc trưng của dữ liệu khách hàng
- Các giải thuật về khai phá dữ liệu, học máy, trí tuệ nhân tạo liên quan; các công cụ xử lý dữ liệu, các công cụ huấn luyện các mô hình phân lớp, phân cụm,
Phạm vi nghiên cứu:
Các mô hình, các kỹ thuật phân lớp dữ liệu; dữ liệu khách hàng của một ngân hàng cụ thể
4 Phương pháp nghiên cứu
Đề tài sử dụng ba phương pháp nghiên cứu chính: phương pháp nghiên cứu lý thuyết, phương pháp chuyên gia và phương pháp nghiên cứu thực nghiệm
- Phương pháp phân tích và tổng hợp lý thuyết: Nghiên cứu các tài liệu, các báo cáo khoa học, các luận văn, luận án liên quan đến lĩnh vực khai phá dữ liệu; nghiên cứu các tài liệu mô tả về dữ liệu ngân hàng
- Phương pháp thực nghiệm: xây dựng thử nghiệm các mô hình phân lớp; đánh giá kết quả của các mô hình đã có, mô hình đề xuất; phân tích, tổng hợp kết quả
- Phương pháp chuyên gia: trao đổi với các chuyên gia, kỹ thuật viên về các lĩnh vực khai phá dữ liệu, ngân hàng để có được những phản hồi về các
nghiên cứu đã thực hiện
5 Kết quả đạt được
- Tổng hợp có hệ thống các kiến thức về khai phá dữ liệu; các kỹ thuật khai phá dữ liệu phù hợp với yêu cầu bài toán
- Phân tích, đánh giá được dữ liệu cụ thể của 01 ngân hàng
- Xây dựng được mô hình phân lớp hành vi khách hàng để có thể đưa ra được các giải pháp tăng cường mối quan hệ khách hàng
Trang 14- Đánh giá được độ chính xác và hiệu quả của mô hình đề xuất; đưa ra
được phương án phát triển
6 Ý nghĩa khoa học và thực tiễn
Về mặt khoa học:
Đề tài đưa ra một mô hình phân lớp khách hàng dựa trên cơ sở dữ liệu khách hàng để từ đó xác định được các nhóm khách hàng và triển khai các chiến lược quảng bá dịch vụ phù hợp
Về mặt thực tiễn:
Đề tài xây dựng mô hình hỗ trợ ngân hàng phân cụm được khách hàng,
có cơ sở thực tiễn để xây dựng các chiến lược phát triển kinh doanh phù hợp
7 Bố cục của luận văn
Sau phần mở đầu, nội dung chính của luận văn được chia thành 3 chương như sau:
Chương 1: Tổng quan về bài toán phân cụm khách hàng
Chương 2: Khai phá dữ liệu và các kỹ thuật phân cụm
Chương 3: Phân cụm khách hàng sử dụng dịch vụ ngân hàng VIB
Kết luận và tài liệu tham khảo
Trang 15Chương 1 TỔNG QUAN VỀ BÀI TOÁN PHÂN CỤM KHÁCH HÀNG 1.1 Tổng quan về bài toán phân cụm khách hàng
Khi ngày càng có nhiều doanh nghiệp mới thuộc các lĩnh vực khác nhau được thành lập hàng ngày, các doanh nghiệp hiện có phải nghiên cứu, triển khai
và áp dụng các chiến lược tiếp thị liên tục để duy trì thị trường khi sự cạnh tranh
đã giảm dần
Hoặc thay đổi hoặc phá sản đã trở thành quy tắc đơn giản của tiếp thị trong thế giới ngày nay Khi số lượng khách hàng đang ngày càng tăng lên, việc đáp ứng nhu cầu của từng khách hàng với những sở thức, thói quan khác nhau trở thành thách thức đối với các công ty Để có thể triển khai được vấn đề này, cần có một công cụ hỗ trợ việc xác định được các nhóm khách hàng khác nhau
để có thể đề xuất các chiến lược kinh doanh khác nhau Đối với lĩnh vực này, khai phá dữ liệu đóng một vai trò rất quan trọng để làm sáng tỏ các mẫu ẩn được lưu trữ trong cơ sở dữ liệu của công ty Phân cụm khách hàng là một trong những ứng dụng của khai phá dữ liệu giúp nhóm các khách hàng có kiểu mẫu tương tự thành các cụm tương tự, từ đó doanh nghiệp dễ dàng xử lý với số khách hàng lớn Việc phân cụm khách hàng này có thể ảnh hưởng trực tiếp hoặc gián tiếp đến chiến lược tiếp thị của công ty vì nó mở ra nhiều con đường mới, nhiều cách nhìn mới để khám phá xem sản phẩm của công ty sẽ tốt và phù hợp cho phân khúc nào, tùy chỉnh các kế hoạch tiếp thị theo từng phân khúc, giảm giá cho một phân khúc cụ thể, thậm chí có thể giải mã khách hàng và mối quan
hệ với khách hàng mà trước đây công ty chưa từng biết
Phân cụm khách hàng cho phép các công ty hình dung những gì thực sự
mà khách hàng đang mua, đang muốn hoặc có thể muốn trong tương lại Điều này sẽ thúc đẩy các công ty phục vụ khách hàng của họ tốt hơn, dẫn đến sự hài lòng của khách hàng, nó cũng cho phép các công ty tìm thấy khách hàng mục tiêu của họ và ứng biến các chiến thuật tiếp thị của họ để tạo ra nhiều doanh thu hơn từ họ
Trang 16Kỹ thuật phân cụm (clustering) được chứng minh là hiệu quả trong việc phân cụm khách hàng ở các lĩnh vực kinh doanh Phân cụm là kỹ thuật học không giám sát, có thể được thực hiện trên các tập dữ liệu không được gắn nhãn Có một số kỹ thuật phân cụm thường được sử dụng trong các bài toán phân cụm khách hàng
1.1.1 Kỹ thuật phân cụm K trung bình (K-mean Clustering)
K-means là một trong những thuật toán phân cụm đơn giản nhất dựa trên nguyên tắc phân vùng dữ liệu hiện có Trong thuật toán, vị trí tâm của các vùng
có ý nghĩa quan trọng đối với độ chính xác của quá trình phân cụm Số lượng
K (số lượng tâm) (centroid) được tính bằng phương pháp elbow (khuỷu tay) (chúng ta sẽ nghiên cứu cụ thể hơn ở phần sau) Sau khi tính toán số K theo điều kiện của các điểm dữ liệu, khoảng cách Euclide được tính đối với tâm gần nhất để hình thành cụm Sau khi hình thành cụm, các tâm trung tâm một lần nữa được tính toán bằng phương tiện của cụm và quá trình này được lặp lại cho đến khi không có sự thay đổi về vị trí tâm [1], [8]
1.1.2 Kỹ thuật phân cụm tổng hợp (Agglomerative Clustering)
Kỹ thuật phân cụm tổng hợp dựa trên việc hình thành một hệ thống phân cấp được đại diện bởi các dendrogram (chúng ta sẽ được thảo luận trong phần sau) Các dendrogram hoạt động như bộ nhớ cho thuật toán để cho biết về cách các cụm hiện đang được hình thành Việc phân cụm bắt đầu bằng việc tạo thành
N cụm cho N điểm dữ liệu và sau đó kết hợp các điểm theo các điểm dữ liệu gần nhất với nhau trong mỗi bước sao cho bước hiện tại chứa ít hơn một cụm
so với bước trước đó
1.1.3 Kỹ thuật phân cụm dịch chuyển trung bình (Mean shift Clustering)
Thuật toán phân cụm dịch chuyển là một thuật toán lặp không có tham
số hoạt động bằng cách giả định tất cả các điểm dữ liệu trong không gian đặc trưng là hàm mật độ xác suất thực nghiệm Thuật toán thực hiện phân cụm từng điểm dữ liệu bằng cách cho phép điểm dữ liệu hội tụ đến một vùng cực đại cục
bộ, điều này được thực hiện bằng cách cố định một cửa sổ xung quanh mỗi
Trang 17điểm dữ liệu để tìm giá trị trung bình và sau đó chuyển cửa sổ sang giá trị trung bình và lặp lại các bước cho đến khi tất cả điểm dữ liệu hội tụ tạo thành các cụm
1.1.4 Biểu đồ Dendrogram
Trong phương pháp phân cụm phân cấp, biểu đồ dendrogram có thể giúp xác định được số lượng cụm được phân chia hợp lý Bằng cách vẽ một đường thẳng nằm ngang tương ứng với một mức độ khác biệt của các cụm, ta có thể xác định được có bao nhiêu cụm được phân chia có lớp nằm bên dưới đoạn thẳng này Số lượng các điểm dữ liệu trong từng cụm cũng được thể hiện trong biểu đồ Mức độ khác biệt giữa các cụm sẽ được thể hiện qua độ cao của các node Một biểu đồ mà có các cụm bên dưới nằm thấp hơn so với các cụm bên trên thì thường là những bộ dữ liệu mà phương pháp phân cụm phân cấp đã xác định được qui luật phân cụm tổng quát
Hình 1.1: Ví dụ về một lược đồ dendrogram
Trong biểu đồ dendogram trên, trục hoành (horizontal axis) là thứ tự index của các điểm dữ liệu trong bộ dữ liệu gốc, trục tung (vertical axis) thể hiện mức độ khác biệt giữa các cụm được tính toán thông qua thước đo sự khác biệt, trong biểu đồ trên chính là khoảng cách cụm được tính theo phương pháp
cụ thể Nhìn vào đồ thị dendrogram ta có thể dễ dàng xác định được rằng với
Trang 18cùng một giá trị mức độ khác biệt là 200 thì chúng ta có thể tạo thành 5 cụm phân biệt
1.2 Tổng quan về các kỹ thuật phân cụm
1.2.1 Giải thuật phân cụm dựa trên phân đoạn
Ý tưởng cơ bản của loại thuật toán phân cụm này là coi trung tâm của các điểm dữ liệu là trung tâm của cụm tương ứng K-mean [7][6] và K-medoids [9] là hai thuật toán nổi tiếng nhất của loại thuật toán phân cụm này Ý tưởng cốt lõi của K-mean là cập nhật trung tâm của cụm được đại diện bởi trung tâm của các điểm dữ liệu, bằng cách tính toán lặp đi lặp lại và quá trình lặp lại sẽ được tiếp tục cho đến khi đáp ứng một số tiêu chí về sự hội tụ K-mediods là một cải tiến của K-means để xử lý dữ liệu rời rạc, lấy điểm dữ liệu, gần tâm điểm dữ liệu nhất, làm đại diện cho cụm tương ứng Các thuật toán phân cụm điển hình dựa trên phân vùng cũng bao gồm CLARA, CLARANS
Về ưu điểm, độ phức tạp tính toán thấp, hiệu quả tính toán cao trong các trường hợp chung
Về nhược điểm, không phù hợp với dữ liệu không lồi, tương đối nhạy cảm với các giá trị ngoại lai, dễ dàng được đưa vào tối ưu cục bộ, số lượng cụm cần được đặt trước và kết quả phân cụm nhạy cảm với số lượng cụm
1.2.2 Giải thuật phân cụm dựa trên phân cấp
Ý tưởng cơ bản của loại thuật toán phân cụm này là xây dựng mối quan
hệ phân cấp giữa các dữ liệu để phân cụm [16] Giả sử rằng mỗi điểm dữ liệu
là một cụm riêng lẻ ngay từ đầu và sau đó, hai cụm lân cận nhất được hợp nhất thành một cụm mới cho đến khi chỉ còn lại một cụm Hoặc, một quy trình ngược lại
Các thuật toán điển hình của loại phân cụm này bao gồm BIRCH, CURE, ROCK, Chameleon Giải thuật BIRCH cho ra kết quả phân cụm bằng cách xây dựng cây đặc trưng của phân cụm, cây CF, trong đó một nút là đại diện của một phân nhóm Cây CF sẽ tự động phát triển khi một điểm dữ liệu mới đến CURE, thích hợp cho phân cụm quy mô lớn, sử dụng kỹ thuật lấy mẫu ngẫu nhiên để
Trang 19phân cụm mẫu riêng biệt và tích hợp các kết quả cuối cùng ROCK là một cải tiến của CURE để xử lý dữ liệu kiểu liệt kê, có ảnh hưởng đến sự giống nhau
từ dữ liệu xung quanh cụm được xem xét Chameleon, lúc đầu, chia dữ liệu ban đầu thành các cụm có kích thước nhỏ hơn dựa trên biểu đồ lân cận gần nhất, sau đó các cụm có kích thước nhỏ được hợp nhất thành một cụm có kích thước lớn hơn, dựa trên thuật toán tích hợp, cho đến khi thỏa mãn
Về ưu điểm, phù hợp với tập dữ liệu có kích thước tùy ý và thuộc tính kiểu tùy ý, mối quan hệ thứ bậc giữa các cụm dễ dàng phát hiện, và khả năng
mở rộng tương đối cao nói chung
Về nhược điểm: độ phức tạp về thời gian tương đối cao, số lượng cụm cần cài đặt trước
1.2.3 Giải thuật phân cụm dựa trên phân phối
Ý tưởng cơ bản là dữ liệu, được tạo ra từ cùng một phân phối, thuộc về cùng một cụm nếu tồn tại một số phân phối trong dữ liệu gốc Các thuật toán điển hình là DBCLASD1 và GMM2 Ý tưởng cốt lõi của DBCLASD, một thuật toán gia tăng động, là nếu khoảng cách giữa một cụm và điểm dữ liệu gần nhất của nó thỏa mãn phân phối khoảng cách dự kiến được tạo ra từ các điểm dữ liệu hiện có của cụm đó, thì điểm dữ liệu gần nhất sẽ thuộc về cụm Ý tưởng cốt lõi của GMM là GMM bao gồm một số phân phối Gaussian mà từ đó dữ liệu gốc được tạo ra và dữ liệu, tuân theo cùng một phân phối Gaussian độc lập, được coi là thuộc cùng một cụm
Về ưu điểm: thực tế hơn để cho xác suất thuộc, khả năng mở rộng tương đối cao bằng cách thay đổi phân bố, số lượng cụm, v.v và được hỗ trợ bởi khoa học thống kê
Về nhược điểm: nhiều khi tiền đề không đúng hoàn toàn, liên quan đến nhiều tham số ảnh hưởng mạnh đến kết quả phân cụm và sự phức tạp về thời gian tương đối cao
Trang 201
1.2.4 Giải thuật phân cụm dựa trên mật độ
Ý tưởng cơ bản của loại thuật toán phân cụm này là dữ liệu nằm trong vùng có mật độ không gian dữ liệu cao được coi là thuộc cùng một cụm Những cái điển hình bao gồm DBSCAN3, OPTICS4 và Mean-shift5 DBSCAN là thuật toán phân cụm dựa trên mật độ được biết đến nhiều nhất, được tạo ra từ ý tưởng
cơ bản của loại thuật toán phân cụm này một cách trực tiếp OPTICS là một cải tiến của DBSCAN và nó khắc phục được khuyết điểm của DBSCAN là nhạy cảm với hai tham số, bán kính của vùng lân cận và số điểm tối thiểu trong vùng lân cận Trong quá trình Mean-shift, đầu tiên, giá trị trung bình của độ lệch của điểm dữ liệu hiện tại được tính toán, điểm dữ liệu tiếp theo được tính toán dựa trên điểm dữ liệu hiện tại và độ lệch sau đó, và cuối cùng, quá trình lặp sẽ được tiếp tục cho đến khi một số tiêu chí được đáp ứng
Về ưu điểm, phân cụm hiệu quả cao và phù hợp với nhiều dạng dữ liệu
Về nhược điểm, kết quả phân cụm có độ chính xác không cao khi mật độ của dữ liệu là không đồng đều Cần không gian nhớ lớn khi kích thước dữ liệu lớn; kết quả phân lớp là nhạy cảm đối với số lượng tham số
1.3 Phát biểu bài toán phân lớp khách hàng trong hoạt động ngân hàng VIB
Hiện tại Ngân hàng Quốc tế Việt Nam (Vietnam International Bank – VIB) muốn đánh giá mức độ sử dụng các dịch vụ của ngân hàng từ các khách hàng hiện nay và khách hàng trong quá khứ để từ đó có thể xây dựng được các chiến lược phát triển kinh doanh phù hợp với từng nhóm đối tượng khách hàng
3 Ester M, Kriegel H, Sander J, Xu X (1996) A density-based algorithm for discovering clusters in large spatial databases with noise In: Proceedings of the second ACM SIGKDD international conference on knowledge discovery and data mining, pp 226–231
4 Ankerst M, Breunig M, Kriegel H, Sander J (1999) OPTICS: ordering points to identify the clustering structure In: Proceedings on 1999 ACM SIGMOD international conference on management of data, vol 28,
pp 49–60
5 Comaniciu D, Meer P (2002) Mean shift: a robust approach toward feature space analysis IEEE Trans Pattern Anal Mach Intell 24:603–619
Trang 21Trong quá trình hoạt động, ngân hàng đã thu được nhiều dữ liệu về khách hàng
và các giao dịch của khách hàng trên hệ thống thông tin quản lý của ngân hàng
Dữ liệu năm 2019 của các hoạt động khách hàng của VIB được thu thập bao gồm 6 tập con, mỗi tập con chứa thông tin khác nhau về khách hàng:
Thông tin chung về cá nhân khách hàng, bao gồm các thông tin: giới tính, ngày sinh, nhân viên của VIB, ngày đăng ký, kênh đăng ký, sử dụng SMS, phương thức xác thực, mã số khách hàng
Giao dịch Ebank của khách hàng trên nền tảng MyVIB, bao gồm các thông tin: nhóm giao dịch cấp 1, nhóm giao dịch cấp 2, ngày giao dịch, ngày trong tuần, giờ giao dịch, số lượng giao dịch, số tiền giao dịch, mã số khách hàng
Hoạt động của khách hàng trên nền tảng MyVIB, bao gồm các thông tin: ngày hoạt động, ngày trong tuần, giờ hoạt động, số lượng hoạt động, loại hoạt động, mã số khách hàng
Tài khoản hiện tại và thông tin tiền gửi kỳ hạn của khách hàng, bao gồm các thông tin: tháng báo cáo, số lượng tài khoản hiện tại, số dư trung bình hàng tháng của tài khoản hiện tại, số lượng tài khoản gửi tiền có kỳ hạn, số dư trung bình hàng tháng của tiền gửi kỳ hạn, mã số khách hàng
Thông tin về số vay của khách hàng, bao gồm các thông tin: tháng báo cáo, số lượng tài khoản vay, khoản vay trung bình hàng tháng, mã số khách hàng
Thông tin về thẻ của khách hàng, bao gồm các thông tin: số lượng thẻ tín dụng, số lượng thể ghi nợ, mã số khách hàng
Các trường dữ liệu tại cơ sở dữ liệu cụ thể như sau:
# 1 Data_Customer: Thông tin chung về khách hàng cá nhân
Trang 223 (CIF - Tệp thông tin khách hàng) mở thành công - Date
Trang 23# 3 Data_MyVIB_Activity: Giao dịch hoạt động của khách
# 4 Data_Deposit: Tài khoản hiện tại & Thông tin tiền gửi kỳ hạn của khách hàng
Trang 245
- Number
gửi kỳ hạn - Number
# 5 Data_Lending: Thông tin về số vay của khách hàng
Number
Trang 25# 6 Data_Card: Thông tin về thẻ của khách hàng
Dựa trên các bảng dữ liệu này, cần xây dựng được mô hình phân cụm dữ liệu sao cho có thể xác định được các nhóm khách hàng với những đặc điểm cụ thể Từ những đặc điểm cụ thể của nhóm khách hàng và những dự đoán về khả năng lợi nhuận thu được từ các nhóm khách hàng khác nhau, ngân hàng sẽ có
cơ sở để xây dựng được chiến lược phát triển các dịch vụ liên quan và gia tăng được lượng khách hàng cũng như lợi nhuận của đơn vị
Kết luận chương 1
Trang 267 Trong chương này, tác giả đã trình bày tổng quan về bài toán phân cụm khách hàng tại các ngân hàng Tác giả cũng đã giới thiệu tổng quan các nghiên cứu liên quan đến phân cụm khách hàng, các kỹ thuật sử dụng để phân cụm khách hàng Tác giả đã giới thiệu bài toán cụ thể về việc sử dụng các dữ liệu khách hàng của VIB để xây dựng mô hình phân cụm khách hàng trong ngân hàng quốc tế VIB
Trang 27Chương 2.KHAI PHÁ DỮ LIỆU VÀ CÁC KỸ THUẬT PHÂN CỤM
in Database - KDD) trong đó KPDL là một giai đoạn rất đặc biệt trong toàn bộ quá trình, nó sử dụng các kỹ thuật để tìm ra các mẫu từ dữ liệu
KPDL là quá trình phát hiện các mô hình, các tổng kết khác nhau và các giá trị được lấy từ một cơ sở dữ liệu cho trước Nói cách khác, KPDL là sự thăm dò và phân tích lượng dữ liệu lớn nhằm khám phá từ dữ liệu ra các mẫu hợp lệ, mới lạ, có ích và có thể hiểu được
2.1.2.Quá trình khai phá dữ liệu
Quá trình khai phá dữ liệu được thực hiện hiện theo quy trình gồm 6 bước Việc khai phá được thực hiện là kho dữ liệu thô và kết quả là những tri thức thu nhận được từ kho dữ liệu Các bước bao gồm
Bước 1: Thu thập dữ liệu (Data Collection):
Trong giai đoạn này, dữ liệu được lấy từ một cơ sở dữ liệu, hoặc một kho
dữ liệu hoặc thu nhận từ các nguồn khác nhau trên mạng Các dữ liệu được thu thập tùy theo yêu cầu và mục tiêu của bài toán Các dữ liệu thường bao gồm các thuộc tính thể hiện tính chất dữ liệu Việc thu thập bao gồm thu thập những
dữ liệu có sẵn, thu thập dữ liệu cần thiết bổ sung Sau đó tất cả các dữ liệu phục
vụ cho việc khám phá tri thức được tập hợp thành một tập dữ liệu Quá trình
Trang 289 này là rất quan trọng vì nếu một số thuộc tính quan trọng bị bỏ qua dẫn tới toàn
bộ nghiên cứu thất bại
Bước 2: Trích lọc dữ liệu (Selection)
Giai đoạn này dữ liệu được lựa chọn hoặc phân chia theo một số tiêu chuẩn nào đó
Bước 3: Tiền xử lý và chuẩn bị dữ liệu (Preprocessing):
Dữ liệu trong thực tế thường là những dữ liệu thô, có thể thiếu các thuộc tính quan trọng hoặc các thuộc tính thiếu giá trị Vì vào thời điểm thu thập chúng không được coi là quan trọng, các dữ liệu liên quan không được ghi lại
do một nguyên nhân chủ quan, hoặc do sự cố thiết bị Ngoài ra cũng có trường hợp các dữ liệu đã được lưu trữ nhưng vì một lý do nào đó đã bị xóa đi, cũng như việc ghi chép sự biến đổi mang tính lịch sử của các giao dịch có thể bị bỏ qua mà chỉ giữ lại những thông tin tổng hợp vào thời điểm xét
Việc dữ liệu trùng hoặc thiếu có thể ảnh hưởng đến hiệu quả hoạt động của hệ thống, thậm chí kết quả có thể ngược với mong đợi Những quyết định đúng đắn phải dựa trên các dữ liệu chính xác, dữ liệu tốt là chìa khóa tạo ra các
mô hình giá trị và đáng tin cậy Do đó dữ liệu cần phải được tiền xử lý
Hoạt động cơ bản của giai đoạn tiền xử lý bao gồm làm sạch dữ liệu, rút gọn dữ liệu Hai nguyên nhân của rút gọn dữ liệu là :
- Dữ liệu quá lớn, không phù hợp với khả năng xử lý của chương trình
- Thời gian thực thi chương trình quá dài
Quá trình này đòi hỏi phải có một kỹ thuật phù hợp sao cho dữ liệu sau khi được rút gọn vẫn có khả năng được khai phá hiệu quả Việc rút gọn dữ liệu bao gồm các phương pháp như tổng hợp và tổng quát hóa, giảm chiều dữ liệu, nén dữ liệu, giảm số lượng các bản ghi, rời rạc hóa
Tổng hợp dữ liệu và tổng quát hóa dữ liệu: tổ hợp từ hai thuộc tính trở lên thành một thuộc tính, tổng quát dữ liệu cấp thấp sang dữ liệu cấp cao chẳng hạn như các thành phố tổng hợp vào vùng, khu vực, nước…
Trang 29 Giảm chiều dữ liệu: thực hiện trích chọn đặc trưng, tìm ra tập các thuộc tính có khả năng khai phá tốt nhất loại bỏ các thuộc tính không liên quan, dư thừa bằng phương pháp vét cạn, phương pháp heuristic, cây quyết định khi đó các thuộc tính nằm trong cấu trúc cây quyết định sẽ được lựa chọn để khai phá
dữ liệu Thuộc tính nào không được đưa vào cây quyết định sẽ bị loại bỏ, do thuộc tính đó có ảnh hưởng không lớn đến kết quả
Cách tiếp cận chính để làm giảm số bản ghi dữ liệu là lấy mẫu ngẫu nhiên Thay vì tiến hành khai phá trên tập toàn bộ các trường hợp, các mẫu ngẫu nhiên được thu thập Có hai cách để lấy mẫu :
o Mẫu tăng dần: Phương pháp này tiến thử nghiệm với một tập mẫu lấy
từ dữ liệu nguồn, dùng mẫu này để đánh giá hiệu quả Tiếp theo lấy các mẫu với số lượng trường hợp tăng dần và so sánh độ hiệu quả với tập mẫu trước đó Nếu hiệu quả được cải thiện thì tiếp tục quá trình lấy mẫu, ngược lại quá trình
Nhiệm vụ làm sạch dữ liệu bao gồm các công đoạn: Điền các giá trị còn thiếu; xác định các sai biệt và khử dữ liệu tạp, nhiễu; sửa chữa các dữ liệu mâu thuẫn
Đối với việc xử lý dữ liệu bị thiếu có một số giải pháp sau:
Bỏ qua mẫu dữ liệu đó nếu mẫu dữ liệu chứa nhiều thuộc tính thiếu giá trị
Điền vào các giá trị thiếu bằng tay: Phương pháp này thường tốn thời gian và có thể không khả thi cho một tập dữ liệu nguồn lớn với nhiều giá trị bị thiếu
Trang 301
Bổ sung các giá trị thiếu này bằng phương pháp toán học, có thể chọn một trong ba cách sau:
o Thay thế giá trị thiếu bằng một hằng số chuẩn
o Thay thế giá trị thiếu bằng giá trị trung bình cùng thuộc tính
o Thay thế giá trị thiếu bằng giá trị trung bình cùng thuộc tính và lớp Phương pháp này có ưu điểm là đơn giản, nhưng có hạn chế là giá trị thay thế không phải giá trị đúng hoàn toàn Nếu thay thế giá trị thiếu bằng một hằng số hoặc một vài giá trị định trước sẽ làm cho dữ liệu mất tính khách quan
Ví dụ nếu giá trị thiếu được thay thế bằng trung bình của thuộc tính cùng lớp
sẽ làm cho các giá trị này hội tụ vào một tập tương ứng với lớp có số trường hợp bị thiếu lớn nhất
Bổ sung các giá trị thiếu sử dụng phương pháp logic, thường sử dụng các kỹ thuật cây quyết định hoặc luật quyết định Phương pháp này tỏ ra có ưu thế hơn phương pháp toán học do tập luật được xây dựng trên dữ liệu thực, vì thế kết quả có độ tin cậy cao hơn
Đối với việc xử lý dữ liệu nhiễu có một số giải pháp sau:
Phương pháp chia giỏ: sắp xếp và chia dữ liệu vào các giỏ theo độ rộng (chia vùng giá trị thành N khoảng cùng kích thước), hoặc theo độ sâu (chia vùng giá trị thành N khoảng mà mỗi khoảng có chứa gần như cùng số lượng mẫu) Khử nhiễu bằng giá trị trung bình, trung tuyến, biên giỏ…
Hồi quy: Phương pháp thường dùng là hồi quy tuyến tính, để tìm ra được một mối quan hệ tốt nhất giữa hai thuộc tính (hoặc các biến), từ đó một thuộc tính có thể dùng để dự đoán thuộc tính khác
Phân cụm: Các giá trị tương tự nhau được tổ chức thành các nhóm hay cụm Các giá trị rơi ra bên ngoài các nhóm này sẽ được xem xét để làm mịn
Bước 4: Chuyển đổi dữ liệu (Transformation):
Trang 31Mục đích của chuyển đổi dữ liệu là đưa dữ liệu về dạng phù hợp với thuật toán khai phá dữ liệu Một số kỹ thuật áp dụng cho quá trình chuyển đổi
Nhóm: Kỹ thuật này phân loại các giá trị trong một cột thành các nhóm, sau đó ánh xạ giá trị ban đầu sang các giá trị nhóm tương ứng Chẳng hạn cột nghề nghiệp có những giá trị khác nhau như kỹ sư cơ khí, kỹ sư công nghệ thông tin, kỹ sư xây dựng… thì chúng ta có thể nhóm chúng lại thành nhóm kỹ sư
Tập hợp: những thông tin lưu trữ trong cơ sở dữ liệu là rất chi tiết, chúng ta có thể tập hợp chúng lại thành vài thuộc tính tổng hợp Chẳng hạn chúng ta muốn phân loại khách hàng dựa trên những thông tin sử dụng điện thoại hàng tháng của khách hàng, chúng ta có thể tập hợp những thông tin này thành một vài thuộc tính tổng hợp như tổng số cuộc gọi hay thời gian trung bình các cuộc gọi
Tổng quát hóa: Dữ liệu ở mức thấp (dữ liệu nguyên thủy) có thể được thay thế bằng các khái niệm ở mức cao hơn Chẳng hạn những loài cây có thể được tổng quát ở mức cao hơn là thực vật
Chuẩn hóa: Một thuộc tính được chuẩn hóa bằng cách ánh xạ một cách
có tỉ lệ dữ liệu về một khoảng xác định ví dụ như 0.0 đến 1.0 Chuẩn hóa là một phần hữu ích của thuật toán phân lớp trong mạng noron, hoặc thuật toán tính toán độ lệch sử dụng trong việc phân lớp hay nhóm cụm các phần tử liền kề
Bước 5: Khai phá dữ liệu (Data Mining):
Trang 323 Giai đoạn mang tính tư duy trong KPDL Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để xuất ra các mẫu từ dữ liệu Thuật toán thường dùng
là thuật toán phân loại dữ liệu, kết hợp dữ liệu hoặc các mô hình hóa dữ liệu tuần
tự
Bước 6: Đánh giá kết quả mẫu (Interpretation/ Evaluation):
Giai đoạn cuối trong quá trình KPDL Trong giai đoạn này, các mẫu dữ liệu được chiết xuất ra bởi phần mềm KPDL Không phải bất cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên những tiêu chuẩn đánh giá để đưa ra các tri thức cần thiết và sử dụng được
Hình 2.1: Các giai đoạn trong khai phá dữ liệu [3]
2.1.3.Các kỹ thuật khai phá dữ liệu chính
Một số kỹ thuật cốt lõi được sử dụng trong khai phá dữ liệu, mô tả kiểu hoạt động khai phá và hoạt động phục hồi dữ liệu Tuy nhiên, trong khai phá
dữ liệu, tồn tại một số các kỹ thuật khai phá dữ liệu sau:
2.1.3.1.Sử dụng luật kết hợp
Sự kết hợp (hay mối quan hệ) có lẽ là kỹ thuật khai phá dữ liệu được biết đến nhiều hơn, hầu như quen thuộc và đơn giản Ở đây, người dùng thực hiện một sự tương quan đơn giản giữa hai hoặc nhiều mục, thường cùng kiểu để nhận biết các mẫu Ví dụ, khi theo dõi thói quen mua hàng của người dân, người dùng
Trang 33có thể nhận biết rằng một khách hàng luôn mua kem khi họ mua dâu tây, nên người dùng có thể đề xuất rằng lần tới khi họ mua dâu tây, họ cũng có thể muốn mua kem
Việc xây dựng các công cụ khai phá dữ liệu dựa trên sự kết hợp hay mối quan hệ có thể thực hiện đơn giản bằng các công cụ khác nhau Ví dụ, trong InfoSphere Warehouse một trình hướng dẫn đưa ra các cấu hình của một luồng thông tin được sử dụng kết hợp bằng cách xem xét thông tin nguồn đầu vào của
cơ sở dữ liệu, thông tin về cơ sở ra quyết định và thông tin đầu ra của hệ thống
2.1.3.2.Phân loại
Người dùng có thể sử dụng sự phân loại để xây dựng một ý tưởng về kiểu khách hàng, kiểu mặt hàng hoặc kiểu đối tượng bằng cách mô tả nhiều thuộc tính để nhận biết một lớp cụ thể Ví dụ, người dùng có thể dễ dàng phân loại các xe ô tô thành các kiểu xe khác nhau (xe mui kín, 4x4, xe có thể bỏ mui) bằng cách xác định các thuộc tính khác nhau (số chỗ ngồi, hình dạng xe, các bánh xe điều khiển) Với một chiếc xe mới, người dùng có thể đặt nó vào một lớp cụ thể bằng cách so sánh các thuộc tính với định nghĩa đã biết của tác giả Người dùng có thể áp dụng các nguyên tắc tương tự ấy cho các khách hàng, ví
dụ bằng cách phân loại khách hàng theo độ tuổi và nhóm xã hội
Hơn nữa, người dùng có thể sử dụng việc phân loại như một nguồn cấp, hoặc như là kết quả của các kỹ thuật khác Ví dụ, người dùng có thể sử dụng các cây quyết định để xác định một cách phân loại Việc phân cụm sẽ cho phép người dùng sử dụng các thuộc tính chung theo các cách phân loại khác nhau để nhận biết các cụm
2.1.3.3.Phân cụm dữ liệu
Bằng cách xem xét một hay nhiều thuộc tính hoặc các lớp, người dùng có thể nhóm các phần dữ liệu riêng lẻ với nhau để tạo thành một quan điểm cấu trúc
Ở mức đơn giản, việc phân cụm đang sử dụng một hoặc nhiều thuộc tính làm cơ
sở cho người dùng để nhận ra một nhóm các kết quả tương quan Việc phân cụm giúp để nhận biết các thông tin khác nhau vì nó tương quan với các ví dụ khác,
Trang 345 nên người dùng có thể thấy ở đâu có những điểm tương đồng và các phạm vi phù hợp
Việc phân cụm có thể làm theo hai cách Người dùng có thể giả sử rằng
có một cụm ở một điểm nhất định và sau đó sử dụng các tiêu chí nhận dạng của tác giả để xem liệu người dùng có đúng không Trong ví dụ của , một ví dụ mẫu
về dữ liệu kinh doanh so sánh tuổi của khách hàng với quy mô bán hàng Thật hợp lý khi thấy rằng những người ở độ tuổi hai mươi (trước khi kết hôn và còn nhỏ), ở độ tuổi năm mươi và sáu mươi (khi không còn con cái ở nhà), có nhiều tiền tiêu hơn
Hình 2.2: Ví dụ về phân cụm dữ liệu
Trong ví dụ về thu nhập theo độ tuổi trên, chúng ta có thể nhận ra hai cụm, một cụm xung quanh nhóm 2.000 Đô la Mỹ/ 20-30 tuổi và một cụm ở nhóm 7.000-8.000 Đô la Mỹ/ 50-65 tuổi
2.1.3.4.Dự báo
Dự báo là một chủ đề rộng và đi từ dự báo về lỗi của các thành phần hay máy móc đến việc nhận ra sự gian lận và thậm chí là cả dự báo về lợi nhuận của công ty nữa Được sử dụng kết hợp với các kỹ thuật khai phá dữ liệu khác,
dự báo gồm có việc phân tích các xu hướng, phân loại, so khớp mẫu và mối
Trang 35quan hệ Bằng cách phân tích các sự kiện hoặc các cá thể trong quá khứ, người dùng có thể đưa ra một dự báo về một sự kiện [10], [11]
Ví dụ: Khi sử dụng quyền hạn thẻ tín dụng, người dùng có thể kết hợp phân tích cây quyết định của các giao dịch riêng lẻ trong quá khứ với việc phân loại và các sự so khớp mẫu lịch sử để nhận biết liệu một giao dịch có gian lận hay không Rất có thể là việc thực hiện một sự so khớp giữa việc mua vé các chuyến bay đến Mỹ và các giao dịch tại Mỹ cho thấy giao dịch này hợp lệ
2.1.3.5.Cây quyết định
Liên quan đến hầu hết các kỹ thuật khác (chủ yếu là phân loại và dự báo), cây quyết định có thể được sử dụng hoặc như là một phần trong các tiêu chí lựa chọn hoặc để hỗ trợ việc sử dụng và lựa chọn dữ liệu cụ thể bên trong cấu trúc tổng thể Trong cây quyết định, người dùng bắt đầu bằng một câu hỏi đơn giản có hai câu trả lời (hoặc đôi khi có nhiều câu trả lời hơn) Mỗi câu trả lời lại dẫn đến thêm một câu hỏi nữa để giúp phân loại hay nhận biết dữ liệu sao cho có thể phân loại dữ liệu hoặc sao cho có thể thực hiện dự báo trên cơ sở mỗi câu trả lời [4], [5]
Các cây quyết định thường được sử dụng cùng với các hệ thống phân loại liên quan đến thông tin có kiểu thuộc tính và với các hệ thống dự báo, nơi các dự báo khác nhau có thể dựa trên kinh nghiệm lịch sử trong quá khứ để giúp hướng dẫn cấu trúc của cây quyết định và kết quả đầu ra
2.2.Một số kỹ thuật phân cụm chính
Quá trình phân cụm là chia một tập hợp các đối tượng vật lý hoặc trừu tượng thành nhiều nhóm theo mức độ giống nhau giữa chúng và tạo thành các nhóm đối tượng tương tự Một cụm là một nhóm của một số đối tượng tương tự và các đối tượng trong các cụm khác nhau không tương tự với nhau Trong nhiều ứng dụng, tất cả các đối tượng trong một cụm thường được xử lý và phân tích như một tổng thể
Đối với các thuật toán phân cụm với số lượng cụm được xác định sẵn, hàm mục tiêu thông thường là giảm thiểu tổng khoảng cách của tất cả các đối