Đề tài đã nghiên cứu ứng dụng khai phá dữliệu phân cụm trong phân đoạn khách hàng tại ngân hàng nông nghiệp và phát triểnnông thôn chi nhánh Trực Ninh Nam Ninh - một nghiên cứu về việc p
Trang 2KHÓA LUẬN TỐT NGHIỆP
TÊN ĐỀ TÀI NGHIÊN CỨU ỨNG DỤNG KHAI PHÁ DỮ LIỆU PHÂN CỤM TRONG PHÂN ĐOẠN KHÁCH HÀNG TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN CHI NHÁNH TRỰC
NINH NAM ĐỊNH
TRẦN VÂN ANH
HÀ NỘI, 2015
Trang 3KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ
KHÓA LUẬN TỐT NGHIỆP
TÊN ĐỀ TÀI NGHIÊN CỨU ỨNG DỤNG KHAI PHÁ DỮ LIỆU PHÂN CỤM TRONG PHÂN ĐOẠN KHÁCH HÀNG TẠI NGÂN HÀNG NÔNG NGHIỆP VÀ PHÁT TRIỂN NÔNG THÔN CHI NHÁNH TRỰC NINH
NAM ĐỊNH
Giáo viên hướng dân Sinh viên thực hiện Lớp
Khóa Hệ
ThS Nguyên Thị Thùy Anh Trần Vân Anh
HTTTA - K14
2011 - 2015 Đại học chính qui
Trang 4Hà Nội, tháng 5 năm 2015
NHẬN XÉT (Của giáo viên hướng dẫn)
Tính cấp thiết của đề tài: vấn đề khai phá dữ liệu đang rất được quan tâm hiệnnay và có nhiều ứng dụng trong thực tế Đề tài đã nghiên cứu ứng dụng khai phá dữliệu phân cụm trong phân đoạn khách hàng tại ngân hàng nông nghiệp và phát triểnnông thôn chi nhánh Trực Ninh Nam Ninh - một nghiên cứu về việc phân chia kháchhàng thành các nhóm có nhu cầu và thị hiếu gần giống nhau để thiết kế sản phẩm phùhợp là quan trọng và có ý nghĩa trong bối cảnh cạnh tranh ngày càng gay gắt giữa cácngân hàng
Kết quả đạt được: đề tài đã tìm hiểu được bài toán, vận dụng lý thuyết vào bàitoán thực tế cụ thể đó là ứng dụng khai phá dữ liệu phân cụm trong phân đoạn kháchhàng tại ngân hàng nông nghiệp và phát triển nông thôn chi nhánh Trực Ninh NamNinh Đề tài đã cài đặt và chạy thử nghiệm thuật toán K-means bằng công cụ WEKAtrên bộ dữ liệu ngân hàng, từ đó đưa ra kết luận, khuyến nghị về việc áp dụng kết quảkhai phá dữ liệu
Đánh giá chung: sinh viên đã tích cực học hỏi, tìm hiểu các vấn đề, phươngpháp, vận dụng tốt lý thuyết để xử lý bài toán của Ngân hàng, chấp hành đúng tiến độthực hiện, khắc phục nhiều khó khăn để hoàn thành khóa luận Tuy nhiên đề tài cần cóhướng mở rộng nghiên cứu, tăng cường phân tích kết quả và khuyến cáo người sửdụng
Kết luận : Căn cứ vào tiêu chuẩn, yêu cầu của khóa luận và kết quả ứng dụng,tôi đồng ý để sinh viên được bảo vệ khóa luận trước Hội đồng
Hà Nội, ngày tháng năm 2015
Giáo viên hướng dẫn
(Ký tên)
Trang 5phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
LỜI CÁM ƠN
Để hoàn thành khóa luận này, em xin tỏ lòng biết ơn sâu sắc tới cô Nguyễn ThịThùy Anh cùng các anh chị trong Ngân hàng Nông nghiệp và phát triển Nông thôn chinhánh Nam Định đã tận tình hướng dẫn em trong quá trình viết khóa luận
Em cũng xin gửi lời cảm ơn chân thành tới các quý thầy cô trường Học viện Ngânhàng nói chung, các thầy cô khoa Hệ thống thông tin quản lý nói riêng đã tận tìnhtruyền đạt không chỉ kiến thức trong học tập mà còn cả kiến thức trong cuộc sống Tất
cả những thứ ấy sẽ là hành trang quý báu cho chúng em, giúp chúng em tự tin hơn,bước những bước vững chắc trên đôi chân của chính mình
Em cũng xin gửi lời cảm ơn tới gia đình, bạn bè luôn là những người ủng hộ,động viên và giúp đỡ em để em có thể hoàn thành tốt việc học tập cũng như nhữngnhiệm vụ tập thể được giao
Em đã cố gắng hoàn thiện tốt khóa luận, tuy nhiên do còn thiếu kinh nghiệm vàhạn chế về thời gian chắc chắn khóa luận sẽ không tránh khỏi thiếu sót Vì vậy, em rấtmong nhận được sự quan tâm, những ý kiến đóng góp của thầy cô và các bạn để bàikhóa luận có thể hoàn thiện hơn
Cuối cùng, em xin kính chúc quý thầy cô cùng gia đình luôn dồi dào sức khỏe
và thành công trong cuộc sống
phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
DANH MỤC CÁC CHỮ VIẾT TẮT
Trang 7phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
Trang 8DANH MỤC HÌNH ẢNH
Hình 1 Quy trình khai phá tri thức 4
Hình 2 Các giai đoạn khai phá dữ liệu 5
Hình 3 Mô phỏng sự PCDL 23
Hình 4 Dữ liệu nguyên thủy 23
Hình 5 Quá trình phân cụm 24
Hình 6 Quá trình phân cụm 24
Hình 7 Kết quả của quá trình phân cụm 25
Hình 8 Mô hình mô tả cấu trúc dữ liệu lưới 27
Hình 9 Phân cụm phân cấp Top-down và Bottom-up 32
Hình 10 Tính trọng tâm của các cụm mới 34
Hình 11 Giao diện của phần mềm Weka 41
Hình 12 Các chức năng của Weka Explorer 41
Hình 13 Nguồn dữ liệu 43
Hình 14 Trình lập dữ liệu 45
Hình 15 Thuộc tính và thống kê các thuộc tính 46
Hình 16 Lựa chọn chức năng Remove 47
Hình 17 Loại bỏ thuộc tính "ID" 48
Hình 18 Sau khi loại bỏ thuộc tính "ID" 50
Hình 19 Nội dung file "dlbank1.arff" 51
Hình 20 Lựa chọn thuật toán phân cụm K-Means 52
Hình 21 Kết quả thử nghiệm dưới dạng text 53
Trang 9phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
DANH MỤC BẢNG
Bảng 1 Phân tích SWOT 19 Bảng 2 Giá trị và thuộc tính dữ liệu khai phá 44
Trần Vân Anh- K14HTTTA
Trang 11phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
Trần Vân Anh- K14HTTTA
Trang 12PHẦN MỞ ĐẦU
Trong bối cảnh cạnh tranh ngày càng gay gắt, giữa các ngân hàng đang diễn ramột cuộc chạy đua giành giật thị trường và khách hàng, thì việc hiểu rõ nhu cầu củakhách hàng, phát triển các sản phẩm phù hợp với các đối tượng khách hàng khác nhautrở nên vô cùng quan trọng, cấp thiết Tuy nhiên, một loại sản phẩm đồng nhất khôngthể thỏa mãn được nhu cầu và sở thích của tất cả khách hàng Mặt khác, ngân hàngcũng không thể đáp ứng nhu cầu riêng của từng khách hàng Vậy nên, việc phân chiakhách hàng thành các nhóm có nhu cầu và thị hiếu gần giống nhau để thiết kế sảnphẩm phù hợp đang là giải pháp được các ngân hàng lựa chọn vận dụng và triển khai
Trong lĩnh vực ngân hàng, với việc phân tách khách hàng thành các nhóm đốitượng và xây dựng đội ngũ nhân viên chuyên biệt, các ngân hàng sẽ chủ động hơntrong việc nghiên cứu, thiết kế sản phẩm dịch vụ, tăng tính cạnh tranh thông qua khácbiệt hóa Đồng thời các ngân hàng cũng sẽ linh hoạt hơn trong việc triển khai phương
án kinh doanh trong bối cảnh thị trường còn nhiều biến động khó dự đoán Với địnhhướng này, mỗi ngân hàng đang và sẽ đưa ra những sản phẩm trọn gói cho từng phânđoạn khách hàng, với những chính sách riêng phù hợp
Câu hỏi đặt ra cho mỗi ngân hàng là “Làm thế nào để phân đoạn khách mộtcách tốt nhất” Hiện nay, hầu hết các ngân hàng thương mại(NHTM) ở Việt Nam đềuđược trang bị các loại phần mềm nghiệp vụ lõi, phần mềm quản trị nhân sự, phần mềmquản lý quan hệ khách hàng Tuy nhiên, hoạt động phân đoạn khách hàng lại chưa cóphần mềm chuyên dụng hỗ trợ Phần lớn hoạt động phân đoạn dựa trên kiến thức, kinhnghiệm của người làm marketing Trong khi đó, từ các giao dịch hàng ngày, khốilượng dữ liệu về khách hàng thu thập được tại các ngân hàng càng ngày càng lớn vàphong phú, nếu có thể khai thác được lượng dữ liệu này sẽ mang lại những tri thứckinh doanh có ý nghĩa rất lớn Ví dụ, một phân tích dữ liệu về nhân khẩu học củakhách hàng (tuổi tác, nghề nghiệp, nơi cư trú, ) kết hợp với dữ liệu về giao dịch của
họ (các mặt hàng đã mua, các hợp đồng, ) có thể tiết lộ một vài nhóm khách hàng màngân hàng chưa từng nghĩ đến và có chính sách chăm sóc phù hợp Thông tin về cáchành vi tiêu biểu của các nhóm khách hàng như vậy có thể được bộ phận tiếp thị sửdụng để phát triển sản phẩm và dịch vụ chuyên sâu
Trong các giải pháp công nghệ hỗ trợ kinh doanh hiện nay, khai phá dữ liệu(KPDL) đang là xu hướng được ưu tiên hàng đầu Đặc biệt với công tác phân đoạnkhách hàng, phân tích dữ liệu có ý nghĩa rất quan trọng, thì giải pháp khai phá dữ liệu
có thể xem là lựa chọn tốt nhất
Có nhiều kỹ thuật khác nhau được sử trọng trong khai phá dữ liệu, cụ thể như
kỹ thuật khai phá dữ liệu phân lớp và dự đoán, phân tích chuỗi theo thời gian, phâncụm, .Trong đó kỹ thuật khai phá dữ liệu phân cụm cho phép tự động nhóm các bảnghi dữ liệu theo các đặc điểm thành các cụm tương tự nhau Chính vì vậy phân cụm dữliệu rất phù hợp để ứng dụng trong bài toán phân đoạn khách hàng
Trang 13phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
Xuất phát từ những cơ sở lý luận và thực tiễn trên, trong quá trình thực tập tạingân hàng nông nghiệp và phát triển nông thôn Trực Ninh Nam Định, em nhận thấyviệc phân đoạn khách hàng để tìm ra nhóm khách hàng mục tiêu chủ yếu dựa trên kinhnghiệm mà chưa có một chiến lược cụ thể nên em đã lựa chọn hướng nghiên cứu “Ứngdụng khai phá dữ liệu phân cụm trong phân đoạn khách hàng bán lẻ tại Ngân hàngNông nghiệp và phát triển nông thôn chi nhánh Trực Ninh Nam Định ” cho khóa luậntốt nghiệp chuyên ngành Hệ thống thông tin quản lý của mình
Trong phạm vi đề tài khóa luận này của em, em sẽ trình bày những nội dungsau:
Bố cục của đề tài được chia thành 3 chương như sau:
Chương 1: Tổng quan về khai phá dữ liệu và hoạt động phân đoạn khách hàng tại các ngân hàng thương mại Việt Nam
Chương này trình bày những lý thuyết về khai phá dữ liệu, giới thiệu về phânđoạn khách hàng cũng như thực trạng hoạt động phân đoạn khách hàng đang diễn ratại các ngân hàng thương mại(NHTM) Việt Nam Cuối chương phân tích SWOT vềkhả năng áp dụng giải pháp phân đoạn khách hàng bằng kỹ thuật khai phá dữ liệu phâncụm tại các NHTM Việt Nam
Chương 2: Kỹ thuật khai phá dữ liệu phân cụm và thuật toán phân cụm Means
K-Trong chương này giới thiệu tổng quan về phương pháp phân cụm và thuật toánphân cụm K-Means, đồng thời trình bày lý do lựa chọn thuật toán K-Means và phầnmềm Weka để phân cụm khách hàng
Chương 3: Ứng dụng khai phá dữ liệu phân cụm K-means trong phân đoạn khách hàng tại ngân hàng nông nghiệp và phát triển nông thôn Trực Ninh Nam Định sử dụng phần mềm Weka.
Chương này trình bày về bài toán phân đoạn khách hàng bán lẻ tại ngân hàngngân hàng nông nghiệp và phát triển nông thôn (NHNo& PTNT) Trực Ninh Nam Định
và quy trình KPDL nói chung và KPDL phân cụm trong bài toán phân đoạn kháchhàng nói riêng Cũng trong chương này giới thiệu công cụ khai phá Weka vàứng dụng công cụ này trên bộ dữ liệu ngân hàng Trực Ninh Cuối chương đã đưa ramột số khuyến nghị về áp dụng kết quả phân đoạn khách hàng bán lẻ bằng thuật toán
Trang 14CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU VÀ HOẠT ĐỘNG PHÂN ĐOẠN KHÁCH HÀNG TẠI CÁC NGÂN HÀNG
THƯƠNG MẠI
1.1 Tổng quan về khai phá dữ liệu
1.1.1 Khái niệm khai phá dữ liệu
Những năm 60 của thế kỉ trước, người ta bắt đầu sử dụng các công cụ tin học để
tổ chức và khai thác các cơ sở dữ liệu Cùng với sự phát triển vượt bậc của các công cụđiện tử và truyền thông, khả năng thu thập, lưu trữ và xử lý dữ liệu cho các hệ thốngtin học không ngừng được nâng cao, theo đó lượng thông tin lưu trữ trên các thiết bịnhớ không ngừng được tăng lên Chính vì vậy, khai phá dữ liệu (Data Mining) ra đời
là một lĩnh vực mới nhằm tự động khai thác những thông tin, những tri thức có tínhtiềm ẩn hữu ích từ những cơ sở dữ liệu lớn
Để hình dung về vấn đề này, một ví dụ hay được sử dụng là việc khai thác vàng
từ đá và cát, KPDL được ví như công việc “Đãi cát tìm vàng” trong một tập hợp lớncác dữ liệu cho trước Thuật ngữ Data Mining ám chỉ việc tìm kiếm một tập hợp có giátrị từ một lượng lớn các dữ liệu thô Có nhiều thuật ngữ hiện được dùng cũng có nghĩatương tự với từ KPDL như Knowledge Mining (Khai phá tri thức), KnowledgeExtraction (chắt lọc tri thức), Data/Patern Analysis (phân tích dữ liệu/mẫu), DataArchaeology (khảo cổ dữ liệu), Data Dredging (nạo vét dữ liệu), Do sự phát triểnnhanh của khai phá dữ liệu về phạm vi ứng dụng và các phương pháp tìm kiếm trithức, nên có nhiều quan điểm khác nhau về KPDL Tuy nhiên ở mức độ trừu tượngnhất định, chúng ta định nghĩa khai phá dữ liệu như sau:
Khai phá dữ liệu (Data Mining) là quá trình khám phá các tri thức mới và các tri thức có ích ở dạng tiềm năng trong nguồn dữ liệu đã có.
Khai phá dữ liệu là một bước của quá trình phát hiện tri thức (KnowledgeDiscovery
Process) Có thể coi KPDL là cốt lõi của quá trình phát hiện tri thức Mục đích của pháthiện tri thức và khai phá dữ liệu chính là tìm ra các mẫu hoặc các mô hình đang tồn tạitrong
Trang 15phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
Hình 1 Quy trình khai phá tri thức 1.1.2 Các giai đoạn trong khai phá dữ liệu
Quá trình khai phá dữ liệu có thể tổng quát thành các giai đoạn sau:
Trang 16Lhmli giá ∏1L⅞J
Hình 2 Các giai đoạn khai phá dữ liệu
Bắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiết xuất ra về
lý thuyết thì có vẻ rất đơn giản nhưng thực sự đây là một quá rình rất khó khăn gặpphải rất nhiều vướng mắc như : quản lý các tập dữ liệu, phải lặp đi lặp lại toàn bộ quátrình, v.v
Giai đoạn 1: Gom dữ liệu (Gathering)
Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá dữ liệu Đây là bướcđược khai thác trong một cơ sở dữ liệu, một kho dữ liệu và thậm chí các dữ liệu từ cácnguồn ứng dụng Web
Giai đoạn 2: Trích lọc dữ liệu (Selection)
Đây là bước trích chọn những tập dữ liệu cần được khai phá từ các tập dữ liệulớn (database, data warehouse, data repositories) Ở giai đoạn này dữ liệu được lựachọn hoặc phân chia theo một số tiêu chuẩn nào đó, ví dụ chọn tất cả những em họcsinh có điểm trung bình học kỳ lớn hơn 8.0 và có giới tính nữ
Giai đoạn 3: Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu (Cleansing, processing and Preparation)
Trang 17Pre-phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
Giai đoan thứ ba này là một bước rất quan trọng trong quá trình khai phá dữliệu Một số lỗi thường mắc phải trong khi gom dữ liệu là tính không đủ chặt chẽ,logic Vì vậy, dữ liệu thường chứa các giá trị vô nghĩa và không có khả năng kết nối
dữ liệu Ví dụ: Điểm trung bình = 12.4 Giai đoạn này sẽ tiến hành xử lý những dạng
dữ liệu không chặt chẽ nói trên Những dữ liệu dạng này được xem như thông tin dưthừa, không có giá trị Bởi vậy, đây là một quá trình rất quan trọng vì dữ liệu này nếukhông được “làm sạch - tiền xử lý - chuẩn bị trước” thì sẽ gây nên những kết quả sailệch nghiêm trọng
Giai đoạn 4: Chuyển đổi dữ liệu (Transformation)
Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu đưa ra có thể sử dụng và điềukhiển được bởi việc tổ chức lại nó, tức là dữ liệu sẽ được chuyển đổi về dạng phù hợpcho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp
Giai đoạn 5: Phát hiện và trích mẫu dữ liệu (Pattern Extraction and Discovery)
Đây là bước mang tính tư duy trong khai phá dữ liệu Ở giai đoạn này nhiềuthuật toán khác nhau đã được sử dụng để trích ra các mẫu từ dữ liệu Thuật toánthường dùng là nguyên tắc phân loại, nguyên tắc kết hợp hoặc các mô hình dữ liệutuần tự,
Giai đoạn 6: Đánh giá kết quả mẫu (Evaluation of Result)
Đây là giai đoạn cuối trong quá trình khai phá dữ liệu Ở giai đoạn này, các mẫu
dữ liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Không phải bất cứ mẫu dữliệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy, cần phải ưu tiên nhữngtiêu chuẩn đánh giá để chiết xuất ra các tri thức (Knowlege) cần chiết xuất ra Đánhgiá sự hữu ích của các mẫu biểu diễn tri thức dựa trên một số phép đo Sau đó sử dụngcác kỹ thuật trình diễn và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được chongười sử dụng
1.1.3 Các dạng dữ liệu có thể khai phá
Như đã biết, tri thức của nhân loại là tổng hòa của các mối quan hệ có liên quanmật thiết, logic với nhau; được lưu trữ dưới dạng dữ liệu này hay dữ liệu kia Trongthực tế có rất nhiều mô hình CSDL, chúng ta có thể định nghĩa và phân biệt ra rấtnhiều dạng dữ liệu sao cho thuận lợi nhất trong quá trình sử dụng KPDL có khả năngchấp nhận một số kiểu dữ liệu như sau:
Cơ sở dữ liệu quan hệ (relational database): là các dữ liệu được tổ chức theo
mô hình dữ liệu quan hệ rất phổ biến trong nhiều ngành và có giá trị thực tiễn rất tolớn Do đó hầu hết các hệ quản trị CSDL đều hỗ trợ dạng CSDL quan hệ như Oracle,
MS SQL Server, Access, IBM DB2
Cơ sở dữ liệu đa chiều (multidimention structures, data warehouse, data mart):
là các kho dữ liệu được tập hợp và chọn lọc từ nhiều nguồn dữ liệu khác nhau và chứanhững đặc tính lịch sử thông qua thuộc tính thời gian tường minh hoặc ngầm định
Trang 18Dạng dữ liệu này chủ yếu phục vụ cho quá trình phân tích cũng như KPTTvà hỗ trợquá trình ra quyết định.
Cơ sở dữ liệu giao tác (transactonal database): là dạng dữ liệu tác nghiệp có
các bản ghi thường là các giác tác Dạng dữ liệu này hiện nay cũng khá phổ biến được
sử dụng nhiều trong siêu thị, thương mại, ngân hàng
Cơ sở dữ liệu quan hệ - hướng đối tượng (object relational databases): là dạng dữ liệu
lai giữa hai mô hình quan hệ và hướng đối tượng
Dữ liệu không gian, thời gian và chuỗi thời gian (spatial, temporal and time series data): là dạng dữ liệu có tích hợp thuộc tính về không gian như dữ liệu bản đồ
-mạng cáp điện thoại, phát hành báo chí, chỉ số chứng khoán
Cơ sở dữ liệu đa phương tiện (Multimedia databases): là dạng dữ liệu âm thanh, hình
ảnh, text Dạng dữ liệu này rất phong phú, đa dạng và được phổ biến rộng rãi nhất làtrên internet
1.1.4 Ứng dụng khai phá dữ liệu trong lĩnh vực ngân hàng.
Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong nhiều lĩnh vực vớinhiều hướng tiếp cận khác nhau Khai phá dữ liệu với những phương pháp phổ biến vàhiệu quả, được nhiều nhà khoa học và các tổ chức, doanh nghiêp tìm hiểu, nghiên cứu,thử nghiệm, phát triển và kết quả đã thu được những thành công lớn đặc biệt trong lĩnhvực Ngân hàng và Tài chính trên những Kho dữ liệu khổng lồ Dữ liệu tài chính trongngân hàng thường đáng tin cậy và có chất lượng cao, tạo điều kiện cho khai phá dữliệu như dự đoán khả năng vay và thanh toán của khách hàng, phân tích chính sách tíndụng đối với khách hàng, phân tích hành vi khách hàng Dưới đây là một số ứngdụng điển hình trong khai phá dữ liệu ngân hàng:
1.1.4.1 Marketing:
Một trong những lĩnh vực được ứng dụng rộng rãi nhất cho ngành ngân hàng của
kỹ thuật khai phá dữ liệu đó là lĩnh vực quảng bá sản phẩm Bộ phận tiếp thị và bánhàng của các Ngân hàng có thể sử dụng kỹ thuật khai phá dữ liệu để phân tích cơ sở
dữ liệu(CSDL) về khách hàng Kỹ thuật khai thác dữ liệu cũng giúp xác định kháchhàng nào sẽ mang lại lợi nhuận và khách hàng nào không mang lại lợi nhuận
1.1.4.2 Quản lý rủi ro:
Khai phá dữ liệu được sử dụng rộng rãi để quản lý rủi ro trong ngành côngnghiệp ngân hàng Giám đốc điều hành ngân hàng cần phải biết rằng các khách hàng
mà họ đang có liệu đáng tin cậy hay không
1.1.4.3 Phát hiện rủi ro:
Một lĩnh vực khác trong khai phá dữ liệu có thể được sử dụng trong ngành côngnghiệp ngân hàng là việc phát hiện gian lận Phát hiện các hành động gian lận là mộtmối quan tâm ngày càng tăng cho nhiều doanh nghiệp, và với sự giúp đỡ của kỹ thuậtkhai phá dữ liệu các hành động gian lận ngày càng được phát hiên nhiều hơn
1.1.4.4 Quản trị quan hệ khách hàng:
Trang 19phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
Trong thời đại cạnh tranh khốc liệt ngày nay nói chung, đặc biệt là trong ngànhngân hàng, khách hàng luôn luôn là nhân tố quan trọng nhất quyết định sự tồn tại vàphát triển của họ Khai phá dữ liệu rất hữu ích trong tất cả ba giai đoạn trong một chu
kỳ mối quan hệ khách hàng: Tìm kiếm khách hàng, tăng giá trị của khách hàng và duytrì khách hàng
1.1.5 Các phương pháp trong khai phá dữ liệu.
Các kỹ thuật khai phá dữ liệu thường được chia thành 2 nhóm chính:
- Kỹ thuật khai phá dữ liệu mô tả: Có nhiệm vụ mô tả về các tính chất hoặc cácđặc
tính chung của dữ liệu trong CSDL hiện có Nhóm kỹ thuật này gồm các phương
pháp: Phân nhóm (Clustering), tổng hợp hóa (Summerization), Phát hiện sự biến
(Classification), hồi quy (Regression),
Hiện nay có 3 phương pháp thông dụng nhất là: phân cụm dữ liệu, phân lớp dữ liệu vàkhai phá luật kết hợp
- Phân lớp dữ liệu: Mục tiêu của phương pháp phân lớp dữ liệu là dự đoán nhãnlớp
cho các mẫu dữ liệu Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựngmô
hình và sử dụng mô hình để phân lớp dữ liệu
Bước 1: một mô hình sẽ được xây dựng dựa trên việc phân tích các mẫu dữ liệu sẵn có.
Mỗi mẫu tương ứng với một lớp, được quyết định bởi một thuộc tính gọi là thuộc tínhlớp Các mẫu dữ liệu này còn được gọi là tập dữ liệu huấn luyện (Training dataset).Các nhãn lớp của tập dữ liệu huấn luyện đều phải được xác định trước khi xây dựng
mô hình vì vậy phương pháp này còn được gọi là học có thầy (Supervised learning)khác với phân cụm dữ liệu(PCDL) là học không có thầy (Unsupervised learning)
Bước 2: sử dụng mô hình để phân lớp dữ liệu Trước hết chúng ta phải tính độ chính
xác của mô hình Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụng để dựđoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai
- Phân cụm dữ liệu: Mục tiêu chính của phân cụm dữ liệu là nhóm các đối tượngtương tự nhau trong tập dữ liệu vào các cụm sao cho các đối tượng thuộc cùng
là tương đồng còn các đối tượng thuộc các cụm khác nhau sẽ không tương đồng.Trong phương pháp này bạn sẽ không thể biết kết quả các cụm thu được sẽ như
Trang 201.1.6 Những vấn đề khó khăn trong khai phá dữ liệu.
Như chúng ta đã biết khai phá dữ liệu là một lĩnh vực liên ngành và được ứngdụng rất rộng rãi trên nhiều lĩnh vực Tuy nhiên với đặc điểm là việc xử lý các cơ sở
dữ liệu lớn nên khai phá dữ liệu cũng có những vấn đề khó khăn của riêng mình Ởđây chúng ta sẽ xem xét một số vấn đề sau:
> Cơ sở dữ liệu lớn: Các tập dữ liệu cần xử lý trong KPDL thường có kích thước
cực kỳ lớn về cả số lượng các bản ghi và số lượng các thuộc tính Trong thực tế,kích thước của các tập dữ liệu trong KPDL thường ở mức tera-byte (hàng ngàngiga-
byte) Với kích thước như thế, thời gian xử lý thường cực kỳ dài Mặc dù kíchthước
bộ nhớ trong của máy tính đã gia tăng đáng kể trong thời gian gần đây, việc giatăng
này cũng không thể đáp ứng kịp với việc tăng kích thước dữ liệu Vì vậy, việcvận
dụng các kỹ thuật xác suất, lấy mẫu, đệm, song song, vao các giải thuật để tạora
các phiên bản phù hợp với yêu cầu của khai phá dữ liệu trở nên ngày càng quantrọng
> Dữ liệu thiếu và nhiễu: Mức độ nhiễu cao trong dữ liệu điều này dẫn đến việc
dự đoán thiếu chính xác
> Sự thay đổi của dữ liệu và tri thức: Dữ liệu là không tĩnh, dữ liệu thay đổi
nhanh chóng có thể dẫn đến những tri thức đã khai phá trước đây trở nên khôngcòn
phù hợp thậm chí là vô giá trị
> Đánh giá các mẫu dữ liệu tìm được: Nhiều mẫu phát hiện không thực sự hữu
ích với người sử dụng và thách thức với các hệ khai phá dữ liệu
> Khai phá thông tin trong các hệ cơ sở dữ liệu hỗn hợp và hệ thống thông tin toàn cầu: Với sự ra đời của mạng máy tính, dữ liệu có thể được thu thập từ nhiều
nguồn khác nhau với định dạng khác nhau với số lượng rất lớn Việc phát hiện trithức
từ các dạng dữ liệu hỗn hợp này là một thách thức đối với khai phá dữ liệu
1.2 Tổng quan về hoạt động phân loại khách hàng tại các NHTM Việt Nam
1.2.1 Khái niệm phân đoạn khách hàng
Phân đoạn khách hàng là phân chia các đối tượng khách hàng đã biết trước thành
các cụm sao cho các khách hàng trong cùng một cụm có tính tương đồng với nhau.
Sự
tương đồng giữa các khách hàng phải dựa trên các tiêu thức đã được liệt kê từ trước.
Trang 21phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
bình dân, có nhu cầu sử dụng trực tiếp và mong muốn tiết kiệm chi phí khi mua sắm.Việc phân đoạn khách hàng thường theo 4 tiêu thức sau:
- Phân đoạn theo lợi ích: Khách hàng mua một loại hàng hoá nhưng với các lợi
ích theo đuổi khác nhau Do vậy, tuỳ từng đối tượng khác nhau mà giới thiệu,thuyết
phục họ bằng các lợi ích khác nhau mà họ tìm kiếm ở hàng hoá Cơ sở phânđoạn
khách hàng ở đây là lợi ích mà người tiêu dùng tìm kiếm khi tiêu dùng một sảnphẩm
nhất định Thị trường tồn tại các nhóm khách hàng quan tâm đến những lợi íchkhác
nhau của sản phẩm Ví dụ, trên thị trường thuốc đánh răng, có nhóm người tiêudùng
quan tâm đến hương vị và hình thức (nhóm khách hàng trẻ em), có nhóm quan
tế cho thấy, có nhiều thay đổi về quy mô và các yếu tố nhân chủng học của cácđoạn
thị trường ở những thời điểm khác nhau Vì vậy các nhà quản trị marketing cầnnghiên
cứu thường xuyên nhằm theo dõi những thay đổi của các đoạn thị trường theo
hàng hóa và dịch vụ theo đúng yêu cầu của họ
- Phân đoạn theo hành vi người tiêu dùng: Theo cơ sở này, thị trường người tiêu
dùng sẽ được phân chia thành các nhóm đồng nhất căn cứ vào trình độ hiểu biết,thái
độ, cách sử dụng và phản ứng với sản phẩm Khi lựa chọn các tiêu thức phân
Trang 22thông tin về dân số xã hôi cũng tương đối dễ đo lường Nói chung để dự tính quy môcủa thị trường và tiếp cận thị trường một cách hiệu quả thị cần phải biết về các đặcđiểm dân số xã hội.Tuổi, giới tính, thu nhập là ba yếu tố quan trọng nhất trong phânđoạn thị trường theo dân số xã hội Nhu cầu và khả năng của người tiêu dùng thay đổitheo tuổi tác và theo sự thay đổi về nghĩa vụ gia đình Nhiều doanh nghiệp đưa các sảnphẩm và cách quảng cáo hướng tới các đối tượng thiếu niên, người lớn và người già.Thế nhưng họ cũng phải rất cẩn thận, không nên rập khuôn giáo điều khi sử dụng biệnpháp phân đoạn theo tuổi và theo giai đoạn sống có thể sử dụng các cở sở thể thao vàđịa điểm công cộng khác Phân đoạn theo giới tính đã được sử dụng từ lâu cho nhữnglĩnh vực như mỹ phẩm, quần áo và làm đầu Nam giới và nữ giới thường mua nhữngsản phẩm khác nhau, đi mua sắm ở những chỗ khác nhau và vào những thời điểm khácnhau Hầu hết các doanh nghiệp đều tính đến thu nhập của khách hàng mục tiêu Một
số doanh nghiệp nhắm vào khách hàng khá giả thông qua hàng xa xỉ và dịch vụ caocấp Tuy nhiên thu nhập không phải lúc nào cũng chỉ rõ khách hàng phù hợp nhất củamột sản phẩm Người giàu không phân bố đều trong cả vùng và cũng có những khácbiệt về thị hiếu và thói quen giữa người miền bắc với người miền nam Chẳng hạnnhững người khá giả miền Bắc thích áo da bới mua đông lạnh giá, nhưng người miềnNam lại không như vậy vì nhiệt độ quanh năm lúc nào cũng khoảng 28 độ Phân đoạntheo dân số xã hội cũng giúp rất nhiều cho ngành ngân hàng Ví dụ tùy vào thu nhậpcủa từng khách hàng thì ngân hàng có thể phân loại được nhóm khách hàng có khảnăng trả nợ, nhóm khách hàng nào dễ gây nợ xấu Với phương pháp phân đoạn này,các nhà Marketing có thể dễ dàng đưa ra các chiến dịch quảng cáo, các dịch vụ, sảnphẩm phù hợp với từng đối tượng người tiêu dùng
- Phân đoạn theo mức độ trung thành của khách hàng: Một thị trường cũng có
thể phân đoạn theo mức độ trung thành của khách hàng thể hiện trong việc mua sắm
và sử dụng Theo cách này thì có các loại khách hàng: khách hàng trung thành, kháchhàng hay dao động, khách hàng hoàn toàn không trung thành Đối với khách hàngtrung thành, họ có sự nhất quán trong việc lựa chọn và tiêu dùng với nhãn hiệu đó.Những khách hàng dao động thường là khách hàng mà việc tiêu dùng và mua sắm của
họ không nhất quán với một loại nhãn hiệu Họ có thể chuyển từ nhãn hiệu ưa thíchnày sang một nhãn hiệu ưa thích khác Khách hàng hoàn toàn không trung thànhthường ưa thích những nhãn hiệu có sẵn; việc mua thuận lợi hoặc những sản phẩm mới
lạ Thị trường tổng thể bao gồm tất cả các loại khách hàng trên với những tỷ lệ khácnhau Việc phân đoạn theo tiêu thức này giúp cho các công ty biết được sự chấp nhậncủa khách hàng về sản phẩm của họ và các nhãn hiệu cạnh tranh Tùy từng loại kháchhàng, tùy mục tiêu của công ty để lựa chọn các chiến lược marketing phù hợp Mức độtrung thành của khách hàng có thể xuất phát từ nhiều lý do khác nhau, trong nhiềutrường hợp nó có một khái niệm rất mơ hồ, vì vậy nó không được sử dụng một cáchphổ biến để phân đoạn Dựa theo tiêu thức phân đoạn này, các ngân hàng nên xâydựng cho mình một thương hiệu riêng biệt cả về chất lượng dịch vụ lẫn cách thức
Trang 23phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
chăm sóc khách hàng để có thể giữ chân khách hàng cũ và mở rộng quan hệ tìm kháchhàng mới
Có thể thấy việc phân đoạn khách hàng là vô cùng cần thiết nó phù hợp với quan điểmkinh doanh hiện đại là thiết lập hệ thống sản xuất định hướng vào khách hàng
1.2.2 Phân đoạn khách hàng trong lĩnh vực ngân hàng
Với tập dữ liệu khổng lồ về khách hàng mình nếu biết cách khai thác tốt các tổ
chức kinh te - tài chính sẽ có thể thu được các thông tin rất hữu ích, phục vụ trực tiếp
hoặc gián tiếp đến các quyết định kinh doanh - quản trị của họ.
Đối với hoạt động của các ngân hàng cũng như vậy, liệu rằng trong khối lượng
dữ liệu đồ sộ về các khách hàng đến vay vốn, mặc dù thông tin về mỗi khách hàng khác nhau là không giống nhau nhưng có phải chúng hoàn toàn không tồn tại các đặc
trưng chung hay mối liên hệ nào đó? Phải chăng trong so IOOO khách hàng khác nhau
đang vay vốn tại ngân hàng có nghĩa là ngân hàng đã và đang phải làm việc 1000 nhóm đối tượng xa lạ và độc lập hay không hề có các đặc điểm, đặc trưng chung nào
có thể nhận biết, cho những đánh giá hay nhận xét ban đầu?
Các ngân hàng nhận ra rằng thực tế không phải như vậy, từ lâu họ đã biết được
rang m⅞c dù phục vụ tới hàng nghìn hàng triệu khách hàng khác nhau và mặc
khi khách hàng F khác biệt SO với khách hàng A thì F lại gần như giống với các khách
hàng G,H,K, Phát hiện này dẫn tới việc các ngân hàng có nhu cầu đúc kết thành và
đưa ra giải quyết bài toán phân đoạn khách hàng của mình với đầu vào là bộ dữ
Trang 24thêm giá trị cho khách hàng và được dùng để tạo sự khác biệt so với các sản phẩm vànhãn hiệu khác nhau của ngân hàng đối thủ Từ cơ sở này, các ngân hàng sẽ tiến hànhcác hoạt động marketing khác nhau để khai thác hiệu quả sản phẩm của mình.
Thực chất phân đoạn khách hàng trong lĩnh vực ngân hàng không phải là việcnghiên cứu các sản phẩm dịch vụ ngân hàng cung ứng trên thị trường mà là việcnghiên cứu nhu cầu các nhóm khách hàng của ngân hàng một cách cụ thể, chi tiết
Do hoạt động trong những điều kiện phức tạp của thị trường nên ngân hàng phảichú ý tới các vấn đề phục vụ ai và phục vụ như thế nào Trên thực tế các ngân hàngkhông thể thoả mãn tất cả các nhu cầu của tất cả các khách hàng Do đó thị trườngngân hàng được chia ra thành các phân đoạn mà ở đó ngân hàng thực hiện việc bán sảnphẩm dịch vụ của mình Việc xác định chính xác các giới hạn thị trường phục vụ có ýnghĩa to lớn bởi chính trong giới hạn này là nơi ngân hàng hoạt động và hướng cácchiến lược của mình vào đó
Trong hoạt động ngân hàng, tiêu thức phân đoạn khách hàng rất đa dạng vàphong phú Tuy nhiên, hai xu hướng được sử dụng rộng rãi nhất là phân đoạn theonhóm người tiêu dùng và phân đoạn theo đặc trưng các dịch vụ cung ứng
Phân đoạn khách hàng theo các nhóm người tiêu dùng
Việc phân đoạn theo tiêu thức này là một quá trình tương đối khó khăn và phứctạp, đòi hỏi ngân hàng phải có nhiều nỗ lực Theo tiêu thức này thị trường được chiathành 4 nhóm sau
• Thị trường công ty
• Thị trường bán buôn
• Thị trường bán lẻ
• Các tổ chức tài chính tín dụng khác và chính phủ
Phân đoạn theo đặc trưng của các dịch vụ cung ứng
Phân đoạn theo tính chất các dịch vụ cung ứng rất có lợi khi lựa chọn các thịtrường mục tiêu và cho phép xác định sản phẩm nào của ngân hàng được hấp dẫn nhấtđối với khách hàng và cho phép so sánh dịch vụ đó với dịch vụ của đối thủ cạnh tranh.Theo phương pháp này có 4 tiêu thức nhỏ được các ngân hàng sử dụng sau đây
• Phân đoạn theo dịch vụ tín dụng
• Phân đoạn theo dịch vụ tiền gửi
• Phân đoạn theo nghiệp vụ đầu tư
• Phân đoạn theo các dịch vụ khác
Phân đoạn theo một vài tiêu thức khác
Ngoài hai phương pháp trên thì ngân hàng còn sử dụng một số tiêu thức khác đểphân đoạn khách hàng như:
• Phân đoạn theo tiêu thức địa lý
Trang 25phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
• Phân đoạn theo lứa tuổi
• Phân đoạn theo mức tiền gửi
Phân đoạn khách hàng giúp các nhà quản trị ngân hàng đánh giá đúng mức nhucầu của khách hàng mà ngân hàng chưa thỏa mãn và nó có thể hiểu như một cơ hộicho ngân hàng Trên cơ sở phân đoạn khách hàng, ngân hàng có điều kiện xây dựngđược chương trình Marketing theo cách thức tối ưu hơn các đối thủ và kiểm soát mộtcách có hiệu quả hơn kết quả hoạt động trên từng đoạn thị trường của ngân hàng
Sản phẩm dịch vụ ngân hàng thường khó phân biệt một cách rõ ràng, nhưng nhờphân đoạn khách hàng mà tạo ra được những cơ hội có được những ưu thế cạnh tranhthông qua phân biệt hóa Tiếp cận phân đoạn khách hàng đòi hỏi ngân hàng xác địnhcác mặt lợi ích của các nhóm khách hàng khác nhau, trên cơ sở đó ngân hàng xác định
và sử dụng các chiến lược marketing phù hợp, làm cho sản phẩm dịch vụ của ngânhàng được khách hàng lựa chọn sử dụng ngày càng nhiều hơn và cũng giúp ngân hàngphục vụ khách hàng ngày càng tốt hơn, tăng lợi nhuận cho ngân hàng
Phân đoạn khách hàng chỉ rõ các cơ hội thị trường tương ứng với một ngân hàng.Vấn đề quan trọng là ngân hàng phải lựa chọn được một số đoạn thị trường hấp dẫnphù hợp với khả năng của ngân hàng
Để quyết định lựa chọn đoạn thị trường, bộ phận marketing ngân hàng cần phảithực hiện đánh giá các đoạn thị trường Mục đích của việc đánh giá các đoạn thịtrường là xác định được mức độ hấp dẫn của chúng trong việc thực hiện các mục tiêucủa ngân hàng Việc đánh giá các đoạn thị trường của ngân hàng thường dựa vào quy
mô và khả năng tăng trưởng, tính hấp dẫn của từng đoạn thị trường, các mục tiêu cóthể đạt được và khả năng đáp ứng của ngân hàng
- Quy mô và khả năng tăng trưởng: Một đoạn thị trường được xác định là có
hiệu quả khi quy mô của nó phải đủ lớn để bù đắp lại những nỗ lực củamarketing
không chỉ hiện tại mà cả tương lai Do vậy, việc xác định đúng quy mô và khảnăng
tăng trưởng của từng đoạn thị trường là hết sức quan trọng trong việc lựa chọnmục
tiêu của ngân hàng Để đánh giá đúng quy mô và sự tăng trưởng của các đoạn thịtrường, yêu cầu đặt ra đối với bộ phận Marketing Ngân hàng là phải thu thập vàphân
tích những chỉ tiêu chủ yếu như: doanh số cho vay, quy mô vốn huy động và xuhướng
thay đổi của chúng, lãi suất và xu thế thay đổi lãi suất, các nhân tố tác động đếncung
cầu tiền tệ và sản phẩm dịch vụ Ngân hàng
- Tính hấp dẫn của đoạn thị trường: Hoạt động trong nền kinh tế thị trường, các
Trang 26o Thách thức của sự gia nhập và sự rút lui của các định chế tài chính: Một đoạnthị trường được coi là không hấp dẫn nếu sự gia nhập của các đối thủ mới quá dễ dàng,tại đoạn thị trường nào xuất hiện các rào cản của sự gia nhập và rút lui thường có lợinhuận càng cao nhưng rủi ro của ngân hàng là càng lớn, những đoạn thị trường không
có rào cản gia nhập và rút lui thì sự tham gia của ngân hàng dễ dàng hơn nhưng hiệuquả thường thấp
o Thách thức của các sản phẩm dịch vụ mới: Một đoạn thị trường sẽ trở nênkhông hấp dẫn nếu hiện tại và tương lai sản phẩm dịch vụ mới có khả năng dễ dàngthay thế Khả năng phát triển sản phẩm dịch vụ mới sẽ ảnh hưởng không nhỏ đến giá
cả và lợi nhuận trong tương lai mà ngân hàng thu được trên từng đoạn thị trường Xuhướng chung là sản phẩm dịch vụ ngân hàng mới trên thị trường tăng sẽ làm cho hoạtđộng của ngân hàng gặp nhiều khó khăng bởi sự cạnh tranh tăng
o Thách thức từ phía khách hàng: một đoạn thị trường mà khách hàng có quyềnlực chi phối về giá cả và số lượng thì đoạn thị trường đó sẽ không được gọi là hấp dẫn.Khi khách hàng có quyền lực lựa chọn Ngân hàng, họ có quyền đòi hỏi về giá, chấtlượng sản phẩm dịch vụ và cả những dịch vụ phục vụ sau khi mua bán nhiều hơn Điều
đó làm cho ngân hàng ở vào thế cạnh tranh gay gắt hơn, và đòi hỏi chi phí cho hoạtđộng kinh doanh của Ngân hàng cao hơn
o Thách thức từ phía các tổ chức tài chính, tín dụng: Đoạn thị trường nào có các
tổ chức tài chính tín dụng cung cấp sản phẩm dịch vụ với thiết bị hiện đại, đội ngũnhân viên có trình độ cao, cung ứng nhiều sản phẩm dịch vụ có chất lượng bằng hệthống công nghệ tiên tiến hiện đại, có các điều kiện giao dịch thuận tiện cho kháchhàng thì có thể coi đó là đoạn thị trường không hấp dẫn
- Các mục tiêu và khả năng của ngân hàng: Một đoạn thị trường hấp dẫn vẫn có
thể bị các chủ ngân hàng loại bỏ nếu chúng không phù hợp với mục tiêu và khả năngcủa ngân hàng Nếu một ngân hàng cố gắng theo đuổi sự hấp dẫn của đoạn thị trườngvượt quá khả năng và mục tiêu của họ thì nguồn lực của ngân hàng sẽ bị phân tán.Ngay cả khi đoạn thị trường đó phù hợp với mục tiêu của họ thì cũng cần phải xem xétngân hàng có đủ khả năng trên các phương diện: quản lý, nhân lực, tài chính, côngnghệ để có thể kinh doanh thành công trên đoạn thị trường đó hay không Ngânhàng cũng cần kiên quyết loại bỏ những đoạn thị trường hấp dẫn nhưng thiếu năng lựccần thiết và chưa có khả năng khắc phục
1.2.3 Thực trạng hoạt động phân đoạn khách hàng ở các NHTM Việt Nam
Khách hàng(KH) của các ngân hàng rất đa dạng và phong phú Tỉ lệ KH cá nhântrong các NHTM chiếm khoảng 90% tổng số lượng khách hàng Như ngân hàngTechcombank có khoảng 3,3 triệu khách hàng cá nhân, đây cũng là số khách hàng cánhân của Vietcombank Ngày nay các NHTM Việt Nam đang tiến hành đa dạng hóadịch vụ của mình nên số lượng khách hàng ngày càng tăng lên một cách nhanh chóng
Do đó khách hàng của ngân hàng là một tổng thể khá phức tạp và chứa nhiều tiêu thứcphân đoạn khác nhau Bên cạnh đó nhu cầu của khách hàng về các dịch vụ ngân hàng
Trang 27phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
là không đồng nhất và có nhiều biến động Hơn thế nữa, hiện nay tại Việt Nam có rấtnhiều ngân hàng cho khách hàng lựa chọn Và sự lựa chọn của họ thường dựa vào cáctiêu chuẩn như địa điểm, số lượng và chất lượng dịch vụ, khả năng chăm sóc kháchhàng của các nhân viên Để có thể cạnh tranh được thì mỗi NHTM phải xây dựngcho mình một thương hiệu để khách hàng có thể tin tưởng sử dụng Mục tiêu của cácngân hàng là thu hút, giữ chân khách hàng, bằng cách đó tạo ra lợi nhuận kinh tế vàtốc độ tăng trưởng Với mục tiêu này, các ngân hàng phải hiểu rõ khách hàng và quátrình ra quyết định của họ Mặt khác cũng phải xác định và quản lý rủi ro đối với từngđối tượng khách hàng Vì vậy hiện nay hầu hết các NHTM Việt Nam đều tiến hành
việc phân đoạn khách hàng Ket quả của việc giải quyết phân đoạn khách hàng được
đánh giá có vai trò không nhỏ, là giai đoạn tiền xử lý làm gọn bộ dữ liệu, xuất hiện số
lượng hữu hạn các nhóm khách hàng và là kết quả cho những hành vi tiếp theo trong
các chuỗi hoạt động ví dụ như dự báo rủi ro tín dụng Thay vì đi ngay tính toán
bộ khách hàng vay vốn tại ngân hàng, cho ra những nhận định ban đầu để đưa ra các
phán đoán và quyết định tín dụng đúng đắn hơn, tin cậy hơn Thực tế cho thấy, hầu
hết
các NHTM Việt Nam đã bắt đầu thiết kế sản phẩm theo phương thức phân đoạn kháchhàng Tại ngân hàng Vietcombank, chúng ta có thể dễ dàng chọn được những sảnphẩm cho vay cá nhân mà tiêu biểu là cho vay bất động sản phù hợp với từng nhu cầucủa từng đối tượng khách hàng Tiêu thức phân đoạn khách hàng được sử dụng là phânđoạn theo dân cư xã hội với 2 yếu tố thu nhập và tuổi tác, phân đoạn hành vi ngườitiêu dùng với lý do lựa chọn khoản vay, phân đoạn theo lợi ích là những ưu đãi màkhách hàng nhận được từ khoản vay Các dịch vụ của cho vay bất động sản gồm: Chovay xây sửa nhà, Ngôi nhà mơ ước, Gia đình thịnh vượng, Cho vay mua nhà dự án,Cho vay hỗ trợ mua nhà ở xã hội/thương mại Với các tính năng của sản phẩm và điềukiện cho vay vốn như vậy, ngân hàng có thể quản lý tốt các nhóm khách hàng, kháchhàng vay có thể lựa chọn gói sản phẩm phù hợp với nhu cầu Một điểm khác tronghoạt động của các NHTM hiện nay là các ngân hàng đều xây dựng cho mình một quytrình tổng thể để lựa chọn và tiếp cận việc phân khúc khách hàng Các ngân hàng đã
Trang 28❖Bước 1: Hiểu rõ thị trường và đối thủ của Ngân hàng Một thị trường tiềm nănglà
khi khách hàng mong muốn một điều gì đó chưa được đáp ứng, mức độ càng caothì cơ hội của Ngân hàng càng lớn Để hiểu được thị trường cần trả lời nhữngcâu
hỏi sau:
- Đâu là phân khúc thị trường chưa được đáp ứng?
- Đâu là phân khúc thị trường đủ lớn để giúp đạt được lợi nhuận?
- Cần nắm giữ bao nhiêu thị phần để đạt được lợi nhuận?
- Thị trường đó có nhiều đối thủ cạnh tranh không?
- Đâu là điểm yếu của đối thủ cạnh tranh?
- Liệu thị trường này có giúp Ngân hàng phát huy ưu thế cạnh tranh của mìnhkhông?
❖Bước 2: Thấu hiểu khách hàng Nắm thông tin về khách hàng cũng là bước đầutiên trong việc bán hàng Ngân hàng phải biết được (1) ai là khách hàng của bạn,(2) họ mong muốn đìều gì và (3) đâu là động lực giúp họ mua hàng - đó nhữngyếu tố cần thiết của một kế hoạch marketing hiệu quả Để thật sự hiểu rõ kháchhàng ngân hàng cần trả lời những câu hỏi sau:
- Khách hàng tiềm năng của Ngân hàng đã thực hiệc các giao dịch tương tự nhưthế nào? (đến ngân hàng, qua internet hay qua môi giới )
- Ai là người quyết định sử dụng dịch vụ và ai là người có ảnh hưởng nhất đối vớiquyết định sử dụng dịch vụ đó?
- Những thói quen của khách hàng là gì? Ví dụ, họ thường lấy thông tin về dịch vụ
từ nguồn nào? (truyền hình, sách báo, tạp chí, người khác giới thiệu.)
- Động cơ thúc đẩy sử dụng dịch vụ của họ là gì? (vị trí giao dịch thuận tiện, thái
độ phục vụ của nhân viên, thủ tục nhanh gọn, độ an toàn cao, lệ phí thấp.)
❖Bước 3: Chọn 1 phân khúc thích hợp Ngân hàng cần có được một bức tranh rõràng mình muốn trở thành Nên chia thị trường ra thành nhiều phần bánh nhỏ vànắm trọn phần đó, sau đó hãy bắt đầu xâm nhập phân khúc mới Không gì tệ hơnkhi ngân hàng chọn một phân khúc thị trường mà ngân hàng không thể đối thoạiđược với nó hay ngân hàng phải tiêu tốn một khỏan tiền rất lớn trong lúc tiếp cậnnó
Phân đoạn khách hàng là cơ sở tiền đề để xây dựng chiến lược thị trường củangân hàng Nếu ngân hàng làm tốt công việc phân đoạn khách hàng qua đó xác địnhcho mình một thị trường mục tiêu thích hợp, những khách hàng tiềm năng thì sẽ dễdẫn đến thành công vì chiến lược thị trường của ngân hàng dựa trên cơ sở năng lực vàlợi thế thực sự của ngân hàng phù hợp với nhu cầu của thị trường
1.2.4 Giải pháp khai phá dữ liệu phân cụm trong phân đoạn khách hàng
Ngành thương mại trên thế giới nói chung và ngành tài chính ngân hàng nói riêng
đã trải qua một sự thay đổi to lớn trong cách thức kinh doanh được thực hiện Tuynhiên, sự phát triển cũng có mặt trái của nó Chúng ta đang sống trong thế giới thừa
Trang 29phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
kho dữ liệu của các doanh nghiệp ngày càng lớn dần Trong khi đó, việc khai thác trithức từ những kho dữ liệu đó chưa được quan tâm đúng mức Kho dữ liệu phần lớn chỉđược sử dụng để xây dựng các báo cáo mang tính thống kê Do đó việc nắm bắt thịtrường mục tiêu và phân đoạn khách hàng cũng như nhu cầu của họ là vô cùng khókhăn Các doanh nghiệp đã bắt đầu nhận ra sự cần thiết của các kỹ thuật như khai phá
dữ liệu, các kỹ thuật đó có thể giúp họ cạnh tranh trên thị trường Các ngân hàng hàngđầu Việt Nam đã và đang sử dụng các công cụ khai phá dữ liệu (DM: Data Mining)cho việc phân khúc khách hàng và lợi nhuận,chấm điểm tín dụng và phê duyệt, quảng
bá và bán sản phẩm, phát hiện các giao dịch gian lận, vv Và một trong nhữngphương pháp hiệu quả nhất là phân cụm dữ liệu để phân đoạn khách hàng Cụ thể làtrong lĩnh vực tín dụng, rủi ro của một khoản vay được biểu thị bằng nhóm nợ Bàitoán dự đoán rủi ro tín dụng ở đây là việc dự đoán nhóm nợ của một khoản vay đếnngày đáo hạn Hiện nay, để phân đoạn khách hàng vào các nhóm nợ phòng ngừa rủi rotín dụng, các chuyên gia Ngân hàng thực hiện các phương pháp thu thập, phân tích vàđánh giá các thông tin về khách hàng, tài sản bảo đảm của khoản vay, phương án kinhdoanh của khách hàng Phương pháp truyền thống này có nhiều hạn chế do phụ thuộcvào trình độ, tâm lý và yếu tố chủ quan khác của nhóm chuyên gia, cũng như thiếunhững thông tin cần thiết để nhóm chuyên gia phân tích, thậm chí là thông tin về chínhkhách hàng đã có quan hệ tín dụng với Ngân hàng Nhiều giải thuật thống kê đượcphát triển và tích hợp thành một chức năng của các công cụ nhằm hỗ trợ cho công tác
dự đoán như trong MS Excel, Lotus, Microfit, Tuy nhiên, chúng chỉ thực hiện cácchức năng hồi quy đơn giản Các phương pháp này đều yêu cầu phải biết trước kỹthuật toán học Khi các ngân hàng thường sử dụng kỹ thuật khai phá dữ liệu phân cụm,
kỹ thuật này khá giống với kỹ thuật thống kê theo cách nó xây dựng mô hình dự đoán
từ dữ liệu Tuy nhiên, phân cụm dữ liệu thuận lợi hơn so với phương pháp thống kêtruyền thống vì nó có thể mang lại tri thức mới cho người dùng, đưa ra được cái nhìntổng thể toàn bộ quá trình hoạt động của dữ liệu chứ không chỉ là độ chính xác dựđoán theo thống kê Trong lĩnh vực tài chính ngân hàng, khai phá dữ liệu phân cụm đãđược ứng dụng để phân tích rủi ro tín dụng, phát hiện gian lận, tiếp thị, quan hệ kháchhàng, quản lý rủi ro tác nghiệp, làm sạch dữ liệu
Trong môi trường cạnh tranh khốc liệt hiện nay, việc sử dụng phương pháp phâncụm dữ liệu là một phương pháp tiếp cận mới, góp phần giúp các doanh nghiệp ViệtNam đưa quyết định kịp thời, tăng cường khả năng cạnh tranh và nâng cao hiệu quảkinh doanh
1.2.5 Đánh giá khả năng áp dụng giải pháp khai phá dữ liệu tại các NHTM Việt
Trang 30Điểm mạnh/Strengths
S1: Hầu hết các NHTM Việt Nam đều
đã triển khai các hệ thống thông tin
chuyên nghiệp, tạo cơ hội thu thập được
có chiến lược quản trị cơ sở dữ liệu
W2: Thiếu nguồn nhân lực cóchuyên môn và kinh nghiệm ứngdụng KPDL
Cơ hội/Opportunities
O1: Khai phá dữ liệu đang là xu
hướng hàng đầu trong các ứng dụng công
nghệ thông tin hỗ trợ giải quyết vấn đề
kinh doanh của doanh nghiệp hiện nay
O2: Các doanh nghiệp lớn trong
ngành công nghệ thông tin đều tập trung
phát triển các giải pháp khai phá dữ liệu
Thách thức/Threats
T1: Chi phí triển khai các giảipháp khai phá dữ liệu và kinhdoanh thông minh rất đắt tiền
T2: Việc lựa chọn được tri thức
từ các mẫu, các luật được tạo rabởi các giải thuật khai phá dữ liệukhông đơn giản
T3: Dữ liệu được thu thập từnhiều nguồn nên việc xác định mốiquan hệ giữa các trường dữ liệu rấtphức tạp
phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
công nghệ khai phá dữ liệu Sau đây là phân tích SWOT về việc áp dụng giải phápkhai phá dữ liệu tại các NHTM Việt Nam
Trang 31S1: Hầu hết các NHTM Việt Nam đều đã triển khai các hệ thống thông tin chuyên
nghiệp, tạo cơ hội thu thập được nguồn dữ liệu phong phú, chính xác.
Ngoài việc triển khai hệ thống Core banking, các ngân hàng cũng triển khai cácphần mềm quản lý khác như ERP và CRM Năm 2009, NHTM cổ phần quân đội (MB)
đã chi đến 500 nghìn đô để triển khai hệ thống ERP của Oracle Ngân hàng Vietinbankcũng đã ký hợp đồng triển khai hệ thống ERP với công ty cổ phần Hệ thống thông tinFPT (FPT IS) trị giá 4,3 triệu USD vào năm 2010 Các NHTM khác nhưVietcombank, VP bank, Maritime bank, cũng lần lượt đưa ứng dụng ERP và CRMvào nhằm nâng cao hiệu quả hoạt động Với việc áp dụng ERP, CRM và hệ thốngCore banking các ngân hàng đã thu được một khối lượng lớn, đầy đủ, chính xác dữliệu về khách hàng Nguồn dữ liệu này là nguồn tài nguyên quan trọng đem lại cơ hộilớn giúp các ngân hàng Việt Nam sử dụng đòn bẩy khai phá dữ liệu
S2: Thực tế hầu hết các NHTM Việt Nam hiện nay đều đã được trang bị rất hiện
đại.
Trang 32Trong những năm gần đây, cơ sở hạ tầng phần cứng của các NHTM Việt Nam nhìnchung đã có sự phát triển vượt bậc Vốn đầu tư cho công nghệ thông tin(CNTT) khôngngừng tăng lên Cuộc khảo sát 29 NHTM của Bộ Bưu chính viễn thông năm 2009 vềứng dụng công nghệ thông tin cho thấy, chi số ICT của các NHTM lên đến 7 triệuđồng/người/năm, có ngân hàng lên đến 42 triệu Một nền tảng công nghệ thông tin vàtruyền thông tương đối hiện đại và đồng bộ đã được xây dựng; hệ thống mạng máytính cũng được chuyển đổi từ các mạng máy tính đơn lẻ sang tổ chức Trung tâm dữliệu đạt tiêu chuẩn quốc tế Như vậy có thể thấy phần lớn các NHTM Việt Nam đều cókhả năng để áp dụng các ứng dụng khai phá dữ liệu.
O1: Khaiphá dữ liệu đang là xu hướng hàng đầu trong các ứng dụng công nghệ thông tin hỗ trợ giải quyết vấn đề kinh doanh của doanh nghiệp hiện nay.
Những tiến bộ trong công nghệ phần cứng và phần mềm giúp ngân hàng có thểthu thập được khối lượng dữ liệu lớn đầy đủ về khách hàng, giao dịch và đối tác thìviệc biến dữ liệu thành quyết định kinh doanh càng trở nên quan trọng hơn Nói vềcách các tổ chức trong ngành ngân hàng tìm kiếm tăng trưởng thông qua việc áp dụngphân tích kinh doanh, ông Brian Johnston, một nhà sáng lập và lãnh đạo trung tâm tưvấn thực hành ngân hàng Deloitte Consulting LLP cho biết: “Có một số xu hướng rấtmạnh mẽ hiện nay đang xảy ra trong ngành ngân hàng xung quanh khai phá kinhdoanh Ngày nay khi mà tất cả các công nghệ dữ liệu đang dần đi vào ngành ngân hàngthì khối lượng dữ liệu tăng lên theo cấp số nhân mỗi ngày và ngân hàng đang dần trởthành kiểu doanh nghiệp hướng dữ liệu thực sự Trong đó hiện tại có ba xu hướngđang nổi bất nhất là cải cách thể chế, rủi ro hệ thống và phân tích khách hàng Thực
sự các ngân hàng đang tập trung vào áp dụng khai phá dữ liệu trong phân khúc kháchhàng, giá cả, lợi nhuận và làm thế nào để phát triển và tăng cường mối quan hệ kháchhàng theo thời gian”
O2: Các nhà cung cấp giải pháp công nghệ thông tin hàng đầu trên thế giới đều đã tập trung phát triển các giải pháp khai phá dữ liệu và kinh doanh thông minh.
IBM, Oracle, Microsoft là những doanh nghiệp phát triển các ứng dụng dữ liệuhàng đầu trên thế giới, và cho đến nay cả ba ông lớn này đều đang tập trung xây dựng
và phát triển các ứng dụng khai phá dữ liệu và kinh doanh thông minh Trong một vàinăm gần đây IBM đã bắt đầu đầu tư dự án phát triển bộ công cụ khai phá dữ liệu vàkinh doanh thông minh IBM Cognos và IBM InfoSphere Oracle cũng nhanh chóngphát triển và tích hợp các dịch vụ khai phá dữ liệu vào hệ quản trị cơ sở dữ liệu từphiên bản Oracle g11 trở đi Microsoft cũng đưa bộ công cụ hỗ trợ xây dựng giải phápkhai phá dữ liệu và kinh doanh thông minh tích hợp với SQL Server bắt đầu từ phiênbản 2008 R2 Các giải pháp khai phá dữ liệu và kinh doanh thông minh của IBM,Oracle và Microsoft đã được triển khai cho nhiều ngân hàng, doanh nghiệp lớn trên thếgiới và đã thể hiện được sự vượt trội của mình Ngoài ra, còn có rất nhiều doanh
Trang 33phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
nghiệp lớn nhỏ trong ngành công nghệ thông tin cũng đã và đang bắt nhịp với xuhướng này, hứa hẹn sự phát triển và hoàn thiện hơn nữa của các giải pháp khai phá dữliệu trong tương lai Một dấu hiệu tốt nữa là các tập đoàn này coi Việt Nam là thịtrường tiềm năng Từ năm 2010 trở lại đây, Oracle đã tổ chức rất nhiều hội thảo giớithiệu và quảng bá các giải pháp của mình tại Việt Nam IBM đã xây dựng văn phòngđại diện tại Việt Nam từ năm 2008 và đã có rất nhiều dự án hợp tác xây dựng hệ thốngthông tin cho các doanh nghiệp lớn Đây chính là cơ hội to lớn cho các doanh nghiệp
và ngân hàng Việt Nam được tiếp cận với các giải pháp công nghệ thông tin chuyênnghiệp nhất trên thế giới
W1: Hầu hết các ngân hàng Việt Nam chưa có chiến lược quản trị dữ liệu.
Các ngân hàng đã ý thức được tầm quan trọng và đầu tư rất nhiều vào các ứngdụng của dữ liệu trong phân tích kinh doanh, đặc biệt là phân tích khách hàng Nhưngcho đến thời điểm hiện tại có rất ít ngân hàng đã thực sự có khả năng khai thác dữ liệunhư là một tài sản của công ty Theo ông Omer Sohail, giám đốc Deloitte ConsultingLLP kiêm lãnh đạo trung tâm quản lý thông tin và phân tích kinh doanh ngân hàng:
“Để phục vụ hoạt động phân tích kinh doanh được hiệu quả, các ngân hàng cần có mộtchiến lược quản trị và xử lý dữ liệu lớn” Chiến lược quản trị dữ liệu này phải baotrùm được toàn bộ vòng đời của dữ liệu từ CSDL hoạt động (Operation database) chođến khi dữ liệu được chuyển hóa vào kho dữ liệu (Data warehouse) Tuy nhiên, hầuhết các ngân hàng ở Việt Nam chưa có chiến lược quản trị dữ liệu Kho dữ liệu chuyênbiệt chưa được xây dựng và quản trị một cách chuyên nghiệp Dữ liệu ở mỗi giai đoạntrong vòng đời được quản trị một cách rời rạc
W2: Trình độ nguồn nhân lực chưa đáp ứng được yêu cầu.
Hiện nay cả nước có trên 270 trường đại học, cao đẳng đào tạo ngành CNTT.Trung bình mỗi năm, chỉ riêng các trường trên địa bàn Hà Nội đào tạo từ 18.000 đến20.000 sinh viên ngành CNTT (trong đó đại học chiếm 41%, cao đẳng: 43%, trungcấp: 26%) Tuy nhiên, theo thống kê của Viện Chiến lược CNTT cho thấy, hiện nay72% sinh viên ngành CNTT không có kinh nghiệm thực hành, 42% thiếu kỹ năng làmviệc nhóm, 100% không biết lĩnh vực hành nghề Đặc biệt là đối với các sinh viênmới tốt nghiệp, chỉ khoảng 15% sinh viên ra trường đáp ứng yêu cầu doanh nghiệp.Hơn 80% lập trình viên phải đào tạo lại, thậm chí có những doanh nghiệp phải mất tới
2 năm để đào tạo lại Đồng thời các doanh nghiệp, công ty phần mềm trong nước cũngđang chật vật tìm kiếm nguồn nhân lực CNTT chất lượng cao Có thể kể đến các vị tríhiện đang khát nguồn nhân lực trầm trọng như: Lập trình di động, quản trị mạng,chuyên gia bảo mật và an ninh mạng Trong khi các doanh nghiệp đang khát nhânlực thì có rất nhiều sinh viên tốt nghiệp ngành CNTT thất nghiệp hoặc phải làm côngviệc trái ngành Nguyên nhân lớn nhất là do trình độ của sinh viên đào tạo ra còn hạnchế, chưa phù hợp với công việc mà doanh nghiệp yêu cầu
Trang 34T1: Chi phí triển khai các giải pháp khai phá dữ liệu và kinh doanh thông minh rất đắt tiền.
Không dễ để có thể tiếp cận với các giải pháp khai phá dữ liệu và kinh doanh thôngminh của các hãng lớn như Microsoft, Oracle hay IBM Theo một ước lượng của mộtchuyên gia trong lĩnh vực giải pháp phần mềm doanh nghiệp thì chi phí để triển khaimột giải pháp khai phá dữ liệu và kinh doanh thông minh có thể gấp 5 lần so mới mộtphần mềm bình thường Chi phí triển khai một giải pháp khai phá dữ liệu và kinhdoanh thông minh gồm chi phí thu mua và chi phí vận hành
T2: Việc đọc hiểu các tri thức thu được từ các mẫu, các luật được tạo ra bởi các giải thuật khai phá dữ liệu không đơn giản.
Trong nhiều ứng dụng, điều quan trọng là những gì khai thác được phải càng dễhiểu đối với con người thì càng tốt Các giải pháp có thể thực hiện được bao gồm cảviệc biểu diễn được minh họa bằng đồ thị, cấu trúc luật với các đồ thị có hướng, biểudiễn bằng ngôn ngữ tự nhiên và các kỹ thuật hình dung ra dữ liệu và tri thức Các giảipháp khai phá dữ liệu ngày càng được cải tiến, đặc biệt là các giải pháp lớn nhưInfoSphere Data Warehouse của IBM, BIDS của Microsoft, cho phép biểu diễn kếtquả khai phá dữ liệu trực quan hơn Tuy nhiên việc đọc hiểu, chọn lọc tri thức từ cáckết quả này vẫn rất khó khăn, vì kết quả của thuật toán khai phá dữ liệu có thể đượcgiải thích theo nhiều cách khác nhau mà trong nhiều trường hợp có thể được giải thíchtheo ý riêng của mỗi người
T3: Dữ liệu được thu thập từ nhiều nguồn nên việc xác định mối quan hệ giữa các trường dữ liệu rất phức tạp.
Dữ liệu dùng để khai phá dữ liệu có thể được thu thập từ nhiều nguồn, từ cơ sở
dữ liệu hoạt động, đến dữ liệu thu thập được qua điều tra, phỏng vấn hay dữ liệu đượcthu thập qua internet Dữ liệu từ các nguồn khác nhau này có cấu trúc rất khác nhau,
vì vậy không dễ để có thể tích hợp tất cả các nguồn dữ liệu này thành một dữ liệuthống nhất dùng cho khai phá dữ liệu Việc tích hợp này đôi khi còn làm mất dữ liệu
CHƯƠNG II KỸ THUẬT KHAI PHÁ DỮ LIỆU PHÂN CỤM VÀ THUẬT TOÁN PHÂN CỤM K-MEANS
2.1 Kỹ thuật khai phá dữ liệu phân cụm
2.1.1 Khái niệm và lý do lựa chọn kĩ thuật phân cụm dữ liệu giải quyết bài toán.
Phân cụm dữ liệu là một kỹ thuật trong khai phá dữ liệu nhằm tìm kiếm, pháthiện các cụm, các mẫu dữ liệu tự nhiên tiềm ẩn, quan trọng trong tập dữ liệu lớn mà tathu thập được từ các khảo sát thực tế để từ đó cung cấp thông tin, tri thức hữu ích choviệc ra quyết định Hay nói cách khác phân cụm dữ liệu còn có thể được hiểu như làmột quá trình chia một tập dữ liệu ban đầu thành các cụm dữ liệu sao cho các phần tửtrong một cụm tương tự với nhau và các phần tử trong các cụm khác nhau sẽ phi tương
Trang 35phân đoạn khách hàng tại NHNo& PTNT Trực Ninh Nam Định
nghiệm hoặc có thể được tự động xác định của phương pháp phân cụm Độ tương tựđược xác định dựa trên giá trị các thuộc tính mô tả đối tượng Thông thường, phép đokhoảng cách thường được sử dụng để đánh giá độ tương tự hay phi tương tự Ta có thểminh hoạ vấn đề phân cụm như hình sau đây:
Hình 3 Mô phỏng sự PCDL
Trong hình trên, sau khi phân cụm ta thu được bốn cụm trong đó các phần tử
"tương tự" thì được xếp vào một cụm, các phần tử "phi tương tự" thì chúng thuộc vềcác cụm khác nhau
Để minh hoạ cụ thể hơn cho vấn đề này ta có thể quan sát các hình ảnh sau:
Hình 4 Dữ liệu nguyên thủy
Trang 36Hình 5 Quá trình phân cụm
Hình 6 Quá trình phân cụm