Hướng nghiên cứu của tôi là từ kho dữ liệu di động thực hiện khai thác, phân tích nhằm phát hiện các hành vi rờimạng của thuê bao và dự đoán thuê bao rời mạng cho đề tài luận văn của mìn
Trang 1TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ NHƯ NGỌC
PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƯỚNG ĐẾN
DỰ ĐOÁN THUÊ BAO RỜI MẠNG VIỄN THÔNG
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
Hà Nội -2014
Trang 2TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYỄN THỊ NHƯ NGỌC
PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƯỚNG ĐẾN
DỰ ĐOÁN THUÊ BAO RỜI MẠNG VIỄN THÔNG
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thống thông tin
Mã số: 60480104
LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS PHAN XUÂN HIẾU
Hà Nội -2014
Trang 3Trước hết, tôi xin gửi lời cảm ơn sâu sắc nhất đến TS Phan Xuân Hiếu - TrườngĐại học Công Nghệ - Đại học Quốc gia Hà Nội, người đã tận tình hướng dẫn, chỉ bảo
và định hướng cho tôi trong suốt quá trình thực hiện luận văn tốt nghiệp
Tôi xin cảm ơn Trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội và cácthầy cô giáo đã giảng dạy tôi trong suốt thời gian học tập tại trường, tạo điều kiện giúp
đỡ tôi hoàn thiện luận văn này Xin cảm ơn gia đình, bạn bè, đồng nghiệp đã luôn độngviên giúp đỡ tôi trong thời gian học tập và hoàn thành luận văn
Trong quá trình nghiên cứu, thực hiện, mặc dù đã cố gắng, nỗ lực để hoàn thiện,luận văn của tôi cũng không tránh khỏi những thiếu sót và hạn chế Kính mong nhậnđược sự đóng góp của thầy cô và các bạn
Tôi xin chân thành cảm ơn!
Hà Nội, tháng 10 năm 2014
Học viênNguyễn Thị Như Ngọc
Trang 4Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhântôi, không sao chép lại của người khác Trong toàn bộ nội dung của luận văn, nhữngđiều đã trình bày là của cá nhân tôi hoặc được tôi tổng hợp từ nhiều nguồn tài liệu Tất
cả các nguồn tài liệu tham khảo có xuất xứ rõ ràng và được trích dẫn hợp pháp, không
có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tàiliệu tham khảo
Tôi xin chịu toàn bộ trách nhiệm và mọi hình thức kỷ luật theo quy định cho lờicam đoan của tôi
Hà Nội, tháng 10 năm 2014
Tác giả
Nguyễn Thị Như Ngọc
Trang 5MỤC LỤC
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
DANH MỤC HÌNH ẢNH
DANH MỤC BẢNG BIỂU
MỞ ĐẦU
Chương 1 TỔNG QUAN VỀ THUÊ BAO RỜI MẠNG
1.1.Thị trường thơng tin di động Việt Nam
1.2.Khái niệm “churn”
1.3.Phân loại “churn”
1.4.Các nghiên cứu liên quan
1.5.Mục tiêu và phạm vi đề tài
Chương 2 KHAI PHÁ DỮ LIỆU THUÊ BAO DI ĐỘNG
2.1 Lý thuyết khai phá dữ liệu
2.1.1 Tại sao cần khai phá dữ liệu
2.1.2 Khái niệm khai phá dữ liệu
2.1.3 Các bài tốn khai phá dữ liệu điển hình
2.2.Mơ hình kho dữ liệu di động
2.2.1 Tầng dưới
2.2.2 Tầng giữa
2.2.3 Tầng trên
2.3.Một số ứng dụng khai phá dữ liệu di động
2.3.1 Phân tích và dự đốn nhu cầu sử dụng các sản phẩm, dịch vụ
2.3.2 Nhận dạng và dự đốn các biểu hiện gian lận
2.3.3 Phân tích dự đốn thuê bao rời mạng
2.3.4 Dự đốn nhu cầu tăng dung lượng đường truyền
Chương 3 BÀI TỐN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG
3.1.Phát biểu bài tốn
3.2.Phân lớp dữ liệu thuê bao rời mạng
3.2.1 Dữ liệu
3.2.2 Lựa chọn thuộc tính
3.2.3 Cây quyết định C4.5
3.2.4 Nạve Bayes
3.2.5 Support Vector Machines
3.2.6 Neural Networks
Trang 63.2.7 Mơ hình đánh giá hiệu năng
Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ
4.1 Dữ liệu thực nghiệm
4.2 Thực nghiệm
4.2.1 Phân lớp dữ liệu sử dụng cây quyết định C4.5
4.2.2 Phân lớp sử dụng thuật tốn Nạve Bayes
4.2.3 Phân lớp sử dụng thuật tốn SVM
4.2.4 Phân lớp sử dụng thuật tốn Neural Networks
4.3 Đánh giá hiệu năng
KẾT LUẬN
TÀI LIỆU THAM KHẢO
PHỤ LỤC 1
PHỤ LỤC 2
Trang 7DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT
Trang 8DANH MỤC HÌNH ẢNH
Hình 1 - Tình hình phát triển thuê bao di động tại Việt Nam tính đến năm 2012
Hình 2 - Doanh thu dịch vụ di động tại Việt Nam tính đến năm 2012
Hình 3 - Thị phần các nhà cung cấp dịch vụ di động tại Việt Nam
Hình 4 - Quá trình phát hiện tri thức trong CSDL
Hình 5 - Mơ hình kho dữ liệu di động
Hình 6 - Tiến trình phân lớp dữ liệu
Hình 7 - Mơ hình quan hệ các bảng dữ liệu
Hình 8 - Các giai đoạn của mơ hình dự đốn thuê bao rời mạng
Hình 9 - Lựa chọn thuộc tính trong phân lớp dữ liệu
Hình 10 - Số lượng thuộc tính được thu thập
Hình 11 - Ví dụ về cây quyết định
Hình 12 - Nhiều mặt phẳng phân tách dữ liệu
Hình 13 - Siêu mặt phẳng phân tách
Hình 14 - Mạng nơ-ron truyền thẳng nhiều lớp
Hình 15 - Mạng nơ- ron hồi quy
Hình 16 - Dữ liệu thực nghiệm
Hình 17 - Dữ liệu rời rạc
Hình 18 - Thực hiện phân lớp với thuật tốn Nạve Bayes
Hình 19 - Thực hiện phân lớp với thuật tốn SVM
Hình 20 - Thực hiện phân lớp với thuật tốn Neural Networks
Hình 21 - Hiệu năng các thuật tốn với lớp thuê bao rời mạng
Trang 9DANH MỤC BẢNG BIỂU
Bảng 1 - Ma trận nhầm lẫn
Bảng 2 - Kết quả mơ hình phân lớp sử dụng C 4.5 với tỷ lệ mẫu khác nhau
Bảng 3 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/10
Bảng 4 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/2
Bảng 5 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/1
Bảng 6 - Kết quả mơ hình phân lớp sử dụng NB với tỷ lệ mẫu khác nhau
Bảng 7 - Bảng đánh giá hiệu năng của NB với tỷ lệ mẫu 1/10
Bảng 8 - Bảng đánh giá hiệu năng của NB với tỷ lệ mẫu 1/2
Bảng 9 - Bảng đánh giá hiệu năng của NB với tỷ lệ mẫu 1/1
Bảng 10 - Kết quả mơ hình phân lớp sử dụng SVM với tỉ lệ mẫu khác nhau
Bảng 11 - Bảng đánh giá hiệu năng của SVM với tỷ lệ mẫu 1/10
Bảng 12 - Bảng đánh giá hiệu năng của SVM với tỷ lệ mẫu 1/2
Bảng 13 - Bảng đánh giá hiệu năng của SVM với tỷ lệ mẫu 1/2
Bảng 14 - Kết quả mơ hình phân lớp sử dụng NN với tỉ lệ mẫu khác nhau
Bảng 15 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/10
Bảng 16 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/2
Bảng 17 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/1
Bảng 18 - Bảng đánh giá hiệu năng với dữ liệu test của mơ hình phân lớp C4.5
Bảng 19 - Bảng đánh giá hiệu năng với dữ liệu test của mơ hình phân lớp Nạve Bayes
Bảng 20 - Bảng đánh giá hiệu năng với dữ liệu test của mơ hình phân lớp SVM
Bảng 21 - Bảng đánh giá hiệu năng với dữ liệu test của mơ hình phân lớp NN
Trang 10MỞ ĐẦU
Dịch vụ thông tin di động ngày càng phát triển mạnh mẽ, trở thành một phần tấtyếu trong cuộc sống của mỗi người dân Việt Nam Với sự ra đời của hàng loạt các nhàcung cấp dịch vụ mạng điện thoại di động Quản lý thông tin thuê bao di động nhằmnâng cao khả năng chăm sóc khách hàng, đưa ra các chiến lược kinh doanh là việckhông thể thiếu đối với các nhà cung cấp dịch vụ mạng di động
Ngày nay “kho dữ liệu” đã trở thành một khái niệm quen thuộc đối với các doanhnghiệp, “kho dữ liệu” hỗ trợ doanh nghiệp ra quyết định cho các hoạt động tăng sự tậptrung vào khách hàng như phân tích các mô hình khách hàng, so sánh hiệu suất doanh
số bán hàng theo quý, theo năm, và theo vùng địa lý để điều chỉnh chiến lược sản xuất,phân tích hoạt động và tìm kiếm nguồn lợi nhuận, quản lý các mối quan hệ kháchhàng, điều chỉnh môi trường và quản lý chi phí tài sản của công ty Xây dựng kho dữliệu thuê bao di động là hướng đi đúng đắn nhằm nâng cao năng lực cạnh tranh vàchăm sóc khách hàng của các nhà mạng di động
Trong bối cảnh thị trường viễn thông đã đi vào giai đoạn bão hòa, khách hàng ngàycàng đòi hỏi cao về chất lượng và dịch vụ Hơn nữa khách hàng có nhiều lựa chọn và
có quyền chuyển đổi nhà cung cấp dịch vụ, kết quả là khách hàng rời mạng tăng lênmột cách nhanh chóng Đối mặt với thách thức này, các nhà cung cấp dịch vụ viễnthông cần phải đưa ra những hoạch định chiến lược để giữ chân khách hàng
Các yếu tố quan trọng để giữ chân khách hàng là dự đoán khách hàng rời mạng vàchiến lược phòng chống khách hàng rời mạng hiệu quả Hướng nghiên cứu của tôi là
từ kho dữ liệu di động thực hiện khai thác, phân tích nhằm phát hiện các hành vi rờimạng của thuê bao và dự đoán thuê bao rời mạng cho đề tài luận văn của mình Luậnvăn được xây dựng dựa theo lý thuyết khai phá dữ liệu được các nhà khoa học nghiêncứu đồng thời tôi xin trình bày quan điểm riêng của mình về việc áp dụng khai phá dữliệu trong phát hiện hành vi và dự đoán thuê bao rời mạng
Dữ liệu được sử dụng trong luận văn là dữ liệu “anonymous”, chỉ mang tính chấtnghiên cứu và không tiết lộ bất cứ thông tin của tổ chức hay cá nhân nào
Luận văn được chia thành các chương như sau:
Chương 1: Trình bày tổng quan thuê bao rời mạng viễn thông, khái niệm thuê baorời mạng, phân biệt các hình thức rời mạng của thuê bao và sự cần thiết của việc dựđoán thuê bao rời mạng
Chương 2: Trình bày về lý thuyết khai phá dữ liệu di động Các ứng dụng khai phá
dữ liệu di động như: Dự đoán xu hướng phát triển của các sản phẩm và dịch vụ, nhậndạng và dự đoán gian lận, dự đoán nhu cầu tăng dung lượng đường truyền
Chương 3: Trình bày về bài toán phân lớp dữ liệu thuê bao rời mạng, đầu vào vàdầu ra của bài toán Đưa ra mô hình kho dữ liệu di động và mô hình phân lớp dữ liệuthuê bao rời mạng Dữ liệu được trích xuất từ kho dữ liệu di động và các thuật toán
Trang 11phân lớp là hai thành phần chính của bài tốn phân lớp Trong luận văn sẽ sử dụng cácthuật tốn cây quyết định C4.5, Nạve Bayes, SVM và Neural Networks để phân lớp
dự đốn thuê bao rời mạng viễn thơng
Chương 4: Thực nghiệm bài tốn phân lớp dữ liệu di động với dữ liệu cụ thể Đánhgiá kết quả đạt được với các mơ hình phân lớp
Trang 12Chương 1 TỔNG QUAN VỀ THUÊ BAO RỜI MẠNG
Thị phần và khách hàng là hai yếu tố hết sức quan trọng, quyết định sự thành côngcủa các nhà cung cấp dịch vụ mạng di động Trong bối cảnh thị trường viễn thông đã
đi vào giai đoạn bão hòa, việc phát triển thuê bao mới ngày càng trở nên khó khăn.Trong khi đó khách hàng ngày càng có nhiều cơ hội lưa chọn dịch vụ và ít bị rằngbuộc bởi nhà cung cấp dịch vụ Hiện tượng khách hàng chuyển đổi qua lại giữa cácnhà cung cấp ngày càng tăng, hiện tượng thuê bao ngưng sử dụng trên mạng ngày càngnhiều cho thấy khách hàng hiện nay không còn trung thành với nhà mạng như thịtrường độc quyền trước đây Chính vì vậy việc giữ chân khách hàng, giảm tỉ lệ thuêbao rời mạng là chiến lược kinh doanh quan trọng để giữ vững thị phần của các nhàcung cấp dịch vụ
1.1 Thị trường thông tin di động Việt Nam
Đã hơn 20 năm, kể từ khi MobiFone - mạng di động đầu tiên của Việt Nam chínhthức đi vào hoạt động Ở thời điểm đó, thông tin di động còn là khái niệm xa lạ với đa
số người tiêu dùng, số lượng thuê bao của mạng di động này không nhiều do vùng phủsóng hạn chế và giá cước cũng như thiết bị đầu cuối còn đắt Điện thoại di động rấtkhan hiếm, giá thành mỗi chiếc máy khoảng 1.000 USD Ngoài việc khan hiếm máy,tiền thuê bao và cước cuộc gọi cũng rất đắt, phí hòa mạng 200 USD/thuê bao, thuê baotháng khoảng 30 USD, cước cuộc gọi cho nội hạt TP Hồ Chí Minh hoặc Hà Nội là 0,3USD/ phút Riêng với các cuộc gọi liên tỉnh, mức cước phí là 0,3 USD/ phút + cướcliên tỉnh
Sự bùng nổ của thị trường thông tin di động Việt Nam chỉ thực sự diễn ra trong
10năm trở lại đây, khi Viettel chính thức bước chân vào thị trường di động năm 2004.Theo thống kê, giá cước di động Việt Nam trong vòng 10 năm qua đã giảm hơn 3 lần.Cuộc cạnh tranh nóng bỏng trên thị trường di động đã đưa Việt Nam từ nước có giácước thuộc hàng cao trên thế giới đã trở thành nước có mức cước thuộc hàng rẻ nhấtthế giới Theo báo cáo của Bộ TT&TT, tính hết năm 2012, tổng số thuê bao di độngtrên toàn quốc là 131.673.724 và tỉ lệ thuê bao/100 dân là 148,33% Mới đây, ITU đãxếp Việt Nam đứng vị trí thứ 8 trên thế giới về mật độ thuê bao di động và được đánhgiá như một điểm sáng của viễn thông thế giới
Trang 13Hình 1 - Tình hình phát triển thuê bao di động tại Việt Nam tính đến năm 2012[4]Cùng với sự phát triển của thuê bao di động, doanh thu từ mạng viễn thông cũngtăng lên đáng kể Tính đến hết năm 2012 doanh thu dịch vụ di động trên cả nước là6.472,30 triệu USD.
Hình 2 - Doanh thu dịch vụ di động tại Việt Nam tính đến năm 2012[4]
Tuy nhiên, cuộc chạy đua cạnh tranh giữa các doanh nghiệp trong nước cũng bộc
lộ nhiều điểm hạn chế Điều đó được minh chứng rất rõ ràng thông qua công cụ cạnhtranh chủ yếu của các doanh nghiệp chỉ là giảm giá và khuyến mãi Để thu hút thuêbao mới, các mạng di động phải đua nhau khuyến mãi liên tục các tháng trong năm.Tuy nhiên sau khi kết thúc mỗi đợt khuyến mãi, số thuê bao sử dụng hết tài khoản lậptức rời mạng, tạm ngưng hoặc chuyển sang mạng khác tăng lên rõ rệt, số thuê bao rờimạng nhiều hơn số thuê bao mới gia nhập, lượng thuê bao hoạt động tăng giảm bấtthường, doanh thu không tăng theo số thuê bao tăng trưởng Đây là kiểu cạnh tranhngược với xu thế hội nhập của ngành thông tin di động Việt nam Xét ở góc độ quản lý
vĩ mô cho thấy thực trạng trên thể hiện một thị trường tiêu cực và lãng phí tài nguyêncủa ngành
Theo quy định của Bộ Bưu chính-Viễn thông thì các nhà cung cấp có thị phầnkhống chế (trên 30%) thì giá cước do chính phủ quyết định, trong khi các nhà cung cấpdịch vụ nhỏ như S-fone, Vietnamobile và Gmobile có thị phần nhỏ được phép tự quyếtđịnh giá cước Tuy giá cước là lợi thế cạnh tranh, nhưng chất lượng dịch vụ của cácdoanh nghiệp này lại không đảm bảo do đầu tư không theo kịp tốc độ tăng trưởng thuêbao hay hạn chế về vùng phủ sóng Ngược lại, mạng di động Mobifone và
Trang 14Vinaphone có chất lượng dịch vụ ổn định hơn do có quá trình đầu tư và bề dày kinhnghiệm nhưng giá cước và cách tính cước còn bị khống chế nên không hấp dẫn kháchhàng Hiện tượng khách hàng chạy theo các đợt khuyến mại của các mạng cũng trởnên phổ biến đặc biệt là khách hàng giới trẻ hiện nay thể hiện qua số liệu thuê bao hoạtđộng thực tăng giảm giữa các kỳ khuyến mãi và không khuyến mãi (Phát triển thực =phát triển mới – ngưng sử dụng).
Hình 3 - Thị phần các nhà cung cấp dịch vụ di động tại Việt Nam[4]
Do vậy, để thị trường di động Việt nam phát triển một cách tích cực và bền vững,chiến lược của các nhà cung cấp dịch vụ di động hiện nay là phải tìm cách duy trìkhách hàng hiện có bằng cách nâng cao mức độ trung thành và giá trị khách hàng Mộtkhi thị trường đã trở nên cạnh tranh quyết liệt như hiện nay thì chiến lược phòng thủ
để duy trì khách hàng hiện có còn quan trọng hơn so với chiến lược công kích nhằm
mở rộng quy mô toàn bộ thị trường bằng việc gia nhập của các khách hàng tiềm năng[Fornell, 1992; Ahmad & Buttle, 2002]
1.2 Khái niệm “churn”
Đặc điểm của thị trường viễn thông những năm qua là biến đổi nhanh chóng, tự dohóa thị trường, cải tiến kỹ thuật, độ bão hòa và cạnh tranh khốc liệt Khách hàng cónhiều sự lựa chọn giữa các nhà khai thác di động, họ có thể chuyển đổi giữa các nhàkhai thác mà không có bất kỳ khó khăn nào và không ngừng tìm kiếm nhà mạng códịch vụ tốt hơn với chi phí thấp
“Churn” là một thuật ngữ được sử dụng trong viễn thông và nhiều ngành côngnghiệp khác nó đề cập đến quyết định di chuyển từ một nhà cung cấp dịch vụ này đếnmột nhà cung cấp dịch vụ khác của khách hàng “Churn” có nguồn gốc từ change (sựthay đổi) và turn (chiều hướng) “Churn” xảy ra bởi nhiều lý do khác nhau như khônghài lòng với các dịch vụ hay các hóa đơn cao hoặc khách hàng thường nhận được ưuđãi hấp dẫn khi đăng ký với một nhà cung cấp dịch vụ di động mới Khi khách hàngrời mạng cũng ảnh hưởng đến những người quen của họ trong cùng một mạng, điềunày làm gia tăng khả năng rời mạng của các thuê bao này Nếu coi việc rời mạng làmột hiện tượng thì việc rời mạng là sự kết hợp của thói quen sử dụng của người dùng
và của những hoạt động của người xung quanh Tỷ lệ “churn” trung bình trong mộtnhà cung cấp dịch vụ di động là khoảng 2% mỗi tháng (Berson, Smith, và Thearling,
Trang 152000) Tỷ lệ rời mạng hàng năm ở Châu Âu là 25%, Mỹ 37% và Châu Á 48%(Mattersion, 2001).
Việc mất khách hàng đồng nghĩa với việc mất doanh thu trong tương lai và mất chiphí đầu tư để có lại những khách hàng này Trong khi đó, tìm kiếm khách hàng mới trởnên khó khăn hơn bao giờ hết do sự cạnh tranh khốc liệt và độ bão hòa của thị trườngthông tin di động Chi phí được khách hàng mới là cao hơn đáng kể so với việc giữkhách hàng hiện tại Trong thực tế, chi phí để phát triển một thuê bao mới lớn 5-10 lầnchi phí để giữ chân khách hàng Đối mặt với thách thức này, các nhà khai thác cần phảitập trung vào việc làm thế nào để ngăn chặn khách hàng rời mạng Biết trước khi nàokhách hàng rời mạng sẽ cho phép nhà quản lý có chiến lược phòng tránh, và có nhiều
cơ hội hơn trong việc giữ chân khách hàng thành công Dự đoán khi nào khách hàng sẽ
“churn” giúp tăng doanh thu và tiết kiệm được nguồn lực cho nhà mạng
1.3 Phân loại “churn”
Có nhiều lý do dẫn đến việc rời mạng của thuê bao, có thể chia là 3 nhóm chính:
-Thuê bao bị buộc rời khỏi mạng bởi nhà cung cấp dịch vụ: Các nhà mạngchủ động cắt hủy dịch vụ của khách hàng bởi nhiều lý do khác nhau nhưkhách hàng nợ cước, gian lận, tạm dừng sử dụng dịch vụ trong thời giandài…
-Nhóm chủ động rời khỏi mạng và chuyển sang một nhà cung cấp dịch vụkhác: Lý do việc rời mạng có thể là: không hài lòng với chất lượng dịch, chiphí quá cao, giá cả không cạnh tranh, không có những khuyến mại chokhách hàng trung thành, không có hiểu biết về các chương trình dịch vụ,dịch vụ hỗ trợ khách hàng không tốt, các lý do riêng tư …
-Nhóm khách hàng rời mạng bất ngờ và không có mục đích chuyển sangnhà cung cấp dịch vụ khác Lý do có thể là: khách hàng có thể phải do dichuyển đến vùng địa lý khác nơi không có mặt của nhà cung cấp, hay dotình hình tài chính dẫn đến không có khả năng thanh toán
Phân biệt nhóm khách hàng chủ động rời mạng và nhóm khách hàng rời mạng bấtngờ là một vấn đề khó Tuy nhiên, nhóm khách hàng rời mạng bất ngờ chỉ thuộc mộtphần nhỏ so với nhóm khách hàng chủ động rời mạng
“Churn” cũng có thể được chia thành 3 nhóm:
-“Churn” hoàn toàn: Khách hàng hủy tất cả các dịch vụ và thanh lý hợp đồng
-“Churn” ẩn: Hợp đồng của khách hàng không được hủy bỏ, nhưng các khách hàng không chủ động sử dụng dịch vụ đã một thời gian dài
-“Churn” một phần: Hợp đồng không được hủy bỏ, nhưng các khách hàng không sử dụng dịch vụ đầy đủ và chỉ sử dụng các bộ phận của nó
Trang 16Tùy thuộc vào từng nhà mạng, hợp đồng dịch vụ và mô hình kinh doanh được ápdụng cho khách hàng “churn” ẩn hoặc một phần có thể dẫn đến giảm doanh thu và cần
có những hành đồng thiết thực dẫn đến không mất khách hàng hoàn toàn
Một điều quan trọng nữa trong phân loại “churn” là phân loại khách hàng tiềmnăng Đối với khách hàng tiềm năng, bộ phận tiếp thị của công ty có thể đưa ra chiếnlược tiếp thị để giữ chân những khách hàng tiềm năng này
1.4 Các nghiên cứu liên quan
Trên thế giới đã có rất nhiều nghiên cứu về mô hình dự đoán “churn” trong viễnthông như:
-Nghiên cứu các nguyên nhân của thuê bao rời mạng viễn thông sử dụng Fuzzy Logic[10]
-Phân tích mạng xã hội (Social Network Analysis -SNA) dự đoán thuê bao rời mạng viễn thông.[11]
-Sử dụng Artificial Neural Network (ANN) tích hợp mô hình dự báo cho cáckhách hàng trả trước nhằm giải thích lý do rời mạng với dữ liệu mẫu là bộ
dữ liệu khiếu nại từ các thuê bao.[12]
-Neural Network (NN) cùng với cây quyết định và Support Vector Machine(SVM) được sử dụng để xây dựng một mô hình lai để dự đoán thuê bao rời mạng trong viễn thông [13]
-Xây dựng mô hình lai sử dụng Logistic regression và Voted perceptron để
dự đoán thuê bao rời mạng trong viễn thông.[14]
1.5 Mục tiêu và phạm vi đề tài
Mục tiêu của đề tài
Từ kho dữ liệu di động xác định các thuê bao rời mạng, thực hiện phân tích cáchoạt động, hành vi trước khi rời mạng của các thuê bao bằng các phương pháp khaiphá dữ liệu nhằm phát hiện những yếu tố liên quan đến việc rời mạng của thuê bao Từđấy thực hiện phân tích các thuê bao đang hoạt động nhằm phân lớp và dự đoán cácthuê bao rời mạng viễn thông Nguồn dữ liệu phân tích được bắt nguồn từ chi tiết sửdụng dịch vụ, hồ sơ khách hàng và các thông tin liên quan
Phạm vi đề tài
Việc xây dựng kho dữ liệu thuê bao di động với nhiều nguồn dữ liệu khác nhau làmột quá trình lâu dài và phức tạp, trong phạm vi luận văn sẽ không đề cập đến việcxây dựng kho dữ liệu di động mà hướng đến phân tích và khai phá dữ liệu di động đưa
ra dự đoán những thuê bao có khả năng chủ động rời mạng viễn thông Cách phân tích
dữ liệu đối với thuê bao trả trước và trả sau có sự khác biệt lớn (hầu hết khách hàng trảtrước rời mạng một khoảng thời gian dài trước khi nhà mạng nhận ra là khách hàng đãrời mạng) bởi vậy trong luận văn này chỉ thực hiện phân tích dữ liệu đối với thuê bao
Trang 17trả sau Đối tượng thực hiện phân tích là nhóm khách hàng chủ động rời khỏi mạng và chuyển sang một nhà cung cấp dịch vụ khác.
Trang 18Chương 2 KHAI PHÁ DỮ LIỆU THUÊ BAO DI ĐỘNG
Khai phá dữ liệu là một lĩnh vực liên ngành có liên quan đến việc khai thác cácthông tin tiềm ẩn từ cơ sở dữ liệu lớn Trong kinh doanh, khai thác dữ liệu cung cấpcác công cụ để tìm kiếm các mô hình có ý nghĩa và cung cấp tri thức hỗ trợ ra quyếtđịnh từ dữ liệu thô Nó giúp cho doanh nghiệp xác nhận được các giả thuyết hoặc tìm
ra những điều chưa được biết đến trong dữ liệu, cung cấp cho doanh nghiệp cái nhìnsâu sắc có giá trị và lợi thế cạnh tranh Quá trình khai thác dữ liệu đòi hỏi phải có sựhợp tác của các lĩnh vực như: hệ thống cơ sở dữ liệu, kho dữ liệu, học máy, thống kê.Luận văn này tập trung vào phần phân tích khai thác dữ liệu, làm thế nào áp dụng đượchọc máy để dự đoán thuê bao rời mạng
2.1 Lý thuyết khai phá dữ liệu
2.1.1 Tại sao cần khai phá dữ liệu
Ngày nay công nghệ thông tin đang có mặt ở tất cả các lĩnh vực, cùng với đó làcác dữ liệu lưu trữ không ngừng tăng lên Tiềm ẩn bên trong lượng dữ liệu này lànhững tri thức hết sức quý báu giúp ích cho các hoạt động sản xuất kinh doanh của conngười
Theo Fayyad và cộng sự, việc nghiên cứu, phát triển lĩnh vực khai phá dữ liệu vàphát hiện tri thức trong cơ sở dữ liệu(Knowledge Discovery and Data Mining: KDD)
nhằm giải quyết tình trạng “ngập tràn thông tin mà thiếu thốn tri thức”.
2.1.2 Khái niệm khai phá dữ liệu
Phát hiện tri thức trong cơ sở dữ là lĩnh vực nghiên cứu và triển khai được pháttriển nhanh chóng, có phạm vi rộng lớn, được nhiều nhóm nghiên cứu tại nhiều trườngđại học, viện nghiên cứu, công ty cổ phần ở nhiều quốc gia trên thế giới quan tâm Bởivậy tồn tại nhiều cách tiếp cần khác nhau đối với việc phát hiện tri thức trong cơ sở dữliệu, cùng với đó cũng có nhiều thuật ngữ khác nhau mang cùng nghĩa với KDD nhưchiết lọc tri thức(knowledge extraction), phát hiện thông tin (information harvesting),khai thác dữ liệu(data archaeology), xử lý mẫu dữ liệu(data/parttern analysis)…
Khái niệm 1: Phát hiện tri thức trong cơ sở dữ liệu là quá trình không tầm
thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu.[1]
Trong khái niệm 1 chúng ta coi KDD là một quá trình gồm nhiều bước thực hiện
trong đó khai phá dữ liệu là một bước thực hiện chính yếu
Khái niệm 2:(Frawley, Piatetski-Shapiro và Matheus) : Khai phá dữ liệu là một
bước trong quá trình phát hiện tri thức trong cơ sở dữ liệu, thi hành một thuật toán khai phá dữ liệu để tìm ra các mẫu từ dữ liệu theo khuôn dạng thích hợp[1]
Trang 19Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD và KDD được xem như 7 quá trình khác nhau theo thứ tự sau:
-Làm sạch dữ liệu (data cleaning & preprocessing): loại bỏ nhiễu và các dữ liệu không cần thiết
-Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành nhữngkho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử
lý (datacleaning & preprocessing)
-Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu
và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quátrình nàybao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu khôngđầy đủ(incomplete data), v.v
-Chuyển đổi dữ liệu: các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý
-Khai phá dữ liệu (data mining): là một trong các bước quan trọng nhất, trong
đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu
-Ước lượng mẫu (knowledge evaluation): quá trình đánh giá các kết quả tìmđược thông qua các độ đo nào đó
-Biểu diễn tri thức (knowledge presentation): quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng
Hình 4 - Quá trình phát hiện tri thức trong
CSDL[1] 2.1.3 Các bài toán khai phá dữ liệu điển hình
Mô tả khái niệm (concept description): là bài toán tìm đặc trưng và tính chất
của khái niệm Bài toán thiên về mô tả, tổng hợp và tóm tắt khái niệm Ví dụ: tóm tắtvăn bản
Luật kết hợp (association rules): là dạng luật biểu diễn tri thức ở dạng khá
đơn giản Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ
Trang 20mua thêm thịt bò khô” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh,
y học, tin-sinh, tài chính & thị trường chứng khoán, v.v
Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào
một trong những lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết.Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như câyquyết định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Người ta còngọi phân lớp là học có giám sát (học có thầy)
Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như
tên) của cụm chưa được biết trước Người ta còn gọi phân cụm là học không giám sát(học không thầy)
Hồi quy (regression ): là bài toán điển hình trong phân tích thống kê và dự báo.
Trong khai phá dữ liệu, bài toán hồi quy được quy về việc học một hàm ánh xạ dữ liệunhằm xác định một giá trị thực của một biến theo biến số khác Phân tích hồi quy sẽxác định được định lượng quan hệ giữa các biến, và quảng bá giá trị một biến phụthuộc vào giá trị của những biến khác Phương pháp hồi quy khác với phân lớp dự liệu
là hồi quy dùng để dự đoán những giá trị liên lục, còn phân lớp dữ liệu là dự đoán cácgiá trị rời rạc
Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật
kết hợp nhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứngdụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báocao
Ngoài ra còn có một số bài toán khai phá dữ liệu thống kê khác
2.2 Mô hình kho dữ liệu di động
Mô hình kho dữ liệu thuê bao di động gồm 3 lớp:
Tầng dưới cùng: là lớp thực hiện khai thác làm sạch chuẩn hóa và tập trung dữ liệu
từ các nguồn dữ liệu tổng đài, cước và thông tin khách hàng
Tầng giữa: sử dụng kiến trúc Relational OLAP sever lưu trữ dữ liệu dưới dạng cơ
sở dữ liệu quan hệ thực hiện phân tích dữ liệu theo nhiều khía cạnh khác nhau
Tầng trên cùng: sử dụng các công cụ thực hiện truy vấn báo cáo, phân tích và khaithác dữ liệu
Trang 21Hình 5 - Mô hình kho dữ liệu di động
Hệ thống Billing: nơi quản lý và lưu trữ thông tin cước của thuê bao
Hệ thống CRM (Customer relationship management): nơi quản lý thông tin quan
hệ khách hàng thuê bao
Ngoài ra còn rất nhiều hệ thống dữ liệu khác như hệ thống IN (Intelligent network)
xử lý điều khiển các cuộc gọi của thuê bao trả trước Prepaid, lưu trữ thông tin tàikhoản của thuê bao trả trước, các hệ thống VAS như SMSC (Short Message ServiceCenter), MCA (Miscall Alert System), CRBT (Colour Ringback Tone)…
Các hệ thống này đều có những hệ thống cơ sở dữ liệu riêng của mình, được tậptrung tại máy chủ cơ sở dữ liệu hoặc phân tán Các cơ sở dữ liệu này không thống nhấtcho một đối tượng quán lý (Ví dụ: thông tin thuê bao, khách hàng, dịch vụ…) thôngtin chồng chéo, không gắn kết thông tin giữa các nguồn dữ liệu, phức tạp cho quá trìnhkiểm soát thông tin từ tất cả các nguồn dữ liệu
Tiến trình ETL (Extraction, Transformation, and Loading) thực hiện trích xuất,làm sạch, chuẩn hóa theo thiết kế của mô hình kho dữ liệu và tập trung thành mộtnguồn dữ liệu thống nhất đẩy vào DWH
Trang 22Ngoài ra tầng trên còn nhằm mục đích khai phá những thông tin đang ẩn trongnguồn dữ liệu sẵn có của hệ thống.
2.3 Một số ứng dụng khai phá dữ liệu di động
Số lượng các thuê bao và các dịch vụ kèm theo đang ngày một gia tăng hầu hết cácgiao dịch, thao tác, hoạt động đều được lưu lại trong hệ thống cơ sở dữ liệu Từ đó,lượng dữ liệu thu thập và lưu trữ được về các hoạt động sản xuất kinh doanh cũng trởnên ngày càng khổng lồ Tiềm ẩn bên trong lượng dữ liệu này là những tri thức hết sứcquí báu về thị trường, khách hàng, sản phẩm…
Trong quá trình hoạt động sản xuất kinh doanh, các nhà quản lý thường xuyên phảiđưa ra các quyết định liên quan đến những sự việc sẽ xảy ra trong tương lai Để giúpcác quyết định này có độ tin cậy cao, giảm thiểu mức độ rủi ro, người ta cần đưa ra các
dự báo Vì vậy dự báo là hết sức quan trọng và cần thiết cho các doanh nghiệp, đặcbiệt là ngày nay các doanh nghiệp lại hoạt động trong môi trường của nền kinh tế thịtrường mà ở đó luôn diễn ra những sự cạnh tranh gay gắt giữa các doanh nghiệp vớinhau
Phân tích, khai thác dữ liệu sử dụng các thuật toán và mô hình toán học cho phépcác doanh nghiệp đưa ra các quyết định hiệu quả và kịp thời Dưới đây là một số ứngdụng áp dụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh mạng diđộng:
2.3.1 Phân tích và dự đoán nhu cầu sử dụng các sản phẩm, dịch vụ
Trong ngành công nghiệp viễn thông sản phẩm và dịch vụ có nguồn doanh thuchiếm tỷ lệ cao Bởi vậy thực hiện phân tích và dự đoán xu hướng, nhu cầu sử dụngsản phẩm dịch vụ là yêu cầu cần thiết cho quá trình kinh doanh các sản phẩm dịch vụ
Từ kho dữ liệu di động thực hiện khai phá có thể đưa ra được nhu cầu sử dụng cácsản phẩm, dịch vụ: tăng lên, giữ nguyên hay giảm sút Dữ liệu có thể được sử dụng
Trang 23như dữ liệu chi tiết cuộc gọi, dữ liệu mạng mô tả thành phần phần cứng và phần mềmtrong hệ thống mạng, dữ liệu thanh toán và doanh thu của doanh nghiệp, và dữ liệu vềcác khách hàng đang sử dụng dịch vụ viễn thông.
Một trong những nghiên cứu dự đoán nhu cầu sử dụng sản phẩm dịch vụ là sửdụng mạng neural và các quy tắc tập mờ để dự đoán theo thời gian, và kết quả thuđược so sánh với tập dữ liệu test bằng cách sử dụng hồi quy tuyến tính.[19]
2.3.2 Nhận dạng và dự đoán các biểu hiện gian lận
Nhận dạng các biểu hiện gian lận trong sử dụng dịch vụ viễn thông đang là mốiquan tâm lớn của các nhà cung cấp dịch vụ viễn thông Bất kỳ một hoạt động nào sửdụng dịch vụ viễn thông mà không trả tiền đều có thể được định nghĩa là gian lận viễnthông Việc gian lận trong viễn thông dẫn đến doanh thu nhà mạng giảm, gây bức xúctrong dư luận và ảnh hưởng đến niềm tin của khách hàng
Nhận dạng và dự đoán các biểu hiện gian lận trong sử dụng dịch vụ viễn thông tạicác tỉnh, thành phố thông qua dữ liệu quản lý khách hàng thuê bao, hồ sơ gian lận,thông tin sử dụng dịch vụ của khách hàng Sử dụng các thuật toán khai phá dữ liệutrong kho dữ liệu tìm độ lệch và dữ liệu bất thường nhằm xác định các đối tượng bịnghi ngờ là có gian lận và các khu vực có nhiều khả năng xảy ra gian lận Các thuậttoán thường được sử dụng để phát hiện gian lận trong viễn thông như các mô hìnhthống kê, Bayes, phân cụm, luật kết hợp, mạng neural, các mô hình Markov hay các
mô hình lai
Khai thác viễn thông đang bị gian lận dưới nhiều hình thức khác nhau Một trongnhững hình thức gian lận là tình trạng nợ xấu, tình trạng này xảy ra với thuê bao trảsau, khi khách hàng không thanh toán cước sử dụng dịch vụ và đơn phương chấm dứthợp đồng Nợ xấu dẫn đến tăng tài sản xấu, lợi nhuận không đúng với thực tế trong cáccông ty viễn thông Thuật toán phận cụm mạng neural Kohonen được áp dụng để dựđoán nợ xấu trong viễn thông.[20]
2.3.3 Phân tích dự đoán thuê bao rời mạng
Trong bối cảnh thị trường viễn thông đã đi vào giai đoạn bão hòa, việc phát triểnthuê bao mới ngày càng trở nên khó khăn Trong khi đó khách hàng có nhiều lựa chọn
và có quyền chuyển đổi nhà cung cấp dịch vụ Thuê bao rời mạng là hiện tượng phổbiến trong nghành công nghiệp viễn thông Trong thực tế, trung bình mỗi năm có tới30-50 phần trăm thuê bao rời mạng, và chi phí để phát triển một thuê bao mới lớn 5-10lần chi phí để giữ chân khách hàng Chính vì vậy, giữ chân khách hàng, giảm tỉ lệ thuêbao rời mạng là chiến lược kinh doanh quan trọng của các nhà cung cấp dịch vụ
Dữ liệu được sử dụng cho việc phân tích thuê bao rời mạng là tất cả các dữ liệudiễn ra trong thời gian thuê bao khách hàng còn hoạt động như: dữ liệu quản lý thôngtin khách hàng, hồ sơ khiếu nại, chi tiết sử dụng dịch vụ của khách hàng, cước thanh
Trang 24toán dịch vụ Các nghiên cứu liên quan đến dự đoán thuê bao rời mạng đã được đưa
ra tại chương 1(1.4)
2.3.4 Dự đoán nhu cầu tăng dung lượng đường truyền
Nâng cao chất lượng dịch vụ là yêu cầu quan trọng trong chăm sóc khách hàng,đảm bảo niềm tin, sự trung thành của khách hàng Cùng với sự gia tăng thuê bao vàcác sản phẩm dịch vụ thì đường truyền dữ liệu cũng cần gia tăng để đảm bảo chấtlượng dịch vụ
Từ thông tin về tình hình sử dụng dung lượng đường truyền của các thuê bao, cácthuật toán khai phá dữ liệu được sử dụng để dự đoán nhu cầu tăng dung lượng đườngtruyền của tại các tỉnh thành
Trang 25Chương 3 BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI
MẠNG 3.1 Phát biểu bài toán
Đầu vào:
-Dữ liệu quản lý khách hàng khách hàng thuê bao
-Dữ liệu chi tiết sử dụng dịch vụ của thuê bao
-Dữ liệu hóa đơn của thuê bao
-Dữ liệu khuyến mại của thuê bao
-Dữ liệu thuê bao rời mạng
-Dữ liệu thuê bao cần cần dự báo
Đầu ra: Đưa ra mô hình phân lớp dự báo, các chỉ số đánh giá mô hình, các luật rút
ra từ mô hình giúp đưa ra dự báo khách hàng có thể rời mạng
Ví dụ:
Đầu vào: Thông tin về khách hàng: Khách hàng đã hoạt động được 6 tháng, là thuêbao Postpaid, số cuộc gọi ngoại mạng trong tháng gần nhất tăng cao, số lượng cuộc gọinội mạng giảm dần, số lượng tin nhắn tháng gần nhất tăng 50% so với các tháng trước
Đầu ra: Dự đoán khách hàng có 60% khả năng rời mạng
3.2 Phân lớp dữ liệu thuê bao rời mạng
Học có giám sát là một nhánh của học máy có mục tiêu là thiết lập mô hình mô tảmối quan hệ giữa các dữ liệu huấn luyện nhằm đưa ra những ý tưởng có giá trị Cácthuật toán học máy được áp dụng vào dữ liệu thiết lập để xây dựng các học viên Đầuvào để phân lớp là tập hợp các thuộc tính ( , ) , ( , ) …( , ) Mỗi thộc tính x được biểudiễn dưới dạng vecto n chiều x=[ ] và lớp y {-1,+1}
thuộc trường hợp phân lớp nhị phân Trong dự đoán thuê bao rời mạng các thuộc tính
là thuê bao và các nhãn để phân lớp là “churn” và “non-churn” Hai thành phần đểthực hiện phân lớp là dữ liệu và các thuật toán Một tập dữ liệu huấn luyện là cần thiết
để xây dựng mô hình và ước tính các thông số để đưa ra các tập luật
Phần này đưa nền tảng lý thuyết cho việc phân lớp dữ liệu di động Đầu tiên, dữliệu mẫu được đưa vào để lựa chọn các thuộc tính thích hợp, các thuộc tính khôngthích hợp sẽ được loại bỏ Trong đó, dữ liệu mẫu được tổng hợp từ kho dữ liệu diđộng Sau khi lựa chọn, dữ liệu sẽ chỉ gồm các thuộc tính phù hợp nhất Tiếp đó, thuậttoán học máy sẽ được áp dụng cho dữ liệu này để thực hiện phân lớp Các thuật toán
Trang 26được áp dụng là cây quyết định C4.5, Nạve Bayes, Support Vector Machine và NeuralNetworks Việc thực hiện phân lớp được đánh giá bằng cách sử dụng tiêu chí đánh giá.
Hình 6 – Tiến trình phân lớp dữ liệu[15]
3.2.1 Dữ liệu
Dữ liệu là một trong hai thành phần của bài tốn phân lớp Truy cập kho dữ liệuthực hiện trích xuất và thu thập các dữ liệu cần thiết cho mơ hình “churn” Các thơngtin về khách hàng cần thiết cho dự đốn thuê bao rời mạng gồm: dữ liệu quản lý kháchhàng khách hàng thuê bao, dữ liệu chi tiết sử dụng dịch vụ của thuê bao, dữ liệu thanhtốn và khuyến mại của thuê bao, dữ liệu thuê bao rời mạng Từ các nguồn dữ liệukhác nhau, cơ sở dữ liệu thực hiện dự đốn thuê bao rời mạng được xây dựng với mụcđích thu thập dữ liệu
Dữ liệu thu thập được sau khi lọc và loại bỏ các thơng tin khơng chính xác, khơngcần thiết thì gồm các thơng tin:
Dữ liệu quản lý khách hàng: tuổi, giới tính, loại thuê bao, bưu cục thu,thời gianhoạt động
Dữ liệu sử dụng dịch vụ: số dịch vụ sử dụng, số cuộc gọi nội mạng, số cuộc gọingoại mạng, số cuộc gọi quốc tế, thời gian gọi nội mạng, thời gian gọi ngoại mạng,thời gian gọi quốc tế, số lượng SMS
Trang 27Dữ liệu thanh toán: tiền phát sinh gọi nội mạng, tiền phát sinh gọi ngoại mạng, tiềnphát sinh gọi quốc tế, tiền phát sinh SMS, tiền phát sinh Data, tổng số tiền phát sinh,
số tiền được khuyến mại, mức tiền thực phải thanh toán
Mô hình dưới đây thể hiện mối quan hệ của cơ sở dữ liệu dự đoán thuê bao rờimạng Trong đó các bảng call_detail, zone, promotion, bill_data là các bảng nguồn,các bảng cust_info, churn_list, cust_churn, cust_neighbor, call_zone, bill, charges_real
là các bảng đích, cuối cùng cust_file - một bảng view là trung tâm của cơ sở dữ liệunày Cust_file là bảng tạo ra bởi sự kết hợp của các bảng đích hình thành lược đồ hìnhsao xung quanh nó
Hình 7 - Mô hình quan hệ các bảng dữ liệuTrong đó:
-Bảng cust_info: là bảng mô tả tính năng đặc trung của khách hàng như: tuổitác, giới tính, nơi ở, nơi thanh toán, ngày hòa mạng…
-Bảng churn_list: là bảng danh sách các thuê bao rời mạng
-Bảng call_detail: là thông tin chi tiết các cuộc gọi
-Bảng zone: là bảng xác định mã vùng các cuộc gọi đi
-Bảng promotion: bảng lưu trữ thông tin khuyến mại của thuê bao
-Bảng bill_data: bảng lưu trữ thông tin cước các cuộc gọi và dịch vụ của khách hàng
-Bảng cust_churn: là bảng kết hợp giữa bảng cust_info và churn_list mô tả thông tin các khách hàng rời mạng
-Bảng call_zone: là bảng kết hợp giữa bảng call_detail và zone, đưa ra các vùng gọi đi của từng thuê bao
Trang 28-Bảng bill: là bảng kết hợp giữa bảng bill_data và promotion, đưa ra thôngtin hóa đơn sử dụng tất cả các dịch vụ của thuê bao đã được trừ đi khuyếnmại
-Bảng charges_real: là bảng lưu thông cước thực tế của thuê bao chưa trước khi trừ khuyến mại
“Churn” là một sự kiện quan hệ nhân quả do đó khi thực hiện chiết xuất dữ liệuphải nắm bắt được những thay đổi trong các đặc điểm và hành vi của khách hàng Vaitrò của một mô hình dự đoán là phát hiện những hành vi thay đổi đáng chú ý dẫn đếnrời mạng Để thực hiện phân loại cần hai giai đoạn, đầu tiên là giai đoạn phân tích, mà
từ giai đoạn này có thể đưa ra được những đặc trưng cho mỗi khách hàng Giai đoạncòn lại được sử dụng để dán nhãn phân biệt khách hàng rời mạng hoặc không rờimạng
Do đặc trưng của thuê bao trả sau là khách hàng thực hiện thanh toán vào đầutháng tiếp theo, nên thời gian được thiết lập để phân tích trong luận văn này là 3 tháng
và thời gian để quan sát là 1 tháng Tất cả khách hàng đang hoạt động vào đầu thángquan sát sẽ nằm trong tập dữ liệu huấn luyện Thời gian quan sát được sử dụng để ghinhãn khách hàng “churn” hoặc “non-churn” Những thuê bao rời mạng trong giai đoạnnày được dán nhãn là “churn” và những thuê bao không rời mạng sau giai đoạn nàyđược dán nhãn là “non-churn” Sau thời gian quan sát một khách hàng “non-churn” cóthể tiếp tục hoạt động và sử dụng dịch vụ hoặc sau đó trở thành “churn”
Hình 8 - Các giai đoạn của mô hình dự đoán thuê bao rời
mạng 3.2.2 Lựa chọn thuộc tính
Lựa chọn thuộc tính liên quan đến quá trình lựa chọn một tập con của các thuộctính liên quan từ một tập các thuộc tính ban đầu Lựa chọn thuộc tính làm giảm sốlượng các thuộc tính cho đầu vào các mô hình nhằm làm giảm chi phí thu thập dữ liệu
và chi phí tính toán Hơn nữa, nó không những mang lại kết quả chính xác hơn mà còn
nhỏ gọn và dễ hiểu hơn "Lựa chọn thuộc tính, như là một bước tiền xử lý cho quá
Trang 29trình học máy, rất hiệu quả trong việc giảm chiều, loại bỏ dữ liệu không phù hợp, tăng
độ chính xác, và cải thiện toàn diện kết quả" (Kira & Rendell, 1992) Lựa chọn thuộc
tính bao gồm các lựa chọn riêng lẻ hoặc nhóm nhỏ Lựa chọn thuộc tính riêng lẻ xếpcác thuộc tính riêng biệt theo một số liệu cụ thể mà lựa chọn nhóm có tính đến sựtương tác và mối tương quan giữa các thuộc tính
Trong bài toán phân lớp, lựa chọn thuộc tính nhằm mục đích chọn tập các thuộctính có khả năng phân biệt cao Nói cách khác là chọn tính thuộc tính có khả năngphân biệt các mẫu thuộc lớp khác nhau Do thông tin của nhãn là sẵn có nên sự phùhợp của các thộc tính được đánh giá cao
Lựa chọn thuộc tính chủ yếu ảnh hưởng đến giai đoạn đào tạo của bài toán phânlớp Sau khi tạo ra các thuộc tính, thay vì trực tiếp huấn luyện dữ liệu với toàn bộ cácthuộc tính, ta thực hiện lựa chọn tập các tính năng và sau đó huấn luyện dữ liệu với cáctính năng đã được chọn Các tính năng được chọn có thể là độc lập với các thuật toánhọc (như filter models) hoặc có thể lặp đi lặp lại sử dụng các thuật toán để đánh giáchất lượng các tính năng lựa chọn (như wrapper models) Các tính năng được lựa chọncuối cùng được sử dụng cho giai đoạn phân lớp và dự báo
Hình 9 - Lựa chọn thuộc tính trong phân lớp dữ liệu
Từ dữ liệu thu thập được và với thời gian phân tích là 3 tháng cho các thuê bao tôithu thập được 101 thuộc tính Chi tiết các thuộc tính này được mô tả tại phụ lục 1 củaluận văn Trong 101 thuộc tính này có 5 thuộc tính nằm trong dữ liệu quản lý kháchhàng, 62 thuộc tính của thông tin chi tiết sử dụng dịch vụ của thuê bao và 34 thuộc tínhthuộc dữ liệu hóa đơn và khuyến mại của thuê bao
Trang 30Số lượng thuộc tính
Info :5 Service:62 Bill&Promo:34
Hình 10 - Số lượng thuộc tính được thu thập
Từ các thuộc tính thu thập được ban đầu thực hiện lựa chọn và đánh giá từng thộctính, thực hiện loại bỏ các thuộc tính có độ chính xác thấp và các thuộc tính có tỉ lệ lỗicao bằng wrapper models
3.2.3 Cây quyết định C4.5
Cây quyết định là biểu đồ có cấu trúc dạng cây được giới thiệu lần đầu tiên bởiHunt và các cộng sự (Hunt, Marin, & Stone, 1966)
Hình 11 - Ví dụ về cây quyết địnhTrong đó gồm:
-Node gốc của cây: node trên cùng của cây, là một thuộc tính điều kiện Các nhánh từ node gốc tương ứng với các giá trị có thể của thuộc tính này
-Node trong: Mỗi node trong của cây cũng tương ứng với một thuộc tínhđiều kiện Một node trong của cây có thể coi như là node gốc của một câycon Mỗi node trong chỉ bao hàm những đối tượng dữ liệu thuộc một nhánh
cụ thể của node cha
Trang 31-Node lá: node cuối trong nhánh mà tất cả các đối tượng đều thuộc một lớphoặc không còn thuộc tính điều kiện nào để phân chia hoặc không còn đốitượng dữ liệu nào để phân chia.
Điều quan trọng của thuật toán cây quyết định là tiêu chí đánh giá để tìm điểmchia Ý tưởng chính trong việc đưa ra các tiêu chí này là làm sao cho các tập con đượcphân chia càng trở nên “trong suốt” (tất cả các bộ thuộc về cùng một nhãn) càng tốt.Quinlan đã phát triển thuật toán ID3 dùng độ đo thông tin thu thêm (Information Gain
- Gain) để xác định điểm chia tốt nhất Độ đo này dựa trên cơ sở lý thuyết thông tincủa Claude Shannon (1948) để đo tính thuần nhất (hay ngược lại là pha trộn) của mộttập hợp Độ đo này được xác như sau:
Entropy (S) = - ∑
(1.1)Trong đó m là số lượng các lớp khác nhau và là tỉ lệ các đối tượng mang nhãn i
Để xác định điểm chia, ID3 so sánh entropy của một node cha với tổng tỉ lệentropy của các node con sau khi phân chia, Gain(S, A) của thuộc tính A, trên tập S,được định nghĩa như sau:
và tiếp theo là C4 (Quinlan 1987) Năm 1993, J Ross Quinlan đã kế thừa các kết quả
đó phát triển thành C4.5 với 9000 dòng lệnh C Mặc dù đã có phiên bản phát triển từC4.5 là C5.0 - một hệ thống tạo ra lợi nhuận từ Rule Quest Research, nhưng nhiềutranh luận, nghiên cứu vẫn tập trung vào C4.5 vì mã nguồn của nó là sẵn dùng
Một số cải tiến của thuật toán C4.5 so với ID3:
-Sử dụng Gain Ratio (thay vì Information Gain) để chọn thuộc tính phân chia trong quá trình xây dựng cây
-Có thể xử lý tốt cả 2 loại dữ liệu rời rạc và liên tục
-Có thể xử lý dữ liệu không đầy đủ ( thiếu một số giá trị tại một số thuộc tính)
-Thực hiện cắt tỉa cây sau khi xây dựng: loại bỏ những nhánh cây không thực sự ý nghĩa