Quản lý thông tín thuê báo đi động nhằm nâng cao khả năng chăm sóc khách hảng, đua ra các chiến lược kinh doanh là việc không thế thiểu đối với các nhà cũng cập địch vụ mạng di động Ng
Trang 1
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYÊN THỊ NHƯ NGỌC
PHAN TICH DU LIEU THUE BAO DI DONG HUONG DEN DU
DOAN THUE BAO ROL MANG VLEN THONG
LUAN VAN THAC S¥ CONG NGHE THONG TIN
Hà Nội -2014
Trang 2
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYÊN THỊ NHƯ NGỌC
PHAN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƯỚNG ĐẾN DỰ
'ĐOÁN THUÊ BAO RỜI MẠNG VIÊN THÔNG
Ngành: Công nghệ thông tin
Chuyên ngành: Hệ thông thông tín
Mã số: 60480104
LUAN VAN THAC S¥ CONG NGHE THONG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: TS PHAN XUAN HIẾU
THả Nội -2014
Trang 3
Trước hết, tôi xin gửi lời cảm ơn sâu sắc nhất đền TS Phan Xuân Hiểu - Trường,
Đại hạc Công Nghệ - Dại học Quốc gia 1à Nội, người đã tận tình hướng đẫn, chỉ bảo
và định hướng cho tôi trong suốt quá trình thực hiện luận văn tốt nghiệp
‘Tdi xin cắm en Trường Dại học Công Nghệ - Dại học Quốc gia [la Nội vả các
thấy cô giáo đã giảng đạy tôi trong suết thời gian học tập tại trường, tạo điều kiện
giúp đỡ tôi hoàn thiện luận văn này, Xm cảm ơn gia đình, bạn bẻ, đồng nghiệp dễ luôn động viên giúp đỡ tôi trong thời gian học tập và hoàn thành luận vẫn
Trong quá trình nghiên cửu, thực hiện, mặc dù đã gố gắng, nỗ lực để hoàn thiên,
luận văn của tôi cũng không tránh khối những thiểu sót và bạn ché Kink mong nhận
được sự đóng gúp của thây cô và các bạn
Tôi xin chân thành cảm ơn!
Ha N61, tháng 10 năm 2014
Học viên
Nguyễn Thị Như Ngọc
Trang 4Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân
tôi, không sao chép lại của người khác Trong toàn bộ nội đung của luận văn, những,
điều đã trình bảy là của cả nhân tôi hoặc được tôi tổng hợp từ nhiều nguồn tài liệu Tắt
cá các nguồn tài liệu tham kháo cỏ xuất xử rõ ràng và dược trích dẫn hợp pháp, không,
cô việc sao chép tải liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài
liệu tham khảo
Tôi xin chủu toàn bộ trách nhiệm và mọi hình (hức kỷ luậi theo quy dịnh cho lời
cai doan của lôi
HÀ Nội, tháng 10 năm 2014
Tác giá
Nguyễn Thị Như Ngọc
Trang 5Chuang t TONG QUAN VE THUR BAO RỒI MẠNG
Ll _ Thị trường thông tin di động Việt Xam
12 Khái niệm “chum”
13 Phan foai chum”
LA Các nghiên cửaliễn quan
1.5 Mục tiêu va pham vi dé Hải
Chương2 KHAIPHA DU LIEU THUE BAO DI DONG
2.1 Lý thuyết khai phá đữ liên
2.1.1 Tại sao cần khai phá đữ liệu
2.1.2 Khái niệm khai phá đữ liệu
2.1.3 Các bải toán khai phá đử liệu điển hỉnh
2.2 Mô hình kho đữ liên di đông
3.3 Môt số ứng đụng khai phá đữ liệu di déng a
3.3.1 Phân tích và dự đoán nhu cầu sử dụng các sản phẩm, địch vụ
2.3.2 Nhân dạng và đự đoán các biểu hiện gian lân
2.3.3 Phân tích chy doin thuê bao rời ruạng
2.3.4 Dự đoán nhụ cầu tăng dụng lượng đường truyền
Chương 3 BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỒI MẠNG
3.1 Phát biển bài toán
Trang 64.1 Dirlién thie nghiém
4.2 Thực nghiệm
4.2.1, Phân lớp dữ liệu sử dụng cây quyết định C4/5 c
4.2.2 Phânlớp sử dụng thuật toán Naive Bayes
4.2.3 Phân lớp sử dụng thuật oán SVM
4.2.4, Phan 1ép sit dung thul loan Neural Networks
43, Đánh giá hiệu nẵng và ào che
Trang 7DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIET TAT
Bộ TT&TT BO Thông tín và truyền thông,
TT Tnternational Telecormrnumicalion Duion - Tổ chức
viễn thông quốc tế thuộc Liên hiệp quốc USD United States dollar Déng dé la M¥
VAS Dich vu gid br gia ting
Trang 8DANH MỤC HÌNH ẢNH
Hinh 1 - Tình hình phát triển thuê bao di động tại Việt Nam tính đến năm 2012
Hinh 2 - Doanh thu địch vụ đi động tại Việt am tính đến năm 2012
Hình 3 - Thị phần các nhà cang cắp địch vụ di động tại Việt Nam
Tĩnh 4 - Quá hình phát hiện iri thic trong CSDT
1ũnh 5 - Mô hình kho đữ liên di động
1ảnh 6 - Tiển trình phân lớp đữ liệu
Hình 7 - Mê hình quan hệ các bảng dữ liệu
Hình 8 - Các giai đoạn của mô hình dự đoán thuê bao rời mạng 14
Hình 12 - Nhiễu mặt phẳng phân tách dữ hiện - - cee BD
Hình 18 - Thực hiện phân lớp với thud todn Naive Bayes - a7
Hình 20 - Thực hiện phân lớp với thuật toán Neural Xetworks „40 Hinh 2l - Hiệu năng các thuật toàn với lớp thuê bao rồi mạng, Al
Trang 9DANH MUC BANG BLEU
Bang 1 - Ma trận nhằm lẫn "— TH nghe
Bảng 2 - Kết quả mồ hình phân lớp sử dụng Œ 4.5 với tỷ lệ mẫu khác nhau
Bảng 3 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu L/10
Bảng 4 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu L/2
Bang 5 - Bảng đánh giá hiện năng của C4.5 với tỷ lệ mẫu L/L
Tiảng 6 - Kết quả mô hình phân lớp sử đụng NE với tỷ lệ mẫu khác nhau
Rang 7 - Bằng đánh giá liệu năng của NB với lý lệ mẫu 1/10
Rang 8 - Băng đánh giá hiệu năng của NB với lý lệ mẫu 1⁄2
Rang 9 - Bằng đánh giá hiệu năng cia NB voi lý lệ mẫu 1/1
Bảng 10 - Kết quả mô hình phân lớp sử dụng SVM với t lệ mẫu khác nhau
Bảng L1 - Bảng đánh giá hiệu năng của 8VM với tỷ lệ mẫu 1/10
Bảng 12 - Bảng dảnh giả hiệu năng của 8VM với tỷ lệ mẫu 1⁄2
Bảng 13 - Bảng đảnh giá hiệu ning cia SVM vei ty lệ mẫu 1/2
Bằng 14- Kết quả mô hình phân lớp sit dung NN vai ti lệ mẫu khác nhau,
Bảng L5 - Bang dank giá hiệu ning ola NN voi tỷ lệ mẫu L/10
Bang 16 - Bảng dảnh giá hiệu năng của NN với tỷ lệ mẫu L⁄
Bảng L7 - Bảng dánh giả hiệu năng của NN với tỷ lệ mẫu
Bang 18 - Bảng dánh giả hiệu năng với đữ liệu test của mỏ hình phân lớp C4.5
Bảng 19 - Bảng đánh giả hiệu năng với đữ liệu test cúa mô hình phân lớp Naive Bayes 42 Bảng 20 - Bang dinh giả hiệu năng với đữ liêu tcst cúa mỏ hình phân lớp SVM .42 Bảng 21 - Bảng đánh giá hiệu năng với đữ liêu test của mỏ hình phân lớp NN 42
Trang 10MỞ ĐẦU
Tịch vụ thông tin di động ngày cảng phát triển ruạnh nnế, trổ thành một phân tab
Nam Với sự ra đời của hàng khai cáo nhà
yếu trong cuộc sống của mỗn người dân V
cung cấp địch vụ mạng điện thoa đi động Quản lý thông tín thuê báo đi động nhằm
nâng cao khả năng chăm sóc khách hảng, đua ra các chiến lược kinh doanh là việc không thế thiểu đối với các nhà cũng cập địch vụ mạng di động
Ngày nay “kho dữ liệu” đã trỏ thành một khái niệm quen thuộc đổi với các doanh:
nghiệp, “kho dữ liệu” hỗ trợ doanh nghiệp ra quyết định cho các hoạt động, tăng sự tập
tung vào khách bàng nbuy phân tích các mô bình khách bàng, ao sánh hiệu suất doanh:
số bán bàng theo quý, theo năm, và theo vùng địa lý để điều c
phân tích hoại đồng và tìm kiếm nguồn lợi nhuận, quần lý các mối quan hệ khách
hàng, điểu chỉnh môi trường và quân lý chỉ phí tài sân của công ly Xây dựng kho đít liệu thuê bao đi động là hướng đi đúng đẳn nhằm nâng cao năng lực cạnh tranh và chấm sóc khách hàng của eác nhà mạng đi động
Trong bôi cảnh thị truờng viễn thông đã đi vào giai đoạn bão hòa, khách bằng ngây
cảng, đòi hỏi cao hắt lượng và dịch vụ Hơn nữa khách hang có nhiều lựa chọn vả
có quyền chuyển đổi nhá cung cấp dịch vụ, kết quả là khách hang réi mang tăng lên
một cách nhanh chóng, Đối mặt với thách thức này, cáo nhà cung cấp địch vụ viễn
thông cần phải đưa ra những hoạch định chiến lược để giữ chân khách hàng,
Các yến tổ quan trong để giữ chân khách hàng là dự đoán khách hang rời mạng và
chiến hrợc phòng chống khách hàng rời mạng hiệu quả Hưởng nghiên cửu của tôi là
từ kho đữ liệu đi động thục hiện khai thác, phân tích nhằm phát hiện các hành vi rời mạng của thuế bao và đự đoán thuê bao rời mạng cho đẻ tải luận văn của mình Luận
văn được xây dựng, dựa theo lý thuyết khai phá dữ liệu được các nhà khoa hợc nghiên
cứu đồng thời tôi xin trinh bay quan điểm riêng ctia minh về việc áp dụng khai phá dữ
liệu trong phát hiện hành vị và dự đoán thuê bao rời mạng,
Dữ liệu dược sử dụng trong luận văn là dữ lidu “anonymous”, chi mang tính chất
nghiên cứu và không tiết lộ bất cứ thông tu của tổ chức hay cá nhân nao
Luận văn được chia thành cáo chương như sau:
Chương 1: Trinh bày tống quan thuế bao rời mạng viễn thông, khái miệm thuê bao
rời mạng, phân biệt các hình thức rời mạng của thuê bao vả sự cần thiết của việc dự
đoán thuê bao rời mạng
Chương 2: Trinh bảy về lý thuyết khai phá dữ liệu di động, Các ứng dụng khai phá
đữ liệu dị động như: Dự đoán xu hướng phát Iriển của các sẵn phẩun và dịch vụ, thận đụng và dự đoán giam lận, dự đoán như cầu lăng dung lượng dường truyền
Chương 3: Trình bày vẻ bài toán phân lớp đữ liệu mê bao rời mạng, đâu vào và dầu ra của bài toán Đưa ra mô hình kho dữ liệu đi động và mỏ hình phân lớp đữ liệu
thuê bao rời mạng Dữ liệu được trích xuất từ kho dữ liệu di động và các thuật toán
Trang 11phân lớp là hai thành phân chính của bài toán phân lớp Trong luận văn sẽ sử dụng các
thuật toán cây quyết định C4.5, Naive Bayes, SVM va Neural Networks dé phân lớp
dự đoán thuê bao rời mạng viễn thông
Chương 4: Thực nghiệm bài toán phản lớp đữ liệu di động với dữ liệu cụ thể Dánh
giá kết quá đạt được với các mô hình phân lớp,
Trang 12Chương 1 TÔNG QUAN VỀ THUÊ BAO RỜI MẠNG
Thị phần và khách hàng là hai yếu tổ hối sức quan trọng, quyết định sự thành công cửa oie nhà cùng cấp địch vụ mạng di động Trong hối cảnh Ihị tường viễn thông đã
đã vào giai đoạn bão hòa, việc phái triển thuê bao mới ngày cảng trở nên khó khăm
Trong khi đó khách hàng ngày càng có nhiều cơ hội hra chọn dich vu va it bi ring buộc bài nhà cung cấp dịch vụ liiện tượng khách hàng chuyên đổi qua lại giữa các nhà cung cấp ngảy cảng tăng, hiện tượng thuê bao ngưng sử đụng trên mạng ngày
cảng nhiều cho thầy khách hàng hiện nay không còn trung thành với nhà mạng như thị
trường độc quyền trước đây Chính vì vậy việc giữ chân khách bảng, giảm tỉ lệ thuê
tao rời mạng là chiến lược kinh doanh quan trọng để giữ vững thị phần của các nhà
cung cấp địch vụ
1.1.Thị trường thông tin đi động Việt Nam
Đã hơn 20 năm, kế từ khi McbiFone - mạng di đông đầu tiền của Việt Nam chính thức đi vào hoạt động Ở thời điểm đỏ, thông tin di động còn lá khái niệm xa lạ với đa
số người tiếu dùng, số lượng thuê bao cúa mạng đi động nảy không nhiều do ving phú sóng hạn chế và giả cước cũng như thiết bị dầu cuối còn dat Điện thoại di động rất khan hiểm, giá thành mỗi chiếc máy khoảng 1.000 USD Ngoài việc khan hiểm may, tiên thuê bao và cước cuộc gọi cũng rất dắt, phí hòa mạng 200 USD/thuê bao, thuê bao
tháng khoảng 30 USD, cước cuộc gọi cho nội hạt TP Hồ Chí Minh hoặc Hà Nội là 0,3 Ư§D/ phút Riêng với các cuộc gọi liên tỉnh, mức cước phí là 0.3 USD/ phút ! cước liên tỉnh
Sự bùng nễ của thị trưởng thông tin di động Việt Nam chí thực sự diễn ra trong,
10 năm trở lại đây, khi Viettel chính thức bước chân váo thị trường di động năm 2004
Theo thông kê, giá cước di đông Việt Nam trong vòng 10 năm qua đã giảm hon 3 lan
Cuộc cạnh tranh nóng bỏng trên thị trường di động đã dua Việt Nam từ nước có giá
cước thuộc hàng cao trên thẻ giới đã trở thành nước có mức cước thuộc hàng rẻ nhất thế giới Theo bảo cáo của Bộ TT&TT, tính hết nim 2012, tổng số thuê bao di động
trên toàn quốc là 131.673.724 và tỉ lệ thuê baa/100 đân là 148,339 Mới đầy, ITU đã
xếp Việt Nam đứng vị trí thứ 8 trên thế giới về mật độ thuê bao di động và được đánh giá như một điểm sảng của viễn thông thể giới
Trang 13
$ố thuê bau điện thuại di động (28 38) $ố thuê bau tiện thuại di dong/100 dan
nền
Tso amg EM MÔ 3EU Năm Hình 1 - Tình hình phát triển thuê bao di động tại Việt Nam tính đến năm 2012[4]
Củng với sự phát triển của thuê bao di động, doanh thu từ mạng viễn thông cũng
tăng lên đáng kẻ Tỉnh đến hết năm 2012 doanh thu địch vụ di động trên cả nước là
6.472,30 triệu USD
Doanh thu dich vụ di động
Hình 2 - Doanh thu dịch vụ di động tại Việt Nam tỉnh đến năm 20124]
Tuy nhiên, cuộc chạy đua cạnh tranh giữa các doanh nghiệp trong nước cũng bộc
lộ nhiều điểm hạn chẻ Điều đỏ được mình chứng rất rõ ràng thông qua công cụ cạnh tranh chủ yêu của các doanh nghiệp chỉ là giảm gia va khuyên mãi Đẻ thu hút thuê
bao mới, các mạng di động phải đua nhau khuyến mãi liên tục các tháng trong năm
Tuy nhiên sau khi kết thúc mỗi đợt khuyên mãi, số thuê bao sử dụng hết tài khoản lập tức rời mạng, tam ngưng hoặc chuyên sang mạng khác tăng lên rõ rệt, số thuê bao rời mạng nhiêu hơn số thuê bao mới gia nhập, lượng thuê bao hoạt động tăng giảm bất thường, doanh thu không tăng theo sỏ thuê bao tăng trưởng Đây lả kiểu cạnh tranh
ngược với xu thể hội nhập của ngành thông tin di động Việt nam Xét ở góc độ quản lý
vĩ mô cho thây thực trạng trên thẻ hiện một thị trường tiêu cực và lãng phi tài nguyên
của ngành
Theo quy định của Bộ Bưu chính-Viên thông thì các nhà cung cấp cỏ thị phan khống chế (trên 30%) thi gia cước do chính phủ quyết định, trong khi các nha cung cap dịch vụ nhỏ như S-fone, Vietnamobile và Gmobile có thị phần nhỏ được phép tự quyết định giá cước Tuy giả cước là lợi thế cạnh tranh, nhưng chất lượng dịch vụ của các doanh nghiệp này lại không đảm bảo do đầu tư không theo kịp tốc độ tăng trưởng thuê bao hay han che về vùng phủ sóng Ngược lai, mạng di động Mobifone va
Trang 14Vinaphone cỏ chất lượng dịch vụ ồn định hon do có quả trình đầu tư và bê dây kinh nghiệm nhưng giả cước vả cách tính cước còn bị không chế nẻn không hấp dẫn khách hàng Hiện tượng khách hàng chạy theo các đợt khuyên mại của các mạng cũng trở nên phô biên đặc biệt lả khách hảng giới trẻ hiện nay thể hiện qua số
động thực tăng giảm giữa các kỳ khuyến mãi và không khuyến mãi (Phát triển thực = phát triển mới ~ ngưng sử dụng)
lk me»
Hình 3 - Thị phân các nhả cung cập dịch vụ di động tại Việt Nam[4]
Do vậy, để thị trường di động Việt nam phát triển một cách tích cực vả bẻn vững, chiến lược của các nhả cung cap dịch vụ di đông hiện nay là phải tìm cách duy trì
khách hàng hiện có bằng cách nâng cao mức đô trung thảnh và giá trị khách hàng Một
khi thị trường đã trở nên cạnh tranh quyết liệt như hiện nay thi chiến lược phỏng thủ
để duy trì khách hàng hiện cỏ còn quan trọng hơn so với chiến lược công kích nhằm
mở rộng quy mô toàn bộ thị trường bằng việc gia nhập của các khách hàng tiêm ning
[Fornell, 1992; Ahmad & Buttle, 2002]
1.2 Khai niém “churn”
Đặc điểm của thị trường viên thông những năm qua 1a bién đôi nhanh chỏng, tự do
hóa thị trưởng, cải tiễn kỹ thuật, độ bão hỏa và cạnh tranh khỏe liệt Khách hảng cỏ
nhiều sự lựa chọn giữa các nhả khai thác dì động, họ cỏ thẻ chuyển đổi giữa các nhà khai thác mả không có bắt kỳ khỏ khăn nảo và không ngừng tim kiếm nhà mạng cỏ dịch vụ tốt hơn với chi phí thấp,
“Chưm” là một thuật ngữ được sử dụng trong viễn thông vả nhiều ngành công
nghiệp khác nó đề cập đến quyết định di chuyển từ một nhả cung cấp dịch vụ này đến một nhả cung cấp dịch vụ khác của khách hảng “Chum” có nguồn góc từ change (sự thay doi) va turn (chiều hướng) “Chư” xảy ra bởi nhiều lý do khác nhau như không,
hài lòng với các dịch vụ hay các hóa đơn cao hoặc khách hàng thường nhận được ưu
đãi hap dân khi đăng ky với một nhà cung cap dich vu di động mới Khi khách hang rời mạng cũng ảnh hưởng đến những người quen của họ trong củng một mạng, điều
này làm gia tăng khả năng rời mạng của các thuê bao nảy Nếu coi việc rời mạng là
một hiện tượng thì việc rời mạng là sự kết hợp của thỏi quen sử dụng của người ding
và của những hoạt động của người xung quanh Tỷ lệ “churn” trung binh trong một nha cung cấp dịch vụ di động là khoảng 2% mỗi tháng (Berson, Smith, và Thearling,
Trang 152000) Ty 1é rời mạng hàng năm ở Châu Âu là 25%, My 37% va Chau A 48%
(Mattersion, 2001)
Việc mất khách hàng đồng nghĩa với việc mật doanh thu trong tương lai và mắt chi phí đầu tư để có lại những khách hàng nảy Trong khi đó, tìm kiểm khách hang mới trở nên khỏ khăn hơn bao giờ hết do sự cạnh tranh khốc liệt vả độ bão hỏa của thị
trưởng thông tin di động, Chỉ phí được khách hàng mới là cao hơn đảng kế sơ với việc
giữ khách hàng hiện tại Trong thục tế, chi phi dé phat triển một thuê bao mới lớn 5-10
nhiễu cơ hội hơn trong việc giữ chân khách hàng thành công, Dự đoán khi nào khách
hang sé “chưn” giúp tăng đoanh thu và tiết kiệm được nguồn lực cho nhà mạng,
1.3 Phân loại “churn”
ne chia Ja 3 nhữm chính:
Có nhiều lý do dẫn đến việc rời mạng của thuê bao, cỏ í
-_ Thuê bạo bị buộc rời khối mạng bởi rhhà cung cấp dịch vụ: Các nhà mạng, chủ động cất hủy địch vụ của khách hàng bởi nhiều lý do khác nhau nhự khách hàng nợ cước, gian lận, tạm đừng sử dụng dich vu trong théi gian dai
-_ Nhằm chủ động rời khối mạng và chuyến sang một nhà cung cấp dich vu
khác: Lý do việc rời mạng có thể lả: không hài lòng với chất lượng, địch, chỉ phi quả cao, giá cả không cạnh tranh, không có những khuyến mại cho khách bảng trung thành, không có hiểu biết về các chương trình dich vy,
dịch vụ hỗ trợ khách hàng không tối, các lý do riêng bự
~_ Nhóm khách hàng rời mạng bất ngờ và không có mục dich chuyển sang nhà
cung cấp dịch vụ khác Lý đo có thể là: khách hàng có thể phải đo di chuyến đến vùng địa lý khác nơi không có mặt của nhà cung cập, hay đo tỉnh hình
tài chính dẫn đến không có khả năng thanh toán
Thân biệt nhóm khách hàng chủ động rời mạng và nhóm khách hàng rời mạng bắt
ngờ là một vấn đê khó Tuy nhiên, nhóm khách hàng rời mang bat ngờ chỉ thuộc một
phân nhỏ se với nhóm khách hàng chủ động rời mạng,
“Chư” cũng có thể được chúa thành 3 nhóm
“Chum” hoàn toàn: Khách hang húy tất cả các địch vụ và thanh lý hợp đẳng,
- “Chư” ấm: Hợp đồng của khách bảng không được hủy bổ, rung các
khách bàng không chủ đồng sử dụng địch vụ đã một thời gian đại
- “Chum” mét phan: Hop déng khéng duoc hay bỏ, nhưng các khách hang
không sử dụng dịch vụ đây đủ và chỉ sử dụng các bộ phận của nó
Trang 16Tuy thuộc vào từng nhà mạng, hợp đồng địch vụ và mô hình kinh doanh được áp đụng cho khach hang “chum” 4n hoặc một phân có thể đẫn đên giảm doanh thu và cần
có những hành đẳng thiết thực dẫn đến không mắt khách hàng hoàn toàn
Một điều quan trọng nữa trong phân loại “churn” Ja phân loại khách hàng tiém nang Déi với khách hàng tiểm năng, bộ phận tiếp thị của công ty có thể đưa ra chiến lược tiếp thị dễ giữ chân những khách hang tiém năng này
1.4.Các nghiên cứu liền quan
Trên thế giới đã có rất nhiều nghiên cứu về mỗ hình du đoán “churn” trong vién
dữ liệu khiếu nại từ các thuê bao.|12]
- Neural Network (NN) củng với cây quyết định và Support Vector Machine
(SVM) duoc sit dung để xây dựng một mô hình lai dé du đoán thuê bao rời mạng trong viễn thông, [L3]
-_ Xây dựng mô hình lai sử dụng Logistie regression vả Voted perceptron để
dự đoán thuê bao rời mạng trong viên thông [14]
1.8.Mục liêu và phạm vi dé tai
Mục tiêu của để tài
Từ kho đũ liệu đi động xác định các thuê bao rời mạng, thực hiện phân tích các
hoạt động, hành vi trước khi rời mạng, của các thuê bao bằng các phương pháp khai phá dữ liệu nhằm phát hiện những yếu tổ liên quan đến việc rời mạng của thuê bao, Từ đây thực hiện phân tich các thuê bao đang hoạt động nhằm phân lớp vá dự đoán các thuê bao rời mạng vién thông Nguồn đữ liệu phân tích duge bal nguồn từ chỉ tiết sử
đụng dịch vụ, hỗ sơ khách hàng và các thông tín liên quan
Pham vi dé (ải
'Việc xây dựng kho đữ liệu thuê bao đi động với nhiêu nguồn đữ liệu khác nhau là
một quả trình lâu dai và phức tạp, trong phạm vi luận văn sẽ không đề cập đến việc
xây dụng kho đữ liệu di động mả hướng đến phân tích và khai phá dữ liệu đi động đưa
ra dự đoán những thuê bao có khá năng chủ động rời mạng viễn thông Cách phần tích
đỡ liệu dối với thuê bao trả trước và trả sau có sự khác biệt lớn (hầu hết khách hàng trả
trước rời mạng một khoảng thời gian đài trước khi nhà mạng nhận ra là khách hàng đã
rời mang) bởi vậy trong luận văn này chỉ thực hiện phân tích đữ liệu đối với thuê bao
Trang 17trả sau Đổi tượng thục hiện phân tích là nhóm khách hảng chủ động rời khỏi mạng và
chuyến sang một nhà cung câp địch vụ khác
Trang 18Chương 2 KHAI PHÁ DỮ LIỆU THUÊ BẢO DI ĐỘNG
Thai phá dữ liệu là một Tĩnh vục liên ngành có liên quan đến việc khai thác các : sn
ông cụ để tìm kiểm cáo mô hình có ý nghĩa và cung cấp Iri thức hỗ Hợ ra quyết
định từ đữ liêu thô Nó giúp cho doanh nghiệp xác nhận được các giả thuyết hoặc tìm
ra những điển chưa được biết đến trong đữ liệu, cung cấp cho doanh nghiệp cái nhìn sâu sắc có giá trị va lợi thể cạnh tranh Quá trinh khai thác đữ liệu đòi hỏi phải có sự
hợp tác của các lĩnh vực như: hệ thông cơ sở dữ liệu, kho dữ liệu, học máy, thông kê Luận vẫn nảy tập trung vào phân phân tích khai thác dữ liệu, làm thé nao ap dung
được học máy để dự đoán thuê bao rời mạng,
2.1 Lý thuyết khai phá dữ liệu
2.1.1 Tại sao cẦn khai phá đữ liệu
Ngày nay công nghề thông tin dang có mặt ở tất cả các lĩnh vực, cùng với đó là
các dữ liệu lưu ưữ không ngừng lăng lên Tiểm an bên trong lượng dữ liệu nảy là
những trí thức hết sức quý báu giúp ích cho các hoạt động sản xuất kinh đoanh của con
người
Theo Fayyad và công sự, việc nghiên cứu, phát triển lĩnh vực khai phá dữ liệu và
phát hiện trí thức trong cơ sở đữ liệu(Knowledge Diseovery and Data Mining: KDD)
nhằm giải quyết tình trạng, “ngập trần thông tin mà thiếu thốn trì thức”
3.1.2 Khái niệm khai phá dữ liệu
Phat hiện trí thức trong cơ sở đữ là lnh vực nghiên cứu và triển khai được phát
triển nhưmh chóng, có phạm vì rộng lớn, được nhiều nhóm nghiên cứu tại nhiều trường,
đại học, viện nghiên cứu, cổng ty có phần ở nhiều quắc gia trên thê giới quan tâm Hỏi
ậy tên tại nhiều cách tiếp cần khác nhau đối với việc phát hiện trì thức trong cơ sở dir
liệu, cùng với đó cng có nhiên thuật ngữ khác nhau roang cửng nghĩa với KDD như chiét lec ti thitc(kmowledge extraction), phat hién théng tin (information harvesting),
khai thác dữ liệu(data archaeology), xit ly mau dit ligu(data/parttemn analysis)
ví
Khải niệm 1: Phat hign tri tute trong cơ sử đữ liệu là quá trình không tâm
thưởng nhận ra những mẫu có giá trị mới, hữu ích tiềm năng và hiểu được trong đữ lên
'Trong khái niệm ï chúng ta coi KD là một quả trình gồm nhiều bước thực hiện
trong đỏ khai phá đữ liệu là một bước thực hiện chính yếu
Thái niệm 3:(Frawlcy, Piatolski-Shapiro và Mathous) : Khai phá để liệu là một bute trong quá trình phát hiện trí thúc trong cơ sở đữ liệu, thí lành một thuật toán khai phá dữ liệu dé tìm ra các mẫu từ dữ liệu theo khuôn dạng thích hợp|1]
Trang 19Khai phá dữ liệu là một bước trong bảy bước của quả trình KDD và KDD được xem như 7 quả trình khác nhau theo thứ tự sau:
- Lam sạch dữ liệu (đaLa clearing & preproessing): loại bỏ nhiễu và các dữ
liêu không cân thiết
-_ Tích hợp đứ liệu (đata imegration): quá trình hợp nhất đứ liệu thành những,
kho dif ligu (data warehouses & đata marts) sau khi đã làm sạch vả tiền xử
ly (datacleaning & preprocessing)
- ‘Trich chon dit ligu (data selection): trich chon dit ligu tis nhfing kho dit ligu
và sau đó chuyển dối về đạng thích hợp cho quá trình khai thác trí thức Quá trinh naybao gém cả việc xử lý với đữ liệu nhiễu (noisy data), dữ liêu không
day di(incomplete data), v.v
~_ Chuyến đối đữ liệu các đũ liệu được chuyển đối sang các dạng phù hợp cho quá trình xứ lý
-_ Khai phá dữ liệu (đata mining): là một trong các bước quan trọng nhất, trong,
đó sử đụng những phương pháp thông minh để chắt lọc ra những mẫu đữ
De liều Oud trink phát hiển trí thức trang OSDL
Hình 4 - Qua trình phát hiện tri thite trong CSDL[1]
3.1.3 Các bài toán khai phá đữ liệu điển hinh
Mã tả khai nigm (concept description): 1a bai toán tìm đặc trưng và tỉnh chất
của khải miệm Bài toàn thiên về mô 1a, tổng hợp và tóm tất khái niệm Vĩ đụ: lớm tắL
van ban
TLuat kết hop (associ
don gién Vi du: “60 % nam gi
m rules): l dạng luật biểu điển trì thức ö dạng khá vào siêu thị nẫn mua bia thì có tới 80% trong sẻ bọ sẽ
Trang 20
mua thêm thịt hò khổ” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính đoanh,
y hoe, tin-sinh, tài chính & thị trường chứng khoán, v.v
Phân lớp và dự doán (classification & prediction): xếp một đói tượng vào
một trong những lớp đã biết trước Ví đụ: phân lớp vùng địa lý theo đữ liệu thời tiết
Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine leaming như cây quyết định (đecision tree), mạng nơ ron nhân tao (neural network), v.v Người ta còn gọi phân lớp là học có giám sát (học có thấy),
Phan cum (clustering): xép cac déi trong theo timg cụm (số lượng cũng nhu tên) của cụm chưa được biết trước Người ta cỏn gọi phân cum là học không giám sát
(học không thấy)
Hồi quy {regression ): là bài toán điển hình trong phân tích thông kế và dự báo
Trong khai phá đữ liệu, bài toán hồi quy được quy về việc học một hàm ánh xạ đữ liệu
nhằm xác định một giá trị thực của một biển theo biển số khác Phân tích hỗi quy sẽ xác định được định lượng quan hệ giữa các biển, và quảng bó giá trị một biến phụ thuộc vào giả trị của những biến khác Phương pháp hỏi quy khác với phân lớp dự liệu
là hồi quy dùng dễ đự đoán những giá trị liên lục, còn phân lớp đữ liệu là dự doán các
giả UU1 TỜI rạc
Khai pha chudi (sequential/temporal patterns): tuong tu nhu Khai pha luật kết hợp nhưng có thêm tính thứ tự vẻ tính thời gian Hưởng tiếp cận này dược ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoản vì nó có tính dự báo
cao
Ngoài ra côn có một số bài toán khai phá để liệu thống kế khác
2.2 Mô hình kho dữ liệu di động
'Mõ hình kho đứ liệu thuê bao đi động gồm 3 lớp:
Tang dưới cùng: là lớp thực hiện khai thác làm sạch chuẩn hóa và lập trung đữ liệu
từ các nguồn đữ liêu tống đài, cước và thông tin khách hàng
Tẳng giữa: sử dụng kiến trúc Relational OLAP sever lưu trữ đữ liệu đưới dang cơ
sở đữ liệu quan hệ thực hiện phân tích dữ liệu theo nhiều khía cạnh khác nhau
Tẳng trên cùng: sử dụng các công cụ thực hiện truy vẫn bảo cáo, phân tích và khai
thắc dữ liệu.
Trang 21
Hình Š - Mơ hinh kho đữ liệu di động
2.2.1 Tầng dưới
Nguồn dữ liệu thơng tin thuê bao đi động được tập trung từ rất nhiều các hệ thống,
khác nhau trong đĩ cĩ các hệ thơng cơ bản sau:
Hệ thống HLR (Home Location Register): là nơi quan lý lưu trữ tỉnh trạng thué bao
Hệ thống Billing: nơi quản lý và lưu trữ thơng tin cước của thuê bao
Hệ thống CRM (Customer relationship management): noi quan ly théng tin quan
hé khach hang thué bao
Ngồi ra cịn rất nhiều hệ thơng dữ liệu khác như hệ thơng TN (Intelligent network)
xử lý điểu khiển các cuộc gọi của thuê bao trả trước Prepaid, lưu trữ thơng tin tài
khộn của thuê bao trả trước, các hệ thơng VAS như SMSC (Short Message Service
Center), MCA (Miscall Alert System), CRBT (Colour Ringback Tone)
Các hệ thống nay đều cỏ những hệ thống cơ sở dữ liệu riêng của mình, được tập
trung tại máy chủ cơ sở dữ liệu hoặc phân tán Các cơ sở đữ liệu nảy khơng thơng nhật
cho một đối tượng quản lý (Ví dụ: thơng tin thuê bao, khách hàng, dịch vụ ) thơng tin chồng chéo, khơng gắn kết thơng tin giữa các nguồn dữ liêu, phức tạp cho quá trình kiểm sốt thơng tin từ tất cả các nguồn dữ liệu
Tien trinh ETL (Extraction, Transformation, and Loading) thực hiện trích xuất, làm sạch, chuẩn hĩa theo thiết kế của mơ hình kho dữ liệu vả tập trung thảnh một
nguồn dữ liệu thơng nhất đây vào DWH
Trang 222,2.2 TẦng giữa
Sa dung kién tie Relational OLAP sever luu uti dũ liệu dưới đạng cơ sở dữ liệu
quan hệ mặc đủ có hiệu suất chậm hơn kién true Multidimensional OLAP nhung nd bai
có những ưu đăng kế như: có thể được truy nhập bởi bái kỳ công cụ báo cáo SỌI,
nào, có khả năng mồ rộng hơn trong sử lý khỏi lượng lớn đữ liệu
chủ để
Trên cơ sở các đặc thủ nghiệp vụ và các nguồn dữ liệu sẵn có xây dựng
thuê bạn, lưu lượng, doanh (hu, dich vu trong kho đữ liệu thuê bao
2.2.3 Tầng trên
Giểm các báo cáo nghiệp vụ được xây dụng theo tháng, quý và năm đưới dang số
liệu chỉ tiết và tông hop Dữ liệu được phân tích và thể hiện dưới dạng biểu đổ giúp người dùng thấy rõ xu hưởng phát triển thuê bao vẻ dịch vụ
Ngoài ra tầng trên còn nhằm mục địch khai phá những thông tin đang 4n trong
nguồn đữ liệu sẵn có cúa hệ thẳng
2.3 Một số ứng dụng khai phá dữ liệu di động
Số lượng các thuê bao và các địch vụ kèm theo dang ngày một gia tăng hấu hết các giao dich, thao tac, hoạt động đều được lưu lại trong lệ thống cơ sở đữ liệu Từ đó, lượng đữ liệu thu thập vả lưu trữ được về các hoạt động sản xuất kinh doanh cũng trở
ả những trị thức hết sức
niên ngảy càng khổng lẻ Tiềm ân bên trong lượng dữ liệu nảy
qui báu về thị tường, khách hảng, sắn phẩm
‘lrong quả trình hoạt động sắn xuất kinh doanh, các nhà quấn lý thường xuyên phải đưa ra các quyết định liên quan đến những sự việc sẽ xảy ra trong tương lai Dễ giúp cáo quyết định này có độ tin cây cao, giảm thiểu mức độ rủi ro, người ta cần dưa
ra các dự bảo Vì vậy dự báo là hết
te quan lrọng và cầu thiết cho các doanh nghiệp, đặc biệt là ngày ray các đoanh nghiệp lại hoại động ương tôi trường của nên kinh tế thị trường mà ở đó luôn diễn ra những sự cạnh tranh gay gắt giữa các đoanh nghiệp
với nhau
hân tích, kbai thác đũ liệu sử dụng các thuật toán và mô hình toàn học cho phép
các doanh nghiệp đưa ra các quyết định hiệu quả và kịp thời Dưới đây lá một số ủng
dụng áp dựng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh mang di động:
2.3.1 Phân tích và dự đuản như cầu sử dụng các sắn phẩm, dịch vụ
Trong ngành công nghiệp viễn thông sản phẩm và địch vụ có nguằn doanh thui chiếm ty 16 cao Bai vay thực hiện phân tích và dự đoán xu hướng, nhu câu sử đựng,
sản phẩm dịch vụ là yêu cầu cần thiết cho quá trình linh doanh các sản phẩm địch vụ 'Từ kho đỡ liệu di dộng thực hiện khai pha có thể dựa ra dược nh cầu sử dụng các san phẩm, dịch vụ: tăng lên, giữ nguyên hay giảm sút Dữ liệu có thể dược sử dụng
Trang 23như đữ liệu chỉ tiết cuộc gọi, đứ liệu mạng mô tả thành phan phân cứng và phần mềm trong hệ thông nang, đữ liệu thanh toán và đoanh thu của doanh nghiệp, và đứ liệu về
các khách bàng đang sử dụng địch vụ viễn thông
Một trong những nghiên cứu đự đoán nhu cầu sử đụng sản phẩm địch vụ là sử dụng mạng ngural và các quy tắc tập mở để dự đoản theo thời gian, và kết quả thu dược so sánh với tập đữ liệu test bằng cách sử dụng hỏi quy tuyển tỉnh | 19|
2.3.2 Nhận dạng và dự đoán các biểu hiện gian lậu
hận đạng các biếu hiện gian lận trang sử dụng địch vụ viễn thang đang là mỗi quan tâm lớn của các nhà cưng cấp địch vụ viễn thông Bắt kỳ một hoạt động nào sử
dụng dịch vụ viễn thông mà không trả tiên đều có thể được định nghĩa là gian lận viễn thông Việc gian lận trong viễn thông din đến doanh thu nhà mạng giảm, gây bức xúc trong du luận vả ảnh hướng, đến niềm tia của khách hàng,
Nhận đạng và dự doán các biểu hiện gian lận trong sử dụng dịch vụ viễn thông tại cáo lĩnh, thành phố thông qua đữ liệu quần lý khách hàng thuê bao, hỗ sơ gian lận, thông In sử đụng địch vụ của khách hàng Sử dụng các thuật toán khai phá đữ liệu trong kho dit ligu tim độ lệch và đữ liệu bắt thường nhằm xác định cáo đổi tượng bị nghi ngờ là có gian lận và các khu vục có nhiều khả năng xảy ra gian lận Các thuật
toán thường được sử dụng để phát hiện gian lận trong viễn thông như các mô hình thống kẻ, Bayes, phân cụm, luệt kết hợp, mạng neural, các mỗ hình Markov hay các
xmô hình lai
hai thác viễn thông dang bị gian lân đưới nhiều hình thức khác nhau Một trong những hình thức gian lận là tỉnh Irạng nợ xấu, tình trạng này xây m với thuê bao a sau, khi khách hàng không thanh toắn cước sử đụng địch vụ và đơn phương chấm đứt
hợp đồng Nợ xâu dẫn đến tăng tài sản xâu, lợi nhuận không đứng với thực tế trong các
công ty viễn thâng Thuật toán phận cụm mạng neural Kohonen được áp dụng đề dự
đoán nợ xâu trong viễn thông [20]
3.3.3 Phân tích dự đoán thuê bao rời mạng
Trong bối cảnh thị trường viễn thông đã đi vào giai đoạn bão hòa, việc phải triển
ó khăn Trong khi đó khả
tp địch vụ Thuê bao rời mạng là hiện Lượng phố biển trong nghành công nghiệp viễn thóng Trang thực tế, trung bình mỗi năm cá tới 30-40 phan trăm thuê bao rời mạng, và chỉ phí để phát triển một thuê bao mới lớn 5-10 lân chỉ phi đề giữ chân khách hàng Chính vì vậy, giữ chân khách hàng, giảm tỉ lệ thuê bao rời mạng lả chiến lược kinh doanh quan trọng của các nha cung cấp dịch vụ
Trang 24toán địch vụ Các nghiên cứn liên quan đến dự đoán thuê bao rời mạng đã được đưa
ra tại chương 1(1.4)
2.3.4 Dự đoán nhu cầu tăng dung lượng đường truyền
Nang cao chất lượng dịch vụ là yêu cầu quan trọng trong chăm sóc khách hàng,
Từ thông lín về tỉnh hình sử dụng đụng lượng dường truyền của các thuê bao, các thuật toán khai phá đữ liệu dược sử dựng để dự đoán nhủ câu tầng đụng lượng dường,
truyền của tại các tỉnh thành.
Trang 25Chuong 3 BAL TOAN PHAN LOP DU LIEU THUE BAO ROL
MANG
3.1 Phat biéu bai toan
Dau vao:
- Dit ligu quan ly khach hang khach hang thué bao
-_ Dữ liệu chỉ tiết sử đựng địch vụ của thuê bao
-_ Dữ liệu héa đơn của thuê bao
-_ Dữ liệu khuyến mại của thuê bao
-_ Dữ liệu thuê bao rời mạng
- Dit ligu thud bao cin can du bao
Dầu ra: Dưa ra mồ hinh phân lớp dự báo, các chí sẻ đánh giá mô hinh, các luật rút
ra từ mô hình giúp đưa ra dự báo khách hàng co thé roi mang
Đầu ra: Dự đoán khách hang co 60% khả nắng rời mạng,
3.2 Phân lớp dữ liệu thuê bao rời mạng
Học có giảm sót là một nhánh của học máy có mục tiêu lả thiết lập mô hình mô tả
mỗi quan hệ giữa các dữ liệu huân luyện nhằm đưa ra những ý tưởng có giá trị Các thuật toán học máy dược áp dụng vào dữ liêu tết lập dé xây dung các học viên Đầu vào đề phân lớp là tập hợp các thuộc tính (x1 y1), (x2,y2) (x".y"), Mỗi thộc tính x
€ R4 duge biểu diễn đưới dạng veelo n chiêu x [X:,X; Xe] và lớp y © {141}
thuộc trường hợp phản lớp nhị phân Trong dự đoán thuê bao rời mạng các thuộc tính
là thuê bao vá cáo nhãn để phân lớp la “chum” va “non-chuny”
thực hiện phân lớp là dữ liệu và các thuật toán Một lặp dữ liệu huấn luy
để xây dung mé hinh va ude tinh các thông số đễ đưa ra các tập luật
này đưa nên táng lý thuyết cho việc phân lớp dữ liệu di động Đâu tiên, dữ
liệu mẫu được đưa vào để lựa chọn các thuộc tính thích hợp, các thuộc tỉnh không
thích hợp sẽ dược loại bỏ Trong dó, dữ liệu mẫu dược tổng hợp từ kho dữ liệu di đông Sau khi lựa chọn, dữ liệu sẽ chỉ gồm các thuộc tính phủ hợp nhật Tiếp đỏ, thuật
toán học máy sẽ được áp dụng cho đữ liệu này để thục hiện phân lớp Các thuật toán
Trang 26được áp dụng là cây quyết định C4.5, Naive Bayes, Support Vector Machine va Neural
Networks Việc thực hiện phân lớp được đánh giá bằng cách sử dụng tiêu chí đánh giá
Learning Algorithm
Dữ liệu lả một trong hai thành phan cua bai toán phân lớp Truy cập kho dữ liệu
thực hiện trích xuất vả thu thập các dữ liệu cần thiết cho mô hinh “chum” Cac théng tin về khách bàng cân thiết cho dự đoán thuê bao rời mạng gồm: dữ liệu quản lý khách hàng khách hàng thuê bao, dữ liệu chỉ tiết sử dụng dịch vụ của thuê bao, dữ liệu thanh toán và khuyến mại của thuê bao, dữ liệu thuê bao rời mạng Từ các nguồn đữ liệu
khác nhau, cơ sở dữ liệu thực hiện dự đoán thuê bao rời mạng được xây dựng với mục dich thu thập dữ liệu
Dữ liệu thu thập được sau khi lọc và loại bỏ các thông tin không chính xác, không
cân thiết thi gồm các thông tin:
Dữ liệu quản lý khách hàng: tuổi, giới tỉnh, loại thuê bao, bưu cục thu,thời gian
Trang 27Dữ liệu thanh toán: tiên phát sinh gợi nội mạng, tiên phát sinh gọi ngoại mạng,
tiễn phát sinh gọi quác tế, tién phát sinh SMS, tiền phát sinh Data, tổng số tiền phát sinh, số tiên được khuyến mại, mức tiên thực phải thanh toán
Mô hình đưởi đây thể biên mối quan hệ của cơ sở đữ liệu đự đoán thuê bao rời mang Trong đó các bảng call đetail, zone, premetien, bill đata lả các bảng nguồn,
các bảng cust info, chum list, cust churn, cust neighbor, call zone, bill,
charges real la cac bang dich, cudi cig cust file - mét bang view lá trung tâm của cơ
sở dữ liệu này Cust ñile là bảng tạo ra bởi sự kết hợp của các báng đích hình thành
lược đỗ hình sao xung quanh nó
- Bang churn list: là băng danh sách các thuê bao rời mạng
- Hàng call đetail: là thông tín chỉ tiết các cuộc gọi
- Bang zone: 14 bang xác định mã vùng các cuộc gọi đi
- Bang promotion: bang hưu trữ thông tin khuyến mại của thuê bao
- Bing bill_data: bảng lưu trữ thông tỉa cước các cuộc gọi và dịch vụ của khách hàng,
- Đảng cuai chan: là bang kết hop gitta bang cust_info va churn_list nd ta
thông tản các khách làng rời mạng
- Bang call zone: la bang két hợp giữa bảng call detail và zone, đưa ra các
vũng gọi đi của từng thuê bao