1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích dữ liệu thuê bao di động hướng đến dự báo thuê bao rời mạng viễn thông

55 10 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 55
Dung lượng 1,6 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Luận văn được xây dựng dựa theo lý thuyết khai phá dữ liệu được các nhà khoa học nghiên cứu đồng thời tôi xin trình bày quan điểm riêng của mình về việc áp dụng khai phá dữ liệu trong ph

Trang 1

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ NHƯ NGỌC

PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƯỚNG ĐẾN DỰ

ĐOÁN THUÊ BAO RỜI MẠNG VIỄN THÔNG

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

Hà Nội -2014

Trang 2

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGUYỄN THỊ NHƯ NGỌC

PHÂN TÍCH DỮ LIỆU THUÊ BAO DI ĐỘNG HƯỚNG ĐẾN DỰ

ĐOÁN THUÊ BAO RỜI MẠNG VIỄN THÔNG

Ngành: Công nghệ thông tin

Chuyên ngành: Hệ thống thông tin

Mã số: 60480104

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC: TS PHAN XUÂN HIẾU

Hà Nội -2014

Trang 3

Trước hết, tôi xin gửi lời cảm ơn sâu sắc nhất đến TS Phan Xuân Hiếu - Trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội, người đã tận tình hướng dẫn, chỉ bảo

và định hướng cho tôi trong suốt quá trình thực hiện luận văn tốt nghiệp

Tôi xin cảm ơn Trường Đại học Công Nghệ - Đại học Quốc gia Hà Nội và các thầy cô giáo đã giảng dạy tôi trong suốt thời gian học tập tại trường, tạo điều kiện giúp đỡ tôi hoàn thiện luận văn này Xin cảm ơn gia đình, bạn bè, đồng nghiệp đã luôn động viên giúp đỡ tôi trong thời gian học tập và hoàn thành luận văn

Trong quá trình nghiên cứu, thực hiện, mặc dù đã cố gắng, nỗ lực để hoàn thiện, luận văn của tôi cũng không tránh khỏi những thiếu sót và hạn chế Kính mong nhận được sự đóng góp của thầy cô và các bạn

Tôi xin chân thành cảm ơn!

Hà Nội, tháng 10 năm 2014

Học viên Nguyễn Thị Như Ngọc

Trang 4

Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân tôi, không sao chép lại của người khác Trong toàn bộ nội dung của luận văn, những điều đã trình bày là của cá nhân tôi hoặc được tôi tổng hợp từ nhiều nguồn tài liệu Tất

cả các nguồn tài liệu tham khảo có xuất xứ rõ ràng và được trích dẫn hợp pháp, không

có việc sao chép tài liệu, công trình nghiên cứu của người khác mà không chỉ rõ về tài liệu tham khảo

Tôi xin chịu toàn bộ trách nhiệm và mọi hình thức kỷ luật theo quy định cho lời cam đoan của tôi

Hà Nội, tháng 10 năm 2014

Tác giả

Nguyễn Thị Như Ngọc

Trang 5

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT 3

DANH MỤC HÌNH ẢNH 4

DANH MỤC BẢNG BIỂU 5

MỞ ĐẦU 6

Chương 1 TỔNG QUAN VỀ THUÊ BAO RỜI MẠNG 8

1.1 Thị trường thơng tin di động Việt Nam 8

1.2 Khái niệm “churn” 10

1.3 Phân loại “churn” 11

1.4 Các nghiên cứu liên quan 12

1.5 Mục tiêu và phạm vi đề tài 12

Chương 2 KHAI PHÁ DỮ LIỆU THUÊ BAO DI ĐỘNG 14

2.1 Lý thuyết khai phá dữ liệu 14

2.1.1 Tại sao cần khai phá dữ liệu 14

2.1.2 Khái niệm khai phá dữ liệu 14

2.1.3 Các bài tốn khai phá dữ liệu điển hình 15

2.2 Mơ hình kho dữ liệu di động 16

2.2.1 Tầng dưới 17

2.2.2 Tầng giữa 18

2.2.3 Tầng trên 18

2.3 Một số ứng dụng khai phá dữ liệu di động 18

2.3.1 Phân tích và dự đốn nhu cầu sử dụng các sản phẩm, dịch vụ 18

2.3.2 Nhận dạng và dự đốn các biểu hiện gian lận 19

2.3.3 Phân tích dự đốn thuê bao rời mạng 19

2.3.4 Dự đốn nhu cầu tăng dung lượng đường truyền 20

Chương 3 BÀI TỐN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI MẠNG 21

3.1 Phát biểu bài tốn 21

3.2 Phân lớp dữ liệu thuê bao rời mạng 21

3.2.1 Dữ liệu 22

3.2.2 Lựa chọn thuộc tính 24

3.2.3 Cây quyết định C4.5 26

3.2.4 Nạve Bayes 28

3.2.5 Support Vector Machines 29

3.2.6 Neural Networks 30

Trang 6

3.2.7 Mơ hình đánh giá hiệu năng 32

Chương 4 THỰC NGHIỆM VÀ ĐÁNH GIÁ 34

4.1 Dữ liệu thực nghiệm 34

4.2 Thực nghiệm 36

4.2.1 Phân lớp dữ liệu sử dụng cây quyết định C4.5 36

4.2.2 Phân lớp sử dụng thuật tốn Nạve Bayes 37

4.2.3 Phân lớp sử dụng thuật tốn SVM 38

4.2.4 Phân lớp sử dụng thuật tốn Neural Networks 39

4.3 Đánh giá hiệu năng 41

KẾT LUẬN 43

TÀI LIỆU THAM KHẢO 44

PHỤ LỤC 1 46

PHỤ LỤC 2 51

Trang 7

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT

Bộ TT&TT Bộ Thông tin và truyền thông

ITU International Telecommunication Union - Tổ chức

viễn thông quốc tế thuộc Liên hiệp quốc USD United States dollar – Đồng đô la Mỹ

OLAP Online Analytical Processing

VAS Dịch vụ giá trị gia tăng

Trang 8

DANH MỤC HÌNH ẢNH

Hình 1 - Tình hình phát triển thuê bao di động tại Việt Nam tính đến năm 2012 9

Hình 2 - Doanh thu dịch vụ di động tại Việt Nam tính đến năm 2012 9

Hình 3 - Thị phần các nhà cung cấp dịch vụ di động tại Việt Nam 10

Hình 4 - Quá trình phát hiện tri thức trong CSDL 15

Hình 5 - Mơ hình kho dữ liệu di động 17

Hình 6 - Tiến trình phân lớp dữ liệu 22

Hình 7 - Mơ hình quan hệ các bảng dữ liệu 23

Hình 8 - Các giai đoạn của mơ hình dự đốn thuê bao rời mạng 24

Hình 9 - Lựa chọn thuộc tính trong phân lớp dữ liệu 25

Hình 10 - Số lượng thuộc tính được thu thập 26

Hình 11 - Ví dụ về cây quyết định 26

Hình 12 - Nhiều mặt phẳng phân tách dữ liệu 29

Hình 13 - Siêu mặt phẳng phân tách 30

Hình 14 - Mạng nơ-ron truyền thẳng nhiều lớp 31

Hình 15 - Mạng nơ- ron hồi quy 31

Hình 16 - Dữ liệu thực nghiệm 35

Hình 17 - Dữ liệu rời rạc 35

Hình 18 - Thực hiện phân lớp với thuật tốn Nạve Bayes 37

Hình 19 - Thực hiện phân lớp với thuật tốn SVM 38

Hình 20 - Thực hiện phân lớp với thuật tốn Neural Networks 40

Hình 21 - Hiệu năng các thuật tốn với lớp thuê bao rời mạng 41

Trang 9

DANH MỤC BẢNG BIỂU

Bảng 1 - Ma trận nhầm lẫn 33

Bảng 2 - Kết quả mơ hình phân lớp sử dụng C 4.5 với tỷ lệ mẫu khác nhau 36

Bảng 3 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/10 36

Bảng 4 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/2 36

Bảng 5 - Bảng đánh giá hiệu năng của C4.5 với tỷ lệ mẫu 1/1 37

Bảng 6 - Kết quả mơ hình phân lớp sử dụng NB với tỷ lệ mẫu khác nhau 37

Bảng 7 - Bảng đánh giá hiệu năng của NB với tỷ lệ mẫu 1/10 38

Bảng 8 - Bảng đánh giá hiệu năng của NB với tỷ lệ mẫu 1/2 38

Bảng 9 - Bảng đánh giá hiệu năng của NB với tỷ lệ mẫu 1/1 38

Bảng 10 - Kết quả mơ hình phân lớp sử dụng SVM với tỉ lệ mẫu khác nhau 39

Bảng 11 - Bảng đánh giá hiệu năng của SVM với tỷ lệ mẫu 1/10 39

Bảng 12 - Bảng đánh giá hiệu năng của SVM với tỷ lệ mẫu 1/2 39

Bảng 13 - Bảng đánh giá hiệu năng của SVM với tỷ lệ mẫu 1/2 39

Bảng 14 - Kết quả mơ hình phân lớp sử dụng NN với tỉ lệ mẫu khác nhau 40

Bảng 15 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/10 40

Bảng 16 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/2 40

Bảng 17 - Bảng đánh giá hiệu năng của NN với tỷ lệ mẫu 1/1 41

Bảng 18 - Bảng đánh giá hiệu năng với dữ liệu test của mơ hình phân lớp C4.5 42

Bảng 19 - Bảng đánh giá hiệu năng với dữ liệu test của mơ hình phân lớp Nạve Bayes 42

Bảng 20 - Bảng đánh giá hiệu năng với dữ liệu test của mơ hình phân lớp SVM 42

Bảng 21 - Bảng đánh giá hiệu năng với dữ liệu test của mơ hình phân lớp NN 42

Trang 10

MỞ ĐẦU

Dịch vụ thông tin di động ngày càng phát triển mạnh mẽ, trở thành một phần tất yếu trong cuộc sống của mỗi người dân Việt Nam Với sự ra đời của hàng loạt các nhà cung cấp dịch vụ mạng điện thoại di động Quản lý thông tin thuê bao di động nhằm nâng cao khả năng chăm sóc khách hàng, đưa ra các chiến lược kinh doanh là việc không thể thiếu đối với các nhà cung cấp dịch vụ mạng di động

Ngày nay “kho dữ liệu” đã trở thành một khái niệm quen thuộc đối với các doanh nghiệp, “kho dữ liệu” hỗ trợ doanh nghiệp ra quyết định cho các hoạt động tăng sự tập trung vào khách hàng như phân tích các mô hình khách hàng, so sánh hiệu suất doanh

số bán hàng theo quý, theo năm, và theo vùng địa lý để điều chỉnh chiến lược sản xuất, phân tích hoạt động và tìm kiếm nguồn lợi nhuận, quản lý các mối quan hệ khách hàng, điều chỉnh môi trường và quản lý chi phí tài sản của công ty Xây dựng kho dữ liệu thuê bao di động là hướng đi đúng đắn nhằm nâng cao năng lực cạnh tranh và chăm sóc khách hàng của các nhà mạng di động

Trong bối cảnh thị trường viễn thông đã đi vào giai đoạn bão hòa, khách hàng ngày càng đòi hỏi cao về chất lượng và dịch vụ Hơn nữa khách hàng có nhiều lựa chọn và

có quyền chuyển đổi nhà cung cấp dịch vụ, kết quả là khách hàng rời mạng tăng lên một cách nhanh chóng Đối mặt với thách thức này, các nhà cung cấp dịch vụ viễn thông cần phải đưa ra những hoạch định chiến lược để giữ chân khách hàng

Các yếu tố quan trọng để giữ chân khách hàng là dự đoán khách hàng rời mạng và chiến lược phòng chống khách hàng rời mạng hiệu quả Hướng nghiên cứu của tôi là

từ kho dữ liệu di động thực hiện khai thác, phân tích nhằm phát hiện các hành vi rời mạng của thuê bao và dự đoán thuê bao rời mạng cho đề tài luận văn của mình Luận văn được xây dựng dựa theo lý thuyết khai phá dữ liệu được các nhà khoa học nghiên cứu đồng thời tôi xin trình bày quan điểm riêng của mình về việc áp dụng khai phá dữ liệu trong phát hiện hành vi và dự đoán thuê bao rời mạng

Dữ liệu được sử dụng trong luận văn là dữ liệu “anonymous”, chỉ mang tính chất nghiên cứu và không tiết lộ bất cứ thông tin của tổ chức hay cá nhân nào

Luận văn được chia thành các chương như sau:

Chương 1: Trình bày tổng quan thuê bao rời mạng viễn thông, khái niệm thuê bao rời mạng, phân biệt các hình thức rời mạng của thuê bao và sự cần thiết của việc dự đoán thuê bao rời mạng

Chương 2: Trình bày về lý thuyết khai phá dữ liệu di động Các ứng dụng khai phá

dữ liệu di động như: Dự đoán xu hướng phát triển của các sản phẩm và dịch vụ, nhận dạng và dự đoán gian lận, dự đoán nhu cầu tăng dung lượng đường truyền

Chương 3: Trình bày về bài toán phân lớp dữ liệu thuê bao rời mạng, đầu vào và dầu ra của bài toán Đưa ra mô hình kho dữ liệu di động và mô hình phân lớp dữ liệu thuê bao rời mạng Dữ liệu được trích xuất từ kho dữ liệu di động và các thuật toán

Trang 11

phân lớp là hai thành phần chính của bài tốn phân lớp Trong luận văn sẽ sử dụng các thuật tốn cây quyết định C4.5, Nạve Bayes, SVM và Neural Networks để phân lớp

dự đốn thuê bao rời mạng viễn thơng

Chương 4: Thực nghiệm bài tốn phân lớp dữ liệu di động với dữ liệu cụ thể Đánh giá kết quả đạt được với các mơ hình phân lớp

Trang 12

Chương 1 TỔNG QUAN VỀ THUÊ BAO RỜI MẠNG

Thị phần và khách hàng là hai yếu tố hết sức quan trọng, quyết định sự thành công của các nhà cung cấp dịch vụ mạng di động Trong bối cảnh thị trường viễn thông đã

đi vào giai đoạn bão hòa, việc phát triển thuê bao mới ngày càng trở nên khó khăn Trong khi đó khách hàng ngày càng có nhiều cơ hội lưa chọn dịch vụ và ít bị rằng buộc bởi nhà cung cấp dịch vụ Hiện tượng khách hàng chuyển đổi qua lại giữa các nhà cung cấp ngày càng tăng, hiện tượng thuê bao ngưng sử dụng trên mạng ngày càng nhiều cho thấy khách hàng hiện nay không còn trung thành với nhà mạng như thị trường độc quyền trước đây Chính vì vậy việc giữ chân khách hàng, giảm tỉ lệ thuê bao rời mạng là chiến lược kinh doanh quan trọng để giữ vững thị phần của các nhà cung cấp dịch vụ

1.1 Thị trường thông tin di động Việt Nam

Đã hơn 20 năm, kể từ khi MobiFone - mạng di động đầu tiên của Việt Nam chính thức đi vào hoạt động Ở thời điểm đó, thông tin di động còn là khái niệm xa lạ với đa

số người tiêu dùng, số lượng thuê bao của mạng di động này không nhiều do vùng phủ sóng hạn chế và giá cước cũng như thiết bị đầu cuối còn đắt Điện thoại di động rất khan hiếm, giá thành mỗi chiếc máy khoảng 1.000 USD Ngoài việc khan hiếm máy, tiền thuê bao và cước cuộc gọi cũng rất đắt, phí hòa mạng 200 USD/thuê bao, thuê bao tháng khoảng 30 USD, cước cuộc gọi cho nội hạt TP Hồ Chí Minh hoặc Hà Nội là 0,3 USD/ phút Riêng với các cuộc gọi liên tỉnh, mức cước phí là 0,3 USD/ phút + cước liên tỉnh

Sự bùng nổ của thị trường thông tin di động Việt Nam chỉ thực sự diễn ra trong

10 năm trở lại đây, khi Viettel chính thức bước chân vào thị trường di động năm 2004 Theo thống kê, giá cước di động Việt Nam trong vòng 10 năm qua đã giảm hơn 3 lần Cuộc cạnh tranh nóng bỏng trên thị trường di động đã đưa Việt Nam từ nước có giá cước thuộc hàng cao trên thế giới đã trở thành nước có mức cước thuộc hàng rẻ nhất thế giới Theo báo cáo của Bộ TT&TT, tính hết năm 2012, tổng số thuê bao di động trên toàn quốc là 131.673.724 và tỉ lệ thuê bao/100 dân là 148,33% Mới đây, ITU đã xếp Việt Nam đứng vị trí thứ 8 trên thế giới về mật độ thuê bao di động và được đánh giá như một điểm sáng của viễn thông thế giới

Trang 13

Hình 1 - Tình hình phát triển thuê bao di động tại Việt Nam tính đến năm 2012[4]Cùng với sự phát triển của thuê bao di động, doanh thu từ mạng viễn thông cũng tăng lên đáng kể Tính đến hết năm 2012 doanh thu dịch vụ di động trên cả nước là 6.472,30 triệu USD

Hình 2 - Doanh thu dịch vụ di động tại Việt Nam tính đến năm 2012[4]

Tuy nhiên, cuộc chạy đua cạnh tranh giữa các doanh nghiệp trong nước cũng bộc

lộ nhiều điểm hạn chế Điều đó được minh chứng rất rõ ràng thông qua công cụ cạnh tranh chủ yếu của các doanh nghiệp chỉ là giảm giá và khuyến mãi Để thu hút thuê bao mới, các mạng di động phải đua nhau khuyến mãi liên tục các tháng trong năm Tuy nhiên sau khi kết thúc mỗi đợt khuyến mãi, số thuê bao sử dụng hết tài khoản lập tức rời mạng, tạm ngưng hoặc chuyển sang mạng khác tăng lên rõ rệt, số thuê bao rời mạng nhiều hơn số thuê bao mới gia nhập, lượng thuê bao hoạt động tăng giảm bất thường, doanh thu không tăng theo số thuê bao tăng trưởng Đây là kiểu cạnh tranh ngược với xu thế hội nhập của ngành thông tin di động Việt nam Xét ở góc độ quản lý

vĩ mô cho thấy thực trạng trên thể hiện một thị trường tiêu cực và lãng phí tài nguyên của ngành

Theo quy định của Bộ Bưu chính-Viễn thông thì các nhà cung cấp có thị phần khống chế (trên 30%) thì giá cước do chính phủ quyết định, trong khi các nhà cung cấp dịch vụ nhỏ như S-fone, Vietnamobile và Gmobile có thị phần nhỏ được phép tự quyết định giá cước Tuy giá cước là lợi thế cạnh tranh, nhưng chất lượng dịch vụ của các doanh nghiệp này lại không đảm bảo do đầu tư không theo kịp tốc độ tăng trưởng thuê bao hay hạn chế về vùng phủ sóng Ngược lại, mạng di động Mobifone và

Trang 14

Vinaphone có chất lượng dịch vụ ổn định hơn do có quá trình đầu tư và bề dày kinh nghiệm nhưng giá cước và cách tính cước còn bị khống chế nên không hấp dẫn khách hàng Hiện tượng khách hàng chạy theo các đợt khuyến mại của các mạng cũng trở nên phổ biến đặc biệt là khách hàng giới trẻ hiện nay thể hiện qua số liệu thuê bao hoạt động thực tăng giảm giữa các kỳ khuyến mãi và không khuyến mãi (Phát triển thực = phát triển mới – ngưng sử dụng)

Hình 3 - Thị phần các nhà cung cấp dịch vụ di động tại Việt Nam[4]

Do vậy, để thị trường di động Việt nam phát triển một cách tích cực và bền vững, chiến lược của các nhà cung cấp dịch vụ di động hiện nay là phải tìm cách duy trì khách hàng hiện có bằng cách nâng cao mức độ trung thành và giá trị khách hàng Một khi thị trường đã trở nên cạnh tranh quyết liệt như hiện nay thì chiến lược phòng thủ

để duy trì khách hàng hiện có còn quan trọng hơn so với chiến lược công kích nhằm

mở rộng quy mô toàn bộ thị trường bằng việc gia nhập của các khách hàng tiềm năng [Fornell, 1992; Ahmad & Buttle, 2002]

1.2 Khái niệm “churn”

Đặc điểm của thị trường viễn thông những năm qua là biến đổi nhanh chóng, tự do hóa thị trường, cải tiến kỹ thuật, độ bão hòa và cạnh tranh khốc liệt Khách hàng có nhiều sự lựa chọn giữa các nhà khai thác di động, họ có thể chuyển đổi giữa các nhà khai thác mà không có bất kỳ khó khăn nào và không ngừng tìm kiếm nhà mạng có dịch vụ tốt hơn với chi phí thấp

“Churn” là một thuật ngữ được sử dụng trong viễn thông và nhiều ngành công nghiệp khác nó đề cập đến quyết định di chuyển từ một nhà cung cấp dịch vụ này đến một nhà cung cấp dịch vụ khác của khách hàng “Churn” có nguồn gốc từ change (sự thay đổi) và turn (chiều hướng) “Churn” xảy ra bởi nhiều lý do khác nhau như không hài lòng với các dịch vụ hay các hóa đơn cao hoặc khách hàng thường nhận được ưu đãi hấp dẫn khi đăng ký với một nhà cung cấp dịch vụ di động mới Khi khách hàng rời mạng cũng ảnh hưởng đến những người quen của họ trong cùng một mạng, điều này làm gia tăng khả năng rời mạng của các thuê bao này Nếu coi việc rời mạng là một hiện tượng thì việc rời mạng là sự kết hợp của thói quen sử dụng của người dùng

và của những hoạt động của người xung quanh Tỷ lệ “churn” trung bình trong một nhà cung cấp dịch vụ di động là khoảng 2% mỗi tháng (Berson, Smith, và Thearling,

Trang 15

2000) Tỷ lệ rời mạng hàng năm ở Châu Âu là 25%, Mỹ 37% và Châu Á 48% (Mattersion, 2001)

Việc mất khách hàng đồng nghĩa với việc mất doanh thu trong tương lai và mất chi phí đầu tư để có lại những khách hàng này Trong khi đó, tìm kiếm khách hàng mới trở nên khó khăn hơn bao giờ hết do sự cạnh tranh khốc liệt và độ bão hòa của thị trường thông tin di động Chi phí được khách hàng mới là cao hơn đáng kể so với việc giữ khách hàng hiện tại Trong thực tế, chi phí để phát triển một thuê bao mới lớn 5-10 lần chi phí để giữ chân khách hàng Đối mặt với thách thức này, các nhà khai thác cần phải tập trung vào việc làm thế nào để ngăn chặn khách hàng rời mạng Biết trước khi nào khách hàng rời mạng sẽ cho phép nhà quản lý có chiến lược phòng tránh, và có nhiều cơ hội hơn trong việc giữ chân khách hàng thành công Dự đoán khi nào khách hàng sẽ “churn” giúp tăng doanh thu và tiết kiệm được nguồn lực cho nhà mạng

1.3 Phân loại “churn”

Có nhiều lý do dẫn đến việc rời mạng của thuê bao, có thể chia là 3 nhóm chính:

- Thuê bao bị buộc rời khỏi mạng bởi nhà cung cấp dịch vụ: Các nhà mạng chủ động cắt hủy dịch vụ của khách hàng bởi nhiều lý do khác nhau như khách hàng nợ cước, gian lận, tạm dừng sử dụng dịch vụ trong thời gian dài…

- Nhóm chủ động rời khỏi mạng và chuyển sang một nhà cung cấp dịch vụ khác: Lý do việc rời mạng có thể là: không hài lòng với chất lượng dịch, chi phí quá cao, giá cả không cạnh tranh, không có những khuyến mại cho khách hàng trung thành, không có hiểu biết về các chương trình dịch vụ, dịch vụ hỗ trợ khách hàng không tốt, các lý do riêng tư …

- Nhóm khách hàng rời mạng bất ngờ và không có mục đích chuyển sang nhà cung cấp dịch vụ khác Lý do có thể là: khách hàng có thể phải do di chuyển đến vùng địa lý khác nơi không có mặt của nhà cung cấp, hay do tình hình tài chính dẫn đến không có khả năng thanh toán

Phân biệt nhóm khách hàng chủ động rời mạng và nhóm khách hàng rời mạng bất ngờ là một vấn đề khó Tuy nhiên, nhóm khách hàng rời mạng bất ngờ chỉ thuộc một phần nhỏ so với nhóm khách hàng chủ động rời mạng

“Churn” cũng có thể được chia thành 3 nhóm:

- “Churn” hoàn toàn: Khách hàng hủy tất cả các dịch vụ và thanh lý hợp đồng

- “Churn” ẩn: Hợp đồng của khách hàng không được hủy bỏ, nhưng các khách hàng không chủ động sử dụng dịch vụ đã một thời gian dài

- “Churn” một phần: Hợp đồng không được hủy bỏ, nhưng các khách hàng không sử dụng dịch vụ đầy đủ và chỉ sử dụng các bộ phận của nó

Trang 16

Tùy thuộc vào từng nhà mạng, hợp đồng dịch vụ và mô hình kinh doanh được áp dụng cho khách hàng “churn” ẩn hoặc một phần có thể dẫn đến giảm doanh thu và cần

có những hành đồng thiết thực dẫn đến không mất khách hàng hoàn toàn

Một điều quan trọng nữa trong phân loại “churn” là phân loại khách hàng tiềm năng Đối với khách hàng tiềm năng, bộ phận tiếp thị của công ty có thể đưa ra chiến lược tiếp thị để giữ chân những khách hàng tiềm năng này

1.4 Các nghiên cứu liên quan

Trên thế giới đã có rất nhiều nghiên cứu về mô hình dự đoán “churn” trong viễn thông như:

- Nghiên cứu các nguyên nhân của thuê bao rời mạng viễn thông sử dụng Fuzzy Logic[10]

- Phân tích mạng xã hội (Social Network Analysis -SNA) dự đoán thuê bao rời mạng viễn thông.[11]

- Sử dụng Artificial Neural Network (ANN) tích hợp mô hình dự báo cho các khách hàng trả trước nhằm giải thích lý do rời mạng với dữ liệu mẫu là bộ

dữ liệu khiếu nại từ các thuê bao.[12]

- Neural Network (NN) cùng với cây quyết định và Support Vector Machine (SVM) được sử dụng để xây dựng một mô hình lai để dự đoán thuê bao rời mạng trong viễn thông [13]

- Xây dựng mô hình lai sử dụng Logistic regression và Voted perceptron để

dự đoán thuê bao rời mạng trong viễn thông.[14]

1.5 Mục tiêu và phạm vi đề tài

Mục tiêu của đề tài

Từ kho dữ liệu di động xác định các thuê bao rời mạng, thực hiện phân tích các hoạt động, hành vi trước khi rời mạng của các thuê bao bằng các phương pháp khai phá dữ liệu nhằm phát hiện những yếu tố liên quan đến việc rời mạng của thuê bao Từ đấy thực hiện phân tích các thuê bao đang hoạt động nhằm phân lớp và dự đoán các thuê bao rời mạng viễn thông Nguồn dữ liệu phân tích được bắt nguồn từ chi tiết sử dụng dịch vụ, hồ sơ khách hàng và các thông tin liên quan

Phạm vi đề tài

Việc xây dựng kho dữ liệu thuê bao di động với nhiều nguồn dữ liệu khác nhau là một quá trình lâu dài và phức tạp, trong phạm vi luận văn sẽ không đề cập đến việc xây dựng kho dữ liệu di động mà hướng đến phân tích và khai phá dữ liệu di động đưa

ra dự đoán những thuê bao có khả năng chủ động rời mạng viễn thông Cách phân tích

dữ liệu đối với thuê bao trả trước và trả sau có sự khác biệt lớn (hầu hết khách hàng trả trước rời mạng một khoảng thời gian dài trước khi nhà mạng nhận ra là khách hàng đã rời mạng) bởi vậy trong luận văn này chỉ thực hiện phân tích dữ liệu đối với thuê bao

Trang 17

trả sau Đối tượng thực hiện phân tích là nhóm khách hàng chủ động rời khỏi mạng và chuyển sang một nhà cung cấp dịch vụ khác

Trang 18

Chương 2 KHAI PHÁ DỮ LIỆU THUÊ BAO DI ĐỘNG

Khai phá dữ liệu là một lĩnh vực liên ngành có liên quan đến việc khai thác các thông tin tiềm ẩn từ cơ sở dữ liệu lớn Trong kinh doanh, khai thác dữ liệu cung cấp các công cụ để tìm kiếm các mô hình có ý nghĩa và cung cấp tri thức hỗ trợ ra quyết định từ dữ liệu thô Nó giúp cho doanh nghiệp xác nhận được các giả thuyết hoặc tìm

ra những điều chưa được biết đến trong dữ liệu, cung cấp cho doanh nghiệp cái nhìn sâu sắc có giá trị và lợi thế cạnh tranh Quá trình khai thác dữ liệu đòi hỏi phải có sự hợp tác của các lĩnh vực như: hệ thống cơ sở dữ liệu, kho dữ liệu, học máy, thống kê Luận văn này tập trung vào phần phân tích khai thác dữ liệu, làm thế nào áp dụng được học máy để dự đoán thuê bao rời mạng

2.1 Lý thuyết khai phá dữ liệu

2.1.1 Tại sao cần khai phá dữ liệu

Ngày nay công nghệ thông tin đang có mặt ở tất cả các lĩnh vực, cùng với đó là các dữ liệu lưu trữ không ngừng tăng lên Tiềm ẩn bên trong lượng dữ liệu này là những tri thức hết sức quý báu giúp ích cho các hoạt động sản xuất kinh doanh của con người

Theo Fayyad và cộng sự, việc nghiên cứu, phát triển lĩnh vực khai phá dữ liệu và phát hiện tri thức trong cơ sở dữ liệu(Knowledge Discovery and Data Mining: KDD)

nhằm giải quyết tình trạng “ngập tràn thông tin mà thiếu thốn tri thức”

2.1.2 Khái niệm khai phá dữ liệu

Phát hiện tri thức trong cơ sở dữ là lĩnh vực nghiên cứu và triển khai được phát triển nhanh chóng, có phạm vi rộng lớn, được nhiều nhóm nghiên cứu tại nhiều trường đại học, viện nghiên cứu, công ty cổ phần ở nhiều quốc gia trên thế giới quan tâm Bởi vậy tồn tại nhiều cách tiếp cần khác nhau đối với việc phát hiện tri thức trong cơ sở dữ liệu, cùng với đó cũng có nhiều thuật ngữ khác nhau mang cùng nghĩa với KDD như chiết lọc tri thức(knowledge extraction), phát hiện thông tin (information harvesting), khai thác dữ liệu(data archaeology), xử lý mẫu dữ liệu(data/parttern analysis)…

Khái niệm 1: Phát hiện tri thức trong cơ sở dữ liệu là quá trình không tầm

thường nhận ra những mẫu có giá trị, mới, hữu ích tiềm năng và hiểu được trong dữ liệu.[1]

Trong khái niệm 1 chúng ta coi KDD là một quá trình gồm nhiều bước thực hiện

trong đó khai phá dữ liệu là một bước thực hiện chính yếu

Khái niệm 2:(Frawley, Piatetski-Shapiro và Matheus) : Khai phá dữ liệu là một

bước trong quá trình phát hiện tri thức trong cơ sở dữ liệu, thi hành một thuật toán khai phá dữ liệu để tìm ra các mẫu từ dữ liệu theo khuôn dạng thích hợp[1]

Trang 19

Khai phá dữ liệu là một bước trong bảy bước của quá trình KDD và KDD được xem như 7 quá trình khác nhau theo thứ tự sau:

- Làm sạch dữ liệu (data cleaning & preprocessing): loại bỏ nhiễu và các dữ liệu không cần thiết

- Tích hợp dữ liệu (data integration): quá trình hợp nhất dữ liệu thành những kho dữ liệu (data warehouses & data marts) sau khi đã làm sạch và tiền xử

lý (datacleaning & preprocessing)

- Trích chọn dữ liệu (data selection): trích chọn dữ liệu từ những kho dữ liệu

và sau đó chuyển đổi về dạng thích hợp cho quá trình khai thác tri thức Quá trình nàybao gồm cả việc xử lý với dữ liệu nhiễu (noisy data), dữ liệu không đầy đủ(incomplete data), v.v

- Chuyển đổi dữ liệu: các dữ liệu được chuyển đổi sang các dạng phù hợp cho quá trình xử lý

- Khai phá dữ liệu (data mining): là một trong các bước quan trọng nhất, trong

đó sử dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu

- Ước lượng mẫu (knowledge evaluation): quá trình đánh giá các kết quả tìm được thông qua các độ đo nào đó

- Biểu diễn tri thức (knowledge presentation): quá trình này sử dụng các kỹ thuật để biểu diễn và thể hiện trực quan cho người dùng

Hình 4 - Quá trình phát hiện tri thức trong CSDL[1]

2.1.3 Các bài toán khai phá dữ liệu điển hình

Mô tả khái niệm (concept description): là bài toán tìm đặc trưng và tính chất

của khái niệm Bài toán thiên về mô tả, tổng hợp và tóm tắt khái niệm Ví dụ: tóm tắt văn bản

Luật kết hợp (association rules): là dạng luật biểu diễn tri thức ở dạng khá

đơn giản Ví dụ: “60 % nam giới vào siêu thị nếu mua bia thì có tới 80% trong số họ sẽ

Trang 20

mua thêm thịt bò khô” Luật kết hợp được ứng dụng nhiều trong lĩnh vực kính doanh,

y học, tin-sinh, tài chính & thị trường chứng khoán, v.v

Phân lớp và dự đoán (classification & prediction): xếp một đối tượng vào

một trong những lớp đã biết trước Ví dụ: phân lớp vùng địa lý theo dữ liệu thời tiết Hướng tiếp cận này thường sử dụng một số kỹ thuật của machine learning như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network), v.v Người ta còn gọi phân lớp là học có giám sát (học có thầy)

Phân cụm (clustering): xếp các đối tượng theo từng cụm (số lượng cũng như

tên) của cụm chưa được biết trước Người ta còn gọi phân cụm là học không giám sát (học không thầy)

Hồi quy (regression ): là bài toán điển hình trong phân tích thống kê và dự báo

Trong khai phá dữ liệu, bài toán hồi quy được quy về việc học một hàm ánh xạ dữ liệu nhằm xác định một giá trị thực của một biến theo biến số khác Phân tích hồi quy sẽ xác định được định lượng quan hệ giữa các biến, và quảng bá giá trị một biến phụ thuộc vào giá trị của những biến khác Phương pháp hồi quy khác với phân lớp dự liệu

là hồi quy dùng để dự đoán những giá trị liên lục, còn phân lớp dữ liệu là dự đoán các giá trị rời rạc

Khai phá chuỗi (sequential/temporal patterns): tương tự như khai phá luật

kết hợp nhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứng dụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tính dự báo cao

Ngoài ra còn có một số bài toán khai phá dữ liệu thống kê khác

2.2 Mô hình kho dữ liệu di động

Mô hình kho dữ liệu thuê bao di động gồm 3 lớp:

Tầng dưới cùng: là lớp thực hiện khai thác làm sạch chuẩn hóa và tập trung dữ liệu

từ các nguồn dữ liệu tổng đài, cước và thông tin khách hàng

Tầng giữa: sử dụng kiến trúc Relational OLAP sever lưu trữ dữ liệu dưới dạng cơ

sở dữ liệu quan hệ thực hiện phân tích dữ liệu theo nhiều khía cạnh khác nhau

Tầng trên cùng: sử dụng các công cụ thực hiện truy vấn báo cáo, phân tích và khai thác dữ liệu

Trang 21

Hình 5 - Mô hình kho dữ liệu di động

Hệ thống Billing: nơi quản lý và lưu trữ thông tin cước của thuê bao

Hệ thống CRM (Customer relationship management): nơi quản lý thông tin quan

hệ khách hàng thuê bao

Ngoài ra còn rất nhiều hệ thống dữ liệu khác như hệ thống IN (Intelligent network)

xử lý điều khiển các cuộc gọi của thuê bao trả trước Prepaid, lưu trữ thông tin tài khoản của thuê bao trả trước, các hệ thống VAS như SMSC (Short Message Service Center), MCA (Miscall Alert System), CRBT (Colour Ringback Tone)…

Các hệ thống này đều có những hệ thống cơ sở dữ liệu riêng của mình, được tập trung tại máy chủ cơ sở dữ liệu hoặc phân tán Các cơ sở dữ liệu này không thống nhất cho một đối tượng quán lý (Ví dụ: thông tin thuê bao, khách hàng, dịch vụ…) thông tin chồng chéo, không gắn kết thông tin giữa các nguồn dữ liệu, phức tạp cho quá trình kiểm soát thông tin từ tất cả các nguồn dữ liệu

Tiến trình ETL (Extraction, Transformation, and Loading) thực hiện trích xuất, làm sạch, chuẩn hóa theo thiết kế của mô hình kho dữ liệu và tập trung thành một nguồn dữ liệu thống nhất đẩy vào DWH

Trang 22

Ngoài ra tầng trên còn nhằm mục đích khai phá những thông tin đang ẩn trong nguồn dữ liệu sẵn có của hệ thống

2.3 Một số ứng dụng khai phá dữ liệu di động

Số lượng các thuê bao và các dịch vụ kèm theo đang ngày một gia tăng hầu hết các giao dịch, thao tác, hoạt động đều được lưu lại trong hệ thống cơ sở dữ liệu Từ đó, lượng dữ liệu thu thập và lưu trữ được về các hoạt động sản xuất kinh doanh cũng trở nên ngày càng khổng lồ Tiềm ẩn bên trong lượng dữ liệu này là những tri thức hết sức quí báu về thị trường, khách hàng, sản phẩm…

Trong quá trình hoạt động sản xuất kinh doanh, các nhà quản lý thường xuyên phải đưa ra các quyết định liên quan đến những sự việc sẽ xảy ra trong tương lai Để giúp các quyết định này có độ tin cậy cao, giảm thiểu mức độ rủi ro, người ta cần đưa

ra các dự báo Vì vậy dự báo là hết sức quan trọng và cần thiết cho các doanh nghiệp, đặc biệt là ngày nay các doanh nghiệp lại hoạt động trong môi trường của nền kinh tế thị trường mà ở đó luôn diễn ra những sự cạnh tranh gay gắt giữa các doanh nghiệp với nhau

Phân tích, khai thác dữ liệu sử dụng các thuật toán và mô hình toán học cho phép các doanh nghiệp đưa ra các quyết định hiệu quả và kịp thời Dưới đây là một số ứng dụng áp dụng kĩ thuật khai phá dữ liệu vào hoạt động sản xuất kinh doanh mạng di động:

2.3.1 Phân tích và dự đoán nhu cầu sử dụng các sản phẩm, dịch vụ

Trong ngành công nghiệp viễn thông sản phẩm và dịch vụ có nguồn doanh thu chiếm tỷ lệ cao Bởi vậy thực hiện phân tích và dự đoán xu hướng, nhu cầu sử dụng sản phẩm dịch vụ là yêu cầu cần thiết cho quá trình kinh doanh các sản phẩm dịch vụ

Từ kho dữ liệu di động thực hiện khai phá có thể đưa ra được nhu cầu sử dụng các sản phẩm, dịch vụ: tăng lên, giữ nguyên hay giảm sút Dữ liệu có thể được sử dụng

Trang 23

như dữ liệu chi tiết cuộc gọi, dữ liệu mạng mô tả thành phần phần cứng và phần mềm trong hệ thống mạng, dữ liệu thanh toán và doanh thu của doanh nghiệp, và dữ liệu về các khách hàng đang sử dụng dịch vụ viễn thông

Một trong những nghiên cứu dự đoán nhu cầu sử dụng sản phẩm dịch vụ là sử dụng mạng neural và các quy tắc tập mờ để dự đoán theo thời gian, và kết quả thu được so sánh với tập dữ liệu test bằng cách sử dụng hồi quy tuyến tính.[19]

2.3.2 Nhận dạng và dự đoán các biểu hiện gian lận

Nhận dạng các biểu hiện gian lận trong sử dụng dịch vụ viễn thông đang là mối quan tâm lớn của các nhà cung cấp dịch vụ viễn thông Bất kỳ một hoạt động nào sử dụng dịch vụ viễn thông mà không trả tiền đều có thể được định nghĩa là gian lận viễn thông Việc gian lận trong viễn thông dẫn đến doanh thu nhà mạng giảm, gây bức xúc trong dư luận và ảnh hưởng đến niềm tin của khách hàng

Nhận dạng và dự đoán các biểu hiện gian lận trong sử dụng dịch vụ viễn thông tại các tỉnh, thành phố thông qua dữ liệu quản lý khách hàng thuê bao, hồ sơ gian lận, thông tin sử dụng dịch vụ của khách hàng Sử dụng các thuật toán khai phá dữ liệu trong kho dữ liệu tìm độ lệch và dữ liệu bất thường nhằm xác định các đối tượng bị nghi ngờ là có gian lận và các khu vực có nhiều khả năng xảy ra gian lận Các thuật toán thường được sử dụng để phát hiện gian lận trong viễn thông như các mô hình thống kê, Bayes, phân cụm, luật kết hợp, mạng neural, các mô hình Markov hay các

mô hình lai

Khai thác viễn thông đang bị gian lận dưới nhiều hình thức khác nhau Một trong những hình thức gian lận là tình trạng nợ xấu, tình trạng này xảy ra với thuê bao trả sau, khi khách hàng không thanh toán cước sử dụng dịch vụ và đơn phương chấm dứt hợp đồng Nợ xấu dẫn đến tăng tài sản xấu, lợi nhuận không đúng với thực tế trong các công ty viễn thông Thuật toán phận cụm mạng neural Kohonen được áp dụng để dự đoán nợ xấu trong viễn thông.[20]

2.3.3 Phân tích dự đoán thuê bao rời mạng

Trong bối cảnh thị trường viễn thông đã đi vào giai đoạn bão hòa, việc phát triển thuê bao mới ngày càng trở nên khó khăn Trong khi đó khách hàng có nhiều lựa chọn

và có quyền chuyển đổi nhà cung cấp dịch vụ Thuê bao rời mạng là hiện tượng phổ biến trong nghành công nghiệp viễn thông Trong thực tế, trung bình mỗi năm có tới 30-50 phần trăm thuê bao rời mạng, và chi phí để phát triển một thuê bao mới lớn 5-10 lần chi phí để giữ chân khách hàng Chính vì vậy, giữ chân khách hàng, giảm tỉ lệ thuê bao rời mạng là chiến lược kinh doanh quan trọng của các nhà cung cấp dịch vụ

Dữ liệu được sử dụng cho việc phân tích thuê bao rời mạng là tất cả các dữ liệu diễn ra trong thời gian thuê bao khách hàng còn hoạt động như: dữ liệu quản lý thông tin khách hàng, hồ sơ khiếu nại, chi tiết sử dụng dịch vụ của khách hàng, cước thanh

Trang 24

toán dịch vụ Các nghiên cứu liên quan đến dự đoán thuê bao rời mạng đã được đưa

ra tại chương 1(1.4)

2.3.4 Dự đoán nhu cầu tăng dung lượng đường truyền

Nâng cao chất lượng dịch vụ là yêu cầu quan trọng trong chăm sóc khách hàng, đảm bảo niềm tin, sự trung thành của khách hàng Cùng với sự gia tăng thuê bao và các sản phẩm dịch vụ thì đường truyền dữ liệu cũng cần gia tăng để đảm bảo chất lượng dịch vụ

Từ thông tin về tình hình sử dụng dung lượng đường truyền của các thuê bao, các thuật toán khai phá dữ liệu được sử dụng để dự đoán nhu cầu tăng dung lượng đường truyền của tại các tỉnh thành

Trang 25

Chương 3 BÀI TOÁN PHÂN LỚP DỮ LIỆU THUÊ BAO RỜI

MẠNG

3.1 Phát biểu bài toán

Đầu vào:

- Dữ liệu quản lý khách hàng khách hàng thuê bao

- Dữ liệu chi tiết sử dụng dịch vụ của thuê bao

- Dữ liệu hóa đơn của thuê bao

- Dữ liệu khuyến mại của thuê bao

- Dữ liệu thuê bao rời mạng

- Dữ liệu thuê bao cần cần dự báo

Đầu ra: Đưa ra mô hình phân lớp dự báo, các chỉ số đánh giá mô hình, các luật rút

ra từ mô hình giúp đưa ra dự báo khách hàng có thể rời mạng

Ví dụ:

Đầu vào: Thông tin về khách hàng: Khách hàng đã hoạt động được 6 tháng, là thuê bao Postpaid, số cuộc gọi ngoại mạng trong tháng gần nhất tăng cao, số lượng cuộc gọi nội mạng giảm dần, số lượng tin nhắn tháng gần nhất tăng 50% so với các tháng trước

Đầu ra: Dự đoán khách hàng có 60% khả năng rời mạng

3.2 Phân lớp dữ liệu thuê bao rời mạng

Học có giám sát là một nhánh của học máy có mục tiêu là thiết lập mô hình mô tả mối quan hệ giữa các dữ liệu huấn luyện nhằm đưa ra những ý tưởng có giá trị Các thuật toán học máy được áp dụng vào dữ liệu thiết lập để xây dựng các học viên Đầu vào để phân lớp là tập hợp các thuộc tính ( , ) , ( , ) …( , ) Mỗi thộc tính x được biểu diễn dưới dạng vecto n chiều x=[ ] và lớp y {-1,+1} thuộc trường hợp phân lớp nhị phân Trong dự đoán thuê bao rời mạng các thuộc tính

là thuê bao và các nhãn để phân lớp là “churn” và “non-churn” Hai thành phần để thực hiện phân lớp là dữ liệu và các thuật toán Một tập dữ liệu huấn luyện là cần thiết

để xây dựng mô hình và ước tính các thông số để đưa ra các tập luật

Phần này đưa nền tảng lý thuyết cho việc phân lớp dữ liệu di động Đầu tiên, dữ liệu mẫu được đưa vào để lựa chọn các thuộc tính thích hợp, các thuộc tính không thích hợp sẽ được loại bỏ Trong đó, dữ liệu mẫu được tổng hợp từ kho dữ liệu di động Sau khi lựa chọn, dữ liệu sẽ chỉ gồm các thuộc tính phù hợp nhất Tiếp đó, thuật toán học máy sẽ được áp dụng cho dữ liệu này để thực hiện phân lớp Các thuật toán

Trang 26

được áp dụng là cây quyết định C4.5, Nạve Bayes, Support Vector Machine và Neural Networks Việc thực hiện phân lớp được đánh giá bằng cách sử dụng tiêu chí đánh giá

Hình 6 – Tiến trình phân lớp dữ liệu[15]

3.2.1 Dữ liệu

Dữ liệu là một trong hai thành phần của bài tốn phân lớp Truy cập kho dữ liệu thực hiện trích xuất và thu thập các dữ liệu cần thiết cho mơ hình “churn” Các thơng tin về khách hàng cần thiết cho dự đốn thuê bao rời mạng gồm: dữ liệu quản lý khách hàng khách hàng thuê bao, dữ liệu chi tiết sử dụng dịch vụ của thuê bao, dữ liệu thanh tốn và khuyến mại của thuê bao, dữ liệu thuê bao rời mạng Từ các nguồn dữ liệu khác nhau, cơ sở dữ liệu thực hiện dự đốn thuê bao rời mạng được xây dựng với mục đích thu thập dữ liệu

Dữ liệu thu thập được sau khi lọc và loại bỏ các thơng tin khơng chính xác, khơng cần thiết thì gồm các thơng tin:

Dữ liệu quản lý khách hàng: tuổi, giới tính, loại thuê bao, bưu cục thu,thời gian hoạt động

Dữ liệu sử dụng dịch vụ: số dịch vụ sử dụng, số cuộc gọi nội mạng, số cuộc gọi ngoại mạng, số cuộc gọi quốc tế, thời gian gọi nội mạng, thời gian gọi ngoại mạng, thời gian gọi quốc tế, số lượng SMS

Trang 27

Dữ liệu thanh toán: tiền phát sinh gọi nội mạng, tiền phát sinh gọi ngoại mạng, tiền phát sinh gọi quốc tế, tiền phát sinh SMS, tiền phát sinh Data, tổng số tiền phát sinh, số tiền được khuyến mại, mức tiền thực phải thanh toán

Mô hình dưới đây thể hiện mối quan hệ của cơ sở dữ liệu dự đoán thuê bao rời mạng Trong đó các bảng call_detail, zone, promotion, bill_data là các bảng nguồn, các bảng cust_info, churn_list, cust_churn, cust_neighbor, call_zone, bill, charges_real là các bảng đích, cuối cùng cust_file - một bảng view là trung tâm của cơ

sở dữ liệu này Cust_file là bảng tạo ra bởi sự kết hợp của các bảng đích hình thành lược đồ hình sao xung quanh nó

Hình 7 - Mô hình quan hệ các bảng dữ liệu Trong đó:

- Bảng cust_info: là bảng mô tả tính năng đặc trung của khách hàng như: tuổi tác, giới tính, nơi ở, nơi thanh toán, ngày hòa mạng…

- Bảng churn_list: là bảng danh sách các thuê bao rời mạng

- Bảng call_detail: là thông tin chi tiết các cuộc gọi

- Bảng zone: là bảng xác định mã vùng các cuộc gọi đi

- Bảng promotion: bảng lưu trữ thông tin khuyến mại của thuê bao

- Bảng bill_data: bảng lưu trữ thông tin cước các cuộc gọi và dịch vụ của khách hàng

- Bảng cust_churn: là bảng kết hợp giữa bảng cust_info và churn_list mô tả thông tin các khách hàng rời mạng

- Bảng call_zone: là bảng kết hợp giữa bảng call_detail và zone, đưa ra các vùng gọi đi của từng thuê bao

Ngày đăng: 16/03/2021, 12:22

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w