Ứng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động Vinaphone
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan đây là đề tài nghiên cứu của riêng tôi, thực hiện dưới sự hướng dẫn của PGS.TS Trần Đình Quế
Các kết quả nêu trong luận văn là trung thực, dựa trên số liệu thực tế do tôi khảo sát và thu thập tại Trung tâm viễn thông 5 Móng Cái – VNPT Quảng Ninh Kết quả luận văn chưa từng được công bố trong bất cứ công trình nào khác
Hà Nội, ngày 10 tháng 11 năm 2017
Họ và tên
Vi Quyết Thắng
Trang 4LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn sâu sắc tới PGS.TS Trần Đình Quế, Học viện Công nghệ Bưu chính Viễn thông Người Thầy đã dành nhiều thời gian tận tình chỉ bảo, hướng dẫn tôi trong suốt quá trình tìm hiểu, nghiên cứu Thầy đã đưa ra nhiều góp ý quý báu trong suốt quá trình thực hiện để tôi có thể hoàn thành luận văn này
Tôi xin chân thành cảm ơn các thầy, các cô thuộc khoa Công nghệ thông tin, khoa Điện tử viễn thông tại Học viện Công nghệ Bưu chính Viễn thông đã trang bị cho tôi những kiến thức cần thiết trong thời gian học tập tại trường
Tôi cũng bày tỏ lòng biết ơn về sư giúp đỡ nhiệt tình của lãnh đạo cơ quan, các đồng nghiệp tại Trung tâm viễn thông 5 Móng Cái – VNPT Quảng Ninh đã cung cấp thông tin, dữ liệu, tài liệu cần thiết và cho tôi những lời khuyên quý báu khi thực hiện khảo sát tại đây
Tôi xin cảm ơn gia đình, người thân và bạn bè luôn quan tâm, động viên và tạo mọi điều kiện tốt nhất cho tôi trong suốt quá trình thực hiện luận văn
Tôi xin chân thành cảm ơn!
Hà Nội, ngày 10 tháng 11 năm 2017
Họ và tên
Vi Quyết Thắng
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT vi
DANH MỤC CÁC BẢNG vii
DANH MỤC CÁC HÌNH VẼ vii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU 3
1.1 Giới thiệu 3
1.2 Phân lớp dữ liệu 3
1.2.1 Khái niệm và quy trình của phân lớp dữ liệu 3
1.2.2 Các vấn đề trong phân lớp dữ liệu 5
1.2.2.1 Tiền xử lý dữ liệu 5
1.2.2.2 So sánh các mơ hình phân lớp 6
1.3 Một số kỹ thuật phân lớp dữ liệu 7
1.3.1 Phân lớp dữ liệu bằng Neural Network 7
1.3.2 Phân lớp dữ liệu bằng mạng Nạve Bayes 10
1.3.3 Phân lớp dữ liệu bằng giải thuật học ILA 13
1.3.4 Phân lớp dữ liệu bằng cây quyết định 14
1.4 Kết luận 17
CHƯƠNG 2: CÂY QUYẾT ĐỊNH TRONG VẤN ĐỀ PHÂN LOẠI THUÊ BAO DI ĐỘNG 18
Trang 62.1 Giới thiệu 18
2.2 Vấn đề phân loại thuê bao di động Vinaphone 18
2.2.1 Thực trạng tại TTVT5 Móng Cái – VNPT Quảng Ninh 18
2.2.2 Các vấn đề tồn tại 20
2.3 Ứng dụng cây quyết định trong phân loại thuê bao di động 24
2.3.1 Xác định giá trị khách hàng 24
2.3.2 Khả năng dự đoán thuê bao rời mạng 25
2.3.2.1 Khái niệm rời mạng và tỷ lệ rời mạng 25
2.3.2.2 Kỹ thuật dự đoán rời mạng trong Viễn thông 27
2.3.2.3 So sánh một số kỹ thuật dự đoán rời mạng 33
2.4 Thiết kế và xây dựng cây quyết định 36
2.4.1 Tư tưởng thuật toán xây dựng cây quyết định 36
2.4.2 Xây dựng cây quyết định 37
2.4.2.1 Thuật toán CLS 38
2.4.2.2 Thuật toán ID3 39
2.4.2.3 Thuật toán C4.5 40
2.4.2.4 Thuật toán SLIQ 42
2.4.3 Cắt tỉa cây quyết định 42
2.5 Kết luận 43
CHƯƠNG 3: THỬ NGHIỆM VÀ ĐÁNH GIÁ 44
3.1 Giới thiệu 44
3.2 Thu thập và xử lý dữ liệu 44
3.3 Tình hình phát hiện rời mạng được ứng dụng trong nước hiện nay 46
3.4 Phân loại khách hàng và dự đoán rời mạng dựa trên số tiền thanh toán 47
Trang 73.5 Cài đặt 51
3.6 Thử nghiệm và đánh giá 54
3.6.1 Thử nghiệm 54
3.6.2 Đánh giá 57
3.7 Kết luận 58
KẾT LUẬN 59
DANH MỤC CÁC TÀI LIỆU THAM KHẢO 61
Trang 8DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
ANN Artificial Neural Network Mạng Nơ – rôn nhân tạo
ILA Inductive Learning Algorithm Giải thuật học quy nạp
Trang 9DANH MỤC CÁC BẢNG
Bảng 1.1: Giả thuyết cho mạng Bayes 11
DANH MỤC CÁC HÌNH VẼ Hình 1.1: Bước học (phân tích/ học tập huấn luyện) 4
Hình 1.2: Bước phân lớp trong quá trình phân lớp dữ liệu 5
Hình 1.3: Minh họa mạng nơ-rôn nhân tạo 7
Hình 1.4: Cấu trúc một nơ-rôn 8
Hình 1.5: Tiến trình học của mạng nơ-rôn 9
Hình 1.6: Ví dụ về cây quyết định 15
Hình 2.1: Thông tin những thuê bao đã ngừng sử dụng dịch vụ 22
Hình 2.2: Số lượng thuê bao rời mạng và phát triển tại TTVT5 Móng Cái - 2017 23
Hình 2.3: Tạo dựng mô hình khai phá dữ liệu trong viễn thông 32
Hình 2.4: Khả năng dự đoán của cây quyết định 33
Hình 3.1: Dữ liệu mẫu mô tả thông tin khách hàng 45
Hình 3.2: Cây quyết định phân loại thuê bao di động dựa trên số tiền thanh toán 52
Hình 3.3: File đầu vào sau khi đã được chọn lọc thuộc tính 52
Hình 3.4: Giao diện chương trình phân loại khách hàng 54
Hình 3.5: Chức năng “Dự đoán rời mạng” 55
Hình 3.6: Biểu đồ thể hiện tỷ lệ các thuê bao di động 56
Trang 10Những điều trên cho thấy việc phân loại khách hàng ảnh hưởng đến chiến lược kinh doanh của các cơ quan, tổ chức như thế nào Trong lĩnh vực viễn thông, khách hàng (các thuê bao di động) chính là những người mang lại doanh thu và duy trì hoạt động cho nhà cung cấp dịch vụ, vì vậy việc nghiên cứu, phân loại và đánh giá họ để đưa ra những quyết sách phù hợp là cần thiết Ngoài ra, một lý do quan trọng nữa là việc phân loại sẽ giúp nhà cung cấp tiết kiệm chi phí trong công cuộc “giữ chân” những thuê bao đang hoạt động, tác động kịp thời để duy trì những thuê bao có ý định rời mạng và phát triển các thuê bao mới
Nhận thấy tầm quan trọng của việc đánh giá và phân loại khách hàng, tôi xin
trình bày luận văn với đề tài “Ứng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động Vinaphone” Luận văn đi sâu vào áp dụng phương pháp phân lớp
dữ liệu dựa trên cây quyết định, từ đó sẽ đánh giá, phân loại và dự đoán hành vi của các thuê bao di động đang hoạt động
Trang 11Luận văn này có tất cả ba chương:
Chương 1: Tổng quan về phân lớp dữ liệu
Chương này trình bày về cơ sở lý thuyết như khái niệm, trình bày một số phương pháp phân lớp dữ liệu phổ biến Tìm hiểu các điểm mạnh điểm yếu của từng phương pháp, qua đó cho thấy ưu điểm của phương pháp phân lớp dữ liệu dựa trên cây quyết định phù hợp để giải quyết vấn đề phân loại các thuê bao di động
Chương 2: Cây quyết định trong vấn đề phân loại thuê bao di động
Chương này tập trung vào khảo sát tình hình thực tế tại TTVT5 Móng Cái, trình bày về sự cần thiết của việc phân loại các thuê bao di động Chương này cũng trình bày các ứng dụng của cây quyết định trong viễn thông và phương pháp thiết kế xây dựng cây quyết định để giải quyết vấn đề phân loại
Chương 3: Thử nghiệm và đánh giá
Với cơ sở lý luận và thực trạng đã trình bày ở các chương 1 và 2, với mẫu thử
là dữ liệu của các thuê bao di động được thu thập từ TTVT5 Móng Cái – VNPT Quảng Ninh, tôi đã áp dụng thử nghiệm trên chương trình, xuất ra kết quả phân loại
và dự đoán Từ kết quả đó sẽ đưa ra nhận xét, đánh giá và phương hướng phát triển chương trình trong tương lai
Trang 12CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU
1.1 Giới thiệu
Khoa học công nghệ ngày càng phát triển đồng nghĩa với lượng thông tin, dữ liệu ngày càng nhiều Để có thể phát hiện và trích xuất những tri thức, những thông tin đáng giá từ kho dữ liệu khổng đó để đưa vào phục vụ con người thì chúng ta đã biết tới khái niệm “Khai phá dữ liệu”, được biết đến như là một giải pháp có khả năng giải quyết tình trạng thông tin thừa, tri thức thiếu Muốn tìm tri thức, chúng ta phải
“đào” trong các “mỏ” thông tin Về mặt kỹ thuật, phân lớp dữ liệu là một trong các phương pháp khai phá dữ liệu đã được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau Trong chương 1 này sẽ trình bày tổng quan về phân lớp dữ liệu và một số kỹ thuật phân lớp phổ biến
1.2 Phân lớp dữ liệu
1.2.1 Khái niệm và quy trình của phân lớp dữ liệu
Phân lớp dữ liệu là một hướng nghiên cứu quan trọng trong khai phá dữ liệu
Nó là một dạng của phân tích dữ liệu nhằm chọn lọc, trích xuất, mô tả và phân loại một cách có hệ thống các thông tin hữu ích để phục vụ một mục đích cụ thể nào đó
như khảo sát, phân tích, đánh giá, dự đoán [1], [2]
Ví dụ mô hình phân lớp dự báo thời tiết có thể cho biết thời tiết ngày mai là mưa, hay nắng dựa vào những thông số về độ ẩm, sức gió, nhiệt độ,… của ngày hôm nay và các ngày trước đó [2] Trong những năm qua, phân lớp dữ liệu đã thu hút sự quan tâm các nhà nghiên cứu trong nhiều lĩnh vực khác nhau như học máy, thống kê Công nghệ này cũng ứng dụng trong nhiều lĩnh vực khác nhau như: thương mại, nghiên cứu thị trường, bảo hiểm, y tế, giáo dục
Về mặt kỹ thuật, phân lớp dữ liệu là một quá trình gồm hai bước [6]:
- Bước học (giai đoạn huấn luyện): Xây dựng nên mô hình phân lớp hoặc
nói cách khác là bộ phân loại bằng việc phân tích/ học tập huấn luyện
Trang 13- Bước phân lớp: Từ mô hình vừa xây dựng ở bước học sẽ được sử dụng để
dự đoán các nhãn lớp cho những dữ liệu nào đó Nếu độ chính xác của bộ phân loại được đánh giá là chấp nhận được thì tại bước này sẽ tiến hành phân loại dữ liệu hoặc
đối tượng
Để hiểu rõ hơn về hai bước đã đề cập ở trên, chúng ta xét ví dụ sau: Hình 1.1
và hình 1.2 minh họa cho quá trình phân loại dữ liệu với mục đích khảo sát và đánh giá khách hàng sử dụng dịch vụ viễn thông Để dễ hiểu, chúng ta chỉ giữ lại những thuộc tính cơ bản nhất như “Tên”, “Độ_tuổi”, “Thu_nhập”, “Dịch_vụ”
Hình 1.1: Bước học (phân tích/ học tập huấn luyện)
THUẬT TOÁN PHÂN LỚP
Trang 14Hình 1.2: Bước phân lớp trong quá trình phân lớp dữ liệu
Độ chính xác của một mô hình phân lớp trên một tập kiểm tra xác định là tỷ lệ các bản ghi của tập kiểm tra được phân loại đúng đắn bởi mô hình phân lớp ấy Nhãn lớp liên kết của mỗi bản ghi kiểm tra được so sánh với sự dự đoán lớp của mô hình phân lớp ứng với bản ghi đó
Trong ví dụ xác định khách hàng sử dụng dịch vụ viễn thông bên trên, các luật phân lớp học được trong hình 1.1 từ việc phân tích dữ liệu của những khách hàng đã đăng ký sử dụng dịch vụ trước đó, nếu có độ chính xác cao khi phân lớp tập kiểm tra thì có thể được sử dụng để dự đoán các khách hàng mới hoặc sẽ xuất hiện trong tương lai, như đã được minh họa trong hình 1.2
1.2.2 Các vấn đề trong phân lớp dữ liệu
1.2.2.1 Tiền xử lý dữ liệu
Vấn đề tiền xử lý dữ liệu cho quá trình phân lớp là một việc làm không thể thiếu và có vai trò quan trọng quyết định tới việc có thể áp dụng được hay không mô hình phân lớp Quá trình tiền xử lý dữ liệu sẽ giúp cải thiện độ chính xác, tính hiệu quả và khả năng mở rộng được của mô hình phân lớp
Quá trình tiền xử lý dữ liệu gồm có các công việc sau:
LUẬT PHÂN LỚP
Trả_sau
Trang 15 Làm sạch dữ liệu:
Làm sạch dữ liệu liên quan đến việc xử lý dữ liệu lỗi và giá trị thiếu trong tập
dữ liệu ban đầu Kỹ thuật xử lý có thể bằng cách thay giá trị thiếu bằng giá trị phổ biến nhất của thuộc tính đó hoặc bằng giá trị có thể xảy ra nhất dựa trên thống kê [3], [9] Mặc dù phần lớn thuật toán phân lớp đều có cơ chế xử lý với những giá trị thiếu
và lỗi trong tập dữ liệu, nhưng bước tiền xử lý này có thể làm giảm sự hỗn độn trong
suốt quá trình
Phân tích sự cần thiết của dữ liệu:
Phân tích sự cần thiết của dữ liệu nhằm mục đích loại bỏ những thuộc tính dư thừa khỏi quá trình học vì những thuộc tính đó sẽ làm chậm, phức tạp và có thể gây
ra sự hiểu sai trong quá trình học dẫn tới một mô hình phân lớp không dùng được [2],
[6] Ví dụ, dữ liệu về “Nhãn hiệu điện thoại” là không cần thiết khi nghiên cứu ứng
dụng phân loại các thuê bao di động
Chuyển đổi dữ liệu:
Việc khái quát hóa dữ liệu lên mức khái niệm cao hơn đôi khi là cần thiết trong
quá trình tiền xử lý Việc này đặc biệt hữu ích với những thuộc tính liên tục Ví dụ các giá trị số của thuộc tính “thu nhập” của khách hàng có thể được khái quát hóa thành các dãy giá trị rời rạc: thấp, trung bình, cao Tương tự với những thuộc tính rời
rạc như “địa chỉ phố” có thể được khái quát hóa lên thành thành phố Việc khái quát
hóa làm cô đọng dữ liệu học nguyên thủy, vì vậy các thao tác vào/ra liên quan đến quá trình học sẽ giảm [2]
1.2.2.2 So sánh các mô hình phân lớp
Trong từng ứng dụng cụ thể cần lựa chọn mô hình phân lớp phù hợp Việc lựa chọn đó căn cứ vào sự so sánh giữa các mô hình phân lớp với nhau, dựa trên các tiêu chuẩn sau [11]:
Độ chính xác dự đoán:
Trang 16Khả năng của mô hình có thể dự đoán chính xác nhãn lớp của dữ liệu mới hay
dữ liệu chưa biết Ước lượng độ chính xác của mô hình phân lớp rất quan trọng bởi
vì nó cho phép đoán được độ chính xác của kết quả phân lớp những dữ liệu tương lai
Tính đơn giản liên quan đến độ cô đọng của các luật
1.3 Một số kỹ thuật phân lớp dữ liệu
1.3.1 Phân lớp dữ liệu bằng Neural Network
Hình 1.3: Minh họa mạng nơ-rôn nhân tạo
Trang 17Học bằng mạng nơ-rôn nhân tạo (ANN) được giới thiệu năm 1943 bởi nhà thần kinh học Warren McCulloch và nhà logic học Walter Pits Nhưng với những kỹ thuật trong thời gian này chưa cho phép họ nghiên cứu được nhiều Những năm gần đây việc mô phỏng ANN mới xuất hiện và phát triển.Một mạng nơ-rôn nhân tạo, hay gọi tắt là mạng nơ-rôn là một tập hợp các nút xuất/ nhập nối kết với nhau, trong đó mỗi đường nối kết có một trọng số liên kết với nó [3]
Mỗi nơ-rôn (nút) là một đơn vị xử lý thông tin của mạng nơ-rôn, là yếu tố cơ bản để cấu tạo nên mạng nơ-rôn
yk: kết xuất của nơ-rôn
b: thông số ảnh hưởng đến ngưỡng ra của output
Nơ-rôn đầu vào: Nơ-rôn đầu vào cung cấp các giá trị thuộc tính đầu vào cho
các mô hình khai thác dữ liệu Đối với thuộc tính đầu vào rời rạc, một nơ-rôn đầu vào thường đại diện cho một trạng thái đơn nhất từ các thuộc tính đầu vào Một thuộc tính đầu vào liên tục tạo ra hai nơ-rôn đầu vào: Một nơ-rôn cho một trạng thái bị thiếu, một nơ-rôn cho giá trị của chính thuộc tính liên tục đó Nơ-rôn đầu vào cung cấp đầu vào cho một hoặc nhiều nơ-rôn ẩn
Trang 18Nơ-rôn ẩn: nơ-rôn ẩn nhận đầu vào từ các nơ-rôn đầu vào và cung cấp đầu ra
cho các nơ-rôn đầu ra
Nơ-rôn đầu ra: Nơ-rôn đầu ra đại diện cho các giá trị của thuộc tính dự đoán
Đối với các thuộc tính đầu ra là rời rạc, một nơ-rôn đầu ra đại diện duy nhất cho một trạng thái dự đoán của thuộc tính dự đoán, bao gồm cả giá trị thiếu Nếu các thuộc tính dự đoán liên tục tạo ra hai nơ-rôn đầu ra: một nơ-rôn cho một trạng thái bị thiếu, một nơ-rôn cho chính các giá trị của thuộc tính liên tục đó Mỗi đầu vào có một giá
trị được gán cho nó có trọng số là w, mô tả sư liên quan giữa đầu vào đến các nơ-rôn
ẩn hoặc các nơ-rôn đầu ra
Tiến trình học:
Tương tự như bộ não con người, một phiên bản giản lược của bộ não là mạng nơ-rôn nhân tạo cũng cần phải thông qua tiến trình học để có thể nhận biết được dữ liệu với tình huống là các thông số tự do của mạng có thể thay đổi dựa theo thay đổi của môi trường xung quanh, và mạng nơ-rôn phải ghi nhớ được điều đó
Hình 1.5: Tiến trình học của mạng nơ-rôn
Trong quá trình học, giá trị đầu vào được đưa vào mạng và theo dòng chảy trong mạng tạo thành giá trị ở đầu ra Tiếp đến là quá trình so sánh giá trị tạo ra bởi mạng nơ-rôn với giá trị ra mong muốn Nếu hai giá trị này giống nhau thì không thay đổi gì cả Tuy nhiên, nếu có một sai lệch giữa hai giá trị này vượt quá giá trị sai số mong muốn thì đi ngược mạng từ Output về Input để thay đổi một số kết nối
Trang 19Đây là một quá trình lặp liên tục và cĩ thể khơng dừng khi khơng tìm được các giá trị w sao cho Output tạo bởi mạng nơ-rơn bằng đúng Output mong muốn Do
đĩ trong thực tế người ta phải thiết lập tiêu chuẩn dựa trên một giá trị sai số nào đĩ của hai giá trị này hoặc dựa trên một số lần lặp xác định
Chi tiết kỹ thuật phân lớp dữ liệu bằng NN cĩ thể tham khảo tại [7], [11]
Ưu điểm:
- Các mơ hình học được từ NN cĩ khả năng chịu đựng dữ liệu nhiễu cao; cĩ khả năng phân lớp được những mẫu hình mà chúng chưa từng được huấn luyện
- Rất thích hợp đối với dữ liệu nhập và xuất cĩ giá trị liên tục
- Các thuật tốn mạng nơ-rơn vốn cĩ sẵn tính song song; cĩ thể dùng các kỹ thuật song song hĩa để tăng tốc quá trình tính tốn
- Ngồi ra đã cĩ nhiều kỹ thuật được xây dựng để rút ra các luật phân lớp dễ hiểu
- Các mơ hình học bằng NN đã bị chỉ trích vì tính khĩ hiểu của chúng; con người
khĩ diễn đạt được ý nghĩa biểu tượng đằng sau các trọng số và ý nghĩa của các
“đơn vị ẩn” trong mạng
1.3.2 Phân lớp dữ liệu bằng mạng Nạve Bayes
Các mơ hình phân lớp dựa theo Bayes là loại mơ hình phân lớp theo lý thuyết thống kê Chúng cĩ thể dự đốn xác suất của các thành viên lớp, chẳng hạn xác suất
để một bản ghi nhất định thuộc về một lớp cụ thể nào đĩ Phân lớp dựa theo Bayes căn cứ vào nền tảng lý thuyết là Định lý Bayes (đặt tên theo Thomas Bayes, nhà tốn học người Anh sống ở thế kỷ 18)
Trang 20Thuật tốn phân lớp Nạve Bayes giả định rằng ảnh hưởng của một giá trị thuộc tính nào đĩ trên một lớp nhất định là độc lập với các giá trị của các thuộc tính
khác Giả định này được gọi là sự độc lập theo điều kiện lớp Người ta giả định như
vậy để đơn giản hĩa khối lượng tính tốn cần thiết, và vì lý do này, nĩ được gọi là
“ngây thơ” (nạve)
Xét bảng dưới đây:
Bảng 1.1: Giả thuyết cho mạng Bayes
Class:
buys_computer
X: Một đối tượng
H: Giả thuyết
Trang 21P(H|X): Xác suất có điều kiện của H đối với X Ví dụ:
P(buys_computer=yes|age=youth, income=high) là xác suất mua máy tính của khách hàng có tuổi là “youth” và thu nhập “high”
P(X|H): Xác suất có điều kiện của X đối với H Ví dụ: P(age=youth, income=high|buys_computer=yes) là xác suất khách hàng mua máy tính có tuổi là
“youth” và thu nhập “high”
P(H): Xác suất của H, ví dụ: P(buys_computer=yes) là xác suất mua máy tính của khách hàng nói chung
P (X): Xác suất của X, ví dụ: P(age=youth, income=high) là xác suất mua máy tính của khách hàng có tuổi “youth” và thu nhập “high”
P(X|H), P(X), P(H) có thể được tính từ tập dữ liệu cho trước
P(X|H) được tính từ định lý Bayes:
𝑃(𝐻|𝑋) =𝑃(𝑋|𝐻) 𝑃(𝐻)
𝑃(𝑋)P(buys_computer=no|age=youth, income=high) = P(age=youth, income = high|buys_computer=no).P(buys_computer=no)/P(age=youth, income=high) = 0,4 x
- Hiệu năng (độ chính xác và tốc độ xử lý) cao khi áp dụng với cơ sở dữ liệu lớn
- Thuật toán dễ hiểu và dễ thực hiện
Nhược điểm:
(1.1)
Trang 22- Do Nạve Bayes giả định là các thuộc tính độc lập với nhau, nên khi các thuộc tính cĩ sự phục thuộc lẫn nhau (ví dụ trong giáo dục cĩ một số mơn học cĩ ý nghĩa tiên quyết đối với một số mơn học khác) thì phương pháp Nạve Bayes trở nên thiếu chính xác
- Nạve Bayes khơng sinh ra được những mơ hình phân lớp dễ hiểu đối với người dùng khơng chuyên về khai phá dữ liệu
1.3.3 Phân lớp dữ liệu bằng giải thuật học ILA
Thuật giải học quy nạp ILA (Inductive Learning Algorithm) được dùng để xác định các luật phân loại cho tập hợp các mẫu học Giải thuật này thực hiện theo cơ chế lặp, để tìm luật riêng đại diện cho tập mẫu của từng lớp Sau khi xác định được luật, thuật giải sẽ loại bỏ các mẫu mà luật này bao hàm, đồng thời thêm luật mới này vào tập luật Kết quả cĩ được là một danh sách cĩ thứ tự các luật
Quá trình học của ILA xuất phát từ các thuộc tính quyết định ILA chia tập dữ liệu huấn luyện thành các tập con rời nhau, mỗi tập con là một phân lớp dựa trên thuộc tính quyết định Tiếp đến ILA sẽ xem xét trong từng phân lớp xem cĩ thuộc tính nào (hoặc tổ hợp thuộc tính nào) cĩ giá trị chỉ xuất hiện trong lớp đĩ mà khơng xuất hiện trong lớp khác hay khơng Nếu cĩ những (tổ hợp) thuộc tính và giá trị đĩ
sẽ được chọn làm đặc trưng cho phân lớp đĩ
Mơ tả giải thuật ILA:
- Bước 1: Chia bảng con chứa m mẫu thành n bảng con Mỗi bảng con ứng với
một giá trị của thuộc tính phân lớp hay “thuộc tính quyết định” của tập mẫu (Lặp lại từ bước 2 đến bước 8 cho mỗi bảng con)
- Bước 2: Khởi tạo biến đếm kết hợp thuộc tính j với j = 1 cho biết số thuộc tính
đang xét
- Bước 3: Với mỗi bảng con đang xét, phân chia các thuộc tính của nĩ thành một
danh sách các tổ hợp phân biệt, mỗi tổ hợp của danh sách ứng với j thuộc tính phân biệt
Trang 23- Bước 4: Với mỗi tổ hợp các thuộc tính trong danh sách trên, đếm số lần xuất
hiện các giá trị của các thuộc tính trong cùng tổ hợp ở các dịng chưa bị đánh dấu của bảng đang xét, nhưng nĩ khơng được xuất hiện cùng giá trị ở những bảng con khác Chọn ra một tổ hợp trong danh sách sao choĩ cĩ giá trị tương ứng xuất hiện nhiều nhất và được gọi là Max_combination (tổ hợp lớn nhất)
- Bước 5: Nếu Max_combination = 0 thì tăng j lên, j = j+1 và quay lại bước 3
- Bước 6: Đánh dấu các dịng ở bảng con đang xét cĩ giá trị bằng với giá trị tạo
ra Max_combination
- Bước 7: Thêm luật mới vào tập luật R với vế trái là tập các giá trị của thuộc tính
ứng với tổ hợp lớn nhất (kết hợp các thuộc tính bằng tốn tử AND) và vế phải
là giá trị thuộc tính quyết định tương ứng
- Bước 8: Nếu tất cả các dịng đều đã được đánh dấu phân lớp:
o Nếu cịn bảng con thì qua bảng con tiếp theo và quay lại bước 2
o Nếu các bảng con đã được xét thì kết thúc thuật tốn
Ngược lại nếu chưa đánh dấu hết các dịng thì quay lại bước 4
Chi tiết của kỹ thuật phân lớp dữ liệu bằng mạng Nạve Bayes cĩ thể tham khảo tại [7]
- Chi phí đào tạo cao
1.3.4 Phân lớp dữ liệu bằng cây quyết định
Cây quyết định là một cấu trúc biểu diễn dưới dạng cây Mỗi cây quyết định
là một cấu trúc cây kiểu lưu đồ, trong đĩ mỗi nút trong biểu thị một sự kiểm tra trên
Trang 24một thuộc tính nào đó, mỗi nhánh biểu diễn một kết quả của sự kiểm tra đó, còn mỗi
nút lá chứa một nhãn lớp Một số thuật toán cây quyết định chỉ sinh ra các cây nhị phân (trong đó mỗi nút trong sẽ rẽ nhánh đến hai nút khác), trong khi một số thuật
toán cây quyết định khác lại có thể sinh ra những cây không phải nhị phân Quy nạp
cây quyết định là việc tìm kiếm các cây quyết định từ những bản ghi huấn luyện đã
Trang 25Các cây quyết định được dùng cho phân lớp như thế nào? Cho một bản ghi X
nào đó mà ta chưa biết nhãn lớp liên kết với nó, các giá trị thuộc tính của bản ghi đó được kiểm tra so với cây quyết định Dựa theo những cuộc kiểm tra đó, ta lần ra một đường đi từ nút gốc đến một nút lá chưa kết quả dự đoán lớp dành cho bản ghi ấy Các cây quyết định có thể dễ dàng được chuyển đổi thành các luật phân lớp, tức là hình thức phân loại đơn giản và dễ hiểu nhất đối với người sử dụng [11]
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo, nghĩa là một ánh xạ từ các quan sát về một sư vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi nút trong tương ứng với một biến, đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị
dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó
Ưu điểm:
- Khả năng sinh ra các quy tắc hiểu được: Nó có thể sinh ra các quy tắc chuyển
đổi được sang dạng if…then…else, hoặc các câu lệnh SQL Đây là ưu điểm nổi
bật của kỹ thuật này Thậm chí với cả những tập dữ liệu lớn khiến cho hình dáng cây quyết định lớn và phức tạp, việc đi theo bất cứ đường nào trên cây là dễ dàng theo ý nghĩa phổ biến và rõ ràng Do vậy sự giải thích cho bất cứ một sự phân lớp hay dự đoán nào đều tương đối rõ ràng
- Khả năng xử lý với cả thuộc tính liên tục và thuộc tính rời rạc: Cây quyết định
có thể xử lý thuộc tính liên tục và thuộc tính rời rạc với độ “tốt” như nhau Tuy rằng với thuộc tính liên tục cần nhiều tài nguyên tính toán hơn [5]
- Thể hiện rõ ràng những thuộc tính tốt nhất: Các thuật toán xây dựng cây quyết định đưa ra thuộc tính mà phân chia tốt nhất tập dữ liệu đào tạo bắt đầu từ nút gốc của cây Từ đó có thể thấy những thuộc tính nào là quan trọng nhất cho việc
dự đoán hay phân lớp
- Dễ dàng tính toán khi phân lớp: Mặc dù cây quyết định có thể chứa nhiều định dạng, nhưng trong thực tế, các thuật toán sử dụng để tạo ra cây quyết định
Trang 26thường tạo ra những cây với số phân nhánh thấp và các test đơn giản tại từng nút, ví dụ như: So sánh số, xem xét phần tử của một tập hợp, và các phép nối đơn giản Đây là một ưu điểm quan trọng bởi trong môi trường thương mại, các
mô hình dự đoán thường được sử dụng để phân lớp hàng triệu, thậm chí hàng
1.4 Kết luận
Chương 1 đã trình bày cái nhìn khái quát nhất về phân lớp dữ liệu, giới thiệu một số kỹ thuật dùng cho phân lớp dữ liệu cũng như nhìn nhận các ưu điểm và nhược điểm của từng phương pháp Từ đó sẽ lựa chọn phương pháp phân lớp dữ liệu dựa trên cây quyết định để giải quyết bài toán phân lớp được đặt ra Chương 2 tiếp theo
sẽ đi vào tìm hiểu kỹ hơn phương pháp này
Trang 27CHƯƠNG 2: CÂY QUYẾT ĐỊNH TRONG VẤN ĐỀ PHÂN LOẠI
THUÊ BAO DI ĐỘNG 2.1 Giới thiệu
Trong bất cứ cơ quan, tổ chức kinh doanh dịch vụ nào thì khách hàng cũng luôn là yếu tố quan trọng nhất quyết định sự thành công và thịnh vượng của tổ chức
đó Nếu dịch vụ tốt, sản phẩm chất lượng nhưng không phù hợp với đối tượng hoặc không được khách hàng đón nhận thì thất bại là điều tất yếu Kinh doanh dịch vụ viễn thông di động cũng tương tự như thế Sau khi tham vấn anh Phạm Văn Tuyên, phụ trách kinh doanh tại TTVT5 Móng Cái, tôi được biết song song với tăng cường, nâng cấp cơ sở hạ tầng cùng với tăng chất lượng dịch vụ thì cũng cần quan tâm đến việc đánh giá và phân loại khách hàng, tức là quản lý các thuê bao di động đang hoạt động bằng cách chia họ thành các nhóm khác nhau với nhu cầu sử dụng khác nhau Bởi vì nếu chúng ta phân tích và trích xuất được thông tin trong hành vi khách hàng theo từng nhóm trong quá trình sử dụng dịch vụ thì có nghĩa rằng ta sẽ đánh giá được xu hướng và dự đoán được hành vi của họ trong tương lai gần, từ đó đưa ra các đối sách phù hợp để thỏa mãn họ và thúc đẩy hoạt động kinh doanh một cách hiệu quả Đối với vấn đề phân loại, có rất nhiều phương pháp để thực hiện điều này, đơn
cử là hai phương pháp phân cụm dữ liệu và phân lớp dữ liệu Trong luận văn này nghiên cứu xoay quanh phương pháp phân lớp Với những ưu điểm như đã phân tích tại chương 1, tôi quyết định sử dụng cây quyết định để giải quyết vấn đề phân lớp dữ liệu để phân loại các thuê bao di động trong viễn thông
2.2 Vấn đề phân loại thuê bao di động Vinaphone
2.2.1 Thực trạng tại TTVT5 Móng Cái – VNPT Quảng Ninh
Dựa trên báo cáo của Sở Thông tin và Truyền thông Quảng Ninh, trong năm
2016 tỉnh Quảng Ninh có tổng số 2,584,060 thuê bao di động, đạt tỷ lệ 185 thuê bao/100 dân, trong đó số thuê bao trả sau có 144,817 Riêng tại TTVT5 Móng Cái, thống kê trên địa bàn thành phố có 8561 thuê bao, số lượng thuê bao trả sau là 3969
Trang 28Việc thống kê số lượng thuê bao mới phát triển và các thuê bao cắt hủy - ngừng sử dụng dịch vụ được bộ phận tiếp nhận tiến hành hàng tháng
Về dịch vụ viễn thông nói chung và dịch vụ di động nói riêng, thời lượng cuộc gọi và giá thành cuộc gọi của từng khách hàng là cơ sở để đánh giá khách hàng đó nằm trong nhóm nào để có chính sách phục vụ phù hợp Vấn đề nghiên cứu, phân tích tổng chi phí hoặc thời gian gọi của một hay nhiều thuê bao di động trong một giai đoạn thời gian không chỉ phục vụ cho việc đánh giá thu lợi nhuận cho ngân sách,
mà nó còn phản ánh tần suất sử dụng, hành vi, mức độ tin tưởng và khả năng xảy ra trường hợp rời bỏ dịch vụ của thuê bao đó Kiểm soát được vấn đề đó là rất quan trọng, ảnh hưởng đến chiến lược kinh doanh lâu dài và năng lực cạnh tranh với các nhà cung cấp dịch vụ khác
Do chưa nắm rõ từng loại thuê bao nào sẽ được hưởng những quyền lợi nào nên chưa khai thác hiệu quả nguồn khách hàng sẵn có cũng như tìm kiếm nguồn khách hàng mới, việc này gây thất thoát tiền bạc và là khó khăn không nhỏ khi cạnh tranh với các nhà mạng khác
Sau khi tham vấn lãnh đạo trung tâm, được biết các thuê bao di động tại TTVT5 Móng Cái – VNPT Quảng Ninh được phân loại tương tự như các nhà mạng khác Các thuê bao được chia thành trả trước và trả sau và được chia nhỏ hơn nữa tùy theo mục đích sử dụng dịch vụ của khách hàng
Với thuê bao trả trước:
Thuê bao trả trước được phân loại tương đối chi tiết phục vụ từng đối tượng khách hàng riêng biệt với ưu đãi riêng:
- Nhóm cơ bản dành cho các khách hàng phổ thông
- Nhóm theo vị trí địa lý có các mức cước phí ưu đãi riêng cho từng khu vực
- Nhóm theo đối tượng (gia đình, cán bộ Đoàn, học sinh sinh viên, cặp đôi…) Trong các nhóm trên còn được phân loại nhỏ hơn nữa để phù hợp nhu cầu sử dụng của khách hàng Về cơ bản thì thuê bao trả trước phân loại như vậy có thể coi
Trang 29là hợp lý Tùy theo mục đích của khách hàng mà họ có thể chọn gói phù hợp cho mình Thông thường những khách hàng mới sử dụng dịch vụ sẽ đăng ký thuê bao trả trước trước tiên Giống như động thái “thăm dò” nhà cung cấp dịch vụ sau đó mới quyết định sử dụng lâu dài Vấn đề sử dụng lâu dài chia thành hai hướng: Tiếp tục sử dụng thuê bao trả trước và chuyển sang thuê bao trả sau Việc phân loại thuê bao trả sau thì có một chút khác biệt
Với thuê bao trả sau:
Thuê bao trả sau thường là những khách hàng gắn bó và xác định sử dụng dịch
vụ lâu dài với tần suất sử dụng dịch vụ thường xuyên và đều đặn Các thuê bao này thường sử dụng dịch vụ trả trước trong một khoảng thời gian trước khi chuyển sang trả sau Nếu việc phân loại thuê bao trả trước khoa học, giá cước minh bạch hợp lý
và thái độ phục vụ cũng như cơ sở hạ tầng tốt thì khả năng khách hàng chuyển từ trả trước sang trả sau là rất cao Đây có thể coi là những khách hàng “trung thành” Họ cũng được phân loại để quản lý:
- Nhóm cơ bản dành cho các thuê bao có lưu lượng cuộc gọi nhiều, với giá cước thấp hơn 40% so với thuê bao trả trước, một số tiện ích miễn phí, được quan tâm bằng các hoạt động quà tặng, mừng sinh nhật…
- Nhóm cho các dịch vụ kinh doanh: Dành cho thương gia (cá nhân) hoặc các doanh nghiệp (tổ chức) đã được tối ưu cước phí
- Nhóm gia đình và nhóm đồng nghiệp: Dành cho các khách hàng đăng ký cùng trong một gia đình hoặc một cơ quan/ tổ chức
2.2.2 Các vấn đề tồn tại
Về việc phân loại thuê bao di động như hiện tại là hoàn toàn khoa học và hợp
lý, đặt nhu cầu sử dụng của khách hàng lên hàng đầu Tuy nhiên, việc quản lý khách hàng qua các nhóm như hiện tại gần như chỉ giải quyết được vấn đề “chia để phục vụ” và phụ thuộc hoàn toàn vào khách hàng chứ chưa chủ động trong vấn đề tìm hiểu thói quen của khách hàng để có thể dự đoán hành vi của họ Trong thời gian qua,
Trang 30chúng tôi cũng quan tâm đến việc ưu đãi cho các khách hàng trung thành và khuyến khích sử dụng cho các khách hàng mới Điều đó thể hiện ở các đợt quà tặng khách
hàng thân thiết hay khuyến mại cũng ngày càng nhiều và đặc biệt là chi tiết “chương
trình khuyến mại chỉ áp dụng cho các thuê bao nhận được tin nhắn này” ở trong tin
nhắn thông báo gửi tới khách hàng Điều đó thể hiện các thuê bao đã được phân loại
Như vậy, ngoài vấn đề phân loại thuê bao như đã đề cập ở trên để quản lý theo mục đích sử dụng của khách hàng thì chúng tôi cũng đã và đang quan tâm đến việc xác định giá trị khách hàng, tức là xác định được đâu là các khách hàng “trung thành”, khách hàng thân thiết và khách hàng có khả năng rời mạng để đưa ra chiến lược nhằm tiếp tục phục vụ với nhiều ưu đãi hơn hoặc kịp thời khắc phục những thiếu sót trong quá trình phục vụ để thỏa mãn những khách hàng có ý định cắt hủy dịch vụ Điều đó không chỉ giữ được nguồn khách hàng đã có một cách ổn định mà còn có tác dụng phát triển nguồn khách hàng tiềm năng
Hai hướng phân loại khách hàng đề cập trên được triển khai song song để có thể phục vụ khách hàng tốt nhất Tuy nhiên, việc phân loại thuê bao di động theo từng nhóm khách hàng dựa theo thời lượng hoặc chi phí cuộc gọi mới chỉ được thực hiện qua việc tổng hợp dữ liệu một cách thủ công chứ chưa có ứng dụng thực hiện công việc này Vấn đề đặt ra là làm như thế nào và có độ tin cậy ra sao?
Như trình bày ở trên, kiểm soát được việc khách hàng cắt hủy dịch vụ là một việc rất quan trọng Điều đó ảnh hưởng mạnh đến kinh tế của nhà mạng Hàng ngày
bộ phận Kinh doanh sẽ ghi nhận các trường hợp cắt hủy của khách hàng sau đó tổng hợp theo từng tháng để đánh giá Trên thực tế, hàng tháng tại TTVT5 Móng Cái có thể lên đến hàng vài trăm trường hợp rời mạng là bình thường Nhiệm vụ đặt ra là làm sao để giảm thiểu được số lượng thuê bao rời mạng một cách kịp thời và chính xác nhất Điều này đồng nghĩa với việc phải dự đoán được khách hàng sắp rời mạng, hiểu họ cần gì? Lý do họ không hài lòng với dịch vụ? Việc phân loại khách hàng hoàn toàn có thể đảm nhiệm công việc dự đoán hành vi của họ trong tương lai gần Bởi lẽ trước khi một thuê bao rời mạng chắc chắn sẽ có những dấu hiệu được thể hiện qua
Trang 31hành vi hay tần suất sử dụng dịch vụ, dấu hiệu này có thể là tổng thời lượng cuộc gọi giảm dần hoặc tổng số cuộc gọi ít đi hoặc số tiền phải thanh toán hàng tháng của họ giảm mạnh Phân loại là để tìm ra quy luật, và quy luật dùng cho dự đoán
Hình 2.1: Thông tin những thuê bao đã ngừng sử dụng dịch vụ
(Nguồn: Bộ phận kinh doanh TTVT5 Móng Cái – VNPT Quảng Ninh)
Từ thống kê như hình 2.1, hoàn toàn có thể xác định được tỷ lệ thuê bao rời mạng theo từng tháng, thể hiện dưới dạng biểu đồ Biểu đồ đó phản ánh tốc độ tăng trưởng và phát triển thị phần có đạt chỉ tiêu hay không
Lấy một ví dụ nhỏ, chẳng hạn nếu đầu tháng 1 tại TTVT5 Móng Cái thống kê
có tổng số 3875 thuê bao trả sau Cuối tháng thống kê có 174 trường hợp cắt hủy – rời mạng Vậy tỷ lệ khách hàng rời mạng sẽ là:
Trang 32lệ rời mạng thấp hơn và tỷ lệ tăng trưởng cao hơn nữa Việc dự đoán được thuê bao rời mạng sẽ rất có ích trong việc giải quyết vấn đề này
Hình 2.2: Số lượng thuê bao rời mạng và phát triển tại TTVT5 Móng Cái - 2017
(Nguồn: Số liệu từ bộ phận kinh doanh TTVT5 Móng Cái – VNPT Quảng Ninh)
Biểu đồ hình 2.2 cho biết số lượng thuê bao rời mạng (màu cam) và phát triển (màu xám) trong từng tháng, qua các cột màu xanh dương thể hiện sự tăng trưởng tuy nhiên tốc độ tăng trưởng này rất chậm Với một thị trường hơn 10 vạn dân như thành phố Móng Cái thì con số này đáng lý ra có thể tăng nhiều hơn nữa
Ngoài ra, số lượng thuê bao rời mạng không ít hơn số lượng thuê bao mới là bao, có tháng thậm chí còn nhiều hơn, điều này phản ánh chất lượng phục vụ, cơ sở
hạ tầng cần được tăng cường cải thiện Nếu trong một tháng nếu số thuê bao phát triển được xấp xỉ hơn số thuê bao rời mạng hoặc thậm chí là ít hơn như trong tháng 7
và tháng 8 được thể hiện trên biểu đồ hình 2.2 thì rõ ràng đó là một thất bại Nếu tỷ
lệ rời mạng ngày càng “đi lên” thì đó là một tín hiệu xấu, chứng tỏ thị phần đang “đi
Số lượng thuê bao rời mạng và phát
triển tại TTVT5 Móng Cái
Trang 33xuống” và rơi dần vào tay các đối thủ cạnh tranh Phải tìm hiểu nguyên nhân và đưa
ra phương án giải quyết nếu muốn tiếp tục phát triển Đó cũng chính là mục đích của luận văn này: Tìm một giải pháp để phân loại các thuê bao dựa trên các thông tin như thời lượng cuộc gọi hoặc giá tiền thanh toán hàng tháng…, từ đó xác định được những nhóm thuê bao nào “trung thành” và nhóm nào “có thể rời mạng” để đưa ra các biện pháp khắc phục và chiến lược kinh doanh hợp lý
2.3 Ứng dụng cây quyết định trong phân loại thuê bao di động
Để giải quyết vấn đề phân loại thuê bao di động bằng phân lớp dữ liệu thì trong chương 1 đã trình bày một số phương pháp trong đó có cây quyết định Câu hỏi đặt
ra là trong ngành viễn thông, phân loại các thuê bao di động để làm gì và cây quyết định đóng vai trò ra sao, có tác dụng gì trong việc phân loại đó? Những câu hỏi này
sẽ được trả lời ở phần tiếp theo dưới đây
2.3.1 Xác định giá trị khách hàng
Một trong các ứng dụng quan trọng của cây quyết định trong ngành viễn thông
là xác định được giá trị của khách hàng sau khi đã phân loại Trong kinh doanh, giá trị khách hàng được xem như là dòng tiền ròng của khách hàng và lợi nhuận tiềm năng, được xác định từ các yếu tố sau: Giá trị hiện tại, giá trị lịch sử, dự đoán giá trị dài hạn, tín dụng và lòng trung thành Qua đó, sự đóng góp của khách hàng sẽ được đánh giá và định lượng để hỗ trợ cho các quyết định của nhà cung cấp với mục đích phục vụ khách hàng một cách tốt nhất – điều này kéo theo với việc phát triển thị trường doanh nghiệp Trong nền kinh tế thị trường định hướng xã hội chủ nghĩa, việc cạnh tranh là tất yếu, khách hàng là yếu tố tối quan trọng quyết định sự tồn vong của một nhà cung cấp dịch vụ Để xác định được giá trị của khách hàng, chúng ta cần phân loại họ Từ các nhóm khách hàng được phân loại sẽ thể hiện được sự đóng góp của họ cho nhà mạng và chắc chắn rằng, nhà mạng sẽ đưa ra những ưu đãi tương xứng với sự đóng góp đó
Theo tình hình thực tế tại cơ sở, hệ thống đánh giá khách hàng dựa trên giá trị khách hàng hiện nay tuy được chú ý nhưng chưa được thiết kế cụ thể và hệ thống
Trang 34thẩm định giá trị khách hàng vẫn đang được xem xét Hiện nay, Vinaphone dự đoán vòng đời của thuê bao trong mạng dựa trên dữ liệu đặc tính, sau đó tính toán giá trị dài hạn của các thuê bao Việc này theo quan điểm cá nhân của tác giả luận văn thì chỉ hướng đến từng thuê bao riêng lẻ hơn là khoanh vùng để phân loại Việc xác định giá trị khách hàng để phân họ ra thành các nhóm có cùng đặc tính không chỉ phản ánh được thứ tự ưu tiên của từng nhóm mà còn có thể giải quyết vấn đề họ gặp phải
2.3.2 Khả năng dự đoán thuê bao rời mạng
Trong lĩnh vực viễn thông, hầu hết khách hàng luôn có nhiều lựa chọn giữa các nhà cung cấp dịch vụ di động khác nhau Họ sẵn sàng rời mạng, cắt hủy thuê bao nếu nhà mạng không đáp ứng được nhu cầu sử dụng của họ hoặc vì những lý do khác làm họ không hài lòng Tất cả những nhà cung cấp dịch vụ di động trên thế giới đều
“sợ” các khách hàng của mình rời mạng hoặc hủy bỏ dịch vụ như thế Việc khách hàng rời mạng không chỉ gây ảnh hưởng kinh tế hiện tại mà còn gây tốn kém chi phí nhiều hơn trong việc tìm kiếm các khách hàng mới bù đắp vào phần khách hàng mất
đi Trong phần này xin đề cập đến “churn” – một thuật ngữ trong kinh doanh mô tả hành vi dừng sử dụng dịch vụ của khách hàng Trong viễn thông, “churn” ám chỉ
những thuê bao sẵn sàng rời mạng, hủy bỏ các dịch vụ đang sử dụng
2.3.2.1 Khái niệm rời mạng và tỷ lệ rời mạng
Trong tình hình hiện tại, khách hàng rời mạng đã trở thành vấn đề quan tâm chính của các nhà cung cấp dịch vụ di động Đây là một trong những ngành có tỉ lệ khách hàng hủy dịch vụ cao với tỉ lệ trung bình hàng năm từ 20% đến 40% Với kỷ nguyên công nghệ thông tin như hiện nay, việc một cá nhân/ tổ chức không sử dụng dịch vụ di động là ít thấy Trao đổi tin tức, cập nhật thông tin giữa người với người
là nhu cầu không thể thiếu trong cuộc sống và công việc Vì vậy, khái niệm rời mạng trong lĩnh vực viễn thông ngoài ý nghĩa cắt hủy dịch vụ còn được hiểu là khách hàng chuyển từ nhà cung cấp này sang nhà cung cấp khác
Tỷ lệ rời mạng trong viễn thông [10], hay còn gọi là tỷ lệ tiêu hao, là tỷ lệ được thể hiện dưới dạng phần trăm cho thấy các thuê bao quyết định ngừng sử dụng dịch
Trang 35vụ (rời mạng), các thuê bao này được thống kê thường xuyên trong một khoảng thời gian nhất định – thường là hàng tháng
Đối với một cơ quan cung cấp dịch vụ viễn thông di động, để mở rộng thị trường của mình và tăng tốc độ tăng trưởng phải kiểm soát và giữ được tỷ lệ rời mạng luôn ở mức thấp nhất có thể, hoặc đạt được điều kiện là số lượng khách hàng mới phải vượt quá tỷ lệ rời mạng càng nhiều càng tốt
Tỷ lệ rời mạng được tính như sau:
𝑇ỷ 𝑙ệ 𝑟ờ𝑖 𝑚ạ𝑛𝑔 = Số khách hàng rời mạng trong tháng
Tổng số khách hàng đầu tháng 100 Việc xác định tỷ lệ rời mạng rất quan trọng bởi vì nếu tỷ lệ này cao đồng nghĩa với việc đang tồn tại nhiều vấn đề yếu kém trong kinh doanh, cơ sở hạ tầng xuống cấp, thái độ phục vụ tồi… và đó cũng là dấu hiệu cho thấy sự tăng trưởng của các đối thủ cạnh tranh
Sau khi tham vấn bộ phận Kinh doanh thuộc TTVT5 Móng Cái tôi được biết:
Có 2 loại rời mạng khác nhau: Loại thứ nhất là rời mạng chủ động (nghĩa là khách hàng chủ động chọn dừng sử dụng dịch vụ) Loại thứ hai là rời mạng bị động (nghĩa
là khi những khách hàng không còn là khách hàng tốt nữa, ví dụ như nợ cước quá hạn
và doanh nghiệp buộc phải lựa chọn phương án dừng mối quan hệ này)
Sau khi dự đoán được sự rời mạng, nhà cung cấp dịch vụ có thể đưa ra các biện pháp “phòng ngừa” khác nhau Qua các biện pháp đang được triển khai, tôi chia
vấn đề tiếp cận sự rời mạng thành 2 loại: Tiếp cận không có đối tượng và tiếp cận có
đối tượng:
- Tiếp cận không có đối tượng là tăng cường tuyên truyền, phát huy các ưu điểm nổi trội, cải thiện dịch vụ, cơ sở hạ tầng và quảng bá rộng rãi đến khách hàng thông qua các kênh báo chí, truyền hình, băng rôn, biển quảng cáo… Mục đích của hoạt động này để phổ biến tới những người chưa biết, gia tăng lòng tin và mức độ yên tâm của khách hàng, giảm thiểu khả năng rời mạng
(2.1)