Ứng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động VinaphoneỨng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động Vinaphone
Trang 1Vi Quyết Thắng
ỨNG DỤNG KỸ THUẬT PHÂN LỚP DỮ LIỆU CHO PHÂN
LOẠI THUÊ BAO DI ĐỘNG VINAPHONE
Chuyên ngành: Hệ thống thông tin
Mã số: 8480104
TÓM TẮT LUẬN VĂN THẠC SĨ
(Theo định hướng ứng dụng)
HÀ NỘI – 2018
Trang 2HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS TRẦN ĐÌNH QUẾ
Phản biện 1:
………
………
………
………
………
………
Phản biện 2: ………
………
………
………
………
………
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông Vào lúc: giờ ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Thư viện của Học viện Công nghệ Bưu chính Viễn thông
Trang 3MỞ ĐẦU
Trong lĩnh vực viễn thông, khách hàng (các thuê bao di động) chính là những người mang lại doanh thu và duy trì hoạt động cho nhà cung cấp dịch vụ, vì vậy việc nghiên cứu, phân loại và đánh giá họ để đưa ra những quyết sách phù hợp là cần thiết Ngoài ra, một lý do quan trọng nữa là việc phân loại sẽ giúp nhà cung cấp tiết kiệm chi phí trong công cuộc giữ chân những thuê bao đang hoạt động, tác động duy trì những thuê bao định rời mạng kịp thời và phát triển các thuê bao mới
Xuất phát từ tình hình thực tế tại cơ quan và dưới sự dẫn dắt của PGS.TS Trần
Đình Quế, tôi đã đề xuất ý tưởng thực hiện đề tài luận văn: “Ứng dụng kỹ thuật phân lớp dữ liệu cho phân loại thuê bao di động Vinaphone” Luận văn đi sâu vào
áp dụng phương pháp phân lớp dữ liệu dựa trên cây quyết định, từ đó sẽ đánh giá, phân loại và dự đoán hành vi của các thuê bao di động đang hoạt động
Luận văn này có ba chương:
Chương 1: Tổng quan về phân lớp dữ liệu
Chương này trình bày về cơ sở lý thuyết như khái niệm, trình bày một số phương pháp phân lớp dữ liệu phổ biến Tìm hiểu các điểm mạnh điểm yếu của từng phương pháp, qua đó cho thấy ưu điểm của phương pháp phân lớp dữ liệu dựa trên cây quyết định phù hợp để giải quyết vấn đề phân loại các thuê bao di động
Chương 2: Cây quyết định trong vấn đề phân loại thuê bao di động
Chương này tập trung vào khảo sát tình hình thực tế tại TTVT5 Móng Cái, trình bày về sự cần thiết của việc phân loại các thuê bao di động Chương này cũng trình bày các ứng dụng của cây quyết định trong viễn thông và phương pháp thiết kế xây dựng cây quyết định để giải quyết vấn đề phân loại
Chương 3: Thử nghiệm và đánh giá
Với cơ sở lý luận và thực trạng đã trình bày ở các chương 1 và 2, với mẫu thử
là dữ liệu của các thuê bao di động được thu thập từ TTVT5 Móng Cái – VNPT Quảng Ninh, tôi đã áp dụng thử nghiệm trên chương trình, xuất ra kết quả phân loại
và dự đoán Từ kết quả đó sẽ đưa ra nhận xét, đánh giá và phương hướng phát triển chương trình trong tương lai
Trang 4CHƯƠNG 1: TỔNG QUAN VỀ PHÂN LỚP DỮ LIỆU
1.1 Giới thiệu
Khoa học công nghệ ngày càng phát triển đồng nghĩa với việc lượng thông tin,
dữ liệu ngày càng nhiều Để có thể phát hiện và trích xuất những tri thức, những thông tin đáng giá từ kho dữ liệu khổng đó để đưa vào phục vụ con người thì chúng
ta đã biết tới khái niệm “Khai phá dữ liệu”, được biết đến như là một giải pháp có khả năng giải quyết tình trạng thông tin thừa, tri thức thiếu Muốn tìm tri thức, chúng
ta phải “đào” trong các “mỏ” thông tin Về mặt kỹ thuật, phân lớp dữ liệu là một trong các phương pháp khai phá dữ liệu đã được ứng dụng rộng rãi trong nhiều lĩnh vực khác nhau Trong chương 1 này sẽ trình bày tổng quan về phân lớp dữ liệu và một số kỹ thuật phân lớp phổ biến
1.2 Phân lớp dữ liệu
1.2.1 Khái niệm và quy trình của phân lớp dữ liệu
Phân lớp dữ liệu là một hướng nghiên cứu quan trọng trong khai phá dữ liệu
Nó là một dạng của phân tích dữ liệu nhằm chọn lọc, trích rút, mô tả và phân loại một cách có hệ thống các thông tin hữu ích để phục vụ một mục đích cụ thể nào đó như khảo sát, phân tích, đánh giá, dự đoán
Về mặt kỹ thuật, phân lớp dữ liệu là một quá trình gồm hai bước:
- Bước học (giai đoạn huấn luyện): Xây dựng nên mô hình phân lớp hoặc nói cách khác là bộ phân loại bằng việc phân tích/ học tập huấn luyện
- Bước phân lớp: Từ mô hình vừa xây dựng ở bước học sẽ được sử dụng để
dự đoán các nhãn lớp cho những dữ liệu nào đó Nếu độ chính xác của bộ phân loại được đánh giá là chấp nhận được thì tại bước này sẽ tiến hành phân loại dữ liệu/ đối tượng
1.2.2 Các vấn đề trong phân lớp dữ liệu
Tiền xử lý dữ liệu
o Làm sạch dữ liệu
o Phân tích sự cần thiết của dữ liệu
o Chuyển đổi dữ liệu
Trang 5 Đánh giá độ chính xác của mơ hình phân lớp
1.3 Một số kỹ thuật phân lớp dữ liệu
1.3.1 Phân lớp dữ liệu bằng Neural Network
Học bằng mạng nơ-rơn nhân tạo (ANN) được giới thiệu năm 1943 bởi nhà thần kinh học Warren McCulloch và nhà logic học Walter Pits Nhưng với những kỹ thuật trong thời gian này chưa cho phép họ nghiên cứu được nhiều Những năm gần đây việc mơ phỏng ANN mới xuất hiện và phát triển.Một mạng nơ-rơn nhân tạo, hay gọi tắt là mạng nơ-rơn là một tập hợp các nút xuất/ nhập nối kết với nhau, trong đĩ mỗi đường nối kết cĩ một trọng số liên kết với nĩ
Ưu điểm:
- Chịu được dữ liệu nhiễu cao
- Thích hợp với các dữ liệu nhập và xuất cĩ giá trị liên tục
Nhược điểm:
- Thời gian huấn luyện dài
- Khĩ hiểu
1.3.2 Phân lớp dữ liệu bằng mạng Nạve Bayes
Các mơ hình phân lớp dựa theo Bayes (Bayesian classifier) là loại mơ hình phân lớp theo lý thuyết thống kê Chúng cĩ thể dự đốn xác suất của các thành viên lớp, chẳng hạn xác suất để một bản ghi nhất định thuộc về một lớp cụ thể nào đĩ Phân lớp dựa theo Bayes căn cứ vào nền tảng lý thuyết là Định lý Bayes (đặt tên theo Thomas Bayes, nhà tốn học người Anh sống ở thế kỷ 18)
Trang 6Thuật tốn phân lớp Nạve Bayes giả định rằng ảnh hưởng của một giá trị thuộc tính nào đĩ trên một lớp nhất định là độc lập với các giá trị của các thuộc tính
khác Giả định này được gọi là sự độc lập theo điều kiện lớp (class-conditional
independence) Người ta giả định như vậy để đơn giản hĩa khối lượng tính tốn cần thiết, và vì lý do này, nĩ được gọi là “ngây thơ” (nạve)
- Các thuộc tính phụ thuộc nhau
- Khơng sinh ra những mơ hình phân lớp dễ hiểu
1.3.3 Phân lớp dữ liệu bằng giải thuật học ILA
Thuật giải học quy nạp ILA (Inductive Learning Algorithm) được dùng để xác định các luật phân loại cho tập hợp các mẫu học Giải thuật này thực hiện theo cơ chế lặp, để tìm luật riêng đại diện cho tập mẫu của từng lớp Sau khi xác định được luật, thuật giải sẽ loại bỏ các mẫu mà luật này bao hàm, đồng thời thêm luật mới này vào tập luật Kết quả cĩ được là một danh sách cĩ thứ tự các luật
Quá trình học của ILA xuất phát từ các thuộc tính quyết định ILA chia tập dữ liệu huấn luyện thành các tập con rời nhau, mỗi tập con là một phân lớp dựa trên thuộc tính quyết định Tiếp đến ILA sẽ xem xét trong từng phân lớp xem cĩ thuộc tính nào (hoặc tổ hợp thuộc tính nào) cĩ giá trị chỉ xuất hiện trong lớp đĩ mà khơng xuất hiện trong lớp khác hay khơng Nếu cĩ những (tổ hợp) thuộc tính và giá trị đĩ
sẽ được chọn làm đặc trưng cho phân lớp đĩ
Trang 71.3.4 Phân lớp dữ liệu bằng cây quyết định
Cây quyết định là một cấu trúc biểu diễn dưới dạng cây Mỗi cây quyết định
là một cấu trúc cây kiểu lưu đồ, trong đó mỗi nút trong biểu thị một sự kiểm tra trên một thuộc tính nào đó, mỗi nhánh biểu diễn một kết quả của sự kiểm tra đó, còn mỗi
nút lá chứa một nhãn lớp Một số thuật toán cây quyết định chỉ sinh ra các cây nhị phân (trong đó mỗi nút trong sẽ rẽ nhánh đến hai nút khác), trong khi một số thuật
toán cây quyết định khác lại có thể sinh ra những cây không phải nhị phân Quy nạp
cây quyết định là việc tìm kiếm các cây quyết định từ những bản ghi huấn luyện đã
có nhãn lớp
Ưu điểm:
- Khả năng sinh ra những quy tắc hiểu được
- Xử lý cả thuộc tính liên tục và rời rạc
- Thể hiện rõ ràng thuộc tính tốt nhất
- Dễ dàng tính toán khi phân lớp
Nhược điểm:
- Chi phí đào tạo cao
- Có khả năng xảy ra lỗi khi có quá nhiều lớp
1.4 Kết luận
Chương 1 đã trình bày cái nhìn khái quát nhất về phân lớp dữ liệu, giới thiệu một số kỹ thuật dùng cho phân lớp dữ liệu cũng như nhìn nhận các ưu điểm và nhược điểm của từng phương pháp Từ đó sẽ lựa chọn phương pháp phân lớp dữ liệu dựa trên cây quyết định để giải quyết bài toán phân lớp được đặt ra Chương 2 tiếp theo
sẽ đi vào tìm hiểu kỹ hơn phương pháp này
Trang 8CHƯƠNG 2: CÂY QUYẾT ĐỊNH TRONG VẤN ĐỀ PHÂN
LOẠI THUÊ BAO DI ĐỘNG
2.1 Giới thiệu
Đối với kinh doanh các dịch vụ viễn thông, tôi được biết song song với tăng cường, nâng cấp cơ sở hạ tầng cùng với tăng chất lượng dịch vụ thì cũng cần quan tâm đến việc đánh giá và phân loại khách hàng, tức là quản lý các thuê bao di động đang hoạt động bằng cách chia họ thành các nhóm khác nhau với nhu cầu sử dụng khác nhau Bởi lẽ nếu chúng ta nắm được thông tin cùng với hành vi khách hàng trong quá trình sử dụng dịch vụ đồng nghĩa sẽ đánh giá được xu hướng, dự đoán được hành vi của họ trong tương lai gần, từ đó đưa ra các đối sách phù hợp để thỏa mãn họ
và thúc đẩy hoạt động kinh doanh một cách hiệu quả
Đối với vấn đề phân loại, có rất nhiều phương pháp để thực hiện điều này, đơn
cử là hai phương pháp phân cụm dữ liệu và phân lớp dữ liệu Trong luận văn này nghiên cứu xoay quanh phương pháp phân lớp Với những ưu điểm như đã phân tích tại chương 1, tôi sẽ sử dụng cây quyết định để giải quyết vấn đề phân lớp dữ liệu để phân loại các thuê bao di động trong viễn thông
2.2 Vấn đề phân loại thuê bao di động Vinaphone
2.2.1 Thực trạng tại TTVT5 Móng Cái – VNPT Quảng Ninh
Dựa trên báo cáo của Sở Thông tin và Truyền thông Quảng Ninh, trong năm
2016 tỉnh Quảng Ninh có tổng số 2.584.060 thuê bao di động, đạt tỷ lệ 185 thuê bao/100 dân, trong đó thuê bao trả sau có 144.817 Tại thành phố Móng Cái có 3969 thuê bao trả sau Việc thống kê số lượng thuê bao ngừng sử dụng dịch vụ được làm hàng tháng
Thực tế hiện nay tại Trung tâm viễn thông Móng Cái – VNPT Quảng Ninh việc phân loại thuê bao di động chưa được chú trọng và chủ yếu được thực hiện thủ công khi được yêu cầu Do chưa nắm rõ từng loại thuê bao nào sẽ được hưởng những quyền lợi nào nên chưa khai thác hiệu quả nguồn khách hàng sẵn có cũng như tìm kiếm
Trang 9nguồn khách hàng mới, việc này gây khó khăn không nhỏ khi cạnh tranh với các nhà mạng khác đã “hiểu rõ khách hàng” hơn Tương tự các nhà mạng khác, Vinaphone phân thành các thuê bao di động trả trước và trả sau
Với thuê bao trả trước:
Thuê bao trả trước được phân loại tương đối chi tiết phục vụ từng đối tượng khách hàng riêng biệt với ưu đãi riêng:
- Nhóm cơ bản dành cho các khách hàng phổ thông
- Nhóm theo vị trí địa lý có các mức cước phí ưu đãi riêng cho từng khu vực
- Nhóm theo đối tượng (gia đình, cán bộ Đoàn, học sinh sinh viên, cặp đôi)
Với thuê bao trả sau:
Thuê bao trả sau thường là những khách hàng gắn bó và xác định sử dụng dịch
vụ lâu dài Nếu việc phân loại thuê bao trả trước khoa học, giá cước minh bạch hợp
lý và thái độ phục vụ cũng như cơ sở hạ tầng tốt thì khả năng khách hàng chuyển từ trả trước sang trả sau là rất cao Đây có thể coi là những khách hàng “trung thành”
Họ cũng được phân loại để quản lý:
- Nhóm cơ bản dành cho các thuê bao có lưu lượng cuộc gọi nhiều, với giá cước thấp hơn 40% so với thuê bao trả trước, một số tiện ích miễn phí, được quan tâm bằng các hoạt động quà tặng, mừng sinh nhật…
- Nhóm cho các dịch vụ kinh doanh: Dành cho thương gia (cá nhân) hoặc các doanh nghiệp (tổ chức) đã được tối ưu cước phí
- Nhóm gia đình và nhóm đồng nghiệp: Dành cho các khách hàng đăng ký cùng trong một gia đình hoặc một cơ quan/ tổ chức
2.2.2 Các vấn đề tồn tại
Ngoài chủ trương phân loại khách hàng theo mục đích sử dụng dịch vụ như đề cập bên trên thì chúng tôi cũng đã đề xuất chia nhóm các khách hàng theo giá trị khách hàng Tức là xác định được đâu là các khách hàng “trung thành”, khách hàng thân thiết, khách hàng có khả năng rời mạng để đưa ra chiến lược nhằm tiếp tục phục
vụ với nhiều ưu đãi hơn hoặc kịp thời đánh giá, khắc phục những thiếu xót trong quá trình phục vụ để thỏa mãn những khách hàng có khả năng rời mạng Điều đó không
Trang 10chỉ giữ được nguồn khách hàng hiện có một cách ổn định mà còn có tác dụng phát triển nguồn khách hàng tiềm năng Vấn đề đặt ra là thực hiện chia bằng phương pháp
gì và độ tin cậy ra sao?
Ngoài vấn đề quản lý khách hàng thì việc kiểm soát được việc khách hàng rời mạng, cắt hủy số điện thoại cũng là một việc rất quan trọng cần được quan tâm Hàng ngày sẽ ghi nhận các trường hợp cắt hủy của khách hàng sau đó tổng hợp theo từng tháng để đánh giá Trên thực tế, hàng tháng có thể lên đến hàng vài trăm trường hợp rời mạng là bình thường Nhiệm vụ đặt ra là làm sao để giảm thiểu được số lượng thuê bao rời mạng một cách kịp thời và chính xác nhất Điều này đồng nghĩa với việc phải dự đoán được khách hàng sắp rời mạng, hiểu họ cần gì, hài lòng hay không hài lòng với dịch vụ mình cung cấp
2.3 Ứng dụng cây quyết định trong phân loại thuê bao di động
2.3.1 Xác định giá trị khách hàng
Từ quan điểm kinh doanh, giá trị khách hàng được xem như là dòng tiền ròng của khách hàng và lợi nhuận tiềm năng, được xác định từ các yếu tố sau: Giá trị hiện tại, giá trị lịch sử, dự đoán giá trị dài hạn, tín dụng và lòng trung thành Qua đó, sự đóng góp của khách hàng sẽ được đánh giá và định lượng để hỗ trợ cho các quyết định của nhà cung cấp với mục đích phục vụ khách hàng một cách tốt nhất – điều này kéo theo với việc phát triển thị trường doanh nghiệp, tức chúng ta có thể ngầm hiểu
là tăng ngân sách cho nhà mạng
Theo tình hình thực tế tại cơ sở, hệ thống đánh giá khách hàng dựa trên giá trị khách hàng hiện nay tuy được chú ý nhưng chưa được thiết kế và hệ thống thẩm định giá trị khách hàng vẫn đang được xem xét Hiện nay, Vinaphone dự đoán vòng đời của thuê bao trong mạng dựa trên dữ liệu đặc tính, sau đó tính toán giá trị dài hạn của các thuê bao Việc này theo quan điểm cá nhân của người viết luận văn thì có vẻ như hướng đến từng thuê bao riêng lẻ hơn là khoanh vùng để phân loại thuê bao Việc xác định giá trị khách hàng để phân họ ra thành các nhóm có cùng đặc tính không chỉ phản ảnh được thứ tự ưu tiên của từng nhóm mà còn có thể giải quyết vấn đề họ gặp
Trang 11phải Bởi khi đó nhà cung cấp dịch vụ “hiểu” khách hàng của mình hơn, biết họ đang
có nhu cầu sử dụng thế nào, mong đợi điều gì, điều gì làm họ không hài lòng
2.3.2 Khả năng dự đoán thuê bao rời mạng
2.3.2.1 Khái nhiệm rời mạng và tỷ lệ rời mạng
Trong tình hình hiện tại, khách hàng rời mạng đã trở thành vấn đề quan tâm chính của các nhà cung cấp dịch vụ di động Đây là một trong những ngành có tỉ lệ khách hàng hủy dịch vụ cao với tỉ lệ trung bình hàng năm từ 20% đến 40% Với kỷ nguyên công nghệ thông tin như hiện nay, việc một cá nhân/ tổ chức không sử dụng dịch vụ di động là điều ít thấy Nhu cầu trao đổi tin tức, cập nhật thông tin giữa người với người là điều không thể thiếu trong cuộc sống và công việc Vì vậy, khái niệm rời mạng trong lĩnh vực viễn thông ngoài ý nghĩa cắt hủy dịch vụ còn được hiểu là khách hàng chuyển từ nhà cung cấp này sang nhà cung cấp khác
Tỷ lệ rời mạng được tính như sau:
𝑇ỷ 𝑙ệ 𝑟ờ𝑖 𝑚ạ𝑛𝑔 = Số khách hàng rời mạng trong tháng
Tổng số khách hàng đầu tháng 100 Việc xác định tỷ lệ rời mạng rất quan trọng bởi vì nếu tỷ lệ này cao đồng nghĩa với việc đang tồn tại nhiều vấn đề yếu kém trong kinh doanh, cơ sở hạ tầng xuống cấp, thái độ phục vụ tồi… và đó cũng là dấu hiệu cho thấy sự tăng trưởng thị phần của các đối thủ cạnh tranh
2.3.2.2 Kỹ thuật dự đoán rời mạng trong viễn thông
Do tìm kiếm khách hàng tiềm năng bằng các biện pháp truyền thống như truyền thông, tuyên truyền, quảng cáo… có chi phí rất cao, tốn thời gian và công sức nên việc dự đoán hành vi của khách hàng đã trở thành một phần không thể tách rời của quá trình ra quyết định và hoạch định chiến lược kinh doanh của ngành viễn thông Song song với tìm kiếm những khách hàng mới, hãy tìm cách giữ chân các khách hàng cũ Không chỉ ở Việt Nam mà các hãng viễn thông lớn trên thế giới cũng đang nghiên cứu và phát triển những mô hình mới nhằm dự đoán hành vi khách hàng
để có biện pháp giữ chân những khách hàng có thể rời mạng và đưa ra lời khuyên kịp thời trước khi hành vi đó xảy ra Từ đó có thể tránh được nguy cơ mất đi khách hàng
Trang 12cũ của nhà mạng Trong phần này sẽ trình bày một số kỹ thuật phổ biến để giải quyết vấn đề dự đoán, trong đó có cây quyết định
Các giai đoạn thực hiện:
Nhóm 1: Thông tin khách hàng
Nhóm 2: Hóa đơn và thanh toán
Nhóm 3: Chi tiết cuộc gọi
Nhóm 4: Dịch vụ chăm sóc khách hàng
Xây dựng mô hình:
- Ban đầu đối với mỗi thuộc tính, giá trị
ngưỡng sẽ được gán
- Các giá trị thuộc tính của tập dữ liệu huấn
luyện được so sánh với ngưỡng của thuộc tính để
kết luận rằng một khách hàng sẽ quay lại hay
không Các luật đơn giản "if then else" được
áp dụng trong quá trình này
- Một mô hình sau đó được xây dựng cho tập
dữ liệu đào tạo
- Mô hình này sẽ được áp dụng trên tập dữ
liệu thử nghiệm và liệt kê kết quả
- Các bước trên có thể được lặp lại bằng cách
thay đổi giá trị ngưỡng của các thuộc tính được
chọn
Hình 2.3: Tạo dựng mô hình khai phá dữ liệu trong Viễn thông
DỮ LIỆU KHO CHỨA DỮ LIỆU
TRÍCH XUẤT ĐẶC TÍNH / BIẾN
DỮ LIỆU THỬ NGHIỆM
TẠO MÔ HÌNH
DỰ ĐOÁN (Cây quyết định)
TIỀN XỬ LÝ
DỮ LIỆU
DỮ LIỆU ĐÃ PHÂN TÍCH