ĐỐI TƢỢNG NGHIÊN CỨU
- Các thuật toán K-Means, SVM
- Mô hình dự báo và sử dụng kết hợp nhiều thuật toán
PHƯƠNG PHÁP NGHIÊN CỨU
Nghiên cứu ứng dụng thực tiễn khai thác dữ liệu nhằm xây dựng chương trình dự báo khách hàng chuyển mạng sử dụng kỹ thuật Machine Learning và các thuật toán đã được học.
Luận văn gồm có phần mở đầu và phần kết luận và 03 chương:
Chương 1: Tổng quan về học máy và bài toán dự báo khách hàng viễn thông chuyển mạng
Chương này giới thiệu khái niệm học máy và các bài toán chính trong lĩnh vực này, với trọng tâm là bài toán phân lớp và các thuật toán phân lớp tiêu biểu Bên cạnh đó, chương cũng tổng quan về bài toán dự báo khách hàng viễn thông chuyển mạng và cách tiếp cận học máy để giải quyết vấn đề này.
Chương 2: Kết hợp thuật toán Kmean và thuật toán SVM để giải bài toán phân lớp
Chương này giới thiệu thuật toán phân cụm K-means và thuật toán phân lớp SVM, kèm theo phân tích chi tiết về từng thuật toán Đồng thời, chúng tôi cũng xây dựng một mô hình kết hợp giữa K-means và SVM để giải quyết bài toán phân lớp hiệu quả.
Chương 3: Ứng dụng dự báo khách hàng chuyển mạng viễn thông
Chương này trình bày kết quả thử nghiệm và đánh giá hiệu quả của thuật toán kết hợp Kmean và SVM trong việc dự báo khách hàng chuyển mạng viễn thông, dựa trên dữ liệu thu thập trực tiếp từ VNPT Bình Định.
TỔNG QUAN VỀ HỌC MÁY VÀ BÀI TOÁN DỰ BÁO KHÁCH HÀNG VIỄN THÔNG CHUYỂN MẠNG
GIỚI THIỆU HỌC MÁY
Machine Learning is a subset of Artificial Intelligence (AI) and a specialized area within Computer Science It enables systems to learn autonomously from input data without the need for explicit programming.
Học máy, một nhánh của trí tuệ nhân tạo, nhằm phát triển các phương pháp cho phép máy tính tự động cải tiến chất lượng thông qua dữ liệu và kinh nghiệm Nghiên cứu trong lĩnh vực này giải quyết nhiều bài toán thực tiễn, từ nhận dạng ngôn ngữ và tiếng nói đến phân tích dữ liệu và điều khiển tự động Với sự tiến bộ nhanh chóng của công nghệ thông tin, học máy đã được áp dụng thành công trong nhiều lĩnh vực như hệ thống nhận dạng tiếng nói, chữ viết tay, và phân tích dữ liệu trong marketing.
Trong những năm gần đây, với sự nâng cao khả năng tính toán của máy tính và lượng dữ liệu khổng lồ từ các hãng công nghệ lớn, Học máy đã có những bước tiến vượt bậc, dẫn đến sự ra đời của Học sâu (Deep Learning) Công nghệ này cho phép máy tính thực hiện những nhiệm vụ tưởng chừng như không thể, như phân loại hàng ngàn vật thể trong ảnh, tự động tạo chú thích cho hình ảnh, bắt chước giọng nói và chữ viết của con người, cũng như giao tiếp và sáng tác văn chương hay âm nhạc.
Học máy có mối liên hệ chặt chẽ với thống kê, sử dụng các mô hình thống kê để ghi nhớ sự phân bố dữ liệu Không chỉ dừng lại ở việc ghi nhớ, học máy còn có khả năng tổng quát hóa thông tin đã học và đưa ra dự đoán cho những trường hợp chưa gặp Đỉnh cao của học máy là khả năng mô phỏng sự tổng quát hóa và suy luận của con người, trở thành một trong những kỹ thuật hàng đầu trong nhận diện, dự đoán và tự động hóa.
Học là một khái niệm rộng, tương tự như sự thông minh, bao gồm quá trình tiếp thu kiến thức và kỹ năng từ người khác hoặc thông qua quan sát và trải nghiệm Học máy (machine learning) có hai nghĩa chính: khám phá tri thức từ dữ liệu bằng máy tính và quá trình học của máy (tác tử) Trong lĩnh vực công nghệ, học máy thuộc trí tuệ nhân tạo, nghiên cứu các kỹ thuật giúp chương trình máy tính thích nghi và học từ dữ liệu mẫu hoặc kinh nghiệm Mặc dù có nhiều định nghĩa về học máy, định nghĩa của Tom Mitchell cung cấp cái nhìn toán học về chương trình học, cho rằng một chương trình máy tính được coi là học từ dữ liệu E đối với nhiệm vụ T nếu hiệu suất thực hiện T được cải thiện nhờ vào E Để tối ưu hóa hiệu suất P, cần phân tích dữ liệu hoặc kinh nghiệm E nhằm thực hiện nhiệm vụ T một cách tốt nhất.
1.1.2 Một số bài toán chính trong học máy [2]
Học có giám sát (Supervised Learning)
Học có giám sát là phương pháp sử dụng dữ liệu đã được gán nhãn để suy luận mối quan hệ giữa đầu vào và đầu ra Dữ liệu này, gọi là dữ liệu huấn luyện, bao gồm các cặp đầu vào - đầu ra Phương pháp này phân tích các tập huấn luyện nhằm dự đoán đầu ra cho những đầu vào mới.
Các bài toán học không giám sát chủ yếu bao gồm ước lượng hàm mật độ, phân cụm dữ liệu và dóng hàng dựa trên cấu trúc Trong ước lượng hàm mật độ, ta sử dụng một tập mẫu dữ liệu ngẫu nhiên để ước lượng hàm mật độ của phân bố Đối với phân cụm dữ liệu, mục tiêu là chia tập dữ liệu thành các cụm sao cho các phần tử trong cùng một cụm có đặc điểm tương đồng hơn so với các phần tử ở cụm khác, thường được xác định qua khoảng cách giữa các đối tượng.
Khi khoảng cách từ A đến B nhỏ hơn khoảng cách từ A đến C, việc phân cụm dữ liệu lớn giúp giảm thời gian chạy ứng dụng Tuy nhiên, bài toán này thường không được thiết lập đúng đắn và không có nghiệm duy nhất Phân tích dữ liệu có cấu trúc như chuỗi hoặc mạng dẫn đến các bài toán dóng hàng trong xử lý ngôn ngữ tự nhiên và tin sinh học Dóng hàng các trình tự DNA, RNA, Protein và mạng tương tác protein giúp hiểu rõ sự tương đồng và khác biệt về nhiều đặc điểm sinh học giữa các cá thể và loài.
Trong nhiều trường hợp, đầu ra của hệ thống là một chuỗi tác động, trong đó mỗi tác động riêng lẻ không quan trọng bằng việc chuỗi tác động đó đạt được mục đích định trước Ví dụ, trong các trò chơi cờ, một nước đi không có giá trị quyết định, mà điều quan trọng là chuỗi nước đi dẫn đến chiến thắng Tương tự, phương thức học từ trải nghiệm cuộc sống cho phép tạo ra nhiều lời giải chấp nhận được một cách ngẫu nhiên, và qua mỗi lần lặp, điều chỉnh trọng số để hướng đến những tác động có trọng số cao hơn, giúp đạt được mục tiêu Bài toán học tăng cường trở nên phức tạp hơn khi chỉ có thể quan sát từng phần hoặc cần sự hợp tác của nhiều tác nhân để đạt được mục đích.
PHÂN LỚP DỮ LIỆU - MỘT SỐ BÀI TOÁN CHÍNH TRONG HỌC MÁY
Phân cụm dữ liệu là quá trình gom nhóm các phần tử dữ liệu tương tự nhau vào cùng một cụm (cluster).
Mục tiêu của việc phân chia một tập n phần tử dữ liệu X là tạo ra k nhóm (cụm) sao cho các cụm này đáp ứng các yêu cầu nhất định.
Các phần tử dữ liệu trong một cụm có độ tương tự cao, nghĩa là chúng giống nhau hoặc gần gũi về mặt đặc điểm Điều này cho phép các phần tử trong cùng một cụm được phân loại và nhận diện dễ dàng.
Các phần tử dữ liệu trong một cụm có sự khác biệt rõ rệt so với các phần tử trong các cụm khác, cho thấy tính không tương đồng giữa các phần tử thuộc các cụm khác nhau.
Ta có thể mô tả quá trình phân cụm dữ liệu qua một sơ đồ tổng quát nhƣ hình 1.1 bên dưới:
Hình 1.1 Sơ đồ quá trình phân cụm dữ liệu
Số lượng cụm dữ liệu có thể được xác định dựa trên kinh nghiệm hoặc tùy thuộc vào phương pháp phân cụm Hai hoặc nhiều phần tử sẽ được nhóm lại với nhau nếu chúng chia sẻ một định nghĩa chung về khái niệm hoặc gần gũi với khái niệm đã được mô tả trước đó.
Phân cụm là một quá trình học không có giám sát, trong đó dữ liệu được phân nhóm dựa trên quan sát thay vì học từ các ví dụ Để hiểu rõ hơn về phân cụm dữ liệu, chúng ta có thể xem xét một ví dụ minh họa.
Hình 1.2 Ví dụ về phân cụm
Dữ liệu trong hình 1.2 được chia thành 4 cụm dựa trên khoảng cách giữa các đối tượng Hai hay nhiều đối tượng được xếp vào cùng một cụm nếu chúng "gần nhau" theo mức độ khoảng cách đã xác định, trong khi các đối tượng "xa nhau" sẽ thuộc về các cụm khác Phân cụm dựa trên khoảng cách giúp xác định mối quan hệ giữa các đối tượng, và một cách hiểu khác về phân cụm là khi hai hay nhiều đối tượng có chung định nghĩa hoặc xấp xỉ với các khái niệm mô tả đã cho, chúng sẽ được xếp vào cùng một cụm.
Một vấn đề phổ biến trong phân cụm là dữ liệu thường chứa nhiễu do thu thập không chính xác hoặc không đầy đủ Do đó, cần xây dựng chiến lược tiền xử lý dữ liệu để khắc phục hoặc loại bỏ nhiễu trước khi tiến hành phân tích cụm Nhiễu có thể bao gồm các đối tượng dữ liệu không chính xác hoặc thiếu thông tin về một số thuộc tính Một trong những kỹ thuật xử lý nhiễu hiệu quả là thay thế giá trị thuộc tính của đối tượng nhiễu bằng giá trị thuộc tính tương ứng.
Dò tìm phần tử ngoại lai là một nghiên cứu quan trọng trong phân cụm, giúp xác định các đối tượng dữ liệu bất thường so với phần còn lại trong cơ sở dữ liệu Chức năng của nó là phát hiện những đối tượng không tuân theo các hành vi hoặc mô hình dữ liệu, từ đó tránh ảnh hưởng tiêu cực đến quá trình và kết quả phân cụm Công nghệ này đã được phát triển và ứng dụng rộng rãi trong các lĩnh vực như viễn thông, phát hiện gian lận thương mại và làm sạch dữ liệu.
Hiện tại, chưa có phương pháp phân cụm tổng quát nào có thể giải quyết tất cả các cấu trúc dữ liệu Mỗi phương pháp phân cụm cần có cách biểu diễn riêng cho cấu trúc dữ liệu, từ đó tương ứng với thuật toán phân cụm thích hợp Phân cụm là một vấn đề khó khăn và mở, yêu cầu giải quyết nhiều vấn đề cơ bản như xây dựng hàm tính độ tương tự, tiêu chuẩn phân cụm, mô hình cấu trúc dữ liệu, thuật toán phân cụm, điều kiện khởi tạo, cũng như các thủ tục đánh giá kết quả Điều này đặc biệt quan trọng đối với dữ liệu hỗn hợp ngày càng gia tăng trong hệ quản trị dữ liệu, tạo ra thách thức lớn trong lĩnh vực khai phá dữ liệu.
Mục tiêu của phân cụm là xác định bản chất của các nhóm trong tập dữ liệu chưa gán nhãn Tuy nhiên, việc xác định một cụm tốt không có tiêu chuẩn tuyệt đối và phụ thuộc vào yêu cầu của người sử dụng Người dùng cần thiết lập tiêu chí để đảm bảo kết quả phân cụm đáp ứng được mục đích của họ, chẳng hạn như tìm kiếm đại diện cho các nhóm đồng nhất, phát hiện "các cụm tự nhiên" để mô tả thuộc tính chưa biết, hoặc tìm kiếm các nhóm hữu ích và phù hợp, cũng như phát hiện các đối tượng khác thường.
Các thuật toán phân cụm tiêu biểu bao gồm K-means, DBSCAN và BIRCH Trong đó, K-means nổi bật với khả năng phân cụm đơn giản, tính toán nhanh chóng và hiệu quả cho nhiều ứng dụng thực tiễn.
Bài toán phân lớp (classification) là một trong những vấn đề quan trọng trong lĩnh vực Machine Learning Quá trình này liên quan đến việc phân loại một đối tượng dữ liệu vào một hoặc nhiều lớp đã được xác định trước thông qua một mô hình phân lớp Mô hình này được phát triển dựa trên một tập dữ liệu đã được gán nhãn, thường được gọi là tập huấn luyện Mục tiêu của quá trình phân lớp là gán nhãn cho đối tượng dữ liệu một cách chính xác.
Hình 1.3 Phân lớp nhị phân và phân lớp đa lớp
Nhiệm vụ của bài toán phân lớp là tìm ra mô hình phân lớp để xác định phân lớp của dữ liệu mới Các loại bài toán phân lớp bao gồm phân lớp nhị phân, phân lớp đa lớp và phân lớp đa trị.
Bài toán phân lớp nhị phân là quá trình gán nhãn dữ liệu cho đối tượng thuộc một trong hai lớp khác nhau, dựa trên sự hiện diện hoặc vắng mặt của các đặc trưng của bộ phân lớp.
BÀI TOÁN DỰ BÁO KHÁCH HÀNG VIỄN THÔNG CHUYỂN MẠNG
1.3.1 Thị trường viễn thông Việt Nam Đã gần 30 na m, kể từ khi Vinaphone - mạng di đọ ng thứ hai của Viẹ t Nam chính thức đi vào hoạt đọ ng Ở thời điểm đó, tho ng tin di đọ ng còn là khái niẹ m xa lạ với đa số ngu ời tie u dùng, số lu ợng thue bao của mạng di đọ ng này kho ng nhiều do vùng phủ sóng hạn chế và giá cu ớc cũng nhu thiết bị đầu cuối còn đắt Điẹ n thoại di đọ ng rất khan hiếm, giá thành mỗi chiếc máy khoảng 1.000 USD Ngoài viẹ c khan hiếm máy, tiền thue bao và cu ớc cuọ c gọi cũng rất đắt, phí hòa mạng 200 USD thue bao, thue bao tháng khoảng 30 USD, cu ớc cuọ c gọi cho nọ i hạt TP Hồ Chí Minh hoạ c Hà Nọ i là 0,3 USD phút Rie ng với các cuọ c gọi lie n tỉnh, mức cu ớc phí là 0,3 USD phút + cu ớc lie n tỉnh
Thị trường thông tin di động Việt Nam đã bùng nổ trong 10 năm qua, bắt đầu từ khi Viettel gia nhập vào năm 2004 Theo thống kê, giá cước di động tại Việt Nam đã giảm hơn 3 lần trong 30 năm qua Cuộc cạnh tranh khốc liệt trong ngành đã giúp Việt Nam chuyển mình từ một trong những quốc gia có giá cước cao nhất thế giới trở thành nơi có mức cước thấp nhất toàn cầu.
Bảng 1.1 Tình hình phát triển di động tại Việt Nam đến năm 2017 [1]
TT Chỉ tiêu Đơn vị tính 2015 2016 2017
Số thuê bao di động phát sinh lưu lƣợng
Số thuê bao di động phát sinh lưu lƣợng 100 dân
Số thuê bao di động chỉ phát dinh lưu lượng thoại, tin nhắn
Số thuê bao di động phát sinh lưu lƣợng dữ liệu
Từ Bảng 1.1, có thể nhận thấy rằng số lượng thuê bao thoại và SMS giảm từ khoảng 94 triệu vào năm 2015 xuống còn khoảng 72 triệu vào năm 2017 Ngược lại, thuê bao phát sinh lưu lượng (data) lại tăng từ khoảng 31 triệu vào năm 2015 lên khoảng 47 triệu vào năm 2017.
Vào năm 2017, sự gia tăng sử dụng điện thoại thông minh và các ứng dụng OTT như Zalo, Viber, Facebook đã ảnh hưởng đến doanh thu từ mạng viễn thông, khiến doanh thu dịch vụ di động toàn quốc đạt 4.539,34 triệu USD nhưng có xu hướng giảm dần qua từng năm Mặc dù doanh thu từ dịch vụ data có tăng, nhưng vẫn không đủ bù đắp cho sự sụt giảm doanh thu từ dịch vụ thoại và SMS Đây là một thách thức tất yếu trong bối cảnh công nghệ phát triển, buộc các nhà mạng phải định hướng lại dịch vụ của mình khi các dịch vụ truyền thống ngày càng trở nên lạc hậu.
Hình 1.5 Doanh thu di động tại Việt Nam đến năm 2017 [1]
Cuộc đua cạnh tranh giữa các doanh nghiệp trong nước đang gặp nhiều hạn chế, thể hiện rõ qua việc các doanh nghiệp chủ yếu sử dụng chiến lược giảm giá và khuyến mãi Để thu hút thuê bao mới, các mạng di động liên tục triển khai các chương trình khuyến mãi, nhưng sau mỗi đợt, số lượng thuê bao rời mạng lại tăng lên đáng kể, khiến lượng thuê bao hoạt động giảm sút Điều này dẫn đến doanh thu không tăng tương ứng với số lượng thuê bao gia tăng, tạo ra một kiểu cạnh tranh ngược với xu thế hội nhập của ngành thông tin di động Việt Nam Tình trạng này cho thấy một thị trường tiêu cực và lãng phí tài nguyên trong ngành.
Theo quy định của Bộ TT-TT, các nhà cung cấp có thị phần khống chế (trên 30%) sẽ có giá cước do chính phủ quyết định, trong khi các nhà cung cấp dịch vụ nhỏ như S-fone, Vietnamobile và Gmobile được phép tự quyết định giá cước Mặc dù giá cước là lợi thế cạnh tranh, chất lượng dịch vụ của các doanh nghiệp này lại không đảm bảo do đầu tư không theo kịp tốc độ tăng trưởng thuê bao và hạn chế về vùng phủ sóng Ngược lại, mạng di động Vinaphone có chất lượng dịch vụ ổn định hơn nhờ vào quá trình đầu tư và bề dày kinh nghiệm, nhưng giá cước và cách tính cước vẫn bị khống chế, khiến nó không hấp dẫn khách hàng Hiện tượng khách hàng, đặc biệt là giới trẻ, chạy theo các đợt khuyến mãi của các mạng trở nên phổ biến, thể hiện qua số liệu thuê bao hoạt động thực tăng giảm giữa các kỳ khuyến mãi và không khuyến mãi.
Hình 1.6 Thị phần thuê bao di động tại Việt Nam đến năm 2017 [1]
Hình 1.7 Thị phần doanh thu di động tại Việt Nam đến năm 2017 [1]
Mặc dù Vinaphone chiếm hơn 24% thị phần thuê bao di động, nhưng doanh thu chỉ đạt 18,4%, cho thấy một lượng lớn thuê bao không phát sinh thoại, SMS và data, đặt ra thách thức lớn về chất lượng dịch vụ Để phát triển bền vững trong thị trường di động, Vinaphone cần tập trung vào việc duy trì khách hàng hiện tại bằng cách nâng cao mức độ trung thành và giá trị của họ Trong bối cảnh cạnh tranh ngày càng gay gắt, chiến lược phòng thủ để giữ chân khách hàng hiện tại trở nên quan trọng hơn so với chiến lược công kích nhằm mở rộng quy mô thị trường qua việc thu hút khách hàng tiềm năng.
1.3.2.1 Chu trình thuê bao viễn thông
Rời mạng thường được chia thành hai loại: rời mạng chủ động và rời mạng bị động Rời mạng chủ động xảy ra khi khách hàng tự lựa chọn rời mạng, chẳng hạn như khi họ chuyển sang nhà mạng đối thủ hoặc chuyển đổi sang hợp đồng thuê bao trả sau.
Rời mạng bị đọ ng xảy ra khi nhà cung cấp ngừng cung cấp dịch vụ cho khách hàng, thường do lý do gian lận hoặc nợ cước Tuy nhiên, trường hợp rời mạng vì lý do gian lận rất hiếm Rời mạng do nợ cước chỉ áp dụng cho thuê bao trả sau Trong nghiên cứu này, chúng tôi chỉ tập trung vào vấn đề rời mạng của thuê bao trả trước, mà cụ thể là khi khách hàng không nạp lại tiền trong một khoảng thời gian đủ dài theo quy định.
Một trong những vấn đề quan trọng nhất của thuê bao trả trước là thiếu một định nghĩa rõ ràng Đối với thuê bao trả sau, ngày thuê bao bị khóa 2 chiều (ngày ngừng kết nối với mạng) là ngày rời mạng, tức là ngày thuê bao thực sự ngừng sử dụng dịch vụ của nhà cung cấp Tuy nhiên, với thuê bao trả trước, ngày khóa 2 chiều không nhất thiết là ngày rời mạng Điều này có thể được thể hiện rõ ràng qua bốn giai đoạn khác nhau của thuê bao trả trước.
Giai đoạn 1: Kích hoạt, trở thành thue bao mới
Giai đoạn 2: Hoạt đọ ng bình thu ờng (thue bao phát sinh các giao dịch và hoạt đọ ng bình thu ờng tre n mạng)
Giai đoạn 3 của quy trình là khóa 1 chiều, trong đó thuê bao chỉ có thể nhận các giao dịch chiều đến mà không thể thực hiện giao dịch chiều đi Nếu thuê bao nạp tiền trở lại, trạng thái sẽ trở về hoạt động bình thường (giai đoạn 2) Tuy nhiên, nếu thuê bao không nạp lại tiền sau một khoảng thời gian quy định, sẽ bị chuyển sang giai đoạn 4, tức là khóa 2 chiều.
Hình 1.8 Vòng đời của thuê bao di động
Thời gian chuyển đổi giữa các giai đoạn của thuê bao phụ thuộc vào loại hình thuê bao Đối với thuê bao gói VinaCard, chỉ cần phát sinh một giao dịch, thuê bao sẽ có 30 ngày sử dụng ở giai đoạn 2 Nếu trong 30 ngày này khách hàng không sử dụng dịch vụ hay nạp tiền, thuê bao sẽ chuyển sang giai đoạn 3 (khóa 1 chiều) Trong giai đoạn 2, thuê bao có khoảng 10 ngày, và nếu không nạp tiền hoặc sử dụng dịch vụ, sẽ chuyển sang giai đoạn 3 (khóa 2 chiều) Tại giai đoạn 3, thuê bao có 30 ngày giữ số trước khi bị xóa hoàn toàn khỏi hệ thống Như vậy, từ giai đoạn 2 đến hết giai đoạn 4, thuê bao có tổng cộng 70 ngày để rời mạng bất cứ lúc nào.
Việc xác định thời điểm nào được coi là rời mạng là rất quan trọng trong việc dự đoán và thực hiện các tác động nhằm duy trì và ngăn chặn thuê bao rời mạng Trong bài viết này, khái niệm “rời mạng” được hiểu là trường hợp khách hàng không phát sinh cước trong vòng một tháng, tức là không có bất kỳ giao dịch nào hoặc biến động về tài khoản Do đó, thuê bao có thể vẫn đang ở giai đoạn 2 nhưng được xác định là rời mạng.
Theo kinh nghiệm thực tế, khi thuê bao trả trước chuyển sang giai đoạn 3 (khóa 1 chiều), việc liên lạc trở nên rất khó khăn, thậm chí nhiều người đã bỏ sim-card ra khỏi điện thoại Vì vậy, tác động đến thuê bao ở giai đoạn này hầu như không có hiệu quả.
Mốc "không phát inh cớc" cho phép dự đoán thời điểm thuê bao sẽ rời mạng khi vẫn đang ở giai đoạn 2, đảm bảo có đủ thời gian để thực hiện các tác động trước khi chuyển sang giai đoạn 3.
TIẾP CẬN HỌC MÁY CHO BÀI TOÁN DỰ BÁO KHÁCH HÀNG VIỄN THÔNG CHUYỂN MẠNG
Với sự phát triển của mạng di động, nghiên cứu về ngoại mạng của người dùng di động ngày càng được chú trọng Xu hướng ngoại mạng có thể được dự đoán dựa trên thông tin cơ bản, tiêu dùng và sở thích cá nhân của người dùng, chia thành hai loại: hủy bỏ và không hủy bỏ Nguyên lý Pareto được áp dụng trong nghiên cứu người dùng gián đoạn mạng di động, cho thấy 80% người dùng thông thường có ảnh hưởng thấp hơn so với 20% người dùng có giá trị cao Chính sách giữ chân người dùng cần được tùy chỉnh cho nhóm người dùng giá trị cao để giảm thiểu chuyển mạng, từ đó giúp nhà điều hành hiểu rõ hơn về mức độ hài lòng của họ với dịch vụ di động hiện tại.
Trong nghiên cứu về người dùng chuyển mạng, cần chú trọng đến việc thiết lập mô hình dự đoán phù hợp cho từng nhóm người dùng Cụ thể, việc phân loại người dùng dựa trên giá trị của họ sẽ giúp xây dựng các mô hình dự đoán chính xác hơn cho từng nhóm.
Trong lĩnh vực thông tin tiêu dùng, hai loại dữ liệu quan trọng vẫn chưa được xem xét, và các chiến lược hiệu quả để xử lý việc phân loại dữ liệu kết hợp chưa được triển khai Các thuật toán dự đoán chuyển mạng hiện tại chủ yếu dựa vào các mô hình đơn lẻ, thiếu tính ổn định và hiệu quả trong dự đoán Một số thuật toán phổ biến như phân tích hồi quy, cây quyết định, mạng nơ-ron và SVM (Máy vectơ tựa) có những ưu nhược điểm riêng và hạn chế trong phạm vi áp dụng Chẳng hạn, SVM có độ chính xác cao trong phân loại trên tập dữ liệu nhỏ nhưng lại gặp khó khăn về thời gian xử lý khi làm việc với tập dữ liệu lớn.
Mô hình kết hợp K-Prototypes và SVM mờ (FKP-SVM) được đề xuất nhằm giải quyết sự không ổn định và hạn chế của các mô hình dự đoán đơn lẻ, đặc biệt trong việc dự đoán xu hướng chuyển mạng của người dùng giá trị cao Mục tiêu chính là giảm thời gian thao tác và nâng cao độ chính xác dự đoán Thuật toán K-Prototypes mờ được áp dụng để xử lý hiệu quả dữ liệu lai và phân cụm mẫu hỗn hợp trong khối lượng dữ liệu lớn, từ đó chọn các mẫu gần trung tâm cụm làm đầu vào cho SVM Điều này giúp cải thiện hiệu quả đào tạo của SVM, giảm thiểu tác động của tính ngẫu nhiên trong xử lý dữ liệu quy mô lớn Kết quả thực nghiệm cho thấy FKP-SVM không chỉ giảm thời gian đào tạo mà còn tiết kiệm tài nguyên hệ thống và nâng cao độ chính xác dự đoán cho dữ liệu lai.
Trong nghiên cứu dự đoán người dùng hủy đăng ký, hai khía cạnh chính được chú ý là: đầu tiên, việc áp dụng phương pháp mô hình đơn để dự đoán người dùng chuyển mạng; thứ hai, việc áp dụng phương pháp mô hình kết hợp nhằm dự đoán người dùng chuyển mạng hoặc hủy bỏ.
Nhiều nghiên cứu đã chỉ ra rằng việc dự đoán người dùng chuyển mạng hoặc hủy bỏ dịch vụ thường dựa trên các mô hình đơn lẻ Các nhà nghiên cứu như Hadden J và cộng sự đã so sánh ảnh hưởng của các phương pháp như mạng nơ ron, cây hồi quy và mô hình hồi quy trong việc dự đoán hành vi chuyển mạng của người dùng Ying và các cộng sự cũng đã đóng góp vào lĩnh vực này bằng cách áp dụng các mô hình khác nhau để phân tích lý do người dùng hủy bỏ dịch vụ.
Phương pháp SVM được đề xuất với các tham số trọng số khác nhau nhằm xử lý đặc điểm kích thước không cân bằng của mẫu dương và âm trong dữ liệu chuyển mạng/hủy bỏ khách hàng thực tế Xia và cộng sự đã tiến hành so sánh nhiều phương pháp như mạng nơ-ron nhân tạo, cây quyết định và bộ phân loại Bayes dựa trên các tiêu chí như độ chính xác, tỷ lệ truy cập, tỷ lệ phủ và hệ số nâng Gopal R K và cộng sự là những người đầu tiên áp dụng phương pháp hồi quy theo thứ tự để mô hình hóa tình huống xáo trộn của người dùng.
Nghiên cứu đã áp dụng nhiều phương pháp khác nhau để dự đoán hành vi của khách hàng, bao gồm phân tích thành phần chính để dự đoán tình trạng hủy bỏ khách hàng, so sánh với các phương pháp như Bayes, cây quyết định và SVM Ngoài ra, phương pháp hồi quy logistic cũng được sử dụng để nghiên cứu tình trạng khách hàng trong lĩnh vực di động và viễn thông Một nghiên cứu khác đã đề xuất bộ đặc trưng mới và áp dụng các kỹ thuật như hồi quy logistic, phân loại tuyến tính, Naive Bayes, cây quyết định, nhận thức đa lớp và SVM nhằm dự đoán thời gian rời mạng của khách hàng.
Chiến lược mô hình hóa người dùng chuyển mạng đã trở thành một phương pháp quan trọng với các mô hình kết hợp Tsai, Chih Fong và cộng sự đã thiết kế hai mô hình hỗn hợp để dự đoán khách hàng chuyển mạng, bao gồm mô hình kết hợp mạng nơ ron và mô hình ánh xạ tự tổ chức Pendharkar P.C đã đề xuất mô hình kết hợp mạng nơ ron dựa trên thuật toán di truyền để lập mô hình người sử dụng Wojewnik P và cộng sự kết hợp thuật toán phân cụm K-means với thuật toán phân loại mô hình đơn cổ điển để tạo ra một mô hình tích hợp, nâng cao tỷ lệ dự đoán truy cập He và cộng sự đã sử dụng thuật toán cây quyết định C5.0, CART và mạng nơ ron RBF để nghiên cứu khách hàng Lu và cộng sự áp dụng hồi quy logistic để thiết lập mô hình dự đoán hủy bỏ cho từng loại tương ứng, trong khi Idris A và cộng sự đề xuất phương pháp lựa chọn tính năng dựa trên bộ lọc và trình bao bọc nhằm xây dựng mô hình dự đoán người dùng hủy bỏ.
KẾT LUẬN CHƯƠNG 1
Chương 1 của luận văn trình bày tổng quan về học máy và bài toán phân lớp trong dự báo khách hàng viễn thông chuyển mạng, cùng với phân tích khách hàng dự đoán chuyển mạng Bài viết cũng đề cập đến các cách tiếp cận khác nhau cho bài toán này và phân tích khoa học về các thuật toán phù hợp với từng mô hình dữ liệu.
CHƯƠNG 2: KẾT HỢP THUẬT TOÁN K-MEANS VÀ SVM
THUẬT TOÁN PHÂN CỤM K-MEANS
K-means thuộc lớp thuật toán phân cụm phân hoạch Phân cụm phân hoạch là một tập hợp dữ liệu có n phần tử thành k nhóm cho đến khi xác định số các cụm đƣợc thiết lập Số các cụm đƣợc thiết lập là các đặc trƣng đƣợc lựa chọn trước
Phân cụm phân hoạch là phương pháp hiệu quả để tìm kiếm các cụm hình cầu trong không gian Euclidean Phương pháp này dựa vào khoảng cách cơ bản giữa các điểm để xác định mối quan hệ gần gũi giữa các điểm dữ liệu, từ đó phân loại các điểm có quan hệ gần nhau và những điểm xa nhau.
Phân cụm phân hoạch gặp khó khăn khi xử lý các cụm có hình dạng kỳ quặc hoặc mật độ điểm dày đặc Việc xác định nghiệm tối ưu toàn cục cho phân cụm dữ liệu có độ phức tạp cao, vì cần tìm kiếm tất cả các cách phân hoạch khả thi Do đó, trong thực tế, người ta thường tìm giải pháp tối ưu cục bộ bằng cách sử dụng hàm tiêu chuẩn để đánh giá chất lượng cụm và hướng dẫn quá trình tìm kiếm phân hoạch dữ liệu.
Phân cụm phân hoạch bắt đầu bằng việc khởi tạo một phân hoạch ban đầu cho tập dữ liệu thông qua phương pháp ngẫu nhiên hoặc heuristic, sau đó liên tục tinh chỉnh cho đến khi đạt được phân hoạch mong muốn, thỏa mãn các ràng buộc đã đặt ra Các thuật toán phân cụm này cải thiện tiêu chuẩn phân cụm bằng cách tính toán độ tương tự giữa các đối tượng dữ liệu và sắp xếp các giá trị này, từ đó lựa chọn một giá trị sao cho hàm tiêu chuẩn đạt giá trị tối thiểu Thuật toán phân cụm phân hoạch tối ƣu cục bộ áp dụng chiến lược ăn tham (Greedy) để tìm kiếm nghiệm hiệu quả.
K-means là thuật toán phân cụm trong đó các cụm đƣợc định nghĩa bởi trung tâm của các phần tử trong cụm đó Phương pháp này dựa trên độ đo khoảng cách của các đối tƣợng dữ liệu trong cụm Trong thực tế, nó đo khoảng cách tới trung tâm của các đối tƣợng dữ liệu trong cụm (trung tâm của một cụm dữ liệu đƣợc coi nhƣ là giá trị trung bình của các đối tƣợng dữ liệu trong cụm đó) Nhƣ vậy nó cần khởi tạo một tập trung tâm các cụm ban đầu, và thông qua đó nó lặp lại các bước gồm gán mỗi đối tượng tới cụm mà trung tâm gần, và tính toán lại trung tâm của mỗi cụm trên cơ sở gán mới cho các đối tƣợng Quá trình lặp này dừng khi các trung tâm hội tụ
Hình 2.1 Xác lập ranh giới các cụm ban đầu
Trong phương pháp k-means, đầu tiên, người dùng chọn một giá trị k và sau đó ngẫu nhiên xác định k trung tâm của các đối tượng dữ liệu Tiếp theo, khoảng cách giữa từng đối tượng dữ liệu và trung bình của mỗi cụm được tính toán để xác định các phần tử tương tự và thêm chúng vào cụm tương ứng Quá trình này cho phép tính toán trung bình mới cho từng cụm và lặp lại cho đến khi tất cả các đối tượng dữ liệu được phân chia thành k cụm.
Thuật toán k-means nhằm tạo ra k cụm dữ liệu {C 1 , C 2 , , C K } từ một tập dữ liệu với n đối tượng trong không gian d chiều Xi = (xi1, xi2, , x id ), i = 1 ÷ n, với mục tiêu tối thiểu hóa hàm tiêu chuẩn ∑ ∑.
Trong đó: m i là trọng tâm của cụm Ci, D là khoảng cách giữa hai đối tƣợng
Hình 2.2 Tính toán trọng tâm của các cụm mới
Trọng tâm của một cụm là vectơ với giá trị mỗi phần tử là trung bình cộng của các thành phần tương ứng trong các đối tượng vectơ dữ liệu Thuật toán yêu cầu tham số đầu vào là số cụm k và đầu ra là các trọng tâm của các cụm dữ liệu Khoảng cách D giữa các đối tượng dữ liệu thường được đo bằng khoảng cách Euclide, vì dễ dàng lấy đạo hàm và xác định cực trị tối thiểu Hàm tiêu chuẩn và độ đo khoảng cách có thể được điều chỉnh tùy vào ứng dụng hoặc quan điểm người dùng.
Thuật toán K-means bao gồm các bước cơ bản được trình bày như sau:
Input: Số cụm k và các trọng tâm cụm {m j } k j=1
Output: Các cụm C[i] (1 i k) và hàm tiêu chuẩn E đạt giá trị tối thiểu
Chọn k trọng tâm {mj} k j=1 ban đầu trong không gian Rd (d là số chiều của dữ liệu) Việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm
Bước 2: Tính toán khoảng cách giữa mỗi điểm X i (1 ≤ i ≤ n) và các trọng tâm mj (1 ≤ j ≤ k) Sau đó, xác định trọng tâm gần nhất cho từng điểm.
Bước 3: Cập nhật lại trọng tâm Đối với mỗi 1 j k, cập nhật trọng tâm cụm mj bằng cách xác định trung bình cộng các vectơ đối tƣợng dữ liệu
Lặp lại các bước 2 và 3 cho đến khi các trọng tâm của cụm không thay đổi
Một số chú ý khi áp dụng thuật toán K-means:
+ Kết quả của thuật toán luôn có k cụm dữ liệu đƣợc tạo thành
+ Trong mỗi cụm dữ liệu thì luôn có ít nhất một phần tử dữ liệu
+ Các cụm không giao nhau (một phần tử dữ liệu thuộc vào một cụm dữ liệu duy nhất)
+ Các phần tử dữ liệu của một cụm gần với trọng tâm của cụm đó hơn các phần tử dữ liệu của các cụm khác
Thuật toán K-means tuần tự có độ phức tạp tính toán O((3nkd)τT flop) và được chứng minh là hội tụ, trong đó n là số đối tượng dữ liệu, k là số cụm, d là số chiều, τ là số vòng lặp, và T flop là thời gian thực hiện phép tính cơ bản Một thách thức trong quá trình thực hiện là giải quyết các nút thắt khi có nhiều trung tâm với cùng khoảng cách từ một đối tượng, có thể giải quyết bằng cách gán ngẫu nhiên các đối tượng cho cụm hoặc xáo trộn vị trí của chúng K-means phù hợp với tập dữ liệu lớn nhờ vào khả năng phân tích phân cụm đơn giản, nhưng chỉ áp dụng hiệu quả với dữ liệu số và các cụm hình cầu, đồng thời nhạy cảm với nhiễu và phần tử ngoại lai trong dữ liệu Hình 2.3 minh họa một số hình dạng cụm dữ liệu mà K-means phát hiện.
Hình 2.3 Một số dạng cụm dữ liệu khi áp dụng thuật toán K-means
Kết quả của thuật toán K-means phụ thuộc vào các tham số đầu vào như số cụm k và trọng tâm khởi tạo Nếu các trọng tâm khởi tạo lệch so với các trọng tâm tự nhiên, kết quả phân cụm sẽ không chính xác, dẫn đến việc các cụm dữ liệu khám phá không phản ánh đúng thực tế Hiện tại, chưa có giải pháp tối ưu để chọn tham số đầu vào, vì vậy phương pháp phổ biến nhất là thử nghiệm với nhiều giá trị k khác nhau và chọn giải pháp tốt nhất.
2.1.3 Nhận xét, đánh giá thuật toán K-means Độ phức tạp của thuật toán này là O(tKn), trong đó t là số lần lặp, K là số cụm, n là số mẫu, thường t, K 2 Chúng ta có thể xây dựng việc phân K-lớp dựa trên việc kết hợp một số đường phân 2 lớp như (hình 2.9)
Hình 2.9 Phân nhiều lớp với SVM
KẾT HỢP THUẬT TOÁN KMEAN VÀ SVM DỰ BÁO CHUYỂN MẠNG
Để cải thiện độ chính xác trong dự báo chuyển mạng của người dùng viễn thông, luận văn áp dụng mô hình kết hợp giữa thuật toán K-means và SVM (Support Vector Machine) Thuật toán K-means được sử dụng để phân cụm dữ liệu lớn một cách hiệu quả, sau đó các mẫu gần trung tâm cụm sẽ được đưa vào thuật toán SVM nhằm nâng cao độ chính xác dự báo Với đặc tính phức tạp của dữ liệu di động, tập dữ liệu bao gồm nhiều loại thuộc tính khác nhau Phương pháp kết hợp K-means và SVM được đề xuất nhằm giải quyết những thách thức này, từ đó nâng cao độ chính xác và ổn định trong dự đoán.
Mô hình kết hợp này sẽ được đề xuất và mô tả như sau:
Các bước của thuật toán kết hợp:
Bước 1: Chọn các mẫu chuyển mạng
Bước 2: Thực hiện thuật toán gom cụm K-means
Bước 3: Từ các cụm, chọn ra mẫu
Bước 4: Các mẫu được chọn sẽ được kết hợp thêm một số mẫu không chuyển mạng để tạo ra tập dữ diệu đào tạo cho SVM
Bước 5: Đánh giá kết quả mô hình.
KẾT LUẬN CHƯƠNG 2
Chương này trình bày cơ sở lý thuyết của thuật toán K-means và SVM, đồng thời đề xuất mô hình kết hợp hai thuật toán này để phân tích dự báo khách hàng chuyển mạng viễn thông Mô hình kết hợp sẽ giúp loại bỏ các trường hợp dữ liệu tương đồng, và sẽ được thử nghiệm cũng như đánh giá trong chương 3 nhằm nâng cao hiệu quả phân lớp dự báo.
ỨNG DỤNG DỰ BÁO KHÁCH HÀNG CHUYỂN MẠNG VIỄN THÔNG
3.1 GIỚI THIỆU BÀI TOÁN Để minh họa cho những nội dung nghiên cứu trong chương 2, luận văn tiến hành thử nghiệm cho bài toán ứng dụng cụ thể Đó là dự báo khách hàng chuyển mạng tại VNPT Bình Định dựa trên một bộ dữ liệu khách hàng đã đƣợc lựa chọn
3.2 MÔ TẢ DỮ LIỆU BÀI TOÁN
Báo cáo thông tin sử dụng của khách hàng tại VNPT Bình Định được tổng hợp hàng tháng, từ đó dữ liệu thử nghiệm sẽ được lựa chọn dựa trên các báo cáo thống kê này Dưới đây là mô tả chi tiết về nội dung thông tin trong báo cáo.
Bảng 3.1 Bảng mô tả các trường dữ liệu theo báo cáo thống kê hàng tháng tại
1 Số thuê bao người dùng
2 Ngày tháng năm hoà mạng sử dụng dịch vụ di động
3 Loại SIM (SINHVIEN: dành cho đối tƣợng Sinh viên; MyZone: dành cho các đối tƣợng nhƣng ƣu đãi gọi nội vùng )
4 Số tiền nạp thẻ trong tháng
5 Số lần nạp thẻ trong tháng
6 Tiền Tài khoản chính gọi
7 Tiền tài khoản khuyến mại gọi (KM, KM1 )
8 Tiền tài khoản chính nhắn tin
9 Tiền tài khoản khuyến mại nhắn tin
10 Tiền tài khoản chính đăng k sử dụng data (số tiền gói, lưu lương)
11 Dịch vụ GTGT cộng thêm
12 Tiền tài khoản ứng tiền trước (trường hợp Tiền tài khoản chính hết tiền)
13 Tổng tiền đã thực hiện gọi từ tài khoản chính trong tháng
14 Tổng tiền đã thực hiện gọi từ tài khoản khuyến mại trong tháng
15 Ngày cuối của tháng khi tổng kết
Dựa trên dữ liệu đã cung cấp, chương trình sẽ tiến hành phân tích bằng kỹ thuật gom cụm K-means và áp dụng giải thuật phân lớp SVM trong mô hình kết hợp, như đã được trình bày trong chương 2.
Nhiều trường dữ liệu không liên quan đến khả năng chuyển mạng của khách hàng, chẳng hạn như số thuê bao Vì vậy, trong thực nghiệm, chúng tôi sẽ chọn lọc một số trường dữ liệu cụ thể để xây dựng tập mẫu học.
Các trường hợp chuyển mạng sẽ được xử lý bằng thuật toán K-means để xác định những mẫu tích cực, từ đó bổ sung thêm các mẫu tiêu cực của khách hàng không chuyển mạng Điều này nhằm hoàn thiện tập dữ liệu học cho bước phân lớp sử dụng kỹ thuật SVM.
3.3 SƠ ĐỒ CÁC BƯỚC CỦA MÔ HÌNH KẾT HỢP KMEAN VÀ
Hình 3.1 Lưu đồ mô hình kết hợp Kmeans-SVM
Sử dụng K-means để phân cụm dữ liệu
Lựa chọn những mẫu gần tâm cụm đƣa vào SVM
3.4 THỬ NGHIỆM VÀ ĐÁNH GIÁ
Chương trình thử nghiệm được xây dựng dựa trên sơ đồ hệ thống đã nêu Chương trình được phát triển trên nền tảng Visual C++ 2015
Trong ứng dụng dữ liệu để dự báo khách hàng chuyển mạng, các trường dữ liệu sau sẽ đƣợc lựa chọn để xây dựng mẫu vector đặc trƣng:
Bảng 3.2 Bảng mô tả các trường dữ liệu được lựa chọn để đưa vào mẫu học
1 Số tiền nạp thẻ trong tháng
2 Tiền Tài khoản chính gọi
3 Tiền tài khoản chính nhắn tin
4 Tiền tài khoản chính đăng k sử dụng data (số tiền gói, lưu lương)
5 Dịch vụ GTGT cộng thêm
6 Tiền tài khoản ứng tiền trước (trường hợp Tiền tài khoản chính hết tiền)
7 Tổng tiền đã thực hiện gọi từ tài khoản chính trong tháng
Bài viết này minh họa từng bước của thuật toán chạy trong ứng dụng dự báo khách hàng chuyển mạng, với dữ liệu đầu vào được lưu trong file dulieu.csv Quá trình xử lý bắt đầu bằng việc đọc dữ liệu, bao gồm tập X với 9999 mẫu và 7 chiều đặc trưng, cùng với tập Y chứa nhãn đầu ra thể hiện việc chuyển mạng hay không Tất cả dữ liệu này được lưu trữ trong file data_set.xml, với mô tả chi tiết như trong hình 3.2.
Hình 3.2 Dữ liệu đầu vào
Bài viết mô tả quá trình thử nghiệm thuật toán K-means, trong đó tham số k0 được áp dụng cho mỗi cụm Sau khi thực hiện, một mẫu được chọn để đưa vào tập học, và kết quả của các cụm được lưu trữ trong file kmeans_results.xml.
Hình 3.3 Danh sách các tâm cụm sau khi phân cụm K-means
Hình 3.3 trình bày dữ liệu các tâm cụm sau khi áp dụng thuật toán K-means Từ các mẫu gần tâm mỗi cụm, bao gồm những mẫu có chuyển mạng và một số mẫu không chuyển mạng khác, sẽ được chọn làm tập dữ liệu học cho bộ phân lớp SVM Mô hình SVM sẽ dự đoán xem một mẫu có chuyển mạng hay không.
Hình 3.4 Các mẫu đƣợc chọn gần tâm mỗi cụm
Danh sách các mẫu có khả năng chuyển mạng gần tâm mỗi cụm kết quả trong bước Kmeans được trình bày trong Hình 3.4 Những mẫu này sẽ được sử dụng làm dữ liệu học cho mô hình SVM Sau khi hoàn tất quá trình học, mô hình SVM sẽ tiến hành thử nghiệm và đánh giá trên tập dữ liệu thử nghiệm.
Hình 3.5 Mô tả kết quả sau khi thực hiện thử nghiệm SVM đã học
Hình 3.5 trình bày kết quả thực nghiệm của mô hình SVM đã được đào tạo Cột đầu tiên thể hiện giá trị dự đoán của SVM, trong khi cột thứ hai chứa dữ liệu gán nhãn từ tập dữ liệu ban đầu, với "1" biểu thị cho chuyển mạng và "0" biểu thị cho không chuyển mạng.
Chúng ta có thể kiểm tra khả năng chuyển mạng của một mẫu dựa trên kết quả dự báo từ SVM, như được thể hiện trong hình 3.6.
Ket qua: Khong chuyen mang
Ket qua: Khong chuyen mang
Ket qua: Khong chuyen mang
Ket qua: Co chuyen mang
Ket qua: Co chuyen mang
Ket qua: Khong chuyen mang
Nhap index mau thu (0-9998):-1 mau nhap ko hop le
Hình 3.6 Minh họa thử nghiệm mô hình SVM đã học với mẫu nhập vào
Luận văn thực hiện thử nghiệm với quy trình phân lớp dự báo khách hàng chuyển mạng viễn thông trên bộ dữ liệu gần 10.000 mẫu, đạt độ chính xác khoảng 81,31% Kết quả cho thấy, mô hình kết hợp thuật toán K-means và SVM mang lại độ chính xác dự báo trên 80% K-means hiệu quả trong việc phân cụm dữ liệu và xử lý các thuộc tính số cũng như phân loại khác nhau Các phương pháp và chiến lược tính toán khác nhau đã được áp dụng, giúp cải thiện hiệu ứng cụm và độ chính xác của mô hình Tuy nhiên, K-means và SVM không phân biệt được sự khác biệt giữa các thuộc tính dữ liệu.
3.5 ĐÁNH GIÁ VÀ KẾT LUẬN CHƯƠNG 3
Theo nguyên tắc Pareto, người dùng giá trị cao có tác động lớn hơn so với người dùng thông thường Chính sách giữ chân những người dùng này có ảnh hưởng rõ rệt trong việc ngăn chặn việc chuyển mạng.
Nghiên cứu này tập trung vào việc phân tích sự chuyển mạng của người dùng di động có giá trị cao Để dự đoán hành vi của người dùng, mô hình kết hợp thuật toán Kmean và SVM được phát triển, nhằm giải quyết các vấn đề dự đoán trong dữ liệu tiêu thụ quy mô lớn.
Trong mô hình này, thuật toán Kmean được sử dụng để phân cụm các thuộc tính hỗn hợp, kết hợp giữa thuộc tính số và thuộc tính phân loại Các mẫu gần trung tâm cụm sẽ được chọn làm đầu vào cho SVM, giúp cải thiện độ chính xác phân loại cho các mẫu quy mô lớn Đặc biệt trong ứng dụng dự đoán chuyển mạng, các thuộc tính trong tập dữ liệu đã được mở rộng để phản ánh sự thay đổi trong hành vi tiêu dùng của người dùng Nhiều chỉ số đánh giá đã được áp dụng để đo lường hiệu suất của mô hình kết hợp Kmean và SVM So với các mô hình khác, Kmean-SVM cho thấy hiệu quả vượt trội trong việc xử lý dữ liệu quy mô lớn và dự đoán chính xác xu hướng người dùng.
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN
1 NHỮNG KẾT QUẢ MÀ LUẬN VĂN ĐÃ ĐẠT ĐƢỢC