Hiện tại, Viễn thông Đồng Nai thực hiện phân tích số liệu để lọc danh sách các khách hàng sử dụng dịch vụ Fiber có khả năng rời mạng cao chủ yếu dựa vào các chỉ tiêu báo cáo thống kê từ
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC LẠC HỒNG
-
XÂY DỰNG HỆ THỐNG HỖ TRỢ DỰ BÁO KHÁCH HÀNG RỜI MẠNG VIỄN THÔNG
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Trang 2TRƯỜNG ĐẠI HỌC LẠC HỒNG
-
XÂY DỰNG HỆ THỐNG HỖ TRỢ DỰ BÁO KHÁCH HÀNG RỜI MẠNG VIỄN THÔNG
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Chuyên ngành: Công nghệ thông tin
Mã số: 8480101
Đồng Nai, năm 2022
Trang 3LỜI CẢM ƠN
cứu
Dù rất cố gắng và liên tục nâng cao kiến thức, nhưng luận văn này vẫn không thể tránh những thiếu sót và hạn chế Do đó tôi rất mong nhận được sự chỉ dẫn của các quý thầy cô và các bạn để tôi có thể hoàn thiện những sai sót mà mình mắc phải
và các thầy cô trường Đại Học Lạc Hồng nói chung đã tận tình giảng dạy và chỉ bảo, giúp tôi trang bị những kiến thức quý báu suốt thời gian học tập và nghiên
Trong thời gian thực hiện luận văn, dưới sự hướng dẫn tận tình của các giảng viên, các thầy cô trường Đại học Lạc Hồng, tôi đã hoàn thành luận văn thạc sĩ với thời gian như dự kiến Có được kết quả ấy tôi xin chân thành gửi lời cám ơn đến
- PGS.TS – Giảng viên khoa Công Nghệ Thông Tin, trường Đại Học đã tận tình hướng dẫn, giúp đỡ tôi trong suốt quá trình làm luận văn Sự giúp đỡ và hướng dẫn nhiệt tình của thầy đã giúp chúng tôi củng cố kiến thức và hoàn thành tốt luận văn tốt nghiệp Tôi xin chân thành cám ơn thầy - Quý thầy cô khoa Công Nghệ Thông Tin, trường Đại học Lạc Hồng nói riêng
Trang 4LỜI CAM ĐOAN
Tôi cam đoan rằng, ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường này hoặc trường khác
Ngày tháng Năm
Trang 5TÓM TẮT LUẬN VĂN
Trong ngành Công nghệ thông tin, Mạng Nơron nhân tạo (Artificial Neural
Networks hoặc gọi tắt là Neural Networks) là một hệ thống mô hình hóa một cách
đặc biệt cách các tế bào thần kinh hoạt động trong não bộ con người Mạng Nơron nhân tạo đã được ứng dụng trong nhiều ngành nghề, lĩnh vực khác nhau như y học, công nghiệp, viễn thông, thời tiết và tài chính Việc sử dụng, bổ sung Mạng Nơron nhân tạo đóng vai trò quan trọng trong thời đại kỷ nguyên số hiện nay, các ứng dụng thương mại của của Mạng Nơron nhân tạo thường tập trung vào việc
giải quyết các vấn đề xử lý tín hiệu phức tạp hoặc nhận dạng mẫu Qua đó ta có thể phân tích, dự đoán các sự kiện trước, hoặc dự báo các hành động sẽ xảy ra dựa trên các dữ liệu gốc hiện tại và đưa ra quyết định tốt hơn phục vụ đời sống con người
Trong những năm gần đây, bài toán dự báo thuê bao rời mạng đã hấp dẫn sự chú ý của nhiều nhà nghiên cứu, nhiều giải thuật đã được đề xuất và kết hợp nhằm cải tiến hiệu suất và độc chính xác khi phải xử lý bài toán phức tạp này Luận văn này tập trung cải tiến thời gian thực thi và đánh giá độ chính xác khi sử dụng kỹ thuật khai phá dữ liệu hỗn hợp (Hybrid Data Mining Techniques) bằng cách sử dụng mô hình Cây quyết định tăng cường hai lớp (Two-Class Boosted Decision Tree)
Phương pháp mô hình Cây quyết định tăng cường hai lớp thể hiện như sau: Cây quyết định thứ nhất làm nhiệm vụ dự báo và Cây quyết định thứ hai làm nhiệm vụ sửa lỗi cho Cây quyết định thứ nhất Kết quả dự đoán dựa trên toàn bộ nhóm cây cùng nhau đưa ra dự đoán sẽ có độ chính xác cao hơn
Giảng viên hướng dẫn Học viên
Trang 6MỤC LỤC
CHƯƠNG I: GIỚI THIỆU TỔNG QUAN 1
1.1 Tổng quan sơ về vấn đề cần nghiên cứu trong và ngoài nước 1
1.2 Ý nghĩa của đề tài 5
1.2.1 Ý nghĩa thực tiễn 5
1.2.2 Ý nghĩa khoa học 5
1.3 Mục tiêu đề tài 6
1.4 Đối tượng nghiên cứu 6
1.5 Nội dung nghiên cứu 6
1.6 Phương pháp nghiên cứu 6
1.7 Dự kiến kết quả 7
1.8 Bố cục luận văn 7
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 8
2.1 Các khái niệm cơ bản về khai phá dữ liệu, học máy, các kỹ thuật xử lý dữ liệu lớn và phân tích dự báo 8
2.1.1 Khái niệm khai phá dữ liệu và học máy 8
2.1.2 Các khai niệm về xử lý dữ liệu lớn 9
2.1.2.1 Xử lý dữ liệu phân tán 9
2.1.2.2 Xử lý dữ liệu Hadoop 9
2.1.2.3 Xử lý dữ liệu Workload 10
2.1.2.4 Xử lý dữ liệu theo cụm (cluster) 10
2.1.4 Các bài toán phân tích dự báo 14
2.1.4.1 Bài toán phân tích dự báo 14
2.1.4.2 Các mô hình dự báo cơ bản 15
2.1.4.3 Mất cân bằng dữ liệu (imbalanced dataset) 21
2.2 Khung thức dự báo thuê bao rời mạng 26
2.3 Tổng quan Azue Machine Learning và phần mềm Weka [13] 28
2.3.1 Azure Machine Learning: 28
2.3.2 Giới thiệu chung về Weka 28
2.4 Kết luận 28
CHƯƠNG 3: CÔNG TRÌNH LIÊN QUAN VÀ PHƯƠNG PHÁP TIẾP CẬN 29
3.1 Các công trình liên quan 29
3.1.1 Mạng Nơron hỗn hợp (Hybrid Neural Networks) 29
3.1.2 Mô hình hồi quy Logic: 29
3.1.3 Mô hình rừng ngẫu nhiên cân bằng cải tiến (IBRF): 30
3.1.4 Kết luận: 30
Trang 73.2 Tổng quát giải thuật Cây quyết định tăng cường 2 lớp 30
3.3 Sơ đồ tổng quát của hệ thống 30
3.4 Giải thích sơ đồ trình tự của hệ thống 31
CHƯƠNG 4: THỰC NGHIỆM 32
4.1 Môi trường thực nghiệm 32
4.2 Bộ dữ liệu thực nghiệm: 32
4.3 Các bước xây dựng và thực nghiệm mô hình dự báo thuê bao rời 33
4.3.1 Phương pháp 1 33
4.3.2 Phương pháp 2 40
4.4 Đánh giá kết quả mô hình sau khi áp dụng hai phương pháp thực nghiệm 49
4.5 Kết luận chương 53
CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 54
5.1 Kết quả đạt được của luận văn 54
5.2 Hướng phát triển 54
Trang 8DANH MỤC HÌNH
Hình 2.1 Các bước xây dựng một hệ thống KPDL 9
Hình 2.2 Mô hình xử lý dữ liệu theo cụm 11
2.1.3Các khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu 11
Hình 2.3 Giá trị và đô phức tạp tăng từ phân tích mô tả đến đề xuất 12
Hình 2.4 Hệ thống phân lớp tổng quát 15
Hình 2.5 Mô hình cây quyết định 16
Hình 2.6 Mô hình cây quyết định cho việc chơi Tennis 16
Hình 2.7 Bảng cross table mô tả kết quả thống kê chéo giữa nhãn dự báo và ground truth 23
Hình 2.8 Mô hình xây dựng hệ thống thuê bao rời mạng [12] 27
Hình 3.1 Sơ đồ tổng quát của mô hình huấn luyện 31
Hình 4.1 Bảng tập dữ liệu chưa chuẩn hóa 34
Hình 4.2 Vùng chứa Dataset (mau_train_1.csv) 34
Hình 4.3 Vùng Experiment thiết kế mô hình 35
Hình 4.4 Tạo kết nối dataset và chọn thuộc tính 35
Hình 4.5 Form chọn thuộc tính 36
Hình 4.6 Kết nối module thuộc tính và EditMetadata 36
Hình 4.7 Form chọn thuộc tính dùng để gán nhãn 37
Hình 4.8 Form cấu hình thuộc tính gán nhãn 37
Hình 4.9 Form phân chia tập dữ liệu dùng để huấn luyện và test 38
Hình 4.10 Tạo kết nối giải thuật và tập dữ liệu với module huấn luyện 38
Hình 4.11 Form chọn thuộc tính gán nhãn cho module huấn luyện 39
Hình 4.12 Thực hiện thiết lập module kết quả dự đoán 39
Hình 4.13 Các nút lệnh để lưu kết quả 39
Hình 4.14 Bảng dữ liệu sau khi được chuẩn hóa 41
Hình 4.15 Lựa chọn thuộc tính trên Weka 42
Hình 4.16 Chọn giải thuật trên Weka 43
Hình 4.17 Kết quả chọn ra các thuộc tính quan trọng 44
Hình 4.18 Bảng số liệu sau khi chuẩn hóa và trích lọc thuộc tính 45
Hình 4.19 Mô hình được thiết lập sau khi thực hiện cài đặt 45
Hình 4.19 Kết quả dự đoán của mô hình 46
Hình 4.20 Cài đặt Web Service 46
Hình 4.21 Mô hìnhWebService 47
Hình 4.22 Thực hiện tạo WebService 47
Hình 4.23 Phát triển WebService 47
Hình 4.24 Form test kết quả dự báo 48
Hình 4.25 Bảng kết quả dự báo tập danh sách thuê bao 48
Hình 4.27 Form thống kê số liệu dự báo so với số liệu thực tế 52
Trang 9DANH MỤC KÝ HIỆU VÀ CHỮ VIẾT TẮT
2 VNPT Vietnam Posts and Telecommunications Group
3 AI Artificial Intelligence
4 ĐHSXKD Điều Hành Sản Xuất Kinh Doanh
10 ETL Extract, Tranformation, Loading
11 OLAP Online Analytical Processing
12 CRM Customer Relationship Management
13 ERP Enterprise Resource Planning
14 SMOTE Synthetic Minority Over-sampling
15 ADASYN Adaptive synthetic sampling
Trang 10CHƯƠNG I: GIỚI THIỆU TỔNG QUAN
1.1 Tổng quan sơ về vấn đề cần nghiên cứu trong và ngoài nước
Thuê bao rời mạng luôn là vấn đề “đau đầu” của các nhà mạng trong nước cũng như trên thế giới bởi lẽ khách hàng (thuê bao) chính là người mang lại doanh thu và duy trì hoạt động của các nhà mạng Để duy trì và phát triển hoạt động kinh doanh của mình, các nhà mạng phải tìm mọi cách để phát triển thuê bao mới nhưng đồng thời cũng phải tìm cách để duy trì hoạt động của các thuê bao hiện hữu Tổng chi phí để phát triển một thuê bao mới cao hơn nhiều so với việc duy trì một thuê bao hiện hữu
Để phát triển 1 thuê bao mới các khoản chi phí phải tốn:
- Chi phí nhân công: 50.000/thuê bao;
- Dây thuê bao: Đơn giá * chiều dài mét dây bình quân theo định mức = 900
* 150 = 135.000 VNĐ;
- Modem: 900.000 VNĐ
- Tổng chi phí cho 1 thuê bao phát triển mới khoảng: 1.085.000 VNĐ Trong khi đó việc thực hiện chính sách khuyến mãi giảm giá cước đối với khách hàng sử dụng lâu năm (VD: giảm giá cước 3 kỳ hoá đơn tháng sau liền kề…) nhằm mục đích giữ chân khách hàng hiện hữu sẽ khỏi phải mất khoản hao hụt chi phí như trên, vả lại tạo niềm tin đối với khách hàng
Bên cạnh đó, doanh thu từ các thuê bao hiện hữu (đặc biệt là các thuê bao lâu năm) cao hơn nhiều so với doanh thu của các thuê bao mới (theo thống kê số liệu tại VNPT Đồng Nai, thuê bao lâu năm có doanh thu trung bình cao hơn so thuê bao mới: doanh thu bình quân của thuê bao trước ngày 31/12/2020 là 169.952 VNĐ, thuê bao phát triển mới trong năm 2021 là 123.485 VNĐ) Chính vì lý do trên, các nhà mạng trên thế giới không ngừng tìm kiếm các giải pháp và nghiên cứu phát triển các ứng dụng để xác định, dự đoán sớm thuê bao có khả năng rời mạng để có biện pháp kịp thời tác động nhằm duy trì thuê bao đó hoạt động.Ngày nay, thị trường viễn thông trên toàn thế giới đang phải đối mặt với mất doanh thu nghiêm trọng do cạnh tranh gay gắt và mất khách hàng tiềm năng Để
Trang 11giữ lợi thế cạnh tranh và có được càng nhiều khách hàng càng tốt, hầu hết các nhà mạng đầu tư một khoảng chi phí khổng lồ để mở rộng hoạt động kinh doanh của
họ Do đó, nó trở nên quan trọng đối với các nhà mạng để có thể thu lại số tiền đã đầu tư và đạt được lợi nhuận trong một khoảng thời gian ngắn nhất
Việc khách hàng ngừng sử dụng dịch vụ của công ty trong một khoảng thời gian nhất định và chuyển sang nhà mạng mới được định nghĩa là khách hàng rời mạng Chandar, Laha, &Krishna [1]
Các công ty thì luôn muốn có thêm càng nhiều khách hàng càng tốt Mặc dù vậy, qua thời gian, tỷ lệ khách hàng mới / khách hàng rời mạng có xu hướng tiến tới bằng 1 Vì vậy, tác động của rời mạng ngày càng trở nên mạnh mẽ và cần được quan tâm hơn
Việc rời mạng thường gắn liền với vòng đời của ngành, khi ngành đang trong giai đoạn phát triển, việc bán hàng tăng trưởng bùng nổ, số khách hàng mới vượt
xa số khách hàng rời mạng, nhưng khi ở giai đoạn bão hòa, các công ty sẽ tập trung vào việc giảm tỉ lệ rời mạng
Thời điểm khách hàng rời mạng sẽ cho biết khách hàng gắn bó với công ty trong bao lâu, giá trị vòng đời của khách hàng (CLV) đối với công ty CLV được tính bằng tổng doanh thu mà Công ty thu được từ khách hàng trong suốt vòng đời của khách hàng trừ đi tổng chi phí thu hút khách hàng, bán hàng, dịch vụ khách hàng (quy ra tiền)
Các nghiên cứu trước đây đã đưa ra khái niệm khách hàng rời mạng từ nhiều quan điểm khác nhau Theo Olafsson, Li, và Wu [3], có 2 loại rời mạng khác nhau Loại thứ nhất là rời mạng chủ động (nghĩa là khách hàng chủ động chọn dừng sử dụng dịch vụ) Loại thứ hai là rời mạng bị động (nghĩa là khi những khách hàng không còn là khách hàng tốt nữa và công ty lựa chọn dừng mối quan hệ này) Burez và Van den Poel [2] đã chia rời mạng chủ động thành 2 nhóm: Rời mạng
do vấn đề thương mại và rời mạng do vấn đề tài chính Rời mạng do vấn đề thương mại là trường hợp khách hàng không gia hạn hợp đồng có thời hạn cố định của họ
Trang 12khi hợp đồng hết hạn Rời mạng do vấn đề tài chính là trường hợp khách hàng ngừng thanh toán trong quá trình thực hiện hợp đồng mà họ đang bị ràng buộc Ngày nay, khách hàng rời mạng đã trở thành vấn đề quan tâm chính của các công
ty trong tất cả các lĩnh vực và các công ty buộc phải hành động để xử lý vấn đề này
Xem xét tỷ lệ rời mạng của các ngành khác nhau, có thể nhận thấy ngành viễn thông là một trong những ngành có tỉ lệ rời mạng cao nhất với tỉ lệ rời mạng trung bình hàng năm từ 20% đến 40% Khách hàng rời mạng trong lĩnh vực viễn thông được hiểu là khách hàng chuyển từ nhà cung cấp này sang nhà cung cấp khác
Có 2 cách tiếp cận cơ bản đối với việc quản lý rời mạng Cách tiếp cận thứ nhất là tiếp cận không có mục tiêu dựa vào các sản phẩm nổi trội và truyền thông rộng rãi để tăng lòng trung thành và duy trì khách hàng Cách tiếp cận thứ hai là tiếp cận có mục tiêu dựa vào việc xác định những khách hàng có khả năng rời mạng, sau đó cung cấp cho họ những giá trị khuyến khích trực tiếp (khuyến mại) hoặc tạo ra các gói dịch vụ phù hợp cho khách hàng để giữ họ ở lại
Cách tiếp cận có mục tiêu gồm 2 loại: bị động và chủ động Với cách tiếp cận bị động, công ty chờ cho đến khi khách hàng liên hệ với công ty để hủy dịch
vụ, công ty sau đó mới đưa ra cho khách hàng những chính sách khuyến khích, ví
dụ khuyến mại giảm giá, để giữ khách hàng ở lại Với cách tiếp cận chủ động, công ty cố gắng xác định những khách hàng có khả năng rời mạng trong một thời gian ngắn tiếp theo Sau đó, công ty sẽ thực hiện những chương trình hoặc chính sách đặc biệt để giữ cho khách hàng không rời mạng Cách tiếp cận chủ động có những lợi ích là chi phí khuyến khích thấp (bởi vì phần khuyến khích đó không cần thiết phải cao như tại thời điểm khách hàng đã quyết định sẽ rời mạng rồi) và bởi vì khách hàng không được chuẩn bị sẵn để thương lượng có được mức khuyến khích tốt hơn với lý do rời mạng Tuy nhiên, cách tiếp cận này sẽ gây lãng phí nếu việc dự đoán rời mạng là không chính xác, bởi vì sau đó công ty sẽ phải lãng phí
Trang 13một lượng lớn chi phí để khuyến khích những khách hàng thực tế vẫn ở lại với mạng mình
Để giải quyết vấn đề này, rất nhiều nỗ lực đã thực hiện để có được cái nhìn chính xác hơn về rời mạng Nhìn chung, các nghiên cứu trong lĩnh vực này đều tập trung về một trong những mục đích chính sau: tìm ra các nhân tố ảnh hưởng đến khách hàng rời mạng, hoặc xây dựng mô hình cho việc dự đoán khách hàng rời mạng
Hiện nay, trong lĩnh vực phát triển dịch vụ FiberVnn trong nước có ba nhà mạng viễn thông lớn đang đầu tư trong lĩnh vực này là (Tập đoàn bưu chính viễn thông Việt Nam “VNPT”, Công ty viễn thông FPT, Công ty viễn thông Viettel) Theo số liệu Cục viễn thông công bố thị phần đến cuối năm 2021, thị phần internet cáp quang của VNPT đứng thứ 2 chiếm 32,31% thị phần, đứng thứ 1 là Viettel chiếm 48,96%, FPT chiếm 18,5% thị phần còn lại là của các doanh nghiệp khác
Do đó việc canh tranh và thu hút khách hàng trong việc phát triển thuê bao cũng như giữ chân khách hàng của các nhà mạng ngày càng cạnh tranh trở nên quyết liệt hơn
Tuy nhiên, hiện nay bài toán dự báo khách hàng rời mạng đã được các Viễn thông tỉnh, thành phố khác đã xây dựng và đưa vào sử dụng chủ yếu phân tích và
dự báo trên dịch vụ di động chưa áp dụng cho dịch vụ Fiber
Hiện tại, Viễn thông Đồng Nai thực hiện phân tích số liệu để lọc danh sách các khách hàng sử dụng dịch vụ Fiber có khả năng rời mạng cao chủ yếu dựa vào các chỉ tiêu báo cáo thống kê từ các hệ thống Điều hành sản xuất kinh doanh, hệ thống BI cũ dẫn đến việc dự báo số liệu không được nhanh chóng, chính xác và mất rất nhiều thời gian
Xuất phát từ những khó khăn và yêu cầu đặt ra đối với đơn vị mình, nhóm
đề tài nghiên cứu xây dựng hệ thống cơ sở dữ liệu khách hàng, tập hợp lịch sử các thuộc tính là nguyên nhân ảnh hưởng đến sự rời mạng của khách hàng (Ví dụ: độ hài lòng của khách hàng trong công tác lắp đặt và sửa chữa; việc khách hàng thực hiện thanh toán đúng hạn; độ ổn định phục vụ dịch vụ của nhà mạng…) và áp
Trang 14dụng các kỹ thuật máy học vào việc phân tích dữ liệu khách hàng đã rời mạng từ
đó dự báo thuê bao đang sử dụng có khả năng rời mạng cao
1.2 Ý nghĩa của đề tài
1.2.1 Ý nghĩa thực tiễn
Hỗ trợ các doanh nghiệp trong quá trình điều hành sản xuất kinh doanh, hoạch định các chiến lược cho việc phát triển kinh doanh
Giúp các doanh nghiệp thực hiện các chính sách tiếp thị, khuyến mãi kịp thời
để có sự cạnh tranh lành mạnh và quyết liệt hơn trên thị trường
Giúp các doanh nghiệp chiếm lĩnh thị trường ngày càng lớn
Cho phép ghi nhận và thống kê các dữ liệu một cách tự động, việc dự báo sớm khách hàng có tỉ lệ rời mạng cao sẽ giúp các doanh nghiệp có các chiến lược quản lý và chăm sóc khách hàng kịp thời
1.2.2 Ý nghĩa khoa học
Hiện nay các phương pháp máy học có 2 nhóm chính: Học giám sát và học không giám sát, đã hỗ trợ việc xây dựng mô hình dự báo khá chính xác cho nhiều ứng dụng trong lĩnh vực khai phá dữ liệu
Các nghiên cứu trước đây đã đưa ra khái niệm khách hàng rời mạng từ nhiều quan điểm khác nhau Theo Olafsson, Li và Wu [3], có 2 loại rời mạng khác nhau Loại thứ nhất là rời mạng chủ động (nghĩa là khách hàng chủ động chọn dừng sử dụng dịch vụ) Loại thứ hai là rời mạng bị động (nghĩa là khi những khách hàng không còn là khách hàng tốt nữa và công ty lựa chọn dừng mối quan hệ này) Việc tiếp cận phương pháp rút trích và phân đoạn để phát hiện các bất thường và dự đoán sớm sẽ giúp đánh giá chính xác hơn khi áp dụng vào máy học Burez và Van den Poel [2] đã chia rời mạng chủ động thành 2 nhóm: Rời mạng do vấn đề thương mại và rời mạng do vấn đề tài chính Rời mạng do vấn đề thương mại là trường hợp khách hàng không gia hạn hợp đồng có thời hạn cố định của họ khi hợp đồng hết hạn Rời mạng do vấn đề tài chính là trường hợp khách hàng ngừng thanh toán trong quá trình thực hiện hợp đồng mà họ đang bị ràng buộc
Trang 15Để giải quyết vấn đề dự báo chính xác hơn về việc thuê bao rời mạng, các nghiên cứu đều tập trung vào các việc chính sau: tìm ra nhân tố ảnh hưởng đến khách hàng rời mạng hoặc xây dựng các mô hình cho việc dự báo khách hàng rời mạng
1.3 Mục tiêu đề tài
Xây dựng mô hình ứng dụng công nghệ máy học (Machine learning) để phục
vụ công tác dự báo sớm khách hàng có khả năng rời mạng cao nhằm phục vụ việc kinh doanh tại Viễn thông Đồng Nai
1.4 Đối tượng nghiên cứu
- Khách hàng sử dụng dịch vụ Fiber Vnn tại Viễn thông Đồng Nai
- Khách hàng có khả năng rời mạng cao
1.5 Nội dung nghiên cứu
- Phân tích các hệ thống CSDL từ khách hàng tại Viễn thông Đồng Nai
- Nghiên cứu, ứng dụng hệ quản trị CSDL và xây dựng hệ thống Database lưu trữ các nguồn dữ liệu từ khách hàng
- Phát triển thuật toán phân cụm để xác định nguyên nhân chính ảnh hưởng đến khách hàng rời mạng
- Nghiên cứu và ứng dụng các thuật toán máy học để dự báo khách hàng có nguy cơ rời mạng
- Xây dựng mô hình dự báo khách hàng có khả năng rời mạng cao
1.6 Phương pháp nghiên cứu
- Sử dụng hệ quản trị SQL Server hoặc Oracle để thiết kế database lưu trữ
Trang 16- Sử dụng phần mềm Microsoft Azuel xây dựng mô hình phân tích và dự báo
- Dùng CSDL khách hàng rời mạng tại VNPT Đồng Nai làm dữ liệu huấn luyện
1.7 Dự kiến kết quả
- Database tổng hợp lưu trữ dữ liệu khách hàng
- Các Jobs để đồng bộ và lưu trữ dữ liệu khách hàng
- Bộ dữ liệu huấn luyện có độ chính xác dự đoán AUC đạt trên 95%
- Hệ thống giao diện web để thực hiện phân tích và xuất ra danh sách khách hàng có nguy cơ rời mạng cao
1.8 Bố cục luận văn
Luận văn được bố cục theo các nội dung chính trong từng chương như sau:
Chương 1: Giới thiệu tổng quan Chương này giới thiệu tổng quan về đề tài,
mục tiêu nghiên cứu, phương pháp nghiên cứu của đề tài, nội dung nghiêng cứu, kết quả của đề tài và bố cục tổng thể của luận văn
Chương 2: Cơ sở lý thuyết Chương này trình bày các nội dung lý thuyết liên
quan đến đề tài như: khai phá dữ liệu, học máy, các kỹ thuật phân tích dự báo và khung thức dự báo thuê bao rời bỏ nhà mạng
Chương 3: Phương pháp tiếp cận Chương này giới thiệu hướng tiếp cận của luận văn
Chương 4: Thực nghiệm Chương này sẽ trình bày phương pháp hiện thực bài
toán dự báo thuê bao rời mạng bằng mô hình cây quyết định tăng cường hai lớp
(Two-Class Boosted Decision Tree) bằng hai phương pháp: Phương pháp 1: trên tập dữ liệu thô chưa qua tiền xử lý và trích lọc thuộc tính Phương pháp 2: trên tập
dữ liệu đã qua tiền xử lý và trích lọc thuộc tính Đồng thời, đánh giá hiệu suất sau khi áp dụng hai phương pháp
Chương 5: Kết luận và Hướng phát triển.Chương này trình bày các kết luận quan trọng, các công việc đã làm được và hướng phát triển của luận văn
Trang 17CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
Để giải quyết bài toán xây dựng mô hình dự đoán thuê bao rời mạng thì chúng tôi cần các kiến thức tổng quan và chuyên sâu về khai phá dữ liệu (Data mining) và học máy (Machine learning), các kỹ thuật khai phá dữ liệu, các mô hình máy học mà trong luận văn hướng đến kỹ thuật mô hình cây quyết định để
dự báo, các kỹ thuật lựa chọn thuộc tính và trích lọc thuộc tính Chương này khảo sát các kiến thức liên quan đến cách thức giải bài toán dự báo thuê bao rời mạng dựa vào máy học và đánh giá các ưu, khuyết điểm của các phương pháp đó
2.1 Các khái niệm cơ bản về khai phá dữ liệu, học máy, các kỹ thuật
xử lý dữ liệu lớn và phân tích dự báo
2.1.1 Khái niệm khai phá dữ liệu và học máy
Khai phá dữ liệu là quá trình khảo sát và phân tích khối lượng lớn các dữ liệu được lưu trữ trong các cơ sở dữ liệu, kho dữ liệu… để từ đó trích xuất ra các thông tin quan trọng, có giá trị tiềm ẩn bên trong Do nhu cầu nghiệp vụ cần có cách nhìn thông tin trên quy mô toàn hệ thống và phải ứng dụng được để tạo tiền đề cho việc khai phá dữ liệu áp dụng vào doanh nghiệp
Các dữ liệu này được thu từ nhiều nguồn, đa số là từ các phần mềm nghiệp
vụ như: phần mềm tài chính kế toán, các hệ thống điều hành sản xuất kinh doanh của doanh nghiệp, các hệ thống quản lý khách hàng…
Đây là khối dữ liệu khổng lồ nhưng những thông tin mà nó thể hiện ra thì chưa được tinh chỉnh, rất phức tạp, chưa có cấu trúc ổn định và ít thông tin được hiển thị rõ rệt đối với người dùng Kích thước của khối dữ liệu khổng lồ đó cũng tăng rất nhanh, chiếm nhiều dung lượng và tài nguyên lưu trữ Khai phá dữ liệu
sẽ giúp trích xuất ra các mẫu điển hình có giá trị và biến chúng thành những tri thức hữu ích Quá trình này gồm một số bước được thể hiện trong Hình 2.1:
Trang 18Hình 2.1 Các bước xây dựng một hệ thống KPDL
Ý nghĩa cụ thể của các bước như sau:
- Lựa chọn dữ liệu liên quan đến bài toán quan tâm
- Tiền xử lý dữ liệu, làm sạch dữ liệu
- Chuyển đổi dữ liệu về dạng phù hợp thuận lợi cho việc khai phá
- KPDL, trích xuất ra các mẫu dữ liệu (mô hình)
- Đánh giá mẫu
- Sử dụng tri thức khai phá được
2.1.2 Các khai niệm về xử lý dữ liệu lớn
2.1.2.1 Xử lý dữ liệu phân tán
Xử lý dữ liệu phân tán có liên quan chặt chẽ với xử lý dữ liệu song song trong đó áp dụng cùng một nguyên tắc "chia để trị" Tuy nhiên, xử lý dữ liệu phân tán luôn đạt được thông qua các máy riêng biệt được nối mạng với nhau thành một cụm Trong Hình 2.2, một tác vụ được chia thành ba nhiệm vụ sau đó được thực hiện trên ba máy khác nhau chia sẻ một công tắc vật lý [10]
2.1.2.2 Xử lý dữ liệu Hadoop
Hadoop là nền tảng mã nguồn mở để lưu trữ dữ liệu quy mô lớn và xử lý dữ liệu tương thích với phần cứng Hadoop đã trở thành một nền tảng công nghiệp thực sự cho các giải pháp BigData Nó có thể được sử dụng như một công cụ trích xuất, chuyển đổi và lưu trữ dữ liệu ETL (Extract, Tranformation, Loading) Ngoài
ra còn là một công cụ phân tích để xử lý một lượng lớn dữ liệu có cấu trúc, bán
Trang 19cấu trúc và không cấu trúc Hadoop thiết lập cơ chế MapReduce để xử lý dữ liệu [10]
2.1.2.3 Xử lý dữ liệu Workload
Việc xử lý dữ liệu trong BigData được phân biệt theo khối lượng và tính chất của dữ liệu được xử lý trong một khoảng thời gian nhất định Hiện có 02 hình thức xử lý dữ liệu trong BigData:
- Xử lý dữ liệu theo lô (batch processing), còn được gọi là xử lý ngoại tuyến (offline), là việc xử lý dữ liệu với số lượng lớn, có độ trễ xử lý cao Hình thức xử
lý này thường liên quan đến một lượng lớn dữ liệu với việc đọc/ghi tuần tự hoặc chỉ đọc/chỉ ghi Các truy vấn có thể phức tạp và liên quan đến nhiều phép nối Các
hệ thống chạy cơ chế OLAP như BI hay các công cụ phân tích được định hướng theo lô vì chúng là các tác vụ đòi hỏi nhiều khả năng đọc với khối lượng dữ liệu lớn
- Xử lý giao dịch (transaction processing) còn được gọi là xử lý trực tuyến (online) là xử lý tương tác dữ liệu có độ trễ thấp Hình thức xử lý dữ liệu này liên quan đến một lượng nhỏ dữ liệu với việc đọc và ghi ngẫu nhiên Khối lượng công việc giao dịch bao gồm đọc/ghi ngẫu nhiên có số phép nối (joins) ít hơn so với xử
lý dữ liệu theo lô [5]
2.1.2.4 Xử lý dữ liệu theo cụm (cluster)
Theo cùng cách mà các cụm cung cấp hỗ trợ cần thiết để tạo ra các giải pháp lưu trữ có thể mở rộng theo chiều ngang, các cụm cũng cung cấp cơ chế cho phép
xử lý dữ liệu phân tán với khả năng mở rộng tuyến tính Vì các cụm có khả năng
mở rộng cao, chúng cung cấp một môi trường lý tưởng để xử lý Dữ liệu lớn vì các
bộ dữ liệu lớn có thể được chia thành các bộ dữ liệu nhỏ hơn và sau đó được xử
lý song song theo cách phân tán Khi tận dụng một cụm, bộ dữ liệu BigData có thể là chế độ hàng loạt (batch) hoặc chế độ thời gian thực (real time) Một lợi ích
bổ sung của các cụm là chúng cung cấp dự phòng và khả năng chịu lỗi vốn có, vì chúng bao gồm các nút riêng biệt về mặt vật lý Dự phòng và khả năng chịu lỗi cho phép xử lý và phân tích khả năng phục hồi xảy ra nếu xảy ra lỗi mạng hoặc
Trang 20nút Do sự biến động của nhu cầu xử lý được đặt trong môi trường Dữ liệu lớn, tận dụng các dịch vụ cơ sở hạ tầng máy chủ đám mây hoặc môi trường phân tích sẵn sàng làm xương sống của cụm, có thể cảm nhận được do tính linh hoạt và mô hình tính toán dựa trên tiện ích của nó [10]
Hình 2.2 Mô hình xử lý dữ liệu theo cụm
2.1.3 Các khái niệm phân tích dữ liệu và các loại hình phân tích dữ liệu
Phân tích dữ liệu (Data Analysis) là quá trình xử lý dữ liệu để tìm ra các sự kiện, các mối quan hệ, mẫu (patterns) dữ liệu, hiểu biết dữ liệu và xu thế Mục tiêu của phân tích dữ liệu là để hỗ trợ cho việc ra quyết định tốt hơn
Xử lý phân tích dữ liệu (Data Analytics) là một thuật ngữ rộng hơn khái niệm phân tích dữ liệu (Data Analysis) Quá trình này là việc quản lý vòng đời dữ liệu, bao gồm: Thu thập dữ liệu; Làm sạch dữ liệu; Tổ chức dữ liệu; Lưu trữ dữ liệu; Phân tích và quản lý dữ liệu Trong lĩnh vực BigData, phân tích dữ liệu còn cho phép phát triển các phương pháp dựa trên nền tảng và công nghệ phân tán có khả năng mở rộng cao Nó có khả năng phân tích một khối lượng dữ liệu lớn từ các nguồn khác nhau
Trang 21Hình 2.3 Giá trị và đô phức tạp tăng từ phân tích mô tả đến đề xuất
Phân tích dữ liệu cho phép ra quyết định dựa trên dữ liệu thực tế có khoa học, nó không chỉ đơn thuần dựa vào kinh nghiệm và trực giác trong quá khứ Có thể phân thành 04 loại phân tích dữ liệu: Phân tích mô tả (descriptive analytics); Phân tích chẩn đoán (diagnostic analytics); Phân tích dự báo (predictive analytics); Phân tích đề xuất (prescriptive analytics) [10]
Phân tích mô tả:
Các thống kê cho thấy rằng có khoảng 80% kết quả phân tích được dưới dạng phân tích mô tả Đây là dạng phân tích có giá trị thấp nhất, chỉ cần yêu cầu kỹ năng phân tích tương đối cơ bản Phân tích mô tả được thực hiện để trả lời các sự kiện đã xảy ra, các câu hỏi mẫu để phân tích mô tả có dạng như sau:
- Doanh số bán hàng trong 12 tháng đã qua là bao nhiêu?
- Hoa hồng hàng tháng kiếm được từ mỗi đại lý bán hàng?
Phân tích mô tả thường được thực hiện thông qua báo cáo hoặc dưới dạng bảng Dashboard (đồ thị hoặc biểu đồ) Các truy vấn được thực hiện từ kho dữ liệu của doanh nghiệp Ví dụ như hệ thống quản lý khách hàng CRM, hệ thống hoạch định nguồn lực ERP [10]
Phân tích chẩn đoán:
Phân tích chẩn đoán nhằm xác định nguyên nhân của hiện tượng xảy ra trong quá khứ bằng cách sử dụng các câu hỏi tập trung vào lý do xảy ra sự kiện Các dạng câu hỏi mẫu như:
- Tại sao doanh thu Quý 2 thấp hơn doanh thu Quý 1
- Tại sao có tỷ lệ gia tăng sự cố mạng trong ba tháng qua
Trang 22Phân tích chẩn đoán cung cấp nhiều thông tin giá trị hơn phân tích mô tả, do vậy nó yêu cầu kỹ năng phân tích cao hơn Kết quả phân tích chẩn đoán thông qua các công cụ trực quan giúp người dùng xác định được xu thế Các truy vấn dữ liệu trong phân tích chẩn đoán cũng phức tạp hơn so với phân tích mô tả, nó được thực hiện trên dữ liệu đa chiều được lưu giữ trong các hệ thống phân tích [10] Phân tích dự báo (dự đoán):
Phân tích dự đoán dùng để xác định kết quả của một sự kiện nào đó sẽ xảy
ra trong tương lai Nói một cách chính xác hơn, phân tích dự đoán là mô hình dựa vào sự kiện đã xảy ra trong quá khứ với một điều kiện cụ thể để xác định sự kiện tương tự xảy ra trong tương lai Nếu các điều kiện cơ bản này thay đổi thì mô hình
dự báo phải được cập nhật Các câu hỏi mẫu cho phân tích dự báo có dạng
Phân tích đề xuất: Phân tích đề xuất được xây dựng dựa trên kết quả của phân tích dự báo bằng cách liệt kê các hành động cần phải thực hiện Phân tích này không chỉ tập trung vào việc lựa chọn hành động nào là tốt nhất mà còn trả lời câu hỏi tại sao? Do đó, loại phân tích này thường được sử dụng để đạt được các lợi thế và giảm thiểu các rủi ro của doanh nghiệp Các dạng câu hỏi mẫu cho loại phân tích này như:
- Trong số ba loại thuốc, loại thuốc nào mang lại kết quả tốt nhất?
- Khi nào là thời điểm tốt nhất để giao dịch một cổ phiếu cụ thể?
Trang 23Phân tích đề xuất cung cấp tri thức nhiều giá trị nhất trong các loại phân tích
kể trên, do vậy nó yêu cầu các kỹ năng phân tích tiên tiến kết hợp với các phần mềm, công cụ chuyên dụng Có thể nói phân tích đề xuất đã chuyển dịch từ việc giải thích nguyên nhân sang tư vấn hành động và nó có thể mô phỏng nhiều kịch bản xảy ra khác nhau Loại phân tích này kết hợp dữ liệu nội bộ với dữ liệu bên ngoài Dữ liệu nội bộ có thể bao gồm dữ liệu bán hàng hiện tại và lịch sử, thông tin khách hàng, dữ liệu sản phẩm và quy tắc kinh doanh Dữ liệu bên ngoài có thể bao gồm dữ liệu truyền thông xã hội, dự báo thời tiết và dữ liệu nhân khẩu học do chính phủ sản xuất Phân tích đề xuất liên quan đến việc sử dụng các quy tắc kinh doanh và một lượng lớn dữ liệu bên trong và bên ngoài để mô phỏng các kết quả
và định hướng hành động tốt nhất [5]
2.1.4 Các bài toán phân tích dự báo
2.1.4.1 Bài toán phân tích dự báo
Khi nói về các mô hình dự báo, hiện có 02 bài toán chính cần giải quyết:
- Bài toán hồi quy (Regression): Là những vấn đề mà bạn đang cố gắng dự đoán hoặc giải thích một hiện tượng (biến phụ thuộc) bằng cách sử dụng những hiện tượng khác (biến độc lập) với đầu ra liên tục, ví dụ giá chính xác của một cổ phiếu vào ngày hôm sau [2]
- Bài toán phân lớp (Classification): Bài toán phân lớp là một trong những bài toán phổ biến nhất của Khai phá dữ liệu, ví dụ như: phân tích xem loại khách hàng nào có khả năng cao nhất sẽ chuyển sang dùng sản phẩm dịch vụ của đối thủ cạnh tranh của công ty (churn analysis), quản lý rủi ro hay lựa chọn ảnh quảng cáo nào sẽ xuất hiện đối với mỗi loại khách hàng…
Phân lớp là tổ chức dữ liệu trong các lớp cho trước, còn được gọi là học
có quan sát Phân lớp sử dụng các nhãn lớp cho trước để sắp xếp các đối tượng Trong đó, có một tập huấn luyện gồm các đối tượng đã được kết hợp với các nhãn
đã biết Những thuật toán học có quan sát sẽ được áp dụng cho tập các đối tượng cần phân lớp để từ đó ta có mô hình phân lớp chúng
Trang 24Một số thuật tốn dùng trong bài tốn phân lớp như: Phân lớp với cây quyết định (Decision Tree), phân lớp với Mạng nơron (Neural Network), phân lớp với K-lân cận gần nhất (K-Nearest Neighbour)…Hình 2.4 cho ta thấy các thành phần tổng quát của một hệ thống phân lớp:
Hình 2.4 Hệ thống phân lớp tổng quát
- Bài tốn phân cụm: Bài tốn phân cụm hay cịn gọi là phân đoạn Điểm khác với bài tốn phân lớp là ở đây các nhãn lớp chưa biết và khơng cĩ huấn luyện Các đối tượng được phân loại dựa trên các thuộc tính tương đồng giữa chúng Bài tốn phân cụm hay cịn gọi là học khơng cĩ giám sát Đặc điểm của cụm:
+ Các đối tượng thuộc 1 cụm là tương tự nhau
+ Đối tượng ở cụm này sẽ ít tương tự với đối tượng ở cụm khác
2.1.4.2 Các mơ hình dự báo cơ bản
Các mơ hình dự báo phổ biến hiện nay dựa trên các thuật tốn Decision Tree, Logistic Regression, Nạve Bayes, Random Forest, Gradient Boosted, Deep Learning (Neural Nets) và mơ hình dự báo dựa trên các thuật tốn kết hợp Ensemble Trong khuơn khổ của luận văn này sẽ đề cập đến 01 mơ hình cơ bản là Decision Tree (hay cịn gọi là cây quyết định)
a) Mơ hình dự báo dựa trên thuật tốn cây quyết định
Cây quyết định (Decision Tree) là một cấu trúc biểu diễn dưới dạng cây Trong đĩ, mỗi nút trong biểu diễn một thuộc tính, mỗi nhánh biểu diễn giá trị cĩ thể cĩ của thuộc tính, mỗi lá biểu diễn các lớp quyết định và đỉnh trên cùng của cây gọi là gốc
Trang 25Hình 2.5 Mô hình cây quyết định
Trong lĩnh vực học máy, cây quyết định là một kiểu mô hình dự báo, nghĩa
là một ánh xạ từ các quan sát về một sự vật/hiện tượng tới các kết luận về giá trị mục tiêu của sự vật/hiện tượng Mỗi nút trong tương ứng với một biến, đường nối giữa nó với nút con của nó thể hiện giá trị cụ thể cho biến đó Mỗi nút lá đại diện cho giá trị dự đoán của biến mục tiêu, cho trước các giá trị dự đoán của các biến được biểu diễn bởi đường đi từ nút gốc tới nút lá đó Kỹ thuật học máy dùng trong cây quyết định được gọi là học bằng cây quyết định, hay chỉ gọi với cái tên ngắn gọn là cây quyết định Một ví dụ cho cây quyết định là bài toán dự báo “một người
có chơi tennis hay không”?
Hình 2.6 Mô hình cây quyết định cho việc chơi Tennis
Trang 26Cây quyết định là một cây phân cấp có cấu trúc được dùng để phân lớp các đối tượng dựa vào dãy các luật Các thuộc tính của đối tượng (ngoại trừ thuộc tính phân lớp) có thể thuộc các kiểu dữ liệu khác nhau (Binary, Nominal, ordinal, quantitative values) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là Binary hoặc Ordinal [9] Tóm lại, cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp của nó, cây quyết định sẽ sinh ra các luật để dự đoán lớp của các đối tượng chưa biết So với các phương pháp KPDL khác, cây quyết định là một trong những hình thức mô tả dữ liệu tương đối đơn giản, trực quan, dễ hiểu đối với người dùng nhưng lại hiệu quả nên được sử dụng nhiều Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng notron, mô hình thống kê tuyến tính bậc 2, cây quyết định, mô hình di truyền Trong số những mô hình đó, cây quyết định được đánh giá là một công
cụ mạnh, phổ biến, đặt biệt là thích hợp cho KPDL nói chung và cho phân lớp dữ liệu nói riêng
b) Các thuật toán xây dựng cây quyết định
Có rất nhiều giải thuật đã được cài đặt sẵn như: CART (Breiman [6]), C4.5 (Quinlan [5]), ID3 [7]…
Các bước xây dựng cây quyết định:
- Cây được thiết lập từ trên xuống dưới
- Rời rạc hóa các thuộc tính dạng phi số
- Các mẫu huấn luyện nằm ở gốc cây
- Chọn thuộc tính để phân chia thành các nhánh Thuộc tính được chọn dựa trên độ đo thống kê hoặc độ đo Heuristis
- Tiếp tục lặp lại việc xây dựng Cây quyết định cho các nhánh
Điều kiện dừng:
- Tất cả các mẫu rơi vào một nút thuộc về cùng một lớp (nút lá)
- Không còn thuộc tính nào có thể dùng phân chia mẫu nữa
- Không còn lại mẫu tại nút
c) Thuật toán ID3
Trang 27Thuật toán ID3 (Interactive Dichotomizer 3) được đề ra bởi Quinlan [7] và những dạng biểu diễn của nó được sử dụng rộng rãi trong thuật toán cây quyết
Thuật toán xây dựng cây ID3 sử dụng Entropy làm cơ sở đo độ đồng nhất của tập dữ liệu Trên cơ sở Entropy, thuật toán tính độ lợi thông tin như mức tăng
độ đồng nhất, từ đây xác định thuộc tính tốt nhất tại mỗi nút
Đầu vào: Một tập các mẫu Mỗi mẫu bao gồm các thuộc tính rời rạc, mô tả một tình huống, hay một đối tượng nào đó, và một giá trị phân loại của nó
𝑖=1
H(S) đạt giá trị cựa đại là log2(m) khi các nhãn c1, c2, …, cₘ có xác suất như nhau và giá trị nhỏ nhất của H(S) là 0 khi tất cả các đối tượng có chung một nhãn
Trang 28+ Độ lợi thông tin (Information Gain, ký hiệu IG) là chỉ số đánh giá độ tốt của thuộc tính trong việc phân chia tập dữ liệu thành những tập con đồng nhất IG được tính trên độ tăng thông tin theo công thức sau:
IG(S, A) = H(S) - ∑ |𝑆𝑣|
|𝑆| 𝐻(𝑆𝑣)
𝑚 𝑣∊𝑣𝑎𝑙𝑢𝑒𝑠(𝐴)
Trong đó:
S là tập dữ liệu ở nút hiện tại A là thuộc tính được sử dụng để đánh giá độ tốt phân chia Values (A) là tập các giá trị của A
Sv là tập mẫu con của S có các giá trị thuộc tính A bằng v |S| và |Sv| là số phần tử của các tập |S|, |Sv| tương ứng Thuật toán ID3 sử dụng độ tăng thông tin để lựa chọn thuộc tính tốt nhất tại mỗi nút, thuộc tính được lựa chọn là thuộc tính mang lại độ lợi thông tin lơn nhất
c) Thuật toán C4.5
C4.5 là thuật toán dùng để xây dựng cây quyết định được đề xuất bởi Quilan [19] năm 1993, là mở rộng của ID3 Đặc điểm của C4.5:
- Cho phép dữ liệu đầu vào ở các thuộc tính liên tục
- Cho phép thao tác với các thuộc tính có dữ liệu không xác định (do bị mất mát dữ liệu)
- Đưa ra phương pháp cắt tỉa cây và gỉn lược các luật để phù hợp với những
bộ dữ liệu lớn
- C4.5 sử dụng cơ chế lưu trữ dữ liệu thường trú trong bộ nhớ, chính đặc điểm này của C4.5 thích hợp với những dữ liệu nhỏ, và cơ chế sắp xếp lại dữ liệu tại mỗi nút trong quá trình phát triển cây quyết định
- C4.5 còn chứa kỹ thuật cho phép biểu diễn lại cây quyết định dưới dạng một danh sách sắp thứ tự các luật If-then (một dạng quy tắc phân lớp dễ hiểu) kỹ thuật này cho phép làm giảm bớt kích thước tập luật và đơn giản hóa các luật mà
độ chính xác so với nhánh tương ứng cây quyết định là tương đương
- C4.5 có cơ chế sinh cây quyết định hiệu quả và chặt chẽ bằng việc sử dụng
độ đo lựa chọn thuộc tính tốt nhất là Information Gain Các cơ chế xử lý với giá
Trang 29trị lỗi, thiếu và tránh quá phù hợp của dữ liệu C4.5 cùng với cơ chế cắt tỉa cây đã tạo nên sức mạnh của C4.5 Thêm vào đó, mô hình phân lớp C4.5 còn có phân chuyển đổi từ cây quyết định sang luật dạng If-then, làm tăng độ chính xác và tính
dễ hiểu của kết quả phân lớp Đây là tiện ích rất có ý nghĩa đối với người sử dụng
- Độ đo GinRatio được sử dụng trog thuật toán C4.5 là cải tiến của thuật toán ID3 và được xây dựng bởi Quilan là thước đo cải tiến của chỉ số Information Gain + Độ đo này giải quyết vấn đề thuộc tính có nhiều giá trị: Trong tập mẫu huấn luyện bài toán chơi tennis ở trên, nếu sử dụng thêm thuộc tính ngày thì thuộc tính này có 14 giá trị khác nhau và thuộc tính này có IG cao nhất, và khi đó ngày được chọn làm gốc với 14 nhánh và không phân loại được các ngày tiếp theo Do
đó cần tránh thuộc tính có nhiều giá trị Thành phần thông tin tách (Split Information - SI) được bổ sung để phạt các thuộc tính có nhiều giá trị:
SI(S, A) = − ∑ |𝑆𝑖|
|𝑆| 𝐿𝑜𝑔2 (|𝑆𝑖|
|𝑆|)
𝑚 𝑖=1
+ Tiêu chuẩn đánh giá thuộc tính GainRatio được xác định bằng cách chia
độ tăng thông tin cho thông tin chia (khi SI(S, A)=0 thì cần có phương án xử lý riêng)
Thuộc tính tách (Splitting attribute) tương ứng với gini index nhỏ nhất để tối
đa hóa sự suy giảm về độ trùng lắp giữa các phân hoạch
Trang 30Ưu điểm:
So với các phương pháp KPDL khác, cây quyết định là một trong những hình thức mô tả dữ liệu tương đối đơn giản, trực quan, dễ hiểu đối với người dùng nhưng lại hiệu quả nên được sử dụng nhiều Trong những năm qua, nhiều mô hình phân lớp dữ liệu đã được các nhà khoa học trong nhiều lĩnh vực khác nhau đề xuất như mạng Nơron, mô hình thống kê tuyến tính/ bậc 2, cây quyết định, mô hình di truyền … Trong số những mô hình đó, cây quyết định được đánh giá là một công
cụ mạnh, phổ biến, dễ dàng được chuyển đổi sang SQL để truy vấn Cơ sở dữ liệu hiệu quả, đặc biệt là thích hợp cho KPDL nói chung và cho phân lớp dữ liệu nói riêng
Cây quyết định có thể xử lý cả dữ liệu có giá trị bằng số và giá trị là tên thể loại, có thể thẩm định mô hình bằng các kiểm tra thống kê
Nhược điểm:
Khó giải quyết được những vấn đề có dữ liệu phụ thuộc thời gian liên tục –
dễ xảy ra lỗi khi có quá nhiều lớp chi phí tính toán để xây dựng mô hình cây quyết định cao
2.1.4.3 Mất cân bằng dữ liệu (imbalanced dataset)
Mất cân bằng dữ liệu là một trong những hiện tượng phổ biến của bài toán phân loại nhị phân (binary classification) như spam email, phát hiện gian lận, dự báo vỡ nợ, chuẩn đoán bệnh lý… Trong trường hợp tỷ lệ dữ liệu giữa 2 classes là 50:50 thì được coi là cân bằng Khi có sự khác biệt trong phân phối giữa 2 classes, chẳng hạn 60:40 thì dữ liệu có hiện tượng mất cân bằng
Hầu hết các bộ dữ liệu đều khó đạt được trạng thái cân bằng mà luôn có sự khác biệt về tỷ lệ giữa 2 classes Đối với những trường hợp dữ liệu mất cân bằng nhẹ như tỷ lệ 60:40 thì sẽ không ảnh hưởng đáng kể tới khả năng dự báo của mô hình Tuy nhiên nếu hiện tượng mất cân bằng nghiêm trọng xảy ra, chẳng hạn như
tỷ lệ 90:10 sẽ thường dẫn tới ngộ nhận chất lượng mô hình Khi đó thước đo đánh giá mô hình là độ chính xác (accuracy) có thể đạt được rất cao mà không cần tới
mô hình Ví dụ, một dự báo ngẫu nhiên đưa ra tất cả đều là nhóm đa số thì độ
Trang 31chính xác đã đạt được là 90% Do đó không nên lựa chọn độ chính xác làm chỉ số đánh giá mô hình để tránh lạc quan sai lầm về chất lượng
Ngoài ra, mất cân bằng dữ liệu nghiêm trọng thường dẫn tới dự báo kém chính xác trên nhóm thiểu số Bởi đa phần kết quả dự báo ra thường thiên về 1 nhóm là nhóm đa số và rất kém trên nhóm thiểu số Trong khi tầm quan trọng của việc dự báo được chính xác một mẫu thuộc nhóm thiểu số lớn hơn nhiều so với
dự báo mẫu thuộc nhóm đa số Để cải thiện kết quả dự báo chúng ta cần những điều chỉnh thích hợp để mô hình đạt được một độ chính xác cao trên nhóm thiểu
số
Như vậy để giải quyết sự mất cân bằng dữ liệu, chúng ta phải xử lý như thế nào Sau đây là 8 chiến thuật để xử lý mất cân bằng dữ liệu:
a) Thu thập thêm dữ liệu [16]
Thu thập thêm dữ liệu phần lớn thường bỏ qua vì cho rằng không thể Tuy nhiên, có thể có nhiều cách, thử suy ngẫm xem liệu bạn có thể thu thập thêm dữ liệu không?
Ví dụ: Tập danh sách dữ liệu thuê bao làm mẫu huấn luyện được tập hợp từ tháng 1/2017 đến tháng 12/2020 thì việc tỉ lệ thuê bao sử dụng sẽ cao hơn so với tỉ lệ thuê bao đã rời mạng tại vì sao, vì đây là tập danh sách thuê bao mới sử dụng nên
tỉ lệ rời mạng rất thấp, cho nên việc thu thập thêm các danh sách thuê bao từ những năm trước sẽ cho tập dữ liệu có tỉ lệ rời mạng cao hơn
b) Thay đổi metric [16]
Khi hiện tượng mất cân bằng dữ liệu nghiêm trọng xảy ra thì việc sử dụng
độ chính xác làm thước đo đánh giá mô hình thường không hiệu quả bởi hầu hết chúng đều đạt độ chính xác rất cao Một mô hình ngẫu nhiên dự báo toàn bộ là nhãn thuộc nhóm đa số cũng sẽ mang lại kết quả gần bằng 100% Khi đó ta có thể cân nhắc tới một số metrics thay thế như precision, recall, f1-score, gini, … Các chỉ số này sẽ không quá lớn để dẫn tới ngộ nhận độ chính xác, đồng thời chúng tập trung hơn vào việc đánh giá độ chính xác trên nhóm thiểu số, nhóm mà chúng
ta muốn dự báo chính xác hơn so với nhóm đa số
Trang 32Hình 2.7 Bảng cross table mô tả kết quả thống kê chéo giữa nhãn dự báo và
ground truth
Từ bảng cross table ta dễ dàng hình dung được ý nghĩa của các chỉ số đó là:
Precision: Mức độ dự báo chính xác trong những trường hợp được dự báo là Positive
Recall: Mức độ dự báo chuẩn xác những trường hợp là Positive trong những trường hợp thực tế là Positive
F1-Score: Trung bình điều hòa giữa Precision và Recall Đây là chỉ số thay thế lý tưởng cho accuracy khi mô hình có tỷ lệ mất cân bằng mẫu cao
Kappa-Score: Là chỉ số đo lường mức độ liên kết tin cậy (inter-rater reliability) cho các categories
Gini: Đo lường sự bất bình đẳng trong phân phối giữa Positive và Negative được dự báo từ mô hình
AUC: Biểu diễn mối quan hệ giữa độ nhạy (sensitivity) và độ đặc hiệu (specificity) Đánh giá khả năng phân loại good và bad được dự báo từ mô hình
Trang 33Một mô hình có các chỉ số trên đều cao thì mô hình có chất lượng dự báo càng tốt
c) Thử lấy lại mẫu trong tập dữ liệu [16]
Thay đổi tập dữ liệu huấn luyện mới để xây dựng mô hình dự đoán với dữ liệu cân bằng hơn, có hai phương pháp chính có thể sử dụng:
Over Sampling:
Over sampling là các phương pháp giúp giải quyết hiện tượng mất cân bằng mẫu bằng cách gia tăng kích thước mẫu thuộc nhóm thiểu số bằng các kĩ thuật khác nhau Có 2 phương pháp chính để thực hiện over sampling đó là:
- Lựa chọn mẫu có tái lập
- Mô phỏng mẫu mới dựa trên tổng hợp của các mẫu cũ
sẽ bị giảm đáng kể Gỉa sử nhóm thiểu số có kích thước là 500, như vậy để tạo ra
sự cân bằng mẫu giữa nhóm đa số và thiểu số sẽ cần giảm kích thước mẫu của nhóm đa số từ 10000 về 500 Tổng kích thước tập huấn luyện sau under sampling
là 1000 và chiếm gần 1/10 kích thước tập huấn luyện ban đầu Tập huấn luyện mới khá nhỏ, không đại diện cho phân phối của toàn bộ tập dữ liệu và thường dễ dẫn tới hiện tượng overfitting
d) Thử lấy lại mẫu trong tập dữ liệu [16]
SMOTE (Synthetic Minority Over-sampling) và ADASYN (Adaptive synthetic sampling) là các phương pháp sinh mẫu nhằm gia tăng kích thước mẫu của nhóm thiểu số trong trường hợp xảy ra mất cân bằng mẫu Để gia tăng kích thước mẫu, với mỗi một mẫu thuộc nhóm thiểu số ta sẽ lựa chọn ra k mẫu láng giềng gần nhất với nó và sau đó thực hiện tổ hợp tuyến tính để tạo ra mẫu giả lập