dự báo trong kinh doanh, các hoạt động sản xuất,… Khai phá dữ liệu làmgiảm chi phí về thời gian so với phương pháp truyền thống trước kia.Sau đây là một số định nghĩa mang tính mô tả c
Trang 1NGUYỄN ĐỨC ANH
NGHIÊN CỨU KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH HÀNG CÓ
KHẢ NĂNG RỜI MẠNG VNPT Chuyên ngành: Hệ thống thông tin
LUẬN VĂN THẠC SĨ KỸ THUẬT
Hà Nội - Năm 2014
Trang 2NGUYỄN ĐỨC ANH
NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU DỰ BÁO KHÁCH
HÀNG CÓ KHẢ NĂNG RỜI MẠNG VNPT Chuyên ngành: Hệ thống thông tin
Mã số: 60480101
LUẬN VĂN THẠC SĨ KỸ THUẬT
Hà Nội - Năm 2014
Trang 3Trang phụ bìa
Lời cam đoan
Mục lục
Tóm tắt luận văn
Danh mục các ký hiệu
Danh mục các bảng
Danh mục hình vẽ
MỞ ĐẦU 1
Chương 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 1.1 Khái niệm về khai phá dữ liệu 4
1.1.1 Tại sao cần phải khai thác và xử lý thông tin 4
1.1.2 Khái niệm về khai phá dữ liệu 5
1.2 Một số phương pháp khai phá dữ liệu phổ biến 10
1.2.1 Phương pháp quy nạp (Induction) 10
1.2.2 Cây quyết định (Decision tree) và luật (Rule) 11
1.2.3 Phát hiện luật kết hợp 14
1.2.4 Phân lớp (Classification) 15
1.2.5 Phân cụm (Clustering) 15
1.2.6 Phương pháp dựa trên mẫu (Based-on Pattern) 16
1.2.7 Phương pháp phụ thuộc trên đồ thị xác suất (Depending based-on
Probability Graph) 16
1.2.8 Mạng Nơron (Neuron Network) 17
1.2.9 Thuật giải di truyền (Genetic Algorithm) 18
1.3 Một số ứng dụng của khai phá dữ liệu 18
Trang 4NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG
VIỄN THÔNG
2.1.Tổng quan 22
2.1.1 Mục tiêu của data mining 22
2.1.2 Hướng tiếp cận trong data mining 23
2.2 Một số ứng dụng data mining trong viễn thông 25
2.2.1 Phát hiện gian lận (fraud detection) 25
2.2.2 Các ứng dụng quản lý và chăm sóc khách hàng 26
2.2.3 Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn thông (Network fault isolation) 27
2.3 Nghiên cứu CSDL của mạng di động VNPT 28
2.3.1 Các tập CSDL quản lý thuê bao liên quan đến bài toán 28
2.3.2 Phân lớp dự đoán xu hướng khách hàng 30
2.3.3 Phân lớp bayes 44
Chương 3 ỨNG DỤNG DỰ ĐOÁN Ý ĐỊNH RỜI MẠNG CỦA KHÁCH HÀNG TRONG MẠNG DI ĐỘNG VNPT 3.1 Áp dụng data mining để dự đoán trước ý định rời khỏi mạng của khách hàng 52
3.1.1 Cách giải quyết yêu cầu bài toán 52
3.1.2 Phương pháp triển khai 52
3.1 3 Nội dung triển khai 52
3.1 4 Xây dựng tập CSDL huấn luyện 53
3.2 Xây dựng ứng dụng 60
Trang 6+ Lớp: Khoa học Máy tính Khoá: 24
+ Cán bộ hướng dẫn: TS Nguyễn Hoàng Sinh
+ Tên đề tài: NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU DỰ ĐOÁN CÁC THUÊ BAO RỜI MẠNG DI ĐỘNG VNPT
+ Tóm tắt:
Luận văn nghiên cứu về các phương pháp phân lớp trong khai phá dữliệu dùng để phân lớp, dự đoán các đoán các thuê bao của VNPT có khả năngrời mạng hay không
Sử dụng cơ sở dữ liệu SQL server để thiết kế, phân tích dữ liệu, lựa chọncác thuộc tính có ích cho việc dự đoán để tạo Bảng cơ sở dữ liệu huấn luyện
Sử dụng thuật toán phân lớp Bayes để dự đoán một thuê bao cụ thể có khảnăng rời khỏi mạng hay không
Trang 7CDR Call Data Record
Trang 8Bảng 1.1 Bảng training Data 12
Bảng 1.2 Bảng testing Data 13
Bảng 1.3 Kết quả phân lớp bằng cây quyết định 14
Bảng 2.1 Mối quan hệ giữa 2 biến thu nhập và loại xe hơi 46
Bảng 2.2 Bảng phần trăm theo dòng và phần trăm theo các biên 46
Bảng 2.3 Bảng phần trăm theo dòng 47
Bảng 2.4 Bảng phần trăm theo Total 47
Bảng 2.5 Bảng phần trăm theo cột 47
Bảng 2.6 Các giá trị trong bảng phần trăm theo cột 48
Bảng 2.7 Bảng cơ sở dữ liệu sử dụng dịch vụ 50
Bảng 3.1 Bảng chi tiết cuộc gọi (CDR’s) 58
Bảng 3.2 Bảng cơ sở dữ liệu tính cước 58
Bảng 3.3 Bảng thông tin khách hàng 59
Bảng 3.4 Bảng thông tin tổng hợp khách hàng 60
Trang 9Hình 1.1 Quá trình phát hiện tri thức 6
Hình 1.2 Giai đoạn tiền xử lý dữ liệu trong Data Mining 8
Hình 1.3 Cây quyết định từ bảng training data 12
Hình 2.1 Xây dựng Mô hình huấn luyện 32
Hình 2.2 Sử dụng mô hình huấn luyện để dự đoán 34
Hình 2.3 Dữ liệu quan sát D và tập giả thiết h 45
Hình 3.1 Kiến trúc hệ thống phân lớp 57
Hình 3.2 Giao diện chính của chương trình 61
Hình 3.3 Dữ liệu gốc 62
Hình 3.4 Cơ sở dữ liệu huấn luyện 63
Trang 10ẩn chứa những giá trị nhất định nào đó Tuy nhiên, theo thống kê thì chỉ cómột lượng nhỏ của dữ liệu này là luôn được phân tích, số còn lại họ sẽ khôngbiết phải làm gì Một vấn đề được đặt ra là làm thế nào để tổ chức, khai thácnhững khối dữ liệu khổng lồ và đa dạng đó.
Giải pháp cho các vấn đề trên là việc xây dựng một kho dữ liệu (DataWarehouse) và phát triển một khuynh hướng kỹ thuật mới đó là kỹ thuật pháthiện tri thức và khai phá dữ liệu (KDD – Knowledge Discovery and DataMining)
Hiện nay, trên thế giới Khám phá tri thức – Khai phá dữ liệu đã và đangđược áp dụng một cách rộng rãi trong rất nhiều lĩnh vực khác nhau như: y tế,marketing, ngân hàng, viễn thông, internet,… Không ai có thể phủ định đượcnhững lợi ích to lớn mà nhờ áp dụng kỹ thuật này đem lại
Thị trường thông tin di động (TTDĐ) tại Việt Nam đang là thị trườngcạnh tranh với tốc độ phát triển công nghệ di động nhanh, chu kỳ công nghệrút ngắn, lợi thế do chi phí đầu tư ngày càng giảm đã mang đến những cơ hộicho nhà cung cấp dịch vụ mới tham gia thị trường, đồng thời là thách thức đốivới nhà cung cấp dịch vụ hiện tại Cạnh tranh giữa các mạng thuê bao di độnghiện nay chủ yếu dựa vào giảm giá cước và khuyến mãi liên tục tạo nên lànsóng thuê bao
Trang 11di chuyển từ mạng này sang mạng khác ngày càng phổ biến Tình trạng nàycho thấy khách hàng hiện nay không còn trung thành với nhà cung cấp nhưtrong thị trường độc quyền trước năm 2003.
Với sologan “Hãy nói theo cách của bạn”, VNPT luôn hướng tới mọi đốitượng khách hàng: từ người có thu nhập cao đến những người có thu nhậpthấp Độ phủ sóng toàn quốc, từ những vùng sâu, vùng xa, đến biên giới hảiđào, VNPT luôn là sự lựa chọn hàng đầu của khách hàng Tại thị trường ViệtNam không chỉ có VNPT Telecom là hãng phân phối mạng điện thoại di động
mà còn các mạng di động khác Ở đây có thể kể đến các đối thủ cạnh tranhvới VNPT như: Vinaphone, Mobifone, Vietnammobile Đây là những đối thủchính mà VNPT cần vượt qua trên con đường chinh phục thị trường ViệtNam
b Tính thực tiễn
Dựa trên việc phân loại thành các nhóm khách hàng khác nhau, nhà quản
lý sẽ nắm bắt được những nhu cầu, sở thích, thói quen của từng nhóm đốitượng khách hàng; dự đoán trước các thuê bao sẽ rời mạng từ đó có nhữngchiến lược kinh doanh phù hợp trong việc tiếp cận, chăm sóc khách hàng trêntừng nhóm đối tượng khách hàng nhằm mang lại hiệu quả cao trong kinhdoanh
2 Mục tiêu của đề tài
Nghiên cứu kỹ thuật khai phá dữ liệu nhằm ứng dụng phân loại, dựđoán trước đối tượng khách hàng rời mạng, hỗ trợ nhà quản lý hoạch địnhchiến lược kinh doanh, ra quyết định hợp lý cho từng nhóm khách hàng
Trang 123 Phương pháp nghiên cứu:
a Về lý thuyết:
- Nghiên cứutổng quan về khai phá dữ liệu
- Nghiên cứu về một số kỹ thuật khai phá dữ liệu: Luật kết hợp, Phânlớp, Phân cụm
- Nghiên cứu công cụ khai phá dữ liệu
- Nghiên cứu thực tiễn bộ dữ liệu và lựa chọn phương pháp khai phá dữliệu phù hợp
b Về thực nghiệm:
- Sử dụng các kết quả nghiên cứu từ lý thuyết ứng dụng vào cơ sở dữliệu viễn thông của mạng di động VNPT
Trang 13Chương 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU
1.1 Khái niệm về khai phá dữ liệu.
1.1.1 Tại sao cần phải khai thác và xử lý thông tin
Sự phát triển của công nghệ thông tin và việc ứng dụng công nghệ thôngtin trong nhiều lĩnh vực của đời sống, kinh tế xã hội trong nhiều năm quacũng đồng nghĩa với lượng dữ liệu đã được các cơ quan thu thập và lưu trữngày một tích lũy nhiều lên Tuy nhiên theo thống kê chỉ một lượng nhỏ dữliệu này luôn được phân tích, số còn lại họ không biết phải làm gì với chúngnhưng họ vẫn tiếp tục thu thập vì lo sợ có cái gì đó quan trọng bị bỏ qua Mộtvấn đề được đặt ra là làm thế nào để tổ chức, khai thác những khối lượng dữliệu khổng lồ và đa dạng đó
Về phía người sử dụng, các khó khăn gặp phải thường là:
- Không thể tìm thấy dữ liệu cần thiết
- Không thể lấy ra được dữ liệu cần thiết
- Không thể hiểu được dữ liệu tìm thấy
- Không thể sử dụng được dữ liệu tìm thấy
Những vấn đề về hệ thống thông tin:
- Phát triển các chương trình ứng dụng khác nhau là không đơn giản
- Duy trì những chương trình này gặp rất nhiều vấn đề
- Khối lượng dữ liệu lưu trữ tăng rất nhanh
- Quản trị dữ liệu phức tạp
Giải pháp cho những vấn đề trên chính là việc xây dựng một kho dữ liệu(Data Warehouse) và phát triển một khuynh hướng dữ liệu mới đó là kĩ thuậtphát hiện tri thức và khai phá dữ liệu
Trang 15dự báo trong kinh doanh, các hoạt động sản xuất,… Khai phá dữ liệu làmgiảm chi phí về thời gian so với phương pháp truyền thống trước kia.
Sau đây là một số định nghĩa mang tính mô tả của nhiều tác giả về khaiphá dữ liệu
* Khai phá dữ liệu (data mining) là quá trình trích xuất các thông tin cógiá trị tiềm ẩn bên trong lượng lớn dữ liệu được lưu trữ trong các CSDL, kho
dữ liệu…
* Định nghĩa của Parsaye: “Khai phá dữ liệu là quá trình trợ giúp quyếtđịnh, trong đó chúng ta tìm kiếm các mẫu thông tin chưa biết và bất ngờ trongCSDL lớn”
* Định nghĩa của Fayyad: “Khai phá tri thức là một quá trình không tầmthường nhận ra những mẫu dữ liệu có giá trị, mới, hữu ích, tiềm năng và cóthể hiểu được”
Nhiều người coi khai phá dữ liệu và một thuật ngữ thông dụng khác làkhám phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases -KDD) là như nhau Tuy nhiên trên thực tế khai phá dữ liệu chỉ là một bướcthiết yếu trong quá trình khám phá tri thức trong CSDL
KPDL là một quá trình học tri thức mới từ những dữ liệu đã thu thập được Nhìn vào sơ đồ trên hình 1.3 ta thấy nó gồm 4 giai đoạn chính
Trang 16Hình 1.1 Quá trình phát hiện tri thức1) Giai đoạn thứ nhất xử lý thô (làm sạch dữ liệu - Data Cleaning), cònđược gọi là tiền xử lý dữ liệu nhằm cải thiện chất lượng dữ liệu giúp quá trìnhkhai thác dữ liệu chính xác và hiệu quả (hình 1.1):
• Làm sạch (Data Cleaning): Loại bỏ nhiễu, xử lý việc thiếu dữ liệu.+ Loại bỏ nhiễu: Có thể sử dụng một số phương pháp làm trơn nhiễu nhưhồi quy, phân cụm
+ Xử lý thiếu dữ liệu: Bỏ qua giá trị thiếu dùng trong việc phân lớp, sửdụng hằng số toàn cục bằng việc thay giá trị chưa biết, giá trị trung bình, giátrị có khả năng nhất được tìm bằng phương pháp hồi qui
• Tích hợp và biến đổi dữ liệu (Data Integration & Data Transformation):Hợp nhất dữ liệu từ nhiều kho chứa, từ nhiều nguồn thu thập, có thể được đổisang các hình thức thích hợp
+ Tích hợp dữ liệu: Làm cho những thực thể trong thế giới thực từ nhiều nguồn khác nhau có thể phù hợp với nhau; sử dụng siêu dữ liệu dùng để tránhsự phát sinh lỗi trong quá trình tích hợp các lược đồ và chuyển đổi dữ liệu; đồng thời bỏ đi sự dư thừa dữ liệu
+ Biến đổi dữ liệu: Bao gồm loại bỏ nhiễu ra khỏi dữ liệu; sử dụng cácphép toán tóm tắt hay kết hợp cho dữ liệu; khái quát hóa dữ liệu: ở mức thấphay dữ liệu thô được tổng hợp ở khái niệm mức cao hơn; chuẩn hóa dữ liệu là
Trang 17sao cho nó nằm trong một khoảng nhỏ nào đó; xây dựng thuộc tính mới bổsung vào tập thuộc tính đã cho.
• Rút gọn dữ liệu (Data Reduction): Để có được sự biễu diễn rút gọn củatập dữ liệu nhỏ hơn nhiều về số lượng, mà vẫn giữ được tính nguyên vẹn của
dữ liệu gốc, nghĩa là KPDL trên dữ liệu rút gọn sẽ hiệu quả hơn so với trên dữliệu gốc Rút gọn số chiều dữ liệu thực chất tập trung vào các thuộc tính cầnthiết phục vụ cho việc phát hiện tri thức Các giai đoạn rút gọn dữ liệu:
+ Tổng hợp khối dữ liệu: áp dụng trong cấu trúc của khối dữ liệu;
+ Lựa chọn tập thuộc tính con: Các chiều không liên quan, liên quanyếu, hay dư thừa có thể được tìm và xóa;
+ Rút gọn chiều: Sử dụng phương pháp mã hóa để rút gọn kích thước tập
dữ liệu;
+ Giảm số lượng lớn: Trong đó dữ liệu được thay thế đánh giá bởi dữliệu khác, nhỏ hơn về số lượng như các mô hình tham số (chỉ cần lưu giữ cáctham số mô hình thay vì phải lưu giữ dữ liệu thật) hay các phương phápkhông dùng tham số như phân cụm, lấy mẫu, lược đồ;
+ Rời rạc hóa và tạo các phân cấp khái niệm: Trong đó các giá trị dữ liệuthô của các thuộc tính được thay thế bởi các dải hay các mức khái niệm caohơn Rời rạc hóa là một hình thức của giảm số lượng, rất hữu dụng cho tựđộng tạo các phân cấp khái niệm Rời rạc hóa và tạo các khái niệm phân cấp
là những công cụ mạnh mẽ KPDL, trong đó cho phép Data Mining ở nhiềumức khác nhau của khái niệm;
Trang 18Hình 1.2 Giai đoạn tiền xử lý dữ liệu trong Data Mining2) Giai đoạn thứ hai dữ liệu được đưa vào kho (Data Warehouse): Giaiđoạn này mô tả quá trình xây dựng kho và sử dụng kho dữ liệu để lấy thôngtin phục vụ cho mục đích ra quyết định sử dụng kỹ thuật OLAP
3) Giai đoạn thứ ba là khai phá dữ liệu (Data Mining): Đây là giai đoạnrút trích dữ liệu theo yêu cầu của bài toán hay nói cách khác là trích ra cácmẫu hoặc các mô hình ẩn dưới các dạng dữ liệu, gồm một số công đoạn:+ Chọn nhiệm vụ khai thác dữ liệu dựa vào mục tiêu của quá trình pháthiện tri thức là phân loại, phân nhóm, hồi qui, tổng hợp, v.v ;
+ Chọn thuật toán khai phá dữ liệu thích hợp;
+ Khai phá dữ liệu để tìm các mẫu hoặc mô hình về tri thức;
Trang 19+ Đánh giá, giải thích, thử lại các mẫu đã được khai phá trước khi đưa trithức khai thác được vào sử dụng.
4) Giai đoạn thứ tư là đánh giá mẫu (Pattern Evaluation): Đánh giá trithức đã tìm được đặc biệt là làm sáng tỏ các mô tả và dự đoán, tinh chế thêmtri thức vừa được khai phá để nâng cao hiệu quả sử dụng hay còn gọi là giatăng giá trị tri thức
Khai phá dữ liệu là một lĩnh vực liên quan tới rất nhiều ngành học khácnhư: Hệ CSDL, thống kê, trực quan hóa,… Hơn nữa, tùy vào cách tiếp cậnđược sử dụng, khai phá dữ liệu còn có thể áp dụng một số kĩ thuật như mạng
Nơ ron, lý thuyết tập thô hoặc tập mờ, biểu diễn tri thức,… So với cácphương pháp này, khai phá dữ liệu có một số ưu điểm rõ rệt:
+ So với phương pháp học máy: khai phá dữ liệu có lợi thế ở chỗ có thể
sử dụng với các CSDL chứa nhiều nhiễu, dữ liệu không đầy đủ hoặc biến đổiliên tục
+ So với phương pháp Hệ chuyên gia: Các ví dụ của chuyên gia thường
ở mức chất lượng cao hơn nhiều so với các dữ liệu trong CSDL, và chúngthường chỉ bao hàm được các trường hợp quan trọng
+ So với phương pháp thống kê: Khai phá dữ liệu đã khắc phục đượcmột số điểm yếu của phương pháp thống kê:
- Các phương pháp pháp thống kê chuẩn không phù hợp với cáckiểu dữ liệu có cấu trúc trong rất nhiều các CSDL
- Các phương pháp thống kê hoạt động hoàn toàn theo dữ liệu, nókhông sử dụng tri thức sẵn có về lĩnh vực
- Kết quả phân tích có thể sẽ rất nhiều và khó có thể làm rõ được
- Phương pháp thống kê cần có sự hướng dẫn của người dùng đểxác định phân tích dữ liệu như thế nào và ở đâu
Trang 20Với những ưu điểm đó, khai phá dữ liệu đang được áp dụng một cáchrộng rãi trong nhiều lĩnh vực kinh doanh và đời sống khác nhau như:marketing, tài chính, ngân hàng, bảo hiểm, y tế, an ninh, viễn thông,… Rấtnhiều tổ chức và công ty lớn trên thế giới đã áp dụng kĩ thuật khai phá dữ liệuvào các hoạt động sản xuất kinh doanh của mình và thu được những lợi ích tolớn.
1.2 Một số phương pháp khai phá dữ liệu phổ biến
Các kĩ thuật khai phá dữ liệu thường được chia thành hai nhóm chính:
* Kĩ thuật khai phá dữ liệu mô tả: có nhiệm vụ mô tả về các tính chấthoặc các đặc tính chung của dữ liệu trong CSDL hiện có Các kĩ thuật nàygồm có: Phân cụm (Clustering), tóm tắt (summerization), trực quan hóa(Visualiztion), phân tích luật kết hợp (Association rules),…
* Kĩ thuật khai phá dữ liệu dự đoán: có nhiệm vụ đưa ra các dự đoán dựavào các suy diễn trên dữ liệu hiện thời Các kĩ thuật này gồm có: Phân lớp(Classification), hồi quy (Regression),…
1.2.1 Phương pháp quy nạp (Induction).
Có hai kĩ thuật chính để thực hiện là suy diễn và quy nạp
+ Suy diễn: nhằm rút ra thông tin là kết quả logic của các thông tin trongCSDL Phương pháp suy diễn dựa trên những sự kiện chính xác để suy ra cáctri thức mới từ các thông tin cũ Mẫu chiết xuất theo kĩ thuật này thường làcác luật suy diễn
+ Quy nạp: Phương pháp quy nạp suy ra thông tin dược sinh ra từCSDL, có nghĩa là nó tự tìm kiếm, tạo mẫu và sinh ra tri thức chứ không phảibắt đầu với các tri thức đã biết trước Các thông tin do phương pháp này mang
Trang 21lại là những thông tin tri thức cấp cao diễn tả về các đối tượng trong CSDL.Phương pháp này liên quan đến việc tìm kiếm các mẫu trong CSDL.
Phương pháp quy nạp thường được nói đến trong kĩ thuật cây quyết định
và tạo luật
1.2.2 Cây quyết định (Decision tree) và luật (Rule).
+ Cây quyết định: là một dạng mô tả tri thức đơn giản nhằm phân phốicác đối tượng dữ liệu thành một số lớp nhất định Các nút của cây được gánnhãn là tên các thuộc tính, các cung được gắn giá trị có thể của các thuộc tính,các lá miêu tả các lớp khác nhau Các đối tượng được phân lớp theo cácđường đi trên cây, qua các cung tương ứng với giá trị của thuộc tính của đốitượng tới lá
Tóm lại, cho dữ liệu về các đối tượng cùng các thuộc tính cùng với lớpcủa nó, cây quyết định sẽ sinh ra các luật để dự đoán các đối tượng chưa biết
Ví dụ:
Ta có dữ liệu (Training data) về 10 đối tượng (người) Mỗi đối tượng
được mô tả bởi 4 thuộc tính là Gender, Car Ownership, Travel Cost/km, Incom Level và một thuộc tính phân loại (Category attribute) là Tranportation mode Trong đó thuộc tính Gender có kiểu binary, thuộc tính
Car Ownership có kiểu Quantitative integer (0, 1), Travel Cost/km và IncomeLevel có kiểu dữ liệu Ordinal
Training data cho biết sự lựa chọn về loại phương tiện vận chuyển (car,bus, train) của khách dựa vào 4 thuộc tính đã cho
Tranportatio
n mode
Trang 22Female 1 Cheap Medium Train
Bảng 1.1 Bảng training DataDựa vào Training Data ở trên, chúng ta có thể tạo ra cây quyết định như sau:
Hình 1.3 Cây quyết định từ bảng training data
* Tạo luật: Các luật được tạo ra nhằm suy diễn một số mẫu dữ liệu có ýnghĩa về mặt thống kê Các luật có dạng “Nếu P thì Q”, với P là mệnh đềđúng với một phần dữ liệu có trong CSDL, Q là mệnh đề dự đoán
Trang 23Giả sử ta có dữ liệu về 3 người với giá trị dữ liệu đã biết về các thuộctính Gender, Car Ownership, Travel Cost/km, Incom Level Tuy nhiên tachưa biết họ sẽ lựa chọn phương tiện vận chuyển nào Sử dụng cây quyết định
đã tạo để dự đoán Dữ liệu dưới đây gọi là Testing Data
Person
Car Ownership
Travel Cost/km
Income Level
Tranportatio
n mode
Bảng 1.2 Bảng testing DataChúng ta bắt đầu từ node gốc (thuộc tính Travel Cost/km)
Theo cây quyết định trên, các luật (Serie of Rules) được sinh ra từ câyquyết định dùng để dự đoán như sau:
Rule 1 : If Travel cost/km is expensive then mode = car
Rule 2 : If Travel cost/km is standard then mode = train
Rule 3 : If Travel cost/km is cheap and gender is male then mode = bus Rule 4 : If Travel cost/km is cheap and gender is female and she owns
no car then mode = bus
Rule 5 : If Travel cost/km is cheap and gender is female and she owns 1
car then mode = train3 Phát hiện các luật kết hợp (Association).
Dựa vào các luật này, việc dự đoán lớp cho các dữ liệu chưa biết rất đơngiản
Kết quả phân lớp bằng cây quyết định như sau:
Person
Car Ownership
Travel Cost/km
Tranportatio
n mode
Trang 24Cherry Female 1 Cheap Train
Bảng 1.3 Kết quả phân lớp bằng cây quyết địnhCây quyết định và luật có ưu điểm là hình thức mô tả đơn giản, mô hìnhbiểu diễn khá dễ hiểu đối với người sử dụng Tuy nhiên mô tả cây và luật chỉ
có thể biểu diễn được một số chức năng, vì vậy chúng giới hạn về độ chínhxác của mô hình
1.2.3 Phát hiện luật kết hợp.
Phương pháp này nhằm phát hiện các luật kết hợp giữa các thành phần
dữ liệu trong CSDL Đầu ra của thuật toán khai phá dữ liệu là là một tập luậtkết hợp mà mỗi luật có dạng: X -> Y (nếu có X thì có Y) Kèm theo mỗi luậttìm được là các tham số độ hỗ trợ và độ tin cậy của luật Độ hỗ trợ và độ tincậy là 2 độ đo chỉ độ đáng quan tâm, phản ánh sự hữu ích và sự chắc chắn củaluật, chúng được tính theo công thức:
Độ hỗ trợ (Support) = số bản ghi chứa X / Tổng số bản ghi
Độ tin cậy (Confidence) = số bản ghi chứa cả X và Y / Số bản ghi chứaX
Ví dụ:
Phân tích CSDL bán hàng, người ta nhận được thông tin về những kháchhàng mua máy tính đồng thời cũng có khuynh hướng mua phần mềm quản lýtài chính trong cùng một lần mua được mô tả trong luật kết hợp sau:
“Máy tính -> Phần mềm quản lý”
[độ hỗ trợ: 10%, độ tin cậy: 70%]
Luật trên thể hiện có 10% trên tổng số các khách hàng đã mua máy tính,trong số những khách hàng mua máy tính, 70% cũng mua phần mềm quản lý.Như vậy, khai phá luật kết hợp là một phương pháp xử lý thông tin quantrọng và phổ biến, nó nhằm khám mỗi liên hệ giữa các mẫu dữ liệu
Trang 251.2.4 Phân lớp (Classification).
Mục tiêu của phân lớp dữ liệu là dự đoán nhãn lớp cho các mẫu dữ liệu.Quá trình phân lớp dữ liệu thường gồm 2 bước: xây dựng mô hình và sử dụng
mô hình để phân lớp dữ liệu
+ Xây dựng mô hình: một mô hình sẽ được xây dựng dựa trên việc phântích các mẫu dữ liệu sẵn có Mỗi mẫu tương ứng với một lớp, được quyếtđịnh bởi một thuộc tính gọi là thuộc tính lớp Các mẫu dữ liệu này còn đượcgọi là tập dữ liệu huấn luyện (training data set) Các nhãn lớp của tập dữ liệuhuấn luyện đều phải được xác định trước khi xây dựng mô hình, vì vậyphương pháp này còn được gọi là học có thầy (supervised learning) khác vớiphân cụm dữ liệu là học không có thầy (unsupervised learning)
+ Sử dụng mô hình: Trước hết chúng ta phải tính độ chính xác của môhình Nếu độ chính xác là chấp nhận được, mô hình sẽ được sử dụng để dựđoán nhãn lớp cho các mẫu dữ liệu khác trong tương lai
1.2.5 Phân cụm (Clustering).
Phân cụm dữ liệu là xử lý một tập các đối tượng vào trong các lớp đốitượng giống nhau Một cụm là một tập hợp các đối tượng dữ liệu giống nhautrong phạm vi cùng một cụm và không giống nhau đối với các đối tượngtrong các cụm khác Số các cụm dữ liệu được phân ở đây có thể được xácđịnh trước theo kinh nghiệm hoặc có thể được tự động xác định theo phươngpháp phân cụm
Một số phương pháp phân cụm chính trong khai phá dữ liệu:
* Phân cụm dữ liệu dựa trên phân cụm phân cấp: phương pháp phân cụmphân cấp làm việc bằng cách nhóm các đối tượng vào trong một cây các cụm
* Phân cụm phân cấp tích đống và phân ly:
Trang 26+ Phân cụm phân cấp tích đống: bắt đầu bằng cách đặt mỗi đối tượngvào trong cụm của bản thân nó, sau đó kết nhập các cụm nguyên tử này vàotrong các cụm ngày càng lớn hơn cho tới khi tất cả các đối tượng nằm trongmột cụm đơn hay cho tới khi thỏa mãn điều kiện dừng cho trước.
+ Phân cụm phân cấp phân ly: Phương pháp này ngược lại bằng cách bắtđầu với tất cả các đối tượng trong cụm, chia nhỏ nó vào trong các thành phầnngày càng nhỏ hơn cho tới khi mỗi đối tượng hình thành nên một cụm haythỏa mãn một điều kiện dừng cho trước
1.2.6 Phương pháp dựa trên mẫu (Based-on Pattern)
Sử dụng các mẫu miêu tả từ cơ sở dữ liệu để tạo nên một mô hình dựđoán các mẫu mới bằng cách rút ra các thuộc tính tương tự như các mẫu đãbiết trong mô hình Các kỹ thuật sử dụng như láng giềng gần nhất, các giảithuật hồi quy và hệ thống suy diễn dựa trên tình huống Khuyết điểm của kỹthuật này là cần phải xác định được khoảng cách và đo độ giống nhau giữacác mẫu Mô hình thường được đánh giá bằng phương pháp đánh giá chéotrên các lỗi dự đoán Mô hình này được áp dụng cho các phương pháp đánhgiá xấp xỉ các thuộc tính, tuy nhiên chúng rất khó hiểu vì không được địnhdạng rõ ràng
1.2.7 Phương pháp phụ thuộc trên đồ thị xác suất (Depending
based-on Probability Graph)
Các mô hình đồ thị xác định sự phụ thuộc xác suất giữa các sự kiệnthông qua các liên hệ trực tiếp theo các cung đồ thị (Pearl 1988, Whittaker1990) ở dạng đơn giản nhất, mô hình xác định những biến nào phụ thuộc trựctiếp vào nhau Với loại này sử dụng các biến có giá trị rời rạc hoặc phân loại.Tuy nhiên cũng mở rộng cho một số trường hợp đặc biệt như mật độ Gaussianhoặc cho các biến giá trị thực
Trang 27Ban đầu phương pháp này được phát triển trong các hệ chuyên gia Cấutrúc mô hình và các tham số được suy từ hệ chuyên gia Ngày nay, cácphương pháp này đã phát triên, cả cấu trúc và các tham số mô hình đồ thị đều
có thể học trực tiếp từ cơ sở dữ liệu (Buntine, Heckerman) Tiêu chuẩn đánhgiá mô hình chủ yếu là ở dạng Bayesian Việc tìm kiếm mô hình dựa trênphương pháp “leo đồi” (hill-climbing) trên nhiều cấu trúc đồ thị Mặc dùphương pháp này còn mới nhưng hứa hẹn nhiều vì dạng đồ thị dễ hiểu hơn vàbiểu đạt được nhiều ý nghĩa hơn đối với con người
1.2.8 Mạng Nơron (Neuron Network).
Mạng Nơron là cách tiếp cận tính toán mới liên quan đến việc phát triểncác cấu trúc toán học với khả năng học Mạng Nơron là kết quả của việcnghiên cứu mô hình học của hệ thần kinh con người Mạng có thể đưa ra ýnghĩa các dữ liệu phức tạp hoặc không chính xác và có thể được sử dụng đểchiết xuất các mẫu và phát hiện ra các xu hướng phức tạp mà con người cũngnhư các kỹ thuật máy tính khác không thể phát hiện ra được
Khi đề cập đến khai thác dữ liệu, người ta thường đề cập nhiều đến mạngNơron Tuy mạng Nơron có một số hạn chế gây khó khăn trong việc áp dụng
và triển khai nhưng nó cũng có những ưu điểm đáng kể Một trong số những
ưu điểm đó là khả năng tạo ra các mô hình dự đoán có độ chính xác cao, cóthể áp dụng được cho rất nhiều bài toán khác nhau đáp ứng được nhiệm vụđặt ra của khai phá dữ liệu như phân lớp, phân nhóm, mô hình hóa, dự báocác sự kiện phụ thuộc vào thời gian,…
1.2.9 Thuật giải di truyền (Genetic Algorithm).
Giải thuật di truyền chính là sự mô phỏng lại quá trình tiến hóa di truyềntrong tự nhiên Một cách chính xác thì đó là giải thuật chỉ ra tập các cá thể
Trang 28được hình thành, ước lượng và biến đổi như thế nào Cụ thể là các vấn đề nhưlàm thế nào lựa chọn các cá thể tái tạo và các cá thể nào sẽ bị loại bỏ, quátrình lai ghép và đột biến sẽ diễn ra như thế nào? Giải thuật cũng mô phỏnglại yếu tố gien trong nhiễm sắc thể sinh học trên máy tính để có thể giải quyếtđược các bài toán thực tế khác nhau.
Giải thuật di truyền là một giải thuật tối ưu hóa, được sử dụng rộng rãitrong việc tối ưu hóa các kĩ thuật khai phá dữ liệu trong đó có kĩ thuật mạngNơron Sự liên hệ của giải thuật di truyền với các giải thuật khai phá là ở chỗviệc tối ưu hóa rất cần thiết cho quá trình khai phá dữ liệu, ví dụ như trongcác kỹ thuật cây quyết định, tạo luật,…
1.3 Một số ứng dụng của khai phá dữ liệu.
Data Mining được sử dụng trong nhiều lĩnh vực khác nhau nhằm khaithác nguồn dữ liệu phong phú được lưu trữ trong các hệ thống thông tin Tùytheo từng lĩnh vực, việc vận dụng KPDL là khác nhau
1.3.1 Phân tích dữ liệu và hỗ trợ quyết định
1.3.1.1 Phân tích và quản lý thị trường: Quảng cáo cá nhân (targetmarketing), quản lý quan hệ khách hàng (CRM), phân tích giỏ hàng, bán hàngliên quan (cross selling), phân chia thị trường
+ Nguồn dữ liệu từ đâu: Các giao dịch sử dụng thẻ tín dụng, các thẻkhách hàng thường xuyên, các phiếu giảm giá, các cuộc gọi phàn nàn củakhách hàng
+ Quảng cáo cá nhân (target marketing): Tìm ra (xác định) những nhómkhách hàng “mẫu” có cùng các đặc điểm về sở thích, mức thu nhập, thói quen
chi tiêu,… Xác định các mẫu (kiểu) chi trả / mua bán thường xuyên.
Trang 29+ Phân tích thị trường (Cross-market analysis): Tìm ra các mối liên hệ /tương quan giữa các sản phẩm bán ra (hoặc giữa các đợt bán hàng), để đưa racác dự đoán.
+ Lập hồ sơ khách hàng (Customer profiling): Những kiểu khách hàngnào mua mặt hàng nào (Phân nhóm hoặc phân loại)
+ Phân tích yêu cầu khách hàng:
Xác định các sản phẩm phù hợp nhất cho các nhóm khách hàng khácnhau
Dự đoán những yếu tố nào sẽ thu hút được khách hàng mới
+ Cung cấp những thông tin tóm tắt:
Các báo cáo tóm tắt theo nhiều chiều (yếu tố)
Các thông tin thống kê (xu hướng, dịch chuyển)
1.3.1.2 Phân tích và quản lý rủi ro
Dự báo, duy trì khách hàng, cải thiện bảo lãnh, kiểm soát chất lượng,phân tích cạnh tranh
+ Lập kế hoạch tài chính và đánh giá tài sản:
Phân tích và dự đoán luồng tiền mặt
Phân tích các tuyên bố tài chính của doanh nghiệp để đánh giá tài sản.Phân tích các chuỗi dữ liệu tài chính
+ Lập kế hoạch sử dụng tài nguyên: Tóm tắt và so sánh các tài nguyên
và sự khai thác (sử dụng)
+ Cạnh tranh trong kinh doanh:
Theo dõi các đối thủ cạnh tranh trong kinh doanh và các xu hướng củathị trường
Nhóm các khách hàng theo từng lớp, và định giá cho từng lớp
Xây dựng chiến lược giá trong một thị trường cạnh tranh cao
1.3.1.3 Phát hiện gian lận và phát hiện mẫu bất thường (Outliers)
Trang 30+ Các phương pháp: phân cụm và xây dựng mô hình dự đoán gian lận,phân tích ngoại lai (Outliers).
+ Các ứng dụng: Chăm sóc sức khỏe, bán lẻ, các dịch vụ sử dụng thẻ tíndụng, viễn thông
Bảo hiểm ô tô: “Kịch bản” một chuỗi các va chạm
Rửa tiền: Các giao dịch chuyển tiền đáng ngờ
Bảo hiểm y tế: Sự mọc nối giữa bệnh nhân và bác sỹ, các xét nghiệmkhông cần thiết Xét nghiệm không cần thiết hoặc tương quan
Viễn thông: cuộc gọi gian lận Mô hình cuộc gọi: đích cuộc gọi, độ dài,thời điểm trong ngày hoặc trong tuần Phân tích mẫu lệch một dạng chuẩnphổ biến
Công nghiệp bán lẻ: Phát hiện các người làm thuê gian lận
1.3.2 Ứng dụng khác.
1.3.2.1 Khai phá văn bản (nhóm tin – news group, email, tài liệu)
Trích xuất thông tin nằm trong văn bản
Các ứng dụng trong thực tế như: lọc thư rác, đối chiếu lý lịch cá nhân,phân tích cảm nghĩ, phân loại tài liệu
1.3.2.2 Khai phá web:
Trợ giúp IBM áp dụng các thuật toán KPDL biên bản truy nhập Web đốivới các trang liên quan tới thị trường để khám phá ưu đãi khách hàng và cáctrang hành vi, phân tích tính hiệu quả của tiếp thị web, cải thiện cách tổ chứcwebsite
1.3.2.3 Thể thao: IBM advanced Sout phân tích môn NBA (chặn bóng,
hỗ trợ và lỗi) để đưa tới lợi thế cạnh tranh cho New York Knicks và MiamiHeat
Trang 311.3.2.4 Thiên văn học: JPL và Palomar Observatory khám phá 22 chuẩntinh (quasar) với sự trợ giúp của KPDL.
Trang 32Chương 2 NGHIÊN CỨU KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG
VIỄN THÔNG
2.1 Tổng quan.
2.1.1 Mục tiêu của data mining.
Mục tiêu tổng quát của khai phá dữ liệu là mô tả và dự đoán
Bài toán mô tả: hướng tới việc tìm ra các mẫu mô tả dữ liệu
Bài toán dự báo: sử dụng một số biến (hoặc trường) trong CSDL để dựđoán về giá trị chưa biết hoặc giá trị sẽ có trong tương lai của các biến
Hai bài toán trên được thể hiện thông qua các bài toán cụ thể:
+ Mô tả khái niệm: Nhằm tìm ra các đặc trưng và tính chất của kháiniệm Các bài toán điển hình bao gồm: Tổng quát hóa, tóm tắt, phát hiện cácđặc trưng dữ liệu ràng buộc,… Bài toán tóm tắt là một trong những bài toán
mô tả điển hình, áp dụng các phương pháp để tìm ra một mô tả cô đọng đốivới một tập con dữ liệu Ví dụ xác định kỳ vọng và độ lệch chuẩn của một dãycác giá trị
+ Quan hệ kết hợp: Phát hiện mối quan hệ kết hợp trong tập dữ liệu làbài toán quan trọng trong khai phá dữ liệu Một trong những mối quan hệ kếthợp điển hình là quan hệ kết hợp giữa các biến dữ liệu trong đó bài toán khaiphá luật kết hợp là một bài toán tiêu biểu Bài toán khai phá luật kết hợp thựchiện việc phát hiện ra mối quan hệ kết hợp giữa các tập thuộc tính (tập cácbiến) có dạng X => Y, trong đó X, Y là 2 tập thuộc tính “Sự xuất hiện của Xkéo theo sự xuất hiện của Y như thế nào”
+ Phân cụm: Thực hiện việc nhóm dữ liệu thành các “cụm” (có thể coi
là một lớp mới) để có thể phát hiện được các mẫu phân bố dữ liệu trong miềnứng dụng Hướng tới việc nhận biết một tập hữu hạn các cụm hoặc các lớp để
Trang 33mô tả dữ liệu Mục tiêu của phân cụm là cực đại hóa tính tương đồng giữa cácphần tử trong cùng cụm và cực tiểu hóa tính tương đồng giữa các phần tửkhác cụm Phân cụm còn được gọi là “học máy không có giám sát”.
+ Phân lớp: Thực hiện việc xây dựng (mô tả) các mô hình (hàm) dự báonhằm mô tả hoặc phát hiện các lớp hoặc khái niệm cho các dự báo tiếp theo.Một số phương pháp điển hình là: cây quyết định, luật phân lớp, mạng nơron,
… Nội dung của phân lớp chính là một hàm ánh xạ các dữ liệu vào trong một
số các lớp (nhóm) đã biết Phân lớp còn được gọi là “học máy có giám sát”
+ Hồi quy: Là bài toán điển hình trong phân tích thống kê và dự báo.Tiến hành việc dự đoán các giá trị của một hoặc một số biến phụ thuộc vàogiá trị của một tập hợp các biến độc lập Có thể quy về việc học một hàm ánh
xạ dữ liệu nhằm xác định giá trị thực của một biến theo một số biến khác
+ Mô hình phụ thuộc: Hướng tới việc tìm ra một mô hình mô tả sự phụthuộc có ý nghĩa giữa các biến Bao gồm 2 mức:
- Mức cấu trúc của mô hình: thường dưới dạng đồ thị trong đócác biến là phụ thuộc bộ phận vào các biến khác
- Mức định lượng của mô hình: mô tả sức mạnh của tính phụthuộc khi sử dụng việc đo tính theo giá trị số
+ Phát hiện thay đổi và độ lệch: Tập trung phát hiện hầu hết sự thay đổi
có ý nghĩa dưới dạng độ đo đã biết trước hoặc giá trị chuẩn, cung cấp nhữngtri thức về sự biến đổi và độ lệch cho người dùng Thường được ứng dụngtrong các bước tiền xử lý
2.1.2 Hướng tiếp cận trong data mining.
Nếu đứng trên quan điểm học máy (Machine Learning), thì các kỹ thuậttrong khai phá dữ liệu, bao gồm: Học có giám sát (Supervised Learning), Họckhông có giám sát (Unsupervised Learning), Học nửa giám sát (Semi –Supervised Learning)
Trang 34Nếu căn cứ vào lớp các bài toán cần giải quyết, thì khai phá dữ liệu baogồm các kỹ thuật sau: Phân lớp và dự đoán, Luật kết hợp, Khai thác mẫu tuầntự, Phân cụm.
+ Phân lớp và dự đoán: Xếp đối tượng vào một trong những lớp đã biếttrước Ví dụ phân lớp các bệnh nhân dữ liệu trong hồ sơ bệnh án Hướng tiếpcận này thường sử dụng một số kỹ thuật của học máy như cây quyết định,mạng nơ ron nhân tạo
+ Luật kết hợp: Phương pháp này nhằm phát hiện ra các luật kết hợpgiữa các thành phần dữ liệu trong CSDL Mẫu đầu ra của giải thuật khai phá
dữ liệu là tập luật kết hợp tìm được Có thể lấy một số ví dụ đơn giản về luậtkết hợp như sau:
Phân tích CSDL bán hàng nhận được thông tin về những khách hàngmua máy tính cũng có khuynh hướng mua phần mềm quản lý tài chính trongcùng lần mua được miêu tả trong luật kết hợp sau
“Mua máy tính => mua phần mềm quản lý tài chính”
[Độ hỗ trợ: 4%, Độ tin cậy: 70%]
Độ hỗ trợ và độ tin cậy là 2 độ đo của sự đáng quan tâm của luật Chúngtương ứng phản ánh sự hữu ích và sự chắc chắn của luật đã khám phá Độ hỗtrợ 4% có nghĩa là: 4% của tất cả các tác vụ đã phân tích chỉ ra rằng máy tính
và phần mềm quản lý tài chính đã được mua cùng nhau Còn độ tin cậy 70%
có nghĩa là 70% các khách hàng mua máy tính cũng mua phần mềm quản lýtài chính
+ Phân tích chuỗi theo thời gian: Tương tự như khai phá luật kết hợpnhưng có thêm tính thứ tự và tính thời gian Hướng tiếp cận này được ứngdụng nhiều trong lĩnh vực tài chính và thị trường chứng khoán vì nó có tínhdự báo cao
+ Phân cụm: xếp dữ liệu theo từng cụm tự nhiên
Trang 35+ Mô tả khái niệm: thiên về mô tả, tổng hợp và tóm tắt khái niệm Ví dụtóm tắt văn bản.
2.2.Một số ứng dụng data mining trong viễn thông.
2.2.1 Phát hiện gian lận (fraud detection).
Gian lận là một trong những vấn đề nghiêm trọng của các công ty viễnthông, nó có thể làm thất thoát hàng tỷ đồng mỗi năm Có thể chia ra làm 2hình thức gian lận khác nhau thường xảy ra đối với các công ty viễn thông:+ Trường hợp thứ nhất: xảy ra khi khách hàng đăng ký thuê bao với ýđịnh không bao giờ thanh toán khoản chi phí sử dụng dịch vụ
+ Trường hợp thứ hai: Liên quan đến 1 thuê bao hợp lệ nhưng lại có một
số hoạt động bất hợp pháp gây ra bởi một người khác
Những ứng dụng này sẽ thực hiện theo thời gian thực bằng cách sử dụng
dữ liệu chi tiết cuộc gọi, một khi xuất hiện một cuộc gọi nghi ngờ gian lận,lập tức hệ thống sẽ có hành động ứng xử phù hợp, ví dụ như một cảnh báoxuất hiện hoặc từ chối cuộc gọi nếu biết đó là cuộc gọi gian lận
Hầu hết các phương thức nhận diện gian lận đều dựa trên hành vi sửdụng điện thoại khách hàng trước kia so sánh với hành vi hiện tại để xác địnhxem đó là cuộc gọi hợp lệ không
Trang 362.2.2 Các ứng dụng quản lý và chăm sóc khách hàng.
Các công ty viễn thông quản lý một khối lượng lớn dữ liệu về thông tinkhách hàng và dữ liệu về chi tiết cuộc gọi (call detail records) Những thôngtin này có thể cho ta nhận diện được những đặc tính của khách hàng và thôngqua đó có thể đưa ra các chính sách chăm sóc khách hàng thích hợp dựa trêndự đoán hoặc có một chiến lược tiếp thị hiệu quả
Một trong các ứng dụng data mining phổ biến dựa trên việc xem xét luậtkết hợp giữa các dịch vụ viễn thông khách hàng sử dụng Hiện nay trên mộtđường điện thoại khách hàng sử dụng rất nhiều dịch vụ khác nhau như: gọiđiện thoại, truy cập internet, tra cứu thông tin từ hộp thư tự động, nhắn tin,gọi 108,… Dựa trên CSDL khách hàng chúng ta có thể khám phá mối liên kếttrong việc sử dụng các dịch vụ, có thể đưa ra các luật như (khách hàng gọiđiện thoại quốc tế) => (truy cập internet),… Trên cơ sở phân tích được cácluật như vậy các công ty viễn thông có thể điều chỉnh việc bố trí nơi đăng kýcác dịch vụ phù hợp, ví dụ như điểm đăng ký điện thoại quốc tế nên bố trí gầnvới điểm đăng ký Internet chẳng hạn
Một ứng dụng phục vụ chiến lược marketing khác đó là dựa trên kĩ thuậtluật kết hợp của data mining để tìm ra tập các thành phố, tỉnh nào trong nướcthường gọi điện thoại với nhau Ví dụ ta có thể tìm ra tập phổ biến (Cần Thơ,HCM, Hà Nội) chẳng hạn Điều này thật sự hữu dụng trong việc hoạch địnhchiến lược tiếp thị hoặc xây dựng các vùng cước phù hợp
Một vấn đề khá phổ biến ở các công ty viễn thông hiện nay là sự thayđổi nhà cung cấp dịch vụ (Customer Churn) đặc biệt với các công ty điệnthoại di động Đây là vấn đề khá nghiêm trọng ảnh hưởng đến tốc độ thuêbao, cũng như doanh thu của các nhà cung cấp dịch vụ Thời gian gần đây cácnhà cung cấp dịch vụ di động luôn có chính sách khuyến mãi lớn để lôi kéokhách hàng Điều đó dẫn tới một lượng không nhỏ khách hàng thường xuyên
Trang 37thay đổi nhà cung cấp để hưởng những chính sách khuyến mãi đó Kĩ thuậtdata mining hiện nay có thể dựa trên dữ liệu tiền sử để tìm ra các quy luật, từ
đó có thể tiên đoán trước được khách hàng nào có ý định rời khỏi mạng trướckhi họ thực hiện Dựa trên các kĩ thuật data mining như cây quyết định(decision tree), mạng nơ ron nhân tạo (neural network) trên dữ liệu cước(billing data), dữ liệu chi tiết cuộc gọi (call detail records), dữ liệu khách hàng(customer data) tìm ra các quy luật mà dựa trên đó ta có thể tiên đoán trước ýđịnh rời khỏi mạng của khách hàng, từ đó công ty viễn thông sẽ có các ứng xửphù hợp nhằm lôi kéo khách hàng
Cuối cùng, một ứng dụng cũng rất phổ biến đó là phân lớp khách hàng.Dựa vào kĩ thuật data mining học trên cây quyết định trên dữ liệu khách hàng
và chi tiết cuộc gọi có thể tìm ra các luật để phân loại khách hàng Ví dụ ta cóthể phân biệt được khách hàng nào thuộc đối tượng kinh doanh hay nhà riêngdựa vào các luật sau:
Luật 1: nếu không quá 43% cuộc gọi có thời gian từ 0 đến 10 giây vàkhông đến 13% cuộc gọi vào cuối tuần thì đó là khách hàng kinh doanh
Luật 2: Nếu trong 2 tháng có các cuộc gọi đến hầu hết từ 3 mã vùnggiống nhau và < 56,6% cuộc gọi từ 0-10 giây thì đó là khách hàng nhà riêng.Trên cơ sở tìm ra được các luật tương tự như vậy, ta dễ dàng phân loạikhách hàng, để từ đó có chính sách phân khúc thị trường hợp lý
2.2.3 Các ứng dụng phát hiện và cô lập lỗi trên hệ thống mạng viễn thông (Network fault isolation).
Mạng viễn thông là một cấu trúc cực kỳ phức tạp với nhiều hệ thốngphần cứng và phần mềm khác nhau Phần lớn các thiết bị trên mạng có khảnăng tự chuẩn đoán và cho ra thông điệp trạng thái, cảnh báo lỗi (status andalarm message) Với mục tiêu là quản lý hiệu quả và duy trì độ tin cậy của hệthống mạng, các thông tin cảnh báo phải được phân tích tự động và nhận diện
Trang 38lỗi trước khi xuất hiện làm giảm hiệu năng của mạng Bởi vì số lượng lớn cáccảnh báo độc lập và có vẻ không quan hệ gì với nhau nên vấn đề nhận diện lỗikhông ít khó khăn Kĩ thuật data mining có vai trò sinh ra các luật giúp hệthống có thể phát hiện lỗi sớm hơn khi nó xảy ra Kĩ thuật khai thác mẫu tuầntự (Sequential/Temporal patterns) của data mining thường được ứng dụngtrong lĩnh vực này thông qua việc khai thác CSDL trạng thái mạng (networkdata).
2.3 Nghiên cứu CSDL của mạng di động VNPT.
Để giải quyết bài toán dự đoán ý định rời mạng của khách hàng chúng tadựa vào 3 cơ sở dữ liệu chính là chi tiết cuộc gọi (Call Record Detail), CSDLtính cước (Billing Data) và dữ liệu về khách hàng (Customer Data) Các cơ sở
dữ liệu này chứa các mẩu tin bao gồm các thông tin đặc tả thuộc tính quantrọng của cuộc gọi như: số gọi, số được gọi, thời gian bắt đầu, thời gian đàmthoại và các thông tin về khách hàng cần được lưu trữ để dùng cho các ứngdụng như tính cước, tiếp thị,… Thông tin về khách hàng bao gồm số điệnthoại, họ tên, địa chỉ và các thuộc tính quan trọng khác như quá trình thanhtoán nợ, quá trình sử dụng các dịch vụ, thu nhập… Thông thường dữ liệukhách hàng phải được kết hợp với các dữ liệu khác, (ví dụ như dữ liệu chi tiếtcuộc gọi) trong khi khai phá dữ liệu
2.3.1 Các tập CSDL quản lý thuê bao liên quan đến bài toán.
a Giới thiệu về chi tiết cuộc gọi.
Tại tổng đài của mạng viễn thông ghi nhận một số lượng rất lớn các cuộcgọi điện thoại, đó là chi tiết cuộc gọi (Call Detail Record), gọi tắt là CDR’s.Các thông số liên quan đến cuộc gọi được ghi lại tại tổng đài cho chúng tabiết được chất lượng dịch vụ, hành vi sử dụng của khách hàng CDR’s là một