Xây dựng kho dữ liệu quản lý thông tin dịch vụ khách hàng của VinaphoneXây dựng kho dữ liệu quản lý thông tin dịch vụ khách hàng của VinaphoneXây dựng kho dữ liệu quản lý thông tin dịch vụ khách hàng của VinaphoneXây dựng kho dữ liệu quản lý thông tin dịch vụ khách hàng của VinaphoneXây dựng kho dữ liệu quản lý thông tin dịch vụ khách hàng của VinaphoneXây dựng kho dữ liệu quản lý thông tin dịch vụ khách hàng của VinaphoneXây dựng kho dữ liệu quản lý thông tin dịch vụ khách hàng của VinaphoneXây dựng kho dữ liệu quản lý thông tin dịch vụ khách hàng của VinaphoneXây dựng kho dữ liệu quản lý thông tin dịch vụ khách hàng của VinaphoneXây dựng kho dữ liệu quản lý thông tin dịch vụ khách hàng của VinaphoneXây dựng kho dữ liệu quản lý thông tin dịch vụ khách hàng của Vinaphone
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Trang 2Luận văn được hoàn thành tại:
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
Người hướng dẫn khoa học: PGS.TS LÊ HỮU LẬP
Phản biện 1: TS Nguyễn Đức Dũng
Phản biện 2: TS Nguyễn Duy Phương
Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công
nghệ Bưu chính Viễn thông Vào lúc: 9 giờ 10 ngày 06 tháng 01 năm 2018
Trang 3MỞ ĐẦU
Trong những năm qua cùng với sự phát triển CNTT, các hệ thống thông tin đã được phát triển mạnh cả vể số lượng lẫn chất lượng, đặc biệt trong nhiều doanh nghiệp tồn tại nhiều hệ thống thông tin đa dạng và phong phú Các lãnh đạo doanh nghiệp thì luôn thiếu thông tin phục vụ điều hành, chưa kể đến có những thông tin sai lệch thậm chí mâu thuẫn về cùng một sự việc trong khi doanh nghiệp đang sở hữu một khối lượng dữ liệu khổng lồ
Đến thời điểm hiện nay, phương pháp xây dựng kho dữ liệu (Data Warehousing) đã phát triển cả về lý thuyết cũng như thực tế Lý thuyết xây dựng kho
dữ liệu đã được hình thành khá rõ nét, bên cạnh đó các nhà cung cấp phần mềm cũng
đã đưa ra các công cụ để xây dựng, duy trì và phát triển kho dữ liệu Một kho dữ liệu
sẽ giúp doanh nghiệp có khả năng quản lý dữ liệu, khai thác thông tin phục vụ việc điều hành kinh đoanh phù hợp hơn
Cũng như các doanh nghiệp khác, Vinaphone có một mạng lưới các ứng dụng nghiệp vụ cục bộ tại từng đơn vị thành viên Việc tập hợp và quản trị dữ liệu trên phạm vi toàn ngành để cung cấp thông tin cho "quá trình phân tích, hoạch định chiến lược, hỗ trợ ra quyết định" trong môi trường cạnh tranh và hội nhập là một thách thức lớn mà Vinaphone đang tìm hướng giải quyết
Xuất phát từ thực tế này, học viên chọn đề tài ― Xây dựng Kho dữ liệu quản
lý thông tin dịch vụ khách hàng của Vinaphone‖ Đề tài được thực hiện với những
tiêu chuẩn cơ bản về các dịch vụ thông tin di động và khách hàng trong mỗi doanh nghiệp viễn thông, chẳng hạn như Vinaphone Đề tài này nghiên cứu lý thuyết, nắm chắc phương pháp luận và một công cụ xây dựng kho dữ liệu cụ thể, tạo nền tảng triển khai xây dựng một kho dữ liệu thực tế-hướng giải quyết yêu cầu của đề tài nói trên
Ngoài phần mở đầu và kết luận, nội dung chính của luận văn được trình bày trong 3 chương:
Chương 1 Tổng quan về kho dữ liệu
Trang 4Trình bày cơ sở lý thuyết của kho dữ liệu với các nội dung như : định nghĩa về kho dữ liệu, các đặc tính của kho dữ liệu, lợi ích của kho dữ liệu, một số thuật ngữ dùng trong kho dữ liệu, kiến trúc của kho dữ liệu và mô hình dữ liệu đa chiều
Chương 2 Phương pháp thiết kế kho dữ liệu
Trình bày quy trình thiết kế một kho dữ liệu gồm 6 pha cơ bản đó là: xác định yêu cầu nghiệp vụ, xác định mô hình kiến trúc, xác định các bảng chiều, bảng sự kiện, xây dựng lược đồ, tích hợp dữ liệu từ nguồn dữ liệu vào kho dữ liệu và khai thác, phân tích kho dữ liệu
Chương 3 Xây dựng kho dữ liệu thử nghiệm quản lý thông tin dịch vụ khách hàng của doanh nghiệp viễn thông(Vinaphone)
Giới thiệu bài toán xây dựng kho dữ liệu quản lý thông tin dịch vụ khách hàng của doanh nghiệp viễn thông cụ thể là Vinaphone đồng thời tiến hành xây dựng một kho dữ liệu thử nghiệm giải quyết bài toán này
Mặc dù đã có nhiều cố gắng nhưng do thời gian và trình độ còn hạn chế, luận văn không tránh khỏi những thiếu sót Kính mong các thầy cô và đồng nghiệp thông cảm
Tác giả
Trang 5CHƯƠNG 1 TỔNG QUAN VỀ KHO DỮ LIỆU
Chương này giới thiệu cơ sở lý thuyết của kho dữ liệu bao gồm các nội dung như: định nghĩa về kho dữ liệu, đặc tính của kho dữ liệu, lợi ích của kho dữ liệu, kiến trúc kho dữ liệu, mô hình dữ liệu đa chiều và một số thuật ngữ trong kho dữ liệu
1.1 Định nghĩa về kho dữ liệu
Có nhiều định nghĩa khác nhau về kho dữ liệu[2] nhưng định nghĩa về kho dữ liệu của Bill Inmon[6]là phổ biến nhất : ―Kho dữ liệu là tập hợp dữ liệu hướng chủ đề, mang tính tích hợp, ít thay đổi, và mỗi đơn vị dữ liệu đều gắn với một khoảng thời gian cụ thể Kho dữ liệu được thiết kế để hỗ trợ quản trị hệ hỗ trợ quyết định‖
1.2 Đặc tính của kho dữ liệu
Theo định nghĩa của Bill Inmon[6]
kho dữ liệu có 4 đặc tính cơ bản gồm:
Hướng chủ đề (Subject Oriented), Tích hợp (Integrated), Tính thời gian cụ thể (Time Variant) và ít thay đổi (Nonvalatile) Một số định nghĩa khác về kho dữ liệu có
bổ sung thêm tính chất kho dữ liệu bao gồm cả dữ liệu chi tiết và dữ liệu tổng hợp
1.3 Lợi ích của kho dữ liệu
Khi triển khai một kho dữ vào thực tiễn chúng ta có thể hưởng lợi từ nó bằng nhiều cách[9]:
- Ra quyết định tốt hơn: Lượng dữ liệu khổng lồ đáng tin cậy của kho dữ liệu giúp chúng ta đưa ra những quyết định quan trọng khách quan và chính xác hơn
- Truy cập dữ liệu nhanh và dễ dàng: dữ liệu mang tính đa chiều trong kho dữ liệu giúp chúng ta lấy thông tin dễ dàng mà không cần phân tích từng chiều một
- Chất lượng dữ liệu và tính nhất quán: Kho dữ liệu thu thập thông tin từ các nguồn khác nhau và chuyển đổi nó thành một định dạng duy nhất và được sử dụng rộng rãi
Trang 61.4 Một số thuật ngữ trong kho dữ liệu
Một số thuật ngữ thường gặp khi tìm hiểu về kho dữ liệu như: OLTP và OLAP[4], tiến trình ETL, kho dữ liệu chủ đề và siêu dữ liệu
OLTP – Hệ thống xử lý giao dịch thời gian thực (Online Transacsion Processing) là hệ quản trị CSDL nghiệp vụ Các nghiệp vụ hàng ngày của các doanh nghiệp như bán hàng, mua hàng, thanh lý hàng tồn kho, đều được mô hình hóa trong OLTP để xử lý hàng ngày Trong OLTP dữ liệu chỉ đại diện cho hiện tại, nó không có
ý nghĩa lịch sử, đồng thời dữ liệu trong OLTP được chuẩn hóa rất cao vên tốc độ xử
lý truy vấn phức tạp tương đối kém
OLAP – Hệ thống xử lý phân tích trực tuyến (Online Analytical Processing) là
hệ quản trị CSDL chuyên dùng cho tạo báo cáo và phân tích dữ liệu Dữ liệu là vô nghĩa nếu chúng chỉ là các bản ghi trong CSDL, chỉ khi nào chúng được sử dụng để làm số liệu phân tích, tổng hợp thì lúc đó dữ liệu mới trở thành thông tin OLAP là công cụ được dùng để khai thác dữ liệu kho dữ liệu với nhiệm vụ hỗ trợ truy vấn phức tạp , đồng thời tạo ra các báo cáo đầy đủ, chính xác nhất
Tiến trình ETL –là tiến trình tích hợp dữ liệu từ nguồn dữ liệu vào kho dữ liệu bao gồm 3 quá trình: Trích xuất (Extract), Biến đổi (Transform) và Nạp (Load)
Kho dữ liệu chủ đề (Datamart) là cơ sở dữ liệu có những đặc điểm giống với kho dữ liệu nhưng với quy mô nhỏ hơn và lưu trữ dữ liệu về một lĩnh vực, một chuyên ngành Có hai loại datamart thường gặp là datamart độc lập và datamart phụ thuộc
Siêu dữ liệu (Metadata )là dữ liệu về dữ liệu[5], được sử đụng trong kho dữ liệu
để mô tả cũng như sử dụng dữ liệu đảm bảo sử dụng triệt để và nhất quán dữ liệu nghiệp vụ Nó được tạo ra, duy trì và truy cập trong suốt quá trình xừ lý nghiệp vụ (được thực hiện thông qua các ứng dụng)
Trang 71.5 Kiến trúc kho dữ liệu
Hình 1.1 Kiến trúc ba tầng của kho dữ liệu
1.6 Mô hình dữ liệu đa chiều
Khác với dữ liệu trong các cơ sở dữ liệu nghiệp vụ thông thường được tối ưu hóa cho các thao tác thêm mới, chỉnh sửa hoặc xóa, dữ liệu trong kho dữ liệu được tối
ưu hóa cho việc phân tích và báo cáo Và cơ sở dữ liệu đa chiều đã phát triển và đi vào công nghệ cơ sở dữ liệu như là một sự lựa chọn cho những ứng dụng phân tích
dữ liệu
Theo Oracle: ― Cơ sở dữ liệu đa chiều là một dạng của cơ sở dữ liệu được tối
ưu hoá nhằm cho kho dữ liệu và những ứng dụng xử lý phân tích trực tuyến Cơ sở
dữ liệu đa chiều thường xuyên được tạo ra bằng cách sử dụng dữ liệu đầu vào từ những cơ sở dữ liệu quan hệ đã tồn tại ‖[8]
Mô hình dữ liệu đa chiều được đề xuất và thiết kế cho mục đích phân tích dữ liệu, và nó là một ứng dụng của cơ sở dữ liệu đa chiều Các thao tác với dữ liệu của Kho dữ liệu dựa trên cơ sở là mô hình dữ liệu đa chiều
1.6.1 Các khái niệm chính của mô hình dữ liệu đa chiều
Mô hình dữ liệu đa chiều là một mô hình quản lý dữ liệu theo đó các cơ sở dữ liệu được phát triển theo nhu cầu của người dùng, để được sử dụng cho các loại truy vấn cụ thể
Mô hình này xem dữ liệu ở dạng khối dữ liệu ( data cube) Một khối dữ liệu cho phép dữ liệu được mô hình hóa và xem xét theo nhiều chiều, đồng thời một khối
dữ liệu được xác định bởi các chiều (dimensions) và sự kiện (facts)
Trang 8Sự kiện là những thước đo quan trọng được sử dụng để đo lường kết quả kinh doanh[7]
Một chiều là một cấu trúc phân loại dữ liệu để cho phép người dùng trả lời các câu hỏi kinh doanh[7] Trong kho dữ liệu, một chiều là một tập hợp các thông tin tham chiếu đến một sự kiện có thể đo đếm được
Một khối dữ liệu có thể có nhiều chiều, về mặt lý thuyết thì số chiều là không hạn chế Nếu khối dữ liệu có nhiều hơn ba chiều thì được gọi là siêu khối (hypercube)
1.6.2 Đặc điểm của mô hình dữ liệu đa chiều
Mô hình dữ liệu đa chiều lưu trữ dữ liệu trong các bảng chiều, bảng sự kiện trong cơ sở dữ liệu
Một số loại bảng chiều thường gặp như bảng chiều chuẩn (conformed dimension table), bảng chiều suy biến (degenerate dimension table), bảng chiều thay đổi chậm (slowly changing dimension table)
b Bảng sự kiện
Bảng sự kiện là các phép đo của một quá trình kinh doanh, là bảng kết nối giữa các bảng chiều và các độ đo (measures) Bảng sự kiện chứa dữ liệu định lượng (là những dữ liệu có thể đo đếm được), đồng thời kích thước của bảng sự kiện rất lớn
Độ đo thường là giá trị số đại diện cho các số liệu kinh doanh và bảng sự kiện
có thể có nhiều độ đo Độ đo trong bảng sự kiện có thể là: cộng dồn, bán cộng dồn và không cộng dồn
Độ chi tiết của sự kiện là việc xác định mức độ thấp nhất của sự kiện phục vụ cho việc phân tích dữ liệu
Trang 91.6.3 Lược đồ lưu trữ dữ liệu đa chiều
Mô hình dữ liệu đa chiều tổ chức dữ liệu theo hai dạng lược đồ cơ bản là lược đồ hình sao (star schema) và lược đồ hình bông tuyết (snowflake schema)
đồ hình sao được mô tả trong hình 1.2
Hình 1.2 Lược đồ hình sao quản lý bán hàng
b Lược đồ hình bông tuyết
Lược đồ hình bông tuyết là lược đồ lưu trữ dữ liệu kho dữ liệu gồm một bảng
sự kiện liên kết với nhiều bảng chiều
Trong lược đồ hình bông tuyết, một chiều được xác định bởi nhiều bảng chiều, đồng nghĩa với việc các thuộc tính trong bảng chiều được chuẩn hóa tương tự dữ liệu trong các cơ sở dữ liệu thông thường Ví dụ như trong hình 1.3, bảng chiều DMSANPHAM có thuộc tính phân cấp Nhomhang
Trang 10Hình 1.3 Lược đồ hình bông tuyết quản lý bán hàng
Căn cứ vào cách thức lưu trữ dữ liệu, người ta thường tiếp cận mô hình dữ liệu
đa chiều theo 3 hướng sau: MOLAP (Multi-dimensional OLAP), ROLAP (Relational OLAP) và HOLAP (Hybrid OLAP)
Thao tác phân tích dữ liệu của kho dữ liệu được OLAP cung cấp một số công
cụ phân tích cơ bản từ đơn giản đến phức tạp gồm: Cuộn lên (Roll up), Truy xuống (Drill down), Chọn và chiếu (Slice and Dice ), Xoay chiều (Pivot)
1.7 Kết luận chương
Chương 1 đã trình bày tổng quan về kho dữ liệu từ những khái niệm cơ bản về kho dữ liệu đến kiến trúc của một hệ thống kho dữ liệu cũng như mô hình lưu trữ dữ
Trang 11liệu kho dữ liệu Qua đó chúng ta phần nào nắm được đặc điểm, tính chất, các thành phần tạo nên một kho dữ liệu cũng như nguyên lí hoạt động của kho dữ liệu
Việc nắm bắt được cơ sở lý thuyết của kho dữ liệu giúp ích rất nhiều trong việc thiết kế và xây dựng kho dữ liệu
Trong chương 2, luận văn sẽ trình bày quy trình cụ thể thiết kế một kho dữ liệu dựa trên nền tảng cơ sở lý thuyết về kho dữ liệu được trình bày trong chương 1
Trang 12CHƯƠNG 2 PHƯƠNG PHÁP THIẾT KẾ KHO DỮ LIỆU
Chương này giới thiệu quy trình thiết kế một kho dữ liệu bao gồm sáu pha cơ bản: xác định yêu cầu nghiệp vụ, xác định mô hình kiến trúc kho dữ liệu, xác định bảng chiều, bảng sự kiện, xây dựng lược đồ lưu trữ dữ liệu, tích hợp dữ liệu từ nguồn
dữ liệu vào kho dữ liệu và cuối cùng là khai thác và phân tích kho dữ liệu (hình 2.1)
Hình 2.1 Quy trình thiết kế một kho dữ liệu
2.1 Xác định yêu cầu nghiệp vụ
Việc thiết kế một kho dữ liệu được bắt đầu bằng việc xác định các yêu cầu nghiệp vụ của kho dữ liệu, đồng nghĩa với việc chúng ta phải xác định được mục đích
và phạm vi xây dựng kho dữ liệu
2.2 Xác định mô hình kiến trúc kho dữ liệu
Chúng ta lựa chọn mô hình kiến trúc ba tầng của kho dữ liệu với vùng xử lý và vùng dữ liệu chủ đề (hình 1.1) làm mô hình thiết kế cho kho dữ liệu trong phạm vi luận văn này
2.3 Xác định bảng chiều, bảng sự kiện
Trong pha xác định bảng chiều, bảng sự kiện khi thiết kế kho dữ liệu, chúng ta
sẽ đi tìm hiểu các yêu cầu cụ thể khi xây dựng bảng chiều, bảng sự kiện cho kho dữ liệu
Trang 132.3.1 Xác định bảng chiều
Bảng chiều được sử dụng để mô tả các chiều, chứa tất cả các thuộc tính đặc trưng của chiều đó Bảng chiều chứa các dữ liệu cần thiết cho việc thực hiện thao tác nghiệp vụ nào đó, đồng thời nó là đối tượng mà ta có thể dựa vào để phân loại dữ liệu Đồng thời bảng chiều cũng là nơi cung cấp thông tin, ngữ cảnh cụ thể cho dữ liệu trong bảng sự kiện
2.4 Xây dựng lược đồ lưu trữ dữ liệu
Với hai dạng lược đồ lưu trữ dữ liệu là lược đồ hình sao và lược đồ hình bông tuyết, trong phạm vi luận văn này chúng ta chỉ sử dụng lược đồ hình sao khi đi vào thiết kế, xây dựng kho dữ liệu thử nghiệm
2.5 Tích hợp dữ liệu từ nguồn dữ liệu vào kho dữ liệu
Việc tích hợp dữ liệu từ nguồn dữ liệu vào kho dữ liệu được thực hiện bởi tiến trình ETLmô tả trong hình 2.2
Hình 2.2 Tiến trình ETL [11]
ETL đơn giản là:
Trang 14Trích xuất dữ liệu – tức là chọn lọc dữ liệu từ nhiều nguồn khác nhau Mỗi doanh nghiệp sẽ có một vài phần mềm đảm nhiệm một công việc nào đó như quản trị nhân sự (HRM), quản lý quan hệ khách hàng (CRM) và trích xuất dữ liệu là công việc chọn lọc những dữ liệu cấn thiết từ các phần mềm này
Biến đổi dữ liệu – tức chuyển đổi dữ liệu, là việc chuyển đổi các dữ liệu nghiệp
vụ của các phần mềm thành dữ liệu phân tích của các nhà quản trị, đồng thời phải tối
ưu hóa cho mục đích phân tích dữ liệu này
Nạp dữ liệu – thực hiện việc ghi dữ liệu đã qua biến đổi vào vị trí thích hợp trong kho dữ liệu
2.6 Khai thác và phân tích kho dữ liệu
Kho dữ liệu chứa dữ liệu phân tích, mục đích của việc xây dựng kho dữ liệu là chuyển mục đích sử dụng dữ liệu của các dữ liệu nguồn như ghi nhận các nghiệp vụ phát sinh hàng ngày sang mục đích khai thác, vận hành, và phân tích dữ liệu, để doanh nghiệp tìm ra cơ hội phát triển mới cho doanh nghiệp
Chúng ta sử dụng kỹ thuật OLAP để thực hiện khai thác và phân tích dữ liêu kho dữ liệu OLAP cho phép chúng ta quan sát dữ liệu trên nhiều phương diện khác nhau, ở các mức độ chi tiết khác nhau
Trang 15CHƯƠNG 3 XÂY DỰNG KHO DỮ LIỆU THỬ NGHIỆM QUẢN
LÝ THÔNG TIN DỊCH VỤ KHÁCH HÀNG CỦA DOANH NGHIỆP
VIỄN THÔNG(VINAPHONE)
Chương này giới thiệu bài toán xây dựng kho dữ liệu quản lý thông tin dịch vụ khác hàng của Vinaphone, cũng như tiến hành xây dựng kho dữ liệu thử nghiệm cho bài toán này
3.1.1 Bài toán xây dựng kho dữ liệu của Vinaphone
Thị trường thông tin di động trong nước cạnh tranh ngày càng gay gắt, Vinaphone có nhu cầu xây dựng và phát triển hệ thống thông tin đủ mạnh nhằm đáp ứng yêu cầu quản trị, tổng hợp, phân tích, dự báo và hỗ trợ ra quyết định cho các cấp lãnh đạo
Vinaphone đã triển khai và sử dụng hệ thống CCBS (Customer Care and Billing System)- Hệ thống tính cước và chăm sóc khách hàng, đây là một hệ thống tổng thể với quy trình nghiệp vụ khép kín, thực hiện việc tính cước và chăm sóc khách hàng trọn gói cho các đơn vị khai thác và cung cấp dịch vụ viễn thống
Tuy nhiên nhìn từ phạm vi toàn công ty, hệ thống vẫn còn hạn chế trong việc lên báo cáo thông kê cho toàn công ty vì hạn chế trong việc liên kết số liệu từ những chi nhánh khác nhau, chưa có khả năng quản trị, phân tích, so sánh và dự báo theo các khoảng thời gian tùy ý Nhìn từ phạm vi cục bộ, hệ thống chỉ dừng lại ở mức thống kê nghiệp vụ phát sinh hàng ngày tại từng đơn vị thành viên mà chưa có sự tích hợp dữ liệu trên phạm vi toàn công ty
Trươc những vấn đề đang gặp phải cũng như yêu cầu phát triển hệ thống thông tin đủ mạnh phục vụ công việc điều hành sản xuất kinh doanh, ban lãnh đạo công ty
đã đề ra định hướng chiến lược đầu tư phát triển mạnh mẽ hệ thống thông tin Tổ chức thực hiện định hướng chiến lược này bằng các đề án cụ thể, một trong số đó là xây dựng kho dữ liệu
Xác định mục tiêu xây dựng kho dữ liệu cho bài toán của doanh nghiệp là chưa
đủ, ta cần xác minh cụ thể phạm vi xây dựng kho dữ liệu của doanh nghiệp Giá trị cốt lõi của mọi doanh nghiệp là khách hàng, và việc xây dựng kho dữ liệu cho doanh