Nội dung chính của luận văn trình bày những tìm hiểu của mình về Business Intelligence trong thương mại điện tử và đưa ra phương pháp xây dựng mô hình dự báo xu hướng, phân tích giỏ hàng
Trang 1NGUYỄN THỊ THỦY
ỨNG DỤNG BUSINESS INTELLIGENCE SQL SERVER 2008
TRONG THƯƠNG MẠI ĐIỆN TỬ
LUẬN VĂN THẠC SĨ
Hà Nội - 2014
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
-o0o -
NGUYỄN THỊ THỦY
ỨNG DỤNG BUSINESS INTELLIGENCE SQL SERVER 2008
TRONG THƯƠNG MẠI ĐIỆN TỬ
Ngành : Công nghệ thông tin
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân tôi, không sao chép lại của người khác Trong toàn bộ nội dung của luận văn, những điều
đã trình bày là của cá nhân tôi hoặc là được tôi tổng hợp từ nhiều nguồn tài liệu Tất cả các nguồn tài liệu tham khảo có xuất xứ rõ ràng và được trích dẫn hợp pháp
Tôi xin chịu toàn bộ trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của tôi
Hà Nội, tháng 10 năm 2014
Nguyễn Thị Thủy
Trang 4LỜI CẢM ƠN
Lời đầu tiên tôi xin gửi lời cảm ơn chân thành nhất tới PGS.TS.Nguyễn Hà Nam, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội - đã dành rất nhiều thời gian quý báu để tận tình hướng dẫn, chỉ bảo và định hướng cho tôi trong suốt thời gian hoàn thành luận văn
Tôi xin bày tỏ lòng biết ơn tới các thầy cô giáo Khoa Công nghệ thông tin -
Trường Đại học Công nghệ- ĐHQGHN đã truyền đạt cho tôi những kiến thức, kinh
nghiệm quý báu trong suốt thời gian học tập tại trường
Tôi xin chân thành cảm ơn bạn bè và gia đình tôi, những người thân yêu luôn luôn
ở bên khuyến khích, động viên và ủng hộ tôi trong học tập cũng như trong cuộc sống
Do thời gian có hạn nên luận văn này không thể tránh khỏi những thiếu sót Rất mong nhận được sự đóng góp ý kiến của các thầy cô giáo, bạn bè, các quý vị quan tâm tới vấn đề này để luận văn được hoàn thiện hơn
Trân trọng cảm ơn!
Hà Nội, tháng 10 năm 2014
Nguyễn Thị Thủy
Trang 5MỤC LỤC
DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ x
BẢNG CÁC CHỮ VIẾT TẮT xii
LỜI MỞ ĐẦU 1
Chương 1 Giới thiệu 3
1.1 Tổng quan về Business Intelligence 3
1.2 Một số hệ thống BI đang được ứng dụng 5
1.3 Hướng tiếp cận 6
1.3.1 Ứng dụng Business Intellegence trong thương mại điện tử 6
1.3.2 Hướng nghiên cứu của đề tài 8
1.3.3 Đề tài đã thực hiện được một số nội dung sau 8
Chương 2 Các khái niệm liên quan đến Business Intelligence 9
2.1 Cơ sở lý thuyết 9
2.1.1 Kho dữ liệu 9
2.1.2 Tổng quan về khai phá dữ liệu 14
2.2 Giới thiệu bộ công cụ BI trong hệ quản trị Ms Sql Server 2008 16
2.3.1 Dịch vụ tích hợp (Integration services) 17
2.3.2 Dịch vụ báo cáo (Reporting service) 17
2.3.3 Dịch vụ phân tích (Analysis Services) 18
2.3 Một số kỹ thuật khai phá dữ liệu 18
2.3.1 Thuật toán hồi quy tự động (Auto Regression Algorithm) 20
2.3.2 Luật kết hợp (Association Rule) 21
Chương 3 Ứng dụng BI Sql Server trong bài toán thương mại điện tử 25
3.1 Bài toán thực tế và giải pháp giải quyết 25
3.2 Mô tả và chuyển đổi dữ liệu 25
3.3 Xây dựng kho dữ liệu 26
3.4 Xây dựng các báo cáo biểu diễn dữ liệu bằng Ms Reporting Service 28
3.4.1 Báo cáo tổng hợp kinh doanh 29
3.4.2 Một vài dạng báo cáo động khác 34
3.5 Xây dựng các mô hình khai phá dữ liệu 40
Trang 63.5.1 Mô hình khai phá dữ liệu dự đoán xu hướng 40
3.5.2 Mô hình khai phá dữ liệu phân tích giỏ hàng 46
Kết luận – Hướng nghiên cứu 55
Tài liệu tham khảo 56
Trang 7DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ
Hình 1.1 Mô hình chung của BI 3
Hình 1.2 Thành phần chính hệ thống BI 5
Hình 2.1 Kiến trúc kho dữ liệu 9
Hình 2.2 Sơ đồ hình sao 11
Hình 2.3 Sơ đồ bông tuyết 12
Hình 2.4 Ví dụ về mô hình dữ liệu 3 chiều 13
Hình 2.5 Mô tả chi tiết các bước của quá trình khám phá tri thức 15
Bảng 2.6 Ứng dụng của các giải thuật khai phá trong Sql Server 2008 19
Hình 3.1 Cơ sở dữ liệu thương mại điện tử 26
Bảng 3.2 Mô tả cơ sở dữ liệu thương mại điện tử 27
Hình 3.3 Kho dữ liệu giao dịch mua bán 27
Hình 3.4 Báo cáo tổng hợp kinh doanh 29
Hình 3.5 Biểu đồ báo cáo tổng hợp doanh thu 30
Hình 3.6 Thay đổi group, series trong Reporting service 30
Hình 3.7 Biểu đồ báo cáo tổng hợp theo các quý của năm 31
Hình 3.8 Biểu đồ báo cáo tổng hợp giao dịch mua bán theo độ tuổi và giới tính 32
Hình 3.9 Biểu đồ báo cáo doanh số bán hàng theo đặc tính khách hàng 33
Hình 3.10 Biểu đồ mối liên hệ giữa sở thích và độ tuổi 34
Hình 3.11 Báo cáo số lượng sản phẩm đã bán theo danh mục sản phẩm 35
Hình 3.12 So sánh số lượng khách hàng theo tuần của 2 tháng 36
Hình 3.13 Biểu đồ so sánh số lượng khách hàng theo tháng của năm 36
Hình 3.14 Các tham số trong báo cáo 37
Hình 3.15 Báo cáo kinh doanh theo khu vực 37
Hình 3.16 Biểu đồ số lượng khách hàng theo loại sản phẩm và giới tính 38
Hình 3.17 Báo cáo số lượng tiêu thụ theo thể loại sản phẩm trên từng quốc gia 39
Hình 3.18 Dữ liệu huấn luyện mô hình dự đoán xu hướng kinh doanh 41
Hình 3.19 Biểu đồ dự đoán xu hướng kinh doanh 41
Hình 3.20 Biểu đồ doanh số kinh doanh 42
Hình 3.21 So sánh kết quả dự báo và giá trị thật sự 43
Hình 3.22 Dữ liệu huấn luyện dự đoán xu hướng theo thể loại và vùng 43
Hình 3.23 Biểu đồ dự đoán xu hướng năm tiếp theo theo thể loại và khu vực 44
Hình 3.24 : Kết quả dự báo Time Series dưới dạng bảng 45
Hình 3.25 So sánh kết quả dự đoán và thực tế cho thể loại Action 46
Hình 3.26 Dữ liệu huấn luyện 1 cho mô hình dự đoán phân tích giỏ hàng 47
Hình 3.27 Dữ liệu huấn luyện 2 cho mô hình dự đoán phân tích giỏ hàng 47
Hình 3.28 Mô hình khai phá Microsoft Association Rules 48
Bảng 3.3 Thống kê một số luật từ mô hình 49
Trang 8Hình 3.29 Rule Tab trong mô hình khai phá Microsoft Association Rules 50
Hình 3.30 Mạng phụ thuộc trong mô hình khai phá Microsoft Association Rules 51
Hình 3.31 Mạng phụ thuộc-2 trong mô hình khai phá Microsoft Association Rules 51
Hình 3.32 Dữ liệu test cho mô hình phân tích giỏ hàng 52
Hình 3.33 Dữ liệu test cho mô hình phân tích giỏ hàng 53
Hình 3.34 Kết quả chạy dữ liệu test qua mô hình phân tích giỏ hàng 53
Hình 3.35 Dữ liệu test mô hình phân tích giỏ hàng 54
Trang 9ARTXP Auto Regression Trees with Cross Predict
Trang 10LỜI MỞ ĐẦU
Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu đã đem lại những lợi ích vô cùng to lớn cho nhân loại Cùng với sự phát triển của công nghệ thông tin và ứng dụng của nó trong đời sống- kinh tế- xã hội, lượng dữ liệu thu thập được ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích thước lớn
Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết định trong kinh doanh thì vấn đề tìm ra các thông tin hữu ích trong các cơ sở dữ liệu khổng lồ ngày càng trở nên mục tiêu quan trọng của các doanh nghiệp và khai phá dữ liệu dần trở thành thành phần chính để thực thi nhiệm vụ khai phá tri thức Được đánh giá sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khai phá dữ liệu sẽ ngày càng được ứng dụng phổ biến trong các
lĩnh vực kinh tế, xã hội: ngân hàng, truyền thông, quảng cáo, … Theo thống kê năm 2013,
tỉ lệ dân số dùng Internet là 36%, trong đó 57% sử dụng thương mại điện tử để mua sắm online Nếu chỉ tính riêng số liệu của Việt Nam, năm 2011, tỉ trọng thương mại điện tử chiếm 0.25% thị trường, đạt 154 triệu USD Đến cuối 2016, dự kiến tỉ trọng này tăng gần gấp 3 lần, đạt 0.71% với giá trị vốn hoá tăng gấp 6 lần đạt trên 900 triệu USD (tương đương 18,000 tỷ VNĐ) Con số này hoàn toàn trùng khớp với sự phát triển của xu thế bán
lẻ trực tuyến khi Nguyễn Kim đặt kế hoạch doanh số eCommerce năm 2014 là trên 200
tỷ, thegioididong.com là trên 1000 tỷ, FPT Retail là trên 500 tỷ… Bên cạnh đó, sàn TMĐT Sendo.vn vừa tuyên bố sẽ chiếm lĩnh vị trí số 1 trong mảng C2C, hiện tại giao
dịch qua hệ thống của họ (nếu giữ ở mức hiện tại) trên dưới 500 tỷ trong năm 2014 [3]
Có thể thấy thương mại điện tử phát triển nhanh theo xu thế toàn cầu hóa Việc giao dịch thông qua các website thương mại đện tử tạo ra lượng dữ liệu vô cùng lớn Dữ liệu chính
là thông tin về khách hàng cũng như các sản phẩm giao dịch Nếu có thể khai thác nguồn
dữ liệu này thì chúng ta sẽ có một hệ thống thông tin rất giá trị phục vụ cho phát triển thương mại điện tử Do đó nhu cầu xây dựng kho dữ liệu, mô hình khai phá dữ liệu là
thiết yếu cho việc tổng hợp, báo cáo và đưa ra quyết định kinh doanh
Nhằm xác lập chỗ đứng trong thị trường giải pháp thông tin doanh nghiệp (Business Intelligence - BI), Microsoft SQL Server 2008 cung cấp các công cụ có khả năng quản lý báo cáo và phân tích đủ mọi cấp độ, tích hợp chặt chẽ với Microsoft Office, cho phép đưa thông tin doanh nghiệp đến tất cả nhân viên, giúp ra quyết định nhanh hơn
và tốt hơn Với cơ sở hạ tầng mạnh, linh hoạt và có thể mở mở rộng, tích hợp chặt chẽ với Microsoft Office, giải pháp BI trong SQL Server 2008 trở nên linh động và tin cậy đối với
những khách hàng lựa chọn Microsoft
Với lý do trên, luận văn tìm hiểu về các vấn đề, kỹ thuật trong Business Intelligence
và ứng dụng trong thương mại điện tử bằng công cụ Microsoft Sql Server 2008
Trang 11Nội dung chính của luận văn trình bày những tìm hiểu của mình về Business Intelligence trong thương mại điện tử và đưa ra phương pháp xây dựng mô hình dự báo
xu hướng, phân tích giỏ hàng để nhận biết hành vi mua bán của khách hàng với các kỹ thuật khai phá dữ liệu Microsoft Time Series, Microsoft Association Rule Cấu trúc của
luận văn được chia thành 3 chương như sau:
Chương 1 Giới thiệu
Chương này giới thiệu về BI, hướng tiếp cận của BI và mô tả ngắn gọn hướng nghiên cứu của luận văn
Chương 2 Các khái niệm liên quan đến Business Intelligence
Chương này trình bày cơ sở lý thuyết về kho dữ liệu, khai phá dữ liệu, giới thiệu
bộ công cụ BI Sql Server
Chương 3 Ứng dụng BI Sql Server trong bài toán thương mại điện tử
Chương này trình bày về bài toán thực tế thương mại điện tử, xây dựng kho dữ liệu, xây dựng các báo cáo tổng hợp, báo cáo động, xây dựng mô hình khai phá dữ liệu
Kết luận Tóm tắt các kết quả đạt được
Trang 12Chương 1 Giới thiệu
1.1 Tổng quan về Business Intelligence
Việc tổng hợp, phân tích thông tin từ những nguồn dữ liệu khác nhau luôn là vấn
đề đáng quan tâm đối với các tổ chức có khối lượng dữ liệu lớn Trong lĩnh vực kinh doanh, lượng dữ liệu về khách hàng, quá trình kinh doanh, biến động thị trường chứa đựng nhiều thông tin hữu ích cho các công ty Nhiều giải pháp khai thác nguồn thông tin này đã được đưa ra Trong đó, Business Intelligence (BI) là một giải pháp mới với nhiều
bộ công cụ hỗ trợ
BI, được hình thành vào giữa những năm 1990, là qui trình và công nghệ mà các doanh nghiệp dùng để kiểm soát khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình Công nghệ BI cung cấp một cách nhìn toàn cảnh hoạt động của doanh nghiệp
từ quá khứ, hiện tại và các dự đoán tương lai Dựa trên các thông tin thu thập được từ khách hàng, với sự hỗ trợ của các công cụ phân tích, BI hỗ trợ phân tích nhằm đưa ra các quyết định, chiến lược kinh doanh tốt hơn Vì vậy một hệ thống BI (BI system) còn được gọi là hệ hỗ trợ quyết đinh (Decision Support System)
Mô hình chung của BI:
Hình 1.1 Mô hình chung của BI
Vậy một hệ thống BI có những lợi ích nào?
Dễ dàng truy cập vào các dữ liệu
BI có thể thu thập thông tin từ nhiều hệ thống khác nhau từ nhiều vị trí trí địa lý khác nhau trong một tổ chức thông qua quản lý dữ liệu tập trung tại kho dữ liệu, giúp các nhà quản lý truy cập dễ dàng hơn cho báo cáo, kiểm toán và phân tích dự báo, tăng khả
Trang 13năng quản lý công ty Các dữ liệu được thu thập và được thể hiện trong định dạng dễ hiểu, cho phép ngay cả những người không rành về kỹ thuật vẫn hiểu được việc kinh doanh và
xác định các yếu tố thúc đẩy hoạt động hằng ngày
Thông tin chính xác hơn
Giải pháp BI có thể loại bỏ những dữ liệu lỗi, thiếu sót hoặc trùng lặp thông tin
Các báo cáo được tạo ra tự động, chính xác và được cập nhật
Cải thiện việc ra quyết định
Khi phân tích dữ liệu luôn sẵn có và dễ hiểu, các nhà quản lý có thể đưa ra quyết định kinh doanh với thông tin nhanh, sâu sắc và hiệu quả hơn Khi các nhà quản lý có thể truy cập các báo cáo, biểu đồ, đồ thị và phân tích, họ cũng cảm thấy được trao quyền để có biện pháp
chủ động để cải thiện hiệu suất và đảm bảo rằng lợi nhuận kỳ vọng được đáp ứng
Xác định các vấn đề trong kinh doanh
BI có thể giúp khám phá ra vấn đề trong doanh nghiệp mà trước đây không được kiểm soát, chẳng hạn như hiệu suất kém, dễ dàng hơn Ví dụ, nếu người quản lý thấy có
sự suy giảm của một mục hàng tồn kho đặc biệt, nhưng không thể tìm được điểm trùng khớp với doanh số bán hàng của mục đó Giải pháp BI có thể cho phép anh ta xem xét, đối
chiếu việc mua hàng so với doanh thu để quyết định các điều chỉnh cần thiết trong tổ chức
Cải thiện phân tích marketing, quan hệ khách hàng
Với giải pháp BI bạn có thể xác định tỷ lệ thành công của quảng cáo, chiến dịch gửi thư trực tiếp và các chương trình khuyến mãi thông qua email Dựa trên hồ sơ của khách hàng bao gồm lịch sử mua bán, hành trình, mối quan tâm và sở thích BI giúp dự đoán nhu cầu của khách hàng và cung cấp các dịch vụ, làm tăng sự hài lòng
Các hoạt động chính của BI (BI Activities)
Hệ thống hỗ trợ quyết định (Decision support systems)
Dự báo (Forecasting)
Báo cáo kho dữ liệu (Reporting data warehouse)
Lưu trữ dữ liệu (Data store)
Khai phá dữ liệu (Data mining)
Phân tích thống kê (Statistical analysis)
Extract, Transform, and Load (ETL)
Phân tích xử lý trực tuyến (Online Analytical Processing - OLAP)
Portal
Trang 14Các thành phần chính trong hệ thống BI là kho dữ liệu (Data Warehouse) và khai phá dữ liệu (Data Mining) vì dữ liệu dùng trong BI là dữ liệu tổng hợp (Nhiều nguồn, nhiều định dạng, phân tán và có tính lịch sử) đó là đặc trưng của kho dữ liệu Đồng thời việc phân tích dữ liệu trong BI không phải là những phân tích đơn giản (query, filtering)
mà là những kỹ thuật trong khai phá dữ liệu (data mining) dùng để phân loại (classification) phân cụm (clustering), hay dự đoán (prediction) Vì vậy BI có mối quan
hệ rất chặt chẽ với kho dữ liệu và khai phá dữ liệu
Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phần chính như sau:
Hình 1.2 Thành phần chính hệ thống BI
Trong đó:
Data Warehouse (Kho dữ liệu): Chứa dữ liệu tổng hợp của doanh nghiệp
Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai phá dữ liệu và phát hiện tri thức như phân loại (classification), phân nhóm (clustering), phát hiện luật kết hợp (association rule), dự đoán (prediction), …
Business Analyst (Phân tích kinh Doanh): Các nhà lãnh đạo doanh nghiệp đưa ra những quyết định chiến lược đối với hoạt động kinh doanh của doanh nghiệp
Chúng ta sẽ đi vào tìm hiểu chi tiết các khái niệm kho dữ liệu, khai phá ở chương 2
1.2 Một số hệ thống BI đang đƣợc ứng dụng
Hệ thống BI trong những năm gần đây đã và đang được ứng dụng rộng rãi trong nhiều lĩnh vực như: ngân hàng, tài chính và thị trường chứng khoán, thương mại, giáo dục, y tế, sinh học, bưu chính viễn thông,
Data Warehouse
ta Mini Data Mining
Business Analyst
Business Intelligence
Trang 15Những sản phẩm dưới đây được kiểm tra thông qua 70 tiêu chí quan trọng để nâng cao năng suất và khả năng hỗ trợ kinh doanh thông minh của doanh nghiệp (được xếp
theo thứ tự giảm dần của khả năng hỗ trợ của sản phẩm) (The second edition of the
independent Business Intelligence Tools Survey, published in October 2008)
Oracle Enterprise BI Server - Oracle
Excel, Performance Point, Analysis Server – Microsoft
Business Objects Enterprise - Business Objects (now SAP)
SAP NetWeaver BI - SAP
SAS Enterprise BI Server - SAS Institute
TM/1 & Executive Viewer - Applix (now IBM)
BizzScore Suite - EFM Software
WebFocus - Information Builders
QlikView - QlikTech
Microstrategy - Microstrategy
Hyperion System - Hyperion (now Oracle)
Actuate - Actuate
Cognos Series 8 - Cognos (now IBM)
Trong luận văn này chúng tôi lựa chọn hệ thống BI của Microsoft vì các cơ sở dữ liệu thương mại điện tử đa phần lưu trữ trên hệ quản trị cơ sở dữ liệu Microsoft Sql Server cũng như Microsoft đã và đang là công cụ mà tôi vẫn thường dùng trong công việc của mình và về cơ bản đáp ứng đầy đủ các yêu cầu của luận văn
1.3 Hướng tiếp cận
1.3.1 Ứng dụng Business Intellegence trong thương mại điện tử
Tiết kiệm chi phí
Thông thường để biết được lý do vì sao kết quả kinh doanh tháng này giảm so với tháng trước, nhà quản lý thường phải tìm hiểu qua nhiều kênh thông tin khác nhau từ phòng kế toán tới phòng kinh doanh, … nhiều khi tiêu tốn khá nhiều thời gian, nguồn lực Còn với giải pháp BI, tận dụng ưu thế có thể phân tích sâu theo nhiều chiều, nhà quản lý
có thể tìm được nguyên nhân bị giảm doanh thu là do đâu, cụ thể vùng miền nào mà hầu như không cần nhờ đến bất cứ ai Trong bối cảnh hiện nay, việc giúp doanh nghiệp truy
Trang 16xuất nhanh gọn thông tin được coi như là một giải pháp giúp tiết kiệm chi phí, nâng cao hiệu quả hoạt động
Chọn lọc mặt hàng kinh doanh
Bằng cách phân tích các chỉ số đánh giá hiệu quả hoạt động chính về số lần bảo hành, các mặt hàng bán chậm nhất hay số khách hàng mua và tổng doanh thu bán được từ những mặt hàng đó, BI giúp nhà quản lý biết được những mặt hàng kém hiệu quả, làm tiêu tốn nhiều chi phí cho các hoạt động hỗ trợ, tồn kho để từ đó ra quyết định loại bỏ hay cải tiến thành một sản phẩm mới
Phân tích hiệu quả của các chương trình khuyến mãi, quảng cáo
Thông qua việc thu thập thông tin về số lượng hàng bán, doanh thu, chi phí, số khách hàng mới, số sản phẩm bán được … của các chương trình khuyến mại, từ đó nhà quản lý sẽ biết được chương trình dạng nào mang lại hiệu quả cao nhất để áp dụng lại cho những lần sau Ngoài ra, dựa trên những bản khảo sát, dữ liệu về bán hàng, BI có thể cho biết tác động của những hoạt động đó như thế nào sau mỗi kỳ quảng cáo, tung ra sản phẩm, dịch vụ mới
Nâng cao năng lực của nhân viên kinh doanh
Trong doanh nghiệp có nhiều kênh phân phối, nhiều chi nhánh đại lý, nhân viên kinh doanh được tổ chức thành nhiều cấp nên việc đo lường và đánh giá hiệu quả làm việc của nhân viên một cách chính xác thường khó khăn và tốn thời gian Để đánh giá đúng thường phải dựa vào nhiều tiêu chí: doanh số, số khách hàng mới tìm được, và phải có trọng số riêng cho từng kênh bán hàng… Với sự hỗ trợ của hệ thống BI, nhà quản lý có thể đo lường nhiều tiêu chí đánh giá, từ đó có những quyết định thưởng phạt, điều chỉnh nhân sự chính xác
Tăng khả năng kiểm soát thông tin của doanh nghiệp
BI làm tăng khả năng kiểm soát thông tin của doanh nghiệp một cách chính xác, hiệu quả từ đó có thể phân tích, khai phá tri thức giúp doanh nghiệp có thể dự đoán về xu hướng của giá cả dịch vụ, hành vi khách hàng, phát hiện khách hàng tiềm năng để đề ra các chiến lược kinh doanh phù hợp nhằm tăng khả năng cạnh tranh doanh nghiệp
Giúp sử dụng thông tin một cách hiệu quả
BI giúp cho các doanh nghiệp sử dụng thông tin một cách hiệu quả, chính xác để thích ứng với môi trường thay đổi liên tục và cạnh tranh khốc liệt trong kinh doanh Từ đó
ra các quyết định kinh doanh hiệu quả hơn:
Xác định được vị trí và sức cạnh tranh của doanh nghiệp
Trang 17 Phân tích hành vi khách hàng
Xác định mục đích và chiến lược Marketing
Dự đoán tương lai của doanh nghiệp
Xây dựng chiến lược kinh doanh
Giữ được khách hàng có giá trị và dự đoán khách hành tiềm năng
1.3.2 Hướng nghiên cứu của đề tài
Đề tài phân tích dữ liệu mua bán trực tuyến nhằm nhận diện được những hành vi mua bán của khách hàng và thông qua đó có thể đưa ra các chính sách chăm sóc khách
hàng thích hợp dựa trên dự đoán hoặc có một chiến lược tiếp thị hiệu quả Dựa vào kết
quả phân tích mà người quản lý của các công ty/tổ chức các website thương mại điện tử nắm bắt được những nhóm dịch vụ nào có liên quan tới nhau, phục vụ cho mục đích quản
lý và xây dựng chiến lược phát triển hệ thống và tìm những khách hàng tiềm năng cho các gói sản phẩm khác nhau Ngoài ra đề tài cũng đưa ra một số dự đoán về xu hướng kinh
doanh trong tương lai
1.3.3 Đề tài đã thực hiện được một số nội dung sau
Hiểu được các kiến thức về BI, kho dữ liệu, khai phá dữ liệu, một số thuật toán khai phá dữ liệu trong bộ công cụ BI của hệ quản trị SQL Server 2008
Xây dựng kho dữ liệu về mua bán trong thương mại điện tử
Thiết kế các báo cáo tổng hợp và báo cáo động theo yêu cầu
Sử dụng một số thuật toán khai phá để dự đoán, ra quyết định cho việc kinh doanh,
có thể trả lời cho các vấn đề bên dưới:
Doanh số bán hàng cho năm tới như thế nào?
Số lượng bán các loại sản phẩm khách nhau như thế nào theo thời gian trên mỗi quốc gia tăng hay giảm trong tương lai?
Nâng cấp website của công ty để thúc đẩy bán chéo (cross-selling) Khả năng dự đoán những sản phẩm có thể khách hàng muốn mua dựa vào lịch sử mua bán những khách hàng khác, dự đoán sản phẩm tiếp theo có thể sẽ được mua
Trang 18Chương 2 Các khái niệm liên quan đến Business Intelligence
2.1 Cơ sở lý thuyết
2.1.1 Kho dữ liệu
Khái niệm kho dữ liệu
Theo William Inmon [4] “kho dữ liệu là một bộ dữ liệu có các đặc tính: hướng chủ
đề, có tính tích hợp, ổn định, dữ liệu gắn với thời gian thường được sử dụng trong các hệ thống hỗ trợ quyết định”
Kho dữ liệu thường bao gồm:
Một hoặc nhiều công cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác nhau
Cơ sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thông qua việc lập các bảng dữ liệu
Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính sau: Là một cơ sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng các dữ liệu từ các ứng dụng khác nhau Hỗ trợ cho một số người dùng có liên quan, có sử dụng tới các thông tin liên quan Nội dung được cập nhật thường xuyên, chủ yếu theo hình thức bổ sung thông tin Chứa các dữ liệu trong lịch sử
và hiện tại nhằm cung cấp các xu hướng thông tin Chứa các bảng dữ liệu có kích thước lớn Một câu hỏi thường trả về một tập kết quả liên quan đến toàn
bộ bảng và các liên kết nhiều bảng
Kiến trúc kho dữ liệu
Hình 2.1 Kiến trúc kho dữ liệu
Trang 19Kiến trúc này gồm ba tầng:
Tầng đáy: Là nơi cung cấp các dịch vụ lấy dữ liệu từ nhiều nguồn khác nhau, sau
đó chuẩn hóa, làm sạch và lưu trữ dữ liệu tập trung
Tầng giữa: Cung cấp các dịch vụ để thực hiện các thao tác với kho dữ liệu gọi là máy chủ OLAP Có thể cài đặt bằng ROLAP, MOLAP hay kết hợp cả hai mô hình trên gọi là HOLAP Ngoài ra, hệ thống còn có thể có thêm một số kho dữ liệu chủ đề (Data mart) đây là một tập con được chuyên biệt hóa của kho dữ liệu diện rộng, có giá trị đối với một nhóm người dùng đặc trưng, phạm vi được giới hạn bởi các chủ đề đặc biệt nào
đó Dữ liệu trong kho dữ liệu và trong kho dữ liệu chủ đề được lưu trữ và quản lý bởi một hoặc nhiều máy chủ
Tầng trên cùng: tầng này cho phép thực hiện các truy vấn, tạo các báo cáo, phân tích dữ liệu
Các đặc tính của kho dữ liệu
Hướng chủ đề: Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm Gigabyte, được tổ chức theo những chủ đề chính Kho dữ liệu không chú trọng vào giao tác
và việc xử lý giao tác Thay vào đó, kho dữ liệu tập trung vào việc mô hình hóa, phân tích dữ liệu nhằm hỗ trợ cho nhà quản lý ra quyết định Do đó, các kho dữ liệu thường cung cấp một khung nhìn tương đối đơn giản bằng cách loại bớt những
dữ liệu không cần thiết trong quá trình ra quyết định và hướng vào một hoặc một
số chủ đề cụ thể
Tính tích hợp: Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu từ nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi giao tác trực tuyến hoặc thậm chí là từ những file dữ liệu độc lập Những dữ liệu này tiếp tục được làm sạch, chuẩn hóa để đảm bảo sự nhất quán, sau đó đưa vào kho dữ liệu
Ổn định: Dữ liệu trong kho dữ liệu thường được lưu trữ lâu dài, ít bị sửa đổi, chủ yếu dùng cho việc truy xuất thông tin nên có độ ổn định cao
Dữ liệu gắn với thời gian: Do có tính ổn định, kho dữ liệu thường lưu trữ dữ liệu của hệ thống trong khoảng thời gian dài, cung cấp đủ số liệu cho các mô hình nghiệp vụ, dự báo, khảo sát những chỉ tiêu cần quan tâm
Ứng dụng của kho dữ liệu [4]
Theo như cách khai thác truyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử dụng để khai thác thông tin bằng các công cụ thực hiện truy vấn và báo cáo Nhờ việc dữ liệu thô đã được chuyển sang thành các dữ liệu ổn định, có chất lượng nên kho dữ liệu đã giúp nâng cao kỹ thuật biểu diễn thông tin truyền thống Các kho dữ liệu được sử dụng để
hỗ trợ cho phân tích trực tuyến (OLAP) Trong khi ngôn ngữ SQL và các công cụ xây
Trang 20dựng báo cáo truyền thống chỉ có thể mô tả những gì có trong cơ sở dữ liệu thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra được các giả thuyết Ngoài ra, sử dụng OLAP còn giúp phân tích tổng hợp dữ liệu, đưa ra kết quả bằng các báo cáo hoặc bảng biểu trực quan Khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá dữ liệu Đây
là một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học cũng như yêu cầu trong thực tiễn Các kết quả thu được mang nhiều tính dự báo, dự đoán, dùng trong việc xây dựng kế hoạch, chiến lược
Mô hình xây dựng kho dữ liệu
Xây dựng lược đồ mô hình dữ liệu là không có câu trả lời đúng cho mọi tình huống Mô hình dữ liệu kho dữ liệu có tính chủ đề, phụ thuộc vào công việc nghiệp vụ và các vấn đề nảy sinh
Các lược đồ xây dựng mô hình kho:
Sơ đồ hình sao
Sơ đồ hình sao được đưa ra lần đầu tiên bởi Dr Ralph Kimball [25] như là một lựa chọn thiết kế cơ sở dữ liệu cho kho dữ liệu Nó được gọi là sơ đồ hình sao bởi vì các sự kiện nằm ở trung tâm của mô hình và được bao quanh bởi các phạm vi liên quan, rất giống với các điểm của một ngôi sao Sơ đồ hình sao cho phép một hệ thống đối tượng có thể kết nối với nhiều đối tượng khác Mô hình này thể hiện cách nhìn của người sử dụng
về nhiều vấn đề trong nghiệp vụ
Trong sơ đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu:
Các sự kiện được tổ chức thành bảng sự kiện
Phạm vi, hay các chiều của dữ liệu, được tổ chức thành các bảng chiều
Hình 2.2 mô tả về một ví dụ sơ đồ hình sao
Hình 2.2 Sơ đồ hình sao
Trang 21Ƣu điểm của lƣợc đồ hình sao:
Trực quan, đơn giản, phù hợp với cách mà người sử dụng nhìn nhận và sử dụng dữ liệu
Dễ dàng truy vấn dữ liệu và hỗ trợ tối đa các loại truy vấn
Khi sử dụng lược đồ hình sao có thể dẫn đến việc dư thừa dữ liệu, chính việc phi chuẩn hóa này đã tránh được việc phải nối nhiều bảng trong quá trình xử
lý, điều này giúp làm giảm thời gian thực hiện truy vấn
Lƣợc đồ dữ liệu bông tuyết
Lược đồ này là mở rộng của lược đồ hình sao Khi một bảng chiều trở lên phức tạp chứa các quan hệ dữ liệu thì có thể tách thành nhiều bảng Các bảng được tách có quan hệ với bảng chiều tạo lên hình dạng bông tuyết Công việc này cũng chính là chuẩn hóa dữ liệu cho bảng chiều để giảm sự dư thừa dữ liệu Bảng đã được chuẩn hóa thì sẽ dễ quản lý
và tiết kiệm không gian lưu trữ Tuy nhiên, sơ đồ bông tuyết có thể giảm hiệu quả khi truy vấn dữ liệu, vì có thể sẽ phải sử dụng nhiều phép kết nối hơn khi thực thi một truy vấn
Do vậy, khả năng hoạt động của hệ thống có thể bị giảm sút
Hình 2.3 Sơ đồ bông tuyết Tùy theo thực tế mà ta lựa chọn lược đồ hình sao hay bông tuyết Việc lựa chọn được cân nhắc giữa hai yếu tố: thời gian đáp ứng truy vấn và mức độ kiểm soát tính chặt chẽ dữ liệu Lược đồ dạng bong tuyết có thể thích hợp khi dữ liệu bảng chiều trở lên quá lớn và nhiều thuộc tính Tuy sự khác nhau thể hiện rất rõ về mặt lý thuyết nhưng khi thực hiện chúng trong thực tế có thể dẫn tới các kết quả khác hẳn nhau
Sơ đồ kết hợp
Đối với các ứng dụng phức tạp có thể cần nhiều bảng sự kiện, các bảng sự kiện này dùng chung các bảng chiều Sơ đồ kết hợp giữa sơ đồ hình sao dựa trên bảng sự kiện và những bảng chiều không chuẩn hóa theo các chuẩn 1, 2, 3 và sơ đồ hình bông tuyết trong
đó tất cả các bảng chiều đều đã được chuẩn hóa Với sơ đồ loại này chỉ những bảng chiều lớn là được chuẩn hóa còn những bảng khác chứa một khối lượng lớn các cột dữ liệu chưa
Trang 22được chuẩn hóa Trong thực tế sơ đồ này được dùng nhiều hơn vì cơ sở dữ liệu là đa dạng, rất lớn và nhiều chủ đề Sơ đồ này có thể mô hình hóa các chủ đề liên quan với nhau, trong khi kho dữ liệu theo chủ đề là một bộ phận con của kho dữ liệu, chỉ tập trung vào các chủ đề đã chọn
Thiết kế và xây dựng kho dữ liệu
Các nhà quản lý thường có khuynh hướng suy nghĩ theo “nhiều chiều” Ví dụ một giao dịch mua bán :
“Sản phẩm thể loại Action được bán nhiều nhất tại thời điểm nào trong năm, đạt doanh số cao nhất ở quốc gia nào”
Ta có thể hình dung đánh giá xu hướng doanh số của cửa hàng như một khối dữ liệu với các chiều của khối là sản phẩm, khách hàng và thời gian Giao điểm bên trong khối là giao điểm của các cạnh Với mô tả của một sự kiện đánh giá như trên thì độ đo doanh số bán hàng được kết hợp bởi sản phẩm, khách hàng và thời điểm bán (thời gian)
Ví dụ xét trong cùng khoảng tháng 11 sản phẩm ABC có doanh số cao hơn thể loại XYZ Nếu nhìn từ chiều thời gian làm mốc, sau đó tổng hợp thêm dữ liệu từ các chiều khách
hàng và sản phẩm sẽ có thể đưa ra kết quả đánh giá doanh số kinh doanh
Một khối dữ liệu không bắt buộc phải có 3 chiều mà có thể có N chiều, phụ thuộc vào yêu cầu của công việc Các chiều của khối, mà ở đó các mặt hoặc các thực thể tương ứng với những khía cạnh mà công việc ghi nhận Mỗi chiều kết hợp với một bảng chiều
để mô tả cho chiều đó Ví dụ bảng chiều khách hàng thì mô tả về khách hàng đó gồm tên khách hàng, năm sinh, giới tính, thu nhập… Với những chiều đặc biệt như chiều thời gian, hệ thống kho dữ liệu có thể phát sinh tương ứng với bảng chiều dựa trên loại dữ liệu Chiều thời gian trong thực tế có ý nghĩa đặc biệt đối với việc hỗ trợ cho các khuynh
hướng phân tích
Hình 2.4 Ví dụ về mô hình dữ liệu 3 chiều
Trang 232.1.2 Tổng quan về khai phá dữ liệu
Khái niệm về khai phá dữ liệu
Công nghệ khai phá dữ liệu được coi là dạng tiến hóa mới của công nghệ cơ sở dữ liệu bắt đầu từ cuối những năm 1980 và không ngừng được phát triển về bề rộng và chiều sâu Khai phá dữ liệu là một quá trình trích xuất thông tin có mối quan hệ hoặc có mối tương quan nhất định từ một kho dữ liệu lớn nhằm mục đích dự đoán các xu thế, các hành vi trong tương lai, hoặc tìm kiếm những tập thông tin hữu ích mà bình thường không thể nhận diện được Trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá tri thức trong cơ sở dữ liệu Quá trình này bao gồm các bước sau [4]:
Bước 1: Làm sạch dữ liệu Loại bỏ nhiễu hoặc các dữ liệu không thích hợp;
Bước 2: Tích hợp dữ liệu: Tích hợp dữ liệu từ các nguồn khác nhau như: Cơ sở
dữ liệu, kho dữ liệu, file văn bản ;
Bước 3: Chọn dữ liệu: Ở bước này, những dữ liệu liên quan trực tiếp đến nhiệm
vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu;
Bước 4: Chuyển đổi dữ liệu: Trong bước này, dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp;
Bước 5: Khai phá dữ liệu: Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu;
Bước 6: Đánh giá mẫu: Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép đo;
Bước 7: Mô tả tri thức: Sử dụng các kĩ thuật trình diễn và trực quan hoá dữ liệu
để biểu diễn tri thức khai phá được cho người sử dụng
Trang 24Hình 2.5 Mô tả chi tiết các bước của quá trình khám phá tri thức
Khuynh hướng phát triển của lĩnh vực khai phá dữ liệu
Trang web http://www.kdnuggets.com/ do Piatetsky – Shapiro chủ trì là trong những trang web điển hình về lĩnh vực khai phá dữ liệu và phát hiện tri thức trong CSDL Nhiều thông tin cập nhật nhất về lĩnh vực được thông báo tại trang web này, đặc biệt là các kết quả thăm dò, cung cấp một số thông tin hữu ích liên quan tới khuynh hướng phát triển của lĩnh vực khai phá dữ liệu Một số nội dung cụ thể về khuynh hướng nghiên cứu của khai phá dữ liệu được đề cập dưới dạng bài toán thách thức trong các hội nghị khoa học về khai phá dữ liệu[4] Xu hướng phát triển khai phá dữ liệu đã và đang là các nội dung nghiên cứu có tính thời sự, rất đa dạng và phong phú
Vì sao cần khai phá dữ liệu
Một số hướng tiếp cận chính của khai phá dữ liệu
Hiện nay, ứng dụng của KPDL rất đa dạng và rộng lớn, từ kinh doanh, chống gian lận, giảm giá thành sản xuất, tăng doanh thu, phân tích hành vi sử dụng người dùng internet để mục tiêu đúng nhu cầu, đúng đối tượng hay ứng dụng hỗ trợ ra quyết định, nhiều lĩnh vực khác nhau v.v Trong đó thương mại điện tử không phải ngoại lệ
Một số hướng tiếp cận chính của khai phá dữ liệu là:
Trang 25 Phân lớp và dự đoán (classification & prediction) : xếp đối tượng vào một trong các lớp đã biết trước Ví dụ : phân lớp loại cước hoặc loại dịch vụ dựa trên số máy bị gọi của cuộc gọi, phân lớp khu vực dựa trên số máy chủ gọi, phân lớp giờ cao điểm, thấp điểm dựa trên giờ bắt đầu đàm thọai.v.v
Hướng tiếp cận phân lớp có giám sát (supervised learning) thường sử dụng một số
kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network) v.v
Luật kết hợp (association rules) : là dạng luật biểu diễn tri thức ở dạng tương đối đơn giản Luật kết hợp có khả năng ứng dụng trong nhiều lĩnh vực khác nhau trong đó có lĩnh vực viễn thông
Khai thác mẫu tuần tự (sequential/temporal patterns): Tương tự như khai thác luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Một luật mô tả mẫu tuần tự có dạng tiêu biểu X -> Y, phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện biến cố
Y Hướng tiếp cận này có tính dự báo cao
Phân cụm (clustering/segmentation) : Sắp xếp các đối tượng theo từng cụm (số lượng và tên của cụm chưa được biết trước) Các đối tượng được gom cụm sao cho mức
độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất Phân cụm còn được gọi là học không có giám sát (unsupervised learing)
Trong phạm vi luận văn này, chúng tôi đã sử dụng kho dữ liệu giao dịch bán hàng trực tuyến để thực hiện một số bài toán về khai phá dữ liệu Một số vấn đề được đưa ra cần giải quyết bằng các mô hình khai phá dữ liệu như: Dự đoán xu hướng doanh số bán hàng của năm tiếp theo, dự đoán xu hướng doanh số của loại sản phẩm trong một thị trường nào đó từ đó có thể biết thời điểm nào trong năm khách hàng có xu hướng mua nhiều, phân tích giỏ hàng dựa vào lịch sử mua bán của những khách hàng trước để đưa ra gợi ý nên mua gì cho những khách hàng mới, hoặc tìm ra luật về hành vi mua hàng nếu mua thể loại A thì có thể sẽ nên mua thể loại B
2.2 Giới thiệu bộ công cụ BI trong hệ quản trị Ms Sql Server 2008
Nhằm xác lập chỗ đứng trong thị trường giải pháp thông tin doanh nghiệp
(Business Intelligence - BI), Microsoft SQL Server 2008 cung cấp các công cụ có khả năng quản lý báo cáo và phân tích đủ mọi cấp độ, tích hợp chặt chẽ với Microsoft Office cùng với cơ sở hạ tầng mạnh, linh hoạt và có thể mở mở rộng, cho phép đưa thông tin doanh nghiệp đến tất cả nhân viên, giúp ra quyết định nhanh hơn và tốt hơn Giải pháp BI
Trang 26của Microsoft được xây dựng trên nền tảng dữ liệu đáp ứng cho việc quản lý dữ liệu, phân tích và báo cáo, đồng thời cung cấp các công cụ mạnh mẽ cho phép người dùng cuối truy cập và phân tích thông tin doanh nghiệp Trung tâm của giải pháp này là một nền tảng dịch vụ dữ liệu hoàn chỉnh có khả năng: [9]
Hợp nhất việc lưu trữ và truy cập cho tất cả dữ liệu
Xây dựng và quản lý các giải pháp BI phức tạp
Mở rộng phạm vi giải pháp BI đến tất cả nhân
viên
Trong hệ quản trị cơ sở dữ liệu SQL Server
2008 có bộ công cụ hỗ trợ và phát triển các ứng dụng
BI bao gồm dịch vụ báo cáo và dịch vụ tích hợp, xây
dựng kho dữ liệu nhưng nền tảng là dịch vụ phân tích
Business Intelligence Development Studio (BIDS) là
công cụ cho phép tổ chức quản lý và khai thác kho dữ
liệu (Xử lý phân tích trực tuyến) cũng như xây dựng các mô hình khai phá dữ liệu rất dễ
sử dụng và hiệu quả của Microsoft
2.3.1 Dịch vụ tích hợp (Integration services)
SQL Server 2008 Integration Services (SSIS) cung cấp những tính năng vận hành cần thiết để xây dựng những ứng dụng tích hợp dữ liệu mức toàn tổ chức Dễ dàng tích hợp các nguồn dữ liệu vào các loại dữ liệu đích khác nhau
2.3.2 Dịch vụ báo cáo (Reporting service)
Báo cáo là một thành phần không thể thiếu đối với bất kỳ giải pháp BI nào và người dùng của doanh nghiệp thường có xu hướng tăng các báo cáo phức tạp SQL Server Reporting Services cung cấp các tính năng cho phép dễ dàng hơn trong việc xây dựng các giải pháp báo cáo:
Giao diện phát triển báo cáo dựa trên Visual Studio trong Business Intelligence Development Studio cho phép các chuyên gia phát triển phần mềm có thể sử dụng để xây dựng, gỡ rối và triển khai các báo cáo
Công cụ phát triển báo cáo tập trung vào nội dung doanh nghiệp có tên là Report Builder, với công cụ này, người dùng trong doanh nghiệp có thể sử dụng nó để tạo và triển khai các báo cáo
Có thể hiển thị dữ liệu bằng các bảng, ma trận, danh sách và các biểu đồ
Dịch vụ báo cáo của BI trong hệ quản trị cơ sở dữ liệu SQL Server cho phép các đơn vị truy cập, định dạng và phân phối thông tin dễ dàng đến nhân viên và các đối tác
Trang 27 Linh hoạt trong triển khai từ những báo cáo đơn đến các báo cáo dạng web
tích hợp trong kinh doanh, quản lý của đơn vị
Hiển thị kết quả: Table (bảng), matrix, list, chart,…
Xuất dữ liệu linh hoạt ra PDF, HTML, Microsoft Excel, Rich Text Format,
hay văn bản thuần túy
Tự động hỗ trợ thiết kế báo cáo dễ dàng và nhanh chóng
Tích hợp với SharePoint
2.3.3 Dịch vụ phân tích (Analysis Services)
Dịch vụ phân tích của BI chứa các tính năng và công cụ cần thiết để tạo lập các giải pháp khai phá dữ liệu phức tạp
Bộ thiết kế khai phá dữ liệu dùng để tạo, quản lý và khám phá các mô hình khai phá dữ liệu, sau đó tạo các dự báo bằng cách sử dụng các mô hình này
Khai phá dữ liệu giúp chúng ta tạo lập các quyết định thông minh về các vấn đề khó khăn của doanh nghiệp Sử dụng các công cụ khai phá dữ liệu trong dịch vụ phân tích giúp nhận ra các mẫu trong dữ liệu, do đó xác định được tại sao lại xảy ra vấn đề đó, cho phép tạo ra các luật và kiến nghị, để có thể dự báo điều gì sẽ xảy ra trong tương lai Không cần phải tạo kho dữ liệu để khai phá dữ liệu; có thể dùng dữ liệu bảng từ nhà cung cấp bên ngoài, bảng tính, và thậm chí là file văn bản
Dịch vụ phân tích cung cấp một loạt các công cụ mà bạn có thể sử dụng để xây dựng các giải pháp khai phá dữ liệu trên dữ liệu quan hệ và dữ liệu khối
Khi mô hình khai phá dữ liệu được hoàn tất, có thể triển khai (deploy) trên máy chủ khác để người dùng có thể thực hiện các phân tích và dự báo bằng cách sử dụng các
mô hình đó Có thể truy cập các mô hình khai phá dữ liệu thông qua ứng dụng khách (như Web services), …
2.3 Một số kỹ thuật khai phá dữ liệu
Các giải thuật được sử dụng trong Microsoft SQL Server Analysis Services là tập con của nhiều giải thuật khai phá dữ liệu khác
Các nhóm thuật toán khai phá dữ liệu [9]
SQL Server Analysis Services cung cấp công cụ phân tích và khai thác dữ liệu dựa trên cơ sở 5 giải thuật Data Mining sau:
Thuật toán phân loại (Classification Algorithm) – dự đoán ra một hoặc nhiều giá trị biến rời rạc, dựa trên các thuộc tính khác của tập dữ liệu Điển hình là thuật toán
cây quyết định – Microsoft Decision Trees Algorithm
Trang 28 Thuật tốn hồi quy (Regression Algorithm) – dự đốn một hoặc nhiều biến giá trị liên tục, như lợi nhuận và giá trị thua lỗ, dựa trên các thuộc tính dữ liệu khác trong tập
dữ liệu Điển hình là thuật tốn chuỗi thời gian – Microsoft Time Series Algorithm
Thuật tốn phân đoạn (Segmentation Algorithm) – phân chia dữ liệu thành nhiều nhĩm gồm các thành phần cĩ thuộc tính tương tự nhau Thuật tốn điển hình là Microsoft Clustering Algorithm
Thuật tốn kết hợp (Assocication Algorithm) – tìm sự tương quan giữa các thuộc tính trong củng tập dữ liệu Ứng dụng phổ biến nhất của thuật tốn này là xây dựng các luật tương quan, phân tích giỏ hàng Thuật tốn điển hình là Microsoft Assocciation Algorithm
Thuật tốn phân tích chuỗi (Sequence Analysis Allgorithm) – kỹ thuật phân tích chuỗi hoặc mảng dữ liệu trong tập dữ liệu Điển hình cho loại thuật tốn này là
Microsoft Sequence Clustering Algorithm
Bảng 2.6 Ứng dụng của các giải thuật khai phá trong Sql Server 2008
Trong phạm vi luận văn này chúng tơi sẽ dùng hai kỹ thuật đĩ là:
Microsoft Time series: Dự đốn xu hướng
Microsoft Association Rule: Phân tích giỏ hàng
Dự đốn các giá trị thuộc tính cĩ tính rời rạc
Ví dụ: Dự đốn người nhận mail cĩ khả năng mua
sản phẩm trong một chiến dịch gửi mail PR
Microsoft Decision Tree Algorithm Microsoft Nạve Bayes Algorithm Microsoft Clustering Algorithm Microsoft Neural Network Algorithm
Dự đốn các thuộc tính cĩ tính liên tục
Ví dụ: Dự đốn hoạt động bán hàng các năm tới
Microsoft Decision Tree Algorithm Microsoft Time Series Algorithm
Dự đốn chuỗi các tác vụ (thuộc trình tự)
Ví dụ: Phân tích chuỗi các hoạt động của người
Ví dụ: Phân đoạn dữ liệu thành các nhĩm để nắm rõ
hơn mối quan hệ giữa các thuộc tính
Microsoft Clustering Algorithm Microsoft Sequence Clustering Algorithm
Trang 292.3.1 Thuật toán hồi quy tự động (Auto Regression Algorithm)
a Khái niệm
Hồi quy tự động là một kỹ thuật trong việc xử lý dãy thời gian Một quá trình hồi quy tự động là một quá trình mà các giá trị x và thời gian (xt) là một hàm của các giá trị của x tại thời gian trước Ví dụ:
Xt = f(Xt-1 , Xt-2, Xt-3, …, Xt-n) + 𝜺t
Trong đó xt là một dãy thời gian và n là thứ tự của hồi quy tự động, n thường nhỏ hơn độ dài dãy thời gian Thành phần cuối cùng 𝜺 miêu tả độ nhiễu (noise) [23]
b Thuật toán Microsoft Time Series
Một dãy thời gian bao gồm một chuỗi các dữ liệu được thu thập một cách liên tiếp theo trục tăng của thời gian hay theo một trật tự nào đó Sự tăng về mặt thời gian trong một dãy thời gian có thể là rời rạc hoặc liên tục Mục đích của việc thu thập dữ liệu theo thời gian là để dự báo trước, hoặc đưa ra các dự đoán về các giá trị trong tương lai
Thuật toán Microsoft Time Series cung cấp các thuật toán hồi quy được tối ưu hóa cho việc dự báo các giá trị liên tục theo thời gian, giống như doanh số bán hàng theo từng năm Mô hình Microsoft Time Series có thể dự đoán xu hướng dựa trên bộ dữ liệu lịch sử Trong Sql Server 2008 thuật toán Microsoft Time Series sử dụng cả thuật toán ARTXP và
ARIMA ARTXP là viết tắt của “Auto Regression Trees with Cross Predict”, được dùng
như cây hồi quy tự động để dự đoán tương lai dựa trên dữ liệu lịch sử bao gồm lịch sử từ
các giai đoạn khác nhau Còn ARIMA là viết tắt của “Auto Regressive Integrated Moving
Average”, được hiểu như thuật toán hồi quy tự động có tiềm năng cho tính không ổn định
trong các dự đoán có chu kỳ dài Vậy bạn sẽ phải quyết định chọn thuật toán nào cho chu
kỳ ngắn, thuật toán toán nào cho chu kỳ dài thiếu ổn định? Câu trả lời là không Thuật toán Time Series trong Sql Server 2008 mặc định được xây dựng dùng cả hai mô hình với hai thuật toán Thuật toán này tạo ra những mô hình được sử dụng để dự đoán các biến tiếp theo Ví dụ sử dụng thuật toán này để dự đoán bán hàng và lợi nhuận của năm tiếp theo dựa vào dữ liệu quá khứ
Các tham số trong thuật toán Microsoft Time Series:
Minimum_Support: được sử dụng để xác định số lượng các trường hợp nhỏ nhất của mỗi node lá
Complaxity_Penalty: Được sử dụng để điều khiển sự lớn lên của cây Nó giá trị trong khoảng [0,1] Giá trị này càng nhỏ, cây thu được càng lớn
Historical_Model_Count: được sử dụng số lượng các mô hình lịch sử được xây dựng
Trang 30 Historical_Model_Gap: được sử dụng để xác định khoảng thời gian giữa các mô hình lịch sử
Periodicity_Hint: cung cấp gợi ý cho thuật toán về thông tin chu kỳ của dữ liệu
Auto_Detect_Periodicity: nó là một số thực trong khoảng [0,1] để xác định chu kỳ
Maximum_Series_Value: xác định giới hạn trên của các giá trị được dự báo
Minimum_Series_Value: xác định giới hạn dưới của các giá trị được dự báo
Missing_Value_Substitution: xác định phương thức để lấp đầy các giá trị còn thiếu trong tập dữ liệu lịch sử
2.3.2 Luật kết hợp (Association Rule)
a Bài toán thực tế
Chúng ta hãy bắt đầu phân tích một ví dụ khá đặc trưng về khai phá mẫu phổ biến,
đó là phân tích giỏ hàng thương mại trong CSDL giao dịch về lịch sử bán hàng tại siêu thị Việc phát hiện ra mối tương quan trong một số lượng lớn các bản ghi về giao dịch thương mại được thu thập và lưu trữ hàng ngày giúp hỗ trợ tiến trình đưa ra quyết định của nhiều doanh nghiệp, như trong thiết kế mẫu hàng hóa, tiếp thị chéo và phân tích thói quen mua sắm của khách hàng Khám phá những mối quan hệ như vậy có thể giúp những người bán lẻ phát triển các chiến lược tiếp thị bằng cách tiếp cận một cách thấu đáo các danh mục mặt hàng được khách hàng mua thường xuyên
Và làm thế nào để biết được một khách hàng đang mua sữa, họ có khả năng sẽ mua bánh mỳ trong cùng một lần đến siêu thị? Thông tin này có thể làm tăng doanh thu của cửa hàng bán lẻ bằng cách giúp những nhà bán lẻ tiếp thị các mặt hàng một cách chọn lọc
và lên kế hoạch trưng bầy sản phẩm ở những vị trí thích hợp
Giả sử bạn là giám đốc một siêu thị, bạn sẽ muốn tìm hiểu về thói quen mua sắm của khách hàng của bạn Bạn tự hỏi: “Đâu là những mặt hàng, những nhóm mặt hàng mà các khách hàng thương xuyên mua cùng nhau trong một chuyến đi đến siêu thị?” Để trả lời câu hỏi, việc phân tích giỏ hàng được thực hiện trên dữ liệu bán lẻ của những giao dịch khách hàng tại quầy hàng của bạn Bạn có thể sử dụng kết quả này để xây dựng kế hoạch, chiến lược cho tiếp thị hoặc quảng cáo hoặc thiết kế một catalog mới Trường hợp khác, việc phân tích giỏ hàng giúp bạn bài trí hàng hóa cho quầy hàng Trong chiến lược tiếp thị bán hàng, các mặt hàng thường xuyên mua cùng nhau thì đặt gần vị trí với nhau,
để khuyến khích việc mua các mặt hàng trong cùng một nhóm hàng Nếu khách hàng mua một chiếc máy giặt thì tại thời điểm đó họ cũng quan tâm đến xà phòng giặt máy, do đó việc đặt mặt hàng bột giặt gần mặt hàng máy giặt, sẽ làm tăng doanh số bán hàng của cả hai mục hàng này
Trang 31Như vậy, có thể kết luận rằng, khai phá mẫu phổ biến là quá trình tìm kiếm mối
quan hệ tuần hoàn, lặp đi lặp lại trong một cơ sở dữ liệu
Từ ví dụ trên, thông tin khách hàng mua máy giặt thì cũng có xu hướng mua xà phòng giặt máy tại cùng một thời điểm được mô tả trong luật kết hợp dưới đây:
Máy giặt => Xà phòng giặt [độhỗtrợ= 2%, độtin cậy = 60%]
Độ hỗ trợ (support) và độ tin cậy (confidence) là hai độ đo hấp dẫn của luật Chúng lần lượt phản ánh sự hữu ích và độ chắc chắn của luật khai phá Độ hỗ trợ bằng 2% có nghĩa là theo phân tích cho thấy: 2% trong những giao dịch, máy giặt và xà phòng được mua cùng nhau Độ tin cậy bằng 60% có nghĩa là trong các giao dịch, nếu khách hàng mua máy giặt thì cũng mua xà phòng giặt máy Thông thường những luật kết hợp được
xét đến nếu chúng thỏa mãn cả ngưỡng hỗ trợ tối thiểu (minimum support threshold) và
ngưỡng tin cậy tối thiểu (minimum confidence threshold)
b Khái niệm luật kết hợp
Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule - AR) là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu Nội dung cơ bản của luật kết hợp được tóm tắt như dưới đây [14]
Cho cơ sở dữ liệu gồm các giao dịch T là tập các giao dịch t1, t2, …, tn
T = {t1, t2, …, tn} T gọi là cơ sở dữ liệu giao dịch (Transaction Database)
Mỗi giao dịch ti bao gồm tập các đối tượng I (gọi là itemset)
I = {i1, i2, …, im} Một itemset gồm k items gọi là k-itemset
Mục đích của luật kết hợp là tìm ra sự kết hợp (association) hay tương quan (correlation)
giữa các items Những luật kết hợp này có dạng X =>Y
Trong Basket Analysis, luật kết hợp X =>Y có thể hiểu rằng những người mua các mặt hàng trong tập X cũng thường mua các mặt hàng trong tập Y (X và Y gọi là itemset)
Ví dụ, nếu X = {Apple, Banana} và Y = {Cherry, Durian} và ta có luật kết hợp X
=>Y thì chúng ta có thể nói rằng những người mua Apple và Banana thì cũng thường mua Cherry và Durian
Theo quan điểm thống kê, X được xem là biến độc lập (Independent variable) còn
Y được xem là biến phụ thuộc (Dependent variable)
Độ hỗ trợ (Support) và độ tin cây (Confidence) là 2 tham số dùng để đo lường luật kết hợp
Trang 32Độ hỗ trợ (Support) của luật kết hợp X =>Y là tần suất của giao dịch chứa tất cả
các items trong cả hai tập X và Y Ví dụ, support của luật X =>Y là 5% có nghĩa là 5%
các giao dịch X và Y được mua cùng nhau
Độ tin cậy (Confidence) của luật kết hợp X =>Y là xác suất xảy ra Y khi đã biết X
Ví dụ độ tin cậy của luật kết hợp {Apple =>Banana} là 80% có nghĩa là 80% khách hàng
mua Apple cũng mua Banana
Để thu được các luật kết hợp, ta thường áp dụng 2 tiêu chí: minimum support
(min_sup) và minimum confidence (min_conf)
Các luật thỏa mãn có support và confidence thỏa mãn (lớn hơn hoặc bằng) cả Minimum support và Minimum confidence gọi là các luật mạnh (Strong Rle)
Minimum support và Minimum confidence gọi là các giá trị ngưỡng (threshold) và
phải xác định trước khi sinh các luật kết hợp
c Micorosoft Association (Luật kết hợp)
The Microsoft Association cũng thuộc về họ các thuộc toán tìm luật kết hợp theo thuật toán Apriori tức là việc tìm các luật kết hợp sẽ gồm hai pha chính là tìm tập các mục chọn thường xuyên sau đó dùng tập các mục chọn thường xuyên để sinh ra các luật kết hợp Ngoài ra còn có một khái niệm quan trọng khác liên quan trực tiếp đến việc sử dụng thuật toán kết hợp Microsoft
Độ quan trọng (I)
Độ quan trọng của một tập các mục chọn được định nghĩa như sau:
I({A,B}) = P(A,B)/(P(A)*P(B)) Nếu I = 1 thì A và B là hai mục chọn độc lập Từ việc mua sản phẩm A và việc mua sản phẩm B là hai sự kiện độc lập
Nếu I<1 thì A và B có mối liên quan với nhau một cách tiêu cực Tức là khi khách hàng mua sản phẩm A thì không có khả năng anh ta sẽ mua sản phẩm B
Nếu I>1 thì A và B có mối liên quan với nhau một cách tích cực Tức là khi khách hàng mua sản phẩm A thì khả năng anh ta sẽ mua sản phẩm B
Trong thuật toán kết hợp Microsoft còn sử dụng khái niệm xác suất (Probability) thay cho độ tin cậy (Confidence)
Ngoài ra còn có một số danh sách tham số:
Trang 33 Minimum_Support: là một tham số giới hạn Nó xác định tần suất tối thiểu cho tập các mục chọn,nếu tập các mục chọn có tần suất lớn hơn hoặc bằng Minimum_Support thì tập đó là thường xuyên Minimum_Support có miền giá trị
từ 0 đến 1, giá trị mặc định của nó là 0.03 Nếu Minimum_Support được thiết lập với giá trị lơn hơn 1 lúc đo ta hiểu Minimum_Support chính là số lần xuất hiện của tập các mục chọn
Maximum_Support: là một tham số giới hạn Nó xác định tần suất tối đa cho các mục chọn thường xuyên Maximum_Support có miền giá trị từ 0 đến 1, giá trị mặc định là 0,03 Nếu Maximum_Support được thiết lập giá trị lớn hơn 1 lúc đó ta hiểu Maximum_Support chính là số lần xuất hiện của tập các mục chọn
Minimum_Probability: là một tham số giới hạn Nó xác định xác suất tối thiểu cho một luật kết hợp Miền giá trị của nó từ 0 đến 1, giá trị mặc định là 0,04
Minimum_Importance: là tham số giới hạn cho các luật kết hợp Các luật với độ quan trọng nhỏ hơn Minimum_Importance sẽ bị loại
Maximum_Itemset_Size: xác định kích thước tối đa của tập các mục chọn Giá trị mặc định là 0, tức không có giới hạn về kích thước của tập các mục chọn
Minimum_Itemset_Size: xác định kích thước tối thiểu của tập các mục chọn Giá trị mặc định là 0
Maximum_Itemset_Count: xác định số lượng tối đa của tập các mục chọn Nếu không được xác định giá trị, thuật toán sẽ sinh ra tất cả tập các mục chọn dựa vào tham số Minimum_Support
Optimized_Prediction_Count: được sử dụng để số lượng các mục chọn để nghị cho việc dự báo được yêu cầu bởi các truy vấn Giá trị mặc định là 2
Kết luận
Trong chương này chúng tôi đã giới thiệu một số khái niệm, định nghĩa và kiến trúc của BI Việc sử dụng và tổ chức dữ liệu đa chiều trong kho nhằm giúp cho việc phân tích dự đoán đặc trưng của doanh nghiệp/tổ chức hiệu quả hơn Cùng với việc tích hợp một số kỹ thuật khai phá dữ liệu vào kho dữ liệu đã làm tăng tính khả dụng cũng như hiệu quả của công nghệ BI Trong chương tiếp theo chúng tôi sẽ trình bày nội dung phân tích dựa trên BI trong bài toán thương mại điện tử