1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử

66 486 2

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 66
Dung lượng 2,83 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung chính của luận văn trình bày những tìm hiểu của mình về Business Intelligence trong thương mại điện tử và đưa ra phương pháp xây dựng mô hình dự báo xu hướng, phân tích giỏ hàng

Trang 1

NGUYỄN THỊ THỦY

ỨNG DỤNG BUSINESS INTELLIGENCE SQL SERVER 2008

TRONG THƯƠNG MẠI ĐIỆN TỬ

LUẬN VĂN THẠC SĨ

Hà Nội - 2014

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

-o0o -

NGUYỄN THỊ THỦY

ỨNG DỤNG BUSINESS INTELLIGENCE SQL SERVER 2008

TRONG THƯƠNG MẠI ĐIỆN TỬ

Ngành : Công nghệ thông tin

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan kết quả đạt được trong luận văn là sản phẩm của riêng cá nhân tôi, không sao chép lại của người khác Trong toàn bộ nội dung của luận văn, những điều

đã trình bày là của cá nhân tôi hoặc là được tôi tổng hợp từ nhiều nguồn tài liệu Tất cả các nguồn tài liệu tham khảo có xuất xứ rõ ràng và được trích dẫn hợp pháp

Tôi xin chịu toàn bộ trách nhiệm và chịu mọi hình thức kỷ luật theo quy định cho lời cam đoan của tôi

Hà Nội, tháng 10 năm 2014

Nguyễn Thị Thủy

Trang 4

LỜI CẢM ƠN

Lời đầu tiên tôi xin gửi lời cảm ơn chân thành nhất tới PGS.TS.Nguyễn Hà Nam, Đại học Công Nghệ, Đại học Quốc Gia Hà Nội - đã dành rất nhiều thời gian quý báu để tận tình hướng dẫn, chỉ bảo và định hướng cho tôi trong suốt thời gian hoàn thành luận văn

Tôi xin bày tỏ lòng biết ơn tới các thầy cô giáo Khoa Công nghệ thông tin -

Trường Đại học Công nghệ- ĐHQGHN đã truyền đạt cho tôi những kiến thức, kinh

nghiệm quý báu trong suốt thời gian học tập tại trường

Tôi xin chân thành cảm ơn bạn bè và gia đình tôi, những người thân yêu luôn luôn

ở bên khuyến khích, động viên và ủng hộ tôi trong học tập cũng như trong cuộc sống

Do thời gian có hạn nên luận văn này không thể tránh khỏi những thiếu sót Rất mong nhận được sự đóng góp ý kiến của các thầy cô giáo, bạn bè, các quý vị quan tâm tới vấn đề này để luận văn được hoàn thiện hơn

Trân trọng cảm ơn!

Hà Nội, tháng 10 năm 2014

Nguyễn Thị Thủy

Trang 5

MỤC LỤC

DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ x

BẢNG CÁC CHỮ VIẾT TẮT xii

LỜI MỞ ĐẦU 1

Chương 1 Giới thiệu 3

1.1 Tổng quan về Business Intelligence 3

1.2 Một số hệ thống BI đang được ứng dụng 5

1.3 Hướng tiếp cận 6

1.3.1 Ứng dụng Business Intellegence trong thương mại điện tử 6

1.3.2 Hướng nghiên cứu của đề tài 8

1.3.3 Đề tài đã thực hiện được một số nội dung sau 8

Chương 2 Các khái niệm liên quan đến Business Intelligence 9

2.1 Cơ sở lý thuyết 9

2.1.1 Kho dữ liệu 9

2.1.2 Tổng quan về khai phá dữ liệu 14

2.2 Giới thiệu bộ công cụ BI trong hệ quản trị Ms Sql Server 2008 16

2.3.1 Dịch vụ tích hợp (Integration services) 17

2.3.2 Dịch vụ báo cáo (Reporting service) 17

2.3.3 Dịch vụ phân tích (Analysis Services) 18

2.3 Một số kỹ thuật khai phá dữ liệu 18

2.3.1 Thuật toán hồi quy tự động (Auto Regression Algorithm) 20

2.3.2 Luật kết hợp (Association Rule) 21

Chương 3 Ứng dụng BI Sql Server trong bài toán thương mại điện tử 25

3.1 Bài toán thực tế và giải pháp giải quyết 25

3.2 Mô tả và chuyển đổi dữ liệu 25

3.3 Xây dựng kho dữ liệu 26

3.4 Xây dựng các báo cáo biểu diễn dữ liệu bằng Ms Reporting Service 28

3.4.1 Báo cáo tổng hợp kinh doanh 29

3.4.2 Một vài dạng báo cáo động khác 34

3.5 Xây dựng các mô hình khai phá dữ liệu 40

Trang 6

3.5.1 Mô hình khai phá dữ liệu dự đoán xu hướng 40

3.5.2 Mô hình khai phá dữ liệu phân tích giỏ hàng 46

Kết luận – Hướng nghiên cứu 55

Tài liệu tham khảo 56

Trang 7

DANH MỤC BẢNG BIỂU VÀ HÌNH VẼ

Hình 1.1 Mô hình chung của BI 3

Hình 1.2 Thành phần chính hệ thống BI 5

Hình 2.1 Kiến trúc kho dữ liệu 9

Hình 2.2 Sơ đồ hình sao 11

Hình 2.3 Sơ đồ bông tuyết 12

Hình 2.4 Ví dụ về mô hình dữ liệu 3 chiều 13

Hình 2.5 Mô tả chi tiết các bước của quá trình khám phá tri thức 15

Bảng 2.6 Ứng dụng của các giải thuật khai phá trong Sql Server 2008 19

Hình 3.1 Cơ sở dữ liệu thương mại điện tử 26

Bảng 3.2 Mô tả cơ sở dữ liệu thương mại điện tử 27

Hình 3.3 Kho dữ liệu giao dịch mua bán 27

Hình 3.4 Báo cáo tổng hợp kinh doanh 29

Hình 3.5 Biểu đồ báo cáo tổng hợp doanh thu 30

Hình 3.6 Thay đổi group, series trong Reporting service 30

Hình 3.7 Biểu đồ báo cáo tổng hợp theo các quý của năm 31

Hình 3.8 Biểu đồ báo cáo tổng hợp giao dịch mua bán theo độ tuổi và giới tính 32

Hình 3.9 Biểu đồ báo cáo doanh số bán hàng theo đặc tính khách hàng 33

Hình 3.10 Biểu đồ mối liên hệ giữa sở thích và độ tuổi 34

Hình 3.11 Báo cáo số lượng sản phẩm đã bán theo danh mục sản phẩm 35

Hình 3.12 So sánh số lượng khách hàng theo tuần của 2 tháng 36

Hình 3.13 Biểu đồ so sánh số lượng khách hàng theo tháng của năm 36

Hình 3.14 Các tham số trong báo cáo 37

Hình 3.15 Báo cáo kinh doanh theo khu vực 37

Hình 3.16 Biểu đồ số lượng khách hàng theo loại sản phẩm và giới tính 38

Hình 3.17 Báo cáo số lượng tiêu thụ theo thể loại sản phẩm trên từng quốc gia 39

Hình 3.18 Dữ liệu huấn luyện mô hình dự đoán xu hướng kinh doanh 41

Hình 3.19 Biểu đồ dự đoán xu hướng kinh doanh 41

Hình 3.20 Biểu đồ doanh số kinh doanh 42

Hình 3.21 So sánh kết quả dự báo và giá trị thật sự 43

Hình 3.22 Dữ liệu huấn luyện dự đoán xu hướng theo thể loại và vùng 43

Hình 3.23 Biểu đồ dự đoán xu hướng năm tiếp theo theo thể loại và khu vực 44

Hình 3.24 : Kết quả dự báo Time Series dưới dạng bảng 45

Hình 3.25 So sánh kết quả dự đoán và thực tế cho thể loại Action 46

Hình 3.26 Dữ liệu huấn luyện 1 cho mô hình dự đoán phân tích giỏ hàng 47

Hình 3.27 Dữ liệu huấn luyện 2 cho mô hình dự đoán phân tích giỏ hàng 47

Hình 3.28 Mô hình khai phá Microsoft Association Rules 48

Bảng 3.3 Thống kê một số luật từ mô hình 49

Trang 8

Hình 3.29 Rule Tab trong mô hình khai phá Microsoft Association Rules 50

Hình 3.30 Mạng phụ thuộc trong mô hình khai phá Microsoft Association Rules 51

Hình 3.31 Mạng phụ thuộc-2 trong mô hình khai phá Microsoft Association Rules 51

Hình 3.32 Dữ liệu test cho mô hình phân tích giỏ hàng 52

Hình 3.33 Dữ liệu test cho mô hình phân tích giỏ hàng 53

Hình 3.34 Kết quả chạy dữ liệu test qua mô hình phân tích giỏ hàng 53

Hình 3.35 Dữ liệu test mô hình phân tích giỏ hàng 54

Trang 9

ARTXP Auto Regression Trees with Cross Predict

Trang 10

LỜI MỞ ĐẦU

Trong gần hai thập kỷ qua, các hệ thống cơ sở dữ liệu đã đem lại những lợi ích vô cùng to lớn cho nhân loại Cùng với sự phát triển của công nghệ thông tin và ứng dụng của nó trong đời sống- kinh tế- xã hội, lượng dữ liệu thu thập được ngày càng nhiều theo thời gian, làm xuất hiện ngày càng nhiều các hệ thống cơ sở dữ liệu có kích thước lớn

Trong tình hình hiện nay, khi thông tin đang trở thành yếu tố quyết định trong kinh doanh thì vấn đề tìm ra các thông tin hữu ích trong các cơ sở dữ liệu khổng lồ ngày càng trở nên mục tiêu quan trọng của các doanh nghiệp và khai phá dữ liệu dần trở thành thành phần chính để thực thi nhiệm vụ khai phá tri thức Được đánh giá sẽ tạo ra cuộc cách mạng trong thế kỷ 21, khai phá dữ liệu sẽ ngày càng được ứng dụng phổ biến trong các

lĩnh vực kinh tế, xã hội: ngân hàng, truyền thông, quảng cáo, … Theo thống kê năm 2013,

tỉ lệ dân số dùng Internet là 36%, trong đó 57% sử dụng thương mại điện tử để mua sắm online Nếu chỉ tính riêng số liệu của Việt Nam, năm 2011, tỉ trọng thương mại điện tử chiếm 0.25% thị trường, đạt 154 triệu USD Đến cuối 2016, dự kiến tỉ trọng này tăng gần gấp 3 lần, đạt 0.71% với giá trị vốn hoá tăng gấp 6 lần đạt trên 900 triệu USD (tương đương 18,000 tỷ VNĐ) Con số này hoàn toàn trùng khớp với sự phát triển của xu thế bán

lẻ trực tuyến khi Nguyễn Kim đặt kế hoạch doanh số eCommerce năm 2014 là trên 200

tỷ, thegioididong.com là trên 1000 tỷ, FPT Retail là trên 500 tỷ… Bên cạnh đó, sàn TMĐT Sendo.vn vừa tuyên bố sẽ chiếm lĩnh vị trí số 1 trong mảng C2C, hiện tại giao

dịch qua hệ thống của họ (nếu giữ ở mức hiện tại) trên dưới 500 tỷ trong năm 2014 [3]

Có thể thấy thương mại điện tử phát triển nhanh theo xu thế toàn cầu hóa Việc giao dịch thông qua các website thương mại đện tử tạo ra lượng dữ liệu vô cùng lớn Dữ liệu chính

là thông tin về khách hàng cũng như các sản phẩm giao dịch Nếu có thể khai thác nguồn

dữ liệu này thì chúng ta sẽ có một hệ thống thông tin rất giá trị phục vụ cho phát triển thương mại điện tử Do đó nhu cầu xây dựng kho dữ liệu, mô hình khai phá dữ liệu là

thiết yếu cho việc tổng hợp, báo cáo và đưa ra quyết định kinh doanh

Nhằm xác lập chỗ đứng trong thị trường giải pháp thông tin doanh nghiệp (Business Intelligence - BI), Microsoft SQL Server 2008 cung cấp các công cụ có khả năng quản lý báo cáo và phân tích đủ mọi cấp độ, tích hợp chặt chẽ với Microsoft Office, cho phép đưa thông tin doanh nghiệp đến tất cả nhân viên, giúp ra quyết định nhanh hơn

và tốt hơn Với cơ sở hạ tầng mạnh, linh hoạt và có thể mở mở rộng, tích hợp chặt chẽ với Microsoft Office, giải pháp BI trong SQL Server 2008 trở nên linh động và tin cậy đối với

những khách hàng lựa chọn Microsoft

Với lý do trên, luận văn tìm hiểu về các vấn đề, kỹ thuật trong Business Intelligence

và ứng dụng trong thương mại điện tử bằng công cụ Microsoft Sql Server 2008

Trang 11

Nội dung chính của luận văn trình bày những tìm hiểu của mình về Business Intelligence trong thương mại điện tử và đưa ra phương pháp xây dựng mô hình dự báo

xu hướng, phân tích giỏ hàng để nhận biết hành vi mua bán của khách hàng với các kỹ thuật khai phá dữ liệu Microsoft Time Series, Microsoft Association Rule Cấu trúc của

luận văn được chia thành 3 chương như sau:

Chương 1 Giới thiệu

Chương này giới thiệu về BI, hướng tiếp cận của BI và mô tả ngắn gọn hướng nghiên cứu của luận văn

Chương 2 Các khái niệm liên quan đến Business Intelligence

Chương này trình bày cơ sở lý thuyết về kho dữ liệu, khai phá dữ liệu, giới thiệu

bộ công cụ BI Sql Server

Chương 3 Ứng dụng BI Sql Server trong bài toán thương mại điện tử

Chương này trình bày về bài toán thực tế thương mại điện tử, xây dựng kho dữ liệu, xây dựng các báo cáo tổng hợp, báo cáo động, xây dựng mô hình khai phá dữ liệu

Kết luận Tóm tắt các kết quả đạt được

Trang 12

Chương 1 Giới thiệu

1.1 Tổng quan về Business Intelligence

Việc tổng hợp, phân tích thông tin từ những nguồn dữ liệu khác nhau luôn là vấn

đề đáng quan tâm đối với các tổ chức có khối lượng dữ liệu lớn Trong lĩnh vực kinh doanh, lượng dữ liệu về khách hàng, quá trình kinh doanh, biến động thị trường chứa đựng nhiều thông tin hữu ích cho các công ty Nhiều giải pháp khai thác nguồn thông tin này đã được đưa ra Trong đó, Business Intelligence (BI) là một giải pháp mới với nhiều

bộ công cụ hỗ trợ

BI, được hình thành vào giữa những năm 1990, là qui trình và công nghệ mà các doanh nghiệp dùng để kiểm soát khối lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể đưa các các quyết định hiệu quả hơn trong hoạt động kinh doanh của mình Công nghệ BI cung cấp một cách nhìn toàn cảnh hoạt động của doanh nghiệp

từ quá khứ, hiện tại và các dự đoán tương lai Dựa trên các thông tin thu thập được từ khách hàng, với sự hỗ trợ của các công cụ phân tích, BI hỗ trợ phân tích nhằm đưa ra các quyết định, chiến lược kinh doanh tốt hơn Vì vậy một hệ thống BI (BI system) còn được gọi là hệ hỗ trợ quyết đinh (Decision Support System)

Mô hình chung của BI:

Hình 1.1 Mô hình chung của BI

Vậy một hệ thống BI có những lợi ích nào?

 Dễ dàng truy cập vào các dữ liệu

BI có thể thu thập thông tin từ nhiều hệ thống khác nhau từ nhiều vị trí trí địa lý khác nhau trong một tổ chức thông qua quản lý dữ liệu tập trung tại kho dữ liệu, giúp các nhà quản lý truy cập dễ dàng hơn cho báo cáo, kiểm toán và phân tích dự báo, tăng khả

Trang 13

năng quản lý công ty Các dữ liệu được thu thập và được thể hiện trong định dạng dễ hiểu, cho phép ngay cả những người không rành về kỹ thuật vẫn hiểu được việc kinh doanh và

xác định các yếu tố thúc đẩy hoạt động hằng ngày

 Thông tin chính xác hơn

Giải pháp BI có thể loại bỏ những dữ liệu lỗi, thiếu sót hoặc trùng lặp thông tin

Các báo cáo được tạo ra tự động, chính xác và được cập nhật

 Cải thiện việc ra quyết định

Khi phân tích dữ liệu luôn sẵn có và dễ hiểu, các nhà quản lý có thể đưa ra quyết định kinh doanh với thông tin nhanh, sâu sắc và hiệu quả hơn Khi các nhà quản lý có thể truy cập các báo cáo, biểu đồ, đồ thị và phân tích, họ cũng cảm thấy được trao quyền để có biện pháp

chủ động để cải thiện hiệu suất và đảm bảo rằng lợi nhuận kỳ vọng được đáp ứng

 Xác định các vấn đề trong kinh doanh

BI có thể giúp khám phá ra vấn đề trong doanh nghiệp mà trước đây không được kiểm soát, chẳng hạn như hiệu suất kém, dễ dàng hơn Ví dụ, nếu người quản lý thấy có

sự suy giảm của một mục hàng tồn kho đặc biệt, nhưng không thể tìm được điểm trùng khớp với doanh số bán hàng của mục đó Giải pháp BI có thể cho phép anh ta xem xét, đối

chiếu việc mua hàng so với doanh thu để quyết định các điều chỉnh cần thiết trong tổ chức

 Cải thiện phân tích marketing, quan hệ khách hàng

Với giải pháp BI bạn có thể xác định tỷ lệ thành công của quảng cáo, chiến dịch gửi thư trực tiếp và các chương trình khuyến mãi thông qua email Dựa trên hồ sơ của khách hàng bao gồm lịch sử mua bán, hành trình, mối quan tâm và sở thích BI giúp dự đoán nhu cầu của khách hàng và cung cấp các dịch vụ, làm tăng sự hài lòng

Các hoạt động chính của BI (BI Activities)

 Hệ thống hỗ trợ quyết định (Decision support systems)

 Dự báo (Forecasting)

 Báo cáo kho dữ liệu (Reporting data warehouse)

 Lưu trữ dữ liệu (Data store)

 Khai phá dữ liệu (Data mining)

 Phân tích thống kê (Statistical analysis)

 Extract, Transform, and Load (ETL)

 Phân tích xử lý trực tuyến (Online Analytical Processing - OLAP)

 Portal

Trang 14

Các thành phần chính trong hệ thống BI là kho dữ liệu (Data Warehouse) và khai phá dữ liệu (Data Mining) vì dữ liệu dùng trong BI là dữ liệu tổng hợp (Nhiều nguồn, nhiều định dạng, phân tán và có tính lịch sử) đó là đặc trưng của kho dữ liệu Đồng thời việc phân tích dữ liệu trong BI không phải là những phân tích đơn giản (query, filtering)

mà là những kỹ thuật trong khai phá dữ liệu (data mining) dùng để phân loại (classification) phân cụm (clustering), hay dự đoán (prediction) Vì vậy BI có mối quan

hệ rất chặt chẽ với kho dữ liệu và khai phá dữ liệu

Hệ thống BI đơn giản có thể được xem là sự kết hợp của 3 thành phần chính như sau:

Hình 1.2 Thành phần chính hệ thống BI

Trong đó:

Data Warehouse (Kho dữ liệu): Chứa dữ liệu tổng hợp của doanh nghiệp

Data Mining (Khai phá dữ liệu): Các kỹ thuật dùng để khai phá dữ liệu và phát hiện tri thức như phân loại (classification), phân nhóm (clustering), phát hiện luật kết hợp (association rule), dự đoán (prediction), …

Business Analyst (Phân tích kinh Doanh): Các nhà lãnh đạo doanh nghiệp đưa ra những quyết định chiến lược đối với hoạt động kinh doanh của doanh nghiệp

Chúng ta sẽ đi vào tìm hiểu chi tiết các khái niệm kho dữ liệu, khai phá ở chương 2

1.2 Một số hệ thống BI đang đƣợc ứng dụng

Hệ thống BI trong những năm gần đây đã và đang được ứng dụng rộng rãi trong nhiều lĩnh vực như: ngân hàng, tài chính và thị trường chứng khoán, thương mại, giáo dục, y tế, sinh học, bưu chính viễn thông,

Data Warehouse

ta Mini Data Mining

Business Analyst

Business Intelligence

Trang 15

Những sản phẩm dưới đây được kiểm tra thông qua 70 tiêu chí quan trọng để nâng cao năng suất và khả năng hỗ trợ kinh doanh thông minh của doanh nghiệp (được xếp

theo thứ tự giảm dần của khả năng hỗ trợ của sản phẩm) (The second edition of the

independent Business Intelligence Tools Survey, published in October 2008)

 Oracle Enterprise BI Server - Oracle

 Excel, Performance Point, Analysis Server – Microsoft

 Business Objects Enterprise - Business Objects (now SAP)

 SAP NetWeaver BI - SAP

 SAS Enterprise BI Server - SAS Institute

 TM/1 & Executive Viewer - Applix (now IBM)

 BizzScore Suite - EFM Software

 WebFocus - Information Builders

 QlikView - QlikTech

 Microstrategy - Microstrategy

 Hyperion System - Hyperion (now Oracle)

 Actuate - Actuate

 Cognos Series 8 - Cognos (now IBM)

Trong luận văn này chúng tôi lựa chọn hệ thống BI của Microsoft vì các cơ sở dữ liệu thương mại điện tử đa phần lưu trữ trên hệ quản trị cơ sở dữ liệu Microsoft Sql Server cũng như Microsoft đã và đang là công cụ mà tôi vẫn thường dùng trong công việc của mình và về cơ bản đáp ứng đầy đủ các yêu cầu của luận văn

1.3 Hướng tiếp cận

1.3.1 Ứng dụng Business Intellegence trong thương mại điện tử

 Tiết kiệm chi phí

Thông thường để biết được lý do vì sao kết quả kinh doanh tháng này giảm so với tháng trước, nhà quản lý thường phải tìm hiểu qua nhiều kênh thông tin khác nhau từ phòng kế toán tới phòng kinh doanh, … nhiều khi tiêu tốn khá nhiều thời gian, nguồn lực Còn với giải pháp BI, tận dụng ưu thế có thể phân tích sâu theo nhiều chiều, nhà quản lý

có thể tìm được nguyên nhân bị giảm doanh thu là do đâu, cụ thể vùng miền nào mà hầu như không cần nhờ đến bất cứ ai Trong bối cảnh hiện nay, việc giúp doanh nghiệp truy

Trang 16

xuất nhanh gọn thông tin được coi như là một giải pháp giúp tiết kiệm chi phí, nâng cao hiệu quả hoạt động

 Chọn lọc mặt hàng kinh doanh

Bằng cách phân tích các chỉ số đánh giá hiệu quả hoạt động chính về số lần bảo hành, các mặt hàng bán chậm nhất hay số khách hàng mua và tổng doanh thu bán được từ những mặt hàng đó, BI giúp nhà quản lý biết được những mặt hàng kém hiệu quả, làm tiêu tốn nhiều chi phí cho các hoạt động hỗ trợ, tồn kho để từ đó ra quyết định loại bỏ hay cải tiến thành một sản phẩm mới

 Phân tích hiệu quả của các chương trình khuyến mãi, quảng cáo

Thông qua việc thu thập thông tin về số lượng hàng bán, doanh thu, chi phí, số khách hàng mới, số sản phẩm bán được … của các chương trình khuyến mại, từ đó nhà quản lý sẽ biết được chương trình dạng nào mang lại hiệu quả cao nhất để áp dụng lại cho những lần sau Ngoài ra, dựa trên những bản khảo sát, dữ liệu về bán hàng, BI có thể cho biết tác động của những hoạt động đó như thế nào sau mỗi kỳ quảng cáo, tung ra sản phẩm, dịch vụ mới

 Nâng cao năng lực của nhân viên kinh doanh

Trong doanh nghiệp có nhiều kênh phân phối, nhiều chi nhánh đại lý, nhân viên kinh doanh được tổ chức thành nhiều cấp nên việc đo lường và đánh giá hiệu quả làm việc của nhân viên một cách chính xác thường khó khăn và tốn thời gian Để đánh giá đúng thường phải dựa vào nhiều tiêu chí: doanh số, số khách hàng mới tìm được, và phải có trọng số riêng cho từng kênh bán hàng… Với sự hỗ trợ của hệ thống BI, nhà quản lý có thể đo lường nhiều tiêu chí đánh giá, từ đó có những quyết định thưởng phạt, điều chỉnh nhân sự chính xác

 Tăng khả năng kiểm soát thông tin của doanh nghiệp

BI làm tăng khả năng kiểm soát thông tin của doanh nghiệp một cách chính xác, hiệu quả từ đó có thể phân tích, khai phá tri thức giúp doanh nghiệp có thể dự đoán về xu hướng của giá cả dịch vụ, hành vi khách hàng, phát hiện khách hàng tiềm năng để đề ra các chiến lược kinh doanh phù hợp nhằm tăng khả năng cạnh tranh doanh nghiệp

 Giúp sử dụng thông tin một cách hiệu quả

BI giúp cho các doanh nghiệp sử dụng thông tin một cách hiệu quả, chính xác để thích ứng với môi trường thay đổi liên tục và cạnh tranh khốc liệt trong kinh doanh Từ đó

ra các quyết định kinh doanh hiệu quả hơn:

 Xác định được vị trí và sức cạnh tranh của doanh nghiệp

Trang 17

 Phân tích hành vi khách hàng

 Xác định mục đích và chiến lược Marketing

 Dự đoán tương lai của doanh nghiệp

 Xây dựng chiến lược kinh doanh

 Giữ được khách hàng có giá trị và dự đoán khách hành tiềm năng

1.3.2 Hướng nghiên cứu của đề tài

Đề tài phân tích dữ liệu mua bán trực tuyến nhằm nhận diện được những hành vi mua bán của khách hàng và thông qua đó có thể đưa ra các chính sách chăm sóc khách

hàng thích hợp dựa trên dự đoán hoặc có một chiến lược tiếp thị hiệu quả Dựa vào kết

quả phân tích mà người quản lý của các công ty/tổ chức các website thương mại điện tử nắm bắt được những nhóm dịch vụ nào có liên quan tới nhau, phục vụ cho mục đích quản

lý và xây dựng chiến lược phát triển hệ thống và tìm những khách hàng tiềm năng cho các gói sản phẩm khác nhau Ngoài ra đề tài cũng đưa ra một số dự đoán về xu hướng kinh

doanh trong tương lai

1.3.3 Đề tài đã thực hiện được một số nội dung sau

 Hiểu được các kiến thức về BI, kho dữ liệu, khai phá dữ liệu, một số thuật toán khai phá dữ liệu trong bộ công cụ BI của hệ quản trị SQL Server 2008

 Xây dựng kho dữ liệu về mua bán trong thương mại điện tử

 Thiết kế các báo cáo tổng hợp và báo cáo động theo yêu cầu

 Sử dụng một số thuật toán khai phá để dự đoán, ra quyết định cho việc kinh doanh,

có thể trả lời cho các vấn đề bên dưới:

 Doanh số bán hàng cho năm tới như thế nào?

 Số lượng bán các loại sản phẩm khách nhau như thế nào theo thời gian trên mỗi quốc gia tăng hay giảm trong tương lai?

 Nâng cấp website của công ty để thúc đẩy bán chéo (cross-selling) Khả năng dự đoán những sản phẩm có thể khách hàng muốn mua dựa vào lịch sử mua bán những khách hàng khác, dự đoán sản phẩm tiếp theo có thể sẽ được mua

Trang 18

Chương 2 Các khái niệm liên quan đến Business Intelligence

2.1 Cơ sở lý thuyết

2.1.1 Kho dữ liệu

Khái niệm kho dữ liệu

Theo William Inmon [4] “kho dữ liệu là một bộ dữ liệu có các đặc tính: hướng chủ

đề, có tính tích hợp, ổn định, dữ liệu gắn với thời gian thường được sử dụng trong các hệ thống hỗ trợ quyết định”

Kho dữ liệu thường bao gồm:

 Một hoặc nhiều công cụ để chiết xuất dữ liệu từ các dạng cấu trúc dữ liệu khác nhau

 Cơ sở dữ liệu tích hợp hướng chủ đề, ổn định được tổng hợp thông qua việc lập các bảng dữ liệu

 Một kho dữ liệu có thể được coi là một hệ thống thông tin với những thuộc tính sau: Là một cơ sở dữ liệu được thiết kế dành cho nhiệm vụ phân tích, sử dụng các dữ liệu từ các ứng dụng khác nhau Hỗ trợ cho một số người dùng có liên quan, có sử dụng tới các thông tin liên quan Nội dung được cập nhật thường xuyên, chủ yếu theo hình thức bổ sung thông tin Chứa các dữ liệu trong lịch sử

và hiện tại nhằm cung cấp các xu hướng thông tin Chứa các bảng dữ liệu có kích thước lớn Một câu hỏi thường trả về một tập kết quả liên quan đến toàn

bộ bảng và các liên kết nhiều bảng

Kiến trúc kho dữ liệu

Hình 2.1 Kiến trúc kho dữ liệu

Trang 19

Kiến trúc này gồm ba tầng:

Tầng đáy: Là nơi cung cấp các dịch vụ lấy dữ liệu từ nhiều nguồn khác nhau, sau

đó chuẩn hóa, làm sạch và lưu trữ dữ liệu tập trung

Tầng giữa: Cung cấp các dịch vụ để thực hiện các thao tác với kho dữ liệu gọi là máy chủ OLAP Có thể cài đặt bằng ROLAP, MOLAP hay kết hợp cả hai mô hình trên gọi là HOLAP Ngoài ra, hệ thống còn có thể có thêm một số kho dữ liệu chủ đề (Data mart) đây là một tập con được chuyên biệt hóa của kho dữ liệu diện rộng, có giá trị đối với một nhóm người dùng đặc trưng, phạm vi được giới hạn bởi các chủ đề đặc biệt nào

đó Dữ liệu trong kho dữ liệu và trong kho dữ liệu chủ đề được lưu trữ và quản lý bởi một hoặc nhiều máy chủ

Tầng trên cùng: tầng này cho phép thực hiện các truy vấn, tạo các báo cáo, phân tích dữ liệu

Các đặc tính của kho dữ liệu

 Hướng chủ đề: Kho dữ liệu có thể chứa lượng dữ liệu lên tới hàng trăm Gigabyte, được tổ chức theo những chủ đề chính Kho dữ liệu không chú trọng vào giao tác

và việc xử lý giao tác Thay vào đó, kho dữ liệu tập trung vào việc mô hình hóa, phân tích dữ liệu nhằm hỗ trợ cho nhà quản lý ra quyết định Do đó, các kho dữ liệu thường cung cấp một khung nhìn tương đối đơn giản bằng cách loại bớt những

dữ liệu không cần thiết trong quá trình ra quyết định và hướng vào một hoặc một

số chủ đề cụ thể

 Tính tích hợp: Kho dữ liệu thường được xây dựng bằng cách tổng hợp dữ liệu từ nhiều nguồn khác nhau, ví dụ các cơ sở dữ liệu, những bản ghi giao tác trực tuyến hoặc thậm chí là từ những file dữ liệu độc lập Những dữ liệu này tiếp tục được làm sạch, chuẩn hóa để đảm bảo sự nhất quán, sau đó đưa vào kho dữ liệu

 Ổn định: Dữ liệu trong kho dữ liệu thường được lưu trữ lâu dài, ít bị sửa đổi, chủ yếu dùng cho việc truy xuất thông tin nên có độ ổn định cao

 Dữ liệu gắn với thời gian: Do có tính ổn định, kho dữ liệu thường lưu trữ dữ liệu của hệ thống trong khoảng thời gian dài, cung cấp đủ số liệu cho các mô hình nghiệp vụ, dự báo, khảo sát những chỉ tiêu cần quan tâm

Ứng dụng của kho dữ liệu [4]

Theo như cách khai thác truyền thống đối với cơ sở dữ liệu, kho dữ liệu được sử dụng để khai thác thông tin bằng các công cụ thực hiện truy vấn và báo cáo Nhờ việc dữ liệu thô đã được chuyển sang thành các dữ liệu ổn định, có chất lượng nên kho dữ liệu đã giúp nâng cao kỹ thuật biểu diễn thông tin truyền thống Các kho dữ liệu được sử dụng để

hỗ trợ cho phân tích trực tuyến (OLAP) Trong khi ngôn ngữ SQL và các công cụ xây

Trang 20

dựng báo cáo truyền thống chỉ có thể mô tả những gì có trong cơ sở dữ liệu thì phân tích trực tuyến có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai Tuy nhiên, phân tích trực tuyến lại không có khả năng đưa ra được các giả thuyết Ngoài ra, sử dụng OLAP còn giúp phân tích tổng hợp dữ liệu, đưa ra kết quả bằng các báo cáo hoặc bảng biểu trực quan Khai thác kho dữ liệu là dựa trên các kỹ thuật khai phá dữ liệu Đây

là một phương pháp mới, đáp ứng được cả những yêu cầu trong nghiên cứu khoa học cũng như yêu cầu trong thực tiễn Các kết quả thu được mang nhiều tính dự báo, dự đoán, dùng trong việc xây dựng kế hoạch, chiến lược

Mô hình xây dựng kho dữ liệu

Xây dựng lược đồ mô hình dữ liệu là không có câu trả lời đúng cho mọi tình huống Mô hình dữ liệu kho dữ liệu có tính chủ đề, phụ thuộc vào công việc nghiệp vụ và các vấn đề nảy sinh

Các lược đồ xây dựng mô hình kho:

 Sơ đồ hình sao

Sơ đồ hình sao được đưa ra lần đầu tiên bởi Dr Ralph Kimball [25] như là một lựa chọn thiết kế cơ sở dữ liệu cho kho dữ liệu Nó được gọi là sơ đồ hình sao bởi vì các sự kiện nằm ở trung tâm của mô hình và được bao quanh bởi các phạm vi liên quan, rất giống với các điểm của một ngôi sao Sơ đồ hình sao cho phép một hệ thống đối tượng có thể kết nối với nhiều đối tượng khác Mô hình này thể hiện cách nhìn của người sử dụng

về nhiều vấn đề trong nghiệp vụ

Trong sơ đồ hình sao, dữ liệu được xác định và phân loại theo 2 kiểu:

 Các sự kiện được tổ chức thành bảng sự kiện

 Phạm vi, hay các chiều của dữ liệu, được tổ chức thành các bảng chiều

Hình 2.2 mô tả về một ví dụ sơ đồ hình sao

Hình 2.2 Sơ đồ hình sao

Trang 21

Ƣu điểm của lƣợc đồ hình sao:

 Trực quan, đơn giản, phù hợp với cách mà người sử dụng nhìn nhận và sử dụng dữ liệu

 Dễ dàng truy vấn dữ liệu và hỗ trợ tối đa các loại truy vấn

 Khi sử dụng lược đồ hình sao có thể dẫn đến việc dư thừa dữ liệu, chính việc phi chuẩn hóa này đã tránh được việc phải nối nhiều bảng trong quá trình xử

lý, điều này giúp làm giảm thời gian thực hiện truy vấn

 Lƣợc đồ dữ liệu bông tuyết

Lược đồ này là mở rộng của lược đồ hình sao Khi một bảng chiều trở lên phức tạp chứa các quan hệ dữ liệu thì có thể tách thành nhiều bảng Các bảng được tách có quan hệ với bảng chiều tạo lên hình dạng bông tuyết Công việc này cũng chính là chuẩn hóa dữ liệu cho bảng chiều để giảm sự dư thừa dữ liệu Bảng đã được chuẩn hóa thì sẽ dễ quản lý

và tiết kiệm không gian lưu trữ Tuy nhiên, sơ đồ bông tuyết có thể giảm hiệu quả khi truy vấn dữ liệu, vì có thể sẽ phải sử dụng nhiều phép kết nối hơn khi thực thi một truy vấn

Do vậy, khả năng hoạt động của hệ thống có thể bị giảm sút

Hình 2.3 Sơ đồ bông tuyết Tùy theo thực tế mà ta lựa chọn lược đồ hình sao hay bông tuyết Việc lựa chọn được cân nhắc giữa hai yếu tố: thời gian đáp ứng truy vấn và mức độ kiểm soát tính chặt chẽ dữ liệu Lược đồ dạng bong tuyết có thể thích hợp khi dữ liệu bảng chiều trở lên quá lớn và nhiều thuộc tính Tuy sự khác nhau thể hiện rất rõ về mặt lý thuyết nhưng khi thực hiện chúng trong thực tế có thể dẫn tới các kết quả khác hẳn nhau

 Sơ đồ kết hợp

Đối với các ứng dụng phức tạp có thể cần nhiều bảng sự kiện, các bảng sự kiện này dùng chung các bảng chiều Sơ đồ kết hợp giữa sơ đồ hình sao dựa trên bảng sự kiện và những bảng chiều không chuẩn hóa theo các chuẩn 1, 2, 3 và sơ đồ hình bông tuyết trong

đó tất cả các bảng chiều đều đã được chuẩn hóa Với sơ đồ loại này chỉ những bảng chiều lớn là được chuẩn hóa còn những bảng khác chứa một khối lượng lớn các cột dữ liệu chưa

Trang 22

được chuẩn hóa Trong thực tế sơ đồ này được dùng nhiều hơn vì cơ sở dữ liệu là đa dạng, rất lớn và nhiều chủ đề Sơ đồ này có thể mô hình hóa các chủ đề liên quan với nhau, trong khi kho dữ liệu theo chủ đề là một bộ phận con của kho dữ liệu, chỉ tập trung vào các chủ đề đã chọn

Thiết kế và xây dựng kho dữ liệu

Các nhà quản lý thường có khuynh hướng suy nghĩ theo “nhiều chiều” Ví dụ một giao dịch mua bán :

“Sản phẩm thể loại Action được bán nhiều nhất tại thời điểm nào trong năm, đạt doanh số cao nhất ở quốc gia nào”

Ta có thể hình dung đánh giá xu hướng doanh số của cửa hàng như một khối dữ liệu với các chiều của khối là sản phẩm, khách hàng và thời gian Giao điểm bên trong khối là giao điểm của các cạnh Với mô tả của một sự kiện đánh giá như trên thì độ đo doanh số bán hàng được kết hợp bởi sản phẩm, khách hàng và thời điểm bán (thời gian)

Ví dụ xét trong cùng khoảng tháng 11 sản phẩm ABC có doanh số cao hơn thể loại XYZ Nếu nhìn từ chiều thời gian làm mốc, sau đó tổng hợp thêm dữ liệu từ các chiều khách

hàng và sản phẩm sẽ có thể đưa ra kết quả đánh giá doanh số kinh doanh

Một khối dữ liệu không bắt buộc phải có 3 chiều mà có thể có N chiều, phụ thuộc vào yêu cầu của công việc Các chiều của khối, mà ở đó các mặt hoặc các thực thể tương ứng với những khía cạnh mà công việc ghi nhận Mỗi chiều kết hợp với một bảng chiều

để mô tả cho chiều đó Ví dụ bảng chiều khách hàng thì mô tả về khách hàng đó gồm tên khách hàng, năm sinh, giới tính, thu nhập… Với những chiều đặc biệt như chiều thời gian, hệ thống kho dữ liệu có thể phát sinh tương ứng với bảng chiều dựa trên loại dữ liệu Chiều thời gian trong thực tế có ý nghĩa đặc biệt đối với việc hỗ trợ cho các khuynh

hướng phân tích

Hình 2.4 Ví dụ về mô hình dữ liệu 3 chiều

Trang 23

2.1.2 Tổng quan về khai phá dữ liệu

Khái niệm về khai phá dữ liệu

Công nghệ khai phá dữ liệu được coi là dạng tiến hóa mới của công nghệ cơ sở dữ liệu bắt đầu từ cuối những năm 1980 và không ngừng được phát triển về bề rộng và chiều sâu Khai phá dữ liệu là một quá trình trích xuất thông tin có mối quan hệ hoặc có mối tương quan nhất định từ một kho dữ liệu lớn nhằm mục đích dự đoán các xu thế, các hành vi trong tương lai, hoặc tìm kiếm những tập thông tin hữu ích mà bình thường không thể nhận diện được Trên thực tế, khai phá dữ liệu chỉ là một bước thiết yếu trong quá trình khám phá tri thức trong cơ sở dữ liệu Quá trình này bao gồm các bước sau [4]:

 Bước 1: Làm sạch dữ liệu Loại bỏ nhiễu hoặc các dữ liệu không thích hợp;

 Bước 2: Tích hợp dữ liệu: Tích hợp dữ liệu từ các nguồn khác nhau như: Cơ sở

dữ liệu, kho dữ liệu, file văn bản ;

 Bước 3: Chọn dữ liệu: Ở bước này, những dữ liệu liên quan trực tiếp đến nhiệm

vụ sẽ được thu thập từ các nguồn dữ liệu ban đầu;

 Bước 4: Chuyển đổi dữ liệu: Trong bước này, dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác nhóm hoặc tập hợp;

 Bước 5: Khai phá dữ liệu: Là giai đoạn thiết yếu, trong đó các phương pháp thông minh sẽ được áp dụng để trích xuất ra các mẫu dữ liệu;

 Bước 6: Đánh giá mẫu: Đánh giá sự hữu ích của các mẫu biểu diễn tri thức dựa vào một số phép đo;

 Bước 7: Mô tả tri thức: Sử dụng các kĩ thuật trình diễn và trực quan hoá dữ liệu

để biểu diễn tri thức khai phá được cho người sử dụng

Trang 24

Hình 2.5 Mô tả chi tiết các bước của quá trình khám phá tri thức

Khuynh hướng phát triển của lĩnh vực khai phá dữ liệu

Trang web http://www.kdnuggets.com/ do Piatetsky – Shapiro chủ trì là trong những trang web điển hình về lĩnh vực khai phá dữ liệu và phát hiện tri thức trong CSDL Nhiều thông tin cập nhật nhất về lĩnh vực được thông báo tại trang web này, đặc biệt là các kết quả thăm dò, cung cấp một số thông tin hữu ích liên quan tới khuynh hướng phát triển của lĩnh vực khai phá dữ liệu Một số nội dung cụ thể về khuynh hướng nghiên cứu của khai phá dữ liệu được đề cập dưới dạng bài toán thách thức trong các hội nghị khoa học về khai phá dữ liệu[4] Xu hướng phát triển khai phá dữ liệu đã và đang là các nội dung nghiên cứu có tính thời sự, rất đa dạng và phong phú

Vì sao cần khai phá dữ liệu

Một số hướng tiếp cận chính của khai phá dữ liệu

Hiện nay, ứng dụng của KPDL rất đa dạng và rộng lớn, từ kinh doanh, chống gian lận, giảm giá thành sản xuất, tăng doanh thu, phân tích hành vi sử dụng người dùng internet để mục tiêu đúng nhu cầu, đúng đối tượng hay ứng dụng hỗ trợ ra quyết định, nhiều lĩnh vực khác nhau v.v Trong đó thương mại điện tử không phải ngoại lệ

Một số hướng tiếp cận chính của khai phá dữ liệu là:

Trang 25

 Phân lớp và dự đoán (classification & prediction) : xếp đối tượng vào một trong các lớp đã biết trước Ví dụ : phân lớp loại cước hoặc loại dịch vụ dựa trên số máy bị gọi của cuộc gọi, phân lớp khu vực dựa trên số máy chủ gọi, phân lớp giờ cao điểm, thấp điểm dựa trên giờ bắt đầu đàm thọai.v.v

Hướng tiếp cận phân lớp có giám sát (supervised learning) thường sử dụng một số

kỹ thuật của học máy như cây quyết định (decision tree), mạng nơ ron nhân tạo (neural network) v.v

 Luật kết hợp (association rules) : là dạng luật biểu diễn tri thức ở dạng tương đối đơn giản Luật kết hợp có khả năng ứng dụng trong nhiều lĩnh vực khác nhau trong đó có lĩnh vực viễn thông

 Khai thác mẫu tuần tự (sequential/temporal patterns): Tương tự như khai thác luật kết hợp nhưng có thêm tính thứ tự và tính thời gian Một luật mô tả mẫu tuần tự có dạng tiêu biểu X -> Y, phản ánh sự xuất hiện của biến cố X sẽ dẫn đến việc xuất hiện biến cố

Y Hướng tiếp cận này có tính dự báo cao

 Phân cụm (clustering/segmentation) : Sắp xếp các đối tượng theo từng cụm (số lượng và tên của cụm chưa được biết trước) Các đối tượng được gom cụm sao cho mức

độ tương tự giữa các đối tượng trong cùng một cụm là lớn nhất và mức độ tương tự giữa các đối tượng nằm trong các cụm khác nhau là nhỏ nhất Phân cụm còn được gọi là học không có giám sát (unsupervised learing)

Trong phạm vi luận văn này, chúng tôi đã sử dụng kho dữ liệu giao dịch bán hàng trực tuyến để thực hiện một số bài toán về khai phá dữ liệu Một số vấn đề được đưa ra cần giải quyết bằng các mô hình khai phá dữ liệu như: Dự đoán xu hướng doanh số bán hàng của năm tiếp theo, dự đoán xu hướng doanh số của loại sản phẩm trong một thị trường nào đó từ đó có thể biết thời điểm nào trong năm khách hàng có xu hướng mua nhiều, phân tích giỏ hàng dựa vào lịch sử mua bán của những khách hàng trước để đưa ra gợi ý nên mua gì cho những khách hàng mới, hoặc tìm ra luật về hành vi mua hàng nếu mua thể loại A thì có thể sẽ nên mua thể loại B

2.2 Giới thiệu bộ công cụ BI trong hệ quản trị Ms Sql Server 2008

Nhằm xác lập chỗ đứng trong thị trường giải pháp thông tin doanh nghiệp

(Business Intelligence - BI), Microsoft SQL Server 2008 cung cấp các công cụ có khả năng quản lý báo cáo và phân tích đủ mọi cấp độ, tích hợp chặt chẽ với Microsoft Office cùng với cơ sở hạ tầng mạnh, linh hoạt và có thể mở mở rộng, cho phép đưa thông tin doanh nghiệp đến tất cả nhân viên, giúp ra quyết định nhanh hơn và tốt hơn Giải pháp BI

Trang 26

của Microsoft được xây dựng trên nền tảng dữ liệu đáp ứng cho việc quản lý dữ liệu, phân tích và báo cáo, đồng thời cung cấp các công cụ mạnh mẽ cho phép người dùng cuối truy cập và phân tích thông tin doanh nghiệp Trung tâm của giải pháp này là một nền tảng dịch vụ dữ liệu hoàn chỉnh có khả năng: [9]

 Hợp nhất việc lưu trữ và truy cập cho tất cả dữ liệu

 Xây dựng và quản lý các giải pháp BI phức tạp

 Mở rộng phạm vi giải pháp BI đến tất cả nhân

viên

Trong hệ quản trị cơ sở dữ liệu SQL Server

2008 có bộ công cụ hỗ trợ và phát triển các ứng dụng

BI bao gồm dịch vụ báo cáo và dịch vụ tích hợp, xây

dựng kho dữ liệu nhưng nền tảng là dịch vụ phân tích

Business Intelligence Development Studio (BIDS) là

công cụ cho phép tổ chức quản lý và khai thác kho dữ

liệu (Xử lý phân tích trực tuyến) cũng như xây dựng các mô hình khai phá dữ liệu rất dễ

sử dụng và hiệu quả của Microsoft

2.3.1 Dịch vụ tích hợp (Integration services)

SQL Server 2008 Integration Services (SSIS) cung cấp những tính năng vận hành cần thiết để xây dựng những ứng dụng tích hợp dữ liệu mức toàn tổ chức Dễ dàng tích hợp các nguồn dữ liệu vào các loại dữ liệu đích khác nhau

2.3.2 Dịch vụ báo cáo (Reporting service)

Báo cáo là một thành phần không thể thiếu đối với bất kỳ giải pháp BI nào và người dùng của doanh nghiệp thường có xu hướng tăng các báo cáo phức tạp SQL Server Reporting Services cung cấp các tính năng cho phép dễ dàng hơn trong việc xây dựng các giải pháp báo cáo:

 Giao diện phát triển báo cáo dựa trên Visual Studio trong Business Intelligence Development Studio cho phép các chuyên gia phát triển phần mềm có thể sử dụng để xây dựng, gỡ rối và triển khai các báo cáo

 Công cụ phát triển báo cáo tập trung vào nội dung doanh nghiệp có tên là Report Builder, với công cụ này, người dùng trong doanh nghiệp có thể sử dụng nó để tạo và triển khai các báo cáo

 Có thể hiển thị dữ liệu bằng các bảng, ma trận, danh sách và các biểu đồ

Dịch vụ báo cáo của BI trong hệ quản trị cơ sở dữ liệu SQL Server cho phép các đơn vị truy cập, định dạng và phân phối thông tin dễ dàng đến nhân viên và các đối tác

Trang 27

 Linh hoạt trong triển khai từ những báo cáo đơn đến các báo cáo dạng web

tích hợp trong kinh doanh, quản lý của đơn vị

 Hiển thị kết quả: Table (bảng), matrix, list, chart,…

 Xuất dữ liệu linh hoạt ra PDF, HTML, Microsoft Excel, Rich Text Format,

hay văn bản thuần túy

 Tự động hỗ trợ thiết kế báo cáo dễ dàng và nhanh chóng

 Tích hợp với SharePoint

2.3.3 Dịch vụ phân tích (Analysis Services)

Dịch vụ phân tích của BI chứa các tính năng và công cụ cần thiết để tạo lập các giải pháp khai phá dữ liệu phức tạp

Bộ thiết kế khai phá dữ liệu dùng để tạo, quản lý và khám phá các mô hình khai phá dữ liệu, sau đó tạo các dự báo bằng cách sử dụng các mô hình này

Khai phá dữ liệu giúp chúng ta tạo lập các quyết định thông minh về các vấn đề khó khăn của doanh nghiệp Sử dụng các công cụ khai phá dữ liệu trong dịch vụ phân tích giúp nhận ra các mẫu trong dữ liệu, do đó xác định được tại sao lại xảy ra vấn đề đó, cho phép tạo ra các luật và kiến nghị, để có thể dự báo điều gì sẽ xảy ra trong tương lai Không cần phải tạo kho dữ liệu để khai phá dữ liệu; có thể dùng dữ liệu bảng từ nhà cung cấp bên ngoài, bảng tính, và thậm chí là file văn bản

Dịch vụ phân tích cung cấp một loạt các công cụ mà bạn có thể sử dụng để xây dựng các giải pháp khai phá dữ liệu trên dữ liệu quan hệ và dữ liệu khối

Khi mô hình khai phá dữ liệu được hoàn tất, có thể triển khai (deploy) trên máy chủ khác để người dùng có thể thực hiện các phân tích và dự báo bằng cách sử dụng các

mô hình đó Có thể truy cập các mô hình khai phá dữ liệu thông qua ứng dụng khách (như Web services), …

2.3 Một số kỹ thuật khai phá dữ liệu

Các giải thuật được sử dụng trong Microsoft SQL Server Analysis Services là tập con của nhiều giải thuật khai phá dữ liệu khác

Các nhóm thuật toán khai phá dữ liệu [9]

SQL Server Analysis Services cung cấp công cụ phân tích và khai thác dữ liệu dựa trên cơ sở 5 giải thuật Data Mining sau:

 Thuật toán phân loại (Classification Algorithm) – dự đoán ra một hoặc nhiều giá trị biến rời rạc, dựa trên các thuộc tính khác của tập dữ liệu Điển hình là thuật toán

cây quyết định – Microsoft Decision Trees Algorithm

Trang 28

 Thuật tốn hồi quy (Regression Algorithm) – dự đốn một hoặc nhiều biến giá trị liên tục, như lợi nhuận và giá trị thua lỗ, dựa trên các thuộc tính dữ liệu khác trong tập

dữ liệu Điển hình là thuật tốn chuỗi thời gian – Microsoft Time Series Algorithm

 Thuật tốn phân đoạn (Segmentation Algorithm) – phân chia dữ liệu thành nhiều nhĩm gồm các thành phần cĩ thuộc tính tương tự nhau Thuật tốn điển hình là Microsoft Clustering Algorithm

 Thuật tốn kết hợp (Assocication Algorithm) – tìm sự tương quan giữa các thuộc tính trong củng tập dữ liệu Ứng dụng phổ biến nhất của thuật tốn này là xây dựng các luật tương quan, phân tích giỏ hàng Thuật tốn điển hình là Microsoft Assocciation Algorithm

 Thuật tốn phân tích chuỗi (Sequence Analysis Allgorithm) – kỹ thuật phân tích chuỗi hoặc mảng dữ liệu trong tập dữ liệu Điển hình cho loại thuật tốn này là

Microsoft Sequence Clustering Algorithm

Bảng 2.6 Ứng dụng của các giải thuật khai phá trong Sql Server 2008

Trong phạm vi luận văn này chúng tơi sẽ dùng hai kỹ thuật đĩ là:

 Microsoft Time series: Dự đốn xu hướng

 Microsoft Association Rule: Phân tích giỏ hàng

Dự đốn các giá trị thuộc tính cĩ tính rời rạc

Ví dụ: Dự đốn người nhận mail cĩ khả năng mua

sản phẩm trong một chiến dịch gửi mail PR

Microsoft Decision Tree Algorithm Microsoft Nạve Bayes Algorithm Microsoft Clustering Algorithm Microsoft Neural Network Algorithm

Dự đốn các thuộc tính cĩ tính liên tục

Ví dụ: Dự đốn hoạt động bán hàng các năm tới

Microsoft Decision Tree Algorithm Microsoft Time Series Algorithm

Dự đốn chuỗi các tác vụ (thuộc trình tự)

Ví dụ: Phân tích chuỗi các hoạt động của người

Ví dụ: Phân đoạn dữ liệu thành các nhĩm để nắm rõ

hơn mối quan hệ giữa các thuộc tính

Microsoft Clustering Algorithm Microsoft Sequence Clustering Algorithm

Trang 29

2.3.1 Thuật toán hồi quy tự động (Auto Regression Algorithm)

a Khái niệm

Hồi quy tự động là một kỹ thuật trong việc xử lý dãy thời gian Một quá trình hồi quy tự động là một quá trình mà các giá trị x và thời gian (xt) là một hàm của các giá trị của x tại thời gian trước Ví dụ:

Xt = f(Xt-1 , Xt-2, Xt-3, …, Xt-n) + 𝜺t

Trong đó xt là một dãy thời gian và n là thứ tự của hồi quy tự động, n thường nhỏ hơn độ dài dãy thời gian Thành phần cuối cùng 𝜺 miêu tả độ nhiễu (noise) [23]

b Thuật toán Microsoft Time Series

Một dãy thời gian bao gồm một chuỗi các dữ liệu được thu thập một cách liên tiếp theo trục tăng của thời gian hay theo một trật tự nào đó Sự tăng về mặt thời gian trong một dãy thời gian có thể là rời rạc hoặc liên tục Mục đích của việc thu thập dữ liệu theo thời gian là để dự báo trước, hoặc đưa ra các dự đoán về các giá trị trong tương lai

Thuật toán Microsoft Time Series cung cấp các thuật toán hồi quy được tối ưu hóa cho việc dự báo các giá trị liên tục theo thời gian, giống như doanh số bán hàng theo từng năm Mô hình Microsoft Time Series có thể dự đoán xu hướng dựa trên bộ dữ liệu lịch sử Trong Sql Server 2008 thuật toán Microsoft Time Series sử dụng cả thuật toán ARTXP và

ARIMA ARTXP là viết tắt của “Auto Regression Trees with Cross Predict”, được dùng

như cây hồi quy tự động để dự đoán tương lai dựa trên dữ liệu lịch sử bao gồm lịch sử từ

các giai đoạn khác nhau Còn ARIMA là viết tắt của “Auto Regressive Integrated Moving

Average”, được hiểu như thuật toán hồi quy tự động có tiềm năng cho tính không ổn định

trong các dự đoán có chu kỳ dài Vậy bạn sẽ phải quyết định chọn thuật toán nào cho chu

kỳ ngắn, thuật toán toán nào cho chu kỳ dài thiếu ổn định? Câu trả lời là không Thuật toán Time Series trong Sql Server 2008 mặc định được xây dựng dùng cả hai mô hình với hai thuật toán Thuật toán này tạo ra những mô hình được sử dụng để dự đoán các biến tiếp theo Ví dụ sử dụng thuật toán này để dự đoán bán hàng và lợi nhuận của năm tiếp theo dựa vào dữ liệu quá khứ

Các tham số trong thuật toán Microsoft Time Series:

 Minimum_Support: được sử dụng để xác định số lượng các trường hợp nhỏ nhất của mỗi node lá

 Complaxity_Penalty: Được sử dụng để điều khiển sự lớn lên của cây Nó giá trị trong khoảng [0,1] Giá trị này càng nhỏ, cây thu được càng lớn

 Historical_Model_Count: được sử dụng số lượng các mô hình lịch sử được xây dựng

Trang 30

 Historical_Model_Gap: được sử dụng để xác định khoảng thời gian giữa các mô hình lịch sử

 Periodicity_Hint: cung cấp gợi ý cho thuật toán về thông tin chu kỳ của dữ liệu

 Auto_Detect_Periodicity: nó là một số thực trong khoảng [0,1] để xác định chu kỳ

 Maximum_Series_Value: xác định giới hạn trên của các giá trị được dự báo

 Minimum_Series_Value: xác định giới hạn dưới của các giá trị được dự báo

 Missing_Value_Substitution: xác định phương thức để lấp đầy các giá trị còn thiếu trong tập dữ liệu lịch sử

2.3.2 Luật kết hợp (Association Rule)

a Bài toán thực tế

Chúng ta hãy bắt đầu phân tích một ví dụ khá đặc trưng về khai phá mẫu phổ biến,

đó là phân tích giỏ hàng thương mại trong CSDL giao dịch về lịch sử bán hàng tại siêu thị Việc phát hiện ra mối tương quan trong một số lượng lớn các bản ghi về giao dịch thương mại được thu thập và lưu trữ hàng ngày giúp hỗ trợ tiến trình đưa ra quyết định của nhiều doanh nghiệp, như trong thiết kế mẫu hàng hóa, tiếp thị chéo và phân tích thói quen mua sắm của khách hàng Khám phá những mối quan hệ như vậy có thể giúp những người bán lẻ phát triển các chiến lược tiếp thị bằng cách tiếp cận một cách thấu đáo các danh mục mặt hàng được khách hàng mua thường xuyên

Và làm thế nào để biết được một khách hàng đang mua sữa, họ có khả năng sẽ mua bánh mỳ trong cùng một lần đến siêu thị? Thông tin này có thể làm tăng doanh thu của cửa hàng bán lẻ bằng cách giúp những nhà bán lẻ tiếp thị các mặt hàng một cách chọn lọc

và lên kế hoạch trưng bầy sản phẩm ở những vị trí thích hợp

Giả sử bạn là giám đốc một siêu thị, bạn sẽ muốn tìm hiểu về thói quen mua sắm của khách hàng của bạn Bạn tự hỏi: “Đâu là những mặt hàng, những nhóm mặt hàng mà các khách hàng thương xuyên mua cùng nhau trong một chuyến đi đến siêu thị?” Để trả lời câu hỏi, việc phân tích giỏ hàng được thực hiện trên dữ liệu bán lẻ của những giao dịch khách hàng tại quầy hàng của bạn Bạn có thể sử dụng kết quả này để xây dựng kế hoạch, chiến lược cho tiếp thị hoặc quảng cáo hoặc thiết kế một catalog mới Trường hợp khác, việc phân tích giỏ hàng giúp bạn bài trí hàng hóa cho quầy hàng Trong chiến lược tiếp thị bán hàng, các mặt hàng thường xuyên mua cùng nhau thì đặt gần vị trí với nhau,

để khuyến khích việc mua các mặt hàng trong cùng một nhóm hàng Nếu khách hàng mua một chiếc máy giặt thì tại thời điểm đó họ cũng quan tâm đến xà phòng giặt máy, do đó việc đặt mặt hàng bột giặt gần mặt hàng máy giặt, sẽ làm tăng doanh số bán hàng của cả hai mục hàng này

Trang 31

Như vậy, có thể kết luận rằng, khai phá mẫu phổ biến là quá trình tìm kiếm mối

quan hệ tuần hoàn, lặp đi lặp lại trong một cơ sở dữ liệu

Từ ví dụ trên, thông tin khách hàng mua máy giặt thì cũng có xu hướng mua xà phòng giặt máy tại cùng một thời điểm được mô tả trong luật kết hợp dưới đây:

Máy giặt => Xà phòng giặt [độhỗtrợ= 2%, độtin cậy = 60%]

Độ hỗ trợ (support) và độ tin cậy (confidence) là hai độ đo hấp dẫn của luật Chúng lần lượt phản ánh sự hữu ích và độ chắc chắn của luật khai phá Độ hỗ trợ bằng 2% có nghĩa là theo phân tích cho thấy: 2% trong những giao dịch, máy giặt và xà phòng được mua cùng nhau Độ tin cậy bằng 60% có nghĩa là trong các giao dịch, nếu khách hàng mua máy giặt thì cũng mua xà phòng giặt máy Thông thường những luật kết hợp được

xét đến nếu chúng thỏa mãn cả ngưỡng hỗ trợ tối thiểu (minimum support threshold) và

ngưỡng tin cậy tối thiểu (minimum confidence threshold)

b Khái niệm luật kết hợp

Trong lĩnh vực Data Mining, mục đích của luật kết hợp (Association Rule - AR) là tìm ra các mối quan hệ giữa các đối tượng trong khối lượng lớn dữ liệu Nội dung cơ bản của luật kết hợp được tóm tắt như dưới đây [14]

Cho cơ sở dữ liệu gồm các giao dịch T là tập các giao dịch t1, t2, …, tn

T = {t1, t2, …, tn} T gọi là cơ sở dữ liệu giao dịch (Transaction Database)

Mỗi giao dịch ti bao gồm tập các đối tượng I (gọi là itemset)

I = {i1, i2, …, im} Một itemset gồm k items gọi là k-itemset

Mục đích của luật kết hợp là tìm ra sự kết hợp (association) hay tương quan (correlation)

giữa các items Những luật kết hợp này có dạng X =>Y

Trong Basket Analysis, luật kết hợp X =>Y có thể hiểu rằng những người mua các mặt hàng trong tập X cũng thường mua các mặt hàng trong tập Y (X và Y gọi là itemset)

Ví dụ, nếu X = {Apple, Banana} và Y = {Cherry, Durian} và ta có luật kết hợp X

=>Y thì chúng ta có thể nói rằng những người mua Apple và Banana thì cũng thường mua Cherry và Durian

Theo quan điểm thống kê, X được xem là biến độc lập (Independent variable) còn

Y được xem là biến phụ thuộc (Dependent variable)

Độ hỗ trợ (Support) và độ tin cây (Confidence) là 2 tham số dùng để đo lường luật kết hợp

Trang 32

Độ hỗ trợ (Support) của luật kết hợp X =>Y là tần suất của giao dịch chứa tất cả

các items trong cả hai tập X và Y Ví dụ, support của luật X =>Y là 5% có nghĩa là 5%

các giao dịch X và Y được mua cùng nhau

Độ tin cậy (Confidence) của luật kết hợp X =>Y là xác suất xảy ra Y khi đã biết X

Ví dụ độ tin cậy của luật kết hợp {Apple =>Banana} là 80% có nghĩa là 80% khách hàng

mua Apple cũng mua Banana

Để thu được các luật kết hợp, ta thường áp dụng 2 tiêu chí: minimum support

(min_sup) và minimum confidence (min_conf)

Các luật thỏa mãn có support và confidence thỏa mãn (lớn hơn hoặc bằng) cả Minimum support và Minimum confidence gọi là các luật mạnh (Strong Rle)

Minimum support và Minimum confidence gọi là các giá trị ngưỡng (threshold) và

phải xác định trước khi sinh các luật kết hợp

c Micorosoft Association (Luật kết hợp)

The Microsoft Association cũng thuộc về họ các thuộc toán tìm luật kết hợp theo thuật toán Apriori tức là việc tìm các luật kết hợp sẽ gồm hai pha chính là tìm tập các mục chọn thường xuyên sau đó dùng tập các mục chọn thường xuyên để sinh ra các luật kết hợp Ngoài ra còn có một khái niệm quan trọng khác liên quan trực tiếp đến việc sử dụng thuật toán kết hợp Microsoft

Độ quan trọng (I)

Độ quan trọng của một tập các mục chọn được định nghĩa như sau:

I({A,B}) = P(A,B)/(P(A)*P(B)) Nếu I = 1 thì A và B là hai mục chọn độc lập Từ việc mua sản phẩm A và việc mua sản phẩm B là hai sự kiện độc lập

Nếu I<1 thì A và B có mối liên quan với nhau một cách tiêu cực Tức là khi khách hàng mua sản phẩm A thì không có khả năng anh ta sẽ mua sản phẩm B

Nếu I>1 thì A và B có mối liên quan với nhau một cách tích cực Tức là khi khách hàng mua sản phẩm A thì khả năng anh ta sẽ mua sản phẩm B

Trong thuật toán kết hợp Microsoft còn sử dụng khái niệm xác suất (Probability) thay cho độ tin cậy (Confidence)

Ngoài ra còn có một số danh sách tham số:

Trang 33

 Minimum_Support: là một tham số giới hạn Nó xác định tần suất tối thiểu cho tập các mục chọn,nếu tập các mục chọn có tần suất lớn hơn hoặc bằng Minimum_Support thì tập đó là thường xuyên Minimum_Support có miền giá trị

từ 0 đến 1, giá trị mặc định của nó là 0.03 Nếu Minimum_Support được thiết lập với giá trị lơn hơn 1 lúc đo ta hiểu Minimum_Support chính là số lần xuất hiện của tập các mục chọn

 Maximum_Support: là một tham số giới hạn Nó xác định tần suất tối đa cho các mục chọn thường xuyên Maximum_Support có miền giá trị từ 0 đến 1, giá trị mặc định là 0,03 Nếu Maximum_Support được thiết lập giá trị lớn hơn 1 lúc đó ta hiểu Maximum_Support chính là số lần xuất hiện của tập các mục chọn

 Minimum_Probability: là một tham số giới hạn Nó xác định xác suất tối thiểu cho một luật kết hợp Miền giá trị của nó từ 0 đến 1, giá trị mặc định là 0,04

 Minimum_Importance: là tham số giới hạn cho các luật kết hợp Các luật với độ quan trọng nhỏ hơn Minimum_Importance sẽ bị loại

 Maximum_Itemset_Size: xác định kích thước tối đa của tập các mục chọn Giá trị mặc định là 0, tức không có giới hạn về kích thước của tập các mục chọn

 Minimum_Itemset_Size: xác định kích thước tối thiểu của tập các mục chọn Giá trị mặc định là 0

 Maximum_Itemset_Count: xác định số lượng tối đa của tập các mục chọn Nếu không được xác định giá trị, thuật toán sẽ sinh ra tất cả tập các mục chọn dựa vào tham số Minimum_Support

 Optimized_Prediction_Count: được sử dụng để số lượng các mục chọn để nghị cho việc dự báo được yêu cầu bởi các truy vấn Giá trị mặc định là 2

Kết luận

Trong chương này chúng tôi đã giới thiệu một số khái niệm, định nghĩa và kiến trúc của BI Việc sử dụng và tổ chức dữ liệu đa chiều trong kho nhằm giúp cho việc phân tích dự đoán đặc trưng của doanh nghiệp/tổ chức hiệu quả hơn Cùng với việc tích hợp một số kỹ thuật khai phá dữ liệu vào kho dữ liệu đã làm tăng tính khả dụng cũng như hiệu quả của công nghệ BI Trong chương tiếp theo chúng tôi sẽ trình bày nội dung phân tích dựa trên BI trong bài toán thương mại điện tử

Ngày đăng: 05/09/2015, 09:26

HÌNH ẢNH LIÊN QUAN

Hình 2.1. Kiến trúc kho dữ liệu - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 2.1. Kiến trúc kho dữ liệu (Trang 18)
Hình 2.5 Mô tả chi tiết các bước của quá trình khám phá tri thức - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 2.5 Mô tả chi tiết các bước của quá trình khám phá tri thức (Trang 24)
Hình 3.1. Cơ sở dữ liệu thương mại điện tử - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.1. Cơ sở dữ liệu thương mại điện tử (Trang 35)
Hình 3.3. Kho dữ liệu giao dịch mua bán - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.3. Kho dữ liệu giao dịch mua bán (Trang 36)
Hình 3.7. Biểu đồ báo cáo tổng hợp theo các quý của năm - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.7. Biểu đồ báo cáo tổng hợp theo các quý của năm (Trang 40)
Hình 3.9. Biểu đồ báo cáo doanh số bán hàng theo đặc tính khách hàng - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.9. Biểu đồ báo cáo doanh số bán hàng theo đặc tính khách hàng (Trang 42)
Hình 3.11. Báo cáo số lượng sản phẩm đã bán theo danh mục sản phẩm - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.11. Báo cáo số lượng sản phẩm đã bán theo danh mục sản phẩm (Trang 44)
Hình 3.14. Các tham số trong báo cáo - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.14. Các tham số trong báo cáo (Trang 46)
Hình 3.16. Biểu đồ số lượng khách hàng theo loại sản phẩm và giới tính - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.16. Biểu đồ số lượng khách hàng theo loại sản phẩm và giới tính (Trang 47)
Hình 3.21. So sánh kết quả dự báo và giá trị thật sự - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.21. So sánh kết quả dự báo và giá trị thật sự (Trang 52)
Hình 3.23. Biểu đồ dự đoán xu hướng năm tiếp theo theo thể loại và khu vực - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.23. Biểu đồ dự đoán xu hướng năm tiếp theo theo thể loại và khu vực (Trang 53)
Hình 3.27. Dữ liệu huấn luyện 2 cho mô hình dự đoán phân tích giỏ hàng - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.27. Dữ liệu huấn luyện 2 cho mô hình dự đoán phân tích giỏ hàng (Trang 56)
Hình 3.26. Dữ liệu huấn luyện 1 cho mô hình dự đoán phân tích giỏ hàng - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.26. Dữ liệu huấn luyện 1 cho mô hình dự đoán phân tích giỏ hàng (Trang 56)
Hình 3.30. Mạng phụ thuộc trong mô hình khai phá Microsoft Association Rules - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.30. Mạng phụ thuộc trong mô hình khai phá Microsoft Association Rules (Trang 60)
Hình 3.33. Dữ liệu test cho mô hình phân tích giỏ hàng  Kết quả sau khi chạy mô hình là: - Ứng dụng business intelligence SQL server 2008 trong thương mại điện tử
Hình 3.33. Dữ liệu test cho mô hình phân tích giỏ hàng Kết quả sau khi chạy mô hình là: (Trang 62)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w