Khai phá dữ liệu trong các cơ sở dữ liệu quan hệ lớn và các kho dữ liệu

Khai phá dữ liệu trong các cơ sở dữ liệu quan hệ lớn và các kho dữ liệu Khai phá dữ liệu trong các cơ sở dữ liệu quan hệ lớn và các kho dữ liệu Khai phá dữ liệu trong các cơ sở dữ liệu quan hệ lớn và các kho dữ liệu luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

LUẬN VĂN THẠC SỸ KHOA HỌC

KHAI PHÁ DỮ LIỆU TRONG CÁC CƠ SỞ DỮ LIỆU

QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU

NGÀNH: CÔNG NGHỆ THÔNG TIN

MÃ SỐ:

NGUYỄN VĂN TỈNH Người hướng dẫn khoa học: PGS.TS NGUYỄN THANH THỦY

HÀ NỘI - 2006

Trang 2

PGS.TS Nguy ễn Thanh Thuỷ, người đã có những hướng dẫn tận tình, quý

báu giúp em hoàn thành luận văn này

Em cũng xin cảm ơn các Thầy Cô thuộc trường Đại học Bách Khoa Hà Nội đã truyền đạt kiến thức quý báu trong khoá học này

Cuối cùng xin cảm ơn gia đình và cơ quan nơi công tác đã tạo điều kiện thuận lợi để tôi hoàn thành khoá học này

Hà nội, tháng 4 năm 2006 Nguy ễn Văn Tỉnh

Trang 3

MỤC LỤC

LỜI CẢM ƠN 0

MỤC LỤC 1

DANH MỤC CÁC THUẬT NGỮ 5

DANH MỤC BẢNG 6

DANH MỤC HÌNH 7

MỞ ĐẦU 8

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU 9

1.1 Phát hiện tri thức từ cơ sở dữ liệu và khai phá dữ liệu 9

1.2 Lý do phát triển khai phá dữ liệu 11

1.3 Những dạng lưu trữ dữ liệu được khai phá 12

1.3.1 Các cơ sở dữ liệu quan hệ 12

1.3.2 Các kho dữ liệu 13

1.3.3 Các cơ sở dữ liệu giao dịch 13

1.3.4 Các hệ thống cơ sở dữ liệu tiên tiến và các ứng dụng cơ sở dữ liệu tiên tiến 13

1.4 Những nhiệm vụ khai phá dữ liệu và các mẫu dữ liệu được khai phá

14

1.4.1 Mô tả đặc trưng lớp dữ liệu và so sánh lớp dữ liệu 14

1.4.2 Phân tích luật kết hợp 14

1.4.3 Phân lớp và dự đoán 16

1.4.4 Phân tích ghép cụm 16

1.4.5 Phân tích thành phần ngoài 17

1.4.6 Phân tích tiến hoá 17

1.5 Những mẫu dữ liệu được quan tâm trong khai phá dữ liệu 17

1.6 Phân loại các hệ thống khai phá dữ liệu 18

1.7 Các giải pháp chính trong khai phá dữ liệu 20

CHƯƠNG 2 KHO DỮ LIỆU VÀ NGÔN NGỮ TRUY VẤN KHAI PHÁ DỮ LIỆU 24

2.1 Kho dữ liệu và công nghệ OLAP đối với khai phá dữ liệu 24

2.1.1 Khái niệm kho dữ liệu 24

2.1.1.1 Sự khác nhau giữa các hệ thống cơ sở dữ liệu tác nghiệp và các kho dữ liệu 25

2.1.1.2 Lý do cần có một kho dữ liệu riêng biệt 26

2.1.2 Mô hình dữ liệu đa chiều 27

2.1.2.1 Các khối dữ liệu 27

2.1.2.2 Các phân cấp khái niệm (concept hierachy) 27

2.1.2.2 Các thao tác OLAP trong mô hình dữ liệu đa chiều 28

2.1.3 Kiến trúc kho dữ liệu 29

2.1.3.1 Các bước để thiết kế và xây dựng kho dữ liệu 29

Trang 4

2.1.3.2 Kiến trúc kho dữ liệu 3 tầng 29

2.1.3.3 Các loại máy chủ OLAP 30

2.1.4 Cài đặt kho dữ liệu 31

2.1.4.1 Tính toán hiệu quả các khối dữ liệu 31

2.1.4.2 Sắp xếp dữ liệu OLAP 35

2.1.4.3 Xử lý có hiệu quả các truy vấn OLAP 36

2.1.4.4 Lưu trữ siêu dữ liệu 37

2.1.5 Từ kho dữ liệu đến khai phá dữ liệu 38

2.1.5.1 Việc sử dụng kho dữ liệu 38

2.1.5.2 Tích hợp xử lý phân tích trực tuyến với khai phá dữ liệu 38

2.2 Những thành phần xác định nhiệm vụ truy vấn khai phá dữ liệu và ngôn ngữ truy vấn khai phá dữ liệu 41

2.2.1 Những thành phần xác định nhiệm vụ khai phá dữ liệu 41

2.2.1.1 Dữ liệu phù hợp nhiệm vụ 41

2.2.1.2 Loại tri thức được khai phá 42

2.2.1.3 Cơ sở tri thức: Các phân cấp khái niệm 42

2.2.1.4 Các đánh giá quan tâm 45

2.2.1.5 Biểu diễn và trực quan hoá các mẫu được phát hiện 47

2.2.2 Một ngôn ngữ truy vấn khai phá dữ liệu 47

2.2.2.1 Cú pháp đặc tả dữ liệu phù hợp nhiệm vụ 48

2.2.2.2 Cú pháp đặc tả loại tri thức được khai phá 48

2.2.2.3 Cú pháp đặc tả phân cấp khái niệm 49

2.2.2.4 Cú pháp đặc tả đánh giá mẫu quan tâm 50

2.2.2.5 Cú pháp đặc tả biểu diễn và trực quan hoá mẫu 50

2.2.2.6 Một ví dụ về truy vấn DMQL 51

CHƯƠNG 3 CÁC KỸ THUẬT KHAI PHÁ DỮ LIỆU TỪ CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU 53

3.1 Khai phá các luật kết hợp trong các cơ sở dữ liệu lớn 53

3.1.1 Khai phá luật kết hợp 53

3.1.1.1 Các khái niệm cơ sở 53

3.1.1.2 Phân loại luật kết hợp 54

3.1.2 Khai phá các luật kết hợp nhị phân một chiều từ các cơ sở dữ liệu giao dịch 55

3.1.2.1 Giải thuật Apriori: Tìm kiếm các tập mục thường xuyên sử dụng sản sinh ứng cử 55

3.1.2.2 Sản sinh các luật kết hợp từ các tập mục thường xuyên 58

3.1.2.3 Khai phá tập mục thường xuyên không sản sinh các tập ứng cử 60

3.1.3 Khai phá các luật kết hợp đa mức từ các cơ sở dữ liệu giao dịch 64 3.1.3.1 Các luật kết hợp đa mức 64

Trang 5

3.1.3.2 Các phương pháp để khai phá các luật kết hợp đa mức 64

3.1.4 Khai phá các luật kết hợp đa chiều từ các cơ sở dữ liệu quan hệ và các kho dữ liệu 67

3.1.4.1 Các luật kết hợp đa chiều 67

3.1.4.2 Khai phá luật kết hợp đa chiều sử dụng phân biệt hoá tĩnh của các thuộc tính định lượng 68

3.1.4.3 Khai phá các luật kết hợp định lượng 68

3.1.4.4 Khai phá các luật kết hợp dựa theo khoảng cách 71

3.1.5 Khai phá luật kết hợp và phân tích tương quan 73

3.2 Phân lớp và dự đoán 75

3.2.1 Tiến trình phân lớp và dự đoán 75

3.2.2 Phân lớp bằng quy nạp cây quyết định 77

3.2.2.1 Quy nạp cây quyết định 77

3.2.2.2 Cắt tỉa cây 82

3.2.2.3 Trích rút các luật từ các cây quyết định 84

3.2.2.4 Những cải thiện từ quy nạp cây quyết định cơ bản 84

3.2.2.5 Độ ổn định và quy nạp cây quyết dịnh 86

3.2.2.6 Tích hợp các công nghệ kho dữ liệu và quy nạp cây quyết định 88

3.2.3 Dự đoán 89

3.2.3.1 Hồi quy tuyến tính và đa mức 90

3.2.3.2 Hồi quy phi tuyến 91

3.3 Phân tích ghép cụm 91

3.3.1 Khái niệm phân tích ghép cụm 91

3.3.2 Các loại dữ liệu trong phân tích ghép cụm 92

3.3.2.1 Các biến interval-scaled 93

3.3.2.2 Các biến nhị phân 94

3.3.2.3 Các biến nominal, ordinal và ratio-scaled 96

3.3.2.4 Các biến kết hợp 98

3.3.3 Các phương pháp ghép cụm 99

3.3.3.1 Các phương pháp ghép cụm cổ điển 99

3.3.3.2 Các phương pháp ghép cụm trong các cơ sở dữ liệu lớn 102

CHƯƠNG 4 DBMINER- MỘT HỆ THỐNG KHAI PHÁ DỮ LIỆU TRONG CÁC CƠ SỞ DỮ LIỆU QUAN HỆ LỚN VÀ CÁC KHO DỮ LIỆU 103

4.1 Kiến trúc hệ thống 103

4.2 Thông tin vào/ ra 105

4.3 Các chức năng khai phá dữ liệu chính được hỗ trợ bởi DBMiner 106

4.3.1 OLAP Browser 106

4.3.2 Khai phá luật kết hợp 106

4.3.3 Phân lớp 109

Trang 6

4.3.4 Dự đoán 111

4.3.5 Ghép cụm 112

4.4 Những ứng dụng chính 114

4.5 Yêu cầu phần cứng, phần mềm 114

KẾT LUẬN 115

TÀI LIỆU THAM KHẢO 116

Trang 7

DANH MỤC CÁC THUẬT NGỮ Thuật ngữ tiếng anh Thuật ngữ tiếng việt

Boolean association rule Luật kết hợp logic

Clustering analysis Phân tích ghép cụm

Data integration Tích hợp dữ liệu

Data mining query language Ngôn ngữ truy vấn khai phá dữ liệu Data preprocessing Tiền xử lý dữ liệu

Data transformation Chuyển đổi dữ liệu

Frequent Itemset Tập mục thường xuyên

Frequent pattern tree Cây mẫu thường xuyên

Information gain Thu thập thông tin

Knowledge presentation Biểu diễn tri thức

Multiple-level association rule Luật kết hợp đa mức

Multiple dimensional association rule Luật kết hợp đa chiều

On-line transaction processing (OLTP) Xử lý giao dịch trực tuyến

On-line analysis processing (OLAP) Xử lý phân tích trực tuyến

Trang 8

DANH M ỤC BẢNG

Bảng 2.1 Sự khác nhau giữa hệ thống OLTP và hệ thống OLAP 26 Bảng 3.1 Cơ sở dữ liệu giao dịch AllElectronics 58 Bảng 3.2 Khai phá cây FP-tree bằng cách tạo lập các cơ sở mẫu điều kiện 62

Bảng 3.3 Các mẫu dữ liệu đối với lớp buys_computer 86

Bảng 3.4 Bảng ngẫu nhiên với các biến nhị phân 94

Bảng 3.5 Bảng quan hệ chứa các thuộc tính nhị phân 95

Trang 9

DANH M ỤC HÌNH

Hình 1.1 Kiến trúc của một hệ thống khai phá dữ liệu điển hình 10

Hình 1.2 Khai phá dữ liệu như sự giao thoa của các chuyên ngành 18

Hình 2.1 Phân cấp khái niệm về vị trí 26

Hình 2.3 Kiến trúc kho dữ liệu 29

Hình 2.3 Lưới các khối con tạo thành khối dữ liệu 3 chiều 32

Hình 2.4 Kiến trúc OLAM và OLAP tích hợp 40

Hình 3.1 Minh hoạ giải thuật Apriori 59

Hình 3.2 Cây FP_tree biểu diễn các mục thường xuyên 61

Hình 3.3 Khai phá đa mức với ngưỡng đồng nhất 65

Hình 3.4 Khai phá đa mức với ngưỡng suy giảm 66

Hình 3.5 Khai phá đa mức với ngưỡng suy giảm sử dụng lọc chéo .66

Hình 3.6 một lưới 2 chiều đối với luật kết hợp định lượng 2 chiều .70

Hình 3.7 Các phương pháp chia khoảng 71

Hình 3.8 Tiến trình phân lớp dữ liệu 75

Hình 3.9 Cây quyết định biểu diễn khái niệm buys_computer 77

Hình 3.10 Tập dữ liệu huấn luyện từ cơ sở dữ liệu khách hàng 81

Hình 3.11 Các nhánh cây được phát triển bởi thuộc tính age 82

Hình 3.12 Cấu trúc danh sách thuộc tính,danh sách lớp sử dụng SLIQ 87

Hình 3.13 Cấu trúc danh sách thuộc tính được sử dụng trong SPRINT 87

Hình 4.1 Kiến trúc tổng quát của hệ thống DBMiner 104

Hình 4.2 Module cơ bản của DBMiner_Máy OLAM 105

Hình 4.3 Dữ liệu tổng hợp được hiển thị qua khối dữ liệu 106

Hình 4.4 Màn hình chọn chiều đối với khai phá luật kết hợp liên chiều 107

Hình 4.5 Màn hình đặc tả độ hỗ trợ và độ tin cậy tối thiểu 107

Hình 4.6 Tập mục thường xuyên được khai phá 108

Hình 4.7 Các luật kết hợp được khai phá được biểu diễn dưới dạng đồ thị bóng 108

Hình 4.8 Các luật kết hợp được khai phá được biểu diễn dưới dạng khối phẳng 109

Hình 4.9 Màn hình đặc tả các ngưỡng trong phân lớp 110

Hình 4.10 Cây quyết định phân lớp trong DBMiner 110

Hình 4.11 Các luật phân lớp thu được từ cây quyết định 111

Hình 4.12 Kết quả dự đoán khi dữ liệu dự đoán là dữ liệu số 111

Hình 4.13 Kết quả dự đoán khi dữ liệu dự đoán là dữ liệu chủng loại 112

Hình 4.14 Màn hình thiết lập điều kiện ghép cụm bằng giải thuật k-trung bình 113

Hình 4.15.Kết quả ghép cụm được biểu diễn trong DBMiner 113

Trang 10

MỞ ĐẦU

Hiện nay chúng ta đang bị tràn ngập bởi dữ liệu, từ dữ liệu khoa học,

dữ liệu y học, dữ liệu nhân khẩu học, dữ liệu tài chính đến dữ liệu tiếp thị trên các thị trường Chúng ta không có thời gian để xem xét tất cả những dữ liệu này Vì vậy chúng ta phải tìm ra những cách phân tích tự động dữ liệu, phân

loại tự động nó, tổng hợp tự động, phát hiện tự động và mô tả những xu hướng trong nó và đánh dấu tự động những bất thường trong dữ liệu Đây là một trong những lĩnh vực tích cực nhất và hấp dẫn nhất của hiệp hội những

người nghiên cứu về cơ sở dữ liệu Những người nghiên cứu trong các lĩnh

vực như thống kê, trực quan hoá, trí tuệ nhân tạo và học máy đang rất quan tâm đến lĩnh vực này Độ rộng của lĩnh vực này tạo ra những khó khăn để hiểu thấu sự phát triển lạ thường của nó trong vài năm gần đây

Trong luận văn này tôi muốn đề cập đến cách tổ chức dữ liệu và kỹ thuật khai phá dữ liệu Luận văn được bắt đầu bằng cách tổng quan về khai phá dữ liệu Sau đó lần lượt bao quát đến mô hình tổ chức dữ liệu và ngôn ngữ truy vấn dữ liệu, những khái niệm và kỹ thuật phân khai phá dữ liệu như khai phá luật kết hợp, phân lớp và dự đoán, và ghép cụm dữ liệu Phần tiếp theo của luận văn giới thiệu về hệ thống DBMiner, hệ thống khai phá dữ liệu

trực tuyến được phát triển để khai phá tri thức đa mức trong những cơ sở dữ

liệu quan hệ lớn và các kho dữ liệu

Trang 11

CHƯƠNG 1 TỔNG QUAN VỀ KHAI PHÁ DỮ LIỆU

1.1 Phát hi ện tri thức từ cơ sở dữ liệu và khai phá dữ liệu

Nhiều người coi khai phá dữ liệu như một từ đồng nghĩa của thuật ngữ được sử dụng phổ biến là phát hiện tri thức trong các cơ sở dữ liệu (Knowledge Discovery in Databases-KDD) Nhưng một số người khác lại xem khai phá dữ liệu như một bước cơ bản trong tiến trình phát hiện tri thức trong các cơ sở dữ liệu Phát hiện tri thức một tiến trình bao gồm một chuỗi các bước sau đây :

(1) Làm sạch dữ liệu: Để loại bỏ nhiễu và dữ liệu không nhất quán

(2) Tích hợp dữ liệu: Nhiều nguồn dữ liệu có thể được kết hợp lại thành một nguồn dữ liệu nhất quán

(3) Chọn lọc dữ liệu: Những dữ liệu phù hợp với công việc được truy lục từ

cơ sở dữ liệu

(4) Chuyển đổi dữ liệu: dữ liệu được chuyển đổi hoặc đồng nhất thành các

dạng phù hợp cho việc khai phá bằng cách thực hiện các thao tác tổng hợp hoặc kết tập

(5) Khai phá dữ liệu: Một tiến trình cơ bản nơi trong đó các phương pháp thông minh được áp dụng nhằm mục tiêu trích rút các mẫu dữ liệu

(6) Đánh giá mẫu: xác định tính chính xác của các mẫu được quan tâm biểu

diễn tri thức dựa trên một vài phương pháp quan tâm

(7) Biểu diễn tri thức: biểu diễn tri thức khai phá được cho người sử dụng bằng các công cụ và kỹ thuật trực quan

Mặc dù khai phá dữ liệu là một bước trong tiến trình phát hiện tri thức

từ cơ sở dữ liệu nhưng thuật ngữ khai phá dữ liệu đã trở thành phổ biến hơn thuật ngữ tồn tại trong tiến trình phát hiện tri thức trong các cơ sở dữ liệu Vì vậy ta có thể định nghĩa như sau: Khai phá dữ liệu là một tiến trình phát

Trang 12

hiện tri thức đáng quan tâm từ các lượng dữ liệu lớn được lưu trữ hoặc trong các cơ sở dữ liệu, các kho dữ liệu hoặc các kho thông tin khác

Dựa trên quan điểm này, kiến trúc của một hệ thống khai phá dữ liệu điển hình có những thành phần chính như sau (hình 1.1):

- Cơ sở dữ liệu, kho dữ liệu hoặc các kho thông tin khác: Đây là một hoặc

một tập hợp các cơ sở dữ liệu, các kho dữ liệu, các bảng tính hoặc các loại lưu trữ thông tin khác

- Máy chủ cơ sở dữ liệu hoặc kho dữ liệu: Máy chủ cơ sở dữ liệu hoặc kho

dữ liệu có nhiệm vụ để thực thi dữ liệu liên quan dựa trên các yêu cầu khai phá dữ liệu của người sử dụng

- Cơ sở tri thức: Đây là tri thức lĩnh vực được sử dụng để trợ giúp tìm kiếm hoặc đánh giá những mẫu kết quả đáng quan tâm

Giao diện người dùng đồ hoạ

Cơ sở dữ liệu Kho dữ liệu

Máy chủ cơ sở dữ liệu hoặc kho dữ liệu Máy khai phá dữ liệu

Trang 13

- Máy khai phá dữ liệu: Đây là thành phần cơ bản của hệ thống khai phá dữ

liệu và một cách lý tưởng bao gồm một tập hợp các modules chức năng cho các nhiệm vụ như mô tả lớp, khai phá kết hợp, phân lớp, ghép cụm và phân tích suy dẫn và tiến hoá

- Mô đun đánh giá mẫu: Thành phần này thường sử dụng các đánh giá đáng quan tâm và tương tác với các mô đun khai phá dữ liệu do đó tập trung vào các hướng tìm kiếm các mẫu mà ta quan tâm

- Giao diện người dùng đồ họa: Mô đun này liên kết giữa người dùng và hệ thống khai phá dữ liệu, cho phép người dùng tương tác với hệ thống bằng cách đặc tả yêu cầu khai phá bằng cách cung cấp thông tin để trợ giúp tập trung tìm kiếm và thực hiện khai phá dữ liệu dựa trên những kết quả khai phá dữ liệu tức thời Ngoài ra thành phần này cho phép người dùng lướt qua các sơ đồ kho dữ liệu và cơ sở dữ liệu, đánh giá các mẫu khai phá được và trực quan hoá các mẫu theo các dạng khác nhau

Khai phá dữ liệu liên quan đến một sự tích hợp các kỹ thuật từ nhiều ngành chuyên môn như công nghệ cơ sở dữ liệu, thống kê, học máy, tính toán hiệu năng cao, nhận dạng, các mạng nơ ron, trực quan hoá dữ liệu, truy lục thông tin, xử lý tín hiệu và hình ảnh và phân tích dữ liệu không gian

1.2 Lý do phát tri ển khai phá dữ liệu

Lý do chính khai phá dữ liệu thu hút được sự quan tâm của ngành công nghiệp thông tin trong những năm gần đây là vì sự sẵn sàng lớn đối với những lượng dữ liệu khổng lồ và những nhu cầu sắp xảy ra đối với việc chuyển biến

dữ liệu đó thành thông tin tri thức có ích Thông tin và tri thức thu được có thể được sử dụng cho các ứng dụng khác nhau từ quản trị doanh nghiệp, điều

phối sản xuất, phân tích thị trường cho tới các thiết kế công nghệ và các khám phá khoa học

Trang 14

Trong những năm gần đây sự lớn mạnh khác thường của lượng dữ liệu làm cho dữ liệu được thu thập và lưu trữ trong các cơ sở dữ liệu là quá lớn và

đã vượt xa khả năng của con người để có thể hiểu được chúng mà không có các công cụ do đó dữ liệu lịch sử hiếm khi được xem xét Điều đó làm cho những quyết định quan trọng thường được tạo lập không được căn cứ vào dữ

liệu giàu thông tin (information–rich data) được lưu trữ trong các cơ sở dữ

liệu mà dựa vào khả năng trực giác của người tạo lập quyết định Ngoài ra, việc xem xét những công nghệ hệ chuyên gia hiện hành thường dựa vào những người sử dụng hoặc các chuyên gia trong lĩnh vực để nhập tri thức thành các cơ sở tri thức một cách thủ công Nhưng thủ tục này dễ xảy ra

những sai lệch và lỗi, và đặc biệt là tiêu tốn thời gian và chi phí Các công cụ khai phá dữ liệu thực hiện phân tích dữ liệu và có thể phát hiện những mẫu dữ liệu quan trọng đóng góp to lớn vào các chiến lược kinh doanh, các nghiên cứu khoa học và y học…Khoảng trống rộng rãi giữa dữ liệu và thông tin là lý

do cần thiết để phát triển hệ thống các công cụ khai phá dữ liệu

1.3 Nh ững dạng lưu trữ dữ liệu được khai phá

Về nguyên tắc, khai phá dữ liệu được áp dụng cho bất kỳ loại hình lưu trữ dữ liệu nào bao gồm cơ sở dữ liệu quan hệ, các kho dữ liệu, các cơ sở dữ

liệu giao dịch và các hệ thống cơ sở dữ liệu tiên tiến, các hệ tệp phẳng và World Wide Web

1.3.1 Các cơ sở dữ liệu quan hệ

Khi khai phá dữ liệu được áp dụng cho các cơ sở dữ liệu quan hệ, một truy vấn có thể đi xa hơn việc truy lục những tập dữ liệu con cụ thể bằng cách tìm kiếm các xu hướng hoặc các mẫu dữ liệu Ví dụ, các hệ thống khai phá dữ

liệu có thể phân tích dữ liệu khách hàng để dự đoán nguy cơ tín dụng của các khách hàng mới dựa trên thu nhập, tuổi tác và thông tin tín dụng trước đó Các hệ thống khai phá dữ liệu cũng có thể xác định được những sai lệch ví dụ

Trang 15

như những mặt hàng của những người bán hàng không như mong muốn của

họ trong sự so sánh với năm trước đó Các cơ sở dữ liệu quan hệ là một trong những dạng lưu trữ giàu thông tin và sẵn sàng phổ biến nhất và vì vậy chúng

là một dạng dữ liệu chính trong nghiên cứu về khai phá dữ liệu

1.3.2 Các kho dữ liệu

Tuy các công cụ về kho dữ liệu trợ giúp việc phân tích dữ liệu nhưng các công cụ bổ sung để khai phá dữ liệu là cần thiết để phân tích tự động và sâu về dữ liệu

1.3.3 Các cơ sở dữ liệu giao dịch

Trong thực tế người phân tích dữ liệu giao dịch thường hay đặt ra

những câu hỏi dạng: “Những mặt hàng nào thường được bán cùng nhau?” Một hệ thống truy vấn dữ liệu thông thường không có khả năng trả lời những câu hỏi kiểu như trên nhưng các hệ thống khai phá dữ liệu đối với dữ liệu giao dịch có thể thực hiện được điều đó bằng cách xác định các tập các mặt hàng

thường xuyên xuất hiện cùng nhau

1.3.4 Các hệ thống cơ sở dữ liệu tiên tiến và các ứng dụng cơ sở dữ

liệu tiên tiến

Nhằm đáp ứng cho những nhu cầu kiểm soát các cấu trúc đối tượng

phức hợp, các bản ghi độ dài thay đổi, dữ liệu có cấu trúc hoặc bán cấu trúc,

dữ liệu văn bản hoặc đa phương tiện và các lược đồ cơ sở dữ liệu với các cấu trúc phức hợp và các thay đổi động, những hệ thống cơ sở dữ liệu tiên tiến và các hệ thống cơ sở dữ liệu hướng ứng dụng bao gồm các hệ thống cơ sở dữ liệu hướng đối tượng và đối tượng-quan hệ, các hệ thống cơ sở dữ liệu không gian, các hệ thống cơ sở dữ liệu thời gian và chuỗi thời gian, các hệ thống cơ

sở dữ liệu đa phương tiện, các hệ thống cơ sở dữ liệu hỗn hợp và lịch sử và các hệ thống thông tin toàn cầu dựa trên Web đã được phát triển Những hệ thống này đòi hỏi việc cài đặt các giải pháp để khai phá dữ liệu

Trang 16

1.4 Nh ững nhiệm vụ khai phá dữ liệu và các mẫu dữ liệu được khai phá

Các nhiệm khai phá dữ liệu được sử dụng để đặc tả những loại mẫu dữ liêu có thể được tìm thấy trong khai phá dữ liệu Nói chung các nhiệm vụ khai phá dữ liệu có thể được phân chia thành hai loại: Mô tả dữ liệu và dự đoán trên dữ liệu Các nhiệm vụ khai phá mô tả dữ liệu mô tả những đặc tính chung

của dữ liệu trong cơ sở dữ liệu Các nhiệm vụ khai phá dự đoán dữ liệu thực

hiện suy diễn trên dữ liệu hiện hành để tạo các dự đoán Những nhiệm vụ khai phá dữ liệu và những loại mẫu khác nhau có thể được phát hiện được mô tả ở phần dưới đây:

1.4.1 Mô tả đặc trưng lớp dữ liệu và so sánh lớp dữ liệu

Dữ liệu có thể được diễn đạt bằng những thuật ngữ tổng hợp, ngắn gọn nhưng vẫn chính xác Những diễn đạt như vậy của một lớp dữ liệu được gọi là các mô tả đặc trưng lớp dữ liệu Những mô tả đặc trưng lớp dữ liệu này có thể được suy dẫn thông qua (1) Tổng hợp dữ liệu của lớp đang nghiên cứu thành

những mô tả tổng quát hơn (2) So sánh lớp dữ liệu đang nghiên cứu với một hoặc một tập các lớp khác để tìm ra những đặc trưng dữ liệu (3) cả tổng hợp

dữ liệu và so sánh lớp dữ liệu với lớp dữ liệu khác

Ví dụ: Cho cơ sở dữ liệu quan hệ ALLElectronics như sau:

Trang 17

…

High resolution Mutidisc

…

TV CDPla yer

…

Nikox Music Front

Trang 18

Trong đó X là một biến biểu diễn một khách hàng Luật trên chỉ ra rằng 2% các khách hàng của AllElectronics đang được nghiên cứu, tuổi từ 20 đến

29, thu nhập từ $20000 đến $29000 đã mua CD player tại AllElectronics Xác suất 60% rằng một khách hàng ở trong độ tuổi và thu nhập này mua sẽ mua

CD player

1.4.3 Phân lớp và dự đoán

Phân lớp là một tiến trình tìm ra một tập các mô hình mô tả và phân

biệt các lớp dữ liệu khác nhau để đạt mục tiêu có khả năng sử dụng mô hình

để dự đoán các đối tượng của một lớp mà ta chưa biết tên Mô hình được suy

dẫn dựa trên việc phân tích một tập dữ liệu huấn luyện

Phân lớp có thể được sử dụng để dự đoán tên lớp của các đối tượng dữ

liệu Tuy nhiên, trong rất nhiều ứng dụng, người sử dụng có thể muốn dự đoán những giá trị dữ liệu khuyết hoặc không dùng được hơn là dự đoán tên lớp Đây là trường hợp thông thường khi các giá trị được dự đoán là dữ liệu

số và thường được gọi riêng là dự đoán Mặc dù dự đoán có thể tham chiếu

tới cả dự đoán giá trị dữ liệu và dự đoán tên lớp, nhưng nó thường được giới hạn để dự đoán giá trị dữ liệu và vì vậy, nó có sự khác biệt với phân lớp Dự

đoán cũng bao gồm việc xác định những xu hướng phân bố dựa trên dữ liệu

có sẵn

1.4.4 Phân tích ghép cụm

Không giống như phân lớp và dự đoán, những phương pháp phân tích các đối tượng dữ liệu đã biết tên lớp, ghép cụm dữ liệu phân tích các đối tượng dữ liệu mà không tham khảo một tên lớp đã biết Nói chung, các tên

lớp không có mặt trong dữ liệu huấn luyện bởi vì chúng không được biết đến

để bắt đầu với việc phân tích Những đối tượng được ghép cụm dựa trên nguyên tắc cực đại hoá độ tương tự trong cùng một lớp và tối thiểu hoá độ tương tự giữa các lớp khác nhau Mỗi “cụm” được tạo thành có thể được coi

Trang 19

như một lớp các đối tượng Việc ghép cụm cũng có thể làm dễ dàng việc sắp

xếp phân loại, có nghĩa là tổ chức lại những đối tượng quan sát thành một phân cấp của các lớp mà nhóm các sự kiện tương tự lại với nhau

1.4.5 Phân tích thành ph ần ngoài

Một cơ sở dữ liệu có thể chứa các đối tượng dữ liệu không tuân theo ứng xử chung hoặc mô hình chung của dữ liệu Những đối tượng dữ liệu này được gọi là các thành phần ngoài Hầu hết các phương pháp khai phá dữ liệu coi các các thành phần ngoài như là nhiễu hay ngoại lệ Tuy nhiên, trong một

số ứng dụng như xác định gian lận, những sự kiện hiếm xảy ra có thể thu hút

sự quan tâm hơn là những sự kiện thường xảy ra Việc phân tích dữ liệu thành

phần ngoài được tham chiếu tới như là khai phá thành phần ngoài

1.4.6 Phân tích tiến hoá

Phân tích tiến hoá dữ liệu mô tả và mô hình hoá những quy tắc hay những xu hướng đối với những đối tượng mà các ứng xử thay đổi theo thời gian Mặc dù phương pháp này bao gồm đặc trưng hoá, phân biệt hoá, kết hợp, phân lớp hoặc ghép cụm dữ liệu liên quan đến thời gian, các đặc trưng về khoảng cách của một phương pháp phân tích bao gồm phân tích dữ liệu chuỗi thời gian, phân tích dữ liệu dựa trên độ tương tự

1.5 Nh ững mẫu dữ liệu được quan tâm trong khai phá dữ liệu

Một hệ thống khai phá dữ liệu có khả năng sản sinh hàng nghìn hay thậm chí hàng triệu mẫu hay các luật Thông thường chỉ một phần các mẫu có được sản sinh sẽ thu hút được sự quan tâm của người sử dụng Điều này đặt ra câu hỏi cho khai phá dữ liệu “ Loại mẫu nào tạo được sự quan tâm? Một hệ

thống khai phá dữ liệu có thể sản sinh tất cả các mẫu ta quan tâm không? Một

hệ thống khai phá dữ liệu có thể sản sinh chỉ những mẫu mà ta quan tâm hay không?”

Để trả lời cho câu hỏi thứ nhất, một mẫu là đáng quan tâm nếu (1) Nó

Trang 20

là dễ hiểu đối với con người (2) Có giá trị trên dữ liệu mới hay dữ liệu thử nghiệm (3) Có tính hữu dụng tiềm năng và (4) mới lạ Một mẫu cũng là đáng quan tâm nếu nó chứng minh mệnh đề mà người sử dụng mong muốn khẳng

định Một mẫu đáng quan tâm biểu diễn được tri thức

Đối với câu hỏi thứ hai “ Một hệ thống khai phá dữ liệu có thể sản sinh được tất cả các mẫu mà ta quan tâm?” Câu hỏi này nói tới tính đầy đủ của

giải thuật khai phá dữ liệu Nó là thường không thực tế và không hiệu quả đối với các hệ thống khai phá dữ liệu để sản sinh tất cả các mẫu có thể Thay vì vậy những ràng buộc được cung cấp bởi người sử dụng và những đánh giá về

mẫu quan tâm nên được sử dụng để tập trung sự tìm kiếm Điều đó thường đủ

để đảm bảo tính đầy đủ của giải thuật khai phá dữ liệu

Đối với câu hỏi thứ ba “Liệu một hệ thống khai phá dữ liệu chỉ sản sinh

ra các mẫu mà ta quan tâm?” Đây là vấn đề tối ưu hoá khai phá dữ liệu Đây

là một mong muốn lớn đối với các hệ thống khai phá dữ liệu Tuy nhiên vấn

đề tối ưu vẫn còn là một thách thức trong khai phá dữ liệu

1.6 Phân loại các hệ thống khai phá dữ liệu

Khai phá dữ liệu là một lĩnh vực liên quan đến nhiều lĩnh vực học thuật, sự giao thoa của một tập những chuyên ngành bao gồm các hệ thống cơ

sở dữ liệu, thống kê, học máy, trực quan hoá và khoa học thông tin như được minh hoạ trong hình 1.2 dưới đây

Khai phá dữ liệu Khoa học thông tin

Thống kê

Học máy

Trực quan hoá Các ngành khác Công nghệ cơ sở dữ liệu

Hình 1.2 Khai phá dữ liệu như sự giao thoa của các chuyên

Trang 21

Bởi vì tính đa dạng của các chuyên ngành tham gia vào khai phá dữ

liệu, vì vậy nó là cần thiết cung cấp một phân loại rõ ràng các hệ thống khai phá dữ liệu Các hệ thống khai phá dữ liệu có thể được phân loại dựa theo các tiêu chuẩn khác nhau như sau:

• Phân loại dựa theo loại cơ sở dữ liệu được khai phá: Một hệ thống

khai phá dữ liệu có thể được phân loại dựa theo loại cơ sở dữ liệu được khai phá Các hệ thống cơ sở dữ liệu bản thân chúng cũng có thể được phân loại

dựa theo các tiêu chuẩn khác nhau, mỗi loại đòi hỏi kỹ thuật khai phá dữ liệu riêng của nó Ví dụ nếu phân loại dựa theo mô hình dữ liệu, chúng ta có thể

có hệ thống khai phá dữ liệu quan hệ, giao dịch, hướng đối tượng, quan đối tượng hay kho dữ liệu Nếu phân loại theo loại dữ liệu cụ thể được điều khiển, chúng ta có thể có hệ thống khai phá dữ liệu không gian, chuỗi thời gian, đa phương tiện, hay World Wide Web

hệ-• Phân loại dựa theo loại tri thức được khai phá: Các hệ thống khai

phá dữ liệu có thể được phân loại dựa theo loại tri thức được khai phá có nghĩa là dựa trên các chức năng khai phá dữ liệu như đặc trưng hoá, phân biệt hoá, kết hợp, phân lớp, ghép cụm, thành phần ngoài hay phân tích tích cải tiến Một hệ thống khai phá dữ liệu tổng quát thường cung cấp/ tích hợp nhiều

chức năng khai phá dữ liệu

• Phân loại dựa theo loại kỹ thuật được sử dụng: Các hệ thống khai

phá dữ liệu có thể được phân loại theo các kỹ thuật khai phá dữ liệu cơ bản được sử dụng Những kỹ thuật này có thể được mô tả theo mức độ tương tác

người dùng có liên quan (ví dụ: Các hệ thống tự trị, các hệ thống khai thác tương tác, các hệ thống điều khiển truy vấn) hoặc các phương pháp phân tích

dữ liệu được sử dụng (như kỹ thuật cơ sở dữ liệu hướng đối tượng, kho dữ

liệu, học máy, thống kê, trực quan hoá, nhận dạng, mạng nơron…) Một hệ

thống khai phá dữ liệu tinh vi thường thích ứng với nhiều kỹ thuật hoặc làm

Trang 22

việc với một kỹ thuật tích hợp hiệu quả kết hợp những ưu điểm của từng

phương pháp riêng rẽ

• Phân loại dựa theo các ứng dụng được được mô phỏng: Các hệ

thống khai phá dữ liệu có thể được phân loại theo các ứng dụng mà chúng mô

phỏng Ví dụ có các hệ thống khai phá dữ liệu đặc biệt cho lĩnh vực tài chính, truyền thông, DNA, thị trường chứng khoán, thư điện tử,…

1.7 Các giải pháp chính trong khai phá dữ liệu

• Các giải pháp khai phá phương pháp và tương tác người dùng

Những giải pháp khai phá phương pháp và tương tác người dùng phản ánh các loại tri thức được khai phá, khả năng để khai phá tri thức ở nhiều

mức, việc sử dụng cơ sở lĩnh vực, khai phá đặc biệt và trực quan hoá tri thức

o Khai phá các loại tri thức khác nhau trong cơ sở dữ liệu

Vì những người sử dụng khác nhau có thể quan tâm đến những loại tri thức khác nhau, khai phá dữ liệu nên bao quát một phạm vi rộng các nhiệm vụ phân tích dữ liệu và phát hiện tri thức, bao gồm mô tả đặc trưng lớp , so sánh

lớp, khai phá luật kết hợp, phân lớp, ghép cụm, Do đó yêu cầu phát triển những hệ thống bao gồm một lượng lớn các kỹ thuật khai phá dữ liệu

o Khai phá tương tác của tri thức ở nhiều mức trừu tượng

Vì rất khó để biết chính xác những gì có thể được phát hiện trong cơ sở

dữ liệu nên tiến trình khai phá dữ liệu nên là tương tác Việc khai phá tương tác cho phép người sử dụng tập trung vào tìm kiếm các mẫu, cung cấp và tinh chỉnh các yêu cầu khai phá dữ liệu dựa trên những kết quả được trả về Cần phát triển các hệ thống khai phá dữ liệu ở nhiều mức khác nhau

o Tích hợp cơ sở tri thức

Cơ sở tri thức có thể được sử dụng để trợ giúp tiến trình phát hiện và cho phép các mẫu được phát hiện có thể được diễn đạt trong những thuật ngữ ngắn gọn và ở nhiều mức trừu tượng khác nhau Tri thức lĩnh vực liên quan

Trang 23

đến các cơ sở dữ liệu như những ràng buộc toàn vẹn và những luật suy diễn

có thể trợ giúp tập trung và cải thiện tốc độ một tiến trình khai phá dữ liệu, chỉ quan tâm đến những mẫu được phát hiện

o Các ngôn ngữ truy vấn khai phá dữ liệu

Những ngôn ngữ truy vấn khai phá dữ liệu bậc cao cần được phát triển

để cho phép người sử dụng mô tả những nhiệm vụ khai phá dữ liệu đặc biệt

bằng cách làm dễ dàng những đặc tả của những tập dữ liệu liên quan để phân tích các loại tri thức cần phải được khai phá, các điều kiện và các ràng buộc cần được nhấn mạnh trên các mẫu được phát hiện Những ngôn ngữ như vậy

cần phải được tích hợp với ngôn ngữ truy vấn cơ sở dữ liệu hoặc kho dữ liệu

và phải được tối ưu hoá để việc khai phá dữ liệu hiệu quả và linh hoạt

o Biểu diễn và trực quan hoá các kết quả khai phá dữ liệu

Tri thức được phát hiện cần phải được diễn giải bằng những ngôn ngữ bậc cao, biểu diễn trực quan, hoặc những dạng diễn giải khác để tri thức có

thể được hiểu một cách dễ dàng và trực tiếp bởi con người Điều đó yêu cầu

hệ thống phải thích ứng với những kỹ thuật biểu diễn tri thức diễn giải, như cây, bảng, đồ thị, lược đồ, ma trận…

o Kiểm soát nhiễu và dữ liệu không đầy đủ

Dữ liệu được lưu trữ trong cơ sở dữ liệu có thể phản ánh nhiễu, những

trường hợp ngoại lệ, hoặc các đối tượng dữ liệu không đầy đủ Như một hệ quả, độ chính xác của các mẫu được phát hiện có thể thấp Các phương pháp làm sạch dữ liệu và các phương pháp phân tích dữ liệu có thể kiểm soát nhiễu được yêu cầu cũng như những phương pháp khai phá thành phần ngoài để phát hiện và phân tích những trường hợp ngoại lệ

o Đánh giá mẫu

Rất nhiều mẫu được phát hiện có thể không được quan tâm bởi người

sử dụng, phương pháp biểu diễn tri thức chung, thiếu tính đa dạng Một vài

Trang 24

thách thức liên quan đến những kỹ thuật để đánh giá tính hấp dẫn của những

mẫu được phát hiện, đặc biệt với những mẫu liên quan đến những đánh giá chủ quan giá trị của những mẫu liên quan tới một lớp người sử dụng đã cho, dựa trên mong đợi hoặc niềm tin của những người sử dụng

• Các giải pháp nâng cao hiệu năng:

Các giải pháp nâng cao hiệu năng liên quan đến tính hiệu quả, độ

ổn định, và song song của các giải thuật khai phá dữ liệu

o Hiệu quả và tính ổn định của các giải thuật khai phá dữ liệu

Để trích rút thông tin hiệu quả từ một lượng dữ liệu khổng lồ trong cơ

sở dữ liệu, các giải thuật khai phá dữ liệu cần phải hiệu quả và ổn định Nói cách khác cần phát triển các giải thuật khai phá dữ liệu mà thời gian thực hiện

phải có thể dự đoán được và chấp nhận được trong các cơ sở dữ liệu lớn

o Các giải thuật khai phá dữ liệu song song, phân tán và tăng trưởng

Một lượng khổng lồ các cơ sở dữ liệu, sự phân bố rộng rãi của dữ liệu

và độ phức tạp tính toán của một số phương pháp khai phá dữ liệu là những nhân tố kích hoạt sự phát triển của các giải thuật khai phá dữ liệu song song

và phân tán Thậm chí chi phí cao của một vài tiến trình khai phá dữ liệu đặt

ra nhu cầu đối với các giải thuật khai phá dữ liệu tăng trưởng mà chúng được tích hợp với những cập nhật cơ sở dữ liệu mà không cần khai phá lại toàn bộ

cơ sở dữ liệu Những giải thuật như vậy thực hiện hiệu chỉnh tri thức một cách tăng trưởng để cải thiện và làm mạnh những gì đã được phát hiện trước

• Các giải pháp liên quan đến sự đa dạng của các loại cơ sở dữ liệu

o Điều khiển dữ liệu quan hệ và các kiểu dữ liệu phức tạp

Không thực tế để kỳ vọng một hệ thống khai phá tất các kiểu dữ liệu, một hệ

thống đa kiểu dữ liệu và đa mục tiêu Các hệ thống khai phá dữ liệu cụ thể nên được xây dựng để khai phá các kiểu dữ liệu cụ thể Vì vậy một hệ thống

Trang 25

có thể có một vài hệ thống khai phá dữ liệu khác nhau cho một vài kiểu dữ

việc trao đổi thông tin trong các cơ sở dữ liệu hỗn hợp Khai phá Web bao quát tới tri thức hấp dẫn về các nội dung Web, sử dụng Web,… trở thành một thách thức lớn và một lĩnh vực nghiên cứu năng động cao trong khai phá dữ liệu

Trang 26

CH ƯƠNG 2 KHO DỮ LIỆU VÀ NGÔN NGỮ TRUY VẤN

KHAI PHÁ D Ữ LIỆU 2.1 Kho dữ liệu và công nghệ OLAP đối với khai phá dữ liệu

2.1.1 Khái ni ệm kho dữ liệu

Theo W.H.Inmon, một nhà kiến trúc hàng đầu trong lĩnh vực xây dựng các hệ thống kho dữ liệu, kho dữ liệu được định nghĩa “ Kho dữ liệu là một tập hợp dữ liệu hướng chủ đề, tích hợp, biến đổi theo thời gian, không dễ thay đổi nhằm hỗ trợ tiến trình tạo lập quyết định” Trong định nghĩa trên có 4 từ khoá: hướng chủ đề, tích hợp, biến đổi theo thời gian, không dễ thay đổi Những từ khoá này phân biệt các đặc trưng của kho dữ liệu so với các hệ thống lưu trữ dữ liệu khác như các hệ cơ sở dữ liệu quan hệ, các hệ thống xử

lý giao dịch, các hệ thống tệp

Hướng chủ đề: Một kho dữ liệu được tổ chức theo một số chủ đề

chính, như khách hàng, nhà cung cấp, sản phẩm,… Kho dữ liệu thường cung cấp cách nhìn đơn giản và ngắn gọn về các giải pháp hướng chủ đề đặc biệt bằng cách ngăn chặn dữ liệu không hữu ích cho tiến trình hỗ trợ quyết định

Tích hợp: Một kho dữ liệu thường được xây dựng bằng cách tích hợp

các nguồn dữ liệu hỗn hợp nhiều mức như cơ sở dữ liệu quan hệ, các tệp phẳng, các bản ghi giao dịch trực tuyến

Biến đổi theo thời gian: Dữ liệu được lưu trữ cung cấp thông tin từ

quan điểm lịch sử Mọi cấu trúc cơ bản trong kho dữ liệu chứa một phần tử

thời gian tường minh hoặc không tường minh

Không dễ thay đổi: Một kho dữ liệu luôn luôn là dạng lưu trữ độc lập

vật lý của dữ liệu được chuyển đổi từ dữ liệu ứng dụng được tìm thấy trong môi trường tác nghiệp Bởi vì sự độc lập này mà kho dữ liệu không đòi hỏi việc xử lý giao dịch, phục hồi và các cơ chế điều khiển song song

Trang 27

2.1.1.1 Sự khác nhau giữa các hệ thống cơ sở dữ liệu tác nghiệp và các

kho dữ liệu

Nhiệm vụ chính của các hệ thống cơ sở dữ liệu tác nghiệp trực tuyến là

để xử lý các truy vấn và các giao dịch Những hệ thống này được gọi là các hệ thống xử lý giao dịch trực tuyến (OLTP) Chúng bao quát hầu hết các thao tác hàng ngày của tổ chức Trong khi với các hệ thống kho dữ liệu có thể được tổ

chức và biểu diễn dữ liệu theo nhiều định dạng khác nhau để đáp ứng những nhu cầu đa dạng của những người sử dụng khác nhau Những hệ thống này được gọi là các hệ thống xử lý phân tích trực tuyến (OLAP) Sự khác biệt

giữa các hệ thống OLTP và OLAP được cho trong bảng sau đây (bảng 2.1):

Đặc điểm Xử lý tác nghiệp Xử lý thông tin

Người sử dụng Thư ký, người quản trị cơ sở dữ

liệu,…

Những người làm việc với tri thức (nhà quản lý, điều hành,…) Chức năng Các thao tác hàng ngày Các yêu cầu thông tin dài hạn, hỗ

trợ quyết định Thiết kế cơ sở dữ

liệu

Dựa trên mô hình thực thể-liên kết, hướng ứng dụng

Mô hình cơ sở dữ liệu đa chiều

Dữ liệu H iện hành, dễ cập nhật Mang tính lịch sử, độ chính xác

được duy trì theo thời gian Tính tổng kết Chi tiết, mang tính nguyên bản Tính tổng quát cao, đồng nhất Cách nhìn Chi tiết, quan hệ phẳng Tổng quát, đa chiều

Đơn vị công việc Các giao dịch đơn giản Các truy vấn phức tạp

Tác nghiệp Sắp xếp/băm dựa vào khoá chính Hầu hết là quét

Số lượng bản ghi

t ruy cập

Trang 28

Số người dùng Hàng nghìn Hàng trăm

Ưu tiên Hiệu suất cao, tính sẵn sàng Tính linh hoạt cho người sử dụng Đánh giá Thông qua giao dịch Thông qua truy vấn, thời gian hồi

đáp

Bảng 2.1 Sự khác nhau giữa hệ thống OLTP và hệ thống OLAP

2.1.1.2 Lý do cần có một kho dữ liệu riêng biệt

Lý do chính cho việc có một kho dữ liệu riêng biệt là nó trợ giúp cải thiện hiệu năng cao trên cả hai hệ thống cơ sở dữ liệu tác nghiệp và kho dữ liệu Một cơ sở dữ liệu quan hệ được thiết kế và thực hiện từ các nhiệm vụ đã biết như sắp xếp, hàm băm sử dụng khoá chính, tìm kiếm các bản ghi cụ thể

và tối ưu hoá các truy vấn được đóng gói Mặt khác các truy vấn kho dữ liệu

thường phức tạp, liên quan đến việc tính toán một lượng lớn các nhóm dữ liệu

ở mức độ tổng hợp, và có thể yêu cầu các phương pháp tổ chức, truy cập và cài đặt dữ liệu đặc biệt dựa trên các góc nhìn khác nhau Các truy vấn OLAP trong các cơ sở dữ liệu tác nghiệp thường làm giảm hiệu năng của các nhiệm

vụ trong cơ sở dữ liệu tác nghiệp

Hơn nữa một cơ sở dữ liệu tác nghiệp hỗ trợ việc xử lý đồng thời nhiều giao dịch, các cơ chế kiểm soát và phục hồi đồng thời như khoá và ghi nhật

ký được yêu cầu để đảm bảo tính nhất quán và tính thiết thực của các giao dịch Một truy vấn OLAP thường cần những truy cập chỉ đọc các bản ghi dữ

liệu để tổng hợp và kết tập dữ liệu Các cơ chế kiểm soát và phục hồi đồng

thời, nếu được áp dụng cho những thao tác OLAP như vậy, có thể phá huỷ việc thực hiện đồng thời các giao dịch và vì vậy làm suy giảm kết quả ra của một hệ thống OLTP

Cuối cùng, việc phân biệt các cơ sở dữ liệu tác nghiệp với kho dữ liệu

dựa trên sự khác biệt về cấu trúc, nội dung và việc sử dụng của dữ liệu

Trang 29

2.1.2 Mô hình dữ liệu đa chiều

Các kho dữ liệu và các công cụ OLAP đều dựa trên mô hình dữ liệu đa chiều Mô hình này xem xét dữ liệu ở dạng khối dữ liệu

tổ chức xung quanh chủ đề dữ liệu trung tâm Chủ đề này được biểu diễn bởi một bảng sự kiện Các sự kiện là các đánh giá số Bảng sự kiện chứa tên các

sự kiện và các khoá cho mỗi bảng chiều có liên quan

2.1.2.2 Các phân cấp khái niệm (concept hierachy)

Một phân cấp khái niệm định nghĩa một chuỗi các ánh xạ từ một tập các khái niệm mức thấp thành các khái niệm mức cao, tổng quát hơn Một ví

dụ về phân cấp khái niệm được cho trong hình 2.1,

Hình 2.1 Phân cấp khái niệm về vị trí

Trang 30

Rất nhiều phân cấp khái niệm là tường minh trong lược đồ cơ sở dữ

liệu ví dụ giả sử chiều vị trí có thể được mô tả bởi các thuộc tính: số nhà, phố, thành phố, bang/tỉnh, quốc qia Những thuộc tính này liên quan đến một thứ

tự tổng thể tạo thành một phân cấp khái niệm như Số nhà<phố<thành

phố<bang/tỉnh<quốc gia Ngoài ra các thuộc tính của một chiều có thể được

tổ chức theo một thứ tự bộ phận, tạo thành một lưới Một ví dụ của thứ tự bộ

phận là chiều thời gian dựa trên các thuộc tính ngày, tuần, tháng, quý, năm

trong đó ngày<{tuần<tháng, quý} < năm

Các phân cấp khái niệm là phổ biến cho rất nhiều ứng dụng, có thể được định nghĩa trước trong các hệ thống khai phá dữ liệu hoặc có thể được cung cấp thủ công bởi những người sử dụng hệ thống, những kỹ sư tri thức hoặc được sản sinh tự động dựa trên sự phân tích thống kê sự phân bố dữ liệu

2.1.2.2 Các thao tác OLAP trong mô hình dữ liệu đa chiều

Trong mô hình đa chiều, dữ liệu được tổ chức thành các chiều khác nhau, mỗi chiều chứa nhiều mức trừu tượng được định nghĩa bởi các phân cấp khái niệm Cách tổ chức này cung cấp cho những người sử dụng khả năng linh hoạt để xem dữ liệu từ các quan điểm khác nhau Một số thao tác khối dữ liệu OLAP tồn tại để hiện thực hoá những cách nhìn khác nhau này, cho phép truy vấn tương tác và phân tích dữ liệu tức thời Ngoài ra OLAP cung cấp một môi trường thân thiện với người dùng để phân tích dữ liệu tương tác Trong phần này trình bày một số thao tác OLAP điển hình cho dữ liệu đa chiều

• Thao tác Roll up: Tổng hợp dữ liệu bằng cách “leo vượt cấp” hoặc

giảm số chiều

• Thao tác Drill down : ngược lại với thao tác Roll up Với thao tác này

dữ liệu từ mức tổng quát cao hơn sẽ được tạo thành ở mức chi tiết hơn hoặc tạo ra chiều dữ liệu mới

• Thao tác slice and dice: Thao tác slice thực hiện lựa chọn một chiều

Trang 31

của một khối đã cho để tạo thành một khối con Thao tác dice định

nghĩa một khối con bằng cách lựa chọn một hay nhiều chiều

• Thao tác pivot/rotate: Thao tác này là một thao tác trực quan hoá thực

hiện xoay dữ liệu quanh các trục dữ liệu để cung cấp những cách biểu

diễn khác nhau của dữ liệu

• Các thao tác OLAP khác

- Drill-across: thực hiện truy vấn liên quan đến nhiều hơn một bảng

- Drill-through: Thao tác này làm cho việc sử dụng các tiện ích cơ sở dữ liệu quan hệ xuyên qua mức đáy của khối dữ liệu tới các bảng ở mặt kia

2.1.3 Kiến trúc kho dữ liệu

2.1.3.1 Các bước để thiết kế và xây dựng kho dữ liệu

Nói chung tiến trình thiết kế kho dữ liệu bao gồm các bước sau đây:

(1) Chọn một tiến trình kinh doanh để mô hình hoá

(2) Chọn điểm nhấn cho tiến trình kinh doanh Điểm nhấn là một điểm nền,

mức hạt nhân của dữ liệu để biểu diễn bảng sự kiện cho tiến trình này (3) Chọn các chiều sẽ áp dụng cho mỗi bản ghi bảng sự kiện

(4) Chọn các đánh giá sẽ tác động mỗi bản ghi bảng sự kiện

2.1.3.2 Kiến trúc kho dữ liệu 3 tầng

Các kho dữ liệu thường thích ứng với kiến trúc 3 tầng, như được biểu

diễn trong hình 2.2 sau đây:

Hình 2.2 Kiến trúc kho dữ liệu

Trang 32

(1) Tầng đáy (bottom tier): Là tầng máy chủ cơ sở dữ liệu kho hầu hết liên quan đến một hệ thống cơ sở dữ liệu quan hệ Dữ liệu từ các cơ sở dữ liệu tác nghiệp và các nguồn dữ liệu ngoài được trích rút bằng cách sử dụng các giao diện chương trình ứng dụng được biết đến như các cổng giao tiếp Một cổng giao tiếp được hỗ trợ bởi một hệ quản trị cơ sở dữ

liệu cơ bản và cho phép các chương trình khách sản sinh mã SQL để được thực hiện trên máy chủ

(2) Tầng trung gian thường được cài đặt sử dụng hoặc (1) mô hình OLAP quan hệ (ROLAP) hoặc (2) mô hình OLAP đa chiều (MOLAP) (3) Tầng đỉnh Đây là tầng dành cho khách bao gồm các công cụ truy vấn và báo cáo, các công cụ phân tích, các công cụ khai phá dữ liệu

2.1.3.3 Các loại máy chủ OLAP

Các máy chủ OLAP theo mô hình quan hệ (ROLAP)

Đây là các máy chủ trung gian đứng giữa máy chủ quan hệ cuối và các công cụ khách Chúng sử dụng các hệ quản trị cơ sở dữ liệu quan hệ hoặc quan hệ mở rộng để lưu trữ và quản lý các kho dữ liệu và phần mềm trung gian OLAP để hỗ trợ các thông tin bị mất Các máy chủ ROLAP bao gồm việc tối ưu hoá mỗi hệ quản trị cơ sở dữ liệu cuối, cài đặt quy trình duyệt tích

hợp và các công cụ và dịch vụ bổ trợ

Các máy chủ OLAP đa chiều (MOLAP)

Những máy chủ này hỗ trợ cách nhìn đa chiều dữ liệu thông qua các máy lưu trữ đa chiều dựa trên mảng Chúng ánh xạ các khung nhìn đa chiều

trực tiếp thành các cấu trúc mảng khối dữ liệu Thuận lợi của việc sử dụng

khối dữ liệu là nó cho phép sắp xếp nhanh để tính toán trước dữ liệu tổng hợp Rất nhiều máy chủ MOLAP thích ứng với biểu diễn lưu trữ dữ liệu hai tầng

để điều khiển tập trung và phân tán các tập dữ liệu: Các khối con tập trung

Trang 33

được xác định và lưu trữ như các cấu trúc mảng trong khi các khối con phân tán sử dụng công nghệ nén để lưu trữ có hiệu quả

Các máy chủ OLAP phân cấp (HOLAP)

OLAP phân cấp kết hợp ROLAP và MOLAP, tận dụng lợi ích từ phạm

vi lưu trữ lớn của ROLAP và khả năng tính toán nhanh của MOLAP

Các máy chủ SQL đặc tả

Để đáp ứng sự phát triển của yêu cầu xử lý OLAP trong các cơ sở dữ liệu quan hệ, một số hãng cơ sở dữ liệu quan hệ và công nghệ kho dữ liệu cài đặt các máy chủ SQL đặc tả cung cấp ngôn ngữ truy vấn tiên tiến và xử lý truy vấn hỗ trợ cho các truy vấn SQL trong môi trường chỉ đọc

2.1.4 Cài đặt kho dữ liệu

Kho dữ liệu chứa những lượng dữ liệu khổng lồ Các máy chủ OLAP yêu cầu các truy vấn hỗ trợ quyết định phải được trả lời trong thời gian tính phần giây Vì vậy, điều cơ bản đối với các hệ thống kho dữ liệu là hỗ trợ

những kỹ thuật tính toán khối hiệu quả cao và các kỹ thuật xử lý truy vấn

2.1.4.1 Tính toán hiệu quả các khối dữ liệu

Phần cơ bản của phân tích dữ liệu đa chiều là tính toán có hiệu quả các kết hợp chéo qua nhiều tập dữ liệu của các chiều khác nhau Trong thuật ngữ SQL, những kết hợp này được tham chiếu đến như là các mệnh đề group-by

Thao tác tính toán khối và việc cài đặt

Một phương pháp để tính toán khối mở rộng SQL là bao gồm thao tác tính toán khối Thao tác tính toán khối tính toán kết hợp dữ liệu qua tất cả các tập con của các chiều được đặc tả trong thao tác

Ví dụ: ta muốn tạo ra một khối dữ liệu cho các mặt hàng được bán tại ALLElectronics bao gồm các thông tin sau: mặt hàng, thành phố, năm, giá trị bán tính bằng đô la Ta có thể phân tích dữ liệu bằng cách đặt ra truy vấn:

“Tính t ổng các mặt hàng được bán, nhóm theo mặt hàng và thành phố”

Trang 34

“Tính tổng các mặt hàng được bán, nhóm theo mặt hàng”

“Tính tổng các mặt hàng được bán, nhóm theo thành phố”

Ta cần phải tính tổng số khối con, các cách nhóm dữ liệu Giả sử ta lấy

3 thuộc tính: Mặt hàng, thành phố, năm là các chiều cần tính toán và giá trị bán hàng theo đô la làm giá trị đánh giá, tổng số khối con hay số nhóm cho

khối dữ liệu này là 23=8, những khả năng đó bao gồm: {(thành phố, mặt hàng,

năm), (thành phố, mặt hàng), (thành phố, năm), (mặt hàng, năm), (thành phố), (mặt hàng), (năm), ()} trong đó () biểu diễn nhóm là rỗng Những nhóm này tạo thành một lưới các khối con như được biểu diễn trong hình 2.3 sau đây:

Một truy vấn SQL không chứa nhóm như “tính tổng lượng tiền bán hàng” được gọi là thao tác không chiều Một truy vấn SQL chứa một nhóm được gọi là thao tác một chiều Một thao tác khối trên n chiều tương đương

với một tập hợp các mệnh đề phân nhóm (group by), mà mỗi nhóm cho một

tập con của n chiều Vì vậy thao tác khối là tổng quát hoá n chiều của thao tác phân nhóm Đối với khối dữ liệu n chiều, có tổng số 2n khối con

OLAP có thể cần truy cập đến các khối con khác nhau cho các truy vấn khác nhau Vì vậy nó dường như là một ý tưởng tốt để tính trước tất cả hoặc ít

nhất một vài khối con trong khối dữ liệu Việc tính toán trước làm cho thời gian hồi đáp nhanh và tránh được việc tính toán dư thừa Tuy nhiên, việc tính toán trước yêu cầu không gian lưu trữ có thể cấp mũ nếu tất cả các khối con

Hình 2.3 Lưới các khối con tạo thành khối dữ liệu 3 chiều

Trang 35

trong một khối dữ liệu được tính toán trước đặc biệt khi khối có nhiều chiều

tương ứng với nhiều mức phân cấp Nếu không có các phân cấp tương ứng với mỗi chiều thì tổng các khối con đối với một khối n chiều là 2n Tuy nhiên trong thực tế có rất nhiều chiều có phân cấp khái niệm vì vậy đối với một khối

dữ liệu n-chiều tổng số khối con có thể được sản sinh là: T= ∏

= +

n

i

Li

1 1Trong đó Li là tổng số mức tương ứng với chiều i Công thức này dựa trên thực tế là hầu hết một mức trừu tượng trong mỗi chiều sẽ xuất hiện trong một khối con

Ta có thể nhận ra rằng không thực tế để tính toán trước tất cả các khối con có thể được sản sinh đối với một khối dữ liệu Nếu có rất nhiều khối con,

những khối con này có kích thước lớn, một giải pháp hợp lý hơn là chỉ tính toán trước một số khối con trong số các khối con có thể được sản sinh

Tính toán tr ước các khối con có lựa chọn

Việc tính toán trước một số khối con nên xem xét tới 3 yếu tố: (1) Xác định tập các khối con tính toán trước (2) Khai thác các khối con tính toán

trước trong quá trình xử lý truy vấn (3) cập nhật có hiệu quả các khối con được tính toán trước trong quá trình nạp và làm tươi dữ liệu

Việc lựa chọn tập con các khối con để tính toán trước nên tính đến khối lượng công việc, tần suất và chi phí truy cập của các truy vấn Ngoài ra nó còn phải xem xét các đặc trưng của khối lượng công việc, chi phí cập nhật

tăng trưởng, và các yêu cầu lưu trữ tổng thể Khi các khối được lựa chọn đã được tính toán trước, điều quan trọng là lấy những ưu điểm của chúng trong quá trình xử lý truy vấn Điều đó liên quan đến việc xác định các khối liên quan từ tập hợp các khối con được tính toán trước ứng cử, sử dụng các cấu trúc chỉ số trên tập các khối con và chuyển đổi các thao tác OLAP trên các khối con được lựa chọn Cuối cùng trong quá trình nạp và làm tươi, các khối

Trang 36

con cần được cập nhật có hiệu quả

Kết tập mảng đa đường trong tính toán khối dữ liệu

Để đảm bảo việc xử lý phân tích trực tuyến nhanh, ta có thể cần phải tính toán trước tất cả các khối con cho một khối dữ liệu đã cho Các khối con

có thể được lưu trữ trong một không gian phụ và được truy cập khi cần thiết

Vì vậy điều quan trọng là tìm hiểu các phương pháp có hiệu quả để tính toán

tất cả các khối con tạo lập nên khối dữ liệu, có nghĩa là hiện thực hoá đầy đủ Những phương pháp này phải đưa vào xem xét lượng giới hạn của bộ nhớ chính có thể cho việc tính toán khối, cũng như thời gian yêu cầu cho tính toán

đó Để đơn giản hoá các vấn đề chúng ta có thể bao gồm các khối con được

sản sinh bằng cách tiến theo bậc các phân cấp tồn tại theo mỗi chiều

Vì OLAP quan hệ sử dụng các bộ và các bảng quan hệ như các cấu trúc

dữ liệu cơ bản trong khi cấu trúc dữ liệu cơ bản được sử dụng trong OLAP đa chiều là các mảng đa chiều cho nên các kỹ thuật tính toán khối trong OLAP quan hệ và OLAP đa chiều rất khác nhau

Việc tính toán khối cho OLAP quan hệ sử dụng các kỹ thuật tối ưu hoá chính sau đây:

• Các thao tác sắp xếp, băm và nhóm được áp dụng cho các thuộc tính chiều để sắp xếp lại và ghép cụm các bộ có liên quan

• Thac tác nhóm được thực hiện trên một số các kết tập con như “các nhóm bộ phận” Những nhóm bộ phận này có thể được sử dụng để tăng tốc việc tính toán các kết tập con khác

• Các kết tập có thể được tính toán từ các kết tập đã được tính toán trước thay vì từ các bảng sự kiện cơ sở

OLAP quan hệ sử dụng phương pháp định vị dựa theo giá trị trong đó các giá

trị chiều được truy cập thông qua các chiến lược tìm kiếm địa chỉ dựa vào khoá Ngược lại OLAP đa chiều sử dụng phương pháp địa chỉ hoá mảng trực

Trang 37

tiếp trong đó các giá trị chiều được truy cập thông qua vị trí hay chỉ số của các vị trí mảng tương ứng của chúng Vì vậy OLAP đa chiều không thể thực hiện sắp xếp lại dựa theo giá trị của kỹ thuật tối ưu hoá đối với OLAP quan

hệ Do đó, một phương pháp khác nên được phát triển để xây dựng khối dựa theo mảng như sau:

• Phân chia mảng thành các “khoảng” Một “khoảng” là một khối con đủ nhỏ để đưa vào không gian bộ nhớ có thể cho việc tính toán khối Phân

“khoảng” là một phương pháp để chia một mảng n chiều thành các

“khoảng” n-chiều nhỏ trong đó mỗi “khoảng” được lưu trữ như một đối tượng trên đĩa Các “khoảng” được nén lại đến mức có thể để loại bỏ không gian nhớ lãng phí dành cho các ô rỗng

• Tính toán các kết tập bằng cách thăm các phần tử khối Thứ tự các phần tử được thăm có thể được tối ưu hoá đến mức để tối thiểu hoá số lần mà mỗi

phần tử cần được thăm lại do đó giảm số lần truy cập bộ nhớ và chi phí lưu

trữ Bí quyết để khám phá thứ tự này là các kết tập bộ phận có thể được tính toán đồng thời và việc thăm lại các phần tử không cần thiết được tránh

Kỹ thuật này được gọi là kết tập mảng đa chiều trong tính toán khối dữ liệu

2.1.4.2 Sắp xếp dữ liệu OLAP

Để làm dễ dàng việc truy cập dữ liệu hiệu quả, hầu hết các hệ thống kho dữ liệu hỗ trợ các cấu trúc chỉ số và các khung nhìn cụ thể Các phương pháp để lựa chọn các khối con được thảo luận trong phần trước, trong phần này chúng ta xem xét sắp xếp dữ liệu OLAP bằng phương pháp xếp chỉ số nhị phân và xếp chỉ số kết nối

Phương pháp sắp xếp chỉ số nhị phân là phổ biến trong các sản phẩm

OLAP bởi vì nó cho phép tìm kiếm nhanh trong khối dữ liệu Chỉ số nhị phân

là một dạng biểu diễn khác của danh sách định danh bản ghi (Record_Id)

Trang 38

Trong chỉ số nhị phân đối với một thuộc tính đã cho, có một vector bit phân

biệt, Bv, cho mỗi giá trị v trong miền thuộc tính Nếu miền của một thuộc tính

đã cho bao gồm n giá trị thì n bit là cần thiết cho mỗi đầu vào trong chỉ số nhị phân Nếu thuộc tính có giá trị v cho một hàng đã cho trong một bảng dữ liệu

thì bit biểu diễn giá trị đó được thiết lập là 1 trong hàng tương ứng của chỉ số

nhị phân Tất cả các bit khác trong hàng đó được thiết lập thành 0

Chỉ số nhị phân đặc biệt hữu ích cho các lĩnh vực mà số phần tử trong

tập hợp thấp vì các thao tác so sánh, tổng hợp sau đó được suy giảm thành các phép toán nhị phân, do đó giảm thời gian xử lý Chỉ số nhị phân dẫn tới

những suy giảm đáng kể trong không gian lưu trữ và vào ra dữ liệu vì một chuỗi các kỹ tự có thể được biểu diễn bởi một bit đơn

Đối với các lĩnh vực mà số phần tử trong tập hợp cao, ta có thể sử dụng các kỹ thuật nén Phương pháp xếp chỉ số kết nối phổ biến trong xử lý

truy vấn cơ sở dữ liệu quan hệ Phương pháp đánh chỉ số truyền thống ánh xạ giá trị trong một cột đã cho tới tập hợp các hàng có giá trị đó Ngược lại việc xếp chỉ số kết nối đăng ký các hàng có thể kết hợp của hai quan hệ từ một cơ

sở dữ liệu quan hệ Vì vậy các bản ghi chỉ số kết nối có thể xác định các bộ

kết hợp mà không cần phải thực hiện các thao tác kết nối chi phí cao Chỉ số

kết nối đặc biệt hữu ích để duy trì mối liên kết giữa một khoá ngoài và các khoá chính phù hợp với nó từ một bảng kết nối

2.1.4.3 Xử lý có hiệu quả các truy vấn OLAP

Mục đích của việc tính toán trước các khối con và xây dựng các cấu trúc chỉ số OLAP là để tăng tốc độ việc xử lý truy vấn trong khối dữ liệu Với

một cách xem xét dữ liệu đã cho, việc xử lý truy vấn nên được xử lý như sau: (1) Xác định những thao tác nào nên được thực hiện trên các khối con có thể Điều đó liên quan đến việc chuyển đổi bất kỳ một thao tác lựa chọn, chiếu, roll-up, drill-down được đặc tả trong truy vấn thành các câu lệnh SQL

Trang 39

tương ứng và/hoặc các thao tác OLAP

(2) Xác định các khối con được tính toán trước mà những thao tác liên quan được áp dụng

Mô hình lưu trữ của một máy chủ MOLAP là một mảng n chiều, các truy vấn đa chiều của những người sử dụng được ánh xạ trực tiếp tới các cấu trúc lưu trữ máy chủ mà nó cung cấp các khả năng định vị trực tiếp Cách

biểu diễn mảng trung thực của khối dữ liệu có những đặc tính chỉ số tốt nhưng có tính sử dụng không gian lưu trữ nghèo nàn khi dữ liệu là dải rác

Để lưu trữ và xử lý có hiệu quả, các kỹ thuật nén dữ liệu và ma trận thưa nên được áp dụng Để xử lý một truy vấn trong MOLAP các mảng dày một chiều và hai chiều phải được xác định trước tiên Các chỉ số sau đó được xây dựng cho những mảng này sử dụng các cấu trúc đánh chỉ số truyền thống

2.1.4.4 Lưu trữ siêu dữ liệu

Siêu dữ liệu là dữ liệu của dữ liệu Khi được sử dụng trong kho dữ liệu, siêu dữ liệu là dữ liệu định nghĩa các đối tượng kho dữ liệu Một lưu trữ siêu

dữ liệu nên bao gồm các thông tin sau đây:

• Một mô tả cấu trúc của kho dữ liệu, nó bao gồm lược đồ kho dữ liệu, khung nhìn, các chiều, các phân cấp, và các định nghĩa dữ liệu được suy dẫn cũng như vị trí các siêu thị dữ liệu và những nội dung

• Siêu dữ liệu tác nghiệp bao gồm lịch sử dữ liệu và các biến đổi đã được áp

dụng cho nó, sự hiện hành của dữ liệu và kiểm soát thông tin

• Các giải thuật được sử dụng để tổng hợp, bao gồm các giải thuật định nghĩa chiều và đánh giá, dữ liệu về các mốc, các phân vùng, các lĩnh vực chủ đề, sự kết tập, sự tổng hợp, và các truy vấn và báo cáo được định nghĩa trước

• Sự ánh xạ từ môi trường tác nghiệp sang kho dữ liệu, bao gồm các cơ sở

dữ liệu nguồn và những nội dung của chúng, các mô tả cổng, các phân

Trang 40

vùng dữ liệu, sự trích rút dữ liệu, làm sạch, các quy luật chuyển đổi và các giá trị mặc định, các quy luật lọc và làm tươi dữ liệu và thông tin bảo mật

• Dữ liệu liên quan tới hiệu năng hệ thống, bao gồm các chỉ số, các mô tả sơ

lược để cải thiện việc truy cập dữ liệu và hiệu năng truy cập, ngoài ra là các luật để định thời gian và lập kế hoạch cho các chu kỳ làm tươi, cập nhật và nhân bản

• Siêu dữ liệu về doanh nghiệp, bao gồm các thuật ngữ doanh nghiệp và các định nghĩa, thông tin về chủ sở hữu dữ liệu và các chính sách nạp dữ liệu

2.1.5 Từ kho dữ liệu đến khai phá dữ liệu

2.1.5.1 Việc sử dụng kho dữ liệu

Có 3 loại ứng dụng kho dữ liệu đó là xử lý thông tin, xử lý phân tích và khai phá dữ liệu

Xử lý thông tin

Hỗ trợ các truy vấn, các phân tích thống kê cơ bản và tạo lập báo cáo sử

dụng các bảng, các bảng chéo, các lược đồ, đồ thị

Xử lý phân tích

Hỗ trợ các thao tác OLAP cơ bản bao gồm cắt và chiếu, roll up, drill down

và xoay, sản sinh dữ liệu lịch sử ở cả dạng tổng hợp và dạng chi tiết Đồng

thời hỗ trợ xử lý phân tích trực tuyến thông qua phân tích đa chiều dữ liệu

Khai phá dữ liệu

Hỗ trợ việc phát hiện tri thức từ những mẫu dữ liệu ẩn và các luật kết hợp, xây dựng các mô hình phân tích, thực hiện phân lớp và dự đoán, biểu diễn các kết quả khai phá sử dụng các công cụ trực quan hoá

2.1.5.2 Tích h ợp xử lý phân tích trực tuyến với khai phá dữ liệu

Trong rất nhiều mô hình và kiến trúc khác nhau của các hệ thống khai phá dữ liệu, khai phá phân tích trực tuyến (on-line analytical mining OLAM ) tích hợp xử lý phân tích trực tuyến với khai phá dữ liệu và khai phá tri thức từ

Định dạng
Số trang	118
Dung lượng	2,16 MB