1. Trang chủ
  2. » Luận Văn - Báo Cáo

Kho dữ liệu - Data Warehouse. Một số vấn đề khai phá dữ liệu

91 592 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 91
Dung lượng 25,37 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Theo thống kê của một số tổ chức uy tín thì chỉ có 2% -3% lượng dữ liệu được chuyến thành thông tin có ích.Khi xã hội càng phát triển, lượng thông tin cần càng nhiều thì công việc tồ chứ

Trang 2

ĐẠI HỌC Q U Ó C GIA HÀ NỘI

Trang 3

M ự c LỤC

GIỚI T H IỆ U 5

CHƯƠNG 1 TÓNG QUAN 7

1.1 Tổng quan về cơ sở dữ liệu & Khai phá dữ liệu 7 1.1.1 Tổ chức & Khai thác cơ sở dữ liệu truyền thống 7

1.1.2 Bước phát triển mới việc tổ chức & khai phá cơ sớ dữ liệu 8

1.2 Kho dừ l i ệ u 9

1.3 Khai phá dữ liệu & quá trình phát hiện tri thức

CHƯƠNG 2 KHO DỮ LIỆU 13

2.1 Giới thiệu chung về kho dừ liệu 13

2.1.1 Sự cần thiết Kho dữ liệu 13

2.1.2 Định nghĩa kho dữ liệu 16

2.1.3 Hệ thống cơ sở dữ liệu tác nghiệp & Hệ thống kho dữ 18 liệu

2.2 Sử dụng dừ liệu trong kho dừ liệu 21

2.3 Kiến trúc Kho dừ liệu 22

2.3.1 Kiến trúc chung 22

2.3.2 Các kiểu kiến trúc kho dừ liệu 29

2.3.2.1 Kiến trúc theo nhu cầu quản lý của cơ quan 30

2.3.2.1 Kiến trúc dựa theo sự phân lớp dữ liệu 31

2.3.2.3 Kiến trúc theo mô hình Client/Server 31

CHƯƠNG 3 KHAI PHÁ DỮ L I Ệ U 34

Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 4

3.1 Khái niệm khai phá dừ liệu

3.1.1 Khái niệm

3.1.2 Khai phá dừ liệu trong quá trình phát hiện tri th ứ c

3.2 Ọuá trình khai phá dừ liệu

3.2.1 Ọuá trình Khai phá số liệu

3.2.2 Các thành phần giải thuật Khai phá dừ liệu

3.3 Các phương pháp khai phá dữ liệu phổ biến

3.3.1 Phương pháp Suy diễn - Qui nạp

3.3.2 Cây quyết định và Luật

3.3.3 Phát hiện các Luật kết hợp

3.3.4 Phân nhóm và phân đoạn

3.3.5 Phương pháp dựa trên mẫu

3.3.6 Khai phá dừ liệu dạng văn bản

3.3.7 Mạng Neutron

3.3.8 Giải thuật di truyền

3.4 Khó khăn & Lợi thế khai phá dừ liệu so với các phương pháp cơ bản

3.4.1 Khó k h ă n

3.4.2 Lợi thế của khai phá dừ liệu so với các phương pháp cơ bản

CHƯƠNG 4 ỨNG DỤNG GIẢI THUẬT DI TRUYỀN TRONG KHAI PHÁ SỐ LIỆU VẬN CHUYÊN HÀNG KHÔNG

4.1 Giải thuật di truyền

34 34 34 37 37 39 40 40 41 42 43 44 44 45 46 47

47 48

52 52

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 5

4.2.1 Xác định nhiệm vụ khai phá dừ liệu 56

4.2.2 Lựa chọn phương pháp 56

4.2.3 Thiết kế giải thuật 57

4.2.4 Thử nghiệm & đánh giá 61

4.2.5 Mã chương trình 68

K ÉT LU Ậ N

89 TÀI LIỆU THAM K H Ả O 90

4.2 ứ n g dụng trong khai phá dừ liệu vận chuyển Hàng không 56

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 6

Trong thời đại ngày nay, con người đang sống trong một môi trường xã hội phát triển cao với sự bùng nồ về dừ liệu Khi trình độ xã hội càng phát triển thì kiến thức con người càng được phát triển đồng thời lượng dừ liệu cũng gia tăng theo mức độ đó Mặc dù trong môi trường tràn ngập dừ liệu, nhưng con người dường như vẫn thiếu thông tin Theo thống kê của một số tổ chức uy tín thì chỉ có 2% -3% lượng dữ liệu được chuyến thành thông tin có ích.

Khi xã hội càng phát triển, lượng thông tin cần càng nhiều thì công việc tồ chức, khai phá dữ liệu ngày càng khó khăn, v ấ n đề đặt ra, làm sao để xử lý tình trạng trên ? Kho dừ liệu là một giải pháp cho vấn

đề trên Kho dừ liệu ra đời đáp ứng đòi hởi lưu trữ và khai thác thông tin

Nhưng, yếu tố thành công trong mọi hoạt động xã hội ngày nay không chỉ dừng nắm giữ thông tin, mà cần biết sử dụng thông tin một cách có hiệu quả điều đó có nghĩa là từ các dữ liệu sẵn có phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện, tìm

ra những xu hướng phát triển và những yếu tổ tác động lên chúng Thực hiện công việc đó chính là thực hiện quá trình phát hiện tri thức trong cơ

sở dừ liệu mà trong đó kỳ thuật cho phép ta lấy được các tri thức chính

là kỳ thuật khai phá dừ liệu

Với phương hướng trên, Bản luận văn gồm các phần chính sau:Chương 1 : Tổng quan

Giới thiệu tống quan về cơ sớ dữ liệu & quá trình phát hiện tri thức trong đó kĩ thuật khai phá dừ liệu là cốt lỗi

Chương 2: Kho dữ liệu:

GI ƠI THIỆU

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 7

6

-Giới thiệu chi tiết - định nghĩa về kho dừ liệu, Kiến trúc chung cua kho dữ liệu, các kiếu kiến trúc & các loại dừ liệu trong kho

Chương 3: Khai phá dừ liệu

Chương này mô tả chi tiết về vị trí vai trò , sự cần thiết của khai phá dữ liệu trong quá trình phát hiện tri thức Các thành phần giải thuật khai phá dữ liệu cũng như các phươnạ pháp khai phá phổ biến

C hương 4: ứ n g dụng giải thuật di truyền trong khai phá số liệu Vận chuyển hàng không

Hà nội, Năm 2002

Lê Mạnh Cường

Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 8

C H Ư Ơ N G ]: TỐN G QUAN

1.1 T Ố N G QUAN VỀ c ơ SỞ D Ữ LIỆU & KHAI PHÁ D Ữ LIỆU

TH Ố N G

Ngay từ những năm 60, Việc dùng các phương tiện tin học để tổ chức các khai thác các cơ sở dừ liệu (CSDL) đã được phát triển Cho đến nay, rất nhiều CSDL đã được xây dựng, phát triển và khai thác ở khắp các lĩnh vực hoạt động của con người và xã hội Theo như một điêu tra cho thấy, lư ợ n g thông tin trên thế giới cứ sau 24 tháng lại tăng gấp đôi Ngày nay, Với sự phát triền mạnh mẽ của công nghệ bán dẫn, tạo ra các

hệ thống có bộ nhớ với dung lượng lớn, bộ xử lý tốc độ cao cùng và các

m ạng viễn thông với công nghệ truyền hiện đại, người ta đã xây dựng các được các hệ thống thông tin hiện đại, trợ giúp mọi hoạt động kinh doanh Điều này đã tạo ra khối dữ liệu khổng lồ, cần xử lý , nó bao gồm các cơ sở dừ liệu cực lớn cỡ gigabytes và thậm chí terabytes lưu trữ các

dữ liệu kinh doanh ví dụ như dữ liệu thông tin khách hàng, dữ liệu bán hàng, dừ liệu tài khoán, v.v

Nhiều hệ quản trị CSDL với các công cụ mạnh ra đời trợ giúp cho con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu Mô hình

C SD L quan hệ và ngôn ngừ vấn tin chuẩn (SQL) đã có vai trò hết sức quan trọne trong việc tổ chức và khai thác các CSDL đó Cho đến nay, không một tô chức kinh tế nào là không sử dụng các hệ quản trị CSDL

và các hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các CSDL phục vụ cho hoạt động tác nghiệp của mình

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 9

1.1.2 BƯỚC PHÁT TRIỂN CỦA VIỆC TỐ C H Ú C VÀ KHAI PHÁ c ơ

SỞ D Ừ LIỆU

Theo sự phát triển đi lên của các hệ thống cơ sở dừ liệu, các hệ thống thông tin cũng được chuyên môn hoá, phát triển chuyên sâu theo các lĩnh vực ứng dụng như sản xuất, kinh doanh, tài chính, thị trường v.v N hư vậy, bên cạnh chức năng khai thác dữ liệu có tính chất tác nghiệp, sự ứng dụng trong kinh doanh không còn là dữ liệu đơn thuần của các hệ thống nữa mà cơ sở dừ liệu cần đem lại những “tri thức” hơn

Đe lấy được những thông tin có tính “tri thức” trong khối dữ liệu không lồ này, người ta đã đi tìm những kỹ thuật có khả năng hợp nhất các dữ liệu từ các hệ thống dừ liệu khác nhau, chuyển đổi thành một tập hợp các cơ sở dừ liệu ồn định, có chất lượng được sử dụng chỉ riêng cho một vài mục đích nào đó Các kỳ thuật đó được gọi chung là kỹ thuật tạo kho dừ liệu (Data Warehousing) và môi trường các dừ liệu có được gọi

là các kho dữ liệu

Tuy nhiên, việc sử dụng các cách khai thác dữ liệu theo khai thác truyền thống mới chỉ dừng lại ở cách khai thác dừ liệu với các kỹ thuật cao đê đưa ra các dừ liệu tinh và chính xác hơn chứ chưa đưa ra được dữ liệu “tri thức” Kho dữ liệu được sử dụng đế hồ trợ cho phân tích trực

Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 10

tuyến (OLAP) có khả năng phân tích dừ liệu, xác định xem gia thuyêt đúng hay sai nhưng không thể đưa ra các giả thuyết Kỹ thuật học máy

có thê đưa ra giả thuyết nhưng trên các tập dừ liệu lớn trong kho dừ liệu thì chúne thế hiện khả năng rất kém phưong pháp thống kê cũng không

có cải tiến gì để phù hợp với sự phát triển của dữ liệu Đây là lý do tại sao vẫn còn khối lượng lớn dừ liệu vẫn chưa được khai thác và thậm chí được lưu chủ yếu trong các kho dữ liệu không trực tuyến Điều này đã tạo nên một lồ hông lớn trong việc hồ trợ phân tích và tìm hiểu dừ liệu, tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai thác các dừ liệu

đỏ Trong khi đó, càng ngày người ta càng nhận thấy rằng nếu được phân tích thông minh thì dữ liệu sẽ là một nguồn tài nguyên quí giá trong cạnh tranh trên thương trường, một công nghệ mới được nghiên cứu, đáp ứng

cả nhu cầu trong khoa học cũng như trong hoạt động thực tiễn Đó chính

là công nghệ Khai phá dừ liệu

1.2 K HO D Ữ LIỆU

Kho dừ liệu là một môi trường có cấu trúc các hệ thống thông tin, cung cấp cho người dùng các thông tin khó có thể truy nhập hoặc biểu diễn trong các CSDL tác nghiệp truyền thông, nhàm mục đích hồ trợ việc ra quyết định mang tính lịch sử hoặc hiện tại Chi tiết về kho dữ liệu, ta sẽ nghiên cứu ở phần sau

Một kho dừ liệu có thể được coi là một hệ thống thông tin với những thuộc tính sau:

- Là một cơ sờ dừ liệu được thiết kế có nhiệm vụ phân tích,

sử dụng các dừ liệu từ các ứng dụng khác nhau

Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 11

lý và truy nhập được từ người dùng đầu cuối cũng như từ các nguồn dữ liệu.

Yếu tố thành công trong mọi hoạt động kinh doanh ngày nay là việc biêt sử dụng thông tin một cách có hiệu quả Điếu đó có nghĩa là từ các dừ liệu sẵn có, phải tìm ra những thông tin tiềm ẩn có giá trị mà trước đó chưa được phát hiện, tìm ra những xu hướng phát triển và những yếu tố tác động lên chúng Thực hiện công việc đó chính là thực hiện quá trình phát hiện tri thức trong cơ sở dữ liệu mà trong đó kỹ thuật cho phép ta lấy được các tri thức chính là kỳ thuật khai pháp dữ liệu

Phát hiện tri thức từ CSDL là một quá trình có sử dụng nhiều phương pháp và công cụ tin học nhưng vẫn có một quá trình mà trong đó con người là trung tâm Do đó, nó không phải là một hệ thống phân tích

tự động mà là một hệ thống bao gồm nhiều hoạt động tương tác thường

Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 12

xuyên giữa con người và CSDL, tất nhiên là với sự hồ trợ của các công

cụ tin học Người sử dụng hệ thống ở đây phải là những người có kiến thức cơ ban về lĩnh vực cần phát hiện tri thức để có thể chọn được đúng các tập con dữ liệu, các lớp mầu phù hợp và đạt tiêu chuân quan tâm so với mục đích Tri thức mà ta nói ở đây là các tri thức rút ra từ các CSDL, thuửng đề phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong

m ột lĩnh vực nhất định Do đó, quá trình phát hiện tri thức cũng mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức bất kỳ mà

là phát hiện tri thức nhằm giải quyết tốt nhiệm vụ đề ra Vì vậy, quá trình phát hiện tri thức là một quá trình hoạt động tương tác giữa con người(người sử dụng hoặc chuyên gia phân tích) với các công cụ tin học đêthực hiện các bước cơ bản sau:

- Tìm một cách hiểu (bằng ngôn ngữ tin học) lĩnh vực ứng dụng và nhiệm vụ đặt ra, xác định các tri thức đã có và các mục tiêu của người sử dụng

- Tạo một tập dữ liệu đích bàng cách chọn từ CSDL m ột tập

dữ liệu với các giá trị biến các mẫu được quan tâm, trên đó

ta thực hiện quá trình phát hiện tri thức

- Làm sạch và tiền xử l ý d ừ liệu

- Thu gọn và rút bớt số chiều của dữ liệu đế tập trung vào

những thuộc tính chủ chốt đối với việc phát hiện tri thức

- Chọn nhiệm vụ khai phá dừ liệu dựa vào mục tiêu của quá

trình phát hiện tri thức: xếp loại, phân nhóm hay hồi quy, v.v

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 13

- Chọn thuật toán, khai phá dữ liệu thích hợp và thực hiện việc khai phá dừ liệu để tìm được các mẫu hình (pattern) có

ý nghĩa dưới dạng biếu diễn tương ứng (luật xếp loại, cây quyết định, luật sản xuất, biểu thức hồi quy, )

- Đánh giá, giải thích, thử lại các mẫu hình đã được khai phá,

có thể lặp lại một hoặc nhiều bước kể trên

- Củng cố, tinh chế các tri thức đã được phát hiện, Kết hợp các tri thức thành hệ thống Giải quyết các xung đột tiềm tàng trong tri thức khai thác được Sau đó, tri thức được chuẩn bị sẵn sàng cho ứng dụng

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 14

-

13-cH Ư Ơ N G 2 : KHO DỮ LIỆU

2.1 GIÓI THIỆU CHUNG V Ề KHO D Ữ LIỆU

2.1.1 S ự CẦN THIẾT CỦA KHO DỮ LIỆU

Việc áp dụng công nghệ thông tin trong môi trường nghiệp vụ hiện nay đã mang lại những hiệu quả to lớn, đặc biệt khi công nghệ ngày càng được phát triển và hoàn thiện, mở rộng qui mô áp dụng từ những ứng dụng đơn lẻ đến các hệ thống thông tin cỡ lớn Các hệ thống thông tin từ chồ chí xử lý đơn thuần các công việc hàng ngày thì tiến tới đáp ứng những yêu cầu ở mức độ cao hơn: các nhà quản lý điều hành không những biết được công việc đang diễn ra như thế nào mà còn nắm bắt được cái gì sẽ xảy ra sau đó, có nghĩa là thông tin phải mang tính phân tích và hệ thống thông tin có khả năng hồ trợ quyết định Tuy nhiên việc xây dựng một hệ thống thông tin như thế vấp phải một số hạn chế về mặt

kỳ thuật, đặc biệt là khi kích thước cũng như độ phức tạp của môi trường thông tin tăng lên Những hệ thổng thông tin xây dựng theo phương pháp truyền thống không làm hài lòng người sử dụng và ngay cả những nhà quản lý hệ thống thông tin

• K hông thể tìm thấy dữ liệu cần thiết:

s Dừ liệu rải rác ở rất nhiều hệ thống với các giao diện và công

cụ khác nhau gây mất nhiều thời gian chuyền từ hệ thống này sang hệ thống khác

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 15

-

14-• CÓ thể có nhiều rmuồn thông tin đáp ứng được đòi hỏi nhưng chúng lại có những khác biệt và rất khó phát hiện thông tin nào là đúng và cần thiết

^ Không thể lấy ra được dừ liệu cần thiết:

s Thường xuyên phải có chuyên gia trợ giúp dần đến công việc dồn đổng

✓ Có những loại thông tin không thể lấy ra được nếu không mơrộng khả năng làm việc của hệ thống có sẵn

• Không t h ể hiểu được d ừ liệu tìm thấy:

v' Mô tả dừ liệu nghèo nàn và thường xa rời với thuật ngừ nghiệp

vụ quen thuộc

s Không thế sứ dụng được dữ liệu tìm thấy:

'S Kết quả tìm thấy thường không đáp ứng về bản chất dừ liệu và thời gian tìm kiếm

•S Dừ liệu phải chuyến đối bằng thủ công vào môi trường làm việc của người sử dụng

s Một chức năng được thế hiện ở rất nhiều chương trình, nhưng việc tổ chức và sử dụng lại nó là khó khăn do hạn chế về kỹ thuật

s Chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau đe phù hợp với người sử dụng là rất khó khăn

• Duy trì những chương trình này gặp rất nhiều vấn đề :

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 16

• Khối lượng dừ liệu lưu trữ tăng rất nhanh

s Không kiểm soát được khả năng chồng chéo dừ liệu trong các môi trường thông tin dẫn đến khối lượng dữ liệu tăng nhanh

• Quản trị dữ liệu phức tạp

s - Thiếu những định nghĩa chuẩn, thống nhất về dừ liệu dẫn đến việc mất khả năng kiểm soát môi trường thông tin

^ - Một thành phần dừ liệu tồn tại ở nhiều nguồn khác nhau

Giải pháp cho những vấn đề nêu trên là xây dựng m ột kho dừ liệu

Kho dừ liệu ra đời ở những nước công nghiệp phát triển, nơi mức

độ cạnh tranh rất cao Do sức ép cạnh tranh, các tổ chức (kinh doanh) cần phải quản lý phân tích tốt hoạt động hàng ngày và đưa ra các quyết định đúng đắn, kịp thời cho các hoạt động trong tương lai Thông tin trở thành mặt hàng quan trọng cần được quản lý và khai thác Kho dữ liệu ra đời đáp ứng đòi hỏi lưu trữ và khai thác thông tin đó Kho dừ liệu giúp tăng hiệu quả và sức mạnh cạnh tranh

Kho dữ liệu ra đời và phát triển được cũng là nhờ sự phát triển

Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 17

-

16-mạnh mẽ cua công nghệ thông tin các mặt:

s Khả năng lưu trừ và xử lý khối lượng lớn thông tin

s Sự phát triển nhanh chóng của mạng máy tính, đặc biệt là mô hình tính toán Client/Server

s Sự phát triển của các công cụ xây dựng chương trình ứng dụng: các ngôn ngữ lập trình, các công cụ trợ giúp xây dựng và thiết

kế (CASE), các hệ quản trị CSDL tiên tiến

Với nhu cầu và khả năng trên, những dự án đầu tiên về Kho dữ liệu đã được xây dựng trong khoảng 1984-1988 Cho đến nhưng năm

1994, ở các nước phát triển, các dự án về Kho dữ liệu xây dựng mạnh

mẽ Cho tới nay, Kho dữ liệu vẫn là một thị trường rất phát triển Ban đầu, các dự án về Kho dữ liệu được xây dựng chủ yếu các tổ chức lớn

(nhà băng lớn, hãng hàng không, )

Tại Việt nam, do nhu cầu tăng cao hiệu quả quản lý, do xu hướng hoá nhập vào thế giới với sức ép cạnh tranh ngày càng tăng từ nước ngoài, do nồ lực xây dựng công nghệ thông tin thành ngành công nghiệp mũi nhọn, các dự án về xây dựng những Kho dữ liệu đang được dần triển khai ở các cơ quan lớn của nhà nước Và cùng với việc quan tâm ngày càng tăng tới hệ trợ giúp quyết định (D S S 1), Kho dữ liệu với vai trò là cơ

sở hạ tầng cung cấp dừ liệu cho hệ trợ giúp quyết định ngày càng trở nên quan trọng

2.1.2 ĐỊNH N G H ĨA KHO D Ừ LIỆU

Định nghĩa : Kho dữ liệu (Data Warehouse) là một tập hợp các dữ liệu

có tính hướng chủ thê, tích hợp, gắn với thời gian và on định, được thiết

1 D e c is io n S u p p o rt S y ste m

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 18

-

17-kê hô trợ cho việc hô trợ ra quyêt định.

Kho dữ liệu có thê gọi là một công trình xây dựng tông hợp các dừ liệu từ những nguồn dữ liệu không đồng nhất, bao gồm các dừ liệu quá khứ và dừ liệu hiện tại, báo cáo phân tích và hỗ trợ quyết định Kho dữ liệu do vậy thường rất lớn, tới hàng trăm hay thậm chí hàng nghìn

G igabyte1 Theo w H Inmon và R D Hackathorn định nghĩa : Kho dừ liệu là một sưu tập dừ liệu trợ giúp ra quyết định trong quản lý, với các đặc điểm:

s Hướng chủ đề (subject-oriented),

s Tích hợp (integrated),

s Đa dạng thời gian (time-variant),

s Không hay thay đoi (nonvolatile)

Cụ thể hơn:

• Hướng chủ đề : Người xây dựng Kho dừ liệu mô hình hoá dừ liệu và thiết kế cơ sở dừ liệu tập vào chủ đề đối tượng chính của cơ quan cần xây dựng Kho dừ liệu chứ không phải các chức năng và các quá trình hoạt động của cơ quan đế tin học hoá chúng Dữ liệu trong Kho dữ liệu chỉ gồm các dữ liệu cần thiết cho quá trình Trợ giúp quyết định Mối quan hệ giữa các bảng trong Kho dữ liệu là quan hệ trong hệ thống tác nghiệp hàng ngày

• Tích hợp : Mọi thực thể trong Kho dừ liệu lun dưới cùng một dạng

Dữ liệu từ các nguôn khác nhau phải được thông nhât lại vê cách mã hoá, về đơn vị đo lường,

1 Đ ơ n vị th ô n g tin b ằ n g 1024 M e g a b y te ( 1 M e ơ a b y te = 1024 B y te).

Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 19

• Không hay thay đ ổ i : Dừ liệu chủ yếu được nạp vào một lần, sau đó

chỉ được truy nhập đề lấy ra Việc cập nhật dữ liệu ít xảy ra Các kỹ thuật liên quan tới: phục hồi dữ liệu, đảm bảo toàn vẹn tham chiếu, phát hiện và giải quyết tắc nghèn, thường không cần thiết

2.1.3 HỆ THỐNG c ơ SỚ DỮ LIỆU TÁC NGHIỆP & HỆ THỐNG KHO D Ữ LIỆU

Thông thường, các cơ quan tổ chức trước khi bắt đầu xây dựng Kho dừ liệu đều đã tin học hoá các hoạt động hàng ngày bằng xây dựng các hệ tác nghiệp (O L T P 1) Và nguồn dừ liệu chủ yếu của Kho dữ liệu chính là từ hệ tác nghiệp Nhưng tại sao lại phải xảy dựng Kho dữ liệu - một hệ thong tin học mới - khi đã có sẵn một hệ thong tin học là hệ tác nghiệp ?. Đó là vì hệ tác nghiệp phục vụ cho tự động hoá các tác vụ thao tác hàng ngày, còn Kho dữ liệu phục vụ cho môi trường thông tin ra quyết định Kho dừ liệu được thiết kế hướng trợ giúp quá trình phân tích

và ra quyết định, và mang những đặc điểm khác như sau:

Hệ thống tác nghiệp m ang tính hướng tác vụ với những đặc điểm chính sau:

•S Trợ giúp các công việc tức thời hàng ngày

1 O n lin e T ra n s a c tio n P ro c e s s in g

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 20

■S Chứa dừ liệu hiện thời, thể hiện trạng thái thực công việc.

s Các hoạt động xảy ra trong hệ thống thường đơn giản, giới hạn trong phạm vi nhất định, và kết quả gây ra thường là việc cập nhật dừ liệu

s Được tối ưu hoá cho việc xử lý nhanh các tác vụ định trước,

đặc biệt tập trung vào các hoạt động cập nhật

^ Người dùng chu yếu là nhũng người làm những công việc ở mức độ chi tiết, cụ thế như thư kí, người bán hàng,

s Thiết kế thường khó hiểu và che dấu với người dùng

Kho dừ liệu được thiết k ế hướng trợ giúp quả trình phân tích và ra quyết định, và mang những đặc điếm khác như sau:

s Trợ giúp quá trình quản lý và điều khiến công việc

s Chứa dừ liệu mang tính lịch sử, thể hiện cách nhìn ổn định của công việc trong một giai đoạn hay tại một thời điểm cụ thể đã qua

s Đ ư ợ c tối ưu hoá cho các câu hởi truy vấn, ch ứ không phải cho các hoạt động cập nhật Các câu hỏi có thể từ được xác định trước cho tới hoàn toàn không được xác định trước

s Người dùng chủ yếu là đội ngũ quản lý để hiểu, phân tích, đánh giá và ra quyết định liên quan tới công việc

s Phải đ ư ợ c thiết kế dễ hiểu và dễ sử dụng đ ố i với người dùng Tóm lại, Kho dừ liệu và Cơ sở dừ liệu tác nghiệp có những điếm khác

-

19-Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 21

-20-• Hướng chủ thể: Kho dừ liệu tổ chức và đưa ra dừ liệu từ khung nhìn

cua người dùng cuối Còn hầu hết các cơ sở dừ liệu tác nghiệp thì tổ chức dừ liệu từ khung nhìn của ứng dụng theo cách làm cho ứng dụng truy cập được dừ liệu một cách hiệu quả nhất

Quản m ộ t khối lượng lớn thông tin: Hầu h ết các Kho dừ liệu chứ a

các dữ liệu quá khứ, cái thường bị loại bỏ ra bởi các hệ tác nghiệp, do

nó không còn cần thiết cho sản phẩm và ứng dụng tác nghiệp Do phải quán lý một khối lượng lớn thông tin nên Kho dừ liệu cũng phai cung cấp các thủ tục phụ phục vụ cho việc tóm tắt và kết hợp nhầm phân loại khối lượng dữ liệu khổng lồ nói trên Chính vì nhu cầu quản

lý tất cả các dữ liệu quá khứ đe thêm vào dữ liệu hiện tại cho nên Kho

dữ liệu lớn hơn nhiều so với cơ sở dữ liệu tác nghiệp

Lưu trữ thông tin trên nhiều phương tiện: Vì khối lượng thông tin

phai quản lý là rất lớn nên Kho dừ liệu thường lưu trữ dữ liệu trên nhiều phương tiện khác nhau

Ghép nối nhiều phiên bản của giản đồ cơ sở dữ liệu: K h o dũ' liệu

phải lưu trữ và quản lý các thông tin quá khứ Vì các thông tin quá khứ đó đã được quản lý ở nhiều thời điểm khác nhau bởi nhiều phiên bản khác nhau của giản đồ cơ sở dữ liệu nên Kho dừ liệu phải tong hợp các thông tin đó lại

Tóm tát kết hợp thông tin: Mức chi tiết được thấy trong các thông

tin được lưu trữ bởi cơ sở dữ liệu tác nghiệp thường rất lớn đế ra quyết định Kho dữ liệu tóm tắt và kết hợp thông tin để đưa ra theo cách thức mà người dùng có thể hiểu được

nhau chủ yếu sau:

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 22

Tích hợp và Hên kêt thông tin từ nhiêu nguôn dữ liệu khác nhau:

các tô chức đã sử dụng nhiều cơ sở dừ liệu và ứng dụng phần mềm khác nhau đề quản lý công việc của chúng, Kho dữ liệu cần thiết để thu thập và tô chức các dừ liệu mà các ứng dụng này đã thu thập được qua nhiều năm

2.2 SỬ DỤNG D Ữ LIỆU TRO N G KHO D Ữ LIỆU

Việc xây dựng Kho dừ liệu là một quá trình kỹ thuật thu thập, quản lý và khai thác dừ liệu một cách hợp lý từ nhiều nguồn khác nhau

để thiết lập một kho dữ liệu Nó cung cấp những dừ liệu phù hợp, dễ hiểu cần thiết cho việc quản lý một phần hay toàn bộ công tác nghiệp vụ của

m ột tổ chức

Đe xây dựng Kho dữ liệu thì điều đầu tiên cần phải quan tâm là Kho dừ liệu bao gồm những dừ liệu nào Tuỳ thuộc vào cách xem xét dừ liệu mà ta có 3 cách phân chia các kiểu dữ liệu sau:

• Phân chia theo ngừ nghĩa của dữ liệu : Theo ngừ nghĩa của dừ liệu thì Kho dữ liệu có 3 kiểu dừ liệu:

s Dữ liệu nghiệp vụ: Dữ liệu nghiệp vụ là dừ liệu mà được dùng

đế điều hành và quản lý một công việc hay một tố chức Nó phản ánh hoạt động mà công việc phải tiến hành, phản ánh các đối tượng trong thế giới thực như khách hàng, địa điểm, sản phẩm Nó được tạo ra và được sử dụng nhờ hệ xử lý giao dịch

và hệ hồ trợ quyết định

s Dữ liệu thành phẩm', dữ liệu này có ý nghĩa thực chất riêng và giá trị của nó nằm trong nội dung nó biểu đạt chứ không phải nằm trong cái mà nó phản ánh Dừ liệu thành phẩm được tạo

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 23

ra, mua và bán như bất cứ sản phẩm vật lý nào khác, ví dụ như phim ảnh và sách báo được lưu trữ dưới dạng số hoá.

s Siêu dữ liệu: cái mô tả ý nghĩa của dừ liệu, dùng chỉ đê định nghĩa hoặc mô tả dừ liệu nghiệp vụ hoặc dừ liệu thành phẩm

Nó có thể được định nghĩa như sau “Siêu dữ liệu (Meta data) là

dữ liệu mô tả cẩu trúc và ỷ nghĩa của dữ liệu trong kho dữ liệu nhăm xác định rõ dữ liệu này được tạo ra, truy nhập và sử dụng như thể nào ”

Phân chia theo cấu trúc của dữ liệu: Dừ liệu có thế được cấu trúc cao, bao gôm các trường hoặc các bản ghi có quan hệ một cách rành mạnh với nhau Hoặc là phi cấu trúc, nơi mà các kết cấu bên trong rất hay thay đôi, hoặc là có thể nàin giữa hai kiểu trên

• Phân chia theo phạm vi của dữ liệu: Dữ liệu có thế là mang tính cá nhân - người chủ cúa nó có thế thay đồi tuỳ thích Hoặc là mang tính công cộng - việc sử dụng nó được chia sẻ cho cả cộng đồng, và mỗi

sự thay đổi đòi hỏi được quản lý một cách cẩn thận

2.3 KIÉN TRÚC KHO D Ừ LIỆU

2.3.1 KIÉN TRÚC CHUNG

Tổng quát, kiến trúc về Kho dữ liệu như sau:

Xét một cách tổng quát, Kho dữ liệu là một môi trường có cấu trúc các hệ thống thông tin, cung cấp cho người dùng các thông tin khó có thê truy nhập hoặc biểu diễn trong các CSDL tác nghiệp truyền thông, nhằm mục đích hồ trợ việc ra quyết định mang tính lịch sử hoặc hiện tại Hay nói cách khác kho dữ liệu là một tập hợp dừ liệu tích hợp hướng chủ đề

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 24

lý và truy nhập được từ người dùng đầu cuối cũng như từ các nguồn dừ liệu.

s Dừ liệu nguồn (là các ứng dụng tác nghiệp hoặc các kho dừ liệu tác nghiệp ) Bao gồm :

- D ừ liệu sản phẩm: đó là các dừ liệu được chắt lọc từ các phần mềm ứng dụng và các hệ CSDL tác nghiệp

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 25

-24 Dừ liệu kế thừa: về cơ bản loại dừ liệu này có tính lịch sử Chúng phục vụ cho quá trình phân tích dữ liệu Mặt khác, các phương pháp khai phá dừ liệu cũng thường xử lí trên các dừ liệu này

- Các hệ thống dữ liệu bên trong

- Các hệ thống dừ liệu bên ngoài

- Các kỹ thuật thu thập dừ liệu

^ Bộ biến đổi & tích hợp dừ liệu: : Làm các nhiệm vụ sau

- Chuẩn hoá

- Làm sạch

- Sàng lọc

- Tương hợp

- Phân định thời gian cho các thông tin nguồn

- Tích hợp các loại dừ liệu khác từ các hệ thống đế tạo ra dữ liệu mới

- Phân dừ liệu thành các loại cho dễ xử lí

- Tính toán sơ bộ, tổng họp và kết xuất dừ liệu theo yêu cầu của người sử dụng

- Chuyển đổi và hình thành lại các dữ liệu từ các nguồn khác nhau để có thể kết hợp trong cùng một dạng

- Biến đổi và gia công lại dừ liệu lưu trừ các nguồn dừ liệu gốc

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 26

-

25-•S Kho dữ liệu cục bộ hay dừ liệu theo chủ đề (Data mart): là nơi các dừ liệu được khoanh vùng theo chủ đề tới một giới hạn nào

đó và có thể được thay đổi cho phù hợp với nhu cầu của từng

bộ phận người dùng Với các kho dừ liệu này, cũng có thế xây dựng m ột kho dừ liệu theo cách tiếp cận từng giai đoạn kế tiếp nghĩa là với một tập hợp các kho dừ liệu thông minh, ta tạo ra

m ột kho dữ liệu; ngược lại, một kho dừ liệu có thể được phân tích thành nhiều kho dừ liệu cục bộ Bao gồm các chức năng:

- Sàng lọc các dừ liệu đã chẳt lọc từ Kho dừ liệu

- Tích họp dữ liệu vào các lĩnh vực có chủ đề cụ thể

- T ạ o ra các dừ liệu tống hợp

- Kiến tạo các kho dừ liệu cục bộ bàng các phương pháp mô hình hoá, tổng hợp, kết nối, dung hoà và nâng cao giá trị chất lượng dữ liệu

^ Kho dữ liệu về dừ liệu.( Siêu dừ liệu):

- Do tính đa dạng của các kiểu loại dữ liệu và các phương pháp quan lý dữ liệu mới khác so với các hệ quán trị CSDL tác nghiệp, việc sử dụng các dữ liệu để định nghĩa và xác định các loại dừ liệu, các phương pháp xử lí, các phương pháp quản lý dữ liệu, các biểu bảng trong Kho dừ liệu tăng lên rất lớn, cho nên phải tính đến việc quản lý loại dừ liệu này Vì thế cần phải hình thành lớp quản lý siêu dừ liệu phục vụ cho công việc lưu trữ, xử lí các d ữ liệu này

- T rong việc thiết kế, các siêu dừ liệu có mặt ở khắp nơi Các nguồn dừ liệu được đặc trưng bởi định nghĩa của các dữ liệu

Kho dữ liệu Data Warehouse - M ột số vấn đề khai phá số liệu

Trang 27

-26-nhập vào, việc bô sung các nhãn thời gian đòi hỏi phái định nghTa các nhãn thời gian dùng trong siêu dữ liệu Lớp quản

lý siêu dừ liệu nhằm quan lý các dừ liệu dùng để mô tả đầy

đủ và hoàn chỉnh các dừ liệu được lưu trữ trong Kho dừ liệu

- Các chức năng chính của lớp này là sao chép, tạo mới, lưu trữ, phục hồi, làm sạch và cập nhật các siêu dữ liệu sau đây:

■ Xây dựng các sơ đồ tương ứng cũng như các bảng chú giải về kỳ thuật và nghiệp vụ được lưu và quản lý trong chúng

■ Các định nghĩa dừ liệu chuẩn (bao gồm cả định nghĩa kỹ thuật và miêu tả nghiệp vụ) của các dữ liệu lưu trừ trong Kho dừ liệu

■ Các siêu dừ liệu có trong các quá trình phân đoạn, kết nối, tổng hợp

* Các siêu dữ liệu để mô tả các báo cáo và các chất vấn

■ Các siêu dừ liệu mô tả các chỉ số, các chủ giải dùng đểtruy nhập dữ liệu

■ Các siêu dữ liệu mô tả các luật xác định thời gian saochép, cập nhật và nạp lại dữ liệu

s Các công cụ vấn đáp, báo cáo, phân tích trực tiếp và khai phá

dừ liệu Đây chính là các cách khai thác kho dừ liệu đế đem lại những “tri thức” hơn là đem lại chính những dừ liệu thô

- Truy nhập trực tiếp vào Kho dữ liệu

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 28

2 7

Truy nhập vào các kho cục bộ

- Gia công lại và biến đổi dữ liệu thành các dừ liệu có cấu trúc phức tạp hơn

- Tạo ra các công cụ đề tạo báo cáo, phân tích dữ liệu, mô hình hoá tác nghiệp

- Tạo ra các công cụ phân tích trữ tuyến, trợ giúp ra quyết định

- Tạo ra các công cụ khai phá dừ liệu,

v' Quản trị kho dừ liệu:

- Bản thân Kho dữ liệu là một hệ thống thông tin lớn cho nên cũng giống như các hệ quản trị CSDL tác nghiệp thông thường, việc quản lý dữ liệu đóng một vai trò rất quan trọng, nhất là phải quản lý một khối lượng rất lớn các dữ liệu lịch sử và hiện tại, mà các loại dữ liệu này bao gồm nhiều kiểu loại khác nhau, rất phong phú và đa dạng, được lưu trữ trong nhiều loại hình mang thông tin Việc quản lý

dừ liệu này tạo môi trường hoạt động cho chính Kho dữ liệu Có thể thấy rằng những chức năng như nạp vào, nạp lại, trích đoạn dừ liệu, tuân thủ an toàn, lưu trữ, khôi phục

dừ liệu có trong Kho dừ liệu là nhờ lớp quản lý dừ liệu

- Các chức năng chính ở lớp quản trị kho dữ liệu là:

■ Sao lại các dừ liệu thích hợp từ nguồn dừ liệu đã chọn phục vụ cho việc tinh chế và gia công lại dữ liệu trong Kho dữ liệu

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 29

2 8

-■ Giám sát và đáp ứng các đòi hởi cho các dữ liệu mới rút

từ các nguồn dừ liệu khác nhau

■ Bảo quản các dừ liệu trong các nguồn dữ liệu tác nghiệp

và nạp lại hoặc cập nhật và làm sạch dừ liệu

- Mặt khác, có thể thấy lớp quản lý dừ liệu sẽ thổng nhất các phương pháp quản lý dữ liệu, các thủ tục, các phép toán phục vụ cho việc an toàn, phân quyền truy nhập, lưu trữ và khôi phục dừ liệu Việc thực hiện các xử lí song song các câu hỏi và phục hồi việc sử dụng các xử lý song song cho việc truy nhập dữ liệu cũng được quản lý trong lớp này

s Hệ thống phân phối thông tin: Bao gồm

1 LÓ'P chuyên tải dừ liệu :

Nhiệm vụ chuyển tải dừ liệu do lớp này thực hiện Lớp này sử dụng sự nạp, sao chép, chuyến tải dừ liệu và các hệ thống mạng, các phần mềm lớp trung gian.Nó bảo đám an toàn và phân quyền cho các nhu cầu chuyển tải dữ liệu

Lớp chuyến tải dừ liệu xác định các cầu nối truyền thông cần thiết giữa các trang thiết bị phần cứng và phần mềm của kho d ừ liệu Lớp này có thành phần chuyển tải dữ liệu và m ạng bao gồm các loại hệ thống sau:

■ Các giao tác mạng

■ Các cơ chế quản lý mạng

■ Các hệ điều hành mạng

■ Các loại m ạng : ví dụ như Ethernet, Tokenring

Kho dừ liệu Data Warehouse - M ột số vấn đề khai phá số liệu

Trang 30

Thành phần thứ hai của lớp này trợ giúp cho quá trình tích hợp, quản lý các phần mềm chuẩn, các phần mềm ứng dụng và hoạt đ ộ n s khác để sao chép, cập nhật, kết nối, tổng hợp dừ liệu

Thành phần thứ ba phục vụ cho công việc lưu trữ Nó cũng cung cấp các dịch vụ quản lý cho khối các nguồn dừ liệu

Thành phần cuối cùng của lóp này bao gồm các hệ thống xử lí Chúng tạo ra các môi trường làm việc cho Kho

dữ liệu

2.3.2 CÁC KIỂU KIẾN TRÚC K HO D Ữ LIỆU

Khi xây dựng kiến trúc tổng quát Kho dữ liệu, chúng ta cần xét tới các yếu tố ảnh hưởng:

^ Yêu cầu cơ quan : các phòng ban với các nhu cầu phân tích tương ứng; Tổ chức của cơ quan : tập trung hay phân tán; Cơ

sở hạ tầng về thông tin sẵn có ( thông thường, việc xây dựng một Kho dừ liệu tiến hành trên cơ sở cơ quan đã tin học hoá hệ thông tác nghiệp hàng ngày)

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 31

-30-'S Mô hình tính toán Client/Server

Từ các cách tiếp cận đó, ta có thể có các kiểu kiến trúc tương ứngsau:

2.3.2.1 KIÊU KIẾN TRÚC TH EO NHU CẦU QUẢN LÝ THÔ N G TIN

K h o d ừ liệu

D ata w a re h o u se

3

M ôi trư ờ n g truy nhập

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 32

2.3.2.2 KIÊU KIÉN TRÚC D ự A THEO PHÂN LỚP D Ữ LIỆU

'S Dừ liệu chi tiết hiện thời : là phần quan trọng, phản ánh những

sự kiện mới xảy ra; Thường có khối lượng lớn

'S Dữ liệu chi tiết cũ: ít khi được truy cập; khối lượng lớn

'S Dừ liệu tồng hợp sơ bộ: được tống hợp từ dữ liệu chi tiết hiện thời ở mức thô

'S Dữ liệu tổng hợp cao: được tổng hợp ở mức mịn hơn Thường nhó và dễ truy nhập

2.3.2.3 KIÉN TRÚC THEO MÔ HÌNH CLIEN T/SER V ER

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 33

'S M id d le w a re : đ ả m b ảo g iao dịch g iữ a C lie n t v à Server.

• C lie n t nói c h u n g đ ư ợ c x e m là c h ủ độn g N ó tru y n h ậ p v à o các d ịc h v ụ

c h u n g đ ư ợ c c u n g cấ p bởi 1 S e rv e r d ù n g c h u n g h o ặ c nó c ũ n g có thể tru y n h ậ p v ào d ịch v ụ n ằ m ở n h iều S e rv e r k h á c n h au S e rv e r nói

c h u n g đ ư ợ c x em là bị đ ộ n g N ó c h ờ y êu cầu từ C lie n t đ ể x ử lý T u y

n h iê n nó c ũ n g có th ể c h ứ a c ác th ủ tụ c đ ó n g vai trò c h ủ đ ộ n g (ví dụ để

y ê u c ầ u C lie n t c u n g c ấ p th ê m d ữ liệu c ần thiết)

• M ô h ìn h C lie n t/S e r v e r đ a n g d ạn g , linh đ ộ n g , p h ù h ợ p với các ứ n g

d ụ n g p h â n tán k h ác n h au Đ ơ n giản n h ất n h ư cả C lie n t và S e rv e r c ù n g

ơ trê n m ộ t m áy v à k h ô n g có m ạ n g tru y ề n th ô n g T h ô n g th ư ờ n g , v iệc

p h â n lớp th ự c h iện trê n c ơ s ở c h ứ c năn g T r o n g m ô h ìn h này:

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 34

Kiến trúc Kho dữ liệu theo IĨ1Ô hình CLIENT/SERVER:

K h o d ừ liệu g ồ m ba lớp với các ch ứ c n ă n g tư ơ n g ứ n g n h ư sau:

'S C lient: G iao d iện n g ư ờ i d ù n g , p h â n tích d ừ liệu, tạo lập báo

cáo, tô n g h ợ p và tín h toán

'S A p p lic a tio n Server: là m ộ t S e rv e r (q u ả n lý v à lưu trữ d ữ liệu

dư ớ i d ạ n g b ả n g n h iề u ch iều) S e rv e r này làm n h iệ m v ụ tính toán, tổ n g h ợ p để lưu d ừ liệu dư ớ i d ạ n g b ả n g n h iề u ch iều D ừ liệu p h ầ n lớn là d ừ liệu kết xuất

'S D a ta S erv er: lọc, tín h to án , tổ n g h ợ p lưu trữ d ừ liệu dư ớ i d ạ n g

q u an hệ D ữ liệu đ ư ợ c lưu trữ là d ữ liệu chi tiế t lẫn d ữ liệu kết xuất, ở cả d ạ n g c h u ẩ n lẫn phi ch uẩn

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 35

th ô n g tin có g iá trị tiềm ẩn tro n g các tập d ữ liệu lớn (các k h o d ữ liệu), về

b an c h ấ t, khai p h á d ừ liệu liên q u a n đ ể n v iệc p h â n tích các d ữ liệu và sử

d ụ n g c ác kỹ th u ậ t để tìm ra các m ẫu h ìn h có tín h c h ín h q u y tro n g tập d ữ liệu

N e u p h á t h iện tri th ứ c tro n g c ơ s ở d ừ liệu là to àn bộ q u á trìn h p h át

h iệ n cá c tri th ứ c có ích từ các tậ p d ữ liệu lớn thì kh ai p h á d ừ liệu là m ộ t birớc đ ặ c biệt tro n g to àn bộ q u á trình, sử d ụ n g các giải th u ậ t đặc biệt đê

c h iế t x u ấ t ra c ác m ẫ u hay các m ô h ìn h từ d ừ liệu

N ế u xét về m ặ t ý tư ở n g v à m ụ c đ ích ứ n g d ụ n g , khai p h á d ữ liệu là

m ộ t n h u c ầ u tất yếu, m ộ t sự n h ạ y cảm đ á p lại sự m o n g m ỏi c ủ a giới kinh

v iệ c b iết s ử d ụ n g th ô n g tin m ộ t c á c h có hiệu quả Đ iế u đ ó c ó n g h ĩa là từ

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 36

3 5

-c á-c d ừ liệu sằn -có, phải tìm ra n h ừ n g th ô n g tin tiề m ấn -c ó g iá trị m à trư ớ c đ ó c h ư a đ ư ợ c p h át hiện, tìm ra n h ữ n g xu h ư ớ n g p h át triển v à

n h ữ n g y ế u tổ tác đ ộ n g lên ch ú n g T h ự c hiện c ô n g việc đ ó c h ín h là th ự c

h iệ n q u á trìn h p h á t hiện tri th ứ c tro n g c ơ sở d ừ liệu m à tr o n g đ ó kỳ th u ậ t

c h o p h é p ta lấy đ ư ợ c các tri th ứ c c h ín h là kỹ th u ậ t khai p h á p d ữ liệu

N ế u D ữ liệu th ư ờ n g đ ư ợ c c h o bởi các g iá trị m ô tả các sự kiện,

h iệ n t ư ợ n g c ụ th ể Thì tri th ứ c là gì ? T a có th ể h iể u tri th ứ c là m ộ t biểu

th ứ c t r o n e m ộ t n g ô n n g ữ n à o đó diễn tả m ộ t (h o ặc n h iề u ) m ố i q u a n hệ

g iữ a các th u ộ c tính tro n g các d ữ liệu đó C á c n g ô n n g ữ th ư ờ n g đ ư ợ c

d ù n g đê b iê u d iễn tri th ứ c ( T r o n g C S D L ) là các k h u n g , cây và đô thị,

c ác luật, c ô n g th ứ c tro n g n g ô n n g ữ logic m ệ n h để h o ặ c tân từ cấp m ột, các hệ th o n g p h ư ơ n g trìn h , V V

Ọ u á trìn h p h át h iện tri th ứ c có thế đ ư ợ c m ô tả bởi m ô h ìn h sau:

Trang 37

-36-P h á t h iệ n tri th ứ c từ C S D L là m ộ t q u á trìn h s ử d ụ n g n h iều p h ư ơ n g

p h á p v à c ô n g cụ tin họ c n h ư n g v ẫn có m ộ t q u á trìn h m à tro n g đó con

n g ư ờ i là c h ín h N g ư ờ i sử d ụ n g h ệ th ố n g ở đây phải là n h ữ n g n g ư ờ i có

k iến th ứ c c ơ b ản về lĩn h v ự c cầ n p h á t h iện tri th ứ c đ ể có th ể ch ọ n đ ư ợ c đúne, các tậ p co n d ữ liệu, các lớp m ầu p h ù h ợ p v à đ ạt tiêu c h u â n q u an

tâ m so v ớ i m ụ c đích Tri th ứ c m à ta nói ở đ ây là các tri th ứ c rú t ra từ các

C S D L , t h ư ờ n g để ph ụ c vụ ch o v iệ c giải q u y ế t m ộ t loạt n h iệ m v ụ n h ất

đ ịn h tr o n g m ộ t lĩnh v ự c n h ấ t định D o đó, q u á trìn h p h á t h iệ n tri thức

c ũ n g m a n g tín h ch ất h ư ớ n g n h iệ m vụ, k h ô n g ph ải là p h á t h iện m ọ i tri

th ứ c b ất kỳ m à là p h á t h iện tri th ứ c n h ằ m giải q u y ế t tổ t n h iệ m v ụ đề ra

Vì v ậ y , q u á trin h p h á t h iệ n tri th ứ c là m ộ t q u á trìn h h o ạ t đ ộ n g tư ơ n g tác

g iữ a c o n n g ư ờ i (n g ư ờ i sử d ụ n g h o ặc c h u y ê n g ia p h â n tích ) v ớ i các c ô n g

cụ tin học

N ế u p h á t h iện tri th ứ c là to à n bộ q u á trìn h c h iế t x u ấ t tri th ứ c từ các

C S D L thì khai p h á d ừ liệu là giai đ o ạ n ch ủ y ếu c ủ a q u á trìn h đó Khai

p h á d ữ liệu t h ư ờ n g b ao g ồ m v iệ c t h ử tim m ô h ìn h p h ù h ợ p với tập d ừ liệu v à tìm k i ế m các m ẫ u t ừ tập d ừ liệu th e o m ô h ìn h đ ó n h ư n g chỉ có

n h ữ n g m ẫ u đ ư ợ c x e m là đ á n g q u a n tâ m xét th e o m ộ t p h ư ơ n g d iện n à o đó

m ớ i đ ư ợ c c o i là tri thức T a có th ể coi khai p h á d ữ liệu g iố n g n h ư m ộ t

q u á trìn h p h á t h iệ n các m ẫ u m ớ i đ á p ứ n g đ ư ợ c các y êu cầu trên, các

v ớ i n h ữ n g n h à k h o a học K h ai p h á d ữ liệu đ ư ợ c x ây d ự n g đ ư a trê n việc

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 38

C á c giải th u ậ t k h a i p h á d ữ liệu t h ư ờ n g đ ư ợ c m iê u tả n h ư n h ữ n g

c h ư ơ n g trìn h h o ạ t đ ộ n g tr ự c tiế p trê n tệ p d ừ liệu V ớ i c ác p h ư ơ n g p h á p

h ọ c m á y và th ố n g k ê trư ớ c đ â y , t h ư ờ n g th ì b ư ớ c đ ầ u tiê n là c á c g iải th u ậ t nạp to à n bộ tệp d ừ liệu v à o t r o n g b ộ n h ớ K h i c h u y ể n s a n g c á c ứ n g d ụ n g

c ô n g n g h iệ p liên q u a n đ ế n v iệ c k h a i p h á cá c k h o d ữ liệu lớn, m ô h ìn h

n ày k h ô n g thể đ á p ứ n g đ ư ợ c K h ô n g chỉ bởi vì n ó k h ô n g th ể n ạ p h ế t d ữ liệu v à o tro n g bộ n h ớ m à c ò n vì k h ó có th ể c h iế t x u ấ t d ừ liệu ra cá c tệp

Trang 39

-38-Q u á trình khai p h á d ữ liệu đ ư ợ c th ê h iện bời m ô h ìn h trê n với từ n g

b ư ớ c chi tiết n h ư sau:

- X á c đ ịnh n h iệ m v ụ : X á c đ ịnh c h ín h x á c v ấ n đề cần th ự c hiện

- X ác đ ịn h các d ừ liệu liên q u a n : T rê n c ơ s ở v ần đề cần giải

q u yết, xác địn h các n g u ồ n d ừ liệu liên q u a n có th ể d ù n g đề xây d ự n g giải pháp

- T h u th ập các d ữ liệu có liên q u a n và x ử lý c h ú n g th à n h d ạ n g sao ch o giải th u ậ t khai p h á d ừ liệu có th ể h iể u đ ư ợ c, v ẫ n đề này có th ể g ặp phải m ộ t số v ư ớ n g m ắ c n hư : các d ữ liệu phải

đ ư ợ c sao ra n h iề u bản (n ếu đ ư ợ c ch iết x u ấ t v ào các tệp),

q u ả n lý tập các tệ p d ữ liệu, phải lặp đi lặp lại n h iề u lần toàn

bộ q u á trình ( n ế u m ô h ình d ừ liệu th a y đ ổ i), v.v

- T h ố n g kê, tó m tắt d ữ liệu Đ ồ n g thờ i kết h ợ p với các d ữ liệu trự c tiếp để làm đ ầ u v ào ch o thự c h iệ n g iải th u ậ t khai p h á số liệu

- C h ọ n th u ậ t to án k hai p h á d ừ liệu thích h ợ p v à th ự c h iện việc khai p h á d ừ liệu đ ể tìm đ ư ợ c các m ẫ u c ó ý n g h ĩa dư ớ i d ạ n g

b iểu d iễn tư ơ n g ứ n g với các ý n g h ĩa đó ( th ư ờ n g đ ư ợ c b iểu

d iễn dư ớ i d ạ n g các luật x ếp loại, cây q u y ế t đ ịn h , luật sản xuất, b iếu th ứ c, hội quy, ) V ớ i các các n h iệ m v ụ c ủ a khai

p h á d ừ liệu k h ác nh au , d ạ n g c ủ a các m ẫ u c h iế t x u ấ t đ ư ợ c

c ũ n g rất đ a dạng M ầ u c h iết x u ấ t đ ư ợ c có th ể là m ộ t m ô tả

Kho dừ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Trang 40

x ác đ ịn h n h ư các luật, cây p h â n lớp, q u y hồi, p h â n n h ó m , G iả i th u ậ t

k hai p h á d ừ liệu b ao g ồ m 3 th à n h p h ầ n c h ín h n h ư sau: b iểu d iễn m ô hình, đ á n h giá m ô h ìn h , tìm k iế m m ô hình

s B iê u d iễ n m ô h ìn h : M ỏ h ìn h đ ư ợ c biểu d iễ n b ằ n g m ộ t n g ô n

n g ừ để m iê u tả các m ẫ u có th ể khai thác đư ợ c N e u sự m ô tả

q u á bị h ạn chế thì sẽ k h ô n g th ể h ọc đ ư ợ c h o ặc sẽ k h ô n g th ế có các m ẫ u tạ o ra đ ư ợ c m ộ t m ô h ìn h c h ín h x ác c h o d ừ liệu Vì

v ậy , v iệ c q u a n tr ọ n g là n g ư ờ i p h â n tích d ừ liệu cần phải hiểu

đ ầy đu các g iả th iế t m iê u tả M ộ t điều c ũ n g k h á q u a n trọ n g là

ng ư ời th iế t kể giải th u ậ t cần ph ải q u a n tâ m là d iễ n tả m ô hình

c à n g lớn thì c à n g làm tă n g m ứ c đ ộ n g u y h iể m d o bị h ọ c q u á và làm g iả m đi k h ả n ă n g d ự đ o án các d ữ liệu c h ư a biết H ơ n nữa,

v iệ c tìm k iế m sẽ c à n g trở n ên p h ứ c tạ p h ơ n v à v iệc giải th ích

m ô h ìn h c ũ n g k h ó k h ă n hơn

s Đ á n h g iá m ô h ìn h : Đ á n h g iá x e m m ộ t m ẫ u có đ á p ứ n g đ ư ợ c

các tiêu c h u ẩ n c ủ a q u á trìn h p h á t h iện tri th ứ c h a y k h ô n g V iệ c

đ á n h g iá độ c h ín h xác d ự đ o á n d ự a trên đ á n h g iá ch éo Đ á n h

g iá ch ấ t lư ợ n g m iê u tả liên q u a n đ ến đ ộ c h ín h x á c d ự đ o á n , độ

m ớ i, k h ả n ă n g sử d ụ n g , k h ả n ă n g h iểu đ ư ợ c c ủ a m ô hình C ả hai c h u ẩ n th ố n g kê v à c h u ẩ n logic đ ều có th ể đ ư ợ c sử d ụ n g đế

đ án h g iá m ô hình V iệ c đ á n h g iá m ô h ìn h đ ư ợ c th ự c h iện q u a

Kho dữ liệu Data Warehouse - Một số vấn đề khai phá số liệu

Ngày đăng: 25/03/2015, 09:46

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w