1. Trang chủ
  2. » Luận Văn - Báo Cáo

Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu

126 1,3K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 126
Dung lượng 2,01 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Những đóng góp chính của luận văn:  Luận văn đã trình bày một phương pháp khai phá dữ liệu bằng các công cụ trực quan và các phương pháp thông dụng, trong các phương pháp có trình bày

Trang 2

Ngô Văn Bình

Mét sè ph-¬ng ph¸p khai ph¸ d÷ liÖu

vµ øng dông trong bµi to¸n lËp thêi kho¸ biÓu

Chuyên ngành : Công nghệ thông tin

Mã số : 1.01.10

NGƯỜI HƯỚNG DẪN KHOA HỌC

PGS.TS VŨ ĐỨC THI

Hà Nội - 2004

Trang 3

MỤC LỤC

MỞ ĐẦU 3

CHƯƠNG 1 TỔNG QUAN 6

1.1 Tổng quan về cơ sở dữ liệu và khai phá dữ liệu 6

1.1.1 Tổ chức và khai thác cơ sở dữ liệu truyền thống 6

1.1.2 Khai phá dữ liệu và quá trình phát hiện tri thức 7

1.2 Kho dữ liệu 10

1.2.1 Sự cần thiết của kho dữ liệu 10

1.2.2 Định nghĩa kho dữ liệu 12

1.2.3 So sánh Kho dữ liệu và hệ quản trị cơ sở dữ liệu truyền thống 14

1.2.4 So sánh hệ thống cơ sở dữ liệu tác nghiệp và hệ thống kho dữ liệu 15

1.2.5 Dữ liệu trong Kho dữ liệu 17

1.2.6 Kiến trúc kho dữ liệu 18

1.2.7 Ba mô hình của Kho dữ liệu 22

1.2.8 Hướng tiếp cận đề nghị khi phát triển Kho dữ liệu [9] 23

1.2.9 Từ Kho dữ liệu đến khai phá dữ liệu 23

CHƯƠNG 2 KHAI PHÁ DỮ LIỆU 26

2 1 Giới thiệu khai phá dữ liệu 26

2.1.1 Khai phá dữ liệu là gì ? 26

2.1.2 Động cơ thúc đẩy dùng khai phá dữ liệu 26

2.2 Các ứng dụng của khai phá dữ liệu: 27

2.2.1 Phân tích cơ sở dữ liệu và trợ giúp ra quyết định: 27

2.2.2 Các ứng dụng khác 28

2.3 Khai phá dữ liệu trong quá trình phát hiện tri thức 29

2.4 Khai phá dữ liệu và tin tức kinh doanh 31

2.5 Kiến trúc điển hình của hệ thống khai phá dữ liệu 31

2.6 Khai phá dữ liệu nơi hội tụ của rất nhiều kiến thức: 32

2.7 Trọng tâm chính trong khai phá dữ liệu 32

2.8 Những vấn đề không cần dùng khai phá dữ liệu 33

2.9 quá trình khai phá dữ liệu 34

2.9.1 Truy cập và chuẩn bị dữ liệu 34

2.9.2 Quá trình khái phá dữ liệu 37

2.10 Các nhiệm vụ chính của khai phá dữ liệu 37

2.11 Các thành phần của giải thuật khai phá dữ liệu 39

CHƯƠNG 3 CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU TRỰC QUAN 40

3.1 Quan sát các hoạt động không theo chủ quan 40

3.2 Trực quan và đòi hỏi của nhận thức 41

3.3 Vẽ sơ đồ dữ liệu trên lược đồ trực quan 42

3.3.1 Thuật toán xác định vị trí [6] 42

3.3.2 Điều khiển sự xuất hiện của các đối tượng trong các thể hiện 45

3.3.3 Làm cho các hiển thị có thể hiểu được 45

3.4 Những cách tiếp cận phân tích 46

3.4.1 Phân tích đặc điểm cấu trúc 46

3.4.2 Phân tích cấu trúc mạng 48

3.4.3 Phân tích những mẫu thời gian 52

3.4.4 Thiết lập các lớp mẫu thời gian 52

Trang 4

CHƯƠNG 4 CÁC PHƯƠNG PHÁP KHAI PHÁ DỮ LIỆU THÔNG DỤNG 54

4.1 Phương pháp thống kê 54

4.1.1 Phương pháp thống kê 54

4.1.2 Khi nào thì sử dụng phân tích thống kê: 55

4.2 Phương pháp cây quyết định và luật 56

4.2.1 Phương pháp cây quyết định và luật 56

4.2.2 Khi nào dùng cây quyết định 58

4.3 Các luật kết hợp 58

4.3.1 Luật kết hợp 58

4.3.2 Khi nào dùng các luật kết hợp 59

4.4 Mạng Nơ ron 59

4.4.1 Mạng Nơ ron 59

4.4.2 Khi nào sử dụng phương pháp học không có thầy 61

4.5 Giải thuật di truyền 61

4.5.1 Giải thuật di truyền 61

4.5.2 Khi nào sử dụng giải thuật Di truyền 62

4.6 Các phương pháp khai phá dữ liệu khác 62

4.6.1 Phân nhóm và phân đoạn 62

4.6.2 Phương pháp suy diễn và quy nạp 63

4.6.3 Các phương pháp dựa trên mẫu 63

4.6.4 Khai phá dữ liệu văn bản 63

4.7 lựa chọn phương pháp khai phá dữ liệu 64

4.8 ưu thế và khó khăn của khai phá dữ liệu 64

4.8.1 Ưu thế: 64

4.8.2 Khó khăn 66

CHƯƠNG 5 GIẢI THUẬT DI TRUYỀN VÀ BÀI TOÁN LẬP THỜI KHOÁ BIỂU 70

5.1 Tổng quan giải thuật di truyền cổ điển 70

5.1.1 Ý tưởng của giải thuật 70

5.1.2 Cấu trúc của GA cổ điển 71

5.2 GA và bài toán lập thời khoá biểu ở trường cao đẳng công nghiệp hà nội 75

5.2.1 Giới thiệu 75

5.2.2 Các định nghĩa 77

5.2.3 Giải thuật di truyền cho thời khoá biểu 79

5.2.4 Thiết kế cơ sở dữ liệu 90

5.2.5 Chương trình lập thời khoá biểu 93

KẾT LUẬN 96

TÀI LIỆU THAM KHẢO 98

PHỤ LỤC 100

Trang 5

MỞ ĐẦU

Trong suốt hơn 40 năm phát triển, Cơ sở dữ liệu đã có những bước tiến vô cùng quan trọng trong lịch sử Công nghệ thông tin Từ mô hình Cơ sở dữ liệu quan

hệ do E Codd đề xuất từ những năm 60, các ứng dụng công nghệ thông tin đã thực

sự biến việc lưu trữ dữ liệu trở thành lưu trữ thông tin Ngày nay, bất cứ một tổ chức nào, với bất kỳ một mô hình hay quy mô nào cũng đều có những nhu cầu về lưu trữ và khai thác thông tin Khái niệm thông tin ở đây bao gồm cả thông tin về nội tại của tổ chức và thông tin về môi trường (environment) và tổ chức hoạt động

Với những tiến bộ vượt bậc trong nghiên cứu lý thuyết cũng như cài đặt thực

tế, các hệ quản trị cơ sở dữ liệu đã trở thành nền tảng, là xương sống trong hoạt động của các tổ chức Chúng ta có thể thấy những nhà cung cấp hệ quản trị cơ sở dữ liệu hàng đầu trên thế giới như ORACLE, Microsoft, IBM, Informix Hệ quản trị

cơ sở dữ liệu ngày nay không còn đơn thuần chỉ là một cơ cấu cho phép lưu trữ số liệu (data) mà còn kèm theo đó là các công cụ (tools), tiện ích (utilities) hay các phương pháp luận (methodologies) để chuyển đổi số liệu thành thông tin Tập tất cả các công cụ do người dùng phát triển hoặc do các nhà cung cấp phần mềm tung ra

để phục vụ cho mục đích hoạt động của tổ chức, được tối ưu theo những yêu cầu nghiệp vụ của tổ chức được gọi là các ứng dụng hỗ trợ xử lý giao dịch trực tuyến (OLTP - Online Transactional Processing) Cao hơn nữa, với các yêu cầu kết xuất thông tin cô đọng hơn, nhằm hỗ trợ các yêu cầu phân tích của các nhà lãnh đạo, các nhà lập chiến lược của một tổ chức, các ứng dụng cũng như nền tảng phát triển Xử

lý phân tích trực tuyến (OLAP - Online Analytical Processing) ra đời Lúc này dữ liệu được lưu trữ và kết xuất dưới dạng hướng chủ đề, phù hợp với những yêu cầu phân tích ra quyết định cụ thể

Trong thời đại ngày nay, con người đang sống trong một môi trường xã hội phát triển cao với sự bùng nổ về dữ liệu Khi trình độ xã hội càng phát triển thì kiến thức con người càng được phát triển đồng thời lượng dữ liệu cũng gia tăng theo mức dộ đó Mặc dù trong môi trường tràn ngập dữ liệu, nhưng con người dường như vẫn thiếu thông tin Theo thống kê của một số tổ chức uy tín thì chỉ có 2%-3% lượng dữ liệu được chuyển thành thông tin có ích Khi xã hội càng phát triển, lượng thông tin cần càng nhiều thì công việc tổ chức, khai phá dữ liệu ngày càng khó khăn Như vậy, trong quá trình sử dụng và khai thác thông tin, người ta nhận thấy

Trang 6

rằng có rất nhiều tri thức còn tiềm ẩn trong dữ liệu Đó có thể là các khuynh hướng kinh doanh, là các dự báo thị trường, cũng có thể là mối quan hệ giữa các trường hay nội dung dữ liệu mà con người không hình dung ra được khi tiến hành mô hình hoá các hệ thống (system modelling) Vấn đề đặt ra là làm thế nào để khai thác thôngtin một cách có hiệu và dùng các phương pháp nào để khai thác thôngtin

Để trả lời câu hỏi đó luận văn sẽ nghiên cứu về Phát hiện tri thức trong cơ sở

dữ liệu (Knowledge Discovery in Database) và cụ thể bài toán Khai phá dữ liệu (DataMining) làm trung tâm nghiên cứu

Nghiên cứu này mới chỉ dừng lại ở việc tìm hiểu các phương pháp khai phá

dữ liệu trong thực tế để có thể dựa vào đó như một tài liệu thám khảo, cuối cùng đưa ra giải pháp để giải quyết bài toán lập thời khoá biểu – một bài toán NP khó

Với thời gian nghiên cứu chưa đủ dài cũng như trình độ và tầm hiểu biết chưa thực sự sâu sắc, chắc chắn việc nghiên cứu có nhiều thiếu sót và chưa chặt chẽ Nhưng qua đây, em xin chân thành cảm ơn PGS.TS Vũ Đức Thi Chủ tịch hội đồng Khoa học, Viện phó Viện Công nghệ Thông tin – Viện Khoa học Việt nam người

đã tận tình hướng dẫn và giúp đỡ em trong toàn bộ quá trình nghiên cứu Em cũng xin được bày tỏ lòng biết ơn đến các Thầy, Cô khoa Công nghệ - Đại học Quốc gia

Hà nội đã tạo mọi điều kiện làm việc, học tập tốt nhất cũng như những ý kiến quý báu trong thời gian học Cao học giúp em có thể hoàn thành nghiên cứu này

Tôi xin được cảm ơn bạn bè, gia đình những người đã giúp đỡ tôi rất nhiều trong việc hoàn thành luận văn

Những đóng góp chính của luận văn:

 Luận văn đã trình bày một phương pháp khai phá dữ liệu bằng các công

cụ trực quan và các phương pháp thông dụng, trong các phương pháp

có trình bày rõ nên sử dụng như thế nào và sử dụng trong trường hợp nào

 Luận văn trình bày về kho dữ liệu và cách sử dụng Kho dữ liệu

Trang 7

 Luận văn xây dựng phương pháp giải quyết bài toán lập thời khoá biểu dựa trên giải thuật di truyền, một trong các phương pháp khai phá dữ liệu

Nội dung của luận văn:

Phần mở đầu của luận văn giới thiệu nội dung nghiên cứu, tính cấp thiết của

đề tài và những đóng góp chính của luận văn Chương 1 giới thiệu các khái niệm cơ bản về khai phá dữ liệu, Kho dữ liệu và ứng dụng Chương 2 giới thiệu về khai phá

dữ liệu nói chung, các ứng dụng của khai phá dữ liệu Chương 3 giới thiệu các phương pháp khai phá dữ liệu trực quan Chương 4 giới thiệu các phương pháp khai phá dữ liệu thông dụng, cách sử dụng và các trường hợp nên dùng chúng Chương 5 nói về giải thuật di truyền, ứng dụng giải thuật di truyền vào bài toán lập thời khoá biểu, xây dựng bài toán lập thời khoá biểu Phần kết luận nêu các đóng góp của luận văn và các hướng nghiên cứu tiếp theo Phần phụ đưa danh sách các modul chính trong chương trình

Trang 8

CHƯƠNG 1 TỔNG QUAN 1.1 TỔNG QUAN VỀ CƠ SỞ DỮ LIỆU VÀ KHAI PHÁ DỮ LIỆU

1.1.1 Tổ chức và khai thác cơ sở dữ liệu truyền thống

Ngay từ những năm 60, việc dùng các phương tiện tin học để tổ chức khai thác các cơ sở dữ liệu (CSDL) đã được phát triển Cho đến nay, rất nhiều CSDL đã được xây dựng, phát triển và khai thác ở khắp các lĩnh vực hoạt động của con người

và xã hội Hiện nay, lượng thông tin trên thế giới cứ sau 24 tháng lại tăng gấp đôi Ngày nay, với sự phát triển mạnh mẽ của công nghệ bán dẫn, tạo ra các hệ thống với dung lượng lớn, bộ xử lý tốc độ cao cùng và các công nghệ truyền hiện đại, người ta đã xây dựng các hệ thống thông tin hiện đại, trợ giúp mọi hoạt động kinh doanh, điều đó đã tạo ra khối dữ liệu khổng lồ, cần xử lý, nó bao gồm các cơ

sở dữ liệu cực lớn cỡ gigabytes và thậm chí terabytes lưu trữ các dữ liệu kinh doanh

Nhiều hệ quản trị CSDL với các công cụ mạnh ra đời trợ giúp cho con người khai thác có hiệu quả các nguồn tài nguyên dữ liệu Mô hình CSDL quan hệ và ngôn ngữ truy vấn cấu trúc (SQL-Structure Query Language) đã có vai trò hết sức quan trọng trong việc tổ chức và khai thác các CSDL đó Cho đến nay, không một tổ chức kinh tế nào là không sử dụng các hệ quản trị CSDL và các hệ công cụ báo cáo, ngôn ngữ hỏi đáp nhằm khai thác các CSDL , phục vụ cho hoạt động tác nghiệp của mình

Theo sự phát triển đi lên của các hệ thống cơ sở dữ liệu, các hệ thống thông tin cũng được chuyên môn hoá, phát triển chuyên sâu theo các lĩnh vực ứng dụng như sản xuất, kinh doanh, tài chính, thị trường.v.v Như vậy bên cạnh chức năng khai thác dữ liệu có tính chất tác nghiệp, sự ứng dụng trong kinh doanh không còn

là dữ liệu đơn thuần của các hệ thống nữa mà cơ sở dữ liệu cần đem lại những "tri thức" hơn là chính những dữ liệu đó Trong xã hội hiện nay, các hoạt động kinh doanh cần có các quyết định nhanh và chính xác dựa trên những dữ liệu sẵn có, trong khi đó khối lượng dữ liệu tăng nhanh làm ảnh hưởng đến thời gian ra quyết định cũng như khả năng hiểu hết được nội dung dữ liệu Điều này dẫn đến các mô hình CSDL truyền thống và ngôn ngữ hỏi không có khả năng đáp ứng được yêu cầu này Để lấy được những thông tin có tính "tri thức" trong khối dữ

Trang 9

liệu khổng lồ này, người ta đã đi tìm những kỹ thuật có khả năng hợp nhất các dữ liệu từ các hệ thống dữ liệu khác nhau, chuyển đổi thành một tập hợp các cơ sở dữ liệu ổn định, có chất lượng được sử dụng chỉ riêng cho một vài mục đích nào đó Các kỹ thuật đó được gọi chung là kỹ thuật tạo kho dữ liệu (Data Warehousing) và môi trường các dữ liệu có được gọi là các kho dữ liệu Tuy nhiên, việc sử dụng các cách khai thác dữ liệu theo khai thác truyền thống mới chỉ dừng lại ở cách khai thác

dữ liệu với các kỹ thuật cao để đưa ra các dữ liệu tinh và chính xác hơn chứ chưa đưa ra được dữ liệu "tri thức" Kho dữ liệu được sử dụng để hỗ trợ cho phân tích trực tuyến (OLAP) có khả năng phân tích dữ liệu, xác định xem giả thuyết đúng hay sai nhưng không thể đưa ra các giả thuyết Kỹ thuật học máy có thể đưa ra giả thuyết, nhưng trên các tập dữ liệu lớn trong kho dữ liệu thì chúng thể hiện khả năng rất kém phương pháp thống kê cũng không có cải tiến gì để phù hợp với sự phát triển của dữ liệu Đây là lý do tại sao vẫn còn khối lượng lớn dữ liệu vẫn chưa được khai thác và thậm chí được lưu chủ yếu trong các kho dữ liệu không trực tuyến Điều này đã tạo nên một lỗ hổng lớn trong việc hỗ trợ phân tích và tìm hiểu dữ liệu, tạo ra khoảng cách giữa việc tạo ra dữ liệu và việc khai thác các dữ liệu đó Trong khi đó, càng ngày người ta càng nhận thấy rằng nếu được phân tích thông minh thì dữ liệu sẽ là một nguồn tài nguyên quí giá trong cạnh tranh trên thương trường một công nghệ mới được nghiên cứu, đáp ứng cả nhu cầu trong khoa học cũng như trong hoạt động thực tiễn Đó chính là công nghệ Khai phá dữ liệu

1.1.2 Khai phá dữ liệu và quá trình phát hiện tri thức

Việc sử dụng cơ sở dữ liệu vào hoạt động của một tổ chức đã được phát triển trong vòng 60 năm trở lại đây Với dữ liệu được thu thập trong suốt quá trình hoạt động của một tổ chức, một nhu cầu được đặt ra là tìm kiếm và khai thác tri thức từ những dữ liệu đó Đó chính là xuất phát điểm của bài toán Phát hiện tri thức từ cơ

sở dữ liệu Người ta nhận thấy rằng có rất nhiều tri thức mà chúng ta không lường trước đang còn tiềm ẩn trong dữ liệu, nhiệm vụ của chúng ta là phát hiện, khám phá các tri thức đó, phục vụ cho những nhu cầu sử dụng thông tin cao hơn, ví dụ như trong các hệ chuyên gia hay hệ hỗ trợ quyết định

Khai phá dữ liệu được định nghĩa như là quá trình chắt lọc hay khai phá tri thức từ một lượng lớn dữ liệu Một ví dụ trực quan thường được dùng là việc khai thác vàng từ đá và cát, một người khai thác muốn chắt lọc được vàng từ đá và cát

Trang 10

hơn là việc tìm phải đá hoặc cát Thuật ngữ data mining ám chỉ việc tìm kiếm một tập hợp nhỏ có giá trị từ một lượng lớn các dữ liệu thô Có nhiều thuật ngữ hiện được dùng cũng có nghĩa tương tự với từ data mining như knowledge mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/ patern analysis (Phân tích dữ liệu/ mẫu), data archaeology (khảo cổ dữ liệu), data dredging (nạo vét dữ liệu)

Nhiều người thường nhầm lẫn khái niệm khai phá dữ liệu với các thuật ngữ khác là khai phá tri thức – Knowledge Discovery in Databases (KDD) Khai phá dữ liệu chỉ là một bước trong quá trình KDD KDD gồm có các quá trình theo thứ tự như sau [15]:

1 Làm sạch dữ liệu: Loại bỏ nhiễu và các dữ liệu không cần thiết

2 Tích hợp dữ liệu: Các nguồn dữ liệu khác nhau tích hợp lại

3 Lựa chọn dữ liệu: Các dữ liệu có liên quan tới quá trình phân tích được lựa

chọn từ cơ sở dữ liệu

4 Chuyển đổi dữ liệu: Các dữ liệu được chuyển đổi sang các dạng phù hợp cho

quá trình xử lý

5 Khai phá dữ liệu: Là một trong nhưng bước quan trọng nhất, trong đó sử

dụng những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu

6 Ước lượng mẫu: Quá trình đánh giá các kết quả tìm được thông qua các độ

đo nào đó

7 Biểu diễn tri thức: Quá trình này sử dụng các kĩ thuật biểu diễn và thể hiện

trực quan các tri thức cho người dùng

Khai phá dữ liệu là giai đoạn chủ yếu của quá trình Phát hiện tri thức từ CSDL Công đoạn khai phá tri thức được thực hiện sau các quá trình thu thập và tinh lọc dữ liệu, có nghĩa là chỉ tìm các mẫu hình tri thức (pattern) có ý nghĩa trên tập dữ liệu có hy vọng chứ không phải là trên toàn bộ CSDL như các phương pháp thống kê trước đây

Vì vậy khai phá dữ liệu bao gồm việc thử tìm mô hình phù hợp với dữ liệu

và tìm kiếm các mẫu hình tri thức từ dữ liệu theo mô hình đó Mặc dù mẫu hình

Trang 11

có thể tìm được từ bất kỳ một CSDL nào nhưng chỉ những mẫu phù hợp với mục đích tìm kiếm mới được gọi là tri thức Ta sẽ có những hàm số để đánh giá các tiêu

chí mẫu như mới, có lợi, đáng xem xét

Độ mới của mẫu hình phụ thuộc vào khung phạm vi quy chiếu, có thể đối với

hệ thống hoặc đối với người dùng Ví dụ với dữ liệu của một công ty, quá trình Khai phá dữ liệu tìm ra được một luật như “Lợi tức thu được giảm vào mùa thu ở vùng phía Bắc”, đối với hệ thống thì rất mới, trước kia chưa hề có nhưng bất cứ một cán bộ lập kế hoạch nào cũng nhận ra được điều này qua các báo cáo tài chính

Tính hữu dụng của mẫu có thể đo được qua sự liên quan đến mục đích tìm kiếm Với một cán bộ phụ trách bảo trì máy tính ở công ty thì luật trên không có giá trị, mặc dù là mới đối với anh ta

Có thể qua công đoạn khai phá tri thức có rất nhiều mẫu được lấy ra nhưng không phải mẫu nào cũng có giá trị, có thể là mới, hữu ích nhưng lại tầm thường, đặc biệt là khi áp dụng các kỹ thuật dựa trên thống kê Do đó luôn phải có các tiêu chí và các hàm đánh các mẫu đáng xem xét, không tầm thường

Tóm lại, Khai phá dữ liệu thực ra có thể coi là một quá trình xác định mẫu từ các Datawarehouse, sử dụng các kỹ thuật sẵn có như học máy, nhận dạng, thống kê, phân loại và các kỹ thuật được phát triển bởi ngành nghiên cứu trí tuệ nhân tạo như Mạng nơ-ron nhân tạo (neutral network), các thuật toán di truyền (generic algorithm), quy nạp luật (rule induction)

Ta có thể xét đến một số bài toán chính đối với nghiên cứu về Khai phá dữ liệu [9]:

 Bài toán phân lớp (classification): Tìm một ánh xạ (phân loại) từ một

mẫu dữ liệu vào một trong các lớp cho trước

 Bài toán hồi quy (regression): Tìm một ánh xạ hồi quy từ một mẫu dữ

liệu vào một biến dự đoán có giá trị thực

 Bài toán lập nhóm (clustering): Là việc mô tả chung để tìm ra các tập

xác định hữu hạn các nhóm hay các loại để mô tả dữ liệu

 Bài toán tổng kết (summarization): Là việc đi tìm kiếm một mô tả

chung tóm tắt cho một tập con dữ liệu

Trang 12

1.2 KHO DỮ LIỆU

1.2.1 Sự cần thiết của kho dữ liệu

Việc áp dụng công nghệ thông tin trong môi trường nghiệp vụ hiện nay đã mang lại những hiệu quả to lớn, đặc biệt khi công nghệ ngày càng được phát triển

và hoàn thiện, mở rộng qui mô áp dụng từ những ứng dụng đơn lẻ đến các hệ thống thông tin cỡ lớn Các hệ thống thông tin từ chỗ chỉ xử lý đơn thuần các công việc hàng ngày thì tiến tới đáp ứng những yêu cầu ở mức độ cao hơn: các nhà quản lý điều hành không những biết được công việc đang diễn ra như thế nào mà còn nắm bắt được cái gì sẽ xảy ra sau đó, có nghĩa là thông tin phải mang tính phân tích và

hệ thống thông tin có khả năng hỗ trợ quyết định Tuy nhiên việc xây dựng một hệ thống thông tin như thế vấp phải một số hạn chế về mặt kỹ thuật, đặc biệt là khi kích thước cũng như độ phức tạp của môi trường thông tin tăng lên Những hệ thống thông tin xây dựng theo phương pháp truyền thống không làm hài lòng người

sử dụng và ngay cả những nhà quản lý hệ thống thông tin Vê phía người sử dụng, các khó khăn gặp phải là[9]:

1 Không thể tìm thấy dữ liệu cần thiết:

- Dữ liệu rải rác ở rất nhiều hệ thống với các giao diện và công cụ khác nhau gây mất nhiều thời gian chuyển từ hệ thống này sang hệ thống khác

- Có thể có nhiều nguồn thông tin đáp ứng được đòi hỏi nhưng chúng lại có những khác biệt và rất khó phát hiện thông tin nào là đúng và cần thiết Không thể lấy ra được dữ liệu cần thiết

- Thường xuyên phải có chuyên gia trợ giúp dẫn đến công việc dồn đống Có những loại thông tin không thể lấy ra dược nếu không mở rộng khả năng làm việc của hệ thống có sẵn Không thể hiểu được dữ liệu tìm thấy

- Mô tả dữ liệu nghèo nàn và thường xa rời với thuật ngữ nghiệp vụ quen thuộc

2 Không thể sử dụng được dữ liệu tìm thấy:

- Kết quả tìm thấy thường không đáp ứng về bản chất dữ liệu và thời gian tìm kiếm

Trang 13

- Dữ liệu phải chuyển đổi bằng thủ công vào môi trường làm việc của người

sử dụng

3 Các vấn đề về hệ thống thông tin- Phát triển các chương trình khác nhau là

không đơn giản :

- Một chức năng được thể hiện ở rất nhiều chương trình, nhưng việc tổ chức

và sử dụng lại nó là khó khăn do hạn chế về kỹ thuật

- Chuyển đổi dữ liệu từ các khuôn dạng tác nghiệp khác nhau để phù hợp với người sử dụng là rất khó khăn Duy trì những chương trình này gặp rất nhiều vấn

- Không kiểm soát được khả năng chồng chéo dữ liệu trong các môi trường thông tin dẫn đến khối lượng dữ liệu tăng nhanh quản trị dữ liệu phức tạp

- Thiếu những định nghĩa chuẩn, thống nhất về dữ liệu dẫn đến việc mất khả năng kiểm soát môi trường thông tin

- Một thành phần dữ liệu tồn tại ở nhiều nguồn khác nhau

Giải pháp cho những vấn đề nêu trên là xây dựng kho dữ liệu Kho dữ liệu ra đời ở những nước công nghiệp phát triển, nơi mức độ cạnh tranh rất cao Do sức ép cạnh tranh, các tổ chức (kinh doanh) cần phải quản lý phân tích tốt hoạt động hàng ngày và đưa ra các quyết định đúng đắn, kịp thời cho các hoạt động trong tương lai Thông tin trở thành mặt hàng quan trọng cần được quản lý và khai thác Kho dữ liệu

ra đời đáp ứng đòi hỏi lưu trữ và khai thác thông tin đó Kho dữ liệu giúp tăng hiệu quả và sức mạnh cạnh tranh Kho dữ liệu ra đời và phát triển được cũng nhờ phát triển mạnh mẽ của công nghệ thông tin ở các mặt:

Trang 14

- Khả năng lưu trữ và xử lý khối lượng lớn thông tin

- Sự phát triển nhanh chóng của mạng máy tính, đặc biệt là mô hình tính toán Client/server

Sự phát triển của các công cụ xây dựng chương trình ứng dụng: các ngôn ngữ lập trình, các công cụ trợ giúp xây dựng và thiết kế CASE, các hệ quản trì CSDL tiên tiến Với nhu cầu và khả năng trên, những dự án đầu tiên về Kho dữ liệu đã được xây dựng trong khoảng 1984-1988 Cho đến nhưng năm 1994, ở các nước phát triển, các dự án về Kho dữ liệu xây dựng mạnh mẽ Cho tới nay, Kho dữ liệu vẫn là một thị trường rất phát triển Ban đầu các dự án về Kho dữ liệu được xây dựng chủ yếu ở các tổ chức lớn (nhà băng lớn, hãng hàng không, ) Tại Việt nam,

do nhu cầu tăng cao hiệu quả quản lý, do xu hướng hoá nhập vào thế giới với sức ép cạnh tranh ngày càng tăng từ nước ngoài, do nỗ lực xây dựng công nghệ thông tin thành ngành công nghiệp mũi nhọn, các dự án về xây dựng những Kho dữ liệu đang dược dần triển khai ở các cơ quan lớn của nhà nước Và cùng với việc quan tâm ngày càng tăng tới hệ trợ giúp quyết định, Kho dữ liệu với vai trò là cơ sở hạ tầng cung cấp dữ liệu cho hệ trợ giúp quyết định ngày càng trở nên quan trọng

1.2.2 Định nghĩa kho dữ liệu

Kho dữ liệu có thể được định nghĩa bằng nhiều cách khác nhau nhưng không nghiêm ngặt lắm, ta có thể định nghĩa kho dữ liệu như sau [9]:

Kho dữ liệu (Data Warehouse-DW) là một tập hợp các dữ liệu có tính hướng chủ đề, tích hợp, gắn với thời gian và ổn định, được thiết kế cho việc hỗ trợ ra quyết định

Kho dữ liệu có thể gọi là một công trình xây dựng tổng hợp các dữ liệu từ những nguồn dữ liệu không đồng nhất, bao gồm các dữ liệu quá khứ và dữ liệu hiện tại, báo cáo phân tích và hỗ trợ quyết định Kho dữ liệu do vậy thường rất lớn, tới hàng trăm hay thậm chí hàng nghìn Gigabyte

Theo W H Inmon và R D Hackathom [9] định nghĩa : Kho dữ liệu là một

s-ưu tập dữ liệu trợ giúp ra quyết định trong quản lý, với các đặc điểm:

Hướng chủ đề (subject - oriented),

Tích hợp(integrated),

Trang 15

Đa dạng thời gian (time-variant)

Không hay thay đổi (nonvolatile)

Cụ thể hơn :

Hướng chủ đề : Trong Data Warehouse dữ liệu được mô hình hoá và thiết kế

xoay quanh chủ đề chính của công trình cần xây dựng như khách hàng, sản phẩm, bán hàng…hơn là đi vào các giao tác riêng biệt hoặc các xử lý hàng ngày Cung cấp cái nhìn đơn giản và súc tích xoay quanh các chủ đề bằng cách ngăn chặn các dữ liệu không hữu ích cho việc ra quyết định

Tích hợp : Trong Kho dữ liệu, các thông tin cần phải:

Đa dạng thời gian : Trong môi trường kinh doanh cách quyết định là trực

tuyến, do đó các dữ liệu cần phải chính xác tại thời điểm ra quyết định Đây không phải là trường hợp cho Kho dữ liệu, dữ liệu là xác đáng tại một vài thời điểm nhưng không nhất thiết là hoàn toàn đúng Điển hình, dữ liệu chỉ hoàn toàn chính xác tại thời điểm nạp vào Kho dữ liệu Như vậy, mỗi dữ liệu trong Kho dữ liệu chỉ đúng tại một thời điểm nhất định vì vậy trong các thuộc tính thường có thời gian Dữ liệu lưu trữ trong khoảng thời gian từ 5- 10 năm Dữ liệu có thể được xem như những ảnh chụp liên tiếp trong thời gian dài

Không hay thay đổi : trong thực tế việc cập nhập dữ liệu (chèn, xoá, sửa)

thường xuyên xảy ra trên cơ sở các bản ghi Kho dữ liệu không cập nhập như vậy,

dữ liệu cập nhập vào kho dựa trên lịch được xử lý bởi người dùng Theo cách tiếp cận này, dữ liệu chủ yếu được nạp vào một lần, sau đó chỉ được truy nhập để lấy ra

Trang 16

Việc cập nhật dữ liệu ít xảy ra Các kỹ thuật liên quan tới: phục hồi dữ liệu, đảm

bảo toàn vẹn tham chiếu phát hiện và giải quyết tắc nghẽn, thường không cần

thiết

1.2.3 So sánh Kho dữ liệu và hệ quản trị cơ sở dữ liệu truyền thống

1.2.3.1 Vấn đề tích hợp cơ sở dữ liệu hỗn tạp

* Phương pháp truyền thống:

1 Xây dựng hoán đổi hoặc vật dàn xếp trên đỉnh của cơ sở dữ liệu hỗn tạp

2 Áp dụng các điều khiển Query:

- Khi một client yêu cầu một site, siêu từ điển được sử dụng để chuyển query của client thành query thích hợp để tạo site từ các site hỗn tạp, kết quả được tích hợp vào tập các câu trả lời chung

Vấn đề phức tạp trong lọc thông tin và tranh chấp tài nguyên

*Kho dữ liệu: Sử dụng công cụ update và khả năng thực thi cao

Thông tin từ các nguồn hỗn tạp được tích hợp cao hơn và được chứa trong các kho phục vụ cho các truy vấn hoặc các phân tích trực tiếp

1.2.3.2 Vấn đề hoạt động

* Dùng OLTP (on-line transaction processing)- Xử lý các giao tác trực tuyến

- Thực hiện nhiệm vụ chính trong CSDL quan hệ truyền thống

- Phục vụ các hoạt đồng hàng ngày: mua, bán, đăng ký, thanh toán, lập bảng lương, báo cáo…

* Dùng OLAP (on-line analytical processing) – Xử lý phân tích trực tuyến

- Dùng cho các nhiện vụ chính của hệ thống Kho dữ liệu

- Phục vụ phân tích dữ liệu và hỗ trợ ra quyết định

* Sự khác biệt trong khả năng của OLPT và OLAP [9]:

Trang 17

OLPT OLAP

phức tạp Người sử dụng Chuyên gia công nghệ thông

Đơn vị công việc Các giao tác ngắn và đơn giản Truy vấn phức tạp

1.2.4 So sánh hệ thống cơ sở dữ liệu tác nghiệp và hệ thống kho dữ liệu

Thông thường, các cơ quan tổ chức trước khi bắt đầu xây dựng Kho dữ liệu đều đã tin học hoá các hoạt động hàng ngày bằng xây dựng các hệ tác nghiệp (Online Transaction Processing - OLTPL) Và nguồn dữ liệu chủ yếu của Kho dữ

liệu chính là từ hệ tác nghiệp Nhưng tại sao lại phải xây dựng kho dữ liệu - một hệ thống tin học mới - khi đã có sẵn một hệ thống tin học là hệ tác nghiệp? Đó là vì tác

nghiệp phục vụ cho tự dộng hoá các tác vụ thao tác hàng ngày, còn Kho dữ liệu phục vụ cho môi trường thông tin ra quyết định, Kho dữ liệu được thiết kế hướng trợ giúp quá trình phân tác và ra quyết định, và mang những đặc điểm khác như sau:

Trang 18

Hệ thống tác nghiệp mang tính hướng tác vụ với những đặc điểm chính sau [9]:

1 Trợ giúp các công việc tức thời hàng ngày

2 Chứa dữ liệu hiện thời, thể hiện trạng thái thực công việc

3 Các hoạt động xảy ra trong hệ thống thường đơn giản, giới hạn trong phạm vi nhất định, và kết quả gây ra thường là việc cập nhập dữ liệu

4 Được tối ưu hoá cho việc xử lý nhanh các tác vụ định trước, đặc biệt tập trung vào các hoạt động cập nhật

5 Người dùng chủ yếu là những người làm những công việc Ở mức độ chi

tiết, cụ thể như thư kí, người bán hàng,

6 Thiết kế thường khó hiểu và che dấu với người dùng

Kho dữ liệu được thiết kế hướng trợ giúp quá trình phân tích và ra quyết định, và mang những đặc điểm khác như sau [9]:

1 Trợ giúp quá trình quản lý và điều khiển công việc

2 Chứa dữ liệu mang tính lịch sử, thể hiện cách nhìn ổn định của công việc trong một giai đoạn hay tại một thời điểm cụ thể đã qua

3 Được tối ưu hoá cho các câu hỏi truy vấn, chứ không phải các các hoạt động cập nhật Các câu hỏi có thể được xác định trước cho tới hoàn toàn không được xác định trước

4 Người dùng chủ yếu là đội ngũ quản lý để hiểu, phân tích, đánh giá và

ra quyết định hên quan tới công việc

5 Phải được thiết kế dễ hiểu và dễ sử dụng đối với người dùng

Tóm lại: Kho dữ liệu và cơ sở dữ liệu tác nghiệp có những điểm khác nhau

chủ yếu sau :

Hướng chủ thể: Kho dữ liệu tổ chức và đưa ra dữ liệu từ khung nhìn của

người dùng cuối Còn hầu hết các cơ sở dữ liệu tác nghiệp thì tố chức dữ liệu từ khung nhìn của ứng dụng theo cách làm cho ứng dụng truy cập được dữ liệu một cách hiệu quả nhất

Trang 19

Quản lý một khối lượng lớn thông tin: hầu hết các Kho dữ liệu chứa các dữ

liệu quá khứ, cái thường bị loại bỏ ra bởi các hệ tác nghiệp, do nó không còn cần thiết cho sản phẩm và ứng dụng tác nghiệp Do phải quản lý một khối lượng lớn thông tin nên Kho dữ liệu cũng phải cung cấp các thủ tục phụ phục vụ cho việc tóm tắt và kết hợp nhằm phân loại khối lượng dữ liệu khổng lồ nói trên Chính vì nhu cầu quản lý tất cả các dữ liệu quá khứ để thêm vào dữ liệu hiện tại cho nên Kho dữ liệu lớn hơn nhiều so với cơ sở dữ liệu tác nghiệp

Lưu trữ thông tin trên nhiều phương tiện: Vì khối lượng thông tin phải quản

lý là rất lớn nên Kho dữ liệu thường lưu trữ dữ liệu trên nhiều phương tiện khác nhau

Ghép nối nhiều phiên bản của lược đồ cơ sở dữ liệu: Kho dữ liệu phải lưu trữ

và quản lý các thông tin quá khứ Vì các thông tin quá khứ đó đã được quản lý ở nhiều thời điểm khác nhau bởi nhiều phiên bản khác nhau của lược đồ cơ sở dữ liệu nên Kho dữ liệu phải tổng hợp các thông tin đó lại

Tóm tắt và kết hợp thông tin: Mức chi tiết được thấy trong các thông tin được

lưu trữ bởi cơ sở dữ liệu tác nghiệp thường rất lớn để ra quyết định Kho dữ liệu tóm tắt và kết hợp thông tin để đưa ra theo cách thức mà người dùng có thể hiểu được

Tích hợp và liên kết thông tin từ nhiều nguồn dù liệu khác nhau: Vì các tổ

chức đã sử dụng nhiều cơ sở dữ liệu và ứng dụng phần mềm khác nhau để quản lý công việc của chúng, Kho dữ liệu cần thiết để thu thập và tổ chức các dữ liệu mà các ứng dụng này đã thu thập được qua nhiều năm

1.2.5 Dữ liệu trong Kho dữ liệu

Việc xây dựng Kho dữ liệu là một quá trình kỹ thuật thu thập, quản lý và khai thác tài liệu một cách lợp lý từ nhiều nguồn khác nhau để thiết lập một kho dữ liệu

Nó cung cấp những dữ liêu phù hợp, dễ hiểu cần thiết cho việc quản lý một phần hay toàn bộ công tác nghiệp vụ của một tổ chức

Để xây dựng Kho dữ liệu thì điều đầu tiên cần phải quan tâm là Kho dữ liệu bao gồm những dữ liệu nào Tuỳ thuộc vào cách xem xét dữ liệu mà ta có 3 cách phân chia các kiểu dữ liệu sau:

Trang 20

Phân chia theo ngữ nghĩa của dữ liệu : theo ngữ nghĩa của dữ liệu thì Kho dữ

liệu có 3 kiểu dữ liệu [9],[5]:

Dữ liệu nghiệp vụ: là dữ liệu mà được dùng để điều hành và quản lý một công việc hay một tổ chức Nó phản án hoạt động mà công việc phải tiến hành, phản ánh các đối tượng trong thế giới thực như khách hàng, địa điểm, sản phẩm…Nó được tạo ra và được sử dụng nhờ hệ xử lý giao dịch và hệ hỗ trợ quyết định

Dữ liệu thành phẩm: dữ liệu này có ý nghĩa thực chất riêng và giá trị của nó nằm trong nội dung nó biểu đạt chứ không phải nằm trong cái mà nó phản ánh Dữ liệu thành phẩm được tạo ra, mua và bán như bất cứ sản phẩm vật lý nào khác, ví dụ như phim ảnh và sách báo được lưu trữ dưới dạng số hoá

Siêu dữ liệu: mô tả ý nghĩa của dữ liệu, dùng chỉ để định nghĩa hoặc mô tả dữ liệu nghiệp vụ hoặc dữ liệu thành phẩm Nó có thể được định nghĩa như sau "Siêu

dữ liệu (Meta data) là dữ liệu mô tả cấu trúc và ý nghĩa của dữ liệu trong kho

dữ liêu nhằm xác định rõ dữ liệu này được tạo ra, truy nhập và sử dụng như thế nào

Phân chia theo cấu trúc của dữ liệu: Dữ liệu có thể được cấu trúc cao, bao

gồm các trường hoặc các bản ghi có quan hệ một cách rành mạnh với nhau Hoặc là phi cấu trúc, nơi mà các kết cấu bên trong rất hay thay đổi, hoặc là có thể nằm giữa hai kiểu trên

Phân chia theo phạm vi của dữ liệu: Dữ liệu có thể là mang tính cá nhân -

người chủ của nó có thể thay đổi tuỳ thích Hoặc là mang tính công cộng - việc sử dụng nó được chia sẻ cho cả cộng đồng, và mỗi sự thay đổi đói hỏi được quản lý một cách cẩn thận

1.2.6 Kiến trúc kho dữ liệu

* Cách nhìn tổng quan về thiết kế Kho dữ liệu

Khi thiết kế Kho dữ liệu người ta đưa ra bốn cách nhìn tổng quan như sau:

1 Cách nhìn từ trên xuống (Top – down): Chia Kho dữ liệu thành các phần

có thông tin liên quan mật thiết với nhau

2 Nguồn dữ liệu: Bỏ đi các thông tin bị lưu trữ và quản lý bởi hệ điều hành

Trang 21

3 Kho dữ liệu: chỉ chứa các bảng thực và các bảng ra quyết định

4 Các truy vấn giao dịch: đưa ra viễn cảnh của dữ liệu dựa trên cái nhìn của người sử dụng

* Quy trình thiết kế Kho dữ liệu

1 Dùng cách tiếp cận top-down hoặc bottom – up hoặc trộn lẫn cả hai phương pháp Trong đó, phương pháp tiếp cận top-down bắt đầu với thiết kế và kế hoạch còn bottom-up bắt đầu với các thử nghiệm và nguyên mẫu

2 Dựa trên quan điểm đánh giá kỹ nghệ phần mềm(công trình học phần mềm):

- Mô hình thác nước: Phân tích cấu trúc và hệ thống của từng bước trước khi bước sang bước khác

- Mô hình xoắn ốc: Nhanh chóng đưa ra các chức năng hệ thống với thời gian trả lời ngắn và nhanh

3 Các quy trình thiết kế Kho dữ liệu điển hình

- Thiết kế theo quy trình giao dịch

- Thiết kế theo quy trình hạt nhân

- Thiết kế theo kích thước dữ liệu

- Thiết kế theo các đơn vị đo của dữ liệu

Trang 22

* Kiến trúc đa tầng của Kho dữ liệu [9]

Hình 1.1 Mô Kho dữ liệu

Mô tả các thành phần :

1 Data sources (Dữ liệu nguồn) bao gồm :

- Dữ liệu sản phẩm: đó là các dữ liệu được chắt lọc từ các phần mềm ứng dụng và các hệ CSDL tác nghiệp

- Dữ liệu kế thừa: Loại dữ liệu này có tính lịch sử Chúng phục vụ cho quá trình phân tích dữ liệu Mặt khác, các phương pháp khai phá dữ liệu cũng thường xử

lí trên các dữ liệu này

2 Data Storage (Các hệ thống dữ liệu bên trong)

- Extract, Transform, Load, Refresh (Bộ biến đổi và tích hợp dữ liệu) Làm các nhiệm vụ sau: Thu thập, chuẩn hoá, làm sạch, sàng lọc, tích hợp các loại dữ liệu, tính toán, tổng hợp và kết xuất dữ liệu theo yêu cầu của người sử dụng

Data Warehous

e

Extract Transform Load Refresh

OLAP Engine

Analysis Query Reports Data mining

Monitor

&

Integrator

Metadat a

OLAP Server

Trang 23

- Data mart (Kho dữ liệu cục bộ hay dữ liệu theo chủ đề): là nơi các dữ liệu được khoanh vùng theo chủ đề tới một giới hạn nào đó và có thể được thay đổi cho phù hợp với nhu cầu của từng bộ phận người dùng Với các kho dữ liệu này, cũng

có thể xây dựng một kho dữ liệu theo cách tiếp cận từng giai đoạn kế tiếp nghĩa là với một tập hợp các kho dữ liệu thông minh, ta tạo ra một kho dữ liệu, ngược lại, một kho dữ liệu có thế được phân tích thành nhiều kho dữ liệu cục bộ Bao gồm các chức năng: Mô hình hoá, Sàng lọc, tích hợp dữ liệu vào các lĩnh vực có chủ đề cụ thể, Tổng hợp, kết nối dữ liệu

- Metadata (Kho dữ liệu về dữ liệu - Siêu dữ liệu): Do tính đa dạng của các kiểu loại dữ liệu và các phương pháp quản lý dữ liệu mới khác so với các hệ quản trị CSDL tác nghiệp, nên cần xây dựng loại dữ liệu để định nghĩa và xác định các loại dữ liệu, các phương pháp xử lí, các phương pháp quản lý dữ liệu trong Kho dữ liệu Các chức năng chính của siêu dữ liệu :

+ Định nghĩa dữ liệu ( định nghĩa kỹ thuật và miêu tả nghiệp vụ) của các dữ liệu lưu trữ trong Kho dữ liệu

+ Mô tả các báo cáo và các chất vấn

+ Mô tả qui định sao chép, cập nhật và nạp lại dữ liệu

+ Mô tả cách thức truy nhập dữ liệu

3 OLAP Engine: Bản thân Kho dữ liệu là một hệ thống thông tin lớn và

có một khối lượng rất lớn các dữ liệu lịch sử và hiện tại, mà các loại dữ liệu này bao gồm nhiều kiểu loại khác nhau và đa dạng, do đó việc quản trị dữ liệu đóng một vai trò rất quan trọng Việc Quản trị dữ liệu này tạo môi trường hoạt động cho chính Kho dữ liệu Quản trị kho có những chức năng như nạp vào, nạp lại, trích đoạn dữ liệu, tuân thủ an toàn, lưu trữ, khôi phục dữ liệu

- Hệ thống phân phối thông tin:

+ Lớp chuyền tải dữ liệu: Nhiệm vụ chuyển tải dữ liệu do lớp này thực hiện Lớp này sử dụng sự nạp, sao chép, chuyển tải dữ liệu và các hệ thống mạng, các phần mềm lớp trung gian Nó bảo đảm an toàn và phân quyền cho các nhu cầu chuyển tải dữ liệu

+ Lớp kết cấu hạ tầng : Bao gồm các thành phần sau:

Trang 24

Thành phần quản lý các hệ thống: cung cấp các khả năng tìm kiếm, quản lý, xác định các phần mềm chuẩn cũng như các phần mềm ứng dụng cho người thiết kế

hệ thống và người sử đụng nghiệp vụ

Thành phần thứ hai của lớp này trợ giúp cho quá trình tích hợp, quản lý các phần mềm chuẩn, các phần mềm ứng dụng và hoạt động khác để sao chép, cập nhật, kết nối, tổng hợp dữ liệu

Thành phần thứ ba phục vụ cho công việc lưu trữ Nó cũng cung cấp các dịch

vụ quản lý cho khối các nguồn dữ liệu

Thành phần cuối cùng của lớp này bao gồm các hệ thống xử lí Chúng tạo ra các môi trường làm việc cho Kho dữ liệu

4 Front-End Tools (Các công cụ vấn đáp, báo cáo, phân tích trực tiếp và khai phá dữ liệu) Đây chính là các cách khai thác kho dữ liệu để đem lại những "tri thức" hơn là đem lại chính những dữ liệu thô

- Truy nhập trực tiếp vào Kho dữ liệu/ kho cục bộ

- Tạo ra các công cụ đề tạo báo cáo, phân tích dữ liệu, mô hình hoá tác nghiệp

- Tạo ra các công cụ phân tích trữ tuyến, trợ giúp ra quyết định

- Tạo ra các công cụ khai phá dữ liệu

1.2.7 Ba mô hình của Kho dữ liệu

1 Mô hình xí nghiệp: Tập hợp tất cả các thông tin về kế hoạch của các

ban trong toàn tổ chức

2 Dữ liệu chủ đề: Tập con của dữ liệu chung sao cho giá trị của chúng

là quan trọng, hữu ích cho nhóm hoặc người sử dụng, ví dụ như dữ liệu về maketing

3 Kho ảo: Chứa tập các cái nhìn tổng quan về hoạt động của cơ sở dữ

liệu Tuy nhiên, chỉ một vài kết luận trong đó có thể thực hiện được

Trang 25

1.2.8 Hướng tiếp cận đề nghị khi phát triển Kho dữ liệu [9]

Hình 1.2 Hướng phát triển kho dữ liệu

1.2.9 Từ Kho dữ liệu đến khai phá dữ liệu

1.2.9.1 Sử dụng Kho dữ liệu

Kho dữ liệu sử dụng cho ba loại ứng dụng sau:

1 Xử lý thông tin: trợ giúp truy vấn, phân tích thông tin tĩnh và cơ

bản, tạo báo cáo sử dụng crosstabs, bảng, biểu đồ và đồ thị

2 Xử lý các phân tích: Phân tích nhiều loại kích thước của dữ liệu

trong Kho dữ liệu Trợ giúp các hoạt động cơ bản của xử lý phân tích trực tuyến

3 Khai phá dữ liệu (data mining): Khai phá tri thức từ các mẫu ẩn Trợ

giúp các mô hình phân tích xây dựng và kết hợp, biểu diễn phân loại

và dự báo, đưa ra các kết quả khai phá bằng các công cụ trực quan

Define a high-level corporate data model

Data Mart Data Mart

Distributed Data Marts

Trang 26

1.2.9.2 Công nghệ xử lý phân tích trực tuyến dùng cho khai phá dữ liệu

Làm thế nào để khai phá dữ liệu gắn liền xử lý thông tin với xử lý phân tích trực tuyến (On-line analytical processing-OLAP) Xử lý thông tin dựa trên truy vấn

có thể tìm thấy các thông tin hữu ích Tuy nhiên, những câu trả lời được tạo ra bởi query lấy thông tin trực tiếp chứa trong cơ sở dữ liệu hoặc các bảng tính toán bởi việc tập hợp các chức năng, chúng không phản hồi lại thông tin từ các mẫu tinh hoặc các thông tin có tính quy tắc trong cơ sở dữ liệu Do đó, xử lý thông tin không phải là khai phá dữ liệu

Xử lý thông tin trực tuyến trở thành các bước đóng cho khai phá dữ liệu từ khi nó có thể điều khiển tổng kết thông tin từ Kho dữ liệu

Các chức năng của OLAP và khai phá dữ liệu có thể nhìn nhận bằng hai phần phân biệt: OLAP tổng kết hoặc tập hợp dữ liệu bằng các công cụ để phân tích dữ liệu một cách đơn giản, trong khi khai phá dữ liệu cho phép khai phá tự động các mẫu và phát hiện tri thức ẩn trong số lượng lớn các dữ liệu Công cụ OLAP có mục tiêu đơn giản hoá và trợ giúp tương tác phân tích dữ liệu, trong khi đó mục tiêu của công cụ khai phá dữ liệu là tự động xử lý được càng nhiều càng tốt trong khi vẫn cho phép người sử dụng hướng dẫn xử lý(vừa tự động vừa có sự can thiệp của con người) Với phương thức kết hợp làm việc như vậy, khai phá dữ liệu tiến một bước

xa hơn xử lý phân tích trực tuyến truyền thống

Từ khi hệ thống OLAP có thể biểu diễn mô tả chung về dữ liệu trong Kho dữ liệu, chức năng của OLAP dường như cho người sử dụng trực tiếp tổng kết và so sánh dữ liệu Tuy vậy theo cách nhìn này, khai phá dữ liệu vẫn hoạt động bao trùm hơn xử lý của OLAP vì khai phá dữ liệu không chỉ xử lý tổng kết và so sánh dữ liệu

mà còn phân tích kết hợp, phân lớp, dự đoán, bó cụm và hàng loạt các bài toán phân tích khác

Khai phá dữ liệu không bị giam cầm trong khuôn khổ phân tích dữ liệu trong Kho dữ liệu Nó có thể phân tích dữ liệu tồn tại ở dạng chi tiết hơn là phân tích dữ liệu đã được tổng kết từ Kho dữ liệu

Từ khi khai phá dữ liệu cung cấp chế độ hoạt động tự động và sâu hơn OLAP thì nó đã là sự mong đợi của một số lượng lớn các ứng dụng

Trang 27

1.2.9.3 Từ xử lý phân tích trực tuyến đến khai phá phân tích trực tuyến

Khai phá phân tích trực tuyến (On-line analytical Mining-OLAM) dùng tích hợp OLAP , khai phá dữ liệu và khai phá tri thức trong rất nhiều các cơ sở dữ liệu

có kích thước khác nhau

* Lý do để dùng OLAM:

- Tạo dữ liệu chất lượng cao trong Kho dữ liệu (Kho dữ liệu chứa dữ liệu tích hợp, thích đáng và sạch)

- Có khả năng xử lý thông tin xung quanh kiến trúc của Kho dữ liệu

- Dựa trên cơ sở OLAP nhưng phân tích mang tính chất thám hiểm

- Lựa chọn trực tuyến các chức năng khai phá dữ liệu: tích hợp và hoán đổi các chức năng, thuật toán và bài toán khai phá dữ liệu

* Kiến trúc của OLAM [9]

Hình 1.3 Kiến trúc OLAM

Data Warehouse

User GUI API

Data Cube API

Trang 28

CHƯƠNG 2 KHAI PHÁ DỮ LIỆU

2 1 GIỚI THIỆU KHAI PHÁ DỮ LIỆU

2.1.1 Khai phá dữ liệu là gì ?

Khai phá dữ liệu có nghĩa là phát hiện tri thức trong cơ sở dữ liệu, nó rút ra các thông tin không tầm thường, tiềm ẩn, chưa từng biết đến và tiềm năng từ cơ sở

dữ liệu lớn[9]

Tuy nhiên, ở đây chúng ta cần khẳng định rằng các hệ thống xử lý truy vấn,

hệ chuyên gia, các hệ thống thống kê nhỏ không phải là khai phá dữ liệu

2.1.2 Động cơ thúc đẩy dùng khai phá dữ liệu

Chúng ta có một số thực trạng như sau:

1 Nhiều tổ chức đã cảnh báo từ các doanh nghiệp tư nhân đến chính phủ việc các bộ máy quan liêu đã mất mát một số lượng kinh khủng những tài nguyên trong việc xây dựng và bảo trì thông tin của cơ sở dữ liệu trong cả những thập niên gần đây, bao gồm sự phát triển lớn về quy mô các Kho dữ liệu

2 Dữ liệu không được phân tích thường xuyên bởi các phương thức thống kê chuẩn, nguyên nhân là do mất các bản ghi hoặc các mẫu dữ liệu được thu thập theo dạng định tính hơn là định lượng

3 Trong môt số trường hợp thông tin chứa trong các cơ sở dữ liệu lại ít giá trị

và không dùng được bởi vì dữ liệu không thể dễ dàng truy nhập hoặc phân tích

4 Một vài cơ sở dữ liệu lại qua lớn đến mức quản trị hệ thống không thể biết thông tin nào có thể đưa ra hoặc cái nào là thích đáng cho thời điểm hiện tại

5 Các tổ chức có thể nắm giữ nhiều lợi ích từ các Kho dữ liệu lớn chứa đựng các thông tin hoặc các mẫu có giá trị

6 Có rất nhiều phương pháp khai phá dữ liệu có thể dùng để phân tích nguồn

dữ liệu trong yêu cầu khám phá ra các mẫu mới và các khuyng hướng mới

Như vậy, ta nhận thấy có sự bùng nổ về các vấn đề của dữ liệu: Việc tập hợp

dữ liệu tự động cùng với sự trưởng thành của công nghệ cơ sở dữ liệu đã dẫn đến một số lượng lớn dữ liệu đang chứa trong cơ sở dữ liệu, Kho dữ liệu và các kho chứa thông tin khác

Trang 29

Tuy nhiên, dù chúng ta tràn ngập thông tin và có thể nói là chúng ta bội thực

về dữ liệu, nhưng chúng ta lại đói dữ liệu có tri thức

Giải pháp đưa ra ở đây là chúng ta dùng Kho dữ liệu(data warehousing) và khai phá dữ liệu(data mining)

2.2 CÁC ỨNG DỤNG CỦA KHAI PHÁ DỮ LIỆU:

2.2.1 Phân tích cơ sở dữ liệu và trợ giúp ra quyết định:

* Phân tích và quản lý thị trường: Quản lý quan hệ giữa bán hàng và khách hàng, phân tích quá trình bán hàng, phân đoạn quá trình bán hàng

- Nguồn dữ liệu để phân tích: giao dịch bằng thẻ tín dụng, kiểm tra thẻ, giảm giá, các kiến nghị của khách hàng, nghiên cứu về phong cách sống của cộng đồng

- Mục tiêu tiếp thị, bán hàng: Tìm kiếm nhóm khách hàng có cùng đặc trưng như: sở thích, thu nhập, thói quen tiêu tiền

- Phân tích thị trường: Sự kết hợp, liên kết các sản phẩm bầy bán Dự báo trước dựa trên tổng hợp thông tin

- Xác định nhu cầu của khách hàng: khai phá dữ liệu sẽ cho biết khách hàng thuộc loại này sẽ mua sản phẩm thuộc loại nào (phân cụm, phân lớp)

- Xác định nhu cầu của khách hàng: Xác định sản phẩm tốt nhất cho từng nhóm khách hàng Dùng các dự đoán để xác định nhân tố có thêm khách hàng mới

- Cung cấp các thông tin tổng hợp: Các báo cáo khác nhau về số lượng, các báo cáo tổng hợp thống kê (xu hướng và thay đổi dữ liệu)

* Quản lý và phân tích rủi ro: Dự báo, giữ khách hàng, phát triển bảo hiểm, quản lý chất lượng, phân tích cạnh tranh

- Đưa ra kế hoạch tài chính và ước lượng tài sản: phân tích và dự báo chu kỳ quanh vốn Phân tích vốn phát sinh cho ước lượng tài sản Phân tích tỷ lệ tài chính

và xu hướng phát triển

- Kế hoạch về nguồn vốn: tổng hợp và so sánh giữa nguồn vốn và ciệc chi tiêu

Trang 30

- Phân tích cạnh tranh: Nghe ngóng tình hình cạnh tranh và điều khiển kinh doanh Nhóm khách hàng theo từng nhóm dựa theo giá sản phẩm Đặt chiến lược về giả cả trong giai đoạn cạnh tranh

* Quản lý và phát hiện gian lận

- Các ứng dụng: Dùng rộng rãi trong các lĩnh vực chăm sóc sức khoẻ, bán lẻ, dịch vụ thanh toán bằng thẻ, kết nối viễn thông…

- Tiếp cận: Dùng dữ liệu có tính lịch sử để xây dựng cung cách đối xử với gian lận và dùng khai phá dữ liệu để nhận dạng các trường hợp tương tự

- Ví dụ:

 Chiếm đoạt tiền bảo hiểm: phát hiện những người đóng kịch tai nạn

để lấy tiền bảo hiểm vào một loại hợp đồng bảo hiểm

 Rửa tiền: Dò tìm các giao dịch đáng ngờ

 Bảo hiểm y tế: phát hiện các khách hàng chuyên dùng y tế để kiếm tiền bảo hiểm

- Dò tìm các gian lận trong điện thoại:

- Bán lẻ: Phân tích đã cảnh bảo 38% số lượng doanh thu trong bán lẻ đã rơi vào túi nhân viên không trung thực

Trang 31

2.3 KHAI PHÁ DỮ LIỆU TRONG QUÁ TRÌNH PHÁT HIỆN TRI THỨC

* Mô hình quá trình phát hiện tri thức (knowledge discovery process – KDD)[9]

Hình 2.1 Quá trình phát hiện tri thức

Các bước phát hiện tri thức:

1 Tìm hiểu các miền ứng dụng: ưu tiên các tri thức thích đáng và mục

tiêu của ứng dụng

2 Tạo các tập dữ liệu đích: Chọn lọc dữ liệu

3 Xử lý và làm sạch dữ liệu: công việc này có thể mất 60% công sức

4 Thu nhỏ và biến đổi dữ liệu: Tìm kiếm các đặc điểm hữu dụng, xác

định thành phần có thể thu nhỏ, thành phần bất biến

5 Lựa chọn chức năng của khai phá dữ liệu: Tổng kết, phân loại, hồi

quy, bó cụm, kết hợp

6 Lựa chọn phương pháp khai phá

7 Khai phá dữ liệu: tìm kiếm các mẫu quan tâm

Trang 32

8 Ước lượng mẫu và trình bày tri thức: nhìn nhận, biến đổi và loại bỏ

các mẫu dư thừa

9 Sử dụng tri thức phát hiện được: Lưu trữ tri thức đã được phát hiện,

Kết hợp các tri thức thành hệ thống Giải quyết các xung đột tiềm tàng trong tri thức khai thác được

Ngoài ra ta chú ý theo mô hình trên có rất nhiều bước có thể được lặp đi lặp lại

Phát hiện tri thức từ CSDL là một quá trình sử dụng nhiều phương pháp và công cụ tin học nhưng vẫn có một quá trình mà trong đó con người là chính Tri thức ở đây là các tri thức rút ra từ các CSDL, thường để phục vụ cho việc giải quyết một loạt nhiệm vụ nhất định trong một lĩnh vực nhất định Do dó, quá trình phát hiện tri thức cũng mang tính chất hướng nhiệm vụ, không phải là phát hiện mọi tri thức bất kỳ mà là phát hiện tri thức nhằm giải quyết tốt nhiệm vụ đề ra Nếu phát hiện tri thức là toàn bộ quá trình chiết xuất tri thức từ các CSDL thì khai phá dữ liệu

là giai đoạn chủ yếu của quá trình đó Khai phá dữ liệu thường bao gồm việc thử tìm mô hình phù hợp với tập dữ liệu và tìm kiếm các mẫu từ tập dữ liệu theo mô hình đó nhưng chỉ có những mẫu được xem là đáng quan tâm xét theo một phương diện nào đó mới được coi là tri thức Ta có thể coi khai phá dữ liệu giống như một quá trình phát hiện các mẫu mới đáp ứng được các yêu cầu trên, các tương quan mới có ý nghĩa, các xu hướng bằng cách khai thác dữ liệu trong Kho dữ liệu,

sử dụng các kỹ thuật khai phá

Như vậy, khai phá dữ liệu là cốt lõi của quá trình phát hiện tri thức

Trang 33

2.4 KHAI PHÁ DỮ LIỆU VÀ TIN TỨC KINH DOANH

Ta có thể biểu diễn mối quan hệ thông qua mô hình sau:[9]

Hình 2.2 Mô hình kinh doanh

2.5 KIẾN TRÖC ĐIỂN HÌNH CỦA HỆ THỐNG KHAI PHÁ DỮ LIỆU

Hình 2.3 Kiến trúc hệ thống khai phá dữ liệu

Phân tích thống kê, truy vấn và báo cáo

Kho dữ liệu / dữ liệu hướng chủ đề

Phương tiện khai phá dữ liệu

ước lượng mẫu Giao diện người sử dụng

Cơ sở tri thức

Trang 34

2.6 KHAI PHÁ DỮ LIỆU NƠI HỘI TỤ CỦA RẤT NHIỀU KIẾN THỨC:

Khai phá dữ liệu có thể coi là ngã ba sông nơi hội tụ của rất nhiều ngành học

và kiến thức, ta có thể biểu diễn điều này qua sơ đồ sau:[9]

Hình 2.4 Khai phá dữ liệu và tri thức

2.7 TRỌNG TÂM CHÍNH TRONG KHAI PHÁ DỮ LIỆU

 Các phương pháp khai phá và tương tác người sử dụng

- Khai phá các loại tri thức khác nhau của cơ sở dữ liệu

- Khai phá tương tác các tri thức ở nhiều mức trừu tượng khác nhau

- Hợp nhất các nền tảng tri thức

- Ngôn ngữ truy vấn khai phá dữ liệu và khai phá dữ liệu không theo thể thức (khai phá dữ liệu đặc biệt)

- Đưa ra kết quả khai phá dữ liệu dưới dạng trực quan hoặc biểu thức

- Điều khiển dữ liệu phức tạp và không đầy đủ

- Ước lượng mẫu

 Tính khả thi và khả năng

- Hiệu năng và khả năng thực thi của các thuật toán khai phá dữ liệu

Khai phá dữ liệu

Công nghệ cơ

sở dữ liệu

Thống kê

Các ngành học khác

Thông tin khoa học

Trang 35

- Hoạt động song song, phân tán và sự lớn mạnh của các phương pháp khai phá

 Liên kết các kiểu dữ liệu đa dạng

- Điều khiển các kiểu dữ liệu phức tạp và có liên hệ với nhau

- Khai phá thông tin từ các cơ sở dữ liệu hỗn tạp và hệ thống thông tin toàn cầu

2.8 NHỮNG VẤN ĐỀ KHÔNG CẦN DÙNG KHAI PHÁ DỮ LIỆU

Vấn đề quan trọng chúng ta luôn suy nghĩ trong tâm trí là tiêu điểm của quá trình khai phá dữ liệu là khám phá những mẫu và những khuynh hướng được che giấu Mỗi lần một mẫu đặc biệt đã được xác định, nó có thể chứa đựng những đặc trưng nhất định để hướng người khai thác dữ liệu khám phá xa hơn nữa Tuy nhiên, một lần mẫu đặc biệt đó được xác định, nó có thể được mô tả như chất lượng tri thức Mẫu có thể được đưa vào bên trong vô số cách sử dụng, bao gồm tập các báo cáo chuẩn, các phương pháp huấn luyện trong mạng nơron hoặc được mã hóa thành một quy tắc vào trong một hệ chuyên gia Tại điểm này quá trình khám phá mẫu đặc biệt đó đã kết thúc Từ phối cảnh hoặc quá trình xử lý khai phá dữ liệu thì các mẫu

đó coi như các mẫu đã biết Hơn nữa, những yêu cầu về mẫu đã biết chỉ được tạo ra khi cần xác định chúng vẫn hợp lệ hoặc sự biến đổi của các mẫu cần phải được xem xét Những cách tiếp cận phân tích tìm kiếm những tập dữ liệu trên cơ sở những mẫu đã biết thì không phải là làm khai phá dữ liệu, mặc dù chúng có thể sử dụng dữ liệu đầu vào từ những bài toán khai phá dữ liệu đến các biểu mẫu phù hợp mục đích Từ nguyên nhân này, chúng ta không lưu tâm tới kỹ thuật yêu cầu thực thi những quy tắc, ví dụ huấn luyện có sẵn hoặc học có giám sát tự động những cách tiếp cận khai phá dữ liệu Các nguyên nhân này tất nhiên không có nghĩa rằng kỹ thuật đó không phải là không hữu ích trong nhiều trường hợp, nó đơn giản có nghĩa rằng những quá trình đó không cấu thành khai phá dữ liệu

 Khai phá dữ liệu khác với kiểm tra thông tin

Chúng ta cần phân biệt giữa xử lý dữ liệu bằng khai phá dữ liệu và bằng kiểm tra định lượng

Phần lớn các ứng dụng khai phá dữ liệu tập trung vào phân tích thông tin từ tập các thông tin đã được thu gom từ trước Trong các trường hợp này, dữ liệu là

Trang 36

tĩnh và biểu diễn trạng thái của thế giới thực trong một khoảng thời gian nào đó đã qua Ta có thể xem lại các thông tin đã có qua các bước đi để xác nhận sự chính xác của dữ liệu, đưa ra quyết định mẫu nào là quan trọng Dữ liệu không thay đổi trong khi quá trình phân tích thực thi Do đó, kết quả thu được là đáng tin cậy và chắc chắn cho tập dữ liệu đó Với lý do này, ta không cần bận tâm đến thời gian chi phí

để ra quyết định

Trái lại, sự kiểm tra thường bao hàm việc so sánh các mẫu trực tuyến phù hợp với tập các điều kiện hoặc các đường biên Việc kiểm tra thường xảy ra trong thời gian thực và bao hàm việc xử lý dữ liệu đang được cập nhập Hệ thống kiểm tra

đã được phát triển cho các ứng dụng như: thị trường tài chính, kiểm soát không lưu,

lò phản ứng hạt nhân Sự kiểm tra làm tăng nhanh thời gian trả lời để tận dụng được các thông tin này Như vậy, mô hình dự báo và người dự báo có thể giúp đỡ xác định các giá trị tới hạn, những vận hành khác thường và các tiêu chuẩn dữ liệu Những hệ thống này hiện tại không thường xuyên sử dụng khai phá dữ liệu, chúng không khám phá ra các mẫu mới hoặc sự phân loại Trong hầu hết các trường hợp, các mẫu cần lưu tâm đã được phát sinh trong thời gian trước đó

2.9 QUÁ TRÌNH KHAI PHÁ DỮ LIỆU

2.9.1 Truy cập và chuẩn bị dữ liệu

Bất kỳ hệ thống nào trước khi được phát triển để phân tích và tạo ra các báo cáo thông minh thì dữ liệu bắt buộc phải sẵn sàng Yêu cầu cơ bản này không phải lúc nào cũng hoàn thành được Nếu may mắn ta sẽ có thể trực tiếp thu được những

hệ thống cơ sở dữ liệu và những file trực tuyến mà không cần có bất kỳ những thủ tục, nghi thức đặc biệt nào, hoặc phải truy nhập bằng những đặc quyền Trong nhiều miền, hầu hết dữ liệu được cất giữ trong những cấu trúc quan hệ mà có thể thông qua truy vấn để truy nhập thông tin mong muốn

Tuy nhiên, vấn đề trên có thể không phải luôn luôn là sự thật Mặc dù các Kho dữ liệu hiện nay ngày càng trở lên phổ biến nhưng chúng ta phải trả một cái giá rất đắt cho việc xây dựng và bảo trì đúng mức Nếu chúng ta không phải thuộc nhóm công nghệ bộ phận của một tổ chức thương mại hoặc chính phủ lớn với những hệ thông tin lũy tiến, sẽ có không có cấu trúc như vậy để truy nhập Trong phần lớn ràng buộc khai phá dữ liệu mà chúng ta đã chỉ ra, thông tin được sử dụng

Trang 37

lấy từ nguồn đặc biệt không dự tính trước mà việc truy nhập, tích hợp, trình bày bằng các phương pháp không cần tiên tiến như trong Kho dữ liệu

Dù chúng ta đang truy nhập dữ liệu từ kho dữ liệu trực tuyến, hoặc bằng phương pháp thấp hơn hơn nào đó, vấn đề phải được hướng vào là trích ra một phần

dữ liệu để đưa vào trong môi trường khai phá dữ liệu

 Truy vấn nguồn dữ liệu

Bước đầu tiên trong các ràng buộc khai phá dữ liệu là định nghĩa tập con dữ liệu mà ta bắt đầu phân tích Ta muốn rằng cấu trúc dữ liệu của tập hợp được rút ra

có mẫu mà ta cần phân tích Việc trích ra mẫu là một trong các phương pháp tốt nhất để tạo ra các lát cắt của dữ liệu để đưa vào các ứng dụng khai phá dữ liệu

 Các thao tác có ích thực hiện trong quá trình truy cập dữ liệu

1 Chuyển đổi chữ: Chuyển tất cả các ký từ trong luồng dữ liệu thành chữ

hoa hoặc chữ thường Sự trợ giúp này giúp ngăn ngừa bất kỳ sự thay đổi có thể xảy

ra giữa các nguyên tố dữ liệu khác nhau

2 Ghép nối thông tin: trong nhiều hệ thống dữ liệu được cất giữ riêng biệt

trong các trường, thực thể Mặc dù, các hệ thống này đã cung cấp kỹ thuật đủ cho

mô hình trong quá trình phân tích nhưng các thành phần đơn lẻ phải được kết hợp lại để tạo dữ liệu duy nhất Do đó, cần ghép nối thông tin từ các trường khác nhau vào một đơn vị duy nhất

3 Định dạng cách trình bày: đặt ra các khuôn dạng đại diện các kiểu nhất

định

4 Làm giàu dữ liệu: dữ liệu thông thường chứa đựng nhiều đặc tính khác

nhau, chúng có thể bị loại bỏ từ luồng dữ liệu Sự giải thoát những đặc tính này có thể trở thành rất quan trọng với ứng dụng dưới dạng lựa chọn những kiểu dữ liệu sẵn có cho các trình diễn

5 Trừu tượng hoá: trong một vài trường hợp rất hữu ích nếu ta giảm bớt

trình diễn thông tin trong các trường thành các giá trị đơn giản là Yes/No Điều này cho phép ta truyền chắc chắn các kiểu thông tin mà không cần có sự trình bày ở trên đầu của các giá trị duy nhất đơn

Trang 38

6 Quá trình chuyển đổi các đơn vị: Ta cần chấp nhận một đơn vị chuẩn

cho mỗi trường xuất hiện trong tập dữ liệu

7 Loại trừ: Vì quá trình xử lý cần làm tăng giá trị dữ liệu, do đó cần có các

tiêu chuẩn loại trừ để bỏ đi các dữ liệu không cần thiết

 Tích hợp dữ liệu

Dữ liệu sử dụng trong phân tích không hoàn toàn dẫn xuất ra từ một nguồn Mỗi lần dữ liệu được truy nhập cần tích hợp dữ liệu vật lý và lôgíc để đáp ứng yêu cầu phát triển hoặc cho bước tiếp theo Người phân tích phải quyết định những khía cạnh nào là quan trọng bên trong là những nguồn dữ liệu khác nhau và làm sao chúng đáp ứng được việc khai thác để hoàn thành những mục tiêu khảo sát Có nhiều cách để xác định những cấu trúc dữ liệu mà ta muốn lấy từ nguồn dữ liệu Cũng có nhiều phương pháp và kỹ thuật thông tin có khả năng đưa ra sự thật tới hạn, sự giống nhau và dị thường trong tập dữ liệu Điều này bắt buộc các lược đồ bên dưới sẽ được quản lý một cách hữu ích và chắc chắn

 Chuyển đổi dữ liệu

Trong các ràng buộc khai phá dữ liệu thường mang đến các trường hợp đặc biệt hoặc độc nhất trong đó hoạt động của dữ liệu không có các xung đột xảy ra Trong rất nhiều các miền dữ liệu, việc thay đổi tập dữ liệu gặp phải các phiền phức không mong đợi khi ta muốn đưa chúng về nguyên dạng Với các mục đích của phân tích, dữ liệu cần phải được thay đổi và tinh chế Vấn đề ở đây là ta phải có khả năng xây dựng lại và chỉ ra nguồn dữ liệu nguyên thuỷ và mô tả thay đổi nào sẽ xảy thì khi chuyển đổi dữ liệu sẽ không có vấn đề gì xảy ra

Trong chuyển đổi dữ liệu chúng ta thường gặp phải hai vấn đề cần giải quyết

đó là xử lý các bản ghi có cấu trúc dài ngắn khác nhau và vấn đề làm sạch dữ liệu

Ngoài ra hiện nay dữ liệu lưu trữ trên máy tính chủ yếu dưới dạng văn bản

Do đó, trong quá trình chuẩn bị dữ liệu cho khai phá dữ liệu chúng ta cũng cần phải lưu tâm đến vấn đề xử lý văn bản Trong văn bản thường có những vấn đề sau:

- Xử lý ngôn ngữ tự nhiên

- Tổng kết văn bản theo chủ đề

- Ngôn ngữ đánh dấu tổng quát chuẩn

Trang 39

2.9.2 Quá trình khái phá dữ liệu

Các giải thuật khai phá dữ liệu thường được miêu tả như những chương trình hoạt động trực tiếp trên tiệp dữ liệu Quá trình khai phá dữ liệu được thể hiện bởi

mô hình trên với từng bước chi tiết như sau[6],[9]:

Xác định nhiệm vụ : Xác định chính xác vấn đề cần thực hiện

Xác định các dữ liệu liên quan : Trên cơ sở vẫn đề cần giải quyết xác định

các nguồn dữ liệu liên quan có thể dùng để xây dựng giải pháp

Thu thập các dữ liệu có liên quan và xử lý chúng thành dạng sao cho giải thuật khai phá dữ liệu có thể hiểu được Vẫn đề này có thể gặp phải một số vướng

mắc như: các dữ liệu phải được sao ra nhiều bản (nếu được thiết xuất vào các tệp), quản lý tập các tệp dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình ( nếu

mô hình dữ liệu thay đổi), v.v

Thống kê, tóm tắt dữ liệu Đồng thời kết hợp với các dữ liệu trực tiếp để làm

đầu vào cho thực hiện giải thuật khai phá số liệu

Chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc khai phá dữ liệu

để tìm được các mẫu có ý nghĩ Với các các nhiệm vụ của khai phá dữ liệu khác nhau, dạng của các mẫu chiết xuất được cũng rất đa dạng Mẫu chiết xuất được

có thể là một mô tả xu hướng, có thể là dưới dạng văn bản, một đồ thị mô tả các mối quan hệ trong mô hình

2.10 CÁC NHIỆM VỤ CHÍNH CỦA KHAI PHÁ DỮ LIỆU

Công việc khai phá dữ liệu có thể chia làm hai loại: khai phá dữ liệu mô tả và khai phá dữ liệu dự đoán Loại thứ nhất mô tả dữ liệu một cách ngắn gọn, tóm tắt và trình bày các tính chất chung đáng quan tâm của dữ liệu Loại thứ hai xây dựng một hoặc một tập các mô hình, thực hiện các phép suy luận trên dữ liệu sẵn có và dự đoán hành vi của các tập dữ liệu mới

Các mục tiêu mô tả và dự đoán đạt được thông qua các công việc khai phá dữ liệu chính sau đây:

- Phân lớp là việc học một hàm ánh xạ một mẫu dữ liệu vào một trong số các

lớp đã xác định Quá trình này phân tích một tập dữ liệu huấn luyện (tức là một tập các đối tượng mà ta đã biết tên lớp của nó) và xây dựng một mô hình cho mỗi lớp

Trang 40

dựa trên các đặc tính trong dữ liệu Một cây quyết định hoặc một tập các luật phân lớp được tạo ra từ quá trình phân lớp đó, nó có thể được dùng để hiểu rõ hơn mỗi lớp trong cơ sở dữ liệu và để phân loại dữ liệu trong tương lai

Ví dụ, người ta có thể phân loại các bệnh và giúp dự đoán bệnh dựa trên các triệu chứng của bệnh nhân Phân lớp được dùng trong việc phân nhóm khách hàng,

mô hình hóa doanh nghiệp và phân tích tín dụng

- Hồi quy là việc học một hàm ánh xạ từ một mẫu dữ liệu sang một biến dự

đoán có giá trị thực Có rất nhiều các ứng dụng khai phá dữ liệu với nhiệm vụ hồi quy, ví dụ như đánh giá khả năng tử vong của bệnh nhân dựa trên các kết quả xét nghiệm chẩn đoán, dự đoán nhu cầu tiêu thụ một sản phẩm mới bằng một hàm chi tiêu quảng cáo

- Phân nhóm (đoạn) là việc mô tả chung để tìm ra các tập xác định các nhóm

để mô tả dữ liệu Các nhóm có thể tách rời hoặc phân cấp hoặc gối lên nhau, tức là một dữ liệu có thể vừa thuộc nhóm này, vừa thuộc nhóm khác Các ứng dụng khai phá dữ liệu có nhiệm vụ phân nhóm như phát hiện tập khách hàng có phản ứng giống nhau trong cơ sở dữ liệu tiếp thị, xác định các loại quang phổ từ các phương pháp đo tia hồng ngoại

- Mô hình hoá phụ thuộc bao gồm việc tìm kiếm một mô hình mô tả sự phụ

thuộc đáng kể giữa các biến Các mô hình phụ thuộc tồn tại dưới hai mức: mức cấu trúc của mô hình xác định những biến nào là phụ thuộc cục bộ với nhau, và mức định lượng của một mô hình xác định độ mạnh của sự phụ thuộc theo một thước đo nào đó

- Phát hiện sự thay đổi và chệch hướng khai thác những thay đổi đáng kể

nhất trong dữ liệu từ các giá trị chuẩn hoặc được đo trước đó

Các nhiệm vụ khác nhau này đòi hỏi số lượng và dạng thông tin khác nhau nên chúng thường ảnh hưởng đến việc thiết kế và chọn thuật toán khai phá dữ liệu khác nhau

Ngày đăng: 25/03/2015, 09:53

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
2. Vũ Đức Thi, Lê Hải Khôi (1999), Một số nguyên lý hoạt động của kho dữ liệu, Tạp chí Tin học và điều khiển, tr. 27, tr. 29-32.Tài liệu tiếng Anh Sách, tạp chí
Tiêu đề: Một số nguyên lý hoạt động của kho dữ liệu, "Tạp chí Tin học và điều khiển, tr. 27, tr. 29-32
Tác giả: Vũ Đức Thi, Lê Hải Khôi
Năm: 1999
3. Alberto Colorni, Marco Dorigo, Vittorio Maniezzo, A genetic Algorthm to solve the timetable problem, Department of Electronic and Information Technology of Milano Piazza Leonardo da Vinci Sách, tạp chí
Tiêu đề: A genetic Algorthm to solve the timetable problem
5. Christopher Westphal, Teresa Blaxton (1998), Data Mining Solution- Methods and Tools for Solving Real – World Problems, Wiley Computer Publishing, p. 616 Sách, tạp chí
Tiêu đề: Data Mining Solution-Methods and Tools for Solving Real – World Problems
Tác giả: Christopher Westphal, Teresa Blaxton
Năm: 1998
6. Enzhe Yu and Ki-Seok Sung a (2002), A genetic algorithm for university weekly courses timetabling problem, Department of Industrial Engineering, Seoul National University Sách, tạp chí
Tiêu đề: A genetic algorithm for university weekly courses timetabling problem
Tác giả: Enzhe Yu and Ki-Seok Sung a
Năm: 2002
7. Hsiao-Lan Fang (1994), Genetic Algorithms in Timetabling and Sheduling, Ph.D. Department of Artificial Intelligence University of Edinburgh. p. 108 Sách, tạp chí
Tiêu đề: Genetic Algorithms in Timetabling and Sheduling
Tác giả: Hsiao-Lan Fang
Năm: 1994
8. Jiawei Han, Micheline Kamber (2001), Data Mining: Concepts and Techniques, Morgan Kaufmann Publishers, p. 550 Sách, tạp chí
Tiêu đề: Data Mining: Concepts and Techniques
Tác giả: Jiawei Han, Micheline Kamber
Năm: 2001
9. Jiři Voráč, Ivo Vondrák, Karel Vlček (1998), School timetable generating using genetic algorithm, Technical University of Ostrava Czech Republic Sách, tạp chí
Tiêu đề: School timetable generating using genetic algorithm
Tác giả: Jiři Voráč, Ivo Vondrák, Karel Vlček
Năm: 1998
10. Mohammad A. Radaideh, Sharaf S.Horani(2002), Automatic College Course “Timetable Spreading” Using Genetic Algorithms, The Fourth Annual U.A.E University Research Conference Sách, tạp chí
Tiêu đề: Automatic College Course “Timetable Spreading” Using Genetic Algorithms
Tác giả: Mohammad A. Radaideh, Sharaf S.Horani
Năm: 2002
11. Paul Gray, Hugh J.Watson (1998), Decision Support in the Data Warehouse, Prentice Hall PTR. p. 399 Sách, tạp chí
Tiêu đề: Decision Support in the Data Warehouse
Tác giả: Paul Gray, Hugh J.Watson
Năm: 1998
12. Sándor Gyory, Zoltán Petres, Annamária R. Várkonyi- Kóczy (2000), Genetic Algorithms in Timetabling. A newApproach, Department of Measuement and Information Systems, Budapest Uniersity of Technology and Economics, Hungary Sách, tạp chí
Tiêu đề: Genetic Algorithms in Timetabling. A newApproach
Tác giả: Sándor Gyory, Zoltán Petres, Annamária R. Várkonyi- Kóczy
Năm: 2000
13. Tim B. Cooper and Jsffrey H. Kingston (1995), A program for Constructing Hight Shool Timetables, Department of Computer Science, The university of Sydney 2006 Australia Sách, tạp chí
Tiêu đề: A program for Constructing Hight Shool Timetables
Tác giả: Tim B. Cooper and Jsffrey H. Kingston
Năm: 1995
14. Usama M. Fayyad, Gregory Piatesky-Shapiro, Padhraic Smyth, Ramasamy Uthurusamy (1990), Advances in Knowledge Discovery and Data Mining, The Massachusetts institute of Technology. Cambridge. Massachusetts.And London. England, p. 610 Sách, tạp chí
Tiêu đề: Advances in Knowledge Discovery and Data Mining
Tác giả: Usama M. Fayyad, Gregory Piatesky-Shapiro, Padhraic Smyth, Ramasamy Uthurusamy
Năm: 1990
1. Hoàng Kiếm, Lê Hoàng Thái (2000), Giải thuật di truyền - cách giải tự nhiên các bài toán trên máy tính, Nhà xuất bản giáo dục Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.1. Mô Kho dữ liệu. - Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu
Hình 1.1. Mô Kho dữ liệu (Trang 22)
Hình 1.2. Hướng phát triển kho dữ liệu - Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu
Hình 1.2. Hướng phát triển kho dữ liệu (Trang 25)
Hình 1.3. Kiến trúc OLAM - Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu
Hình 1.3. Kiến trúc OLAM (Trang 27)
Hình 2.1. Quá trình phát hiện tri thức. - Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu
Hình 2.1. Quá trình phát hiện tri thức (Trang 31)
Hình 2.2. Mô hình kinh doanh. - Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu
Hình 2.2. Mô hình kinh doanh (Trang 33)
Hình 2.3. Kiến trúc hệ thống khai phá dữ liệu. - Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu
Hình 2.3. Kiến trúc hệ thống khai phá dữ liệu (Trang 33)
Hình 2.4. Khai phá dữ liệu và tri thức. - Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu
Hình 2.4. Khai phá dữ liệu và tri thức (Trang 34)
Bảng 1: Mô hình thời khoá biểu thực tế - Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu
Bảng 1 Mô hình thời khoá biểu thực tế (Trang 81)
Bảng 2: mô hình thiết kế cho nhiễm sắc thể. - Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu
Bảng 2 mô hình thiết kế cho nhiễm sắc thể (Trang 82)
Bảng 4: Tương giao chéo dựa trên Sector - Một số phương pháp khai phá dữ liệu và ứng dụng trong bài toán lập thời khoá biểu
Bảng 4 Tương giao chéo dựa trên Sector (Trang 88)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm