Các công cụ và công nghệ của hệ thống cơ sở dữ liệu trong việc tự động thu thập tri thức đối với các hệ chuyên gia dựa trên luật

Thông qua sử dụng các công cụ và chiến lược thích hợp, tri thức cung cấp trong một cơ sở dữ liệu có thể chuyển đổi hiệu quả vào định dạng của một hệ thống dựa trên luật.. Các công cụ phá

Trang 1

Mục lục

Mục lục 1

Lời mở đầu 3

Chương 1: Giới thiệu chung 4

Chương 2: Cải tiến chất lượng dữ liệu 9

2.1 Các vấn đề về chất lượng dữ liệu 10

2.1.1 Dữ liệu quá lớn 11

2.1.2 Dữ liệu quá nhỏ 12

2.1.3 Dữ liệu bị đứt đoạn 14

2.2 Các kế hoạch cải tiến chất lượng dữ liệu 14

2.2.1 Kiểm soát chất lượng dữ liệu 15

2.2.2 Kiểm tra chất lượng dữ liệu 16

2.2.3.Truyền dữ liệu 17

2.2.4 Thu thập thông tin 18

2.3 Các công cụ cải tiến chất lượng dữ liệu 19

2.3.1 Công cụ dò tìm dị thường 19

2.3.2 Công cụ mô hình hoá dữ liệu 21

2.3.3 Công cụ ngôn ngữ dữ liệu 22

2.4 Những mối quan tâm và những vấn đề về chất lượng dữ liệu 23

Chương 3: Ứng dụng của các công nghệ và công cụ khai phá cơ sở dữ liệu trong phát triển hệ chuyên gia 30

3.1 Lược đồ khai phá luật 31

3.2 Các công cụ qui nạp 33

3.3 Các công cụ khai phá tri thức 35

Chương 4: Quá trình xác minh tri thức 41

4.1 Các vấn đề và kết quả phổ biến trong khai phá tri thức 41

4.2 Sự mâu thuẫn trong cơ sở tri thức 42

4.2.1 Tri thức dư thừa 42

Trang 2

4.2.2 Tri thức gộp 42

4.2.3 Tri thức mâu thuẫn 42

4.3 Các vấn đề với khai phá tri thức từ cơ sở dữ liệu quan hệ 43

4.3.1 Khai phá tri thức sai từ cơ sở dữ liệu quan hệ 43

4.3.2 Khai phá tri thức không đầy đủ từ những cơ sở dữ liệu quan hệ 46

4.4 Xác minh tri thức được khai phá 47

4.4.1 Cách tiếp cận để xác minh cơ sở tri thức trong các hệ chuyên gia 48

4.4.2 Cách tiếp cận để xác minh khai phá cơ sở tri thức từ cơ sở dữ liệu 50 4.4.3 Xác minh khả năng chấp nhận các luật sai dựa trên dữ liệu tổng hợp .52

4.4.4 Xác minh những luật mâu thuẫn có thể dựa trên dữ liệu lịch sử 55

4.4.5 Xác minh tri thức được khai phá dựa trên tri thức lĩnh vực 58

4.4.6 Cơ chế xác minh 63

Chương 5: Kết hợp các luật được khai phá với các luật đã tồn tại 68

Chương 6: Những mối quan tâm và những vấn đề trong thu thập tri thức tự động 71

6.1 Kích cỡ của cơ sở dữ liệu 71

6.2 Cơ sở dữ liệu động 71

6.3 Siêu dữ liệu - metadata 72

6.4 Khó khăn giữa cách tiếp cận thương mại với khai phá cơ sở tri thức 73

Kết luận 76

Tài liệu tham khảo 79

Trang 3

Lời mở đầu

Khai phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases) đang là một xu hướng quan trọng của nền Công nghệ thông tin thế giới Nó có khả năng ứng dụng vào rất nhiều lớp bài toán thực tế khác nhau Feigenbaum đã từng nhận xét rằng "Trong tri thức có quyền lực" và ông đã tiến hành xây dựng các hệ thống công nghệ tri thức Từ đó khái niệm về hệ thống dựa trên tri thức hay hệ chuyên gia bắt đầu ra đời Cho đến nay, đứng trước sự phát triển của công nghệ thông tin và sự phát triển của các công nghệ tri thức và các hệ chuyên gia, chúng ta không thể phủ nhận quyền lực của tri thức trong xã hội loài người Trong thời đại ngày nay, chúng ta đang sống trong một thế giới ngập tràn tri thức Hầu hết trong các tổ chức lớn đều sử dụng đến các ứng dụng cơ sở dữ liệu để lưu trữ thông tin Nhiều ngành vần có các máy móc trợ giúp công việc và càng ngày máy móc càng khẳng định vị trí và vai trò của mình trong việc tăng năng xuất lao động Những điều này đã được khẳng định trong lịch sử phát triển của loài người Khi con người càng có trí tuệ thì càng đòi hỏi các thiết bị phải tự động hơn và thông minh hơn Do đó máy móc phải có khả năng xử lý tình huống

và thu thập tri thức tự động giống như con người Vì thế các công cụ và công nghệ thu thập tri thức tự động đang được quan tâm xây dựng và phát triển Các công cụ và công nghệ này được xây dựng và phát triển nhằm mục đích hỗ trợ cho

hệ chuyên gia thu thập tri thức để giúp cho quá trình tạo quyết định và tổ chức tri thức cho hệ chuyên gia

Tuy rằng có nhiều quan điểm khác nhau về vai trò của con người và máy móc nhưng chúng ta không thể phủ nhận vai trò của máy móc đối với cuộc sống của con người hiện đại hôm nay, đặc biệt là các máy thông minh hay các hệ chuyên gia Vì vậy theo thời gian nhu cầu của con người về các hệ thống này càng ngày càng cấp thiết Do đó, các công cụ và công nghệ thu thập tri thức cho các hệ chuyên gia hoạt động và tạo quyết định là một vấn đề then chốt để xây dựng một hệ chuyên gia hoàn chỉnh và có thể hoạt động như một chuyên gia

Trang 4

Chương 1: Giới thiệu chung

Các hệ chuyên gia là một dạng được chấp nhận của trí tuệ nhân tạo Các thành phần quyết định của mọi hệ chuyên gia đều là cơ sở tri thức, nó chứa các

sự kiện và cách giải quyết vấn đề bằng kinh nghiệm của người chuyên gia về một lĩnh vực Các cấu trúc biểu diễn tri thức của hệ chuyên gia thay đổi rất lớn bao gồm các khung và các mạng ngữ nghĩa, các hệ thống dựa trên luật chung nhất trong nhiều hệ chuyên gia Các hệ thống này bao gồm các luật khá đặc biệt như

"Nếu điểm trung bình lớn hơn 8 thì học sinh đó là giỏi"

Các công nghệ thu thập tri thức bao gồm:

- Sự theo dõi một phía

- Thảo luận và phân tích toàn bộ vấn đề

- Miêu tả vấn đề, định rõ các giao thức trong mỗi loại

- Thu được tri thức theo chính sách

Đây là các vấn đề quan trọng với mỗi công nghệ Các kỹ thuật khi được sử dụng một mình không bảo đảm tính toàn vẹn và tính chắc chắn trong cơ sở tri thức Bởi vậy cần sử dụng kết hợp nhiều kỹ thuật và nhiều nhân công Các vấn

đề khác bao gồm: đưa ra trọng số cho các sự kiện gần đây lớn hơn các sự kiện

Trang 5

trong quá khứ, lỗi để nhớ tới các trường hợp và các luật, sự bảo thủ của chuyên gia, sai số không được bảo đảm, không có khả năng như chuyên gia để giải thích các luật giúp quyết định, và tổng hợp từ số lượng mẫu quá nhỏ

Các công cụ cải tiến chất lượng dữ liệu

Công cụ tách dị

thường

Công cụ mô hình hoá dữ liệu logic

Công cụ truy vấn ngôn ngữ

Cơ sở dữ liệu hợp nhất

CSDL đã được làm

sạch

Các công cụ quy nạp

Các luật được phát sinh

Các công cụ khai phá tri thức

Các luật được phát sinh

Quá trình thẩm định tri thức Tri thức lĩnh

Trang 6

Bởi vì các kỹ thuật này và nhiều vấn đề khác có liên quan tới các kỹ thuật phỏng vấn bằng lời nói, các kỹ sư tri thức tìm kiếm các nghĩa khác để mở rộng tập hợp luật và kiểm tra lại các luật sẵn có trong cơ sở tri thức Họ có thể xem lại các tài liệu chuẩn, xử lý dấu hiệu độc lập, phỏng vấn nhiều người khác, và kiểm tra các tri thức chung, tất cả các phương pháp này là giai đoạn quan trọng và chi phí cao Do đó, mọi sự cố gắng để phát triển công nghệ thu thập tri thức tự động

là đang được chú ý

Các cơ sở dữ liệu liên kết chứa hàng chục gigabytes dữ liệu cho một vài

hệ chuyên gia, thực hiện bổ xung vào các công nghệ thu thập tri thức truyền thống Thông qua sử dụng các công cụ và chiến lược thích hợp, tri thức cung cấp trong một cơ sở dữ liệu có thể chuyển đổi hiệu quả vào định dạng của một hệ thống dựa trên luật

Dù nhiều công cụ khai phá là có sẵn, cơ sở dữ liệu thế giới thực đưa ra những khó khăn vì tính tự nhiên trong nội dung của chúng là hướng tới động, không đầy đủ, dư thừa, nhiễu, và rất lớn Những vấn đề này phải được giải quyết trước khi bất kỳ công cụ khai phá nào được ứng dụng vào những cơ sở dữ liệu liên kết này trong việc tìm kiếm các luật có ý nghĩa

Trong chương này, chúng ta miêu tả khung làm việc có sẵn của các công nghệ và công cụ cơ sở dữ liệu có thể ứng dụng cho các cơ sở dữ liệu thế giới thực

để tạo ra các cơ sở tri thức dựa trên luật để phát triển hệ chuyên gia Khung làm việc minh hoạ trong hình 1 bao gồm các thành phần chính sau:

1 Các công cụ cải tiến chất lượng dữ liệu: Chất lượng dữ liệu phải được cải tiến trước bất kỳ quá trình thu thập tri thức tự động nào để có kết quả đúng như

dự kiến Các công cụ phát hiện dị thường, các công cụ thiết kế cơ sở dữ liệu logic

và Ngôn ngữ truy vấn quan hệ SQL có thể được sử dụng để phát hiện các mâu thuẫn mà có thể tồn tại trong cơ sở dữ liệu

2 Các công cụ phát hiện luật:

 Các công cụ qui nạp như là LogicGem và First Class có thể được dùng

để biến đổi dữ liệu thành tập hợp các luật

Trang 7

 Các công cụ khai phá tri thức như là IDIS và Knowledge Seeker có thể thao tác trên dữ liệu để phát hiện các quan hệ ẩn mà tồn tại giữa các thuộc tính và trình bày các thuộc tính này trong định dạng của các luật Mặc dù, các công cụ này có thể phân tích dữ liệu để tách các dữ liệu dị thường (các thuộc tính mà có giá trị không bình thường)

3 Quá trình thẩm định tri thức: thẩm định tri thức được khai phá cần thống nhất, chính xác, đầy đủ, và thích hợp Tri thức được khai phá phải kết hợp một cách đúng đắn với tri thức đang tồn tại để cơ sở tri thức thống nhất và đáng tin cậy có thể được thiết lập cho hệ chuyên gia theo lý thuyết

Đối với những cơ sở dữ liệu rất lớn, sự kết hợp của các công cụ và công nghệ này có thể cung cấp một môi trường tốt hơn cho thu thập tri thức tự động

Để phát hiện ra tri thức có ích từ cơ sở dữ liệu, chúng ta cần cung cấp dữ liệu sạch cho quá trình khai phá Phần lớn các cơ sở dữ liệu có dữ liệu dư thừa và mâu thuẫn nhau, và mất các trường hoặc mất các giá trị dữ liệu, cũng như các trường dữ liệu mà không có quan hệ logic và được chứa trong các quan hệ dữ liệu giống nhau Các công cụ và công nghệ cải tiến chất lượng dữ liệu có thể xoá

bỏ phần lớn các vấn đề này, chúng tăng thêm cơ hội của tạo ra các luật phù hợp, chính xác, và có ý nghĩa bằng các công cụ khai phá và qui nạp

Các công cụ khai phá và quy nạp có thể sử dụng độc lập để sinh ra các luật Các công cụ quy nạp là có hiệu quả với các dữ liệu nhỏ với một vài thuộc tính, ở đó các thuộc tính độc lập lẫn nhau và tất cả các thuộc tính được đưa ra trong quá trình tạo quyết định Mặt khác, các công cụ khai phá tri thức đều rất có ích với số lượng lớn dữ liệu với nhiều thuộc tính có quan hệ với nhau Thêm vào

đó, các công cụ khai phá tri thức cho phép những người dùng hướng dẫn quá trình khai phá bằng cách tập trung vào các thuộc tính được chọn để xác nhận phần tri thức thu thập được thông qua các công nghệ thu thập tri thức truyền thống Nói chung, các công cụ khai phá và quy nạp có thể bổ sung lẫn nhau Chúng sử dụng các thuật toán khác nhau để xác định các quan hệ và các thuộc tính ẩn trong các cơ sở dữ liệu và để sinh ra luật Sau đó, ứng dụng của cả hai

Trang 8

công cụ này, bất cứ khi nào thích hợp và có thể thực hiện được, có thể giảm bớt lỗi trong bất kỳ các luật tạo quyết định từ cơ sở dữ liệu

Tập hợp các luật khai phá phải được xác minh độ chính xác (những luật miêu tả sinh động cơ sở dữ liệu), sự mâu thuẫn (những luật không dư thừa hay mâu thuẫn), và có ích (những luật đưa ra quá trình tạo quyết định) cho cơ sở tri thức đang được phát triển Hiện tại, không có công cụ có sẵn nào để hoàn thành điều này Quá trình xác minh tri thức có thể sử dụng sự phản hồi từ một chuyên gia lĩnh vực cũng như miền tri thức sẵn có đặc biệt với ứng dụng đang được xem xét cho sự phát triển hệ chuyên gia Tri thức lĩnh vực được định nghĩa như bất kỳ thông tin nào mà không trình bày rõ ràng trong cơ sở dữ liệu Trong một cơ sở dữ liệu y học, chẳng hạn, tri thức "bệnh nhân nam không thể mang thai" được xem xét như là tri thức lĩnh vực

Trong những mục sau đây, chúng ta mô tả những tiện ích, những khả năng, và những hạn chế của những công cụ, kỹ thuật, và những quá trình xác định trong khung làm việc để thu thập tri thức tự động Những công cụ và kỹ thuật này minh hoạ cách những người quản lý cơ sở dữ liệu có thể cộng tác để phát triển một vài hệ chuyên gia Không phải mọi dữ liệu có trong một cơ sở dữ liệu đều có ích và sự phát triển của tất cả các hệ chuyên gia sẽ không được lợi từ thông tin được lưu trong những cơ sở dữ liệu Điều này là đúng với mọi kỹ thuật thu thập tri thức Kỹ thuật được mô tả là phần bổ sung tới những công cụ truyền thống và được dùng để bắt đầu sự tìm kiếm cho các kỹ thuật khác liên quan đến

sử dụng cơ sở dữ liệu

Trang 9

Chương 2: Cải tiến chất lượng dữ liệu

Mỗi cơ sở dữ liệu có các đặc điểm tương ứng với kiểu dữ liệu mà nó lưu trữ Bước đầu tiên để hiểu một cơ sở dữ liệu là phải hiểu thế nào là các bảng và các trường và các kiểu của dữ liệu mà chúng chứa Trong các cơ sở dữ liệu lớn, cách biểu thị các trường, và kiểu và phạm vi giá trị của kiểu thường khó hiểu Cho một trường hợp, nếu cơ sở dữ liệu có một trường là "tuổi", nó có thể đưa ra một dự đoán dựa trên miền giá trị mà nó chứa Tuy nhiên, cho một trường như là

"chứng bệnh", nó không biết số các chứng bệnh, các chứng bệnh hay gặp, Trong khai phá tri thức, có một sự phụ thuộc quan trọng vào cách cơ sở dữ liệu được đặc trưng hoá và cách tri thức được thu thập và cách tri thức đang tồn tại được suy ra như thế nào Cơ sở dữ liệu thế giới thực đưa ra khó khăn vì những nội dung tự nhiên của chúng có xu hướng động, không đầy đủ, rườm rà, và rất rộng Dữ liệu có thể không đầy đủ hoặc thiếu các giá trị trong các trường bản ghi đặc biệt hoặc hoàn toàn thiếu các trường dữ liệu cần thiết để khai phá chính xác Trong những cơ sở dữ liệu quan hệ, vấn đề xuất hiện thường xuyên bởi vì mô hình quan hệ chỉ ra rằng tất cả bản ghi trong một quan hệ phải có các trường giống nhau, thậm chí nếu những giá trị của hầu hết các bản ghi không tồn tại Ví

dụ, một cơ sở dữ liệu bệnh viện với những trường có một phạm vi rộng của những sự kiểm tra trong phòng thí nghiệm và những thủ tục Nói chung, chỉ một vài trường này sẽ được làm đầy trong bất kỳ bệnh nhân đã cho Các trường không đầy đủ hoặc mất mát trong các quan hệ có thể dẫn đến khai phá không có

ý nghĩa Thêm vào đó, dữ liệu thường xuất hiện liên tiếp ở nhiều nơi khác nhau trong một cơ sở dữ liệu Một dạng phổ biến của sự dư thừa là một phụ thuộc hàm trong một trường được định nghĩa như là một hàm của các trường khác Cho ví

dụ, Lợi_nhuận = Thu_nhập – Chi_phí Vấn đề này là thông tin dư thừa có thể bị khai phá một cách sai lầm như tri thức, thậm chí nó thường được sử dụng không thích hợp bởi kỹ sư tri thức

Trang 10

Chất lượng của khai phá và giải thích thông tin phụ thuộc vào chất lượng của dữ liệu Chất lượng và tính chất rộng lớn của dữ liệu trong cơ sở dữ liệu thế giới thực đưa ra các vấn đề trọng tâm để khai phá tri thức Để vượt qua vấn đề chất lượng dữ liệu cần sử dụng các công cụ phân tích sự dị thường, làm sạch hơn,

và lọc các thiết kế cơ sở dữ liệu logic nếu cần thiết

2.1 Các vấn đề về chất lượng dữ liệu

Dữ liệu trên một phạm vi đặc biệt thu được trong dạng của các thuộc tính

ký hiệu và số Các nguồn của dữ liệu biến đổi từ người tới bộ cảm biến với các

độ khác biệt về sự phức tạp và sự đáng tin cậy Phân tích các dữ liệu ở đây cho chúng ta hiểu rõ hơn về lĩnh vực này Trong sự phát triển của các hệ thống dựa trên tri thức, phân tích dữ liệu được thực hiện để phát hiện và sinh ra tri thức mới

để xây dựng một cơ sở tri thức toàn diện và đáng tin cậy Sự tin cậy của cơ sở tri thức mà được sinh ra trên các công nghệ phân tích dữ liệu như là phương pháp quy nạp, nó phụ thuộc vào dữ liệu Vì vậy, chất lượng của dữ liệu trở thành một vấn đề quyết định trong sơ đồ thu thập tri thức tự động

Giới hạn "Chất lượng dữ liệu" được định nghĩa như là "phù hợp để sử dụng" bao hàm các khái niệm chất lượng dữ liệu tương đối Tính toán chất lượng

dữ liệu để phù hợp cho một mục đích sử dụng nhưng có thể không đủ chất lượng cho mục đích khác Thêm vào đó, sự thích hợp để sử dụng biểu thị rằng chúng ta cần tìm kiếm ra ngoài giới hạn sự quan tâm thường xuyên của chúng ta với độ chính xác của dữ liệu Dữ liệu tìm được dựa trên các hệ thống điều trị bệnh nhân

có thể chính xác nhưng không thích hợp để sử dụng nếu chúng không xảy ra đúng lúc Hơn nữa, các cơ sở dữ liệu khác nhau ở trong những hoàn cảnh xác định trong phần khác nhau của một tổ chức có thể đúng nhưng không thích hợp

để sử dụng nếu chúng ta hợp nhất chúng và chúng có các định dạng không thích hợp Một vấn đề liên quan tới dữ liệu là các ngữ nghĩa của dữ liệu có thể hiểu hoàn toàn bởi những người thu thập chúng, nhưng không phải bởi tất cả những người dùng khác Như vậy, mặc dù giá trị có thể đúng, nhưng nó có thể dễ dàng

bị hiểu sai

Trang 11

Vấn đề này luôn luôn tồn tại với dữ liệu thực Dữ liệu có thể thường sai và không đầy đủ, được phân loại thành cơ sở dữ liệu con, được tổ chức sử dụng không phù hợp với các định dạng và các mô hình dữ liệu, và sử dụng thường bao hàm toàn diện các quy ước tên gọi Cải tiến chất lượng dữ liệu bao gồm thao tác

cơ bản như là loại bỏ nhiễu nếu thích hợp, thu thập các thông tin cần thiết để làm mẫu hoặc loại bỏ nhiễu; chúng có tác dụng quyết định chiến lược để trình bày thông tin mất mát (các trường dữ liệu, các giá trị thuộc tính); tính toán về thông tin tần suất thời gian; thay đổi và chuẩn hoá thích hợp Quan tâm tới chất lượng của dữ liệu là vì các tác dụng của các vấn đề đó trên các kết quả phân tích dữ liệu, mục đích là để sửa các vấn đề dữ liệu về thời gian hoặc để nhận dạng những ảnh hưởng của các vấn đề dữ liệu dựa trên các kết quả

Các vấn đề dữ liệu có thể phân loại thành 3 nhóm: dữ liệu quá nhiều, dữ liệu quá nhỏ, và dữ liệu đứt đoạn Trong những thảo luận sau đây, chúng ta xem xét các vấn đề xuất hiện phổ biến trong các cơ sở dữ liệu hiện nay

2.1.1 Dữ liệu quá lớn

a Dữ liệu sai lạc và nhiễu

Dữ liệu sai lạc là vì các nhân tố như là truyền dữ liệu thất bại hoặc tiếp nhận dữ liệu sai Nhiễu trong dữ liệu có thể cho là do đo lường dữ liệu hoặc lỗi truyền dẫn, và do các nhân tố cố hữu như là đặc điểm của các hệ thống và các quá trình từ đó dữ liệu được thu thập Nói chung, nhiễu trong dữ liệu ít đi dự báo khả năng các điểm đặc trưng được tìm ra

b Dữ liệu động

Đặc điểm cơ bản của hầu hết các cơ sở dữ liệu là các nội dung đang thay đổi Dữ liệu có thể có nhạy cảm với thời gian, phân tích và khai phá bị ảnh hưởng bởi đường thời gian của quan sát dữ liệu Một vài giá trị dữ liệu, như là số hiệu cá nhân, là hằng số theo thời gian; một vài biến đổi hơn hoặc kém tổng quát

Trang 12

theo thời gian (cân nặng và chiều cao); và phụ thuộc tình hình mà chỉ quan sát giá trị gần đây sẽ đủ để đáp ứng ( tốc độ nhịp xung)

là không liên quan, và các lỗi này là không quan trọng Tuy nhiên, tốc độ nhịp tim của bệnh nhân là có liên quan, và các lỗi có thể ảnh hưởng tới những tri thức được khai phá Mặt khác, nếu chúng ta tìm thấy một sự tập trung về địa lý của một bệnh riêng biệt, khi đó mã vùng điện thoại lại trở thành quyết định

Các dữ liệu có liên quan được lựa chọn bởi sự tập trung trên các mẫu chính của thông tin và đôi khi sử dụng những cái khác của dữ liệu để củng cố hoặc làm sạch những nhập nhằng Mục đích chính của việc khử những dữ liệu không thích hợp là để thu hẹp không gian tìm kiếm trong sự phân tích dữ liệu Sự phức tạp có thể giảm đáng kể nếu dữ liệu không thích hợp được loại ra và chỉ phần lớn các đặc điểm có liên quan được sử dụng để phân tích dữ liệu

d Dữ liệu kích thước lớn

Trong rất nhiều lĩnh vực, như là không gian (dữ liệu ảnh) và truyền thông (điều hành các mạng lưới lớn), số lượng dữ liệu và tốc độ tại nơi mà dữ liệu được sản xuất có thể có một hệ số giới hạn trong thực hiện phân tích trực tuyến Số lượng dữ liệu đôi khi vượt ra ngoài giới hạn khả năng của giá trị phần cứng và phần mềm sử dụng để phân tích dữ liệu

2.1.2 Dữ liệu quá nhỏ

a Các thuộc tính bị mất mát

Trang 13

Các thuộc tính bị mất mát hoặc thiếu là những ví dụ về các vấn đề dữ liệu

mà có thể làm phức tạp nhiệm vụ phân tích dữ liệu như là trong việc học Trong học, các dữ liệu này không đủ giới hạn để thực hiện thuật toán học hoặc các công

cụ thống kê ứng dụng để thu thập dữ liệu, không có vấn đề thuật toán phức tạp như thế nào hoặc dữ liệu được sử dụng là bao nhiêu Các thuộc tính sai và mất mát tạo ra một vài vấn đề khi phương pháp quy nạp được sử dụng như quá trình phân tích dữ liệu Đầu tiên, trong quy nạp cây quyết định, các thuộc tính mất mát

vì các vectơ có độ dài không đồng đều Kết quả của vấn đề này tạo ra độ lệch khi giá trị thông tin của hai vectơ trình bày hai thuộc tính được so sánh hoặc khi một phép kiểm tra về hiệu suất của các giá trị của một thuộc tính Thứ hai, nhiều ứng dụng phân tích dữ liệu gồm phân chia dữ liệu thành các tập hợp đào tạo và kiểm tra Mặc dù quá trình phân chia có thể lặp đi lặp lại một vài lần, các thuộc tính bị mất vì sự uớc lượng không chính xác của các kết quả

Một cách nhìn không tương xứng của cơ sở dữ liệu có thể tạo ra tổng số

dữ liệu xuất hiện có lỗi Quan sát toàn bộ cơ sở dữ liệu của các thuộc tính thích hợp mà hệ thống khai phá có thể áp dụng cho một vấn đề Nó thừa nhận tầm quan trọng của các trường hợp có thuộc tính phức tạp Cho ví dụ, giả sử một hệ thống được định nghĩa để học chẩn đoán bệnh sốt rét từ cơ sở dữ liệu bệnh nhân

mà không bao gồm xét nghiệm máu Bệnh nhân mà có các bản ghi đúng và ai là khoẻ mạnh với chi tiết cụ thể dựa vào quan sát này có thể có những chẩn đoán khác nhau, có thể sai sót bị đổ lỗi cho lỗi của dữ liệu

b Mất các giá trị thuộc tính

Hầu hết các cơ sở dữ liệu đều có thuộc tính bị mất giá trị Trong một vài ứng dụng, dữ liệu mất mát có thể được xem xét bằng phân tích dữ liệu và các hệ thống khai phá bằng cách đơn giản loại bỏ các giá trị mất mát, bỏ qua các bản ghi tương ứng, hoặc suy ra các giá trị mất mát từ các giá trị đã biết Trong một vài ứng dụng, các bản ghi dữ liệu với các giá trị mất mát không thể bị loại bỏ bởi vì tổng toàn bộ dữ liệu có thể không đủ và các giá trị còn lại trong các bản ghi dữ liệu có thể có các thông tin có ích Trong một vài ứng dụng, sự có mặt của các

Trang 14

giá trị thuộc tính có liên quan là rất quan trọng (ví dụ, có thể chẩn đoán được một bệnh nhân đã hôn mê một thời gian rồi hay không ?) mà việc thay thế một giá trị mặc định là không được phép

c Tổng số dữ liệu nhỏ

Trong một vài cơ sở dữ liệu, mặc dù tất cả các thuộc tính có đủ giá trị, vấn

đề chính là tổng toàn bộ dữ liệu là không đủ cho tất cả các kiểu phân tích dữ liệu Cho trường hợp, phần lớn thuật toán phân tích dữ liệu cần đến gần 100 ví dụ của

dữ liệu đào tạo để đào tạo phù hợp dành cho việc phân loại các ví dụ sau này Độ tin cậy của các khái niệm học hoặc các mẫu và các luật phổ biến có thể không có khả năng nếu các ví dụ không đủ giá trị

2.1.3 Dữ liệu bị đứt đoạn

a Dữ liệu mâu thuẫn nhau

Dữ liệu tương thích trở thành quan trọng khi một vài nhóm thu thập dữ liệu Đặc biệt đúng trong nhiều lĩnh vực mà dữ liệu cảm tính được thu thập và phân tích Các vấn đề không thích hợp có thể vì cách con người miêu tả dữ liệu

b Nguồn dữ liệu phức tạp

Trong các tổ chức rộng lớn, dữ liệu có thể bị phân tán trong một số các khu vực trên các chuẩn khác nhau Trong phần lớn trường hợp, dữ liệu thu được

và duy trì được sử dụng các hệ thống phần mềm khác nhau Mục đích, trình độ,

và chuẩn của dữ liệu thu thập có thể biến đổi khắp các tổ chức Như một kết quả, khi dữ liệu từ nhiều hơn một nhóm thu được cho phân tích dữ liệu, các vấn đề liên quan tới sử dụng dữ liệu có thể xảy ra

2.2 Các kế hoạch cải tiến chất lượng dữ liệu

Đầu vào cơ bản cho một hệ thống phân tích và khai phá dữ liệu là dữ liệu thô được biểu diễn trên cơ sở dữ liệu Các cơ sở dữ liệu đưa ra những vấn đề duy nhất để phân tích và khai phá dữ liệu, bởi vì chúng là động, không đầy đủ, nhiễu,

Trang 15

và lớn Các mối quan tâm khác bao gồm cơ sở dữ liệu bao gồm thông tin đầy đủ, khai phá tập trung và cách xử lý sự dư thừa của thông tin không liên quan Trong thảo luận tiếp theo, chúng ta giải thích các công nghệ cải tiến chất lượng dữ liệu khác nhau mà có thể được dùng để tạo ra dữ liệu chính xác hơn, ổn định hơn, và đầy đủ hơn Các công nghệ ở đây cung cấp khả năng để nghiên cứu và giảm nhiễu dữ liệu cũng như dư thừa dữ liệu không liên quan

2.2.1 Kiểm soát chất lượng dữ liệu

Các bước sau đây có thể làm để kiểm soát chất lượng dữ liệu trong các cơ

sở dữ liệu:

 Duy trì sơ đồ chất lượng

 Xác minh dữ liệu ghi vào trong các thuộc tính

 Kiểm tra sự tin cậy dữ liệu

 Kiểm soát những ràng buộc

 Kiểm tra sơ đồ dữ liệu tương thích trong các bảng trộn

 Duy trì sự ổn định

Một vài tiêu chuẩn để đánh giá chất lượng (kiểu và kiểm tra lĩnh vực) có thể được kiểm soát trong quá trình ghi dữ liệu Cho ví dụ, tuổi không là số âm Chúng có thể là một trạng thái riêng của các ràng buộc liên quan trên dữ liệu, cho

ví dụ, một vị trí trong bảng mã vùng điện thoại cần một sự so sánh mã vùng điện thoại tương ứng Một vài ràng buộc khác có thể nhận biết, trong khi những ràng buộc khác có thể tồn tại như những phụ thuộc trong dữ liệu Cho ví dụ, mối quan

hệ giữa mã vùng điện thoại và mã khu vực đưa ra như một sự phụ thuộc, chúng cần được kiểm tra

Kiểu tốt nhất của kiểm soát chất lượng là ngăn chặn lỗi dữ liệu trước khi

nó xảy ra Các phép kiểm tra tìm kiếm các lỗi hiển nhiên (ví dụ, đưa vào một giá trị không đúng cho một thuộc tính) Các phép kiểm tra theo xác suất tìm ra các giá trị không chắc đúng và sau đó cảnh báo người ghi dữ liệu (ví dụ, giá trị số mà cách xa lớn hơn bất kỳ giá trị nào trước đó (thống kê kinh phí))

Trang 16

Các ràng buộc dựa trên luật đơn giản có thể dễ dàng được kiểm soát trong suốt quá trình dữ liệu vào, cho ví dụ, số hiệu cá nhân được ràng buộc có 9 chữ số hoặc tuổi của tất cả những người lao động phải lớn hơn 18 Các phương thức khác có thể cải tiến chất lượng dữ liệu bao gồm:

 Sử dụng các giá trị đặc biệt "không biết" (thay cho 0) để ngăn ngừa

sự nhầm lẫn

 Nhận dạng của các phụ thuộc hàm để kiểm tra các giá trị duy nhất

 Sử dụng kiểu số để bảo đảm giá trị giữa các hệ thống

2.2.2 Kiểm tra chất lượng dữ liệu

Sự kiểm tra chất lượng dữ liệu được sử dụng để phát hiện các lỗi dữ liệu Một trong những bước đầu tiên trong quá trình phát triển một chương trình chất lượng dữ liệu là tìm ra cách chất lượng dữ liệu hiện nay tồi theo như thế nào bằng cách đưa ra một quá trình kiểm tra chất lượng dữ liệu Cách này có thể được làm bởi những kiểu liệt kê các lỗi khác nhau mà có thể xuất hiện và định nghĩa các thủ tục để kiểm tra các lỗi này và xác định tần số của sự kiện trong các cơ sở dữ liệu liên kết

Đối với một số lỗi, có thể thực hiện để phát triển một thủ tục kiểm tra trước mà có thể áp dụng cho tất cả dữ liệu Đối với các kiểu lỗi khác, có thể thực hiện áp dụng khả năng kiểm tra lỗi và phát hiện dị thường để định nghĩa các ngoại lệ bên ngoài và dị thường Các dị thường này có thể được kiểm tra riêng biệt và được xác minh

Đây là các lỗi mà thực sự khó phát hiện hoặc quá tốn chi phí hoặc mất nhiều thời gian để theo dõi và bắt được vì tập hợp dữ liệu lớn Trong các trường hợp tương tự, chúng ta có thể sử dụng một chiến lược lấy mẫu, các ví dụ ngẫu nhiên được rút ra từ tập hợp dữ liệu và tần số của các lỗi là được tính toán Toàn

bộ tần số của các lỗi có thể được ước lượng bởi sự tổng quát hoá từ các mẫu Một vài công nghệ sử dụng để kiểm tra lỗi trong sự kiểm soát chất lượng

dữ liệu bao gồm:

Trang 17

 Kiểm tra miền giá trị đối với số thực và số nguyên

 Kiểm tra tập hợp giá trị đối với một số nhỏ của các giá trị xâu, các

số thực đã biết, vân vân…

 Kiểm tra mẫu đối với hàm và những sự phụ thuộc khác

 Kiểm tra ràng buộc logic (với các bản ghi, các thuộc tính, các bảng)

 Kiểm tra các ràng buộc không chính xác

2.2.3.Truyền dữ liệu

Những giới hạn cơ bản trong tập hợp dữ liệu và phân tích dữ liệu là vì chất lượng và tính chất đầy đủ của dữ liệu Những sai sót trong các phép đo của đầu vào hoặc cung cấp dữ liệu sai cho công cụ phân tích dữ liệu (ví dụ, một phép phân loại) sẽ gây ra nhiều vấn đề khác nhau Bởi vậy, nó là cần thiết trong sự phân tích dữ liệu để nhận dạng sự không đầy đủ và lựa chọn các công nghệ thích hợp để sửa các vấn đề Trong mục nhỏ tiếp theo, chúng ta xem xét một vài công nghệ mà đã được phát triển và ứng dụng để biến đổi dữ liệu từ những lĩnh vực khác nhau

a Bộ lọc dữ liệu

Bộ lọc dữ liệu đã được dùng để giải quyết dữ liệu bẩn như là dữ liệu nhiễu Một số các công nghệ dựa trên trên bộ lọc dữ liệu đã được phát triển để loại bỏ dữ liệu không mong muốn trong phạm vi thời gian, phạm vi tần suất, hoặc phạm vi thời gian thực hiện Quan niệm kỹ thuật lọc loại bỏ các đặc trưng không liên quan và không có sự bóp méo các đặc trưng có liên quan Cho ví dụ, trong phạm vi bộ lọc tần suất, dữ liệu được biến đổi qua phân tích Fourier để góp phần loại trừ các tần số cao Một giả thuyết cơ bản trong bộ lọc dữ liệu là một số lượng tri thức lĩnh vực có sẵn để các thông tin có ích không bị mất

b Mô hình hoá nhiễu

Nén dữ liệu được sử dụng cho mô hình hoá nhiễu và làm mịn dẫn đến bỏ sót các thành phần tần số thấp của dữ liệu Nén dữ liệu có thể nâng cao và cải

Trang 18

tiến phép nội suy các kết quả đó trong một sự phân lớp tốt hơn của các tập hợp

dữ liệu kiểm tra Một trong những cường độ quan trọng nhất của mô hình hoá nhiễu là nó có thể giúp chọn lựa dữ liệu có liên quan và để thiết lập các ngưỡng thích hợp trong các phân loại hoá dữ liệu

2.2.4 Thu thập thông tin

Những kết quả giới hạn hay không đầy đủ vẫn được sử dụng khi những đặc trưng dữ liệu là không biết, sự phân tích dữ liệu không được hướng dẫn thích hợp, hoặc những tham số bên trong khác nhau trong một công cụ phân tích dữ liệu là thiết lập không thích hợp Sau này chúng ta bàn luận về công nghệ mà được ứng dụng cho dữ liệu để chúng ta có thể hiểu bản chất của dữ liệu tốt hơn

và sử dụng công cụ phân tích dữ liệu hiệu quả hơn

c Lấy mẫu dữ liệu

Lấy mẫu dữ liệu được sử dụng trong những trường hợp mà thuật toán được dùng để phân tích dữ liệu yêu cầu một tập con của toàn bộ dữ liệu, hoặc chia nhỏ dữ liệu thành các tập hợp đào tạo và kiểm tra hoặc để ước lượng hiệu suất của thuật toán phân tích dữ liệu thông qua một quá trình lặp của sự biến đổi kích cỡ mẫu Vấn đề quan trọng ở đây là chọn lựa các mẫu đúng (ví dụ, tập đào

Trang 19

tạo và tập kiểm tra) để thu được và đảm bảo hiệu suất tốt nhất có thể cho giải thuật đang sử dụng

d Phân tích các thành phần chính

Mục đích chính của định dạng các thành phần chính là để lựa chọn các thuộc tính thích hợp để phân tích dữ liệu Về mặt lý thuyết, lựa chọn thuộc tính X (từ Y) là tương đương với lựa chọn vectơ cơ sở X, nối qua các khoảng con trên vectơ X này, và chiếu cơ sở dữ liệu lên trên không gian này Vì thế, định dạng các thành phần chính cho phép chúng ra giảm bớt kích cỡ của một cơ sở dữ liệu trong một số lớn các biến có quan hệ với nhau, trong khi nhiều sự thay đổi trong

cơ sở dữ liệu vẫn được duy trì theo khả năng Sự giảm bớt này được hoàn thành bằng cách biến đổi một tập mới các biến, gọi là các thành phần chính, là không tương quan cao và chúng được sắp xếp để hầu hết các biến giữ lại ban đầu được biểu diễn trong các biến gốc

2.3 Các công cụ cải tiến chất lượng dữ liệu

1 Tìm kiếm những mục dữ liệu dị thường và những mẫu khác thường Những kiểm tra trước này tìm thấy những lỗi hiển nhiên (ví dụ, nhập vào một giá trị sai cho một thuộc tính) và kiểm tra xác suất tìm kiếm những giá trị không chắc chắn

2 Giám sát việc thi hành toàn vẹn các ràng buộc mà được duy trì tách biệt nhau từ các cơ sở dữ liệu và các chương trình ứng dụng bằng cách

sử dụng các luật

Trang 20

Trong một công cụ dò tìm dị thường như Datbase/Supervisor, người dùng

có thể định nghĩa những ràng buộc trong dạng của các luật Ví dụ, xem xét luật:

IF công việc = "bán hàng" THEN tiền lương > 30000

Nếu luật trong một ràng buộc đã được chỉ rõ đầy đủ, thì mỗi bản ghi mà thỏa mãn điều kiện IF, sự dò tìm dị thường có thể kiểm tra phần THEN là cũng được thoả mãn hay không Phát hiện dị thường báo cáo tất cả các bản ghi mà thỏa mãn điều kiện IF nhưng THEN không thực hiện được Kiểu kiểm tra này là

có ích khi chúng ta biết rằng những mối quan hệ giữa những trường cơ sở dữ liệu, và những mối quan hệ này có thể được đưa ra như những luật

IDIS là một công cụ dò tìm dị thường khác (ngoài việc là một công cụ khai phá luật) mà có thể tìm kiếm những dị thường qua những tính chất sau đây:

- Phân tích vô hướng: tính toán những giá trị trung bình cho những trường

vô hướng và tìm các giá trị mà vượt khỏi giới hạn cho phép

- Phân tích không vô hướng: tính toán những tần số biến cố và tìm kiếm

những giá trị mà xuất hiện quá ít hoặc quá thường xuyên

- Phân tích tương quan: Tìm kiếm những tương quan khác thường giữa các

giá trị trong các cặp của các trường vô hướng

- Kiểm soát những ràng buộc: Cho phép người sử dụng định nghĩa các ràng

buộc trên các bảng của người dùng kết hợp IF – THEN (IDIS có thể tìm kiếm dữ liệu sai trong bảng đang sử dụng những ràng buộc toàn vẹn này) Mặc dù các công cụ dò tìm dị thường có thể định nghĩa nhiều nguồn của các lỗi trong cơ sở dữ liệu, chúng có khả năng định dạng các sai lầm trong thiết

kế logic cơ bản của một cơ sở dữ liệu Tuy nhiên có những công cụ thiết kế cơ sở

dữ liệu logic nhất định mà có thể sử dụng để phát triển thiết kế cơ sở dữ liệu logic tốt hơn hoặc cải tiến một thiết kế cơ sở dữ liệu logic đang tồn tại

Trang 21

2.3.2 Công cụ mô hình hoá dữ liệu

Thêm một nhiệm vụ chủ yếu nữa trong chất lượng dữ liệu là cung cấp thiết kế cơ sở dữ liệu logic tốt, ở đó các thuộc tính, các thực thể, và các mối quan

hệ của chúng đã được định nghĩa chuẩn Thiết kế logic tốt có thể làm cho cơ sở

dữ liệu thực hiện đầy đủ và duy trì tốt, do đó giảm đến mức tối thiểu các dị thường (nghĩa là, sự dư thừa, sự mâu thuẫn)

Một mô hình dữ liệu có thể có đủ năng lực để trình bày các thực thể của lĩnh vực ứng dụng, và các mối quan hệ mà tồn tại giữa các thực thể Ngoài ra, mô hình dữ liệu có thể cung cấp các lược đồ để bảo đảm tính toàn vẹn của cơ sở dữ liệu đang được phát triển và có thể cho phép hệ thống mở rộng dễ dàng Mô hình

dữ liệu quan hệ là ứng cử viên tốt để hoàn tất các mục đích này Một lợi thế là lý thuyết về các hệ thống quan hệ được phát triển tốt và có các luật và các thủ tục phức tạp để xử lý quan hệ của dữ liệu

Các mối quan hệ hoặc các bảng cho chúng ta khả năng để lưu trữ và thao tác dữ liệu theo các cách mà không thể thực hiện được trong các lược đồ trình bày dữ liệu khác như là các bảng quyết định, các cây quyết định, và ma trận của các ví dụ Các mối quan hệ này là các thực thể động mà có thể thao tác với ngôn ngữ dữ liệu quan hệ SQL Thêm vào đó, do sự kiểm soát các luật quan hệ như là thực thể và các luật toàn vẹn có liên quan, trình bày các quan hệ có thể giúp ngăn chặn và tách các nguồn tri thức mâu thuẫn như là sự trùng lặp, sự trái ngược, và không đầy đủ

Khi thiết kế một cơ sở dữ liệu quan hệ, chúng ta thường hướng đến một lựa chọn giữa các tập hợp khác của sơ đồ quan hệ Một vài lựa chọn là tốt hơn các lựa chọn khác bởi vì chúng loại bỏ các vấn đề dư thừa và mâu thuẫn (cập nhật các dị thường), thêm vào các dị thường, và loại bỏ các dị thường Một số

"Dạng tiêu chuẩn" khác cho sơ đồ quan hệ với sự phụ thuộc phải được định nghĩa Một trong những dạng quan trọng được gọi là chuẩn 3NF (3 normal form),

mà có thể xây dựng bởi phân tích sơ đồ quan hệ trong các mối quan hệ nhỏ hơn

Trang 22

nếu nó chưa ở dạng 3NF Các công cụ thiết kế logic là có sẵn để giúp đỡ người phát triển định nghĩa các quan hệ đã cho trong dạng chuẩn 3 (3NF) Các công cụ như thế yêu cầu người thiết kế cung cấp các thuộc tính nằm trong quá trình tạo quyết định cùng với các mối quan hệ của nó để tạo ra một thiết kế quan hệ logic tối ưu Như là một công cụ có thể kiểm tra một tập hợp các sơ đồ quan hệ cho một dạng chuẩn cụ thể (3NF) và phân tích các quan hệ (nếu muốn) vào trong một dạng chuẩn đặc biệt Như vậy một quá trình thiết kế có thể giảm độ dư thừa, loại

bỏ cập nhật các dị thường, và loại bỏ thông tin mất mát

Trong công cụ thiết kế logic quan hệ khác, THE Analyst, những người dùng đưa vào những câu tiếng anh đơn giản để diễn tả sự sắp xếp logic của các đối tượng chứa trong cơ sở dữ liệu này THE Analyst xem lại các trường hợp cụ thể này và tìm ra các thực thể, các thuộc tính, các mối quan hệ gắn vào Căn cứ trên sự xem xét này, THE Analyst sinh ra một nguyên mẫu cơ sở dữ liệu mà những người dùng có thể truy vấn để xác định yêu cầu thông tin có quan hệ này

sẽ được thoả mãn hay không THE Analyst cung cấp thông tin phản hồi cho những người dùng, sự miêu tả đồ hoạ của các mối quan hệ dữ liệu tương tự với biểu đồ quan hệ thực thể, một thiết bị đặc quyền gọi là FlowMap điều khiển quan

hệ qua lại giữa các thực thể, và trình bày biểu đồ cơ sở dữ liệu quan hệ chuẩn Những người dùng có thể đánh giá nhanh chóng các mô hình khác và lựa chọn một mô hình tốt nhất cho yêu cầu cơ sở dữ liệu của họ

2.3.3 Công cụ ngôn ngữ dữ liệu

Ngôn ngữ quan hệ SQL có thể tạo ra các quan hệ trong quá trình phát triển

để phát hiện những mâu thuẫn (ví dụ, dữ liệu mất mát, dữ liệu mâu thuẫn) Người quản trị cơ sở dữ liệu có thể dùng SQL trên cơ sở dữ liệu (nó đã tồn tại hoặc đang được thiết kế và phát triển) để tìm ra và ngăn ngừa mọi mâu thuẫn dữ liệu nào

Để sử dụng kết quả chính xác hơn và có thể duy trì được cơ sở dữ liệu Thêm vào

đó, nếu một cơ sở dữ liệu được sử dụng để thu được tri thức cho phát triển hệ chuyên gia hoặc các công cụ quy nạp hoặc các công cụ khai phá tri thức, tập hợp các luật sinh ra sẽ bền vững hơn và ít mâu thuẫn hơn

Trang 23

2.4 Những mối quan tâm và những vấn đề về chất lượng dữ liệu

Những mối quan tâm và những vấn đề sau đây phải được xem xét khi dữ liệu đã được xử lý để cải tiến chất lượng của nó

1 Để thực hiện một phân tích dữ liệu có ý nghĩa và cải tiến chất lượng, chuyên gia lĩnh vực hoặc lĩnh vực phải được nghiên cứu tổng quát trước khi dữ liệu được tiền xử lý

2 Trong hầu hết các ứng dụng, cải tiến chất lượng dữ liệu có thể được lặp đi lặp lại Điều này có nghĩa là các kỹ thuật tiền xử lý hiện tại, như là sự khử dữ liệu hoặc lựa chọn dữ liệu, có thể được sử dụng trong một số các lần lặp

đi lặp lại cho đến khi các kết quả phân tích dữ liệu tốt nhất xuất hiện

3 Cải tiến chất lượng dữ liệu là một sự mâu thuẫn Nó hầu như luôn luôn cần thiết bởi vì chắc chắc chất lượng dữ liệu kém, nhưng đôi khi cái mà nhìn giống như một sự dị thường được khử, trong thực tế, lại là một chỉ dẫn quyết định quan trọng của một hiện tượng trong lĩnh vực quan tâm Nói cách khác, cái mà trông bên ngoài được giải tán lại có thể là điểm dữ liệu chính có giá trị cần tập trung vào

4 Cải tiến chất lượng dữ liệu cũng giải quyết các triệu chứng sẽ xuất hiện lại nếu một vài xử lý cơ bản cho thu thập dữ liệu bị hỏng Nếu dữ liệu là tĩnh và sẽ không cập nhật, chỉ cần làm sạch dữ liệu một lần Nếu dữ liệu được cập nhật theo cùng một cách tương tự mà cơ sở dữ liệu ban đầu đã được tạo, thì vấn đề chất lượng dữ liệu tiếp theo sẽ xuất hiện Do đó, quá trình cải tiến chất lượng dữ liệu sẽ phát triển liên tục

Trang 24

bệnh” thì thật khó có thể đưa ra được số lượng các chứng bệnh, hay các chứng bệnh thường gặp…

- Cơ sở dữ liệu thế giới thực thường có xu hướng động, không đầy đủ, rườm

rà và rất rộng Dữ liệu có thể không đầy đủ hoặc thiếu các giá trị trong các trường bản ghi đặc biệt hoặc có khi thiếu hoàn toàn các trường dữ liệu cần thiết để khai phá chính xác Vấn đề này thường xuyên xuất hiện trong các

cơ sở dữ liệu quan hệ vì tất cả các bản ghi trong mô hình quan hệ đều có các trường giống nhau

Ví dụ:

Một cơ sở dữ liệu bệnh viện với những trường phạm vi rộng như là những kiểm tra hay xét nghiệm Trong đó, sẽ chỉ có một vài trường được làm đầy với mọi bệnh nhân Các trường khác không đầy đủ có thể dẫn đến khai phá tri thức không có ý nghĩa

- Khi dữ liệu xuất hiện ở nhiều nơi trong cùng một cơ sở dữ liệu sẽ dẫn đến

dư thừa dữ liệu Ngoài ra dư thừa dữ liệu cũng xuất hiện khi một phụ thuộc hàm trong một trường được định nghĩa như là một hàm của trường khác

Các vấn đề về chất lượng dữ liệu:

Dữ liệu quá nhiều:

 Dữ liệu sai lạc và nhiễu: Tồn tại dữ liệu sai lạc khi truyền dữ liệu thất bại hoặc tiếp nhận thông tin sai Nhiễu trong dữ liệu là do đo lường dữ liệu hay do truyền dẫn

 Dữ liệu động: đây là một đặc điểm cơ bản của hầu hết các cơ sở dữ liệu

Ví dụ như dữ liệu về trường cân nặng hay chiều cao của con người theo thời gian Hoặc trong thương mại, các dữ liệu về tỷ giá đồng vàng hoặc tỷ gái ngoại tệ trên thị trường cũng là những dữ liệu động

 Dữ liệu không thích hợp: Vì tập dữ liệu lớn nên các ứng dụng phân tích dữ liệu cần phải rút trích ra các dữ liệu có ý nghĩa nhất Ví dụ với cơ sở dữ liệu về các bệnh nhân có các trường như là Số_chứng_minh_thư hay Tên_bệnh_nhân là những dữ liệu không liên quan vì người ta chỉ chú ý đến các trường như Triệu_chứng hay Chuẩn_đoán Chúng ta phải khử các

Trang 25

dữ liệu không thích hợp để thu hẹp không gian tìm kiếm khi phân tích dữ liệu và để giảm bớt độ phức tạp

 Dữ liệu kích thước lớn: trong nhiều lĩnh vực sử dụng đến dữ liệu không gian như ảnh hay băng quay phim tại các trạm giao thông, số lượng dữ liệu này có thể vượt qua giới hạn của phần cứng và phần mềm khi sử dụng phân tích dữ liệu

Dữ liệu quá nhỏ:

 Các thuộc tính bị mất mát: điều này có thể làm phức tạp nhiệm vụ phân tích dữ liệu Ví dụ, phân tích dữ liệu để chuẩn đoán bệnh sốt rét từ cơ sở

dữ liệu mà không bao gồm các xét nghiệm máu

 Mất các giá trị thuộc tính: Hầu hết các cơ sở dữ liệu đều có các thuộc tính

bị mất mát giá trị Đôi khi các giá trị bị mất này lại rất quan trọng cho khai phá tri thức, và không được phép thay thế nó bằng một giá trị mặc định

 Tổng số dữ liệu nhỏ: Trong một vài cơ sở dữ liệu, tất cả các thuộc tính đều

có đầy đủ các giá trị nhưng tổng toàn bộ dữ liệu lại không đủ cho các kiểu phân tích dữ liệu

Dữ liệu bị đứt đoạn:

 Dữ liệu mâu thuẫn nhau: Khi có nhiều nhóm thu thập dữ liệu cho cơ sở dữ liệu thì sẽ xuất hiện các dữ liệu mâu thuẫn nhau, nguyên nhân có thể vì cách con người miêu tả dữ liệu

 Nguồn dữ liệu phức tạp: dữ liệu có thể bị phân tán trên nhiều khu vực và trên các chuẩn khác nhau trong các tổ chức lớn

Các kế hoạch cải tiến chất lượng dữ liệu:

Kiểm soát chất lượng dữ liệu: Để kiểm soát chất lượng dữ liệu trong các cơ sở dữ liệu chúng ta có thể thực hiện một số bước sau:

 Duy trì sơ đồ chất lượng

 Xác minh dữ liệu ghi vào trong các thuộc tính

 Kiểm tra sự tin cậy dữ liệu

 Kiểm soát những ràng buộc

 Kiểm tra sơ đồ dữ liệu tương thích trong các bảng trộn

Trang 26

 Mô hình hoá nhiễu: sử dụng nén dữ liệu để mô hình hoá nhiễu và làm mịn dẫn đến bỏ sót các thành phần tần số thấp của dữ liệu Nén dữ liệu

có thể nâng cao và cải tiến phép nội suy các kết quả trong phân lớp tốt hơn các tập dữ liệu kiểm tra

Thu thập thông tin: những kết quả giới hạn hay không đầy đủ vẫn được sử dụng khi đặc trưng dữ liệu là không biết, quá trình phân tích dữ liệu không được hướng dẫn thích hợp, hoặc những tham số thiết lập trong các công cụ phân tích

 Lấy mẫu dữ liệu: được sử dụng trong trường hợp thuật toán được dùng để phân tích dữ liệu yêu cầu một tập con của toàn bộ dữ liệu, hay chi nhỏ dữ liệu thành các tập con để ước lượng hiệu suất của thuật toán Do đó phải lựa chọn được các mẫu đúng để thu được và đảm bảo hiệu suất tốt nhất cho giải thuật đang sử dụng

 Phân tích các thành phần chính: được dùng với mục đích là để lựa chọn các thuộc tính tính hợp để phân tích dữ liệu

Các công cụ cải tiến chất lượng dữ liệu

Trang 27

- Công cụ dò tìm dị thường: có nhiều kiểu lỗi dị thường có thể xuất hiện trong một cơ sở dữ liệu, nó có thể là một lỗi ghi dữ liệu như: tuổi của người lao động được nhập vào là 135 thay vì là 35 Đây là lỗi do thiết kế cơ sở dữ liệu logic tồi

- Công cụ mô hình hoá dữ liệu: để có được chất lượng dữ liệu tốt chúng ta phải cung cấp thiết kế cơ sở dữ liêu logic tốt mà ở đó các thuộc tính, thực thể, các mối quan hệ đã được định nghĩa chuẩn Thiết kế logic tốt có thể làm cho cơ sở dữ liệu thực hiện đầy đủ và duy trì tốt và giảm thiểu các dị thường trong cơ sử dữ liệu Cho ví dụ, xem xét quan hệ Chẩn_đoán_y_học trong hình 2 Mối quan hệ này không phải là 3NF với chi tiết cụ thể cho các phụ thuộc bởi vì thuộc tính Đơn_thuốc là dựa vào khoá ngoài Vấn đề trong hình 2 là nếu ở đây không quy định cho một sự kiện Bệnh, chúng ta không thể thêm bản ghi hoặc chúng ta phải

sử dụng một giá trị “Null” để qui định Trong trường hợp này, cơ sở sữ liệu chứa không đủ dữ liệu (nghĩa là, thiếu bản ghi hoặc thiếu giá trị cho trường dữ liệu), làm cho khai phá tri thức khó khăn hơn Hình 3 đưa ra sơ đồ quan hệ tương tự trong chuẩn 3NF

Hình 3: Tách rời sơ đồ quan hệ Chuẩn_đoán_y_học trong chuẩn 3NF

Chuẩn_đoán (Triệu_chứng, Bệnh) Khoá: Triệu_chứng

Phụ thuộc hàm: Triệu_chứng  Bệnh Đơn thuốc (Bệnh, Thuốc_ được_kê) Khoá: Bệnh

Phụ thuộc hàm: Bệnh  Thuốc_ được_kê

Hình 2: Ví dụ về sơ đồ quan hệ mà không ở dạng chuẩn 3NF

Chuẩn_đoán_y_học (Triệu_chứng, Bệnh, Thuốc_được_kê) Khóa : Triệu_chứng

Phụ thuộc hàm: Triệu_chứng  Bệnh

Bệnh  Thuốc_được_kê

Trang 28

- Công cụ ngôn ngữ dữ liệu: Ngôn ngữ quan hệ SQL có thể tạo ra các quan

hệ trong quá trình phát triển để phát hiện ra mâu thuẫn:

Ví dụ 1 (mất mát dữ liệu)Xem xét đến trình bày SQL dựa trên trên hình 3 : CREATE VIEW R1 AS

SELECT UNIQUE Bệnh FROM Chuẩn_đoán

CREATE VIEW R2 AS

SELECT UNIQUE Bệnh FROM Đơn_thuốc

Bây giờ, nếu R2 – R1 = , khi đó chúng ta đang can thiệp vào luật có liên quan, có một vài thông tin về Bệnh trong quan hệ phụ thuộc (Đơn_thuốc) mà không ở trong quan hệ chính (Chuẩn_đoán) Đây là một lỗi ngữ nghĩa mà cần để nhận dạng bởi chuyên gia lĩnh vực

Ví dụ 2 ( Tìm ra dữ liệu mâu thuẫn) Nói chung, phần lớn dữ liệu mâu thuẫn có thể được ngăn chặn bằng cách kiểm soát các phụ thuộc hàm khi thêm các hàng vào quan hệ Tuy nhiên, khi quan hệ đã tồn tại, truy vấn sau có thể sẽ được sử dụng cho mọi giá trị của vế trái của một phụ thuộc cho một quan hệ để định nghĩa mâu thuẫn Xem xét phát biểu SQL cơ sở sau trên hình 3:

CREATE VIEW R1 AS

WHERE Thuốc_ được_kê= " Tên_thuốc"

INTERSECT

CREATE VIEW R2 AS

WHERE Thuốc_ được_kê <> " Tên_thuốc"

Nếu kết quả của INTERSECT là rỗng, thì mâu thuẫn dữ liệu tồn tại trong quan hệ, gây ra các luật mâu thuẫn

Ví dụ 3 (Tìm dữ liệu dư thừa) Nếu ràng buộc khoá chính được kiểm soát, thì sẽ không bị nhân đôi các hàng trong quan hệ và như vậy các luật không dư

Trang 29

thừa sẽ được sinh ra dựa trên quan hệ này Mặt khác, truy vấn SQL sau sẽ được

sử dụng để kiểm tra một quan hệ có khả năng dư thừa:

CREATE VIEW R3 AS

SELECT * FROM Tên_quan_hệ

CREATE VIEW R4 AS

SELECT UNIQUE * FROM Tên_quan_hệ

Nếu R3 – R4  R4 – R3 thì nó là dư thừa Nếu R3 – R4  , thì dư thừa

dữ liệu được tìm ra trong R3, ngược lại, dư thừa dữ liệu được tìm ra trong R4

Trang 30

Chương 3: Ứng dụng của các công nghệ và công cụ khai phá cơ sở dữ liệu trong phát triển hệ chuyên gia

Không có cách tiếp cận đơn cho khai phá tri thức, tuy nhiên, khái quát hóa cách tiếp cận theo biểu đồ trong hình 4 bao gồm các bước chính sau:

 Xác định một cơ sở dữ liệu rộng lớn mà sẽ được phân tích

 Quyết định bạn muốn sử dụng một công cụ để kiểm tra giả thuyết của riêng mình trên các tri thức có thể chứa trong cơ sở dữ liệu hay bạn muốn công cụ phát sinh giả thuyết cho bạn

 Lựa chọn một công cụ thích hợp

 Sinh ra và kiểm tra giả thuyết

 Xác minh tri thức đã được khai phá

 Trợ giúp khai phá tri thức dùng bằng việc hợp nhất tri thức đó với cách dùng các tri thức những hệ chuyên gia và kinh nghiệm chuyên gia, hay bằng việc lọc cơ sở dữ liệu để có thêm hoạt động tương lai

Công cụ khai phá

cơ sở dữ liệu

Khai phá tri thức (các luật, các khái niệm, vv )

Chuyên gia lĩnh vực

Các hệ

chuyên gia

Hình 4: Một cơ sở dữ liệu khai phá và môi trường khai phá

Trang 31

Người quản lý cơ sở dữ liệu có thể sử dụng công cụ này theo một vài cách Nó có thể giúp truy nhập và thử nghiệm với những công cụ khai phá tri thức mà những người sử dụng hiểu tốt hơn về cách sử dụng và hạn chế của chúng Thông thường, dữ liệu phải được định dạng để cho phép xử lý hiệu quả Người quản lý cơ sở dữ liệu cũng phải ý thức được những nỗ lực thu nhận tri thức đang thực hiện sao cho những kỹ sư tri thức có thể được báo động để trình bày dữ liệu phải tuân theo dạng chuẩn trong phát triển của hệ thống Trong những mục sau đây, chúng tôi bàn luận những công cụ và kỹ thuật sẵn có để tự động thu thập tri thức từ cơ sở dữ liệu

3.1 Lược đồ khai phá luật

Các công cụ khai phá tri thức và quy nạp hiện nay tận dụng của các lược

đồ khác nhau bao gồm phân loại, đặc trưng, kết hợp, và sự sắp xếp thứ tự Một cách hiểu các lược đồ này là yếu tố cần thiết mà công cụ khai phá đúng được sử dụng trên cơ sở dữ liệu đang được khảo sát để thu thập tri thức tự động

Các hệ thống khai phá được áp dụng trên cơ sở dữ liệu thật trong y học, thiết kế dùng máy tính hỗ trợ, thị trường, và nhiều lĩnh vực khác Kiểu của luật hoặc mẫu mà tồn tại trong cơ sở dữ liệu phụ thuộc vào lĩnh vực Một luật khai phá có thể có chất lượng hoặc số lượng, tại vấn đề trước đây không liên quan nhưng bây giờ có Cho ví dụ, một phát biểu, "lương của giáo sư khoa học là cao",

là chất lượng, ngược lại phát biểu, "lương của 60% giáo sư hội hoạ là cao", là số lượng Một luật số lượng cung cấp thông tin thống kê thông tin mà làm cho dễ dàng lập luận về số lượng, khả năng học tăng lên, và học trong sự hiện diện của nhiễu và các ngoại lệ Dữ liệu khoa học là thích hợp để có các mẫu số lượng Nếu

có thử nghiệm được thực hiện hợp lý để giải quyết một trong các nguyên nhân, sau đó thường tồn tại một mẫu đơn giản trong dữ liệu Sự tập trung dữ liệu thu thập được trong cơ sở dữ liệu thương mại, có đặc trưng tương ứng với sự không điều khiển của thế giới thực, ở đó nhiều lý do chồng chéo khác nhau và nhiều mẫu là phù hợp để tồn tại đồng thời Cuối cùng sử dụng phương pháp xác định mẫu để tìm ra nó

Trang 32

Xem xét một vài điểm khác, luật được khai phá có thể là luật phân lớp hoặc là luật đặc trưng Luật phân lớp là sự xác định để phân biệt các khái niệm của một lớp với những lớp khác Ví dụ, để nhận ra một bệnh của cơ thể từ những bệnh khác, luật phân lớp tổng kết các triệu chứng mà phân biệt bệnh này với những bệnh khác Nói chung, cho một tập các bản ghi, mỗi bản ghi chứa một số lượng các thuộc tính, một tập hợp các đích (đại diện cho các lớp của các bản ghi),

và một nhiệm vụ của một đích với mỗi bản ghi, hàm phân lớp xem xét đích bản ghi và tạo ra các đặc trưng của những bản ghi cho mỗi lớp Cho ví dụ, xem xét ứng dụng phân tích thẻ tín dụng Bản ghi khách hàng có thể được đánh dấu với một nhãn là tốt, trung bình, hay tồi Một hàm phân loại có thể khảo sát các bản ghi đích và sinh ra một mô tả rõ ràng cho toàn bộ các lớp này Một sự phân loại như vậy có thể mô tả tập hợp những khách hàng tốt khi đó với "thu nhập hơn

40000, giữa độ tuổi 40 và 55, và sống trong các vùng lân cận X" Những cây quyết định đã được sử dụng để phân lớp để làm đơn giản hoá việc tìm kiếm các luật, tuy nhiên cách tiếp cận này không hiệu quả khi dữ liệu bị phủ định hoặc khi một vài dữ liệu khẳng định và rất nhều dữ liệu phủ định

Luật đặc trưng là một xác định mà đặc trưng cho các khái niệm được thoả mãn bởi tất cả các dữ liệu liên quan trong cơ sở dữ liệu Cho ví dụ, những triệu chứng của một bệnh đặc biệt của cơ thể có thể được tổng kết như một luật đặc trưng Nói chung, sự miêu tả đặc trưng diễn tả cái mà các bản ghi trong một lớp chia sẻ theo cách chung Trong hầu hết việc học từ các ví dụ, các ví dụ bị khai phá được phân chia thành các tập hợp âm và dương Tuy nhiên, trong khi một cơ

sở dữ liệu quan hệ không chứa dữ liệu âm vì các ví dụ âm không được ghi rõ ràng Khi khám phá một luật đặc trưng, nó sẽ nhớ cái mà không có ví dụ phủ định cho sự chuyên môn hoá và sẽ hoạt động khái quát trên dữ liệu để tránh sự quá khái quát

Lược đồ khai phá khác bao gồm luật kết hợp và luật thứ tự Một luật kết hợp là một sự xác định mà kết hợp các thuộc tính khác nhau của một cơ sở dữ liệu Đó là, cho một bộ các mục và một tập hợp các bản ghi, mỗi cái mà chứa

Trang 33

trong một số lượng của các mục từ bộ sưu tập đã cho, một hàm kết hợp có thể tìm thấy các luật như là " 70% của tất cả các bản ghi mà chứa các mục A, B, và C cũng chứa các mục D và E" Trong một ứng dụng mang tính cộng đồng, chúng ta

có thể tìm thấy "30 % thời gian mà một loại hàng đặc biệt của người nướng bánh được bán, các khách hàng cũng mua một tập bao tay bếp hợp với bộ đồ ăn" Một hàm liên tục phân tích một bộ các bản ghi có liên quan và phát hiện tần số xuất hiện các mẫu theo thời gian Cho ví dụ, hàm liên tục có thể khám phá một luật "60% thời gian khi cổ phiếu X tăng giá trị của nó hơn 10% trong giai đoạn kinh doanh 5 ngày và cổ phiếu Y tăng giá trị giữa 10% và 20% trong một giai đoạn tương tự, thì giá trị của cổ phiếu Z cũng tăng trong một tuần tiếp theo."

3.2 Các công cụ qui nạp

Các công cụ quy nạp xây dựng cơ sở luật cho một hệ chuyên gia từ một tập hợp các ví dụ mà chúng miêu tả một dãy các thuộc tính hoặc các điều kiện diễn tả mỗi ví dụ và các kết quả hoặc hậu quả mà xuất hiện dựa vào các thuộc tính này Các ví dụ được đưa vào và trải ra giống như ma trận mà mỗi cột biểu diễn hoặc là một thuộc tính của các ví dụ hoặc là kết quả mà bắt nguồn từ các thuộc tính đó Mỗi hàng biểu diễn một ví dụ khác nhau

Các công cụ quy nạp có một nền tảng trong thuật toán Quinlan ID3 mà sinh ra một cây quyết định để phân loại dữ liệu Công cụ quy nạp First – Class sử dụng thuật toán Quinlan ID3 để tối ưu hoá các luật từ các trường hợp Thuật toán này xác định các nhân tố nào có ích nhất để phân biệt giữa các giá trị biến có thể chấp nhận được để đi đến kết luận Đôi khi, thuật toán này loại bỏ một vài biến

số bởi vì chúng không tham dự vào sự lựa chọn đường đi tiếp theo trong cây quyết định Cho ví dụ, biến số “dòng điện vào” trong bảng 1 không góp phần đưa

ra các kết quả và vì thế nó bị loại bỏ từ các luật sinh ra

Thuận lợi đầu tiên của một công cụ quy nạp là dễ sử dụng Tạo ra một ma trận các thuộc tính và các kết quả là đơn giản, như vậy cực tiểu hoá sự phức tạp

và thời gian thu thập tri thức Trong nhiều ứng dụng (y khoa, hay thương mại),

Trang 34

dữ liệu tạo quyết định có sẵn trong dạng ma trận Các kỹ thuật quy nạp được sử dụng nhiều cho các nhiệm vụ phân loại Cho ví dụ, chẩn đoán bệnh, như là một dạng của phân loại, phù hợp dưới chiến lược này Nói chung, các công cụ quy nạp là rất có ích trong sự phát triển của các hệ thống nhỏ khi một chuyên gia hoạt động như là các kỹ sư tri thức Họ rất có ảnh hưởng trong việc điều khiển một số lượng nhỏ các thuộc tính và các giá trị trong một ma trận Khi các hệ chuyên gia đang được xây dựng, nhà quản lý cơ sở dữ liệu có thể dùng cơ sở dữ liệu để tạo

ra các ví dụ cho một công cụ quy nạp Ma trận công cụ quy nạp có thể sản xuất

tự động và có hiệu quả từ các câu hỏi Trong một vài trường hợp, cơ sở dữ liệu

có thể được tăng lên với dữ liệu thêm vào đạt được từ chuyên gia lĩnh vực

Các công cụ quy nạp có một vài lỗi mà đáng nói đến Đầu tiên, chúng ta có thể điều khiển chỉ trên một dữ liệu quan hệ đơn giản (hoặc ma trận); không thể áp dụng trực tiếp chúng với những cơ sở dữ liệu nơi mà một vài quan hệ dữ liệu có quan hệ với nhau tồn tại Vấn đề này có thể được giải thích, bằng sự kết hợp tất

cả các dữ liệu quan hệ để tạo ra một quan hệ đơn, mặc dù nó có thể quá lớn để xử

lý có hiệu quả bởi các công cụ quy nạp Thứ hai, các mối quan hệ qua lại giữa các thuộc tính không thể đưa vào ma trận Hạn chế các thuộc tính phải độc lập lẫn nhau có thể không thích hợp cho một vài ứng dụng Hơn nữa, để mở rộng hệ thống, biểu diễn ma trận có thể yêu cầu tập các luật được sửa đổi nếu các thuộc tính mới được thêm vào quá trình tạo quyết định Tương tự, khi cơ sở dữ liệu được mở rộng, các công cụ quy nạp không có khả năng gia tăng các luật Dữ liệu quan hệ mở rộng phải được xử lý trong các thực thể của nó để sinh ra một tập hợp các luật mới Cuối cùng, các công cụ quy nạp dựa trên cơ sở thuật toán ID3 không làm việc tốt với dữ liệu nhiễu Đặc biệt, cây quyết định trở thành quá phức tạp để giải thích nguyên nhân gây ra các trường hợp nhiễu Một vấn đề liên quan

là nó không thể giải quyết dữ liệu không xác định; đó là, khi không có các luật phân lớp đúng cho các mẫu chỉ sử dụng các thuộc tính có sẵn giá trị Nếu không được hướng dẫn, ID3 có thể sai lầm phát sinh ra một cây quyết định lớn mà có ý nghĩa nhỏ

Trang 35

3.3 Các công cụ khai phá tri thức

Các công cụ khai phá được phát triển để tạo ra các công cụ rút trích tri thức vào cơ sở dữ liệu, đó là quá trình khai phá tri thức Khai phá tri thức được định nghĩa như một sự rút trích các thông tin có ích, tiềm ẩn, không được biết trước từ dữ liệu, và khả năng thông tin có ích từ dữ liệu Khai phá tri thức xử lý

cơ sở dữ liệu để khám phá các đặc trưng đáng quan tâm liên quan tới các phép đo người dùng quan tâm Nó bao gồm sự định dạng các quan hệ mà không được phát hiện ngoài các phương pháp đặc biệt để khai phá Sự khai phá tri thức được trình bày giống như một tập của các luật If – Then

Các công cụ chuyên dụng thiết kế cho khai phá tri thức đã được giới thiệu gần đây Các công cụ này khác nhau về căn bản trong các kiểu của các vấn đề mà chúng được thiết kế để đưa ra và theo cách mà chúng làm việc DataLogic/R (Reduct Systems) là một gói phần mềm dựa trên PC mà sử dụng "tập hợp thô", một nhánh của logic mờ, để giúp người dùng khai phá ra các luật mà là đặc trưng cho dữ liệu trong cơ sở dữ liệu và đưa ra cách tạo quyết định trên các phân loại

dữ liệu để phân tích tối ưu DataLogic/R cung cấp sự nhận dạng mẫu, mô hình mẫu và công nghệ phân tích dữ liệu mà khám phá tri thức mới trong dạng của các luật Nói chung, nó có thể xử lý sự không chắc chắn trong dữ liệu, để phân tích các sự kiện ẩn trong dữ liệu, để biểu diễn tri thức mới trong một định dạng luật,

và để tạo ra mô hình cho dự đoán và phân loại DataLogic/R đã được chứng minh thành công trong các ứng dụng như là phân tích khảo sát người tiêu dùng, quá trình điều khiển đo lường, định dạng độ đọc văn bản, phân tích hợp đồng bảo hiểm, và phát hiện khuyết điểm

Cây định danh là một công cụ khá phổ biến trong nhiều dạng ứng dụng, với cơ chế rút trích các luật nhân quả xác định các mẫu dữ liệu Cây định danh có thể hiện như cây quyết định, trong đó mỗi tập các kết luận được thiết lập ngầm định bởi một danh sách đã biết

Thuật giải ILA (Inductive Learning Algorithm) được dùng để xác định các luật phân loại cho tập hợp các mẫu học Thuật giải này thực hiện theo cơ chế lặp,

Trang 36

để tìm luật riêng đại diện cho tập mẫu của từng lớp Sau khi xác định được luật, ILA loại bỏ các mẫu liên quan khỏi tập mẫu, đồng thời thêm luật mới này vào tập luật Kết quả có được là một danh sách có thứ tự các luật chứ không là một cây quyết định Các ưu điểm của thuật giải này có thể được trình bày như sau:

 Dạng các luật sẽ phù hợp cho việc khảo sát dữ liệu, mô tả mỗi lớp một cách đơn giản để dễ phân biệt với các lớp khác

 Tập luật được sắp thứ tự, riêng biệt – cho phép quan tâm đến một luật tại thời điểm bất kỳ Khác với việc xử lý luật theo phương pháp cây quyết định, vốn rất phức tạp trong trường hợp các nút cây trở nên khá lớn

IDIS 2: hệ thống khai phá thông tin cũng có thể sinh ra các luật để giải thích những mối quan hệ giữa các biến Nó phát hiện ra thông tin dựa vào những câu hỏi một sự suy nghĩ để hỏi bằng cách đưa ra một giả thuyết và sau đó kiểm tra nó có độ chính xác và xác đáng Nó kết luận với một danh sách các luật trong hai và ba chiều IDIS sử dụng sự quy nạp, hướng dẫn bởi người sử dụng, gán các trọng số cho những thuộc tính sử dụng trong các luật Nó tìm thấy những thực thể đáng ngờ và những mẫu khác thường tự động, bao gồm các mục dữ liệu mà vi phạm những tương quan, các mục vượt khỏi ngưỡng, và những mục mà nằm ngoài độ lệch tiêu chuẩn bình thường IDIS đã được sử dụng trong những lĩnh vực đa dạng như phân tích tài chính, tiếp thị, khám phá khoa học, kiểm tra chất lượng, khám phá y học và sự chế tạo IDIS đem lại các luật phân loại, khái quát hóa các luật với những chu kỳ, và luật không chính xác.Phương pháp quy nạp có thể được hướng dẫn bởi người dùng bằng cách gán các trọng số cho các thuộc tính Một luật được sinh ra có thể được ghi lại như một ràng buộc và sau đó sử dụng cùng với phương tiện dò tìm dị thường để tìm thấy những giá trị và những ngoại lệ mà vi phạm một luật nhất định Ngoài ra, những câu hỏi đặc biệt có thể được dùng để thẩm định giả thuyết nguời dùng đưa ra Trên thực tế, các câu hỏi đặc biệt là một phương thức xác minh tri thức

Tương tự với các công cụ quy nạp, các công cụ khai phá tri thức cũng bị mất chất lượng do một vài lỗi Đầu tiên, chúng hoạt động trên quan hệ dữ liệu

Trang 37

đơn để sinh ra các luật Đối với cơ sở dữ liệu với một vài quan hệ có liên quan với nhau, các quan hệ dữ liệu có liên quan phải được hợp nhất lại để tạo ra một quan hệ đơn Thứ hai, các công cụ khai phá không có hướng vào các điều kiện thuận lợi để thực hiện tăng luật khi cơ sở dữ liệu được mở rộng Tuy nhiên, các luật sinh ra trước đó có thể được định nghĩa như là các ràng buộc và chạy lại cơ

sở dữ liệu mở rộng để xem nếu các bản ghi thêm mới mâu thuẫn hoặc củng cố các luật sinh ra trước đó hoặc sinh ra một tập mới các luật Cuối cùng, một chuyên đề liên quan trong sử dụng các công cụ khai phá gắn với độ chính xác và

ốn định của các luật sinh ra Với độ rộng lớn của cơ sở dữ liệu thế giới thực, độ chắc chắn của nhiều thuộc tính và nhiều bản ghi, khả năng của các công cụ này sinh ra các luật có ích và chính xác trong một khoảng thời gian

Tóm tắt chương và ví dụ

Lược đồ khai phá luật: Các công cụ khai phá tri thức và quy nạp hiện nay tận

dụng các lược đồ khác nhau gồm lược đồ phân loại, đặc trưng, kết hợp và lược

đồ sắp xếp thứ tự Các lược đồ này là yếu tố cần thiết để các công cụ khai phá đúng được sử dụng trên cơ sở dữ liệu đang khảo sát để thu thập tri thức tự động

Các công cụ quy nạp: dùng để xây dựng cơ sở luật cho một hệ chuyên gia từ một

tập các ví dụ Sau đây là ví dụ về một cây quyết định được sinh ra bởi công cụ First_Class, sử dụng thuật toán Quinlan ID3: Bảng 1 trình bày một ma trận của các ví dụ cho một giả thuyết cung cấp khả năng xử lý sự cố cho một hệ chuyên gia Công cụ quy nạp sinh ra các luật từ ma trận Một ví dụ luật sinh ra bởi một công cụ tương tự là:

IF Bộ_lọc_ra = 0 AND Điện_áp_phụ_thuộc= "0"

THEN Kết_quả = "Cầu chì tồi"

Dòng

điện vào

Điện áp phụ thuộc Bộ lọc ra

Máy điều chỉnh ra Kết quả

Có Có Bình thường Không Mở máy điều chỉnh

Trang 38

Có Có Không Không Máy chỉnh lưu tồi

Có Có Bình thường Cao Chập máy điều chỉnh

Bảng 1: Một ví dụ công cụ quy nạp ma trận

Hình 5 trình bày một cây quyết định sinh ra bởi công cụ quy nạp First –Class

Các công cụ khai phá tri thức: Khai phá tri thức được định nghĩa như một sự rút

trích các thông tin có ích, tiềm ẩn từ cơ sở dữ liệu Chúng ta làm một vài thí nghiệm trên quan hệ CAR (hình 6), với 26 thuộc tính và 205 bản ghi, sử dụng công cụ khai phá IDIS trên một PC tích hợp IBM Chúng ta quan tâm tới khai phá các quan hệ giữa tổng số dặm đường đã đi và các thuộc tính còn lại Hình 6 đưa ra một vài ví dụ sinh ra luật sử dụng công cụ khai phá IDIS

Kiểm tra máy

điều chỉnh ra

Mở máy

điều chỉnh

Chập máy điều chỉnh

Máy tách sóng tồi

Tụ điện tồi

Kiểm tra điện

áp phụ

Cầu chì tồi Kiểm tra bộ lọc ra

Hình 5: Cây quyết định dựa trên bảng 1

Trang 39

Vấn đề về độ chính xác công cụ IDIS dựa trên quan hệ dữ liệu CAR trên hình 6 Các vấn đề tương tự cũng được chú ý trên các công cụ khai phá khác

1 Quá trình khai phá là quá chậm Nó mất 2,5 ngày để sinh ra 121 luật Lý

do là quá trình khai phá phải xem xét tất cả mọi sự kết hợp của các thuộc tính có thể mặc dù một vài trong số chúng không thích hợp ( giá của một chiếc ô tô, không liên quan tới tổng số dặm đường nó đã đi)

Hình 6: Quan hệ dữ liệu CAR và một tập hợp các luật khai phá bởi công cụ

IDIS trong sự tìm kiếm cho các nhân tố mà tổng số dặm đường đã đi

Relation CAR:

CAR( Symboling, Losses, Make, Fuel_Type, Aspiration, Doors, Body, Drive, Engine_Loc, Wheel_Base, Width, Length, Height, Weight, Engine_Type, Cylinders, Engine_Size, Fuel_Sys, Bore, Stroke, Compress, Horse_Pwr, Peak_RPM, City_MPG, High_MPG, Price)

Genetaed Rules:

Rule 1: If Fuel_Type="gas" AND 0<=Horse_Pwr<=156

Then 16<=High_MPG<=43 Rule 2: If Fuel_Type = "gas" AND Cylinder = "four" AND

61<= Engine_Size<=161 Then 16<=High_MPG<=39 Rule 3: If Aspiration = "std" AND Cylinder = "four" AND

3 <= Stroke <= 4 AND 7<=Compress<=9 Then 27<=High_MPG<=37

Rule 4: If Drive = "fwd" AND Cylinder = "four"

AND 61<= Engine_Size<=122 AND 3<=Stroke <= 4 Then 30<=High_MPG<=46

Rule 5: If Fuel_Type="gas" AND 0<=Peak_RPM<=5400

Then 16<=High_MPG<=39

Hình 6: Quan hệ dữ liệu CAR và một tập hợp các luật khai phá bởi công

cụ IDIS trong sự tìm kiếm cho các nhân tố mà tổng số dặm đường đã đi

Định dạng
Số trang	79
Dung lượng	1,82 MB