Thông qua sử dụng các công cụ và chiến lược thích hợp, tri thức cung cấp trong một cơ sở dữ liệu có thể chuyển đổi hiệu quả vào định dạng của một hệ thống dựa trên luật.. Các công cụ phá
Trang 1Mục lục
Mục lục 1
Lời mở đầu 3
Chương 1: Giới thiệu chung 4
Chương 2: Cải tiến chất lượng dữ liệu 9
2.1 Các vấn đề về chất lượng dữ liệu 10
2.1.1 Dữ liệu quá lớn 11
2.1.2 Dữ liệu quá nhỏ 12
2.1.3 Dữ liệu bị đứt đoạn 14
2.2 Các kế hoạch cải tiến chất lượng dữ liệu 14
2.2.1 Kiểm soát chất lượng dữ liệu 15
2.2.2 Kiểm tra chất lượng dữ liệu 16
2.2.3.Truyền dữ liệu 17
2.2.4 Thu thập thông tin 18
2.3 Các công cụ cải tiến chất lượng dữ liệu 19
2.3.1 Công cụ dò tìm dị thường 19
2.3.2 Công cụ mô hình hoá dữ liệu 21
2.3.3 Công cụ ngôn ngữ dữ liệu 22
2.4 Những mối quan tâm và những vấn đề về chất lượng dữ liệu 23
Chương 3: Ứng dụng của các công nghệ và công cụ khai phá cơ sở dữ liệu trong phát triển hệ chuyên gia 30
3.1 Lược đồ khai phá luật 31
3.2 Các công cụ qui nạp 33
3.3 Các công cụ khai phá tri thức 35
Chương 4: Quá trình xác minh tri thức 41
4.1 Các vấn đề và kết quả phổ biến trong khai phá tri thức 41
4.2 Sự mâu thuẫn trong cơ sở tri thức 42
4.2.1 Tri thức dư thừa 42
Trang 24.2.2 Tri thức gộp 42
4.2.3 Tri thức mâu thuẫn 42
4.3 Các vấn đề với khai phá tri thức từ cơ sở dữ liệu quan hệ 43
4.3.1 Khai phá tri thức sai từ cơ sở dữ liệu quan hệ 43
4.3.2 Khai phá tri thức không đầy đủ từ những cơ sở dữ liệu quan hệ 46
4.4 Xác minh tri thức được khai phá 47
4.4.1 Cách tiếp cận để xác minh cơ sở tri thức trong các hệ chuyên gia 48
4.4.2 Cách tiếp cận để xác minh khai phá cơ sở tri thức từ cơ sở dữ liệu 50 4.4.3 Xác minh khả năng chấp nhận các luật sai dựa trên dữ liệu tổng hợp .52
4.4.4 Xác minh những luật mâu thuẫn có thể dựa trên dữ liệu lịch sử 55
4.4.5 Xác minh tri thức được khai phá dựa trên tri thức lĩnh vực 58
4.4.6 Cơ chế xác minh 63
Chương 5: Kết hợp các luật được khai phá với các luật đã tồn tại 68
Chương 6: Những mối quan tâm và những vấn đề trong thu thập tri thức tự động 71
6.1 Kích cỡ của cơ sở dữ liệu 71
6.2 Cơ sở dữ liệu động 71
6.3 Siêu dữ liệu - metadata 72
6.4 Khó khăn giữa cách tiếp cận thương mại với khai phá cơ sở tri thức 73
Kết luận 76
Tài liệu tham khảo 79
Trang 3Lời mở đầu
Khai phá tri thức trong cơ sở dữ liệu (Knowledge Discovery in Databases) đang là một xu hướng quan trọng của nền Công nghệ thông tin thế giới Nó có khả năng ứng dụng vào rất nhiều lớp bài toán thực tế khác nhau Feigenbaum đã từng nhận xét rằng "Trong tri thức có quyền lực" và ông đã tiến hành xây dựng các hệ thống công nghệ tri thức Từ đó khái niệm về hệ thống dựa trên tri thức hay hệ chuyên gia bắt đầu ra đời Cho đến nay, đứng trước sự phát triển của công nghệ thông tin và sự phát triển của các công nghệ tri thức và các hệ chuyên gia, chúng ta không thể phủ nhận quyền lực của tri thức trong xã hội loài người Trong thời đại ngày nay, chúng ta đang sống trong một thế giới ngập tràn tri thức Hầu hết trong các tổ chức lớn đều sử dụng đến các ứng dụng cơ sở dữ liệu để lưu trữ thông tin Nhiều ngành vần có các máy móc trợ giúp công việc và càng ngày máy móc càng khẳng định vị trí và vai trò của mình trong việc tăng năng xuất lao động Những điều này đã được khẳng định trong lịch sử phát triển của loài người Khi con người càng có trí tuệ thì càng đòi hỏi các thiết bị phải tự động hơn và thông minh hơn Do đó máy móc phải có khả năng xử lý tình huống
và thu thập tri thức tự động giống như con người Vì thế các công cụ và công nghệ thu thập tri thức tự động đang được quan tâm xây dựng và phát triển Các công cụ và công nghệ này được xây dựng và phát triển nhằm mục đích hỗ trợ cho
hệ chuyên gia thu thập tri thức để giúp cho quá trình tạo quyết định và tổ chức tri thức cho hệ chuyên gia
Tuy rằng có nhiều quan điểm khác nhau về vai trò của con người và máy móc nhưng chúng ta không thể phủ nhận vai trò của máy móc đối với cuộc sống của con người hiện đại hôm nay, đặc biệt là các máy thông minh hay các hệ chuyên gia Vì vậy theo thời gian nhu cầu của con người về các hệ thống này càng ngày càng cấp thiết Do đó, các công cụ và công nghệ thu thập tri thức cho các hệ chuyên gia hoạt động và tạo quyết định là một vấn đề then chốt để xây dựng một hệ chuyên gia hoàn chỉnh và có thể hoạt động như một chuyên gia
Trang 4Chương 1: Giới thiệu chung
Các hệ chuyên gia là một dạng được chấp nhận của trí tuệ nhân tạo Các thành phần quyết định của mọi hệ chuyên gia đều là cơ sở tri thức, nó chứa các
sự kiện và cách giải quyết vấn đề bằng kinh nghiệm của người chuyên gia về một lĩnh vực Các cấu trúc biểu diễn tri thức của hệ chuyên gia thay đổi rất lớn bao gồm các khung và các mạng ngữ nghĩa, các hệ thống dựa trên luật chung nhất trong nhiều hệ chuyên gia Các hệ thống này bao gồm các luật khá đặc biệt như
"Nếu điểm trung bình lớn hơn 8 thì học sinh đó là giỏi"
Các công nghệ thu thập tri thức bao gồm:
- Sự theo dõi một phía
- Thảo luận và phân tích toàn bộ vấn đề
- Miêu tả vấn đề, định rõ các giao thức trong mỗi loại
- Thu được tri thức theo chính sách
Đây là các vấn đề quan trọng với mỗi công nghệ Các kỹ thuật khi được sử dụng một mình không bảo đảm tính toàn vẹn và tính chắc chắn trong cơ sở tri thức Bởi vậy cần sử dụng kết hợp nhiều kỹ thuật và nhiều nhân công Các vấn
đề khác bao gồm: đưa ra trọng số cho các sự kiện gần đây lớn hơn các sự kiện
Trang 5trong quá khứ, lỗi để nhớ tới các trường hợp và các luật, sự bảo thủ của chuyên gia, sai số không được bảo đảm, không có khả năng như chuyên gia để giải thích các luật giúp quyết định, và tổng hợp từ số lượng mẫu quá nhỏ
Các công cụ cải tiến chất lượng dữ liệu
Công cụ tách dị
thường
Công cụ mô hình hoá dữ liệu logic
Công cụ truy vấn ngôn ngữ
Cơ sở dữ liệu hợp nhất
CSDL đã được làm
sạch
Các công cụ quy nạp
Các luật được phát sinh
Các công cụ khai phá tri thức
Các luật được phát sinh
Quá trình thẩm định tri thức Tri thức lĩnh
Trang 6Bởi vì các kỹ thuật này và nhiều vấn đề khác có liên quan tới các kỹ thuật phỏng vấn bằng lời nói, các kỹ sư tri thức tìm kiếm các nghĩa khác để mở rộng tập hợp luật và kiểm tra lại các luật sẵn có trong cơ sở tri thức Họ có thể xem lại các tài liệu chuẩn, xử lý dấu hiệu độc lập, phỏng vấn nhiều người khác, và kiểm tra các tri thức chung, tất cả các phương pháp này là giai đoạn quan trọng và chi phí cao Do đó, mọi sự cố gắng để phát triển công nghệ thu thập tri thức tự động
là đang được chú ý
Các cơ sở dữ liệu liên kết chứa hàng chục gigabytes dữ liệu cho một vài
hệ chuyên gia, thực hiện bổ xung vào các công nghệ thu thập tri thức truyền thống Thông qua sử dụng các công cụ và chiến lược thích hợp, tri thức cung cấp trong một cơ sở dữ liệu có thể chuyển đổi hiệu quả vào định dạng của một hệ thống dựa trên luật
Dù nhiều công cụ khai phá là có sẵn, cơ sở dữ liệu thế giới thực đưa ra những khó khăn vì tính tự nhiên trong nội dung của chúng là hướng tới động, không đầy đủ, dư thừa, nhiễu, và rất lớn Những vấn đề này phải được giải quyết trước khi bất kỳ công cụ khai phá nào được ứng dụng vào những cơ sở dữ liệu liên kết này trong việc tìm kiếm các luật có ý nghĩa
Trong chương này, chúng ta miêu tả khung làm việc có sẵn của các công nghệ và công cụ cơ sở dữ liệu có thể ứng dụng cho các cơ sở dữ liệu thế giới thực
để tạo ra các cơ sở tri thức dựa trên luật để phát triển hệ chuyên gia Khung làm việc minh hoạ trong hình 1 bao gồm các thành phần chính sau:
1 Các công cụ cải tiến chất lượng dữ liệu: Chất lượng dữ liệu phải được cải tiến trước bất kỳ quá trình thu thập tri thức tự động nào để có kết quả đúng như
dự kiến Các công cụ phát hiện dị thường, các công cụ thiết kế cơ sở dữ liệu logic
và Ngôn ngữ truy vấn quan hệ SQL có thể được sử dụng để phát hiện các mâu thuẫn mà có thể tồn tại trong cơ sở dữ liệu
2 Các công cụ phát hiện luật:
Các công cụ qui nạp như là LogicGem và First Class có thể được dùng
để biến đổi dữ liệu thành tập hợp các luật
Trang 7 Các công cụ khai phá tri thức như là IDIS và Knowledge Seeker có thể thao tác trên dữ liệu để phát hiện các quan hệ ẩn mà tồn tại giữa các thuộc tính và trình bày các thuộc tính này trong định dạng của các luật Mặc dù, các công cụ này có thể phân tích dữ liệu để tách các dữ liệu dị thường (các thuộc tính mà có giá trị không bình thường)
3 Quá trình thẩm định tri thức: thẩm định tri thức được khai phá cần thống nhất, chính xác, đầy đủ, và thích hợp Tri thức được khai phá phải kết hợp một cách đúng đắn với tri thức đang tồn tại để cơ sở tri thức thống nhất và đáng tin cậy có thể được thiết lập cho hệ chuyên gia theo lý thuyết
Đối với những cơ sở dữ liệu rất lớn, sự kết hợp của các công cụ và công nghệ này có thể cung cấp một môi trường tốt hơn cho thu thập tri thức tự động
Để phát hiện ra tri thức có ích từ cơ sở dữ liệu, chúng ta cần cung cấp dữ liệu sạch cho quá trình khai phá Phần lớn các cơ sở dữ liệu có dữ liệu dư thừa và mâu thuẫn nhau, và mất các trường hoặc mất các giá trị dữ liệu, cũng như các trường dữ liệu mà không có quan hệ logic và được chứa trong các quan hệ dữ liệu giống nhau Các công cụ và công nghệ cải tiến chất lượng dữ liệu có thể xoá
bỏ phần lớn các vấn đề này, chúng tăng thêm cơ hội của tạo ra các luật phù hợp, chính xác, và có ý nghĩa bằng các công cụ khai phá và qui nạp
Các công cụ khai phá và quy nạp có thể sử dụng độc lập để sinh ra các luật Các công cụ quy nạp là có hiệu quả với các dữ liệu nhỏ với một vài thuộc tính, ở đó các thuộc tính độc lập lẫn nhau và tất cả các thuộc tính được đưa ra trong quá trình tạo quyết định Mặt khác, các công cụ khai phá tri thức đều rất có ích với số lượng lớn dữ liệu với nhiều thuộc tính có quan hệ với nhau Thêm vào
đó, các công cụ khai phá tri thức cho phép những người dùng hướng dẫn quá trình khai phá bằng cách tập trung vào các thuộc tính được chọn để xác nhận phần tri thức thu thập được thông qua các công nghệ thu thập tri thức truyền thống Nói chung, các công cụ khai phá và quy nạp có thể bổ sung lẫn nhau Chúng sử dụng các thuật toán khác nhau để xác định các quan hệ và các thuộc tính ẩn trong các cơ sở dữ liệu và để sinh ra luật Sau đó, ứng dụng của cả hai
Trang 8công cụ này, bất cứ khi nào thích hợp và có thể thực hiện được, có thể giảm bớt lỗi trong bất kỳ các luật tạo quyết định từ cơ sở dữ liệu
Tập hợp các luật khai phá phải được xác minh độ chính xác (những luật miêu tả sinh động cơ sở dữ liệu), sự mâu thuẫn (những luật không dư thừa hay mâu thuẫn), và có ích (những luật đưa ra quá trình tạo quyết định) cho cơ sở tri thức đang được phát triển Hiện tại, không có công cụ có sẵn nào để hoàn thành điều này Quá trình xác minh tri thức có thể sử dụng sự phản hồi từ một chuyên gia lĩnh vực cũng như miền tri thức sẵn có đặc biệt với ứng dụng đang được xem xét cho sự phát triển hệ chuyên gia Tri thức lĩnh vực được định nghĩa như bất kỳ thông tin nào mà không trình bày rõ ràng trong cơ sở dữ liệu Trong một cơ sở dữ liệu y học, chẳng hạn, tri thức "bệnh nhân nam không thể mang thai" được xem xét như là tri thức lĩnh vực
Trong những mục sau đây, chúng ta mô tả những tiện ích, những khả năng, và những hạn chế của những công cụ, kỹ thuật, và những quá trình xác định trong khung làm việc để thu thập tri thức tự động Những công cụ và kỹ thuật này minh hoạ cách những người quản lý cơ sở dữ liệu có thể cộng tác để phát triển một vài hệ chuyên gia Không phải mọi dữ liệu có trong một cơ sở dữ liệu đều có ích và sự phát triển của tất cả các hệ chuyên gia sẽ không được lợi từ thông tin được lưu trong những cơ sở dữ liệu Điều này là đúng với mọi kỹ thuật thu thập tri thức Kỹ thuật được mô tả là phần bổ sung tới những công cụ truyền thống và được dùng để bắt đầu sự tìm kiếm cho các kỹ thuật khác liên quan đến
sử dụng cơ sở dữ liệu
Trang 9Chương 2: Cải tiến chất lượng dữ liệu
Mỗi cơ sở dữ liệu có các đặc điểm tương ứng với kiểu dữ liệu mà nó lưu trữ Bước đầu tiên để hiểu một cơ sở dữ liệu là phải hiểu thế nào là các bảng và các trường và các kiểu của dữ liệu mà chúng chứa Trong các cơ sở dữ liệu lớn, cách biểu thị các trường, và kiểu và phạm vi giá trị của kiểu thường khó hiểu Cho một trường hợp, nếu cơ sở dữ liệu có một trường là "tuổi", nó có thể đưa ra một dự đoán dựa trên miền giá trị mà nó chứa Tuy nhiên, cho một trường như là
"chứng bệnh", nó không biết số các chứng bệnh, các chứng bệnh hay gặp, Trong khai phá tri thức, có một sự phụ thuộc quan trọng vào cách cơ sở dữ liệu được đặc trưng hoá và cách tri thức được thu thập và cách tri thức đang tồn tại được suy ra như thế nào Cơ sở dữ liệu thế giới thực đưa ra khó khăn vì những nội dung tự nhiên của chúng có xu hướng động, không đầy đủ, rườm rà, và rất rộng Dữ liệu có thể không đầy đủ hoặc thiếu các giá trị trong các trường bản ghi đặc biệt hoặc hoàn toàn thiếu các trường dữ liệu cần thiết để khai phá chính xác Trong những cơ sở dữ liệu quan hệ, vấn đề xuất hiện thường xuyên bởi vì mô hình quan hệ chỉ ra rằng tất cả bản ghi trong một quan hệ phải có các trường giống nhau, thậm chí nếu những giá trị của hầu hết các bản ghi không tồn tại Ví
dụ, một cơ sở dữ liệu bệnh viện với những trường có một phạm vi rộng của những sự kiểm tra trong phòng thí nghiệm và những thủ tục Nói chung, chỉ một vài trường này sẽ được làm đầy trong bất kỳ bệnh nhân đã cho Các trường không đầy đủ hoặc mất mát trong các quan hệ có thể dẫn đến khai phá không có
ý nghĩa Thêm vào đó, dữ liệu thường xuất hiện liên tiếp ở nhiều nơi khác nhau trong một cơ sở dữ liệu Một dạng phổ biến của sự dư thừa là một phụ thuộc hàm trong một trường được định nghĩa như là một hàm của các trường khác Cho ví
dụ, Lợi_nhuận = Thu_nhập – Chi_phí Vấn đề này là thông tin dư thừa có thể bị khai phá một cách sai lầm như tri thức, thậm chí nó thường được sử dụng không thích hợp bởi kỹ sư tri thức
Trang 10Chất lượng của khai phá và giải thích thông tin phụ thuộc vào chất lượng của dữ liệu Chất lượng và tính chất rộng lớn của dữ liệu trong cơ sở dữ liệu thế giới thực đưa ra các vấn đề trọng tâm để khai phá tri thức Để vượt qua vấn đề chất lượng dữ liệu cần sử dụng các công cụ phân tích sự dị thường, làm sạch hơn,
và lọc các thiết kế cơ sở dữ liệu logic nếu cần thiết
2.1 Các vấn đề về chất lượng dữ liệu
Dữ liệu trên một phạm vi đặc biệt thu được trong dạng của các thuộc tính
ký hiệu và số Các nguồn của dữ liệu biến đổi từ người tới bộ cảm biến với các
độ khác biệt về sự phức tạp và sự đáng tin cậy Phân tích các dữ liệu ở đây cho chúng ta hiểu rõ hơn về lĩnh vực này Trong sự phát triển của các hệ thống dựa trên tri thức, phân tích dữ liệu được thực hiện để phát hiện và sinh ra tri thức mới
để xây dựng một cơ sở tri thức toàn diện và đáng tin cậy Sự tin cậy của cơ sở tri thức mà được sinh ra trên các công nghệ phân tích dữ liệu như là phương pháp quy nạp, nó phụ thuộc vào dữ liệu Vì vậy, chất lượng của dữ liệu trở thành một vấn đề quyết định trong sơ đồ thu thập tri thức tự động
Giới hạn "Chất lượng dữ liệu" được định nghĩa như là "phù hợp để sử dụng" bao hàm các khái niệm chất lượng dữ liệu tương đối Tính toán chất lượng
dữ liệu để phù hợp cho một mục đích sử dụng nhưng có thể không đủ chất lượng cho mục đích khác Thêm vào đó, sự thích hợp để sử dụng biểu thị rằng chúng ta cần tìm kiếm ra ngoài giới hạn sự quan tâm thường xuyên của chúng ta với độ chính xác của dữ liệu Dữ liệu tìm được dựa trên các hệ thống điều trị bệnh nhân
có thể chính xác nhưng không thích hợp để sử dụng nếu chúng không xảy ra đúng lúc Hơn nữa, các cơ sở dữ liệu khác nhau ở trong những hoàn cảnh xác định trong phần khác nhau của một tổ chức có thể đúng nhưng không thích hợp
để sử dụng nếu chúng ta hợp nhất chúng và chúng có các định dạng không thích hợp Một vấn đề liên quan tới dữ liệu là các ngữ nghĩa của dữ liệu có thể hiểu hoàn toàn bởi những người thu thập chúng, nhưng không phải bởi tất cả những người dùng khác Như vậy, mặc dù giá trị có thể đúng, nhưng nó có thể dễ dàng
bị hiểu sai
Trang 11Vấn đề này luôn luôn tồn tại với dữ liệu thực Dữ liệu có thể thường sai và không đầy đủ, được phân loại thành cơ sở dữ liệu con, được tổ chức sử dụng không phù hợp với các định dạng và các mô hình dữ liệu, và sử dụng thường bao hàm toàn diện các quy ước tên gọi Cải tiến chất lượng dữ liệu bao gồm thao tác
cơ bản như là loại bỏ nhiễu nếu thích hợp, thu thập các thông tin cần thiết để làm mẫu hoặc loại bỏ nhiễu; chúng có tác dụng quyết định chiến lược để trình bày thông tin mất mát (các trường dữ liệu, các giá trị thuộc tính); tính toán về thông tin tần suất thời gian; thay đổi và chuẩn hoá thích hợp Quan tâm tới chất lượng của dữ liệu là vì các tác dụng của các vấn đề đó trên các kết quả phân tích dữ liệu, mục đích là để sửa các vấn đề dữ liệu về thời gian hoặc để nhận dạng những ảnh hưởng của các vấn đề dữ liệu dựa trên các kết quả
Các vấn đề dữ liệu có thể phân loại thành 3 nhóm: dữ liệu quá nhiều, dữ liệu quá nhỏ, và dữ liệu đứt đoạn Trong những thảo luận sau đây, chúng ta xem xét các vấn đề xuất hiện phổ biến trong các cơ sở dữ liệu hiện nay
2.1.1 Dữ liệu quá lớn
a Dữ liệu sai lạc và nhiễu
Dữ liệu sai lạc là vì các nhân tố như là truyền dữ liệu thất bại hoặc tiếp nhận dữ liệu sai Nhiễu trong dữ liệu có thể cho là do đo lường dữ liệu hoặc lỗi truyền dẫn, và do các nhân tố cố hữu như là đặc điểm của các hệ thống và các quá trình từ đó dữ liệu được thu thập Nói chung, nhiễu trong dữ liệu ít đi dự báo khả năng các điểm đặc trưng được tìm ra
b Dữ liệu động
Đặc điểm cơ bản của hầu hết các cơ sở dữ liệu là các nội dung đang thay đổi Dữ liệu có thể có nhạy cảm với thời gian, phân tích và khai phá bị ảnh hưởng bởi đường thời gian của quan sát dữ liệu Một vài giá trị dữ liệu, như là số hiệu cá nhân, là hằng số theo thời gian; một vài biến đổi hơn hoặc kém tổng quát
Trang 12theo thời gian (cân nặng và chiều cao); và phụ thuộc tình hình mà chỉ quan sát giá trị gần đây sẽ đủ để đáp ứng ( tốc độ nhịp xung)
là không liên quan, và các lỗi này là không quan trọng Tuy nhiên, tốc độ nhịp tim của bệnh nhân là có liên quan, và các lỗi có thể ảnh hưởng tới những tri thức được khai phá Mặt khác, nếu chúng ta tìm thấy một sự tập trung về địa lý của một bệnh riêng biệt, khi đó mã vùng điện thoại lại trở thành quyết định
Các dữ liệu có liên quan được lựa chọn bởi sự tập trung trên các mẫu chính của thông tin và đôi khi sử dụng những cái khác của dữ liệu để củng cố hoặc làm sạch những nhập nhằng Mục đích chính của việc khử những dữ liệu không thích hợp là để thu hẹp không gian tìm kiếm trong sự phân tích dữ liệu Sự phức tạp có thể giảm đáng kể nếu dữ liệu không thích hợp được loại ra và chỉ phần lớn các đặc điểm có liên quan được sử dụng để phân tích dữ liệu
d Dữ liệu kích thước lớn
Trong rất nhiều lĩnh vực, như là không gian (dữ liệu ảnh) và truyền thông (điều hành các mạng lưới lớn), số lượng dữ liệu và tốc độ tại nơi mà dữ liệu được sản xuất có thể có một hệ số giới hạn trong thực hiện phân tích trực tuyến Số lượng dữ liệu đôi khi vượt ra ngoài giới hạn khả năng của giá trị phần cứng và phần mềm sử dụng để phân tích dữ liệu
2.1.2 Dữ liệu quá nhỏ
a Các thuộc tính bị mất mát
Trang 13Các thuộc tính bị mất mát hoặc thiếu là những ví dụ về các vấn đề dữ liệu
mà có thể làm phức tạp nhiệm vụ phân tích dữ liệu như là trong việc học Trong học, các dữ liệu này không đủ giới hạn để thực hiện thuật toán học hoặc các công
cụ thống kê ứng dụng để thu thập dữ liệu, không có vấn đề thuật toán phức tạp như thế nào hoặc dữ liệu được sử dụng là bao nhiêu Các thuộc tính sai và mất mát tạo ra một vài vấn đề khi phương pháp quy nạp được sử dụng như quá trình phân tích dữ liệu Đầu tiên, trong quy nạp cây quyết định, các thuộc tính mất mát
vì các vectơ có độ dài không đồng đều Kết quả của vấn đề này tạo ra độ lệch khi giá trị thông tin của hai vectơ trình bày hai thuộc tính được so sánh hoặc khi một phép kiểm tra về hiệu suất của các giá trị của một thuộc tính Thứ hai, nhiều ứng dụng phân tích dữ liệu gồm phân chia dữ liệu thành các tập hợp đào tạo và kiểm tra Mặc dù quá trình phân chia có thể lặp đi lặp lại một vài lần, các thuộc tính bị mất vì sự uớc lượng không chính xác của các kết quả
Một cách nhìn không tương xứng của cơ sở dữ liệu có thể tạo ra tổng số
dữ liệu xuất hiện có lỗi Quan sát toàn bộ cơ sở dữ liệu của các thuộc tính thích hợp mà hệ thống khai phá có thể áp dụng cho một vấn đề Nó thừa nhận tầm quan trọng của các trường hợp có thuộc tính phức tạp Cho ví dụ, giả sử một hệ thống được định nghĩa để học chẩn đoán bệnh sốt rét từ cơ sở dữ liệu bệnh nhân
mà không bao gồm xét nghiệm máu Bệnh nhân mà có các bản ghi đúng và ai là khoẻ mạnh với chi tiết cụ thể dựa vào quan sát này có thể có những chẩn đoán khác nhau, có thể sai sót bị đổ lỗi cho lỗi của dữ liệu
b Mất các giá trị thuộc tính
Hầu hết các cơ sở dữ liệu đều có thuộc tính bị mất giá trị Trong một vài ứng dụng, dữ liệu mất mát có thể được xem xét bằng phân tích dữ liệu và các hệ thống khai phá bằng cách đơn giản loại bỏ các giá trị mất mát, bỏ qua các bản ghi tương ứng, hoặc suy ra các giá trị mất mát từ các giá trị đã biết Trong một vài ứng dụng, các bản ghi dữ liệu với các giá trị mất mát không thể bị loại bỏ bởi vì tổng toàn bộ dữ liệu có thể không đủ và các giá trị còn lại trong các bản ghi dữ liệu có thể có các thông tin có ích Trong một vài ứng dụng, sự có mặt của các
Trang 14giá trị thuộc tính có liên quan là rất quan trọng (ví dụ, có thể chẩn đoán được một bệnh nhân đã hôn mê một thời gian rồi hay không ?) mà việc thay thế một giá trị mặc định là không được phép
c Tổng số dữ liệu nhỏ
Trong một vài cơ sở dữ liệu, mặc dù tất cả các thuộc tính có đủ giá trị, vấn
đề chính là tổng toàn bộ dữ liệu là không đủ cho tất cả các kiểu phân tích dữ liệu Cho trường hợp, phần lớn thuật toán phân tích dữ liệu cần đến gần 100 ví dụ của
dữ liệu đào tạo để đào tạo phù hợp dành cho việc phân loại các ví dụ sau này Độ tin cậy của các khái niệm học hoặc các mẫu và các luật phổ biến có thể không có khả năng nếu các ví dụ không đủ giá trị
2.1.3 Dữ liệu bị đứt đoạn
a Dữ liệu mâu thuẫn nhau
Dữ liệu tương thích trở thành quan trọng khi một vài nhóm thu thập dữ liệu Đặc biệt đúng trong nhiều lĩnh vực mà dữ liệu cảm tính được thu thập và phân tích Các vấn đề không thích hợp có thể vì cách con người miêu tả dữ liệu
b Nguồn dữ liệu phức tạp
Trong các tổ chức rộng lớn, dữ liệu có thể bị phân tán trong một số các khu vực trên các chuẩn khác nhau Trong phần lớn trường hợp, dữ liệu thu được
và duy trì được sử dụng các hệ thống phần mềm khác nhau Mục đích, trình độ,
và chuẩn của dữ liệu thu thập có thể biến đổi khắp các tổ chức Như một kết quả, khi dữ liệu từ nhiều hơn một nhóm thu được cho phân tích dữ liệu, các vấn đề liên quan tới sử dụng dữ liệu có thể xảy ra
2.2 Các kế hoạch cải tiến chất lượng dữ liệu
Đầu vào cơ bản cho một hệ thống phân tích và khai phá dữ liệu là dữ liệu thô được biểu diễn trên cơ sở dữ liệu Các cơ sở dữ liệu đưa ra những vấn đề duy nhất để phân tích và khai phá dữ liệu, bởi vì chúng là động, không đầy đủ, nhiễu,
Trang 15và lớn Các mối quan tâm khác bao gồm cơ sở dữ liệu bao gồm thông tin đầy đủ, khai phá tập trung và cách xử lý sự dư thừa của thông tin không liên quan Trong thảo luận tiếp theo, chúng ta giải thích các công nghệ cải tiến chất lượng dữ liệu khác nhau mà có thể được dùng để tạo ra dữ liệu chính xác hơn, ổn định hơn, và đầy đủ hơn Các công nghệ ở đây cung cấp khả năng để nghiên cứu và giảm nhiễu dữ liệu cũng như dư thừa dữ liệu không liên quan
2.2.1 Kiểm soát chất lượng dữ liệu
Các bước sau đây có thể làm để kiểm soát chất lượng dữ liệu trong các cơ
sở dữ liệu:
Duy trì sơ đồ chất lượng
Xác minh dữ liệu ghi vào trong các thuộc tính
Kiểm tra sự tin cậy dữ liệu
Kiểm soát những ràng buộc
Kiểm tra sơ đồ dữ liệu tương thích trong các bảng trộn
Duy trì sự ổn định
Một vài tiêu chuẩn để đánh giá chất lượng (kiểu và kiểm tra lĩnh vực) có thể được kiểm soát trong quá trình ghi dữ liệu Cho ví dụ, tuổi không là số âm Chúng có thể là một trạng thái riêng của các ràng buộc liên quan trên dữ liệu, cho
ví dụ, một vị trí trong bảng mã vùng điện thoại cần một sự so sánh mã vùng điện thoại tương ứng Một vài ràng buộc khác có thể nhận biết, trong khi những ràng buộc khác có thể tồn tại như những phụ thuộc trong dữ liệu Cho ví dụ, mối quan
hệ giữa mã vùng điện thoại và mã khu vực đưa ra như một sự phụ thuộc, chúng cần được kiểm tra
Kiểu tốt nhất của kiểm soát chất lượng là ngăn chặn lỗi dữ liệu trước khi
nó xảy ra Các phép kiểm tra tìm kiếm các lỗi hiển nhiên (ví dụ, đưa vào một giá trị không đúng cho một thuộc tính) Các phép kiểm tra theo xác suất tìm ra các giá trị không chắc đúng và sau đó cảnh báo người ghi dữ liệu (ví dụ, giá trị số mà cách xa lớn hơn bất kỳ giá trị nào trước đó (thống kê kinh phí))
Trang 16Các ràng buộc dựa trên luật đơn giản có thể dễ dàng được kiểm soát trong suốt quá trình dữ liệu vào, cho ví dụ, số hiệu cá nhân được ràng buộc có 9 chữ số hoặc tuổi của tất cả những người lao động phải lớn hơn 18 Các phương thức khác có thể cải tiến chất lượng dữ liệu bao gồm:
Sử dụng các giá trị đặc biệt "không biết" (thay cho 0) để ngăn ngừa
sự nhầm lẫn
Nhận dạng của các phụ thuộc hàm để kiểm tra các giá trị duy nhất
Sử dụng kiểu số để bảo đảm giá trị giữa các hệ thống
2.2.2 Kiểm tra chất lượng dữ liệu
Sự kiểm tra chất lượng dữ liệu được sử dụng để phát hiện các lỗi dữ liệu Một trong những bước đầu tiên trong quá trình phát triển một chương trình chất lượng dữ liệu là tìm ra cách chất lượng dữ liệu hiện nay tồi theo như thế nào bằng cách đưa ra một quá trình kiểm tra chất lượng dữ liệu Cách này có thể được làm bởi những kiểu liệt kê các lỗi khác nhau mà có thể xuất hiện và định nghĩa các thủ tục để kiểm tra các lỗi này và xác định tần số của sự kiện trong các cơ sở dữ liệu liên kết
Đối với một số lỗi, có thể thực hiện để phát triển một thủ tục kiểm tra trước mà có thể áp dụng cho tất cả dữ liệu Đối với các kiểu lỗi khác, có thể thực hiện áp dụng khả năng kiểm tra lỗi và phát hiện dị thường để định nghĩa các ngoại lệ bên ngoài và dị thường Các dị thường này có thể được kiểm tra riêng biệt và được xác minh
Đây là các lỗi mà thực sự khó phát hiện hoặc quá tốn chi phí hoặc mất nhiều thời gian để theo dõi và bắt được vì tập hợp dữ liệu lớn Trong các trường hợp tương tự, chúng ta có thể sử dụng một chiến lược lấy mẫu, các ví dụ ngẫu nhiên được rút ra từ tập hợp dữ liệu và tần số của các lỗi là được tính toán Toàn
bộ tần số của các lỗi có thể được ước lượng bởi sự tổng quát hoá từ các mẫu Một vài công nghệ sử dụng để kiểm tra lỗi trong sự kiểm soát chất lượng
dữ liệu bao gồm:
Trang 17 Kiểm tra miền giá trị đối với số thực và số nguyên
Kiểm tra tập hợp giá trị đối với một số nhỏ của các giá trị xâu, các
số thực đã biết, vân vân…
Kiểm tra mẫu đối với hàm và những sự phụ thuộc khác
Kiểm tra ràng buộc logic (với các bản ghi, các thuộc tính, các bảng)
Kiểm tra các ràng buộc không chính xác
2.2.3.Truyền dữ liệu
Những giới hạn cơ bản trong tập hợp dữ liệu và phân tích dữ liệu là vì chất lượng và tính chất đầy đủ của dữ liệu Những sai sót trong các phép đo của đầu vào hoặc cung cấp dữ liệu sai cho công cụ phân tích dữ liệu (ví dụ, một phép phân loại) sẽ gây ra nhiều vấn đề khác nhau Bởi vậy, nó là cần thiết trong sự phân tích dữ liệu để nhận dạng sự không đầy đủ và lựa chọn các công nghệ thích hợp để sửa các vấn đề Trong mục nhỏ tiếp theo, chúng ta xem xét một vài công nghệ mà đã được phát triển và ứng dụng để biến đổi dữ liệu từ những lĩnh vực khác nhau
a Bộ lọc dữ liệu
Bộ lọc dữ liệu đã được dùng để giải quyết dữ liệu bẩn như là dữ liệu nhiễu Một số các công nghệ dựa trên trên bộ lọc dữ liệu đã được phát triển để loại bỏ dữ liệu không mong muốn trong phạm vi thời gian, phạm vi tần suất, hoặc phạm vi thời gian thực hiện Quan niệm kỹ thuật lọc loại bỏ các đặc trưng không liên quan và không có sự bóp méo các đặc trưng có liên quan Cho ví dụ, trong phạm vi bộ lọc tần suất, dữ liệu được biến đổi qua phân tích Fourier để góp phần loại trừ các tần số cao Một giả thuyết cơ bản trong bộ lọc dữ liệu là một số lượng tri thức lĩnh vực có sẵn để các thông tin có ích không bị mất
b Mô hình hoá nhiễu
Nén dữ liệu được sử dụng cho mô hình hoá nhiễu và làm mịn dẫn đến bỏ sót các thành phần tần số thấp của dữ liệu Nén dữ liệu có thể nâng cao và cải
Trang 18tiến phép nội suy các kết quả đó trong một sự phân lớp tốt hơn của các tập hợp
dữ liệu kiểm tra Một trong những cường độ quan trọng nhất của mô hình hoá nhiễu là nó có thể giúp chọn lựa dữ liệu có liên quan và để thiết lập các ngưỡng thích hợp trong các phân loại hoá dữ liệu
2.2.4 Thu thập thông tin
Những kết quả giới hạn hay không đầy đủ vẫn được sử dụng khi những đặc trưng dữ liệu là không biết, sự phân tích dữ liệu không được hướng dẫn thích hợp, hoặc những tham số bên trong khác nhau trong một công cụ phân tích dữ liệu là thiết lập không thích hợp Sau này chúng ta bàn luận về công nghệ mà được ứng dụng cho dữ liệu để chúng ta có thể hiểu bản chất của dữ liệu tốt hơn
và sử dụng công cụ phân tích dữ liệu hiệu quả hơn
c Lấy mẫu dữ liệu
Lấy mẫu dữ liệu được sử dụng trong những trường hợp mà thuật toán được dùng để phân tích dữ liệu yêu cầu một tập con của toàn bộ dữ liệu, hoặc chia nhỏ dữ liệu thành các tập hợp đào tạo và kiểm tra hoặc để ước lượng hiệu suất của thuật toán phân tích dữ liệu thông qua một quá trình lặp của sự biến đổi kích cỡ mẫu Vấn đề quan trọng ở đây là chọn lựa các mẫu đúng (ví dụ, tập đào
Trang 19tạo và tập kiểm tra) để thu được và đảm bảo hiệu suất tốt nhất có thể cho giải thuật đang sử dụng
d Phân tích các thành phần chính
Mục đích chính của định dạng các thành phần chính là để lựa chọn các thuộc tính thích hợp để phân tích dữ liệu Về mặt lý thuyết, lựa chọn thuộc tính X (từ Y) là tương đương với lựa chọn vectơ cơ sở X, nối qua các khoảng con trên vectơ X này, và chiếu cơ sở dữ liệu lên trên không gian này Vì thế, định dạng các thành phần chính cho phép chúng ra giảm bớt kích cỡ của một cơ sở dữ liệu trong một số lớn các biến có quan hệ với nhau, trong khi nhiều sự thay đổi trong
cơ sở dữ liệu vẫn được duy trì theo khả năng Sự giảm bớt này được hoàn thành bằng cách biến đổi một tập mới các biến, gọi là các thành phần chính, là không tương quan cao và chúng được sắp xếp để hầu hết các biến giữ lại ban đầu được biểu diễn trong các biến gốc
2.3 Các công cụ cải tiến chất lượng dữ liệu
1 Tìm kiếm những mục dữ liệu dị thường và những mẫu khác thường Những kiểm tra trước này tìm thấy những lỗi hiển nhiên (ví dụ, nhập vào một giá trị sai cho một thuộc tính) và kiểm tra xác suất tìm kiếm những giá trị không chắc chắn
2 Giám sát việc thi hành toàn vẹn các ràng buộc mà được duy trì tách biệt nhau từ các cơ sở dữ liệu và các chương trình ứng dụng bằng cách
sử dụng các luật
Trang 20Trong một công cụ dò tìm dị thường như Datbase/Supervisor, người dùng
có thể định nghĩa những ràng buộc trong dạng của các luật Ví dụ, xem xét luật:
IF công việc = "bán hàng" THEN tiền lương > 30000
Nếu luật trong một ràng buộc đã được chỉ rõ đầy đủ, thì mỗi bản ghi mà thỏa mãn điều kiện IF, sự dò tìm dị thường có thể kiểm tra phần THEN là cũng được thoả mãn hay không Phát hiện dị thường báo cáo tất cả các bản ghi mà thỏa mãn điều kiện IF nhưng THEN không thực hiện được Kiểu kiểm tra này là
có ích khi chúng ta biết rằng những mối quan hệ giữa những trường cơ sở dữ liệu, và những mối quan hệ này có thể được đưa ra như những luật
IDIS là một công cụ dò tìm dị thường khác (ngoài việc là một công cụ khai phá luật) mà có thể tìm kiếm những dị thường qua những tính chất sau đây:
- Phân tích vô hướng: tính toán những giá trị trung bình cho những trường
vô hướng và tìm các giá trị mà vượt khỏi giới hạn cho phép
- Phân tích không vô hướng: tính toán những tần số biến cố và tìm kiếm
những giá trị mà xuất hiện quá ít hoặc quá thường xuyên
- Phân tích tương quan: Tìm kiếm những tương quan khác thường giữa các
giá trị trong các cặp của các trường vô hướng
- Kiểm soát những ràng buộc: Cho phép người sử dụng định nghĩa các ràng
buộc trên các bảng của người dùng kết hợp IF – THEN (IDIS có thể tìm kiếm dữ liệu sai trong bảng đang sử dụng những ràng buộc toàn vẹn này) Mặc dù các công cụ dò tìm dị thường có thể định nghĩa nhiều nguồn của các lỗi trong cơ sở dữ liệu, chúng có khả năng định dạng các sai lầm trong thiết
kế logic cơ bản của một cơ sở dữ liệu Tuy nhiên có những công cụ thiết kế cơ sở
dữ liệu logic nhất định mà có thể sử dụng để phát triển thiết kế cơ sở dữ liệu logic tốt hơn hoặc cải tiến một thiết kế cơ sở dữ liệu logic đang tồn tại
Trang 212.3.2 Công cụ mô hình hoá dữ liệu
Thêm một nhiệm vụ chủ yếu nữa trong chất lượng dữ liệu là cung cấp thiết kế cơ sở dữ liệu logic tốt, ở đó các thuộc tính, các thực thể, và các mối quan
hệ của chúng đã được định nghĩa chuẩn Thiết kế logic tốt có thể làm cho cơ sở
dữ liệu thực hiện đầy đủ và duy trì tốt, do đó giảm đến mức tối thiểu các dị thường (nghĩa là, sự dư thừa, sự mâu thuẫn)
Một mô hình dữ liệu có thể có đủ năng lực để trình bày các thực thể của lĩnh vực ứng dụng, và các mối quan hệ mà tồn tại giữa các thực thể Ngoài ra, mô hình dữ liệu có thể cung cấp các lược đồ để bảo đảm tính toàn vẹn của cơ sở dữ liệu đang được phát triển và có thể cho phép hệ thống mở rộng dễ dàng Mô hình
dữ liệu quan hệ là ứng cử viên tốt để hoàn tất các mục đích này Một lợi thế là lý thuyết về các hệ thống quan hệ được phát triển tốt và có các luật và các thủ tục phức tạp để xử lý quan hệ của dữ liệu
Các mối quan hệ hoặc các bảng cho chúng ta khả năng để lưu trữ và thao tác dữ liệu theo các cách mà không thể thực hiện được trong các lược đồ trình bày dữ liệu khác như là các bảng quyết định, các cây quyết định, và ma trận của các ví dụ Các mối quan hệ này là các thực thể động mà có thể thao tác với ngôn ngữ dữ liệu quan hệ SQL Thêm vào đó, do sự kiểm soát các luật quan hệ như là thực thể và các luật toàn vẹn có liên quan, trình bày các quan hệ có thể giúp ngăn chặn và tách các nguồn tri thức mâu thuẫn như là sự trùng lặp, sự trái ngược, và không đầy đủ
Khi thiết kế một cơ sở dữ liệu quan hệ, chúng ta thường hướng đến một lựa chọn giữa các tập hợp khác của sơ đồ quan hệ Một vài lựa chọn là tốt hơn các lựa chọn khác bởi vì chúng loại bỏ các vấn đề dư thừa và mâu thuẫn (cập nhật các dị thường), thêm vào các dị thường, và loại bỏ các dị thường Một số
"Dạng tiêu chuẩn" khác cho sơ đồ quan hệ với sự phụ thuộc phải được định nghĩa Một trong những dạng quan trọng được gọi là chuẩn 3NF (3 normal form),
mà có thể xây dựng bởi phân tích sơ đồ quan hệ trong các mối quan hệ nhỏ hơn
Trang 22nếu nó chưa ở dạng 3NF Các công cụ thiết kế logic là có sẵn để giúp đỡ người phát triển định nghĩa các quan hệ đã cho trong dạng chuẩn 3 (3NF) Các công cụ như thế yêu cầu người thiết kế cung cấp các thuộc tính nằm trong quá trình tạo quyết định cùng với các mối quan hệ của nó để tạo ra một thiết kế quan hệ logic tối ưu Như là một công cụ có thể kiểm tra một tập hợp các sơ đồ quan hệ cho một dạng chuẩn cụ thể (3NF) và phân tích các quan hệ (nếu muốn) vào trong một dạng chuẩn đặc biệt Như vậy một quá trình thiết kế có thể giảm độ dư thừa, loại
bỏ cập nhật các dị thường, và loại bỏ thông tin mất mát
Trong công cụ thiết kế logic quan hệ khác, THE Analyst, những người dùng đưa vào những câu tiếng anh đơn giản để diễn tả sự sắp xếp logic của các đối tượng chứa trong cơ sở dữ liệu này THE Analyst xem lại các trường hợp cụ thể này và tìm ra các thực thể, các thuộc tính, các mối quan hệ gắn vào Căn cứ trên sự xem xét này, THE Analyst sinh ra một nguyên mẫu cơ sở dữ liệu mà những người dùng có thể truy vấn để xác định yêu cầu thông tin có quan hệ này
sẽ được thoả mãn hay không THE Analyst cung cấp thông tin phản hồi cho những người dùng, sự miêu tả đồ hoạ của các mối quan hệ dữ liệu tương tự với biểu đồ quan hệ thực thể, một thiết bị đặc quyền gọi là FlowMap điều khiển quan
hệ qua lại giữa các thực thể, và trình bày biểu đồ cơ sở dữ liệu quan hệ chuẩn Những người dùng có thể đánh giá nhanh chóng các mô hình khác và lựa chọn một mô hình tốt nhất cho yêu cầu cơ sở dữ liệu của họ
2.3.3 Công cụ ngôn ngữ dữ liệu
Ngôn ngữ quan hệ SQL có thể tạo ra các quan hệ trong quá trình phát triển
để phát hiện những mâu thuẫn (ví dụ, dữ liệu mất mát, dữ liệu mâu thuẫn) Người quản trị cơ sở dữ liệu có thể dùng SQL trên cơ sở dữ liệu (nó đã tồn tại hoặc đang được thiết kế và phát triển) để tìm ra và ngăn ngừa mọi mâu thuẫn dữ liệu nào
Để sử dụng kết quả chính xác hơn và có thể duy trì được cơ sở dữ liệu Thêm vào
đó, nếu một cơ sở dữ liệu được sử dụng để thu được tri thức cho phát triển hệ chuyên gia hoặc các công cụ quy nạp hoặc các công cụ khai phá tri thức, tập hợp các luật sinh ra sẽ bền vững hơn và ít mâu thuẫn hơn
Trang 232.4 Những mối quan tâm và những vấn đề về chất lượng dữ liệu
Những mối quan tâm và những vấn đề sau đây phải được xem xét khi dữ liệu đã được xử lý để cải tiến chất lượng của nó
1 Để thực hiện một phân tích dữ liệu có ý nghĩa và cải tiến chất lượng, chuyên gia lĩnh vực hoặc lĩnh vực phải được nghiên cứu tổng quát trước khi dữ liệu được tiền xử lý
2 Trong hầu hết các ứng dụng, cải tiến chất lượng dữ liệu có thể được lặp đi lặp lại Điều này có nghĩa là các kỹ thuật tiền xử lý hiện tại, như là sự khử dữ liệu hoặc lựa chọn dữ liệu, có thể được sử dụng trong một số các lần lặp
đi lặp lại cho đến khi các kết quả phân tích dữ liệu tốt nhất xuất hiện
3 Cải tiến chất lượng dữ liệu là một sự mâu thuẫn Nó hầu như luôn luôn cần thiết bởi vì chắc chắc chất lượng dữ liệu kém, nhưng đôi khi cái mà nhìn giống như một sự dị thường được khử, trong thực tế, lại là một chỉ dẫn quyết định quan trọng của một hiện tượng trong lĩnh vực quan tâm Nói cách khác, cái mà trông bên ngoài được giải tán lại có thể là điểm dữ liệu chính có giá trị cần tập trung vào
4 Cải tiến chất lượng dữ liệu cũng giải quyết các triệu chứng sẽ xuất hiện lại nếu một vài xử lý cơ bản cho thu thập dữ liệu bị hỏng Nếu dữ liệu là tĩnh và sẽ không cập nhật, chỉ cần làm sạch dữ liệu một lần Nếu dữ liệu được cập nhật theo cùng một cách tương tự mà cơ sở dữ liệu ban đầu đã được tạo, thì vấn đề chất lượng dữ liệu tiếp theo sẽ xuất hiện Do đó, quá trình cải tiến chất lượng dữ liệu sẽ phát triển liên tục
Trang 24bệnh” thì thật khó có thể đưa ra được số lượng các chứng bệnh, hay các chứng bệnh thường gặp…
- Cơ sở dữ liệu thế giới thực thường có xu hướng động, không đầy đủ, rườm
rà và rất rộng Dữ liệu có thể không đầy đủ hoặc thiếu các giá trị trong các trường bản ghi đặc biệt hoặc có khi thiếu hoàn toàn các trường dữ liệu cần thiết để khai phá chính xác Vấn đề này thường xuyên xuất hiện trong các
cơ sở dữ liệu quan hệ vì tất cả các bản ghi trong mô hình quan hệ đều có các trường giống nhau
Ví dụ:
Một cơ sở dữ liệu bệnh viện với những trường phạm vi rộng như là những kiểm tra hay xét nghiệm Trong đó, sẽ chỉ có một vài trường được làm đầy với mọi bệnh nhân Các trường khác không đầy đủ có thể dẫn đến khai phá tri thức không có ý nghĩa
- Khi dữ liệu xuất hiện ở nhiều nơi trong cùng một cơ sở dữ liệu sẽ dẫn đến
dư thừa dữ liệu Ngoài ra dư thừa dữ liệu cũng xuất hiện khi một phụ thuộc hàm trong một trường được định nghĩa như là một hàm của trường khác
Các vấn đề về chất lượng dữ liệu:
Dữ liệu quá nhiều:
Dữ liệu sai lạc và nhiễu: Tồn tại dữ liệu sai lạc khi truyền dữ liệu thất bại hoặc tiếp nhận thông tin sai Nhiễu trong dữ liệu là do đo lường dữ liệu hay do truyền dẫn
Dữ liệu động: đây là một đặc điểm cơ bản của hầu hết các cơ sở dữ liệu
Ví dụ như dữ liệu về trường cân nặng hay chiều cao của con người theo thời gian Hoặc trong thương mại, các dữ liệu về tỷ giá đồng vàng hoặc tỷ gái ngoại tệ trên thị trường cũng là những dữ liệu động
Dữ liệu không thích hợp: Vì tập dữ liệu lớn nên các ứng dụng phân tích dữ liệu cần phải rút trích ra các dữ liệu có ý nghĩa nhất Ví dụ với cơ sở dữ liệu về các bệnh nhân có các trường như là Số_chứng_minh_thư hay Tên_bệnh_nhân là những dữ liệu không liên quan vì người ta chỉ chú ý đến các trường như Triệu_chứng hay Chuẩn_đoán Chúng ta phải khử các
Trang 25dữ liệu không thích hợp để thu hẹp không gian tìm kiếm khi phân tích dữ liệu và để giảm bớt độ phức tạp
Dữ liệu kích thước lớn: trong nhiều lĩnh vực sử dụng đến dữ liệu không gian như ảnh hay băng quay phim tại các trạm giao thông, số lượng dữ liệu này có thể vượt qua giới hạn của phần cứng và phần mềm khi sử dụng phân tích dữ liệu
Dữ liệu quá nhỏ:
Các thuộc tính bị mất mát: điều này có thể làm phức tạp nhiệm vụ phân tích dữ liệu Ví dụ, phân tích dữ liệu để chuẩn đoán bệnh sốt rét từ cơ sở
dữ liệu mà không bao gồm các xét nghiệm máu
Mất các giá trị thuộc tính: Hầu hết các cơ sở dữ liệu đều có các thuộc tính
bị mất mát giá trị Đôi khi các giá trị bị mất này lại rất quan trọng cho khai phá tri thức, và không được phép thay thế nó bằng một giá trị mặc định
Tổng số dữ liệu nhỏ: Trong một vài cơ sở dữ liệu, tất cả các thuộc tính đều
có đầy đủ các giá trị nhưng tổng toàn bộ dữ liệu lại không đủ cho các kiểu phân tích dữ liệu
Dữ liệu bị đứt đoạn:
Dữ liệu mâu thuẫn nhau: Khi có nhiều nhóm thu thập dữ liệu cho cơ sở dữ liệu thì sẽ xuất hiện các dữ liệu mâu thuẫn nhau, nguyên nhân có thể vì cách con người miêu tả dữ liệu
Nguồn dữ liệu phức tạp: dữ liệu có thể bị phân tán trên nhiều khu vực và trên các chuẩn khác nhau trong các tổ chức lớn
Các kế hoạch cải tiến chất lượng dữ liệu:
Kiểm soát chất lượng dữ liệu: Để kiểm soát chất lượng dữ liệu trong các cơ sở dữ liệu chúng ta có thể thực hiện một số bước sau:
Duy trì sơ đồ chất lượng
Xác minh dữ liệu ghi vào trong các thuộc tính
Kiểm tra sự tin cậy dữ liệu
Kiểm soát những ràng buộc
Kiểm tra sơ đồ dữ liệu tương thích trong các bảng trộn
Trang 26 Mô hình hoá nhiễu: sử dụng nén dữ liệu để mô hình hoá nhiễu và làm mịn dẫn đến bỏ sót các thành phần tần số thấp của dữ liệu Nén dữ liệu
có thể nâng cao và cải tiến phép nội suy các kết quả trong phân lớp tốt hơn các tập dữ liệu kiểm tra
Thu thập thông tin: những kết quả giới hạn hay không đầy đủ vẫn được sử dụng khi đặc trưng dữ liệu là không biết, quá trình phân tích dữ liệu không được hướng dẫn thích hợp, hoặc những tham số thiết lập trong các công cụ phân tích
Lấy mẫu dữ liệu: được sử dụng trong trường hợp thuật toán được dùng để phân tích dữ liệu yêu cầu một tập con của toàn bộ dữ liệu, hay chi nhỏ dữ liệu thành các tập con để ước lượng hiệu suất của thuật toán Do đó phải lựa chọn được các mẫu đúng để thu được và đảm bảo hiệu suất tốt nhất cho giải thuật đang sử dụng
Phân tích các thành phần chính: được dùng với mục đích là để lựa chọn các thuộc tính tính hợp để phân tích dữ liệu
Các công cụ cải tiến chất lượng dữ liệu
Trang 27- Công cụ dò tìm dị thường: có nhiều kiểu lỗi dị thường có thể xuất hiện trong một cơ sở dữ liệu, nó có thể là một lỗi ghi dữ liệu như: tuổi của người lao động được nhập vào là 135 thay vì là 35 Đây là lỗi do thiết kế cơ sở dữ liệu logic tồi
- Công cụ mô hình hoá dữ liệu: để có được chất lượng dữ liệu tốt chúng ta phải cung cấp thiết kế cơ sở dữ liêu logic tốt mà ở đó các thuộc tính, thực thể, các mối quan hệ đã được định nghĩa chuẩn Thiết kế logic tốt có thể làm cho cơ sở dữ liệu thực hiện đầy đủ và duy trì tốt và giảm thiểu các dị thường trong cơ sử dữ liệu Cho ví dụ, xem xét quan hệ Chẩn_đoán_y_học trong hình 2 Mối quan hệ này không phải là 3NF với chi tiết cụ thể cho các phụ thuộc bởi vì thuộc tính Đơn_thuốc là dựa vào khoá ngoài Vấn đề trong hình 2 là nếu ở đây không quy định cho một sự kiện Bệnh, chúng ta không thể thêm bản ghi hoặc chúng ta phải
sử dụng một giá trị “Null” để qui định Trong trường hợp này, cơ sở sữ liệu chứa không đủ dữ liệu (nghĩa là, thiếu bản ghi hoặc thiếu giá trị cho trường dữ liệu), làm cho khai phá tri thức khó khăn hơn Hình 3 đưa ra sơ đồ quan hệ tương tự trong chuẩn 3NF
Hình 3: Tách rời sơ đồ quan hệ Chuẩn_đoán_y_học trong chuẩn 3NF
Chuẩn_đoán (Triệu_chứng, Bệnh) Khoá: Triệu_chứng
Phụ thuộc hàm: Triệu_chứng Bệnh Đơn thuốc (Bệnh, Thuốc_ được_kê) Khoá: Bệnh
Phụ thuộc hàm: Bệnh Thuốc_ được_kê
Hình 2: Ví dụ về sơ đồ quan hệ mà không ở dạng chuẩn 3NF
Chuẩn_đoán_y_học (Triệu_chứng, Bệnh, Thuốc_được_kê) Khóa : Triệu_chứng
Phụ thuộc hàm: Triệu_chứng Bệnh
Bệnh Thuốc_được_kê
Trang 28- Công cụ ngôn ngữ dữ liệu: Ngôn ngữ quan hệ SQL có thể tạo ra các quan
hệ trong quá trình phát triển để phát hiện ra mâu thuẫn:
Ví dụ 1 (mất mát dữ liệu)Xem xét đến trình bày SQL dựa trên trên hình 3 : CREATE VIEW R1 AS
SELECT UNIQUE Bệnh FROM Chuẩn_đoán
CREATE VIEW R2 AS
SELECT UNIQUE Bệnh FROM Đơn_thuốc
Bây giờ, nếu R2 – R1 = , khi đó chúng ta đang can thiệp vào luật có liên quan, có một vài thông tin về Bệnh trong quan hệ phụ thuộc (Đơn_thuốc) mà không ở trong quan hệ chính (Chuẩn_đoán) Đây là một lỗi ngữ nghĩa mà cần để nhận dạng bởi chuyên gia lĩnh vực
Ví dụ 2 ( Tìm ra dữ liệu mâu thuẫn) Nói chung, phần lớn dữ liệu mâu thuẫn có thể được ngăn chặn bằng cách kiểm soát các phụ thuộc hàm khi thêm các hàng vào quan hệ Tuy nhiên, khi quan hệ đã tồn tại, truy vấn sau có thể sẽ được sử dụng cho mọi giá trị của vế trái của một phụ thuộc cho một quan hệ để định nghĩa mâu thuẫn Xem xét phát biểu SQL cơ sở sau trên hình 3:
CREATE VIEW R1 AS
SELECT UNIQUE Bệnh FROM Đơn_thuốc
WHERE Thuốc_ được_kê= " Tên_thuốc"
INTERSECT
CREATE VIEW R2 AS
SELECT UNIQUE Bệnh FROM Đơn_thuốc
WHERE Thuốc_ được_kê <> " Tên_thuốc"
Nếu kết quả của INTERSECT là rỗng, thì mâu thuẫn dữ liệu tồn tại trong quan hệ, gây ra các luật mâu thuẫn
Ví dụ 3 (Tìm dữ liệu dư thừa) Nếu ràng buộc khoá chính được kiểm soát, thì sẽ không bị nhân đôi các hàng trong quan hệ và như vậy các luật không dư
Trang 29thừa sẽ được sinh ra dựa trên quan hệ này Mặt khác, truy vấn SQL sau sẽ được
sử dụng để kiểm tra một quan hệ có khả năng dư thừa:
CREATE VIEW R3 AS
SELECT * FROM Tên_quan_hệ
CREATE VIEW R4 AS
SELECT UNIQUE * FROM Tên_quan_hệ
Nếu R3 – R4 R4 – R3 thì nó là dư thừa Nếu R3 – R4 , thì dư thừa
dữ liệu được tìm ra trong R3, ngược lại, dư thừa dữ liệu được tìm ra trong R4
Trang 30
Chương 3: Ứng dụng của các công nghệ và công cụ khai phá cơ sở dữ liệu trong phát triển hệ chuyên gia
Không có cách tiếp cận đơn cho khai phá tri thức, tuy nhiên, khái quát hóa cách tiếp cận theo biểu đồ trong hình 4 bao gồm các bước chính sau:
Xác định một cơ sở dữ liệu rộng lớn mà sẽ được phân tích
Quyết định bạn muốn sử dụng một công cụ để kiểm tra giả thuyết của riêng mình trên các tri thức có thể chứa trong cơ sở dữ liệu hay bạn muốn công cụ phát sinh giả thuyết cho bạn
Lựa chọn một công cụ thích hợp
Sinh ra và kiểm tra giả thuyết
Xác minh tri thức đã được khai phá
Trợ giúp khai phá tri thức dùng bằng việc hợp nhất tri thức đó với cách dùng các tri thức những hệ chuyên gia và kinh nghiệm chuyên gia, hay bằng việc lọc cơ sở dữ liệu để có thêm hoạt động tương lai
Công cụ khai phá
cơ sở dữ liệu
Khai phá tri thức (các luật, các khái niệm, vv )
Chuyên gia lĩnh vực
Các hệ
chuyên gia
Hình 4: Một cơ sở dữ liệu khai phá và môi trường khai phá
Trang 31Người quản lý cơ sở dữ liệu có thể sử dụng công cụ này theo một vài cách Nó có thể giúp truy nhập và thử nghiệm với những công cụ khai phá tri thức mà những người sử dụng hiểu tốt hơn về cách sử dụng và hạn chế của chúng Thông thường, dữ liệu phải được định dạng để cho phép xử lý hiệu quả Người quản lý cơ sở dữ liệu cũng phải ý thức được những nỗ lực thu nhận tri thức đang thực hiện sao cho những kỹ sư tri thức có thể được báo động để trình bày dữ liệu phải tuân theo dạng chuẩn trong phát triển của hệ thống Trong những mục sau đây, chúng tôi bàn luận những công cụ và kỹ thuật sẵn có để tự động thu thập tri thức từ cơ sở dữ liệu
3.1 Lược đồ khai phá luật
Các công cụ khai phá tri thức và quy nạp hiện nay tận dụng của các lược
đồ khác nhau bao gồm phân loại, đặc trưng, kết hợp, và sự sắp xếp thứ tự Một cách hiểu các lược đồ này là yếu tố cần thiết mà công cụ khai phá đúng được sử dụng trên cơ sở dữ liệu đang được khảo sát để thu thập tri thức tự động
Các hệ thống khai phá được áp dụng trên cơ sở dữ liệu thật trong y học, thiết kế dùng máy tính hỗ trợ, thị trường, và nhiều lĩnh vực khác Kiểu của luật hoặc mẫu mà tồn tại trong cơ sở dữ liệu phụ thuộc vào lĩnh vực Một luật khai phá có thể có chất lượng hoặc số lượng, tại vấn đề trước đây không liên quan nhưng bây giờ có Cho ví dụ, một phát biểu, "lương của giáo sư khoa học là cao",
là chất lượng, ngược lại phát biểu, "lương của 60% giáo sư hội hoạ là cao", là số lượng Một luật số lượng cung cấp thông tin thống kê thông tin mà làm cho dễ dàng lập luận về số lượng, khả năng học tăng lên, và học trong sự hiện diện của nhiễu và các ngoại lệ Dữ liệu khoa học là thích hợp để có các mẫu số lượng Nếu
có thử nghiệm được thực hiện hợp lý để giải quyết một trong các nguyên nhân, sau đó thường tồn tại một mẫu đơn giản trong dữ liệu Sự tập trung dữ liệu thu thập được trong cơ sở dữ liệu thương mại, có đặc trưng tương ứng với sự không điều khiển của thế giới thực, ở đó nhiều lý do chồng chéo khác nhau và nhiều mẫu là phù hợp để tồn tại đồng thời Cuối cùng sử dụng phương pháp xác định mẫu để tìm ra nó
Trang 32Xem xét một vài điểm khác, luật được khai phá có thể là luật phân lớp hoặc là luật đặc trưng Luật phân lớp là sự xác định để phân biệt các khái niệm của một lớp với những lớp khác Ví dụ, để nhận ra một bệnh của cơ thể từ những bệnh khác, luật phân lớp tổng kết các triệu chứng mà phân biệt bệnh này với những bệnh khác Nói chung, cho một tập các bản ghi, mỗi bản ghi chứa một số lượng các thuộc tính, một tập hợp các đích (đại diện cho các lớp của các bản ghi),
và một nhiệm vụ của một đích với mỗi bản ghi, hàm phân lớp xem xét đích bản ghi và tạo ra các đặc trưng của những bản ghi cho mỗi lớp Cho ví dụ, xem xét ứng dụng phân tích thẻ tín dụng Bản ghi khách hàng có thể được đánh dấu với một nhãn là tốt, trung bình, hay tồi Một hàm phân loại có thể khảo sát các bản ghi đích và sinh ra một mô tả rõ ràng cho toàn bộ các lớp này Một sự phân loại như vậy có thể mô tả tập hợp những khách hàng tốt khi đó với "thu nhập hơn
40000, giữa độ tuổi 40 và 55, và sống trong các vùng lân cận X" Những cây quyết định đã được sử dụng để phân lớp để làm đơn giản hoá việc tìm kiếm các luật, tuy nhiên cách tiếp cận này không hiệu quả khi dữ liệu bị phủ định hoặc khi một vài dữ liệu khẳng định và rất nhều dữ liệu phủ định
Luật đặc trưng là một xác định mà đặc trưng cho các khái niệm được thoả mãn bởi tất cả các dữ liệu liên quan trong cơ sở dữ liệu Cho ví dụ, những triệu chứng của một bệnh đặc biệt của cơ thể có thể được tổng kết như một luật đặc trưng Nói chung, sự miêu tả đặc trưng diễn tả cái mà các bản ghi trong một lớp chia sẻ theo cách chung Trong hầu hết việc học từ các ví dụ, các ví dụ bị khai phá được phân chia thành các tập hợp âm và dương Tuy nhiên, trong khi một cơ
sở dữ liệu quan hệ không chứa dữ liệu âm vì các ví dụ âm không được ghi rõ ràng Khi khám phá một luật đặc trưng, nó sẽ nhớ cái mà không có ví dụ phủ định cho sự chuyên môn hoá và sẽ hoạt động khái quát trên dữ liệu để tránh sự quá khái quát
Lược đồ khai phá khác bao gồm luật kết hợp và luật thứ tự Một luật kết hợp là một sự xác định mà kết hợp các thuộc tính khác nhau của một cơ sở dữ liệu Đó là, cho một bộ các mục và một tập hợp các bản ghi, mỗi cái mà chứa
Trang 33trong một số lượng của các mục từ bộ sưu tập đã cho, một hàm kết hợp có thể tìm thấy các luật như là " 70% của tất cả các bản ghi mà chứa các mục A, B, và C cũng chứa các mục D và E" Trong một ứng dụng mang tính cộng đồng, chúng ta
có thể tìm thấy "30 % thời gian mà một loại hàng đặc biệt của người nướng bánh được bán, các khách hàng cũng mua một tập bao tay bếp hợp với bộ đồ ăn" Một hàm liên tục phân tích một bộ các bản ghi có liên quan và phát hiện tần số xuất hiện các mẫu theo thời gian Cho ví dụ, hàm liên tục có thể khám phá một luật "60% thời gian khi cổ phiếu X tăng giá trị của nó hơn 10% trong giai đoạn kinh doanh 5 ngày và cổ phiếu Y tăng giá trị giữa 10% và 20% trong một giai đoạn tương tự, thì giá trị của cổ phiếu Z cũng tăng trong một tuần tiếp theo."
3.2 Các công cụ qui nạp
Các công cụ quy nạp xây dựng cơ sở luật cho một hệ chuyên gia từ một tập hợp các ví dụ mà chúng miêu tả một dãy các thuộc tính hoặc các điều kiện diễn tả mỗi ví dụ và các kết quả hoặc hậu quả mà xuất hiện dựa vào các thuộc tính này Các ví dụ được đưa vào và trải ra giống như ma trận mà mỗi cột biểu diễn hoặc là một thuộc tính của các ví dụ hoặc là kết quả mà bắt nguồn từ các thuộc tính đó Mỗi hàng biểu diễn một ví dụ khác nhau
Các công cụ quy nạp có một nền tảng trong thuật toán Quinlan ID3 mà sinh ra một cây quyết định để phân loại dữ liệu Công cụ quy nạp First – Class sử dụng thuật toán Quinlan ID3 để tối ưu hoá các luật từ các trường hợp Thuật toán này xác định các nhân tố nào có ích nhất để phân biệt giữa các giá trị biến có thể chấp nhận được để đi đến kết luận Đôi khi, thuật toán này loại bỏ một vài biến
số bởi vì chúng không tham dự vào sự lựa chọn đường đi tiếp theo trong cây quyết định Cho ví dụ, biến số “dòng điện vào” trong bảng 1 không góp phần đưa
ra các kết quả và vì thế nó bị loại bỏ từ các luật sinh ra
Thuận lợi đầu tiên của một công cụ quy nạp là dễ sử dụng Tạo ra một ma trận các thuộc tính và các kết quả là đơn giản, như vậy cực tiểu hoá sự phức tạp
và thời gian thu thập tri thức Trong nhiều ứng dụng (y khoa, hay thương mại),
Trang 34dữ liệu tạo quyết định có sẵn trong dạng ma trận Các kỹ thuật quy nạp được sử dụng nhiều cho các nhiệm vụ phân loại Cho ví dụ, chẩn đoán bệnh, như là một dạng của phân loại, phù hợp dưới chiến lược này Nói chung, các công cụ quy nạp là rất có ích trong sự phát triển của các hệ thống nhỏ khi một chuyên gia hoạt động như là các kỹ sư tri thức Họ rất có ảnh hưởng trong việc điều khiển một số lượng nhỏ các thuộc tính và các giá trị trong một ma trận Khi các hệ chuyên gia đang được xây dựng, nhà quản lý cơ sở dữ liệu có thể dùng cơ sở dữ liệu để tạo
ra các ví dụ cho một công cụ quy nạp Ma trận công cụ quy nạp có thể sản xuất
tự động và có hiệu quả từ các câu hỏi Trong một vài trường hợp, cơ sở dữ liệu
có thể được tăng lên với dữ liệu thêm vào đạt được từ chuyên gia lĩnh vực
Các công cụ quy nạp có một vài lỗi mà đáng nói đến Đầu tiên, chúng ta có thể điều khiển chỉ trên một dữ liệu quan hệ đơn giản (hoặc ma trận); không thể áp dụng trực tiếp chúng với những cơ sở dữ liệu nơi mà một vài quan hệ dữ liệu có quan hệ với nhau tồn tại Vấn đề này có thể được giải thích, bằng sự kết hợp tất
cả các dữ liệu quan hệ để tạo ra một quan hệ đơn, mặc dù nó có thể quá lớn để xử
lý có hiệu quả bởi các công cụ quy nạp Thứ hai, các mối quan hệ qua lại giữa các thuộc tính không thể đưa vào ma trận Hạn chế các thuộc tính phải độc lập lẫn nhau có thể không thích hợp cho một vài ứng dụng Hơn nữa, để mở rộng hệ thống, biểu diễn ma trận có thể yêu cầu tập các luật được sửa đổi nếu các thuộc tính mới được thêm vào quá trình tạo quyết định Tương tự, khi cơ sở dữ liệu được mở rộng, các công cụ quy nạp không có khả năng gia tăng các luật Dữ liệu quan hệ mở rộng phải được xử lý trong các thực thể của nó để sinh ra một tập hợp các luật mới Cuối cùng, các công cụ quy nạp dựa trên cơ sở thuật toán ID3 không làm việc tốt với dữ liệu nhiễu Đặc biệt, cây quyết định trở thành quá phức tạp để giải thích nguyên nhân gây ra các trường hợp nhiễu Một vấn đề liên quan
là nó không thể giải quyết dữ liệu không xác định; đó là, khi không có các luật phân lớp đúng cho các mẫu chỉ sử dụng các thuộc tính có sẵn giá trị Nếu không được hướng dẫn, ID3 có thể sai lầm phát sinh ra một cây quyết định lớn mà có ý nghĩa nhỏ
Trang 353.3 Các công cụ khai phá tri thức
Các công cụ khai phá được phát triển để tạo ra các công cụ rút trích tri thức vào cơ sở dữ liệu, đó là quá trình khai phá tri thức Khai phá tri thức được định nghĩa như một sự rút trích các thông tin có ích, tiềm ẩn, không được biết trước từ dữ liệu, và khả năng thông tin có ích từ dữ liệu Khai phá tri thức xử lý
cơ sở dữ liệu để khám phá các đặc trưng đáng quan tâm liên quan tới các phép đo người dùng quan tâm Nó bao gồm sự định dạng các quan hệ mà không được phát hiện ngoài các phương pháp đặc biệt để khai phá Sự khai phá tri thức được trình bày giống như một tập của các luật If – Then
Các công cụ chuyên dụng thiết kế cho khai phá tri thức đã được giới thiệu gần đây Các công cụ này khác nhau về căn bản trong các kiểu của các vấn đề mà chúng được thiết kế để đưa ra và theo cách mà chúng làm việc DataLogic/R (Reduct Systems) là một gói phần mềm dựa trên PC mà sử dụng "tập hợp thô", một nhánh của logic mờ, để giúp người dùng khai phá ra các luật mà là đặc trưng cho dữ liệu trong cơ sở dữ liệu và đưa ra cách tạo quyết định trên các phân loại
dữ liệu để phân tích tối ưu DataLogic/R cung cấp sự nhận dạng mẫu, mô hình mẫu và công nghệ phân tích dữ liệu mà khám phá tri thức mới trong dạng của các luật Nói chung, nó có thể xử lý sự không chắc chắn trong dữ liệu, để phân tích các sự kiện ẩn trong dữ liệu, để biểu diễn tri thức mới trong một định dạng luật,
và để tạo ra mô hình cho dự đoán và phân loại DataLogic/R đã được chứng minh thành công trong các ứng dụng như là phân tích khảo sát người tiêu dùng, quá trình điều khiển đo lường, định dạng độ đọc văn bản, phân tích hợp đồng bảo hiểm, và phát hiện khuyết điểm
Cây định danh là một công cụ khá phổ biến trong nhiều dạng ứng dụng, với cơ chế rút trích các luật nhân quả xác định các mẫu dữ liệu Cây định danh có thể hiện như cây quyết định, trong đó mỗi tập các kết luận được thiết lập ngầm định bởi một danh sách đã biết
Thuật giải ILA (Inductive Learning Algorithm) được dùng để xác định các luật phân loại cho tập hợp các mẫu học Thuật giải này thực hiện theo cơ chế lặp,
Trang 36để tìm luật riêng đại diện cho tập mẫu của từng lớp Sau khi xác định được luật, ILA loại bỏ các mẫu liên quan khỏi tập mẫu, đồng thời thêm luật mới này vào tập luật Kết quả có được là một danh sách có thứ tự các luật chứ không là một cây quyết định Các ưu điểm của thuật giải này có thể được trình bày như sau:
Dạng các luật sẽ phù hợp cho việc khảo sát dữ liệu, mô tả mỗi lớp một cách đơn giản để dễ phân biệt với các lớp khác
Tập luật được sắp thứ tự, riêng biệt – cho phép quan tâm đến một luật tại thời điểm bất kỳ Khác với việc xử lý luật theo phương pháp cây quyết định, vốn rất phức tạp trong trường hợp các nút cây trở nên khá lớn
IDIS 2: hệ thống khai phá thông tin cũng có thể sinh ra các luật để giải thích những mối quan hệ giữa các biến Nó phát hiện ra thông tin dựa vào những câu hỏi một sự suy nghĩ để hỏi bằng cách đưa ra một giả thuyết và sau đó kiểm tra nó có độ chính xác và xác đáng Nó kết luận với một danh sách các luật trong hai và ba chiều IDIS sử dụng sự quy nạp, hướng dẫn bởi người sử dụng, gán các trọng số cho những thuộc tính sử dụng trong các luật Nó tìm thấy những thực thể đáng ngờ và những mẫu khác thường tự động, bao gồm các mục dữ liệu mà vi phạm những tương quan, các mục vượt khỏi ngưỡng, và những mục mà nằm ngoài độ lệch tiêu chuẩn bình thường IDIS đã được sử dụng trong những lĩnh vực đa dạng như phân tích tài chính, tiếp thị, khám phá khoa học, kiểm tra chất lượng, khám phá y học và sự chế tạo IDIS đem lại các luật phân loại, khái quát hóa các luật với những chu kỳ, và luật không chính xác.Phương pháp quy nạp có thể được hướng dẫn bởi người dùng bằng cách gán các trọng số cho các thuộc tính Một luật được sinh ra có thể được ghi lại như một ràng buộc và sau đó sử dụng cùng với phương tiện dò tìm dị thường để tìm thấy những giá trị và những ngoại lệ mà vi phạm một luật nhất định Ngoài ra, những câu hỏi đặc biệt có thể được dùng để thẩm định giả thuyết nguời dùng đưa ra Trên thực tế, các câu hỏi đặc biệt là một phương thức xác minh tri thức
Tương tự với các công cụ quy nạp, các công cụ khai phá tri thức cũng bị mất chất lượng do một vài lỗi Đầu tiên, chúng hoạt động trên quan hệ dữ liệu
Trang 37đơn để sinh ra các luật Đối với cơ sở dữ liệu với một vài quan hệ có liên quan với nhau, các quan hệ dữ liệu có liên quan phải được hợp nhất lại để tạo ra một quan hệ đơn Thứ hai, các công cụ khai phá không có hướng vào các điều kiện thuận lợi để thực hiện tăng luật khi cơ sở dữ liệu được mở rộng Tuy nhiên, các luật sinh ra trước đó có thể được định nghĩa như là các ràng buộc và chạy lại cơ
sở dữ liệu mở rộng để xem nếu các bản ghi thêm mới mâu thuẫn hoặc củng cố các luật sinh ra trước đó hoặc sinh ra một tập mới các luật Cuối cùng, một chuyên đề liên quan trong sử dụng các công cụ khai phá gắn với độ chính xác và
ốn định của các luật sinh ra Với độ rộng lớn của cơ sở dữ liệu thế giới thực, độ chắc chắn của nhiều thuộc tính và nhiều bản ghi, khả năng của các công cụ này sinh ra các luật có ích và chính xác trong một khoảng thời gian
Tóm tắt chương và ví dụ
Lược đồ khai phá luật: Các công cụ khai phá tri thức và quy nạp hiện nay tận
dụng các lược đồ khác nhau gồm lược đồ phân loại, đặc trưng, kết hợp và lược
đồ sắp xếp thứ tự Các lược đồ này là yếu tố cần thiết để các công cụ khai phá đúng được sử dụng trên cơ sở dữ liệu đang khảo sát để thu thập tri thức tự động
Các công cụ quy nạp: dùng để xây dựng cơ sở luật cho một hệ chuyên gia từ một
tập các ví dụ Sau đây là ví dụ về một cây quyết định được sinh ra bởi công cụ First_Class, sử dụng thuật toán Quinlan ID3: Bảng 1 trình bày một ma trận của các ví dụ cho một giả thuyết cung cấp khả năng xử lý sự cố cho một hệ chuyên gia Công cụ quy nạp sinh ra các luật từ ma trận Một ví dụ luật sinh ra bởi một công cụ tương tự là:
IF Bộ_lọc_ra = 0 AND Điện_áp_phụ_thuộc= "0"
THEN Kết_quả = "Cầu chì tồi"
Dòng
điện vào
Điện áp phụ thuộc Bộ lọc ra
Máy điều chỉnh ra Kết quả
Có Có Bình thường Không Mở máy điều chỉnh
Trang 38Có Có Không Không Máy chỉnh lưu tồi
Có Có Bình thường Cao Chập máy điều chỉnh
Bảng 1: Một ví dụ công cụ quy nạp ma trận
Hình 5 trình bày một cây quyết định sinh ra bởi công cụ quy nạp First –Class
Các công cụ khai phá tri thức: Khai phá tri thức được định nghĩa như một sự rút
trích các thông tin có ích, tiềm ẩn từ cơ sở dữ liệu Chúng ta làm một vài thí nghiệm trên quan hệ CAR (hình 6), với 26 thuộc tính và 205 bản ghi, sử dụng công cụ khai phá IDIS trên một PC tích hợp IBM Chúng ta quan tâm tới khai phá các quan hệ giữa tổng số dặm đường đã đi và các thuộc tính còn lại Hình 6 đưa ra một vài ví dụ sinh ra luật sử dụng công cụ khai phá IDIS
Kiểm tra máy
điều chỉnh ra
Mở máy
điều chỉnh
Chập máy điều chỉnh
Máy tách sóng tồi
Tụ điện tồi
Kiểm tra điện
áp phụ
Cầu chì tồi Kiểm tra bộ lọc ra
Hình 5: Cây quyết định dựa trên bảng 1
Trang 39Vấn đề về độ chính xác công cụ IDIS dựa trên quan hệ dữ liệu CAR trên hình 6 Các vấn đề tương tự cũng được chú ý trên các công cụ khai phá khác
1 Quá trình khai phá là quá chậm Nó mất 2,5 ngày để sinh ra 121 luật Lý
do là quá trình khai phá phải xem xét tất cả mọi sự kết hợp của các thuộc tính có thể mặc dù một vài trong số chúng không thích hợp ( giá của một chiếc ô tô, không liên quan tới tổng số dặm đường nó đã đi)
Hình 6: Quan hệ dữ liệu CAR và một tập hợp các luật khai phá bởi công cụ
IDIS trong sự tìm kiếm cho các nhân tố mà tổng số dặm đường đã đi
Relation CAR:
CAR( Symboling, Losses, Make, Fuel_Type, Aspiration, Doors, Body, Drive, Engine_Loc, Wheel_Base, Width, Length, Height, Weight, Engine_Type, Cylinders, Engine_Size, Fuel_Sys, Bore, Stroke, Compress, Horse_Pwr, Peak_RPM, City_MPG, High_MPG, Price)
Genetaed Rules:
Rule 1: If Fuel_Type="gas" AND 0<=Horse_Pwr<=156
Then 16<=High_MPG<=43 Rule 2: If Fuel_Type = "gas" AND Cylinder = "four" AND
61<= Engine_Size<=161 Then 16<=High_MPG<=39 Rule 3: If Aspiration = "std" AND Cylinder = "four" AND
3 <= Stroke <= 4 AND 7<=Compress<=9 Then 27<=High_MPG<=37
Rule 4: If Drive = "fwd" AND Cylinder = "four"
AND 61<= Engine_Size<=122 AND 3<=Stroke <= 4 Then 30<=High_MPG<=46
Rule 5: If Fuel_Type="gas" AND 0<=Peak_RPM<=5400
Then 16<=High_MPG<=39
Hình 6: Quan hệ dữ liệu CAR và một tập hợp các luật khai phá bởi công
cụ IDIS trong sự tìm kiếm cho các nhân tố mà tổng số dặm đường đã đi