Tính toán hạt là một thuật ngữ chỉ các lý thuyết, các phương pháp, các kỹ thuật và các công cụ sử dụng các hạt là các nhóm, các lớp, hoặc các cụm của một tập để giải quyết các bài toán..
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đinh Quang Thắng
MỘT SỐ ỨNG DỤNG CỦA HẠT DỮ LIỆU
LUẬN VĂN THẠC SĨ
Hà Nội – 2005
Trang 2ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đinh Quang Thắng
MỘT SỐ ỨNG DỤNG CỦA HẠT DỮ LIỆU
Ngành : Công nghệ thông tin Chuyên ngành:
Trang 3MỤC LỤC
MỞ ĐẦU 4
CHƯƠNG 1: TỔNG QUAN VỀ TÍNH TOÁN HẠT 7
1.1 Khái niệm về tính toán hạt 7
1.2 Tại sao chúng ta nghiên cứu tính toán hạt 8
1.3 Những vấn đề cơ bản của tính toán hạt 8
1.4 Một số mô hình tính toán hạt 9
1.4.1 Các tập mờ 9
1.4.2 Các tập thô 10
1.4.3 Một mô hình dựa trên lý thuyết tập hợp của tính toán hạt 11
1.4.3.1 Đại số luỹ thừa 11
1.4.3.2 Đại số khoảng 11
1.4.3.3 Đại số tập khoảng 12
1.5 Kết luận 12
CHƯƠNG 2: BÀI TOÁN QUYẾT ĐỊNH VÀ PHƯƠNG PHÁP GIẢI QUYẾT DỰA VÀO HẠT DỮ LIỆU 13
2.1 Các cách kết hạt từ một tập 13
2.1.1 Kết hạt bằng các quan hệ tương đương 13
2.1.2 Kết hạt bằng các quan hệ đồng dạng 14
2.2 Giới thiệu về các tập thô 15
2.2.1 Giới thiệu 15
2.2.2 Các định nghĩa về các tập thô 16
2.2.2.1 Định nghĩa hướng phần tử 16
2.2.2.2 Định nghĩa hướng hạt 17
2.2.2.3 Định nghĩa hướng hệ thống con 17
2.2.2.4 Các hàm thuộc thô 17
2.2.2.5 Một số tính chất của các xấp xỉ 20
2.2.2.6 Sự phân lớp thô 20
2.3 Mô hình lý thuyết quyết định sử dụng tập thô 21
2.3.1 Khái quát về thủ tục quyết định Bayes 21
2.3.2 Mô hình lý thuyết quyết định sử dụng tập thô 22
2.4 Kết luận 28
Trang 4CHƯƠNG 3: KHAI PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU SỬ DỤNG CÁC
TẬP THÔ 30
3.1 Tổng quan về khai phá tri thức 30
3.1.1 Giới thiệu 30
3.1.2 Khai phá tri thức và khai phá dữ liệu 32
3.1.2.1 Quá trình KDD 33
3.1.2.2 Khai phá dữ liệu 34
3.2 Các tập thô và khai phá tri thức trong cơ sở dữ liệu 36
3.2.1 Làm sạch dữ liệu và tiền xử lý 36
3.2.1.1 Rút gọn dữ liệu 36
3.2.1.2 Quản lý giá trị không đúng 37
3.2.1.3 Lựa chọn và trích chọn đặc trưng 37
3.2.2 Khai phá dữ liệu 40
3.3 Khai phá luật kết hợp 40
3.3.1 Các luật kết hợp 41
3.3.2 Thuật giải tuần tự Apriori 42
3.3.3 Các thuật giải song song và phân tán 43
3.3.3.1 Các kỹ thuật khai phá dữ liệu phân tán 43
3.3.3.1.1 Kỹ thuật sinh các tập ứng cử 43
3.3.3.1.2 Phép tỉa cục bộ các tập ứng cử 45
3.3.3.1.3 Phép tỉa toàn cục các tập ứng cử 48
3.3.3.1.4 Bầu kiểu kiểm phiếu 50
3.3.3.2 Thuật giải 1: Phân tán tính toán 51
3.3.3.3 Thuật giải 2: Phân tán dữ liệu 52
3.3.3.4 Thuật giải 3: Phân tán ứng cử viên 55
3.3.3.5 Sinh các luật song song 57
3.3.3.6 Thuật giải nhanh khai phá phân tán các luật kết hợp FDM 58
3.3.3.7 Sinh luật Apriori phân tán 61
3.4 Kết luận 64
CHƯƠNG 4: CHƯƠNG TRÌNH THỬ NGHIỆM 66
4.1 Thuật giải Apriori ……… 66
4.2 Cấu trúc dữ liệu T-tree 66
4.3 Giới thiệu chương trình 67
4.4 Kết quả thử nghiệm 73
Trang 54.4 Kết luận 74
KẾT LUẬN 75
CÁC KẾT QUẢ ĐÃ ĐƢỢC BÁO CÁO TẠI CÁC HỘI THẢO QUỐC GIA 76
TÀI LIỆU THAM KHẢO 77
Trang 6MỞ ĐẦU
Trong những năm gần đây, tính toán hạt đã được áp dụng trong rất nhiều lĩnh vực như trí tuệ nhân tạo, phân tích khoảng, lượng tử hoá, lý thuyết tập thô, phân tích cụm, học máy, cơ sở dữ liệu và một số lĩnh vực khác Cho đến nay, tính toán hạt đã có sự phát triển nhanh chóng và ngày càng có nhiều người tập trung nghiên cứu các ứng dụng của nó
Tính toán hạt là một thuật ngữ chỉ các lý thuyết, các phương pháp, các kỹ thuật và các công cụ sử dụng các hạt (là các nhóm, các lớp, hoặc các cụm của một tập) để giải quyết các bài toán Đề tài các hạt thông tin mờ được Zadeh đề xuất đầu tiên vào năm
1979 và được ông tiếp tục phát triển trong các bài báo công bố năm 1997 Đặc biệt, Zadeh đã trình bày một mô hình tổng quát của tính toán hạt dựa trên lý thuyết tập mờ Các hạt được xây dựng và định nghĩa dựa trên các phép toán suy rộng Mối quan hệ giữa các hạt được biểu diễn bằng đồ thị mờ hoặc các luật nếu-thì mờ Mặc dù các công thức là khác với những nghiên cứu trong trí tuệ nhân tạo, nhưng những ý tưởng cơ bản của chúng là giống nhau Zadeh xác định ba khái niệm cơ bản của tính toán hạt theo cách nhận thức của con người, cụ thể là phương pháp kết hạt, phương pháp tổ chức các hạt và phương pháp lập luận với các hạt Sau đó lý thuyết về tính toán với các hạt thông tin mờ đã được nghiên cứu bằng cách kết các hạt thông tin và lập luận với chúng
Sự cần thiết của việc kết hạt thông tin và tính dễ nhận được thông tin từ các hạt thông tin trong giải quyết bài toán là một trong các lý do thực tế cho tính phổ biến của tính toán hạt Trong rất nhiều tình huống, khi một bài toán là không đầy đủ, không chắc chắn hoặc thông tin không rõ ràng sẽ rất khó để phân biệt các phần tử một cách riêng biệt và chỉ có thể nghiên cứu trên tập các phần tử đó Trong một số trường hợp khác, mặc dù chúng ta có thể nhận được những thông tin chi tiết, nhưng chúng ta vẫn
sử dụng các hạt để giảm chi phí một cách đáng kể Điều này mở ra một định hướng của logic mờ: “Khai thác độ không chắc chắn và tính đúng bộ phận để có được khả năng dễ kiểm soát, tính mạnh mẽ, chi phí thấp và phù hợp với thực tế hơn” Những nguyên tắc này hướng tới nhiều mô hình vật lý để giải quyết các bài toán thế giới thực: thay cho việc tìm kiếm những lời giải tối ưu, ta có thể tìm kiếm những lời giải xấp xỉ tốt Như vậy chỉ khi cần thiết chúng ta mới khảo sát bài toán tại một mức kết hạt mịn hơn với nhiều thông tin chi tiết hơn
Tính toán hạt cũng được nghiên cứu rộng rãi trong lý thuyết các tập thô Như một nền tảng cụ thể của tính toán hạt, mô hình tập thô cho phép chúng ta định nghĩa một cách chính xác và phân tích nhiều khái niệm của tính toán hạt Các kết quả nghiên cứu mang lại một cách hiểu thấu đáo hơn về tính toán hạt
Trang 7Luận văn tập trung vào nghiên cứu tính toán hạt dựa trên lý thuyết các tập thô Cụ thể, luận văn có nội dung như sau sau:
Chương 1: Tổng quan về tính toán hạt: Trong chương này, trình bày những thuật
ngữ chung, các yếu tố và những vấn đề cơ bản của tính toán hạt và một số ứng dụng của chúng Luận văn trình bày cách xây dựng, cách hiểu và cách biểu diễn các hạt cũng như các yếu tố cơ bản và các phép toán để tính loán và lập luận với các hạt Phần cuối của chương giới thiệu khái quát ba mô hình đang tồn tại của tính toán hạt: mô hình dựa trên các tập thông thường, mô hình dựa trên lý thuyết các tập thô và mô hình dựa trên lý thuyết các tập mờ
Chương 2: Bài toán quyết định và phương pháp giải quyết dựa vào hạt dữ liệu:
Luận văn giới thiệu một cách tổng quát hai cách kết hạt của một tập, các định nghĩa về các tập thô Với các xấp xỉ tập thô, một tập tổng thể được phân thành ba vùng là POS, NEG và vùng biên BND Bài toán quyết định là làm thể nào để xác định được ba vùng trên một cách hiệu quả Một phương pháp thường hay được sử dụng để giải quyết bài toán quyết định trên là sử dụng thủ tục quyết định của Bayes Luận văn trình bày tóm tắt thủ tục quyết định Bayes này và xây dựng một mô hình lý thuyết quyết định sử dụng các hạt dữ liệu dựa trên lý thuyết các tập thô
Chương 3: Khai phá tri thức trong cơ sở dữ liệu sử dụng tập thô: Với các hạt là
các xấp xỉ thô, luận văn nghiên cứu bài toán khai phá các luật kết hợp trong cơ sở dữ liệu quan hệ Thuật giải tuần tự Apriori được trình bày Sau đó, luận văn trình bày tới những ý tưởng song song hoá của thuật giải này Tốc độ của thuật giải sẽ tăng đáng kể khi thực hiện các thuật giải song song với dữ liệu được tổ chức trong môi trường dữ liệu phân tán
Chương 4: Chương trình thử nghiệm: Luận văn trình bày một cấu trúc dữ liệu
mới, cấu trúc dữ liệu T-tree Cấu trúc này là phù hợp để cài đặt thuật giải Apriori vì nó cho phép tìm kiếm các tập mục nhanh và tiết kiệm không gian lưu trữ dữ liệu Thuật giải Apriori được cài đặt sử dụng cấu trúc dữ liệu này bằng ngôn ngữ lập trình Java Luận văn được thực hiện dưới sự hướng dẫn của PGS.TS Hoàng Chí Thành, Bộ môn Tin học, Khoa Toán-Cơ-Tin học trường Đại học Khoa học Tự nhiên, Đại học Quốc Gia Hà Nội Em xin bày tỏ lòng biết ơn sâu sắc tới Thầy đã hướng dẫn và có ý kiến chỉ dẫn quí báu trong quá trình em làm luận văn Em xin chân thành cảm ơn Thầy giáo, TS Hà Quang Thuỵ đã cho em nhiều ý kiến quí báu để em hoàn thiện luận văn hơn Em xin cảm ơn các Thầy Cô giáo trong Bộ môn Tin học, các đồng nghiệp trong Khoa Toán-Cơ-Tin học, Trường Đại học Khoa học Tự nhiên, các Thầy Cô giáo Khoa Công Nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội đã tạo điều kiện giúp đỡ em trong quá trình hoàn thành luận văn Cuối cùng xin bày tỏ lòng
Trang 8cảm ơn tới những người thân trong gia đình, bạn bè đã động viên và giúp đỡ tôi hoàn thành luận văn này
Trang 9CHƯƠNG 1: TỔNG QUAN VỀ TÍNH TOÁN HẠT 1.1 Khái niệm về tính toán hạt
Những ý tưởng cơ bản về phương pháp tính toán hạt đã được áp dụng trong một số lĩnh vực như phân tích khoảng, lượng tử hoá, lý thuyết các tập thô, phân tích cụm, học máy, cơ sở dữ liệu và một số lĩnh vực khác Chủ đề về phương pháp kết hạt thông tin
mờ đầu tiên được trình bày bởi Zadeh vào năm 1979 [6] Các ứng dụng của tính toán hạt đã được phát triển một cách nhanh chóng và nó đóng một vai trò quan trọng trong
sự phát triển của logic mờ, lý thuyết các tập thô và các ứng dụng của chúng [6]
Những khái niệm và các thành phần cơ bản của tính toán hạt trên thực tế đã phát triển trong rất nhiều lĩnh vực, nhưng đến nay chưa có một định nghĩa tổng quát về tính toán hạt [3] [5] [6] Tuy vậy, thông qua các phương pháp giải một số bài toán trong thực tế, chúng ta vẫn có thể khái quát được các thành phần cơ bản của tính toán hạt [3, 7] Do đó, chúng ta có thể nghiên cứu tính toán hạt dựa trên việc tập trung giải các bài toán sử dụng các tính chất chung của các hạt, các quan sát kết hạt, các tính chất của hạt
và các hệ thống phân cấp của lớp các hạt Khi đó, ta có thể coi tính toán hạt như là một nghiên cứu về lý thuyết tổng quát để giải quyết bài toán dựa trên các mức khác nhau
“Tính toán hạt là một khái niệm của lý thuyết về phương pháp kết hạt thông tin mờ,
lý thuyết tập thô và tính toán khoảng và là một phần trong toán học tính toán với các hạt” [3] (Zadeh, 1997)
Có thể thấy rằng ý tưởng chung nhất của tính toán hạt là sử dụng các nhóm, các lớp hoặc cụm các phần tử được gọi là các hạt [3, 7] Mặc dù đã có những ứng dụng cụ thể
sử dụng tính toán hạt, vẫn khó có thể đưa ra một định nghĩa chính xác Chúng ta có thể
Trang 10coi tính toán hạt là một thuật ngữ chỉ các lý thuyết, các phương pháp, các kỹ thuật và các công cụ sử dụng các hạt trong quá trình giải bài toán Dựa trên cách hiểu trực giác trên, chúng ta sẽ xem xét một số vấn đề cơ bản và một số giải pháp có thể của nó
1.2 Tại sao chúng ta nghiên cứu tính toán hạt
Có rất nhiều lý do để nghiên cứu tính toán hạt Zadeh đã xác định ba vấn đề cơ bản của tính toán hạt: phương pháp kết hạt, tổ chức các hạt và lập luận với các hạt
“Phương pháp kết hạt bao gồm việc phân chia một tập tổng thể thành các phần, tổ chức các hạt bao gồm việc tích hợp các phần trong một tập tổng thể và lập luận với các hạt thực hiện việc sử dụng các mối quan hệ giữa các hạt để đi từ các điều kiện ban đầu tới các kết quả mong muốn” [3] Trong việc giải quyết bài toán, sử dụng các hạt thông tin thường đơn giản hơn sử dụng các thông tin chi tiết có lẽ là những lý do chính để phát triển tính toán hạt Khi một bài toán có độ không chắc chắn, tính không đầy đủ hoặc thông tin không rõ ràng, có thể rất khó để phân biệt sự khác nhau giữa các phần
tử và hướng chúng ta tới nghiên cứu các hạt Một ví dụ điển hình là lý thuyết các tập thô [3, 7] Tình trạng thiếu thông tin chỉ cho phép chúng ta xác định được các hạt thay cho việc xác định các phần tử cụ thể Trong một số tình huống, mặc dù các thông tin chi tiết có thể có được, nhưng sử dụng các hạt sẽ mang lại tính hiệu quả và các lời giải thiết thực hơn
Những nhân tố cơ bản của tính toán hạt cũng định hướng tới sự phát triển của logic mờ:
“ Khai thác tính chấp nhận được với các dữ liệu có tính không chính xác, không chắc chắn và tính đúng bộ phận để nhận được tính dễ kiểm soát, tính mạnh mẽ, chi phí cho lời giải thấp và phù hợp với thực tế hơn”
Như vậy, thay cho việc tìm kiếm lời giải tối ưu, ta có thể tìm kiếm các lời giải xấp
xỉ tốt Chỉ khi nào cần thiết hoặc khi có điều kiện thuận lợi ta mới nghiên cứu bài toán tại một mức kết hạt mịn hơn với nhiều thông tin chi tiết hơn Tuy nhiên, có thể thấy rằng những nghiên cứu của tính toán hạt chỉ là bổ xung cho những nghiên cứu đòi hỏi tính chính xác cao và những phương pháp tính toán không kết hạt
1.3 Những vấn đề cơ bản của tính toán hạt
Những vấn đề cơ bản của tính toán hạt có thể được nghiên cứu theo hai khía cạnh: phương pháp xây dựng các hạt và phương pháp tính toán với các hạt Phương pháp xây dựng các hạt nghiên cứu sự hình thành các công thức, các phép biểu diễn và các cách hiểu các hạt, phương pháp tính toán với các hạt nghiên cứu các tiện ích sử dụng các hạt trong giải quyết bài toán [3] [4] [6]
Trang 11Cách hiểu các hạt trả lời cho câu hỏi tại sao hai đối tượng được đặt vào trong cùng một hạt Tổng quát, các phần tử trong một hạt được nhóm lại với nhau theo các quan
hệ không phân biệt được, quan hệ tương tự hoặc quan hệ có cùng chức năng [1] [3] [6] Hơn nữa, các hạt thông tin phụ thuộc vào các tri thức sẵn có Trong việc xây dựng các hạt, cần thiết phải nghiên cứu các tiêu chuẩn để quyết định hai phần tử nào nên được đặt trong cùng một hạt dựa trên các thông tin có được Nói cách khác, cần thiết phải xây dựng một cách hiểu ngữ nghĩa cho các quan hệ không phân biệt được, quan
hệ đồng dạng hoặc quan hệ có cùng chức năng Cũng cần thiết phải xây dựng các cấu trúc kết hạt của một tập tổng thể Hình thành công thức và biểu diễn các hạt nghiên cứu các vấn đề thuộc thuật toán của phương pháp xây dựng các hạt Chúng trả lời cho câu hỏi đặt hai đối tượng vào trong cùng một hạt như thế nào Các thuật giải cần được phát triển để xây dựng các hạt một cách hiệu quả [1] [3] [6]
Để tính toán với các hạt, chúng ta cần phải hiểu được mối liên hệ giữa các hạt như mối quan hệ gần gũi, mối quan hệ phụ thuộc, mối quan hệ kết hợp và định nghĩa và cách hiểu các phép toán trên các hạt Hay chúng ta cần thiết kế một hệ phương pháp và các công cụ cho tính toán hạt như các phép toán xấp xỉ, các lập luận và các suy luận với chúng [1] [3] [4] [5] [6]
1.4 Một số mô hình tính toán hạt
Để hiểu rõ hơn về tính toán hạt, luận văn trình bầy một số mô hình cụ thể của tính toán hạt Đó là mô hình dựa trên lý thuyết tập mờ của Zadel, mô hình dựa trên lý thuyết tập thô và mô hình dựa trên lý thuyết tập hợp thông thường
1.4.1 Các tập mờ
Một mô hình tính toán hạt tổng quát được trình bày bởi Zadeh [6] dựa trên lý thuyết các tập mờ Các hạt được xây dựng từ khái niệm của các ràng buộc tổng quát Mối quan hệ giữa các hạt được biểu diễn bằng đồ thị mờ hoặc được biểu diễn dưới dạng các luật nếu-thì mờ [6]
Gọi X là một biến nhận giá trị trong một tập U Một ràng buộc tổng quát trên các
giá trị của X có thể được biểu diễn bởi X isr R, trong đó R là quan hệ ràng buộc, isr là một biến nối và R là một đại lượng rời rạc Khi đó một hạt được định nghĩa bằng một
Trang 12Ta có thể gán các nhãn cho các hạt bằng các từ của ngôn ngữ tự nhiên Điều này thiết lập một nền tảng cơ bản cho việc tính toán với các từ Như một trong các thành phần cơ bản của logic mờ, tính toán với các từ sử dụng các luật nếu-thì mờ dưới dạng:
Nếu X isr 1 A thì Y isr 2 B
trong đó R 1 và R 2 có thể biểu diễn các kiểu khác nhau của các ràng buộc, mặc dù chúng thường có kiểu hay sử dụng là giống nhau Một tập các luật nếu-thì mờ có thể được biểu diễn bằng một đồ thị mờ Ta có thể sử các luật nếu-thì mờ hoặc các đồ thị
mờ để tìm ra kết kết quả lập luận [6]
1.4.2 Các tập thô
Với các kết hạt của một tập tổng thể, chúng ta nghiên cứu các phần tử trong một hạt
là một khối thay cho việc quan sát chúng dưới dạng các hạt cụ thể [6] Khi hệ thống chứa thông tin về các hạt chưa đầy đủ, có nghĩa là chỉ có một số tập con của tập tổng thể được mô tả một cách chính xác, các tập con còn lại có các phần tử là không phấn biệt được Lý thuyết các tập thô được sử dụng trong các trường hợp xấp xỉ hạt thông tin [1]
Gọi E U U là một quan hệ tương đương trên tập tổng thể U Cặp apr U E,
được gọi là một không gian xấp xỉ Quan hệ tương đương E phân hoạch tập U thành
các tập con không giao nhau Mỗi lớp tương đương có thể được quan sát như một hạt chứa các phần tử không phân biệt được và nó cũng được coi như một hạt tương đương Một biểu diễn ngữ nghĩa cụ thể của các quan hệ tương đương được cung cấp dựa trên các khái niệm của các bảng thông tin Hai đối tượng là tương đương nếu chúng có các giá trị chính xác giống nhau trong một tập các thuộc tính Do đó một hạt tương đương được mô tả bởi một ràng buộc tương đương [6]
Một tập X U có thể không là hợp của một số lớp tương đương Điều đó nói lên
rằng ta không thể mô tả X một cách chính xác khi sử dụng các lớp tương đương của E Trong trường hợp này ta có thể mô tả X bằng một cặp các xấp xỉ trên và xấp xỉ dưới:
trong đó x E y | xEy là lớp tương đương chứa x Xấp xỉ dưới apr X là hợp
của tất cả các hạt tương đương mà chúng là tập con của X Xấp xỉ trên apr( X ) là hợp của tất cả các hạt tương đương mà chúng có giao với X khác rỗng
Dựa trên khái niệm xấp xỉ của các tập, ta có thể thiết lập các tác vụ khai phá và phân tích dữ liệu trong các bảng thông tin, chẳng hạn như thu gọn thuộc tính, phân tích tính phụ thuộc và học các luật quyết định [6]
Trang 131.4.3 Một mô hình dựa trên lý thuyết tập hợp của tính toán hạt
Trong phần này, luận văn trình bày một hệ thống dựa trên lý thuyết tập hợp của tính toán hạt Mỗi hạt biểu diễn một khái niệm cụ thể và mỗi phần tử của hạt là một bản thể của khái niệm đó Các hạt có thể được xây dựng trên các bảng thông tin, như được trình bày trên lý thuyết tập thô [6] Việc sử dụng các tập xác định (các hạt) có thể được biểu diễn tương tự một họ các tập xác định (các hạt) sử dụng nhát cắt của nó Các phép toán trên các hạt mờ do đó có thể được định nghĩa bằng các phép toán trên nhát cắt
1.4.3.1 Đại số luỹ thừa
Giả sử U là một tập hợp và o là một phép toán hai ngôi trên U Ta định nghĩa một phép toán hai ngôi o + trên các tập con của U như sau:
với mọi X Y, U Tổng quát, ta có thể suy rộng bất kỳ phép toán f trên các phần
tử của U thành một phép toán f + trên các tập con của U, và gọi là phép toán luỹ thừa của f Giả sử f U: n U n 1là một phép toán n ngôi trên U Phép toán luỹ thừa
f f , đại số luỹ thừa của chúng được cho bởi bộ (2 ,U f1, , f k)
Phép toán luỹ thừa f + có thể có một số tính chất của f Ví dụ với một phép toán hai
ngôi f U: 2 U , nếu f là giao hoán và kết hợp thì f + cũng tương ứng là giao hoán và
kết hợp Nếu e là một phần tử đơn vị với một phép toán f, tập {e} là một phần tử đơn
vị với f + Nếu một phép toán f U: U là một phép đối hợp, tức là
f f x f x , f + cũng là một phép đối hợp Nhưng nhiều tính chất của f không còn đúng với f + Ví dụ, nếu một phép toán hai ngôi f là luỹ đẳng, f x x , x , f + không thể là luỹ đẳng Nếu một phép toán hai ngôi g là phân phối trên f, g + không là
phân phối trên f +
Trang 14Ta có thể thực hiện các phép toán trên các khoảng bằng cách suy rộng các phép toán trên các số thực Giả sử A a a, và B b b, là hai khoảng, ta có:
dạng [A,A] là tương đương với các tập thông thường
Suy rộng các phép toán của lý thuyết tập hợp như phép giao, phép hợp và phần bù, chúng ta định nghĩa các phép toán của tập khoảng như sau:
Phép toán phủ định tập khoảng A A1, 2 của A A1, 2được định nghĩa bởi
U U, \ A A Điều này tương đương với 1, 2 UA U2, A1 ~ A2, ~ A1
Trang 15CHƯƠNG 2: BÀI TOÁN QUYẾT ĐỊNH VÀ PHƯƠNG PHÁP GIẢI QUYẾT
DỰA VÀO HẠT DỮ LIỆU 2.1 Các cách kết hạt từ một tập
Khái niệm về quan hệ “không phân biệt được” cung cấp một phương pháp mô tả mối quan hệ giữa các phần tử trong một tập tổng thể Trong lý thuyết các tập thô, quan
hệ không phân biệt được được mô hình hoá bằng một quan hệ tương đương Một quan sát kết hạt của tập tổng thể có thể nhận được từ các lớp tương đương Bằng cách thay đổi quan hệ tương đương thành quan hệ chỉ có tính chất phản xạ, ta có thể nhận được các cách kết hạt khác nhau của một tập tổng thể
2.1.1 Kết hạt bằng các quan hệ tương đương
Giả sử E U U là một quan hệ tương đương trên một tập hữu hạn khác rỗng U E
có tính phản xạ, đối xứng và bắc cầu Quan hệ tương đương có thể được định nghĩa dựa trên các tri thức sẵn có Ví dụ trong một bảng thông tin, các phần tử trong bảng được mô tả bằng một tập các thuộc tính Hai phần tử được gọi là tương đương nếu chúng có cùng giá trị trên một số thuộc tính nào đó Lớp tương đương:
E
chứa tất cả các phần tử tương đương với x và gọi là lớp tương đương chứa x Quan hệ
E tạo ra một phân hoạch của tập U:
Cặp apr = (U,E) được gọi là một không gian xấp xỉ Mỗi lớp tương đương được gọi
là một hạt cơ bản Các hạt cơ bản, tập rỗng và hợp của các lớp tương đương được gọi
là các hạt xác định trong trường hợp chúng có thể được định nghĩa một cách chính xác
qua các lớp tương đương của E Ý nghĩa của các tập xác định sẽ được giải thích rõ hơn trong phần sau Gọi Def(U/E) là tập của tất cả các hạt xác định Def(U/E) đóng với các
phép lấy phần bù, phép giao và phép hợp
Trang 162.1.2 Kết hạt bằng các quan hệ đồng dạng
Giả sử R là một quan hệ hai ngôi trên tập tổng thể U biểu diễn tính đồng dạng của các phần tử trong U Chúng ta giả thiết rằng R có tính chất phản xạ, tức là một phần tử
e là đồng dạng với chính nó, nhưng không nhất thiết phải có tính đối xứng và bắc cầu
Với hai phần tử ,x y U , nếu xRy thì ta nói rằng x là đồng dạng với y Quan hệ R có thể được biểu diễn thuận tiện hơn sử dụng tập các phân tử đồng dạng với x, hoặc lân
Với hai phần tử ,x y U , (x) R và (y) R
có thể khác nhau và có giao khác rỗng Điều này dẫn tới một quan sát kết hạt khác của tập tổng thể
Theo quan hệ đồng dạng, một phần tử x được quan sát bởi một tập các phần tử đồng dạng với nó là (x) R Chúng ta định nghĩa một quan hệ tương đương trên U như sau:
Cặp apr=(U,R) được nghiên cứu là một không gian xấp xỉ tổng quát Lân cận (x)R
được gọi là một hạt cơ bản Các hạt cơ bản, tập rỗng và hợp của các hạt cơ bản được
gọi là các hạt xác định trong không gian apr = (U, R) Gọi Def(U / R) là tập tất cả các
hạt xác định Nó là đóng với phép hợp, và có thể không cần thiết là đóng với phép giao
và phép lấy phần bù Tập Def(U / R) chứa cả tập rỗng và tập U Từ Def(U / R), ta định
trong đó A c là phần bù của A Hệ thống mới Def C (U/R) chứa rỗng và U và đóng với
phép giao Hệ thống này còn được gọi là hệ thống đóng kín Nếu quan hệ R là một
quan hệ tương đương thì hai hệ thống là một Trong trường hợp tổng quát, hai hệ thống là không giống nhau
Trang 172.2 Giới thiệu về các tập thô
2.2.1 Giới thiệu
Tập thô là một lý thuyết toán học mới nhằm giải quyết các bài toán có tính không chắc chắn Lý thuyết này là độc lập với lý thuyết logic mờ, và nó là tổng quát của lý thuyết các tập thông thường Tập thô cũng là một mô hình cụ thể của tính toán hạt và
đã được ứng dụng thành công trong rất nhiều lĩnh vực như học máy, khai phá dữ liệu, phân tích dữ liệu, các hệ chuyên gia và nhiều lĩnh vực khác
Trong lý thuyết tập thô, có một giả thiết cơ bản, đó là các đối tượng được định nghĩa, được biểu diễn hoặc thiết lập dựa trên một số hữu hạn các thuộc tính hoặc các tính chất Từ những năm đầu của thập kỷ 1980, Pawlak đã hình thức hóa vấn đề này
thành khái niệm hệ thông tin (bảng thông tin)
Định nghĩa 2.1.( Hệ thông tin )
Hệ thông tin là cặp A = (U, A) trong đó U là một tập hữu hạn khác rỗng các đối
tượng và A là một tập hữu hạn khác rỗng các thuộc tính, trong đó a U: Va với
Giả sử chúng ta có dữ liệu về 6 bệnh nhân như trong bảng 1 dưới đây
Bệnh nhân
(Patient)
Đau đầu (Headache)
Đau cơ (Muscle-pain)
Nhiệt độ (Temperature)
Bị bệnh cúm (Flu)
Bảng 2.1: Dữ liệu về các bệnh nhân bị bệnh cúm
Ta nhận thấy các đối tượng khác nhau p 1 và p4, lại có các giá trị trên các thuộc tính
đau đầu và đau cơ giống nhau: đây là trường hợp không phân biệt được các đối tượng
nếu chỉ sử dụng thông tin từ các thuộc tính đau đầu và đau cơ Tính không phân biệt
được là một trong những yếu tố của sự mập mờ Có thể nhận thấy tính mập mờ từ việc
không phân biệt được: nếu chỉ xem xét các thuộc tính trên đây thì hai đối tượng p 1 và
p 4 là hoàn toàn giống nhau, tuy nhiên khi quyết định bị bệnh cúm thì chỉ có bệnh nhân
p bị mắc bệnh
Trang 18Khái niệm bảng quyết định
Trong nhiều ứng dụng, người ta đã biết nội dung, kết quả của việc phân lớp là các quyết định phân lớp Tri thức (chỉ dẫn quyết định) phân lớp được thể hiện bằng một
thuộc tính riêng biệt được gọi là thuộc tính quyết định trong hệ thông tin Trong trường hợp đó, hệ thông tin được gọi là bảng quyết định [1,5,9,10]
Định nghĩa 2.2 (Bảng quyết định )
( , ,{ }))
gọi là thuộc tính điều kiện hay điều kiện
Thuộc tính quyết định có thể có nhiều hơn hai giá trị, tuy nhiên thông dụng là thuộc kiểu logic
Như vậy chúng ta không thể phân biệt được một số đối tượng được mô tả từ một tập thuộc tính Nhưng chúng ta lại có thể quan sát, đo hoặc định nghĩa một tập các đối tượng trong một khối tổng thể, không phân biệt được chúng dưới dạng các đối tượng riêng lẻ, và trong tập luỹ thừa, chỉ một số tập con có thể được đo hoặc được định nghĩa Do đó, tình trạng không chắc chắn xảy ra khi chúng ta muốn phân biệt cụ thể các đối tượng này
Một trong những ý tưởng cơ bản là làm thế nào để chúng ta có thể biểu diễn các tập con không xác định thông qua các tập con xác định Trả lời cho câu hỏi này ta có một giải pháp: một tập con không xác định được biểu diễn một cách xấp xỉ bằng hai tập con xác định, được gọi là các xấp xỉ trên và xấp xỉ dưới
2.2.2 Các định nghĩa về các tập thô
Giả sử U là một tập hữu hạn và được gọi là tập tổng thể, E là một quan hệ tương đương trên U Dưới đây là một số ký hiệu được sử dụng trong luận văn
U/E là phân hoạch sinh bởi quan hệ tương đương E
[x] E biểu diễn lớp tương đương chứa x
apr=(U, E) được gọi là một không gian xấp xỉ
Def(U) là họ tất cả các tập con xác định trên U
Trang 19Một phần tử x thuộc vào xấp xỉ dưới nếu tất cả các phần tử tương đương với nó thuộc vào X Một phần tử x thuộc vào xấp xỉ trên nếu ít nhất có một phần tử tương đương với nó thuộc vào X Định nghĩa hướng phần tử có liên quan tới lý thuyết tập thô
trong mô hình logic Vấn đề này chúng ta sẽ xem xét trong phần tiếp theo
mô hình cho tính toán hạt
Trong một không gian xấp xỉ tổng quát apr = (U, R), các xấp xỉ tập thô hướng hạt
có thể được định nghĩa như trên nhưng lớp tương đương [x] E được thay bằng lân cận
và các hệ thống toán học khác cũng như các hàm tin cậy
Trang 20trong đó là ký hiệu lực lượng của một tập Giá trị thuộc thô A( )x có thể hiểu là
xác suất có điều kiện để một phần tử bất kỳ thuộc vào A thì thuộc vào [x] E Trên thực
tế các xác suất có điều kiện đã được sử dụng trước khi có sự phát triển của mô hình tập thô theo lý thuyết xác xuất
Các hàm thuộc thô có thể được hiểu như các hàm thuộc mờ Khi áp dụng các hàm thuộc mờ trong lý thuyết tập thô chúng ta có:
(7) A( )x 0, x E A
(8) A B A( )x B( )x
Tính chất (3) chỉ ra rằng các phần tử trong cùng lớp tương đương phải có cùng mức thuộc Do đó các phần tử không phân biệt được phải có cùng giá trị thuộc Tính chất (4) và (5) có thể được diễn đạt một cách tương đương như sau:
(4) A( )x 0 x A,
(5) A( ) 1x x A,
Trong một không gian xấp xỉ tổng quát, apr = (U, R) được định nghĩa bằng một
quan hệ phản xạ, với một tập con A của tập tổng thể, một hàm thuộc thô có thể được
định nghĩa bằng cách thay [x] E bởi (x) E như sau:
Trang 21Áp dụng các qui tắc xác suất ta có các hàm thuộc thô tương ứng với AC, AB và
Trong một không gian xấp xỉ apr = (U, E) ta định nghĩa một hàm thuộc thô Avới
một tập con A U Bằng cách lựa chọn các phần tử có giá thuộc khác 0 và 1, chúng
ta nhận được các xấp xỉ trên và dưới của A như sau:
Trang 222.2.2.5 Một số tính chất của các xấp xỉ
Các xấp xỉ có một số tính chất sau đây:
1) apr X( ) X apr X( ),
2) apr( ) apr( ) ; apr U( )apr U( )U,
3) apr X( Y)apr X( )apr Y( ),
4) apr X( Y)apr X( )apr Y( ),
5) X Y apr X( )apr Y( ) & apr X( )apr Y( ),
6) apr X( Y)apr X( )apr Y( ),
7) apr X( Y)apr X( )apr Y( ),
8) apr(X) apr X( ),
9) apr(X) apr X( ),
10) apr apr X( ( ))apr apr X( ( ))apr X( ),
11) apr apr X( ( ))apr apr X( ( ))apr X( ),
trong đó: –X ký hiệu thay cho U \ X và là phần bù của X
2.2.2.6 Sự phân lớp thô
Dựa trên các xấp xỉ trên và xấp xỉ dưới, tập tổng thể U có thể được phân chia thành
các vùng không giao nhau được gọi là POS(X), NEG(X) và vùng ranh giới BND(X)
Các vùng trên cũng có thể được định nghĩa theo các hàm thuộc thô:
Trang 23POS nếu xác suất có điều kiện là đủ lớn, tương tự phân lớp một đối tượng vào trong vùng NEG nếu xác suất có điều kiện là đủ nhỏ
Cách phân một tập tổng thể thành ba vùng như trên nảy sinh một câu hỏi sau đây:
xác định các giá trị ngưỡng để quyết định ba vùng này như thế nào Câu trả lời cho
bài toán trên có thể là sử dụng thủ tục quyết định của Bayes Lý thuyết quyết định của Bayes đã được sử dụng rộng rãi trong các bài toán tương tự Dưới đây, luận văn trình bày khái quát về thủ tục quyết định của Bayes để giải quyết bài toán, sau đó xây dựng một hướng đi mới đó là áp dụng các tập thô và tính toán hạt
2.3 Mô hình lý thuyết quyết định sử dụng tập thô
Để giải quyết bài toán phân lớp được trình bày ở trên, luận văn giới thiệu ngắn gọn thủ tục quyết định Bayes Thủ tục quyết định này là thường xuyên được sử dụng để giải các bài toán phân lớp tương tự Sau đó, luận văn trình bày một mô hình lý thuyết quyết định sử dụng lý thuyết các tập thô Mô hình lý thuyết quyết định sử dụng lý thuyết tập thô này có tính tổng quát hơn các mô hình khác
Để thuận tiện, chúng tôi quan tâm tới định nghĩa hướng phần tử của các tập thô và quan sát kết hạt của tập tổng thể được sinh bởi một quan hệ tương đương Những vấn
đề được trình bày ở đây có thể dễ dàng áp dụng cho các trường hợp định nghĩa khác của tập thô
2.3.1 Khái quát về thủ tục quyết định Bayes
Gọi w , ,w 1 slà một tập hữu hạn s trạng thái, gọi Aa1, ,a m là một tập
hữu hạn m tác động có thể P(w j /x) là xác suất có điều kiện của đối tượng x trong trạng
thái w j khi x xảy ra Giả thiết rằng các xác suất có điều kiện P(w j /x) là đã biết
w j Một đối tượng x, giả sử xảy ra tác động a i Vì P(w j /x) là xác suất để trạng thái đúng
là w j cho x, tình trạng mất thông tin gắn với tác động a i được cho bởi:
Giá trị R(a i |x) cũng được gọi là độ rủi ro có điều kiện Có một mô tả x, một luật
quyết định là một hàm ( ) x xác định tác động nào sẽ xảy ra Do đó với mỗi x, ( ) x trả
lại một trong các tác động a 1 ,…, a m Độ rủi ro toàn cục R là lượng hao phí kỳ vọng gắn
với với một luật quyết định cho trước Vì ( ( ) | )R x x là độ rủi ro có điều kiện gắn với tác động ( ) x , độ rủi ro toàn cục được định nghĩa bởi:
( ( ) | ) ( )
x
Trang 24Ở trên, phép tính tổng được thực hiện trên tập của tất cả các mô tả có thể của các đối tượng Nếu ( ) x được lựa chọn để R( ( ) | ) x x là càng nhỏ càng tốt với mỗi x, độ rủi ro toàn cục R là nhỏ nhất
Thủ tục quyết định của Bayes có thể được tổng quát hoá như sau:
Với mỗi x, tính ( R a x với i=1,…,m i | )
Lựa chọn tác động để độ rủi ro toàn cục là nhỏ nhất
Nếu các nhiều tác động có cùng giá trị nhỏ nhất R a x , có thể tuỳ ý chọn lựa i| một tác động
Ví dụ 2.1:
Tập các trạng thái:
s 0 - cuộc họp sẽ diễn ra trong thời gian nhỏ hơn 2 tiếng
s 1 - cuộc họp sẽ kéo dài hơn 2 tiếng
2.3.2 Mô hình lý thuyết quyết định sử dụng tập thô
Các xấp xỉ dưới của một tập là tương ứng với vùng POS Xấp xỉ trên là hợp của vùng ranh giới và vùng POS, apr A( )POS A( )BND A( ) Có thể nói rằng một phần
tử bất kỳ xPOS A( ) thuộc vào A, và phần tử bất kỳ xNEG A( ) không thuộc vào
A Ta không thể quyết định một cách chính xác một phần tử xBND A( ) có thuộc vào A hay không
Trong không gian xấp xỉ apr ( , )U E , một phần tử x được quan sát dưới một lớp
x E Do đó, lớp tương đương chứa x được coi như một mô tả của x Việc phân lớp các
đối tượng theo các phép toán xấp xỉ có thể dễ dàng áp dụng vào trong mô hình lý
Trang 25thuyết quyết định của Bayes Tập các trạng thái được cho bởi A,A xác định
rằng một phần tử tương ứng là thuộc A hoặc không thuộc A Với ba vùng, tập các tác
động được cho bởi Aa a a1, 2, 3, trong đó a 1 , a 2 và a 3 là ba tác động trong việc phân
lớp một đối tượng thuộc vùng POS(A), NEG(A) hay BND(A)
Ký hiệu a A i | là lượng tiêu hao khi thực hiện tác động a i để một đối tượng
thuộc vào A, và đặt a i |A là ký hiệu lượng tiêu hao khi thực hiện cùng tác động a i
nhưng đối tượng không thuộc vào A Các giá trị thuộc thô A( )x P A x( | E) và
( ) ( | ) 1 ( | )
C
trên thực tế là các xác suất để một đối tượng
trong lớp tương đương [x] E tương ứng thuộc vào A hoặc A Lượng tiêu hao kỳ vọng
trong đó i1 a A i| , i2 a i |A và i=1, 2, 3 Thủ tục quyết định của Bayes
nhận được các luật quyết định có độ rủi ro nhỏ nhất như sau:
(P) Nếu R a( 1| x E)R a( 2| x E) và R a( 1| x E)R a( 3| x E) thì quyết định POS(A);
mỗi phần tử được phân lớp vào trong chỉ một vùng Vì P A x( | E) P( A x| E)1, các luật quyết định ở trên có thể được phân lớp chỉ theo P A x( | E) Chúng ta có thể
phân lớp bất kỳ một đối tượng nào trong lớp tương đương [x] E chỉ dựa vào các xác suất ( | )
E
Trường hợp đặc biệt của các hàm tiêu hao khi 113121và 223212 Do
đó lượng tiêu hao của việc phân lớp một đối tượng x thuộc A vào trong vùng POS(A)
là nhỏ hơn hoặc bằng lượng tiêu hao của việc phân lớp x vào trong vùng BND(A), và
cả hai lượng tiêu hao này là nhỏ hơn lượng tiêu hao khi phân lớp x vào trong vùng
NEG(A) Thứ tự đảo ngược của các giá trị lượng tiêu hao được sử dụng để phân lớp
các đối tượng không thuộc vào A Với các hàm thuộc như trên, các luật quyết định có
độ rủi ro nhỏ nhất có thể được viết như sau:
Trang 26Đặt l(12 32)( 2131) và r (31 11)( 3222) Trong khi l là tích của sự
khác nhau giữa chi phí của việc tạo một phân lớp không chính xác và chi phí của việc
phân lớp một phần tử vào trong vùng ranh giới, r là tích của sự khác nhau giữa chi phí
Trang 27của việc phân lớp một phần tử vào trong vùng ranh giới và chi phí cho một phân lớp chính xác
Khi ta có Khi đó, ta nhận được các luật quyết định:
(B1) Nếu P A x( | E), quyết định BND(A);
Khi , ta có Trong trường hợp này ta sử dụng các luật quyết định: (P2) Nếu P A x( | E), quyết định POS(A);
(N1) Nếu P A x( | E), quyết định NEG(A);
Trang 28đúng theo giả thiết
Vậy với giả thiết như trên thì 1 (đpcm)
Điều kiện ở trên không đảm bảo 1 hoặc tương đương 0.5 Ta có thể nhận được 1 0.5 bằng hệ quả sau:
POS, còn không thì không có tiêu hao Hàm tiêu hao này thoả mãn các điều kiện cho
trong hệ quả 2.2 Một cặp các phép toán xấp xỉ có thể nhận được Ta có 1 0, 1
và 0,5 Theo các luật quyết định (P1)-(B1), ta nhận được các phép toán xấp xỉ tập thô chuẩn
Xét một hàm phạt khác: 12 211, 31320,5,1122 0
Khi này lượng tiêu hao phải chịu nếu hệ thống phân lớp một đối tượng thuộc vào A vào trong vùng NEG hoặc một đối tượng không thuộc vào A vào trong vùng POS; một
Trang 29nửa lượng hao phí phải trả nếu một đối tượng nào đó được phân lớp vào trong vùng ranh giới Với các trường hợp khác thì không có tiêu hao Hàm tiêu hao thoả mãn các điều kiện cho trong hệ quả 2.2 Thực tế hàm tiêu hao làm cho tất cả các quan hệ lớn hơn hoặc bằng trong các điều kiện trở thành quan hệ bằng Bằng cách thay thế các ij
vào trong các phương trình:
các xấp xỉ tập thô theo lý thuyết xác suất
Hàm phạt 12 =21 = 4, 31 =32 = 1, 11 =22 = 0 thể hiện trạng thái không có tiêu
hao cho một phân lớp chính xác Từ ba phương trình trên ta có = 0,75; = 0,25; = 0,5 Bằng các luật quyết định (P1)-(B1) ta có một cặp các phép toán xấp xỉ
Với một hàm tiêu hao có 113121 và 22 3212, ta có
(a2) Nếu 1131, là đơn điệu tăng đối với 12 và đơn điệu giảm đối với 32 (a3) là đơn điệu giảm đối với 31 và đơn điệu tăng đối với 11
(b2) Nếu 22 32, là đơn điệu giảm đối với 21 và đơn điệu tăng đối với 31 (b3) là đơn điệu tăng đối với 32 và đơn điệu giảm đối với 22
Trang 30Từ (*) và (**) ta có là đơn điệu không giảm đối với 12
Chứng minh tương tự như trên ta được là đơn điệu không tăng đối với 32
Chứng minh tương tự ý (a1) cho các ý (a2), (a3), (b1), (b2), (b3) (đpcm)
Mối quan hệ giữa các giá trị ngưỡng của các xấp xỉ tập thô được tham số hoá và hàm tiêu hao có một vai trò quan trọng trong việc áp dụng mô hình lý thuyết quyết định của các tập thô Ví dụ, nếu lượng tiêu hao của một phân lớp không chính xác 12
tăng và các giá trị tiêu hao khác không thay đổi, giá trị có thể không giảm xuống
Mô hình lý thuyết quyết định cần sử dụng một hàm tiêu hao và các tham số và
Luận văn cũng trình bày hai cấu trúc kết hạt Một quan hệ tương đương quyết định một phân hoạch của tập tổng thể, và một quan hệ chỉ có tính chất phản xạ quyết định một phủ của một tập tổng thể Theo quan sát kết hạt của tập tổng thể, một tập con của tập tổng thể có thể là tập mờ hoặc được hiểu thông qua các xấp xỉ Tính mờ của tập hướng tới các hàm thuộc thô là một dạng đặc biệt của hàm thuộc mờ Các xấp xỉ của tập có thể được thiết lập theo hai phương pháp Định nghĩa hướng phần tử dựa trên hàm thuộc thô và nó liên quan tới khái niệm nhát cắt trong logic mờ Hệ thống hướng hạt dựa trên các quan hệ tương đương và có liên hệ với các hàm thuộc thô Cả hai hệ thống được hình thành ở trên đều cho cùng một kết quả khi tập tổng thể được kết hạt bởi một quan hệ tương đương và cho các kết quả khác nhau khi tập tổng thể được kết hạt bởi một quan hệ chỉ có tính chất phản xạ
Họ của các điểm cố định của các phép toán xấp xỉ trên và xấp xỉ dưới được nghiên cứu, chúng cung cấp cách hiểu thấu đáo hơn về các cấu trúc kết hạt và các cấu trúc xấp
xỉ trong đó
Trang 31Luận văn cũng trình bày một số điều kiện trên một hàm tiêu hao Đó là các trạng thái cụ thể của mối liên hệ giữa các tham số cần thiết cho việc định nghĩa các phép toán xấp xỉ và phân hạng lượng tiêu hao cho các quyết định phân lớp Điều này hướng tới một cách hiểu thấu đáo tới các tham số sử dụng trong các mô hình khác của các tập thô Chúng tôi cũng xác định các điều kiện trên một hàm tiêu hao với các phép toán xấp xỉ tập thô khác, như các phép toán xấp xỉ chuẩn, các phép toán xấp xỉ xác suất và các phép toán xấp xỉ biến quyết định có thể nhận được Mô hình lý thuyết quyết định
sử dụng tập thô do đó có tính tổng quát hơn các mô hình khác
Trang 32CHƯƠNG 3: KHAI PHÁ TRI THỨC TRONG CƠ SỞ DỮ LIỆU
dữ liệu Khối lượng dữ liệu này cũng có sự gia tăng một cách đột biến theo thời gian Các kỹ thuật thống kê truyền thống và các công cụ quản lý dữ liệu trước đây không đáp ứng được nhu cầu phân tích tập dữ liệu lớn này Một số lĩnh vực có khối lượng dữ liệu lớn được lưu trữ trong các cơ sở dữ liệu tập trung hoặc phân tán được liệt kê dưới đây:
Đầu tư tài chính: chỉ số chứng khoán và giá cả, tỷ giá hối đoái, dữ liệu thẻ tín dụng, phát hiện gian lận
Chăm sóc sức khoẻ: Một số thông tin chuẩn đoán bệnh lưu trữ trong các hệ thống quản lý bệnh viện
Sản xuất và dây chuyền sản xuất: Tối ưu dây chuyền và khắc phục sự cố
Mạng truyền thông: Tìm kiếm các mẫu và các hệ thống quản lý lỗi
Các lĩnh vực khoa học: các quan sát thiên văn, dữ liệu gen, dữ liệu sinh học
World Wide Web
Các dữ liệu thô ít khi được sử dụng trực tiếp một cách hữu dụng Giá trị sử dụng của dữ liệu được xác định qua khả năng trích chọn thông tin hữu dụng để trợ giúp quyết định hoặc nghiên cứu, và hiểu được những hiện tượng xảy ra trong nguồn dữ liệu Trong hầu hết các lĩnh vực, phân tích dữ liệu trước đây là một quá trình được thực hiện một cách thủ công Một số phương pháp phân tích có thể trở thành cần thiết với dữ liệu, cùng với việc sử dụng các kỹ thuật thống kê để có được các bản tóm tắt và các báo cáo tổng quát Tuy nhiên, những phương pháp phân tích trước đây tỏ ra kém hiệu quả rõ rệt khi kích thước và số chiều của dữ liệu gia tăng Khi cần thao tác với dữ liệu có số lượng vượt quá khả năng của con người, chúng ta phải tìm kiếm các kỹ thuật tính toán quá trình này một cách tự động
Tất cả những kho dữ liệu lớn đó cần phải có các phương pháp phân tích dữ liệu thông minh để chúng ta có thể khai thác được các tri thức hữu dụng từ dữ liệu Từ khoá KDD (Knowledge Discovery in Databases) được sử dụng để chỉ toàn bộ quá trình khai phá tri thức trong cơ sở dữ liệu Khai phá dữ liệu là một bước cụ thể trong quá trình này, bao gồm các ứng dụng của các thuật giải cụ thể để trích chọn các mẫu thông tin từ cơ sở dữ liệu Bước tiếp theo trong quá trình KDD là biểu diễn dữ liệu, lựa
Trang 33chọn dữ liệu, làm sạch dữ liệu, hợp nhất các tri thức, cách hiểu chính xác các kết quả của khai phá, đảm bảo các tri thức có ích nhận được từ dữ liệu
Mục tiêu của khai phá tri thức trong các cơ sở dữ liệu (KDD) đã được hình thành và tiếp tục phát triển trong các nghiên cứu từ các lĩnh vực như cơ sở dữ liệu, học máy, nhận dạng mẫu, thống kê, trí tuệ nhân tạo, lập luận với các độ không chắc chắn, tri thức cho các hệ chuyên gia, tính toán hiệu năng cao [9] Các hệ thống KDD kết hợp các lý thuyết, các thuật giải, và các phương pháp từ tất cả các lĩnh vực này Rất nhiều các ứng dụng thành công đã được công bố từ các lĩnh vực như tài chính, ngân hàng, truyền thông [9] Các công cụ và lý thuyết cơ sở dữ liệu cung cấp cơ sở hạ tầng cần thiết cho lưu trữ, truy cập và thao tác với dữ liệu
Các lĩnh vực tập trung vào việc suy luận các mô hình từ dữ liệu bao gồm nhận dạng mẫu, học máy và tính toán nơ ron Một câu hỏi tự nhiên là: quá trình khai phá tri thức
từ các lĩnh vực này khác nhau như thế nào? KDD tập trung vào toàn bộ quá trình khai phá tri thức từ tập dữ liệu lớn, bao gồm cả việc lưu trữ và truy cập các dữ liệu, sự thành lập các thuật toán để làm chủ được các tập dữ liệu lớn, hiểu và hình dung được các kết quả, và việc mô hình hoá và trợ giúp toàn bộ các thao tác máy móc của con người
Khai phá dữ liệu là một kiểu của khai phá tri thức cần thiết cho giải quyết bài toán trong một miền xác định Các tập dữ liệu riêng lẻ có thể được nhóm lại và nghiên cứu chung với nhiều mục đích Tri thức mới có thể nhận được trong quá trình khai phá Ví
dụ các dữ liệu y học thường tồn tại với số lượng lớn và có định dạng không cấu trúc Quá trình khai phá dữ liệu có thể dễ dàng phân tích một cách có hệ thống các dữ liệu như vậy Tuy nhiên, các dữ liệu y học đòi hỏi một số lượng lớn các phép tiền xử lý để thông tin trở thành hữu dụng Từ đó có thể hiểu được các thông tin số, các ký hiệu khác nhau có thể được sử dụng với cùng ý nghĩa, tính dư thừa thường tồn tại trong dữ liệu, các lỗi hay các sai lầm từ khoá y học là phổ biến, và dữ liệu có tính thường xuyên hơn là thưa thớt Một hệ thống tiền xử lý mạnh là cần thiết để trích chọn bất kỳ một kiểu tri thức nào từ tập dữ liệu y học có kích thước trung bình Dữ liệu không chỉ được làm sạch các lỗi và loại bỏ dư thừa mà còn phải được tổ chức theo một cấu trúc phù hợp với bài toán
Tính toán mềm là một thuật ngữ chỉ các phương pháp luận được hỗ trợ trong một một số mô hình có khả năng xử lý các thông tin linh hoạt để quản lý các tình huống nhập nhằng trong thế giới thực Mục tiêu của nó là để khai thác tính không chính xác,
độ không chắc chắn, lập luận xấp xỉ, và tính đúng bộ phận để có được tính dễ sử dụng, tính mạnh mẽ và các lời giải với chi phí thấp Nguyên tắc định hướng là để phát minh
ra các phương pháp tính toán hướng tới một lời giải chấp nhận được với chi phí thấp,
Trang 34bằng cách thay thế một lời giải xấp xỉ cho một bài toán được thiết lập một cách không chính xác hoặc chính xác
Hệ phương pháp tính toán mềm (bao gồm các tập mờ, các mạng nơ ron, các thuật giải di truyền và các tập thô) được áp dụng rộng rãi nhất trong bước khai phá dữ liệu trong toàn bộ quá trình KDD Các tập mờ cung cấp một mô hình tự nhiên cho quá trình trong việc giải quyết tính không chắc chắn Các mạng nơ ron và các tập thô thường được sử dụng để phân lớp và sinh các luật Các thuật giải di truyền (GA) được
sử dụng trong quá trình tối ưu và quá trình tìm kiếm, chẳng hạn việc tối ưu hoá truy vấn và lựa chọn các mẫu Các hướng khác chẳng hạn như trường hợp dựa trên lập luận
và các cây quyết định cũng được sử dụng rộng rãi để giải các bài toán khai phá dữ liệu Phần dưới đây, luận văn trình bày một cách khái quát về quá trình khai phá tri thức
và khai phá dữ liệu
3.1.2 Khai phá tri thức và khai phá dữ liệu
Khai phá tri thức trong các cơ sở dữ liệu (KDD) là một quá trình quan trọng trong việc xác định các mẫu trong dữ liệu để có thể hiểu được một cách cơ bản về dữ liệu, khả năng có thể sử dụng, tính mới và tính hợp lệ của dữ liệu đó Dữ liệu là một tập các
sự kiện F, và các mẫu là một biểu thức E trong ngôn ngữ L mô tả các sự kiện trong một tập con F E của F E được gọi là một mẫu nếu nó đơn giản hơn tất cả các sự kiện trong F E Một độ đo độ chắc chắn đo tính hợp lệ của các mẫu được khai phá là một
hàm C ánh xạ các biểu thức trong L tới một không gian độ đo có thứ tự tổng thể hoặc
bộ phận M C Một biểu thức E trong L về một tập con F E F có thể được gán một độ
đo chắc chắn ( , )C E F Độ đo tính mới của các mẫu có thể được đo bằng một hàm N(E,F) với sự thay đổi trong dữ liệu hoặc tri thức Các mẫu cần gắn với một số thao
tác hữu ích và được đo bằng một số hàm tiện ích U(E,F) ánh xạ các biểu thức trong L tới một không gian độ đo có thứ tự tổng thể hoặc bộ phận M U Mục đích của KDD để
tạo ra các mẫu có thể hiểu được cho con người Điều này được đo bởi một hàm S(E,F) ánh xạ các biểu thức E trong L tới một không gian độ đo có thứ tự tổng thể hoặc bộ phận M S
Tính lôi cuốn của một mẫu bao gồm tính hợp lệ, tính mới, tính hữu dụng và tính
hiểu được, và có thể được mô tả là một hàm I của mẫu E, sự kiện F, hàm C, hàm N, hàm U và hàm S: ( , , , I E F C N U S ánh xạ biểu thức trong L tới một không gian độ , , )
đo M I Một mẫu E L được gọi là tri thức nếu với một giá trị ngưỡng do người dùng xác định iM I thì ( , , ,I E F C N U S, , )i Ta có thể lựa chọn một số ngưỡng cM C,
S
sM và uM u , và thiết lập một mẫu tri thức E như sau:
Nếu và chỉ nếu C(E, F)>c, và S(E, F)>s và U(E, F)>u
Trang 35Vai trò của tính lôi cuốn là để thiết lập một số lượng lớn các mẫu được khai phá và chỉ báo cáo những mẫu có thể được sử dụng Có hai hướng để thiết kế một độ đo xác định tính lôi cuốn của một mẫu là hướng mục tiêu và hướng chủ đề Trường hợp đầu
sử dụng cấu trúc của mẫu và được sử dụng tổng quát cho việc tính độ lôi cuốn của luật Tuy nhiên nó thường thất bại khi tính toán tổng hợp trên tất cả quá trình khai phá các mẫu Phương pháp hướng chủ đề lại phụ thuộc vào người dử dụng khi họ nghiên cứu các mẫu
Khai phá dữ liệu là một bước trong quá trình KDD bao gồm một số mẫu cụ thể
trong toàn bộ các mẫu dữ liệu E j với mục đích hạn chế một số tính toán Nó sử dụng dữ liệu tiền sử để khai phá các luật và cải tiến các quyết định trong tương lai Dữ liệu có thể có một nhóm các mô tả tuần tự theo thời gian, và có thể học để dự đoán các sự kiện sau đó theo chuỗi thời gian
Tích hợp dữ liệu: Bao gồm việc tích hợp các nguồn dữ liệu phức tạp từ nhiều nguồn không đồng nhất
Dữ
liệu thô Lựa chọn
dữ liệu Tiền xử lý
Chuyển đổi
Dữ liệu tiền xử
lý
Dữ liệu chuyển đổi
Trang 36Phép chiếu và thu gọn dữ liệu: Bao gồm việc tìm kiếm các đặc trưng hữu ích để biểu diễn dữ liệu (phụ thuộc vào mục tiêu của công việc) và sử dụng các phương pháp chuyển đổi hoặc thu gọn số chiều
Lựa chọn hàm cho khai phá dữ liệu: Bao gồm việc quyết định kết quả của mô hình nhận được bằng thuật giải khai phá dữ liệu ( như tóm tắt, phân lớp, tách cụm, khai phá web, khôi phục ảnh hoặc một liên kết giữa chúng)
Lựa chọn thuật toán hoặc các thuật toán khai phá dữ liệu: Bao gồm việc lựa chọn các phương pháp được sử dụng để tìm kiếm các mẫu trong dữ liệu, chẳng hạn có thể quyết định mô hình và các tham số nào có thể sử dụng
Khai phá dữ liệu: Bao gồm việc tìm kiếm các mẫu trong một mô hình biểu diễn cụ thể hoặc một tập các biểu diễn đó
Cách hiểu: Bao gồm việc hiểu các mẫu được khai phá cũng như hình dung được các mẫu có thể được trích chọn Ta có thể phân tích các mẫu một cách tự động hoặc một cách bán tự động để xác định xem các mẫu có độ lôi cuốn hay độ hữu dụng với người dùng hay không
Sử dụng tri thức được khai phá: bao gồm việc kết hợp tri thức này vào trong hệ thống và việc thực hiện các tác động dựa trên tri thức đó
Khai phá dữ liệu bao gồm việc làm phù hợp các mô hình hoặc xác định các mẫu từ
dữ liệu được quan sát Các mô hình phù hợp đóng vai trò suy luận tri thức Việc quyết định hoặc là mô hình phản ánh các tri thức hữu dụng hoặc là không là một phần trong toàn bộ quá trình KDD, và điều đó thường cần thiết phải có những mục tiêu và sự phán xét của con người Đặc biệt, một thuật toán khai phá dữ liệu thực hiện một số kết nối của ba thành phần sau:
Mô hình: Chức năng của mô hình (chẳng hạn phân lớp, tách cụm) và hình thức
biểu diễn của nó (chẳng hạn biểu diễn bằng mạng nơ ron) Một mô hình chứa các tham số được xác định từ dữ liệu
Trang 37 Tiêu chuẩn qui chiếu: Một nhân tố cơ bản cho một mô hình hoặc tập các tham số
phụ thuộc vào dữ liệu có được Các tiêu chuẩn luôn được xác định là một hàm đánh giá độ phù hợp của mô hình dữ liệu
Thuật giải tìm kiếm: Đặc tả một thuật giải tìm kiếm các mô hình cụ thể và các
tham số, mô hình và một tiêu chuẩn qui chiếu
Một thuật giải khai phá dữ liệu cụ thể luôn là một bản thể của các thành phần mô hình/qui chiếu/tìm kiếm Nhiều mô hình chung được xác lập trong tình trạng khai phá
dữ liệu hiện tại bao gồm:
Sự phân lớp: Phân lớp một khối dữ liệu vào trong một của một số lớp đã được
xác định trước đó
Hồi qui: Ánh xạ một khối dữ liệu tới một biến dự đoán có giá trị thực
Bó cụm: ánh xạ một khối dữ liệu vào một trong một số cụm, trong đó các cụm
đang được nhóm một cách tự nhiên của các khối dữ liệu dựa trên các ma trận đồng dạng hoặc các mô hình có mật độ xác suất
Sinh các luật: Tách các luật phân lớp từ dữ liệu
Khai phá các luật kết hợp: Mô tả mối quan hệ kết hợp giữa các thuộc tính khác
nhau
Tóm tắt: Cung cấp những mô tả ngắn gọn nhất cho một tập con của dữ liệu
Mô hình hoá sự phụ thuộc: Mô tả những phụ thuộc quan trọng giữa các biến
Phân tích chuỗi: Mô hình hoá các mẫu tuần tự, giống như phân tích chuỗi thời
gian Mục đích là để mô hình hoá các trạng thái của quá trình sinh dãy hoặc để trích chọn và báo cáo những sai lầm và có khuynh hướng theo thời gian
Sự phát triển nhanh chóng của khai phá dữ liệu phù hợp với sự giảm chi phí phải trả cho các thiết bị lưu trữ lớn và sự gia tăng tính dễ dàng trong việc nhóm các dữ liệu trong mạng, sự phát triển của các thuật giải học máy hiệu quả và mạnh mẽ để xử lý những dữ liệu này, và việc giảm giá thành trong hiệu năng tính toán, có khả năng sử dụng các phương pháp thiên về tính toán để xử lý dữ liệu
Khái niệm về khả năng tính gộp liên quan tới việc xử lý một cách hiệu quả các tập dữ liệu lớn và có thể sinh ra từ dữ liệu những mô hình tốt nhất Lý do chính cho việc tính gộp là khi gia tăng kích thước của tập dữ liệu huấn luyện thường gia tăng độ chính xác của các mô hình phân lớp được học Trong nhiều trường hợp, có sự suy biến
độ chính xác khi thực hiện học từ các mẫu không đủ lớn xuất phát từ tình trạng vượt quá giá trị phù hợp, sự xuất hiện nhiễu và sự tồn tại một số lượng lớn các đặc trưng Việc tính gộp các tập dữ liệu rất lớn đòi hỏi cần thiết phải phát triển các thuật toán học nhanh Có ba hướng chính để thực hiện tính gộp bao gồm:
Trang 38 Thiết kế một thuật giải nhanh: Giảm độ phức tạp tiệm cận, tối ưu hoá quá trình
tìm kiếm và biểu diễn, tìm kiếm các lời giải xấp xỉ tốt hoặc thực hiện theo những
ưu điểm của việc song song hoá các tác vụ
Phân hoạch dữ liệu: Phân chia dữ liệu vào trong các tập con (dựa trên các bản thể
hoặc các đặc trưng), thực hiện học từ một hoặc nhiều tập con được lựa chọn, và có thể kết hợp các kết quả lại với nhau
Sử dụng một biểu diễn quan hệ: địa chỉ hoá dữ liệu để tránh tình trạng sử dụng
dữ liệu như chỉ một tệp
3.2 Các tập thô và khai phá tri thức trong cơ sở dữ liệu
Khi có một quá trình KDD phức tạp và độc lập tác vụ, sẽ rất khó để phân chia quá trình thành từng bước riêng biệt [20, 21] Trong phần này luận văn trình bày về sự phân chia các bước trong quá trình KDD trong tài liệu nổi tiếng [FPSSU96] [16]:
1 Hiểu được tri thức miền, các tri thức có trước và mục đích ứng dụng
2 Khởi tạo tập dữ liệu ban đầu
3 Làm sạch dữ liệu và tiền xử lý
4 Khai phá dữ liệu
5 Thể hiện/đánh giá
Chi tiết về các bước dưới đây được sử dụng trong tài liệu [DGN] [15] Các bước
1 và 2 không được cung cấp trong phân tích dữ liệu các tập thô
3.2.1 Làm sạch dữ liệu và tiền xử lý
Tiền xử lý và làm sạch dữ liệu là một trong những giai đoạn quan trọng của các
hệ thống ứng dụng tập thô Chúng ta đã biết rằng các tri thức có trước là rất hữu ích trong quá trình KDD Đầu tiên, các tập thô được sử dụng để rút gọn và làm sạch dữ liệu Sau đó các kết quả được sử dụng như là những thành phần cơ bản và có thể được thực hiện bằng một số phương pháp khác [20, 21, 22]
Trong phạm vi làm sạch dữ liệu và tiền xử lý, lý thuyết tập thô hữu ích để giải quyết các bài toán sau [20, 23]:
Quan hệ không phân biệt được và các rút gọn là các công cụ hữu ích được sử
dụng để rút gọn kích thước dữ liệu Tuy nhiên trong một số bài toán có các bảng với nhiều đặc trưng, ta chỉ có thể nhận được một lớp không phân biệt được cho mỗi bộ, và
Trang 39rất khó để tìm được các lớp tương đương lớn và hữu ích Bài toán với các giá trị thuộc tính là số là một hệ quả của bài toán trên để ta có thể tìm kiếm các rút gọn một cách thuận tiện [14], [18], [19]
Để giải quyết bài toán trên, các quan hệ độ dung sai đã được giới thiệu [14] Một
quan hệ độ dung sai trên U là một tập con của U U có tính chất phản xạ, đối xứng nhưng không nhất thiết là bắc cầu [14]
3.2.1.2 Quản lý giá trị không đúng
Các giá trị không đúng có thể được quản lý trước khi phân tích dữ liệu tập thô
Chúng ta có thể sử dụng một số phương pháp biểu diễn dữ liệu từ quá trình KDD để có được một hệ thống đầy đủ Một hạn chế chính của những phương pháp này là phân bố xác suất của các giá trị thuộc tính thường không tính được [14], [15]
Mặt khác, các phương pháp sử dụng tập thô truyền thống cũng có thể được sử
dụng để xử lý trong các trường hợp có các giá trị null [14] Có một số phương pháp để
thực hiện điều đó dựa trên các quan hệ dung sai [14], [15], [16] Trong một quan hệ dung sai được trình bày ở tài liệu [Wan] [26], các đối tượng được phân lớp cùng nhau với một số giá trị sai Trong tài liệu [25] [Val03] tác giả thực hiện trên quan hệ đồng dạng nhưng có sử dụng một xấp xỉ thứ ba cho các đối tượng và xấp xỉ thứ ba này có
chứa cả các giá trị null Tuy nhiên cả hai phương pháp trên vẫn chưa giải quyết được
hoàn toàn bài toán này
3.2.1.3 Lựa chọn và trích chọn đặc trưng
Lựa chọn đặc trưng có thể được thực hiện theo một vài cách thức sử dụng các tập thô Một số phương pháp được mô tả trong các tài liệu [40, KPS99] và [41, DG00]
Một phương pháp là tính tất cả các rút gọn và tìm được hạt nhân là giao của tất cả các
rút gọn (phụ lục A) Một cách có thể khác là phân chia bảng dữ liệu thành các bảng con và chỉ quan tâm tới những rút gọn thường xuất hiện đầy đủ Chúng được gọi là các rút gọn xấp xỉ, và có thể hữu dụng để rút gọn các tác động nhiễu
Các phương pháp này phân biệt giữa các thuộc tính hữu ích và thuộc tính vô ích Thực tế, mỗi thuộc tính là có tính hữu dụng nhiều hơn hoặc ít hơn và chúng ta có thể định nghĩa một độ đo liên tục để đánh giá chúng Điều này được thực hiện theo hai bước: Đầu tiên chúng ta đánh giá xem các thuộc tính quyết định phụ thuộc vào các thuộc tính điều kiện như thế nào, sau đó ta xoá một thuộc tính và đánh giá lại tính phụ thuộc đó Từ sự khác nhau về tính phụ thuộc, chúng ta nhận được một giá trị hữu dụng của thuộc tính
Bước đầu tiên là xác định tính phụ thuộc giữa các thuộc tính được định nghĩa như sau:
Trang 40D ( )
| |( , )
trong B ta có thể định nghĩa chính xác phân hoạch IND D (U) Nếu không thể định nghĩa
chính xác về hàm thuộc của một đối tượng nào đó thì BX , ( , )B D 0
Sau đó chúng ta tính toán độ thay đổi tính phụ thuộc khi loại bỏ một thuộc tính theo công thức:
,
( , ) ( {a}, )( )
Nếu B-{a} là một rút gọn thì ( , ) B D (B{a}, )D và B D, ( )a =0 Khi đó trên
thực tế thuộc tính a là không quan trọng Nếu B là một rút gọn, có thể xảy ra một số
thuộc tính của nó là kém hữu dụng hơn một số thuộc tính khác vì chúng cho phép nhận được một số lớp nhỏ hơn
Phép rời rạc là một công cụ chính cho nhiều công cụ phân tích dữ liệu và cũng cho các phương pháp sử dụng tập thô Trên thực tế, có thể tìm kiếm các phép rời rạc bảo toàn quyết định các lớp qua lập luận Boolean điều này được thực hiện theo cách sau:
1 Với mỗi thuộc tính, liệt kê tất cả các nhát cắt có thể Một nhát cắt là một điểm ở
giữa hai giá trị kề nhau Ví dụ, nếu một thuộc tính nhận giá trị {1, 3, 6, 9, 11} thì