DSpace at VNU: Một số vấn đề liên quan đến lý thuyết tập thô tài liệu, giáo án, bài giảng , luận văn, luận án, đồ án, bà...
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Đỗ Thị Mai Hường
MỘT SỐ VẤN ĐỀ LIÊN QUAN ĐẾN LÝ THUYẾT
TẬP THÔ
Chuyên ngành: Công nghệ thông tin
Mã số: 1.01.10
LUẬN VĂN THẠC SĨ
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS VŨ ĐỨC THI
Hà nội – 2007
Trang 2LỜI CẢM ƠN
Để có thể hoàn thành tốt luận văn này, em đã có sự động viên, giúp đỡ của rất nhiều người Trước tiên, em xin bày tỏ lòng kính trọng và sự biết ơn sâu sắc tới PGS.TS Vũ Đức Thi, người đã hướng dẫn, giúp đỡ và tạo điều kiện cho em trong suốt quá trình làm luận văn Em xin cảm ơn TS Hà Quang Thụy đã cho em những lời khuyên quý báu trong giai đoạn đầu của quá trình làm luận văn Em xin chân thành cảm ơn các Thầy trong Khoa Công nghệ thông tin - Đại học Công nghệ - Đại học Quốc gia Hà nội, các Thầy trong Viện Công nghệ thông tin đã giảng dạy, truyền đạt kiến thức cho em trong suốt quá trình học tập và nghiên cứu tại trường Cuối cùng, xin cảm ơn gia đình, bạn bè cùng các đồng nghiệp trong Khoa Công nghệ thông tin, Học viện Kỹ thuật Quân sự đã động viện, tạo điều kiện để tôi có thể hoàn thành quá trình học tập và hoàn thành tốt luận văn này
Hà Nội, tháng 01 năm 2007
NGƯỜI THỰC HIỆN
Trang 3MỤC LỤC
BẢNG CÁC KÍ HIỆU VIẾT TẮT 5
DANH SÁCH CÁC BẢNG 6
DANH SÁCH CÁC HÌNH VẼ 7
MỞ ĐẦU 8 CHƯƠNG 1 TỔNG QUAN VỀ KHÁM PHÁ TRI THỨC VÀ LÝ THUYẾT TẬP THÔ Error! Bookmark not defined.
1.1 Khám phá tri thức Error! Bookmark not defined
1.1.1 Định nghĩa khám phá tri thức Error! Bookmark not defined 1.1.2 Các bước chính trong quá trình khám phá tri thức Error! Bookmark not
defined.
1.1.3 Khai phá dữ liệu Error! Bookmark not defined 1.1.4 Các bài toán chính trong khai phá dữ liệu Error! Bookmark not defined 1.1.5 Một số kỹ thuật khai phá dữ liệu Error! Bookmark not defined.
1.2 Lý thuyết tập thô Error! Bookmark not defined
1.2.1 Hệ thông tin Error! Bookmark not defined 1.2.2 Hệ quyết định Error! Bookmark not defined 1.2.3 Quan hệ không phân biệt được trong hệ thông tin Error! Bookmark not
defined.
1.2.4 Tập xấp xỉ trên, xấp xỉ dưới và miền biên Error! Bookmark not defined 1.2.5 Tập thuộc tính rút gọn và tập thuộc tính nhânError! Bookmark not defined 1.2.6 Ma trận phân biệt và hàm phân biệt Error! Bookmark not defined 1.2.7 Hàm thành viên thô Error! Bookmark not defined 1.2.8 Sự phụ thuộc thuộc tính Error! Bookmark not defined.
1.3 Kết luận chương 1 Error! Bookmark not defined
CHƯƠNG 2 QUÁ TRÌNH KHÁM PHÁ TRI THỨC THEO CÁCH TIẾP CẬN TẬP THÔ Error! Bookmark not defined.
2.1 Sự rời rạc hoá dựa trên tập thô và lập luận logicError! Bookmark not defined
2.1.1 Khái niệm tập các nhát cắt, nhát cắt trong bảng quyết định Error!
Bookmark not defined.
Trang 42.1.2 Vấn đề rời rạc hóa Error! Bookmark not defined.
2.2 Lựa chọn thuộc tính dựa trên tập thô với phương pháp đánh giá kinh nghiệm ……
Error! Bookmark not defined.
2.3 Một số phương pháp khác xây dựng tập thuộc tính rút gọn Error! Bookmark not
defined.
2.3.1 Loại trừ thuộc tính không liên quan từ một rút gọnError! Bookmark not
defined.
2.3.2 Chiến lược Xóa Error! Bookmark not defined.
2.3.3 Chiến lược Thêm-Xóa Error! Bookmark not defined.
2.3.4 Chiến lược Thêm Error! Bookmark not defined.
2.3.5 Các thuật toán tính rút gọn dựa trên các cặp đối tượng phân biệtError!
Bookmark not defined.
2.3.6 Rút gọn nửa tối thiểu Error! Bookmark not defined.
2.3.7 Chiến lược ngẫu nhiên Error! Bookmark not defined.
2.4 Quá trình khám phá luật trong bảng quyết định Error! Bookmark not defined
2.4.1 Luật trong bảng quyết định Error! Bookmark not defined.
2.4.2 Hai đặc trưng của luật: Độ mạnh và độ nhiễu của luậtError! Bookmark not
defined.
2.4.3 Khám phá luật bởi bảng phân bố tổng quát dựa trên tập thô Error!
Bookmark not defined.
2.4.4 Thuật toán tối ưu hoá các luật Error! Bookmark not defined.
2.4.5 Thuật toán giải pháp gần tối ưu các luật Error! Bookmark not defined.
2.4.6 Tiêu chuẩn lựa chọn luật trong tập thô Error! Bookmark not defined.
2.4.7 Một số thuật toán sinh luật khác Error! Bookmark not defined.
2.5 Khám phá mẫu trong hệ thông tin Error! Bookmark not defined
2.6 Kết luận chương 2 Error! Bookmark not defined
CHƯƠNG 3 ỨNG DỤNG LÝ THUYẾT TẬP THÔ TRONG BÀI TOÁN TƯ VẤN
THI ĐẠI HỌC Error! Bookmark not defined.
3.1 Bộ công cụ Rosetta Error! Bookmark not defined
3.1.1 Giới thiệu Error! Bookmark not defined.
3.1.2 Các đặc trưng của Rosetta Error! Bookmark not defined.
Trang 53.2 Ứng dụng lý thuyết tập thô trong bài toán Tư vấn thi đại họcError! Bookmark
not defined.
3.2.1 Mô tả bài toán Error! Bookmark not defined.
3.2.2 Tập thô trong bài toán Tư vấn thi đại họcError! Bookmark not defined.
3.2.3 Quá trình phát hiện luật Error! Bookmark not defined.
3.3 Kết luận chương 3 Error! Bookmark not defined KẾT LUẬN Error! Bookmark not defined TÀI LIỆU THAM KHẢO 11
Trang 6BẢNG CÁC KÍ HIỆU VIẾT TẮT
Ký hiệu, viết tắt Giải thích ý nghĩa
KDD Khám phá tri thức
A Hệ thông tin hay bảng quyết định
A, B Tập các thuộc tính trong hệ thông tin
D Tập thuộc tính quyết định trong hệ thông tin
a Một thuộc tính điều kiện trong tập thuộc tính điều kiện của hệ
thông tin
Va Tập giá trị của thuộc tính điều kiện
U Tập đối tƣợng (tập tổng thể) trong hệ thông tin
Pa Tập các nhát cắt trên tập Va
RED Tập rút gọn
CORE Tập nhân
card (X) hay ||X|| Số lƣợng phần tử có trong X
Trang 7DANH SÁCH CÁC BẢNG
Bảng1.1: Ví dụ học cho khái niệm chơi tennis 16 Bảng 1.2: Một ví dụ về hệ thông tin 19 Bảng 1.3: Ví dụ về bảng quyết định TuyenSinh 21
Bảng 2.1: Bảng thông tin A *
Bảng 2.2: Bảng thông tin mô tả các đối tượng 50
Bảng 2.4: Các bảng thông tin tương ứng với việc chọn thuộc tính a, c, d 51 Bảng 3.1: Tiêu chí căn cứ chọn trường thi đại học 76 Bảng 3.2: Danh mục môn thi các khối thi đại học 77 Bảng 3.3: Dữ liệu về các nhát cắt 82 Bảng 3.4: Dữ liệu sau khi rời rạc hóa 83 Bảng 3.5: Dữ liệu thu được sau khi sinh luật 84 Bảng 3.6: Dữ liệu luật sau khi xử lý 85
Trang 8DANH SÁCH CÁC HÌNH VẼ
Hình 1.1: Mô hình mô tả quá trình khám phá tri thức 11 Hình 1.2: Mô tả cây quyết định cho khái niệm chơi tennis 17 Hình 1.3 : Xấp xỉ tập thí sinh cần xem xét khi thi đại học 24 Hình 2.1: Một họ phân hoạch định nghĩa bởi tập các nhát cắt 37 Hình 2.2: Quá trình rời rạc hóa 41 Hình 2.3 : Giá trị của các đối tượng biểu diễn bởi đồ thị 42 Hình 2.4: Các nhát cắt trên đồ thị 43 Hình 2.5: Các điểm cắt trên thuộc tính a 44 Hình 2.6: Tập các nhát cắt tối thiểu 46 Hình 3.1: Sơ đồ quá trình sinh luật 80 Hình 3.2 : Sơ đồ thuật toán sinh dữ liệu ngẫu nhiên 81 Hình 3.3: Mô hình quan hệ trong cơ sở dữ liệu TuyenSinh 86 Hình 3.4: Giao diện nhập thông tin dự đoán kết quả 87 Hình 3.5: Giao diện hiển thị kết quả dự đoán cho một trường đại học 87 Hình 3.6: Giao diện hiển thị kết quả dự đoán cho nhiều trường đại học 88
Trang 9MỞ ĐẦU
Cùng với sự phát triển của Công nghệ thông tin, khám phá tri thức trong các cơ sở
dư liệu lớn là một trong những lĩnh vực được rất nhiều nhà nguyên cứu và ứng dụng tin học đặc biệt quan tâm Khám phá tri thức trong cơ sở dữ liệu là một quá trình có thể tìm
ra những thông tin mới, những thông tin hữu ích, và tiềm ẩn trong cơ sở dữ liệu Quá trình phát hiện tri thức gồm nhiều giai đoạn, trong đó giai đoạn khai phá dữ liệu là quan trọng nhất Đây là giai đoạn chính tìm ra những thông tin mới trong cơ sở dữ liệu Quá trình phát hiện tri thức là sự tiếp thu, sử dụng và phát triển các thành tựu của nhiều lĩnh vực nghiên cứu ứng dụng tin học trước đó như: lý thuyết nhận dạng, hệ chuyên gia, trí tuệ nhân tạo, thống kê, v.v
Khám phá tri thức có thể sử dụng nhiều thuật toán khám phá tri thức như: Sử dụng cây quyết định, phương pháp thống kê, các mạng neural, thuật toán di truyền, lý thuyết tập thô Trong những thập niên gần đây, lý thuyết tập thô đã liên tục phát triển, thu hút ngày càng nhiều các nhóm nghiên cứu và những người quan tâm đến phương pháp luận này Lý thuyết tập thô được bắt nguồn bởi Zdzislaw Pawlak như là một kết quả của quá trình nghiên cứu lâu dài trên các thuộc tính logic của các hệ thông tin Lý thuyết tập thô được xây dựng trên nền tảng toán học vững chắc giúp cung cấp những công cụ hữu ích
để giải quyết những bài toán phân lớp dữ liệu và khai phá luật, Với đặc tính có thể xử lý được những dữ liệu mơ hồ, không chắc chắn tập thô tỏ ra rất hữu ích trong việc giải quyết những bài toán thực tế Cụ thể, trong lý thuyết tập thô dữ liệu được biểu diễn thông qua
hệ thông tin, hay bảng quyết định; ý tưởng chính trong việc phân tích dữ liệu theo tiếp cận tập thô xuất phát từ những khái niệm về sự xấp xỉ tập, về quan hệ không phân biệt được Từ những bảng dữ liệu lớn với dữ liệu dư thừa, không hoàn hảo, dữ liệu liên tục, hay dữ liệu biểu diễn dưới dạng ký hiệu, lý thuyết tập thô cho phép khám phá tri thức từ những loại dữ liệu như vậy nhằm phát hiện ra những quy luật tiềm ẩn từ khối dữ liệu này Tri thức được biểu diễn dưới dạng các luật, mẫu mô tả mối quan hệ bị che dấu trong dữ liệu Trong lý thuyết tập thô, chất lượng của thông tin được đo bằng cách sử dụng khái
Trang 10niệm tập xấp xỉ trên và xấp xỉ duới Người ta có thể tìm được tập các thuộc tính nhỏ nhất nhằm loại bỏ những thông tin dư thừa, không cần thiết mà vẫn giữ được ý nghĩa Sau đó, dựa vào tập thuộc tính nhỏ nhất này người ta có thể tìm ra các quy luật chung nhất hoặc các mẫu để biểu diễn dữ liệu
Lý thuyết tập thô đóng vai trò hết sức quan trọng trong trí tuệ nhân tạo và các ngành khoa học khác liên quan đến nhận thức, đặc biệt là lĩnh vực máy học, thu nhận tri thức, phân tích quyết định, phát hiện và khám phá tri thức từ cơ sở dữ liệu, các hệ chuyên gia, hệ hỗ trợ quyết định, lập luận dựa trên quy nạp và nhận dạng
Một số ứng dụng cụ thể của lý thuyết tập thô đã được phát triển trong vài năm gần đây trong các lĩnh vực như y học, dược học, ngân hàng, tài chính, phân tích thị trường Tiếp cận tập thô cũng đóng vai trò quan trọng đối với nhiều ứng dụng kỹ thuật như máy chuẩn đoán, khoa học vật liệu,… Sự công bố của lý thuyết này tạo điều kiện phát triển nhiều ứng dụng mới [19,21] Một trong số các ứng dụng chính của tập thô trong trí tuệ nhân tạo là phân tích và khám phá tri thức từ dữ liệu [25]
Với những ưu điểm như vậy của lý thuyết tập thô, tôi đã dành thời gian để nghiên cứu và tìm hiểu về phương pháp luận này Luận văn đi sâu vào tìm hiểu ý tưởng và cơ sở toán học của lý thuyết tập thô Thông qua tìm hiểu và khai thác bộ công cụ ROSETTA (được xây dựng bởi Aleksander Ohrn và cộng sự thuộc nhóm nghiên cứu tri thức thuộc khoa Khoa học máy tính và thông tin của trường Đại học Norwegian, Trondheim, Na-uy cùng nhóm Logic thuộc ĐHTH Warsaw, Ba-lan), luận văn cũng đưa ra một số đề xuất ứng dụng thử nghiệm lý thuyết tập thô vào việc hỗ trợ quyết định chọn trường thi phù hợp với khả năng cho các em học sinh trước kỳ thi tuyển sinh đại học
Luận văn được trình bày gồm có ba chương:
Chương 1: Giới thiệu tổng quan về khám phá tri thức, các bài toán khai phá dữ liệu và các kỹ thuật khai phá dữ liệu Giới thiệu về các khái niệm cơ bản trong lý thuyết tập thô như: hệ thông tin, bảng quyết định, khái niệm không phân biệt được, tập xỉ trên, tập xỉ dưới và miền biên, ma trận phân biệt, rút gọn, v.v Nội dung của chương này được tổng hợp từ các tài liệu [5,6,7,8,9,10,15,12,18]
Trang 11 Chương 2: Trình bày quá trình khám phá tri thức theo cách tiếp cận tập thô và các phương pháp sử dụng trong quá trình khai phá dữ liệu Chẳng hạn như rời rạc hóa dữ liệu theo phương pháp lập luận logic, rút gọn thuộc tính theo phương pháp Heuristic, .v.v Nội dung chương này được tổng hợp từ các tài liệu [6,7,10,15,12,18,19,24]
Chương 3: Từ kết quả nghiên cứu trình bày trong chương một và chương hai, thông qua công cụ ROSETTA [11], đề xuất ứng dụng của lý thuyết tập thô vào thực tế trong bài toán tư vấn thi đại học
Trang 12TÀI LIỆU THAM KHẢO Tiếng Việt
[1] Việt Anh, Lương Nga (2005), “Hơn 500.000 thí sinh dự thi đại học đợt 1”, Báo điện tử, VnExpress http://vnexpress.net/Vietnam/Xahoi/2005/07/3B9DFE60/
[2] Kiều Oanh (2006), “Tuyển sinh 2007: 3 điểm mới”, Báo điện tử VietNamNet
http://www3.vietnamnet.vn/giaoduc/tuyensinh/tintuc-sukien/2007/01/651963/
[3] TS Lê Đình Tư (2005), “Vì sao tỉ lệ thi trượt ở Việt nam cao nhất thế giới”, Tạp
chí Tri thức trẻ
[4] Trung tâm tin học Bộ Giáo dục và Đào tạo (2006), Thống kê kết quả thi đại học năm 2006, http://ts.edu.net.vn/index.php
Tiếng Anh
[5] Alan Rea (1995), Data Mining-An Introduction, The Parallel Computer Centre,
The Queen’s University of Belfast
[6] Andrzej Skowron, Ning Zong (2000) Rough Sets in KDD Tutorial Notes
[7] Andrzej Skowron (2000) , “Rough sets and Boolean Reasoning”
[8] C.J.Matheus and P.K.Chan and G.Piatetsky-Shapiro (1993), System for
knowledge discovery in database, Ieee Trans On Knowledge and Data
Engineering, vol 5, pp 903-913, 1993
[9] Jiawei Han and Micheline Kamber (2001): Data mining: Concepts and
Techniques Academic Press 2001
[10] Jan Komorowski, Lech Polkowski, Andrzej Skowron (2000) Rough sets: A
tutorial
[11] Jan Komorowski, Aleksander Ohrn, Andrzej Skowron (2003) A Software System for Rough Data Analysis
[12] Jerzy W Grzymala-Busse (2004) Three Approaches to Missing Attribute Values-
A Rough Set Perspective Department of Electrical Engineering and Computer
Science University of Kansas, Lawrence, KS 66045, USA and Institute of
Trang 13Computer Science Polish Academy of Sciences, 01-237 Warsaw, Poland,
November 1-4, 2004
[13] Ho Tu Bao, Introduction to Knowledge Discovery and Data Mining, National
Center for Natural Science and Technology
[14] Mehmed Kantardzic (2003), Data Mining: Concepts, Models, Methods, and Algorithms, John Wiley & Sons, Copyright 2003 The Institute of Electrical and
Electronics Engineers, Inc
[15] Ning Zhong, Juzhen Dong (2001), “Using Rough Sets with Heuristics for Feature Selection”, Journal of Intelligent Information Systems, 16, 199–214, Kluwer Academic Publishers Manufactured in The Netherlands
[16] Nguyen Sinh Hoa, Nguyen Hung Son (1996), “Some Efficent Algorithms For Rough Set Methods”", Proceedings IPMU’96 (Information Processing and
Management under Uncertainty), Granada, Spain, 1451–1456
[17] Nguyen, S H., (2003), "On The Decision Table With Maximal Number Of
Reducts", Electronic Notes in Theoretical Computer Science 82 (No.4)
[18] Pawlak, Z., (2000), "Rough Sets And Their Applications", Computational
Intelligence In Theory And Practice, Springer-Verlag, 73-91
[19] Pawlak, Z (1991), Rough Sets: Theoretical Aspects of Reasoning About
Data Kluwer Academic Publishers, Dordrecht
[20] Son H.Nguyen & Andrzej Skowron (1997), “Quantization of Real Value
attributes”
[21] Slowinski, R (ed 1992.) Intelligent Decision Support: Handbook of
Applications and Advances of the Rough Sets Theory Kluwer Academic
Publishers, Dordrecht
[22] W.J Frawley and G.Piatetsky-Shapiro and C.J.Matheus (1992), Knowledge discovery in databases – an overview, Ai Magazine, vol 13, 1992
[23] Wojciech P Ziarko (Ed., 1994) Rough Sets, Fuzzy Sets and Knowledge
Discovery Proceedings of the International Workshop on Rough Sets and