Vấn đề về luật kết hợp mờ và các toán tử có ngưỡng trong khai phá dữ liệu Lê Thị Thanh Hải Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Công nghệ thông tin; Mã số: 1 01 10 Ngườ
Trang 1Vấn đề về luật kết hợp mờ và các toán tử có
ngưỡng trong khai phá dữ liệu
Lê Thị Thanh Hải
Trường Đại học Công nghệ Luận văn ThS chuyên ngành: Công nghệ thông tin; Mã số: 1 01 10
Người hướng dẫn: PGS.TSKH Bùi Công Cường
Năm bảo vệ: 2007
Abstract: Trình bày khái quát về khai phá dữ liệu bằng luật kết hợp thông qua việc
đưa ra các khái niệm, định nghĩa và bài toán tìm luật kết hợp Những thuật toán điển hình về luật kết hợp như thuật toán Apriori và một vài thuật toán khác được đề cập để giải quyết bài toán Trình bày các khái niệm liên quan đến tập mờ, làm cơ sở đưa vào bài toán khai phá luật kết hợp và với các bài toán có thuộc tính số và hạng mục thì việc rời rạc hóa dữ liệu có thể xảy ra một vài nhược điểm như vấn đề "điểm biên gãy" Trình bày khái niệm về các toán tử có ngưỡng, đưa ra bài toán xây dựng luật kết hợp
mờ với các toán tử có ngưỡng và cài đặt thử nghiệm chương trình dùng dữ liệu về việc sử dụng Internet
Keywords: Công nghệ thông tin, Khai phá dữ liệu, Luật kết hợp mờ, Toán tử
Content
MỞ ĐẦU
Ngày nay với sự bùng nổ của khoa học công nghệ, của kỹ thuật số đã cho phép số hóa thông tin một cách dễ dàng Chính vì vậy, với lượng dữ liệu khổng lồ như công văn giấy tờ, chứng từ, tài liệu, thông tin khách hàng, số liệu kinh doanh,…việc đưa ra công cụ để phân tích và xử lý thông tin đã trở thành một vấn đề thiết yếu Ví dụ đối với ngành kinh doanh, các vấn đề về quảng cáo mặt hàng như thế nào? nên sắp đặt bố trí, nhập hàng ra sao? thường xuyên được đặt ra Và vì thế, khai phá dữ liệu đã trở thành một hướng nghiên cứu chính trong lĩnh vực khoa học máy tính và công nghệ tri thức để nhằm thực hiện các yêu cầu đó của xã hội
Để có thể chọn lọc được những thông tin có ý nghĩa, nhiều bài toán đã được đưa ra và một trong số đó là Khai phá luật kết hợp Khai phá luật kết hợp lần đầu tiên được đưa ra vào năm 1993 do Rakesh Agrawal, Tomasz Imielinsky và Arun Swami giới thiệu Sau đó, năm
Trang 21996 được Rakesh Agrawal, Heikki Mannila, Ramakrishnan Srikant, Hannu Toivonen và A Inkeri Verkamo tiếp tục phát triển Trong những năm gần đây, người ta tập trung vào cải tiến, phát triển thuật toán hiệu quả hơn từ các thuật toán đã có và xây dựng các thuật toán mới nhằm phát hiện các luật kết hợp có ý nghĩa
Các thông tin về dữ liệu trên thực tế không chỉ tồn tại ở dạng nhị phân (có hoặc không)
mà còn định lượng Chính vì vậy, các khái niệm của tập mờ đã được kết hợp với khai phá luật kết hợp để trở thành một hướng nghiên cứu mới Việc kết hợp các tập mờ thông qua các toán
tử (t-chuẩn, t-đối chuẩn) với ngưỡng là sự mở rộng hơn để giải quyết bài toán khai phá luật kết hợp
Do đây là một lĩnh vực nghiên cứu đang được quan tâm và có nhiều triển vọng nên tôi
đã chọn “Vấn đề về luật kết hợp mờ và các toán tử có ngưỡng trong khai phá dữ liệu” làm
đề tài cho luận văn của mình Luận văn được xây dựng trên nền của một số nghiên cứu về lĩnh vực này trong những năm gần đây
Luận văn được tổ chức thành 4 chương như sau:
Chương 1: Luật kết hợp Trong chương này tôi đã trình bày những nét khái quát nhất
về khai phá dữ liệu bằng luật kết hợp thông qua việc đưa ra các khái niệm, định nghĩa và bài toán tìm luật kết hợp Những thuật toán điển hình của luật kết hợp như thuật toán Apriori và một vài thuật toán khác cũng được đề cập để giải quyết bài toán
Chương 2: Luật kết hợp mờ với toán tử có ngưỡng Ở phần đầu của chương tôi trình bày các khái niệm liên quan đến tập mờ để từ đó làm cơ sở đưa vào bài toán khai phá luật kết hợp Với các bài toán có thuộc tính số và hạng mục thì việc rời rạc hóa dữ liệu có thể xảy ra một vài nhược điểm như vấn đề “điểm biên gãy” Vì thế luật kết hợp mờ là một giải pháp rất hiệu quả Phần cuối chương là các khái niệm về các toán tử có ngưỡng và đưa ra bài toán xây dựng luật kết hợp mờ với các toán tử có ngưỡng
Chương 3: Cài đặt thử nghiệm: Là phần cài đặt thử nghiệm chương trình dùng dữ liệu
về việc sử dụng internet
Kết luận: Phần này nêu lại những việc đã thực hiện và kết quả đạt được của luận văn, vấn đề còn chưa được giải quyết thấu đáo và một số hướng nghiên cứu trong tương lai
References
Tiếng Việt
xuất bản Khoa học và Kỹ thuật
Trang 3[2] Nguyễn Thanh Thủy (8/2001), Khai phá dữ liệu - Kỹ thuật và ứng dụng, Bài giảng
Trường thu Hệ mờ và ứng dụng, Hà Nội
ngưỡng
Tiếng Anh
[4] Rakesh Agrawal Ramakrishnan Srikant (1994), Fast Algorithms for Mining Association
Rules in Large Database, IBM Research Report RI9839, IBM Almaden Research
Center San Jose, Califorlia
[5] Jiawei Han, Jian Pei, and Yiwen Yin (2000), Mining Frequent Patterns without
Candidate Generation, Proceedings of the 2000 ACM SIGMOD International
Cinference on Manaement of Data, volume 29(2) of SIGMOD Record, pages 1-12
[6] Gosta Grahne and Jianfei Zhu (2003), Efficiently Using Prefix-trees in Mining Frequent
Itemsets, In Proceedings of FIMI’03, Concordia University Montreal, Canada
Databases, Department of Computer Science and Engineering The Chinese University
of Hong Kong Shatin, New Territories, Hong Kong
[8] Zahra Farzanyar, Moharnrnadreza Kangavari, Sattar Hashemi (2006), A New
Algorithm for Mining F'uzzy Association Rules in the Large Databases Based on Ontolog, Workshops Proceedings of the 6th IEEE International Conference on Data
Mining, Hong Kong, China IEEE Computer Society 2006
[9] Weining Zhang (1999), Mining Fuzzy Quantitative Association Rules, Proceedings of
IEEE International Conference on Tools with Artificial Intelligence 1999 Piscataway,
NJ, IEEE Press
[10] David L Olson, Yanhong Li (1/2007), Mining Fuzzy Weighted Association Rules,
40th Hawaii International International Conference on Systems Science (HICSS-40 2007), CD-ROM / Abstracts Proceedings, Waikoloa, Big Island, HI, USA IEEE Computer Society 2007
[11] Shuhong Zhang, Jianxun Sun, Pengcheng Wu (2007), Research on the Fuzzy
Quantitative Association Rules Mining Algorithm and Its Simulation, Fourth
International Conference on Fuzzy Systems and Knowledge Discovery (FSKD 2007)
[12] Bui Cong Cuong, Some computing procedures in fuzzy systems Institute of
Mathematics
[13] Attila Gyenesei (3/2000), A Fuzzy Approach for Mining Quantitative Association
Rules, Turku Centre for Computer Science TUCS Technical Report, No 336