Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán giám sát dựa trên giải thuật di truyền Đỗ Thị Hòa Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số:
Trang 1Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán giám sát dựa trên giải thuật di
truyền
Đỗ Thị Hòa
Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số: 60 48 10
Người hướng dẫn: PGS.TS Hoàng Xuân Huấn
Năm bảo vệ: 2011
Abstract: Tổng quan về phân cụm dữ liệu: Giới thiệu cách biểu diễn dữ liệu trong
máy tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương đồng giữa các đối tượng trong tập dữ liệu, các phương pháp phân cụm dữ liệu Với mỗi phương pháp phân cụm sẽ trình bày một số thuật toán tương ứng Giải thuật di truyền: Tổng quan về giải thuật di truyền với các cách biểu diễn dữ liệu, cách xây dựng một giải thuật di truyền và mô tả các phép toán thực hiện trên đó Phân tích ứng dụng của giải thuật di truyền trong bài toán phân cụm Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán bán giám sát dựa trên giải thuật di truyền Phân tích khái niệm, cấu trúc quan
hệ các bảng trong cơ sở dữ liệu, cách chuyển đổi dữ liệu Trình bày thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt dữ liệu Kết quả cài đặt thử nghiệm thuật toán Chương này trình bày các kết quả thực nghiệm về phương pháp tóm tắt dữ liệu quan hệ sử dụng thuật toán phân cụm bán giám sát dựa trên giải thuật
di truyền Cài đặt thử nghiệm cho thuật toán được thực hiện bằng ngôn ngữ C++ trên tập dữ liệu thử nghiệm về năng suất lúa Thông qua các nhận xét về giá trị các độ đo
đánh giá, kết quả thực hiện chương trình là khả quan
Keywords: Phân cụm dữ liệu; Thuật toán; Giải thuật di truyền; Công nghệ phần mềm Content
Trong thời đại hiện nay, cuộc cách mạng về khoa học và công nghệ đã có những bước phát triển vượt bậc, đánh dấu những mốc son đáng tự hào trong nền văn minh của thế giới Đóng góp một phần cho sự thay đổi này, không thể kể không kể đến các ngành đã và đang được xem là mũi nhọn hiện nay như: Công nghệ thông tin, điện tử và truyền thông, công nghệ sinh học… với những ứng dụng rộng rãi, đem lại những lợi ích to lớn cho các ngành khoa học khác và các hệ thống phục vụ cho đời sống, kinh tế, xã hội Cùng với sự phát triển này, một lượng dữ liệu ngày càng lớn và vô cùng phong phú đã được tạo ra Với các kho dữ liệu khổng
lồ như vậy, các thông tin yêu cầu từ nó không đơn thuần là các số liệu, mà đòi hỏi thêm ở mức cao hơn là các tri thức có thể hỗ trợ ra quyết định cho người dùng Đã có rất nhiều các công trình nghiên cứu về việc tổ chức các kho dữ liệu, các thuật toán nhận dạng mẫu, và phân lớp ảnh, các hệ thốn thông tin lớn, các hệ hỗ trợ ra quyết định, …được công bố và ứng dụng
Trang 2Một khái niệm mới là Data mining ra đời và mở ra những xu hướng mới trong công nghệ khám phá tri thức hiện nay
Một trong các hướng nghiên cứu của Data mining là Phân cụm dữ liệu Bài toán phân cụm dữ liệu thuộc lĩnh vực học không giám sát, nhằm phân tập dữ liệu thành các tập con, thỏa mãn điều kiện các đối tượng trong cùng một tập con có độ tương đồng cao, và ngược lại các đối tượng ở các tập con khác nhau thì có độ tương đồng thấp Hay nói cách khác, bài toán phân cụm dữ liệu là bài toán khám phá cấu trúc của tập dữ liệu Tùy theo đặc điểm cấu trúc của tập dữ liệu và mục đích sử dụng, có các phương pháp giải quyết khác nhau như: Phân cụm dựa vào phân hoạch, phân cụm theo phân cấp, phân cụm dựa vào mật độ và phân cụm dựa vào lưới Trong đó, phương pháp phân cụm bán giám sát đươc ứng dụng khá phổ biến Đây là phương pháp kết hợp giữa học không giám sát và học có giám sát
Trong việc giải quyết bài toán phân loại trong khai phá dữ liệu quan hệ, các phương pháp truyền thống thường yêu cầu liên kết dữ liệu được lưu trong nhiều bảng thành một bảng duy nhất Khi đó, bảng dữ liệu thu được sẽ có kích thước vô cùng lớn Để truy vấn, phải sử dụng các phép toán đại số quan hệ và tối ưu các phép toán này bằng phương pháp tối ưu truy vấn heuristic tức là tìm cách thực hiện các phép chiếu, phép chọn trước các phép toán 2 ngôi Trong một số trường hợp khi nối nhiều bảng sẽ gây mất thông tin hoặc trùng lặp dữ liệu Do
đó, chuyển đổi dữ liệu trở thành phức tạp và tóm tắt dữ liệu thường kém hiệu quả Mặt khác, việc áp dụng các phương pháp tóm tắt dữ liệu trong khai phá dữ liệu được lưu trên nhiều bảng
có quan hệ một-nhiều thường bị hạn chế do sự phức tạp của lược đồ cơ sở dữ liệu
Để có thể khắc phục được các vấn đề nêu trên, luận văn sẽ nghiên cứu một phương pháp tiếp cận: Sử dụng kỹ thuật phần cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt
dữ liệu được lưu trong nhiều bảng Nghiên cứu này dựa trên ý tưởng nghiên cứu của Rayner Alfred [17] Kết quả của thuật toán được áp dụng phân cụm cho dữ liệu thử nghiệm năng suất lúa
Ngoài phần kết luận và các phụ lục, phần còn lại của luận văn được chia thành 4 chương chính:
Chương I - Tổng quan về phân cụm dữ liệu Giới thiệu cách biểu diễn dữ liệu trong máy
tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương đồng giữa các đối tượng trong tập dữ liệu, các phương pháp phân cụm dữ liệu Với mỗi phương pháp phân cụm sẽ trình bày một số thuật toán tương ứng
Chương II – Giải thuật di truyền Chương này trình bày về giải thuật di truyền với các cách
biểu diễn dữ liệu, cách xây dựng một giải thuật di truyền và mô tả các phép toán thực hiện
trên đó Tiếp theo là phân tích ứng dụng của giải thuật di truyền trong bài toán phân cụm
Chương III – Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán bán giám sát dựa trên giải thuật di truyền Chương này đi sâu phân tích khái niệm, cấu trúc quan hệ
các bảng trong cơ sở dữ liệu, cách chuyển đổi dữ liệu Thông qua đó luận văn trình bày thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt dữ liệu
Trang 3Chương IV - Kết quả cài đặt thử nghiệm thuật toán Chương này trình bày các kết quả
thực nghiệm về phương pháp tóm tắt dữ liệu quan hệ sử dụng thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền Chương trình cài đặt thử nghiệm cho thuật toán được thực hiện bằng ngôn ngữ C++ trên tập dữ liệu thử nghiệm về năng suất lúa Thông qua các nhận xét về giá trị các độ đo đánh giá, kết quả thực hiện chương trình là khả quan
Phần Kết luận trình bày tổng hợp các kết quả thực hiện luận văn và phương hướng nghiên
cứu tiếp theo về các nội dung của luận văn Mặc dù đã có một môi trường làm việc tương đối đầy đủ và thuận tiện, nhưng luận văn chắc hẳn sẽ không tránh khỏi có nhiều thiếu sót Rất mong được sự đóng góp ý kiến, nhận xét để tôi có thể hoàn thiện được kết quả làm việc của mình
References
[1] Basu, B., A Banerjee and R Mooney, 2002 Semi-supervised clustering by seeding
Proceedings of the 19th International Conference on Machine
Learning, July 2002, Morgan Kaufmann Publishers Inc., San Francisco, CA., USA., pp: 27-34
[2] Blockeel, H and L de Raedt, 1998 Top-down induction of first-order logical
decision trees Artif Intell
[3] Blockeel, H and M Sebag, 2003 Scalability and efficiency in multi-relational data
mining SIGKDD Explorat
[4] Breiman, L., J Friedman, T Olshen and C Stone, 1984 Classification and
Regression Trees 1st Edn., Wadsworth International, California, ISBN:10:
0412048418, pp: 368
[5] Davies, D.L and D.W Bouldin, 1979 A cluster separation measure IEEE Trans
Pattern Anal Mach Intel., PAMI, 1: 24-227 DOI: 10.1109/TPAMI.1979.4766909 [6] Finn, P.W., S Muggleton, D Page and A Srinivasan, 1998 Pharmacophore
discovery using the inductive logic programming system Progol Mach.Learn., 30: 241-270 DOI: 10.1023/A:1007460424845
[7] Gautam, G and B.B Chaudhuri, 2004 A novel genetic algorithm for automatic
clustering Patt Recogn Lett., 25: 173-187 DOI: 10.1016/j.patrec.2003.09 012 [8] Goldberg, D.E., 1989 Genetic Algorithms-in Search,Optimization and Machine
Learning 1st Edn., Addison-Wesley Publishing Company Inc
[9] Holland, J., 1975 Adaptation in Natural and Artificial Systems 1st Edn., University
of Michigan Press
[10] Kirsten, M and S Wrobel, 1998 Relational distance-based clustering Proceeding of
the 8th International Conference on Inductive Logic Programming, July 22-24, Springer-Verlag, London, UK., pp: 261-270
Trang 4[11] Kirsten, M and S Wrobel, 2000 Extending K-means clustering to first-order
representations Proceeding of the 10th International Conference on Inductive
Logic Programming, July 24-27, Springer-Verlag, London, UK., pp: 112-129
http://portal.acm.org/citation.cfm?id=648000.742935
[12] Krogel, M.A and S Wrobel, 2001 Transformation-based learning using
multirelational aggregation Lecturere Notes Comput Sci
[13] Lachiche, N and P Flach, 2000 A First-Order Representation for Knowledge
Discovery and Bayesian Classification on Relational Data In: Mining, decision Support, Meta-learning and ILP: Forum for Practical Problem Presentation and Prospective Solutions, Pavel, B and J Alipio(Eds.) Citeseerx, pp: 49-60
[14] Laura, E.R and S Kilian, 2004 Theoretical comparison between the Gini index and
information gain criteria Ann Math Artif Intell.,41: 77-93
[15] Rayner, A and K Dimitar, 2007 Clustering approach to generalized pattern
identification based on multi-instanced objects with DARA Proceeding of the Communications of the 11th East-European Conference on Advances in Databases and Information Systems, Sept 2007, Technical University of Varna, pp: 1-12
[16] Rayner, A., 2008 A genetic-based feature construction method for data
summarization Proceeding of the 4th International Conference on Advanced Data Mining and Applications, Oct 8-10, ACM Press, Chengdu, China, pp: 39-50
http://portal.acm.org/citation.cfm?id=1428392.1428400
[17] Rayner Alfred-Joural of Computer Science 6(7):775-784,2010 Summarizing
Relational Data Using Semi-Supervised Genetic Algorithm-Based Clustering Techniques
[18] Salton, G and M Michael, 1984 Introduction to Modern Information Retrieval
McGraw-Hill, Inc., New York, USA., ISBN: 0070544840
[19] Srinivasan, A., S Muggleton, M.J.E Sternberg and R.D King, 1996 Theories for
mutagenicity: Study in first-order and feature-based induction Artif Intell
[20] Witten, I.H and E Frank, 1999 Data Mining: Practical Machine Learning Tools and
Techniques with Java Implementations 1st Edn., Morgan Kaufmann