Báo cáo "Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán giám sát dựa trên giải thuật di truyền " ppt

Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán giám sát dựa trên giải thuật di truyền Đỗ Thị Hòa Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số:

Trang 1

Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán giám sát dựa trên giải thuật di

truyền

Đỗ Thị Hòa

Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Công nghệ phần mềm; Mã số: 60 48 10

Người hướng dẫn: PGS.TS Hoàng Xuân Huấn

Năm bảo vệ: 2011

Abstract: Tổng quan về phân cụm dữ liệu: Giới thiệu cách biểu diễn dữ liệu trong

máy tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương đồng giữa các đối tượng trong tập dữ liệu, các phương pháp phân cụm dữ liệu Với mỗi phương pháp phân cụm sẽ trình bày một số thuật toán tương ứng Giải thuật di truyền: Tổng quan về giải thuật di truyền với các cách biểu diễn dữ liệu, cách xây dựng một giải thuật di truyền và mô tả các phép toán thực hiện trên đó Phân tích ứng dụng của giải thuật di truyền trong bài toán phân cụm Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán bán giám sát dựa trên giải thuật di truyền Phân tích khái niệm, cấu trúc quan

hệ các bảng trong cơ sở dữ liệu, cách chuyển đổi dữ liệu Trình bày thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt dữ liệu Kết quả cài đặt thử nghiệm thuật toán Chương này trình bày các kết quả thực nghiệm về phương pháp tóm tắt dữ liệu quan hệ sử dụng thuật toán phân cụm bán giám sát dựa trên giải thuật

di truyền Cài đặt thử nghiệm cho thuật toán được thực hiện bằng ngôn ngữ C++ trên tập dữ liệu thử nghiệm về năng suất lúa Thông qua các nhận xét về giá trị các độ đo

đánh giá, kết quả thực hiện chương trình là khả quan

Keywords: Phân cụm dữ liệu; Thuật toán; Giải thuật di truyền; Công nghệ phần mềm Content

Trong thời đại hiện nay, cuộc cách mạng về khoa học và công nghệ đã có những bước phát triển vượt bậc, đánh dấu những mốc son đáng tự hào trong nền văn minh của thế giới Đóng góp một phần cho sự thay đổi này, không thể kể không kể đến các ngành đã và đang được xem là mũi nhọn hiện nay như: Công nghệ thông tin, điện tử và truyền thông, công nghệ sinh học… với những ứng dụng rộng rãi, đem lại những lợi ích to lớn cho các ngành khoa học khác và các hệ thống phục vụ cho đời sống, kinh tế, xã hội Cùng với sự phát triển này, một lượng dữ liệu ngày càng lớn và vô cùng phong phú đã được tạo ra Với các kho dữ liệu khổng

lồ như vậy, các thông tin yêu cầu từ nó không đơn thuần là các số liệu, mà đòi hỏi thêm ở mức cao hơn là các tri thức có thể hỗ trợ ra quyết định cho người dùng Đã có rất nhiều các công trình nghiên cứu về việc tổ chức các kho dữ liệu, các thuật toán nhận dạng mẫu, và phân lớp ảnh, các hệ thốn thông tin lớn, các hệ hỗ trợ ra quyết định, …được công bố và ứng dụng

Trang 2

Một khái niệm mới là Data mining ra đời và mở ra những xu hướng mới trong công nghệ khám phá tri thức hiện nay

Một trong các hướng nghiên cứu của Data mining là Phân cụm dữ liệu Bài toán phân cụm dữ liệu thuộc lĩnh vực học không giám sát, nhằm phân tập dữ liệu thành các tập con, thỏa mãn điều kiện các đối tượng trong cùng một tập con có độ tương đồng cao, và ngược lại các đối tượng ở các tập con khác nhau thì có độ tương đồng thấp Hay nói cách khác, bài toán phân cụm dữ liệu là bài toán khám phá cấu trúc của tập dữ liệu Tùy theo đặc điểm cấu trúc của tập dữ liệu và mục đích sử dụng, có các phương pháp giải quyết khác nhau như: Phân cụm dựa vào phân hoạch, phân cụm theo phân cấp, phân cụm dựa vào mật độ và phân cụm dựa vào lưới Trong đó, phương pháp phân cụm bán giám sát đươc ứng dụng khá phổ biến Đây là phương pháp kết hợp giữa học không giám sát và học có giám sát

Trong việc giải quyết bài toán phân loại trong khai phá dữ liệu quan hệ, các phương pháp truyền thống thường yêu cầu liên kết dữ liệu được lưu trong nhiều bảng thành một bảng duy nhất Khi đó, bảng dữ liệu thu được sẽ có kích thước vô cùng lớn Để truy vấn, phải sử dụng các phép toán đại số quan hệ và tối ưu các phép toán này bằng phương pháp tối ưu truy vấn heuristic tức là tìm cách thực hiện các phép chiếu, phép chọn trước các phép toán 2 ngôi Trong một số trường hợp khi nối nhiều bảng sẽ gây mất thông tin hoặc trùng lặp dữ liệu Do

đó, chuyển đổi dữ liệu trở thành phức tạp và tóm tắt dữ liệu thường kém hiệu quả Mặt khác, việc áp dụng các phương pháp tóm tắt dữ liệu trong khai phá dữ liệu được lưu trên nhiều bảng

có quan hệ một-nhiều thường bị hạn chế do sự phức tạp của lược đồ cơ sở dữ liệu

Để có thể khắc phục được các vấn đề nêu trên, luận văn sẽ nghiên cứu một phương pháp tiếp cận: Sử dụng kỹ thuật phần cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt

dữ liệu được lưu trong nhiều bảng Nghiên cứu này dựa trên ý tưởng nghiên cứu của Rayner Alfred [17] Kết quả của thuật toán được áp dụng phân cụm cho dữ liệu thử nghiệm năng suất lúa

Ngoài phần kết luận và các phụ lục, phần còn lại của luận văn được chia thành 4 chương chính:

Chương I - Tổng quan về phân cụm dữ liệu Giới thiệu cách biểu diễn dữ liệu trong máy

tính nhằm phục vụ cho quá trình phân cụm, giới thiệu độ tương đồng giữa các đối tượng trong tập dữ liệu, các phương pháp phân cụm dữ liệu Với mỗi phương pháp phân cụm sẽ trình bày một số thuật toán tương ứng

Chương II – Giải thuật di truyền Chương này trình bày về giải thuật di truyền với các cách

biểu diễn dữ liệu, cách xây dựng một giải thuật di truyền và mô tả các phép toán thực hiện

trên đó Tiếp theo là phân tích ứng dụng của giải thuật di truyền trong bài toán phân cụm

Chương III – Tóm tắt dữ liệu quan hệ sử dụng phương pháp phân cụm bán bán giám sát dựa trên giải thuật di truyền Chương này đi sâu phân tích khái niệm, cấu trúc quan hệ

các bảng trong cơ sở dữ liệu, cách chuyển đổi dữ liệu Thông qua đó luận văn trình bày thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền để tóm tắt dữ liệu

Trang 3

Chương IV - Kết quả cài đặt thử nghiệm thuật toán Chương này trình bày các kết quả

thực nghiệm về phương pháp tóm tắt dữ liệu quan hệ sử dụng thuật toán phân cụm bán giám sát dựa trên giải thuật di truyền Chương trình cài đặt thử nghiệm cho thuật toán được thực hiện bằng ngôn ngữ C++ trên tập dữ liệu thử nghiệm về năng suất lúa Thông qua các nhận xét về giá trị các độ đo đánh giá, kết quả thực hiện chương trình là khả quan

Phần Kết luận trình bày tổng hợp các kết quả thực hiện luận văn và phương hướng nghiên

cứu tiếp theo về các nội dung của luận văn Mặc dù đã có một môi trường làm việc tương đối đầy đủ và thuận tiện, nhưng luận văn chắc hẳn sẽ không tránh khỏi có nhiều thiếu sót Rất mong được sự đóng góp ý kiến, nhận xét để tôi có thể hoàn thiện được kết quả làm việc của mình

References

[1] Basu, B., A Banerjee and R Mooney, 2002 Semi-supervised clustering by seeding

Proceedings of the 19th International Conference on Machine

Learning, July 2002, Morgan Kaufmann Publishers Inc., San Francisco, CA., USA., pp: 27-34

[2] Blockeel, H and L de Raedt, 1998 Top-down induction of first-order logical

decision trees Artif Intell

[3] Blockeel, H and M Sebag, 2003 Scalability and efficiency in multi-relational data

mining SIGKDD Explorat

[4] Breiman, L., J Friedman, T Olshen and C Stone, 1984 Classification and

Regression Trees 1st Edn., Wadsworth International, California, ISBN:10:

0412048418, pp: 368

[5] Davies, D.L and D.W Bouldin, 1979 A cluster separation measure IEEE Trans

Pattern Anal Mach Intel., PAMI, 1: 24-227 DOI: 10.1109/TPAMI.1979.4766909 [6] Finn, P.W., S Muggleton, D Page and A Srinivasan, 1998 Pharmacophore

discovery using the inductive logic programming system Progol Mach.Learn., 30: 241-270 DOI: 10.1023/A:1007460424845

[7] Gautam, G and B.B Chaudhuri, 2004 A novel genetic algorithm for automatic

clustering Patt Recogn Lett., 25: 173-187 DOI: 10.1016/j.patrec.2003.09 012 [8] Goldberg, D.E., 1989 Genetic Algorithms-in Search,Optimization and Machine

Learning 1st Edn., Addison-Wesley Publishing Company Inc

[9] Holland, J., 1975 Adaptation in Natural and Artificial Systems 1st Edn., University

of Michigan Press

[10] Kirsten, M and S Wrobel, 1998 Relational distance-based clustering Proceeding of

the 8th International Conference on Inductive Logic Programming, July 22-24, Springer-Verlag, London, UK., pp: 261-270

Trang 4

[11] Kirsten, M and S Wrobel, 2000 Extending K-means clustering to first-order

representations Proceeding of the 10th International Conference on Inductive

Logic Programming, July 24-27, Springer-Verlag, London, UK., pp: 112-129

http://portal.acm.org/citation.cfm?id=648000.742935

[12] Krogel, M.A and S Wrobel, 2001 Transformation-based learning using

multirelational aggregation Lecturere Notes Comput Sci

[13] Lachiche, N and P Flach, 2000 A First-Order Representation for Knowledge

Discovery and Bayesian Classification on Relational Data In: Mining, decision Support, Meta-learning and ILP: Forum for Practical Problem Presentation and Prospective Solutions, Pavel, B and J Alipio(Eds.) Citeseerx, pp: 49-60

[14] Laura, E.R and S Kilian, 2004 Theoretical comparison between the Gini index and

information gain criteria Ann Math Artif Intell.,41: 77-93

[15] Rayner, A and K Dimitar, 2007 Clustering approach to generalized pattern

identification based on multi-instanced objects with DARA Proceeding of the Communications of the 11th East-European Conference on Advances in Databases and Information Systems, Sept 2007, Technical University of Varna, pp: 1-12

[16] Rayner, A., 2008 A genetic-based feature construction method for data

summarization Proceeding of the 4th International Conference on Advanced Data Mining and Applications, Oct 8-10, ACM Press, Chengdu, China, pp: 39-50

http://portal.acm.org/citation.cfm?id=1428392.1428400

[17] Rayner Alfred-Joural of Computer Science 6(7):775-784,2010 Summarizing

Relational Data Using Semi-Supervised Genetic Algorithm-Based Clustering Techniques

[18] Salton, G and M Michael, 1984 Introduction to Modern Information Retrieval

McGraw-Hill, Inc., New York, USA., ISBN: 0070544840

[19] Srinivasan, A., S Muggleton, M.J.E Sternberg and R.D King, 1996 Theories for

mutagenicity: Study in first-order and feature-based induction Artif Intell

[20] Witten, I.H and E Frank, 1999 Data Mining: Practical Machine Learning Tools and

Techniques with Java Implementations 1st Edn., Morgan Kaufmann

Định dạng
Số trang	4
Dung lượng	157,92 KB