Phân cụm dữ liệu dựa trên đồ thị sử dụng cây khung cự tiểu Trần Quang Hào Trường Đại học Công nghệ Luận văn ThS.. 1./ Nghiên cứu tài liệu để hệ thống lại các vấn đề sau: - Khám phá tri
Trang 1Phân cụm dữ liệu dựa trên đồ thị sử dụng cây
khung cự tiểu Trần Quang Hào
Trường Đại học Công nghệ Luận văn ThS Kỹ thuật Phần mềm; Mã số: 60 48 01 03 Người hướng dẫn: PGS.TS Hoàng Xuân Huấn
Năm bảo vệ: 2014
Abstract 1./ Nghiên cứu tài liệu để hệ thống lại các vấn đề sau:
- Khám phá tri thức và phân cụm dữ liệu
- Một số phương pháp phân cụm chính
- Nghiên cứu giải thuật 2 –MSTs phân cụm dữ liệu
- Phân cụm dữ liệu dựa trên đồ thị sử dụng cây khung cực tiểu
2./ Luận văn đã cài đặt thuật toán
Luận văn đã chạy thử nghiệm với 2 bộ dữ liệu với CSDL với nhiều thuộc tính và nhiều bản ghi, trong đó có thử nghiệm với một bộ dữ liệu thực tế
Keywords Dữ liệu máy tính; Kỹ thuật phần mềm; Phân cụm dữ liệu; Cây khung cự tiểu
Content
Chương 1: Giới thiê ̣u về khám phá trí thức và phân cu ̣m dữ liê ̣u
Chương này sẽ trình bày các khái niê ̣m cơ bản về khám phá tri thức và phân cu ̣m dữ liê ̣u, tóm tắt
mô ̣t số phương pháp phân cu ̣m dữ liê ̣u điển hình
Chương 2: Thuâ ̣t toán phân cu ̣m sử du ̣ng cây khung cực tiểu
Trong chương này để làm rõ hơn kỹ thuật phân cụm dữ liệu dựa trên đồ thị sử dụng cây
khung cực tiểu , một số vấn đề liên quan đến cây khung cực tiểu được trình bày , ngoài ra sẽ phân
tích kỹ thuật phân cụm cây khung cực tiểu, tìm hiểu thuật toán phân cụm 2-MSTs
Chương 3: Thực nghiê ̣m ứng du ̣ng
Trong phần thực nghiê ̣m , cài đặt thuật toán 2-MSTs và mô phỏng thuâ ̣t toán qua ví du ̣
khai thác bay của ngành hàng không
Trang 2Phần kết luận trình bày tóm tắt về các nội dung thực hiện trong luận văn, đồng thời đưa ra các vấn đề nghiên cứu tiếp cho tương lai
References
Tiếng việt
[1] PGS.TS Hoàng Xuân Huấn (2012), Giáo trình Nhận dạng mẫu, Trường Đại học công nghệ -
Đại Học Quốc Gia Hà Nội
[2] PGS.TS Đỗ Đức Giáo, Toán học rời rạc, Giáo trình khoa CNTT, ĐHKHTN, ĐHQGHN,
1998
Tiếng Anh
[3] Caiming Zhong1,2,3, Duoqian Miao1,2,4, Ruizhi Wang1,2, Agraph-theoretical clustering method
based on two rounds ofminimum spanning trees,
1) Department of Computer Science and Technology, Tongji University, Shanghai
201804, PR China
2) Key Laboratory of Embedded System & Service Computing, Ministry of Education of China, Shanghai 201804, PR China
3) College of Science and Technology, Ningbo University, Ningbo 315211, PR China
4) Corresponding author at: Department of Computer Science and Technology,
Tongji University, Shanghai 201804, PR China
[4] Alan Rea (1009), Data mining - An introdution, The Parallel Computer Center, The Queen’s
University of Belfast
[5] Daniel T.Larose, Discovering knowledge in data, Wiley Publishing 2011
[6] Jiawei Han, Micheline Kamber, Data Mining Concepts and techniques, Second Edition,
Elsevier Inc, 2011
[7] Jiawei Han and Micheline Kamber (2001), “Data Mining: Concepts and Techniques”,
Hacours Science and Technology Company, USA
[8] L John, “Operational Data Stores: Building an Effective Strategy”, Data Warehouse: Practical Advive from the Experts, Prentice Hall, NJ, 2009
Trang 3[9] P Berkhin: Survey of Clustering Data Mining Techniques Research paper Accrue Software, Inc, http://www.accrue.com, 2009
[10] Anil K.Jain, Richard C.Dubes (1988), Algorithms for Clustering Data
[11] Daniel Barbara, Julia Couto, Yi Li (October 1, 2001), “COOLCAT: An entropy-based
algorithm for categorical clustering”, George MasonUniversity Information and Software
Engineering Department Fairfax, VA22030, pp 582 - 589
[12] MARIA HALKIDI (2001), “On Clustering Validation Techniques”, Kluwer Academic
Publishers, Holland
[13] Usama M Fayyad, Gregory Piatetsky-Shapiro, Padhraic Smyth (1996), “From Data Mining
to Knowledge Discovery”: An Overview, Advances in Knowledge Discovery and Data Mining
1996, pp 37 - 54
[14] S Ghosh, S.K Dubey (2013), Comparative Analysis of K-Means and Fuzzy C-Means
Algorithms, International Journal of Advanced Computer Science and Applications, Vol 4,
No.4, pp 35-39