Kumar 2000, A Comparison of Document Clustering Techniques, TextMining Workshop, KDD.. Karp 1997, Fast and Intuitive Clustering of Web Documents, Proc.. of the 3rd International Conferen
Trang 1ng Quang Huy
Hà N i – 2007
Trang 2ng Quang Huy
Ngành: Công ngh thông tin
Mã s : 1.01.10
NG I H NG D N KHOA H C:
TS OÀN S N
Hà N i - 2007
Trang 3M C L C
L I C M N 8
DANH M C CH VI T T T 9
DANH M C HÌNH V , B NG BI U 10
M U 12
CH NG 1: T NG QUAN V KHAI PHÁ D LI U VÀ BÀI TOÁN PHÂN C M TÀI LI U WEB 15
1.1 Khai phá d li u 15
1.1.1 Khai phá d li u là gì? 15
1.1.2 Các h ng ti p c n và các k thu t trong khai phá d li u 16
1.1.3 ng d ng c a khai phá d li u 17
1.2 D li u Fulltext và Hypertext 18
1.2.1 Fulltext 18
1.2.2 Hypertext 18
1.3 Khai phá d li u Web 21
1.3.1 Nhu c u 21
1.3.2 c đi m 22
1.3.3 Các h ng ti p c n 24
1.4 Bài toán phân c m tài li u Web 26
1.4.1 Gi i thi u bài toán 26
1.4.2 T i sao đ t ra bài toán phân c m tài li u Web 27
Trang 41.4.3 c đi m c a bài toán phân c m tài li u Web 28
1.4.4 Các yêu c u đ i v i bài toán phân c m tài li u Web 30
1.4.5 M t s đ i l ng đo đ chính xác cho bài toán 31
1.5 Nh ng khó kh n trong Phân c m ti ng Vi t 32
1.5.1 V n đ tách t ti ng Vi t 32
1.5.2 V n đ b ng mã ti ng Vi t 33
1.5.3 Các khó kh n khác 33
1.6 K t lu n ch ng 1 33
CH NG 2: CÁC PH NG PHÁP BI U DI N TÀI LI U 34
2.1 Mô hình không gian vector 34
2.1.1 M t s khái ni m 34
2.1.1.1 T khóa (keywords) 34
2.1.1.2 T d ng (stopwords) 35
2.1.1.3 C t b t (word stemming) 36
2.1.2 Mô hình t n s 37
2.1.3 Mô hình Boolean 39
2.1.4 Tính ch t c a vector 40
2.1.4.1 Tích trong 40
2.1.4.2 l n vector 41
2.2 Tách t trong ti ng Vi t 41
Trang 52.2.1 M t s đ c đi m chính v t ti ng Vi t 41
2.2.1.1 Ti ng 41
2.2.1.2 T 42
2.2.2 Tách t t đ ng ti ng Vi t 42
2.2.3 Các ph ng pháp tách t ti ng Vi t 42
2.2.3.1 fnTBL (Fast Transformation-based learning) 42
2.2.3.2 Longest matching 49
2.2.3.3 K t h p gi a fnTBL và Longest matching 49
2.3.1 o đ t ng t 49
2.3.1.1 t ng t trùng l p 49
2.3.1.2 t ng t Cosine 50
2.4 T ng k t ch ng 2 53
CH NG 3: CÁC THU T TOÁN PHÂN C M TÀI LI U 54
3.1 Gi i thi u 54
3.2 Phân ho ch Top-down 55
3.2.1 Thu t toán K-means v i gán “c ng” 55
3.2.2 Thu t toán K-means v i gán “m m” 57
3.2.3 ph c t p tính toán 58
3.3 Phân c m d a trên tính m i c a tài li u 58
3.3.1 Mô t 58
Trang 63.3.2 đo t ng t 59
3.3.3 Thu t toán phân c m d a trên thu t toán K-Means m r ng 60
3.3 3.1 Ch m c phân c m 60
3.3.3 2 Gi i thu t phân c m K-Means m r ng 61
3.3.4 ánh giá 62
3.4 Phân ho ch Bottom-up 63
3.4.1 Thu t toán phân c m tích t (AHC) 63
3.4.2 ph c t p tính toán 66
3.5 K t h p gi a bottom-up và top-down 67
3.5.1 Mô t 67
3.5.2 Thu t toán buckshot 67
3.6 Nh n xét 70
3.7 T ng k t ch ng 3 72
CH NG 4: K T QU TH C NGHI M V I PHÂN C M TI NG VI T 73
4.1 Môi tr ng th c nghi m 73
4.2 D li u 73
4.3 K t qu th c nghi m 75
4.3.1 So sánh các thu t toán phân c m 76
4.3.2 Phân c m s d ng tách t ti ng Vi t 80
4.4 K t lu n ch ng 4 82
Trang 7CH NG 5: T NG K T VÀ H NG PHÁT TRI N 84
5.1 T ng k t 84
5.2 H ng phát tri n 85
TÀI LI U THAM KHÁO 86
Trang 8M U
t v n đ
World Wide Web (WWW) là m t kho ch a l n nh t và đ c bi t đ n
r ng rãi nh t c a các siêu v n b n Các tài li u siêu v n b n ch a đ ng v n b n
và th ng nhúng các liên k t đ n các tài li u khác phân b trên Web Ngày nay, Web bao g m hàng t tài li u c a hàng tri u tác gi đ c t o ra , và đ c phân tán qua hàng tri u máy tính đ c k t n i qua đ ng dây đi n tho i, cáp quang, sóng radio… Web đang ngày càng đ c s d ng ph bi n trong nhi u l nh v c
nh báo chí, phát thanh, truy n hình, h th ng b u đi n, tr ng h c, các t ch c
th ng m i, chính ph … Chính vì v y l nh v c Web Mining hay tìm ki m t
đ ng các thông tin phù h p và có giá tr trên Web là m t ch đ quan tr ng trong Data Mining
Các h th ng tìm ki m thông tin hay nói ng n g n là các máy tìm ki m trên Web thông th ng tr l i m t danh sách các tài li u đ c phân h ng mà
ng i dùng s ph i t n công ch n l c trong m t danh sách r t dài đ có đ c
nh ng tài li u phù h p Ngoài ra các thông tin đó th ng r t phong phú, đa d ng
và liên quan đ n nhi u đ i t ng khác nhau i u này t o nên m t s nh p
nh ng gây khó kh n cho ng i s d ng trong vi c l y đ c thông tin c n thi t
Có nhi u h ng ti p c n khác nhau đ gi i quy t v n đ này Các h ng
này th ng chú ý gi m s nh p nh ng b ng các ph ng pháp l c hay thêm các tùy ch n đ c t b t thông tin Trong khuôn kh c a lu n v n ch t p trung vào
h ng bi u di n các thông tin tr v b i các máy tìm ki m thành t ng c m đ cho ng i dùng có th d dàng tìm đ c thông tin mà h c n ã có nhi u thu t toán phân c m tài li u d a trên phân c m ngo i tuy n toàn b t p tài li u Tuy
Trang 9nhiên t p h p tài li u c a các máy tìm ki m là quá l n và luôn thay đ i đ có th phân c m ngo i tuy n Do đó vi c phân c m ph i đ c ng d ng trên các t p tài
li u nh h n đ c tr v t các truy v n Và thay vì tr v m t danh sách r t dài các thông tin gây nh p nh ng cho ng i s d ng c n có m t ph ng pháp t
ch c l i các k t qu tìm ki m m t cách h p lý
a ra yêu c u c a bài toán phân c m tài li u Web Nh n m nh đ n k thu t phân c m K-Means m r ng, s d ng tính m i c a tài li u, đây là m t thu t toán phân c m t ng, th i gian tuy n tính đáp ng đ c các yêu c u c a bài toán phân c m tài li u Web K-Means m r ng không coi m t tài li u nh t p
h p các t mà là m t xâu s d ng quan h thông tin gi a các t
Tìm hi u các yêu c u c a bài toán phân c m tài li u Web
Trình bày m t s ph ng pháp bi u di n tài li u
Trình bày m t s ph ng pháp phân c m tài li u Web
M t s k t qu th c nghi m b c đ u
xu t h ng phát tri n
Do h n ch v m t th i gian nên vi c nghiên c u, tìm hi u m i ch thu
đ c nh ng ki n th c c b n v k thu t và nh ng th nghi m b c đ u nh ng
h a h n s phát tri n và ng d ng trong t ng lai
Trang 10Ch ng 1: Trong ch ng này gi i thi u t ng quan v khai phá d li u,
l nh v c khai phá d li u Web, t ng quan v bài toán phân c m tài li u nói chung, phân c m tài li u Web nói riêng, nh ng yêu c u đ i v i bài toán phân
c m tài li u Web Các đ i l ng dùng đ đo đ chính xác cho bài toán
Ch ng 2: Trình bày các ph ng pháp bi u di n tài li u Nh ng khó
kh n trong phân c m Ti ng Vi t và các ph ng pháp tách t ti ng Vi t, các cách
đo đ t ng t gi a các tài li u
Ch ng 3: Trình bày các thu t toán dùng đ phân c m tài li u Web nói
chung Trong ch ng này trình bày theo hai h ng ti p c n Thu t toán AHC (Agglomerative Hierarchical Clustering) tiêu bi u cho h ng phân c m
bottom-up Thu t toán K-means tiêu bi u cho h ng phân c m top-down Và s k t h p
gi a hai h ng đó – Buckshot
Trình bày thu t toán K-Means m r ng cho bài toán phân c m tài li u Web d a trên tính m i c a tài li u
Ch ng 4: K t qu th c nghi m
Ch ng 5: T ng k t và h ng phát tri n trong t ng lai
Trang 11TÀI LI U THAM KHÁO
Ti ng Vi t
[1]. inh i n, X lý ngôn ng t nhiên, NXB Giáo D c.
Ti ng Anh
[2] Sophoin, Yoshiharu Ishikawa và Hiroyuki Kitagawa (2006), Incremental Clustering Based on Novelty of Online Documents
[3] Clement T.Yu và Weiyi Meng (1998), Principles of Database Query Processing for Advanced Application, Morgan Kaufmann Publisher, Inc [4] Gerard Salton/Michael J.McGill, Introduction to Modern Information Retrieval
[5] Jiawei Han (2000), Data Mining: Concepts and Techiniques
[6] M Steinbach, G Karypis, V Kumar (2000), A Comparison of Document Clustering Techniques, TextMining Workshop, KDD
[7] O Zamir and O Etzioni (1998), Web Document Clustering: A Feasibility Demonstration, Proc of the 21st ACM SIGIR Conference, 46-54
[8] O Zamir, O Etzioni, O Madani, R M Karp (1997), Fast and Intuitive Clustering of Web Documents, Proc of the 3rd International Conference on Knowledge Discovery and Data Mining
[9] K Cios, W Pedrycs, R Swiniarski (1998), Data Mining – Methods for Knowledge Discovery, Kluwer Academic Publishers
Trang 12[10] R Krishnapuram, A Joshi, L Yi (1999), A Fuzzy Relative of the k-Medoids Algorithm with Application to Web Document and Snippet Clustering, Proc IEEE Intl Conf Fuzzy Systems, Korea
[11] Z Jiang, A Joshi, R Krishnapuram, L Yi (2000), Retriever: Improving Web Search Engine Results Using Clustering, Technical Report, CSEE Department, UMBC
[12] T H Haveliwala, A Gionis, P Indyk (2000), Scalable Techniques for Clustering the Web, Extended Abstract, WebDB’2000, Third International Workshop on the Web and Databases, In conjunction with ACM SIGMOD’2000, Dallas, TX
[13] A Bouguettaya (1996), On-Line Clustering, IEEE Trans on Knowledge and Data Engineering
[14] A K Jain và R C Dubes (1988), Algorithms for Clustering Data, John Wiley & Sons
[15] G Karypis, E Han, V Kumar (1999), CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32
[16] O Zamir và O Etzioni (1999), Grouper: A Dynamic Clustering Interface to Web Search Results, Proc of the 8th International World Wide Web Conference, Toronto, Canada
[17] D R Cutting, D R Karger, J O Pedersen, J.W Tukey (1993), Scatter/Gather: A Clusterbased Approach to Browsing Large Document Collections, In Proceedings of the 16th International ACM SIGIR Conference on Research and Development in Information Retrieval
Trang 13[18] R Michalski, I Bratko, M Kubat (1998), Machine Learning and Data Mining – Methods and Applications, John Wiley & Sons Ltd
[19] J Jang, C Sun, E Mizutani (1997), Neuro-Fuzzy and Soft Computing – A Computational Approach to Learning and Machine Intelligence, Prentice Hall
[20] G Biswas, J.B Weinberg, D Fisher (1998), ITERATE: A Conceptual Clustering Algorithm for Data Mining, IEEE Transactions on Systems, Man and Cybernetics
[21] Z Huang (1997), A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining, Workshop on Research Issues on Data Mining and Knowledge Discovery
[22] Y Yang và J Pedersen (1997), A Comparative Study on Feature Selection
in Text Categorization, In Proc of the 14th International Conference on Machine Learning
[23] A Guttman (1984) R-tree: A dynamic index structure for spatial searching,
In Proceedings of ACM SIGMOD
[24] Bjornal Larsen và Chinatsu Aone (1999) Fast and effective text mining using lineartime document clustering, In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, CA, USA
[25] C.J.van Rijbergen(1979), Information Retrieval, Butterworth & Co (Publishers) LTd
Trang 14[26] Wai-chiu Wong và Ada Fu (2000), Incremental Document Clustering for Web Page Classification, IEEE 2000 Int, Conf on Infor, Society in the 21st century: emerging technologies anf new challenges (IS2000), Nh t B n [27] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the Internet and the Web: Probabilistic Methods and Algorithms Wiley, 2003
[28] Sen Slattery (2002) Hypertext Classification PhD Thesis (CMU-CS-02-142) School of Computer Science Carnegie Mellon University, 2002