1. Trang chủ
  2. » Văn Hóa - Nghệ Thuật

Phương pháp thu thập, đánh giá và phân cụm thông tin tiếng Việt trên Internet

14 330 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 14
Dung lượng 299,19 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Kumar 2000, A Comparison of Document Clustering Techniques, TextMining Workshop, KDD.. Karp 1997, Fast and Intuitive Clustering of Web Documents, Proc.. of the 3rd International Conferen

Trang 1

ng Quang Huy

Hà N i – 2007

Trang 2

ng Quang Huy

Ngành: Công ngh thông tin

Mã s : 1.01.10

NG I H NG D N KHOA H C:

TS OÀN S N

Hà N i - 2007

Trang 3

M C L C

L I C M N 8

DANH M C CH VI T T T 9

DANH M C HÌNH V , B NG BI U 10

M U 12

CH NG 1: T NG QUAN V KHAI PHÁ D LI U VÀ BÀI TOÁN PHÂN C M TÀI LI U WEB 15

1.1 Khai phá d li u 15

1.1.1 Khai phá d li u là gì? 15

1.1.2 Các h ng ti p c n và các k thu t trong khai phá d li u 16

1.1.3 ng d ng c a khai phá d li u 17

1.2 D li u Fulltext và Hypertext 18

1.2.1 Fulltext 18

1.2.2 Hypertext 18

1.3 Khai phá d li u Web 21

1.3.1 Nhu c u 21

1.3.2 c đi m 22

1.3.3 Các h ng ti p c n 24

1.4 Bài toán phân c m tài li u Web 26

1.4.1 Gi i thi u bài toán 26

1.4.2 T i sao đ t ra bài toán phân c m tài li u Web 27

Trang 4

1.4.3 c đi m c a bài toán phân c m tài li u Web 28

1.4.4 Các yêu c u đ i v i bài toán phân c m tài li u Web 30

1.4.5 M t s đ i l ng đo đ chính xác cho bài toán 31

1.5 Nh ng khó kh n trong Phân c m ti ng Vi t 32

1.5.1 V n đ tách t ti ng Vi t 32

1.5.2 V n đ b ng mã ti ng Vi t 33

1.5.3 Các khó kh n khác 33

1.6 K t lu n ch ng 1 33

CH NG 2: CÁC PH NG PHÁP BI U DI N TÀI LI U 34

2.1 Mô hình không gian vector 34

2.1.1 M t s khái ni m 34

2.1.1.1 T khóa (keywords) 34

2.1.1.2 T d ng (stopwords) 35

2.1.1.3 C t b t (word stemming) 36

2.1.2 Mô hình t n s 37

2.1.3 Mô hình Boolean 39

2.1.4 Tính ch t c a vector 40

2.1.4.1 Tích trong 40

2.1.4.2 l n vector 41

2.2 Tách t trong ti ng Vi t 41

Trang 5

2.2.1 M t s đ c đi m chính v t ti ng Vi t 41

2.2.1.1 Ti ng 41

2.2.1.2 T 42

2.2.2 Tách t t đ ng ti ng Vi t 42

2.2.3 Các ph ng pháp tách t ti ng Vi t 42

2.2.3.1 fnTBL (Fast Transformation-based learning) 42

2.2.3.2 Longest matching 49

2.2.3.3 K t h p gi a fnTBL và Longest matching 49

2.3.1 o đ t ng t 49

2.3.1.1 t ng t trùng l p 49

2.3.1.2 t ng t Cosine 50

2.4 T ng k t ch ng 2 53

CH NG 3: CÁC THU T TOÁN PHÂN C M TÀI LI U 54

3.1 Gi i thi u 54

3.2 Phân ho ch Top-down 55

3.2.1 Thu t toán K-means v i gán “c ng” 55

3.2.2 Thu t toán K-means v i gán “m m” 57

3.2.3 ph c t p tính toán 58

3.3 Phân c m d a trên tính m i c a tài li u 58

3.3.1 Mô t 58

Trang 6

3.3.2 đo t ng t 59

3.3.3 Thu t toán phân c m d a trên thu t toán K-Means m r ng 60

3.3 3.1 Ch m c phân c m 60

3.3.3 2 Gi i thu t phân c m K-Means m r ng 61

3.3.4 ánh giá 62

3.4 Phân ho ch Bottom-up 63

3.4.1 Thu t toán phân c m tích t (AHC) 63

3.4.2 ph c t p tính toán 66

3.5 K t h p gi a bottom-up và top-down 67

3.5.1 Mô t 67

3.5.2 Thu t toán buckshot 67

3.6 Nh n xét 70

3.7 T ng k t ch ng 3 72

CH NG 4: K T QU TH C NGHI M V I PHÂN C M TI NG VI T 73

4.1 Môi tr ng th c nghi m 73

4.2 D li u 73

4.3 K t qu th c nghi m 75

4.3.1 So sánh các thu t toán phân c m 76

4.3.2 Phân c m s d ng tách t ti ng Vi t 80

4.4 K t lu n ch ng 4 82

Trang 7

CH NG 5: T NG K T VÀ H NG PHÁT TRI N 84

5.1 T ng k t 84

5.2 H ng phát tri n 85

TÀI LI U THAM KHÁO 86

Trang 8

M U

t v n đ

World Wide Web (WWW) là m t kho ch a l n nh t và đ c bi t đ n

r ng rãi nh t c a các siêu v n b n Các tài li u siêu v n b n ch a đ ng v n b n

và th ng nhúng các liên k t đ n các tài li u khác phân b trên Web Ngày nay, Web bao g m hàng t tài li u c a hàng tri u tác gi đ c t o ra , và đ c phân tán qua hàng tri u máy tính đ c k t n i qua đ ng dây đi n tho i, cáp quang, sóng radio… Web đang ngày càng đ c s d ng ph bi n trong nhi u l nh v c

nh báo chí, phát thanh, truy n hình, h th ng b u đi n, tr ng h c, các t ch c

th ng m i, chính ph … Chính vì v y l nh v c Web Mining hay tìm ki m t

đ ng các thông tin phù h p và có giá tr trên Web là m t ch đ quan tr ng trong Data Mining

Các h th ng tìm ki m thông tin hay nói ng n g n là các máy tìm ki m trên Web thông th ng tr l i m t danh sách các tài li u đ c phân h ng mà

ng i dùng s ph i t n công ch n l c trong m t danh sách r t dài đ có đ c

nh ng tài li u phù h p Ngoài ra các thông tin đó th ng r t phong phú, đa d ng

và liên quan đ n nhi u đ i t ng khác nhau i u này t o nên m t s nh p

nh ng gây khó kh n cho ng i s d ng trong vi c l y đ c thông tin c n thi t

Có nhi u h ng ti p c n khác nhau đ gi i quy t v n đ này Các h ng

này th ng chú ý gi m s nh p nh ng b ng các ph ng pháp l c hay thêm các tùy ch n đ c t b t thông tin Trong khuôn kh c a lu n v n ch t p trung vào

h ng bi u di n các thông tin tr v b i các máy tìm ki m thành t ng c m đ cho ng i dùng có th d dàng tìm đ c thông tin mà h c n ã có nhi u thu t toán phân c m tài li u d a trên phân c m ngo i tuy n toàn b t p tài li u Tuy

Trang 9

nhiên t p h p tài li u c a các máy tìm ki m là quá l n và luôn thay đ i đ có th phân c m ngo i tuy n Do đó vi c phân c m ph i đ c ng d ng trên các t p tài

li u nh h n đ c tr v t các truy v n Và thay vì tr v m t danh sách r t dài các thông tin gây nh p nh ng cho ng i s d ng c n có m t ph ng pháp t

ch c l i các k t qu tìm ki m m t cách h p lý

a ra yêu c u c a bài toán phân c m tài li u Web Nh n m nh đ n k thu t phân c m K-Means m r ng, s d ng tính m i c a tài li u, đây là m t thu t toán phân c m t ng, th i gian tuy n tính đáp ng đ c các yêu c u c a bài toán phân c m tài li u Web K-Means m r ng không coi m t tài li u nh t p

h p các t mà là m t xâu s d ng quan h thông tin gi a các t

 Tìm hi u các yêu c u c a bài toán phân c m tài li u Web

 Trình bày m t s ph ng pháp bi u di n tài li u

 Trình bày m t s ph ng pháp phân c m tài li u Web

 M t s k t qu th c nghi m b c đ u

 xu t h ng phát tri n

Do h n ch v m t th i gian nên vi c nghiên c u, tìm hi u m i ch thu

đ c nh ng ki n th c c b n v k thu t và nh ng th nghi m b c đ u nh ng

h a h n s phát tri n và ng d ng trong t ng lai

Trang 10

Ch ng 1: Trong ch ng này gi i thi u t ng quan v khai phá d li u,

l nh v c khai phá d li u Web, t ng quan v bài toán phân c m tài li u nói chung, phân c m tài li u Web nói riêng, nh ng yêu c u đ i v i bài toán phân

c m tài li u Web Các đ i l ng dùng đ đo đ chính xác cho bài toán

Ch ng 2: Trình bày các ph ng pháp bi u di n tài li u Nh ng khó

kh n trong phân c m Ti ng Vi t và các ph ng pháp tách t ti ng Vi t, các cách

đo đ t ng t gi a các tài li u

Ch ng 3: Trình bày các thu t toán dùng đ phân c m tài li u Web nói

chung Trong ch ng này trình bày theo hai h ng ti p c n Thu t toán AHC (Agglomerative Hierarchical Clustering) tiêu bi u cho h ng phân c m

bottom-up Thu t toán K-means tiêu bi u cho h ng phân c m top-down Và s k t h p

gi a hai h ng đó – Buckshot

Trình bày thu t toán K-Means m r ng cho bài toán phân c m tài li u Web d a trên tính m i c a tài li u

Ch ng 4: K t qu th c nghi m

Ch ng 5: T ng k t và h ng phát tri n trong t ng lai

Trang 11

TÀI LI U THAM KHÁO

Ti ng Vi t

[1]. inh i n, X lý ngôn ng t nhiên, NXB Giáo D c.

Ti ng Anh

[2] Sophoin, Yoshiharu Ishikawa và Hiroyuki Kitagawa (2006), Incremental Clustering Based on Novelty of Online Documents

[3] Clement T.Yu và Weiyi Meng (1998), Principles of Database Query Processing for Advanced Application, Morgan Kaufmann Publisher, Inc [4] Gerard Salton/Michael J.McGill, Introduction to Modern Information Retrieval

[5] Jiawei Han (2000), Data Mining: Concepts and Techiniques

[6] M Steinbach, G Karypis, V Kumar (2000), A Comparison of Document Clustering Techniques, TextMining Workshop, KDD

[7] O Zamir and O Etzioni (1998), Web Document Clustering: A Feasibility Demonstration, Proc of the 21st ACM SIGIR Conference, 46-54

[8] O Zamir, O Etzioni, O Madani, R M Karp (1997), Fast and Intuitive Clustering of Web Documents, Proc of the 3rd International Conference on Knowledge Discovery and Data Mining

[9] K Cios, W Pedrycs, R Swiniarski (1998), Data Mining – Methods for Knowledge Discovery, Kluwer Academic Publishers

Trang 12

[10] R Krishnapuram, A Joshi, L Yi (1999), A Fuzzy Relative of the k-Medoids Algorithm with Application to Web Document and Snippet Clustering, Proc IEEE Intl Conf Fuzzy Systems, Korea

[11] Z Jiang, A Joshi, R Krishnapuram, L Yi (2000), Retriever: Improving Web Search Engine Results Using Clustering, Technical Report, CSEE Department, UMBC

[12] T H Haveliwala, A Gionis, P Indyk (2000), Scalable Techniques for Clustering the Web, Extended Abstract, WebDB’2000, Third International Workshop on the Web and Databases, In conjunction with ACM SIGMOD’2000, Dallas, TX

[13] A Bouguettaya (1996), On-Line Clustering, IEEE Trans on Knowledge and Data Engineering

[14] A K Jain và R C Dubes (1988), Algorithms for Clustering Data, John Wiley & Sons

[15] G Karypis, E Han, V Kumar (1999), CHAMELEON: A Hierarchical Clustering Algorithm Using Dynamic Modeling, IEEE Computer 32

[16] O Zamir và O Etzioni (1999), Grouper: A Dynamic Clustering Interface to Web Search Results, Proc of the 8th International World Wide Web Conference, Toronto, Canada

[17] D R Cutting, D R Karger, J O Pedersen, J.W Tukey (1993), Scatter/Gather: A Clusterbased Approach to Browsing Large Document Collections, In Proceedings of the 16th International ACM SIGIR Conference on Research and Development in Information Retrieval

Trang 13

[18] R Michalski, I Bratko, M Kubat (1998), Machine Learning and Data Mining – Methods and Applications, John Wiley & Sons Ltd

[19] J Jang, C Sun, E Mizutani (1997), Neuro-Fuzzy and Soft Computing – A Computational Approach to Learning and Machine Intelligence, Prentice Hall

[20] G Biswas, J.B Weinberg, D Fisher (1998), ITERATE: A Conceptual Clustering Algorithm for Data Mining, IEEE Transactions on Systems, Man and Cybernetics

[21] Z Huang (1997), A Fast Clustering Algorithm to Cluster Very Large Categorical Data Sets in Data Mining, Workshop on Research Issues on Data Mining and Knowledge Discovery

[22] Y Yang và J Pedersen (1997), A Comparative Study on Feature Selection

in Text Categorization, In Proc of the 14th International Conference on Machine Learning

[23] A Guttman (1984) R-tree: A dynamic index structure for spatial searching,

In Proceedings of ACM SIGMOD

[24] Bjornal Larsen và Chinatsu Aone (1999) Fast and effective text mining using lineartime document clustering, In Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, San Diego, CA, USA

[25] C.J.van Rijbergen(1979), Information Retrieval, Butterworth & Co (Publishers) LTd

Trang 14

[26] Wai-chiu Wong và Ada Fu (2000), Incremental Document Clustering for Web Page Classification, IEEE 2000 Int, Conf on Infor, Society in the 21st century: emerging technologies anf new challenges (IS2000), Nh t B n [27] Pierre Baldi, Paolo Frasconi, Padhraic Smyth (2003) Modeling the Internet and the Web: Probabilistic Methods and Algorithms Wiley, 2003

[28] Sen Slattery (2002) Hypertext Classification PhD Thesis (CMU-CS-02-142) School of Computer Science Carnegie Mellon University, 2002

Ngày đăng: 25/01/2017, 17:51

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm