XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

Hiện nay, có rất nhiều cách tổchức dữ liệu khác nhau: cơ sở dữ liệu văn bản, cơ sở dữ liệu quan hệ, cơ sở dữ liệuhướng đối tượng, cơ sở dữ liệu không gian, cơ sở dữ liệu hướng thời gian,

Trang 1

KHOA CÔNG NGHỆ THÔNG TIN

──────── * ───────

ĐỒ ÁN

TỐT NGHIỆP ĐẠI HỌC

NGÀNH CÔNG NGHỆ THÔNG TIN

XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI

VĂN BẢN TIẾNG VIỆT

Sinh viên thực hiện : Trần Quý Giáp

Lớp CNPM

Giáo viên hướng dẫn: TS Huỳnh Quyết Thắng

Trang 3

PHIẾU GIAO NHIỆM VỤ ĐỒ ÁN TỐT NGHIỆP

1 Định hướng đề tài tốt nghiệp

Nghiên cứu tập mẫu, công thức phân loại văn bản Xây dựng thử nghiệm tậpmẫu tiếng việt và xây dựng phần mềm phân loại văn bản theo công thức cải tiến

2 Các nhiệm vụ cụ thể của ĐATN

phân lớp văn bản

độ xử lý nhanh

3 Lời cám đoan của sinh viên:

Tôi – Trần Quý Giáp - cam kết ĐATN là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của TS Huỳnh Quyết Thắng

Các kết quả nêu trong ĐATN là trung thực, không phải là sao chép toàn văn của bất

Trang 4

TÓM TẮT NỘI DUNG ĐỒ ÁN TỐT NGHIỆP

Nội dung đồ án có những phần sau :

 Xây dựng thử nghiệm tập mẫu tiếng việt với số lượng lớn văn bản mẫu và nhiềuphân lớp

 Nâng cao chất lượng của tập mẫu

 Xây dựng phần mềm phân loại văn bản tiếng việt dựa trên công thức cải tiến Yêucầu phần mềm là tốc độ xử lý cao để mang lại tính ứng dụng lớn

 Nghiên cứu tìm ra các giải pháp nâng cao chất lượng của chương trình, các giảipháp bao gồm các vấn đề về tập mẫu, từ điển và công thức tính

Trang 5

ABSTRACT OF THESIS

With the rapid gowth of outline information, text categorization has becomeone of the key techniques for handling and organizing text data Text categorizationtechniques are used to classify new stories, to find interesting information on thewww, and to guide a user’s search through hypertext…

The objective be of the thesis is the construction vietnamese text collection toassay be with the number of the texts and many the subclassings Construct aautomatic vietnamese text categorization software based on an innovation formulawith the high precison and the the quick procesing time To map out the solutionabout text collection, the dictionary and the formula to improve more the precision

of result in procesing

Trang 6

Lời mở đầu 7

Danh mục hình : 9

Danh mục bảng : 10

Danh mục từ viết tắt 11

1 Chương 1 Tổng quan về bài toán xử lý văn bản 12

1.1 Khai phá dữ liệu và phát hiện tri thức 12

1.1.1 Dữ liệu, thông tin và tri thức 12

1.1.2 Khai phá dữ liệu và phát hiện tri thức 13

1.2 Các Khái niệm trong xử lý văn bản 14

1.2.1 Từ khoá, Thuật ngữ, và Khái niệm 14

1.2.2 Từ dừng ( Stop word ) 15

1.2.3 Trọng số của thuật ngữ 15

1.2.4 Độ Liên quan giữa các văn bản 16

1.3 Các bài toán cơ bản trong xử lý văn bản 16

1.3.1 Tìm kiếm văn bản (Text Retrieval) 16

1.3.2 Phân lớp văn bản (Text Categorization, Text Classification) 17

1.3.3 Phân nhóm văn bản (Text Clustering) 17

1.3.4 Tóm tắt văn bản (Text Summarization) 17

1.3.5 Dẫn đường văn bản (Text Routing) 18

1.4 Kết chương 18

2 Chương 2 Bài toán phân loại văn bản 19

2.1 Giới thiệu bài toán phân lớp văn bản 19

2.2 Các thuật toán được sử dụng trong bài toán phân lớp văn bản 19

2.2.1 Các phương pháp phân chia (Partitionning Algorithms) 20

2.2.2 Phương pháp phân nhóm dựa trên hàm mật độ (Density-Based) 20

2.2.3 Phương pháp phân nhóm dựa trên lưới (Grid-Based Method) 21

2.2.4 Phân nhóm dựa trên thuật ngữ xuất hiện thường xuyên (Frequen Itemset).21 2.2.4.1 Phân nhóm dựa trên thuật ngữ xuất hiện thường xuyên ( Frequen Item set) 22

2.2.4.1.1 Giải thuật Apriori 22

2.2.4.1.2 Giải thuật FP Growth 23

2.3 Các phương pháp biểu diễn văn bản 25

2.3.1 Mô hình không gian vector 25

2.3.1.1 Mô hình Boolean 26

2.3.1.2 Mô hình tần số 26

2.3.1.3 Phương pháp xử lý vector thưa 28

2.3.2 Phương pháp biểu diễn văn bản dựa trên khái niệm mờ 29

3 Chương 3 Tổng quan về tập mẫu 32

3.1 Khái niệm về tập mẫu 32

3.2 Đặc điểm của tập mẫu 33

3.2.1 Nguồn gốc 33

3.2.2 Tính đầy đủ 33

3.2.3 Tính hiệu quả 33

3.3 Các tập mẫu xử lý văn bản tiếng anh 34

3.3.1 Tập mẫu Reuter 21578 34

3.3.1.1 Lịch sử phát triển của tập mẫu Reuter 21578 34

3.3.1.2 Quá trình nâng cấp từ Reuter 22173 đến Reuter 21578 35

Trang 7

3.3.1.5 Sử dụng của tập mẫu Reuter 21578 trong phân lớp văn bản 41

3.3.1.6 Tổng kết về Reuter 21578 43

3.3.2 Tập mẫu RCV1 43

3.3.2.1 Tổng quan về tập mẫu RCV1 và RCV2 43

3.3.2.2 Mã hoá dữ liệu tập mẫu RCV1 43

3.3.2.3 Quá trình xây dựng RCV1 44

3.3.2.4 Cấu trúc của tập mẫu RCV1 46

3.3.2.5 Kết luận về RCV1 49

4 Chương 4 Bài toán phân loại văn bản tiếng việt và giải pháp 50

4.1 Tổng quan về xử lý ngôn ngữ tự nhiên 50

4.2 Đặc điểm chung của ngôn ngữ tiếng việt 50

4.2.1 Tính âm tiết 51

4.2.2 Từ trong tiếng việt 51

4.2.3 Ngũ pháp tiếng việt 53

4.2.3.1 Phó từ 54

4.2.3.2 Giới từ 54

4.2.3.3 Liên từ 55

4.2.4 Font được sử dụng trong tiếng việt 55

4.3 Bài toán phân lớp văn bản tiếng việt 56

4.4 Giải thuật phân loại văn bản – công thức cải tiến 56

4.4.1 Mô hình tiếp cận bài toán 56

4.4.1.1 Từ điển 57

4.4.1.2 Tách term và loại bỏ Stopword 58

4.4.1.3 Biểu diễn văn bản 59

4.4.1.4 Các công thức tính toán sử dụng trong thuật giải 60

4.4.1.5 Công thức cải tiến 62

4.4.1.6 Sử dụng thuật toán KNN để xác định thể loại của văn bản 63

5 Chương 5 Tập mẫu tiếng việt và giải pháp 67

5.1 Ý tưởng từ tập mẫu tiếng việt 67

5.2 Những vấn đề về tập mẫu tiếng việt 67

5.3 Quá trình xây dựng tập mẫu tiếng việt 68

5.4 Quá trình nâng cao độ chính xác của tập mẫu tiếng việt 69

5.5 Định dạng của tập mẫu : 69

6 Chương 6 Xây dựng hệ thống thử nghiệm và kết quả 74

6.1 Xác định yêu cầu của đồ án 74

6.2 Phân tích và thiết kế hệ thống 74

6.2.1 Chức năng phân loại văn bản 75

6.2.2 Chức năng quản lý hệ thống 78

6.2.2.1 Quản lý tập mẫu : 78

6.2.2.2 Chức năng quản lý tập mẫu : 79

6.2.3 Chức năng cập nhật hệ thống 80

6.2.3.1 Cập nhật tập mẫu : 80

6.2.3.2 Chức năng cập nhật từ điển : 81

6.3 Thử nghiệm và đánh giá 81

6.4 Đánh giá hiệu suất phân lớp văn bản 87

Kết Luận 90

Tài liệu tham khảo: 93

Trang 8

Lời mở đầu

Trên thế giới bài toán phân lớp văn bản- text categorization đã xuất hiện khálâu, và đã được tiến hành trên rất nhiều ngôn ngữ khác nhau Ở Việt Nam nhữngnăm gần đây, với sự quan trọng và sự phát tiển rất mạnh của Internet, thông tinđược lưu trữ dưới dạng văn bản ngày càng nhiều, thực tế này yêu cầu chúng taphải có một phương tiện để xử lý tự động các văn bản, phân loại và sắp xếpquản lý chúng Chương trình phân loại văn bản là chương trình đáp ứng đượcyêu cầu đó Thông qua phân loại văn bản chúng ta có thể phân loại, xắp xếpchúng phù hợp với chủ đề tương ứng với độ chính xác cao Phân loại văn bảnđược ứng dụng trong rất nhiều lĩnh vực, đặc biệt trong lĩnh vực báo điện tử, hay

ở những cơ quan lưu trữ tài liệu…

Đã có nhiều nghiên cứu và các đề tài khoa học về vấn đề này, và chúng ta đãđạt tới nhiều thành công Nhưng dù vậy chúng ta vẫn chưa có một tập mẫu tiếngviệt chuẩn của chúng ta để kiểm nghiệm độ chính xác của các phần mềm phânloại tiếng việt

Trong đồ án này em đã tạo ra một tập mẫu tiếng việt thử nghiệm và được sửdụng ngay trong chương trình phân loại phân bản tự đông, thực nghiệm cho thấy

nó cho kết quả tốt Tuy nhiên vì kiến thức còn hạn chế và thời gian có hạn nênchắc hẳn chương trình và tập mẫu của em còn nhiều sai sót, kính mong các thầy

cô góp ý để em có thể hoàn thiện đồ án của mình

Và cuối cùng em xin chân thành gửi lời cảm ơn thầy Huỳnh Quyết Thắng đãtận tình hướng dẫn làm đề tài và chị Đinh Thị Phương Thu đã cung cấp cho emnhiều kiến thức và kinh nghiệm để em có thể hoàn thành đồ án của mình

Hà nội, ngày 22 tháng 5 năm 2007

Sinh viên

Trang 9

Lời cảm ơn !

Trước hết, em xin được chân thành gửi lời cảm ơn sâu sắc tới các thầy cô giáo trong trường Đại học Bách Khoa Hà Nội nói chung và các thầy cô trong khoa Công nghệ Thông tin, bộ môn Công nghệ phần mềm nói riêng đã tận tình giảng dạy, truyền đạt cho em những kiến thức và những kinh nghiệm quý báu trong suốt 5 năm học tập và rèn luyện tại trường Đại học Bách Khoa Hà Nội.

Em xin được gửi lời cảm ơn đến Ts Huỳnh Quyết Thắng - Giảng viên

bộ môn Công nghệ phần mềm, khoa Công nghệ Thông tin, trường Đại học Bách Khoa Hà Nội đã hết lòng giúp đỡ, hướng dẫn và chỉ dạy tận tình trong quá trình em làm đồ án tốt nghiệp.

Cuối cùng, em xin được gửi lời cảm ơn chân thành tới gia đình, bạn

bè đã quan tâm, động viên, đóng góp ý kiến và giúp đỡ trong quá trình học tập, nghiên cứu và hoàn thành đồ án tốt nghiệp.

Hà Nội, ngày 22 tháng 05 năm 2007

Trần Quý Giáp

Lớp CNPM – K47

Khoa CNTT – ĐH Bách Khoa HN

Trang 10

Danh mục hình :

Hình 1.1 Tiến trình khai phá dữ liệu và phát hiện tri thức 14

Hình 2.1 Ví dụ mô tả giải thuật k-means 20

Hình 2.2 Mô tả một giải thuật phân nhóm dựa trên lưới 21

Hình 2.3 Ví dụ về thuật toán Apriori 23

Hình 2.4 Ví dụ về xây dựng cây FP 24

Hình 2.5 Ví dụ biểu diễn văn bản dựa trên khái niệm mờ 30

Hình 3.1.Ví dụ về một văn bản trong Reuter 21578 39

Hình 3.2 Ví dụ về định dạng của RCV1 45

Hình 4.1 Mô hình thuật toán 57

Hình 4.2 Đối tượng hashtable của từ điển 58

Hình 4.3 Sơ đồ thuật toán tách term 59

Hình 4.4 đối tượng hashtable vector 60

Hình 4.5 Mô hình tính độ liên quan của văn bản truy vấn và văn bản mẫu 61

Hình 4.6 Mô hình tính độ liên quan theo công thức cải tiến 63

Hình 4.7 Minh họa việc khoanh vùng k văn bản gần nhất với k = 5 64

Hình 6.1 Sơ đồ hệ thống chức năng của chương trình 75

Hình 6.2 Chức năng phân loại văn bản 76

Hình 6.3 Giao diện chính của chương trình 77

Hình 6.4 Giao diện form quản lý tập mẫu 79

Hình 6.5.Giao diện form quản lý từ điển 80

Hình 6.6.Giao diện form cập nhật tập mẫu 80

Hình 6.7 Giao diện cập nhật từ điển 81

Hình 6.8 Minh hoạ cách tính precision và recall 88

Trang 11

Danh mục bảng :

Bảng 2.1 Ví dụ về tần số xuất hiện của từ khoá 26

Bảng 2.2.Ví dụ biểu diễn vector thưa 29

Bảng 3.1 Hệ thống phân lớp trong Reuter 21578 40

Bảng 4.1 Ví dụ 1 về độ tương tự 65

Bảng 4.2 Ví dụ 2 về độ tương tự 65

Bảng 6.1 Kết quả phân lớp của các văn bản 87

Bảng 6.2 Kết quả tính precision và recall 89

Trang 12

Danh mục từ viết tắt

01 KNN K_Nearest Neighbor_ thuật toán k lớp văn bản láng giềng gần nhất

02 NNTN Ngôn ngữ tự nhiên

03 SGML Standard Generalized Markup Language

07 IF Item Frequency- tần suất từ khoá

08 STING Statistical Information Grid

Trang 13

1 Chương 1 Tổng quan về bài toán xử lý văn bản

1.1 Khai phá dữ liệu và phát hiện tri thức

1.1.1 Dữ liệu, thông tin và tri thức

Dữ liệu được hiểu là một chuỗi các bit, các con số hoặc các đối tượng mà

chúng ta thu thập được hàng ngày Ví dụ: dữ liệu là các file trong máy tính, dữ liệu

là các văn bản giấy tờ mà chúng ta phải xử lý hàng ngày, các tín hiệu,

Thông tin là dữ liệu đã được loại bỏ đi nhiễu, sự dư thừa và đã được biểu diễn

dưới dạng mà con người có thể nhận thức được.Ví dụ: thông tin về tình hình chiến

sự tại Iraq, thông tin về nhiệt độ trong tháng,

Tri thức được hiểu là các thông tin đã được tích hợp lại, đã được nhận thức,

kiểm nghiệm, hay được đúc rút ra thành các quy luật có ý nghĩa đối với con người

Ví dụ: từ thông tin về nhiệt độ trong tháng, con người có thể đưa ra được những dựbáo thời tiết quan trọng, hoặc từ các thông tin về tình hình chiến sự tại Iraq, các nhàquân sự có thể phân tích và nắm được động thái về quân sự cũng như chính trị củacác bên có liên quan

Tri thức chính là các dữ liệu, thông tin ở mức trừu tượng và khái quát cao hơn

So với dữ liệu và thông tin thì tri thức ở dạng cô đọng và dễ hiểu nhất đối với conngười Rõ ràng trong kỷ nguyên công nghệ thông tin này thì con người chỉ muốntìm kiếm và lĩnh hội các tri thức, đó là cách nhanh nhất và hợp lý nhất, chứ khôngthể có đủ thời gian và khả năng để hiểu được các dữ liệu ở một dạng thô sơ nào đó.Điều đó cũng cho thấy vai trò quan trọng của lớp các bài toán khai phá dữ liệu vàphát hiện tri thức

Nội Dung :

1 Khai phá dữ liệu, phát hiện tri thức trong dữ liệu văn bản

2 Các Khái niệm trong xử lý văn bản.

3 Các bài toán cở bản trong xử lý văn bản.

Trang 14

1.1.2 Khai phá dữ liệu và phát hiện tri thức

Khai phá dữ liệu, hay Data Mining, được định nghĩa như quá trình phát hiện

các tri thức từ các dữ liệu lớn được lưu trữ trong cơ sở dữ liệu, data warehouse haycác kho chứa thông tin khác

Thuật ngữ khai phá dữ liệu (data mining) chỉ việc tìm kiếm một tập hợp nhỏ

có giá trị từ một số lượng lớn các dữ liệu thô Một ví dụ hay được nhắc tới là việckhai thác vàng từ đá và cát, khai phá dữ liệu được ví như công việc “đãi cát tìmvàng” trong một tập hợp lớn các dữ liệu cho trước Có nhiều thuật ngữ hiện được

dùng cũng có nghĩa tương tự với từ data mining như knowledge mining (khai phá tri thức), knowledge extraction (chắt lọc tri thức), data/patern analysis (Phân tích dữ liệu/mẫu), data archaeology (khảo cổ dữ liệu), data dredging (nạo vét dữ

liệu) Hiện nay, thuật ngữ khai phá dữ liệu được dùng quen thuộc và thường đồng

nhất với một thuật ngữ khác là phát hiện tri thức trong cơ sở dữ liệu – Knowledge

Descovery in Database (KDD) Thực ra, khai phá dữ liệu chỉ là một bước trong các

quá trình của KDD

Tiến trình khai phá dữ liệu và phát hiện tri thức (KDD) nói chung bao gồm

7 quá trình cơ bản sau đây:

việc xử lý

những phương pháp thông minh để chắt lọc ra những mẫu dữ liệu

qua các độ đo nào đó

tri thức cho người dùng

Trang 15

Hình 1.1 Tiến trình khai phá dữ liệu và phát hiện tri thức

Việc áp dụng tiến trình KDD có thể thực hiện trên nhiểu kiểu loại dữ liệu khácnhau với các hình thức tổ chức lưu trữ khác nhau Hiện nay, có rất nhiều cách tổchức dữ liệu khác nhau: cơ sở dữ liệu văn bản, cơ sở dữ liệu quan hệ, cơ sở dữ liệuhướng đối tượng, cơ sở dữ liệu không gian, cơ sở dữ liệu hướng thời gian,… Đốivới mỗi dạng cơ sở dữ liệu lại có các phương pháp xử lý khác nhau và mục đích

Các kỹ thuật được sử dụng có thể là các phương pháp truyền thống như học

máy (Machine Learning), nhận dạng (Recognition), thống kê (Statistics), phân lớp (Classification),… và các kỹ thuật được phát triển bởi ngành nghiên cứu trí tuệ nhân tạo như mạng nơ-ron nhân tạo (Neural Network), thuật toán di truyền (Genetic

Algorithm), quy nạp luật (Rule Reduction), cây quyết định (Decision Tree),…

1.2 Các Khái niệm trong xử lý văn bản

Để hiểu rõ hơn về tư tưởng cũng như thuật toán được sử dụng trong bài toánphân loại văn bản tiếng việt, chúng ta sẽ tìm hiểu trước một số khái niệm được sử

trọng số thuật ngữ, độ liên quan, từ dừng

1.2.1 Từ khoá, Thuật ngữ, và Khái niệm.

Từ khoá ( Term ) : Là các từ xuất hiện trong văn bản ở dạng nguyên thể và có

mặt trong từ điển Chúng ta sẽ xét một đoạn văn bản sau : “Từ cuối thế kỷ hai

mươi, công nghệ thông tin và truyền thông đã phát triển nhanh chóng, mạnh

mẽ, xuất hiện thêm rất nhiều phương tiện truyền thông mới.”, các term có thể

tách ra như sau : “thế kỷ”,” hai mươi”,” công nghệ”,” thông tin”, “truyền

Trang 16

thông”,” phát triển”,” mạnh mẽ”,” xuất hiện”, “phương tiện”,” truyền thông”.

Thuật ngữ : là các từ khoá liên quan đến một lĩnh vực nào đó Ta sẽ có các

thuật ngữ trong tin học chẳng hạn :”công nghệ phần mềm”, “công nghệ thôngtin”, “vi xử lý” … Trong lĩnh vực luật có các thuật ngữ như : “quyền sử dụngđất”, “quyền trẻ em”…

Khái niệm : là các thuật ngữ nhưng nó là sự khái quát hóa, tổng quát hóa của

nhiều thuật ngữ khác Ví dụ khái niệm “máy tính” có thể chứa đựng các thuật ngữ khác như “bàn phím”, “chuột”, “phần cứng”, “phần mềm”, “CPU”, “ổ

cứng”, “Internet”, “màn hình”, “số hóa”,… các từ này có một phần liên quan

đến khái niệm “máy tính”.

Một khái niệm thường liên quan đến một dãy các thuật ngữ với mức độ khác

nhau Ví dụ thuật ngữ “phần mềm” có mức độ liên quan đến khái niệm “tin học” nhiều hơn so với thuật ngữ “số hóa” Một tiêu chuẩn để xem xét mức độ liên quan

là xác xuất đồng xuất hiện của cặp khái niệm – thuật ngữ trong các văn bản Khi thuật ngữ “máy tính” xuất hiện nhiều trong các văn bản chứa thuật ngữ “tin học” thì có nghĩa là độ liên quan (hay độ phụ thuộc) giữa cặp “tin học”-“máy tính” càng cao Một lý do để giải thích suy luận này là mức độ thay thế

1.2.2 Từ dừng ( Stop word )

Có thể quan sát thấy rằng trong các ngôn ngữ tự nhiên, rất nhiều từ được dùng

để biểu diễn cấu trúc câu nhưng hầu như không mang ý nghĩa về mặt nội dung,chẳng hạn các loại từ: giới từ, liên từ,… Các loại từ này xuất hiện thường xuyêntrong các văn bản nhưng không hề mang bất cứ một thông tin nào về nội dung haychủ đề của văn bản Việc loại bỏ các từ như vậy cũng đồng nghĩa với việc giảm sốchiều của văn bản, những từ đó được gọi là từ dừng (stop words)

Từ dừng (Stop Words): là các từ mang ít ý nghĩa trong xử lý văn bản vì nó

xuất hiện trong hầu hết các văn bản Ví dụ: “Có thể”, “nếu”, “vì vậy”, “sau khi”,

“thì”, “một số”, “với lại”, “quả thật”, “hầu như”

Có một số phương pháp để xác định các từ dừng

Xây dựng một thuật toán phát hiện các từ dừng Trong thuật toán này cần đưa

ra một ngưỡng để phát hiện từ dừng, ví dụ nếu phát hiện thấy một từ xuất hiện trongquá 50% số văn bản thì có thể coi đó là từ dừng

Sử dụng so sánh với một từ điển từ dừng Từ điển từ dùng là một từ điển đãđược nghiên cứu và xây dựng sẵn từ trước

1.2.3 Trọng số của thuật ngữ

Trọng số của thuật ngữ là độ quan trọng hay hàm lượng thông tin mà thuật

Trang 17

chứa nó với các văn bản khác Đại lượng này thường được xác định bằng tay hoặcđánh giá bằng số lần xuất hiện của thuật ngữ trong văn bản và số lần xuất hiện củathuật ngữ đó trong các văn bản khác Khi số lần xuất hiện của thuật ngữ trong vănbản càng nhiều thì thông tin mà nó mang lại càng lớn Khi số lần xuất hiện của nótrong các văn bản khác càng nhiều thì thông tin mà nó mang lại càng ít.

Như vậy một cách tổng quát ta có thể dễ dàng nhận thấy rằng trọng số của cácthuật ngữ như “công nghệ thông tin”, “hệ điều hành” trong lĩnh vực vi tính và cáckhái niệm “thị trường tự do”, “thị trường”

trong lĩnh vực kinh doanh chứng khoán sẽ có trọng số lớn vì nó không xuấthiện nhiều trong toàn bộ các văn bản mà chỉ xuất hiện trong một số các văn bảnthuộc thể loại tương ứng là vi tính và kinh doanh chứng khoán Ngược lại những từ

mà có trọng số nhỏ và không đáng kể ( sau này sẽ bị loại trong giải thuật tìm termcủa văn bản ) chính là các StopWord như : “ấy vậy mà”,”ấy mà”, “bất chấp”…vì nóxuất hiện ở hầu như tất cả các văn bản

1.2.4 Độ Liên quan giữa các văn bản

Độ liên quan giữa hai văn bản là một đại lượng đo mức độ giống nhau về mặt nội dung giữa hai văn bản đó Các phương pháp đánh giá độ liên quan được chia

thành 2 loại: đánh giá theo tần suất xuất hiện thuật ngữ và đánh giá theo ngữ nghĩa

tâm đến thứ tự sắp xếp của các thuật ngữ trong văn bản mà chỉ quan tâm đến

số lần nó xuất hiện trong văn bản đó Ví dụ: phương pháp sử dụng hệ số

Dice, hệ số Jaccard, hệ số consine,

ngữ trong văn bản mà còn chú ý cả đến sự kết cấu giữa các từ trong từngcâu văn Phương pháp đánh giá thuộc loại này thường phức tạp hơn, yêu cầu

có các giải thuật phù hợp với từng ngôn ngữ cụ thể

Trong luận văn này thì chúng ta quan tâm đến phương pháp đánh giá độ liênquan theo tần suất

1.3 Các bài toán cơ bản trong xử lý văn bản

Một số bài toán cơ bản trong xử lý văn bản, bao gồm: bài toán tìm kiếm văn

bản (Text Retrieval), bài toán phân lớp văn bản (Text Catergorization), bài toán phân nhóm văn bản (Text Clustering), bài toán định tuyến văn bản (Text Routing), bài toán tóm tắt văn bản (Text Summarization)

1.3.1 Tìm kiếm văn bản (Text Retrieval)

Tìm kiếm văn bản (Text Retrieval) là quá trình tìm các văn bản trong một kho

lưu trữ theo các yêu cầu của người dùng Ở đây, các yêu cầu là các truy vấn và

Trang 18

Ví dụ: truy vấn “Text Mining” AND (“Categorization” OR “Classification”) Ứng với truy vấn này search engine của hệ thống sẽ tìm tất cả các tài liệu về “Text

Mining” có liên quan đến “Categorization” hoặc “Classification” Trên thực tế thì

hầu hết các hệ thống chỉ được thiết kế để hiểu các truy vấn tương tự như “Text

Mining” OR “Categorization” OR “Classification” Với câu truy vấn này hệ thống

sẽ tìm kiếm các tài liệu theo mức phù hợp với cả ba thuật ngữ “Text Mining”,

“Categorization”, và “Classification”.

Kết quả đầu ra của một phép truy vấn là danh sách các tài liệu được sắp xếpgiảm dần theo mức độ phù hợp với câu truy vấn đầu vào

1.3.2 Phân lớp văn bản (Text Categorization, Text Classification)

Phân lớp văn bản được định nghĩa như quá trình gán các văn bản vào một hay

nhiều lớp văn bản đã được xác định trước dựa trên nội dung của văn bản đó

Người ta có thể phân lớp các văn bản một cách thủ công, tức là đọc từng vănbản và gán nó vào một lớp nào đó, cách này sẽ tốn rất nhiều thời gian và công sứckhi số lượng văn bản lớn nên không khả thi Do vậy cần phải có các phương phápphân lớp tự động Để phân lớp tự động người ta sử dụng các phương pháp học máytrong trí tuệ nhân tạo Khi phân lớp, văn bản được gán vào một lớp theo một giá trị

ngưỡng nào đó Ngưỡng đặt ra tùy thuộc vào thuật toán và yêu cầu người dùng.

1.3.3 Phân nhóm văn bản (Text Clustering)

Phân nhóm văn bản là việc tự động sinh ra các lớp văn bản dựa vào sự tương tự về

nội dung của các văn bản Số lượng các nhóm văn bản ở đây là chưa biết trước, chẳng hạn

số nhóm có thể là 2,3 5, Người dùng có thể chỉ ra số lượng các nhóm cần phân nhómhoặc hệ thống sẽ tự phân nhóm

Đối với bài toán này, không bao giờ có một kết quả thỏa mãn hoàn toàn theo ý

người dùng Một lý do đơn giản để giải thích là máy không được học trước Chúng

ta phải thừa nhận rằng ngay cả con người cũng giải quyết bài toán này không giống

nhau Ví dụ, lập nhóm các từ “cầu thủ”, “cha cố”, “nến”, “trái bóng”; một người

sẽ lập thành 2 nhóm là: con người (“cầu thủ” , “cha cố”) và sự vật (“nến”, “trái

bóng”), trong khi đó người khác lại phân chúng thành 2 nhóm khác: nhà thờ (“cha cố”, “nến”) và bóng đá (“cầu thủ”, “trái bóng”) Do đó, việc đòi hỏi hệ thống tự

động lập nhóm làm việc đúng tuyệt đối là điều không tưởng

1.3.4 Tóm tắt văn bản (Text Summarization)

Tóm tắt văn bản là bài toán tìm ra thể hiện nội dung của một văn bản thông quamột vài đoạn văn

Ứng dụng điển hình của bài toán này là trong tìm kiếm văn bản Các kho lưutrữ bao gồm rất nhiều tài liệu và kích thước mỗi tài liệu có thể lên đến vài trăm

Trang 19

với nội dung tương đối phù hợp với “Text Mining” Nhưng để biết thực sự tài liệu đó

có phù hợp với mình hay không, bạn đọc đành phải đọc toàn bộ hoặc đọc một phầntrong tài liệu Hệ thống tóm tắt văn bản sẽ làm cho việc tìm kiếm giảm nhẹ đi rấtnhiều bằng cách tự động tóm lược nội dung của toàn bộ văn bản bởi một vài đoạnvăn bản Sau khi đọc qua đoạn tóm lược này, bạn đọc có thể biết được đây có phải

là tài liệu chứa thông tin mà họ đang cần hay không

Bài toàn tóm tắt văn bản có thể được sử dụng trong bài toán phân loại văn bản( text categorization ) khi mà văn bản cần phân loại liên quan một lúc đến nhiều thểloại với tỉ lệ độ liên quan là tương đối gần giống nhau Khi ấy để biết được văn bản

đó thuộc thể loại nào với độ chính xác cao nhất thì chúng ta dựa vào nội dung chínhcủa văn bản đó

1.3.5 Dẫn đường văn bản (Text Routing)

Dẫn đường văn bản là sự tổ hợp giữa bài toán tìm kiếm văn bản và phân lớp,nhóm văn bản Giống như phân lớp, nhóm văn bản, bài toán dẫn đường cũng đưacác văn bản về các lớp, nhóm khác nhau và việc xử lý này yêu cầu trong thời gianthực Tuy nhiên, nó cũng giống như bài toán tìm kiếm, mỗi lớp, nhóm văn bản đượcgán với các thông tin cần thiết của một hay nhiều nhóm người dùng Mỗi ngườidùng có thể thay đổi thêm bớt các yêu cầu của mình Quá trình phản hồi có thểđược sử dụng để nâng cao chất lượng tìm kiếm văn bản

Một ứng dụng điểu hình của bài toán dẫn đường văn bản là trong các trang tinđiện tử Khi đọc một tin mới, hệ thống sẽ tìm cách đưa ra danh sách các tin khác cóliên quan đến đoạn tin đang đọc Ứng dụng của bài toán này được sử dụng hết sứcrộng rãi trên báo điện tử Khi đọc một bài báo, phía dưới mỗi trang web sẽ có cácliên kết đến các bài báo khác có liên quan về mặt nội dung Bạn đọc có thể theo cácthông tin dẫn đường này để theo dõi toàn bộ diễn biến của sự kiện

1.4 Kết chương

Trong chương này chúng ta đã tìm hiểu về các bài toán xử lý văn bản và cáckhái niệm trong bài toán phân loại văn bản Những khái niệm trong bài toán phânloại văn bản là những khái niệm thường xuyên sử dụng giúp chúng ta hiểu rõ hơn

về chương trình đồ án sẽ được tác giả trình bày ở các chương sau

Trang 20

2 Chương 2 Bài toán phân loại văn bản.

2.1 Giới thiệu bài toán phân lớp văn bản

Bài toán phân lớp văn bản là việc gán các chủ đề có trước cho các văn bản dựa

trên nội dung của chúng Người ta có thể phân lớp văn bản một cách thủ công, hoặc

sử dụng các phương pháp phân lớp tự động

Để phân lớp được văn bản tự động thường sử dụng các kỹ thuật học máy có

giám sát (supervised learning) Trong kỹ thuật này, dữ liệu được chia ra thành

hai phần: tập huấn luyện hay tập mẫu (training set) và tập kiểm thử (test set).Đầu tiên hệ thống sẽ được huấn luyện(học) thông qua tập mẫu, sau đó đánh giáhiệu quả của hệ thống thông qua các dữ liệu kiểm thử

Các hệ thống phân loại văn bản như vậy có thể ứng dụng trong việc phân loại tàiliệu của các thư viện điện tử, phân loại bài viết trên các trang tin điện tử, hay phânloại giấy tờ công văn trong các công sở Một hệ thống phân loại văn bản tốt khôngnhững có thể thay thế hoàn toàn con người trong lĩnh vực này mà thậm chí còn cho

ra các kết quả tốt hơn rất nhiều so với con người

2.2 Các thuật toán được sử dụng trong bài toán phân lớp văn bản

Các thuật toán Phân nhóm dữ liệu cơ bản hiện nay:

Clustering Using Frequent Itemsets)

Các giải thuật phân vùng (Partitionning Algorithms)

Nội dung :

2.1.Giới thiệu bài toán phân lớp văn bản.

2.2.Các thuật toán được sử dụng trong bài toán phân lớp văn bản.

2.3.Các phương pháp biểu diễn văn bản.

2.3.Khái niệm tập mẫu

2.4.Các tập mẫu xử lý văn bản tiếng Anh

Trang 21

 Các giải thuật dựa trên mật độ (Densit-based Algorithms)

Phần dưới đây sẽ cung cấp một cái nhìn tổng quan về các giải thuật phân nhóm này

và tập trung đi sâu vào một giải thuật chính sẽ được sử dụng trong luận văn

2.2.1 Các phương pháp phân chia (Partitionning Algorithms)

Các phương pháp phân chia thực hiện chia một tập dữ liệu thành các nhóm

riêng rẽ Ví dụ: để phân một tập các đối tượng dữ liệu thành k nhóm, thuật toán tiến

hành chia chúng ngay từ đầu thành k nhóm Sau đó, liên tục cải tiến, xác định lạicác nhóm bằng cách di chuyển các đối tượng dữ liệu ở nhóm này sang nhóm kháccho đến khi thỏa mãn một số điều kiện

Thuật toán k-means do J.MacQueen đưa ra vào năm 1967 và các biến thể của

nó (k-means chia đôi -bisecting K-Means, ) được biết đến như là các thuật toán

phân chia nổi tiếng Chúng thường khác nhau trong việc xác định k trọng tâm banđầu, tính toán độ tương tự và phương pháp tính toán trọng tâm để giảm thời giantính toán

Hình 2.2 V í dụ mô tả giải thuật k-means

2.2.2 Phương pháp phân nhóm dựa trên hàm mật độ (Density-Based)

Phương pháp phân nhóm dựa trên mật độ là các phương pháp dựa trên một

ý tưởng: các nhóm ban đầu là các vùng dầy đặc trong không gian dữ liệu sẽ đượctách ra bằng các vùng có mật độ đối tượng thấp hơn Tiếp tục phát triển đối với cácnhóm mới tách ra cho đến khi mật độ vùng lân cận vượt qua giá trị ngưỡng Nóicách khác, với mỗi điểm bất kì trong một nhóm, mật độ điểm địa phương xungquanh điểm đó phải không vượt quá ngưỡng Một nhóm sẽ được xác định dựa trên 3

tiêu chí: mật độ (density), các kết nối với những điểm khác (connectivity) và đường

Trang 22

Có hai cách tiếp cận đối với các phương pháp phân nhóm dựa trên mật độ :

 Density-Based Connectivity: bao gồm các giải thuật được biết đến như

DBSCAN, GDBSCAN, OPTICS, và DBCLASD Hướng tiếp cận này dựatrên giá trị mật độ và các kết nối giữa các điểm dữ liệu

 Density Functions: ví dụ giải thuật DENCLUE, tiếp cận theo hàm mật độ.

2.2.3 Phương pháp phân nhóm dựa trên lưới (Grid-Based Method)

Các phương pháp phân nhóm dựa trên lưới thực hiện lượng tử hóa không

gian thành số lượng hữu hạn các ô (cell) để tạo thành cấu trúc lưới Sau đó tất cảcác thao tác phân nhóm được thực hiện trên cấu trúc lưới Độ phức tạp tính toánkhông phụ thuộc vào số các đối tượng dữ liệu mà chỉ phụ thuộc vào số các celltrong mỗi chiều trong không gian đã được lượng tử hoá

Hình 2.3 Mô tả một giải thuật phân nhóm dựa trên lưới

rong số các giải thuật phân nhóm dựa trên lưới thì STING(Statistical

Information Grid) là một phương pháp phân nhóm dựa trên lưới nổi tiếng dùng cho

dữ liệu không gian Ta không đi sâu vào chi tiết của giải thuật này trong luận văn

2.2.4 Phân nhóm dựa trên thuật ngữ xuất hiện thường xuyên

(Frequen Itemset)

Phương pháp sử dụng thuật ngữ thường xuyên để phân nhóm được coi làphương pháp mang lại kết quả tốt hơn cả trong tất cả các giải thuật phân nhóm vănbản, chính vì vậỵ đây là phương pháp mà được sử dụng trong chương trình Phươngpháp này nó khắc phục được những nhược điểm mà một số giải thuật phân nhómkhác gặp phải như:

nhóm Không đáp ứng được khi số chiều 10000 thuật ngữ/ số chiều

Trang 23

mà hiện nay chúng ta đang có ).

Quá trình phân nhớm dựa trên thuật ngữ xuất hiện thường xuyên bao gồm hai bước cơ bản:

Chúng ta sẽ x xét hai thuật toán hay được sử dụng Apriori và FP Growth

2.2.4.1.1Giải thuật Apriori

Thuật toán này sử dụng các k-itemset (tập thuật ngữ gồm k item) để thăm dò

(k+1)-itemset và qua đó khai thác được toàn bộ các tập thuật ngữ thường xuyên

(FIs) trong tập dữ liệu.

có độ dài k đã được xác định là thường xuyên ở bước trước

Mô tả giải thuật Apriori:

Trang 24

For mỗi tài liệu t trong cơ sở dữ liệu do

Tăng số lượng của tất cả các ứng cử viên trong

Hình 2.4 Ví dụ về thuật toán Apriori

Phương pháp tạo và kiểm tra của giải thuật Apriori làm việc tốt Tuy nhiên, một

số lượng lớn itemset được tạo ra Nếu có m tập 1-FIs (m tập 1-item frequent) thì có đến m*(m-1)/2 tập 2-FIs được tạo ra Ngoài ra, thuật toán đòi hỏi quét nhiều lần toàn bộ dữ liệu để kiểm tra thuật ngữ thường xuyên, nó đòi hỏi (n+1) lần quét với n

là số lượng k-FIs lớn nhất Đây cũng là nhược điểm của giải thuật này.

2.2.4.1.2 Giải thuật FP Growth

Trang 25

Thuật toán FP-growth thông qua ý tưởng chia để trị (divide & conquer

approach) để cực tiểu số lượng itemset tạo ra FP-growth giảm bớt số lần quét toàn

bộ cơ sở dữ liệu và khai thác cấu trúc dữ liệu thành cây FP để tìm kiếm tất cả FI

Ví dụ: Xây dựng cây FP với Min_support = 0.5

Bảng 2.1 Dữ liệu đầu vào để xây dựng cây FP

1 Quét cơ sở dữ liệu, tìm ra các tập thuật ngữ thường xuyên ở mức 1

2 Sắp xếp các thuật ngữ thường xuyên theo thứ tự giảm dần

3 Quét cơ sở dữ liệu lại và xây dựng cây FP

Hình 2.5 Ví dụ về xây dựng cây FP

Trang 26

2.3 Các phương pháp biểu diễn văn bản.

Văn bản bản đầu vào trong mọi bài toán phân loại là văn bản dạng text với cấutrúc xác định ban đầu Xong để phân loại được văn bản thuộc thể loại nào trước hếtchúng ta phải biểu diễn chúng dưới một dạng khác Có nhiều tiêu chí để phân loạicác phương pháp biểu diễn văn bản, ta có thể phân chia thành 2 loại : phưong phápbiểu diễn văn bản có thể khắc phục được ( văn bản sau khi biểu diễn có thể khôiphục lại theo câu trúc ban đầu ), và phương pháp phân loại văn bản không thể khôiphục được ( văn bản sau khi biểu diễn không thể khôi phục lại được cấu trúc nhuban đầu )

Trong phần này sẽ trình bày về một số phương pháp biểu diễn văn bản thôngdụng trong đó đặc biệt chú ý đến phương pháp biểu diễn văn bản theo mô hìnhkhông gian vector tần suất TF × IDF, đây là mô hình được sử dụng khi cài đặt môhình thử nghiệm trong luận văn này

2.3.1 Mô hình không gian vector

Cách biểu diễn văn bản thông dụng nhất là thông qua mô hình không gianvector Đây là một cách biểu diễn tương đối đơn giản Trước đây có một số nghiêncứu nhận thấy phương pháp này gây tốn kém chi phí lưu trữ và công sức xử lý,nhưng khi các phương pháp xử lý vector thưa được áp dụng thì các nhược điểm trêngiảm đi rất nhiều và mang lại hiệu quả cho bài toán đặt ra

Bản chất của mô hình không gian vector:

Quan sát ví dụ:“Mạng máy tính là một tập hợp các máy tính được nối với nhau bởicác đường truyền vật lý theo một kiến trúc nào đó” Có thể biểu diễn văn bản trên

(bảng 1.1) Cách biểu diễn này gọi là biểu diễn văn bản theo tần số xuất hiện

máy tính 2

Trang 27

trong văn bản đó.

 Mô hình Boolean được định nghĩa như sau:

“ Giả sử có một cơ sở dữ liệu gồm m văn bản, D= {d1, d2,… dm} Mỗi văn bản được biểu diễn dưới dạng một vector gồm n thuật ngữ T= {t1, t2,…tn} Gọi W= {wij}

là ma trận trọng số, trong đó wij là giá trị trọng số của thuật ngữ ti trong văn bản

dj Mô hình Boolean là mô hình đơn giản nhất được xác định như sau:

trong mÆt cã nÕu

0

d t

1

2.3.1.2 Mô hình tần số

cơ sở dữ liệu

Có ba phương pháp:

1 Phương pháp dựa trên tần số thuật ngữ TF (Term Frequency)

2 Phương pháp dựa trên nghịch đảo tần số văn bản IDF (Inverse DocumentFrequency)

3 Phương pháp TF × IDF

Trang 28

Các giá trị wij được tính dựa trên tần số xuất hiện của thuật ngữ trong văn bản.

liÖu tµi trong xuÊt hiÖn thuËt ng

nÕu

0

d t

h m

h

m

) log(

log

(1.5)

bóng đá chứa đựng trong các thuật ngữ trên là rất lớn

nÕu 1

0

h h

m f

i ij

ij

1 log

)]

log(

[

(1.6)

Trang 29

Phương pháp này kết hợp được ưu điểm của cả hai phương pháp trên Trọng số

văn bản tác giả sử dụng trong luận văn nghiên cứu này

2.3.1.3 Phương pháp xử lý vector thưa

Theo mô hình vector chuẩn, việc xử lý các phép toán trên vector sẽ phụ thuộc

số văn bản có thể lên đến vài chục nghìn Khi đó số lượng phần tử trong ma trận

nguyên bộ nhớ đồng thời các phép toán trên các vector sẽ rất phức tạp Để khắcphục vấn đề này có thể sử dụng kỹ thuật xử lý trên vector thưa thay vì việc lưu trữ

và xử lý trên các vector chuẩn

 Các điều kiện để có thể áp dụng phương pháp vector thưa:

số thuật ngữ trong cơ sở dữ liệu

xử lý cơ bản là nhỏ nhất Thường số vector bị tác động này được quy định tối đa là

3 hoặc 4

Trên thực tế, số thuật ngữ xuất hiện trong một văn bản thường dưới 1000 Đốivới các văn bản dài và đa chủ đề thì số thuật ngữ xuất hiện có thể nhiều hơn Trongkhi đó, số lượng thuật ngữ có trong từ điển có thể đến 100,000 từ Đây chính là điềukiện để áp dụng phương pháp vector thưa đối với điều kiện đầu tiên Việc thỏa mãn

điều kiện thứ hai còn phụ thuộc vào thuật toán áp dụng trong quá trình xử lý.

 Một ví dụ biểu diễn vector thưa từ các vector chuẩn.

Trang 30

2.3.2 Phương pháp biểu diễn văn bản dựa trên khái niệm mờ

Trong phạm vi của đề tài này tác giả không đi chi tiết vào rất nhiều khái niệm

cơ bản trong tập mờ nên chỉ xin phép giới thiệu qua phương pháp này

quan của các thuật ngữ tới một văn bản được xác định tương ứng bằng cách sử dụng

function) μA(A(x) nào đó đã biết:

)}

( μA(

),

( μA(

hàm thuộc này người ta xây dựng hàm tích hợp khái niệm mờ F để biểu diễn vănbản

Ví dụ: Xét các thuật ngữ: “máy tính”, “phần cứng”, “phần mềm”, “CPU”,

“chuột”, “thiết kế”, “cài đặt” trong văn bản sau

Hình 2.6 Ví dụ biểu diễn văn bản dựa trên khái niệm mờ

Giả sử xét:

 K = {“máy tính”, “phần cứng”, “phần mềm”, “CPU”, “chuột”, “thiết kế”,

“cài đặt”}

 μ = {μA((“máy tính”), μA((“phần cứng”), μA((“phần mềm”), μA((“CPU”),

μA((“chuột” ), μA((“thiết kế”), μA((“cài đặt”)}

= {0.3, 0.5, 0.4, 0.1, 0.9, 0.2, 0.6}.

Ngày nay, máy tính đã

xâm nhập rất sâu vào cuộc

sống của chúng ta Với sự

phát triển mạnh mẽ của khoa

học kỹ thuật, các linh kiện

phần cứng như chuột, CPU,

…ngày càng rẻ đi đã làm cho

giá thành của máy tính rẻ

hơn rất nhiều Bên cạnh đó,

những phần mềm máy tính

ngày càng tinh vi, phức tạp

hỗ trợ rất nhiều cho phần

cứng làm cho cả hệ thống trở

nên mạnh mẽ hơn Song

song với nó, việc cài đặt các

phần mềm …

“linh kiện”

“phần mềm”

0.45 0.375

“máy tính”

“phần cứng”

“phần mềm”

0.3 0.5 0.4

“CPU”

“chuột”

“thiết kế”

0.1 0.9 0.2

“cài đặt”

0.6

Trang 31

Khi đó:

quan trọng của khái niệm “linh kiện” đối với văn bản được xác định là:

μA((“linh kiện”) = F(μA((“máy tính”), μA((“phần cứng”), μA((“CPU”), μA((“chuột”))

μA((“linh kiện”)=AVEG(0.3, 0.5, 0.1, 0.9)=0.45 (với hàm tích hợp trung

đặt”} Độ quan trọng của khái niệm “phần mềm” đối với văn bản được xác địnhlà:

μA((“phần mềm”) = F(μA((“máy tính”), μA((“phần mềm”), μA((“thiết kế”), μA((“cài đặt”))

μA((“phần mềm”)=AVEG(0.3, 0.4, 0.2, 0.6)=0.375.

Như vậy, bài toán xử lý văn bản trên tập mờ nói chính xác hơn chính là lưu trữ

và xử lý trên các khái niệm thay vì phải làm việc trên các thuật ngữ Việc lưu trữ và

xử lý trên các khái niệm sẽ cho ra các kết quả tốt hơn và hiệu quả hơn, giải quyết rấtnhiều vấn đề, chẳng hạn như từ đồng nghĩa, tuy nhiên vấn đề tính hàm phụ thuộcgiữa các khái niệm và thuật ngữ vẫn còn là một vấn đề không dễ giải quyết

2.4 Kết chương

Trong chương này chúng ta vẫn ở mức độ tổng quan tìm hiểu về các thuật toán

sử dụng trong các bài toán xử lý văn bản Những thuật toán này tuy vào các bài toánkhác nhau mà được sử dụng phù hợp với nó Chúng ta đặc biệt quan tâm đến “phânnhóm dựa trên sự xuất hiện của tập mẫu thường xuyên”, và “phương pháp biểu xử

lý vector thưa” Những giải thuật này được sử dụng trong chương trình chính của đồán

Trang 32

3 Chương 3 Tổng quan về tập mẫu

3.1 Khái niệm về tập mẫu

Test collection – tập mẫu là một khái niệm rất rõ ràng Tập mẫu có thể là mộttập hợp các văn bản trong bài toán về xử lý văn bản, có thể là một tập hợp các hìnhảnh trong bài toán xử lý hình ảnh, hay đơn giản hơn, là một tập hợp các file âmthanh giọng nói trong bài toán xử lý tiếng nói… Trong bất kỳ một bài toán nào, từ

xử lý văn bản đến xử lý ngôn ngữ, một hệ thống chỉ được coi là tốt nếu như ta cóthể đánh giá được tính chính xác của nó Chính vì vậy mà tập mẫu được xây dựng

để đáp ứng yêu cầu đó Một tập mẫu sẽ cung cấp các tập dữ liệu khác nhau, baogồm tập dữ liệu học và tập dữ liệu kiểm tra Một hệ thống chỉ có thể coi là hoạtđộng tốt nếu như nó được kiểm nghiệm là đúng trên một tập mẫu tốt

Xét một cách cụ thể, trong bài toán thu thập thông tin (Information Retrieval IR), một hệ thống IR có thể là các ứng dụng cụ thể, các hệ thống hoạt động trongphòng thí nghiệm hay các thuật toán Để đáp ứng được nhu cầu kiểm thử các hệthống này ta cần phải xây dựng các văn bản kiểm tra và các văn bản học Nhưngquá trình xây dựng văn bản học này rất khó khăn Ta không thể với mỗi hệ thống lại

-xây dựng một tập các văn bản mới như vậy, do đó chúng ta cần một tập mẫu chuẩn,

một tập mẫu có thể đáp ứng sử dụng trong nhiều hệ thống

Như vậy, ta có thể định nghĩa tập mẫu chuẩn như sau:

Tập mẫu –test collection là một tập hợp dữ liệu, thuộc về một lĩnh vực nghiên

cứu cụ thể (văn bản, ngôn ngữ hay tiếng nói), được tạo ra với mục đích nghiên cứunhằm chuẩn hóa và kiểm nghiệm tính chính xác của một bài toán, một thuật toánchưa xác định trước Tập dữ liệu của tập mẫu bao gồm các dữ liệu học (tranning) và

dữ liệu kiểm tra (test) Tập mẫu cũng có thể đưa ra các đánh giá liên quan đến bàitoán hay thuật toán xác định

Nội dung :

3.1 Khái niệm về tập mẫu.

3.2 Đặc điểm của tập mẫu.

3.3.Các tập mẫu xử lý văn bản tiếng anh.

3.4 Kết chương.

Trang 33

3.2 Đặc điểm của tập mẫu

Như vậy, một tập mẫu có thể hiểu đơn giản là một tập hợp các dữ liệu có thểđược sử dụng để học (training) và kiểm nghiệm (test) 0Chúng ta đã có tập mẫu,nhưng để đảm bảo độ chính xác cao trong kết quả cuối cùng thì không chỉ cần mộtthuật toán tốt, đáng tin cậy mà còn phải có cần có một tập mẫu tốt hay nói cáchkhác tập mẫu đó phải đạt được các điều kiện quy định về tập mẫu Điều kiện đủ củamột tập mẫu tốt còn là: nguồn gốc, tính đầy đủ và cuối cùng là tính hiệu quả

3.2.1 Nguồn gốc

Một vấn đề luôn luôn được đặt ra khi xây dựng một tập mẫu, cho dù là tập mẫu

về văn bản, hình ảnh hay tiếng nói, đó là dữ liệu sẽ được lấy ở đâu? Nguồn gốc củamột tập mẫu chính là nơi mà người xây dựng tập mẫu lấy về từ đó các dữ liệu thô

để tinh chỉnh thành các dữ liệu dùng trong tập mẫu Do đó, nếu nguồn gốc của dữliệu có được là một nơi đáng tin cậy, cơ sở dữ liệu lớn(ví dụ: Reuter hay AFP) thìtập mẫu chắc chắn sẽ có các văn bản đầy đủ và khá chính xác

và vị trí rõ ràng, không có sự mập mờ cũng như dư thừa hay thiếu sót

Do đó hai điều kiện này luôn đi với nhau

Tính hiệu quả của một tập mẫu sẽ được tăng lên qua một thời gian dài sử dụng

và liên tục chỉnh sửa Để thu được một phiên bản tập mẫu hoàn chỉnh và có hiệuquả cao cần có một thời gian dài nghiên cứu, xây dựng và phát triển Và chính cáckết quả thực nghiệm tập mẫu sẽ khẳng định tập mẫu có hiệu quả hay không, và cụthể hơn, có dùng được hay không

Kiểm nghiệm thực tế sẽ cho ta biết một tập mẫu có thể được coi là tốt haykhông Ta sẽ kiểm nghiệm tập mẫu có hoạt động chính xác với các thuật toán đãđược chứng minh là đúng hay không Hay nói khác đi, ta sẽ dùng chính thuật toán

Trang 34

nghiên cứu hay thuật toán đã có trước đó Vì vậy, kết quả thực nghiệm trên mộtthuật toán phổ biến sẽ đem lại sự đánh giá chính xác về tập mẫu và giúp ta xem xétcần phải chỉnh sửa những gì cho phù hợp với yêu cầu.

3.3 Các tập mẫu xử lý văn bản tiếng anh.

Phân lớp văn bản - text categorization là quá trình tự động phân chia các văn bảnngôn ngữ tự nhiên vào các các phân lớp dựa trên nội dung và được ứng dụng nhiềutrong xử lý thông tin như đánh chỉ số từ vựng có điều khiển (controlled vocabularyindexing), định hướng và đóng gói thông tin, lọc nội dung, an toàn thông tin … Bàitoán phân lớp còn liên quan nhiều đến các bài toán khác như trộn thông tin, khaiphá dữ liệu…

Khi tiến hành nghiên cứu và ứng dụng các bài toán phân lớp văn bản, một yêucầu đặt ra là cần có một tập mẫu để kiểm thử kết quả Tập mẫu cho bài toán phânlớp đã được hình thành để đáp ứng yêu cầu đó

Các bài toán phân lớp văn bản, cũng như các bài toán xử lý ngôn ngữ tự nhiênkhác, rất cần có một tập mẫu chuẩn để có thể kiểm nghiệm tính đúng đắn cũng như

sự chính xác Mọi kết quả đưa ra đều cần được kiểm nghiệm và khẳng định Hơnnữa do tính đặc thù là tập mẫu cho bài toán phân lớp văn bản nên tập mẫu phải đảmbảo được sự rõ ràng trong các phân lớp cũng như các văn bản thuộc phân lớp vàgiúp cho người sử dụng có thể kiểm nghiệm được chính xác hệ thống/thuật toán củamình có phân lớp đúng hay không

Trên thế giới hiện nay có khá nhiều tập mẫu cho phân lớp văn bản Đó là Reuter

21578, 20NewsGroup, Reuters Corpus Volume 1 (RCV1),TC-300 Trong khuônkhổ thực tập chuyên ngành em đã nghiên cứu về đặc điểm và cách xây dựng hai tậpmẫu cho bài toán phân lớp được sử dụng nhiều nhất hiện nay, đó là Reuter 21578 vàRCV 1 Bên cạnh đó tác giả cũng xin trình bày về cách thức và phương pháp xâydựng một tập mẫu chuẩn khác khá nổi tiếng nhưng không hẳn là cho bài toán phânlớp văn bản, đó là WT10g

3.3.1 Tập mẫu Reuter 21578

3.3.1.1 Lịch sử phát triển của tập mẫu Reuter 21578

Tập văn bản mẫu Reuters-21578 lần đầu xuất hiện vào năm 1987 Đến năm

1990, tập văn bản mẫu này được Reuter và CGI dùng vào mục đích nghiên cứutrong phòng thí nghiệm về thu thập thông tin Information Retrieval Laboratory(IRL)(W Bruce Croft, Director) của khoa Khoa học máy tính và thông tin của Đạihọc Massachusetts ở Amherst Việc định dạng của văn bản và xây dựng các file dữliệu được tiến hành năm 1990 bởi David D.Lewis và Stephen Harding ởInformation Retrieval Laboratory

Việc định dạng và xây dựng những file dữ liệu ở mức độ cao hơn được thựchiện vào năm 1991 và 1992 bởi David D Lewis và Peter Shoemaker ở Trung tâm

Trang 35

Thông tin và Nghiên cứu Ngôn ngữ Chicago - Center for Information andLanguage Studies, University of Chicago

Phiên bản dữ liệu này được cung cẫp miễn phí với tên gọi "Reuters-22173,Distribution 1.0" qua giao thức FTP ở Nhật năm 1993 Từ năm 1993 tới năm 1996,Distribution 1.0 lưu giữ trên FTP sites được duy trì bởi Trung tâm IntelligentInformation Retrieval (W Bruce Croft, Giám Đốc) của Trung tâm Khoa học Máytính Đại học Massachusetts Amherst

Tại hội nghị ACM SIGIR '96 vào tháng tám năm 1996 một nhóm các nhànghiên cứu về phân lớp văn bản đã thảo luận sự khác biệt giữa kết quả nghiên cứuđối với Reuters-22173 và các nghiên cứu khác Và họ quyết định rằng một phiênbản mới của văn bản mẫu sẽ được xây dựng với tính định hình rõ ràng hơn, và baogồm các tư liệu về các phơưng pháp sử dụng văn bản mãu chuẩn

Steve Finch and David D Lewis tiến hành chỉnh sửa văn bản mẫu này trongtháng 11 năm 1996, dựa vào bản SGML-tagged của Finch's từ một nghiên cứutrước đó Một kết quả nữa của quá trình kiểm tra là sự gỡ bỏ 595 văn bản trùng lặp,những văn bản là bản sao chính xác của các văn bản khác trong văn bản mẫu Tậpvăn bản mẫu mới chỉ có 21,578 văn bản, và vì vậy gọi là Reuters-21578 collection

3.3.1.2 Quá trình nâng cấp từ Reuter 22173 đến Reuter 21578

Để có được một tập khá chính xác từ Reuter-22173, nhóm nghiên cứu đã tiếnhành như sau:

1 Các văn bản được đánh dấu với thẻ SGML, và theo đó một SGML DTDđược xây dựng, vì vậy các đường biên của các phần quan trọng của các vănbản không còn mập mờ

2 Tập hợp các phân lớp mà thuộc một trong năm lớp văn bản lớn đã được xácđịnh rõ ràng.Tất cả các tên phân lớp không không hợp lệ (không thuộc lớpnào) đã được chỉnh sửa lại

3 Các văn bản có ID mới, theo thứ tự thời gian, và lựa chọn 1000 văn bảnthành một file theo thứ tự ID

Có thể coi đây là một kinh nghiệm quan trọng trong việc xây dựng tập mẫu

3.3.1.3 Khuôn dạng dữ liệu tập mẫu Reuters-21578

Tập văn bản mẫu Reuters-21578 được xây dựng thành 22 file Mỗi một filetrong 21 file đầu tiên (các file được đánh số từ reut2-000.sgm đến reut2-020.sgm)bao gồm 1000 văn bản, và file cuối cùng (reut2-021.sgm) bao gồm 578 văn bản Các file đều theo định dạng chuẩn SGML Ở đây ta không xem xét chi tiết củangôn ngữ chuẩn SGML mà chỉ xem xét cách thức nhóm nghiên cứu của Giáo sư

Trang 36

Lewis đã tiến hành để sử dụng các thẻ SGML để phân chia mỗi file và mỗi văn bảnthành các phần

Tất cả các file trong số 22 file này luôn bắt đầu bằng một câu khai báo như sau: <! DOCTYPE lewis SYSTEM "lewis.dtd">

(File DTD lewis.tdt được phân phối kèm theo)

Tiếp đó trong mỗi file là những bài báo riêng biệt của Reuters đánh dấu với thẻSGML, như miêu tả dưới đây:

Thẻ Reuters:

Mỗi một bài báo bắt đầu với một “open tags” dưới dạng:

<REUTERS TOPICS=?? LEWISSPLIT=?? CGISPLIT=?? OLDID=?? NEWID=??

Các giá trị có thể có là YES, NO và BYPASS

- YES chỉ ra rằng trong dữ liệu nguyên bản, đã có ít nhất một mục vào (entry) ởTOPIC

- NO chỉ ra rằng trong dữ liệu nguyên bản bài báo đã không có entries ở TOPIC

- BYPASS chỉ ra rằng trong dữ liệu nguyên bản bài báo đã được đánh dấu bằng cácchuỗi ký tự “bypass” ( hoặc các biến tạo chữ ở các chuỗi ký tự đó)

Các giá trị này nhằm chỉ ra có hay không cácvăn bản có sự phân lớp theoTOPIC trong tập hợp dữ liệu nguyên gốc của Reuters-22173

Trang 37

Thuộc tính TOPIC “Not” không chỉ ra được là có hay không các văn bản củaReuters -21578 có bất kỳ sự phân lớp theo TOPIC nào Phiên bản 1.0 của văn bảnnày bị lỗi ở phần này Bài báo có TOPIC= “yes” có thể không có sự phân lớp theoTOPIC và bài báo có TOPIC = “NO” có thể có sự phân lớp theo TOPIC.

Có thể kết luận rằng tất các bài báo có TOPIC= “yes” có nghĩa ít nhất người lậpmục lục cũng xem xét tới khả năng bài báo này thuộc về một phân lớp văn bảnTOPIC có hợp lệ hay không Vì vậy các bài báo có TOPIC= “yes” nhưng lại khôngthuộc topic nào có thể được dùng làm ví dụ mang tính phủ nhận cho tất cả 135 phânlớp TOPIC hợp lệ

Các bài báo có TOPIC = “NO” khó giải quyết hơn trong quá trình diễn giải Mộtvài trong số những bài báo này được giả định là có kết quả bởi vì người lập thư mụcquyết định là chúng không phải bất kỳ trong 135 phân lớp TOPIC hợp lệ Tuy nhiêncũng có một vài trường hợp rõ ràng một bài báo chắc chắn thuộc về một hoặc nhiềuhơn sự phân lớp TOPIC, tuy nhiên vì một vài lý do nào đó mà lại không thấy sựphân lớp này Và cũng như vậy trong một số trường hợp, người tạo lập thư mụcmuốn phân lớp theo TOPIC nhưng lại có nhầm lẫn giữa các topic Những trườnghợp này đã được sửa chữa ở dữ liệu của Reuter – 21578, lúc này sẽ được các vănbản được phân lớp nhưng lại nằm ở phần có TOPIC= “NO” vì sự phân lớp đãkhông được thực hiện cho phiên bản nguyên gốc của dữ liệu

Các bài báo có giá trị “BYPASS” sẽ không được sử dụng, và vì vậy chúng chỉ

có tác dụng cho những công việc như là xây dựng thông tin chung về mặt ngôn ngữ

Trang 38

Các thẻ nằm trong văn bản (Document-Internal Tags)

THẻ <REUTERS> and </REUTERS> có thể giới hạn văn bản trong pham vimột file, các thẻ khác dùng để giới hạn các yếu tố trong một văn bản

Các thẻ có thể xuất hiện trong văn bản hoặc không lần nào, và đặc biệt trongmột số trướng hợp, cả open tag (<>)và close tag (</>) đều nằm trên cùng một dòngvăn bản Điều này sẽ giúp ích rất nhiều cho những phân tích nghiên cứu tập mãu màkhông dùng SGML tool

1.<DATE>, </DATE> [ONCE, SAMELINE]:

Kèm theo ngày tháng,thời gian của văn bản, đây là các dữ liệu chính xác, khôngmập mờ

2.<MKNOTE>, </MKNOTE> [VARIABLE]:

Ghi chú về sự sủa chữa đã được thực hiện đối với tập sao lục của Reuters bởiSteve Finch

3.<TOPICS>, </TOPICS> [ONCE, SAMELINE]:

Ghi kèm theo danh sách các phân lớp theo TOPIC, có thể có nhiều hơn 1, chomỗi văn bản Nếu các phân lớp TOPIC xuất hiện, nó sẽ được định giới bởi các thẻ

4 <PLACES>, </PLACES> [ONCE, SAMELINE]:

Giống như <TOPICS> nhưng là dùng cho các phân lớp PLACES

5 <PEOPLE>, </PEOPLE> [ONCE, SAMELINE]:

Giống như <TOPICS> nhưng là dùng cho các phân lớp PEOPLE

6 <ORGS>, </ORGS> [ONCE, SAMELINE]:

Giống như <TOPICS> nhưng là dùng cho các phân lớp ORGS

7 <EXCHANGES>, </EXCHANGES> [ONCE, SAMELINE]:

Giống như <TOPICS> nhưng dùng cho các phân lớp EXCHANGES

8.<COMPANIES>, </COMPANIES> [ONCE, SAMELINE]:

Những thẻ này luôn xuất hiện ngay sau nhau, vì sẽ không có các phân lớpCOMPANIES gán cho các văn bản mẫu

Trang 39

Những thẻ này dùng để qaủn lý các ký tự điều khiển hay là các ký tự “kỳ lạ” trong các vănbản của Reuter

10.<TEXT>, </TEXT> [ONCE]:

Dùng để giới hạn thuộc tính text của một văn bản

Thẻ <TEXT> có những thuộc tính sau:

a TYPE: có ba giá trị sau: NORM, BRIEF, và UNPROC NORM là giá trịmặc định và chỉ ra đó là bài báo có kết cấu thông thường Trong trường hợp này thẻTEXT xuất hiện dưới dạng <TEXT> Nó sẽ xuất hiện dưới dạng <TEXTTYPE="BRIEF"> khi bài báo ngắn hoặc có hai dòng note Thẻ xuất hiện dưới dạng

<TEXT TYPE="UNPROC">khi định dạng bài báo không bình thường ở một vàikiểu dạng mà chưa đạt được

Các thẻ sau đây nằm bên trong bên trong thẻ TEXT Không phải tất cả các bài báođều có những thẻ sau:

b <AUTHOR>, </AUTHOR>: tác giả của bài báo

c <DATELINE>, </DATELINE>:nơi xuất hiện bài báo, ngày tháng

d <TITLE>, </TITLE>: tiêu đề bài báo Nội dung bài báo vớiTYPE="BRIEF" sẽ được lấy qua <TITLE> và </TITLE>

e <BODY>, </BODY> : nội dung chủ yếu của bài báo

Ví dụ về một văn bản trong Reuter 21578

Hình 3.7.Ví dụ về một văn bản trong Reuter 21578

Trang 40

3.3.1.4 Hệ thống phần lớp trong Reuter 21578

Một tập văn bản mẫu cần cho phân lớp văn bản chứa ít nhất một tập hợp văn bản

và một specification- đặc t của phâp lớp mà văn bản đó thuộc về đối với tập vănbản mẫu của Reuters -21578 văn bản là các bàI báo newswire và các phân lớp lànăm tập hợp của nội dung liên quan đến phân lớp văn bản Mỗi một văn bản, ngườilập thư mục quyết định phân lớp nào mà từ đó các tập hợp chứa đựng văn bản đó.Các tập hợp phân lớp sau:

nhất một lần xuấthiện

Categories với ítnhất hai mươi lầnxuất hiện

Bảng 3.3 Hệ thống phân lớp trong Reuter 21578

Tập phân lớp TOPIC là phân lớp theo chủ đề kinh tế như "coconut", "gold",

"inventories", và "money-supply"….Tập hợp phân lớp này là một trong những tậphợp đựoc sử dụng nhiều nhất trong hầu hết các nghiên cứu trước đây với dữ liệu củaReuters

Các tập phân lớp XCHANGES, ORGS, PEOPLE, and PLACES phù hợp với tên củatừng loại nhất định Ví dụ "nasdaq" (EXCHANGES), "gatt" (ORGS), "perez-de-cuellar"(PEOPLE), và "australia" (PLACES) Tuy nhiên, như tác giả đã trình bày ở trên, khôngphải tất cả các văn bản được gán phân lớp một cách chính xác

Bảng thống kê trên nhóm nghiên cứu muốn chỉ ra bao nhiêu phân lớp xuất hiện

ít nhất một lần trong 21,578 văn bản mẫu và bao nhiêu xuất hiện ít nhất 20 lần trongvăn bản mẫu Rất nhiều phân lớp không xuất hiện trong văn bản mãu nhưng nhómnghiên cứu vẫn muốn bao gồm cả những phân lớp này khi đánh giá hiệu quả của hệ

Định dạng
Số trang	95
Dung lượng	3,51 MB

XÂY DỰNG THỬ NGHIỆM TẬP MẪU VÀ PHẦN MỀM PHÂN TỰ ĐỘNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

Lịch sử phỏt triển của tập mẫu Reuter 21578

Khuụn dạng dữ liệu tập mẫu Reuters-21578