Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt

Trong luận văn của mình, tôi xin chọn hướng nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt, có thừa kế các kết quả đang có trê

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

NGHIÊN CỨU CẢI TIẾN MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TỰ ĐỘNG VÀ ÁP DỤNG

TRONG XỬ LÝ VĂN BẢN TIẾNG VIỆT

Ngành: Công nghệ thông tin

LUẬN VĂN THẠC SĨ

Trang 2

MỤC LỤC Danh sách các hình 4

Danh sách bảng 5

Danh sách từ viết tắt 6

Bảng thuật ngữ Anh-Việt 7

MỞ ĐẦU 8

1 Cơ sở khoa học và tính thực tiễn của đề tài 8

2 Phạm vi và mục đính nghiên cứu của để tài 9

3 Bố cục và cấu trúc của luận văn 9

CHƯƠNG 1 - TỔNG QUAN VỀ BÀI TỐN PHÂN LOẠI VĂN BẢN 11

1.1 Tổng quan 11

1.2 Các bước chính trong bài tốn phân loại văn bản 13

CHƯƠNG 2 - BIỂU DIỄN VĂN BẢN TRONG PHÂN LOẠI VĂN BẢN 15

2.1 Các vector thuộc tính 15

2.2 Việc lựa chọn thuộc tính 16

2.2.1 Loại bỏ các từ dừng 16

2.2.2 Xác định gốc của từ 17

2.2.3 Lựa chọn thuộc tính 17

2.3 Một số phương pháp lựa chọn thuộc tính trong phân loại văn bản 17

2.3.1 Ngưỡng tần xuất văn bản (DF) 17

2.3.2 Lợi ích thơng tin (IG) 18

2.3.3 Thơng tin tương hỗ (MI) 19

2.3.4 Thống kê Chi bình phương2 20

2.3.5 Cường độ của từ (TS) 21

2.3.6 Một số phương pháp khác 22

2.4 Tổng kết chương 22

CHƯƠNG 3 - CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TRUYỀN THỐNG 24

3.1 Phương pháp Rocchio 24

3.2 Phương pháp k- Nearest Neighbour 24

3.3 Phương pháp Nạve Bayes (NB) 25

3.4 Phương pháp Linear Least Square Fit- LLSF 27

Trang 3

3.5 Phương pháp Centroid- based vector 28

3.6 Phương pháp SVM- Support Vector Machine 28

3.7 Một số phương pháp khác 32

3.8 Phương pháp đánh giá 32

CHƯƠNG 4 - PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 35

4.1 Tiếng Việt và một số đặc điểm của tiếng Việt 35

4.1.1 Cấu trúc từ trong tiếng Việt 35

4.1.2 So sánh tiếng Việt và tiếng Anh 37

4.2 Bài toán phân loại văn bản tiếng Việt 38

4.3 Vấn đề tách từ trong văn bản tiếng Việt 39

4.3.1 Tách từ trong văn bản tiếng Việt dựa trên từ 40

4.3.2 Tách từ trong văn bản tiếng Việt dựa trên ký tự 41

4.3.3 Một số phương pháp tách từ trong văn bản tiếng Việt 41

4.4 Thực nghiệm và kết quả 47

CHƯƠNG 5 - ỨNG DỤNG PHÂN CỤM TRONG CẢI TIẾN PHÂN LOẠI VĂN BẢN 53

5.1 Giới thiệu 53

5.2 Phân cụm dữ liệu 54

5.3 Một số phương pháp phân loại văn bản sử dụng phân cụm 56

5.3.1 Phương pháp 1 56

5.4 Nhận xét 64

5.5 Thực nghiệm và kết quả thực nghiệm 65

5.6.Tổng kết chương 68

CHƯƠNG 6 - CẢI TIẾN GIẢI THUẬT CHIẾT XUẤT THUỘC TÍNH NHÓM XÂU CON CHÍNH VÀ ÁP DỤNG TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 70

6.1 Giới thiệu 70

6.2 Cây hậu tố 71

Trang 4

6.3 Thuộc tính nhóm xâu con chính 73

6.3.1 Các nhóm xâu con 74

6.3.2 Các nhóm xâu con chính 75

6.4 Thuật toán 77

6.5 Nhận xét và đề xuất cải tiến thuật toán và chương trình 79

6.6 Thực nghiệm và kết quả 80

CHƯƠNG 7 - CÁC CỘNG CỤ HỖ TRỢ VÀ CÁC CHƯƠNG TRÌNH 85

7.1 Công cụ chiết xuất nội dung từ các web-site báo điện tử 85

7.2 Chương trình phân đoạn từ tiếng Việt và tạo các ma trận thuộc tính 88

7.3 Công cụ chiết xuất thuộc tính KSG và đưa ra ma trân thuộc tính 91

7.4 Công cụ mở rộng tập dữ liệu kết hợp phân cụm 93

7.5 Phân lọai văn bản sử dụng thư viện LibSVM 93

7.6 Công cụ phân loại theo phương pháp kNN và Centroid based vector 94

KẾT LUẬN 96

1 Nhận xét chung 96

2 Hướng phát triển 98

Tài liệu tham khảo 100

PHỤ LỤC A: Phân tích thiết kế chương trình phân loại văn bản tự động sử dụng thuộc tính nhóm xâu con chính 103

1 Yêu cầu của chương trình 103

2 Phân tích 103

2.1 Mô hình ca sử dụng 103

2.2 Biểu đồ tuần tự hệ thống và mô hình khái niệm 104

3 Thiết kế 106

3.1 Thao tác trên tập ngữ liệu 106

3.2 Xử lý thuộc tính xâu con chính 108

3.3 Phân loại văn bản bằng phương pháp SVM 110

4 Cài đặt chương trình 111

PHỤ LỤC B: Cấu trúc đĩa CD đi kèm 113

PHỤ LỤC C: Chia sẽ dữ liệu, các công cụ và chương trình liên quan 114

Chỉ mục từ 116

Trang 5

Danh sách các hình Hình 1-1: Các bước chính trong phân loại văn bản 13

Hình 1-2: Mô hình trong học máy 14

Hình 2-1: Biểu diễn văn bản bằng vector thuộc tính 15

Hình 3-1: SVM với siêu phẳng phân chia hai nhóm dữ liệu mẫu 29

Hình 4-1: Tình hình hiện tại của bài toán tách từ tiếng Việt 40

Hình 5-1: Phân loại kết hợp phân cụm 54

Hình 5-2: Thuật toán phân loại văn bản sử dụng phân cụm của Zeng, H.J 60

Hình 5-3: Thuật toán của phân loại văn bản sử dụng phân cụm của Kyriakopoulou, A 63

Hình 5-4: Biểu đồ so sánh độ chính xác theo tỷ lệ tập huấn luyên 68

Hình 6-1: Cây hậu tố 72

Hình 6-2: Thuật toán chiết xuất thuộc tính nhóm xâu con chính 77

Hình 7-1: Minh họa nội dung chính của bài báo trên trang web 85

Hình 7-2: Giao diện công cụ chiết xuất nội dung 86

Hình 7-3: Minh họa kết quả phân chia dữ liệu cho k-fold cross validation 87

Hình 7-4: Minh họa cấu trúc thư mục đầu vào chương trình phân đoạn từ tiếng Việt và tạo các ma trận thuộc tính 88

Hình A-1: Biểu đồ ca sử dụng 104

Hình A-2: Biểu đồ tuần tự hệ thống 105

Hình A-3: Mô hình khái niệm hệ thống 106

Hình A-4: Biểu đồ lớp ca sử dụng thao tác corpus 107

Hình A-5: Biểu đồ tuần tự ca sử dụng thao tác corpus 107

Hình A-6: Biểu đồ lớp KSG 109

Hình A-7: Biểu đồ tuần tự KSG 109

Hình A-8: Biểu đồ lớp SVM 110

Hình A-9: Biểu đồ tuần tự SVM 111

Trang 6

Danh sách bảng Bảng 3-1: Kết quả thực nghiệm của T Joachims, so sánh phương pháp SVM với một số phương pháp khác trên Corpus Reuters 31

Bảng 4-1: Cấu trúc âm tiết trong tiếng Việt 35

Bảng 4-2: So sánh tiếng Việt và Tiếng anh 37

Bảng 4-3: Thống kế nguồn gốc dữ liệu trong corpus 49

Bảng 4-4: Thống kê dữ liệu trong corpus cho từng nhóm văn bản 50

Bảng 4-5: Kết quả phân loại sử dụng một số phương pháp truyền thống 51

Bảng 5-1: Kết quả thực nghiệm phân lọai sử dụng phân cụm 67

Bảng 6-1: Sự phụ thuộc của số thuộc tính KSG với các tham số đầu vào 81

Bảng 6-2: Kết quả sử dụng hàm nhân tuyến tính và hàm nhân RBF 82

Bảng 6-3: So sánh phương pháp SVM và SVM+KSG 83

Bảng A-1: Danh sách ca sử dụng 104

Bảng A-2: Ánh xạ giữa lớp thiết kế và các file cài đặt 111

Trang 8

Bảng thuật ngữ Anh-Việt

Discriminative learning Học phân biệt

Empirical risk minimization Tối thiểu hóa rủi ro thực nghiệm

Feature selection Lựa chọn thuộc tính

Incremental clustering Phân cụm bổ sung

Incremental supervised learning Học có giám sát bổ sung

Key sub-string group Nhóm xâu con chính

Key-substring group feature Thuộc tính nhóm xâu con chính

Mutual information Thông tin tương hỗ

Reinforcement Learning Học củng cố

Unseen new document Văn bản mới cần đoán nhận

Trang 9

MỞ ĐẦU

1 Cơ sở khoa học và tính thực tiễn của đề tài

Từ khi Internet ra đời, chúng ta đã chứng kiến sự phát triển không ngừng

về số lượng thông tin trực tuyến trên Internet Nếu chúng ta xem World Wide Web như một Cơ sở dữ liệu-CSDL, thì CSDL này là khổng lồ, rất hỗn tạp và

đa phương tiện, tuy nhiên trong số đó có hơn 80% lượng thông tin là dưới dạng văn bản Với CSDL lớn như thế, việc tìm kiếm thông tin nào đó của chúng ta có thể không đạt kết quả như mong muốn, mặc dù thông tin này là tồn tại ở đâu đó Phân loại văn bản là một trong những công cụ hữu hiệu nhất

để làm giảm bớt nhưng khó khăn trong tìm kiếm thông tin, và là công cụ hết sức quan trọng trong việc quản lý, tổ chức và sắp xếp thông tin

Phân loại văn bản tự động là tác vụ tự động xác định một tài liệu (dạng văn bản ở dạng ngôn ngữ tự nhiên) thuộc một hoặc một số hạng mục đã được định trước Phân loại văn bản là rất quan trọng và được sử dụng trong rất nhiều ứng dụng như lọc văn bản (text filtering), tổ chức tài liệu, chống spam mail

Trong nhưng năm cuối của thập niên 90, thế kỷ trước và những năm đầu thế

kỷ 21, nhiều phương pháp cũng như thuật toán đã được giới thiệu để giải quyết bài toán này đặc biệt cho tiếng Anh (hay một số ngôn ngữ Âu Ấn gần với tiếng Anh là tiếng Đức, Pháp…) Đối với một số ngôn ngữ châu Á như tiếng Việt, tiếng Trung, tiếng Nhật và tiếng Hàn, bài toán này trở nên khó khăn hơn do các tính chất đặc thù của các ngôn ngữ này

Ở Việt Nam, bài toán xử lý ngôn ngữ tự nhiên, dịch tự động, tìm kiếm, tóm tắt, và phân loại văn bản cũng đã được nhà nước, các viện nghiên cứu, các trường đại học và các công ty công nghệ thông tin quan tâm, đầu tư nghiên cứu và đã có nhưng thành quả nhất định và rõ rệt Trong luận văn của mình, tôi xin chọn hướng nghiên cứu cải tiến một số phương pháp phân loại văn bản

tự động và áp dụng trong xử lý văn bản tiếng Việt, có thừa kế các kết quả đang có trên thế giới và ở Việt Nam, để nâng cao độ chính xác và hiệu năng với khía cạch đặc thù của tiếng Việt với mong muốn góp một phần sức lực của mình cho vấn đề nêu trên ở nước nhà

Trang 10

2 Phạm vi và mục đính nghiên cứu của để tài

Luận văn tập trung chủ yếu tập trung vào các vấn đề sau:

- Tìm hiểu bài tốn phân loại văn bản tự động và một số thuật tốn tiêu biểu

và đã được đánh giá là hiệu quả trên thế giới như SVM (Support Vector Machine), kNN (k- Nearest Neighbor), Nạve Bayes…

- Tìm hiểu về bài tốn phân loại văn bản tiếng Việt, với các vấn đề sau:

+ Thuận lợi và khĩ khăn

+ Đặc điểm của tiếng Việt, cấu trúc từ trong tiếng Việt

+ Vấn đề phân đoạn từ trong tiếng Việt, Vietnamese word segmentation, vấn đề tập ngữ liệu tiếng Việt (Vietnamese corpus) …

+ Áp dụng một số thuật tốn vào bài tốn phân loại văn bản tiếng Việt + Cài đặt các cơng cụ và thuật tốn liên quan

+ Thực nghiệm và kết quả thực nghiệm phân loại văn bản tiếng Việt sử dụng một số thuật tốn tiêu biểu

- Nghiên cứu một số hướng cải tiến của phân loại văn bản phù hợp với bối cảnh Việt Nam và tiếng Việt

+ Sử dụng phân cụm trong phân loại văn bản

+ Sử dụng thuộc tính nhĩm xâu con chính trong phân loại văn bản

+ Cài đặt các cơng cụ và thuật tốn liên quan

+ Thực nghiệm và kết quả thực nghiệm

3 Bố cục và cấu trúc của luận văn

Luận văn được cấu trúc như sau

- Chương 1: Trình bày tổng quan về phân loại văn bản

- Chương 2: Trình bày vấn đề biểu diễn văn bản trong phân loại văn bản dưới dạng vector thuộc tính, và một số phương pháp giảm kích thước của khơng gian thuộc tính như sử dụng danh sách từ dừng, tìm gốc của

từ, vấn đề trọng số và các phương pháp lựa chọn thuộc tính

- Chương 3: Trình bày các phương pháp phân loại văn bản truyền thống

- Chương 4: Áp dụng trong phân loại văn bản tiếng Việt, đặc điểm của tiếng Việt, so sánh với các ngơn ngữ khác, thực nghiệm và kết quả thực nghiệm cho bài tốn phân loại tiếng Việt

Trang 11

- Chương 5: Trình bày việc ứng dụng phân cụm vào phân loại văn bản để nâng cao độ chính xác với tập dữ liệu có nhãn nhỏ, các thuật toán tiêu biểu của phương pháp này, thực nghiệm và kết quả thực nghiệm

- Chương 6: Trình bày việc sử dụng thuộc tính là các nhóm xâu con chính vào phân loại văn bản để tránh việc phân đoạn từ trong phân loại văn bản, một bài toán vẫn còn mở, và nâng cao độ chính xác, cấu trúc dữ liệu cây hậu tố, thuật toán, thực nghiệm và kết quả thực nghiệm

- Chương 7: Cài đặt các chương trình và cộng cụ hỗ trợ

- Cuối cùng là kết luận và các hướng phát triển cho luận văn

- Ba phụ A, B, C lần lượt bao gồm phân tích thiết kế chương trình phân loại văn bản tự động sử dụng thuộc tính nhóm xâu con chính, cấu trúc

CD đính kèm và giới thiệu website chia sẻ tập ngữ liệu và chương trình

Trang 12

Về mặt toán học có thể định nghĩa phân loại văn bản như sau:

để chỉ định, hay tìm các tài liệu phụ hợp với một sở thích nào đó

Phân loại văn bản tự động bắt đầu xuất hiện từ nhưng năm 60 và phát triển mạnh mẽ trong thập kỷ trước Có hai hướng tiếp cận chính để xây dựng các hệ thống phân loại văn bản Một số hệ thống sử dụng phương pháp dựa trên heuristic, tương tự như trong hệ chuyên gia để phân loại và chẩn đoán Các kỹ sư trí thức sẽ định nghĩa các luật giữa dữ liệu đầu vào (các từ, hay các thuộc tính) và đầu ra là các nhóm Việc phân loại sẽ thực hiện bằng cách thực hiện quá trình suy diễn dựa trên các đầu vào và tri thức chuyên gia để suy ra kết quả phân loại Cách tiếp cận thứ hai là sử dụng học máy và có sử dung tập văn bản được phân loại bằng tay trước Phương pháp này được đánh giá là ít

Trang 13

tốn kém, xây dựng nhanh hơn và cho độ chính xác cao hơn Tuy nhiên, phân loại văn bản đưa ra rất nhiều các thách thức cho học máy Kích thước khơng gian thuộc tính lớn, lên tới hàng chục nghìn khi các từ được sử dụng, thậm chí

là hơn trong một số trường hợp sử dụng các cụm từ, câu, hay xâu con, các đặc điểm của ngơn ngữ tự nhiên như đồng nghĩa, trái nghĩa, phân phối khơng cân bằng của từ vựng, chất lượng và số lượng của tập văn bản huấn luyện đều gây ảnh hưởng kết việc phân loại, hiệu năng và kết quả của nĩ

Thơng thường phân loại văn bản thường được sử dụng dưới hai hình thức

là phân loại văn bản theo chủ đề và phân loại văn bản theo ngữ nghĩa

- Phân loại văn bản theo chủ đề: đây là cách phân loại dựa vào chủ đề

mà văn bản cĩ thể thuộc vào Tập văn bản được phân thành các chủ đề khác nhau

Ví dụ: Giáo dục, Thể thao, Du lịch

- Phân loại văn bản theo ngữ nghĩa: đây là cách phân loại dựa vào ngữ nghĩa trong văn bản đề phân loại chúng

Ví dụ: Spam hay khơng spam, được đề nghị hay khơng được đề nghị

Nhận dạng mẫu và học máy được áp dụng vào phân loại văn bản, một số phương pháp đã được giới thiệu và sử dụng như Mạng Neutral, Cây quyết định, kNN, Nạve Bayes, LLFS, SVM… các phương pháp thu được các kết quả khả quan Gần đây, hướng nghiên cứu tập trung vào tăng độ chính xác và hiệu năng của phân loại như giảm kích thước khơng gian thuộc tính, sử dụng tập dữ liệu gán nhãn nhỏ hay kết hợp học khơng giám sát Hầu hết các phương pháp phân loại ban đầu được xây dựng và thí nghiêm cho văn bản tiếng Anh sau đĩ dược áp dụng cho văn bản trên các ngơn ngữ khác Tuy nhiên trong nhiều trường hợp các ngơn ngữ khác nhau cĩ những đặc điểm khác nhau, nên các bước trong phân loại cho các ngơn ngữ khác nhau cĩ thể

sẽ cĩ các biến đổi và mực độ chính xác do đĩ cũng khĩ đồng nhất cho mọi ngơn ngữ

Trang 14

1.2 Các bước chính trong bài toán phân loại văn bản

Mô hình phân loại văn bản tổng quát gồm các bước, mô tả trong hình 1-1:

Tiền xử lý

Tạo chỉ mục

Chọn thuộc tính

Áp dụng Thuật toán Tập văn bản

Đánh giá kết quả

Hình 1-1: Các bước chính trong phân loại văn bản

Trang 15

Tạo chỉ mục là việc tính toán trọng số cho các thuộc tính bằng cách áp dụng các phương pháp tính trọng số như tần xuất từ TF, tần xuất từ kết hợp tần xuất văn bản ngược TFIDF…

Chọn thuộc tính là căn cứ vào trọng số, sử dụng một số phương pháp chọn thuộc tính như Tần xuất văn bản, Lợi ích thông tin, Thông tin tương hỗ để loại đi các thuộc tính không có ý nghĩa thông tin và không ảnh hưởng đến kết quả phân loại Việc lựa chọn thuộc tính giúp giảm kích thước không gian thuộc tính, giảm thời gian tính toán, tránh overfitting, và tăng hiểu năng của thuật toán sử dụng

Áp dụng thuật toán phân loại là việc sử dụng một thuật toán phân loại hợp

lý để tiến hành huấn luyện và kiểm thử hiệu quả phân loại

Việc đánh giá kết quả bao gồm xem xét và đánh giá thời gian huấn luyện, thời gian kiểm thử, độ chính xác của phân loại Các Tiêu chí thông thường là thời gian tính toán hiệu quả và độ chính xác cao

Trong học máy, bài toán phân loại văn bản được minh họa như trong Hình 1-2

Hình 1-2: Mô hình trong học máy

Trang 16

2.1 Các vector thuộc tính

Phương pháp trình bày văn bản được sử dụng thường xuyên trong việc tìm kiếm thông tin và học máy trong xử lý ngôn ngữ tự nhiên là biểu diễn văn bản thành vector các thuộc tính (các từ) Phương pháp biểu diễn văn bản này sử dụng tất cả các từ của văn bản và không sử dụng bất cứ thứ tự hay cấu trúc nào của văn bản Khi có một tập các văn bản, mỗi văn bản sẽ được thể hiện bằng một vector bao gốm tất cả các từ xuất hiện trong tập văn bản đó

Hình 2-1: Biểu diễn văn bản bằng vector thuộc tính

Dĩ nhiên, ta cũng có thể được sử dụng thêm một số thông tin khác trong tập văn bản như cấu trúc của các câu, vị trí của các từ hoặc những từ bên cạnh

Trang 17

Câu hỏi ở đây là chúng ta sẽ thu được gì từ những thông tin bổ sung này và chúng ta sẽ phải đánh đổi cái gì cho điều đó Hiện tại, chưa có nghiên cứu cụ thể và khả quan nào về vấn đề này Tuy nhiên, đã có những bằng chứng cho thấy đối với những văn bản dài, việc xem xét các thông tin bổ sung ngoài tập hợp các từ là không có nhiều ý nghĩa

Hiện nay, các phương pháp thể hiện văn bản hoặc sử dụng các thuộc tính boolean để cho biết nếu một từ nào đó đã xuất hiện trong một văn bản không, hoặc sử dụng tần số xuất hiện của một từ trong một văn bản cho trước Cho dù

là phương pháp nào được sử dụng đi chăng nữa, vần đề ở đây là, số lượng thuộc tính sẽ là rất lớn, đặc biệt khi mà văn bản rất dài Để giải quyết vấn đề này ta phải loại bỏ đi một số thuộc tính và giảm kích thước của không gian thuộc tính

2.2 Việc lựa chọn thuộc tính

Quá trình lựa chọn sẽ chọn những thuộc tính để sử dụng trong việc phân loại Các thuộc tính không có (hoặc ít) ý nghĩa thông tin cũng như không ảnh hưởng đến kết quả phân loại có thể bị lược bỏ, như thế việc phân loại sẽ được thực hiện trong một không gian thuộc tính nhỏ hơn Bằng cách thu nhỏ lại kích cỡ của không gian thuộc tính, không những việc huấn luyện và kiểm thử

sẽ trở nên hiệu quả hơn, mà những ảnh hưởng của overfitting được hạn chế đi Quá trình lựa chọn bao gồm các bước sau: loại bỏ các từ dừng, xác định gốc của từ, và lựa chọn thuộc tính

2.2.1 Loại bỏ các từ dừng

Các từ có tần xuất xuất hiện lớn, có nội dung thông tin thấp, hoặc không có tác dụng phân biệt được gọi là các từ dừng

Ví dụ trong tiếng Anh các mạo từ “a, the, an, that, so…”, là các từ dừng

vì chúng chứa đựng ít thông tin cũng như nội dung thông tin thấp Việc loại bỏ các từ dừng được thực hiện bằng cách, một danh sách các từ dừng được cung cấp từ trước, trong quá trình xử lý văn bản, nếu một từ thuộc danh sách này thì

sẽ bị loại bỏ và không được đưa vào không gian thuộc tính

Trang 18

2.2.2 Xác định gốc của từ

Việc xác định gốc của từ làm giảm bớt những hình thái khác nhau của một

từ gốc Ví dụ, từ “asks”, “asked”, và “asking” sẽ được rút gọn thành “ask” Quá trình này rút gọn lại số lượng những từ đặc trưng (hay từ có khả năng thể hiện đặc trưng cao)

2.2.3 Lựa chọn thuộc tính

Mặc dù đã loại đi những từ stop word và chặn các hình thái khác nhau của một từ gốc, số lượng từ riêng biệt có thể vẫn rất lớn, và hầu hết chúng lại chỉ xuất hiện thi thoảng trong văn bản Mô hình phân biệt từ [4] gợi ý những từ có tần số xuất hiện thấp thì thường không có ích trong việc phân loại Những từ

đó nên được loại bỏ nhằm làm giảm kích thước của không gian vector

Phương pháp lựa chọn thuộc tính được nghiên cứu nhiều, và đến nay vẫn còn tiếp tục Năm 1997, Yang và Pedersen đã nghiên cứu, thực nghiệm và đưa

ra kết quả so sánh các phương pháp lựa chọn thuộc tính [5] Tuy nhiên sau đó

có rất nhiều các phương pháp khác ra đời và được đánh già là hiệu quả hơn các phương pháp truyền thống Dưới đây trình bày một số phương pháp truyền thống cũng như một số kết quả nghiên cứu về lựa chọn thuộc tính từ năm 2000 đến nay

2.3 Một số phương pháp lựa chọn thuộc tính trong phân loại văn bản

2.3.1 Ngưỡng tần xuất văn bản (DF)

Tần xuất văn bản (DF) của một từ được xác định bằng số lượng văn bản chứa từ đó Ta tính giá trị tần số văn bản cho mỗi từ đơn trong tập văn bản huấn luyện và loại bỏ khỏi không gian thuộc tính những từ có giá trị tần số văn bản nhỏ hơn một số ngưỡng giá trị cho trước Ở đây sử dụng giả định là những từ ít xuất hiện sẽ không chứa ý nghĩa thông tin cho việc phân loại và không ảnh hưởng đến hiệu năng toàn cục Vậy loại bỏ chúng đi sẽ thu nhỏ lại kích cỡ của không gian thuộc tính Phương pháp này còn giúp cải tiến độ chính xác khi những từ hiếm lại là những từ gây nhiễu

Trang 19

Giới hạn Tần xuất văn bản là phương pháp đơn giản nhất cho việc giảm bớt

từ vựng Nó có thể thực hiện việc giới hạn đối với mọi tập văn bản lớn, với độ phức tạp tính toán tỉ lệ thuận với số lượng các văn bản có trong tập huấn luyện Tuy nhiên, phương pháp này được đánh giá là không ổn định trong việc nâng cao hiệu quả, và không phải là một nguyên lí tiêu chuẩn cho việc lựa chon thuộc tính Bên cạnh đó, Tần xuất văn bản cũng không được sử dụng cho quá trình loại bỏ từ mang ý nghĩa đặc biệt bởi sự giả định trong quá trình lấy lại thông tin Tức là, một số từ có tần xuất văn bản thấp nhưng có nhiều ý nghĩa thông tin thì không nên bị bỏ đi

Một số biến thể của phương pháp này là sử dụng tần xuất văn bản ngược (IDF) hay kết hợp với tần xuất của từ TF-IDF Tần xuất của một từ t trong văn bản d được định nghĩa là số lần xuất hiện của từ đó trong d.IDF được tính theo công thức:

r i

T IDF(t )= log

2.3.2 Lợi ích thông tin (IG)

Phương pháp này được sử dụng thường xuyên như một tiêu chuẩn trong lĩnh vực học máy Phương pháp này xác định số lượng thông tin thu được cho quá trình dự đoán bằng cách xác định liệu một từ nào đó có xuất hiện hay

không trong một văn bản Nếu ta coi {c i } m i=1 biểu thị cho tập các lớp Lợi ích thông tin từ t sẽ được xác định như (2-3):

Trang 20

(đôi khi giá trị của m có thể tới hàng chục ngàn), và ta cần xác định “độ tốt”

của một từ trên tất cả các lĩnh vực

Với tập huấn luyện, với mỗi từ đơn, ta sẽ tính được giá trị thông tin thu được của từ đó, và loại bỏ khỏi không gian thuộc tính những từ có giá trị thông tin thu được nhỏ hơn một số ngưỡng xác định trước Quá trình tính toán bao gồm cả việc tính xác suất điều kiện của một lớp khi cho trước một từ và việc tính toán entropy như định nghĩa Ước lượng xác suất có độ phức tạp thời

gian O(N) và độ phức tạp bộ nhớ là O(V.N) Trong đó, N là số lượng các văn bản huấn luyện, V là kích thước của bộ từ vựng Quá trình tính toán entropy sẽ diễn ra trong khoảng thời gian O(V.m)

2.3.3 Thông tin tương hỗ (MI)

Phương pháp này là một tiêu chuẩn thường xuyên được sử dụng trong việc

mô hình hóa thống kê ngôn ngữ đối với sự liên kết các từ và ứng dụng liên

quan Xét bảng ngẫu nhiên 2 chiều của một từ là t và một nhóm c, A là số lần

t và c cùng xuất hiện, B là số lần t xuất hiện không cần c, C là số lần c xuất

hiện không cần t, và N là tổng số văn bản, thì thông tin trao đổi giữa t và c

Trang 21

I(t,c) sẽ có giá trị bằng 0 nếu t và c không phụ thuộc lẫn nhau Để xác định

giá trị của một từ trong quá trình lựa chọn thuộc tính toàn cục, Ta kết hợp các điểm số của môt nhóm với một từ theo hai cách:

1 ( ) ( ) ( , )

Trong số những từ mà khả năng P r (t|c) là tương đương nhau, các từ ít xuất

hiện sẽ có giá trị cao hơn các từ thông thường Bởi vậy, giá trị này không thể được dùng để so sánh giữa các từ có tần số xuất hiện quá chênh lệch

2.3.4 Thống kê Chi bình phương2

Phương pháp này tính sự phụ thuộc giữa t và c và có thể được so sánh với

phân phối  2 Sử dụng bảng ngẫu nhiên 2 chiều của một từ t và một lớp c, A

là số lần t và c cùng xuất hiện, B là số lần t xuất hiện không có c, C là số lần c xuất hiện không có t, D là số lần t và c đều không xuất hiện, và N là tổng số

văn bản , trọng số của từ được xác định theo (2-9):

Số liệu 2 sẽ có giá trị bằng 0 nếu t và c không phụ thuộc lẫn nhau Ta

tính, với mỗi nhóm, thông kê  2 giữa mỗi từ trong một tập văn bản huấn luyện và nhóm đó, sau đó kết hợp giá trị nhóm chỉ định của một từ thành hai giá trị:

Trang 22

arg

1( ) ( ) ( , )

đã được chuẩn hóa, vì vậy các giá trị  2 có thể được dùng để so sánh giữa các

từ trong cùng một nhóm văn bản Bởi vậy, phương pháp này không thích hợp với những từ có tần số thấp

2.3.5 Cường độ của từ (TS)

Phương pháp này được đề xuất và đánh giá bởi Wilbur và Sirotkin [6] cho việc làm giảm bớt từ vựng trong quá trình thu thập dữ liệu văn bản, và sau này được ứng dụng bởi Yang và Wilbur cho việc phân loại văn bản Phương pháp này ước lượng mức quan trọng của từ dựa trên việc mức độ xuất hiện của từ

đó trong những tài liệu có nội dụng liên quan chặt chẽ với nhau Nó sử dụng một tập hợp các văn bản huấn luyện để sinh ra những cặp văn bản có độ tương

tự (được tính toán dựa trên giá trị cosine của 2 vectors đại diện cho 2 văn bản đó) lớn hơn một ngưỡng “Cường độ từ” sau đó được tính toán dựa trên xác suất có điều kiện của một từ sẽ xuất hiện trong nửa thứ hai của một cặp văn bản, với điều kiện cho trước là từ đó xuất hiện ở nửa thử nhất của cặp văn bản

Nếu ta coi x và y là một cặp văn bản bất kì có nội dung liên quan, và t là một

từ, vậy thì giá trị trọng số của từ đó được xác định như (2-12):

Tiêu chuẩn của cường độ từ rất khác so với tiêu chuẩn được đề cập trước Tiêu chuẩn này dựa trên quá trình phân cụm văn bản, với giả định rằng những văn bản có nhiều từ chung thì có nội dung liên quan (với nhau), và những từ xuất hiện trong phần gối nhau của hai văn bản là liên quan nhiều với nhau về mặt thông tin Phương pháp này không sử dụng thông tin về các mối liên hệ

Trang 23

thước là hệ tọa độ trực giao m chiều với m<n Phương pháp này tương đương

với việc ánh xạ các từ cùng xuất hiện vào trong một trục tọa độ

Một phương pháp nữa là Trọng số tin cậy (Conf-Confidence Weight) được đề suất bới P.Soucy [8], ý tưởng của phương pháp này là cân nhắc thêm các thông tin về nhóm văn bản Nó xem xét tỷ lệ giữa các văn bản trong nhóm

c chưa từ t và tỷ lệ các văn bản không thuộc nhóm c, c Nếu như hai tỷ lệ này

có sự chênh lêch lớn tức là từ t quan trong và cần có trọng số lớn

Năm 2003, H Xu đề suất phương pháp tính trọng số TM2 (second moment of term), với giả sử tất cả các nhóm đều tương tứng với một phân phối từ cố định [9], thực nghiệm của H Xu cho thấy phương pháp này cho kết quả tốt hơn Conf, IDF và IG

2.4 Tổng kết chương

Như vậy, trong phân loại văn bản, văn bản được biểu diễn dưới dạng vector thuộc tính Tuy nhiên khi đó ta sẽ có không gian thuộc tính với số chiều lớn, và các vector thưa Để giảm độ phức tạp tính toán, tăng hiệu năng của thuật toán phân loại, và giảm không gian bộ nhớ cần thiết để lưu trữ dữ liệu

Ta sử dụng các phương pháp làm giảm khích thước không gian thuộc tính như loại bỏ các từ dừng bằng các xây dựng danh sách các từ dừng, xác định gốc của từ và sử dụng các phương pháp lựa chon thuộc tính như ngưỡng tần xuất văn bản (DF), thông tin thu được (IG), thông tin tương hỗ (MI), thống kê Chi bình phương ( 2), hay cường độ từ (TS) Thực nghiệm của Y Yang [5] cho thấy có mối quan hệ chặc chẽ giữa các phương pháp DF, IG va CHI Điều này chứng tỏ DF không chỉ là một phương pháp đơn giản mà có thể sử dụng để thay thế IG va CHI, khi mức độ tính toán của các phương này là quá phức tạp

và mất nhiều thời gian Yang cho rằng IG va CHI tỏ ra hiệu quả nhất mặc dù

Trang 24

loại bỏ đi một số lượng lớn các thuộc tính mà không ảnh hưởng đến độ chính xác của kết quả phân loại (bỏ đi 98% các từ duy nhất), DF có kết quả tương đương với CH khi 90% từ được loại và TS có kết quả tương đương với khoảng 50% từ được loại

Như vây có thể thấy DF, IG và CHI là hiệu quả và có thể áp dụng vào bài toán phân loại văn bản trong thực tế Lựa chọn thuộc tính tiếp tục được nghiên cứu với nhiều công trình và kết quả cho tới nay Tuy nhiên hiện chưa có các thực nghiệm và đánh giá so sánh tính hiệu quả của các phương pháp lựa chọn thuộc tính cho văn bản tiếng Việt Đây thực sự là việc nên làm, cũng như đưa

ra các hướng dẫn trong các trường hợp nào, loại văn bản gì thì phương pháp nào tỏ ra hiệu quả cho cộng đồng NLP tiếng Việt

Do tính đơn giản trong tính toán và cài đặt các thực nghiệm về sau của luận văn chủ yếu sử dụng phương pháp DF và các biến thể của nó là IDF và TF-IDF

Trang 25

CHƯƠNG 3 - CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN

BẢN TRUYỀN THỐNG

3.1 Phương pháp Rocchio

Ý tưởng của phương pháp này là xây dựng vector mô hình cho mỗi nhóm

Ci, prototype vector, đây là vector trung bình của tất cả các vector của văn bản huấn luyện nằm trong nhóm Ci:

C  centroid  centroid (3-1) Sau đó tính mức độ tương tự giữa văn bản kiểm thử và mỗi vector mô hình, văn bản kiểm thử sẽ được gép vào nhóm có độ tương tự cao nhất

- Các kết hợp tuyến tính quá đơn giản đề phân loại

- Các tham số α và β trong (3-1) được xác định bằng thực nghiệm

3.2 Phương pháp k- Nearest Neighbour

kNN hay k – láng giềng gần nhất là phương pháp phân loại văn bản truyền thống khá nổi tiếng theo hướng tiếp cận thống kê đã được nghiên cứu trong nhiều năm qua kNN được đánh giá là một trong những phương pháp phân loại văn bản tốt nhất được sử dụng từ thời kỳ đầu trong những nghiên cứu về phân loại văn bản

Ý tưởng của phương pháp này là khi cần phân loại một văn bản mới, thuật toán sẽ xác định khoảng cách (ở đây có thể áp dụng các công thức về khoảng cách như Euclide, Cosine, Manhattan,…) của tất cả các văn bản trong tập huấn luyện đến văn bản cần phân loại để tìm ra k văn bản gần nhất, gọi là k- Nearest Neighbour (k láng giềng gần nhất), sau đó dùng các khoảng cách này đánh trọng số cho tất cả các chủ đề Khi đó, trọng số của một chủ đề chính là

Trang 26

tổng tất cả các khoảng cách ở trên của các văn bản trong k láng giềng cĩ cùng chủ đề, chủ đề nào khơng xuất hiện trong k láng giềng sẽ cĩ trọng số bằng 0 Sau đĩ, các chủ đề sẽ được sắp xếp theo giá trị trọng số giảm dần và các chủ

đề cĩ trọng số cao sẽ được chọn làm chủ đề của văn bản cần phân loại

Trọng số của chủ đề cj đối với văn bản x được tính như (3-2):

- y= 0 khi văn bản di khơng thuộc chủ đề c j

- y=1 khi văn bản d i thuộc chủ đề c j

- sim( x, d i ): là độ giống nhau giữa văn bản cần phân loại x và văn bản

di

Chúng ta cĩ thể sử dụng độ đo cosine để tính khoảng cách sim(x, d i ) theo

(3-3):

( , ) cos( , )

Để đảm bảo cho thuật tốn chạy ổn định và ít sai sĩt thì việc chọn được tham

số k tốt nhất cho thao tác phân loại là hết sức quan trọng, thơng thường thuật tốn cần được chạy thử nghiệm trên nhiều giá trị k khác nhau

Ưu điểm của phương pháp này là tính hiệu quả của nĩ, với mỗi k, khơng phụ thuộc tham số nào, ngồi ra trong phương pháp này, các đặc điểm địa phương của văn bản được xem xét và sử dụng trong phân loại

Nhược điểm của phương pháp này là thời gian phân loại khá lâu, và khĩ

tìm giá trị tối ưu cho k [10]

3.3 Phương pháp Nạve Bayes (NB)

NB là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực học máy và nhiều lĩnh vực khác như trong các cơng cụ tìm kiếm, các

bộ lọc mail…

Trang 27

Ý tưởng cơ bản của cách tiếp cận này là sử dụng xác suất cĩ điều kiện giữa

từ hoặc cụm từ và chủ đề để dự đốn xác suất thuộc vào chủ đề đĩ của văn bản cần phân loại Phương pháp này giả định rằng sự xuất hiện của tất cả các

từ trong văn bản đều độc lập với nhau Cho nên NB khơng sử dụng sự phụ thuộc của nhiều từ vào một chủ đề cụ thể Chính giả định đĩ làm cho việc tính tốn NB hiệu quả và nhanh hơn các phương pháp khơng phải Nạve Bayes cĩ

độ phức tạp theo số mũ vì nĩ khơng sử dụng cách kết hợp các từ để đưa ra phán đốn chủ đề

Ở đây, vần đề là làm sao tính được xác suất để văn bản d’ nằm trong lớp

C j , P(C j , d’) Theo luật Bayes, văn bản d’ sẽ được gán vào lớp C j nào đĩ cĩ

- F là khơng gian thuộc tính (w là một thuộc tính)

- P(C j , d’) được tính theo (3-6) dựa trên tỷ lệ số văn bản của mỗi lớp

tương ứng trong tập dữ liệu huấn luyện:

j j

C

C C

j

j i

C w TF F

c w TF

) , (

|

) , ( 1

(3-7)

Trang 28

Bên cạnh phương pháp NB này cịn cĩ một số phương pháp khác như ML Nạve Bayes, MAP Nạve Bayes, Expected Nạve Bayes Nĩi chung Nạve Bayes là một cơng cụ rất hiệu quả trong một số trường hợp nhất định

Ưu điểm của phương pháp này là làm việc tốt trên cả dữ liệu dạng số và dạng văn bản, dễ cài đặt và hiệu năng là tương đương với các phương pháp khác Tuy nhiên phương pháp này cĩ nhược điểm là sử dụng giả định khơng phụ thuộc xác suất, giả định này thường bị vi phạm trong dữ liệu thực tế, vây nên thuật tốn cho ra kết quả kém khi cĩ các thuộc tính cĩ liên quan đến nhau

3.4 Phương pháp Linear Least Square Fit- LLSF

LLSF là một cách tiếp cận ánh xạ được phát triển bởi Yang và Chute vào năm 1992 Ban đầu LLSF được thử nghiệm trong lĩnh vực xác định từ đồng nghĩa sau đĩ sử dụng trong phân loại văn bản vào năm 1994 [12]

Ý tưởng của LLSF là sử dụng phương pháp hồi quy để học từ tập huấn luyện và các chủ đề cĩ sẵn Trong đĩ, tập huấn luyện được biểu diễn dưới dạng một cặp vector đầu vào và đầu ra Với vector đầu vào là một văn bản bao gồm các từ và trọng số Vector đầu ra gồm các chủ đề cùng với trọng số nhị phân của văn bản ứng với vector đầu vào

Giải phương trình các cặp vector đầu vào, đầu ra chúng ta sẽ thu được

ma trận đồng hiện hệ số quy hồi của từ và chủ đề

Phương pháp này sử dụng cơng thức

trong đĩ:

A, B là ma trận tương ứng với tập dữ liệu huấn luyện (các cột trong ma trận

tương ứng là các vector đầu vào và đầu ra)

F LS là là ma trận kết quả chỉ ra một ánh xạ từ một văn bản bất kỳ vào vector của chủ đề đã gán trọng số

Khi sắp xếp trọng số của các chủ đề, chúng ta sẽ cĩ được một danh sách chủ đề cĩ thể gán cho văn bản cần phân loại Vì đã đặt ngưỡng lên trọng số của các chủ đề nên ta tìm được chủ đề thích hợp của văn bản đầu vào Hệ thống tự động học các ngưỡng tối ưu cho từng chủ đề

Trang 29

Mặc dù phương pháp LLFS và kNN sử dụng các thống kê khác nhau, nhưng thực nghiệm của Y Yang [12] cho thấy, hai phương pháp này có hiệu năng như nhau

3.5 Phương pháp Centroid- based vector

Ý tưởng của phương pháp này là trong dữ liệu tập huấn luyện mỗi lớp sẽ được biểu diễn bằng một vector trọng tâm Việc xác định lớp của một văn bản bất kỳ sẽ thông qua việc tìm vector trọng tâm nào gần nhất so với vector biểu diễn văn bản thử nghiệm, lớp của văn bản chính là lớp mà vector trọng tâm gần nhất đại diện

Chúng ta có công thức tính vector trọng tâm của lớp i:

{ }

1 { } j

.

i i

là vector của văn bản cần phân loại

+ {i} là tập hợp các văn bản thuộc chủ đề C i

+ Chủ đề của x được xác định là: arg max (cos( , ))i

Ci

x C

 

(3-11) Đây là một phương pháp phân loại được đánh giá là đơn giản, dễ cài đặt

và tốc độ nhanh do có độ phức tạp tuyến tính, độ chính xác là tương đương với kNN và LLFS [13]

3.6 Phương pháp SVM- Support Vector Machine

Trong những năm gần đây, phương pháp phân loại sử dụng SVM (Support Vector Machine) được quan tâm và sử dụng nhiều trong những lĩnh vực nhận dạng và phân loại SVM là một họ các phương pháp dựa trên cơ sở các hàm nhân (kernel) để tối thiểu hóa rủi ro thực nghiệm Phương pháp SVM ra đời từ

lý thuyết thống kê do Vapnik và Chervonenkis đề xuất và xây dựng năm 1995,

Trang 30

đây là phương pháp có nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dụng trong thực tiễn Các thử nghiệm thực tế cho thấy, phương pháp SVM có khả năng phân loại tốt đối với bài toán phân loại văn bản cũng như trong nhiều ứng dụng khác (như nhận dạng mẫu chữ viết tay, phát hiện mặt người trong các hình ảnh, ước lượng hồi quy…) So với các phương pháp phân loại khác, khả năng phân loại của SVM ít nhất là tương đương hoặc tốt hơn rất nhiều [14]

Ý tưởng của SVM là với một tập dữ huấn luyện cho trước ta sẽ biểu diễn

nó trong không gian vector với mỗi điểm đại diện cho một văn bản SVM sẽ tìm ra một siêu mặt phẳng quyết định nhằm phân tách không gian vector thành hai phân lớp riêng biệt tương ứng với lớp các mẫu dương (+) và lớp các mẫu

âm (–) Ở đây, lớp các mẫu dương bao gồm các văn bản thuộc về lĩnh vực cần phân loại, lớp các mẫu âm bao gồm các văn bản thuộc các lĩnh vực còn lại

Hình 3-1: SVM với siêu phẳng phân chia hai nhóm dữ liệu mẫu

Trong Hình 3-1, SVM tìm siêu phằng h phân chia các mẫu huấn luyện tích cực (+) và phủ định (–) với biên tối đa Các mẫu gần với siêu phẳng nhất được gọi là các vector hỗ trợ, trên Hình 3-1các vector hỗ trợ được khoanh tròn

Thực chất SVM là một bài toán tối ưu, ta sẽ xét bài toán phân loại với tập dữ liệu mẫu:

{(xi,yi} với i= 1, n, xi Rm và yi=±1

Trang 31

Mục tiêu của SVM là tìm được w và b để cực đại hóa lề giữa các lớp tích cưc

và lớp phủ định Tức là xác định siêu phẳng h để bài toán phân loại kết quả đạt

kết quả tối ưu nhất Để tìm được siêu mặt phẳng h ta phải tìm giá trị nhỏ nhất của ||w|| sao cho w và b thỏa mãn điều kiện (3-14):

ánh xạ các vector dữ liệu x từ không gian n chiều sang không gian m chiều,

sao cho trong không gian m chiều này, tập dữ liệu có thể phân chía tuyến tính được Khi đó, các phép tính tối ưu, đối ngẫu và tích vô hướng được thay thế giá trị, còn gọi là các hàm cuộn, một số dạng hàm cuộn cơ bản gồm đa thức, bán kính cơ sở (Radial basis function) và mạng neurak sigma 2 lớp (two layer sigmoid neural nets):

(3-15) (3-16) (3-17)

Trang 32

Phương pháp SVM thích hợp với bài toán phân loại văn bản và cho các kết quả vược trội các phương pháp khác, do nó giải quyết được các vấn đề:

- Không gian đầu vào của bài toán TC thường là lớn

- Các thuộc tính thường có liên quan chứ không hoàn toàn độc lập với nhau

- Vector biểu diễn văn bản là vector thưa, do không gian thuộc tính có số chiều là lớn và mỗi văn bản chỉ sử dụng một số trong các thuộc tính

- Hầu hết các bài toán phân loại là tuyến tính

Tuy nhiên phương pháp SVM có nhược điểm là cần phải điều chỉnh để tìm tham số tối ưu, cũng như việc chọn hàm nhân Việc sử dụng tham số thường

và tham số tối ưu có thể cho kết quả rất khác biệt

Theo thí nghiêm của T Joachims cho mười nhóm trên tập dữ liệu Reuters,

và so sánh với các phương pháp truyền thống khác như kNN, Bayes, thì SVM luôn cho kết quả vượt trội

Bảng 3-1: Kết quả thực nghiệm của T Joachims, so sánh phương pháp SVM

với một số phương pháp khác trên Corpus Reuters

[14]

Do hiệu năng vươt trội của phương pháp này so với các phương pháp truyền thống khác đã được khằng định ở [14], cũng như yếu tố khả thi của phương pháp này cho bài toán phân loại tiếng Việt đã được thử nghiệm ở [1], nên phương pháp này được sử dụng trong hầu hết các thực nghiệm trong các phần tiếp theo

Trang 33

3.7 Một số phương pháp khác

Cho đến nay đã có nhiều phương pháp khác được đề xuất và giới thiệu như Thuật toán Bầu cử (Voting Algorithm), thuật toán Adaboots, Phương pháp sử dụng Maximum Entropy, phương pháp Adaptive Resonance Associative Map, ARAM

Adaboots có ưu điểm là hiệu quả, đặc biệt trong trường hợp dữ liệu có nhiều nhiễu, giảm được ảnh hưởng của overfitting Tuy nhiên nó có nhược điểm là tồn nhiều bộ nhớ và độ phức tạp tính toán cao Maximum Entropy là một kỹ thuật ước lượng phân bố xác xuất từ dữ liệu, phương pháp Maximum Entropy (ME) tỏ ra nhạy cảm với các phương pháp lựa chọn thuộc tính [15] ARAM sử dụng mạng neural tự cấu trúc để thực hiện việc học giám sát bổ sung các mẫu của các nhóm văn bản và thực hiện các ánh xạ đa chiều các mẫu này Thực nghiệm của J.He và A.H Tan [16] cho thấy ARAM cho kết quả tốt hơn cả SVM, kNN trong phân loại văn bản tiếng Trung Nó tỏ ra hiệu quả hơn với dữ liệu có nhiễu và tập huấn luyện tương đối nhỏ

Ngoài ra đã có nhiều các đề xuất cải tiến khác như là các phương pháp kết hợp sử dụng tập dữ liệu không gán nhãn, sử dụng phân cụm- trình bày ở

chương 5, kết hợp học không giám sát Sử dụng các xâu con làm thuộc tính, trình bày ở chương 6

3.8 Phương pháp đánh giá

Việc đánh giá cần được thực hiện trên dữ liệu kiểm thử độc lập với dữ liệu huấn luyên Độ đo hiệu năng trung bình (breakeven-point) của độ chính xác (Precision) và độ bao (Recall) thường được sử dụng để đánh giá các kết quả phân loại Độ do hiệu năng trung bình ít được sử dụng trong học máy, nhưng

nó được sử dụng nhiều trong truy vấn thông tin (IR)

Độ chính xác (Precision-P) [17] là xác suất để một văn bản được đoán nhận

thuộc một nhóm là thật sự thuộc nhóm đó

Độ bao (Recall-R) [17] là xác suất để một văn bản thuộc một lớp được phân

loại thuộc lớp này

Độ chính xác phân loại (classification accuracy), được định nghĩa là số mẫu kiểm thử được phân loại đúng trên tổng số mẫu kiểm thử

Trang 34

Ma trận ngẫu nhiên hai chiều sau được sử dụng để tính độ chính xác, độ bao,

độ chính xác phân loại và độ đo F kết hợp giữa P và R:

a d Accuracy

3.9 Tổng kết chương

Như vậy cho đến nay, đã có nhiều phương pháp cũng như thuật toán được giới thiệu, với các ưu và nhược điểm khác nhau Đa số đều sử dụng cách tiếp cận học máy và biểu diễn các văn bản theo vector thuộc tính Hầu hết các phương pháp phụ thuộc vào chất lượng cũng như kích thước tập huấn luyện

Trang 35

Các thực nghiệm cho thấy SVM cho kết quả tốt nhất, tiếp đến có thể kể đến kNN hay Centroid based cũng cho kết quả khá tốt Trong phân loại văn bản tiếng Việt, do các đặc điểm của tiếng Việt, cùng với các yếu tố như thiếu bộ ngữ liệu chuẩn, khó khăn trong bước tiền xử lý … nên việc sử dụng các phương pháp phân loại văn bản cho văn bản tiếng Việt cần được kiểm chứng

và đánh giá cụ thể Bài toán phân loại văn bản tiếng Việt cùng với các thực nghiệm liên quan được thực hiện và trình bày ở chương sau

Trang 36

CHƯƠNG 4 - PHÂN LOẠI VĂN BẢN TIẾNG VIỆT

4.1 Tiếng Việt và một số đặc điểm của tiếng Việt

Tiếng Việt là loại hình ngôn ngữ đơn lập, phi hình thái Do đó, cấu trúc ngữ pháp cũng như từ vựng và câu thường khá phức tạp, khó phân tích Cụ thể

là từ trong tiếng Việt được cấu tạo từ đơn vị cơ bản là “ âm tiết”, một từ có nghĩa có thể được tạo nên từ một hoặc nhiều âm tiết

4.1.1 Cấu trúc từ trong tiếng Việt

Âm tiết tiếng Việt:

Trong tiếng Việt, âm tiết là đơn vị cơ bản nhất và chỉ có một cách phát âm Trong các văn bản, các âm tiết thường được phân cách bằng các dấu cách Cấu trúc của âm tiết trong tiếng Việt như Bảng 4-1 [2]:

Bảng 4-1: Cấu trúc âm tiết trong tiếng Việt

Thanh điệu

Phụ âm thứ nhất

[Âm đầu]

Vần Nguyên âm

thứ hai [Âm đệm]

Nguyên âm chính [Âm chính]

Trang 37

Âm tiết “anh” không có dấu thanh, không có nguyên âm thứ hai và không có phụ âm thứ nhất

Âm tiết “hoa” có nguyên âm thứ hai, nhưng không có phụ âm cuối

Từ trong tiếng Việt:

Từ trong tiếng Việt được cấu thành từ một hoặc một số âm tiết, các âm tiết được kết hợp theo một số cách khác nhau, dựa trên cách cấu thành từ các ấm tiết, ta chia làm ba nhóm:

Đây là các từ có các thành phân ngữ âm được lặp lại, từ láy thường được

sử dụng trong bối cảnh cụ thể hay mô tả âm thanh, hay được sử dụng trong văn chương

Ví dụ: long lanh, xanh xanh, nhàn nhạt

Các từ mới trong tiếng Việt

Sự phát triển của kinh tế xã hội, khoa học công nghệ, phương tiện truyền thông và xu hướng quốc tế hóa Khiến cho các ngôn ngữ không ngừng được

bổ sung về mặt từ vựng Ở đây hiểu từ mới là từ không hoặc chưa có trong từ điển, ngoài ra còn có từ viết tắt, tên riêng, và từ mượn- từ nước ngoài

- Các từ viết tắt thường ở dạng chữ hoa như CAND- Công an nhân dân

- Tên riêng có thể là tên người, tên một đia phương, tổ chức, ngày tháng, trong tiếng Việt thì tên riêng thường có chữ đầu tiên viết hoa

Ví dụ: Công ty Tân Thế Kỷ, tên tổ chức

Lưu Quỳnh Hoa, tên riêng chỉ người

Trang 38

- Từ mượn, từ nước ngoài thường được biểu thị qua kí tự la tinh, thường mỗi từ là một âm tiết và không tuân theo cấu trúc âm tiết tiếng Việt như

đã trình bày ở trên

4.1.2 So sánh tiếng Việt và tiếng Anh

Do hầu hết các nghiên cứu về xử lý ngôn ngữ tự nhiên, phân loại, tóm tắt tự động v.v đều bắt đầu với các nghiên cứu cho tiếng Anh Phần này đưa các so sánh và đánh giá giữa tiếng Việt và tiếng Anh

Bảng 4-2: So sánh tiếng Việt và Tiếng anh

Loại hình ngôn ngữ

Đơn lập (isolate language) hay ngôn ngữ phi hình thái, không biến hình, đơn tiết

Thuộc nhóm ngôn ngữ Đông nam á

Biến cách (flexion language) hay còn gọi là loại hình ngôn ngữ khuất chiết Thuộc nhóm ngôn ngữ Âu Ấn

- Từ không biến đổi hình thái và ý nghĩa ngữ pháp nằm ở ngoài từ

Ví dụ: Tôi thích anh ấy

và anh ấy thích tôi

Sự kết hợp giữa các hình

vị là chặt chẽ và khó xác định Từ trong câu được xác định bằng các

khoảng trắng hoặc dấu câu

- Từ có sự biến đổi hình thái và ý nghĩa ngữ pháp nằm ở trong từ

Ví dụ: I like him and he likes me

Trang 39

- Phương thức ngữ pháp chủ yếu là trật tự từ và

hư từ

Ví dụ: Đang ăn và ăn rồi, có sao không, không có sao, sao không có

- Phương thức ngữ pháp chủ yếu là phụ tố

Ví dụ : learned và learning, stydying và studied

Thành phần phát âm Không nhất quán Rõ ràng

Từ láy

- Tồn tại các từ láy và hiện tượng nói lái

Ví dụ : long lanh, sóng sánh

- Không tồn tại từ láy hay hiện tượng nói lái như trong tiếng Việt

Khác

- Tồn tại một loại từ đặc biệt là “ từ chỉ loại” hay phó danh từ chỉ loại kèm theo danh từ

Ví dụ: Cái máy, con dao, chiếc đũa, vì sao, con mèo

- Hiện tượng cấu tạo bằng từ ghép thêm phu

tố (affix) vào từ gốc là rất phổ biến

Ví dụ: Internetworking

4.2 Bài toán phân loại văn bản tiếng Việt

Tiếng Việt là ngôn ngữ đơn lập (isolate language) hay ngôn ngữ phi hình thái, không biến hình, đơn tiết, thuộc nhóm các ngôn ngừ Đông và Nam Á Như đã trình bày ở phần trước, tiếng Việt có ngữ âm, ngữ pháp và các đặc điểm ngữ nghĩa khác với các ngôn ngữ thuộc nhóm ngôn ngữ Ấn Âu như tiếng Anh, tiếng Đức…, các vần đề này không chỉ gây khó khăn cho việc học

Trang 40

các ngôn ngữ Châu Âu mà còn là rào cản và thách thức cho việc phát triển các phương pháp và kỹ thuật cho xử lý ngôn ngữ tự nhiên cho tiếng Việt Chúng

ta có hai lựa chon, một là sử dụng các kỹ thuật đã được nghiên cứu bài bản và

kỹ lưỡng cho các ngôn ngữ Châu Âu và tìm cách áp dụng vào tiếng Việt, hai

là chúng ta phải tự xây dựng cho mình các mô hình xử lý riêng từ đầu Lựa chọn thứ hai tỏ ra không thích hợp do tốn nhiều nguồn lực, tài liệu, chi phí, nhất là cho một nước đang phát triển như Viêt nam Vậy lựa chon thứ nhất là thích hợp hơn, măc dù có không ít khó khăn Và bài toán phân loại văn bản tiếng Việt cũng không phải là một ngoại lệ Ở đây, định nghĩa bài toán phân loại văn bản tiếng Việt là bài toán phân loại văn bản tự động, trong đó văn bản

là bằng tiếng Việt ở dạng ngôn ngữ tự nhiên

4.3 Vấn đề tách từ trong văn bản tiếng Việt

Do hầu hết các phương pháp phân loại văn bản đều sử dụng xác suất, thống

kê hay trọng số của từ, điều này khiến việc tách từ trong văn bản tiếng Việt là bước đầu tiên quan trọng nhất của bài toán phân loại văn bản tiếng Việt

Mặc dù tiếng Việt sử dụng các ký tự la tinh và la tinh mở rộng Tuy nhiên

nó có đặc điểm giống với các ngôn ngữ Đông nam á khác như tiếng Trung, tiếng Nhật, tiếng Hàn là rất khó khăn trong việc xác định biên của từ

Dựa trên kết quả khảo sát Nguyen H [18] thì các hướng tiếp cận và tình hình hiện tại của bài toán tách từ trong tiếng Việt, cũng như tham khảo các phương pháp tách từ cho tiếng Trung, được thể hiện ở Hình 4-1:

Định dạng
Số trang	119
Dung lượng	2,07 MB

Nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt

Phƣơng pháp k-Nearest Neighbour

Phƣơng pháp Linear Least Square Fit LLSF