Trong luận văn của mình, tôi xin chọn hướng nghiên cứu cải tiến một số phương pháp phân loại văn bản tự động và áp dụng trong xử lý văn bản tiếng Việt, có thừa kế các kết quả đang có trê
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGHIÊN CỨU CẢI TIẾN MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TỰ ĐỘNG VÀ ÁP DỤNG
TRONG XỬ LÝ VĂN BẢN TIẾNG VIỆT
Ngành: Công nghệ thông tin
LUẬN VĂN THẠC SĨ
Trang 2
MỤC LỤC Danh sách các hình 4
Danh sách bảng 5
Danh sách từ viết tắt 6
Bảng thuật ngữ Anh-Việt 7
MỞ ĐẦU 8
1 Cơ sở khoa học và tính thực tiễn của đề tài 8
2 Phạm vi và mục đính nghiên cứu của để tài 9
3 Bố cục và cấu trúc của luận văn 9
CHƯƠNG 1 - TỔNG QUAN VỀ BÀI TỐN PHÂN LOẠI VĂN BẢN 11
1.1 Tổng quan 11
1.2 Các bước chính trong bài tốn phân loại văn bản 13
CHƯƠNG 2 - BIỂU DIỄN VĂN BẢN TRONG PHÂN LOẠI VĂN BẢN 15
2.1 Các vector thuộc tính 15
2.2 Việc lựa chọn thuộc tính 16
2.2.1 Loại bỏ các từ dừng 16
2.2.2 Xác định gốc của từ 17
2.2.3 Lựa chọn thuộc tính 17
2.3 Một số phương pháp lựa chọn thuộc tính trong phân loại văn bản 17
2.3.1 Ngưỡng tần xuất văn bản (DF) 17
2.3.2 Lợi ích thơng tin (IG) 18
2.3.3 Thơng tin tương hỗ (MI) 19
2.3.4 Thống kê Chi bình phương2 20
2.3.5 Cường độ của từ (TS) 21
2.3.6 Một số phương pháp khác 22
2.4 Tổng kết chương 22
CHƯƠNG 3 - CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TRUYỀN THỐNG 24
3.1 Phương pháp Rocchio 24
3.2 Phương pháp k- Nearest Neighbour 24
3.3 Phương pháp Nạve Bayes (NB) 25
3.4 Phương pháp Linear Least Square Fit- LLSF 27
Trang 3
3.5 Phương pháp Centroid- based vector 28
3.6 Phương pháp SVM- Support Vector Machine 28
3.7 Một số phương pháp khác 32
3.8 Phương pháp đánh giá 32
3.9 Tổng kết chương 33
CHƯƠNG 4 - PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 35
4.1 Tiếng Việt và một số đặc điểm của tiếng Việt 35
4.1.1 Cấu trúc từ trong tiếng Việt 35
4.1.2 So sánh tiếng Việt và tiếng Anh 37
4.2 Bài toán phân loại văn bản tiếng Việt 38
4.3 Vấn đề tách từ trong văn bản tiếng Việt 39
4.3.1 Tách từ trong văn bản tiếng Việt dựa trên từ 40
4.3.2 Tách từ trong văn bản tiếng Việt dựa trên ký tự 41
4.3.3 Một số phương pháp tách từ trong văn bản tiếng Việt 41
4.4 Thực nghiệm và kết quả 47
4.5 Tổng kết chương 51
CHƯƠNG 5 - ỨNG DỤNG PHÂN CỤM TRONG CẢI TIẾN PHÂN LOẠI VĂN BẢN 53
5.1 Giới thiệu 53
5.2 Phân cụm dữ liệu 54
5.3 Một số phương pháp phân loại văn bản sử dụng phân cụm 56
5.3.1 Phương pháp 1 56
5.3.2 Phương pháp 2 58
5.3.3 Phương pháp 3 61
5.4 Nhận xét 64
5.5 Thực nghiệm và kết quả thực nghiệm 65
5.6.Tổng kết chương 68
CHƯƠNG 6 - CẢI TIẾN GIẢI THUẬT CHIẾT XUẤT THUỘC TÍNH NHÓM XÂU CON CHÍNH VÀ ÁP DỤNG TRONG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT 70
6.1 Giới thiệu 70
6.2 Cây hậu tố 71
Trang 4
6.3 Thuộc tính nhóm xâu con chính 73
6.3.1 Các nhóm xâu con 74
6.3.2 Các nhóm xâu con chính 75
6.4 Thuật toán 77
6.5 Nhận xét và đề xuất cải tiến thuật toán và chương trình 79
6.6 Thực nghiệm và kết quả 80
6.7 Tổng kết chương 83
CHƯƠNG 7 - CÁC CỘNG CỤ HỖ TRỢ VÀ CÁC CHƯƠNG TRÌNH 85
7.1 Công cụ chiết xuất nội dung từ các web-site báo điện tử 85
7.2 Chương trình phân đoạn từ tiếng Việt và tạo các ma trận thuộc tính 88
7.3 Công cụ chiết xuất thuộc tính KSG và đưa ra ma trân thuộc tính 91
7.4 Công cụ mở rộng tập dữ liệu kết hợp phân cụm 93
7.5 Phân lọai văn bản sử dụng thư viện LibSVM 93
7.6 Công cụ phân loại theo phương pháp kNN và Centroid based vector 94
KẾT LUẬN 96
1 Nhận xét chung 96
2 Hướng phát triển 98
Tài liệu tham khảo 100
PHỤ LỤC A: Phân tích thiết kế chương trình phân loại văn bản tự động sử dụng thuộc tính nhóm xâu con chính 103
1 Yêu cầu của chương trình 103
2 Phân tích 103
2.1 Mô hình ca sử dụng 103
2.2 Biểu đồ tuần tự hệ thống và mô hình khái niệm 104
3 Thiết kế 106
3.1 Thao tác trên tập ngữ liệu 106
3.2 Xử lý thuộc tính xâu con chính 108
3.3 Phân loại văn bản bằng phương pháp SVM 110
4 Cài đặt chương trình 111
PHỤ LỤC B: Cấu trúc đĩa CD đi kèm 113
PHỤ LỤC C: Chia sẽ dữ liệu, các công cụ và chương trình liên quan 114
Chỉ mục từ 116
Trang 5
Danh sách các hình Hình 1-1: Các bước chính trong phân loại văn bản 13
Hình 1-2: Mô hình trong học máy 14
Hình 2-1: Biểu diễn văn bản bằng vector thuộc tính 15
Hình 3-1: SVM với siêu phẳng phân chia hai nhóm dữ liệu mẫu 29
Hình 4-1: Tình hình hiện tại của bài toán tách từ tiếng Việt 40
Hình 5-1: Phân loại kết hợp phân cụm 54
Hình 5-2: Thuật toán phân loại văn bản sử dụng phân cụm của Zeng, H.J 60
Hình 5-3: Thuật toán của phân loại văn bản sử dụng phân cụm của Kyriakopoulou, A 63
Hình 5-4: Biểu đồ so sánh độ chính xác theo tỷ lệ tập huấn luyên 68
Hình 6-1: Cây hậu tố 72
Hình 6-2: Thuật toán chiết xuất thuộc tính nhóm xâu con chính 77
Hình 7-1: Minh họa nội dung chính của bài báo trên trang web 85
Hình 7-2: Giao diện công cụ chiết xuất nội dung 86
Hình 7-3: Minh họa kết quả phân chia dữ liệu cho k-fold cross validation 87
Hình 7-4: Minh họa cấu trúc thư mục đầu vào chương trình phân đoạn từ tiếng Việt và tạo các ma trận thuộc tính 88
Hình A-1: Biểu đồ ca sử dụng 104
Hình A-2: Biểu đồ tuần tự hệ thống 105
Hình A-3: Mô hình khái niệm hệ thống 106
Hình A-4: Biểu đồ lớp ca sử dụng thao tác corpus 107
Hình A-5: Biểu đồ tuần tự ca sử dụng thao tác corpus 107
Hình A-6: Biểu đồ lớp KSG 109
Hình A-7: Biểu đồ tuần tự KSG 109
Hình A-8: Biểu đồ lớp SVM 110
Hình A-9: Biểu đồ tuần tự SVM 111
Trang 6
Danh sách bảng Bảng 3-1: Kết quả thực nghiệm của T Joachims, so sánh phương pháp SVM với một số phương pháp khác trên Corpus Reuters 31
Bảng 4-1: Cấu trúc âm tiết trong tiếng Việt 35
Bảng 4-2: So sánh tiếng Việt và Tiếng anh 37
Bảng 4-3: Thống kế nguồn gốc dữ liệu trong corpus 49
Bảng 4-4: Thống kê dữ liệu trong corpus cho từng nhóm văn bản 50
Bảng 4-5: Kết quả phân loại sử dụng một số phương pháp truyền thống 51
Bảng 5-1: Kết quả thực nghiệm phân lọai sử dụng phân cụm 67
Bảng 6-1: Sự phụ thuộc của số thuộc tính KSG với các tham số đầu vào 81
Bảng 6-2: Kết quả sử dụng hàm nhân tuyến tính và hàm nhân RBF 82
Bảng 6-3: So sánh phương pháp SVM và SVM+KSG 83
Bảng A-1: Danh sách ca sử dụng 104
Bảng A-2: Ánh xạ giữa lớp thiết kế và các file cài đặt 111
Trang 8
Bảng thuật ngữ Anh-Việt
Discriminative learning Học phân biệt
Empirical risk minimization Tối thiểu hóa rủi ro thực nghiệm
Feature selection Lựa chọn thuộc tính
Incremental clustering Phân cụm bổ sung
Incremental supervised learning Học có giám sát bổ sung
Key sub-string group Nhóm xâu con chính
Key-substring group feature Thuộc tính nhóm xâu con chính
Mutual information Thông tin tương hỗ
Reinforcement Learning Học củng cố
Unseen new document Văn bản mới cần đoán nhận
Trang 9
MỞ ĐẦU
1 Cơ sở khoa học và tính thực tiễn của đề tài
Từ khi Internet ra đời, chúng ta đã chứng kiến sự phát triển không ngừng
về số lượng thông tin trực tuyến trên Internet Nếu chúng ta xem World Wide Web như một Cơ sở dữ liệu-CSDL, thì CSDL này là khổng lồ, rất hỗn tạp và
đa phương tiện, tuy nhiên trong số đó có hơn 80% lượng thông tin là dưới dạng văn bản Với CSDL lớn như thế, việc tìm kiếm thông tin nào đó của chúng ta có thể không đạt kết quả như mong muốn, mặc dù thông tin này là tồn tại ở đâu đó Phân loại văn bản là một trong những công cụ hữu hiệu nhất
để làm giảm bớt nhưng khó khăn trong tìm kiếm thông tin, và là công cụ hết sức quan trọng trong việc quản lý, tổ chức và sắp xếp thông tin
Phân loại văn bản tự động là tác vụ tự động xác định một tài liệu (dạng văn bản ở dạng ngôn ngữ tự nhiên) thuộc một hoặc một số hạng mục đã được định trước Phân loại văn bản là rất quan trọng và được sử dụng trong rất nhiều ứng dụng như lọc văn bản (text filtering), tổ chức tài liệu, chống spam mail
Trong nhưng năm cuối của thập niên 90, thế kỷ trước và những năm đầu thế
kỷ 21, nhiều phương pháp cũng như thuật toán đã được giới thiệu để giải quyết bài toán này đặc biệt cho tiếng Anh (hay một số ngôn ngữ Âu Ấn gần với tiếng Anh là tiếng Đức, Pháp…) Đối với một số ngôn ngữ châu Á như tiếng Việt, tiếng Trung, tiếng Nhật và tiếng Hàn, bài toán này trở nên khó khăn hơn do các tính chất đặc thù của các ngôn ngữ này
Ở Việt Nam, bài toán xử lý ngôn ngữ tự nhiên, dịch tự động, tìm kiếm, tóm tắt, và phân loại văn bản cũng đã được nhà nước, các viện nghiên cứu, các trường đại học và các công ty công nghệ thông tin quan tâm, đầu tư nghiên cứu và đã có nhưng thành quả nhất định và rõ rệt Trong luận văn của mình, tôi xin chọn hướng nghiên cứu cải tiến một số phương pháp phân loại văn bản
tự động và áp dụng trong xử lý văn bản tiếng Việt, có thừa kế các kết quả đang có trên thế giới và ở Việt Nam, để nâng cao độ chính xác và hiệu năng với khía cạch đặc thù của tiếng Việt với mong muốn góp một phần sức lực của mình cho vấn đề nêu trên ở nước nhà
Trang 10
2 Phạm vi và mục đính nghiên cứu của để tài
Luận văn tập trung chủ yếu tập trung vào các vấn đề sau:
- Tìm hiểu bài tốn phân loại văn bản tự động và một số thuật tốn tiêu biểu
và đã được đánh giá là hiệu quả trên thế giới như SVM (Support Vector Machine), kNN (k- Nearest Neighbor), Nạve Bayes…
- Tìm hiểu về bài tốn phân loại văn bản tiếng Việt, với các vấn đề sau:
+ Thuận lợi và khĩ khăn
+ Đặc điểm của tiếng Việt, cấu trúc từ trong tiếng Việt
+ Vấn đề phân đoạn từ trong tiếng Việt, Vietnamese word segmentation, vấn đề tập ngữ liệu tiếng Việt (Vietnamese corpus) …
+ Áp dụng một số thuật tốn vào bài tốn phân loại văn bản tiếng Việt + Cài đặt các cơng cụ và thuật tốn liên quan
+ Thực nghiệm và kết quả thực nghiệm phân loại văn bản tiếng Việt sử dụng một số thuật tốn tiêu biểu
- Nghiên cứu một số hướng cải tiến của phân loại văn bản phù hợp với bối cảnh Việt Nam và tiếng Việt
+ Sử dụng phân cụm trong phân loại văn bản
+ Sử dụng thuộc tính nhĩm xâu con chính trong phân loại văn bản
+ Cài đặt các cơng cụ và thuật tốn liên quan
+ Thực nghiệm và kết quả thực nghiệm
3 Bố cục và cấu trúc của luận văn
Luận văn được cấu trúc như sau
- Chương 1: Trình bày tổng quan về phân loại văn bản
- Chương 2: Trình bày vấn đề biểu diễn văn bản trong phân loại văn bản dưới dạng vector thuộc tính, và một số phương pháp giảm kích thước của khơng gian thuộc tính như sử dụng danh sách từ dừng, tìm gốc của
từ, vấn đề trọng số và các phương pháp lựa chọn thuộc tính
- Chương 3: Trình bày các phương pháp phân loại văn bản truyền thống
- Chương 4: Áp dụng trong phân loại văn bản tiếng Việt, đặc điểm của tiếng Việt, so sánh với các ngơn ngữ khác, thực nghiệm và kết quả thực nghiệm cho bài tốn phân loại tiếng Việt
Trang 11
- Chương 5: Trình bày việc ứng dụng phân cụm vào phân loại văn bản để nâng cao độ chính xác với tập dữ liệu có nhãn nhỏ, các thuật toán tiêu biểu của phương pháp này, thực nghiệm và kết quả thực nghiệm
- Chương 6: Trình bày việc sử dụng thuộc tính là các nhóm xâu con chính vào phân loại văn bản để tránh việc phân đoạn từ trong phân loại văn bản, một bài toán vẫn còn mở, và nâng cao độ chính xác, cấu trúc dữ liệu cây hậu tố, thuật toán, thực nghiệm và kết quả thực nghiệm
- Chương 7: Cài đặt các chương trình và cộng cụ hỗ trợ
- Cuối cùng là kết luận và các hướng phát triển cho luận văn
- Ba phụ A, B, C lần lượt bao gồm phân tích thiết kế chương trình phân loại văn bản tự động sử dụng thuộc tính nhóm xâu con chính, cấu trúc
CD đính kèm và giới thiệu website chia sẻ tập ngữ liệu và chương trình
Trang 12Về mặt toán học có thể định nghĩa phân loại văn bản như sau:
để chỉ định, hay tìm các tài liệu phụ hợp với một sở thích nào đó
Phân loại văn bản tự động bắt đầu xuất hiện từ nhưng năm 60 và phát triển mạnh mẽ trong thập kỷ trước Có hai hướng tiếp cận chính để xây dựng các hệ thống phân loại văn bản Một số hệ thống sử dụng phương pháp dựa trên heuristic, tương tự như trong hệ chuyên gia để phân loại và chẩn đoán Các kỹ sư trí thức sẽ định nghĩa các luật giữa dữ liệu đầu vào (các từ, hay các thuộc tính) và đầu ra là các nhóm Việc phân loại sẽ thực hiện bằng cách thực hiện quá trình suy diễn dựa trên các đầu vào và tri thức chuyên gia để suy ra kết quả phân loại Cách tiếp cận thứ hai là sử dụng học máy và có sử dung tập văn bản được phân loại bằng tay trước Phương pháp này được đánh giá là ít
Trang 13
tốn kém, xây dựng nhanh hơn và cho độ chính xác cao hơn Tuy nhiên, phân loại văn bản đưa ra rất nhiều các thách thức cho học máy Kích thước khơng gian thuộc tính lớn, lên tới hàng chục nghìn khi các từ được sử dụng, thậm chí
là hơn trong một số trường hợp sử dụng các cụm từ, câu, hay xâu con, các đặc điểm của ngơn ngữ tự nhiên như đồng nghĩa, trái nghĩa, phân phối khơng cân bằng của từ vựng, chất lượng và số lượng của tập văn bản huấn luyện đều gây ảnh hưởng kết việc phân loại, hiệu năng và kết quả của nĩ
Thơng thường phân loại văn bản thường được sử dụng dưới hai hình thức
là phân loại văn bản theo chủ đề và phân loại văn bản theo ngữ nghĩa
- Phân loại văn bản theo chủ đề: đây là cách phân loại dựa vào chủ đề
mà văn bản cĩ thể thuộc vào Tập văn bản được phân thành các chủ đề khác nhau
Ví dụ: Giáo dục, Thể thao, Du lịch
- Phân loại văn bản theo ngữ nghĩa: đây là cách phân loại dựa vào ngữ nghĩa trong văn bản đề phân loại chúng
Ví dụ: Spam hay khơng spam, được đề nghị hay khơng được đề nghị
Nhận dạng mẫu và học máy được áp dụng vào phân loại văn bản, một số phương pháp đã được giới thiệu và sử dụng như Mạng Neutral, Cây quyết định, kNN, Nạve Bayes, LLFS, SVM… các phương pháp thu được các kết quả khả quan Gần đây, hướng nghiên cứu tập trung vào tăng độ chính xác và hiệu năng của phân loại như giảm kích thước khơng gian thuộc tính, sử dụng tập dữ liệu gán nhãn nhỏ hay kết hợp học khơng giám sát Hầu hết các phương pháp phân loại ban đầu được xây dựng và thí nghiêm cho văn bản tiếng Anh sau đĩ dược áp dụng cho văn bản trên các ngơn ngữ khác Tuy nhiên trong nhiều trường hợp các ngơn ngữ khác nhau cĩ những đặc điểm khác nhau, nên các bước trong phân loại cho các ngơn ngữ khác nhau cĩ thể
sẽ cĩ các biến đổi và mực độ chính xác do đĩ cũng khĩ đồng nhất cho mọi ngơn ngữ
Trang 14
1.2 Các bước chính trong bài toán phân loại văn bản
Mô hình phân loại văn bản tổng quát gồm các bước, mô tả trong hình 1-1:
Tiền xử lý
Tạo chỉ mục
Chọn thuộc tính
Áp dụng Thuật toán Tập văn bản
Đánh giá kết quả
Hình 1-1: Các bước chính trong phân loại văn bản
Trang 15
Tạo chỉ mục là việc tính toán trọng số cho các thuộc tính bằng cách áp dụng các phương pháp tính trọng số như tần xuất từ TF, tần xuất từ kết hợp tần xuất văn bản ngược TFIDF…
Chọn thuộc tính là căn cứ vào trọng số, sử dụng một số phương pháp chọn thuộc tính như Tần xuất văn bản, Lợi ích thông tin, Thông tin tương hỗ để loại đi các thuộc tính không có ý nghĩa thông tin và không ảnh hưởng đến kết quả phân loại Việc lựa chọn thuộc tính giúp giảm kích thước không gian thuộc tính, giảm thời gian tính toán, tránh overfitting, và tăng hiểu năng của thuật toán sử dụng
Áp dụng thuật toán phân loại là việc sử dụng một thuật toán phân loại hợp
lý để tiến hành huấn luyện và kiểm thử hiệu quả phân loại
Việc đánh giá kết quả bao gồm xem xét và đánh giá thời gian huấn luyện, thời gian kiểm thử, độ chính xác của phân loại Các Tiêu chí thông thường là thời gian tính toán hiệu quả và độ chính xác cao
Trong học máy, bài toán phân loại văn bản được minh họa như trong Hình 1-2
Hình 1-2: Mô hình trong học máy
Trang 162.1 Các vector thuộc tính
Phương pháp trình bày văn bản được sử dụng thường xuyên trong việc tìm kiếm thông tin và học máy trong xử lý ngôn ngữ tự nhiên là biểu diễn văn bản thành vector các thuộc tính (các từ) Phương pháp biểu diễn văn bản này sử dụng tất cả các từ của văn bản và không sử dụng bất cứ thứ tự hay cấu trúc nào của văn bản Khi có một tập các văn bản, mỗi văn bản sẽ được thể hiện bằng một vector bao gốm tất cả các từ xuất hiện trong tập văn bản đó
Hình 2-1: Biểu diễn văn bản bằng vector thuộc tính
Dĩ nhiên, ta cũng có thể được sử dụng thêm một số thông tin khác trong tập văn bản như cấu trúc của các câu, vị trí của các từ hoặc những từ bên cạnh
Trang 17
Câu hỏi ở đây là chúng ta sẽ thu được gì từ những thông tin bổ sung này và chúng ta sẽ phải đánh đổi cái gì cho điều đó Hiện tại, chưa có nghiên cứu cụ thể và khả quan nào về vấn đề này Tuy nhiên, đã có những bằng chứng cho thấy đối với những văn bản dài, việc xem xét các thông tin bổ sung ngoài tập hợp các từ là không có nhiều ý nghĩa
Hiện nay, các phương pháp thể hiện văn bản hoặc sử dụng các thuộc tính boolean để cho biết nếu một từ nào đó đã xuất hiện trong một văn bản không, hoặc sử dụng tần số xuất hiện của một từ trong một văn bản cho trước Cho dù
là phương pháp nào được sử dụng đi chăng nữa, vần đề ở đây là, số lượng thuộc tính sẽ là rất lớn, đặc biệt khi mà văn bản rất dài Để giải quyết vấn đề này ta phải loại bỏ đi một số thuộc tính và giảm kích thước của không gian thuộc tính
2.2 Việc lựa chọn thuộc tính
Quá trình lựa chọn sẽ chọn những thuộc tính để sử dụng trong việc phân loại Các thuộc tính không có (hoặc ít) ý nghĩa thông tin cũng như không ảnh hưởng đến kết quả phân loại có thể bị lược bỏ, như thế việc phân loại sẽ được thực hiện trong một không gian thuộc tính nhỏ hơn Bằng cách thu nhỏ lại kích cỡ của không gian thuộc tính, không những việc huấn luyện và kiểm thử
sẽ trở nên hiệu quả hơn, mà những ảnh hưởng của overfitting được hạn chế đi Quá trình lựa chọn bao gồm các bước sau: loại bỏ các từ dừng, xác định gốc của từ, và lựa chọn thuộc tính
2.2.1 Loại bỏ các từ dừng
Các từ có tần xuất xuất hiện lớn, có nội dung thông tin thấp, hoặc không có tác dụng phân biệt được gọi là các từ dừng
Ví dụ trong tiếng Anh các mạo từ “a, the, an, that, so…”, là các từ dừng
vì chúng chứa đựng ít thông tin cũng như nội dung thông tin thấp Việc loại bỏ các từ dừng được thực hiện bằng cách, một danh sách các từ dừng được cung cấp từ trước, trong quá trình xử lý văn bản, nếu một từ thuộc danh sách này thì
sẽ bị loại bỏ và không được đưa vào không gian thuộc tính
Trang 18
2.2.2 Xác định gốc của từ
Việc xác định gốc của từ làm giảm bớt những hình thái khác nhau của một
từ gốc Ví dụ, từ “asks”, “asked”, và “asking” sẽ được rút gọn thành “ask” Quá trình này rút gọn lại số lượng những từ đặc trưng (hay từ có khả năng thể hiện đặc trưng cao)
2.2.3 Lựa chọn thuộc tính
Mặc dù đã loại đi những từ stop word và chặn các hình thái khác nhau của một từ gốc, số lượng từ riêng biệt có thể vẫn rất lớn, và hầu hết chúng lại chỉ xuất hiện thi thoảng trong văn bản Mô hình phân biệt từ [4] gợi ý những từ có tần số xuất hiện thấp thì thường không có ích trong việc phân loại Những từ
đó nên được loại bỏ nhằm làm giảm kích thước của không gian vector
Phương pháp lựa chọn thuộc tính được nghiên cứu nhiều, và đến nay vẫn còn tiếp tục Năm 1997, Yang và Pedersen đã nghiên cứu, thực nghiệm và đưa
ra kết quả so sánh các phương pháp lựa chọn thuộc tính [5] Tuy nhiên sau đó
có rất nhiều các phương pháp khác ra đời và được đánh già là hiệu quả hơn các phương pháp truyền thống Dưới đây trình bày một số phương pháp truyền thống cũng như một số kết quả nghiên cứu về lựa chọn thuộc tính từ năm 2000 đến nay
2.3 Một số phương pháp lựa chọn thuộc tính trong phân loại văn bản
2.3.1 Ngưỡng tần xuất văn bản (DF)
Tần xuất văn bản (DF) của một từ được xác định bằng số lượng văn bản chứa từ đó Ta tính giá trị tần số văn bản cho mỗi từ đơn trong tập văn bản huấn luyện và loại bỏ khỏi không gian thuộc tính những từ có giá trị tần số văn bản nhỏ hơn một số ngưỡng giá trị cho trước Ở đây sử dụng giả định là những từ ít xuất hiện sẽ không chứa ý nghĩa thông tin cho việc phân loại và không ảnh hưởng đến hiệu năng toàn cục Vậy loại bỏ chúng đi sẽ thu nhỏ lại kích cỡ của không gian thuộc tính Phương pháp này còn giúp cải tiến độ chính xác khi những từ hiếm lại là những từ gây nhiễu
Trang 19
Giới hạn Tần xuất văn bản là phương pháp đơn giản nhất cho việc giảm bớt
từ vựng Nó có thể thực hiện việc giới hạn đối với mọi tập văn bản lớn, với độ phức tạp tính toán tỉ lệ thuận với số lượng các văn bản có trong tập huấn luyện Tuy nhiên, phương pháp này được đánh giá là không ổn định trong việc nâng cao hiệu quả, và không phải là một nguyên lí tiêu chuẩn cho việc lựa chon thuộc tính Bên cạnh đó, Tần xuất văn bản cũng không được sử dụng cho quá trình loại bỏ từ mang ý nghĩa đặc biệt bởi sự giả định trong quá trình lấy lại thông tin Tức là, một số từ có tần xuất văn bản thấp nhưng có nhiều ý nghĩa thông tin thì không nên bị bỏ đi
Một số biến thể của phương pháp này là sử dụng tần xuất văn bản ngược (IDF) hay kết hợp với tần xuất của từ TF-IDF Tần xuất của một từ t trong văn bản d được định nghĩa là số lần xuất hiện của từ đó trong d.IDF được tính theo công thức:
r i
r i
T IDF(t )= log
2.3.2 Lợi ích thông tin (IG)
Phương pháp này được sử dụng thường xuyên như một tiêu chuẩn trong lĩnh vực học máy Phương pháp này xác định số lượng thông tin thu được cho quá trình dự đoán bằng cách xác định liệu một từ nào đó có xuất hiện hay
không trong một văn bản Nếu ta coi {c i } m i=1 biểu thị cho tập các lớp Lợi ích thông tin từ t sẽ được xác định như (2-3):
Trang 20(đôi khi giá trị của m có thể tới hàng chục ngàn), và ta cần xác định “độ tốt”
của một từ trên tất cả các lĩnh vực
Với tập huấn luyện, với mỗi từ đơn, ta sẽ tính được giá trị thông tin thu được của từ đó, và loại bỏ khỏi không gian thuộc tính những từ có giá trị thông tin thu được nhỏ hơn một số ngưỡng xác định trước Quá trình tính toán bao gồm cả việc tính xác suất điều kiện của một lớp khi cho trước một từ và việc tính toán entropy như định nghĩa Ước lượng xác suất có độ phức tạp thời
gian O(N) và độ phức tạp bộ nhớ là O(V.N) Trong đó, N là số lượng các văn bản huấn luyện, V là kích thước của bộ từ vựng Quá trình tính toán entropy sẽ diễn ra trong khoảng thời gian O(V.m)
2.3.3 Thông tin tương hỗ (MI)
Phương pháp này là một tiêu chuẩn thường xuyên được sử dụng trong việc
mô hình hóa thống kê ngôn ngữ đối với sự liên kết các từ và ứng dụng liên
quan Xét bảng ngẫu nhiên 2 chiều của một từ là t và một nhóm c, A là số lần
t và c cùng xuất hiện, B là số lần t xuất hiện không cần c, C là số lần c xuất
hiện không cần t, và N là tổng số văn bản, thì thông tin trao đổi giữa t và c
Trang 21
I(t,c) sẽ có giá trị bằng 0 nếu t và c không phụ thuộc lẫn nhau Để xác định
giá trị của một từ trong quá trình lựa chọn thuộc tính toàn cục, Ta kết hợp các điểm số của môt nhóm với một từ theo hai cách:
1 ( ) ( ) ( , )
Trong số những từ mà khả năng P r (t|c) là tương đương nhau, các từ ít xuất
hiện sẽ có giá trị cao hơn các từ thông thường Bởi vậy, giá trị này không thể được dùng để so sánh giữa các từ có tần số xuất hiện quá chênh lệch
2.3.4 Thống kê Chi bình phương2
Phương pháp này tính sự phụ thuộc giữa t và c và có thể được so sánh với
phân phối 2 Sử dụng bảng ngẫu nhiên 2 chiều của một từ t và một lớp c, A
là số lần t và c cùng xuất hiện, B là số lần t xuất hiện không có c, C là số lần c xuất hiện không có t, D là số lần t và c đều không xuất hiện, và N là tổng số
văn bản , trọng số của từ được xác định theo (2-9):
Số liệu 2 sẽ có giá trị bằng 0 nếu t và c không phụ thuộc lẫn nhau Ta
tính, với mỗi nhóm, thông kê 2 giữa mỗi từ trong một tập văn bản huấn luyện và nhóm đó, sau đó kết hợp giá trị nhóm chỉ định của một từ thành hai giá trị:
Trang 22
arg
1( ) ( ) ( , )
đã được chuẩn hóa, vì vậy các giá trị 2 có thể được dùng để so sánh giữa các
từ trong cùng một nhóm văn bản Bởi vậy, phương pháp này không thích hợp với những từ có tần số thấp
2.3.5 Cường độ của từ (TS)
Phương pháp này được đề xuất và đánh giá bởi Wilbur và Sirotkin [6] cho việc làm giảm bớt từ vựng trong quá trình thu thập dữ liệu văn bản, và sau này được ứng dụng bởi Yang và Wilbur cho việc phân loại văn bản Phương pháp này ước lượng mức quan trọng của từ dựa trên việc mức độ xuất hiện của từ
đó trong những tài liệu có nội dụng liên quan chặt chẽ với nhau Nó sử dụng một tập hợp các văn bản huấn luyện để sinh ra những cặp văn bản có độ tương
tự (được tính toán dựa trên giá trị cosine của 2 vectors đại diện cho 2 văn bản đó) lớn hơn một ngưỡng “Cường độ từ” sau đó được tính toán dựa trên xác suất có điều kiện của một từ sẽ xuất hiện trong nửa thứ hai của một cặp văn bản, với điều kiện cho trước là từ đó xuất hiện ở nửa thử nhất của cặp văn bản
Nếu ta coi x và y là một cặp văn bản bất kì có nội dung liên quan, và t là một
từ, vậy thì giá trị trọng số của từ đó được xác định như (2-12):
Tiêu chuẩn của cường độ từ rất khác so với tiêu chuẩn được đề cập trước Tiêu chuẩn này dựa trên quá trình phân cụm văn bản, với giả định rằng những văn bản có nhiều từ chung thì có nội dung liên quan (với nhau), và những từ xuất hiện trong phần gối nhau của hai văn bản là liên quan nhiều với nhau về mặt thông tin Phương pháp này không sử dụng thông tin về các mối liên hệ
Trang 23thước là hệ tọa độ trực giao m chiều với m<n Phương pháp này tương đương
với việc ánh xạ các từ cùng xuất hiện vào trong một trục tọa độ
Một phương pháp nữa là Trọng số tin cậy (Conf-Confidence Weight) được đề suất bới P.Soucy [8], ý tưởng của phương pháp này là cân nhắc thêm các thông tin về nhóm văn bản Nó xem xét tỷ lệ giữa các văn bản trong nhóm
c chưa từ t và tỷ lệ các văn bản không thuộc nhóm c, c Nếu như hai tỷ lệ này
có sự chênh lêch lớn tức là từ t quan trong và cần có trọng số lớn
Năm 2003, H Xu đề suất phương pháp tính trọng số TM2 (second moment of term), với giả sử tất cả các nhóm đều tương tứng với một phân phối từ cố định [9], thực nghiệm của H Xu cho thấy phương pháp này cho kết quả tốt hơn Conf, IDF và IG
2.4 Tổng kết chương
Như vậy, trong phân loại văn bản, văn bản được biểu diễn dưới dạng vector thuộc tính Tuy nhiên khi đó ta sẽ có không gian thuộc tính với số chiều lớn, và các vector thưa Để giảm độ phức tạp tính toán, tăng hiệu năng của thuật toán phân loại, và giảm không gian bộ nhớ cần thiết để lưu trữ dữ liệu
Ta sử dụng các phương pháp làm giảm khích thước không gian thuộc tính như loại bỏ các từ dừng bằng các xây dựng danh sách các từ dừng, xác định gốc của từ và sử dụng các phương pháp lựa chon thuộc tính như ngưỡng tần xuất văn bản (DF), thông tin thu được (IG), thông tin tương hỗ (MI), thống kê Chi bình phương ( 2), hay cường độ từ (TS) Thực nghiệm của Y Yang [5] cho thấy có mối quan hệ chặc chẽ giữa các phương pháp DF, IG va CHI Điều này chứng tỏ DF không chỉ là một phương pháp đơn giản mà có thể sử dụng để thay thế IG va CHI, khi mức độ tính toán của các phương này là quá phức tạp
và mất nhiều thời gian Yang cho rằng IG va CHI tỏ ra hiệu quả nhất mặc dù
Trang 24
loại bỏ đi một số lượng lớn các thuộc tính mà không ảnh hưởng đến độ chính xác của kết quả phân loại (bỏ đi 98% các từ duy nhất), DF có kết quả tương đương với CH khi 90% từ được loại và TS có kết quả tương đương với khoảng 50% từ được loại
Như vây có thể thấy DF, IG và CHI là hiệu quả và có thể áp dụng vào bài toán phân loại văn bản trong thực tế Lựa chọn thuộc tính tiếp tục được nghiên cứu với nhiều công trình và kết quả cho tới nay Tuy nhiên hiện chưa có các thực nghiệm và đánh giá so sánh tính hiệu quả của các phương pháp lựa chọn thuộc tính cho văn bản tiếng Việt Đây thực sự là việc nên làm, cũng như đưa
ra các hướng dẫn trong các trường hợp nào, loại văn bản gì thì phương pháp nào tỏ ra hiệu quả cho cộng đồng NLP tiếng Việt
Do tính đơn giản trong tính toán và cài đặt các thực nghiệm về sau của luận văn chủ yếu sử dụng phương pháp DF và các biến thể của nó là IDF và TF-IDF
Trang 25
CHƯƠNG 3 - CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN
BẢN TRUYỀN THỐNG
3.1 Phương pháp Rocchio
Ý tưởng của phương pháp này là xây dựng vector mô hình cho mỗi nhóm
Ci, prototype vector, đây là vector trung bình của tất cả các vector của văn bản huấn luyện nằm trong nhóm Ci:
C centroid centroid (3-1) Sau đó tính mức độ tương tự giữa văn bản kiểm thử và mỗi vector mô hình, văn bản kiểm thử sẽ được gép vào nhóm có độ tương tự cao nhất
- Các kết hợp tuyến tính quá đơn giản đề phân loại
- Các tham số α và β trong (3-1) được xác định bằng thực nghiệm
3.2 Phương pháp k- Nearest Neighbour
kNN hay k – láng giềng gần nhất là phương pháp phân loại văn bản truyền thống khá nổi tiếng theo hướng tiếp cận thống kê đã được nghiên cứu trong nhiều năm qua kNN được đánh giá là một trong những phương pháp phân loại văn bản tốt nhất được sử dụng từ thời kỳ đầu trong những nghiên cứu về phân loại văn bản
Ý tưởng của phương pháp này là khi cần phân loại một văn bản mới, thuật toán sẽ xác định khoảng cách (ở đây có thể áp dụng các công thức về khoảng cách như Euclide, Cosine, Manhattan,…) của tất cả các văn bản trong tập huấn luyện đến văn bản cần phân loại để tìm ra k văn bản gần nhất, gọi là k- Nearest Neighbour (k láng giềng gần nhất), sau đó dùng các khoảng cách này đánh trọng số cho tất cả các chủ đề Khi đó, trọng số của một chủ đề chính là
Trang 26
tổng tất cả các khoảng cách ở trên của các văn bản trong k láng giềng cĩ cùng chủ đề, chủ đề nào khơng xuất hiện trong k láng giềng sẽ cĩ trọng số bằng 0 Sau đĩ, các chủ đề sẽ được sắp xếp theo giá trị trọng số giảm dần và các chủ
đề cĩ trọng số cao sẽ được chọn làm chủ đề của văn bản cần phân loại
Trọng số của chủ đề cj đối với văn bản x được tính như (3-2):
- y= 0 khi văn bản di khơng thuộc chủ đề c j
- y=1 khi văn bản d i thuộc chủ đề c j
- sim( x, d i ): là độ giống nhau giữa văn bản cần phân loại x và văn bản
di
Chúng ta cĩ thể sử dụng độ đo cosine để tính khoảng cách sim(x, d i ) theo
(3-3):
( , ) cos( , )
Để đảm bảo cho thuật tốn chạy ổn định và ít sai sĩt thì việc chọn được tham
số k tốt nhất cho thao tác phân loại là hết sức quan trọng, thơng thường thuật tốn cần được chạy thử nghiệm trên nhiều giá trị k khác nhau
Ưu điểm của phương pháp này là tính hiệu quả của nĩ, với mỗi k, khơng phụ thuộc tham số nào, ngồi ra trong phương pháp này, các đặc điểm địa phương của văn bản được xem xét và sử dụng trong phân loại
Nhược điểm của phương pháp này là thời gian phân loại khá lâu, và khĩ
tìm giá trị tối ưu cho k [10]
3.3 Phương pháp Nạve Bayes (NB)
NB là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi trong lĩnh vực học máy và nhiều lĩnh vực khác như trong các cơng cụ tìm kiếm, các
bộ lọc mail…
Trang 27
Ý tưởng cơ bản của cách tiếp cận này là sử dụng xác suất cĩ điều kiện giữa
từ hoặc cụm từ và chủ đề để dự đốn xác suất thuộc vào chủ đề đĩ của văn bản cần phân loại Phương pháp này giả định rằng sự xuất hiện của tất cả các
từ trong văn bản đều độc lập với nhau Cho nên NB khơng sử dụng sự phụ thuộc của nhiều từ vào một chủ đề cụ thể Chính giả định đĩ làm cho việc tính tốn NB hiệu quả và nhanh hơn các phương pháp khơng phải Nạve Bayes cĩ
độ phức tạp theo số mũ vì nĩ khơng sử dụng cách kết hợp các từ để đưa ra phán đốn chủ đề
Ở đây, vần đề là làm sao tính được xác suất để văn bản d’ nằm trong lớp
C j , P(C j , d’) Theo luật Bayes, văn bản d’ sẽ được gán vào lớp C j nào đĩ cĩ
- F là khơng gian thuộc tính (w là một thuộc tính)
- P(C j , d’) được tính theo (3-6) dựa trên tỷ lệ số văn bản của mỗi lớp
tương ứng trong tập dữ liệu huấn luyện:
j j
C
C C
j
j i
C w TF F
c w TF
) , (
|
|
) , ( 1
(3-7)
Trang 28
Bên cạnh phương pháp NB này cịn cĩ một số phương pháp khác như ML Nạve Bayes, MAP Nạve Bayes, Expected Nạve Bayes Nĩi chung Nạve Bayes là một cơng cụ rất hiệu quả trong một số trường hợp nhất định
Ưu điểm của phương pháp này là làm việc tốt trên cả dữ liệu dạng số và dạng văn bản, dễ cài đặt và hiệu năng là tương đương với các phương pháp khác Tuy nhiên phương pháp này cĩ nhược điểm là sử dụng giả định khơng phụ thuộc xác suất, giả định này thường bị vi phạm trong dữ liệu thực tế, vây nên thuật tốn cho ra kết quả kém khi cĩ các thuộc tính cĩ liên quan đến nhau
3.4 Phương pháp Linear Least Square Fit- LLSF
LLSF là một cách tiếp cận ánh xạ được phát triển bởi Yang và Chute vào năm 1992 Ban đầu LLSF được thử nghiệm trong lĩnh vực xác định từ đồng nghĩa sau đĩ sử dụng trong phân loại văn bản vào năm 1994 [12]
Ý tưởng của LLSF là sử dụng phương pháp hồi quy để học từ tập huấn luyện và các chủ đề cĩ sẵn Trong đĩ, tập huấn luyện được biểu diễn dưới dạng một cặp vector đầu vào và đầu ra Với vector đầu vào là một văn bản bao gồm các từ và trọng số Vector đầu ra gồm các chủ đề cùng với trọng số nhị phân của văn bản ứng với vector đầu vào
Giải phương trình các cặp vector đầu vào, đầu ra chúng ta sẽ thu được
ma trận đồng hiện hệ số quy hồi của từ và chủ đề
Phương pháp này sử dụng cơng thức
trong đĩ:
A, B là ma trận tương ứng với tập dữ liệu huấn luyện (các cột trong ma trận
tương ứng là các vector đầu vào và đầu ra)
F LS là là ma trận kết quả chỉ ra một ánh xạ từ một văn bản bất kỳ vào vector của chủ đề đã gán trọng số
Khi sắp xếp trọng số của các chủ đề, chúng ta sẽ cĩ được một danh sách chủ đề cĩ thể gán cho văn bản cần phân loại Vì đã đặt ngưỡng lên trọng số của các chủ đề nên ta tìm được chủ đề thích hợp của văn bản đầu vào Hệ thống tự động học các ngưỡng tối ưu cho từng chủ đề
Trang 29
Mặc dù phương pháp LLFS và kNN sử dụng các thống kê khác nhau, nhưng thực nghiệm của Y Yang [12] cho thấy, hai phương pháp này có hiệu năng như nhau
3.5 Phương pháp Centroid- based vector
Ý tưởng của phương pháp này là trong dữ liệu tập huấn luyện mỗi lớp sẽ được biểu diễn bằng một vector trọng tâm Việc xác định lớp của một văn bản bất kỳ sẽ thông qua việc tìm vector trọng tâm nào gần nhất so với vector biểu diễn văn bản thử nghiệm, lớp của văn bản chính là lớp mà vector trọng tâm gần nhất đại diện
Chúng ta có công thức tính vector trọng tâm của lớp i:
{ }
1 { } j
.
i i
là vector của văn bản cần phân loại
+ {i} là tập hợp các văn bản thuộc chủ đề C i
+ Chủ đề của x được xác định là: arg max (cos( , ))i
Ci
x C
(3-11) Đây là một phương pháp phân loại được đánh giá là đơn giản, dễ cài đặt
và tốc độ nhanh do có độ phức tạp tuyến tính, độ chính xác là tương đương với kNN và LLFS [13]
3.6 Phương pháp SVM- Support Vector Machine
Trong những năm gần đây, phương pháp phân loại sử dụng SVM (Support Vector Machine) được quan tâm và sử dụng nhiều trong những lĩnh vực nhận dạng và phân loại SVM là một họ các phương pháp dựa trên cơ sở các hàm nhân (kernel) để tối thiểu hóa rủi ro thực nghiệm Phương pháp SVM ra đời từ
lý thuyết thống kê do Vapnik và Chervonenkis đề xuất và xây dựng năm 1995,
Trang 30
đây là phương pháp có nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dụng trong thực tiễn Các thử nghiệm thực tế cho thấy, phương pháp SVM có khả năng phân loại tốt đối với bài toán phân loại văn bản cũng như trong nhiều ứng dụng khác (như nhận dạng mẫu chữ viết tay, phát hiện mặt người trong các hình ảnh, ước lượng hồi quy…) So với các phương pháp phân loại khác, khả năng phân loại của SVM ít nhất là tương đương hoặc tốt hơn rất nhiều [14]
Ý tưởng của SVM là với một tập dữ huấn luyện cho trước ta sẽ biểu diễn
nó trong không gian vector với mỗi điểm đại diện cho một văn bản SVM sẽ tìm ra một siêu mặt phẳng quyết định nhằm phân tách không gian vector thành hai phân lớp riêng biệt tương ứng với lớp các mẫu dương (+) và lớp các mẫu
âm (–) Ở đây, lớp các mẫu dương bao gồm các văn bản thuộc về lĩnh vực cần phân loại, lớp các mẫu âm bao gồm các văn bản thuộc các lĩnh vực còn lại
Hình 3-1: SVM với siêu phẳng phân chia hai nhóm dữ liệu mẫu
Trong Hình 3-1, SVM tìm siêu phằng h phân chia các mẫu huấn luyện tích cực (+) và phủ định (–) với biên tối đa Các mẫu gần với siêu phẳng nhất được gọi là các vector hỗ trợ, trên Hình 3-1các vector hỗ trợ được khoanh tròn
Thực chất SVM là một bài toán tối ưu, ta sẽ xét bài toán phân loại với tập dữ liệu mẫu:
{(xi,yi} với i= 1, n, xi Rm và yi=±1
Trang 31Mục tiêu của SVM là tìm được w và b để cực đại hóa lề giữa các lớp tích cưc
và lớp phủ định Tức là xác định siêu phẳng h để bài toán phân loại kết quả đạt
kết quả tối ưu nhất Để tìm được siêu mặt phẳng h ta phải tìm giá trị nhỏ nhất của ||w|| sao cho w và b thỏa mãn điều kiện (3-14):
ánh xạ các vector dữ liệu x từ không gian n chiều sang không gian m chiều,
sao cho trong không gian m chiều này, tập dữ liệu có thể phân chía tuyến tính được Khi đó, các phép tính tối ưu, đối ngẫu và tích vô hướng được thay thế giá trị, còn gọi là các hàm cuộn, một số dạng hàm cuộn cơ bản gồm đa thức, bán kính cơ sở (Radial basis function) và mạng neurak sigma 2 lớp (two layer sigmoid neural nets):
(3-15) (3-16) (3-17)
Trang 32
Phương pháp SVM thích hợp với bài toán phân loại văn bản và cho các kết quả vược trội các phương pháp khác, do nó giải quyết được các vấn đề:
- Không gian đầu vào của bài toán TC thường là lớn
- Các thuộc tính thường có liên quan chứ không hoàn toàn độc lập với nhau
- Vector biểu diễn văn bản là vector thưa, do không gian thuộc tính có số chiều là lớn và mỗi văn bản chỉ sử dụng một số trong các thuộc tính
- Hầu hết các bài toán phân loại là tuyến tính
Tuy nhiên phương pháp SVM có nhược điểm là cần phải điều chỉnh để tìm tham số tối ưu, cũng như việc chọn hàm nhân Việc sử dụng tham số thường
và tham số tối ưu có thể cho kết quả rất khác biệt
Theo thí nghiêm của T Joachims cho mười nhóm trên tập dữ liệu Reuters,
và so sánh với các phương pháp truyền thống khác như kNN, Bayes, thì SVM luôn cho kết quả vượt trội
Bảng 3-1: Kết quả thực nghiệm của T Joachims, so sánh phương pháp SVM
với một số phương pháp khác trên Corpus Reuters
[14]
Do hiệu năng vươt trội của phương pháp này so với các phương pháp truyền thống khác đã được khằng định ở [14], cũng như yếu tố khả thi của phương pháp này cho bài toán phân loại tiếng Việt đã được thử nghiệm ở [1], nên phương pháp này được sử dụng trong hầu hết các thực nghiệm trong các phần tiếp theo
Trang 33
3.7 Một số phương pháp khác
Cho đến nay đã có nhiều phương pháp khác được đề xuất và giới thiệu như Thuật toán Bầu cử (Voting Algorithm), thuật toán Adaboots, Phương pháp sử dụng Maximum Entropy, phương pháp Adaptive Resonance Associative Map, ARAM
Adaboots có ưu điểm là hiệu quả, đặc biệt trong trường hợp dữ liệu có nhiều nhiễu, giảm được ảnh hưởng của overfitting Tuy nhiên nó có nhược điểm là tồn nhiều bộ nhớ và độ phức tạp tính toán cao Maximum Entropy là một kỹ thuật ước lượng phân bố xác xuất từ dữ liệu, phương pháp Maximum Entropy (ME) tỏ ra nhạy cảm với các phương pháp lựa chọn thuộc tính [15] ARAM sử dụng mạng neural tự cấu trúc để thực hiện việc học giám sát bổ sung các mẫu của các nhóm văn bản và thực hiện các ánh xạ đa chiều các mẫu này Thực nghiệm của J.He và A.H Tan [16] cho thấy ARAM cho kết quả tốt hơn cả SVM, kNN trong phân loại văn bản tiếng Trung Nó tỏ ra hiệu quả hơn với dữ liệu có nhiễu và tập huấn luyện tương đối nhỏ
Ngoài ra đã có nhiều các đề xuất cải tiến khác như là các phương pháp kết hợp sử dụng tập dữ liệu không gán nhãn, sử dụng phân cụm- trình bày ở
chương 5, kết hợp học không giám sát Sử dụng các xâu con làm thuộc tính, trình bày ở chương 6
3.8 Phương pháp đánh giá
Việc đánh giá cần được thực hiện trên dữ liệu kiểm thử độc lập với dữ liệu huấn luyên Độ đo hiệu năng trung bình (breakeven-point) của độ chính xác (Precision) và độ bao (Recall) thường được sử dụng để đánh giá các kết quả phân loại Độ do hiệu năng trung bình ít được sử dụng trong học máy, nhưng
nó được sử dụng nhiều trong truy vấn thông tin (IR)
Độ chính xác (Precision-P) [17] là xác suất để một văn bản được đoán nhận
thuộc một nhóm là thật sự thuộc nhóm đó
Độ bao (Recall-R) [17] là xác suất để một văn bản thuộc một lớp được phân
loại thuộc lớp này
Độ chính xác phân loại (classification accuracy), được định nghĩa là số mẫu kiểm thử được phân loại đúng trên tổng số mẫu kiểm thử
Trang 34
Ma trận ngẫu nhiên hai chiều sau được sử dụng để tính độ chính xác, độ bao,
độ chính xác phân loại và độ đo F kết hợp giữa P và R:
a d Accuracy
3.9 Tổng kết chương
Như vậy cho đến nay, đã có nhiều phương pháp cũng như thuật toán được giới thiệu, với các ưu và nhược điểm khác nhau Đa số đều sử dụng cách tiếp cận học máy và biểu diễn các văn bản theo vector thuộc tính Hầu hết các phương pháp phụ thuộc vào chất lượng cũng như kích thước tập huấn luyện
Trang 35
Các thực nghiệm cho thấy SVM cho kết quả tốt nhất, tiếp đến có thể kể đến kNN hay Centroid based cũng cho kết quả khá tốt Trong phân loại văn bản tiếng Việt, do các đặc điểm của tiếng Việt, cùng với các yếu tố như thiếu bộ ngữ liệu chuẩn, khó khăn trong bước tiền xử lý … nên việc sử dụng các phương pháp phân loại văn bản cho văn bản tiếng Việt cần được kiểm chứng
và đánh giá cụ thể Bài toán phân loại văn bản tiếng Việt cùng với các thực nghiệm liên quan được thực hiện và trình bày ở chương sau
Trang 36
CHƯƠNG 4 - PHÂN LOẠI VĂN BẢN TIẾNG VIỆT
4.1 Tiếng Việt và một số đặc điểm của tiếng Việt
Tiếng Việt là loại hình ngôn ngữ đơn lập, phi hình thái Do đó, cấu trúc ngữ pháp cũng như từ vựng và câu thường khá phức tạp, khó phân tích Cụ thể
là từ trong tiếng Việt được cấu tạo từ đơn vị cơ bản là “ âm tiết”, một từ có nghĩa có thể được tạo nên từ một hoặc nhiều âm tiết
4.1.1 Cấu trúc từ trong tiếng Việt
Âm tiết tiếng Việt:
Trong tiếng Việt, âm tiết là đơn vị cơ bản nhất và chỉ có một cách phát âm Trong các văn bản, các âm tiết thường được phân cách bằng các dấu cách Cấu trúc của âm tiết trong tiếng Việt như Bảng 4-1 [2]:
Bảng 4-1: Cấu trúc âm tiết trong tiếng Việt
Thanh điệu
Phụ âm thứ nhất
[Âm đầu]
Vần Nguyên âm
thứ hai [Âm đệm]
Nguyên âm chính [Âm chính]
Trang 37
Âm tiết “anh” không có dấu thanh, không có nguyên âm thứ hai và không có phụ âm thứ nhất
Âm tiết “hoa” có nguyên âm thứ hai, nhưng không có phụ âm cuối
Từ trong tiếng Việt:
Từ trong tiếng Việt được cấu thành từ một hoặc một số âm tiết, các âm tiết được kết hợp theo một số cách khác nhau, dựa trên cách cấu thành từ các ấm tiết, ta chia làm ba nhóm:
Đây là các từ có các thành phân ngữ âm được lặp lại, từ láy thường được
sử dụng trong bối cảnh cụ thể hay mô tả âm thanh, hay được sử dụng trong văn chương
Ví dụ: long lanh, xanh xanh, nhàn nhạt
Các từ mới trong tiếng Việt
Sự phát triển của kinh tế xã hội, khoa học công nghệ, phương tiện truyền thông và xu hướng quốc tế hóa Khiến cho các ngôn ngữ không ngừng được
bổ sung về mặt từ vựng Ở đây hiểu từ mới là từ không hoặc chưa có trong từ điển, ngoài ra còn có từ viết tắt, tên riêng, và từ mượn- từ nước ngoài
- Các từ viết tắt thường ở dạng chữ hoa như CAND- Công an nhân dân
- Tên riêng có thể là tên người, tên một đia phương, tổ chức, ngày tháng, trong tiếng Việt thì tên riêng thường có chữ đầu tiên viết hoa
Ví dụ: Công ty Tân Thế Kỷ, tên tổ chức
Lưu Quỳnh Hoa, tên riêng chỉ người
Trang 38
- Từ mượn, từ nước ngoài thường được biểu thị qua kí tự la tinh, thường mỗi từ là một âm tiết và không tuân theo cấu trúc âm tiết tiếng Việt như
đã trình bày ở trên
4.1.2 So sánh tiếng Việt và tiếng Anh
Do hầu hết các nghiên cứu về xử lý ngôn ngữ tự nhiên, phân loại, tóm tắt tự động v.v đều bắt đầu với các nghiên cứu cho tiếng Anh Phần này đưa các so sánh và đánh giá giữa tiếng Việt và tiếng Anh
Bảng 4-2: So sánh tiếng Việt và Tiếng anh
Loại hình ngôn ngữ
Đơn lập (isolate language) hay ngôn ngữ phi hình thái, không biến hình, đơn tiết
Thuộc nhóm ngôn ngữ Đông nam á
Biến cách (flexion language) hay còn gọi là loại hình ngôn ngữ khuất chiết Thuộc nhóm ngôn ngữ Âu Ấn
- Từ không biến đổi hình thái và ý nghĩa ngữ pháp nằm ở ngoài từ
Ví dụ: Tôi thích anh ấy
và anh ấy thích tôi
Sự kết hợp giữa các hình
vị là chặt chẽ và khó xác định Từ trong câu được xác định bằng các
khoảng trắng hoặc dấu câu
- Từ có sự biến đổi hình thái và ý nghĩa ngữ pháp nằm ở trong từ
Ví dụ: I like him and he likes me
Trang 39
- Phương thức ngữ pháp chủ yếu là trật tự từ và
hư từ
Ví dụ: Đang ăn và ăn rồi, có sao không, không có sao, sao không có
- Phương thức ngữ pháp chủ yếu là phụ tố
Ví dụ : learned và learning, stydying và studied
Thành phần phát âm Không nhất quán Rõ ràng
Từ láy
- Tồn tại các từ láy và hiện tượng nói lái
Ví dụ : long lanh, sóng sánh
- Không tồn tại từ láy hay hiện tượng nói lái như trong tiếng Việt
Khác
- Tồn tại một loại từ đặc biệt là “ từ chỉ loại” hay phó danh từ chỉ loại kèm theo danh từ
Ví dụ: Cái máy, con dao, chiếc đũa, vì sao, con mèo
- Hiện tượng cấu tạo bằng từ ghép thêm phu
tố (affix) vào từ gốc là rất phổ biến
Ví dụ: Internetworking
4.2 Bài toán phân loại văn bản tiếng Việt
Tiếng Việt là ngôn ngữ đơn lập (isolate language) hay ngôn ngữ phi hình thái, không biến hình, đơn tiết, thuộc nhóm các ngôn ngừ Đông và Nam Á Như đã trình bày ở phần trước, tiếng Việt có ngữ âm, ngữ pháp và các đặc điểm ngữ nghĩa khác với các ngôn ngữ thuộc nhóm ngôn ngữ Ấn Âu như tiếng Anh, tiếng Đức…, các vần đề này không chỉ gây khó khăn cho việc học
Trang 40
các ngôn ngữ Châu Âu mà còn là rào cản và thách thức cho việc phát triển các phương pháp và kỹ thuật cho xử lý ngôn ngữ tự nhiên cho tiếng Việt Chúng
ta có hai lựa chon, một là sử dụng các kỹ thuật đã được nghiên cứu bài bản và
kỹ lưỡng cho các ngôn ngữ Châu Âu và tìm cách áp dụng vào tiếng Việt, hai
là chúng ta phải tự xây dựng cho mình các mô hình xử lý riêng từ đầu Lựa chọn thứ hai tỏ ra không thích hợp do tốn nhiều nguồn lực, tài liệu, chi phí, nhất là cho một nước đang phát triển như Viêt nam Vậy lựa chon thứ nhất là thích hợp hơn, măc dù có không ít khó khăn Và bài toán phân loại văn bản tiếng Việt cũng không phải là một ngoại lệ Ở đây, định nghĩa bài toán phân loại văn bản tiếng Việt là bài toán phân loại văn bản tự động, trong đó văn bản
là bằng tiếng Việt ở dạng ngôn ngữ tự nhiên
4.3 Vấn đề tách từ trong văn bản tiếng Việt
Do hầu hết các phương pháp phân loại văn bản đều sử dụng xác suất, thống
kê hay trọng số của từ, điều này khiến việc tách từ trong văn bản tiếng Việt là bước đầu tiên quan trọng nhất của bài toán phân loại văn bản tiếng Việt
Mặc dù tiếng Việt sử dụng các ký tự la tinh và la tinh mở rộng Tuy nhiên
nó có đặc điểm giống với các ngôn ngữ Đông nam á khác như tiếng Trung, tiếng Nhật, tiếng Hàn là rất khó khăn trong việc xác định biên của từ
Dựa trên kết quả khảo sát Nguyen H [18] thì các hướng tiếp cận và tình hình hiện tại của bài toán tách từ trong tiếng Việt, cũng như tham khảo các phương pháp tách từ cho tiếng Trung, được thể hiện ở Hình 4-1: