ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ NGHIÊN CỨU CẢI TIẾN MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TỰ ĐỘNG VÀ ÁP DỤNG TRONG XỬ LÝ VĂN BẢN TIẾNG VIỆT Ngành: Công nghệ thông tin
Trang 1
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGHIÊN CỨU CẢI TIẾN MỘT SỐ PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TỰ ĐỘNG VÀ ÁP DỤNG
TRONG XỬ LÝ VĂN BẢN TIẾNG VIỆT
Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10
Hà Nội - 2008
HƯỚNG DẪN KHOA HỌC:
PSG.TS NGUYỄN NGỌC BÌNH LƯU TRƯỜNG HUY
LUẬN VĂN THẠC SĨ
Trang 2
LỜI CẢM ƠN
Tôi xin được bầy tỏ sự biết ơn sâu sắc đến người hướng dẫn khoa học của mình, PGS TS Nguyễn Ngọc Bình, Trường Đại học Công nghệ, Đại học Quốc gia Hà nội, vì những nhận xét, hỗ trợ và chỉ bảo trong quá trình làm đồ
án
Xin được gửi lời cảm ơn đến TS Dell Zhang, Đại học tổng hợp London, với những giúp đỡ và góp ý trong quá trình tìm hiểu, cải tiến, cài đặt và thực nghiệm cho phương pháp phân loại văn bản sử dụng thuộc tính nhóm xâu con chính
Xin được gửi lời cảm ơn đến GS.TS Chil Jen Lin, Đại học Quốc gia Đài loan, tác giả thư viện LIBSVM về nhưng góp ý trong việc sử dụng LIBSVM cũng như việc tối ưu các tham số
Xin được gửi lời cảm ơn đến các đồng nghiệp và bạn bè về những trợ giúp trong việc xây dựng tập ngữ liệu tiếng Việt cũng như trong các thực nghiệm tương ứng
Cuối cùng tôi xin gửi lời cảm ơn đến những người thân trong gia đình mình, nhưng người đã dành cho tôi những ủng hộ và động viên đặc biệt trong quá trình học tập cũng như trong thời gian làm luận văn
Hà nội, tháng 3 năm 2008 Tác giả
Lưu Trường Huy
Trang 3
MỤC LỤC
Danh sách các hình 6
Danh sách bảng 8
Danh sách từ viết tắt 9
Bảng thuật ngữ Anh-Việt 10
MỞ ĐẦU Error! Bookmark not defined
1 Cơ sở khoa học và tính thực tiễn của đề tài.Error! Bookmark not defined
2 Phạm vi và mục đính nghiên cứu của để tàiError! Bookmark not defined
3 Bố cục và cấu trúc của luận văn Error! Bookmark not defined CHƯƠNG 1 - TỔNG QUAN VỀ BÀI TOÁN PHÂN LOẠI VĂN BẢNError! Bookmark not defined.
1.1 Tổng quan Error! Bookmark not defined 1.2 Các bước chính trong bài toán phân loại văn bản Error! Bookmark not defined.
CHƯƠNG 2 - BIỂU DIỄN VĂN BẢN TRONG PHÂN LOẠI VĂN BẢNError! Bookmark not defined.
2.1 Các vector thuộc tính Error! Bookmark not defined 2.2 Việc lựa chọn thuộc tính Error! Bookmark not defined 2.2.1 Loại bỏ các từ dừng Error! Bookmark not defined 2.2.2 Xác định gốc của từ Error! Bookmark not defined 2.2.3 Lựa chọn thuộc tính Error! Bookmark not defined 2.3 Một số phương pháp lựa chọn thuộc tính trong phân loại văn bản Error! Bookmark not defined.
2.3.1 Ngưỡng tần xuất văn bản (DF) Error! Bookmark not defined 2.3.2 Lợi ích thông tin (IG) Error! Bookmark not defined 2.3.3 Thông tin tương hỗ (MI) Error! Bookmark not defined
2.3.4 Thống kê Chi bình phương2 Error! Bookmark not defined
2.3.5 Cường độ của từ (TS) Error! Bookmark not defined 2.3.6 Một số phương pháp khác Error! Bookmark not defined 2.4 Tổng kết chương Error! Bookmark not defined
Trang 4
CHƯƠNG 3 - CÁC PHƯƠNG PHÁP PHÂN LOẠI VĂN BẢN TRUYỀN
THỐNG Error! Bookmark not defined 3.1 Phương pháp Rocchio Error! Bookmark not defined 3.2 Phương pháp k- Nearest Neighbour Error! Bookmark not defined 3.3 Phương pháp Nạve Bayes (NB) Error! Bookmark not defined 3.4 Phương pháp Linear Least Square Fit- LLSF Error! Bookmark not defined.
3.5 Phương pháp Centroid- based vector Error! Bookmark not defined 3.6 Phương pháp SVM- Support Vector Machine Error! Bookmark not defined.
3.7 Một số phương pháp khác Error! Bookmark not defined 3.8 Phương pháp đánh giá Error! Bookmark not defined 3.9 Tổng kết chương Error! Bookmark not defined CHƯƠNG 4 - PHÂN LOẠI VĂN BẢN TIẾNG VIỆT Error! Bookmark not defined.
4.1 Tiếng Việt và một số đặc điểm của tiếng Việt Error! Bookmark not defined.
4.1.1 Cấu trúc từ trong tiếng Việt Error! Bookmark not defined 4.1.2 So sánh tiếng Việt và tiếng Anh Error! Bookmark not defined 4.2 Bài tốn phân loại văn bản tiếng Việt Error! Bookmark not defined 4.3 Vấn đề tách từ trong văn bản tiếng Việt Error! Bookmark not defined 4.3.1 Tách từ trong văn bản tiếng Việt dựa trên từ Error! Bookmark not defined.
4.3.2 Tách từ trong văn bản tiếng Việt dựa trên ký tựError! Bookmark not defined.
4.3.3 Một số phương pháp tách từ trong văn bản tiếng ViệtError! Bookmark not defined.
4.4 Thực nghiệm và kết quả Error! Bookmark not defined 4.5 Tổng kết chương Error! Bookmark not defined
CHƯƠNG 5 - ỨNG DỤNG PHÂN CỤM TRONG CẢI TIẾN PHÂN LOẠI VĂN
BẢN Error! Bookmark not defined
Trang 5
5.1 Giới thiệu Error! Bookmark not defined 5.2 Phân cụm dữ liệu Error! Bookmark not defined 5.3 Một số phương pháp phân loại văn bản sử dụng phân cụm Error! Bookmark not defined.
5.3.1 Phương pháp 1 Error! Bookmark not defined 5.3.2 Phương pháp 2 Error! Bookmark not defined 5.3.3 Phương pháp 3 Error! Bookmark not defined 5.4 Nhận xét Error! Bookmark not defined 5.5 Thực nghiệm và kết quả thực nghiệm Error! Bookmark not defined 5.6.Tổng kết chương Error! Bookmark not defined
CHƯƠNG 6 - CẢI TIẾN GIẢI THUẬT CHIẾT XUẤT THUỘC TÍNH NHÓM XÂU CON CHÍNH VÀ ÁP DỤNG TRONG PHÂN LOẠI VĂN BẢN TIẾNG
VIỆT Error! Bookmark not defined 6.1 Giới thiệu Error! Bookmark not defined 6.2 Cây hậu tố Error! Bookmark not defined 6.3 Thuộc tính nhóm xâu con chính Error! Bookmark not defined 6.3.1 Các nhóm xâu con Error! Bookmark not defined 6.3.2 Các nhóm xâu con chính Error! Bookmark not defined 6.4 Thuật toán Error! Bookmark not defined 6.5 Nhận xét và đề xuất cải tiến thuật toán và chương trìnhError! Bookmark not defined.
6.6 Thực nghiệm và kết quả Error! Bookmark not defined 6.7 Tổng kết chương Error! Bookmark not defined CHƯƠNG 7 - CÁC CỘNG CỤ HỖ TRỢ VÀ CÁC CHƯƠNG TRÌNH Error! Bookmark not defined.
7.1 Công cụ chiết xuất nội dung từ các web-site báo điện tửError! Bookmark not defined.
7.2 Chương trình phân đoạn từ tiếng Việt và tạo các ma trận thuộc tínhError! Bookmark not defined.
7.3 Công cụ chiết xuất thuộc tính KSG và đưa ra ma trân thuộc tính Error! Bookmark not defined.
Trang 6
7.4 Công cụ mở rộng tập dữ liệu kết hợp phân cụm Error! Bookmark not defined.
7.5 Phân lọai văn bản sử dụng thư viện LibSVM Error! Bookmark not defined.
7.6 Công cụ phân loại theo phương pháp kNN và Centroid based vectorError! Bookmark not defined.
KẾT LUẬN Error! Bookmark not defined
1 Nhận xét chung Error! Bookmark not defined
2 Hướng phát triển Error! Bookmark not defined
Tài liệu tham khảo 11 PHỤ LỤC A: Phân tích thiết kế chương trình phân loại văn bản tự động sử dụng
thuộc tính nhóm xâu con chính Error! Bookmark not defined
1 Yêu cầu của chương trình Error! Bookmark not defined
2 Phân tích Error! Bookmark not defined 2.1 Mô hình ca sử dụng Error! Bookmark not defined 2.2 Biểu đồ tuần tự hệ thống và mô hình khái niệmError! Bookmark not defined.
3 Thiết kế Error! Bookmark not defined 3.1 Thao tác trên tập ngữ liệu Error! Bookmark not defined 3.2 Xử lý thuộc tính xâu con chính Error! Bookmark not defined 3.3 Phân loại văn bản bằng phương pháp SVM Error! Bookmark not defined.
4 Cài đặt chương trình Error! Bookmark not defined PHỤ LỤC B: Cấu trúc đĩa CD đi kèm Error! Bookmark not defined PHỤ LỤC C: Chia sẽ dữ liệu, các công cụ và chương trình liên quan Error! Bookmark not defined.
Chỉ mục từ Error! Bookmark not defined
Danh sách các hình Hình 1-1: Các bước chính trong phân loại văn bảnError! Bookmark not defined
Trang 7
Hình 1-2: Mô hình trong học máy Error! Bookmark not defined Hình 2-1: Biểu diễn văn bản bằng vector thuộc tính Error! Bookmark not defined.
Hình 3-1: SVM với siêu phẳng phân chia hai nhóm dữ liệu mẫuError! Bookmark not defined.
Hình 4-1: Tình hình hiện tại của bài toán tách từ tiếng ViệtError! Bookmark not defined.
Hình 5-1: Phân loại kết hợp phân cụm Error! Bookmark not defined Hình 5-2: Thuật toán phân loại văn bản sử dụng phân cụm của Zeng, H.JError! Bookmark not defined.
Hình 5-3: Thuật toán của phân loại văn bản sử dụng phân cụm của Kyriakopoulou,
A Error! Bookmark not defined Hình 5-4: Biểu đồ so sánh độ chính xác theo tỷ lệ tập huấn luyên Error! Bookmark not defined.
Hình 6-1: Cây hậu tố Error! Bookmark not defined Hình 6-2: Thuật toán chiết xuất thuộc tính nhóm xâu con chínhError! Bookmark not defined.
Hình 7-1: Minh họa nội dung chính của bài báo trên trang webError! Bookmark not defined.
Hình 7-2: Giao diện công cụ chiết xuất nội dungError! Bookmark not defined Hình 7-3: Minh họa kết quả phân chia dữ liệu cho k-fold cross validationError! Bookmark not defined.
Hình 7-4: Minh họa cấu trúc thư mục đầu vào chương trình phân đoạn từ tiếng Việt
và tạo các ma trận thuộc tính Error! Bookmark not defined Hình A-1: Biểu đồ ca sử dụng Error! Bookmark not defined Hình A-2: Biểu đồ tuần tự hệ thống Error! Bookmark not defined Hình A-3: Mô hình khái niệm hệ thống Error! Bookmark not defined Hình A-4: Biểu đồ lớp ca sử dụng thao tác corpusError! Bookmark not defined Hình A-5: Biểu đồ tuần tự ca sử dụng thao tác corpus Error! Bookmark not defined.
Hình A-6: Biểu đồ lớp KSG Error! Bookmark not defined
Trang 8
Hình A-7: Biểu đồ tuần tự KSG Error! Bookmark not defined Hình A-8: Biểu đồ lớp SVM Error! Bookmark not defined Hình A-9: Biểu đồ tuần tự SVM Error! Bookmark not defined
Trang 9
Danh sách bảng
Bảng 3-1: Kết quả thực nghiệm của T Joachims, so sánh phương pháp SVM với
một số phương pháp khác trên Corpus ReutersError! Bookmark not defined Bảng 4-1: Cấu trúc âm tiết trong tiếng Việt Error! Bookmark not defined Bảng 4-2: So sánh tiếng Việt và Tiếng anh Error! Bookmark not defined Bảng 4-3: Thống kế nguồn gốc dữ liệu trong corpus Error! Bookmark not defined.
Bảng 4-4: Thống kê dữ liệu trong corpus cho từng nhóm văn bản Error! Bookmark not defined.
Bảng 4-5: Kết quả phân loại sử dụng một số phương pháp truyền thống Error! Bookmark not defined.
Bảng 5-1: Kết quả thực nghiệm phân lọai sử dụng phân cụmError! Bookmark not defined.
Bảng 6-1: Sự phụ thuộc của số thuộc tính KSG với các tham số đầu vàoError! Bookmark not defined.
Bảng 6-2: Kết quả sử dụng hàm nhân tuyến tính và hàm nhân RBF Error! Bookmark not defined.
Bảng 6-3: So sánh phương pháp SVM và SVM+KSG Error! Bookmark not defined
Bảng A-1: Danh sách ca sử dụng Error! Bookmark not defined Bảng A-2: Ánh xạ giữa lớp thiết kế và các file cài đặt Error! Bookmark not defined.
Trang 10
Danh sách từ viết tắt
Trang 11
Bảng thuật ngữ Anh-Việt
Trang 12
Tài liệu tham khảo
1 Nguyễn Thị Minh Khuê, Nguyễn Ngọc Bình (2006),”Phân loại văn bản sử dụng phương pháp máy vector hỗ trợ (SVMs)”, Kỷ yếu hội Hội thảo khoa học 30 năm
thành lập Viện CNTT Tr.361-371, Hà Nội, tháng 12-2006
2 Đinh Thị Phương Thu, Huỳnh Quyết Thắng (2006), “Sử dụng luật cấu tạo âm tiết
tiếng Việt, hai thành phần trong bài toán kiểm tra chính tả tiếng Việt”, Tạp chí ngôn ngữ, Viện Ngôn ngữ học, Vienam, http://www.iol.gov.vn
3 Nguyễn Thanh Hùng (2006), Hướng tiếp cận mới trong việc tách từ tiếng Việt sử dụng giải thuật di truyền và thống kê Internet, Đại học KHTN tp HCM
Tiếng Anh
4 Salton, G,; Wong, A., Yang, C., (1975) “A Vector Space Model for automatic
Indexing”, Communications of the ACM, Volume 1, Pages: 613 – 620
5 Yang, Y and Pedersen, J (1997), A comparative study on feature
selection in text categorization, Proceedings of ICML-97, 14th International
Conference on Machine Learning, Nashville, Tennessee, USA
6 Wilbur, J.W., Sirotkin,K (1992) “The automatic identification of stop words”,
Journal of Information Science, Volume 18, pages: 45 - 55
7 Dumais, S T., Latent Semantic Indexing (LSI) and TREC-2., in The Second Text
REtrieval Conference (TREC2), D Harman, ed., March 1994, pp 105-116
8 Soucy, P., Mineau, G.W (2005), Beyond TFIDF weighting for Text
categorization in the Vector Space Model, International Joint Conferences on
Artificial Intelligence, IJCAI-05, page 1130
9 Xu, H., Li, Ch (2007), A Novel Term Weighting Schema for Automatic Text Categorization, Proceedings of the Seventh International Conference on
Intelligent Systems Design and Applications, Pages 759-764
10 Li, L.B., Shinwen Y.; Qin, L (2003), An improved k-Nearest Neighbor
Algorithm for Text categorization, Proceedings of the 20th International
Conference on
Computer Processing of Oriental Languages, Shenyang, China
11 Yang, Y.; Chute, C.G (1994), “An example-based mapping method for text
categorization and retrieval”, ACM Transaction on Information Systems,
Trang 13
Volume 12, pages: 252-277
12 Yang Y., Liu, X (1999), A re-examination of Text Categorization Methods,
In proceedings of 22nd Annual International SIGIR
13 Han, E.H., Karypis, G (1999), Centroid based document classificatino analysis and experimental results, Proceedings of the 4th European Conference on
Principles of Data Mining and Knowledge Discovery
14 Joachims, T (1997), Text categorization with Support Vector Machine:
Learning with many relevant features, Proceedings of ECML-98, 10th European
Conference on Machine Learning
15 Nigam, K., Lafferty, J., McCallum, A (1999), Using Maximum Entropy for
Text Classification, In IJCAI-99 Workshop on Machine Learning for
Information Filtering, pages 61-67
16 He, J.; Tan, A.H., Tan, C.L (2000), A Comparative Study on Chinese Text
Categorization Methods, In Proceedings of PRICAI'2000 International
Workshop on Text and Web Mining, p24-35
17 Yang, Y (1997), An evaluation of statistical approaches to text categorization,
Technical Report CMU-CS-97-127, Carnegie Mellon University
18 Nguyen, T.V., Tran, H.K., Nguyen, T.T.T., Nguyen, H (2006), Word
segmentation for Vietnamese text categorization: an online corpus approach,
Research, Innovation and Vision for the Future, The 4th International
Conference on Computer Sciences, RIVF 2006, Cantho, Vietnam
19 Dinh, D., Kiem, H., Toan, N.V (2001), Vietnamese Word Segmentation,
The 6th Natural Language Processing Pacific Rim Symposium, Tokyo, 2001,
pages: 749-756
20 Ha, L.A (2003), A method for word segmentation in Vietnamese, Proceedings
Of Corpus Linguistics 2003, Lancaster, UK
21 Phan, X.H., Nguyen, C.T (2006), Vietnamese Word Segmentation with CRFs and SVMs: An investigation, The Pacific Asia Conference on Language,
Information and Computation(PACLIC) 2006, China
22 Peng, F., Feng, F., McCallum, A (2004) Chinese Segmentation and New Word Detection using Conditional Random Fields, The 20th International Conference
on Computational Linguistics
23 Berry, M W (2004), Survery of Text Mining: Clustering, Classification and