Học bán giám sát SVM-KNN phân lớp Web và thử nghiệm đối với văn bản Giao thông vận tải Hoàng Hải Yến Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 0
Trang 1Học bán giám sát SVM-KNN phân lớp Web và thử nghiệm đối với văn bản Giao thông vận tải
Hoàng Hải Yến
Trường Đại học Công nghệ Luận văn Thạc sĩ ngành: Hệ thống thông tin; Mã số: 60 48 05
Người hướng dẫn: PGS TS Hà Quang Thụy
Năm bảo vệ: 2012
Abstract: Giới thiệu khái quát phương pháp phân lớp SVM và kNN Giới thiệu phương
pháp SVM-KNN phân lớp văn bản Giới thiệu mô hình của thuật toán Dựa vào mô hình
ở chương 2, tiến hành thực nghiệm việc phân lớp văn bản tiếng Việt theo hai nhóm: nhóm văn bản liên quan tới ngành Giao thông vận tải và nhóm không liên quan Để làm
rõ mô hình cũng như 3 pha chính trong mô hình, các thực nghiệm trên các nội dung văn bản lấy tự động từ internet được tiến hành Luận văn tập trung đánh giá kết quả thực
nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN
Keywords: Công nghệ thông tin; Phân lớp văn bản; Cơ sở dữ liệu
Content
TÓM TẮT
Khối lượng khổng lồ các văn bản tiếng Việt trên mạng Internet đặt ra một thách thức nhằm phân lớp tự động hoặc bán tự động các văn bản này nhằm cung cấp những thông tin tập trung và có giá trị cho một ngành nghề cụ thể nào đó
Trong các phương pháp phân lớp văn bản phổ biến thì phương pháp SVM (Support Vertor Machine) được sử dụng với độ tin cậy cao Tuy nhiên SVM không tối ưu hóa thời gian tính toán sai số lớn trong việc ước lượng khoảng giữa hai vector Tức là khi các vector có số chiều lớn thì tốc độ của SVM bị hạn chế
Trong luận văn này, tôi nghiên cứu phương pháp lai giữa k-láng giềng gần (kNN) với SVM nhằm thực hiện phân đa lớp văn bản, lý do chính là nhằm tăng khả năng tính toán trong cả quá trình huấn luyện và thực hiện phân lớp, kết quả là phương pháp này đạt kết quả khá hơn trong thực tế thử nghiệm của luận văn
Nội dung luận văn gồm 3 chương:
Chương 1: Giới thiệu khái quát phương pháp phân lớp SVM và kNN
Chương 2: Giới thiệu giải pháp chi tiết các thuật toán lai SVM-kNN theo hai phương
Trang 2Chương 3: Dựa vào mô hình ở chương 2, tiến hành thực nghiệm việc phân lớp văn bản
tiếng Việt theo hai nhóm: nhóm văn bản liên quan tới ngành Giao thông vận tải và nhóm không liên quan Để làm rõ mô hình cũng như 3 pha chính trong mô hình, các thực nghiệm trên các nội dung văn bản lấy tự động từ internet được tiến hành Luận văn tập trung đánh giá kết quả thực nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN
Kết luận: Trong luận văn này tôi nghiên cứu một phương pháp lai giữa k-láng giềng gần
(kNN) với SVM nhằm thực hiện phân đa lớp văn bản, lý do chính là nhằm tăng khả năng tính toán trong cả quá trình huấn luyện và thực hiện phân lớp, kết quả là phương pháp này đạt kết quả khá hơn trong thực tế thử nghiệm của luận văn
- Mô tả chi tiết các thuật toán SVM, kNN và thuật toán lai SVM-kNN theo hai phương pháp [5] và [7] cũng như quan điểm và các viễn cảnh cho các thuật toán lai SVM-kNN tương ứng
- Thực nghiệm việc phân lớp văn bản tiếng Việt liên quan tới ngành GTVT Luận văn tập trung đánh giá kết quả thực nghiệm từ 2 pha: tạo tập huấn luyện cho SVM-kNN và phân lớp SVM-kNN
Qua phân tích và đánh giá kết quả thực nghiệm đã cho thấy tính đúng đắn của phương pháp phân lớp bán giám sát SVM-kNN trong phân lớp văn bản tiếng Việt
Tuy nhiên trong quá trình thực nghiệm với phương pháp của luận văn đề ra tôi vẫn chưa đưa ra được chương trình tổng hợp nhằm thực hiện nhanh hơn thuật toán, thay vào đó tôi vẫn phải sử dụng cả ba chương trình riêng biệt để thực hiện thuật toán thủ công Cũng do thời gian không cho phép tôi không thể thực nghiệm trên tập mẫu rộng hơn và nhiều lớp hơn nhằm đưa ra kết quả khách quan hơn nữa về thuật toán SVM-kNN
m những láng giềng gần với mẫu truy vấn và bước 2: huấn luyện cục bộ bằng SVM đối với từng nhóm Như vậy phương pháp này vẫn bảo đảm được khoảng cách giữa các văn bản gần nhau
Phương pháp này có thể áp dụng được trong phạm vi rộng hơn, phân nhiều lớp dữ liệu, thực tế chứng minh nó làm tốt hơn từng thuật toán đơn lẻ (SVM và kNN), vẫn đạt được hiệu năng với những vấn đề mà SVM không thực hiện được
References
Tiếng Việt
[1] Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu
Trang, Nguyễn Cẩm Tú (2009) Giáo trình khai phá dữ liệu Web, Nhà xuất bản giáo dục, 2009
[2] Trần Thị Oanh (2008) Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp
cho tiếng Việt, Luận văn Thạc sỹ, Trường Đại học Công nghệ - ĐHQG Hà Nội, 2008
Tiếng Anh
Trang 3[3] Cam-Tu Nguyen, Xuan-Hieu Phan, Susumu Horiguchi, Thu-Trang Nguyen, and
Quang-Thuy Ha (2009) Web Search Clustering and Labeling with Hidden Topics, ACM
Transactions on Asian Language and Information Processing, 8 (3), 40 pp, 2009
[4] C Chang and C.-J Lin (2010) LIBSVM: a library for support vector machines,
Technical Report, Initial version: 2001 Last updated: November 16, 2010,
http://www.csie.ntu.edu.tw/~cjlin/papers/libsvm.pdf, LIBSVM software library version 3.0
released on September 13, 2010, http://www.csie.ntu.edu.tw/~cjlin/libsvm/
[5] Hao Zhang, Alexander C Berg, Michael Maire, Jitendra Malik (2006) SVM-KNN:
Discriminative Nearest Neighbor Classification for Visual Category Recognition, CVPR (2)
2006: 2126-2136, 2006
[6] Xuan-Hieu Phan, Le-Minh Nguyen, Cam-Tu Nguyen, Trung-Kien Nguyen and Quang-Thuy Ha (2006) Vietnamese word segmentation with crfs and svms: An investigation,
PACLIC20: 215-222, Wuhan, China, 2006
[7] Kunlun Li, Xuerong Luo, Ming Jin (2010) Semi-supervised Learning for
SVM-KNN, JCP 5(5): 671-678, 2010
[8] Mark Hall, Eibe Frank, Geoffrey Holmes, Bernhard Pfahringer, Peter Reutemann,
Ian H Witten (2009) The WEKA Data Mining Software: An Update, SIGKDD Explorations,
11 (1), 2009 http://www.cs.waikato.ac.nz/ml/ weka/
[9] Miha Grcar, Blaz Fortuna, Blaz Fortuna (2005) kNN Versus SVM in the Collaborative Filtering Framework, ACM 1-59593-214-3 USA, 2005
[10] Y Lee, Y Lin, and G Wahba (2004) Multicategory support vector machines, theory, and application to the classification of microarray data and satellite radiance data Journal of the American Statistical Association, 99:67 - 81, 2004
[11] Yiming Yang , Jan O Pedersen (1997) A Comparative Study on Feature Selection
in Text Categorization, 1997