BẢN TÓM TẮT LUẬN VĂN THẠC SỸ KHOA HỌC Đề tài: PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP SUPPORT VECTOR MACHINE NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: Sinh viên: LƯƠNG THỊ MINH HỒNG Người hướng dẫ
Trang 1BẢN TÓM TẮT LUẬN VĂN THẠC SỸ KHOA HỌC
Đề tài: PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP
SUPPORT VECTOR MACHINE
NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ:
Sinh viên: LƯƠNG THỊ MINH HỒNG Người hướng dẫn khoa học: TS NGUYỄN LINH GIANG
Trang 2Mục tiêu chính của luận văn là tìm hiểu lĩnh vực khai phá văn bản, trong đó tập trung nghiên cứu lý thuyết và thử nghiệm trên bộ dữ liệu có sẵn các ứng dụng phân loại văn bản bằng phương pháp Support Vector Machines (SVM)
Trong phần lý thuyết, tác giả đã giới thiệu tổng quan về khai phá văn
bản, các dạng bài toán trong lĩnh vực khai phá văn bản trong hai phần đầu của chương 1, và đề cập tới khai phá tri thức trong CSDL Trong hai phần cuối của chương 1, tác giả trình bày cụ thể về lý thuyết của bài toán phân loại văn bản và các bước thực hiện để phân loại văn bản Chương 2 thể hiện nội dung
lý thuyết của phương pháp SVM, cách thực hiện SVM với các trường hợp phân tách tuyến tính và không tuyến tích; chương 2 cũng giới thiệu một số hàm kernel hiện nay đang được sử dụng đồng thời cũng nêu ra các vấn đề khi thực hiện phân tách dữ liệu bằng phương pháp SVM và luận văn cũng chỉ ra làm thể nào để có thể tìm được siêu phẳng tối ưu Phần phân loại văn bản sử dụng phương pháp SVM và lý do vì sao SVM được đánh giá cao trong phân loại văn bản được trình bày trong Chương 3
Trong phần thực nghiệm, tác giả đã lựa chọn Oracle 10g phiên bản 2
là môi trường thử nghiệm và Oracle Text là công cụ để thực hiện Yếu tố để tác giả lựa chọn Oracle Text để thực hiện thử nghiệm là dữ liệu huấn luyện và kiểm thử có thể ở trong CSDL hoặc bên ngoài CSDL, có thể là phi cấu trúc hoặc có cấu trúc Dữ liệu thử nghiệm được lựa chọn thử nghiệm là bộ dữ liệu Reuters-21578 theo cách phân chia Apte, gồm 90 phân loại được phân loại săn trong đó có 9603 tài liệu huấn luyện và 3299 tài liệu kiểm thử Tại chương 4, tác giả tập trung tìm hiểu và trình bày mô hình hoạt động để thực hiện phân loại văn bản bằng phương pháp SVM trong Oracle dựa trên tính dễ
sử dụng, linh hoạt trong khi vẫn đảm bảo tính chính xác cao, và phần cuối cùng, Chương 5, là kết quả của 3 lần thử nghiệm với các cách lựa chọn tham
số thực hiện khác nhau Cuối chương 5 là những đánh giá về cách thực hiện của SVM trong Oracle
Trang 3^ ]
Luận văn Thạc sỹ
3
Support Vector Machine
Từ khoá: khai phá văn bản, phân loại văn bản, SVM, Oracle Text, CSDL
Trang 4ABTRACT of MASTER OF ENGINEERING THESIS
TEXT CLASSIFICATION WITH
SUPPORT VECTOR MACHINE
BRANCH OF LEANING: INFORMATION TECHNOLOGY
CODE:
Student: LUONG THI MINH HONG
Director: PhD NGUYEN LINH GIANG
Trang 5^ ]
Luận văn Thạc sỹ
2
Support Vector Machine
The main target in this thesis is to learn about field of Text Mining, special research theory and do some test on available data set about applications of text classification with Support Vector Machines (SVM)
In theory section, author introduce oveview of Text Mining and some
information about KDD, some kind of Text mining task in Chapter 1 In the last Chapter 1 provides a detailed introduction to Text Categorization and ten basic steps in Text Categorization process Chapter 2 contain theory of SVM and mention SVM for linear probem, and how to do with Non-linearly separable case List some kernel functions and method to find out Optimal Separating Hyperplane were provided in Chapter 2
Chapter 3 provide a prentation about Text Categorization with In this section, reasons that SVM work well for Text Categorization also were presented
In experimental section, author choose Oracle Text in Oracle 10g
Release 2 installation to experiment Determining factors to choose Oracle,
SVM is fully integrated within the Oracle database framework and apart from classification with structured data, Oracle support document classication (non-structured) with SVM, moreover documents were either in database or files in directory or URLs in WWW
Data set , which is chosen for experiment, Reuters-21578 collection Apte split It includes 12,902 documents for 90 classes, with a fixed splitting between test-set and learning data (3,299 vs 9,603) Chapter 4 describes Oracle’s implementation of SVM where the primary focus lies on ease of use and scalability while maintaining high performance accuracy Three testing results is present in Chapter 5 In this part, author avalute testing results with confusion matrix and compare classification results in a table and point out some advantages and disvatage when classify documents with SVM in Oracle
Trang 6Từ khoá: Text mining, Text classification/Categorization, SVM, Oracle
Text, Database
Trang 7BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -
LUẬN VĂN THẠC SỸ KHOA HỌC
PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP
SUPPORT VECTOR MACHINE
NGÀNH: CÔNG NGHỆ THÔNG TIN
MÃ SỐ:
LƯƠNG THỊ MINH HỒNG
Người hướng dẫn khoa học: TS NGUYỄN LINH GIANG
HÀ NỘI 2006
Trang 8MỤC LỤC
Danh mục các ký hiệu, các từ viết tắt 5
Danh mục các bảng 6
Danh mục các hình vẽ, đồ thị 7
Mở đầu 8
PHẦN I - CƠ SỞ LÝ THUYẾT 12
CHƯƠNG 1 TÔNG QUAN VỀ KHAI PHÁ VĂN BẢN 13
1.1 Một số khái niệm 13
1.2 Khai phá dữ liệu văn bản – Text Mining 15
1.3 Phân loại văn bản 19
1.4 Quy trình phân loại văn bản 20
1.4.1 Lưu trữ tài liệu 20
1.4.2 Định dạng văn bản 21
1.4.3 Cấu trúc hoá tài liệu 22
1.4.4 Tách dữ liệu 22
1.4.5 Giảm chiều 23
1.4.6 Mô hình hoá không gian vector 25
1.4.7 Giải thuật học máy 26
1.4.8 Thiết lập cấu hình học máy 26
1.4.9 Học tăng cường 26
1.4.10 Hành vi giả thuyết 27
CHƯƠNG 2 SUPPORT VECTOR MACHINE 28
2.1 Động cơ 28
2.1.1 Học máy 28
Trang 9^ ]
Luận văn Thạc sỹ 3 Support Vector Machine 2.1.2 Lý thuyết học thống kê 30
2.2 Nguyên lý tối thiểu hoá rủi ro cấu trúc 33
2.3 Máy học vector hỗ trợ - SVM 35
2.3.1 SVM với các vấn đề tuyến tính 37
2.3.2 Trường hợp phân tách không tuyến tính 39
2.4 Một số phương pháp Kernel 41
2.4.1 Polynomial - Phép toán đa thức 43
2.4.2 Gaussian RBF (Radial Basis Function) 44
2.4.3 RBF mở rộng (Exponential Radial Basis Function) 44
2.4.4 Perceptron đa tầng (multi-Label Perceptron –MLP) 44
2.5 Một số vấn đề trong SVM 45
2.5.1 Các hàm thiệt hại cho SVM 45
2.5.2 Các vấn đề đa lớp 45
2.5.3 Các vấn đề phân loại đa lớp – đa nhãn 46
2.5.4 Tối ưu hoá các siêu phẳng phân tách 46
CHƯƠNG 3: PHÂN LOẠI VĂN BẢN VỚI SVM 56
3.1 Thực hiện phân loại văn bản với SVM 56
3.2 Ưu điểm khi sử dụng SVM phân loại văn bản 58
PHẦN II - THỬ NGHIỆM PHÂN LOẠI VĂN BẢN TRONG ORACLE BẰNG PHƯƠNG PHÁP SVM 59
CHƯƠNG 4 PHÂN LOẠI VĂN BẢN VỚI ORACLE TEXT 60
4.1 Khai phá văn bản với Oracle 60
4.2 Phân loại văn bản trong Oracle Text 62
4.2.1 Các ứng dụng phân loại trong Oracle Text 63
Trang 104.2.2 Phân loại với SVM 65
4.2.3 Phương pháp đánh giá 80
CHƯƠNG 5 TIẾN HÀNH THỬ NGHIỆM 82
5.1 Chuẩn bị dữ liệu 82
5.2 Kiểm thử với Oracle 10g 83
5.2.1 Thử nghiệm lần 1 83
5.2.2 Thử nghiệm lần 2 87
5.2.3 Thử nghiệm lần 3 88
5.2.4 Kết quả 3 lần thử nghiệm 89
KẾT LUẬN 92
TÀI LIỆU THAM KHẢO 95
Phụ lục 1 97
TÓM TẮT LUẬN VĂN 99