Phân loại văn bản bằng phương pháp support vector machine

BẢN TÓM TẮT LUẬN VĂN THẠC SỸ KHOA HỌC Đề tài: PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP SUPPORT VECTOR MACHINE NGÀNH: CÔNG NGHỆ THÔNG TIN MÃ SỐ: Sinh viên: LƯƠNG THỊ MINH HỒNG Người hướng dẫ

Trang 1

BẢN TÓM TẮT LUẬN VĂN THẠC SỸ KHOA HỌC

Đề tài: PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP

SUPPORT VECTOR MACHINE

NGÀNH: CÔNG NGHỆ THÔNG TIN

MÃ SỐ:

Sinh viên: LƯƠNG THỊ MINH HỒNG Người hướng dẫn khoa học: TS NGUYỄN LINH GIANG

Trang 2

Mục tiêu chính của luận văn là tìm hiểu lĩnh vực khai phá văn bản, trong đó tập trung nghiên cứu lý thuyết và thử nghiệm trên bộ dữ liệu có sẵn các ứng dụng phân loại văn bản bằng phương pháp Support Vector Machines (SVM)

Trong phần lý thuyết, tác giả đã giới thiệu tổng quan về khai phá văn

bản, các dạng bài toán trong lĩnh vực khai phá văn bản trong hai phần đầu của chương 1, và đề cập tới khai phá tri thức trong CSDL Trong hai phần cuối của chương 1, tác giả trình bày cụ thể về lý thuyết của bài toán phân loại văn bản và các bước thực hiện để phân loại văn bản Chương 2 thể hiện nội dung

lý thuyết của phương pháp SVM, cách thực hiện SVM với các trường hợp phân tách tuyến tính và không tuyến tích; chương 2 cũng giới thiệu một số hàm kernel hiện nay đang được sử dụng đồng thời cũng nêu ra các vấn đề khi thực hiện phân tách dữ liệu bằng phương pháp SVM và luận văn cũng chỉ ra làm thể nào để có thể tìm được siêu phẳng tối ưu Phần phân loại văn bản sử dụng phương pháp SVM và lý do vì sao SVM được đánh giá cao trong phân loại văn bản được trình bày trong Chương 3

Trong phần thực nghiệm, tác giả đã lựa chọn Oracle 10g phiên bản 2

là môi trường thử nghiệm và Oracle Text là công cụ để thực hiện Yếu tố để tác giả lựa chọn Oracle Text để thực hiện thử nghiệm là dữ liệu huấn luyện và kiểm thử có thể ở trong CSDL hoặc bên ngoài CSDL, có thể là phi cấu trúc hoặc có cấu trúc Dữ liệu thử nghiệm được lựa chọn thử nghiệm là bộ dữ liệu Reuters-21578 theo cách phân chia Apte, gồm 90 phân loại được phân loại săn trong đó có 9603 tài liệu huấn luyện và 3299 tài liệu kiểm thử Tại chương 4, tác giả tập trung tìm hiểu và trình bày mô hình hoạt động để thực hiện phân loại văn bản bằng phương pháp SVM trong Oracle dựa trên tính dễ

sử dụng, linh hoạt trong khi vẫn đảm bảo tính chính xác cao, và phần cuối cùng, Chương 5, là kết quả của 3 lần thử nghiệm với các cách lựa chọn tham

số thực hiện khác nhau Cuối chương 5 là những đánh giá về cách thực hiện của SVM trong Oracle

Trang 3

^ ]

Luận văn Thạc sỹ

3

Support Vector Machine

Từ khoá: khai phá văn bản, phân loại văn bản, SVM, Oracle Text, CSDL

Trang 4

ABTRACT of MASTER OF ENGINEERING THESIS

TEXT CLASSIFICATION WITH

BRANCH OF LEANING: INFORMATION TECHNOLOGY

CODE:

Student: LUONG THI MINH HONG

Director: PhD NGUYEN LINH GIANG

Trang 5

^ ]

Luận văn Thạc sỹ

2

Support Vector Machine

The main target in this thesis is to learn about field of Text Mining, special research theory and do some test on available data set about applications of text classification with Support Vector Machines (SVM)

In theory section, author introduce oveview of Text Mining and some

information about KDD, some kind of Text mining task in Chapter 1 In the last Chapter 1 provides a detailed introduction to Text Categorization and ten basic steps in Text Categorization process Chapter 2 contain theory of SVM and mention SVM for linear probem, and how to do with Non-linearly separable case List some kernel functions and method to find out Optimal Separating Hyperplane were provided in Chapter 2

Chapter 3 provide a prentation about Text Categorization with In this section, reasons that SVM work well for Text Categorization also were presented

In experimental section, author choose Oracle Text in Oracle 10g

Release 2 installation to experiment Determining factors to choose Oracle,

SVM is fully integrated within the Oracle database framework and apart from classification with structured data, Oracle support document classication (non-structured) with SVM, moreover documents were either in database or files in directory or URLs in WWW

Data set , which is chosen for experiment, Reuters-21578 collection Apte split It includes 12,902 documents for 90 classes, with a fixed splitting between test-set and learning data (3,299 vs 9,603) Chapter 4 describes Oracle’s implementation of SVM where the primary focus lies on ease of use and scalability while maintaining high performance accuracy Three testing results is present in Chapter 5 In this part, author avalute testing results with confusion matrix and compare classification results in a table and point out some advantages and disvatage when classify documents with SVM in Oracle

Trang 6

Từ khoá: Text mining, Text classification/Categorization, SVM, Oracle

Text, Database

Trang 7

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI -

LUẬN VĂN THẠC SỸ KHOA HỌC

PHÂN LOẠI VĂN BẢN BẰNG PHƯƠNG PHÁP

NGÀNH: CÔNG NGHỆ THÔNG TIN

MÃ SỐ:

LƯƠNG THỊ MINH HỒNG

Người hướng dẫn khoa học: TS NGUYỄN LINH GIANG

HÀ NỘI 2006

Trang 8

MỤC LỤC

Danh mục các ký hiệu, các từ viết tắt 5

Danh mục các bảng 6

Danh mục các hình vẽ, đồ thị 7

Mở đầu 8

PHẦN I - CƠ SỞ LÝ THUYẾT 12

CHƯƠNG 1 TÔNG QUAN VỀ KHAI PHÁ VĂN BẢN 13

1.1 Một số khái niệm 13

1.2 Khai phá dữ liệu văn bản – Text Mining 15

1.3 Phân loại văn bản 19

1.4 Quy trình phân loại văn bản 20

1.4.1 Lưu trữ tài liệu 20

1.4.2 Định dạng văn bản 21

1.4.3 Cấu trúc hoá tài liệu 22

1.4.4 Tách dữ liệu 22

1.4.5 Giảm chiều 23

1.4.6 Mô hình hoá không gian vector 25

1.4.7 Giải thuật học máy 26

1.4.8 Thiết lập cấu hình học máy 26

1.4.9 Học tăng cường 26

1.4.10 Hành vi giả thuyết 27

CHƯƠNG 2 SUPPORT VECTOR MACHINE 28

2.1 Động cơ 28

2.1.1 Học máy 28

Trang 9

^ ]

Luận văn Thạc sỹ 3 Support Vector Machine 2.1.2 Lý thuyết học thống kê 30

2.2 Nguyên lý tối thiểu hoá rủi ro cấu trúc 33

2.3 Máy học vector hỗ trợ - SVM 35

2.3.1 SVM với các vấn đề tuyến tính 37

2.3.2 Trường hợp phân tách không tuyến tính 39

2.4 Một số phương pháp Kernel 41

2.4.1 Polynomial - Phép toán đa thức 43

2.4.2 Gaussian RBF (Radial Basis Function) 44

2.4.3 RBF mở rộng (Exponential Radial Basis Function) 44

2.4.4 Perceptron đa tầng (multi-Label Perceptron –MLP) 44

2.5 Một số vấn đề trong SVM 45

2.5.1 Các hàm thiệt hại cho SVM 45

2.5.2 Các vấn đề đa lớp 45

2.5.3 Các vấn đề phân loại đa lớp – đa nhãn 46

2.5.4 Tối ưu hoá các siêu phẳng phân tách 46

CHƯƠNG 3: PHÂN LOẠI VĂN BẢN VỚI SVM 56

3.1 Thực hiện phân loại văn bản với SVM 56

3.2 Ưu điểm khi sử dụng SVM phân loại văn bản 58

PHẦN II - THỬ NGHIỆM PHÂN LOẠI VĂN BẢN TRONG ORACLE BẰNG PHƯƠNG PHÁP SVM 59

CHƯƠNG 4 PHÂN LOẠI VĂN BẢN VỚI ORACLE TEXT 60

4.1 Khai phá văn bản với Oracle 60

4.2 Phân loại văn bản trong Oracle Text 62

4.2.1 Các ứng dụng phân loại trong Oracle Text 63

Trang 10

4.2.2 Phân loại với SVM 65

4.2.3 Phương pháp đánh giá 80

CHƯƠNG 5 TIẾN HÀNH THỬ NGHIỆM 82

5.1 Chuẩn bị dữ liệu 82

5.2 Kiểm thử với Oracle 10g 83

5.2.1 Thử nghiệm lần 1 83

5.2.4 Kết quả 3 lần thử nghiệm 89

KẾT LUẬN 92

TÀI LIỆU THAM KHẢO 95

Phụ lục 1 97

TÓM TẮT LUẬN VĂN 99

Tiêu đề	Text Classification with Support Vector Machine
Tác giả	Luong Thi Minh Hong
Người hướng dẫn	PhD. Nguyen Linh Giang
Trường học	University of Information Technology
Chuyên ngành	Information Technology
Thể loại	Thesis
Năm xuất bản	2023
Thành phố	Hanoi

Định dạng
Số trang	10
Dung lượng	235,1 KB