1. Trang chủ
  2. » Luận Văn - Báo Cáo

xây dựng hệ thống phân loại văn bản tiếng việt sử dụng phương pháp máy véc-tơ hỗ trợ kết hợp các phương pháp tối ưu kích thước dữ liệu

39 989 5

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 39
Dung lượng 330,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP MÁY VÉC-TƠ HỖ TRỢ KẾT HỢP CÁC PHƯƠNG PHÁP TỐI ƯU KÍCH THƯỚC DỮ LIỆU ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Ng

Trang 1

XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP MÁY VÉC-TƠ HỖ TRỢ KẾT HỢP CÁC PHƯƠNG PHÁP

TỐI ƯU KÍCH THƯỚC DỮ LIỆU

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Ngành: Công nghệ thông tin

Chuyên ngành: Công nghệ phần mềm

Mã số: 60 48 10

Phạm Đức Hồng

LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Anh Cường

Trang 2

Nội dung trình bày

Trang 3

Đặt vấn đề

• Giới thiệu

• Ứng dụng

• Mô hình hóa bài toán

• Các vấn đề đặt ra trong luận văn

Trang 4

Đặt vấn đề

• Giới thiệu: Phân loại văn bản là nhiệm vụ học

có giám sát khi cho một số lớp văn bản đã được xác định trước, yêu cầu gán nhãn cho các văn bản mới vào một (hay một số) lớp văn bản thích hợp dựa vào nội dung của các văn bản đó

• Ứng dụng: Hệ thống phân loại văn bản được

ứng dụng trong các hệ thống như lọc thư rác

(mail spam), dịch máy, tóm tắt văn bản, tìm

kiếm,…

Trang 5

Mô hình hóa bài toán (tiếp )

- Biểu diễn văn bản:

• D = “ Khi tất_cả đều nghĩ hai đội mạnh nhất Đông_Nam_Á

sắp_sửa vào hai hiệp_phụ thì bất_ngờ cái đầu vàng của

Lê_Công_Vinh đội lên tích_tắc mang về chiếc cúp_AFF cho

đội_tuyển Việt_Nam”

• Tập từ khóa (bộ từ điển): “Thể_thao, Bóng_đá,

Đội_tuyển, Đông_Nam_Á, Cúp_AFF, Việt_Nam”

Văn bản D được biểu diễn bằng phương pháp tần suất là:

D = (0,0,1,1,1,1)

Trang 6

Mô hình hóa bài toán (tiếp )

- Biểu diễn bài toán:

Trang 7

Đặt vấn đề (tiếp)

• Các vấn đề đặt ra trong luận văn:

- Vấn đề về giảm chiều đặc trưng

- Sử dụng phương pháp học máy SVM

Trang 8

Các phương pháp học máy phân

loại văn bản

• Các phương pháp:

- Bayes (Mitchell, 1996).

- Cây quyết định (Fuhr et al, 1991).

- Véc-tơ trọng tâm (Centroid- based vector) (Han và Karypis, 2000).

- k-láng giềng gần nhất (Yang, 1994)

- Mạng nơron (Wiener et al, 1995).

- Support vector machines (Joachims, 1998).

Trang 9

Phân loại với SVM

Trang 10

Phân loại với SVM (tiếp)

• Bộ phân loại SVM được định nghĩa:

• Trong đó

• Nếu f(x)=+1 thì x thuộc về lớp dương (lĩnh vực được quan tâm)

• Nếu f(x)=-1 thì x thuộc về lớp âm (các lĩnh vực khác)

Trang 11

Phân loại với SVM (tiếp)

• Để xây dựng một mặt siêu phẳng lề tối ưu,chúng ta phải giải bài toán quy hoạch toàn phương sau:

• Với các ràng buộc:

• Gọi α* là nghiệm của bài toán, khi đó các hệ số của siêu phẳng là

• Trong đó: là support véc-tơ thỏa mãn:

s: là tổng số các support véc-tơ của siêu phẳng tối ưu

n

i r

Trang 12

Phân loại với SVM (tiếp)

• Các hàm nhân được sử dụng:

- Hàm tuyến tính:

- Hàm đa thức (polynomial function):

- Hàm RBF (radial basis function):

Trang 13

Sơ đồ tổng quan Hệ thống phân loại văn bản tiếng Việt

Dữ liệu văn bản huấn luyện

Xử lý dữ liệu văn bản huấn luyện và biểu diễn văn bản

Ma trận Term-Doc huấn luyện

Dữ liệu văn bản kiểm thử

Xử lý dữ liệu văn bản kiểm thử và biểu diễn văn bản

Ma trận Doc kiểm thử Kết quả phân loại

Trang 14

Xử lý và biểu diễn

Giảm chiều đặc trưng trong bài toán Phân loại

q x 1

q x n r

r i

Trang 15

Véc-tơ trung bình cộng của lớp i (centroid)

Véc-tơ trung bình cộng hàng i của A ( global centroid)

1

j N i

c a

Trang 16

Bài toán giảm chiều đặc trưng

Cho một ma trận term-doc , và số

nguyên k>0

Phép biến đổi giảm chiều là một phép biến

đổi tuyến tính để ánh xạ từng cột của

A trong không giam m chiều thành một

véc-tơ trong không gian k chiều (k<m):

Đây là một bài toán xấp xỉ (approximation),

khi mà ma trận A được phân tích thành 2 ma trận B và Y tức là:

mxn A 

Trang 17

Bài toán giảm chiều đặc

(Park et al., 2003), LDA/GSVD (Park et al., 2003).

mxk

B   Y   kxn

,

minB Y A BYF

Trang 18

Phương pháp LSI/SVD

LSI là ứng dụng của một kỹ thuật toán học đặc

biệt được gọi là Singular value decomposition (SVD):

T

k k k k

AU S V

Trang 19

YS V

Trang 20

Thuật toán giảm chiều LSI/SVD

• Input: Cho ma trận và số nguyên k>0

Trang 21

Phương pháp Centroid

• Phương pháp này dựa vào trọng tâm của k

lớp và bình phương tối thiểu:

• Trọng tâm của k lớp

định được Y chúng ta giải bài toán:

 1 , , , 2 k

Cc c c

2

minY CY A

Trang 22

Thuật toán giảm chiều Centroid

• Input: Cho ma trận với k chủ đề (k

Trang 23

Phương pháp Orthogonal Centroid

• Phương pháp này cũng dựa vào trọng tâm

của k lớp và bình phương tối thiểu, nhưng từ

ma trận trọng tâm bằng cách phân tích QR

Trang 24

Thuật toán giảm chiều Orthogonal

Y Q A

kxn

YR

Trang 25

Phương pháp LDA/GSVD

• LDA tính toán tối ưu hóa phép biến đổi bằng

cách cực tiểu hóa khoảng cách within-class và cực đại hóa khoảng cách between-class nhằm đạt được cực đại hóa phân tách các lớp (class discrimination)

• Phép biến đổi tối ưu trong LDA được thực hiện bằng phân tích giá trị riêng trên các ma trận

phân tách

Trang 26

Phương pháp LDA/GSVD (tiếp)

(2) Ma trận phân tách giữa các lớp ( Between-class scatter matrix )

Trang 27

Thuật toán giảm chiều LDA/GSVD

• Input: Cho ma trận với k chủ đề (k chuyên

T

b k n xm T

H Z

Trang 28

Dữ liệu văn bản huấn luyện

Xử lý dữ liệu văn bản huấn luyện và biểu diễn văn bản

Ma trận Term-Doc

Phân loại

Dữ liệu văn bản kiểm thử

Xử lý dữ liệu văn bản kiểm thử và biểu diễn văn bản

Ma trận Term-Doc

Kết quả phân loại

Biến đổi giảm chiều (LSI, Centroid, Centroid Orthogonal)

Trang 29

Kết quả thực nghiệm

• Dữ liệu huấn luyện (data train) và kiểm

thử (data test) được sử dụng gồm 4936 tài liệu được lấy từ trang http://vnexpress.net Tập tài liệu này được chia lấy ngẫu nhiên 60% được dùng làm dữ liệu huấn luyện,

40% được dùng làm dữ liệu kiểm thử

(test):

Trang 30

Dữ liệu huấn luyện và kiểm thử

Trang 31

Đồ thị biểu diễn độ chính xác phân loại trên mỗi chuyên mục trường hợp văn bản

tách thành các từ sử dụng hàm nhân RBF (mũ=1.5)

Trang 32

Đồ thị biểu diễn độ chính xác phân loại trên mỗi chuyên mục trường hợp văn bản tách thành các từ sử dụng hàm nhân RBF (mũ=1.5) và thuật toán giảm chiều

Trang 33

Đồ thị Độ chính xác phân loại trên mỗi chuyên mục và trên toàn bộ tập dữ liệu trường hợp văn bản tách thành các từ sử dụng thuật toán giảm chiều Centroid

Trang 35

Đồ thị Độ chính xác phân loại trung bình trong 4 trường hợp SVM kết

hợp với (Full, Centroid, Orthogonal Centroid, LSI/SVD) khi dữ liệu văn bản được tách thành các từ.

Trang 37

Đồ thị Độ chính xác phân loại trung bình trong 4 trường hợp SVM kết

hợp với (Full, Centroid, Orthogonal Centroid, LSI/SVD) khi dữ liệu văn

bản được tách thành các âm tiết

Trang 39

Kết luận

• Thời gian thực hiện thuật toán chúng ta thấy rằng các phương pháp giảm chiều Centroid, Orthogonal Centroid kết hợp trong phân loại văn bản cho kết quả khá tốt mà thời gian thực hiện ít hơn rất nhiều nhiều so với khi sử dụng phương pháp Lantent semantic index giảm chiều đặc trưng.

• Kết quả độ phân loại chính xác trong hai trường hợp

dựa vào đặc điểm của tiếng Việt (âm tiết và từ) là xấp xỉ tương đương nhau điều này chứng tỏ nếu bỏ qua bài toán tách từ văn bản tiếng Việt bằng cách tách văn bản theo âm tiết giống văn bản tiếng Anh thì kết quả phân loại văn bản tiếng Việt vẫn cho kết quả tốt

Ngày đăng: 02/07/2014, 21:56

HÌNH ẢNH LIÊN QUAN

Sơ đồ tổng quan Hệ thống phân loại văn bản tiếng Việt - xây dựng hệ thống phân loại văn bản tiếng việt sử dụng phương pháp máy véc-tơ hỗ trợ kết hợp các phương pháp tối ưu kích thước dữ liệu
Sơ đồ t ổng quan Hệ thống phân loại văn bản tiếng Việt (Trang 13)
Đồ thị biểu diễn độ chính xác phân loại trên mỗi chuyên mục trường hợp văn bản - xây dựng hệ thống phân loại văn bản tiếng việt sử dụng phương pháp máy véc-tơ hỗ trợ kết hợp các phương pháp tối ưu kích thước dữ liệu
th ị biểu diễn độ chính xác phân loại trên mỗi chuyên mục trường hợp văn bản (Trang 31)
Đồ thị biểu diễn độ chính xác phân loại trên mỗi chuyên mục trường hợp văn bản  tách thành các từ sử dụng hàm nhân RBF (mũ=1.5) và thuật toán giảm chiều - xây dựng hệ thống phân loại văn bản tiếng việt sử dụng phương pháp máy véc-tơ hỗ trợ kết hợp các phương pháp tối ưu kích thước dữ liệu
th ị biểu diễn độ chính xác phân loại trên mỗi chuyên mục trường hợp văn bản tách thành các từ sử dụng hàm nhân RBF (mũ=1.5) và thuật toán giảm chiều (Trang 32)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w