XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP MÁY VÉC-TƠ HỖ TRỢ KẾT HỢP CÁC PHƯƠNG PHÁP TỐI ƯU KÍCH THƯỚC DỮ LIỆU ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ Ng
Trang 1XÂY DỰNG HỆ THỐNG PHÂN LOẠI VĂN BẢN TIẾNG VIỆT SỬ DỤNG PHƯƠNG PHÁP MÁY VÉC-TƠ HỖ TRỢ KẾT HỢP CÁC PHƯƠNG PHÁP
TỐI ƯU KÍCH THƯỚC DỮ LIỆU
ĐẠI HỌC QUỐC GIA HÀ NỘI
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
Ngành: Công nghệ thông tin
Chuyên ngành: Công nghệ phần mềm
Mã số: 60 48 10
Phạm Đức Hồng
LUẬN VĂN THẠC SĨ NGƯỜI HƯỚNG DẪN KHOA HỌC: TS Lê Anh Cường
Trang 2Nội dung trình bày
Trang 3Đặt vấn đề
• Giới thiệu
• Ứng dụng
• Mô hình hóa bài toán
• Các vấn đề đặt ra trong luận văn
Trang 4Đặt vấn đề
• Giới thiệu: Phân loại văn bản là nhiệm vụ học
có giám sát khi cho một số lớp văn bản đã được xác định trước, yêu cầu gán nhãn cho các văn bản mới vào một (hay một số) lớp văn bản thích hợp dựa vào nội dung của các văn bản đó
• Ứng dụng: Hệ thống phân loại văn bản được
ứng dụng trong các hệ thống như lọc thư rác
(mail spam), dịch máy, tóm tắt văn bản, tìm
kiếm,…
Trang 5Mô hình hóa bài toán (tiếp )
- Biểu diễn văn bản:
• D = “ Khi tất_cả đều nghĩ hai đội mạnh nhất Đông_Nam_Á
sắp_sửa vào hai hiệp_phụ thì bất_ngờ cái đầu vàng của
Lê_Công_Vinh đội lên tích_tắc mang về chiếc cúp_AFF cho
đội_tuyển Việt_Nam”
• Tập từ khóa (bộ từ điển): “Thể_thao, Bóng_đá,
Đội_tuyển, Đông_Nam_Á, Cúp_AFF, Việt_Nam”
Văn bản D được biểu diễn bằng phương pháp tần suất là:
D = (0,0,1,1,1,1)
Trang 6Mô hình hóa bài toán (tiếp )
- Biểu diễn bài toán:
Trang 7Đặt vấn đề (tiếp)
• Các vấn đề đặt ra trong luận văn:
- Vấn đề về giảm chiều đặc trưng
- Sử dụng phương pháp học máy SVM
Trang 8Các phương pháp học máy phân
loại văn bản
• Các phương pháp:
- Bayes (Mitchell, 1996).
- Cây quyết định (Fuhr et al, 1991).
- Véc-tơ trọng tâm (Centroid- based vector) (Han và Karypis, 2000).
- k-láng giềng gần nhất (Yang, 1994)
- Mạng nơron (Wiener et al, 1995).
- Support vector machines (Joachims, 1998).
Trang 9Phân loại với SVM
Trang 10Phân loại với SVM (tiếp)
• Bộ phân loại SVM được định nghĩa:
• Trong đó
• Nếu f(x)=+1 thì x thuộc về lớp dương (lĩnh vực được quan tâm)
• Nếu f(x)=-1 thì x thuộc về lớp âm (các lĩnh vực khác)
Trang 11Phân loại với SVM (tiếp)
• Để xây dựng một mặt siêu phẳng lề tối ưu,chúng ta phải giải bài toán quy hoạch toàn phương sau:
• Với các ràng buộc:
• Gọi α* là nghiệm của bài toán, khi đó các hệ số của siêu phẳng là
• Trong đó: là support véc-tơ thỏa mãn:
s: là tổng số các support véc-tơ của siêu phẳng tối ưu
n
i r
Trang 12Phân loại với SVM (tiếp)
• Các hàm nhân được sử dụng:
- Hàm tuyến tính:
- Hàm đa thức (polynomial function):
- Hàm RBF (radial basis function):
Trang 13Sơ đồ tổng quan Hệ thống phân loại văn bản tiếng Việt
Dữ liệu văn bản huấn luyện
Xử lý dữ liệu văn bản huấn luyện và biểu diễn văn bản
Ma trận Term-Doc huấn luyện
Dữ liệu văn bản kiểm thử
Xử lý dữ liệu văn bản kiểm thử và biểu diễn văn bản
Ma trận Doc kiểm thử Kết quả phân loại
Trang 14Xử lý và biểu diễn
Giảm chiều đặc trưng trong bài toán Phân loại
q x 1
q x n r
r i
Trang 15Véc-tơ trung bình cộng của lớp i (centroid)
Véc-tơ trung bình cộng hàng i của A ( global centroid)
1
j N i
c a
Trang 16Bài toán giảm chiều đặc trưng
Cho một ma trận term-doc , và số
nguyên k>0
Phép biến đổi giảm chiều là một phép biến
đổi tuyến tính để ánh xạ từng cột của
A trong không giam m chiều thành một
véc-tơ trong không gian k chiều (k<m):
Đây là một bài toán xấp xỉ (approximation),
khi mà ma trận A được phân tích thành 2 ma trận B và Y tức là:
mxn A
Trang 17Bài toán giảm chiều đặc
(Park et al., 2003), LDA/GSVD (Park et al., 2003).
mxk
B Y kxn
,
minB Y A BY F
Trang 18Phương pháp LSI/SVD
LSI là ứng dụng của một kỹ thuật toán học đặc
biệt được gọi là Singular value decomposition (SVD):
T
k k k k
A U S V
Trang 19Y S V
Trang 20Thuật toán giảm chiều LSI/SVD
• Input: Cho ma trận và số nguyên k>0
Trang 21Phương pháp Centroid
• Phương pháp này dựa vào trọng tâm của k
lớp và bình phương tối thiểu:
• Trọng tâm của k lớp
định được Y chúng ta giải bài toán:
1 , , , 2 k
C c c c
2
minY CY A
Trang 22Thuật toán giảm chiều Centroid
• Input: Cho ma trận với k chủ đề (k
Trang 23Phương pháp Orthogonal Centroid
• Phương pháp này cũng dựa vào trọng tâm
của k lớp và bình phương tối thiểu, nhưng từ
ma trận trọng tâm bằng cách phân tích QR
Trang 24Thuật toán giảm chiều Orthogonal
Y Q A
kxn
Y R
Trang 25Phương pháp LDA/GSVD
• LDA tính toán tối ưu hóa phép biến đổi bằng
cách cực tiểu hóa khoảng cách within-class và cực đại hóa khoảng cách between-class nhằm đạt được cực đại hóa phân tách các lớp (class discrimination)
• Phép biến đổi tối ưu trong LDA được thực hiện bằng phân tích giá trị riêng trên các ma trận
phân tách
Trang 26Phương pháp LDA/GSVD (tiếp)
(2) Ma trận phân tách giữa các lớp ( Between-class scatter matrix )
Trang 27Thuật toán giảm chiều LDA/GSVD
• Input: Cho ma trận với k chủ đề (k chuyên
T
b k n xm T
H Z
Trang 28Dữ liệu văn bản huấn luyện
Xử lý dữ liệu văn bản huấn luyện và biểu diễn văn bản
Ma trận Term-Doc
Phân loại
Dữ liệu văn bản kiểm thử
Xử lý dữ liệu văn bản kiểm thử và biểu diễn văn bản
Ma trận Term-Doc
Kết quả phân loại
Biến đổi giảm chiều (LSI, Centroid, Centroid Orthogonal)
Trang 29Kết quả thực nghiệm
• Dữ liệu huấn luyện (data train) và kiểm
thử (data test) được sử dụng gồm 4936 tài liệu được lấy từ trang http://vnexpress.net Tập tài liệu này được chia lấy ngẫu nhiên 60% được dùng làm dữ liệu huấn luyện,
40% được dùng làm dữ liệu kiểm thử
(test):
Trang 30Dữ liệu huấn luyện và kiểm thử
Trang 31Đồ thị biểu diễn độ chính xác phân loại trên mỗi chuyên mục trường hợp văn bản
tách thành các từ sử dụng hàm nhân RBF (mũ=1.5)
Trang 32Đồ thị biểu diễn độ chính xác phân loại trên mỗi chuyên mục trường hợp văn bản tách thành các từ sử dụng hàm nhân RBF (mũ=1.5) và thuật toán giảm chiều
Trang 33Đồ thị Độ chính xác phân loại trên mỗi chuyên mục và trên toàn bộ tập dữ liệu trường hợp văn bản tách thành các từ sử dụng thuật toán giảm chiều Centroid
Trang 35Đồ thị Độ chính xác phân loại trung bình trong 4 trường hợp SVM kết
hợp với (Full, Centroid, Orthogonal Centroid, LSI/SVD) khi dữ liệu văn bản được tách thành các từ.
Trang 37Đồ thị Độ chính xác phân loại trung bình trong 4 trường hợp SVM kết
hợp với (Full, Centroid, Orthogonal Centroid, LSI/SVD) khi dữ liệu văn
bản được tách thành các âm tiết
Trang 39Kết luận
• Thời gian thực hiện thuật toán chúng ta thấy rằng các phương pháp giảm chiều Centroid, Orthogonal Centroid kết hợp trong phân loại văn bản cho kết quả khá tốt mà thời gian thực hiện ít hơn rất nhiều nhiều so với khi sử dụng phương pháp Lantent semantic index giảm chiều đặc trưng.
• Kết quả độ phân loại chính xác trong hai trường hợp
dựa vào đặc điểm của tiếng Việt (âm tiết và từ) là xấp xỉ tương đương nhau điều này chứng tỏ nếu bỏ qua bài toán tách từ văn bản tiếng Việt bằng cách tách văn bản theo âm tiết giống văn bản tiếng Anh thì kết quả phân loại văn bản tiếng Việt vẫn cho kết quả tốt