Phân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễu
Trang 1HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
Ninh Thị Thu Trang
PHÂN LOẠI VĂN BẢN HIỆU QUẢ TRONG ĐIỀU KIỆN
XUẤT HIỆN BIẾN NHIỄU
LUẬN VĂN THẠC SĨ KỸ THUẬT
(Theo định hướng ứng dụng)
HÀ NỘI - 2018
Trang 2HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG
-
Ninh Thị Thu Trang
PHÂN LOẠI VĂN BẢN HIỆU QUẢ TRONG ĐIỀU KIỆN
XUẤT HIỆN BIẾN NHIỄU
Chuyên ngành: Hệ thống thông tin
Mã số: 8.48.01.04
LUẬN VĂN THẠC SĨ KỸ THUẬT
NGƯỜI HƯỚNG DẪN KHOA HỌC : TS HOÀNG XUÂN DẬU
HÀ NỘI - 2018
Trang 3LỜI CAM ĐOAN
Tôi xin cam đoan:
Những nội dung trong luận văn này là do tôi thực hiện Mọi tham khảo dùng trong luận văn đều đƣợc trích dẫn rõ ràng và trung thực về tên tác giả, tên công trình, thời gian và địa điểm công bố
Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn toàn trách nhiệm
Tác giả luận văn
NINH THỊ THU TRANG
Trang 4LỜI CẢM ƠN
Em xin chân thành cám ơn thầy giáo TS Hoàng Xuân Dậu đã tận tình
hướng dẫn và cho em những góp ý quý báu trong quá trình hoàn thành luận văn
Chính lời cam kết hoàn thành luận văn đúng hạn với thầy và những lời động viên
kịp thời là động lực to lớn để em có thể đạt được kết quả này
Em xin cảm ơn các thầy giáo, cô giáo Khoa CNTT1, Khoa QT&ĐT sau đại
học thuộc Học viện Công nghệ Bưu chính viễn thông đã tận tình giảng dạy, truyền
đạt các nội dung kiến thức, kinh nghiệm quý báu trong suốt quá trình em theo học
tại Học viện
Cảm ơn Trần Thị Giang và Vi Quyết Thắng, những người bạn học nhiệt
tình và tận tâm, đã không ngần ngại giúp đỡ cho tôi trong suốt 3 học kỳ của khóa
học cũng như đã cổ vũ để chúng tôi có thể cùng nhau tốt nghiệp
Cảm ơn Đỗ Việt Long, đã luôn sẵn sàng giúp đỡ và hỗ trợ cho tôi bằng tấm
lòng bè bạn vô tư nhất
Cuối cùng, tôi muốn gửi lời cảm ơn đến gia đình mình, những người luôn
yêu thương và tạo mọi điều kiện để tôi có thể hoàn thành khóa học này
Trang 5MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC TỪ VIẾT TẮT v
DANH MỤC CÁC HÌNH vi
MỞ ĐẦU 1
Chương 1 - BÀI TỐN PHÂN LOẠI VĂN BẢN 4
1.1 Bài tốn phân loại văn bản 4
1.1.1 Phát biểu bài tốn 4
1.1.2 Mơ hình tổng quát 4
1.1.3 Tiền xử lý văn bản 6
1.1.4 Phương pháp biểu diễn văn bản 7
1.1.5 Đánh giá bộ phân loại văn bản 10
1.2 Một số mơ hình phân loại văn bản 11
1.2.1 Mơ hình Nạve Bayes 12
1.2.2 Mơ hình Support Vector Machine 13
1.2.3 Mơ hình Logistic Regression 19
1.2.4 Mơ hình Subsampling 19
1.2.5 Mơ hình Matching 20
1.2.6 Mơ hình Sum out 20
1.3 Bài tốn của luận văn 21
1.4 Kết luận chương 21
Trang 6Chương 2 - THUẬT TOÁN BACK-DOOR CẢI TIẾN CHO PHÂN LOẠI VĂN
BẢN CÓ XUẤT HIỆN CỦA BIẾN NHIỄU 22
2.1 Giới thiệu 22
2.2 Thuật toán Back-door tiêu chuẩn 22
2.3 Thuật toán Back-door cải tiến cho phân loại văn bản 24
2.4 Điều chỉnh khả năng cải tiến thuật toán Back-door 28
2.5 Kết luận chương 29
Chương 3 - THỬ NGHIỆM VÀ ĐÁNH GIÁ 30
3.1 Các tập dữ liệu và tiền xử lý dữ liệu cho thử nghiệm 30
3.1.1 Bộ dữ liệu Twitter 30
3.1.2 Bộ dữ liệu IMDb 31
3.2 Kịch bản thử nghiệm 31
3.3 Kết quả 32
3.3.1 Kết quả trên dữ liệu Twitter 32
3.3.2 Kết quả trên dữ liệu IMDb 37
KẾT LUẬN 40
DANH MỤC TÀI LIỆU THAM KHẢO 41
Trang 7DANH MỤC TỪ VIẾT TẮT
LRS Logistic Regression Subsampling Lấy mẫu hồi quy logistic
Trang 8DANH MỤC CÁC HÌNH
Hình 1.1 Bài toán phân loại văn bản 4
Hình 1.2 Sơ đồ khung một hệ thống phân loại văn bản 5
Hình 1.3 Thuật toán xác định siêu phẳng 14
Hình 1.4 Mối quan hệ giữa các siêu phẳng phân cách 15
Hình 1.5 Siêu phẳng tối ưu và biên 16
Hình 2.1 Mô hình ví dụ cho tiêu chuẩn Back-door 23
Hình 2.2 G' là mạng tăng cường khi có can thiệp Fi từ bên ngoài 25
Hình 2.3 Sơ đồ mô tả một biến số Z có ảnh hưởng đến cả hai đặc trưng: văn bản được cần phân loại X và biến nhãn Y 26
Hình 3.1 Độ chính xác của huấn luyện và thử nghiệm khác với P(Y|Z) trên dữ liệu Twitter 33
Hình 3.2 Độ chính xác trung bình trên dữ liệu Twitter trong huấn luyện được ưu tiên 33
Hình 3.3 Đặt hệ số ưu tiên 0.9 cho các bộ phân loại LR, BA và BAZ10 trong thử nghiệm Twitter 34
Hình 3.4 Phần trăm các đặc trưng thể hiện nghịch lý Simpson 36
Hình 3.5 Ảnh hưởng của việc điều chỉnh độ mạnh v1 đối với các hệ số đặc trưng c0, c1 và độ chính xác trên bộ dữ liệu Twitter 37
Hình 3.6 Độ chính xác của huấn luyện và thử nghiệm khác với P(Y|Z) trên dữ liệu IMDb 38 Hình 3.7 Độ chính xác trung bình trên dữ liệu IMDb trong huấn luyện được ưu tiên39
Trang 9MỞ ĐẦU
1 Lý do chọn đề tài
Phân loại văn bản là một phần quan trọng trong lĩnh vực xử lý ngôn ngữ Nhiệm vụ của bài toán này là tự động sắp xếp một bộ tài liệu thành các loại (hoặc các lớp, hoặc chủ đề) từ một tập hợp được xác định trước Các chương trình phân loại văn bản ngày càng được sử dụng nhiều trong các ứng dụng thời gian thực, do đó cần phải cân nhắc không chỉ độ chính xác mà còn tính mạnh
mẽ của chúng khi có những thay đổi (nhiễu) trong việc phân phối dữ liệu
Đề tài "Phân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễu" nghiên cứu thuật toán phân loại văn bản dựa trên thuật toán Back-door
cải tiến[5] để kiểm soát các biến số nhiễu Bằng cách kiểm soát chặt chẽ các yếu tố gây nhiễu, có thể cải thiện đáng kể hiệu quả của bộ phân loại
2 Tổng quan về vấn đề nghiên cứu
Trong bài toán phân loại văn bản, xem xét trường hợp có một biến nhiễu
Z có ảnh hưởng đến cả các đặc trưng văn bản X và biến nhãn Y Ví dụ, một bộ phân loại được huấn luyện để dự đoán tình trạng sức khoẻ của người dùng dựa vào giao tiếp của họ trên mạng có thể sai lệch bởi các biến số kinh tế xã hội Khi ảnh hưởng của Z thay đổi từ dữ liệu huấn luyện sang dữ liệu thử nghiệm,
độ chính xác của phân loại có thể bị giảm nhanh chóng[5]
Trong các ngành khoa học xã hội, nhiều phương pháp đã được phát triển
để kiểm soát yếu tố gây nhiễu, bao gồm kết hợp, phân tầng và hồi quy[9][Rosenbaum] Pearl[8]đã phát triển các phép thử để xác định cấu trúc nào cho phép kiểm soát các yếu tố gây nhiễu bằng cách sử dụng điều chỉnh đồng biến, còn được gọi là Back-door[8] Luận văn sử dụng các điều chỉnh trên thuật toán Back-door để cải thiện hiệu quả của các bộ phân loại văn bản[5]
Trang 10Trong cộng đồng học máy, lựa chọn thiên vị đã nhận được một số sự chú
ý Xu hướng lựa chọn trong phân loại văn bản xảy ra khi sự phân bố của các đặc trưng văn bản thay đổi từ huấn luyện sang thử nghiệm Đã có các nghiên cứu xem xét trường hợp hàm phân phối mục tiêu P (Y) thay đổi khi từ huấn luyện sang thử nghiệm Ở đây, bài toán giải quyết một trường hợp đầy thách thức hơn về mối quan hệ thay đổi giữa nhãn mục tiêu Y và một nhãn nhiễu Z[5]
4 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu: Thuật toán Back-door cải tiến cho phân loại văn bản
Phạm vi nghiên cứu: Bài toán phân loại văn bản có sự xuất hiện của biến nhiễu
5 Phương pháp nghiên cứu
Phương pháp nghiên cứu là nghiên cứu lý thuyết kết hợp với thực nghiệm và phân tích, đánh giá kết quả
Nội dung chính của luận văn gồm 3 chương như sau:
Chương 1 – BÀI TOÁN PHÂN LOẠI VĂN BẢN: Giới thiệu bài toán
phân loại văn bản nói chung và trình bày một số mô hình phân loại văn bản được sử dụng phổ biến hiện nay
Chương 2 – THUẬT TOÁN BACK-DOOR CẢI TIẾN CHO PHÂN LOẠI VĂN BẢN CÓ SỰ XUẤT HIỆN CỦA BIẾN NHIỄU: Trình bày và
chứng minh thuật toán Back-door cải tiến trong phân loại văn bản
Trang 11Chương 3 – THỬ NGHIỆM VÀ ĐÁNH GIÁ: Áp dụng thuật toán
Back-door cải tiến trong phân loại trên tập dữ liệu thực tế, tiến hành so sánh kết quả với một số mô hình khác và rút ra kết luận
Trang 12Chương 1 - BÀI TOÁN PHÂN LOẠI VĂN BẢN
Chương này trình bày khái quát về bài toán phân loại văn bản, các bước giải quyết bài toán phân loại văn bản và giới thiệu ra một số mô hình phân loại văn bản phổ biến hiện nay
1.1 Bài toán phân loại văn bản
1.1.1 Phát biểu bài toán
Phân loại văn bản (Text classification) là quá trình gán nhãn (tên lớp/nhãn lớp) các văn bản ngôn ngữ tự nhiên một cách tự động vào một hoặc nhiều lớp cho trước
Hình 1.1 Bài toán phân loại văn bản[1]
Bài toán phân loại văn bản có thể được phát biểu như sau: Cho trước một tập văn bản D={d1,d2,…,dn} và tập chủ đề được định nghĩa C={c1,c2,…,cn}
Nhiệm vụ của bài toán là gán lớp di thuộc về cj cho trước Hay nói cách khác, mục tiêu của bài toán là đi tìm hàm f sao cho:
f =DxC Boolean
f d c ( , ) true false
f(d,c)=true nếu d thuộc về lớp c
f(d,c)=false nếu d không thuộc về lớp c
1.1.2 Mô hình tổng quát
Dữ liệu vào
Thuật toán phân loại
Lớp 1 Lớp 2
Lớp n
……
Trang 13Phân loại văn bản được các nhà nghiên cứu định nghĩa thống nhất là việc gán tên các chủ đề (tên lớp / nhãn lớp) đã được xác định trước cho các văn bản dựa trên nội dung của nó Phân loại văn bản là công việc được sử dụng để hỗ trợ trong quá trình tìm kiếm thông tin (Information Retrieval), trích xuất thông tin (Information Extraction), lọc văn bản hoặc tự động đưa các văn bản vào những chủ đề xác định trước
Có nhiều hướng tiếp cận giải quyết bài toán phân loại văn bản đã được nghiên cứu như: tiếp cận dựa trên lý thuyết đồ thị, cách tiếp cận sử dụng lý thuyết tập thô, tiếp cận dựa trên thống kê… Tuy nhiên, tất cả các hướng tiếp cận trên đều dựa vào phương pháp chung là học máy Học máy gồm học có giám sát, học không giám sát và học tăng cường
Hình 1.2 Sơ đồ khung một hệ thống phân loại văn bản[1]
Vấn đề phân loại văn bản theo phương pháp thống kê dựa trên kiểu học có giám sát được đặc tả bao gồm 2 giai đoạn: giai đoạn huấn luyện và giai đoạn phân loại Tập dữ liệu được chia ra làm hai tập là tập huấn luyện và tập kiểm tra Trước hết trong giai đoạn huấn luyện, phải xây dựng mô hình thông qua các mẫu học bằng tập huấn luyện, sau đó đánh giá mô hình bằng tập dữ liệu kiểm tra trong giai đoạn phân loại
Biểu diễn ban đầu
Giảm số chiều hoặc lựa chọn thuộc tính
Biểu diễn cuối cùng
Trang 14Hình 1.2 biểu diễn sơ đồ khung một hệ thống phân loại văn bản, trong đó bao gồm ba thành phần chính:
- Biểu diễn văn bản, tức là chuyển các dữ liệu văn bản thành một dạng có cấu trúc nào đó, tập hợp các mẫu cho trước thành một tập huấn luyện
- Sử dụng các kỹ thuật học máy để học trên các mẫu huấn luyện vừa biểu diễn Như vậy việc biểu diễn ở giai đoạn thứ nhất sẽ là đầu vào cho giai đoạn thứ hai
- Thực hiện bổ sung các kiến thức thêm vào do người dùng cung cấp để làm tăng độ chính xác trong biểu diễn văn bản hay trong quá trình học máy Trong nhiều trường hợp, các phương pháp học sử dụng hệ thống phân loại có thể bỏ qua thành phần này
1.1.3 Tiền xử lý văn bản
Văn bản trước khi được vector hoá, tức là trước khi sử dụng, cần phải qua quá trình tiền xử lý Quá trình tiền xử lý sẽ giúp nâng cao hiệu suất phân loại và giảm độ phức tạp của thuật toán huấn luyện
Tuỳ vào mục đích bộ phân loại mà chúng ta sẽ có những phương pháp tiền
xử lý văn bản khác nhau, như:
- Chuyển văn bản về chữ thường
- Loại bỏ dấu câu (nếu không thực hiện tách câu)
- Loại bỏ các kí tự đặc biệt ([ ],[.], [,], [:], [“], [”], [;], [/], [[]], [~], [`], [!],[@], [#], [$],[%],[^],[&],[*],[(],[)]), các chữ số, phép tính toán số học
- Loại bỏ các stopword (những từ xuất hiện hầu hết trong các văn bản) không có ý nghĩa khi tham gia vào phân loại văn bản
Trang 151.1.4 Phương pháp biểu diễn văn bản
Một trong những nhiệm vụ đầu tiên trong phân loại văn bản là chọn được một mô hình biểu diễn văn bản thích hợp Một văn bản ở dạng thô (dạng chuỗi) cần được chuyển sang một mô hình khác để tạo thuận lợi cho việc biểu diễn và tính toán Tuỳ thuộc vào từng thuật toán phân loại khác nhau mà chúng ta có mô hình biểu diễn riêng
Một tài liệu được biểu diễn dưới dạng một tập hợp các từ, mỗi từ được xem
là một thuộc tính hoặc đặc trưng và văn bản tương ứng với một vector đặc trưng Đôi khi, thay vì những từ đơn, các đặc trưng có thể được biểu diễn bằng các cụm
từ hoặc chuỗi n từ với n >= 2 Dễ nhận thấy, các đặc trưng phức tạp thì có thể giàu thông tin hơn Ví dụ, cụm từ “world wide web” mang nhiều thông tin hơn từng từ riêng biệt Tuy nhiên, trong thực hành, sử dụng n-grams dẫn tới việc có quá nhiều đặc trưng và có thể làm việc giải quyết bài toán khó khăn hơn Theo các nghiên cứu khác nhau về phương pháp biểu diễn văn bản, đặc biệt là khi so sánh ảnh hưởng và hiệu quả của chúng thì không có phương pháp biểu diễn văn bản nào tốt hơn phương pháp biểu diễn bằng tập các từ riêng biệt được lấy ra từ văn bản gốc
Sau khi xác định được các đặc trưng, chúng ta cần tính giá trị đặc trưng (hoặc trọng số từ khóa) cho mỗi văn bản Mỗi từ khóa ti trong một tài liệu Dj được gán một trọng số wij và do đó, mỗi tài liệu được biểu diễn như một vector Trọng
số từ khóa có thể được tính toán bằng nhiều cách khác nhau Cách đơn giản nhất là gán trọng số bằng một giá trị nhị phân chỉ ra từ khóa có mặt hay không có mặt trong văn bản, tức là giá trị trọng số wij là 1 nếu từ khóa ti xuất hiện ít nhất một lần trong tập tài liệu Dj và wij là 0 trong trường hợp ngược lại – Đây là mô hình Boolean
Phương pháp khác là tính số lần xuất hiện của từ khóa trong một tài liệu gọi
là tần suất từ khóa Tần suất từ khóa được tính theo công thức (1.1)
Trang 16( , )( ,k j) occ t D k j
Phương pháp này có vẻ rất trực quan nhưng mặt hạn chế của phương pháp này là: nếu một từ xuất hiện nhiều lần trong tài liệu sẽ có tần suất cao Tuy nhiên nếu những từ này đều xuất hiện trong tất cả các văn bản thì nó sẽ không mang nhiều thông tin ngữ nghĩa của văn bản và do đó độ quan trọng của nó giảm đi
Ví dụ, khi văn bản xuất hiện nhiều từ khóa “máy tính”, điều đó có nghĩa là văn bản đang xét chủ yếu liên quan đến lĩnh vực “Tin học” Nhưng suy luận trên không phải lúc nào cũng đúng Một ví dụ điển hình là từ “chúng tôi” xuất hiện nhiều lần trong văn bản, nhưng trên thực tế từ này lại không mang nhiều ý nghĩa như tần suất xuất hiện của nó
Thông thường tần suất của các từ khóa trong văn bản không đồng đều nhau Một số từ khóa xuất hiện rất thường xuyên, trong khi đó, một số từ khóa chỉ xuất hiện một lần Để giải quyết hạn chế này, Phương pháp dựa trên nghịch đảo tần suất văn bản (IDF – Inverse Document Frequency) với tần suất logarit (tương tự với tần suất từ khóa) được đề xuất và được tính theo công thức:
Trong đó, m là số lượng văn bản và dfi là số lượng văn bản trong hệ thống
có chứa từ khóa ti Trọng số wij trong công thức này được tính dựa trên độ quan
Trang 17trọng của từ khóa ti trong văn bản dj Nếu ti xuất hiện trong càng ít văn bản, điều
đó có nghĩa khi nó xuất hiện trong văn bản dj thì trọng số của nó đối với văn bản djcàng lớn hay nó là điểm quan trọng để phân biệt văn bản dj với các văn bản khác
và hàm lượng thông tin trong nó càng lớn
Phương pháp dựa trên nghịch đảo tần suất văn bản IDF được sử dụng phổ biến hơn phương pháp dựa trên tần suất IF, nhưng phương pháp này vẫn chưa giải quyết triệt để hạn chế của phương pháp tần suất từ khóa Theo đó, một từ xuất hiện nhiều lần có tần suất cao, từ xuất hiện ít có tần suất thấp
Phương pháp chuẩn thường được sử dụng là Term Frequency Inverse Document Frequency (TFIDF)[17], với hàm tính trọng số từ khóa được xác định bởi công thức:
l d l d
l
m TFIDF freq
- Tần suất văn bản dfl là sốvăn bản trong tập tài liệu có chứa từ khóa l
- m là tổng số tài liệu huấn luyện
Trọng số TFIDF của một từ khóa biểu diễn độ quan trọng của từ khóa TFIDF của một từ khóa trong một tài liệu sẽ giảm nếu như từ đó xuất hiện trong hầu hết các văn bản Vì vậy, một từ xuất hiện quá ít hoặc quá nhiều được đánh giá
ít quan trọng hơn so với các từ xuất hiện cân bằng
Trọng số TFIDF của một từ khóa trong toàn bộ tập tài liệu m được tính bởi công thức:
, ,
l d
TFIDF TFIDF TFIDFR (1.5)
Trang 181.1.5 Đánh giá bộ phân loại văn bản
Các độ đo thường dùng cho bài toán phân loại văn bản bao gồm Ma trận nhầm lẫn (Confusion Matrix), và độ chính xác (Precision/Accuracy) và độ bao phủ (Recall)
a) Ma trận nhầm lẫn (Confusion Matrix)
Ma trận nhầm lẫn, như cho trên Bảng 1.1, hay còn được gọi là Bảng dữ liệu thống kê (Contingency Table) và chỉ được sử dụng đối với bài toán phân loại Ý nghĩa của các ký hiệu trong ma trận nhầm lẫn:
TPi: Số lượng các ví dụ thuộc lớp ci được phân loại chính xác vào lớp ci
FPi: Số lượng các ví dụ không thuộc lớp ci bị phân loại nhầm vào lớp ci
TNi: Số lượng các ví dụ không thuộc lớp ci được phân loại (chính xác)
FNi: Số lượng các ví dụ thuộc lớp ci bị phân loại nhầm (vào các lớp khác ci)
Trang 19b) Precision và Recall Hai độ đo này thường xuyên được sử dụng để đánh giá các hệ thống phân loại văn bản
- Precision đối với lớp ci: Tổng các ví dụ thuộc lớp ci được phân loại chính xác chia cho tổng số các ví dụ được phân loại vào lớp ci
- F1 là một trung bình điều hịa (harmonic mean) của các tiêu chí Precision và Recall
o F1 cĩ xu hướng lấy giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision
và Recall
o F1 cĩ giá trị lớn nếu cả 2 giá trị Precision và Recall đều lớn
1.2 Một số mơ hình phân loại văn bản
Phân loại văn bản là quá trình gán nhãn các văn bản ngơn ngữ tự nhiên vào mơt hoặc nhiều lớp từ tập các lớp hữu hạn cho trước Hiện nay tồn tại nhiều thuật tốn phân loại văn bản như: thuật tốn Nạve Bayes, thuật tốn Support Vector Machine, thuật tốn Logistic Regression, Phần tiếp theo của mục này trình bày chi tiết về các thuật tốn này
Trang 201.2.1 Mơ hình Nạve Bayes
Nạve Bayes[6] là phương pháp phân loại dựa vào xác suất, được sử dụng rộng rãi trong lĩnh vực học máy và nhiều lĩnh vực khác như trong các cơng cụ tìm kiếm, các bộ lọc thư điện tử, …
Ý tưởng cơ bản của cách tiếp cận này là sử dụng xác suất cĩ điều kiện giữa
từ hoặc cụm từ và chủ đề để dự đốn xác suất chủ đề của một văn bản cần phân loại Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau Như thế Nạve Bayes khơng tận dụng được sự phụ thuộc của nhiều từ vào một chủ đề cụ thể Chính giả định đĩ làm cho việc tính tốn Nạve Bayes hiệu qủa và nhanh chĩng hơn các phương pháp khác với độ phức tạp theo số mũ vì nĩ khơng sử dụng cách kết hợp các từ để đưa ra phán đốn chủ đề
Mục đích chính là làm sao tính được xác suất Pr(Cj, d’), xác suất để văn bản d’ nằm trong lớp Cj Theo luật Bayes, văn bản d’ sẽ được gán vào lớp Cj nào
wi là một từ trong khơng gian đặc trưng F với số chiều là |F|
Pr(Cj) được tính dựa trên tỷ lệ phần trăm của số văn bản mỗi lớp tương ứng:
Trang 21TF c C
1.2.2 Mô hình Support Vector Machine
Thuật toán máy vector hỗ trợ (Support Vector Machines - SVM) được Corters và Vapnik giới thiệu vào năm 1995[3] SVM được đánh giá rất hiệu quả
để giải quyết các bài toán với dữ liệu có số chiều lớn như các vector biểu diễn văn bản Thuật toán SVM ban đầu chỉ được thiết kế để giải quyết bài toán phân loại nhị phân tức là số lớp hạn chế là hai lớp Hiện nay, SVM được đánh giá là bộ phân loại chính xác nhất cho bài toán phân loại văn bản [16], bởi vì đó là bộ phân loại tốc độ rất nhanh và hiệu quả đối với bài toán phân loại văn bản
Cho tập dữ liệu học D {( ,x y i i),i 1 }n với m
i
x R và y i { 1,1} là một số nguyên xác định xi là dữ liệu dương hay âm Một tài liệu xi được gọi là dữ liệu dương nếu nó thuộc lớp ci; xi được gọi là dữ liệu âm nếu nó không thuộc lớp ci Bộ phân loại tuyến tính được xác định bằng siêu phẳng:
Trang 22Bộ phân loại của mô hình học bao gồm việc xác định w và w0 từ dữ liệu Với thuật toán này, mỗi dữ liệu được xem là một điểm trong mặt phẳng Dữ liệu học là tách rời tuyến tính (linearly separable) nếu tồn tại một siêu phẳng sao cho hàm phân loại phù hợp với tất cả các nhãn; tức là y f x i ( )i 0 với mọi i = 1, ,n Với giả thiết này, Rosenblatt[12] đã đưa ra một thuật toán đơn giản để xác định siêu phẳng, như biểu diễn trên Hình 1.3:
Hình 1.3 Thuật toán xác định siêu phẳng[2]
Điều kiện cần để D tách rời tuyến tính là số dữ liệu học n = |D| ≤ m+1 Điều này thường đúng với bài toán phân loại văn bản, bởi vì số lượng từ mục có thể lên tới hàng nghìn và lớn hơn nhiều lần so với số lượng dữ liệu học
Trang 23Hình 1.4 Mối quan hệ giữa các siêu phẳng phân cách[2]
Trong Hình 1.4, giả sử rằng các dữ liệu mẫu thuộc lớp âm và lớp dương đều tuân theo luật phân bố chuẩn Gaussian, và được tạo ra với cùng một xác suất Khi
đó một siêu phẳng phân cách được gọi là lý tưởng nếu nó làm cực tiểu xác suất phân loại sai cho một điểm dữ liệu mới Với giả thiết ở trên thì siêu phẳng phân cách lý tưởng sẽ trực giao với đoạn thẳng nối tâm của hai vùng có mật độ xác suất lớn nhất
Rõ ràng các siêu phẳng mà chúng ta xây dựng nhằm phân cách các điểm dữ liệu mẫu có thể lệch đi rất nhiều so với siêu phẳng lý tưởng, do đó sẽ dẫn tới việc phân loại không tốt trên dữ liệu mới sau này Độ phức tạp của quá trình xác định siêu phẳng lý tưởng sẽ tăng theo số chiều của không gian đầu vào m,vì với một số lượng các dữ liệu mẫu cố định, tập hợp các siêu phẳng thực tế sẽ tăng theo hàm
Trang 24mũ với lũy thừa m Với bài toán phân loại trang văn bản, m thường rất lớn, khoảng vài ngàn hay thậm chí là hàng triệu từ
Hình 1.5 Siêu phẳng tối ưu và biên[2]
Theo lý thuyết thống kê được phát triển bởi Vapnik[19] năm 1998 chỉ ra rằng: chúng ta có thể xác định một siêu phẳng tối ưu thoả mãn hai tính chất quan trong : nó là duy nhất với mỗi tập dữ liệu học tách rời tuyến tính; và khả năng overfitting (độ sai sót trên tập huấn luyện nhỏ, trên tập thử nghiệm lớn) là nhỏ hơn
so với các siêu phẳng khác [16] Định nghĩa biên M của bộ phân loại là khoảng cách giữa các siêu phẳng và các dữ liệu học gần nhất Siêu phẳng tối ưu nhất là siêu phẳng có biên lớn nhất, điều đó có nghĩa là chúng ta cần tìm siêu phẳng sao cho khoảng cách từ siêu phẳng đến những điểm gần nhất là lớn nhất (Hình 1.5)
Trang 25Vapnik[19] cũng chứng minh rằng khả năng overfitting với siêu phẳng tối ưu nhỏ
hơn so với các siêu phẳng khác
Khoảng cách từ một điểm x đến siêu phẳng là:
0
1 (w w ) w
Trong đó ràng buộc yêu cầu mỗi tài liệu học (tương đương với các điểm)
phải nằm trên nửa mặt phẳng của nó và khoảng cách từ điểm tới siêu phẳng lớn
2
0 1
n T
i i
thoản mãn i 0,i 1, ,n
(1.22)