Phân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễu (Luận văn thạc sĩ)

Phân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễuPhân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễu

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

Ninh Thị Thu Trang

PHÂN LOẠI VĂN BẢN HIỆU QUẢ TRONG ĐIỀU KIỆN

XUẤT HIỆN BIẾN NHIỄU

LUẬN VĂN THẠC SĨ KỸ THUẬT

(Theo định hướng ứng dụng)

HÀ NỘI - 2018

Trang 2

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

Ninh Thị Thu Trang

PHÂN LOẠI VĂN BẢN HIỆU QUẢ TRONG ĐIỀU KIỆN

XUẤT HIỆN BIẾN NHIỄU

Chuyên ngành: Hệ thống thông tin

Mã số: 8.48.01.04

LUẬN VĂN THẠC SĨ KỸ THUẬT

NGƯỜI HƯỚNG DẪN KHOA HỌC : TS HOÀNG XUÂN DẬU

HÀ NỘI - 2018

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan:

Những nội dung trong luận văn này là do tôi thực hiện Mọi tham khảo dùng trong luận văn đều đƣợc trích dẫn rõ ràng và trung thực về tên tác giả, tên công trình, thời gian và địa điểm công bố

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, tôi xin chịu hoàn toàn trách nhiệm

Tác giả luận văn

NINH THỊ THU TRANG

Trang 4

LỜI CẢM ƠN

Em xin chân thành cám ơn thầy giáo TS Hoàng Xuân Dậu đã tận tình

hướng dẫn và cho em những góp ý quý báu trong quá trình hoàn thành luận văn

Chính lời cam kết hoàn thành luận văn đúng hạn với thầy và những lời động viên

kịp thời là động lực to lớn để em có thể đạt được kết quả này

Em xin cảm ơn các thầy giáo, cô giáo Khoa CNTT1, Khoa QT&ĐT sau đại

học thuộc Học viện Công nghệ Bưu chính viễn thông đã tận tình giảng dạy, truyền

đạt các nội dung kiến thức, kinh nghiệm quý báu trong suốt quá trình em theo học

tại Học viện

Cảm ơn Trần Thị Giang và Vi Quyết Thắng, những người bạn học nhiệt

tình và tận tâm, đã không ngần ngại giúp đỡ cho tôi trong suốt 3 học kỳ của khóa

học cũng như đã cổ vũ để chúng tôi có thể cùng nhau tốt nghiệp

Cảm ơn Đỗ Việt Long, đã luôn sẵn sàng giúp đỡ và hỗ trợ cho tôi bằng tấm

lòng bè bạn vô tư nhất

Cuối cùng, tôi muốn gửi lời cảm ơn đến gia đình mình, những người luôn

yêu thương và tạo mọi điều kiện để tôi có thể hoàn thành khóa học này

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

LỜI CẢM ƠN ii

MỤC LỤC iii

DANH MỤC TỪ VIẾT TẮT v

DANH MỤC CÁC HÌNH vi

MỞ ĐẦU 1

Chương 1 - BÀI TỐN PHÂN LOẠI VĂN BẢN 4

1.1 Bài tốn phân loại văn bản 4

1.1.1 Phát biểu bài tốn 4

1.1.2 Mơ hình tổng quát 4

1.1.3 Tiền xử lý văn bản 6

1.1.4 Phương pháp biểu diễn văn bản 7

1.1.5 Đánh giá bộ phân loại văn bản 10

1.2 Một số mơ hình phân loại văn bản 11

1.2.1 Mơ hình Nạve Bayes 12

1.2.2 Mơ hình Support Vector Machine 13

1.2.3 Mơ hình Logistic Regression 19

1.2.4 Mơ hình Subsampling 19

1.2.5 Mơ hình Matching 20

1.2.6 Mơ hình Sum out 20

1.3 Bài tốn của luận văn 21

1.4 Kết luận chương 21

Trang 6

Chương 2 - THUẬT TOÁN BACK-DOOR CẢI TIẾN CHO PHÂN LOẠI VĂN

BẢN CÓ XUẤT HIỆN CỦA BIẾN NHIỄU 22

2.1 Giới thiệu 22

2.2 Thuật toán Back-door tiêu chuẩn 22

2.3 Thuật toán Back-door cải tiến cho phân loại văn bản 24

2.4 Điều chỉnh khả năng cải tiến thuật toán Back-door 28

2.5 Kết luận chương 29

Chương 3 - THỬ NGHIỆM VÀ ĐÁNH GIÁ 30

3.1 Các tập dữ liệu và tiền xử lý dữ liệu cho thử nghiệm 30

3.1.1 Bộ dữ liệu Twitter 30

3.1.2 Bộ dữ liệu IMDb 31

3.2 Kịch bản thử nghiệm 31

3.3 Kết quả 32

3.3.1 Kết quả trên dữ liệu Twitter 32

3.3.2 Kết quả trên dữ liệu IMDb 37

KẾT LUẬN 40

DANH MỤC TÀI LIỆU THAM KHẢO 41

Trang 7

DANH MỤC TỪ VIẾT TẮT

LRS Logistic Regression Subsampling Lấy mẫu hồi quy logistic

Trang 8

DANH MỤC CÁC HÌNH

Hình 1.1 Bài toán phân loại văn bản 4

Hình 1.2 Sơ đồ khung một hệ thống phân loại văn bản 5

Hình 1.3 Thuật toán xác định siêu phẳng 14

Hình 1.4 Mối quan hệ giữa các siêu phẳng phân cách 15

Hình 1.5 Siêu phẳng tối ưu và biên 16

Hình 2.1 Mô hình ví dụ cho tiêu chuẩn Back-door 23

Hình 2.2 G' là mạng tăng cường khi có can thiệp Fi từ bên ngoài 25

Hình 2.3 Sơ đồ mô tả một biến số Z có ảnh hưởng đến cả hai đặc trưng: văn bản được cần phân loại X và biến nhãn Y 26

Hình 3.1 Độ chính xác của huấn luyện và thử nghiệm khác với P(Y|Z) trên dữ liệu Twitter 33

Hình 3.2 Độ chính xác trung bình trên dữ liệu Twitter trong huấn luyện được ưu tiên 33

Hình 3.3 Đặt hệ số ưu tiên 0.9 cho các bộ phân loại LR, BA và BAZ10 trong thử nghiệm Twitter 34

Hình 3.4 Phần trăm các đặc trưng thể hiện nghịch lý Simpson 36

Hình 3.5 Ảnh hưởng của việc điều chỉnh độ mạnh v1 đối với các hệ số đặc trưng c0, c1 và độ chính xác trên bộ dữ liệu Twitter 37

Hình 3.6 Độ chính xác của huấn luyện và thử nghiệm khác với P(Y|Z) trên dữ liệu IMDb 38 Hình 3.7 Độ chính xác trung bình trên dữ liệu IMDb trong huấn luyện được ưu tiên39

Trang 9

MỞ ĐẦU

1 Lý do chọn đề tài

Phân loại văn bản là một phần quan trọng trong lĩnh vực xử lý ngôn ngữ Nhiệm vụ của bài toán này là tự động sắp xếp một bộ tài liệu thành các loại (hoặc các lớp, hoặc chủ đề) từ một tập hợp được xác định trước Các chương trình phân loại văn bản ngày càng được sử dụng nhiều trong các ứng dụng thời gian thực, do đó cần phải cân nhắc không chỉ độ chính xác mà còn tính mạnh

mẽ của chúng khi có những thay đổi (nhiễu) trong việc phân phối dữ liệu

Đề tài "Phân loại văn bản hiệu quả trong điều kiện xuất hiện biến nhiễu" nghiên cứu thuật toán phân loại văn bản dựa trên thuật toán Back-door

cải tiến[5] để kiểm soát các biến số nhiễu Bằng cách kiểm soát chặt chẽ các yếu tố gây nhiễu, có thể cải thiện đáng kể hiệu quả của bộ phân loại

2 Tổng quan về vấn đề nghiên cứu

Trong bài toán phân loại văn bản, xem xét trường hợp có một biến nhiễu

Z có ảnh hưởng đến cả các đặc trưng văn bản X và biến nhãn Y Ví dụ, một bộ phân loại được huấn luyện để dự đoán tình trạng sức khoẻ của người dùng dựa vào giao tiếp của họ trên mạng có thể sai lệch bởi các biến số kinh tế xã hội Khi ảnh hưởng của Z thay đổi từ dữ liệu huấn luyện sang dữ liệu thử nghiệm,

độ chính xác của phân loại có thể bị giảm nhanh chóng[5]

Trong các ngành khoa học xã hội, nhiều phương pháp đã được phát triển

để kiểm soát yếu tố gây nhiễu, bao gồm kết hợp, phân tầng và hồi quy[9][Rosenbaum] Pearl[8]đã phát triển các phép thử để xác định cấu trúc nào cho phép kiểm soát các yếu tố gây nhiễu bằng cách sử dụng điều chỉnh đồng biến, còn được gọi là Back-door[8] Luận văn sử dụng các điều chỉnh trên thuật toán Back-door để cải thiện hiệu quả của các bộ phân loại văn bản[5]

Trang 10

Trong cộng đồng học máy, lựa chọn thiên vị đã nhận được một số sự chú

ý Xu hướng lựa chọn trong phân loại văn bản xảy ra khi sự phân bố của các đặc trưng văn bản thay đổi từ huấn luyện sang thử nghiệm Đã có các nghiên cứu xem xét trường hợp hàm phân phối mục tiêu P (Y) thay đổi khi từ huấn luyện sang thử nghiệm Ở đây, bài toán giải quyết một trường hợp đầy thách thức hơn về mối quan hệ thay đổi giữa nhãn mục tiêu Y và một nhãn nhiễu Z[5]

4 Đối tượng và phạm vi nghiên cứu

 Đối tượng nghiên cứu: Thuật toán Back-door cải tiến cho phân loại văn bản

 Phạm vi nghiên cứu: Bài toán phân loại văn bản có sự xuất hiện của biến nhiễu

5 Phương pháp nghiên cứu

Phương pháp nghiên cứu là nghiên cứu lý thuyết kết hợp với thực nghiệm và phân tích, đánh giá kết quả

Nội dung chính của luận văn gồm 3 chương như sau:

Chương 1 – BÀI TOÁN PHÂN LOẠI VĂN BẢN: Giới thiệu bài toán

phân loại văn bản nói chung và trình bày một số mô hình phân loại văn bản được sử dụng phổ biến hiện nay

Chương 2 – THUẬT TOÁN BACK-DOOR CẢI TIẾN CHO PHÂN LOẠI VĂN BẢN CÓ SỰ XUẤT HIỆN CỦA BIẾN NHIỄU: Trình bày và

chứng minh thuật toán Back-door cải tiến trong phân loại văn bản

Trang 11

Chương 3 – THỬ NGHIỆM VÀ ĐÁNH GIÁ: Áp dụng thuật toán

Back-door cải tiến trong phân loại trên tập dữ liệu thực tế, tiến hành so sánh kết quả với một số mô hình khác và rút ra kết luận

Trang 12

Chương 1 - BÀI TOÁN PHÂN LOẠI VĂN BẢN

Chương này trình bày khái quát về bài toán phân loại văn bản, các bước giải quyết bài toán phân loại văn bản và giới thiệu ra một số mô hình phân loại văn bản phổ biến hiện nay

1.1 Bài toán phân loại văn bản

1.1.1 Phát biểu bài toán

Phân loại văn bản (Text classification) là quá trình gán nhãn (tên lớp/nhãn lớp) các văn bản ngôn ngữ tự nhiên một cách tự động vào một hoặc nhiều lớp cho trước

Hình 1.1 Bài toán phân loại văn bản[1]

Bài toán phân loại văn bản có thể được phát biểu như sau: Cho trước một tập văn bản D={d1,d2,…,dn} và tập chủ đề được định nghĩa C={c1,c2,…,cn}

Nhiệm vụ của bài toán là gán lớp di thuộc về cj cho trước Hay nói cách khác, mục tiêu của bài toán là đi tìm hàm f sao cho:

f =DxC Boolean

f d c ( , )  true false

f(d,c)=true nếu d thuộc về lớp c

f(d,c)=false nếu d không thuộc về lớp c

1.1.2 Mô hình tổng quát

Dữ liệu vào

Thuật toán phân loại

Lớp 1 Lớp 2

Lớp n

……

Trang 13

Phân loại văn bản được các nhà nghiên cứu định nghĩa thống nhất là việc gán tên các chủ đề (tên lớp / nhãn lớp) đã được xác định trước cho các văn bản dựa trên nội dung của nó Phân loại văn bản là công việc được sử dụng để hỗ trợ trong quá trình tìm kiếm thông tin (Information Retrieval), trích xuất thông tin (Information Extraction), lọc văn bản hoặc tự động đưa các văn bản vào những chủ đề xác định trước

Có nhiều hướng tiếp cận giải quyết bài toán phân loại văn bản đã được nghiên cứu như: tiếp cận dựa trên lý thuyết đồ thị, cách tiếp cận sử dụng lý thuyết tập thô, tiếp cận dựa trên thống kê… Tuy nhiên, tất cả các hướng tiếp cận trên đều dựa vào phương pháp chung là học máy Học máy gồm học có giám sát, học không giám sát và học tăng cường

Hình 1.2 Sơ đồ khung một hệ thống phân loại văn bản[1]

Vấn đề phân loại văn bản theo phương pháp thống kê dựa trên kiểu học có giám sát được đặc tả bao gồm 2 giai đoạn: giai đoạn huấn luyện và giai đoạn phân loại Tập dữ liệu được chia ra làm hai tập là tập huấn luyện và tập kiểm tra Trước hết trong giai đoạn huấn luyện, phải xây dựng mô hình thông qua các mẫu học bằng tập huấn luyện, sau đó đánh giá mô hình bằng tập dữ liệu kiểm tra trong giai đoạn phân loại

Biểu diễn ban đầu

Giảm số chiều hoặc lựa chọn thuộc tính

Biểu diễn cuối cùng

Trang 14

Hình 1.2 biểu diễn sơ đồ khung một hệ thống phân loại văn bản, trong đó bao gồm ba thành phần chính:

- Biểu diễn văn bản, tức là chuyển các dữ liệu văn bản thành một dạng có cấu trúc nào đó, tập hợp các mẫu cho trước thành một tập huấn luyện

- Sử dụng các kỹ thuật học máy để học trên các mẫu huấn luyện vừa biểu diễn Như vậy việc biểu diễn ở giai đoạn thứ nhất sẽ là đầu vào cho giai đoạn thứ hai

- Thực hiện bổ sung các kiến thức thêm vào do người dùng cung cấp để làm tăng độ chính xác trong biểu diễn văn bản hay trong quá trình học máy Trong nhiều trường hợp, các phương pháp học sử dụng hệ thống phân loại có thể bỏ qua thành phần này

1.1.3 Tiền xử lý văn bản

Văn bản trước khi được vector hoá, tức là trước khi sử dụng, cần phải qua quá trình tiền xử lý Quá trình tiền xử lý sẽ giúp nâng cao hiệu suất phân loại và giảm độ phức tạp của thuật toán huấn luyện

Tuỳ vào mục đích bộ phân loại mà chúng ta sẽ có những phương pháp tiền

xử lý văn bản khác nhau, như:

- Chuyển văn bản về chữ thường

- Loại bỏ dấu câu (nếu không thực hiện tách câu)

- Loại bỏ các kí tự đặc biệt ([ ],[.], [,], [:], [“], [”], [;], [/], [[]], [~], [`], [!],[@], [#], [$],[%],[^],[&],[*],[(],[)]), các chữ số, phép tính toán số học

- Loại bỏ các stopword (những từ xuất hiện hầu hết trong các văn bản) không có ý nghĩa khi tham gia vào phân loại văn bản

Trang 15

1.1.4 Phương pháp biểu diễn văn bản

Một trong những nhiệm vụ đầu tiên trong phân loại văn bản là chọn được một mô hình biểu diễn văn bản thích hợp Một văn bản ở dạng thô (dạng chuỗi) cần được chuyển sang một mô hình khác để tạo thuận lợi cho việc biểu diễn và tính toán Tuỳ thuộc vào từng thuật toán phân loại khác nhau mà chúng ta có mô hình biểu diễn riêng

Một tài liệu được biểu diễn dưới dạng một tập hợp các từ, mỗi từ được xem

là một thuộc tính hoặc đặc trưng và văn bản tương ứng với một vector đặc trưng Đôi khi, thay vì những từ đơn, các đặc trưng có thể được biểu diễn bằng các cụm

từ hoặc chuỗi n từ với n >= 2 Dễ nhận thấy, các đặc trưng phức tạp thì có thể giàu thông tin hơn Ví dụ, cụm từ “world wide web” mang nhiều thông tin hơn từng từ riêng biệt Tuy nhiên, trong thực hành, sử dụng n-grams dẫn tới việc có quá nhiều đặc trưng và có thể làm việc giải quyết bài toán khó khăn hơn Theo các nghiên cứu khác nhau về phương pháp biểu diễn văn bản, đặc biệt là khi so sánh ảnh hưởng và hiệu quả của chúng thì không có phương pháp biểu diễn văn bản nào tốt hơn phương pháp biểu diễn bằng tập các từ riêng biệt được lấy ra từ văn bản gốc

Sau khi xác định được các đặc trưng, chúng ta cần tính giá trị đặc trưng (hoặc trọng số từ khóa) cho mỗi văn bản Mỗi từ khóa ti trong một tài liệu Dj được gán một trọng số wij và do đó, mỗi tài liệu được biểu diễn như một vector Trọng

số từ khóa có thể được tính toán bằng nhiều cách khác nhau Cách đơn giản nhất là gán trọng số bằng một giá trị nhị phân chỉ ra từ khóa có mặt hay không có mặt trong văn bản, tức là giá trị trọng số wij là 1 nếu từ khóa ti xuất hiện ít nhất một lần trong tập tài liệu Dj và wij là 0 trong trường hợp ngược lại – Đây là mô hình Boolean

Phương pháp khác là tính số lần xuất hiện của từ khóa trong một tài liệu gọi

là tần suất từ khóa Tần suất từ khóa được tính theo công thức (1.1)

Trang 16

( , )( ,k j) occ t D k j

Phương pháp này có vẻ rất trực quan nhưng mặt hạn chế của phương pháp này là: nếu một từ xuất hiện nhiều lần trong tài liệu sẽ có tần suất cao Tuy nhiên nếu những từ này đều xuất hiện trong tất cả các văn bản thì nó sẽ không mang nhiều thông tin ngữ nghĩa của văn bản và do đó độ quan trọng của nó giảm đi

Ví dụ, khi văn bản xuất hiện nhiều từ khóa “máy tính”, điều đó có nghĩa là văn bản đang xét chủ yếu liên quan đến lĩnh vực “Tin học” Nhưng suy luận trên không phải lúc nào cũng đúng Một ví dụ điển hình là từ “chúng tôi” xuất hiện nhiều lần trong văn bản, nhưng trên thực tế từ này lại không mang nhiều ý nghĩa như tần suất xuất hiện của nó

Thông thường tần suất của các từ khóa trong văn bản không đồng đều nhau Một số từ khóa xuất hiện rất thường xuyên, trong khi đó, một số từ khóa chỉ xuất hiện một lần Để giải quyết hạn chế này, Phương pháp dựa trên nghịch đảo tần suất văn bản (IDF – Inverse Document Frequency) với tần suất logarit (tương tự với tần suất từ khóa) được đề xuất và được tính theo công thức:

Trong đó, m là số lượng văn bản và dfi là số lượng văn bản trong hệ thống

có chứa từ khóa ti Trọng số wij trong công thức này được tính dựa trên độ quan

Trang 17

trọng của từ khóa ti trong văn bản dj Nếu ti xuất hiện trong càng ít văn bản, điều

đó có nghĩa khi nó xuất hiện trong văn bản dj thì trọng số của nó đối với văn bản djcàng lớn hay nó là điểm quan trọng để phân biệt văn bản dj với các văn bản khác

và hàm lượng thông tin trong nó càng lớn

Phương pháp dựa trên nghịch đảo tần suất văn bản IDF được sử dụng phổ biến hơn phương pháp dựa trên tần suất IF, nhưng phương pháp này vẫn chưa giải quyết triệt để hạn chế của phương pháp tần suất từ khóa Theo đó, một từ xuất hiện nhiều lần có tần suất cao, từ xuất hiện ít có tần suất thấp

Phương pháp chuẩn thường được sử dụng là Term Frequency Inverse Document Frequency (TFIDF)[17], với hàm tính trọng số từ khóa được xác định bởi công thức:

l d l d

l

m TFIDF freq

- Tần suất văn bản dfl là sốvăn bản trong tập tài liệu có chứa từ khóa l

- m là tổng số tài liệu huấn luyện

Trọng số TFIDF của một từ khóa biểu diễn độ quan trọng của từ khóa TFIDF của một từ khóa trong một tài liệu sẽ giảm nếu như từ đó xuất hiện trong hầu hết các văn bản Vì vậy, một từ xuất hiện quá ít hoặc quá nhiều được đánh giá

ít quan trọng hơn so với các từ xuất hiện cân bằng

Trọng số TFIDF của một từ khóa trong toàn bộ tập tài liệu m được tính bởi công thức:

, ,

l d

TFIDF TFIDF TFIDFR (1.5)

Trang 18

1.1.5 Đánh giá bộ phân loại văn bản

Các độ đo thường dùng cho bài toán phân loại văn bản bao gồm Ma trận nhầm lẫn (Confusion Matrix), và độ chính xác (Precision/Accuracy) và độ bao phủ (Recall)

a) Ma trận nhầm lẫn (Confusion Matrix)

Ma trận nhầm lẫn, như cho trên Bảng 1.1, hay còn được gọi là Bảng dữ liệu thống kê (Contingency Table) và chỉ được sử dụng đối với bài toán phân loại Ý nghĩa của các ký hiệu trong ma trận nhầm lẫn:

 TPi: Số lượng các ví dụ thuộc lớp ci được phân loại chính xác vào lớp ci

 FPi: Số lượng các ví dụ không thuộc lớp ci bị phân loại nhầm vào lớp ci

 TNi: Số lượng các ví dụ không thuộc lớp ci được phân loại (chính xác)

 FNi: Số lượng các ví dụ thuộc lớp ci bị phân loại nhầm (vào các lớp khác ci)

Trang 19

b) Precision và Recall Hai độ đo này thường xuyên được sử dụng để đánh giá các hệ thống phân loại văn bản

- Precision đối với lớp ci: Tổng các ví dụ thuộc lớp ci được phân loại chính xác chia cho tổng số các ví dụ được phân loại vào lớp ci

- F1 là một trung bình điều hịa (harmonic mean) của các tiêu chí Precision và Recall

o F1 cĩ xu hướng lấy giá trị gần với giá trị nào nhỏ hơn giữa 2 giá trị Precision

và Recall

o F1 cĩ giá trị lớn nếu cả 2 giá trị Precision và Recall đều lớn

1.2 Một số mơ hình phân loại văn bản

Phân loại văn bản là quá trình gán nhãn các văn bản ngơn ngữ tự nhiên vào mơt hoặc nhiều lớp từ tập các lớp hữu hạn cho trước Hiện nay tồn tại nhiều thuật tốn phân loại văn bản như: thuật tốn Nạve Bayes, thuật tốn Support Vector Machine, thuật tốn Logistic Regression, Phần tiếp theo của mục này trình bày chi tiết về các thuật tốn này

Trang 20

1.2.1 Mơ hình Nạve Bayes

Nạve Bayes[6] là phương pháp phân loại dựa vào xác suất, được sử dụng rộng rãi trong lĩnh vực học máy và nhiều lĩnh vực khác như trong các cơng cụ tìm kiếm, các bộ lọc thư điện tử, …

Ý tưởng cơ bản của cách tiếp cận này là sử dụng xác suất cĩ điều kiện giữa

từ hoặc cụm từ và chủ đề để dự đốn xác suất chủ đề của một văn bản cần phân loại Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau Như thế Nạve Bayes khơng tận dụng được sự phụ thuộc của nhiều từ vào một chủ đề cụ thể Chính giả định đĩ làm cho việc tính tốn Nạve Bayes hiệu qủa và nhanh chĩng hơn các phương pháp khác với độ phức tạp theo số mũ vì nĩ khơng sử dụng cách kết hợp các từ để đưa ra phán đốn chủ đề

Mục đích chính là làm sao tính được xác suất Pr(Cj, d’), xác suất để văn bản d’ nằm trong lớp Cj Theo luật Bayes, văn bản d’ sẽ được gán vào lớp Cj nào

 wi là một từ trong khơng gian đặc trưng F với số chiều là |F|

 Pr(Cj) được tính dựa trên tỷ lệ phần trăm của số văn bản mỗi lớp tương ứng:

Trang 21

TF c C

1.2.2 Mô hình Support Vector Machine

Thuật toán máy vector hỗ trợ (Support Vector Machines - SVM) được Corters và Vapnik giới thiệu vào năm 1995[3] SVM được đánh giá rất hiệu quả

để giải quyết các bài toán với dữ liệu có số chiều lớn như các vector biểu diễn văn bản Thuật toán SVM ban đầu chỉ được thiết kế để giải quyết bài toán phân loại nhị phân tức là số lớp hạn chế là hai lớp Hiện nay, SVM được đánh giá là bộ phân loại chính xác nhất cho bài toán phân loại văn bản [16], bởi vì đó là bộ phân loại tốc độ rất nhanh và hiệu quả đối với bài toán phân loại văn bản

Cho tập dữ liệu học D {( ,x y i i),i 1 }n với m

i

x R và y i  { 1,1} là một số nguyên xác định xi là dữ liệu dương hay âm Một tài liệu xi được gọi là dữ liệu dương nếu nó thuộc lớp ci; xi được gọi là dữ liệu âm nếu nó không thuộc lớp ci Bộ phân loại tuyến tính được xác định bằng siêu phẳng:

Trang 22

Bộ phân loại của mô hình học bao gồm việc xác định w và w0 từ dữ liệu Với thuật toán này, mỗi dữ liệu được xem là một điểm trong mặt phẳng Dữ liệu học là tách rời tuyến tính (linearly separable) nếu tồn tại một siêu phẳng sao cho hàm phân loại phù hợp với tất cả các nhãn; tức là y f x i ( )i 0 với mọi i = 1, ,n Với giả thiết này, Rosenblatt[12] đã đưa ra một thuật toán đơn giản để xác định siêu phẳng, như biểu diễn trên Hình 1.3:

Hình 1.3 Thuật toán xác định siêu phẳng[2]

Điều kiện cần để D tách rời tuyến tính là số dữ liệu học n = |D| ≤ m+1 Điều này thường đúng với bài toán phân loại văn bản, bởi vì số lượng từ mục có thể lên tới hàng nghìn và lớn hơn nhiều lần so với số lượng dữ liệu học

Trang 23

Hình 1.4 Mối quan hệ giữa các siêu phẳng phân cách[2]

Trong Hình 1.4, giả sử rằng các dữ liệu mẫu thuộc lớp âm và lớp dương đều tuân theo luật phân bố chuẩn Gaussian, và được tạo ra với cùng một xác suất Khi

đó một siêu phẳng phân cách được gọi là lý tưởng nếu nó làm cực tiểu xác suất phân loại sai cho một điểm dữ liệu mới Với giả thiết ở trên thì siêu phẳng phân cách lý tưởng sẽ trực giao với đoạn thẳng nối tâm của hai vùng có mật độ xác suất lớn nhất

Rõ ràng các siêu phẳng mà chúng ta xây dựng nhằm phân cách các điểm dữ liệu mẫu có thể lệch đi rất nhiều so với siêu phẳng lý tưởng, do đó sẽ dẫn tới việc phân loại không tốt trên dữ liệu mới sau này Độ phức tạp của quá trình xác định siêu phẳng lý tưởng sẽ tăng theo số chiều của không gian đầu vào m,vì với một số lượng các dữ liệu mẫu cố định, tập hợp các siêu phẳng thực tế sẽ tăng theo hàm

Trang 24

mũ với lũy thừa m Với bài toán phân loại trang văn bản, m thường rất lớn, khoảng vài ngàn hay thậm chí là hàng triệu từ

Hình 1.5 Siêu phẳng tối ưu và biên[2]

Theo lý thuyết thống kê được phát triển bởi Vapnik[19] năm 1998 chỉ ra rằng: chúng ta có thể xác định một siêu phẳng tối ưu thoả mãn hai tính chất quan trong : nó là duy nhất với mỗi tập dữ liệu học tách rời tuyến tính; và khả năng overfitting (độ sai sót trên tập huấn luyện nhỏ, trên tập thử nghiệm lớn) là nhỏ hơn

so với các siêu phẳng khác [16] Định nghĩa biên M của bộ phân loại là khoảng cách giữa các siêu phẳng và các dữ liệu học gần nhất Siêu phẳng tối ưu nhất là siêu phẳng có biên lớn nhất, điều đó có nghĩa là chúng ta cần tìm siêu phẳng sao cho khoảng cách từ siêu phẳng đến những điểm gần nhất là lớn nhất (Hình 1.5)

Trang 25

Vapnik[19] cũng chứng minh rằng khả năng overfitting với siêu phẳng tối ưu nhỏ

hơn so với các siêu phẳng khác

Khoảng cách từ một điểm x đến siêu phẳng là:

0

1 (w w ) w

Trong đó ràng buộc yêu cầu mỗi tài liệu học (tương đương với các điểm)

phải nằm trên nửa mặt phẳng của nó và khoảng cách từ điểm tới siêu phẳng lớn

2

0 1

n T

i i

   



   thoản mãn i  0,i 1, ,n

(1.22)

Định dạng
Số trang	50
Dung lượng	1,09 MB