1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân loại văn bản sử dụng mô hình xác suất trên đa tạp văn bản

67 16 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 67
Dung lượng 558,07 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Giới thiệu phân loại dữ liệu, mô hình bài toán phân loại. Nêu cách phân loại đơn nhãn và phân loại đa nhãn. Ước lượng tham số với SSvMFs và SSWatsons. Giới thiệu phân loại dữ liệu, mô hình bài toán phân loại. Nêu cách phân loại đơn nhãn và phân loại đa nhãn. Ước lượng tham số với SSvMFs và SSWatsons.

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI

-

NGÔ VĂN LINH

PHÂN LOẠI VĂN BẢN SỬ DỤNG MÔ HÌNH XÁC SUẤT

TRÊN ĐA TẠP VĂN BẢN

Chuyên ngành : Công Nghệ Thông Tin

LUẬN VĂN THẠC SĨ KHOA HỌC CHUYÊN NGÀNH: CÔNG NGHỆ THÔNG TIN

NGƯỜI HƯỚNG DẪN KHOA HỌC :

PGS.TS Nguyễn Thị Kim Anh

Hà Nội – Năm 2013

Trang 2

LỜI CAM ĐOANTôi - Ngô Văn Linh - xin cam kết Luận văn tốt nghiệp là công trình nghiên cứucủa bản thân tôi dưới sự hướng dẫn của PGS.TS Nguyễn Thị Kim Anh, ViệnCNTT-TT, trường Đại học Bách khoa Hà Nội.

Các kết quả nêu trong Luận văn tốt nghiệp là trung thực, không sao chéptoàn văn của bất kỳ công trình nào khác

Hà Nội, ngày 2 tháng 8 năm 2013Học viên thực hiện luận văn

Ngô Văn Linh

Trang 3

Lời cảm ơnĐầu tiên, em xin được gửi lời cảm ơn chân thành đến các thầy giáo, cô giáothuộc trường đại học Bách Khoa Hà Nội Đặc biệt là các thầy giáo, cô giáothuộc Viện Công nghệ Thông tin và Truyền Thông Chính các thầy cô giáo đãtrang bị cho em những kiến thức quý báu trong thời gian em học tập và nghiêncứu tại trường Đồng thời em cũng xin được gửi lời cảm ơn đặc biệt đến PGS.TSNguyễn Kim Anh Cô là người đã chỉ dẫn tận tình, cho em những kinh nghiệmquý báu để em có thể hoàn thành luận văn tốt nghiệp này Cô luôn động viên,giúp đỡ em trong những thời điểm khó khăn bế tắc nhất.

Em xin gửi làm cảm ơn chân thành tới các thầy cô thuộc bộ môn Hệ thốngthông tin đã hướng dẫn, chia sẽ kinh nghiệm, thảo luận giúp cho luận văn đượchoàn thành

Em cũng xin gửi lời cảm ơn tới các bạn Nguyễn Thế Tâm, Nguyễn Khắc Tới,

Lê Hồng Kỳ và các bạn KSTN CNTT K55, K57 đã giúp đỡ, đọc và góp ý emtrong quá trình hoàn thành nội dung luận văn

Em xin gửi lời cảm ơn tới gia đình và bạn bè Lời động viên tinh thần từ giađình và bạn bè luôn là động lực để em tiến lên phía trước

Trang 4

Tóm tắt nội dungPhân loại các tài liệu là một trong những kĩ thuật thiết yếu đốivới vấn đề thu thập và khai phá thông tin văn bản Trong thế giớithực, dữ liệu chưa được gán nhãn là thực sự sẵn có nhưng việc gánnhãn cho chúng thường là công việc đòi hỏi mất thời gian, tốn kém.Luận văn đề xuất hai phương pháp phân loại văn bản mới dựa trênphương pháp học bán giám sát với mô hình trộn của phân phối vMF

và phân phối Watson trên cấu trúc hình học các văn bản, được gọi làLapSSvMFs và LapSSWatsons, đây là những thuật toán xét đến cấutrúc hình học của không gian tài liệu để khai thác cả dữ liệu có nhãn

và dữ liệu không có nhãn cho bài toán phân loại Đóng góp chính củaluận văn là:

1 Luận văn đề xuất phương pháp học bán giám sát với mô hình trộncủa phân phối vMF (SSvMFs) và phân phối Watson (SSWatsons)

để khai thác cả dữ liệu có nhãn và dữ liệu không nhãn cho bàitoán phân loại Luận văn đã phát triển thuật toán suy diễn biếnphân cho xác suất hậu nghiệm của các biến ẩn

2 Luận văn đề xuất 2 phương pháp chuẩn tắc học SSvMFs vàSSWatsons với cấu trúc hình học văn bản có mã hóa thông tin

về cấu trúc hình học trong phương pháp suy diễn Bayesian

Thử nghiệm chỉ ra rằng các phương pháp đề xuất thu được kết quảtốt hơn các phương pháp khác trong phân loại dữ liệu đơn và đa nhãn

Trang 5

AbstractDocument classifications is essential to information retrieval andtext mining In real life, unlabeled data is readily available whereaslabeled ones are often laborious, expensive and slow to obtain Thisthesis proposes two novel document classification algorithms approachbased on semi-supervised vMF mixture model and Watson mixturemodel on document manifold, called Laplacian regularized Semi-Supe-rvised vMF Mixture Model (LapSSvMFs) and Watson Mixture Model(LapSSWatsons), which explicitly considers the manifold structure ofdocument space to exploit efficiently both labeled and unlabeled datafor classification Main contributions in this thesis are as follows:

1 Thesis proposes Semi-Supervised vMF Mixture Model and son Mixture Model to exploit both labeled and unlabeled datafor document classification Thesis has developed a mean-fieldvariational inference algorithm for the posterior distribution ofthe latent variables

Wat-2 Thesis proposes two new regularization frameworks to learn MFs and SSWatsons with document manifold structure for en-coding manifold information into variational Bayesian method

SSv-The experimental results show that proposed methods outperform thestate-of-the-art methods applying to labeled and multilabeled textclassifications

Trang 6

Mục lục

1.1 Phân loại dữ liệu 10

1.2 Mô hình bài toán phân loại 12

1.2.1 Biểu diễn mẫu 12

1.2.2 Phân loại 15

1.2.3 Đánh giá 16

1.3 Tổ chức luận văn 16

2 PHÂN LOẠI ĐƠN NHÃN 18 2.1 Bài toán phân loại đơn nhãn 18

2.2 Phân phối von Mises Fisher (vMF) 21

2.3 Mô hình phân loại bán giám sát dựa trên mô hình trộn các phân phối vMF (SSvMFs) 22

2.4 Mô hình phân loại bán giám sát dựa trên mô hình trộn các phân phối vMFs trên đa tạp văn bản (LapSSvMFs) 27

2.5 Thử nghiệm và đánh giá 31

2.5.1 Tập dữ liệu thí nghiệm (Datasets) 31

2.5.2 Độ đo đánh giá 31

2.5.3 Các thuật toán sử dụng để so sánh (baselines) 32

2.5.4 Kết quả thí nghiệm 34

3 PHÂN LOẠI ĐA NHÃN 35 3.1 Bài toán phân loại đa nhãn 35

3.2 Phân phối Watson 37

3.3 Mô hình phân loại bán giám sát cho dữ liệu đa nhãn sử dụng mô hình trộn các phân phối Watson (SSWatsons) 38

Trang 7

3.4 Mô hình phân loại bán giám sát cho dữ liệu đa nhãn sử dụng mô hình trộn các phân phối Watson trên đa tạp văn bản

(LapSSWat-sons) 42

3.5 Thử nghiệm và đánh giá 45

3.5.1 Tập dữ liệu thí nghiệm 45

3.5.2 Độ đo đánh giá 45

3.5.3 Các thuật toán so sánh 48

3.5.4 Kết quả thí nghiệm 49

Trang 8

Danh sách các từ viết tắt và thuật ngữ

Trang 9

SSWatsons, LapSSvMFs, SSvMFs và LP trên 4 datasets:

Trang 10

Danh sách bảng

lượng nhãn, số lượng chiều (từ điển), tổng số lượng tài liệu trongtập dữ liệu sau khi tiền xử lý và “MaxNPI”/“MinNPI” định nghĩa

là số lượng maximum/minimum các văn bản thuộc các nhãn lớp

Trang 11

1 GIỚI THIỆU

1.1 Phân loại dữ liệu

Một số khái niệm cơ bản

thuật toán phân loại Mẫu thường được biểu diễn dưới dạng một vector

vector dựa trên các mô hình lựa chọn đặc trưng và xác định trọng số Cụthể hơn trong bài toán phân loại văn bản thì mẫu ở đây chính là các vănbản

tập mẫu) là tập dữ liệu có thông tin về nhãn

là kích thước tập mẫu) là tập dữ liệu không có nhãn

là các nhãn sẽ được gán cho các mẫu để xác định các lớp mà mẫu thuộc

Trang 12

(labeled data) và tập các mẫu không có thông tin về nhãn lớp/giá trị đầu ramong muốn (unlabeled data) Mục đích của bài toán học có giám sát là họcđược bộ gán nhãn (vd: một phân lớp, một hàm mục tiêu ) phù hợp tập dữ liệu

có nhãn (labeled data) và gán nhãn cho dữ liệu chưa có nhãn (unlabeled data).Trong bài toán học có giám sát, nhãn lớp ở đây có thể là giá trị liên tục(continous-value) hoặc giá trị rời rạc (discrete-value) Bài toán học một hàmmục tiêu có giá trị liên tục được gọi là bài toán hồi quy (regression), bài toánhọc hàm mục tiêu rời rạc được gọi là bài toán phân loại (classification) Luậnvăn tập trung vào bài toán học hàm phân loại

Học không giám sát (unsupervised-learning) và bài toán phân cụm (clustering)

Bài toán học không giám sát là bài toán tìm trong tập dữ liệu (không có thôngtin nhãn) những đặc điểm như: nhóm, cấu trúc, mối quan hệ giữa các dữ liệu.Trong đó, bài toán phân cụm là một bài toán phổ biến của học không giám sát.Yêu cầu được đặt ra là tìm cách phân cụm tập dữ liệu mà mỗi dữ liệu thuộctrong nhóm (cụm) thường giống nhau (có quan hệ với nhau) và khác với dữ liệuthuộc nhóm khác

Học bán giám sát (semi-supervised learning)

Khi tập dữ liệu có nhãn ít và khó thu thập, mà học có giám sát chỉ học ra bộphân loại trên tập có nhãn, tập dữ liệu có nhãn không đủ đặc trưng cho mỗinhãn, nên kết quả phân loại thường không thu được kết quả cao Khi đó, phươngpháp học bán giám sát là phương pháp khai thác cả dữ liệu có nhãn và dữ liệukhông nhãn thường được sử dụng thay thế, thu được kết quả tốt trên tập dữliệu có nhãn ít

Trang 13

Hình 1: Các bước của bài toán phân loại

1.2 Mô hình bài toán phân loại

Bài toán phân loại dữ liệu thường có các bước như sau:

1 Biểu diễn mẫu (pattern representation), có thể bao gồm cả lựa chọn đặctrưng (feature selection)

2 Phân loại

3 Đánh giá kết quả đầu ra

Hình 1 mô tả mô các bước của bài toán phân loại dữ liệu

1.2.1 Biểu diễn mẫu

Biểu diễn mẫu: là biểu diễn tập các mẫu theo tập các đặc trưng quan trọng củamẫu để phục vụ cho mục đích tăng hiệu quả tính toán và độ chính xác Lựachọn đặc trưng (feature selection) là quá trình tìm tập đặc trưng biểu diễn tốtnhất từ tập đặc trưng ban đầu để biểu diễn mẫu cho quá trình phân loại Sau

Trang 14

đó trên mỗi mẫu, các đặc trưng được tính các trọng số tương ứng dựa trên các

mô hình Ví dụ với văn bản có 2 cách xác định trọng số thường gặp là dựa trêntúi từ (dựa trên tần suất xuất hiện của từ) hoặc tf-idf

Phương pháp lựa chọn đặc trưng không giám sát

Tần suất tài liệu

lựa chọn đặc trưng đơn giản nhất và có độ phức tạp tính toán thấp, tuyến tínhvới kích thước cơ sở dữ liệu Tuy nhiên phương pháp này có điểm yếu là có xuhướng giữ lại những từ xuất hiện nhiều trong các văn bản Trong đó những từnhư stopword và những từ dùng để liên kết câu là những từ không mang thôngtin mà xuất hiện gần như trong hầu hết các tài liệu Do đó phương pháp nàychỉ hiệu quả khi ta loại bỏ hết stopword và sử dụng một ngưỡng tần số để loại

bỏ những từ xuất hiện quá nhiều trong các văn bản

Mức độ đóng góp của từ

Kết quả của phân cụm phụ thuộc nhiều vào độ đo tương tự giữa các tài liệu

tự giữa hai tài liệu Đóng góp của từ vào độ tương tự của các tài liệu trong cơ

sở dữ liệu được tính như sau:

i,j,i#j

Trang 15

Dựa trên xác suất các từ thuộc chủ đề

Ý tưởng của mô hình hóa chủ đề là tạo ra một mô hình sinh xác suất abilistic generative model) như PLSI [10], LDA [5], FSTM [20] cho các tài liệutrong tập dữ liệu Các giả định của các phương pháp mô hình hóa chủ đề nhưsau:

liệu có thể có một xác suất thuộc nhiều chủ đề Điều đó cho biết một tài liệu

có thể chứa trong nó nhiều chủ đề khác nhau Một chủ đề về cơ bản được coi là

của một tài liệu vào một cụm là 0 (không thuộc) hoặc 1(thuộc) Phương phápxác suất cho ta một cái nhìn thực tế hơn, đó là một tài liệu có thể thuộc nhiều

ước lượng sử dụng phương pháp mô hình hóa chủ đề

Mỗi chủ đề có một vector xác suất, xác định xác suất của các từ biểu diễn

mô hình hóa chủ đề và dựa trên tham số này từ sẽ được lựa chọn

Các mô hình PLSI, LDA, FSTM chỉ ra các phương pháp khác nhau để họccác xác suất này

Phương pháp lựa chọn đặc trưng có giám sát

Sự có mặt của thông tin nhãn là rất quan trọng, các phương pháp lựa chọnđặc trưng có giám sát khai thác thông tin về nhãn sẽ hiệu quả hơn nhiều cácphương pháp không giám sát Ở đây luận văn giới thiệu 2 phương pháp lựa chọnđặc trưng có giám sát đó là chỉ số Gini và phương pháp dựa trên mô hình sinh.Gini

Chỉ số Gini [19] đo mức độ phân bố không đồng nhất của một đặc trưng đối

Trang 16

liệu chứa từ t trong lớp li trên tổng số tài liệu chứa từ t trong toàn bộ tập dữliệu Ta có

phối càng đều trong các lớp, và những từ phân phối đều như vậy sẽ không có ýnghĩa khi phân tích dữ liệu

Các phương pháp giảm chiều dựa trên mô hình sinh

Trong [21] đưa ra phương pháp giảm chiều giống như PLSI, LDA, FSTMnhưng sử dụng thêm thông tin nhãn và cho kết quả là đáng kể Tư tưởng của[21] là khai thác thông tin chủ đề nổi bật từ tập dữ liệu có nhãn để làm mạnhchủ đề đó lên trong quá trình học với toàn bộ dữ liệu Đồng thời, [21] khai thácthông tin về hình học liên hệ giữa các điểm dữ liệu, từ đó kết quả thu được tốthơn các phương pháp gốc

Trang 17

hình sinh thường đưa ra những hiểu biết chi tiết hơn Ví dụ mô hình sinh có thểđưa ra được xác suất mỗi tài liệu thuộc vào các nhãn, hoặc có thể mô tả đượcđặc trưng của từng nhãn Dưới đây là một số thuật toán phân loại thường được

sử dụng cho phân loại văn bản

Trong phân loại văn bản, thuật toán phân loại có giám sát SVM [22] là mộttrong những thuật toán tốt nhất cho văn bản Thuật toán SVM phù hợp vớinhững mô hình dữ liệu có số chiều cao và có nhiễu Ban đầu thuật toán SVMchỉ sử dụng cho phân loại đơn nhãn, sau đó được cải tiến sử dụng cho phân loại

đa nhãn [17]

Thuật toán lan truyền nhãn [12] là một thuật toán bán giám sát, tư tưởng củathuật toán lan truyền nhãn là giả thiết rằng dữ liệu có nhãn và dữ liệu khôngnhãn được liên kết trên một đồ thị (một cấu trúc hình học), trong đó mỗi cạnhbiểu diễn như là độ tương đồng giữa các dữ liệu Với giả thiết các điểm dữ liệu

có trọng số của cạnh càng lớn (hay càng tương đồng) thì xác suất gán nhãncho chúng càng giống nhau Khi đó thông tin nhãn từ các điểm có nhãn sẽ lantruyền theo cạnh sang điểm chưa có nhãn Sau nhiều lần lặp thì nhãn sẽ lantruyền đến tất cả các điểm, đồng thời xác suất gán nhãn sẽ hội tụ

Khi sử dụng các thuật toán phân loại, có thể thuật toán đó yêu cầu phải khởitạo các tham số truyền vào, ví dụ như số lượng chủ đề, số lượng cụm, Tham

số này tùy người dùng thay đổi Tuy nhiên, để chọn được bộ tham số tốt, người

ta thường điều chỉnh tham số sao cho tối ưu trên tập kiểm thử (validation set)

Trang 18

• Phần 1: Giới thiệu

Trang 19

2 PHÂN LOẠI ĐƠN NHÃN

2.1 Bài toán phân loại đơn nhãn

Với sự phát triển nhanh chóng của Internet, tài liệu dạng văn bản (news ment) trở nên phong phú và xuất hiện ở khắp nơi Phân loại văn bản tự động làchức năng quan trọng trong khai phá dữ liệu văn bản và đang được quan tâmnhiều hơn trong ngày nay

docu-Thực tế, bài toán phân loại văn bản và trong rất nhiều bài toán ứng dụng củahọc máy, khai phá dữ liệu khác, dữ liệu chưa được gán nhãn (unlabeled data)nhiều và sẵn có Trong khi, việc gán nhãn thường nhọc nhằn, tốn kém và nhàmchán Điều đó là bởi vì gán nhãn dữ liệu thường yêu cầu sự cố gắng và độ chínhxác cao của chuyên gia Trong hoàn cảnh này, phương pháp học bán giám sát(semi-supervised learning) trở nên hiệu quả bằng cách sử dụng cả dữ liệu cónhãn và dữ liệu không nhãn để xây dựng bộ phân loại tốt hơn

Khi biểu diễn văn bản bằng mô hình túi từ (bag-of-words model) hoặc môhình tf-idf, tài liệu được biểu diễn dưới dạng vector có số chiều cao nhưng thưa

Đó là lý do vì sao phân cụm dựa trên mô hình trộn các phân phối vMF và phânphối Watson (các phân phối trên dữ liệu có hướng) có hiệu năng tốt hơn các môhình dựa trên các phân phối đa thức (multinomial distribution) và phân phốiBernoulli ( Multivariate Bernoulli model) [2, 23, 3] Lý do mà phân phối trên

dữ liệu có hướng cho kết quả tốt hơn là: thứ nhất, mô hình sử dụng phân phốivMF và phân phối Watson có thể đương đầu trực tiếp với bài toán có dữ liệuvector với số chiều cao và thưa Thứ hai, phân phối vMF tương tự như sử dụng

độ đo tương đồng cosin mà phù hợp với dữ liệu văn bản số chiều cao, còn phânphối chuẩn (Gaussian distribution)[24] dựa trên độ đo khoảng cách euclit.Các phương pháp học máy dựa trên xác suất và thống kê đã được nghiên cứu

từ rất lâu Tuy nhiên, trong khoảng thập niên gần đây các mô hình học thống kêmới nhận được sự quan tâm mạnh mẽ của nhiều nhà khoa học và có những bước

Trang 20

tiến đáng kể Trước đây, mô hình trộn (mixture models) đã được nghiên cứu và

áp dụng cho phân tích chỉ trên dữ liệu không có nhãn (unsupervised-learning).Gần đây, các mô hình học cho bài toán phân loại sử dụng cả dữ liệu có nhãn vàkhông nhãn (semi-supervised-learning) dựa trên mô hình trộn đã có nhiều kếtquả Mô hình trộn với phân phối đa thức (multinomial mixtures) được chứngminh tốt từ kết quả thử nghiệm của [16] so với phương pháp Naive Bayes [16]

đã kết hợp phương pháp phân loại Naive Bayes và mô hình trộn các phân phối

đa thức để khai thác cả thông tin của dữ liệu có nhãn và dữ liệu không nhãn.Trong đó, văn bản được biểu diễn dưới dạng túi từ, xác suất sinh ra các từ dựatrên phân phối đa thức Tư tưởng của phương pháp dựa trên tập có nhãn đểtính xác suất sinh ra các nhãn và xác suất mỗi từ trong từ điển thuộc các nhãn,sau đó sử dụng tập giá trị đó như giá trị khởi tạo cho mô hình trộn để học cho

dữ liệu không có nhãn Từ đó thông tin về xác suất sinh ra từ và tỉ lệ nhãn đượcđiều chỉnh Tuy nhiên, Cozmain [8] chỉ ra rằng trong phương pháp học bán giámsát sử dụng mô hình trộn (semi-supervised learning of mixture models) dữ liệukhông nhãn có thể làm cho không thích hợp với mô hình trộn, dẫn đến khả năng

dữ liệu không có nhãn làm giảm độ chính xác của phân loại, trong khi tăng dữliệu có nhãn có thể cải thiện bộ phân loại Xa hơn, việc chọn mô hình trộn vớicác phân phối thích hợp có thể ảnh hưởng đến hiệu năng của thuật toán phânloại Trong các ứng dụng của thu thập và khai phá thông tin đã chỉ ra rằng khibiểu diễn văn bản dưới dạng vector if-idf và sử dụng độ đo tương đồng cosin sẽđem lại hiệu quả cao trong các bài toán phân loại và phâm cụm [2]

Một phương pháp học máy bán giám sát không sử dụng mô hình trộn cũngthu được hiệu quả cao và đang được tham chiếu đến như một trong nhữngphương pháp tốt nhất trong phân loại, đó là phương pháp lan truyền nhãn(Label Propagation method) [1] Tuy nhiên, trong thuật toán lan truyền nhãnquá trình xây dựng đồ thị sẽ phụ thuộc vào cách biểu diễn dữ liệu, vào khônggian thuộc tính Do đó việc lựa chọn thuộc tính trở thành bài toán quan trọng

Trang 21

trong phương pháp lan truyền nhãn Hơn nữa, khi sử dụng thuật toán lan truyềnnhãn kích thước tập có nhãn cũng ảnh hưởng đến việc lựa chọn đặc trưng, khitập dữ liệu có nhãn nhỏ thì kết quả độ chính xác cũng không thực sự cao, nhưngtăng đáng kể khi tăng kích thước tập có nhãn Cuối cùng một vấn đề gặp phảivới thuật toán lan truyền nhãn đó là khi có một dữ liệu mới xuất hiện, thuậttoán muốn phân loại thì phải học lại từ đầu Nguyên nhân là do thuật toán phảixây dựng đồ thị và áp dụng lan truyền nhãn theo các cạnh.

Gần đây, trong các cách tiếp cận sử dụng mô hình trộn, các tác giả giảthiết thêm rằng các điểm dữ liệu phân bố trên một cấu trúc hình học đa tạp(manifold) Khi đó các tác giả kết hợp dữ liệu được sinh ra từ các mô hình trộn

và thêm những xác suất tiên nghiệm về dữ liệu (prior) dựa trên học những cấutrúc hình học của dữ liệu Đó có thể xem là cách các tác giả khai thác điểm mạnhcủa phương pháp lan truyền nhãn vào mô hình phân cụm Tác giả Cai đã đưa

ra những phương pháp phân cụm mới gọi là LapPLSI (Laplacian ProbabilisticLatent Semantic Indexing) [6] và LTM ( Locally-consistent Topic Model) [6, 7]khai thác những tính chất này LapPLSI và LTM khác nhau chỉ ở chỗ cách xâydựng cấu trúc hình học khác nhau, LapPLSI sử dụng độ đo cosin để xây dựng

đồ thị, còn LTM sử dụng độ đo KL (KL-divergence) để xây dựng đồ thị Thínghiệm cho thấy LapPLSI và LTM thu được những kết quả tốt hơn các phươngpháp xác định chủ đề ẩn trước đây như PLSA [10] and LDA [5], đồng thời ápdụng vào bài toán phân cụm cho kết quả cao Tuy nhiên, hai mô hình này xuấtphát từ mô hình PLSI, nên có những nhược điểm giống như PLSI đó là số lượngtham số của mô hình quá nhiều dẫn đến khả năng dễ bị overfitting [6] Xa hơn,những mô hình này sử dụng phân phối đa thức để sinh dữ liệu, hay sử dụng môhình túi từ để biểu diễn tài liệu mà không sử dụng mô hình tf-idf

Đến đây, luận văn đề xuất một phương pháp phân loại mới, được đặt tên

là LapSSvMFs (Laplacian regularized Semi-Supervised vMF Mixture Model),

mà phương pháp khai thác cả dữ liệu có nhãn và dữ liệu không nhãn

Trang 22

(semi-supervised learning) sử dụng mô hình trộn và cấu trúc hình học Phương phápLapSSvMFs sẽ khắc phục cả nhược điểm của phương pháp học bán giám sátdựa trên mô hình trộn và phương pháp lan truyền nhãn Chính vì thế, kết quảthử nghiệm chỉ ra, khi so với phương pháp sử dụng mô hình trộn thì thuật toánLapSSvMFs ổn định và kết quả tốt hơn Đồng thời so với lan truyền nhãn trêntập dữ liệu kích thước nhỏ thì kết quả của LapSSvMFs lớn hơn là đáng kể, mặtkhác với dữ liệu mới đến thuật toán LapSSvMFs có thể phân loại được mà khôngcần học lại từ đầu.

2.2 Phân phối von Mises Fisher (vMF)

Phân phối vMF phù hợp với việc biểu diễn dữ liệu có số chiều cao và thưa Trongthống kê có hướng (directional statistics), phân phối vMF là một phân phối trên

sinh ra từ phân phối von Mises-Fisher (vMF) nếu nó có hàm mật độ phân phối

Trang 23

vMF của x có kỳ vọng (expectation) là E(x) = ρµ, với:

I d

2.3 Mô hình phân loại bán giám sát dựa trên mô hình trộn

các phân phối vMF (SSvMFs)

Trong phần này, luận văn đưa ra mô hình SSvMFs với mục đích khai thác cả

suất mô tả quá trình sinh cả dữ liệu có nhãn và dữ liệu không nhãn dựa trên các

đầu giống như mô hình trộn các phân phối vMF trong các mô hình học không

và mỗi cụm được đặc trưng bởi một phân phối vMF với các tham số khác nhau.Tuy nhiên trong mô hình học phân loại (một mô hình có giám sát (supervised

còn trong phân cụm thông tin về số lượng cụm là tham số của mô hình Đặcbiệt trong bài toán phân loại, dữ liệu trong tập học (trainning set) đã có nhãn

Cụ thể, mỗi văn bản có một nhãn Vì vậy, dữ liệu có nhãn sẽ chỉ được sinh ra

từ một phân phối vMF đặc trưng cho nhãn đó, hay xác suất để dữ liệu có nhãn

Trang 24

Hình 2: Mô hình đồ thị cho SSvMFs

liên hợp (conjugate prior) cho vector trung bình hướng Vì thế, phân phối vMF

p(µk|µ0, κ0) = vM F (µk|µ0, κ0), với µ0, κ0 là tham số, được lựa chọn để sinh µk

Mô hình sinh được minh họa đầy đủ (Hình 2):

Trang 25

diễn biến phân là phương pháp được sử dụng rộng rãi hiện nay, phương phápđảm bảo nhanh hội tụ và kết quả tốt Chính vì thế, luận văn lựa chọn phươngpháp suy diễn biến phân để giải quyết vấn đề tối ưu hàm log likehood.

Bài toán đưa ra yêu cầu là xác định nhãn cho mỗi tài liệu không có nhãn.Phương pháp MLE (maxinmum log likehood estimation) là một phương pháphay được sử dụng trong các mô hình học máy dựa trên xác suất thống kê Tưtưởng của phương pháp MLE là những tham số của mô hình được ước lượngsao cho ứng với các giá trị tham số đó thì xác suất sinh ra dữ liệu là lớn nhất.Log likelihood của những dữ liệu được quan sát trong mô hình là:

nhất Phân tích biểu thức tối ưu:

vớiZN = {z1, , zN}và ZM = {z1, , zM} Bài toán xấp xỉ được đưa ra đó là thay

được thay thế

Trang 26

Các phân phối hậu nghiệm (the posterior) được xấp xỉ thành các thành phần:

Bài toán tối ưu được chia thành 2 bước: bước E (expectation) và M

phần đã được giả sử như phần trên nên việc xác định các phân phối thành phần

Trang 27

Algorithm 1 SSvMFs

Trang 28

với: I[zn = k] = 1 if zn = k and 0 otherwise.

số

2.4 Mô hình phân loại bán giám sát dựa trên mô hình trộn

các phân phối vMFs trên đa tạp văn bản (LapSSvMFs)

Thực tế, là tự nhiên và hợp lý hơn nếu giả sử rằng các tài liệu nằm trên mộtcấu trúc hình học và phân phối sinh ra các dữ liệu cũng được ảnh hưởng bởicấu trúc hình học này Vì thế, nếu hai tài liệu gần nhau về mặt bản chất hìnhhọc thì phân phối có điều kiện của chúng là gần giống nhau Điều đó thườngđược suy ra như một giả thiết cấu trúc hình học (manifold) [6] Trong những ápdụng thực tế, các cấu trúc hình học của dữ liệu khó biết, và bài toán phát hiện

Trang 29

cấu trúc hình học cũng là một bài toán được quan tâm nhiều Một cách đơngiản và thường được dùng để xác định cấu trúc hình học đó là xây dựng đồ thị

Sử dụng đồ thị Laplacian [24], cấu trúc hình học (the manifold structure) được

phần chuẩn tắc (regularization)

Luận văn đề xuất một phương pháp mới cho học mô hình LapSSvMFs với đồthị láng giềng gần Luận văn đưa ra thành phần chuẩn tắc ngắn gọn và tự nhiên:

nhãn của biến ẩn (posterior distribution) trong khi phân tách thành các thànhphần Điều này có nghĩa là hai tài liệu có trọng số cạnh cao có nghĩa chúng cóxác suất cùng nhãn cao Với cách này, luận văn đã làm mềm hóa hàm mục tiêudựa trên cấu trúc hình học

Từ đây, hàm mục tiêu cần tối ưu trở thành:

chuẩn tắc Phương pháp chuẩn tắc này thực sự là một framework tổng quát Cụ

Trang 30

thể, khai triển biểu thức:

thiết là thông tin nhãn của tập dữ liệu có nhãn là hoàn toàn chính xác

Khung (Framework) này là phương pháp tăng cường sức mạnh cho cả môhình đồ thị xác suất SSvMFs và phương pháp chuẩn tắc đồ thị Laplacian Bằng

Khó khăn trong mô hình này đó là biểu thức tối ưu trong bước E phức tạphơn rất nhiều Trong quá trình tối ưu, lời giải không đưa được dạng đóng (close

Trang 31

Algorithm 2 LapSSvMFs

stop increasing using Equation (20)

{The M step}

until Convergence

Trang 32

Luận văn đã mô hình hóa thành phương pháp ước lượng và suy diễn cho nhiềubiến tổng quát.

độ phức tạp tăng lên đáng kể so với SSvMFs, nguyên nhân là do quá trình xâydựng cấu trúc manifold và lan truyền thông tin theo cấu trúc manifold

2.5 Thử nghiệm và đánh giá

Trong phần này, luận văn mô tả một số thí nghiệm để đánh giá hiệu năng củathuật toán cho phân loại đơn nhãn với một số phương pháp khác trên tập dữliệu văn bản

2.5.1 Tập dữ liệu thí nghiệm (Datasets)

Luận văn sử dụng 4 tập dữ liệu có số chiều cao từ tập 20-newsgroups và một số

Các tập dữ liệu này cung cấp một cách biểu diễn tốt của các đặc trưng: Số lượngtài liệu từ 2340 đến 7094, số lượng từ trong tổng số tài liệu từ 5896 đến 31472,

số lượng nhãn từ 3 đến 6, và độ cân bằng từ 0.043 tới 0.998 Độ cân bằng củamột tập dữ liệu được định nghĩa là tỉ lệ số dữ liệu trong lớp có ít tài liệu nhấtvới lớp có nhiều tài liệu nhất Vì thế giá trị gần tới 1(0) xác định tập dữ liệu rấtcân bằng (không cân bằng) Chi tiết về các tập dữ liệu này được đưa ra theobảng 1

2.5.2 Độ đo đánh giá

Độ đo đánh giá thuật toán phân loại đơn nhãn luận văn sử dụng là độ chính

1 http://shi-zhong.com/software/docdata.zip

Trang 33

Bảng 1: Sơ lược về các tập dữ liệu (với mỗi tập dữ liệu: nd là tổng số lượng văn

liệu trên một lớp, và độ cân bằng)

là những dữ liệu được bộ phân loại gán nhãn và điều đó đúng với thực tế, true

bộ phân loại không gán nhãn nhưng điều đó sai với thực tế Độ đo chính xácAccuracy được tính theo công thức:

2.5.3 Các thuật toán sử dụng để so sánh (baselines)

Để đánh giá hiệu năng của thuật toán LapSSvMFs cho bài toán phân loại, luậnvăn so sánh với 3 phương pháp: 2 phương pháp học bán giám sát và 1 phươngpháp học có giám sát

LP: Thuật toán lan truyền nhãn [1]

function)

2 http://www.csie.ntu.edu.tw/ cjlin/libsvm/

Ngày đăng: 01/02/2021, 19:38

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w