XÂY DỰNG hệ THỐNG PHÂN LOẠI văn bản TIẾNG VIỆT sử DỤNG PHƯƠNG PHÁP máy véc tơ hỗ TRỢ kết hợp các PHƯƠNG PHÁP tối ưu KÍCH THƯỚC dữ LIỆU

Luận văn trình bày phương pháp phân loại Máy Véctơ hỗ trợ, đây được cho là một trong những phương pháp phân loại tốt nhất hiện này đồng thời kết hợp tập trung giải quyết vấn đề “số chiều đặc trưng lớn” bằng cách áp dụng các phương pháp giảm chiều đặc trưng. Sau khi trình bày tổng quan về các tiếp cận giảm chiều đặc trưng luận văn đi sâu vào trình bày các tiếp cận Lantent semantic index, Centroid, Orthogonal Centroid, GSVDLDA được áp dụng cho dữ liệu phân cụm phù hợp với bài toán phân loại văn bản. Trên cơ sở đó chúng tôi cài đặt và thử nghiệm, đưa ra bảng so sánh đánh giá các kết quả phân loại được ứng dụng cho bài toán phân loại văn bản tiếng Việt trong hai trường hợp dựa vào đặc điểm riêng của tiếng Việt là sử dụng tách từ và âm tiết.

Trang 1

Mục lục

Danh mục thuật ngữ 3

Danh mục các hình vẽ 4

Danh mục các bảng 4

Mở đầu 5

Chương 1: Tổng quan 6

1.1 Giới thiệu bài tốn xử lý văn bản 6

1.2 Các phương pháp phân loại văn bản 6

1.3 Vấn đề giảm chiều đặc trưng 7

1.3.1 Giới thiệu 7

1.3.2 Các tiếp cận và tình hình nghiên cứu ở Việt Nam 8

1.4 Đặc điểm của tiếng Việt 9

1.5 Mục tiêu của luận văn 10

Chương 2: Biểu diễn văn bản 11

2.1 Giới thiệu 11

2.2 Mơ hình Boolean 12

2.3 Mơ hình tần suất (Term Frequency – TF) 12

2.4 Mơ hình nghịch đảo tần số văn bản (Inverse Document Frequency - IDF) 13

2.5 Mơ hình kết hợp TFxIDF 13

2.6 Áp dụng phương pháp véc-tơ thưa trong lưu trữ văn bản 13

Chương 3: Các phương pháp phân loại văn bản 15

3.1 Giới thiệu 15

3.2 Quy trình phân loại văn bản 15

3.3 Đặc điểm của Tiếng Việt và ảnh hưởng trong phân loại văn bản 16

3.3.1 Đặc điểm tiếng Việt 16

3.3.2 Ảnh hưởng trong phân loại văn bản 18

3.4 Phương pháp phân loại Nạve Bayes 18

3.5 Phương pháp phân loại Centroid- based vector 19

3.6 Phương pháp phân loại k–Nearest Neighbor (kNN) 19

3.7 Phân loại văn bản bằng phương pháp Support Vector Machines 20

3.7.1 Lý thuyết học thống kê 20

3.7.1.1 Chiều VC (Vapnik Chervonenkis dimension) 20

3.7.1.2 Rủi ro của bài tốn học phân loại cĩ giám sát 22

3.7.1.3 Rủi ro thực nghiệm 23

3.7.1.4 Nguyên tắc tối thiểu hố rủi ro cấu trúc 23

3.7.1.5 Bổ đề Vapnik 24

3.7.2 Support Vector Machines 25

3.7.2.1 Dữ liệu huấn luyện cĩ thể phân chia tuyến tính và khơng cĩ nhiễu 26

3.7.2.2 Dữ liệu huấn luyện cĩ thể phân chia tuyến tính nhưng cĩ nhiễu 30

3.7.2.3 Dữ liệu huấn luyện khơng thể phân chia tuyến tính được 32

3.7.2.4 Hàm nhân Kernel 34

3.7.3 Phương pháp giải bài tốn tối ưu 34

3.7.3.1 Thuật tốn giải bài tốn tối ưu 35

3.7.3.2 Thuật tốn khởi tạo các biến 0 i  37

Chương 4: Các phương pháp tối ưu kích thước dữ liệu 39

4.1 Biểu diễn giảm bậc của ma trận Term – Doc 39

4.2 Phương pháp Latent semantic analysis 41

4.2.1 Singular value decomposition 42

4.2.2 Thuật tốn giảm số chiều LSI/SVD 45

Trang 2

4.3 Phương pháp trọng tâm 47

4.3.1 Bình phương tối thiểu 47

4.3.2 Thuật toán trọng tâm giảm số chiều 49

4.4 Phương pháp trọng tâm trực giao 49

4.4.1 Phân tích QR của ma trận 49

4.4.2 Thuật toán trọng tâm trực giao giảm số chiều 51

4.5 Phương pháp Linear discriminant analysis 52

4.5.1 Hàm phân lớp tuyến tính của Fisher (Fisher’s linear discriminant - FLD) 52

4.5.2 Generalized Singular Value Decomposition (GSVD) 53

4.5.3 Linear discriminant analysis trong đa lớp 54

4.5.4 Thuật toán giảm số chiều LDA/GSVD 56

Chương 5: Cài đặt chương trình và kết quả thử nghiệm 58

5.1 Chức năng tiền xử lý văn bản 58

5.1.1 Chuẩn hóa 58

5.1.2 Xây dựng bộ từ điển 58

5.1.3 Biểu diễn văn bản 59

5.1.4 Thuật toán giảm số chiều văn bản 59

5.1.4.1 Thuật toán giảm số chiều LSI/SVD 59

5.1.4.2 Thuật toán giảm số chiều Centroid 60

5.1.4.3 Thuật toán giảm số chiều Orthogonal Centroid 60

5.2 Huấn luyện và phân loại 61

5.2.1 Phương pháp SVM 61

5.2.1.1 Quá trình huấn luyện 61

5.2.1.2 Quá trình kiểm tra 63

5.2.1.3 Phân loại văn bản 64

5.3 Kết quả thực nghiệm 65

5.3.1 Văn bản được tách thành các từ (word segments) 65

5.3.2 Văn bản được tách thành các âm tiết 67

Kết luận 70

Tài liệu tham khảo 71

Trang 3

2 kNN k-Nearest Neighbor k láng giềng gần nhất (phân loại

văn bản)

4 SVM Support Vector Machines Máy véc-tơ hỗ trợ

5 Text Categorization (Text

Classification) Bài toán phân loại văn bản

6 FLD Fisher’s linear discriminant Hàm phân lớp tuyến tính Fisher

7 LSI Latent semantic indexing Đánh chỉ mục ngữ nghĩa ẩn

8 SVD Singular value decomposition Phân tích giá trị kỳ dị

9 GSVD Generalized Singular Value

Decomposition Phân tích giá trị kỳ dị giữa hai matrận

Trang 4

Danh mục các hình vẽ

Hình 1 Biểu diễn các véc-tơ văn bản trong không gian chỉ có 2 thuật ngữ 11

Hình 2 Minh họa chiều VC của tập các hàm {f(x)} trong không gian hai chiều với 3 điểm dữ liệu 21

Hình 3 Minh họa các hàm {f(x)} trong không gian hai chiều với 4 điểm dữ liệu 22

Hình 4 Mô tả các siêu phẳng phân chia tập mẫu huấn luyện 26

Hình 5 Siêu phẳng phân chia dữ liệu và các ràng buộc 27

Danh mục các bảng Bảng 1 Dữ liệu huấn luyện và kiểm thử 65

Bảng 2 Độ chính xác phân loại trên mỗi chuyên mục và trên toàn bộ tập dữ liệu trường hợp văn bản tách thành các từ sử dụng thuật toán giảm chiều LSI/SVM 65

Bảng 3 Độ chính xác phân loại trên mỗi chuyên mục và trên toàn bộ tập dữ liệu trường hợp văn bản tách thành các từ sử dụng thuật toán giảm chiều Centroid và Orthogonal Centroid 66

Bảng 4 Chi phí thời gian huấn luyện và phân loại sử dụng hàm nhân Poly (d=2) trường hợp văn bản được tách thành các từ 67

Bảng 5 Chi phí thời gian thực hiện các thuật toán giảm chiều trường hợp văn bản được tách thành các từ 67

Bảng 6 Độ chính xác phân loại trên mỗi chuyên mục và trên toàn bộ tập dữ liệu trường hợp văn bản tách thành các âm tiết sử dụng thuật toán giảm chiều LSI/SVM 67

Bảng 7 Độ chính xác phân loại trên mỗi chuyên mục và trên toàn bộ tập dữ liệu trường hợp văn bản tách thành các âm tiết sử dụng thuật toán giảm chiều Centroid và Orthogonal Centroid 68

Bảng 8 Chi phí thời gian huấn luyện và phân loại sử dụng hàm nhân Poly (d=2) trường hợp văn bản được tách thành các âm tiết 69

Bảng 9 Chi phí thời gian thực hiện các thuật toán giảm chiều trường hợp văn bản được tách thành các âm tiết 69

Trang 5

Mở đầu

Phân loại văn bản là một trong những bài toán quan trọng trong xử lý văn bảntiếng Việt Một trong những thách thức của bài toán phân loại văn bản là số lượng đặctrưng (thuộc tính) dùng để phân loại thì thường rất lớn Bên cạnh đó, khi áp dụng vàotrong xử lý tiếng Việt chúng ta cần phải khảo sát hiệu quả của các phương pháp phân loạitrên một số đặc điểm riêng của tiếng Việt như việc sử dụng từ hay âm tiết

Luận văn trình bày phương pháp phân loại Máy Véc-tơ hỗ trợ, đây được cho làmột trong những phương pháp phân loại tốt nhất hiện này đồng thời kết hợp tập trunggiải quyết vấn đề “số chiều đặc trưng lớn” bằng cách áp dụng các phương pháp giảmchiều đặc trưng Sau khi trình bày tổng quan về các tiếp cận giảm chiều đặc trưng luậnvăn đi sâu vào trình bày các tiếp cận Lantent semantic index, Centroid, OrthogonalCentroid, GSVD/LDA được áp dụng cho dữ liệu phân cụm phù hợp với bài toán phânloại văn bản Trên cơ sở đó chúng tôi cài đặt và thử nghiệm, đưa ra bảng so sánh đánh giácác kết quả phân loại được ứng dụng cho bài toán phân loại văn bản tiếng Việt trong haitrường hợp dựa vào đặc điểm riêng của tiếng Việt là sử dụng tách từ và âm tiết

Trang 6

Chương 1: Tổng quan

1.1 Giới thiệu bài toán xử lý văn bản

Ngày nay cùng với sự phát triển mạnh mẽ của công nghệ thông tin thì nhu cầu lưutrữ và trao đổi thông tin bằng văn bản số tăng lên với số lượng rất lớn Đó là công văngiấy tờ trong các doanh nghiệp và tổ chức hành chính được số hóa lưu trữ dưới dạng vănbản, tin bài trên các web site báo điện tử, nội dung thông tin trao đổi trong email,…

Với một cơ sở dữ liệu có số lượng văn bản khổng lồ cùng với nhu cầu trao đổithông tin rất lớn thì một lớp bài toán xử lý văn bản ra đời nhằm khai thác một cách hiệuquả thông tin từ dữ liệu văn bản Lớp các bài toán xử lý văn bản bao gồm: dịch tự độngvăn bản, tóm tắt văn bản, tìm kiếm văn bản, phân loại văn bản,…

Xử lý văn bản là một kỹ thuật chung để trích chọn ra những thông tin có ích chưađược biết đến, còn tiềm ẩn từ những văn bản Xử lý văn bản có nhiệm vụ thu thập vàphân tích văn bản bằng các công cụ tự động hoặc bán tự động từ các nguồn văn bản đã cókhác nhau, để có được các tri thức mới, chưa được biết đến trước đó; phát hiện ra các mô

tả chung của các lớp đối tượng văn bản, các từ khoá, các mối liên quan về mặt nội dung,

sự phân loại của các đối tượng văn bản, v.v

Bài toán tự động phân loại văn bản (Text Classification) là bài toán quan trọng cầngiải quyết trong xử lý văn bản Kết quả của phân loại được ứng dụng trực tiếp và là mộtthành phần quan trọng trong nhiều hệ thống xử lý thông tin khác như trong hệ thống lọcthư rác (mail spam) hay lấy tin tự động Ngoài ra nó cũng có ứng dụng hỗ trợ trong nhiềubài toán xử lý văn bản như tìm kiếm, dịch máy, tóm tắt văn bản

1.2 Các phương pháp phân loại văn bản

Trong xử lý văn bản, các phương pháp học máy đã chứng tỏ được tính hiệu quảvượt trội Một số phương pháp phân loại thông dụng đã được sử dụng như quyết địnhBayes (Mitchell, 1996), cây quyết định (Fuhr et al, 1991), véc-tơ trọng tâm (Centroid-based vector) (Han, Karypis 2000), k-láng giềng gần nhất (Yang, 1994), mạng nơron(Wiener et al, 1995), Những phương pháp này đã cho kết quả chấp nhận được và được

sử dụng trong thực tế Trong những năm gần đây, phương pháp phân loại sử dụng Bộphân loại véc-tơ hỗ trợ (SVM) được quan tâm và sử dụng nhiều trong những lĩnh vựcnhận dạng và phân loại (Joachims, 1998) SVM là một họ các phương pháp dựa trên cơ

sở các hàm nhân (kernel) để tối thiểu hóa rủi ro ước lượng

Trang 7

Phương pháp SVM ra đời từ lý thuyết học thống kê do Vapnik và Chervonenkisxây dựng và có nhiều tiềm năng phát triển về mặt lý thuyết cũng như ứng dụng trongthực tiễn Các thử nghiệm thực tế cho thấy, phương pháp SVM có khả năng phân loại khátốt đối với bài toán phân loại văn bản cũng như trong nhiều ứng dụng khác (như nhậndạng chữ viết tay, phát hiện mặt người trong các ảnh, ước lượng hồi quy, ) So sánh vớicác phương pháp phân loại khác, khả năng phân loại của SVM là tương đương hoặc tốthơn đáng kể (Nguyễn Linh Giang và Nguyễn Mạnh Hiển, 2005).

Hệ thống phân loại văn bản tiếng Việt ở nước ta đã có nhiều nhà nghiên cứu vàphát triển xây dựng trong những năm gần đây (Huỳnh Quyết Thắng và Đinh Thị Phương,1999) (Nguyễn Linh Giang và Nguyễn Mạnh Hiển, 2005) Các hướng tiếp cận bài toánphân loại văn bản đã được nghiên cứu bao gồm: hướng tiếp cận bài toán phân loại bằng

lý thuyết đồ thị (Đỗ Bích Diệp, 2004), cách tiếp cận sử dụng lý thuyết tập thô (NguyễnNgọc Bình, 2004), cách tiếp cận thống kê (Nguyễn Linh Giang và Nguyễn Duy Hải,1999), cách tiếp cận sử dụng phương pháp học không giám sát và đánh chỉ mục (HuỳnhQuyết Thắng và Đinh Thị Phương, 1999) Nhìn chung, những cách tiếp cận này đều chokết quả chấp nhận được

Những thách thức trong bài toán phân loại văn bản Tiếng Việt:

1 Số chiều đặc trưng lớn

Trong phân loại văn bản tất cả các phương pháp gặp một khó khăn chung khikhông gian dữ liệu với số chiều lớn Khi đó đòi hỏi không gian bộ nhớ dữ liệu lớn và mấtnhiều thời gian xử lý văn bản phân loại Để giải quyết vấn đề khó khăn này luận văn sẽtrình bày và xây dựng hệ thống phân loại kết hợp với các phương pháp tối ưu kích thước

dữ liệu được áp dụng cho văn bản Tiếng Việt

2 Phân tách câu thành các từ

Khác với tiếng Anh, văn bản tiếng Việt có thể được biểu diễn bởi danh sách các từhoặc âm tiết Để biểu diễn văn bản bởi các từ, chúng ta phải xử lý bài toán tách từ (wordsegmentation) cho tiếng Việt Hai cách sử dụng này (âm tiết và từ) sẽ được khảo sát sosánh trong luận văn của chúng tôi

1.3 Vấn đề giảm chiều đặc trưng

Những tiến bộ trong công nghệ thông tin như mạng máy tính (network), phầncứng (hardware), phần mềm (software), cấu trúc dữ liệu và thuật toán đã tạo lên cơ sở hạtầng đủ mạnh để xử lý luồng dữ liệu khổng lồ trên web, trong hệ thống máy tính, trong

Trang 8

các bộ cảm biến mạng máy tính (sensor networks), trong việc phân tích gen DNA củangười và các sinh vật khác, các loại dữ liệu ở dạng văn bản (text), ảnh, âm thanh song

để xử lý được luồng dữ liệu lớn vẫn còn là vấn đề phức tạp Trong bài giảng cho sinhviên với chủ đề “Phân tích dữ liệu có số chiều đặc trưng cao: Những thuận lợi và khókhăn” (High-Dimensional Data Analysis: The Curses and Blessings of Dimensionality)(David Donoho, 2000) tại đại học Standford năm 2000 tiến sỹ David Donoho đã điểmqua những thuận lợi và khó khăn trong việc giải quyết bài toán có số chiều đặc trưng caođồng thời kêu gọi các nhà toán học trong thế kỷ 21 quan tâm và đóng góp hướng giảiquyết nhiều hơn nữa cho lớp bài toán này

Khái niệm “khó khăn của số chiều đặc trưng lớn” (curses of dimensionality)(Richard Bellman, 1961) do Richard Bellman sử dụng lần đầu tiên nói đến sự khó khăntrong việc giải quyết các bài toán liên quan đến số chiều đặc trưng lớn (high dimension)

Số lượng chiều (dimension) của bài toán có thể là số lượng biến số liên quan, có thể do

số lượng các bộ cảm biến (sensors) dùng để thu thập dữ liệu rất lớn Để xử lý dữ liệu với

số chiều (dimension) khổng lồ và số lượng khổng lồ đòi hỏi tìm kiếm trong một tronggian trạng thái lớn gấp nhiều lần khi đó chi phí về thời gian có thể theo đa thức hoặc hàm

số mũ

Điều thú vị là bài toán toán xử lý dữ liệu lớn cũng có nhiều thuận lợi (blessings ofdimensionality) trong toán học một trong những yếu tố thuận lợi của số chiều lớn chính

là khái niệm “thước đo tập trung tương đối” (concentration of measure) nói đến thống kê

sự tập trung xấp xỉ khi có nhiều sự thể hiển có cùng đặc trưng Trong lý thuyết xác suấtchúng ta có luật số lớn (law of large numbers) giá trị trung bình của các sự thể hiện ngẫunhiên thường hội tụ về giá trị kỳ vọng của biến ngẫu nhiên (constant) Hay định luật giớihạn trung tâm (central limit): Giá trị trung bình của các sự thể hiện ngẫu nhiên có hành vigiống như biến Gauss, khi ta chọn ngẫu nhiên một sự thể hiện trong dãy các sự thể hiệnthì kích thước dãy các sự thể hiện càng lớn thì các đặc trưng thống kê (trung bình,phương sai,…) của sự thể hiện càng gần với đặc trưng của dãy

Giảm chiều không gian đặc trưng trong bài toán phân loại văn bản nói riêng và cácbài toán có số chiều lớn nói chung có vai trò quan trọng trong việc:

– Giảm thiểu không gian bộ nhớ dữ liệu

– Tăng tốc độ xử lý dữ liệu cho giải thuật xử lý văn bản

Trang 9

Được chia làm hai loại:

Các phương pháp giảm chiều đặc trưng cho dữ liệu chưa được phân cụm hay còngọi là dữ liệu không giám sát (Unsupervised) như Principal components analysis (KarlPearson , 1901), Independent Component Analysis (Pierre Comon, 1994), Locally linearEmbedding (Sam T Roweis và Lawrence K Saul , 2000) Khi dữ liệu chưa phân cụm thì

có thể áp dụng các giải thuật phân cụm để gom dữ liệu thành các nhóm sau đó áp dụngcác phương pháp giảm số chiều cho dữ liệu đã được phân cụm

Các phương pháp giảm chiều đặc trưng cho dữ liệu đã được phân cụm hay còn gọi

là dữ liệu giám sát (Supervised) như Latent semantic indexing (Scott Deerwester,ext,1988), Centroid (Park et al, 2003) , Orthogonal centroid (Park et al, 2003), Generalizedsingular value decompositon (GSVD/LDA) (Park et al, 2003), Linear discriminantanalysis (Fisher, 1936),…

2 Tình hình nghiên cứu ở Việt Nam

Ở Việt Nam cũng đã có những nghiên cứu về giảm chiều đặc trưng như cách tiếpcận LSI (lantent semantic indexing) đánh chỉ mục ngữ nghĩa ẩn (Dương Thanh Tịnh,2005) làm giảm chiều đặc trưng áp dụng trong hệ thống hỗ trợ tư vấn cho thương mạiđiện tử, sử dụng giải thuật phân tán cho mạng máy tính (Đỗ Thanh Nghị, 2002) phânphối công việc cho mạng máy tính xử lý bài toán phân loại văn bản có số chiều đặc trưngcao, xong vẫn còn ít và chưa được quan tâm nhiều đến lớp bài toán có số chiều đặc trưngcao (high dimension)

1.4 Đặc điểm của tiếng Việt

Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âmtách rời nhau và được thể hiện bằng một chữ viết Đặc điểm này thể hiện rõ rệt ở tất cảcác mặt ngữ âm, từ vựng, ngữ pháp Về mặt ngữ âm, mỗi tiếng là một âm tiết Hệ thống

âm vị tiếng Việt phong phú và có tính cân đối, tạo ra tiềm năng của ngữ âm tiếng Việttrong việc thể hiện các đơn vị có nghĩa Nhiều từ tượng hình, tượng thanh có giá trị gợi tảđặc sắc Tiếng là đơn vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt Từ tiếng,người ta tạo ra các đơn vị từ vựng khác để định danh sự vật, hiện tượng Từ vựng tốithiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết, một tiếng) Từ của tiếng Việtkhông biến đổi hình thái Đặc điểm này chi phối các đặc điểm ngữ pháp khác Khi từ kếthợp từ thành các kết cấu như ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ và

hư từ Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan

hệ cú pháp, trật tự chủ ngữ đứng trước, vị ngữ đứng sau

Trang 10

1.5 Mục tiêu của luận văn

Luận văn tập trung trình bày các phương pháp tối ưu kích thước dữ liệu ứng dụngtrong bài toán phân loại văn bản tiếng Việt Phương pháp phân loại văn bản sử dụngtrong luận văn là phương pháp Máy vec tơ hỗ trợ, là một trong những phương pháp phânloại tốt nhất hiện nay Nội dung của luận văn được trình bày bao gồm 5 chương và kếtluận:

 Chương 1 Tổng quan: Giới thiệu về bài toán xử lý văn bản, các cách tiếp cận trong

bài toán phân loại văn bản, đặc điểm của Tiếng Việt, vai trò của giảm chiều đặc trưngtrong bài toán (high dimension) có số chiều lớn và tình hình nghiên cứu ở Việt Nam

 Chương 2 Biểu diễn văn bản: Trình bày các phương pháp biểu diễn văn bản trong

không gian Vec tơ

 Chương 3 Các phương pháp phân loại văn bản: Trình bày các phương pháp phân

loại văn bản, trong đó phương pháp Support Vector Machines được trình bày chi tiết và

cụ thể hơn cả

 Chương 4 Các phương pháp tối ưu kích thước dữ liệu: Biểu diễn ma trận

term-doc, định nghĩa bài toán giảm chiều, trình bày 4 phương pháp được áp dụng cho dữ liệu

đã được phân cụm LSI, Centroid, Orthogonal Centroid, LDA/GSVD

 Chương 5 Cài đặt và kết quả thử nghiệm: Trình bày các bước cài đặt và các thành

phần của chương trình phân loại văn bản Tiếng Việt, đưa ra kết quả so sánh giữa cácphương pháp giảm chiều đặc trưng áp dụng trong bài toán

 Kết luận: Đánh giá kết quả đạt được của luận văn và hướng nghiên cứu tiếp theo của

luận văn

Trang 11

Chương 2: Biểu diễn văn bản

2.1 Giới thiệu

Như ta đã biết, để có thể xử lý được các văn bản, ta phải chuyển chúng về dạng dữliệu có cấu trúc Để thực hiện được công việc này, người ta đưa ra các mô hình biểu diễnvăn bản Mô hình biểu diễn văn bản có ảnh hưởng rất nhiều đến hiệu quả và hiệu suất xử

lý các văn bản Tuỳ mục đích, yêu cầu đặt ra của ứng dụng mà chúng ta lựa chọn môhình biểu diễn và phương pháp xử lý phù hợp

Các mô hình biểu diễn văn bản đã được sử dụng như mô hình dựa trên tập mờ(Nguyễn Hoàng Phương, 2001)(Đoàn Sơn, 2002), mô hình tập thô dung sai (Hồ Tú Bảo

et al, 2001), mô hình không gian vectơ (Vector Space Model) (Sparck Jones, 1972)( G.Salton et al, 1975) Trong luận văn này trình bày mô hình không gian vec- tơ

Bản chất của mô hình không gian vec-tơ là mỗi văn bản được biểu diễn thành mộtvéc-tơ Mỗi thành phần của véc-tơ biểu diễn một thuật ngữ riêng biệt trong tập văn bảngốc và được gán một giá trị là hàm f của từng thuật ngữ trong văn bản Giá trị f nàythường là trọng số của từ trong văn bản, được xác định theo nhiều cách khác nhau Hìnhsau biểu diễn các véc-tơ văn bản trong không gian chỉ có 2 thuật ngữ

Hình 1 Biểu diễn các véc-tơ văn bản trong không gian chỉ có 2 thuật ngữ

Có nhiều biến thể của mô hình không gian véc-tơ, dưới đây là một số dạng của môhình không gian véc-tơ:

Trang 12

2.2 Mô hình Boolean

Đây là mô hình biểu diễn véc-tơ với hàm f cho ra giá trị rời rạc với duy nhất haigiá trị đúng và sai (true và false, hoặc 0 và 1) Hàm f tương ứng với thuật ngữ ti sẽ cho ragiá trị đúng nếu và chỉ nếu thuật ngữ ti xuất hiện trong văn bản đó

Trọng số của thuật ngữ trong mô hình Boolean: Giả sử có một cơ sở dữ liệu gồm

m văn bản, D = {d1, d2,… dm} Mỗi văn bản được biểu diễn dưới dạng một véc-tơ gồm

n thuật ngữ T = {t1, t2,…tn} Gọi W = {wij} là ma trận trọng số, trong đó wij là giá trịtrọng số của thuật ngữ ti trong văn bản dj

Mô hình Boolean là mô hình đơn giản nhất được xác định như sau:

d 1

w

i i

t if t if

2.3 Mô hình tần suất (Term Frequency – TF)

Các giá trị wij được tính dựa trên tần số (hay số lần) xuất hiện của thuật ngữ trongvăn bản Gọi fij là số lần xuất hiện của thuật ngữ ti trong văn bản dj, khi đó wij được tínhbởi một trong ba công thức:

w ij = f ij

w ij = 1 + log(f ij )

w ij = f ij Trong đó: log(X) - logarit cơ số 10 của X.

Trong phương pháp này, trọng số w ij đồng biến với số lần xuất hiện của thuật ngữ

t i trong văn bản d j Khi số lần xuất hiện thuật ngữ t i trong văn bản d j càng lớn thì điều đó

có nghĩa là văn bản d j càng phụ thuộc vào thuật ngữ t i , hay nói cách khác thuật ngữ t i mang nhiều thông tin trong văn bản d j

Ví dụ:

Cho văn bản D = “Khi tất cả đều nghĩ hai đội mạnh nhất Đông Nam Á sắp sửa

vào hai hiệp phụ thì bất ngờ cái đầu vàng của Lê Công Vinh đội lên tích tắc mang về chiếc cúp AFF cho đội tuyển Việt Nam ”

Và được phân đoạn như sau:

Khi tất_cả đều nghĩ hai đội mạnh nhất Đông_Nam_Á sắp_sửa vào hai hiệp_phụ thì bất_ngờ cái đầu vàng của Lê_Công_Vinh đội lên tích_tắc mang về chiếc cúp_AFF

Trang 13

Tập từ khóa (bộ từ điển): “Thể_thao, Bóng_đá, Đội_tuyển, Đông_Nam_Á,

Cúp_AFF, Việt_Nam”

Văn bản D được biểu diễn bằng phương pháp tần suất là: D = (0,0,1,1,1,1)

2.4 Mô hình nghịch đảo tần số văn bản (Inverse Document Frequency - IDF)

Trong phương pháp này, giá trị w ij được tính theo công thức sau:









j

j i

ij

d 0

d h

m w

i

i i

t if

) log(h -log(m) log với m là số lượng văn bản và h i là số văn bản mà thuật ngữ t i xuất hiện Trọng số w ij trong công thức này được tính dựa trên độ quan trọng của thuật ngữ t i trong văn bản d j Nếu t i xuất hiện trong càng ít văn bản, điều đó có nghĩa là nếu nó xuất hiện trong dj thì trọng số của nó đối với văn bản d j càng lớn hay nó là điểm quan trọng để phân biệt văn bản d j với các văn bản khác và hàm lượng thông tin trong nó càng lớn 2.5 Mô hình kết hợp TFxIDF Phương pháp này là kết hợp của hai phương pháp TF và IDF, giá trị của ma trận trọng số được tính như sau:        j j i ij ij d 0 d h m f w i i t if

t if log

)].

log(

1 [

Phương pháp này kết hợp được ưu điểm của cả hai phương pháp trên Trọng số w ij được tính bằng tần số xuất hiện của thuật ngữ t i trong văn bản d j và độ hiếm của thuật

ngữ t i trong toàn bộ cơ sở dữ liệu.Tuỳ theo yêu cầu ràng buộc cụ thể của bài toán mà ta

sử dụng các mô hình biểu diễn văn bản cho phù hợp

2.6 Áp dụng phương pháp véc-tơ thưa trong lưu trữ văn bản

Khi biểu diễn văn bản theo mô hình véc-tơ chuẩn, việc xử lý các phép toán trên

véc-tơ sẽ phụ thuộc vào độ lớn của ma trận W ij , i= {1,…,n}, j = {1,…,m} với n là số lượng

thuật ngữ hay số chiều của véc-tơ và m là số lượng văn bản có trong cơ sở dữ liệu Trên

thực tế, số lượng thuật ngữ và số văn bản thường rất lớn, có thể lên đến hàng nghìn hoặc

hơn nữa Khi đó số lượng phần tử trong ma trận W ij sẽ lên đến con số hàng triệu và việc

lưu trữ ma trận W ij sẽ tốn quá nhiều tài nguyên bộ nhớ đồng thời các phép toán trên các véc-tơ sẽ rất phức tạp Để khắc phục vấn đề này có thể sử dụng kỹ thuật xử lý trên véc-tơ thưa thay vì việc lưu trữ và xử lý trên các véc-tơ chuẩn

Trang 14

Véc-tơ thưa là kiểu véc-tơ chỉ lưu trữ những thành phần từ khoá có số lần xuấthiện trong một văn bản là >0 và không lưu trữ những từ không xuất hiện trong văn bản.Như vậy một véc-tơ thưa phải đảm bảo lưu được 2 dữ liệu: chỉ số của từ, và số lần xuấthiện, hoặc trọng số của từ đó trong văn bản Điều kiện để có thể áp dụng phương phápvéc-tơ thưa, là ta phải có các véc-tơ thực sự thưa (số phần tử có trọng số khác 0 nhỏ hơnrất nhiều so với số thuật ngữ trong cơ sở dữ liệu), đồng thời phép xử lý trên véc-tơ thưakhông được quá phức tạp.

Một ví dụ biểu diễn véc-tơ thưa từ các véc-tơ chuẩn:

Trang 15

bằng tay; khi đó quá trình phân loại bắt đầu một hành động phân loại và chọn mộtphương pháp tự động.

3.2 Quy trình phân loại văn bản

Quy trình của bài toán phân loại văn bản dựa trên kỹ thuật học máy có thể đượcbiểu diễn qua các bước như sau:

- Từ tập dữ liệu ban đâu, chuẩn bị tập dữ liệu huấn luyện (Training Data) và tập dữliệu kiểm tra (Test Data)

- Tách từ trong văn bản

- Biểu diễn văn bản theo định dạng có cấu trúc

- Áp dụng phương pháp học đối với tập dữ liệu huấn luyện để phân loại văn bản

- Sử dụng tập dữ liệu kiểm tra để thẩm định lại phương pháp

- Đánh giá hiệu quả của phương pháp học

Cách tiếp cận học máy dựa trên một tập dữ liệu có sẵn từ đầu ={d1, …, d||} 

D, trong đó D tập tất cả các văn bản đã được phân lớp trước, dj là văn bản thứ j, Tập cáclớp C={c1, …, c|C|}, ci là kí hiệu của lớp thứ i Hàm  :DC  T,F với mọi

C c

d j, i    Một văn bản dj là mẫu dương của ci nếu (d j,c i) T , là một mẫu âmnếu (d j,c i) F

Với mỗi cách phân loại được đưa ra, người ta mong muốn đánh giá được hiệu quảphân loại của chúng Bởi vậy, trước khi xây dựng phân loại người ta chia tập văn bản banđầu thành 2 tập hợp, số các văn bản trong hai tập hợp này không nhất thiết phải bằngnhau:

- Tập huấn luyện (training (-and-validation) set) Tr={d 1 , …, d |TV | } Phân lớp 

cho các phân loại C={c 1 , …, c |C| } được xây dựng quy nạp dựa trên sự quan sát các đặc

trưng của các văn bản trong Tr.

- Tập kiểm tra (test set) Te={d |TV+1| , …d || }, được sử dụng để kiểm tra hiệu quả

của phân lớp Mỗi d j T e được đưa vào hệ thống phân lớp để xác định giá trị  (d j,c i),

và so sánh giá trị này với quyết định (d j,c i) của chuyên gia Hiệu quả của phân lớpdựa trên sự phù hợp giữa  (d j,c i)và (d j,c i)

Trong đó, TrTe = Nếu điều kiện này bị vi phạm thì kết quả đánh giá hiệu quảcủa mô hình mất đi yếu tố khách quan, khoa học

Trang 16

Hầu hết các phương pháp phân loại văn bản dựa trên kỹ thuật học máy hiện nayđều dựa vào tần xuất xuất hiện (số lần xuất hiện) của từ hoặc cụm từ trong văn bản, hoặcdựa vào tần xuất xuất hiện của từ trong văn bản và tần xuất văn bản (số các văn bản trongtập dữ liệu huấn luyện có chứa từ đó)

3.3 Đặc điểm của Tiếng Việt và ảnh hưởng trong phân loại văn bản

(Trung tâm từ điển học Việt Nam, 2000)

Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mỗi một tiếng (âm tiết) được phát âmtách rời nhau và được thể hiện bằng một chữ viết Đặc điểm này thể hiện rõ rệt ở tất cảcác mặt ngữ âm, từ vựng, ngữ pháp

1 Đặc điểm ngữ âm: Trong tiếng Việt có một loại đơn vị đặc biệt gọi là "tiếng".

Về mặt ngữ âm, mỗi tiếng là một âm tiết Hệ thống âm vị tiếng Việt phong phú và có tínhcân đối, tạo ra tiềm năng của ngữ âm tiếng Việt trong việc thể hiện các đơn vị có nghĩa.Nhiều từ tượng hình, tượng thanh có giá trị gợi tả đặc sắc Khi tạo câu, tạo lời, người Việtrất chú ý đến sự hài hoà về ngữ âm, đến nhạc điệu của câu văn

2 Đặc điểm từ vựng: Mỗi tiếng, nói chung, là một yếu tố có nghĩa Tiếng là đơn

vị cơ sở của hệ thống các đơn vị có nghĩa của tiếng Việt Từ tiếng, người ta tạo ra cácđơn vị từ vựng khác để định danh sự vật, hiện tượng , chủ yếu nhờ phương thức ghép vàphương thức láy

Việc tạo ra các đơn vị từ vựng ở phương thức ghép luôn chịu sự chi phối của quyluật kết hợp ngữ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát Hiệnnay, đây là phương thức chủ yếu để sản sinh ra các đơn vị từ vựng Theo phương thứcnày, tiếng Việt triệt để sử dụng các yếu tố cấu tạo từ thuần Việt hay vay mượn từ cácngôn ngữ khác để tạo ra các từ, ngữ mới, ví dụ: tiếp thị, karaoke, thư điện tử (e-mail), thưthoại (voice mail), phiên bản (version), xa lộ thông tin, siêu liên kết văn bản, truy cậpngẫu nhiên, v.v

Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp ngữ âm chiphối chủ yếu việc tạo ra các đơn vị từ vựng, chẳng hạn: chôm chỉa, chỏng chơ, đỏng đađỏng đảnh, thơ thẩn, lúng lá lúng liếng, v.v

Trang 17

Vốn từ vựng tối thiểu của tiếng Việt phần lớn là các từ đơn tiết (một âm tiết, mộttiếng) Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã tạođiều kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về số lượng, vừa đa dạngtrong hoạt động Cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng, có thể

có nhiều từ ngữ khác nhau biểu thị Tiềm năng của vốn từ ngữ tiếng Việt được phát huycao độ trong các phong cách chức năng ngôn ngữ, đặc biệt là trong phong cách ngôn ngữnghệ thuật Hiện nay, do sự phát triển vượt bậc của khoa học-kĩ thuật, đặc biệt là côngnghệ thông tin, thì tiềm năng đó còn được phát huy mạnh mẽ hơn

3 Đặc điểm ngữ pháp: Từ của tiếng Việt không biến đổi hình thái Đặc điểm này

sẽ chi phối các đặc điểm ngữ pháp khác Khi từ kết hợp từ thành các kết cấu như ngữ,câu, tiếng Việt rất coi trọng phương thức trật tự từ và hư từ

Việc sắp xếp các từ theo một trật tự nhất định là cách chủ yếu để biểu thị các quan

hệ cú pháp Trong tiếng Việt khi nói "Anh ta lại đến" là khác với "Lại đến anh ta" Khicác từ cùng loại kết hợp với nhau theo quan hệ chính phụ thì từ đứng trước giữ vai tròchính, từ đứng sau giữ vai trò phụ Nhờ trật tự kết hợp của từ mà "củ cải" khác với "cảicủ", "tình cảm" khác với "cảm tình" Trật tự chủ ngữ đứng trước, vị ngữ đứng sau là trật

tự phổ biến của kết cấu câu tiếng Việt

Phương thức hư từ cũng là phương thức ngữ pháp chủ yếu của tiếng Việt Nhờ hư

từ mà tổ hợp "anh của em" khác với tổ hợp "anh và em", "anh vì em" Hư từ cùng với trật

tự từ cho phép tiếng Việt tạo ra nhiều câu cùng có nội dung thông báo cơ bản như nhaunhưng khác nhau về sắc thái biểu cảm Ví dụ, so sánh các câu sau đây:

- Ông ấy không hút thuốc

- Thuốc, ông ấy không hút

- Thuốc, ông ấy cũng không hút

Ngoài trật tự từ và hư từ, tiếng Việt còn sử dụng phương thức ngữ điệu Ngữ điệugiữ vai trò trong việc biểu hiện quan hệ cú pháp của các yếu tố trong câu, nhờ đó nhằmđưa ra nội dung muốn thông báo Trên văn bản, ngữ điệu thường được biểu hiện bằngdấu câu Chúng ta thử so sánh 2 câu sau để thấy sự khác nhau trong nội dung thông báo:

- Đêm hôm qua, cầu gãy

- Đêm hôm, qua cầu gãy

Trang 18

3.3.2 Ảnh hưởng trong phân loại văn bản

Độ chính xác của kết quả tách từ cĩ ảnh hưởng rất lớn đến kết quả của phân loại,khơng thể cĩ một kết quả phân loại tốt nếu như khơng tách được đúng các từ trong vănbản Bởi vậy, một vấn đề quan trọng đối với phân loại văn bản là phải tách được chínhxác các từ trong văn bản Các văn bản được viết bằng các ngơn ngữ khác nhau thì cĩ đặctrưng riêng của ngơn ngữ đĩ, và khơng cĩ một phương pháp chung nào để tách các từtrong các văn bản được viết bằng các ngơn ngữ khác nhau Trong luận văn này chúng tơi

sử dụng lại kết quả tách từ (C T Nguyen et al, 2006)

3.4 Phương pháp phân loại Nạve Bayes

Nạve Bayes là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãitrong lĩnh vực máy học (Mitchell, 1996) (Joachims, 1997) (Jason, 2001) được sử dụnglần đầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961 (Maron, 1961) sau đĩ trởnên phổ biến dùng trong nhiều lĩnh vực như trong các cơng cụ tìm kiếm (Rijsbergen etal,1970), các bộ lọc mail (Sahami et al, 1998)…

Nạve Bayes sử dụng xác suất cĩ điều kiện giữa từ và chủ đề để dự đốn xác suấtchủ đề của một văn bản cần phân loại Điểm quan trọng của phương pháp này chính là ởchỗ giả định rằng sự xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau Nhưthế NB khơng tận dụng được sự phụ thuộc của nhiều từ vào một chủ đề cụ thể Giả định

đĩ làm cho việc tính tốn NB hiệu quả và nhanh chĩng hơn các phương pháp khác với độphức tạp theo số mũ vì nĩ khơng sử dụng việc kếp hợp các từ để đưa ra phán đốn chủ đề

Để xác định văn bản d thuộc chủ đề i nào đĩ là việc tìm xác xuất P C d( i ), tức làchủ đề nào cĩ xác xuất lớn nhất đối với văn bản d thì d thuộc chủ đề đĩ

Cơng thức tính xác xuất đầy đủ Bayes:

( | ) ( )( | )

Trang 19

4 P C d( i )=( (P word C1| j)* (P word C2| j)* * (P word C m| j))*(Tổng số từ củachủ đề C j)/ (Tổng số từ của tất cả các chủ đề)

5 Nếu P C d( x| ) arg max( ( P C d j| )thì văn bản d thuộc lớp x

3.5 Phương pháp phân loại Centroid- based vector

Là một phương pháp phân loại đơn giản, dễ cài đặt và tốc độ nhanh do có độ phứctạp tuyến tính O(n) (Han, Karypis 2000) Mỗi lớp trong dữ liệu luyện sẽ được biểu diễnbởi một véc-tơ trọng tâm Việc xác định lớp của một văn bản thử bất kì sẽ thông qua viêctìm véc-tơ trọng tâm nào gần với véc-tơ biểu diễn văn bản thử nhất Lớp của văn bản thửchính là lớp mà véc-tơ trọng tâm đại diện Khoảng cách được tính theo độ đo cosine

 của mọi văn bản d với trọng tâm C i

3 Nếu cos( ,d C x) arg max(cos( , )) d C i thì văn bản d thuộc lớp x

3.6 Phương pháp phân loại k–Nearest Neighbor (kNN)

kNN là phương pháp truyền thống khá nổi tiếng về hướng tiếp cận dựa trên thống

kê đã được nghiên cứu trong nhận dạng mẫu hơn bốn thập kỷ qua (Dasarathy, 1991).kNN được đánh giá là một trong những phương pháp tốt nhất (áp dụng trên tập dữ liệuReuters phiên bản 21450), được sử dụng từ những thời kỳ đầu của việc phân loại văn bảnMarsand et al, 1992) (Yang, 1994) (Iwayama, Tokunaga, 1995)

Khi cần phân loại một văn bản mới, thuật toán sẽ tính khoảng cách (khoảng cáchEuclide, Cosine ) của tất cả các văn bản trong tập huấn luyện đến văn bản này để tìm ra

k văn bản gần nhất (gọi là k “láng giềng”), sau đó dùng các khoảng cách này đánh trọng

số cho tất cả chủ đề Trọng số của một chủ đề chính là tổng tất cả khoảng cách ở trên củacác văn bản trong k láng giềng có cùng chủ đề, chủ đề nào không xuất hiện trong k lánggiềng sẽ có trọng số bằng 0 Sau đó các chủ đề sẽ được sắp xếp theo mức độ trọng sốgiảm dần và các chủ đề có trọng số cao sẽ được chọn là chủ đề của văn bản cần phân loại

Trang 20

2 Sắp xếp các giá trịcos( , )d d i trong mỗi tập j theo thứ tự giảm dần

3 Lấy k=5 là số láng giềng gần nhất

4 Tính tổng ( ) k 1cos( , )

Sum j   d d trong k vec tớ đầu tiền của tập j

5 Nếu sum x d( ) arg max( sum j d( )) thì văn bản d thuộc lớp x

3.7 Phân loại văn bản bằng phương pháp Support Vector Machines

Support Vector Machines phân loại văn bản theo cơ sở phân loại nhị phân, cónghĩa là khi xét một loại văn bản nhất định, thì việc phân loại một văn bản sẽ là đưa ra dựđoán văn bản này có thuộc loại văn bản đang xét hay không Vì SVM xuất phát từ lýthuyết học thống kê, dựa trên nguyên tắc tối thiểu hoá rủi ro cấu trúc

Nên trước hết ta hãy xem xét một số lý thuyết học thống kê có liên quan

3.7.1 Lý thuyết học thống kê

3.7.1.1.Chiều VC (Vapnik Chervonenkis dimension)

Xét các hàm f(x): R {+1,-1}, có 2 ns cách để gán nhãn cho n s điểm Nếu với mỗi

một cách gán nhãn ta đều có thể tìm thấy một thành phần của tập hợp {f(x)} mà nhận dạng chính xác cách gán nhãn này Khi đó tập hợp của n s điểm được nói là bị phá vỡ bởi

tập hợp các hàm {f(x)} Chiều VC của {f(x)} là số lớn nhất của các điểm dữ liệu mà có thể

bị phá vỡ bởi nó

Chiều VC của các siêu phẳng trong không gian R n là n+1 Ví dụ, chiều VC của các đường thẳng có hướng trong không gian 2 chiều (R 2) là 3

Trang 21

Hình 2 Minh họa chiều VC của tập các hàm {f(x)} trong không

gian hai chiều với 3 điểm dữ liệu

Trên đây là ví dụ về chiều VC của không gian 2 chiều Khi số điểm dữ liệu >3, ví

dụ là 4, thì số cách gán nhãn (số hàm f(x)) sẽ không còn là 24 nữa

Trang 22

Hình 3. Minh họa các hàm {f(x)} trong không gian hai chiều với 4

điểm dữ liệu

3.7.1.2.Rủi ro của bài toán học phân loại có giám sát

Không gian đầu vào: XR n

Không gian đầu ra: Y {-1,1}

Dữ liệu huấn luyện: S={(x1, y1), …, (x ns , y ns )}

Hàm f s là ánh xạ từ tập X vào tập Y

f s : X  Y

f s : x  y

Giả sử mối liên quan giữa x và y được cho bởi phân bố xác suất liên kết

hợp các hàm {f s | f s : X  Y , và f s được học trên tập dữ liệu huấn luyện S} để tối thiểu

Trong đó: R(f s ): là rủi ro toàn cục của f s (x).

c: là hàm thiệt hại (loss function), dùng để đo sự sai lệch của f s (x) so

với y (y là giá trị quan sát thực tế của x).

Có nhiều cách để định nghĩa hàm c , ví dụ ta có thể chọn hàm c như sau:

2

) ) ( ( ) ), (

Mục đích của chúng ta là tìm một hàm, hoặc một giả thuyết fs, dựa trên dữ liệu

huấn luyện có sẵn S={(x 1 , y 1 ), …, (x ns , y ns )} sao cho rủi ro R là tối thiểu Vì trong thực tế,

chúng ta không biết được phân bố thực sự P(x, y) nên chúng ta không thể biết được tất cảcác khả năng xảy ra của tập dữ liệu kiểm tra Tuy nhiên, chúng ta có thể tính toán được

rủi ro thực nghiệm (Emprical Risk) dựa trên tập dữ liệu huấn luyện S.

Trang 23

3.7.1.3.Rủi ro thực nghiệm

Cho S={(x 1 , y 1 ), …, (x ns , y ns )}, và c là hàm thiệt hại của f s (x) thì rủi ro thực nghiệm

R emp (f s ) của hàm f s (x) trên tập dữ liệu huấn luyện S được tính như sau:

i i s s

s

n f R

1

)),((

1)(

Tuy nhiên, việc tối thiểu rủi ro thực nghiệm không phải là điều kiện tất yếu làm

cho rủi ro toàn cục tối thiểu Chúng ta thấy rằng, trong trường hợp f s (x i )=y i  (x i , y i ) S

thì rủi ro thực nghiệm R emp (f s ) sẽ bằng 0, mặc dù vậy, trường hợp này là không tổng quát.

Vì hàm f s có thể đạt được rủi ro tối thiểu trên tập dữ liệu S (hiện tượng tài liệu tốt,

well-documented), nhưng có thể gây ra rủi ro lớn trong các tập dữ liệu khác Hiện tượng nàycòn được gọi là hiện tượng tràn lỗi (overfitting), nghĩa là giả thuyết fs chỉ tốt với tập dữliệu huấn luyện S (tối ưu cục bộ), nhưng không tốt với các tập dữ liệu khác

3.7.1.4.Nguyên tắc tối thiểu hoá rủi ro cấu trúc

Mặc dù, không trực tiếp tối thiểu được rủi ro toàn cục, nhưng nếu chúng ta tìm

được một hàm f s để có thể tối thiểu giới hạn trên của rủi ro toàn cục, thì R(f s ) cũng sẽ là

tối thiểu Giới hạn trên của rủi ro toàn cục là:

s

s S

emp S

n h

n h f

R f

()

(



(*)

Trong đó h: là chiều VC của {f s }

n s: là số mẫu của tập huấn luyện S

n s - : là giá trị của xác suất liên kết P(x,y)

Ví dụ: Độ tin cậy của P(x,y) là 90% (=0.1), tập S có 100 mẫu thì rủi ro toàn cụckhông lớn hơn Remp(fs)+T

T = ln200 1 1 6 10

Nếu h=1 thì T=0.281, nếu h=2 thì T=0.357, nếu h=10 thì T=0.645

Ta thấy rằng, h càng nhỏ thì số hạng thứ 2 trong vế phải của (*) càng nhỏ Tuynhiên, vì chiều VC nhỏ thì có thể gây ra lỗi thực nghiệm lớn, do đó, để tối thiểu rủi rotoàn cục, người ta làm như sau:

Trang 24

- Đầu tiên, chọn các hàm có rủi ro thực nghiệm là nhỏ nhất, tập các hàm này kíhiệu là Fempmin

- Sau đó, chọn trong tập các hàm Fempmin hàm nào có chiều VC là nhỏ nhất

ở đây, w,xR n ; bR x là biến, w và b là các tham số của f (x)

Thì bổ đề về số chiều VC của tập các hàm { f (x)} được Vapnik phát biểu như

sau:

Coi các hàm f(x) sign{w.xb}như là các giả thuyết Nếu tất cả các véc-tơ xi

1

giới hạn bởi h min((R 2 A 2 ), n)+1.

Từ bổ đề trên ta thấy rằng chiều VC của { f (x)} không phụ thuộc vào số các đặc

trưng (số chiều của véc-tơ xi), mà phụ thuộc vào độ dài Ơcơlit w của véc-tơ

Xuất phát từ mục đích tối thiểu hoá sự sai lệch trong quá trình kiểm tra, ý tưởngcủa Support Vector Machines (SVM) là với một lớp văn bản nhất định, tìm một siêuphẳng tối ưu để phân chia tập dữ liệu huấn luyện sao cho các văn bản thuộc lớp văn bảnđang xét sẽ thuộc về phía dương của siêu phẳng, còn các văn bản không thuộc lớp vănbản này sẽ thuộc về phía bên kia của siêu phẳng Một siêu phẳng được gọi là tối ưu nếukhoảng cách từ mẫu gần nhất đến siêu phẳng là lớn nhất

- Bài toán: Kiểm tra xem một văn bản d bất thuộc hay không thuộc một phân loại

c cho trước? Nếu d c thì d được gán nhãn là 1, ngược lại thì d được gán nhãn là –1.

Ở đây thực hiện việc lựa chọn các đặc trưng (từ) để biểu diễn văn bản Giả sử,

chúng ta lựa chọn được tập các đặc trưng là T={t1, t 2 , …, t n }, thì mỗi văn bản d i sẽ được

biểu diễn bằng một véc-tơ dữ liệu x i =(w i1 , w i2 , …, w in ), w ijR là trọng số của từ t j trong

văn bản d i Như vậy, tọa độ của mỗi véc-tơ dữ liệu xi tương ứng với tọa độ của một điểm

trong không gian R n Quá trình phân loại văn bản sẽ thực hiện xử lý trên các véc-tơ dữ

Trang 25

Dữ liệu huấn luyện của SVM là tập các văn bản đã được gán nhãn trước:

Tr={(x1, y1), (x 2 , y 2 ), …, (x ns , y ns )},

trong đó, x i là véc-tơ dữ liệu biểu diễn văn bản d i (x iR n ),

yi{+1, -1},

cặp (x i , y i ) được hiểu là véc-tơ x i (hay văn bản d i ) được gán nhãn là y i

Nếu coi mỗi văn bản d i được biểu diễn tương ứng với một điểm dữ liệu trong

không gian R n, thì ý tưởng của SVM là tìm một mặt hình học (siêu phẳng) f(x) “tốt nhất”trong không gian n-chiều để phân chia dữ liệu sao cho tất cả các điểm x+ được gán nhãn+1 thuộc về phía dương của siêu phẳng (f(x+)>0), các điểm x- được gán nhãn –1 thuộc vềphía âm của siêu phẳng (f(x-)<0)

Với bài toán phân loại SVM, một siêu phẳng phân chia dữ liệu được gọi là “tốtnhất”, nếu khoảng cách từ điểm dữ liệu gần nhất đến siêu phẳng là lớn nhất Khi đó, việc

xác định một văn bản xTr có thuộc phân loại c hay không, tương ứng với việc xét dấu

của f(x), nếu f(x)>0 thì d c, nếu f(x)0 thì d c.

Hình 4 Mô tả các siêu phẳng phân chia tập mẫu huấn luyện

Trong hình trên, đường tô đậm là siêu phẳng tốt nhất, và các điểm được bao bởihình chữ nhật là những điểm gần siêu phẳng nhất, chúng được gọi là các véc-tơ hỗ trợ(support véc-tơ) Các đường nét đứt mà các support véc-tơ nằm trên đó được gọi là lề(margin)

Cho tập dữ liệu huấn luyện:

Trang 26

( 1, 1), ,( , ), xi , {1 ,}

Ta xét các trường hợp dữ liệu huấn luyện như sau

3.7.2.1 Dữ liệu huấn luyện có thể phân chia tuyến tính và không có nhiễu

Trong trường hợp này, với tập dữ liệu huấn luyện Tr, tất cả các điểm được gán

nhãn +1 thuộc về phía dương của siêu phẳng, tất cả các điểm được gán nhãn –1 thuộc vềphía âm của siêu phẳng Khi đó chúng ta có thể tìm được một siêu phẳng tuyến tính códạng (1.2) là một mặt phẳng để phân chia tập dữ liệu này:

0 xb

Trong đó: wR n là véc-tơ hệ số

bR là hệ số tự do.

x là véc-tơ biểu diễn văn bản (véc-tơ trọng số của văn bản).

w.x là tích vô hướng của hai véc-tơ w và x.

i i i

Trang 27



b x

Vấn đề đặt ra bây giờ là xác định các hệ số w và b,  như thế nào để siêu phẳng

tìm được là tốt nhất? Siêu phẳng tốt nhất là siêu phẳng mà có khoảng cách từ điểm dữliệu huấn luyện gần nhất đến siêu phẳng là xa nhất Mà khoảng cách từ một điểm dữ liệu

xi đến siêu phẳng (1.2) là:

w

b x w x b w

b x

w. i  : là giá trị tuyệt đối của biểu thức w.x i +b

w : là độ dài Ơcơlit của véc-tơ w

Giả sử h(w,b) là tổng của khoảng cách từ điểm dữ liệu gần nhất của lớp +1 đến

siêu phẳng và khoảng cách từ điểm dữ liệu gần nhất của lớp –1 đến siêu phẳng Ta có:

w

b x w b

x w w

w

b x w w

b x w

x b w d x

b w d b

w

h

i y x i

y x

i y

x

i y

x

i y

x i y

x

i i i

i

i i i

i

i i i

i



2

min

min 1

min

)

; , ( min )

,

(

1 , 1

,

1 , 1

,

1 , 1

(1.7)

Như vậy, siêu phẳng tối ưu là siêu phẳng có h(w,b)  2  / w lớn nhất, tươngđương với w là nhỏ nhất, và  là lớn nhất

Chúng ta thấy rằng với cách xây dựng siêu phẳng phân chia dữ liệu thỏa mãn (1.3)

thì rủi ro thực nghiệm R emp sẽ bằng 0 Mặt khác, theo bổ đề Vapnik thì siêu phẳng tối ưu

được lựa chọn theo cách này sẽ có chiều VC là nhỏ nhất Do đó, siêu phẳng lựa chọn theocách này sẽ có khả năng đạt được mức rủi ro thực nghiệm là tối thiểu

Tóm lại, việc tìm siêu phẳng tốt nhất tương đương với việc giải bài toán tối ưu, với

v là một tham số của (1.8), (0,1):

2

1 ) (

Min

w   - (1.8)

Với ràng buộc: y iw.x i b , i  1, , n s

Trang 28

b w

i i b

2

1),,(Min

1

2 ,

Với ràng buộc i0, i=1, …, n s

i i

ns 1 i

0 L

0

i i i

i i

x y w

w L

y b

i , trong đó 0 nên ta có thể thay điều kiện này bằng

ns j

j i j i j i

L

1 1 2

1 ) (

Với các ràng buộc:

Trang 29

ns i i i

s i

ns j

j i j i j



nghĩa là * là một véc-tơ chứa các thành phần thoả mãn tổng trên đạt giá trị min

Khi đó các hệ số của siêu phẳng tối ưu là:

))((

* 1

ns i

i i i

x x y s

b

x y w

Trong đó x r là support véc-tơ thỏa mãn * r >0, s là tổng số các support véc-tơ của

siêu phẳng tối ưu

Từ (1.14) ta thấy rằng do i ≥ 0, nên nếu i = 0 thì tích i y i x i =0, do đó chỉ những

i >0 mới có ý nghĩa trong việc xây dựng véc-tơ w Theo điều kiện bổ sung trong hệ điều

kiện của định lý Kuhn-Tucker, * i (y i (w.x i +b)-)=0, thì * i >0 tương đương với

y i (w.x i +b)-=0 Như vậy, điểm xi được gọi là support véc-tơ cũng chính là điểm có i >0.

Bây giờ, để phân loại một văn bản x, ta chỉ cần xét dấu của hàm f(x)

* ( ))

i

i i i

3.7.2.2.Dữ liệu huấn luyện có thể phân chia tuyến tính nhưng có nhiễu

Trong trường hợp này, hầu hết các điểm trong tập dữ liệu huấn luyện Tr có thể

được phân chia bởi siêu phẳng tuyến tính Tuy nhiên có một số ít điểm bị nhiễu, nghĩa làđiểm có nhãn dương nhưng lại thuộc về phía âm của siêu phẳng, điểm có nhãn âm thuộc

về phía dương của siêu phẳng

Trang 30

Hình 6 Trường hợp dữ liệu có nhiễu

Khi đó, chúng ta thay ràng buộc (1.5) bằng ràng buộc (1.16)

Với i gọi là các biến lới lỏng (slack variable), i0, nhiễu xảy ra khi i >1

Khi đó bài toán tối ưu (1.8) với ràng buộc (1.5) được mở rộng thành bài toán(OP1) như sau :

n w

Với các ràng buộc

0 0

, 1, i ,

i i ns i i ns

i

i s

b wx y n

w b

w

L

1 1

1

2

1 ) ,

,

Trong đó, ={i }, ={i }, với (i=1, ,n s),  là các hệ số Lagrange multipliers.Lập luận tương tự như trường hợp đầu tiên (dữ liệu có thể phân chia tuyến tính vàkhông có nhiễu), ta có bài toán Lagrange đối ngẫu (OP2) là :

i j i

j i

L

2

1 ) (

Trang 31

j y

 (1.21)







ns i

*

)(2

1

r

ns i

r i i i

ns

x x y s

b

x y w



(1.24)

Trong đó: x r là support véc-tơ thỏa mãn: r * >0

s: là tổng số các support véc-tơ của siêu phẳng tối ưu

Khi đó, để gán nhãn cho một văn bản x ta chỉ cần xét dấu của hàm f(x)

* ( ))

i

i i i



3.7.2.3 Dữ liệu huấn luyện không thể phân chia tuyến tính được

Không phải tập dữ liệu nào cũng có thể phân chia tuyến tính được Trong trường

hợp này, chúng ta sẽ ánh xạ các véc-tơ dữ liệu x từ không gian n-chiều vào một không gian m-chiều (m>n) , sao cho trong không gian m-chiều này tập dữ liệu có thể phân chia

tuyến tính được Giả sử  là một ánh xạ phi tuyến tính từ không gian R n vào không gian



Khi đó, véc-tơ x i trong không gian R n sẽ tương ứng với véc-tơ (x i ) trong không

gian R m Thay (x i ) vào các vị trí của x i chúng ta có bài toán OP2 trong không gian

m-chiều là:

Trang 32

) ( ) ( 2

1 ) ( max

1 1

j i j i ns

i

ns j

j i

Để tính toán trực tiếp (x i ) thì rất phức tạp Từ (1.25) chúng ta thấy rằng, nếu biết

hàm nhân (Kernel function) K(x i , x j ), để tính tích vô hướng  (x i)  (x j)trong không gianm-chiều, thì chúng ta không cần làm việc trực tiếp với ánh xạ (x i ).

) ( ) ( ) ,

Thay (1.26) vào (1.25) chúng ta có thể viết lại bài toán tối ưu OP2 trong không

gian m-chiều như sau:

) , ( 2

1 ) ( max

1 1

j i j i ns

i

ns j j i

Trang 33

) ( 2

1

* 0

|

* 1

*

ns i

i i i r

ns i

i i i

x x K y s

b

x y w

* ( ))

i

i i i

( ) ( )

k k k i k j j

x

) ( 0

mà g , 0 )

( ) ( ) ,

3.7.3 Phương pháp giải bài toán tối ưu

Giải bài toán tối ưu để tìm * là công việc quan trọng của bài toán huấn luyệnphân loại, khi tìm được * việc học của bài toán phân loại văn bản theo phương phápSVM sẽ thành công Khi đó, để phân loại các văn bản, ta chỉ cần dựa vào những tham số

đã học được, và xét hàm dấu (hàm sign như đã trình bày ở phần trước ) để đưa ra quyết

Trang 34

OP2 là bài toán QP lồi, nên nếu hàm mục tiêu đạt cực trị địa phương thì nó cũng sẽ đạt

cực trị toàn cục Bởi lý do đó nên ý tưởng tìm * của bài toán OP2 là tại mỗi bước lặp

ta sẽ cập nhật lại giá trị cho một cặp biến (p , q ) trong tập hợp các biến {i }, i=1, , n s

mà việc thay đổi giá trị của cặp biến này sẽ làm tăng hàm mục tiêu (3.28) nhiều nhất, các biến còn lại giữ nguyên Quá trình lựa chọn cặp biến (p , q ) để thay đổi giá trị được lặp đi lặp lại, cho đến khi không thể chọn được một cặp (p , q ) nào mà có thể làm tăng hàm mục tiêu thêm được nữa, và giá trị của ={1,… ns } tại bước này chính là lời giải của bài toán tối ưu Cụ thể thuật giải của tiến trình tìm * như sau:

3.7.3.1.Thuật toán giải bài toán tối ưu

 Đầu vào:

Tập văn bản huấn luyện với:

xi Rn (n: số chiều của văn bản, hay chính là số thuật ngữ trong tập đặc trưng)

,

1

,

j i ij

i i i

x x K K

y C

Trong đó n s+ , n s- tương ứng với tổng số văn bản huấn luyện thuộc lớp duơng và

tổng số văn bản huấn luyện thuộc lớp âm, và

2

Mục đích: Tìm tập biến quyết định  i làm cực đại hàm mục tiêu sau:

ij j i j ns

i

ns j i

1 )

(

thoả mãn:

, 0

i i

y

C



Trang 35

(

) ( )

(

k q k p k

pq

j

ji j k j k

i

G G

S

K y G

, 1

, , , 1 , , W

, ,

0

, 1

, , , 1 , , W

) ( )

(

)

(

) ( )

j i

s k

j k j k

i

j i

s k

C

y y

n j

i j i

C

y y

n j

i j i

k q p

W q

 ( 1 )

) , ( max ) 

, , ,

) ( )

q q

k p

qq pq pp

C

K K K

q p q p

, , ,

) ( ) ( k q

k p p

qq pq pp

C

K K K

q p q p

Trang 36

P k p k

) ( ) 1 (

Đầu vào: đầu vào của thuật toán khởi tạo  0 này chính là các đầu vào của thuật

toán giải bài toán tối ưu

1 ,

i i

y C

) )

t j

t

i

j

ji j

t j

t

i

V

K y G

|

) 2

1

|

) 1

j

y j

t j

y j

t j

a V

V

Tiêu đề	Xây Dựng Hệ Thống Phân Loại Văn Bản Tiếng Việt Sử Dụng Phương Pháp Máy Véc Tơ Hỗ Trợ Kết Hợp Các Phương Pháp Tối Ưu Kích Thước Dữ Liệu
Trường học	Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Hà Nội
Chuyên ngành	Xử lý Ngôn ngữ Tự nhiên
Thể loại	Luận văn tốt nghiệp
Năm xuất bản	2023
Thành phố	Hà Nội

Định dạng
Số trang	72
Dung lượng	2,48 MB