1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng hệ thống phân loại văn bản tiếng việt sử dụng phương pháp máy véc tơ hỗ trợ kết hợp các phương pháp tối ưu kích thích dữ liệu

74 102 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 74
Dung lượng 25,8 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

đây dược cho là một trong những phương pháp phân loại tốt nhất hiện này đồng thời kết hợp tập trung giãi quyết vấn để "số chiêu đặc trưng lớn" bans cách áp dụng các phương pháp eiàm chiề

Trang 1

DẠI ỉIỌ C ỌƯÓC G IA IỈẢ NỘI

Trang 3

Tóm tắt luận văn

Phân loại văn bàn là một trong những bài toán quan trọng trong xử lý văn hàn tiếng Việt Một trong những thách thức cùa bài toán phân loại văn bàn là sỏ lượng đặc trưng (thuộc tính) dùng đe phân toại thi thường rất lớn Bên cạnh dó, khi áp dụng vào ưong xìr lý tiếng Việt chúng ta cần phai khảo sát hiệu quả của các phương pháp phân loại trên một số dặc diem riêng của tiếng Việt như việc sử dụng từ hay âm tiết.

Luận văn trình bày phương pháp phân loại Máy Véc-tơ hồ trự đây dược cho là một trong những phương pháp phân loại tốt nhất hiện này đồng thời kết hợp tập trung giãi quyết vấn để "số chiêu đặc trưng lớn" bans cách áp dụng các phương pháp eiàm chiều đặc trưng Sau khi trình bàv tổnẹ quan về các tiếp cận giam chiểu đặc trưna luận vãn đi sâu vào trình bày các tiếp cận Lantern semantic index Centroid Orthogonal Centroid, G SVD/LDA được áp dụna cho dữ liệu phán cụm phù hợp với bài toán phân loại văn bản Trên cơ sờ dó chúng tôi cài đặt và thử nghiệm, đưa ra bảng so sánh đánh giá các kết quà phân loại được ứns dụne cho bài toán phân loại vãn bán tiếng Việt trôna hai trường hợp dựa vào đặc điểm riêng của tiếng Việt là sử dụng tách từ và âm tiết.

1

Trang 4

Mục lục

Tĩim tát luận v ă n 1

Dainh mục thuật n gữ 4

Dainh mục các hình v ẽ 5

Dainh mục các bảng « 5

Chiưoiìg 1 : Tổng quan 6

Il I Giới thiệu bài tốn xứ lý văn bàn 6

11.2 Các phưang pháp phân loại văn ban 6

11.3 Vấn dề giảm chiều đặc trưng 7

1.3.1 Giới thiệu 7

1.3.2 Các tiếp cận và tinh hình nghiên cứu ở Việt Nam 9

11.4 Đặc điềm của tiếng Việt 9

11.5 Mục tiêu của luận vãn 10

Ch ương 2: Biểu diễn văn bản 11

2 ! G i ĩ i t h i ệ u 11

2.2 Mơ hình Boolean 12

2.3 Mơ hình tần suất (Term Frequency - TF) 12

2.4 Mỏ hình nghịch đào tần sổ văn bản ( Inverse Document Frequency - IDF) 13

2.5 Mơ hình kết hợp TFxIDF 13

2.6 Áp dụng phưang pháp véc-tơ thưa trong lưu trữ văn bàn 13

Ch ương 3: Các phương pháp phân loại văn bản 15

3.1 Giới thiệu 15

3.2 Ọuv trình phân loại văn bán 15

3.3 Đặc điểm cùa Tiếng Việt và ảnh hưởng trong phân loại văn bản 16

3.3.1 Đặc điểm tiêng V iệt 16

3.3.2 Ánh hưởng trong phân loại văn bản 18

3.4 Phương pháp phân loại Nạve Bayes 18

3.5 Phương pháp phân loại Centroid- based vector 19

3.6 Phương pháp phùn loại k-Nearest Neighbor (kNN) 19

3.7 Phân loại văn bản bang phưong pháp Support Vector Machines 20

3.7.1 Lý thuyết học thơng kê 20

3.7.1.1 Chiều VC (Vapnik Chervonenkis dimension) 20

3.7.1.2 Rủi ro cùa bài tốn học phân loại cĩ giám sát 22

3.7.1.3 Rủi ro thực nghiệm 23

3.7.1.4 Nậuỵên tắc tối thiểu hố rủi ro cấu trúc 23

3.7.1.5 Bồ đề Vapnik 24

3.7.2 Support Vector Machines 25

3.7.2.1 Dừ liệu huấn luyện cĩ thể phân chia tuyến tính và khơng cĩ nhiễu 26

3.7.2.2 Dữ liệu huấn luyện cĩ thể phàn chia tuyến tính nhưng cĩ nhiễu 30

3.7.2.3 Dừ liệu huấn luyện khơng thể phân chia tuyến tinh dược 32

3.7.2.4 Hàm nhân Kernel 34

3.7.3 Phương pháp giải bài tốn tối ưu 34

3.7.? 1 Thuật tốn giãi bài tốn tối ư u 35

3.7.3.2 Thuật tốn khới tạo các biến a " 37

Chưoìig 4: Các phưong pháp tối ưu kích thưĩc dữ liệu 39

4.1 Biểu diễn giám bậc của ma trận Term - Doc 39

4.2 Phương pháp Latent semantic analysis 41

4.2.1 Singular value decomposition 42

4.2.2 Thuật tốn giảm số chiều LSI/SVD 45

Trang 5

4.3 Phương pháp trọng tâm 47

4.3 i Binh phưcrng tồi thiếu 47

4.3.2 Thuật toán trọng tâm giám số chiều 49

4.4 Phưcmg pháp trọng tâm trực giao 49

4.4.1 Phân tích QR của ma trận 49

4.4.2 Thuật toán trọng tâm trực giao giảm số chiều 52

4.5 Phương pháp Linear discriminant analysis 52

4.5.1 Hàm phân lớp tuyến tính của Fisher (Fisher’s linear discriminant - FLD) 52

4.5.2 Generalized Singular Value Decomposition (G SV D ) 53

4.5.3 Linear discriminant analysis trong da lớp 55

4.5.4 Thuật toán giảm số chiều LDA/GSVD 56

Chưong 5: Cài đăt chuông trình và kết quả thử nghiệm 58

5.1 Chức năng tiên xử lý vân bản 58

5.1.1 Chuẩn h óa 58

5.1.2 Xây dựng bộ từ điển 58

5.1.3 Biểu diễn văn bàn 59

5.1.4 Thuật toán giảm số chiều vãn bàn 59

5.1.4.1 Thuật toán giảm sộ chiều LSI/SVD 59

5.1.4.2 Thuật toán giảm số chiều Centroid 60

5.1.4.3 Thuật toán giảm số chiều Orthogonal Centroid 60

5.2 Huấn luyện và phân loại 61

5.2.1 Phương pháp SVM 61

5.2.1.1 Quá trình huấn luyện 61

5.2.1.2 Quá trình kiểm tra 63

5.2.1.3 Phân loại vãn bán 64

5.3 Ket quá thực nghiệm 65

5.3.1 Vãn bản được tách thành các từ (word segments) 65

5.3.2 Văn bản dược tách thành các âm tiết 67

Kết luận .70

Tài liệu tham khảo 71

3

Trang 6

2 kNN k-Nearest Neighbor k láng giềng gần nhất (phân loại

văn bàn)

Classification)

Bài toán phân loại văn hàn

6 FLD Fisher’s linear discriminant Hàm phân lớp tuyến tính Fisher

7 LSI Latent semantic indexing Đánh chi mục ngữ nghĩa ẩn

8 SVD Singular value decomposition Phân tích giá trị kỳ dị

9 GSVD Generalized Singular Value

Trang 7

Danh mục các hình vẽ

Hình 2 Minh họa chiểu v c của tập các hàm Ịf(x)} trong không gian hai chiêu với 3

điêm dữ liệ u 21

Hình Minh họa các hàm ịf(x)Ị trong không gian hai chiểu với 4 điếm dữ liệ u 22

Hình 4 Mô tá các siêu phăng phân chia tập mẫu huấn luyện 26

Hình 5 Siêu p hănẹ phân chia dữ liệu và các ràng b u ộ c 27

Danh mục các bảng Bàng l Dữ liệu huấn luyện và kiêm th ử 65

Báng 2 Độ chính xác phân loại trên mỏi chuvên mục và trên toàn bộ tập dừ liệu trường hợp văn bàn tách thành các từ sư dụng thuật toán giám chiểu LSI/SVM 65 Bâng 3 Độ chỉnh xác phân loại trên moi chuyên mục vò trên toàn bộ tập dữ liệu trường hợp văn ban tách thành các từ sứ dụng thuật toán giam chiểu Centroid và Orthogonal C entroid 66

Bủng 4 Chì p h í thời gian huấn luyện và phân loại sử dụng hàm nhản Poly (d - 2 ) trường hợp văn bán được tách thành các từ 67

Bãrg 5 Chi p h í thời gian thực hiện các thuật toán giảm chiểu trường hợp văn bản được tách thành các t ừ 67

Bárg 6 Độ chính xác phân loại trên môi chuyên mục và trên (oàn bộ tập dừ liệu trường hợp văn bàn tách thành các âm tiết sử dụng thuật toán ẹiớm chiểu LSI/SVM 67

Bárg 7 Độ chinh xác phần loại trên moi chuyền mục và trên toàn bộ tập dừ liệu trường hợp văn bán tách thành các âm tiết sư dụng thuật toán giảm chiều Centroicỉ và Orthogonal C entroid 68

Bars; 8 Chi p h i thời gian huấn luyện và phán loại sứ dụng hàm nhân Polỵ (ci-2) trường hợp văn bản dược tách thành các âm tiế t 69

Bàrg 9 Chi p hi thời gian thực hiện các thuật toán giám chiều trường hợp văn bàn được tách thành các âm tiế t 69

5

Trang 8

Chương 1: Tổng quan

1.11 GIỚI thiệu bài toán xử lý văn bản

Ngày nay cùng với sự phát triển mạnh mẽ của công nghệ thỏim tin thì nhu cầu lưui trừ va trao doi thône tin bàng văn hàn số tăng lên với sổ lượng rất lớn Đó là côntĩ văni giấy tờ trong các doanh nghiệp và tổ chức hành chính được số hóa lưu trừ dưới dạnig văn bàn tin bài trên các web site báo điện tử, nội dung thông tin trao đôi trong ermail,

Với một cơ sờ dừ liệu có số lượng văn bản khổng lồ cùng với nhu cầu trao đồi thô'ng tin rất lớn thì một lớp bài toán xir lý văn bản ra đời nham khai thác một cách hiệtu quà thông tin từ dữ liệu văn bàn Lớp các bài toán xử lý văn bàn bao gồm: dịch tự độnig văn bàn, tóm tắt văn bản, tìm kiếm văn bản, phân loại văn bản,

Xử lý văn bàn là một kỹ thuật chung để trích chọn ra những thông tin có ích chưa được biết đến, còn tiềm ẩn từ những văn bản Xử lý văn bản cỏ nhiệm vụ thu thập và phàn tích văn bản bàng các công cụ tự động hoặc bán tự động từ các nguồn văn bàn đã có khác nhau, để có dược các tri thức mới, chưa dược biết đến trước đó; phát hiện ra các mô tà chune, cùa các lớp đổi tượng văn bàn, các từ khoá, các mối liên quan về mặt nội dung, sự phân loại của các đối tượng văn bàn, v.v

Bài toán tự động phản loại văn bàn (Text Classification) là bài toán quan trọne cần eiải quyết trong xử lý văn bàn Kết quả của phân loại được ứna dụng trực tiếp và

là một thành phần quan trọne trong nhiều hệ thống xử lý thông tin khác như trong hệ thống lọc thư rác (mail spam) hay lay tin tự động Ngoài ra nó cũng có írng dụng hỗ trợ trong nhiều bài toán xừ lý vãn bản như tim kiếm, dịch máy, tóm tắt văn bán.

1.2 Các phương pháp phân loại văn bản

Trong xử lý vãn bản, các phương pháp học mảy dã chứng tỏ được tính hiệu quà vượt trội Một số phương pháp phân loại thône, dụng đã dược sử dụng như quyết định Bayes (Mitchell, 1996), cây quyếl định (Fuhr et al, 19 9 1 ), véc-tơ trọng tâm (Centroid- based vector) (Han, Karypis 2000), k-lántỊ giềng gần nhất (Yang, 1994), mạng nơron (Wiener et al, 1995), Những phương pháp nàv đã cho kết quà chấp nhận được và được sử dụng trone thực tế Prone những năm «ần đây phương pháp phân loại sử dụng Bộ phân loại véc-tơ hồ trợ (SV M ) được quan tâm và sir dụng nhiều trong những lĩnh vục nhận dạng và phân loại (Joachims, 1998) SVM là một họ các phươna pháp dựa trèn cơ sờ các hàm nhân (kernel) dề tối thiểu hóa rủi ro ước lirợne.

Trang 9

Phương pháp SVM ra dời từ lý thuyết học thổng kê do Vapnik và Chiervonenkis xây dựng và có nhiều tiềm năng phát triền về mặt lv thuyết cũns, như ứng dụng trong thực tiền Các thử nghiệm thực tố cho thấy, phương pháp SVM cỏ khà nărsg phân loại khá tốt đối với bài toán phân loại văn bàn cũng như tron li nhiều ứng dụng khác (như nhận dạng chừ viêt tay, phát hiện mặt người tronc các ánh ước lượng hồi quy ) So sánh với các phương pháp phân loại khác, khả năns phàn loại cùa SVM là tương dương hoặc tốt hơn đáng kể (Nguyền Linh Giang và Nguyền Mạnh Hiền, 2005).

Hệ thốnụ phân loại văn bàn tiếng Việt ỡ nước ta đã có nhiều nhà nghiên cứu và phát triền xây dựnc trong những năm gần đây (Huỳnh Quyết Thắng và Đinh Thị Phương 1999) (Nguyền Linh Giang và Nguyễn Mạnh Hiển, 2005) Các hướng tiếp cận bài toán phân loại văn bàn đã được nghiên cửu bao gom: hướng tiếp cận hài toán phân loại bẳng lý thuyết đồ thị (Đ ồ Bích Diệp, 2004), cách tiếp cận sử dụng lý thuyết tập thô (Nguyễn Ngọc Bình, 2004), cách tiếp cận thong kê (Nguyễn Linh Giang và Nguyễn Duy Hài, 1999), cách tiếp cận sử dụng phương pháp học không giám sát và đánh chi mục (Huỳnh Quyết Thẳng và Đinh Thị Phương, 1999) Nhìn chung, nhìme cách tiếp cận này đều cho kết quà chấp nhận được.

N hữ ng tháclì th ứ c trong bài toán phân loại văn bản Tiếng Việt:

1 Số chiều đặc trung lớn

Trong phân loại văn bàn lất cả các phương pháp gặp một khó khăn chung khi không gian dừ liệu với số chiều lớn Khi đỏ đòi hỏi không gian bộ nhứ dữ liệu lớn và mất nhiều thời gian xử lý văn bàn phân loại Đê giải quyết vấn đề khó khăn này luận văn sẽ trình bày và xây dựng hệ thống phân loại kết hợp với các phương pháp tối ưu kích thước dừ liệu được áp dụng cho văn bàn Tiếng Việt.

2 Phân tách câu thành các từ

Khác với tiếng Anh vãn hán tiếng Việt có thổ được biểu diễn bời danh sách các

từ hoặc âm tiết Đẻ biểu diễn văn hãn bởi các từ chúng ta phải xử lý bài toán tách từ (word segmentation) cho tiếng Việt Ilai cách sử dụnu này (âm tiết và từ) sỗ được khải) sát so sánh trong luận văn của chúng tôi.

1.3 Vấn đề giảm chiều đặc trưng

1.3.1 G ió i thiệu

Những tiến hộ trono, công nghệ thông tin như mạng máy tính (network), phần cứng (hardware), phàn mềm (software), cấu trúc dừ liệu và thuật toán đã tạo lên cơ sở

7

Trang 10

hạ tầng đủ mạnh để xử lý luồng dừ liệu khổng lồ trên web, tronẹ hệ thống máy tính, trong các bộ cảm biển mạng máy tính (sensor networks), trong việc phân tích gen DNA cùa người và các sinh vật khác, các loại dừ liệu ờ dạn a văn bản (text), ảnh, âm thanh song dô xử lý được luồng dừ liệu lớn vần còn là vấn dò phức tạp Trong bài giảng cho sinh viên với chu dê "Phân tích dữ liệu có sô chiều dặc trưng cao: Nlĩững thuận lợi và khó khăn” (High-Dimensional Data Analysis: The Curses and Blessings

o f Dimensionality) (David Donoho, 2000) tại đại học Standford năm 2000 tiến SV David Donolio đà điểm qua những thuận lợi và khó khăn trong việc giải quyết bài toán có số chiều đặc trưng cao dồng thời kêu gọi các nhà toán học trong the kỳ 21 quan tâm và đóne 2Óp hướng giải quyết nhiều hơn nữa cho lớp bài toán này.

Khái niệm “khó khăn cùa số chiều đặc trưng lớn” (curses o f dimensionality) (Richard Bellman, 1961) do Richard Bellman sử dụng Ian đầu tiên nói đến sự khó khản trong việc giải quyết các bài toán liên quan đến số chiều đặc trưng lớn (high dimension), s ổ lượne chiều (dim ension) của bài toán có thể là sổ lượna biến số liên quan, có thể do số lượne các bộ cảm biến (sensors) dùng dế thu thập dừ liệu rất lớn

Để xứ lý dù liệu với sổ chiều (dim ension) khổng lồ và sổ lượng khổng lồ đòi hỏi tìm kiếm trong một trong gian trạng thái lớn gấp nhiều lần khi dó chi phí về thời gian có thể theo đa thức hoặc hàm so 11ÌŨ.

Điều thú vị là bài toán toán xử lý dữ liệu lớn cũng có nhiều thuận lợi (blessings

o f dimensionality) trong toán học một trong những yếu tố thuận lợi của số chiều lớn chính là khái niệm “thước đo tập trung tương đối” (concentration o f measure) nói dến thống kê sự tập Iruna xấp xi khi có nhiều sự thể hiển có cùng đặc trưng Trong lý thuyết xác suất chúng ta có luật số lớn (law o f large numbers) giá trị trung bình cùa các sự thể hiện ngẫu nhiên thường hội tụ về giá trị kỳ vọng cùa biến ngẫu nhiên (constant) Hay định luật giới hạn trung lâm (central limit): Giá trị trung bình cùa các

sự thế hiện ngầu nhiên có hành vi giống như biến Gauss, khi ta chọn naẫu nhiên một

sự thê hiện trong dây các sự thể hiện thì kích thước dãy các sự thể hiện càng lớn thì các đặc trưne thong kê (trung bình, phươns s a i ) của sự thê hiện càng gan với đặc trung của dãy.

Giám chiều khônẹ gian đặc trưng trong bài toán phân loại văn bản nói riêng và các bài toán có số chiều lớn nói chung có vai trò quan trọng trong việc:

- Giảm thiếu khôníỊ gian bộ nhớ dừ liệu

- Tăng tốc dộ xử lý dừ liệu cho giải thuật xử lý văn bản

Trang 11

1.3.2 C ác tiếp cận và tình hình nghiên cứu ở V iệt N am

1 ^ f A • X A

C a c tic p c â n

Dược chia làm hai loại:

Các phương pháp giảm chiều đặc trưng cho dữ liệu chưa được phân cụm hav còn aọi là dữ liệu khôna siảm sát (Unsupervised) như Principal components analysis (Karl Pearson , 1901), Independent Component Analysis (Pierre Cornon, 1994) Locally linear Embedding (Sam T Roweis và Lawrence K Saul , 2000) Khi dừ liệu chưa phân cụm thì có thể áp dụnc các giải thuật phân cụm dế gom dừ liệu thành các nhóm sau đó áp dụne các phương pháp giảm sổ chiều cho dữ liệu đã được phân cụm.

Các phương pháp aiàni chiều đặc trưne cho dữ liệu dã được phàn cụm hay còn gọi là dữ liệu giám sát (Supervised) như Latent semantic indexing (Scott Deerwester,ext, 1988), Centroid (Park et al, 2003) , Orthogonal centroid (Park et al, 2003), Generalized singular value deconìpositon (GSVD/LDA) (Park et al, 2003), Linear discriminant analysis (Fisher, 1936),

2 Tình hình nghiên cứu Việt Nam

Ờ Việt Nam cũns, đâ có những nghiên cứu về giảm chiều đặc trưng như cách tiếp cận LSI (lantent semantic indexing) đánh chỉ mục ngừ nghĩa ẩn (Dương Thanh Tịnh, 2005) làm giảm chiều đặc trưng áp dụng trong hệ thống hồ trự tư vấn cho thương mại điện tử, sử dụng giải thuật phân tán cho inạng máy tính (Dỗ Thanh Nghị, 2002) phân phối công việc cho mạng máy tính xừ lý bài toán phân loại vãn bàn có số chiều đặc trưníỊ cao, xong vẫn còn ít và chưa được quan tâm nhiều đến lớp bài toán có

số chiều đặc trưng cao (high dimension).

1.4 Đặc điểm của tiếng Việt

Tiếng Việt thuộc ngôn ngữ dơn lập, tức lù mỗi một tiếng (âm tiết) dưực phát

âm tách rời nhau và được thể hiện bảng một chữ viết Đặc điềm này thể hiện rõ rệt ờ tấ! cả các mặt ngữ âm, từ vựng, ngữ pháp, về mặt ngữ âm, mồi tiếng là một âm tiết

Hè thống âm vị tiếng Việt phong phú và có tính cân dối, tạo ra tiềm năng của ngữ âm tiéng Việt trong việc thể hiện các đcm vị có nghĩa Nhiều từ tượng hình, tượng thanh

CC giá trị gợi tả dặc sẳc Tiếng là dơn vị cơ sờ của hệ thống các dơn vị có nghĩa của tiéng Việt Từ tiếng, người ta tạo ra các đơn vị từ vựng khác đè định danh sự vật, hiện tưmg Từ vựng tối thiểu cùa tiếng Việt phần lớn là các từ đơn tiết (một âm tiết, một tiếng) Từ của tiếng Việt không biến đổi hình thái Đặc điểm này chi phối các đặc đièm ngữ pháp khác Khi từ kết hợp từ thành các két cấu như naữ, câu, tièng Việt rất

9

Trang 12

coi trọng phương thức trật tự từ và hir từ Việc sắp xếp các từ theo một trật tự nhất dịĩih là cách chù yếu đổ biếu thị các quan hệ cú pháp, trật tự chủ ngừ dứng trước, vị ngừ đứng sau.

1.5 Mục tiêu của luận văn ■ •

Luận văn tập truntỉ trình bày các phương pháp tối ưu kích thước dừ liệu ứng dụrm trong hài toán phân loại văn hãn tiếng Việt Phương pháp phàn loại văn bàn sử dụng Iront» luận vãn là phương pháp Máy vec tơ hỗ trợ, là một trong những phương pháp phân loại tốt nhất hiện nay Nội dune cùa luận vãn dược trình bày bao gồm 5 chương và kết luận:

• C huông 1 Tổng quan: Giới thiệu về bài toán xìr lý văn hàn các cách tiếp cận trong bài toán phân loại văn bàn, đặc điểm của Tiếng Việt, vai trò cùa giảm chiều đặc trưns irone hài toán (high dimension) có số chiều lớn và tình hình nghiên cứu ở Việt Nam.

• Chirong 2 Biểu diễn văn bản: Trình bày các phương pháp biểu diễn văn bản trong không gian Vec tơ.

• C hương 3 C ác phương pháp phân loại văn bản: Trình bày các phương pháp phân loại văn bản, trong dó phương pháp Support Vector Machines được trình bày chi tiết và cụ thể hơn cả.

• C hương 4 Các phương pháp tối ưu kích thưcVc dữ liệu: Biểu diễn ma trận term- doc, định nghĩa bài toán giảm chiều, trình bày 4 phương pháp dược áp dụng cho dữ liệu đã được phân cụm I.SI Centroid Orthogonal Centroid, LDA/GSVD.

• C hưong 5 Cài đặt và kết quả thử nghiệm: Trình bày các bước cài đặt và các thành phần cùa chương trình phân loại văn bản Tiếng Việt, dưa ra kết quà so sánh giữa các phương pháp giảm chiều đặc trưng áp dụng tronc bài toán.

• Kểt luận: Đánh giá kết quà đạt dưực của luận văn và hướna nghiên cửu tiếp theo của luận văn

Trang 13

Chương 2: Biểu diễn văn bản

2.1 Giới thiệu

Như ta đã biết, dế có thể xứ lý dược các vãn han, ta phải chuyển chúne về đạnc

dữ liệu có cấu trúc Đe thực hiện dược công việc này người ta dưa ra các mô hình biểu diễn văn bàn Mô hình biểu diễn văn bản có ảnh hường rất nhiều đến hiệu quả và hiệu suất xử lv các vãn bàn TuỲ mục dích, yêu cầu dặt ra cùa ứng dụng mà chúng ta lựa chọn mô hình biểu diễn và phươrm pháp xử lý phù hợp.

Các 1Ĩ1Ô hình biểu diền văn bàn dã dược sử dụng như mô hình dựa trên tập mờ (Nguyễn íloàna Phương, 200ỉ)(Đ oàn Sơn 2002), mô hình tập thô dung sai (Hồ Tú Bão et al, 2 0 0 1), mô hình khôníỉ gian vectơ (Vector Space Model) (Sparck Jones, 1972)( G Salton et al, 1975) Trong luận văn này trình bày mô hình không gian vec- tơ.

Bản chất của mô hình không gian vec-tơ là mồi vãn bàn dược biểu diễn thành một véc-tơ Mồi thành phần của véc-tơ biểu diễn một thuật neừ riêng biệt trong tập vãn bản gổc và được gán một siá trị là hàm f cùa từng thuật ngừ trong văn bản Giá trị

f này tlurừng là trọng sổ của từ trong văn bản, dược xác định theo nhiều cách khác nhau Hình sau biểu diễn các véc-tơ vãn bán trong không gian chỉ có 2 thuật ngừ.

H ình 1 Biểu diễn các vẻc-tơ vãn bàn trong không gian chi có 2 thuật ngữ

Có nhiều biến thể của mỏ hình không gian véc-tơ dưới đây là một số dạne cùa

mò hình không gian véc-tơ:

11

Trang 14

2.2 Mô hình Boolean

Đây là mô hinh biểu diễn véc-tơ với hàm f cho ra giá trị rời rạc với duy nhất hai giá trị dúng và sai (true và false, hoặc 0 và 1 ) Hàm f tương ứng với thuật ngữ ti sẽ cho

ra giá trị dúnc nếu và chi nếu thuật ngữ ti xuất hiện trong văn hán đó.

Trọng số của thuật ngữ trong mô hình Boolean: Giả sứ có một cơ sở dừ liệu gồm m văn bàn, D = { d l d 2 , dm} Mỗi văn bàn dược biểu diễn dưới dạng một véc-

tư gồm n thuật neừ T = {11, t2 tn} Gọi w = {vv ij} là ma trận trọng số, trong đó vviị

là giá trị trọng số cùa thuật ngữ ti trong văn bàn dị.

Mô hình Boolean là mô hình đơn giàn nhất dirợc xác định như sau:

1 if t € d

0 if t, i d

2.3 Mô hình tần suất (Term Frequency - TF)

Các giá trị wij được tính dựa trên tần số (hay số lần) xuất hiện của thuật ngữ trong văn bản Gọi ỉìj là số lần xuất hiện cùa thuật naữ ti trong văn bàn dj khi dó wij được tính bởi một trong ba công thức:

wij =fij

Wịj = / + lo g ự ụ

Trong đó: log(X) - logarit cơ số 10 của X.

Trong phương pháp này, trọng số vvýđồng biến với số lần xuất hiện cùa thuật ngữ t, trong văn bản dị. Khi số lần xuất hiện thuật ngữ t, trong văn bản dj càng lớn thì điều đó có nghĩa là văn hãn dj càng phụ thuộc vào thuật ngữ t„ hay nói cách khác thuật ngữ /, mang nhiều thông tin trone vãn bàn d).

Ví dụ:

Cho văn bản D = “Khi tắt cá đểu nghĩ hai đội mạnh nhất Đông Nam Ả sắp sứa vào hai hiệp phụ thì bắt n g ờ cái đầu vàng cùa Lè Công Vinh đội lên tích tắc mang

về chiếc cúp A F F cho đội tuyển Việt Nam "

Và được phân đoạn như sau:

Trang 15

Khi tắt cá đểu nghĩ hai đội mạnh nhắt Đỏng Nam Ả sắp sứa vào hai

cúp_AFF cho đội tuyên Việt Nam

Tập từ khóa (bộ íừ điển): “Thế_fhao, Bónẹ đũ, Dội tuyến, Đông Nam_Ả,

Văn bàn D được biếu diễn bẳng phươna pháp tần suất là: D = (0,0,1, u , 1 )

2.4 Mô hình nghịch đảo tần số văn bản (Inverse Document Frequency - IDF)

Trong phương pháp nàv, aiá trị vvv được tính theo còng thức sau:

với m là số lượng vãn bản và hị là số văn bàn mà thuật ngữ t, xuất hiện 1'rọng

số Wự tron í; công thức này dược tính dựa trên độ quan trọne cùa thuật ngừ /, trong văn bán dị. Nếu /, xuất hiện trong càne ít vãn bản, điều đó có nuhĩa là nếu nó xuất hiện trong thì trọng số của nó đối với văn bản dị càng lớn hay nó là điểm quan trọng để phân biệt văn bàn dj với các văn bản khác và hàm lượng thông tin trong nó càng lớn.

Phương pháp này là kết hợp của hai phương pháp TF và ÍDF, giá trị cùa ma trận trọng so được tính như sau:

Phương pháp này kết hợp được ưu điểm cùa cà hai phương pháp trên Trọng số w„ được tinh bàng tần sổ xuất hiện cùa thuật ngữ t, trong vãn bản dj và độ hiếm của thuật ngừ t, trong toàn bộ cơ sờ dừ liộu.Tuỳ theo yêu cầu ràng buộc cụ thể của bài toán

mà ta sử dụng các mô hình biểu diễn văn bản cho phù hợp.

2.6 Áp dụng phương pháp véc-tơ thưa trong lưu trữ văn bản

Khi biểu diễn văn bàn theo mò hình véc-tơ chuẩn, việc xứ lý các phép toán trên véc-tơ sỗ phụ thuộc vào độ lớn của ma trận ỈVv i~ Ị Ị tì}, j - ị l m ị với n là số

Trang 16

lượng thuật ngữ hay số chiều cùa véc-tơ và m là số lưựng vãn bản có trong cơ sở dừ liệu Trên thực tế, số lượng thuật ngừ và số văn hãn thường rất lớn, có thế lên dến hàng nghìn hoặc hơn nữa Khi đỏ số lượng phan tử trong ma trận IV,. sẽ lên đến con số hàng triệu và việc lưu trừ ma trận IV,J sẽ tốn quá nhiều tài nguyên bộ nhớ đồng thời các phép toán trẽn các véc-tơ sè rát phức tạp Đê khăc phục vân dê này có thê sử dụng

kỳ thuật xứ lý trên véc-tơ thưa thay vì việc lưu trữ và xử lý trên các véc-tơ chuấn.

Véc-tư thưa là kiểu véc-tơ chi lưu trừ nhữnu thành phần từ khoá có sổ lần xuất hiện trong một văn bản là >0 và khônc lưu trữ những từ không xuất hiện trong vãn bàn Như vậy một véc-to thưa phải đảm bảo lưu dược 2 dừ liệu: chi sổ cùa từ và số lần xuất hiện, hoặc trọng số của từ dỏ trong văn bản Điều kiện để có thể áp dụng phương pháp véc-tơ thưa, là ta phải có các véc-tơ thực sự thưa (số phần tứ có trọng số khác 0 nhò hơn rất nhiều so với sổ thuật neữ trong cơ sở dừ liệu), đong thời phép xử

lý trên véc-tơ thưa khôna, được quá phức tạp.

Một ví dụ biểu diễn véc-tơ thưa từ các véc-tơ chuẩn:

Đổi với véc-tơ thưa:

do = ((ỉ, 2), (2, 3))

d, = ((1,1), (3,1), (4,4)) ci2 = ((Ị,ỉ) (5.3) (6.2))

Trang 17

Chương 3: Các phương pháp phân loại van bản

3.1 GIỚI thiệu

Phân loại văn hán là nhiệm vụ học có giám sát khi cho một số lớp văn ban dã dược xác dịnh trước, yêu cầu gán nhãn cho các văn bản vào một (hay một số) lớp văn bàn thích hợp dựa vào nội dune cùa các văn bán dó Các văn bán dà dược phân lớp (các mầu huấn luyện) trở thành nguồn, '['rong trường hợp thuận lợi nhất là chúng đã

có sẵn, khi đó quá trình phân loại bắt đẩu bàne việc học từ tập dừ liệu này, sau dó sẽ thực hiện phân loại tự độnc với các văn bàn khác Trường họp ít thuận lợi không có sẵn văn bán đã phân loại bằng tay; khi dỏ quá trình phân loại bẩt đầu một hành dộng phân loại và chọn một phương pháp tự động.

3.2 Quy trình phản loại văn bản

Quy trình của bài toán phân loại văn bàn dựa trên kỹ thuật học máy có thê dirợc biểu diễn qua các bước như sau:

- Từ tập dừ liệu ban đâu, chuẩn bị tập dừ liệu huấn luyện (Training Data) và tập

dữ liệu kiểm tra (Test Data).

- Tách từ trong văn bàn.

- Biểu diễn văn bàn theo định dạng có cấu trúc.

- Áp dụng phương pháp học đối với tập dữ liệu huấn luyện để phân loại văn bản.

- Sử dụng tập dữ liệu kiểm tra để thẩm định lại phương pháp.

- Đánh giá hiệu quà của phưcmg pháp học.

Cách tiếp cận học máy dựa trên một tập dừ liệu có sẵn từ đầu Q “ {đ|, dtQị}

c D trong đỏ D tập tất cà các văn bản đã dược phân lớp trước, d, là văn bàn thứ ị Tập các lớp C={C|, Cịcị}, c, là kí hiệu của lứp thứ i Hàm 0 DX c - » { /',F} với mọi

( d j, c, ) e í ì x c Một văn bán dj là mẫu dương của c, nếu ò ((l/ , c, ) = T , là một mẫu âm

Với mỗi cách phân loại dược đưa ra neười ta mong muốn đánh giá được hiệu quà phân loại của chúng Bởi vậy, trước khi xây dựng phân loại neười ta chia tập văn

15

Trang 18

bàn ban đầu thành 2 tập hợp, số các văn băn trong hai tập hợp này không nhất thiết phài bầng nhau:

- Tập huấn luyện (training (-and-validation) set) T r-ịả I, clịTị-|/ Phân lứp

& cho các phân loại C - / c / CỊCJ dược xây dựng quy nạp dựa trên sự quan sát các

đặc trưna cùa các văn bán tronc Tr.

- Tập kiêm tra (test set) Te-Ịdựy-Hị, .dịQỈ, được sử dụnq để kiểm tra hiệu quà của phân lớp Mỗi (Ị, e T e được dưa vào hệ thống phân lớp đế xác dịnh giá trị

phân lớp dựa trên sự phù hợp giữa 0(</ ,c ) và ) •

Trong dỏ T m T e = 0 Neu điều kiện này bị vi phạm thì kết quả đánh giá hiệu quà của mô hình mất đi yếu tổ khách quan, khoa học.

Hầu hết các phươrm pháp phàn loại văn bàn dựa trên kỹ thuật học máy hiện nay đều dựa vào tần xuất xuất hiện (số lần xuất hiện) cùa từ hoặc cụm tứ trong văn bàn, hoặc dựa vào tần xuất xuất hiện của từ tronạ văn bản và tần xuất văn bản (số các văn bán trong tập dữ liệu huấn luyện có chứa từ đỏ).

3.3 Đặc điểm của Tiếng Việt và ảnh hưởng trong phân loại văn bản

(Trung tâm từ điển học Việt Nam, 2000)

3.3.1 Đ ặc điềm tiến g V iệt

Tiếng Việt thuộc ngôn ngữ đơn lập, tức là mồi một tiếng (âm tiết) được phát

âm tách rời nhau và được thề hiện bằng một chừ viết Đặc điềm này thể hiện rõ rệt ở tất cá các mặt ngũ âm, từ vựng, ngữ pháp.

"tiếng", v ề mặt ngừ âm, mồi tiếng là một âm tiết Hệ thống âm vị tiếng Việt phong phú và có tính cân đổi, tạo ra tiềm năng của ngừ âm tiếng Việt trong việc thể hiện các đơn vị có nghĩa Nhiều từ tượng hình, tượng thanh có giá trị gợi tả đặc sác Khi tạo câu, tạo lời, người Việt rất chú V đến sự hài hoà về ngừ âm, đến nhạc diệu của câu văn.

đơn vị cư sở cua hệ thống các dơn vị có nghĩa cua tiếng Việt Từ tiếng, người ta tạo ra

Trang 19

các đơn vị từ vựng khác đẻ định danh sự vật, hiện tượng , chù yếu nhờ phương thức

g.hép và phương thức láy.

Việc tạo ra các đơn vị từ vựng ứ phương thức ghép luôn chịu sự chi phôi cùa

quy luật kết hợp ngừ nghĩa, ví dụ: đất nước, máy bay, nhà lầu xe hơi, nhà tan cửa nát

Hiện nay, dây là phương thức chú yếu dể sản sinh ra các đơn vị từ vựng Theo phương

thức này, tiếng Việt triệt đố sir dụnẹ các yếu tố cấu tạo từ thuần Việt hay vay mượn từ

các ngôn ngừ khác để tạo ra các từ, ngừ mới, ví dụ: tiếp thị, karaoke, thư diện tử (e-

mail), thư thoại (voice mail), phiên bàn (version), xa lộ thông tin, siêu liên kết văn

bản, truy cập ngẫu nhiên, V.V.

Việc tạo ra các đơn vị từ vựng ở phương thức láy thì quy luật phối hợp nqừ âm

chi phối chù yếu việc tạo ra các đơn vị từ vựng, chẳng hạn: chôm chia, chỏng chơ,

đỏng đa dònạ đành, tha thân, lúng lá lúng liếng, v.v.

Vốn từ vựng tối thiểu cùa tiếng Việt phần lứn là các từ đơn tiết (một âm tiết,

một tiếng) Sự linh hoạt trong sử dụng, việc tạo ra các từ ngữ mới một cách dễ dàng đã

tạo dieu kiện thuận lợi cho sự phát triển vốn từ, vừa phong phú về sổ lượng, vừa đa

dạng trong hoạt động Cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng,

có thể cỏ nhiều từ ngừ khác nhau biểu thị Tiềm năng của vốn từ ngừ tiếng Việt dược

phát huy cao độ trong các phong cách chức năng ngôn ngừ, đặc biệt là trong phong

cách ngôn ngừ nghệ thuật Hiện nay, do sự phát triển vượt bậc cùa khoa học-kĩ thuật,

đặc biệt là công nghệ thông tin, thi tiềm năng đó còn được phát huy mạnh mẽ hơn.

này sè chi phổi các đặc điểm ngữ pháp khác Khi từ kết hợp từ thành các kết cấu như

ngữ, câu, tiếng Việt rất coi trọng phương thức trật tự từ và lur từ.

Việc sấp xép các từ theo một trật tự nhất định là cách chù yếu dề biểu thị các

quan hệ cú pháp Trong tiếng Việt khi nói "Anh ta lại đến" là khác với "Lại đến anh

ta" Khi các từ cùng loại kết hợp với nhau theo quan hệ chính phụ thỉ từ đứng trước

giữ vai trò chính, từ đứng sau giữ vai trò phụ Nhờ trật tự kết hợp cùa từ mà "cù cải"

khác với "cãi cũ", "tình câm" khác vợi "căm tinh", Trật tự chu ngừ đứng trước, vị ngừ

đứng sau là trật tự phổ biến của kết cấu câu tiếng Việt.

Phương thức hư từ cũng là phirưne, thức ngữ pháp chủ yếu cùa tiếng Việt Nhờ

hư từ mà tồ hợp "anh cùa em" khác với tổ hợp "anh và em", "anh vi em" Hư từ cùng

với trật tự từ cho phép tiếng Việt tạo ra nhiều câu cùng có nội dung thông báo cơ bàn

như nhau nhưng khác nhau về sác thái biểu cám Ví dụ, so sánh các câu sau đây:

I' '■ V v ~

C w _ 5 b 0 0 0 0 3 0

Trang 20

- Ong ấy khơng hút thuốc.

- Thuốc, ơng ấy khơng hút.

- Thuốc, ỏng ấy cũng khơng hút.

Ngồi trật tự từ và hư từ, tiếng Việt cịn sử dụne phirơim thức ngừ diệu Ngừ điệu giữ vai trị trong việc biểu hiện quan hệ cú pháp cùa các yếu tố trong câu, nhờ đĩ nhằm đưa ra nội dung muốn thơng báo Trên vãn bàn, ngừ điệu thường được biêu hiện bằng dâu câu Chúng ta thừ so sánh 2 câu sau để thay sự khác nhau trong nội dung thơng báo:

- Đêm hơm qua, cầu gãy.

- Đêm hơm, qua cầu gãy.

3 3 2 Ả nh h ư ở n g tro n g p h ân loại văn bản

Độ chính xác của kết quà tách từ cĩ ảnh hưởng rất lớn dến kết quà cùa phân loại, khơng thể cĩ một kết quà phàn loại tốt nếu như khơng tách được đúng các từ trong văn bàn Bời vậy, một vấn đề quan trọne đối với phân loại văn bàn là phải tách được chính xác các từ trong văn bản Các vãn bản dược viết hầng các ngơn ngừ khác nhau thì cĩ dặc trưng riêng cùa ngơn ngừ đĩ và khơng cĩ một phương pháp chung nào đe tách các từ trong các văn bản được viết bằng các ngơn naữ khác nhau Trong luận văn này chúng tơi sử dụng lại kết quà tách từ (C T Nguyen et al, 2006).

3.4 Phương pháp phân loại Nạve Bayes

Nạve Bayes là phương pháp phân loại dựa vào xác suất được sử dụne rộne rãi trong lĩnh vực máy học (Mitchell, 1996) (Joachims, 1997) (Jason, 2001 ) được sir dụng lần đẩu tiên trong lĩnh vực phân loại hởi Maron vào năm 1961 (Maron, 1961) sau đĩ trở nên phổ hiến dùng trong nhiều lĩnh vực như trong các cơng cụ tìm kiếm (Rijsbergen etal, 1970), các bộ lọc mail (Sahami et al, 1998)

Nạve Bayes sử dụng xác suất cĩ điều kiện giữa từ và chủ đề để dự đốn xác suất chủ đề cùa một vãn bản cần phân loại Điểm quan trọng của phương pháp này chính là ở chồ già định răng sự xuất hiện cùa tất cả các từ trong văn bản đều độc lập với nhau Như thế NB khơng tận dụng được sự phụ thuộc của nhiều từ vào một chủ đề

cụ thể Giả định đĩ làm cho việc tính tốn NB hiệu quả và nhanh chĩng hơn các phương pháp khác với độ phức tạp theo số mũ vì nĩ khơng sử dụna việc kcp hợp các

từ dế dưa ra phán đốn chù đề

Trang 21

De xác ciịnh văn han d thuộc chủ đề i nào đó là việc tìm xác xuất P(C' jí/), tức

la chù đề nào có xác xuất lớn nhất đối với văn bàn d thi d thuộc chù đè đó.

Công thức tinh xác xuất đầy dù Bayes:

P(d)

Thuật toán :

1 Tính xác xuất của mỗi từ worđt ị i- ỉ m ) xuất hiện trong mồi chủ đề C'

2 Tính tổne số từ của mồi lớp c ,

3 Tính xác xuất của chù đè c , đối với văn bàn d theo công thức

4 P(C] \d) = ụ \w o r d, I c )*P(wonlĩ \C l )* * P(wonim I c,)) *(Tổng số từ

của chủ đề c )/ (Tổng số từ của tất cả các chủ đe)

5 Nếu Pic I í/ ) = argmax(P(C I d) thì vãn bàn (/ thuộc lớp V

3.5 Phương pháp phân loại Centroid- based vector

Là một phương pháp phàn loại dơn giàn, dễ cài đặt và tốc độ nhanh do có độ phức tạp tuyến tính O(n) (Han, Karypis 2000) Mỗi lớp trong dữ liệu luyện sẽ dược biểu diễn bởi một véc-tơ trợng tâm Việc xác định lớp của một vãn bản thừ bất kì sỗ thông qua viêc tìm véc-tơ trọng tâm nào gần với véc-tơ biểu diễn văn bản thử nhất Lớp cùa văn bàn thử chính là lớp mà véc-tơ trợng tâm đại diện Khoảng cách được tính theo độ do cosine.

3.6 Phưcyng pháp phân loại k-Nearest Neighbor (kNN)

kNN là phưcmg pháp truyền thống khá nổi tiếng về lurớns tiếp cận dựa trên thống kê đã được nghiên cứu trong nhận dạng mẫu hơn bốn thập kỷ qua (Dasarathy,

1991 ) kNN được đánh giá là một trong những phương pháp tốt nhất (áp dụng trên tập

19

Trang 22

dử liệu Reuters phiên bàn 21450), dược sứ dụniỉ từ những thời kỳ đầu cùa việc phân loại văn bàn Marsand et al, 1992) (Yang, 1994) (Iwayama, Tokunaga, 1995)

Khi can phân loại một văn bản mới thuật toán sẽ tính khoảng cách (khoảng cách Euclide, Cosine .) cùa tất cả các vãn bàn trong tập huấn luyện đến văn bàn này

để tìm ra k văn bàn gần nhất (gọi là k “láng giềng”), sau đỏ dùng các khoảng cách này đánh trọn Sĩ số cho tất cả chù đề Trọng số của một chù đề chính là tổng tất cá khoảng cách ờ trên cùa các văn bàn trong k láng giềns có cùng chú đề, chủ đề nào không xuất hiện trong k láng giềng sẽ có trọng số bằng 0 Sau đó các chủ dề sẽ được sấp xếp theo mức độ trọng sổ giảm dần và các chủ đề cỏ trọng số cao sẽ được chọn là chủ đề của vãn bàn cẩn phùn loại.

2 Sắp xếp các giá trị cos(c/,í/ ) trong mỗi tập j theo thứ tự giảm dần

3 Lấy k= 5 là so lane giềng gần nhất

4 Tính tổng Sumd{ j) = 1,1 œ s(d,dị) trong k vec tớ dầu tiền cùa tập j

5 N ếu sumd(x) = a rg m a x(suntj(j)) thì văn bản d thuộc lớp X

3.7 Phân loại văn bản bằng phương pháp Support Vector Machines

Support Vector Machines phân loại văn bàn theo cơ sờ phân loại nhị phân, có nghĩa là khi xét một loại vãn hàn nhất dịnh, thì việc phân loại một vãn bản sỗ là đưa ra

dự đoán văn bàn này có thuộc loại văn bản đang xét hay không Vì SVM xuất phát từ

lý thuyết học thống kê, dựa trên nguyên tac tối thiểu hoá rủi ro cấu trúc.

Nên trước hết ta hãy xem xét một số ỉý thuyết học thống kê có liên quan.

3.7.1 Lý thuyết học thống kê

3.7.ỉ 1 Chiều v c (Vapnik Chervonenkỉs dimension)

Xét các hàm fix): R-> {+1,-11'2"s cách để gán nhãn cho /ỉ, dicm Nêu với mỗi một cách gán nhãn ta đều có thể tim thấy một thành phần cùa tập hợp lf(x)} mà nhận dạng chính xác cách gán nhăn này Khi đỏ lập hợp của ns điểm được nói là bị

Trang 23

phá vỡ bời tập họp các hàm ff(x)}. Chiều v c cùa Ịtìx)! là số lớn nhất của các điểm dừ liệu mà có the bị phá vỡ bới I1Ó.

Chiều v c của các siêu phẳng trong không gian R"// + / Ví dụ, chiều v c của các dườne (hầng có hướtig trong không gian 2 chiều (R~) là 3.

gian hai chiêu với 3 diêm dữ liệu

Trên đây là ví dụ về chiều v c của không gian 2 chiều Khi số điểm dừ liệu >3,

V I dụ là 4, thì sổ cách gán nhãn (số hàm f(x)) sẽ không còn là 24 nữa.

21

Trang 24

o l

Ị •

° •

• o

A 5' ( X 1 , X 2 , X 3 , X 4 ) = 1 2 < 2 4 = 1 6

ỉlìn h 3 Minh họa cúc hàm ịf(x)ị trong không gian hai chiều với 4

điềm dữ liệu

3.7.1.2 Rủi ro của bài toán học phân loại cỏ giảm sát

Không gian đầu vào: X&R!'

Không gian dầu ra: Ke’ {-1,1}

Dữ liệu huấn luyện: S -{(xh y ị) (xns, y,JỈ

Hàm fs là ánh xạ từ tập X vào tập Y

f s • ' X Y

f s ■ X f—> y

Giả sứ mối liên quan giữa X V được cho bởi phân bổ xác suất liên kết

hợp các hàm [fsi fs : X -> Y , và f\ được học trên tập dữ liệu huấn luyện S} để tối

t h i ể u # ( / ) = [ c ( j \ ( -V) y ) P { X, y ) d x d v

Trang 25

Trong dó: R(ís)' là rúi ro toàn cục của f\(x).

c: là hàm thiệt hại (loss function), dùnc de do sự sai lệch cùa t](x)

so với V (y là giá trị quan sát thực tế của v).

Có nhiều cách đề dịnh nghĩa hàm c , ví dụ ta có thể chọn hàm c như sau:

Mục đích cùa chủng ta là tìm một hàm, hoặc một 2Ìá thuyết /s, dựa trên dừ liệu huân luyện có sần S-{(X/, V/J (x„y, V,JỈ sao cho rủi ro R là tối thiểu Vì trong thực

tế chúng ta không biết được phân bố thực sự P(x, y) nên chúng ta không thê biết được tất cả các khả năng xảy ra của tập dữ liệu kiếm tra Tuy nhiên, chúní» ta có thê tính toán dược rủi ro thực nghiệm (Emprical Risk) dựa trên tập dừ liệu huấn luyện s.

3.7.1.4 Nguyên tắc tối thiêu ho á rủi ro cấu trúc

Mặc dù, không trực tiếp tối thiểu dược rủi ro toàn cục, nhưng nếu chúng ta tìm được một hàm t\ để có thê tối thiêu giới hạn Irẻn cùa rủi ro toàn cục thì K(J j cũns sè

là tối thiêu Giới hạn trên cùa rùi ro toàn cục là:

23

Trang 26

Trong đó h : là chiều v c cùa l f s}

ns: là số mẫu cùa tập huấn luyện s

ns -Ồ : là giá trị của xác suất liên két P(x,y)

Vi dụ: Độ tin cậy cùa P(x.y) là 90% (5=0.1 ), tập s có 100 mầu thì rủi ro toàn cục không lớn hơn Rcmp(fs)+T.

Nếu h-1 thi T = 0.28l, nếu h -2 thì T=0.357, nếu h -1 0 thì T=0.645.

Ta thấy rằng, h càng nhỏ thì số hạng thứ 2 trong vế phái của (*) càng nhò Tuy nhiên, vì chiều v c nhỏ thì có thể gây ra lỗi thực nghiệm lớn do đó để tối thiểu rủi ro toàn cục người ta làm như sau:

- Đầu tiên, chọn các hàm có rủi ro thực nghiệm là nhò nhất, tập các hàm này kí hiẹu Ici 1'empmin-

- Sau dó chọn trona tập các hàm Fcmpmm hàm nào có chiều v c là nhó nhẩt.

3,7.1.5 Bồ dề Vapnik

Trong trường hợp các hàm học là tuyến tính và có dạng:

ở đây, U',.v eR n ; b e R X là bien VV và b là các tham số cùa f ( x )

Thì bổ dề về số chiều v c của tập các hàm { f { x ) } đưực Vapnik phát biểu như sau:

(1=1, 2, .n j trong tập mẫu, được bao trong một hình cầu có bún kính R và thỏa màn:\w.x, +b\ > 1 đặt |ịvvjị = A Thì chiểu v c của tập hợp các hàm này (ki hiệu là h)

f ( x ) = sign ị W.X + b\ - +1 if H ' , v + / > > ( )

-1 if w.x +b <0or VV.A" + b = 0

Trang 27

Từ hô đề trên ta thấy ràng chiều v c cùa / /(Á )/ không phụ thuộc vào số các

đặc trưng (số chieu của véc-tơ X ), mà phụ thuộc vào độ dài Ơcơlit Ị|vi| cùa véc-tơ

3.7.2 S u p p o r t V e cto r M a c h in e s

Xuất phát từ mục đích tối thiêu hoá sự sai lệch trong quá trình kiểm tra V tưởng

cùa Support Vector Machines (SVM ) là với một lớp văn bàn nhất dịnh tìm một siêu

phảng tối ưu để phân chia tập dừ liệu huấn luyện sao cho các vãn bản thuộc lớp văn

bán đang xét sẽ thuộc về phía dương cùa siêu phăng, còn các văn bán không thuộc lớp

văn bản này sẽ thuộc về phía bên kia của siêu phăng Một siêu phảng dược gọi là tối

ưu nếu khoảng cách từ mẫu gần nhất đến siêu phảng là lớn nhất.

- Bài toán: Kiém tra xem một văn bản (ỉ bất thuộc hay không thuộc một phân loại c cho trước? Neu d e c thì d được uán nhãn là 1 ngược lại thì được gán nhãn là

- 1.

ơ đây thực hiện việc lựa chọn các đặc trưng (từ) đê biểu diễn văn bàn Giả sử,

chúng ta lựa chọn được tập các đặc trưne là T={{\, tj /„/, thì mỗi văn bản d, sẽ

được biếu diễn bang một véc-tơ dữ liệu x,=(wn, wi2 W,J, \v,}eR là trọna số của từ tj

trong văn bàn dị. Như vậy, tọa độ cùa mồi véc-tơ dữ liệu X, tương ứng với tọa độ cùa

một điểm trong không gian R". Quá trình phân loại văn bản sẽ thực hiện xử ỉý trên các

véc-tư dừ liệu JC; chứ không phải là các văn bản dị.

Dữ liệu huấn luyện cùa SVM là tập các văn bàn đã được cán nhãn trước:

Tr={(xh y,J, ( x 2, y 2), (x„s

trong đó, X, là véc-tơ dữ liệu biểu diễn văti bàn d, (x, eR"),

y,<?/+/ -7 /,

cặp (.X, v j được h iểu là v é c-tơ JC, (hay văn bản ( i , ) được gán nhãn là Vị.

Neu coi mồi văn bản dt được biểu diễn tương ứng với một điểm dừ liệu trong

không gian R", thì V tưcVng của SVM là tìm một mặt hình học (siêu phăng) f(x) “tốt

nhất” trong không gian n-chiều đc phân chia dừ liệu sao cho tất cà các điểm X, được

gán nhãn +1 thuộc về phía dương của siêu phẳne (f(x+)>0), các diềm X được gán nhãn

- ỉ thuộc về phía âm cùa siêu phang (f(x.)<0).

Với bài toán phân loại SVM, một siêu phẳnu phân chia dữ liệu được gọi là “tốt

nhất", nếu khoảng cách từ diểm dừ liệu gần nhất dến siêu phẳng là lớn nhất Khi đó.

25

Trang 28

việc xác định một văn hán x ế T r cớ thuộc phân loại C' hay không, tương ứng với việc xét dầu của nếu f(x)>() thì d e c\ nếu f(x)<0 thi í ỉế c.

Hình 4 Mõ tà các siêu phăng phản chia tập mẫu huân luyện

Trong hình trên, dường tô đậm là siêu phầng tốt nhất, và các điếm được bao bời hình chữ nhật là những điểm gần siêu phảng nhất, chúng được gọi là các véc-tơ hồ trợ (support véc-tơ) Các đường nét đứt mà các support véc-tơ năm trên đó được gọi là lề (margin).

Cho tập dừ liệu huấn lu vện:

>>,), ( V ^ ) j , x« e / r ’-v< € H U ( ỉ ỉ )

Ta xét các trường hợp dừ liệu huấn luyện như sau

3.7.2.1 Dữ liệu huấn luyện có thế phân chia tuyển tính và không có nhiều

Trong trường hợp này, với tạp dừ liệu huấn luyện Tr, tất cả các điểm được gán nhãn +1 thuộc về phía dương của siêu phảng, tất cả các điểm được cán nhãn -1 thuộc

về phía âm cùa siêu phảng Khi dó chúng ta có thể tìm được một siêu phẳng tuyến tính

có dạng ( 1.2) là một mặt phẳng để phân chia tập dữ liệu này:

Trang 29

H V là tích vô hướng cùa hai véc-tơ vv và .V.

Vấn đề dặt ra bây giờ là xác định các hệ số vv và b , p như the nào đẻ siêu phẳng tìm được là tốt nhất? Siêu phẳng tốt nhất là siêu phảng mà có khoảng cách từ điểm dữ liệu huấn luyện gần nhất đến siêu phẳna ià xa nhất Mà khoảng cách từ một

Trang 30

juj| : là độ dài Ocưlit cùa véc-tơ \v

Giả sir h(w,b) là tồng của khoảng cách từ diêm dữ liệu gàn nhất cùa lớp t I den siêu phảng và khoảng cách từ điềm dữ liệu cần nhất cùa lớp -1 đến siêu phăng Ta có:

đương với ịivvịị là nhỏ nhất, và p là lớn nhất.

Chúng ta thấy rằng với cách xây dựng siêu phẩn? phân chia dừ liệu thỏa mãn (1.3) thì rủi ro thực nghiệm Remp sẽ bang 0 Mặt khác, theo bo đề Vapnik thì siêu phẳnR tối ưu được lựa chọn theo cách này sê có chiều v c là nhỏ nhất Do đó siêu phang lựa chọn theo cách này sẽ có khả năng đạt dược mức rủi ro thực nghiệm là tối thiểu.

Tóm lại, việc tim siêu phảng tốt nhất tưưng dương với việc giải bài toán toi ưu với V là một tham số cùa ( 1.8), V€(0,1):

Trang 31

I ■ ? n'f Min L (\\\b ,a) = Ijni - iy> + V a , ( V,[u v; + />]- p ) - ổ p

Với ràng buộc a,>(), / - I //,.

p>0 Nghiệm của bài toán tối ưu (1.8) với ràng buộc ( 1.5) chinh là diêm yên ngựa của hàm Lagrange ( 1.9).

Theo định lý Kuhn-Tucker, giá trị tối thiểu của (1.9) trên b, vv và p dạt được khi:

Thay (1.10) vào ( 1.9) ta có bài toán Lagrange đối ngầu:

max L0(or) = - - Ỹ * È a ia ,y <y,x ix , ( 1 •11 )

2 Ì= 1 j - ]

nuliĩa là a* là một véc-tơ chứa các thành phan thoà màn tong trên dạt giá trị

29

Trang 32

K h i đ ó c á c h ệ s ô c ù a s iê u p h à n g tô i ư u là:

(=1

(1.14)

^ rịal >0 i-'ẵ Trong dỏ -V, là support véc-tơ thỏa mãn or* >0, 5 là tổng số các support véc-tơ cùa siêu phang tôi ưu.

Từ (1.14) ta thấy rang do a,>0. nên nếu ( X i - 0 thì tích ƠLV,X, =0. do dó chi nhừne

điều kiện của định 1Ý Kuhn-Tucker, a ,( y l(w.x,+b)-p)=0, thì a i>0 tương đirưng với

a,>0.

Bày giờ, để phân loại một văn bàn -V, ta chi cần xét dấu cùa hàm f(x)

3.7.2.2 Dữ liệu huấn luyện có thế phân chia tuyến tính nhung có nhiễu

Trong trường hợp này, hầu hết các điểm trong tập dữ liệu huấn luyện Tr có thể được phân chia hởi siêu phăng tuyến tính Tuy nhiên có một số ít điểm bị nhiều, nghĩa

là diểm có nhãn dương nhưng lại thuộc về phía âm của siêu phảng, điểm cớ nhãn âm thuộc về phía dương của siêu phẳng.

Trang 33

Hình 6 Trường hợp (lừ liệu có nhiễu

Khi đó, chúng ta thay rà na buộc (1.5) bằng ràng buộc (1 1 6 ).

y'Ị u V, + / ) ] > / > - ' , i = 1 nt ( 1 1 6 )

Với gọi là các biến lới lỏng (slack variable) Çj>0, nhiễu xảy ra khi >1 Khi đỏ bài toán tối ưu ( 1.8) với ràng buộc ( 1.5) dược mở rộng thành bài toán (OP1 ) như sau :

và không có nhiều), ta có bài toán Lagrange đoi ngẫu (OP2) là :

maxZ.0(or) = - i ^ Ỹ ,a> a >y>y >X'X > + Ê a * (L2°)

Trang 34

Giài bài toán tối ưu OP2 trên ta tim được nghiệm là u khi dó các hệ số của siêu phăng tối ưu là:

Trong đó: x r là support véc-tơ thỏa mãn: a ,‘ >0

s: là tổne sổ các support véc-tơ cùa siêu phầng tối ưu

Khi dó để gán nhãn cho một văn bản X ta chi cần xét dấu của hàm f(x)

f

/ ( V ) = s i g n

J

3.7.2.3 Dữ liệu huấn luyện không thể phân chia tuyến tính được

Không phãi tập dừ liệu nào cũng có thể phân chia tuyến tính được Trong trườrts hợp này, chúng ta sẽ ánh xạ các vẻc-tơ dừ liệu X từ không aian //-chiều vào một không gian /H-chiều (/»>/?) , sao cho tron? không gian m-chiều này tập dừ liệu có thể phân chia tuyển tính dược Giả sir là một ánh xạ phi tuyến tinh từ không gian R" vào không gian Rm.

Trang 35

Dò tính toán trực tiếp çV.xV thì rất phức tạp Từ (1.25) chúng ta thấy ràng, nếu biết hàm nhân (Kernel function) K(x„ X,), để tính tích vô hướng ệ ị x )<p{x ) trong khôníỉ gian m-chicu thì chúng ta không cần làm việc trực tiếp với ánh xạ ộ(xj

Trang 36

3.7.3 Phương pháp giải bài toán tối ưu

Giải bài toán tối ưu dể tìm cx* là công việc quan trọng của bài toán huấn luyện phân loại, khi tìm được cx việc học cùa bài toán phân loại văn hán theo phương pháp SVM sẽ thành công Khi đó, dế phân loại các văn bản, ta chi cần dựa vào những tham

số đà học được, và xét hàm dấu (hàm sign như đã trình bày ờ phần trước ) đế dưa ra quyết định p h â n loại.

Bài toán tôi ưu như đã trình bày ờ trên có hàm mục tiêu là hàm bậc hai đối với

a, với các ràng buộc là tuyến tính Đồng thời, hàm mục tiêu và các ràng buộc của nó

là hàm lồi trong không gian R". Nên, nó dược gọi là hài toán QP (quadratic programming) lồi Vì OP2 là bài toán QP lồi, nên nếu hàm mục tiêu đạt cực trị địa phương thì nó cũn a sẽ dạt cực trị toàn cục Bởi lý do đó nên ỷ tướng tìm a của bài toán OP2 là tại mồi bước lặp ta sẽ cập nhật lại giá trị cho một cặp biến f ar, a ({) trong

biến (ap, a q) để thay đồi giá trị được lặp đi lặp lại, cho đến khi không thể chọn được một cặp (ap, a íf) nào mà có thê làm tăng hàm mục tiêu thèm được nữa và giá trị cua

Trang 37

(V Ị ơ\ a nsỊ tại bước này chính lả lời giâi cua bài toán tôi ưu. Cụ thê thuật ạiai của tiến trình tỉm (X* như sau:

3.7.3 Ị Thuật toán giứi bài toán tối ưu

Tập văn bản huấn luyện với:

X, e R 1' (n: sổ chiều cùa văn bàn hay chính là số thuật neữ trong tập đặc trưng)

tône sò văn ban huân luyện thuộc lớp âm và \\ = — — , V = -~

J-Mục đích: Tìm tập biến quyết định ị ơ ị Ị lâm cực đại hàm mục tiêu sau:

Ngày đăng: 21/03/2020, 00:19

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w