1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn một số thuật toán phân lớp tiêu biểu và phương pháp biểu diễn văn bản dựa trên các khái niêm mờ luận văn, đồ án, luan van, do an

38 631 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Luận văn Một số thuật toán phân lớp tiêu biểu và phương pháp biểu diễn văn bản dựa trên các khái niệm mờ
Tác giả Nguyễn Việt Cường
Người hướng dẫn Thầy Hoàng Quang Thụy, Tiến sĩ Đoàn Sơn
Trường học Trường Đại học Công nghệ, ĐHQG Hà Nội
Chuyên ngành Hệ thống Thông tin
Thể loại Luận văn
Năm xuất bản 2006
Thành phố Hà Nội
Định dạng
Số trang 38
Dung lượng 13,04 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Luận văn Một số thuật toán phân lớp tiêu biểu và phương pháp biểu diễn văn bản dựa trên các khái niêm mờBiểu diễn văn bản là một trong những công đoạn quan trọng nhất và được quan tâm đầu tiên trong các vấn đề xử lý văn bản. Nó có ảnh hưởng rất lớn đến các bài toán tìm kiếm văn bản, phân lớp, phân cụm hay tóm tắt văn bản Khóa luận này trình bày và nghiên cứu một phương pháp biểu diễn văn bản mới dựa trên cơ sở lý thuyết tập mờ và áp dụng vào bài toán phân lớp văn bản. Nội dung của khóa luận tập trung vào các vấn đề sau:

Trang 1

LỜI CÁM ƠN

Em xin bày tỏ lòng kính trọng và biết ơn sâu sắc tới thây giáo, tiễn sĩ HÀ QUANG THỤY, Trường Đại học Công nghệ, ĐHQG Hà Nội và tiễn sĩ ĐOÀN SƠN, Đại học Tohoku, Nhật Bản đã hướng dẫn và động viên em rất nhiều trong quá trình làm luận văn

Em xin được gửi lời cảm ơn tới các Thây, Cô trong Trường Đại học Công Nghệ, Đại học Quốc Gia Hà Nội và nhóm Xeminar thuộc bộ môn Các Hệ thống Thông tin, những người đã dạy dỗ, giúp đỡ và chỉ bảo cho em trong suốt quá trình học tập

Cuối cùng, con xin gửi lời biết ơn tới gia đình, nơi đã sinh thành, nuôi dưỡng

và động viên con rất nhiều trong thời gian qua

Hà Nội ngày 20/05/2006

Sinh viên

Nguyễn Việt Cường

Trang 2

TOM TAT

Biểu diễn văn bản là một trong những công đoạn quan trọng nhất và được quan

tâm đầu tiên trong các vấn đề xử lý văn bản Nó có ảnh hưởng rất lớn đến các bài toán tìm kiếm văn bản, phân lớp, phân cụm hay tóm tắt văn bản Khóa luận này trình bày và

nghiên cứu một phương pháp biểu diễn văn bản mới dựa trên cơ sở lý thuyết tập mờ và áp

dụng vào bài toán phân lớp văn bản Nội dung của khóa luận tập trung vào các vấn đề

sau:

1 Trình bày một số phương pháp biểu diễn văn bản thông thường, trong đó, khóa

luận đi sâu vào cách biểu diễn theo mô hình vector, tức mỗi văn bản sẽ được biểu diễn

như một vector có các thành phần là các từ khóa có mặt hoặc không có mặt trong văn bản Sau đó, khóa luận tìm hiểu phương pháp biểu diễn văn bản trong máy tìm kiếm

2 Trình bày về lý thuyết tập mờ, và đề cập một cách biểu diễn văn bản mới dựa trên các khái niệm mờ Từ đó đề xuất hướng giải quyết khi xuất hiện các từ đồng nghĩa

Trang 3

1.1.3 Ứng dụng của khai phá đữ liệu -2-2-©e©xevcxsrerreecrxe 5 1.2 Một số bài toán trong khai phá đữ liệu văn bản -+ 6 1.2.1 Tìm kiếm văn bản -2222222vv++rtt2222EEEEErrtrErrrrrrrrrrrrree 6

2.5 Biểu diễn văn bản trong máy tìm kiếm - 2 +ze+czvze+crree 20

2.5.1 Giới thiệu về máy tìm kiếm 2-22©2E++++C2+zevrrrxerrrrecree 20 2.5.2 Mô hình biểu diễn văn bản trong máy tìm kiếm . - 21 Chương 3 BIÊỂU DIỄN VĂN BẢN SỬ DỤNG CÁC KHÁI NIỆM MỜ 23

11

Trang 4

3.1 Lý thuyết mờ :-++++22EE++rrtttEEkxrrrrrrrrrrrrrrrrrree 23

BALD Tap m0 23 3.1.2 Các phép toán trên tẬp IỜ ¿+ + + + EsEEvseevrkreersrereree 25 3.1.3 Quan hệ mờ -¿- +2 52+tSt TH 2 111111111 27 3.1.4 Các phép toán trên quan hỆ mỜ_ - - + + 5+2 £+x£veeEexeeesese 27 3.2 _ Biểu diễn văn bản sử dụng các khái niệm mờ . - 5s <s«+ 29 3.2.1 Khái niệm mờ +- 25+ SE +tExevrkerekrkerkrrrkrrkrrrrrre 30

3.2.2 Biểu diễn văn bản

3.2.3 Đề xuất giải pháp cho vấn đề đồng nghĩa - 32

Chương 4 CÁC PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN 35 4.1 Tổng quan về bài toán phân lớp -22+z+£2+z++tzxze+crree 35 4.2 Các thuật toán phân lớp - -:::+22222vvvverrrrttrrrrrrrrrrrrrree 36

4.2.1 Phân lớp dựa trên thuật toán Naive Bayes

4.2.2 Phân lớp dựa trên thuật toán K - Nearest Neighbor (KNN) 38

4.2.3 Phân lớp dựa vào thuật toán cây quyết định -+- 39

4.2.4 Phân lớp su dung Support Vector Machines (SVM) 41

Chương 5 MỘT SÓ KÉT QUẢ THỰC NGHIỆM 2cce+cc+z 43 5.1 _ Tập dữ liệu và tiền xử lý - -ccccccsccccrrrtrrrrrrrrrrrrrrrrrerree 43

5.2 Công cụ và phương pháp phân lớp . - + +ss+++sx+x+eseeseexse 44

5.3 Kết quả thực nghiệm ©2++e+2EEEECEEEEEEEEE2.2E2.EErrrerrer 45 KÉT LUẬN VÀ HƯỚNG PHÁT TRIỄN . -v2ccc+++tccvvvvvee 53 I.10012009:7)/84 0 55

iv

Trang 5

MỞ ĐẦU

Ngày nay, sự phát triển mạnh mẽ của Internet đã dẫn đến sự bùng nổ thông tin về

nhiều mặt ké cả về nội dung lẫn số lượng Chỉ bằng một thao tác tìm kiếm đơn giản, ta có thể nhận về một khối lượng khổng lồ các trang web có chứa thông tin liên quan tới nội

dung ta tìm kiếm Tuy nhiên, chính sự dễ dàng này cũng mang đến cho con người rất nhiều khó khăn trong việc chất lọc ra các thông tin có ích để thu được các tri thức mới

Phát hiện tri thức và khai phá đữ liệu là câu trả lời mới nhất cho vấn đề này nhằm phát hiện ra các tri thức mới từ khối dữ liệu không lồ mà con người có được

Trong các loại dữ liệu thì văn bản là loại đữ liệu phổ biến mà con người thường gặp phải nhất Mô hình biểu diễn văn bản phổ biến hiện nay là mô hình không gian

vector, trong đó mỗi văn bản được biểu diễn bằng một vector của các từ khóa Tuy nhiên

bài toán khai phá dữ liệu văn bản thường gặp phải một số khó khăn như tính nhiều chiều

của văn bản, tính nhập nhằng của ngôn ngữ Trong khóa luận này, chúng tôi xin đề cập

đến một cách biểu diễn văn bản mới: biểu diễn dựa trên các khái niệm mờ Trong đó, mỗi

khái niệm sẽ được xác định bởi một tập các từ khóa liên quan Và mức độ liên quan của

khái niệm đến văn bản sẽ được xác định bằng hàm tích hợp mờ các từ khóa đó Sau khi đã

có một tập các khái niệm liên quan đến một hay nhiều chủ đề cần phần lớp, mỗi văn bản

sẽ được xem như là một vector có các thành phần là các khái niệm mờ đó

Với lượng thông tin dạng văn bản đồ sộ của Internet, một yêu cầu lớn đặt ra đối

với chúng ta là làm sao tổ chức và tìm kiếm thông tin có hiệu quả nhất Phân lớp (phân

loại) thông tin là một trong những giải pháp hợp lý cho yêu cầu trên Khóa luận sẽ trình bày một số thuật toán phân lớp tiêu biểu và đưa ra hướng thực nghiệm cho phương pháp biểu diễn văn bản dựa trên các khái niêm mờ

Chúng tôi áp dung thuật toán KNN (k — người láng giềng gần nhất) và phần mềm 'WEKA (K-người láng giếng gần nhất) để tiến hành phân lớp Phần thực nghiệm cho thấy rằng phương pháp biểu diễn van ban dựa khái niệm mờ có kết quả phân lớp tốt hơn so với

phương pháp biểu diễn văn bản theo vector từ khóa

Ngoài phần mở đầu và kết luận, nội dung của luận văn được trình bày trong 5

chương:

Trang 6

Chương 1, giới thiệu tông quan về khai phá đữ liệu văn bản, một số định nghĩa và một số bài toán điển hình

Chương 2, trình bày một số phương pháp biểu diễn văn bản truyền thống: mô

hình tần suất, mô hình phân tích cú pháp, mô hình không gian vector Đồng thời nêu ra cách biểu diễn văn bản thường dùng trong máy tìm kiếm

Chương 3, giới thiệu tổng quan về lý thuyết tập mờ [9][14] và một số phép toán

trên tập mờ Nội dung chính của chương là đề cập một cách biểu diễn văn bản mới dựa

trên các khái niệm mờ

Chương 4, trình bày bài toán phân lớp văn bản và một số thuật toán phân lớp tiêu

biểu

Chương 5, chỉ ra các kết quả thực nghiệm có được khi áp dụng mô hình biểu diễn

mới trong bài toán phân lớp văn bản Đánh giá và so sánh với mô hình biểu diễn thông thường

Trang 7

Chuong 1 KHAI PHA DU LIEU VAN BAN

1.1 Tong quan vé khai pha dir ligu

1.1.1 Khái niệm

Khai phá đữ liệu[1][7][13] là một khái niệm ra đời vào những năm cuối của thập

kỷ 80 của thế kỷ 20 Nó bao hàm một loạt các kỹ thuật nhằm phát hiện ra các thông tin có

giá trị tiềm ẩn trong các tập dữ liệu lớn như các kho đữ liệu, các cơ sở đữ liệu (CSDL) có dung lượng rất lớn Về bản chất, khai phá dữ liệu liên quan đến việc phân tích các dữ liệu

và sử dụng các kỹ thuật để tìm ra các mẫu có tính hệ thống trong tập dữ liệu

Một số định nghĩa tiêu biéu vé Data mining:

Khái niệm data mining được định nghĩa nhu sau: “The nontrivial extraction

of implicit, previously unknown, and potentially useful information from data” [13], tam dịch: “là việc trích rút một cách phức tạp các thông tin - an, không biết trước và có khả năng hữu ích - từ dữ liệu”

“The science of extracting useful information from large data sets or databases” [1], tam dich 1a: “Nghanh khoa hoc chuyên trích chọn những thông tin có giá trị từ những tập dữ liệu lớn hoặc các CSDL”

Năm 1989, Fayyad, Piatestky-Shapiro và Smyth đã đưa ra khái niém “Phat hiện tri thức trong cơ sở dữ liệu” (Kaowledge Discovery in Databases - KDD) để chỉ toàn bộ quá trình phát hiện các tri thức có ích từ các tập dữ liệu lớn [6] Trong đó, khai phá dữ liệu là một bước đặc biệt quan trọng trong toàn bộ quá trình, sử dụng các thuật toán

chuyên dụng để chiết xuất ra các mẫu (pattern) từ dữ liệu

1.1.2 Các bước của quá trình khai phá dữ liệu

Các thuật toán khai phá dữ liệu thường được miêu tả như những chương trình hoạt động trực tiếp trên tệp đữ liệu Với các phương pháp học máy và thống kê trước đây, thường thì bước đầu tiên của các thuật toán là nạp toàn bộ dữ liệu vào trong bộ nhớ trong

đề xử lý Khi chuyên sang các ứng dụng công nghiệp liên quan đến việc khai phá các kho

dữ liệu lớn, mô hình này không thê đáp ứng được Không chỉ bởi vì không thê nạp hết đữ liệu vào trong bộ nhớ mà còn vì không thể chiết suất dữ liệu ra các tệp đơn giản để phân

tích được

Trang 8

Quá trình khai phá dữ liệu bắt đầu bằng cách xác định chính xác vấn đề cần giải

quyết Sau đó sẽ xác định các dữ liệu liên quan dùng để xây dựng giải pháp Bước tiếp theo là thu thập các dữ liệu có liên quan và xử lý chúng thành định dạng sao cho các thuật

toán khai phá đữ liệu có thể hiểu được Về lý thuyết thì có vẻ rất đơn giản nhưng khi thực hiện thì đây thực sự là một quá trình rất khó khăn, gặp phải nhiều vướng mắc như đữ liệu phải được sao ra nhiều bản (nếu được chiết suất vào các tệp), quản lý tập các tệp đữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình (nếu mô hình đữ liệu thay đổi)

Sẽ là quá cồng kềnh với một thuật toán khai phá dữ liệu nếu phải truy nhập vào toàn bộ nội dung của CSDL và làm những việc như trên Vả lại, điều này cũng không cần thiết Có rất nhiều thuật toán khai phá dữ liệu thực hiện trên những thống kê tóm tắt khá

đơn giản của CSDL, khi mà toàn bộ thông tin trong CSDL là quá dư thừa đối với mục đích của việc khai phá dữ liệu

Bước tiếp theo là chọn thuật toán khai phá dữ liệu thích hợp và thực hiện việc

khai pha dé tìm được các mẫu có ý nghĩa dưới dạng biểu diễn tương ứng với các ý nghĩa

đó Thông thường các mẫu được biểu diễn dưới dạng luật phân loại, cây quyết định, luật

sản xuất, biểu thức hồi quy,

Xác định Xác định Thu thập

nhiệm vụ dữ liệu và tiễn xử

liên quan lý dữ liệu

Hình 1: Quá trình khai phá dữ liệu

Đặc điểm của các mẫu là phải mới, ít nhất là đối với hệ thống đó Độ mới có thể

được đo tương ứng với độ thay đỗi trong dữ liệu (bằng cách so sánh các giá trị hiện tại với

các giá trị trước đó hoặc các giá trị mong muốn), hoặc bằng tri thức (mối liên hệ giữa các

Trang 9

phương pháp tìm mới và phương pháp cũ như thế nào) Thường thì độ mới của mẫu được

đánh giá bằng các hàm logic hoặc hàm đo độ mới, độ bất ngờ của mẫu Ngoài ra, mẫu

phải có khả năng sử dụng tiềm tàng Các mẫu này sau khi được xử lý và diễn giải phải dẫn đến những hành động có ích nào đó được đánh giá bởi một hàm lợi ích Ví dụ như trong dữ liệu các khoản vay, hàm lợi ích đánh giá khả năng tăng lợi nhuận từ các khoản vay Mẫu khai thác được phải có giá trị đối với các dữ liệu mới với độ chính xác nào đó

Vì khi thi hành các thuật toán và các nhiệm vụ của khai phá dữ liệu là rất khác nhau cho nên dạng của các mẫu chiết xuất được cũng rất đa dạng Theo cách đơn giản

nhất, sự phân tích cho ra kết quả chiết xuất là một báo cáo về một số loại, có thể bao gồm

các phép đo mang tính thống kê về độ phù hợp của mô hình, các dữ liệu lạ Trong thực

tế thì đầu ra phức tạp hơn nhiều Mẫu chiết suất được có thể là một mô tả xu hướng, có

thể đưới dạng văn bản, một đồ thị mô tả các mối quan hệ trong mô hình, cũng có thể là

một hành động, ví dụ như yêu cầu của người dùng làm gì với những gì khai thác được trong CSDL

Như vậy có thể nhận thấy rằng kỹ thuật khai phá dữ liệu thực chất là sự kế thừa,

kết hợp và mở rộng của các kỹ thuật cơ bản đã được nghiên cứu từ trước như học máy,

nhận dạng, thống kê (hồi quy, xếp loại, phân nhóm), các mô hình đồ thị, mạng Bayes, trí

tuệ nhân tạo, thu thập tri thức hệ chuyên gia Tuy nhiên, với sự kết hợp hướng mục tiêu của khai phá dữ liệu, kỹ thuật này có ưu thế hơn hẳn các phương pháp trước đó, đem lại nhiều triển vọng trong việc ứng dụng phát triển nghiên cứu khoa học cũng như làm tăng

mức lợi nhuận trong các hoạt động kinh doanh

1.1.3 Ứng dụng của khai phá dữ liệu

Tuy là một hướng tiếp cận mới nhưng khai phá đữ liệu đã thu hút được rất nhiều

sự quan tâm của các nhà nghiên cứu và phát triển nhờ vào những ứng dụng thực tiễn của

nó [xx] Chúng ta có thể liệt kê ra đây một số ứng dụng điển hình:

" Phân tích dữ liệu và hỗ trợ ra quyết định (data analysis & decision support)

= Diéu tri y hoc (medical treatment)

= Text mining & Web mining

= Tin-sinh học (bio-informatics)

" _ Tài chính và thị trường chứng khoán (finance & stock market)

Trang 10

Phần tiếp theo, chúng tôi xin trình bày khái quát về Text Mining (gọi theo tiếng

Việt là Khai phá dữ liệu văn bản), một trong những ứng dụng điển hình nêu trên của khai

cầu Thực tế, các hệ thống tìm kiếm điển hình hiện nay, chẳng hạn như các máy tìm kiếm như Google, Altavista , không hoạt động như vậy mà đưa ra danh sách các văn bản theo

độ liên quan của văn bản với câu hỏi người dùng

s* Quá trình tìm kiếm

Quá trình tìm kiếm được chia thành bốn quá trình thành phần chính :

Đánh chỉ số (indexing): Các văn bản ở dạng thô cần được chuyển sang một dạng

biểu diễn nào đó để xử lý Quá trình này còn được gọi là quá trình biểu dién van bản, dạng biểu diễn phải có cau trúc và dễ dàng khi xử lý Một nội dung quan trọng của khóa luận này là nghiên cứu cách thức biểu diễn văn bản sử dụng lý thuyết tập mờ nhằm có

được biểu diễn văn bản mang nhiều ngữ nghĩa hơn

Định dạng câu hỏi: Người dùng phải mô tả những yêu cầu về lấy thông tin cần thiết dưới dạng câu hỏi Các câu hỏi này phải được biểu diễn dưới dạng phô biến cho các

hệ tìm kiếm như nhập vào các từ khóa cần tìm Ngoài ra còn có các phương pháp định

dạng câu hỏi dưới dạng ngôn ngữ tự nhiên hoặc dưới dạng các ví dụ, đối với các đạng này

thì cần có các kỹ thuật xử lý phức tạp hơn Đại đa số hệ tìm kiếm hiện nay dùng câu hỏi

dưới dạng các từ khóa

So sánh: Hệ thống phải thực hiện việc so sánh tường minh và toàn vẹn câu hỏi

của người dùng với các văn bản được lưu trữ trong CSDL Cuối cùng hệ thống đưa ra một

Trang 11

quyết định phân loại các văn bản theo độ liên quan gần với câu hỏi người dùng và sắp xếp

theo thứ tự giảm dần của độ liên quan Hệ thống hoặc hiến thị toàn bộ văn bản hoặc chỉ một phần văn bản

Phản hồi: Trong nhiều trường hợp, kết quả được trả về lúc đầu chưa phải đã thỏa mãn yêu cầu của người dùng, do đó cần phải có quá trình phản hồi để người dùng có thể thay đổi lại hoặc nhập mới các yêu cầu của mình Mặt khác, người dùng có thể tương tác với các hệ về các văn bản thỏa mãn yêu cầu của mình và hệ có chức năng cập nhậu các

văn bản đó Quá trình này được gọi là quá trình phản hồi liên quan (Relevance feeback)

Các công cụ tìm kiếm hiện nay chủ yếu tập trung nhiều vào ba quá trình con đầu tiên, còn phần lớn chưa có quá trình phản hồi hay xử lý tương tác người dùng và máy Quá trình phản hoi hiện nay đang được nghiên cứu rộng rãi và riêng trong quá trình tương tác giao diện người máy đã xuất hiện hướng nghiên cứu được gọi là tác tử giao diện (interface agent)

1.2.2 Phân lớp văn bản

s* Nội dung

Phân lớp văn bản [3][5][8][11][12] được xem như là quá trình gắn các văn bản

vào một hay nhiều lớp văn bản đã được xác định từ trước Người ta có thể phân lớp các

văn bản một cách thủ công, tức là đọc nội dung từng văn bản một và gán nó vào một lớp

nào đó Hệ thống quản lý tập gồm rất nhiều văn bản cho nên cách này sẽ tốn rất nhiều thời

gian, công sức và do đó là không khả thi Do vậy mà phải có các phương pháp phân lớp

tự động Để phân lớp tự động người ta sử dụng các phương pháp học máy trong trí tuệ nhân tạo như Cây quyết định, Bayes, k người láng giềng gần nhất

Một trong những ứng dụng quan trọng nhất của phân lớp văn bản tự động là ứng

dụng trong các hệ thống tìm kiếm văn bản Từ một tập con văn bản đã phân lớp sẵn, tất cả

các văn bán trong miền tìm kiếm sẽ được gán chỉ số lớp tương ứng Trong câu hỏi của mình, người dùng có thể xác định chủ đề hoặc lớp van ban ma minh mong muốn tìm kiếm

để hệ thống cung cấp đúng yêu cầu của mình

Một ứng dụng khác của phân lớp văn bản là trong lĩnh vực hiểu văn bản Phân

lớp văn bản có thể được sử dụng để lọc các văn bản hoặc một phần các văn bản chứa đữ liệu cần tìm mà không làm mắt đi tính phức tạp của ngôn ngữ tự nhiên

Trang 12

Trong phân lớp văn bản, sự tương ứng giữa một văn bản với một lớp hoặc thông qua việc gán giá trị đúng sai (True - văn bản thuộc lớp, hay False -văn bản không thuộc lớp) hoặc thông qua một độ phụ thuộc (đo độ phụ thuộc của văn bản vào lớp) Trong trường hợp có nhiều lớp thì phân loại đúng sai sẽ là việc xem một văn bản có thuộc vào

một lớp duy nhất nào đó hay không

“+ Quá trình phân lớp

Quá trình phân lớp văn bản tuân theo các bước sau:

Đánh chỉ số: Quá trình đánh chỉ số văn bản cũng giống như trong quá trình đánh

chỉ số của tìm kiếm văn bản Trong quá trình này thì tốc độ đánh chỉ số đóng vai trò quan

trọng vì xuất hiện lượng đáng kể văn bản mới có thể cần được đánh chỉ số trong thời gian

thực

Xác định độ phân lớp: Cũng giỗng như trong tìm kiếm văn bản, phân lớp văn bản

yêu cầu quá trình diễn tả việc xác định văn bản đó thuộc lớp nào đó ra sao (mô hình phân

lớp) dựa trên cấu trúc biểu diễn của nó Đối với hệ phân lớp văn bản, chúng ta gọi quá

trình này là bộ phân lớp (Categorizator hoặc classifier) Nó đóng vai trò như các câu hỏi trong hệ tìm kiếm Tuy nhiên, trong khi những câu hỏi mang tính nhất thời, thì bộ phân lớp được sử dụng một cách ỗn định và lâu dài cho quá trình phân lớp

So sánh: Trong hầu hết các bộ phân lớp, mỗi văn bản đều được yêu cầu gán đúng sai vào một lớp nào đó Sự khác nhau lớn nhất đối với quá trình so sánh trong hệ tìm kiếm

văn bản là mỗi văn bản chỉ được so sánh với một số lượng các lớp một lần và việc chọn quyết định phù hợp còn phụ thuộc vào mối quan hệ giữa các lớp văn bản

Phản hồi (Hay thích nghỉ): Quá trình phản hồi đóng vai trò quan trọng trong hệ phân lớp văn bản Thứ nhất, khi phân lớp thì phải có môt số lượng lớn các văn bản đã

được xếp loại bằng tay trước đó, các văn bản này được sử dụng làm mẫu huấn luyện để

hỗ trợ xây dựng bộ phân lớp Thứ hai, đối với việc phân lớp văn bản thì không dễ dàng

thay đổi các yêu cầu như trong quá trình phản hồi của tìm kiếm văn bản bởi vì người dùng chỉ có thể thông tin cho người bảo trì hệ thống về việc xóa bỏ, thêm vào hoặc thay đổi các phân lớp văn bản nào đó mà mình yêu cầu

s* Ngoài hai bài toán thường gặp trên, còn có các bài toán khác sau:

Trang 13

= Phan cụm văn bản: Đưa các văn bản có nội dung giống nhau vào thành từng nhóm

" _ Tóm tắt văn bản: Tóm tắt nội dung một văn bản cho trước

" Dẫn đường văn bản: Đưa một văn bản cho trước vào một chủ đề hoặc một

nơi lưu trữ nhất định theo yêu cầu người dùng

Trong các bài toán nêu trên, văn bản thường được biểu diễn thành một tập các

thuộc tính đặc trưng cho văn bản đó Các quá trình xử lý và làm việc tiếp theo đều thực hiện trên các thuộc tính này Có nhiều tiêu chuẩn chọn lựa các thuộc tính để biểu diễn, tuy nhiên đều dựa trên việc xử lý từ khóa một cách tự động

Trong chương tiếp theo, khóa luận trình bày một số phương pháp biểu diễn văn bản truyền thống

Trang 14

Chương 2 CÁC PHƯƠNG PHÁP CƠ BẢN BIÊU DIỄN

VĂN BẢN

2.1 Tiền xử lý văn bản

Trước khi bắt đầu quá trình biểu diễn văn bản, người ta tiến hành bước tiền xử lý

văn bản Đây là bước hết sức quan trọng vì nó có nhiệm vụ làm giảm số từ có trong biểu diễn văn bản và qua đó sẽ làm giảm kích thước đữ liệu trong biểu diễn văn bản

Nội dung tiền xử lý văn bản:

Phân tích từ vựng

Bước phân tích từ vựng nhằm xác định các từ có trong văn bản Kết quả của công việc này là cho ra một tập các từ riêng biệt Tuy nhiên trong nhiều trường hợp cần có cách

đối xử riêng biệt đối với một số từ đặc biệt, chăng hạn như số, dấu ngoặc, dấu chấm câu

và trường hợp chữ hoa, chữ thường Ví dụ về cách ứng xử đặc biệt, số thường bị loại ra

trong khi phân tích vì một mình nó không mang lại một ý nghĩa nào cho tài liệu (ngoại trừ

một vài trường hợp đặc biệt, ví dụ trong thu thập thông tin về lĩnh vực lịch sử) Dấu chấm

câu, ví dụ như “.”, “”, “2”, “-“, v.v cũng thường được loại ra mà không có ảnh hưởng

gì đến nội dung của tài liệu Tuy nhiên cần phải chú ý trong một vài trường hợp, chẳng

hạn đối với những từ ghép nối (state-of-the-art) là không được phép bỏ dấu “-“, vì sẽ làm

thay đổi nghĩa của từ

s* Loại bỏ từ dừng

Từ dừng ( stop-words) ding dé chi các từ mà xuất hiện quá nhiều trong các văn bản của toàn tập kết quả, thường thì không giúp ích gì trong việc phân biệt nội dung của các tài liệu Vi dụ, những từ “web”, “site”, “link”, “www”, v.v [??] thường xuất hiện hầu hết trong các văn bản thì được gọi là stop-words Ngoài ra, trong tiếng Anh, có nhiều

từ chỉ dùng để phục vụ cho biểu diễn cấu trúc chứ không biểu đạt nội dung của nó như là

“a”, “the” (mạo từ), “in” (giới từ) , “but” (liên từ), động từ phổ biến có dang “to”, “be”, và một số trạng từ và tính từ đặc biệt cũng được xem là những từ dừng (stop-words)

Vì đặc điểm của từ dừng nên chúng được loại bỏ mà không ảnh hưởng đến các công việc biểu diễn văn bản tiếp theo

Bảng danh sách một số từ dừng trong tiếng Anh:

10

Trang 15

Khi quan sát văn bản, người ta để ý thấy rằng: Có nhiều từ trong tập văn bản gốc

xuất hiện rất ít lần và chúng sẽ có ảnh hưởng tất ít trong văn bản Vì vậy vấn đề đặt ra là

cần loại bỏ những từ có tần xuất nhỏ Người ta áp dụng phương pháp được đưa ra bởi

Zipf năm 1949: quan sát tần xuất xuất hiện của các từ trong tập văn bản

Goi tan số xuất hiện của từ khóa t trong tập hợp X là f Xắp xếp tất cả các

từ khóa trong tập hợp theo chiều giảm dần của tần số f, và gọi thứ hạng của mỗi từ khóa t

là r„ Đinh luật Zipf được phát biểu dưới dạng công thức sau:

fr, K Trong đó: K là một hằng số Nếu N là tổng số từ trong tập văn bản, thì người ta

thay rang K»— ly rang 10

Như vậy, tần số xuất hiện và thứ hạng của một từ khóa là hai đại lượng nghịch đảo của nhau Đề thấy rõ hơn điều này, người ta đã biểu diễn lại công thức định luật Zipf

theo công thức sau:

11

Trang 16

t

Và biểu diễn theo lược đồ:

s* Loại bỏ tiền tố và hậu tố

Các từ theo thứ tự xêp tang

Hình 2 Lươc đồ các từ theo định luật

Loại bỏ tiền tố và hậu tố (tiếng Anh là Stemming) tiến hành việc loại bỏ tiền tố và hậu tố của từ để biến đổi nó thành từ gốc Vì trong thực tế một từ gốc có thể có nhiều hình thái biến đổi, chẳng hạn như động từ, danh từ, tính từ, trạng từ; và giữa chúng có mối

39 6c 39 6c

quan hệ ngữ nghĩa Ví dụ như những từ: “clusters”, “clustering”, “clustered” là có cùng mối quan hệ với từ “cluster” Do vậy cần phải Stemming để làm giảm được số lượng từ

mà vẫn không làm ảnh hưởng đến nội dung tài liệu

Tuy nhiên tồn tại một vấn đề thiếu sót xảy ra khi stemming, vì thuật toán stemming sir dung m6t tập các quy tắc đơn giản đề loại bỏ tiền tố/hậu tố Do vậy nó có

Theo mô hình này các từ có nghĩa trong văn bản sẽ được đánh chỉ số và nội dung

văn bản được quản lý theo các chỉ số Index đó Mỗi văn bản được đánh chỉ số theo quy tắc liệt kê các từ có nghĩa trong các văn bản với vị trí xuất hiện của nó trong văn bản Từ

có nghĩa là từ mang thông tin chính về các văn bản lưu trữ, khi nhìn vào nó người ta có

thể biết chủ đề của văn bản cần biểu diễn

12

Trang 17

Tiến hành Index các văn bản đưa vào theo đanh sách các từ khoá nói trên Với

mỗi từ khóa người ta sẽ đánh số thứ tự vị trí xuất hiện của nó và lưu lại chỉ số đó cùng với

mã văn bản chứa nó Cách biểu diễn này cũng được các máy tìm kiếm ưa dùng

Ví đụ, có hai văn bản với mã tương ứng là VB1,VB2

“Cộng hòa xã hội chủ nghĩa Việt Nam ” (VB1)

“ Việt Nam dân chủ cộng hoa” (VB2)

Khi đó ta có cách biểu diễn như sau:

Khi biểu diễn văn bản theo phương pháp này người ta ẩưa ra cách tìm kiếm như sau: Câu hỏi tìm kiếm được đưa ra dưới đạng Logic, tức là gồm một tập hợp các phép toán (AND, OR, ) được thực hiện trên các từ hoặc cụm từ Việc tìm kiếm sẽ dựa vào

bảng Index đã tạo ra và kết quả trả lại là các văn bản thoả mãn toàn bộ các điều kiện trên

“ Một số ưu điểm, nhược điểm:

Ưu điểm

Việc tìm kiếm trở nên nhanh và đơn giản

Thực vậy, giả sử cần tìm kiếm tir “computer” Hệ thống sẽ duyệt trên bảng Index

để trỏ đến chỉ số Index tương ứng nếu từ “computer” tồn tại trong hệ thống Việc tìm

kiếm này là khá nhanh và đơn giản khi trước đó ta đã sắp xếp bảng Index theo vần chữ

13

Trang 18

cái Phép tìm kiếm trên có độ phức tạp cấp 9(nlogạn), với n là số từ trong bảng Index Tương ứng với chỉ số index trên sẽ cho ta biết các tài liệu chứa từ khóa tìm kiếm Như vậy việc tìm kiếm liên quan đến k từ thì các phép toán cần thực hiện là k*n*logzn (n là số

từ trong bảng Index)

Câu hỏi tìm kiếm linh hoạt

Người dùng có thể sử dụng các kí tự đặc biệt trong câu hỏi tìm kiếm mà không làm ảnh hưởng đến độ phức tạp của phép tìm kiếm Ví dụ muốn tìm từ “ta” thì kết qua sé

trả lại các văn bản có chứa các từ “ta”, “tao”, “tay”, là các từ bắt đầu bằng từ “ta”

Kí tự % được gọi là kí tự đại diện (wildcard character)

Ngoài ra, bằng các phép toán Logic các từ cần tìm có thể tổ chức thành các câu hỏi một cách linh hoạt Ví dụ: Cần tìm từ [tôi, ta, tao], dấu “Ty” sé thay cho nghĩa của từ

“hoặc” - thể hiện việc tìm kiếm trên một trong số nhiều từ trong nhóm Đây thực ra là một cách thể hiện linh hoạt phép toán OR trong đại số Logic thay vì phải viết là: Tìm các tài liệu có chứa từ “tôi” hoặc từ “ta” hoặc “tao”

Nhược điểm

Đồi hỏi người tìm kiếm phải có kinh nghiệm và chuyên môn trong lĩnh vực tìm kiếm vì câu hỏi đưa vào dưới dạng Logic nên kết quả trả lại cũng có gid tri Logic (Boolean) Một số tài liệu sẽ được trả lại khi thoả mãn mọi điều kiện đưa vào Như vậy muốn tìm được tài liệu theo nội dung thì phải biết đích xác về tài liệu

Việc Index các tài liệu rất phức tạp và làm tốn nhiều thời gian, đồng thời cũng tốn không gian để lưu trữ các bảng Index

Các tài liệu tìm được không được xắp xếp theo độ chính xác của chúng Các bảng

Index không linh hoạt vì khi các từ vựng thay đổi (thêm, xóa, ) thì dẫn tới chỉ số Index

cũng phải thay đồi theo

2.3 M6 hình phân tích cú pháp

Trong mô hình này, mỗi văn bản đều phải được phân tích cú pháp và trả lại thông

tin chỉ tiết về chủ đề của văn bản đó Sau đó, người ta tiến hành Index các chủ đề của từng

14

Trang 19

văn bản Cách Index trên chủ đề cũng giống như khi Index trên văn bản nhưng chỉ Index

trên các từ xuất hiện trong chủ đề

Các văn bản được quản lý thông qua các chủ đề này để có thê tìm kiếm được khi

có yêu cầu, câu hỏi tìm kiếm sẽ dựa trên các chủ đề trên

Đối với những ngôn ngữ đơn giản về mặt ngữ pháp thì việc phân tích trên có thể

đạt được mức độ chính xác cao và chấp nhận được

Nhược điểm

Chất lượng của hệ thống theo phương pháp này hoàn toàn phụ thuộc vào chất

lượng của hệ thống phân tích cú pháp và đoán nhận nội dung tài liệu Trên thực tế, việc

xây dựng hệ thống này là rất phức tạp, phụ thuộc vào đặc điểm của từng ngôn ngữ và đa

số vẫn chưa đạt đến độ chính xác cao

2.4 M6 hình không gian vector

Cách biểu diễn văn bản thông dụng nhất là thông qua vector biểu diễn theo mô

hình không gian vector (Vector Space Model) Đây là một cách biểu diễn tương đối đơn giản và hiệu quả

Theo mô hình này, mỗi văn bản được biểu diễn thành một vector Mỗi thành phần

của vector là một từ khóa riêng biệt trong tập văn bản gốc và được gán một giá trị là hàm

f chỉ mật độ xuất hiện của từ khóa trong văn bản

15

Ngày đăng: 11/07/2014, 15:57

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm