1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng mô hình khai phá văn bản tiếng Việt

62 433 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 62
Dung lượng 832 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Một trong những đặc điểm của textmining là có một số lớn lượngđặc trưng được miêu tả trong mỗi văn bản., điển hình một dữ liệu văn bản ta có thểrút ra một lượng lớn đặc trưng ví dụ như t

Trang 1

LỜI CẢM ƠN

Lời đầu tiên, chúng em xin chân thành cảm ơn thầy Nhiếp Văn Ngọc, đã trực

tiếp hướng dẫn và tạo điều kiện cho chúng em nghiên cứu và hoàn thành luận vănnày

Chúng em xin chân thành cảm ơn cô Nguyễn Thị Thu Hà, cô đã hỗ trợ, giúp đỡ chúng em rất nhiều trong quá trình thực hiện Và chúng em xin chân thành cảm

ơn các thầy cô trong khoa Công nghệ thông tin đã tận tình chỉ bảo và giúp đỡ chúng em trong suốt quá trình học tập trong trường

Và cuối cùng chúng tôi xin cảm ơn đến tất cả bạn bè, những người đã hỗ trợ giúp đỡ chúng tôi hoàn thiện luận văn này

Mặc dù chúng em đã cố gắng hoàn thiện luận văn trong phạm vi và khả năng cho phép nhưng chắc chắn không tránh khỏi những sai sót Em kính mong nhận được sự cảm thông và tận tình chỉ bảo của quý Thầy Cô và bạn bè

Hà nội, tháng 7 năm 2008

Đỗ Đức Cường

Nguyễn Đình Luận

Trang 2

MỞ ĐẦU

Trong những năm gần đây khối lượng các văn bản báo cáo, tổng kết, v.v trong các cơ quan, đơn vị, ngành nghề, rất lớn Đồng thời do sự phát triển vượtbậc của công nghệ thông tin nên các văn bản đều được chuyển tải dưới dạng điện tử.Các văn bản này rất đa dạng đề cập đến nhiều lĩnh vực trong xã hội như : kinh tế,chính trị, văn hoá, khoa học, giáo dục v.v Vấn đề đặt ra là làm thế nào để phânloại và khai phá được các văn bản báo cáo này khi mà khối lượng các văn bản báocáo ngày càng nhiều Mặt khác một số nơi do thời gian, điều kiện không tham khảonhững văn bản đã có, dẫn đến ban hành các văn bản mới chồng chéo thậm chí tráiluật, nhiều chỗ sai do sử dụng lại các mẫu văn bản cũ v.v Vì vậy vấn đề phân loại

và khai phá những văn bản đã ban hành là vấn đề rất cần thiết

Hiện nay ở Việt Nam việc phân loại và tóm tắt văn bản nói chung, văn bảnbáo cáo nói riêng vẫn phải làm bằng tay Một thực tế là khi khối lượng thông tin quálớn, việc phân loại dữ liệu thủ công là điều không tưởng Hướng giải quyết là mộtchương trình máy tính tự động phân loại và tóm tắt các thông tin của các văn bảnbáo cáo tiếng Việt

Trang 3

Chương 1 Tổng quan chung về khai phá văn bản

1 Data Mining

1.1 Bối cảnh ra đời của khai phá dữ liệu:

Trước sự phát triển không ngừng của internet dẫn đến những kho dữ liệu đã lưu trữmột lượng dữ liệu khổng lồ Trong lượng dữ liệu khổng lồ đó ẩn chứa rất nhiềunhững thông tin quan trọng, tuy nhiên, trước đây người ta vẫn thường sử dụngnhững phương pháp thủ công mà rất khó khăn để khai phá chúng Mà những thôngtin quan trọng luôn thôi thúc con người tìm cách để khai phá Còn các hệ thống kho

dữ liệu chỉ nhằm làm nhiệm vụ lưu trữ dữ liệu mà thôi

Cùng với sự phát triển của kỹ thuật máy tính và kỹ thuật thông tin, thông tin ngàycàng được phát triển mạnh mẽ, đã vượt qua mọi khả năng phân tích thủ công củacon người, cho dù hệ thống kho dữ liệu có thể nâng cao khả năng tìm kiếm, thốngkê… nhưng không thể phát hiện được những mối quan hệ và những quy luật nằmbên trong dữ liệu, đồng thời cũng không thể căn cứ vào những phương pháp phântích truyền thống được nữa Trong một biển dữ liệu khổng lồ, làm thế nào để lấyđược những thông tin có giá trị có tri thức đã trở thành một nhiệm vụ vô cùng quantrọng, Con người mong muốn loại bỏ những dữ liệu thô để chắt lọc những dữ liệutinh, Khai phá dữ liệu DM bắt nguồn từ đây Nó xuất hiện vào cuối những năm 80của thế kỷ 20, từ những năm 90 nó bắt đầu khởi phát, cho tới thế kỷ 21, rất nhiềucác khái niệm gần đúng với nó ví dụ KDD( Knowledge

Data Development ), phân tích dữ liệu, Data Fusion, Data warehouse…

Trong lúc này, một lĩnh vực nằm trong ngành trí tuệ nhân tạo là học máy đangkhông ngừng phát triển Học máy làm nâng cao tính năng của những chương trìnhmáy tính, nó thu nhận được từ nhiều ngành khoa học khác nhau bao gồm: trí tuệnhân tạo, xác suất thống kê, tam lý học, triết học… rồi căn cứ vào những mô hình

Trang 4

học khác nhau để đưa ra phương pháp học, ví dụ: tự học, học có giám sát, mạngnoron và di truyền…

Cuối cùng: Data Mining là việc tiến hành xử lý, khai phá từ trong kho dữ liệu lớn,không honaf chỉnh, nhiều nhiễu, mơ hồ, để trích rút ra những thông tin có giá trị, cótri thức

1.2 Sự phát triển:

Khái niệm về KDD lần đầu tiên được xuất hiện vào tháng 8 năm 1989 tại hội nghịtrí tuệ nhân tạo quốc tế lần thứ 11 Từ đó tới nay, rất nhiều các chuyên gia, học giả ởnhiều quốc gia đã nghiên cứu về DM Các hiệp hội được hình thành như ACMSIGKDD, IEEE, ICDM, SDM, PAKDD, VLDB, FSKD, MLDM…

Tại Việt Nam, khoảng 5 năm trở lại đây, ngày càng có nhiều các chuyên gianghiên cứu DM và DM cũng ngày được phát triển, nó đang là một xu thế mới trongnghiên cứu để ứng dụng vào cuộc sống

1.3 Các khía cạnh khai phá chủ yếu

Nhiệm vụ chủ yếu là phân tích dữ liệu, phân lớp, phân loại, đo lường, đo độ lệch …1.3.1 Phân tích kết hợp (association analysic)

Khai phá luật kết hợp do Rakesh Apwal và cộng sự cùng đưa ra Giá trị giữa 2 biếnlượng hoặc hai biến lượng trở lên tồn tại một tính quy luật được gọi là kết hợp Luậtkết hợp dữ liệu là một vấn đề khá quan trọng trong kho dữ liệu, để nhằm phát hiện

ra tri thức Kết hợp được phân thành kết hợp đơn giản, kết hợp time-series và kếthợp nhân quả Mục đích của phân tích kết hợp là tìm ra mạng kết hợp tiềm ẩn trongkho dữ liệu

1.3.2 Phân lớp ( clustering )

Phân lớp là căn cứ vào tính chất của dữ liệu để phân thành từng lớp khác nhau.Trong một lớp dữ liệu có nhiều đặc tính tương thích, phân lớp là căn cứ vào các đặctrưng khái quát của dữ liệu để phân chúng thành từng lớp khác nhau, ví dụ như căn

cứ vào mô hình phân bố của dữ liệu, quan hệ giữa các thuộc tính của dữ liệu

Trang 5

1.3.3 Phân loại ( classification )

Phân loại là tìm ra khái niệm miêu tả của một lớp nào đó, nó đại diện cho chỉnh thểtin tức của dữ liệu, rồi dựa vào hàm miêu tả, đồng thời dùng hàm mô tả này để miêu

tả mô hình dữ liệu Thông thường, dùng mô hình cây quyết định để biểu thị Phânloại là lợi dụng việc huấn luyện tập dữ liệu thông qua một số các thuật toán nhấtđịnh để đạt được quy tắc phân loại

1.3.5 mô hình time –series:

Time –series chỉ sự thông qua sự tuần tự của thời gian tìm kiếm những mô hình phátsinh Tựa như hồi quy, nó cũng dùng để nhận biết giá trị tương lai của dữ liệu.1.3.6 Độ lệch ( deviation)

Trong độ lệch bao gồm rất nhiều tri thức, trong kho dữ liệu, dữ liệu tồn tại nhữngkhác biệt, phát hiện những khác biết trong kho dữ liệu là rất quan trọng Độ lệchgiữa kết quả quan sát được giữa giá trị trả về theo tính toán và kết quả thực tế 1.4 Quy trình của DM

Trang 6

1.4.1 Chuẩn bị dữ liệu :

Chuẩn bị dữ liệu được phân thành 3 bước chính: Lựa chọn dữ liệu, Tiền xử lý vàbiến đổi dữ liệu Mục đích của việc lựa chọn dữ liệu là tìm kiếm tất cả những thôngtin của đối tượng liên quan để trích chọn ra dữ liệu cần thiết đưa vào xử lý, tiền xử

lý thực chất là quá trình lọc nhiễu Biến đổi dữ liệu là quá trình tìm kiếm những đặctrưng chuẩn bị cho giai đoạn khai phá dữ liệu

1.4.2 Giai đoạn khai phá dữ liệu

Giai đoạn khai phá dữ liệu đầu tiên phải xác định rõ nhiệm vụ hoặc mục đích khaiphá Tiếp theo xác định rõ sử dụng phương pháp nào để khai phá, hoặc có thể dùngcác phương pháp khác nhau để thực hiện Để lựa chọn phương pháp khai phá dựavào 2 đặc điểm sau:

- Với mỗi dạng dữ liệu khác nhau sẽ có đặc điểm khác nhau, do đó cần sửdụng phương pháp nào để đạt hiệu quả tốt nhất

- Do yêu cầu của người dùng hoặc hệ thống, có người dùng yêu cầu nhận được

mô hình, có thể dễ dàng hiểu được tri thức, có người dùng hoặc hệ thống lạimuốn nhận được sự đánh giá chuẩn xác tri thức.

1.4.3 Kết quả và đánh giá:

Giai đoạn khai phá dữ liệu đã đưa ra được mô hình, thông qua người dùng hoặc máy

để đánh giá và đưa ra tri thức

2 Text Mining

2.1 Thế nào là khai phá dữ liệu văn bản:

Khai phá dữ liệu văn bản là rút ra những thông tin có giá trị và có tri thức từ trong

dữ liệu văn bản Hay nói cách khác, là khai phá dữ liệu trong văn bản Từ địnhnghĩa trên cho thấy, khai phá dữ liệu văn bản là một phần nằm trong khai phá dữliệu, nó cũng sử dụng các công cụ khai phá như máy học, thống kê số học, xử lý

Trang 7

ngôn ngữ tự nhiên … và là sự giao thoa của nhiều ngành khoa học khác nhau Nóứng dụng trong nhiều lĩnh vực khác nhau, ví dụ : thương mại tri thức ( businessintelligence ), phục hồi dữ liệu (information retrieval ), xử lý thông tin sinh vật( bioinformatics)…và được ứng dụng nhiều trong các lĩnh vực : quản lý quan hệkhách hàng ( customer relationship management ), tìm kiếm trên mạng ( websearch )….

2.2 Tại sao phải khai phá dữ liệu văn bản:

Trong thực tế cuộc sống, rất nhiều các lĩnh vực đều chứa đựng lượng lớn dữ liệu,đặc biệt như là dữ liệu văn bản, làm thế nào để khai phá và trích rút dữ liệu có ích từtrong văn bản là một vấn đề vô cùng quan trọng, hay nói cách khác, khai phá dữ liệuvăn bản đang là một ngành mới và là một ngành rất phát triển

- Dữ liệu text bao gồm : bán cấu trúc và không cấu trúc những bài báo, kết quảnghiên cứu, dữ liệu web, email, blog, diễn đàn …

Bán cấu trúc có nghĩa : Các dạng văn bản bao gồm một số trường có cấu trúc nhưtên tiêu đề, tác giả … và một số trường không cấu trúc tựa như abstract hoặc nộidung ( content) Một trong những đặc điểm của textmining là có một số lớn lượngđặc trưng được miêu tả trong mỗi văn bản., điển hình một dữ liệu văn bản ta có thểrút ra một lượng lớn đặc trưng ví dụ như từ khóa, nội dung, thuật ngữ…

Trong trường hợp ngược lại, khi phân tích một nhóm files hoặc bảng liên kết, ta tìmthấy những đặc trưng từ một vài cho đến vài trăm, những đặc trưng này xuất hiện rảirác trong các văn bản Mỗi văn bản có thể chứa một số ít tập các từ khóa, và phầnlớn các từ khóa xuất hiện trong một số hữu hạn các văn bản, do đó phần lớn cácvector đặc trưng nhị phân được sử dụng để biểu diễn đặc trưng có thể mang giá trị 0.TextMining là sự giao thoa của nhiều lĩnh vực khoa học khác nhau:

Trang 8

2.3 Các khía cạnh khai phá dữ liệu văn bản

Khai phá dữ liệu văn bản gồm 3 tầng chính : tầng dưới cùng là các công cụ khai phá

cơ bản như máy học, đại số thống kê, xử lý ngôn ngữ tự nhiên … Tầng giữa baogồm các kỹ thuật khai phá cơ bản ; trích rút thông tin, phân loại văn bản, phân cụm,nén văn bản và xử lý dữ liệu văn bản Tầng trên là tầng ứng dụng bao gồm truy vấnthông tin, và phát hiện tri thức

2.4 Các bước quan trọng trong khai phá dữ liệu văn bản:

Máy học, Đại số thống kê, Xử lý ngôn ngữ tự nhiên

Trang 9

1- Định nghĩa các quy tắc để trích rút, tập hợp của văn bản ( data selection andfiltering )

2- Định nghĩa định dạng của văn bản

3- Đưa văn bản về dạng chuẩn ( làm sạch, nhận dạng ngày và tiền tệ …)

4- Thu nhỏ và chuyển hóa văn bản ( loại bỏ các từ dừng, từ tầm thường …)

2.4.2 Xử lý từ :

1- Chọn đơn vị phân tích: từ( cách biểu diễn hoặc chú thích ) và biểu diễn từ ghép,thuật ngữ…

2- Định nghĩa quy tắc ngữ pháp để giải thích nghĩa bóng của văn bản

3- Ngôn ngữ và phân tích từ ( phát hiện từ khóa , điệp từ …)

4- Định nghĩa loại ngữ nghĩa, gán nhãn thuật ngữ

5- Phân tích teo định nghĩa hoặc siêu dữ liệu…

2.4.3 Xử lý khai phá văn bản:

1- Phân loại văn bản

2- Phân cụm và tóm tắt

3- Trích rút tri thức ( với sự kết hợp của hệ chuyên gia )

4- Kết hợp kết quả của TM với xử lý dữ liệu

2.5 Xử lý ngôn ngữ tự nhiên ( Natural Laguage Processing –NLP):

Là việc xử lý bằng ngôn ngữ của con người bằng công cụ máy vi tính thông qua cácphương pháp học máy để nhận biết từ khóa, thuật ngữ, nhóm từ đồng thời xác địnhđược các thành phần trong câu như : danh từ, tính từ, động từ, giới từ… để thôngqua đó đưa ra quy luật trong việc tách ghép từ, tách câu, ghép câu trong các kỹ thuậtkhai phá văn bản…

2.5 Kỹ thuật tóm tắt văn bản ( Text – Summary):

Trang 10

+ Tóm tắt chung ( GS- Generic Summarization)

+ Tóm tắt có truy vấn ( User – query Summarization )

- Phân loại theo đối tượng văn bản:

+ Tóm tăt đơn văn bản ( Single document summarization )

+ Tóm tắt đa văn bản ( Multiple document summarization )

- Phân loại theo phương thức:

+ Tóm tắt dựa trên trích rút ( SBE- Summarization based on Extraction )

+ Tóm tắt dựa trên sự hiểu biết ( SBU – Summarization based on Understanding )

- Phân loại theo sự cần thiết

+ Tóm tắt có giám sát ( supervised summarization –SS)

+ Tóm tắt không giám sát ( US – Unsupervised summarization )

2.5.3 Tóm tắt tự động :

1- Định nghĩa :

Thông qua máy vi tính tiến hành trích rút nội dung tự động từ một văn bản nguồn đểđưa ra nội dung trọng tâm cô đọng, đồng thời rút ngắn được chiều dài văn bản.2- Hệ thống tóm tắt tự động:

Hệ thống tóm tắt tự động có thể tóm tắt văn bản nguồn thành những văn bản tóm tắtngắn với nội dung trọng tâm và cô đọng nhất

Hình 1-1 Mô hình tóm tắt tự động

3- Các phương pháp đánh giá

Edmundson và Rouge

Trang 11

2.5.4 Phương pháp tóm tắt văn bản:

2.5.5 Các bước cơ bản trong tóm tắt văn bản:

Đơn vị cơ bản nhất trong tóm tắt văn bản là các câu Đối với việc tóm tắt theo tỉ lệchiều dài văn bản phải trích rút các câu theo độ quan trọng của các câu Để xác địnhđược độ quan trọng của câu chủ yếu dựa vào độ quan trọng của các thuật ngữ trongcâu , ngoài ra còn phụ thuộc vào các yếu tố khác:

- Độ tương hỗ giữa các thuật ngữ trong câu tính theo công thức:

) ( ) (

)

&

( log

2 1

2 1 2

t P t P

t t P

MI 

- Độ tương hỗ giữa tập từ Negative và Positive ảnh hưởng tới câu

- Độ tương đương của thuật ngữ trong câu với từ xuất hiện ở tiêu đề

- Chiều dài câu

- Vị trí câu

- …

Trang 12

Với các yếu tố trên đây chỉ là tĩm tắt chung hay cịn gọi tĩm tắt bằng việc tổng hợp

từ các câu rời rạc Để tĩm tắt văn bản sao cho trở thành một văn bản hồn chỉnhphải dựa vào độ tương tự của các câu Cĩ nghĩa cĩ một kho dữ liệu tập hợp các câu,sau đĩ so sánh độ tương tự giữa các câu, tìm các câu tương ứng trong văn bản ởtrong kho dữ liệu và trích rút ra để lắp ghép thành văn bản hồn chỉnh

3 MỘT SỐ GIẢI PHÁP PHÂN LOẠI VÀ TĨM TẮT NỘI DUNG VĂN BẢN

3.1 Các phương pháp phân loại và tĩm tắt nội dung văn bản tiếng Anh

3.1.1 Bối cảnh các phương pháp phân loại văn bản hiện nay

Phân loại văn bản tự động là một trong các lĩnh vực được chú ý nhiều nhấttrong những năm gần đây Để phân loại người ta sử dụng nhiều cách tiếp cận khácnhau như dựa trên từ khĩa, dựa trên ngữ nghĩa các từ cĩ tần số xuất hiện cao, mơhình Maximum Entropy, tập thơ … Tiếng Anh là một trong những ngơn ngữ đượcnghiên cứu sớm và rộng rãi nhất với kết quả đạt được rất khả quan Một số lượnglớn các phương pháp phân loại đã được áp dụng thành cơng trên ngơn ngữ này : mơhình hồi quy [Fuhr et al,1991], phân loại dựa trên láng giềng gần nhất (k-nearestneighbors) [Dasarathy, 1991], phương pháp dựa trên xác suất Nạve Bayes[Joachims, 1997], cây quyết định [Fuhr et al,1991], học luật quy nạp [William &Yoram, 1996], mạng nơron (neural network)[Wiener et al, 1995], học trựctuyến[William & Yoram, 1996], và máy vector hỗ trợ (SVM-support vectormachine) [Vapnik, 1995] Hiệu quả của các phương pháp này rất khác nhau ngay cảkhi áp dụng cho tiếng Anh Việc đánh giá gặp nhiều khĩ khăn do việc thiếu các tậpngữ liệu huấn luyện chuẩn Thậm chí đối với tập dữ liệu được sử dụng rộng rãi nhất,Reuter cũng cĩ nhiều phiên bản khác nhau Hơn nữa, cĩ rất nhiều độ đo được sửdụng như recall, precision, accuracy hoặc error, break-even point, F-measure …trong phần này giới thiệu các thuật tốn phân loại được sử dụng phổ biến nhất đồngthời so sánh giữa các phương pháp sử dụng kết quả của [Yang, 1997]

3.1.2 Các phương pháp phân loại văn bản tiếng Anh hiện hành

Trang 13

+ Biểu diễn văn bản

Bước đầu tiên của mọi phương pháp phân loại văn bản là chuyển việc mô tảvăn bản dùng chuỗi ký tự thành một dạng mô tả khác, phù hợp với các thuật toánhọc theo mẫu và phân lớp Hầu hết các thuật toán đều sử dụng cách biểu diễn vănbản sử dụng vector đặc trưng, sự khác nhau có chăng là việc chọn không gian đặctrưng khác nhau Vì vậy ở phần này sẽ trình bày sơ lược về vector đặc trưng

Ý tưởng chính là xem mỗi văn bản di tương ứng là một vector đặc trưng d i

(TF(w1),TF(w2), ,TF(wn)) trong không gian các từ Wn (wi là một từ, một đặc trưng,tương ứng một chiều của không gian) Giá trị của TF(wi) chính là số lần xuất hiệncủa từ wi trong văn bản d1. Từ được chọn là một đặc trưng khi nó xuất hiện trong ítnhất 3 văn bản [Joachims, 1997] Để không bị phụ thuộc vào chiều dài văn bảnvector đặc trưng sẽ được chuẩn hóa về chiều dài đơn vị :

i

) TF(w

2 1

2 2

Trang 14

Trong thực tế để cải thiện tốc độ và kết quả người ta thường sử dụng IDF(w i )

hoặc TFIDF(w i ) thay cho TF(W i ) :

i w DF m

này mà tiêu biểu là sử dụng Information Gain [Yang & Petersen, 1997], ngoài ra còn có các phương pháp như DF-Thresolding [Yang & Petersen, 1997], 2

[Schütze et al,1995] hoặc Term Strength [Yang & Wilbur,1997] Phương pháp

Information Gain sử dụng độ đo Mutual Information(MI) [Yang & Petersen, 1997]

để chọn ra tập đặc trưng con f gồm những từ có giá trị MI cao nhất

Các đặc trưng của văn bản khi biểu diễn dưới dạng vector :

Số chiều không gian đặc trưng thường rất lớn (trên 10000)

Có các đặc trưng độc lập nhau, sự kết hợp các đặc trưng này thường không

có ý nghĩa trong phân loại

Đặc trưng rời rạc : vector di có rất nhiều giá trị 0 do có nhiều đặc trưng khôngxuất hiện trong văn bản d1.

Hầu hết các văn bản có thể được phân chia một cách tuyến tính bằng các hàmtuyến tính

Việc phân loại sẽ tốt hơn nếu các thuật toán tận dụng được những đặc trưngnày Phần tiếp theo sẽ nói rõ hơn về các thuật toán phân loại

Trang 15

+ Support vector Machine(SVM)

SVM là phương pháp tiếp cận phân loại rất hiệu quả được Vapnik giới thiệunăm 1995 [Vapnik, 1995] để giải quyết vấn đề nhận dạng mẫu 2 lớp sử dụngnguyên lý Cực tiểu hóa Rủi ro có Cấu trúc (Structural Risk Minimization) [Vapnik,Cortes, 1995]

Ý tưởng :

Cho trước một tập huấn luyện được biểu diễn trong không gian vector trong

đó mỗi tài liệu là một điểm, phương pháp này tìm ra một siêu mặt phẳng h quyếtđịnh tốt nhất có thể chia các điểm trên không gian này thành hai lớp riêng biệt tươngứng lớp + và lớp – Chất lượng của siêu mặt phẳng này được quyết định bởi khoảngcách (gọi là biên) của điểm dữ liệu gần nhất của mỗi lớp đến mặt phẳng này.Khoảng cách biên càng lớn thì mặt phẳng quyết định càng tốt đồng thời việc phânloại càng chính xác Mục đích thuật toán SVM tìm được khoảng cách biên lớn nhất.Hình sau minh họa cho thuật toán này :

Hình 1.2 Siêu mặt phẳng h phân chia dữ liệu huấn huyện thành 2 lớp + và –với khoảng cách biên lớn nhất Các điểm gần h nhất là các vector hỗ trợ,SupportVector (được khoanh tròn)

Công thức chính :

Trang 16

SVM thực chất là một bài toán tối ưu, mục tiêu của thuật toán này là tìmđược một không gian H và siêu mặt phẳng quyết định h trên H sao cho sai số phânloại là thấp nhất.

Phương trình siêu mặt phẳng chứa vector di trong không gian như sau :

i

d ∙w + b= 0

Như thế h(d i ) biểu diễn sự phân lớp của d i vào hai lớp như đã nói Gọi

yi={± 1}, yi= +1, văn bản d i  lớp +; yi=-1, văn bản d i  lớp – Khi này để có siêumặt phẳng h ta sẽ phải giải quyết bài toán sau :

Tìm Min w với w và b thoả mãn điều kiện sau :

vì tất cả dữ liệu trong tập huấn luyện đều được dùng để tối ưu hóa kết quả Cácphiên bản SVM tốt có thể kể đến là SVMLight [Joachims, 1998] và SequentialMinimal Optimization (SMO) [Platt, 1998]

K–Nearest Neighbor (kNN):

kNN là phương pháp truyền thống khá nổi tiếng về hướng tiếp cận dựa trênthống kê đã được nghiên cứu trong nhận dạng mẫu hơn bốn thập kỷ qua [Dasarathy,

Trang 17

1991] kNN được đánh giá là một trong những phương pháp tốt nhất (áp dụng trêntập dữ liệu Reuters phiên bản 21450), được sử dụng từ những thời kỳ đầu của việcphân loại văn bản [Marsand et al, 1992] [Yang, 1994] [Iwayama, Tokunaga, 1995].

Ý tưởng :

Khi cần phân loại một văn bản mới, thuật toán sẽ tính khoảng cách (khoảngcách Euclide, Cosine ) của tất cả các văn bản trong tập huấn luyện đến văn bảnnày để tìm ra k văn bản gần nhất (gọi là k “láng giềng”), sau đó dùng các khoảngcách này đánh trọng số cho tất cả chủ đề Trọng số của một chủ đề chính là tổng tất

cả khoảng cách ở trên của các văn bản trong k láng giềng có cùng chủ đề, chủ đềnào không xuất hiện trong k láng giềng sẽ có trọng số bằng 0 Sau đó các chủ đề sẽđược sắp xếp theo mức độ trọng số giảm dần và các chủ đề có trọng số cao sẽ đượcchọn là chủ đề của văn bản cần phân loại

Công thức chính

Trọng số của chủ đề cj đối với văn bản x

) ,

, (

} {

Trong đó

y(d i ,cj)  {0,1}, với

y=0 : văn bản d i không thuộc về chủ đề cj

y=1 : văn bản d i thuộc về chủ đề cj

sim (x ,d i ) : độ giống nhau giữa văn bản cần phân loại x và văn bản d i

Có thể sử dụng độ đo cosine để tính sim (x ,d i )

sim (x ,d i ) = cos(x ,d i ) =

i i

d x

d x

.

Trang 18

bj là ngưỡng phân loại của chủ đề cj được tự động học sử dụng một tập vănbản hợp lệ được chọn ra từ tập huấn luyện

Để chọn được tham số k tốt nhất cho việc phân loại, thuật tốn phải đượcchạy thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì thuật tốn càng

ổn định và sai sĩt càng thấp [Yang, 1997] Giá trị tốt nhất được sử dụng tương ứngtrên hai bộ dữ liệu Reuter và Oshumed là k = 45 [Joachims, 1997]

Nạve Bayes (NB)

NB là phương pháp phân loại dựa vào xác suất được sử dụng rộng rãi tronglĩnh vực máy học [Mitchell, 1996] [Joachims, 1997] [Jason, 2001] được sử dụng lầnđầu tiên trong lĩnh vực phân loại bởi Maron vào năm 1961 [Maron, 1961] sau đĩ trởnên phổ biến dùng trong nhiều lĩnh vực như trong các cơng cụ tìm kiếm [Rijsbergen

et al, 1970], các bộ lọc mail [Sahami et al, 1998]

Ý tưởng

Ý tưởng cơ bản của cách tiếp cận Nạve Bayes là sử dụng xác suất cĩ điềukiện giữa từ và chủ đề để dự đốn xác suất chủ đề của một văn bản cần phân loại.Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện củatất cả các từ trong văn bản đều độc lập với nhau Như thế NB khơng tận dụng được

sự phụ thuộc của nhiều từ vào một chủ đề cụ thể Giả định đĩ làm cho việc tính tốn

NB hiệu quả và nhanh chĩng hơn các phương pháp khác với độ phức tạp theo số mũ

vì nĩ khơng sử dụng việc kếp hợp các từ để đưa ra phán đốn chủ đề

Cơng thức chính

Mục đích chính là tính được xác suất Pr(Cj,d′), xác suất để văn bản d′ nằmtrong lớp Cj Theo luật Bayes, văn bản d′ sẽ được gán vào lớp Cj nào cĩ xác suấtPr(Cj,d′) cao nhất Cơng thức sau dùng để tính Pr(Cj,d′) [Joachims, 1997]

Trang 19

Với

TF(wi,d’) là số lần xuất hiện từ wi trong văn bản d’

'

d là số lượng các từ trong văn bản d’

wi là một từ trong không gian đặc trưng F với số chiều là F

Pr(Cj) được tính dựa trên tỷ lệ phần trăm của số văn bản mỗi lớp tương ứngtrong tập dữ liệu luyện :

Pr(wi|Cj) được tính sử dụng phép ước lượng Laplace [Napnik, 1982] :

Ngoài ra còn có các phương pháp NB khác có thể kể ra như sau ML NaiveBayes, MAP Naive Bayes, Expected Naive Bayes, Bayesian Naive Bayes [Jason,2001] Naive Bayes là một công cụ rất hiệu quả trong một số trường hợp Kết quả cóthể rất tồi nếu dữ liệu huấn luyện nghèo nàn và các tham số dự đoán (như khônggian đặc trưng) có chất lượng kém Nhìn chung đây là một thuật toán phân loạituyến tính thích hợp trong phân loại văn bản nhiều chủ đề NB có ưu điểm là cài đặtđơn giản, tốc độ nhanh, dễ dàng cập nhật dữ liệu huấn luyện mới và có tính độc lập

Trang 20

cao với tập huấn luyện, có thể sử dụng kết hợp nhiều tập huấn luyện khác nhau Tuynhiên NB ngoài giả định tính độc lập giữa các từ còn phải cần đến một ngưỡng tối

ưu để cho kết quả khả quan Nhằm mục đích cải thiện hiệu năng của NB, cácphương pháp như multiclass-boosting, ECOC [Berger, 1999] [Ghani, 2000] có thểđược dùng kết hợp

Neural Network (NNet)

Nnet được nghiên cứu mạnh trong hướng trí tuệ nhân tạo Wiener là người đã

sử dụng Nnet để phân loại văn bản, sử dụng 2 hướng tiếp cận : kiến trúc phẳng(không sử dụng lớp ẩn) và mạng nơron 3 lớp (bao gồm một lớp ẩn)[Wiener et al,1995]

Cả hai hệ thống trên đều sử dụng một mạng nơron riêng rẽ cho từng chủ đề,NNet học cách ánh xạ phi tuyến tính những yếu tố đầu vào như từ, hay mô hìnhvector của một văn bản vào một chủ đề cụ thể

Khuyết điểm của phương pháp NNet là tiêu tốn nhiều thời gian dành cho việchuấn luyện mạng nơron

Mô hình mạng neural gồm có ba thành phần chính như sau: kiến trúc (architecture), hàm chi phí (cost function), và thuật toán tìm kiếm (search

algorithm) Kiến trúc định nghĩa dạng chức năng (functional form) liên quan giá trịnhập (inputs) đến giá trị xuất (outputs)

Kiến trúc phẳng (flat architecture) : Mạng phân loại đơn giản nhất ( còn gọi

là mạng logic) có một đơn vị xuất là kích hoạt kết quả (logistic activation) và không

có lớp ẩn, kết quả trả về ở dạng hàm (functional form) tương đương với mô hình hồiquy logic Thuật toán tìm kiếm chia nhỏ mô hình mạng để thích hợp với việc điềuchỉnh mô hình ứng với tập huấn luyện Ví dụ, chúng ta có thể học trọng số trongmạng kết quả (logistic network) bằng cách sử dụng không gian trọng số giảm dần(gradient descent in weight space) hoặc sử dụng thuật toán interated-reweightedleast squares là thuật toán truyền thống trong hồi quy (logistic regression)

Trang 21

Kiến trúc mô dun (modular architecture ): Việc sử dụng một hay nhiều lớp ẩncủa những hàm kích hoạt phi tuyến tính cho phép mạng thiết lập các mối quan hệgiữa những biến nhập và biến xuất Mỗi lớp ẩn học để biểu diễn lại dữ liệu đầu vàobằng cách khám phá ra những đặc trưng ở mức cao hơn từ sự kết hợp đặc trưng ởmức trước.

Hình 1.3 Kiến trúc mô đun (Modular architecture) Các kết quả của mạng con

sẽ là giá trị đầu vào cho mạng siêu chủ đề và được nhân lại với nhau để dự đoán chủ

Trang 22

LLSF là một cách tiếp cận ánh xạ được phát triển bởi Yang và Chute vàonăm 1992 [Yang & Chute, 1992] Đầu tiên, LLSF được Yang và Chute thử nghiệmtrong lĩnh vực xác định từ đồng nghĩa sau đó sử dụng trong phân loại vào năm 1994[Yang & Chute, 1994] Các thử nghiệm của Ỵang cho thấy hiệu suất phân loại củaLLSF có thể ngang bằng với phương pháp kNN kinh điển.

Ý tưởng

LLSF sử dụng phương pháp hồi quy để học từ tập huấn luyện và các chủ đề

có sẵn [Yang & Chute, 1994] Tập huấn luyện được biểu diễn dưới dạng một cặpvector đầu vào và đầu ra như sau :

Vector đầu vào một văn bản bao gồm các từ và trọng số

Vector đầu ra gồm các chủ đề cùng với trọng số nhị phân của văn bản ứngvới vector đầu vào

Giải phương trình các cặp vector đầu vào/ đầu ra, ta sẽ được ma trận đồnghiện của hệ số hồi quy của từ và chủ đề(matrix of word-category regressioncoefficients)

Nhờ vào việc sắp xếp trọng số của các chủ đề, ta được một danh sách chủ đề

có thể gán cho văn bản cần phân loại Nhờ đặt ngưỡng lên trọng số của các chủ đề

mà ta tìm được chủ đề thích hợp cho văn bản đầu vào Hệ thống tự động học cácngưỡng tối ưu cho từng chủ đề, giống với kNN Mặc dù LLSF và kNN khác nhau về

Trang 23

mặt thống kê, nhưng ta vẫn tìm thấy điểm chung ở hoạt động của hai phương pháp

là việc học ngưỡng tối ưu

Centroid- based vector

Là một phương pháp phân loại đơn giản, dễ cài đặt và tốc độ nhanh do có độphức tạp tuyến tính O(n) [Han, Karypis 2000]

Ý tưởng

Mỗi lớp trong dữ liệu luyện sẽ được biểu diễn bởi một vector trọng tâm Việcxác định lớp của một văn bản thử bất kì sẽ thông qua viêc tìm vector trọng tâm nàogần với vector biểu diễn văn bản thử nhất Lớp của văn bản thử chính là lớp màvector trọng tâm đại diện Khoảng cách được tính theo độ đo cosine

C

Độ đo khoảng cách giữa vector xC i

Trong đó :

x là vector văn bản cần phân loại

{i} là tập hợp các văn bản thuộc chủ đề C i

Chủ để của x là Cx thoả mãn cos(x,Cx)=argmax(cos(x,C i ))

3.1.3 Các phương pháp tóm tắt văn bản tiếng Việt

Trong sự bùng nổ của công nghệ thông tin như hiện nay, vấn đề khai thác các

dữ liệu càng trở lên khó khăn, mục đích của việc xây dựng hệ thống tóm tắt văn bản

tự động, cụ thể là văn bản báo cáo tiếng Việt sẽ mang tới cho mọi người những

Trang 24

luồng thơng tin cơ đọng hơn Tĩm tắt văn bản tức là giữ lại được phần trọng tâm củavăn bản, dễ dàng hơn trong việc chắt lọc những thơng tin, đồng thời gĩp phần nhanhchĩng hơn trong việc sắp xếp, phân loại, tìm kiếm các văn bản theo các chủ đề khácnhau (thay vì dựa trên các văn bản gốc vừa phức tạp và mất thời gian) Hiện nay,trên thế giới nhiều tác giả đề ra các phương pháp tĩm tắt văn bản dựa trên nhữngthuật tốn khác nhau: Edmundson [6], Kupiec et al [12], Teufel and Moens [12],Mani and Bloedorn [12], Myaeng and Yang[12], phương pháp chủ yếu khi tĩm tắtnhiều văn bản theo nhiều chủ đề khác nhau là tiến hành phân loại văn bản theo chủ

đề (áp dụng thuật tốn phân loại Nạve Bayes[2] hoặc thuật tốn Edmundson ) rồitiến hành tĩm tắt văn bản Bên cạnh đĩ một số cơng trình nghiên cứu về tạo tĩm tắt

tự động các văn bản tiếng Anh, Nhật, Hoa [1], [8] tiêu biểu như: William B.Cavnar(1994) đã biểu diễn văn bản dựa trên n-gram thay cho cách biểu diễn truyền thốngbằng từ khĩa Chinatsu Aone (1997) đã phát triển hệ DimSum để tĩm tắt văn bản sửdụng xử lý ngơn ngữ tự nhiên và kỹ thuật thống kê dựa trên hệ số tf-idf Tác giảcũng đã sử dụng WordNet để xem xét ngữ nghĩa của từ và đề xuất một số kỹ thuậtlượng giá Jaine Carbonell (1998) đã tĩm tắt văn bản bằng cách xếp hạng các câutrội (câu chứa các ý chính của văn bản) và rút ra các câu trội Jade Goldstein (1999)

đã phân loại tĩm tắt dựa trên độ đo liên quan Phương pháp sử dụng kết hợp giữangữ học, thống kê Mỗi câu được đặc trưng bằng các đặc tính ngữ học và độ đothống kê J Larocca Neto (2000) đã tạo tĩm tắt văn bản dựa trên các dãy từ trongcâu được chọn theo hệ số tf (term frequency), sau đĩ dùng kỹ thuật gom cụm(clustering) để tạo tĩm tắt D Radev (2000) đã tạo tĩm tắt văn bản dựa trên trọngtâm sau đĩ rút trích câu quan trọng Yihong Gong (2001) đã đề xuất hai phươngpháp tạo tĩm tắt văn bản đơn giản: tiếp cận độ đo dựa trên thống kê, tần suất và tiếpcận phân tích latent semantic J.Kathleen R (2001) sử dụng tiếp cận kiến trúc đẳngcấp cụm và chọn câu trội trong mỗi cụm Yoshio Nakao (2001) đã tạo tĩm tắt vănbản tiếng Nhật Cĩ hai phương pháp là rút câu dựa trên từ khĩa và rút câu dựa trênkiến trúc ngữ nghĩa trong đĩ cĩ xây dựng độ đo mối liên kết giữa hai từ M Mitra

Trang 25

(2002) đã đề xuất phương pháp tạo tóm tắt dựa trên việc trích rút các đoạn văn quantrọng bao gồm việc tạo bản đồ quan hệ văn bản dùng các đoạn văn, phân tích bản đồquan hệ của các văn bản để ấn định đoạn văn nào là quan trọng nhất Trong lĩnh vực

xử lý văn bản tiếng Việt, cũng có nhiều thành tựu như các công trình của NguyễnMinh Huyền (2003) về cách gán nhãn từ loại, công trình của Đinh Điền, HoàngKiếm, Nguyễn Văn Toàn (2001) về tách từ tiếng Việt, công trình của Đỗ Phúc vàTrần Thế Lân (2004) về phân loại văn bản tiếng Việt dựa trên tập thô Công trìnhcủa Đỗ Phúc và Hoàng Kiếm nghiên cứu về trích rút các ý chính từ văn bản hỗ trợtạo tóm tắt văn bản tiếng Việt dựa trên việc sử dụng cây hậu tố để phát hiện các dãy

từ phổ biến trong các câu của văn bản

Kết luận

Các thuật toán phân loại, tóm tắt trên từ thuật toán phân loại 2 lớp (SVM)đến các thuật toán phân loại đa lớp (kNN) đều có điểm chung là yêu cầu văn bảnphải được biểu diễn dưới dạng vector đặc trưng Ngoài ra các thuật toán nhưkNN,NB,LLSF đều phải sử dụng các ước lượng tham số và ngưỡng tối ưu trong khi

đó thuật toán SVM có thể tự tìm ra các tham số tối ưu này Trong các phương phápSVM là phương pháp sử dụng không gian vector đặc trưng lớn nhất (hơn 10000chiều) trong khi đó chỉ là 2000 đối với NB, 2415 cho kNN và LLSF, 1000 cho Nnet[Yang, 1997] Thời gian huấn luyện cũng khác nhau đối với từng phương pháp,Nnet (sử dụng mỗi mạng tương ứng một chủ đề) và SVM là hai phương pháp cóthời gian huấn luyện lâu nhất trong khi đó kNN,NB,LLSF và Centroid là cácphương pháp có tốc độ (thời gian huấn luyện, phân loại) nhanh và cài đặt dễ dàng

Về hiệu suất, dựa vào thử nghiệm của Yang [Yang, Liu, 1997] trên tập dữ liệuReuter-21578 với hơn 90 chủ đề và trên 7769 văn bản, ta có thể sắp xếp các phươngpháp phân loại và tóm tắt văn bản theo thứ tự như sau SVM > kNN >>{LLSF,NB,Nnet} Tuy nhiên kết quả trên có thể không còn đúng khi áp dụng thửnghiệm phân loại và tóm tắt trên tiếng Việt Lý do việc biểu diễn văn bản tiếng Việt

Trang 26

bằng vector đặc trưng gặp nhiều trở ngại do bị phụ thuộc nhiều vào các phươngpháp tách từ Trong khi đó các phương pháp này không đạt được hiệu quả cao nhưtrong tiếng Anh.

Để có thể áp dụng các phương pháp phân loại và tóm tắt văn bản đã được sửdụng thành công trên nhiều ngôn ngữ (Anh, Pháp,…) như đã liệt kê trên, điều kiệntiên quyết là phải tìm ra một phương pháp tách từ tốt để thông qua đó cải thiện hiệuquả của các thuật toán phân loại Trong tiếng Anh, đơn vị nhỏ nhất là “từ” nên việctách từ trở nên khá đơn giản, trong khi đối với một số ngôn ngữ như tiếng Hoa,Nhật, Hàn Quốc và Tiếng Việt của chúng ta phải xử lý hoàn toàn khác do đơn vịnhỏ nhất lại là “tiếng” Do đó, trước khi thực hiện phân loại, chúng ta phải tìm hiểu

về các hướng tiếp cận cho việc tách từ tiếng Việt, một vấn đề khá thú vị không kémcác phương pháp phân loại

Chương 2: Xây dựng mô hình khai phá văn bản tiếng Việt

2.1 Phân loại văn bản

Mục tiêu của phân loại văn bản là phân loại các văn bản vào những loạivăn

bản được định nghĩa trước Một văn bản có thể thuộc về một hay nhiều loạivăn bản hay không thuộc về một loại văn bản nào

Để có thể phân loại văn bản, ta cần phải có một bộ dữ liệu văn bản mẫu

đã được phân loại, để dựa trên bộ dữ liệu mẫu này, ta trích rút được những

Trang 27

thông tin phân loại phục vụ cho việc phân loại một văn bản nào trong hệphân loại Quá trình phân loại văn bản là sự kết hợp của hai giai đoạn:

- Tạo bộ dữ liệu phân loại hay còn gọi là giai đoạn huấn luyện

- Phân loại văn bản hay giai đoạn phân loại

 Giai đoạn huấn luyện – giai đoạn rút trích dữ liệu: Với dữ liệu đầu vào

là các văn bản, cùng với những thông tin kèm(định dạng của văn bản,cấu trúc của văn bản), dữ liệu được chuyển đổi sao cho phù hợp và sẵnsàng cho việc phân loại Kết quả của giai đoạn này có thể ở dạngvector văn bản, mạng nơron, bộ luật phân loại văn bản tuỳ vàophương pháp sử dụng để phân loại văn bản, được gọi là hệ hỗ trợquyết định

 Giai đoạn phân loại: Sử dụng dữ liệu văn bản và kết quả của giai đoạnhuấn luyện là hệ hỗ trợ quyết định, để phân loại văn bản

Văn bản, thực chất là những chuỗi các ký tự, cần phải được chuyển đổisang một dạng thức phù hợp với mỗi cách tiếp cận phân loại văn bản

Thông tin về định dạng của văn bản,cấu trúc của văn bản được dùng làm

cở sở để thu thập dữ liệu từ văn bản hay chính xác hơn là rút trích từ phổ biếntrong mỗi văn bản Thao tác rút trích từ phổ biến trong văn bản là một thaophức tạp Hầu hết các phương pháp rút trích từ phổ biến đều dựa trên tần suất(số lần) xuất hiện của từ trong mỗi văn bản, dựa trên tần suất này mà ta cóthể quyết định một từ là từ phổ biến hay hiếm khi xuất hiện hay thuộc loạithường xuyên xuất hiện

Cách tiếp cận như trên thường dẫn đến kết quả số lượng từ phổ biến sẽ rấtlớn, có thể lên tới hàng chục ngàn từ trong không gian phổ biến

Vì thế hầu hết mọi hệ phân loại văn bản đều kết hợp với phương cách rútgọn không gian từ phổ biến Có nhiều phương pháp rút gọn không gian từ

Trang 28

phổ biến như: kỹ thuật phân lô, kỹ thuật sử dụng gốc từ, phương pháp

DF,CF-DF, áp dụng lý thuyết tập thô,lý thuyết mờ

2.1.1 Giai đoạn huấn luyện-Giai đoạn trích rút dữ liệu

Hình 2-1 Mô hình tạo luật phân loại văn bản áp dụng lý thuyết tập thô

Mục đích của giai đoạn huấn luyện:tạo ra phương tiện phân loại văn bản

đó là bộ luật phân loại văn bản

Tương ứng với mỗi loại văn bản(Giáo dục, kinh tế, thể thao, tin học, )

người dùng thu nhập văn bản, các văn bản này ở dạng các tập tin, trên

internet, Từ bộ dữ liệu văn bản đã thu nhập, hệ thống sẽ biến đổi các văn

Lọc và phâ

ổ b iến

Không gian từ phổ biến thô

Rú t g ọn

từ p hổ biế n

Không gian từ phổ biến

Tạ o vec tor

bộ

luật p

hân

loại văn

bản

Bộ luật phân loại văn bản

Trang 29

bản sang dạng chuỗi các ký tự Chẳng hạn như, đối với loại tập tin *.html thì

bộ lọc sẽ loại bỏ các html tag, script, đối với tập tin *.doc thì bộ lọc sẽ loại bỏcác định dạng trong Microsoft Word của tập tin Ta sẽ có được bộ dữ liệu vănbản ở dưới dạng những chuỗi ký tự, dựa vào phụ từ ta phân tách chuỗi ký tựvăn bản thành các cụm từ, cùng với số lần xuất hiện của cụm từ đó trong hệthống ta xác định được các từ phổ biến, gọi là không gian từ phổ biến, khônggian từ phổ biến ban đầu có thể có số lượng từ phổ biến lên tới trên 10.000

từ, tiến hành rút gọn độ lớn của không gian từ phổ biến bằng lý thuyết tậpthô, ta sẽ có thể được một không gian từ phổ biến đã được rút gọn Căn cứtrên không gian từ phổ biến thu gọn, ta có được các vector văn bản tươngứng với các văn bản ban đầu Từ đó ta có thể áp dụng lý thuyết tập thô để tạo

ra tập luật phân loại văn bản, xem hình 2-1

2.1.2 Lọc và phân loại văn bản

Từ bộ dữ liệu văn bản thô ban đầu dưới dạng các tập tin văn bản, có được

từ nhiều nguông khác nhau, theo từng loại văn bản đã định nghĩa trước.Nguồn dữ liệu văn bản này có thể dễ dàng có được từ internet, hiện nay ởViệt Nam có rất nhiều trang web tiếng Việt(font chữ Unicode) có nội dungphong phú như www.thanhnien.com.vn, www.chungta.com,

www.vnexpres.net, với các tin tức được chia thành nhiều loại chuyên mụckhác nhau như thể thao, sức khoẻ,thế giới, thể thao dựa trên từng chuyênmục, hay loại văn bản trên các trang tin tức này, ta tiến hành tải về các tin tứctương ứng dưới dạng tập tin *.html

Từ các trang html này, ta tiến hành giai đoạn lọc để lấy nội dung Đảmbảo mọi html tag, script đều không bị trộn lẫn trong nội dung lọc được để cóthể đạt được kết quả chính xác hơn trong giai đoạn rút trích từ phổ biến

Bộ dữ liệu văn bản đựơc sử dụng trong luận văn đều ở dạng font chữUnicode

Trang 30

2.1.3 Phân tích từ phổ biến

Dựa trên nghiên cứu về phân tích cú pháp câu tiếng Việt theo quan điểm

đề thuyết[2], luận văn xuất hiện một phương pháp phân tích từ phổ biến dựatrên việc loại bỏ các từ liên kết trong câu tiếng Việt cũng như câu tiếng Anh.Trong câu tiếng Việt có các từ liên kết như thì, là, vì thế, tuy nhiên, dùcho, Trong tiếng Anh có các từ liên kết thuộc giới từ, đại từ, liên từ: in, on,

2.1.4 Rút gọn không gian từ phổ biến

Từ kết quả của giai đoạn phân tích từ phổ biển, ta được tập các từ phổbiến trong hệ thống, không gian từ phổ biến thô này rất lớn, nếu sử dụngkhông gian từ phổ biến thô như trên sẽ ảnh hưởng rất lớn đến tốc độ phânloại và chiếm dụng rất nhiều tài nguyên máy tính Để có thể có được một kếtquả phân loại tối ưu, nhưng đòi hỏi ít nguồn tài nguyên máy tính, ta đề cậpđến giải pháp làm thế nào để có thể làm giảm không gian từ phổ biến, mà vẫnđảm bảo được độ chính xác của kết quả phân loại.Có rất nhiều kỹ thuật rútgọn không gian từ phổ biến như:kỹ thuật phân lô, kỹ thuật sử dụng gốc từ,phương pháp DF, CF-DF, áp dụng lý thuyết tập thô,

2.1.5 Tạo vector văn bản

Ta đã trải qua quá trình rút trích từ các văn bản mẫu không gian từ phổbiến, và thu gọn không gian từ phổ biển, giúp việc phân loại văn bản trở lênhiệu quả, và chính xác Từ không gian từ phổ biến thu gọn này ta tạo rakhông gian các vector văn bản, làm tiền đề cho việc tạo tập luật phân loại vănbản

Trang 31

Các trục trong vector văn bản là tập hợp tất cả các từ phổ biến tương ứngvới mỗi hệ thống phân loại văn bản, còn được gọi là không gian từ phổ biến Việc chuyển đổi từ một văn bản sang dạng vector văn bản là việc rút racác từ phổ biến cho văn bản.

Mỗi văn bản d(hình dung mỗi văn bản như là một tập từ phổ biến) có thểđược biểu diễn dưới dạng vector như sau:

dtf , , , n

2 1

Có một số từ phổ biến xuất hiện thường xuyên trong các văn bản, những

từ phổ biển này cản trở quá trình phân loại văn bản, để giải quyết vấn đề này,

ta sử dụng độ phổ biến văn bản DF đưa vào biểu thức biểu diễn văn bản:

dtfdf   ,  , , nn

2 2

1 1

df i  log , với N là tổng số văn bản trong tập văn bản mẫu,

n là số văn bản có từ phổ biển thứ i xuất hiệnTuy nhiên, dù cho mô hình không gian vector văn bản được sử dụngrất nhiều trong thực tế, nó có một số các khuyết điểm:

 Đối với những không gian từ phổ biến vô cùng lớn, sẽ cónhững thuật toán, ứng dụng trên không gian từ phổ biến, sẽ khó

Ngày đăng: 03/07/2015, 14:45

HÌNH ẢNH LIÊN QUAN

Hình 1-1 Mô hình tóm tắt tự động 3- Các phương pháp đánh giá      Edmundson và Rouge - Xây dựng mô hình khai phá văn bản tiếng Việt
Hình 1 1 Mô hình tóm tắt tự động 3- Các phương pháp đánh giá Edmundson và Rouge (Trang 10)
Hình 1.1 Biểu diễn văn bản - Xây dựng mô hình khai phá văn bản tiếng Việt
Hình 1.1 Biểu diễn văn bản (Trang 13)
Hình sau minh họa cho thuật toán này : - Xây dựng mô hình khai phá văn bản tiếng Việt
Hình sau minh họa cho thuật toán này : (Trang 15)
Hình 1.3 Kiến trúc mô đun (Modular architecture). Các kết quả của mạng con sẽ là giá trị đầu vào cho mạng siêu chủ đề và được nhân lại với nhau để dự đoán chủ đề cuối cùng - Xây dựng mô hình khai phá văn bản tiếng Việt
Hình 1.3 Kiến trúc mô đun (Modular architecture). Các kết quả của mạng con sẽ là giá trị đầu vào cho mạng siêu chủ đề và được nhân lại với nhau để dự đoán chủ đề cuối cùng (Trang 21)
Hình  2-1 Mô hình tạo luật phân loại văn bản áp dụng lý thuyết tập thô - Xây dựng mô hình khai phá văn bản tiếng Việt
nh 2-1 Mô hình tạo luật phân loại văn bản áp dụng lý thuyết tập thô (Trang 28)
Hình 2-3 Mô hình huấn luyện văn bản tóm tắt. - Xây dựng mô hình khai phá văn bản tiếng Việt
Hình 2 3 Mô hình huấn luyện văn bản tóm tắt (Trang 38)
Sơ đồ tóm tắt một văn bản - Xây dựng mô hình khai phá văn bản tiếng Việt
Sơ đồ t óm tắt một văn bản (Trang 40)
Hình 3-1 Mô hình huấn luyện phân loại - Xây dựng mô hình khai phá văn bản tiếng Việt
Hình 3 1 Mô hình huấn luyện phân loại (Trang 42)
Bảng 1 đưa ra một cách minh hoạ đơn giản trong cách xây dựng quan hệ mờ - Xây dựng mô hình khai phá văn bản tiếng Việt
Bảng 1 đưa ra một cách minh hoạ đơn giản trong cách xây dựng quan hệ mờ (Trang 43)
Hình 3-2 Mô hình phân loại một văn bản - Xây dựng mô hình khai phá văn bản tiếng Việt
Hình 3 2 Mô hình phân loại một văn bản (Trang 47)
Sơ đồ mô tả các bước tóm tắt văn bản - Xây dựng mô hình khai phá văn bản tiếng Việt
Sơ đồ m ô tả các bước tóm tắt văn bản (Trang 49)
Bảng TừNP - Xây dựng mô hình khai phá văn bản tiếng Việt
ng TừNP (Trang 59)

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w