Trong những năm gần đây phân loại văn bản đã trở thành một kỹ thuật then chốt để tổ chức thông tin trực tuyến. Nó có thể được sử dụng để tổ chức cơ sở dữ liệu văn bản, lọc thư điện tử tìm kiếm thông tin liên quan đến Web, hoặc để chỉ dẫn người dùng tìm kiếm thông tin qua các siêu văn bản hypertext). Mà ở đó, việc phân loại văn bản bằng tay là không thể thực hiện được, hoặc thực hiện với chi phí tốn kém nhất. Do đó, cùng với sự phát triển của thông tin trực tuyến, một yêu cầu cấp thiết đặt ra là cần phải xây dựng hệ thống phân loại văn bản tự động. Cho đến nay, đã có nhiều đề xuất xây dựng bài toán phân loại văn bản tự động như Neive Bayes, Bayes net, K- láng giêng gần nhất, cây quyết định, mạng nơron, Support Vector Machines,... Các phương pháp phân loại này, đạt được những thành đáng kể đối vớ các văn bản tiếng anh, Pháp, Nhật, Trung Quốc đã được ứng dụng thực tế như trong các tìm kiếm của Yahoo, Altavista, Google,... Trong đó, K- láng giềng gần nhất là một cách tiếp cận cho độ chính xác của phân loại văn bản cao hơn hẳn các phương pháp phân loại khác. Ơ Việt Nam, cũng đã có nhiều nghiên cứu về lĩnh vực xử lý văn bản tiếng Việt, như đề tìa nghiên cứu về Máy dịch tự động Anh –Việt (EVTRan) của viện nghiên cứu ứng dụng công nghệ, đề tài nhận dạng, xử lý tiếng Việt VnDoc của viện công nghệ thông tin và nhiều luận văn tôt nghiệp cao học đại học khác. Nhưng nghiên cứu về phân loại văn bản tiếng việt chưa nhiều và kết quả con hạn chế. Bởi vậy, trong luận văn này em sẽ tập trung nghiên cứu bài toán phân loại văn bản Tiếng Việt dựa trên cách tiếp cận K- láng giêng gần nhất. Một vấn đề liên quan mật thiết đến tốc độ xử lý cũng như độ chính xác của quá trình phân loại số chiều của vector biểu diễn văn bản. Nếu dùng các từ trong từ điển làm đặc trưng để biểu diễn văn bản thì mỗi văn bản tiếng Việt được biểu diễn bằng một vector có hơn 70 nghìn chiều (tương đương với số từ trong tư điển tiếng Việt). 70 nghìn là con số quá lớn khi ta có đến hàng triệu văn bản cần xử lý trong quá trình phân loại. Để tăng tốc độ xử lý và độ chính xác của kết quả phân loại văn bản, trong luận văn này em xin đề xuất một phương pháp xây dựng phân loại văn bản. Các từ đặc trưng để biểu diễn văn bản tiếng Việt, đồng thời, cũng đưa ra phương pháp xây dựng phân loại văn bản Tiếng Việt Sử dụng phương pháp KNN.
Trang 1Cho đến nay, đã có nhiều đề xuất xây dựng bài toán phân loại văn bản tựđộng như Neive Bayes, Bayes net, K- láng giêng gần nhất, cây quyết định, mạngnơron, Support Vector Machines, Các phương pháp phân loại này, đạt đượcnhững thành đáng kể đối vớ các văn bản tiếng anh, Pháp, Nhật, Trung Quốc đãđược ứng dụng thực tế như trong các tìm kiếm của Yahoo, Altavista, Google, Trong đó, K- láng giềng gần nhất là một cách tiếp cận cho độ chính xác củaphân loại văn bản cao hơn hẳn các phương pháp phân loại khác
Ơ Việt Nam, cũng đã có nhiều nghiên cứu về lĩnh vực xử lý văn bản tiếngViệt, như đề tìa nghiên cứu về Máy dịch tự động Anh –Việt (EVTRan) của việnnghiên cứu ứng dụng công nghệ, đề tài nhận dạng, xử lý tiếng Việt VnDoc củaviện công nghệ thông tin và nhiều luận văn tôt nghiệp cao học đại học khác.Nhưng nghiên cứu về phân loại văn bản tiếng việt chưa nhiều và kết quả conhạn chế Bởi vậy, trong luận văn này em sẽ tập trung nghiên cứu bài toán phânloại văn bản Tiếng Việt dựa trên cách tiếp cận K- láng giêng gần nhất
Một vấn đề liên quan mật thiết đến tốc độ xử lý cũng như độ chính xác củaquá trình phân loại số chiều của vector biểu diễn văn bản Nếu dùng các từ trong
từ điển làm đặc trưng để biểu diễn văn bản thì mỗi văn bản tiếng Việt được biểudiễn bằng một vector có hơn 70 nghìn chiều (tương đương với số từ trong tưđiển tiếng Việt) 70 nghìn là con số quá lớn khi ta có đến hàng triệu văn bản cần
Trang 2xử lý trong quá trình phân loại Để tăng tốc độ xử lý và độ chính xác của kết quảphân loại văn bản, trong luận văn này em xin đề xuất một phương pháp xâydựng phân loại văn bản.
Các từ đặc trưng để biểu diễn văn bản tiếng Việt, đồng thời, cũng đưa raphương pháp xây dựng phân loại văn bản Tiếng Việt Sử dụng phương phápKNN
Nội dung luận văn bao gồm 6 chương, cụ thể:
- Chương I: Trình bày tổng quan về khai phá dữ liệu văn bản và
bài toán phân loại văn bản
- Chương II: Trinh bày các vấn đề của quá trình tiền xử lý văn
bản tiếng Việt (tách từ lựa chọn đặc trưng, biểu diễn văn bản)
- Chương II: Một số phương pháp phân loại truyền thống
- Chương IV: Phương pháp phân loại văn bản dựa trên cách tiếp cậnKNN
- Chương V: Chương trình kết quả thực nghiệm
- Chương VI: Kết luận và hướng phát triển của luận văn
Do thời gian và hiểu biết còn hạn chế, nên luận văn còn nhiều thiếu sót,
em rất mong nhận được sự góp ý của thầy cô và các bạn, để hoàn thiện luận vănhơn nữa
Trang 3CHƯƠNG I TỔNG QUAN VỀ KHAI PHÁ VĂN BẢN
Mục đích của chương này là giới thiệu một cách tóm tắt về vấn đề khaiphá dữ liệu văn bản, bài toán phân loại văn bản
- Khai phá dữ liệu văn bản là gì?
- Các bước để xây dựng bài toán khai phá dữ liệu văn bản
- Bài toán phân loại văn bản
1.1 Khai phá dữ liệu văn bản (Text mining)
Văn bản là một trong những dạng dữ liệu phổ biến nhất, hiện nay, nó cómặt ở khắp mọi nơi và chung ta thường xuyên bắt gặp hàng ngày Do đó, các bàitoán xử lý văn bản đã được đặt ra từ khá lâu và cho đến nay vấn là một trongnhững vấn đề hay trong khai phá dữ liệu văn bản (text), trong đó có những bàitoán đáng chú ý như tìm kiếm văn bản, phân loại văn bản, phân cụm văn bản,hoặc dẫn đường văn bản,
Các văn bản được tập hợp trong cơ sơ dữ liệu văn bản có thể chia làm hailoại:
- Dạng không có cấu trúc (unstructured): Những văn bản thông thường
mà chúng ta thường đọc hàng ngày được thể hiện dưới dạng ngôn ngữ tự nhiêncủa con người và nó không có một cấu trúc định dạng nào
- Dạng bán cấu trúc (semi- structured): Những văn bản được tổ chứcdưới dạng cấu trúc không chặt chẽ thành bản ghi mà dùng các ký hiệu đánh dấuvăn bản vẫn thể hiện được nội dung của văn bản, ví dụ như các dạng HTML,email,
Trong luận văn này, em chỉ quan tâm xử lý dữ liệu văn bản ở dạng phi cấutrúc (biểu diễn văn bản dưới dạng tập tin TXT), bài toán được giải quyết theohướng dữ liệu mở để tương lài có thể áp dụng với các mục đích sử dụng khácnhau
Trang 4Có nhiều cách phân lớp các lĩnh vực trong xử lý văn bản, Lewis đã chiathành hai nhóm lĩnh vực chính là phân lớp văn bản (TextClàssifition) gồm cáccông việc xác định văn bản hoặc một phần của văn bản vào một hay nhiều lớpxác định trước và hiểu nghĩa văn bản (Text Understanding) bao gồm các côngviệc phức tạp hơn để xử lý nội dung của văn bản như tóm tắt văn bản (TextSummarization hoặc Abstraction), trích chọn thông tin (Text Extraction), Tuynhiên, việc phân làm hai lớp cũng không thật rõ ràng, trong các hệ phần mềm,người ta thường kết hợp hai lớp bài toán trên như trong hệ tìm kiếm (SearchEngine), hoặc trong bài toán tim kiếm văn bản (Text Retrievàl), một trongnhững linh vực được quan tâm nhất hiện nay Chẳng hạn như trong hệ tim kiếmYahoo, Altavíta, Google đều tổ chức dữ liệu theo các nhóm và các mục, mỗinhóm lại bao gồm nhiều nhóm con năm trong nó Hệ phần mềm tìm kiếm củaAltavista, Google, con tich hợp thêm chương trình dịch tự động có thể dịchchuyển đổi sang nhiều thứ Tiếng khác nhau và cho kết quả rất tốt
Khai phá văn bản (Text mining) là một nhánh của khai phá dữ liệu (Datamining), có mục đích là phát hiện và rút thông tin, tìm kiếm thông tin từ các tàiliệu văn bản (text documents) Khai phá văn bản liên quan tới các vấn đề như:
xử lý ngôn ngữ tự nhiên trích rút thông tin, tìm kiếm thông tin, khai phá Web,
Text Mining (applied to text data) + Lànguage Engineering
1.2 Các bước khai phá dữ liệu văn bản
Mục đích của quá trình tiền xử lý văn bản là đưa ra cách biểu diễn
văn bản thích hợp nhất Các bước của quá trình tiền xử lý văn bản baogồm:
- Phân tích ngữ pháp/ngữ nghĩa của văn bản: tìm từ loại, loại bỏ sự nhậpnhằng về ngữ nghĩa, phân tích ngữ pháp
- Sinh ra các tập các từ (còn gọi là túi từ - bag of words): Biểu diễn văn bảnbởi các từ trong văn bản đó, nhận dạng từ, loại bỏ các tư dừng (stop words, lànhững tư không có ích cho khai phá văn bản) Ví dụ, một số từ dừng trong cácvăn bản tiếng việt là: và, vì vậy, tóm lại, nếu, chẳng hạn,
Trang 5- Lựa chọn các từ: Sau khi đã loại bỏ các từ dừng, quá trình giảm số chiềucủa việc biểu diễn văn bản được thực hiện bằng cách loại bỏ những đặc trưngkhông thích hợp Việc lự chọn các đặc trưng của văn bản liên quan đến trọng sốcủa các từ xuất hiện trong văn bản đó Trọng số của từ là độ quan trọng, hayhàm lượng thông tin mà từ đó mang lại cho văn bản Nó là đại lượng để đo sựkhác biệt giữa văn bản chứa nó với văn bản khác Đại lượng này có thể xác địnhbằng tay hay đánh giá số lần xuất hiện của cụm từ đó trong văn bản và số lầnxuất hiện của cụm từ đó trong các văn bản khác Số lần xuất hiện của từ trongvăn bản càng nhiều thì độ quan trọng của nó trong văn bản càng lớn và ngượclại
1.2.1 Khai phá văn bản/dữ liệu
Một số bài toán của khai phá văn bản dữ liệu là:
- Phân loại văn bản (Text Categorization): cho một số lớp văn bản đã đượcxác định trước, nhiệm vụ của phân loại văn bản là: gán các văn bản vào ( mộthay một số) lớp văn bản thích hợp dựa vào nội dung của văn bản
- Lập nhóm của văn bản (Text Clustering): cho một số văn bản, nhiệm vụcủa lập nhóm văn bản là chia các văn bản này thành các nhóm thích hợp căn cứvào mặt tương tự về mặt nội dung giữa các văn bản
- Tóm tắt văn bản (Text Summairzation): Tóm tắt, chắt lọc thông tin từ một(hay nhiều) nguồn để đưa ra mô tả ngắn gọn, cô đọng thông tin từ nguồn tài liệu
1.2.2 Ứng dụng các kết quả khai phá dữ liệu văn bản trong thực tế
Ứng dụng các kết quả khai phá dữ liệu văn bản là sử dụng cá kết quả khaithác văn bản cho những mục đích cụ thể Kết quả của quá trình khai phá dữ liệu
Trang 6văn bản có thể sử dụng cho việc trích lọc thông tin, tóm tắt thông tin, dịch tựđộng văn bản, dự đoán các xu hướng trong tương lài, tim kiếm thông tin, phânloại thông tin, Và các ứng dụng này lại được sử dụng như một công cụ hỗ trợtrong các hệ thống thông tin khác Ví dụ, chương trình dịch tự động văn bảntrong hệ tìm kiếm của Google dể có thể chuyên dịch văn bản sang nhiều thứTiếng khác nhau Các kết quả của quá trình phân loại thông tin, trích lọc thôngtin tìm kiếm văn bản có thể được trong việc tổ chức, phân loại thông tin trong hệtìm kiếm để mang lại hiệu quả cao trong việc tim kiếm thông tin
1.3 Bài toán phân loại văn bản (Text categorization)
1.3.1 Bài toán phân loại văn bản
Phân loại văn bản quá trình gán nhãn văn bản vào một (hay một số) chủ
đề cho trước, dựa trên nội dung của văn bản
Trong thập kỷ 80 hầu hết cách tiếp cận (ít nhất là trong thiết đặt thao tác)
để phân loại văn bản tự động gồm các kỹ thuật điều khiển bằng tay bởi chuyêngia tri thức (Knowledge Engineering- KE), một hệ thống chuyên gia có khảnăng đưa ra quyết định phân loại Hệ chuyên gia bao gồm các tập logic địnhnghĩa bằng tay, cho mỗi loại, có dạng:
If (DNF formulà) then (category)
Mỗi công thức DNF (“Disjiunctive Normal Form”) là hợp của các mệnh
đề liên kết, tài liệu được phân loại vào category nếu nó thỏa mãn công thức,nghĩa là, nếu nó thỏa mãn ít nhất một mệnh đề trong công thức Một ví dụ nổitiếng cho cách tiếp cận này là hệ thống CONSTRUE [Hayes et al 1990], xâydựng bở Carnegie Group cho tệp tin Reuters sau đây, là một ví dụ về luật được
sử dụng trong CONSTRUE:
IF ( (wheat &farm) OR (wheat & commodity)
or (bushels & export) or (wheat & wheat & tonnes)
or (wheat & winter & soft) )
then WHEAT
else WHEAT
Trang 7Điều trở ngại của cách tiếp cận này là hạn chế trong quá trình thu nhận trithức từ tài liệu của hệ thống chuyên gia nghĩa là, các luật phải được định nghĩabằng tay bởi các kỹ sư tri thức với sự giúp đỡ của chuyên gia trong lĩnh vựcđược nêu trong tài liệu: nếu tập hợp của các loại được cập nhật, thì hai nhàchuyên gia về lĩnh vực được nêu trong tài liệu: nếu tập hợp của các loại đượccập nhật, thì hai nhà chuyên nghiệp phải can thiệp lại và nếu phân loại đượcchuyển hoàn toàn sau một phạm vi khác, một chuyên gia về lĩnh vực này phảican thiệp vào công việc phải được bắt đầu từ tập tài liệu hỗn tạp ban đầu
Đầu thế kỷ 90, cách tiếp cận học máy (Machine Learning) để phân loạivăn bản được coi là nổi tiếng và trở thành thống trị, ít nhất là trong cộng đồngngười nghiên cứu (Mitchell[1996]), Theo cách tiếp cận này, một quá trình xử lýquy nạp chung (cũng được gọi là quá trình học) xây dựng tự động
một phần lớp cho một loại ci bằng quan sát các đặc trưng của tập hợp cáctài liệu đã được phân bằng tay vào ci hay c i bởi chuyên gia về lĩnh vực này; từ
đó, quá trình qui nạp thu lươm các đặc trưng để phân loại một tài liệu mới(không nhìn thấy) vào ci Trong kỹ thuật học máy, bài toán phân lớp là hoạtđộng học có giam sát, quá trình học được “giám sát” bởi tri thức của các phânloại và của mẫu huấn luyện thuộc chúng
Với phương pháp học máy, sự cố găng về phương diên công việc của kỹ sưtheo hướng không phải xây dựng một phân lớp tự động (học) từ một tập các tàiliệu đã được phân loại bằng tay Trong các tiếp cận học máy, các tài liệu đãđược phân loại bằng tay Trong các tiếp cận học máy, các tài liệu đã được phânlớp trở thành nguồn Trường hợp thuận lợi nhất, chúng đã có sẵn, khi đó quátrình phân loại bắt đầu bằng việc học từ tập dữ liệu này, sau đó thực hiện phânloại tự động với các tài liệu khác Trường hợp ít thuận lợi, không có sẵn tài liệu
đã phân loại bằng tay; khi đó quá trình phân loại động bắt đầu một hành độngphân loại và chọn một phương pháp tự động ngay lập tức Do đó, cách tiếp cậnhọc máy là thuận lợi hơn cách tiếp cận kỹ sư tri thức
Trang 8Các phân lớp xây dựng theo nghĩa kỹ thuật học máy ngày nay gây được
ấn tương sâu sắc về mức độ hiệu quả, khiến cho phân lớp tự động trở thành một
sự lựa trọn tốt để thay thế phân loại bằng tay (Không chỉ về phương diện kinhtế) Chúng ta có thể hình dung các công việc của bài toán phân loại văn bản dựatrên kỹ thuật học máy như sau:
Cách tiếp cận học máy dựa trên một tập dữ liệu có sẵn từ dầu ={d1, , d
} D, trong đó D tập tất cả các tài liệu đã được phân lớp trước, d j là vănbản thứ j, Tập các lớp C= {c1, , c C }, ci là kí hiệu của lớp thứ i Hàm : D
C {T, F} với mọi < d j , c> C Một tài liệu d j là mẫu dương của ci
nếu ( d j , ci ) = T, làu một mẫu âm nếu ( d j, ci) = F
Với cách phân loại đưa ra, người ta mong muốn đánh giá được hiệu quảcủa chúng Bởi vậy, trước khi xây dựng phân loại của chúng Bởi vậy, trước khixây dựng phân loại người ta chia tập dữ liệu ban đầu thành 2 tập hợp
- Tập huấn luyện (training (- and- validation) set) Tr = {d1, , d TV }.Phân lớp cho các phân loại C = {c1, , c C } được xây dựng quy nạp dựatrên sự quan sat các đặc trưng của các tài liệu trong Tr
- Tập kiểm tra (test set) Te = {d TV 1 , d }, được sử dụng để kiểm trahiệu quả của phân lớp Mỗi d j Te được đưa vào hệ thống phân lớp để xácđịnh giá trị ( d j , ci) và so sánh giá trị này với quyết định ( d j , ci ) củachuyên gia Hiệu quả của phân lớp dựa trên sự phù hợp giữa ( d j , ci ) và
1) Đánh chỉ số: Các văn bản ở dạng thô được chuyển sang dạng biểu diễnnào đó để xử lý Quá trình này được gọi là quá trình biểu diễn văn bả, dạng biểu
Trang 9diễn của văn bản, dạng biểu diễn của văn bản phải có cấu trúc và dễ dàng xử lý.Chi tiết về việc biểu diễn văn bản sẽ được trình bày trong chương 2.
2) Kỹ thuật: Kỹ thuật ở đây là phương pháp học để phân loại văn bản, nóthường được sử dụng trong quá trình xây dựng quy nạp của các phân loại
3) Đánh giá: đánh giá hiệu quả của các phân lớp được thực hiện
Sự khác nhau trong các cách tiếp cận trước đây phần lớn là để giải quyết (2)mặc dù trong một số ít đề xuất cũng sử dụng (1) và (3)
Hầu hết các phương pháp phân loại văn bản dựa trên các kỹ thuật học máyhiện nay đều dựa vào tần suất hiện (số lần xuất hiện) của từ hoặc cụm từ trongvăn bản, hoặc dựa vào tần suất xuất hiện của từ trong văn bản và tần suất vănbản (số các văn bản trong tập dữ liệu huấn luyện có chứa từ đó) Độ chính xáccủa kết quả tách từ có ảnh hưởng rất lớn đến kết quả của phân loại, không thể cókết quả phân loại tốt nếu không tách được đúng các từ trong văn bản Bởi vậy,một vấn đề quan trọng đối với phân loại văn bản là phải tách được chính xác các
từ trong văn bản Các văn bản được viết bằng các ngôn ngữ khác nhau thì có đặctrưng riêng của ngôn ngữ đó và không có một phương pháp chung nào để táchcác từ trong các văn bản được viết bằng ngôn ngữ khác nhau Trong chươngsau, em sẽ giới thiệu một số phương pháp tách từ dùng cho các văn bản tiếngViệt, phục phụ cho các bước tiền xử lý của phân loại văn bản
Tóm lại, một bài toán phân loại văn bản dựa trên kỹ thuật học máy gồmcác bước sau:
- Chuẩn bị tập dữ liệu huấn luyện (Training Set) và tập dữ liệu kiểm tra(Test set)
- Tách từ trong văn bản
- Biểu diễn văn bản
- Phương pháp học máy để phân loại văn bản
- Đánh giá hiệu quả của phương pháp học
1.3.2 Một Số phương pháp phân loại văn bản
Trang 10Có nhiều phương pháp phân loại văn bản được đề xuất, sự khác nhau
cơ bản giữa các phương pháp này là ở thuật toán quy nạp Nhiều thực nghiệmcho thấy các phương pháp như: cây quyết định (decision tree), K- làng giềnggần nhất (K- nearest neighbos), phương pháp sử dụng các vector hỗ trợ (SupportVector Machines) là những phương pháp có hiệu quả phân loại cao ở Việt Namcũng như một số nghiên cứu sử dụng cây quyết định, k- láng giềng gần nhất đểphân loại văn bản tiếng Việt
- Phương pháp cây quyết định: Ý tưởng của phương pháp này là xây
dựng một cây nhị phân quyết định gồm các nút và các cung trọng số liên kếtgiữa các nút cụ thể: Các nút trong được gán nhãn bởi các từ, nhãn của các cungtương ứng với trọng số của các từ trong tài liệu mẫu, nhãn của các lá tương ứngvới nhãn của các lớp Cho một tài liệu d j, ta sẽ thực hiện so sánh các nhã củacung xuất phát từ một nút trong (tương ứng với một từ nào đó) với trọng số của
từ trong d j , để quyết định nút trong nào sẽ được duyệt kế tiếp Quá trình nàyđược lặp từ nút gốc của cây, cho tới khi nút được duyệt là một lá của cây Kếtthúc quá trình này, nhãn của nút làn nhãn của lớp được gán cho văn bản
- Phương pháp k- láng giềng gần nhất: Tư tưởng chính cảu phương
pháp này là tình độ phù hợp của văn bản đang xét với từng nhóm chủ đề dựatrên k văn bản mẫu có độ tương tự gần nhất
- Phương pháp Support Vector Machines: Phương pháp này suất phát từ
suy nghĩ, làm thế nào để tối thiểu lỗi trong quá trình kiểm tra (test orrorminimization ) Bởi vậy, ý tương của Support Vectort Machines (SVNs) là tìmmột siêu phăng tối ưu để phân chia tập dữ liệu huấn luyện sao cho các văn bảnthuộc lớp ci thuộc về phía siêu phẳng, con các văn bản không thuộc lớp ci sẽthuộc về phía bên kia của siêu phẳng Một siêu phẳng được gọi là tối ưu nếukhoảng cách từ mẫu gần nhất đến siêu phẳng là lớn nhất
Các phương pháp như cây quyết định, k- láng giềng gần nhất có ưu điểm là
dễ hiểu, dễ xây dựng về mặt thuật toán, nhưng cây quyết định dựng sẽ phứctạp khi vector dùng để biểu diễn văn bản có số chiều quá lớn, còn với k- láng
Trang 11giềng gần chúng ta không có giải pháp tuyệt đối trong lựa trọn phương pháp xácđịnh độ tương tự giữa văn bản và chủ đề Hiệu quả của các phương pháp nàytăng khi tập dữ liệu huấn luyện có chứa nhiều văn bản Phương pháp SVMs tuyphức tạp về mặt xây dựng thuật toán nhưng hiệu quả phân loại không phụ thuộcvào số chiều của vector biểu diễn văn bản để huấn luyện Quan trọng hơn cả,nhiều kết quả thực nghiệm [Thorsten Joachchims, 1997], [Fabrizio Sebastiani,2002], cho thấy so với các phương pháp loại văn bản truyền thống (như câyquyêt định, SVMs, ) đều là nhưng phương pháp phân loại hiệu quả và có ưunhược điểm riêng
Do đó, trong luận văn này em sẽ tập trung vào tìm hiểu phương phápKNN và áp dụng phương pháp này để phân loại văn bản tiếng Việt
1.4 Kết chương
Trong chương này, em đã trình bày tóm tắt các bước cần làm của một bàitoán phân loại văn bản Nghiên cứu phương pháp KNN và so sánh no với một sốphương pháp phân loại văn bản khác Cuối cùng là kết quả thực nghiệm của luậnvăn, dùng phương pháp k- láng giềng gần nhất để phân loại văn bản tiếng Việt
Trang 12CHƯƠNG II TÁCH TỪ VÀ BIỂU DIỄN VĂN BẢN TIẾNG VIỆT
Để máy tính có thể tự động phân loại văn bản, thì các văn bản được trìnhbày dưới dạng chuỗi ký tự cần phải biến đổi thành một mô tả thuận lợi cho thuậttoán huấn luyện và bài toán phân loại, nghĩa là văn bản được chuyển từ dạngkhông có cấu trúc (hoặc bán cấu trúc) sang dạng có cấu trúc Có rất nhiều cáchbiểu diễn văn bản, nhưng dù theo cách này hay cách khác thì việc biểu diễn vănbản đều dựa vào sự xuất hiện của từ trong văn bản Do đó, công việc đầu tiền vàảnh hưởng lớn đến quá trình phân loại là kết quả của việc tách từ trong văn bản.Tiếng Việt có những đặc điểm riêng về cấu tạo của từ, cấu trúc ngữ pháp Nênviệc tách từ trong văn bản tiếng Việt cũng đòi hỏi những phương pháp đặctrưng Trong chương này, em sẽ trình bày chi tiết các bước tiền xử lý chuẩn bịcho việc phân loại văn bản tiếng Việt
o Một số phương pháp tách từ trong văn bản tiếng Việt
o Cách trích chọn đặc trưng để biểu diễn văn bản
o Một số phương pháp biểu diễn văn bản
2.1 Một số phương pháp tách từ trong văn bản Tiếng Việt
2.1.1 Các đặc trưng của văn bản
- Nhiều chiều: Số lượng từ dùng để biểu diễn văn bản là rất lớn ( hơn
10000)
- Có tính phụ thuộc: Các từ, các câu trong văn bản hoàn toàn độc lập với
nhau, chúng có liên quan với nhau về mặt ngữ nghĩa Để hiểu chinh xác ý nghĩadiễn đạt của một từ nào đó trong văn bản ta cần phải xem xét nó trong một ngữcảnh cụ thể
- Nhập nhằng: Sự nhập nhằng ở đây là do tính đa nghĩa của từ, một từ
có thể có nhiều nghĩa Thậm trí một câu cũng có thể diễn đạt nhiều ý nghĩa khác
Trang 13nhau, mà để hiểu được câu đó ta phải đặt nó trong một văn cảnh cụ thể ví dụ câu
“Ông già đi nhanh quá”, có thể hiểu theo nghĩa một ông già đi với tốc độ nhanh,nhưng cũng có thể hiểu theo nghĩa một ông nào đó nhìn già đi nhiều
Tóm lại, văn bản có những đặc điểm sau: Cấu trúc văn bản rất đa dạng, cónhiều văn bản không có một cấu trúc cụ thể Người viết trình độ kém, sai chính
tả, cấu trúc không mạch lạc
2.1.2 Một số đặc trưng của Tiếng việt
Tiếng việt là ngôn ngữ đơn âm tiết và thuộc nhóm ngôn ngữ Đông Nam Á
Nó có đặc điểm riêng về ký hiệu, ngữ pháp và ngữ nghĩa, khác với các ngôn ngữÂn- Âu Đây không chỉ là khó khăn về việc học các ngôn ngữ Châu Âu, mà còn
là khó khăn trong việc ứng dụng các kỹ thuật phát triển để xử lý ngôn ngữ tựnhiên Mặt khác, mặc dù là ngôn ngữ đơn âm tiết nhưng không giống như cácngôn ngữ đơn âm tiết khác như Trung Quốc, Thái Làn, Tiếng Việt được viếtbằng ký tự latin mở rộng Vì vậy, cách thực hiện của ngôn ngữ này cũng khôngthể ứng dụng cho Tiếng Việt và hiện tại một trong các việc còn chưa được giảiquyết trong xử lý ngôn ngữ tự nhiên của tiếng Việt là bài toán xác định các biêngiới của từ (word boundaries) trong văn bản tiếng Việt
1.2.2.1 Đặc điểm từ
Với các ngôn ngữ Ân- Âu (như Tiếng Anh, Pháp, ), “từ là một nhóm củacác ký tự có nghĩa, phân cách nhau bởi khoảng trống hoặc dấu câu ” ( địnhnghĩa trong từ điển Webster) Trong khi đó, các ngôn ngữ Châu Á như TrungQuốc, Thai, Việt Nam, Khoảng trống không được sử dụng để xác định các biên
giới từ Phần nằm giữa hai dấu phân cách là tiếng, mỗi tiếng có thể được coi là
từ cũng có khi không phải là từ Cụ thể, em xin trình bày một số đặc điểm của từtrong tiếng Việt Các định nghĩa về từ và tiếng của tiếng Việt Các định nghĩa về
từ và tiếng của tiếng Việt trong phần này được trích dẫn từ bộ sách tiếng Việtcấp 2, của nhà xuất bản Giáo Dục
a) Tiếng
Trang 14Ngôn ngữ Việt Nam có một đơn vị đặc biệt gọi là tiếng Mỗi tiếng trongtiếng Việt được viết thành một chữ, ngược lại mỗi chữ đọc thành một tiếng, mỗichữ nằm giữa dấu phân cách trong câu Tiếng được dùng để tạo thành từ, tiếng
có thể có nghĩa rõ ràng hoặc không có nghĩa rõ ràng Ví dụ:
- Từ “ lạnh lẽo ” ( có nghĩa ): tiếng “lạnh” (có nghĩa), tiếng “lẽo” (nghĩakhông rõ)
- Từ “ bồ kết ” (có nghĩa): Tiếng “bồ” và tiếng “kết” (đều có nghĩa)
- Tiếng gồm có ba bộ phận hợp lại: âm đầu, vần và thanh Ví dụ, tiếng
“đà” có âm đầu là “đ” vần “a” và thanh “huyền” Hai bộ phân vần và thanh,tiếng nào cũng phải có Âm đầu thì có tiếng có, có tiếng không ví dụ: tiếng “ở”chỉ có vần “ơ” và thanh “hỏi”, không có âm đầu Mỗi bộ phận của tiếng do một
âm hay kết hợp một số âm tạo thành Bộ phận âm đầu do âm tạo thành Âm đầu
là phụ âm
- Bộ phận vần có thể do một hoặc 2, 3 âm tạo thành, nhưng bao giờcũng phải có một âm chính Âm chính là nguyên âm Âm cuối của vần cũng cóthể là phụ âm Ví dụ, tiếng “nam” có âm đầu là n, âm cuối của vần là phụ âm m,nguyên âm làm âm chính là a
Tiếng Việt dùng chữ cái để ghi âm Mỗi âm được ghi bằng 1 hoặc nhiềuchữ cái ghép lại Trật tự bảng chữ cái trong Tiếng Việt: a, ă, â, b, c, d, đ, e, ê, g,
h, i, k, l, m, n, o, ô, ơ, p, q, r, s, t, u, ư, v, x, y
b) Từ
Tồn tại nhiều định nghĩa khác nhau về từ trong tiếng Việt, Nhưng tất cả cácnghiên cứu ngôn ngữ đều đồng ý từ trong tiếng Việt có những đặc điểm sau(Đinh Điền, 2001):
Từ phải đầy đủ về phương diện hình thức, ngữ nghĩa và độc lập về mặt ngữpháp
Từ được xây dựng từ tiếng
Chúng có thể gồm các từ đơn (1- Tiếng), hoặc các từ phức (n- tiếng, n<5).Xét về mặt cấu tạo từ có thể chia thành các loại sau:
Trang 15- Từ đơn: do 1 tiếng tạo thành
- Từ ghép: do 2, 3 hoặc 4 tiếng tạo thành
- Từ láy: là từ do 2 hay nhiều tiếng lặp lại tạo thành Các tiếng láy có thể
có một phần hay toàn bộ âm thanh được lặp lại Ví dụ, lon ton, xinh xinh, chậpchững, nhí nha nhí nhảnh,
Xét về mặt ngữ loại từ trong tiếng Việt được chia thành một số loại cơbản sau:
- Danh từ: Là những từ chỉ người hay sự vật Ví dụ, bàn, ghế, vải vóc,khoa học, kỹ thuật, Việt Nam,
- Đại từ: Là từ dùng thay thế cho danh từ, hoặc động từ, hoặc tính từ trongcâu Đại từ chỉ ngôi dùng để xưng hô, thay cho tên gọi đối thoại Ví dụ, tôi, nó,
ai, …
- Động từ: Là những từ chỉ hoạt động, trạng thái Nội động từ chỉ hoạtđộng, tạng thái của người hay sự vật không có tác động hoặc ảnh hưởng đếnngười hay sự vật khác Ngoại động từ chỉ hoạt động của người hay sự vật có tácđộng, ảnh hưởng đến người, sự vật khác Ví dụ: động từ cắt trong câu “ Thợ gặtđang cắt lúa” là ngoại động từ
Là những hư từ chủ yếu đi kèm với động từ, tính từ để biểu diễn một số
quan hệ Phần lớn phụ từ đứng trước động từ, tính từ Xét về mặt ý nghĩa nào đó
mà thôi Phụ từ biểu thị như quan hệ và những ý nghĩa thường gặp sau đây:
- Phụ từ (chỉ quan hệ ) thời gian
Trang 16- Phụ từ (chỉ) thể thức
- Phụ từ (chỉ ý) khẳng định, phủ định
- Phụ từ (chỉ ý) mức độ
Ví dụ: Mai nó mới đi
(phụ từ mới đi kèm với động từ đi chỉ ý khẳng định)
Phụ từ Không thể đảm nhiệm vài trò chính của cụm từ, chúng chuyên làmthành tố trong cụng từ để bổ sung cho thành tố chính một ý nghĩa nào đó Vì thếchúng cũng được coi là các từ chứng làm bộc lộ bản chất ngữ pháp của các từlàm thành tố chính Đôi khi, nhờ các phụ từ mà ta xác định được từ loại của từ
Ví dụ:
Có phải duyên nhau thì thắm lạiđừng xanh như lá, bạc như vôiNhư vậy, từ “đừng” có thể được dùng trước một từ (hay tổ hợp từ) khôngphải động từ để tạo ra ý nghĩa ngữ pháp “mệnh lệnh” và làm chứng tố cho tínhchất động từ lâm thời (riêng trong trường hợp dùng đó ) của nó
Một số phụ từ thường gặp với các ý nghĩa sau:
- Ý nghĩa đối chiếu sự việc: vẫn, cứ, còn, lại, cũng,
- Ý chỉ kết quả: được (được còn có ý nghĩa chỉ khả năng), phải
- Ý chỉ cách thức biến của hành động: ra, vào, tới, qua, lại,
- Ý cùng chung: cùng, với,
Những từ chỉ hướng ra, vào, tới, lui, qua, lại đứng sau động từ không chỉ
sự rời chuyển, thường có tác dụng nêu cách thức diễn biến của hành động ví dụ:
Trang 17Nói vào, bàn vào, thêm vào, (ý góp thêm)
Nói ra, ngã ra, bàn ra, (ý giam bớt)
Cần phân biệt phụ từ với động từ có cùng hình thức âm thanh Ví dụ:
Anh ấy lấy được vợ được là phụ từAnh ấy được lấy vợ được là phụ từ
Từ các ví dụ trên cho thây khi được, phải đứng sau động từ, chúng là cácphụ từ, khi đứng trước động từ, chúng là động từ chung tâm của cụm từ
Cũng cần phân biệt với, cùng là phụ từ chỉ sự cùng chung với với, cung là
quan hệ từ Khi các từ này đứng sau động từ thì đó là phụ từ chỉ ý cùng chung
Ví dụ: Cho nó chơi với Khi từ với, cùng đứng trước danh từ chỉ đối tượng của
sự cùng chung thì chúng là quan hệ từ Ví dụ: Tôi chơi với nó
Trợ từ, thán từ
Trợ từ (còn được gọi là tính thái từ): là những hư từ dùng trong câu biểu thị
qua hệ về nhiều mặt giữa người nói – người nghe như hỏi, trả lời, sai khiến, quan hệ, vài trò xã hội giữa họ với nhau Trợ từ thường gặp là ư, ơ, à, a, ạ,
hử, hở, nhỉ, nhé, ghe, mà, lại, chứ lị, đi thôi, , chúng thường đứng ở cuốicâu Tên gọi trợ từ còn được dùng chỉ những từ nhấn mạnh loại như cả, chỉ,những Ví dụ: Nó chỉ mua được hai vé
Thán từ: là những từ biểu thị cảm xúc do sự việc hoặc đối với sự việc
Thán từ thường gặp là: ôi, ơ, ái, á, ô hay, than ôi, trơi ơi, chúng thườngđứng ở đầu câu hoặc tách riêng thanh câu đặc biệt
Trang 182.1.2.2 Đặc điểm chính tả
a) Chính tả chưa thống nhất
Mặc dù chinh tả tiếng việt đã có một hệ thống quy tắc chuẩn mực, nhưngvẫn có một số từ tôn tại nhiều cách viết khác nhau Ngay cả bản thân một ngườicũng có lúc viết thế này lúc viết thế khác Sự sai khác này là do các nguyên nhânsau:
- Những từ đồng âm: y/i ( vật lý/ vật lí, tốc ký/tốc kí, bác sỹ/bác sĩ) d/gi(dông bão/ giông bão)
- Phương ngữ: chính dáng/ chánh đáng, tru/ con trâu,
- Vị trí dấu trong một âm tiết: Khai hỏa/khai hỏa
- Cách viết hoa tùy tiện với danh từ riêng: tồn tại nhiều cách viết khácnhau Ví dụ: Bộ khoa học công nghệ và môi trường/Bộ khoa học công nghệ &Môi trường, Việt Nam/Việt nam,
- Phiên âm tiếng nước ngoài: phiên âm là hình thức biến chữ ngoại quốcthành chữ địa phương Nhưng hiện nay tồn tại cả hai cách phiên âm hoặc khôngphiên âm Chẳng hạn, singapo/Xing- ga- po, America/ Hó Kỳ, TrungQuốc/Trung Hoa,
- Dấu gạch nối: thường xuất hiện khi các từ đa âm nước ngoài du nhậpvào Việt Nam Để chỉ rõ đây là một chữ không phải một cụm chữ, người ta dùngdấu gạch nối Tuy nhiên vẫn tồn tại cả hai cách viết Ví dụ, portugal được dịch
là Bồ Đào Nha/Bồ- Đào- Nha
Cách viết không thống nhất như vậy sẽ gây nhiều khó khăn trong việc kiểmtra chính tả nói riêng và xử lý ngôn ngữ tiếng Việt nói chung
b) Tiếng Việt hiện đại đang trên đà phát triển
Quá trình khắc phục những mâu thuẫn giữa nhu cầu giao tế ngày càng tăng,
đa dạng, phong phú và tính chất hữu hạn của ngôn ngữ đã thúc đẩy tiếng Việtphát triển không ngừng trên cả hai khía cạnh từ vựng và ngữ pháp Xu hướngphát triển của tiếng việt theo hướng hoàn thiện và chuẩn mực hóa các ngôn ngữvăn học
Trang 19So với các thế kỷ trước, cách diễn đạt ngôn từ, cách dùng chữ nghĩa và cácphương tiện cú pháp ngày nay phong phú đa dạng hơn nhiều Có những từ xuấthiện trong lối nói trước đây nhưng nay không thấy nữa Ngay nay, cùng với sựphát triển của văn hóa xã hội, Khoa học kỹ thuật và sự du nhập các từ nướcngoài, vốn từ vựng của tiếng Việt ngày càng được bổ xung nhiều từ mới
2.1.3 Một số Phương pháp tách từ
Trong ngôn ngữ, từ là một đơn vị cơ sở Bởi vậy, phân đoạn từ là nhiệm
vụ đầu tiên và bắt buộc đối với ngôn ngữ xử lý tự nhiên Với các nhóm ngônngữ đa âm tiết như nhóm ngôn ngữ Châu Âu, từ là phần năm giữa phân cáchtrong câu Từ có thể gồm một hoặc nhiều âm tiết Quá trình phân tách từ vựngbao gồm việc tách các tiếp tiền tố, tiếp hậu tố ra khỏi từ để thu được từ gốc của
nó Sau đó tìm kiếm gốc vừa tách được trong từ điển từ Việc kiểm tra từ phụthuộc rất nhiều vào từ điển có đủ lượng từ cần thiết hay không Khác với nhómngôn ngữ trên, Tiếng Việt là ngôn ngữ đơn âm tiết, phần năm giữa hai dấu phân
cách là tiếng, mỗi tiếng cũng có thể coi là từ cũng có thể không phải là từ Do
vậy, mặc dù không phải tách các tiếp tiền tố, tiếp hậu tố khi phân tách từ, nhưngviệc tách từ trong câu tiếng Việt phức tạp hơn rất nhiều so với quá trình xử lýtách từ trong nhóm ngôn ngữ trên
Vào thời gian đầu và giữa thế kỷ 20, khi các nhà nghiên cứu Tiếng Việtgiới thiệu ngữ pháp phương Tây, một vài thay đổi trong mẫu viết tiếng Việtđược đề xuất, làm cho “nó hướng từ” hơn, sử dụng các nhãn hiệu khác cho biêngiới từ được rõ ràng hơn và ngôn ngữ giống với Châu Âu hơn các thay đổi naygồm loại trừ khoảng trống giữa các tiếng và sử dụng dấu gạch nối, ví dụ “kỹ-thuật” hay kỹ thuật thay cho “kỹ thuật” Sự cố gắng đó là không thanh công, cóthể do tính tự nhiên của ngôn ngữ tiếng Việt, hơn nữa sự nhận ra chính xác các
từ không phải lúc nào cũng qua trọng Nhưng khó khăn và cũng là vấn đề đặt ravới ngôn ngữ tiếng việt lá:
Sự nhập nhằng trong từ ghép
- Cho đến nay vẫn chưa có một từ điển tổng hợp, toàn diện
Trang 20- Nhận ra các danh từ riêng và tên
Nhập vào một câu tiếng Việt bất kỳ, hãy tách câu đó thành những đơn vị
từ vựng (từ), hoặc chỉ ra những âm tiết nào không có trong từ điển (phát hiệnđơn vị từ vựng mới)
Với những phương pháp này, chúng ta cần tập dữ liệu gồm từ điển âmtiết (khoảng 6700 âm tiết) và từ điển từ vựng tiếng Việt (khoảng 30 000 từ).Các từ điển được lưu dưới các tệp văn bản có định dạng mã TCVN hoặcUnicode
Các bước giải quyết
1) Xây dựng ôtômát âm tiết đoán nhận tất cả các âm tiết tiếng Việt
2) Xây dựng ôtômát từ vựng đoán nhận tất cả các từ vựng tiếng Việt
3) Dựa trên các ôtômát nêu trên, xây dựng đồ thị tương ứng với câu cầnphân tích và sử dụng thuật toán tìm kiếm trên đồ thị để liệt kê các cách phân tích
có thể
Ý tưởng của phương pháp này là: xây dựng dần dần dựa trên ôtômát đã có
ở bước trước và âm tiết (hoặc từ vựng) mới học được từ tệp dữ liệu ở bước hiệntại
Bằng chữ cái của ôtômát âm tiết là bảng chữ cái tiếng Việt, mỗi cungchuyển được ghi trên đó một ký tự, ban đầu ôtômát âm tiết chỉ gồm một trạngthái khởi đầu được đánh số hiệu 0 Giả sử tại bước nào đó ta đọc được âm tiết a
có độ dài n (tình bằng tần số ký tự) từ tập dữ liệu Xuất phát từ trạng thái khởiđầu p=q0 ta lấy ra ký tự ci của a và tìm xem từ p có cung chuyển đến trạng thai
q nào đó mà trên đó ghi ký tự ci hay không Nếu trạng thái q như thế, ta chuyển
p thành q và lặp lại các bước ký tự ci 1 tiếp theo Nếu không có q nào như thế,
Trang 21ta ra khỏi vòng lặp và xây dựng các trạng thái và cung chuyển tương ứng trên đóghi các ký tự ci , ci 1, , cn 1 theo sơ đồ sau ( ô vuông chỉ rằng đó là trạng tháikết thúc)
Ví dụ, với ba bộ âm tiết phương, pháp, trình ta sẽ có ôtômát âm tiết như sau(hình bên):
Với cách tổ chức này, ta làm giảm bớt kích thước của ôtômát từ vựng màkhông làm mất thông tin của nó, bởi vì mỗi âm tiết được xác định bằng mộttrạng thái kết duy nhất trong ôtômát âm tiết Ví dụ, với hai từ phương pháp vàphương trình, giả sử khi đưa lần lượt các âm tiết phương, pháp, trình qua ôtômát
âm tiết, ta đến được các trạng thái kết ghi số n1, n2, n3
n3
Trang 22Sau khi đã xây dựng xong hai ôtômát, ta ghi chúng vào hai tệp định kiểu
để dùng trong bước phân tách từ vựng Đến lúc này, hai từ điển ban đầu khôngcòn cần thiết nữa, mọi dữ liệu của ta nằm trong hai tệp ghi hai ôtômát này Nếumỗi ký tự (char) được ghi vào tệp với kích thước 2 byte (mã Unicode), mỗi sốnguyên (int) có kích thước 4 byte thì tệp lưu ôtômát âm tiết có kích thước 146
, si 1, , s j 1 theo thứ tự lập thành một từ Khi đó mỗi cách phân tích câu khácnhau tương ứng với một đương đi trên đồ thị từ đỉnh đầu v0 đến đỉnh cuối vn 1
Trong các phân tách câu đó, cách phân tách câu đúng đắn nhất ứng với đường
đi qua ít cung nhất trên đồ thị
Trong trường hợp câu có sự nhập nhằng thì đồ thị sẽ có nhiều hơn mộtđường đi ngắn nhất từ đỉnh đầu đến đỉnh cuối, ta liệt kê toàn bộ các đường đingắn nhất trên đồ thị, từ đó đưa ra tất cả các phương án tách câu có thể và đểngười dùng quyết định sẽ chọn phương án nào, tùy thuộc vào ngữ nghĩa hoặcvăn cảnh Ví dụ, xét một cum câu “học sinh học”, ta có đồ thị sau:
Học
Sinh hoc
Học sinh
Côm n y cã sù nhËp nh»ng, ta cã hai kÕt qu¶ ph©n t¸ch lµ "häc, sinh häc"
vµ "häc, sinh, häc" Ta cã thÓ chØ ra rÊt nhiÒu côm nhËp nh»ng trong tiÕng ViÖt
Trang 23Trờng hợp trong câu có âm tiết không nằm trong từ điển thì rõ ràng ôtômát
âm tiết không đoạn nhận đợc âm tiết này Kết quả là đồ thị xây dựng từ câu đó làkhông liên thông Dựa vào tính chất này, ta thấy rằng nếu đồ thị không liênthụng thì dễ dàng phát hiện ra rằng đơn vị âm tiết không đoán nhận đợc khôngnằm trong từ điển âm tiết, tức nó bị viết sai chính tả hoặc là đơn vị âm tiết mới
Đỏnh giỏ kết quả
Với cỏch tiếp cận như trờn, bài toỏn phõn tỏch từ vựng trong cõu tiếngViệt về cơ bản đó được giả quyết, đặc biệt là vấn đề tỏch cỏc tổ hợp từ tươngđương với một đơn vị từ vựng, thường là cỏc cụm từ cố định, ngữ cố định hoặccỏc thành ngữ trong tiếng Việt Nếu chỳng ta chỉ sử dụng một danh sỏch từ vựngthụng thường và tỡm kiếm trờn danh sỏch này thỡ khụng thể đảm bảo thời giantỏch từ vựng đối với cõu cú chiều dài lớn
Với những cõu nhập vào cú sự nhập nhằng từ vựng, cú nhiều hơn mộtcỏch phõn tỏch thỡ chương trỡnh liệt kờ toàn bộ cỏc phương ỏn tỏch từ cú thể vàdành quyền lựa chọn kết quả cho người sử dụng Trong tất cả cỏc phương ỏnphõn tỏch đú bao giờ cũng tồn tại một phương ỏn đỳng
Dưới đõy là một số cõu nhập vào và kết quả tỏch từ tương ứng
1 Nó | là | một | bản | tuyn ngôn | đặc sắc | của | chủ ngha nhân
đạo |, một | tiừng | chuông | cảnh tỉnh | trớc | hiúm họa | lớn l o | của
| hành tinh | trớc | sự | điên rồ | của | những | kẻ | cuồng týn
2 Sự | gin dị | trong sang | toả | khắp | tác phốm |đã | khiừn | nó |trở nên | một | bài thơ | bờt hủ | mà | mãi mãi | ngời ta | muốn | đem |làm qu | tặng | của | tình yu
3 Trong khi | các | thành phần | t bản chủ ngha | có | những | bớc |phát triún | mạnh | hơn | thời kì | trớc | thì | thừ lực | của | giai cờp |
địa chủ | vẫn | không hề | suy giảm
Trang 24Tuy nhiên, chương trình phân tách từ vựng này có một số vấn đề khókhăn cần tiếp tục nghiên cứu giải quyết:
Thứ nhất là vấn đề giải quyết nhập nhằng phân tách Cần phải chọn một
phương án đúng đắn trong nhiều phương án Các phương án tiếp cận khả thi chovấn đề này có thể là:
- Dùng phương pháp phân tích cú pháp Tiến hành phân tích cú phápcủa câu với những phương án tách từ vựng có thể, từ đó loại ra những phương
án sai cú pháp mốn thực hiện được điều này thì ta cần một trình phân tích cúpháp tương đối tin cậy và đầy đủ
- Dùng phương pháp xác xuất – thông kê Ta xẽ thông kê trên những tậpvăn (tập dữ liệu) tương đối lớn của tiếng Việt để tìm ra xác suất của các bộ đôihay bộ ba từ loại hoặc từ vựng đi cạnh nhau Từ đó lựa chọn phương án phântách có xác suất sai ít nhất
- Thứ hai là vấn đề giải quyết tên riêng, tên viết tắt và tên có nguồn gốc
nước ngoài có mặt trong câu Phương pháp phân tách này chưa nhận ra được cáccum từ dạng “Nguyễn Văn A”, “Đại học Khoa học Tự nhiên”, hoặc “ĐT 8 20
20 29”, “1.000$”, “0 50%”,
2.1.3.2 Phương pháp tách từ sử dụng mô hình markov ẩn
Phương pháp này sử dụng mô hình n- gram được huấn luyện không giámsát bằng thuật toán baum- welch và sử dụng từ điển tiếng Việt để thực hiện phânđoạn từ trên tập dữ liệu tiếng việt chưa được phân đoạn Bài toán phân đoạn từtiếng việt được qui về bài toán tìm dãy trạng thái hợp lý nhất khi cho một dãyquan sát Các thí nghiệm cho thấy rằng phương pháp này đạt được độ chính xáccao hơn hoặc ít nhất là bằng các hệ phân đoạn từ tiếng Việt tự động tốt nhất hiệnnay, đặc biệt đối với các văn bản chuyên ngành Hiện nay, kết quả này ứng dụngvào chương trình kiểm lỗi chính tả và tìm kiếm mới tự động [5]
Mô hình tiếng Việt sử dụng HMM
Mô hình n- gram tiếng Anh chính là mô hình markov bậc n- 1.Dưới đâychúng tôi sẽ trình bày mô hình n- gram tiếng Việt
Trang 25Mô hình n- gram tiếng Việt
Mô hình tiếng Việt cần được cần tham số hóa được hiện tượng nhậpnhằng ở đây Cách thứ nhất, ta coi sự xuất hiện của một âm tiết được bổ xungthêm một âm tiết phụ thuộc vào n- 1 âm tiết trước đó và tập âm tiết đặc biệtdùng để phân biệt hai từ kề nhau cách nhìn nhận này giống teahan và cộng sự(2000) đã làm Cách thứ hai, ta coi sự xuất hiện của một từ phụ thuộc vào n- 1 từtrước đó và từ có thể là đơn hoặc ghép sproat và cộng sự (1996) đã mô hình hóatiếng Trung Quốc bằng mô hình uni- gram kiểu này Đinh Điền và cộng sự(2001) cũng đã áp dụng cách làm của sproat cho tiếng Việt Tuy nhiên độ rộngngữ cảnh là không thì hẹp quá Chúng ta xây dựng mô hinh n- gram vì các lý dosau: tính tự nhiên của cách nhìn vấn đề, yêu cầu cơ bản đối với mô hình đượcthỏa mãn, việc kết hợp thêm xác sấu từ loại là thuận tiện các đặc điểm của môhình n- gram này là:
- Nó là mô hình markov ẩn bậc n- 1 vì ta không quan sát được dãy từ(dãy trạng thái) mà chỉ quan sát được dãy âm tiết
- Cùng một dãy âm tiết có thể ứng với nhiều n- gram khác nhau Ví dụdãy “học sinh học” ứng với hai bi- gram là “học#sinh học” và “học sinh#học”
- Các n- gram có thể có số âm tiết khác nhau Ví dụ “viện#ngôn ngữhọc” và đi#học” là hai bi- gram:
Chúng ta cần ước lượng hàm xác suất:
P (wn |w1 wn 1 )
Xác suất của câu dãy từ w1w2 wm sẽ là:
P (w1w2 wm) = P (w1) P (w2| w1) P (wm 1|wmn,m 2) P (wm|
wmn 1 ,m 1 ) )
Huấn luyện mô hình (training model)
Trong trường hợp tập dữ liệu chưa được phân đoạn ta có thể sử dụng thuậttoán baum- welch (xem manning, 1999) Ở đây, mô hình được khởi tạo theokiểu mà ponte và croft (1996) đã làm Đó là huấn luyện dựa trên tập dữ liệu đãđược phân đoạn bằng thuật toán tham làm FMM
Trang 26Công thức tính xác suất n- gram theo mle:
P (wn |w1 wn 1 ) = ((w ))
1 1
1
n
n w w C
w C
Trong đó, C (w1, , wn) là tần suất n- gram (tần suất xuất hiện của dãy n
từ liên tiếp nhau)
Xử lý hiện tượng dữ liệu thưa (sparse data)
Hiện tượng dữ liệu thưa ở đây là số từ xuất hiện trong tài liệu ít hơn nhiều
so với tổng số lần xuất hiện của chúng trong tài liệu Có nhiều cách để xử lýhiện tượng dữ liệu thưa, trong đó một số lần xuất hiện của chúng trong tài liệu
Có nhiều cách để xử lý hiện tượng dữ liệu thưa, trong đó một số lựa chọn được
ưa thích là kết hợp good- turing hay witten- bell dícounting với back- off hayinterpolàtion models
Trong các thí nghiệm của mô hình này sử dụng phương pháp nội suytuyến tính đơn giản:
- Dựa vào dãy quan sát O (dãy âm tiết của câu vào) và mô hình markov
ẩn (mô hình n- gram), hãy chỉ ra dãy trạng thái X (dãy từ) mà thích dãy quan sáthợp lý nhất
X P X O P
Do O cố định nên ta cần tính:
Trang 27argxmax P (O|X, ) P (X, )
Hơn nữa, do mỗi trạng thái chỉ phát ra duy nhất một ký hiệu với xác suấtbằng 1 nên ta chỉ cần tính:
argxmax P (X, ) (2.2)
Tức là cần tìm X làm cực đại hàm xác suất (2.1)
Ta có thể tính (2.2) bằng cách xây dựng đồ thị chuyển trạng thái sau đótìm đường đi làm cực đại Mỗi đường đi từ trạng thái bắt đầu cho tới trạng tháikết thúc trong đồ thị này tương ứng với một giá trị của X Để tìm dãy trạng tháitốt nhất trong mô hình này sử dụng một phiên bản của thuật toán viterbi theomanning (1999)
Ví dụ: Xét câu: “Truyền thống tin trên mạng”
Các từ có thể có: “truyền”, “truyền thông”, “thông”, “thông tin” “tin”, “trên”, “mạng”
Nếu ta sử dụng HMM bậc một thì đồ thị là:
`
\
hình 2.5: Một ví dụ về đồ thị của HMM bậc một
Trọng số của cung nối trạng thái wi và trạng thái w j là xác suất P (w j | w
i), xác xuất này còn được gọi là xác suất bigram
Theo đường đi tô đậm thì:
X = (“truyền”, “thông tin”, “trên”, “mạng”)
Trang 28P (X) = P (truyền) P (thông tin|truyền) P (trên|thông tin) P (mạng|trên)
Nếu ta sử dụng HMM bậc hai (HMM bậc 1 với trạng thía kép) thì đồ thị là:
Hình 2.6: Một ví dụ về đồ thị của mô hình HMM bậc 2
Trong số của nối trạng thái wi wj và trạng thái wjwk là xác suất P (wk |
wiwj), nó được gọi là xác suất trigram
Theo đường đi tô đậm thì:
X = (“truyền”, ”truyền”, ”thông tin”, ”thông tin” “trên”, ”trên” “mạng”)
P (X) =P (truyền) P (thôngtin|truyền) P (trên|truyền#thôngtin) P(mạng|thông
tin#trên)
Trong hai đồ thị trên đường đi được tô đậm chính là cách phân đoạn đúng
Để tránh hiện tượng máy tính bị tràn số khi tính tích các con số rất nhỏ, mô hìnhnày sử dụng xác suất logarit tính bởi:
- log (P (X) ) Khi đó (2.2) được viết lại là:
argx min (- logP (X, ) ) (2.3)
Và (2.1) sẽ trở thành công thức tổng xác suất:
truyÒ n
truyÒn th«ng truyÒn th«ng#tin
truyÒn#th«ng th«ng#tin
tin#trª n
truyÒn#th«ng tin
trªn#m¹ng P(tin|truyÒn#th«ng)
P(trªn|truyÒn#th«ng tin) th«ng tin#trªn
Trang 291 1, 1
)
| (
- Thông tin về huấn luyện
B ng 2.1 Thông tin v t p hu n luy n c a mô hình Markov nảng 2.1 Thông tin về tập huấn luyện của mô hình Markov ẩn ề tập huấn luyện của mô hình Markov ẩn ập huấn luyện của mô hình Markov ẩn ấn luyện của mô hình Markov ẩn ện của mô hình Markov ẩn ủa mô hình Markov ẩn ẩnKích thước corpus Số từ Số bigram Số xuất hiện của từ
Từ bảng trên ta có thể thấy là dữ liệu rất thưa
- Kết quả tách từ trên tập dữ liệu được phân đoạn bằng tay
B ng 2.2 K t qu ánh giá ảng 2.1 Thông tin về tập huấn luyện của mô hình Markov ẩn ết quả đánh giá độ chính xác của mô hình Markov ẩn ảng 2.1 Thông tin về tập huấn luyện của mô hình Markov ẩn đánh giá độ chính xác của mô hình Markov ẩn đánh giá độ chính xác của mô hình Markov ẩnộ chính xác của mô hình Markov ẩn chính xác c a mô hình Markov nủa mô hình Markov ẩn ẩnKích thước corpus Recall Precision F- score
F- score=2recall*recall*precision precision
c là số từ máy phân đoạn đúng, n là số từ được phân đoạn tự động bằngchương trinh, N là số từ theo phân đoạn trong tập dữ liệu
Giá trị recall cho ta biết tỉ lệ từ đúng được nhận ra, precision cho ta biết tỉ
lệ từ đúng trong số các độ đo thường được sử dụng trong đánh giá hệ thống phântích cú pháp ngôn ngữ tự nhiên (parser)
Một số ví dụ về kết quả tách từ của mô hình này:
Giả sử, chúng ta có đưa vào chương trình các văn bản sau:
Trang 30Văn bản 1: Nó là một bản tuyên ngôn đặc sắc của chủ nghĩa nhân đạo, một tiếng chuông cảnh tỉnh trước hiểm họa lớn lào của hành tinh trước sự điên rồ của những kẻ cuồng tín
Văn bản 2: Sự giản dị, tỏa khắp tác phẩm đã khiến nó trở nên một bài thơ bất hủ, màmãi mãi người ta muốn đem làm quà tặng của tình yêu
văn bản 3: Trong khi, các thành phần tư bản chủ nghĩa có những bước phát triển mạnh hơn thời kì trước thì thế lực của giai cấp địa chủ vẫn không hề suy giảm
Văn bản 4: Trận lũ khủng khiếp tháng 11.1999 đã phá vỡ một dải đất ở Thuận An thành cửa biển Hòa Duân (Thừa Thiên- Huế)
Mỗi từ được xác định bằng một cặp SW- EW, SW là kí hiệu bắt đầu củamột từ, EW là kí hiệu kết thúc của một từ Kết quả tách từ của các văn bản trênlà:
di EW, SW EWtrong SWsáng EWtỏa SW EWkhắp SW EWtác SWphẩm EW
đã SW EWkhiến SW EW
nó SW EWtrở SWnên EW
Trong SWkhi EW, SW EWcác SW EWthành SWphần EW
tư SWbảnchủnghĩa EW
có SW EWnhững SW EWbước SW EWphát SWtriển EW
Trận SW EW
lũ SW EWlụt SW EWkhủng SWkhiếp EWtháng SW EW11.1999 SW EW
đã SW EWphá SW
vỡ EWmột SW EWdải SWđất EW
ở SW EWThuận SW
Trang 31hủ EW, SW EW
mà SW EWmãi SWmãi EWngười SW
ta EWmuốn SW EWđem SW EWlàm SWquà EWtặng SW EWcủa SW EWtình SWyêu EW SW EW
mạnh SW EWhơn SW EWthời SW EW
kì SW EWtrước SW EWthì SW EWthế SWlực EWcủa SW EWgiai SWcấp EWđịa SWchủ EWvẫn SW EWkhông SW
hề EWsuy SWgiảm EW SW EW
An EWthành SW EWcửa SWbiển EWHòa SWDuân EW( SW EWThừa SWThiên EW
- SW EWHuế SW EW) SW EW SW EW
Xung quanh việc xác định thế nào là từ tiếng Việt còn nhiều tranh cãi Chúng tôi lấy từ điển làm chuẩn cho nên coi một từ được phân đoạn đúngnếu nó có trong từ điển và hợp lý trong ngữ cảnh xuất hiện Mặt khác do thiếucác tài nguyên dành cho việc nghiên cứu ngôn ngữ tự nhiên ( như là từ điển, tập
dữ liệu, ) nên hạn chế các thí nghiệm và việc so sánh các phương pháp vớinhau chỉ là tương đối
Trang 32Phần này đã trình bày một phương pháp phân đoạn từ tiếng Việt thuần túithống kê Kết quả thử nghiệm cho thấy phương pháp này vào loại tốt nhất hiệnnay và có thể ứng dụng trong các hệ thống xử lý ngôn ngữ tự nhiên Trongtương lài nếu ta sử dụng các tập dữ liệu được phân đoạn bằn tay hay tập dữ liệurất lớn (cỡ hàng tỉ từ) cho việc huấn luyện thì kết quả sẽ được cải thiện đáng kể.Ngoài ra, mô hình n- gram tiếng Việt có thể đem ứng dụng vào các bài toánkhác như kiểm lỗi chính tả hay nhận dạng tiếng nói
Phương pháp tách từ sử dụng mô hình Markov ẩn có thể tách được các tênriêng, các kí hiệu viết tắt Và kết quả thực nghiệm cho thấy độ chính xác củaphương pháp này là cao
Sau khi tách từ, chúng ta được một tập các từ xuất hiện trong văn bản.Tuy nhiên, Không phải tất cả các từ xuất hiện trong văn bản đều cần thiết choviệc biểu diễn văn bản Ví dụ như các phụ từ, những từ này xuất hiện trong hầuhết các văn bản do đó nó không phải là đặc trưng để phân biệt văn bản này vớivăn bản khác Để tránh việc phải biểu diễn văn bản với số chiều quá lớn, sau khiloại bỏ các phụ từ, với các từ còn lại người ta cũng đưa ra một số phương pháp
để loại bỏ các từ có ít ý nghĩa trong việc biểu diễn văn bản, ví dụ như các từ cótần suất xuất hiện trong văn bản là thấp, hay các từ có lợi nhuận thông tin thấptrong toàn bộ tập dữ liệu huấn luyện,
2.2 Phương pháp biểu diễn văn bản
Các chuỗi tách được trong văn bản có thể là từ theo đúng nghĩa trong TiếngViệt, nhưng cũng có khi là các ký hiệu viết tắt, các từ phiên âm tên nướcngoài, ví dụ, cty (công ty), btc (ban tổ chức), lđbđvn (liên đoàn bóng đá ViệtNam), Mà các kí hiệu này nhiều khi lại có giá trị thông tin cao để biểu diễnvăn bản Do đó, để dẽ diễn đãt chúng tôi định nghĩa:
- Thuật ngữ hoặc từ: là một chuỗi các kí tự xuất hiện trong văn bản, màkhông phải là dấu câu, con số, từ dừng
- Từ đặc trưng: Sau khi dùng các phương pháp phân tích chọn thuật ngữ
để biểu diễn văn bản, ta thu được một tập các thuật ngữ T’ từ tập thuật ngữ ban
Trang 33đầu T (T’<<T), thì mỗi thuật ngữ trong T’ được gọi là từ đặc trưng ( dùng đểbiểu diễn văn bản), hay thuật ngữ đặc trưng
2.2.1 Các kỹ thuật trích chọn đặc trưng của văn bản
2.2.1.1 Loại bỏ các từ dừng
Trong ngôn ngữ tự nhiên, có rất nhiều từ dùng để biểu diễn cấu trúc câu,nhưng hầu như không mang ý nghĩa về mặt thể hiện nội dung của văn bản, ví dụnhư các loại từ: các từ quan hệ, kết từ, Các loại từ này xuất hiện thường xuyêntrong văn bản nhưng không hề mang bất cứ một thông tin nào về nội dung củavăn bản, những từ này gọi là từ dừng (stop word) Việc loại bỏ các từ này, đồngnghĩa với việc giảm số chiều của văn bản, tăng độ chính xác và tốc độ xử lý vănbản
Vi dụ: Một số từ dừng trong tiếng Việt:
Bảng 2.3 Một số từ dừng trong văn bản tiếng Việt
Xuất phát từ định nghĩa, từ dừng là từ không mang ý nghĩa nội dung cho văn bản, vì nó xuất hiện trong hầu hết văn bản Chúng ta có thể loại bỏ từ dừng
trong văn bản bằng cách đặt ngưỡng để phát hiện từ dừng, nếu chung ta thấymột từ nào đó xuất hiện trong hơn một nửa số văn bản thì có thể coi đó là từdừng Tùy thuộc vào từng bài toán cụ thể mà ta đưa ra một ngưỡng phát hiện từdừng thích hợp
2.2.1.2 Giảm số chiều
Giảm số chiều thực chất là giảm số thuật ngữ trong tập hợp T, nghĩa làgiảm kích thước của không gian vector từ |T| thành |T’|<<|T|
Trang 34Giảm số chiều có khuynh hướng làm giảm hiện tượng overfiting Có haihướng khác nhau trong việc giảm số chiều, phụ thuộc vào nhiệm vụ giảm sốchiều là bộ phận hay tổng thể:
- Giảm số chiều bộ phận: Cho một loại ci, một tập các thuật ngữ T’i , |T’i |<<|T|, được chọn chỉ để thực hiện phân lớp cho loại ci Với số lượng cácthuật ngữ trong T’ thường là 10<<|T’i |<<50
- Giảm số chiều tổng thể: Một tập các thuật ngữ T’, với |T’|<<|T|, đượcchọn để thực hiện phân lớp cho tất cả các loại C = {c1, c|c|} Người ta có thểgiảm số chiều bằng cách:
- Lựa chọn thuật ngữ: Chọn T’ là tập con của T
- Loại trừ thuật ngữ: Các thuật ngữ trong T’ không cùng kiểu với các
thuật ngữ trong T ( nghĩa là nếu các thuật ngữ trong T là các từ, thì các thuật ngữtrong T’ có thể không phải là từ)
a) Giảm số chiều bằng cách lựa chọn thuật ngữ
Kỹ thuật để lựa chọn thuật ngữ (hay còn gọi là giảm không gian thuật ngữ TSR), là cố gắng lựa chọn một tập thuật ngữ T’ từ tập thuật ngữ ban đầu T ( với
-|T’|<<|T|), sao cho khi sử dụng nó để đánh chỉ số tài liệu nó cho ta hiệu quả caonhất Yang and Pedersen [1997] thấy rằng TSR có thể tăng hiệu quả phân loại (
5%), tùy thuộc vào phân lớp, tỷ lệ |T|/|T’| và kỹ thuật TSR
Moulinier [et al 1996] đã sử dụng cách tiếp cận gọi là wrapper, theo cáchnày, T’ được xác định theo cách tương tự như phương pháp học sẽ được sử dụng
để xây dựng phân loại [John et al 1994] Bắt đầu, từ tập thuật ngữ ban đầu, mộttập thuật ngữ mới được sinh ra, một phân loại dựa trên nó đựợc xây dựng và sau
đó được kiểm tra trên một tập thích hợp Tập thuật ngữ mà cho kết quả tốt nhấtđược chọn lựa Cách tiếp cận này có thuận lợi là phù hợp với thuật toán huấnluyện được sử dụng; hơn nữa nếu giảm số chiều bộ phận được thực hiện, các sốkhác nhau của các thuật ngữ cho các phân loại khác nhau có thể lựa chọn, phụthuộc vào liệu phân lơp nào đó có dễ phân chia từ nhưng cái khác hay không
Trang 35Tuy nhiên, kích thước không gian của các tập thuật ngữ khác nhau khiến cho chiphí của nó là cao đối với các ứng dụng phân loại chuẩn
Một cách tiếp cận khác có sự lựa chọn dễ tính toán hơn là filtering [John
et al 1994], cách tiếp cận này, bảo đảm |T’|<<|T|, nó đạt được tỷ số cao nhấtbằng cách đánh giá “mức độ quan trọng” của thuật ngữ khi thực hiện phân loại.Chúng tôi sẽ giải thích phương pháp này trong phần còn lại
t , c i ) là xác suất cho một tại liệu ngẫu nhiên x, thuật ngữ t k
không xảy ra trong x và x thuộc loại ci , xác suất này được đánh giá bởi đếm số
lần xảy ra trong tập huấn luyện P (t k , c i ) là xác suất chọn ngẫu nhiên một tài liệu thì tài liệu đó có chứa từ t k và thuộc lớp c i P (c i) là xác xuất chọn ngẫunhiên một tài liệu, thì tài liệu này thuộc vào lớp ci P (t k ) là xác xuất chọn ngẫu nhiên một tại liệu trong tập dữ liệu thì trong tập dữ liệu đó có chứa từ t k
Tất cả các hàm được xác định là cục bộ cho phân loại xác định ci
Trong trường hợp cần đánh giá giá trị của thuật ngữ t k trong tổng thể tất
cả các phân loại độc lập, thì hàm f (t k ) được tính như sau: hoặc
1
c
i f (t k , c i )
Trong đó, f (t k , c i ) là giá trị của từ t k trong lớp ci
Theo phương pháp này người ta dựa vào các hàm tính toán giá trị thông
tin của từ t k đối với phân loại c i để quyết định xem có nên lựa chọn từ t k làmđặc trưng của tài liệu này hay không Chúng ta chỉ giữ lại những từ có hàm giá
Trang 36trị thông tin thấp hơn ngưỡng đưa ra, nếu ham giá trị thông tin của t k thấp hơn
ngưỡng đưa ra thì nó sẽ bị loại bỏ Bảng 2.4 trình bày, một số hàm tính giá trị
thông tin của từ t k đối với lớp ci
B ng 2.4 M t s h m tính toán giá tr thông tin c a t trong phân lo iảng 2.1 Thông tin về tập huấn luyện của mô hình Markov ẩn ộ chính xác của mô hình Markov ẩn ố hàm tính toán giá trị thông tin của từ trong phân loại ị thông tin của từ trong phân loại ủa mô hình Markov ẩn ừ trong phân loại ại
DIAasociation factor z (t k , c i ) P (c i | t k )
Information gain MI (t k , c i)
{1, }
i c c
{t k , k t }
t P (t, c) log
) ( ).
(
} , {
c p t p
c t p
Mutualinformation MI (tk , ci )
log ( (),, () )
i k
i k
c p t p
c t p
Chi- square 2t , k c i
) ( ).
( ).
, ( ).
(
)] , ( ).
( ) , ( ).
( [
|
, ,
i i k
k
i k i k i
k i k
c p c p t p t p
c t p c t p c t p c t p
NGL coefficient NGL(tk,ci )
) ( ).
( ).
( ).
(
)] , ( ).
, ( ) , ( ) , ( [
|
|
i i k k
i k i k i
k i k
c p c p t p t p
c t p c t p c t p c t p
)
| (
)
| (
Odds ration OR(tk ,ci)
)
| ( )).
| ( 1 (
))
| ( 1 ).(
| (
i k i k
i k i
k
c t p c t p
c t p c
t p
GSS coefficient GSS(tk ,ci) p (tk , ci) p (t k , c i ) - p (tk , c i ) p (t k ,
ci )Các hàm trên cho kết quả lựa chọn từ tốt hơn là phương pháp tần suất tàiliệu Kết quả thực nghiệm Yang và Pedersen [1997] trên nhiều tập mẫu và phânloại khác nhau cho thấy rằng, các kỹ thuật như: IG hoặc 2
có thể giảm khônggian từ tới 100 lần mà không ảnh hưởng (hoặc giảm rất ít) hiệu quả phân loại
d) Giảm số chiều bằng phương pháp loại trừ thuật ngữ
Trích chọn thuật ngữ cố gắng để sinh ra, từ tập thuật ngữ ban đầu T tập, môt tập T’ của các thuật ngữ “tổng hợp”, sao cho hiệu quả thu được là lớn nhất.
Lý do để sử dụng các thuật ngữ tổng hợp là, do tính nhiều nghĩa, đồng nghĩahiện tượng đồng âm của các thuật ngữ, nên các thuật ngữ ban đầu có thể khôngmang lại số chiều tối ưu để mô tả nội dung của văn bản Phương pháp trích chọnthuật ngữ cố gắng giải quyết vấn đề này bằng cách tạo ra các thuật ngữ nhântạo Phương pháp trích chọn thuật ngữ bao gồm (i) phương pháp trích chọn cácthuật ngữ mới từ các thuật ngữ cũ ( phân cụm thuật ngữ - tem clustering) và (ii)