Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng việt sử dụng giải thuật di truyền và thống kê trên internet

Do đó, rất khó có thể áp dụng các kỹ thuật và hướng tiếp cận đã được nghiên cứu và thử nghiệm thành công trên các ngôn ngữ Ấn Âu cho tiếng Việt nếu không xây dựng thành công giải pháp ch

Trang 1

Abstract: Vietnamese segmentation approach for text

categorization Instead of using annotated training corpus

or lexicon which is still lack in Vietnamese, we uses

statistic information extracted directly from a commercial

search engine and genetic algorithm to find most

reasonable ways of segmentation The extracted

information includes document frequency and n-gram

mutual information Our experiment results obtained on

segmentation and categorization online news abstracts

show that our approach is very promising It achieves near

80% human judgment on segmentation and over 90%

micro-averaging F 1 in categorization The processing time

is less than one second per document when statistic

information was cached

I GIỚI THIỆU

Tách từ là một khó khăn chính trong việc phân loại

văn bản đối với các ngôn ngữ châu Á như tiếng Hoa,

tiếng Nhật, tiếng Hàn và cả tiếng Việt Mặc dù được

viết bằng các ký tự La tinh mở rộng, tiếng Việt cũng

có những đặc tính chung với các ngôn ngữ

phonographic Đông Nam Á khác như khó xác định

ranh giới giữa các từ và có các điểm khác biệt về

phonetic, văn phạm và ngữ nghĩa so với các ngôn ngữ

Ấn Âu

Do đó, rất khó có thể áp dụng các kỹ thuật và

hướng tiếp cận đã được nghiên cứu và thử nghiệm

thành công trên các ngôn ngữ Ấn Âu cho tiếng Việt

nếu không xây dựng thành công giải pháp cho việc

tách từ trong văn bản tiếng Việt

Vậy, vì sao việc xác định ranh giới từ trong tiếng Việt lại có vai trò quan trọng trong việc phân loại văn bản tiếng Việt?

Theo Yang và Xiu [18] và các kết quả khảo sát của chúng tôi, hầu hết các phương pháp phân loại văn bản tiếng Việt hiệu quả nhất hiện nay như: Support Vector Machine [8], Linear Least Squares Fit [15], mạng nơ ron [14, 1, 12] … đều cần thông tin xác suất hay thống

kê hay trọng số của từ Sau khi khảo sát và đánh giá các phương pháp này trong việc phân loại văn bản tiếng Việt, chúng tôi nhận ra rằng việc tách từ là bước đầu tiên hết sức quan trọng cần phải được giải quyết

Vậy, vì sao việc xác định ranh giới từ trong tiếng Việt lại là bài toán khó? Đơn vị cơ bản trong tiếng

Việt là tiếng, không phải là từ Trong [5] đã nêu ra một số đặc tính chính của từ trong tiếng Việt như sau:

− Từ ở dạng nguyên thể, hình thức và ý nghĩa của từ độc lập với cú pháp

− Từ được cấu trúc từ “tiếng”

− Từ bao gồm từ đơn (từ một tiếng) và từ phức (n-tiếng, với n < 5), bao gồm từ láy và từ ghép

Trong khi đó, định nghĩa về từ trong tiếng Anh như sau: “Từ là một nhóm ký tự có nghĩa, được phân cách bởi ký tự khoảng trăng trong câu” (Từ điển Webster) Dưới đây là một số điểm khác biệt chính giữa tiếng Việt và tiếng Anh Những đặc điểm này làm cho việc tách từ tiếng Việt trở nên khó khăn hơn

Hướng tiếp cận mới trong việc tách từ để phân loại văn bản tiếng Việt sử dụng giải thuật di

truyền và thống kê trên Internet

A Novel Approach in Word Segmentation to Classify

Vietnamese Documents Using GA and Internet-Based Statistics

Nguyễn Thanh Hùng

Trang 2

Bảng 1 Các điểm khác biệt chính giữa tiếng Việt và tiếng

Anh Đặc điểm Tiếng Việt Tiếng Anh

Đơn vị cơ

bản

Tiếng Từ Tiền tố/Hậu

Từ loại Not Unanimous Được định nghĩa

rõ Ranh giới từ Tổ hợp có nghĩa dựa

vào ngữ cảnh của các

tiếng

Khoảng trắng hoặc dấu câu

Khó khăn lớn nhất trong việc phân loại văn bản

tiếng Việt là gì? Gần đây, nhiều kết quả mới khả quan

trong việc phân loại văn bản tiếng Hoa và một số

ngôn ngữ Đông Nam Á khác đã được công bố Tuy

nhiên, việc áp dụng các hướng tiếp cận dựa trên ngữ

liệu vào tiếng Việt khó có thể đạt được kết quả mong

muốn, thật chí không khả thi trên thực tế Hiện tại,

chưa có lexicon chuẩn hay ngữ liệu huấn luyện tiếng

Việt được gán nhãn đủ lớn và có chất lượng phục vụ

việc này Do đặc điểm của tiếng Việt nên việc xây

dựng bộ lexicon hay ngữ liệu này cần rất nhiều thời

gian, công sức và chi phí Đây chính là vấn đề đáng lo

nhất trong bài toán phân loại văn bản tiếng Việt, xử lý

ngôn ngữ tự nhiên và tìm kiếm thông tin tiếng Việt

Trong bài báo này, chúng tôi tập trung vào cách

tách từ trong văn bản tiếng Việt theo một cách khả thi

nào đó mà không dựa vào bất kỳ bộ lexicon hay ngữ

liệu huấn luyện được gán nhãn nào để phục vụ cho

việc phân loại văn bản tiếng Việt Do có thể tồn tại

nhiều cách tách từ hợp lý khác nhau cho cùng một

câu, chúng tôi sử dụng giải thuật di truyền để tiến hóa

quần thể mà trong đó, mỗi cá thể là tương ứng với một

cách tách từ cho câu đang xét Hàm đánh giá độ thích

nghi thể hiện thong tin thống kê rút trích trực tiếp từ

Internet sử dụng các search engine thương mại Thông

tin rút trích bao gồm tần số của tài liệu và thông tin

tương quan n-gram

Nội dung bài viết được tổ chức như sau: sau phần

giới thiệu, chúng tôi sẽ trình bày về tình hình nghiên

cứu việc tách từ tiếng Hoa và tiếng Việt Phần 3 trình

bày ý tưởng chính của việc thống kê dựa trên Internet

Trong phần tiếp theo, chúng tôi trình bày chi tiết

hướng tiếp cận giải thuật di truyền Phần 5 trình bày kết quả thử nghiệm và thảo luận Cuối cùng là phần kết luận và hướng phát triển

II TÌNH HÌNH NGHIÊN CỨU

Dưới đây là kết quả khảo sát của Foo và Li [7] về tách từ trong văn bản tiếng Hoa và thống kê của chúng tôi về việc tách từ tiếng Việt (Hình 1)

Hình 1 Các hướng tiếp cận cơ bản trong việc phân đọan văn bản tiếng Hoa và các hướng tiếp cận hiện nay trong

việc phân đọan văn bản tiếng Việt

Các hướng tiếp cận dựa trên “từ”: được chia

thành 3 nhóm: dựa vào thống kê, dựa vào từ điển và nhóm lai, nhằm tách từ trọn vẹn trong câu Các giải pháp theo hướng tiếp cận dựa vào thống kê cần phải dựa vào thong tin thống kê như term, từ hay tần số ký

tự, hay xác suất cùng xuất hiện trong một tập dữ liệu

cơ sở Do đó, tính hiệu quả của các giải pháp loại này chủ yếu dựa vào ngữ liệu huấn luyện cụ thể được sử dụng Đáng tiếc đây lại là vấn đề khó khăn đối với bài toán tách từ tiếng Việt như đã trình bày ở phần trên Dinh et al [6] đã xây dựng ngữ luyện huấn luyện riêng (khoảng 10MB) dựa vào các tài nguyên, tin tức và sách điện tử trên Internet Dĩ nhiên là bộ ngữ liệu này khá nhỏ và không toàn diện (tức là không đủ rộng, bao gồm đủ các lĩnh vực, chủ đề khác nhau)

Trong hướng tiếp cận dựa vào từ điển, các phân

Trang 3

đọan văn bản được đối sánh dựa vào từ điển Việc xây

dựng từ điển các từ và ngữ tiếng Việt hoàn chỉnh là

không khả thi

Hướng tiếp cận lai áp dụng nhiều cách khác nhau để

tận dụng ưu điểm của các giải pháp Tóm lại, các

hướng tiếp cận để phân loại văn bản tiếng Việt dựa

vào từ chỉ khả thi khi chúng ta có bộ lexicon tốt

và/hay ngữ liệu huấn luyện đủ lớn và đáng tin cậy

Các hướng tiếp cận dựa trên ký tự (dựa trên

“tiếng” trong tiếng Việt): Có thể chia làm 2 nhóm

nhỏ: uni-gram và n-gram Các phương pháp này tuy

đơn giản nhưng đã đem lại nhiều kết quả quan trọng

trong việc xử lý tiếng Hoa (Foo và Li, [7]) Gần đây

cũng có một số bài báo phân đọan văn bản tiếng Việt

theo hướng tiếp cận này Le [9] đã xây dựng 10 MB

ngữ liệu thô và sử dụng quy hoạch động để tối ưu hóa

tổng xác suất của các phân đọan (các ngữ được phân

cách bởi các ký tự phân cách)

Trong bài báo gần đây của H Nguyen et al [11],

thay vì sử dụng ngữ liệu thô, tác giả đã sử dụng thông

tin thống kê trực tiếp từ Internet và sử dụng giải thuật

di truyền để tìm ra những cách phân đọan văn bản tối

ưu nhất của cùng một văn bản Mặc dù bài báo chỉ

mới trình bày những kết quả thử nghiệm bước đầu,

chúng tôi tin vào khả năng phát triển và tính khả thi

của hướng tiếp cận mới này Trong bài viết này,

chúng tôi sẽ mở rộng ý tưởng này, bổ sung một số

thay đổi quan trọng và đánh giá các kết quả thử

nghiệm

III NGUYÊN LÝ THỐNG KÊ DỰA VÀO

INTERNET

Chúng tôi đồng ý với H Nguyen et al [11] rằng

thống qua các search engine thương mại, chúng ta có

thể rút trích những thông tin thống kê hữu ích từ

Internet Đó là tần số tài liệu (document frequency –

df), số lượng các tài liệu đã được lập chỉ mục có chứa

từ cần xét Ta chuẩn hóa giá trị df bằng cách chia cho

một hằng số MAX (là số lượng các tài liệu tiếng Việt

đã được lập chỉ mục) để xấp xỉ xác suất xuất hiện của

một từ trên Internet

Trên thực tế, chúng ta khó có thể biết được chính xác số lượng các tài liệu tiếng Việt đã được lập chỉ mục, do đó, thông qua thực nghiệm1 giá trị df của các

từ thông dụng, chúng tôi chọn giá trị MAX là 109

Bảng 2 Tần số tài liệu của một số từ thông dụng trong

tiếng Việt Tiếng Việt df

có 21.3 × 10 6 của 20.4 × 10 6 một 14.4 × 10 6

Do từ tiếng Việt gồm một (số) tiếng liên tiếp nhau,

ta cần độ đo thông kê mức độ liên kết giữa các tiếng

Mutual information -MI là một khái niệm quan trọng

trong lý thuyết thông tin, được dùng trong xử lý ngôn

ngữ tự nhiên để thể hiện quan hệ giữa hai từ cụ thể x

và y (Church et al [3]):

Tuy nhiên, chúng tôi không chỉ xét các cặp tiếng mà

còn xét nhóm n tiếng (n-gram) Tương tự Chien et al

[3], chúng tôi mở rộng công thức tính MI của bigram

cho n-gram:

Với cw là chuỗi gồm n tiếng (cw = s1s2…s n), lw và

rw là hai chuỗi con dài nhất (n-1) của cw (lw =

s1s2…s n-1 và rw = s2s3…s n ) Nếu giá trị MI(cw) lớn thì

lw và rw có khuynh hướng cùng xuất hiện chung

trong tài liệu trên Internet (tức là cw có khả năng cao

là từ ghép)

Ví dụ: xét chuỗi “đại học khoa học tự nhiên”, ta so sánh khả năng chuỗi “khoa học tự nhiên” hay “học khoa học tự” là từ ghép Ta thấy rằng “khoa học tự

nhiên” có giá trị MI lớn hơn hẳn MI của “học khoa

học tự” (không có ý nghĩa)

Bảng 3 Ví dụ về MI của n-gram

1 Chúng tôi thử nghiệm bằng Google: http://www.google.com

Trang 4

khoa học tự nhiên 39200 0.92

khoa học tự 41800

học tự nhiên 39900

học khoa học tự 14900 0.27

học khoa học 28600

Trong phần tiếp theo, chúng tôi sẽ giới thiệu hướng

tiếp cận bằng giải thuật di truyền để xác định MI tối

ưu toàn cục, tức là cách tách từ hợp lý nhất của câu

IV HƯỚNG TIẾP CẬN BẰNG GIẢI THUẬT DI

TRUYỀN ĐỂ TÁCH TỪ

Với mỗi câu, chúng ta sẽ xác định cách tách từ hợp

lý nhất Tuy nhiên, không gian tìm kiếm sẽ rất lớn do

có nhiều cách tổ hợp các tiếng thành từ Dựa vào

nguyên lý tiến hóa và di truyền, giải thuật di truyền

thích hợp cho việc xác định (xấp xỉ) các lời giải tối ưu

hóa toàn cục trong không gian tìm kiếm rất lớn thay vì

các lời giải tối ưu cục bộ (Michalewicz, [10]) Giải

thuật di truyền sẽ tiến hóa một quần thể qua nhiều thế

hệ nhằm tối ưu hóa toàn cục thông quá quá trình chọn

lọc, lai, biến dị và tái sinh Chất lượng của mỗi cá thể

trong quần thể được xác định bằng hàm thích nghi và

qua mỗi thế hệ, chúng ta sẽ chọn lại N cá thể tốt nhất

sau khi thực hiện quá trình lai, biến dị và tái sinh

Giải thuật di truyền áp dụng cho bài toán tách từ

tiếng Việt được tóm tắt như sau:

Mục tiêu: Xét văn bản t gồm n tiếng t=s1s2…s n

Mục tiêu của quá trình GA là xác định những cách

tách hợp lý nhất văn bản t thành m đọan t=w1w2…w m

với w k =s i …s j (1 ≤ k≤ m, 1≤ i, j≤ n) có thể là từ đơn

hay từ phức

Cách biểu diễn: Quần thể (pop) là tập hợp các cá

thể (id) được biểu diễn bằng xâu nhị phân Mỗi bit

tương ứng với một tiếng Vậy, một từ sẽ gồm các bit

giống nhau liên tiếp

Ví dụ:

học sinh học sinh học

0 0 1 0 0

học sinh # học # sinh học

w1 w2 w3

Khởi tạo quần thể: Ở bước này, ta khởi gán các

tham số như số lượng thế hệ, kích thước quần thể, tỉ lệ

lai, tỉ lệ biến dị và tỉ lệ tái sinh Các cá thể ban đầu của quần thể được phát sinh ngẫu nhiên Tuy nhiên, chúng tôi áp dụng một số ràng buộc nhằm tối ưu hóa các chuỗi ngẫu nhiên được phát sinh ra Dưới đây là thống

kê rút ra từ từ điển trực tuyến chưa 72994 từ và ngữ2

Bảng 4 Thống kê theo độ dài của từ trong từ điển

http://dict.vietfun.com

Độ dài của từ Tần số Tỉ lệ %

Tổng cộng 72994 100

Do hiện chưa có từ điển chuẩn dành cho xử lý ngôn ngữ nên chúng tôi quyết định chọn thống kê dựa trên một từ điển thông dụng Dựa vào số liệu thống kê, ta thấy rằng có trên 67% các từ trong từ điển có độ dài là

2 tiếng, khoảng 30% là từ đơn hay từ gồm 3-4 tiếng Các từ dài hơn chỉ chiếm khoảng 3% trong từ điển, trong đó thường là các thành ngữ Dựa vào nhận xét này, chúng tôi đề ra một số điều kiện giới hạn cho việc tạo và chọn các cá thể ngẫu nhiên ban đầu của quần thể:

− Mỗi đoạn gồm tối đa 4 tiếng

− Xác suất tạo ra đoạn gồm 2 tiếng cao hơn xác suất tạo ra đoạn có độ dài khác 2

Ngoài ra, chúng tôi áp dụng dạng đơn giản của giải thuật đối sánh Left Right Maximum (Tsai, [13]) để tạo

ra hai cá thể đặc biệt: cá thể “tiến” và cá thể “lùi” Như vậy, quần thể ban đầu sẽ có một số cá thể tối ưu hóa cục bộ

Phép lai: Chúng tôi áp dụng thao tác lai 1-điểm

chuẩn trên hai xâu bit Với cặp cá thể id1 id2, hai cá

thể con được tạo ra bằng cách lấy phần đầu của id1 nối vào phần sau của id2 và ngược lại Tuy nhiên, nếu cá thể con vi phạm các điều kiện giới hạn về kích

thước (mỗi đoạn w k có kích thước tối đa là 4), ta sẽ chuẩn hóa cá thể này bằng cách đảo các bit gây ra vi phạm ở cuối đoạn này

Phép biến dị: Thay vì dùng phép biến dị đảo bit

2http://dict.vietfun.com

Trang 5

ngẫu nhiên, chúng tôi chỉ đảo các bit ở biên của mỗi

phân đoạn Tương tự phép lai, ta sẽ chuẩn hóa các cá

thể để thỏa điều kiện giới hạn kích thước của phân

đoạn

Tái sinh: Sau khi thực hiện phép lai và biến dị, ta

chọn lại một số cá thể ở thế hệ trước (theo tỉ lệ đã

chọn) đưa vào quần thể mới

Phép chọn: Ở mỗi thế hệ, chúng ta chỉ chọn giữ lại

N cá thể tốt nhất Hàm thích nghi của mỗi cá thể id

được xác định như sau:

với id=w1w2…w m là một cá thể trong quần thể pop

= {id1, …, id N}

Hội tụ: Quá trình tiến hóa nhằm cải thiện độ thích

nghi của các cá thể trong quần thể, tức là cải thiện

chất lượng của việc tách từ Do đó, chúng ta sẽ dừng

quá trình tiến hóa nếu độ thích nghi của thế hệ sau

không cao hơn thế hệ trước, hoặc số lượng thế hệ đạt

ngưỡng cho trước

V KẾT QUẢ THỬ NGHIỆM VÀ THẢO LUẬN

Việc đánh giá độ chính xác của giải thuật tách từ

tiếng Việt là điều rất phức tạp, đặc biệt là không có

ngữ liệu kiểm chứng đã được tách từ thủ công Bên

cạnh đó, như chúng tôi đã trình bày ở phần trên, tách

từ chỉ là bước đầu tiên của phân loại văn bản, sau đó

còn có nhiều bước xử lý khác trước khi có thể đánh

giá về kết quả phân loại văn bản Do đó, chúng tôi

thực hiện hai thử nghiệm:

− Thử nghiệm việc tách từ, kết quả sẽ do con người

đánh giá,

− Thử nghiệm phân loại văn bản dựa trên cách tách từ

được chúng tôi đề nghị

Chúng tôi xây dựng ngữ liệu để thực hiện thử

nghiệm Do hướng tiếp cận của chúng tôi sử dụng

thống kê dựa trên Internet, chúng tôi đã thu thập phần

tóm tắt của nhiều trang báo điện tử3 nhằm tạo ra sự toàn diện cho dữ liệu thử nghiệm (tin tức đa dạng về chủ đề và phong cách) Để thử nghiệm việc phân loại văn bản, chúng tôi chia các tóm tắt bài báo theo các chủ đề khác nhau: xã hội, thế giới, thương mại, khoa học, văn hóa, sức khỏe và thể thao Cuối cùng, chúng tôi thu thập 0,5MB ngữ liệu thử nghiệm gồm 700 tóm tắt, 41219 tiếng, 100 tài liệu trong mỗi chủ đề

Trong các thử nghiệm, chúng tôi chọn các tham số của giải thuật di truyền như sau:

− Số lượng thế hệ tối đa = 100

− Số lượng cá thể trong quần thể = 100

− Tỉ lệ lai = 0.8

− Tỉ lệ biến dị = 0.1

− Tỉ lệ tái sinh = 0.1

− Phép chọn N = 100 cá thể tốt nhất

1 Thử nghiệm tách từ

Trong thử nghiệm này, chúng tôi đã nhờ một giáo

sư ngôn ngữ học và một học viên cao học Tin học cùng hợp tác để đánh giá (một cách độc lập) độ chính xác của việc tách từ trong các tóm tắt bản tin điện tử Người tham gia sẽ trả lời hai câu hỏi sau đối với kết quả tách từ:

− Hoàn toàn đồng ý với kết quả tách từ hay không?

(câu hỏi này dùng để đánh giá kết quả tách từ là hoàn

hảo)

− Theo kết quả của việc tách từ, người đọc hiểu đúng

ý nghĩa của văn bản hay không? (câu hỏi này dùng để

đánh giá kết quả tách từ là chấp nhận được)

Để phục vụ bài toán phân loại văn bản, chúng ta

không cần tách từ một cách hoàn hảo mà chỉ cần kết quả tách từ là chấp nhận được, tức là các từ quan

trọng phải được tách chính xác, còn các từ ít quan trọng có thể tách không hoàn toàn chính xác Bảng 5

thể hiện đánh giá của người tham gia thử nghiệm đối với kết quả tách từ:

Bảng 5 Đánh giá kết quả của việc tách từ

3 http://www.vnexpress.net, http://www.vnn.vn, http://www.tuoitre.com.vn, http://www.thanhnien.com.vn

Trang 6

Người đánh giá Hoàn hảo Chấp nhận

được

368 538 Giáo sư ngôn ngữ học

52.57% 76.86%

431 554 Học viên Cao học Tin

Chúng ta có thể biết trước là tỉ lệ tách từ hoàn hảo

không cao, ngoài ra, có sự chênh lệch đáng kể giữa

việc đánh giá tính hoàn hảo của kết quả tách từ giữa

hai người tham gia thử nghiệm Chúng tôi tin rằng

điều này là do hệ thống từ loại (part of speech) trong

tiếng Việt không được định nghĩa rõ ràng, dẫn đến sự

không thống nhất ý kiến đánh giá

Tuy nhiên, điều đáng mừng là tỉ lệ tách từ chấp

nhận được khá cao Gần 80% kết quả tách từ không

làm người đọc hiểu sai nghĩa của câu Đây chính là

điều mà chúng ta mong đợi Cần lưu ý là để phục vụ

bài toán phân loại văn bản, chúng ta chỉ cần tách từ ở

mức độ chấp nhận được mà không cần phải đòi hỏi

đến mức độ hoàn hảo Như vậy, không cần dùng ngữ

liệu huấn luyện, hướng tiếp cận được chúng tôi đề

nghị đã đạt được kết quả tách từ khả quan

2 Thử nghiệm việc phân loại văn bản

Ngữ liệu thử nghiệm là tập gồm nhiều tài liệu,

D={d1, d2,…,d n}, trong đó, mỗi tài liệu được gán nhãn

chủ đề duy nhất từ tập hợp các chủ đề C={c1,

c2,…,c m} Mỗi chủ đề sẽ có một danh sách các từ khóa

đại diện K={k1, k2,…,k u } Với mỗi tài liệu d, chúng ta

áp dụng một số bước tiền xử lý để tăng tốc độ xử lý

Trước tiên, chúng ta tách d thành nhiều nhóm tiếng

dựa vào dấu câu và số lượng Thứ hai, sử dụng danh

sách stop word, chúng ta loại bỏ các các từ thường ít

có ý nghĩa Cuối cùng, d được biểu diễn là d =g1g2…g r

với g i là một nhóm tiếng sau khi đã tiền xử lý

Với một chuỗi đã phân đoạn t=w1w2…w m, ta tính

điểm liên quan với một chủ đề c như sau:

Với p(k | w) là xác suất có điều kiện của từ khóa k nếu biết từ w Theo công thức trên, mức độ support

càng cao thì khả năng văn bản thuộc về chủ đề đó càng cao Chúng tôi tổng quát hóa mức độ support của

một tài liệu đã được tiền xử lý d đối với một chủ đề c

như sau:

Trong thí nghiệm này, chúng tôi sẽ phân loại ngữ liệu thử nghiệm theo 7 chủ đề phổ biến trên tờ báo tiếng Việt gồm: xã hội, thế giới, kinh tế, khoa học, văn hóa, sức khỏe và thể thao Việc xác định danh sách các từ khóa của mỗi chủ đề không phải là mục tiêu của bài báo này và sẽ được nghiên cứu sâu trong các công trình sau này Do đó, trong thí nghiệm này, chúng tôi chọn một từ khóa – chính là tên của chủ đề - cho mỗi chủ đề

Trong thí nghiệm của chúng tôi giả sử rằng mỗi tài liệu chỉ thuộc về duy nhất một trong số bảy chủ đề đã

chọn Chúng ta sử dụng độ đo F1 và micro-averaging

F1 (Yang [16]) để lượng giá hiệu quả Bảng 6 thể hiện

kết quả trên ngữ liệu thử nghiệm của chúng tôi đối với

tất cả các chủ đề và giá trị microaveraging Chúng tôi

so sánh kết quả của mình với phương pháp IGATEC của H Nguyen [11]

Bảng 6 Giá trị F 1 và micro-averaging F 1 của phương pháp

được đề nghị so với IGATEC Chủ đề Phương pháp

đề nghị

IGATEC

Kết quả thực nghiệm cho thấy hướng tiếp cận của chúng tôi có phần tốt hơn IGATEC Bên cạnh đó, việc

sử dụng các bước tiền xử lý nêu trên giúp giảm đáng

kể số lượng thế hệ của quá trình tiến hóa Trong thử nghiệm, số lượng thế hệ trung bình trong phương pháp của chúng tôi vào khoảng 52.3, trong khi

Trang 7

IGATEC sử dụng khoảng 500 thế hệ Chính nhờ điều

này, cùng với việc sử dụng thông tin MI có thể được

tính nhanh chóng, giúp cho việc phân loại văn bản

của chúng tôi có tốc độ khá nhanh (khoảng 0.5 giây

cho mỗi tài liệu trên máy tính cá nhân4 với thông tin

thống kê đã được lưu trữ sẵn)

Đây chỉ là những thử nghiệm ban đầu để kiểm

chúng hướng tiếp cận của chúng tôi Hiện chúng tôi

đang tiếp tục thử nghiệm việc phân loại văn bản với

ngữ liệu phức tạp và đa dạng hơn

VI KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

Trong bài báo này, chúng tôi đề nghị việc sử dụng

thông tin MI với hàm lượng thông tin lớn nhưng có

chi phí tính toán thấp và một số bước tiền xử lý hiệu

quả phục vụ việc phân loại văn bản tiếng Việt Điểm

mới của hướng tiếp cận này là thay vì phải sử dụng

ngữ liệu huấn luyện đã được gán nhãn hay lexicon –

vốn chưa có sẵn cho tiếng Việt, chúng tôi đã sử dụng

thông tin thống kê rút trích trực tiếp từ search engine

và dùng giải thuật di truyền để xác định những cách

tách từ hợp lý nhất đối với văn bản tiếng Việt cho

trước Các kết quả thực nghiệm cho thấy hướng tiếp

cận của chúng tôi đạt được những kết quả khả quan

trong việc tách từ và phân loại văn bản tiếng Việt với

độ đo micro-averaging F1 (Yang, [16]) đạt trên 90%

Phương pháp này hứa hẹn tiềm năng lớn cho việc xử

lý các văn bản của các ngôn ngữ tương tự tiếng Việt –

vốn còn chưa có các ngữ liệu được gán nhãn hay

lexicon chuẩn Ngoài ra, chúng tôi tin rằng hướng tiếp

cận trong việc tách từ của mình có thể được áp dụng

hiệu quả trong nhiều bài toán khác liên quan đến tiếng

Việt hoặc các ngôn ngữ tương tự, như xử lý ngôn ngữ

tự nhiên hay truy tìm thông tin

Chúng tôi sẽ tiếp tục nghiên cứu, khảo sát nhằm tối

ưu các tham số của giải thuật di truyền Chúng tôi sẽ

xây dựng chiến lược xác định giá trị các tham số một

cách tự động nhằm tăng tốc độ xử lý của giải thuật

Ngoài ra, hiện tại, chúng tôi chỉ sử dụng tần số thô

của tài liệu từ search engine Trong bài báo của

4 Pentium IV, 1.50GHz, 250 MB RDRAM

Cilibrasi và Vitanyi [4] đã giới thiệu nhiều độ đo khoảng cách mới và phương pháp để rút trích ý nghĩa của từ và ngữ từ Internet sử dụng số lượng trang trên Google Những kết quả này có thể được áp dụng để nâng cao hiệu quả của phương pháp được đề nghị Mục tiêu lâu dài của chúng tôi là áp dụng và đánh giá các phương pháp phân loại văn bản hiệu quả và được nghiên cứu sâu để tìm ra phương pháp hiệu quả

và phù hợp nhất cho việc phân loại văn bản tiếng Việt TÀI LIỆU THAM KHẢO

[1] L D Baker, A K Mccallum, Distributional clustering of words for text categorization, Proceedings of

the 21st Annual International Conference on Research and Development in Information Retrieval (SIGIR’98), 1998, pp96-103

[2] Lee-Feng Chien, T I Huang, M C Chen., PAT-Tree-Based Keyword Extraction for Chinese Information Retrieval, Proceedings of 1997 ACM SIGIR Conference,

Philadelphia, USA, 1997, pp50-58

[3] K Church, P Hanks, W Gale, and D Hindle, Using Statistics in Lexical Analysis, in U Zernik Lexical

Acquisition: Using On-line Resources to Build a Lexicon, Lawrence Erlbaum Associates, 1991

[4] Rudi Cilibrasi, Paul Vitanyi, Automatic meaning discovery of Google A search for meaning, New Scientist,

Duncan Graham-Rowe, 29 January 2005, p.21

[5] Dinh Dien, Từ tiếng Việt, Vietnam National

University, HCMC, Vietnam, 2000

[6] Dinh Dien, Hoang Kiem, Nguyen Van Toan,

Vietnamese Word Segmentation, The Sixth Natural

Language Processing Pacific Rim Symposium, Tokyo,

Japan 2001, pp749-756

[7] Foo S., Li H, Chinese Word Segmentation and Its Effect on Information Retrieval, Information Processing &

Management: An International Journal, 40(1), 2004, pp161-190

[8] T Joachims, Text Categorization with Support Vector Machines: Learning with Many Relevant Features,

European Conferences on Machine Learning (ECML’98),

1998

[9] Le An Ha, A method for word segmentation in Vietnamese, Proceedings of Corpus Linguistics 2003,

Lancaster, UK, 2003

Trang 8

[10] Z Michalewicz, Genetic algorithms + data structures

= evolution programs, 3rd edition, Springer-Verlag

London, UK, 1996

[11] H Nguyen, H Nguyen, T Vu, N Tran, K Hoang,

Internet and Genetics Algorithm-based Text Categorization

for Documents in Vietnamese, Research, Innovation and

Vision of the Future, the 3rd International Conference in

Computer Science, (RIVF 2005), Can Tho, Vietnam, 2005

[12] S Shankar, G Karypis, Weight adjustment schemes

for a centroid-based classifier, Text Mining Workshop on

Knowledge Discovery in Data (KDD’00), 2000

[13] Chih-Hao Tsai, MMSEG: A Word Identification

System for Mandarin Chinese Text Based on Two Variants

of the Maximum Matching Algorithm Web publication at

http://technology.chtsai.org/mmseg/, 2000

[14] E Wiener, J.O Pedersen, A.S Weigend, A neural

network approach to topic spotting Proceedings of the

Fourth Annual Symposium on Document Analysis and

Information Retrieval (SDAIR’95)

[15] Yiming Yang, Expert network: Effective and efficient

learning from human decisions in text categorization and

retrieval 17th Annual International Conference on

Research and Development in Information Retrieval (SIGIR’94), 1994, pp13-22

[16] Yiming Yang, An evaluation of Statistical Approaches

to Text Categorization Journal of Information Retrieval,

Vol 1, No 1/2, 1999, pp 67—88

[17] Yiming Yang, C.G Chute, An example-based mapping method for text categorization and retrieval,

ACM Transaction on Information System (TOIS’94), 1994,

pp 252-277

[18] Yiming Yang, Xin Liu, A re-examination for text categorization methods Proceedings of ACM SIGIR

Conference on Research and Development in Information Retrieval (SIGIR’99), 1999

Ngày nhận bài: 23/01/2006

SƠ LƯỢC TÁC GIẢ

NGUYỄN THANH HÙNG

Sinh ngày 04/04/1964 tại Thanh Hoá

Tốt nghiệp Đại học Sư phạm Toán-Lý tại Liên xô

(cũ) năm 1987 Tốt nghiệp Cao học Tin học tại Đại

học Khoa học Tự nhiên TP HCM năm 1997 Hiện là

Nghiên cứu sinh tại Đại học KHTN TP HCM

Hiện đang giảng dạy tại Trường PT Năng Khiếu-

ĐHQG TP Hồ Chí Minh

Lĩnh vực nghiên cứu: Lý thuyết thuật toán, Các bài

toán tối ưu, Thuật giải di truyền (GA)

Email : hung64vn@yahoo.com

Định dạng
Số trang	8
Dung lượng	311,02 KB