1. Trang chủ
  2. » Thể loại khác

GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN

5 1 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Giải Pháp Trích Rút Và Phân Loại Các Thực Thể Danh Từ Riêng Cho Kho Ngữ Liệu Phục Vụ Xử Lý Ngôn Ngữ Tự Nhiên
Tác giả Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu
Trường học Trường Cao Đẳng Công nghệ Thông tin, Đại học Đà Nẵng
Chuyên ngành Xử lý ngôn ngữ tự nhiên
Thể loại Báo cáo nghiên cứu
Năm xuất bản 2023
Thành phố Đà Nẵng
Định dạng
Số trang 5
Dung lượng 351,3 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

120 Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN EXTRACTION AND CLASSIF

Trang 1

120 Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu

GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG

CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN

EXTRACTION AND CLASSIFICATION OF NAMED ENTITIES FROM CORPORA

IN NATURAL LANGUAGE PROCESSING

Đặng Đại Thọ 1 , Huỳnh Công Pháp 1 , Doãn Hằng Diệu 2

Tóm tắt - Trích rút và phân loại thực thể danh từ riêng cho các kho ngữ

liệu, phục vụ xử lý ngôn ngữ tự nhiên là bước quan trọng và là tiền đề

cho việc mở rộng cũng như xây dựng các kho ngữ liệu theo hướng ngữ

nghĩa Việc nghiên cứu trích rút và phân loại thông tin đã được thực hiện

với nhiều ngôn ngữ Tuy nhiên, đến nay vẫn chưa có công trình nào

nghiên cứu trích rút và phân loại thực thể danh từ riêng trên các kho ngữ

liệu phục vụ xử lý ngôn ngữ tự nhiên Hơn nữa, các phương pháp trích

rút và phân loại thông tin đã sử dụng như nêu trên đều có những nhược

điểm riêng của nó Trong bài báo này, chúng tôi đề xuất giải pháp kết

hợp thuật toán so khớp tối đa (Maximum matching) với phân tích quan

hệ ngữ cảnh giữa các thành tố trong văn bản để trích rút và phân loại

các thực thể danh từ riêng cho kho ngữ liệu phục vụ xử lý ngôn ngữ tự

nhiên Giải pháp này bước đầu đã mang lại kết quả rất đáng khích lệ

Abstract - Extraction and classification of named entities from

corpora in Natural Language Processing (NLP) is an important initial step for extending and building semantic oriented corpora Though there have been many researches on the extraction and classification of information from internet resources in foreign languages, no research has dealt with corpora in NLP Moreover, information extraction and classification methods currently used such as rule based, machine learning or hidden Markov have shown some drawbacks In this paper, we propose a solution combining Maximum Matching method and contextual relation analysis of entities in the text for extracting and classifying named entities from corpora in NLP In the first stage of our research, this proposed solution has given positive results

Từ khóa - trích rút thông tin; phân loại thông tin; kho ngữ liệu; trích

rút tên riêng; phân loại tên riêng Key words - Information extraction; information classification; named entity extraction; named entity classification; corpora

1 Giới thiệu

Trích rút thông tin là bài toán quan trọng trong lĩnh vực

xử lý ngôn ngữ tự nhiên, trong đó trích rút thực thể danh từ

riêng theo thể loại có ý nghĩa thiết thực nhằm phục vụ cho

nhiều bài toán khác nhau như hỗ trợ web ngữ nghĩa, xây

dựng hệ thống hỏi đáp, xây dựng các máy tìm kiếm hướng

thực thế theo các đặc trưng riêng biệt…

Theo đó, bài toán trích rút và phân loại các thực thể

danh từ riêng đã được quan tâm nghiên cứu và thực hiện

phổ biến trên thế giới và trong nước [2], [3] Tuy nhiên, đa

số các công trình này nhằm khai thác và trích rút tên riêng

từ các nguồn dữ liệu Internet và các văn bản thông thường

Việc áp dụng bài toán này để khai thác và trích rút thực thể

danh từ riêng cho các kho ngữ liệu phục vụ xử lý ngôn ngữ

tự nhiên là rất cần thiết nhưng vẫn chưa được quan tâm

nghiên cứu

Việc xây dựng và mở rộng các kho ngữ liệu theo hướng

ngữ nghĩa là rất quan trọng, bởi vì đa số các kho ngữ liệu

phục vụ xử lý ngôn ngữ tự nhiên nói chung và dịch tự động

nói riêng đều tồn tại dưới dạng tập hợp các văn bản phi cấu

trúc, có định dạng hoặc không định dạng (thuần túy văn

bản) Điều này gây nên những hạn chế rất lớn cho các hệ

thống khai thác các kho ngữ liệu (hệ tìm kiếm, máy dịch, )

trong việc so khớp, tìm kiếm thông tin Bởi lẽ, đối với các

kho ngữ liệu loại này, các giải thuật tìm kiếm, so khớp đã

được xây dựng cho các hệ thống khai thác chỉ dừng lại ở

mức so khớp dạng chuổi ký tự hoặc văn bản như tính

khoảng cách hai chuỗi hoặc tính xác suất,… [1]

Do đó, để nâng cao hơn nữa hiệu quả khai thác các kho

ngữ liệu hay cải tiến hiệu quả và tính chính xác của quá

trình so khớp và tìm kiếm của các hệ thống khai thác kho

ngữ liệu, các kho ngữ liệu cần được mở rộng theo hướng ngữ nghĩa bằng cách xây dựng thêm tầng ngữ nghĩa cho kho ngữ liệu Tầng ngữ nghĩa có thể đơn giản là các chú thích, các từ/ cụm từ đồng nghĩa, các từ/cụm từ trái nghĩa,… Ở mức độ phức tạp, tầng ngữ nghĩa được xây dựng mạng lưới ontology, trong đó mỗi ontology gồm tập hợp các lớp thuộc một lĩnh vực hẹp nào đó [1]

Như vậy, để có được các kho ngữ liệu theo hướng ngữ nghĩa thì mỗi tài liệu trong đó phải được tổ chức, biểu diễn dạng dữ liệu “thông minh”, tức là chỉ khả năng kết hợp, phân lớp và khả năng suy diễn trên dữ liệu đó [3] Bài toán trích rút và phân loại các thực thể danh từ riêng mà chúng tôi đề cập trong bài báo này với mục đích làm tiền đề cho việc giải quyết và đặt nền móng cho việc xây dựng kho ngữ liệu theo hướng ngữ nghĩa

2 Một số hướng tiếp cận trích chọn thực thể danh từ riêng

Trong tiếng Việt, danh từ riêng là những danh từ để gọi riêng từng người, từng tổ chức, từng địa phương,… Ví dụ như Nguyễn Trãi, Võ Nguyên Giáp, Hội người cao tuổi, Hà Nội, Trích chọn thực thể danh từ riêng là tìm kiếm và phân lớp các từ vào lớp (nhóm) đối tượng như tên người, tổ chức, địa danh,…Trích chọn thực thể danh từ riêng chính là một trong những yêu cầu đầu tiên của hầu hết các hệ thống trích chọn các thông tin phức tạp [3] Các nghiên cứu về rút trích thông tin được phân thành ba hướng tiếp cận như sau:

2.1 Hướng tiếp cận thủ công sử dụng hệ luật [2], [3]

Sử dụng hệ luật là một trong những phương pháp truyền thống khi xây dựng các hệ thống rút trích thông tin Những hệ thống này thường dựa trên các đặc trưng như cú pháp

Trang 2

ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(84).2014, QUYỂN 1 121 của thông tin (ví dụ từ loại của từ), ngữ cảnh của thông tin

(từ đứng trước, từ đứng sau,…), hình thái của thông tin

(chữ hoa, chữ thường, số, ) kết hợp với một bộ từ điển để

viết thành các luật

Ưu điểm của phương pháp này là hệ thống xử lý trên

dữ liệu thô mà không cần thực hiện tiền xử lý dữ liệu Bên

cạnh đó, hệ thống có thể hoạt động và thu được kết quả

ngay khi hình thành các luật Tuy vậy, để xây dựng một hệ

luật đạt chất lượng, hiệu quả là một công việc rất khó khăn,

mất nhiều chi phí về thời gian và công sức và tiền bạc, đặc

biệt là khi xây dựng hệ luật từ ban đầu

2.2 Tiếp cận sử dụng các phương pháp học máy

HMM) [2], [5]

Mô hình sử dụng khái niệm các trạng thái ẩn và khái

niệm quan sát – các đối tượng dữ liệu được sinh ra bởi trạng

thái ẩn Trong trường hợp trích chọn thông tin, mỗi từ hoặc

mỗi đoạn trong câu được xem như một quan sát Xi, các

trạng thái ẩn Yichính là các nhãn cần gắn cho từ hay quan

sát Xi Nhãn cần gán cho từ có thể là từ loại (danh từ, động

từ, tính từ,…), hay định danh người, địa danh,… HMM là

một mô hình sinh, mô tả quá trình sinh ra các dữ liệu quan

sát bằng cách xác định xác suất đồng thời của chuỗi quan

sát và chuỗi trạng thái Chuỗi quan sát được sinh ra theo

quá trình bắt đầu từ trạng thái đầu tiên, sinh ra một quan

sát tương ứng với trạng thái đó, chuyển tới trạng thái thiếp

theo, sinh ra một quan sát tương ứng với trạng thái đó,

chuyển tới trạng thái tiếp theo,…

Hình 1 Mô hình Markov ẩn [10]

HMM được sử dụng rộng rãi cho việc trích chọn thông

tin văn bản Tuy vậy, do tập quan sát là các từ nên khó tích

hợp các đặc trưng phụ thuộc hoặc liên quan lẫn nhau như

vị trí các từ trong câu, chữ cái đầu tiên viết hoa hay không,

cả từ có viết hoa hay không, vị trí các từ trong văn bản, từ

có bắt đầu bằng số hay không,…Mặt khác, trong các bài

toán tập quan sát thường rất lớn, khó liệt kê hết dược, điều

đó làm giảm sự chính xác khi thực hiện, đồng thời làm tăng

độ phức tạp của bài toán Bên cạnh đó, trong mô hình

MHH, quan sát thời điểm t chỉ phụ thuộc vào trạng thái t,

mỗi quan sát được xử lý như một đơn vị riêng biệt, không

phụ thuộc vào các quan sát trong chuỗi Tuy nhiên, trong

thực tế hầu hết các chuỗi dữ liệu không được biểu diễn

chính xác như tập hợp các đối tượng riêng biệt

(MEMMs) [2], [6]

Giống như HMM, MEMMs cũng là mô hình hữu hạn

trạng thái theo xác suất Tuy vậy, trong khi HMM quan sát

hiện tại chỉ phụ thuộc vào trạng thái hiện tại thì MEMMs

quan sát hiện tại không chỉ phụ thuộc vào trạng thái hiện

tại mà còn phụ thuộc vào các trạng thái trước đó Điều đó

giúp cho MEMMs giải quyết được hai hạn chế nói trên của

mô hình HMM

Hình 2 Maximum Entropy Markov Models [10]

Tuy nhiên khi áp dụng vào thực tế, với tập dữ liệu huấn luyện khá lớn, khả năng phân nhánh của các trạng thái cao thì tính chính xác của mô hình bị ảnh hưởng rất lớn Đây chính là hạn chế lớn nhất của mô hình MEMMs Trong khi đó, do tách riêng xác suất chuyển trạng thái và xác suất sinh quan sát nên mô hình HMM không gặp phải vấn đề này

CRFs) [2], [7]

Hình 3 Mô hình Conditional Random Fields [10]

CRFs là mô hình dựa trên xác xuất điều kiện, chúng có thể tích hợp được các thuộc tính đa dạng của chuỗi dữ kiệu quan sát nhằm hỗ trợ cho quá trình phân lớp Tuy vậy, khác với MEMMs, CRFs là một mô hình đồ thị vô hướng Điều này cho phép CRFs có thể định nghĩa phân phối xác suất của toàn bộ trạng thái thường được sử dụng trong gán nhãn và phân tích dữ liệu tuần tự ví dụ ký tự, ngôn ngữ tự nhiên Khác với mô hình MEMM, CRF là mô hình đồ thị vô hướng Điều này cho phép CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong mô hình MEMMs Chính vì cách mô hình hóa như vậy mà CRFs giải quyết được vấn đề mà MEMMs gặp phải Tuy nhiên,với CRFs, thời gian tính toán tương đối chậm trong trường hợp dữ liệu huấn luyện tương đối lớn

2.3 Hướng tiếp cận lai [4]

Tiếp cận lai là kết hợp sử dụng hệ luật và các phương pháp học máy, nhằm sử dụng được ưu điểm của cả hai hướng tiếp cận này Đến nay chưa có một nghiên cứu nào về hướng tiếp cận này đối với tiếng Việt nhưng cũng đã có một vài nghiên cứu có kết quả khả quan với tiếng Trung Quốc, ngôn ngữ được xem là khá gần gũi với tiếng Việt Đây có thể sẽ là hướng quan trọng trong tương lai

3 Giải pháp đề xuất

Từ phân tích trên cho thấy các mô hình HMM, MEMM, CRFs đều có những ưu nhược điểm nhất định Một trong những nhược điểm đó là phải tiến hành tiền xử lý dữ liệu Cả ba mô hình đều phải sử dụng các công cụ để thực hiện phân lớp dữ liệu trước khi đưa chúng vào xử lý, việc đó khiến cho hệ thống trở nên cồng kềnh, tốn nhiều công sức, thời gian và tiền bạc hơn

Để khắc phục tình trạng trên, chúng tôi hướng đến giải pháp nhận diện danh từ riêng ngay trên dữ liệu thô Giải pháp đề xuất là sự kết hơp giữa thuật toán Maximum

Trang 3

122 Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu Matching và phân tích mối quan hệ giữa các thành tố văn

bản, cụ thể là quan hệ của thực thể cần kiểm tra với các

thực thể tiền tố và hậu tố của nó Việc sử dụng thuật toán

Maximum Matching cần chuẩn bị một bộ từ điển tiếng

Việt Dựa vào thuật toán này, chương trình so khớp thực

thể cần kiểm tra với tập hợp từ vựng có trong từ điển nhằm

loại bỏ những từ không phải danh từ riêng Mục đích của

bước này là loại bỏ tất cả các từ trong văn bản trùng khớp

với các từ có trong từ điển bằng cách áp dụng hướng đi của

một trong những phương pháp phân đoạn từ là Maximum

Matching [2], [8], [9] Các từ còn lại sẽ là danh từ riêng

Ngoài ra, danh từ riêng hầu hết bắt đầu bằng chữ hoa, đây

là một dấu hiệu dễ nhận dạng nhất

Sau khi có danh sách các danh từ riêng, chúng ta tiến

hành nhận biết các danh từ riêng đó thuộc lớp danh từ riêng

nào Chẳng hạn, Trần Hưng Đạo, Võ Nguyên Giáp,

Nguyễn Hoàng thuộc lớp Tên người; Hà Nội, Huế, Đà

Nẵng thuộc lớp Địa danh Việc nhận biết, phân loại danh

từ riêng này dựa vào quan hệ giữa các thực thể trong văn

bản và so khớp các thực thể tiền tố và hậu tố với tập hợp

các từ ngữ cảnh nhằm chỉ địa danh hoặc con

Hình 4. Mô hình giải pháp tổng quan

3.1 Dữ liệu đầu vào

Dữ liệu đầu vào là tập hơp các tài liệu từ các kho ngữ

liệu phục vụ xử lý ngôn ngữ tự nhiên

3.2 Tách từ:

Quá trình phân đoạn từ bao gồm ba bước như sau:

Bước 1: Tách từ được thực hiện bằng quá trình lần lượt

tách đoạn, tách câu và tách từ để xây dựng danh sách các

từ/cụm từ

Bước 2: Sử dụng thuật toán so khớp lớn nhất

(Maximum Matching), với so khớp giới hạn lớn nhất là 3

từ tố Cho khuôn dịch chuyển theo từng phần tử trong danh

sách tiếng theo thứ tự từ đầu đến cuối danh sách

Giả sử cho danh sách gồm n từ tố như sau:

Tại vị trí đầu tiên, khuôn sẽ chứa t1, t2, t3 Kiểm tra cụm

t1 t2 t3 có trong từ điển hay không?

- Nếu có, dịch chuyển khuôn sang phải 3 vị trí, khuôn

sẽ chứa 3 từ tố t4, t5, t6 Tiếp tục kiểm tra cụm t4t5t6 có trong

từ điển không?

- Nếu không, tiếp tục kiểm tra cụm t1t2 có trong từ điển không?

o Nếu có, dịch chuyển khuôn sang phải 2 vị trí, khuôn sẽ chứa 3 tiếng t3, t4, t5 Tiếp tục kiểm tra cụm t3t4t5 có trong từ điển không?

o Nếu không, kiểm tra t1 có trong từ điển không

 Nếu có, dịch chuyển khuôn sang phải 1 vị trí, khuôn sẽ chứa 3 từ tố t2, t3, t4 Tiếp tục kiểm tra t2t3t4 có trong từ điển không?

 Nếu không, thêm t1 vào danh sách các từ tố không có nghĩa rồi dịch chuyển khuôn sang phải 1 vị trí Lúc này khuôn sẽ chứa 3 từ tố t2, t3, t4 Tiếp tục kiểm tra cụm 3 từ tố t2t3t4có tồn tại trong từ điển không?

Quá trình này sẽ lặp đi lặp lại cho đến hết danh sách từ tố

Kết thúc, chúng ta có một danh sách chứa các từ tố không có nghĩa

Bước 3: Gộp các từ tố đứng cạnh nhau trong danh sách từ tố không có nghĩa thành một cụm từ và lưu vào danh sách các cụm từ tố không có nghĩa

i=0,j=i+1,k=i+2

i<List.size()

i=vị trí cuối

i=kề cuối

i= cuối-2

Tìm 3 tiếng cuối

Tìm 2 tiếng cuối

Return DS

Tìm tiếng i Tăng I,j,k

Thêm vào DS

Tìm 2 tiếng cuối Tìm tiếng i Thêm vào DS Tìm tiếng

cuối

Tìm tiếng I,j,k Tăng I,j,k lên 2

Tìm tiếng I,j Tăng I,j,k

Tìm tiếng i Thêm vào DS Tìm 2 tiếng cuối Tìm tiếng gần cuối Thêm vào DS

S

Đ

S

Đ Đ

S

S Đ

Đ S

Đ S Đ S

Đ S Đ S

Đ S

S

Đ S

Hình 5 Sơ đồ khối thuật toán Maximum Matching

3.3 Nhận diện danh từ riêng

Sau quá trình tách từ và loại bỏ tất cả các khả năng không phải là danh từ riêng nhờ vào thuật toán Maximum Matching kết hợp với từ điển tiếng Việt Bước tiếp theo là nhận diện danh từ riêng thuộc các lớp danh từ riêng nào, dựa vào phân tích quan hệ giữa các thành tố trong văn bản cùng với việc so khớp các thực thể tiền tố và hậu tố với tập hợp các từ chỉ địa danh và con người theo ngữ cảnh Chẳng hạn, trong tiếng Việt, tên người thường đi sau các từ như: ông, bà, cô, bác, anh, chị, giám đốc, tổng giám đốc,… và

đi trước các từ như: nói, phát biểu, đá, đấm, là một

Kho ngữ liệu

Tách từ

Từ điển Phân loại

Dựa vào quan hệ giữa các thực thể

(Tiền tố, hậu tố)

Các loại danh

từ riêng

Trang 4

ISSN 1859-1531 - TẠP CHÍ KHOA HỌC VÀ CÔNG NGHỆ ĐẠI HỌC ĐÀ NẴNG, SỐ 11(84).2014, QUYỂN 1 123 người,… Tên địa điểm thường đi sau các từ như: ở, đến,

trong, xã, huyện, thành phố,… và đi trước các từ như: là

nơi, là địa danh, nằm ở, được xây dựng,… Như vậy, việc

phân lớp danh từ riêng theo các lớp danh từ riêng tên người

hay địa điểm là quá trình phân tích quan hệ ngữ cảnh giữa

thực thể cần kiểm tra với các thực thể tiền tố, hậu tố của nó

theo ngữ cảnh

Việc phân tích quan hệ ngữ nghĩa và theo ngữ cảnh giữa

các thực thể trong văn bản cần đến quá trình xây dựng từ

điển tập hợp các từ quan hệ ngữ cảnh nhằm chỉ địa danh và

con người Mỗi lớp danh từ riêng có một từ điển tập hợp

các từ quan hệ ngữ cảnh tương ứng Quá trình nhận diện và

phân loại danh từ riêng gồm bốn bước sau:

Bước 1: Kiểm tra dựa vào tiền tố

Từ danh sách các cụm từ tố không có nghĩa tìm được ở

trên, duyệt theo từng phần tử để kiểm tra tiền tố của nó

Dựa vào danh sách các từ tố, tìm ra một từ tố nằm trước

phần tử đó trong văn bản (tiền tố một từ tố) Kiểm tra xem

từ tố này có nằm trong từ điển tiền tố một từ tố của lớp

danh từ riêng cần xác định hay không

- Nếu có, thêm cụm từ tố đó vào trong danh sách danh

từ riêng của lớp danh từ riêng đó (tên người, địa danh, tiền

tệ,…) và đưa cụm từ đó ra khỏi danh sách cụm từ tố không

có nghĩa

- Nếu không, kiểm tra từ tố này có trong từ điển tiền tố

một từ tố của các lớp danh từ riêng còn lại hay không

o Nếu có, thêm cụm từ tố đó vào danh sách danh từ

riêng của lớp danh từ riêng đang xét và xóa cụm từ tố đó

khỏi danh sách cụm từ tố không có nghĩa

o Nếu không, tìm ra hai từ tố nằm sát trước cụm từ tố

đó trong văn bản, đây gọi là tiền tố hai từ tố Tiếp tục kiểm

tra tiền tố hai từ tố này có trong từ điển tiền tố hai từ tố hay

không như đối với tiền tố một từ tố

 Nếu có, thêm cụm từ tố đó vào danh sách danh

từ riêng của lớp đang xét và đưa cụm từ đó ra khỏi danh

sách cụm từ tố không có nghĩa

 Nếu không, tiến hành tìm ra ba từ tố nằm sát

trước cụm từ tố đó trong văn bản Quá trình thực hiện

giống với tiền tố hai từ tố và một từ tố

Tiếp tục duyệt phần tử tiếp theo trong danh sách cụm

từ tố không có nghĩa cho đến hết

Kết thúc Bước 1, chúng ta tìm ra được các phần tử của

các lớp danh từ riêng thông qua tiền tố của nó

Bước 2: Kiểm tra dựa vào hậu tố

Tiếp tục tìm các phần tử của các lớp danh từ riêng từ

các cụm từ tố không có nghĩa còn lại dựa vào hậu tố của

nó Dựa vào danh sách các từ tố, xác định hậu tố một từ tố

của cụm từ tố đó trong văn bản Kiểm tra xem từ tố này có

nằm trong từ điển hậu tố một từ tố của lớp danh từ riêng

cần xác định hay không

- Nếu có, thêm cụm từ tố đó vào trong danh sách danh

từ riêng của lớp danh từ riêng đó (tên người, địa danh, tiền

tệ,…) và đưa cụm từ đó ra khỏi danh sách cụm từ tố không

có nghĩa

- Nếu không, kiểm tra từ tố này có trong từ điển hậu tố

một từ tố của các lớp danh từ riêng còn lại hay không

o Nếu có, thêm cụm từ tố đó vào danh sách danh từ

riêng của lớp danh từ riêng đang xét và xóa cụm từ tố đó khỏi danh sách cụm từ tố không có nghĩa

o Nếu không, tìm ra hai từ tố nằm sát sau cụm từ tố đó trong văn bản, đây gọi là hậu tố hai từ tố Tiếp tục kiểm tra hậu tố hai từ tố này có trong từ điển hậu tố hai từ tố hay không như đối với hậu tố một từ tố

 Nếu có, thêm cụm từ tố đó vào danh sách danh từ riêng của lớp đang xét và đưa cụm từ đó ra khỏi danh sách cụm từ tố không có nghĩa

 Nếu không, tiến hành tìm ra ba từ tố nằm sát sau cụm từ tố đó trong văn bản Quá trình thực hiện giống với hậu tố hai từ tố và một từ tố

Tiếp tục duyệt phần tử tiếp theo trong danh sách cụm từ tố không có nghĩa cho đến hết

Bước 3: Từ danh sách cụm từ tố không có nghĩa còn lại, tìm ra các cụm từ tố là chuỗi con của các cụm có trong danh sách danh từ riêng của các lớp danh từ riêng Nếu tìm có trong danh sách danh từ riêng lớp nào thì thêm chuỗi con đó vào danh sách danh từ riêng lớp đó và đưa nó ra khỏi danh sách cụm từ tố không có nghĩa

Bước 4: Nhận diện các tên riêng không có tiền tố và hậu tố nhưng đứng sát các tên riêng đã nhận dạng Từ danh sách các từ tố không có nghĩa còn lại, ta duyệt theo từng phần tử của danh sách cụm từ tố không có nghĩa, tìm ra các phần tử đứng trước nó là khoảng trống và kế sát trước khoảng trống là dấu phẩy hoặc từ “và” Nếu từ tố đứng sát trước dấu phẩy “,” hoặc từ “và” đó là chuỗi con của một phần tử trong danh sách danh từ riêng của lớp danh từ riêng nào thì thêm nó là danh sách danh từ riêng lớp đó

3.4 Hiệu chỉnh kết quả nhận diện

Tỉ lệ thành công phụ thuộc vào chất lượng bộ từ điển.Tuy nhiên, từ vựng từ tố Việt rất phong phú và đa dạng nên rất khó để xây dựng bộ từ điển đầy đủ, chính xác.Chính vì thế, hiệu suất của phương pháp này khó đạt được 100% Để nâng cao hơn nữa hiểu quả của giải pháp này, hệ thống cho phép người dùng hiệu chỉnh kết quả nhận diện bằng tay Hệ thống sẽ hiển thị danh sách các từ, cụm từ đã được nhận diện để người dùng có thể xác nhận, chỉnh sửa,…

4 Kết quả thực nghiệm

Dựa trên giải pháp thuật toán và quy trình trích rút và phân loại danh từ riêng đã nêu ở trên, chúng tôi đã tiến hành xây dựng và cài đặt chương trình

4.1 Đầu vào của chương trình

- Tập hợp các tài liệu của các kho ngữ liệu phục vụ xử lý ngôn ngữ tự nhiên đã được chuẩn hóa;

- Từ điển danh sách các từ có nghĩa trong tiếng Việt;

- Từ điển quan hệ ngữ cảnh chỉ địa danh và con người

4.2 Đầu ra và kết quả của hệ thống

Đầu ra của hệ thống là danh sách danh sách chứa các danh từ riêng được phân loại theo người và nơi chốn, bên cạnh đó còn hiển thị một văn bản với nội dung giống như văn bản đầu vào nhưng các danh từ riêng chỉ người được đánh dấu màu đỏ đậm, danh từ riêng chỉ nơi chốn được đánh dấu màu xanh đậm

Trang 5

124 Đặng Đại Thọ, Huỳnh Công Pháp, Doãn Hằng Diệu

Hình 6 Kêt quả chương trình thực nghiệm

4.3 Đánh giá kết quả

Sau khi thử nghiệm chương trình trên với 12 tài liệu của

các kho ngữ liệu với các thể loại khác nhau mà bộ từ điển

đã đủ để nhận dạng các danh từ riêng chỉ người và nơi chốn

trong chúng Chúng tôi đã thu được kết quả về độ chính

xác trung bình là 84,51%, cụ thể các lần thử được thể hiện

như Bảng 1 (Phần phụ lục)

5 Kết luận

Trích rút và phân loại thực thể danh từ riêng theo tên và

địa danh cho các kho ngữ liệu phục vụ xử lý ngôn ngữ tự

nhiên là một bước quan trọng và là tiền đề cho việc mở

rộng và xây dựng các kho ngữ liệu theo hướng ngữ nghĩa

Việc nghiên cứu trích rút và phân loại thông tin trong các

ngôn ngữ khác, đặc biệt là tiếng Anh đã được thực hiện rất

nhiều Tuy nhiên, đối với tiếng Việt và trên đối tượng là

các kho ngữ liệu thì chưa thực sự được quan tâm và đầu tư

nghiên cứu Việc trích rút và phân loại thông tin được thực

hiện bằng nhiều phương pháp như phương pháp dự trên hệ

luật (rule – based) đến các phương pháp học máy (machine

learning) như mô hình Markov ẩn, mô hình cực đại hóa

Entropy, mô hình ngẫu nhiên điều kiện, phương pháp máy

vector hỗ trợ Tuy nhiên các phương pháp này đều có những nhược điểm riêng của nó Giải pháp của bài báo là kết hợp thuật toán Maximum Matching kết hợp với phân tích quan hệ ngữ cảnh giữa các thành tố trong văn bản Giải pháp này đã mang lại kết quả rất đáng khích lệ Tuy nhiên, cũng giống như các công trình nghiên cứu tương tự, kết quả nghiên cứu còn hạn chế về việc xử lý trích rút các danh từ riêng trong một số trường hợp nhập nhằng Hướng phát triển của bài báo là tập trung cải tiến nhằm nâng cao độ chính xác và xử lý các trường hợp nhập nhằng về danh từ riêng

T ÀI LIỆU THAM KHẢO

[1] Đặng Đại Thọ, Huỳnh Công Pháp, Mở rộng kho ngữ liệu dịch tự

động theo hướng ngữ nghĩa, Tạp chí Khoa học và Công nghệ, Đại

học Đà Nẵng – Số 12 (73), Quyển II, Năm 2013, Trang 110-116

[2] Hà Quang Thụy, Phan Xuân Hiếu, Nguyễn Trí Thành, Nguyễn Thu

Trang, Nguyễn Cẩm Tú, 2009, Khai phá dữ liệu web, NXB Giáo

dục

[3] Lê Thu Thùy, 2009, Trích chọn thực thể tên người trong tiếng Việt,

Khóa luận tốt nghiệp, ĐH Công nghệ - ĐHQG Hà Nội

[4] Nguyễn Bá Đạt, 2009, Nhận dạng thực thể trong văn bản tiếng Việt,

Khóa luận tốt nghiệp, ĐH Công nghệ - ĐHQG Hà Nội

[5] RaBiner, L.R (1989), A tutorial on hidden Markov models and

selected applications in speech recognition, Proceeding of the IEEE,

77(2): 257-286, 1989

[6] McCallum, A., Freitag, D., and Pereira F., Maximum entropy

Markov models for information extraction and segmentation, Proceeding of ICML-2000

[7] Lafferty, J Mc Callum, A and Pereira, F (2001), Conditional

random fields: probabilistic models for segmenting and labeling sequence data, Proceedings of ICML-2001

[8] Chih-Hao Tsai, MMSEG: A Word Identification System for

Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm, 1996

[9] Md Aminul Islam, Diana Inkpen, and Iluju Kiringa, A Generalized

Approach to Word Segmentation Using Maximum Length Descending Frequency and Entropy Rate, University of

Ottawa-2007

[10] Jie Tang (2005), An Introduction for Conditional Random Fields,

Literature Survey ¨C, Tsinghua.

PHỤ LỤC

Bảng 1 Bảng kết quả thử nghiệm trích rút và phân loại danh từ riêng theo tên người và nơi chốn

L ần

thử Tên văn bản S ố lượng cần tìm Số lượng đã tìm Số lượng nhầm lẫn Số lượng không tìm ra Hiệu suất

(%) Người Nơi chốn Người Nơi chốn Người Nơi chốn Người Nơi chốn

Hi ệu suất trung bình 84,51

(BBT nhận bài: 25/09/2014, phản biện xong: 17/10/2014)

Ngày đăng: 02/12/2022, 03:04

HÌNH ẢNH LIÊN QUAN

2.2.1. Mơ hình Markov ẩn (Hidden Markov Models - HMM) [2], [5]  - GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
2.2.1. Mơ hình Markov ẩn (Hidden Markov Models - HMM) [2], [5] (Trang 2)
2.2.2. Mơ hình Maximum Entropy Markov Models (MEMMs) [2], [6]  - GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
2.2.2. Mơ hình Maximum Entropy Markov Models (MEMMs) [2], [6] (Trang 2)
3.1. Dữ liệu đầu vào - GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
3.1. Dữ liệu đầu vào (Trang 3)
Hình 5. Sơ đồ khối thuật toán Maximum Matching - GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Hình 5. Sơ đồ khối thuật toán Maximum Matching (Trang 3)
Hình 4. Mơ hình giải pháp tởng quan - GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Hình 4. Mơ hình giải pháp tởng quan (Trang 3)
Bảng 1. Bảng kết quả thử nghiệm trích rút và phân loại danh từ riêng theo tên người và nơi chốn - GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Bảng 1. Bảng kết quả thử nghiệm trích rút và phân loại danh từ riêng theo tên người và nơi chốn (Trang 5)
Hình 6. Kêt quả chương trình thực nghiệm - GIẢI PHÁP TRÍCH RÚT VÀ PHÂN LOẠI CÁC THỰC THỂ DANH TỪ RIÊNG CHO KHO NGỮ LIỆU PHỤC VỤ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Hình 6. Kêt quả chương trình thực nghiệm (Trang 5)

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w