Luận văn tự Động trích chọn thực thể tên người trong văn bản tiếng việt

Theo đó, các hệ thống trích chọn tên người lả bài toán co ban va có ý nghĩa trong việc xây dụng các hệ thông xử lý ngôn ngữ tự nhiên như xây đựng cáo ontology lam tién dé cho cac Semant

Trang 1

ĐẠI HỌC QUOC GIA HA NOL TRUONG DAI HOC CONG NGHE

ĐÀO MINH QUYEN

TỰ ĐỘNG TRÍCH CHỌN THỰC THÊ TÊN NGƯỜI

TRONG VĂN BẢN TIẾNG VIỆT

LUẬN VĂN THẠC SĨ

Hà Nội - 2011

Trang 2

TRUONG DAI HOC CONG NGHE

DAO MINH QUYEN

TU DONG TRICII CHON THY THE TEN NGUGI

TRONG VAN BAN TIENG VIỆT

Trang 3

HƯƠNG 1 - GIỚI THIẾU

1.1 Trích chọn thông tin là gi?

1.2 Bài toán trích chọn thực thể têu người trong Tiếng Việt

CHƯƠNG 2 - HE THONG TRICH CHON THONG TIN

MOT SO NGHIEN CUU LIEN QUAN TRONG TIENG VIET

CHƯƠNG 4 THUC NGHIEM VA DANH GIA

4.1 Môi trường thực nghiệm

4.4.3, Thực nghiệm 33

4.5, Danh giá kết quã sessesseesuntsunsnnnssanssseeeessneessiesesenee Xe SỔ

Trang 4

Tân liệu luan khảo

Phụ lục: Từ điển họ trong tiếng Việt |RÍ

39 40

Trang 5

Danh mục các ký hiệu, chữ viết tắt

1E Information Extraction

CRFs | Condition Random Field

HMM | Llidden Markov Models

MEMM | Maximum Markov Models

PNE | Person Named Entity

Trang 6

11ình 1 Ví dụ vẻ một hệ thông trịch chọn thông tin [4] -

Tĩnh 2 Mô hình xây dựng hệ luật cho các hệ thông ID theo so hướng tiếp cận thủ công Tình 3 Mô hình xây dựng IE theo mô hình học rnáy

Tình 4 Quy trình tách rữ

Tình 5 Mô hình hoạt động của CRF 1 I

Tình 6 Mô hình hóa bài toán

Hình 7 Mô hình giải quyết bài tơán

Hinh § Mô hình hệ thông tự động trích chọn

Tình 9 Format file profix.xt

Tình 10 Mô hình thục hiện bước ] -

Tình 11 Sử dụng viTekenizer 4.1.1 để tách từ văn bản tiếng Việt

THnh 13 Văm bản trước khi Lach tir

Hình 13, Văn bân sau khi tách từ con nneenierirrriee

Hình 14 Văn ban dau vao

Hình 15, Văn bân đầu ra dã gan nhãn

Hinh 16 File danh sách lên người

Hình 17 Danh sách các preFix án nhe

Hình 18 Mô hình thực nghiệm với CRE

Hình 19 Huan leyén CRE - Tạo file model -

Hình 20 Format của fe testing đưa vào CRF++ toolkit

Hình 21 Thực hiện trích chọn với file test bằng CRE++ toolkit

Hình 22 Kết quả thử nghiệm với số lượng file raining khác nhau

Trang 7

Danh mục các bằng biểu

Bang 1 Sự khác biệt đặc điểm từ giữa tiếng Việt và Liếng Anh

Bang 2 Hãng các tham số huần luyện

Bảng 3 Bảng, các tham số của lệnh crf test

Bang 4 Câu hình của máy PC đúng trong thựe nghiệm

Bang 5 Các công cụ sử đụng trong thực nghiệm

Bảng 6 Các thư viện sử đụng trong thực nghiệm

Bang 7 Kết quả kiểm thử của hệ thông tự động trích chọn

Bang 8 Kết quả test với sẻ lượng file training khác nhau

Trang 8

Xử lý ngôn ngữ tự nhiên từ lâu đã trở thành một bài toán quan trọng trong các ủng dụng công nghệ thông lin đặc biệt lá tìm kiếm, địch tự động, các hệ thống

Semantic Web, va tng dụng xứ lý ngôn ngữ tự nhiên cho Tiếng Việt cũng không

phải là ngoại lẻ

Ching bạn như đổi với bài toán tìm kiếm théng tin Cac Web Retrieval luén phái thực hiện dựa trên sự giới hạn của thông tin vào vả ra trong quả trinh tim kiếm Khi tìm kiếm người đùng thường đưa vào một số lượng nhỏ từ khỏa cần tim va két qua tim kiếm cũng cản kiểm tra và đưa ra một số lượng nhất định các từ phù hợp nhất Dầ giải

để này, việc tìm kiểm dựa trên các từ khóa lá chưa đủ Thực tế cho thầy các

thực thể ấn chứa trong đó cũng làm nổi bật cáo thông tin tìm kiểm Do đó, trích chọn

thực thể đã trở thành bải toán cơ bản nhất trong các bài toán trích chon théng tin

nhưng lại đóng vai trò quan trong trong việc quyết định hiệu quả tìm kiểm Một diéu

quyết về

để thây mữa lả hiện nay, thống kê tim kiểm cha thấy tìm kiếm theo tên người chiếm một tỷ lệ đáng kế Theo đó, các hệ thống trích chọn tên người lả bài toán co ban va có

ý nghĩa trong việc xây dụng các hệ thông xử lý ngôn ngữ tự nhiên như xây đựng cáo

ontology lam tién dé cho cac Semantic web ứng đụng trong hệ thông dịch tự động hay

tóm tắt văn băn,

To vậy việc xây đựng các giải thuật trích chọn các thực thể tên người từ web là

hài toán có ÿ nghĩa quan trọng Luận vần tập trung vào tìm hiển việc xây đựng một mô hình trích chọn thực thể tên người áp đụng cho Tiếng Việt

Câu trúc luận văn gồm 4 chương:

Chương 1: Giới thiệu một cách khải quát nhật bài toán trích chọn thực thể tên người trong Tiếng Việt Ý nghĩa của bải toán

Chương 23: Hướng tiếp cận trong tích chọn thông tin Một số nghiên cứu liên

quan trong xử lý văn bàn Tiếng Việt Đây sẽ là tiễn dé cho việc nghiên cửu để xây dựng mô hình giải quyết bài toàn

Chương 3: Dễ xuất mô hình giái quyết bài toán

Chương 4: Kết quả thực nghiệm của luậ

Trang 9

CHIIƯƠNG 1- GIỚI TIIỆU

1.1 Trích chụn thông tin là gì?

Ngày nay, cùng với sự ứng dụng rộng rấi

ña công nghệ thông tín là lượng thông,

tin khống lồ mang tỉnh chât toàn cầu Lượng thông tin nảy ngày cảng lớn mạnh không,

ngừng và song song với nó là một thách thức được đặt ra đó là: làm thế nào đẻ sử đụng,

thông ti đỏ một cách hiệu quả nhật? Và như vậy, trong kho dữ liệu không lỗ đó, việc tìm ra thông tin cần thiết một cách nhanh chóng, chỉnh xác là cực kỳ quan trọng

Mặc dù chất lượng của các máy tìm kiếm đã được cái thiện nhưng kết quả hề về

chỉ là những tải liệu gó liên quan, chúng không dễ đăng gỉ rút ra được các mối quan hệ

c tuy vẫn phức tạp,

h giới" Người ta phân loại câu trả lời các truy vấn ở đạng: có phân tích các tài liệu liên

quan để tập hợp những thông tỉn cần thiết Nếu nhiều mỗi quan hệ như “Công ty À

liên doanh với công ty B” dược lưu trong các tải Hiệu thị nó tự động tổng hợp vá cầu trúc hỏa, điều nay rất tốt không chí cho các hệ thống truy vấn thông tin má còn cho các

hệ thống hỏi đáp tự động và tôm tắt văn bán J2o đó khai thác được những trí thức đó

sẽ mang lại nhiều thông tín bổ ích Đó là lĩnh vực mà “tich chon thong tin” nghién

tiêm ân và lạo dược các câu trả lời cho cá

Trích chọn thông lin (Information Extraction - TR) la cng vide trích rø các thông,

tin có cầu trúc từ các văn bản không có cấu trúc [4] Nói cách khác, một hệ thông trích chon théng tin nit ra những thông tin đã được định nghĩa trước vẻ các thựo thế và mỗi

quan hệ giữa cáo thực thể từ một văn ban dưới đạng ngôn ngữ tự nhiên và điển những

thông tin nảy vào một văn bản ghi dữ liệu cỏ câu trủc hoặc một dạng mẫu được định

nghĩa trước đó Không giống như hiểu toàn bộ văn bản, các hệ thống trích chọn thông tin chi od gang nhận biết một số thông (in dang quan tâm ở một lĩnh vực nao do

Trang 10

‘October 14, 2002, 4:00 a.m, PT

For years, Microsoft Corporation CEO Bilt

Gates railed against the economic

‘Sommunal licensing as a “cancer” that

Stifled technological innovation

Today, Microsoft claims to “love” the

‘open-source concept, by which software code is made public to encourage

programmers

‘Microsoft wil gladly đlaclose ies crown MAME TITLE ORGANIZATION

Jewels~the coveted code behind the

‘Neiedons goeraing spmeni-toeoieot sr ng

Richard Stallman founder Free Soft

"We can be opan source We love the concopt of shared source.” sald Bill

Veghte, a Microsoft VP “That's a super-

‘Important shift for us in terms of code

1.2 Bài toán trích chọn thực thể tên người trong Tiếng Việt

Trích chọn thực thể tên người là bước tiền xử lỷ trong rất nhiều hệ thông xử lý

ngôn ngữ tự nhiên Cụ thể như:

- Tém tắt văn bén: Tit mot van ban dai, may tinh tóm tắt thành văn bản ngắn hon

với những nội dung cơ bản nhất

~ Dịch tự động: Là việc dịch tự đông từ tiếng nảy sang tiếng khác, chăng hạn dịch

câu “Nguyên Tấn Dũng lả Thủ tướng nước Cộng hòa xã hội chủ nghĩa Việt Nam”

sang tiếng Anh Việc dịch nảy đòi hỏi máy không những phải hiểu đúng nghĩa câu tiếng Việt mà còn phải nhận biết được đâu là tên người đề giữ nguyên

-_ Tỳm kiểm thông tin trên mạng: Đày là lĩnh vực cỏ sự chia sẻ nhiều nhất giữa trí

tuệ nhân tạo vả Internet, và ngày càng trở nên hết sức quan trọng Sẽ sớm đến một ngày, mọi trí thức của con người được số hóa và đẻ lên mạng hay các thư viện số

cực lớn Thông kê cho thấy, các từ khóa lả tên người được đưa vảo tìm kiểm chiếm

tỷ lẻ khả lớn

-_ Hệ thống hỏi đáp: Giủp trả lời các cầu hỏi liên quan đến thực thẻ tên người như:

e Aila Chi tich tap doan Microsoft?

Trang 11

-_ Web ngữ nghĩa: 'Trích chọn tên người là bước tiền xứ lý cho hệ thống xây dựng,

các otology - bước xây đựng dữ liệu cho các ứng dụng web ngữ nghĩa

Luận văn sẽ tập trung váo việc xây dựng hệ thông tự động trích chợn tên người trong văn bản tiếng Việt Kết quá của hệ thống sẽ rất có ích trong tiên xử lý dữ liệu của

các ứng dụng xử lý ngôn ngữ tự nhiên nói trên

Trang 12

MOT SO NGHIEN CUU LIEN QUAN TRONG TIENG VIET

2.1 Các cách tiếp cận trích chọn thông tin

2.1.1 Hướng tiếp cận thủ công

Đặc diễm của việc xây dựng hệ thống trích chọn thông tin theo hưởng này là hệ thống luật dược xây dựng bằng tay hoan toàn phụ thuộc vào kinh nghiệm riêng của

từng người trong từng lĩnh vực của IB, các mẫu hay các luật dược tạo ra và dược kiểm

trên trí thúc chuyên giá (theo kinh nghiệm riêng của người xây đựng) Các luật mới

được sinh ra sau quá trình kiểm đuyệt đó để bổ sung cho tập luật củ Khững quy tắc được kiểm định nhiều lần nhằm đánh gia độ chính xác và từm ra những luật mới để bổ

Trang 13

6

2.1.2 Tướng tiếp cận xây dựng các mô hình học máy

Với hệ thống TE được xây dựng theo hướng tiếp cận dựa trên trí thức thì chủ

có thể "Iự học” Điều n giúp lâm giêm bói sự lam gia của các chuyên gia ngôn ngữ và làm tăng tính linh hoạt cho hệ thống Có rất nhiễu phương pháp học máy như

mô hình markov ẫn (Hidden Markov Models-HMM), các mồ hình Markov cực đại hóa

Entropy (Maximum Markov Models - MEMM) và mồ hình các trường ngẫu nhiên có điều kiện ( Conditicnal Random lields CRL)

Các đặc điểm phải kế đến của việc xây đựng hệ thông TE theo hướng hệ thống có thé tu do tao (aulomatic training approach) là không cần một người nào đó hiểu biết

vẻ cách hoạt động của hệ thông TE và viết luật cho nó như thẻ rảo Điệu cần thiết ở đây là một người nào đó biết được miễn ứng dung của nó và hiểu được những thông tin cần rút trích Một khi dữ liệu huấn luyện được chủ thích, thuật toán budn luyén

chạy và sinh ra những thông ti học dược hay côn gọi là model dễ phục vụ cho quá

trình trích chọn tự động sau này Mô hình với hướng tiếp cận này dược mỏ tá qua hình

3 như sau: Các thuật học sẽ dựa trên dữ liệu dễ tự học và thu được một model, đựa trên model nay no sé bích chọn các thông tin trên dữ liên mới

Thuật toán học

Dữ liệu Tuan

Model

Tình 3 Mô hình xây dựng IE theo mô hình học máy

Khi xây dựng hệ thống 1E theo hưởng nay phải tập trung vào việc tạo ra dữ liệu hudn luyện Hệ thống có thể tự học mà không cản sự can thiệp của bất kỷ các chuyên

viên nào Tuy vậy việc xây đựng và lưu trữ tập đữ liệu huấn luyện rất khó và

tệ thống só thể thực hiện tốt thủ yêu cầu đứ hiệu phải nhiều đô cũng là hệ quá d

việc khó sửa đổi Vì chỉ cân thêm hoặc xóa các thuộc tỉnh thả cần phải thay đổi trên

toàn tập huân luyện của nó

Trang 14

Tủy vào công việc và những diễu kiệu đã có mà ta có thế xây dựng hệ thông IE

theo hướng cáo mổ hình học máy hoặc theo hướng Hiếp cận dựa tri thức Ví dụ như khi

nguễn văn bản và người viết luật đáp ứng được yêu câu thi nên xây đựng hệ thống IE theo hướng tiếp cân đựa trí thức, hoặc khi các mô tã về thông tin trích chọn luôn có sự thay đếi thì cũng lên lâm theo hướng thứ nhật Cỏn với đữ liêu lớn thi nên xây đựng hệ thống LI theo mé hinh hoc may

2.2 Một số nghiên cửu liên quan

2.2.1 Bài toán tách từ trong tiếng Việt và công cụ vnTokenizer

Bài toán

Cho một cầu tiếng Việt bắt kỷ, hãy tách câu đó thành những đơn vị từ vụng (1Ù), hoặc chỉ ra những âu tiết nảo không có trong tir điển (phát hiện đơn vị từ vựng tuổi)

Một số đặc diÊm uê cú pháp câu tạo từ trong tiếng Việt

Tách Lừ là một khó khăn chính trong việc phân loại văn bản đối với các ngôn ngữ

châu Á như tiếng Hoa, tiếng Nhật, tiếng Hàn va cả tiếng ViệL Mặc dù được viết bằng

các ký tụ La tỉnh mở rộng, tiếng, Việt cũng có những đặc tính chung với các ngồn ngữ phonographie Dồng Nam Ả khác như khó xác định danh giới giữ các từ và có cáo

điểm khác biệt về phonetic, van phạm và ngữ nghĩa so với các ngôn ngĩt Ân, Âu

Có một số đặc tỉnh chỉnh của từ trơng tiếng Việt như sau |T]

- _ Từ ở đạng nguyễn thể, hình thức và ý nghĩa của từ độc lập với cú pháp

~_ Từ được cấu trúc tù “tiếng” hay còn gọi là âm liết

- Từbao gồm từ đơn (từ mệt tiếng) vả từ phức (n - tiếng với n < 5), bao gồm từ

có nghữa, được phân cách bởi ký tự khoảng trắng trong câu” (Từ điển Webster)

Dưới đây là một số điểm khác biệt chính giữa tiếng Việt vả tiếng Anh

Tử loại Không 1õ ràng Dược định nghĩa rõ

Danh giới từ 'Tổ hợp cỏ nghĩa dựa vào Khoáng trắng hoặc diu cau

ngữ cảnh của các tiếng,

Bang 1 Sự khác biệt đặc điểm từ giữa tiếng Việt và Tiếng Anh

Trang 15

Cho đến nay đã có khả nhiều nghiên cứu ứng dụng nhằm thực hiện việc tách từ trong tiếng Việt, Luận văn không đi sâu vào việc xây dựng module tách từ mả sẽ sử

dụng chương trình tách từ tự động Vntokenizer đề tách từ cho văn bản

Công cụ tie vnTokenizer

VnTokenizer là công cụ tách từ tiếng Việt được nhóm tác giả Nguyễn Thị Minh Huyền, Vũ Xuân Lương và Lê Hồng Phương phát triển dựa trên phương pháp so khớp

tối đa (Maximum Matching) với tập đữ liệu sử dụng là bảng âm tiết tiếng Việt và từ điển từ vụng tiếng Việt [7]

Công cụ được xây dựng bằng ngôn ngữ Java, mã nguồn mở Cỏ thẻ để đàng sửa đổi nâng cấp và tích hợp vảo các hệ thông phân tích văn bản tiếng Việt khác

Quy trình thực hiện tách từ theo phương pháp khớp tối đa được mô tả bởi hình 4

Trong quy trình nảy, tác giả sử dụng từ điển từ vựng tiếng Việt và được bổ sung qua

quá trình phân tách nhằm tăng độ chính xác

Chuỗi các đơn vị từ it

Hinh 4 Quy trinh tach tir

- Dau vao ctia céng cu tach tir vnTokenizer 1a mét cau ho%e mét van ban được

Tưu dưới dạng tệp

~_ Đâura là một chuỗi các đơn vị từ được tách

- Cac đơn vị từ bao gồm các từ trong từ điện cũng như các chuỗi só, chuối ki tir nước ngoài, các hình vị ràng buộc (gồm các phụ tô), các dâu câu và các chuối kí

tự hỗn tạp khác trong văn ban (ISO, 2008) Các đơn vị từ không chỉ bao gồm

các từ có trong từ điển, mả cả các từ mới hoặc các từ được sinh tự do theo một

quy tắc nảo đó (như phương thức thêm phụ tổ hay phương thức láy) hoặc các

chuối kí hiệu không được liệt kê trong từ điền

Công cụ sử dụng tập dữ liệu đi kèm là tập từ điển từ vựng tiếng Việt, danh sách các đơn vị từ mới bổ sung, được biểu diễn bằng ôtômat tối tiêu hữu hạn trạng thải, tếp

Trang 16

chứa các biểu thức chính quy cho phép lọc cáo đơn vị từ đặc biệt (xâu dạng số, ngày tháng, ), và các tệp chứa các thống ké unigram va bigram trén kho van ban tach từ

mau

Với cáo đm vị từ đã có trong từ điển, khi thực hiện tách từ cũng được xử lý hiện tượng nhập nhằng bằng cách kết hợp với các thông ké unigram va bigram Ching

hạn trong tiếng Việt thường gặp các trường hợp nhập nhằng như:

- Xâu AT vừa có thể hiểu là 1 don vị từ, vừa có thể là chuối 2 đơn vị từ A-

- Xâu ABC có thế tách thành 2 đơn vị AB-U hoặc A-BC

Đảnh piả kết quê

Kết quã dánh giả của công cụ được cho la dn định dối với nhiều loại văn bản/

văn phong khác nhau Độ chỉnh xác trung bình đạt được là khoảng 949 |2]

2.2.2 Mé hinh hec may CRI và bộ công cụ cài đặt CRE++ fooikit

2.2.2.1 Mô hình CRF

CRIs duoc giới thiệu lần đâu vào năm 2001 bởi Lafferty và các đồng nghiệp Giống như MUMMs, CRI!s lá các mô bình dựa trên xác suất điều kiện, chúng có thể

tích hợp được các thuộc tinh da dang của chuối đữ Hệu quan sát nhằm hỗ trợ cho quá

trinh phân lớp [S] Tuy vậy, khác với MEMMs, CRIs là mô hình đồ thị vô hướng,

Điều này cho phép CREs có thể định nghĩa phân phổi xác suất của toàn bộ chuối trạng, thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong mé hinh

MEMMs Chính vì cách mô hình héa nhnr vậy, CRFs có thể giải quyết được hạn chế

của mô hình MEMMs như vân dé vé “label bias”

2.2.2.2 Công cụ CRI++ Tooildit

CRF ++ là một công cụ cải đặt mô hình CRF và được phân phổi dưới dạng mã

nguồn mỡ có thể dùng để phân đoạn vả gán nhấn dữ liệu tuần tự

CRF— được thiết kế cho cứng một mục dich phd dung có thể ứng dụng trong

những bài toán xử lý ngôn ngữ tự nhiên như nhận dang thue thé tén, trich chon thông

tín và đóng khung văn bản

Tê thống được hoạt động theo phương pháp học nửa giám sát [6] được thực hiện

gồm các bước sau (được mồ hình hóa bằng hình 5}

Bude 1: Tạo bộ dữ liệu huần luyện bẻ, Bước này dược thực hiện bằng tay

Bước 2: Sử dụng mô hình CRFs đề huận luyện trên tập dữ liệu rày

Bước 3: Tạo tập test và sử đựng CREs để gán nhãn

Trang 17

Hình 5 Mô hình hoạt dộng của CRE++

2.2.2.2.2 Tính năng

- Có thể định nghĩa lại các tính năng đã có, ta có thế tủy biến đề thêm các đắc

trưng mới phủ hợp với bài toán cụ thể

- Viết bằng C+—, là phần mêm mã nguồn mớ

- Bộ nhớ nhỏ sử đụng trong c kiểm tra và phân tích

~ Có thể đưa ra xáu suất lề cho tất cả những đầu vào

2.2.2.2.3 Cài đặt và cách sử dụng

Cải đặt

®_ Chuyển vào thư mục chứa công cụ CRF! |

> Dung lênh chmod 777 /configure

> make clean && make

File dink dang hudn luyén và test

Trang 18

có 1 định dang riêng sủa CRE++ dễ nó có thể làm việc được Thông thường lile huấn huyện và file kiểm tra chửa dựng rất nhiều tử tố Mỗi từ tố phải viết trên một dòng, Ngoài từ tổ ra còn có các cột chửa các thông tin khác dùng đẻ mô tả từ tổ chẳng bạn

như là từ loại của từ tô vả cột cuối cùng chứa nhãn của từ tố Đẻ định nghĩa từ tổ phụ thuộc vào từng công việc, trong, hầu hết các trường hợp diễn hình thí chúng là các từ Mỗi một từ tổ ở một đóng, các cột được phân chia bởi các khoảng trắng, Trinh tự các

từ tổ tạo thành một câu Một dòng trắng dễ phân biệt giữa các cấu

Dưới đây là một ví dụ về file huần luyện Với cột thử nhật là bản thân từ đó, cột

thứ hai là từ loại và cột cuối cùng lả nhân cân gản

‘Template type

File nay mô tả những đặc trưng sẽ sử dụng khí huấn luyện và kiểm tra Mỗi một

động trong lrong file template chi ra mdi template, mdi mdt ieruplale có dạng như san

%4x[røw,eaf] dùng, đễ định nghĩa một từ trong đữ liệu đầu vào

Trang 19

12

Tilk template dược xây dựng tùy vào từng bài toán cụ thể và tủy vào ñile huấn

huyện vả file kiểm tra Vị dụ với dữ liệu đầu vào như sau thi file teraplate sẽ dược xây

dung như sau:

Dữ liệu đầu vào

‘Voi loại này khi đưa 1 template CRF ++ sé ti động tạo ra các hảm dặc trưng

funcl = if (output = B-DT and feature="U01:DT") return } else return 0

func? ~ if foutput — L-DT and feature—"U0L:DT") return 1 else return 0

func3 = if (output = O and feature="U01-PT") return } else return 0

Số lượng hàm tạo ra bởi một template lả ( L * N)

L : số lượng output

M: số lượng chuối đuy nhất được md réng tr template dược chỉ ra

« Bigram template

Với template này ,sự liên kết giữa từ tổ hiện tại (curent token) và từ tổ trước dé

(previous output token) được tự động tạo ra

Trang 20

Với loại này tạo ra (L *L *N) CN là số lượng các đặc trưng riêng biệt dược tạo ra)

dặc trưng khác nhau đo vậy có thể không hiệu quả trong huấn luyện và kiểm tra

em tra

2.2.2.2.4 Huấn luyện và

Sau khi chuẩn bị toán bộ các file train, file tes(, Ble template ta tiến hành huấn

luyện và tcst như sau

» Tuấn luyện (training)

Dễ huần luyện các file ta sử dụng lệnh erƒ learn với củ pháp sau:

°% crf learn template_file train_file model_file

6 ds:

Lệnh erf_learn tao ra m6 hinh hun luyén trong file model_file

Kết quả của lệnh crf Jearn:

iter: Số lượng lặp được xử lý

lối đổi với cáo thể ( được tính bằng số lượng thẻ lỗi tổng số thẻ )

sơm: Tỷ lệ lỗi đối với câu ( được tính bằng số cầu lỗi “ống số câu )

obj: Gia tri cia đối tượng hiện tại Khi giá trị này hội tụ tại một điểm có định

CRI — dimg lip

Tham số Giá trị mặc định Ýnghĩa

-a CRT-L2 CRT-L2 Tham số này dùng đề thay đổi thuật toán mặc

hiện tắt hơn không đáng kế so với LI, trong khi số lường các đặc tính L1 là nhỏ hem một

-fFNUM 1 Chí có các thuộc tính cô tân suất xuất hiện lớn

hơn giả trị này thì mới được tích hợp vào mô hình CRE

Trang 21

14

việc huản luyện nhanh hơn bằng cách sử dụng

đa luỗng NUM là số lượng các liỏng

Bảng 2 Bảng các tham số huấn luyện

> Kiểm tra (testing)

Để kiểm tra đữ liệu sau khi huấn luyện sử dụng lệnh erf fesf với củ pháp như

sau:

% crf_test -m model_file test_files

Model file 1a file do orf learn tao ra Trong khi test kh6ng cdn tạo ra

template file bdi vi model file od théng tin pidng nkur file template

‘Test_file la kiém tra dữ liệu bạn muốn gản thẻ theo trình tự File này có định dạng giống như file tranine được xảy dựng ở trên

-vievel |0 Tuy chon nay dưa ra một số thông tin chỉ tiết

từ CRE+tbäng cách tăng cấp độ của level

N best Pua ra N kết qua được sấp xếp theo xắc suất

ouput điều kiện của CRE ¡ I

qúa trình trích chọn.

Trang 22

CHƯƠNG 3~ GIẢI QUYẾT BÀI TOÁN

Trên cơ sở tìm hiểu những hướng tiếp cận trên đây luận văn đã lựa chọn phương,

pháp học giám sát nhẹ đề giải quyết bài toán Trong chương nảy luận văn trình bảy phương pháp trích chọn thực thể tên người áp dụng cho Tieng Việt với những nghiên

cứu đề thực hiện theo những đặc trưng ngôn ngữ

3.1 Mô tả bải toán

Cho một tập văn bản Tiếng Việt, bải toán đặt ra là cản trích chọn trong tập văn bản đỏ danh sách tên người

Tập văn bản Tiếng Việt

Danh sách tên người

Hình 6 mô hình hóa bải toán Đầu vào lả văn bản tiếng Việt Hệ thông có nhiệm vụ trích chọn thực thể tên người từ văn bản tiếng Việt đó Đầu ra của hệ thông lả danh sách tên người trích chọn được vả văn bản gản nhãn

Tiếp theo đó là vi dụ với 1 câu văn bản tiếng Việt Hệ thông can cho ra kết quả là

câu văn bản đã được tách từng từ và đánh dầu từ nảo là tên người

*ˆ Danh sách tên người

Trích chon th * Van ban gan nhan:

oe So tên người

Thủ tưởng Nguyễn Tắn Dũng đến thăm và làm việc tại tỉnh Hà Giang

Thủ tướng / Nguyễn Tắn Dũng / đến thảm / và / làm việc / tại / tỉnh / Hà Giang

xá

° 7 P / O /0 O/0/0/ O

Hình 6 Mô hình hóa bài toán

3.2 Mô hình giải quyết bài toán

Dựa vào đặc điểm về chữ việt, văn phong của các thực thể tên người trong Tiếng 'Việt, luận văn đề xuất phương pháp trích chọn bao gồm các bước cơ bản sau

Trang 23

16

Bước 1 Tiên xử lý đối với các văn bản đầu vào

Bude nay bao gồm các thao tác làm sạch & tách câu, tách từ trong văn bản

Bước 2 Tự động trích chọn

Sử dụng thuật toán trích chọn bán giảm sát đề thực hiện trích chọn Sau bước nảy, hệ thong sẽ cho ra kết quả bao gồm

~_ Danh sách tên người tìm thấy

~_ Danh sách prelx (từ đứng trước tên người ví dụ Ông, bà, đỏng chỉ, ) Danh sach prefix rat quan trọng trong việc làm tăng độ chính xác của thuật toán trích chọn

~_ Tập văn bản gán nhãn tương ửng với tập văn bản vảo Tuy nhiên các văn bản gắn nhãn được thể hiện gồm 2 cột:

Sử dụng mô hình CRE & chương trình cài đặt CRE toolkit ++ đẻ thực hiện đánh giá

kết quả trích chọn tử bước trên

Chỉ tiết của từng bước thực hiện sẽ được mô tả chỉ tiết trong những phân sau

Hình 7 lả mô hình giải quyết bai toán theo những bước mô tả ở trên

Trang 24

3.3 Mô tả chỉ tiết hệ thống trích chọn

3.3.1 Một số đặc điểm về cú pháp và ngữ cảnh của tên người trong văn bản Tiếng Việt

Những đặc điểm vẻ củ pháp và ngữ cảnh thẻ hiện của tên người trong Tiếng Việt

là những yếu tô quan trọng để xây dựng thuật toản trích chọn Dựa vào những đặc diem nảy chủng ta sẽ xây dựng lên các luật để trích chọn cũng như làm tăng độ chính

xác của kết quả đạt được

3.3.1.1 Một số đặc điểm chính vẻ cú pháp của tên người trong văn bản Tiếng Việt

-_ Tên người trong Tiếng Việt thông thường là từ gồm 3 đến 4 âm tiết (cá biệt cỏ

4 hoặc 5 âm tiết), Ký tự đầu tiên của mỗi âm tiết được viết hoa

- C63 thành phân chỉnh được viết theo thứ tự

o Tén dém; cé the nhieu hon 1 am tiét (Thi, Van, )

3.3.1.1 Một số đặc điểm về ngữ cảnh của tên người trong văn bản Tiếng, Việt

~_ Trước tên người thông thường lả từ lảm tiền tỏ mô tả chức danh như: Giám đốc, công nhân, kỹ sư, tông thông hoặc các đại từ như ông, bà, anh, chi,

Ví dụ

Kỹ sư Nguyễn Văn Đại đã tốt nghiệp Đại học năm 2010

- Trong văn bản, thông thường tên người sẽ xuất hiện đây đủ ở phan đầu văn ban

(mang tính giới thiệu) Sau do sẽ xuất hiện tiếp ở các phân sau trong văn bản

nhưng thường là ở dạng rút gọn (dạng chỉ có tên chỉnh hoặc tên đệm + tên chính)

Vi dụ đoạn văn bản sau:

Giáo sư Nguyễn Lân Ding sinh ra trong gia đình thật đặc biệt Nhà ông có đến 8 người đều là giáo sư, phó giáo sư tiến sĩ, là con của cố giáo sư, nhà giáo

Trang 25

18

nhân dân Nguyễn Lân Người đi trước đìu đắt người đi sau, họ đã xây đắp nên hình mẫu của gia đình hiếu học, tài hoa, chuẩn mực

Giáo sư Lân Dũng kế ông rất vui vì được dân yêu Có lần ông đi nói chuyện

với sinh viên, các bạn trẻ nhất dink doi Chụp ảnh riêng với ông chứ không chụp

chung cả đoàn Đứng "làm mẫu" mãi vẫn chưa hết số người muốn chụp ảnh

cùng

Ở đoạn văn bản sau, tác giả sử dụng, “Giáo sư Lân Dũng” thay cho “Giáo sư Nguyễn Lân Dũng "

3.3.2 Một số trường hợp nhập nhằng

Một sỏ trường hợp nhập nhằng xảy ra làm giảm độ chính xác của kết quả thu

được Những trường hợp nhập nhằng thông thường là

~_ Nhằm với tên chỉ địa điểm như:

Đường Nguyễn Khánh Toàn, Thành Phố Hồ Chí Minh

Như vậy khi trích chọn cần phân biệt được khi nào thì Nguyễn Khánh Toàn, Hồ

Chính Minh là tên người khi nào là tên đường, tên thành phố

~_ Nhằm với tên tỏ chức, công ty,

Trang 26

trích chọn

3.3.3.1 Loại bỏ các thể html

Trong một trang web, không chỉ chứa nội dung trang web, còn chứa các thông tin

khác như dong quảng cáo, các đường liên kết đến hình ảnh, đền các trang web khác Tat cả các thông tin đỏ không phải đều có lợi cho hệ thống trích chọn Các thông tin

nay thường được đảnh dấu trong các thẻ html Việc cân làm là loại bỏ các thẻ hmtl, chỉ

giữa lại nội dung của các trang web.

Tiêu đề	Tự Động Trích Chọn Thực Thể Tên Người Trong Văn Bản Tiếng Việt
Tác giả	Đào Minh Quyen
Người hướng dẫn	TS. Nguyễn Trí Thành
Trường học	Đại Học Quốc Gia Hà Nội
Chuyên ngành	Hệ thống Thông Tin
Thể loại	Luận Văn Thạc Sĩ
Năm xuất bản	2011
Thành phố	Hà Nội

Định dạng
Số trang	52
Dung lượng	1,42 MB