Theo đó, các hệ thống trích chọn tên người lả bài toán co ban va có ý nghĩa trong việc xây dụng các hệ thông xử lý ngôn ngữ tự nhiên như xây đựng cáo ontology lam tién dé cho cac Semant
Trang 1ĐẠI HỌC QUOC GIA HA NOL TRUONG DAI HOC CONG NGHE
ĐÀO MINH QUYEN
TỰ ĐỘNG TRÍCH CHỌN THỰC THÊ TÊN NGƯỜI
TRONG VĂN BẢN TIẾNG VIỆT
LUẬN VĂN THẠC SĨ
Hà Nội - 2011
Trang 2TRUONG DAI HOC CONG NGHE
DAO MINH QUYEN
TU DONG TRICII CHON THY THE TEN NGUGI
TRONG VAN BAN TIENG VIỆT
Trang 3HƯƠNG 1 - GIỚI THIẾU
1.1 Trích chọn thông tin là gi?
1.2 Bài toán trích chọn thực thể têu người trong Tiếng Việt
CHƯƠNG 2 - HE THONG TRICH CHON THONG TIN
MOT SO NGHIEN CUU LIEN QUAN TRONG TIENG VIET
CHƯƠNG 4 THUC NGHIEM VA DANH GIA
4.1 Môi trường thực nghiệm
4.4.3, Thực nghiệm 33
4.5, Danh giá kết quã sessesseesuntsunsnnnssanssseeeessneessiesesenee Xe SỔ
Trang 4Tân liệu luan khảo
Phụ lục: Từ điển họ trong tiếng Việt |RÍ
39 40
Trang 5Danh mục các ký hiệu, chữ viết tắt
1E Information Extraction
CRFs | Condition Random Field
HMM | Llidden Markov Models
MEMM | Maximum Markov Models
PNE | Person Named Entity
Trang 6
11ình 1 Ví dụ vẻ một hệ thông trịch chọn thông tin [4] -
Tĩnh 2 Mô hình xây dựng hệ luật cho các hệ thông ID theo so hướng tiếp cận thủ công Tình 3 Mô hình xây dựng IE theo mô hình học rnáy
Tình 4 Quy trình tách rữ
Tình 5 Mô hình hoạt động của CRF 1 I
Tình 6 Mô hình hóa bài toán
Hình 7 Mô hình giải quyết bài tơán
Hinh § Mô hình hệ thông tự động trích chọn
Tình 9 Format file profix.xt
Tình 10 Mô hình thục hiện bước ] -
Tình 11 Sử dụng viTekenizer 4.1.1 để tách từ văn bản tiếng Việt
THnh 13 Văm bản trước khi Lach tir
Hình 13, Văn bân sau khi tách từ con nneenierirrriee
Hình 14 Văn ban dau vao
Hình 15, Văn bân đầu ra dã gan nhãn
Hinh 16 File danh sách lên người
Hình 17 Danh sách các preFix án nhe
Hình 18 Mô hình thực nghiệm với CRE
Hình 19 Huan leyén CRE - Tạo file model -
Hình 20 Format của fe testing đưa vào CRF++ toolkit
Hình 21 Thực hiện trích chọn với file test bằng CRE++ toolkit
Hình 22 Kết quả thử nghiệm với số lượng file raining khác nhau
Trang 7
Danh mục các bằng biểu
Bang 1 Sự khác biệt đặc điểm từ giữa tiếng Việt và Liếng Anh
Bang 2 Hãng các tham số huần luyện
Bảng 3 Bảng, các tham số của lệnh crf test
Bang 4 Câu hình của máy PC đúng trong thựe nghiệm
Bang 5 Các công cụ sử đụng trong thực nghiệm
Bảng 6 Các thư viện sử đụng trong thực nghiệm
Bang 7 Kết quả kiểm thử của hệ thông tự động trích chọn
Bang 8 Kết quả test với sẻ lượng file training khác nhau
Trang 8Xử lý ngôn ngữ tự nhiên từ lâu đã trở thành một bài toán quan trọng trong các ủng dụng công nghệ thông lin đặc biệt lá tìm kiếm, địch tự động, các hệ thống
Semantic Web, va tng dụng xứ lý ngôn ngữ tự nhiên cho Tiếng Việt cũng không
phải là ngoại lẻ
Ching bạn như đổi với bài toán tìm kiếm théng tin Cac Web Retrieval luén phái thực hiện dựa trên sự giới hạn của thông tin vào vả ra trong quả trinh tim kiếm Khi tìm kiếm người đùng thường đưa vào một số lượng nhỏ từ khỏa cần tim va két qua tim kiếm cũng cản kiểm tra và đưa ra một số lượng nhất định các từ phù hợp nhất Dầ giải
để này, việc tìm kiểm dựa trên các từ khóa lá chưa đủ Thực tế cho thầy các
thực thể ấn chứa trong đó cũng làm nổi bật cáo thông tin tìm kiểm Do đó, trích chọn
thực thể đã trở thành bải toán cơ bản nhất trong các bài toán trích chon théng tin
nhưng lại đóng vai trò quan trong trong việc quyết định hiệu quả tìm kiểm Một diéu
quyết về
để thây mữa lả hiện nay, thống kê tim kiểm cha thấy tìm kiếm theo tên người chiếm một tỷ lệ đáng kế Theo đó, các hệ thống trích chọn tên người lả bài toán co ban va có
ý nghĩa trong việc xây dụng các hệ thông xử lý ngôn ngữ tự nhiên như xây đựng cáo
ontology lam tién dé cho cac Semantic web ứng đụng trong hệ thông dịch tự động hay
tóm tắt văn băn,
To vậy việc xây đựng các giải thuật trích chọn các thực thể tên người từ web là
hài toán có ÿ nghĩa quan trọng Luận vần tập trung vào tìm hiển việc xây đựng một mô hình trích chọn thực thể tên người áp đụng cho Tiếng Việt
Câu trúc luận văn gồm 4 chương:
Chương 1: Giới thiệu một cách khải quát nhật bài toán trích chọn thực thể tên người trong Tiếng Việt Ý nghĩa của bải toán
Chương 23: Hướng tiếp cận trong tích chọn thông tin Một số nghiên cứu liên
quan trong xử lý văn bàn Tiếng Việt Đây sẽ là tiễn dé cho việc nghiên cửu để xây dựng mô hình giải quyết bài toàn
Chương 3: Dễ xuất mô hình giái quyết bài toán
Chương 4: Kết quả thực nghiệm của luậ
Trang 9CHIIƯƠNG 1- GIỚI TIIỆU
1.1 Trích chụn thông tin là gì?
Ngày nay, cùng với sự ứng dụng rộng rấi
ña công nghệ thông tín là lượng thông,
tin khống lồ mang tỉnh chât toàn cầu Lượng thông tin nảy ngày cảng lớn mạnh không,
ngừng và song song với nó là một thách thức được đặt ra đó là: làm thế nào đẻ sử đụng,
thông ti đỏ một cách hiệu quả nhật? Và như vậy, trong kho dữ liệu không lỗ đó, việc tìm ra thông tin cần thiết một cách nhanh chóng, chỉnh xác là cực kỳ quan trọng
Mặc dù chất lượng của các máy tìm kiếm đã được cái thiện nhưng kết quả hề về
chỉ là những tải liệu gó liên quan, chúng không dễ đăng gỉ rút ra được các mối quan hệ
c tuy vẫn phức tạp,
h giới" Người ta phân loại câu trả lời các truy vấn ở đạng: có phân tích các tài liệu liên
quan để tập hợp những thông tỉn cần thiết Nếu nhiều mỗi quan hệ như “Công ty À
liên doanh với công ty B” dược lưu trong các tải Hiệu thị nó tự động tổng hợp vá cầu trúc hỏa, điều nay rất tốt không chí cho các hệ thống truy vấn thông tin má còn cho các
hệ thống hỏi đáp tự động và tôm tắt văn bán J2o đó khai thác được những trí thức đó
sẽ mang lại nhiều thông tín bổ ích Đó là lĩnh vực mà “tich chon thong tin” nghién
tiêm ân và lạo dược các câu trả lời cho cá
Trích chọn thông lin (Information Extraction - TR) la cng vide trích rø các thông,
tin có cầu trúc từ các văn bản không có cấu trúc [4] Nói cách khác, một hệ thông trích chon théng tin nit ra những thông tin đã được định nghĩa trước vẻ các thựo thế và mỗi
quan hệ giữa cáo thực thể từ một văn ban dưới đạng ngôn ngữ tự nhiên và điển những
thông tin nảy vào một văn bản ghi dữ liệu cỏ câu trủc hoặc một dạng mẫu được định
nghĩa trước đó Không giống như hiểu toàn bộ văn bản, các hệ thống trích chọn thông tin chi od gang nhận biết một số thông (in dang quan tâm ở một lĩnh vực nao do
Trang 10
‘October 14, 2002, 4:00 a.m, PT
For years, Microsoft Corporation CEO Bilt
Gates railed against the economic
‘Sommunal licensing as a “cancer” that
Stifled technological innovation
Today, Microsoft claims to “love” the
‘open-source concept, by which software code is made public to encourage
programmers
‘Microsoft wil gladly đlaclose ies crown MAME TITLE ORGANIZATION
Jewels~the coveted code behind the
‘Neiedons goeraing spmeni-toeoieot sr ng
Richard Stallman founder Free Soft
"We can be opan source We love the concopt of shared source.” sald Bill
Veghte, a Microsoft VP “That's a super-
‘Important shift for us in terms of code
1.2 Bài toán trích chọn thực thể tên người trong Tiếng Việt
Trích chọn thực thể tên người là bước tiền xử lỷ trong rất nhiều hệ thông xử lý
ngôn ngữ tự nhiên Cụ thể như:
- Tém tắt văn bén: Tit mot van ban dai, may tinh tóm tắt thành văn bản ngắn hon
với những nội dung cơ bản nhất
~ Dịch tự động: Là việc dịch tự đông từ tiếng nảy sang tiếng khác, chăng hạn dịch
câu “Nguyên Tấn Dũng lả Thủ tướng nước Cộng hòa xã hội chủ nghĩa Việt Nam”
sang tiếng Anh Việc dịch nảy đòi hỏi máy không những phải hiểu đúng nghĩa câu tiếng Việt mà còn phải nhận biết được đâu là tên người đề giữ nguyên
-_ Tỳm kiểm thông tin trên mạng: Đày là lĩnh vực cỏ sự chia sẻ nhiều nhất giữa trí
tuệ nhân tạo vả Internet, và ngày càng trở nên hết sức quan trọng Sẽ sớm đến một ngày, mọi trí thức của con người được số hóa và đẻ lên mạng hay các thư viện số
cực lớn Thông kê cho thấy, các từ khóa lả tên người được đưa vảo tìm kiểm chiếm
tỷ lẻ khả lớn
-_ Hệ thống hỏi đáp: Giủp trả lời các cầu hỏi liên quan đến thực thẻ tên người như:
e Aila Chi tich tap doan Microsoft?
Trang 11-_ Web ngữ nghĩa: 'Trích chọn tên người là bước tiền xứ lý cho hệ thống xây dựng,
các otology - bước xây đựng dữ liệu cho các ứng dụng web ngữ nghĩa
Luận văn sẽ tập trung váo việc xây dựng hệ thông tự động trích chợn tên người trong văn bản tiếng Việt Kết quá của hệ thống sẽ rất có ích trong tiên xử lý dữ liệu của
các ứng dụng xử lý ngôn ngữ tự nhiên nói trên
Trang 12MOT SO NGHIEN CUU LIEN QUAN TRONG TIENG VIET
2.1 Các cách tiếp cận trích chọn thông tin
2.1.1 Hướng tiếp cận thủ công
Đặc diễm của việc xây dựng hệ thống trích chọn thông tin theo hưởng này là hệ thống luật dược xây dựng bằng tay hoan toàn phụ thuộc vào kinh nghiệm riêng của
từng người trong từng lĩnh vực của IB, các mẫu hay các luật dược tạo ra và dược kiểm
trên trí thúc chuyên giá (theo kinh nghiệm riêng của người xây đựng) Các luật mới
được sinh ra sau quá trình kiểm đuyệt đó để bổ sung cho tập luật củ Khững quy tắc được kiểm định nhiều lần nhằm đánh gia độ chính xác và từm ra những luật mới để bổ
Trang 136
2.1.2 Tướng tiếp cận xây dựng các mô hình học máy
Với hệ thống TE được xây dựng theo hướng tiếp cận dựa trên trí thức thì chủ
có thể "Iự học” Điều n giúp lâm giêm bói sự lam gia của các chuyên gia ngôn ngữ và làm tăng tính linh hoạt cho hệ thống Có rất nhiễu phương pháp học máy như
mô hình markov ẫn (Hidden Markov Models-HMM), các mồ hình Markov cực đại hóa
Entropy (Maximum Markov Models - MEMM) và mồ hình các trường ngẫu nhiên có điều kiện ( Conditicnal Random lields CRL)
Các đặc điểm phải kế đến của việc xây đựng hệ thông TE theo hướng hệ thống có thé tu do tao (aulomatic training approach) là không cần một người nào đó hiểu biết
vẻ cách hoạt động của hệ thông TE và viết luật cho nó như thẻ rảo Điệu cần thiết ở đây là một người nào đó biết được miễn ứng dung của nó và hiểu được những thông tin cần rút trích Một khi dữ liệu huấn luyện được chủ thích, thuật toán budn luyén
chạy và sinh ra những thông ti học dược hay côn gọi là model dễ phục vụ cho quá
trình trích chọn tự động sau này Mô hình với hướng tiếp cận này dược mỏ tá qua hình
3 như sau: Các thuật học sẽ dựa trên dữ liệu dễ tự học và thu được một model, đựa trên model nay no sé bích chọn các thông tin trên dữ liên mới
Thuật toán học
Dữ liệu Tuan
Model
Tình 3 Mô hình xây dựng IE theo mô hình học máy
Khi xây dựng hệ thống 1E theo hưởng nay phải tập trung vào việc tạo ra dữ liệu hudn luyện Hệ thống có thể tự học mà không cản sự can thiệp của bất kỷ các chuyên
viên nào Tuy vậy việc xây đựng và lưu trữ tập đữ liệu huấn luyện rất khó và
tệ thống só thể thực hiện tốt thủ yêu cầu đứ hiệu phải nhiều đô cũng là hệ quá d
việc khó sửa đổi Vì chỉ cân thêm hoặc xóa các thuộc tỉnh thả cần phải thay đổi trên
toàn tập huân luyện của nó
Trang 14Tủy vào công việc và những diễu kiệu đã có mà ta có thế xây dựng hệ thông IE
theo hướng cáo mổ hình học máy hoặc theo hướng Hiếp cận dựa tri thức Ví dụ như khi
nguễn văn bản và người viết luật đáp ứng được yêu câu thi nên xây đựng hệ thống IE theo hướng tiếp cân đựa trí thức, hoặc khi các mô tã về thông tin trích chọn luôn có sự thay đếi thì cũng lên lâm theo hướng thứ nhật Cỏn với đữ liêu lớn thi nên xây đựng hệ thống LI theo mé hinh hoc may
2.2 Một số nghiên cửu liên quan
2.2.1 Bài toán tách từ trong tiếng Việt và công cụ vnTokenizer
Bài toán
Cho một cầu tiếng Việt bắt kỷ, hãy tách câu đó thành những đơn vị từ vụng (1Ù), hoặc chỉ ra những âu tiết nảo không có trong tir điển (phát hiện đơn vị từ vựng tuổi)
Một số đặc diÊm uê cú pháp câu tạo từ trong tiếng Việt
Tách Lừ là một khó khăn chính trong việc phân loại văn bản đối với các ngôn ngữ
châu Á như tiếng Hoa, tiếng Nhật, tiếng Hàn va cả tiếng ViệL Mặc dù được viết bằng
các ký tụ La tỉnh mở rộng, tiếng, Việt cũng có những đặc tính chung với các ngồn ngữ phonographie Dồng Nam Ả khác như khó xác định danh giới giữ các từ và có cáo
điểm khác biệt về phonetic, van phạm và ngữ nghĩa so với các ngôn ngĩt Ân, Âu
Có một số đặc tỉnh chỉnh của từ trơng tiếng Việt như sau |T]
- _ Từ ở đạng nguyễn thể, hình thức và ý nghĩa của từ độc lập với cú pháp
~_ Từ được cấu trúc tù “tiếng” hay còn gọi là âm liết
- Từbao gồm từ đơn (từ mệt tiếng) vả từ phức (n - tiếng với n < 5), bao gồm từ
có nghữa, được phân cách bởi ký tự khoảng trắng trong câu” (Từ điển Webster)
Dưới đây là một số điểm khác biệt chính giữa tiếng Việt vả tiếng Anh
Tử loại Không 1õ ràng Dược định nghĩa rõ
Danh giới từ 'Tổ hợp cỏ nghĩa dựa vào Khoáng trắng hoặc diu cau
ngữ cảnh của các tiếng,
Bang 1 Sự khác biệt đặc điểm từ giữa tiếng Việt và Tiếng Anh
Trang 15Cho đến nay đã có khả nhiều nghiên cứu ứng dụng nhằm thực hiện việc tách từ trong tiếng Việt, Luận văn không đi sâu vào việc xây dựng module tách từ mả sẽ sử
dụng chương trình tách từ tự động Vntokenizer đề tách từ cho văn bản
Công cụ tie vnTokenizer
VnTokenizer là công cụ tách từ tiếng Việt được nhóm tác giả Nguyễn Thị Minh Huyền, Vũ Xuân Lương và Lê Hồng Phương phát triển dựa trên phương pháp so khớp
tối đa (Maximum Matching) với tập đữ liệu sử dụng là bảng âm tiết tiếng Việt và từ điển từ vụng tiếng Việt [7]
Công cụ được xây dựng bằng ngôn ngữ Java, mã nguồn mở Cỏ thẻ để đàng sửa đổi nâng cấp và tích hợp vảo các hệ thông phân tích văn bản tiếng Việt khác
Quy trình thực hiện tách từ theo phương pháp khớp tối đa được mô tả bởi hình 4
Trong quy trình nảy, tác giả sử dụng từ điển từ vựng tiếng Việt và được bổ sung qua
quá trình phân tách nhằm tăng độ chính xác
Chuỗi các đơn vị từ it
Hinh 4 Quy trinh tach tir
- Dau vao ctia céng cu tach tir vnTokenizer 1a mét cau ho%e mét van ban được
Tưu dưới dạng tệp
~_ Đâura là một chuỗi các đơn vị từ được tách
- Cac đơn vị từ bao gồm các từ trong từ điện cũng như các chuỗi só, chuối ki tir nước ngoài, các hình vị ràng buộc (gồm các phụ tô), các dâu câu và các chuối kí
tự hỗn tạp khác trong văn ban (ISO, 2008) Các đơn vị từ không chỉ bao gồm
các từ có trong từ điển, mả cả các từ mới hoặc các từ được sinh tự do theo một
quy tắc nảo đó (như phương thức thêm phụ tổ hay phương thức láy) hoặc các
chuối kí hiệu không được liệt kê trong từ điền
Công cụ sử dụng tập dữ liệu đi kèm là tập từ điển từ vựng tiếng Việt, danh sách các đơn vị từ mới bổ sung, được biểu diễn bằng ôtômat tối tiêu hữu hạn trạng thải, tếp
Trang 16chứa các biểu thức chính quy cho phép lọc cáo đơn vị từ đặc biệt (xâu dạng số, ngày tháng, ), và các tệp chứa các thống ké unigram va bigram trén kho van ban tach từ
mau
Với cáo đm vị từ đã có trong từ điển, khi thực hiện tách từ cũng được xử lý hiện tượng nhập nhằng bằng cách kết hợp với các thông ké unigram va bigram Ching
hạn trong tiếng Việt thường gặp các trường hợp nhập nhằng như:
- Xâu AT vừa có thể hiểu là 1 don vị từ, vừa có thể là chuối 2 đơn vị từ A-
- Xâu ABC có thế tách thành 2 đơn vị AB-U hoặc A-BC
Đảnh piả kết quê
Kết quã dánh giả của công cụ được cho la dn định dối với nhiều loại văn bản/
văn phong khác nhau Độ chỉnh xác trung bình đạt được là khoảng 949 |2]
2.2.2 Mé hinh hec may CRI và bộ công cụ cài đặt CRE++ fooikit
2.2.2.1 Mô hình CRF
CRIs duoc giới thiệu lần đâu vào năm 2001 bởi Lafferty và các đồng nghiệp Giống như MUMMs, CRI!s lá các mô bình dựa trên xác suất điều kiện, chúng có thể
tích hợp được các thuộc tinh da dang của chuối đữ Hệu quan sát nhằm hỗ trợ cho quá
trinh phân lớp [S] Tuy vậy, khác với MEMMs, CRIs là mô hình đồ thị vô hướng,
Điều này cho phép CREs có thể định nghĩa phân phổi xác suất của toàn bộ chuối trạng, thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong mé hinh
MEMMs Chính vì cách mô hình héa nhnr vậy, CRFs có thể giải quyết được hạn chế
của mô hình MEMMs như vân dé vé “label bias”
2.2.2.2 Công cụ CRI++ Tooildit
CRF ++ là một công cụ cải đặt mô hình CRF và được phân phổi dưới dạng mã
nguồn mỡ có thể dùng để phân đoạn vả gán nhấn dữ liệu tuần tự
CRF— được thiết kế cho cứng một mục dich phd dung có thể ứng dụng trong
những bài toán xử lý ngôn ngữ tự nhiên như nhận dang thue thé tén, trich chon thông
tín và đóng khung văn bản
Tê thống được hoạt động theo phương pháp học nửa giám sát [6] được thực hiện
gồm các bước sau (được mồ hình hóa bằng hình 5}
Bude 1: Tạo bộ dữ liệu huần luyện bẻ, Bước này dược thực hiện bằng tay
Bước 2: Sử dụng mô hình CRFs đề huận luyện trên tập dữ liệu rày
Bước 3: Tạo tập test và sử đựng CREs để gán nhãn
Trang 17Hình 5 Mô hình hoạt dộng của CRE++
2.2.2.2.2 Tính năng
- Có thể định nghĩa lại các tính năng đã có, ta có thế tủy biến đề thêm các đắc
trưng mới phủ hợp với bài toán cụ thể
- Viết bằng C+—, là phần mêm mã nguồn mớ
- Bộ nhớ nhỏ sử đụng trong c kiểm tra và phân tích
~ Có thể đưa ra xáu suất lề cho tất cả những đầu vào
2.2.2.2.3 Cài đặt và cách sử dụng
Cải đặt
®_ Chuyển vào thư mục chứa công cụ CRF! |
> Dung lênh chmod 777 /configure
> make clean && make
File dink dang hudn luyén và test
Trang 18có 1 định dang riêng sủa CRE++ dễ nó có thể làm việc được Thông thường lile huấn huyện và file kiểm tra chửa dựng rất nhiều tử tố Mỗi từ tố phải viết trên một dòng, Ngoài từ tổ ra còn có các cột chửa các thông tin khác dùng đẻ mô tả từ tổ chẳng bạn
như là từ loại của từ tô vả cột cuối cùng chứa nhãn của từ tố Đẻ định nghĩa từ tổ phụ thuộc vào từng công việc, trong, hầu hết các trường hợp diễn hình thí chúng là các từ Mỗi một từ tổ ở một đóng, các cột được phân chia bởi các khoảng trắng, Trinh tự các
từ tổ tạo thành một câu Một dòng trắng dễ phân biệt giữa các cấu
Dưới đây là một ví dụ về file huần luyện Với cột thử nhật là bản thân từ đó, cột
thứ hai là từ loại và cột cuối cùng lả nhân cân gản
‘Template type
File nay mô tả những đặc trưng sẽ sử dụng khí huấn luyện và kiểm tra Mỗi một
động trong lrong file template chi ra mdi template, mdi mdt ieruplale có dạng như san
%4x[røw,eaf] dùng, đễ định nghĩa một từ trong đữ liệu đầu vào
Trang 1912
Tilk template dược xây dựng tùy vào từng bài toán cụ thể và tủy vào ñile huấn
huyện vả file kiểm tra Vị dụ với dữ liệu đầu vào như sau thi file teraplate sẽ dược xây
dung như sau:
Dữ liệu đầu vào
‘Voi loại này khi đưa 1 template CRF ++ sé ti động tạo ra các hảm dặc trưng
funcl = if (output = B-DT and feature="U01:DT") return } else return 0
func? ~ if foutput — L-DT and feature—"U0L:DT") return 1 else return 0
func3 = if (output = O and feature="U01-PT") return } else return 0
Số lượng hàm tạo ra bởi một template lả ( L * N)
L : số lượng output
M: số lượng chuối đuy nhất được md réng tr template dược chỉ ra
« Bigram template
Với template này ,sự liên kết giữa từ tổ hiện tại (curent token) và từ tổ trước dé
(previous output token) được tự động tạo ra
Trang 20Với loại này tạo ra (L *L *N) CN là số lượng các đặc trưng riêng biệt dược tạo ra)
dặc trưng khác nhau đo vậy có thể không hiệu quả trong huấn luyện và kiểm tra
em tra
2.2.2.2.4 Huấn luyện và
Sau khi chuẩn bị toán bộ các file train, file tes(, Ble template ta tiến hành huấn
luyện và tcst như sau
» Tuấn luyện (training)
Dễ huần luyện các file ta sử dụng lệnh erƒ learn với củ pháp sau:
°% crf learn template_file train_file model_file
6 ds:
Lệnh erf_learn tao ra m6 hinh hun luyén trong file model_file
Kết quả của lệnh crf Jearn:
iter: Số lượng lặp được xử lý
lối đổi với cáo thể ( được tính bằng số lượng thẻ lỗi tổng số thẻ )
sơm: Tỷ lệ lỗi đối với câu ( được tính bằng số cầu lỗi “ống số câu )
obj: Gia tri cia đối tượng hiện tại Khi giá trị này hội tụ tại một điểm có định
CRI — dimg lip
Tham số Giá trị mặc định Ýnghĩa
-a CRT-L2 CRT-L2 Tham số này dùng đề thay đổi thuật toán mặc
hiện tắt hơn không đáng kế so với LI, trong khi số lường các đặc tính L1 là nhỏ hem một
-fFNUM 1 Chí có các thuộc tính cô tân suất xuất hiện lớn
hơn giả trị này thì mới được tích hợp vào mô hình CRE
Trang 21
14
việc huản luyện nhanh hơn bằng cách sử dụng
đa luỗng NUM là số lượng các liỏng
Bảng 2 Bảng các tham số huấn luyện
> Kiểm tra (testing)
Để kiểm tra đữ liệu sau khi huấn luyện sử dụng lệnh erf fesf với củ pháp như
sau:
% crf_test -m model_file test_files
Model file 1a file do orf learn tao ra Trong khi test kh6ng cdn tạo ra
template file bdi vi model file od théng tin pidng nkur file template
‘Test_file la kiém tra dữ liệu bạn muốn gản thẻ theo trình tự File này có định dạng giống như file tranine được xảy dựng ở trên
-vievel |0 Tuy chon nay dưa ra một số thông tin chỉ tiết
từ CRE+tbäng cách tăng cấp độ của level
N best Pua ra N kết qua được sấp xếp theo xắc suất
ouput điều kiện của CRE ¡ I
qúa trình trích chọn.
Trang 22CHƯƠNG 3~ GIẢI QUYẾT BÀI TOÁN
Trên cơ sở tìm hiểu những hướng tiếp cận trên đây luận văn đã lựa chọn phương,
pháp học giám sát nhẹ đề giải quyết bài toán Trong chương nảy luận văn trình bảy phương pháp trích chọn thực thể tên người áp dụng cho Tieng Việt với những nghiên
cứu đề thực hiện theo những đặc trưng ngôn ngữ
3.1 Mô tả bải toán
Cho một tập văn bản Tiếng Việt, bải toán đặt ra là cản trích chọn trong tập văn bản đỏ danh sách tên người
© Đầuvào
Tập văn bản Tiếng Việt
© Đâầura
Danh sách tên người
Hình 6 mô hình hóa bải toán Đầu vào lả văn bản tiếng Việt Hệ thông có nhiệm vụ trích chọn thực thể tên người từ văn bản tiếng Việt đó Đầu ra của hệ thông lả danh sách tên người trích chọn được vả văn bản gản nhãn
Tiếp theo đó là vi dụ với 1 câu văn bản tiếng Việt Hệ thông can cho ra kết quả là
câu văn bản đã được tách từng từ và đánh dầu từ nảo là tên người
*ˆ Danh sách tên người
Trích chon th * Van ban gan nhan:
oe So tên người
Thủ tưởng Nguyễn Tắn Dũng đến thăm và làm việc tại tỉnh Hà Giang
Thủ tướng / Nguyễn Tắn Dũng / đến thảm / và / làm việc / tại / tỉnh / Hà Giang
xá
° 7 P / O /0 O/0/0/ O
Hình 6 Mô hình hóa bài toán
3.2 Mô hình giải quyết bài toán
Dựa vào đặc điểm về chữ việt, văn phong của các thực thể tên người trong Tiếng 'Việt, luận văn đề xuất phương pháp trích chọn bao gồm các bước cơ bản sau
Trang 2316
Bước 1 Tiên xử lý đối với các văn bản đầu vào
Bude nay bao gồm các thao tác làm sạch & tách câu, tách từ trong văn bản
Bước 2 Tự động trích chọn
Sử dụng thuật toán trích chọn bán giảm sát đề thực hiện trích chọn Sau bước nảy, hệ thong sẽ cho ra kết quả bao gồm
~_ Danh sách tên người tìm thấy
~_ Danh sách prelx (từ đứng trước tên người ví dụ Ông, bà, đỏng chỉ, ) Danh sach prefix rat quan trọng trong việc làm tăng độ chính xác của thuật toán trích chọn
~_ Tập văn bản gán nhãn tương ửng với tập văn bản vảo Tuy nhiên các văn bản gắn nhãn được thể hiện gồm 2 cột:
Sử dụng mô hình CRE & chương trình cài đặt CRE toolkit ++ đẻ thực hiện đánh giá
kết quả trích chọn tử bước trên
Chỉ tiết của từng bước thực hiện sẽ được mô tả chỉ tiết trong những phân sau
Hình 7 lả mô hình giải quyết bai toán theo những bước mô tả ở trên
Trang 243.3 Mô tả chỉ tiết hệ thống trích chọn
3.3.1 Một số đặc điểm về cú pháp và ngữ cảnh của tên người trong văn bản Tiếng Việt
Những đặc điểm vẻ củ pháp và ngữ cảnh thẻ hiện của tên người trong Tiếng Việt
là những yếu tô quan trọng để xây dựng thuật toản trích chọn Dựa vào những đặc diem nảy chủng ta sẽ xây dựng lên các luật để trích chọn cũng như làm tăng độ chính
xác của kết quả đạt được
3.3.1.1 Một số đặc điểm chính vẻ cú pháp của tên người trong văn bản Tiếng Việt
-_ Tên người trong Tiếng Việt thông thường là từ gồm 3 đến 4 âm tiết (cá biệt cỏ
4 hoặc 5 âm tiết), Ký tự đầu tiên của mỗi âm tiết được viết hoa
- C63 thành phân chỉnh được viết theo thứ tự
© Ho (Nguyén, Tran, Pham, )
o Tén dém; cé the nhieu hon 1 am tiét (Thi, Van, )
© Ténchinh (Mai, Huong, .)
3.3.1.1 Một số đặc điểm về ngữ cảnh của tên người trong văn bản Tiếng, Việt
~_ Trước tên người thông thường lả từ lảm tiền tỏ mô tả chức danh như: Giám đốc, công nhân, kỹ sư, tông thông hoặc các đại từ như ông, bà, anh, chi,
Ví dụ
Kỹ sư Nguyễn Văn Đại đã tốt nghiệp Đại học năm 2010
- Trong văn bản, thông thường tên người sẽ xuất hiện đây đủ ở phan đầu văn ban
(mang tính giới thiệu) Sau do sẽ xuất hiện tiếp ở các phân sau trong văn bản
nhưng thường là ở dạng rút gọn (dạng chỉ có tên chỉnh hoặc tên đệm + tên chính)
Vi dụ đoạn văn bản sau:
Giáo sư Nguyễn Lân Ding sinh ra trong gia đình thật đặc biệt Nhà ông có đến 8 người đều là giáo sư, phó giáo sư tiến sĩ, là con của cố giáo sư, nhà giáo
Trang 2518
nhân dân Nguyễn Lân Người đi trước đìu đắt người đi sau, họ đã xây đắp nên hình mẫu của gia đình hiếu học, tài hoa, chuẩn mực
Giáo sư Lân Dũng kế ông rất vui vì được dân yêu Có lần ông đi nói chuyện
với sinh viên, các bạn trẻ nhất dink doi Chụp ảnh riêng với ông chứ không chụp
chung cả đoàn Đứng "làm mẫu" mãi vẫn chưa hết số người muốn chụp ảnh
cùng
Ở đoạn văn bản sau, tác giả sử dụng, “Giáo sư Lân Dũng” thay cho “Giáo sư Nguyễn Lân Dũng "
3.3.2 Một số trường hợp nhập nhằng
Một sỏ trường hợp nhập nhằng xảy ra làm giảm độ chính xác của kết quả thu
được Những trường hợp nhập nhằng thông thường là
~_ Nhằm với tên chỉ địa điểm như:
Đường Nguyễn Khánh Toàn, Thành Phố Hồ Chí Minh
Như vậy khi trích chọn cần phân biệt được khi nào thì Nguyễn Khánh Toàn, Hồ
Chính Minh là tên người khi nào là tên đường, tên thành phố
~_ Nhằm với tên tỏ chức, công ty,
Trang 26trích chọn
3.3.3.1 Loại bỏ các thể html
Trong một trang web, không chỉ chứa nội dung trang web, còn chứa các thông tin
khác như dong quảng cáo, các đường liên kết đến hình ảnh, đền các trang web khác Tat cả các thông tin đỏ không phải đều có lợi cho hệ thống trích chọn Các thông tin
nay thường được đảnh dấu trong các thẻ html Việc cân làm là loại bỏ các thẻ hmtl, chỉ
giữa lại nội dung của các trang web.