1. Trang chủ
  2. » Công Nghệ Thông Tin

Trích rút thông tin từ hồ sơ nghiệp vụ công an nhân dân

58 269 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 58
Dung lượng 2,22 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung của luận văn trình bày bài toán cần được giải quyết, các thách thức và một số hướng tiếp cận giải quyết bài toán.Thông qua phân tích và tìm hiểu các cách tiếp cận đã có như: hướ

Trang 1

LỜI CAM ĐOAN

Họ và tên học viên: Đinh Văn Việt SHHV: CB121363

Chuyên ngành: Công nghệ thông tin Lớp: CH2012B

Người hướng dẫn: PGS.TS Lê Thanh Hương

Đơn vị: Viện Công nghệ Thông tin - Truyền thông

Tên đề tài luận văn: Trích rút thông tin từ Hồ sơ nghiệp vụ Công an nhân dân

Tôi – Đinh Văn Việt - Cam kết Luận văn là công trình nghiên cứu của bản thân tôi dưới sự hướng dẫn của PGS.TS Lê Thanh Hương

Các kết quả nêu trong luận văn là trung thực, không phải là sao chép toàn văn của bất kỳ công trình nào khác

Hà Nội, ngày 15 tháng 8 năm 2014

Tác giả Luận văn

Đinh Văn Việt

Trang 2

LỜI CẢM ƠN

Lời đầu tiên, tôi xin được gửi lời cảm ơn chân thành tới các thầy cô giáo thuộc Viện Công nghệ Thông tin và Truyền thông trường Đại học Bách Khoa Hà Nội, những người đã tận tình chỉ dạy tất cả kiến thức chuyên ngành cho tôi trong suốt quá trình học tập và nghiên cứu tại trường

Trong quá trình thực hiện Luận văn tốt nghiệp tôi đã học hỏi được thêm rất nhiều điều, đó cũng là cơ hội để cá nhân tôi tổng kết những kiến thức đã được học, đồng thời rút ra những kinh nghiệm quý báu Tôi xin chân thành cảm ơn những hướng dẫn tận tình của cô giáo, PGS TS Lê Thanh Hương - Bộ môn Hệ thống thông tin – Viện Công Nghệ Thông Tin và Truyền Thông - Trường Đại học Bách Khoa Hà Nội Luận văn được hoàn thành ở một mức độ nhất định Bên cạnh những kết quả đã đạt được, chắc chắn tôi sẽ không tránh khỏi những thiếu sót và hạn chế Sự phê bình, nhận xét của thầy cô là những bài học quý báu cho công việc và nghiên cứu của tôi sau này

Tôi cũng xin được gửi lời cảm ơn sâu sắc đến người thân trong gia đình, bạn bè và các học viên cùng khóa Cao học 2012B đã luôn ở bên cạnh, ủng hộ, động viên tinh thần cho tôi trong suốt quá trình học tập và thực hiện luận văn Một lần nữa xin kính chúc quý thầy cô mạnh khỏe, hạnh phúc, tiếp tục đạt được nhiều thành công trong nghiên cứu khoa học cũng như trong sự nghiệp trồng người

Hà Nội, ngày 15 tháng 8 năm 2014

HỌC VIÊN THỰC HIỆN

Đinh Văn Việt

Trang 3

TÓM TẮT NỘI DUNG LUẬN VĂN

Đối với công tác quản lý và lưu trữ hồ sơ nghiệp vụ Công an nhân dân hiện nay việc tìm kiếm chỉ dừng lại ở các đối tượng chính của các vụ án, tuy nhiên các đối tượng có liên quan hoặc xuất hiện trong hồ sơ nghiệp vụ Công an nhân dân có thể là đầu mối hỗ trợ cho công tác trinh sát, điều tra và khám phá vụ án Nhận thức được tầm quan trọng của vấn đề này, luận văn tập trung nghiên cứu và tìm hiểu các hướng tiếp cận nhằm nhận dạng và trích xuất các thực thể và các thông tin có liên quan trong hồ sơ nghiệp vụ

Công an nhân dân

Nhận dạng tên thực thể là một bài toán đã và đang nhận được sự quan tâm đặc biệt của cộng đồng nghiên cứu về xử lý ngôn ngữ tự nhiên cũng như khai phá dữ liệu tiếng Anh cũng như tiếng Việt Mục tiêu chính của bài toán nhằm tìm kiếm và phân loại các thực thể xuất hiện trong các văn bản

Nội dung của luận văn trình bày bài toán cần được giải quyết, các thách thức và một

số hướng tiếp cận giải quyết bài toán.Thông qua phân tích và tìm hiểu các cách tiếp cận

đã có như: hướng tiếp cận dựa vào luật, từ điển, học máy và một vài công trình liên quan, luận văn trình bày một mô hình kết hợp cả ba hướng tiếp cận, kết quả thực nghiệm tiến hành trên tập dữ liệu được xây dựng thủ công từ các văn bản từ hồ sơ

nghiệp vụ Công an nhân dân đạt kết quả tại độ đo F1 = 87, 24%

Trang 4

ABSTRACT OF THE THESIS

Extraction named entity is a problem of finding, classification of the entities be lied

in the documents This problem has been receiving a special attention from the research community be applied to the English and Vietnamese documents

Currently, finding can only extract the main object information but the objects which associate or appear the document in the cases can be the clues to support the later works For this reason, the thesis focuses on researching the approaches of recoginition and extraction named entities andrelationship in the professional documents People's Police

The content of this thesis focuses on presenting some problems, analysising the approaches such as: rules-based, dictionary-based, learning-machine method and some research works Finally, the thesis builds a model which associates three approaches The experimental results conducted by thesis on datasets from the professional

documents People's Police with F 1 -score = 87.24%

Trang 5

Contents

LỜI CAM ĐOAN 1

LỜI CẢM ƠN 2

TÓM TẮT NỘI DUNG LUẬN VĂN 3

ABSTRACT OF THE THESIS 4

MỤC LỤC 5

DANH MỤC BẢNG VÀ HÌNH VẼ 7

THUẬT NGỮ VÀ CÁC TỪ VIẾT TẮT 8

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI LUẬN VĂN 9

1.1 Giới thiệu đề tài 9

1.2 Mục tiêu và giải pháp 9

1.2.1 Mục tiêu 9

1.2.2 Nội dung và các vấn đề cần giải quyết 9

1.3 Nội dung luận văn 10

1.4 Kết luận 11

CHƯƠNG 2 BÀI TOÁN NHẬN DẠNGTHỰC THỂ TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN 12 2.1 Giới thiệu về cấu trúc hồ sơ nghiệp vụ Công an nhân dân 12

2.2 Các vấn đề thuận lợi và khó khăn trong việc số hóa thông tin từ các văn bản hồ sơ nghiệp vụ Công an nhân dân 15

2.3 Giới thiệu về trích rút thông tin trong văn bản 16

2.4 Bài toán trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân dân 19

2.5 Bài toán nhận dạng thực thể 22

2.6 Các vấn đề của bài toán nhận dạng thực thể 23

CHƯƠNG 3 MỘT SỐ HƯỚNG TIẾP CẬN GIẢI QUYẾT BÀI TOÁN NHẬN DẠNG THỰC THỂ 26 3.1 Hướng tiếp cận dựa trên luật (Rule-based) 26

3.2 Hướng tiếp cận dựa trên từ điển (Dictionary-based) 28

3.3 Hướng tiếp cận dựa trên các phương pháp học máy (Machine-learning) 28

3.4 Mô hình Markov ẩn (Hidden Markov Model - HMM) 30

3.5 Phương pháp trường điều kiện ngẫu nhiên (CRF) 33

3.6 Các công trình liên quan nhận dạng thực thể tiếng Việt 34

CHƯƠNG 4 MÔ HÌNH NHẬN DẠNG THỰC THỂ TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN 38 4.1 Mô hình nhận dạng thực thể tiếng Việt 38

4.2 Tiền xử lý dữ liệu 39

Trang 6

4.3 Thành phần nhận dạng bằng luật 40

4.4 Thành phần nhận dạng bằng từ điển 40

4.5 Thành phần nhận dạng bằng học máy 41

4.6 Pha kết hợp kết quả 43

4.7 Các phương pháp đánh giá mô hình nhận dạng thực thể 44

CHƯƠNG 5 THỰC NGHIỆM VÀ ĐÁNH GIÁ 45

5.1 Môi trường và công cụ thực nghiệm 45

5.1.1 Môi trường thực nghiệm 45

5.1.2 Công cụ thực nghiệm 45

5.2 Dữ liệu thực nghiệm 45

5.2.1 Dữ liệu huấn luyện 45

5.2.2 Dữ liệu đánh giá 46

5.3 Kết quả thực nghiệm và Công an nhân dân 47

5.3.1 Kết quả thực nghiệm đánh giá trên từng thành phần nhận dạng 47

5.3.2 Kết quả thực nghiệm sử dụng mô hình kết hợp 49

5.3.3 Kết quả thực nghiệm kiểm thử chéo với chính tập dữ liệu đánh giá 49

5.3.4 Giao diện chương trình Công an nhân dân 51

KẾT LUẬN 53

TÀI LIỆU THAM KHẢO 55

Trang 7

DANH MỤC BẢNG VÀ HÌNH VẼ

ảng 2.1: Một số loại thực thể trong văn bản tiếng Việt 22

ảng 4.1: ảng mô tả một ví dụ tách câu 39

ảng 4.2: ảng mô tả một ví dụ tách từ 39

ảng 5.1: Môi trường thực nghiệm 45

ảng 5.2: Thống kê dữ liệu tập NCT 46

ảng 5.3: So sánh dữ liệu tập NCT và tập DG 46

ảng 5.4: Kết quả đánh giá trên từng thành phần nhận dạng 48

ảng 5.5: Kết quả đánh giá trên mô hình kết hợp 49

ảng 5.6: Kết quả kiểm thử chéo đối với tập dữ liệu DG 50

Hình 2.1 Hình minh họa một hệ thống trích rút thông tin 18

Hình 3.1: Một ví dụ mô hình HMM gồm 3 trạng thái 31

Hình 3.2: Đồ thị mô tả mô hình HMM 32

Hình 3.3: Một ví dụ cụ thể áp dụng mô hình HMM vào bài toán NER 33

Hình 3.4: Một ví dụ cụ thể áp dụng mô hình CRF vào bài toán NER 34

Hình 4.1: Mô hình nhận dạng thực thể tiếng Việt 38

Hình 5.1: Kết quả thực nghiệm và đánh giá nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân 47

Hình 5.2: Kết quả đầu ra của chương trình 51

Trang 8

NER Named Entity Recognition

SVM Support Vector Machine

CRF Conditional Random Fields

Trang 9

CHƯƠNG 1 GIỚI THIỆU ĐỀ TÀI LUẬN VĂN

1.1 Giới thiệu đề tài

Trong những năm gần đây, bài toán trích rút thông tin trong các tài liệu tiếng Việt (Information Extraction for Vietnamese) nổi lên như là một vấn đề thách thức thuộc lĩnh vực xử lý ngôn ngữ tự nhiên của con người khi có sự kết hợp giữa việc phân loại văn bản theo cấu trúc của các nhà ngôn ngữ với kỹ thuật xử lý ngôn ngữ tự nhiên của công nghệ thông tin

Nhận dạng thực thể là một bài toán con, đồng thời là bài toán đơn giản nhất của bài toán trích rút thông tin, nhằm hướng tới nhận dạng chính xác và đầy đủ tên các thực thể xuất hiện trong các văn bản, hồ sơ tài liệu liên quan nhằm giúp quá trình tìm kiếm các thông tin có giá trị ẩn giấu sau các hồ sơ tài liệu một cách nhanh chóng và đạt hiệu quả cao

Bởi tầm quan trọng của việc nhận dạng thực thể trong các tài liệu văn bản tiếng Việt

mà nó đã được nhiều nhà nghiên cứu khoa học tìm hiểu khá lâu và thực tế có khá nhiều các công cụ sẵn có để hỗ trợ như các từ điển, các kho ngữ liệu, các thuật toán

hiệu quả Trong phạm vi của đề tài luận văn “Trích rút thông tin từ hồ sơ nghiệp vụ

Công an nhân dân”, luận văn hướng tới sử dụng những công cụ sẵn có để hỗ trợ việc

giải quyết bài toán trên Cụ thể, luận văn sử dụng phương pháp học máy đang sử dụng khá phổ biến và chứng minh được tính hiệu quả của nó cũng như sử dụng các tập từ điển, các kho ngữ liệu hữu ích và lựa chọn các đặc trưng có lợi cho giải quyết bài toán

1.2 Mục tiêu và giải pháp

1.2.1 Mục tiêu

Nghiên cứu và nắm rõ các khái niệm cơ bản về thực thể, bài toán nhận dạng thực thể trong các tài liệu văn bản tiếng Việt, các hướng tiếp cận, cũng như áp dụng các mô hình, phương pháp vào bài toán trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân

dân, đó là nhận dạng: người, thời gian, địa điểm và vụ việc

1.2.2 Nội dung và các vấn đề cần giải quyết

- Nghiên cứu, tìm hiểu các kiến thức liên quan về các loại thực thể, bài toán nhận dạng, nhận dạng tên thực thể có sẵn

Trang 10

- Đọc, hiểu, nắm rõ các hướng tiếp cận truyền thống sử dụng luật, từ điển

và hướng tiếp cận sử dụng các phương pháp học máy

- Áp dụng các hướng tiếp cận vào bài toán nhằm nhận dạng ra được nhiều thực thể đáng quan tâm

1.3 Nội dung luận văn

Các phương pháp tiếp cận ban đầu chủ yếu dựa trên các phương pháp tiếp cận kinh nghiệm Cho tới nay có rất nhiều phương pháp tiếp cận khác nhau đã được đề xuất để giải quyết bài toán chung là nhận dạng thực thể trong văn bản tiếng Việt lẫn các tài liệu tiếng Anh Luận văn này giới thiệu 3 (ba) hướng tiếp cận giải quyết điển hình:

dựa vào luật, dựa vào từ điển và dựa vào phương pháp học máy Những công trình

này mang tính ứng dụng cao, đang ngày càng được cải tiến cho hiệu quả tốt hơn Dựa trên những hướng tiếp cận này, luận văn đề xuất một mô hình nhằm giải quyết bài toán nhận dạng các thông tin từ hồ sơ nghiệp vụ Công an nhân dân Kết quả thực nghiệm bước đầu cho thấy mô hình phù hợp và cho kết quả khả quan: độ đo F1 đạt

khoảng 87,24% Các kết quả này khá khả quan, thể hiện được ưu điểm của mô hình đề

xuất

Luận văn chia làm 5 chương, nội dung gồm có:

 Chương I Giới thiệu đề tài luận văn

Chương này nhằm giới thiệu nội dung của luận văn, mục tiêu và giải pháp cho luận văn

 Chương II Bài toán nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân

Giới thiệu các khái niệm cơ bản về bài toán nhận diện thực thể từ hồ sơ nghiệp vụ Công an nhân dân, các khó khăn, thách thức trong quá trình số hóa thông tin từ các

văn bản, tài liệu có trong hồ sơ nghiệp vụ Công an nhân dân

 Chương III Một số hướng tiếp cận giải quyết bài toán nhận dạng thực thể

Đưa ra bài toán tổng quan về việc nhận dạng thực thể trong các tài liệu tiếng Việt Trong phần này, luận văn cũng tập trung nghiên cứu và tìm hiểu các hướng tiếp cận đang được cộng đồng xử lý ngôn ngữ tự nhiên quan tâm và tin dùng

 Chương IV Mô hình nhận dạng thực thể từ hồ sơ nghiệp vụ Công an nhân dân

Trang 11

Trên cơ sở những hướng tiếp cận trình bày ở Chương 3 và thông qua khảo sát miền

dữ liệu là văn bản trong hồ sơ nghiệp vụ Công an nhân dân, luận văn đã lựa chọn phương pháp dựa vào luật, sử dụng bộ từ điển và phương pháp học máy mô hình Markov ẩn và mô hình học máy CRF để giải quyết bài toán

Tiến hành thực nghiệm nhận dạng thực thể và nhận dạng các thông tin trong các tập dữ liệu đầu vào được thu thập thủ công

 Chương V Thực nghiệm và đánh giá

Tóm lược những kết quả đạt được của luận văn, đồng thời đưa ra những hạn chế, những điểm cần khắc phục và đưa ra định hướng nghiên cứu trong thời gian sắp tới

1.4 Kết luận

Chương I đã đưa ra được nội dung đề tài luận văn cũng như cái nhìn chung cho hướng triển khai của luận văn, giúp người đọc dễ theo dõi và nắm bắt vấn đề Các chương sau sẽ đi vào phân tích cụ thể về lý thuyết và cách triển khai để giải quyết bài toán nhận dạng thực thể, đó là người, địa điểm, thời gian và vụ việc có trong tài liệu từ

Hồ sơ nghiệp vụ Công an nhân dân

Trang 12

CHƯƠNG 2 BÀI TOÁN NHẬN DẠNG THỰC THỂ

TỪ HỒ SƠ NGHIỆP VỤ CÔNG AN NHÂN DÂN

2.1 Giới thiệu về cấu trúc hồ sơ nghiệp vụ Công an nhân dân

Trải qua quá trình phát triển lâu dài của lịch sử, cùng với sự phát triển của xã hội loài người Tài liệu được hình thành và phát triển từ thô sơ như thể hiện trên vỏ cây, mảnh xương, da thú và phát triển đến văn bản viết trên giấy, chụp trên phim ảnh và ngày nay được ghi trên các công cụ hiện đại như đĩa từ, đĩa quang Với chức năng là công cụ, phương tiện bảo vệ quyền lợi của giai cấp thống trị, đấu tranh chống lại các giai cấp khác trong xã hội Vì vậy, tài liệu chỉ được hình thành từ khi xã hội xuất hiện giai cấp và nhà nước Nhờ có tài liệu và các ngành khoa học xã hội như: Lưu trữ học,

sử học, bảo tồn, bảo tàng đã giúp cho chúng ta nghiên cứu, biết được lịch sử hình thành và phát triển của loài người như ngày nay

2.1.1 Định nghĩa và khái niệm

Khoa học lưu trữ định nghĩa: “Hồ sơ là một tập công văn, tài liệu có mối liên hệ

với nhau về một sự việc, một vấn đề (hoặc một người) hình thành trong quá trình giải quyết công việc và được tập trung bảo quản theo thứ tự, khoa học, được bảo quản nghiên cứu, sử dụng (trong một bìa hay một cặp)” Hiện nay, khái niệm hồ sơ

cũng được dùng để chỉ một tập văn bản kết hợp với nhau theo đặc điểm hình thành như: Tập biên bản, tập chỉ thị Một hồ sơ có thể dầy hay mỏng tuỳ theo số lượng công văn giấy tờ hình thành trong quá trình giải quyết công việc nhiều hay ít Hồ sơ dầy có thể chia thành nhiều tập

Tóm lại, hồ sơ là một tập hợp các tài liệu có mối liên hệ với nhau phản ánh về một con người, một vấn đề, một sự việc Tài liệu trong hồ sơ phải được sắp xếp theo phương pháp khoa học nhằm phục vụ cho yêu cầu nghiên cứu, sử dụng trong hoạt động thực tiễn của cơ quan, tổ chức và phải được bảo quản trong một bìa hay một cặp

Hồ sơ có thể dầy, mỏng khác nhau tuỳ theo số lượng tài liệu hình thành trong quá trình giải quyết công việc, hồ sơ dầy có thể chia thành nhiều tập

Luật Lưu trữ năm 2013 đã nêu khái niệm: Hồ sơ là một tập tài liệu có liên quan với nhau về một vấn đề, một sự việc, một đối tượng cụ thể hoặc có đặc điểm chung, hình thành trong quá trình theo dõi, giải quyết công việc thuộc phạm vi chức năng, nhiệm

vụ của cơ quan, tổ chức, cá nhân Lập hồ sơ là việc tập hợp, sắp xếp tài liệu hình thành

Trang 13

quá trình theo dõi, giải quyết công việc của cơ quan, tổ chức, cá nhân thành hồ sơ theo những nguyên tắc và phương pháp nhất định

Trên cơ sở định nghĩa, khái niệm về hồ sơ của lưu trữ học, Bộ Công an đưa ra khái

niệm hồ sơ nghiệp vụ Công an nhân dân (CAND): “Hồ sơ nghiệp vụ CAND là một

tập hợp tài liệu liên quan với nhau về người, vụ việc, đối tượng, địa bàn, chuyên

đề nghiệp vụ hình thành trong công tác phòng, chống tội phạm và quản lý nhà nước về an ninh chính trị, bảo đảm trật tự an toàn xã hội, được tổ chức đăng ký, quản lý theo quy định của pháp luật”

Từ định nghĩa trên, ta thấy hồ sơ nghiệp vụ CAND có các đặc trưng: (1) Hồ sơ nghiệp vụ CAND là một tập hợp các tài liệu, văn kiện có mối liên hệ với nhau phản ánh về một người, một vụ việc, một địa bàn hoặc một chuyên đề nghiệp vụ hình thành trong công tác phòng, chống tội phạm và quản lý nhà nước về an ninh chính trị, bảo đảm trật tự, an toàn xã hội (2) Những tài liệu trên được sắp xếp theo một phương pháp khoa học, trình tự nhất định nhằm giúp ích cho lực lượng Công an nhân dân trong các hoạt động điều tra nghiên cứu, xử lý tội phạm, các hành vi vi phạm pháp luật

khác và quản lý Nhà nước về an ninh chính trị, trật tự an toàn xã hội

2.1.2 Về mặt tính chất

Hồ sơ nghiệp vụ Công an nhân dân bao gồm 4 tính chất:

- Tính nghiệp vụ chiến đấu: Hồ sơ, tài liệu nghiệp vụ của lực lượng Công an

nhân dân là công cụ, phương tiện ghi nhận, phản ánh khách quan, trung thực tình hình hoạt động của tội phạm, kết quả công tác điều tra, nghiên cứu của lực lượng Công an nhân dân Hồ sơ, tài liệu nghiệp vụ của lực lượng Công an nhân dân là phương tiện chiến đấu, là vũ khí sắc bén của lực lượng Công an nhân dân trong đấu tranh phòng, chống tội phạm, giữ gìn an ninh chính trị và đảm bảo trật tự an toàn xã hội

- Tính pháp luật: Hoạt động của lực lượng Công an nhân dân là hoạt động thi

hành pháp luật, công tác hồ sơ là một bộ phận của hoạt động đó Do đó công tác hồ sơ nghiệp vụ Công an nhân dân mang tính pháp luật Tính chất pháp luật của công tác hồ

sơ thể hiện trong hoạt động nghiệp vụ của lực lượng Công an nhân dân khi thu thập tài liệu để lập hồ sơ phải bảo đảm đúng trình tự, thủ tục do pháp luật qui định, phục vụ yêu cầu thi hành pháp luật

- Tính khoa học: Việc tiến hành công tác hồ sơ phải tuân theo phương pháp, qui

trình mang tính khoa học; mặt khác nghiệp vụ công tác hồ sơ là một bộ môn khoa học

Trang 14

có mục đích, đối tượng và có phương pháp nghiên cứu riêng; hiện nay lực lượng Hồ sơ nghiệp vụ Công an nhân dân đang ứng dụng thành tựu của nhiều ngành khoa học khác như: Toán học, lý học, hóa học và đặc biệt là công nghệ thông tin để phát triển công tác hồ sơ nghiệp vụ Công an nhân dân phục vụ công tác đấu tranh phòng, chống tội phạm, giữ gìn an ninh chính trị và đảm bảo trật tự an toàn xã hội

- Tính bí mật: Nội dung hồ sơ, tài liệu nghiệp vụ của lực lượng Công an nhân dân

chứa đựng nhiều bí mật của Đảng, Nhà nước, của ngành Công an và bí mật của công dân nếu để lộ sẽ gây hậu quả không thể khắc phục được; hiện nay kẻ địch và các phần

tử xấu đang tìm mọi cách để lấy cắp bí mật của hồ sơ, tài liệu Tính chất bí mật của hồ

sơ, tài liệu nghiệp vụ Công an nhân dân thể hiện ở tất cả các qui định, qui trình công tác hồ sơ từ khâu thu thập tài liệu, lập, đăng ký, quản lý và khai thác sử dụng thông tin, tài liệu trong đấu tranh phòng, chống tội phạm của lực lượng Công an nhân dân, giữ gìn an ninh chính trị và đảm bảo trật tự an toàn xã hội

o Về nguyên tắc: Cơ quan hồ sơ nghiệp vụ Công an nhân dân thống nhất

quản lý, chỉ đạo công tác hồ sơ nghiệp vụ trong lực lượng An ninh nhân dân và Cảnh sát nhân dân; thực hiện chức năng quản lý nhà nước về công tác hồ sơ nghiệp vụ Công

an nhân dân Hồ sơ nghiệp vụ Công an nhân dân phải được bảo vệ tuyệt đối an toàn, bí mật từ khi thu thập đến khi tiêu hủy theo quy định của pháp luật và của Bộ Công an Thông tin, tài liệu trong hồ sơ nghiệp vụ Công an nhân dân chỉ khai thác phục vụ công tác phòng, chống tội phạm và quản lý nhà nước về an ninh trật tự, bảo vệ chính trị nội

bộ, yêu cầu của cơ quan, tổ chức, cá nhân theo quy định của pháp luật và của Bộ Công

an

o Các hành vi bị nghiêm cấm: Tự ý lập, tẩy xoá, sửa chữa làm sai lệch nội

dung hồ sơ, tài liệu; chiếm đoạt, làm hỏng, làm mất tài liệu, mua bán, chuyển giao, tiêu huỷ trái phép hồ sơ, tài liệu lưu trữ; mang hồ sơ, tài liệu ra nước ngoài trái phép; truy cập, thay đổi, giả mạo, sao chép, tiết lộ, gửi, hủy trái phép tài liệu lưu trữ điện tử; tạo

ra hoặc phát tán chương trình phần mềm làm rối loạn, thay đổi, phá hoại hệ thống điều hành hoặc có hành vi khác nhằm phá hoại phương tiện quản lý tài liệu lưu trữ điện tử;

sử dụng thông tin, tài liệu nghiệp vụ nhằm mục đích xâm phạm lợi ích của nhà nước, quyền và lợi ích hợp pháp của cơ quan, tổ chức, cá nhân

Hồ sơ nghiệp vụ Công an nhân dân được hình thành trong công tác phòng, chống tội phạm và quản lý nhà nước về an ninh chính trị và trật tự an toàn xã hội, bao gồm tài liệu văn bản và tài liệu điện tử Tài liệu hồ sơ nghiệp vụ có 2 loại là tài liệu văn bản là

Trang 15

tài liệu bằng giấy hoặc vật liệu khác; tài liệu điện tử là tài liệu được tạo lập ở dạng thông điệp dữ liệu hoặc được số hóa từ tài liệu văn bản Ngoài ra, các loại hồ sơ nghiệp vụ được quy định theo lĩnh vực công tác, trong đó:

 Các loại hồ sơ về công tác nghiệp vụ cơ bản; công tác điều tra, xử lý tội phạm

và vi phạm pháp luật bao gồm: Hồ sơ điều tra cơ bản; hồ sơ cá nhân đối tượng

và hồ sơ chuyên đề; hồ sơ chuyên án Hồ sơ chuyên án gồm 3 loại: Hồ sơ chuyên án trinh sát; hồ sơ chuyên án truy xét mở rộng vụ án đã khởi tố; hồ sơ chuyên án truy xét truy bắt đối tượng truy nã đặc biệt nguy hiểm

 Hồ sơ điều tra, xử lý tội phạm

 Hồ sơ công tác quản lý hành chính về trật tự, an toàn xã hội

 Hồ sơ công tác thi hành án hình sự và hỗ trợ tư pháp

2.2 Các vấn đề thuận lợi và khó khăn trong việc số hóa thông tin từ các văn bản hồ sơ nghiệp vụ Công an nhân dân

Hiện đại hóa hệ thống hồ sơ, cơ sở dữ liệu tại cơ quan Hồ sơ nghiệp vụ CAND góp phần hiện đại hoá công tác phòng ngừa và đấu tranh chống các loại tội phạm, giữ gìn

an ninh chính trị và đảm bảo trật tự an toàn xã hội nhằm khắc phục tình trạng manh mún, chia cắt khép kín, vừa thừa, vừa thiếu thông tin Góp phần cung cấp các luận cứ khoa học cho việc hoạch định đường lối, chính sách đấu tranh phòng chống tội phạm, cho công tác nghiên cứu khoa học và tổng kết, sơ kết các chuyên đề có liên quan đến công tác bảo đảm an ninh trật tự của lực lượng CAND và các cơ quan bảo vệ pháp luật khác Các hệ thống thông tin về vụ việc, đối tượng được nghiên cứu, xây dựng sẽ là

“kho thông tin” lớn về tình hình an ninh trật tự và kết quả hoạt động của lực lượng CAND Với lợi thế về tốc độ xử lý, khối lượng thông tin xử lý của máy tính, thông tin

về đối tượng, vụ việc lưu giữ trong các cơ sở dữ liệu (CSDL) sẽ cung cấp các số liệu chính xác phục vụ tổng kết các quy luật hoạt động của từng loại tội phạm, đề ra các biện pháp phòng ngừa, đấu tranh thích hợp; tổng kết các chuyên đề có liên quan đến công tác bảo đảm an ninh, trật tự của lực lượng CAND và các cơ quan bảo vệ pháp luật khác

Tuy nhiên, việc số hóa thông tin từ các tài liệu, văn bản hồ sơ nghiệp vụ CAND còn gặp khá nhiều khó khăn, thách thức Cụ thể:

 Hồ sơ nghiệp vụ CAND hiện nay chiếm tỷ lệ hơn 90% là văn bản bằng giấy (chủ yếu là các biểu mẫu in sẵn và trong quá trình hoàn thiện hồ sơ chính là hoàn thiện các biểu mẫu) và nội dung của nó là các trường thông tin khác nhau,

Trang 16

như: Họ và tên, ngày, tháng, năm sinh, quê quán, nơi thường trú, nghề nghiệp, thái độ chính trị, diễn biến quá trình và tính chất vụ việc, nội dung vi phạm… Tuy nhiên, trong hồ sơ các vụ án hình sự thuộc hồ sơ chuyên án truy xét hoặc

hồ sơ chuyên án truy xét mở rộng vụ án đã khởi tố thì nội dung phần Hỏi – đáp giữa cán bộ Công an và người vi phạm hoặc người có liên quan chiếm đến 50 – 60% khối lượng của hồ sơ, việc đó diễn ra trong thời gian cụ thể, nhanh nên việc hoàn thiện các bộ hồ sơ nghiệp vụ hiện nay chủ yếu là diễn ra sau khi đã có kết quả các công việc cụ thể, khả năng ứng dụng CNTT trong quá trình hoàn thiện hồ sơ không nhiều

 Khối lượng hồ sơ nghiệp vụ CAND hiện nay chủ yếu được lập từ các đơn vị công an cơ sở như phường, xã, quận - huyện là chủ yếu, ở cấp tỉnh, thành phố chỉ chiếm từ 20 – 30 % khối lượng hồ sơ nghiệp vụ; do đó công việc của cán bộ làm công tác hồ sơ nghiệp vụ hiện nay chủ yếu là số hóa các hồ sơ, lưu lại các văn bản trong hồ sơ bằng dạng file sau khi Scan hoặc chụp lại và tóm tắt hồ sơ các các biểu mẫu theo quy định từ đó mới ứng dụng CNTT để quản lý hồ sơ nghiệp vụ qua các bảng, biểu mẫu, thẻ…

Khối lượng hồ sơ nghiệp vụ của CAND các cấp ngày càng lớn, số lượng ngày càng nhiều, số người có liên quan đến các hồ sơ nghiệp vụ CAND ngày càng đông, do đó đặt ra yêu cầu thực tế công việc thủ công của cán bộ làm công tác hồ sơ nghiệp vụ không đáp ứng được yêu cầu của công tác khai thác sử dụng hồ sơ nghiệp vụ CAND phục vụ cho công tác đấu tranh với các bọn tội phạm nhằm đảm bảo an ninh chính trị

và giữ gìn trật tự an toàn xã hội

2.3 Giới thiệu về trích rút thông tin trong văn bản

Theo Line Eikvil [13] định nghĩa IE là lĩnh vực nghiên cứu hẹp của xử lý ngôn ngữ

tự nhiên và xuất phát từ việc xác định những thông tin cụ thể từ một tài liệu ngôn ngữ

tự nhiên Mục đích của trích rút thông tin là chuyển văn bản về dạng có cấu trúc, tức là thông tin được nhận dạng từ những nguồn tài liệu khác nhau và được biểu diễn dưới một hình thức thống nhất Theo Jim Cowie và Yorick Wilks [14]: Information Exaction - IE là tên được đặt cho quá trình cấu trúc và kết hợp một cách có chọn lọc

dữ liệu được tìm thấy, được phát biểu hay ám chỉ một cách rõ ràng, cụ thể trong một hay nhiều tài liệu văn bản Kết quả đầu ra của quá trình trích rút thông tin biến thiên; tuy nhiên, trong nhiều trường hợp, các kết quả được dịch chuyển để đưa vào một loại nào đó có trong cơ sở dữ liệu Những hệ thống trích rút thông tin văn bản không nhằm

Trang 17

mục tiêu tìm hiểu văn bản đưa vào, mà nhiệm vụ chính của nó là tìm kiếm các thông tin đáng quan tâm Theo những chuyên gia về trích xuất thông tin của GATE1

thì những hệ thống trích rút thông tin sẽ tiến hành phân tích văn bản nhằm trích ra những thông tin cần thiết theo các dạng được định nghĩa trước, chẳng hạn như nhận dạng sự kiện, nhận dạng thực thể và các mối quan hệ

Trích rút thông tin không đòi hỏi hệ thống phải đọc hiểu nội dung của tài liệu văn bản, nhưng hệ thống phải có khả năng phân tích và tìm kiếm các thông tin mà hệ thống thấy đáng được quan tâm trong tài liệu đưa vào Các kỹ thuật trích rút thông tin có thể

áp dụng cho bất kỳ tập tài liệu nào mà chúng ta cần trích ra những thông tin quan trọng, cần thiết cũng như các sự kiện, các mối quan hệ liên quan Các kho dữ liệu văn bản về một lĩnh vực trên Internet là ví dụ điển hình, thông tin trên đó có thể tồn tại ở nhiều nơi khác nhau, dưới nhiều định dạng khác nhau, do vậy, có nhiều mức độ trích rút thông tin từ văn bản như [14][15]:

 Trích rút thuật ngữ (Terminology Extraction - TE): tìm kiếm các thuật ngữ chính có liên quan, thể hiện ngữ nghĩa, nội dung, chủ đề tài liệu hay một tập các tài liệu

 Nhận dạng thực thể (Named Entity Recognition - NER): việc rút trích ra các thực thể có tên tập trung vào các phương pháp nhận dạng các đối tượng, thực thể như: người, tên công ty, tên tổ chức, một địa danh, nơi chốn

 Trích rút mối quan hệ (Relationship Extraction - RE): xác định mối quan hệ giữa các thực thể đã được nhận dạng từ tài liệu Cụ thể như việc xác định địa danh cụ thể của một tổ chức hay phạm vi hoạt động của một nhóm tội phạm

1 http://gate.ac.uk/ie/

Trang 18

Ví dụ:

Hình 2.1 Hình minh họa một hệ thống trích rút thông tin

Để có một hệ thống trích rút thông tin đầu tiên phải có một hệ thống nhận dạng đƣợc đâu là thực thể nghĩa là tìm ra các thực thể ẩn giấu trong văn bản sau đó phân loại quan hệ cho chúng nghĩa là xem chúng thuộc vào loại nào trong các loại đã đƣợc định nghĩa

Trang 19

Tóm lại, có thể hiểu trích rút thông tin (Information Extraction - IE) là một kỹ thuật, lĩnh vực nghiên cứu có liên quan đến truy vấn thông tin (Information Retrieval - IR), khai thác dữ liệu (Data Mining - DM), và xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP) Cụ thể hơn, một hệ thống trích rút thông tin lấy ra những thông tin

đã được định nghĩa trước về các thực thể và mối quan hệ giữa các thực thể từ một văn bản dưới dạng ngôn ngữ tự nhiên và điền những thông tin này vào một văn bản ghi dữ liệu có cấu trúc hoặc một dạng mẫu được định nghĩa trước đó Ví dụ như việc nhận dạng vị trí của một cuộc hẹn từ một bức thư điện tử; hay nhận dạng tên, hoạt động của một tổ chức, nhóm tội phạm… Các kỹ thuật được sử dụng trong trích rút thông tin nói chung và nhận diện thực thể nói riêng gồm có: hướng tiếp cận dựa trên luật, hướng tiếp cận dựa trên từ điển, hướng tiếp cận dựa trên các phương pháp học máy và kết hợp 2 trong 3 hướng tiếp cận bên trên để được một hướng tiếp cận mới còn được gọi là hướng tiếp cận lai Ở mức độ trích rút thông tin ngữ nghĩa, một mẫu là thể hiện của một sự kiện trong đó các thực thể tham gia đóng một số vai trò xác định trong sự kiện

đó Đã có rất nhiều bài toán được đặt ra trong lĩnh vực trích rút thông tin trong tài liệu tiếng Việt cũng như tiếng Anh sẽ được đưa ra cụ thể trong những phần tiếp theo

2.4 Bài toán trích rút thông tin từ hồ sơ nghiệp vụ Công an nhân dân

Bài toán trích rút thông tin từ hồ sơ nghiệp vụ CAND là một nhiệm vụ cần thiết

nhằm xác định ra các thông tin quan trọng là các thực thể được gán nhãn, đó là: Tên

người, địa danh, thời gian và vụ việc Đây là hình thức khai thác và sử dụng Hồ sơ,

tài liệu lưu trữ (HS, TLLT) nhằm phần nào định hướng và tìm ra manh mối trong quá trình tiến hành trinh sát, điều tra khám phá các vụ án, được thực hiện thường xuyên và được đánh giá là có hiệu quả nhất tại Cục Hồ sơ nghiệp vụ nói riêng và trong lực lượng

hồ sơ nghiệp vụ nói chung trong Công an nhân dân Trong phạm vi của đề tài luận văn,

tôi sử dụng một kỹ thuật trong trích rút thông tin là nhận dạng thực thể được gán

nhãn để thực hiện việc nhận dạng các thông tin cần thiết liên quan đến vụ án Bài toán

nhận dạng thực thể trong hồ sơ nghiệp vụ Công an nhân dân được phát biểu sau đây

Mục đích bài toán: Nhận dạng thực thể các đối tượng (người: Nguyễn Văn A,…),

vụ việc tham gia (trộm cắp, đánh bạc, cá độ,…), địa danh (Cẩm khê, Phú Thọ; Gia

Lâm, Hà Nội…), thời gian (rạng sáng ngày 20/12/2013, .) xuất hiện trong văn bản

mô tả vụ án tại hồ sơ nghiệp vụ Công an nhằm giúp ích cho việc tra cứu và sử dụng dữ liệu [Hình 2.1]

Trang 20

Đầu vào: Tập dữ liệu bao gồm các kết luận điều tra vụ án hình sự và các văn bản

mô tả vụ án từ hồ sơ nghiệp vụ Công an nhân dân

Đầu ra: Tập dữ liệu chứa các mô tả vụ án, trong đó các thực thể được nhận dạng và

gắn thẻ (người –per, thời gian - time, địa danh - loc, vụ việc tham gia - crime) thích hợp

Ý nghĩa : Nhận dạng thực thể luôn là bước đi đầu tiên của nhiều ứng dụng thực tế

và việc nhận dạng các thực thể ấn giấu trong hồ sơ cũng là một tác vụ quan trọng Các thực thể và các mối quan hệ của nó là các thành phần chủ chốt, các đầu mối hỗ trợ cho công tác điều tra, khám phá các vụ án Do đó, nhận dạng thực thể được sử dụng một cách rộng rãi trong nhiều lĩnh vực khác nhau như xử lý ngôn ngữ tự nhiên, thu thập thông tin, dịch tự động… Cụ thể, nhận dạng thực thể trong hồ sơ nghiệp vụ CAND giúp việc tra cứu thông tin dễ dàng hơn Tra cứu để thu thập tài liệu lập hồ sơ và tra cứu để khai thác thông tin phục vụ các hoạt động điều tra trinh sát, truy bắt, xét xử…

- Giúp ích cho việc tra cứu (Tra cứu để thu thập tài liệu lập hồ sơ):

Theo Hướng dẫn chi tiết một số quy định về công tác hồ sơ nghiệp vụ CAND, thủ tục lập hồ sơ bao gồm 3 bước: (1) Thu thập tài liệu, chứng cứ lập hồ sơ; (2) Ra quyết định lập hồ sơ; (3) Lập và quản lý thẻ, phiếu Do đó, khi lập các loại HS cá nhân đối tượng, HS chuyên án trinh sát, HS chuyên án truy xét, HS vụ án hình sự…, cán bộ lập

HS bắt buộc phải gửi yêu cầu tra cứu đến cơ quan hồ sơ nghiệp vụ để tra cứu, thu thập thông tin Như vậy, việc gửi yêu cầu tra cứu là một trong những yêu cầu bắt buộc về thủ tục lập HS Tuy nhiên, đó không phải là quy định mang tính hành chính đơn thuần

mà còn mang tính nghiệp vụ, pháp luật trong hoạt động điều tra, nghiên cứu Cụ thể là tra cứu thông tin hồ sơ để khai thác thông tin phục vụ các hoạt động điều tra, truy bắt, xét xử

+ Về mặt pháp luật: Theo quy định của Bộ luật Hình sự năm 1999 được sửa đổi

bổ sung năm 2009, quy định người chiếm đoạt tài sản có giá trị 2.000.000 đồng sẽ bị truy cứu trách nhiệm hình sự Nếu gây hậu quả ít nghiêm trọng, thì đặc điểm nhân thân người phạm tội được coi là một trong những căn cứ để xem xét có ra quyết định khởi

tố hình sự hay không? Nếu người phạm tội lần đầu, đặc điểm nhân thân tốt thì chỉ áp dụng biện pháp xử lý hành chính, ngược lại nếu tái phạm hoặc người phạm tội đã bị xử

lý hành chính về hành vi chiếm đoạt tài sản thì phải khởi tố hình sự

Mặt khác khi quyết định hình phạt, Điều 46 quy định các tình tiết giảm nhẹ trách nhiệm hình sự và Điều 48 quy định các tình tiết tăng nặng trách nhiệm hình sự của Bộ

Trang 21

luật Hình sự năm 1999 sửa đổi năm 2009, tiền án ở dạng tái phạm hoặc tái phạm nguy hiểm là tình tiết tăng nặng trách nhiệm hình sự hoặc đối với một số tội phạm, tiền án ở dạng tái phạm nguy hiểm là tình tiết định khung tăng nặng hình phạt

+ Về mặt nghiệp vụ: Tra cứu, khai thác thông tin tại cơ quan Hồ sơ nghiệp vụ giúp cơ quan Điều tra và điều tra viên nắm được thân nhân bị can còn giúp cho hoạt động điều tra của cơ quan Điều tra và điều tra viên trong hoạt động điều tra, đặc biệt là đối với việc áp dụng các biện pháp và chiến thuật điều tra trinh sát, chiến thuật đấu tranh, xét hỏi bị can

Theo quy định, các loại yêu cầu tra cứu và thủ tục tra cứu đối với yêu cầu cấp bản trích lục hoặc thống kê tiền án tiền sự (TATS) thì sử dụng biểu mẫu kèm danh bản, chỉ bản và thống kê TATS (nếu có); đối với yêu cầu tra cứu xác minh lai lịch, thông tin TATS, đặc điểm nhân dạng, ảnh đối tượng (Đối tượng sưu tra; hiềm nghi; chuyên án; truy nã; xét duyệt đưa người vào trường giáo dưỡng, cơ sở giáo dục bắt buộc; đối tượng trong các vụ án hình sự, vụ việc vi phạm pháp luật hình sự chưa đến mức khởi

tố, bị xử lý hành chính) sẽ sử dụng mẫu cụ thể (ghi rõ nội dung thông tin cần cung cấp; nếu cần cung cấp ảnh phải ghi rõ số lượng ảnh, cỡ ảnh )

Căn cứ vào nội dung, hình thức yêu cầu, tài liệu gửi kèm theo yêu cầu tra cứu, sau khi tra cứu có kết quả, cơ quan Hồ sơ nghiệp vụ sẽ xác định hình thức trả lời thích hợp, bao gồm các hình thức trả lời cụ thể:

- Đối với yêu cầu tra cứu có danh chỉ bản: Yêu cầu của cơ quan Điều tra trả lời

bằng trích lục TATS; yêu cầu của cơ quan Hồ sơ nghiệp vụ trả lời bằng thống

kê TATS; yêu cầu của các đơn vị nghiệp vụ khác trả lời bằng công văn (không dùng mẫu trích lục hoặc thống kê TATS)

- Đối với yêu cầu tra cứu theo mẫu: Yêu cầu trong nội bộ cơ quan Hồ sơ nghiệp

vụ trả lời bằng thống kê TATS hoặc công văn; yêu cầu của các đơn vị nghiệp

vụ khác trả lời bằng công văn (không dùng mẫu trích lục hoặc thống kê TATS)

- Đối với yêu cầu của cơ quan tổ chức, xã hội và cá nhân: Trả lời bằng công văn hoặc theo mẫu quy định

Dù trả lời bằng hình thức nào, thì trong văn bản đều phải khẳng định rõ: trường hợp không có tài liệu trong tàng thư hay có tài liệu Nếu có tài liệu thì phải cung cấp đủ các thông tin cần thiết theo yêu cầu như: Họ tên, lai lịch, TATS, ảnh, đặc điểm nhận dạng…(tùy theo nội dung yêu cầu)

Trang 22

Mục tiêu của bài toán đặt ra trong luận văn này là trích xuất các thực thể liên quan

đến vụ án (người, địa danh, thời gian, vụ việc) nhằm phục vụ cho quá trình tra cứu

thông tin một cách thuận lợi và nhanh chóng nhất; để giải quyết vấn đề này luận văn tập trung nghiên cứu bài toán nhận dạng thực thể trong lĩnh vực trích rút thông tin Trong phần tiếp theo luận văn, bản thân sẽ trình bày khái quát về bài toán nhận dạng thực thể trong văn bản

2.5 Bài toán nhận dạng thực thể

Nhận dạng thực thể (Named entity recognition - NER) còn gọi là nhận dạng thực thể có tên hoặc nhận dạng thực thể là một bài toán con của trích rút thông tin (Information Extraction - IE) và khai phá dữ liệu văn bản (Text Mining - TM) [15] Cụ thể là tìm kiếm và phân loại các cụm từ xuất hiện trong văn bản vào những loại xác định trước như là người, tổ chức, địa danh, thời gian, số lượng, giá trị tiền tệ, phần trăm, Mục đích chính của bài toán nhận dạng các loại thực thể là xác định những đối tượng này từ đó phần nào giúp cho chúng ta dễ dàng hơn trong việc hiểu văn bản và thu thập dữ liệu đáng quan tâm Bảng bên dưới là một số thực thể chính trong các văn bản tiếng Việt [1]

ảng 2.1: Một số loại thực thể trong văn bản tiếng Việt

CÁCLOẠI

Người (per) Hiền Văn Trần, bác sỹ, nhân viên,

Địa danh (loc) Hà Nội, Ngõ 1 Xuân Thủy, nhà kho,

NER xem như một bài toán gồm hai bước: Đầu tiên, xác định cụm từ cần quan tâm, sau đó phân loại chúng vào các loại đã được định nghĩa trước [5][15] Có bốn hướng tiếp cận đã được đề cập, mỗi cách tiếp cận đều có ưu và nhược điểm riêng Vì vậy, hai hoặc nhiều hơn cách tiếp cận có thể được kết hợp để có hiệu năng tốt hơn, cụ thể:

Trang 23

Tiêu biểu cho hướng tiếp cận thủ công là hệ thống nhận dạng thực thể Proteus của trường Đại học New York tham gia MUC-6 [17] Hệ thống được viết bằng Lisp và được hỗ trợ bởi tập dữ liệu chứa một số lượng lớn các luật, hầu hết các luật đều chứa các trường hợp ngoại lệ và khó có thể giải quyết hết Ví dụ bên dưới là một minh họa cho hệ thống sử dụng hướng tiếp cận dựa trên tập luật cùng với các trường hợp ngoại

lệ của chúng [1]:

- Luật: Title Capitalized_Word => Title Person Name

 Trường hợp đúng : Mr Johns, Gen Schwarzkopf

 Trường hợp ngoại lệ: Mrs Field’s Cookies (một công ty)

- Luật: Month_name number_less_than_32 => Date

 Trường hợp đúng: February 28, July 15

 Trường hợp ngoại lệ: Long March 3 (tên một tên lửa của Trung Quốc) Nhược điểm của các phương pháp thủ công là tốn thời gian, công sức, tiền của trong quá trình xây dựng tập luật bởi hầu hết các tập từ điển và các bộ luật đều được xây dựng bằng tay bởi các chuyên gia, tuy nhiên kết quả đạt được lại không được như mong muốn Do vậy, để cải thiện cho vấn đề về các trường hợp ngoại lệ của bộ luật, các phương pháp học máy hiện đang được tập trung nghiên cứu nhiều hơn

Hầu hết các phương pháp học máy đều có những ưu thế riêng đồng thời vẫn còn tồn tại một số hạn chế do đặc thù của mỗi mô hình Tiêu biểu có thể kể đến các mô hình Markov ẩn HMM và các mô hình cải tiến của nó (MEMM) khi được kết hợp với mô hình học máy Maximum Entropy (ME) hay mô hình CRF; với các mô hình này ta có thể xem tương ứng mỗi trạng thái với một trong nhãn các nhãn thực thể và dữ liệu quan sát là các từ trong câu đang xét Máy vector hỗ trợ (SVM) cũng là một trong những phương pháp học máy cho kết quả rất khả quan

Trong luận văn của mình, tôi kết hợp tìm hiểu cả ba hướng tiếp cận dựa trên học máy, luật và từ điển nhằm giải quyết cho bài toán được đưa ra

2.6 Các vấn đề của bài toán nhận dạng thực thể

Trong cộng đồng xử lý ngôn ngữ tự nhiên, có khá nhiều các công trình, các nghiên cứu đã lưu ý về một số vấn đề khó khăn trong xử lý dữ liệu văn bản Những khó khăn thách thức điển hình nhất là sự nhập nhằng và đa dạng của các từ, cụm từ trong các ấn phẩm có cấu trúc phức tạp, nguyên tắc hình thành đôi khi lại không giống như bình thường Hiện nay, vẫn chưa có quy ước rõ ràng về tên các thực thể, vấn đề từ đồng nghĩa – từ trái nghĩa – từ viết tắt và trong nhiều trường hợp từ được sử dụng không

Trang 24

mang nghĩa thường gặp của nó; nhiều từ cùng để chỉ một khái niệm và một từ có thể

có nhiều nghĩa[2], …

Đối với bài toán nhận dạng tên thực thể trong các tài liệu tiếng Việt, ngoài những khó khăn chung của bài toán nhận dạng thực thể nói trên còn gặp một số trở ngại khác Các văn bản tiếng Việt không có dữ liệu huấn luyện và các nguồn tài nguyên có thể tra cứu (như WordNet trong tiếng Anh), thiếu các thông tin ngữ pháp và các thông tin về cụm từ như cụm danh từ, cụm động từ cho tiếng Việt, trong khi các thông tin này giữ vai trò quan trọng trong việc nhận dạng thực thể; khoảng cách và biên giữa các từ/cụm

từ không rõ ràng, dễ gây nhập nhằng Cụ thể như một ví dụ bên dưới:

“Hà Nội và Hồ Chí Minh là hai thành phố lớn của Việt Nam“

Kết quả của bài toán nhận dạng thực thể:

 “Hồ Chí Minh” phải được đánh dấu là một địa danh (một thành phố) thay

vì là tên một người

 Chữ “Hà” viết đầu câu nên thông tin viết hoa không mang nhiều ý nghĩa

Do vậy, khi nào “Hồ Chí Minh” được sử dụng như người, khi nào được sử dụng

như tên một địa danh?

Ngoài ra còn các vấn đề về viết tắt, vấn đề kiểu tên thực thể dài, đa dạng, vấn đề đồng nghĩa cụ thể:

 Các từ/cụm từ không tuân theo luật nào về ký tự viết hoa

 Cấu trúc các từ tạo thành một thực thể có thể rất phức tạp Có nhiều từ mượn, từ Hán Việt Ví dụ: Sứ giả, tráng sỹ, giang sơn, mít tinh, In-tơ-nét, Ra-đi-ô, …

 Về mặt ngữ nghĩa, một từ hoặc cụm từ giống nhau có thể biểu diễn các nội dung khác nhau tùy thuộc vào ngữ cảnh hay cùng một thực thể đôi khi có nhiều cách viết không hoàn toàn giống nhau hay thậm chí khác hẳn nhau: đường

“Thanh Niên” còn gọi là “con đường tình yêu”, “Chủ tịch Hồ Chí Minh” đôi khi được biểu diễn bằng từ “Người”, …

 Tổng số tên các thực thể trong các văn bản quá nhiều, có nhiều tên mới được đưa ra Do vậy, một hệ thống NER rất khó có thể xác định được tất cả

 Có nhiều từ viết tắt: Hầu hết tên các địa danh/tổ chức đều được viết tắt, chúng

có thể tạo nên sự nhập nhằng (có nhiều cách định nghĩa khác nhau cho một từ viết tắt nếu không định nghĩa rõ ràng trong ngữ cảnh) Ví dụ: HCM có thể là

Trang 25

viết tắt của từ Hồ Chí Minh – tên của chủ tịch nước hay Hồ Chí Minh – tên một con đường, tùy ngữ cảnh

 Tên có nhiều từ và ký tự lạ: Đa phần tên địa danh, con đường, số tiền thường dài, nhiều định dạng và chứa các ký tự lạ như: Dấu gạch ngang, dấu gạch chéo,

ký tự tiền, … gây khó khăn cho việc phân tách cũng như phát hiện biên của thực thể

 Tên lồng nhau: Một tên thực thể có thể xuất hiện trong một tên dài hơn hoặc có thể xuất hiện độc lập

Bài toán nhận dạng thực thể trong các văn bản tiếng Việt còn gặp nhiều khó khăn hơn so với trong các băn bản tiếng Anh bởi một số nguyên nhân như sau:

 Thiếu dữ liệu huấn luyện và các nguồn tài nguyên có thể tra cứu như WordNet trong tiếng Anh

 Thiếu các thông tin từ loại (POS) và các thông tin về cụm từ như cụm danh từ, cụm động từ cho tiếng Việt trong khi các thông tin này giữ vai trò rất quan trọng trong việc nhận dạng thực thể

Ví dụ [1]: “Cao Xumin, Chủ tịch Phòng Thương mại Xuất nhập khẩu thực phẩm của Trung Quốc, cho rằng cách xem xét của DOC khi đem so sánh giá tôm của Trung Quốc và giá tôm của Ấn Độ là vi phạm luật thương mại” Chúng ta muốn đoạn văn bản trên được đánh dấu như sau: “[Cao Xumin]PER, Chủ tịch [Phòng Thương mại Xuất nhập khẩu thực phẩm]ORG của [Trung Quốc]LOC, cho rằng cách xem xét của [DOC]ORGkhi đem so sánh giá tôm của [Trung Quốc]LOC và giá tôm của [Ấn Độ]LOC là

vi phạm luật thương mại”

Ví dụ trên đã cho thấy một số khó khăn mà một hệ thống nhận dạng thực thể tiếng

Việt gặp phải trong khi gán nhãn cho dữ liệu: Cụm từ “Phòng Thương mại Xuất nhập khẩu thực phẩm” là tên một tổ chức nhưng không phải từ nào cũng viết hoa Các thông tin như “Phòng Thương mại Xuất nhập khẩu thực phẩm” là một cụm danh từ và đóng

vai trò chủ ngữ trong câu rất hữu ích cho việc đoán nhận chính xác loại thực thể, tuy vậy do tiếng Việt thiếu các hệ thống tự động đoán nhận chức năng ngữ pháp và phân tách các cụm từ trong câu nên việc nhận dạng thực thể trở nên khó khăn hơn nhiều so với tiếng Anh

Trang 26

CHƯƠNG 3 MỘT SỐ HƯỚNG TIẾP CẬN GIẢI QUYẾT BÀI TOÁN NHẬN DẠNG THỰC THỂ

Chúng tôi tiến hành xây dựng mô hình nhận dạng thực thể sử dụng phương pháp học máy mô hình Markov ẩn (HMM) và CRF, đồng thời kết hợp thêm bộ luật, từ điển nhằm nhận ra tối đa các thực thể nằm ẩn giấu trong tài liệu

3.1 Hướng tiếp cận dựa trên luật (Rule-based)

Xây dựng hệ luật dựa trên công sức và tri thức của các chuyên gia là phương pháp truyền thống và được áp dụng sớm nhất trong các bài toán xử lý ngôn ngữ tự nhiên nói chung và bài toán nhận dạng thực thể trong văn bản nói riêng Hệ luật là một tập hợp các luật do con người mà chủ yếu là các chuyên gia có nhiều năm kinh nghiệm xây dựng thủ công nhằm những mục đích nhất định, ở đây là việc nhận ra các thực thể trong văn bản Một hệ thống nhận dạng thực thể sử dụng hệ luật thông thường sẽ sử dụng các đặc trưng chính về mặt: từ loại (danh từ, động từ, tính từ, …), ngữ cảnh (các

từ đứng trước, đứng sau cụm từ cần quan tâm, …), đặc trưng thể hiện (từ viết hoa, viết thường, trong dấu ngoặc, chứa ký tự đặc biệt, …) kết hợp với bộ từ điển để viết thành

luật [5] Ví dụ: “Bác Trần Minh Hải tới Hải Phòng ngày 20/12/2012 Trong ví dụ này,

từ “Trần Minh Hải” đứng sau từ “Bác” sẽ được nhận là một người (Person), “Hải Phòng” đứng sau động từ “tới” sẽ được nhận là tên một địa danh, nơi chốn (Location),

“20/12/2012” sẽ được nhận dạng là số (Number) hay thời gian (Time), tuy nhiên, xét

về mặt thể hiện, cụm các số này chứa ký tự lạ “/” do vậy nó sẽ được nhận là một thực thể về thời gian (Time)

Với ý tưởng tương tự, năm 1995, Iwanska cùng các cộng sự sử dụng hướng tiếp cận truyền thống dựa vào bộ từ điển chuyên biệt (gazetteers), Morgan sử dụng bộ phân tích ngôn ngữ ở mức cao (kết hợp giữa sự phân tích cú pháp, phân tích từ loại và ngữ cảnh) nhằm tăng hiệu quả cho hệ thống nhận dạng thực thể Một trong những ưu điểm lớn nhất của hướng tiếp cận sử dụng hệ luật so với hướng tiếp cận dựa vào các phương pháp học máy là hướng tiếp cận sử dụng tập các luật không cần tập dữ liệu đã được gán nhãn, tức là hệ thống có thể trực tiếp làm việc và thu được kết quả ngay khi bộ luật được xây dựng Ví dụ [1]: Một luật nhận dạng ra thực thể người có dạng: Mr +

<Person> - trong tiếng anh : “ông” + tên người (Person) – trong tiếng Việt cũng có thể

nhận ra một số lượng lớn các thực thể trong văn bản Bởi vậy ngay từ giai đoạn đầu xây dựng tập dữ liệu được gán nhãn cho bài toán nhận dạng thực thể trong văn bản

Trang 27

tiếng Việt, nhóm tác giả đã tiến hành song song việc phát triển hệ thống luật và gán nhãn cho tập dữ liệu Hệ thống sử dụng hệ luật chạy và nhận dạng thực thể tự động, sau đó được kiểm tra và chuẩn hóa bằng tay Mỗi lần kiểm tra, nhờ vào kinh nghiệm thu được, bộ luật sẽ được nâng cấp và cải thiện sao cho chính xác và chặt chẽ hơn bởi đặc điểm của hướng tiếp cận dựa vào luật là bộ luật được xây dựng càng chi tiết và chính xác thì sẽ nhận được càng nhiều kết quả đúng Tuy nhiên, việc xây dựng một hệ thống luật đạt kết quả cao thường rất khó khăn, mất nhiều thời gian và công sức, đặc biệt khi xây dựng hệ thống từ đầu Trên thế giới đã có khá nhiều hệ thống nhận dạng thực thể đạt hiệu quả cao, nhưng hầu hết chúng không được xây dựng trên nền nguồn

mở, và rất khó khăn để tiếp cận được với những hệ thống này Chính vì vậy, phải đến khi GATE – một hệ thống được xây dựng tên mã nguồn mở với bộ luật JAPE ra đời như một khung nền, các nghiên cứu về hướng tiếp cận sử dụng hệ luật với bài toán nhận dạng thực thể trong văn bản mới thực sự phát triển và thu được những kết quả khá khả quan Maynard giới thiệu hệ thống MUSE (Multi source entity finder) [11] được phát triển trên GATE có độ thích ứng cao, dễ dàng thay đổi khi chuyển sang một lĩnh vực mới Người dùng có thể chọn bộ luật ngữ pháp (grammar) cũng như bộ từ điển (gazetter) cho nhiều lĩnh vực khác nhau Kết quả thu được khá khả quan: Độ đo

F1 khoảng 93 ~ 94 % với các loại thực thể về tổ chức (organization - org), người (person – per), địa danh/địa điểm (location – loc), thời gian (ngày,tháng/giờ - time), Số (số tiền, phần trăm), địa chỉ (thư điện tử, url, mã vùng,) và định danh

Một số nghiên cứu khác tái sử dụng các luật JAPE, thay đổi và chỉnh sửa để tạo ra những mô hình khác nhau cho bài toán nhận dạng thực thể trong văn bản với nhiều ngôn ngữ và lĩnh vực, cụ thể như đối với tiếng Việt, có thể nói hệ thống VN-KIM IE là hệ thống đầu tiên có sử dụng bộ luật JAPE trong khung làm việc GATE [9] Chức năng chính của bộ VN-KIM IE là nhận dạng và chú thích tự động cho các thực thể có tên trong trang Web tiếng Việt Quá trình trích rút thông tin của VN-KIM IE được thực hiện qua các bước:

 ước 1: Quy chuẩn các văn bản trên Web về một loại mã tiếng Việt

 ước 2: Trích ra các khối văn bản mang thông tin chính

 ước 3: Gán nhãn từ loại cho văn bản

 ước 4: Nhận dạng các thực thể và xử lý các trường hợp nhập nhằng

Với tập dữ liệu thu thập từ các báo điện tử phổ biến như: Tuổi trẻ, Người lao động, Vnexpress, … VN-KIM IE đưa ra kết quả khá khả quan Độ F-measure đạt được

Trang 28

trên 80% với các loại nhãn: “organization, location, person, date, time, money, percent expression”

Ưu điểm của cách tiếp cận này là luật có thể được thiết kế chi tiết và đầy đủ để giải quyết các hiện tượng ngôn ngữ đặc thù Tuy nhiên việc phát triển các luật yêu cầu miền kiến thức mở rộng và tốn kém thời gian Các luật cũng khó áp dụng trên các miền khác nhau Nói chung, độ chính xác của cách tiếp cận dựa luật có thể đáp ứng được, dựa vào các luật được tạo một cách đầy đủ Tuy nhiên, cách tiếp cận là khó thích ứng với các miền mới, và tốn thời gian trong việc tạo ra các luật

3.2 Hướng tiếp cận dựa trên từ điển (Dictionary-based)

Hướng tiếp cận dựa từ điển nhận dạng thực thể bằng cách tìm kiếm từ 1 tập từ vựng hoặc CSDL được tạo tự động hay thủ công Chuỗi so sánh có thể chính xác hoặc tương đối (chấp nhận các biến thể do cách viết chính tả)

Ưu điểm của cách tiếp cận này là đơn giản và hiệu quả Tuy nhiên hiệu năng thường không như mong muốn bởi tập từ vựng hạn chế và không được cập nhật thường xuyên, các cách viết chính tả khác nhau, vấn đề đồng âm…Việc so sánh tương đối cũng làm tốn thời gian tính toán hơn so sánh chính xác Vấn đề đồng âm là vấn đề khó giải quyết, yêu cầu phân tích cú pháp và ngữ nghĩa

Tóm lại, cách tiếp cận dựa từ điển có các khía cạnh: (1) đánh giá hiệu năng, (2) cách

xử lý biến thể với các tên, (3) cách sử dụng từ điển bán tự động Nếu chỉ sử dụng cách tiếp cận này, ta khó đạt hiệu năng như mong muốn

3.3 Hướng tiếp cận dựa trên các phương pháp học máy learning)

(Machine-Các phương pháp học máy như: máy vector hỗ trợ (SVM), cây quyết định, mô hình markov ẩn HMM, CRF, … thường xuyên được áp dụng và thu được kết quả khá cao trong các bài toán về xử lý ngôn ngữ tự nhiên Với hệ thống nhận dạng thực thể trong văn bản sử dụng các phương pháp học máy, vấn đề nhận dạng thực thể (NER – Named Entity Recognition) được chuyển đối thành bài toán phân loại Đầu tiên vào năm 2005, Krishnan cùng các cộng sự sử dụng mô hình IO để gán nhãn cho các từ theo định nghĩa [1][2]:

- I: Nếu từ nằm trong cụm thực thể đang xét

- O: Nếu từ nằm ngoài cụm thực thể đang xét

Trang 29

- B: Nếu từ là vị trí bắt đầu cụm thực thể đang xét

Sau đó dựa trên những thông tin về nhãn của từ thu được qua mô hình IOB, cùng với từ loại và loại thực thể (named entity) … để nhận dạng đặc trưng làm đầu vào cho các mô hình phân loại sử dụng các phương pháp học máy Thông thường có ba kiểu hệ thống sử dụng các phương pháp học máy là hệ thống học có giám sát (Supervised), học không giám sát (Unsupervised) và học bán giám sát (Semi-supervised) Tuy nhiên, hệ thống sử dụng phương pháp học không giám sát và học bán giám sát ít được áp dụng cho bài toán nhận dạng thực thể, và không được vận dụng trong các nghiên cứu Ngược lại hoàn toàn, hệ thống sử dụng phương pháp học có giám sát được sử dụng khá phổ biến trong bài toán nhận dạng thực thể, một vài công trình tiêu biểu như: Năm 1998, Borthwick giới thiệu một hệ thống sử dụng Maximum Entropy [7], và năm 2006, Wu đưa ra hệ thống sử dụng phương pháp SVM cho bài toán nhận thực thể Mansouri cùng các cộng sự có đưa ra một mô hình hệ thống khá mới: kết hợp giữa hệ mờ (Fuzzy) và máy vector hỗ trợ (SVM) [16]

Tuy bài toán nhận dạng thực thể là một bài toán khá cơ bản trong nhận dạng thông tin và xử lý ngôn ngữ tự nhiên nhưng chưa có nhiều nghiên cứu về bài toán này đối với tiếng Việt Cụ thể, Nguyen cùng các cộng sự đã xây dựng một hệ thống nhận dạng thực thể trong văn bản dựa trên mô hình học máy Conditional Random Fields (CRF) để xác định 8 loại thực thể [20]: người (Person), địa danh (Location), tổ chức (Organization), phần trăm, thời gian (Time), số (Number), tiền (Money) Tác giả tiến hành thực nghiệm sử dụng công cụ FlexCRFs thu được độ đo F-measure trung bình khoảng 80 ~ 81% Trong khi đó, năm 2007 cũng giải quyết bài toán nhận dạng thực thể trong văn bản tiếng Việt, Pham cùng cộng sự đã giới thiệu một hệ thống bán

tự động sử dụng phương pháp máy vector hỗ trợ -SVM [21] Trong nghiên cứu này, nhóm tác giả xây dựng hệ thống giải quyết bài toán song song với quá trình xây dựng tập dữ liệu bởi ở Việt Nam hiện nay vẫn chưa có một tập dữ liệu chuẩn cho bài toán nhận dạng thực thể Tập dữ liệu chuẩn được dùng làm dữ liệu huấn luyện cho thuật toán SVM được xây dựng chứa một trăm văn bản tạo nên một hệ thống nhận dạng thực thể Dùng hệ thống này để gán nhãn tự động cho thực thể trong một trăm văn bản tiếp theo, sau đó hiệu chỉnh lại bằng tay và tiếp tục huấn luyện lại để tạo ra một hệ thống tốt hơn Quá trình này được lặp đi lặp lại nhiều lần cho đến khi thu được một tập

dữ liệu được gán nhãn đủ lớn Kết quả, hệ thống thu được độ đo F-measure khoảng 83.56% Trong đó tác giả cũng nhấn mạnh đến tầm quan trọng của một bộ tách từ tốt trong hệ thống nhận dạng thực thể với văn bản tiếng Việt

Ngày đăng: 25/07/2017, 21:55

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Nguyễn Cẩm Tú. Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ Web ngữ nghĩa và tìm kiếm hướng thực thể. Khóa luận tốt nghiệp ĐHCN 5/2005 Sách, tạp chí
Tiêu đề: Nhận biết các loại thực thể trong văn bản tiếng Việt nhằm hỗ trợ Web ngữ nghĩa và tìm kiếm hướng thực thể
2. Trần Thị Ngân. Trích chọn thông tin y tế tiếng Việt cho bài toán tìm kiếm ngữ nghĩa. Khóa luận tốt nghiệp ĐHCN 2009.Tiếng Anh Sách, tạp chí
Tiêu đề: Trích chọn thông tin y tế tiếng Việt cho bài toán tìm kiếm ngữ nghĩa
3. A.McCallum, D.Freitag, and F. Pereira. Maximum entropy markov models for information extraction and segmentation. In Proc. Iternational Conference on Mechine Learning, 2000, pages 591-598 Sách, tạp chí
Tiêu đề: Maximum entropy markov models for information extraction and segmentation
5. Baohua Gu. Recognizing Named Entities in Biomedical Texts. PhD Thesis, School of Computing Science, Simon Fraser Univerisity, 2008 Summer Sách, tạp chí
Tiêu đề: Recognizing Named Entities in Biomedical Texts
6. Bickel, Peter J., Ya’acov Ritov, and Tobias Ryden. “Asymptotic normality of the maximum-likelihood estimator for general hidden Markov models.” The Annals of Statistics 26.4 (1998): 1614-1635 Sách, tạp chí
Tiêu đề: Asymptotic normality of the maximum-likelihood estimator for general hidden Markov models.” "The Annals of Statistics
Tác giả: Bickel, Peter J., Ya’acov Ritov, and Tobias Ryden. “Asymptotic normality of the maximum-likelihood estimator for general hidden Markov models.” The Annals of Statistics 26.4
Năm: 1998
7. Borthwick, A., Sterling, J., Agichtein, E., &amp; Grishman, R. (1998, August). Exploiting diverse knowledge sources via maximum entropy in named entity recognition. In Proc. of the Sixth Workshop on Very Large Corpora (Vol. 182) Sách, tạp chí
Tiêu đề: Proc. of the Sixth Workshop on Very Large Corpora
Tác giả: Borthwick, A., Sterling, J., Agichtein, E., &amp; Grishman, R
Năm: 1998
8. rill, Eric. “Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging.” Computational linguistics21.4 (1995): 543-565 Sách, tạp chí
Tiêu đề: Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging.” "Computational linguistics
Tác giả: rill, Eric. “Transformation-based error-driven learning and natural language processing: A case study in part-of-speech tagging.” Computational linguistics21.4
Năm: 1995
9. Cao, T. H., Do, H. T., Pham, B. T., Huynh, T. N., &amp; Vu, D. Q. (2005, July). Conceptual Graphs for Knowledge Querying in VN-KIM. In Contributions to the 13th International Conference on Conceptual Structures (pp. 27-40) Sách, tạp chí
Tiêu đề: Contributions to the 13th International Conference on Conceptual Structures
Tác giả: Cao, T. H., Do, H. T., Pham, B. T., Huynh, T. N., &amp; Vu, D. Q
Năm: 2005
10. Cunningham, H., Maynard, D., Bontcheva, K., Tablan, V., Ursu, C., Dimitrov, M., ... &amp; Funk, A. (2009). Developing Language Processing Components with GATE Version 5:(a User Guide). University of Sheffield Sách, tạp chí
Tiêu đề: Developing Language Processing Components with GATE Version 5:(a User Guide)
Tác giả: Cunningham, H., Maynard, D., Bontcheva, K., Tablan, V., Ursu, C., Dimitrov, M., ... &amp; Funk, A
Năm: 2009
11. D. Maynard, V. Tablan, C. Ursu, H. Cunningham, and Y. Wilks, “Named entity recognition from diverse text types,” in In Recent Advances in Natural Language Processing 2001 Conference, Tzigov Chark, 2001 Sách, tạp chí
Tiêu đề: Named entity recognition from diverse text types
12. Dien Dinh and Kiem Hoang, POS-tagger for English-Vietnamese bilingual corpus. HLTNAACL Workshop on Building and using parallel texts: data driven machine translation and beyond, 2003 Sách, tạp chí
Tiêu đề: POS-tagger for English-Vietnamese bilingual corpus
16. Mansouri, Alireza, Lilly Suriani Affendy, and Ali Mamat. “A new fuzzy support vector machine method for named entity recognition.” Computer Science and Information Technology, 2008. ICCSIT'08. International Conference on. IEEE, 2008 Sách, tạp chí
Tiêu đề: A new fuzzy support vector machine method for named entity recognition.” "Computer Science and Information Technology, 2008. ICCSIT'08. International Conference on
18. Nguyen, Truc-Vien T., and Tru H. Cao. “Vn-kim ie: automatic extraction of vietnamese named-entities on the web.” New Generation Computing 25.3 (2007): 277-292 Sách, tạp chí
Tiêu đề: Vn-kim ie: automatic extraction of vietnamese named-entities on the web.” "New Generation Computing
Tác giả: Nguyen, Truc-Vien T., and Tru H. Cao. “Vn-kim ie: automatic extraction of vietnamese named-entities on the web.” New Generation Computing 25.3
Năm: 2007
20. T. Nguyen, O. Tran, H. Phan, and T. Ha, “Named entity recognition in vietnamese free-text and web documents using conditional random fields,” Proceedings of the Eighth Conference on Some Selection Prob-lems of Information Technology and Telecommunication, Hai Phong, Viet Nam, 2005 Sách, tạp chí
Tiêu đề: Named entity recognition in vietnamese free-text and web documents using conditional random fields
21. Thao Pham T. X., Tri T. Q., Ai Kawazoe, Dien Dinh, Nigel Collier. Construction of Vietnamese corpora for Named Entity Recognition. VNU of HCMC Vietnam, National Institute of Informatics, Tokyo, Japan, tr. 1-3 Sách, tạp chí
Tiêu đề: Construction of Vietnamese corpora for Named Entity Recognition
22. Thao, P. T. X., Tri, T. Q., Dien, D., &amp; Collier, N. (2007). Named entity recognition in Vietnamese using classifier voting. ACM Transactions on Asian Language Information Processing (TALIP), 6(4), 3 Sách, tạp chí
Tiêu đề: ACM Transactions on Asian Language Information Processing (TALIP), 6
Tác giả: Thao, P. T. X., Tri, T. Q., Dien, D., &amp; Collier, N
Năm: 2007
23. Thi Minh Huyen Nguyen, Laurent Romary, Mathias Rossignol, and Xuan Luong Vu, A lexicon for Vietnamese language processing. Language Resources and Evaluation, 2007 Sách, tạp chí
Tiêu đề: A lexicon for Vietnamese language processing
25. Tran, O. T., Le, C. A., Ha, T. Q., &amp; Le, Q. H. (2009, December). An experimental study on vietnamese pos tagging. In Asian Language Processing, 2009. IALP'09. International Conference on (pp. 23-27). IEEE Sách, tạp chí
Tiêu đề: Asian Language Processing, 2009. IALP'09. International Conference on
Tác giả: Tran, O. T., Le, C. A., Ha, T. Q., &amp; Le, Q. H
Năm: 2009
26. Tran, Q. T., Pham, T. T., Ngo, Q. H., Dinh, D., &amp; Collier, N. (2007). Named entity recognition in Vietnamese documents. Progress in Informatics Journal,5, 14-17 Sách, tạp chí
Tiêu đề: Progress in Informatics Journal,5
Tác giả: Tran, Q. T., Pham, T. T., Ngo, Q. H., Dinh, D., &amp; Collier, N
Năm: 2007
28. Tuoi T.Phan, Thanh C.Nguyen, Thuy N.T.Huynh. Question Semantic Analysis in Vietnamese QA System. The Advances in Intelligent Information and Database Systems book, Serie of Studies in Computational Intelligence, Volume 283, pp.29-40, (2010) Sách, tạp chí
Tiêu đề: Question Semantic Analysis in Vietnamese QA System

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w