slike thuyết trình báo cáo tách tên riêng trong bài báo tiếng việt

Một bài toán cơ sở của việc xử lý ngôn ngữ tự nhiên đó là nhận diện loại thực thể để trích chọn ra các thông tin có ý nghĩa.. Bài toán nhận diện thực thể để chú thích thông tin là bươc

Trang 1

Xử lý ngôn ngữ tự nhiên

Đề tài: nhận diện tên người trong văn bản tiếng

việt

Giáo viên hướng dẫn : PGS TS Lê Thanh Hương Sinh viên thực hiện:

Nguyễn Hoàng Long - 20081590 Bùi Hữu Linh -20081512 Nguyễn Công Chiến-20080255

Vũ Minh Duẩn-20080433

Trang 2

1 Giới thiệu đề tài

2 Bài toán trích chọn thực thể

3 Các cách giải quyết bài toán trích chọn thực

thể

4 Chương trình

Mục lục

Trang 3

Công nghệ thông tin phát triển, trợ giúp con người ở nhiều lĩnh vực , do đó máy tính phải hiêu được con người , điều đó đưa đến việc xử lý ngôn ngữ tự nhiên trong máy tính

Một bài toán cơ sở của việc xử lý ngôn ngữ tự nhiên

đó là nhận diện loại thực thể để trích chọn ra các

thông tin có ý nghĩa

Đề tài này em đề cập đến vấn đề chú thích tên người trong văn bản tiếng việt sử dụng bài toán nhận diện thực thể qua đó hỗ trợ xây dựng một Web ngữ nghĩa

1 giới thiệu đề tài

Trang 4

Các thông tin trong văn bản là rất lớn , việc hiểu nội dung thông tin trong văn bản đòi hỏi phải biết được trong văn bản đó có những loại thực thể nào Một ví

dụ

2 Bài toán trích chọn thực

thể

Trang 5

Bài toán nhận diện thực thể để chú thích thông tin là bươc cơ sở trong số các bài toán trích chọn thông

tin, cho phép chúng ta lấy ra được các thuộc tính

của thực thể ( tên , tuổi, ngày sinh….)

Việc xác định tên người trong văn bản tiếng việt là khó khăn nhất, rất dễ nhập nhằng

Chúng ta sẽ xét một số bài toán giải quyết các vấn

đề này trong phần sau

2 Bài toán trích chọn thực

thể

Trang 6

3.1 Hướng thủ công

3.2 Mô hình Markov ẩn (HMM)

3.3 Mô hình Markov cực đại hóa entropy (MEMM) 3.4 Mô hình Condinional Random Fields(CRF)

3 Các cách giải quyết bài toán

nhận dạng thực thể

Trang 7

Phương pháp thủ công hay được dùng nhất đó là

dùng luật , rất nhiều nhiệm vụ trích chọn được thực hiện thông qua các luật

Luật thường được dùng với việc trích chọn các thông tin đặc trưng( ví dụ: số điện thoai, email,…)

Cấu trúc một luật

Giả thiết kết luận

 Giả thiết chứa các mẫu hay ngữ cảnh chúng xuất hiện , đó là các đặc trưng trong văn bản( ví dụ :

huyện Yên Dũng, tỉnh bắc Giang)

 Phần kết luận là loại nhãn gán cho thực thể

 Tuy nhiên việc xây dựng nó tốn rất nhiều công sức

3.1 Hướng thủ công

Trang 8

HMM là mô hình máy trạng thái hữu hạn với các

tham số biểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu trại mỗi một trạng thái

Các trạng thái được xem là ẩn đi bên dưới dữ liệu

quan sát sinh ra trong mô hình Ở đây thành phần quan sát được sẽ được sinh ra trước khi chuyển trạng thái tiếp theo

Trong bài toán gán nhán thực thể các nhãn là các

trạng thái bị ẩn đi còn dữ liệu quan sát được là các từ trong câu

Vấn đề trong mô hình này là việc liệt kê các trạng

thái quan sát được là không thể, để giải quyết vấn đề này đưa ra một giả thiết về sự đọc lập giữa cá dữ liệu quan sát

3.2 Mô hình Markov

ẩn(HMM)

Trang 9

Ta có công thức

P(O) có thể tính nhờ thuật toán forward-backward, việc tìm chuỗi S* làm cực đại hóa xác suất P(S|O) tương đương với việc tìm S* làm cực đại P(S,O)

3.2 Mô hình Markov ẩn

(HMM)

Trang 10

Ta có thể tính xác suất P(S,O) theo công thức sau:

Ví dụ : Alice và Bod

3.2 Mô hình Markov ẩn

Trang 11

Năm 2000, McCallum đề ra mô hình Markov ẩn với entropy lớn nhất để khắc phục nhược điểm trên

MEMM thay thế các xác suất trong HMM bởi hàm xác suất duy nhất P(|,) có nghĩa quan sát hiện tại không chỉ phụ thuộc vào trạng thái hiện tại mà còn phụ

thuộc vào trạng thái trước nó



3.3 Mô hình Markov cực đại hóa

Entropy(MEMM)

Trang 12

Ta có công thưc Markov thứ nhất

Để gán nhãn cho dữ liệu , MEMM xác định chuỗi

trạng thái S làm cực đại hóa P(S,O) trong công thưc trên

Tuy nhiên điều này nảy sinh vấn đề đó là “label bias”

3.3 Mô hình Markov cực đại hóa

Entropy(MEMM)

Trang 13

 CRF được giới thiệu vào năm 2001 bởi Laferty, cũng giống như MEMM, CRF cũng dựa trên xác suất có điều kiện,

nhưng CRF là độ thị vô hướng.

 CRF cho phép tính xác suất của toàn bộ chuỗi trạng thái ,

nó tránh khỏi vấn đề “label bias”.

 Đặt X là biến ngẫu nhiên của chuỗi dữ liệu cần gán nhãn

và Y là biến ngẫu nhiên của chuỗi tương ứng Định nghĩa của CRF như sau:

 Cho G=(V,E) là một đồ thị trong đó Y=(, do đó Y được xác định dựa trên các đỉnh của G Khi đó (X,Y) là một CRF

trong trường hợp , khi với điều kiện trên X, các biến ngẫu nhiên tuân theo thuộc tính Markov đối với đồ thị G như sau:

P(|X, ,w≠v) = P(|X, ,w~v)



3.4 Mô hình Condinional Random

Fields( CRF)

Trang 14

 Nếu X có các thông tin có quan hệ lẫn nhau thì X có cấu trúc dạng cây , thể hiện dưới dạng X=(,,….) và Y=(,,….)

 Theo lý thuyết trường ngẫu nhiên của Hammersley&

Clifford

x là chuỗi dữ liệu , y là chuỗi nhãn

y|s là tập các thành phần y có mối quan hệ với các đỉnh trong s

, là các hệ số tỉ lệ đối với các đặc điểm tương ứng.

là điểm cạnh trên chuỗi quan sát x và hai nhãn ,

là đặc điểm trạng thái trên chuỗi quan sát x,và nhãn



Fields( CRF)

Trang 15

 Trước hết CRF cho phép mô tả đa dạng các đặc điểm câu đầu vào , từ đó tăng khả năng gán nhãn chuỗi dữ liệu thông qua đặc điểm của nó , thay vì qua từ cụ thể

 Thứ hai , CRF không chỉ xét quan hẹ giữa từ và nhãn

( thông qua đặc điểm ) mà còn xác định mối quan hệ của nhãn tiếp theo dựa vào nhãn hiện tại và chuỗi từ ( thông

qua đặc điểm ).

 Thứ ba, các hệ số và cho phép tăng giảm mức độ quan

trọng của đặc điểm vì có những đặc điểm có vai trò quan trọng hơn, ảnh hưởng hơn đến xác suất gán nhãn Điều này

đã cho phép CRF giải quyết vấn đề label bias nơi mà tổng xác suất dich chuyển từ một trạng thái được bảo toàn.



Fields( CRF)

Trang 16

Bài toán đặt ra là xác định các tham số θ=(,…) từ

tập dữ liệu D=(,), với xác suất thực nghiệm (x|y) để tối đa hóa hàm mục tiêu giống nhau(log-likelohood)

 Một số hàm ước lượng tham số được sử dụng là : IIS,GIS, L-BFGs…



Fields( CRF)

Trang 17

Là công cụ gán nhãn dữ liệu dựa trên mô hình CRF

do hai tác giả Phan Xuân Hiếu, Nguyễn Lê Minh xây dựng để xử lý văn bản tiếng việt

FlexCRF được huấn luyện để tìm kiếm tham số cho phép tối ưu độ tương tự (likehood)

Độ lệch Gausian được sử dụng để làm mịn khi dữ liệu huấn luyện rời rạc

Khi các nhãn được tạo ra không có nhập nhằng thì

hàm độ tương tự trong CRF là hàm lồi

3.4.1 công cụ FlexCRF

Trang 18

 L-BFGs là một phương pháp quasi-Newton với bộ nhớ có giới hạn để tối ưu hóa hàm lồi Giả sử là chuỗi trạng thái của

chuỗi huấn luyện trong tập D khí đó thành phần gradient của

hệ số là:

 Trong đó (y|x) là số lượng đặc trưng đặc điểm tương ứng với

từ y và x( đặc điểm hay trong công thức (3) Hai thành phần đầu tiên tương ứng với sự khác nhau giữa hai giá trị thực tế và giá trị mong muốn tù mô hình đối với đặc điểm này Thành phần cuối cùng là độ lệch Gauss đạo hàm bậc nhất.



3.4.1 công cụ FlexCRF

Trang 19

Các chức năng hệ thống

• Tạo file model

• Nguồn dữ liệu đầu vào có thể là file văn bản hoặc một link web

• Xử lý văn bản đầu vào ra file đặc trưng chưa được gán nhãn sau đó xử lý qua CRF để thu được một file đã gán nhãn

Các chức năng sẽ được minh họa trong chương trình dưới đây

4 Chương trình

Trang 20

Quesion

Định dạng
Số trang	20
Dung lượng	1,01 MB