Một bài toán cơ sở của việc xử lý ngôn ngữ tự nhiên đó là nhận diện loại thực thể để trích chọn ra các thông tin có ý nghĩa.. Bài toán nhận diện thực thể để chú thích thông tin là bươc
Trang 1Xử lý ngôn ngữ tự nhiên
Đề tài: nhận diện tên người trong văn bản tiếng
việt
Giáo viên hướng dẫn : PGS TS Lê Thanh Hương Sinh viên thực hiện:
Nguyễn Hoàng Long - 20081590 Bùi Hữu Linh -20081512 Nguyễn Công Chiến-20080255
Vũ Minh Duẩn-20080433
Trang 21 Giới thiệu đề tài
2 Bài toán trích chọn thực thể
3 Các cách giải quyết bài toán trích chọn thực
thể
4 Chương trình
Mục lục
Trang 3Công nghệ thông tin phát triển, trợ giúp con người ở nhiều lĩnh vực , do đó máy tính phải hiêu được con người , điều đó đưa đến việc xử lý ngôn ngữ tự nhiên trong máy tính
Một bài toán cơ sở của việc xử lý ngôn ngữ tự nhiên
đó là nhận diện loại thực thể để trích chọn ra các
thông tin có ý nghĩa
Đề tài này em đề cập đến vấn đề chú thích tên người trong văn bản tiếng việt sử dụng bài toán nhận diện thực thể qua đó hỗ trợ xây dựng một Web ngữ nghĩa
1 giới thiệu đề tài
Trang 4Các thông tin trong văn bản là rất lớn , việc hiểu nội dung thông tin trong văn bản đòi hỏi phải biết được trong văn bản đó có những loại thực thể nào Một ví
dụ
2 Bài toán trích chọn thực
thể
Trang 5Bài toán nhận diện thực thể để chú thích thông tin là bươc cơ sở trong số các bài toán trích chọn thông
tin, cho phép chúng ta lấy ra được các thuộc tính
của thực thể ( tên , tuổi, ngày sinh….)
Việc xác định tên người trong văn bản tiếng việt là khó khăn nhất, rất dễ nhập nhằng
Chúng ta sẽ xét một số bài toán giải quyết các vấn
đề này trong phần sau
2 Bài toán trích chọn thực
thể
Trang 63.1 Hướng thủ công
3.2 Mô hình Markov ẩn (HMM)
3.3 Mô hình Markov cực đại hóa entropy (MEMM) 3.4 Mô hình Condinional Random Fields(CRF)
3 Các cách giải quyết bài toán
nhận dạng thực thể
Trang 7Phương pháp thủ công hay được dùng nhất đó là
dùng luật , rất nhiều nhiệm vụ trích chọn được thực hiện thông qua các luật
Luật thường được dùng với việc trích chọn các thông tin đặc trưng( ví dụ: số điện thoai, email,…)
Cấu trúc một luật
Giả thiết kết luận
Giả thiết chứa các mẫu hay ngữ cảnh chúng xuất hiện , đó là các đặc trưng trong văn bản( ví dụ :
huyện Yên Dũng, tỉnh bắc Giang)
Phần kết luận là loại nhãn gán cho thực thể
Tuy nhiên việc xây dựng nó tốn rất nhiều công sức
3.1 Hướng thủ công
Trang 8HMM là mô hình máy trạng thái hữu hạn với các
tham số biểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu trại mỗi một trạng thái
Các trạng thái được xem là ẩn đi bên dưới dữ liệu
quan sát sinh ra trong mô hình Ở đây thành phần quan sát được sẽ được sinh ra trước khi chuyển trạng thái tiếp theo
Trong bài toán gán nhán thực thể các nhãn là các
trạng thái bị ẩn đi còn dữ liệu quan sát được là các từ trong câu
Vấn đề trong mô hình này là việc liệt kê các trạng
thái quan sát được là không thể, để giải quyết vấn đề này đưa ra một giả thiết về sự đọc lập giữa cá dữ liệu quan sát
3.2 Mô hình Markov
ẩn(HMM)
Trang 9Ta có công thức
P(O) có thể tính nhờ thuật toán forward-backward, việc tìm chuỗi S* làm cực đại hóa xác suất P(S|O) tương đương với việc tìm S* làm cực đại P(S,O)
3.2 Mô hình Markov ẩn
(HMM)
Trang 10Ta có thể tính xác suất P(S,O) theo công thức sau:
Ví dụ : Alice và Bod
3.2 Mô hình Markov ẩn
Trang 11Năm 2000, McCallum đề ra mô hình Markov ẩn với entropy lớn nhất để khắc phục nhược điểm trên
MEMM thay thế các xác suất trong HMM bởi hàm xác suất duy nhất P(|,) có nghĩa quan sát hiện tại không chỉ phụ thuộc vào trạng thái hiện tại mà còn phụ
thuộc vào trạng thái trước nó
3.3 Mô hình Markov cực đại hóa
Entropy(MEMM)
Trang 12Ta có công thưc Markov thứ nhất
Để gán nhãn cho dữ liệu , MEMM xác định chuỗi
trạng thái S làm cực đại hóa P(S,O) trong công thưc trên
Tuy nhiên điều này nảy sinh vấn đề đó là “label bias”
3.3 Mô hình Markov cực đại hóa
Entropy(MEMM)
Trang 13 CRF được giới thiệu vào năm 2001 bởi Laferty, cũng giống như MEMM, CRF cũng dựa trên xác suất có điều kiện,
nhưng CRF là độ thị vô hướng.
CRF cho phép tính xác suất của toàn bộ chuỗi trạng thái ,
nó tránh khỏi vấn đề “label bias”.
Đặt X là biến ngẫu nhiên của chuỗi dữ liệu cần gán nhãn
và Y là biến ngẫu nhiên của chuỗi tương ứng Định nghĩa của CRF như sau:
Cho G=(V,E) là một đồ thị trong đó Y=(, do đó Y được xác định dựa trên các đỉnh của G Khi đó (X,Y) là một CRF
trong trường hợp , khi với điều kiện trên X, các biến ngẫu nhiên tuân theo thuộc tính Markov đối với đồ thị G như sau:
P(|X, ,w≠v) = P(|X, ,w~v)
3.4 Mô hình Condinional Random
Fields( CRF)
Trang 14 Nếu X có các thông tin có quan hệ lẫn nhau thì X có cấu trúc dạng cây , thể hiện dưới dạng X=(,,….) và Y=(,,….)
Theo lý thuyết trường ngẫu nhiên của Hammersley&
Clifford
x là chuỗi dữ liệu , y là chuỗi nhãn
y|s là tập các thành phần y có mối quan hệ với các đỉnh trong s
, là các hệ số tỉ lệ đối với các đặc điểm tương ứng.
là điểm cạnh trên chuỗi quan sát x và hai nhãn ,
là đặc điểm trạng thái trên chuỗi quan sát x,và nhãn
3.4 Mô hình Condinional Random
Fields( CRF)
Trang 15 Trước hết CRF cho phép mô tả đa dạng các đặc điểm câu đầu vào , từ đó tăng khả năng gán nhãn chuỗi dữ liệu thông qua đặc điểm của nó , thay vì qua từ cụ thể
Thứ hai , CRF không chỉ xét quan hẹ giữa từ và nhãn
( thông qua đặc điểm ) mà còn xác định mối quan hệ của nhãn tiếp theo dựa vào nhãn hiện tại và chuỗi từ ( thông
qua đặc điểm ).
Thứ ba, các hệ số và cho phép tăng giảm mức độ quan
trọng của đặc điểm vì có những đặc điểm có vai trò quan trọng hơn, ảnh hưởng hơn đến xác suất gán nhãn Điều này
đã cho phép CRF giải quyết vấn đề label bias nơi mà tổng xác suất dich chuyển từ một trạng thái được bảo toàn.
3.4 Mô hình Condinional Random
Fields( CRF)
Trang 16Bài toán đặt ra là xác định các tham số θ=(,…) từ
tập dữ liệu D=(,), với xác suất thực nghiệm (x|y) để tối đa hóa hàm mục tiêu giống nhau(log-likelohood)
Một số hàm ước lượng tham số được sử dụng là : IIS,GIS, L-BFGs…
3.4 Mô hình Condinional Random
Fields( CRF)
Trang 17Là công cụ gán nhãn dữ liệu dựa trên mô hình CRF
do hai tác giả Phan Xuân Hiếu, Nguyễn Lê Minh xây dựng để xử lý văn bản tiếng việt
FlexCRF được huấn luyện để tìm kiếm tham số cho phép tối ưu độ tương tự (likehood)
Độ lệch Gausian được sử dụng để làm mịn khi dữ liệu huấn luyện rời rạc
Khi các nhãn được tạo ra không có nhập nhằng thì
hàm độ tương tự trong CRF là hàm lồi
3.4.1 công cụ FlexCRF
Trang 18 L-BFGs là một phương pháp quasi-Newton với bộ nhớ có giới hạn để tối ưu hóa hàm lồi Giả sử là chuỗi trạng thái của
chuỗi huấn luyện trong tập D khí đó thành phần gradient của
hệ số là:
Trong đó (y|x) là số lượng đặc trưng đặc điểm tương ứng với
từ y và x( đặc điểm hay trong công thức (3) Hai thành phần đầu tiên tương ứng với sự khác nhau giữa hai giá trị thực tế và giá trị mong muốn tù mô hình đối với đặc điểm này Thành phần cuối cùng là độ lệch Gauss đạo hàm bậc nhất.
3.4.1 công cụ FlexCRF
Trang 19Các chức năng hệ thống
• Tạo file model
• Nguồn dữ liệu đầu vào có thể là file văn bản hoặc một link web
• Xử lý văn bản đầu vào ra file đặc trưng chưa được gán nhãn sau đó xử lý qua CRF để thu được một file đã gán nhãn
Các chức năng sẽ được minh họa trong chương trình dưới đây
4 Chương trình
Trang 20Quesion