1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu mô hình nhận dạng thực thể trong văn bản tiếng việt

49 25 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 49
Dung lượng 872,88 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Sự cần thiết của vấn đề nghiên cứu Nhận dạng thực thể trong văn bản là bài toán cơ bản và quan trọng trong nhóm các bài toán trích rút thông tin.. Việc nhận dạng các loại thực thể trong

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH

NGUYỄN MINH SƠN

NGHIÊN CỨU MÔ HÌNH NHẬN DẠNG THỰC THỂ

TRONG VĂN BẢN TIẾNG VIỆT

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

Nghệ An, tháng 6/2017

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC VINH

NGUYỄN MINH SƠN

NGHIÊN CỨU MÔ HÌNH NHẬN DẠNG THỰC THỂ

TRONG VĂN BẢN TIẾNG VIỆT

Chuyênngành: Côngnghệthông tin

Mãsố: 60.48.02.01

LUẬN VĂN THẠC SỸ CÔNG NGHỆ THÔNG TIN

Người hướng dẫn khoa học: TS TrầnXuân Sang

Nghệ An, tháng 6/2017

Trang 3

Đặc biệt em xin chân thành cảm ơn TS Trần Xuân Sang đã tận tâm chi bảo

và hướng dẫn để đề tài được hoàn thành Vì thời gian và kiến thức còn hạn chế nên luận văn của em không tránh khỏi những thiếu sót Em rất mong nhận được

sự góp ý chân thành của thầy cô và bạn bè

Cuối cùng em xin chân thành cảm ơn tới gia đình, bạn bè và các đồng nghiệp đã giúp đỡ em trong quá trình học tập nghiên cứu và hoàn thành luận văn

Vinh ngày 15 tháng 05 năm 2017

Học viên

Nguyễn Minh Sơn

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình tìm hiểu và nghiên cứu của tôi, có sự hỗ trợ của giáo viên hướng dẫn Các nghiên cứu và kết quả trong đề tài này là trung thực và chưa được công bố

Vinh ngày 15 tháng 05 năm 2017

Học viên

Nguyễn Minh Sơn

Trang 5

MỤC LỤC

1 Sự cần thiết của vấn đề nghiên cứu 1

2 Mục tiêu nghiên cứu 1

2.1 Mục tiêu tổng quát 2

2.2 Mục tiêu cụ thể 2

3 Đối tượng và phạm vi nghiên cứu 2

3.1 Đối tượng nghiên cứu 2

3.2 Phạm vi nghiên cứu 3

4 Nội dung nghiên cứu 3

5.Tổng quan về tình hình nghiên cứu 3

5.1 Tình hình nghiên cứu trên thế giới 3

5.2 Tình hình nghiên nghiên cứu trong nước 4

6 Kết cấu của luận văn 4

Chương 1 Tổng quan 5

1.1 Đặt vấn đề 5

1.2 Tổng quan về hệ thống nhận dạng thực thể 5

1.2.1 Cơ sở lý luận của bài toán 5

1.2.2 Cơ sở thực tiễn của bài toán 5

1.2.3 Các phương pháp để nhận dạng thực thể có trong văn bản 6

1.3 Trích chọn thông tin 6

1.4 Bài toán nhận biết các loại thực thể 6

1.5 Mô hình hoá bài toán nhận biết các loại thực thể trong tiếng Việt 7

1.6 Ý nghĩa của bài toán 9

Chương 2 Các hướng tiếp cận để giải quyết bài toán nhận dạng thực thể trong tiếng Việt 2.1 Giới thiệu 10

2.2 Các hướng tiếp cận để giải quyết bài toán 11

Trang 6

2.2.1 Phương pháp dựa trên hệ luật 11

2.2.2 Phương pháp tiếp cận lai 12

2.2.3 Phương pháp sử dụng mô hình học máy 12

2.3 Mô hình Markov 13

2.4 Mô hình Markov ẩn 15

2.5 Các bài toán cơ bản của mô hình Markov ẩn 17

Chương 3 Thiết kế hệ thống nhận dạng các loại thực thể trong văn bản tiếng Việt 3.1 Mô tả bài toán nhận dạng thực thể trong văn bản tiếng Việt 28

3.2 Hướng giải quyết bài toán 29

3.3 Dữ liệu thực nghiệm và tập nhãn các từ loại 35

3.4 Các mẫu ngữ cảnh của bài toán nhận dạng thực thể 35

3.4.1 Các mẫu ngữ cảnh thể hiện đặc điểm của từ 35

3.4.2 Các mẫu ngữ cảnh dạng từ điển 36

3.4.3 Các mẫu ngữ cành dạng biểu thức chính quy 37

3.6 Phần thực nghiệm 38

Kết luận 41

Tài liệu tham khảo 43

Trang 7

MỞ ĐẦU

1 Sự cần thiết của vấn đề nghiên cứu

Nhận dạng thực thể trong văn bản là bài toán cơ bản và quan trọng trong nhóm các bài toán trích rút thông tin Nó có nhiệm vụ nhận dạng và phân loại các thực thể như: con người, tổ chức, địa điểm Việc trích chọn các thực thể được sử dụng một cách rộng rãi trong nhiều lĩnh vực như xử lý ngôn ngữ, thu thập thông tin, dịch tự động Việc nhận dạng các loại thực thể trong văn bản đóng vai trò rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, là bước tiền xử lý của nhiều bài toán và một số hệ thống thông minh khác, tuy nhiên việc nghiên cứu này tại Việt Nam đang còn ở giai đoạn ban đầu nên nhu cầu về lý thuyết và ứng dụng đều còn rất lớn

Đối với các văn bản tiếng Việt việc trích chọn các thực thể còn gặp nhiều khó khăn do việc phân loại từ trong tiếng Việt cho đến nay vẫn chưa có một chuẩn mực thống nhất

Việc thực nghiệm trên văn bản bằng tiếng Việt cho kết quả khả quan tuỳ vào đặc trưng của mỗi mô hình, thời gian xử lý cũng như độ chính xác của nó Các vấn đề trong luận văn sẽ góp một phần hữu ích trong việc lựa chọn phương pháp thích hợp để giải quyết bài toán để phục vụ cho việc tiến hành các nghiên cứu ở mức cao hơn

Hiện nay hầu hết các hệ thống nhận dạng thực thể đều dựa vào một tập hữu hạn gồm các loại thực thể thông thường Trong thực tế nếu trích chọn được các thực thể trong một văn bản thì cũng phần nào giúp cho chúng ta hình dung một cách tổng quát nội dung một của văn bản Từ thực tế đó tôi hướng tới việc nghiên cứu mô hình nhận dạng thực thể trong văn bản tiếng Việt

2 Mục tiêu nghiên cứu

2.1 Mục tiêu tổng quát

Trang 8

Nghiên cứu việc gán nhãn thực thể dựa vào phương học máy sử dụng mô hình Markov ẩn trong văn bản tiếng Việt

2.2 Mục tiêu cụ thể

+ Nghiên cứu tổng quan về bài toán nhận dạng thực thể

+ Nghiên cứu phương pháp học máy sử dụng mô hình Markov ẩn

+ Nghiên cứu giải quyết các bài toán cơ bản của mô hình Markov ẩn

+ Nghiên cứu thuật toán Vierbi để tìm ra nhãn thực thể tối ưu cho bài toán

3 Đối tượng và phạm vi nghiên cứu

3.1 Đối tượng nghiên cứu

Trích chọn các thực thể có tên là một công việc của xử lý ngôn ngữ tự nhiên trên máy tính Nhiệm vụ chính của nó là tìm kiếm và phân lớp các từ vào các nhóm đối tượng như: Tên người, địa điểm, ngày tháng năm, tiền tệ… và cả những loại thực thể không thuộc những dạng kể trên Để thực hiện được việc trích chọn thông tin thì hệ thống phải có khả năng thực hiện một số công việc đơn giản

và trích chọn thực thể là một trong những yêu cầu đầu tiên của hầu hết các hệ thống

Để có thể xác định được mối quan hệ giữa các thực thể thì trước hết ta phải xác định được đâu là các thực thể tham gia trong đó, do vậy bài toán trích chọn thực thể là một trong những bài toán cơ bản nhất trước khi tính đến giải quyết các bài toán phức tạp hơn

3.2 Phạm vi nghiên cứu

Có nhiều phương pháp được sử dụng để giải quyết bài toán trích chọn thực thể từ các phương pháp dựa trên hệ luật đến các phương pháp học máy như: Mô hình Markov ẩn, mô hình cực đại hóa Entropy, mô hình trường điều kiện ngẫu nhiên CRF… Mỗi phương pháp đều cho kết quả khác nhau trong các trường hợp

cụ thể Do thời gian và hiểu biết có giới hạn nên trong luận văn này tập trung

Trang 9

nghiên cứu mô hình nhận dạng thực thể trong các văn bản tiếng Việt sử dụng mô hình Markov ẩn

4 Nội dung nghiên cứu

Nội dung nghiên cứu chính của luận văn là áp dụng mô hình Mavkov cho bài toán nhận biết các loại thực thể trong văn bản tiếng Việt

5 Tổng quan về tình hình nghiên cứu

5.1 Tình hình nghiên cứu trên thế giới

Mô hình Markov ẩn được giới thiệu và nghiên cứu vào cuối những năm

1960 và đầu những năm 1970 Trong đó phương pháp nhận dạng các loại thực thể dựa trên mô hình này được áp dụng thành công cho văn bản tiếng Anh với độ chính xác trên 90%

Tiêu biểu của phương pháp này là bộ gán nhãn TnT của tác giả Thorsten Brant sử dụng phương pháp Tri-gram cho kết quả 96.7% với tập nhãn Penn TreeBank và bộ ngữ liệu WallStreet trong tiếng Anh QTGA là một bộ gán nhãn dựa trên mô hình Markov ẩn do nhóm nghiên cứu Corpus Research thuộc trường đại học Birmingham phát triển cho mục đích nghiên cứu, đặc điểm nổi bật của nó là mặc dù được xây dựng cho tiếng Anh nhưng nó có thể được huấn luyện để sử dụng cho các ngôn ngữ khác, ví dụ trong bài toán gãn nhãn từ loại tiếng Trung Quốc sử dụng mô hình HMM đạt 93.5%, tiếng Bồ Đào Nha đạt kết quả 93.48% của hai tác giả Fa’bino N.Kepler và Marcelo Finger

5.2 Tình hình nghiên cứu trong nước

Tại Việt Nam tính đến nay đã có một số công bố chính thức liên quan đến bài toán nhận biết các loại thực thể Trong đó tiêu biểu là sản phẩm của nhóm VLSP với bộ công cụ gán nhãn sử dụng mô hình học máy MEM và CRF được huấn luyện trên tập gồm 20.000 câu tiếng Việt có độ chính xác 93%

Nhóm nghiên cứu của các tác giả Nguyễn Quang Châu, Phan Thị Tươi, Cao Hoàng Trụ đề xuất phương án gán nhãn cho từ loại tiếng Việt dựa trên văn

Trang 10

phong và tính xác suất với kho ngữ liệu gồm 75.000 từ tiếng Việt và từ điển gồm 80.000 mục từ , nhóm tác giả này xây dựng hệ thống kết hợp bộ gán nhãn Tri-gram dựa trên văn phong, đây thực chất là căn cứ vào cách thể hiện văn bản trong một ngữ cảnh cụ thể để xác định từ loại và đạt tới độ chính xác trên 80%

Nhóm nghiên cứu của tác giả Nguyễn Thị Minh Huyền đã tiến hành nghiên cứu sửa đổi phần mềm QTAG (do trường đại học tổng hợp Birmingham phát triển) được xây dựng cho tiếng Anh để thích nghi với văn bản bằng tiếng Việt Nhóm tác giả đã tiến hành kiểm thử trên một số loại văn bản khác nhau bao gồm hơn 64.000 lượt từ trong đó có 9 nhãn từ vựng và 10 nhãn cho các loại ký hiệu đạt

độ chính xác gần 94%

Nhóm nghiên cứu của tác giả Phan Xuân Hiếu, Nguyễn Cẩm Tú dựa trên

mô hình MEM và CRF cài đặt bằng ngôn ngữ lập trình Java và được huấn luyện bằng dữ liệu khoảng 10.000 câu của Viet Treebank và tập nhãn của nó đạt kết quả 91.03%

6 Kết cấu của luận văn

Luận văn được tổ chức thành các chương như sau:

Chương 1: Giới thiệu tổng quan về bài toán trích chọn thông tin, bài toán trích chọn thực thể trong văn bản tiếng Việt và các ứng dụng của nó

Chương 2: Trình bày một số hướng tiếp cận đề giải quyết bài toán trích chọn thực thể như phương pháp học máy, phương pháp dựa trên hệ luật, phương pháp lai Chương này tập trung nghiên cứu 3 bài toán cơ bản của mô hình Markov

ẩn và các thuật toán kèm theo

Chương 3: Thiết kế hệ thống nhận dạng các loại thực thể sử dụng mô hình Markov ẩn Chương này nghiên cứu việc gán nhãn các loại thực thể nhận biết được và hướng phát triển của luận văn trong thời gian tới

Trang 11

CHƯƠNG 1 TỔNG QUAN 1.1 Đặt vấn đề

Với sự bùng nổ của ngành công nghệ thông tin những năm gần đây thì những bài toán về xử lý thông tin như: trích chọn, tóm tắt nội dung văn bản ra đời như một nhu cầu của thực tế Bài toán nhận dạng thực thể là một bài toán cơ bản trong nhóm các bài toán về trích rút thông tin Nó có nhiệm vụ tìm kiếm và trích rút các thông tin liên quan đến thực thể Ý thức được tầm quan trọng như vậy nên trong đề tài này em hướng tới việc nghiên cứu mô hình nhận dạng văn bản tiếng Việt dựa trên mô hình Markov ẩn

1.2 Tổng quan về hệ thống nhận dạng thực thể

1.2.1 Cơ sở lý luận của bài toán

Xứ lý ngôn ngữ từ lâu đã trở thành một bài toán quan trọng trong các ứng dụng công nghệ thông tin đặc biệt là tìm kiếm, dịch tự động và ứng dụng xử lý ngôn ngữ cho Tiếng Việt cũng không phải là ngoại lệ Chẳng hạn như đối với bài toán tìm kiếm thông tin, khi tìm kiếm người dùng thường đưa vào một số lượng nhỏ từ khóa cần tìm và kết quả tìm kiếm cũng cần phải kiểm tra để đưa ra một số lượng nhất định các từ phù hợp Để giải quyết vấn đề này việc tìm kiếm dựa trên

từ khóa là chưa đủ Thực tế cho thấy các thực thể ẩn chứa trong đó cũng làm nổi bật các thông tin cần tìm kiếm, do vậy trích chọn thực thể đã trở thành bài toán cơ bản nhất trong các bài toán trích chọn thông tin và đóng vai trò quan trọng trong việc quyết định hiệu quả tìm kiếm

1.2.2 Cơ sở thực tiễn của bài toán

Nhận dạng thực thể có tên được nhiều nhà khoa học trên thế giới nghiên cứu nhiều trong gần 20 năm qua Lần đầu được giới thiệu tại hội nghị MUC6[6,9] bởi Grishman và Sundheim và sau đó vào năm 1998 tại MUC7 chinchor và Robinson cũng có thêm những trình bày mở rộng hơn cho lĩnh vực nghiên cứu

Trang 12

này Ban đầu nhận dạng thực thể có tên chỉ tập trung nghiên cứu như Tiếng Anh, Tiếng Trung, Tiếng Nhật và một số ngôn ngữ khác

1.2.3 Các phương pháp để nhận dạng thực thể có trong văn bản

Trên thế giới đã có nhiều phương pháp gán nhãn từ loại được áp dụng thành công cho văn bản bằng tiếng Anh với độ chính xác trên 90% như mô hình Markov ẩn, mô hình học máy dựa trên hệ luật, mô hình Markov cực đại hóa Entropy…Trong đó bộ gán nhãn dựa trên mô hình Markov ẩn được xây dựng cho tiếng Anh có độ chính xác từ 90 đến 95% Có nhiều phương pháp gán nhãn từ loại được áp dụng thành công cho văn bản tiếng Anh với độ chính xác trên 95%

1.3 Trích chọn thông tin

Không giống như hiểu toàn bộ văn bản, các hệ thống trích chọn thông tin chỉ cố gắng nhận biết một số dạng thông tin đáng quan tâm Có nhiều mức độ trích chọn thông tin từ văn bản như xác định các thực thể, xác định các quan hệ thực thể, xác định đồng tham chiếu Các kỹ thuật được sử dụng trong trích chọn thông tin gồm có: phân đoạn, phân lớp và phân cụm

Kết quả của một hệ thống trích chọn thông tin thường là các mẫu (Template) chứa một số lượng xác định các trường hợp đã được điền thông tin

1.4 Bài toán nhận biết các loại thực thể

Con người, thời gian, địa điểm… là những đối tượng cơ bản trong một văn bản dù ở trong bất kỳ một ngôn ngữ nào và mục đích chính của bài toán nhận biết các loại thực thể là xác định các đối tượng có trong đoạn văn bản đó

Nhận biết các loại thực thể được xem là bước tiền xử lý làm đơn giản hóa các bài toán như dịch máy, tóm tắt văn bản và đóng vai trò là một thành phần cơ bản cho các bài toán trích chọn thông tin phức tạp hơn

Tuy là bài toán cơ bản trong trích chọn thông tin nhưng vẫn tồn tại một lượng lớn các trường hợp nhập nhằng do sự đa dạng trong Tiếng việt bởi một số nguyên nhân sau đây:

Trang 13

+ Thiếu bộ dữ liệu huấn luyện và các nguồn tài nguyên có thể tra cứu + Thiếu các thông tin Ngữ pháp và các thông tin về cụm danh từ, cụm động

từ cho tiếng Việt trong khi các thông tin này giữ vai trò quan trọng trong việc nhận biết các dạng thực thể

+ Phần lớn vốn từ vựng của tiếng Việt là các từ đa âm tiết Cùng một sự vật, hiện tượng, một hoạt động hay một đặc trưng có thể được biểu hiện bởi nhiều

từ ngữ khác nhau gây khó khăn khi xây dựng hệ thống trích rút thực thể

+ Ngữ pháp Việt Nam phức tạp với hiện tượng đồng âm khác nghĩa, từ đồng nghĩa hay đảo trật tự câu và các phép tu từ dẫn đến nhập nhằng trong việc xác định ý nghĩa của câu

+ Chưa có tập cơ sở dữ liệu gán nhãn Tiếng Việt với kích thước đủ lớn để tiến hành thí nghiệm và đánh giá hiệu năng của phương pháp

* Một số ví dụ cụ thể:

Ví dụ 1: “Hà nội đã thua Sông lam Nghệ An trong trận đấu giao hữu chiều

hôm qua”

2 địa danh ở Việt Nam

Ví dụ 2: Bác là người đã tìm ra con đường giải phóng dân tộc Việt Nam

Ở đây hệ thống không thể nhận biết được từ “Bác” là tên riêng của Hồ Chí Minh

1.5 Mô hình hóa bài toán nhận biết các thực thể trong tiếng Việt

Mục đích của bài toán nhận dạng thực thể trong văn bản nói chung thực chất là đi tìm câu trả lời cho câu hỏi: Ai, ở đâu, bao giờ… Đây là trường hợp cụ thể của bài toán gán nhãn cho dữ liệu dạng chuỗi

Các loại thực thể thường có trong một văn bản:

Trang 14

Thực thể chỉ địa điểm (Location)

Trong các loại thực thể trên thì các loại: Thực thể chỉ ngày (Date), thực thể chỉ thời gian (Time), thực thể chỉ các đơn vị tiền tệ (Money), thực thể kiểu số (Num) thường ít mang tính nhập nhằng và không khó để có thể nhận dạng ra chúng, Ngoài ra có thể có thêm nhiều loại thực thể mang tính đặc thù riêng

Bài toán có thể được mô tả như sau:

Ví dụ về một hệ thống trích chọn thông tin (Nguồn Internet)

Trang 15

1.6 Ý nghĩa của bài toán

+ Trích chọn thông tin luôn là bước đi đầu tiên của nhiều ứng dụng thực tế

và việc trích chọn các thực thể cũng tương tự như vậy

+ Được xem như là bước tiền xử lý làm đơn giản hóa các bài toán như dịch máy, tóm tắt văn bản

+ Đóng vai trò là một thành phần cơ bản cho các bài toán trích chọn thông tin phức tạp hơn

+ Hệ thống nhận diện các loại thực thể cho tiếng Việt sẽ làm tiền đề cho việc giải quyết các bài toán trích chọn thông tin từ các tài liệu tiếng Việt cũng như

hỗ trợ cho việc xử lý ngôn ngữ tiếng Việt

+ Xây dựng các máy tìm kiếm hướng thực thể

+ Hỗ trợ hệ thống tự động tóm tắt văn bản

Trang 16

CHƯƠNG 2 CÁC HƯỚNG TIẾP CẬN ĐỂ GIẢI QUYẾT BÀI TOÁN NHẬN DẠNG THỰC THỂ TRONG VĂN BẢN TIẾNG VIỆT

2.1 Giới thiệu

Mô hình Markov ẩn được giới thiệu và nghiên cứu vào đầu những năm

1970 Cho đến nay nó được ứng dụng nhiều trong nhận dạng tiếng nói và xử lý ngôn ngữ tự nhiên, là một công cụ thống kê mạnh trong việc mô hình hóa các chuỗi có thể sinh ra

Trong việc xử lý ngôn ngữ tự nhiên NLP (Natural Language Processing), HMM đã được ứng dụng với những thành công to lớn trong việc giải quyết các vấn đề như trích thuộc tính của tiếng nói, phân khúc các cụm từ bởi vì các lý do Thứ nhất, mô hình này đạt độ chính xác cao trong nhiều ứng dụng; Thứ hai, cấu trúc của mô hình có thể thay đổi để phù hợp với từng ứng dụng cụ thể

Mô hình Markov ẩn (Hidden Markov Model-HMM) là một mô hình thống kê trong đó hệ thống mô hình hóa được cho là một quá trình Markov với các tham số không biết trước

Nhiệm vụ chính là xác định các tham số ẩn từ các tham số quan sát được, các tham số của mô hình được rút ra có thể được sử dụng để thực hiện các phân tích kế tiếp

Các ứng dụng phổ biến của mô hình Markov ẩn:

+ Tin sinh học: là lĩnh vực khoa học sử dụng công nghệ của các ngành toán học ứng dụng, tin học, khoa học máy tính, thống kê, trí tuệ nhân tạo

+ Xử lý tín hiệu, phân tích dữ liệu dạng mẫu

+ HMM được sử dụng nhiều trong phân tích ngôn ngữ như: Nhận dạng tiếng nói, tín hiệu âm thanh, từ ngữ

+ Phân loại và gán thẻ cho từ ngữ

Trang 17

+ Hệ thống dịch ngôn ngữ

2.2 Các hướng tiếp cận để giải quyết bài toán

Có 3 hướng tiếp cận chính cho bài toán nhận dạng thực thể trong văn bản

đó là: Hướng tiếp cận sử dụng các hệ luật được xây dựng bởi các chuyên gia hay còn gọi là hướng tiếp cận thủ công, hướng tiếp cận sử dụng phương pháp học máy

và hướng tiếp cận lai Trong ba hướng giải quyết trên thì mỗi hướng giải quyết đều có ưu điểm và nhược điểm riêng

2.2.1 Phương pháp dựa trên hệ luật

Không yêu cầu phải có tập dữ liệu đã được gán nhãn, hệ thống có thể hoạt động được ngay khi hệ luật được hình thành, tuy nhiên trên thực tế mỗi luật đều chứa một số lượng lớn các ngoại lệ mà ngay khi các nhà phát triển nghĩ đến thì vẫn tồn tại các trường hợp xuất hiện khi hệ thống được đưa vào thực nghiệm, cho

dù một hệ thống rất lớn nhưng cũng không thể bao quát hết được tất cả các trường hợp Tiêu biểu cho nhóm này là hệ thống nhận biết các loại thực thể Proteous của trường Đại học NewYork tham gia MUC-6, hệ thống này được viết bằng LISP được hỗ trợ bởi một số lượng lớn các luật

Đây là phương pháp ra đời sớm nhất Nội dung chính của phương pháp

này là xây dựng một cơ sở dữ liệu các luật được viết bằng tay, các luật này được xây dựng vào ngữ cảnh chứa từ đang xét để loại bỏ nhập nhằng Về cơ bản phương pháp này dựa kỹ thuật gồm có các bước như sau:

(nếu-thì) và dựa vào ngữ cảnh hiện tại để chọn ra một nhãn thích hợp nhất trong số các nhãn có thể có, vì vậy bước này đóng vai trò như một bộ lọc của hệ thống

Tuy nhiên trên thực tế phương pháp này thường được áp dụng kết hợp với các phương pháp khác mới đem lại hiệu quả khi sử dụng

Trang 18

2.2.2 Phương pháp tiếp cận lai

Phương pháp này có tên gọi là phương pháp học có giám sát gồm có cả hai đặc trưng đó là dựa vào luật để xác định một từ nhập nhằng có khả năng là một nhãn nào nhất, nó cũng có một thành phần học máy để tạo ra các luật một cách tự động từ bộ dữ liệu huấn luyện đã được gán nhãn trước Phương pháp này dựa trên

ý tưởng là bắt đầu với một số các giải pháp đơn giản và từng bước áp dụng các luật chuyển đổi để tìm ra chuỗi tốt nhất, quá trình dừng lại khi không còn luật chuyển tối ưu nào khác

Đại diện tiêu biểu cho phương pháp này là bộ gán nhãn Brill’s sử dụng ngôn ngữ tiếng Anh đem lại kết quả khả quan với độ chính xác lên đến 97% đối với tập ngữ liệu Wall Street Journal

Thuật toán bao gồm các bước sau đây:

Bước 1: Gán nhãn cho thực thể bằng các nhãn thông dụng

Bước 2: Lựa chọn nhãn có tính quyết định thay thế nhãn cũ ít lỗi hơn Bước 3: Thực hiện phép chuyển trên toàn bộ dữ liệu huấn luyện

Bước 4: Lặp lại các bước trên

2.2.3 Hướng tiếp cận sử dụng phương pháp học máy

Việc xây dựng một hệ thống trích chọn dựa trên các luật là tốn công sức, thông thường để xây dựng được một hệ thống như vậy thì đòi hỏi công sức từ vài tháng của lập trình viên có nhiều kinh nghiệm về ngôn ngữ học Câu trả lời cho giới hạn này là phải xây dựng được một hệ thống bằng cách nào đó có thể “tự học” điều này sẽ giúp giảm bớt sự tham gia của các chuyên gia ngôn ngữ và làm tăng tính khả chuyển cho hệ thống Tuy nhiên phương pháp này đòi hỏi phải có một tập dữ liệu đã được gán nhãn sẵn đủ lớn cho quá trình huấn luyện

Trong phần này sẽ xem xét một phương pháp học máy tiêu biểu để giải quyết nhập nhằng bằng cách sử dụng một bộ huấn luyện dữ liệu để tính toán xác

Trang 19

suất của từ cho sẵn sẽ được gắn với một nhãn nào đó trong ngữ cảnh cho trước đó

là phương pháp trích chọn thực thể sử dụng mô hình Markov ẩn

2.3 Mô hình Markov

Trước khi đi vào nghiên cứu về mô hình Markov ẩn để giải quyết bài toán,

ta cần tìm hiểu qua một số khải niệm và ví dụ về mô hình Markov

- Một dãy trạng thái ngẫu nhiên được gọi là có thuộc tính Markov nếu như xác suất chuyển sang trạng thái tiếp theo chỉ phụ thuộc vào trạng thái hiện tại và quá khứ

- Một dãy chuyển trạng thái quan sát được gọi là chuỗi Markov hay xích Markov

- Trong xích Markov có n trạng thái : s1,s2….sn Tại bước thời gian thứ t, hệ thống ở một trong các trạng thái trên gọi là qt với qt €{s1,s2….sn}

- Giữa mỗi bước thời gian, trạng thái tiếp theo được chọn một cách ngẫu nhiên Trạng thái hiện tại sẽ quyết định xác suất phân bổ của trạng thái tiếp theo (ký hiệu bằng vòng cung kết nối đến các trạng thái)

-Trạng thái qt+1 độc lập có điều kiện với các trạng thái {qt-1,qt-2,….q1,q0}

 P(A) được gọi là xác suất trước

 P(A|B) được gọi là xác suất sau hay xác suất có điều kiện, có nghĩa là xác suất xuất hiện A đối với B

Để dễ hình dung sau đây ta xét một số ví dụ về bài toán dự báo thời tiết, có

3 loại thời tiết là trời nắng, trời mưa, trời có mây Bài toán dự báo thời tiết là làm

sao biết được thời tiết của ngày hôm nay khi đã biết được thời tiết của của những ngày trước đó

 Ta gọi qn là thời tiết của ngày hôm nay

 Thời tiết của các ngày trước đó là: qn-1, qn-2,….,q1

Để tìm xác suất của ngày hôm nay chúng ta thực hiện theo công thức sau đây:

P(qn | qn-1,qn-2,… ,q1) (1)

Trang 20

Công thức (1) ở trên có nghĩa là một khi đã biết qn-1,qn-2,….q1 ( thời tiết của các ngày trước đó) thì tính được xác suất chưa biết ngày hôm nay là qn={“nắng”,

”mưa” , “ mây”} là bao nhiêu

Ví dụ 1 : Cho mô hình thời tiết biểu diễn bởi các trạng thái:

- Trạng thái 1: Trời mưa

- Trạng thái 2: Trời mây

2 0 6 0 2 0

3 0 3 0 4 0

Giả sử thời tiết của ngày thứ nhất là trời nắng Tính xác suất xảy ra chuỗi thời tiết trong 3 ngày tiếp theo là “ mưa, mây, nắng” thông qua mô hình được hay không? Ta có

Gọi O là chuỗi thời tiết quan sát được trong 4 ngày

Dãy quan sát O là (nắng, mưa, mây, nắng)

P(O)= P[3,1,2,3]

= P[3]*P[1,3]*P[2,1]*P[3,2]

= π3* a31*a12*a23

= 1*a31*a12*a23 = 1*0.1*0.3*0.2= 0.006Trong đó πi là xác suất khởi đầu của trạng thái Si với

πi = p(q1 = Si) , 1≤ i ≤ N

Ví dụ về mô hình Markov 3 trạng thái

Trang 21

2.4 Mô hình Markov ẩn

Trong mô hình Markov đã nhắc đến ở trên ta giả sử rằng mỗi trạng thái có thể là duy nhất tương ứng với một bằng chứng quan sát được, khi có được một quan sát trạng thái ghi nhận của hệ thống sẽ không còn nhiều giá trị sử dụng, do vậy với mô hình Markov còn gặp nhiều hạn chế trong việc mô hình hoá hay giải quyết các vấn đề phức tạp Xuất phát từ thực tế đó ta cần xây dựng một hình linh động hơn bằng cách giả sử rằng những quan sát được của mô hình là một hàm xác suất của mỗi trạng thái

HMM là mô hình máy hữu hạn trạng thái trong đó hệ thống được mô hình hóa được cho là quá trình Markov với các tham số không biết trước và nhiệm vụ là xác định các tham số ẩn từ tham số quan sát được Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp cho các ứng dụng nhận dạng mẫu

Trong mô hình Markov điển hình trạng thái được quan sát trực tiếp bởi một người quan sát vì vậy các xác suất chuyển tiếp trạng thái là tham số duy nhất

Các trạng thái trong mô hình HMM được xem là ẩn bên dưới dữ liệu quan sát sinh ra do mô hình Quá trình sinh ra chuỗi dữ liệu quan sát trong HMM thông qua một loạt các bước chuyển trạng thái xuất phát từ trạng thái bắt đầu và dừng lại ở trạng thái kết thúc

Trang 22

Hình 1: Mô hình hóa HMM dạng đồ thị có hướng

Hình 2: Mô hình Markov ẩn 3 trạng thái

Hình 2 minh hoạ mô hình Markov ẩn 3 trạng thái với các sự kiện có thể quan sát được trong mỗi trạng thái là V= {v1, v2, v3, v4}

Khả năng quan sát được sự kiện vk của trạng thái Sj phụ thuộc vào hàm xác suất bj(k) trong đó b được gọi là hàm mật độ xác suất của các sự kiện được quan sát

Sau đây ta xét thêm một ví dụ điển hình minh hoạ cho mô hình Markov

ẩn đó đó hệ thống bình cầu: Giả sử có N cái bình, trong mỗi bình có M quả cầu với các màu sắc khác nhau Ta chọn ngẫu nhiên một quả cầu bên trong bình và màu sắc của quả cầu sẽ được ghi nhớ và xem như đó là một sự kiện quan sát được Sau đó quả cầu được trả lại chỗ cũ, từ vị trí của bình hiện tại ta chuyển sang chọn ngẫu nhiên một quả cầu khác trong các bình tiếp theo và ghi nhận lại màu sắc như là sự kiện quan sát thứ 2 Tiến trình được lặp đi lặp lại, với T lần lặp ta sẽ có T sự kiện quan sát được

Trang 23

P (lam) = b2(M)

………

Bình N P(đỏ) = bN(1) P(tím) = bN(2) P(vàng) = bN(3) P(xanh) = bN(4)

P (lam) = bN(M)

………

Trong hệ thống bình cầu minh hoạ ở trên có N trạng thái và M tín hiệu quan sát trong mỗi trạng thái trong đó các trạng thái ứng với các bình, các tín hiệu quan sát ứng với màu sắc các quả cầu trong bình, Khả năng chuyển từ một bình này sang bình khác là xác suất chuyển trạng thái, việc chọn ngẫu nhiên một quả cầu trong bình bị chi phối bởi hàm mật độ xác suất của các tín hiệu quan sát Trong chuỗi kết xuất của hệ thống bình cầu ta chỉ biết được thông tin

về màu sắc của các quả cầu rút ra ở thời điểm tương ứng nhưng không biết được rằng quả cầu được rút ra tại bình nào Các bình được xem là “ẩn” so với kết quả quan sát được

2.5 Các bài toán cơ bản của mô hình Markov ẩn

Bài toán 1: Cho trước chuỗi tín hiệu quan sát O=O 1 , O 2 ,…O T và mô hình Markov ẩn đại diện bởi bộ tham số λ=(A, B, π) Tính p(O|λ) một cách hiệu quả nhất?

Trước hết ta xác định các tham số trong bộ λ=(A, B, π)

- A: Xác suất chuyển trạng thái

A= {aij} trong đó aij=p(qt+1=Sj|qt=Si), 1≤i, j≤N

Trang 24

q1 , 2

πq1bq1(O1)aq1q2b2(O2)…aqT-1qTbqt(OT) (1)

Tuy nhiên để xác định p(O|λ) theo cách tính như trên là không khả thi do khối lượng tính toán quá lớn và phức tạp nên không thể thực hiện được bằng cách tính trực tiếp Một giải pháp được đưa ra cho vấn đề này là thông qua thủ tục forward – backward

1 Thủ tục forward

Các bước thực hiện như sau:

Bước 1: Khởi tạo: α1(i) = πibi(O1) với 1≤i≤N

Ngày đăng: 10/02/2021, 21:58

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Diệp Quang Ban, (2004), Ngữ pháp Việt Nam, Nxb Đại học sư phạm 2. Nguyễn Văn Châu, Phan Thị Tươi, Cao Hoàng Trụ,(2006),” Gán nhãn từ loại cho Tiếng Việt dựa trên văn phong và tính xác suất”, Tạp chí KH&CN, tập 9 số Khác
3. Nguyễn Việt Cường. Bài toán lọc và phân lớp nội dung Web tiếng Việt với hướng tiếp cận Entropy cực đại. Luận văn tốt nghiệp ĐHCN 2005 Khác
4. Trần Thị Oanh. Mô hình tách từ, gán nhãn từ loại và hướng tiếp cận tích hợp cho tiếng Việt. Luận văn cao học trường đại học Công nghệ, Đại học quốc gia Hà Nội, 2008.II. Tài liệu tham khảo bằng tiếng Anh Khác
1. A.McCallum,D.Freitag, and F.Pereia. Maximum entropy Markov models for information extraction and segmentation. In Proc. Interrational Conference on Machine learning,2000 Khác
2. Adam Berger. The improved Iterative Scaling Algorithm: A gentle introduction. School of Coputer Science.Carnegie Mellon Unversity Khác
3. H.M.Wallach. Efficient training of conditional random fields. Master’s thesis, University of Edinburgh,2002 Khác
4. Hana Wallach. Efficient Training of Conditional Random Fields. M.Sc. thesis, University of Edinburgh,2002 Khác
5. Ralph Grishman. Information extraction: Techniques and challenges. In Information Extraction ( Ingernational Summer School SCIE-97). Springer verlag,1997 Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm