1. Trang chủ
  2. » Công Nghệ Thông Tin

báo cao xư lý ngôn ngữ tự nhiên gán nhãn từ loại tiếng anh

19 861 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 19
Dung lượng 604,46 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Gán nhãn từ loại là một vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ tự nhiên, đây là bước tiền xử lý của nhiều bài toán và một số hệ thống thông minh khác.. Công việc gán nhãn từ

Trang 1

TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NÔI VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

BỘ MÔN HỆ THỐNG THÔNG TIN

BÀI TẬP LỚN

XỬ LÝ NGÔN NGỮ TỰ NHIÊN

ĐỀ TÀI:

Gán nhãn từ loại Tiếng Anh Giáo viên hướng dẫn :

PGS.Lê Thanh Hương Sinh viên thực hiện:

1.Lê Xuân Tùng 20083004 2.Nguyễn Hán Luân 20081642 3.Ngô Quang Vịnh 20083571 4.Lương Thành Công 20080314 5.Đỗ Duy Quang 20082051 Lớp : HTTT-K53

Hà Nội,tháng 4 năm 2012

Trang 2

MỤC LỤC

MỤC LỤC 1

NỘI DUNG 1

I.KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI 1

1 Khái niệm về gán nhãn từ loại 1

2 Ứng dụng của bài toán gán nhãn từ loại 2

3 Các khó khăn của bài toán gán nhãn từ loại 3

II CƠ SỞ LÝ THUYẾT 4

1 Tập nhãn trong gán nhãn từ loại 4

2.Học máy và xử lý ngôn ngữ tự nhiên 7

3.Hướng tiếp cận thống kê 7

III MÔ HÌNH MARKOV ẨN 8

1.Khái niệm 8

2.Cách chuyển trạng thái trong mô hình Markov ẩn 10

3.Sự tiến hóa của mô hình Markov ẩn 11

4.Sử dụng các mô hình Markov 11

DEMO CHƯƠNG TRÌNH 14

TÀI LIỆU THAM KHẢO 17

Trang 3

NỘI DUNG I.KHÁI QUÁT VỀ BÀI TOÁN GÁN NHÃN TỪ LOẠI.

1 Khái niệm về gán nhãn từ loại.

Gán nhãn từ loại là một vấn đề rất quan trọng trong lĩnh vực xử lý ngôn ngữ

tự nhiên, đây là bước tiền xử lý của nhiều bài toán và một số hệ thống thông minh khác Mỗi từ trong một ngôn ngữ nói chung đôi khi có thể gắn với nhiều từ loại và việc giải thích đúng nghĩa một từ phụ thuộc vào việc nó có được xác định đúng từ loại hay không dựa trên ngữ cảnh cho trước Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ Việc gán nhãn

từ loại thường được thể hiện bằng cách gán cho mỗi từ một “nhãn” có sẵn theo tập nhãn cho trước

Từ loại là những lớp từ có cùng bản chất ngữ pháp, được phân chia theo ý nghĩa khái quát, theo khả năng kết hợp với các từ ngữ khác trong ngữ lưu và thực hiện những chức năng ngữ pháp nhất định ở trong câu

Mô tả bài toán:

+ Input: Một chuỗi các từ và tập nhãn từ loại ( Ví dụ như chuỗi các từ “Book that flight.” và tập nhãn từ loại Penn Treebank của tiếng Anh )

+ Output: Một nhãn tốt nhất cho từng từ trong chuỗi từ đã được đưa ra ( Ví dụ: đối với chuỗi từ “Book that flight.” thì nhãn thích hợp tương ứng cho từng từ

sẽ là Book/VB that/DT flight/NN./ )

Quá trình gán nhãn từ loại

Thường được chia làm 3 bước như sau:

+ Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các từ Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng Chẳng hạn đối với tiếng Anh hay tiếng Pháp, việc phân tách từ phần lớn là dựa vào các ký hiệu trắng Tuy nhiên vẫn có những từ ghép hay những cụm từ gây tranh cãi về cách xử lý

+ Khởi tạo gán nhãn, tức là tìm cho mỗi từ tập tất cả các nhãn từ loại mà nó

có thể có Tập nhãn này có thể thu được từ cơ sở dữ liệu từ điển hoặc kho ngữ liệu

đã gán nhãn bằng tay Đối với một từ mới chưa xuất hiện trong cơ sở ngữ liệu thì

Trang 4

có thể dùng một nhãn ngầm định hoặc gắn cho nó tập tất cả các nhãn Trong các ngôn ngữ biến đổi hình thái người ta cũng dựa vào hình thái từ để đoán nhận lớp

từ loại tương ứng của từ đang xét

+ Quyết định kết quả gán nhãn, đó là giai đoạn loại bỏ nhập nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên Có nhiều phương pháp để thực hiện việc này, trong đó người ta phân biệt chủ yếu các phương pháp dựa vào quy tắc ngữ pháp và các phương pháp xác suất Ngoài ra còn có các hệ thống sử dụng mạng nơ-ron, các hệ thống lai sử dụng kết hợp tính toán xác suất và ràng buộc ngữ pháp, gán nhãn nhiều tầng …

2 Ứng dụng của bài toán gán nhãn từ loại.

Gán nhãn từ loại là một công việc quan trọng và bắt buộc phải có đối với hầu hết các ứng dụng xử lý ngôn ngữ tự nhiên Nếu coi quá trình xử lý ngôn ngữ tự nhiên gồm các bước: Tiền xử lý văn bản, phân tích hình thái, phân tích cú pháp và phân tích ngữ nghĩa thì gán nhãn từ loại thuộc vào bước phân tích hình thái Bước này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: Từ loại (part-of-speech), phạm trù ngữ pháp (category), các biến cách của từ, tiền tố, hậu tố của từ

Một số ứng dụng quan trọng của gán nhãn từ loại:

+ Thành công của việc gán nhãn từ loại tiếng Việt sẽ là cơ sở cho việc giải quyết các bài toán xử lý ngôn ngữ tự nhiên khác như tóm tắt văn bản, phân cụm, phân loại văn bản …

+ Khi hệ thống văn bản đã được gán nhãn, hay nói cách khác là đã được chú thích từ loại thì nó sẽ được ứng dụng rộng rãi trong các hệ thống tìm kiếm thông tin, trong các ứng dụng tổng hợp tiếng nói, các hệ thống nhận dạng tiếng nói cũng như trong các hệ thống dịch máy …

+ Một trong những ứng dụng thường được nhắc đến nhiều nhất của gán nhãn

từ loại là trong hệ thống dịch máy Có ba cách để thực hiện bài toán dịch máy là: dịch trực tiếp, dịch thông qua ngôn ngữ trung gian và dịch dựa trên chuyển đổi Trong đó phương pháp dịch dựa trên chuyển đổi tỏ ra là có hiệu quả nhất Nếu cây

cú pháp bị gán nhãn từ loại sai dẫn đến cây cú pháp của câu cũng bị sai Giả sử như

hệ thống tiến hành dịch câu sau đây từ tiếng Anh sang tiếng Việt: “Jet planes fly about nine miles high”, nếu không có sự trợ giúp của công cụ gán nhãn từ loại, hệ thống dịch máy chỉ dịch từ từ sang từ thì ta sẽ có được kết quả tiếng Việt là “Phản lực các phi cơ bay khoảng chín dặm cao”

Trang 5

Jet planes fly about nine miles high.

Phản lực các phi cơ bay khoảng chín dặm cao

Trong khi đó, nếu các từ đã được gán nhãn từ loại một cách chính xác, ta sẽ

có khả năng cao nhận được một câu tiếng Việt hợp lý hơn rất nhiều: “Các phi cơ phản lực bay cao khoảng chín dặm”

Jet planes fly about nine miles high

Các phi cơ phản lực bay cao khoảng chín dặm

3 Các khó khăn của bài toán gán nhãn từ loại.

Giả sử mỗi từ chỉ có một nhãn từ loại và chúng ta có thể xây dựng được một

từ điển hữu hạn các từ và nhãn tương ứng của nó thì chắc chắn chúng ta có thể giải quyết được bài toán gán nhãn từ loại với kết quả tối ưu Tuy nhiên, trong thực tế một từ đôi khi có thể có nhiều hơn một nhãn từ loại thích hợp, và ta cũng không thể kiểm soát được toàn bộ các từ có thể xuất hiện trong văn bản, điều này dẫn đến hai vấn đề mà bài toán gán nhãn từ loại phải đối mặt: Nhập nhằng từ loại và từ mới Thực tế thì vấn đề chủ yếu của bài toán gán nhãn từ loại thực chất là việc loại

bỏ nhập nhằng về từ loại, tức là khi một từ có nhiều từ loại, nhưng trong một ngữ cảnh cụ thể, nó chỉ có thể có một từ loại đúng mà thôi

Nhìn chung, các nhập nhằng từ loại thường được giải quyết bằng cách xét đến ngữ cảnh mà từ đó xuất hiện, tuy nhiên trong một số trường hợp, ngay cả khi

có thông tin về ngữ cảnh mà một số từ vẫn còn sự nhập nhằng về từ loại Một vấn

đề khác mà bài toán gán nhãn từ loại cần phải xử lý là khi gặp những từ mới mà bộ gán nhãn không thể giải quyết được bằng những cách thông thường Trong trường hợp này, thường thì hệ thống sẽ để nguyên và đánh dấu một từ loại đặc biệt để chuyển sang phần xử lý tên riêng ( proper name ) hay từ mới ( unknown word )

Trang 6

II CƠ SỞ LÝ THUYẾT.

1 Tập nhãn trong gán nhãn từ loại.

Các tập nhãn sử dụng cho việc gán nhãn từ loại thường được xây dựng và phát triển từ các lớp cơ bản là các lớp từ đóng ( Closed word class, function word class, còn được gọi là các từ chức năng, là một tập cố định và không thể mở rộng, các lớp này thường chỉ chứa một số lượng ít các từ có liên quan Ví dụ: Giới từ, mạo từ, đại từ, số đếm ) và các lớp từ mở ( Open class, là các lớp từ có khả năng

mở rộng bằng cách tạo thêm từ mới hoặc “mượn” từ các ngôn ngữ khác )

Các lớp từ đóng gồm có:

+ Giới từ (Prepositions): on, under, over,…

+ Tiểu từ (Particles): abroad, about, around, before, in, instead, since, without,… + Mạo từ (Articles): a, an, the

+ Liên từ (Conjunctions): and, or, but, that,…

+ Đại từ (Pronouns): you, me, I, your, what, who,…

+ Trợ động từ (Auxiliary verbs): can, will, may, should…

Trang 7

Lớp từ mở trong Tiếng Anh:

Proper noun: IBM, Colorado…

Noun Common noun Count nouns : book, cat… Mass noun: snow, sand Verb Auxiliaries: go, run, eat…

Adjectives Color: red, green, blue…

Age: old, young…

Openclass Value: good, bad…

Locatives adverbs: home, here…

Adverb Degree adverbs: extremely, very…

Manner adverbs: slowly, delicately…

Temporal adverbs: yesterday, Monday…

Đối với tiếng Anh thì hiện nay đã có rất nhiều tập từ loại khác nhau được xây dựng:

Một số tập nhãn từ loại cho tiếng Anh

Trang 8

Có thể kể đến một số tập từ nhãn điển hình như:

+ Brown corpus: 87 nhãn

+ Penn Treebank: 45 nhãn Các nhãn của tập nhãn từ loại Penn Treebank được cho trong bảng dưới đây

+ Lancaster UCREL C5 (Dùng để gán nhãn BNC – British National

Corpus): 61 nhãn

+ Lancaster C7: 145 nhãn

IN Preposition/sub- conjunction VBG Verb, gerund,present participle

JJR Adjective, comparative VBP Verb, non-3rd person singular

present JJS Adjective, superlative VBZ Verb, 3rd person singular

present

D

Wh-determiner

NN Noun, singular or mass WP$ Possessive wh-pronoun

B

Wh-adverb

NNP

S

RBR Adverb, comparative Sentence-final punc

Trang 9

RBS Adverb, superlative : Mid-sentence punc

Bảng Penn Treebank

Ví dụ:

The grand jury commented on a number of other topics

=> The/DT grand/JJ jury/NN commented/VBD on/IN a/DT number/NN of/IN other/JJ topics/NNS /

2.Học máy và xử lý ngôn ngữ tự nhiên.

Các phương pháp máy học được áp dụng trong lĩnh vực xử lý ngôn

ngữ tự nhiên được phân loại như sau:

+ Hướng tiếp cận theo thống kê (stochastic approach)

+ Hướng tiếp cận theo biểu trưng ( symbolic approach ): học theo ví dụ ( instance – based learning ), cây quyết định ( decision tree ), logic quy nạp ( inductive logic ), phân tách tuyến tính theo ngưỡng ( threshold linear separator ) Trong các phương pháp này, đáng chú ý nhất là phương pháp học dựa trên các luật chuyển đổi ( TBL – Transformation Based Learning ) Phương pháp này cho phép đưa ra tập các khung luậttổng quát có thể giải quyết các vấn đề nhậpnhằng tương tự nhau ( như trong bài toán gán nhãn từ loại )

+ Hướng tiếp cận theo biểu trưng thay thế (sybsymbolic approach): mạng nơ-ron (neural network), thuật toán di tuyền (genetic algorithm)

Ở đây chúng ta tập trung vào hướng tiếp cận thống kê và mô hình Markov ẩn

3.Hướng tiếp cận thống kê.

Hướng tiếp cận thống kê được xem là một hướng tiếp cận mô tả quá trình thế giới thực tạo ra dữ liệu quan sát được Các mô hình trong hướng tiếpcậnthống

kê thường được thể hiện dưới dạng một mạng thống kê các mối quan hệ phụ thuộc giữa các biến ngẫu nhiên Mỗi nút của mạng có một phân phối, và từ những phân phối này chúng ta cố gắng tìm ra các phân phối chung của dữ liệu quan sát Các hướng tiếp cận khác nhau của phương pháp này xuất phát từ cách tạo ra mạng thống kê và cách kết hợp các phân phối của mỗi nút

Trang 10

Có khá nhiều môhình trong hướng tiếp cận này được áp dụng trong lĩnh vực

xử lý ngôn ngữ tự nhiên Ví dụ như mô hình phân loại Bayes ( Naive Bayes classifier ), nguyên lý hỗn loạn cực đại ( Maximum Entropy Principle ), mô hình Markov ẩn ( Hidden Markov model ) Các mô hình này được áp dụng để giải quyết nhiều bài toán trong xử lý ngôn ngữ tự nhiên như: sửa lỗi chính tả theo ngữ cảnh, gán nhãn từ loại, nhận dạng mệnh đề, nhận dạng tiếng nói… Hiện nay trong bài toán gán nhãn từ loại thì hướng tiếp cận thống kê được xem là một trong những hương tiếp cận có kết quả cao

III MÔ HÌNH MARKOV ẨN.

1.Khái niệm

Mô hình markov ẩn là mô hình thống kê trong đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham số không biết trước và nhiệm

vụ là xác định các tham số ẩn từ các tham số quan sát được, dựa trên sự thừa nhận này Các tham số của mô hình được rút ra sau đó có thể sử dụng để thực hiện các phân tích kế tiếp, ví dụ cho các ứng dụng nhận dạng mẫu

Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởi người quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bổ trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái

Đây là một mô hình toán thống kê có ứng dụng rộng rãi trong sinh tin học

Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bổ trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái

Nhiều bài toán thực tế được biểu diễn dưới mối quan hệ nhân quả, nhưng chỉ quan sát được phần quả còn phần nhân thì ẩn

Trang 11

• HMM dùng để giải quyết các bài toán xác lập mối nhân quả cục bộ

(Fragmentation,Classification, Similarity Search)

Cơ chế của mô hình Markov ẩn là sử dụng tất cả những thông tin đã có và đoán Gán nhãn dựa trên xác suất theo mô hình Markov ẩn:

Chọn thẻ từ loại làm tối đa xác suất

P(từ|từ loại).P(từ loại| n từ loại phía trước)

Ví dụ:

The/DT grand/JJ jury/NN commented/VBD on/IN a/DT number/NN of/IN

other/NNS

 P(jury|NN)=1/2

Công thức Bigram HMM: chọn t cho w có nhiều khả năng nhất khi biết ti và wi :

ti = argmaxj P(tj |ti-1 ,wi )

Giả thiết đơn giản hóa HMM: Vấn đề có thể giải quyết bằng cách dựa trên các từ

và thẻ từ bên cạnh nó:

ti =argmaxj P(tj |t j-1).P(wi |tj )

xschuỗi thẻ xs thường xuất hiện với thẻ tj

Một mô hình Markov ẩn bao gồm các thông số sau:

1) Số trạng thái ‘state’ N có trong mô hình và các trạng thái này là ẩn Các trạng thái này sẽ được biểu thị tương ứng với giá trị S=(S1, …., SN) gọi là tập tất cả các trạng thái ẩn

2) M, Số symbol trên mỗi dãy quan sát trong một ‘State’ Các symbol này sẽ được biểu thị tương ứng bởi các giá trị V=(V¬1, …, VM) gọi là tập tất cả các ký hiệu quan sát được

3) A= [aij] xác suất chuyển trạng được xác định theo biểu thức sau:

Trong trường hợp đặc biệt, khi các trạng thái là như nhau in a single step , ta có aij

> 0 đối với tất cả các giá trị i và j Trong một vài loại hình khác của HMM, ta chi

Trang 12

aij = 0 cho một vài căp (i,j)

4) B=[bij] xác suất sinh ký hiệu

5) p= [pi] xác suất khởi trạng

6) qt - Trạng thái ở thời điểm t

7) Ot= (ký hiệu) Quan sát tại thời điểm t

Cho các giá trị N, M, A, B và π thích hợp, mô hình HMM sẽ cho ra một chuỗi quan sát như sau:

O = O1 O2 … OT

(Trong đó, mỗi giá trị Ot là một trong số các symbol của tập các ký hiệu quan sát được V và T là số lượng chuỗi quan sát.)

- Chọn trạng thái khởi đầu là q1 = S1 tuỳ thuộc vào xác xuất khởi trạng π

- Cho t = 1

- Chọn Ot = Vk theo xác suất nhả ký tự bi(k) của tập các trạng thái ẩn Si

- Và chuyển sang trạng thái mới qt+1 = Sj tuỳ theo xác suất chuyển trạng aij của tập các trạng thái ẩn

- Thiết lập t = t +1 và sau đó quay lại thực hiện lần lược như bước (3) Nếu t < T thì kết thúc thuật toán

.Ứng dụng của mô hình Markov ẩn: Mô hình này được ứng dụng nhiều trong các lĩnh vực như:

• Nhận dạng tiếng nói

• Nhận dạng chữ viết tay

• Xử lý ngôn ngữ thống kê

• Dịch máy

• Tin sinh học:

– Khớp xấp xỉ nhiều chuỗi

– Tìm Motif

_Tìm kiếm tương tự

Thuộc tính Markov

Một dãy trạng thái ngẫu nhiên gọi là có thuộc tính Markov nếu như xác suất

chuyển sang trạng thái tiếp theo chỉ phụ thuộc vào trạng thái hiện tại và quá khứ – Dãy chuyển trạng quan sát được → Xích Markov

– Dãy chuyển trạng không quan sát được → Mô hình Markov ẩn

Mô hình Markov ẩn – HMM

Ngày đăng: 23/10/2014, 23:29

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w