1. Trang chủ
  2. » Công Nghệ Thông Tin

Tách từ tiếng Việt sử dụng Longest Matching và CONDITIONAL RANDOM FIELDS

20 241 3
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 20
Dung lượng 149,88 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tách từ là một bước quan trọng không thể thiếu trong xử lý ngôn ngữ tự nhiên, nhằm xác định được ranh giới các từ có trong văn bản. Trong tiếng Việt, ngoài từ đơn (một âm tiết), còn có từ ghép (đa âm tiết) khác so với tiếng anh. Bên cạnh đó, ngữ cảnh cũng ảnh hưởng không ít đến việc tách từ, đặc biệt có những câu đa nghĩa trong tiếng việt như “Con ngựa đá con ngựa đá”.

Trang 1

ĐẶT VẤN ĐỀ

Với sự phát triển nhanh chóng của công nghệ thông tin, nguồn thông tin trực tuyến (online) dưới dạng văn bản xuất hiện càng ngày càng nhiều Nguồn thông tin này đến từ các thư viện điện tử, thư điện tử, trang web, hệ thống tìm kiếm và tra cứu thông tin Việc khám phá tri thức tiềm ẩn từ kho dữ liệu văn bản là cần thiết cho việc quản lý, khai thác hiệu quả nguồn thông tin văn bản khổng lồ này

Trong nỗ lực xây dựng một cơ sở tri thức tiếng Việt thì việc hiểu các văn bản tiếng Việt, tóm tắt văn bản tiếng Việt, hay phân loại văn bản tiếng Việt…là những công việc không thể thiếu được Chính vì lý do đó, Bộ Khoa học - Công nghệ đã phê duyệt đề tài cấp nhà nước với tên gọi "Nghiên cứu phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn bản tiếng Việt" năm 2006 Một dạng điển hình về kết quả của đề tài là các công cụ cơ bản dùng để xử lý văn bản (tiếng Việt) như kiểm lỗi chính tả, phân tách từ, xác định loại từ, phân tích cú pháp Công việc cơ bản đầu tiên có tính tiên quyết là phân đoạn từ tiếng Việt

Tách từ là một bước quan trọng không thể thiếu trong xử lý ngôn ngữ tự nhiên, nhằm xác định được ranh giới các từ có trong văn bản Trong tiếng Việt, ngoài từ đơn (một âm tiết), còn có từ ghép (đa âm tiết) khác so với tiếng anh Bên cạnh đó, ngữ cảnh cũng ảnh hưởng không ít đến việc tách từ, đặc biệt có những câu đa nghĩa trong tiếng việt như “Con ngựa đá con ngựa đá”

Ý thức được những lợi ích của việc xây dựng cơ sở tri thức tiếng Việt nói chung và bài toán phân đoạn từ tiếng Việt nói riêng, chúng em đã chọn đề tài môn học Khai phá dữ liệu là tìm hiểu các cách thức phân đoạn từ tiếng Việt

Trang 2

I Tiếng Việt và cách hướng tiếp cận bài toán tách từ

1 Từ vựng Tiếng Việt

Việc chỉ ra định nghĩa chính xác suất thế nào là một từ không phải đơn giản, đòi hỏi công sức nghiên cứu của các nhà ngôn ngữ học Chúng ta giới thiệu một định nghĩa sau làm ví dụ về định nghĩa từ: “Từ là đơn vị nhỏ nhất có nghĩa, có kết cấu vỏ ngữ âm bền vững, hoàn chỉnh, có chức năng gọi tên, được vận dụng độc lập, tái hiện tự do trong lời nói để tạo câu”

Nhưng xét trên góc độ ứng dụng, ta có thể hiểu một các đơn giản là “từ được cấu tạo bởi một hoặc nhiều tiếng”

1.1 Tiếng – đơn vị cấu tạo lên từ:

+ Về mặt hình thức, tiếng là một đoạn phát âm của người nói, dù chúng ta

có cố tình phát âm chậm đến mấy cũng không thể tách tiếng ra thành các đơn vị khác được Tiếng được các nhà ngôn ngữ gọi là âm tiết (syllable)

+ Về mặt nội dung, tiếng là đơn vị nhỏ nhất có nội dung được thể hiện, chí

ít tiếng cũng có giá trị về mặt hình thái học (cấu tạo từ), đôi khi người ta gọi tiếng

là hình tiết (morphemesyllable), tức là âm tiết có có giá trị về hình thái học

- Phân loại: Các tiếng không phải tất cả đều giống nhau, xét về mặt ý nghĩa, chúng ta có thể chia tiếng thành các loại sau

- Tiếng tự thân nó đã có ý nghĩa, thường được quy chiếu vào một đối tượng, khái niệm Ví dụ: trời, đất, nước, cây, cỏ…

- Tiếng tự thân nó không có ý nghĩa, chúng không được quy chiếu vào đối tượng, khái niệm nào cả Chúng thường đi cùng với một tiếng khác có nghĩa và làm thay đổi sắc thái của tiếng đó, ví dụ như: (xanh) lè, (đường) xá, (năng) nôi…

- Tiếng tự thân nó không có ý nghĩa nhưng lại đi với nhau để tạo thành từ Những nếu tách rời tiếng này ra đứng riêng thì chúng không có nghĩa gì cả, nhưng

Trang 3

lại có thể ghép lại thành từ có nghĩa Ta thường xuyên gặp ở những từ mượn như phéc-mơ-tuya, a-pa-tít, mì-chính Trong tiếng Việt thì các tiếng thuộc nhóm đầu tiên chiếm đa số Các tiếng thuộc hai nhóm sau thưởng chỉ chiếm số ít, đặc biệt là nhóm thứ 3, chúng thường được gọi là tiếng vô nghĩa Việc nhóm đầu tiên chiếm

đa số phản ánh thực tế là khi nói, người ta thường sử dụng các tiếng có nghĩa, hiếm khi lại nói ra toàn từ vô nghĩa

1.2 Cấu tạo từ

- Từ đơn:

Từ đơn, hay còn gọi là từ đơn âm tiết, là các từ được cấu tạo bởi một tiếng duy nhất Ví dụ: tôi, bạn, nhà, hoa, vườn…

- Từ ghép:

Từ ghép là các từ được tạo lên từ hai hoặc nhiều hơn các tiếng lại Giữa các tiếng có mỗi quan hệ về nghĩa với nhau, vì thế ta cũng có các loại từ ghép khác nhau

• Từ ghép đẳng lập: các thành phần cấu tạo từ có mối quan hệ bình đẳng với nhau về nghĩa Ví dụ: ăn nói, bơi lội …

• Từ ghép chính phụ: các thành phần cấu tạo từ có mối quan hệ phụ thuộc với nhau về nghĩa Thành phần phụ sẽ có vai trò làm chuyên biệt hóa, tạo sắc thái cho thành phần chính Ví dụ: hoa hồng, đường sắt…

- Theo Từ điển từ tiếng Việt (Vietlex): >40.000 từ, trong đó:

• 81.55% âm tiết là từ : từ đơn

• 15.69% các từ trong từ điển là từ đơn

• 70.72% từ ghép có 2 âm tiết

• 13.59% từ ghép ≥ 3 âm tiết

Trang 4

• 1.04% từ ghép ≥ 4 âm tiết

- Từ láy: Một từ sẽ được coi là từ láy khi các yếu tố cấu tạo nên nó có thành phần ngữ âm được lặp lại; nhưng vừa có lặp (còn gọi là điệp) vừa có biến đổi (còn gọi là đối) Ví dụ: đo đỏ, man mát… Nếu một từ chỉ có phần lặp mà không có

sự biến đổi (chẳng hạn như từ nhà nhà, ngành ngành…) thì ta có dạng láy của từ

1.3 Nhập nhằng

Nếu ta dựa trên khái niệm “từ” của các nhà ngôn ngữ học để trực tiếp phân đoạn từ bằng tay thì khó có thể xảy ra việc nhập nhằng trong tiếng Việt Song dưới góc độ ứng dụng máy tính, chúng ta coi một từ chỉ đơn giản là cấu tạo từ một hoặc nhiều tiếng, và việc này rất dễ gây ra sự nhập nhằng trong quá trình phân đoạn từ

Sự nhập nhằng của tiếng Việt có thể chia thành 2 kiểu sau:

• Nhập nhằng chồng chéo: chuỗi “abc” được gọi là nhặp nhằng chồng chéo nếu như từ “ab”, “bc” đều xuất hiện trong từ điển tiếng Việt Ví dụ như 8 trong câu

“ông già đi nhanh quá” thì chuỗi “ông già đi” bị nhập nhằng chồng chéo vì các từ

“ông già” và “già đi” đều có trong từ điển

• Nhập nhằng kết hợp: chuỗi “abc” được gọi là nhập nhằng kết hợp nếu như

từ “a”,”b”,”ab” đều xuất hiện trong từ điển tiếng Việt Ví dụ như trong câu “Bàn là này còn rất mới” thì chuỗi “bàn là” bị nhập nhằng kết hợp, do các từ “bàn”, “là”,

“bàn là” đều có trong từ điển

2 Các hướng tiếp cận hiện nay

Để nhận dạng đúng ranh giới của các từ (tách từ) phục vụ cho các bài toán phân tích dữ liệu văn bản như: gom nhóm, phân lớp văn bản, các nhà khoa học đã

đề xuất nhiều phương pháp tách từ Dựa trên đặc điểm của từ, kết hợp với cách tiếp cận khác nhau, các phương pháp tách từ này có thể chia thành ba nhóm chính: dựa

Trang 5

trên từ điển (dictionary-based), dựa trên thống kê (statistic-based) và phương pháp lai (hybrid)

Sau khi tìm hiểu về ngôn ngữ tiếng Việt và một số phương pháp phân đoạn

từ tiếng Việt bằng máy tính hiện nay, em nhận thấy một mô hình phân đoạn từ tiếng Việt tốt phải giải quyết được hai vấn đề chính đó là giải quyết nhập nhằng trong tiếng Việt và có khả năng phát hiện từ mới Xuất phát từ đó, em chọn hướng tiếp cận sử dụng mô hình học máy CRF cho bài toán phân đoạn từ tiếng Việt Đây

là mô hình có khả năng tích hợp hàng triệu đặc điểm của dữ liệu huấn luyện cho quá trình học máy, nhờ đó có thể giảm thiểu nhập nhằng trong tiếng Việt

Các phương pháp đã tìm hiểu 2.1 Phương pháp So khớp từ dài nhất (Longest Matching)

Là phương pháp theo hướng tiếp cận dựa trên từ điển: Ý tưởng chính của phương pháp tách từ dựa trên từ điển là từ một từ điển sẵn có, thực hiện so khớp từng âm tiết trong văn bản với các từ có trong từ điển Tuỳ vào cách thức so khớp

mà ta có các phương pháp khác nhau như: so khớp từ dài nhất (longest matching),

so khớp từ ngắn nhất (short matching), so khớp chồng lắp (overlap matching) và so khớp cực đại (maximum matching)

Độ chính xác của phương pháp dựa trên từ điển phụ thuộc rất lớn vào kích thước từ điển được xây dựng Với đặc điểm là không cần phải có bước huấn luyện nên thời gian xử lý của phương pháp này tương đối nhanh, đơn giản và dễ hiểu Tuy nhiên, phương pháp này sẽ khó có thể xử lý dược các tình huống nhập nhằng cũng như xử lý tình huống xuất hiện từ mới không tồn tại trong từ điển

Giải thuật:

Gọi V là danh sách các tiếng chưa xét

T là bộ từ điển

Trang 6

While V≠⍉ do

Begin

Wmax= từ đầu danh sách V; // từ dài nhất

Foreach (v thuộc từ gồm các tiếng bắt đầu trong V) If(length(v)> length(Wmax) and v thuộc T) then Wmax= v;

Loại đi các tiếng trong Wmax ở đầu danh sách V;

End

Ví dụ: Tôi là công dân nước Việt Nam:

Nam

Ưu điểm:

• Tách từ nhanh đơn giản chỉ cần dựa vào từ điển

• Độ chính xác tương đối cao

Hạn chế:

• Độ chính xác phụ thuộc vào hoàn toàn vào tính đầy đủ và chính xác của từ điển

Trang 7

Phương pháp này sẽ không đạt được kết quả nếu cuối từ trước có liên

hệ với các từ sau Ví dụ : một ông quan tài giỏi => một ||ông|| quan tài|| giỏi

Khi tồn tại các từ ghép ngoài từ điển, phương pháp này không thể nhận ra

2.2 Phương pháp WFST

Phương pháp WFST Phương pháp WFST (Weighted Finite-State Transducer) còn gọi là phương pháp chuyển dịch trạng thái hữu hạn có trọng số

Ý tưởng chính của phương pháp này áp dụng cho phân đoan từ tiếng Việt là các từ sẽ được gán trọng số bằng xác suất xuất hiện của từ đó trong dữ liệu Sau đó duyệt qua các câu, cách duyệt có trọng số lớn nhất sẽ là cách dùng để phân đoạn

từ Hoạt động của WFST có thể chia thành ba bước sau:

• Xây dựng từ điển trọng số: từ điển trọng số D được xây dựng như là một

đồ thị biến đổi trạng thái hữu hạn có trọng số

Giả sử

- H là tập các tiếng trong tiếng Việt

- P là tập các loại từ trong tiếng Việt

- Mỗi cung của D có thể là:

+ Từ một phần tử của H tới môt phần tử của H + Từ phần tử ε (xâu rỗng) đến một phần tử của P

- Mỗi từ trong D được biểu diễn bởi một chuỗi các cung bắt đầu bởi một cung tương ứng với một phần tử của H, kết thúc bởi một cung có trọng số tương ứng với một phần tử của ε × P Trọng số biểu diễn một chi phí ước lượng (estimated cost) cho bởi công thức:

Trang 8

C = - log(N f ) Trong đó f: tần số xuất hiện của từ, N: kích thước tập mẫu

• Xây dựng các khả năng phân đoạn từ: bước này thống kê tất cả các khả năng phân đoạn của một câu Giả sử câu có n tiếng, thì sẽ có 2n−1 cách phân đoạn khác nhau Để giảm sự bùng nổ các cách phân đoạn, thuật toán sẽ loại bỏ ngay những nhánh phân đoạn mà chứa từ không xuất hiện trong từ điển

• Lựa chọn khả năng phân đoạn tối ưu: sau khi liệt kê tất cả các khả năng phân đoạn từ, thuật toán sẽ chọn cách phân đoạn tốt nhất, đó là cách phân đoạn có trọng số bé nhất

Ví dụ: câu “Tốc độ truyền thông tin sẽ tăng cao”

- Từ điển trọng số:

Trang 9

Tốc độ 8.68

Trọng số theo mỗi cách phân đoạn được tính là :

• “Tốc độ # truyền thông # tin # sẽ # tăng # cao.” = 8.68 +12.31 + 7.33 + 6.09 + 7.43 +6.95

• “Tốc độ # truyền # thông tin # sẽ # tăng # cao.” = 8.68 +12.31 + 7.24 + 6.09 + 7.43 +6.95

Do đó, ta có được phân đoạn tối ưu là cách phân đoạn sau “Tốc độ # truyền

# thông tin # sẽ # tăng #cao.”

Nhận xét: Nhược điểm chính của thuật toán là việc đánh trọng số dựa trên tần số xuất hiện của từ, nên khi tiến hành phân đoạn thì không tránh khỏi các nhập nhằng trong tiếng Việt Hơn nữa với những văn bản dài thì phương pháp này còn gặp phải sự bùng nổ các khả năng phân đoạn của từng câu Ưu điểm của phương pháp này là sẽ cho độ chính xác cao nếu ta xây dựng được một dữ liệu học đầy đủ

và chính xác

Trang 10

3 Conditional Random Field

Một số qui ước ký hiệu:

Chữ viết hoa X, Y, Z kí hiệu cho các biến ngẫu nhiên.

 Chữ đậm ví dụ: x = (x 1 , ,x n ), y, t ký hiệu các vector vector

biểu diễn chuỗi dữ liệu quan sát , vector biểu diễn chuỗi các nhãn.

x i , y i biểu diễn các thành phần trong một vector.

chữ viết thường x, y, z… là ký hiệu cho một giá trị đơn như một dữ

liệu quan sát hay một trạng thái.

S là tập các hữu hạn trạng thái.

O là tập dữ liệu quan sát được.

3.1 MÔ HÌNH MARKOV ẨN- HMM

Mô hình Markov được giới thiệu vào cuối những năm 1960 Cho đến hiện nay nó

có một ứng dụng khá rộng như trong nhận dạng giọng nói, tính toán sinh học (Computational Biology ), và xử lý ngôn ngữ tự nhiên.

HMM là mô hình máy hữu hạn trạng thái với các tham số biểu diễn xác suất chuyển trạng thái và xác suất sinh dữ liệu quan sát tại mỗi trạng thái.

Mô hình Markov ẩn là mô hình thống kê trong đó hệ thống được mô hình hóa được cho là một quá trình Markov với các tham số không biết trước, nhiệm vụ là xác định các tham số ẩn từ các tham số quan sát được

Trong một mô hình Markov điển hình, trạng thái được quan sát trực tiếp bởi người quan sát, và vì vậy các xác suất chuyển tiếp trạng thái là các tham số duy nhất (hình 5 có thể mô tả rõ cho điều này).

Trang 11

Hình 5 HMM

- x i — Các trạng thái trong mô hình Markov

- a ij — Các xác suất chuyển tiếp

- b ij — Các xác suất đầu ra

- y i — Các dữ liệu quan sát

Mô hình Markov ẩn thêm vào các đầu ra: mỗi trạng thái có xác suất phân bố trên các biểu hiện đầu ra có thể Vì vậy, nhìn vào dãy của các biểu hiện được sinh ra bởi HMM không trực tiếp chỉ ra dãy các trạng thái Ta có tìm ra được chuỗi các trạng thái mô

tả tốt nhất cho chuỗi dữ liệu quan sát được bằng cách tính.

P(Y ∨X )=P ¿ (2.1)

Hình 6 Đồ thị vô hướng HMM

Ở đó Y n là trạng thái tại thời điểm thứ t=n trong chuỗi trạng thái Y, X n là dữ liệu

quan sát được tại thời điểm thứ t=n trong chuỗi X Do trạng thái hiện tại chỉ phụ thuộc

vào trạng thái ngay trước đó với giả thiết rằng dữ liệu quan sát được tại thời điểm t chỉ

Y 1

Y 2

n

X 1

X 2

n

Trang 12

phụ thuộc và trạng thái t Ta có thể tính P(Y, X)

P(Y , X )=P(Y1)P( X1∨Y1)∏

t −2

n P(Y tY t−1)∗P( X tY t) (2.2)

Một số hạn chế của mô hình Markov để tính được xác suất P(Y,X) thông thường ta phải liệt kê hết các trường hợp có thể của chuỗi Y và chuỗi X Thực tế thì chuỗi Y là hữu hạn có thể liệt kê được, còn X (các dữ liệu quan sát) là rất phong phú Để giải quyết các

vấn đề này HMM đưa ra giả thiết về sự độc lập giữa các dữ liệu quan sát: Dữ liệu quan

sát được tại thời điểm t chỉ phụ thuộc vào trạng thái tại thời điểm đó Hạn chế thứ hai gặp

phải là việc sử dụng xác suất đồng thời P(Y, X) đôi khi không chính xác vì với một số bài toán thì việc sử dụng xác suất điều kiện P(Y | X) cho kết quả tốt hơn rất nhiều.

3.2 MÔ HÌNH CỰC ĐẠI HÓA ENTROPY-MEMM

Mô hình MEMM thay thế các xác suất chuyển trạng thái và các xác suất sinh quan

sát trong HMM bởi một hàm xác suất duy nhất P(S i | S i-1 , O i) (xác suất dịch chuyển từ

trạng thái hiện tại là S i-1 tới trạng thái trước đó là Si với dữ liệu quan sát hiện tại là O i)

thay vì sử dụng P(S i | S i-1 ) và P(O i | S i) Mô hình MEMM quan niệm rằng các quan sát đã được cho trước và chúng ta không cần quan tâm đến xác suất sinh ra chúng mà chỉ quan tâm vào xác suất chuyển trạng thái.

Dưới đây là đồ thị có hướng mô tả cho mô hình MEMM.

Hình 7 Đồ thị có hướng mô tả cho mô hinh MEMM

S 1

S 2

n

S 1:

n

Trang 13

Qua đồ thị ta nhận thấy rằng quan sát hiện tại không chỉ phụ thuộc vào trạng thái hiện tại mà còn có thể phụ thuộc vào trạng thái trước đó.

Xác suất P(S | O) có thể tính như sau:

P(S∨O)=P (S ,O)∗

t =1

n

MEMM coi dữ liệu quan sát là các điều kiện cho trước thay vì coi chúng là các thành phần được sinh bởi mô hình như trong HMM vì thế xác suất chuyển trạng thái có thể phụ thuộc vào các thuộc tính đa dạng của chuỗi dữ liệu quan sát.

Với mô hình này ta chia P(S tS t −1 , O t) thành các hàm dịch chuyển được huấn luyện

một cách riêng biệt trong |S| - tập hợp trạng thái Như sau: P S t−1(S tO t)=P (S tS t−1 ,O t) McCallum xác định phân phối cho xác suất chuyển trạng thái có dạng hàm mũ sau:

P S t−1(S tO t)= 1

Z (O t , S t−1) exp( ∑

a

λ a f a(O t , S t)) (2.4)

Ở đây λa là các tham số cần được huấn luyện; Z(O t , S t) là thừa số chuẩn hóa để tổng

xác suất chuyển từ trạng S t-1 sang S t kề với nó đều bằng 1; f a (O t , S t) là hàm thuộc tính tại vị trí thứ i trong chuỗi dữ liệu quan sát và trong chuỗi trạng thái Ở đây ta định nghĩa mỗi

một thuộc tính f a có hai đối số: Dữ liệu quan sát hiện tại và trạng thái hiện tại McCallum

cũng đinh nghĩa a=<b, S t> trong đó b chỉ phụ thuộc vào dữ liệu quan sát hiện tại.

1 nếu dữ liệu quan sát hiện tại là “1tỷ”

b(O t)=

0 nếu ngược lại

Hàm thuộc tính f a xác định nếu b(O t) nhận một giá trị xác định:

1 nếu b(O t )=1 và S t =S t-1

f<b,S t >(O t ,S t)=

0 nếu ngược lại

Ngày đăng: 30/03/2021, 15:15

TỪ KHÓA LIÊN QUAN

w