Tuy nhiên các nghiên cứu tại Việt Nam về hai vấn đề này vẫn còn ở giai đoạn đầu, trong đó phương pháp tự động phát hiện lỗi chú giải từ loại trong kho ngữ liệu tiếng Việt còn chưa có nhi
Trang 1-
NHỮ VĂN KIÊN NGHIÊN CỨU PHƯƠNG PHÁP TỰ ĐỘNG PHÁT HIỆN LỖI TRONG
KHO DỮ LIỆU TIẾNG VIỆT ĐƯỢC CHÚ GIẢI TỪ LOẠI
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01.01 Người hướng dẫn khoa học: TS NGUYỄN PHƯƠNG THÁI
TÓM TẮT LUẬN VĂN THẠC SĨ
HÀ NỘI – 2013
Trang 2MỞ ĐẦU
Gán nhãn từ loại (Part-of-speech tagging –POS tagging) và
tự động phát hiện lỗi chú giải (nhãn) từ loại (Detecting Errors in of-Speech Annotation) là hai bài toán quan trọng trong xử lý ngôn ngữ tự nhiên Tuy nhiên các nghiên cứu tại Việt Nam về hai vấn đề này vẫn còn ở giai đoạn đầu, trong đó phương pháp tự động phát hiện lỗi chú giải từ loại trong kho ngữ liệu tiếng Việt còn chưa có nhiều tài liệu tham khảo và các công trình nghiên cứu Do đó, nhu cầu cả về
Part-cơ sở khoa học và xây dựng công cụ thực hiện sẵn dùng Thực tế cho thấy, hai quá trình này liên quan mật thiết với nhau và ảnh hưởng đến chất lượng một hệ chung Vì thế, trong luận văn này chúng tôi
“Nghiên cứu phương pháp tự động phát hiện lỗi trong kho ngữ liệu tiếng Việt được chú giải từ loại” Đóng góp của luận luận văn
là việc tìm hiểu, nghiên cứu và đề xuất mô hình thực hiện gán nhãn
từ loại và phương pháp tự động phát hiện lỗi chú giải từ loại trong kho ngữ liệu tiếng Việt; sử dụng công cụ vnTagger thực hiện gán nhãn từ loại; bên cạnh đó chúng tôi tiến hành xây dựng một công cụ
tự động phát hiện lỗi chú giải từ loại tiếng Việt trên kho ngữ liệu VietTreeBank có 10.165 câu với khoảng hơn 230.000 từ Luận văn tiến hành thực nghiệm trên kho ngữ liệu VietTreeBank áp dụng mô hình entropy cực đại và thuật toán variaion n-gram đã cho kết quả thực nghiệm khả quan, có độ chính xác cao Các kết quả này sẽ hữu ích cho các nghiên cứu ở mức cao hơn như dịch máy, tự động sửa lỗi chú giải, tóm tắt văn bản,…
Trang 3Cấu trúc của luận văn được trình bày như sau:
Chương 1: Tổng quan về từ loại: Trong chương này, luận
văn giới thiệu hai vấn đề cơ bản về xử lý ngôn ngữ tự nhiên là tách từ
và gán nhãn từ loại tiếng Việt – các hướng tiếp cận cho bài toán gán nhãn và tìm hiểu về kho ngữ liệu treebank tiếng Việt gồm có tập nhãn từ loại và hướng dẫn gán nhãn trong khi phát triển VietTreeBank
Chương 2: Phương pháp gán nhãn từ loại và phát hiện lỗi
tự động trong kho ngữ liệu tiếng Việt được chú giải từ loại:
Chương này nghiên cứu và đề xuất mô hình gán nhãn từ loại và phương pháp phát hiện lỗi tự động chú giải từ loại trong kho ngữ liệu VietTreeBank Các công việc mà luận văn đã tiến hành nhằm đề xuất
sử dụng mô hình gán nhãn từ loại Maximum Entropy Model (MEM)
và phương pháp entropy cực đại kết hợp với thuật toán variation gram cho bài toán tự động phát hiện lỗi chú giải từ loại trong kho ngữ liệu tiếng Việt
N-Chương 3 Thực nghiệm và đánh giá kết quả: Chương này
trình bày các công việc thực nghiệm mà khóa luận đã tiến hành, bao gồm việc sử dụng công cụ gán nhãn từ loại vnTagger và xây dựng công cụ tự động phát hiện lỗi chú giải từ loại Từ kết quả đạt được tiến hành đối chiếu, đánh giá và đưa ra các vị trí lỗi chú giải từ loại trong kho ngữ liệu VietTreeBank
Chương 4 Kết luận và hướng phát triển: Tóm lược các kết quả đã
đạt được và đóng góp của khóa luận, đồng thời định hướng một số hướng nghiên cứu tiếp theo trong thời gian sắp tới
Trang 4Chương 1 TỔNG QUAN VỀ TỪ LOẠI
1.1 Vấn đề tách từ và gán nhãn từ loại tiếng Việt
1.1.1 Khái quát về bài toán tách từ
Tiếng Việt là một ngôn ngữ đơn lập, không biến hình, các ký
tự được dựa trên hệ chữ cái Latin Cũng giống như với các thứ tiếng khác như tiếng Trung, tiếng Nhật, tiếng Hàn thì từ trong tiếng Việt không được xác định bởi khoảng trắng (dấu cách) Một từ tiếng Việt
có thể được tạo bởi một hoặc nhiều hình vị và mỗi hình vị phân tách nhau bởi các khoảng trắng Từ là đơn vị cơ bản để phân tích cấu trúc của ngôn ngữ, do vậy để tiến tới những ứng dụng xa hơn về xử lý ngôn ngữ tiếng Việt như gán nhãn chức năng cú pháp, phân tích cú pháp thì việc đầu tiên ta phải giải quyết bài toán tách từ
Các nhà nghiên cứu đã đề xuất một số hướng tiếp cận để giải bài toán tách từ [6, 16] Nhìn chung, các hướng tiếp cận đó được chia thành hai loại: tiếp cận dựa trên từ điển và tiếp cận dựa trên thống kê Hai phương pháp tiêu biểu của hướng tiếp cận dựa vào từ điển là Longest Matching và Maximal Matching Hầu hết những nghiên cứu khởi thủy về tách từ đều dựa trên cách tiếp cận này như trong [14] Hướng tiếp cận này có đặc điểm là đơn giản, dễ hiểu tuy nhiên hiệu quả mang lại không cao Lý do là bởi nó không xử lý được rất nhiều trường hợp nhập nhằng cũng như không có khả năng phát hiện từ mới trong văn bản Chính vì vậy mà các hệ thống tách từ có chất lượng cao hiện nay thường sử dụng hướng tiếp cận dựa trên thống kê Trong các nghiên cứu đó, tác giả đã phân tách hai quá trình nhận dạng từ mới và tách từ đã biết như hai tiến trình độc lập nhau Nghiên cứu các phương pháp phát hiện từ mới ta thấy thông tin N-gram đóng vai trò hữu ích giúp ta phát hiện từ mới khi mà corpus thống kê đủ lớn và xác định được độ đo phù hợp Câu hỏi đặt ra là làm cách nào
để tận dụng được từ tất cả các nguồn tri thức đó
Trang 51.1.2 Khái quát về bài toán gán nhãn từ loại
1.1.2.1 Giới thiệu bài toán gán nhãn từ loại
Công việc gán nhãn từ loại cho một văn bản là xác định từ loại của mỗi từ trong phạm vi văn bản đó, tức là phân loại các từ thành các lớp từ loại dựa trên thực tiễn hoạt động ngôn ngữ Việc gán nhãn từ loại thường được thể hiện bằng cách gán cho mỗi từ một
“nhãn” có sẵn theo tập nhãn cho trước:
+ Input: Một chuỗi các từ (ví dụ đối với tiếng Việt: “Tôi vẽ
một bức tranh”)
+ Output: Một nhãn tốt nhất cho từng từ trong câu (Ví dụ:
Tôi/P vẽ/V một/M bức_tranh/N1)
1.1.2.2 Quá trình gán nhãn từ loại:
Gán nhãn từ loại là một quá trình gồm 3 bước xử lý như sau:
- Giai đoạn tiền xử lý: Phân tách xâu ký tự thành chuỗi các
từ Giai đoạn này có thể đơn giản hay phức tạp tuỳ theo ngôn ngữ và quan niệm về đơn vị từ vựng
- Khởi tạo gán nhãn: Tức là tìm cho mỗi từ tập tất cả các
nhãn từ loại mà nó có thể có Tập nhãn này có thể thu được từ cơ sở
dữ liệu từ điển hoặc kho ngữ liệu đã gán nhãn bằng tay
- Quyết định kết quả gán nhãn: Đó là giai đoạn loại bỏ nhập
nhằng, tức là lựa chọn cho mỗi từ một nhãn phù hợp nhất với ngữ cảnh trong tập nhãn khởi tạo nói trên
Như vậy, trong gán nhãn từ loại thì bước tiền xử lý quan trọng cho các phần tiếp theo trong quá trình xử lý ngôn ngữ tự nhiên như phân tích cú pháp, phân tích ngữ nghĩa
Trang 6- Kho văn bản đã gán nhãn, có thể kèm theo các quy tắc ngữ pháp xây dựng bằng tay
- Kho văn bản chưa gán nhãn, có kèm theo các thông tin ngôn ngữ như là tập từ loại và các thông tin mô tả quan hệ giữa từ loại và hậu tố Kho văn bản chưa gán nhãn, với tập từ loại cũng được xây dựng tự động nhờ các tính toán thống kê Trong trường hợp này khó có thể dự đoán trước về tập từ loại
1.1.2.4 Các hướng tiếp cận giải bài toán
Khi thực hiện bài toán gán nhãn từ loại, ta gặp phải một số khó khăn Khó khăn này chủ yếu là do các từ thường có nhiều hơn một từ loại Hiện nay, có hai hướng tiếp cận chính cho gán nhãn từ loại tự động là tiếp cận có giám sát và không giám sát:
- Tiếp cận có giám sát: nghĩa là phải xây dựng một kho ngữ
liệu huấn luyện lớn và/hoặc xây dựng tập luật để nhận diện từ loại Gán nhãn dựa trên luật sử dụng từ điển để tìm các từ loại có thể cho các từ, sử dụng các luật làm thành một nghĩa và thường liên quan tới một cơ sở dữ liệu lớn các luật được viết bằng tay
- Tiếp cận không giám sát: Các mô hình không giám sát
không yêu cầu kho ngữ liệu đã gán nhãn nhưng lại sử dụng các thuật toán tính toán phức tạp để tự động xây dựng các nhóm từ (nghĩa là xây dựng các tập nhãn) và dựa trên các nhóm từ này để tính toán các thông tin xác suất cần thiết cho các bộ gán nhãn thống kê hoặc để xây dựng các luật ngữ cảnh cần thiết cho các hệ thống dựa trên luật
1.1.2.5 Bài toán gán nhãn từ loại tiếng Việt
+ Ngôn ngữ tiếng Việt (Vietnamese language):
Tiếng Việt là ngôn ngữ có trật tự khá cố định với thứ tự của
từ là S-V-O (chủ ngữ, động từ và tân ngữ) Tiếng Việt dựa vào thứ tự các thành phần câu để truyền đạt thông tin ngữ pháp quan trọng Mặc
dù, văn bản tiếng Việt được viết bằng một chữ cái của bảng chữ cái
Latin, có ba đặc tính chủ yếu của tiếng Việt mà phân biệt nó với các ngôn ngữ phương Tây là:
Trang 7- Thứ nhất, tiếng Việt là một ngôn ngữ cố định trong đó hình thức của từ không bao giờ thay đổi Vì thế tất cả các thông tin văn phạm được chuyển tải thông qua thứ tự từ và cấu tạo từ Đặc điểm cố định làm cho một hiện tượng đặc biệt của ngôn ngữ phổ biến trong tiếng Việt: là hình thức của từ được sử dụng một khả năng mà không
nằm trong đặc trưng của nó (một động từ được sử dụng như một danh
từ, một danh từ như một tính từ .) mà không cần bất kỳ thay đổi hình thái
- Thứ hai, tiếng Việt là một ngôn ngữ đơn lập, trường hợp đặc biệt của phân tích ngôn ngữ, là mỗi hình vị là một duy nhất, âm tiết đơn lập Đơn vị từ vựng có thể được tạo thành bằng một hoặc một số âm tiết, luôn có vị trí tách biệt trong văn bản Mặc dù bộ từ điển chứa một phần lớn các từ ghép, một âm tiết chiếm một phần lớn của những từ xuất hiện
- Sự khác biệt thứ ba, một hệ quả của sau này, là không có dấu phân cách từ trong tiếng Việt: khoảng trống được sử dụng để tách biệt giữa các âm tiết và không có dấu hiệu cụ thể phân biệt khoảng trống giữa các từ thực tế Ví dụ, một chuỗi đơn giản của ba
âm tiết a b c có thể tạo thành ba từ (a) (b) (c), hai từ (ab) (c), hai từ (a) (bc) hoặc thậm chí một từ duy nhất (abc)
+ Tập nhãn từ loại tiếng Việt (Vietnamese tagset):
Theo [9] đã giới thiệu một tập nhãn hiện đang được sử dụng trong một dự án phát triển một treebank cho ngôn ngữ này Tập nhãn đầy đủ được thiết kế để sử dụng trong treebank tiếng Việt gồm có 18 nhãn (xem Bảng 1.2)
Hiện nay, ở Việt Nam đã có một số tập nhãn từ loại được xây dựng, chủ yếu ở mức thô, tiêu biểu có thể kể đến: Bộ nhãn VnPOStag của tác giả Trần Thị Oanh gồm 14 nhãn, 01 nhãn không xác định và các nhãn ký hiệu đặc biệt khác Bộ VietTreeBank gồm 18 nhãn Bộ nhãn của nhóm tác giả Nguyễn Thị Minh Huyền sử dụng cho công cụ VnQtag gồm 48 nhãn và 01 nhãn không xác định
Trang 81.1.3 Một số khái niệm sử dụng trong luận văn
1.1.3.1 Ngữ liệu (Corpus)
Ngữ liệu thường là tập hợp các câu dưới dạng tiếng nói hay văn bản, trong đó có chứa các thông tin cần thiết cho từng bài toán cụ thể trong xử lý ngôn ngữ tự nhiên
1.1.3.2 Ngữ liệu vàng (Golden Corpus)
Ngữ liệu vàng cũng là một dạng ngữ liệu trong đó có chứa thông tin về từ loại và nhãn của từ loại hoàn toàn chính xác
1.1.3.3 Ngữ liệu huấn luyện (Training corpus)
Ngữ liệu huấn luyện là ngữ liệu được tạo ra từ ngữ liệu vàng
để chuẩn bị cho quá trình học máy
1.1.3.4 Hình vị (Morpheme)
Hình vị được xem là đơn vị tế bào gốc, đơn vị tế bào của ngôn ngữ, và còn được gọi là “từ tố” Hình vị tiếng Việt có khi gồm
có một tiếng, nhưng cũng có khi gồm nhiều tiếng tạo thành
1.1.3.5 Âm tiết hay tiếng
Tiếng (âm tiết): là do một hay nhiều âm phát ra cùng một lúc tạo thành Tiếng là đơn vị cơ bản trong tiếng Việt và có âm đầu, vần
và thanh
1.1.3.6 Từ (Word)
Từ gồm có một tiếng hoặc một tổ hợp tiếng có ý nghĩa hoàn chỉnh Căn cứ vào cách cấu tạo, ta có từ đơn và từ phức; trong đó từ phức có từ ghép và từ láy (hay láy âm)
1.2 Tìm hiểu về treebank tiếng Việt
Tiếng Việt là ngôn ngữ đơn lập và không có ký tự tách từ cho nên việc phân tích câu có nhiều nhập nhằng Để giải quyết nhập nhằng đó nhóm tác giả xây dựng treebank tiếng Việt đã vận dụng nhiều thủ thuật ngôn ngữ học Quá trình gán nhãn cú pháp được hỗ trợ bằng công cụ gán nhãn tự động và công cụ soạn thảo Nguồn ngữ liệu thô được lấy từ báo tuổi trẻ điện tử Độ đồng thuận mà nhóm tác giả đạt được là khá cao, khoảng hơn 90% Treebank thường được dùng để xây dựng các hệ phân tích cú pháp, gán nhãn từ loại, tách từ
Trang 9Trong luận văn này, chúng tôi chỉ trình bày về tập nhãn từ loại và hướng dẫn gán nhãn từ loại Còn phần tập nhãn cú pháp và hướng dẫn gán nhãn cú pháp, công cụ hỗ trợ người làm ngữ liệu và qui trình gán nhãn cú pháp xem trong [18]
1.2.2 Tập nhãn từ loại
Dựa vào nghĩa khái quát Nhóm tác giả đã xây dựng tập nhãn từ loại chỉ chứa thông tin về từ loại cơ sở mà không bao gồm các thông tin như hình thái, phân loại con, v.v Tập nhãn từ loại của chúng tôi được liệt kê trong Bảng 1.3, gồm có 18 nhãn từ loại
1.2.3 Hướng dẫn gán nhãn
1.2.3.1 Xây dựng tài liệu hướng dẫn gán nhãn
Đây là một tài liệu rất quan trọng bao gồm không chỉ các thông tin về tập nhãn, mà còn hướng dẫn gán nhãn cho các hiện tượng cụ thể với các ví dụ minh họa
1.2.3.2 Công cụ hỗ trợ
Công cụ hỗ trợ người gán nhãn làm việc hiệu quả hơn Có hai nội dung chính là hỗ trợ soạn thảo cây cú pháp và gán nhãn từ loại tự động
1.2.3.3 Quá trình gán nhãn từ loại
Quá trình gán nhãn một câu gồm ba bước: tách từ, gán nhãn
từ loại, và phân tích cú pháp Qui trình thực hiện gán nhãn là tương
tự nhau, tuy nhiên mỗi bước yêu cầu những kiến thức và có những đặc trưng riêng Mỗi người gán nhãn có một người review và sửa lỗi Những trường hợp không chắc chắn thì ghi lại để thảo luận với nhóm thiết kế (xem hình 1.3)
Theo [10], các công cụ gán nhãn hiện đang được sử dụng phát triển Treebank có số điểm F1 là 90,5%, độ chính xác không cao
Do đó, trong luận văn này chúng tôi sẽ trình bày một công cụ gán nhãn từ loại của Lê Hồng Phương dựa trên nguyên lý phân lớp dữ liệu của entropy cực đại, nó quan sát kể cả các nguồn tri thức mới hữu ích cho việc gán nhãn từ loại tiếng Việt và đạt được kết quả là:
độ chính xác tổng thể 93.40% và độ chính xác với những từ chưa biết 80.69% được thử nghiệm trên treebank tiếng Việt [9]
Trang 10Chương 2 PHƯƠNG PHÁP GÁN NHÃN TỪ LOẠI VÀ PHÁT HIỆN LỖI TỰ ĐỘNG TRONG KHO NGỮ LIỆU TIẾNG VIỆT
ĐƯỢC CHÚ GIẢI TỪ LOẠI 2.1 Giới thiệu mô hình N-gram
2.1.1 Khái quát
Một N-gram là một bộ các yếu tố (từ, tiếng, nhãn từ loại,) liên tiếp trong ngữ liệu Số yếu tố trong một N-gram được gọi là bậc của N-gram, thông thường N-gram có bậc từ 1 tới 4 N-gram bậc 1 được gọi là unigram, bậc 2 được gọi là bigram, bậc 3 được gọi là trigram, bậc 4 được gọi là quadrigram,… N-gram được dùng để ước lượng xác suất xuất hiện của một yếu tố dựa vào các yếu tố xung quanh nó trong câu Do đó, N-gram có thể áp dụng cho các hệ thống tách từ, gán nhãn từ loại, phát hiện lỗi chú giải từ loại,…
2.1.2.Variation n-gram
Theo [3], với mỗi từ xuất hiện trong một ngữ liệu thì có một tập nhãn được xác định có khả năng được gán cho từ này Một từ xuất hiện nhiều hơn một lần trong một kho ngữ liệu như vậy có thể được gán với nhiều nhãn khác nhau trong một kho ngữ liệu Chúng
được gọi là Variation (biến thể)
Biến thể trong một ngữ liệu được chú giải gây ra bởi một trong hai lý do:
+ Nhập nhằng: Một từ có thể được gán bằng nhiều nhãn từ loại
và ở những vị trí xuất hiện khác nhau Trong kho ngữ liệu, từ đó ta có nhiều lựa chọn nhãn từ loại để gán
+ Lỗi: Việc gán nhãn một từ không nhất quán trong những lần
xuất hiện tương tự
Tác giả sử dụng thuật ngữ variation n-gram đối với một gram bao gồm n từ trong kho ngữ liệu có chứa từ được gán nhãn từ loại khác nhau trong các lần xuất hiện khác của cùng N-gram đó
N-trong kho ngữ liệu Từ thể hiện sự biến đổi đó được gọi là variation nuclei (hạt nhân biến đổi)
Trang 112.1.3 Thuật toán Variation N-gram
Ðể tìm tất cả các biến thể n-gram của một kho ngữ liệu thì đầu vào là một kho ngữ liệu đã được chú giải từ loại và kết quả đầu ra là
một danh sách các biến thể n-gram, từ n = 1 đến giá trị n lớn nhất mà
có một Variation n-gram trong kho ngữ liệu, gồm các bước sau:
Bước 1: Xác định tập các biến thể 1-gram và lưu trữ các biến
thể 1-gram cùng vị trí của chúng trong kho ngữ liệu
Bước 2: Dựa trên các vị trí lưu trữ của Variation n-gram trong
kho ngữ liệu, mở rộng n-gram về một trong hai phía (trừ khi ngữ liệu kết thúc ở đó) Với mỗi (n +1)-gram, kiểm tra xem nó có thể hiện khác trong kho ngữ liệu hay không và nếu có sự thay đổi trong gán nhãn của (n + 1)-gram đó ở vị trí khác thì lưu trữ tất cả các biến thể (n + 1)-gram và vị trí của chúng trong kho ngữ liệu
Bước 3: Lặp lại Bước 2 cho đến khi nhận được giá trị n mà
không còn variation n-gram trong kho ngữ liệu
2.2 Mô hình entropy cực đại
Mô hình entropy cực đại là kỹ thuật dùng để đánh giá phân phối xác suất của dữ liệu văn bản Tư tưởng chính của phương pháp
là những gì chưa biết hoặc không rõ ràng thì không có bất kỳ giả định
gì (cực đại hóa độ hỗn loạn) Tức là áp đặt một phân phối đều lên các
sự kiện chưa biết Dữ liệu đã được gán nhãn được sử dụng để lấy ra tập các ràng buộc cho mô hình mà nó mô tả đặc điểm riêng cho từng lớp cụ thể có thể được gán cho văn bản cần phân lớp Cuối cùng, thuật toán IIS sẽ tìm ra phân phối mà nó thỏa mãn các ràng buộc đã đưa ra và thỏa mãn cực đại entropy với phân phối xác suất là đều nhất
Ưu điểm lớn nhất của mô hình cực đại entropy là tính mềm dẻo của mô hình: nó cung cấp một hệ thống các quy luật có tính thống kê ngẫu nhiên để bổ sung các cú pháp, ngữ nghĩa và căn cứ vào các đặc trưng Tuy nhiên, mô hình cực đại entropy đòi hỏi một chi phí khá lớn cho việc tính toán để ước lượng chính xác các tham
số của mô hình