NGHIÊN CỨU VIỆC XÂY DỰNG, CHUẨN HÓA VÀ KHAI THÁC KHO NGỮ LIỆU TỪ NGUỒN INTERNET CHO XỬ LÝ TIẾNG VIỆT

Đề tài : NGHIÊN CỨU VIỆC XÂY DỰNG, CHUẨN HÓA VÀ KHAI THÁC KHO NGỮ LIỆU TỪ NGUỒN INTERNET CHO XỬ LÝ TIẾNG VIỆT. Mục tiêu. Xây dựng, chuẩn hóa và khai thác kho ngữ liệu tiếng Việt: Xây dựng kho ngữ liệu thô có kích thước lớn (hàng GB) từ Internet. Xây dựng chuẩn hóa mô hình chú giải tiếng Việt. Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng. Khai thác kho ngữ liệu đã chú giải cú pháp phục vụ bài toán phân tích cú pháp tiếng Việt

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

PHAN THỊ HÀ

NGHIÊN CỨU VIỆC XÂY DỰNG, CHUẨN HÓA VÀ KHAI THÁC KHO NGỮ LIỆU TỪ NGUỒN INTERNET

CHO XỬ LÝ TIẾNG VIỆT

Chuyên ngành: Hệ thống Thông tin

Mã số: 62.48.01.04

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT

Hà nội - 2013

Trang 2

Luận án được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học:

1 PGS TS TRẦN HỒNG QUÂN

2 TS NGUYỄN THỊ MINH HUYỀN

Phản biện 1: PGS.TS Huỳnh Quyết Thắng

Phản biện 2: PGS.TS Lương Chi Mai

Phản biện 3: PGS TS Lê Anh Cường

Luận án được bảo vệ trước hội đồng chấm luận án cấp Học viện họp tại: Học viện Công ngệ Bưu chính Viễn thong, 122 Hoàng Quốc Việt, Hà nội

Vào hồi 9 giờ 00 ngày 14 tháng 12 năm 2013

Có thể tìm hiểu luận án tại thư viện: Học viện Công nghệ BCVT và thư viện Quốc Gia

Trang 3

DANH MỤC CÁC CÔNG TRÌNH

[1] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Lưu

Văn Tăng, Xây dựng sơ đồ mã hóa và công cụ trợ giúp gán nhãn tiếng Việt, Proceedings of ICT.rda'08 Hanoi Aug 8-9, 2008

[2] Lê H.Phương, Ng.T.M Huyền, Nguyễn Phương Thái, Phan thị

Hà, Trích rút tự động văn phạm LTAG cho tiếng Việt , Tạp chí

Tin học và Điều khiển học, Tập 26 số 2, 2010

[3] Phan Thị Hà, Nguyễn Thị Minh Huyền, Rút trích tự động văn phạm CFG từ VietTreebank cho phân tích câu tiếng Việt, Tạp

chí Khoa học Công nghệ các trường đại học, Số 80, 2011

[4] Phan Thị Hà, Nguyễn Thị Minh Huyền, Lê Hồng Phương, Adam

Kilgarriff, Siva Reddy, Nghiên cứu từ vựng tiếng Việt với hệ thống Sketch Engine, Tạp chí Tin học Và Điều khiển học, Tập 27

số 3, 2011

[5] Phan Thị Hà, Trịnh thị Vân Anh, Một số vấn đề trong phân tích

tự động cú pháp tiếng Việt, Hội thảo Khoa học công nghệ, Học

viện CNBCVT, Hà nội 16-9, 2011

[6] Phan Thị Hà, Hà Hải Nam, Automatic main text extraction from web pages, Tạp chí Khoa học và Công nghệ, Viện Khoa Học

Việt Nam, Tập 51, Số 1, 2013

Trang 5

PHẦN MỞ ĐẦU

Những năm gần đây, xử lí ngôn ngữ tự nhiên đã trở thành một lĩnh vực khoa học công nghệ được coi là mũi nhọn, với một loạt ứng dụng liên quan đến Internet và Web, như tìm kiếm và trích chọn thông tin trên Web, khai phá văn bản, v.v Vấn đề phân tích và hiểu

tự động văn bản là một vấn đề lớn và phức tạp trong việc hiểu ngôn ngữ tự nhiên, được tích hợp trong hầu hết các ứng dụng xử lí văn bản

tự động Quá trình này thường được chia thành các mức cơ bản: mức ngữ âm; mức hình thái; mức cú pháp; mức ngữ nghĩa, mức ngữ dụng

và mức diễn ngôn Để giải quyết các vấn đề trên, nhiều kho ngữ liệu lớn đã được ra đời phục vụ cho việc huấn luyện các mô hình xử lý ngôn ngữ Hiện nay khi dữ liệu trên Internet rất nhiều thì các mô hình thống kê dựa trên dữ liệu đã cho thấy tính vượt trội so với cách tiếp cận dựa trên luật Hiện tại, các kho ngữ liệu lớn phục vụ cho tiếng Việt còn hiếm Vì vậy việc xây dựng, chuẩn hóa và khai thác kho ngữ liệu từ nguồn Internet cho xử lý tiếng Việt là rất cần thiết

Mục tiêu Xây dựng, chuẩn hóa và khai thác kho ngữ liệu tiếng Việt:

- Xây dựng kho ngữ liệu thô có kích thước lớn (hàng GB) từ Internet

- Xây dựng chuẩn hóa mô hình chú giải tiếng Việt

- Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng

- Khai thác kho ngữ liệu đã chú giải cú pháp phục vụ bài toán phân tích cú pháp tiếng Việt

Phạm vi nghiên cứu của luận án Để đạt được mục đích trên, phạm

vi nghiên cứu của luận án tập trung vào mức hình thái và mức cú

- Khai thác kho ngữ liệu thô và xây dựng bộ quan hệ ngữ pháp cơ

Trang 6

1.1

1.2

- Nghiên cứu và phát triển thuật toán trích rút tự động các luật văn

phạm từ kho ngữ liệu đã chú giải cú pháp phục vụ cho phân tích

cú pháp sử dụng hệ hình thức văn phạm phi ngữ cảnh kết hợp xác suất (PCFG) và văn phạm kết nối cây (TAG) Nghiên cứu xây dựng công cụ phân tích cú pháp tự động cho tiếng Việt

Bố cục của luận án: Luận án được chia thành năm chương: Chương

1 Tổng quan về kho ngữ liệu; Chương 2 Xây dựng kho ngữ liệu thô

từ Internet; Chương 3 Chuẩn hóa mô hình chú giải tiếng Việt; Chương 4 Khai thác kho ngữ liệu thô cho nghiên cứu từ vựng tiếng Việt; Chương 5 Khai thác kho ngữ liệu có chú giải cho phân tích cú pháp tiếng Việt; Cuối cùng là phần kết luận của luận án

CHƯƠNG 1 TỔNG QUAN VỀ KHO NGỮ LIỆU

Kho ngữ liệu văn bản

Kho ngữ liệu là một tập hợp lớn các văn bản.Thông tin ngôn ngữ trong đó là cơ sở tri thức ngôn ngữ học, được sử dụng trong việc phân tích thống kê và kiểm tra các giả thiết ngôn ngữ, kiểm tra sự xuất hiện hoặc xác nhận các quy tắc trong mỗi ngôn ngữ Kho ngữ liệu có thể chứa các văn bản của một ngôn ngữ (kho ngữ liệu đơn ngữ) hoặc chứa các văn bản của nhiều ngôn ngữ (kho ngữ liệu đa ngữ) Các văn bản trong đó có thể còn ở dạng thô- chưa được tách từ

và chú giải ngôn ngữ hoặc đã được tách từ, chú giải ngôn ngữ (mức

từ loại, mức cú pháp) Các kho ngữ liệu chú giải ở mức cú pháp còn

được gọi là ngân hàng cây cú pháp (treebank) Kho ngữ liệu có thể

thu thập từ nhiều nguồn tạp chí, sách báo, báo điển tử, sách giáo khoa, Ineternet thông qua các trang web

Xây dựng kho ngữ liệu văn bản

Qua khảo sát một số kho ngữ liệu lớn có chú giải trên thế giới cho thấy việc xây dựng các kho ngữ liệu được thực hiện thông qua hai phương pháp chính:

Trang 7

1.3

1.4

Thứ nhất: Thủ công hoặc bán thủ công, thực hiện qua hai bước

chính: Bước 1.Thu thập kho văn bản thô: Nguồn gốc thu thập dữ liệu

từ tạp chí, sách báo, báo điển tử, sách giáo khoa Bước 2 Chú giải ngôn ngữ: Công việc này có thể thực hiện thủ công hoặc sử dụng các công cụ đã tồn tại

Thứ hai Xây dựng tự động từ Internet, thực hiện qua 5 bước

chính: Bước 1.Lựa chọn một danh sách các từ hạt giống có tần suất xuất hiện trung bình Bước 2.Thu thập dữ liệu từ Web bằng cách sử dụng các từ hạt giống để tạo ra truy vấn thông qua các cổng tìm kiếm như Yahoo và Google và tải các trang kết quả về Bước 3.Làm sạch văn bản, loại bỏ các thông tin quảng cáo và các thông tin nhiễu khác Bước 4.Loại bỏ các văn bản trùng lặp Bước 5.Chú giải ngôn ngữ và chuẩn hóa

Chuẩn hoá kho ngữ liệu

Vấn đề chuẩn hoá mô hình chú giải kho ngữ liệu là vấn đề quan trọng, nhằm mở rộng đến mức tối đa phạm vi sử dụng và khai thác tài nguyên đặc biệt là trên máy tính, đây chính là vấn đề đang được quan tâm bởi tiểu ban kĩ thuật ISO/TC 37/SC 4 Một số mô hình chú giải kho ngữ liệu được phát triển bởi tiểu ban kĩ thuật ISO/TC 37/SC

4 như như mô hình chú giải hình thái cú pháp (MAF - Morphosyntactic Annotation Framework), mô hình chú giải cú pháp (SynAF - Syntactic Annotation Framework), mô hình chú giải ngôn ngữ (LAF - Linguistic Annotation Framework), mô hình chú giải ngữ nghĩa (SemAF – Semantic Annotation Framework)

Khai thác kho ngữ liệu

Kho ngữ liệu là nguồn tài nguyên quan trọng trong việc nghiên cứu

và xử lý ngôn ngữ tự nhiên Với kho ngữ liệu văn bản, đã được tách

từ hoặc là kho ngữ liệu đã được chú giải ở các mức cú pháp, có thể khai thác làm dữ liệu huấn luyện và dữ liệu đánh giá cho cho các mô hình và công cụ học máy phục vụ cho xử lý ngôn ngữ, khai thác cho các văn phạm phục vụ cho việc phân tích cú pháp và có thể khai thác cho việc xây dựng từ điển (đơn ngữ, đa ngữ), dịch tự động v.v

Trang 8

1.5 Xây dựng, chuẩn hóa và khai thác kho ngữ liệu tiếng Việt Xây dựng: Nghiên cứu từ vựng đòi hỏi xây dựng kho ngữ liệu có

kích thước càng lớn càng tốt Ý tưởng chủ đạo của phương pháp xây dựng kho ngữ liệu là thu thập tự động kho ngữ liệu văn bản từ Internet thông qua địa chỉ các trang web (URL) Phương pháp sử dụng ở đây về cơ bản giống như phương pháp đã được sử dụng cho tiếng Anh và một số ngôn ngữ phổ biến khác, được chi thành 5 bước chính như trên

Vấn đề quan trọng cần làm là lập danh sách từ hạt giống cho từng ngôn ngữ.Trong đó, để phù hợp với trang web tiếng Việt, thuật toán từng bước đã được phát triển và lựa chọn, đặc biệt thuật toán trích rút

tự động nội dung văn bản trang web đã được cải tiến nhằm giảm thiểu những dữ liệu nhiễu không phải nội dung văn bản cần lấy

Chuẩn hoá kho ngữ liệu: Hiện nay, các mô hình chú giải ngôn

ngữ MAF, SynNaf, LAF chưa được nghiên cứu biểu diễn cho tiếng Việt Trong luận án đưa ra mô hình MAF để biểu diễn chú giải hình thái cú pháp của các từ và mô hình SynNaf để biểu diễn chú giải cây

cú pháp của các câu cho tiếng Việt

Khai thác kho ngữ liệu: Trong luận án tác giả đi sâu vào khai thác kho ngữ liệu cho nghiên cứu từ vựng và phân tích cú pháp tiếng Việt:

- Luận án lựa chọn nghiên cứu hệ thống truy vấn kho ngữ liệu Sketch Engine phục vụ cho việc nghiên cứu từ vựng, bởi hai lý do; Thứ nhất: Skech Engine - Hệ thống truy vấn kho ngữ liệu cho phép người sử dụng xem xét ngữ cảnh theo quan hệ ngữ pháp và cung cấp thống kê về tần suất xuất hiện các từ theo mỗi quan hệ ngữ pháp, tra cứu các từ đồng và phản nghĩa, so sánh thông tin của hai từ tương tự nha v.v Hệ thống đã được sử dụng cho nhiều ngôn ngữ khác nhau nhưng chưa được sử dụng cho tiếng Việt Thứ 2: Đối với tiếng Việt, các nhà làm từ điển hiện nay thường mới chỉ có công cụ để tra cứu ngữ cảnh của một từ trong kho ngữ liệu, chưa có các thống kê tự động để so sánh, chọn lọc các ngữ cảnh Việc sử dụng một bộ công

Trang 9

cụ như hệ thống Sketch Engine sẽ là rất hữu ích, giúp cải thiện quy

mô và chất lượng từ điển

- Mọi bộ phân tích cú pháp đều cần một bộ luật cú pháp, hay còn gọi là văn phạm, được biểu diễn bởi một hệ văn phạm hình thức cụ thể nào đó Đối với tiếng Việt, với dự án KC01.01/06-10 đã tồn tại một số kho ngữ liệu tiếng Việt như ngân hàng câu chú giải cú pháp (VietTreeBank), từ điển điện tử…Trong luận án đã đi sâu vào nghiên cứu và xây dựng thuật toán trích rút tự động văn phạm phi ngữ cảnh

(CFG) và văn phạm kết nối cây (TAG) từ VietTreebank và từ điển

cho tiếng Việt bởi lý do sau: Thứ nhất, từ điển và VietTreebank có

một cơ sở ngôn ngữ học vững chắc, nó bao gồm lý thuyết văn phạm cảm sinh được khởi xướng bởi Chomsky và lý thuyết ngữ pháp chức năng Đây là những lý thuyết có ảnh hưởng lớn trong cả nghiên cứu ngôn ngữ học lẫn ngôn ngữ học tính toán Trong tiếng Việt, sự ảnh hưởng này được thể hiện điển hình qua các nghiên cứu của Vũ Dũng

và Cao Xuân Hạo Thứ hai, văn phạm CFG là văn phạm tiêu biểu được sử dụng trong bài toán phân tích cú pháp thành phần lần đầu tiên đã được đề xuất bởi Chomsky Đây chính là văn phạm đơn giản, làm nền tảng đặc trưng cho cú pháp thành phần.Thứ ba, văn phạm TAG - lớp văn phạm cảm ngữ cảnh yếu, tức là có khả năng sinh mạnh hơn các văn phạm phi ngữ cảnh, trong khi độ phức tạp thời gian của bộ phân tích cú pháp TAG vẫn là đa thức (O(n6)) Văn phạm hình thức LTAG rất phù hợp với các ứng dụng ngôn ngữ học Khả năng chuyển đổi một văn phạm LTAG sang các hệ hình thức

văn phạm hợp nhất khác như LFG (Lexical Functional Grammar) hay HPSG (Head-driven Phrase Structure Grammar) đã được chứng

minh

Kết luận

Chương này trình bày tổng quan về kho ngữ liệu, một số kho ngữ liệu tiêu biểu trên thế giới, nghiên cứu việc xây dựng và khai thác kho ngữ liệu chuẩn, mô hình chuẩn hóa kho ngữ liệu theo tiêu chí của tiểu ban kỹ thuật ISO/TC 37/SC 4 Trên cơ sở đó xác định mục

Trang 10

Chương này trình phương pháp xây dựng kho ngữ liệu thô tiếng Việt từ Internet, phương pháp sử dụng được phát triển từ phương pháp xây dựng cho tiếng Anh và một số tiếng phổ biến khác

Xây dựng kho ngữ liệu thô

Phương pháp thu thập kho ngữ liệu sử dụng ở đây được dựa trên phương pháp của Aidan Finn và A.Kilgarriff, nhưng thuật toán thu thập kho ngữ liệu chi tiết từng bước đã được lựa chọn và phát triển

để phù hợp phù hợp với tiếng Việt Về cơ bản, quá trình thu thập kho ngữ liệu từ Internet được phát triển trong 5 bước đã giới thiệu ở mục 1.5

2.2.1 Lựa chọn danh sách từ hạt giống

Từ hạt giống đóng vai trò là từ khóa tìm kiếm trong việc thu thập kho ngữ liệu văn bản của mỗi ngôn ngữ Đây phải là các từ đặc trưng cho mỗi ngôn ngữ, tức là phải có tần suất xuất hiện đáng kể và có tính phân biệt so với các từ trong ngôn ngữ khác Đối với tiếng Việt, danh sách từ hạt giống được thu thập từ việc phân đoạn từ của các câu trong các trang Wiki tiếng Việt Thuật toán phân đoạn từ đơn giản được sử dụng là duyệt theo từng câu từ trái sang phải, chọn ranh giới từ sao cho từ thu được có nhiều âm tiết nhất có thể so sánh với danh sách từ đúng là từ tiếng Việt (word list) Cách lựa chọn này rõ ràng không phải bao giờ cũng chính xác, nhưng sai số là chấp nhận được cho mục đích lập danh sách tần suất từ; Sau đó lựa chọn từ hạt giống từ danh sách tần suất; tiêu chí chọn từ hạt giống của mỗi ngôn ngữ là khác nhau, đối với tiếng Việt tiêu chí được chọn là từ hạt giống phải có ít nhất 1 kí tự Unicode không thuộc phạm vi ASCII, các từ khác sẽ không được xét, các chữ số hoặc các mục không phải

kí tự cũng sẽ bị loại trừ Danh sách từ hạt giống, được sắp xếp theo chiều giảm dần của tần suất, trong đó 1000 từ có tần suất cao nhất

Trang 11

được bỏ qua vì chúng thường được coi là các từ dừng (stop word)

đối với các máy tìm kiếm, 5000 từ tiếp theo trong danh sách tần suất thuộc nhóm từ có tần suất trung bình được sử dụng làm từ hạt giống

2.2.2 Thu thập địa chỉ URL

Về cơ bản, quá trình thu thập được thực hiện qua 2 bước Bước1 Sinh truy vấn: Lựa chọn ngẫu nhiên một số từ trong số các từ hạt giống để tạo nên một truy vấn Bước 2.Thu thập URL: Gửi truy vấn tới một máy tìm kiếm Tải về tất cả các tài liệu kết quả của máy tìm kiếm và lưu lại Quá trình này được lặp đi lặp lại nhiều lần cho đến khi kho ngữ liệu đủ lớn Nếu nhiều URL giống nhau thì loại bỏ và chỉ giữ lại một URL

2.2.3 Lọc nội dung chính của các trang web (URLs)

Chỉ thu lấy các trang HTML và có dung lượng lớn hơn 5 KB (để xác suất các tệp này chứa văn bản liên quan là lớn hơn) Các tệp có dung lượng lớn hơn 2 MB cũng được loại bỏ để tránh bất kì tệp thuộc miền đặc biệt nào thống trị thành phần của kho ngữ liệu, và cũng bởi vì các tập tin có độ lớn này là rất thường xuyên đăng nhập vào các tập tin và văn bản không có kết nối khác; Những trang được tải về bao hàm cả các dấu của HTML, văn bản ‘boilerplate’ các thanh menu, quảng cáo Đó là các phần tài liệu không hợp pháp, tạm gọi là phần đánh dấu.Thuật toán rút trích phần thân văn bản BTE

(Body Text Extraction) (Thuật toán 2.5) được phát triển từ thuật toán

gốc của Aidan Fin - loại bỏ những phần đánh dấu và chỉ trích rút những văn bản được kết nối Độ phức tạp của thuật toán là O (n2) Sau đây là các bước chính trong thuật toán:

Bước 0: Mỗi trang web tương ứng với 1 tệp định dạng HTML

Làm sạch mã HTML bằng cách loại bỏ những thẻ, những đoạn mã HTML chắc chắn không chứa thông tin liên quan đến nội dung như

các thẻ <input>, <script>, <img>, <marquee>,<! >, <iframe>…

và phần nội dung HTML nằm bên ngoài cặp thẻ <body></body> của mỗi trang web

Bước 1: Đối với phần trang web còn lại, xây dựng hai mảng,

binary_tokens[] và tokens[]; Binary_tokens[] gồm các phần tử 1 (thẻ

Trang 12

HTML) và -1 (dấu hiệu văn bản);Tokens[] là mảng gồm các phần tử

là các dấu hiệu văn bản/thẻ tương ứng với các phần tử trong binary_tokens[]; Gộp các phần tử liền nhau có giá trị giống nhau trong mảng binary_tokens[] lại làm thành một phần tử lưu vào mảng encode[];

Bước 2: Xác định vị trí hai điểm i, j từ mảng binary.tokens[]vừa

thu được ở bước 1 sao cho số phần tử -1 (tương ứng với dấu hiệu văn bản) giữa [i,j] là lớn nhất và số phần tử 1 (tương ứng với thẻ) ngoài khoảng [i,j] là lớn nhất Tiến hành bóc tách dữ liệu trong đoạn [i,j] và loại bỏ các thẻ HTML

Chỉ thu thập nội dung văn bản các trang web có đủ độ lớn và đã kiểm tra tính kết nối.Các trang web thu về sẽ được kiểm tra xem có

độ lớn thỏa mãn (>5KB và <2MB)?, nếu có thì thuật toán BTE mới thực hiện để trích rút lấy nội dung văn bản chính;

Thử nghiệm và đánh giá thuật toán BTE

Bảng 2 3 So sánh tỷ lệ “Thân văn bản cần lấy/ toàn bộ nội dung văn

Trang 13

Trong luận án, sử dụng modul Text::DeDuper 1 viết bằng Perl để

phát hiện tài liệu gần trùng lặp nhau Modul này sử dụng độ đo độ giống nhau như đề xuất của Broder

2.2.5 Xây dựng công cụ và triển khai thu thập kho ngữ liệu

Công cụ Vncopus được phát triển bằng ngôn ngữ Java kết hợp với Python, dựa trên các thuật toán thu thập địa chỉ URL, lọc nội dung chính của các trang web đồng thời tích hợp công cụ xác định trùng lặp gần nhau (trình bày ở phần trên) và gán nhãn từ loại đã có sẵn Triển khai thu thập kho ngữ liệu thô tiếng Việt có kích thước 1.09

GB (khoảng 100 triệu từ)

Kết luận

Trong chương này luận án đã phát triển thuật toán thu thập dữ liệu

từ web cho phù hợp với tiếng Việt để xây dựng kho ngữ liệu Xây dựng công cụ tự động thu thập kho ngữ liệu từ Internet có tên là Vncopus; Thử nghiệm và đánh giá thuật toán cải tiến

3 CHƯƠNG 3.CHUẨN HÓA MÔ HÌNH CHÚ GIẢI TIẾNG

VIỆT

Mô hình MAF của ISO/TC 37/SC 4

Phần này trình bày mô hình chú giải hình thái cú pháp MAF được phát triển bởi ISO/TC 37/SC 4

Mô hình SynAF của ISO/TC 37/SC 4

Phần này trình bày mô hình chú giải hình thái cú pháp SynAF được phát triển bởi ISO/TC 37/SC 4

Chuẩn hóa mô hình chú giải tiếng Việt

3.3.1 Chuẩn hóa theo mô hình MAF

Thông tin hình thái cú pháp tiếng Việt chủ yếu dựa vào hình thái

từ, phân loại từ, phân loại cụm, cú pháp (ví dụ từ loại của từ có thể là danh từ, động từ, tính từ…) mà không phụ thuôc vào giống, số, cách

1

http://search.cpan.org/~janpom/Text-DeDuper 1.01/lib/Text/DeDuper.pm#NAME

Trang 14

…như đối với các thứ tiếng khác Do đó chúng ta có thể lựa chọn chú giải nhúng cho tiếng Việt để đơn giản và tiện dụng Ngoài ra,

việc phân chia tài liệu ra thành các từ riêng biệt (word Form), trong

tiếng Việt có đặc điểm khác với tiếng Anh và một số tiếng khác là không thể dựa vào khoảng trắng (từ ghép), phải xây dựng phần mềm tách từ riêng dựa vào đặc trưng của tiếng Việt để tách tài liệu ra thành các thành phần, mỗi thành phần tương ứng với 1 từ tiếng việt

Về cấu trúc chung của mô hình hình thái cú pháp cho tiếng Việt trong luận án xây dựng tương tự như mô hình chú giải hình thái cú pháp chuẩn quốc tế MAF do tiểu ban kĩ thuật ISO/TC 37/SC 4 phát triển, tuy nhiên tại các thành phần cơ sở của mô hình trong luận án

có ánh xạ tới đặc điểm hình thái cú pháp mục từ trong tiếng Việt, cụ thể là:

- Xác định đơn vị cơ sở (segment): Âm tiết tiếng Việt hay các đơn vị token (dấu hiệu) khác

- Mỗi hình thái từ (Word Form) có thể tham chiếu tới một mục

từ vựng trong từ điển, ví dụ từ điển tiếng Việt trên máy tính

- Các thông tin hình thái – cú pháp gắn với mỗi từ: Cấu tạo từ (đơn, ghép, láy, thành ngữ), từ loại, tiểu từ loại Ở đây tác giả xây dựng bảng danh sách các hạng mục dữ liệu để gán nhãn từ loại cho tiếng Việt tham chiếu tới DCR (ISO 12620) dựa trên

tài liệu “Thiết kế tập nhãn cú pháp và hướng dẫn gán nhãn”

3.3.2 Chuẩn hóa theo mô hình SynAF

Lý thuyết văn phạm cảm sinh được khởi xướng bởi Chomsky và lý thuyết ngữ pháp chức năng là cơ sở ngôn ngữ học vững chắc cho việc chú giải cú pháp theo mô hình SynAF cho tiếng Anh, tiếng Pháp, tiếng Đức, tiếng Ý…Đối với tiếng Việt, sự ảnh hưởng này cũng được thể hiện qua các nghiên cứu của Vũ Dũng và Cao Xuân Hạo Do vậy, mô hình chú giải cú pháp SynAF của ISO cũng là cơ

sở tốt cho việc xây dựng mô hình chú giải cú pháp tiếng Việt Việc xây dựng mô hình chú giải cú pháp theo chuẩn hóa quốc tế cũng là một nhiệm vụ cần thiết trong việc xây dựng và mở rộng treebank cho tiếng Việt Về cấu trúc chung của mô hình cho tiếng Việt

Định dạng
Số trang	29
Dung lượng	477,73 KB