1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng Việt

69 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân đoạn từ tiếng Việt
Tác giả Lê Minh Hiếu
Người hướng dẫn TS. Nguyễn Chí Hiếu
Trường học Trường Đại học Công nghệ TP. HCM
Chuyên ngành Công nghệ Thông tin
Thể loại Luận văn Thạc sĩ
Năm xuất bản 2015
Thành phố TP. Hồ Chí Minh
Định dạng
Số trang 69
Dung lượng 766,57 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 1. Đặt vấn đề (14)
  • 2. Lý do chọn đề tài (15)
  • 3. Mục tiêu và phạm vi nghiên cứu (15)
  • 4. Bố cục của luận văn (16)
  • CHƯƠNG 1. TỔNG QUAN (17)
  • CHƯƠNG 2. CƠ SỞ LÝ THUYẾT (20)
    • 2.1 Cơ sở lý thuyết về ngôn ngữ (20)
      • 2.1.1 Phân loại ngôn ngữ (20)
      • 2.1.2 Đơn vị chủ yếu của ngôn ngữ (23)
      • 2.1.3 Cấu trúc của đơn vị từ tiếng Việt (28)
      • 2.1.4 Từ vựng tiếng Việt (32)
      • 2.1.5 Vấn đề nhập nhằng nghĩa của từ (34)
    • 2.2 Cơ sở lý thuyết về ngôn ngữ học thống kê (37)
      • 2.2.1 Tổng quan về ngôn ngữ học thống kê (37)
      • 2.2.2 Một số lý thuyết xác suất thống kê trong xử lý ngôn ngữ (38)
  • CHƯƠNG 3. GIỚI THIỆU MÔ HÌNH MMSEG (46)
    • 3.1 Tổng quan về MMSeg (46)
    • 3.3 Đánh giá MMSeg trên ngôn ngữ tiếng Việt (50)
  • CHƯƠNG 4. MÔ HÌNH ĐỀ XUẤT (52)
    • 4.1 Mô hình phân đoạn từ (52)
    • 4.2 Thiết kế giải thuật (53)
      • 4.2.1 Giải thuật tiền xử lý văn bản (53)
      • 4.2.2 Giải thuật phân đoạn từ (55)
    • 4.2 Từ điển và kho ngữ liệu (56)
    • 4.3 Thực nghiệm (60)
  • CHƯƠNG 5. KẾT LUẬN (64)
    • 5.1 Nhận xét chung (64)
    • 5.2 Kết quả đạt được (65)
    • 5.3 Hạn chế của đề tài (65)
    • 5.4 Hướng phát triển của đề tài (66)
  • TÀI LIỆU THAM KHẢO (67)

Nội dung

Luận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng ViệtLuận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng Việt

Mục tiêu và phạm vi nghiên cứu

Mục tiêu chính của luận văn là xây dựng mô hình phân đoạn từ tiếng Việt dựa trên mô hình lai kết hợp nhiều phương pháp nhằm nâng cao độ chính xác của quá trình phân đoạn từ.

Phạm vi của đề tài tập trung vào nghiên cứu phương pháp phân đoạn từ trong văn bản tiếng Việt Mục tiêu là phát triển hệ thống có thể tự động chia nhỏ văn bản thành các từ đơn một cách chính xác và hiệu quả Đầu vào là các đoạn văn bản tiếng Việt chưa được phân đoạn, trong khi đầu ra sẽ là phiên bản đã được xử lý, với các từ rõ ràng và đầy đủ Nghiên cứu này góp phần nâng cao độ chính xác của các ứng dụng xử lý ngôn ngữ tự nhiên và hỗ trợ các hệ thống dịch máy, tìm kiếm và phân loại văn bản tiếng Việt.

Với mục tiêu nêu trên, luận văn tập trung nghiên cứu các vấn đề sau đây:

 Nghiên cứu tổng quan về xử lý ngôn ngữ tự nhiên Khảo sát các công trình nghiên cứu có liên quan đến đề tài trong nước và quốc tế.

Nghiên cứu cơ sở lý thuyết về ngôn ngữ bao gồm các loại hình ngôn ngữ và đơn vị chủ yếu của tiếng Việt Trong đó, cấu trúc của đơn vị từ trong tiếng Việt đóng vai trò quan trọng để hiểu rõ về cách thức xây dựng nghĩa và phân tích ngôn ngữ Bên cạnh đó, công trình còn nghiên cứu về từ vựng và hiện tượng nhập nhằng nghĩa của từ, giúp làm rõ sự đa dạng và phức tạp của ngôn ngữ Việt Nam trong quá trình giao tiếp.

 Nghiên cứu cơ sởlý thuyết vềngôn ngữhọc thống kê bao gồm: lý thuyết xác suất thống kê trong xửlý ngôn ngữtựnhiên, mô hình Markovẩn, mô hình thống kê N-Gram.

 Xây dựng kho ngữliệu phục vụcác mô hình thống kê.

 Thu thập và xây dựng từ điển từvựng, từ điểndanh từriêng.

 Nghiên cứu các phương pháp phân đoạn từdựa trên từ điển.

 Nghiên cứu các phương pháp phân đoạn từdựa trên mô hình thống kê.

 Nghiên cứu cácphương pháp phát hiện từ mới sử dụng kho ngữ liệu và thông tin tương hỗ.

Dự án xây dựng mô hình phân đoạn từ tiếng Việt áp dụng kết hợp nhiều phương pháp hiện đại để nâng cao độ chính xác Các phương pháp nổi bật bao gồm phân đoạn từ dựa trên tham khảo từ điển từ vựng, nhận dạng danh từ riêng bằng từ điển danh từ riêng, so sánh các mẫu dùng biểu thức chính quy để phát hiện các phần tử đặc thù, cùng với phương pháp tự động phát hiện từ mới dựa trên thông tin hỗ trợ Việc kết hợp các kỹ thuật này giúp cải thiện hiệu quả phân đoạn từ tiếng Việt một cách rõ rệt, đáp ứng yêu cầu của các ứng dụng xử lý ngôn ngữ tự nhiên.

Bố cục của luận văn

Luận văn gồm 5 chương chính, bắt đầu với chương 1 tổng quan về các hướng tiếp cận và công trình nghiên cứu liên quan đến đề tài, giúp xác định bối cảnh nghiên cứu Chương 2 trình bày cơ sở lý thuyết về ngôn ngữ và ngôn ngữ học thống kê, nắm vững nền tảng để phát triển các phương pháp phân tích ngôn ngữ Chương 3 giới thiệu mô hình MMSeg – mô hình tham khảo quan trọng của đề tài, đóng vai trò trung tâm trong nghiên cứu Chương 4 trình bày mô hình phân đoạn từ do luận văn đề xuất, góp phần nâng cao hiệu quả xử lý ngôn ngữ tự nhiên Cuối cùng, chương 5 kết luận, tự đánh giá các kết quả đạt được, nêu ra các hạn chế và đề ra hướng phát triển cho nghiên cứu trong tương lai.

TỔNG QUAN

Khác với tiếng Anh và các ngôn ngữ Ấn-Âu sử dụng khoảng cách làm dấu hiệu phân cách từ, hầu hết các ngôn ngữ châu Á như tiếng Việt, tiếng Thái, tiếng Nhật đều cần dựa vào nhiều yếu tố như ngữ nghĩa, ngữ cảnh và các từ lân cận để xác định ranh giới giữa các từ Đã có nhiều công trình nghiên cứu về phân đoạn từ với nhiều phương pháp khác nhau, trong đó các nghiên cứu chủ yếu tập trung vào ba hướng tiếp cận chính là dựa trên từ điển (dictionary-based), dựa trên thống kê (statistics-based), và tiếp cận lai (hybrid-based).

Hướng tiếp cận dựa trên từ điển là phương pháp cơ bản trong phân đoạn từ, sử dụng từ điển từ vựng kết hợp với thuật toán so khớp để xác định các điểm chia từ Độ chính xác của phương pháp này phụ thuộc vào độ đầy đủ của từ điển, giúp đạt được tốc độ xử lý nhanh và đơn giản Tuy nhiên, nhược điểm chính là không thể phân đoạn chính xác các từ không có trong từ điển hoặc các trường hợp nhập nhằng, dẫn đến khả năng phân đoạn sai cao hơn.

Hướng tiếp cận dựa trên thống kê hoặc kết hợp thống kê và học máy đòi hỏi xây dựng kho dữ liệu ngôn ngữ lớn để thực hiện phân đoạn từ chính xác Phương pháp này sử dụng dữ liệu huấn luyện và các thuật toán để phân đoạn từ, giúp phát hiện từ mới và giảm nhầm lẫn trong phân đoạn Tuy nhiên, độ chính xác phụ thuộc vào quy mô và phạm vi của kho dữ liệu, bên cạnh đó, việc xây dựng và xử lý kho dữ liệu đòi hỏi nhiều thời gian và công sức Ưu điểm nổi bật của hướng tiếp cận này là khả năng phân đoạn chính xác các từ mới, từ đó nâng cao hiệu quả xử lý ngôn ngữ tự nhiên.

Hướng tiếp cận lai là phương pháp sử dụng kết hợp nhiều phương pháp phân đoạn cùng lúc nhằm nâng cao độ chính xác của kết quả phân đoạn Ưu điểm chính của phương pháp này là giúp cải thiện độ chính xác đáng kể so với việc sử dụng các phương pháp riêng lẻ Tuy nhiên, nhược điểm lớn của hướng tiếp cận lai chính là tăng độ phức tạp trong quá trình triển khai, đòi hỏi các kỹ thuật xử lý phức tạp hơn và yêu cầu tài nguyên lớn hơn.

Trong phần tiếp theo, chúng tôi trình bày kết quả khảo sát cùng với mô tả các công trình nghiên cứu liên quan đến đề tài, tập trung vào những nghiên cứu được thực hiện trên ngôn ngữ tiếng Việt hoặc các ngôn ngữ có đặc điểm tương đồng với tiếng Việt.

Trên ngôn ngữ tiếng Myanmar, Hla Hla Htay và Kavi Narayana Murthy trong

Trong nghiên cứu này, thuật toán so khớp dài nhất (Longest Matching) được sử dụng để phân đoạn từ tiếng Myanmar chính xác Một từ điển gồm khoảng 4.550 âm tiết trong ngôn ngữ Myanmar đã được xây dựng, sau đó gộp các âm tiết này để tạo ra khoảng 800.000 từ và các biến thể của từ Thực nghiệm trên 5.000 câu chứa 35.049 từ cho thấy kết quả đạt được 34.943 từ đúng, với độ chính xác đạt 98,95% theo chỉ số F-measure, thể hiện hiệu quả cao của phương pháp này trong xử lý ngôn ngữ Myanmar.

Trong nghiên cứu của Jin Kiat Low và cộng sự [18], mô hình cực đại Entropy (ME) dựa trên từ điển gồm khoảng 108.000 từ được sử dụng để phân đoạn từ tiếng Trung Quốc Thực nghiệm được tiến hành trên bốn corpus khác nhau gồm Academia Sinica (AS), City University of Hong Kong (CITYU), Microsoft Research (MSR) và Peking University (PKU), cho thấy kết quả F-measure đạt từ 95,6% đến 96,9%.

Masaaki Nagata đề xuất một mô hình phân đoạn từ tiếng Nhật dựa trên thống kê, bắt đầu bằng việc sử dụng một tập hợp các từ cơ bản gọi là word base Quá trình huấn luyện mô hình dựa trên tính toán tần số xuất hiện của các chuỗi trong dữ liệu, giúp tăng cường word base bằng các từ mới được xác định trong quá trình này Cuối cùng, phương pháp đánh giá lại nhằm loại bỏ những từ không phù hợp để nâng cao độ chính xác Khi kho ngữ liệu đạt 3.9Mb với khoảng 1791 từ, phương pháp đạt độ chính xác 82,5% Phương pháp này sử dụng word base như kinh nghiệm để phân đoạn mà không cần kích thước lớn của word base ở giai đoạn ban đầu, đảm bảo hiệu quả cao trong xử lý tiếng Nhật.

Trong nghiên cứu của Thanaruk Theeramunkong và Sasiporn Usanavasin, họ đã xây dựng mô hình phân đoạn từ tiếng Thái dựa trên cây quyết định không sử dụng từ điển Họ sử dụng cấu trúc từ vựng tiếng Thái làm dấu hiệu đặc trưng để phân lớp, đồng thời tạo một bộ dữ liệu huấn luyện (copus) để xây dựng cây quyết định Quy trình phân đoạn dựa trên luật của cây quyết định được xác định dựa trên các ký tự nằm kề nhau không thể tách rời, gọi là “Thai character clusters - TCCs” Kết quả thực nghiệm trên kho dữ liệu tiếng Thái cho thấy độ chính xác đạt tới 87.41%.

Trong ngôn ngữ tiếng Việt, nhiều mô hình phân đoạn từ đã được nghiên cứu và đạt kết quả khả quan, mang lại hiệu quả cao trong xử lý ngôn ngữ tự nhiên Lê Trung Hiếu và cộng sự trong nghiên cứu [13] đã xây dựng mô hình xác suất nhận dạng và phân tách từ tiếng Việt, đồng thời áp dụng công nghệ máy tự học để tối ưu hóa mô hình Thuật toán phân tách từ của họ đạt độ chính xác trên 90%, chứng tỏ tính hiệu quả và khả năng ứng dụng trong các hệ thống xử lý tiếng Việt.

Trần Ngọc Anh cùng cộng sự đề xuất phương pháp phân đoạn từ dựa trên mô hình lai, kết hợp kỹ thuật so khớp cực đại (Maximum Matching) để cải thiện độ chính xác Để phát hiện nhập nhằng trong quá trình phân đoạn, họ sử dụng song song phương pháp Foward Maximum Matching (FMM) và Backward Maximum Matching (BMM) Nhằm xử lý nhập nhằng hiệu quả, tác giả tích hợp nhiều phương pháp như mô hình thống kê Bi-Gram trên từ, mô hình N-Gram dựa trên âm tiết và tham khảo từ điển Thực nghiệm trên tập corpus gồm 2.639 tập tin văn bản với hơn 1,5 triệu từ cho thấy kết quả đạt độ chính xác cao với F-measure từ 98.71% đến 98.94%, thể hiện hiệu quả vượt trội của phương pháp này trong phân đoạn từ tiếng Việt.

Lưu Tuấn Anh và Yamamoto Kazuhide đã xây dựng mô hình phân đoạn từ dựa trên phương pháp Pointwise kết hợp cùng máy học SVM, mang lại hiệu quả cao trong xử lý ngôn ngữ tự nhiên Kết quả nghiên cứu đạt độ chính xác lên đến 98,2%, được ứng dụng để phát triển công cụ tách từ có tên là Đông Du Công cụ này giúp nâng cao hiệu quả phân đoạn từ trong các ứng dụng xử lý tiếng Việt, góp phần thúc đẩy các hệ thống NLP chính xác hơn.

Lê Hồng Phương và cộng sự đã nghiên cứu sử dụng mô hình lai dựa trên kỹ thuật so khớp cực đại kết hợp với automat hữu hạn trạng thái và biểu thức chính quy để tối ưu hóa quá trình xử lý ngôn ngữ tự nhiên Để xử lý nhập nhằng trong văn bản, hệ thống còn tích hợp các thống kê Uni-Gram và Bi-Gram được huấn luyện trên tập dữ liệu tách từ mẫu Kết quả nghiên cứu đã giúp phát triển công cụ vnTokenizer với độ chính xác cao, đạt mức F-measure gần 94%, góp phần nâng cao hiệu quả phân tách từ trong các ứng dụng NLP.

CƠ SỞ LÝ THUYẾT

Cơ sở lý thuyết về ngôn ngữ

Theo Nguyễn Thiện Giáp trong [9, tr 298–305], ngôn ngữ được chia thành hai loại chính: ngôn ngữ đơn lập và ngôn ngữ không đơn lập Ngôn ngữ đơn lập có thể hiểu theo hai khía cạnh: đơn lập về ngữ âm, giống như tính đơn tiết của từ hay hình vị; và đơn lập về ngữ pháp, đề cập đến tính độc lập của từ hoạt động trong câu Sự khác biệt cơ bản giữa hai loại hình này nằm ở đặc điểm cấu tạo của từ.

2.1.1.1 Ngôn ngữ không đơn lập

Ngôn ngữ không đơn lập được chia làm 3 loại chính: ngôn ngữchắp dính, ngôn ngữhòa kết và ngôn ngữhỗn nhập.

Ngôn ngữ chắp dính đặc trưng bởi việc sử dụng rộng rãi các phụ tố để cấu tạo từ và biểu thị các mối quan hệ ngữ pháp khác nhau Mỗi phụ tố thể hiện một ý nghĩa ngữ pháp cụ thể, góp phần làm rõ nghĩa của câu Trong các ngôn ngữ chắp dính, hình vị có tính độc lập cao và mối liên hệ giữa chúng không chặt chẽ, điều này giúp cho các thành phần có thể hoạt động độc lập trong câu.

Ví dụ, trong tiếng ThổNhĩ Kì:

- adamlar: những người đàn ông

- kadinlar: những người đàn bà

Có thể liệt kê một số ngôn ngữ thuộc loại này như: tiếng Thổ Nhĩ Kỳ, tiếngUgo-Phần Lan, tiếng Bantu, v.v…

Ngôn ngữ chuyển dạng là một loại hình ngôn ngữ đặc trưng bởi sự biến đổi giữa nguyên âm và phụ âm trong hình vị mang ý nghĩa ngữ pháp Trong ngôn ngữ này, ý nghĩa từ vựng và ngữ pháp được tích hợp trong cùng một từ, không thể tách rời để phân biệt rõ ràng giữa chúng Mỗi phụ tố có thể mang đồng thời nhiều ý nghĩa khác nhau, và các hình vị liên kết chặt chẽ với nhau tạo thành cấu trúc ngôn ngữ phức tạp.

Bảng 2.1 Bảng minh họa ngôn ngữhòa kết Tiếng Anh foot: bàn chân–feet: những bàn chân TiếngẢRập balad: làng–bilọd: những làng

Các ngôn ngữ chuyển dạng gồm các tiếng Ấn-Âu hiện đại như các tiếng Pháp, tiếng Ý, tiếng Anh, tiếng Bungari, v.v…

Ngôn ngữ hỗn nhập đặc trưng bởi khả năng một từ có thể tương ứng với cả câu trong các ngôn ngữ khác, thể hiện đối tượng hoặc trạng thái hành động mà không sử dụng các thành phần câu đặc trưng như tân ngữ, trạng ngữ hay định ngữ Thay vào đó, ý nghĩa này được thể hiện qua các phụ tố khác nhau trong hình thái của động từ, phản ánh đặc điểm độc đáo của loại ngôn ngữ này.

Ví dụ: trong tiếng Tschinuk ởBắc Mĩ, từ“inialudam”tương ứng với câu "Tôi đãđ ến để cho cô cái này".

Bảng 2.2 Bảng minh họa một từtrong tiếng Tschinuk

 Phụâmd[7] là động từchính trong câu, có nghĩa là cho

 Tiền tối[1] biểu hiện thì quá khứ, có nghĩa là đ ã

 Phụtốn[2] biểu hiện ngôi thứnhất sốít, có nghĩa là tôi

 Phụtối[3] biểu hiện tân ngữgiới từ, có nghĩa là cái này

 Phụtốa[4] biểu hiện tân ngữcủa giới từ, có nghĩa là cô

 Phụtốl[5] cho biết tân ngữcủa giới từ cô là gián tiếp

 Phụtốu[6] chỉra rằng hành độngở th ể ch ủ độ ng

 Phụtốam[8,9] nhấn mạnh tính có mục đíchcủa hành động.

Một số ngôn ngữ Ấn ở Nam Mĩ và Đông Nam Xibêri v.v cũng thuộc loại ngôn ngữhỗn nhập.

Trong ngôn ngữ đơn lập, từ không biến đổi hình thái và cấu tạo từ dựa trên các căn tố hoặc sự kết hợp của chúng Các mối quan hệ ngữ pháp và ý nghĩa ngữ pháp được thể hiện qua các phương tiện ngoài từ như trật tự từ, hư từ, ngữ điệu, giúp phân biệt các mối quan hệ trong câu và diễn đạt chính xác ý nghĩa.

Dùng hư từ  Cuốn sách–những cuốn sách

 Đi – sẽ đi, đang đi, đãđi, mới đi, …

Dùng trật tựtừ  Cửa trước– trước cửa

Ranh giới giữa từghép và cụm từ đôi khi khó phân biệt rõ ràng Ví dụ: xe đạp, nhà phố, v.v…

Trong ngôn ngữ đơn lập, mặt ngữ âm thể hiện rõ mối quan hệ giữa hình vị và âm tiết, khi ranh giới giữa hình vị và âm tiết trùng khớp tạo thành hình tiết Hình tiết là đơn vị ngữ âm gồm âm tiết, có thể được sử dụng như một từ độc lập hoặc như yếu tố cấu tạo từ Âm tiết trong ngôn ngữ đơn lập có cấu trúc chặt chẽ, với mỗi âm vị giữ vị trí và chức năng nhất định, góp phần đảm bảo tính logic và rõ ràng của ngôn ngữ.

Tiêu biểu cho ngôn ngữ đơn lập có thểkể đến một sốngôn ngữ như: tiếng Hán, tiếng Thái, tiếng Dao, tiếng Miến Điện, tiếng Khmer, v.v

Tiếng Việt là ngôn ngữ đơn lập, không biến đổi hình thái từ và có số lượng vỏ âm thanh hạn chế trong phạm vi tối đa Điều này giúp ngôn ngữ trở nên dễ học và hiểu rõ, đồng thời ảnh hưởng đến cách phát âm và cấu trúc của từ ngữ trong tiếng Việt Hiểu rõ đặc điểm này là nền tảng quan trọng để nghiên cứu và phân tích ngữ nghĩa, cũng như tối ưu hóa nội dung cho các hoạt động SEO liên quan đến tiếng Việt.

4 vạn tiếng khác nhau [5, tr.46]

2.1.2 Đơn vị chủ yếu của ngôn ngữ

Theo Nguyễn Thiện Giáp trong [11, tr 52-55] đơn vị chủ yếu của ngôn ngữ gồm có:

Hình 2.1 Hình minh họa các đơn vịchủ yếu của ngôn ngữ

2.1.2.1 Âm vị Âm vị cònđược gọi là âm tiết là đơn vị tối thiểu của hệthống ngữ âm của một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ.

Trong ngôn ngữ, câu và từ đều có cấu trúc chặt chẽ, đặc biệt là âm tiết và âm vị Âm vị có thể tạo thành âm tiết, có thể dùng làm từ riêng biệt hoặc là thành phần cấu tạo từ Âm tiết trong ngôn ngữ đơn lập giữ vai trò quan trọng và có cấu trúc rõ ràng, trong đó mỗi âm vị có vị trí nhất định và chức năng riêng biệt để duy trì sự rõ ràng của ngôn ngữ.

Tiêu biểu cho ngôn ngữ đơn lập có thểkể đến một sốngôn ngữ như: tiếng Hán, tiếng Thái, tiếng Dao, tiếng Miến Điện, tiếng Khmer, v.v

Tiếng Việt là một ngôn ngữ đơn lập, không biến đổi hình thái, với số lượng vỏ âm thanh được sử dụng để làm vỏngữ âm cho hình vị tối đa Những đặc điểm này giúp tiếng Việt duy trì tính nhất quán trong cấu trúc ngôn ngữ và dễ dàng trong việc học tập và ứng dụng hàng ngày Hiểu rõ về hệ thống âm vị của tiếng Việt có thể nâng cao khả năng phát âm chính xác và cải thiện kỹ năng ngôn ngữ của người học Bên cạnh đó, việc phân tích các vỏ âm thanh đóng vai trò quan trọng trong nghiên cứu ngôn ngữ học và phát triển các công cụ hỗ trợ ngôn ngữ tự nhiên.

4 vạn tiếng khác nhau [5, tr.46]

2.1.2 Đơn vị chủ yếu của ngôn ngữ

Theo Nguyễn Thiện Giáp trong [11, tr 52-55] đơn vị chủ yếu của ngôn ngữ gồm có:

Hình 2.1 Hình minh họa các đơn vịchủ yếu của ngôn ngữ

2.1.2.1 Âm vị Âm vị cònđược gọi là âm tiết là đơn vị tối thiểu của hệthống ngữ âm của một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ. vị có vỏngữ âm là âm tiết, có khi được dùng với tư cách một từ, có khi được dùng với tư cáchlà yếu tốcấu tạo từ. Âm tiết trong ngôn ngữ đơn lập có cấu trúc chặt chẽ Mỗi âm vị nằm ở vị trí nhất định, có chức năng nhất định.

Tiêu biểu cho ngôn ngữ đơn lập có thểkể đến một sốngôn ngữ như: tiếng Hán, tiếng Thái, tiếng Dao, tiếng Miến Điện, tiếng Khmer, v.v

Tiếng Việt là ngôn ngữ thuộc loại hình ngôn ngữ đơn lập, không biến đổi hình thái, điều này giúp dễ dàng nhận diện và phân biệt các từ trong câu Số lượng vỏ âm thanh mà người Việt sử dụng làm vỏngữ âm cho hình vị tối đa khoảng, góp phần tạo nên sự phong phú và đa dạng trong hệ thống âm vị của ngôn ngữ Chính đặc điểm này giúp tiếng Việt duy trì sự trong sáng và linh hoạt trong cách phát âm cũng như giao tiếp hàng ngày.

4 vạn tiếng khác nhau [5, tr.46]

2.1.2 Đơn vị chủ yếu của ngôn ngữ

Theo Nguyễn Thiện Giáp trong [11, tr 52-55] đơn vị chủ yếu của ngôn ngữ gồm có:

Hình 2.1 Hình minh họa các đơn vịchủ yếu của ngôn ngữ

2.1.2.1 Âm vị Âm vị cònđược gọi là âm tiết là đơn vị tối thiểu của hệthống ngữ âm của một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ.

Tiếng Việt là ngôn ngữ đơn lập có 6 thanh điệu, mỗi âm tiết đều mang một thanh điệu riêng biệt Khác với các ngôn ngữ châu Âu, âm tiết trong tiếng Việt thể hiện rõ nét các thanh điệu, giúp người nghe nhận biết chính xác ý nghĩa Trong câu nói, các âm tiết tiếng Việt luôn được thể hiện rõ ràng, đầy đủ và tách biệt thành các đoạn riêng để tăng tính mạch lạc và dễ hiểu.

Theo Cao Xuân Hạo trong [12], hệ thống âm vị tiếng Việt gồm 22 phụ âm đầu, 6 phụ âm cuối, 16 nguyên âm và 2 bán nguyên âm, thể hiện sự phong phú và đa dạng của ngữ âm tiếng Việt Các phụ âm đầu và cuối giúp tạo nên các âm vị cơ bản của ngôn ngữ, trong khi các nguyên âm và bán nguyên âm đóng vai trò quan trọng trong việc xác định sắc thái âm điệu và nghĩa của từ Hiểu rõ hệ thống âm vị này là căn cứ quan trọng để nghiên cứu chính xác phát âm và chữ viết trong tiếng Việt.

 16 nguyên âm: /i, e, ε,ɤ,ɤˇ, a,ɯ, ă, u, o, ɔ,ɔˇ, εˇ, ie, ɯɤ, uo/

Bảng 2.3 Bảng phụ âm đầu

Bảng 2.4 Bảng phụâm cuối và bán nguyên âm

Cơ sở lý thuyết về ngôn ngữ học thống kê

2.2.1 Tổng quan vềngôn ngữ học thống kê

Ngôn ngữ học thống kê là một ngành khoa học có truyền thống lâu đời, kết hợp nghiên cứu ngôn ngữ với lý thuyết xác suất và thống kê Từ thế kỷ 18, F Kaeding đã ứng dụng phương pháp thống kê để xây dựng từ điển tần số tiếng Đức Năm 1913, nhà toán học Nga A A Markov đã sử dụng phương pháp xác suất thống kê để nghiên cứu quy luật nối tiếp các phụ âm và nguyên âm trong tiếng Nga.

Từ thập niên 1950 trở lại đây, ngôn ngữ học thống kê đã không ngừng phát triển và đạt được nhiều thành tựu quan trọng trong các lĩnh vực như ngữ âm học, từ vựng học, ngữ pháp học, và nghĩa học Đặc biệt, phương pháp này đã góp phần thúc đẩy sự tiến bộ đáng kể trong lĩnh vực máy học (ML: Machine Learning), mở ra nhiều cơ hội ứng dụng rộng rãi trong nghiên cứu ngôn ngữ tự nhiên.

Ngôn ngữhọc thống kê đãđược áp dụng trong nhiều bài toán ngôn ngữ như:

 Nghiên cứu loại hình của ngôn ngữ.

 Xây dựng từ điển từvựng, từ điển tần sốcủa một ngôn ngữ.

 Xácđịnh văn phong của tác giảthông qua các tác phẩm.

 Xửlý thông tin tự động như: tách câu, tách từ, dịch máy, sửa lỗi chính tả, nhận dạng tiếng nói.

 Xác định niên đại của ngôn ngữ, v.v

Lý thuyết xác suất thống kê là nền tảng toán học cốt lõi của ngôn ngữ học thống kê Trong bài viết này, chúng tôi sẽ trình bày các lý thuyết thống kê phổ biến và được ứng dụng nhiều trong xử lý ngôn ngữ tự nhiên Những kiến thức này giúp nâng cao hiệu quả phân tích và trích xuất thông tin từ dữ liệu ngôn ngữ lớn.

2.2.2Một số lý thuyết xác suất thống kê trong xử lý ngôn ngữ

Hàm xác suất P của một biến ngẫu nhiên E là một ánh xạtừmiền xác định của

E (không gian các giá trịE có thểnhận) đến đoạn sốthực [0,1].

GiảsửE có thểnhận các giá trịphân biệt e1, e2, , en.

Hàm xác xuất phải thỏa các tính chất sau:

Cho các biến ngẫu nhiên X và Y, xác xuất điều kiện được định nghĩa:

( ) Trong đó sửdụng ký hiệu:

2 P(XY) có nghĩa là đồng thời có X=x và Y=y.

 Biến ngẫu nhiên độc lập

Hai biến ngẫu nhiên X, Yđược gọi là độc lập khi và chỉkhi:

Từ đó suy ra nếu X, Yđộc lập thì:

 Kỳ vọng và phương sai

Kỳvọng là giá trịtrung bình của biến ngẫu nhiên GiảsửX là biến ngẫu nhiên, thì kỳvọng là:

Phương sai của biến ngẫu nhiên A là một chỉ số không âm, thể hiện mức độ phân tán của các giá trị của biến ngẫu nhiên xung quanh trung bình của nó Đây là thước đo quan trọng giúp đánh giá độ biến đổi của dữ liệu, phản ánh sự phân bổ và độ lệch của các giá trị so với trung bình Hiểu rõ về phương sai giúp phân tích và dự đoán các hiện tượng ngẫu nhiên một cách chính xác hơn trong thống kê và xác suất.

Trong lý thuyết xác suất, khi có đầy đủ dữ liệu thống kê, ta có thể tính chính xác xác suất của một biến ngẫu nhiên Ví dụ, từ số liệu thống kê từ ngày 01-01-2014 đến 31-05-2014 về hiện tượng “trời mưa trong ngày,” ta đếm được 39 ngày mưa trên tổng số 150 ngày, giúp xác định xác suất xảy ra sự kiện này là 39/150.

Lý thuyết xác suất thống kê không phải là để dự đoán chính xác các sự kiện như "trời mưa ngày mai" vì chúng ta chưa thể tính được xác suất này khi chưa có dữ liệu đầy đủ Thay vào đó, công cụ này giúp chúng ta mở rộng khả năng dự đoán dựa trên các xác suất có sẵn, phù hợp với các tình huống không chắc chắn Do đó, mục tiêu chính của xác suất thống kê là phân tích và mô hình hóa các biến cố không chắc chắn thay vì dự đoán chính xác từng sự kiện trong tương lai.

Hai biến ngẫu nhiên X, Yđược gọi là độc lập khi và chỉkhi:

Từ đó suy ra nếu X, Yđộc lập thì:

 Kỳ vọng và phương sai

Kỳvọng là giá trị trung bình của biến ngẫu nhiên GiảsửX là biến ngẫu nhiên, thì kỳvọng là:

Phương sai của biến ngẫu nhiên A đo lường mức độ phân tán của các giá trị của biến ngẫu nhiên xung quanh giá trị trung bình của nó Đây là một số không âm phản ánh mức độ biến động của dữ liệu, giúp hiểu rõ hơn về độ phân tán của biến ngẫu nhiên trong thống kê Phương sai càng lớn, các giá trị của biến ngẫu nhiên phân tán xa trung bình, ngược lại phương sai nhỏ cho thấy các giá trị gần trung bình hơn Việc tính toán phương sai là công cụ quan trọng trong phân tích dữ liệu để đánh giá độ ổn định và biến dạng của các biến số.

Trong lý thuyết xác suất, việc có đầy đủ dữ liệu giúp xác định chính xác xác suất của một biến ngẫu nhiên Ví dụ, nếu biết rằng từ ngày 01-01-2014 đến ngày 31-05-2014 có 150 ngày, trong đó có 39 ngày trời mưa, thì xác suất chính xác xảy ra hiện tượng “trời mưa trong ngày” trong khoảng thời gian này là 39/150 Điều này cho thấy cách tính xác suất dựa trên dữ liệu thống kê thực tế, giúp dự đoán chính xác hơn về khả năng xảy ra của các sự kiện trong thực tế.

Lý thuyết xác suất thống kê không chủ yếu được dùng để dự đoán xác suất chính xác của các sự kiện như "trời mưa trong ngày" khi chưa có đủ dữ liệu Vì chúng ta không thể tính được xác suất này cho những ngày kế tiếp tại những thời điểm chưa thu thập thông tin rõ ràng Thay vào đó, lý thuyết này chủ yếu hỗ trợ phân tích và đưa ra dự đoán dựa trên các dữ liệu thống kê đã có.

Hai biến ngẫu nhiên X, Yđược gọi là độc lập khi và chỉkhi:

Từ đó suy ra nếu X, Y độc lập thì:

 Kỳ vọng và phương sai

Kỳvọng là giá trị trung bình của biến ngẫu nhiên GiảsửX là biến ngẫu nhiên, thì kỳvọng là:

Phương sai của biến ngẫu nhiên A là một chỉ số không âm giúp đo lường mức độ phân tán các giá trị của biến ngẫu nhiên xung quanh giá trị trung bình của nó Đây là một khái niệm quan trọng trong xác suất và thống kê, giúp đánh giá mức độ biến đổi của dữ liệu Phương sai càng lớn, các giá trị của biến ngẫu nhiên phân tán xa trung bình, trong khi phương sai nhỏ cho thấy các giá trị tập trung gần trung bình Điều này giúp nhà phân tích hiểu rõ hơn về mức độ biến động của dữ liệu và đưa ra các quyết định chính xác dựa trên phân tích thống kê.

Trong lý thuyết xác suất, khi có đủ dữ liệu thống kê, ta có thể tính chính xác xác suất của một biến ngẫu nhiên Ví dụ, dựa trên dữ liệu từ ngày 01-01-2014 đến 31-05-2014, ghi nhận 39 ngày mưa trong tổng số 150 ngày, ta có thể xác định xác suất xảy ra sự kiện "trời mưa trong ngày" là 39/150 Điều này giúp dự đoán chính xác khả năng xảy ra của sự kiện dựa trên dữ liệu thực tế.

Lý thuyết xác suất thống kê không chủ yếu tập trung vào việc dự đoán xác suất chính xác của các sự kiện trong tương lai Vì chúng ta chưa thể xác định chính xác xác suất "trời mưa trong ngày" cho các ngày tiếp theo khi chưa có đủ thông tin dữ liệu Thay vào đó, lý thuyết này giúp phân tích các khả năng xảy ra của các hiện tượng dựa trên dữ liệu hiện có, hỗ trợ đưa ra quyết định tối ưu trong điều kiện không chắc chắn.

 Ước lượng khả năng cực đại (MLE: Maximum Likelihood Estimator)

Phương pháp ước lượng bằng xác suất chính xác giúp dự đoán một biến cố chưa rõ Ước lượng with phương pháp tối đa khả năng hợp lý (MLE) có độ chính xác cao hơn khi dữ liệu lớn hơn, cung cấp kết quả tin cậy hơn trong phân tích thống kê.

Ước lượng khả năng mong muốn (ELE - Expect Likelihood Estimator) là phương pháp ước lượng thích hợp cho các loại biến có tần suất thấp Khi xét biến ngẫu nhiên X, ta gọi Vi là số lần xuất hiện của giá trị X = xi, giúp xác định xác suất mong muốn một cách chính xác trong các trường hợp đặc biệt này.

Kỹthuật ước lượng ELE tính xác suất theo công thức sau:

( = ) ≅ (Ʃ ) Đểtránh vấn đềtửsốbằng không, (xác suất bằng không), ta cộng thêm một gia sốVi, chẳng hạn:

Chúng ta xét tình huống dưới đây đểphân biệt MLE và ELE:

Giảsửtrong tiếng t không xuất hiện trong kho ngữliệu và ta cần ước lượng xác suất suất hiện của t trong các từw1, w2, w40.

Như vậy ta có một biến ngẫu nhiên X, với X = xi chỉ khi t xuất hiện trong từwi.

Với công thức ước lượng MLE, xác suất P(X = xi) bằng 0, cho thấy dữ liệu không cung cấp thông tin về sự xuất hiện của tiếng /t/ trong từ "wi" Ngược lại, với công thức ELE, xác suất bằng 0.5 cho tất cả các vị trí từ 1 đến 40, phản ánh khả năng xuất hiện của /t/ là đồng đều trên toàn bộ dữ liệu.

≅ 0.50.5 ∗ 40= 0.025Công thức này thểhiện thông tin ước lượng sựxuất hiện của t trong wi, mặc dù trong kho ngữliệu không hềcó t.

2.2.2.4Mô hình Markovẩnvà các mô hìnhN-Gram

GIỚI THIỆU MÔ HÌNH MMSEG

Tổng quan về MMSeg

MMSeg là một hệ thống phân đoạn từ tiếng Hoa được đề xuất bởi Chih-Hao Tsai, sử dụng hai dạng của thuật toán so khớp Maximum Matching kết hợp với từ điển để nâng cao độ chính xác Hệ thống còn tích hợp bốn luật phân giải nhập nhằng giúp xử lý các trường hợp phức tạp trong phân đoạn từ Theo kết quả công bố của tác giả, khi thử nghiệm trên kho ngữ liệu chứa 1.013 từ, MMSeg đạt tỷ lệ chính xác lên đến 98.41%, chứng minh hiệu quả và độ tin cậy của hệ thống Các luật phân giải nhập nhằng đóng vai trò quan trọng trong việc xử lý các trường hợp khó của tiếng Hoa, góp phần nâng cao chất lượng phân đoạn từ tự nhiên của hệ thống.

Luật số 1 về Maximum matching – so khớp tối đa đề cập đến việc sử dụng thuật toán tối ưu để xác định các mệnh đề phù hợp nhất trong quá trình xử lý ngôn ngữ tự nhiên Trong đó, thuật toán đơn giản lấy từ có chiều dài lớn nhất để đảm bảo khả năng khớp tối đa Còn thuật toán phức tạp hơn sẽ chọn từ đầu tiên trong bộ 3 từ có chiều dài lớn nhất, và nếu có nhiều bộ 3 từ cùng chiều dài, tiếp tục áp dụng các quy tắc xử lý tiếp theo để tối ưu hóa kết quả.

Luật số 2 quy định rằng độ dài trung bình của từ lớn nhất sẽ được xác định dựa trên việc lấy từ đầu tiên của bộ ba từ có độ dài trung bình lớn nhất Trong trường hợp có nhiều bộ ba từ cùng đạt độ dài trung bình lớn nhất, các quy tắc tiếp theo sẽ được áp dụng để xác định kết quả chính xác Quy trình này giúp tối ưu hóa phân tích và xử lý dữ liệu ngôn ngữ một cách chính xác và hiệu quả.

Ví dụ: o Trường hợp 1 (TH1): _C1_C2_C3_ o Trường hợp 2 (TH2): _C1C2C3_

Theo luật số2, ta lấy từC1C2C3ởTH2.

Luật số 3 quy định về độ biến đổi nhỏ nhất của chiều dài từ, bắt đầu bằng việc chọn từ trong bộ 3 từ có sự biến đổi nhỏ nhất về chiều dài Nếu có nhiều hơn một bộ 3 từ chia sẻ độ biến đổi nhỏ nhất, ta tiếp tục áp dụng các quy tắc tiếp theo để xác định kết quả chính xác Điều này giúp đảm bảo quá trình lựa chọn diễn ra công bằng và chính xác dựa trên những tiêu chí đã đề ra.

Theo luật số3, ta lấy C1C2 trong TH1.

Luật số 4 xác định tổng lớn nhất của đột biến hình vị của các từ đơn, sử dụng công thức tính tổng logarit tần số các từ trong bộ Luật này cho phép chọn từ đầu tiên của bộ có tổng logarit tần số lớn nhất để đảm bảo tối đa hóa đột biến hình vị Hiếm khi xuất hiện trường hợp hai từ đơn có cùng độ tự do hình vị, theo tác giả, trường hợp này được coi là đã được giải quyết, tránh gây nhầm lẫn trong phân tích.

3.2 Áp dụng MMSeg vào tiếng Việt

Trong phần này, chúng tôi sử dụng công nghệ MMSeg cho tiếng Việt để đánh giá hiệu quả của hệ thống, dựa trên tập dữ liệu gồm 10.000 câu trích từ VietTreebank Dữ liệu được sắp xếp ngẫu nhiên và chia thành 5 phần để tiến hành năm lần thử nghiệm độc lập Để đánh giá chính xác, chúng tôi sử dụng các chỉ số Precision, Recall và F-measure nhằm đo lường độ chính xác và khả năng nhận diện của hệ thống Kết quả thử nghiệm cho thấy hệ thống hoạt động hiệu quả trong việc phân loại và nhận diện từ ngữ tiếng Việt.

(3)được tính theo các công thức sau:

 CorrectWords: sốtừ phân đoạn đúng so với sốtừchuẩn

Sau đâylà kết quả thu được:

Bảng 3.1 Bảng liệt kê kết quảthực nghiệm MMSeg trên ngữliệu tiếng Việt

Số từ đúng Precision(%) Recall(%) F-measure(%)

MMS MMS MMS MMS MMS

Đánh giá MMSeg trên ngôn ngữ tiếng Việt

Dựa trên kết quả thực nghiệm, MMSeg cho thấy hiệu quả vượt trội khi áp dụng trên ngôn ngữ tiếng Hoa với F-measure đạt 98.41%, trong khi kết quả trên tiếng Việt thấp hơn nhiều, chỉ đạt 88.27% Nguyên nhân chính gây ra sự chênh lệch này bao gồm đặc điểm ngôn ngữ và cấu trúc của từng ngôn ngữ, cũng như khả năng xử lý của mô hình MMSeg đối với các đặc thù của tiếng Hoa so với tiếng Việt.

 Từ điển tiếng Việt không đầy đủ, từ mới phát sinh, từ mượn ởtiếng nước ngoàitương đối nhiều nhưng chưa được cập nhật trong từ điển.

 Các danh từ riêng như tên, địa danh, thường được sử dụng rất phổ biến nhưng khó để được liệt kê tất cảtrong từ điển.

Nhiều tên riêng xuất phát từ danh từ như Hoa, Tùng, Lan, Ngân Hà hoặc từ tính từ như Thương Mến, Tuấn Tú, Lung Linh, hay cụm từ như Hai Bà Trưng, Phố Hàng Bông gây ra sự nhầm lẫn trong việc phân đoạn văn bản Việc này ảnh hưởng đến độ chính xác và rõ ràng của nội dung, đặc biệt trong các bài viết cần tuân thủ các quy tắc SEO Để nâng cao sự chuyên nghiệp và tối ưu hóa nội dung, cần xác định và xử lý chính xác các tên riêng này, tránh nhầm lẫn và đảm bảo tính mạch lạc của bài viết.

 Các mẫu đặc biệt như số thập phân (một phần tư, ba phần tám, ), ngày tháng (tháng chạp, tháng giêng, ), v.v thường không được phân đoạn chính xác.

 Ngoài ra, việc kết hợp các tiếng để tạo nên từ trong tiếng Việt rất đa dạng cũng gây nhiều khó khăn khi phân đoạn từ.

MÔ HÌNH ĐỀ XUẤT

Ngày đăng: 02/01/2023, 09:25

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Trần Ngọc Anh, Nguyễn Nhật An. (2011). Lựa chọn tập gán nhãn ranh giới từ cho mô hình Markov ẩn trong bài toán tách từ tiếng Việt Khác
[2] Luu Tuan Anh, Yamamoto Kazuhide. (2012). A pointwise approach for Vietnamese Diacritics Restoration. 2012 International Conference on Asian Language Processing, pp.189 – 192 Khác
[3] Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen. (2012). An effective context-based method forVietnamese-word segmentation. IEEE 9th, pp.34-40 Khác
[5] Nguyễn Tài Cẩn. (1975). Ngữ pháp tiếng Việt, Tiếng - Từ ghép - Đoản ngữ, Nxb Khoa học xã hội, Hà Nội Khác
[6] Chih-Hao Tsai. (1996). MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm.www.casper.beckman.uiuc.edu/~ctsai4/chinese/wordseg/mmseg.html Khác
[7] Mai Ngọc Chừ. (1997). Cơ sở ngôn ngữ học và tiếng Việt, Nxb Giáo dục, trang 91–105 Khác
[8] Mai Ngọc Chừ, V ũ Đức Nghiệu và Hoàng Trọng Phiến. (1997). Cơ sở ngôn ngữ học và tiếng Việt. Nxb Giáo dục, trang 142–152 Khác
[9] Nguyễn Đức Dân. (1987). Lôgic ngữ nghĩa cú pháp. NXB ĐH&TH chuyên nghiệp, Hà Nội Khác
[10] Đinh Điền, Hồ Bảo Quốc. (2008). Vấn đề về ranh giới từ trong ngữ liệu song ngữ Anh-Việt Khác
[11] Nguyễn Thiện Giáp. (1998). Dẫn luận Ngôn ngữ học, Nxb Giáo dục, trang 298–305 Khác
[12] Cao Xuân Hạo. (2003). Tiếng Việt - Mấy vấn đề Ngữ âm, Ngữ pháp, Ngữ nghĩa. Nxb Khoa học xã hội Khác
[13] Lê Trung Hiếu, Lê Anh Vũ, L ê Trung Kiên. (2013). Áp d ụng xác suất thống kê và quá trình máy tự học cho bài toán phân tách từ văn bản tiếng Việt. Tạp chí Khoa học & Công nghệ Đại học Duy Tân số 6, trang 32-38 Khác
[14] Hla Hla Htay, Kavi Narayana Murthy. (2008). Myanmar Word Segmentation using Syllable level Longest Matching. Proceedings of the 6th Workshop on Asian Language Resources, pp.41-48 Khác
[15] H. P. Lê, T. M. H. Nguyen, A. Roussanaly and T. V. Ho. (2008). A hybrid approach to word segmentation of Vietnamese texts. In 2nd International Conference on Language and Automata Theory and Applications, Tarragona, Spain, pp.240-249 Khác
[16] Thi Minh Huyen Nguyen, Laurent Romary, Mathias Rossignol, Xuan Luong Vu. (2006). A lexicon for Vietnamese language processing. Language Reseourse Evaluation - Volume 40, pp.291-309 Khác
[17] Nguyễn Thị Minh Huyền, Hoàng Thị Tuyền Linh, Vũ Xuân Lương. (2009).Hướng dẫn nhận diện đơn vị từ trong văn bản tiếng Việt Khác
[18] Jin Kiat Low, Hwee Tou Ng and Wenyuan Guo. (2005). A Maximum Entropy Approach to Chinese Word Segmentation. In Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing, pp.161-164 Khác
[19] Jurafsky and Martin. (2009). Speech and Language Processing: An Introduction to Speech Recognition. Computational Linguistics and Natural Language Processing, SE, Prentice Hall, pp.934 Khác
[20] Masaaki Nagata. (1997). A self-organizing Japanese word segmenter using heuristic word identication and re-estimation. In Joe Zhou and Kenneth Church, editors, Proceedings of the Fifth Workshop on Very Large Corpora, pp.203-215 Khác
[21] Richard Sproat, Chilin Shih, William Gale, Nancy Chang. (1994). A stochastic finite-state word-segmentation algorithm for Chinese. ACL '94 Proceedings of the 32nd annual meeting on Association for Computational Linguistics, pp.66-73 Khác

🧩 Sản phẩm bạn có thể quan tâm

w