1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng Việt

69 13 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Đoạn Từ Tiếng Việt
Tác giả Lê Minh Hiếu
Người hướng dẫn TS. Nguyễn Chí Hiếu
Trường học Trường Đại Học Công Nghệ TP. HCM
Chuyên ngành Công Nghệ Thông Tin
Thể loại luận văn thạc sĩ
Năm xuất bản 2015
Thành phố TP. HỒ CHÍ MINH
Định dạng
Số trang 69
Dung lượng 1,04 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 1. Đặt vấn đề (14)
  • 2. Lý do chọn đề tài (15)
  • 3. Mục tiêu và phạm vi nghiên cứu (15)
  • 4. Bố cục của luận văn (16)
  • CHƯƠNG 1. TỔNG QUAN (17)
  • CHƯƠNG 2. CƠ SỞ LÝ THUYẾT (20)
    • 2.1 Cơ sở lý thuyết về ngôn ngữ (20)
      • 2.1.1 Phân loại ngôn ngữ (20)
      • 2.1.2 Đơn vị chủ yếu của ngôn ngữ (23)
      • 2.1.3 Cấu trúc của đơn vị từ tiếng Việt (28)
      • 2.1.4 Từ vựng tiếng Việt (32)
      • 2.1.5 Vấn đề nhập nhằng nghĩa của từ (34)
    • 2.2 Cơ sở lý thuyết về ngôn ngữ học thống kê (37)
      • 2.2.1 Tổng quan về ngôn ngữ học thống kê (37)
      • 2.2.2 Một số lý thuyết xác suất thống kê trong xử lý ngôn ngữ (38)
  • CHƯƠNG 3. GIỚI THIỆU MÔ HÌNH MMSEG (46)
    • 3.1 Tổng quan về MMSeg (46)
    • 3.3 Đánh giá MMSeg trên ngôn ngữ tiếng Việt (50)
  • CHƯƠNG 4. MÔ HÌNH ĐỀ XUẤT (52)
    • 4.1 Mô hình phân đoạn từ (52)
    • 4.2 Thiết kế giải thuật (53)
      • 4.2.1 Giải thuật tiền xử lý văn bản (53)
      • 4.2.2 Giải thuật phân đoạn từ (55)
    • 4.2 Từ điển và kho ngữ liệu (56)
    • 4.3 Thực nghiệm (60)
  • CHƯƠNG 5. KẾT LUẬN (64)
    • 5.1 Nhận xét chung (64)
    • 5.2 Kết quả đạt được (65)
    • 5.3 Hạn chế của đề tài (65)
    • 5.4 Hướng phát triển của đề tài (66)
  • TÀI LIỆU THAM KHẢO (67)

Nội dung

Luận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng Việt được thực hiện với mục tiêu nhằm xây dựng một mô hình phân đoạn từ tiếng Việt dựa trên mô hình lai kết hợp nhiều phương pháp nhằm tăng cường độ chính xác khi phân đoạn từ. Mời các bạn cùng tham khảo.

Mục tiêu và phạm vi nghiên cứu

Mục tiêu chính của luận văn là phát triển một mô hình phân đoạn từ tiếng Việt, kết hợp nhiều phương pháp nhằm nâng cao độ chính xác trong quá trình phân đoạn từ.

Đề tài nghiên cứu tập trung vào việc phân đoạn từ trong văn bản tiếng Việt Đầu vào là một văn bản tiếng Việt, và đầu ra là văn bản đã được phân đoạn thành các từ riêng biệt.

Với mục tiêu nêu trên, luận văn tập trung nghiên cứu các vấn đề sau đây:

 Nghiên cứu tổng quan về xử lý ngôn ngữ tự nhiên Khảo sát các công trình nghiên cứu có liên quan đến đề tài trong nước và quốc tế.

Nghiên cứu cơ sở lý thuyết về ngôn ngữ bao gồm các loại hình ngôn ngữ, đơn vị chủ yếu của ngôn ngữ tiếng Việt, cấu trúc của đơn vị từ trong tiếng Việt, từ vựng, và hiện tượng nhập nhằng nghĩa của từ.

 Nghiên cứu cơ sởlý thuyết vềngôn ngữhọc thống kê bao gồm: lý thuyết xác suất thống kê trong xửlý ngôn ngữtựnhiên, mô hình Markovẩn, mô hình thống kê N-Gram.

 Xây dựng kho ngữliệu phục vụcác mô hình thống kê.

 Thu thập và xây dựng từ điển từvựng, từ điểndanh từriêng.

 Nghiên cứu các phương pháp phân đoạn từdựa trên từ điển.

 Nghiên cứu các phương pháp phân đoạn từdựa trên mô hình thống kê.

 Nghiên cứu cácphương pháp phát hiện từ mới sử dụng kho ngữ liệu và thông tin tương hỗ.

Mô hình phân đoạn từ tiếng Việt được xây dựng bằng cách kết hợp nhiều phương pháp, bao gồm phân đoạn từ dựa trên từ điển từ vựng, nhận dạng danh từ riêng thông qua từ điển danh từ riêng, so sánh các mẫu bằng biểu thức chính quy, và tự động phát hiện từ mới sử dụng thông tin tương hỗ.

Bố cục của luận văn

Luận văn được cấu trúc thành 5 chương, bắt đầu với chương 1, nơi tổng quan về các phương pháp tiếp cận và nghiên cứu liên quan đến đề tài được trình bày Chương 2 cung cấp cơ sở lý thuyết, tập trung vào ngôn ngữ và ngôn ngữ học thống kê Chương 3 giới thiệu mô hình MMSeg, là mô hình tham khảo chính của nghiên cứu Tiếp theo, chương 4 trình bày mô hình phân đoạn từ được đề xuất trong luận văn Cuối cùng, chương 5 đưa ra kết luận, tự đánh giá và nhận xét về kết quả đạt được, những hạn chế còn tồn tại và hướng phát triển tương lai của đề tài.

TỔNG QUAN

Khác với tiếng Anh và các ngôn ngữ Ấn-Âu, hầu hết các ngôn ngữ châu Á như tiếng Việt, tiếng Thái và tiếng Nhật không sử dụng khoảng cách để phân cách từ, mà phải dựa vào ngữ nghĩa, ngữ cảnh và các từ lân cận để xác định ranh giới từ Nhiều nghiên cứu đã được thực hiện về phân đoạn từ, chủ yếu tập trung vào ba hướng tiếp cận: dựa trên từ điển, dựa trên thống kê và tiếp cận lai.

Hướng tiếp cận dựa trên từ điển là phương pháp cơ bản nhất trong phân đoạn từ, sử dụng từ điển từ vựng kết hợp với các thuật toán so khớp Độ chính xác của phân đoạn phụ thuộc vào tính đầy đủ của từ điển, mang lại ưu điểm về tốc độ xử lý nhanh và tính đơn giản Tuy nhiên, phương pháp này có hạn chế trong việc xác định các từ không có trong từ điển, dẫn đến khả năng xảy ra nhập nhằng trong phân đoạn.

Hướng tiếp cận dựa trên thống kê hoặc kết hợp với học máy yêu cầu xây dựng kho ngữ liệu thông qua việc thu thập dữ liệu ngôn ngữ Quá trình này bao gồm thống kê và huấn luyện dữ liệu để phân đoạn từ, với độ chính xác phụ thuộc vào kích thước và độ bao quát của kho ngữ liệu Phương pháp này có ưu điểm là khả năng phân đoạn các từ mới và giảm thiểu sự nhập nhằng, nhưng cũng đòi hỏi nhiều thời gian và công sức để xây dựng và xử lý kho ngữ liệu.

Hướng tiếp cận lai là phương pháp kết hợp nhiều kỹ thuật để nâng cao độ chính xác của phân đoạn Ưu điểm lớn nhất của phương pháp này là khả năng tăng cường độ chính xác, trong khi nhược điểm chính là độ phức tạp cao trong quá trình thực hiện.

Trong phần tiếp theo, chúng tôi sẽ trình bày kết quả khảo sát và mô tả một số công trình nghiên cứu liên quan đến đề tài Các nghiên cứu này được thực hiện trên ngôn ngữ tiếng Việt hoặc trên những ngôn ngữ có đặc điểm tương đồng với tiếng Việt.

Trên ngôn ngữ tiếng Myanmar, Hla Hla Htay và Kavi Narayana Murthy trong

Nghiên cứu sử dụng thuật toán so khớp dài nhất (LM: Longest Matching) để phân đoạn từ tiếng Myanma, với từ điển được xây dựng từ khoảng 4550 âm tiết Qua quá trình gộp âm tiết, đã tạo ra khoảng 800,000 từ và các biến thể của chúng Thực nghiệm được thực hiện trên 5000 câu, chứa tổng cộng 35,049 từ, và kết quả cho thấy có 34,943 từ được nhận diện, trong đó 34,633 từ là chính xác Độ chính xác F-measure đạt 98.95%.

Trong nghiên cứu của Jin Kiat Low và cộng sự, mô hình cực đại Entropy (ME) được áp dụng để phân đoạn từ tiếng Trung Quốc, sử dụng từ điển chứa khoảng 108.000 từ Thực nghiệm được thực hiện trên bốn corpus khác nhau: Academia Sinica (AS), City University of Hong Kong (CITYU), Microsoft Research (MSR) và Peking University (PKU) Kết quả đạt được với F-measure từ 95,6% đến 96,9%.

Masaaki Nagata đã đề xuất một mô hình phân đoạn từ tiếng Nhật dựa trên thống kê, bắt đầu bằng việc sử dụng một tập hợp từ cơ bản gọi là word base Mô hình này được huấn luyện bằng cách tính toán tần suất xuất hiện của các chuỗi trong kho ngữ liệu Sau đó, word base được mở rộng bằng các từ xác định trong quá trình huấn luyện, và cuối cùng, thực hiện đánh giá lại để loại bỏ những từ không phù hợp Khi kho ngữ liệu đạt 3.9Mb với khoảng 1791 từ cơ bản, độ chính xác của phương pháp đạt 82,5% Phương pháp này cho thấy rằng việc sử dụng word base như một kinh nghiệm để phân đoạn là hiệu quả mà không cần kích thước lớn ở giai đoạn ban đầu.

Thanaruk Theeramunkong và Sasiporn Usanavasin đã phát triển mô hình phân đoạn từ tiếng Thái không sử dụng từ điển, dựa trên cây quyết định Họ sử dụng cấu trúc từ vựng tiếng Thái làm dấu hiệu đặc trưng để phân lớp Trong giai đoạn huấn luyện, một corpus được tạo ra để xây dựng cây quyết định Văn bản tiếng Thái sau đó được phân đoạn theo các quy tắc của cây quyết định, dựa trên các ký tự kề nhau không thể tách rời, gọi là “Thai character clusters - TCCs” Kết quả thực nghiệm trên kho ngữ liệu tiếng Thái cho thấy độ chính xác đạt 87.41%.

Trong tiếng Việt, nhiều mô hình phân đoạn từ đã được nghiên cứu và đề xuất với kết quả khả quan Lê Trung Hiếu cùng cộng sự đã phát triển mô hình xác suất để nhận dạng và phân tách từ tiếng Việt, đồng thời áp dụng quá trình máy tự học để tối ưu hóa mô hình xác suất Độ chính xác của thuật toán phân tách từ đạt trên 90%.

Trần Ngọc Anh và cộng sự đã đề xuất một phương pháp phân đoạn từ và xử lý nhập nhằng dựa trên mô hình lai, sử dụng kỹ thuật so khớp cực đại (MM: Maximum Matching) để phân đoạn từ Trong quá trình này, tác giả áp dụng đồng thời phương pháp Foward Maximum Matching (FMM) và Backward Maximum Matching (BMM) để phát hiện nhập nhằng Nhập nhằng được xử lý bằng cách kết hợp nhiều phương pháp, bao gồm mô hình Bi-Gram thống kê trên từ, mô hình N-Gram dựa trên âm tiết, và tham khảo từ điển Thực nghiệm trên corpus với 2639 tập tin văn bản, chứa 1,541,188 từ, cho thấy độ chính xác F-measure đạt từ 98.71% đến 98.94%.

Lưu Tuấn Anh và Yamamoto Kazuhide đã phát triển một mô hình phân đoạn từ sử dụng phương pháp Pointwise dựa trên máy học SVM Nghiên cứu này đã dẫn đến việc tạo ra công cụ tách từ mang tên Đông Du, đạt độ chính xác lên tới 98,2%.

Lê Hồng Phương và cộng sự đã phát triển mô hình lai sử dụng kỹ thuật so khớp cực đại kết hợp với automat hữu hạn trạng thái và biểu thức chính quy Để xử lý sự nhập nhằng, hệ thống cũng tích hợp thống kê Uni-Gram và Bi-Gram được huấn luyện trên tập văn bản tách từ mẫu Kết quả nghiên cứu đã dẫn đến việc tạo ra công cụ vnTokenizer với độ chính xác F-measure gần 94%.

CƠ SỞ LÝ THUYẾT

Cơ sở lý thuyết về ngôn ngữ

Theo Nguyễn Thiện Giáp, ngôn ngữ được chia thành hai loại chính: ngôn ngữ đơn lập và ngôn ngữ không đơn lập Ngôn ngữ đơn lập có thể hiểu theo hai khía cạnh: đơn lập về ngữ âm, tức là tính đơn tiết của từ hay hình vị, và đơn lập về ngữ pháp, liên quan đến tính độc lập của từ trong câu Sự khác biệt chính giữa hai loại hình ngôn ngữ này nằm ở đặc điểm cấu tạo của từ.

2.1.1.1 Ngôn ngữ không đơn lập

Ngôn ngữ không đơn lập được chia làm 3 loại chính: ngôn ngữchắp dính, ngôn ngữhòa kết và ngôn ngữhỗn nhập.

Ngôn ngữ chắp dính đặc trưng bởi việc sử dụng nhiều phụ tố để tạo thành từ và thể hiện các mối quan hệ ngữ pháp khác nhau Mỗi phụ tố mang một ý nghĩa ngữ pháp riêng biệt, cho phép hình vị hoạt động độc lập mà không phụ thuộc chặt chẽ vào nhau.

Ví dụ, trong tiếng ThổNhĩ Kì:

- adamlar: những người đàn ông

- kadinlar: những người đàn bà

Có thể liệt kê một số ngôn ngữ thuộc loại này như: tiếng Thổ Nhĩ Kỳ, tiếngUgo-Phần Lan, tiếng Bantu, v.v…

Ngôn ngữ chuyển dạng, hay còn gọi là ngôn ngữ biến đổi, có đặc điểm nổi bật là sự biến đổi giữa nguyên âm và phụ âm trong hình vị mang ý nghĩa ngữ pháp Trong loại hình ngôn ngữ này, ý nghĩa từ vựng và ngữ pháp được kết hợp chặt chẽ trong từ, khiến chúng không thể tách rời Mỗi phụ tố có thể mang nhiều ý nghĩa đồng thời, và các hình vị liên kết chặt chẽ với nhau.

Bảng 2.1 Bảng minh họa ngôn ngữhòa kết Tiếng Anh foot: bàn chân–feet: những bàn chân TiếngẢRập balad: làng–bilọd: những làng

Các ngôn ngữ chuyển dạng gồm các tiếng Ấn-Âu hiện đại như các tiếng Pháp, tiếng Ý, tiếng Anh, tiếng Bungari, v.v…

Ngôn ngữ hỗn nhập có đặc điểm nổi bật là một từ có thể tương ứng với một câu trong các ngôn ngữ khác Điều này có nghĩa là đối tượng hành động và trạng thái hành động không được thể hiện qua các thành phần câu truyền thống như tân ngữ, trạng ngữ hay định ngữ, mà được diễn đạt thông qua các phụ tố khác nhau trong hình thái động từ.

Ví dụ: trong tiếng Tschinuk ởBắc Mĩ, từ“inialudam”tương ứng với câu "Tôi đãđ ến để cho cô cái này".

Bảng 2.2 Bảng minh họa một từtrong tiếng Tschinuk

 Phụâmd[7] là động từchính trong câu, có nghĩa là cho

 Tiền tối[1] biểu hiện thì quá khứ, có nghĩa là đ ã

 Phụtốn[2] biểu hiện ngôi thứnhất sốít, có nghĩa là tôi

 Phụtối[3] biểu hiện tân ngữgiới từ, có nghĩa là cái này

 Phụtốa[4] biểu hiện tân ngữcủa giới từ, có nghĩa là cô

 Phụtốl[5] cho biết tân ngữcủa giới từ cô là gián tiếp

 Phụtốu[6] chỉra rằng hành độngở th ể ch ủ độ ng

 Phụtốam[8,9] nhấn mạnh tính có mục đíchcủa hành động.

Một số ngôn ngữ Ấn ở Nam Mĩ và Đông Nam Xibêri v.v cũng thuộc loại ngôn ngữhỗn nhập.

Trong ngôn ngữ đơn lập, ngữ pháp và từ vựng không thay đổi hình thái Từ được cấu tạo từ các căn tố hoặc sự kết hợp giữa các căn tố Quan hệ ngữ pháp và ý nghĩa ngữ pháp được thể hiện qua các yếu tố bên ngoài từ như trật tự từ, hư từ và ngữ điệu.

Dùng hư từ  Cuốn sách–những cuốn sách

 Đi – sẽ đi, đang đi, đãđi, mới đi, …

Dùng trật tựtừ  Cửa trước– trước cửa

Ranh giới giữa từghép và cụm từ đôi khi khó phân biệt rõ ràng Ví dụ: xe đạp, nhà phố, v.v…

Vềmặt ngữâm trong ngôn ngữ đơn lập thể hiện rõ mối quan hệ giữa hình vị và âm tiết, với ranh giới giữa hình vị trùng với âm tiết tạo nên hình tiết Hình tiết là đơn vị có vỏ ngữâm là âm tiết, có thể được sử dụng như một từ hoặc yếu tố cấu tạo từ Âm tiết trong ngôn ngữ đơn lập có cấu trúc chặt chẽ, với mỗi âm vị nằm ở vị trí và chức năng nhất định.

Tiêu biểu cho ngôn ngữ đơn lập có thểkể đến một sốngôn ngữ như: tiếng Hán, tiếng Thái, tiếng Dao, tiếng Miến Điện, tiếng Khmer, v.v

Tiếng Việt là một ngôn ngữ đơn lập, không có sự biến đổi hình thái Người Việt sử dụng khoảng một số lượng âm thanh nhất định để tạo thành âm vị cho hình vị.

4 vạn tiếng khác nhau [5, tr.46]

2.1.2 Đơn vị chủ yếu của ngôn ngữ

Theo Nguyễn Thiện Giáp trong [11, tr 52-55] đơn vị chủ yếu của ngôn ngữ gồm có:

Hình 2.1 Hình minh họa các đơn vịchủ yếu của ngôn ngữ

2.1.2.1 Âm vị Âm vị cònđược gọi là âm tiết là đơn vị tối thiểu của hệthống ngữ âm của một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ.

Câu từ trong ngôn ngữ đơn lập bao gồm âm tiết và âm vị, với âm tiết có thể hoạt động như một từ hoặc một yếu tố cấu tạo từ Âm tiết trong ngôn ngữ này có cấu trúc chặt chẽ, với mỗi âm vị đảm nhiệm một vị trí và chức năng nhất định.

Tiêu biểu cho ngôn ngữ đơn lập có thểkể đến một sốngôn ngữ như: tiếng Hán, tiếng Thái, tiếng Dao, tiếng Miến Điện, tiếng Khmer, v.v

Tiếng Việt là một ngôn ngữ đơn lập, không có sự biến đổi hình thái Người Việt sử dụng một số lượng âm thanh nhất định để tạo thành âm vỏ cho hình vị, tối đa khoảng

4 vạn tiếng khác nhau [5, tr.46]

2.1.2 Đơn vị chủ yếu của ngôn ngữ

Theo Nguyễn Thiện Giáp trong [11, tr 52-55] đơn vị chủ yếu của ngôn ngữ gồm có:

Hình 2.1 Hình minh họa các đơn vịchủ yếu của ngôn ngữ

2.1.2.1 Âm vị Âm vị cònđược gọi là âm tiết là đơn vị tối thiểu của hệthống ngữ âm của một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ. vị có vỏngữ âm là âm tiết, có khi được dùng với tư cách một từ, có khi được dùng với tư cáchlà yếu tốcấu tạo từ. Âm tiết trong ngôn ngữ đơn lập có cấu trúc chặt chẽ Mỗi âm vị nằm ở vị trí nhất định, có chức năng nhất định.

Tiêu biểu cho ngôn ngữ đơn lập có thểkể đến một sốngôn ngữ như: tiếng Hán, tiếng Thái, tiếng Dao, tiếng Miến Điện, tiếng Khmer, v.v

Tiếng Việt là một ngôn ngữ đơn lập, không có sự biến đổi hình thái Người Việt sử dụng khoảng một số lượng vỏ âm thanh nhất định để tạo thành vỏ âm cho hình vị.

4 vạn tiếng khác nhau [5, tr.46]

2.1.2 Đơn vị chủ yếu của ngôn ngữ

Theo Nguyễn Thiện Giáp trong [11, tr 52-55] đơn vị chủ yếu của ngôn ngữ gồm có:

Hình 2.1 Hình minh họa các đơn vịchủ yếu của ngôn ngữ

2.1.2.1 Âm vị Âm vị cònđược gọi là âm tiết là đơn vị tối thiểu của hệthống ngữ âm của một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ.

Tiếng Việt là ngôn ngữ đơn lập với 6 thanh điệu, điều này khiến mỗi âm tiết trong tiếng Việt đều mang một thanh điệu riêng Trong giao tiếp, âm tiết tiếng Việt được phát âm rõ ràng và được tách biệt thành từng đoạn, giúp người nghe dễ dàng nhận diện và hiểu nội dung.

Theo Cao Xuân Hạo, hệ thống âm vị tiếng Việt bao gồm 22 phụ âm đầu, 6 phụ âm cuối, 16 nguyên âm và 2 bán nguyên âm, tạo nên sự phong phú và đa dạng trong ngôn ngữ.

 16 nguyên âm: /i, e, ε,ɤ,ɤˇ, a,ɯ, ă, u, o, ɔ,ɔˇ, εˇ, ie, ɯɤ, uo/

Bảng 2.3 Bảng phụ âm đầu

Bảng 2.4 Bảng phụâm cuối và bán nguyên âm

Cơ sở lý thuyết về ngôn ngữ học thống kê

2.2.1 Tổng quan vềngôn ngữ học thống kê

Ngôn ngữ học thống kê là một lĩnh vực khoa học lâu đời, kết hợp nghiên cứu ngôn ngữ với lý thuyết xác suất thống kê Từ thế kỷ 18, F Kaeding đã ứng dụng phương pháp thống kê để xây dựng từ điển tần suất tiếng Đức Đến năm 1913, nhà toán học Nga A A Markov đã sử dụng xác suất thống kê để nghiên cứu quy luật nối tiếp của các phụ âm và nguyên âm trong tiếng Nga.

Kể từ thập niên 1950, ngôn ngữ học thống kê đã có sự phát triển mạnh mẽ và đạt được nhiều thành tựu quan trọng trong các lĩnh vực như ngữ âm học, từ vựng học, ngữ pháp học và ngữ nghĩa học, đặc biệt là trong lĩnh vực máy học (Machine Learning).

Ngôn ngữhọc thống kê đãđược áp dụng trong nhiều bài toán ngôn ngữ như:

 Nghiên cứu loại hình của ngôn ngữ.

 Xây dựng từ điển từvựng, từ điển tần sốcủa một ngôn ngữ.

 Xácđịnh văn phong của tác giảthông qua các tác phẩm.

 Xửlý thông tin tự động như: tách câu, tách từ, dịch máy, sửa lỗi chính tả, nhận dạng tiếng nói.

 Xác định niên đại của ngôn ngữ, v.v

Cơ sở toán học của ngôn ngữ học thống kê dựa trên lý thuyết xác suất thống kê Bài viết này sẽ giới thiệu một số lý thuyết thống kê phổ biến được áp dụng trong xử lý ngôn ngữ.

2.2.2Một số lý thuyết xác suất thống kê trong xử lý ngôn ngữ

Hàm xác suất P của một biến ngẫu nhiên E là một ánh xạtừmiền xác định của

E (không gian các giá trịE có thểnhận) đến đoạn sốthực [0,1].

GiảsửE có thểnhận các giá trịphân biệt e1, e2, , en.

Hàm xác xuất phải thỏa các tính chất sau:

Cho các biến ngẫu nhiên X và Y, xác xuất điều kiện được định nghĩa:

( ) Trong đó sửdụng ký hiệu:

2 P(XY) có nghĩa là đồng thời có X=x và Y=y.

 Biến ngẫu nhiên độc lập

Hai biến ngẫu nhiên X, Yđược gọi là độc lập khi và chỉkhi:

Từ đó suy ra nếu X, Yđộc lập thì:

 Kỳ vọng và phương sai

Kỳvọng là giá trịtrung bình của biến ngẫu nhiên GiảsửX là biến ngẫu nhiên, thì kỳvọng là:

Phương sai của biến ngẫu nhiên A là một chỉ số không âm, phản ánh mức độ phân tán của các giá trị biến ngẫu nhiên quanh giá trị trung bình của nó.

Trong lý thuyết xác suất, với dữ liệu đầy đủ, ta có thể tính toán xác suất chính xác của một biến ngẫu nhiên Ví dụ, từ ngày 01-01-2014 đến 31-05-2014, có 39 ngày mưa trên tổng số 150 ngày, cho phép ta xác định xác suất xảy ra sự kiện “trời mưa trong ngày” là 39/150.

Lý thuyết xác suất thống kê không chỉ tập trung vào xác suất chính xác, mà còn gặp khó khăn trong việc dự đoán các sự kiện như "trời mưa trong ngày" cho những ngày sắp tới khi chưa có thông tin đầy đủ.

Hai biến ngẫu nhiên X, Yđược gọi là độc lập khi và chỉkhi:

Từ đó suy ra nếu X, Yđộc lập thì:

 Kỳ vọng và phương sai

Kỳvọng là giá trị trung bình của biến ngẫu nhiên GiảsửX là biến ngẫu nhiên, thì kỳvọng là:

Phương sai của biến ngẫu nhiên A là một đại lượng không âm, được sử dụng để đo lường mức độ phân tán của các giá trị xung quanh giá trị trung bình của biến ngẫu nhiên đó.

Trong lý thuyết xác suất, với dữ liệu đầy đủ, ta có thể tính toán xác suất chính xác của một biến ngẫu nhiên Ví dụ, từ ngày 01-01-2014 đến 31-05-2014, có 39 ngày mưa trong tổng số 150 ngày Do đó, xác suất xảy ra sự kiện “trời mưa trong ngày” được tính là 39/150 trong khoảng thời gian này.

Mặc dù xác suất chính xác không phải là ứng dụng chủ yếu của lý thuyết xác suất thống kê, nhưng việc dự đoán thời tiết, như xác suất "trời mưa trong ngày" cho những ngày tới, vẫn gặp khó khăn do thiếu thông tin chính xác tại thời điểm đó.

Hai biến ngẫu nhiên X, Yđược gọi là độc lập khi và chỉkhi:

Từ đó suy ra nếu X, Y độc lập thì:

 Kỳ vọng và phương sai

Kỳvọng là giá trị trung bình của biến ngẫu nhiên GiảsửX là biến ngẫu nhiên, thì kỳvọng là:

Phương sai của biến ngẫu nhiên A là một chỉ số không âm, thể hiện mức độ phân tán của các giá trị xung quanh giá trị trung bình của nó.

Trong lý thuyết xác suất, khi có đầy đủ dữ liệu, ta có thể tính toán xác suất chính xác của một biến ngẫu nhiên Ví dụ, từ ngày 01-01-2014 đến 31-05-2014, đã có 39 ngày mưa trong tổng số 150 ngày Do đó, xác suất xảy ra sự kiện "trời mưa trong ngày" trong khoảng thời gian này là 39/150.

Mặc dù xác suất chính xác không phải là ứng dụng chính của lý thuyết xác suất thống kê, nhưng việc dự đoán thời tiết, như xác suất "trời mưa trong ngày", vẫn gặp khó khăn do thiếu thông tin chính xác cho những ngày tiếp theo.

 Ước lượng khả năng cực đại (MLE: Maximum Likelihood Estimator)

Phương pháp ước lượng Maximum Likelihood Estimation (MLE) sử dụng xác suất để ước lượng các biến cố chưa biết Độ chính xác của MLE tỷ lệ thuận với kích thước dữ liệu: dữ liệu càng lớn, độ chính xác càng cao.

Ước lượng khả năng mong muốn (ELE: Expect Likelihood Estimator) là phương pháp thích hợp để ước lượng các biến có tần suất thấp Đối với một biến ngẫu nhiên X, ký hiệu Vi là số lần xuất hiện của X = xi.

Kỹthuật ước lượng ELE tính xác suất theo công thức sau:

( = ) ≅ (Ʃ ) Đểtránh vấn đềtửsốbằng không, (xác suất bằng không), ta cộng thêm một gia sốVi, chẳng hạn:

Chúng ta xét tình huống dưới đây đểphân biệt MLE và ELE:

Giảsửtrong tiếng t không xuất hiện trong kho ngữliệu và ta cần ước lượng xác suất suất hiện của t trong các từw1, w2, w40.

Như vậy ta có một biến ngẫu nhiên X, với X = xi chỉ khi t xuất hiện trong từwi.

Với công thức ước lượng MLE, xác suất P(X = xi) không xác định, tức là kho ngữ liệu không cung cấp thông tin về sự xuất hiện của tiếng t trong từ wi Ngược lại, công thức ELE cho giá trị = 0.5, áp dụng cho mọi = 1 đến 40.

≅ 0.50.5 ∗ 40= 0.025Công thức này thểhiện thông tin ước lượng sựxuất hiện của t trong wi, mặc dù trong kho ngữliệu không hềcó t.

2.2.2.4Mô hình Markovẩnvà các mô hìnhN-Gram

GIỚI THIỆU MÔ HÌNH MMSEG

Tổng quan về MMSeg

MMSeg là hệ thống phân đoạn từ tiếng Hoa do Chih-Hao Tsai đề xuất, sử dụng hai dạng của thuật toán Maximum Matching kết hợp với từ điển và bốn luật phân giải nhập nhằng Kết quả thử nghiệm trên kho ngữ liệu 1.013 từ cho thấy hệ thống đạt độ chính xác cao, lên tới 98.41% Bốn luật phân giải nhập nhằng này đóng vai trò quan trọng trong việc cải thiện hiệu quả của hệ thống.

Luật số 1 về khớp tối đa bao gồm hai phương pháp: Đầu tiên, áp dụng thuật toán Maximum matching đơn giản bằng cách chọn từ có chiều dài lớn nhất Thứ hai, sử dụng thuật toán Maximum matching phức tạp, chọn từ đầu tiên trong bộ ba từ có chiều dài lớn nhất; nếu có nhiều bộ ba từ như vậy, sẽ áp dụng luật tiếp theo.

Luật số 2: Độ dài trung bình của từ lớn nhất yêu cầu lấy từ đầu tiên trong bộ ba từ có độ dài trung bình lớn nhất Nếu có nhiều bộ ba từ đạt độ dài trung bình lớn nhất, cần áp dụng các quy tắc tiếp theo.

Ví dụ: o Trường hợp 1 (TH1): _C1_C2_C3_ o Trường hợp 2 (TH2): _C1C2C3_

Theo luật số2, ta lấy từC1C2C3ởTH2.

Luật số 3 quy định về độ biến đổi nhỏ nhất của chiều dài từ, trong đó yêu cầu chọn từ đầu tiên trong bộ ba từ có độ biến đổi nhỏ nhất Nếu có nhiều hơn một bộ ba từ đạt tiêu chí này, cần áp dụng các quy tắc tiếp theo để xác định lựa chọn chính xác.

Theo luật số3, ta lấy C1C2 trong TH1.

Luật số 4 liên quan đến tổng độ tự do hình vị của các từ đơn, được tính bằng tổng logarit tần số của các từ trong bộ Theo luật này, từ đầu tiên trong bộ sẽ có tổng logarit tần số lớn nhất Hiếm khi xảy ra tình huống có hai từ đơn có cùng độ tự do hình vị, do đó, tác giả cho rằng vấn đề này đã được giải quyết.

3.2 Áp dụng MMSeg vào tiếng Việt

Trong nghiên cứu này, chúng tôi áp dụng phương pháp MMSeg để đánh giá hiệu quả của hệ thống trên ngôn ngữ tiếng Việt Thực nghiệm được thực hiện trên kho ngữ liệu gồm 10.000 câu trích từ VietTreebank, được sắp xếp ngẫu nhiên và chia thành 5 phần cho 5 lần thực nghiệm Để đánh giá kết quả, chúng tôi sử dụng các tham số Precision, Recall và F-measure.

(3)được tính theo các công thức sau:

 CorrectWords: sốtừ phân đoạn đúng so với sốtừchuẩn

Sau đâylà kết quả thu được:

Bảng 3.1 Bảng liệt kê kết quảthực nghiệm MMSeg trên ngữliệu tiếng Việt

Số từ đúng Precision(%) Recall(%) F-measure(%)

MMS MMS MMS MMS MMS

Đánh giá MMSeg trên ngôn ngữ tiếng Việt

Theo kết quả thực nghiệm, MMSeg đạt hiệu suất cao khi áp dụng cho ngôn ngữ tiếng Hoa với F-measure là 98.41%, nhưng lại có kết quả thấp hơn đáng kể khi áp dụng cho tiếng Việt, chỉ đạt F-measure 88.27% Dưới đây là một số nguyên nhân mà chúng tôi đã xác định.

 Từ điển tiếng Việt không đầy đủ, từ mới phát sinh, từ mượn ởtiếng nước ngoàitương đối nhiều nhưng chưa được cập nhật trong từ điển.

 Các danh từ riêng như tên, địa danh, thường được sử dụng rất phổ biến nhưng khó để được liệt kê tất cảtrong từ điển.

Nhiều tên riêng trong tiếng Việt xuất phát từ danh từ như Hoa, Tùng, Lan, Ngân Hà; từ tính từ như Thương Mến, Tuấn Tú, Lung Linh; hoặc từ cụm từ như Hai Bà Trưng, Phố Hàng Bông, dẫn đến sự nhập nhằng trong việc phân đoạn.

 Các mẫu đặc biệt như số thập phân (một phần tư, ba phần tám, ), ngày tháng (tháng chạp, tháng giêng, ), v.v thường không được phân đoạn chính xác.

 Ngoài ra, việc kết hợp các tiếng để tạo nên từ trong tiếng Việt rất đa dạng cũng gây nhiều khó khăn khi phân đoạn từ.

MÔ HÌNH ĐỀ XUẤT

Ngày đăng: 12/07/2021, 13:40

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Trần Ngọc Anh, Nguyễn Nhật An. (2011). Lựa chọn tập gán nhãn ranh giới từ cho mô hình Markov ẩn trong bài toán tách từ tiếng Việt Khác
[2] Luu Tuan Anh, Yamamoto Kazuhide. (2012). A pointwise approach for Vietnamese Diacritics Restoration. 2012 International Conference on Asian Language Processing, pp.189 – 192 Khác
[3] Ngoc Anh Tran, Thanh Tinh Dao, Phuong Thai Nguyen. (2012). An effective context-based method forVietnamese-word segmentation. IEEE 9th, pp.34-40 Khác
[5] Nguyễn Tài Cẩn. (1975). Ngữ pháp tiếng Việt, Tiếng - Từ ghép - Đoản ngữ, Nxb Khoa học xã hội, Hà Nội Khác
[6] Chih-Hao Tsai. (1996). MMSEG: A Word Identification System for Mandarin Chinese Text Based on Two Variants of the Maximum Matching Algorithm.www.casper.beckman.uiuc.edu/~ctsai4/chinese/wordseg/mmseg.html Khác
[7] Mai Ngọc Chừ. (1997). Cơ sở ngôn ngữ học và tiếng Việt, Nxb Giáo dục, trang 91–105 Khác
[8] Mai Ngọc Chừ, V ũ Đức Nghiệu và Hoàng Trọng Phiến. (1997). Cơ sở ngôn ngữ học và tiếng Việt. Nxb Giáo dục, trang 142–152 Khác
[9] Nguyễn Đức Dân. (1987). Lôgic ngữ nghĩa cú pháp. NXB ĐH&TH chuyên nghiệp, Hà Nội Khác
[10] Đinh Điền, Hồ Bảo Quốc. (2008). Vấn đề về ranh giới từ trong ngữ liệu song ngữ Anh-Việt Khác
[11] Nguyễn Thiện Giáp. (1998). Dẫn luận Ngôn ngữ học, Nxb Giáo dục, trang 298–305 Khác
[12] Cao Xuân Hạo. (2003). Tiếng Việt - Mấy vấn đề Ngữ âm, Ngữ pháp, Ngữ nghĩa. Nxb Khoa học xã hội Khác
[13] Lê Trung Hiếu, Lê Anh Vũ, L ê Trung Kiên. (2013). Áp d ụng xác suất thống kê và quá trình máy tự học cho bài toán phân tách từ văn bản tiếng Việt. Tạp chí Khoa học & Công nghệ Đại học Duy Tân số 6, trang 32-38 Khác
[14] Hla Hla Htay, Kavi Narayana Murthy. (2008). Myanmar Word Segmentation using Syllable level Longest Matching. Proceedings of the 6th Workshop on Asian Language Resources, pp.41-48 Khác
[15] H. P. Lê, T. M. H. Nguyen, A. Roussanaly and T. V. Ho. (2008). A hybrid approach to word segmentation of Vietnamese texts. In 2nd International Conference on Language and Automata Theory and Applications, Tarragona, Spain, pp.240-249 Khác
[16] Thi Minh Huyen Nguyen, Laurent Romary, Mathias Rossignol, Xuan Luong Vu. (2006). A lexicon for Vietnamese language processing. Language Reseourse Evaluation - Volume 40, pp.291-309 Khác
[17] Nguyễn Thị Minh Huyền, Hoàng Thị Tuyền Linh, Vũ Xuân Lương. (2009).Hướng dẫn nhận diện đơn vị từ trong văn bản tiếng Việt Khác
[18] Jin Kiat Low, Hwee Tou Ng and Wenyuan Guo. (2005). A Maximum Entropy Approach to Chinese Word Segmentation. In Proceedings of the Fourth SIGHAN Workshop on Chinese Language Processing, pp.161-164 Khác
[19] Jurafsky and Martin. (2009). Speech and Language Processing: An Introduction to Speech Recognition. Computational Linguistics and Natural Language Processing, SE, Prentice Hall, pp.934 Khác
[20] Masaaki Nagata. (1997). A self-organizing Japanese word segmenter using heuristic word identication and re-estimation. In Joe Zhou and Kenneth Church, editors, Proceedings of the Fifth Workshop on Very Large Corpora, pp.203-215 Khác
[21] Richard Sproat, Chilin Shih, William Gale, Nancy Chang. (1994). A stochastic finite-state word-segmentation algorithm for Chinese. ACL '94 Proceedings of the 32nd annual meeting on Association for Computational Linguistics, pp.66-73 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w