Luận văn Thạc sĩ Công nghệ thông tin: Phân đoạn từ tiếng Việt được thực hiện với mục tiêu nhằm xây dựng một mô hình phân đoạn từ tiếng Việt dựa trên mô hình lai kết hợp nhiều phương pháp nhằm tăng cường độ chính xác khi phân đoạn từ. Mời các bạn cùng tham khảo.
Mục tiêu và phạm vi nghiên cứu
Mục tiêu nghiên cứu chính của luận văn là phát triển một mô hình phân đoạn từ tiếng Việt, sử dụng phương pháp lai kết hợp nhiều kỹ thuật nhằm nâng cao độ chính xác trong quá trình phân đoạn từ.
Đề tài này tập trung vào việc nghiên cứu phân đoạn từ trong văn bản tiếng Việt Mục tiêu là chuyển đổi một văn bản tiếng Việt đầu vào thành một văn bản tiếng Việt đầu ra đã được phân đoạn thành các từ riêng biệt.
Với mục tiêu nêu trên, luận văn tập trung nghiên cứu các vấn đề sau đây:
Nghiên cứu tổng quan về xử lý ngôn ngữ tự nhiên Khảo sát các công trình nghiên cứu có liên quan đến đề tài trong nước và quốc tế.
Nghiên cứu lý thuyết ngôn ngữ tập trung vào các loại hình ngôn ngữ, đơn vị chính của ngôn ngữ tiếng Việt, cấu trúc từ vựng trong tiếng Việt, cũng như hiện tượng nhập nhằng nghĩa của từ Những khía cạnh này giúp hiểu rõ hơn về cách thức hoạt động và phát triển của ngôn ngữ trong bối cảnh văn hóa và xã hội Việt Nam.
Nghiên cứu cơ sởlý thuyết vềngôn ngữhọc thống kê bao gồm: lý thuyết xác suất thống kê trong xửlý ngôn ngữtựnhiên, mô hình Markovẩn, mô hình thống kê N-Gram.
Xây dựng kho ngữliệu phục vụcác mô hình thống kê.
Thu thập và xây dựng từ điển từvựng, từ điểndanh từriêng.
Nghiên cứu các phương pháp phân đoạn từdựa trên từ điển.
Nghiên cứu các phương pháp phân đoạn từdựa trên mô hình thống kê.
Nghiên cứu cácphương pháp phát hiện từ mới sử dụng kho ngữ liệu và thông tin tương hỗ.
Mô hình phân đoạn từ tiếng Việt được xây dựng bằng cách kết hợp nhiều phương pháp, bao gồm: phân đoạn từ dựa trên từ điển từ vựng, nhận dạng danh từ riêng qua từ điển danh từ riêng, so sánh mẫu sử dụng biểu thức chính quy, và tự động phát hiện từ mới thông qua thông tin tương hỗ.
Bố cục của luận văn
Luận văn được tổ chức thành 5 chương: Chương 1 tổng quan các hướng tiếp cận và nghiên cứu liên quan; Chương 2 trình bày cơ sở lý thuyết về ngôn ngữ và ngôn ngữ học thống kê; Chương 3 giới thiệu mô hình MMSeg, mô hình tham khảo chính; Chương 4 đề xuất mô hình phân đoạn từ mới; và Chương 5 kết luận, tự đánh giá kết quả đạt được, chỉ ra những hạn chế và hướng phát triển tiếp theo của đề tài.
TỔNG QUAN
Khác với tiếng Anh và các ngôn ngữ Ấn-Âu sử dụng khoảng cách để phân cách từ, nhiều ngôn ngữ châu Á như tiếng Việt, tiếng Thái và tiếng Nhật phải dựa vào ngữ nghĩa, ngữ cảnh và các từ lân cận để xác định ranh giới giữa các từ Nhiều nghiên cứu đã được thực hiện về phân đoạn từ, chủ yếu tập trung vào ba hướng tiếp cận chính: dựa trên từ điển, dựa trên thống kê và tiếp cận lai.
Hướng tiếp cận dựa trên từ điển là phương pháp cơ bản nhất trong việc phân đoạn từ, sử dụng từ điển từ vựng kết hợp với các thuật toán so khớp Độ chính xác của phương pháp này phụ thuộc vào tính đầy đủ của từ điển, mang lại ưu điểm về tốc độ xử lý nhanh và tính đơn giản Tuy nhiên, nhược điểm lớn của nó là không thể xác định các từ không có trong từ điển, dẫn đến khả năng xảy ra nhập nhằng trong phân đoạn.
Hướng tiếp cận dựa trên thống kê kết hợp với học máy yêu cầu xây dựng kho ngữ liệu bằng cách thu thập dữ liệu ngôn ngữ, sau đó thực hiện thống kê và huấn luyện dữ liệu để phân đoạn từ Độ chính xác của phương pháp này phụ thuộc vào kích thước và độ bao quát của kho ngữ liệu Ưu điểm của phương pháp là khả năng phân đoạn từ mới và giảm thiểu sự nhầm lẫn trong phân đoạn, tuy nhiên, nhược điểm là tốn nhiều thời gian và công sức để xây dựng và xử lý kho ngữ liệu.
Hướng tiếp cận lai là phương pháp sử dụng kết hợp nhiều kỹ thuật cùng lúc nhằm nâng cao độ chính xác trong phân đoạn Ưu điểm nổi bật của phương pháp này là khả năng tăng cường độ chính xác, tuy nhiên, nhược điểm lớn nhất là độ phức tạp trong việc triển khai.
Trong phần tiếp theo, chúng tôi trình bày kết quả khảo sát và mô tả một số nghiên cứu liên quan đến đề tài Những nghiên cứu này được thực hiện bằng tiếng Việt hoặc trên các ngôn ngữ có đặc điểm tương đồng với tiếng Việt.
Trên ngôn ngữ tiếng Myanmar, Hla Hla Htay và Kavi Narayana Murthy trong
Nghiên cứu sử dụng thuật toán so khớp dài nhất (LM: Longest Matching) để phân đoạn từ tiếng Myanma, với từ điển gồm khoảng 4550 âm tiết Qua việc gộp âm tiết, đã tạo ra khoảng 800,000 từ và các biến thể của chúng Thực nghiệm được tiến hành trên 5000 câu, chứa tổng cộng 35049 từ, và kết quả cho thấy 34,943 từ được xác định, trong đó 34,633 từ đúng Độ chính xác F-measure đạt tới 98.95%.
Jin Kiat Low và cộng sự đã áp dụng mô hình cực đại Entropy (ME) kết hợp với từ điển chứa khoảng 108.000 từ để phân đoạn từ tiếng Trung Quốc Nghiên cứu được thực hiện trên bốn tập dữ liệu khác nhau: Academia Sinica (AS), City University of Hong Kong (CITYU), Microsoft Research (MSR) và Peking University (PKU) Kết quả đạt được cho chỉ số F-measure dao động từ 95,6% đến 96,9%.
Masaaki Nagata đề xuất một mô hình phân đoạn từ tiếng Nhật dựa trên thống kê, bắt đầu bằng việc sử dụng một tập hợp từ cơ bản gọi là word base Mô hình này huấn luyện kho ngữ liệu bằng cách tính toán tần suất xuất hiện của các chuỗi trong tập ngữ liệu Sau đó, word base được tăng cường với các từ xác định trong quá trình huấn luyện Cuối cùng, phương pháp đánh giá lại để loại bỏ những từ không phù hợp trong word base Khi kho ngữ liệu đạt kích thước 3.9Mb với khoảng 1791 từ cơ bản, độ chính xác của phương pháp đạt 82,5%, cho thấy word base có thể được sử dụng hiệu quả mà không cần kích thước lớn ở giai đoạn ban đầu.
Thanaruk Theeramunkong và Sasiporn Usanavasin đã phát triển một mô hình phân đoạn từ tiếng Thái không cần từ điển, dựa trên cây quyết định Họ sử dụng cấu trúc từ vựng tiếng Thái làm dấu hiệu đặc trưng để phân lớp Trong giai đoạn huấn luyện, một corpus được tạo ra để xây dựng cây quyết định, từ đó văn bản tiếng Thái được phân đoạn theo luật của cây quyết định Luật này được xác định dựa trên các kí tự kề nhau không thể tách rời, gọi là “Thai character clusters - TCCs” Kết quả thực nghiệm trên kho ngữ liệu tiếng Thái cho thấy độ chính xác đạt 87.41%.
Trong nghiên cứu về ngôn ngữ tiếng Việt, đã có nhiều mô hình phân đoạn từ được đề xuất với kết quả khả quan Lê Trung Hiếu và cộng sự đã phát triển một mô hình xác suất để nhận dạng và phân tách từ tiếng Việt, áp dụng quá trình máy tự học để tối ưu hóa mô hình Thuật toán phân tách từ này đạt độ chính xác trên 90%.
Trần Ngọc Anh và cộng sự đã đề xuất một phương pháp phân đoạn từ và xử lý nhập nhằng dựa trên mô hình lai, sử dụng kỹ thuật so khớp cực đại (MM: Maximum Matching) Trong quá trình phân đoạn, họ áp dụng đồng thời phương pháp Foward Maximum Matching (FMM) và Backward Maximum Matching (BMM) để phát hiện nhập nhằng Nhằm xử lý nhập nhằng, nhóm tác giả kết hợp nhiều phương pháp, bao gồm phương pháp thống kê dựa trên mô hình Bi-Gram, mô hình N-Gram dựa trên âm tiết và tham khảo từ điển Thực nghiệm trên corpus với 2639 tập tin văn bản và 1,541,188 từ cho thấy độ chính xác F-measure đạt từ 98.71% đến 98.94%.
Lưu Tuấn Anh và Yamamoto Kazuhide đã phát triển mô hình phân đoạn từ theo hướng Pointwise sử dụng máy học SVM Nghiên cứu này dẫn đến việc tạo ra công cụ tách từ mang tên Đông Du, đạt độ chính xác 98,2%.
Lê Hồng Phương và cộng sự đã phát triển mô hình lai kết hợp giữa kỹ thuật so khớp cực đại, automat hữu hạn trạng thái và biểu thức chính quy Để xử lý những vấn đề nhập nhằng, hệ thống còn áp dụng các thống kê Uni-Gram và Bi-Gram được huấn luyện trên tập văn bản tách từ mẫu Kết quả của nghiên cứu này đã dẫn đến việc tạo ra công cụ vnTokenizer, với độ chính xác F-measure gần 94%.
CƠ SỞ LÝ THUYẾT
Cơ sở lý thuyết về ngôn ngữ
Theo Nguyễn Thiện Giáp, ngôn ngữ được chia thành hai loại chính: ngôn ngữ đơn lập và ngôn ngữ không đơn lập Ngôn ngữ đơn lập có thể hiểu theo hai khía cạnh: đơn lập về ngữ âm và đơn lập về ngữ pháp Đơn lập về ngữ âm liên quan đến tính đơn tiết của từ hay hình vị, trong khi đơn lập về ngữ pháp đề cập đến tính độc lập của từ trong câu Sự khác biệt cơ bản giữa hai loại hình này nằm ở đặc điểm cấu tạo của từ.
2.1.1.1 Ngôn ngữ không đơn lập
Ngôn ngữ không đơn lập được chia làm 3 loại chính: ngôn ngữchắp dính, ngôn ngữhòa kết và ngôn ngữhỗn nhập.
Ngôn ngữ chắp dính đặc trưng bởi việc sử dụng nhiều phụ tố để tạo thành từ và thể hiện các mối quan hệ ngữ pháp khác nhau Mỗi phụ tố mang một ý nghĩa ngữ pháp riêng biệt, cho phép các hình vị hoạt động độc lập và không có mối liên hệ chặt chẽ giữa chúng.
Ví dụ, trong tiếng ThổNhĩ Kì:
- adamlar: những người đàn ông
- kadinlar: những người đàn bà
Có thể liệt kê một số ngôn ngữ thuộc loại này như: tiếng Thổ Nhĩ Kỳ, tiếngUgo-Phần Lan, tiếng Bantu, v.v…
Ngôn ngữ chuyển dạng, hay còn gọi là ngôn ngữ biến đổi, có đặc điểm nổi bật là sự thay đổi giữa nguyên âm và phụ âm trong hình vị mang ý nghĩa ngữ pháp Trong loại hình ngôn ngữ này, ý nghĩa từ vựng và ngữ pháp được kết hợp chặt chẽ trong từ, khiến cho việc tách bạch giữa chúng trở nên khó khăn Mỗi phụ tố có thể chứa đựng nhiều ý nghĩa đồng thời và các hình vị liên kết chặt chẽ với nhau.
Bảng 2.1 Bảng minh họa ngôn ngữhòa kết Tiếng Anh foot: bàn chân–feet: những bàn chân TiếngẢRập balad: làng–bilọd: những làng
Các ngôn ngữ chuyển dạng gồm các tiếng Ấn-Âu hiện đại như các tiếng Pháp, tiếng Ý, tiếng Anh, tiếng Bungari, v.v…
Ngôn ngữ hỗn nhập có đặc điểm là một từ có thể tương ứng với một câu trong các ngôn ngữ khác Điều này có nghĩa là các đối tượng hành động và trạng thái hành động không được biểu thị qua các thành phần câu như tân ngữ, trạng ngữ hay định ngữ, mà được thể hiện thông qua các yếu tố khác nhau trong hình thái động từ.
Ví dụ: trong tiếng Tschinuk ởBắc Mĩ, từ“inialudam”tương ứng với câu "Tôi đãđ ến để cho cô cái này".
Bảng 2.2 Bảng minh họa một từtrong tiếng Tschinuk
Phụâmd[7] là động từchính trong câu, có nghĩa là cho
Tiền tối[1] biểu hiện thì quá khứ, có nghĩa là đ ã
Phụtốn[2] biểu hiện ngôi thứnhất sốít, có nghĩa là tôi
Phụtối[3] biểu hiện tân ngữgiới từ, có nghĩa là cái này
Phụtốa[4] biểu hiện tân ngữcủa giới từ, có nghĩa là cô
Phụtốl[5] cho biết tân ngữcủa giới từ cô là gián tiếp
Phụtốu[6] chỉra rằng hành độngở th ể ch ủ độ ng
Phụtốam[8,9] nhấn mạnh tính có mục đíchcủa hành động.
Một số ngôn ngữ Ấn ở Nam Mĩ và Đông Nam Xibêri v.v cũng thuộc loại ngôn ngữhỗn nhập.
Ngôn ngữ đơn lập không có sự biến đổi hình thái từ, mà cấu tạo từ dựa vào căn tố hoặc sự kết hợp giữa các căn tố Quan hệ và ý nghĩa ngữ pháp được thể hiện thông qua các yếu tố ngoài từ như trật tự từ, hư từ và ngữ điệu.
Dùng hư từ Cuốn sách–những cuốn sách
Đi – sẽ đi, đang đi, đãđi, mới đi, …
Dùng trật tựtừ Cửa trước– trước cửa
Ranh giới giữa từghép và cụm từ đôi khi khó phân biệt rõ ràng Ví dụ: xe đạp, nhà phố, v.v…
Vềmặt ngữ âm trong ngôn ngữ đơn lập thể hiện rõ mối quan hệ giữa hình vị và âm tiết, nơi ranh giới giữa hình vị trùng với âm tiết tạo thành hình tiết Hình tiết là đơn vị ngữ âm có âm tiết làm vỏ, có thể được sử dụng như một từ hoặc yếu tố cấu tạo từ Âm tiết trong ngôn ngữ đơn lập có cấu trúc chặt chẽ, với mỗi âm vị nằm ở vị trí và chức năng nhất định.
Tiêu biểu cho ngôn ngữ đơn lập có thểkể đến một sốngôn ngữ như: tiếng Hán, tiếng Thái, tiếng Dao, tiếng Miến Điện, tiếng Khmer, v.v
Tiếng Việt là một ngôn ngữ đơn lập, không có sự biến đổi hình thái Người Việt sử dụng khoảng một số lượng âm thanh nhất định để tạo thành âm vỏ cho hình vị.
4 vạn tiếng khác nhau [5, tr.46]
2.1.2 Đơn vị chủ yếu của ngôn ngữ
Theo Nguyễn Thiện Giáp trong [11, tr 52-55] đơn vị chủ yếu của ngôn ngữ gồm có:
Hình 2.1 Hình minh họa các đơn vịchủ yếu của ngôn ngữ
2.1.2.1 Âm vị Âm vị cònđược gọi là âm tiết là đơn vị tối thiểu của hệthống ngữ âm của một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ.
Câu từ hình vị âm vị có vỏngữâm là âm tiết, có thể được sử dụng như một từ hoặc yếu tố cấu tạo từ Âm tiết trong ngôn ngữ đơn lập có cấu trúc chặt chẽ, với mỗi âm vị đảm nhận vị trí và chức năng cụ thể.
Tiêu biểu cho ngôn ngữ đơn lập có thểkể đến một sốngôn ngữ như: tiếng Hán, tiếng Thái, tiếng Dao, tiếng Miến Điện, tiếng Khmer, v.v
Tiếng Việt là một ngôn ngữ đơn lập, không có sự biến đổi hình thái Người Việt sử dụng khoảng một số lượng nhất định các vỏ âm thanh để tạo thành âm cho hình vị.
4 vạn tiếng khác nhau [5, tr.46]
2.1.2 Đơn vị chủ yếu của ngôn ngữ
Theo Nguyễn Thiện Giáp trong [11, tr 52-55] đơn vị chủ yếu của ngôn ngữ gồm có:
Hình 2.1 Hình minh họa các đơn vịchủ yếu của ngôn ngữ
2.1.2.1 Âm vị Âm vị cònđược gọi là âm tiết là đơn vị tối thiểu của hệthống ngữ âm của một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ. vị có vỏngữ âm là âm tiết, có khi được dùng với tư cách một từ, có khi được dùng với tư cáchlà yếu tốcấu tạo từ. Âm tiết trong ngôn ngữ đơn lập có cấu trúc chặt chẽ Mỗi âm vị nằm ở vị trí nhất định, có chức năng nhất định.
Tiêu biểu cho ngôn ngữ đơn lập có thểkể đến một sốngôn ngữ như: tiếng Hán, tiếng Thái, tiếng Dao, tiếng Miến Điện, tiếng Khmer, v.v
Tiếng Việt là một ngôn ngữ đơn lập, không có sự biến đổi hình thái Người Việt sử dụng một số lượng âm thanh nhất định để tạo thành âm vị cho các hình vị.
4 vạn tiếng khác nhau [5, tr.46]
2.1.2 Đơn vị chủ yếu của ngôn ngữ
Theo Nguyễn Thiện Giáp trong [11, tr 52-55] đơn vị chủ yếu của ngôn ngữ gồm có:
Hình 2.1 Hình minh họa các đơn vịchủ yếu của ngôn ngữ
2.1.2.1 Âm vị Âm vị cònđược gọi là âm tiết là đơn vị tối thiểu của hệthống ngữ âm của một ngôn ngữ dùng để cấu tạo và phân biệt vỏ âm thanh của các đơn vị có nghĩa của ngôn ngữ.
Tiếng Việt là một ngôn ngữ đơn lập với 6 thanh điệu, điều này khiến mỗi âm tiết đều mang một thanh điệu riêng biệt Trong giao tiếp, âm tiết tiếng Việt được phát âm rõ ràng và tách biệt thành từng đoạn, tạo nên sự mạch lạc trong lời nói.
Theo Cao Xuân Hạo, hệ thống âm vị tiếng Việt bao gồm 22 phụ âm đầu, 6 phụ âm cuối, 16 nguyên âm và 2 bán nguyên âm Các thành phần này tạo nên cấu trúc âm vị phong phú của ngôn ngữ Việt Nam.
16 nguyên âm: /i, e, ε,ɤ,ɤˇ, a,ɯ, ă, u, o, ɔ,ɔˇ, εˇ, ie, ɯɤ, uo/
Bảng 2.3 Bảng phụ âm đầu
Bảng 2.4 Bảng phụâm cuối và bán nguyên âm
Cơ sở lý thuyết về ngôn ngữ học thống kê
2.2.1 Tổng quan vềngôn ngữ học thống kê
Ngôn ngữ học thống kê là một lĩnh vực khoa học lâu đời, kết hợp nghiên cứu ngôn ngữ với lý thuyết xác suất Từ thế kỷ 18, F Kaeding đã áp dụng phương pháp thống kê để xây dựng từ điển tần số tiếng Đức Năm 1913, nhà toán học A.A Markov đã sử dụng phương pháp xác suất thống kê để nghiên cứu quy luật nối tiếp của các phụ âm và nguyên âm trong tiếng Nga.
Từ thập niên 1950, ngôn ngữ học thống kê đã có những bước phát triển mạnh mẽ, đạt nhiều thành tựu trong các lĩnh vực như ngữ âm học, từ vựng học, ngữ pháp học và ngữ nghĩa học, đặc biệt nổi bật trong lĩnh vực máy học (ML: Machine Learning).
Ngôn ngữhọc thống kê đãđược áp dụng trong nhiều bài toán ngôn ngữ như:
Nghiên cứu loại hình của ngôn ngữ.
Xây dựng từ điển từvựng, từ điển tần sốcủa một ngôn ngữ.
Xácđịnh văn phong của tác giảthông qua các tác phẩm.
Xửlý thông tin tự động như: tách câu, tách từ, dịch máy, sửa lỗi chính tả, nhận dạng tiếng nói.
Xác định niên đại của ngôn ngữ, v.v
Cơ sở toán học của ngôn ngữ học thống kê dựa trên lý thuyết xác suất thống kê Trong phần tiếp theo, chúng tôi sẽ giới thiệu một số lý thuyết thống kê phổ biến được sử dụng trong xử lý ngôn ngữ.
2.2.2Một số lý thuyết xác suất thống kê trong xử lý ngôn ngữ
Hàm xác suất P của một biến ngẫu nhiên E là một ánh xạtừmiền xác định của
E (không gian các giá trịE có thểnhận) đến đoạn sốthực [0,1].
GiảsửE có thểnhận các giá trịphân biệt e1, e2, , en.
Hàm xác xuất phải thỏa các tính chất sau:
Cho các biến ngẫu nhiên X và Y, xác xuất điều kiện được định nghĩa:
( ) Trong đó sửdụng ký hiệu:
2 P(XY) có nghĩa là đồng thời có X=x và Y=y.
Biến ngẫu nhiên độc lập
Hai biến ngẫu nhiên X, Yđược gọi là độc lập khi và chỉkhi:
Từ đó suy ra nếu X, Yđộc lập thì:
Kỳ vọng và phương sai
Kỳvọng là giá trịtrung bình của biến ngẫu nhiên GiảsửX là biến ngẫu nhiên, thì kỳvọng là:
Phương sai của biến ngẫu nhiên A là một số không âm, được sử dụng để đo lường mức độ phân tán của các giá trị xung quanh giá trị trung bình của nó.
Trong lý thuyết xác suất, với dữ liệu đầy đủ, ta có thể tính toán xác suất chính xác của một biến ngẫu nhiên Ví dụ, từ ngày 01-01-2014 đến 31-05-2014, có 39 ngày mưa trong tổng số 150 ngày, cho phép ta xác định xác suất xảy ra sự kiện “trời mưa trong ngày” là 39/150.
Mặc dù xác suất chính xác không phải là ứng dụng chủ yếu của lý thuyết xác suất thống kê, nhưng việc dự đoán thời tiết, như xác suất trời mưa trong những ngày tới, vẫn gặp khó khăn do thiếu thông tin chính xác tại thời điểm dự báo.
Hai biến ngẫu nhiên X, Yđược gọi là độc lập khi và chỉkhi:
Từ đó suy ra nếu X, Yđộc lập thì:
Kỳ vọng và phương sai
Kỳvọng là giá trị trung bình của biến ngẫu nhiên GiảsửX là biến ngẫu nhiên, thì kỳvọng là:
Phương sai của biến ngẫu nhiên A là một giá trị không âm, được sử dụng để đo lường mức độ phân tán của các giá trị xung quanh giá trị trung bình của biến ngẫu nhiên.
Trong lý thuyết xác suất, khi có đủ dữ liệu, ta có thể tính toán xác suất chính xác của một biến ngẫu nhiên Ví dụ, từ ngày 01-01-2014 đến 31-05-2014, có 39 ngày mưa trong tổng số 150 ngày Do đó, xác suất xảy ra sự kiện "trời mưa trong ngày" được tính là 39/150 trong khoảng thời gian này.
Mặc dù xác suất chính xác không phải là ứng dụng chủ yếu của lý thuyết xác suất thống kê, nhưng chúng ta vẫn chưa thể dự đoán xác suất "trời mưa trong ngày" cho các ngày tới khi chưa có thông tin chính xác.
Hai biến ngẫu nhiên X, Yđược gọi là độc lập khi và chỉkhi:
Từ đó suy ra nếu X, Y độc lập thì:
Kỳ vọng và phương sai
Kỳvọng là giá trị trung bình của biến ngẫu nhiên GiảsửX là biến ngẫu nhiên, thì kỳvọng là:
Phương sai của biến ngẫu nhiên A là một chỉ số không âm, phản ánh mức độ phân tán của các giá trị biến ngẫu nhiên xung quanh giá trị trung bình của nó.
Trong lý thuyết xác suất, việc có đầy đủ dữ liệu cho phép ta tính toán xác suất chính xác của một biến ngẫu nhiên Ví dụ, từ ngày 01-01-2014 đến 31-05-2014, có 39 ngày mưa trong tổng số 150 ngày Do đó, xác suất xảy ra sự kiện "trời mưa trong ngày" được tính là 39/150 trong khoảng thời gian này.
Mặc dù xác suất chính xác không phải là ứng dụng chủ yếu của lý thuyết xác suất thống kê, nhưng việc tính toán xác suất cho các sự kiện như "trời mưa trong ngày" vào những ngày tiếp theo vẫn gặp khó khăn do thiếu thông tin chính xác.
Ước lượng khả năng cực đại (MLE: Maximum Likelihood Estimator)
Ước lượng cực đại khả năng (MLE) là phương pháp sử dụng xác suất để ước lượng một biến cố chưa biết Độ chính xác của MLE phụ thuộc vào kích thước dữ liệu; dữ liệu càng lớn, độ chính xác càng cao.
Ước lượng khả năng mong muốn (ELE: Expect Likelihood Estimator) là một phương pháp ước lượng phù hợp cho các biến có tần suất thấp Đối với một biến ngẫu nhiên X, ta ký hiệu Vi là số lần xuất hiện của X = xi.
Kỹthuật ước lượng ELE tính xác suất theo công thức sau:
( = ) ≅ (Ʃ ) Đểtránh vấn đềtửsốbằng không, (xác suất bằng không), ta cộng thêm một gia sốVi, chẳng hạn:
Chúng ta xét tình huống dưới đây đểphân biệt MLE và ELE:
Giảsửtrong tiếng t không xuất hiện trong kho ngữliệu và ta cần ước lượng xác suất suất hiện của t trong các từw1, w2, w40.
Như vậy ta có một biến ngẫu nhiên X, với X = xi chỉ khi t xuất hiện trong từwi.
Với công thức ước lượng MLE, xác suất P(X = xi) không được xác định, tức là kho ngữ liệu không cung cấp thông tin về sự xuất hiện của tiếng t trong từ wi Trong khi đó, với công thức ELE, xác suất này được xác định là 0.5 cho mọi giá trị từ 1 đến 40.
≅ 0.50.5 ∗ 40= 0.025Công thức này thểhiện thông tin ước lượng sựxuất hiện của t trong wi, mặc dù trong kho ngữliệu không hềcó t.
2.2.2.4Mô hình Markovẩnvà các mô hìnhN-Gram
GIỚI THIỆU MÔ HÌNH MMSEG
Tổng quan về MMSeg
MMSeg là hệ thống phân đoạn từ tiếng Hoa do Chih-Hao Tsai đề xuất, sử dụng hai dạng thuật toán Maximum Matching kết hợp với từ điển và bốn luật phân giải nhập nhằng Theo kết quả nghiên cứu, khi thử nghiệm trên kho ngữ liệu 1.013 từ, hệ thống đạt hiệu suất cao với tỷ lệ chính xác 98.41% Bốn luật phân giải nhập nhằng đã được mô tả chi tiết trong nghiên cứu.
Luật số 1 về khớp tối đa yêu cầu áp dụng thuật toán Maximum matching Đối với dạng đơn giản, thuật toán này chọn từ có chiều dài lớn nhất Trong trường hợp phức tạp, nó sẽ lấy từ đầu tiên trong bộ ba từ có chiều dài lớn nhất; nếu có nhiều bộ ba từ như vậy, sẽ áp dụng luật tiếp theo.
Luật số 2 quy định về độ dài trung bình của từ lớn nhất, trong đó cần lấy từ đầu tiên của bộ ba từ có độ dài trung bình lớn nhất Nếu có nhiều bộ ba từ đạt độ dài trung bình lớn nhất, sẽ áp dụng các quy tắc tiếp theo để xác định kết quả.
Ví dụ: o Trường hợp 1 (TH1): _C1_C2_C3_ o Trường hợp 2 (TH2): _C1C2C3_
Theo luật số2, ta lấy từC1C2C3ởTH2.
Luật số 3 quy định về độ biến đổi nhỏ nhất của chiều dài từ Để xác định, trước tiên hãy chọn từ đầu tiên trong bộ ba từ có độ biến đổi nhỏ nhất Nếu có nhiều bộ ba từ cùng có độ biến đổi nhỏ nhất, cần áp dụng các quy tắc tiếp theo để xử lý.
Theo luật số3, ta lấy C1C2 trong TH1.
Luật số 4 xác định tổng độ tự do hình vị của các từ đơn bằng cách tính tổng logarit tần số của chúng trong bộ Theo luật này, từ đầu tiên có tổng logarit tần số lớn nhất sẽ được chọn Hiếm khi xảy ra trường hợp hai từ đơn có cùng độ tự do hình vị, vì vậy theo tác giả, vấn đề này đã được giải quyết.
3.2 Áp dụng MMSeg vào tiếng Việt
Trong nghiên cứu này, chúng tôi áp dụng phương pháp MMSeg để đánh giá hiệu quả của hệ thống trên ngôn ngữ tiếng Việt Thực nghiệm được thực hiện trên kho ngữ liệu gồm 10.000 câu trích từ VietTreebank, được sắp xếp ngẫu nhiên và chia thành 5 phần cho 5 lần thực nghiệm Để đánh giá kết quả, chúng tôi sử dụng các tham số Precision, Recall và F-measure.
(3)được tính theo các công thức sau:
CorrectWords: sốtừ phân đoạn đúng so với sốtừchuẩn
Sau đâylà kết quả thu được:
Bảng 3.1 Bảng liệt kê kết quảthực nghiệm MMSeg trên ngữliệu tiếng Việt
Số từ đúng Precision(%) Recall(%) F-measure(%)
MMS MMS MMS MMS MMS
Đánh giá MMSeg trên ngôn ngữ tiếng Việt
Dựa trên kết quả thực nghiệm, chúng tôi nhận thấy rằng MMSeg đạt hiệu quả cao khi áp dụng cho ngôn ngữ tiếng Hoa với chỉ số F-measure là 98.41%, trong khi đó, hiệu suất trên tiếng Việt chỉ đạt 88.27%, cho thấy sự chênh lệch đáng kể Một số nguyên nhân đã được xác định góp phần vào sự khác biệt này.
Từ điển tiếng Việt không đầy đủ, từ mới phát sinh, từ mượn ởtiếng nước ngoàitương đối nhiều nhưng chưa được cập nhật trong từ điển.
Các danh từ riêng như tên, địa danh, thường được sử dụng rất phổ biến nhưng khó để được liệt kê tất cảtrong từ điển.
Nhiều tên riêng trong tiếng Việt xuất phát từ danh từ như Hoa, Tùng, Lan, Ngân Hà; từ tính từ như Thương Mến, Tuấn Tú, Lung Linh; hoặc từ cụm từ như Hai Bà Trưng, Phố Hàng Bông, điều này dẫn đến sự nhập nhằng khi phân đoạn.
Các mẫu đặc biệt như số thập phân (một phần tư, ba phần tám, ), ngày tháng (tháng chạp, tháng giêng, ), v.v thường không được phân đoạn chính xác.
Ngoài ra, việc kết hợp các tiếng để tạo nên từ trong tiếng Việt rất đa dạng cũng gây nhiều khó khăn khi phân đoạn từ.