1. Trang chủ
  2. » Thể loại khác

Các phương pháp phân đoạn tiếng việt và ứng dụng

73 280 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 73
Dung lượng 1,2 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xử lý văn bản dựa trên các kỹ thuật của xử lý ngôn ngữ tự nhiên, một lĩnh vực đã có lịch sử nghiên hơn cứu nửa thế kỷ trên thế giới, với mục tiêu hiểu và sử dụng tri thức về ngôn ngữ ở c

Trang 1

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

VÀ TRUYỀN THÔNG

VŨ THỊ HẰNG

CÁC PHƯƠNG PHÁP PHÂN ĐOẠN TIẾNG

VIỆT VÀ ỨNG DỤNG

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên - Năm 2015

Trang 2

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

ĐẠI HOẠC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

TS BÙI VĂN THANH

Thái Nguyên - Năm 2015

Trang 3

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

MỤC LỤC

Trang

LỜI CẢM ƠN v

LỜI CAM ĐOAN vi

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vii

DANH MỤC BẢNG viii

DANH MỤC HÌNH ix

MỞ ĐẦU 1

Chương 1 TỔNG QUAN 6

1.1 KHÁI QUÁT VỀ TIẾNG VIỆT 6

1.1.1 Đặc điểm từ tiếng Việt 6

1.1.2 Các từ loại tiếng Việt 7

1.2 VẤN ĐỀ PHÂN ĐOẠN TIẾNG VIỆT 10

1.2.1 Từ vựng tiếng Việt 10

1.2.2 Tiếng – đơn vị cấu tạo lên từ 11

1.2.3 Cấu tạo từ 13

1.3 PHÂN ĐOẠN TỪ TIẾNG VIỆT BẰNG MÁY TÍNH 17

1.4 TỔNG KẾT CHƯƠNG 18

Chương 2 MỘT SỐ PHƯƠNG PHÁP PHÂN ĐOẠN VĂN BẢN TIẾNG VIỆT 19

2.1 MÔ HÌNH LRMM 19

2.1.1 Thuật toán Maximum Matching đơn giản 19

Trang 4

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2.1.2 Thuật toán Maximum Matching phức tạp 19

2.2 PHƯƠNG PHÁP WFST (Weighted Finite-State Transducer) 20

2.3 MÔ HÌNH HỌC MÁY CRF 23

2.3.1 Định nghĩa CRF 23

2.3.2 Hàm tiềm năng của các mô hình CRF 26

2.3.3 Conditional Random Fields 26

2.4 TỔNG KẾT CHƯƠNG 28

Chương 3 BÀI TOÁN PHÂN ĐOẠN TIẾNG VIỆT 29

3.1 PHÁT BIỂU BÀI TOÁN 29

3.1.1 Cấu trúc chương trình 30

3.1.2 Tiền xử lý số liệu 32

3.1.3 Tách câu 34

3.1.4 Tách từ 36

3.1.5 Khử nhập nhằng 36

3.2 CÁC LOẠI NHẬP NHẰNG KHI TÁCH TỪ 36

3.2.1 Nhập nhằng do so khớp cực đại FMM/BMM sinh ra 37

3.2.2 Nhập nhằng theo một số loại khác 37

3.3 CÁCH KHỬ NHẬP NHẰNG 41

3.3.1 Cải tiến phương pháp so khớp cực đại 41

3.3.2 Khử nhập nhằng theo một số loại khác 43

3.4 TỔNG KẾT CHƯƠNG 50

Chương 4 THỬ NGHIỆM VÀ ĐÁNH GIÁ 52

Trang 5

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

4.1 KHO NGỮ LIỆU THỬ NGHIỆM VÀ CÁCH ĐÁNH GIÁ 52

4.2 QUY TRÌNH THỬ NGHIỆM 54

4.3 KẾT QUẢ THỬ NGHIỆM 55

4.4 GIAO DIỆN CHƯƠNG TRÌNH ỨNG DỤNG 56

KẾT LUẬN VÀ KIẾN NGHỊ 60

DANH MỤC TÀI LIỆU THAM KHẢO 62

Trang 6

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

LỜI CẢM ƠN

Em xin chân thành cảm ơn Ban Giám hiệu, Phòng Đào tạo Sau Đại học, Khoa Công nghệ Thông tin Trường Đại học công nghệ thông tin và truyền thông Thái Nguyên đã tận tình giúp đỡ, tạo mọi điều kiện thuận lợi cho em trong quá trình học tập, nghiên cứu và thực hiện luận văn

Đặc biệt, em xin gửi lời tri ân sâu sắc đến TS Bùi Văn Thanh – người

đã dành nhiều thời gian, công sức và tận tình hướng dẫn khoa học cho em trong suốt quá trình hình thành và hoàn chỉnh luận văn

Xin chân thành cảm ơn Quý Thầy, Cô đã giảng dạy, truyền đạt cho

em những tri thức quý báu, thiết thực trong suốt khóa học

Cuối cùng xin bày tỏ lòng biết ơn đối với gia đình, người thân, bạn

bè, đồng nghiệp đã giúp đỡ, động viên, đóng góp ý kiến quý báu cho em

trong việc hoàn thành luận văn này

Thái Nguyên, ngày tháng năm 2015

Tác giả

Vũ Thị Hằng

Trang 7

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

LỜI CAM ĐOAN

Tôi xin cam đoan đây là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn trực tiếp của TS.Bùi Văn Thanh

Mọi trích dẫn sử dụng trong báo cáo này đều được ghi rõ nguồn tài liệu tham khảo theo đúng qui định

Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm

Thái Nguyên, ngày tháng năm 2015

Tác giả

Vũ Thị Hằng

Trang 8

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Tiếng Anh

BMM Back Maximum Matching

Phương pháp so khớp cực đại

lùi

CRFs Conditional Random Fields

Trường ngẫu nhiên có điều

kiện

FMM

Forward Maximum Matching

Trang 9

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

DANH MỤC BẢNG

Trang Bảng 1.1 Hệ thống các từ loại tiếng Việt theo sách giáo khoa Ngữ

văn THCS 7

Bảng 1.2 Cấu trúc của tiếng trong tiếng Việt 12

Bảng 2.1 Trọng số theo từ 22

Bảng 4.1 Bảng số liệu các mục 53

Bảng 4.2 Kết quả thử nghiệm 55

Bảng 4.3 Kết quả phân đoạn 56

Trang 10

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

DANH MỤC HÌNH

Trang Hình 2.1 Đồ thị vô hướng không có chu trình 24 Hình 2.2 Đồ thị vô hướng mô tả cho CRF 25

Hình 2.3 Mô tả các hàm tiềm năng 26 Hình 3.1 Mô hình bài toán phân đoạn tiếng Việt 30

Hình 3.2 Cấu trúc chương trình phân đoạn tiếng Việt 31 Hình 4.1 Chọn chế độ lấy dữ liệu mẫu 52 Hình 4.2 Chương trình phân đoạn văn bản 54 Hình 4.3 Giao diện chính của chương trình 57 Hình 4.4 Chức năng phân đoạn văn bản 58 Hình 4.5 Kết quả sau khi phân đoạn văn bản 59

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Trong những năm gần đây, cùng với sự bùng nổ thông tin toàn cầu, thì lượng thông tin trên văn bản và web tiếng Việt cũng tăng lên nhanh chóng Các dữ liệu liên quan đến ngôn ngữ viết (văn bản) và nói (tiếng nói) đang dần trở thành kiểu dữ liệu chính con người có và lưu trữ dưới dạng điện tử Vấn đề xử lý văn bản thành thông tin, tri thức hữu ích con người hiện đang trở nên cấp thiết và đang là một thách thức

Xử lý văn bản dựa trên các kỹ thuật của xử lý ngôn ngữ tự nhiên, một lĩnh vực đã có lịch sử nghiên hơn cứu nửa thế kỷ trên thế giới, với mục tiêu hiểu và sử dụng tri thức về ngôn ngữ ở các mức độ khác nhau và cách thức xử lí ngôn ngữđãđược trải nghiệm và thừa nhận Trong khi đó nghiên cứu về xử lý tiếng Việt còn đang còn ở những bước đi đầu

Có thể nói xử lý tựđộng ngôn ngữ nói chung và xử lý văn bản nói riêng trên máy tính gặp phải vấn đề khó là làm sao cho máy được hiểu ngôn ngữ con người, từ việc hiểu nghĩa từng từ trong mỗi hoàn cảnh cụ thể, đến việc hiểu nghĩa một câu, rồi hiểu cả văn bản Mấu chốt ởđây là bản chất phức tạp của ngôn ngữ của con người, đặc biệt là sựđa nghĩa và nhập nhằng nghĩa của ngôn ngữ

TrongnỗlựcxâydựngmộtcơsởtrithứctiếngViệtthìviệchiểucácvănbản tiếng Việt, tómtắt văn bản tiếng Việt, hay phân loại văn bảntiếngViệt…lànhững công việc không thểthiếu Các kếtquảđiểnhìnhvềlà các công cụcơ bản dùng để xử lý văn bản tiếng Việt như kiểm tra lỗi chính

tả, phân tách từ, xác địnhloạitừ,phântíchcúpháp Côngviệccơbản đầutiêncótínhtiênquyếtlàphân đoạn văn bản tiếngViệt thành các từ (tầng hình thái)

Trang 12

Hiểu một cách đơngiản,bàitoánphân đoạn văn bản tiếngViệtlàchotrướcmộtvănbản tiếngViệt, cầnxác định trong văn bản đóranhgiớigiữa các từ trongcâu.Nhưng khác vớimộtsốtiếngnướcngoàinhưtiếngAnh,thìtrongtiếngViệtranhgiớigiữacáctừ trong đa số trường hợpkhôngphải là dấucáchtrống.Văn bản tiếng Việt, tuy dùng bảng chữ cái Latinh, nhưng có những đặc điểm riêng về ký hiệu, ngữ pháp và ngữ nghĩa, khác với các ngôn ngữ Ấn-Âu.Đây chính là khó khăn trong việc ứng dụng các kỹ thuật phát triển để xử lý ngôn ngữ tự nhiên Mặt khác, dù là ngôn ngữ đơn âm tiết, nhưng khác với các ngôn ngữ đơn

âm tiết khác như Trung Quốc, Thái, tiếng Việt còn phức tạp bởi cách xác định biên giới của từ, sự đa nghĩa và nhập nhằng nghĩa Vì vậy, cách thực hiện tách từ của các ngôn ngữ này cũng không thể ứng dụng cho tiếng Việt

Tuy nhiên, một văn bản thật sự có thể có đến hàng nghìn câu và ta không phải có một mà hàng triệu văn bản Web là một nguồn dữ liệu văn bản khổng lồ, và cùng với các thư viện điện tử - khi trong một tương lai gần các sách báo xưa nay và các nguồn âm thanh được chuyển hết vào máy tính (chẳng hạn bằng các chương trình nhận dạng chữ, thu nhập âm thanh, hoặc gõ thẳng vào máy) – sẽ sớm chứa hầu như toàn bộ kiến thức của nhân loại Vấn đề là làm sao “xử lý” (chuyển đổi) được khối dữ liệu văn bản và tiếng nói khổng lồ này qua dạng khác để mỗi người có được thông tin và tri thức cần thiết từ chúng?

ÝthứcđượcnhữnglợiíchcủaviệcxâydựngcơsởtrithứctiếngViệt,tầm quan trọng của việc xử lý văn bản tiếng Việt nóichung vàbàitoánphân đoạntiếngViệtnóiriêng bằng máy tính,em đãchọnhướngnghiêncứutrongkhóa luận của mình là phương phápphân đoạn tiếngViệt

Trang 13

Để đạt được các mục tiêu đã đặt ra, hướng nghiên cứu của luận văn được tổ chức thành 4 chương, gồm:

- Chương I: Tổng quan về tiếng Việt Phần này đưa ra một số đặc

điểm của từ tiếng Việt, hệ thống các từ loại tiếng Việt, từ đó đặt ra vấn đề giải quyết bài toán phân đoạn văn bản tiếng Việt, đó cũng là mục tiêu chính của đề tài này

- Chương II: Một số phương pháp phân đoạn văn bản tiếng Việt

Trong phần này đưa ra tổng quan về một số mô hình phân đoạn văn bản có thể áp dụng cho văn bản tiếng Việt, và phân tích sâu hơn hai phương pháp phân đoạn văn bản là “so khớp cực đại” - LRMM và phương pháp “chuyển dịch trạng thái hữu hạn có trọng số” - WFST

- Chương III: Bài toán phân đoạn tiếng Việt.Trong phần này nên lên

khái quát bài toán phân đoạn tiếng việt dựa trên việc cải tiến của phương pháp so khớp cực đại tiến và so khớp cực đại lùi, phân tích một số loại nhập nhằng và đưa ra phương pháp khử nhập nhằng bằng trọng số

- Chương IV: Thử nghiệm và đánh giá.Trình bày các bước lập kho

ngữ liệu mẫu, lập từ điển Qua đó thử nghiệm các phương án tách từ và kết luận

2 Đối tượng nghiên cứu

Đối tượng nghiên cứu của đề tài là nghiên cứu về các phương pháp tách từ tiếng Việt, tìm hiểu một số loại nhập nhằng xảy ra khi phân đoạn văn bản tiếng Việt, đưa ra trọng số để khử nhập nhằng trong các trường hợp trên Xây dựng từ điển phục vụ cho việc tách từ, xây dựng bộ ngữ liệu các câu mẫu và chương trình thử nghiệm, đánh giá phương pháp tách từ đã nêu và đưa ra kết luận, hướng phát triển

3 Phạm vi nghiên cứu

Trang 14

Phạmvi nghiên cứu của đề tài là tìm hiểu, tổng quan về các hướng tiếp cận có thể ứng dụng trong việc xây dựng mô hình phân đoạn văn bản tiếng Việt Qua đó, phát hiện ra được các trường hợp nhập nhằng khi phân đoạn văn bản và sử dụng các trọng số nhằm giải quyết các trường hợp nhập nhằng

4 Nhiệm vụ nghiên cứu

- Tìm hiểu những kiến thức tổng quan về tiếng Việt

- Tìm hiểu phương pháp phân đoạn tiếng Việt, phương pháp khử

nhập nhằng

- Cài đặt hệ thống phân đoạn văn bản tiếng Việt

- Xây dựng kho ngữ liệu thử nghiệm và đánh giá

5 Những nội dung nghiên cứu chính

Bố cục của luận văn gồm phần mở đầu trình bày lý do chọn đề tài, đối tượng và nhiệm vụ nghiên cứu của đề tài Chương một, tập trung trình bày những kiến thức cơ bản về đặc điểm từ tiếng Việt, các loại từ tiếng Việt và vấn đề phân đoạn tiếng Việt.Chương hai,trình bày một số phương pháp phân đoạn văn bản tiếng Việt như mô hình LRMM, phương pháp WFST, mô hình học máy, phương pháp khử nhập nhằng.Chương 3,trong chương này chúng tôi đã khái quát được bài toán phân đoạn văn bản tiếng Việt, trình bày phương pháp cải tiến LRMM và WFST Chương 4, trình bày các bước xây dựng kho ngữ liệu thử nghiệm, quy trình thử nghiệm và kết quả thử nghiệm hệ thống phân đoạn tiếng Việt được trình bày ở chương

3

Trang 15

Với những kết quả đạt được, phần kết luận của luận văn nêu lên những kết quả đạt được của luận văn, hạn chế và đề xuất hướng nghiên cứu tiếp theo của đề tài

6 Phương pháp nghiên cứu

- Phương pháp đọc tài liệu

- Phương pháp quan sát

- Phương pháp phân tích – tổng hợp lý thuyết

- Phương pháp thực nghiệm

Trang 16

Chương 1.TỔNG QUAN 1.1.KHÁI QUÁT VỀ TIẾNG VIỆT

Tiếng Việt, hay Việt ngữ, là một trong số các ngôn ngữ thuộc hệ ngôn ngữ Nam Á dùng bảng chữ cái Latinh, gọi là chữ Quốc Ngữ, cùng các dấu thanh để viết tiếng Việt có những đặc điểm riêng về ký hiệu, ngữ pháp

và ngữ nghĩa, khác với các ngôn ngữ Ấn - Âu Đây chính là khó khăn trong việc ứng dụng các kỹ thuật phát triển để xử lý ngôn ngữ tự nhiên Mặt khác

dù là ngôn ngữ đơn âm tiết nhưng không giống như các ngôn ngữ đơn âm tiết khác như Trung Quốc, Thái, tiếng Việt được viết bằng các ký tự Latinh

mở rộng Hơn nữa, tiếng Việt còn phức tạp bởi cách xác định biên giới của

từ, sự đa nghĩa và nhập nhằng nghĩa.Vì vậy, cách thực hiện tách từ của các ngôn ngữ này cũng không thể ứng dụng cho tiếng Việt

1.1.1 Đặc điểm từ tiếng Việt

Với các ngôn ngữ Ấn - Âu (như tiếng Anh, Pháp, ) “từ là một nhóm các ký tự có nghĩa, phân cách nhau bởi khoảng trống hoặc dấu câu” Trong khi đó, các ngôn ngữ Châu Á như Trung Quốc, Thái, Việt Nam, khoảng trống không được sử dụng để xác định các biên giới từ Phần nằm giữa hai

dấu phân cách là âm tiết

Âm tiết là đơn vị phát âm tự nhiên nhỏ nhất trong ngôn ngữ Trong tiếng Việt, một âm tiết bao giờ cũng được phát ra với một thanh điệu, và tách rời với âm tiết khác bằng một khoảng trống.Trên chữ viết, mỗi âm tiết tiếng Việt được ghi thành một "chữ" và đọc thành một "tiếng" Ví dụ: từ

“Xe đạp điện, xe máy điện” gồm 3 chữ, 3 tiếng hoặc 3 âm tiết

Từ là đơn vị nhỏ nhất của lời nói mang đầy đủ ý nghĩa truyền tải Từ

có thể gồm duy nhất một âm tiết (từ đơn âm) hoặc cấu thành từ nhiều âm

Trang 17

tiết (từ đa âm) Nhƣ vậy, xét về mặt cấu tạo, từ có thể chia thành các loại sau:

- Từ đơn: Do 1 âm tiết tạo thành

- Từ ghép: Do 2, 3 hoặc 4 âm tiết tạo thành

- Từ láy: Do hai hay nhiều âm tiết lặp lại tạo thành Các âm tiết láy

có thể có một phần hay toàn bộ âm thanh đƣợc lặp lại Ví dụ: Đăm đăm, thăm thẳm, rào rào, rì rào, nhí nha nhí nhảnh, …

1.1.2 Các từ loại tiếng Việt

Trong phần Sự phân loại từ nhằm mục đích ngữ pháp, theo bản chất ngữ pháp của từ mới đƣợc gọi là từ loại Từ loại là sự phân loại vốn từ của một ngôn ngữ cụ thể thành những loại, những lớp hạng dựa vào đặc trƣng ngữ pháp của từ (việc thực hiện các chức vụ ngữ pháp nhất định của từ)

Bảng 1.1 Hệ thống các từ loại tiếng Việt theo sách giáo khoa Ngữ văn THCS

Stt TỪ LOẠI DẤU HIỆU NHẬN

bác sĩ, học sinh, gà con

Học sinh

lớp 7b học rất giỏi

2

Động từ

(NV6/145)

Những từ chỉ hành động, trạng thái của sự vật

Học tập, nghiên cứu, hao mòn,…

Trang 18

(NV6/153) chất của sự vật, hành

động, trạng thái

xanh, đỏ, tốt, lớn nhỏ, …

nhỏ, sáng vằngvặc ở trên không

Hùng Vương thứ

mười tám

có một người con gái xinh đẹp

5

Đại từ

(NV7)

Dùng để chỉ người, sự vật, hoạt động, tính chất,… trong một ngữ cảnh nhất định hoặc dùng để hỏi

Tôi, nó, tao,

tớ, chúng nó, mày, hắn,

họ, … thế, ai, gì, bao nhiêu, mấy…

Thế nào anh

cũng đến nhé

6

Lượng từ

(NV6/128)

Chỉ lượng ít hay nhiều của sự vật

Những, cả, các, từng,…

7

Chỉ từ

(6/136)

Dùng để trỏ vào sự vật nhằm xác định vị trí

Ấy, đó, nọ, kia, …

Từ đó nhuệ

khí của

Trang 19

của sự vật trong không gian hoặc thời gian

nghĩa quân ngày một tăng

8

Quan hệ từ

(NV7)

Dùng biểu thị các ý nghĩa về quan hệ nhƣ

sở hữu, so sánh, nhân quả, … giữa các bộ phận, giữa câu hoặc giữa các đoạn văn

Của, nhƣ, vì, nên, về, bằng, của, ở,…

Nếu … thì, Tuy … nhƣng,

Quyển sách

đặt ở trên bàn

9

Phó từ

(NV6.2/12)

Những từ chuyên đi kèm động từ, tính từ

để bổ sung ý nghĩa cho động từ, tính từ

Đã, cũng, vẫn, rất, ra, vẫn chƣa, thật, …

Thì, hả, hở, “Ăn thì ăn

những miếng ngon,

Làm thì

chọn việc cỏn con mà làm”

11

Thán từ

(NV8)

Dùng làm dấu hiệu biểu lộ cảm xúc, tình cảm, thái độ hoặc dùng

Than ôi, trời ơi,hỡi, ối,

“Than ôi!

Thời oanh liệt nay còn

Trang 20

A, ôi, nhé, đấy, thay, ạ, nhé, nhỉ, cơ

mà, cơ, mà, thì nào,…

Vệ Sĩ thân yêu ở lại

nhé! (Khánh

Hoài)

1.2.VẤN ĐỀ PHÂN ĐOẠN TIẾNG VIỆT

Hiện nay có khá nhiều phương pháp khác nhau để tiếp cận bài toán phân đoạn tiếng Việt Trong chương này sẽ giới thiệu một số phương pháp như vậy cùng với những đánh giá về ưu điểm và nhược điểm của chúng và

lý do tại sao tôi chọn hướng tiếp cận dựa trên mô hình CRFs Nhưng trước hết, xin trình bày về những tìm hiểu về tiếng Việt, đó sẽ là cơ sở để tìm ra một phương pháp hợp lý nhất cho bài toán phân đoạn từ

1.2.1 Từ vựng tiếng Việt

Việc chỉra định nghĩa chính xác nhất thếnàolàmột từ không phải đơn giản, đòi hỏicôngsứcnghiêncứucủacácnhàngônngữhọc Ta sử dụngđịnhnghĩa sau làm ví dụvề địnhnghĩa từ:

“Từlà đơn vịnhỏ nhất cónghĩa,có kếtcấu vỏngữâmbềnvững,hoànchỉnh,có chức năng gọi tên,được vậndụng độc lập, tái hiện tự do trong lờinóiđể tạo câu”.[1]

Nhưng xét trên gócđộ ứng dụng, ta có thể hiểumộtcác đơngiảnlà“từđượccấu

Trang 21

tạobởimộthoặcnhiềutiếng”.Chúngtatìmhiểuvềkháiniệm"tiếng"trongmụcnhỏ ngay tiếp theo

1.2.2 Tiếng – đơn vị cấu tạo lên từ

1.2.2.2 Phân loại

Cáctiếngkhôngphảitấtcảđềugiốngnhau,xétvềmặtýnghĩa,chúngtacóthểchia tiếng thành các loại sau:

Tiếngtựthânnóđãcóýnghĩa,thườngđượcquychiếuvàomộtđốitượng, khái niệm Ví dụ: trời, đất, nước, cây, cỏ…

Tiếngtựthânnókhôngcóýnghĩa,chúngkhôngđượcquychiếuvàođối tượng,kháiniệm nàocả.Chúngthường đi cùng vớimộttiếngkháccónghĩa vàlàmthayđổi sắctháicủa tiếng đó, ví dụ như:(xanh)lè,(đường) xá, (năng) nôi…

Tiếngtựthânnókhôngcóýnghĩanhưnglạiđivớinhauđểtạothànhtừ Những nếutáchrờitiếngnàyrađứngriêngthìchúng không có nghĩagìcả, nhưnglạicóthểghéplạithànhtừcónghĩa.Tathườngxuyêngặpởnhững từ mượnnhư phéc-mơ-tuya, a-pa-tít, mì-chính

Trang 22

TrongtiếngViệtthìcáctiếngthuộcnhóm đầutiênchiếm đasố.Cáctiếngthuộc hainhóm sauthườngchỉchiếm sốít, đặcbiệtlànhóm thứ3,chúngthườngđượcgọilà tiếngvônghĩa.Việcnhóm đầutiênchiếmđasốphảnánhthựctếlàkhinói,ngườita thường sửdụng các tiếng

có nghĩa, hiếmkhi lại nói ra toàn từ vô nghĩa

1.2.2.3 Cấu trúc của tiếng trong tiếng Việt và các thành tố của nó

Ta có thể biểu diễn cấu trúc của tiếng như bảng sau [4]:

Bảng 1.2 Cấu trúc của tiếng trong tiếng Việt

Âm đầu Thanh điệu

Vần

Âm đệm Âm chính Âm cuối

Thanh điệu: mỗi tiếng đều có một thanh điệu là một trong 6 loại sau: sắc, huyền, hỏi,ngã,nặng, và thanh bằng.Chúngcótácdụng phân biệt tiếng về cao độ Ví dụ : “việt” và “viết”

Âm đầu: có tác dụng mở đầu âmtiết Ví dụ: “nắng” và “mắng”

Âm đệm: Có tác dụng biến đổi âm sắc của âm tiết sau lúc mở

đầu Ví dụ: toán – tán

Âm chính: là hạt nhân và mang âmsắcchủđạo của tiếng.Vídụ :

“túy” và “túi”

Âm cuối: có tác dụng kết thúc tiếngvới các âm sắc khác nhau, do

đó có thểphân biệt các tiếng Ví dụ: “bàn” và “bài”

Cụm gồm âmđệm, âmchính và âmcuối ta gọi là vần Ví dụ: vần

“ang”, vần “oan”…

Trang 23

Đâylà5thànhtốcủatiếng(vầnkhôngphảilàmộtthànhtốmàchỉlàcáchgọi củacụm 3âm đãnóiởtrên),màbấtcứtiếngnàotrongtiếngViệt đềutuântheocấutrúc

nhưtrên.Nhưngcũngcótrườnghợpmộtsốâmtrùngnhau,nhấtlàvớinhữngtiếngg

ồm 3 kí tự trởxuống

1.2.3 Cấu tạo từ

Nhưđãđềcậpởtrên,từtrongtiếngViệtđượccấutạohoặclàbằngmộttiếng hoặclàtổhợpnhiềutiếngtheocáccáchkhácnhau đểtạoracácloạitừ [2].Dướiđây, tôi xin trình bày về hai loại từ tiếngViệt

1.2.3.1 Từ đơn

Từđơn,haycòngọilàtừđơnâmtiết,làcáctừđược cấutạo bởimộttiếngduy nhất.Vídụ: tôi, bạn, nhà, hoa, vườn…

1.2.3.2 Từ ghép

Từghéplàcáctừđược tạolêntừhaihoặcnhiềuhơncác tiếnglại.Giữacáctiếng có mỗi quan hệvề nghĩa với nhau, vì thế ta cũng có các loại từ ghép khác nhau

Từghép đẳng lập: các thành phầncấu tạo từ có mối quan hệ bìnhđẳngvới nhau vềnghĩa Ví dụ: ăn nói, bơilội …

Từ ghép chính phụ:các thành phần cấu tạo từcó mối quan hệphụ thuộcvới nhau vềnghĩa Thành phần phụ sẽ có vai trò làmchuyên biệt hóa, tạo sắc thái cho thành phần chính Ví dụ:hoahồng, đường sắt…

1.2.3.3 Từ láy

Mộttừsẽđượccoilàtừláykhicácyếutốcấutạonênnócóthànhphầnngữâm được lặp lại; nhưngvừa có lặp (còn gọi là điệp) vừa có biến đổi (còn gọi là

Trang 24

đỏ,manmát…Nếumộttừchỉcóphầnlặpmàkhôngcósựbiếnđổi(chẳnghạnnhưtừ nhà nhà, ngành ngành…)thì ta có dạng láy của từ, hoàn toàn khôngphải là

từ láy

Độdàitừláythayđổitừ2tiếngđến4tiếng.NhưngtrongtiếngViệtđasốlàtừ láy hai tiếng, chúng chia thành hai loại từ láy sau:

• Láy hoàn toàn: là cách láy mà tiếng sau lặp lại hoàn toàn tiếng trước Gọi là hoàn toàn nhưng thực ra các tiếng không trùng khít nhau mà

có những sai khác rất nhỏ mà ta có thể nhận ra ngay Một số kiểu láy hoàn toàn ta hay gặp

Láyhoàntoàn đốinhauởthanh điệu,vídụnhư:“sừngsững”,“loang loáng”…

Láy hoàn toànđốinhau ở âm cuối,ví dụ như:“khin khít”, “ăm ắp”…

Láyhoàntoàn đốinhauởtrọngâm,tứclàmộttiếngđượcnóinhấn mạnhhoặckéodài hơnsovớitiếngkia,vídụnhư: đùngđùng, đăm đăm…

• Láybộphận:làcáchláymàchỉcóđiệpởphầnâmđầucủatiếng,hoặcđiệp ởphầnvầnthìđượcgọilàláybộphận.Căncứvàođótachiaratừngkiểu láy sau

Trang 25

việc này rất dễ gây ra sự nhậpnhằng trong quá trình phân đoạn từ

1.2.3.4 Nhập nhằng

Nhập nhằng trong ngôn ngữ học là hiện tượng thường gặp, trong giao tiếp hàng ngày con người ít để ý đến nó bởi vì họ xử lý tốt hiện tượng này Nhưng trong các ứng dụng liên quan đến xử lý ngôn ngữ tự nhiên khi phải thao tác với ý nghĩa từ vựng mà điển hình là dịch tự động nhập nhằng trở thành vấn đề nghiêm trọng Ví dụ trong một câu cần dịch có xuất hiện

từ "đường" như trong câu "ra chợ mua cho mẹ ít đường" vấn đề nảy sinh là cần dịch từ này là road hay sugar, con người xác định chúng khá dễ dàng căn cứ vào văn cảnh và các dấu hiệu nhận biết khác nhưng với máy thì không Việc tìm ra các thuật toán hữu hiệu gây khó khăn không ít cho các nhà lập trình

a) Nhập nhằng ranh giới từ

Trong tiếng Anh việc xác định ranh giới từ khá dễ dàng, mỗi từ riêng

lẻ đã mang trọn vẹn một nghĩa và ranh giới của chúng được xác định thông qua khoảng trắng Tiếng Việt thì khác, do là ngôn ngữ đơn lập nên từ vựng chủ yếu là các từ ghép vì thế khoảng trắng không phải luôn luôn là ranh giới chính xác

Ví dụ 1.1

- He is a teacher (1)

- Anh ấy là giáo viên (2)

Câu (1) phân định ranh giới dễ dàng cụ thể là: He / is / a / teacher Nhưng trong câu (2) nếu vẫn phân định ranh giới từ theo khoảng trắng không chính xác hoàn toàn, cụ thể: Anh / ấy / là / giáo / viên

Trang 26

Từ giáo viên là từ ghép nay bị chia thành hai từ đơn là giáo và viên, cách chia này là sai Cách phân định ranh giới đúng của câu trên là: Anh ấy / là / giáo viên

b) Nhập nhằng từ đa nghĩa

Bất cứ ngôn ngữ nào cũng có từ đa nghĩa, nguyên nhân là vì rất nhiều khái niệm có các sắc thái ý nghĩa tuy không hoàn toàn trùng khớp nhau nhưng lại có nhiều nét tương đồng Như từ "ăn" trong "ăn uống" và

"ăn cướp" vừa có những nét nghĩa giống và khác nhau, theo cuốn từ điển tiếng Việt thì từ ăn có đến 12 nghĩa Hiện tượng này gây cản trở cho việc dịch tự động, chương trình không biết dịch từ đa nghĩa theo nghĩa nào trong nhóm nghĩa của nó

c) Nhập nhằng từ đồng âm

Hai từ đồng âm với nhau nghĩa là hai từ có âm giống nhau nhưng mang nghĩa khác nhau, còn đồng tự là hai từ về mặt ký tự là giống nhau nhưng nghĩa khác nhau Do đặc điểm của tiếng Việt từ đồng âm cũng thường là từ đồng tự, ở các ngôn ngữ khác hai hiện tượng này không trùng khớp nhau Cũng phải phân biệt từ đồng tự với từ đa nghĩa, trong từ đa nghĩa các nghĩa đều có chung một nguồn gốc và do vậy luôn có nét tương đồng trong khi đó trong từ đồng tự chúng không có liên hệ về nguồn gốc với nhau, nghĩa của chúng khác nhau rõ rệt Ví dụ từ kiếm trong hai câu sau đây là hai từ đồng tự:

Ví dụ 1.2

- Anh ta sử dụng kiếm rất điêu luyện

- Kiếm ăn bây giờ khó lắm

Trang 27

Việc xác định nghĩa chính xác của từ đồng tự dễ dàng hơn từ đa nghĩa bởi vì sự khác nhau lớn về ngữ nghĩa của chúng giúp đưa ra được nhiều tiêu chuẩn tốt để phân biệt

tự do Điều này tạo thuận lợi cho việc gán nhãn từ loại một cách tự động nhờ các dấu hiệu nhận biết tổng quát Các ngôn ngữ không biến hình như tiếng Việt vấn đề xác định từ loại yêu cầu các thuật toán phức tạp hơn,bắt buộc phải phân tích cú pháp, mặt khác ngay trong nội bộ ngành ngôn ngữ vẫn chưa có sự thống nhất về phân loại từ loại cho tiếng Việt

1.3.PHÂN ĐOẠN TỪ TIẾNG VIỆT BẰNG MÁY TÍNH

Trước hết chúng ta cầnlàm rõsựkhácnhaugiữa phân đoạntừtiếngViệt bằng máy tính và bằng thủ công.Nếu chúng ta làm thủcông, thì độ chính

tuyệtđối.Songnhưđãnóiởchươngđầu,phânđoạntừlàmộtcôngđoạnđầucủarất nhiều quá trình xửlý ngôn ngữtựnhiên bằngmáytínhnênviệcphânđoạn từ bằng máy tínhlàrấtquantrọng.Hơn nữa,khimà khốilượng dữ liệurấtlớnthìviệcphân đoạntừ bằng máy tính gầnnhưlà lựa chọn duy nhất

Hiệnđãcónhiềucôngtrìnhnghiêncứuxâydựngmôhìnhphânđoạntừtiếng Việt bằngmáytính.Đasốlàcácmôhìnhmà đã

Trang 28

đượcápdụngthànhcôngchocácngôn

ngữkhácnhưtiếngAnh,tiếngTrung,tiếngNhật…và đượccảitiếnđể phùhợpvới đặc điểmcủa tiếngViệt Vấn đề mà tất cả mô hình phân đoạn từ tiếng Việt gặpphải đó là nhập nhằng và xác định từ các từ chưa biết trước

sở để tiếp tục tìm hiểu chi tiết về các phương pháp phân đoạn tiếng Việt trong chương hai và cải tiến các phương pháp này trong chương 3

Trang 29

Chương 2.MỘT SỐ PHƯƠNG PHÁP PHÂN ĐOẠN VĂN

BẢN TIẾNG VIỆT 2.1 MÔ HÌNH LRMM

Phương pháp khớp tối đa (Maximum Matching) còn gọi là Left Right Maximum Matching (LRMM) Theo phương pháp này, ta sẽ duyệt một ngữ hoặc câu từ trái sang phải (Khớp tối đa tiến) hoặc duyệt từ phải sang trái (Khớp tối đa lùi) và chọn từ có nhiều âm tiết nhất có mặt trong từ điển, rồi cứ thế tiếp tục cho từ kế tiếp cho đến hết câu Thuật toán được trình bày trong [Chih-Hao Tsai, 2000] Thuật toán này có 2 dạng sau:

2.1.1 Thuật toán Maximum Matching đơn giản

Với một chuỗi âm tiết <C1,C2, ,Cn>, thuật toán khớp tối đa tiến

sẽ bắt đầu từ âm tiết C1 Trước tiên C1 sẽ được kiểm tra xem có phải là một từ hay không, sau đó C2 được ghép vào C1 và kiểm tra xem sự phối hợp của 2 âm tiết C1C2 có tạo thành từ hay không, Nếu việc thêm vào một âm tiết mới Ci không tạo thành từ hợp lệ thì xem như đã tách được một từ và chuyển sang từ mới với âm tiết bắt đầu là Ci Quá trình cứ tiếp tục như vậy cho đến khi hết câu

Cách tách từ này dễ dàng cho ra kết quả đúng với những câu như:

“Tôi | làm việc | ở | hợp tác xã | mua bán” Nhưng sẽ phạm sai lầm với một

số trường hợp đặc biệt như “Học sinh | học sinh | học”, “một | ông | quan tài

| giỏi”,

2.1.2 Thuật toán Maximum Matching phức tạp

K.J.Chen [6] đã đưa ra một cải tiến cho phương pháp này.Ý tưởng chính là tìm ra những đoạn gồm 3 từ với số âm tiết tổng cộng là tối đa.Bình thường, thuật toán này hoạt động như dạng nguyên bản đã nêu

Trang 30

trên.Khi gặp nhập nhằng (có nhiều cách nhóm các tiếng để tạo thành các

từ khác nhau) thuật toán sẽ xem xét các tiếng kế tiếp để tìm ra tất cả các cách tách từ tạo thành từng đoạn 3 từ khác nhau.Cách nào có số âm tiết nhiều nhất sẽ được chọn làm lời giải để khử nhập nhằng

Luật kết lớn nhất này phát biểu rằng: phân tích hợp lý nhất là bộ ba

từ với chiều dài lớn nhất Từ đầu dãy, chúng ta xác định đâu là từ Nếu có những phân tích nhập nhằng (ví dụ: C1 là từ, nhưng C1C2 cũng là từ, ) thì chúng ta tìm tiếp hai từ nữa để tìm tất cả các bộ ba có thể có với từ đầu tiên

Bộ ba dài nhất là bộ thứ 3.Từ đầu tiên, C1C2 của bộ thứ 3 này sẽ là

từ đúng.Chúng ta lấy từ này và tiếp tục từ âm tiết C3 cho đến khi xác định được từ cuối cùng.Theo các kết quả thử nghiệm của tác giả, phương pháp này đạt độ chính xác khoảng 96.7%

2.2 PHƯƠNG PHÁP WFST (Weighted Finite-State Transducer)

Phương pháp WFST(WeightedFinite-State Transducer) [15] còn gọi

là phương pháp chuyển dịchtrạng thái hữu hạn cótrọng số.Ý tưởng chínhcủa phương pháp này áp dụngchophânđoạntừtiếngViệtlàcáctừsẽđượcgántrọngsốbằngxácsuấtxuấthi

ện

củatừđótrongdữliệu.Sauđóduyệtquacáccâu,cáchduyệtcótrọngsốlớnnhấtsẽlà cách dùngđể phânđoạn từ Hoạt động củaWFSTcóthểchia thành ba

Trang 31

bướcsau:

• Xâydựng từ điển trọng số: Từ điển trọng sốD đượcxâydựngnhư làmột đồ thị biếnđổi trạng thái hữu hạncó trọng số Giả

sử

-H là tập các tiếng trong tiếngViệt

-P là tập các loại từ trong tiếngViệt

-Mỗi cung của D có thể là:

Từ mộtphần tử của H tới một phần tử của H

Từphần tửε(xâu rỗng) đến một phần tử củaP

Mỗi từ trong Dđượcbiểu diễnbởi một chuỗicác cung bắt đầu bởi một cung tươngứngvới một phần tử củaH,kếtthúcbởi một cung có trọng số

tương ứng với một phầntử củaε×P Trọng số biểudiễn một chi phí ước

lượng (estimated cost) cho bởi công thức

cost log( /f N)

Trong đó f: tần số xuất hiện của từ, N: kích thước tập mẫu

• Xây dựng các khả năng phân đoạn từ: bước này thống kê tất cả các khả năng phân đoạn của một câu Giả sử câu có n tiếng, thì sẽ có 2 n −1cách phân đoạn khác nhau Để giảm sự bùng nổ các cách phân đoạn, thuật toán sẽ loại bỏngaynhững nhánh phân đoạn mà chứa từ khôngxuất hiện trong từ điển

• Lựa chọn khả năng phân đoạn tối ưu: sau khi liệt kê tất cả các khả năng phân đoạn từ, thuật toán sẽ chọn cách phân đoạn tốt nhất, đó là cách phân đoạn có trọng số bé nhất

Trang 32

Ví dụ: câu “Tốcđộ truyền thông tin sẽ tăng cao” theo [9]) Từ điển trọng số:

“tốc độ” 8.68 “truyền” 12.31 “truyền thông” 12.31

Trọng số theomỗi cách phân đoạn được tính là

• “Tốcđộ # truyền thông # tin # sẽ # tăng # cao.” = 8.68 +12.31 + 7.33 + 6.09 + 7.43 +6.95 = 48.79

• “Tốcđộ # truyền # thông tin # sẽ # tăng # cao.”= 8.68 +12.31 + 7.24 +6.09 + 7.43 +6.95 = 48.79

Dođó,tacóđượcphânđoạntốiưulàcáchphânđoạnsau“Tốcđộ#truyền#thô

ng tin # sẽ # tăng #cao.”

Nhược điểm chínhcủathuậttoánlàviệc đánhtrọngsốdựatrêntầnsốxuất hiện củatừ,nênkhitiếnhànhphân đoạnthìkhôngtránhkhỏicácnhập nhằngtrongtiếngViệt.Hơnnữa

vớinhữngvănbảndàithìphươngphápnàycòngặpphảisựbùng nổcáckhả năng phân đoạn của từng câu

Ưuđiểm củaphươngphápnàylàsẽchođộchínhxáccaonếutaxâydựng được

Trang 33

mộtdữliệuhọcđầyđủvàchínhxác.Nócòncóthểkếthợpvớicácphươngphápkhử nhập nhằng ( phương pháp mạngNeural) đểchokết quả phânđoạnrất cao

2.3 MÔ HÌNH HỌC MÁY CRF

CRF được giới thiệu vào những năm 2001 bởi Lafferty và các đồng nghiệp.CRF là mô hình dựa trên xác suất điều kiện, thường được sử dụng trong gán nhãn và phân tích dữ liệu tuần tự ví dụ ký tự, ngôn ngữ tự nhiên.Khác với mô hình MEMM, CRF là mô hình đồ thị vô hướng Điều này cho phép CRF có thể định nghĩa phân phối xác suất của toàn bộ chuỗi trạng thái với điều kiện biết chuỗi quan sát cho trước thay vì phân phối trên mỗi trạng thái với điều kiện biết trạng thái trước đó và quan sát hiện tại như trong mô hình MEMM Chính những tính chất này của CRF mà mô hình này giải quyết được vấn đề “label bias”

Trang 34

Hình 2.1 Đồ thị vô hướng không có chu trình

Tiếp đến chúng ta định nghĩa trường ngẫu nhiên có điều kiện như

sau: X là biến ngẫu nhiên nhận giá trị là chuỗi nhãn tương ứng Mỗi thành phần Y i của Y là một biến ngẫu nhiên nhận giá trị trong tập hữu hạn các trạng thái S Các đỉnh V biểu diễn các thành phần của biến ngẫu nhiên Y sao cho tồn tại ánh xạ một – một giữa các đỉnh và một thành phần Y v của Y Ta

Trang 35

Trong bài toán dữ liệu dạng chuỗi, G có thể được biểu diễn như sau:

Ký hiệu X X X1 , 2 , ,X n ,Y Y Y1 , 2 , ,Y n Ta có mô hình đồ thị vô hướng của CRF có dạng sau:

Hình 2.2 Đồ thị vô hướng mô tả cho CRF

Gọi C là tập hợp tất cả các đồ thị con đầy đủ của đồ thị G (đồ thị biểu

diễn cấu trúc của một CRF) Theo kết quả của Hammerly-Clifford cho các trường Markov, ta thừa số hóa được P y x( | ) - xác suất của chuỗi nhãn với điều kiện biết chuỗi dữ liệu quan sát – thành tích các hàm tiềm năng:

( | ) A( | )

A C

Có thể mô phỏng như hình sau:

Trang 36

Hình 2.3 Mô tả các hàm tiềm năng

Tính chất của trường ngẫu nhiên có điều kiện là:

Mô hình phân biệt (discriminative models)

Mô hình chuỗi (sequential models)

Mô hình đồ thị vô hướng (Undirected graphical models)

2.3.2 Hàm tiềm năng của các mô hình CRF

Bằng cách áp dụng nguyên lý cực đại hóa Entropy, Lafferty xác định hàm tiềm năng của một CRF có dạng hàm số mũ

y là trọng số chỉ mức độ biểu đạt thông tin của thuộc tính f k

A là đồ thị con của đồ thị vô hướng G

2.3.3 Conditional Random Fields

Mô hình CRFs cho phép các quan sát trên toàn bộ X, nhờ đó chúng ta

Ngày đăng: 26/06/2017, 15:15

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1]. Diệp Quang Ban, Hoàng Văn Thung (2006), Ngữ pháp tiếng Việt, Tập 1&amp;2, NXB Giáo dục Sách, tạp chí
Tiêu đề: Ngữ pháp tiếng Việt
Tác giả: Diệp Quang Ban, Hoàng Văn Thung
Nhà XB: NXB Giáo dục
Năm: 2006
[2]. Trần Ngọc Anh, Đào Thanh Tĩnh (2006), “Về bài toán kiểm lỗi chính tả tiếng Việt trên máy tính”, Khoa học và Kỹ thuật, HVKTQS, số 116, tr. 29-40 Sách, tạp chí
Tiêu đề: “Về bài toán kiểm lỗi chính tả tiếng Việt trên máy tính”
Tác giả: Trần Ngọc Anh, Đào Thanh Tĩnh
Năm: 2006
[3]. Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương (2003), "Tách từ bằng từ điển và Gán nhãn từ loại bằng xác suất", Kỷ yếu hội thảo quốc gia ICT.RDA, 2003 Sách, tạp chí
Tiêu đề: Tách từ bằng từ điển và Gán nhãn từ loại bằng xác suất
Tác giả: Nguyễn Thị Minh Huyền, Vũ Xuân Lương, Lê Hồng Phương
Năm: 2003
[4]. Hoàng Công Duy Vũ, Nguyễn Lê Nguyên, Đinh Điền, Ngô Quốc Hƣng (2007), "Ứng dụng thuật toán so khớp cực đại và cơ chế véctơ hỗ trợ trong bài toán tách từ tiếng Việt".Tiếng Anh Sách, tạp chí
Tiêu đề: Ứng dụng thuật toán so khớp cực đại và cơ chế véctơ hỗ trợ trong bài toán tách từ tiếng Việt
Tác giả: Hoàng Công Duy Vũ, Nguyễn Lê Nguyên, Đinh Điền, Ngô Quốc Hƣng
Năm: 2007
[5]. Manning C. D., Schutze H. (1999). Foundations of Statistical Natural Language Processing, MIT Press Sách, tạp chí
Tiêu đề: Foundations of Statistical Natural Language Processing
Tác giả: Manning C. D., Schutze H
Năm: 1999
[6]. Dien Dinh, Thuy Vu (2006), "A Maximum Entropy Approach for Vietnamese Word Segmentation", Proc. of the 4th IEEE International Conference on Computer Science - Research, Innovation and Vision of the Future 2006, HCM City, Vietnam, pp. 247-252 Sách, tạp chí
Tiêu đề: A Maximum Entropy Approach for Vietnamese Word Segmentation
Tác giả: Dien Dinh, Thuy Vu
Năm: 2006
[7]. Hieu L.T., Vu L.A., Kien L.T. (2010), "An Unsupervised Learning and Statistical Approach for Vietnamese Word Recognition and Segmentation", Proc. of ACIIDS, 2010. pp.195-204 Sách, tạp chí
Tiêu đề: An Unsupervised Learning and Statistical Approach for Vietnamese Word Recognition and Segmentation
Tác giả: Hieu L.T., Vu L.A., Kien L.T
Năm: 2010

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w