1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng khmer

50 17 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 50
Dung lượng 1,57 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mục tiêu và nhiệm vụ Mục tiêu của đề tài: chuyên sâu vấn đề xử lý tiếng Khmer, từ đó đề xuất giải pháp ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng Khmer, xây dựng kho ngữ liệ

Trang 1

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA

SƠN PHÚ QUÝ

ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ

TRONG VĂN BẢN TIẾNG KHMER

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2017

Trang 2

ĐẠI HỌC ĐÀ NẴNG TRƯỜNG ĐẠI HỌC BÁCH KHOA

SƠN PHÚ QUÝ

ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ

TRONG VĂN BẢN TIẾNG KHMER

Chuyên ngành : Khoa học máy tính

Mã số : 60.48.01.01

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS TS PHAN HUY KHÁNH

Đà Nẵng - Năm 2017

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan đây là công trình nghiên cứu của riêng tôi

Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công

bố trong bất kỳ công trình nào khác

Tác giả luận văn

SƠN PHÚ QUÝ

Trang 4

TÓM TẮT LUẬN VĂN

ỨNG DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ TRONG VĂN BẢN

TIẾNG KHMER

Học viên: Sơn Phú Quý - Chuyên ngành: Khoa học máy tính

Mã số: 60480101 - Trường Đại học Bách khoa

Tóm tắt – Luận văn đề cập việc ứng dụng cây tiền tố nhận diện từ trong văn bản

tiếng Khmer Cây tiền tố (một cấu trúc dữ liệu dùng để lưu trữ một mảng liên kết của các xâu ký tự được ứng dụng rộng rãi trong các thuật toán xử lý xâu bởi nó cung cấp nhiều phép toán giúp giảm thời gian thực hiện giải thuật) Phương pháp này quan trọng trong xử lý ngôn ngữ tiếng Khmer Trong tiếng Khmer không có dấu hiệu để phân biệt các từ trong câu Luận văn này sẽ ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng Khmer Giải pháp sử dụng kho ngữ liệu từ vựng phục

vụ việc tách từ Đây là một trong những giải pháp hiệu quả cho bài toán tách từ tiếng Khmer

Từ khóa – cây tiền tố; tách từ; tiếng Khmer; ngôn ngữ; kho ngữ liệu từ vựng

Abstract - Thesis refers to the application of trie identified in the Khmer text The

trie (a data structure used to store an associative array of strings is widely used in string processing algorithms because it provides many mathematical operations that reduce the algorithm execution time) This method is important in the Khmer language processing In Khmer there is no sign to distinguish the words in the sentence This thesis will apply the identification tree from the Khmer text Solution using vocabulary lexicon for word separation This is one of the effective

solutions for the Khmer word separation problem

Keyword - trie; magnetic separator; Khmer language; language; Vocabulary

glossary

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

TÓM TẮT LUẬN VĂN ii

MỤC LỤC iii

DANH MỤC CÁC CHỮ VIẾT TẮT v

DANH MỤC CÁC KÝ HIỆU vi

DANH MỤC CÁC BẢNG vii

DANH MỤC CÁC HÌNH viii

MỞ ĐẦU 1

1 Lý do chọn đề tài 1

2 Mục tiêu và nhiệm vụ 1

3 Đối tượng và phạm vi nghiên cứu 2

4 Giả thiết nghiên cứu 2

5 Phương pháp nghiên cứu 2

6 Ý nghĩa khoa học và thực tiễn của đề tài 2

CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 3

1.1 Bài toán xử lý tiếng Việt-Kinh tiếng DTTS và tiếng Khmer 3

1.1.1 Xử lý tiếng Việt-Kinh 3

1.1.2 Các bài toán trong xử lý tiếng dân tộc thiểu số (DTTS) 10

1.1.3 Các bài toán trong xử lý tiếng Khmer 11

1.2 Vấn đề nhận diện từ Khmer 11

1.2.1 Các phương pháp tách từ tiếng Việt 11

1.2.2 Tách từ tiếng dân tộc thiểu số (DTTS) 11

1.3 Tìm hiểu tiếng Khmer 12

1.3.1 Giới thiệu tiếng Khmer 12

1.3.2 Những vấn đề về ngôn ngữ 18

1.3.3 Những khó khăn trong xử lý tiếng Khmer 18

1.4 Một số phương pháp tách từ tiếng khmer 19

1.4.1 Phương pháp tách từ Conditional Random File (CRF) 19

1.4.2 Mô hình Bigram và mô hình chính tả âm tiết Bigram 19

1.4.3 Đánh giá hai phương pháp 20

CHƯƠNG 2 VẬN DỤNG CÂY TIỀN TỐ NHẬN DIỆN TỪ KHMER 21

2.1 Cây tiền tố 21

2.1.1 Khái niệm 21

2.1.2 Các vận dụng cây tiền tố 21

2.1.3 Khả năng vận dụng xử lý tiếng Khmer 21

Trang 6

2.2 Giải pháp đề xuất 21

2.2.1 Mô hình giải pháp 21

2.2.2 Các bước triển khai 22

2.3 Xây dựng kho văn bản nhận diện từ 23

2.3.1 Xây dựng kho văn bản tiếng Khmer 23

2.3.2 Sử dụng cây tiền tố 23

2.3.3 Thiết kế cơ sở dữ liệu 24

2.3.4 Phân tích use case 25

2.3.5 Hiện thực hóa use case 26

CHƯƠNG 3 CÀI ĐẶT THỬ NGHIỆM VÀ ĐÁNH GIÁ GIẢI PHÁP 27

3.1 Chuẩn bị môi trường thử nghiệm 27

3.1.1 Môi trường và công cụ 27

3.1.2 Chuẩn bị dữ liệu 27

3.1.3 Tiến hành thử nghiệm 27

3.1.4 Xây dựng tiêu chí đánh giá kết quả 29

3.2 Triển khai xây dựng ứng dụng 30

3.2.1 Các bước triển khai 30

3.2.2 Thu thập kết quả 30

3.3 Đánh giá kết quả thử nghiệm 30

3.3.1 Thống kê các kết quả 30

3.3.2 So sánh giải pháp với các giải pháp đã có 31

3.3.3 Đánh giá 31

3.3.4 Đề xuất vận dụng (cho tách từ) 31

KẾT LUẬN 32

TÀI LIỆU THAM KHẢO 33 QUYẾT ĐỊNH GIAO ĐỀ TÀI

BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN

Trang 7

DANH MỤC CÁC CHỮ VIẾT TẮT

CSGT Cảnh sát giao thông

DTTS Dân tộc thiểu số

ĐHCĐ Đại hội cổ đông

HĐQT Hội đồng quản trị

KHXH Khoa học xã hội

XLNNTN Xử lý ngôn ngữ tự nhiên

Trang 8

Recall Tỷ lệ giữa các từ tách đúng trên tổng số từ cần tách

F-score Được sử dụng để đánh giá hiệu quả tổng thể của hệ thống

bằng cách kết hợp hai chỉ số Precision và Recall

UNK Ký hiệu ngoài tập Khmer Unicode

SUB Vị trí gửi chân

Trang 10

DANH MỤC CÁC HÌNH

Trang 11

MỞ ĐẦU

1 Lý do chọn đề tài

Tiếng Khmer [kmɛər], hay tiếng Campuchia, tên Khmer ភាសាខ្មែរ [pʰiːəsaː kʰmaːe] Là ngôn ngữ của người Khmer, là ngôn ngữ chính thức của Campuchia Phân bố dân số: Campuchia khoảng 13 triệu người; Đông bắc Thái Lan khoảng 1,4 triệu người; miền nam Việt Nam khoảng 1 triệu người Hiện trạng sử dụng tiếng Khmer

ở Việt Nam: Người Khmer sống theo phum, sóc, xen kẽ với đồng bào Kinh Tại Trà Vinh có khoảng 300.000 người, chiếm tỉ lệ ~30% dân số

Mức độ sử dụng ngôn ngữ Khmer của cộng đồng người Khmer ở Trà Vinh, có khoảng 10% không biết nói, biết nghe tiếng Việt (người lớn tuổi, vùng sâu, vùng xa) 60% chỉ biết giao tiếp tiếng Việt đơn giản như chào hỏi, mời mọc, mua bán lặt vặt… 25% biết nói, biết nghe tiếng Việt trong sinh hoạt hàng ngày ở mức độ thông thạo 5% nói, nghe được tiếng Việt trong lĩnh vực chính trị, KHXH, kinh tế (những người làm việc Nhà Nước) [2]

Thực trạng tiếng Khmer trên mạng hiện nay: tìm kiếm từ khóa “trang tin Khmer”

có 493 000 kết quả bằng tiếng Việt – Kinh tuy nhiên vấn đề có rất ít trang web dùng tiếng Khmer Phát triển tiếng Khmer qua các phương tiện nghe nhìn, xử lý tiếng Khmer trong bối cảnh xử lý ngôn ngữ tự nhiên (XLNNTN) là nhu cầu bức thiết hiện nay

Bối cảnh của đề tài, trong lĩnh vực XLNNTN, xử lý tiếng Việt: Tính mặc nhiên trong suy nghĩ là xử lý tiếng Việt-Kinh Thực tế, các công trình nghiên cứu cho đến nay đều tập trung xử lý tiếng Việt-Kinh, đa dạng, phổ biến Mặc dù xử lý tiếng Việt-Kinh vẫn luôn là miền đất mới, vẫn luôn đặt ra nhiều thách thức Tuy nhiên trong số 55 dân tộc thiểu số Việt Nam: Hiện có rất ít công trình NCKH và ứng dụng liên quan đến

xử lý tiếng Khmer được công bố Có rất ít chuyên gia và tài liệu liên quan đến lĩnh vực

này

2 Mục tiêu và nhiệm vụ

Mục tiêu của đề tài: chuyên sâu vấn đề xử lý tiếng Khmer, từ đó đề xuất giải pháp ứng dụng cây tiền tố nhận diện từ trong văn bản tiếng Khmer, xây dựng kho ngữ liệu từ vựng tiếng Khmer Hỗ trợ việc xử lý tiếng Khmer ở mức độ cao hơn

Nhiệm vụ: nghiên cứu ứng dụng XLNNTN, vấn đề xử lý tiếng Khmer Tiếp cận phương pháp nhận diện từ tiếng Khmer dựa vào thành phần tiền tố trong từ vựng tiếng Khmer Cài đặt thử nghiệm giải pháp nhận diện từ và kho ngữ liệu từ vựng Đánh giá giải pháp

Trang 12

3 Đối tượng và phạm vi nghiên cứu

Vấn đề thành phần tiền tố trong cấu tạo âm tiết Nguyên âm, phụ âm,

nguyên âm độc lập, ký tự đặc biệt Tiếp cận việc ứng dụng cây tiền tố nhận diện từ

trong văn bản tiếng Khmer Tổ chức kho ngữ liệu, cập nhật ngữ liệu từ vựng, vấn đề

tổ chức khai thác, tìm kiếm và xử lý văn bản tiếng Khmer

4 Giả thiết nghiên cứu

Vấn đề từ vựng, từ loại và chữ viết tiếng Khmer Cấu trúc câu đơn và câu phức

trong văn bản Hiện tượng nhập nhằng

5 Phương pháp nghiên cứu

Phương pháp nghiên cứu lý thuyết: Vận dụng các đặc trưng ngữ pháp tiếng Khmer Thành phần tiền tố, cây tiền tố và phương pháp xây dựng cây tiền tố

Phương pháp nghiên cứu thực nghiệm: Xây dựng cây tiền tố và ứng dụng trong

nhận diện từ tiếng Khmer, xây dựng từ điển từ vựng tiếng Khmer

6 Ý nghĩa khoa học và thực tiễn của đề tài

Về mặt ngôn ngữ: Nghiên cứu chuyên sâu về XLNNTN, ngôn ngữ Khmer,

đánh giá những kết quả xử lý tiếng Khmer đã được công bố Đề xuất giải pháp tách từ

dựa vào thành phần tiền tố trong một văn bản tiếng Khmer trên cơ sở xây dựng

mô hình cây tiền tố, xây dựng kho ngữ liệu từ vựng tiếng Khmer

Ý nghĩa: Tìm cách trao đổi chuyên môn, chia sẻ kinh nghiệm xử lý tiếng Khmer

với đồng nghiệp Campuchia (nếu có thể) Ứng dụng kết quả nghiên cứu theo định hướng mở Góp phần phát triển lĩnh vực XLNNTN tiếng Khmer, cụ thể tại

trường Đại học Trà Vinh

Trang 13

CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN

1.1 Bài toán xử lý tiếng Việt-Kinh tiếng DTTS và tiếng Khmer

1.1.1 Xử lý tiếng Việt-Kinh

Phân tách câu

Tiền đề cơ sở để tách câu:

Theo sách ngữ pháp tiếng Việt của Uỷ ban Khoa học Xã hội (1980): “Câu là đơn vị dùng từ hay đúng hơn dùng ngữ mà cấu tạo nên trong quá trình tư duy, thông báo; nó có nghĩa hoàn chỉnh, có cấu tạo ngữ pháp, và có tính chất độc lập” Dựa vào quan điểm này về câu ta sẽ xét một đơn vị ngôn ngữ có phải là câu hay không

Mục tiêu:

• Xác định ranh giới rõ ràng và nhất quán giữa các câu tiếng Việt Phân biệt đơn vị câu với các đơn vị nhỏ hơn câu (từ, ngữ…) và lớn hơn câu (đoạn, văn bản)

• Làm tiêu chí chính để xây dựng nên câu tiếng Việt trong ngữ liệu tiếng Việt

• Làm cơ sở để gán các nhãn ngôn ngữ cao hơn (tách từ, gán nhãn từ loại, phân tích cú pháp )

• Làm tiền đề cho các bài toán khác, như: dóng câu trong song ngữ Anh-Việt,

Pháp-Việt, dịch tự động Việt-Anh

Phân tích và nhận diện câu:

Phân tích câu:

Xét về cấu tạo có câu đơn, câu ghép

Câu đơn:

Một câu đơn cơ bản gồm có một nòng cốt đơn Nòng cốt đơn gồm có hai phần,

phần đề và phần thuyết (theo quan điểm ngữ pháp chức năng) mà quan điểm ngữ pháp

truyền thống gọi là chủ ngữ và vị ngữ

Ví dụ 1:

Bão Lekima cấp 11 / đang hướng vào Nghệ An - Hà Tĩnh

Mọi chuyện / rồi sẽ qua đi

Trong cấu tạo câu đơn có thể có những thành phần ngoài nòng cốt như thành phần than gọi, thành phần chuyển tiếp, thành phần chú thích, thành phần tình huống, thành phần khởi ý

Trang 14

Chúng ta đi về đi, bà con ơi!

Khi thành phần than gọi đứng ở đầu câu thì ta xem nó là một câu Vì vốn dĩ thành phần than gọi đã có tính chất độc lập Hơn nữa, nó được ngăn cách với nòng cốt câu bằng dấu (!) nên ta xem nó như một câu đặc biệt

Chỉ còn lại những ngày cuối cùng

Điều chỉnh lại mình đi!

Câu ghép:

Về cấu trúc, câu ghép được tạo nên bởi ít nhất hai vế, mỗi vế là một nòng cốt đơn Câu ghép cũng có thể có những thành phần ngoài nòng cốt như câu đơn Về cấu trúc câu ghép thì có hai loại câu ghép cơ bản là câu ghép song song (câu ghép đẳng lập) và câu ghép qua lại (câu ghép chính phụ)

Câu ghép song song (câu ghép đẳng lập)

Nếu cấu trúc câu đơn giản, ngắn gọn (gồm 2 vế mà mỗi vế là một nòng cốt đơn) thì ta giữ nguyên cấu trúc câu của ngữ liệu

Ví dụ 6:

Giọng của cháu đôi lúc đã nghẹn lại trong quá trình phiên dịch cho tổng thống và Chủ tịch nước, cháu đã cố kiềm chế những giọt nước mắt của mình vì quá xúc động

Trang 15

Nếu cấu trúc câu ghép song song có hơn hai vế và quá phức tạp (gồm nhiều nòng cốt đơn) thì ta có thể tách thành những câu đơn Bởi vì quan hệ giữa các vế trong câu ghép song song không thật chặt chẽ và tách ra càng đơn giản thì việc xử lí dữ liệu

sẽ càng dễ dàng

Ví dụ 7:

“Mong ước của tôi là: đấu tranh cho đến khi đất nước giành được độc lập và sau

đó lập quan hệ ngoại giao và bình thường hóa quan hệ giữa VN và Mỹ, được như vậy thì tôi có thể mỉm cười mà nhắm mắt xuôi tay bất cứ lúc nào cũng thỏa lòng rồi”

→ Câu trên là một câu ghép đẳng lập gồm nhiều nòng cốt đơn Ta có thể tách thành:

Mong ước của tôi là: đấu tranh cho đến khi đất nước giành được độc lập và sau đó lập quan hệ ngoại giao và bình thường hóa quan hệ giữa VN và Mỹ

Được như vậy thì tôi có thể mỉm cười mà nhắm mắt xuôi tay bất cứ lúc nào cũng thỏa lòng rồi

Ví dụ 8:

Đa số bà con ủng hộ chủ trương xây dựng khu đô thị mới Thủ Thiêm và họ sẵn sàng giao đất để thực hiện dự án, nhưng họ muốn phải được đảm bảo quyền lợi và cuộc sống sau khi di dời

→ Theo ngữ nghĩa thì câu này có thể tách:

Đa số bà con ủng hộ chủ trương xây dựng khu đô thị mới Thủ Thiêm Họ sẵn sàng giao đất để thực hiện dự án, nhưng họ muốn phải được đảm bảo quyền lợi và cuộc sống sau khi di dời

Tuy nhiên ta nên hạn chế việc tách câu này, đặc biệt là với những câu ghép đẳng lập mà các vế câu được nối với nhau bằng kết từ (và, rồi, hay, còn).Vì việc tách câu này có thể làm cho câu cú gọn gàng nhưng ý nghĩa tự nhiên của ngữ liệu ít nhiều đã bị thay đổi

Câu ghép qua lại (câu ghép chính phụ)

Câu ghép chính phụ là câu ghép mà các vế trong câu phụ thuộc lẫn nhau, không thể tách ra được

Có thể nhận biết câu ghép chính phụ qua các cặp từ quan hệ như: nếu…thì, tuy…nhưng, do…mà, …

Ví dụ 9:

Trang 16

- Dù họ là nhà thầu Nhật Bản nhưng nếu họ vi phạm pháp luật VN thì vẫn xử họ theo qui định của pháp luật VN

- Vả lại, đây là loại tội phạm mới thuộc về lĩnh vực khoa học kỹ thuật, vì vậy ngoài lực lượng điều tra của ngành công an, chúng tôi cần phải phối hợp với các ngành chuyên môn khoa học kỹ thuật khác để tìm ra nguyên nhân

Giả sử mẹ nắm 60% vốn của công ty con; vậy mẹ phải cử đại diện dự các phiên họp của ĐHCĐ của công ty con và biểu quyết theo số vốn góp

Nhận diện câu:

Nhận diện chung:

Với các kiểu câu bình thường như trên ta có thể nhận biết câu qua dấu câu: dấu chấm (câu tả, câu trần thuật, câu kể), dấu chấm than (câu cảm, câu cầu khiến), dấu chấm hỏi (câu hỏi)

Nhận diện câu trong hội thoại:

Trong hội thoại dấu 2 chấm (:) báo hiệu cho lời nói trực tiếp, và lời nói trực tiếp này nằm trong dấu ngoặc kép (“…”) hoặc bắt đầu sau dấu gạch đầu dòng (-) Trong trường hợp này, ta sẽ tách câu (nhận diện câu qua dấu hai chấm (:))

Ví dụ 10:

Ông cho biết:

- Căn cứ vào kết quả kiểm tra, khảo sát và những chứng cứ thu thập ban đầu từ các đơn vị nghiệp vụ, tôi nhận thấy đây là một vụ án đặc biệt nghiêm trọng, gây hậu quả lớn về người và của

Hắn nói: “Mày chạy trước đi.”

→Tách thành hai câu:

Hắn nói:

“Mày chạy trước đi.”

Đối với đoạn hội thoại có vế trích dẫn nằm ở cuối câu thì ta cũng sẽ tách câu Vì trong lời nói trực tiếp có nhiều câu, khi ta tách chúng ra thành những câu riêng biệt,

vế trích dẫn cuối cùng sẽ gắn với câu cuối cùng làm thành một câu khác có ý nghĩa khác thì câu sẽ trở nên sai Vì vậy ta sẽ tách vế này ra thành một câu

Ví dụ 11:

"CSGT có nhìn thấy cũng chịu chết vì đâu có len vào được mà xử phạt Nếu bắt dừng xe thì kẹt đường ngay”, một CSGT chốt tại đây nói

Trang 17

→ tách thành 2 câu:

“Điều khác lạ ở VN so với nhiều nước châu Âu là các doanh nghiệp sản xuất

có thể tham gia phân phối, các qui định trong kinh doanh dược hiện có không qui định nhiệm vụ cụ thể của từng tổ chức trong dây chuyền phân phối”

Ông Andre nhận xét

Nhận diện câu sau dấu chấm phẩy (;)

Dấu chấm phẩy (;) thường dùng để chỉ ranh giới giữa các vế trong câu ghép song song Vì vậy ta có thể tách câu giống như câu ghép song song Ngoài những tiêu chí nhận diện câu qua câu ghép song song ta có những trường hợp khác sau:

Không nên tách câu khi sau dấu (;) là “thì”, “và”, “nên”

Ví dụ 13:

Giả sử, theo bản điều lệ, HĐQT có sáu thành viên; thì công ty mẹ phải thuyết phục các cổ đông trong ĐHCĐ bầu bốn người đại diện của họ vào HĐQT → không tách câu Nói một cách khác theo ngôn từ ta thường dùng, cơ quan chủ quản

ra lệnh cho công ty con ( 1 ) qua số vốn mình nắm và theo quyền biểu quyết đa số tương đối hay tuyệt đối trong ĐHCĐ của công ty con; và ( 2 ) có người đại diện của mình nắm đa số thành viên trong HĐQT → không tách câu

Sau dấu (;) không phải là “thì”, “và”, “nên” thì ta có thể tách câu được Riêng trường hợp sau “và” không phải là động từ, không phải là sự liệt kê thì cũng có thể tách được

Ví dụ 14:

Vốn của nó do Nhà nước bỏ vào; nó hoạt động theo chỉ thị của cơ quan chủ quản;

và cơ quan này là người nắm vốn duy nhất

→ Nên tách thành:

Vốn của nó do Nhà nước bỏ vào

Trang 18

Nó hoạt động theo chỉ thị của cơ quan chủ quản

Và cơ quan này là người nắm vốn duy nhất

Sau dấu (;) là cặp từ “nhưng (để/ nếu/ muốn)…thì” thì cũng có thể tách câu được vì cặp từ này có khả năng tạo thành một câu có đủ ý nghĩa và hoạt động độc lập được

Ví dụ 15:

Đối với chiến lược của tập đoàn, việc nâng cao hiệu quả sử dụng đất là cần thiết; nhưng để cho các công ty con thực hiện thì đại diện của PetroVietnam tại ĐPM phải họp ĐHCĐ hay HĐQT để ra quyết định

→ Nên tách thành:

Đối với chiến lược của tập đoàn, việc nâng cao hiệu quả sử dụng đất là cần thiết Nhưng để cho các công ty con thực hiện thì đại diện của PetroVietnam tại ĐPM phải họp ĐHCĐ hay HĐQT để ra quyết định

Sau dấu (;) là một cụm từ có đầy đủ chủ vị và có khả năng độc lập thì cũng nên tách câu

Ví dụ 16:

Một nghiên cứu đã chứng minh rằng đối với các nước có trình độ phát triển thấp, mức độ phát triển xã hội là một nhân tố thích ứng với tăng trưởng; ở một trình độ cao hơn, mức độ này dẫn đến thay đổi về phát triển cơ sở hạ tầng và các thể chế kinh tế

Theo đó, chủ xe khách 63L-5796 Võ Hồng Xuân bị phạt 2,1 triệu đồng

Tài xế Đặng Hữu Thành (con bà Xuân) bị phạt 2,6 triệu đồng

Trang 19

Tài xế xe khách 63L-5691 Lê Ngọc Trân bị phạt 2,1 triệu đồng

Tài xế xe khách 63L-5634 Nguyễn Văn Thủy bị phạt 430.000 đồng

Nhận diện câu sau dấu ngang (-):

Dấu ngang dùng để chỉ ranh giới của thành phần chú thích, đặt trước những lời đối thoại, liệt kê

Đối với câu có dấu ngang dùng để chỉ thành phần chú thích thì ta không nên tách câu

Ví dụ 18:

Cơn sốt vé trong năm nay không còn nghi ngờ gì nữa phải thuộc về ngôi sao nhạc nhẹ mới 14 tuổi Miley Cyrus, diễn viên ngôi sao của bộ phim truyền hình Hannah Montana trên Disney Channel - bộ phim nói về cuộc sống thú vị của một cô nàng vừa là sinh viên vừa là ngôi sao nhạc nhẹ

TTO - Sau một thời gian chạy thử nghiệm, Công ty VinaGame sẽ chính thức giới thiệu Zing MP3 - công cụ tìm kiếm âm nhạc trực tuyến đầu tiên tại Việt Nam vào đầu tháng tới

Trên đây là những trường hợp thông thường và một số trường hợp đặc biệt

mà công việc tách câu thường gặp phải (đặc biệt là đối với ngữ liệu lấy từ báo chí)

Thực tế nhận diện câu và một số vấn đề lưu ý khác:

Nhận diện câu trong văn bản thơ:

Khi trích dẫn thơ xuất hiện dấu / chúng ta phải tách câu

Tôi muốn buộc gió lại

Cho hương đừng bay đi”

Nhận diện câu qua dấu hai chấm, ngay sau đó có đánh số:

Ví dụ 20:

Người ta tổng kết có năm nguyên nhân bỏ học: (1) kinh tế gia đình khó khăn; (2) cha mẹ không quan tâm; (3) quản lý của nhà trường kém, chưa tập trung bồi dưỡng HS

Trang 20

yếu; (4) phối hợp giữa nhà trường và gia đình chưa chặt chẽ, thường xuyên; (5) HS thiếu chuyên cần, học lực kém

Tách thành:

Người ta tổng kết có năm nguyên nhân bỏ học:

(1) kinh tế gia đình khó khăn;

(2) cha mẹ không quan tâm;

(3) quản lý của nhà trường kém, chưa tập trung bồi dưỡng HS yếu;

(4) phối hợp giữa nhà trường và gia đình chưa chặt chẽ, thường xuyên;

Trường hợp này không tách

Phân tách từ

Tách từ là một quá trình xử lý nhằm mục đích xác định ranh giới của các từ trong câu văn, cũng có thể hiểu đơn giản rằng tách từ là quá trình xác định các từ đơn,

từ ghép… có trong câu

Tự động thêm dấu: Chữ viết tiếng Việt là chữ viết có dấu thanh Trong các

văn bản chính thống như sách, báo chí, văn bản hành chính, các dấu thanh được viết chính xác Tuy nhiên trong cách tình huống không chính thống như chat, gõ tìm kiếm, người dùng thông thường không gõ các dấu thanh, dẫn tới khó khăn nhất định cho máy tính trong việc hiểu ý nghĩa của văn bản [4]

1.1.2 Các bài toán trong xử lý tiếng ânn ṭc thỉu ố DTTT)

Dịch tự động

Dịch tự động hay còn gọi là dịch là một nhánh của xử lý ngôn ngữ tự nhiên thuộc phân ngành trí tuệ nhân tạo, nó là sự kết hợp giữa ngôn ngữ, dịch thuật và khoa học máy tính Như tên gọi, dịch tự động thực hiện dịch một ngôn ngữ này (gọi là ngôn ngữ

Trang 21

nguồn) sang một hoặc nhiều ngôn ngữ khác (gọi là ngôn ngữ đích) một cách tự động, không có sự can thiệp của con người trong quá trình dịch

Phân tách từ: Tách từ là một bài toán quan trọng trong các hệ thống đánh chỉ mục

và tìm kiếm văn bản tiếng Khmer Mục đích của bài toán nhằm xác định ranh giới của các từ trong câu

Phân tách câu

1.2 Vấn đề nhận diện từ Khmer

1.2.1 Các phương pháp tác h từ tiếng Việt

Ghép cực đại: Đặt các từ vào câu sao cho phủ hết được câu đó, thoả mãn một số heuristic nhất định Phương pháp này các ưu điểm là rất nhanh, nhưng có rất nhiều hạn chế, ví dụ như độ chính xác thấp, không xử lý được những từ không có trong

1.2.2 Tác h từ tiếng ânn ṭc thỉu ố DTTT)

Tác h từ tiếng Jrai

Ghép cực đại: trong xử lý tách từ tiếng Jrai

Trang 22

Tác h từ tiếng Kher

Ghép cực đại

Dựa trên các thành phần ngẫu nhiên có điều kiện

Mô hình tần suất xuất hiện từ liên tiếp hai âm tiết

Hướng tiếp cận dựa trên từ

Tiếp cận dựa trên ký tự

1.3 Tìm hiểu tiếng Khmer

1.3.1 Giới thiệu tiếng Kher

Tiếng Khmer [kmɛər], hay tiếng Campuchia, tên Khmer ភាសាខ្មែរ [phiːəsaː khmaːe]

Là ngôn ngữ của người Khmer, là ngôn ngữ chính thức của Campuchia Phân bố dân số: Campuchia khoảng 13 triệu người; Đông bắc Thái Lan khoảng 1,4 triệu người; miền nam Việt Nam khoảng 1 triệu người

Ngày đăng: 22/06/2020, 10:58

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[2]. Nguyễn Thị Huệ, Tình hình sử dụng ngôn ngữ Khmer tại Trà Vinh, 2008 : 9 56-65, Đại Cần Thơ Sách, tạp chí
Tiêu đề: Tình hình sử dụng ngôn ngữ Khmer tại Trà Vinh, 2008 : 9 56-65
[4]. Đinh Điền, Hướng dẫn tách câu tiếng Việt, 15/1/2008 Tiếng nước ngoài Sách, tạp chí
Tiêu đề: Hướng dẫn tách câu tiếng Việt, "15/1/2008
[6]. Vichet Chea*†, Ye Kyaw Thu†, Chenchen Ding†, Masao Utiyama†, Andrew Finch†, Eiichiro Sumita†*. Khmer Word Segmentation Using Conditional Random Fields, Research and Development Center, NIPTICT, Phnom Penh, Cambodia.Tài liệu Intr nrt Sách, tạp chí
Tiêu đề: Khmer Word Segmentation Using Conditional Random Fields, " Research and Development Center, NIPTICT, Phnom Penh, Cambodia
[7]. ôDịch tự độngằ. Wikipedia. Trang web : https://vi.wikipedia.org/wiki/Dịch_tự _động [8]. HomePage Group. Trang web : http://mmhomepage.com/burmese/Easy-Khmer-Tieng-Campuchia/[9]. ôKhmer alphabeằ. Wikipedia. Trang web :https://en.wikipedia.org/wiki/Khmer_alphabet Link
[10]. ôTrieằ. Wikipedia. Trang web : https://vi.wikipedia.org/wiki/Trie Link
[1]. Tạp chí Khoa học ĐHQGHN, Khoa học Tự nhiên và Công nghệ 27 (2011) 251- 258, Cách tiếp cận tách từ tiếng Khmer dùng trong cơ sở dữ liệu văn bản Khác
[5]. Chea Sok Huor, Top Rithy, Ros Pich Hemy, Vann Navy. Word Bigram Vs Orthographic Syllable Bigram in Khmer Word Segmentation Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w