1. Trang chủ
  2. » Luận Văn - Báo Cáo

khóa luận phương pháp thêm dấu tiếng việt vào văn bản tiếng việt không dấu

46 313 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Khóa luận phương pháp thêm dấu tiếng Việt vào văn bản tiếng Việt không dấu
Trường học Đại học Công nghệ, Đại học Quốc gia Hà Nội
Chuyên ngành Công nghệ thông tin
Thể loại Khóa luận
Thành phố Hà Nội
Định dạng
Số trang 46
Dung lượng 13,62 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Việc phát triển 1 công cụ›giúp thêm dấu tiếng Việt vào văn bản không dấu là việc rất cần thiết và thú vị.. Luận văn được tổ chức thành 5 chương với nội dung như sau : Chương 1 giới tiiệu

Trang 1

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN

BỘ MÔN CÔNG NGHỆ TRI THỨC

PHAN QUOC LAN

PHUONG PHAP THEM DAU TIENG VIET VÀO VAN BAN:‘TIENG VIET KHONG DAU

KHOA LUAN CU NHAN TIN HOC

TP HCM, NĂM 2005

Trang 2

TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN KHOA CÔNG NGHỆ THÔNG TIN

BỘ MÔN CÔNG NGHỆ TRI THỨC

PHAN QUOC LAN - 0112267

PHUONG PHAP THEM DAU TIENG VIET

VÀO VĂN BẢN TIÉNG VIỆT KHÔNG DẤU

KHOÁ LUẬN CỬ NHÂN TIN HỌC

GIÁO VIÊN HƯỚNG DẪN

Th.S PHẠM PHẠM TUYET TRINH

NIÊN KHÓA 2001 - 2005

Trang 3

Lời đầu tiên, em xin chân thành cảm ơn cô Phạm Phạm Tuyết Trinh, cô đã trực

tiếp hướng dẫn và tạo điều kiện cho em nghiên cứu và hoàn thành luận văn này

Em cũng xin chân thành cảm ơn thầy Đinh Điền, thầy đã hỗ trợ, giúp đỡ em rất

nhiều trong quá trình thực hiện Và em cũng xin cảm ơn tất cả các thầy cô trong khoa

Công nghệ thông tin đã tận tình chỉ bảo và giúp đỡ em trong suốt quá trình học tập trong trường

Con xin chân thành cảm ơn ba mẹ, ông bà, anh em và người thân trong gia đình

đã tạo mọi điều kiện tốt nhất cho con học tập và động viên; khích lệ con trong quá trình thực hiện luận văn

Và cuối cùng, tôi xin gửi lời cảm ơn đến tất cả bạn bè, đặc biệt là anh Toàn, bạn

Sinh, bạn Khương ., những người đã hỗ trợ và giúp tôi hoàn thiện luận văn này

Mặc dù em đã cỗ gắng hoàn thành luận Vấn trong phạm vi và khả năng cho phép

nhưng chắc chắn sẽ không tránh khỏi những thiếu sót Em kính mong nhận được sự

cảm thông và tận tình chỉ báo củã quý Thầy Cô và các bạn

TP Hồ Chí Minh, tháng 7 năm 2005 Phan Quốc Lân - 0112267

Trang 4

NHAN XET CUA GIAO VIEN HUONG DAN

Thành phố Hồ Chí Minh, tháng 07 năm 2005

Giáo viên hướng dẫn

Th.S Phạm Phạm Tuyết Trinh

Trang 5

Thành phố Hồ Chí Minh, tháng 07 năm 2005

Giáo viên phản biện

TS Đinh Điền

Trang 6

LOI NOI DAU

Chữ viết tiếng Việt của chúng ta có 1 đặc điểm rất hay là có sự xuất hiện của các

dấu thanh cũng như dấu của các ký tự Điều này giúp cho tiếng Việt “thêm thanh, thêm

điệu” Tuy nhiên, cũng chính việc “thêm thanh, thêm điệu” đó làm cho việc gõ tiếng

Việt trở nên tốn nhiều thời gian hơn 1 vấn đề khác, khi việc sử dụng Internet trở nên

thông dụng, 1 tiện ích được mọi người ưa chuộng là dịch vụ Email Nhưng, cho đến hiện nay, hầu hết các mail server vẫn chưa hỗ trợ tốt tiếng Việt, do đó, tình trạng các lá mail trên mạng hầu như không có dấu Việc phát triển 1 công cụ›giúp thêm dấu tiếng

Việt vào văn bản không dấu là việc rất cần thiết và thú vị

Đề tài này hướng đến việc giải quyết bài toán.thêm dấu tiếng Việt theo một

hướng mới, do đó, chương trình không chú trọng chuyên sâu vào lĩnh vực nào Việc

thêm chức năng hỗ trợ các lĩnh vực chuyên sâu khác không ảnh hưởng nhiều đến cấu trúc của mô hình mà chương trình áp dụng

Luận văn được tổ chức thành 5 chương với nội dung như sau :

Chương 1 giới tiiệu tổng quan về bài toán Thêm dấu tiếng Việt vào văn bản

không dấu, và các công trình đã có liên quan đến đề tài

Chương2 giới thiệu các cơ sở lý thuyết _ tin học cần sử đụng

Chương 3 nhận xét các mô hình đã có trước đây, và đưa ra mô hình cài đặt

chính

Chương 4 cụ thể hóa mô hình cài đặt

Chương 5 tông kết và dé ra hướng phát triển

Trang 7

Churong 1 TONG QUANN -5-5 5° 55s csscsessessesessesseseesesse

1.1 - Giới thiệu về bài toán Thêm dấu tiếng Việt vào văn bản không dấu 10 1.1.1 Phát biểu bài toán s-s-sssss©+seEvsetvseevssereersserseersssse 10 1.12 Đặc điểm

1.1.3 Hướng giải quyêt

1.2 Giới thiệu các công trình đã có

2.1.1 Âm tiết (còn gọi là “tiếng”) -eee- đỀn

2.1.1.1 Định nghĩa và đặc diém âm tiệt tiêng Việt

2.1.1.2 Thanh là thành phân của âm tiết tiếng, Việt

2.1.1.3 Tại sao lại phải dùng dâu thanh ? -

2.3.1.2 Xử lý dâu châm trong ngoặc

Chương 3.MO HĨNH CÀI ĐẠTT < 5=

3.1 _ Các mô hình thêm dấu đã được sử dụng

Trang 8

3.1.2.1 Mô hình thêm dấu tiếng Việt

3.1.2.1.1 Tiền xử lý

3.1.2.1.2 Tách câu

3.1.2.1.3 Tìm các khả năng đánh dấu của từ, câu

3.1.2.2 Mô hình huấn luyện

3.2.2 Mô hình huấn luyện

3.2.2.1 Thống kê tần suất xuất hiện của từ

3.2.2.1.1 Xây dựng kho ngữ liệu

3.2.2.1.2 Thống kê tần suất xuất hiện của từ

3.2.2.1.3 Tạo từ điển chuyển đổi

3.2.2.2 Trích xuất các cụm từ thường sử dụng

3.2.3 So sánh mô hình này với 2 mô hình trên

Chương 4.CAI ĐẶT THU NGHIỆM

4.1 Thống kê tần số xuất hiện của từ

4.1.1 Xây dựng kho ngữ liệu text từ báo điện tử

4.1.2 Tach cau

4.1.3 Tach tir va thong ké

4.2 Tao tap tin từ điển chính

4.3 Tạo tập tin từ điển cụm từ

4.3.1 Tạo kho dữ liệu tỉnh giản mới

4.3.2 Tao tap tin tir dién cụm từ

Trang 9

Hinh 1.2.1-1 : Thêm dấu tiếng Việt tự động bằng AMPAd e.ccesseescessesseessessecseesseeseessessesseesees 12 Hình 1.2.2-2 : Gõ tiếng Việt không dấu trên VietPad

Hình 1.2.2-3 : Văn bản sau khi thực hiện chức năng thêm dấu tiếng Việt của VietPad

Hình 1.2.3-4 : Gõ tiếng Việt không dấu trên EasyVn

Hình 1.2.3-5 : Văn bản sau khi tự động thêm dấu trên EasyVn

Hình 1.2.4-6 : Sơ đô kết cấu âm tiếng Việt . -

Hình 3.1.1-7 : Lưu đồ thực hiện của mô hình ứng dụng trong VietPad

Hình 3.1.2-8 : Lưu đồ thực hiện của mô hình n-gram

Hình 3.2-9: Lưu đô thực hiện của mô hình đề xuất

Hình 3.2-10 : Tập tin mẫu sau khi thống kê tần suất từ

Hình 3.2-11 : Trích tập tin TuDienChỉinh.txt

Hình 3.2-12 : Trích tập tin CumTiu.txt

Hình 4.1.1-13: Giao diện chương trình HTML2TXT

Hình 4.1.1-14: Cấu hình của chương trình HTML2TXT

Hình 4.1.1-15 : Một trang báo thanh niên -.e -

Hình 4.].1-16 : Dữ liệu được tách từ trang báo Thanh niên

Hình 4.1.2-17: Giao diện chương trình Tách Câu

Hình 4.1.2-18: Từ viết tắt cung cấp cho chương trình Tách Câu

Hình 4.1.2-19: Nội dung file kết xuất của chương ffình Tách Câu

Hình 4.1.3-20: Giao diện module tach tie

Hình4.1.3-21: Nội dung tập tin thư mục nguồn

Hình 4.1.3-22: Nội dung tập tin từ điển

Hình 4.1.3-23: Nội dung tập tin kết quả

Hình 4.1.3-24: Giao diện chương trình tạo từ điên chính

Hình 4.1.3-25 : Trích 1 phần TuĐïenChinh.txt

Hình 4.1.3-26 : Trích Lphần TuDienPhanLop.txt

Hình 4.1.3-27: Trích I phan KhoCau.tt

Hình 4.3.1-28: Giao diện chương trình tạo kho dữ liệu tỉnh giản

Hình 4.3.1-29 : Trích I phân thư mục kết xuất

Hình 4.3.1-30 : Thự mục con _a trong thư mục kết xudi

Hình 4.3.2-31: Giao diện chương trình tạo tập tin cum t

Hình 4.4.1-32: Giao diện chương trình chính VietEditor

Hình 4.4.2-33: Giao diện chương trình chính thêm dấu Clipboard

Hình 4.4.2-34: Test chương trình thêm dấu Clipboard

Hình 5.2-35 : Tập tin kho ngữ liệu mẫu

Trang 10

Chương 1 TONG QUAN

Trang 11

1.1 Giới thiệu về bài toán Thêm dấu tiếng Việt vào

văn bản khong dau

1.1.1 Phát biếu bài toán

Bài toán có thể được phát biêu như sau : Cho một văn bản tiếng Việt không

dấu Chuyén van ban không dấu này thành có dấu với độ chính xác cao

Chỉ sử dụng từ điển từ và kho ngữ liệu thô làm đầu vào

Khái niệm từ ở đây là “từ từ điển” — tức là các từ đơn, từ ghép và cụm từ

được lưu trong từ điển

Chỉ xử lý các văn bản tiếng Việt có mã Unicode

1.1.2 Đặc điểm

Chữ viết tiếng Việt có 1 đặc điểm rất hay là sự xuất hiện của các dấu thanh

cũng như dấu của các ký tự Việc có dấu thanh và dấu của ký tự này làm phong phú thêm cho ngôn từ tiếng Việt, và eũnø góp phần tăng độ biểu cảm của tiếng

Việt

Dấu thanh là 1.thằnh phần “bat kha phân” trong âm tiết tiếng Việt [8] Khi loại bỏ dấu thanh, việc hiểu nghĩa của từ, gồm 1 hay nhiều âm tiết kết hợp với

nhau, trở nên khớ Khăn và dễ gây hiểu lầm

Đề thêm dấu, trước tiên, ta cần phải xác định ranh giới từ Bài toán xác định ranh giới từ đối với văn bản tiếng Việt có dấu đã là 1 việc thử thách, thì khi không có dấu, việc nhận diện ranh giới từ càng trở nên khó khăn hơn Vấn đề này lại càng khó khăn, khi ranh giới từ trong tiếng Việt cũng như 1 số ngôn ngữ Châu Á khác, một từ chính tả có thể không tương ứng với một “từ” trên văn bản Đối với các thứ tiếng Châu Âu, ta có thé dé dàng nhận ra một từ, đo các từ

được phân cách bởi khoảng trắng Điều này lại không đúng với tiếng Việt Trong tiếng Việt, các tiếng _ hay còn gọi là âm tiết _ được phân cách bởi

khoảng trắng, chứ không phải từ

10

Trang 12

Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt không dấu

Sau khi đã nhận diện được ranh giới từ, ta cần phải xác định cho đúng từ có dau nao cé dang thé hiện không dẫu như vậy Việc xác định này cũng gây nhiều

khó khăn, khi I từ không dấu có thể có nhiều từ có dấu tương ứng với nó

Ví dụ 1-1 : Từ không dấu “toi” có 3 từ có dấu tương ứng là “tôi”, “tới” và

“tối”,

Do đó, sau khi đã giải quyết xong bài toán tách từ tiếng Việt không dấu, ta

cần phải giải quyết thêm bài toán xác định từ có dấu thích hợp với từ không dấu

đó Đây chính là 2 bài toán cần giải quyết chính của mô.hình

1.1.3 Hướng giải quyết

Đối với tách từ có dấu, có nhiều mô hình:được sử dụng và đạt kết quả cao

như MM (Maximum Matching : forward / backward hay còn gọi là LRMM:

Left RighÐ; giải thuật học cải biến TBL; mạng chuyên dịch trạng thái hữu hạn

có trọng sé WEST (Weighted finite-state-Transducer); giai thuat dua trén nén

(compression) [1] Hướng giải quyết được đề xuất là sử dụng phương pháp

tách từ LRMM [1][7] kết hợp:với mô hình Bigram đã giải quyết khá hiệu quả 2

vân đề của bài toán này: Phướng pháp chỉ mới được áp dụng cho mô hình thêm

dau offine, nhưng có thê được cài dat dé gan dau online

1.2 Giới thiệu các công trình đã có

1.2.1 \ AMPad

AMPad [12] (tên version cũ và thông dụng với mọi người là AutoMark)

của tác giả Trần Triết Tâm là sản phẩm đầu tiên nghiên cứu về lĩnh vực này

Chương trình đã được nhiều người biết đến và được sử dụng rộng rãi Điều này

cho thấy việc phát triển ứng dụng hoàn thiện hơn nữa về thêm dấu tiếng Việt là

có nhu cầu, và nhu cầu này sẽ ngày càng tăng cao Chương trình AMPad có

11

Trang 13

điểm hay là việc áp dụng mô hình xử lý thêm dấu ở chế độ online, tạo sự trực

quan, thân thiện cho người sử dụng

ntitled - AMPad

File Edit Search Function Options Help

| Chu viết tiếng Viet của chúng ta có một đặc diem rất hay là có sự xuất

| hiện của các ciấu thành cũng như đâu của các ký tự Dieu này giúp cho

| tiếng Viet thềm thành, thêm điểu" Tuy nhiên, cũng chính việc thêm

| thành, thêm điểu" do đã làm cho việc qỗ tiếng Viettrở nên tân nhiều thời

| gian hon Mot vấn để khắc, khi việc sử dụng intenettrở nan thang dung]

| abo >>> | AutoMark-5) AutoMark

Hinh 1.2.1-1 : Thêm dấu tiếng Việt tự động bằng AMPad 1.2.2 VietPad

Vietpad [11] là trình soạn thảo hỗ trợ tiếng Việt Unicode, được phát triển

bởi Quân Nguyễn và nhóïñ'phát triển trên http://vietpad.sourceforge.net Ngoài

chức năng thêm dấu tự động 6ffline mà luận văn đang nghiên cứu, VietPad còn

là 1 trình soạn thảo tiếng Việt hỗ trợ rất tốt Unicode và là mã nguồn mở

E5 Untitled - VietPad.HET

File Edit view Format Keyboard Tools Help

chu viet tieng Viet cua chung ta co mot dac diern rat hay la co su

xuat hien cua cac dau thanh cung nhụ đau cua cac ky tu Dieu nay

Jgiup cho tieng Viet hern thanh, them dieu" Tuy nhien, cung chính

Iviec "them thanh, them dieu" do lam cho viec go tieng Viet tro nen

jton nhieu thoi gian hon

Niet Telex (On „

Hinh 1.2.2-2 : Gõ tiếng Việt không dấu trên VietPad

12

Trang 14

Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt không dấu

EBl Untitled - VietPad.MET:

|Chữi viết tiếng Việt của chúng ta có một đặc điểm rất hay là có sự xuất hiện

|cùa các dầu thánh cũng như đâu của các ký tự Điều nảy giúp cho tiếng Việt

| thêm thành, thêm điều" Tuy nhiên, cùng chính việc "thêm thành, thêm điều"

|đó làm cho việc gỗ tiếng Việt trä nên tốn nhiều thồi gian hản

Wiet Telex On „

Hinh 1.2.2-3 : Van bản sau khi thực hiện chức năng thêm dấu tiếng Việt của VietPad

1.2.3 www.EasyVn.com

Trang web www.easyvn.com [10] cung cấp dịch vụ email điện tử miễn phí

trên mạng, với sự hỗ trợ n8ười dùng rất tốt về ngôn ngữ Việt 1 chức năng nỗi bật của www.easyvn.com là :sau khi soạn thảo xong bức mail, người dùng có

thể chọn chức năng Thêm dấu tiếng Việt để biến văn bản không dấu thành có

dau Do day là địch vụ-được cung cấp và thu phí trên NET (cho sử dụng thử trong 2 tháng),nô hình thêm dấu tự động của www.easyvn.com được giữ kín

13

Trang 15

Chon địa chỉ in Lưu thự nhập | Gai di

Thêm dấu j

Tai rat vui vi duoc gap cac ban

Hình 1.2.3-4 : Gõ tiếng Việt không đấu trên EasyVn

Nhấp vào chữ bö dẫu sai để chọn dấu đúng Hướng Dẫn Sữa Dâu -308V ổ lại ;

Chao cac ban

Tôi rất vui vị được gặp các bạn

VnMark [2] được tác giả Nguyễn Văn Toàn phát triển Do tác giả đã làm

thất lạc chương trình, do đó, không có hình ảnh minh hoạ chương trình

14

Trang 16

Chương 2 CƠ SỞ LÝ THUYÉT TIN HỌC

Trang 17

2.1 Lý thuyết về ngôn ngữ học

2.1.1 Âm tiết (còn gọi là “tiếng”)

2.1.1.1 Định nghĩa và đặc điểm âm tiết tiếng Việt

“Tiếng” là “đơn vị cơ bản” trong tiếng Việt [1] Một “tiếng” trong tiếng

Việt được nói lên là một đơn vị ngữ âm, và cũng là một đơn vị ngữ pháp

Một “tiếng” là một đơn vị phát ngôn, và là một đơn vị của lời nói đề tạo ra

những kết cấu lời nói trong hoạt động nói năng giao tiếp Đặc tính này của

tiếng chính là một tính cách loại hình của tiếng.Việt, trong đó mỗi đơn vị

phát âm trùng khít với đơn vị ngữ pháp (hình vị, và từ) Khi xét trên bình

diện ngữ âm, tiếng là một đơn vị của ngữ:âm, tức là một âm tiết [9]

Việc nhận diện “tiếng” đối với người Việt là điều quá đễ dàng, tự nhiên

đối với mọi người mà không cần một trình độ ngôn ngữ gì cao, vì : trong lời nói (mặt ngữ âm), mỗi “tiếng” bao giờ cũng phát ra một hơi, nghe thành một

tiếng, và có mang một thanh điệu nhất điệu; còn trong chữ viết (mặt chính

tả), mỗi tiếng bao giờ cũng được viết rời thành từng chữ (ngăn cách bằng

khoảng trắng háy các dấu ngắt) Đơn vị “tiếng” đối với người Việt là một đơn vị tự nhiên, khái niệm “tiếng” đã có từ lâu và được người bản ngữ sử

dụng nó trước khi hiểu và sử dụng khái niệm “từ”

Câu “Cái bàn này hình bán nguyệt” có 6 tiếng

2.1.1.2 Thanh là thành phần của âm tiết tiếng Việt

Khi phát âm tiếng Việt, chúng ta phát âm từng đơn vị lời nói cắt rời nhau, gọi là âm tiết Khi phát âm chậm một âm tiết, có thể nhận thấy khá rõ là mỗi

âm tiết đều có thể kết hợp nhiều nhất là ba đơn vị phát âm : âm đầu + âm

chính + âm cuối Ba thành phần trên gồm những âm vị xuất hiện tương đối

theo thứ tự trước sau, nên gọi là những âm vị tuyến tính

16

Trang 18

Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt không dấu

Ngoài ra, mỗi âm tiết được định một bậc cao thấp, gọi là thanh điệu

Trong lời nói, mỗi âm tiết tiếng Việt đều mang một thanh Thanh này xuất

hiện lập tức khi âm tiết được phát ra, cho nên có thể nói rằng thanh là một thành phần bắt khả phân của âm tiết Thanh là thành phần âm vị phi tuyến tính của một âm tiết tiếng Việt Thanh là một sắc thái của âm thanh các âm

tiết, qua đó khi phát âm sẽ định bậc cao thấp khác nhau của mỗi đơn vị của

chuỗi lời nói Có sáu thanh làm tiêu chuẩn định bậc cao thấp khác nhau,

thường gọi là ngang, hỏi, sắc, huyền, ngã, nặng

Như vậy thì mỗi âm tiết tiếng Việt đầy đủ cófối đa bốn đơn vị cấu thành Tối thiểu thì mỗi âm tiết cũng phải có hai thanh phan : âm chính + thanh

Thanh

âm đầu am chính âm cuối

Hình 1.2.4-6 : Sơ đồ kết cấu âm tiếng Việt

2.1.1.3 Tại sao lại phải đùng dấu thanh ?

Các ngôn ngữ dùng bảng chữ cái Latin không dùng thêm kí hiệu chỉ

thanh, mà chỉ ghi.lại‹€ác âm vị tuyến tính bằng các đồ vị là con chữ Hệ

thống.chữ viết khói vuông như chữ Hán và chữ Nôm cũng không có kí hiệu

chỉ thanh Nhưng trường hợp chữ quốc ngữ có khác Khi dùng bảng chữ cái

Latin, các đồ vị con chữ chưa đủ đề phân biệt ý nghĩa một từ được viết ra, vì

có đến sáu thanh phải phân biệt Đã đành thanh chỉ là yếu tố ngữ âm không thuộc về thành phần âm vị tuyến tính, nhưng thanh tiếng Việt không hẳn chỉ

là một yếu tố ngôn điệu mang tính cách hoa mĩ cho âm tiết, mà là một thành

phần không thể thiếu được khi phát âm một âm tiết Nói cách khác, âm tiết tiếng Việt chưa hoàn chỉnh khi chưa được định thanh Có lẽ các nhà sáng chế

ra chữ viết theo bảng chữ cái Latin mà ta thường gọi quen là "chữ quốc ngữ"

17

Trang 19

đã hiệu rất rõ tính cách bat khả phân của thanh đối với âm tiết tiếng Việt, cho nên các vị đã đùng đến những kí hiệu để chỉ thị các bậc thanh tương ứng Và đây cũng là đặc điểm nỗi bật của tiếng Việt

2.1.2 Từ

2.1.2.1 Các quan niệm về từ

Có 1 số định nghĩa điển hình về từ như sau [1] :

- Theo L.Bloomfield, thi tir 14 “mt hinh thái tự do đhỏ nhất”

- Theo Solncev thi “Tir la don vi ngôn ngữ có tính hai mặt: âm và nghĩa

Từ có khả năng độc lập về cú pháp khi sử đụng trong lời”

- Theo B.Golovin, thi từ là “đơn vị nhỏ nhất có nghĩa của ngôn ngữ, được vận dụng độc lập, tái hiện tự do trong lời nói để xây dựng nên câu ” Đây cũng chính là định nghĩa mà trong ngôn ngữ học đại cương hay sử dụng

Trong nội dung luận văn này, ta quan tâm tới 3 thuật ngữ trong ngôn ngữ

đại cương đề nhận:diện tir:

1 Từ ngữ âm : đó là những đơn vị được thống nhất với hiện tượng ngữ âm nầø đó Đối với tiếng Việt, đó chính là những âm tiết, hay

cồn gọi là “tiếng”, “tiếng một”

2 Từ chính tả : đó là những khoảng cách giữa 2 chỗ trên văn tự, tức là

những đơn vị được viết liền thành khối, đối với tiếng Việt, đó chính

là “chữ”

3 Từ từ điển học : đó là đơn vị mà căn cứ vào đặc điểm ý nghĩa của

nó phải xếp riêng trong từ điển

2.1.2.2 Tiêu chí nhận diện “từ” tiếng Việt

Từ rất nhiều quan niệm cũng như các định nghĩa về “từ tiếng Việt”, ta có

thể rút ra tiêu chuẩn mà các nhà Việt ngữ học đã dựa vào đó khi nhận diện từ

18

Trang 20

Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt không dấu

tiếng Việt [3] Các tiêu chuẩn này chung qui ta có thể phân thành : các tiêu

chuẩn về hình thức và các tiêu chuẩn về nội dung

2.1.2.2.1 Các tiêu chuẩn về hình thức

Tính cố định : tính vững chắc về cấu tạo, không thể chêm — xen được

Tính độc lập : các nhà Việt ngữ học hay dùng tiêu chuẩn tính độc lập để

phân biệt từ (đơn vị có nghĩa và độc lập) với hình vị (đơn vị có nghĩa và không độc lập) Tính độc lập còn được gọi là khả năng kết hợp (tự đo — hạn chế)

Tính từ loại và quan hệ cú pháp : trong ngũ/cầu, từ đảm nhận những chức năng cú pháp nhất định, nên mọi từ đề phải mang một từ loại nào đó, còn hình vị thì không có tính chất từ loại Quan hệ giữa các từ là quan hệ cú

pháp, còn quan hệ giữa các hình vị của từ không phải là quan hệ cú pháp

2.1.2.2.2 Các tiêu chuẩn về nội dung

Chức năng định danh : chức năng nầy được dùng đê xác định tư cách của

từ (từ thực), coi đó là đặc: trưng phân biệt giữa “từ” với “hình vị”

Biểu thị khái niệm : vì với khái niệm không phải là một: có những khái

niệm cần biểu thị bằng nhiều từ, và có những từ không biểu thị khái niệm

Ý nghĩa biểu niệm? vì ý nghĩa của từ và khái niệm không trùng nhau, vì

vậy, người fa cần phân biệt ý nghĩa từ vựng và ý nghĩa ngữ pháp

Hoàn chỉnh về nghĩa : đây là tiêu chuẩn quan trọng, được đa số các nhà Việt ngữ học chấp nhận trong việc xác định tư cách của từ Tiêu chuẩn này

liên quan đến tính thành ngữ và tính võ đoán

19

Trang 21

2.2 Tách từ

Bài toán tách từ cho ngôn ngữ đơn lập đã được đặt ra từ lâu, chủ yếu đề giải quyết

cho tiếng Trung Quốc, tiếng Nhật Các thuật toán tách từ có thể được phân loại như

Sau:

s* Dựa theo luật Bao gồm các cách sau:

- Longest Matching, Greedy Matching Models (Yuen Poowarawan), 1986; Sampan Rarurom, 1991)

- _ Mô hình khớp tối đa Mô hình này được chia thành “KHớp tối đa tiến và khớp tối

đa lùi” Đối với phương pháp này thì một từ điển Hoàn chỉnh là không thể thiếu

Một từ điển không hoàn chỉnh sẽ giảm hiệu suất của thuật toán Tuy nhiên, dễ

thấy là khó có thể có một từ điển hoàn chỉnh (đặc biệt khi các ngôn ngữ vẫn còn

được tiếp tục phát triển hằng ngày trong thời đại ngày nay) Mô hình này tuỳ

thuộc nhiều vào từ điển

s* Dùng thống kê:

Giải pháp này dựa vào ngữ cảnh từ-xung quanh để đưa ra quyết định thích hợp

Có hai vấn đề cần được giải quyết đối với giải pháp này : độ rộng ngữ cảnh, và cách áp

dụng thống kê Ngữ cảnh càng rộng thì thuật toán càng phức tạp

Cho dù độ rộng ngữ eảnh thé nao, luôn có thể áp dụng mô hình first-order HMM

Tuy nhiên giải pháp này phụ thuộc rất nhiều vào ngữ liệu huấn luyện Kết quả huấn luyện trên ngữ liệu chính trị khó có thể áp dụng trên các tài liệu văn học và ngược lại Thêm vào đó, có những từ có xác suất rất cao, nhung chỉ có thể chức năng về mặt ngữ pháp, làm giảm vai trò của xác suất

s Cách khác:

Hầu hết các giải pháp khác là sự lai tạo giữa các mô hình trên và các mô hình ngôn ngữ học như WFST, TBL Thời gian xử lý các giải pháp này trở nên đáng kẻ, nhưng độ chính xác đạt được khá cao

20

Trang 22

Luận văn tốt nghiệp : Phương pháp thêm dấu vào văn bản tiếng Việt không dấu

Tri thức về ngôn ngữ, thường áp dụng cho các mô hình dựa trên luật, hiếm khi

được áp dụng cho những mô hình trên

Dưới đây là mô tả 2 phương pháp tách từ thường sử dụng :

2.2.1 Khớp tối đa (LRMM - Left Right Max Matching)

Thuật toán so khớp tối đa hoạt động như tên của chính nó Thuật toán giải quyết

bài toán tách từ nào có nhiều từ nhất (so khớp được nhiều nhất) Thuật toán được áp

dụng để xây dựng chương trình tách từ tiếng Trung Quốc MMSEG Thuật toán này có

nhiều biến thể khác nhau

> Dạng đơn giản, được dung để giải quyết vấn đề nHập nhằng từ đơn Giả sử có

một chuỗi ký tự (tương đương với chuỗi tiếng Việt trong tiếng Việt) C¡, Cạ , Cs Ta bắt đầu từ đầu chuỗi Đầu tiên, kiểm tra xem C¡ có phải là từ không,

sau đó kiểm tra xem C¡C; có phải là từ hay không: Tiếp tục làm cho đến khi tìm

được từ dài nhất Từ có vẽ hợp lý nhất là từ dầi nhất Chọn từ đó, sau đó tìm tiếp

như trên trên những từ còn lại, cho đến khi xác định được toàn bộ chuỗi dữ liệu

> Dạng phức tạp Quy tắc của đạng này là phân đoạn có vẽ hợp lý nhất là đoạn 3

từ với chiều dài tối đaz Thuật toán bắt đầu như dạng đơn giản Nếu phát hiện ra

những cách tách từ gây nhập nhằng (ví dụ C¡ là từ và C¡C; cũng là từ), ta xem

các chữ kế tiếp để tìm tấế cả các đoạn ba từ có thể có bắt đầu với C¡ hoặc C¡C¿,

Ví dụ 2-2 : ta được những đoạn sau:

-C, G, Ge,

- C¡C¿ C;Œ¿ Cs

-C¡C; C;C¿ CC

Chuỗi dài nhất sẽ là chuỗi thứ ba Vậy từ đầu tiên của chuỗi thứ ba (C¡C;) sẽ

được chọn Thực hiện lại các bước cho đến khi được chuỗi từ hoàn chỉnh Cách này đạt được độ chính xdc 99.69%

Mô hình sử dụng phương pháp tách từ LRMM dạng đơn giản Mô hình này vừa

đơn giản, nhưng mang lại độ chính xác cao

21

Trang 23

2.2.2 Mô hình mạng WEST và mạng nơ-ron

WFST đã được áp dụng để tách từ tiếng Trung Quốc Ý tưởng cơ bản là áp dụng WEST kết hợp với trọng số là xác suất xuất hiện của mỗi từ trong ngữ liệu Dùng

WEST để duyệt qua câu cần xét Cách duyệt có trọng số lớn nhất sẽ là cách tách từ

được chọn Giải pháp này cũng đã được áp dụng trong [5] kèm với mạng nơ-ron để

khử nhập nhằng

Mô hình tách từ trong VnMark sử dụng chính là mô hình WFST này (Xem chỉ tiết hon trong [1] trang 99-104, hay trong [5])

2.3 Tach cau

Trong một văn bản tiếng Anh hay bằng bất kỳ một.ngôn ngữ thông dụng nào

khác, thông thường thì ta chỉ đùng dấu chấm (2);:chấm than (!), cham hoi(?) và một số dấu khác nữa để nhận biết kết thúc câu (Tấ gọi những dấu này là những dấu báo hiệu kết thúc câu hay dấu chấm câu) Tuy nhiên, do tính nhập nhằng của dấu báo hiệu kết

thúc câu (chăng hạn như dấu kết thúc câu trong từ viết tắt, ) nên việc xác định ranh

giới câu không đơn giản như chúng tangiĩ Ví dụ như dấu chấm, nó có thé biéu thị như

một dấu chấm thập phân, một cụm từ kết thúc, sự kết thúc câu văn hoặc ngay cả từ viết tắt nằm ở cuối câu Một dấu chấm hỏi hay dấu chấm than có thể xuất hiện trong dấu

ngoặc đơn, ngoặc kép.Hay cũng như ở cuối câu Sự mập mờ của các dấu câu này được thể hiện qua các ví dụ Sau:

Ví dụ 2-3:

1 The group included Dr J.M Freeman and T Boone Pickens Jr

2 “This issue crosses party lines and crosses philosophical lines!” said Rep John Rowland (R., Conn.)

3 It was due Friday 5 p.m Saturday would be too late

4 She has an appointment at 5 p.m Saturday to get her car fixed

22

Ngày đăng: 18/06/2014, 13:31

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm