1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt

168 1 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt tiếp cận xử lý văn bản tiếng Việt
Tác giả Nguyễn Nho Túy
Người hướng dẫn PGS.TS. Phan Huy Khánh
Trường học Đại học Đà Nẵng
Chuyên ngành Khoa học máy tính
Thể loại Luận án tiến sĩ
Năm xuất bản 2020
Thành phố Đà Nẵng
Định dạng
Số trang 168
Dung lượng 3,27 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Vì và nhiều tỉnh luồng, không chí tỉnh hưồng trong sử dụng ngôn ngữ tự nhién giao tiếp, dặt tên, nhắn tỉn, Email..., mà còn trong các lĩnh vực nghiên cứu khoa học, nhận dang chữ viết h

Trang 1

BỘ GIÁO DỤC VÀ DẢO TẠO

DAL HOC DA NANG

NGUYEN NHO TUY

NGHIÊN CỬU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHÀNG

TRONG TIENG VIET, TIẾP CAN XU’ LY VAN BE VIET TAT TIENG VIỆT

Chuyén nganh: KHOA HOC MAY TINH

LUAN AN TIEN SI KY THUAT

Da Nang, nim 2020

Trang 2

BỘ GIÁO DUC VA DAO TAO

ĐẠI HỌC ĐÀ NẴNG

NGUYÊN NHO TÚY

NGHIÊN CỨU NGỮ NGHĨA VẢ HIỆN TƯỢNG NHẬP NHẰNG

TRONG TIENG VIET, TIEP CAN XU LY VAN DE VIET TAT TIENG VIET

Chuyên ngành : KHOA HỌC MÁY TÍNH

LUẬN ÁN TIẾN SĨ KỸ THUẬT

Người hướng dẫn khoa học

PGS.TS PHAk HUY KHÁNH

Dà Nẵng, năm 2020

Trang 3

LOI CAM DOAN Tôi cam đoan đây là công trình nghiên cứu cũu lôi, dưới sự luưởng dẫn trục tiếp

của PGS, 15 Phan Huy Khánh,

bọc Đà Nẵng

n là cân bộ giảng dạy tại Đại học Bách Khoa, Đại

Tôi cam đoan các kết quả được trình bây trong luận án là trưng thực,

không sao chép từ bÃI kỳ luận án hay nguồn tài liệu nào khác và chưa từng được ai công,

bồ trang bắt kỳ công trình nào khác Mọi trích dẫn tài liệu tham kháo đều có ghỉ nguồn

Trang 4

3 PHƯƠNG PHÁP NGHIÊN CỨU

4 BOCUC CUA LUAN AN

5 BONG GOP CUA LUAN AN

CHUONG 1 VAN DE CHU VIET TAT TIENG VIET

iGON NGU VA XU LY NGON NGU TỰ NHIÊN

1.1.1 Ngôn ngữ và xứ lÈ ngôn ngi

“Âm, chữ viết và vấn dễ tải tiền chữ viết

Các loại hình ngôn ngấ:

1.1.4 Xứ lj ngôn ngữ tự nhĩê

41.1.5 Van dé sie lp tiéng Liệt

1.2 NGỮ NGHIA VA NHAP NHANG NGU NGHIA THING VLET

Trang 5

2.1.2 Dae điểm hình thành chữ viết tả ệ

2.1.3 Quy tắc hình thành chữ viết tat tiéng Vie

3.1.4 Những yẫu tổ khác ảnh hướng đến thành lập chữ viết tắt

Đặc điểm một hệ xinh thái phần môm:

3.3.4 Lợi ich ứng dụng hệ sinh thai phan mém

2.3 HE THONG KHAI THAC CHU VIET TAT TIENG VIỆT (AMES) 5E

3.4.1 Xây dung nguồn tài nguyên chữ viết tắt trồng Việt

3.4.2 Xây dựng công cụ khai thác chữ viết tắt

3.4.3 Xây dung giải pháp xử lý nhập nhằng chữ viết tắt

2.5 TÓM TẤT CHƯƠNG 2

CHƯƠNG 3 XÂY DUNG NGUON TAI NGUYEN CHU VIET TAT

3.1 XÂY DỰNG CO 86 DU LIEV CHT VIET TAT

3.2 GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TÁT

3.2.1 Thu thập dữ liệu thủ công

3.2.2 Thu thập dữ liệu tự dộng

Trang 6

v

Dé xudt thudt toan SENVA tim kiểm chữ viết tắt mới

hực nghiệm cải dặt thuật toán SENVA

3.3.1 Sứ dụng chữ viết tất trong CSDI, chuyên ngành

3.3.2 Ứng dụng chữ viết tắt trong xây dựng CSDL đanh mục

3.3.3 Đề xuất xữ dụng C¥T trong bộ mã danh mục quốc gia

3.4 DANH GIA KET QUA

1 Két qua xdy dung kho ngit liéu chit viét tat

“Kết quả ứng dụng khai thác dữ liệu chữ vì

3.5 TÔM TÁT CHƯƠNG 3

CHƯƠNG 4 XÂY DỰNG CÔNG CỤ KHÁI THÁC CHỮ VIÉT TAT

4.1 XÂY DỰNG THU VIEN CHU VIET TAT

4.2 CÔNG CU TU VAN CHU VIET TAT THƯƠNG HIỆU

4.2.1 Tin nhắn thương hiệu là gì

4.2.2 Các bước xây dựng công cụ tư

4.2.3 Thuật toán CSBCOM đặt tên tin nhắn thương hiệu

4.2.4 Cài dặt chương trình, kết quả thứ nghiệm

43 XAY DUNG TU DIEN CHU VIET TAT TREN MAY DIDO?

4.3.1 Thiết kế cơ sử đữ liệu và chức năng chương trình

4.3.3 Để xuất thuật toán SÁOM-F'TS xây dựng từ điễn

4.3.4 Cài đặt và kết quả thực nghiệm

4.4, DANH GIA KET QUA

4.4.1 Đánh gia két qua the nghiém AMES

4.4.2 Đánh giá AMES die ta theo mé hinh UML

4.5 TOM TAT CHUONG 4

Trang 7

3.3.3 Thuật toán nhận điện và

5.3.4 Kết hợp cơ sở luật nhận diện CVE với xử nhập nhằng

3.4.1 Tần số chữ việt tắt

5.4.2

Xay dung khai nigm

hấp đánh giả tân số, tắn suất chữ viết rải

3.4.4 Xây đựng thuật loán AFUAI và triển khai th

3.4.5 Kết quả thực nghiệm và đánh giá

5.4.6 Ung dụng kết quả xử lý nhập nhằng chữ viết tắt

5.5 TOM TAT CHƯƠNG 5

KET LUAN VA HUGNG PHAT TRIEN

17 -179

PHU LEC

Trang 8

vi

DANH MUC CAC CHU VIET TAT

TIENG VIET

10 | ĐHQG Đại học quốc gia

ll | GD-DT Giáo dục và đảo tạo

29 | VH-TT Vain hoa théng tin

30 | VI-CNIT 'Viễn thông - Công nghệ thông tin

Trang 9

1 API Application Programming | Lập trinh giao dién mg

2 AMES Abbreviations Management | Hệ thông khmi tháo Chữ

Assessment frequency Giủ nhận tần số chữ viết

3 AFVAI Vietnamese abbreviations on | t&t trên Internet

Pubhe Switched Telephone | Mang dién thoại chuyên

Network mach céng céng

9 SEXVA Search Engines New May tìm kiêm chữ: viet

Vietnamese Abbreviations _| t&t moi tiéng Viét

10 | SMS Short Message Services Dịch vụ 6n nhân ngắn

Search on mobile TH biện chữ giết th

11 | SAOM-FTS | abbreviations-used Full Text | Lm kiểm chữ việt tắt : trên máy di động

Search

Ngôn naữ mô hình hỏa

12 |UML Unified Modeling Language | nối nhất

13 |VNPT VietNam Posts And Tập đoàn Bưu chỉnh

: Telecomnnumications Group _| Viễn thông Việt Nam

14 | west Weighted Finite State Chuyên dõi trang thai

Transducer trọng số hữu hạn:

Trang 10

DANH MUC HiNH ANH

3 |Hinh1.3 Tắthóa trong chữviết đântộc Ít người 30

4 |Hinb2.1 Môhinhhình thành chữ viết tắt tiếng Việt 35

5 |Hinh2.2 Mỏ binh sơ đổi khỏi bình thành chữ viết tắt tiếng Việt — 36

6 |Hinh2.3 - Ví dụ Hệ sinh thái phần mềm Microsof 45

2 |Hingz4- Sử đông UML mô hình hóa sơ đổ hệ sinh thái phần — „

mềm

8 |Hinh2.$ Mô hình hệ thống khai thác chữ việt tắt tiếng Việt 50

9 |Hmhag Môhình LMI hệ thdng Kia Hide obit vidi it emg)

Việt

10 ÍHinh31 Mô in quan hệ đỡ liệu kho ngữ liệu chữ viết tối đỗng 5

11 | Hinh3.2 Quan hệ giữa các CSDL chữ viết tắt %6

13 |Hinh4.1 M6 hinh hoat déng ctia website tra cứu chữ viết tắt 74

14 |Hinh4.2 Trang chủ wcbsite thư viên chữ viết tắt 75

16 |Hiuh4.4 Cay phan tich chudr va gia tri trọng số 8

17 |Hinh 4.5 Mỏ hùnh đồng bộ dỡ liệu về máy di động, 84

18 | Hinh4.6 - Tiếp cận nghiên cứu hình thành AMES 88

20 | Uinh 5.1 Mỏ bình nhận điện CVT trong văn bản 95

Trang 11

Chế hoại động của máy suy diễn nhận điện chữ viết

22 |Hinh 5.3 Méhinh két hep xit ly nhap uhing CVT trong vin ban l07

3 | Binh 54 ae qua ae hiện chương trình cập nhật tân số si 1),

24, | Hinh 3.5 Biển để tần suất CVT là thương hiệu đi động trên Tntcrnct 116

Trang 12

DANH MỤC BẢNG BIÉU

4 | Bang 3.4 CSDL Danh mục hình thức thanh toán 66

6 | Bang 3.6 CSDL danh mue quéc gia chuyên ngành 6g

7 | Bang 3.7 Bảng thống kê sử dụng chữ viết tất 70

8 |Hảng38 Thống kế số liệu sử dụng giải pháp CVT 7

11 | Bảng 43 Kết quả tạo chữ viết tát Brandhamo 82

12 |Băng44 TÊN nhận ` vấn Brandname và sự lựa chọn của

13 |Bang 4.5 Kết quả so sánh các tác nhân AMBS và SECO 90

14 | Bảng 5.1 Bang thống kế sử dụng chữ viết tắt (mẫu gửi đủ) 92

16 | Bing 53 Tinh toan tân suất xuất luện CVT trong một phạm ví | rạn

7 Bảng 5.4 Bàng câu tính loàn Lm số sử dụng, lan sual 114

18 | Bảng 5.5 Tương quan tân suất CVT va thi phan dich vụ 115

Trang 13

MO DAU

1 BAT VAN DE

Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử đụng chữ viết tắt (CVT)

chỉ với mong muốn rút gọn thời giam, công sức Câu chuyện “Người ăn cắp cửu” [79] (phụ lục 1) cho thấy CVT là trội vẫn để tuy không lớn, không hẳn là mới mẽ nhưng,

cỏ lẽ ai cũng gặp phải khi đọc hiểu một van ban, vi du chữ viết tắt ST! ! trong câu

kha ¢ than về trình độ, độ tuổi, sự trai nghiém, tinh vue hay chuyén ngành Hơn nữa,

thời gian, trí nhớ và quan niệm của con người đã làm nhằm lẫn, làm phát sinh thêm ý nghĩa mới CV'T như chữ SL' nói trên Thực tế cuộc sống và giao tiếp lkm nảy sinh tim

hiểu ý nghĩa CVT là gì Đây không phải là van dé dé dang đổi với tắt cả mợi người

Khi đọc mệt văn bản, hằu hết người đọc đêu phải đừng lại chốc lát để hiểu được CVT

ấy là gì Thậm chí có khi người đọc phải mắt vài phút tim hiểu và tra cửu rà vẫn

chưa hiểu được dây dã CVT Vì và

nhiều tỉnh luồng, không chí tỉnh hưồng trong sử dụng ngôn ngữ tự nhién (giao tiếp, dặt

tên, nhắn tỉn, Email ), mà còn trong các lĩnh vực nghiên cứu khoa học, nhận dang

chữ viết hình ảnh, địch thuật

Treng ngôn ngữ tr nhiên (NNTN), xu hướng thế hiện văn bản, lời nói ngắn

; vẫn dẻ phân giải ý ngÌữa CVT là cần thiết trong,

gon, đơn giản, nhưng chuyển tải lượng thông tin lớn mà viết tắt trở thành một hiện tượng phố biển trong nhiều thử tiếng khác trên thể giới Viết tắt, nói tắt dược sứ dụng,

rộng rãi trong nhiều lĩnh vực, nhiêu chuyên ngành, từ các nhà sẵn xuất, các nhà xuất

+ ST: Người ăn cấp cửu (Shcep Theft) hay ST: Thánh thiện (Saint)

Trang 14

La

bản, đến các nhà quản lỷ, sử dụng, nghiên cứu, giảng dạy Người dùng có nhu cầu

su dung CVT dễ gìú nhận, chuyển tái lượng thông tin lớn, đôi khi chứa dựng những,

tí ấn bắt ngờ trang đó Trên văn đàn Việt Nam, chữ viết tắt TTKI], tác giả bài thư

«Hai sắc hoa tỉ gồn»2 vẫn cón là điên bì ân và gây nhiễu tranh luận cho đến nay Vậy

xiên việc sử đụng, lưu trữ, xử lý CVT trong bối cảnh chuyên ngành khoa học công, nghệ thông tin (CNTT), lĩnh vực liên quan dến sử tương tác giữa máy và NNTN

không thể không quan tam dén van dé CVT

Khoa học chuyên ngành CNTT đã định hình lĩnh vực liên quan đến sự tương táo giữa máy và NNTN là lĩnh vục xử lý ngôn ngữt tự nhiên (XLNNTN) Mục tiêu của lĩnh vực này là giúp cáu chương trình trong muy tính hiểu được NNTN Một

hé thống XUNXTN có thể bắt dầu ở mức từ để xác định câu trúc hình thái, bản chất của từ (vi dụ như gán nhãn tử loại, ngữ nghĩa) , sau đỏ có thể chuyển sang mức câu

đã xác định trật tự từ, ngữ pháp, nghĩa của toàn bộ câu, tiếp theo lả mức ngữ cảnh vả

theo tùng chuyên ngành [7][52][56]

ác công Irình nghiên cứu về XI.MNTN trên thể giới ra đời rất sớin, từ những,

xăm 1940 |52J, theo Hai hướng sơ bản: Hướng nghiên củu đầu liên vào giai doạn năm 1940-1950 là mê hình các máy tự động và các mỏ hình xác suất, hướng nghiên cửu tiếp theo với các giai đoạn năm 1957-1970, XLNNTN tập trung nghiên cứu theo lý

thuyết ngồn ngữ hình thức của Chomsky vả trí tuệ nhân tạo cho tiếng nói như các phương pháp Bayes [56] Tiếp đến, giai đoạm 1970-1963 phát triển mạnh mẽ các

ind bin nghiên cửu về XINNTN: giai đoạn 1983-1993, nghiên cứu lập rung trở lại

1nô hình ưạng thải hữu hạn, các phương pháp xác suất và hưởng tiếp cận dựa trên các

dữ liệu lời nói trong phân tích cú pháp, gắn nhãn từ loại và xử lý nhập nhằng ngữ nghĩa [S2] Giai đoạn từ năm 1994 đẻn nay, chuyên ngành XLNNTN đã có những

thay đối và bước phát triển mới Nhiều thuật toán phân tích cá pháp, gán nhấn từ loại,

truy xuất thông tin cũng đã được nghiên cứu và áp dụng như Nhận dạng tiếng nói,

kiểm tra chính (4, kiểm tra ngữ pháp, công cự truy xuất và trích chợn thông tin trên web [52] Giai đoạn này ghi nhận sự phát triển các nghiên cửu phương pháp dich may thống kê, chẳng hạn như Google [62], [63] cũng đã ứng đựng trong hệ dịch tự động

từ răm 2007

1 Tiêu thuyết thứ bảy - năm 1939

Trang 15

Trong tiếng Ảnh, có nhiều công trùnh nghiên cứu giải quyết nhập nhằng ngữ nghĩa dã dược thực hiện với hai hưởng tiếp cận cơ bản”: Giải quyết nhập nhằng dựa

trên thông tin trong một ngữ cảnh cụ thể và dựa trên những thông tỉn thu được trong,

việc học từ vải tập ngữ liệu học [53][67] Sau đỏ cèn có nhiễu công trình đứng kết

hop cả hai phương pháp này [68], sử dựng các mô hình thống kẻ các loại đồng nghĩa

dễ xác định nghĩa của các từ tiếng Anh dẻ khử nhập nhằng Có nhiều công trình nghiên cửu chuyên sâu CVT trong y học như [71][72][73][68], giải quyết vẫn để nhận dạng, khử nhập nhằng CVT trong văn bản tóm tắt y học về bệnh nhân, về hệ thông

NLP chuyên ngành y học, giúp đua ra quyết định, tạo điều kiện chăm sóc bệnh nhàn

tất hơn Cô nghiên cứu ỞVT trong ngôn nựữ tiếng Trung, tiếng Do Thái rửa [69||57 |,

nghiên cửu nhận điện CVT đựa vào thông tin ngữ cảnh văn bản, sử dụng phương,

pháp máy học để nhận đạng CVT bởi thuộc tính nhất quản trong văn bản

‘Van đề xử lý tiếng Viet (MLTV) đã được triển khai nghiên cứu từ năm 1990,

đã có nhiêu công trình đưc công bỏ [9][25]{S6] Về nghiên cứu nhập nhằng, xử lý

nhập nhằng Hong tiếng Việt, gần đây có gá

công trình nghiên cứu khử nhập nhằng

trong một vải lĩnh vực: Xử lý nhập nhằng tiếng Việt và ứng dụng trong Ira cứu tôi liêu phục vụ giảng day và học tập |42]; xử lý nhập nhằng trong tìm kiểm văn bản tiếng Việt học từ vải tập ngữ liệu; khả năng khắc phục trong soạn thảo văn bản [43],

nghiên cứu 4

[3] Về CVT tiếng việt, đã có một số công trinh nghiên cửa

liệu (CSDI) CVT và ứng đụng trong một chuyên ngành: [26]|29] để cập đến hiện

tượng nói tắt và việt tắt trong tiếng Việt, |39| biể

CVT dùng tiếp cận học máy, [40] thực hiện chuẩn hóa văn bản tiếng Việt dựa trên bộ

quy tắc, [66] thể hiện bối cảnh trong mở rông viết tắt bằng cách sử dụng phương pháp đọc máy Một số từ điển CVT téng Việt Không dụng, thường dùng trong chuyên ngành (y học, viễn thông, ), Hếng nước ngoài đã được xuất bản như

I8II18JI19JI35JI36]: ác xuất bãn này đã chọn lọc và giới thiệu các CVT một số

chuyên ngành, chưa quan tâm đến sự hình thành, sự biến đổi và ứng dụng CVT, nhất

Trang 16

la van dễ nhập nhằng ngữ nghĩa CVT Nhìn chung, déu nay chưa có công trình nào nghiên cửu một cách hệ thông và dày dủ về CVT tiếng Việt

Trong bẻi cảnh chung của việc XLNNTN vả XLTV, trên cơ sở tìm hiểu lý

Thuyết về ngắn ngữ học và thực trạng sử dụng CVT trong thực tiễn, ta nhận thay ring

'NNTN luôn biến dối và phát triển không ngừng: trong đó sự hình thành CVT dược xem như là phương thức hình thành nên từ ngữ mới, với những biến dỗi ngữ nghĩa CVT da dang Do dé, dé gop phân giải quyết các bài toán trong XLTV, dễ tài này đặt vẫn để cần thiết phải nghiên cứu: tiếp cận vấn đẻ ngũ nghĩa, nhập nhằng ngữ

nghĩa, xử lý, nhận dạng CVT, hướng đến xây đựng môi trường khai thác kha dung,

phat triển ŒVT bởi nó liên tục biến tấu, tay đối và luôn có nhú cầu sử dịng trong

thực tiễn

Câu chuyện Người ăn cắp cửu |79| cho ta thấy sự biển dối ngữ nghĩa của chữ viết tắt ST qua thời gian, không gian và ngữ cảnh điễn tả theo ý nghĩ, nhận định của

cơn người Việc XLLTV trong văn bản chắc chắn gặp phải vấn đề nhận nhằng ngĩt

1ụchữa CVT Xuất phát từ tình hình thực liễn và nhu câu riêu trên, dựa vào ý tưởng hệ

sinh thái phần mềm (Sofisvare Eoosysytems) |64]|65|L77I tác giả nhận thấy cần nó nghiên cứu tạo lập hệ thống khai thác, sử dụng CVT ngày cảng thuận tiện cho người

dùng, có tỉnh gợi mở, hợp tác trao đổi các vấn đề đã và đang nghiên cửu, cùng tạo ra môi trường học tập và trao đổi thông tin các vẫn đề liên quan đến CVT, góp phần nhỏ

trong nghiên cứu XT/TV Đề lài gũa luận án được chọn: “NghiÊn cứu ngữ nghĩa và

hiện tượng nhận nhằng trong tiếng Việt, tiếp cận xứ lý vấn đề viết tái tiếng

triển khai thực hiện theo 3 nội dụng nghiên cứu:

1) Ngữ nghĩa vá vẫn dé nhập nhằng ngữ nghĩa trong tiếng Việt, tiếp cận vấn

đề chữ viết tắt tiếng Việt, 2) Tiếp cận xử lý chữ viết tắt tiếng Việt

3) Xây dựng mỏi trường khai thác chữ viết tắt tiếng Việt

Nội dung thử 1 vả thử 2 đã tập trung nghiên cửu các vận dé cơ sở khoa học

về ngôn ngữ học, ngữ nghĩa học, xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt, ngữ nghĩa,

biển đổi ngữ nghĩa, hiện tượng nhập nhằng trong tiếng Việt

Nôi đung thứ 3 nghiên cửu xây dụng hệ thông khai thác CVT, để xuất thuật toán xây dựng công cu tu van đặt tên CVT sử dụng trong tin nhắn thương hiệu cho

Trang 17

doanh nghiệp Xây dựng phương pháp đánh giá tần số, tân suất CVT trên mang Internet, cải dặt thuật toán ghi nhận tân số CVT trên mạng, Để xuất giải pháp xử lý

nhập nhằng C'VT trong vần bản bằng cách xây đựng cơ sở luật nhận điện CVT, kết hợp với cáo CSDT CVT, thông kê tân số, tàn suất sử dụng để có một mô hình xử lý

thập nhằng ŒVT trong vin ban

2 MỤC TIỂU, DỎI TƯỢNG VÀ PHẠM VI NGHIÊN CCU

3.1 Mục tiêu

Mục tiêu nghiên cửu của để tài bao gồm những nội dung chính:

Sau khi tìm hiểu tiếng Việt về phương diện ngôn ngữ học, luận án nghiên cứu

hiện tượng nhập nhằng và xử lý nhập nhằng tiếng Việt nói chung, CVT tiếng Việt nói riêng, nghiên cứu CVT và nhu cầu sử dựng trong thực tế ở tất cả các lịnh vục, chuyên ngành Từ đó, hiếu được trí thức về CVT, triển khai thực hiện nghiên cứu đạt được 4

mục tiêu chính:

1) Nghiên cứu, phát

tri thức và xây dựng kho ngữ liệu CVT

2) Tổng kết các quy lắc hình thành CVT, xây đựng hệ thống khai thác CVT 3) Bé xuất chuân hóa CVT và triển khai giải pháp xử lý nhập nhang CVT

4) Xây đựng công cụ, ứng dụng và khai thác CVT,

Kết quả nghiên cứu định hướng đến công bố khoa học rộng rõi nhằm góp phan nhỏ giải quyết nhập nhãng, CVT, giúp cho việc sử dụng CVT một cách nhật quản, dị đến chuẩn hoá hệ thống CVT, từng bước làm giàu hệ thống từ vựng, gớp phân phát triển ngôn ngữ liễng Việt

2.2 Đối tượng

TẺ tài nghiên cứu về bản chất ngôn ngữ tự nhiên nói chưng, ngữ pháp tiếng

Việt, các phương phép, kỹ thuật và công cu XLNNTN, XLTV, trong đó có phương,

nyên gia lin học; nghiên cứu CVT trong vn bin, sich, bio, website

CVT trong NNTN ê tật cả các lĩnh vục đời sống xã hội Tiếp cận từng bước, khỏi

Trang 18

dâu từ vấn đẻ lỷ thuyết và thực tế sử dụng CVT dễ dần đâu di dến vấn để chuyên sâu

và thu hẹp hơn trong lĩnh vục khai thác, xử lý vả sứ dụng CVT trong chuyên ngành viễn thông, CNTT

2.3 Pham vi

Về lĩnh vực nghiên cứu lj thuyết, luận ám nghiên cứu XUNNTN, XLTV, chủ yếu xi ly vin ban, hiện tượng nhập nhằng, vẫn để ngừ nghĩa, công cụ XLNNTN,

XLIV

Về lĩnh vục nghiên cứu sử dụng CET, đề tài không han ché pham vi, trong

mọi lĩnh vực đời sống xã hội Tuy nhiên, để 1ai lập trưng vào lĩnh vực khoa học, công, nghệ và kỹ thuật, cỏ tham khảo CVT tiếng Anh và một số ngôn ngữ khác

PF môi trường phái triển ứng dụng, chủ yêu là xây đựng kha ngữ liệu, xây

dựng công cụ, ứng dụng, hình thành môi trường khai thắc, nghiên cứu CVT, cài đặt

thử nghiệm trong, chuyên ngành và dưa vảo khai thác trực tuyến Pham vi giới hạn ting dụng xử lý nhập nhằng CVT trong lĩnh vực viễn thông, CNTT

3 PHƯƠNG PHÁP NGIHÊN CỨU

Các phương pháp nghiên cúu cơ bản dược sử dụng trong luận án gồm

ba phương pháp: Khảo sát thực tế, nghiền cửu lý thuyết và nghiên cứu thực nghiệm

Khảo sát thực tố: Khảo sát vẫn dé sir dung CVT trang van bản, Internet, quy

dịnh ngữ pháp, thực tiễn, chuyên ngành viễn thông ; kết hợp phương pháp phỏng, vấn trực tiếp một số chuyên gia, từ đỏ so sánh, đối chiếu, kiểm chứng lại những thông,

tìn CVT đã tìm thập được

Nghiên cứu lý thuyết: Nghiên cứu trên các tài liều liền quan đến lý thuyết ngôn ngữ học, XLNNTN, phương pháp tách từ, xây đựng từ điển, kỹ thuật xây dựng máy

tim kiếm Nghiên cứu lý thuyết xây đựng vị tủ, bàm, cơ sở luật và máy suy diễn; vận

dụng lý thuyết Công nghệ phần mêm, CSDI, vào thực nghiêm

Nghiên cứu thực nghiệm: Tìm hiểu cáo kỹ thuật tìm kiểm, xây dụng thuật toán

và các bộ công cụ dựa trên giải pháp đã được đề xuấi Dữ liệu đầu vào củ

tác công

sụ là đữ liệu dược dùng trong thực tiễn, từ nguồn tài nguyên xây dựng,

Trang 19

x

Ngoài ra, còn có sự kết hợp phương pháp thảo luân, trao đổi các nhà nghiên cửu thông qua các hội thảo; từ đỏ, lựa chọn phương hướng tối tu giải quyết vẫn đề, đồng thời có kiểm nghiệm, thữ nghiệm và đánh giá kết quả khách quan hon

4 BO CUC CUA LUAN AN

Sau phân mở dầu giới thiệu mục dich triển khai dễ tải, nội dung chính gồm 5 chương, phần kết luận và phần phụ lục Cụ thể như sau:

Chương 1 nghiên cứu tổng quan, những nhân tổ lảm cho ngôn ngữ biển đổi và phát triển: nêu lên những vẫn để về XLNNTN đặt trong bối cảnh chung để tiệp cận vẫn đề ngữ nglfũa và nhập nhằng ngữ nghữa Tìm hiểu sự biến đổi phải triển ngôn ngĩt tiếng Việt: sự biển déi tir vung và sự biến dội ngữ nghĩa Đây là cơ sỡ lý luận của ngôn ngữ học để luận án tiếp cận nghiên cửu vấn để CV tiếng Việt Từ đó phân tích các hạn chế, phát hiện đặt vẫn để cần nghiên cửu

Chương 2 tiếp cận nghiên cửu vẫn đề hình thành CVT tiếng Việt bảng cách tìm hiểu CVT trong cuộc sống với lịch sử hình thành, nhú cầu sử dụng Thông qua việc mỏ hình hỏa sự hình thành, xem xét kỹ nguồn gúc tạo nên CVT, xây đựng các gợy tắc hình thành CET; tìm biểu các yêu tố ãnh hướng dến hình thành CV T, so sánh với những quy định ngữ pháp tiếng Việt về sử dụng CVT, làm rõ đấu hiệu nhận biết CVT trong văn bản Nội dung chương 2 là kết quả nghiên cứu đây đủ vấn để CVT tiéng Việt, trong tâm là để xuất xây dựng hệ thông khai thác CVT tiếng Viét (AMES)

Đó là một trường khai thác CVT tiếng Việt dựa trên ÿ tưởng hé sinh thai phan mém, dược triển khøi thực nghiệm dễ tạo lập kết nối giữa các tác nhân NSD, chuyên gia nghiên cửu, doanh nghiệp, lập trình viên, nhả cung cấp bạ tằng với nhau

Chương 3 nghiên cứu xây đựng nguồn tải nguyên CVT tiếng Việt, bao gdm:

xây dựng CSDL, để xuất phương pháp thu thập dữ liệu, để xuất và thực nghiệm thuật toán thmn kiểm ŒVT mới trên mạng Iaternct và cập nhật vẻ CSDL Để xuất một vai

ủng đụng khai thác nguồn tải nguyên CVI, dic biét là img dung sit dung CVT trong,

CSDL, dé xudt van dé str dung CVT trong viée ban hanh bé ma danh mục chuyên

ngành, ban hành bộ mã đanh mục quốc gia Đây là một trang những yêu câu cần thiệt

dé tạo điều kiện chia xé, trao đối đữ liệu với nhau

Chương 4 trình bày kết quả xây dựng một số công cụ khai thác CVT tiếng

Việt từng bước thực nghiệm hình thành một hệ thống khai thác CVT tiếng Việt dựa

Trang 20

trên ý tưởng hệ sinh thải phần mềm WZebsửe tra thư viện viết tlÊ và Chương trình từ diễn trên máy di động” là hai công cụ phục vụ khai thác nguồn đữ liệu CVT, dang bộ

đữ liệu với nhau Tử điển trên máy di động cô sự tùy biên cá nhân khi sử dụng CVT trên máy đi động như thống kẽ, tần suất sử dụng cá nhân Chương 4 còn xây đựng,

công cụ tư vấn đặt tên thương hiệu Brandrurne cho doanh rughiệp, thực nghiệm triển

khai áp dụng vào thực tiền địch vụ chuyên ngành viễn

Chương 5 tập trung phân tích và dễ xuất giải quyết vẫn dễ xử lý nhập nhằng,

CVT Phân tích ngữ cảnh văn bản, nhận điện tỉnh huồng sử dựng CVT trong van ban,

đưa giải pháp xủ lý nhập nhằng CVT trong văn bản chuyên ngành Xây dựng vị từ và

ham nhận điện CVT trong văn bên, tù đỏ để xuất xây dựng cơ số luật, thuật toán nhận

diện và xử lý nhập nhằng CVT, dễ xuất xây dựng máy suy diễn nhận điện CVT trong

văn bân, giới hạn trong lĩnh vực chuyên ngành viễn thông, Chương 5 còn nêu lên

hướng tiếp cận xử lý nhập nhằng CVT đựa vào chỉ số tần suất xuất hiện CVT; xây

đựng tmật toán và thực nghiệm đánh giá tần số, tấn suất CVT trên mạng Internet va đứa ra nuốt vải ứng dựng thực tiền

Phân kết luận trinh bảy tôm tắt nội đụng và kết quả luận án đạt được Phần pha

lục trình bảy bổ sung các giãi thích, hình ảnh, bảng biểu, thuật toán, mãi lệnh

5 DONG GOP CUA LUAN AN

Luan án đã có những đóng góp khoa học và ứng dựng thục tiễn như sau

1 Phải hiện và xây dựng kho ngữ liệu chữ viết lẮt

Kho ngữ liệu được cập nhật từ nhiều nguễn dữ liệu khác nhau theo sự biến

Trang 21

hình thành CVT, xem xét kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp đẻ xây dựng và đã công bổ 9 quy tắc hinh thanh CV trong bai bao sé [8]

Luận án đã để xuất AMIBS, mô hình hóa hệ thông khai thác CVT Dây là môi

trường khai thác CVT tiếng Việt dựa trên ý tưởng hệ sinh thái nhân mềm, có tính én định, tỉnh mô, tỉnh kế thừa; được triển khơi thử nghiệm dễ tạo lập kết nói giữa các dối tượng KSD, chuyên gia nghiên cứu, doanh nghiệp, lập trình viên, nhà cưng, cấp hạ

tang với nhau

3 Góp phần xứ lý nhập nhằng chữ viễt tắt

Tận án xây đựng 27 vị từ điều khiến, nhận điện CVT trong văn bản: xây đựng,

12 hàm xử lý chuỗi, lập 12 huật làm cơ sở xây đựng máy suy diễn thận điện CVT và

triển khai thử nghiêm trong chuyên ngành viễn thông,

Luận án đã đẻ xuất giải pháp xây dựng công cụ thống kẻ tân số, tân suất CVT tiếng Việt nhằm góp phản giúp nhà nghiên cứu quan sát, lưu trữ, thống kê và phần

tích các hiện tượng phát triển ngôn ngữ tiếng Việt nói chung và ŒVT nói riêng qua

Taiận án đã xảy đựng được hai hệ thông từ điển: Website thư viện CVT 7 và

Từ điển CVT trên máy đi động TTai hệ thống này có sự đồng bộ dữ liệu với nhau đâm bão thống nhất chưng nguồn đữ liệu Tuy nhiên có sự túy biển cá nhân khi sử

dung CVT trén may đà động như thông kê, tần suất sử đựng cá nhân,

Xây dựng dược ứng dụng xuáy thu kiếm CVT ruới, xây dựng công cụ quảng

bá thương hiệu Irandname cho doanh nghiệp, công cụ tư vấn đặt tén Brandname cho

doanh nghiệp (tránh trùng lặp, nhập nhằng), từ điển CVT trên máy di động cho NSD Các ứng dụng trên là những thành phản trong hệ thống AMBS Xây dụng và

triển khăm thực nghiệm 4 thuật toán: Thuật toán SENVA - cập nhật tự động CVT mới

từ Trfemet, thuột toán SAOM-FTS - từ điển CVT trên đị động, thuật loán CSBCOM

- tư vẫn thương hiệu, thuật toàn AI'VAI - danh gid tin sé CV'L

7 http:/Awww.choviettat.com

5 ABC Acronym Dictionary

Trang 22

10

Xây dựng công cụ thông kê CVT va dễ xuất chuẩn hóa, sử đụng CVT ở phạm

vị chuyên ngành VT-CK'TT: Xây dựng khải niệm tân số, tân suất CVT trên luternet,

giải pháp và xây đụng thục nghiệm công cụ thông kê CVT tiếng Việt, lâm eơ số đánh

giả, lượng hóa chỉ số sử đụng, sư phát triển ŒVT trong thực tiễn

Tuiận ẩm cũng đãi để xuất chuẩn hóa, sử đụng ƠVT ố phạm vĩ quốc gia: Cân thiết phải xây dung và ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử dụng CVT có tỉnh gợi nhớ, dễ sử dụng, tạo diều kiện trao dôi chia xẻ thông thì CSD1, quốc gia để đàng và đồng hộ

Đóng góp của luận án như là gạch nổi nhỏ giữa lý thuyết ngôn ngữ học với

thực tiễn sử dụng CVT và với ngánh XLNNIN trong CNTI, góp phần củng giải

quyết vẫn để CVT tiếng Việt được nhiên người quan tâm

Trang 23

11

CHƯƠNG 1

VAN DE CIIU VIET TAT TIENG VIET

Chương này wink bay những nghiên cửu tổng quan mội số vẫn đễ cơ bản

ngôn ngữ và xử lý ngôn ngữ tự nhiên, các phương pháp tiếp cân và nhữơng định hướng

xử lỷ ngôn ngữ, từ đỏ xúc định các vẫn đề nên tảng nghiên cửa của luận án

Mỗi dàng chương 1 còn đề cập đến vẫn dé CVI tiếng Việt trong cuộc sống

với lịch sử hình thành ở một số ngôn ngữ, đề suất khải niêm ngữ nghĩa, sự biển đổi

ngữ nghĩa, nhận nhằng, xử lê nhập nhằng CWT Từ đo, tiến cận khảo sắt thực tiễn

sit dụng CET, mô hình hỏa sự hình thành CVT nồng Việt

N NGỮ VẢ XỨ LÝ NGÔN NGỊ

Nội dung luận án thuộc lĩnh vục XLNNTN, nghiên cứu hiện tượng nhập nhằng

Ấn để CVT tiếng Việt Trước khi đi sâu vào những vẫn dễ cốt lõi, luận án tìm hiểu một số khái niệm như ngôn ngữ, hệ viết, ngôn

trong xử lý tiếng Việt, tiếp cân xử lý

Theo [4][28], ngôn ngữ đã có từ rất lâu, vào nửa cuối thể kỉ thứ TV trước Công,

nguyên ải liệu ngôn ngữ cổ xưa nhất tìm thấy ở Ấn Độ, Hi Lạp và Ảrập,

Ngân ngữ là một hệ thẳng tín biệu đặc bìi

Tin hiệu ]à tuột đổi tượng, vật

chất kích thích vào giác quan, con người nhận thức được đối tượng đó Tin hiệu ngôn

ngữ là các hình vị và các fừ Hình vị và từ dược coi là tín hiệu vì chúng là một thê

thống nhất hai mặt âm thanh (cái biếu hiện) và ý nghĩa (cái được biển hiện) [17][31]

Mỗi ngôn ngữ là hệ thống nhiều cấp độ, nhiều yếu tố đồng loại, không đồng

loni với số lượng không xác định, tín hiệu ngôn ngữ có tính da trị, có màu sẮc Là từ ~

diễn cảm, có tính độc lập tương đổi, có giá trị đồng đại, lịch đại [28][31] Ngôn ngữ

là hệ thống tin hiệu tổng hợp được người băn ngữ chấp nhận, ghi nhớ, sử dụng giao

tiếp với cộng đồng xã hội”

Ê Theo "Lỡi nói dan", Giáo trình Ngón ngữ học đại cương (bán dịch của Cao Xuân Hạo) NXE Khoa học Xã

hội, 2005, đăng trên website http: /ngonngu net’

Trang 24

Chức năng của ngôn ngữ: Ngôn ngữ có chức năng là phương tiện giao tiếp

quan trong nhất cửa con người (nhưng không phải là duy nhất), là phương tiện, công,

cụ của tư duy, trực tiếp tham gia vảo quá trình hình thành, phát triển bư hướng

Nguân gỖc và sự phát triển của ngôn ngặ: Theo [28], có nhiều quan niềm và

khưynh hướng khác nhau về nguồn gốc ngôn ngữ học xã hội Hiện nay có trên S00

thuyết nguồn gốc ngôn ngữ như: †uyết teong thanh, Thuyết Hồng kêu trong lao động, Ngôn ngũ học Mác-xiL cho rằng nguồn gốc ngôn ngữ bắt nguồn Lừ lao động,

1.1.2 Am, chữ vị lên chữ viết

và vẫn dé cai Khái niệm chữ viết: Theo [30], ầm thanh hay lời nói là cải vô vật chất của ngôn ngữ vẫn có những han chế nhất định, có giới bạn, không thể truyền đạt rộng rai và

chính xác, lưu giữ làu dải Nó bị hạn chế về khoảng cách và thời gian |901 Khắc phục

hạn chế đó son người tìm cách xây dung chit vit Chit vidi là ki tự ghi lại ngôn ngữ, chữ viết là hệ thống tin hiệu của tín hiệu [30]

Sự khác biệt giữa âm và Chữ viết có sau và phụ thuộc vào âm thanh

ngân ngữ [30] Chữ viết có tính én định và bên vững Chữ viết biểu thị ngữ âm, có

thể chỉnh xác hoặc gần dủng, Ngôn ngữ biến hỏa liên tục trong không gian vá thời gian trong khú chữ viết có xu hướng đứng yên (tính bảo thủ) [30] Chữ việt là phương, tiện hoàn hão để truyền đạt thông tin, lưu giữ thông tín, kích thích sự sáng tạo, là

thành quả kỳ diệu, vĩ đại của loài người [91] Tuy chữ viết có tính bảo thú, én định

và bên vững, nhưng vẫn oó những cải tiến, sáng †ạo trong quá trình phát triển

Vẫn đề cải tiến chữ viết: theo [27], ở Việt Nam, vẫn đề cái tiên chữ quốc ngữ

đá được để cập từ lâu, được thão luận sối nỗi vào đầu thập kĩ 60 Thời gian gần đầy

có những đề xuất cải tiên chí viết gãy nhiêu tranh cai [88][89][92]; nhumg co ban van

chua có nhiều thay đổi, do lính báo thủ của chữ viết, do thởi quơn và truyền thông,

văn hóa Việc cãi tiến chữ việt thường điển ra phức tạp Theo [88], viée cai tién chit

viết tiếng Việt cần phải dược cân nhắc, xem xét kỹ lưỡng và thận trọng

Trang 25

13

Nhân xét: CƯT cũng là một hướng làm thay dai chữ viết, có thể được xem là cải tiễn chữ viết một cách tự nhiên Chẳng hạn, người sử dụng việt tắt đùng các kí hiệu viết tắt mang tinh chất cả nhân: fề Tán (phê phán), ffáp (phương pháp)

1.1.3 Các loại hình ngôn ngữ

Ngôn ngữ tự nhiên: Một ngôn ngữ tự nhiên là bắt kỳ ngôn ngữ não phát sinh:,

khảng suy nghĩ trước trong não bộ của con người Dịnh nghĩa cáo ngôn ngữ tụ nhiên

thường phát biểu hay ngụ ý là ngôn ngữ mà bất kỳ đứa trẻ nào cũng có thể học và được phát triển thông qua sử dụng ngôn ngữ vả noi"

Ngân nại hình thức: Trong toán học và khoa học máy tính, dé nghiên cứu

sâu hơn về ngôn ngữ tự nhiên, người là xây dựng ngôn ngữ hình thức ([ormal language) [37] Một ngôn ngữ hình thức được hình thức hóa, dược dịnh nghĩa là một tập các chuối (string) được xây dựng dua trén mét bang, chi cai (alphabet), chúng, được rảng buộc bởi cáo luật (le) hoặc văn pham (grammar) được định nghĩa trước Bảng chít cái là tập hữu hạn các kí tự quy ưóc!!

Giả sử có một bảng chữ cái > = {a, b} và kí hiệu L là ngôn ngữ, |I3)|| là số ký

tự của Ð, ||š|I > 0 và ||X|| EM Như vậy, ta có thế định nghĩa một số ngôn ngữ trên

bảng chữ cái Ð như sau:

là {an naa}; lạ fabs, sab} ;Ia - {ab, ba, søbb, sembbb,.}

Lý thuyết ngôn ngữ hình thức còn được ứng dụng trong xây dựng ngôn ngữ lập trình Trong lý thuyết độ phúc tạp tính toán (Computational cornplexity theorv), các vân đề quyết định (decision problems) được định nghĩa như là các ngôn ngữ hinh

thúc, các lớp độ phúc tạp (complexily classes) được xác định là tập của những ngôn

1rgữ tình thức Trơng toán học, cú pháp của các hê thông tiên đề biểu điển bằng ngôn

ngữ hình thức

Các mức tiếp cận ngôn ngữ tự nhiên và ngôn ngữ hình thức: Cáo tầng mức

ngân ngữ tụ nhiên (và ngôn ngữ hình thúc) bao gêm từ vựng, cú pháp ngữ ngiữa và

ngữ dụng học Tầng mức ;ử vựng (kí tự, từ, cụm từ, chữ, câu ) tương déng nhu bang

chữ cái trong ngôn ngữ hình thức 7# vựng học là bộ môn nghiên cứu từ vựng cúa

‘© butps://vi wikipedia orgrwiki/Ngée_ngf tự nhiên

"" Theo hitps:/tvi wikipedia erg/wiki’NeGn_ngi_hinh_thite

Trang 26

14

ngôn ngữ: nghiên cứu cấu tạo từ, nguồn gốc, ÿ nghĩa từ vựng Mức ngữ nghĩa nói

đến nghĩa thực, nghĩa đen, nghĩa bóng, rộng hay hẹp, đơn nghĩa hay đa nghĩa Nei

ngiấu học là chuyên ngành ng]iễn cứu về ý nghĩa, tập trung vào môi quan hệ giữa cải

biểu thị, biểu tượng vả ý nghĩa của chủng Vs# đụng học nghiên cứu về cách làm sao ngữ nghĩa lại được chuyển tải qua không chi cau trúc và hiểu biết ngôn ngữ (ngữ

pháp, từ vựng ) cña người nói và người nghe, mà côn qua cả ngữ cảnh của phát ngôn,

cùng với những hiểu biết có từ trước đó liên quan tới chủ đề, ý đỗ được suy ra của

người nói, và cáo yếu tố khác

1.1.4 Xử lý ngôn ngữ tự nhiên

XLNNTN [7] lẻ một nhánh của lĩnh vục trí tug nhén tao, Artificial Intelligence (AD [39] Theo [90], XLNNTN lả một trong những phân khó nhất vi nó liên quan

đến việc phải hiến ý nghĩa ngôn ngữ Trong NNTN nói chung, một từ thường có nhiều

hơn mội ý nghĩa Sự đa nghĩa của từ không ảnh hưỗng quá lớn trong giao tiếp hàng, tây bồi khả năng xử lý tốt ngôn ngữ cũa cơn người trong mmội ngĩt cỗnh giao tiếp,

mặc dù vân có những biểu hiện hiểu làm hay mơ hồ ngữi nghĩa của từ: đây là hiện

tượng nhập nhằng trong ngôn ngữ tự nhiên Có 5 bước XLNN'TN [7][90†

"Phân tích hình thái: Trong bước này, tùng từ sẽ được phân tích và các ký tự

không phải chữ (thư các đầu cầu) sẽ được tách ra khỏi các từ? Trong Hồng Anh và nhiều ngôn ngữ khác, cáo Lừ được phân tách với rau bằng đấu cách Trong tiếng, Việt, đâu cách được dùng để phân tách các tiếng (âm tiết) clrử không phải tử

Phân tích củ pháp: Dãy các từ sẽ được biên đỗi thành các câu trúc thể hiện sự

liên kết giữa các từ này Sẽ có những đây từ bị loại do vì phạm các luật văn phạm

Thông thường, các ngữ đoạn văn phạm này được biếu điển bằng dạng cây phân tích

cú pháp với: Ngôn ngữ được đặc tã bởi các luãi sinh, Phân tích củ pháp đựa vào luật

sinh đề xảy dựng cây phân tích cú pháp

Phân tích ngữ nghĩa: Thêm ngữ nghĩa vào các cấu trúc được tạo ra bởi bộ

phân tích cú pháp Một phan quan trọng trong giai đoạn phản tích ngũ nghĩa là kiểm tra kiéu (lype checking) va ép chuyên đổi kiểu

'?nhps:/2vi.wikipcdia.œrglsiki Xú_lý ngôn ngữ tụ nhiễn

Trang 27

Tích hợp văn bản: Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào

những cầu dứng trước, dòng thời nó cũng có thể ảnh hưởng dên các câu phía sau

Phan ích thực nghĩa: Cầu trúc thé hiện điều được phát ngôn sé được thông, địch lại để xác định nó thật sự có nghĩa là gì

Ranh giới giữa 5 bước xử lý nảy là rất mong manh, có thể được tiến hành từng,

bước một, hoặc cùng lúc - tủy thuộc vào giải thuật và ngữ cảnh cụ thẻ ?

Những bài toắn xứ lý ngôn ngữ tự nhiên liêu biểu: Các nhà nghiên cứu đã

tổng hợp đưa ra nhóm những bài toán tiêu biểu trong XLNTN [7][S6]

Nhận dạng tổng nói (speech recognition): Tiếng nói tự nhiên của con người

được máy nhận dụng chuyển thành văn bản Lương ứng,

Tổng hợp tiếng nói (speech svnihesis): Từ một văn bản tự động tổng hợp thành tiếng nói

Nhận dạng chit viét (optical character recognition): Tix mot van ban trén giây,

nhận biết từng chữ cái và chuyền ching thành một tập tin văn ban

Tóm lÃI văn bản (IexI sammarizalion): Tôm tắt một vẫn bản đài thành một vẫn

‘ban ngắn hơn nhưng vẫn chứa những nội dung thiết yếu nhất tóm luge vin ban

Tìm kiêm thông tín (information retrieval): Dit cầu hỏi và chương trình tự tim

Ta nội đung phủ hợp nhất từ một nguén rất nhiều tập tin văn bản hay tiếng nói

Dich may (machine transĨatiøn): Dê là chương trình địch từ ngôn ngũ này sang ngôn ngữ khác

Trích chọn thông fin (information extraction): Tis mot nguồu nhiều tập lin văn

bản hay tiếng nỏi, tìm ra những doạn bên wong mét sé (ap tín liên quan dễn một vấn

đề (câu höi) ta cần biết (trả lời)

Phát biện trì thức và khai phá đữ liệu (Emowledge điscovery and text đafa mining): Tir uhiéu tài liệu khác nhau phát hiện ra trí thức mới; tô phỏng qua trình

hoc lap, khám phá khoa học của cơn người, đang trong giai đoạn đầu phát triển

Các bài Loán tiêu biểu xử lý ngôn ngữ tự nhiên trong các lĩnh vực riều trên đều gặp phái vẫn đề xứ lý đữ liệu lá CVT trong kho ngữ liệu CV'1 ẩn chứa, chuyển tối ngữ nghĩa, nội dung rộng mở, đa nghĩa và tắt yêu gặp phải vẫn để mơ hỏ, nhập nhằng,

'?nips:/2vi.wikipcdia.œrgAsiki Xú_lý ngôn ngữ tụ nhiễn

Trang 28

bộ gõ WinVNKey đua vào sử dựng thánh công, bộ chữ tiếng Việt đưa vào bầng

mã Umicode, chọn Lnieode cho báng mã chuẩn tiếng Việt Tách từ tiếng Liệt: Dễ tài

“Nghiên cứu và phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn ban

tiếng Việt? |32| đá nghiên gia phương pháp tách Lit WEST (Weighled Fimnte State

Transducer) của trếng Anh, áp dụng cho tiếng Việt Phương pháp nảy vẫn chưa khử hoàn toản sự nhập nhằng tiếng Việt Công trình nghiền cứu các phương pháp tách từ

dựng kho ngữ liệu tiếng Liệt: 'Ïrung tâm từ điển học Vietlex đi đầu trong xây dựng

kho ngữ liệu (KNL) tiêng Việt từ năm 1998 đến nay, kết quả, KNL tiêng Việt chúa

khoảng 100 triệu âm tiết, dược thu thập tử nhiều nguồn đữ liệu khác nhau Vietlex sử dụng chương trình vaTokenizer 4.L1 đề tách từ cho văn bản, các văn bản chứa trong

đó đã được tách từ, được tố chức theo các lĩnh vục [86]: ngôn ngữ và văn học, lich

sử, khoa học xã hội, tự nhiên, nghệ thuật

Nhiễu kết quả nghiên cứu sâu hem như: Xây dụng kho ngĩt liện Việt-ỗ Dê, đựa

3 Bê và Ê Đê-Việt [12] Để

trên mô bình hợp nhất nguồn dữ liệu từ điển giấy Vĩ

tai “Sai ly văn bản tiếng Việt” đã xây dụng nguồn tài nguyên chơ tiếng Việt đạt kết

quả [9]: Từ điến tiếng Việt cá khoảng 35.000 từ, với nhiều thông tin hình thái,

ngữ pháp, ngữ nghĩa dùng cho XIL.NNTN, kho ngữ liệu song ngũ Anh - Việt với 80.000 cập câu Kinh tế - Xã hội, 20.000 cặp câu Tin học, 70.000 câu dã được tách từ, 10.000 câu đá được gán nhãn từ loại và 10.000 cây cú pháp Các nghiên cứu [9], [10].

Trang 29

[12], |86| cùng với nhiều công trình khác dã bước dâu xây dựng các KML tiếng, Việt, được chia sẽ tham kháo, lắm cơ sở nghiền cửu XLNNTN tiếng Việt

Dịch máy tiếng Việt: Phần mềm EVTRAN là phần mềm dịch tự động đầu tiên

do người Việt xây dựng Phiên bán EVIRAN 2.0 chi dich tir tiéng Anh sang tiếng,

Việt, Website Videt!” là dịch vụ trực tuyển đầu tiên địch tự động Anh-Việt Vdict đã

sử đụng, kế thừa EVTRAN cùng với Google Translation đề giải quyết bài toán này,

tuy nhiên còn hạn chế: khi dịch từ Anh sang Việt và ngược lại thì Vdict cho ra cá hai

kết quả, không hỗ trợ địch chuyên ngành

TNgoài các kết quả đang chú ý nêu trên, còn có các công trình nghiên cứu khác

niur: xử lý tiếng tiới cho tiếng Việt của Viện CNTT và Trung tâm nghiên cứu quốc tế

Thông tỉn đa phương tiện, truyền thông và ứng dụng (MICA) của trường ĐHBK:

Ha Noi; cae dé tai nghiên cửu ở một số trường ĐH (ĐHBK và ĐH Khoa học Lự nhiên

HCM, DHBK Đà Nẵng, ĐHBK và ĐH Khoa học tự nhiên Hà Nội, )

Xu thể và triỄn vọng trong xử lị tỗng Việt

Theo nhận định của nhiều chuyên gia [9][10][12], cho đến nay, hầu hết các kết

quả đạt được trong XLT V chủ yếu tập trưng vào xây đựng ứng dụng cho người dùng,

đầu cuối, các kết quá nghiên cửu đa số chỉ được xây dựng thử nghiệm va kiểm tra trên tập ngữ liệu nhỏ, ít đề cập đến hạ tầng ca sở cho xử lý ngôn ngữ như từ điển

Việt về tổng thể, về từng vẫn để, từng nhánh hay từng bải toán nghiên cứu

qua những mỗi trường nả

chứng, kế thừa kết quả, từ đó phát triển và đạt đến kết

quả mới có giá trị hơn, có ý nghĩa khoa học và ứng dụng nhiều hơn nữa

Fhén nay, Việt Nom: đã và đang xây dựng một ngành công nghiệp nội dung số

phong phú, đã đang, Trong dỏ có nhiều sản phẩm về giáo dục trực luyến, giải trí trực tuyến, truyền thông, nội đụng số cho thiết bị dị động [87] Đây cũng chính là xu

'8 Theo https:/*vdiet.com!

Trang 30

18

hướng và triển vọng trong XLTV Vi thé, XLTV can phải có một cong déng nghiên cứu với sự than gia của các chuyên giá về ngôn ngữ tiếng Việt, về lĩnh vực xử lý

tôn ngữ rong ƠXTT, các doanh nghiệp, các nhà quận lý và cã người sử dụng dẫu

cuối Rõ ràng, để giải các bài Loán XI.TV không thể trông chờ vào các chuyên gia,

các rhhà tghiển cứu nước ngoài, mà phôi do chỉnh người Việt giải quyết

1.2 NGỮ NGHĨA VÀ NHẬP NHÀNG NGỮ NGHĨA TIENG VIỆT

1.2.1 Ngữ nghĩa và ngữ nghĩa học

Ngữ nghĩa: Ngữ ng]ữa (meaning), hay ngiữa của từ là những liên hệ được xác lập trong nhận thức của con người giữa từ với những cải mà từ chỉ ra (những cái mã

tử làm tín hiệu cho chủng) sữa của từ không tôn tại trong sự vật hiện tượng, không,

tan tai trong ý thức, bộ óc con người Nghĩa của từ tổn tại trong từ, nói rộng ra là tôn

tại rong hệ thống ngồn ngf [36]

Tir vung: Ving co nghia là “sum tap, tap hop”, ar vung là tập hợp từ của ngôn ngữ Từ vựng là tap hop tir va cdc don vi tuong duong tir cia ngén ng Tir la don vi

cy ban cia bir vung, 14 dort vi nhd nhat, déc lip vé nghia va hinh there [30] Biển thế

từ vựng - ngữ nghĩa: Cùng một từ (củng cách viết, phát âm) có thể có một nghữa duy

nhất, nhưng trong ngữ cảnh khác nhau, có nhiều nghĩa khác nhau

Phân biệt nghĩa (meaning) và ý nghĩa (sense): Nghĩa của từ khác với sự hiểu

biết của cơn người vẻ ý ngiữa của từ Sự hiểu biết về ý nghĩa của từ tôn tại trong Ý

thức con người giữa của từ lồn Lại trong ngôn ngữ Vwlña của từ là quan bệ của lừ

với cái gì đó năm ngoái bản thân nó ©

ANgữ nghĩa học: Theo |30|, chơ đến nay, khải niệm “ngữ nghĩa học" vẫn chưa

được hiểu một cách thống nhất Thuật ngữ này vốn bắt nguén tir chit ‘sémantika’ trong tiếng lly Lạp, được dùng chú yếu đề chỉ lĩnh vục khoa học nghiền cứu về ý nghĩa của các từ, mệnh đề, câu, kí hiệu, các biểu tượng, “Ngữ nghĩa học” có những, tên gọi khác nhau, tiếng Anh: semantics (semantyka), semiology (semiologia),

semiotics (semiotyka), semasiology (semazjologia)

!5 Theo; Nguyễn Thiện Giáp, Phân biệt nghĩa và ý nghĩa trong, ngôn ngữ học biện đại, Tạp chí Khoa học

ĐHQGHN: Nghiên cứu Nước ngoài, Tập 30, Số 3 (2014) 1-13

Trang 31

19

Các nhân tổ bình thành nghĩa của từ: Nghĩa của từ là những liên hệ giữa từ với những cái mà từ chỉ ra (những cái mà từ Lam tin hiệu cho chúng) Nhân tổ tạo thành nghĩa oủa từ, biểu thị trong tháp nghĩa hình học không gian theo [4] đã chỉ ra

TỪ - TRỮU TƯỢNG

Chức năng tin hiện học

Hinh 1.1 Mô hình tháp nghầa

Theo |4], mỗi quan hệ giữa từ và sự vật hình thành ng}ữa biểu vật, giữa từ và khái niệm sẽ hình thành aghia biểu niệm, giữa từ với nhân tổ người dùng sẽ hình

thành ngàữø phong cách, ngÌữa liên hội, nghĩa biểu thái, giữa từ với các từ khác trong,

hệ thông ngôn ngữ hình thành nên øgiðz cấu trúc, giữa từ với các chức năng của từ

sẽ hình thành các giá trị chức năng của từ Các thành phần nghĩa trên gắn bó chất chế với nhau, là các phương diện khác nhau trong một thể thống nhất Trọng tâm phân tích, miều tã của từ vựng - ngữ nghĩa học là ngiãa biểu niệm

1.2.2 Phân tích nghĩa của từ

Ngữ cảnh và phân tích nghĩa của đà: Theo [17][30][31], ngữ cảnh là những,

từ bao quanh hay đi kèm một từ, xác định về nghĩa từ đó Có nhiều loại ngữ cảnh:

Ngữ cảnh lớn có thê bao gồm cả xuột đoạn văn Äjgữ cảnh nhỏ trong pham vì ruột câu

_Ngữ cảnh hẹp là những kết hợp tôi thiểu nào dó dễ xác định nghĩa của từ

Nghiên cửu từ trong ngữ cảnh có thẻ phát hiện đặc diễm riêng của ý nghĩa mỗi

tử, sẽ phản biệt được các hiện tượng đa nghĩa, đồng âm Ví dụ: từ “câu” đồng âm

Chim câu trắng (bỏ câu), câu cá Nghiên cứu từ trong ngữ cảnh còn giúp làm sáng tỏ

bận chất nghĩa của hiện lượng lĩnh lược trong lời nói (bỏ bát từ khi nói)

Phurơng pháp phân tích nghĩa của từ theo ngit cink

Phuong pháp phân tich ngữ cánh của từ theo ngữ cảnh gồm các bước:

Trang 32

1 Tập hợp ngữ cânh: Xác dịnh ngữ cảnh của một từ trong các loại văn bản khác nhau và tập hợp chứng lại

ie} Phân loại ngữ sảnh: Những, ngữ cảnh vimg bign thye hoa mol nghia eta Lis

dược xếp vào một nhỏm ngữ cảnh cũng loại Đây lá công việc đặc biệt quan trọng, sự chuẩn xác tạo điều kiện cho việc tách nghĩa chuẩn xác trong từ

3 Phân tích ngiữa: Đôi với các từ đơn, ta so sánh nó với các từ trong trường,

nghĩa để phát hiện ra nét nghĩa Đối với từ đa nghĩa, trước khi tiến hành bước

trên ta phải tách ra các nghĩa, xác định chính xáo số lượng nghĩa trong từ, tim

nghĩa gốc của tù, xác định và loại bổ các nghĩa ngữ cảnh

Từ nhiều nghĩa và quan hệ nghĩa trong (ừ vựng

Từ nhiều nghĩa là tù cò hai nghĩa trở lên nhằm biểu đạt các đổi tượng, khái

nhiệm khác nhau, đẳng thời các nghĩa có môi liên hệ với nhau được sắp xép theo md

tổ chức nhất dịnh Ví dụ "áo" có da nghĩa: dễ mặc (áo người), bọc một số dé dùng, (áo gói), lớp tráng bên ngoài để gồm

Hiện tượng động âm là hiện Lượng các từ giỗng nhau vỀ võ ngữ âm nhưng hoàn toàn khác nhau về nghĩa Ví dụ "để" đồng âm nhưng cỏ 7 nghĩa: Cụ đồ, đỗ vật,

đỗ lại nét vẽ, đầy đi làn khổ sai [34] Phân biệt đồng âm với ẩa ngiữa: Đẳng âm

là hiện tượng xây ra giữa các tù, nhiều nghĩa là hiện tượng xây ra trong một từ Giữa

các nghĩa của những từ đồng âm hoàn toản khác nhau không có mỗi liên hệ nào, trong khí đó, từ đa nghĩa thường có một nghĩa gốc, các nghĩa còn lại phát sinh từ nghĩa gốc, siửa các nghĩa của một từ nhiều nghĩa thường có một nét ngứa chung, móc nội chúng, lại thành một kết cầu, và giữa các từ đa nghĩa có sự chuyển nghĩa

1.2.3 Sự biễn đổi của từ vựng và ngữ nghĩa

Sự biển mất các từ ngữ trong từ vựng: Ngôn ngữ chỉ lưu giữ lại những yếu

tổ hữu ích; những yêu tổ thừa, không phủ hợp với nhu cầu sử dụng sẽ bị loại bỏ Sự biến mắt những từ ngữ tuân theo nguyên tắc nảy Có hai nguyên nhân cbinh [31]

Nguyên nhân trong ngôn ngữ: Từ biên mật đo đã cò một từ đông nehữa thay

thể, từ rơi rụng này; từ biển mật đo biến đối ngữ âm, ngữ âm cũ mắt đi, ngữ âm mới

tỉnh thành và thay thể, Từ ngữ gế 1rường chỗ cho từ rút gọn hơn, ví dụ "võ tuyển” thay thể cho từ "vô tuyển truyền hình"

Trang 33

Nguyên nhân ngoài ngôn ngữ: Từ bị rơi rụng, do đối tượng được từ gọi tên bi

mat di, do là các đử jịch sứ Vì dụ: khi Việt Nam không cỏn nhà nước phong kiến, các

từ "tuần phủ", "án sát" sẽ dẫn bị rơi rụng,

Sky xuất hiện các từ nại: mắi trang từ vựng: Sự xuât hiện cáo từ ngữ mới để thỏa mãn nhụ cầu định đành các sự vật hiện Lượng trong đời sống Hai cơn dường lạo

thành từ ngữ mới theo |L7|I31 ]:

1 Cấu tạo từ mới bằng các chất liệu và quy tắc sẵn có trong ngôn ngữ dân

tộc; con đường hình thành từ mới này thông qua các phương thức:

a) Phương thức phức hợp: Hòa đúc hai từ sẵn có tạo nên từ mới, giữ lại

các yêu lễ được cơi là giá trị nhất về mặt ngữ nghữa của cä lai từ để tạo

ra một đơn vị hoàn chính Ví dụ: "ngôn ngữ và văn học" > "ngữ vấn" b) Phương thúc rút gọn Phương thức rứt gọn là phương thức tạo từ mới

bằng cách lược bớt một phân của đơn vị đó Ví dụ: omnibus => bus (xe

buýt); xứ Thanh hóa => xú Thanh

@ Phương thức viết

: Phương thức ghép các con chữ (âm) ở đầu, cuối,

vị trí nào đồ trong một nhóm từ với rau để lạo niên từ mới Ví dụ: Kiểm tra chất lượng sản phẩm —> KCS

2 Vay mượn ngôn ngữ khác: Dây là quá trình riến nhận thêm từ ngôn ngĩt khác hình thành nên láp từ vay mmwgm

a) Lớp từ vay mượn gồm: từ ngoại lai (Ắc quy, pho mát ), từ ghép lai (đài

ta đa, bom ba cảng), xơo phông cấu lo từ ( tgôi sao - shar) ð) Quá trình đồng hóa từ vay mượn: Từ ngũ vay 1nượn chịu sự biện đội theo quy luật ngôn ngữ tiếp nhận, là quá trình vay mượn các ngôn ngữ chủ thé Vi du: Déng héa về nạữ pháp (tiếng Phap: double, bleu la tinh

từ, chuyển

ng tiếng Việt làm động từ: "đúp", "lơ",

Phương thức viết tắt xuất hiện các từ ngữ mới: Như lrêu đã đề cập, com

dường hình thành từ ngĩt mới thông qua nhiều phương thức, câu tạo nên lừ ngữ mới bằng các chất liệu vả quy tắc sẵn có trong ngôn ngũ dân tộc, trong đó cò phương thức viét đắt [17][31] Trong thục tế, CVT thường có hai dạng: Viết đắt tự tạo, ngẫu nhiên

và viết tắt theo quy luội Viết tất tự tạo, ngẫu nhiên thể biện xu hướng "tắt hóa" khi

sd dung viel chữ mội cánh tự nhiên pủa con người, là su sang tao cach vist von rat

Trang 34

22

riêng tư, nhưng cũng có thê dược phổ biển Viết sốt heo qiọy luật chúng là cách viết tắt cỏ sự nghiên cứu, sắp xếp, định dạng theo một quy luật nảo dỏ

Các phương thức biển đỗi ngữ nghĩa: Phương thúc biên đổi ý nghĩa của từ

là cách thức hỗ sung nghĩa mới cho từ khẳng kèm theo sự biển đối về từ ngữ âm, làm

cho tù trở thành từ nhiều nghĩa Các phương thức chủ yên |31 | Phương thức hoán

đụ là phương thức làm biển đổi ý nghĩa của từ bằng cách lấy tên gọi của sự vật, hiện tượng nảy dễ chỉ một sự vật, hiện tượng khác trên cơ sở mỗi quan hệ tất yếu giữa các

sự vật, hiện tượng ây Phương thúc ẩn dụ cũng là phương thúc biên đổi ý nghĩa của

tu bing cách lây tên gọi của sự vật, hiên tượng này đề chỉ sự vật, hiện tượng khác

trên cơ sở của sự giống nhau về một khía cạnh nào đây giữa hai aự vật hay hiện Lượng,

ấy Ngoài ra, còn có phương thứ biến đổi ngũ nựÌữa giữ Lên gợi cũ đẻ chỉ những sự

vật, hiện tượng hay khái niệm mới hoặc đã thay đổi

Nguyên nhân biển đôi ÿ nghĩa của từ (chuyến nghĩa) thường rât phúc tạp, đa

dang Chuyén nghĩa áo sự kiêng kụ: LHện tượng này không chỉ tạo nên sự biển âm mà

1.2.4 Nhập nhằng ngữ nghĩa trong tiếng Việt

Nhập nhằng trong ngôn ngữ học

Bách khoa toàn thư mở Wikipcdia nêu khái niềm 83 |: Nhập nhằng trong ngôn

ngữ học là hiện tượng thường gặp, trong giao tiếp hàng ngày con người it dé ở đến

nó bởi vì họ xử {0 tốt hiện tượng này Nhưng trong các ứng đụng liên quan đến xử lý ngôn ngữ tự nhiên khi phải than lác với ý nghĩa từ vựng mà điền hình là dịch tự động nhập nhằng trở thành vẫn đề nghiễm lrọng

Vi du, trong muội cầu cần địch có xuất liệu từ "đường" như trong câu "ra chợ Tnua cho mẹ ít đường" vẫn đẻ nảy sinh là cần dịch từ nảy là roadl hay sugar, con người xác định chúng khá dé dang cần cử vào văn cảnh nhưng với mày tính thả không, rất

khó khăn đề từn các thuật toán hữu hiệu cho các nhà lập trìnhứ®

‘5 pups viwikipedia.org

Trang 35

Mét sé hién tượng nhập nhằng

Nhập nhằng ranh giới tử: Trong tiếng Anh việc xác dịnh ranh giới từ khả dé

đảng, mỗi từ riêng lẻ mang trọn vẹn một nghĩa, ranh giới của chúng được xác định thông qua khoảng trắng Tiếng Việt là ngôn ngĩt đơn lập nền tr vụng chủ yếu là các

từ ghép vì thế khoảng trắng không phải luôn là ranh giới chính xác

Nhập nhằng từ da nghĩa: Đất cũ ngôn ngữ nào cũng có từ da nghia, nguyên nhân là vi rất nhiều khải niệm có các sắc thải ý nghĩa tuy không hoàn toàn trùng khớp

nhau nhưng lại có nhiều nét tương đẳng Như tử "ăn" trong "ăn uống" và "ăn cướp" vừa có những nét nghĩa giồng và kháo nhau, từ “án” có đến 12 nghĩa [34]

Nhập nhằng từ đồng âm (đồng tự): Hai từ đồng âm với nhau nghĩa là lại từ có

âm giống nhau nhưng ruang nghữa khác nhau, còn đồng tự là hai từ về mặt kỷ tự là giống nhau nhưng nghĩa khác nhau Do đặc điểm của tiếng Việt, từ dòng âm cũng, Thường là từ đồng tự, ở ngôn ngữ khác hai hiện tượng nay không trùng khớp nhau

Nhập nhằng từ loại: Từ loại là mệt yêu tổ quan trọng trong việc xác định nghĩa

chỉnh xác của từ và sắp xếp các từ thánh câu hoàn chỉnh trong dịch tự động; nghĩa là

từ loại giúp khử nhập nhằng, những chính bản thân nó trong một số trường hợp cũng nhập nhằng Ngôn ngữ không biến hình như tiếng Việt muốn xác dịnh từ loại yêu cầu Thuật toán phức tạp hơn, bắt buộc phải phân tích cú pháp; ngay trong ngành ngôn ngữ

vẫn chưa cẻ sự thông nhất về phân loại từ loại cho tiếng Việt

Xứ lý nhập những trong tiếng Liệt

Hiện tượng nhập những xảy ra khi: Một từ thường cỏ nhiều hơn mét nghia, sây hiểu lâm, mơ hỗ ngữ nghĩa của từ Từ đa nghữa là một trong các nguyên nhân

sây nhập nhang trong trong tim kiếm văn bản, tra oứu tải liêu Tác động của nhập

nhang lam cho người đọc, người viết, hiéu lam, pap sai sot, hay bể tắc

Xử lý nhập nhằng nghĩa của từ dược nhiều nhà nghiền cửu XUNNTN quan tam dén, là vấn dễ xuất hiện sớm và lầu dời nhất của lĩnh vực nảy (những năm 40 của thé ky 20), đóng vai trỏ quan trọng, làm cơ sở cho nhiều bài toán XLNNTN khác

Để khử nhập nhằng nghĩa của từ, các nhà nghiên cứn phải sử đụng nhiều thông tin

của ngĩt cảnh ở nhiều cáp độ (hình thái, ngữ pháp, ngữ nghĩa, ) cùng với các luật suy

diễu ngũ nghữa Cúc luật suy diễn này tạo thành có thể từ thủ công hoặc từ quá trình

bản tự động - tự động hóa, hoặc có sự phổi kết hợp giữa chúng |39] Luật suy diễn

Trang 36

xây dựng bằng tay dòi hỏi công sức rất lớn và không thể bao quát hết mọi trường lợp

Vị thế nhiều nhà nghiền cứu đã dưa ra các mô hình cho phép tự dộng xây dựng các

luật dẫn nin thé bang cách áp đụng phương pháp học chuyển đối trên một tập ngĩt

liệu lớn não đó

Trong tiếng Anh, cò nhiều công trình nghiên cửu giải quyết nhập nhằng ngữ nghĩa đã dược thực hiện Hai hướng tiếp cận cơ bản! đã được nghiên cứu: Giải quyết nhập nhằng dựa trên thông tà trong một ngữ cảnh cụ thể và giải quyết nhập nhằng,

dựa trên những thông tin thu được trong việc học từ vài tập ngữ liệu học [67] Sau đó

có nhiều công trình đừng kết hợp cả hai phương pháp này đã được thục hiện [68], sử

dung các mô hình thống kê các loại đẳng nghĩa để xác định nghĩa của các tù Liéng

Anh khử nhập nhằng [71 | nghiên cửu chuyên sâu so sánh hiệu suất nhận dạng CVT các hệ thống KXLNNTN (MetaMap, McdLEE, eTAKES)"* vé CVT trong cae van ban

tớm tắt y học, có thể để trích xuất thông tin từ CVT văn bản, tạo điều kiện chăm sóc

bệnh nhân tết hơn [72] nghiên cúu khử nhập nhằng CVT trong y hoe sir dung mang Neurat Word Rmbodding Nghiên cứu |73] nhận diện CVT sử dụng phương pháp học indy Machine Learning, [68] ding phuong phap dua hé Giéng mạng từ Word Scnse Disambiguation (WSD)” nhằm quy gản nghĩa thích hợp với ngữ cảnh (nghĩa là các

thành viên của loạt từ đồng nghĩa) cho tử trong một văn ban y hoc Côn có công trình

nghiên củu CVT trong ngôn ngữ tiếng Trung, tiếng Da Thái như [69][57], nhận diện CVT đựa vào thông tin ngữ cảnh văn bân, sử dụng phương pháp máy học để nhận dạng CVT bôi thuộc tính nhất quán trong vẫn bản

Trang tẳng Việt, gần dây có nhiều công trình nghiên cửu: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tải liệu [42]; xứ lý nhập nhằng trong tìm kiếm văn bản tiếng Việt học từ vài tập ngữ liệu; khả năng khắc phục trong soạn thảo văn ban [43], giải quyết văn để khử nhập nhằng trong bài Loán tách từ tiếng Việt [6]

Wilks, Stevenson, Scnse Taggĩng: Scmantic Tagging with a Lexicon In Proceedings of SIGLEX Workshop

on Tagging Text with Laxical Semantics: Why, What and How?, Washington, D.C 1997

‘5 MctaMep: Hé théng NLP ding để lập bản đô ngôn ngữ y sinh théng ahit; MedLEE: NLP thiết kế dành cho ghi chủ X-quang (ađiolesy), báo cáo bệnh lý, ghỉ chủ xuất viện, cTAES: NLP kiến tuïc về bệnh tật

! Mạng từ là từ điển máy tính tiếng Anh được sử dụng phế biền để khử nhập nhằng nghĩa từ.

Trang 37

1.3 CHỮ VIET TAT TRONG CUOC SONG

1.3.1 Chữ viết tắt là gì

Trong cuộc sống, con người luôn có xu hướng rút ngắn thời gian trong thể hiện mọi hành động, suy nghữ của mình dễ chuyển tải lượng thông tin ngày cảng lớn Đó

là xu hưởng "#đ£ hỏa" mọi thử có thể (hình 1.2): cử chỉ (1àm đứt, sỡ tấp, hành dong,

(ải tắt, và tắt, nói tắt, viết tắU, định nghĩa (phim tắt, ngỡ tắt, núi tắU, đặt ra thuật ngữ khác (tám tắt văn ban, van tat, CVT)

Tu “4a 06 gác nghấa chính, đây đủ thoo từ điển |34]: âm tắt (không sáng), làm mất (mềm tìn, tụ pười), làm ngừng (chay), đi lẮ: (dì ngàng về Lắt, dường ngàng ngõ, lỗi) tắt, Nói hay viết tắc cắt bỏ bot am, hay cat bd bớt chữ Ví dụ: nói rắn tắt, nổi tóm tắt; viết vẫn tắt, việt tóm tắt, bán tôm tốt, lợi tốt Phạm vì nghiên cửu ở luận

an nay tir “tt” voi nghĩa chủ yêu của cụm từ chữ viết tắt hay từ viết tắt

Thuật ngí “chữ viết /ắP? (liêng Anh là abbreviation) chưa có mắt trong những

từ điền Hếng Việt thông dụng có mặt trên thì trường?? hiện ruay, trong cuốn “Từ diễn Bach khoa Vist Nam” tập 1 (vẫn A-Ð?), nhưng lại rải quen dùng trong cuậc sống, Sử dụng công cụ tìm kiểm Google, chứng ta có thể tìm thây rất nhiều trang web

3?Từ điền song ngữ Việt-Anh, Bui Phung, nha surat ban The gidi, nam 1998

11Tù điến Bách khoa Việt Nam biến soạn, Hà Nội, năm 1995.

Trang 38

Từ diễn mở Wiktionary?? đã giải thích viết tắt “là cách viết ngắn gọn hơn cách dai nhưng thông dựng, nhiều người hiểu LÍ dụ như VN là cách viết tắt cho "Việt

Nam” Từ điển online như |80|81j|82| cũng không có giải thích hoặc giải tích

không dây đủ cho thuật ngữ “chữ viết tất” Chúng ta hay gặp CVT & dang “tir vide taf” hay “tir taf” (acronym, Abbreviations: a short form of a word or phrase)

Chie vide tắt

Chữ viết tắt là cách việt ngắn gọn nhằm mục địch tạo ra chữ viết khác chữ viết

thông thường, được sử đựng khi phải viết lặp đi lặp lại nhiêu lân một cụm tử, một

cụm câu hay mội đoạn văn bân nào đó, nhằm tiết kiệm thời gian, công: sức ruả vẫn thoa man được yêu cầu thể hiện nội dung và tiện lợi khi sử dụng [30][34]

Trong ứng dựng CNTT, nhất là chương trình (mg dụng bộ gõ tiếng Việt, việc

gỗ tắt được các nhà lập trình ứng dụng chủ trong”, trong đó có phương pháp mới

Šơ kỷ chữ Việt” [47], cách sử dụng chữ Việt nhanh [4], dưa ra cách thức gõ tắt

tích hợp trong bộ gõ WinVKKsy ]75], tiết kiệm hơn 40% số phím phải gõ

1.3.2 Lịch sử hình thành chữ Quốc ngữ

Sự tình thành chữ Quốc ngữ là một quả trình, tù những thập kỉ đâu của thể kỉ

XVI, với sự tham gia của nhiều giáo sĩ Dòng Tên, trang sự công tác và đóng góp của

nhiều người Việt [38]

Khoảng thời gian từ năm 1620, các giáo sĩ bắt dâu ghỉ chép bằng chữ Quốc ngữ, đến năm 1651- thời gian xuất bân Từ điển Việt Bổ La và Phép giảng 8 ngày

được xem là thời kì đầu hình thành chữ Quắc ngữ [5] Theo [S], trong thời kỳ đầu thê

kỷ XVL, người Việt Nam dùng chữ Nho là chỉnh, còn chữ Nôm lá phụ thuộc Chữ

viết Quốc ngữ ngày nay lả một kiểu chữ dä được nhiều Linh mục Dòng Tên ở Việt Nam (với sự công tác của một số thấy giảng Việt Nam) vào thế kỷ thứ VI tạo ra

Họ đã đừng mẫu hr La Tĩnh rồi dựa vào phân nào của của chữ Bê Đảo Nha, Ý va các

dâu từ tiếng Cổ Ily Lạp, để làm thánh chữ Quốc ngữ đang dùng ngày nay Khi các nhà truyền giáo dến Đảng Trong, họ đã bắt dầu áp dụng dẫn dẫn mẫu tự La Tinh cho

tiếng Việt [Sj38] Các nhà nghiên cúu chứa thời kỉ bình thành chữ Quốc ngữ thành 2

bitp:⁄4vLwiktiouarv.orsisvilei/

3 btpz/chuvicinhanh sơurceforge.nct, Trân Từ Bình

Trang 39

ty bì

giai doạn: Giai đoan 1- tir 1620 dén 1626 và giai doạn 2 từ 1681 dến 1648 Nhà truyền giáo Alexandre do Rhodes được coi là người có công nhiều trong việc địt

chế chữ Quốc ngữ qua cuổntử điển Dictionarium Annamiticum Lusitanum et

Latium in năm 1651 tại Roma”! Như vậy, sự hình thành chữ Quốc ngữ lả một quá trình lịch sử, với sự tham gia của nhiều giảo sĩ Dòng Tên, sự công tác và đóng góp

của nhiều người Việt

1.3.3 Tìm hiểu về lịch sử chữ viết tắt

Từ thuở xa xưa, con người đã biết cách sử dụng từ viết tắt hay ký hiệu để khắc

chạm trên đá, trên gỗ nhằm gợi nhớ, tiết kiệm thời gian, vật liệu lưu trữ CVT được đùng ph biển ở mước ngoài từ rất sửm Chẳng hạn SDQR viết tắt cho cụm từ “Senatus

Populusque Rome” (Céng hoa Dé chế La Mã, hay liội đồng Nhà nước nhân dân thành La Mã) đã có gần 2.000 năm lịch sử [6L], QED viết tắt cho cạm tit “Quod Hrat Demonstrandum” (diểu đã dược chứng minh)?

CVT có nguồn gốc từ tiếng Hy Lạp cổ [61], acronyat gdm akron (cuỗi cùng,

hay đầu mút) và øneiza (tên hay tiếng) Một sẻ từ điển tiếng Anh giải thích tử viết tắt là cách thức tạo ra một dạng từ mới ngắn gọn hơn bằng cách dùng những chữ cái dau (initial letters), cuối hay từ nào dỏ trích ra từ các từ hay cum từ dã có Chẳng hạn

UNESCO vi

lãi từ

Tiled Nalomns Educaional, Scientific and Cultural

Organization” (Tổ chức Giáo duc Khoa học va Văn hoá của Liên Hiệp Quốc)

Ö Việt Nam, mặc dủ CVT tiếng Việt di dược xuất hiện từ rất sớm va dã có

xuột số nghiên cứu CVT tiếng Việt (7)[13] [29], nhưng chưa có nghiên cửu rào đề

cập đây đã đến sự lủnh thành CVT,

Su ra déi cit chit Ném tir thé ky XII của cha ông ta chính là một cách khác

đã viết chữ [lan, thay thé chit [lan vay mượn của phương Bac [1][15] Trong hệ thông chit Ném, méi chữ Nôm cũng có dạng hình vuông, được tạo thánh nhờ lắp ghép các chữ Hân theo hình thức biểu âm, biểu ý, hoặc viết lược nét, viết tat Ching hạn

chữ IIán #Ÿ (cộng) viết bát nét thành chữ Nêm Ì% (khang), chữ Lián BE (vi) dace

% Theo viwikipedia.org'wiki/Cht_Quée_ngtLjch_sir

35 Tác phẩm “Ethica More Geometrico Demonstrata” - Nha triét hoc Benedictus de Spinaza (1632-1677

29 Theo hitps://viwikipedia.orgrwiki/Cho-Ném

Trang 40

viết gon thánh chữ Nôm s7 (làm) Khi chữ Quốc ngữ (tiếng Việt ngày nay) dược dùng phố biến, CVT bất đầu được sử dụng Bát danh CD là lên liêu Chương Dân

của Phan Khôi trên Đồng Pháp Thời Báo năm 1998 [14] Ngày nay, CVT tiếng Việt được sử dụng ngày cảng phong phú trong nhiều lĩnh vục kháo nhau

Thiều tác giã quan niệm CVT tiếng Việt là một hiện tượng ngtt pháp [28] [29]

Theo GS Nguyễn Tài Cần |27], “có kiểu nói tắt kiểu rút gọn lại một âm tiết chứ không nói lắt bằng cách dựa vào những chữ cái đầu hay âm đâu Những từ viết tắt

như VN (Việt Nam), IITX (hợp tác xã) chỉ sử dụng thuần tuý trong văn bản”,

báo, tạp chỉ, Ia thường thấy các CỤT thông dụng như TƯ, TW (Trimg ương), UBND

(Uỷ ban nhân đản), PTTH (Phẻ thâng trưng học), có cả các CVT tiếng Anh như WTO

(World Trade Organization), WIIO (World Iealth Organization)

€VT cỏn cỏ như cầu sử dụng khá lớn trong giao tiếp cộng đồng, trong lĩnh vực

tôn giáo, tín ngưỡng: BDH (Bai Dang Hoa), BDR (Bài Dâng Rượu) CVT sử dụng, trong tên riêng như TƠS (Trịnh Công Sơn), trong tống lỏng R2], tiổng địa phương,

như GATO (ganh ăn tức ở) lliện có cả một từ điền tiếng lỏng tiếng Việt 27 trên

Internet với khá nhiều CVT, cụm từ viết tắt

Chúng ta còn gắp CVT 6 dang rit gon, tie la cum tir hay doan van ban ean

Ngày đăng: 05/05/2025, 09:52

HÌNH ẢNH LIÊN QUAN

Hình  2  1.  Mô  hình  bình  thành  chữ  viết  tit  tiéng  Viet - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 2 1. Mô hình bình thành chữ viết tit tiéng Viet (Trang 50)
Hình  2.2.  Mô  hình  sự  hình  thành  chit  viet  tat  tiễng  Việt - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 2.2. Mô hình sự hình thành chit viet tat tiễng Việt (Trang 51)
Hình  2  4.  Sử  dụng  UML  mô  hình  hóa  sơ  đồ  hệ  sinh  thải  phần  mễm - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 2 4. Sử dụng UML mô hình hóa sơ đồ hệ sinh thải phần mễm (Trang 61)
Hình  2.6.  Mô  hình  UML  hệ  thông  khai  thác  chữ  viết  tắt  tiếng  Viét - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 2.6. Mô hình UML hệ thông khai thác chữ viết tắt tiếng Viét (Trang 66)
Hình  3.2.  Quan  hệ  giữa  các  CSDL  chữ  viết  tat. - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 3.2. Quan hệ giữa các CSDL chữ viết tat (Trang 71)
Hình  47.  Kết  quả  thục  nghiệm  AMES - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 47. Kết quả thục nghiệm AMES (Trang 106)
Hình  5.1.  Mô  hình  nhận  điện  CỨT trong  văn  ban. - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 5.1. Mô hình nhận điện CỨT trong văn ban (Trang 112)
Hình  5.3.  Mô  hình  kết  hợp  xử  lý  nhập  nhằng  CỨT  trong  văn  bản. - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 5.3. Mô hình kết hợp xử lý nhập nhằng CỨT trong văn bản (Trang 124)
Hình  5.4.  Kết  quả  thực  hiện  chương  trình  cập  nhật  tần  số  sử  dụng  CT' - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 5.4. Kết quả thực hiện chương trình cập nhật tần số sử dụng CT' (Trang 131)
Hình  ảnh  công  cụ  giả  lâp  để  triển  khai  thực  nghiệm  lập  trình  xây  dựng  từ  điển - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh ảnh công cụ giả lâp để triển khai thực nghiệm lập trình xây dựng từ điển (Trang 160)
Hình  6.  Công  cụ  Genymotion  gid  lap  máy  di  động - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 6. Công cụ Genymotion gid lap máy di động (Trang 160)
Hình  12.  Giao  diện  tra  ctia  trực  tiếp  CỤT  trên  máy  di  động - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 12. Giao diện tra ctia trực tiếp CỤT trên máy di động (Trang 164)
Hình  16.  CSDL  10S  VNPT  Đà  Nẵng - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 16. CSDL 10S VNPT Đà Nẵng (Trang 166)
Hình  17.  Minh  họa  CSDL đã  xây  dụng - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 17. Minh họa CSDL đã xây dụng (Trang 167)
Hình  1S.  Thực  hiện  chương  trình  cập  nhật  tần  số  sử  dựng  CVT - Luận văn nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng việt tiếp cận xư ly vân Đê viết tắt tiếng việt
nh 1S. Thực hiện chương trình cập nhật tần số sử dựng CVT (Trang 167)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w