Vì và nhiều tỉnh luồng, không chí tỉnh hưồng trong sử dụng ngôn ngữ tự nhién giao tiếp, dặt tên, nhắn tỉn, Email..., mà còn trong các lĩnh vực nghiên cứu khoa học, nhận dang chữ viết h
Trang 1
BỘ GIÁO DỤC VÀ DẢO TẠO
DAL HOC DA NANG
NGUYEN NHO TUY
NGHIÊN CỬU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHÀNG
TRONG TIENG VIET, TIẾP CAN XU’ LY VAN BE VIET TAT TIENG VIỆT
Chuyén nganh: KHOA HOC MAY TINH
LUAN AN TIEN SI KY THUAT
Da Nang, nim 2020
Trang 2
BỘ GIÁO DUC VA DAO TAO
ĐẠI HỌC ĐÀ NẴNG
NGUYÊN NHO TÚY
NGHIÊN CỨU NGỮ NGHĨA VẢ HIỆN TƯỢNG NHẬP NHẰNG
TRONG TIENG VIET, TIEP CAN XU LY VAN DE VIET TAT TIENG VIET
Chuyên ngành : KHOA HỌC MÁY TÍNH
LUẬN ÁN TIẾN SĨ KỸ THUẬT
Người hướng dẫn khoa học
PGS.TS PHAk HUY KHÁNH
Dà Nẵng, năm 2020
Trang 3LOI CAM DOAN Tôi cam đoan đây là công trình nghiên cứu cũu lôi, dưới sự luưởng dẫn trục tiếp
của PGS, 15 Phan Huy Khánh,
bọc Đà Nẵng
n là cân bộ giảng dạy tại Đại học Bách Khoa, Đại
Tôi cam đoan các kết quả được trình bây trong luận án là trưng thực,
không sao chép từ bÃI kỳ luận án hay nguồn tài liệu nào khác và chưa từng được ai công,
bồ trang bắt kỳ công trình nào khác Mọi trích dẫn tài liệu tham kháo đều có ghỉ nguồn
Trang 43 PHƯƠNG PHÁP NGHIÊN CỨU
4 BOCUC CUA LUAN AN
5 BONG GOP CUA LUAN AN
CHUONG 1 VAN DE CHU VIET TAT TIENG VIET
iGON NGU VA XU LY NGON NGU TỰ NHIÊN
1.1.1 Ngôn ngữ và xứ lÈ ngôn ngi
“Âm, chữ viết và vấn dễ tải tiền chữ viết
Các loại hình ngôn ngấ:
1.1.4 Xứ lj ngôn ngữ tự nhĩê
41.1.5 Van dé sie lp tiéng Liệt
1.2 NGỮ NGHIA VA NHAP NHANG NGU NGHIA THING VLET
Trang 52.1.2 Dae điểm hình thành chữ viết tả ệ
2.1.3 Quy tắc hình thành chữ viết tat tiéng Vie
3.1.4 Những yẫu tổ khác ảnh hướng đến thành lập chữ viết tắt
Đặc điểm một hệ xinh thái phần môm:
3.3.4 Lợi ich ứng dụng hệ sinh thai phan mém
2.3 HE THONG KHAI THAC CHU VIET TAT TIENG VIỆT (AMES) 5E
3.4.1 Xây dung nguồn tài nguyên chữ viết tắt trồng Việt
3.4.2 Xây dựng công cụ khai thác chữ viết tắt
3.4.3 Xây dung giải pháp xử lý nhập nhằng chữ viết tắt
2.5 TÓM TẤT CHƯƠNG 2
CHƯƠNG 3 XÂY DUNG NGUON TAI NGUYEN CHU VIET TAT
3.1 XÂY DỰNG CO 86 DU LIEV CHT VIET TAT
3.2 GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TÁT
3.2.1 Thu thập dữ liệu thủ công
3.2.2 Thu thập dữ liệu tự dộng
Trang 6v
Dé xudt thudt toan SENVA tim kiểm chữ viết tắt mới
hực nghiệm cải dặt thuật toán SENVA
3.3.1 Sứ dụng chữ viết tất trong CSDI, chuyên ngành
3.3.2 Ứng dụng chữ viết tắt trong xây dựng CSDL đanh mục
3.3.3 Đề xuất xữ dụng C¥T trong bộ mã danh mục quốc gia
3.4 DANH GIA KET QUA
1 Két qua xdy dung kho ngit liéu chit viét tat
“Kết quả ứng dụng khai thác dữ liệu chữ vì
3.5 TÔM TÁT CHƯƠNG 3
CHƯƠNG 4 XÂY DỰNG CÔNG CỤ KHÁI THÁC CHỮ VIÉT TAT
4.1 XÂY DỰNG THU VIEN CHU VIET TAT
4.2 CÔNG CU TU VAN CHU VIET TAT THƯƠNG HIỆU
4.2.1 Tin nhắn thương hiệu là gì
4.2.2 Các bước xây dựng công cụ tư
4.2.3 Thuật toán CSBCOM đặt tên tin nhắn thương hiệu
4.2.4 Cài dặt chương trình, kết quả thứ nghiệm
43 XAY DUNG TU DIEN CHU VIET TAT TREN MAY DIDO?
4.3.1 Thiết kế cơ sử đữ liệu và chức năng chương trình
4.3.3 Để xuất thuật toán SÁOM-F'TS xây dựng từ điễn
4.3.4 Cài đặt và kết quả thực nghiệm
4.4, DANH GIA KET QUA
4.4.1 Đánh gia két qua the nghiém AMES
4.4.2 Đánh giá AMES die ta theo mé hinh UML
4.5 TOM TAT CHUONG 4
Trang 73.3.3 Thuật toán nhận điện và
5.3.4 Kết hợp cơ sở luật nhận diện CVE với xử nhập nhằng
3.4.1 Tần số chữ việt tắt
5.4.2
Xay dung khai nigm
hấp đánh giả tân số, tắn suất chữ viết rải
3.4.4 Xây đựng thuật loán AFUAI và triển khai th
3.4.5 Kết quả thực nghiệm và đánh giá
5.4.6 Ung dụng kết quả xử lý nhập nhằng chữ viết tắt
5.5 TOM TAT CHƯƠNG 5
KET LUAN VA HUGNG PHAT TRIEN
17 -179
PHU LEC
Trang 8vi
DANH MUC CAC CHU VIET TAT
TIENG VIET
10 | ĐHQG Đại học quốc gia
ll | GD-DT Giáo dục và đảo tạo
29 | VH-TT Vain hoa théng tin
30 | VI-CNIT 'Viễn thông - Công nghệ thông tin
Trang 9
1 API Application Programming | Lập trinh giao dién mg
2 AMES Abbreviations Management | Hệ thông khmi tháo Chữ
Assessment frequency Giủ nhận tần số chữ viết
3 AFVAI Vietnamese abbreviations on | t&t trên Internet
Pubhe Switched Telephone | Mang dién thoại chuyên
Network mach céng céng
9 SEXVA Search Engines New May tìm kiêm chữ: viet
Vietnamese Abbreviations _| t&t moi tiéng Viét
10 | SMS Short Message Services Dịch vụ 6n nhân ngắn
Search on mobile TH biện chữ giết th
11 | SAOM-FTS | abbreviations-used Full Text | Lm kiểm chữ việt tắt : trên máy di động
Search
Ngôn naữ mô hình hỏa
12 |UML Unified Modeling Language | nối nhất
13 |VNPT VietNam Posts And Tập đoàn Bưu chỉnh
: Telecomnnumications Group _| Viễn thông Việt Nam
14 | west Weighted Finite State Chuyên dõi trang thai
Transducer trọng số hữu hạn:
Trang 10
DANH MUC HiNH ANH
3 |Hinh1.3 Tắthóa trong chữviết đântộc Ít người 30
4 |Hinb2.1 Môhinhhình thành chữ viết tắt tiếng Việt 35
5 |Hinh2.2 Mỏ binh sơ đổi khỏi bình thành chữ viết tắt tiếng Việt — 36
6 |Hinh2.3 - Ví dụ Hệ sinh thái phần mềm Microsof 45
2 |Hingz4- Sử đông UML mô hình hóa sơ đổ hệ sinh thái phần — „
mềm
8 |Hinh2.$ Mô hình hệ thống khai thác chữ việt tắt tiếng Việt 50
9 |Hmhag Môhình LMI hệ thdng Kia Hide obit vidi it emg)
Việt
10 ÍHinh31 Mô in quan hệ đỡ liệu kho ngữ liệu chữ viết tối đỗng 5
11 | Hinh3.2 Quan hệ giữa các CSDL chữ viết tắt %6
13 |Hinh4.1 M6 hinh hoat déng ctia website tra cứu chữ viết tắt 74
14 |Hinh4.2 Trang chủ wcbsite thư viên chữ viết tắt 75
16 |Hiuh4.4 Cay phan tich chudr va gia tri trọng số 8
17 |Hinh 4.5 Mỏ hùnh đồng bộ dỡ liệu về máy di động, 84
18 | Hinh4.6 - Tiếp cận nghiên cứu hình thành AMES 88
20 | Uinh 5.1 Mỏ bình nhận điện CVT trong văn bản 95
Trang 11
Chế hoại động của máy suy diễn nhận điện chữ viết
22 |Hinh 5.3 Méhinh két hep xit ly nhap uhing CVT trong vin ban l07
3 | Binh 54 ae qua ae hiện chương trình cập nhật tân số si 1),
24, | Hinh 3.5 Biển để tần suất CVT là thương hiệu đi động trên Tntcrnct 116
Trang 12DANH MỤC BẢNG BIÉU
4 | Bang 3.4 CSDL Danh mục hình thức thanh toán 66
6 | Bang 3.6 CSDL danh mue quéc gia chuyên ngành 6g
7 | Bang 3.7 Bảng thống kê sử dụng chữ viết tất 70
8 |Hảng38 Thống kế số liệu sử dụng giải pháp CVT 7
11 | Bảng 43 Kết quả tạo chữ viết tát Brandhamo 82
12 |Băng44 TÊN nhận ` vấn Brandname và sự lựa chọn của
13 |Bang 4.5 Kết quả so sánh các tác nhân AMBS và SECO 90
14 | Bảng 5.1 Bang thống kế sử dụng chữ viết tắt (mẫu gửi đủ) 92
16 | Bing 53 Tinh toan tân suất xuất luện CVT trong một phạm ví | rạn
7 Bảng 5.4 Bàng câu tính loàn Lm số sử dụng, lan sual 114
18 | Bảng 5.5 Tương quan tân suất CVT va thi phan dich vụ 115
Trang 13MO DAU
1 BAT VAN DE
Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử đụng chữ viết tắt (CVT)
chỉ với mong muốn rút gọn thời giam, công sức Câu chuyện “Người ăn cắp cửu” [79] (phụ lục 1) cho thấy CVT là trội vẫn để tuy không lớn, không hẳn là mới mẽ nhưng,
cỏ lẽ ai cũng gặp phải khi đọc hiểu một van ban, vi du chữ viết tắt ST! ! trong câu
kha ¢ than về trình độ, độ tuổi, sự trai nghiém, tinh vue hay chuyén ngành Hơn nữa,
thời gian, trí nhớ và quan niệm của con người đã làm nhằm lẫn, làm phát sinh thêm ý nghĩa mới CV'T như chữ SL' nói trên Thực tế cuộc sống và giao tiếp lkm nảy sinh tim
hiểu ý nghĩa CVT là gì Đây không phải là van dé dé dang đổi với tắt cả mợi người
Khi đọc mệt văn bản, hằu hết người đọc đêu phải đừng lại chốc lát để hiểu được CVT
ấy là gì Thậm chí có khi người đọc phải mắt vài phút tim hiểu và tra cửu rà vẫn
chưa hiểu được dây dã CVT Vì và
nhiều tỉnh luồng, không chí tỉnh hưồng trong sử dụng ngôn ngữ tự nhién (giao tiếp, dặt
tên, nhắn tỉn, Email ), mà còn trong các lĩnh vực nghiên cứu khoa học, nhận dang
chữ viết hình ảnh, địch thuật
Treng ngôn ngữ tr nhiên (NNTN), xu hướng thế hiện văn bản, lời nói ngắn
; vẫn dẻ phân giải ý ngÌữa CVT là cần thiết trong,
gon, đơn giản, nhưng chuyển tải lượng thông tin lớn mà viết tắt trở thành một hiện tượng phố biển trong nhiều thử tiếng khác trên thể giới Viết tắt, nói tắt dược sứ dụng,
rộng rãi trong nhiều lĩnh vực, nhiêu chuyên ngành, từ các nhà sẵn xuất, các nhà xuất
+ ST: Người ăn cấp cửu (Shcep Theft) hay ST: Thánh thiện (Saint)
Trang 14La
bản, đến các nhà quản lỷ, sử dụng, nghiên cứu, giảng dạy Người dùng có nhu cầu
su dung CVT dễ gìú nhận, chuyển tái lượng thông tin lớn, đôi khi chứa dựng những,
tí ấn bắt ngờ trang đó Trên văn đàn Việt Nam, chữ viết tắt TTKI], tác giả bài thư
«Hai sắc hoa tỉ gồn»2 vẫn cón là điên bì ân và gây nhiễu tranh luận cho đến nay Vậy
xiên việc sử đụng, lưu trữ, xử lý CVT trong bối cảnh chuyên ngành khoa học công, nghệ thông tin (CNTT), lĩnh vực liên quan dến sử tương tác giữa máy và NNTN
không thể không quan tam dén van dé CVT
Khoa học chuyên ngành CNTT đã định hình lĩnh vực liên quan đến sự tương táo giữa máy và NNTN là lĩnh vục xử lý ngôn ngữt tự nhiên (XLNNTN) Mục tiêu của lĩnh vực này là giúp cáu chương trình trong muy tính hiểu được NNTN Một
hé thống XUNXTN có thể bắt dầu ở mức từ để xác định câu trúc hình thái, bản chất của từ (vi dụ như gán nhãn tử loại, ngữ nghĩa) , sau đỏ có thể chuyển sang mức câu
đã xác định trật tự từ, ngữ pháp, nghĩa của toàn bộ câu, tiếp theo lả mức ngữ cảnh vả
theo tùng chuyên ngành [7][52][56]
ác công Irình nghiên cứu về XI.MNTN trên thể giới ra đời rất sớin, từ những,
xăm 1940 |52J, theo Hai hướng sơ bản: Hướng nghiên củu đầu liên vào giai doạn năm 1940-1950 là mê hình các máy tự động và các mỏ hình xác suất, hướng nghiên cửu tiếp theo với các giai đoạn năm 1957-1970, XLNNTN tập trung nghiên cứu theo lý
thuyết ngồn ngữ hình thức của Chomsky vả trí tuệ nhân tạo cho tiếng nói như các phương pháp Bayes [56] Tiếp đến, giai đoạm 1970-1963 phát triển mạnh mẽ các
ind bin nghiên cửu về XINNTN: giai đoạn 1983-1993, nghiên cứu lập rung trở lại
1nô hình ưạng thải hữu hạn, các phương pháp xác suất và hưởng tiếp cận dựa trên các
dữ liệu lời nói trong phân tích cú pháp, gắn nhãn từ loại và xử lý nhập nhằng ngữ nghĩa [S2] Giai đoạn từ năm 1994 đẻn nay, chuyên ngành XLNNTN đã có những
thay đối và bước phát triển mới Nhiều thuật toán phân tích cá pháp, gán nhấn từ loại,
truy xuất thông tin cũng đã được nghiên cứu và áp dụng như Nhận dạng tiếng nói,
kiểm tra chính (4, kiểm tra ngữ pháp, công cự truy xuất và trích chợn thông tin trên web [52] Giai đoạn này ghi nhận sự phát triển các nghiên cửu phương pháp dich may thống kê, chẳng hạn như Google [62], [63] cũng đã ứng đựng trong hệ dịch tự động
từ răm 2007
1 Tiêu thuyết thứ bảy - năm 1939
Trang 15Trong tiếng Ảnh, có nhiều công trùnh nghiên cứu giải quyết nhập nhằng ngữ nghĩa dã dược thực hiện với hai hưởng tiếp cận cơ bản”: Giải quyết nhập nhằng dựa
trên thông tin trong một ngữ cảnh cụ thể và dựa trên những thông tỉn thu được trong,
việc học từ vải tập ngữ liệu học [53][67] Sau đỏ cèn có nhiễu công trình đứng kết
hop cả hai phương pháp này [68], sử dựng các mô hình thống kẻ các loại đồng nghĩa
dễ xác định nghĩa của các từ tiếng Anh dẻ khử nhập nhằng Có nhiều công trình nghiên cửu chuyên sâu CVT trong y học như [71][72][73][68], giải quyết vẫn để nhận dạng, khử nhập nhằng CVT trong văn bản tóm tắt y học về bệnh nhân, về hệ thông
NLP chuyên ngành y học, giúp đua ra quyết định, tạo điều kiện chăm sóc bệnh nhàn
tất hơn Cô nghiên cứu ỞVT trong ngôn nựữ tiếng Trung, tiếng Do Thái rửa [69||57 |,
nghiên cửu nhận điện CVT đựa vào thông tin ngữ cảnh văn bản, sử dụng phương,
pháp máy học để nhận đạng CVT bởi thuộc tính nhất quản trong văn bản
‘Van đề xử lý tiếng Viet (MLTV) đã được triển khai nghiên cứu từ năm 1990,
đã có nhiêu công trình đưc công bỏ [9][25]{S6] Về nghiên cứu nhập nhằng, xử lý
nhập nhằng Hong tiếng Việt, gần đây có gá
công trình nghiên cứu khử nhập nhằng
trong một vải lĩnh vực: Xử lý nhập nhằng tiếng Việt và ứng dụng trong Ira cứu tôi liêu phục vụ giảng day và học tập |42]; xử lý nhập nhằng trong tìm kiểm văn bản tiếng Việt học từ vải tập ngữ liệu; khả năng khắc phục trong soạn thảo văn bản [43],
nghiên cứu 4
[3] Về CVT tiếng việt, đã có một số công trinh nghiên cửa
liệu (CSDI) CVT và ứng đụng trong một chuyên ngành: [26]|29] để cập đến hiện
tượng nói tắt và việt tắt trong tiếng Việt, |39| biể
CVT dùng tiếp cận học máy, [40] thực hiện chuẩn hóa văn bản tiếng Việt dựa trên bộ
quy tắc, [66] thể hiện bối cảnh trong mở rông viết tắt bằng cách sử dụng phương pháp đọc máy Một số từ điển CVT téng Việt Không dụng, thường dùng trong chuyên ngành (y học, viễn thông, ), Hếng nước ngoài đã được xuất bản như
I8II18JI19JI35JI36]: ác xuất bãn này đã chọn lọc và giới thiệu các CVT một số
chuyên ngành, chưa quan tâm đến sự hình thành, sự biến đổi và ứng dụng CVT, nhất
Trang 16la van dễ nhập nhằng ngữ nghĩa CVT Nhìn chung, déu nay chưa có công trình nào nghiên cửu một cách hệ thông và dày dủ về CVT tiếng Việt
Trong bẻi cảnh chung của việc XLNNTN vả XLTV, trên cơ sở tìm hiểu lý
Thuyết về ngắn ngữ học và thực trạng sử dụng CVT trong thực tiễn, ta nhận thay ring
'NNTN luôn biến dối và phát triển không ngừng: trong đó sự hình thành CVT dược xem như là phương thức hình thành nên từ ngữ mới, với những biến dỗi ngữ nghĩa CVT da dang Do dé, dé gop phân giải quyết các bài toán trong XLTV, dễ tài này đặt vẫn để cần thiết phải nghiên cứu: tiếp cận vấn đẻ ngũ nghĩa, nhập nhằng ngữ
nghĩa, xử lý, nhận dạng CVT, hướng đến xây đựng môi trường khai thác kha dung,
phat triển ŒVT bởi nó liên tục biến tấu, tay đối và luôn có nhú cầu sử dịng trong
thực tiễn
Câu chuyện Người ăn cắp cửu |79| cho ta thấy sự biển dối ngữ nghĩa của chữ viết tắt ST qua thời gian, không gian và ngữ cảnh điễn tả theo ý nghĩ, nhận định của
cơn người Việc XLLTV trong văn bản chắc chắn gặp phải vấn đề nhận nhằng ngĩt
1ụchữa CVT Xuất phát từ tình hình thực liễn và nhu câu riêu trên, dựa vào ý tưởng hệ
sinh thái phần mềm (Sofisvare Eoosysytems) |64]|65|L77I tác giả nhận thấy cần nó nghiên cứu tạo lập hệ thống khai thác, sử dụng CVT ngày cảng thuận tiện cho người
dùng, có tỉnh gợi mở, hợp tác trao đổi các vấn đề đã và đang nghiên cửu, cùng tạo ra môi trường học tập và trao đổi thông tin các vẫn đề liên quan đến CVT, góp phần nhỏ
trong nghiên cứu XT/TV Đề lài gũa luận án được chọn: “NghiÊn cứu ngữ nghĩa và
hiện tượng nhận nhằng trong tiếng Việt, tiếp cận xứ lý vấn đề viết tái tiếng
triển khai thực hiện theo 3 nội dụng nghiên cứu:
1) Ngữ nghĩa vá vẫn dé nhập nhằng ngữ nghĩa trong tiếng Việt, tiếp cận vấn
đề chữ viết tắt tiếng Việt, 2) Tiếp cận xử lý chữ viết tắt tiếng Việt
3) Xây dựng mỏi trường khai thác chữ viết tắt tiếng Việt
Nội dung thử 1 vả thử 2 đã tập trung nghiên cửu các vận dé cơ sở khoa học
về ngôn ngữ học, ngữ nghĩa học, xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt, ngữ nghĩa,
biển đổi ngữ nghĩa, hiện tượng nhập nhằng trong tiếng Việt
Nôi đung thứ 3 nghiên cửu xây dụng hệ thông khai thác CVT, để xuất thuật toán xây dựng công cu tu van đặt tên CVT sử dụng trong tin nhắn thương hiệu cho
Trang 17doanh nghiệp Xây dựng phương pháp đánh giá tần số, tân suất CVT trên mang Internet, cải dặt thuật toán ghi nhận tân số CVT trên mạng, Để xuất giải pháp xử lý
nhập nhằng C'VT trong vần bản bằng cách xây đựng cơ sở luật nhận điện CVT, kết hợp với cáo CSDT CVT, thông kê tân số, tàn suất sử dụng để có một mô hình xử lý
thập nhằng ŒVT trong vin ban
2 MỤC TIỂU, DỎI TƯỢNG VÀ PHẠM VI NGHIÊN CCU
3.1 Mục tiêu
Mục tiêu nghiên cửu của để tài bao gồm những nội dung chính:
Sau khi tìm hiểu tiếng Việt về phương diện ngôn ngữ học, luận án nghiên cứu
hiện tượng nhập nhằng và xử lý nhập nhằng tiếng Việt nói chung, CVT tiếng Việt nói riêng, nghiên cứu CVT và nhu cầu sử dựng trong thực tế ở tất cả các lịnh vục, chuyên ngành Từ đó, hiếu được trí thức về CVT, triển khai thực hiện nghiên cứu đạt được 4
mục tiêu chính:
1) Nghiên cứu, phát
tri thức và xây dựng kho ngữ liệu CVT
2) Tổng kết các quy lắc hình thành CVT, xây đựng hệ thống khai thác CVT 3) Bé xuất chuân hóa CVT và triển khai giải pháp xử lý nhập nhang CVT
4) Xây đựng công cụ, ứng dụng và khai thác CVT,
Kết quả nghiên cứu định hướng đến công bố khoa học rộng rõi nhằm góp phan nhỏ giải quyết nhập nhãng, CVT, giúp cho việc sử dụng CVT một cách nhật quản, dị đến chuẩn hoá hệ thống CVT, từng bước làm giàu hệ thống từ vựng, gớp phân phát triển ngôn ngữ liễng Việt
2.2 Đối tượng
TẺ tài nghiên cứu về bản chất ngôn ngữ tự nhiên nói chưng, ngữ pháp tiếng
Việt, các phương phép, kỹ thuật và công cu XLNNTN, XLTV, trong đó có phương,
nyên gia lin học; nghiên cứu CVT trong vn bin, sich, bio, website
CVT trong NNTN ê tật cả các lĩnh vục đời sống xã hội Tiếp cận từng bước, khỏi
Trang 18dâu từ vấn đẻ lỷ thuyết và thực tế sử dụng CVT dễ dần đâu di dến vấn để chuyên sâu
và thu hẹp hơn trong lĩnh vục khai thác, xử lý vả sứ dụng CVT trong chuyên ngành viễn thông, CNTT
2.3 Pham vi
Về lĩnh vực nghiên cứu lj thuyết, luận ám nghiên cứu XUNNTN, XLTV, chủ yếu xi ly vin ban, hiện tượng nhập nhằng, vẫn để ngừ nghĩa, công cụ XLNNTN,
XLIV
Về lĩnh vục nghiên cứu sử dụng CET, đề tài không han ché pham vi, trong
mọi lĩnh vực đời sống xã hội Tuy nhiên, để 1ai lập trưng vào lĩnh vực khoa học, công, nghệ và kỹ thuật, cỏ tham khảo CVT tiếng Anh và một số ngôn ngữ khác
PF môi trường phái triển ứng dụng, chủ yêu là xây đựng kha ngữ liệu, xây
dựng công cụ, ứng dụng, hình thành môi trường khai thắc, nghiên cứu CVT, cài đặt
thử nghiệm trong, chuyên ngành và dưa vảo khai thác trực tuyến Pham vi giới hạn ting dụng xử lý nhập nhằng CVT trong lĩnh vực viễn thông, CNTT
3 PHƯƠNG PHÁP NGIHÊN CỨU
Các phương pháp nghiên cúu cơ bản dược sử dụng trong luận án gồm
ba phương pháp: Khảo sát thực tế, nghiền cửu lý thuyết và nghiên cứu thực nghiệm
Khảo sát thực tố: Khảo sát vẫn dé sir dung CVT trang van bản, Internet, quy
dịnh ngữ pháp, thực tiễn, chuyên ngành viễn thông ; kết hợp phương pháp phỏng, vấn trực tiếp một số chuyên gia, từ đỏ so sánh, đối chiếu, kiểm chứng lại những thông,
tìn CVT đã tìm thập được
Nghiên cứu lý thuyết: Nghiên cứu trên các tài liều liền quan đến lý thuyết ngôn ngữ học, XLNNTN, phương pháp tách từ, xây đựng từ điển, kỹ thuật xây dựng máy
tim kiếm Nghiên cứu lý thuyết xây đựng vị tủ, bàm, cơ sở luật và máy suy diễn; vận
dụng lý thuyết Công nghệ phần mêm, CSDI, vào thực nghiêm
Nghiên cứu thực nghiệm: Tìm hiểu cáo kỹ thuật tìm kiểm, xây dụng thuật toán
và các bộ công cụ dựa trên giải pháp đã được đề xuấi Dữ liệu đầu vào củ
tác công
sụ là đữ liệu dược dùng trong thực tiễn, từ nguồn tài nguyên xây dựng,
Trang 19x
Ngoài ra, còn có sự kết hợp phương pháp thảo luân, trao đổi các nhà nghiên cửu thông qua các hội thảo; từ đỏ, lựa chọn phương hướng tối tu giải quyết vẫn đề, đồng thời có kiểm nghiệm, thữ nghiệm và đánh giá kết quả khách quan hon
4 BO CUC CUA LUAN AN
Sau phân mở dầu giới thiệu mục dich triển khai dễ tải, nội dung chính gồm 5 chương, phần kết luận và phần phụ lục Cụ thể như sau:
Chương 1 nghiên cứu tổng quan, những nhân tổ lảm cho ngôn ngữ biển đổi và phát triển: nêu lên những vẫn để về XLNNTN đặt trong bối cảnh chung để tiệp cận vẫn đề ngữ nglfũa và nhập nhằng ngữ nghữa Tìm hiểu sự biến đổi phải triển ngôn ngĩt tiếng Việt: sự biển déi tir vung và sự biến dội ngữ nghĩa Đây là cơ sỡ lý luận của ngôn ngữ học để luận án tiếp cận nghiên cửu vấn để CV tiếng Việt Từ đó phân tích các hạn chế, phát hiện đặt vẫn để cần nghiên cửu
Chương 2 tiếp cận nghiên cửu vẫn đề hình thành CVT tiếng Việt bảng cách tìm hiểu CVT trong cuộc sống với lịch sử hình thành, nhú cầu sử dụng Thông qua việc mỏ hình hỏa sự hình thành, xem xét kỹ nguồn gúc tạo nên CVT, xây đựng các gợy tắc hình thành CET; tìm biểu các yêu tố ãnh hướng dến hình thành CV T, so sánh với những quy định ngữ pháp tiếng Việt về sử dụng CVT, làm rõ đấu hiệu nhận biết CVT trong văn bản Nội dung chương 2 là kết quả nghiên cứu đây đủ vấn để CVT tiéng Việt, trong tâm là để xuất xây dựng hệ thông khai thác CVT tiếng Viét (AMES)
Đó là một trường khai thác CVT tiếng Việt dựa trên ÿ tưởng hé sinh thai phan mém, dược triển khøi thực nghiệm dễ tạo lập kết nối giữa các tác nhân NSD, chuyên gia nghiên cửu, doanh nghiệp, lập trình viên, nhả cung cấp bạ tằng với nhau
Chương 3 nghiên cứu xây đựng nguồn tải nguyên CVT tiếng Việt, bao gdm:
xây dựng CSDL, để xuất phương pháp thu thập dữ liệu, để xuất và thực nghiệm thuật toán thmn kiểm ŒVT mới trên mạng Iaternct và cập nhật vẻ CSDL Để xuất một vai
ủng đụng khai thác nguồn tải nguyên CVI, dic biét là img dung sit dung CVT trong,
CSDL, dé xudt van dé str dung CVT trong viée ban hanh bé ma danh mục chuyên
ngành, ban hành bộ mã đanh mục quốc gia Đây là một trang những yêu câu cần thiệt
dé tạo điều kiện chia xé, trao đối đữ liệu với nhau
Chương 4 trình bày kết quả xây dựng một số công cụ khai thác CVT tiếng
Việt từng bước thực nghiệm hình thành một hệ thống khai thác CVT tiếng Việt dựa
Trang 20trên ý tưởng hệ sinh thải phần mềm WZebsửe tra thư viện viết tlÊ và Chương trình từ diễn trên máy di động” là hai công cụ phục vụ khai thác nguồn đữ liệu CVT, dang bộ
đữ liệu với nhau Tử điển trên máy di động cô sự tùy biên cá nhân khi sử dụng CVT trên máy đi động như thống kẽ, tần suất sử dụng cá nhân Chương 4 còn xây đựng,
công cụ tư vấn đặt tên thương hiệu Brandrurne cho doanh rughiệp, thực nghiệm triển
khai áp dụng vào thực tiền địch vụ chuyên ngành viễn
Chương 5 tập trung phân tích và dễ xuất giải quyết vẫn dễ xử lý nhập nhằng,
CVT Phân tích ngữ cảnh văn bản, nhận điện tỉnh huồng sử dựng CVT trong van ban,
đưa giải pháp xủ lý nhập nhằng CVT trong văn bản chuyên ngành Xây dựng vị từ và
ham nhận điện CVT trong văn bên, tù đỏ để xuất xây dựng cơ số luật, thuật toán nhận
diện và xử lý nhập nhằng CVT, dễ xuất xây dựng máy suy diễn nhận điện CVT trong
văn bân, giới hạn trong lĩnh vực chuyên ngành viễn thông, Chương 5 còn nêu lên
hướng tiếp cận xử lý nhập nhằng CVT đựa vào chỉ số tần suất xuất hiện CVT; xây
đựng tmật toán và thực nghiệm đánh giá tần số, tấn suất CVT trên mạng Internet va đứa ra nuốt vải ứng dựng thực tiền
Phân kết luận trinh bảy tôm tắt nội đụng và kết quả luận án đạt được Phần pha
lục trình bảy bổ sung các giãi thích, hình ảnh, bảng biểu, thuật toán, mãi lệnh
5 DONG GOP CUA LUAN AN
Luan án đã có những đóng góp khoa học và ứng dựng thục tiễn như sau
1 Phải hiện và xây dựng kho ngữ liệu chữ viết lẮt
Kho ngữ liệu được cập nhật từ nhiều nguễn dữ liệu khác nhau theo sự biến
Trang 21hình thành CVT, xem xét kỹ nguồn gốc tạo nên CVT, phân tích, tổng hợp đẻ xây dựng và đã công bổ 9 quy tắc hinh thanh CV trong bai bao sé [8]
Luận án đã để xuất AMIBS, mô hình hóa hệ thông khai thác CVT Dây là môi
trường khai thác CVT tiếng Việt dựa trên ý tưởng hệ sinh thái nhân mềm, có tính én định, tỉnh mô, tỉnh kế thừa; được triển khơi thử nghiệm dễ tạo lập kết nói giữa các dối tượng KSD, chuyên gia nghiên cứu, doanh nghiệp, lập trình viên, nhà cưng, cấp hạ
tang với nhau
3 Góp phần xứ lý nhập nhằng chữ viễt tắt
Tận án xây đựng 27 vị từ điều khiến, nhận điện CVT trong văn bản: xây đựng,
12 hàm xử lý chuỗi, lập 12 huật làm cơ sở xây đựng máy suy diễn thận điện CVT và
triển khai thử nghiêm trong chuyên ngành viễn thông,
Luận án đã đẻ xuất giải pháp xây dựng công cụ thống kẻ tân số, tân suất CVT tiếng Việt nhằm góp phản giúp nhà nghiên cứu quan sát, lưu trữ, thống kê và phần
tích các hiện tượng phát triển ngôn ngữ tiếng Việt nói chung và ŒVT nói riêng qua
Taiận án đã xảy đựng được hai hệ thông từ điển: Website thư viện CVT 7 và
Từ điển CVT trên máy đi động TTai hệ thống này có sự đồng bộ dữ liệu với nhau đâm bão thống nhất chưng nguồn đữ liệu Tuy nhiên có sự túy biển cá nhân khi sử
dung CVT trén may đà động như thông kê, tần suất sử đựng cá nhân,
Xây dựng dược ứng dụng xuáy thu kiếm CVT ruới, xây dựng công cụ quảng
bá thương hiệu Irandname cho doanh nghiệp, công cụ tư vấn đặt tén Brandname cho
doanh nghiệp (tránh trùng lặp, nhập nhằng), từ điển CVT trên máy di động cho NSD Các ứng dụng trên là những thành phản trong hệ thống AMBS Xây dụng và
triển khăm thực nghiệm 4 thuật toán: Thuật toán SENVA - cập nhật tự động CVT mới
từ Trfemet, thuột toán SAOM-FTS - từ điển CVT trên đị động, thuật loán CSBCOM
- tư vẫn thương hiệu, thuật toàn AI'VAI - danh gid tin sé CV'L
7 http:/Awww.choviettat.com
5 ABC Acronym Dictionary
Trang 2210
Xây dựng công cụ thông kê CVT va dễ xuất chuẩn hóa, sử đụng CVT ở phạm
vị chuyên ngành VT-CK'TT: Xây dựng khải niệm tân số, tân suất CVT trên luternet,
giải pháp và xây đụng thục nghiệm công cụ thông kê CVT tiếng Việt, lâm eơ số đánh
giả, lượng hóa chỉ số sử đụng, sư phát triển ŒVT trong thực tiễn
Tuiận ẩm cũng đãi để xuất chuẩn hóa, sử đụng ƠVT ố phạm vĩ quốc gia: Cân thiết phải xây dung và ban hành bộ mã chuẩn CSDL danh mục quốc gia, ưu tiên sử dụng CVT có tỉnh gợi nhớ, dễ sử dụng, tạo diều kiện trao dôi chia xẻ thông thì CSD1, quốc gia để đàng và đồng hộ
Đóng góp của luận án như là gạch nổi nhỏ giữa lý thuyết ngôn ngữ học với
thực tiễn sử dụng CVT và với ngánh XLNNIN trong CNTI, góp phần củng giải
quyết vẫn để CVT tiếng Việt được nhiên người quan tâm
Trang 2311
CHƯƠNG 1
VAN DE CIIU VIET TAT TIENG VIET
Chương này wink bay những nghiên cửu tổng quan mội số vẫn đễ cơ bản
ngôn ngữ và xử lý ngôn ngữ tự nhiên, các phương pháp tiếp cân và nhữơng định hướng
xử lỷ ngôn ngữ, từ đỏ xúc định các vẫn đề nên tảng nghiên cửa của luận án
Mỗi dàng chương 1 còn đề cập đến vẫn dé CVI tiếng Việt trong cuộc sống
với lịch sử hình thành ở một số ngôn ngữ, đề suất khải niêm ngữ nghĩa, sự biển đổi
ngữ nghĩa, nhận nhằng, xử lê nhập nhằng CWT Từ đo, tiến cận khảo sắt thực tiễn
sit dụng CET, mô hình hỏa sự hình thành CVT nồng Việt
N NGỮ VẢ XỨ LÝ NGÔN NGỊ
Nội dung luận án thuộc lĩnh vục XLNNTN, nghiên cứu hiện tượng nhập nhằng
Ấn để CVT tiếng Việt Trước khi đi sâu vào những vẫn dễ cốt lõi, luận án tìm hiểu một số khái niệm như ngôn ngữ, hệ viết, ngôn
trong xử lý tiếng Việt, tiếp cân xử lý
Theo [4][28], ngôn ngữ đã có từ rất lâu, vào nửa cuối thể kỉ thứ TV trước Công,
nguyên ải liệu ngôn ngữ cổ xưa nhất tìm thấy ở Ấn Độ, Hi Lạp và Ảrập,
Ngân ngữ là một hệ thẳng tín biệu đặc bìi
Tin hiệu ]à tuột đổi tượng, vật
chất kích thích vào giác quan, con người nhận thức được đối tượng đó Tin hiệu ngôn
ngữ là các hình vị và các fừ Hình vị và từ dược coi là tín hiệu vì chúng là một thê
thống nhất hai mặt âm thanh (cái biếu hiện) và ý nghĩa (cái được biển hiện) [17][31]
Mỗi ngôn ngữ là hệ thống nhiều cấp độ, nhiều yếu tố đồng loại, không đồng
loni với số lượng không xác định, tín hiệu ngôn ngữ có tính da trị, có màu sẮc Là từ ~
diễn cảm, có tính độc lập tương đổi, có giá trị đồng đại, lịch đại [28][31] Ngôn ngữ
là hệ thống tin hiệu tổng hợp được người băn ngữ chấp nhận, ghi nhớ, sử dụng giao
tiếp với cộng đồng xã hội”
Ê Theo "Lỡi nói dan", Giáo trình Ngón ngữ học đại cương (bán dịch của Cao Xuân Hạo) NXE Khoa học Xã
hội, 2005, đăng trên website http: /ngonngu net’
Trang 24Chức năng của ngôn ngữ: Ngôn ngữ có chức năng là phương tiện giao tiếp
quan trong nhất cửa con người (nhưng không phải là duy nhất), là phương tiện, công,
cụ của tư duy, trực tiếp tham gia vảo quá trình hình thành, phát triển bư hướng
Nguân gỖc và sự phát triển của ngôn ngặ: Theo [28], có nhiều quan niềm và
khưynh hướng khác nhau về nguồn gốc ngôn ngữ học xã hội Hiện nay có trên S00
thuyết nguồn gốc ngôn ngữ như: †uyết teong thanh, Thuyết Hồng kêu trong lao động, Ngôn ngũ học Mác-xiL cho rằng nguồn gốc ngôn ngữ bắt nguồn Lừ lao động,
1.1.2 Am, chữ vị lên chữ viết
và vẫn dé cai Khái niệm chữ viết: Theo [30], ầm thanh hay lời nói là cải vô vật chất của ngôn ngữ vẫn có những han chế nhất định, có giới bạn, không thể truyền đạt rộng rai và
chính xác, lưu giữ làu dải Nó bị hạn chế về khoảng cách và thời gian |901 Khắc phục
hạn chế đó son người tìm cách xây dung chit vit Chit vidi là ki tự ghi lại ngôn ngữ, chữ viết là hệ thống tin hiệu của tín hiệu [30]
Sự khác biệt giữa âm và Chữ viết có sau và phụ thuộc vào âm thanh
ngân ngữ [30] Chữ viết có tính én định và bên vững Chữ viết biểu thị ngữ âm, có
thể chỉnh xác hoặc gần dủng, Ngôn ngữ biến hỏa liên tục trong không gian vá thời gian trong khú chữ viết có xu hướng đứng yên (tính bảo thủ) [30] Chữ việt là phương, tiện hoàn hão để truyền đạt thông tin, lưu giữ thông tín, kích thích sự sáng tạo, là
thành quả kỳ diệu, vĩ đại của loài người [91] Tuy chữ viết có tính bảo thú, én định
và bên vững, nhưng vẫn oó những cải tiến, sáng †ạo trong quá trình phát triển
Vẫn đề cải tiến chữ viết: theo [27], ở Việt Nam, vẫn đề cái tiên chữ quốc ngữ
đá được để cập từ lâu, được thão luận sối nỗi vào đầu thập kĩ 60 Thời gian gần đầy
có những đề xuất cải tiên chí viết gãy nhiêu tranh cai [88][89][92]; nhumg co ban van
chua có nhiều thay đổi, do lính báo thủ của chữ viết, do thởi quơn và truyền thông,
văn hóa Việc cãi tiến chữ việt thường điển ra phức tạp Theo [88], viée cai tién chit
viết tiếng Việt cần phải dược cân nhắc, xem xét kỹ lưỡng và thận trọng
Trang 2513
Nhân xét: CƯT cũng là một hướng làm thay dai chữ viết, có thể được xem là cải tiễn chữ viết một cách tự nhiên Chẳng hạn, người sử dụng việt tắt đùng các kí hiệu viết tắt mang tinh chất cả nhân: fề Tán (phê phán), ffáp (phương pháp)
1.1.3 Các loại hình ngôn ngữ
Ngôn ngữ tự nhiên: Một ngôn ngữ tự nhiên là bắt kỳ ngôn ngữ não phát sinh:,
khảng suy nghĩ trước trong não bộ của con người Dịnh nghĩa cáo ngôn ngữ tụ nhiên
thường phát biểu hay ngụ ý là ngôn ngữ mà bất kỳ đứa trẻ nào cũng có thể học và được phát triển thông qua sử dụng ngôn ngữ vả noi"
Ngân nại hình thức: Trong toán học và khoa học máy tính, dé nghiên cứu
sâu hơn về ngôn ngữ tự nhiên, người là xây dựng ngôn ngữ hình thức ([ormal language) [37] Một ngôn ngữ hình thức được hình thức hóa, dược dịnh nghĩa là một tập các chuối (string) được xây dựng dua trén mét bang, chi cai (alphabet), chúng, được rảng buộc bởi cáo luật (le) hoặc văn pham (grammar) được định nghĩa trước Bảng chít cái là tập hữu hạn các kí tự quy ưóc!!
Giả sử có một bảng chữ cái > = {a, b} và kí hiệu L là ngôn ngữ, |I3)|| là số ký
tự của Ð, ||š|I > 0 và ||X|| EM Như vậy, ta có thế định nghĩa một số ngôn ngữ trên
bảng chữ cái Ð như sau:
là {an naa}; lạ fabs, sab} ;Ia - {ab, ba, søbb, sembbb,.}
Lý thuyết ngôn ngữ hình thức còn được ứng dụng trong xây dựng ngôn ngữ lập trình Trong lý thuyết độ phúc tạp tính toán (Computational cornplexity theorv), các vân đề quyết định (decision problems) được định nghĩa như là các ngôn ngữ hinh
thúc, các lớp độ phúc tạp (complexily classes) được xác định là tập của những ngôn
1rgữ tình thức Trơng toán học, cú pháp của các hê thông tiên đề biểu điển bằng ngôn
ngữ hình thức
Các mức tiếp cận ngôn ngữ tự nhiên và ngôn ngữ hình thức: Cáo tầng mức
ngân ngữ tụ nhiên (và ngôn ngữ hình thúc) bao gêm từ vựng, cú pháp ngữ ngiữa và
ngữ dụng học Tầng mức ;ử vựng (kí tự, từ, cụm từ, chữ, câu ) tương déng nhu bang
chữ cái trong ngôn ngữ hình thức 7# vựng học là bộ môn nghiên cứu từ vựng cúa
‘© butps://vi wikipedia orgrwiki/Ngée_ngf tự nhiên
"" Theo hitps:/tvi wikipedia erg/wiki’NeGn_ngi_hinh_thite
Trang 2614
ngôn ngữ: nghiên cứu cấu tạo từ, nguồn gốc, ÿ nghĩa từ vựng Mức ngữ nghĩa nói
đến nghĩa thực, nghĩa đen, nghĩa bóng, rộng hay hẹp, đơn nghĩa hay đa nghĩa Nei
ngiấu học là chuyên ngành ng]iễn cứu về ý nghĩa, tập trung vào môi quan hệ giữa cải
biểu thị, biểu tượng vả ý nghĩa của chủng Vs# đụng học nghiên cứu về cách làm sao ngữ nghĩa lại được chuyển tải qua không chi cau trúc và hiểu biết ngôn ngữ (ngữ
pháp, từ vựng ) cña người nói và người nghe, mà côn qua cả ngữ cảnh của phát ngôn,
cùng với những hiểu biết có từ trước đó liên quan tới chủ đề, ý đỗ được suy ra của
người nói, và cáo yếu tố khác
1.1.4 Xử lý ngôn ngữ tự nhiên
XLNNTN [7] lẻ một nhánh của lĩnh vục trí tug nhén tao, Artificial Intelligence (AD [39] Theo [90], XLNNTN lả một trong những phân khó nhất vi nó liên quan
đến việc phải hiến ý nghĩa ngôn ngữ Trong NNTN nói chung, một từ thường có nhiều
hơn mội ý nghĩa Sự đa nghĩa của từ không ảnh hưỗng quá lớn trong giao tiếp hàng, tây bồi khả năng xử lý tốt ngôn ngữ cũa cơn người trong mmội ngĩt cỗnh giao tiếp,
mặc dù vân có những biểu hiện hiểu làm hay mơ hồ ngữi nghĩa của từ: đây là hiện
tượng nhập nhằng trong ngôn ngữ tự nhiên Có 5 bước XLNN'TN [7][90†
"Phân tích hình thái: Trong bước này, tùng từ sẽ được phân tích và các ký tự
không phải chữ (thư các đầu cầu) sẽ được tách ra khỏi các từ? Trong Hồng Anh và nhiều ngôn ngữ khác, cáo Lừ được phân tách với rau bằng đấu cách Trong tiếng, Việt, đâu cách được dùng để phân tách các tiếng (âm tiết) clrử không phải tử
Phân tích củ pháp: Dãy các từ sẽ được biên đỗi thành các câu trúc thể hiện sự
liên kết giữa các từ này Sẽ có những đây từ bị loại do vì phạm các luật văn phạm
Thông thường, các ngữ đoạn văn phạm này được biếu điển bằng dạng cây phân tích
cú pháp với: Ngôn ngữ được đặc tã bởi các luãi sinh, Phân tích củ pháp đựa vào luật
sinh đề xảy dựng cây phân tích cú pháp
Phân tích ngữ nghĩa: Thêm ngữ nghĩa vào các cấu trúc được tạo ra bởi bộ
phân tích cú pháp Một phan quan trọng trong giai đoạn phản tích ngũ nghĩa là kiểm tra kiéu (lype checking) va ép chuyên đổi kiểu
'?nhps:/2vi.wikipcdia.œrglsiki Xú_lý ngôn ngữ tụ nhiễn
Trang 27Tích hợp văn bản: Ngữ nghĩa của một câu riêng biệt có thể phụ thuộc vào
những cầu dứng trước, dòng thời nó cũng có thể ảnh hưởng dên các câu phía sau
Phan ích thực nghĩa: Cầu trúc thé hiện điều được phát ngôn sé được thông, địch lại để xác định nó thật sự có nghĩa là gì
Ranh giới giữa 5 bước xử lý nảy là rất mong manh, có thể được tiến hành từng,
bước một, hoặc cùng lúc - tủy thuộc vào giải thuật và ngữ cảnh cụ thẻ ?
Những bài toắn xứ lý ngôn ngữ tự nhiên liêu biểu: Các nhà nghiên cứu đã
tổng hợp đưa ra nhóm những bài toán tiêu biểu trong XLNTN [7][S6]
Nhận dạng tổng nói (speech recognition): Tiếng nói tự nhiên của con người
được máy nhận dụng chuyển thành văn bản Lương ứng,
Tổng hợp tiếng nói (speech svnihesis): Từ một văn bản tự động tổng hợp thành tiếng nói
Nhận dạng chit viét (optical character recognition): Tix mot van ban trén giây,
nhận biết từng chữ cái và chuyền ching thành một tập tin văn ban
Tóm lÃI văn bản (IexI sammarizalion): Tôm tắt một vẫn bản đài thành một vẫn
‘ban ngắn hơn nhưng vẫn chứa những nội dung thiết yếu nhất tóm luge vin ban
Tìm kiêm thông tín (information retrieval): Dit cầu hỏi và chương trình tự tim
Ta nội đung phủ hợp nhất từ một nguén rất nhiều tập tin văn bản hay tiếng nói
Dich may (machine transĨatiøn): Dê là chương trình địch từ ngôn ngũ này sang ngôn ngữ khác
Trích chọn thông fin (information extraction): Tis mot nguồu nhiều tập lin văn
bản hay tiếng nỏi, tìm ra những doạn bên wong mét sé (ap tín liên quan dễn một vấn
đề (câu höi) ta cần biết (trả lời)
Phát biện trì thức và khai phá đữ liệu (Emowledge điscovery and text đafa mining): Tir uhiéu tài liệu khác nhau phát hiện ra trí thức mới; tô phỏng qua trình
hoc lap, khám phá khoa học của cơn người, đang trong giai đoạn đầu phát triển
Các bài Loán tiêu biểu xử lý ngôn ngữ tự nhiên trong các lĩnh vực riều trên đều gặp phái vẫn đề xứ lý đữ liệu lá CVT trong kho ngữ liệu CV'1 ẩn chứa, chuyển tối ngữ nghĩa, nội dung rộng mở, đa nghĩa và tắt yêu gặp phải vẫn để mơ hỏ, nhập nhằng,
'?nips:/2vi.wikipcdia.œrgAsiki Xú_lý ngôn ngữ tụ nhiễn
Trang 28bộ gõ WinVNKey đua vào sử dựng thánh công, bộ chữ tiếng Việt đưa vào bầng
mã Umicode, chọn Lnieode cho báng mã chuẩn tiếng Việt Tách từ tiếng Liệt: Dễ tài
“Nghiên cứu và phát triển một số sản phẩm thiết yếu về xử lý tiếng nói và văn ban
tiếng Việt? |32| đá nghiên gia phương pháp tách Lit WEST (Weighled Fimnte State
Transducer) của trếng Anh, áp dụng cho tiếng Việt Phương pháp nảy vẫn chưa khử hoàn toản sự nhập nhằng tiếng Việt Công trình nghiền cứu các phương pháp tách từ
dựng kho ngữ liệu tiếng Liệt: 'Ïrung tâm từ điển học Vietlex đi đầu trong xây dựng
kho ngữ liệu (KNL) tiêng Việt từ năm 1998 đến nay, kết quả, KNL tiêng Việt chúa
khoảng 100 triệu âm tiết, dược thu thập tử nhiều nguồn đữ liệu khác nhau Vietlex sử dụng chương trình vaTokenizer 4.L1 đề tách từ cho văn bản, các văn bản chứa trong
đó đã được tách từ, được tố chức theo các lĩnh vục [86]: ngôn ngữ và văn học, lich
sử, khoa học xã hội, tự nhiên, nghệ thuật
Nhiễu kết quả nghiên cứu sâu hem như: Xây dụng kho ngĩt liện Việt-ỗ Dê, đựa
3 Bê và Ê Đê-Việt [12] Để
trên mô bình hợp nhất nguồn dữ liệu từ điển giấy Vĩ
tai “Sai ly văn bản tiếng Việt” đã xây dụng nguồn tài nguyên chơ tiếng Việt đạt kết
quả [9]: Từ điến tiếng Việt cá khoảng 35.000 từ, với nhiều thông tin hình thái,
ngữ pháp, ngữ nghĩa dùng cho XIL.NNTN, kho ngữ liệu song ngũ Anh - Việt với 80.000 cập câu Kinh tế - Xã hội, 20.000 cặp câu Tin học, 70.000 câu dã được tách từ, 10.000 câu đá được gán nhãn từ loại và 10.000 cây cú pháp Các nghiên cứu [9], [10].
Trang 29[12], |86| cùng với nhiều công trình khác dã bước dâu xây dựng các KML tiếng, Việt, được chia sẽ tham kháo, lắm cơ sở nghiền cửu XLNNTN tiếng Việt
Dịch máy tiếng Việt: Phần mềm EVTRAN là phần mềm dịch tự động đầu tiên
do người Việt xây dựng Phiên bán EVIRAN 2.0 chi dich tir tiéng Anh sang tiếng,
Việt, Website Videt!” là dịch vụ trực tuyển đầu tiên địch tự động Anh-Việt Vdict đã
sử đụng, kế thừa EVTRAN cùng với Google Translation đề giải quyết bài toán này,
tuy nhiên còn hạn chế: khi dịch từ Anh sang Việt và ngược lại thì Vdict cho ra cá hai
kết quả, không hỗ trợ địch chuyên ngành
TNgoài các kết quả đang chú ý nêu trên, còn có các công trình nghiên cứu khác
niur: xử lý tiếng tiới cho tiếng Việt của Viện CNTT và Trung tâm nghiên cứu quốc tế
Thông tỉn đa phương tiện, truyền thông và ứng dụng (MICA) của trường ĐHBK:
Ha Noi; cae dé tai nghiên cửu ở một số trường ĐH (ĐHBK và ĐH Khoa học Lự nhiên
HCM, DHBK Đà Nẵng, ĐHBK và ĐH Khoa học tự nhiên Hà Nội, )
Xu thể và triỄn vọng trong xử lị tỗng Việt
Theo nhận định của nhiều chuyên gia [9][10][12], cho đến nay, hầu hết các kết
quả đạt được trong XLT V chủ yếu tập trưng vào xây đựng ứng dụng cho người dùng,
đầu cuối, các kết quá nghiên cửu đa số chỉ được xây dựng thử nghiệm va kiểm tra trên tập ngữ liệu nhỏ, ít đề cập đến hạ tầng ca sở cho xử lý ngôn ngữ như từ điển
Việt về tổng thể, về từng vẫn để, từng nhánh hay từng bải toán nghiên cứu
qua những mỗi trường nả
chứng, kế thừa kết quả, từ đó phát triển và đạt đến kết
quả mới có giá trị hơn, có ý nghĩa khoa học và ứng dụng nhiều hơn nữa
Fhén nay, Việt Nom: đã và đang xây dựng một ngành công nghiệp nội dung số
phong phú, đã đang, Trong dỏ có nhiều sản phẩm về giáo dục trực luyến, giải trí trực tuyến, truyền thông, nội đụng số cho thiết bị dị động [87] Đây cũng chính là xu
'8 Theo https:/*vdiet.com!
Trang 3018
hướng và triển vọng trong XLTV Vi thé, XLTV can phải có một cong déng nghiên cứu với sự than gia của các chuyên giá về ngôn ngữ tiếng Việt, về lĩnh vực xử lý
tôn ngữ rong ƠXTT, các doanh nghiệp, các nhà quận lý và cã người sử dụng dẫu
cuối Rõ ràng, để giải các bài Loán XI.TV không thể trông chờ vào các chuyên gia,
các rhhà tghiển cứu nước ngoài, mà phôi do chỉnh người Việt giải quyết
1.2 NGỮ NGHĨA VÀ NHẬP NHÀNG NGỮ NGHĨA TIENG VIỆT
1.2.1 Ngữ nghĩa và ngữ nghĩa học
Ngữ nghĩa: Ngữ ng]ữa (meaning), hay ngiữa của từ là những liên hệ được xác lập trong nhận thức của con người giữa từ với những cải mà từ chỉ ra (những cái mã
tử làm tín hiệu cho chủng) sữa của từ không tôn tại trong sự vật hiện tượng, không,
tan tai trong ý thức, bộ óc con người Nghĩa của từ tổn tại trong từ, nói rộng ra là tôn
tại rong hệ thống ngồn ngf [36]
Tir vung: Ving co nghia là “sum tap, tap hop”, ar vung là tập hợp từ của ngôn ngữ Từ vựng là tap hop tir va cdc don vi tuong duong tir cia ngén ng Tir la don vi
cy ban cia bir vung, 14 dort vi nhd nhat, déc lip vé nghia va hinh there [30] Biển thế
từ vựng - ngữ nghĩa: Cùng một từ (củng cách viết, phát âm) có thể có một nghữa duy
nhất, nhưng trong ngữ cảnh khác nhau, có nhiều nghĩa khác nhau
Phân biệt nghĩa (meaning) và ý nghĩa (sense): Nghĩa của từ khác với sự hiểu
biết của cơn người vẻ ý ngiữa của từ Sự hiểu biết về ý nghĩa của từ tôn tại trong Ý
thức con người giữa của từ lồn Lại trong ngôn ngữ Vwlña của từ là quan bệ của lừ
với cái gì đó năm ngoái bản thân nó ©
ANgữ nghĩa học: Theo |30|, chơ đến nay, khải niệm “ngữ nghĩa học" vẫn chưa
được hiểu một cách thống nhất Thuật ngữ này vốn bắt nguén tir chit ‘sémantika’ trong tiếng lly Lạp, được dùng chú yếu đề chỉ lĩnh vục khoa học nghiền cứu về ý nghĩa của các từ, mệnh đề, câu, kí hiệu, các biểu tượng, “Ngữ nghĩa học” có những, tên gọi khác nhau, tiếng Anh: semantics (semantyka), semiology (semiologia),
semiotics (semiotyka), semasiology (semazjologia)
!5 Theo; Nguyễn Thiện Giáp, Phân biệt nghĩa và ý nghĩa trong, ngôn ngữ học biện đại, Tạp chí Khoa học
ĐHQGHN: Nghiên cứu Nước ngoài, Tập 30, Số 3 (2014) 1-13
Trang 3119
Các nhân tổ bình thành nghĩa của từ: Nghĩa của từ là những liên hệ giữa từ với những cái mà từ chỉ ra (những cái mà từ Lam tin hiệu cho chúng) Nhân tổ tạo thành nghĩa oủa từ, biểu thị trong tháp nghĩa hình học không gian theo [4] đã chỉ ra
TỪ - TRỮU TƯỢNG
Chức năng tin hiện học
Hinh 1.1 Mô hình tháp nghầa
Theo |4], mỗi quan hệ giữa từ và sự vật hình thành ng}ữa biểu vật, giữa từ và khái niệm sẽ hình thành aghia biểu niệm, giữa từ với nhân tổ người dùng sẽ hình
thành ngàữø phong cách, ngÌữa liên hội, nghĩa biểu thái, giữa từ với các từ khác trong,
hệ thông ngôn ngữ hình thành nên øgiðz cấu trúc, giữa từ với các chức năng của từ
sẽ hình thành các giá trị chức năng của từ Các thành phần nghĩa trên gắn bó chất chế với nhau, là các phương diện khác nhau trong một thể thống nhất Trọng tâm phân tích, miều tã của từ vựng - ngữ nghĩa học là ngiãa biểu niệm
1.2.2 Phân tích nghĩa của từ
Ngữ cảnh và phân tích nghĩa của đà: Theo [17][30][31], ngữ cảnh là những,
từ bao quanh hay đi kèm một từ, xác định về nghĩa từ đó Có nhiều loại ngữ cảnh:
Ngữ cảnh lớn có thê bao gồm cả xuột đoạn văn Äjgữ cảnh nhỏ trong pham vì ruột câu
_Ngữ cảnh hẹp là những kết hợp tôi thiểu nào dó dễ xác định nghĩa của từ
Nghiên cửu từ trong ngữ cảnh có thẻ phát hiện đặc diễm riêng của ý nghĩa mỗi
tử, sẽ phản biệt được các hiện tượng đa nghĩa, đồng âm Ví dụ: từ “câu” đồng âm
Chim câu trắng (bỏ câu), câu cá Nghiên cứu từ trong ngữ cảnh còn giúp làm sáng tỏ
bận chất nghĩa của hiện lượng lĩnh lược trong lời nói (bỏ bát từ khi nói)
Phurơng pháp phân tích nghĩa của từ theo ngit cink
Phuong pháp phân tich ngữ cánh của từ theo ngữ cảnh gồm các bước:
Trang 321 Tập hợp ngữ cânh: Xác dịnh ngữ cảnh của một từ trong các loại văn bản khác nhau và tập hợp chứng lại
ie} Phân loại ngữ sảnh: Những, ngữ cảnh vimg bign thye hoa mol nghia eta Lis
dược xếp vào một nhỏm ngữ cảnh cũng loại Đây lá công việc đặc biệt quan trọng, sự chuẩn xác tạo điều kiện cho việc tách nghĩa chuẩn xác trong từ
3 Phân tích ngiữa: Đôi với các từ đơn, ta so sánh nó với các từ trong trường,
nghĩa để phát hiện ra nét nghĩa Đối với từ đa nghĩa, trước khi tiến hành bước
trên ta phải tách ra các nghĩa, xác định chính xáo số lượng nghĩa trong từ, tim
nghĩa gốc của tù, xác định và loại bổ các nghĩa ngữ cảnh
Từ nhiều nghĩa và quan hệ nghĩa trong (ừ vựng
Từ nhiều nghĩa là tù cò hai nghĩa trở lên nhằm biểu đạt các đổi tượng, khái
nhiệm khác nhau, đẳng thời các nghĩa có môi liên hệ với nhau được sắp xép theo md
tổ chức nhất dịnh Ví dụ "áo" có da nghĩa: dễ mặc (áo người), bọc một số dé dùng, (áo gói), lớp tráng bên ngoài để gồm
Hiện tượng động âm là hiện Lượng các từ giỗng nhau vỀ võ ngữ âm nhưng hoàn toàn khác nhau về nghĩa Ví dụ "để" đồng âm nhưng cỏ 7 nghĩa: Cụ đồ, đỗ vật,
đỗ lại nét vẽ, đầy đi làn khổ sai [34] Phân biệt đồng âm với ẩa ngiữa: Đẳng âm
là hiện tượng xây ra giữa các tù, nhiều nghĩa là hiện tượng xây ra trong một từ Giữa
các nghĩa của những từ đồng âm hoàn toản khác nhau không có mỗi liên hệ nào, trong khí đó, từ đa nghĩa thường có một nghĩa gốc, các nghĩa còn lại phát sinh từ nghĩa gốc, siửa các nghĩa của một từ nhiều nghĩa thường có một nét ngứa chung, móc nội chúng, lại thành một kết cầu, và giữa các từ đa nghĩa có sự chuyển nghĩa
1.2.3 Sự biễn đổi của từ vựng và ngữ nghĩa
Sự biển mất các từ ngữ trong từ vựng: Ngôn ngữ chỉ lưu giữ lại những yếu
tổ hữu ích; những yêu tổ thừa, không phủ hợp với nhu cầu sử dụng sẽ bị loại bỏ Sự biến mắt những từ ngữ tuân theo nguyên tắc nảy Có hai nguyên nhân cbinh [31]
Nguyên nhân trong ngôn ngữ: Từ biên mật đo đã cò một từ đông nehữa thay
thể, từ rơi rụng này; từ biển mật đo biến đối ngữ âm, ngữ âm cũ mắt đi, ngữ âm mới
tỉnh thành và thay thể, Từ ngữ gế 1rường chỗ cho từ rút gọn hơn, ví dụ "võ tuyển” thay thể cho từ "vô tuyển truyền hình"
Trang 33Nguyên nhân ngoài ngôn ngữ: Từ bị rơi rụng, do đối tượng được từ gọi tên bi
mat di, do là các đử jịch sứ Vì dụ: khi Việt Nam không cỏn nhà nước phong kiến, các
từ "tuần phủ", "án sát" sẽ dẫn bị rơi rụng,
Sky xuất hiện các từ nại: mắi trang từ vựng: Sự xuât hiện cáo từ ngữ mới để thỏa mãn nhụ cầu định đành các sự vật hiện Lượng trong đời sống Hai cơn dường lạo
thành từ ngữ mới theo |L7|I31 ]:
1 Cấu tạo từ mới bằng các chất liệu và quy tắc sẵn có trong ngôn ngữ dân
tộc; con đường hình thành từ mới này thông qua các phương thức:
a) Phương thức phức hợp: Hòa đúc hai từ sẵn có tạo nên từ mới, giữ lại
các yêu lễ được cơi là giá trị nhất về mặt ngữ nghữa của cä lai từ để tạo
ra một đơn vị hoàn chính Ví dụ: "ngôn ngữ và văn học" > "ngữ vấn" b) Phương thúc rút gọn Phương thức rứt gọn là phương thức tạo từ mới
bằng cách lược bớt một phân của đơn vị đó Ví dụ: omnibus => bus (xe
buýt); xứ Thanh hóa => xú Thanh
@ Phương thức viết
: Phương thức ghép các con chữ (âm) ở đầu, cuối,
vị trí nào đồ trong một nhóm từ với rau để lạo niên từ mới Ví dụ: Kiểm tra chất lượng sản phẩm —> KCS
2 Vay mượn ngôn ngữ khác: Dây là quá trình riến nhận thêm từ ngôn ngĩt khác hình thành nên láp từ vay mmwgm
a) Lớp từ vay mượn gồm: từ ngoại lai (Ắc quy, pho mát ), từ ghép lai (đài
ta đa, bom ba cảng), xơo phông cấu lo từ ( tgôi sao - shar) ð) Quá trình đồng hóa từ vay mượn: Từ ngũ vay 1nượn chịu sự biện đội theo quy luật ngôn ngữ tiếp nhận, là quá trình vay mượn các ngôn ngữ chủ thé Vi du: Déng héa về nạữ pháp (tiếng Phap: double, bleu la tinh
từ, chuyển
ng tiếng Việt làm động từ: "đúp", "lơ",
Phương thức viết tắt xuất hiện các từ ngữ mới: Như lrêu đã đề cập, com
dường hình thành từ ngĩt mới thông qua nhiều phương thức, câu tạo nên lừ ngữ mới bằng các chất liệu vả quy tắc sẵn có trong ngôn ngũ dân tộc, trong đó cò phương thức viét đắt [17][31] Trong thục tế, CVT thường có hai dạng: Viết đắt tự tạo, ngẫu nhiên
và viết tắt theo quy luội Viết tất tự tạo, ngẫu nhiên thể biện xu hướng "tắt hóa" khi
sd dung viel chữ mội cánh tự nhiên pủa con người, là su sang tao cach vist von rat
Trang 3422
riêng tư, nhưng cũng có thê dược phổ biển Viết sốt heo qiọy luật chúng là cách viết tắt cỏ sự nghiên cứu, sắp xếp, định dạng theo một quy luật nảo dỏ
Các phương thức biển đỗi ngữ nghĩa: Phương thúc biên đổi ý nghĩa của từ
là cách thức hỗ sung nghĩa mới cho từ khẳng kèm theo sự biển đối về từ ngữ âm, làm
cho tù trở thành từ nhiều nghĩa Các phương thức chủ yên |31 | Phương thức hoán
đụ là phương thức làm biển đổi ý nghĩa của từ bằng cách lấy tên gọi của sự vật, hiện tượng nảy dễ chỉ một sự vật, hiện tượng khác trên cơ sở mỗi quan hệ tất yếu giữa các
sự vật, hiện tượng ây Phương thúc ẩn dụ cũng là phương thúc biên đổi ý nghĩa của
tu bing cách lây tên gọi của sự vật, hiên tượng này đề chỉ sự vật, hiện tượng khác
trên cơ sở của sự giống nhau về một khía cạnh nào đây giữa hai aự vật hay hiện Lượng,
ấy Ngoài ra, còn có phương thứ biến đổi ngũ nựÌữa giữ Lên gợi cũ đẻ chỉ những sự
vật, hiện tượng hay khái niệm mới hoặc đã thay đổi
Nguyên nhân biển đôi ÿ nghĩa của từ (chuyến nghĩa) thường rât phúc tạp, đa
dang Chuyén nghĩa áo sự kiêng kụ: LHện tượng này không chỉ tạo nên sự biển âm mà
1.2.4 Nhập nhằng ngữ nghĩa trong tiếng Việt
Nhập nhằng trong ngôn ngữ học
Bách khoa toàn thư mở Wikipcdia nêu khái niềm 83 |: Nhập nhằng trong ngôn
ngữ học là hiện tượng thường gặp, trong giao tiếp hàng ngày con người it dé ở đến
nó bởi vì họ xử {0 tốt hiện tượng này Nhưng trong các ứng đụng liên quan đến xử lý ngôn ngữ tự nhiên khi phải than lác với ý nghĩa từ vựng mà điền hình là dịch tự động nhập nhằng trở thành vẫn đề nghiễm lrọng
Vi du, trong muội cầu cần địch có xuất liệu từ "đường" như trong câu "ra chợ Tnua cho mẹ ít đường" vẫn đẻ nảy sinh là cần dịch từ nảy là roadl hay sugar, con người xác định chúng khá dé dang cần cử vào văn cảnh nhưng với mày tính thả không, rất
khó khăn đề từn các thuật toán hữu hiệu cho các nhà lập trìnhứ®
‘5 pups viwikipedia.org
Trang 35Mét sé hién tượng nhập nhằng
Nhập nhằng ranh giới tử: Trong tiếng Anh việc xác dịnh ranh giới từ khả dé
đảng, mỗi từ riêng lẻ mang trọn vẹn một nghĩa, ranh giới của chúng được xác định thông qua khoảng trắng Tiếng Việt là ngôn ngĩt đơn lập nền tr vụng chủ yếu là các
từ ghép vì thế khoảng trắng không phải luôn là ranh giới chính xác
Nhập nhằng từ da nghĩa: Đất cũ ngôn ngữ nào cũng có từ da nghia, nguyên nhân là vi rất nhiều khải niệm có các sắc thải ý nghĩa tuy không hoàn toàn trùng khớp
nhau nhưng lại có nhiều nét tương đẳng Như tử "ăn" trong "ăn uống" và "ăn cướp" vừa có những nét nghĩa giồng và kháo nhau, từ “án” có đến 12 nghĩa [34]
Nhập nhằng từ đồng âm (đồng tự): Hai từ đồng âm với nhau nghĩa là lại từ có
âm giống nhau nhưng ruang nghữa khác nhau, còn đồng tự là hai từ về mặt kỷ tự là giống nhau nhưng nghĩa khác nhau Do đặc điểm của tiếng Việt, từ dòng âm cũng, Thường là từ đồng tự, ở ngôn ngữ khác hai hiện tượng nay không trùng khớp nhau
Nhập nhằng từ loại: Từ loại là mệt yêu tổ quan trọng trong việc xác định nghĩa
chỉnh xác của từ và sắp xếp các từ thánh câu hoàn chỉnh trong dịch tự động; nghĩa là
từ loại giúp khử nhập nhằng, những chính bản thân nó trong một số trường hợp cũng nhập nhằng Ngôn ngữ không biến hình như tiếng Việt muốn xác dịnh từ loại yêu cầu Thuật toán phức tạp hơn, bắt buộc phải phân tích cú pháp; ngay trong ngành ngôn ngữ
vẫn chưa cẻ sự thông nhất về phân loại từ loại cho tiếng Việt
Xứ lý nhập những trong tiếng Liệt
Hiện tượng nhập những xảy ra khi: Một từ thường cỏ nhiều hơn mét nghia, sây hiểu lâm, mơ hỗ ngữ nghĩa của từ Từ đa nghữa là một trong các nguyên nhân
sây nhập nhang trong trong tim kiếm văn bản, tra oứu tải liêu Tác động của nhập
nhang lam cho người đọc, người viết, hiéu lam, pap sai sot, hay bể tắc
Xử lý nhập nhằng nghĩa của từ dược nhiều nhà nghiền cửu XUNNTN quan tam dén, là vấn dễ xuất hiện sớm và lầu dời nhất của lĩnh vực nảy (những năm 40 của thé ky 20), đóng vai trỏ quan trọng, làm cơ sở cho nhiều bài toán XLNNTN khác
Để khử nhập nhằng nghĩa của từ, các nhà nghiên cứn phải sử đụng nhiều thông tin
của ngĩt cảnh ở nhiều cáp độ (hình thái, ngữ pháp, ngữ nghĩa, ) cùng với các luật suy
diễu ngũ nghữa Cúc luật suy diễn này tạo thành có thể từ thủ công hoặc từ quá trình
bản tự động - tự động hóa, hoặc có sự phổi kết hợp giữa chúng |39] Luật suy diễn
Trang 36xây dựng bằng tay dòi hỏi công sức rất lớn và không thể bao quát hết mọi trường lợp
Vị thế nhiều nhà nghiền cứu đã dưa ra các mô hình cho phép tự dộng xây dựng các
luật dẫn nin thé bang cách áp đụng phương pháp học chuyển đối trên một tập ngĩt
liệu lớn não đó
Trong tiếng Anh, cò nhiều công trình nghiên cửu giải quyết nhập nhằng ngữ nghĩa đã dược thực hiện Hai hướng tiếp cận cơ bản! đã được nghiên cứu: Giải quyết nhập nhằng dựa trên thông tà trong một ngữ cảnh cụ thể và giải quyết nhập nhằng,
dựa trên những thông tin thu được trong việc học từ vài tập ngữ liệu học [67] Sau đó
có nhiều công trình đừng kết hợp cả hai phương pháp này đã được thục hiện [68], sử
dung các mô hình thống kê các loại đẳng nghĩa để xác định nghĩa của các tù Liéng
Anh khử nhập nhằng [71 | nghiên cửu chuyên sâu so sánh hiệu suất nhận dạng CVT các hệ thống KXLNNTN (MetaMap, McdLEE, eTAKES)"* vé CVT trong cae van ban
tớm tắt y học, có thể để trích xuất thông tin từ CVT văn bản, tạo điều kiện chăm sóc
bệnh nhân tết hơn [72] nghiên cúu khử nhập nhằng CVT trong y hoe sir dung mang Neurat Word Rmbodding Nghiên cứu |73] nhận diện CVT sử dụng phương pháp học indy Machine Learning, [68] ding phuong phap dua hé Giéng mạng từ Word Scnse Disambiguation (WSD)” nhằm quy gản nghĩa thích hợp với ngữ cảnh (nghĩa là các
thành viên của loạt từ đồng nghĩa) cho tử trong một văn ban y hoc Côn có công trình
nghiên củu CVT trong ngôn ngữ tiếng Trung, tiếng Da Thái như [69][57], nhận diện CVT đựa vào thông tin ngữ cảnh văn bân, sử dụng phương pháp máy học để nhận dạng CVT bôi thuộc tính nhất quán trong vẫn bản
Trang tẳng Việt, gần dây có nhiều công trình nghiên cửu: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tải liệu [42]; xứ lý nhập nhằng trong tìm kiếm văn bản tiếng Việt học từ vài tập ngữ liệu; khả năng khắc phục trong soạn thảo văn ban [43], giải quyết văn để khử nhập nhằng trong bài Loán tách từ tiếng Việt [6]
Wilks, Stevenson, Scnse Taggĩng: Scmantic Tagging with a Lexicon In Proceedings of SIGLEX Workshop
on Tagging Text with Laxical Semantics: Why, What and How?, Washington, D.C 1997
‘5 MctaMep: Hé théng NLP ding để lập bản đô ngôn ngữ y sinh théng ahit; MedLEE: NLP thiết kế dành cho ghi chủ X-quang (ađiolesy), báo cáo bệnh lý, ghỉ chủ xuất viện, cTAES: NLP kiến tuïc về bệnh tật
! Mạng từ là từ điển máy tính tiếng Anh được sử dụng phế biền để khử nhập nhằng nghĩa từ.
Trang 371.3 CHỮ VIET TAT TRONG CUOC SONG
1.3.1 Chữ viết tắt là gì
Trong cuộc sống, con người luôn có xu hướng rút ngắn thời gian trong thể hiện mọi hành động, suy nghữ của mình dễ chuyển tải lượng thông tin ngày cảng lớn Đó
là xu hưởng "#đ£ hỏa" mọi thử có thể (hình 1.2): cử chỉ (1àm đứt, sỡ tấp, hành dong,
(ải tắt, và tắt, nói tắt, viết tắU, định nghĩa (phim tắt, ngỡ tắt, núi tắU, đặt ra thuật ngữ khác (tám tắt văn ban, van tat, CVT)
Tu “4a 06 gác nghấa chính, đây đủ thoo từ điển |34]: âm tắt (không sáng), làm mất (mềm tìn, tụ pười), làm ngừng (chay), đi lẮ: (dì ngàng về Lắt, dường ngàng ngõ, lỗi) tắt, Nói hay viết tắc cắt bỏ bot am, hay cat bd bớt chữ Ví dụ: nói rắn tắt, nổi tóm tắt; viết vẫn tắt, việt tóm tắt, bán tôm tốt, lợi tốt Phạm vì nghiên cửu ở luận
an nay tir “tt” voi nghĩa chủ yêu của cụm từ chữ viết tắt hay từ viết tắt
Thuật ngí “chữ viết /ắP? (liêng Anh là abbreviation) chưa có mắt trong những
từ điền Hếng Việt thông dụng có mặt trên thì trường?? hiện ruay, trong cuốn “Từ diễn Bach khoa Vist Nam” tập 1 (vẫn A-Ð?), nhưng lại rải quen dùng trong cuậc sống, Sử dụng công cụ tìm kiểm Google, chứng ta có thể tìm thây rất nhiều trang web
3?Từ điền song ngữ Việt-Anh, Bui Phung, nha surat ban The gidi, nam 1998
11Tù điến Bách khoa Việt Nam biến soạn, Hà Nội, năm 1995.
Trang 38Từ diễn mở Wiktionary?? đã giải thích viết tắt “là cách viết ngắn gọn hơn cách dai nhưng thông dựng, nhiều người hiểu LÍ dụ như VN là cách viết tắt cho "Việt
Nam” Từ điển online như |80|81j|82| cũng không có giải thích hoặc giải tích
không dây đủ cho thuật ngữ “chữ viết tất” Chúng ta hay gặp CVT & dang “tir vide taf” hay “tir taf” (acronym, Abbreviations: a short form of a word or phrase)
Chie vide tắt
Chữ viết tắt là cách việt ngắn gọn nhằm mục địch tạo ra chữ viết khác chữ viết
thông thường, được sử đựng khi phải viết lặp đi lặp lại nhiêu lân một cụm tử, một
cụm câu hay mội đoạn văn bân nào đó, nhằm tiết kiệm thời gian, công: sức ruả vẫn thoa man được yêu cầu thể hiện nội dung và tiện lợi khi sử dụng [30][34]
Trong ứng dựng CNTT, nhất là chương trình (mg dụng bộ gõ tiếng Việt, việc
gỗ tắt được các nhà lập trình ứng dụng chủ trong”, trong đó có phương pháp mới
Šơ kỷ chữ Việt” [47], cách sử dụng chữ Việt nhanh [4], dưa ra cách thức gõ tắt
tích hợp trong bộ gõ WinVKKsy ]75], tiết kiệm hơn 40% số phím phải gõ
1.3.2 Lịch sử hình thành chữ Quốc ngữ
Sự tình thành chữ Quốc ngữ là một quả trình, tù những thập kỉ đâu của thể kỉ
XVI, với sự tham gia của nhiều giáo sĩ Dòng Tên, trang sự công tác và đóng góp của
nhiều người Việt [38]
Khoảng thời gian từ năm 1620, các giáo sĩ bắt dâu ghỉ chép bằng chữ Quốc ngữ, đến năm 1651- thời gian xuất bân Từ điển Việt Bổ La và Phép giảng 8 ngày
được xem là thời kì đầu hình thành chữ Quắc ngữ [5] Theo [S], trong thời kỳ đầu thê
kỷ XVL, người Việt Nam dùng chữ Nho là chỉnh, còn chữ Nôm lá phụ thuộc Chữ
viết Quốc ngữ ngày nay lả một kiểu chữ dä được nhiều Linh mục Dòng Tên ở Việt Nam (với sự công tác của một số thấy giảng Việt Nam) vào thế kỷ thứ VI tạo ra
Họ đã đừng mẫu hr La Tĩnh rồi dựa vào phân nào của của chữ Bê Đảo Nha, Ý va các
dâu từ tiếng Cổ Ily Lạp, để làm thánh chữ Quốc ngữ đang dùng ngày nay Khi các nhà truyền giáo dến Đảng Trong, họ đã bắt dầu áp dụng dẫn dẫn mẫu tự La Tinh cho
tiếng Việt [Sj38] Các nhà nghiên cúu chứa thời kỉ bình thành chữ Quốc ngữ thành 2
bitp:⁄4vLwiktiouarv.orsisvilei/
3 btpz/chuvicinhanh sơurceforge.nct, Trân Từ Bình
Trang 39ty bì
giai doạn: Giai đoan 1- tir 1620 dén 1626 và giai doạn 2 từ 1681 dến 1648 Nhà truyền giáo Alexandre do Rhodes được coi là người có công nhiều trong việc địt
chế chữ Quốc ngữ qua cuổntử điển Dictionarium Annamiticum Lusitanum et
Latium in năm 1651 tại Roma”! Như vậy, sự hình thành chữ Quốc ngữ lả một quá trình lịch sử, với sự tham gia của nhiều giảo sĩ Dòng Tên, sự công tác và đóng góp
của nhiều người Việt
1.3.3 Tìm hiểu về lịch sử chữ viết tắt
Từ thuở xa xưa, con người đã biết cách sử dụng từ viết tắt hay ký hiệu để khắc
chạm trên đá, trên gỗ nhằm gợi nhớ, tiết kiệm thời gian, vật liệu lưu trữ CVT được đùng ph biển ở mước ngoài từ rất sửm Chẳng hạn SDQR viết tắt cho cụm từ “Senatus
Populusque Rome” (Céng hoa Dé chế La Mã, hay liội đồng Nhà nước nhân dân thành La Mã) đã có gần 2.000 năm lịch sử [6L], QED viết tắt cho cạm tit “Quod Hrat Demonstrandum” (diểu đã dược chứng minh)?
CVT có nguồn gốc từ tiếng Hy Lạp cổ [61], acronyat gdm akron (cuỗi cùng,
hay đầu mút) và øneiza (tên hay tiếng) Một sẻ từ điển tiếng Anh giải thích tử viết tắt là cách thức tạo ra một dạng từ mới ngắn gọn hơn bằng cách dùng những chữ cái dau (initial letters), cuối hay từ nào dỏ trích ra từ các từ hay cum từ dã có Chẳng hạn
UNESCO vi
lãi từ
Tiled Nalomns Educaional, Scientific and Cultural
Organization” (Tổ chức Giáo duc Khoa học va Văn hoá của Liên Hiệp Quốc)
Ö Việt Nam, mặc dủ CVT tiếng Việt di dược xuất hiện từ rất sớm va dã có
xuột số nghiên cứu CVT tiếng Việt (7)[13] [29], nhưng chưa có nghiên cửu rào đề
cập đây đã đến sự lủnh thành CVT,
Su ra déi cit chit Ném tir thé ky XII của cha ông ta chính là một cách khác
đã viết chữ [lan, thay thé chit [lan vay mượn của phương Bac [1][15] Trong hệ thông chit Ném, méi chữ Nôm cũng có dạng hình vuông, được tạo thánh nhờ lắp ghép các chữ Hân theo hình thức biểu âm, biểu ý, hoặc viết lược nét, viết tat Ching hạn
chữ IIán #Ÿ (cộng) viết bát nét thành chữ Nêm Ì% (khang), chữ Lián BE (vi) dace
% Theo viwikipedia.org'wiki/Cht_Quée_ngtLjch_sir
35 Tác phẩm “Ethica More Geometrico Demonstrata” - Nha triét hoc Benedictus de Spinaza (1632-1677
29 Theo hitps://viwikipedia.orgrwiki/Cho-Ném
Trang 40viết gon thánh chữ Nôm s7 (làm) Khi chữ Quốc ngữ (tiếng Việt ngày nay) dược dùng phố biến, CVT bất đầu được sử dụng Bát danh CD là lên liêu Chương Dân
của Phan Khôi trên Đồng Pháp Thời Báo năm 1998 [14] Ngày nay, CVT tiếng Việt được sử dụng ngày cảng phong phú trong nhiều lĩnh vục kháo nhau
Thiều tác giã quan niệm CVT tiếng Việt là một hiện tượng ngtt pháp [28] [29]
Theo GS Nguyễn Tài Cần |27], “có kiểu nói tắt kiểu rút gọn lại một âm tiết chứ không nói lắt bằng cách dựa vào những chữ cái đầu hay âm đâu Những từ viết tắt
như VN (Việt Nam), IITX (hợp tác xã) chỉ sử dụng thuần tuý trong văn bản”,
báo, tạp chỉ, Ia thường thấy các CỤT thông dụng như TƯ, TW (Trimg ương), UBND
(Uỷ ban nhân đản), PTTH (Phẻ thâng trưng học), có cả các CVT tiếng Anh như WTO
(World Trade Organization), WIIO (World Iealth Organization)
€VT cỏn cỏ như cầu sử dụng khá lớn trong giao tiếp cộng đồng, trong lĩnh vực
tôn giáo, tín ngưỡng: BDH (Bai Dang Hoa), BDR (Bài Dâng Rượu) CVT sử dụng, trong tên riêng như TƠS (Trịnh Công Sơn), trong tống lỏng R2], tiổng địa phương,
như GATO (ganh ăn tức ở) lliện có cả một từ điền tiếng lỏng tiếng Việt 27 trên
Internet với khá nhiều CVT, cụm từ viết tắt
Chúng ta còn gắp CVT 6 dang rit gon, tie la cum tir hay doan van ban ean