ĐẠI HỌC ĐÀ NẴNG NGUYỄN NHO TÚY NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, năm
Trang 1ĐẠI HỌC ĐÀ NẴNG
NGUYỄN NHO TÚY
NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ
VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT
TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT
Đà Nẵng, năm 2021
Trang 2Có thể tìm hiểu luận án tại:
- Thư viện Quốc gia Việt Nam;
- Trung tâm Thông tin Học liệu và Truyền thông, ĐHĐN
Trang 3MỞ ĐẦU
1 Tính cấp thiết của đề tài
Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử dụng chữ viết tắt (CVT) với mong muốn là rút gọn thời gian, công sức CVT là một vấn đề tuy không lớn, không hẳn là mới mẻ nhưng có lẽ
ai cũng gặp phải khi đọc hiểu một văn bản Cùng một CVT, người ta
có thể đọc hiểu theo nhiều cách khác nhau, tùy theo tình huống, hình thái, ngữ cảnh hay suy nghĩ chủ quan của mình Thực tế cuộc sống và giao tiếp làm nảy sinh tìm hiểu ý nghĩa CVT là gì
Trong ngôn ngữ tự nhiên (NNTN), xu hướng thể hiện văn bản, lời nói ngắn gọn, đơn giản, nhưng chuyển tải lượng thông tin lớn mà viết tắt trở thành một hiện tượng phổ biến trong nhiều thứ tiếng khác trên thế giới, được sử dụng rộng rãi trong nhiều lĩnh vực, nhiều chuyên ngành khác nhau
Vấn đề xử lý tiếng Việt (XLTV) đã được triển khai nghiên cứu
từ năm 1990 Gần đây có các công trình XLTV, nghiên cứu khử nhập nhằng trong một vài lĩnh vực: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập; xử lý nhập nhằng trong tìm kiếm văn bản tiếng Việt học từ vài tập ngữ liệu; nghiên cứu biểu diễn ngữ cảnh trong triển khai CVT dùng tiếp cận học máy, thực hiện chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc Tuy vậy, đến nay chưa có công trình nào nghiên cứu một cách
hệ thống và đầy đủ về CVT tiếng Việt
Trong bối cảnh chung của XLTV, trên cơ sở thực trạng sử dụng CVT trong thực tiễn, ta nhận thấy rằng NNTN luôn biến đổi và phát triển không ngừng; trong đó sự hình thành CVT có thể xem như là phương thức biến đổi từ vựng, hình thành nền từ ngữ mới, kèm với
Trang 4đó những biến đổi ngữ nghĩa CVT Do đó, để góp phần giải quyết các bài toán trong XLTV, đề tài đặt vấn đề cần thiết phải tìm hiểu và nghiên cứu: tiếp cận vấn đề ngữ nghĩa, nhập nhằng ngữ nghĩa, xử lý, nhận dạng CVT, hướng đến xây dựng môi trường khai thác khả dụng, phát triển CVT bởi nó liên tục biến tấu, thay đổi và luôn có nhu cầu
sử dụng trong thực tiễn Đề tài của luận án được chọn để nghiên cứu:
“Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt”
Đề tài được tập trung nghiên cứu các vấn đề cơ sở khoa học về ngôn ngữ học, ngữ nghĩa học, xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt, ngữ nghĩa, biến đổi ngữ nghĩa, hiện tượng nhập nhằng trong tiếng Việt Từ đó xây dựng các ứng dụng khai thác CVT, đề xuất giải pháp xử lý nhập nhằng CVT trong văn bản
2 Mục tiêu và nhiệm vụ đề tài
Nghiên cứu tiếng Việt về phương diện ngôn ngữ học, hiện tượng nhập nhằng tiếng Việt, nhập nhằng CVT; nhu cầu sử dụng CVT trong thực tế, từ đó hiểu được tri thức CVT
Xây dựng nguồn tài nguyên CVT tiếng Việt, phát hiện và đề xuất quy tắc tạo sinh, giúp khắc phục sửa lỗi, biểu diễn nhất quán Xây dựng ứng dụng khai thác CVT; đồng thời khử nhập nhằng, giúp cho việc sử dụng CVT chuẩn hoá, góp phần phát triển ngôn ngữ Công bố kho ngữ liệu chuẩn CVT, hình thành hệ thống khai thác CVT tiếng Việt, triển khai ứng dụng thực nghiệm, đánh giá
3 Đối tượng và phạm vi nghiên cứu
Nghiên cứu về bản chất NNTN, tiếng Việt; các phương pháp, kỹ thuật và công cụ xử lý NNTN, phương pháp khử nhập nhằng
Trang 5Đối tượng nghiên cứu là tri thức các chuyên gia ngôn ngữ, xử lý NNTN, tin học; CVT trong văn bản, sách, báo, web site; sự hình thành CVT trong NNTN ở tất cả các lĩnh vực đời sống xã hội
Về lý thuyết, nghiên cứu xử lý NNTV, XLTV, chủ yếu xử lý văn bản, hiện tượng nhập nhằng, vấn đề ngữ nghĩa
Về nghiên cứu sử dụng CVT, đề tài không hạn chế phạm vi, nhưng tập trung vào lĩnh vực khoa học, công nghệ và kỹ thuật, có tham khảo CVT tiếng Anh và một số ngôn ngữ khác
Về môi trường phát triển ứng dụng, chủ yếu là xây dựng kho ngữ liệu, xây dựng ứng dụng, hình thành môi trường khai thác CVT, cài đặt thử nghiệm Phạm vi giới hạn lĩnh vực viễn thông, CNTT
4 Phương pháp nghiên cứu
Khảo sát thực tế: Khảo sát sử dụng CVT trong văn bản,
Internet, quy định ngữ pháp, thực tiễn; kết hợp phương pháp phỏng vấn trực tiếp một số chuyên gia
Nghiên cứu lý thuyết: Lý thuyết ngôn ngữ học, xử lý NNTN,
phương pháp tách từ, xây dựng từ điển, kỹ thuật xây dựng máy tìm kiếm, xây dựng vị từ, hàm, cơ sở luật và máy suy diễn
Nghiên cứu thực nghiệm: Các kỹ thuật tìm kiếm, xây dựng thuật
toán và công cụ dựa trên giải pháp đã được đề xuất
5 Cấu trúc của luận án
Nội dung chính gồm 5 chương, phần kết luận và phụ lục:
Chương 1 nghiên cứu tổng quan, những nhân tố làm cho ngôn
ngữ biến đổi và phát triển, tiếp cận vấn đề ngữ nghĩa và nhập nhằng ngữ nghĩa Tìm hiểu sự biến đổi phát triển ngôn ngữ tiếng Việt
Chương 2 tiếp cận sự hình thành CVT tiếng Việt; xây dựng các quy tắc tạo sinh CVT, làm rõ dấu hiệu nhận biết CVT trong văn bản
Trang 6Xây dựng hệ thống khai thác CVT tiếng Việt (AMES) dựa trên ý tưởng hệ sinh thái phần mềm
Chương 3 nghiên cứu xây dựng nguồn tài nguyên CVT tiếng
Việt, phương pháp thu thập dữ liệu CVT, thực nghiệm thuật toán tìm kiếm CVT mới trên mạng Internet
Chương 4 trình bày kết quả xây dựng công cụ khai thác CVT tiếng Việt, thực nghiệm hình thành hệ thống khai thác CVT: thư viện viết tắt, từ điển trên máy di động, xây dựng công cụ tư vấn đặt tên
thương hiệu Brandname cho doanh nghiệp
Chương 5 phân tích, xử lý nhập nhằng CVT Xây dựng máy suy
diễn nhận diện CVT trong văn bản Tiếp cận xử lý nhập nhằng CVT dựa vào chỉ số tần suất xuất hiện CVT và triển khai ứng dụng
6 Đóng góp chính của luận án
Luận án đã có 4 nhóm đóng góp khoa học và ứng dụng
1) Phát hiện và xây dựng kho ngữ liệu chữ viết tắt
2) Tổng kết các quy tắc hình thành CVT, xây dựng hệ thống khai thác CVT (Abbreviations Management Exploit System - AMES)
3) Góp phần xử lý nhập nhằng chữ viết tắt tiếng Việt
4) Xây dựng các ứng dụng khai thác CVT: từ điển CVT trên máy tính, điện thoại di động , đề xuất chuẩn hóa sử dụng CVT ở phạm vi quốc gia
Luận án tiếp tục phát triển, nghiên cứu: Trao đổi hợp tác với
nhà nghiên cứu chuyên ngành ngôn ngữ học, chuẩn hóa quy tắc hình thành CVT, tối ưu các, hàm, các luật, máy suy diễn nhận diện CVT Nghiên cứu công cụ tắt hóa văn bản, cải tiến thuật toán Bổ sung thêm đánh giá độ đo khoa học chuẩn (Recall, Precision)…
Trang 7CHƯƠNG 1: VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT 1.1 NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN
Ngữ nghĩa: Ngữ nghĩa (meaning), hay nghĩa của từ là những
liên hệ được xác lập trong nhận thức của con người giữa từ với những cái mà từ chỉ ra (những cái mà từ làm tín hiệu cho chúng)
Nghĩa của từ không tồn tại trong sự vật hiện tượng, không tồn tại
trong ý thức, bộ óc con người Nghĩa của từ tồn tại trong trong từ, nói rộng ra là tồn tại trong hệ thống ngôn ngữ
1.2.2 Phân tích nghĩa của từ
1.2.3 Sự biến đổi của từ vựng và ngữ nghĩa
Phương thức viết tắt xuất hiện các từ ngữ mới: Như trên đã đề
cập, con đường hình thành từ ngữ mới thông qua nhiều phương thức, cấu tạo nên từ ngữ mới bằng các chất liệu và quy tắc sẵn có trong
ngôn ngữ dân tộc, trong đó có phương thức viết tắt
1.2.4 Nhập nhằng ngữ nghĩa trong tiếng Việt
Một số hiện tượng nhập nhằng
Xử lý nhập nhằng trong tiếng Việt: Hiện tượng nhập nhằng xảy ra khi: Một từ thường có nhiều hơn một nghĩa, có biểu hiện
hiểu lầm, mơ hồ ngữ nghĩa của từ Trong tiếng Anh, có nhiều
công trình nghiên cứu trước đây giải quyết nhập nhằng ngữ
Trang 8nghĩa đã được thực hiện Trong tiếng Việt, gần đây có nhiều
công trình nghiên cứu: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập; xử lý nhập nhằng trong tìm kiếm văn bản tiếng Việt học từ vài tập ngữ liệu; khả năng khắc phục trong soạn thảo văn bản, nghiên cứu đề xuất giải quyết vấn đề khử nhập nhằng trong bài toán tách từ tiếng Việt
1.3 CHỮ VIẾT TẮT TRONG CUỘC SỐNG
1.4.1 Khái niệm ngữ nghĩa chữ viết tắt
Ngữ nghĩa chữ viết tắt: là những liên hệ được xác lập trong nhận
thức của con người giữa những cái mà CVT chỉ ra (những cái mà
CVT làm tín hiệu cho chúng) Nghĩa của CVT không tồn tại trong sự
vật hiện tượng, không tồn tại trong ý thức, bộ óc con người Nghĩa của CVT tồn tại trong trong CVT, nói rộng ra là tồn tại trong hệ thống ngôn ngữ mà trong đó CVT đã hình thành
1.4.2 Biến đổi ngữ nghĩa chữ viết tắt
Các phương thức biến đổi ngữ nghĩa chữ viết tắt
1.4.3 Nhập nhằng chữ viết tắt
Hiện tượng nhập nhằng của CVT sinh ra bởi các tính chất: Sự đa nghĩa, khó tìm nghĩa đúng, hợp lý; sử dụng tùy tiện, không theo quy luật; khó xác định mục đích trong văn bản
Trang 91.4.4 Xử lý nhập nhằng chữ viết tắt
Luận án đặt ra vấn đề xử lý nhập nhằng CVT theo hai hướng: 1) Sử dụng mặt tích cực nhập nhằng CVT
2) Từng bước khử bỏ sự nhập nhằng CVT
1.4.5 Đề xuất nghiên cứu chữ viết tắt tiếng Việt
Tựu trung, đến nay chưa có công trình nào nghiên cứu một cách
hệ thống và đầy đủ về CVT tiếng Việt, chưa chỉ ra được mối liên hệ dựa trên cơ sở lý thuyết ngôn ngữ học và vấn đề CVT và nhập nhằng CVT tiếng Việt
Ta thấy rằng ngôn ngữ tự nhiên, trong đó có tiếng Việt, luôn
biến đổi và phát triển không ngừng Chữ viết tắt cũng là một hướng làm biến đổi chữ viết, có thể được xem là cải tiến chữ viết Hệ thống
từ vựng của ngôn ngữ luôn biến đổi phát triển, trong đó phương thức viết tắt, tạo lập các CVT làm xuất hiện các từ ngữ mới Luận án này
đặt vấn đề nghiên cứu bốn vấn đề lớn sau đây:
1) Tiếp cận vấn đề CVT tiếng Việt trên phương diện thực tế và nhu cầu sử dụng trong cuộc sống, vấn đề ngữ nghĩa CVT dựa trên lý thuyết của ngôn ngữ học Tìm hiểu sự hình thành CVT và các quy tắc tạo sinh CVT
2) Xây dựng hệ thống khai thác CVT tiếng Việt, cung cấp cho NSD,
sử dụng CVT ngày càng thuận tiện, có tính gợi mở, hợp tác trao đổi các vấn đề đã và đang nghiên cứu, cùng tạo ra môi trường học tập và trao đổi thông tin các vấn đề liên quan đến CVT 3) Xây dựng nguồn tài nguyên CVT tiếng Việt, phương pháp thu thập dữ liệu và triển khai thực nghiệm
4) Xây dựng các công cụ khai thác CVT và xử lý nhập nhằng CVT tiếng Việt trong văn bản và triển khai thực nghiệm
Trang 10CHƯƠNG 2
XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT 2.1 CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT 2.1.1 Mô hình sự hình thành chữ viết tắt
Các tình huống hình thành CVT tiếng Việt có thể biểu diễn qua
mô hình:
2.1.2 Đặc điểm hình thành chữ viết tắt tiếng Việt
2.1.3 Quy tắc hình thành chữ viết tắt tiếng Việt
1) Quy tắc 1: Viết tắt theo từ
2) Quy tắc 2: Ghép âm hay ghép tiếng
3) Quy tắc 3: Ghép theo từ có nghĩa
4) Quy tắc 4: Sử dụng chữ cái viết phụ
5) Quy tắc 5: Kết hợp tiếng nước ngoài
6) Quy tắc 6: Mượn chữ viết tắt tiếng nước ngoài
7) Quy tắc 7: Viết tắt ngẫu nhiên
8) Quy tắc 8: Quy tắc viết tắt mã hóa
9 ) Quy tắc 9: Quy tắc viết tắt trong CSDL
Trang 112.1.4 Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt
Yếu tố về số lượng ký tự, dấu thanh, âm tiết
Những trường hợp không nên viết tắt
Quy định ngữ pháp chữ viết tắt tiếng Việt
Dấu hiệu nhận biết chữ viết tắt tiếng Việt trong văn bản:
2.2 TÌM HIỂU HỆ SINH THÁI PHẦN MỀM
2.2.1 Hệ sinh thái phần mềm là gì
2.2.2 Mô hình hóa hệ sinh thái phần mềm (SECO)
2.2.3 Đặc điểm một hệ sinh thái phần mềm
2.2.4 Lợi ích ứng dụng hệ sinh thái phần mềm
2.3 HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES)
2.3.1 Hệ thống khai thác phần mềm
2.3.2 Đề xuất xây dựng hệ thống khai thác chữ viết tắt
Hệ thống khai thác chữ viết tắt là tập hợp thông tin nghiên cứu,
sản phẩm phần mềm cập nhật, xử lý, hiệu chỉnh, tạo sinh, khai thác
và ứng dụng về CVT tiếng Việt nhằm thực hiện trao đổi thông tin, dữ liệu với các hệ thống thông tin; đồng thời thực hiện cung cấp và trao đổi với người sử dụng thông qua một phương thức thống nhất trên nền tảng web tại bất kỳ thời điểm nào và từ bất kỳ đâu
2.3.3 Mô hình hệ thống khai thác chữ viết tắt
Mô hình hệ thống khai thác CVT, viết tắt là AMES (Abbreviations Management Exploit System) Cụ thể như trang kế
2.4 THỰC NGHIỆM XÂY DỰNG AMES
2.4.1 Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt
2.4.2 Xây dựng công cụ khai thác chữ viết tắt
Thực nghiệm xây dựng công cụ khai thác CVT, bao gồm:
Trang 12Xây dựng công cụ ứng dụng CVT vào chỉ mục tìm kiếm, khai thác CSDL, ứng dụng CVT đề xuất bộ mã danh mục quốc gia Xây dựng thư viện và từ điển tra cứu trực CVT, công cụ tư vấn đặt CVT thương hiệu (brandname) cho doanh nghiệp
2.4.3 Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt
Luận án tiếp cận các hướng xử lý nhập nhằng CVT tiếng Việt: Hướng thứ nhất, xử lý nhập nhằng CVT thực nghiệm văn bản trong lĩnh vực chuyên ngành viễn thông: xây dựng vị từ và hàm nhận diện CVT trong văn bản; đề xuất xây dựng cơ sở luật, thuật toán nhận diện và xử lý nhập nhằng CVT Hướng tiếp cận khác để xử lý nhập nhằng là đề xuất dựa vào phương pháp thống kê chỉ số tần suất xuất hiện CVT Chỉ số tần suất xuất hiện CVT cũng là cơ sở cho phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa và nhận diện CVT
Trang 13CHƯƠNG 3
XÂY DỰNG NGUỒN TÀI NGUYÊN
CHỮ VIẾT TẮT
3.1 XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT
3.1.1 Mô hình quan hệ dữ liệu
3.1.2 Triển khai cài đặt
3.2 GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT
3.2.1 Thu thập dữ liệu thủ công
3.2.2 Thu thập dữ liệu tự động
1) Cập nhật CVT mới từ tập tin Word
2) Cập nhật CVT mới tự động từ Internet
3.2.3 Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới
Ý tưởng thuật toán: Máy tìm kiếm CVT nhận một URL, gửi yêu cầu đến Web Server, nhận lại một trang HTML tương ứng với mỗi URL; xử lý tập tin theo kiểu xử lý chuỗi để bóc tách nội dung văn bản cần tìm, lọc ra CVT mới, so sánh với CVT trong CSDL để lưu hoặc không, hoặc có những đánh giá cần thiết khác, thuật toán đặt tên là
SENVA - máy tìm kiếm chữ viết tắt tiếng Việt mới (Search Engines
for New Vietnamese Abbreviations)
3.2.4 Thực nghiệm cài đặt thuật toán SENVA
Upload chương trình lên máy chủ: http://10.59.0.14
Gõ lệnh thực thi máy tìm kiếm trên thanh Address theo dạng thức: http://10.59.0.14/thuthapcvt.php?url=<địa chỉ URL>
Kết quả sẽ được nhận được là danh sách liên kết được duyệt trên trang chủ Phần sau là các CVT tìm thấy được được đánh số thứ tự, mỗi CVT có trích chọn nghĩa CVT, đánh giá trùng lặp dữ liệu hay