1. Trang chủ
  2. » Thể loại khác

NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT TÓM TẮT LUẬN ÁN TIẾN SĨ

27 18 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 720,55 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

ĐẠI HỌC ĐÀ NẴNG NGUYỄN NHO TÚY NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT Đà Nẵng, năm

Trang 1

ĐẠI HỌC ĐÀ NẴNG

NGUYỄN NHO TÚY

NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ

VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT

TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT

Đà Nẵng, năm 2021

Trang 2

Có thể tìm hiểu luận án tại:

- Thư viện Quốc gia Việt Nam;

- Trung tâm Thông tin Học liệu và Truyền thông, ĐHĐN

Trang 3

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Trong ngôn ngữ đọc viết hàng ngày, con người luôn sử dụng chữ viết tắt (CVT) với mong muốn là rút gọn thời gian, công sức CVT là một vấn đề tuy không lớn, không hẳn là mới mẻ nhưng có lẽ

ai cũng gặp phải khi đọc hiểu một văn bản Cùng một CVT, người ta

có thể đọc hiểu theo nhiều cách khác nhau, tùy theo tình huống, hình thái, ngữ cảnh hay suy nghĩ chủ quan của mình Thực tế cuộc sống và giao tiếp làm nảy sinh tìm hiểu ý nghĩa CVT là gì

Trong ngôn ngữ tự nhiên (NNTN), xu hướng thể hiện văn bản, lời nói ngắn gọn, đơn giản, nhưng chuyển tải lượng thông tin lớn mà viết tắt trở thành một hiện tượng phổ biến trong nhiều thứ tiếng khác trên thế giới, được sử dụng rộng rãi trong nhiều lĩnh vực, nhiều chuyên ngành khác nhau

Vấn đề xử lý tiếng Việt (XLTV) đã được triển khai nghiên cứu

từ năm 1990 Gần đây có các công trình XLTV, nghiên cứu khử nhập nhằng trong một vài lĩnh vực: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập; xử lý nhập nhằng trong tìm kiếm văn bản tiếng Việt học từ vài tập ngữ liệu; nghiên cứu biểu diễn ngữ cảnh trong triển khai CVT dùng tiếp cận học máy, thực hiện chuẩn hóa văn bản tiếng Việt dựa trên bộ quy tắc Tuy vậy, đến nay chưa có công trình nào nghiên cứu một cách

hệ thống và đầy đủ về CVT tiếng Việt

Trong bối cảnh chung của XLTV, trên cơ sở thực trạng sử dụng CVT trong thực tiễn, ta nhận thấy rằng NNTN luôn biến đổi và phát triển không ngừng; trong đó sự hình thành CVT có thể xem như là phương thức biến đổi từ vựng, hình thành nền từ ngữ mới, kèm với

Trang 4

đó những biến đổi ngữ nghĩa CVT Do đó, để góp phần giải quyết các bài toán trong XLTV, đề tài đặt vấn đề cần thiết phải tìm hiểu và nghiên cứu: tiếp cận vấn đề ngữ nghĩa, nhập nhằng ngữ nghĩa, xử lý, nhận dạng CVT, hướng đến xây dựng môi trường khai thác khả dụng, phát triển CVT bởi nó liên tục biến tấu, thay đổi và luôn có nhu cầu

sử dụng trong thực tiễn Đề tài của luận án được chọn để nghiên cứu:

“Nghiên cứu ngữ nghĩa và hiện tượng nhập nhằng trong tiếng Việt, tiếp cận xử lý vấn đề viết tắt tiếng Việt”

Đề tài được tập trung nghiên cứu các vấn đề cơ sở khoa học về ngôn ngữ học, ngữ nghĩa học, xử lý ngôn ngữ tự nhiên, xử lý tiếng Việt, ngữ nghĩa, biến đổi ngữ nghĩa, hiện tượng nhập nhằng trong tiếng Việt Từ đó xây dựng các ứng dụng khai thác CVT, đề xuất giải pháp xử lý nhập nhằng CVT trong văn bản

2 Mục tiêu và nhiệm vụ đề tài

Nghiên cứu tiếng Việt về phương diện ngôn ngữ học, hiện tượng nhập nhằng tiếng Việt, nhập nhằng CVT; nhu cầu sử dụng CVT trong thực tế, từ đó hiểu được tri thức CVT

Xây dựng nguồn tài nguyên CVT tiếng Việt, phát hiện và đề xuất quy tắc tạo sinh, giúp khắc phục sửa lỗi, biểu diễn nhất quán Xây dựng ứng dụng khai thác CVT; đồng thời khử nhập nhằng, giúp cho việc sử dụng CVT chuẩn hoá, góp phần phát triển ngôn ngữ Công bố kho ngữ liệu chuẩn CVT, hình thành hệ thống khai thác CVT tiếng Việt, triển khai ứng dụng thực nghiệm, đánh giá

3 Đối tượng và phạm vi nghiên cứu

Nghiên cứu về bản chất NNTN, tiếng Việt; các phương pháp, kỹ thuật và công cụ xử lý NNTN, phương pháp khử nhập nhằng

Trang 5

Đối tượng nghiên cứu là tri thức các chuyên gia ngôn ngữ, xử lý NNTN, tin học; CVT trong văn bản, sách, báo, web site; sự hình thành CVT trong NNTN ở tất cả các lĩnh vực đời sống xã hội

Về lý thuyết, nghiên cứu xử lý NNTV, XLTV, chủ yếu xử lý văn bản, hiện tượng nhập nhằng, vấn đề ngữ nghĩa

Về nghiên cứu sử dụng CVT, đề tài không hạn chế phạm vi, nhưng tập trung vào lĩnh vực khoa học, công nghệ và kỹ thuật, có tham khảo CVT tiếng Anh và một số ngôn ngữ khác

Về môi trường phát triển ứng dụng, chủ yếu là xây dựng kho ngữ liệu, xây dựng ứng dụng, hình thành môi trường khai thác CVT, cài đặt thử nghiệm Phạm vi giới hạn lĩnh vực viễn thông, CNTT

4 Phương pháp nghiên cứu

Khảo sát thực tế: Khảo sát sử dụng CVT trong văn bản,

Internet, quy định ngữ pháp, thực tiễn; kết hợp phương pháp phỏng vấn trực tiếp một số chuyên gia

Nghiên cứu lý thuyết: Lý thuyết ngôn ngữ học, xử lý NNTN,

phương pháp tách từ, xây dựng từ điển, kỹ thuật xây dựng máy tìm kiếm, xây dựng vị từ, hàm, cơ sở luật và máy suy diễn

Nghiên cứu thực nghiệm: Các kỹ thuật tìm kiếm, xây dựng thuật

toán và công cụ dựa trên giải pháp đã được đề xuất

5 Cấu trúc của luận án

Nội dung chính gồm 5 chương, phần kết luận và phụ lục:

Chương 1 nghiên cứu tổng quan, những nhân tố làm cho ngôn

ngữ biến đổi và phát triển, tiếp cận vấn đề ngữ nghĩa và nhập nhằng ngữ nghĩa Tìm hiểu sự biến đổi phát triển ngôn ngữ tiếng Việt

Chương 2 tiếp cận sự hình thành CVT tiếng Việt; xây dựng các quy tắc tạo sinh CVT, làm rõ dấu hiệu nhận biết CVT trong văn bản

Trang 6

Xây dựng hệ thống khai thác CVT tiếng Việt (AMES) dựa trên ý tưởng hệ sinh thái phần mềm

Chương 3 nghiên cứu xây dựng nguồn tài nguyên CVT tiếng

Việt, phương pháp thu thập dữ liệu CVT, thực nghiệm thuật toán tìm kiếm CVT mới trên mạng Internet

Chương 4 trình bày kết quả xây dựng công cụ khai thác CVT tiếng Việt, thực nghiệm hình thành hệ thống khai thác CVT: thư viện viết tắt, từ điển trên máy di động, xây dựng công cụ tư vấn đặt tên

thương hiệu Brandname cho doanh nghiệp

Chương 5 phân tích, xử lý nhập nhằng CVT Xây dựng máy suy

diễn nhận diện CVT trong văn bản Tiếp cận xử lý nhập nhằng CVT dựa vào chỉ số tần suất xuất hiện CVT và triển khai ứng dụng

6 Đóng góp chính của luận án

Luận án đã có 4 nhóm đóng góp khoa học và ứng dụng

1) Phát hiện và xây dựng kho ngữ liệu chữ viết tắt

2) Tổng kết các quy tắc hình thành CVT, xây dựng hệ thống khai thác CVT (Abbreviations Management Exploit System - AMES)

3) Góp phần xử lý nhập nhằng chữ viết tắt tiếng Việt

4) Xây dựng các ứng dụng khai thác CVT: từ điển CVT trên máy tính, điện thoại di động , đề xuất chuẩn hóa sử dụng CVT ở phạm vi quốc gia

Luận án tiếp tục phát triển, nghiên cứu: Trao đổi hợp tác với

nhà nghiên cứu chuyên ngành ngôn ngữ học, chuẩn hóa quy tắc hình thành CVT, tối ưu các, hàm, các luật, máy suy diễn nhận diện CVT Nghiên cứu công cụ tắt hóa văn bản, cải tiến thuật toán Bổ sung thêm đánh giá độ đo khoa học chuẩn (Recall, Precision)…

Trang 7

CHƯƠNG 1: VẤN ĐỀ CHỮ VIẾT TẮT TIẾNG VIỆT 1.1 NGÔN NGỮ VÀ XỬ LÝ NGÔN NGỮ TỰ NHIÊN

Ngữ nghĩa: Ngữ nghĩa (meaning), hay nghĩa của từ là những

liên hệ được xác lập trong nhận thức của con người giữa từ với những cái mà từ chỉ ra (những cái mà từ làm tín hiệu cho chúng)

Nghĩa của từ không tồn tại trong sự vật hiện tượng, không tồn tại

trong ý thức, bộ óc con người Nghĩa của từ tồn tại trong trong từ, nói rộng ra là tồn tại trong hệ thống ngôn ngữ

1.2.2 Phân tích nghĩa của từ

1.2.3 Sự biến đổi của từ vựng và ngữ nghĩa

Phương thức viết tắt xuất hiện các từ ngữ mới: Như trên đã đề

cập, con đường hình thành từ ngữ mới thông qua nhiều phương thức, cấu tạo nên từ ngữ mới bằng các chất liệu và quy tắc sẵn có trong

ngôn ngữ dân tộc, trong đó có phương thức viết tắt

1.2.4 Nhập nhằng ngữ nghĩa trong tiếng Việt

Một số hiện tượng nhập nhằng

Xử lý nhập nhằng trong tiếng Việt: Hiện tượng nhập nhằng xảy ra khi: Một từ thường có nhiều hơn một nghĩa, có biểu hiện

hiểu lầm, mơ hồ ngữ nghĩa của từ Trong tiếng Anh, có nhiều

công trình nghiên cứu trước đây giải quyết nhập nhằng ngữ

Trang 8

nghĩa đã được thực hiện Trong tiếng Việt, gần đây có nhiều

công trình nghiên cứu: Xử lý nhập nhằng tiếng Việt và ứng dụng trong tra cứu tài liệu phục vụ giảng dạy và học tập; xử lý nhập nhằng trong tìm kiếm văn bản tiếng Việt học từ vài tập ngữ liệu; khả năng khắc phục trong soạn thảo văn bản, nghiên cứu đề xuất giải quyết vấn đề khử nhập nhằng trong bài toán tách từ tiếng Việt

1.3 CHỮ VIẾT TẮT TRONG CUỘC SỐNG

1.4.1 Khái niệm ngữ nghĩa chữ viết tắt

Ngữ nghĩa chữ viết tắt: là những liên hệ được xác lập trong nhận

thức của con người giữa những cái mà CVT chỉ ra (những cái mà

CVT làm tín hiệu cho chúng) Nghĩa của CVT không tồn tại trong sự

vật hiện tượng, không tồn tại trong ý thức, bộ óc con người Nghĩa của CVT tồn tại trong trong CVT, nói rộng ra là tồn tại trong hệ thống ngôn ngữ mà trong đó CVT đã hình thành

1.4.2 Biến đổi ngữ nghĩa chữ viết tắt

Các phương thức biến đổi ngữ nghĩa chữ viết tắt

1.4.3 Nhập nhằng chữ viết tắt

Hiện tượng nhập nhằng của CVT sinh ra bởi các tính chất: Sự đa nghĩa, khó tìm nghĩa đúng, hợp lý; sử dụng tùy tiện, không theo quy luật; khó xác định mục đích trong văn bản

Trang 9

1.4.4 Xử lý nhập nhằng chữ viết tắt

Luận án đặt ra vấn đề xử lý nhập nhằng CVT theo hai hướng: 1) Sử dụng mặt tích cực nhập nhằng CVT

2) Từng bước khử bỏ sự nhập nhằng CVT

1.4.5 Đề xuất nghiên cứu chữ viết tắt tiếng Việt

Tựu trung, đến nay chưa có công trình nào nghiên cứu một cách

hệ thống và đầy đủ về CVT tiếng Việt, chưa chỉ ra được mối liên hệ dựa trên cơ sở lý thuyết ngôn ngữ học và vấn đề CVT và nhập nhằng CVT tiếng Việt

Ta thấy rằng ngôn ngữ tự nhiên, trong đó có tiếng Việt, luôn

biến đổi và phát triển không ngừng Chữ viết tắt cũng là một hướng làm biến đổi chữ viết, có thể được xem là cải tiến chữ viết Hệ thống

từ vựng của ngôn ngữ luôn biến đổi phát triển, trong đó phương thức viết tắt, tạo lập các CVT làm xuất hiện các từ ngữ mới Luận án này

đặt vấn đề nghiên cứu bốn vấn đề lớn sau đây:

1) Tiếp cận vấn đề CVT tiếng Việt trên phương diện thực tế và nhu cầu sử dụng trong cuộc sống, vấn đề ngữ nghĩa CVT dựa trên lý thuyết của ngôn ngữ học Tìm hiểu sự hình thành CVT và các quy tắc tạo sinh CVT

2) Xây dựng hệ thống khai thác CVT tiếng Việt, cung cấp cho NSD,

sử dụng CVT ngày càng thuận tiện, có tính gợi mở, hợp tác trao đổi các vấn đề đã và đang nghiên cứu, cùng tạo ra môi trường học tập và trao đổi thông tin các vấn đề liên quan đến CVT 3) Xây dựng nguồn tài nguyên CVT tiếng Việt, phương pháp thu thập dữ liệu và triển khai thực nghiệm

4) Xây dựng các công cụ khai thác CVT và xử lý nhập nhằng CVT tiếng Việt trong văn bản và triển khai thực nghiệm

Trang 10

CHƯƠNG 2

XÂY DỰNG HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT 2.1 CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT 2.1.1 Mô hình sự hình thành chữ viết tắt

Các tình huống hình thành CVT tiếng Việt có thể biểu diễn qua

mô hình:

2.1.2 Đặc điểm hình thành chữ viết tắt tiếng Việt

2.1.3 Quy tắc hình thành chữ viết tắt tiếng Việt

1) Quy tắc 1: Viết tắt theo từ

2) Quy tắc 2: Ghép âm hay ghép tiếng

3) Quy tắc 3: Ghép theo từ có nghĩa

4) Quy tắc 4: Sử dụng chữ cái viết phụ

5) Quy tắc 5: Kết hợp tiếng nước ngoài

6) Quy tắc 6: Mượn chữ viết tắt tiếng nước ngoài

7) Quy tắc 7: Viết tắt ngẫu nhiên

8) Quy tắc 8: Quy tắc viết tắt mã hóa

9 ) Quy tắc 9: Quy tắc viết tắt trong CSDL

Trang 11

2.1.4 Những yếu tố khác ảnh hưởng đến thành lập chữ viết tắt

Yếu tố về số lượng ký tự, dấu thanh, âm tiết

Những trường hợp không nên viết tắt

Quy định ngữ pháp chữ viết tắt tiếng Việt

Dấu hiệu nhận biết chữ viết tắt tiếng Việt trong văn bản:

2.2 TÌM HIỂU HỆ SINH THÁI PHẦN MỀM

2.2.1 Hệ sinh thái phần mềm là gì

2.2.2 Mô hình hóa hệ sinh thái phần mềm (SECO)

2.2.3 Đặc điểm một hệ sinh thái phần mềm

2.2.4 Lợi ích ứng dụng hệ sinh thái phần mềm

2.3 HỆ THỐNG KHAI THÁC CHỮ VIẾT TẮT TIẾNG VIỆT (AMES)

2.3.1 Hệ thống khai thác phần mềm

2.3.2 Đề xuất xây dựng hệ thống khai thác chữ viết tắt

Hệ thống khai thác chữ viết tắt là tập hợp thông tin nghiên cứu,

sản phẩm phần mềm cập nhật, xử lý, hiệu chỉnh, tạo sinh, khai thác

và ứng dụng về CVT tiếng Việt nhằm thực hiện trao đổi thông tin, dữ liệu với các hệ thống thông tin; đồng thời thực hiện cung cấp và trao đổi với người sử dụng thông qua một phương thức thống nhất trên nền tảng web tại bất kỳ thời điểm nào và từ bất kỳ đâu

2.3.3 Mô hình hệ thống khai thác chữ viết tắt

Mô hình hệ thống khai thác CVT, viết tắt là AMES (Abbreviations Management Exploit System) Cụ thể như trang kế

2.4 THỰC NGHIỆM XÂY DỰNG AMES

2.4.1 Xây dựng nguồn tài nguyên chữ viết tắt tiếng Việt

2.4.2 Xây dựng công cụ khai thác chữ viết tắt

Thực nghiệm xây dựng công cụ khai thác CVT, bao gồm:

Trang 12

Xây dựng công cụ ứng dụng CVT vào chỉ mục tìm kiếm, khai thác CSDL, ứng dụng CVT đề xuất bộ mã danh mục quốc gia Xây dựng thư viện và từ điển tra cứu trực CVT, công cụ tư vấn đặt CVT thương hiệu (brandname) cho doanh nghiệp

2.4.3 Xây dựng giải pháp xử lý nhập nhằng chữ viết tắt

Luận án tiếp cận các hướng xử lý nhập nhằng CVT tiếng Việt: Hướng thứ nhất, xử lý nhập nhằng CVT thực nghiệm văn bản trong lĩnh vực chuyên ngành viễn thông: xây dựng vị từ và hàm nhận diện CVT trong văn bản; đề xuất xây dựng cơ sở luật, thuật toán nhận diện và xử lý nhập nhằng CVT Hướng tiếp cận khác để xử lý nhập nhằng là đề xuất dựa vào phương pháp thống kê chỉ số tần suất xuất hiện CVT Chỉ số tần suất xuất hiện CVT cũng là cơ sở cho phép một cách tiếp cận xử lý nhập nhằng ngữ nghĩa và nhận diện CVT

Trang 13

CHƯƠNG 3

XÂY DỰNG NGUỒN TÀI NGUYÊN

CHỮ VIẾT TẮT

3.1 XÂY DỰNG CƠ SỞ DỮ LIỆU CHỮ VIẾT TẮT

3.1.1 Mô hình quan hệ dữ liệu

3.1.2 Triển khai cài đặt

3.2 GIẢI PHÁP THU THẬP DỮ LIỆU CHỮ VIẾT TẮT

3.2.1 Thu thập dữ liệu thủ công

3.2.2 Thu thập dữ liệu tự động

1) Cập nhật CVT mới từ tập tin Word

2) Cập nhật CVT mới tự động từ Internet

3.2.3 Đề xuất thuật toán SENVA tìm kiếm chữ viết tắt mới

Ý tưởng thuật toán: Máy tìm kiếm CVT nhận một URL, gửi yêu cầu đến Web Server, nhận lại một trang HTML tương ứng với mỗi URL; xử lý tập tin theo kiểu xử lý chuỗi để bóc tách nội dung văn bản cần tìm, lọc ra CVT mới, so sánh với CVT trong CSDL để lưu hoặc không, hoặc có những đánh giá cần thiết khác, thuật toán đặt tên là

SENVA - máy tìm kiếm chữ viết tắt tiếng Việt mới (Search Engines

for New Vietnamese Abbreviations)

3.2.4 Thực nghiệm cài đặt thuật toán SENVA

Upload chương trình lên máy chủ: http://10.59.0.14

Gõ lệnh thực thi máy tìm kiếm trên thanh Address theo dạng thức: http://10.59.0.14/thuthapcvt.php?url=<địa chỉ URL>

Kết quả sẽ được nhận được là danh sách liên kết được duyệt trên trang chủ Phần sau là các CVT tìm thấy được được đánh số thứ tự, mỗi CVT có trích chọn nghĩa CVT, đánh giá trùng lặp dữ liệu hay

Ngày đăng: 17/10/2021, 12:24

HÌNH ẢNH LIÊN QUAN

2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT 2.1.1. Mô hình sự hình thành chữ viết tắt  - NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT TÓM TẮT LUẬN ÁN TIẾN SĨ
2.1. CÁC TÌNH HUỐNG HÌNH THÀNH CHỮ VIẾT TẮT 2.1.1. Mô hình sự hình thành chữ viết tắt (Trang 10)
đồng bộ. Bảng CSDL danh mục quốc gia chuyên ngành: - NGHIÊN CỨU NGỮ NGHĨA VÀ HIỆN TƯỢNG NHẬP NHẰNG TRONG TIẾNG VIỆT, TIẾP CẬN XỬ LÝ VẤN ĐỀ VIẾT TẮT TIẾNG VIỆT TÓM TẮT LUẬN ÁN TIẾN SĨ
ng bộ. Bảng CSDL danh mục quốc gia chuyên ngành: (Trang 15)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w