Nghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt NamNghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt NamNghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt NamNghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt NamNghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt NamNghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt NamNghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt NamNghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt NamNghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt NamNghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam
Trang 1LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học: PGS.TS PHÙNG TRUNG NGHĨA
THÁI NGUYÊN, 2018
Trang 2MỞ ĐẦU 1
CHƯƠNG 1 TỔNG QUAN VỀ NGÔN NGỮ KÝ HIỆU VIỆT NAM 3
1.1 Tổng quan về ngôn ngữ ký hiệu 3
1.1.1 Khái niệm ngôn ngữ ký hiệu 3
1.1.2 Đặc điểm ngôn ngữ học của ngôn ngữ ký hiệu 6
1.1.3 Vai trò của ngôn ngữ kí hiệu với cộng đồng người khiếm thính 8
1.2 Tổng quan về ngôn ngữ ký hiệu Việt Nam 9
1.3 Tính rút gọn trong ngôn ngữ ký hiệu Việt Nam 11
1.4 Trật tự cú pháp trong ngôn ngữ ký hiệu Việt Nam 12
1.5 Ứng dụng công nghệ thông tin trong dịch ngôn ngữ ký hiệu 13
1.6 Mục tiêu của luận văn 15
CHƯƠNG 2 LUẬT RÚT GỌN VĂN BẢN VÀ CHUYỂN ĐỔI CÚ PHÁP ĐỐI VỚI NGÔN NGỮ KÝ HIỆU VIỆT NAM 16
2.1 Thu thập luật rút gọn trong ngôn ngữ ký hiệu Việt Nam 16
2.1.1 Thu thập luật rút gọn giới từ và liên từ 16
2.1.2 Thu thập luật rút gọn các từ tính thái 22
2.2 Thu thập luật chuyển đổi cú pháp trong ngôn ngữ ký hiệu Việt Nam 25 2.2.1 Vấn đề về xây dựng ngân hàng câu được chú giải cú pháp 25
2.2.2 Tổng kết những đặc điểm về trật tự cú pháp ngôn ngữ kí hiệu Việt Nam 31
2.3 Cơ sở dữ liệu văn bản tiếng Việt 33
2.3.1 Đặc trưng của văn bản tiếng Việt 33
2.3.2 Phân tích dữ liệu văn bản tiếng Việt 36
2.3.3 Các vấn đề về phân tích cú pháp trong Tiếng Việt 38
Trang 33.1 Môi trường thực nghiệm hệ thống rút gọn văn bản và chuyển đổi cú
pháp 47
3.2 Các công cụ hỗ trợ thực nghiệm 47
3.2.1 Công cụ TreeBank Editor 47
3.2.2 Bộ phân tích cú pháp Bikel 47
3.3 Cài đặt thuật toán rút gọn văn bản 48
3.3.1 Thuật toán rút gọn văn bản trong ngôn ngữ ký hiệu Việt Nam 48
3.3.2 Đánh giá thực nghiệm 50
3.4 Cài đặt thuật toán chuyển đổi cú pháp 53
3.4.1 Xây dựng cây chuyển đổi cú pháp tương ứng trong ngôn ngữ kí hiệu 53
3.4.2 Cài đặt thuật toán 56
3.4.3 Đánh giá, kết quả thực nghiệm 57
3.5 Xây dựng phần mềm thực nghiệm rút gọn văn bản và chuyển đổi cú pháp 59
KẾT LUẬN 61
TÀI LIỆU THAM KHẢO 62
Trang 4Hình 1.1 Ngôn ngữ kí hiệu trong hệ thông Arthrological 5
Hình 2.1 Quá trình gán nhãn 31
Hình 2.2 Cây cú pháp của câu "tôi nhìn cô gái với chiếc ống nhòm” 39
Hình 2.3 Dẫn xuất phân tích top - down 42
Hình 2.4 Dẫn xuất phân tích bottom - up 45
Hình 3.1 Sơ đồ thuật toán rút gọn văn bản 50
Hình 3.2 Cấu trúc cây cú pháp chuyển đổi tương ứng sang dạng NNKH câu đơn 53 Hình 3.3 Cấu trúc cây cú pháp chuyển đổi tương ứng sang dạng NNKH câu phủ định dạng 1 53
Hình 3.4 Cấu trúc cây cú pháp chuyển đổi tương ứng sang dạng NNKH câu phủ định dạng 2 54
Hình 3.5 Cấu trúc cây cú pháp chuyển đổi tương ứng sang dạng NNKH câu nghi vấn dạng 1 54
Hình 3.6 Cấu trúc cây cú pháp chuyển đổi tương ứng sang dạng NNKH câu nghi vấn dạng 2 54
Hình 3.7 Cấu trúc cây cú pháp chuyển đổi tương ứng sang dạng NNKH câu đơn có bao gồm số từ 55
Hình 3.8 Sơ đồ thuật toán chuyển đổi cú pháp 56
Hình 3.9 Kết quả dịch tự động câu tiếng Việt sang dạng câu đúng ngữ pháp trong ngôn ngữ kí hiệu Việt Nam 58
Hình 3.10 Giao diện phần mềm thực nghiệm rút gọn và chuyển đổi cú pháp 59
Hình 3.11 Giao diện phần mềm thực nghiệm rút gọn và chuyển đổi cú pháp 60
Hình 3.12 Giao diện phần mềm thực nghiệm rút gọn và chuyển đổi cú pháp 60
Trang 5Bảng 1.1 So sánh câu tiếng việt và câu ngôn ngữ ký hiệu 12
Bảng 2.1 Một số mẫu câu rút gọn giới từ và liên từ 22
Bảng 2.2 Tập nhãn từ loại 26
Bảng 2.3 Tập nhãn cụm từ 28
Bảng 2.4 Nhãn mệnh đề 28
Bảng 2.5 Nhãn chức năng cú pháp 29
Bảng 2.6 Nhãn chức năng trạng ngữ 30
Bảng 2.7 Bảng các thành phần âm tiết 34
Bảng 3.1 Điểm số của BLEU 52
Bảng 3.2 Điểm BLEU đánh giá tập dữ liệu của thuật toán chuyển đổi cú pháp NNKH 58
Trang 6Giáo viên hướng dẫn: PGS.TS Phùng Trung Nghĩa
Tôi xin cam đoan luận văn “Nghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam” này là công trình nghiên
cứu của riêng tôi dưới sự hướng dẫn của PGS.TS Phùng Trung Nghĩa Các số liệu sử dụng trong luận văn là trung thực Các kết quả nghiên cứu được trình bày trong luận văn chưa từng được công bố tại bất kỳ công trình nào khác
Thái Nguyên, ngày 30 tháng 5 năm 2018
Ma Ngọc Khánh
Trang 7Học viên xin gửi lời cảm ơn chân thành tới Thầy hướng dẫn PGS.TS Phùng Trung Nghĩa, Trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên, người đã tận tình hướng dẫn giúp học viên hoàn thành luận văn tốt nghiệp
Học viên cũng xin gửi lời cảm ơn sâu sắc đến các thầy cô giáo của Trường Đại học Công nghệ Thông tin và Truyền thông - Đại học Thái Nguyên, cùng các thầy cô giáo của Viện Công nghệ thông tin - Viện khoa học Việt Nam đã nhiệt tình giảng dạy, truyền đạt kiến thức cho học viên trong suốt 2 năm học để học viên có thể hoàn thành được luận văn của mình
Ma Ngọc Khánh
Trang 8MỞ ĐẦU
Hiện nay theo thống kê, Việt Nam có khoảng trên 2.5 triệu người khiếm thính [1] Do khả năng nghe bị suy giảm nên khả năng giao tiếp bằng lời ở cộng đồng người khiếm thính bị hạn chế rất nhiều Để thay thế cho khả năng giao tiếp bằng tiếng nói, ngôn ngữ ký hiệu, là ngôn ngữ tượng hình sử dụng biểu diễn, chuyển động của bàn tay, cơ thể, và sắc thái biểu cảm của khuôn mặt đã ra đời Tuy nhiên, việc sử dụng ngôn ngữ ký hiệu chưa phát huy được hiệu quả giúp người khiếm thính hòa nhập được với xã hội do việc giao tiếp giữa người khiếm thính và người nghe tốt còn gặp nhiều khó khăn
Trên thế giới hiện nay đã và đang nghiên cứu phát triển và đưa ra nhiều dịch vụ thông dịch và sản phẩm công nghệ nhằm hỗ trợ người khiếm thính trong giao tiếp xã hội như máy trợ thính dành cho người nghe kém, găng tay chuyển đổi ngôn ngữ ký hiệu thành giọng nói [9], các phần mềm dịch từ văn bản/giọng nói sang ngôn ngữ ký hiệu hay các từ điển tra cứu ngôn ngữ ký hiệu online [12], v.v… Tuy nhiên mỗi một nghiên cứu hay sản phẩm đều có những hạn chế và chưa đáp ứng được việc hỗ trợ trong giao tiếp hai chiều giữa người khiếm thính và người nghe tốt trong thực tế
Việc nghiên cứu xử lý ngôn ngữ ký hiệu trên máy tính ở nước ta còn rất mới mẻ Chúng ta chưa thực sự có một hệ thống ngôn ngữ đồng nhất cho ngôn ngữ ký hiệu tiếng Việt [6] Bên cạnh vấn đề ngôn ngữ học, việc phát triển sản phẩm ứng dụng công nghệ để phát huy ngôn ngữ ký hiệu nhằm nâng cao trình độ, tiếp nhận thông tin, khả năng giao tiếp cho người khiếm thính lại càng ít và kém hiệu quả
Với sự quan tâm đặc biệt của Đảng và Nhà nước, đã có nhiều trường học, trung tâm hỗ trợ dạy học và việc làm riêng cho người khiếm thính Vì vậy việc nghiên cứu về các thuật toán và xây dựng phần mềm rút gọn văn
Trang 9bản, chuyển đổi cú pháp đối với ngôn ngữ ký hiệu Việt Nam là cần thiết [2]
Do đó tôi chọn đề tài “Nghiên cứu phương pháp rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam”
Mục tiêu của luân văn là Nghiên cứu các lý thuyết đã có để phân tích, đánh giá về các tính chất, các luật rút gọn, chuyển đổi cú pháp đối với ngôn ngữ ký hiệu Việt Nam Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá
sẽ nghiên cứu cài đặt thực nghiệm các thuật toán rút gọn, chuyển đổi cú pháp này và xây dựng phần mềm hỗ trợ rút gọn và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam
Nội dung chính của luận văn bao gồm 3 chương:
Chương 1 Tổng quan về ngôn ngữ ký hiệu Việt Nam
Chương 2 Luật rút gọn văn bản và chuyển đổi cú pháp đối với ngôn ngữ ký hiệu Việt Nam
Chương 3 Xây dựng hệ thống rút gọn văn bản và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam
Khi viết báo cáo này học viên đã cố gắng để đạt được những mục tiêu
và định hướng nghiên cứu đề ra ban đầu, song điều kiện thời gian và năng lực còn hạn chế nên không tránh khỏi thiếu sót Học viên mong nhận được sự góp
ý của thầy giáo hướng dẫn, thầy cô giáo để học viên có được những kinh nghiệm thực tế và bổ ích để sau này có thể xây dựng được một chương trình hoàn thiện hơn
Trang 10CHƯƠNG 1 TỔNG QUAN VỀ NGÔN NGỮ KÝ HIỆU VIỆT NAM
1.1 Tổng quan về ngôn ngữ ký hiệu
1.1.1 Khái niệm ngôn ngữ ký hiệu
Ngôn ngữ ký hiệu (hay ngôn ngữ dấu hiệu, thủ ngữ) là ngôn ngữ dùng những biểu hiện của bàn tay thay cho âm thanh của tiếng nói Ngôn ngữ ký hiệu do người điếc tạo ra nhằm giúp họ có thể giao tiếp với nhau trong cộng đồng của mình và tiếp thu tri thức của xã hội Việc thay thế âm thanh của tiếng nói có thể liên quan đến đồng thời sự kết hợp các hình dạng tay, hướng
và chuyển động của bàn tay, cánh tay hoặc cơ thể, và nét mặt để thể hiện trôi chảy những suy nghĩ của người nói Ngôn ngữ kí hiệu có nhiều điểm tương đồng với ngôn ngữ nói (đôi khi được gọi là "ngôn ngữ bằng miệng" - mà phụ thuộc chủ yếu vào âm thanh), đó là lý do tại sao ngôn ngữ học xem xét cả hai dạng ngôn ngữ là ngôn ngữ tự nhiên Tuy nhiên cũng có một số khác biệt đáng kể giữa các ngôn ngữ ký hiệu và ngôn ngữ nói Đặc biệt không nên nhầm lẫn ngôn ngữ kí hiệu với ngôn ngữ cơ thể, là một loại giao tiếp phi ngôn ngữ
Bất cứ đâu trong cộng đồng người khiếm thính trên thế giới, ngôn ngữ
ký hiệu đều được phát triển Ngôn ngữ kí hiệu không chỉ được sử dụng bởi người điếc mà nó cũng được sử dụng bởi những người có thể nghe thấy, nhưng thể chất bị hạn chế để có thể nói chuyện bình thường Ngôn ngữ kí hiệu có những thuộc tính ngôn ngữ riêng biệt Hiện nay, hàng trăm ngôn ngữ
ký hiệu được sử dụng trên thế giới và phát triển trong cộng đồng người khiếm thính ở tất cả các quốc gia Một số ngôn ngữ ký hiệu có được công nhận pháp
lý, trong khi một số khác thì chỉ mang tính cục bộ, địa phương
Một quan niệm sai lầm phổ biến là tất cả các ngôn ngữ ký hiệu là trên toàn thế giới là hoàn toàn giống nhau hoặc ngôn ngữ ký hiệu là một ngôn ngữ
Trang 11quốc tế Thực tế thì không phải vậy, mỗi quốc gia có hơn ngôn ngữ ký hiệu bản địa riêng của mình, và thậm chí một quốc gia có nhiều hơn một loại ngôn ngữ kí hiệu mang tính chất đặc trưng của từng địa phương trong quốc gia đó Mặc dù, có thể nhận thấy ngôn ngữ ký hiệu có thể chia sẻ với nhau với nhau, cho dù trong cùng một nước hoặc mở rộng phạm vi bên ngoài một quốc gia
Từ những năm 384-322 TCN Aristotle, triết gia vĩ đại của Hy Lạp, tuyên bố rằng: "Người điếc không thể giáo dục được Nếu không nghe được, con người không thể học được" Tuyên bố này đặt nền móng cho việc xây dựng một ngôn ngữ riêng cho người điếc
Một trong những ghi chép sớm nhất về ngôn ngữ ký hiệu là từ thế kỷ thứ V trước Công nguyên, trong Plato 's Cratylus , Socrates nói: “ If we hadn't
a voice or a tongue, and wanted to express things to one another, wouldn't we try to make signs by moving our hands, head, and the rest of our body, just as dumb people do at present? (Tạm dịch: “ Nếu chúng ta không có một giọng nói hay một cái lưỡi, và muốn thể hiện mọi điều với nhau, chúng ta sẽ phải cố gắng để tạo ra dấu hiệu bằng cách di chuyển bàn tay, đầu, và một phần cơ thể như cách người câm họ làm có phải không? " [12]
Cho đến thế kỷ 19, hầu hết những gì chúng ta biết về lịch sử ngôn ngữ
ký hiệu chỉ giới hạn trong bảng chữ cái bằng tay (hệ thống fingerspelling) đã được phát minh ra để tạo điều kiện chuyển giao từ một ngôn ngữ nói đến một ngôn ngữ ký hiệu, chứ không phải là một loại ngôn ngữ riêng
Trong năm 1620, Juan Pablo Bonet xuất bản một cuốn sách nói về rút gọn chữ và nghệ thuật giảng dạy cho người câm ở Madrid [13] Nó được coi
là luận thuyết hiện đại đầu tiên của dấu hiệu ngữ âm học ngôn ngữ, đặt ra một phương pháp giáo dục bằng miệng cho người khiếm thính và một bảng chữ cái của ngôn ngữ kí hiệu
Trang 12Tại Anh, bảng chữ cái bằng tay cũng đã được sử dụng cho một số mục đích, chẳng hạn như thông tin liên lạc bí mật, [14] nói trước công chúng, hay giao tiếp của người khiếm thính [15] Năm 1648, John Bulwer mô tả "Master Babington", một người đàn ông bị điếc thành thạo trong việc sử dụng một bảng chữ cái, người vợ có thể trò chuyện với anh ta một cách dễ dàng, ngay
cả trong bóng tối thông qua việc sử dụng các ký hiệu xúc giác [16]
Năm 1680, George Dalgarno bố một nghiên cứu [17] , trong đó ông đã trình bày phương pháp riêng của mình về giáo dục người khiếm thính, trong
đó có một bảng chữ cái "arthrological", bằng cách chỉ vào các khớp khác nhau của các ngón tay và lòng bàn tay của bàn tay trái Hệ thống Arthrological đã được sử dụng một thời gian
Hình 1.1 Ngôn ngữ kí hiệu trong hệ thông Arthrological
Ngôn ngữ kí hiệu thường có khá ít mối liên hệ với ngôn ngữ cho tiếng nói của các vùng mà ngôn ngữ đó phát sinh sinh Mối tương quan giữa ký hiệu và ngôn ngữ nói là phức tạp và khác nhau tùy thuộc vào quốc gia hơn là phụ thuộc chỉ vàocác ngôn ngữ nói Ví dụ, Mỹ, Canada, Anh, Úc và New Zealand đều có tiếng Anh là ngôn ngữ chính của họ, nhưng ngôn ngữ American Sign (ASL), được sử dụng ở Mỹ và hầu hết các bộ phận của Canada, có nguồn gốc từ Ngôn ngữ ký hiệu của Pháp trong khi nó khác biệt với phương ngữ trong ngôn ngữ kí hiệu của Anh, Úc và New Zealand [18] Tương tự như vậy, các ngôn ngữ kí hiệu của Tây Ban Nha và Mexico là rất khác nhau, mặc dù Tây Ban Nha là ngôn ngữ quốc gia của mỗi nước và ngôn ngữ ký hiệu được sử dụng trong Bolivia dựa trên ASL hơn bất kỳ ngôn ngữ
Trang 13ký hiệu được sử dụng trong một quốc gia Tây Ban Nha Biến thể cũng phát sinh trong một ngôn ngữ ký hiệu 'quốc gia' mà không nhất thiết phải tương ứng với sự khác biệt phương ngữ trong ngôn ngữ nói quốc gia; đúng hơn, chúng thường có thể tương quan đến vị trí địa lý của cộng đồng người điếc
1.1.2 Đặc điểm ngôn ngữ học của ngôn ngữ ký hiệu
Cũng như ngôn ngữ nói, ngôn ngữ ký hiệu của từng quốc gia, thậm chí
là từng khu vực trong một quốc gia rất khác nhau Điều đó là do mỗi quốc gia, khu vực có lịch sử, văn hóa, tập quán khác nhau nên ký hiệu để biểu thị sự vật hiện tượng cũng khác nhau Chẳng hạn, cùng chỉ tính từ màu hồng thì ở Hà Nội người ta xoa vào má (má hồng), còn tại Thành phố Hồ Chí Minh lại chỉ vào môi (môi hồng) Điều tương tự cũng diễn ra khi có sự khác biệt lớn hơn trên tầm quốc gia, dẫn tới sự khác biệt của hệ thống từ vựng và ngữ pháp ngôn ngữ ký hiệu giữa các nước
Tuy nhiên, ký hiệu tất cả mọi nơi trên thế giới đều có những điểm tương đồng nhất định Ví dụ: ký hiệu ‘uống nước’ thì nước nào cũng làm như nhau là giả bộ cầm cốc uống nước, ký hiệu ‘lái ô tô’ thì giả bộ cầm vô lăng ô
tô quay quay, v.v Mỗi người (dù bình thường hay câm điếc) đều có sẵn 30% kiến thức ngôn ngữ ký hiệu Do ngôn ngữ ký hiệu phát triển hơn trong cộng đồng người khiếm thính, nên những người thuộc cộng đồng này của hai nước khác nhau có thể giao tiếp với nhau tốt hơn hai người bình thường nhưng mà không biết ngoại ngữ
Hai đặc điểm quan trọng nhất của NGÔN NGỮ KÍ HIỆU là tính giản lược và có điểm nhấn, VD: Tiếng Anh: “Today it is not so much beautiful as the sky clouds make gloomy” NGÔN NGỮ KÍ HIỆU: "It is NOT BEAUTIFUL, sky CLOUDS make GLOOMY "
Trang 14Do tính giản lược và có điểm nhấn nên cấu trúc ngữ pháp ngôn ngữ ký hiệu nhiều khi không thống nhất, cùng một câu có thể sắp xếp nhiều cách khác nhau (thường thì điểm nhấn được đưa lên đầu câu để gây hiệu quả chú ý)
Một quan niệm sai lầm phổ biến là ngôn ngữ ký hiệu phụ thuộc vào ngôn ngữ nói Ngôn ngữ kí hiệu, giống như tất cả các ngôn ngữ tự nhiên, được phát triển bởi những người sử dụng chúng, trong trường hợp này, những người khiếm thính, những người có thể có ít hoặc không có kiến thức của bất
kỳ ngôn ngữ nói nào
Khi phát triển ngôn ngữ kí hiệu, đôi khi phải vay mượn các yếu tố từ ngôn ngữ nói, cũng giống như tất cả các ngôn ngữ vay mượn từ các ngôn ngữ khác Trong nhiều ngôn ngữ kí hiệu, một bảng chữ cái (fingerspelling) có thể được sử dụng trong giao tiếp bằng cách vay một từ từ một ngôn ngữ nói, bằng cách quy định các chữ cái Điều này thường được sử dụng cho tên riêng của người và nơi chốn; nó cũng được sử dụng trong một số ngôn ngữ cho các khái niệm mà không có kí hiệu có sẵn tại thời điểm đó Fingerspelling đôi khi có thể là một nguồn gốc của những kí hiệu mới, chẳng hạn như kí hiệu khởi tạo
Nhìn chung, mặc dù, ký ngôn ngữ độc lập với ngôn ngữ nói và phát triển theo con đường riêng Ví dụ, Ngôn ngữ ký hiệu Anh và Ngôn ngữ ký hiệu Mỹ (ASL) là khá khác nhau và đôi bên cùng khó hiểu, mặc dù những người nghe của Anh và Mỹ có cùng ngôn ngữ nói Các văn phạm của ngôn ngữ kí hiệu thường không giống ngôn ngữ nói được sử dụng trong các khu vực địa lý tương tự; trên thực tế, về mặt cú pháp, ASL có mối quan hệ với tiếng Nhật nhiều hơn là với tiếng Anh
Tương tự như vậy, các nước có sử dụng một ngôn ngữ nói duy nhất có thể có hai hoặc nhiều ngôn ngữ dấu hiệu, hoặc một khu vực chứa nhiều hơn một ngôn ngữ nói có thể chỉ sử dụng một ngôn ngữ ký hiệu Ở Nam Phi , có
11 ngôn ngữ nói chính thức và một số lượng tương tự khác sử dụng rộng rãi
Trang 15ngôn ngữ nói Tuy nhiên nó chỉ có một ngôn ngữ ký hiệu với hai biến thể do lịch sử của việc có hai tổ chức giáo dục lớn dành cho người điếc ở các khu vực địa lý khác nhau
1.1.3 Vai trò của ngôn ngữ kí hiệu với cộng đồng người khiếm thính
Theo Tổ chức Y tế Thế giới (WHO) thì hiện nay trên thế giới có khoảng 360 triệu người câm điếc các dạng (chiếm khoảng 5% dân số thế giới) Hầu hết trong số họ có mức sống dưới trung bình do rào cản ngôn ngữ
Thông thường, những người khiếm thính bẩm sinh sẽ chỉ học và tư duy bằng ngôn ngữ ký hiệu Tuy vậy, một số người điếc bẩm sinh đôi lúc sẽ tư duy được bằng cả ngôn ngữ lời nói nếu cố gắng học nói Những người không
bị điếc hoàn toàn vẫn nghe được một chút khi đeo thiết bị trợ thính (thường gọi là “khiếm thính”) sẽ vẫn có khả năng tư duy trong đầu bằng âm thanh, lời nói
Khiếm thính thường nghiêm trọng hơn khiếm thị bởi não bộ của người khiếm thính không tiếp xúc được với ngôn ngữ, trong khi đó ngôn ngữ có tầm quan trọng không thể thiếu với các chức năng lưu giữ ký ức, tư duy trừu tượng và sự tự nhận thức của não bộ Nói một cách hình tượng, ngôn ngữ như là phương tiện để não có thể điều khiển các “phần cứng” Do đó, dù không khiếm khuyết về não bộ, nhưng những người khiếm thính không được học ngôn ngữ kí hiệu sẽ bị khuyết tật trí tuệ, cho đến khi họ học được một thứ ngôn ngữ đã được cấu trúc sẵn
Ngôn ngữ đóng vai trò rất quan trọng trong những giai đoạn phát triển đầu của não bộ, vì thế những người điếc không được học ngôn ngữ kí hiệu sớm thường sẽ gặp khó khăn trong học tập và các vấn đề này sẽ đeo bám họ suốt cuộc đời, ngay cả khi sau đó họ có thể học một loại ngôn ngữ ký hiệu đặc thù Đó là lý do mà người khiếm thính từng bị coi là một dạng khuyết tật trí tuệ và không thể dạy dỗ được cho tới tận những năm 1970 Trước đó, từ
Trang 16những năm 1880, người khiếm thính được học sử dụng khẩu hình để giao tiếp thay vì dùng ngôn ngữ kí hiệu Tuy nhiên, một nghiên cứu gần đây chỉ ra rằng não bộ của người điếc không thể liên kết hoàn toàn với ngôn ngữ nói giống như cách ngôn ngữ kí hiệu ăn sâu, bắt rễ vào não bộ của họ Căn bản vì ngôn ngữ lời nói không thể giúp não bộ của họ xử lý thông tin Những người khiếm thính bị ép học ngôn ngữ nói sẽ có được ý thức về bản thân và trí nhớ tốt hơn những người không được học một thứ ngôn ngữ nào, tuy nhiên họ cũng không thể khai thác và phát triển được toàn bộ tiềm năng của não bộ như khi học ngôn ngữ kí hiệu
Do vậy ngôn ngữ kí hiệu không những chỉ có vai trò to lớn trong giáo
dục mà còn trong nhiều mặt khác và có tầm quan trọng rất lớn trong cuộc sống của những Người khiếm thính
1.2 Tổng quan về ngôn ngữ ký hiệu Việt Nam
Việt Nam có khoảng 2,5 triệu người khiếm thính ( Theo số liệu của cuộc tổng điều tra dân số và nhà ở VN tháng 12/2009) trong đó số người khiếm thính chiếm một tỉ lệ tương đối cao bao gồm người Điếc, người nghe kém và người mới bị mất thính lực Do khả năng nghe bị suy giảm nên khả năng giao tiếp bằng lời nói tự nhiên của người khiếm thính rất hạn chế Vì vậy, để đáp ứng nhu cầu giao tiếp, người khiếm thính phải sử dụng một thứ ngôn ngữ đặc biệt: Ngôn ngữ kí hiệu do đó, sự hình thành và phát triển ngôn ngữ kí hiệu ở nước ta cũng là một điều tự nhiên
Trung tâm Nuôi dạy trẻ khiếm thính Thuận An, Bình Dương được coi
là cái nôi của nền giáo dục trẻ Điếc ở Việt Nam Với lịch sử hình thành trên một trăm năm, Trung tâm là nơi đem đến cho cộng đồng người Điếc Việt Nam những ký hiệu ngôn ngữ đầu tiên, giáo dục người Điếc bằng lời nói kết hợp với ngôn ngữ ký hiệu
Trang 17Điều đó đồng nghĩa với việc ở Việt Nam, người khiếm thính đã sử dụng ngôn ngữ kí hiệu như tiếng mẹ đẻ và ngôn ngữ kí hiệu với tiếng Việt là hai thứ ngôn ngữ riêng biệt
Theo Wikipedi tiếng Việt, ngôn ngữ kí hiệu, ngôn ngữ dấu hiệu hay thủ ngữ là ngôn ngữ chủ yếu được cộng đồng người khiếm thính sử dụng nhằm chuyển tải thông tin qua cử chỉ, điệu bộ, nét mặt thay cho lời nói Hiện nay, ở Việt Nam, cả ba thuật ngữ ngôn ngữ kí hiệu, ngôn ngữ dấu hiệu hay thủ ngữ đều đang được sử dụng để chỉ hệ thống cử chỉ, nét mặt mà người khiếm thính
dùng để giao tiếp Tuy nhiên, theo tôi, hai thuật ngữ Thủ ngữ và Ngôn ngữ dấu hiệu là không thực sự chính xác vì: Thủ ngữ theo tiếng Hán có nghĩa là
“ngôn ngữ của đôi tay, ngôn ngữ bằng tay” Tuy nhiên tất cả các ngôn ngữ kí hiệu trên thế giới đều có 5 phương tiện và cách thức biểu hiện sau:
- Vị trí của bàn tay
- Hình dạng bàn tay
- Hướng của lòng bàn tay
- Hướng của chuyển động lòng bàn tay
- Biểu hiện của nét mặt
Như vậy, rõ ràng ngôn ngữ của người khiếm thính không chỉ giới hạn trong sự diễn tả bằng tay mà còn có cả sự biểu hiện bằng nét mặt cũng vô cùng quan trọng Những điểm khác biệt trong ngữ pháp cấu tạo từ của ngôn ngữ kí hiệu và tiếng Việt chứng tỏ ngôn ngữ kí hiệu Việt Nam là một ngôn ngữ đích thực, có ngữ pháp riêng biệt, độc lập với tiếng Việt Nó hoàn toàn đáp ứng được vai trò là một hệ thống các tín hiệu đáp ứng được nhu cầu giao tiếp và là công cụ tư duy của người khiếm thính Sử dụng ngôn ngữ kí hiệu, người dạy có thể truyền đạt một cách hữu hiệu nội dung kiến thức đến cho những học trò khiếm thính
Trang 181.3 Tính rút gọn trong ngôn ngữ ký hiệu Việt Nam
Đặc trưng tư duy của người điếc mang tính cụ thể, nó ảnh hưởng trực tiếp đến cách biểu đạt ngôn ngữ như: trật tự sắp xếp các kí hiệu trong câu, giản lược các thành phần của câu…
Ngôn ngữ ký hiệu trong giao tiếp thông thường giữa người điếc với người điếc có một số đặc điểm cơ bản Đó là câu Ngôn ngữ ký hiệu ngắn gọn hơn câu của ngôn ngữ nói/viết tiếng Việt, bởi được giản lược bớt những giới
từ, từ phụ (đứng vai trò là bổ ngữ trong câu, bổ ngữ cho tính từ, bổ ngữ cho động từ) Do bị hạn chế về nhận thức và vốn từ, nên người điếc biểu đạt bằng Ngôn ngữ ký hiệu không theo trật tự ngữ pháp của ngôn ngữ nói/viết tiếng Việt, vị trí của các thành phần câu bị đảo
Câu tường thuật: người điếc thường thay đổi trật tự từ theo mục đích nói và lược bỏ một số thành phần của câu như giới từ, liên từ,
Câu nghi vấn: trong câu nghi vấn không có lựa chọn, người điếc không bao giờ sử dụng đại từ nghi vấn ở đầu hoặc giữa câu mà luôn đặt ở cuối câu Đại từ nghi vấn thường đứng liền kề với trọng điểm nghi vấn Câu nghi vấn
có lựa chọn và câu nghi vấn giả thiết thường không được người điếc sử dụng trong giao tiếp, tuy nhiên họ cũng có thể diễn tả giống như ngôn ngữ nói Còn loại câu nghi vấn dùng ngữ điệu thì không có trong NNKH Tuy nhiên để làm rõ hơn nội dung truyền đạt, người điếc có thể sử dụng tốc độ ra dấu cộng với sự biểu lộ trên nét mặt
Câu phủ định: vị trí của vị ngữ không thay đổi nhưng vị trí của phụ từ trong câu phủ định thường đứng ở cuối câu
Câu mệnh lệnh: các từ chỉ tình thái thường bị giản lược, trật tự từ trong câu bị đảo vị trí so với ngôn ngữ nói/viết tiếng Việt, từ chỉ hành động sai khiến thường đứng ở cuối câu
Trang 19Như vậy chúng ta có thể thấy các thành phần được rút gọn trong ngôn ngữ kí hiệu sẽ bao gồm: giới từ, liên từ, các từ chỉ tình thái
1.4 Trật tự cú pháp trong ngôn ngữ ký hiệu Việt Nam
Ngôn ngữ kí hiệu của cộng đồng người khiếm thính ở nước ta có sự khác biệt không nhỏ về hệ thống từ vựng Một trong những đặc trưng cơ bản làm cho ngôn ngữ khác với các hệ thống tín hiệu khác là nó vừa làm công cụ giao tiếp lại vừa làm công cụ tư duy
Công trình nghiên cứu cách biểu đạt ngôn ngữ kí hiệu của người Điếc Việt Nam [8] của Viện Khoa học giáo dục đã bước đầu chỉ ra rằng người khiếm thính biểu đạt bằng ngôn ngữ kí hiệu không theo như trật tự từ thông thường, nhưng chưa có sự phân tích sâu về mặt ngôn ngữ học và cũng chưa đưa ra được những luận giải xác đáng Các nhà ngôn ngữ học Mỹ cũng đã
khẳng định “ngôn ngữ kí hiệu Mỹ không phải là tiếng Anh trên bàn tay”, tức
là nó không phải là một sự mô phỏng của ngôn ngữ nói [11, 8] Ngôn ngữ kí hiệu ở Việt Nam cũng như vậy Nó có những quy tắc riêng về từ vựng và ngữ pháp, độc lập với tiếng Việt Điểm dễ nhận thấy nhất là trật tự kí hiệu trong một số loại câu của ngôn ngữ kí hiệu ở Việt Nam khác về cơ bản so với trật tự
từ trong câu tiếng Việt So sánh các câu được thể hiện bằng ngôn ngữ nói thông thường và các câu được thể hiện bằng ngôn ngữ kí hiệu sau:
Bảng 1.1 So sánh câu tiếng việt và câu ngôn ngữ ký hiệu
STT Câu tiếng Việt Câu bằng ngôn ngữ kí hiệu
2 Bạn viết đẹp lắm! Bạn viết đẹp + (nét mặt)!
4 Trưa nay, tôi ăn hai quả táo xanh Tôi táo xanh ăn hai trưa nay
5 Tôi thương mẹ tôi nhất Tôi mẹ thương nhất
6 Nhà tôi ở Thịnh Đán Tôi nhà Thịnh Đán
7 Con chưa uống sữa Con sữa uống chưa
8 Tôi thích ăn dưa hấu Tôi ăn dưa hấu thích
9 Tôi không thích ăn vú sữa Tôi ăn vú sữa không thích
Trang 2010 Ai cho bạn mượn sách? Sách cho bạn mượn ai?
11 Em có bao nhiêu cái kẹo? Em kẹo có bao nhiêu?
12 Bạn thích ăn gì? Bạn ăn thích gì?
13 Gia đình của bạn có mấy người? Bạn gia đình người mấy?
14 Ngày mai là thứ ba đúng không?
(14a) Mai thứ 3 đúng sai?
(14b) Mai thứ ba đúng (+ nét mặt)? (14c) Mai thứ ba (+ nét mặt )?
15 Bạn có người yêu chưa? Bạn người yêu có (+ nét mặt )?
16 Bạn thích màu đen hay màu
trắng?
(16a) Bạn đen trắng thích cái nào? (16b) Bạn đen trắng thích (+ nét mặt)?
17 Ôi, bông hoa đẹp thế! Hoa đẹp + (nét mặt)!
18 Hãy mở cửa sổ ra! Cửa sổ mở + (nét mặt)!
Đối với tất cả các ngôn ngữ, cú pháp là vô cùng quan trọng Nó phản ánh cách tư duy của người bản ngữ Nắm được từ nhưng không nắm được ngữ pháp của một ngôn ngữ cũng khó lòng có thể hiểu nhau trong giao tiếp Đây là một vấn đề rất đáng quan tâm trong việc dạy, học và thông dịch ngoại ngữ nói chung và ngôn ngữ kí hiệu nói riêng
Thiết nghĩ, cũng có thể coi ngôn ngữ kí hiệu - một thứ ngôn ngữ nhân tạo - như một ngoại ngữ và cộng đồng người khiếm thính là người bản ngữ,
để việc dạy, học, thông dịch thứ ngôn ngữ này có hiệu quả, cũng là để có thể hiểu, cảm thông và tôn trọng cách nghĩ, cách “nói” của người khiếm thính hơn
1.5 Ứng dụng công nghệ thông tin trong dịch ngôn ngữ ký hiệu
Nhờ sự phát triển của khoa học công nghệ, hiện nay trên thế giới đã và đang nghiên cứu phát triển và đưa ra nhiều dịch vụ thông dịch và sản phẩm công nghệ nhằm hỗ trợ người khiếm thính trong giao tiếp xã hội Trong đó việc nghiên cứu phương pháp dịch tự động mà trọng tâm là chuyển đổi cú pháp đúng trong ngôn ngữ kí hiệu là vấn đề được các nhà nghiên cứu về ngôn ngữ tự nhiên trên thế giới đặc biệt quan tâm
Trang 21Một trong những hệ thống dịch tự động thành công nhất hiện nay là chương trình dịch ViSiCAST Đây là công cụ để dịch từ tiếng Anh sang ngôn ngữ kí hiệu Anh Hệ thống này sử dụng HPSG (Head-driven phrase structure grammar - Pollard and Sag, 1994) để thể hiện văn bản tiếng Anh thành ngôn ngữ kí hiệu Anh (BSL Nó là một phần của dự án VisiCast của liên minh Châu Âu Hệ thống này cũng được coi là phương tiện nghiên cứu để dịch sang ngôn ngữ kí hiệu tiếng Đức hoặc tiếng Hà Lan, tuy nhiên hiện nay khả năng đó vẫn chưa thể thực hiện được
Phương pháp tiếp cận ở chương trình dịch này là sử dụng bộ phân tích
cú pháp liên kết CMU để phân tích một văn bản tiếng Anh đầu vào, sau đó sử dụng các quy tắc cú pháp khai báo Prolog để chuyển đổi cú pháp Trong quá trình dịch ở pha đầu tiên, các nguyên tắc Phrase Structured Head Driven được sử dụng để tạo ra đại diện ngôn ngữ kí hiệu Một lược đồ mã hóa các ngôn ngữ kí hiệu được yêu cầu để biểu diễn [4]
Dự án TEAM [3] là một hệ thống dịch từ văn bản sang dạng ngôn ngữ
kí hiệu Mỹ sử dụng kĩ thuật cây đồng bộ ngữ pháp liền kề (STAG - Synchronous Tree Adjoining Grammar) Đầu tiên từ một văn bản nguồn sử dụng kĩ thuật để chuyển sang dạng cấu trúc cú pháp của ASL Hệ thống duy trì một vốn từ vựng song ngữ để xác định một cặp từ ứng với một từ tiếng Anh và một từ trong ngôn ngữ kí hiệu Kết quả của một mô đun ngôn ngữ là một từ trong ngôn ngữ kí hiệu được thể hiện bằng văn bản [5] Kết quả của một mô đun tổng hợp là hình ảnh thể hiện ngôn ngữ kí hiệu bằng một mô hình con người Mặc dù cách tiếp cận TEAM có vẻ giống như một kiến trúc trực tiếp vì nó như là một bản đồ từ từ ngữ sang dạng kí hiệu, nhưng thực ra
nó là một cách tiếp cận chuyển cú pháp Văn bản tiếng Anh đầu vào cần phải được phân tích với trình phân tích cú pháp TAG trong quá trình dịch và thông tin về cú pháp sẽ giúp hướng dẫn quá trình tìm kiếm từ vựng song ngữ
Trang 22"Quy tắc chuyển tiếp" trong hệ thống này sẽ là các trong từ điển song ngữ; Bằng cách xác định và áp dụng quá trình kết hợp này, họ chuyển đổi một phân tích cú pháp của câu tiếng Anh thành một cấu trúc cú pháp cho ngôn ngữ kí hiệu Mỹ
Vấn đề ngữ pháp của các ngôn ngữ trên thế giới vốn rất phức tạp và không có tính tương đồng Cũng như ngôn ngữ kí hiệu của mỗi quốc gia cũng
có nhũng đặc điểm rất khác biệt nên ta khó có thể áp dụng nghiên cứu đã có cho việc dịch ngôn ngữ kí hiệu Việt Nam Bởi vậy, việc xây dựng một thuật toán chuyển đổi cú pháp cho dịch tự động ngôn ngữ kí hiệu Việt Nam là rất cần thiết
1.6 Mục tiêu của luận văn
Nghiên cứu các lý thuyết đã có để phân tích, đánh giá về các tính chất, các luật rút gọn, chuyển đổi cú pháp đối với ngôn ngữ ký hiệu Việt Nam Dựa trên các cơ sở lý thuyết và các phân tích, đánh giá sẽ nghiên cứu cài đặt thực nghiệm các thuật toán rút gọn, chuyển đổi cú pháp này và xây dựng phần mềm hỗ trợ rút gọn và chuyển đổi cú pháp ngôn ngữ ký hiệu Việt Nam
Trang 23CHƯƠNG 2 LUẬT RÚT GỌN VĂN BẢN VÀ CHUYỂN ĐỔI CÚ PHÁP ĐỐI VỚI
NGÔN NGỮ KÝ HIỆU VIỆT NAM
2.1 Thu thập luật rút gọn trong ngôn ngữ ký hiệu Việt Nam
2.1.1 Thu thập luật rút gọn giới từ và liên từ
Giới từ (preposition) là một vấn đề quan trọng trong ngôn ngữ học đại cương cũng như trong Việt ngữ học Việc phân định giới từ và liên từ giúp cho ta có một cái nhìn tổng quát về nhóm từ loại được giản lược trong ngôn ngữ kí hiệu tiếng Việt
Giới từ, mặc dù được phát biểu khác nhau đôi chút giữa các học giả nhưng tựu trung lại, đều biểu thị khái niệm: là những từ được dùng để đánh dấu quan hệ chính phụ
Theo đó, giới từ có mặt trong những câu kiểu như:
(1) Anh ấy đứng ngoài vườn (Trần Trọng Kim)
(2) Cây viết của tôi (Bùi Đức Tịnh)
(3) Viết bằng bút chì (Nguyễn Kim Thản)
(4) Nếu thật sự muốn đi tìm chân lý thì tuy thù đồ nhưng nhất định sẽ đồng quy (Cao Xuân Hạo)
Như vậy, có thể thấy giới từ được dùng để đánh dấu quan hệ chính phụ Quan hệ chính phụ ở đây có thể là giữa một ngữ danh từ với định ngữ của nó (2),giữa một ngữ vị từ với bổ ngữ của nó (1, 3), giữa câu với trạng ngữ của nó (4) Trong khi đó, liên từ thường được hình dung là từ dùng để liên kết các ngữ đoạn (ngữ, cấu trúc đề thuyết) đẳng lập với nhau
Như vậy, liên từ xuất hiện trong những câu kiểu như:
(5) Ăn và mặc là sự nhu yếu của người ta
(6) Ai cũng biết rằng người khôn hơn loài vật (Trần Trọng Kim)
(7) Anh Nam nó còn nể nữa là anh (Cao Xuân Hạo)
Trang 24Xét trên tiêu chí ngữ nghĩa, các tác giả như Nguyễn Thị Quy (2002) [17],Cao Xuân Hạo (2005) [6], cho rằng giới từ là tác tử đánh dấu cách, hoặc có thể gọi bằng các tên khác như chuyển tố, từ đánh dấu các vai nghĩa Chẳng hạn, xem xét các vai nghĩa được giới từ đánh dấu như sau:
(8) Tôi học tập tốt để ngày mai lập nghiệp (vai nghĩa mục đích)
(9) Hắn đánh ông ta bằng một khúc củi to (vai nghĩa công cụ)
(10) Con đã sửa xe cho mẹ (vai nghĩa người hưởng lợi)
(11) Gửi đến anh một món quà giá trị (vai nghĩa người nhận)
(12) Băng qua một con suối (vai nghĩa lối đi)
So sánh với sự thể hiện của liên từ trong những câu kiểu như:
(13) Tôi và anh cùng yêu mến cô ấy
(14) Anh ăn cháo hay ăn cơm?
(15) Hắn nói thế nhưng hắn chẳng nghĩ thế chút nào
(16) [ ] Và trong một buổi sáng như thế, mẹ đã đưa tôi đến trường
Có thể thấy, liên từ mặc dù vẫn biểu đạt quan hệ ngữ nghĩa giữa các ngữ đoạn, các câu lại với nhau (chẳng hạn nhưng là từ báo hiệu điều sắp nói
ra là trái ngược với điều có thể gợi ra từ cái đã nói) nhưng nó không đảm nhiệm vai trò đánh dấu vai nghĩa Và vì vậy, chức năng nổi bật của nó vẫn chỉ
là nối kết các ngữ đoạn, các câu lại với nhau để diễn đạt mối quan hệ ý nghĩa giữa các thành phần này mà thôi
Chính vì vậy, căn cứ trên những tiêu chí để nhận diện giới từ, căn cứ vào sự khác nhau giữa giới từ và liên từ trên cả hai bình diện ngữ pháp và ngữ nghĩa, chúng tôi tán đồng với định nghĩa về giới từ của hai tác giả Hoàng Dũng và Bùi Mạnh Hùng như sau: Giới từ là những tác tử có tác dụng đánh dấu quan hệ chính phụ và đánh dấu các vai nghĩa trong cấu trúc tham tố của
vị từ [13] Đây là một trong những định nghĩa phù hợp với quan điểm của
Trang 25nhiều nhà nghiên cứu và thuận lợi cho quá trình khảo sát trong quá trình tìm hiểu chức năng của giới từ trên cả hai bình diện ngữ nghĩa và ngữ pháp
Những đặc điểm của giới từ tiếng Việt
Giới từ trong tiếng Việt, qua khảo sát có thể nhận thấy bao gồm hai loại: giới từ chính danh và giới từ do danh từ, vị từ chuyển loại mà thành Trong tiếng Việt, những giới từ chính danh không nhiều Giới từ chính danh bao gồm các từ: tại, bởi, vì, từ, tuy, mặc dầu, nếu, dù [6] Các giới từ do danh
từ chuyển thành có thể kể đến là của, trên, dưới, trước, sau, trong, ngoài, đầu, cuối, bên, cạnh, giữa, ven Các giới từ do vị từ chuyển thành gồm các từ như cho, ở, đến, tới, vào, ra, lên, xuống, sang, qua, giùm, hộ
Tuy vậy, hiện tượng các giới từ tiếng Việt phần lớn là do kết quả của quá trình chuyển loại mà thành không làm mất đi ý nghĩa từ vựng của các giới
từ này Những từ như trên, dưới, trong, ngoài, trước, sau vẫn là những từ chỉ
vị trí theo một phương, một hướng nào đó xét trong quan hệ với điểm được chọn làm mốc Và khi được dùng làm giới từ trong câu, bản thân chúng vẫn thể hiện ý nghĩa này
Học giả Phan Khôi cũng đã có những nhận xét tương tự khi ông khảo sát các từ trên, dưới, trong, ngoài Theo ông, bốn chữ trên, “không cứ nó thuộc về từ loại nào”, đều có nghĩa “từ chỗ thấp chỉ chỗ cao là trên, từ chỗ cao chỉ chỗ thấp là dưới, từ chỗ quang chỉ chỗ kín là trong, từ chỗ kín chỉ chỗ quang là ngoài” (2004: 109) Những giới từ là vị từ chuyển thành cũng vậy Không thể nói những giới từ trong các câu như Đi đến trường, Nghĩ đến bạn hoàn toàn mất đi nghĩa từ vựng vốn có của nó Chính vì vậy, khi hành chức như một tác tử cú pháp trong vai trò của một giới từ với đầy đủ ý nghĩa ngữ pháp, “các vị từ chuyển sang dùng như giới từ không hề kèm theo một quá trình chuyển hẳn từ loại trong đó các vị từ dứt khoát trở thành những giới từ” (Cao Xuân Hạo 2001: 395) Đây là nét đặc trưng của ngữ pháp tiếng Việt
Trang 26Đặc trưng này dẫn đến một hệ quả quan trọng là khi xuất hiện quá trình ngữ pháp hoá các vị từ chuyển sang dùng như giới từ, cả hai chức năng vẫn tồn tại song song, thành thử người ta có thể phân vân không biết đây là hai từ đồng
âm hay một từ dùng ở hai chức năng khác nhau (Cao Xuân Hạo 2001: 395) Cuối cùng, để biết được trong một câu nào đó là giới từ hay vị từ thì ngoài yếu tố ngữ cảnh, người ta còn phải tính đến vai trò của trọng âm “Thực từ” thường được nhấn trọng âm (1) trong khi “hư từ” thì không (0)
Chẳng hạn, so sánh:
(17) a Yêu nhau cởi áo cho nhau (với mô hình 01)
b Yêu nhau cởi áo cho nhau (với mô hình 11)
Trong (17) a, cho là giới từ được dùng để dánh dấu vai nghĩa người hưởng lợi (cởi áo giùm / giúp nhau) Trong (17) b, cho là vị từ có nghĩa là
“tặng” Hiện tượng này không xuất hiện trong các ngôn ngữ như tiếng Anh, tiếng Nga Ở các ngôn ngữ này, giới từ đúng là những giới từ chính danh với một số lượng xác định, có xê xích nhau chút ít tuỳ vào tiêu chí xác định
Từ đây đặt ra vấn đề giới từ có phải hoàn toàn là một hư từ hay không Chính vì đại bộ phận giới từ tiếng Việt đều do danh từ hay vị từ chuyển từ loại để thực hiện chức năng của giới từ cho nên “nếu gọi giới từ cũng như các
từ trợ nghĩa ngữ pháp là hư từ, thì hoàn toàn không ổn, bởi vì thuật ngữ này không phản ánh được bản chất ý nghĩa từ vựng và ý nghĩa ngữ pháp của các giới từ” (Nguyễn Văn Thành 2003: 476) Cùng chung một nhận xét tương tự, tuy không hoàn toàn bác bỏ quan điểm xem giới từ là một hư từ, tác giả Cao Xuân Hạo lưu ý rằng nếu là hư từ thì cũng phải thừa nhận nó chẳng phải là rỗng nghĩa bởi “nếu nó rỗng nghĩa thật thì không có lý do gì để tồn tại trong ngôn ngữ vốn là cái công cụ để truyền đạt nghĩa” (2001: 394) Theo ông, giới
từ (và cả liên từ nữa) chứa đầy nghĩa ngữ pháp, những nghĩa quan trọng chi
Trang 27phối ngữ đoạn và câu, làm cho ngữ đoạn và câu nếu không có tác dụng của nó thì không sao diễn đạt được
Chính vì vậy, nó còn được gọi là tác tử, những từ có chức năng tác động vào các từ ngữ trong câu, làm cho những từ ngữ đó và cả câu biến nghĩa hay có thêm những nghĩa mà từ ngữ đó, câu nói đó vốn không có
Ta xét chức năng của giới từ tiếng Việt xét trên bình diện ngữ nghĩa Giới từ, trong tư cách của một từ chức năng, tỏ ra nổi bật hơn với vai trò của một tác tử cú pháp hơn là ý nghĩa tự thân của nó, nhất là khi nó vẫn được hầu hết các nhà nghiên cứu chấp nhận là một hư từ Tuy nhiên, khi một ngữ đoạn nào đó có một giới từ nhất định đứng đầu, ngữ đoạn này sẽ cung cấp thông tin
về thời gian, về nơi chốn, về mục đích, về phương tiện, về quan hệ của các tham tố tham gia vào sự tình mà câu biểu thị Đặc điểm về ngữ nghĩa này góp phần phân biệt giới từ với liên từ, vốn chỉ thuần tuý liên kết các thành phần trong câu (hoặc các câu lại với nhau)
Ngày nay, khi lý thuyết về diễn trị của vị từ, về vai nghĩa ngày càng được khẳng định trong địa hạt nghiên cứu nghĩa của câu, giới từ được xác nhận là phương tiện đánh dấu các vai nghĩa trong nội dung sự tình mà câu biểu hiện Và tất cả những nội dung thông tin về thời gian, nơi chốn, nguyên nhân, mục đích chính là các vai nghĩa trong câu, được đánh dấu bởi sự có mặt của một giới từ nhất định.Với những chất liệu từ ngữ như nhau nhưng khi thay đổi giới từ, câu nói sẽ thay đổi về nội dung, đồng thời thay đổi về vai nghĩa So sánh:
(18) Đi đến thư viện (đánh dấu vai nghĩa đích) và Đi từ thư viện (đánh dấu vai nghĩa nguồn) hoặc nếu không thay đổi về vai nghĩa thì ý nghĩa của các câu cũng khác hẳn nhau:
(19) Anh ấy đã đặt nó lại trên bàn và Anh ấy đã đặt nó lại dưới bàn
Trang 28Giới từ trong nhiều trường hợp có thể lược bỏ nhưng nhiều lúc, chính
sự có mặt của giới từ lại là một nhân tố quan trọng đảm bảo cho câu chính xác
về mặt ngữ pháp và trọn vẹn về mặt ngữ nghĩa Chính vì vậy, để có thể viết / nói những câu chấp nhận được hay những câu tự nhiên, việc lựa chọn giới từ đúng là một yêu cầu quan trọng
(20) Cha của tôi * Cha tôi
(21) Người phụ nữ của anh * Người phụ nữ anh
(22) Nhờ bạn bè giúp đỡ nên vượt qua được những khó khăn
(* Tại bạn bè giúp đỡ nên vượt qua được những khó khăn)
Quan hệ giữa giới từ và vai nghĩa cũng không phải là quan hệ một – một
Có thể dẫn một số ví dụ:
- Có giới từ chỉ đánh dấu một vai nghĩa (của – đánh dấu vai nghĩa sở hữu: sách của tôi; lại, về - đánh dấu vai nghĩa đích: chạy lại / về nhà bạn; để,
mà, để mà – đánh dấu vai nghĩa mục đích: dậy mà / để / để mà đi );
- Một giới từ có thể đánh dấu nhiều vai nghĩa (bằng – đánh dấu vai nghĩa phương tiện và chất liệu: ăn cơm bằng đũa, nhà làm bằng gạch; cho – đánh dấu vai nghĩa mục đích, người nhận và người hưởng lợi: ăn cho no, gửi thư cho anh, mẹ làm cho con );
- Một vai nghĩa có thể được đánh dấu bởi nhiều giới từ (vai nghĩa thời gian được đánh dấu bởi các giới từ trong, ngoài, trước, sau, đầu, cuối );
- Có vai nghĩa bắt buộc phải được đánh dấu bằng giới từ (vai nghĩa người hưởng lợi, đích, lối đi: giặt áo giùm bạn, chạy vào nhà, nhảy qua mương );
- Có vai nghĩa không bắt buộc phải đánh dấu bằng giới từ (vai nghĩa người hành động, lực tác động, người thể nghiệm: tôi học bài, gió thổi mạnh, anh ấy mệt );
Trang 29- Có vai nghĩa có thể được đánh dấu bằng giới từ hoặc không (vai nghĩa
sở hữu, phương tiện, chất liệu: mẹ của tôi / mẹ tôi, ăn bằng đũa / ăn đũa; nhà bằng gạch / nhà gạch )
Trong đó, không bắt buộc đánh dấu bằng giới từ là một đặc điểm quan trọng của tiếng Việt về mặt ngữ nghĩa cũng như ngữ pháp Tùy thuộc vào việc một câu nói nào đó là rõ ràng hay không, cần nhấn mạnh thông tin hay không
mà giới từ được lựa chọn Thông thường, nếu một câu nói nào đó là khá rõ ràng thì giới từ thường ít được sử dụng bởi lẽ nó không dẫn đến những sự mơ
hồ, lại vẫn đảm bảo được lượng thông tin cần thiết Chính vì lẽ đó, chức năng của giới từ tiếng Việt xét trên bình diện ngữ nghĩa là không thể phủ nhận Cùng với chức năng nối kết, chức năng đánh dấu vai nghĩa của giới từ tiếng Việt là căn cứ quan trọng để nghiên cứu ý nghĩa của câu, mục đích cuối cùng của các sự tạo lập cấu trúc ngữ pháp
Bảng 2.1 Một số mẫu câu rút gọn giới từ và liên từ
Câu thông thường Câu rút gọn liên từ và giới từ
Viết bằng bút chì Viết bút chì
Ăn và mặc là nhu cầu của mọi người Ăn mặc là nhu cầu mọi người
Tôi và anh đi học Tôi anh đi học
Anh ăn cháo hay ăn cơm? Anh ăn cháo ăn cơm?
Mặc dầu trời mưa, tôi vẫn đi học Trời mưa, tôi đi học
Lấy hộ chị quyển sách Lấy chị quyển sách
Buổi sáng anh dắt xe giúp tôi ra cổng Buổi sáng anh dắt xe tôi ra cổng
Áo của anh màu xanh Áo anh màu xanh
2.1.2 Thu thập luật rút gọn các từ tính thái
Tình thái từ là những từ được thêm vào câu để cấu tạo câu theo mục đích nói (nghi vấn, cầu khiến, cảm thán) và để biểu thị các sắc thái tình cảm của người đó Đối với người khiếm thính, việc biểu thị sắc thái tình cảm hay cấu tạo câu theo mục đích nói thông thường sẽ dùng biểu cảm khuôn mặt và
Trang 30một số dấu hiệu nhất định Vì vậy mà trong ngôn ngữ kí hiệu không có những
kí hiệu để biểu đạt các từ tình thái này
Trong phần này, chúng tôi nghiên cứu các vấn đề liên quan đến từ tình thái và thu thập các luật rút gọn từ tình thái trong câu thông thường để biến đổi sang dạng câu trong ngôn ngữ kí hiệu
Các tình thái từ là những từ biểu lộ thái độ tình cảm của người nói (người viết) đối với nội dung của câu hoặc đối với người cùng tham gia hoạt động giao tiếp (người nghe người đọc).- Các tình thái từ không thể đóng vai trò thành phần cấu tạo trong cụm từ hay trong câu, chúng chỉ được dùng trong câu để bày tỏ thái độ tình cảm
Căn cứ vào đặc điểm ý nghĩa và vị trí xuất hiện trong câu của các tình thái, có thể phân chia thành những loại tình thái như sau:
+ Các trợ từ nhấn mạnh : Những từ này dùng để nhấn mạnh vào từ, cụm từ hay một câu nào đó mà chúng đi kèm Chúng ở trước từ hay cụm từ cần nhấn mạnh Đó là những từ như : cả, chính, đích, đúng, chỉ, những,đến, tận, ngay,
VD: Hai ngày sau, chính một số cảnh sát đã giải anh đi tối hôm trước lại quay về nhà thương Chợ Quán.(Trần Đình Vân);
Trang 31Khi thêm các tiểu từ tình thái vào sau một thực từ hay một cụm từ thì chúng có tác dụng tình thái hoá cho các từ hay cụm từ đó : các từ hay cụm từ
đó trở thành các câu (phát ngôn )
VD: Cà phê => Cà phê nhé ?
Đọc báo => Đọc báo à ? Ngày mai => Ngày mai ư ? Những từ này tuy bao gồm một số lượng không nhiều nhưng diễn đạt những sắc thái tình cảm, cảm xúc tế nhị, phức tạp Chúng bao gồm những từ như : à, ư, nhỉ, nhé, chứ, vậy, đâu ,chăng, ừ, ạ, hả, hử Nhờ chúng mà người nói hay người viết có thể bày tỏ những sắc thái tinh tế trong thái độ, tình cảm đối với người nghe người đọc hoặc đối với nội dung được nói tới
- Các từ cảm thán : Đó là những từ dùng để bộc lộ trực tiếp xúc cảm của người nói Chúng không thể dùng làm tên gọi cho xúc cảm được, mà chỉ làm dấu hiệu cho những xúc cảm mà thôi Chúng không thể làm thành phần cho cụm từ hay câu, nhưng lại có thể tách riêng khỏi câu để làm thành một câu riêng biệt.Trong khi sử dụng chúng thường gắn liền với một ngữ điệu hay
cử chỉ, nét mặt, điệu bộ của người nói.Các từ cảm thán có thể dùng để gọi đáp (ơi, vâng, dạ, bẩm, thưa, ừ, ), có thể dùng để bộc lộ cảm xúc vui mừng, ngạc nhiên, đau đớn, sợ hãi, tức giận, (ôi ! trời ơi, ô, ; ủa, kìa, ái, ối, than ôi, hỡi
ôi, eo ôi, ôi giời ôi, ) Có thể nói, chúng dùng để bộc lộ những cảm xúc đột ngột, mạnh mẽ thuộc các loại khác nhau
VD: Ô hay ! Sao lại vất thang lại thế này ?
Ồ, sao mà ngu si làm vậy?
- Động từ tình thái: Là những động từ biểu thị quan hệ chủ quan (thái
độ, sự đánh giá, ý muốn, ý chí…) của người nói đối với nội dung của câu nói hoặc với hiện thực khách quan Có thể phân biệt những nhóm động từ tình thái sau đây:
Trang 32+ Động từ biểu thị sự đánh giá về mức độ cần thiết: nên, cần, phải, cần phải + Động từ biểu thị sự đánh giá về khả năng: có thể, không thể/chưa thể + Động từ biểu thị sự đánh giá về may rủi: bị (tai nạn), được (nhà), mắc, phải (ví dụ: mắc căn bệnh nhà giàu, phải một trận đòn)
+ Động từ biểu thị thái độ mong mỏi: trông, mong, chúc, ước, cầu, muốn
+ Động từ biểu thị mức độ của ý chí, ý muốn: dám, định, nỡ, buồn (thường dùng nhiều hơn với nghĩa phủ định), thôi, đành
Như vậy, trong ngôn ngữ tiếng Việt thông thường, khi rút gọn sang dạng ngôn ngữ kí hiệu, ta lược bỏ các từ tình thái trong câu Các từ tình thái như đã liệt kê ở trên sẽ được loại bỏ câu theo một cấu trúc xác định dựa trên ngữ nghĩa
2.2 Thu thập luật chuyển đổi cú pháp trong ngôn ngữ ký hiệu Việt Nam 2.2.1 Vấn đề về xây dựng ngân hàng câu được chú giải cú pháp
Ngân hàng câu được chú giải cú pháp (treebank) là kho ngữ liệu rất quan trọng trong nghiên cứu và xây dựng ứng dụng xử lý ngôn ngữ tự nhiên Treebank thường được dùng để xây dựng các hệ phân tích cú pháp chất lượng cao Các hệ phân tích cú pháp này lại được sử dụng trong các ứng dụng quan trọng như truy vấn thông tin, dịch máy, v.v Trong khuôn khổ đề tài này, chúng tôi tìm hiểu và sử dụng ngân hàng câu được chú giải cú pháp phục vụ cho việc tách các từ trong câu để rút gọn và chuyển đổi cú pháp từ ngôn ngữ tiếng Việt thông thường sang dạng văn bản rút gọn sử dụng trong ngôn ngữ kí hiệu
Quá trình xây dựng treebank có một số bước cơ bản là: tìm hiểu, thiết
kế, xây dựng công cụ, thu thập ngữ liệu thô, và gán nhãn dữ liệu Thực chất quá trình này là xoáy trôn ốc, vừa gán dữ liệu vừa hoàn thiện thêm tài liệu hướng dẫn gán nhãn (thiết kế) hay cải tiến công cụ
Trang 33Trong các ngôn ngữ Châu Âu, khái niệm từ loại gắn với các phạm trù hình thái học như giống số cách v.v Trong tiếng Việt thì có hai quan điểm:
- Quan điểm không phân từ loại, phủ nhận sự tồn tại của nó (Lê Quang Trinh, Nguyễn Hiến Lê, Hồ Hữu Tùng)
- Quan điểm phân từ loại (rất nhiều nhà ngôn ngữ học): dựa vào khả năng kết hợp và chức vụ ngữ pháp (gọi chung là thái độ ngữ pháp) Ngoài ra một số nghiên cứu về đối sánh ngôn ngữ học còn nêu lên hiện tượng "biến đổi hình thái" từ tiếng Việt với sự tham gia của từ chức năng.; Dựa vào nghĩa khái quát
Theo quan điểm phân từ loại khi xây dựng treebank tiếng Việt, về nguyên tắc, các thông tin về từ có thể được chứa trong nhãn từ loại bao gồm:
từ loại cơ sở (danh từ, động từ, v.v.), thông tin hình thái (số ít, số nhiều, thì, ngôi, v.v.), thông tin về phân loại con (ví dụđộng từ đi với danh từ, động từ đi với mệnh đề, v.v.), thông tin ngữ nghĩa, hay một số thông tin cú pháp khác Tập nhãn từ loại chỉ chứa thông tin về từ loại cơ sở mà không bao gồm các thông tin như hình thái, phân loại con, v.v Tập nhãn từ loại liệt kê trong Bảng 2.2, tổng số nhãn là 17
Trang 3417 X Các từ không phân loại được
Nhãn thành phần cú pháp: Loại nhãn này mô tả các thành phần cú
pháp cơ bản là cụm từ và mệnh đề Nhãn thành phần cú pháp là thông tin cơ bản nhất trên cây cú pháp, nó tạo thành xương sống của cây cú pháp Tập nhãn cú pháp của các ngôn ngữ khác nhau là khác nhau (ở một tỉ lệ nhất định)
vì hai nguyên nhân Nguyên nhân cơ bản nhất là do sự khác biệt về ngôn ngữ Chẳng hạn như trong tiếng Trung, từ chỉ loại có chức năng làm bổ nghĩa trước cho danh từ Từ chỉ loại lại có thể được kết hợp với số từ trong phần phụ trước của cụm danh từ Vì vậy nhóm thiết kế Chinese Treebank (CTB) đã đặt
ra nhãn cụm từ chỉ loại Đây là một điểm khác biệt với treebank tiếng Anh (PTB) Nguyên nhân thứ hai là do kỹ thuật thiết kế tập nhãn Chẳng hạn như với các cụm từ nghi vấn, PTB có 4 loại nhãn là WHNP, WHPP, WHADJP, WHADVP Trong khi CTB lại chỉ đặt ra một nhãn chức năng là WH Nhãn này sẽ được dùng kèm với nhãn cụm từ khi trong cụm từ đó có từ dùng để hỏi Như vậy vẫn đủ để mô tả các cụm từ nghi vấn (NP-WH, PP-WH, ADJP-
WH, ADVP-WH) Bảng 2.3 liệt kê tập nhãn cụm từ và Bảng 2.4 là nhãn mệnh đề
Trang 358 UCP Cụm từ gồm hai hay nhiều thành phần không cùng loại
được nối với nhau bằng liên từ đẳng lập
9 LST Cụm từ đánh dấu đầu mục của danh sách
10 WHNP Cụm danh từ nghi vấn (ai, cái gì, con gì, v.v…)
11 WHAP Cụm tính từ nghi vấn ( lạnh thế nào, đẹp ra sao,v.v )
12 WHRP Cụm tính từ nghi vấn khi hỏi về thời gian, nơi chốn, v.v…
13 WHPP Cụm giới từ nghi vấn (với ai, bằng cách nào, v.v…)