1. Trang chủ
  2. » Luận Văn - Báo Cáo

tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt

41 1,1K 9

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng Việt
Tác giả Dương Hoàng Thanh
Người hướng dẫn TS. Nguyễn Tuấn Đăng
Trường học Trường Đại học Công nghệ Thông tin - Đại học Quốc gia Thành phố Hồ Chí Minh
Chuyên ngành Khoa học máy tính
Thể loại Báo cáo nghiên cứu
Năm xuất bản 2011
Thành phố Thành phố Hồ Chí Minh
Định dạng
Số trang 41
Dung lượng 1,35 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

1 GIỚI THIỆU Chế tạo ra được hệ thống máy tính có khả năng giao tiếp với con người bằng ngôn ngữ tự nhiên vốn là mục tiêu theo đuổi của nhiều nhà khoa học trong suốt một thời gian dài ch

Trang 1

Đại học Quốc gia Thành Phố Hồ Chí Minh Trường Đại học Công nghệ Thông tin

Học viên: Dương Hoàng Thanh

Mã số: CH0901050 Lớp Cao học CNTTQM – Khóa 4 Giảng viên: TS Nguyễn Tuấn Đăng

Tháng 04/2011

Trang 2

1 GIỚI THIỆU 1

2 MỘT SỐ VẤN ĐỀ CHUNG VỀ CÂU 1

2.1 Tình hình nghiên cứu câu trên thế giới 1

2.1.1 Thời cổ đại 1

2.1.2 Từ cuối thế kỷ XIX đến đầu thế kỷ XX 1

2.1.3 Từ đầu thế kỷ XX đến nay 2

2.2 Tình hình nghiên cứu câu ở Việt Nam 6

2.2.1 Từ năm 1930 đến trước Cách mạng tháng Tám 6

2.2.2 Từ sau Cách mạng tháng Tám đến 1960 6

2.2.3 Từ 1960 đến 1990 7

2.2.4 Từ 1990 đến nay 7

3 CÂU TIẾNG VIỆT 7

3.1 Câu là gì 7

3.2 Các đặc trưng cơ bản của câu 8

3.2.1 Chức năng của câu 8

3.2.2 Nội dung của câu 8

3.2.3 Hình thức của câu 8

4 TÌM HIỀU DỰ ÁN GATE 9

4.1 Tổng quan về GATE 9

4.2 GATE Developer 11

4.2.1 Cửa sổ chính của GATE Developer 12

4.2.2 Nạp và xem tài liệu 13

4.2.3 Tạo và xem tập tài liệu 16

4.2.4 Làm việc với chú thích 18

4.2.5 Sử dụng các Plugin CREOLE 19

4.2.6 Nạp và sử dụng các tài nguyên xử lý 20

4.2.7 Tạo và vận hành một ứng dụng 20

Trang 3

4.3 GATE Embedded 21

5 CÁC CÔNG CỤ XỬ LÝ NGÔN NGỮ CỦA GATE 22

5.1 Hệ thống chiết xuất thông tin ANNIE 22

5.2 Biểu thức chính quy JAPE 23

5.2.1 Mô tả hình thức của JAPE 24

5.3 Chú thích phụ thuộc ngữ cảnh ANNIC 27

5.3.1 Khởi tạo SDD 29

5.3.2 Tìm kiếm trong kho dữ liệu 29

5.4 Các bộ phân tích 30

5.4.1 Bộ phân tích MiniPar 30

5.4.2 Bộ phân tích RASP 31

5.4.3 Bộ phân tích SUPPLE 32

5.4.4 Bộ phân tích Standford 33

6 PHÂN TÍCH CÚ PHÁP CÂU TIẾNG VIỆT 33

6.1 Xây dựng bộ phân tích cú pháp tiếng Việt 33

6.1.1 Tuỳ biến plugin SUPPLE parser 34

6.1.2 Xây dựng quy tắc ngữ pháp tiếng Việt cho JAPE 34

6.2 Xây dựng cơ sở dữ liệu từ vựng tiếng Việt 34

7 TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 34

Trang 4

Hình 1: Giao diện cửa sổ chính của GATE Developer 12

Hình 2: Tạo tài liệu mới 14

Hình 3: Bộ soạn thảo tài liệu 15

Hình 4: Bộ soạn thảo tài liệu với các tập chú thích và danh sách chú thích 16

Hình 5: Bộ soạn thảo tập tài liệu 17

Hình 6: Bộ soạn thảo chú thích 19

Hình 7: Giao diện lập trình ứng dụng của GATE 21

Hình 8: ANNIE và LaSIE 23

Hình 9: Khung nhìn Kho dữ liệu Thứ tự Có khả năng tìm kiếm 28

Hình 10: Một văn bản được chú thích bởi MiniPar 31

Trang 5

Bảng 1: BNF của ngữ pháp JAPE 27 Bảng 2: Đoạn mã khởi tạo SDD 29 Bảng 3: Đoạn mã tìm kiếm trong kho dữ liệu 30

Trang 6

Từ viết tắt Ý nghĩa

ANNIC ANNotations-In-Context: Chú thích Phụ thuộc Ngữ cảnh

ANNIE A Nearly-New Information Extraction system: Hệ thống Chiết

xuất Thông tin Tương đối Mới

API Application Programming Interface: Giao diện lập trình ứng

dụng

CMS Content Management System: Hệ thống Quản lý Nội dung

CPSL Common Pattern Specification Language: Ngôn ngữ Mô tả

Mẫu Thông dụng

GATE General Architecture for Text Engineering: Kiến trúc Tổng

quát cho Công nghệ Xử lý văn bản

IE Information Extraction: Chiết xuất Thông tin

IR Information Retrieval: Tìm kiếm Thông tin

JAPE Java Annotation Patterns Engine: Động cơ xử lý Mẫu Chú

thích trên nền Java

LHS Left Hand Side: Vế trái

LR Language Resource: Tài nguyên Ngôn ngữ

PR Processing Resource: Tài nguyên Xử lý

RHS Right Hand Side: Vế phải

SDD Searchable Serial Data-store: Kho dữ liệu Thứ tự Có khả năng

tìm kiếm

Trang 7

1 GIỚI THIỆU

Chế tạo ra được hệ thống máy tính có khả năng giao tiếp với con người bằng ngôn ngữ tự nhiên vốn là mục tiêu theo đuổi của nhiều nhà khoa học trong suốt một thời gian dài cho tới tận bây giờ Tuy chưa có hệ thống máy tính nào có thể thực hiện được điều này, nhưng việc nghiên cứu và khám phá xử lý ngôn ngữ tự nhiên trên máy tính đã đem lại rất nhiều kinh nghiệm hữu ích cho con người để

có thể biến ước mơ trên thành hiện thực

GATE là một dự án khá tham vọng khi muốn tạo ra một công cụ xử lý ngôn ngữ đa năng, giúp các nhà nghiên cứu ngôn ngữ có thể tập trung vào nghiên cứu chuyên sâu hơn là loay hoay giải quyết những bài toán kỹ thuật Tuy rất được ưa chuộng trên khắp thế giới, GATE lại hầu như chưa hỗ trợ việc phân tích tiếng Việt Do đó, đề tài này nhằm tìm hiểu về dự án GATE cũng như phương hướng

áp dụng công cụ này vào việc phân tích cú pháp câu tiếng Việt

2.1.2 Từ cuối thế kỷ XIX đến đầu thế kỷ XX

Ngôn ngữ nói chung và câu nói riêng được nghiên cứu theo quan điểm của các khuynh hướng, các trường phái Đáng chú ý có các khuynh hướng sau:

a Khuynh hướng logic – ngữ pháp (ở Nga)

Khuynh hướng nyaf với quan điểm câu trùng với phán đoán logic, nên

đã định nghĩa “Câu là một phán đoán được biểu thị bằng từ”

b Khuynh hướng lịch sử - tâm lí

Khuynh hướng lịch sử - tâm lý phản đối quan niệm trên, cho rằng “Câu (ngữ pháp) tuyệt nhiên không trùng và không song song với phán đoán logic”

c Khuynh hướng hình thức ngữ pháp

Trang 8

Do quá thiên về hình thức của ngôn ngữ, khuynh hướng hình thức ngữ pháp đã định nghĩa “Câu là một tổ hợp từ với ngữ điệu kết thúc”

2.1.3 Từ đầu thế kỷ XX đến nay

Trên thế giới xuất hiện các trường phái ngôn ngữ học nổi tiếng sau:

a Trường phái miêu tả Mĩ (còn gọi là chủ nghĩa miêu tả, chủ nghĩa phân bố)

Với các đại diện là L Bloomfield, Z Harris, R Wells, trường phái này xuất hiện gắn liền với nhiệm vụ có tính chất lịch sử đối với các nhà ngôn ngữ học Mĩ: nghiên cứu, miêu tả các ngôn ngữ thổ dân da đỏ ở

Mĩ Trường phái này do ảnh hưởng của chủ nghĩa hành vi và mong muốn miêu tả ngôn ngữ một cách khách quan, đã chủ trương xây dựng một hệ thống kỹ thuật và thủ tục để xử lý các khối ngữ liệu của ngôn ngữ Câu cũng như các đơn vị ngôn ngữ khác được miêu tả theo phương pháp: dựa vào chu cảnh, phân bố các thành hợp tố trực tiếp: L Bloomfield, thủ lĩnh của trường phái cho rằng câu là một cấu trúc hình

vị kết hợp theo quy tắc nhất định, gọi một cách ngắn gọn là thành tố trực tiếp Với trường phái miêu tả, nghĩa bị gạt bỏ khỏi ngôn ngữ, đúng hơn là không được coi là đối tượng nghiên cứu mà chỉ được vận dụng như phép thử để xác định một yếu tố của ngôn ngữ

b Trường phái ngữ vị học Copenhague – Đan Mạch

Người khởi xướng và xây dựng cơ sở lí luận của trường phái này là Hjelmslev Chịu ảnh hưởng bởi phương pháp cấu trúc luận của F de Saussuer, Hjelmslev cho rằng nhiệm vụ của ngôn ngữ học cấu trúc luận là nghiên cứu các ngữ hàm – các hàm số trong ngôn ngữ (cũng tức là các quan hệ) và các kiểu loại của chúng

Ngôn ngữ học phải phát hiện ra các ngữ hàm (quan hệ) cần và đủ để miêu tả bất cứ hệ thống tín hiệu nào, bất cứ ngôn ngữ nào một cách đơn giản nhất Đóng góp của Hjelmslev cho ngôn ngữ học nói chung

và cho ngữ pháp học nói riêng là ông đã phát hiện ra ba loại ngữ hàm (quan hệ) chung nhất: quan hệ hai chiều hay lệ thuộc nhau (như quan

hệ giữa chủ ngữ với vị ngữ), quan hệ lệ thuộc một chiều hay quan hệ quy định (như quan hệ giữa động từ với bổ ngữ; giữa danh từ với định ngữ), quan hệ lệ thuộc tự do hay còn gọi là quan hệ liên hợp (ngoài ba quan hệ trên, Hjelmslev còn nói đến quan hệ giao hoán, luân hoán và thay thế) Đó là các quan hệ ngữ pháp cơ bản để phân tích mỗi quan hệ

Trang 9

ngữ pháp giữa các thành phần trong cụm từ, trong câu Hjelmslev còn

là người khởi xướng xây dựng lý thuyết về phạm trù cách ngữ pháp (như chủ cách, tặng cách, cách cập vật) Lý thuyết này đã mở đường cho phương pháp phân tích nghĩa thành các thành tố ngữ nghĩa của câu sau này

c Trường phái cấu trúc – chức năng luận (hay câu lạc bộ ngôn ngữ học Praha)

Năm 1026, Câu lạc bộ Ngữ học Praha được thành lập ở Tiệp Khắc do sáng kiến của nhà ngôn ngữ học V Mathesius, đã tập hợp được nhiều nhà nghiên cứu ngôn ngữ và ngữ văn học Slavơ và German như B Havrane’k, J Mukaroxski… Tham gia vào câu lạc bộ còn có N.S Trubetskoy, R Jakobson và A Martinet – nhà cấu trúc – chức năng luận cổ điển của ngôn ngữ học Pháp

Thành tưu hoàn chỉnh nhất của các nhà ngôn ngữ học Praha là âm vị học Ngoài âm vị học, trường pháp Praha còn nghiên cứu về chức năng giao tiếp của ngôn ngữ Các nhà nghiên cứu của trường phái này – thuộc lớp người đi đầu (cụ thể là R Jakobson) trong việc nghiên cứu ngôn ngữ trong hoạt động giao tiếp R Jakobson đã đề ra sơ đồ tương đối hoàn chỉnh về các nhân tố giao tiếp, các quan hệ giữa các nhân tố

đó và các chức năng ngôn ngữ đảm nhận trong quá trình giao tiếp Thành tựu nghiên cứu về cú pháp của trường phái Praha, đáng chú ý có:

- Lý thuyết phân đoạn thực tại của Mathesius Lý thuyết này đã được ứng dụng vào việc nghiên cứu cú pháp (như phân tích thành phần câu) của nhiều ngôn ngữ cụ thể trên thế giới

- Quan điểm về câu tối thiểu và biện pháp triển khai (mở rộng) câu tối thiểu của Martinet Nhà cấu trúc – chức năng luận cổ điển của ngôn ngữ học Pháp này không tán thành quan niệm phân tích câu theo thành tố trực tiếp của Bloomfield – thủ lĩnh trường phái miêu

tả Mĩ Ông cho rằng các thành phần câu không có vị trí ngang bằng nhau và chỉ cần phân tích chúng thành các thành tố trực tiếp Theo Martinet, vị ngữ là thành phần chủ yếu của câu, là trung tâm liên kết các thành phần khác trong câu Tất cả các thành phần khác được xác định là nhờ quan hệ thế nào đó với vị ngữ Nhưng vai trò của các thành phần có liên quan đến vị ngữ cũng không ngang bằng nhau Trong số các thành phần đó, chủ ngữ chiếm một vị trí đặc

Trang 10

biệt nổi bật, bởi vì chủ ngữ là thành phần triển khai của vị ngữ để kết hợp chủ ngữ – vị ngữ thành một câu Các thành phần khác không có vai trò đó, chúng có thể bị loại bỏ mà cái lõi còn lại vẫn không mất tính chất câu – đó là câu tối thiểu

Ba trường phái ngôn ngữ học đầu thế kỷ XX được giới thiệu ở trên đều chịu ảnh hưởng trực tiếp hay gián tiếp học thuyết về tính hệ thống của

F de Saussuere, dẫu khác nhau về nhiều điểm, nhưng vẫn có chung một xuất phát điểm Đó là tư tưởng về tính hệ thống, cũng tức là tính cấu trúc của ngôn ngữ Vì thế mà trong lịch sử ngôn ngữ học, ba trường phái này được mệnh danh là các trường phái cấu trúc luận

d Ngữ pháp tạo sinh (Generative Grammar)

Ngữ pháp tạo sinh, một học thuyết ngôn ngữ học Mĩ mà người sáng lập là Noam Chomsky, ra đời từ năm 1957, lúc đầu nhằm phê phán những mặt hạn chế của chủ nghĩa miêu tả Mĩ Sau đó, với thành tựu của mình, nó thực sự đã có sức hút mạnh mẽ đối với ngôn ngữ học thế giới, tạo ra được một cuộc “cách mạng” về tư duy phương pháp luận ngôn ngữ học

Đóng góp lớn nhất của ngữ pháp tạo sinh là phân biệt ngữ năng với ngữ thi: Ngữ năng là hiểu biết của người sử dụng ngôn ngữ có được về ngôn ngữ; ngữ thi là sự sử dụng thực tế trong những hoàn cảnh cụ thể cái ngữ năng đó Từ sự phân biệt đó, ngữ pháp tạo sinh cho rằng: ngữ pháp của một ngôn ngữ là cơ chế hợp thành ngữ năng, nhiệm vụ hàng đầu của ngôn ngữ học là phát hiện ra cái thứ ngữ pháp đó; đối tượng hàng đầu của ngữ pháp là câu

Theo Chomsky, một đặc điểm rất cơ bản của ngữ năng đó là nhờ đó

mà chúng ta có thể hiểu và tạo ra một số lượng vô hạn các câu mới Đó cũng là cơ sở của tạo sinh và ngữ pháp tạo sinh Tạo sinh là tạo lập ra những đơn vị - từ một cơ sở cho trước theo một cấu trúc nhất định Ngữ pháp tạo sinh là ngữ pháp nhờ nó chúng ta có thể tạo lập ra vô hạn các câu đúng và chỉ đúng ngữ pháp dựa vào những cơ sở nhất định Một cách khái quát hơn, ngữ pháp tạo sinh được hiểu là ngữ pháp

có khả năng tạo ra một số lượng vô hạn những câu đúng ngữ pháp và gán cho mỗi câu một sự miêu tả cấu trúc của nó Với đặc điểm đó, ngữ pháp tạo sinh được đánh giá là ngữ pháp có tính dự đoán (khi nó chỉ ra

Trang 11

cách tạo ra những câu từ những quy tắc và bộ cơ sở) và tính tường minh (khi nó miêu tả cấu trúc của các câu)

Đóng góp thứ hai của ngữ pháp tạo sinh là nó đã cho chúng ta thấy được vai trò cải biến trong ngữ pháp: cải biến trong ngữ pháp được đánh giá là cái vạch ngang trong chữ H nằm ngang, nối cấu trúc sâu (lý giải ngữ nghĩa) với cấu trúc bề mặt

Tuy nhiên, hạn chế của ngữ pháp tạo sinh là quan điểm câu độc lập với ngữ cảnh, quan điểm ngữ pháp trung hoà, bàng quan với người nghe

e Ngữ pháp chức năng (Functional grammar)

Ngữ pháp chức năng được hiểu là một lý thuyết tổng quát về tổ chức ngữ pháp của ngôn ngữ tự nhiên Cụ thể hơn, có thể hiểu ngữ pháp chức năng là một lý thuyết về một hệ phương pháp được xây dựng trên quan điểm coi ngôn ngữ như một phương tiện thực hiện sự giao tiếp giữa người với người

Khởi xướng xây dựng lý thuyết này là Dik (1987), sau đó là sự đóng góp của các tên tuổi: L Tesnietre, Ch Fillmore, M Halliday, M Clark…

Đứng trên quan điểm chức năng (ngôn ngữ tự nhiên là công cụ giao tiếp của con người), các nhà ngữ pháp chức năng cho rằng ngôn ngữ tự nhiên về căn bản là một hiện tượng ngữ dụng Các hình thái ngôn ngữ

có mặt là để hoạt động như là những cái mang nghĩa và nghĩa tồn tại là

để chuyển tải các thông điệp từ người nói này sang người nói khác trong ngữ cảnh của một sự kiện lời nói hiện thực Hình thái cú pháp phục vụ cho ngữ nghĩa và ngữ nghĩa phục vụ cho ngữ dụng Với định hướng đó, ngữ pháp chức năng đã tự đặt cho mình nhiệm vụ “nghiên cứu, miêu tả và giải thích các quy tắc chi phối hoạt động của ngôn ngữ trên các bình diện của mặt hình thức và mặt nội dung trong mối liên hệ

Trang 12

- Làm rõ được quan hệ chức năng – ngữ nghĩa giữa vi tố và các đối (arguments) của nó bằng các lý thuyết mang các tên khác nhau: vai ngữ nghĩa, vai, vai cách, vai cách ngữ nghĩa, vai tham thể… Lý thuyết này được nêu ra một cách nghiêm túc lần đầu tiên bởi Gruba (1965) với cái tên “quan hệ đề”, tiếp đến là Fillmore (1968) với tên

“vai cách”

Đứng trên quan điểm lấy chức năng tự nhiên của ngôn ngữ - chức năng giao tiếp – làm đích nghiên cứu, ngữ pháp chức năng không chỉ khắc phục được những hạn chế của trường phái cấu trúc luận (thiên lệch về cấu trúc, coi nhẹ hoặc gạt bỏ nghĩa ra khỏi ngôn ngữ) mà còn chỉ ra được các mối quan hệ ràng buộc, chi phối lẫn nhau giữa các mặt của đơn vị cú pháp (như câu, cấu trúc vị tố - tham thể) Bởi vậy, ngày nay, ngữ pháp chức năng đã và đang được các nhà nghiên cứu trên thế giới vận dụng vào việc nghiên cứu các vấn đề của ngôn ngữ - chủ yếu là các vấn đề cú pháp – một cách hiệu quả

2.2 Tình hình nghiên cứu câu ở Việt Nam

2.2.1 Từ năm 1930 đến trước Cách mạng tháng Tám

Chữ quốc ngữ đã ra đời từ thế kỉ XVII (lấy năm 1961 làm gốc), nhưng phải tới đầu thế kỉ XX (1930) mới có các công trình nghiên cứu về ngữ pháp tiếng Việt của một số học giả người Việt và người Pháp, đó là Trần Trọng Kim, Bùi Đức Tịnh, Lê Quang Trinh, Phạm Duy Khiêm, Trương Vĩnh Ký, Aubaret, V Barbier… Ở giai đoạn đầu này, những vấn đề về

“văn phạm Việt Nam” nói chung và về câu nói riêng mới được nghiên cứu

ở mức “sơ khai” và còn bị mô phỏng theo tiếng Pháp Câu được Trần Trọng Kim định nghĩa như sau: “Câu thành lập do một mệnh đề có nghĩa lọn hẳn hoặc do hai hay nhiều mệnh đề”

2.2.2 Từ sau Cách mạng tháng Tám đến 1960

Sau Cách mạng tháng Tám, ở miền Bắc Việt Nam có sách Ngữ pháp Việt Nam do Nguyễn Lân biên soạn Các vấn đề về ngữ pháp và về câu cũng chưa vượt hơn giai đoạn trước Nguyễn Lân giải thích: “Nhiều từ hợp lại

mà biểu thị được một ý hoàn chỉnh, dứt khoát về động tác, tình hình hoặc tính chất của sự vật thì được gọi là một câu” Định nghĩa này không rõ ràng, không đầy đủ, có thể dùng để giải thích cho cả cụm từ

Trang 13

2.2.3 Từ 1960 đến 1990

Tới giai đoạn này, các vấn đề về ngữ pháp cũng như câu tiếng Việt đã được các nhà ngôn ngữ học Việt Nam nghiên cứu, miêu tả sát với đặc điểm loại hình của tiếng Việt, song cũng chịu ảnh hưởng chung của các trường phái cấu trúc luận nên các đơn vị như từ, cụm từ, câu chỉ được nghiên cứu ở phương diện cấu trúc

Về câu, tác giả của sách ngữ pháp chỉ xem xét chúng ở bình diện ngữ pháp: các thành phần tạo nên câu, các kiểu câu – theo cấu tạo Bình diện nghĩa học và dụng học chưa được đề cập đến (bốn kiểu câu theo mục đích nói: câu trần thuật, câu nghi vấn, câu cầu khiến, câu cảm thán có được nhắc tới, nhưng cũng chỉ được nghiên cứu ở góc độ cấu tạo)

Các nhà ngữ pháp tiêu biểu cho giai đoạn này là: Nguyễn Cẩn, Hoàng Tuệ, Nguyễn Kim Thản, Đái Xuân Ninh, Diệp Quang Ban, Hoàng Trọng Phiến, Lê Xuân Thai, Nguyễn Minh Thuyết…

2.2.4 Từ 1990 đến nay

Hơn mười năm lại đây, ngữ pháp Việt Nam do tiếp nhận tư tưởng của ngữ pháp chức năng nên đã có nhiều biến chuyển Các lý thuyết ngữ pháp chức năng như: lý thuyết về ba bình diện của câu, về vị từ – tham thể, các tiêu chí mới phân loại vị từ (như tiêu chí ±động, ±chủ ý), cách phân tích câu theo quan điểm đề – thuyết, các vấn đề như: tiêu điểm, tiền giả định…

đã được vận dụng vào việc nghiên cứu ngữ pháp tiếng Việt Các nhà ngữ pháp học đã có công giới thiệu ngữ pháp chức năng vào Việt Nam và ứng dụng nó để nghiên cứu là các giáo sư: Cao Xuân Hạo (với [1]), Diệp Quang Ban (với [2], [3], [4]) Giờ đây, ở Việt Nam, có thể nói không một công trình nào nghiên cứu về ngữ pháp lý luận không lấy ngữ pháp chức năng làm cơ sở lý luận

3 CÂU TIẾNG VIỆT

3.1 Câu là gì

Theo [5]: Câu là đơn vị ngôn ngữ không có sẵn, dùng để biểu thị sự tình, được tạo nên từ các đơn vị nhỏ hơn theo những quy tắc ngữ pháp nhất định, có dấu hiệu hình thức riêng, được sử dụng trong giao tiếp nhằm thực hiện một hành động nói

Trang 14

- Các đơn vị ngôn ngữ có sẵn: âm vị, hình vị, từ, ngữ cố định Đó là các đơn

vị có sẵn trong hệ thống ngôn ngữ, người sử dụng không phải tạo ra chúng

Số lượng của chúng là hữu hạn

- Các đơn vị ngôn ngữ không có sẵn: cụm từ tự do, câu Các đơn vị này không

có sẵn trong hệ thống ngôn ngữ Để có nó, người sử dụng phải tự tạo nên Số lượng của chúng là vô hạn

Trong hoạt động giao tiếp, người ta không nói với nhau bằng âm vị, hình vị, từ, cụm từ Đơn vị nhỏ nhất có thể sử dụng để giao tiếp là câu (văn bản nhỏ nhất, chỉ có thể là một câu) Đó là điểm khác nhau cơ bản của câu với các đơn vị dưới câu, không có sẵn Câu có nhiều phương diện: hình thức, nội dung nghĩa, chức năng, phạm vi sử dụng

3.2 Các đặc trưng cơ bản của câu

3.2.1 Chức năng của câu

Nói một cách khái quát, có thể nói, xét trong mối quan hệ với ý định (mục đích) của người nói, câu được dùng để biểu thị hành vi ngôn ngữ (còn gọi

là hành động nói) Đó là chức năng cơ bản của câu Chức năng này không

có được ở hình vị, từ, cụm từ Bất kì câu nói nào cũng biểu thị ít nhất một hành vi ngôn ngữ Tuy nhiên, muốn xác định đúng hành vi ngôn ngữ mà câu biểu thị, cần đặt nó trong ngữ cảnh

Ngoài chức năng biểu thị hành vi ngôn ngữ, câu còn có một số chức năng khác Chẳng hạn, nếu xét câu trong mối quan hệ với các câu trong văn bản, thì mỗi câu là một đơn vị ngôn ngữ dùng để tạo nên văn bản

3.2.2 Nội dung của câu

Tạo nên nội dung câu là các thành phần nghĩa của nó Từ góc độ đó có thể hiểu, về nội dung, câu biểu thị:

- Hiện thực được phản ánh vào câu như: vật, việc, hiện tượng, hành động, trạng thái, tính chất, quan hệ… Hiện thực sẽ tạo nên phần nghĩa miêu tả (nghĩa sự vật) của câu

- Quan hệ thái độ của người nói đối với người nghe và sự đánh giá chủ quan đối với hiện thực được nói tới trong câu Nội dung này chính là một yếu tố tạo nên phần nghĩa tình thái của câu

3.2.3 Hình thức của câu

a Hình thức ngữ âm của câu

Trang 15

Khi nói, câu có ngữ điệu kết thúc (hạ giọng ở câu trần thuật, cao giọng

ở câu hỏi) Với tiếng Việt, người nói thường dùng các tiểu từ tình thái cuối câu (à, ừ, nhỉ, nhé, hả, chứ, đi, thôi, nào, với, chứ…) để thể hiện

rõ hơn ngữ điệu kết thúc và mục đích câu

Ngữ điệu kết thúc là một trong những dấu hiệu hân biệt câu với đơn vị không phải là câu

Khi viết, câu được nhận diện nhờ hình thức:

- Chữ cái đầu của âm tiết đầu câu được viết hoa

- Cuối câu có một trong các dấu: ! ?

b Hình thức ngữ pháp của câu

Câu là đơn vị không có sẵn Để có được nó, người sử dụng phải kết hợp các đơn vị nhỏ hơn (từ, ngữ cố định, cụm từ tự do) với nhau theo những quy tắc ngữ pháp nhất định của ngôn ngữ Số lượng các câu cụ thể (tức phát ngôn) là vô hạn, nó được xây dựng từ những mô hình cấu trúc cú pháp mang tín trừu tượng, khái quát và hữu hạn Các cấu trúc

cú pháp của câu thường gặp là:

- Cấu trúc câu đơn

GATE là một phần mềm mã nguồn mở miễn phí, người dùng có thể nhận được

hỗ trợ miễn phí từ cộng đồng người dùng và các nhà phát triển thông qua GATE.ac.uk hoặc trên một cơ sở thương mại từ những đối tác công nghiệp của

Trang 16

dự án Đây là dự án xử lý ngôn ngữ tự nhiên mã nguồn mở lớn nhất với một đội ngũ phát triển lớn gấp đôi các dự án lớn nhất có thể so sánh được (rất nhiều trong số đó được tích hợp với GATE) Hơn 5 triệu EUR đã được đầu tư vào việc phát triển GATE [8]

Bộ công cụ của GATE đã được phát triển qua nhiều năm để có được một client trên desktop dành cho các nhà phát triển, một ứng dụng web dựa trên luồng công việc, một thư viện Java, một kiến trúc và một quy trình xử lý Do đó, GATE bao gồm [7]:

- Một IDE, GATE Developer: một môi trường phát triển tích hợp cho các

thành phần xử lý ngôn ngữ, đóng gói chung với một hệ thống chiết xuất thông tin được dùng rất rộng rãi và một tập hợp plugin khá đầy đủ

- Một ứng dụng web, GATE Teamware: một môi trường

- Một giải pháp điện toán đám mây để vận hành các quy trình xử lý văn bản

khổng lồ, GATE Cloud (http://gatecloud.net/)

- Một kho tìm kiếm đa mô hình, GATE Mímir, có thể được dùng để lập chỉ

mục và tìm kiếm trên văn bản, diễn giải, sơ đồ ngữ nghĩa (các ontology), và siêu dữ liệu ngữ nghĩa (instance data) Kho này cho phép các truy vấn pha trộn một cách tuỳ ý từ truy vấn hoàn toàn bằng văn bản, truy vấn có cấu trúc, truy vấn ngôn ngữ và truy vấn ngữ nghĩa

- Một framework, GATE Embedded: một thư viện đối tượng được tối ưu hoá

cho việc kết hợp các ứng dụng khác nhau cho phép truy cập đến tất cả các dịch vụ của GATE Developer và hơn thế nữa

- Một kiến trúc: một tổ hợp phần mềm với hình ảnh có tính tổ chức cao mô tả

về phương thức xử lý ngôn ngữ tự nhiên

- Một quy trình cho việc tạo ra các dịch vụ mạnh mẽ và dễ bảo trì

- Mô hình hoá và lưu trữ những cấu trúc dữ liệu chuyên biệt

Trang 17

- Đo đạc, thử nghiệm, đánh giá

- Hình tượng hoá và chỉnh sửa những chú thích, ontology, cây phân tích,…

- Một ngôn ngữ di truyền trạng thái hữu hạn cho việc nhanh chóng tạo ra nguyên mẫu và cài đặt hiệu quả của các phương pháp phân tích bề mặt (JAPE – Java Annotation Patterns Engine) [9]

- Chiết xuất những đối tượng huấn luyện của máy học

- Những cài đặt máy học có thể tháo lắp (Weka, SVM Light,…)

Trên cùng của những chức năng cốt lõi, GATE chứa những thành phần phục vụ cho những tác vụ xử lý ngôn ngữ khác nhau, ví dụ như các bộ phân tích, hình thái, dán nhãn, các công cụ tìm kiếm thông tin, các thành phần chiết xuất thông tin cho những ngôn ngữ khác nhau và rất nhiều thứ khác GATE Developer và Embedded được cung cấp một hệ thống chiết xuất thông tin (ANNIE) vốn được

sử dụng và thử nghiệm rất rộng rãi ANNIE thường được dùng để tạo ra RFD hay OWL (siêu dữ liệu) cho nội dung không có cấu trúc (diễn giải ngữ nghĩa) Phiên bản đầu của GATE được viết vào giữa thập niên 90 Tới đầu những năm

2000, GATE viết lại toàn bộ hệ thống bằng Java Phiên bản 5 được phát hành vào tháng 06/2009 và phiên bản 6 vào tháng 11/2010 Cho đến hiện tại, GATE vẫn là hệ thống dẫn đầu trong các loại tương tự

4.2 GATE Developer

GATE Developer là giao diện đồ hoạ của GATE Hệ thống này cũng tương tự các hệ thống như Mathematica cho những nhà toán học hay Eclipse cho lập trình viên Java, cung cấp một môi trường đồ hoạ thuận tiện cho việc nghiên cứu

và phát triển phần mềm xử lý ngôn ngữ Cùng với việc tự nó đã là một công cụ nghiên cứu mạnh mẽ, GATE Developer còn rất hữu dụng trong việc kết hợp với GATE Embedded (bộ giao diện lập trình ứng dụng GATE mà nhờ đó chức năng của GATE có thể được tích hợp vào các ứng dụng tự phát triển) Ví dụ: GATE Developer có thể được dùng để tạo ra các ứng dụng có thể được nhúng vào các ứng dụng khác thông qua API

Nhiệm vụ cơ bản của GATE là diễn giải văn bản Các khái niệm cốt lõi bao gồm:

- Các tài liệu (documents) được diễn giải

- Các tập văn bản (corpora): bao gồm tập hợp các tài liệu, nhóm tài liệu cho mục đích vận hành các quy trình đồng nhất trên chúng

- Các chú thích (annotations) được tạo từ các tài liệu

Trang 18

- Các kiểu chú thích (annotation types): như ‘Tên gọi’ hay ‘Ngày tháng’

- Các tập chú thích (annotation sets): bao gồm các nhóm chú thích

- Xử lý tài nguyên (processing resources): thao tác và tạo ra các chú thích trên tài liệu

- Các ứng dụng (applications): bao gồm các trình tự của xử lý tài nguyên, có thể được áp dụng vào một văn bản hay tập văn bản

GATE chứa một hệ thống chiết xuất thông tin hoàn chỉnh có thể được sử dụng tuỳ ý, đó là ANNIE (a Nearly-New Information Extraction System: Hệ thống Chiết xuất Thông tin Tương đối Mới) Rất nhiều người sử dụng nhận thấy rằng đây là điểm xuất phát lý tưởng cho ứng dụng của họ, và do đó ta cũng sẽ tìm hiểu về hệ thống này

4.2.1 Cửa sổ chính của GATE Developer

Hình 1: Giao diện cửa sổ chính của GATE Developer

Hình 1 thể hiện cửa sổ chính của GATE Developer, là cửa sổ ta gặp khi chạy công cụ này lần đầu Có năm vùng chính:

Trang 19

1 Ở trên cùng là thanh trình đơn và thanh công cụ với các trình đơn

‘File’, ‘Options’, ‘Tools’, ‘Help’ và các biểu tượng đại diện cho các hành động thường dùng

2 Ở bên trái có một cây bắt đầu từ ‘GATE’ và chứa ‘Application’,

‘Language’… – đó là cây tài nguyên

3 Ở góc dưới bên trái có một hình chữ nhật là khung nhìn tài nguyên nhỏ

4 Ở chính giữa có chứa một tab với nhãn ‘Message’ hoặc tên của tài nguyên trong cây tài nguyên gọi là khung nhìn tài nguyên chính

5 Nằm dưới cùng là thanh thông điệp

Trình đơn và thanh thông điệp thực hiện những việc thông thường Những thông điệp dài hơn được thể hiện trong tab thông điệp ở vùng khung nhìn tài nguyên chính

Cây tài nguyên và khung nhìn tài nguyên hoạt động cùng nhau cho phép

hệ thống thể hiện các tài nguyên khác nhau theo nhiều cách khác khác nhau Rất nhiều tài nguyên được tích hợp với GATE có thể có một khung nhìn nhỏ hoặc khung nhìn lớn hoặc cả hai

Bất kỳ lúc nào, khung nhìn chính đều có thể được dùng để thể hiện các thông tin khác như thông điệp chẳng hạn, bằng cách nhấp chuột vào tab tương ứng trên cửa sổ chính Nếu một lỗi xuất hiện trong khi xử lý, tab thông điệp sẽ chớp đỏ, và thêm vào đó, một hộp thoại thông điệp lỗi sẽ hiện ra

Trong hộp thoại Options từ trình đơn Options, bạn có thể quyết định có kết nối mục chọn ở cây tài nguyên với khung nhìn chính được chọn hay không

4.2.2 Nạp và xem tài liệu

Nếu nhấp chuột phải vào ‘Language Resources’ trong bảng tài nguyên, chọn ‘New’ rồi đến ‘GATE Document’, cửa sổ ‘Parameters for the new GATE Document’ sẽ xuất hiện như trong Hình 2 Tại đây, ta có thể chỉ định tài liệu GATE muốn tạo ra Các tham số được xác định bằng cách đánh dấu chọn Nếu ta không nhập tên tài liệu, nó sẽ được tạo tự động Nhập URL của tài liệu hoặc dùng trình duyệt tập tin để xác định tập tin ta muốn sử dụng làm nguồn tài liệu Ví dụ, ta có thể dùng ‘http://gate.ac.uk’

Trang 20

hoặc duyệt đến một tập tin văn bản hay XML trên đĩa Bấm ‘OK’ và tài liệu GATE sẽ được tạo từ nguồn chỉ định

Hình 2: Tạo tài liệu mới

Bộ soạn thảo tài liệu được chứa trong bảng tab trung tâm của GATE Developer Nhấp đúp chuột vào tài liệu trên bảng tài nguyên để hiện bộ soạn thảo tài liệu Bộ soạn thảo tài liệu bao gồm một bảng nằm trên cùng với các nút và biểu tượng điều khiển việc hiển thị các khung nhìn khác nhau và hộp tìm kiếm Ban đầu, ta chỉ có thể thấy văn bản trong tài liệu như trong Hình 3 Bấm vào ‘Annotation Sets’ và Annotations List’ để xem các tập chú thích nằm bên phải và danh sách các chú thích nằm phía dưới Lúc này, giao diện sẽ giống Hình 4 Tại vị trí danh sách các chú thích, ta có thể chọn xem ngăn xếp các chú thích Tại vị trí các tập chú thích, ta cũng có thể chọn xem bộ soạn thảo tham chiếu cộng tác

Một vài tuỳ chọn khác có thể được thiết lập từ biểu tượng tam giác ở góc trên bên phải

Ngày đăng: 26/05/2014, 18:12

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Cao Xuân Hạo (1991), Tiếng Việt – Sơ khảo ngữ pháp chức năng, Quyển 1, Nhà xuất bản Khoa học Xã hội Sách, tạp chí
Tiêu đề: Tiếng Việt – Sơ khảo ngữ pháp chức năng
Tác giả: Cao Xuân Hạo
Nhà XB: Nhà xuất bản Khoa học Xã hội
Năm: 1991
[2] Diệp Quang Ban (2000), Ngữ pháp tiếng Việt, Nhà xuất bản Giáo dục Sách, tạp chí
Tiêu đề: Ngữ pháp tiếng Việt
Tác giả: Diệp Quang Ban
Nhà XB: Nhà xuất bản Giáo dục
Năm: 2000
[3] Diệp Quang Ban (2004), Ngữ pháp tiếng Việt, Nhà xuất bản Ðại học Sư phạm Sách, tạp chí
Tiêu đề: Ngữ pháp tiếng Việt
Tác giả: Diệp Quang Ban
Nhà XB: Nhà xuất bản Ðại học Sư phạm
Năm: 2004
[4] Diệp Quang Ban (2004), Ngữ pháp Việt Nam, Phần Câu, Nhà xuất bản Đại học Sư phạm Sách, tạp chí
Tiêu đề: ), Ngữ pháp Việt Nam
Tác giả: Diệp Quang Ban
Nhà XB: Nhà xuất bản Đại học Sư phạm
Năm: 2004
[5] Nguyễn Thị Lương (2009), Câu Tiếng Việt, Nhà xuất bản Đại học Sư phạm Sách, tạp chí
Tiêu đề: Câu Tiếng Việt
Tác giả: Nguyễn Thị Lương
Nhà XB: Nhà xuất bản Đại học Sư phạm
Năm: 2009
[6] Nguyễn Thiện Giáp, Đoàn Thiện Thuật, Nguyễn Minh Thuyết (2009), Dẫn luận Ngôn ngữ học, Nhà xuất bản Giáo dục.Tiếng Anh Sách, tạp chí
Tiêu đề: Dẫn luận Ngôn ngữ học
Tác giả: Nguyễn Thiện Giáp, Đoàn Thiện Thuật, Nguyễn Minh Thuyết
Nhà XB: Nhà xuất bản Giáo dục
Năm: 2009

HÌNH ẢNH LIÊN QUAN

Hình 1: Giao diện cửa sổ chính của GATE Developer - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Hình 1 Giao diện cửa sổ chính của GATE Developer (Trang 18)
Hình 2: Tạo tài liệu mới - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Hình 2 Tạo tài liệu mới (Trang 20)
Hình 3: Bộ soạn thảo tài liệu - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Hình 3 Bộ soạn thảo tài liệu (Trang 21)
Hình 4: Bộ soạn thảo tài liệu với các tập chú thích và danh sách chú thích - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Hình 4 Bộ soạn thảo tài liệu với các tập chú thích và danh sách chú thích (Trang 22)
Hình 5: Bộ soạn thảo tập tài liệu - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Hình 5 Bộ soạn thảo tập tài liệu (Trang 23)
Hình 6: Bộ soạn thảo chú thích - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Hình 6 Bộ soạn thảo chú thích (Trang 25)
Hình 7: Giao diện lập trình ứng dụng của GATE - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Hình 7 Giao diện lập trình ứng dụng của GATE (Trang 27)
Bảng 2: Đoạn mã nạp plugin và khởi tạo tài nguyên - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Bảng 2 Đoạn mã nạp plugin và khởi tạo tài nguyên (Trang 28)
Hình 8: ANNIE và LaSIE - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Hình 8 ANNIE và LaSIE (Trang 29)
Bảng  sau  cung  cấp  một  mô  tả  BNF  (Backus-Naur  Format)  của  ngữ  pháp JAPE: - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
ng sau cung cấp một mô tả BNF (Backus-Naur Format) của ngữ pháp JAPE: (Trang 31)
Hình 9: Khung nhìn Kho dữ liệu Thứ tự Có khả năng tìm kiếm - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Hình 9 Khung nhìn Kho dữ liệu Thứ tự Có khả năng tìm kiếm (Trang 34)
Bảng 5: Đoạn mã khởi tạo SDD - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Bảng 5 Đoạn mã khởi tạo SDD (Trang 35)
Bảng 6: Đoạn mã tìm kiếm trong kho dữ liệu - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Bảng 6 Đoạn mã tìm kiếm trong kho dữ liệu (Trang 36)
Hình 10: Một văn bản được chú thích bởi MiniPar - tìm hiểu gate và ứng dụng vào phân tích cú pháp câu tiếng việt
Hình 10 Một văn bản được chú thích bởi MiniPar (Trang 37)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w