1 GIỚI THIỆU Chế tạo ra được hệ thống máy tính có khả năng giao tiếp với con người bằng ngôn ngữ tự nhiên vốn là mục tiêu theo đuổi của nhiều nhà khoa học trong suốt một thời gian dài ch
Trang 1Đại học Quốc gia Thành Phố Hồ Chí Minh Trường Đại học Công nghệ Thông tin
Học viên: Dương Hoàng Thanh
Mã số: CH0901050 Lớp Cao học CNTTQM – Khóa 4 Giảng viên: TS Nguyễn Tuấn Đăng
Tháng 04/2011
Trang 21 GIỚI THIỆU 1
2 MỘT SỐ VẤN ĐỀ CHUNG VỀ CÂU 1
2.1 Tình hình nghiên cứu câu trên thế giới 1
2.1.1 Thời cổ đại 1
2.1.2 Từ cuối thế kỷ XIX đến đầu thế kỷ XX 1
2.1.3 Từ đầu thế kỷ XX đến nay 2
2.2 Tình hình nghiên cứu câu ở Việt Nam 6
2.2.1 Từ năm 1930 đến trước Cách mạng tháng Tám 6
2.2.2 Từ sau Cách mạng tháng Tám đến 1960 6
2.2.3 Từ 1960 đến 1990 7
2.2.4 Từ 1990 đến nay 7
3 CÂU TIẾNG VIỆT 7
3.1 Câu là gì 7
3.2 Các đặc trưng cơ bản của câu 8
3.2.1 Chức năng của câu 8
3.2.2 Nội dung của câu 8
3.2.3 Hình thức của câu 8
4 TÌM HIỀU DỰ ÁN GATE 9
4.1 Tổng quan về GATE 9
4.2 GATE Developer 11
4.2.1 Cửa sổ chính của GATE Developer 12
4.2.2 Nạp và xem tài liệu 13
4.2.3 Tạo và xem tập tài liệu 16
4.2.4 Làm việc với chú thích 18
4.2.5 Sử dụng các Plugin CREOLE 19
4.2.6 Nạp và sử dụng các tài nguyên xử lý 20
4.2.7 Tạo và vận hành một ứng dụng 20
Trang 34.3 GATE Embedded 21
5 CÁC CÔNG CỤ XỬ LÝ NGÔN NGỮ CỦA GATE 22
5.1 Hệ thống chiết xuất thông tin ANNIE 22
5.2 Biểu thức chính quy JAPE 23
5.2.1 Mô tả hình thức của JAPE 24
5.3 Chú thích phụ thuộc ngữ cảnh ANNIC 27
5.3.1 Khởi tạo SDD 29
5.3.2 Tìm kiếm trong kho dữ liệu 29
5.4 Các bộ phân tích 30
5.4.1 Bộ phân tích MiniPar 30
5.4.2 Bộ phân tích RASP 31
5.4.3 Bộ phân tích SUPPLE 32
5.4.4 Bộ phân tích Standford 33
6 PHÂN TÍCH CÚ PHÁP CÂU TIẾNG VIỆT 33
6.1 Xây dựng bộ phân tích cú pháp tiếng Việt 33
6.1.1 Tuỳ biến plugin SUPPLE parser 34
6.1.2 Xây dựng quy tắc ngữ pháp tiếng Việt cho JAPE 34
6.2 Xây dựng cơ sở dữ liệu từ vựng tiếng Việt 34
7 TỔNG KẾT VÀ HƯỚNG PHÁT TRIỂN 34
Trang 4Hình 1: Giao diện cửa sổ chính của GATE Developer 12
Hình 2: Tạo tài liệu mới 14
Hình 3: Bộ soạn thảo tài liệu 15
Hình 4: Bộ soạn thảo tài liệu với các tập chú thích và danh sách chú thích 16
Hình 5: Bộ soạn thảo tập tài liệu 17
Hình 6: Bộ soạn thảo chú thích 19
Hình 7: Giao diện lập trình ứng dụng của GATE 21
Hình 8: ANNIE và LaSIE 23
Hình 9: Khung nhìn Kho dữ liệu Thứ tự Có khả năng tìm kiếm 28
Hình 10: Một văn bản được chú thích bởi MiniPar 31
Trang 5Bảng 1: BNF của ngữ pháp JAPE 27 Bảng 2: Đoạn mã khởi tạo SDD 29 Bảng 3: Đoạn mã tìm kiếm trong kho dữ liệu 30
Trang 6Từ viết tắt Ý nghĩa
ANNIC ANNotations-In-Context: Chú thích Phụ thuộc Ngữ cảnh
ANNIE A Nearly-New Information Extraction system: Hệ thống Chiết
xuất Thông tin Tương đối Mới
API Application Programming Interface: Giao diện lập trình ứng
dụng
CMS Content Management System: Hệ thống Quản lý Nội dung
CPSL Common Pattern Specification Language: Ngôn ngữ Mô tả
Mẫu Thông dụng
GATE General Architecture for Text Engineering: Kiến trúc Tổng
quát cho Công nghệ Xử lý văn bản
IE Information Extraction: Chiết xuất Thông tin
IR Information Retrieval: Tìm kiếm Thông tin
JAPE Java Annotation Patterns Engine: Động cơ xử lý Mẫu Chú
thích trên nền Java
LHS Left Hand Side: Vế trái
LR Language Resource: Tài nguyên Ngôn ngữ
PR Processing Resource: Tài nguyên Xử lý
RHS Right Hand Side: Vế phải
SDD Searchable Serial Data-store: Kho dữ liệu Thứ tự Có khả năng
tìm kiếm
Trang 71 GIỚI THIỆU
Chế tạo ra được hệ thống máy tính có khả năng giao tiếp với con người bằng ngôn ngữ tự nhiên vốn là mục tiêu theo đuổi của nhiều nhà khoa học trong suốt một thời gian dài cho tới tận bây giờ Tuy chưa có hệ thống máy tính nào có thể thực hiện được điều này, nhưng việc nghiên cứu và khám phá xử lý ngôn ngữ tự nhiên trên máy tính đã đem lại rất nhiều kinh nghiệm hữu ích cho con người để
có thể biến ước mơ trên thành hiện thực
GATE là một dự án khá tham vọng khi muốn tạo ra một công cụ xử lý ngôn ngữ đa năng, giúp các nhà nghiên cứu ngôn ngữ có thể tập trung vào nghiên cứu chuyên sâu hơn là loay hoay giải quyết những bài toán kỹ thuật Tuy rất được ưa chuộng trên khắp thế giới, GATE lại hầu như chưa hỗ trợ việc phân tích tiếng Việt Do đó, đề tài này nhằm tìm hiểu về dự án GATE cũng như phương hướng
áp dụng công cụ này vào việc phân tích cú pháp câu tiếng Việt
2.1.2 Từ cuối thế kỷ XIX đến đầu thế kỷ XX
Ngôn ngữ nói chung và câu nói riêng được nghiên cứu theo quan điểm của các khuynh hướng, các trường phái Đáng chú ý có các khuynh hướng sau:
a Khuynh hướng logic – ngữ pháp (ở Nga)
Khuynh hướng nyaf với quan điểm câu trùng với phán đoán logic, nên
đã định nghĩa “Câu là một phán đoán được biểu thị bằng từ”
b Khuynh hướng lịch sử - tâm lí
Khuynh hướng lịch sử - tâm lý phản đối quan niệm trên, cho rằng “Câu (ngữ pháp) tuyệt nhiên không trùng và không song song với phán đoán logic”
c Khuynh hướng hình thức ngữ pháp
Trang 8Do quá thiên về hình thức của ngôn ngữ, khuynh hướng hình thức ngữ pháp đã định nghĩa “Câu là một tổ hợp từ với ngữ điệu kết thúc”
2.1.3 Từ đầu thế kỷ XX đến nay
Trên thế giới xuất hiện các trường phái ngôn ngữ học nổi tiếng sau:
a Trường phái miêu tả Mĩ (còn gọi là chủ nghĩa miêu tả, chủ nghĩa phân bố)
Với các đại diện là L Bloomfield, Z Harris, R Wells, trường phái này xuất hiện gắn liền với nhiệm vụ có tính chất lịch sử đối với các nhà ngôn ngữ học Mĩ: nghiên cứu, miêu tả các ngôn ngữ thổ dân da đỏ ở
Mĩ Trường phái này do ảnh hưởng của chủ nghĩa hành vi và mong muốn miêu tả ngôn ngữ một cách khách quan, đã chủ trương xây dựng một hệ thống kỹ thuật và thủ tục để xử lý các khối ngữ liệu của ngôn ngữ Câu cũng như các đơn vị ngôn ngữ khác được miêu tả theo phương pháp: dựa vào chu cảnh, phân bố các thành hợp tố trực tiếp: L Bloomfield, thủ lĩnh của trường phái cho rằng câu là một cấu trúc hình
vị kết hợp theo quy tắc nhất định, gọi một cách ngắn gọn là thành tố trực tiếp Với trường phái miêu tả, nghĩa bị gạt bỏ khỏi ngôn ngữ, đúng hơn là không được coi là đối tượng nghiên cứu mà chỉ được vận dụng như phép thử để xác định một yếu tố của ngôn ngữ
b Trường phái ngữ vị học Copenhague – Đan Mạch
Người khởi xướng và xây dựng cơ sở lí luận của trường phái này là Hjelmslev Chịu ảnh hưởng bởi phương pháp cấu trúc luận của F de Saussuer, Hjelmslev cho rằng nhiệm vụ của ngôn ngữ học cấu trúc luận là nghiên cứu các ngữ hàm – các hàm số trong ngôn ngữ (cũng tức là các quan hệ) và các kiểu loại của chúng
Ngôn ngữ học phải phát hiện ra các ngữ hàm (quan hệ) cần và đủ để miêu tả bất cứ hệ thống tín hiệu nào, bất cứ ngôn ngữ nào một cách đơn giản nhất Đóng góp của Hjelmslev cho ngôn ngữ học nói chung
và cho ngữ pháp học nói riêng là ông đã phát hiện ra ba loại ngữ hàm (quan hệ) chung nhất: quan hệ hai chiều hay lệ thuộc nhau (như quan
hệ giữa chủ ngữ với vị ngữ), quan hệ lệ thuộc một chiều hay quan hệ quy định (như quan hệ giữa động từ với bổ ngữ; giữa danh từ với định ngữ), quan hệ lệ thuộc tự do hay còn gọi là quan hệ liên hợp (ngoài ba quan hệ trên, Hjelmslev còn nói đến quan hệ giao hoán, luân hoán và thay thế) Đó là các quan hệ ngữ pháp cơ bản để phân tích mỗi quan hệ
Trang 9ngữ pháp giữa các thành phần trong cụm từ, trong câu Hjelmslev còn
là người khởi xướng xây dựng lý thuyết về phạm trù cách ngữ pháp (như chủ cách, tặng cách, cách cập vật) Lý thuyết này đã mở đường cho phương pháp phân tích nghĩa thành các thành tố ngữ nghĩa của câu sau này
c Trường phái cấu trúc – chức năng luận (hay câu lạc bộ ngôn ngữ học Praha)
Năm 1026, Câu lạc bộ Ngữ học Praha được thành lập ở Tiệp Khắc do sáng kiến của nhà ngôn ngữ học V Mathesius, đã tập hợp được nhiều nhà nghiên cứu ngôn ngữ và ngữ văn học Slavơ và German như B Havrane’k, J Mukaroxski… Tham gia vào câu lạc bộ còn có N.S Trubetskoy, R Jakobson và A Martinet – nhà cấu trúc – chức năng luận cổ điển của ngôn ngữ học Pháp
Thành tưu hoàn chỉnh nhất của các nhà ngôn ngữ học Praha là âm vị học Ngoài âm vị học, trường pháp Praha còn nghiên cứu về chức năng giao tiếp của ngôn ngữ Các nhà nghiên cứu của trường phái này – thuộc lớp người đi đầu (cụ thể là R Jakobson) trong việc nghiên cứu ngôn ngữ trong hoạt động giao tiếp R Jakobson đã đề ra sơ đồ tương đối hoàn chỉnh về các nhân tố giao tiếp, các quan hệ giữa các nhân tố
đó và các chức năng ngôn ngữ đảm nhận trong quá trình giao tiếp Thành tựu nghiên cứu về cú pháp của trường phái Praha, đáng chú ý có:
- Lý thuyết phân đoạn thực tại của Mathesius Lý thuyết này đã được ứng dụng vào việc nghiên cứu cú pháp (như phân tích thành phần câu) của nhiều ngôn ngữ cụ thể trên thế giới
- Quan điểm về câu tối thiểu và biện pháp triển khai (mở rộng) câu tối thiểu của Martinet Nhà cấu trúc – chức năng luận cổ điển của ngôn ngữ học Pháp này không tán thành quan niệm phân tích câu theo thành tố trực tiếp của Bloomfield – thủ lĩnh trường phái miêu
tả Mĩ Ông cho rằng các thành phần câu không có vị trí ngang bằng nhau và chỉ cần phân tích chúng thành các thành tố trực tiếp Theo Martinet, vị ngữ là thành phần chủ yếu của câu, là trung tâm liên kết các thành phần khác trong câu Tất cả các thành phần khác được xác định là nhờ quan hệ thế nào đó với vị ngữ Nhưng vai trò của các thành phần có liên quan đến vị ngữ cũng không ngang bằng nhau Trong số các thành phần đó, chủ ngữ chiếm một vị trí đặc
Trang 10biệt nổi bật, bởi vì chủ ngữ là thành phần triển khai của vị ngữ để kết hợp chủ ngữ – vị ngữ thành một câu Các thành phần khác không có vai trò đó, chúng có thể bị loại bỏ mà cái lõi còn lại vẫn không mất tính chất câu – đó là câu tối thiểu
Ba trường phái ngôn ngữ học đầu thế kỷ XX được giới thiệu ở trên đều chịu ảnh hưởng trực tiếp hay gián tiếp học thuyết về tính hệ thống của
F de Saussuere, dẫu khác nhau về nhiều điểm, nhưng vẫn có chung một xuất phát điểm Đó là tư tưởng về tính hệ thống, cũng tức là tính cấu trúc của ngôn ngữ Vì thế mà trong lịch sử ngôn ngữ học, ba trường phái này được mệnh danh là các trường phái cấu trúc luận
d Ngữ pháp tạo sinh (Generative Grammar)
Ngữ pháp tạo sinh, một học thuyết ngôn ngữ học Mĩ mà người sáng lập là Noam Chomsky, ra đời từ năm 1957, lúc đầu nhằm phê phán những mặt hạn chế của chủ nghĩa miêu tả Mĩ Sau đó, với thành tựu của mình, nó thực sự đã có sức hút mạnh mẽ đối với ngôn ngữ học thế giới, tạo ra được một cuộc “cách mạng” về tư duy phương pháp luận ngôn ngữ học
Đóng góp lớn nhất của ngữ pháp tạo sinh là phân biệt ngữ năng với ngữ thi: Ngữ năng là hiểu biết của người sử dụng ngôn ngữ có được về ngôn ngữ; ngữ thi là sự sử dụng thực tế trong những hoàn cảnh cụ thể cái ngữ năng đó Từ sự phân biệt đó, ngữ pháp tạo sinh cho rằng: ngữ pháp của một ngôn ngữ là cơ chế hợp thành ngữ năng, nhiệm vụ hàng đầu của ngôn ngữ học là phát hiện ra cái thứ ngữ pháp đó; đối tượng hàng đầu của ngữ pháp là câu
Theo Chomsky, một đặc điểm rất cơ bản của ngữ năng đó là nhờ đó
mà chúng ta có thể hiểu và tạo ra một số lượng vô hạn các câu mới Đó cũng là cơ sở của tạo sinh và ngữ pháp tạo sinh Tạo sinh là tạo lập ra những đơn vị - từ một cơ sở cho trước theo một cấu trúc nhất định Ngữ pháp tạo sinh là ngữ pháp nhờ nó chúng ta có thể tạo lập ra vô hạn các câu đúng và chỉ đúng ngữ pháp dựa vào những cơ sở nhất định Một cách khái quát hơn, ngữ pháp tạo sinh được hiểu là ngữ pháp
có khả năng tạo ra một số lượng vô hạn những câu đúng ngữ pháp và gán cho mỗi câu một sự miêu tả cấu trúc của nó Với đặc điểm đó, ngữ pháp tạo sinh được đánh giá là ngữ pháp có tính dự đoán (khi nó chỉ ra
Trang 11cách tạo ra những câu từ những quy tắc và bộ cơ sở) và tính tường minh (khi nó miêu tả cấu trúc của các câu)
Đóng góp thứ hai của ngữ pháp tạo sinh là nó đã cho chúng ta thấy được vai trò cải biến trong ngữ pháp: cải biến trong ngữ pháp được đánh giá là cái vạch ngang trong chữ H nằm ngang, nối cấu trúc sâu (lý giải ngữ nghĩa) với cấu trúc bề mặt
Tuy nhiên, hạn chế của ngữ pháp tạo sinh là quan điểm câu độc lập với ngữ cảnh, quan điểm ngữ pháp trung hoà, bàng quan với người nghe
e Ngữ pháp chức năng (Functional grammar)
Ngữ pháp chức năng được hiểu là một lý thuyết tổng quát về tổ chức ngữ pháp của ngôn ngữ tự nhiên Cụ thể hơn, có thể hiểu ngữ pháp chức năng là một lý thuyết về một hệ phương pháp được xây dựng trên quan điểm coi ngôn ngữ như một phương tiện thực hiện sự giao tiếp giữa người với người
Khởi xướng xây dựng lý thuyết này là Dik (1987), sau đó là sự đóng góp của các tên tuổi: L Tesnietre, Ch Fillmore, M Halliday, M Clark…
Đứng trên quan điểm chức năng (ngôn ngữ tự nhiên là công cụ giao tiếp của con người), các nhà ngữ pháp chức năng cho rằng ngôn ngữ tự nhiên về căn bản là một hiện tượng ngữ dụng Các hình thái ngôn ngữ
có mặt là để hoạt động như là những cái mang nghĩa và nghĩa tồn tại là
để chuyển tải các thông điệp từ người nói này sang người nói khác trong ngữ cảnh của một sự kiện lời nói hiện thực Hình thái cú pháp phục vụ cho ngữ nghĩa và ngữ nghĩa phục vụ cho ngữ dụng Với định hướng đó, ngữ pháp chức năng đã tự đặt cho mình nhiệm vụ “nghiên cứu, miêu tả và giải thích các quy tắc chi phối hoạt động của ngôn ngữ trên các bình diện của mặt hình thức và mặt nội dung trong mối liên hệ
Trang 12- Làm rõ được quan hệ chức năng – ngữ nghĩa giữa vi tố và các đối (arguments) của nó bằng các lý thuyết mang các tên khác nhau: vai ngữ nghĩa, vai, vai cách, vai cách ngữ nghĩa, vai tham thể… Lý thuyết này được nêu ra một cách nghiêm túc lần đầu tiên bởi Gruba (1965) với cái tên “quan hệ đề”, tiếp đến là Fillmore (1968) với tên
“vai cách”
Đứng trên quan điểm lấy chức năng tự nhiên của ngôn ngữ - chức năng giao tiếp – làm đích nghiên cứu, ngữ pháp chức năng không chỉ khắc phục được những hạn chế của trường phái cấu trúc luận (thiên lệch về cấu trúc, coi nhẹ hoặc gạt bỏ nghĩa ra khỏi ngôn ngữ) mà còn chỉ ra được các mối quan hệ ràng buộc, chi phối lẫn nhau giữa các mặt của đơn vị cú pháp (như câu, cấu trúc vị tố - tham thể) Bởi vậy, ngày nay, ngữ pháp chức năng đã và đang được các nhà nghiên cứu trên thế giới vận dụng vào việc nghiên cứu các vấn đề của ngôn ngữ - chủ yếu là các vấn đề cú pháp – một cách hiệu quả
2.2 Tình hình nghiên cứu câu ở Việt Nam
2.2.1 Từ năm 1930 đến trước Cách mạng tháng Tám
Chữ quốc ngữ đã ra đời từ thế kỉ XVII (lấy năm 1961 làm gốc), nhưng phải tới đầu thế kỉ XX (1930) mới có các công trình nghiên cứu về ngữ pháp tiếng Việt của một số học giả người Việt và người Pháp, đó là Trần Trọng Kim, Bùi Đức Tịnh, Lê Quang Trinh, Phạm Duy Khiêm, Trương Vĩnh Ký, Aubaret, V Barbier… Ở giai đoạn đầu này, những vấn đề về
“văn phạm Việt Nam” nói chung và về câu nói riêng mới được nghiên cứu
ở mức “sơ khai” và còn bị mô phỏng theo tiếng Pháp Câu được Trần Trọng Kim định nghĩa như sau: “Câu thành lập do một mệnh đề có nghĩa lọn hẳn hoặc do hai hay nhiều mệnh đề”
2.2.2 Từ sau Cách mạng tháng Tám đến 1960
Sau Cách mạng tháng Tám, ở miền Bắc Việt Nam có sách Ngữ pháp Việt Nam do Nguyễn Lân biên soạn Các vấn đề về ngữ pháp và về câu cũng chưa vượt hơn giai đoạn trước Nguyễn Lân giải thích: “Nhiều từ hợp lại
mà biểu thị được một ý hoàn chỉnh, dứt khoát về động tác, tình hình hoặc tính chất của sự vật thì được gọi là một câu” Định nghĩa này không rõ ràng, không đầy đủ, có thể dùng để giải thích cho cả cụm từ
Trang 132.2.3 Từ 1960 đến 1990
Tới giai đoạn này, các vấn đề về ngữ pháp cũng như câu tiếng Việt đã được các nhà ngôn ngữ học Việt Nam nghiên cứu, miêu tả sát với đặc điểm loại hình của tiếng Việt, song cũng chịu ảnh hưởng chung của các trường phái cấu trúc luận nên các đơn vị như từ, cụm từ, câu chỉ được nghiên cứu ở phương diện cấu trúc
Về câu, tác giả của sách ngữ pháp chỉ xem xét chúng ở bình diện ngữ pháp: các thành phần tạo nên câu, các kiểu câu – theo cấu tạo Bình diện nghĩa học và dụng học chưa được đề cập đến (bốn kiểu câu theo mục đích nói: câu trần thuật, câu nghi vấn, câu cầu khiến, câu cảm thán có được nhắc tới, nhưng cũng chỉ được nghiên cứu ở góc độ cấu tạo)
Các nhà ngữ pháp tiêu biểu cho giai đoạn này là: Nguyễn Cẩn, Hoàng Tuệ, Nguyễn Kim Thản, Đái Xuân Ninh, Diệp Quang Ban, Hoàng Trọng Phiến, Lê Xuân Thai, Nguyễn Minh Thuyết…
2.2.4 Từ 1990 đến nay
Hơn mười năm lại đây, ngữ pháp Việt Nam do tiếp nhận tư tưởng của ngữ pháp chức năng nên đã có nhiều biến chuyển Các lý thuyết ngữ pháp chức năng như: lý thuyết về ba bình diện của câu, về vị từ – tham thể, các tiêu chí mới phân loại vị từ (như tiêu chí ±động, ±chủ ý), cách phân tích câu theo quan điểm đề – thuyết, các vấn đề như: tiêu điểm, tiền giả định…
đã được vận dụng vào việc nghiên cứu ngữ pháp tiếng Việt Các nhà ngữ pháp học đã có công giới thiệu ngữ pháp chức năng vào Việt Nam và ứng dụng nó để nghiên cứu là các giáo sư: Cao Xuân Hạo (với [1]), Diệp Quang Ban (với [2], [3], [4]) Giờ đây, ở Việt Nam, có thể nói không một công trình nào nghiên cứu về ngữ pháp lý luận không lấy ngữ pháp chức năng làm cơ sở lý luận
3 CÂU TIẾNG VIỆT
3.1 Câu là gì
Theo [5]: Câu là đơn vị ngôn ngữ không có sẵn, dùng để biểu thị sự tình, được tạo nên từ các đơn vị nhỏ hơn theo những quy tắc ngữ pháp nhất định, có dấu hiệu hình thức riêng, được sử dụng trong giao tiếp nhằm thực hiện một hành động nói
Trang 14- Các đơn vị ngôn ngữ có sẵn: âm vị, hình vị, từ, ngữ cố định Đó là các đơn
vị có sẵn trong hệ thống ngôn ngữ, người sử dụng không phải tạo ra chúng
Số lượng của chúng là hữu hạn
- Các đơn vị ngôn ngữ không có sẵn: cụm từ tự do, câu Các đơn vị này không
có sẵn trong hệ thống ngôn ngữ Để có nó, người sử dụng phải tự tạo nên Số lượng của chúng là vô hạn
Trong hoạt động giao tiếp, người ta không nói với nhau bằng âm vị, hình vị, từ, cụm từ Đơn vị nhỏ nhất có thể sử dụng để giao tiếp là câu (văn bản nhỏ nhất, chỉ có thể là một câu) Đó là điểm khác nhau cơ bản của câu với các đơn vị dưới câu, không có sẵn Câu có nhiều phương diện: hình thức, nội dung nghĩa, chức năng, phạm vi sử dụng
3.2 Các đặc trưng cơ bản của câu
3.2.1 Chức năng của câu
Nói một cách khái quát, có thể nói, xét trong mối quan hệ với ý định (mục đích) của người nói, câu được dùng để biểu thị hành vi ngôn ngữ (còn gọi
là hành động nói) Đó là chức năng cơ bản của câu Chức năng này không
có được ở hình vị, từ, cụm từ Bất kì câu nói nào cũng biểu thị ít nhất một hành vi ngôn ngữ Tuy nhiên, muốn xác định đúng hành vi ngôn ngữ mà câu biểu thị, cần đặt nó trong ngữ cảnh
Ngoài chức năng biểu thị hành vi ngôn ngữ, câu còn có một số chức năng khác Chẳng hạn, nếu xét câu trong mối quan hệ với các câu trong văn bản, thì mỗi câu là một đơn vị ngôn ngữ dùng để tạo nên văn bản
3.2.2 Nội dung của câu
Tạo nên nội dung câu là các thành phần nghĩa của nó Từ góc độ đó có thể hiểu, về nội dung, câu biểu thị:
- Hiện thực được phản ánh vào câu như: vật, việc, hiện tượng, hành động, trạng thái, tính chất, quan hệ… Hiện thực sẽ tạo nên phần nghĩa miêu tả (nghĩa sự vật) của câu
- Quan hệ thái độ của người nói đối với người nghe và sự đánh giá chủ quan đối với hiện thực được nói tới trong câu Nội dung này chính là một yếu tố tạo nên phần nghĩa tình thái của câu
3.2.3 Hình thức của câu
a Hình thức ngữ âm của câu
Trang 15Khi nói, câu có ngữ điệu kết thúc (hạ giọng ở câu trần thuật, cao giọng
ở câu hỏi) Với tiếng Việt, người nói thường dùng các tiểu từ tình thái cuối câu (à, ừ, nhỉ, nhé, hả, chứ, đi, thôi, nào, với, chứ…) để thể hiện
rõ hơn ngữ điệu kết thúc và mục đích câu
Ngữ điệu kết thúc là một trong những dấu hiệu hân biệt câu với đơn vị không phải là câu
Khi viết, câu được nhận diện nhờ hình thức:
- Chữ cái đầu của âm tiết đầu câu được viết hoa
- Cuối câu có một trong các dấu: ! ?
b Hình thức ngữ pháp của câu
Câu là đơn vị không có sẵn Để có được nó, người sử dụng phải kết hợp các đơn vị nhỏ hơn (từ, ngữ cố định, cụm từ tự do) với nhau theo những quy tắc ngữ pháp nhất định của ngôn ngữ Số lượng các câu cụ thể (tức phát ngôn) là vô hạn, nó được xây dựng từ những mô hình cấu trúc cú pháp mang tín trừu tượng, khái quát và hữu hạn Các cấu trúc
cú pháp của câu thường gặp là:
- Cấu trúc câu đơn
GATE là một phần mềm mã nguồn mở miễn phí, người dùng có thể nhận được
hỗ trợ miễn phí từ cộng đồng người dùng và các nhà phát triển thông qua GATE.ac.uk hoặc trên một cơ sở thương mại từ những đối tác công nghiệp của
Trang 16dự án Đây là dự án xử lý ngôn ngữ tự nhiên mã nguồn mở lớn nhất với một đội ngũ phát triển lớn gấp đôi các dự án lớn nhất có thể so sánh được (rất nhiều trong số đó được tích hợp với GATE) Hơn 5 triệu EUR đã được đầu tư vào việc phát triển GATE [8]
Bộ công cụ của GATE đã được phát triển qua nhiều năm để có được một client trên desktop dành cho các nhà phát triển, một ứng dụng web dựa trên luồng công việc, một thư viện Java, một kiến trúc và một quy trình xử lý Do đó, GATE bao gồm [7]:
- Một IDE, GATE Developer: một môi trường phát triển tích hợp cho các
thành phần xử lý ngôn ngữ, đóng gói chung với một hệ thống chiết xuất thông tin được dùng rất rộng rãi và một tập hợp plugin khá đầy đủ
- Một ứng dụng web, GATE Teamware: một môi trường
- Một giải pháp điện toán đám mây để vận hành các quy trình xử lý văn bản
khổng lồ, GATE Cloud (http://gatecloud.net/)
- Một kho tìm kiếm đa mô hình, GATE Mímir, có thể được dùng để lập chỉ
mục và tìm kiếm trên văn bản, diễn giải, sơ đồ ngữ nghĩa (các ontology), và siêu dữ liệu ngữ nghĩa (instance data) Kho này cho phép các truy vấn pha trộn một cách tuỳ ý từ truy vấn hoàn toàn bằng văn bản, truy vấn có cấu trúc, truy vấn ngôn ngữ và truy vấn ngữ nghĩa
- Một framework, GATE Embedded: một thư viện đối tượng được tối ưu hoá
cho việc kết hợp các ứng dụng khác nhau cho phép truy cập đến tất cả các dịch vụ của GATE Developer và hơn thế nữa
- Một kiến trúc: một tổ hợp phần mềm với hình ảnh có tính tổ chức cao mô tả
về phương thức xử lý ngôn ngữ tự nhiên
- Một quy trình cho việc tạo ra các dịch vụ mạnh mẽ và dễ bảo trì
- Mô hình hoá và lưu trữ những cấu trúc dữ liệu chuyên biệt
Trang 17- Đo đạc, thử nghiệm, đánh giá
- Hình tượng hoá và chỉnh sửa những chú thích, ontology, cây phân tích,…
- Một ngôn ngữ di truyền trạng thái hữu hạn cho việc nhanh chóng tạo ra nguyên mẫu và cài đặt hiệu quả của các phương pháp phân tích bề mặt (JAPE – Java Annotation Patterns Engine) [9]
- Chiết xuất những đối tượng huấn luyện của máy học
- Những cài đặt máy học có thể tháo lắp (Weka, SVM Light,…)
Trên cùng của những chức năng cốt lõi, GATE chứa những thành phần phục vụ cho những tác vụ xử lý ngôn ngữ khác nhau, ví dụ như các bộ phân tích, hình thái, dán nhãn, các công cụ tìm kiếm thông tin, các thành phần chiết xuất thông tin cho những ngôn ngữ khác nhau và rất nhiều thứ khác GATE Developer và Embedded được cung cấp một hệ thống chiết xuất thông tin (ANNIE) vốn được
sử dụng và thử nghiệm rất rộng rãi ANNIE thường được dùng để tạo ra RFD hay OWL (siêu dữ liệu) cho nội dung không có cấu trúc (diễn giải ngữ nghĩa) Phiên bản đầu của GATE được viết vào giữa thập niên 90 Tới đầu những năm
2000, GATE viết lại toàn bộ hệ thống bằng Java Phiên bản 5 được phát hành vào tháng 06/2009 và phiên bản 6 vào tháng 11/2010 Cho đến hiện tại, GATE vẫn là hệ thống dẫn đầu trong các loại tương tự
4.2 GATE Developer
GATE Developer là giao diện đồ hoạ của GATE Hệ thống này cũng tương tự các hệ thống như Mathematica cho những nhà toán học hay Eclipse cho lập trình viên Java, cung cấp một môi trường đồ hoạ thuận tiện cho việc nghiên cứu
và phát triển phần mềm xử lý ngôn ngữ Cùng với việc tự nó đã là một công cụ nghiên cứu mạnh mẽ, GATE Developer còn rất hữu dụng trong việc kết hợp với GATE Embedded (bộ giao diện lập trình ứng dụng GATE mà nhờ đó chức năng của GATE có thể được tích hợp vào các ứng dụng tự phát triển) Ví dụ: GATE Developer có thể được dùng để tạo ra các ứng dụng có thể được nhúng vào các ứng dụng khác thông qua API
Nhiệm vụ cơ bản của GATE là diễn giải văn bản Các khái niệm cốt lõi bao gồm:
- Các tài liệu (documents) được diễn giải
- Các tập văn bản (corpora): bao gồm tập hợp các tài liệu, nhóm tài liệu cho mục đích vận hành các quy trình đồng nhất trên chúng
- Các chú thích (annotations) được tạo từ các tài liệu
Trang 18- Các kiểu chú thích (annotation types): như ‘Tên gọi’ hay ‘Ngày tháng’
- Các tập chú thích (annotation sets): bao gồm các nhóm chú thích
- Xử lý tài nguyên (processing resources): thao tác và tạo ra các chú thích trên tài liệu
- Các ứng dụng (applications): bao gồm các trình tự của xử lý tài nguyên, có thể được áp dụng vào một văn bản hay tập văn bản
GATE chứa một hệ thống chiết xuất thông tin hoàn chỉnh có thể được sử dụng tuỳ ý, đó là ANNIE (a Nearly-New Information Extraction System: Hệ thống Chiết xuất Thông tin Tương đối Mới) Rất nhiều người sử dụng nhận thấy rằng đây là điểm xuất phát lý tưởng cho ứng dụng của họ, và do đó ta cũng sẽ tìm hiểu về hệ thống này
4.2.1 Cửa sổ chính của GATE Developer
Hình 1: Giao diện cửa sổ chính của GATE Developer
Hình 1 thể hiện cửa sổ chính của GATE Developer, là cửa sổ ta gặp khi chạy công cụ này lần đầu Có năm vùng chính:
Trang 191 Ở trên cùng là thanh trình đơn và thanh công cụ với các trình đơn
‘File’, ‘Options’, ‘Tools’, ‘Help’ và các biểu tượng đại diện cho các hành động thường dùng
2 Ở bên trái có một cây bắt đầu từ ‘GATE’ và chứa ‘Application’,
‘Language’… – đó là cây tài nguyên
3 Ở góc dưới bên trái có một hình chữ nhật là khung nhìn tài nguyên nhỏ
4 Ở chính giữa có chứa một tab với nhãn ‘Message’ hoặc tên của tài nguyên trong cây tài nguyên gọi là khung nhìn tài nguyên chính
5 Nằm dưới cùng là thanh thông điệp
Trình đơn và thanh thông điệp thực hiện những việc thông thường Những thông điệp dài hơn được thể hiện trong tab thông điệp ở vùng khung nhìn tài nguyên chính
Cây tài nguyên và khung nhìn tài nguyên hoạt động cùng nhau cho phép
hệ thống thể hiện các tài nguyên khác nhau theo nhiều cách khác khác nhau Rất nhiều tài nguyên được tích hợp với GATE có thể có một khung nhìn nhỏ hoặc khung nhìn lớn hoặc cả hai
Bất kỳ lúc nào, khung nhìn chính đều có thể được dùng để thể hiện các thông tin khác như thông điệp chẳng hạn, bằng cách nhấp chuột vào tab tương ứng trên cửa sổ chính Nếu một lỗi xuất hiện trong khi xử lý, tab thông điệp sẽ chớp đỏ, và thêm vào đó, một hộp thoại thông điệp lỗi sẽ hiện ra
Trong hộp thoại Options từ trình đơn Options, bạn có thể quyết định có kết nối mục chọn ở cây tài nguyên với khung nhìn chính được chọn hay không
4.2.2 Nạp và xem tài liệu
Nếu nhấp chuột phải vào ‘Language Resources’ trong bảng tài nguyên, chọn ‘New’ rồi đến ‘GATE Document’, cửa sổ ‘Parameters for the new GATE Document’ sẽ xuất hiện như trong Hình 2 Tại đây, ta có thể chỉ định tài liệu GATE muốn tạo ra Các tham số được xác định bằng cách đánh dấu chọn Nếu ta không nhập tên tài liệu, nó sẽ được tạo tự động Nhập URL của tài liệu hoặc dùng trình duyệt tập tin để xác định tập tin ta muốn sử dụng làm nguồn tài liệu Ví dụ, ta có thể dùng ‘http://gate.ac.uk’
Trang 20hoặc duyệt đến một tập tin văn bản hay XML trên đĩa Bấm ‘OK’ và tài liệu GATE sẽ được tạo từ nguồn chỉ định
Hình 2: Tạo tài liệu mới
Bộ soạn thảo tài liệu được chứa trong bảng tab trung tâm của GATE Developer Nhấp đúp chuột vào tài liệu trên bảng tài nguyên để hiện bộ soạn thảo tài liệu Bộ soạn thảo tài liệu bao gồm một bảng nằm trên cùng với các nút và biểu tượng điều khiển việc hiển thị các khung nhìn khác nhau và hộp tìm kiếm Ban đầu, ta chỉ có thể thấy văn bản trong tài liệu như trong Hình 3 Bấm vào ‘Annotation Sets’ và Annotations List’ để xem các tập chú thích nằm bên phải và danh sách các chú thích nằm phía dưới Lúc này, giao diện sẽ giống Hình 4 Tại vị trí danh sách các chú thích, ta có thể chọn xem ngăn xếp các chú thích Tại vị trí các tập chú thích, ta cũng có thể chọn xem bộ soạn thảo tham chiếu cộng tác
Một vài tuỳ chọn khác có thể được thiết lập từ biểu tượng tam giác ở góc trên bên phải