1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng logic mô tả trong phân tích câu trong ngôn ngữ tự nhiên

81 25 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 81
Dung lượng 613,12 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Ứng dụng logic mô tả trong phân tích câu trong ngôn ngữ tự nhiên Ứng dụng logic mô tả trong phân tích câu trong ngôn ngữ tự nhiên Ứng dụng logic mô tả trong phân tích câu trong ngôn ngữ tự nhiên luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

Trang 1

LUẬN VĂN THẠC SĨ KHOA HỌC

NGÀNH: CÔNG NGHỆ THÔNG TIN

ỨNG DỤNG LOGIC MÔ TẢ TRONG PHÂN TÍCH CÂU

TRONG NGÔN NGỮ TỰ NHIÊN

NGUYỄN VIỆT ANH

HÀ N ỘI 2006

Trang 2

Mục lục

Mục lục 1

Danh sách bảng 3

Phần mở đầu 4

Chương 1 Logic mô tả 6

1.1 Giới thiệu 6

1.2 Ngôn ngữ mô tả 7

1.3 Kiến trúc hệ logic mô tả 10

1.3.1 Bộ thuật ngữ - TBox 12

1.3.2 Bộ khẳng định – ABox 17

1.4 Các bài toán quyết định trong logic mô tả 18

1.5 Thuật toán 21

1.5.1 Thuật toán bao hàm cấu trúc 21

1.5.2 Thuật toán tableau 24

1.6 Ví dụ về khai triển cơ sở tri thức trong logic mô tả 29

1.6.1 Loại bỏ bao hàm khái niệm 30

1.6.2 Loại bỏ Tbox 31

1.6.3 Tính toán Abox 32

1.7 Kết luận 35

Chương 2 Xử lý ngôn ngữ tự nhiên 36

2.1 Giới thiệu 36

2.2 Đặc điểm của ngôn ngữ tự nhiên 38

2.3 Các bước xử lý và ứng dụng trong xử lý ngôn ngữ tự nhiên 38

2.3.1 Tiền xử lý văn bản (text pre-processing) 39

2.3.2 Phân tích hình thái (Morphology) 39

2.3.3 Phân tích cú pháp (Syntax) 40

2.3.4 Phân tích ngữ nghĩa (Semantics) 40

2.3.5 Phân tích ngữ dụng (Pragmatics) 40

2.4 Các ứng dụng của xử lý ngôn ngữ tự nhiên 41

2.4.1 Dịch tự động (Machine Translation) 41

2.4.2 Hiểu văn bản (tóm tắt văn bản) 41

2.4.3 Bắt lỗi chính tả / văn phạm (Spelling/ grammar checker) 41

2.4.4 Nhận dạng chữ viết (Character recognition) 42

2.4.5 Nhận dạng tiếng nói (voice recognition) 42

2.4.6 Tổng hợp tiếng nói (voice synthesis) 42

Trang 3

2.4.7 Giao tiếp với hệ CSDL (DBMS) 43

2.5 Khái niệm Câu 43

2.5.1 Phân loại theo cấu tạo ngữ pháp 45

2.5.2 Cấu tạo của chủ ngữ và của vị ngữ 49

2.6 Xây dựng các tập luật cấu thành nên câu 52

2.7 Kết luận 53

Chương 3 Khai triển cơ sở tri thức 54

3.1 Đặt vấn đề 54

3.2 Khai triển Tbox 54

3.2.1 Mục đích 54

3.2.2 Áp dụng thuật toán 55

3.3 Khai triển ABox 64

3.3.1 Mục đích 64

3.3.2 Áp dụng thuật toán 64

3.4 Kết luận 66

Chương 4 Ứng dụng bài toán xử lý câu 67

4.1 Giới thiệu 67

4.2 Ứng dụng 67

4.2.1 Ví dụ 1 68

4.2.2 Ví dụ 2 73

4.3 Kết luận 76

Các thuật ngữ 77

Tài liệu tham khảo 79

Tóm tắt luận văn 80

Trang 4

Danh sách bảng

Bảng 1.1: Luật cú pháp của ngôn ngữ mô tả AL 8

Bảng 1.2: Các luật bổ sung 8

Bảng 1.3: Kiến trúc hệ logic mô tả 11

Bảng 1.4 : Các khái niệm trong gia đình 13

Bảng 1.5: Các khẳng định trong khái niệm gia đình 18

Bảng 1.6: TBox sau khi loại bỏ bao hàm khái niệm 31

Bảng 1.7: TBox sau khi khai triển 32

Bảng 1.8: ABox sau khi khai triển 33

Bảng 2.1: Lược đồ hoá tổ chức câu 44

Bảng 2.2: Các tập luật cơ sở 53

Trang 5

Phần mở đầu

Logic mô tả (Description Logic) thời gian gần đây được đề cập rất nhiều

và được coi là một loại hình biểu diễn tri thức hiệu quả Ứng dụng của logic mô

tả ngày càng nhiều, đặc biệt trong lĩnh vực xử lý ngôn ngữ tự nhiên

Trong quá trình làm luận văn, em đã nghiên cứu về logic mô tả, và một hướng phát triển ứng dụng của logic mô tả đó là hướng sử dụng logic mô tả để phân tích ngôn ngữ tự nhiên Nội dung của luận văn gồm các phần như sau :

• Logic mô tả : giới thiệu các kiến thức cơ bản về logic mô tả, ngôn ngữ

logic mô tả, kiến trúc logic mô tả, các bài toán quyết định về logic mô tả, thuật toán tableau

• Xử lý ngôn ngữ tự nhiên : giới thiệu đặc điểm ngôn ngữ tự nhiên, các

bước xử lý và ứng dụng trong xử lý ngôn ngữ tự nhiên, khái niệm câu

trong ngôn ngữ tiếng Việt, và các tập luật cấu tạo thành câu

• Khai triển cơ sở tri thức: phần này sẽ đi sâu vào việc khai triển cơ sở tri

thức ABox và TBox từ các tập luật cấu tạo câu ở phần 2 Từ đó có thể áp

dụng cho bài toán xử lý câu

• Ứng dụng bài toán xử lý câu : Với ABox và TBox xây dựng được ở

chương 3, ta sẽ áp dụng vào bài toán : “Xác định chuỗi đầu vào có phải là

1 câu hay không” Sử dụng các bài toán trong logic mô tả, ta sẽ chứng minh được mệnh đề trên là đúng hay sai, từ đó rút ra kết luận : “Chuỗi đầu vào là một câu hay không?”

Trang 6

Trên đây là những phần chính sẽ được em trình bầy trong luận văn thạc sĩ của mình Trên thực tế, việc áp dụng logic mô tả vào việc xử lý ngôn ngữ tự nhiên còn gặp rất nhiều khó khăn, do sự đa dạng về vấn đề ngôn ngữ, tuy nhiên luận văn đã trình bầy và chứng minh được việc áp dụng logic mô tả trong việc giải quyết bài toán phân tích câu trong ngôn ngữ tự nhiên

Cuối cùng, em xin được gửi lời cảm ơn chân thành tới thầy hướng dẫn Tiến sĩ Trần Đình Khang, thầy đã hỗ trợ, đóng góp ý kiến quý báu, giúp đỡ em hoàn thành luận văn thạc sĩ

Em xin chân thành cảm ơn các thầy cô khoa Công nghệ thông tin trường đại học Bách Khoa Hà Nội đã dạy dỗ, giúp đỡ em trong suốt 5 năm học tập bậc đại học và 2 năm học tập bậc cao học

Học viên Nguyễn Việt Anh

Trang 7

Chương 1 Logic mô tả

1.1 Giới thiệu

Logic mô tả đầu tiên được phát triển nhằm cung cấp ý nghĩa cho các mạng ngữ nghĩa, đã đưa ra các biểu diễn được cấu trúc và các biểu diễn này có thể được kết hợp với các công cụ lập luận cho hiệu quả cao

Logic mô tả được ứng dụng đặc biệt hiệu quả trong các hệ thống thông minh, và gần đây với ý tưởng xây dựng hệ thống web thế hệ mới: web ngữ nghĩa, với mục đích tăng khả năng liên kết giữa các trang web và khả năng hiểu nội dung các tài liệu web của máy tính, logic mô tả đóng vai trò là nền tảng logic

để bổ sung ngữ nghĩa và đã thu hút được sự quan tâm của rất nhiều nhà nghiên cứu trong lĩnh vực này

Logic mô tả cung cấp khả năng biểu diễn tri thức và suy diễn để rút ra được các tri thức đúng đắn trong miền ứng dụng Việc biểu diễn tri thức được xây dựng từ các khái niệm, các quan hệ nguyên thuỷ và các luật xây dựng khái niệm Các luật này được gọi là ngôn ngữ xây dựng khái niệm Bên cạnh các khái niệm và các quan hệ còn có các khẳng định, thể hiện mối quan hệ giữa các khái niệm, các quan hệ với các cá thể hay giữa các cá thể với nhau Logic mô tả còn cung cấp khả năng lập luận và suy diễn các tri thức được biểu diễn ở trên Khả năng biểu diễn tri thức tỉ lệ thuận với độ phức tạp tính toán của các dịch vụ suy diễn của hệ logic mô tả tương ứng Để xây dựng một hệ thống logic mô tả người

ta đã tổng kết lại ba bước quan trọng sau:

- Xác định các khái niệm từ các khái niệm nguyên thuỷ, các quan hệ nguyên thuỷ và các cá thể ban đầu

Trang 8

- Sử dụng một ngôn ngữ xây dựng khái niệm để hình thành những khái niệm phức tạp

- Sử dụng các thủ tục suy luận để rút ra những tri thức đúng đắn về các khái niệm và các cá thể nếu có thể Chủ yếu là quan hệ bao hàm giữa hai khái niệm hoặc quan hệ giữa các cá thể và khái niệm hay giữa một cặp cá thể và một quan hệ

Chương này ta sẽ lần lượt tìm hiểu về các vấn đề liên quan đên logic mô

tả Đầu tiên là các ngôn ngữ định nghĩa khái niệm, tiếp theo là về cơ sở tri thức được xây dựng bằng logic mô tả như kiến trúc, các thủ tục suy diễn cho các bài toán quyết định

1.2 Ngôn ngữ mô tả

Các thành phần mô tả là khái niệm nguyên thuỷ, và quan hệ nguyên thuỷ Chúng ta quy ước các ký hiệu sử dụng A, và B cho khái niệm nguyên thuỷ, R cho quan hệ nguyên thuỷ, C và D khái niệm mô tả Những khái niệm phức tạp trong logic mô tả được xây dựng bằng ngôn ngữ thuộc tính AL (Attributive Language) hoặc các ngôn ngữ mở rộng của nó, ta gọi chung các ngôn ngữ này

là các “ngôn ngữ mô tả” Xuất phát từ những “mô tả cơ sở”, ta sử dụng các luật xây dựng khái niệm mà ngôn ngữ này hỗ trợ để hình thành nên những khái niệm mới

Thông thường, các khái niệm mới này được viết lại một cách đơn giản bằng cách sử dụng các “tên” mới Còn những “mô tả cơ sở” mà ta vừa đề cập tới là những khái niệm nguyên thuỷ hay những quan hệ nguyên thuỷ Các khái

Trang 9

niệm mới được xây dựng từ những mô tả cơ sở này thông qua các luật cú pháp Ngôn ngữ AL là ngôn ngữ có luật cú pháp đơn giản nhất Các ngôn ngữ còn lại được sử dụng trong logic mô tả điều là những ngôn ngữ được mở rộng ra từ ngôn ngữ cơ bản này

Những luật cú pháp của ngôn ngữ mô tả AL được liệt kê như sau:

┴ | (Khái niệm đáy)

¬A | (Phủ định khái niệm)

Bảng 1.1: Luật cú pháp của ngôn ngữ mô tả AL

Để mở rộng khả năng xây dựng những khái niệm phức tạp, người ta thực hiện việc mở rộng ngôn ngữ AL mà chủ yếu là tăng cường các luật cú pháp

Các luật có thể được bổ xung là

Trang 10

Các ngôn ngữ mới được mở rộng từ ngôn ngữ mô tả AL được ký hiệu dưới dạng một chuỗi như sau

AL [U][E][N][C]

Mỗi chữ cái nằm trong ngoặc vuông sẽ xuất hiện khi mà luật cú pháp tương ứng với nó có mặt trong ngôn ngữ mô tả mà ta sử dụng Ta gọi chung các ngôn ngữ này là họ ngôn ngữ AL

Ngữ nghĩa của khái niệm trong logic mô tả có được nhờ vào các phép thông dịch

Định nghĩa: Mỗi phép thông dịch I, là một cặp (∆I , .I) Trong đó, ∆I là một tập khác rỗng, còn .I là một hàm dịch Hàm dịch .I biến mỗi khái niệm A

thành một tập A I ∆ I, biến mỗi quan hệ (hai ngôi) R thành một quan hệ RI

Trang 11

(∀ R.C)I = {a ∈ ∆I | ∀b (a,b) ∈ RI Æb ∈ CI

(∃ R.T)I = {a ∈ ∆I | ∃b (a,b) ∈ RI

Hai khái niệm C và D là tương đương nhau, ký hiệu là C ≡ D nếu như

ta có CI = DI với mọi phép thông dịch I Ký hiệu C có thể thay thế cho cặp

ký hiệu UE Vì ta có thể dùng các luật hiện có của ngôn ngữ AL cùng với luật C để xây dựng các luật U và E , chi tiết như sau:

∃R.C ≡ ¬∀ R.¬C Nếu ta có các luật U và E thì ta hoàn toàn có thể biểu diễn các biểu thức phủ định của các khái niệm phức tạp về dạng biểu thức khái niệm ở dạng chuẩn bù mà ở đó, các phép phủ định chỉ áp dụng lên các khái niệm nguyên thuỷ

Ví dụ, ta có

¬∀ R.C ≡ ∃R.¬C

1.3 Kiến trúc hệ logic mô tả

Như ta đã biết, hệ logic mô tả là các hệ thống thông tin có sử dụng logic

mô tả để biểu diễn tri thức về miền của ứng dụng Các hệ này sử dụng khả năng biểu diễn mạnh mẽ của logic mô tả kết hợp với các thủ tục suy diễn để tạo nên khả năng hoạt động của chúng Nhờ vào các ngôn ngữ mô tả, người xây dựng có thể xây nên những hệ thống khái niệm của lĩnh vực ứng dụng, tức

Trang 12

là thực hiện quá trình phân loại các khái niệm giống như con người Sự có mặt của các cá thể giống như những thông tin cụ thể về miền ứng dụng mà hệ thống có sử dụng

Hình dưới đây mô tả kiến trúc chung của một hệ logic mô tả Hai thành phần chứa đựng tri thức là “Bộ thuật ngữ”, là nơi chứa đựng các khái niệm được xây dựng dựa trên sự hỗ trợ của các ngôn ngữ mô tả (TBox), và

“Bộ khẳng định”, là nơi chứa các khẳng định hay cụ thể hơn là các mô tả về thế giới (ABox) Bên cạnh đó, nhờ các dịch vụ suy diễn mà hệ thống có thể hỗ trợ sẽ đem lại cho hệ thống khả năng suy luận ra những tri thức đúng đắn để đạt được mục đích thực sự khi sử dụng logic mô tả trong hệ

Bảng 1.3: Kiến trúc hệ logic mô tả

Trang 13

Như trên hình, ta thấy cơ sở tri thức trong hệ logic mô tả gồm có hai thành phần chính là bộ thuật ngữ (TBox) và bộ khẳng định (ABox) Ta sẽ đi sâu về

2 thành phần này

Bộ thuật ngữ được sử dụng để lưu trữ các thuật ngữ Đây các khái niệm phức tạp được định nghĩa qua các khái niệm nguyên thuỷ dựa trên cú pháp của ngôn ngữ mô tả mà hệ thống sử dụng Như ta đã biết, bộ thuật ngữ cung cấp cho ta các khái niệm mới thông qua các “tên”, thực chất là dạng viết tắt của các biểu thức khái niệm phức tạp Nhờ đó, ta biết được các biểu thức quan hệ giữa các khái niệm với nhau

Có hai dạng thuật ngữ xuất hiện trong bộ thuật ngữ là định nghĩa khái

niệm và bao hàm khái niệm Một trong những lưu ý trong bộ thuật ngữ là hiện

tượng xuất hiện chu trình trong các thuật ngữ

Lấy ví dụ về thuật ngữ chứa chu trình và thuật ngữ không chứa chu trình Xét một khái niệm :”Người mẹ là người phụ nữ có con ” sẽ đựơc biểu diễn như sau :

Đây là một thuật ngữ không có chu trình

Xét một khái niệm khác :”Con người là loại động vật có bố mẹ là con người” Đây chính là thuật ngữ có chứa chu trình Ta sẽ biểu diễn như sau :

Trang 14

1.3.1.1 Định nghĩa khái niệm:

Mỗi một định nghĩa khái niệm có vế trái là một tên mới được đặt cho một biểu thức khái niệm phức tạp Ta hãy xét một ví dụ

Trong một TBox, mỗi khái niệm chỉ được xuất hiện bên vế trái của một thuật ngữ không quá một lần Những khái niệm chỉ xuất hiện ở bên vế phải của các biểu thức định nghĩa khái niệm được gọi là các ký hiệu gốc, còn những khái niệm có xuất hiện (không quá một lần) bên vế trái của một biểu thức khái niệm được gọi là ký hiệu tên Ví dụ về Tbox dưới đây liệt kê một loạt các khái niệm trong gia đình

Parent Father Mother

Bảng 1.4 : Các khái niệm trong gia đình

Trong đó chứa các khái niệm trong gia đình hai khái niệm nguyên

Trang 15

nguyên thuỷ được sử dụng là có con “Có con” Chỉ với ba mô tả cơ sở ban đầu,

ta đã xây dựng được thêm nhiều các khái niệm mới tương ứng với với các tên mới Để mở rộng khả năng xây dựng những khái niệm phức tạp, người ta thực hiện việc mở rộng ngôn ngữ AL mà chủ yếu là tăng cường các luật cú pháp

1.3.1.2 Bao hàm khái niệm

Bên cạnh những định nghĩa khái niệm, ta còn thấy sự xuất hiện của các thuật ngữ dưới dạng bao hàm khái niệm Điều này xuất phát từ việc sử dụng các định nghĩa khái niệm chưa đủ để nói về một khái niệm mới, do đó người ta

sử dụng bao hàm khái niệm để có thể bao trùm toàn bộ khái niệm mới

Với một định nghĩa khái niệm

Ta có thể nhìn nhận theo một cách khác :

Woman Person Æ đây chính là một bao hàm khái niệm

Rõ ràng, các thuật ngữ loại này chỉ tạo thêm phức tạp cho việc suy luận Một hướng tiếp cận nhằm giải quyết vấn đề đã được tìm ra đó là chuẩn hoá

Nếu Tbox là một bao hàm khái niệm dạng A C thì ta có thể thay thế bởi một định nghĩa khái niệm có dạng:

Woman Woman Person≡

Trang 16

Khái niệm Woman mới được thêm vào đặc trưng cho những tính chất có thể phân biệt một người phụ nữ (ứng với khái niệm Woman) trong mọi người (ứng với khái niệm Person ) Ta thu được một định nghĩa khái niệm tương đương với định nghĩa khái niệm đầu tiên

1.3.1.3 Mở rộng và chuẩn hoá bộ thuật ngữ

Đây là một trong những công việc đầu tiên của quá trình xử lý TBox Mục đích của công việc này là có được một bộ thuật ngữ với hai tính chất sau đây :

• Mọi thuật ngữ trong TBox điều ở dạng định nghĩa khái niệm

• Vế trái của mọi thuật ngữ là một ký hiệu tên (khái niệm phức tạp), còn về phải chỉ chứa các ký hiệu gốc (khái niệm nguyên thuỷ)

Do tính chất không chứa chu trình trong các biểu thức định nghĩa khái niệm nên quá trình này có tính chất dừng sau một số bước hữu hạn phép thực hiện Quá trình mở rộng và chuẩn hoá TBox đều đã được những người nghiên cứu về logic mô tả xây dựng Và dưới đây là một mệnh đề đảm bảo việc mở rộng bộ thuật ngữ là đúng đắn nhờ tính tương đương của bộ thuật ngữ ban đầu và

bộ thuật ngữ sau khi được mở rộng

Mệnh đề :

Gọi T là một bộ thuật ngữ không chứa chu trình và T’ là bộ thuật ngữ mở rộng của nó, khi đó:

Trang 17

• T và T’ tương đương nhau;

Tiếp theo quá trình mở rộng bộ thuật ngữ, sẽ đến quá trình chuẩn hoá Quá trình này nhằm chuyển tất cả các bao hàm khái niệm về thành định nghĩa khái niệm Mệnh đề sau được coi là cơ sở lý thuyết nhằm đảm bảo về mặt ngữ nghĩa cho quá trình chuẩn hoá

Mệnh đề :

Gọi T là một bộ thuật ngữ không có chu trình và T là bộ thuật ngữ chuẩn hoá của nó, khi đó:

• Mọi mô hình của T cũng là mô hình của T

• Với mỗi mô hình I của T có một mô hình I của T mà có cùng miền với I

và chấp nhận với I về các khái niệm và các luật trong T

Giả sử ta muốn mô tả khái niệm về người đàn ông chỉ có con cháu trai (Man who has only male offspring) viết là MOMO Trong trường hợp ông ta chỉ

có con trai (Man who has only son) viết là MOS MOS được định nghĩa không

có chu trình như sau:

MOS = Man u hasChild.Man

Còn đây là định nghĩa đệ quy khái niệm người đàn ông chỉ có con cháu trai:

MOMO ≡ Man u hasChild.MOMO

Chu trình xuất hiện khi ta muốn mô hình hoá cấu trúc đệ quy như trên

Trang 18

Xét tiếp ví dụ đệ quy trong biểu diễn cây nhị phân: Giả sử có tập các đối tượng là cây (Tree) và các quan hệ nhị phân có cây con (hasBranch) giữa các đối tượng liên quan giữa một cây và cây con ta có:

BinaryTree ≡ Tree u 2 hasBranch u hasBranch.BinaryTree

Bên cạnh bộ thuật ngữ TBox, thành phần còn lại của cơ sở tri thức trong

hệ logic mô tả là bộ khẳng định ABox Bộ khẳng định chứa những chi tiết mô

tả về các thông tin trong miền ứng dụng được nhập vào từ trước được gọi là các khẳng định

Như ta đã biết, khái niệm và quan hệ là hai mô tả quan trọng trong miền ứng dụng của một hệ logic mô tả Bởi vậy mà ta cũng có hai loại khẳng định tương ứng, đó là khẳng định khái niệm và khẳng định quan hệ

Định nghĩa : Khẳng định khái niệm cho biết một cá thể là thuộc khái niệm

nào, còn khẳng định quan hệ thể hiện được mối quan hệ giữa hai cá thể Ký hiệu cho khẳng định khái niệm và khẳng định quan hệ là

C (a) và R(a, b) hoặc được viết dưới dạng : (a : C) và ((a,b):R)

Ví dụ : Sử dụng hệ thống khái niệm gia đình Giả sử ta có PETER, MARY, HARRY là tên các cá thể Khi đó ta có 3 khẳng định như sau :

Trang 19

MotherWithoutDaughter(Mary)hasChild(MARY, PETER)hasChild(PETER, HARRY)

Bảng 1.5: Các khẳng định trong khái niệm gia đình

ABox trong hình biểu diễn rằng: MARY là một người mẹ không có con gái, MARY có các con là PETER, PETER có con là HARRY

Về mặt ngữ nghĩa, ta thông qua một phép thông dịch I Phép thông dịch

I = (ΔI, .I), trong đó hàm dịch .I không chỉ tác động lên các khái niệm C và các quan hệ R mà nó còn có thể tác động lên các cá thể a để tạo thành một phần tử

aI ∈ ∆I Có một giả thiết được đặt ra là giả thiết tên duy nhất, nó giả sử rằng với hai cá thể khác nhau bất kỳ a, b thì ta luôn có aI ≠ bI Một phép thông dịch I thoả mãn một khẳng định có dạng (a : C) và ((a,b):R) nếu như ta có aI ∈ CI(hoặc (aI, bI) ∈ R) Đối với bộ khẳng định ABox, một phép thông dịch I thoả mãn ABox khi mà phép thông dịch ấy thoả mãn mọi khẳng định có trong ABox Khi đó, ta gọi I là một mô hình của bộ khẳng định ABox

Hệ biểu diễn tri thức dựa trên logic mô tả có thể thực hiện các dạng suy luận đặc biệt Như đã trình bày, hệ cơ sở tri thức bao gồm TBox và ABox có ngữ nghĩa tương đương với tập hợp các tiên đề trong logic vị từ bậc nhất Như vậy, giống như bất kỳ tập hợp tiên đề nào khác, nó cũng chứa tri thức tiềm ẩn mà bằng suy luận có thể làm cho nó rõ ràng

1.4 Các bài toán quyết định trong logic mô tả

Trang 20

Hiệu quả chính mà một hệ logic mô tả mang lại là khả năng cung cấp các dịch vụ suy diễn Nếu xét trên một khía cạnh nào đó, ta có thể hiểu như khả năng cung cấp này là khả năng hệ có thể trả lời các câu hỏi từ phía người sử dụng Và đó chính là một phần phát triển của luận văn Với đầu vào là một chuỗi, đầu ra xác định xem đó có phải là một câu hay không, và sâu hơn nữa, câu đó là câu hỏi hay câu cảm thán…

Có bốn bài toán quyết định quan trọng mà ta sẽ nói đến là “bài toán thoả”, “bái toán bao hàm”, “bái toán tương đương” và “bái toán không giao” Các bài toán này được định nghĩa lần lượt như sau, với ký hiệu cho bộ thuật ngữ TBox là T :

• Bài toán thoả: Khái niệm C là thoả theo T (satisfiable ) nếu như tồn tại

một mô hình I của T mà CI ≠ ∅ Ta cũng nói rằng khi đó I là một mô hình của C

• Bài toán bao hàm: Khái niệm C bị bao bởi khái niệm D theo T

(subsumed) nếu như với mọi mô hình I của T , ta có CI ⊆DI Khi đó ta

ký hiệu là C ⊆T D hoặc T |= C v D

• Bài toán tương đương: Hai khái niệm C và D là tương đương theo T

nếu như CI = DI với mọi mô hình I của T Khi đó ta viết C ≡T D hoặc T

|= C ≡ D

• Bài toán không giao: Hai khái niệm C và D là không giao nhau theo T

nếu như CI ∩ DI = ∅ với mọi mô hình I của T

Trang 21

Ví dụ : Parent Father Mother≡

niệm Parent và Mother là không giao

Trên thực tế, các hệ logic mô tả thường chỉ cung cấp cơ chế kiểm tra cơ bản là đối với bài toán bao hàm khái niệm Điều này đã là đủ để thực hiện các suy luận còn lại dựa vào mệnh đề sau (giảm về bài toán bao hàm)

Mệnh đề : Chuyển về bài toán bao hàm

Xét hai khái niệm C và D:

• Bài toán C là không thoả ↔ bài toán bao hàm C bị bao bởi ⊥

• Bài toán C tương đương với D ↔ bài toán bao hàm C bị bao hàm bởi

lý thuyết của các hệ này (giảm về bài toán không thoả)

Mệnh đề : Chuyển về bài toán không thoả

Ta xét hai khái niệm C và D

• Bài toán C bị bao bởi D ↔ bài toán C ¬D là không thoả

Trang 22

• Bài toán C tương đương với D ↔ bài toán C ¬D là không thoả và D

¬C

• Bài toán C không giao với D ↔ bài toán C D không thoả

Vấn đề tiếp theo là loại bỏ bộ thuật ngữ TBox Bộ thuật ngữ trong các thủ tục suy diễn chỉ làm phức tạp thêm cho các thủ tục này Người ta loại bỏ ảnh hưởng của TBox trong các bài toán quyết định bằng cách sử dụng bộ mở rộng của TBox Bộ mở rộng của bộ thuật ngữ chỉ chứa các thuật ngữ là định nghĩa khái niệm với vế trái là các khái niệm mới (các ký hiệu tên) , còn vế phải là các khái niệm nguyên thuỷ và/hoặc quan hệ nguyên thuỷ (các ký hiệu gốc) Như vậy, với một khái niệm C cho trước, thông qua phần mở rộng của TBox, ta có được một biểu thức khái niệm của C, gọi là khái niệm đầy đủ của khái niệm C , mà trong đó chỉ chứa các khái niệm nguyên thuỷ và quan hệ nguyên thuỷ

1.5 Thuật toán

Về ý tưởng, thuật toán này gồm có hai pha:

• Thuật toán sẽ thực hiện quá trình kiểm tra các các khái niệm đã ở dạng chuẩn hoá hay chưa Dạng chuẩn hoá được sử dụng là dạng chuẩn bù

• Nếu pha kiểm tra thứ nhất thành công, pha thứ hai mới được thực hiện Trong pha này, cấu trúc cú pháp của các khái niệm được so sánh với nhau nhằm đưa ra câu trả lời Đây là một thuật toán đơn giản nên nó không giải

Trang 23

quyết tốt trong các trường hợp phức tạp như khi có phép giao C D, phủ định với khái niệm phức tạp ¬C , phép tồn tại ∃R.C

Gọi ngôn ngữ FL0 (ngôn ngữ chỉ cho phép thực hiện phép hội (C u D) và lượng từ với mọi (∀R.C)) Rõ ràng, FL0 và mở rộng bằng khái niệm đáy và phủ định khái niệm là ngôn ngữ con của AL, một khái niệm mô tả FLo là dạng chuẩn khi và chỉ khi nó có dạng:

A1u u Amu R1.C1u u Rn.Cn

Trong đó A1, , Am là các khái niệm khác nhau, R1, Rn là các vai trò khác nhau, còn C1, ,Cn là các mô tả khái niệm FLo ở dạng chuẩn Ta dễ dàng thấy rằng mô tả bất kỳ có thể chuyển được về một mô tả ở dạng chuẩn Thực tế,

mô tả ∀R.(C u D) và (∀R.C) u (∀R.D) là tương đương nhau

Mệnh đề : Cho dạng chuẩn của mô tả khái niệm FLo:

A1u u Amu ∀R1.C1u u ∀Rn.Cn

và dạng chuẩn của mô tả khái niệm FLo (D):

B1u u Bku ∀S1.D1u u ∀Sl.Dl thì C v D khi và chỉ khi phù hợp hai điều kiện sau:

1) Đối với mọi i, 1 ≤ i ≤ k, tồn tại j, 1 ≤ j ≤ m để Bi = Aj2) Đối với mọi i, 1 ≤ i ≤ l, tồn tại j, 1 ≤ j ≤ n để Si = Rj và Cj v Di

Ta thấy rằng tính chất trên của bao hàm là đúng đắn và đầy đủ

Trang 24

Ngôn ngữ mở rộng đơn giản nhất của FLo đó là mở rộng khái niệm đáy (⊥), ký hiệu là FL⊥

Một mô tả khái niệm bằng FL⊥ là một dạng chuẩn khi và chỉ khi là ⊥hoặc có dạng:

A1u u Amu ∀R1.C1u u ∀Rn.Cn Trong đó A1, , Am là các khái niệm khác với ⊥, R1, ,Rn là các vai trò, còn

C1, ,Cn là các mô tả khái niệm FL⊥ ở dạng chuẩn

Về nguyên tắc, ta có thể tính dạng chuẩn FLo của mô tả (⊥ được xử lý như một khái niệm bình thường): B1 u u Bk u ∀R1.D1 u u ∀Rn.Dn Nếu một trong số Bi là khái niệm đáy ⊥, thì thay toàn bộ mô tả này bằng ⊥ Mặt khác, áp dụng cùng thủ tục đối với Dj Ví dụ dạng chuẩn FLo của ∀R.∀R.B u A u ∀R.(A

u ∀R.⊥) là

A u ∀R.(A u ∀R.(B u⊥) thu được dạng chuẩn FL⊥:

A u ∀R.(A u ∀R.⊥)

Thuật toán bao hàm cấu trúc đối với FL⊥ làm việc giống như đối với FLo, chỉ khác là khái niệm đáy ⊥ bị bao hàm bởi mô tả bất kỳ Ví dụ:

∀R.∀R.B u A u ∀R.(A u ∀R.⊥) v ∀R.∀R.A u A u ∀R.A

khi so sánh đệ quy các dạng chuẩn FL⊥:

A u ∀R(A u ∀R.⊥) và A u ∀R.(A u ∀R.A) cuối cùng dẫn đến sự so sánh ⊥ và

A

Trang 25

Mở rộng FLo bằng phủ định khái niệm có thể được xử lý tương tự Trong khi tính dạng chuẩn, các khái niệm bị phủ định được xử lý giống như các khái niệm thường Tuy nhiên, nếu một khái niệm và phủ định của nó xuất hiện ở cùng mức của dạng chuẩn, thì ta thêm vào ⊥ Ví dụ:

∀R.¬A u A u ∀R.(A u ∀R.B) Trước hết ta biến đổi thành

A u ∀R.(A u¬A u ∀R.B) Cuối cùng ta được

A u ∀R.⊥

Đối với các mô tả phức tạp hơn, thuật toán bao hàm cấu trúc thường không đáp ứng được Đặc biệt, thuật toán này không xử lý phép hợp, phép phủ định hoàn toàn, và lượng từ tồn tại Để khắc phục những điểm yếu của thuật toán này, người ta đưa ra một thuật toán khá hữu dụng đó là thuật toán tableau

Thuật toán tableau có ý tưởng được dựa trên việc chuyển một bài toán quyết định bao hàm thành bài toán quyết định không thoả Điều đó có nghĩa là ta giải quyết bài toán C D nhờ giải quyết bài toán C ¬D là không thoả Ta lại chú ý rằng ở đây ta không đề cập tới sự có mặt của TBox bởi như ta sẽ giải quyết dựa trên các khái niệm mở rộng, tức là loại bỏ TBox

Thuật toán này được bắt đầu với bộ khẳng định ABox (ký hiệu gọn là A),

có dạng như sau:

Trang 26

A = {(x : C ¬D)}

Sau đó, áp dụng quá trình biến đổi của thuật toán Tableau để biến đổi bộ khẳng định về dưới dạng ABox đầy đủ, với phép phủ định với một khái niệm phức tạp được áp dụng theo các luật Morgan

Trang 27

Hành động: A' = A [ {R(x,yi) | 1 ≤ i ≤ n} [ {yi ≠ yj | 1 ≤ i < j ≤ n} với y1, ,yn là các cá thể tách biệt không xuất hiện trong A

Luật biến đổi của thuật toán tableau

Các luật này sẽ được áp dụng với A cho đến khi nào không còn một luật nào còn có thể áp dụng được nữa Ta gọi đây là quá trình mở rộng A Việc thực hiện theo thuật toán này sẽ giúp ta thu được một bộ khẳng định đầy đủ của A là

A Có hai tính chất quan trọng :

• Quá trình mở rộng A sẽ dừng sau một số hữu hạn các bước áp dụng

• A là không chứa mâu thuẫn khi và chỉ khi A không chứa mâu thuẫn

Như vậy, nếu ta phát hiện ra được mâu thuẫn trong A có nghĩa là A là không thoả hay đúng hơn là ta đã đưa ra được câu trả lời cho câu hỏi rằng

C D là đúng hay sai

Từ các luật biến đổi ta có nhận xét:

Trang 28

Giả sử ta thu được S' từ tập hữu hạn các ABox S bằng cách áp dụng một luật biến đổi, thì S là hợp lệ khi và chỉ khi S' hợp lệ

Giả sử Co là một mô tả khái niệm ALCN ở dạng chuẩn phủ định Sẽ không tồn tại một dãy vô hạn việc áp dụng luật {(Co(xo))} → S1 → S2 →

Giả sử A là một ABox thuộc Si với i ≥ 1, thì:

- Với mọi cá thể x ≠ xo xuất hiện trong A, ta có một dãy duy nhất các vai trò R1, , Rl (l ≥ 1) và một dãy duy nhất các cá thể x1, ,xl-1 mà {R1(xo, x1), R2(x1, x2), , Rl(xl-1,x) µ A Trong trường hợp này ta nói rằng x xuất hiện ở mức l trong A

- Nếu C(x) ∈ A đối với cá thể x ở mức l, thì độ sâu vai trò cực đại của C

bị bao bởi độ sâu vai trò cực đại của Co trừ đi l Tương tự, mức của cá thể bất kỳ trong A được bao bởi đội sâu vai trò cực đại của Co

- Nếu C(x) thuộc A, thì C là một mô tả con của Co Tương tự, số lượng các khẳng định khái niệm khác nhau trên x được bao bởi kích thước của

Co

- Số các vai trò kế tiếp khác nhau của x trong A (nghĩa là các cá thể y mà R(x,y) ∈ A) được bao bởi tổng số lần xuất hiện các giới hạn nhỏ nhất trong Co cộng với số lượng các lượng từ tồn tại khác nhau trong Co

Trang 29

Bắt đầu bằng {{Co(xo)}}, ta thu được tập ABox S' mà không còn áp dụng luật biến đổi được nữa sau khi ta đã có một số lần hữu hạn áp dụng luật biến đổi Một ABox A được gọi là hoàn thiện khi và chỉ khi không còn luật biến đổi nào

áp dụng được nữa Tính hợp lệ của tập ABox hoàn chỉnh có thể được quyết định bằng việc tìm các mâu thuẫn ABox A chứa mâu thuẫn khi và chỉ khi một trong

ba tình huống sau xuất hiện:

Một ABox A hoàn chỉnh và không xung đột là một mô hình Các luật sẽ được áp dụng lên trên A cho đến khi không còn luật nào có thể áp dụng nữa Ta gọi đây là quá trình mở rộng A Việc thực hiện theo thuật toán này cho phép ta thu được một bộ khẳng định đầy đủ của A là à Khi ta phát hiện ra mâu thuẫn trong à có nghĩa là A không thoả mãn hay nói cách khác ta đã đưa ra được câu trả lời cho câu hỏi rằng C v D là đúng hay sai

Trang 30

Để kết thúc phần này, ta xét một ví dụ đơn giản, trong đó có sử dụng các khái niệm được đưa ra trong ví dụ trên

Ví dụ: Chứng minh rằng

Mother v Parent Hay Mother ⊆ ( Father t Mother)

Lúc này ta chỉ xét với một TBox đơn giản là

T = {Parent := Father t Mother}

Áp dụng luật de Morgan và luật →u- ta có dãy biến đổi sau:

A h(Mother u¬(Father t Mother))(x)i

hMother(x)i, h¬(Father t Mother)(x)i

hMother(x)i, h¬Father u¬Mother)(x)i

à hMother(x)i, h¬Father(x)i, h¬Mother(x)i

Có thể nhận thấy rằng mâu thuẫn đã xuất hiện giữa hai khẳng định

hMother(x)i và h¬Mother(x)i trong Ã. Điều đó chứng tỏ rằng Mother v Parent là đúng

1.6 Ví dụ về khai triển cơ sở tri thức trong logic mô tả

Trang 31

Woman PersonMan Person WomanMother Woman hasChild.PersonFather Man hasChild.PersonParent Father Mother

Grandmother Mother hasChild.ParentMotherWithManyChildren Mother 3hasChild.Person

WithoutDaughter Mother hasChild Woman

Wife Woman hasHusband.Man

Bao hàm khái niệm C D được loại bỏ bằng cách chuyển thành

C≡ ¬C D Trong đó, ¬ là một khái niệm nguyên thủy mới C

Woman Person là một bao hàm khái niệm

Thực hiện loại bỏ bao hàm khái niệm ta được Woman Female Person≡ Trong đó, Female là một khái niệm nguyên thủy mới

Sau khi thực hiện loại bỏ bao hàm khái niệm, chúng ta thu được TBox như sau:

Trang 32

Woman Person FemaleMan Person WomanMother Woman hasChild.PersonFather Man hasChild.PersonParent Father Mother

Grandmother Mother hasChild.ParentMotherWithManyChildren Mother hasChil

Wife Woman hasHusband.Man

Trang 33

Woman Person FermaleMan Person Person Fermale)Mother Person Fermale) hasChild.PersonFather (Person Person Fermale)) hasChild.PersonParent ((Person Person Fermale)) hasChild.Person)

MotherWithoutDaughter ( Person Fermale) hasChild.Person)

hasChild Person Fermale)Wife (Person Fermale)

hasHusband.(Person Person Fermal

Trang 34

PETER : (Person Person Fermale)) hasChild.Person

MARY : ( Person Fermale) hasChild.Person) hasChild Person Fermale)hasChild(MARY, PETER)

hasChild(MARY,PAUL)

hasChild(PETER,HARRY)

Bảng 1.8: ABox sau khi khai triển

(1) A là nhất quán đối với T nếu mở rộng của nó A ' là nhất quán

Sau khi xây dựng các tiên đề thuật ngữ và sử dụng các dịch vụ tính toán của hệ thống logic mô tả để kiểm tra tất cả các khái niệm là thỏa, ABox có thể khai báo các khẳng định về các cá thể ABox chứa hai kiểu khẳng định, khẳng định khái niệm có dạng C(a) và khẳng định vai trò có dạng R(a;b) Sự biểu diễn của tri thức như vậy phải nhất quán Ví dụ, nếu ABox chứa khẳng định Mother(MARY) và Father(MARY) thì đó là không nhất quán

Dưới dạng mô hình lý thuyết ngữ nghĩa, chúng ta có thể đưa ra định nghĩa hình thức của tính nhất quán Một ABox A là nhất quán đối với một TBox T , nếu có một diễn dịch là mô hình của cả A và T Đơn giản, chúng ta nói rằng A

là nhất quán nếu nó nhất quán đối với một TBox rỗng

Ví dụ, tập các khẳng định {Mother(MARY), Father(MARY)} là nhất quán (đối với TBox rỗng), bởi vì không có bất kỳ hạn chế nào đối với diễn dịch của Mother và Father, hai khái niệm có thể được hiểu theo cách là chúng có một phần tử chung Tuy vậy, các khẳng định này là không nhất quán đối với TBox về quan hệ gia đình, do mọi mô hình của nó, Mother và Father là các tập không giao nhau

Trang 35

Tương tự như đối với các khái niệm, kiểm tra tính nhất quán của một ABox đối với một TBox không có chu trình có thể thực hiện việc kiểm tra một

mở rộng của ABox Chúng ta định nghĩa mở rộng của A đối với T là ABox A '

'

A được xây dựng từ A bằng cách thay thế mỗi khẳng định khái niệm C(a) bằng khẳng định khái niệm C’(a), trong đó C’ là mở rộng của C đối với T Chúng ta chỉ mở rộng khẳng định khái niệm vì ngôn ngữ mô tả tới nay không cung cấp hàm khởi tạo cho các mô tả vai trò, do đó chúng ta không xem xét TBox có chứa các định nghĩa vai trò Trong mọi mô hình của T , một khái niệm C và mở rộng C’ của nó được diễn dịch theo cùng một cách Vì vậy, A ' là nhất quán đối với T

nếu A là nhất quán đối với T Tuy vậy, do A ' không chứa ký hiệu tên định nghĩa trong T nên A ' là nhất quán đối với T nếu A là nhất quán

Vậy, A là nhất quán đối với T nếu mở rộng của nó A ' là nhất quán

(2) Trong trường hợp nhất quán, nhiệm vụ tính toán cho ABox đối với TBox không có chu trình có thể trở thành tính toán trên ABox được mở rộng

Qua ABox A, có thể đưa ra các truy vấn về quan hệ giữa các khái niệm, các vai trò và các cá thể Việc kiểm tra một khẳng định có phải kế thừa từ ABox không gọi là kiểm tra trường hợp Một khẳng định α được kế thừa từ A, chúng

ta viết là A α, nếu mọi diễn dịch thỏa A, cũng có nghĩa là mọi mô hình của A

thỏa α Nếu α là một khẳng định vai trò, việc kiểm tra trường hợp sẽ đơn giản

do ngôn ngữ mô tả không chứa các khởi tạo để xây dựng các vai trò phức tạp Nếu α có dạng C(a), chúng ta có thể thay việc kiểm tra trường hợp thành bài

Trang 36

toán kiểm tra nhất quán cho ABox bởi vì có kết luận sau A C a( ) nếu

{C a( )} là nhất quán Trong đó, a là tên cá thể được chọn bất kỳ

Như vậy qua chương 1, đã trình bầy các khái niệm, nội dung cơ bản nhất

về Logic mô tả, ngôn ngữ thuộc tính AL Ngôn ngữ này cho phép ta xây dựng những khái niệm phức tạp từ những khái niệm và quan hệ nguyên thuỷ, và

là tiền đề để xây dựng, phát triển logic mô tả với ứng dụng xử lý ngôn ngữ tự nhiên

Ngoài ra, chương 1 đã nêu lên kiến trúc của một hệ logic mô tả Trong kiến trúc này, thành phần chứa đựng tri thức gồm bộ khẳng định ABox và bộ thuật ngữ TBox Hơn nữa, hệ cũng cung cấp cho người dùng các dịch vụ suy diễn trên các tri thức được lưu trữ Các dịch vụ này được hệ cung cấp để giải quyết các bài toán cơ bản trên logic mô tả là bài toán thoả, bài toán không giao

và bài toán tương đương

Trang 37

Chương 2 Xử lý ngôn ngữ tự nhiên

2.1 Giới thiệu

Xử lý ngôn ngữ tự nhiên (Natural Language Processing) là bài toán lý thú nhất và cũng là khó khăn nhất của ngành máy tính từ hơn 50 năm qua Ước mơ dùng máy tính để xử lý ngôn ngữ đã gặp phải trở ngại lớn nhất từ phía ngôn ngữ,

đó là tính nhập nhằng (ambiguity) vốn có của ngôn ngữ tự nhiên Xử lý ngôn ngữ tự nhiên (XLNNTN) là một nhánh trong lĩnh vực ứng dụng trí tuệ nhân tạo nhằm mục đích: phân tích, nhận biết, tổng hợp ngôn ngữ tự nhiên Nó là cơ sở chính để đi vào các hướng: hiểu ngôn ngữ, dịch ngôn ngữ, xử lý tiếng nói, xử lý văn bản, Nhằm để xử lý ngôn ngữ tự nhiên bằng máy tính, trên thế giới người

ta đã cho ra đời một ngành học mới được kết hợp giữa hai ngành máy tính và ngôn ngữ học, được gọi là ngôn ngữ học - máy tính (Computational Linguistics)

Trong phần lớn các ứng dụng xử lý ngôn ngữ tự nhiên, logic mô tả đã được sử dụng để mã hoá các cú pháp, ngữ nghĩa, phần tử cần thiết để giải thích, làm sáng tỏ ngữ nghĩa và xử lý ngôn ngữ tự nhiên Với mong muốn máy có khả năng hiểu được ngôn ngữ tự nhiên của con người và trả lời các câu hỏi của con người Thậm chí máy sẽ dịch được các ngôn ngữ tự nhiên từ một ngôn ngữ này sang một một ngôn ngữ khác một cách nhanh chóng và chính xác Trong luận văn sẽ đưa các đề xuất về việc sử dụng logic mô tả cho việc xử lý ngôn ngữ tự nhiên, phân biệt, nhận dạng ngôn ngữ tự nhiên

Trang 38

Kể từ những ngày đầu của hệ thống Kl-One, một trong những ứng dụng chính của logic mô tả là thông dịch ngữ nghĩa (semantic interpretation) trong xử

lý ngôn ngữ tự nhiên [Brachman et al., 1979] Thông dịch ngữ nghĩa là một nhánh của phân tích cú pháp của câu với cấu trúc lô gíc - ở đây là đại diện cho nghĩa phụ thuộc vào ngữ cảnh và nghĩa sâu của nó Thông thường, Logic mô tả

đã được sử dụng để mã hóa trong một nền tảng kiến thức một số nhân tố ngữ dụng, ngữ nghĩa, cú pháp cần thiết để điều chỉnh tiến trình dịch mang tính chẩt ngữ dụng Một phần nền tảng kiến thức cấu thành kiến thức nghĩa từ vựng (lexical semantic), các từ có liên quan và giá trị cú pháp đối với các cấu trúc khái niệm , trong khi các phần khác miêu tả kiến thức bối cảnh (contextual) và lĩnh vực (domain), cho thấy nghĩa sâu cho khái niệm Qua việc phát triển xa hơn ý tưởng này, một phần tương ứng của nỗ lực nghiên cứu đã ảnh hưởng đến sự phát triển của bản thể học có động cơ ngôn ngữ, nghĩa là nền tảng kiến thức rộng có

cả các khái niệm có liên quan chặt chẽ với từ vị và các khái niệm lĩnh vực cùng tồn tại Dạng/hình thức lô gíc và các loại khác nhau của ngữ nghĩa nội tại trên cơ

sở Logics Mô tả có thể tạo cơ sở cho việc xử lý tiếp trên máy tính, ví dụ như đại diện các nghĩa thông dụng trong các hình thức dịch máy, tạo tiến trình xử lý ngôn ngữ tự nhiên, ngữ cảnh mạch lạc bắt nguồn từ nội dung ngữ nghĩa, phản hồi các dữ liệu nhập và đối với việc xử lý hội thoại

Tuy nhiên, sau những thành công vang dội đầu những năm 80 (xem bộ sưu tập báo của Sowa, 1991), sự quan tâm của cộng đồng ngôn ngữ học số hóa đối với Logics Mô tả giảm sút, cũng như những quan tâm đối với lý thuyết nền tảng về cú pháp và ngữ nghĩa Hiện tại, không có dự án lớn nào trong Xử lý ngôn ngữ tự nhiên sử dụng Logics Mô tả được triển khai trên thế giới

Trang 39

2.2 Đặc điểm của ngôn ngữ tự nhiên

Ngôn ngữ là một hiện tượng xã hội: không là hiện tượng tự nhiên, cá nhân, sinh vật (di truyền), và là hiện tượng xã hội đặc biệt Ngôn ngữ là phương tiện giao tiếp quan trọng nhất của con người: các phương tiện khác được diễn giải qua ngôn ngữ Ngôn ngữ là hiện tượng trực tiếp của tư tưởng: ngôn ngữ là phương tiện của tư duy Quan hệ “ngôn ngữ – tư “từ – khái niệm – sự vật” Ngôn ngữ - lời√duy (ý thức) – hiện thực” nói - hoạt động lời nói: “ngôn ngữ” có tính xã hội, “lời nói” có tính cá nhân, “lời nói” là ngôn ngữ đang hành chức Hay nói một cách đơn giản hơn: “Ngôn ngữ là hệ thống ký hiệu đặc biệt dùng để làm phương tiện giao tiếp quan trọng nhất của con người”

Theo quan điểm của F.de.Saussure (cha đẻ của ngôn ngữ học hiện đại):

“Ngôn ngữ giống như bàn cờ: giá trị của quân cờ không phải là do nó làm bằng

gì, cấu tạo/hình dáng như thế nào, mà giá trị của nó là do hệ thống bàn cờ, do các quân cờ khác qui định/gán cho nó Nên nếu ta mất một con xe/con pháo nào đó, thì ta vẫn có thể qui ước với nhau là thay thế nó bằng một cục phấn/hạt sỏi/…

mà giá trị của nó vẫn không đổi”

2.3 Các bước xử lý và ứng dụng trong xử lý ngôn ngữ tự

nhiên

Đầu vào của một hệ thống xử lý ngôn ngữ có thể là một hoặc nhiều câu dưới dạng tiếng nói hay văn bản, ở mức độ luận văn ta chỉ xét dạng văn bản

Trang 40

2.3.1 Tiền xử lý văn bản (text pre-processing)

Khi đầu vào của hệ xử lý ngôn ngữ là một văn bản, ta cần phải có thêm tầng tiền xử lý để xử lý sơ bộ văn bản đầu vào, rồi phân tách nó thành các đơn vị

rõ ràng để cho hệ xử lý chính dễ xử lý Cụ thể khối này sẽ bao gồm các công việc sau:

Trước nhất, khối tiền xử lý sẽ xử lý sơ bộ văn bản đầu vào (làm sạch văn bản) bằng cách xóa bỏ những ký tự, những mã điều khiển, những vùng không cần thiết cho việc xử lý

Trong mỗi văn bản, khối tiền xử lý sẽ nhận diện các tiêu đề, các chú thích, các số thứ tự và gạch đầu dòng, các đoạn văn trong văn bản Trong mỗi đoạn văn, khối tiền xử lý sẽ phân rã nó ra thành các câu là đơn vị cơ sở của một văn bản Đây là giai đoạn khó nhất và sẽ là trọng tâm của khối tiền xử lý, như dấu “.” trong hai trường hợp sau (không biết đâu là dấu chấm câu !):

Xa hơn nữa, khối tiền xử lý có thể phân tích câu thành những ngữ (phrase)

để giảm bớt gánh nặng cho hệ đồng thời tăng chất lượng cũng như tốc độ xử lý của hệ

2.3.2 Phân tích hình thái (Morphology)

Khối này có nhiệm vụ phân tích câu thành một bảng các từ (hay cụm từ) riêng biệt, đồng thời kèm theo tất cả các thông tin về từ đó, như là: từ loại (part-

Ngày đăng: 13/02/2021, 18:13

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Franz Baader, Diego Calvanese, Deborah McGuinness, Daniele Nardi, and Peter Patel-Schneider. The Description Logic HandBook.Theory, Implementation and Applications. Hardback, 2003 Sách, tạp chí
Tiêu đề: The Description Logic HandBook.Theory, Implementation and Applications
[4] Nguyễn Hoàng Ngà. Luận văn tốt nghiệp 2004. “Logic mô tả mờ có sử dụng đại số gia tử làm toán tử biến đổi khái niệm” Sách, tạp chí
Tiêu đề: “Logic mô tả mờ có sử dụng đại số gia tử làm toán tử biến đổi khái niệm
[5] Website của cộng đồng logic mô tả trên toàn thế giới http://dl.kr.org/ Link
[6] Websites giới thiệu cơ bản về logic mô tả http://www.ida.liu.se/labs/iislab/people/patla/DL/index.html Link
[3] Jeff Z.Pan (Zhiming Pan) .Description Logics Reasoning Support For The Semanticweb Khác

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w