1. Trang chủ
  2. » Luận Văn - Báo Cáo

XỬ LÝ CÁC CÂU TRUY VẤN VÀ TÌM KIẾM TRÊN KHO TÀI LIỆU CÓ CHÚ THÍCH NGỮ NGHĨA BẰNG TIẾNG ANH LUẬN VĂN ĐẠI HỌC BÁCH KHOA

86 28 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 1,86 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Đồ thị ý niệm được sử dụng để kiểm tra tính chính xác của quá trình dịch câu truy vấn trong đềtài, bên cạnh các tham chiếu xác định và tham chiếu tổng quát, được bổ sung thêmvấn vấn là m

Trang 1

Đại Học Quốc Gia TP Hồ Chí Minh

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-o0o -LUẬN VĂN ĐẠI HỌC

XỬ LÝ CÁC CÂU TRUY VẤN VÀ TÌM KIẾM TRÊN KHO TÀI LIỆU CÓ CHÚ THÍCH NGỮ NGHĨA

KHO TÀI LIỆU CÓ CHÚ THÍCH NGỮ NGHĨA BẰNG BẰNG

TIẾNG ANH

Chuyên ngành: Khoa Học Máy Tính

G

GV VH HD D : : P Pggss T Tss C Caao o H Hooàànng g T Trrụụ Sin

Sinh vi h viên ên : Ng : Nguyễ uyễn Tr n Trần Đ ần Đăng ăng Kho Khoaa

(50601130)

Tạ Tất Tài (50602084)

TP Hồ Chí Minh, tháng 12 – 2010

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOAĐẠI HỌC QU

Cán bộ hướng dẫn khoa học : PGS.TS CAO HOÀNG TRỤCán bộ chấm nhận xét 1 : Cán bộ chấm nhận xét 2 :

Luận văn đại học được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN ĐẠI HỌCTRƯỜNG ĐẠI

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan rằng ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luậnvăn, các công việc trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dungnào của luận văn này được nộp để lấy một bằng cấp ở trường đại học nào khác

 Ngày Ngày Tháng Năm Tháng Năm

Ký tên

Trang 4

LỜI CẢM ƠN

Trước hết, chúng tôi xin gởi lời cảm

kỹ sư Châu Kim Cường, những người đã trực tiếp hướng dẫn tôi trong quá trình làm luận văn này

Sự hướng dẫn chu đáo, tận tình, cùng với những tài liệu và lời khuyên quý giá của thầy và anh tronghơn 3 tháng qua là nhân tố không thể thiếu để chúng tôi có thể hoàn thành nhiệm vụ

Chúng tôi xin gửi lời cảm ơn đến gia đình và bạn bè, những người luôn sát cánh, động viên, vàtạo mọi điều kiện tốt nhất để chúng tôi có thể học tập và hoàn tất được luận văn tốt nghiệp này.Chúng tôi chân thành biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý thầy cô khoa Khoahọc và Kỹ thuật Máy tính trường Đại học Bách khoa

Luận văn này khó tránh khỏi còn thiếu sót do tầm nhìn của chúng tôi còn hạn hẹp, rất mongnhận được sự góp ý của quý thầy cô cùng các bạn

Trang 5

TÓM TẮT

Từ khi ra đời đến nay, World Wide Web đã trở thành một công cụ quan trọng để lưu trữ và chia

sẻ nguồn tri thức khổng lồ Tuy nhiên, các công cụ phần mềm hiện nay chưa hỗ trợ thật hiểu quảcho con người trong quá trình khai thác kho tri thức ấy Với mong muốn làm hiệu quả hơn quá trình

đó, luận văn này xây dựng một công cụ tìm kiếm có thể “hiểu” được nội dung của câu truy vấn bằngtiếng Anh và trả về kết quả

Để biên dịch câu truy vấn ngôn ngữ tự nhiên, luận văn này dựa trên nền tảng web ngữ nghĩa,kết hợp với phương pháp dịch ít phụ thuộc vào cú pháp của nhóm VN-KIM Để thể hiện nội dung biên dịch được, luận văn biểu diễn bằng đồ thị ý niệm Cuối cùng, câu truy vấn SeRQL được dùng

để tìm kiếm kết quả

Hiệu quả của hệ thống được đánh giá trên tập câu truy vấn mẫu “TREC 2002”

Trang 6

MỤC LỤC

TỔNG QUAN 1

1.1 Giới thiệu 1

1.2 Mục tiêu và phạm vi 3

1.3 Kết quả đạt được 5

1.4 Cấu trúc luận văn 6

KIẾN THỨC NỀN TẢNG 7

2.1 Rút trích quan hệ 7

2.2 Đồ thị ý niệm (Conceptual Graph) 8

2.2.1 Sơ lược về đồ thị ý niệm 8

2.2.2 Đồ thị ý niệm mở rộng 10

2.3 Tìm thực thể vài tài liệu 11

2.3.1 Câu truy vấn SeRQL [tham khảo http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons] 11 2.3.2 Semantic Lucene 12

PHÂN TÍCH VẤN ĐỀ VÀ PHƯƠNG PHÁP GIẢI QUYẾT 14

3.1 Chuyển đổi câu truy vấn với từ để hỏi “How many” 14

3.2 Chuyển đổi câu truy vấn có tính từ 16

3.3 Chuyển đổi câu truy vấn có tính từ so sánh nhất 18

3.4 Chuyển đổi câu truy vấn có tính từ 19

3.5 Chuyển đổi câu truy vấn có tính từ so sánh nhất 21

3.5.1 Trường hợp tính từ định tính 21

3.5.2 Trường hợp tính từ định lượng [tham khảo HA] 21

3.6 Chuyển đổi câu truy vấn có tính từ định lượng so sánh hơn 22

THIẾT KẾ 24 4.1 Các bước của giải thuật 24

4.1.1 Phân tách câu truy vấn 26

4.1.2 Nhận biết thực thể có tên 26

4.1.3 Nhận biết thực thể không tên 26

4.1.4 Nhận biết tính từ 27

4.1.5 Nhận biết từ quan hệ 27

4.1.6 Xác định lớp của thực thể 27

4.1.7 Gom các thực thể 28

4.1.8 Xác định quan hệ ẩn 29

4.1.9 Xác định loại quan hệ giữa các thực thể 29

4.1.10 Xoá bỏ quan hệ không phù hợp 32

4.1.11 Xác định quan hệ giữa tính từ và thực thể 33

4.1.12 Xây dựng đồ thị ý niệm 36

4.2 Tập luật 36

Trang 7

4.2.2 Cấu trúc thành phần điều kiện của luật 38

4.2.3 Cấu trúc thành phần hành động của luật 38

4.2.4 Xây dựng một số luật đặc biệt 39

4.2.5 Xây dựng từ điển luật 40

4.3 Kết quả thí nghiệm 42

HIỆN THỰC HỆ THỐNG 50

5.1 Các khối xử lý và giao diện các lớp quan trọng 50

5.1.1 Ứng dụng web phía Client 50

5.1.2 Hệ thống xử lý trên server 50

5.2 Hệ thống luật [tham khảo CDT] 54

5.2.1 Cấu trúc của hệ thống luật 55

5.2.2 Cấu trúc thành phần điều kiện của luật 56

5.2.3 Cấu trúc thành phần hành động của luật 57

5.2.4 Xây dựng một số luật đặc biệt 58

5.3 Lưu trữ đồ thị và hiển thị đồ thị [tham khảo HA] 58

5.4 Xây dựng câu truy vấn SeRQL 60

KẾT LUẬN 65

TÀI LIỆU THAM KHẢO 67

PHỤ LỤC A: TẬP CÂU MẪU TREC 2002 71 PHỤ LỤC C: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 TRƯỚC KHI LÀM GIÀU

PHỤ LỤC D: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 SAU KHI LÀM GIÀU

Trang 8

DANH MỤC HÌNH

Hình 3.0.1: Ví dụ về biểu diễn câu truy vấn "How many" 15

Hình 3.0.2: Ví dụ về biểu diễn câu truy vấn "How many" ở dạng rút gọn 15

Hình 3.0.3: Ví dụ về biểu diễn tổng quát cho câu truy vấn "How many" 15

Hình 4.0.4: Mô tả các bước dùng để xây dựng đồ thị ý niệm cho câu truy vấn 25

Hình 4.0.5: Xác định loại quan hệ giữa hai thực thể ei và ej 30

Hình 4.0.6: Lược đồ ánh xạ kiểu quan hệ của bộ ba truy vấn 31

Hình 4.0.7: Xác định loại quan hệ giữa tính từ adj và thực thể 34

Hình 4.0.8: Lược đồ ánh xạ kiểu quan hệ giữa tính từ và thực thể 35

Hình 4.0.9: Cấu trúc tập thành phần TransformRules và rule 37

Hình 4.0.10: Cấu trúc của thành phần điều kiện luật 39

Hình 4.0.11: Ví dụ về thành phần premise 39

Hình 4.0.12: Cấu trúc của thành phần hành động 40

Hình 4.0.13: Cấu trúc từ điển quan hệ 41

Hình 4.0.14: Ví dụ một luật hoàn chỉnh 41

Hình 4.0.15: Ví dụ một số thành phần trong từ điển 41

Hình 4.0.16: Ví dụ về biểu diễn câu truy vấn “Queried relation” 45

Hình 4.0.17: Ví dụ về biểu diễn câu truy vấn “Advert / Temporal” 45

Trang 9

DANH MỤC BẢNG

Bảng 4.1: Bảng thuộc tính thành phần premise 38

Bảng 4.2: Mô tả các thuộc tính của thành phần entry 41

Bảng 4.3: Kết quả thực nghiệm trên TREC 2002 khi chưa áp dụng phương pháp đề nghị 43

Bảng 4.4: Kết quả thực nghiệm trên TREC 2002 sau khi áp dụng phương pháp đề nghị 43

Bảng 4.5: Kết quả thực nghiệm trên TREC 2002 sau khi làm giàu Ontology 44

Bảng 4.6: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2002 46

Bảng 4.7: Kết quả thực nghiệm trên TREC 2007 khi chưa áp dụng phương pháp đề nghị 47

Bảng 4.8: Kết quả thực nghiệm trên TREC 2007 sau khi áp dụng phương pháp đề nghị 47

Bảng 4.9: Kết quả thực nghiệm trên TREC 2007 sau khi làm giàu Ontology 48

Bảng 4.10: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2007 49

Trang 10

CHƯƠNG CHƯƠNG 1 1 TỔNG QUAN

1.

1.11 Gi Giới ới th thiệ iệuu

Kể từ khi ra

trao đổi và tiếp cận với

của WWW càng lớn hơn Điều đó đặt ra yêu cầu là: phải làm sao để quá trình khai thác tri thức từWWW đạt được hiệu suất tối ưu Muốn vậy, một giải pháp là phải tự động hóa được quá trình đó;nói cách khác, máy móc phải có khả năng khai thác thông tin trên WWW với một độ chính xác cao

Hiện nay, đã có những công cụ phần mềm nhắm đến mục tiêu đó Nổi bật nhất có lẽ là các động

cơ tìm kiếm dựa trên từ khóa (keyword – based search engine), như động cơ tìm kiếm của Google,Yahoo, Tuy đã đạt được những thành công nhất định, nhưng các hệ thống này còn có nhữngkhuyết điểm làm cho người sử dụng chưa được hài lòng Có thể nêu ra như:

nhiều thời gian với những kết quả không thích hợp

của con người, thì các truy vấn tương tự nhau về mặt ngữ nghĩa phải dẫn đến những kết quảnhư nhau

Do công cụ tìm kiếm chủ yếu chỉ so trùng, mà chưa “hiểu” được nội dung của thông tin chứatrên WWW và nội dung của câu truy vấn, nên dẫn đến những hạn chế trên

 Như vậy, để làm tăng hiệu

máy tính “hiểu” được nội dung của thông tin: thông tin được lưu trữ trên WWW và thông tin trongcâu truy vấn của người dùng

Trang 11

Đề tài này quan tâm đến khía cạnh giúp cho máy tính hiểu được nội dung của câu truy vấn dùngngôn ngữ tự nhiên là tiếng Anh Nhìn chung, việc hướng dẫn cho máy tính xử lý 1 câu truy vấn bằng ngôn ngữ tự nhiên (bất kỳ) nhằm hiểu được ý nghĩa là khá phức tạp, có thể liệt kê ra một sốkhó khăn:

câu có thể có nhiều ngữ pháp phù hợp (mặc dù đối với con người sẽ không có nghĩa) Dẫnđến không thể chỉ dựa vào cấu trúc của câu để xác định ngữ nghĩa

đúng phải xác định đúng loại từ Lấy ví dụ: “Time flies like an arrow” “Time” và “flies” có

ít nhất 2 cách hiểu có ý nghĩa: “Time” làm danh từ và “flies” làm động từ, hay “Time” làmđộng từ và “flies” làm danh

thành phần của

thức về các mối quan hệ phù

chọn ra quan hệ phù hợp nhất

được biểu hiện ra bằng các từ ngữ biểu diễn quan hệ, vì các mối liên hệ này được con ngườingầm thỏa thuận trên một nền tảng kiến thức chung

 pháp, mà thường được dùng ở dạng thông dụng không “chuẩn” ngữ pháp

Tuy có nhiều khó khăn như đã kể trên, nhưng hiện nay các nhóm nghiên cứu về lĩnh vực webngữ nghĩa đã đạt được những tiến bộ đáng kể Và việc xây dựng một động cơ tìm kiếm theo ngữnghĩa là khả thi, có thể thành công với những câu truy vấn không quá phức tạp Vì vậy, đề tài này sẽứng dụng các thành tựu đó

ngôn ngữ tự nhiên, và trả về tài liệu chứa nội dung cần tìm

Trang 12

1.22 Mụ Mục ti c tiêu v êu và ph à phạm v ạm vii

Liên quan đến mục tiêu tạo ra một công cụ tìm kiếm dựa trên nền tảng Web ngữ nghĩa, đã cónhiều nghiên cứu được biết đến Các nghiên cứu này sử dụng nhiều hình thức khác nhau cho câutruy vấn đầu vào[

vấn

mẫu câu truy vấn được xây dựng sẵn, lưu trong hệ thống, để thực hiện truy vấn

thực hiện truy vấn

Các hình thức biễu diễn này, nếu càng gần với ngôn ngữ tự nhiên thì lại càng khó xử lý

máy tính Tuy nhiên, nếu càng gần với ngôn ngữ tự nhiên thì càng dễ tiếp cận đối với người sửdụng Hiển nhiên, người sử dụng mong muốn nhất là cho phép nhập vào một câu truy vấn dùngngôn ngữ tự nhiên

Về phương pháp biên dịch câu truy vấn ngôn ngữ tự nhiên, toát lên từ các nghiên cứu là 2 hướngtiếp cận:

dịch ra ngôn ngữ khác mà máy tính hiểu được Vì vậy phụ thuộc rất chặt vào cú pháp, bất kỳlỗi cú pháp nào cũng dẫn đến biên dịch thất bại Ngoài ra, sẽ khó khăn khi chuyển đổi, sửdụng ngôn ngữ đầu vào khác [

khi phải chuyển đổi ngôn ngữ đầu vào Ngoài ra, rút ngắn được thời gian xử lý [

Trang 13

Từ cái nhìn trên, hệ thống tìm kiếm mà đề tài này xây dựng sẽ nhận dữ

truy vấn bằng tiếng Anh, là ngôn ngữ sử dụng bởi quốc tế Hệ thống, sau khi xử lý bằng phương pháp ít phụ thuộc vào cú pháp, sẽ trả về tài liệu chứa thông tin được tìm kiếm hoặc trả về số liệuđược yêu cầu (lúc này không sử dụng chức năng tìm kiếm mà chỉ đưa ra số liệu trả lời) Đồng thời,

để giúp người dùng kiểm tra liệu cách “hiểu” câu truy vấn của hệ thống có đúng hay không, hệthống cũng vẽ ra đồ thị ý niệm tương ứng với câu truy vấn đã nhận vào

Một hệ thống như vậy nếu xây dựng mới hoàn toàn sẽ đòi hỏi rất nhiều thời gian và công sức

Vì vậy, đề tài sẽ dựa trên hệ thống tìm kiếm ngữ nghĩa cho tiếng Việt (VN-KIM Search) có sẵn

giả, đánh chỉ mục,

Hệ thống sẽ bảo đảm được khả năng xử lý những câu truy vấn tiếng Anh đơn giản, chỉ bao gồmdanh từ, động từ, từ để hỏi và giới từ Ví dụ như câu truy vấn: “What actress starred in “The Lion inWinter” ?” Đây là khả năng

Luận văn không chỉ dừng lại ở những câu truy vấn đơn giản như ví dụ trên, mà còn nhắm đếnmục tiêu trả lời được những câu truy vấn phức tạp hơn Đó là câu truy vấn có liên từ luận lý, tính từđịnh tính, tính từ định lượng, tính từ so sánh nhất, và lượng từ Lấy ví dụ như các câu truy vấn sau:

in the U.S.?” chứa tính từ so sánh nhất

““ How many films did Ingmar Bergman make? films did Ingmar Bergman make?” chứa lượng từ.” chứa lượng từ

Hiện đã có nghiên cứu của nhóm VN-KIM để biên dịch những câu truy vấn dạng này từ ngônngữ tự nhiên sang đồ thị ý niệm Luận văn này sẽ ứng dụng thành quả nghiên cứu đó

Trang 14

Hiện nay, mô-đun nhận biết thực thể của VN-KIM Search không thể dùng cho tiếng Anh Nên,

ở bước nhận biết thực thể, đề tài sẽ sử dụng công cụ sẵn có, và giả sử là quá trình này hoàn toànchính xác Đề tài cũng không giải quyết vấn đề về quan hệ 3 ngôi trong [

tới việc mở rộng, “làm mịn” Ontology, là một bài toán khác

1.3 Kết quả đạt được

Đề tài đã xây dựng được 1 hệ thống tìm kiếm dựa trên ngữ nghĩa cho tiếng Anh, với các dạngcâu truy vấn như đã

Đồng thời, mở rộng thêm một số khả năng khi xử lý những câu truy vấn dạng phức tạp Đầu tiên

là khả năng đề xuất đồ thị ý niệm khả áp dụng ngay cả khi quan hệ với tính từ trong câu truy vấnkhông có trong cơ sơ tri thức Mục đích là làm ta có thể đánh giá tính chính xác của quá trình “hiểu”câu truy vấn của hệ thống mà không bị quá lệ thuộc vào cơ sơ tri thức Ví dụ như sau:

“What is the longest dam in the U.S.?” Mặc dù quan hệ giữ “dam” và “long” không có trong

cơ sơ tri thức, nhưng ta vẫn

vẽ màu xanh lá)

Hình 1.1 Đồ thị có đề xuất quan h Hình 1.1 Đồ thị có đề xuất quan hệ không tồn tại trong cơ sở tri thức ệ không tồn tại trong cơ sở tri thức

 Ngoài ra, để truy xuất được tài liệu, thì chỉ ngừng lại ở đồ thị là chưa đủ, cần phải chuyển đồ thị

đó sang ngôn ngữ SeRQL, là ngôn ngữ dùng để truy xuất cơ sở tri thức ngữ nghĩa Luận văn này đã

đề xuất và hiện thực cách thức chuyển từ đồ

Trang 15

Luận văn cũng đề xuất và hiện thực cách xử lý câu truy vấn có chứa dạng so sánh hơn của tính

từ định lượng Các câu truy vấn có so sánh hơn với một hằng số, hoặc so sánh hơn với một thực thể,như “

the U.S.?” cũng đã được chuyển sang đồ thị ý niệm, rồi chuyển sang câu truy vấn SeRQL tươngứng

1.

1.44 Cấ Cấu tr u trúc l úc luậ uận vă n vănn

Chương 1 đã trình bày khái quát động cơ, mục đích, ý tưởng thực hiện đề tài Tiếp theo sauChương 1 là phần trình bày chi tiết về ý tưởng và phương pháp của chúng tôi để đạt được mục đích

đã đề ra

Chương 2 trình bày những nghiêu cứu và hệ thống liên quan đến việc chuyển đổi câu truy vấn

tiếng Anh sang đồ thị ý niệm Mục 2.1 trình bày phương pháp rút trích quan hệ trong câu truy vấn

Sơ lược giới thiệu về đồ thị ý n

Chương 3 trình bày cách tiếp cận vấn

trình bày tại Mục 3.1, giải quyết cho

quyết cho

câu truy vấn có chứa liên từ luận lý

Chương 4 trình bày phương pháp biên dịch câu truy vấn tiếng Anh sang đồ thị ý niệm Mục 4.1

sẽ mô tả các bước trong giải thuật xây dựng đồ thị ý niệm cho câu truy vấn Mục 4.2 trình bày chitiết về tập luật ánh xạ Những kết quả đạt được của đề tài sẽ được tổng kết tại Mục 4.3

Chương 5 trình bày chi tiết ph

Chương 6 đưa ra kết luận và đề nghị hướng phát triển cho tương lai Phần phụ lục giới thiệu tậpcâu hỏi mẫu TREC 2002, TREC 2007 cùng các đồ thị ý niệm đã được sinh đúng cho những câu truyvấn rút ra từ hai tập câu hỏi mẫu này

Trang 16

CHƯƠNG 2 KIẾN THỨC NỀN TẢNG

2.

2.11 Rú Rút tr t tríc ích q h qua uan hệ n hệ

Rút trích quan hệ là xác định mối quan hệ ngữ nghĩa giữa cặp các thành phần không có cấu trúchay bán cấu trúc trong văn bản ngôn ngữ tự nhiên Rút trích quan hệ dựa vào Ontology liên quan tớihai công việc chính: xác định mối quan hệ giữa hai thành phần đã biết chủ yếu dựa trên miềnOntology và khám phá các mối quan hệ mới giữa hai ý niệm không có trên miền Ontology Ví dụtrong câu “

quan hệ theo kiểu của ACE (Automatic Content Extraction) là EMPLOYMENT.exec giữa hai thựcthể có tên

ORGANIZATION.Commercial Có nhiều kỹ thuật rút trích quan hệ, dựa trên luật (rule-based), dựatrên đặc điểm (feature-based) và phương pháp kernel (kernel-based) dưới đây trình bày một sốnghiên cứu về rút trích quan hệ:

hệ khác nhau Hệ thống [8] rút trích quan hệ từ một quá trình phân tích cú pháp, do đó kết quảcủa nó phụ thuộc hoàn toàn vào cây cú pháp

như đặc điểm từ vựng, đặc

hiệu quả cho việc rút trích quan hệ Tuy nhiên, vấn đề gặp

tả thủ công và cấu trúc thông tin trong cây cú pháp không được bảo toàn trong cây đặc điểm(Là cây biểu diễn các đường nối không kết thúc giữa hai thực thể trong cây cú pháp)

khai thác đặc điểm cấu trúc Hệ thống [19] xây dựng một quan hệ kernel trên cây cú pháp cho

Trang 17

việc rút trích quan hệ Kernel so trùng các node từ gốc cho tới lá một cách đệ quy theo từng lớp

từ trên xuống

Tuy nhiên các nghiên cứu trên chỉ chú trọng vào rút trích quan hệ giữa các thực thể có tên

 biết Để xây dựng được đồ thị ý niệm, ngoài việc rút trích quan hệ giữa các thực thể có tên

rút trích quan hệ giữa các thực thể không tên với nhau, hay các quan hệ giữa các thực thể có tên

thực thể không tên

2.2 2.2 Đồ thị ý ni Đồ thị ý niệm (Co ệm (Conce nceptu ptual Gra al Graph) ph)

2.2.1 2.2.1 Sơ lượ Sơ lược về đồ c về đồ thị ý n thị ý niệm iệm

Đồ thị ý niệm là một hình thức biểu diễn logic (logical formalism) vừa có tính trực quan, vừa có

sự chính xác Về hình thức, đây là một đồ thị tạo ra bởi các đỉnh và các cạnh (có thể có hướng hoặckhông có hướng) Nhờ sử dụng cách biểu diễn đồ họa trực quan đó, đồ thị cho phép con ngườinhanh chóng có được một cái nhìn tổng quan, dễ nắm bắt ý nghĩa Về nội dung, đồ thị ý niệm có thểđược ánh xạ trực tiếp sang logic vị từ (predicate logic) Nhờ đó, có thể biểu diễn ngữ nghĩa một cáchchính xác, giữ được tính chính xác về mặt logic Với những đặc điểm đó, đồ thị ý niệm vừa dễ tiếpcận đối với con người, vừa khả xử lý đối với máy tính

Và đồ thị ý niệm đã được dùng như là một hình thức biểu diễn tri thức, là một ngôn ngữ trunggian cho việc chuyển đổi qua lại giữa hình thức biểu diễn hướng máy tính và ngôn ngữ tự nhiên

“Tim Berners Lee, người phát minh của WWW, kết luận rằng các CG có thể dễ dàng tích hợp vớiSemantic Web

“Trong bài báo đầu tiên công bố

như sau:

vậy

Trang 18

 Đồ thị ý niệm là một đồ thị hữu hạn, liên thông, không có hướng, lưỡng phân với những nút thuộc một loại được gọi là ý niệm (hoặc khái niệm – concepts) và những nút thuộc loại còn lại được gọi là quan hệ khái niệm (conceptual relations).

 Như vậy, đồ thị ý niệm thuộc loại đồ thị phân đôi, và bao gồm 2 loại đỉnh: các

các

ngược lại

Đỉnh khái niệm được biểu diễn bằng hình chữ nhật có nhãn là

chiếu

liên kết với nhiều đỉnh khái niệm bằng các cạnh có hướng Để ngắn gọn, chúng ta sẽ gọi đỉnh quan

hệ, đỉnh khái niệm lần lượt là quan hệ, khái niệm

Hình trên là đồ thị ý niệm cho câu “

CS 

tạo

Trong định dạng văn bản, các khái niệm và các quan hệ có thể được biết trong dấu ngoặc vuông

và ngoặc tròn như sau:

[STUDENT:

Trong ví dụ này, [STUDENT:

STUDENT, SUBJECT và FIELD trở thành kiểu khái niệm, trong khi đó (STUDY) và (IN) là cácquan hệ với STUDY và IN là các kiểu quan hệ Các tham khảo

Trang 19

Đồ thị ý niệm được sử dụng để kiểm tra tính chính xác của quá trình dịch câu truy vấn trong đềtài, bên cạnh các tham chiếu xác định và tham chiếu tổng quát, được bổ sung thêm

vấn

vấn là một đồ thị ý niệm mà các tham chiếu có thể là tham chiếu xác định, tham chiếu tổng quáthoặc là tham chiếu nghi vấn được biểu diễn bằng dấu “?”

2.2 2.2.2 2 Đồ thị ý n Đồ thị ý niệm m iệm mở rộng ở rộng

Đồ thị ý niệm mở rộng [

 biệt, gọi là

chiếu đến thực thể của nó là một đồ thị ý niệm khác Tức là, bên trong đỉnh truy vấn con là nội dungmột đồ thị ý niệm truy vấn tri thức

Đỉnh truy vấn con được biểu diễn bằng hình chữ nhật tròn góc (Ta nghĩ chỗ này mình nên nói: trongtài liệu (hay luận văn) này, đỉnh truy vấn con được biểu diễn bằng hình chữ nhật vát góc, vì các ví

dụ sau này đâu phải tròn góc) Ta xét một ví dụ minh họa: ta có câu truy vấn lồng nhau như sau:

 Khoa” Câu truy vấn này sẽ được biểu diễn như sau:

Trong đề tài [

 pháp đề xuất sẽ được bàn đến ở những phần tiếp theo

Trang 20

2.3 Tìm Tìm thự thực th c thể và ể vài tài i tài liệ liệuu

Đề tài này biến đổi từ

cơ sở tri thức Thực thể tìm được

2.3.1

2.3.1 Câu Câu truy truy vấn vấn SeRQL SeRQL [tham khảo [tham khảo

http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#sectio n-numerical-comparisons]

SeRQL (Sesame RDF Query Language) là một ngôn

SQL được sử dụng làm ngôn ngữ truy vấn trên các cơ sở dữ liệu quan hệ, SeRQL được sử dụng trêncác cơ sở dữ liệu viết bằng ngôn ngữ RDF

Trong SeRQL, có 2 loại câu truy vấn: một loại sẽ trả về một bảng các giá trị (một tập các ràng buộc (binding) giữa biến với giá

đồ thị RDF (RDF graph) Trong đề tài này chỉ sử dụng loại thứ nhất, gọi là

Đối với 1 câu truy vấn thuộc loại

SELECT, FROM, FROM CONTEXT, WHERE, ORDER BY, LIMIT, OFFSET và USING NAMESPACE Chỉ có mệnh đề SELECT là bắt buộc, các mệnh đề còn lại có thể không có mặttrong câu truy vấn Các mệnh đề SELECT, FROM, WHERE và ORDER BY là những mệnh đề sẽđược sử dụng để truy vấn trong đề tài này

Mệnh đề SELECT ở SeRQL cũng tương tự như trong SQL, sẽ chỉ ra các biến mà ta cần trả vềgiá trị Nếu truy vấn thành công, tập kết quả trả về sẽ là các giá trị được ràng buộc với các biến liệt

kê trong mệnh đề SELECT Ví dụ [

SELECT O, S FROM {S} rdfs:label {O}

Mệnh đề FROM ở SeRQL cũng tương tự như trong SQL, nhưng, thay vì chỉ ra các bảng (table)

có chứa dữ liệu, người sẽ phải chỉ ra các biểu thức đường đi (path expression) có chứa dữ liệu trong

cơ sở tri thức RDF Trong ví dụ

Trang 21

Mệnh đề WHERE, cũng tương tư như SQL, là nơi để người dùng đặc tả các ràng buộc mà các biến phải thỏa mãn Nếu có nhiều ràng buộc, chúng có thể được liên kết bằng các từ khóa AND,

OR, NOT, là các toán tử của đại số Bool.Trong mệnh đề WHERE, ta cũng có thể sử dụng câu truyvấn lòng nhau (nested query) và sử dụng từ khóa ALL để biểu diễn ràng buộc đối với một tập giátrị Ví dụ [

ection-numerical-comparisons]:

SELECT highestValue FROM {node} ex:value {highestValue}

WHERE highestValue >= ALL ( SELECT value

FROM {} ex:value {value}

)

Để sắp xếp kết quả trả về theo một thứ tự nhất định, người dùng có thể sử dụng mệnh đềORDER BY, kết hợp các từ khóa DESC (giảm dần) và ASC (tăng dần – mặc định) Có thể kết hợpsắp xếp trên nhiều biến trả về, cách nhau bởi dấu “,” Ví dụ [

SELECT Countr, Population FROM {Country} ex:population {Population}

ORDER BY Population DESC

 Ngoài ra, SeRQL cũng hỗ

giao và loại trừ các tập kết quả Ví dụ [

SELECT title FROM {book} dc10:title {title}

UNION

SELECT title FROM {book} dc11:title {title}

Đề tài sẽ sử dụng các toán tử tập hợp này vào việc giải quyết các câu truy vấn có liên từ luận lý

2.3 2.3.2 2 Sem Semant antic Lucen ic Lucenee

Lucene: là một thư viện mã nguồn mở viết bằng Java, dùng để phân tích, hỗ trợ đánh chỉ mục vàtìm kiếm thông tin với hiệu suất cao Lucene được phát triển đầu tiên bởi Doug Cutting, và ra mắt

Trang 22

vào tháng 3/2000 Hiện tại Lucene đang được Apache phát triển và duy trì Lucene không phải mộtứng dụng, mà chỉ là một công cụ đặc tả API cần thiết cho một search engine Ngoài phiên bản banđầu bằng Java, hiện nay còn có Lucene cho các ngôn ngữ khác: NET, C++, Perl…

VN-KIM Semantic Lucene (S-Lucene): là hiện thực mở rộng

nghĩa VN-KIM S-Lucene là một thư viện

trong việc quản lý, truy hồi các thực thể hay các tài liệu đã được chú giải

Khác biệt chủ yếu giữa Lucene và S-Lucene đó là Lucene đánh chỉ mục và tìm kiếm trên từkhóa, trong khi đó S-Lucene mở rộng cho đánh chỉ mục và tìm kiếm theo thực thể

Đầu vào của Lucene là các bộ ba (name/class/ID) nhận được từ quá trình tìm kiếm thực thể Lucene trả về các tài liệu tương ứng với các bộ ba đó

Trang 23

S-CHƯƠNG 3

PHÂN TÍCH VẤN ĐỀ VÀ PHƯƠNG PHÁP GIẢI QUYẾT

3.1 3.1 Chuyển Chuyển đổi câu t đổi câu truy vấn v ruy vấn với từ đ ới từ để hỏi “Ho ể hỏi “How many” w many”

Về cơ bản, chúng tôi thấy rằng việc biểu diễn các câu truy vấn hỏi về số lượng (Có từ hỏi là

““ How many How many”) bằng đồ thị ý niệm đòi hỏi phải giải quyết được hai vấn đề sau:”) bằng đồ thị ý niệm đòi hỏi phải giải quyết được hai vấn đề sau:

Thật vậy, lấy trường hợp của ví dụ trong Hình 2.2, nếu như PERSON có thêm thuộc tính vềsalary, thì với biểu diễn như vậy ta không thể biết được câu truy vấn muốn hỏi độ trung bình vềtuổi, hay độ trung bình về lương

Trong giải pháp đề nghị này, chúng tôi sẽ sử dụng đồ thị lồng nhau (

chúng tôi sẽ sử dụng đỉnh truy vấn con để giải quyết vấn đề về biểu diễn phạm vi mà câu truy vấnmuốn bao phủ, và sử dụng liên kết

đề cập

Vớ

 Department?” sẽ được biểu diễn như Hình 3.1

Trang 24

Hình 3.0.1: Ví dụ về biểu diễn Hình 3.0.1: Ví dụ về biểu diễn câu truy vấn "How many" câu truy vấn "How many".

Để ngắn gọn, chúng tôi sẽ định nghĩa một đường liên kết mới thay thế đường liên kết đồng thamchiếu cho việc biểu diễn đối tượng mà câu truy vấn muốn đề cập Trong tài liệu này chúng tôi đềxuất biểu diễn bằng đường liên kết nét đôi Biểu diễn dạng ngắn gọn cho ví dụ trên như sau:

Hình 3.0.2: Ví dụ về biểu diễn Hình 3.0.2: Ví dụ về biểu diễn câu truy vấn "How many" ở dạng rút gọn câu truy vấn "How many" ở dạng rút gọn.

Sau đây là giải pháp đề xuất cho việc giải quyết mẫu câu truy vấn có từ để

Mẫu câu truy vấn này sẽ có dạng sau, với RW là từ quan hệ, S là chủ thể, O là khách thể:

H

Đầu tiên, chúng ta sẽ xây dựng đỉnh truy vấn con để biểu diễn câu S RW O Sau đó, chúng tađịnh nghĩa quan hệ COUNT gắn với đỉnh truy vấn con vừa tạo Một đường liên kết nét đôi sẽ đượcnối từ quan hệ COUNT tới đỉnh khái niệm S trong đỉnh truy vấn con Biểu diễn tổng quát cho mẫutruy vấn “

Hình 3.0.3: Ví dụ về biểu diễn Hình 3.0.3: Ví dụ về biểu diễn tổng quát cho câu truy vấn "How many" tổng quát cho câu truy vấn "How many".

Trang 25

3.2 3.2 Chu Chuyển đ yển đổi câu t ổi câu truy v ruy vấn có tí ấn có tính từ  nh từ 

Trong [16] đã đưa ra giải pháp sau để giải quyết vấn đề biểu diễn tính từ của thực thể Ví dụ, đểtrả lời câu truy vấn “

năng thể hiện thuộc tính

tiếng

nổi tiếng

range lớp là STRING Cách này gây ra vấn đề của việc so trùng các giá trị

Ở giải pháp thứ nhất nêu

định nghĩa Đặc biệt một vấn đề nảy sinh là việc đưa ra các thang đo để có thể định lượng được cáctính từ Điều này chỉ có thể giải quyết được trong một số trường hợp đối với các tính từ như “

100m Tuy nhiên có những tính từ mà con người khó có thể định lượng được như là “

 Ngoài ra, các tác giả trong [10], [11] đã nêu ra rằng các ý nghĩa của các tính từ còn phụ thuộcvào ngữ cảnh Ví dụ khi nói: “

cao trong ngữ cảnh so sánh với các vận động viên thể dục, còn đối với việc so sánh với người bìnhthường thì điều này chưa hẳn đã đúng Từ nhận xét này, các tác giả trong [10], [11] đã đề xuất giải pháp khái niệm hóa các tính từ bằng phương pháp động Các tác giả đề nghị xây dựng các

từ đồng nghĩa, ví dụ như là WordNet Tuy nhiên, với giải pháp này, ý nghĩa của các tính từ chỉ cóthể hiểu bởi con người, còn máy tính không thể suy luận được từ việc biểu diễn này Ví dụ với cách

Trang 26

 biểu diễn như vậy đối với những câu hỏi có dạng như: “

Từ việc phân tích trên ta thấy mỗi giải pháp đều có ưu, nhược điểm và khó có thể trả lời được

rằng giải pháp nào là tốt hơn giải pháp nào Do đó trong tài liệu này, chúng tôi đề xuất cả hai giải pháp để thể hiện các tính từ chỉ tính chất, thuộc tính của thực thể mà sẽ được trình bày ngay dướiđây

Mẫu câu chứa các

ADJ là tính từ, O là khách thể:

Hoặc

Phương pháp đề xuất cho mẫu câu truy vấn dạng này theo “

quan hệ HASPROPERTY gắn với thực thể ngay sau ADJ và range lớp là STRING Các mẫu truyvấn ở trên sẽ được biểu diễn thành:

[String: *] ← (HASPROPERTY) ← S → (RW)

Hoặc

S → (RW) → O

Phương pháp đề xuất cho mẫu câu truy vấn dạng này theo “

ta sẽ định nghĩa lớp con của thực thể ngay sau ADJ mà có tính chất thỏa ADJ theo một độ đo nào

đó Các mẫu truy vấn ở trên sẽ được biểu diễn thành:

S ← (SubclassOf) ←Sub_S → (RW) → OHoặc

S → (RW) →

Trong đề tài này, phương pháp tiếp cận đã sử dụng cả hai giải pháp nêu trên, trong đó “

sử dụng cho việc biểu diễn các tính từ định tính (

Trang 27

Do đó, câu truy vấn với tính từ định tính “

được biển diễn như Hình 3.4 với lớp FAMOUS_MODEL là lớp con của lớp MODEL trongOntology

Hình 3.4: Ví dụ về biểu Hình 3.4: Ví dụ về biểu diễn tính từ định tính diễn tính từ định tính.

Câu truy vấn với tính từ định lượng “

Hình 3.5

Hình 3.5: Ví dụ về biểu Hình 3.5: Ví dụ về biểu diễn tính từ định lượng diễn tính từ định lượng.

3.3 3.3 Chuyển Chuyển đổi câu t đổi câu truy vấn c ruy vấn có tính từ ó tính từ so sánh so sánh nhất nhất

Đề tài sử dụng đồng thời hai phương pháp để biểu diễn tính từ Việc chọn cách biểu diễn nàotrong từng trường hợp cụ thể tùy thuộc vào tính từ so sánh nhất cần được biểu diễn thuộc về tính từđịnh tính hay định lượng

Đối với tính từ so sánh nhất thuộc loại định lượng (Ví dụ:

câu truy vấn loại này cũng tương tự như hướng giải quyết cho loại truy vấn “

thay quan hệ COUNT thành quan hệ MIN, MAX tương ứng và đường liên kết sẽ chỉ tới tính từ địnhlượng mà câu truy vấn cần đề cập

Chúng tôi đề xuất giải pháp như sau: Mẫu câu truy vấn tổng quát cho dạng này sẽ có các trườnghợp như bên dưới, v

A

Hoặc

Trang 28

Đầu tiên, ta sẽ coi như không có mặt của ADJ_EST và biểu diễn câu S RW O thành một đỉnhtruy vấn con Sau đó trong đỉnh truy vấn con vừa được tạo này, ta sẽ biểu diễn tính từ ở dạngnguyên mẫu của ADJ_EST bằng phương pháp đã nêu trong Mục 3.1.2 của Chương 3.

 Nhiệm vụ còn lại là định nghĩa quan hệ MIN, MAX chỉ tới đỉnh truy vấn con và một đường liênkết nét đôi sẽ được nố

Ví dụ câu truy vấn “

Hình 3.6: Ví dụ về biểu diễn Hình 3.6: Ví dụ về biểu diễn câu truy vấn có tính từ so sánh câu truy vấn có tính từ so sánh nhất định lượng nhất định lượng.

Đối với tính từ so sánh nhất thuộc loại định tính, chúng tôi giải quyết tương tự như cho trườnghợp biểu diễn tính từ định lượng đã trình bày ở Mục 3.2, Chương 3 Theo đó, với câu truy vấn

MOST_FAMOUS_MODEL là lớp con của lớp MODEL

Hình 3.7: Ví dụ về biểu diễn Hình 3.7: Ví dụ về biểu diễn câu truy vấn có tính từ so sánh câu truy vấn có tính từ so sánh nhất định tính nhất định tính.

3.4 3.4 Chu Chuyển đ yển đổi câu t ổi câu truy v ruy vấn có tí ấn có tính từ  nh từ 

Luận văn áp dụng phương pháp biểu diễn tính từ của thực thể được đề nghị trong [tham khảoHA], với một chút điều chỉnh để có thể linh động sử dụng dạng biểu diễn mà Ontology đã hỗtrợ

Trang 29

   ADJ S RW O

Hoặc

Hai giải pháp được đề xuất trong trong [tham khảo HA] là:

- Cách 1: Định nghĩa lớp con Ứng với mỗi tính từ ta sẽ định nghĩa lớp con của thực thể ngaysau ADJ mà có tính chất thỏa ADJ theo một độ đo nào đó Các mẫu truy vấn ở trên sẽ được biểudiễn thành:

Hoặc

S → (RW) →

- Cách 2: Định nghĩa thêm quan hệ Định nghĩa kiểu quan hệ HASPROPERTY gắn với thực thểngay sau ADJ và range lớp là

Hoặc

S → (RW) →

  Tuy nhiên, để truy vấn được tài liệu, hoặc tìm được số liệu trả lời, việc biểu diễn các câu truyvấn có tính từ sang đồ thị ý niệm phải phụ thuộc vào cách ontology thể hiện thuộc tính của thựcthể Vì đồ thị ý niệm sẽ được ánh xạ trực tiếp sang ngôn ngữ SeRQL để truy xuất cơ sở tri thứcđược định nghĩa trên ontology Do đó, khi chọn cách biểu diễn cho tính từ, đề tài này xem xétthuộc tính đó được ontology thể hiện dưới dạng nào để xây dựng đồ thị ý niệm tương ứng

Lấy ví dụ với tính từ định tính: trong ontology đã có lớp MODEL bao gồm các thực thể là ngườimẫu, để thể hiện thuộc tính nổi tiếng (FAMOUS) của người mẫu, Ontology có thể định nghĩathêm lớp FAMOUS_MODEL là lớp con của lớp MODEL, chứa các thực thể là người mẫu đượcxem là nổi tiếng Trong trường hợp này, đề tài sẽ chọn

[MODEL: *]

Trang 30

Cũng có thể với lớp MODEL như trên, nhưng thuộc tính FAMOUS có thể được định nghĩa làmột quan hệ HAS_FAME_PROPERTY với miền chủ ngữ (domain) là lớp MODEL, còn tầmvực vị ngữ (range) là lớp STRING với các giá trị “Yes” hoặc “No” để cho biết các thực thểngười mẫu là nổi tiếng hay không Trong trường hợp này, đề tài sẽ chọn

thị ý niệm:

[String: Yes] ← (HAS_FAME_PROPERTY) ← [MODEL: ?]

Khi Ontology chưa định nghĩa bất cứ cách nào trong 2 cách trên, thì đề tài sẽ dùng cách biểudiễn 1, sinh ra lớp con giả, cho tính từ định tính và cách biểu diễn 2, sinh ra quan hệ giả, chotính từ định lượng như được đề nghị trong [tham khảo HA]

3.5 3.5 Chuyển Chuyển đổi câu t đổi câu truy vấn c ruy vấn có tính từ ó tính từ so sánh so sánh nhất nhất

3.5.1 3.5.1 Trường h Trường hợp tính t ợp tính từ định t ừ định tính ính 3.5.2

3.5.2 Trường h Trường hợp tính t ợp tính từ định l ừ định lượng [ ượng [tham khảo HA tham khảo HA ]]

Với câu truy vấn có tính từ định lượng so sánh nhất (Ví dụ:

tương tự như đã trình bày ở 3.3 (cho loại truy vấn “

trong quan hệ ứng với tính từ định lượng mà câu truy vấn cần đề cập

Cụ thể như sau: xét dạng tổng quát cho câu truy vấn loại này như bên dưới, với “ADJ_EST” đạidiện cho cụm tính từ so sánh nhất (

A

Hoặc

Đầu tiên, ta sẽ tìm dạng nguyên mẫu “ADJ” của “ADJ_EST” và biểu diễn câu truy vấn theo

Trang 31

Sau đó, ta xác định xem so sánh nhất của tính từ trong truy vấn là tương ứng với lấy “lượng” lớnnhất hay lấy “lượng” nhỏ nhất Ví dụ: “

lấy lượng nhỏ nhất Nếu là trường hợp đầu tiên thì quan hệ là “

 Nhiệm vụ còn lại là định nghĩa quan hệ “

liên kết nét đôi sẽ được nối từ quan hệ này tới lớp “

Ví dụ câu truy vấn “

3.6 3.6 Chuyển Chuyển đổi câu tru đổi câu truy vấn có tính t y vấn có tính từ định lư ừ định lượng so sánh h ợng so sánh hơn ơn

Đề tài này mở rộng biểu diễn thêm một dạng nữa của tính từ định lượng, đó là dạng so sánh hơn.Trong phần này sẽ đề xuất cách biểu diễn cho 2 dạng so sánh hơn: so sánh hơn với một hằng số, và

so sánh hơn với một thực thể có tên

Đối với dạng so sánh hơn với một hằng số, mẫu câu tổng quát như sau, với “ADJ_ER” đại diệncho cụm tính từ so sánh hơn (

Đầu tiên, ta sẽ biểu diễn mối quan hệ giữa “S” và “ADJ_ER” như 3.4.2 Phần “CONSTANTS”

sẽ được nhận biết như

xác định được quan

tương ứng với “isGreaterThan”, còn “lower” sẽ tướng

Trang 32

quan hệ này vào giữa lớp “String” trong mối quan hệ biểu diễn tính từ và hằng số Biểu diễn códạng như sau:

S → (has

Đối với dạng so sánh hơn với thực thể có tên, mẫu câu tổng quát như sau:

Để biểu diễn dạng này, ta sẽ tìm lần lượt 2 mối quan hệ thực thể - tính từ, đó là S – ADJ và O – ADJ Rồi biểu diễn 2 mối quan hệ này như ở 3.4.2 Sau đó, cũng xác định mối quan hệ so sánh là

“isGreaterThan” hay “isSmallerThan” tương tự như trên Cuối cùng là

quan hệ này Biểu diễn có dạng tổng quát sau:

Trang 33

CHƯƠNG 4

THIẾT KẾ

4.1 4.1 Các Các bướ bước củ c của gi a giải t ải thuậ huậtt

Kết quả nghiên cứu của tác giả [18] đã đưa ra một phương pháp dịch câu truy vấn sang đồ thị ýniệm không dựa vào phân tích cú pháp của

giữa chúng Phương pháp này có các ưu điểm sau:

một đoạn câu Phương pháp này cũng có thể xây dựng được đồ thị ý niệm cho các câu truy vấnkhông đúng cú pháp

thực thể thuộc lớp SON, chúng ta gọi là thực thể không tên, và trên Ontology tồn tại quan hệ giữahai thực thể này là <PERSON, HASSON, SON>

Trong đề tài này, phần hiện thực chương trình đã kế thừa lại hạt nhân xử lý từ kết quả nghiêncứu của tác giả [18], đồng thời hiệu chỉnh và giải quyết thêm cho những truy vấn hỏi về số lượng,những truy vấn có chứa tính từ, tính từ so sánh nhất và liên từ luận lý Một lược đồ tổng quát đượctrình bày tại Hình 4.1 với những bổ sung như sau:

Trang 34

Để giải quyết truy vấn hỏi

12 (

Để giải quyết truy vấn có chứa tính từ và tính từ so sánh nhất, phương pháp tiếp cận đã thêmBước 4 (

Bước 4 ( Nhận diện tính từ  Nhận diện tính từ ) và Bước 11 () và Bước 11 ( Xác định quan hệ giữa tính từ và thực thể  Xác định quan hệ giữa tính từ và thực thể ), đồng thời hiệu), đồng thời hiệuchỉnh Bước 12 (

Để giải quyết truy vấn có chứa liên từ luận lý, phương pháp tiếp cận đã thêm Bước 1 (

Trang 35

Tiếp theo đây, chúng ta sẽ đi vào chi tiết từng bước của giải thuật.

4.1.1 4.1.1 Phân Phân tách tách câu tr câu truy vấn uy vấn

Bước này được sử dụng nhằm phân tách câu truy vấn có chứa liên từ luận lý AND, OR, NOTthành các câu truy vấn nguyên tử (là truy vấn mà không có chứa liên từ luận lý trong câu) Nhưchúng tôi đã phân tích tại Mục 3.1.4, Chương 3, những câu truy vấn có liên từ luận lý mà ta đangxem xét là những câu truy vấn có dạng cấu trúc song song Quá trình phân tách sẽ sử dụng liên từluận lý AND, OR, NOT làm từ phân tách Từ kết quả của bước phân tách này, ta sẽ được một tậpcác câu truy vấn nguyên tử

4.1.2 4.1.2 Nhận b Nhận biết th iết thực thể ực thể có tên có tên

Đề tài sử dụng GATE để nhận diện thực thể có tên

có tên

một lớp xác định, có thông tin về thuộc tính và quan hệ của chúng với các thực thể khác Ví dụ trênPROTON,

thực thể có tên

Quá trình chú thích ngữ nghĩa bằng GATE cho ta kết quả là một tập các thực thể có tên, với cácthông tin về lớp ID của thực thể, lớp của thực thể và các thuộc tính cũng như các mối quan hệ củathực thể Các thực thể có tên được ký hiệu là IE

4.1.3 4.1.3 Nhận bi Nhận biết thực th ết thực thể khôn ể không tên g tên

Để xây dựng được đồ thị ý niệm, ngoài việc nhận diện các thực thể có tên, các thực thể khôngtên cũng phải được nhận diện một cách đầy đủ và chính xác Các thực thể không tên là các thực thểkhông xác định và không tồn tại trên Ontology, tuy nhiê

một lớp xác định nào đó trong Ontology, ví dụ các từ “

thực thể không tên, và trên PROTON,

 biểu diễn cho các thực thể không tên này

Công cụ ANNIE trong GATE có thể thực hiện chính xác việc nhận dạng các thực thể không tên.ANNIE giúp ta tất cả các bước trong quá trình tìm kiếm, công việc của chúng ta là xây dựng một

Trang 36

danh sách tên các lớp trong Ontology và lưu vào một tập tin; sau đó, ta sẽ định nghĩa tên tập tin nàyvào tập tin chỉ mục có tên là

ANNIE cho ta tập các thực thể không tên, và thông tin về lớp của các thực thể không tên đó.Các thực thể không tên được ký hiệu UE

4.1 4.1.4 4 Nhậ Nhận biế n biết tính t t tính từ  ừ 

Bước này nhận biết các tính từ trong câu truy vấn Các tính từ được chia làm 3 loại:

• Tính từ định lượng:Tính từ định lượng: tall tall ,, hight hight , …

Việc nhận diện tính từ cũng được thực hiện bằng công cụ ANNIE của GATE, điểm khác biệt làchúng ta cần xây dựng danh sách (lập từ điển) các tính từ định lượng, danh sách các tính từ địnhtính và danh sách các tính từ so sánh nhất và ánh xạ chúng vào Gazetteer

4.1.5 4.1.5 Nhận Nhận biết t biết từ qu ừ quan hệ an hệ

Các từ quan hệ được xem là chìa khóa để xác định mối quan hệ giữa các thực thể trong câu truyvấn Các từ quan hệ là các giới từ, động từ như:

Tương tự như nhận diện các thực thể không tên, việc nhận diện từ quan hệ cũng được thực hiện bằng công cụ ANNIE của GATE, điểm khác biệt là chúng ta cần xây dựng danh sách các từ quan hệ

và ánh xạ chúng vào Gazetteer Kết quả nhận biết từ quan hệ là tập các từ quan hệ có trong câu truyvấn Các từ quan hệ được ký hiệu là RW

4.1.6 4.1.6 Xác đị Xác định lớp nh lớp của th của thực thể ực thể

Trong các câu hỏi bắt đầu bằng

diễn cho một thực thể không tên và chưa xác định được lớp Nhiệm vụ của bước này là xác địnhchính xác lớp thực thể cho các từ để hỏi nêu trên

Trang 37

Đề tài đề xuất phương pháp xác định lớp cho thực thể

chính là lớp của thực thể không tên đó Ví dụ trong câu “

 from?

COUNTRY, do đó lớp của

định bởi thực thể có

Đối với các câu hỏi bắt đầu bằng

PERSON hoặc lớp ORGANIZATION Bước này xác định lớp của

Ta xét câu truy vấn “

thể có tên

Quá trình gom thực thể được thực hiện dựa vào heuristic Hai thực thể trong câu truy vấn chỉđược gom lại khi chúng thỏa mãn đồng thời các đặc điểm sau:

Ontology

• Giữa hai thực thể là dấu phẩy hoặc các từ quan hệ đặc biệt: “Giữa hai thực thể là dấu phẩy hoặc các từ quan hệ đặc biệt: “isis”, “”, “areare”, “”, “waswas”, “”, “werewere”.”

Trang 38

4.1.8 4.1.8 Xác đị Xác định qu nh quan hệ an hệ ẩn ẩn

Một số thực thể trong câu truy vấn đứng liền kề nhau nhưng không xuất hiện từ quan hệ nào ở giữa chúng Trong câu “

CITY và thực thể

giữa chúng không xuất hiện từ quan hệ

thể đứng liền kề nhau hoặc cách nhau bởi dấu phẩy Việc xác định từ quan hệ

thực thể và loại quan hệ giữa hai lớp đó trên Ontology Tuy nhiên trên Ontology, giữa hai lớp có thểtồn tại nhiều loại quan hệ Đề tài sắp xếp các loại quan hệ dựa trên mức độ chi tiết về lớp của loạiquan hệ Quá trì

liệt kê tất cả quan hệ có thể có giữa hai thực thể đó trong Ontology và chọn ra quan hệ chi tiết nhất

Ví dụ trong câu truy vấn trên, giữa hai lớp CITY và lớp PROVINCE có thể tồn tại các loại quan hệPARTOF, LOCATEDIN và SUBREGIONOF Trên Ontology PROTON, các loại quan hệ này đượcđịnh nghĩa như sau:

Tương ứng trên Ontology PROTON, lớp LOCATION là lớp con của lớp ENTITY Do đó quan

hệ SUBREGIONOF là quan giữa hai lớp chi tiết nhất nên quan hệ này được chọn

4.1.9 4.1.9 Xác định l Xác định loại quan h oại quan hệ giữa các th ệ giữa các thực thể ực thể

Đây là bước mà các cặp thực thể sẽ được liên kết với nhau bằng từ quan hệ, được gọi là một bộ

 ba truy vấn <thực thể, từ quan hệ, thực thể>

Xem xét câu truy vấn “

thực thể là

Trang 39

thực thể

nằm ở giữa, nằm ở sau hoặc nằm ở trước hai thực thể Khi xem xét trên tập mẫu, từ quan hệ xuấthiện nhiều nhất là ở giữa hai thực thể Do đó, để hình thành nên các bộ ba truy vấn <thực thể, từquan hệ, thực thể>, độ ưu tiên sẽ

nhất là từ quan hệ nằm giữa hai thực thể, kế tiếp là từ quan hệ nằm sau hai thực thể và cuối cùng là

từ quan hệ

xác định kiểu quan hệ tương ứng có trong Ontology

Dựa vào các phân tích trên, đề tài đưa ra giải thuật xác định kiểu quan hệ giữa hai thực thể trongcâu truy vấn như sau (Hình 4.2):

Hình 4.0.5: Xác định loại quan hệ giữa hai thực thể ee i  và ee  j 

hệ nào khi kết hợp với

ngược lại qua Bước 2

được kiểu quan hệ giữa

Bằng giải thuật trên, chúng ta xác định được kiểu quan hệ giữa hai thực thể

thể

tự cho tất cả các cặp thực thể trong câu truy vấn Các loại quan hệ tìm được sẽ được thêm vào danhsách quan hệ RELATION

Việc xác định kiểu quan hệ

thể> ta sẽ ánh xạ thành <thực thể, kiểu quan hệ, thực thể> Việc ánh xạ này được thực hiện qua giải

Trang 40

Chi tiết cho lược đồ tại Hình 4.3 được diễn dịch như sau:

quan hệ RW Ví dụ từ quan hệ

HASSON, HASCAPITAL, …}

Ngày đăng: 09/08/2020, 17:02

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[[1100]] S Sttef efffen S en Sttaaaabb, Ud , Udo Ha o Hahhnn:: Conceptualizing adjectives Conceptualizing adjectives. In: Proceedings of the 21 . In: Proceedings of the 21 st st Annual German Conference. (1997) Sách, tạp chí
Tiêu đề: Conceptualizing adjectives
Tác giả: S Sttef efffen S en Sttaaaabb, Ud, Udo Ha o Hahhnn
Nhà XB: Proceedings of the 21 st Annual German Conference
Năm: 1997
[16] 6] Tr Tru H. C u H. Cao ao, Tr , Truo uong D ng D. Ca . Cao, T o, Tha hang L ng L. Tr . Tran an:: A robust Ontology-Based Method for   A robust Ontology-Based Method for  Translating Natural Language Queries to Conceptual GraphsTranslating Natural Language Queries to Conceptual Graphs. In: Proceedings of  . In: Proceedings of  the 3 Sách, tạp chí
Tiêu đề: A robust Ontology-Based Method for Translating Natural Language Queries to Conceptual Graphs
Tác giả: Tr Tru H. C, H. Cao, Tr, Truo uong D ng D, Ca, Cao, T o, Tha hang L ng L, Tr, Tran an
[15] 5] Th The T e Text ext RE REtr trie ieva val C l Con onfe fere renc nce w e web ebsi site te.. http://trec.nist.gov/overview.html http://trec.nist.gov/overview.html Link
[8]] Mi Millle ler S. r S., Fo , Fox H. x H., Ra , Rans nsha haw L. w L., We , Weiisc sche hede del R. l R.::  A novel use  A novel use of statisti of statistical parsing  cal parsing  to extract information from text  Khác
Master Thesis. Faculty of Computer Science and Engineering, University of  Master Thesis. Faculty of Computer Science and Engineering, University of  Technology. VietNam (2007) Khác
ít phụ thuộc vào cú pháp. Master Thesis. Faculty of Computer Science and . Master Thesis. Faculty of Computer Science and Engineering, University of Technology. VietNam (2008) Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w