XỬ LÝ CÁC CÂU TRUY VẤN VÀ TÌM KIẾM TRÊN KHO TÀI LIỆU CÓ CHÚ THÍCH NGỮ NGHĨA BẰNG TIẾNG ANH

Từ khi ra đời đến nay, World Wide Web đã trở thành một công cụ quan trọng để lưu trữ và chia sẻ nguồn tri thức khổng lồ

Trang 1

Đại Học Quốc Gia TP Hồ Chí Minh TRƯỜNG ĐẠI HỌC BÁCH KHOA

-o0o -LUẬN VĂN ĐẠI HỌC

XỬ LÝ CÁC CÂU TRUY VẤN VÀ TÌM KIẾM TRÊN KHO TÀI LIỆU CÓ CHÚ THÍCH NGỮ NGHĨA BẰNG TIẾNG

TP Hồ Chí Minh, tháng 12 – 2010

Trang 2

CÔNG TRÌNH ĐƯỢC HOÀN THÀNH TẠITRƯỜNG ĐẠI HỌC BÁCH KHOAĐẠI HỌC QUỐC GIA TP HỒ CHÍ MINH

Cán bộ hướng dẫn khoa học : PGS.TS CAO HOÀNG TRỤ

Cán bộ chấm nhận xét 1 :

Cán bộ chấm nhận xét 2 :

Luận văn đại học được bảo vệ tại HỘI ĐỒNG CHẤM BẢO VỆ LUẬN VĂN ĐẠI HỌC TRƯỜNG ĐẠI HỌC BÁCH KHOA, ngày tháng năm

Trang 3

LỜI CAM ĐOAN

Tôi cam đoan rằng ngoại trừ các kết quả tham khảo từ các công trình khác như đã ghi rõ trong luận văn, các công việc trình bày trong luận văn này là do chính tôi thực hiện và chưa có phần nội dung nào của luận văn này được nộp để lấy một bằng cấp ở trường đại học nào khác

Ngày Tháng Năm

Ký tên

Trang 4

LỜI CẢM ƠN

Trước hết, chúng tôi xin gởi lời cảm ơn chân thành và sâu sắc đến Pgs.Ts Cao Hoàng Trụ, và

kỹ sư Châu Kim Cường, những người đã trực tiếp hướng dẫn tôi trong quá trình làm luận văn này

Sự hướng dẫn chu đáo, tận tình, cùng với những tài liệu và lời khuyên quý giá của thầy và anh tronghơn 3 tháng qua là nhân tố không thể thiếu để chúng tôi có thể hoàn thành nhiệm vụ

Chúng tôi xin gửi lời cảm ơn đến gia đình và bạn bè, những người luôn sát cánh, động viên, vàtạo mọi điều kiện tốt nhất để chúng tôi có thể học tập và hoàn tất được luận văn tốt nghiệp này.Chúng tôi chân thành biết ơn sự tận tình dạy dỗ và sự giúp đỡ của tất cả quý thầy cô khoa Khoahọc và Kỹ thuật Máy tính trường Đại học Bách khoa

Luận văn này khó tránh khỏi còn thiếu sót do tầm nhìn của chúng tôi còn hạn hẹp, rất mongnhận được sự góp ý của quý thầy cô cùng các bạn

Trang 5

TÓM TẮT

Từ khi ra đời đến nay, World Wide Web đã trở thành một công cụ quan trọng để lưu trữ và chia

sẻ nguồn tri thức khổng lồ Tuy nhiên, các công cụ phần mềm hiện nay chưa hỗ trợ thật hiểu quảcho con người trong quá trình khai thác kho tri thức ấy Với mong muốn làm hiệu quả hơn quá trình

đó, luận văn này xây dựng một công cụ tìm kiếm có thể “hiểu” được nội dung của câu truy vấn bằngtiếng Anh và trả về kết quả

Để biên dịch câu truy vấn ngôn ngữ tự nhiên, luận văn này dựa trên nền tảng web ngữ nghĩa,kết hợp với phương pháp dịch ít phụ thuộc vào cú pháp của nhóm VN-KIM Để thể hiện nội dungbiên dịch được, luận văn biểu diễn bằng đồ thị ý niệm Cuối cùng, câu truy vấn SeRQL được dùng

để tìm kiếm kết quả

Hiệu quả của hệ thống được đánh giá trên tập câu truy vấn mẫu “TREC 2002”

Trang 6

MỤC LỤC

CHƯƠNG 1 TỔNG QUAN 1

1.1 Giới thiệu 1 1.2 Mục tiêu và phạm vi 3 1.3 Cấu trúc luận văn 5 CHƯƠNG 2 6 CÁC NGHIÊN CỨU VÀ HỆ THỐNG LIÊN QUAN 6

2.1 Rút trích quan hệ 6 2.2 Sơ lược về đồ thị ý niệm 7 2.2.1 Đồ thị ý niệm mở rộng 9

2.2.2 Các phương pháp chuyển đổi câu truy vấn sang đồ thị ý niệm 10

CHƯƠNG 3 12 PHƯƠNG PHÁP TIẾP CẬN 12

3.1 Chuyển đổi câu truy vấn với từ để hỏi “How many” 12 3.2 Chuyển đổi câu truy vấn có tính từ 14 3.3 Chuyển đổi câu truy vấn có tính từ so sánh nhất 16 3.4 Chuyển đổi câu truy vấn có liên từ luận lý 17 CHƯƠNG 4 20 PHƯƠNG PHÁP BIÊN DỊCH 20

4.1 Các bước của giải thuật 20 4.1.1 Phân tách câu truy vấn 22

4.1.2 Nhận biết thực thể có tên 22

4.1.3 Nhận biết thực thể không tên 22

4.1.4 Nhận biết tính từ 23

4.1.5 Nhận biết từ quan hệ 23

4.1.6 Xác định lớp của thực thể 23

4.1.7 Gom các thực thể 24

4.1.8 Xác định quan hệ ẩn 25

Trang 7

4.1.10 Xoá bỏ quan hệ không phù hợp 28

4.1.11 Xác định quan hệ giữa tính từ và thực thể 29

4.1.12 Xây dựng đồ thị ý niệm 32

4.2 Tập luật 32 4.2.1 Cấu trúc của hệ thống luật 33

4.2.2 Cấu trúc thành phần điều kiện của luật 34

4.2.3 Cấu trúc thành phần hành động của luật 34

4.2.4 Xây dựng một số luật đặc biệt 35

4.2.5 Xây dựng từ điển luật 36

4.3 Kết quả thí nghiệm 38 CHƯƠNG 5 46 ĐỒ THỊ Ý NIỆM 46

5.1 Lưu trữ đồ thị 46 5.2 Hiển thị đồ thị 47 CHƯƠNG 6 49 KẾT LUẬN 49 TÀI LIỆU THAM KHẢO 51

PHỤ LỤC A: TẬP CÂU MẪU TREC 2002 55

PHỤ LỤC C: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 TRƯỚC KHI LÀM GIÀU ONTOLOGY 60

PHỤ LỤC D: ĐỒ THỊ Ý NIỆM SINH ĐÚNG TỪ TREC 2002 SAU KHI LÀM GIÀU ONTOLOGY 70

Trang 8

DANH MỤC HÌNH

Hình 2.1: Ví dụ về đồ thị ý niệm 9

Hình 2.2: Ví dụ về biểu diễn câu truy vấn sử dụng HA (Hypostatic abstraction) 10

Hình 2.3: Ví dụ về biểu diễn câu truy vấn lồng nhau sử dụng đỉnh truy vấn con 11

Hình 3.1: Ví dụ về biểu diễn câu truy vấn "How many" 13

Hình 3.2: Ví dụ về biểu diễn câu truy vấn "How many" ở dạng rút gọn 14

Hình 3.3: Ví dụ về biểu diễn tổng quát cho câu truy vấn "How many" 14

Hình 4.1: Mô tả các bước dùng để xây dựng đồ thị ý niệm cho câu truy vấn 22

Hình 4.2: Xác định loại quan hệ giữa hai thực thể e i và e j 27

Hình 4.3: Lược đồ ánh xạ kiểu quan hệ của bộ ba truy vấn 28

Hình 4.4: Xác định loại quan hệ giữa tính từ adj và thực thể 31

Hình 4.5: Lược đồ ánh xạ kiểu quan hệ giữa tính từ và thực thể 32

Hình 4.6: Cấu trúc tập thành phần TransformRules và rule 34

Hình 4.7: Cấu trúc của thành phần điều kiện luật 36

Hình 4.8: Ví dụ về thành phần premise 36

Hình 4.9: Cấu trúc của thành phần hành động 37

Hình 4.10: Cấu trúc từ điển quan hệ 38

Hình 4.11: Ví dụ một luật hoàn chỉnh 38

Hình 4.12: Ví dụ một số thành phần trong từ điển 38

Hình 4.13: Ví dụ về biểu diễn câu truy vấn “Queried relation” 42

Hình 4.14: Ví dụ về biểu diễn câu truy vấn “Advert / Temporal” 42

Hình 5.1: Cấu trúc dữ liệu sử dụng để lưu trữ đồ thị ý niệm kết quả 47

Hình 5.2: Cấu trúc dữ liệu sử dụng để hiển thị đồ thị ý niệm kết quả 48

Trang 9

DANH MỤC BẢNG

Bảng 4.1: Bảng thuộc tính thành phần premise 35

Bảng 4.2: Mô tả các thuộc tính của thành phần entry 38

Bảng 4.3: Kết quả thực nghiệm trên TREC 2002 khi chưa áp dụng phương pháp đề nghị 40

Bảng 4.4: Kết quả thực nghiệm trên TREC 2002 sau khi áp dụng phương pháp đề nghị 40

Bảng 4.5: Kết quả thực nghiệm trên TREC 2002 sau khi làm giàu Ontology 41

Bảng 4.6: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2002 43

Bảng 4.7: Kết quả thực nghiệm trên TREC 2007 khi chưa áp dụng phương pháp đề nghị 44

Bảng 4.8: Kết quả thực nghiệm trên TREC 2007 sau khi áp dụng phương pháp đề nghị 44

Bảng 4.9: Kết quả thực nghiệm trên TREC 2007 sau khi làm giàu Ontology 45

Bảng 4.10: Bảng tổng kết kết quả cuối cùng đạt được trên tập TREC 2007 46

Trang 10

cơ tìm kiếm dựa trên từ khóa (keyword – based search engine), như động cơ tìm kiếm của Google,Yahoo, Tuy đã đạt được những thành công nhất định, nhưng các hệ thống này còn có nhữngkhuyết điểm làm cho người sử dụng chưa được hài lòng Có thể nêu ra như:

 Kết quả trả về cho một truy vấn là nhiều, nhưng độ chính xác lại thấp Người dùng phải tốnnhiều thời gian với những kết quả không thích hợp

 Kết quả trả về hoàn toàn phụ thuộc vào từ khóa được cung cấp Trong khi, theo mong muốncủa con người, thì các truy vấn tương tự nhau về mặt ngữ nghĩa phải dẫn đến những kết quảnhư nhau

Do công cụ tìm kiếm chủ yếu chỉ so trùng, mà chưa “hiểu” được nội dung của thông tin chứatrên WWW và nội dung của câu truy vấn, nên dẫn đến những hạn chế trên

Như vậy, để làm tăng hiệu quả của quá trình tìm kiếm tự động, một hướng tiếp cận là làm chomáy tính “hiểu” được nội dung của thông tin: thông tin được lưu trữ trên WWW và thông tin trongcâu truy vấn của người dùng

Trang 11

Đề tài này quan tâm đến khía cạnh giúp cho máy tính hiểu được nội dung của câu truy vấn dùngngôn ngữ tự nhiên là tiếng Anh Nhìn chung, việc hướng dẫn cho máy tính xử lý 1 câu truy vấnbằng ngôn ngữ tự nhiên (bất kỳ) nhằm hiểu được ý nghĩa là khá phức tạp, có thể liệt kê ra một sốkhó khăn:

 Ngữ pháp của ngôn ngữ tự nhiên rất đa dạng, cách sử dụng rất linh hoạt Và một câu có thể

có nhiều ngữ pháp phù hợp (mặc dù đối với con người sẽ không có nghĩa) Dẫn đến khôngthể chỉ dựa vào cấu trúc của câu để xác định ngữ nghĩa

 Cùng một từ nhưng có thể ứng với nhiều từ loại (danh từ, động từ, ) Muốn hiểu đúng phảixác định đúng loại từ Lấy ví dụ: “Time flies like an arrow” “Time” và “flies” có ít nhất 2cách hiểu có ý nghĩa: “Time” làm danh từ và “flies” làm động từ, hay “Time” làm động từ

 Một cách thường xuyên, câu truy vấn bằng ngôn ngữ tự nhiên không chặt về ngữ pháp, màthường được dùng ở dạng thông dụng không “chuẩn” ngữ pháp

Tuy có nhiều khó khăn như đã kể trên, nhưng hiện nay các nhóm nghiên cứu về lĩnh vực webngữ nghĩa đã đạt được những tiến bộ đáng kể Và việc xây dựng một động cơ tìm kiếm theo ngữnghĩa là khả thi, có thể thành công với những câu truy vấn không quá phức tạp Vì vậy, đề tài này sẽứng dụng các thành tựu đó để xây dựng một động cơ tìm kiếm cho phép người dùng truy vấn bằngngôn ngữ tự nhiên, và trả về tài liệu chứa nội dung cần tìm

Trang 12

1.2 Mục tiêu và phạm vi

Liên quan đến mục tiêu tạo ra một công cụ tìm kiếm dựa trên nền tảng Web ngữ nghĩa, đã cónhiều nghiên cứu được biết đến Các nghiên cứu này sử dụng nhiều hình thức khác nhau cho câutruy vấn đầu vào[tham khảo CDT], như:

 Hình thức đồ thị: người sử dụng thao tác trực tiếp trên đồ thị để thực hiện truy vấn

 Hình thức mẫu câu được dựng sẵn: người sử dụng sẽ lựa chọn trong số những mẫu câu truyvấn được xây dựng sẵn, lưu trong hệ thống, để thực hiện truy vấn

 Từ khóa bằng ngôn ngữ tự nhiên

 Hình thức câu đầy đủ: người sử dụng đưa và một câu ngôn ngữ tự nhiên bất kỳ để thực hiệntruy vấn

Các hình thức biễu diễn này, nếu càng gần với ngôn ngữ tự nhiên thì lại càng khó xử lý đối vớimáy tính Tuy nhiên, nếu càng gần với ngôn ngữ tự nhiên thì càng dễ tiếp cận đối với người sửdụng Hiển nhiên, người sử dụng mong muốn nhất là cho phép nhập vào một câu truy vấn dùngngôn ngữ tự nhiên

Về phương pháp biên dịch câu truy vấn ngôn ngữ tự nhiên, toát lên từ các nghiên cứu là 2 hướngtiếp cận:

 Phân tích cú pháp: cách này dựa vào việc phân tích cú pháp của câu truy vấn để dịch ra ngônngữ khác mà máy tính hiểu được Vì vậy phụ thuộc rất chặt vào cú pháp, bất kỳ lỗi cú phápnào cũng dẫn đến biên dịch thất bại Ngoài ra, sẽ khó khăn khi chuyển đổi, sử dụng ngônngữ đầu vào khác [tham khảo CDT]

 Dịch theo cách ít phụ thuộc vào cú pháp: linh động hơn khi có lỗi cú pháp hoặc khi phảichuyển đổi ngôn ngữ đầu vào Ngoài ra, rút ngắn được thời gian xử lý [tham khảo CDT]

Trang 13

Từ cái nhìn trên, hệ thống tìm kiếm mà đề tài này xây dựng sẽ nhận dữ liệu đầu vào là một câutruy vấn bằng tiếng Anh, là ngôn ngữ sử dụng bởi quốc tế Hệ thống, sau khi xử lý bằng phươngpháp ít phụ thuộc vào cú pháp, sẽ trả về tài liệu chứa thông tin được tìm kiếm hoặc trả về số liệuđược yêu cầu (lúc này không sử dụng chức năng tìm kiếm mà chỉ đưa ra số liệu trả lời) Đồng thời,

để giúp người dùng kiểm tra liệu cách “hiểu” câu truy vấn của hệ thống có đúng hay không, hệthống cũng vẽ ra đồ thị ý niệm tương ứng với câu truy vấn đã nhận vào

Một hệ thống như vậy nếu xây dựng mới hoàn toàn sẽ đòi hỏi rất nhiều thời gian và công sức

Vì vậy, đề tài sẽ dựa trên hệ thống tìm kiếm ngữ nghĩa cho tiếng Việt (VN-KIM Search) có sẵn[tham khảo anh Dũng], tái sử dụng nhiều mô-đun không phụ thuộc vào ngôn ngữ, như mô-đun chúgiả, đánh chỉ mục, gom cụm, truy xuất tài liệu, chỉ tập trung làm mới mô-đun xử lý câu truy vấn

Hệ thống sẽ bảo đảm được khả năng xử lý những câu truy vấn tiếng Anh đơn giản, chỉ bao gồmdanh từ, động từ, từ để hỏi và giới từ Ví dụ như câu truy vấn: “What actress starred in “The Lion inWinter” ?” Đây là khả năng mà hiện nay VN-KIM Search đã làm được cho tiếng Việt

Luận văn không chỉ dừng lại ở những câu truy vấn đơn giản như ví dụ trên, mà còn nhắm đếnmục tiêu trả lời được những câu truy vấn phức tạp hơn Đó là câu truy vấn có liên từ luận lý, tính từđịnh tính, tính từ định lượng, tính từ so sánh nhất, và lượng từ Lấy ví dụ như các câu truy vấn sau:

“Who was biographer and Samuel Johnsons's friend?” chứa liên từ luận lý.

“What famous model was married to Billy Joel?” chứa tính từ định tính.

“What is the oldest university in the US?” chứa tính từ định lượng.

“What is the highest dam in the U.S.?” và “What is the most common kind of skin cancer

in the U.S.?” chứa tính từ so sánh nhất

“How many films did Ingmar Bergman make?” chứa lượng từ.

Hiện đã có nghiên cứu của nhóm VN-KIM để biên dịch những câu truy vấn dạng này từ ngônngữ tự nhiên sang đồ thị ý niệm Luận văn này sẽ ứng dụng thành quả nghiên cứu đó

Trang 14

Hiện nay, mô-đun nhận biết thực thể của VN-KIM Search không thể dùng cho tiếng Anh Nên,

ở bước nhận biết thực thể, đề tài sẽ sử dụng công cụ sẵn có, và giả sử là quá trình này hoàn toànchính xác Đề tài cũng không giải quyết vấn đề về quan hệ 3 ngôi trong [HA], vì việc đó liên quantới việc mở rộng, “làm mịn” Ontology, là một bài toán khác

1.3 Kết quả đạt được

Đề tài đã xây dựng được 1 hệ thống tìm kiếm dựa trên ngữ nghĩa cho tiếng Anh, với các dạng câu truy vấn như đã trình bày ở trên

Đồng thời, mở rộng thêm một số khả năng khi xử lý những câu truy vấn dạng phức tạp Đầu tiên

là khả năng đề xuất đồ thị ý niệm khả áp dụng ngay cả khi quan hệ với tính từ trong câu truy vấnkhông có trong cơ sơ tri thức Mục đích là làm ta có thể đánh giá tính chính xác của quá trình “hiểu”câu truy vấn của hệ thống mà không bị quá lệ thuộc vào cơ sơ tri thức Ví dụ như sau:

“What is the longest dam in the U.S.?” Mặc dù quan hệ giữ “dam” và “long” không có trong

cơ sơ tri thức, nhưng ta vẫn có thể cung cấp đồ thị ý niệm cho người dùng (với quan hệ “ảo” được

vẽ màu xanh lá)

Hình 1.1 Đồ thị có đề xuất quan hệ không tồn tại trong cơ sở tri thức

Ngoài ra, để truy xuất được tài liệu, thì chỉ ngừng lại ở đồ thị là chưa đủ, cần phải chuyển đồ thị

đó sang ngôn ngữ SeRQL, là ngôn ngữ dùng để truy xuất cơ sở tri thức ngữ nghĩa Luận văn này đã

đề xuất và hiện thực cách thức chuyển từ đồ thị ý niệm của những câu truy vấn dạng này sang truy

Trang 15

Luận văn cũng đề xuất và hiện thực cách xử lý câu truy vấn có chứa dạng so sánh hơn của tính

từ định lượng Các câu truy vấn có so sánh hơn với một hằng số, hoặc so sánh hơn với một thực thể,

như “What dam in the U.S is higher than 1200 meters?”, “What dam is higher than Dworshak in

the U.S.?” cũng đã được chuyển sang đồ thị ý niệm, rồi chuyển sang câu truy vấn SeRQL tương

ứng

1.4 Cấu trúc luận văn

Chương 1 đã trình bày khái quát động cơ, mục đích, ý tưởng thực hiện đề tài Tiếp theo sauChương 1 là phần trình bày chi tiết về ý tưởng và phương pháp của chúng tôi để đạt được mục đích

đã đề ra

Chương 2 trình bày những nghiêu cứu và hệ thống liên quan đến việc chuyển đổi câu truy vấntiếng Anh sang đồ thị ý niệm Mục 2.1 trình bày phương pháp rút trích quan hệ trong câu truy vấn

Sơ lược giới thiệu về đồ thị ý niệm được trình bày ở Mục 2.2

Chương 3 trình bày cách tiếp cận vấn đề với việc giải quyết câu truy vấn hỏi về số lượng được trình bày tại Mục 3.1, giải quyết cho câu truy vấn có chứa tính từ được trình bày tại Mục 3.2, giải quyết cho câu truy vấn có chứa tính từ so sánh nhất được trình bày tại Mục 3.3 và giải quyết cho

câu truy vấn có chứa liên từ luận lý sẽ được trình bày tại Mục 3.4

Chương 4 trình bày phương pháp biên dịch câu truy vấn tiếng Anh sang đồ thị ý niệm Mục 4.1

sẽ mô tả các bước trong giải thuật xây dựng đồ thị ý niệm cho câu truy vấn Mục 4.2 trình bày chitiết về tập luật ánh xạ Những kết quả đạt được của đề tài sẽ được tổng kết tại Mục 4.3

Chương 5 trình bày chi tiết phương pháp lưu trữ và hiển thị đồ thị ý niệm

Chương 6 đưa ra kết luận và đề nghị hướng phát triển cho tương lai Phần phụ lục giới thiệu tậpcâu hỏi mẫu TREC 2002, TREC 2007 cùng các đồ thị ý niệm đã được sinh đúng cho những câu truyvấn rút ra từ hai tập câu hỏi mẫu này

Trang 16

trong câu “Bill Gates is chairman and chief software architect of Microsoft Corporation”, tồn tại

quan hệ theo kiểu của ACE (Automatic Content Extraction) là EMPLOYMENT.exec giữa hai thực

thể có tên là “Bill Gates” thuộc lớp PERSON.Name và “Mircrosoft Corporation” thuộc lớp

ORGANIZATION.Commercial Có nhiều kỹ thuật rút trích quan hệ, dựa trên luật (rule-based), dựatrên đặc điểm (feature-based) và phương pháp kernel (kernel-based) dưới đây trình bày một sốnghiên cứu về rút trích quan hệ:

 Các phương pháp dựa trên luật sử dụng các luật của ngôn ngữ để nắm bắt các mẫu quan

hệ khác nhau Hệ thống [8] rút trích quan hệ từ một quá trình phân tích cú pháp, do đó kết quảcủa nó phụ thuộc hoàn toàn vào cây cú pháp

 Các phương pháp rút trích dựa trên đặc điểm [21] sử dụng các đặc điểm của ngôn ngữnhư đặc điểm từ vựng, đặc điểm cú pháp và đặc điểm ngữ nghĩa Những phương pháp này rấthiệu quả cho việc rút trích quan hệ Tuy nhiên, vấn đề gặp phải là các đặc điểm phải được mô

tả thủ công và cấu trúc thông tin trong cây cú pháp không được bảo toàn trong cây đặc điểm(Là cây biểu diễn các đường nối không kết thúc giữa hai thực thể trong cây cú pháp)

 Các phương pháp dựa trên kernel chú trọng vào việc sử dụng các cây kernel riêng lẻ đểkhai thác đặc điểm cấu trúc Hệ thống [19] xây dựng một quan hệ kernel trên cây cú pháp cho

Trang 17

việc rút trích quan hệ Kernel so trùng các node từ gốc cho tới lá một cách đệ quy theo từng lớp

từ trên xuống

Tuy nhiên các nghiên cứu trên chỉ chú trọng vào rút trích quan hệ giữa các thực thể có tên đã biết Để xây dựng được đồ thị ý niệm, ngoài việc rút trích quan hệ giữa các thực thể có tên còn phải rút trích quan hệ giữa các thực thể không tên với nhau, hay các quan hệ giữa các thực thể có tên với

thực thể không tên

2.2 Đồ thị ý niệm (Conceptual Graph)

2.2.1 Sơ lược về đồ thị ý niệm

Đồ thị ý niệm là một hình thức biểu diễn logic (logical formalism) vừa có tính trực quan, vừa có

sự chính xác Về hình thức, đây là một đồ thị tạo ra bởi các đỉnh và các cạnh (có thể có hướng hoặckhông có hướng) Nhờ sử dụng cách biểu diễn đồ họa trực quan đó, đồ thị cho phép con ngườinhanh chóng có được một cái nhìn tổng quan, dễ nắm bắt ý nghĩa Về nội dung, đồ thị ý niệm có thểđược ánh xạ trực tiếp sang logic vị từ (predicate logic) Nhờ đó, có thể biểu diễn ngữ nghĩa một cáchchính xác, giữ được tính chính xác về mặt logic Với những đặc điểm đó, đồ thị ý niệm vừa dễ tiếpcận đối với con người, vừa khả xử lý đối với máy tính

Và đồ thị ý niệm đã được dùng như là một hình thức biểu diễn tri thức, là một ngôn ngữ trunggian cho việc chuyển đổi qua lại giữa hình thức biểu diễn hướng máy tính và ngôn ngữ tự nhiên

“Tim Berners Lee, người phát minh của WWW, kết luận rằng các CG có thể dễ dàng tích hợp vớiSemantic Web Nó cũng được chỉ ra là có một ánh xạ chặt với ngôn ngữ RDF.” Nó cũng được chỉ ratrong là có một ánh xạ chặt giữa CG và ngôn ngữ RDF (ko hiểu đoạn này >.<).” [tham khao HA]

“Trong bài báo đầu tiên công bố liên quan tới đồ thị ý niệm, Sowa đã định nghĩa đồ thị ý niệmnhư sau: Chỗ này ta nghĩ chỉ cần nói: Sowa đã định nghĩa dtyn trong 1 bài báo của mình:… rồi tríchdẫn đoạn định nghĩa thôi Ghi như vầy thì ghi là tk HA được, còn ghi như T thì phải ghi là tk bàibáo nào đó mà mình ko đọc, nên thôi cứ ghi vầy đi, ý nghĩa như là HA bảo cho mình biết Sowa nóvậy

Trang 18

Đồ thị ý niệm là một đồ thị hữu hạn, liên thông, không có hướng, lưỡng phân với những nút thuộc một loại được gọi là ý niệm (hoặc khái niệm – concepts) và những nút thuộc loại còn lại được gọi là quan hệ khái niệm (conceptual relations).” [tham khao HA]

Như vậy, đồ thị ý niệm thuộc loại đồ thị phân đôi, và bao gồm 2 loại đỉnh: các đỉnh khái niệm và các đỉnh quan hệ Trong đó, các đỉnh khái niệm chỉ liên kết với các đỉnh quan hệ bởi các cạnh và

ngược lại

Đỉnh khái niệm được biểu diễn bằng hình chữ nhật có nhãn là kiểu khái niệm kết hợp với tham

chiếu Đỉnh quan hệ có hình oval với nhãn chính là kiểu quan hệ của nó Mỗi đỉnh quan hệ có thể

liên kết với nhiều đỉnh khái niệm bằng các cạnh có hướng Để ngắn gọn, chúng ta sẽ gọi đỉnh quan

hệ, đỉnh khái niệm lần lượt là quan hệ, khái niệm

[hình tham khảo CDT]

Hình trên là đồ thị ý niệm cho câu “John is a student There is a subject CS is a field of study.

The subject is in CS John studies the subject” Hoặc ngắn gọn hơn là “John studies a subject in CS” (Đoạn này nếu có thể ta nghĩ mình nên tìm một ví dụ khác tương tự, vì ngay cả ví dụ mà cũngphải tham khảo có thể tạo cho người đọc cảm giác mình chưa hiểu kỹ về nó) nếu còn tgian sẽ sángtạo

Trong định dạng văn bản, các khái niệm và các quan hệ có thể được biết trong dấu ngoặc vuông

và ngoặc tròn như sau:

[STUDENT: John]→(STUDY)→[SUBJECT: *]→(IN)→[FIELD: CS]

Trong ví dụ này, [STUDENT: John], [SUBJECT:*], [FIELD: CS] là các khái niệm với

STUDENT, SUBJECT và FIELD trở thành kiểu khái niệm, trong khi đó (STUDY) và (IN) là các

quan hệ với STUDY và IN là các kiểu quan hệ Các tham khảo John và CS là các tham chiếu xác

Trang 19

Đồ thị ý niệm được sử dụng để kiểm tra tính chính xác của quá trình dịch câu truy vấn trong đề

tài, bên cạnh các tham chiếu xác định và tham chiếu tổng quát, được bổ sung thêm tham chiếu nghi

vấn Tham chiếu nghi vấn biểu diễn cho thực thể được truy vấn trong câu Một đồ thị ý niệm truy

vấn là một đồ thị ý niệm mà các tham chiếu có thể là tham chiếu xác định, tham chiếu tổng quáthoặc là tham chiếu nghi vấn được biểu diễn bằng dấu “?”

2.2.2 Đồ thị ý niệm mở rộng

Đồ thị ý niệm mở rộng [tham khảo HA] là đồ thị ý niệm có sử dụng thêm một khái niệm đặc

biệt, gọi là đỉnh truy vấn con Đó là một đỉnh khái niệm, nhưng có kiểu khái niệm riêng, và tham

chiếu đến thực thể của nó là một đồ thị ý niệm khác Tức là, bên trong đỉnh truy vấn con là nội dungmột đồ thị ý niệm truy vấn tri thức Đỉnh truy vấn con sẽ được biểu diễn bằng hình chữ nhật vát góc.

Đỉnh truy vấn con được biểu diễn bằng hình chữ nhật tròn góc (Ta nghĩ chỗ này mình nên nói: trongtài liệu (hay luận văn) này, đỉnh truy vấn con được biểu diễn bằng hình chữ nhật vát góc, vì các ví

dụ sau này đâu phải tròn góc) Ta xét một ví dụ minh họa: ta có câu truy vấn lồng nhau như sau:

“Tìm tên của những giảng viên có tên trùng với tên của những giảng viên tại trường Đại học Bách

Khoa” Câu truy vấn này sẽ được biểu diễn như sau:

[hình tham khảo HA]

Trong đề tài [tham khảo HA], đỉnh truy vấn con này được sử dụng phần lớn trong các phươngpháp đề xuất sẽ được bàn đến ở những phần tiếp theo

Trang 20

2.3 Tìm thực thể vài tài liệu

Đề tài này biến đổi từ đồ thị ý niệm sang ngôn ngữ truy vấn SeRQL để truy vấn thực thể trong

cơ sở tri thức Thực thể tìm được sẽ dùng để tìm tài liệu trên Semantic Lucene

2.3.1 Câu truy vấn SeRQL [tham khảo

http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#sectio n-numerical-comparisons]

SeRQL (Sesame RDF Query Language) là một ngôn ngữ truy vấn cơ sở tri thức Tương tự như SQL được sử dụng làm ngôn ngữ truy vấn trên các cơ sở dữ liệu quan hệ, SeRQL được sử dụng trêncác cơ sở dữ liệu viết bằng ngôn ngữ RDF

Trong SeRQL, có 2 loại câu truy vấn: một loại sẽ trả về một bảng các giá trị (một tập các ràng buộc (binding) giữa biến với giá trị, tương tự như khi truy vấn với SQL), loại còn lại sẽ trả về một

đồ thị RDF (RDF graph) Trong đề tài này chỉ sử dụng loại thứ nhất, gọi là select queries (phiên

bản 2.3.2), sẽ được trình bày sau đây.

Đối với 1 câu truy vấn thuộc loại select queries , sẽ có 8 mệnh đề có thể được sử dụng, đó là:

SELECT, FROM, FROM CONTEXT, WHERE, ORDER BY, LIMIT, OFFSET và USING

NAMESPACE Chỉ có mệnh đề SELECT là bắt buộc, các mệnh đề còn lại có thể không có mặt trong câu truy vấn Các mệnh đề SELECT, FROM, WHERE và ORDER BY là những mệnh đề sẽ được sử dụng để truy vấn trong đề tài này

Mệnh đề SELECT ở SeRQL cũng tương tự như trong SQL, sẽ chỉ ra các biến mà ta cần trả về giá trị Nếu truy vấn thành công, tập kết quả trả về sẽ là các giá trị được ràng buộc với các biến liệt

kê trong mệnh đề SELECT Ví dụ [tham khảo

http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:

SELECT O, S FROM {S} rdfs:label {O}

Mệnh đề FROM ở SeRQL cũng tương tự như trong SQL, nhưng, thay vì chỉ ra các bảng (table)

có chứa dữ liệu, người sẽ phải chỉ ra các biểu thức đường đi (path expression) có chứa dữ liệu trong

cơ sở tri thức RDF Trong ví dụ trên, biểu thức đường đi là “{S} rdfs:label {O}”

Trang 21

Mệnh đề WHERE, cũng tương tư như SQL, là nơi để người dùng đặc tả các ràng buộc mà các biến phải thỏa mãn Nếu có nhiều ràng buộc, chúng có thể được liên kết bằng các từ khóa AND,

OR, NOT, là các toán tử của đại số Bool.Trong mệnh đề WHERE, ta cũng có thể sử dụng câu truy vấn lòng nhau (nested query) và sử dụng từ khóa ALL để biểu diễn ràng buộc đối với một tập giá trị Ví dụ [tham khảo http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-

numerical-comparisons]:

SELECT highestValue

FROM {node} ex:value {highestValue}

WHERE highestValue >= ALL ( SELECT value

Để sắp xếp kết quả trả về theo một thứ tự nhất định, người dùng có thể sử dụng mệnh đề

ORDER BY, kết hợp các từ khóa DESC (giảm dần) và ASC (tăng dần – mặc định) Có thể kết hợp sắp xếp trên nhiều biến trả về, cách nhau bởi dấu “,” Ví dụ [tham khảo http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:

SELECT Countr, Population

FROM {Country} ex:population {Population}

ORDER BY Population DESC

Ngoài ra, SeRQL cũng hỗ trợ 3 toán tử UNION, INTERSECT và MINUS để thực hiện kết hợp, giao và loại trừ các tập kết quả Ví dụ [tham khảo http://www.openrdf.org/doc/sesame2/2.3.1/users/ch09.html#section-numerical-comparisons]:

SELECT title

FROM {book} dc10:title {title}

UNION

SELECT title

FROM {book} dc11:title {title}

Đề tài sẽ sử dụng các toán tử tập hợp này vào việc giải quyết các câu truy vấn có liên từ luận lý

2.3.2 Semantic Lucene

Lucene: là một thư viện mã nguồn mở viết bằng Java, dùng để phân tích, hỗ trợ đánh chỉ mục vàtìm kiếm thông tin với hiệu suất cao Lucene được phát triển đầu tiên bởi Doug Cutting, và ra mắt

Trang 22

vào tháng 3/2000 Hiện tại Lucene đang được Apache phát triển và duy trì Lucene không phải một ứng dụng, mà chỉ là một công cụ đặc tả API cần thiết cho một search engine Ngoài phiên bản ban đầu bằng Java, hiện nay còn có Lucene cho các ngôn ngữ khác: NET, C++, Perl…

VN-KIM Semantic Lucene (S-Lucene): là hiện thực mở rộng của Lucene cho tìm kiếm ngữ nghĩa VN-KIM S-Lucene là một thư viện phần mềm trong hệ thống VN-KIM, có vai trò quan trọngtrong việc quản lý, truy hồi các thực thể hay các tài liệu đã được chú giải

Khác biệt chủ yếu giữa Lucene và S-Lucene đó là Lucene đánh chỉ mục và tìm kiếm trên từ khóa, trong khi đó S-Lucene mở rộng cho đánh chỉ mục và tìm kiếm theo thực thể

Đầu vào của Lucene là các bộ ba (name/class/ID) nhận được từ quá trình tìm kiếm thực thể Lucene trả về các tài liệu tương ứng với các bộ ba đó

Trang 23

S-CHƯƠNG 3

PHÂN TÍCH VẤN ĐỀ VÀ PHƯƠNG PHÁP GIẢI QUYẾT

3.1 Chuyển đổi câu truy vấn với từ để hỏi “How many”

Về cơ bản, chúng tôi thấy rằng việc biểu diễn các câu truy vấn hỏi về số lượng (Có từ hỏi là

“How many”) bằng đồ thị ý niệm đòi hỏi phải giải quyết được hai vấn đề sau:

 Thứ nhất, ta phải biểu diễn được phạm vi mà câu truy vấn muốn đề cập

 Thứ hai, ta phải biểu diễn được đối tượng hay thuộc tính mà câu truy vấn muốn đề cập.Thật vậy, lấy trường hợp của ví dụ trong Hình 2.2, nếu như PERSON có thêm thuộc tính vềsalary, thì với biểu diễn như vậy ta không thể biết được câu truy vấn muốn hỏi độ trung bình vềtuổi, hay độ trung bình về lương

Trong giải pháp đề nghị này, chúng tôi sẽ sử dụng đồ thị lồng nhau (nested CG), cụ thể là ở đây

chúng tôi sẽ sử dụng đỉnh truy vấn con để giải quyết vấn đề về biểu diễn phạm vi mà câu truy vấn

muốn bao phủ, và sử dụng liên kết đồng tham chiếu để biểu diễn đối tượng mà câu truy vấn muốn

đề cập

Với giải pháp đề nghị, câu truy vấn “How many students are there in Computer Science

Department?” sẽ được biểu diễn như Hình 3.1.

Trang 24

Hình 3.0.1: Ví dụ về biểu diễn câu truy vấn "How many".

Để ngắn gọn, chúng tôi sẽ định nghĩa một đường liên kết mới thay thế đường liên kết đồng thamchiếu cho việc biểu diễn đối tượng mà câu truy vấn muốn đề cập Trong tài liệu này chúng tôi đềxuất biểu diễn bằng đường liên kết nét đôi Biểu diễn dạng ngắn gọn cho ví dụ trên như sau:

Hình 3.0.2: Ví dụ về biểu diễn câu truy vấn "How many" ở dạng rút gọn.

Sau đây là giải pháp đề xuất cho việc giải quyết mẫu câu truy vấn có từ để hỏi là “How many”.

Mẫu câu truy vấn này sẽ có dạng sau, với RW là từ quan hệ, S là chủ thể, O là khách thể:

Đầu tiên, chúng ta sẽ xây dựng đỉnh truy vấn con để biểu diễn câu S RW O Sau đó, chúng tađịnh nghĩa quan hệ COUNT gắn với đỉnh truy vấn con vừa tạo Một đường liên kết nét đôi sẽ đượcnối từ quan hệ COUNT tới đỉnh khái niệm S trong đỉnh truy vấn con Biểu diễn tổng quát cho mẫu

truy vấn “How many” như Hình 3.3

Hình 3.0.3: Ví dụ về biểu diễn tổng quát cho câu truy vấn "How many".

Trang 25

3.2 Chuyển đổi câu truy vấn có tính từ

Trong [16] đã đưa ra giải pháp sau để giải quyết vấn đề biểu diễn tính từ của thực thể Ví dụ, để

trả lời câu truy vấn “What famous model was married to Billy Joel?” yêu cầu Ontology phải có khả năng thể hiện thuộc tính famous của các người mẫu

 Giải pháp 1: Định nghĩa lớp FAMOUSMODEL, ví dụ, đối với những người mẫu mà nổi

tiếng Nó sẽ tạo ra nhiều lớp con của các người mẫu cho những độ khác nhau của thang đo độnổi tiếng

 Giải pháp 2: Định nghĩa kiểu quan hệ FAMEPROPERTY có miền lớp là MODEL và

range lớp là STRING Cách này gây ra vấn đề của việc so trùng các giá trị String sau đó

Ở giải pháp thứ nhất nêu trên, ta thấy giải pháp này sẽ dẫn đến bùng nổ số lượng lớp mới phảiđịnh nghĩa Đặc biệt một vấn đề nảy sinh là việc đưa ra các thang đo để có thể định lượng được các

tính từ Điều này chỉ có thể giải quyết được trong một số trường hợp đối với các tính từ như “tall”,

“high”… Ví dụ, ta có thể quy ước một ngôi nhà được gọi là cao khi kích thước chiều cao lớn hơn 100m Tuy nhiên có những tính từ mà con người khó có thể định lượng được như là “good”,

“famous”… thì việc định nghĩa một thang đo cho những tính từ như vậy sẽ gặp nhiều khó khăn

Ngoài ra, các tác giả trong [10], [11] đã nêu ra rằng các ý nghĩa của các tính từ còn phụ thuộc

vào ngữ cảnh Ví dụ khi nói: “Peter is tall for a gymnast” thì ý nghĩa ở đây là Peter chỉ được xem là

cao trong ngữ cảnh so sánh với các vận động viên thể dục, còn đối với việc so sánh với người bìnhthường thì điều này chưa hẳn đã đúng Từ nhận xét này, các tác giả trong [10], [11] đã đề xuất giải

pháp khái niệm hóa các tính từ bằng phương pháp động Các tác giả đề nghị xây dựng các lớp so

sánh để biểu diễn cho ngữ cảnh và sinh ra các quan hệ để biểu diễn độ tương quan về tính chất so

với lớp so sánh này

Giải pháp thứ hai cho ta một cách mềm dẻo hơn khi biểu diễn các tính từ cho thuộc tính Vấn đề

nảy sinh của cách thứ hai là việc so trùng giá trị String có thể được giải quyết bằng một từ điển các

từ đồng nghĩa, ví dụ như là WordNet Tuy nhiên, với giải pháp này, ý nghĩa của các tính từ chỉ cóthể hiểu bởi con người, còn máy tính không thể suy luận được từ việc biểu diễn này Ví dụ với cách

Trang 26

biểu diễn như vậy đối với những câu hỏi có dạng như: “Một ngôi nhà là cao hay không khi chiều

cao của nó lớn hơn 100m?” thì máy sẽ không đủ tri thức để đưa ra câu trả lời.

Từ việc phân tích trên ta thấy mỗi giải pháp đều có ưu, nhược điểm và khó có thể trả lời đượcrằng giải pháp nào là tốt hơn giải pháp nào Do đó trong tài liệu này, chúng tôi đề xuất cả hai giảipháp để thể hiện các tính từ chỉ tính chất, thuộc tính của thực thể mà sẽ được trình bày ngay dướiđây

Mẫu câu chứa các tính từ chỉ tính chất, thuộc tính của thực thể sẽ có dạng sau, với S là chủ thể,ADJ là tính từ, O là khách thể:

ADJ S RW OHoặc

Phương pháp đề xuất cho mẫu câu truy vấn dạng này theo “Giải pháp 1” là định nghĩa kiểu

quan hệ HASPROPERTY gắn với thực thể ngay sau ADJ và range lớp là STRING Các mẫu truyvấn ở trên sẽ được biểu diễn thành:

[String: *] ← (HASPROPERTY) ← S → (RW) → OHoặc

S → (RW) → O → (HASPROPERTY) → [String: *]

Phương pháp đề xuất cho mẫu câu truy vấn dạng này theo “Giải pháp 2” là ứng với mỗi tính từ

ta sẽ định nghĩa lớp con của thực thể ngay sau ADJ mà có tính chất thỏa ADJ theo một độ đo nào

đó Các mẫu truy vấn ở trên sẽ được biểu diễn thành:

S ← (SubclassOf) ←Sub_S → (RW) → OHoặc

S → (RW) → Sub_O → (SubclassOf) → O

Trong đề tài này, phương pháp tiếp cận đã sử dụng cả hai giải pháp nêu trên, trong đó “Giải

pháp 1” được sử dụng để biểu diễn các tính từ định lượng (tall, hight,…), còn “Giải pháp 2” được

sử dụng cho việc biểu diễn các tính từ định tính (famous, good,…)

Trang 27

Do đó, câu truy vấn với tính từ định tính “What famous model was married to Billy Joel” sẽ

được biển diễn như Hình 3.4 với lớp FAMOUS_MODEL là lớp con của lớp MODEL trongOntology

Hình 3.4: Ví dụ về biểu diễn tính từ định tính.

Câu truy vấn với tính từ định lượng “How tall is Billy Joel” sẽ được biểu diễn tương ứng như

Hình 3.5

Hình 3.5: Ví dụ về biểu diễn tính từ định lượng.

3.3 Chuyển đổi câu truy vấn có tính từ so sánh nhất

Đề tài sử dụng đồng thời hai phương pháp để biểu diễn tính từ Việc chọn cách biểu diễn nàotrong từng trường hợp cụ thể tùy thuộc vào tính từ so sánh nhất cần được biểu diễn thuộc về tính từđịnh tính hay định lượng

Đối với tính từ so sánh nhất thuộc loại định lượng (Ví dụ: tallest, highest), việc giải quyết cho câu truy vấn loại này cũng tương tự như hướng giải quyết cho loại truy vấn “How many” bằng việc

thay quan hệ COUNT thành quan hệ MIN, MAX tương ứng và đường liên kết sẽ chỉ tới tính từ địnhlượng mà câu truy vấn cần đề cập

Chúng tôi đề xuất giải pháp như sau: Mẫu câu truy vấn tổng quát cho dạng này sẽ có các trường

hợp như bên dưới, với ADJ_EST là cụm tính từ so sánh nhất (most adj, least adj, adjEST,…):

Hoặc

S RW ADJ_EST O

Trang 28

Đầu tiên, ta sẽ coi như không có mặt của ADJ_EST và biểu diễn câu S RW O thành một đỉnhtruy vấn con Sau đó trong đỉnh truy vấn con vừa được tạo này, ta sẽ biểu diễn tính từ ở dạngnguyên mẫu của ADJ_EST bằng phương pháp đã nêu trong Mục 3.1.2 của Chương 3

Nhiệm vụ còn lại là định nghĩa quan hệ MIN, MAX chỉ tới đỉnh truy vấn con và một đường liênkết nét đôi sẽ được nối từ quan hệ MIN, MAX tới biểu diễn tính từ nằm trong đỉnh truy vấn con

Ví dụ câu truy vấn “What is the highest dam in the U.S.?” sẽ được biểu diễn như Hình 3.6:

Hình 3.6: Ví dụ về biểu diễn câu truy vấn có tính từ so sánh nhất định lượng.

Đối với tính từ so sánh nhất thuộc loại định tính, chúng tôi giải quyết tương tự như cho trườnghợp biểu diễn tính từ định lượng đã trình bày ở Mục 3.2, Chương 3 Theo đó, với câu truy vấn

“What the most famous model was married to Billy Joel?” sẽ được biểu diễn như Hình 3.7 với lớp

MOST_FAMOUS_MODEL là lớp con của lớp MODEL

Hình 3.7: Ví dụ về biểu diễn câu truy vấn có tính từ so sánh nhất định tính.

3.4 Chuyển đổi câu truy vấn có tính từ

Luận văn áp dụng phương pháp biểu diễn tính từ của thực thể được đề nghị trong [tham khảoHA], với một chút điều chỉnh để có thể linh động sử dụng dạng biểu diễn mà Ontology đã hỗtrợ

Cụ thể, với câu có dạng (“ADJ”, “S”, “O”, ”RW” lần lượt là tính từ, chủ thể, khách thể và từ

Trang 29

ADJ S RW O

Hoặc

S RW ADJ O

Hai giải pháp được đề xuất trong trong [tham khảo HA] là:

- Cách 1: Định nghĩa lớp con Ứng với mỗi tính từ ta sẽ định nghĩa lớp con của thực thể ngaysau ADJ mà có tính chất thỏa ADJ theo một độ đo nào đó Các mẫu truy vấn ở trên sẽ được biểudiễn thành:

Lấy ví dụ với tính từ định tính: trong ontology đã có lớp MODEL bao gồm các thực thể là ngườimẫu, để thể hiện thuộc tính nổi tiếng (FAMOUS) của người mẫu, Ontology có thể định nghĩathêm lớp FAMOUS_MODEL là lớp con của lớp MODEL, chứa các thực thể là người mẫu được

xem là nổi tiếng Trong trường hợp này, đề tài sẽ chọn Cách 1 để biểu diễn đồ thị ý niệm:

[MODEL: *] ← (SubclassOf) ← [FAMOUS_MODEL: ?] → (RW) → O

Trang 30

Cũng có thể với lớp MODEL như trên, nhưng thuộc tính FAMOUS có thể được định nghĩa làmột quan hệ HAS_FAME_PROPERTY với miền chủ ngữ (domain) là lớp MODEL, còn tầmvực vị ngữ (range) là lớp STRING với các giá trị “Yes” hoặc “No” để cho biết các thực thể

người mẫu là nổi tiếng hay không Trong trường hợp này, đề tài sẽ chọn Cách 2 để biểu diễn đồ

thị ý niệm:

[String: Yes] ← (HAS_FAME_PROPERTY) ← [MODEL: ?] → (RW) → O

Khi Ontology chưa định nghĩa bất cứ cách nào trong 2 cách trên, thì đề tài sẽ dùng cách biểudiễn 1, sinh ra lớp con giả, cho tính từ định tính và cách biểu diễn 2, sinh ra quan hệ giả, chotính từ định lượng như được đề nghị trong [tham khảo HA]

3.5 Chuyển đổi câu truy vấn có tính từ so sánh nhất

3.5.1 Trường hợp tính từ định tính

3.5.2 Trường hợp tính từ định lượng [tham khảo HA]

Với câu truy vấn có tính từ định lượng so sánh nhất (Ví dụ: tallest, highest), hướng giải quyết tương tự như đã trình bày ở 3.3 (cho loại truy vấn “How many”), điểm khác biệt là thay quan hệ

“COUNT” thành quan hệ “MIN”, hoặc “MAX” tương ứng, và đường liên kết sẽ chỉ tới lớp “String”

trong quan hệ ứng với tính từ định lượng mà câu truy vấn cần đề cập

Cụ thể như sau: xét dạng tổng quát cho câu truy vấn loại này như bên dưới, với “ADJ_EST” đại

diện cho cụm tính từ so sánh nhất (most adj, least adj, adjEST,…):

Trang 31

Sau đó, ta xác định xem so sánh nhất của tính từ trong truy vấn là tương ứng với lấy “lượng” lớn

nhất hay lấy “lượng” nhỏ nhất Ví dụ: “highest” tương ứng với lấy lượng lớn nhất, còn “lowest” sẽ lấy lượng nhỏ nhất Nếu là trường hợp đầu tiên thì quan hệ là “MAX”, ngược lại là “MIN”.

Nhiệm vụ còn lại là định nghĩa quan hệ “MAX”, “MIN” chỉ tới đỉnh truy vấn con và một đường liên kết nét đôi sẽ được nối từ quan hệ này tới lớp “String” trong cách biểu diễn tính từ định lượng

Ví dụ câu truy vấn “What is the highest dam in the U.S.?” sẽ được biểu diễn như sau:

[hình tham khảo HA]

3.6 Chuyển đổi câu truy vấn có tính từ định lượng so sánh hơn

Đề tài này mở rộng biểu diễn thêm một dạng nữa của tính từ định lượng, đó là dạng so sánh hơn.Trong phần này sẽ đề xuất cách biểu diễn cho 2 dạng so sánh hơn: so sánh hơn với một hằng số, và

so sánh hơn với một thực thể có tên

Đối với dạng so sánh hơn với một hằng số, mẫu câu tổng quát như sau, với “ADJ_ER” đại diện

cho cụm tính từ so sánh hơn (more adj than, less adj than, adjER than,…):

Đầu tiên, ta sẽ biểu diễn mối quan hệ giữa “S” và “ADJ_ER” như 3.4.2 Phần “CONSTANTS”

sẽ được nhận biết như một giá trị thuộc lớp “String” Sau đó, tùy theo tính từ nguyên gốc là gì, ta sẽ xác định được quan hệ so sánh hơn là “isGreaterThan” hay “isSmallerThan” Ví dụ: “higher” sẽ tương ứng với “isGreaterThan”, còn “lower” sẽ tướng ứng với “isSmallerThan” Cuối cùng là thêm

Trang 32

quan hệ này vào giữa lớp “String” trong mối quan hệ biểu diễn tính từ và hằng số Biểu diễn có dạng như sau:

S → (hasProperty) → [String: *] → (isGreaterThan) → [String: *]

Đối với dạng so sánh hơn với thực thể có tên, mẫu câu tổng quát như sau:

Trang 33

CHƯƠNG 4

THIẾT KẾ

4.1 Các bước của giải thuật

Kết quả nghiên cứu của tác giả [18] đã đưa ra một phương pháp dịch câu truy vấn sang đồ thị ýniệm không dựa vào phân tích cú pháp của câu truy vấn mà dựa trên thực thể cùng các mối liên hệgiữa chúng Phương pháp này có các ưu điểm sau:

 Có thể xây dựng đồ thị ý niệm cho các câu truy vấn có hình thức là một câu đầy đủ, hoặcmột đoạn câu Phương pháp này cũng có thể xây dựng được đồ thị ý niệm cho các câu truy vấnkhông đúng cú pháp

 Dễ dàng chuyển đổi để thực hiện cho các câu truy vấn bằng các ngôn ngữ khác nhau khi

“Who is Peter’s son”, ta có Peter là một thực thể có tên thuộc lớp PERSON, son biểu diễn cho một

thực thể thuộc lớp SON, chúng ta gọi là thực thể không tên, và trên Ontology tồn tại quan hệ giữahai thực thể này là <PERSON, HASSON, SON>

Trong đề tài này, phần hiện thực chương trình đã kế thừa lại hạt nhân xử lý từ kết quả nghiêncứu của tác giả [18], đồng thời hiệu chỉnh và giải quyết thêm cho những truy vấn hỏi về số lượng,những truy vấn có chứa tính từ, tính từ so sánh nhất và liên từ luận lý Một lược đồ tổng quát đượctrình bày tại Hình 4.1 với những bổ sung như sau:

Trang 34

Để giải quyết truy vấn hỏi về số lượng (“How many”), phương pháp tiếp cận đã hiệu chỉnh Bước

12 (Xây dựng đồ thị ý niệm).

Để giải quyết truy vấn có chứa tính từ và tính từ so sánh nhất, phương pháp tiếp cận đã thêm

Bước 4 (Nhận diện tính từ) và Bước 11 (Xác định quan hệ giữa tính từ và thực thể), đồng thời hiệu chỉnh Bước 12 (Xây dựng đồ thị ý niệm).

Để giải quyết truy vấn có chứa liên từ luận lý, phương pháp tiếp cận đã thêm Bước 1 (Phân tách

câu truy vấn) và đồng thời hiệu chỉnh Bước 12 (Xây dựng đồ thị ý niệm).

Trang 35

Tiếp theo đây, chúng ta sẽ đi vào chi tiết từng bước của giải thuật.

4.1.1 Phân tách câu truy vấn

Bước này được sử dụng nhằm phân tách câu truy vấn có chứa liên từ luận lý AND, OR, NOTthành các câu truy vấn nguyên tử (là truy vấn mà không có chứa liên từ luận lý trong câu) Nhưchúng tôi đã phân tích tại Mục 3.1.4, Chương 3, những câu truy vấn có liên từ luận lý mà ta đangxem xét là những câu truy vấn có dạng cấu trúc song song Quá trình phân tách sẽ sử dụng liên từluận lý AND, OR, NOT làm từ phân tách Từ kết quả của bước phân tách này, ta sẽ được một tậpcác câu truy vấn nguyên tử

4.1.2 Nhận biết thực thể có tên

Đề tài sử dụng GATE để nhận diện thực thể có tên dựa trên Ontology PROTON Các thực thể

có tên là các thực thể xác định Trên Ontology, các thực thể có tên sẽ có một ID xác định, thuộc về

một lớp xác định, có thông tin về thuộc tính và quan hệ của chúng với các thực thể khác Ví dụ trênPROTON, http://www.ontotext.com/kim/2005/04/wkb#Country là lớp của thực thể “Viet Nam” và

thực thể có tên này có ID xác định là http://www.ontotext.com/kim/2005/04/wkb#Country_T.VM.Quá trình chú thích ngữ nghĩa bằng GATE cho ta kết quả là một tập các thực thể có tên, với cácthông tin về lớp ID của thực thể, lớp của thực thể và các thuộc tính cũng như các mối quan hệ củathực thể Các thực thể có tên được ký hiệu là IE

4.1.3 Nhận biết thực thể không tên

Để xây dựng được đồ thị ý niệm, ngoài việc nhận diện các thực thể có tên, các thực thể khôngtên cũng phải được nhận diện một cách đầy đủ và chính xác Các thực thể không tên là các thực thểkhông xác định và không tồn tại trên Ontology, tuy nhiên về mặt ngữ nghĩa, chúng có thể thuộc về

một lớp xác định nào đó trong Ontology, ví dụ các từ “person”, “son”, “father”, “mother”,… là các

thực thể không tên, và trên PROTON, http://www.ontotext.com/kim/2005/04/wkb#Person là lớpbiểu diễn cho các thực thể không tên này

Công cụ ANNIE trong GATE có thể thực hiện chính xác việc nhận dạng các thực thể không tên.ANNIE giúp ta tất cả các bước trong quá trình tìm kiếm, công việc của chúng ta là xây dựng một

Trang 36

danh sách tên các lớp trong Ontology và lưu vào một tập tin; sau đó, ta sẽ định nghĩa tên tập tin này

vào tập tin chỉ mục có tên là lists.def trong thư mục Gazetteer.

ANNIE cho ta tập các thực thể không tên, và thông tin về lớp của các thực thể không tên đó.Các thực thể không tên được ký hiệu UE

4.1.5 Nhận biết từ quan hệ

Các từ quan hệ được xem là chìa khóa để xác định mối quan hệ giữa các thực thể trong câu truy

vấn Các từ quan hệ là các giới từ, động từ như: in, on, of, live in, located in, has, is, are, …

Tương tự như nhận diện các thực thể không tên, việc nhận diện từ quan hệ cũng được thực hiệnbằng công cụ ANNIE của GATE, điểm khác biệt là chúng ta cần xây dựng danh sách các từ quan hệ

và ánh xạ chúng vào Gazetteer Kết quả nhận biết từ quan hệ là tập các từ quan hệ có trong câu truyvấn Các từ quan hệ được ký hiệu là RW

4.1.6 Xác định lớp của thực thể

Trong các câu hỏi bắt đầu bằng What, Who, Where, các từ để hỏi này được xem là một từ biểu

diễn cho một thực thể không tên và chưa xác định được lớp Nhiệm vụ của bước này là xác địnhchính xác lớp thực thể cho các từ để hỏi nêu trên

Trang 37

Đề tài đề xuất phương pháp xác định lớp cho thực thể What như sau:

 Nếu đứng sau What là một thực thể không tên, thì lớp của What được xác định cũng chính là lớp của thực thể không tên đó Ví dụ trong câu “What country are Godiva chocolates

from?”, sau What là country, mà ta có country là biểu diễn của thực thể không tên thuộc lớp

COUNTRY, do đó lớp của What được xác định là COUNTRY.

 Ngược lại, nếu sau What không phải là thực thể không tên thì lớp của What được xác định bởi thực thể có tên đầu tiên sau What và từ quan hệ cuối cùng trong câu Ví dụ trong câu

“What does CNN stand for?”, CNN là một thực thể có tên thuộc lớp ORGANIZATION và

stand for biểu diễn cho quan hệ HASALIAS, do đó What được xác định là thuộc lớp ALIAS.

Đối với các câu hỏi bắt đầu bằng Who thì từ hỏi Who có thể được hiểu là một thực thể thuộc lớp PERSON hoặc lớp ORGANIZATION Bước này xác định lớp của Who dựa vào từ quan hệ và thực thể đứng sau Who Ta xét một ví dụ như sau: “Who provides telephone service in Orange County,

California?”, lớp của Who trong trường hợp này được xác định là ORGANIZATION

4.1.7 Gom các thực thể

Ta xét câu truy vấn “Who are members of the board of the IMG?”, sau Bước 4.1.6 (Xác định lớp

của thực thể), chúng ta được hai thực thể không tên: Who, member thuộc lớp PERSON và một thực

thể có tên IMG thuộc lớp COMPANY Trong đó Who và member chỉ về cùng một PERSON, là

member của IMG Do đó, Who và member được gom lại thành một thực thể duy nhất.

Quá trình gom thực thể được thực hiện dựa vào heuristic Hai thực thể trong câu truy vấn chỉđược gom lại khi chúng thỏa mãn đồng thời các đặc điểm sau:

 Trong hai thực thể có ít nhất một thực thể không tên

 Lớp của thực thể không tên là lớp cha của lớp của thực thể còn lại, xét trên miềnOntology

 Giữa hai thực thể là dấu phẩy hoặc các từ quan hệ đặc biệt: “is”, “are”, “was”, “were”.

Trang 38

4.1.8 Xác định quan hệ ẩn

Một số thực thể trong câu truy vấn đứng liền kề nhau nhưng không xuất hiện từ quan hệ nào ở

giữa chúng Trong câu “What county is Modesto, California in?”, giữa thực thể Modesto thuộc lớp CITY và thực thể California thuộc lớp PROVINCE tồn tại mối quan hệ SUBREGIONOF, tuy nhiên

giữa chúng không xuất hiện từ quan hệ nào Bước này thực hiện việc thêm từ quan hệ cho các thựcthể đứng liền kề nhau hoặc cách nhau bởi dấu phẩy Việc xác định từ quan hệ dựa vào lớp giữa haithực thể và loại quan hệ giữa hai lớp đó trên Ontology Tuy nhiên trên Ontology, giữa hai lớp có thểtồn tại nhiều loại quan hệ Đề tài sắp xếp các loại quan hệ dựa trên mức độ chi tiết về lớp của loạiquan hệ Quá trình xác định quan hệ ẩn giữa hai thực thể sẽ được tiến hành theo heuristic sau: Taliệt kê tất cả quan hệ có thể có giữa hai thực thể đó trong Ontology và chọn ra quan hệ chi tiết nhất

Ví dụ trong câu truy vấn trên, giữa hai lớp CITY và lớp PROVINCE có thể tồn tại các loại quan hệPARTOF, LOCATEDIN và SUBREGIONOF Trên Ontology PROTON, các loại quan hệ này đượcđịnh nghĩa như sau:

 Quan hệ PARTOF được định nghĩa là (ENTITY, PARTOF, ENTITY)

 Quan hệ LOCATEDIN là (ENTITY, LOCATEDIN, LOCATION)

 Quan hệ SUBREGIONOF là (LOCATION, SUBREGIONOF, LOCATION)

Tương ứng trên Ontology PROTON, lớp LOCATION là lớp con của lớp ENTITY Do đó quan

hệ SUBREGIONOF là quan giữa hai lớp chi tiết nhất nên quan hệ này được chọn

4.1.9 Xác định loại quan hệ giữa các thực thể

Đây là bước mà các cặp thực thể sẽ được liên kết với nhau bằng từ quan hệ, được gọi là một bộ

Trang 39

thực thể Angkor Wat Như vậy, từ quan hệ dùng để biểu diễn mối quan hệ giữa hai thực thể có thể

nằm ở giữa, nằm ở sau hoặc nằm ở trước hai thực thể Khi xem xét trên tập mẫu, từ quan hệ xuấthiện nhiều nhất là ở giữa hai thực thể Do đó, để hình thành nên các bộ ba truy vấn <thực thể, từquan hệ, thực thể>, độ ưu tiên sẽ là vị trí của từ quan hệ đối với vị trí của hai thực thể Ưu tiên thứnhất là từ quan hệ nằm giữa hai thực thể, kế tiếp là từ quan hệ nằm sau hai thực thể và cuối cùng là

từ quan hệ sẽ nằm phía trước hai thực thể Các bộ ba này sau đó sẽ được so trùng với Ontology đểxác định kiểu quan hệ tương ứng có trong Ontology

Dựa vào các phân tích trên, đề tài đưa ra giải thuật xác định kiểu quan hệ giữa hai thực thể trongcâu truy vấn như sau (Hình 4.2):

Hình 4.0.5: Xác định loại quan hệ giữa hai thực thể e i và e j.

 Bước 1: Xét các từ quan hệ nằm giữa e i và e j Bằng việc sử dụng tập luật, nếu có từ quan

hệ nào khi kết hợp với e i và e j xác định được kiểu quan hệ giữa e i và e j thì quá trình dừng,ngược lại qua Bước 2

 Bước 2: Xét các từ quan hệ nằm ở sau e i và e j, tương tự như Bước 1, nếu không xác định

được kiểu quan hệ giữa e i và e j thì qua Bước 3

 Bước 3: Xét các từ quan hệ nằm trước e i và e j

Bằng giải thuật trên, chúng ta xác định được kiểu quan hệ giữa hai thực thể e i và e j, nếu hai thực

thể e i và e j có mối quan hệ với nhau trong ngữ cảnh của câu truy vấn Quá trình được áp dụng tương

tự cho tất cả các cặp thực thể trong câu truy vấn Các loại quan hệ tìm được sẽ được thêm vào danhsách quan hệ RELATION

Việc xác định kiểu quan hệ được làm bằng cách ứng với mỗi bộ ba <thực thể, từ quan hệ, thựcthể> ta sẽ ánh xạ thành <thực thể, kiểu quan hệ, thực thể> Việc ánh xạ này được thực hiện qua giải

Trang 40

pháp lập từ điển (Tập luật) và heuristic Quá trình ánh xạ được khái quát bằng lược đồ như ở Hình4.3.

Hình 4.0.6: Lược đồ ánh xạ kiểu quan hệ của bộ ba truy vấn.

Chi tiết cho lược đồ tại Hình 4.3 được diễn dịch như sau:

 Xét mối quan hệ có dạng [C1, S1] – RW – [C2, S2] với:

o RW là từ quan hệ,

o C1 và C2 lần lượt là lớp của thực thể thứ nhất và thứ hai,

o S1 và S2 lần lượt là giá trị chuỗi ban đầu của thực thể thứ nhất và thứ hai

 Ta sẽ lần lượt xây dựng các ánh xạ sau đây:

o Ánh xạ từ quan hệ RW thành quan hệ R1 - tập những quan hệ có thể tương ứng với từ

quan hệ RW Ví dụ từ quan hệ “’s” tương ứng với tập các quan hệ {HASWIFE,

HASSON, HASCAPITAL, …}

Tiêu đề	Xử Lý Các Câu Truy Vấn Và Tìm Kiếm Trên Kho Tài Liệu Có Chú Thích Ngữ Nghĩa Bằng Tiếng Anh
Tác giả	Nguyễn Trần Đăng Khoa, Tạ Tất Tài
Người hướng dẫn	Pgs.Ts. Cao Hoàng Trụ
Trường học	Đại Học Bách Khoa - Đại Học Quốc Gia TP. Hồ Chí Minh
Chuyên ngành	Khoa Học Máy Tính
Thể loại	Luận văn đại học
Năm xuất bản	2010
Thành phố	TP. Hồ Chí Minh

Định dạng
Số trang	87
Dung lượng	1,94 MB