WEB NGỮ NGHĨA TRONG TRUY XUẤT THÔNG TIN TIỂU LUẬN MÔN HỌC WEB NGỮ NGHĨA VÀ ONTOLOGY (Semantic Web in Information Retrieval) Tiểu luận này trình bày một số cách tiếp cận để truy xuất thông tin trên Web Ngữ nghĩa. Cụ thể, đầu tiên tiểu luận này trình bày về nguyên mẫu thiết kế và thực thi của một framework trong đó cả tài liệu và truy vấn có thể được đánh dấu với các câu lệnh (statement) trong ngôn ngữ Semantic Web DAML+OIL, được gọi là OWLIR. Các câu lệnh này cung cấp cả thông tin cấu trúc và bán cấu trúc về tài liệu và nội dung của nó.
Trang 1TRƯỜNG ĐẠI HỌC KHOA HỌC HUẾ
KHOA CÔNG NGHỆ THÔNG TIN
-oOo -TIỂU LUẬN MÔN HỌC
WEB NGỮ NGHĨA VÀ ONTOLOGY
Đề tài:
WEB NGỮ NGHĨA TRONG TRUY XUẤT
THÔNG TIN (Semantic Web in Information Retrieval)
Giảng viên hướng dẫn: TS Hoàng Hữu Hạnh Học viên thực hiện: Nhóm 1
Trần Mừng Nguyễn Thị Tố Châu Nguyễn Văn Đức Hoàng Minh Đức Phạm Thị Mỹ Linh Lớp: KHMTB – Khóa 2010
Huế, tháng 01 năm 2012
Trang 2MỤC LỤC
MỞ ĐẦU 3
NỘI DUNG 4
1.Giới thiệu 4
2 Nền tảng 5
2.1 DAML và Semantic Web 5
2.2 Truy xuất thông tin trong World Wide Web 6
2.3 Trả lời truy vấn trên Web 7
2.4 Truy vấn DAML 8
3 OWLIR : Thiết kế và Thực thi 9
3.1 Ontology Sự kiện (Event) 10
3.2 Trích xuất văn bản 12
3.3 Hệ thống suy luận 13
3.4 Hệ thống truy xuất thông tin 14
3.5 Truy xuất thông tin hỗ hợp 14
3.6 Luồng xử lý OWLIR 16
4 Swoogle 18
4.1 Kiến trúc của Swoogle 19
KẾT LUẬN 21
TÀI LIỆU THAM KHẢO 22
Trang 3MỞ ĐẦU
Tiểu luận này trình bày một số cách tiếp cận để truy xuất thông tin trên Web Ngữnghĩa Cụ thể, đầu tiên tiểu luận này trình bày về nguyên mẫu thiết kế và thực thi của mộtframework trong đó cả tài liệu và truy vấn có thể được đánh dấu với các câu lệnh
(statement) trong ngôn ngữ Semantic Web DAML+OIL, được gọi là OWLIR Các câu
lệnh này cung cấp cả thông tin cấu trúc và bán cấu trúc về tài liệu và nội dung của nó.Việc lập chỉ mục văn bản và đánh dấu ngữ nghĩa sẽ nâng cao hiệu quả truy xuất đáng kể.Các tiếp cận này cho phép sự suy luận được thực hiện trên thông tin này ở nhiều điểmkhác nhau: đó là khi một tài liệu được lập chỉ mục, khi một truy vấn được xử lý và khi
kết quả truy vấn được đánh giá Sau cùng là SWOOGLE, một máy tìm kiếm các
ontology Web Ngữ nghĩa, tài liệu và dữ liệu được xuất bản trên web Swoogle dùng một
hệ thống thu thập dữ liệu để khám phá các tài liệu RDF và HTML với nội dung RDFđược nhúng bên trong
Do thời gian thực hiện tiểu luận cũng như kinh nghiệm có hạn nên tiểu luận có thểmắc một số sai sót ngoài ý muốn Chúng em rất mong nhận được các góp ý quý báu củaThầy và các bạn học viên trong lớp để đề tài được hoàn thiện hơn
Cuối cùng, chúng em xin chân thành cảm ơn Thầy TS Hoàng Hữu Hạnh đã tận tìnhgiảng dạy và hướng dẫn để nhóm hoàn thành tốt tiểu luận này
Xin chân thành cảm ơn!
Học viên thực hiệnNhóm 1
Thành phố Huế, ngày 01 tháng 01 năm 2012
Trang 4NỘI DUNG 1.Giới thiệu
Chúng ta có thể hình dung web tương lai là các trang chứa cả văn bản và sự đánh dấungữ nghĩa Các kỹ thuật truy xuất thông tin hiện tại không thể khai thác được tri thức ngữnghĩa bên trong các tài liệu và vì vậy không thể đưa ra các câu trả lời chính xác cho cáccâu hỏi Chúng ta chưa thể trích xuất tự động những nội dung như vậy từ nhiều tài liệu.Các tài liệu web được trúc bằng tay, chẳng hạn XML cho phép chúng ta truy xuất nhiềuthông tin chính xác hơn bằng cách sử dụng các công cụ đối sánh cấu trúc và chuỗi, nhưrobot web Harvest, WebSQL, và WebLog Tuy nhiên, với cách tiếp cận này người dùngcần phải nhận thức tốt về cấu trúc của tài liệu, khuôn dạng và tên chính xác của nó và do
đó không thể mở rộng được Các ngôn ngữ biểu diễn tri thức như DAML+OIL mà hỗ trợsuy luận logic có thể giúp chúng ta đạt được sự truy xuất và biểu diễn tri thức chính xác
và mềm dẻo hơn Công nghiệp phần mềm hiện tại đang phát triển nhiều ngôn ngữmetadata (ví dụ RDF (S), OML) cho phép ta lập chỉ mục các tài nguyên thông tin webcùng với sự biểu diễn tri thức (các câu lệnh logic) và lưu trữ chúng trong tài liệu web.Tài liệu web có thể bao gồm văn bản cùng với sự đánh dấu nào đó Có nhiều sự sửdụng tiềm tàng đối với việc chú thích trên semantic web bao gồm luồng công việc(workflow), truy xuất hình ảnh và tính tương tác với thiết bị Trong tiểu luận này, chúngtôi sẽ tập trung vào ba kịch bản liên quan đến các tài liệu văn bản và trang web đượcđánh dấu một cách ngữ nghĩa
- Truy xuất thông tin (IS)- ví dụ, nhận diện và sắp thứ hạng các tài liệu hoặc các trangweb thích hợp để một truy vấn tìm kiếm các mô tả chi tiết liên quan đến USA và các lãnhđạo Afganistan
- Trả lời câu hỏi đơn giản (Q&A) –ví dụ, ai là tổng thống của Hoa Kỳ?
- Trả lời câu hỏi phức tạp – ví dụ, tình trạng hiện tại ở Afganistan như thế nào?
Trang 52 Nền tảng
2.1 DAML và Semantic Web
Web hiện tại chủ yếu bao gồm các trang web với thông tin trong dạng văn bản ngônngữ tự nhiên và hình ảnh nhắm tới sự nhìn nhận và hiểu biết của con người
Hình 1 Tầm nhìn của Berners Lee về Web Ngữ nghĩaMáy tính được dùng chủ yếu để đưa ra thông tin này, bố trí trên màn hình hoặc intrang Ý tưởng đằng sau Semantic Web là gia tăng các trang web này với sự đánh dấu đểgiữ ngữ nghĩa nào đó của nội dung trên các trang và mã hóa nó thành dạng mà máy cóthể hiểu được [18] Điều này yêu cầu một loại ngôn ngữ đánh dấu mới; ngôn ngữ mà hỗtrợ việc định nghĩa các mô hình dữ liệu chia sẻ hoặc ontology cho một lĩnh vực (domain)nào đó và cho phép tác giả trang web tạo ra các câu lệnh (statement) sử dụng ontologynày Các ngôn ngữ đánh dấu hiện tại đang được sử dụng bao gồm RDF (S) [2, 23] vàDAML+OIL [11, 12]
Trang 6Chuẩn XML [8] cung cấp các phương tiện cần thiết để khai báo và sử dụng các cấutrúc dữ liệu đơn giản, được lưu trữ trong các tài liệu XML và máy có thể đọc được Tuynhiên, vì XML chỉ được định nghĩa ở mức cú pháp, máy tính không thể dựa trên việc xácđịnh một cách mơ hồ ngữ nghĩa chính xác của các thẻ XML được dùng trong một tài liệuXML cho trước W3C đã phát triển RDF/S với mục đích nhắm tới các thiếu sót này củaXML Hai chuẩn này cung cấp các framework biểu diễn cho việc mô tả các mối quan hệgiữa các tài nguyên trong dạng các giá trị và thuộc tính được đặt tên, mà tương tự với cácngôn ngữ khung (frame) sơ khai như lược đồ RDF Tuy nhiên, cả hai chuẩn này vẫn còn
là các ngôn ngữ biểu diễn tri thức rất hạn chế do sự thiếu hỗ trợ các biến, các quy tắc,định lượng tổng quát, v.v
Mục đích của DAML+OIL là cho phép sự chuyển đổi web hướng con người hiện tại
mà đang được dùng rộng rãi chỉ với văn bản và đa phương tiện vào Semantic Web nhưhình dung của Berners-Lee [6, 7] Nó cũng tuân theo cùng cách biểu diễn dữ liệu vàthông tin trong tài liệu như XML, và cung cấp các quy tắc và định nghĩa tương tự vớiRDF/S DAML+OIL vì thế là một nỗ lực để phát triển một ngôn ngữ đánh dấu SemanticWeb phổ dụng đủ giàu để cung cấp cho máy tính không chỉ khả năng đọc dữ liệu mà cònvới khả năng biên dịch và suy luận trên dữ liệu DAML+OIL sẽ cho phép phát triển cácứng dụng và agent thông minh mà có thể tự động truy xuất và thao tác thông tin trênInternet và tự Semantic Web của tương lai
2.2 Truy xuất thông tin trong World Wide Web.
Mặc dù một lĩnh vực hoạt động của nghiên cứu cho hơn ba mươi năm, truy xuất thôngtin (IR) chỉ trở nên phổ biến với sự ra đời của World Wide Web Các ứng dụng quenthuộc nhất về truy xuất văn bản là tùy biến truy vấn nơi mà một truy vấn được sử dụng đểtìm kiếm một tài liệu tĩnh Đây là nhiệm vụ mà công cụ thương mại web tìm kiếm nhưAltaVista và Google được biết đến nhiều nhất để giải quyết Công cụ tìm kiếm hoạt độngtrên cơ sở dữ liệu rất lớn và thực hiện một tìm kiếm bằng từ khoá Trong hầu hết cáctrường hợp có độ chính xác thấp, không phải tất cả các câu trả lời tài liệu truy xuất là truyvấn của người dùng Ví dụ, khi một truy vấn "Tổng thống của Mỹ là ai", đã được đặt ra
Trang 7cho Google, một số liên kết truy xuất chứa tên của Tổng thống hiện tại ở một nơi nào đótrong các tài liệu, nhưng tài liệu mô tả “làm thế nào để vận động để trở thành một Tổngthống” và Tổng thống của một tờ báo "USA Today" cũng đã được lấy ra.
Công cụ tìm kiếm thông minh phát triển như là một hậu duệ của công cụ tìm kiếmMeta, nó kết hợp các kỹ thuật máy học thông tin sẽ không chỉ còn được dành cho độc giảcủa con người, mà cũng cho xử lý bằng máy móc, cho phép các dịch vụ thông tin thôngminh, các trang web cá nhân, và các công cụ tìm kiếm về ngữ nghĩa được uỷ quyền.thông tin sẽ không chỉ còn được dành cho độc giả của con người, mà cũng cho xử lý bằngmáy móc, cho phép các dịch vụ thông tin thông minh, các trang web cá nhân, và các công
cụ tìm kiếm về ngữ nghĩa được uỷ quyền Tri thức có thể được chú thích trên trang theomột cách mà các công cụ tự động có thể thu thập và hiểu được nó Ontologies có thể làmcho các tác nhân phần mềm có thể hiểu được tri thức, nó được đánh dấu và tiếp tục rút rakết luận liên quan đến lĩnh vực quan tâm [28]
Agent Paradigm là một công nghệ đầy hứa hẹn để truy xuất thông tin Một số ứngdụng thông minh giao diện IR và đám mây và phân loại Một cách tiếp cận dựa trên tácnhân có nghĩa là các hệ thống IR có thể có khả năng mở rộng, linh hoạt, và tương thích.Tác tử cần một cách để xử lý và "hiểu" thông tin của chúng, cả hai mức độ của tài liệu cánhân / đối tượng cũng như những thực thể tập hợp rộng Phương pháp tiếp cận thống kê,đối với siêu dữ liệu suy ra từ thông tin, chẳng hạn như n-gram và lập chỉ mục ngữ nghĩa
ẩn là đặc biệt thú vị cho việc phân tích đối tượng văn bản, bởi vì chúng là độc lập vềngôn ngữ của văn bản, khả năng chống lỗi chính tả, và cho phép ứng dụng kỹ thuật toánhọc được biết đến nhiều để phân tích ngôn ngữ tự nhiên
2.3 Trả lời truy vấn trên Web
Các hệ thống trả lời truy vấn đã có một phạm vi nghiên cứu trong các lĩnh vực khácnhau giống như biểu diễn tri thức, cơ sở dữ liệu, truy xuất thông tin, giao diện ngườidùng, ngôn ngữ tự nhiên Ưu điểm của các hệ thống dựa trên sự chính xác này kết hợpvới các máy tìm kiếm đã dẫn đến các nỗ lực trong việc mở rộng các hệ thống này đối với
Trang 8web START [19] là một trong các hệ thống QA đầu tiên với một giao diện web, có từnăm 1993 Tập trung trên các câu hỏi về địa lý và InfoLab của MIT, START sử dụng cơ
sở tri thức được biên dịch trước trong dạng bộ ba subject-relation-object và truy xuất các
bộ ba này vào lúc thực hiện trả lời các câu hỏi AskJeeves [1] là một dịch vụ thương mại,cung cấp giao diện câu hỏi ngôn ngữ tự nhiên cho web, nhưng nó dựa trên hàng trămngười biên tập để ánh xạ giữa các mẫu câu hỏi và các site tin cậy MULDER [22] tự cho
là hệ thống trả lời câu hỏi tự động đầu tiên sử dụng web đầy đủ như là cơ sở tri thức của
nó MUDLER sử dụng nhiều bộ phân tích cú pháp ngôn ngữ tự nhiên và các heuristic đểtrả về các câu trả lời có chất lượng cao Sử dụng framework này, hệ thống MULDER cóthể được mô hình hóa để phù hợp với các yêu cầu của trả lời truy vấn trên web
2.4 Truy vấn DAML
Mục đích của ontology và chú thích trên trang web là cho phép ở một mức độ nào đókhả năng truy vấn và thực thi mà không sẵn có trong kỹ thuật tìm kiếm web hiện tại.RDQL là một sự bổ sung của ngôn ngữ truy vấn giống SQL cho RDF Nó xem RDF là
dữ liệu và cung cấp truy vấn với các mẫu bộ ba và các ràng buộc trên mô hình RDF đơnnhất TRIPLE là ngôn ngữ lập trình logic dựa trên RDF cho Semantic Web ở nhóm cơ sở
dữ liệu trường đại học Stanford [27] kiến trúc phân tầng của TRIPLE cho phép sự mởrộng hướng đối tượng giống như lược đồ RDF, được thực hiện trực tiếp với các đặc trưnglogic Horn mở rộng và các mô đun kiểu DAML+OIL có thể được nhận ra thông qua sựtương tác với các thành phần suy luận bên ngoài
DQL, một ngôn ngữ truy vấn DAML+OIL, là một ngôn ngữ truy vấn đơn giản để truyvấn các cơ sở tri thức của DAML+OIL Ngôn ngữ này được xác định là ontology củaDAML+OIL để cả các truy vấn và các kết quả thu được từ việc yêu cầu truy vấn đượcbiểu diễn trong DAML+OIL Để truy vấn một cơ sở tri thức DAML+OIL, ta biểu diễntruy vấn trong DAML+OIL và các kết quả truy vấn này được trả về trong DAML+OIL.Một thể hiện của truy vấn lớp biểu diễn câu hỏi được đặt ra đối với người suy luận Mộtmẫu truy vấn ảnh hưởng đến hội của một hay nhiều bộ ba (triple) Mỗi bộ ba tương ứng
Trang 9với một câu lệnh RDF ngoài trừ vị từ, chủ thể (subject) và đối tượng (object) của nó cóthể là một biến.
3 OWLIR : Thiết kế và Thực thi
Có một sự mâu thuẫn cơ bản giữa quan điểm người về SW và quan điểm tác tử phầnmềm về SW phải được xử lý như thế nào để hỗ trợ truy xuất đầy đủ Các tài liệu có chứađánh dấu ngữ nghĩa có thể được xem theo một trong hai cách Mọi người sẽ có xu hướngxem chúng như là tài liệu văn bản mà thường có chứa một số thông tin bổ sung đó làtruy cập trực tiếp hoặc hữu ích cho họ Tác tử phần mềm mặt khác sẽ xem chúng như làcác mệnh đề để thực hiện suy luận trên đó Bề ngoài, những quan điểm khác nhau làkhông tương thích với nhau Nếu chúng không hòa hợp được, có thể dẫn đến sự pháttriển của Web Ngữ nghĩa mà bỏ các trang web truy cập của con người hiện nay
Bằng việc rút ra những quan điểm khác nhau này, và do đó làm tăng giá trị đánh dấucho người dùng và giá trị của văn bản cho các tác tử phần mềm, chúng tôi cho rằng tìmkiếm và suy luận được ràng buộc chặt chẽ Mọi người sẽ muốn sử dụng Web Ngữ nghĩa
để tìm kiếm không chỉ cho các tài liệu, mà còn cho các thông tin về mối quan hệ ngữnghĩa cụ thể Tuy nhiên, bởi vì nó không còn thực tế giả định một cơ sở tri thức nguyênkhối, Sự rút ra những suy luận thích hợp đòi hỏi phải có quy tắc và sự kiện mà sẽ hỗ trợnhững kết luận mong muốn
Có một phổ rộng các kỹ thuật, có thể được áp dụng đối với truy vấn, và truy xuất cáctài liệu ngữ nghĩa đánh dấu OWLIR là nhằm mục đích để cung cấp một framework, cóthể trích xuất và khai thác các thông tin ngữ nghĩa từ những tài liệu, thực hiện lý luậnphức tạp và kết quả lọc cho độ chính xác tốt hơn
OWLIR có thể được mô tả trong dạng hai thành phần chính: một tập hợp các ontology
và một cơ chế truy xuất thông tin hỗn hợp OWLIR định nghĩa ontology được mã hóa
Trang 10trong DAML + OIL cho phép người dùng xác định quan tâm của họ trong sự kiện khácnhau Các ontology cũng được dùng để chú thích các thông báo sự kiện Các công cụ truyxuất thông tin dựa trên việc sử dụng HAIRCUT Nó sử dụng khai thác văn bản, chúthích, và cơ chế suy luận, bằng cách sử dụng những kiến thức được thể hiện trongontology Dưới đây là phần trình bày các khía cạnh thiết kế và triển khai thực hiện củaframework này thông qua ví dụ về ứng dụng OWLIR giải quyết một tác vụ cụ thể đó là –Trích lọc các thông báo sự kiện cho sinh viên của UMBC.
Kịch bản như sau:
• Hai lần một tuần, sinh viên của UMBC nhận được thông báo email liệt kê khoảng40-50 sự kiện mà có thể họ quan tâm Ví dụ, thuyết trình, thi đấu thể thao, xemphim, …
• Mỗi sinh viên có một “standing query” được sử dụng để định tuyến thông báo sựkiện
– Mỗi sinh viên chỉ nhận các thông báo sự kiện phù hợp với sự quan tâm và
kế hoạch của họ
• Sử dụng hệ thống AeroText LMCO để tự động thêm đánh dấu DAML+OIL vàocác mô tả sự kiện
– Phân loại các thông báo dạng văn bản vào các kiểu sự kiện
– Nhận ra các phần tử chủ chốt và thêm đánh dấu DAML
• Sử dụng JESS để suy luận trên đánh dấu, rút ra các suy luận được hỗ trợ bằngontology
3.1 Ontology Sự kiện (Event)
Ontology là một đặc điểm kỹ thuật rõ ràng của một từ vựng biểu diễn cho một lĩnhvực chia sẻ của các định nghĩa diễn ngôn của các lớp học, quan hệ, chức năng, hạn chế và
Trang 11các đối tượng khác Thực dụng, một ontology thông thường định nghĩa các từ vựng màcác truy vấn và khẳng định được trao đổi giữa các thực thể phần mềm Ontology không bịgiới hạn để bảo toàn định nghĩa, mà trong ý thức logic truyền thống chỉ giới thiệu thuậtngữ và không thêm bất kỳ kiến thức về thế giới Để xác định một khái niệm chúng ta cầnphải phát biểu các tiên đề mà đặt các ràng buộc về việc có thể giải thích cho các thuậtngữ định nghĩa.
Ontology giúp vượt qua những bế tắc trong việc truy xuất thông tin, mà chủ yếu dựatrên các từ khóa tìm kiếm Họ hỗ trợ tìm kiếm thông tin dựa trên nội dung thực tế củamột trang và điều hướng không gian thông tin dựa trên khái niệm ngữ nghĩa Ontologycho phép trả lời truy vấn và dịch vụ tiên tiến trích xuất thông tin, tích hợp các nguồnthông tin không đồng nhất và phân tán làm phong phú bởi kiến thức nền suy ra
Mục tiêu chính phát triển Ontology Sự kiện là phát triển một ontology, mà sẽ giúpngười dùng quan tâm trong các sự kiện khác nhau trong trường đại học, truy xuất cácthông tin có liên quan Đầu tiên chúng tôi xác định các loại tự nhiên trong các hiện tượngđược nghiên cứu, "SỰ KIỆN", và sau đó tìm hiểu những đặc điểm quan trọng nhất của
họ Ontology Sự kiện được xây dựng để mô tả cho các sự kiện của trường đại học Loại
sự kiện theo các loại tự nhiên của các sự kiện nổi bật trong một trường đại học ví dụ nhưchiếu phim, hội thảo, sự kiện thể thao Sự kiện có thể được học tập, hoặc không họctập, miễn phí, viện trợ, mở hoặc bởi lời mời, nhưng những mô tả các loại sự kiện và cácthuộc tính được định nghĩa trong Ontology Một thông báo sự kiện trong khuôn viêntrường được xác định là một ví dụ trong một trong những loại tự nhiên của các sự kiệnhay danh mục con Thể hiện của danh mục con được suy ra là một kiểu con của mộttrong những loài tự nhiên của các sự kiện