DANH MỤC THUẬT NGỮ - TỪ VIẾT TẮT Thuật ngữ, từ viết tắt Giải thích ý nghĩa Ghi chú API Application Programming Interface HTTP HyperText Transfer Protocol Instance Thể hiện của một khá
Trang 1LỜI CAM ðOAN
Tôi xin cam ñoan ñây là công trình nghiên cứu của tôi dưới sự hướng dẫn của TS.Cao Tuấn Dũng Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng ñược ai công bố trong bất kỳ công trình nào khác
Hà Nội, ngày 20 tháng 4 năm 2014
Nguyễn Phát ðạt
Trang 2LỜI CẢM ƠN
Trước hết, em xin gửi lời tri ân và lòng biết ơn sâu sắc ñến TS Cao Tuấn Dũng – Viện công nghệ Thông tin và Truyền thông - ðại học Bách Khoa Hà Nội, người ñã tận tình hướng dẫn và giúp ñỡ cùng với những lời ñộng viên, khích lệ em hoàn thành luận văn này
Em xin chân thành cảm ơn Quý Thầy, Cô nhân viên thuộc Viện Công nghệ Thông tin và Truyền thông, Viện Sau ðại học – Trường ðại học Bách Khoa Hà Nội, những người ñã dành nhiều quan tâm, giúp ñỡ em trong quá trình nghiên cứu
và hoàn thành luận văn
Tôi xin chân thành cảm ơn Thủ trưởng ñơn vị nơi ñang công tác, các ñồng nghiệp thuộc Học viện Hải quân – Nha Trang; cảm ơn các bạn học viên lớp Cao học Công nghệ thông tin khóa 2012A - Nha Trang, những người thân yêu ñã tạo ñiều kiện về mặt thời gian, công việc, ñộng viên, giúp ñỡ trong suốt quá trình học tập và thực hiện luận văn tốt nghiệp
Cuối cùng xin cảm ơn những người thân trong gia ñình cùng bạn bè ñã tạo ñiều kiện thuận lợi nhất, luôn là chỗ dựa về mặt tinh thần vững chắc ñể tác giả hoàn thành nhiệm vụ của mình
Mặc dù bản thân ñã nỗ lực hoàn thành luận văn nhưng cũng không thể tránh khỏi những hạn chế và thiếu sót; kính mong các Thày, Cô thông cảm và tận tình chỉ bảo; rất mong các bạn ñóng góp ý kiến ñể tác giả có thể hoàn thiện hơn ñề tài của mình
Xin kính chúc sức khoẻ và thành công!
Hà Nội, ngày 20 tháng 4 năm 2014
Nguyễn Phát ðạt
Trang 3MỤC LỤC
MỤC LỤC iii
DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH vii
MỞ ðẦU 1
Chương 1: TỔNG QUAN VỀ WEB NGỮ NGHĨA 7
1.1 Worl Wide Web và những mặt hạn chế 7
1.2 Sự ra ñời của Web ngữ nghĩa 7
1.2.1 Web ngữ nghĩa là gì? 8
1.2.2 Lợi ích của việc sử dụng Web ngữ nghĩa 11
1.3 Kiến trúc của Web ngữ nghĩa 12
1.4 Các hướng phát triển của Web ngữ nghĩa 13
1.4.1 Chuẩn hoá các ngôn ngữ biểu diễn dữ liệu trên Web .13
1.4.2 Chuẩn hoá các ngôn ngữ biểu diễn Ontology 14
1.4.3 Phát triển nâng cao Web có ngữ nghĩa 14
1.5 Semantic Search Engine 15
1.5.1 Giới thiệu chung về Search Engine 15
1.5.2 So sánh Search Engine truyền thống và Semantic Search Engine 16
1.6 Ứng dụng Web ngữ nghĩa trong lĩnh vực du lịch 17
1.6.1 Dự án XWMF – An eXtensible Web Modeling Framework 17
1.6.2 Dự ánHarmo-TEN 18
1.6.3 Dự án SEED 19
1.6.4 Dự án SATINE 19
1.6.5 Dự án IM@GINE IT 19
Kết chương: 20
Chương 2: TÌM HIỂU PORTAL VÀ ỨNG DỤNG CÔNG NGHỆ NGỮ NGHĨA XÂY DỰNG PORTAL DU LỊCH 21
2.1 Giới thiệu Portal 21
2.1.1 Khái niệm Portal 21
2.1.2 Sự khác biệt giữa Website thông thường với Portal 22
2.1.3 Phân loại Portal 22
2.2 Các ñặc trưng cơ bản của Portal 23
Trang 42.2.1 Chức năng tìm kiếm 23
2.2.2 Các ứng dụng trực tuyến 24
2.2.3 Cá nhân hoá dịch vụ 24
2.2.4 Portal là một ñiểm tích hợp thông tin duy nhất 24
2.2.5 Portal ñóng vai trò là kênh thông tin 24
2.3 Một số portal ñiển hình hiện nay 25
2.3.1 Uportal 25
2.3.2 Liferay 25
2.3.3 Microsof Office SharePoint server 2007 26
2.3.4 Một số Portal tại Việt Nam 26
2.4 Khảo sát một số portal trong nước và trên thế giới 27
2.4.1 Một số website và portal trong nước 27
2.4.2 Khảo sát một số portal ngữ nghĩa trên thế giới 31
2.4.3 Phương thức ñánh giá Portal ngữ nghĩa 36
2.5 ðề xuất giải pháp xây dựng Cổng thông tin du lịch 37
Chương 3: XÂY DỰNG CỔNG THÔNG TIN DANH THẮNG VÀ DI SẢN VĂN HOÁ TẠI NHA TRANG – ðÀ LẠT 39
3.1 Mục tiêu chức năng của hệ thống 39
3.2 ðịnh hướng sử dụng công nghệ xây dựng hệ thống 40
3.2.1 Cấu trúc dữ liệu thể hiện ñược các thuộc tính của một ñịa ñiểm 40
3.2.2 Hệ thống có khả năng tổng hợp ñược thông tin từ nhiều nguồn 42
3.2.3 Chức năng của hệ thống thể hiện ñược các tri thức liên quan 42
3.2.4 Hệ thống cần có phản hồi nhanh 45
3.3 Xây dựng cơ sở dữ liệu Ontology 45
3.3.1 Khái niệm Ontology 45
3.3.2 Phương pháp xây dựng Ontology 45
3.3.3 Ontology của hệ thống NDSP-Portal 46
3.3.2 Phân loại chủ ñề ñịa ñiểm theo cấu trúc dữ liệu 52
3.4 Tổng hợp và xử lý dữ liệu 57
3.4.1 Quá trình tổng hợp thông tin 57
3.4.2 Quá trình chuyển ñổi dữ liệu sang dạng RDF 57
3.4 Phân tích thiết kế hệ thống 58
Trang 53.4.1 Thiết kế dữ liệu tầng Model 62
3.4.2 Thiết kế chi tiết các module tầng Controller 63
3.4.3 Thiết kế giao diện chức năng tầng View 67
Kết chương: 72
Chương 4: TRIỂN KHAI, THỬ NGHIỆM VÀ đÁNH GIÁ HỆ THỐNG 73
4.1.Triển khai hệ thống 73
4.1.1 Cài ựặt Server 73
4.1.2 Cài ựặt Portal 75
4.2 Thử nghiệm hệ thống 77
4.2.1 Chức năng lọc ựịa ựiểm 77
4.2.2 Chức năng hiển thị thông tin ựịa ựiểm 78
4.3 đánh giá hệ thống 79
KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN 81
PHỤ LỤC 86
Trang 6DANH MỤC CÁC BẢNG
Bảng 0-1 Danh mục các thuật ngữ viết tắt ix
Bảng 2-1 Khảo sát một số Website và Portal ở Việt Nam 29
Bảng 2-2 Bảng so sánh một số portal ngữ nghĩa trên thế giới 36
Bảng 3-1 Chi tiết các thuộc tính nguyên thủy 50
Bảng 3-2 Chi tiết các thuộc tính ñối tượng 51
Bảng 4-1 Một số thao tác với Apache 75
Trang 7DANH MỤC CÁC HÌNH
Hình 0-1 Web ngữ nghĩa như một sự mở rộng của World Wide Web 1
Hình 1-1 Quá trình hình thành và phát triển của Semantic Web 8
Hình 1-2 ðề xuất ñầu tiên về WWW của Tim Berners-Lee năm 1989 9
Hình 1-3 Sự phát triển thông minh của dữ liệu 10
Hình 1-4 Kiến trúc Web ngữ nghĩa (phiên bản 4) 12
Hình 2-1 Trang chủ của CultureSampo 31
Hình 2-2 Trang tìm kiếm của E-culture MultimediaN 33
Hình 2-3 Công nghệ hỗ trợ cho hệ thống MultimediaN 34
Hình 2-4 Sơ ñồ các lớp của Cổng thông tin ngữ nghĩa 37
Hình 3-1 Chức năng lọc ñịa ñiểm theo cấu trúc cây 43
Hình 3-2 Mô tả cách hiển thị chú thích ngữ nghĩa 44
Hình 3-3 Mô tả cách hiển thị ñịa ñiểm có liên quan ngữ nghĩa 44
Hình 3-4 Ontology do Holger Knublauch thiết kế 46
Hình 3-5 Ontology mức cao nhất 47
Hình 3-6 Các lớp con của Place 48
Hình 3-7 Các lớp con của Topic 49
Hình 3-8 Các lớp con của Media 49
Hình 3-9 Các thuộc tính nguyên thủy 50
Hình 3-10 Các thuộc tính ñối tượng 50
Hình 3-11 Cấu trúc quan hệ các ñối tượng 52
Hình 3-12 Cấu trúc cây khái niệm Chủ ñề ñịa ñiểm 53
Hình 3-13 Cấu trúc cây khái niệm về Di sản văn hóa 54
Hình 3-14 Cấu trúc cây khái niệm về Lịch sử 55
Trang 8Hình 3-15 Cấu trúc cây khái niệm về Kiến trúc 56
Hình 3-16 Cấu trúc cây khái niệm về Du lịch 56
Hình 3-17 Cấu trúc cây khái niệm về Bảo tàng 56
Hình 3-18 Kiến trúc tổng quan của hệ thống 59
Hình 3-19 Quá trình xử lý truy vấn Ontology 62
Hình 3-20 Quá trình xử lý truy vấn ngữ nghĩa 63
Hình 3-21 Quá trình xử lý truy vấntheo văn bản 64
Hình 3-22 Quá trình xử lý chỉnh sửa dữ liệu 64
Hình 3-23 Quá trình hiển thị dữ liệu 65
Hình 3-24 Quá trình lưu trữ dữ liệu Cookie 66
Hình 3-25 Quá trình xác nhận quyền chỉnh sửa dữ liệu 67
Hình 3-26 Giao diện trang chủ của Portal 67
Hình 3-27 Hiển thị danh sách các ñịa ñiểm trong hệ thống 68
Hình 3-28 Hệ thống lọc ñịa ñiểm theo chủ ñề phân cấp 69
Hình 3-29 Liệt kê danh sách các ñịa ñiểm ñã xem và các ñịa ñiểm gợi ý 69
Hình 3-30 Giao diện trang Chi tiết ñịa ñiểm 70
Hình 3-31 Giao diện trang Tìm kiếm ñịa ñiểm ngữ nghĩa 71
Hình 3-32 Giao diện trang Truy vấn dạng văn bản 71
Hình 3-33 Giao diện trang tạo mới và chỉnh sửa thông tin ñịa ñiểm 72
Hình 4-1 Giao diện WebView của AllegroGraph 74
Hình 4-2 Giao diện chức năng lọc ñịa ñiểm 77
Hình 4-3 Giao diện chức năng hiển thị thông tin ñịa ñiểm 78
Hình 4-4 Giao diện chức năng tìm kiếm ñịa ñiểm 79
Trang 9DANH MỤC THUẬT NGỮ - TỪ VIẾT TẮT Thuật ngữ, từ viết tắt Giải thích ý nghĩa Ghi chú API Application Programming Interface
HTTP HyperText Transfer Protocol
Instance Thể hiện của một khái niệm trong mô
hình hóa tri thức
Ontology Là một mô hình hóa tri thức mô tả các
khái niệm cũng như mối quan hệ giữa chúng trong một lĩnh vực nhất ñịnh
Property Thuộc tính trong mô hình hóa tri thức
Semantic Web Công nghệ Web ngữ nghĩa
SPARQL SPARQL Protocol And RDF Query
Language - ðây là ngôn ngữ dùng ñể truy vấn dữ liệu ngữ nghĩa ñược mô tả bằng RDF
URI Uniform Resource Identifier
Web services Các dịch vụ web
Bảng 0-1 Danh mục các thuật ngữ viết tắt
Trang 10MỞ ðẦU
Trong xã hội hiện ñại ngày nay, chúng ta ñang “chìm ngập” trong thông tin nhưng lại “khát khao” tri thức Thật vậy, kho dữ liệu World Wide Web chứa một lượng thông tin khổng lồ, chúng ñược tạo ra từ nhiều tổ chức, cộng ñồng và nhiều
cá nhân với những mục ñích khác nhau như: giáo dục, y tế, kinh doanh, thương mại,
du lịch,… Người sử dụng Web có thể dễ dàng truy cập những thông tin này bằng
cách chỉ ra ñịa chỉ URL – Uniform Resource Locator và theo các liên kết ñể tìm ra
các tài nguyên liên quan khác
Các kĩ thuật Web hiện nay vẫn khó khăn trong việc tìm kiếm, rút trích và chọn lọc thông tin dẫn ñến dữ liệu kết quả bị dư thừa.Trong trường hợp này, máy tính chỉ ñược dùng như những thiết bị gửi và trả thông tin, chúng không thể truy xuất ñược những nội dung thật sự cần thiết và do ñó chỉ hỗ trợ ở một mức giới hạn nhất ñịnh trong việc truy xuất và xử lý thông tin Kết quả tất yếu là con người (ở ñây là người sử dụng) phải “gánh” trên vai trách nhiệm không những truy cập và xử
lý thông tin mà còn rút trích và thông dịch những thông tin tìm kiếm ñược
ðể khắc phục các yếu ñiểm của Web hiện tại, khái niệm về “Semantic Web”
ñã ra ñời Khái niệm này ñã ñược Tim Berners-Lee ñịnh nghĩa như sau: “Web ngữ nghĩa như một sự mở rộng của web hiện tại mà trong ñó thông tin ñược xử lý một cách tự ñộng bằng máy tính, làm cho máy tính và con người có thể hợp tác với nhau”
Hình 0-1 Web ngữ nghĩa như một sự mở rộng của World Wide Web
Trang 11Như vậy Web ngữ nghĩa là một mạng lưới các thông tin ựược liên kết theo cách thức ựể máy có thể dễ dàng xử lý thông tin ở mức ựộ toàn cầu đối với các website cung cấp thông tin du lịch thì hầu hết là rời rạc theo nội dung dữ liệu, thông tin bị tách rời; việc truy xuất, tìm kiếm dữ liệu trên các website này ựa phần là tìm kiếm theo từ khóa nên hiệu quả không cao, kết quả những thông tin cần tìm kiếm bị
dư thừa Chắnh vì vậy mà sự ra ựời của Web ngữ nghĩa là một bước tiến vượt bậc so với kỹ thuật Web hiện tại dựa vào khả năng làm việc với thông tin của chúng thay
vì chỉ ựơn thuần là lưu trữ thông tin Với sự lớn mạnh và khả năng lưu trữ thông tin ngữ nghĩa, Web ngữ nghĩa sẽ trở thành một thế hệ Web cho tương lai, thế hệ Web
mà chúng ta ựang chờ ựợi Và ựó cũng là lý do ựề tài ỘXây dựng cổng thông tin danh thắng và di sản văn hóa tại Nha Trang - đà Lạt ứng dụng công nghệ ngữ nghĩaỢ ựược em quan tâm và chọn làm luận văn tốt nghiệp
Trước ựây, việc lưu trữ các di sản văn hóa, việc quảng bá các danh thắng cho mỗi vùng, miền hay một quốc gia,Ầ tất cả chỉ ựược biết ựến thông qua quá trình thăm quan thực tế hoặc thông qua các tư liệu bằng văn bản hay những lưu trữ dưới dạng hình ảnh, video,Ầ.Cho tới khi công nghệ thông tin phát triển, ựặc biệt là các ứng dụng trên Web, việc biết ựến các di tắch, danh thắng hay các di sản văn hóa ở một vùng, miền nhất ựịnh ựã trở thành ựơn giản hơn rất nhiều chỉ với các thao tác trên giao diện Web Bên cạnh ựó, vấn ựề trợ giúp người dùng có thể tra cứu thông tin trên website một cách thuận tiện và chắnh xác ựặt ra bài toán cần phải xây dựng một website có khả năng tìm kiếm và phân loại thông tin Từ ựó, ý tưởng xây dựng một Ộwebsite thông minhỢ hay ỘCổng thông tin Ờ PortalỢ ựược ựề xuất Từ những lý
Trang 12do ựó em lựa chọn ựề tài: ỘXây dựng Cổng thông tin danh thắng và di sản văn hóa tại Nha Trang - đà Lạt ứng dụng công nghệ ngữ nghĩaỢ
2 Mục ựắch nghiên cứu
Mục ựắch của ựề tài là nghiên cứu, sử dụng các kỹ thuật dựa trên công nghệ Web ngữ nghĩaựể xây dựng Cổng thông tin danh thắng và di sản văn hoá tại hai thành phố Nha Trang và đà Lạt để hoàn thành mục ựắch của ý tưởng ựề ra, cần nghiêu cứu các nội dung sau:
Ớ Tìm hiểu lý thuyết tổng quát về Web ngữ nghĩa
Ớ Tìm hiểu mô tơ suy diễn AllegroGraph Server
Ớ đề xuất giải pháp xây dựng ỘCổng thông tin danh thắng và di sản văn hoáỢ tại hai Thành phố Nha Trang và đà Lạt
Ớ Triển khai ứng dụng và thực nghiệm trên môi trường Internet
Ớ Phân tắch và ựánh giá các kết quả ựạt ựược, từ ựó ựưa ra ựịnh hướng phát triển trong tương lai
3 đối tượng và phạm vi nghiên cứu
a) đối tượng nghiên cứu
đối tượng cần nghiên cứu cụ thể bao gồm:
Ớ Nghiên cứu về Semantic Web, RDF/XML, OWL và Ontology; tìm kiếm và khảo sát các tài liệu mô tả thông tin về di sản, di tắch thắng cảnh tại Nha Trang và đà Lạt
Ớ đọc và nghiên cứu các tài liệu giáo viên hướng dẫn cung cấp
Ớ Tham khảo các Ontology về du lịch, các ứng dụng và dự án hiện có trên các tạp chắ khoa học và trên mạng Internet
Trang 13Ớ Xây dựng một portal cung cấp thông tin về hai thành phố ựến người dùng áp dụng công nghệ ngữ nghĩa ựể người dùng có thể tìm kiếm, tra cứu thông tin theo cách thân thiện và chắnh xác
4 Phương pháp nghiên cứu
Với các mục tiêu trên, luận văn sử dụng phương pháp nghiêu cứu lý thuyết
và nghiên cứu thực nghiệm ựể thực hiện ựề tài, cụ thể theo các bước sau:
Ớ Khảo sát các tài liệu mô tả các thông tin về di sản, di tắch thắng cảnh tại Nha Trang Ờ đà Lạt
Ớ Nghiên cứu và xây dựng cơ sở dữ liệu thông tin du lịch
Ớ Tìm hiểu các công nghệ xây dựng cổng thông tin ngữ nghĩa thông qua việc khảo sát các portal ngữ nghĩa trong nước và trên thế giới; tham khảo các tài liệu, các bài báo khoa học do giáo viên hướng dẫn cung cấp và trên mạng Internet
Ớ Ứng dụng xây dựng Cổng thông tin ngữ nghĩa về du lịch cho hai ựịa ựiểm Nha Trang Ờ đà Lạt
5 Ý nghĩa khoa học và thực tiễn của luận văn
a) Ý nghĩa khoa học
Ớ Nghiên cứu công nghệ web ngữ nghĩa (Semantic Web) Ờ Công nghệ mới hiện nay
Trang 14Ớ Hiểu và vận dụng ựược các kiến thức về RDF, Ontology, RDF/XML, RDF Schema, OWL, SPARQL,Ầ
Ớ Cung cấp giải pháp xây dựng Ontology du lịch
Ớ Xây dựng tập từ vựng cơ bản về các ựịa ựiểm, di tắch, danh lam thắng cảnh và di sản văn hoá của Nha Trang và đà Lạt
Ớ Xây dựng Cổng thông tin ngữ nghĩa có khả năng thắch nghi với mối quan tâm của người dùng
6 Cấu trúc luận văn
Với mục tiêu nghiên cứu, tìm hiểu, và xây dựng cổng thông tin du lịch ứng dụng công nghệ ngữ nghĩa, luận văn bao gồm các chương sau:
Chương 1: Tổng quan về Web ngữ nghĩa: Chương này ựề cập ựến những
kiến thức nền tảng về Semantic Web bao gồm các kiến trúc, khái niệm, ứng dụng ựiển hình của công nghệ Semantic Web Qua ựó, ựánh giá những ưu ựiểm mà công nghệ Semantic Web mang lại
Chương 2: Tìm hiểu Portal và ứng dụng Web ngữ nghĩa xây dựng Portal du lịch: Chương này ựi sâu khảo sát, tìm hiểu các công nghệ xây dựng Cổng
thông tin trong nước và trên thế giới hiện nay và phân tắch các tắnh năng và ắch lợi của portal ngữa nghĩa trong các nghiên cứu này
Chương 3: Xây dựng Cổng thông tin danh thắng và di sản văn hoá tại Nha Trang Ờ đà Lạt: Chương này phân tắch và ựưa ra các mục tiêu chức năng của
Trang 15hệ thống; ñề xuất giải pháp xây dựng Cổng thông tin du lịch; trình bày chi tiết về quá trình phân tích thiết kế và xây dựng hệ thống
Chương 4: Thử nghiệm và ñánh giá hệ thống: Chương này sẽ tiến hành
cài ñặt và chạy Demo hệ thống cả ở phía Server cũng như Client; ñưa ra một số hình ảnh minh hoạ quá trình vận hành của Portal ñã xây dựng và các kết quả do các tính năng ngữ nghĩa mang lại ðồng thời, ñánh giá những ñiều ñã làm ñược so với
hệ thống trong nước và nước ngoài
Trang 16Chương 1: TỔNG QUAN VỀ WEB NGỮ NGHĨA 1.1 Worl Wide Web và những mặt hạn chế
Ngày nay, hệ thống mạng toàn cầu (WWW) ñã phát triển rộng khắp và trở thành một kho tàng thông tin khổng lồ của nhân loại, một môi trường chuyển tải thông tin không thể thiếu ñược thông qua một loạt các tiêu chuẩn ñược thiết lập rộng rãi và ñảm bảo ñược các thành phần ở các mức ñộ khác nhau Giao thức TCP/IP ñảm bảo rằng chúng ta không phải lo lắng về việc chuyển từng bit dữ liệu thông qua hệ thống mạng nữa Tương tự như vậy, HTTP và HTML ñã cung cấp các cách tiêu biểu ñể có thể nhận thông tin và trình diễn các tài liệu siêu văn bản trên giao diện web
Tuy nhiên, trước sự bùng nổ thông tin trên Web cũng ñặt ra một thách thức mới là làm thế nào ñể khai thác ñược thông tin này một cách hiệu quả, mà cụ thể là làm sao ñể máy tính có thể hiểu và suy diễn ñược chúng Dữ liệu trong các file HTML có thể hữu ích trong một vài ngữ cảnh nhưng vô nghĩa ñối với những ngữ cảnh khác Thêm vào ñó HTML không thể mô tả về dữ liệu ñóng gói trong nó Bởi vậy, nếu như các thành phần chính yếu của dữ liệu trong Web trình bày theo dạng thức thông thường thì thật khó sử dụng dữ liệu này một cách phổ biến Một thiếu sót của Web hiện nay là thiếu cơ cấu hiệu quả ñể chia sẻ dữ liệu khi ứng dụng ñược phát triển một cách ñộc lập Do ñó cần phải mở rộng Web ñể máy tính có thể hiểu, tích hợp dữ liệu cũng như tái sử dụng dữ liệu thông qua các ứng dụng khác nhau
1.2 Sự ra ñời của Web ngữ nghĩa
Thế hệ web ñầu tiên bắt ñầu với những trang HTML thủ công, thế hệ thứ hai
ñã cải thiện thêm một bước là làm cho máy thực hiện và thường là các trang HTML ñộng Các thế hệ web này mang ý nghĩa cho con người thao tác trực tiếp thông qua việc tìm kiếm, ñọc, duyệt, nhập thông tin vào form, Thế hệ web thứ ba gọi là
“Semantic Web” ñược xây dựng nhằm mục ñích là thông tin sẽ do máy xử lý Ý tưởng Web ngữ nghĩa (Semantic Web), một thế hệ mới của Web ra ñời do chính cha
ñẻ của World Wide Web là Tim Berners-Lee ñề xuất vào năm 1998
Trang 17Web ngữ nghĩa là sự mở rộng của Web hiện tại mà trong ñó thông tin ñược ñịnh nghĩa rõ ràng sao cho con người và máy tính có thể cùng làm việc với nhau một cách hiệu quả hơn Mục tiêu của Web có ngữ nghĩa là ñể phát triển các chuẩn chung và công nghệ cho phép máy tính có thể hiểu ñược nhiều hơn thông tin trên Web, sao cho chúng có thể hỗ trợ tốt hơn việc khám phá thông tin (thông tin ñược tìm kiếm nhanh chóng và chính xác hơn), tích hợp dữ liệu (dữ liệu liên kết ñộng) và
tự ñộng hóa các công việc
Hình 1-1 Quá trình hình thành và phát triển của Semantic Web
1.2.1 Web ngữ nghĩa là gì?
Web ngữ nghĩa là một sự mở rộng của Web hiện tại, có thể hiểu như là một mạng lưới thông tin kết nối với nhau theo cách mà có thể dễ dàng xử lý bởi máy
Trang 18tính trên phạm vi toàn cầu Hay nói khác ñi, Web ngữ nghĩa là công nghệ lưu trữ thông tin sao cho máy tính có thể hiểu và suy diễn ñược
Web ngữ nghĩa ñược hình thành từ ý tưởng của Tim Berners-Lee, ông cũng
là tác giả phát minh ra WWW, URIs, HTTP và HTML
Hình 1-2 ðề xuất ñầu tiên về WWW của Tim Berners-Lee năm 1989
Web ngữ nghĩa là một phương pháp cho phép ñịnh nghĩa và liên kết dữ liệu một cách có ngữ nghĩa hơn nhằm phục vụ cho máy tính có thể “hiểu” ñược Ngoài
ra, Web ngữ nghĩa còn cung cấp một môi trường chia sẻ và xử lý dữ liệu một cách
tự ñộng bằng máy tính Con ñường ñể máy tính có thể hiểu và xử lý ñược dữ liệu là làm cho dữ liệu ñược thông minh hơn
Trang 19Ví dụ dưới ñây cho chúng ta thấy cách nhìn tổng quát về các giai ñoạn phát triển tính thông minh của dữ liệu:
Hình 1-3 Sự phát triển thông minh của dữ liệu
Sơ ñồ trên minh họa bốn giai ñoạn phát triển tính thông minh của dữ liệu từ thấp ñến cao với ñầy ñủ thông tin ngữ nghĩa cho máy tính có thể suy luận ñược, bao gồm:
• Văn bản và cơ sở dữ liệu (pre-XML): là giai ñoạn khởi ñầu, hầu hết
các dữ liệu thuộc ứng dụng, bởi vậy “tính thông minh” nằm trong ứng dụng chứ
không phải trong dữ liệu
• Tài liệu XML sử dụng bộ từ vựng ñơn: Ở giai ñoạn này dữ liệu ñạt ñược là ứng dụng ñộc lập trong một miền ñơn
• Các phân lớp XML và tài liệu với các bộ từ vựng hỗn hợp: Ở giai
ñoạn này, dữ liệu ñược biên soạn từ nhiều lĩnh vực và ñược phân lớp chuẩn xác theo một nguyên tắc phân loại có thứ bậc
• XML Ontology và các lập luận tự ñộng: Ở giai ñoạn này, những dữ
liệu mới có thể ñược suy diễn ra từ các dữ liệu ñã biết theo các luật logic
Trang 20Như vậy, việc xây dựng web ngữ nghĩa chủ yếu tập trung xây dựng hệ thống web có dữ liệu thông minh Dữ liệu thông minh ở ựây không có nghĩa là gắn liền với trắ tuệ nhân tạo, không phải là cho máy học hiểu các từ ngữ của con người hay máy xử lý ựược ngôn ngữ tự nhiên mà nó thông minh bởi việc tổ chức lựa chọn dữ liệu biểu diễn trong ngôn ngữ ựược cấu trúc ựể máy có thể hiểu ựược
1.2.2 Lợi ắch của việc sử dụng Web ngữ nghĩa
1.2.2.1 Máy có thể hiểu ựược thông tin trên Web
Internet ngày nay dựa hoàn toàn vào nội dung, do ựó Web hiện hành chỉ cho con người ựọc chứ không dành cho máy hiểu Web ngữ nghĩa sẽ cung cấp ý nghĩa cho máy hiểu Vắ dụ như:
Ớ Vinpearl Land là ựiểm du lịch ựẹp của thành phố Nha Trang
Ớ Po Nagar là ngôi ựền Chăm Pa ở Nha Trang
Ớ Thung lũng tình yêu là ựịa ựiểm nổi tiếng của đà Lạt
Những câu như thế này có thể hiểu bởi con người nhưng chúng không thể hiểu ựược bởi máy tắnh
Web ngữ nghĩa là tất cả những gì về cách tạo một Web mà cả người và máy
có thể hiểu Người dùng máy tắnh sẽ vẫn có thông tin trình bày theo cách trước ựây, nhưng ựối với máy tắnh, Web ngữ nghĩa chắnh là sự khác biệt so với Web hiện hành Máy sẽ không phải suy luận dựa vào ngữ pháp và các ngôn ngữ ựánh dấu (Markup Language) vì cấu trúc ngữ nghĩa của văn bản (Text) thực sự ựã bao hàm trong nó
1.2.2.2 Thông tin ựược tìm kiếm nhanh chóng và chắnh xác hơn
Với Web có ngữ nghĩa, việc tìm kiếm sẽ dễ dàng nếu mọi thứ ựược ựặt trong ngữ cảnh Ý tưởng chắnh yếu là toàn bộ ngữ cảnh mà người sử dụng ựược biết ựến
Mục tiêu của Web ngữ nghĩa là phát triển các tiêu chuẩn và kĩ thuật ựể giúp máy hiểu nhiều thông tin trên Web hơn, ựể chúng tìm ra các thông tin dồi dào hơn, tắch hợp, duyệt dữ liệu, và tự ựộng hóa các thao tác
Trang 21Với Web ngữ nghĩa, chúng ta không những nhận ñược những thông tin chính xác hơn khi tìm kiếm thông tin từ máy tính, mà máy tính còn có thể tích hợp thông tin từ nhiều nguồn khác nhau, biết so sánh các thông tin với nhau và cuối cùng là ñưa ra kết quả theo mong muốn của người tìm kiếm thông tin
1.3 Kiến trúc của Web ngữ nghĩa
Web ngữ nghĩa ñược xây dựng trên nền hệ thống của web thông thường Do vậy, Web ngữ nghĩa ñược coi là sự mở rộng của web hiện tại nhưng có bổ sung thêm ngữ nghĩa vào dữ liệu trên web ðể có ñược khả năng trên, Web ngữ nghĩa cần có một hạ tầng chặt chẽ với sự kết hợp của nhiều tầng ngôn ngữ Tất cả các tầng này ñược xây dựng nhằm ñảm bảo ñộ an toàn và giá trị thông tin trở nên tốt nhất
Kiến trúc của Web ngữ nghĩa ñược biểu diễn theo sơ ñồ dưới ñây:
Hình 1-4 Kiến trúc Web ngữ nghĩa (phiên bản 4)
ðây là phiên bản ñược hoàn thiện năm 2006 và ñược giả ñịnh là tám tầng thay vì bảy tầng như các phiên bản trước
• Tầng Unicode & URI: nhằm bảo ñảm việc sử dụng tập kí tự quốc tế và
cung cấp phương tiện nhằm ñịnh danh các ñối tượng trong Web ngữ nghĩa
Trang 22• Tầng XML cùng với các ñịnh nghĩa về namespace và schema (lược ñồ) bảo
ñảm rằng chúng ta có thể tích hợp các ñịnh nghĩa Web ngữ nghĩa với các chuẩn dựa trên XML khác
• Tầng RDF [RDF] và RDF Schema [RDFS]: ta có thể tạo các phát biểu
(statement) ñể mô tả các ñối tượng với những từ vựng và ñịnh nghĩa của URI, và các ñối tượng này có thể ñược tham chiếu ñến bởi những từ vựng và ñịnh nghĩa của URI ở trên ðây cũng là tầng mà chúng ta có thể gán các kiểu (type) cho các tài nguyên và liên kết; ñây cũng là tầng quan trọng nhất trong kiến trúc Web ngữ nghĩa
• Tầng Ontology: hỗ trợ sự tiến hóa của từ vựng vì nó có thể ñịnh nghĩa mối
liên hệ giữa các khái niệm khác nhau
• Tầng Digital Signature: ñược dùng ñể xác ñịnh chủ thể của tài liệu (vd: tác
giả của một tài liệu hay một lời tuyên bố)
Các tầng Logic, Proof, Trust: ñang trong giai ñoạn nghiên cứu và các thể
hiện của các ứng dụng giản ñơn ñang ñược xây dựng Tầng Logic cho phép viết ra các luật (rule) trong khi tầng Proof thi hành các luật và cùng với tầng Trust ñánh giá nhằm quyết ñịnh ứng dụng nên hay không nên tin tưởng/chấp nhận (trust) chứng cớ (proof)
1.4 Các hướng phát triển của Web ngữ nghĩa
ðể xây dựng hệ thống Web ngữ nghĩa thay thế cho Web hiện tại, các nhà nghiên cứu ñang nỗ lực và tập trung nghiên cứu theo ba hướng chính sau:
- Chuẩn hoá các ngôn ngữ biểu diễn dữ liệu (XML) và siêu dữ liệu (RDF) trên nền Web
- Chuẩn hoá các ngôn ngữ biểu diễn Ontology cho Web có ngữ nghĩa
- Phát triển nâng cao Web có ngữ nghĩa – SWAD
1.4.1 Chuẩn hoá các ngôn ngữ biểu diễn dữ liệu trên Web
Như chúng ta biết, Web ñã rất thành công bởi ngôn ngữ XML Chính XML
ñã làm cho công nghệ Web phát triển mạnh mẽ như hiện nay Web ngữ nghĩa ñược phát triển dựa trên nền Web hiện tại, trên nền XML nhưng ñược bổ sung thêm các
Trang 23chú thích ngữ nghĩa cho các tài nguyên Web Tổ chức W3C ñã giới thiệu RDF như một chuẩn cú pháp ñể tạo lập, thay ñổi và ñược sử dụng ñể chú thích trong Web ngữ nghĩa Do ñó, việc xây dựng ngôn ngữ chuẩn cho XML và RDF là thiết yếu ñể biểu diễn dữ liệu cho Web ngữ nghĩa Trong quá trình này, ñã có một số cú pháp ñược ñưa ra ñể biểu diễn RDF như: Notation 3 (N3), XML/RDF hay ñồ thị các mệnh ñề của RDF,… Các cú pháp này hỗ trợ biểu diễn dữ liệu cho máy có thể hiểu ñược
1.4.2 Chuẩn hoá các ngôn ngữ biểu diễn Ontology
Ontology ñóng vai trò then chốt trong việc cung cấp tài nguyên có thể truy nhập ñể xử lý tự ñộng bằng cách cung cấp bộ từ vựng cho việc ñánh dấu ngữ nghĩa của Web ngữ nghĩa ðể biểu diễn Ontology cho phát triển Web có ngữ nghĩa cần thiết phải ñưa ra một ngôn ngữ chuẩn cho sự biểu diễn mềm dẻo, linh hoạt và ña dạng của tài nguyên Web Trong quá trình chuẩn hoá ngôn ngữ biểu diễn Ontology, một số ngôn ngữ ñược ñề xuất với các khả năng biểu diễn tăng dần như: RDFS, DAML+OIL, OWL,…và tiếp tục ñược mở rộng trong tương lai Tổ chức W3C ñã làm việc tích cực ñể chuẩn hoá các chuẩn dữ liệu và ñã quyết ñịnh lựa chọn RDF và OWL là hai chuẩn quan trọng nhất trong số các công nghệ Web ngữ nghĩa ðiều này ñã cung cấp một cơ sở vững chắc ñể triển khai các ứng dụng Web ngữ nghĩa trên diện rộng cũng như làm nền tảng cho việc xây dựng các ứng dụng mới
1.4.3 Phát triển nâng cao Web có ngữ nghĩa
Các công việc chuẩn hoá các ngôn ngữ biểu diễn dữ liệu XML, siêu dữ liệu RDF hay ngôn ngữ biểu diễn Ontology là các công việc nền tảng, cơ sở tạo ra chuẩn chung ñể phát triển hệ thống và các ứng dụng trên Web ngữ nghĩa Theo ñó, việc ñưa các chuẩn ñó thành các thể hiện, các sản phẩm của hệ thống Web ngữ nghĩa là công việc của SWAD SWAD chỉ ra các công nghệ Web ngữ nghĩa ñược sử dụng như thế nào? Mục tiêu cụ thể của SWAD là sử dụng công nghệ, kỹ thuật và các công cụ hiện có của Web ngữ nghĩa ñể tạo ra các chương trình ở mức ñộ cao hơn,
Trang 24ñồng thời phát triển các thể hiện thực tiễn và cung cấp các công cụ và các chuẩn mới cho Web ngữ nghĩa Hiện ñã có một số dự án của các tổ chức thực hiện nghiên cứu và phát triển SWAD như: SWAD-Europe, SWAD-DAML, SWAD-Oxygen, SWAD-Smile
Hiện tại ở Việt Nam, một số dự án ñang nghiên cứu, thực hiện rút trích tự ñộng thông tin từ các trang web tin tức ñể xây dựng Ontology cho lĩnh vực này nhằm từng bước “tiếp nhận” công nghệ Web ngữ nghĩa Trong quá trình phát triển các ứng dụng nâng cao về Web ngữ nghĩa, việc xây dựng các ứng dụng tìm kiếm ngữ nghĩa là một hướng ñi chủ ñạo Các kiến thức về tìm kiếm ngữ nghĩa cũng như các chức năng tìm kiếm ngữ nghĩa ñược xây dựng ñược trong phạm vi ứng dụng của luận văn sẽ ñược trình bày ở các phần tiếp theo
1.5 Semantic Search Engine
1.5.1 Giới thiệu chung về Search Engine
Search Engine (hay còn ñược gọi là “máy tìm kiếm”) là một ứng dụng ñóng vai trò rất quan trọng ñối với Web Hiện nay, có rất nhiều mô hình Search Engine
ñã xây dựng và ñang hoạt ñộng rất hiệu quả như Google, Yahoo, Bing, MSN,…và rất nhiều các Search Engine khác trên các trang web của công ty, tổ chức, trường học,…
Hầu hết các Search Engines hiện nay ñều theo kiểu Keyword Search Engine,
tức là chỉ tìm kiếm theo dạng từ khoá Cơ chế hoạt ñộng của chúng là ñịnh kì duyệt Web ñể phát hiện ra những sự thay ñổi, sau ñó lập chỉ mục cho những thay ñổi này Theo ñó, người dùng có thể tạo các câu truy vấn bao gồm các từ khóa trên các chỉ mục ñó ñể tìm kiếm thông tin Tuy nhiên, phương pháp này gặp phải một số vấn ñề sau ñây:
• Một từ khóa có thể có một hay nhiều ý nghĩa tùy theo từng ngữ cảnh
mà máy tìm kiếm không thể hiện mối quan hệ giữa các từ khóa với nhau
Trang 25• Các trang Web có cùng ý nghĩa với câu truy vấn của người sử dụng nhưng không khớp với từ khoá tìm kiếm về mặt so sánh chuỗi sẽ không ñược nêu ra trong kết quả trả về
• Trong nhiều trường hợp, người dùng muốn tìm kiếm các thông tin tương ñương về mặt ngữ nghĩa chứ không chỉ tìm kiếm thông tin chi tiết
Do vậy, nếu các Search Engine ñược tích hợp thêm tri thức ñể hiểu ñược ý nghĩa của các từ khoá nhập vào thì nó sẽ cho kết quả tìm kiếm chính xác hơn; lúc
ñó, việc tìm kiếm sẽ dựa trên khái niệm chứ không phải theo từ khoá thông thường Semantic Search Engine chính là một ưu ñiểm của công nghệ Web ngữ nghĩa, nó ñã khắc phục ñược những khuyết ñiểm của các máy tìm kiếm truyền thống
1.5.2 So sánh Search Engine truyền thống và Semantic Search Engine
1.5.2.1 Search Engine truyền thống
Như trên ñã trình bày, do các Search Engine truyền thống sử dụng các từ khoá (Keyword) ñể tìm kiếm nên không thể tìm ra các kết quả phù hợp với mong muốn người dùng một cách tốt nhất Những mặt hạn chế này là do một số vấn ñề sau:
• Những tài liệu người dùng muốn tìm có thể sử dụng những thuật ngữ khác (hay những từ ñồng nghĩa)
• Những lỗi chính tả và các biến thể của từ ngữ ñược xem là những thuật ngữ khác nhau ñối với môi trường máy tính
• Search Engine không thể xử lý các trang HTML một cách thông minh
Do ñó, người dùng ñôi khi phải sử dụng nhiều Search Engine hoặc các Search Engine chuyên biệt (theo từng lĩnh vực) ñể mong có ñược kết quả theo ý muốn
1.5.2.2 Semantic Search Engine
Trang 26Những nhược ñiểm vốn có của Search Engine truyền thống có thể ñược khắc phục bằng cách sử dụng công cụ Semantic Search Engine.Bằng việc kế thừa những
ưu ñiểm của công nghệ Semantic Web, công cụ tìm kiếm này sẽ ñáp ứng ñược hầu hết các mong muốn của người dùng, cụ thể là:
• Một viễn cảnh về lĩnh vực tri thức (knowledge domain) tốt hơn
• Cho phép tìm kiếm thông tin dựa trên nội dung tài liệu (có ngữ nghĩa)
• Thông tin tìm kiếm ñược trả về chính xác và phù hợp (ưu việt hơn rất nhiều nếu dùng các Search Eninge truyền thống)
• Cách tổ chức dữ liệu theo hướng ñối tượng có khả năng hỗ trợ tìm kiếm trên nhiều lĩnh vực, nhiều ñịnh dạng file, tìm kiếm ña ngôn ngữ,… với ñộ chính xác cao
• ðược sự hỗ trợ to lớn từ các Agent tự ñộng Các Agent này hỗ trợ cho
Semantic Search Enginetrong việc thi hành các dịch vụ tự ñộng như
duyệt thông tin, ñánh giá thông tin, tổng hợp thông tin, lập các bảng
dữ liệu (thống kê, ñánh giá, báo cáo), ghi nhận sở thích cá nhân,…và rất nhiều dịch vụ thông minh khác nhằm hỗ trợ tối ña và tốt nhất ñối với nhu cầu người dùng
• Hiểu ngữ nghĩa của những từ mà người dùng muốn tìm thông qua cách mô tả ngữ nghĩa trong bộ cơ sở dữ liệu Ontology tương ứng ñối với từng lĩnh vực cụ thể
1.5.2.3 Một số Semantic Search Engine hiện nay
(Xem Phụ lục 1)
1.6 Ứng dụng Web ngữ nghĩa trong lĩnh vực du lịch
1.6.1 Dự án XWMF – An eXtensible Web Modeling Framework
Dự án ñược thực hiện bởi Alexander Block và Reinhold Klapsing, University
of Essen, CHLB ðức XWMF sử dụng một mô hình RDF metadata ñể xác ñịnh nội
Trang 27dung và cấu trúc của một website, từ ñó sẽ tạo các statements về các thành phần của website ñó bằng mô tả RDF
Bộ công cụ XWMF cung cấp RDF parser cho phép xử lý và truy vấn các mô hình dữ liệu RDF; RDF handle trợ giúp truy vấn dữ liệu RDF; thư viện Tcl-Scripts
hỗ trợ cho lập trình Bên cạnh ñó, công cụ còn cung cấp trình biên tập ñồ hoạ GraMToR ñể tương tác với mô hình dữ liệu RDF, có thể chuyển ñổi tuần tự từ XML sang RDF tương ứng GraMToR có thể lưu trữ dữ liệu RDF theo ba dạng:
*.rdf, *.frm và *.brm
Tất cả chúng ñều ñược viết từ các biến thể của ngôn ngữ Tcl và một số thư viện cần thiết khác
1.6.2 Dự ánHarmo-TEN
Dự án ñược biết ñến với tên gọi Harmonise, là một sáng kiến của Cộng ñồng
châu Âu nhằm thúc ñẩy hệ thống thông tin du lịch khả năng tương tác thông qua việc áp dụng và sử dụng một “Ontology du lịch cỡ nhỏ” Dự án Harmo -TEN và cách tiếp cận của họ ñược dựa trên ñiều kiện thuận lợi và ñơn giản hóa ánh xạ giữa các mô hình dữ liệu theo các tiêu chuẩn khác nhau Như một phần của dự án, nhóm nghiên cứu Harmo-TEN phân tích các chuẩn dữ liệu về du lịch hiện có và các dự án khác (Hopken 2002) và phát hiện ra: hơn 40 tiêu chuẩn dữ liệu liên quan ñến du lịch, nhiều cách tiếp cận mô hình hóa, ngôn ngữ và mức ñộ khác nhau, và một số nhất quán giữ các tiêu chuẩn chính (ví dụ như mô hình tham chiếu OTA và IFITT RMSIG ), ñó cũng là một mức ñộ cao của sự chồng chéo và xung ñột giữa các dữ liệu ngữ nghĩa Ngoài ra, nhóm nghiên cứu Harmo-TEN cho rằng hầu hết các tiêu chuẩn Công nghệ thông tin hiện nay về du lịch ñều ở mức ñộ thấp và dự án cung cấp các giải pháp kỹ thuật trên một mức ñộ khái niệm trừu tượng hơn Quá trình xử
lý và tích hợp dữ liệu gồm hai giai ñoạn:
- Giai ñoạn tùy biến dựa trên các bản ñồ ngữ nghĩa các dữ liệu thuộc sở hữu của người sử dụng và các khái niệm trong ontology của dự án Giai ñoạn này ñược thực hiện một lần khi một tổ chức du lịch mới tham gia vào mạng Harmonise ðầu
Trang 28ra là một tập hợp các tùy chỉnh của Harmonise sẽ ñược sử dụng trong suốt quá trình
hợp tác
- Giai ñoạn hợp tác nhằm mục ñích chuyển ñổi ñịnh dạng dữ liệu người sử dụng trong một ñại diện thích hợp nhằm trao ñổi với người sử dụng khác trong mạng lưới Harmonise dựa trên các quy tắc Harmonise
1.6.3 Dự án SEED
SEED project (Cardoso, Jorge & Fernandes 2005) ñã ñược bắt ñầu với mục tiêu phát triển một cách mới ñể thực hiện hệ thống ñóng gói ñộng ðể tạo ra các gói ñộng, hệ thống phải tích hợp các nguồn dữ liệu khác nhau du lịch Các nguồn dữ liệu có thể có ñịnh dạng dữ liệu rất khác nhau và có thể ñược truy cập bằng phương pháp rất khác nhau ðể khắc phục tính không ñồng nhất, SEED sử dụng công nghệ Semantic Web Bằng cách tạo ra một mô hình ngữ nghĩa của các lĩnh vực du lịch và liên kết mô hình này với mỗi một trong những nguồn dữ liệu, nguồn thông tin ñược
dễ dàng hơn tích hợp
1.6.4 Dự án SATINE
SATINE project là viết tắt của Semantic-based Interoperability Infrastructure cho phép tích hợp các nền tảng dịch vụ Web cho các giao thức mạng Peer-to-Peer Dự án Satine ñược biết ñến như là framework có khả năng tương tác ngữ nghĩa dựa trên khai thác nền tảng dịch vụ Web kết hợp với mạng Peer-to-Peer trong ngành công nghiệp du lịch Mục ñích của dự án này là cung cấp các dịch vụ web ngữ nghĩa dựa trên ñăng ký dịch vụ như UDDI hoặc ebxmI tương thích với các dịch vụ web trên các mạng P2P Hiện tại, Ontology du lịch ñang ñược phát triển và ngữ nghĩa áp dụng cho các dịch vụ Web ñược thiết kế dựa trên thông số kỹ thuật tiêu chuẩn như của Open Travel Alliance
1.6.5 Dự án IM@GINE IT
Xây dựng dự án IM@GINE IT nhằm mục ñích phát triển một ñiểm truy cập
duy nhất, thông qua ñó người dùng cuối có thể có dựa trên ñịa ñiểm, thông tin giao thông liên phương thức, lập bản ñồ và ñịnh tuyến, chuyển hướng và các dịch vụ liên
Trang 29quan khác ở khắp mọi nơi ở châu Âu, bất cứ lúc nào,… ñược tích hợp vào tài khoản
cá nhân sở thích của người sử dụng Một tính năng sáng tạo chính của dự án là việc phát triển ontology giao thông và du lịch chung cho các ứng dụngWeb ngữ nghĩa
Kết chương:
Chương 1, tác giả ñã ñề cập ñến những kiến thức nền tảng về Semantic Web, ñánh giá những ưu ñiểm mà công nghệ Semantic Web mang lại và ñưa ra một số ứng dụng của web ngữ nghĩa trong lĩnh vực du lịch Việc sử dụng công nghệ Semantic Web xây dựng ứng dụng như thế nào sẽ ñược trình bày trong các chương tiếp theo
Trang 30Chương 2: TÌM HIỂU PORTAL VÀ ỨNG DỤNG CÔNG NGHỆ NGỮ
NGHĨA XÂY DỰNG PORTAL DU LỊCH 2.1 Giới thiệu Portal
2.1.1 Khái niệm Portal
Có rất nhiều khái niệm/ựịnh nghĩa về Portal khác nhau, và cho ựến nay chưa
có khái niệm hay ựịnh nghĩa nào ựược coi là chuẩn xác Trong phạm vi luận văn, chúng ta tạm sử dụng khái niệm về Portal như sau: ỘPortal (hay Cổng thông tin ựiện
tử tắch hợp) là ựiểm truy cập tập trung và duy nhất tắch hợp các kênh thông tin, các dịch vụ và ứng dụng, phân phối tới người sử dụng thông qua một phương thức thống nhất và ựơn giản trên nền tảng WebỢ
2.1.1.1 Portal là bước phát triển tiếp theo của Website
Portal là bước phát triển mạnh mẽ của Internet, nơi mà từ trước tới nay các Website truyền thống giữ vai trò ựặc biệt quan trọng Cùng với sự trợ giúp của công nghệ software agent Ờ một chương trình phần mềm thay mặt người dùng thực hiện các công việc tìm kiếm và xử lý thông tin trên Internet Ờ khái niệm Website truyền thống ựược chuyển thành website thông minh với sự trợ giúp của dịch vụ Search Engine, một công cụ cho phép tìm kiếm và lọc thông tin trên cơ sở các từ khóa ựược xác lập bởi người dùng và dịch vụ phân loại thông tin Ờ Category Từ ựó hình thành thuật ngữ ỘWebsite thông minhỢ hay Ộcổng Web (Portal)Ợ
2.1.1.2 định nghĩa Cổng giao dịch thông tin ựiện tử Portal
Portal là một ựiểm truy cập với giao diện web cho phép người dùng khai thác hiệu quả một khối lượng lớn tài nguyên thông tin và dịch vụ đó không ựơn thuần chỉ là một trang HTML chứa liên kết ựến các tài nguyên mà là một nền tảng công nghệ cho phép tắch hợp toàn bộ thông tin và các ứng dụng chạy trên web, ựồng thời cung cấp khả năng tuỳ biến cho từng ựối tượng sử dụng, cho phép khai thác thông tin hiệu quả nhất, nhanh nhất và thân thiện nhất
Mục tiêu cơ bản của mọi Portal là cung cấp thông tin chắnh xác cho người dùng (có thẩm quyền) vào thời ựiểm thắch hợp Portal phải lấy ựược dữ liệu từ các
Trang 31hệ thống tích hợp, truyền tải dữ liệu này vào các giao diện ñã ñược cá nhân hoá và cho phép người dùng tương tác với dữ liệu từ bất kỳ nơi ñâu, vào bất kỳ thời ñiểm nào Portal thông thường phải cung cấp các dịch vụ về tin, tìm kiếm, thư mục (phân loại tin), mail, diễn ñàn, hội thoại, hội thảo, lịch làm việc , và ñáp ứng ñược các yêu cầu: tùy biến hóa; tạo khả năng tương tác tối ña giữa người dùng và các nguồn thông tin, giữa người dùng với các ứng dụng tác nghiệp và giữa các ứng dụng với nhau; tích hợp nhiều công nghệ ứng dụng; ñảm bảo tính mở về công nghệ; quản trị nội dung; bảo mật,
2.1.2 Sự khác biệt giữa Website thông thường với Portal
Portal là bước phát triển kế tiếp của công nghệ web Sự khác biệt chính giữa Portal và Website là: Website ñược xây dựng như một ñơn vị thông tin ñộc lập, còn Portal ñược thiết kế ñể trở thành trung tâm tích hợp thông tin, ứng dụng và dịch vụ mạng Với Portal, người dùng có thể tìm ñược các dịch vụ cần thiết ñể khai thác và
xử lý thông tin chỉ cần ñăng nhập một lần theo cơ chế một cửa (Single sign-on) ðiểm khác biệt này cũng quy ñịnh nên sự khác biệt về ứng dụng giữa Portal và Website Trên thế giới hiện nay, xu hướng ứng dụng Portal ñang ngày càng trở nên phổ biến trong các lĩnh vực như chính phủ ñiện tử (E-government), thương mại ñiện
tử, cổng thông tin doanh nghiệp, ñào tạo trực tuyến,
2.1.3 Phân loại Portal
Cổng thông tin cung cấp cho người dùng cuối nhiều loại dịch vụ khác nhau với nhiều nhu cầu khác nhau, có thể phân loại các công thông tin như sau:
• Cổng thông tin công cộng (Public portals): ví dụ như Yahoo, loại cổng thông tin này thường ñược sử dụng ñể ghép nối các thông tin lại với nhau từ nhiều nguồn, nhiều ứng dụng và từ nhiều người, cho phép
cá nhân hoá (personalization) các website theo tuỳ từng ñối tượng sử dụng
• Cổng thông tin doanh nghiệp (“Enterprise portals” hoặc “Corporate Desktops”): ñược xây dựng ñể cho phép các thành viên của doanh
Trang 32nghiệp sử dụng và tương tác trên các thông tin và ứng dụng nghiệp vụ tác nghiệp của doanh nghiệp
• Cổng giao dịch ñiện tử (Marketplace portals): ví dụ như eBay và ChemWeb, cổng thông tin này là nơi liên kết giữa người bán và người mua
• Cổng thông tin ứng dụng chuyên biệt (Specialized portals): ví dụ như SAP portal, cổng thông tin loại này cung cấp các ứng dụng chuyên biệt khác nhau
Tuy có nhiều loại cổng thông tin khác nhau, cung cấp nhiều loại dịch vụ và ứng dụng khác nhau, nhưng tất cả các loại cổng thông tin ñều có chung một số tính năng cơ bản Các tính năng này là ñược sử dụng như là một tiêu chuẩn ñể phân biệt giữa cổng thông tin với một website tổng hợp tin tức, với ứng dụng quản trị nội dung web (web content management system - Web CMS), hoặc với một ứng dụng chạy trên nền tảng Web (web application)
2.2 Các ñặc trưng cơ bản của Portal
2.2.1 Chức năng tìm kiếm
Chức năng tìm kiếm là dịch vụ quan trọng ñầu tiên cần phải có của tất cả các Portal Sau khi người dùng mô tả loại thông tin mà mình cần thông qua các từ khóa hoặc tổ hợp các từ khóa, dịch vụ này sẽ tự ñộng thực hiện tìm kiếm thông tin trên các Portal hoặc các Website có trên Internet và trả lại kết quả tìm kiếm cho người dùng ngay trên Portal Thời gian thực hiện của dịch vụ tìm kiếm là rất nhanh, do vậy rất hấp dẫn ñối với người dùng
ðối với những người dùng không muốn tìm kiếm thông tin thông qua các từ khóa mà lại có nhu cầu xem xét thông tin theo một chủ ñề, lĩnh vực nào ñó thì có thể sử dụng dịch vụ phân loại thông tin theo thư mục Tại ñây, các thông tin ñược phân loại và sắp xếp theo các chủ ñề Các chủ ñề ñược xây dựng theo cấu trúc cây thư mục, tức là mỗi chủ ñề có thể chứa nhiều chủ ñề con và có thể tiếp tục phân tách xuống các mức thấp hơn nữa
Trang 33Cá nhân hóa các dịch vụ ñược tiến hành thông qua dữ liệu thông tin cá nhân
về khách hàng (customer profiles) Dữ liệu này chứa các thông tin mang tính cá nhân như nghề nghiệp, thói quen, sở thích của khách hàng, Từ thông tin cá nhân này, các nhà cung cấp sẽ giới hạn cung cấp các thông tin và các dịch vụ mà khách hàng thực sự quan tâm và muốn có, có nghĩa là tránh ñược việc cung cấp các thông tin và dịch vụ không cần thiết có thể gây khó chịu cho khách hàng, và thậm chí dẫn ñến quyết ñịnh ngừng sử dụng dịch vụ của nhà cung cấp
2.2.4 Portal là một ñiểm tích hợp thông tin duy nhất
ðặc trưng này cho phép người dùng một ñiểm truy nhập duy nhất ñể thu nhập và xử lý thông tin từ các nguồn khác nhau, hoặc sử dụng các ứng dụng ñể khai thác kho tài nguyên thông tin của một công ty hay một tổ chức nằm trong mạng Intranet của công ty hoặc tổ chức ñó Thực tế cho thấy, thông tin hàng ngày phải xử
lý ñược chuyển ñến người dùng dưới rất nhiều nguồn khác nhau, ví dụ email, tin tức, tài liệu, báo cáo, các bài báo, các tệp âm thanh và video, Khó khăn sẽ rất lớn nếu các thông tin này ñược xử lý một cách riêng rẽ ðiểm tích hợp thông tin duy nhất cho phép sử dụng các công cụ tích hợp ñể xử lý các nguồn thông tin này, do vậy năng suất lao ñộng xử lý thông tin của người dùng sẽ ñược nâng cao
2.2.5 Portal ñóng vai trò là kênh thông tin
Trang 34Trong Portal, dữ liệu thường ñược tổ chức thành các kênh thông tin và cung cấp cho người dùng Một Portal có thể chứa nhiều Portal con, trong ñó một Portal con hoặc một kênh thông tin có thể là liên kết tới các ứng dụng, các website hoặc các portal khác Việc quản lý thông tin theo kênh giúp cho việc phân lớp và quản trị người dùng tốt hơn so với cơ chế ở Website truyền thống
2.3 Một số portal ñiển hình hiện nay
2.3.1 Uportal
uPortal là một Portal Framework hoạt ñộng rất ổn ñịnh và ñược sử dụng
rộng rãi, ñáp ứng tốt những yêu cầu của các cơ quan hay tổ chức sử dụng uPortal
ñã áp dụng những kỹ thuật không theo chuẩn ñược gọi là channel Những ñặc ñiểm sẵn có trong uPortal dựa trên các tùy biến và giải pháp ñã phát triển với các channel adapter thay cho các dạng portlet nguyên thủy
uPortal hỗ trợ portlet thông qua Pluto Portlet Framework và là open source
Portal Framework hỗ trợ nhiều kiểu portal nhất: từ Java portal ñến HTML portal, từ text portal ñến XML portal
2.3.2 Liferay
Liferay Portal Enterprise là dạng Cổng thông tin có nhiều chức năng như:
Content Management System (CMS), tuân theo WSRP, Single Sign On (SSO), hỗ trợ AOP (Aspect Oriented Programming), và nhiều công nghệ mới khác
Liferay có kế kiến trúc rất rõ ràng dựa trên thực tế tốt nhất của J2EE, ñiều ñó
cho phép nó ñược sử dụng với một loạt các container khác nhau, từ những servlet container như Tomcat và Jetty
Việc cá nhân hoá các portal page và các portlet trở nên dễ dàng hơn với công
cụ Liferay layout management Liferay Portal có giao diện ñồ hoạ (GUI) dựa trên Web cho phép người dùng tương tác ñể thiết kế layout của Portal Page
Giống như hầu hết các Portal Framework, Liferay sử dụng database mặc ñịnh là Hypersonic rất tốt cho mục ñích phát triển
Trang 352.3.3 Microsof Office SharePoint server 2007
Là một phần mềm ñược thừa hưởng tất cả các công nghệ của Microsoft nên SharePoint Portal Server thu hút mối quan tâm của nhiều người dùng Sản phẩm chỉ cài ñặt ñược trên hệ thống Windows bao gồm các chức năng cơ bản như: tìm kiếm, cung cấp giao tiếp theo chủ ñề hay ñiểm tin theo thời gian
Có rất nhiều cách khác nhau ñể xây dựng cấu trúc một hệ thống portal: xây dựng theo chủ ñề, xây dựng hệ thống thiên về khả năng tìm kiếm, xây dựng bằng cách sử dụng nội dung ñã ñược xây dựng từ trước
Giao diện của Microsof Office SharePoint server rất thân thiện và dễ hiểu Chức năng tìm kiếm trong sản phẩm hoạt ñộng rất tốt và khá chính xác, có khả năng thực hiện tìm kiếm trên các hệ thống khác nhau như SharePoint Portal, Lotus Notes, Exchange và các thư mục dùng chung tập tin
2.3.4 Một số Portal tại Việt Nam
2.3.4.1 Giải pháp Cổng thông tin TviS
TViS (viết tắt của Tinh Van I-Portal Solutions) là bộ phần mềm Giải pháp Cổng thông tin ñiện tử của công ty phần mềm Tinh Vân ñược xây dựng trên nền công nghệ hiện ñại là Oracle Portal và Microsoft Sharepoint cho phép nhanh chóng xây dựng và duy trì một hệ thống thông tin trên mạng Internet hay Intranet với ñầy
ñủ các dịch vụ sẵn sàng cho một Cổng thông tin ñiện tử chuyên nghiệp Tất cả các dịch vụ ñược tích hợp trong một giao diện thống nhất, hoàn toàn trên môi trường Web
Công nghệ phát triển: TViS ñược xây dựng dựa trên những công nghệ nền mới:
• Oracle AS portal: Internet Application Server của hãng Oracle
• Weblogic Portal: Internet/Intranet Application Server của hãng
Oracle
• MS SharePoint: MOSS 2007/2010 của hãng Microsoft
Trang 362.3.4.2 Cổng thông tin giao tiếp ñiện tử Vportal
VPortal, do công ty Cổ phần phần mềm Vietsoftware phát triển dựa trên hệ thống phần mềm mã nguồn mở uPortal; là giải pháp Portal (Cổng giao dịch ñiện tử) ñược thiết kế danh cho các tổ chức và doanh nghiệp có nhu cầu phát triển hệ thống thông tin trên môi trường Web
Công nghệ phát triển: Vportal ñược xây dựng dựa trên những công nghệ tiên tiến hiện nay, bao gồm:
• VPortal ñược phát triển bằng ngôn ngữ Java, tuân theo kiến trúc J2EE
và sử dụng công nghệ XML/XSL, VPortal có thể cài ñặt ñược trên mọi hệ ñiều hành máy chủ có hỗ trợ Java
• VPortal áp dụng chuẩn tiếng Việt Unicode TCVN 6909:2001
2.4 Khảo sát một số portal trong nước và trên thế giới
2.4.1 Một số website và portal trong nước
Hiện nay, với trình ñộ Công nghệ thông tin phát triển mạnh mẽ với quy mô trên diện rộng nên việc chuyển tải thông tin ñến người dùng trở nên rất ñơn giản, ñặc biệt là ñối với những người sử dụng máy tính hay các phương tiện thông minh
có kết nối Internet Theo ñó, với một người khách du lịch, họ chỉ cần gõ một từ khoá hay nhập một thông tin tìm kiếm trên Web là sẽ có ngay nội dung kết quả mong muốn (tên, ñịa chỉ, vị trí ñịa lý cùng nhiều các thông tin liên qua khác) thay
bằng việc phải tra cứu qua những cuốn cẩm nang du lịch dày cộp như trước ñây
Tuy nhiên, không phải lúc nào người dùng cũng có thể dễ dàng tìm kiếm ñược những thông tin ñúng theo mình mong muốn ðiều ñó còn phụ thuộc và nhiều yếu tố, ñặc biệt là công nghệ Web mà các nhà phát triển ñã sử dụng Trong phần này em sẽ phân tích một số website và portal về ñịa ñiểm, văn hoá của Việt Nam tập
trung vào các tiêu chí sau:
• Phương thức tổ chức dữ liệu
• Phương thức hiển thị nội dung về một ñịa ñiểm
• Phương thức tìm kiếm ñịa ñiểm
Trang 37• Khả năng tích hợp dữ liệu
DỮ LIỆU
HIỂN THỊ NỘI DUNG TÌM KIẾM
KẾT QUẢ TÌM KIẾM
mytour.vn Cơ sở dữ liệu
quan hệ
Nội dung văn bản ñơn giản bao gồm các thông tin: tên, loại,
skydoor.net Cơ sở dữ liệu
dụng của du khách
- Tìm kiếm theo tên
ñịa ñiểm – so sánh xâu
- Tìm kiếm theo tên ñịa ñiểm – so sánh xâu
- Tìm kiếm theo loại
Trang 38WEBSITE TỔ CHỨC
DỮ LIỆU
HIỂN THỊ NỘI DUNG TÌM KIẾM
KẾT QUẢ TÌM KIẾM
miêu tả - Tìm kiếm theo vị trí
miêu tả
- Tìm kiếm theo tên
ñịa ñiểm – so sánh xâu
- Tìm kiếm theo loại
- Tìm kiếm theo vị trí ñịa lý
lichsuvietnam.vn Cơ sở dữ liệu
Như vậy sau khi phân tích các website và portal về ñịa ñiểm và văn hoá lớn ở Việt Nam ta thấy toàn bộ ñều sử dụng công nghệ web 2.0 với việc lưu trữ dữ liệu dưới dạng cơ sở dữ liệu quan hệ cũng như nội dung hiển thị hoàn toàn bằng văn bản Theo ñó, phương thức tìm kiếm dữ liệu ở các website hay các portal ña phần là tìm kiếm theo từ khóa nên hiệu quả không cao, dữ liệu kết quả bị dư thừa quá nhiều
Và một hạn chế nữa mà hầu hết các hệ thống lưu trữ dữ liệu theo phương pháp truyền thống (dữ liệu quan hệ) ñều gặp phải ñó là không có khả năng tích hợp các nguồn dữ liệu ðiều này hạn chế rất nhiều ñến khả năng mở rộng dữ liệu hệ thống cũng như khả năng sử dụng các nguồn dữ liệu phân tán khổng lồ hiện có trên thế giới (wiki, geonames, movies,…) ðặc biệt, các hệ thống trên cũng không tạo ñược
sự tương tác qua lại rõ rệt với du khách, chưa ñể ý tới mối quan tâm cũng như sở
Trang 39thích của khách du lịch mà hầu hết chỉ là cung cấp thông tin một chiều theo dạng:
Hệ thống Người sử dụng ðây cũng chính là ñiểm yếu của công nghệ Web này
Thứ nhất, việc sử dụng cơ sở dữ liệu quan hệ yêu cầu cấu trúc dữ liệu xác
ñịnh và bị giới hạn bởi số trường thông tin; trong khi ñó với một ñịa ñiểm ñặc biệt
là các ñịa ñiểm di tích, danh thắng và di sản văn hóa, có rất nhiều thông tin ñi cùng Chẳng hạn: ñịa ñiểm này là di tích, ñền, chùa hay một loại ñịa ñiểm nào ñó; nếu là
di tích sử thì ñược xây dựng năm nào, có liên quan ñến nhân vật hay sự kiện nào, ñược Nhà nước công nhận là di tích lịch sử vào năm nào,…vv Tóm lại là với một ñịa ñiểm ñưa ra thì nó chứa rất nhiều các thông tin liên quan ðể một cơ sở dữ liệu quan hệ có thể thể hiện ñược tất cả các thông tin này thì gần như là không thể do ñộ phức tạp của hệ thống khi ñó sẽ rất lớn
Thứ hai, trong cùng một website hay portal du lịch có rất nhiều ñịa ñiểm liên
quan ngữ nghĩa ñến nhau, ví dụ như: cùng nói về một ñịa ñiểm là “Tháp Po Nagar” tại thành phố Nha Trang hay phong cách kiến trúc Chăm Pa (Tháp Po Nagar còn ñược gọi là “ngôi ñền Chăm Pa”) Tuy nhiên mối liên quan này không ñược thể hiện rõ mà người dùng phải tự tìm hiểu trong quá trình duyệt nội dung Do vậy mà trong quá trình tìm kiếm thông tin dạng văn bản, nếu người dùng gõ vào từ khoá
“phong cách Chăm Pa” thì sẽ thiếu ñi kết quả rất quan trọng là “Tháp Po Nagar”
Thứ ba, cấu trúc mỗi website lại khác nhau, cụ thể là trong việc phân loại ñịa
ñiểm, tên của các loại hình ñịa ñiểm không tương ñồng hoặc tiêu chí phân loại ñịa ñiểm khác nhau dẫn ñến khó khăn cho người dùng trong việc chọn lọc và tổng hợp thông tin từ nhiều nguồn
Thứ tư, các website hay portal này vẫn chưa thỏa mãn nhu cầu tra cứu của
người dùng, không có câu trả lời trực tiếp sát với ý muốn của người dùng mà chỉ trả
về một tập các thông tin có liên quan ñến từ khoá nhập vào trong quá trình tìm kiếm Do ñó, dữ liệu kết quả bị dư thừa và nhiều khi không chính xác, chưa thực sự ñáp ứng ñược nhu cầu tìm kiếm những thông tin với những cấu trúc và mối liên hệ phức tạp mà trong các lĩnh vực du lịch, văn hóa và lịch sử rất hay gặp, chẳng hạn như: Tìm kiếm “Ngôi chùa” ñược “xây dựng trước năm 1950” và có vị trí ñịa lý gần
Trang 40với “Hồ Xuân Hương”,…Thậm chí, ngay cả những yêu cầu tìm kiếm tuy có vẻ ñơn giản nhưng mang nội dung ngữ nghĩa, chẳng hạn như: “ðịa ñiểm du lịch nào liên quan ñến phong cách Chăm Pa” hoặc “ðền thờ nào có phong cách kiến trúc phương Tây”, khi tìm kiếm bằng từ khóa thì kết quả nhận ñược nhiều khi cũng không chính xác
2.4.2 Khảo sát một số portal ngữ nghĩa trên thế giới
2.4.2.1 Portal CultureSampo của Phần Lan
a) Giới thiệu
CultureSampo là kết quả của dự án FinnONTO (National Semantic Web Ontology project in Finland) Mục tiêu của dự án là xây dựng các chuẩn metadata, ontology Core Finnish (KOKO), các dịch vụ ontology công cộng, các công cụ open source và các ứng dụng thí ñiểm Dự án hướng tới nhiều lĩnh vực bao gồm văn hóa,
y tế, chính phủ, thương mại và giáo dục
Portal có ñịa chỉ: http://www.kulttuurisampo.fi/index.shtml?lang=en
Hình 2-1 Trang chủ của CultureSampo