Thứ nhất về khả năng xử lý thông tin có ngữ nghĩa giúp thông tin được cung cấp chính xác và đầy đủ hơn đến người dùng trên WebGIS là chưa có - Đa số các bộ máy tra cứu tin trên WebGIS hi
Trang 1BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
-
Nguyễn Thanh Sỹ
ỨNG DỤNG CÔNG NGHỆ WEB NGỮ NGHĨA
CHO HỆ THỐNG WEBGIS
Chuyên ngành: Công nghệ thông tin
LUẬN VĂN THẠC SĨ KỸ THUẬT CÔNG NGHỆ THÔNG TIN
NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS.TS CAO TUẤN DŨNG
Hà Nội – Năm 2017
Trang 2
LỜI CẢM ƠN
Em xin bày tỏ lòng kính trọng và cảm ơn chân thành đến PGS.TS Cao Tuấn Dũng - Viện Công nghệ thông tin và Truyền thông – Trường Đại học Bách Khoa Hà Nội, người đã định hướng, tận tình hướng dẫn, giúp đỡ em trong suốt quá trình thực hiện luận văn
Em xin chân thành cảm ơn các thầy, cô giáo - Viện Công nghệ Thông tin và Truyền thông - Trường Đại học Bách Khoa Hà Nội, những người đã tận tình truyền đạt các kiến thức cho em trong suốt thời gian em học tập và nghiên cứu tại Trường
Em cũng xin gửi lời cảm ơn tới gia đình đã ủng hộ, động viên em trong suốt quá trình học tập vừa qua
Cuối cùng, em xin cảm ơn các bạn học cùng lớp 15ACNTT, các đồng nghiệp
và đơn vị công tác đã giúp đỡ em trong quá trình học tập và thực hiện luận văn
Do trong quá trình nghiên cứu, tìm hiểu và thực nghiệm luận văn chắc chắn không thể tránh khỏi những sai sót nhất định, em rất mong nhận được sự góp ý của thầy, cô giáo và các bạn để luận văn được hoàn chỉnh hơn
Em xin trân trọng cảm ơn!
Hà Nội, tháng năm 2017
Tác giả luận văn
Nguyễn Thanh Sỹ
Trang 3
LỜI CAM ĐOAN
Tôi xin cam đoan luận văn “Ứng dụng công nghệ Web ngữ nghĩa cho hệ thống WebGIS” này là công trình nghiên cứu của tôi dưới sự hướng dẫn khoa học của PGS.TS Cao Tuấn Dũng Tất cả những tài liệu tham khảo tôi đã liệt kê rõ ở phần cuối của luận văn Các nội dung công bố và kết quả trình bày trong luận văn này là trung thực và không có sự sao chép của người khác
Hà Nội, tháng năm 2017
Tác giả luận văn
Nguyễn Thanh Sỹ
Trang 4MỤC LỤC
TRANG PHỤ BÌA 1
LỜI CẢM ƠN 2
LỜI CAM ĐOAN 3
DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT 7
DANH MỤC CÁC HÌNH VẼ 9
DANH MỤC CÁC BẢNG BIỂU 11
MỞ ĐẦU 12
CHƯƠNG 1: WEBGIS VÀ WEB NGỮ NGHĨA 16
1.1 WebGIS 16
1.1.1 Khái niệm GIS 16
1.1.2 Mô hình công nghệ GIS 17
1.1.3 Những lĩnh vực khoa học liên quan đến GIS 18
1.1.4 Các thành phần của GIS 19
1.1.5 Một số khả năng ứng dụng của GIS 23
1.1.6 Khái niệm WebGIS 24
1.1.7 Các tính năng của WebGIS 24
1.1.8 Kiến trúc WebGIS và các bước xử lý 25
1.2 Web ngữ nghĩa 27
1.2.1 Sự ra đời của web ngữ nghĩa 27
1.2.2 Khái niệm web ngữ nghĩa 28
1.2.3 Đặc điểm của web ngữ nghĩa 28
1.2.4 Kiến trúc của web ngữ nghĩa 30
1.2.5 Ontology 31
Trang 51.2.5.1 Khái niệm 31
1.2.5.2 Vai trò của ontology 32
1.2.5.3 Các bước thiết kế một ontology 32
1.2.5.4 Ngôn ngữ biểu diễn ontology 34
1.2.5.5 Một số công cụ hỗ trợ xây dựng ontology 36
CHƯƠNG 2: ỨNG DỤNG CÔNG NGHỆ WEB NGỮ NGHĨA CHO GIS 37
2.1 Tiềm năng ứng dụng của công nghệ web ngữ nghĩa vào GIS 37
2.1.1 Khả năng xử lý thông tin địa lý có ngữ nghĩa 37
2.1.2 Khả năng tích hợp thông tin địa lý từ nhiều nguồn khác nhau [25] 38
2.2 Khảo sát WebGIS ở Việt Nam 41
2.3 Dự án tiêu biểu ứng dụng web ngữ nghĩa vào GIS trên thế giới 44
2.3.1 Basic Geo (WGS84 lat/long) Vocabulary 44
2.3.2 W3C Geospatial Ontologies 46
2.3.3 GeoSPARQL 49
CHƯƠNG 3: MỘT GIẢI PHÁP TẠO RA WEBGIS CÓ NGỮ NGHĨA 53
3.1 Một giải pháp tạo ra WebGIS có ngữ nghĩa 53
3.1.1 Các chức năng cần có 53
3.1.1.1 Các chức năng của WebGIS truyền thống 53
3.1.1.2 Chức năng của web ngữ nghĩa 53
3.1.2 Mô hình hệ thống WebGIS có ngữ nghĩa đề xuất 54
3.1.3 Quy trình xây dựng hệ thống 55
3.2 Đặc điểm của giải pháp 69
CHƯƠNG 4: THỬ NGHIỆM, KẾT QUẢ VÀ BÀN LUẬN 70
4.1 Xây dựng hệ thống thử nghiệm 70
Trang 64.1.1 Hệ thống để thử nghiệm chức năng xử lý thông tin có ngữ nghĩa, cung cấp
thông tin chính xác và đầy đủ hơn cho người sử dụng 70
4.1.1.1 Thiết kế, xây dựng cơ sở dữ liệu GIS 70
4.1.1.2 Thiết kế, xây dựng ontology 70
4.1.1.3 Xây dựng các chức năng cơ bản của hệ thống WebGIS có ngữ nghĩa 74
4.1.2 Hệ thống để thử nghiệm tính năng tích hợp dữ liệu 74
4.2 Kết quả 77
4.2.1 Chức năng xử lý thông tin có ngữ nghĩa, cung cấp thông tin chính xác, đầy đủ hơn đến người sử dụng 77
4.2.2 Tính năng tích hợp dữ liệu từ nhiều nguồn khác nhau 80
4.3 Đánh giá 81
KẾT LUẬN, HƯỚNG PHÁT TRIỂN 82
1 Kết luận 82
2 Hướng phát triển 82
TÀI LIỆU THAM KHẢO 84
Trang 7DANH MỤC CÁC KÝ HIỆU, CÁC TỪ VIẾT TẮT
GIS Geographic Information
Lược đồ khung nội dung mô tả tài nguyên
WWW World Wide Web Mạng toàn cầu
W3C World Wide Web
Consortium
Tổ chức phi lợi nhuận, tạo ra các chuẩn mở giúp chia sẻ dữ liệu địa lý cho cộng đồng không gian địa lý toàn cầu
Trang 8DARPA Defense Advanced
Research Projects Agency
Cơ quan Dự án Nghiên cứu Nâng cao Quốc phòng của Bộ Quốc phòng Mỹ, chịu trách nhiệm phát triển các công nghệ mới cho quân đội sử dụng
DAML DARPA Agent Markup
Language
Ngôn ngữ đánh dấu dựa trên RDF
OIL Ontology Inference Layer
or Ontology Interchange
Language
Ngôn ngữ trao đổi ontology, dựa trên các khái niệm được xây dựng trong mô tả Logic (Description Language: DL) và các hệ thống khung và tương thích với RDFS
RCC8 Region connection
calculus It consists of 8
basic relations that are
possible between two
regions
Tính toán kết nối các vùng Là 8 mối quan
hệ cơ bản giữa 2 vùng (disconnected (DC), externally connected (EC), equal (EQ), partially overlapping (PO), tangential proper part (TPP), tangential proper part inverse (TPPi), non-tangential proper part (NTPP), non-tangential proper part inverse (NTPPi) ISBN International Standard
Book Number
Mã số tiêu chuẩn quốc tế cho sách
ASCII American Standard Code
for Information
Interchange
Chuẩn mã trao đổi thông tin Mỹ
EBCDIC Extended Binary Coded
Decimal Interchange
Code
Là mã hóa ký tự tám ký tự được sử dụng chủ yếu trên máy tính lớn của IBM và hệ điều hành máy tính IBM tầm trung
NXB TNMT&BĐ Việt
Nam
Nhà xuất bản Tài nguyên – Môi trường và Bản đồ Việt Nam
Trang 9DANH MỤC CÁC HÌNH VẼ
Hình 1.1: Mô hình công nghệ GIS [6] 17
Hình 1.2: Các thành phần của GIS [6] 19
Hình 1.3: Mô hình dữ liệu không gian [7] 21
Hình 1.4: Minh họa liên kết giữa dữ liệu không gian và phi không gian [7] 22
Hình 1.5: Kiến trúc hệ thống WebGIS 25
Hình 1.6: Các dạng yêu cầu chính từ phía client trên WebGIS 26
Hình 1.7: Minh họa liên kết ngữ nghĩa giữa các nguồn trong Web ngữ nghĩa 29
Hình 1.8: Kiến trúc của web ngữ nghĩa [3] 30
Hình 2.1: Nguồn dữ liệu ontology 1 38
Hình 2.2: Nguồn dữ liệu ontology 2 38
Hình 2.3: Ontology sau khi tích hợp 2 nguồn dữ liệu 1 và 2 39
Hình 2.4: Bộ dữ liệu mới sau khi tích hợp thêm thông tin 40
Hình 2.5: Ví dụ về tìm kiếm thông tin trên WebGIS chưa có ngữ nghĩa 41
Hình 2.6: Tìm từ khóa trong 1 trường thuộc tính của một lớp dữ liệu GIS 42
Hình 2.7: Tìm từ khóa trong các trường thuộc tính của các lớp dữ liệu GIS 43
Hình 2.8: Kiến trúc GIS sử dụng Basic Geo (WGS84 lat/long) Vocabulary 45
Hình 2.9: Cấu trúc GeoRSS [24] 46
Hình 2.10: Kiến trúc GIS sử dụng GeoRSS 48
Hình 2.11: Các tập luật theo RCC8 [26] 51
Hình 3.1: Mô hình hệ thống WebGIS có ngữ nghĩa 54
Hình 3.2: Những lớp chính trong ontology các đối tượng địa lý 56
Hình 3.3: Lớp con của lớp Đối tượng cơ sở đo đạc 56
Hình 3.4: Lớp con của lớp Đối tượng biên giới địa giới 57
Hình 3.5: Lớp con của lớp Đối tượng địa hình 57
Hình 3.6: Lớp con của lớp Đối tượng thủy hệ 58
Hình 3.7: Lớp con của lớp Đối tượng giao thông 58
Hình 3.8: Lớp con của lớp đường bộ 59
Hình 3.9: Lớp con của lớp Bến bãi 59
Trang 10Hình 3.10: Lớp con của lớp Cầu 59
Hình 3.11: Lớp con của lớp Đối tượng Dân cư – Cơ sở hạ tầng 60
Hình 3.12: Lớp con của lớp Địa danh dân cư 60
Hình 3.13: Lớp con của lớp Trạm quan trắc 60
Hình 3.14: Các lớp con của lớp Khu chức năng 63
Hình 3.15: Lớp con của lớp Đối tượng phủ bề mặt 64
Hình 3.16: Lớp con của lớp Khu trồng cây nông nghiệp 64
Hình 4.1: Ontology của dữ liệu thử nghiệm 71
Hình 4.2: Lược đồ CSDL GIS 72
Hình 4.3: Một số di tích liên kết với các đơn vị hành chính 73
Hình 4.4: Nguồn A 75
Hình 4.5: Nguồn B 75
Hình 4.6: Các đối tượng địa lý được tìm thấy bằng cách duyệt danh sách các lớp trên dữ liệu ontology 78
Hình 4.7: Một kết quả duyệt danh sách các lớp 79
Hình 4.8: Thông tin chi tiết về đối tượng địa lý được chọn 79
Hình 4.9: Tích hợp theo URI (chùa, nhà thờ) 80
Hình 4.10: Tích hợp bổ sung theo định nghĩa 81
Trang 11DANH MỤC CÁC BẢNG BIỂU
Bảng 3.1: Đặc điểm các giải pháp chuyển RDB sang đồ thị RDF 65 Bảng 4.1: Dữ liệu di tích 72 Bảng 4.2: Dữ liệu địa phận tỉnh 72
Trang 12là công cụ mang tính trực quan, trợ giúp các cơ quan chính phủ, nhà quản lý, doanh nghiệp, cá nhân, vv đánh giá được hiện trạng của những quá trình, các thực thể tự nhiên, kinh tế, xã hội, trợ giúp quyết định trong nhiều hoạt động kinh tế, văn hóa-xã hội và quốc phòng an ninh của nhiều quốc gia trên thế giới
Trước những năm 1992 khi mà công nghệ web còn yếu thì GIS mới chỉ được
sử dụng đơn lẻ ở các máy tính cá nhân Sau này nhờ sự phát triển mạnh mẽ của công nghệ web, nhất là sự ra đời của web 2.0 và sự bùng nổ của internet đã cung cấp một phương pháp công bố mới cho các tài nguyên dữ liệu GIS WebGIS chính là công cụ mới giúp công bố dữ liệu GIS đến mọi người trên mạng internet Nhờ có WebGIS mà tài nguyên GIS được truy cập rộng rãi hơn, việc tiếp cận với bản đồ và thông tin địa
lý trở nên phổ biến hơn đối với người dùng
GIS cũng như WebGIS thường được xây dựng dựa trên nhiều nguồn dữ liệu
và thông tin khác nhau như các lớp dữ liệu bản đồ nền, các đối tượng tham chiếu địa
lý và các lớp dữ liệu chuyên ngành cho từng lĩnh vực ứng dụng Để biểu diễn nhiều loại dữ liệu phức tạp như vậy, GIS sử dụng mô hình dữ liệu đa chiều, dữ liệu được tổ chức phổ biến ở dạng cơ sở dữ liệu quan hệ, có thể tập trung tại một khu vực hoặc có thể phân tán ở nhiều nơi Công nghệ web trước đây (web 1.0 và web 2.0) đã giúp cho WebGIS thể hiện khá tốt về mặt bản đồ, nó mang tính trực quan cao đối với người sử
Trang 13dụng Tuy nhiên, WebGIS còn có mặt hạn chế Thứ nhất về khả năng xử lý thông tin
có ngữ nghĩa giúp thông tin được cung cấp chính xác và đầy đủ hơn đến người dùng trên WebGIS là chưa có - Đa số các bộ máy tra cứu tin trên WebGIS hiện tại đều thực hiện bằng cách cho phép người sử dụng có thể tạo các câu truy vấn gồm các từ khóa tìm kiếm và kết hợp trên một loạt lựa chọn xác định luồng dữ liệu để nhận về kết quả mong muốn Tuy nhiên, phương pháp này gặp hai vấn đề chính: Một là mỗi từ khóa
có thể có một hay nhiều ý nghĩa tùy theo từng ngữ cảnh và bộ máy tìm kiếm không thể hiện mối quan hệ giữa các từ khóa với nhau Hai là có thể các thông tin cùng ý nghĩa với thuật ngữ trong biểu thức tìm của người sử dụng sẽ không tồn tại trong kết quả tìm Điểm hạn chế thứ hai của WebGIS là: Với những WebGIS có nguồn dữ liệu khác nhau, phân tán ở nhiều nơi thì việc tích hợp thông tin để chia sẻ là còn khó khăn Công nghệ web ngữ nghĩa (web 3.0) với khả năng tích hợp thông tin để chia sẻ và xử
lý được thông tin có ngữ nghĩa, do đó có tiềm năng giải quyết được các hạn chế trên
của WebGIS Chính vì vậy, tôi đã chọn đề tài “Ứng dụng công nghệ Web ngữ nghĩa
cho hệ thống WebGIS” để làm đề tài nghiên cứu cho luận văn của mình Các nội
dung cụ thể của luận văn như sau:
Mục tiêu và nhiệm vụ:
- Mục tiêu: Đưa ra một giải pháp tạo ra WebGIS có ngữ nghĩa nhằm khắc
phục hai hạn chế của WebGIS truyền thống (WebGIS chưa có ngữ nghĩa) gặp phải
- Nhiệm vụ: Để đạt được mục tiêu như trên, thì luận văn phải thực hiện được
các nhiệm vụ sau:
+ Tìm hiểu lý thuyết về WebGIS và công nghệ web ngữ nghĩa: Tìm hiểu về các khái niệm, mô hình công nghệ, đặc điểm, tính năng của GIS, WebGIS và Web ngữ nghĩa
+ Đánh giá tiềm năng, ứng dụng công nghệ web ngữ nghĩa cho WebGIS: Dựa trên cơ sở lý thuyết về GIS, WebGIS, Web ngữ nghĩa xem xét về khả năng ứng dụng công nghệ web ngữ nghĩa vào GIS; khảo sát xem ở Việt Nam và trên thế giới việc ứng dụng công nghệ web ngữ nghĩa vào GIS đã có chưa? Nếu có thì chúng được kết hợp ứng dụng ra sao?
Trang 14+ Đề xuất một giải pháp tạo ra WebGIS có ngữ nghĩa có khả năng khắc phục được hai hạn chế mà WebGIS truyền thống ở Việt Nam gặp phải: Dựa trên mô hình công nghệ của WebGIS và web ngữ nghĩa, cũng như những kết quả đánh giá về tiềm năng và những khảo sát về ứng dụng công nghệ Web ngữ nghĩa vào GIS trên thế giới
và dựa trên cơ sở điều kiện triển khai WebGIS thực tế ở Việt Nam để đưa ra một giải pháp tạo ra WebGIS có ngữ nghĩa có khả năng khắc phục được hai hạn chế mà WebGIS truyền thống ở Việt Nam gặp phải
+ Xây dựng hệ thống thử nghiệm, chạy hệ thống, đánh giá kết quả đạt được và khả năng áp dụng giải pháp đề xuất vào thực tế: Xác định nguồn dữ liệu GIS để thử nghiệm và xây dựng hệ thống thử nghiệm nhằm đánh giá về tính khả thi của mô hình giải pháp tạo ra WebGIS có ngữ nghĩa mà tác giả đã đề xuất
Đối tượng và phạm vi nghiên cứu của luận văn:
- Đối tượng nghiên cứu: WebGIS có ngữ nghĩa
- Phạm vi nghiên cứu:
+ Về lý thuyết: Lý thuyết về công nghệ WebGIS và web ngữ nghĩa
+ Về thực nghiệm: WebGIS là hệ thống rất đa dạng về mặt nội dung Tuy nhiên để phục vụ cho mục đích thử nghiệm, luận văn này chỉ đưa ra một hệ thống WebGIS nhỏ, nội dung dữ liệu bao gồm (nguồn dữ liệu GIS lấy từ NXB TNMT&BĐ Việt Nam):
Nhóm dữ liệu nền địa lý (bản đồ nền) gồm: Các vùng hành chính cấp tỉnh/thành phố của Việt Nam (63 tỉnh/thành phố) và một phần các vùng hành chính cấp quốc gia của các nước lân cận Việt Nam (Lào, Campuchia, Thái Lan, Trung Quốc), vùng biển và một số sông lớn của Việt Nam, các đường giao thông lớn của Việt Nam (đường giao thông cấp quốc lộ, tỉnh lộ)
Nhóm dữ liệu chuyên ngành: Một số điểm di tích của Việt Nam
Phương pháp nghiên cứu: Tổng hợp lý thuyết (thu thập, tìm hiểu, phân tích),
thử nghiệm và bàn luận
Trang 15Ý nghĩa khoa học và thực tiễn:
- Ý nghĩa khoa học: “Ứng dụng công nghệ web ngữ nghĩa cho hệ thống WebGIS” là chủ đề mới chưa được nghiên cứu và phổ biến ở Việt Nam, nên nó là bước đầu mở ra hướng nghiên cứu và sử dụng mới ở Việt Nam
đủ hơn đến người dùng)
Cấu trúc của luận văn bao gồm các phần như sau:
MỞ ĐẦU: Nội dung phần mở đầu chỉ ra lý do chọn đề tài; mục đích, đối
tượng, phạm vi nghiên cứu của luận văn; tóm tắt những điểm cơ bản và đóng góp mới của tác giả và phương pháp nghiên cứu
CHƯƠNG 1: WEBGIS VÀ WEB NGỮ NGHĨA: Nội dung chương này
trình bày những tìm hiểu lý thuyết về GIS cũng như WebGIS và công nghệ web ngữ nghĩa
CHƯƠNG 2: ỨNG DỤNG CÔNG NGHỆ WEB NGỮ NGHĨA CHO GIS:
Nội dung chương này trình bày về khảo sát một số WebGIS tiêu biểu ở Việt Nam và đánh giá về chúng Tiếp đó, tác giả đánh giá tiềm năng, các ứng dụng của web ngữ nghĩa cho GIS cũng như WebGIS, những đặc điểm nổi bật của chúng
CHƯƠNG 3: WEBGIS CÓ NGỮ NGHĨA: Đưa ra một giải pháp để tạo ra
hệ thống WebGIS có ngữ nghĩa mà có thể khắc phục được bất cập mà WebGIS truyền thống gặp phải
CHƯƠNG 4: THỬ NGHIỆM, KẾT QUẢ VÀ BÀN LUẬN: Trình bày về
thử nghiệm, kết quả thử nghiệm và đánh giá về kết quả thử nghiệm
KẾT LUẬN: Tổng kết, đánh giá về toàn bộ luận văn và đưa ra một số hướng
phát triển luận văn
Trang 16CHƯƠNG 1: WEBGIS VÀ WEB NGỮ NGHĨA 1.1 WebGIS
WebGIS là GIS mà sử dụng công nghệ web để công bố tài nguyên GIS lên mạng máy tính Do đó, trước khi đề cập đến WebGIS, chúng ta sẽ cùng xem xét những khái niệm cơ bản, các tính năng và ứng dụng của GIS
1.1.1 Khái niệm GIS
GIS là từ viết tắt của cụm từ Tiếng Anh Geograhic Information System (Hệ thống thông tin địa lý)
GIS ra đời từ năm 1960 do giáo sư Roger Tomlinson khởi sướng (Roger Tomlinson là một nhà bản đồ học người Anh, cho đến nay ông được cả thế giới công nhận là cha đẻ của GIS) Mặc dù ra đời từ năm 1960, nhưng mãi đến năm 1980, khi
mà công nghệ thông tin phát triển thì GIS cũng mới phát triển theo Từ năm 1980 đến nay có rất nhiều các định nghĩa được đưa ra về GIS; tùy theo lĩnh vực, quan điểm sử dụng GIS mà đã có những định nghĩa khác nhau về GIS, như:
- Xuất phát từ những lĩnh vực khác GIS, những nhà khoa học trong các lĩnh vực địa chất, môi trường, tài nguyên, vv sử dụng GIS như là những công cụ phục
vụ cho những công trình nghiên cứu của mình đã định nghĩa GIS:
+ GIS là một hộp công cụ mạnh được dùng để lưu trữ và truy vấn tùy ý, biến đổi và hiển thị dữ liệu không gian từ thế giới thực cho những mục tiêu đặc biệt [10]
+ GIS là một hệ thống có chức năng xử lý các thông tin địa lý nhằm phục vụ việc qui hoạch, trợ giúp quyết định trong một lĩnh vực chuyên môn nhất định [17]
+ GIS là một hệ thống sử dụng cơ sở dữ liệu để trả lời các câu hỏi về bản chất địa lý của các thực thể địa lý [14]
- Theo quan điểm hệ thống thông tin, một số nhà khoa học đã định nghĩa: + GIS là một hệ thống thông tin được thiết kế để làm việc với dữ liệu có tham chiếu tọa độ địa lý Nói cách khác, GIS là hệ thống gồm hệ cơ sở dữ liệu với những
dữ liệu có tham chiếu không gian và một tập những thuật toán để làm việc trên dữ liệu đó [19]
Trang 17+ GIS là một hệ thống thông tin bao gồm một số phụ hệ (subsystems) có khả năng biến đổi các dữ liệu địa lý thành những thông tin có ích [11]
+ GIS là một hệ thống thông tin đặc biệt với cơ sở dữ liệu gồm những đối tượng, những hoạt động hay những sự kiện phân bố trong không gian được biểu diễn như những điểm, đường, vùng trong hệ thống máy tính Hệ thống thông tin địa lý xử
lý, truy vấn dữ liệu theo điểm, đường, vùng phục vụ cho những hỏi đáp và phân tích đặc biệt [13]
Những định nghĩa trên cho thấy rằng hệ thống thông tin địa lý có những khả năng của một hệ thống máy tính (phần cứng, phần mềm và các thiết bị ngoại vi) dùng
để nhập, lưu trữ, truy vấn, xử lý, phân tích và hiển thị hoặc xuất dữ liệu Trong đó, cơ
sở dữ liệu của hệ thống là những dữ liệu về các đối tượng, các hoạt động kinh tế, xã hội, nhân văn phân bố trong không gian tại những thời điểm nhất định
1.1.2 Mô hình công nghệ GIS
Một cách khái quát, có thể hiểu một hệ thống GIS như là một quá trình gồm các công đoạn nối tiếp nhau như sơ đồ sau:
Hình 1.1: Mô hình công nghệ GIS [6]
- Dữ liệu vào: Dữ liệu được nhập từ các nguồn khác nhau như chuyển đổi giữa các cách biểu diễn dữ liệu, máy quét, hình ảnh từ vệ tinh, ảnh chụp, …
- Quản lý dữ liệu: Sau khi dữ liệu được thu thập và tổng hợp, GIS cần cung cấp các thiết bị có thể lưu và bảo trì dữ liệu nhằm đảm bảo: Bảo mật số liệu, tích hợp
số liệu, lọc và đánh giá số liệu, khả năng duy trì GIS lưu thông tin thế giới thực thành các tầng dữ liệu riêng biệt, các tầng này đặt trong cùng một hệ trục toạ độ và chúng
có khả năng liên kết với nhau
Trang 18- Xử lý dữ liệu: Các thao tác xử lý dữ liệu được thực hiện để tạo ra thông tin
Nó giúp cho người sử dụng quyết định cần làm tiếp công việc gì Kết quả của xử lý
dữ liệu là tạo ra các ảnh, báo cáo và bản đồ
- Phân tích và mô hình: Số liệu tổng hợp và chuyển đổi chỉ là một phần của GIS Những yêu cầu tiếp theo là khả năng giải mã và phân tích về mặt định tính và định lượng thông tin đã thu thập
- Dữ liệu ra: Một trong các phương diện công nghệ GIS là sự thay đổi của các phương pháp khác nhau trong đó thông tin có thể hiển thị khi nó được xử lý bằng GIS Các phương pháp truyền thống là bảng và đồ thị có thể cung cấp bằng các bản
đồ và ảnh ba chiều
1.1.3 Những lĩnh vực khoa học liên quan đến GIS
GIS là sự hội tụ các lĩnh vực công nghệ và các ngành truyền thống, nó hợp nhất các số liệu mang tính liên ngành bằng tổng hợp, mô hình hoá và phân tích Vì vậy có thể nói, GIS được xây dựng trên các tri thức của nhiều ngành khoa học khác nhau để tạo ra các hệ thống phục vụ mục đích cụ thể Các ngành này bao gồm:
- Ngành địa lý: Là ngành liên quan mật thiết đến việc biểu diễn thế giới và vị trí của đối tượng trong thế giới Nó có truyền thống lâu đời về phân tích không gian
và nó cung cấp các kỹ thuật phân tích không gian khi nghiên cứu [7]
- Ngành bản đồ: Nguồn dữ liệu đầu vào chính của GIS là các bản đồ Ngành bản đồ có truyền thống lâu đời trong việc thiết kế bản đồ, do vậy nó cũng là khuôn mẫu quan trọng nhất của đầu ra GIS [7]
- Công nghệ viễn thám: Các ảnh vệ tinh và ảnh máy bay chụp là nguồn dữ liệu địa lý quan trọng cho hệ GIS Viễn thám bao gồm cả kỹ thuật thu thập và xử lý dữ liệu ở mọi vị trí trên quả địa cầu Các dữ liệu đầu ra của hệ thống ảnh vệ tinh có thể được trộn với các lớp dữ liệu của GIS Ảnh máy bay: Khi ta xây dựng bản đồ có tỷ lệ cao thì ảnh chụp từ máy bay là nguồn dữ liệu chính về bền mặt trái đất được sử dụng làm đầu vào [7]
- Bản đồ địa hình: Cung cấp dữ liệu có chất lượng cao về vị trí của ranh giới đất đai, nhà cửa, vv… [7]
Trang 19- Ngành thống kê: Các kỹ thuật thống kê được sử dụng để phân tích dữ liệu GIS Nó là đặc biệt quan trọng trong việc xác định sự phát sinh các lỗi hoặc tính không chắc chắn trong số liệu của GIS [7]
- Khoa học tính toán: Tự động thiết kế máy tính cung cấp kỹ thuật nhập, hiển thị biểu diễn dữ liệu Đồ hoạ máy tính cung cấp công cụ để thể hiện, quản lý các đối tượng đồ hoạ Quản trị cơ sở dữ liệu cho phép biểu diễn dữ liệu dưới dạng số, các thủ tục để thiết kế hệ thống, lưu trữ, xâm nhập và cập nhật [7]
- Toán học: Các ngành hình học và lý thuyết đồ thị được sử dụng trong thiết
kế hệ GIS và phân tích dữ liệu không gian [7]
1.1.4 Các thành phần của GIS
Hệ thống GIS bao gồm 5 thành phần được mô tả như hình dưới đây:
Hình 1.2: Các thành phần của GIS [6]
Các thành phần của GIS:
a Con người: Người tham gia vào GIS có những loại sau: Thứ nhất là người
dùng GIS là những người sử dụng các phần mềm GIS để giải quyết các bài toán không gian theo mục đích của họ Họ thường là những người được đào tạo tốt về lĩnh vực GIS hay là các chuyên gia Kế đến là người xây dựng bản đồ: Sử dụng các lớp bản
đồ được lấy từ nhiều nguồn khác nhau, chỉnh sửa dữ liệu để tạo ra các bản đồ theo yêu cầu Nhà xuất bản thì là nhân tố sử dụng phần mềm GIS để kết xuất ra bản đồ dưới nhiều định dạng xuất khác nhau Nhà phân tích thì giải quyết các vấn đề như tìm
Trang 20kiếm, xác định vị trí, … Người xây dựng dữ liệu là những người chuyên nhập dữ liệu bản đồ bằng các cách khác nhau như: Vẽ, chuyển đổi từ các định dạng khác nhau, truy nhập CSDL, vv… Người quản trị CSDL thì quản lý CSDL GIS và đảm bảo hệ thống vận hành tốt Trong khi đó người thiết kế CSDL lại xây dựng các mô hình dữ liệu lôgic và vật lý Cuối cùng là nhà phát triển, họ xây dựng hoặc cải tạo các phần mềm GIS để đáp ứng các nhu cầu cụ thể
b Dữ liệu: Dữ liệu của hệ GIS được lưu trữ trong CSDL quan hệ và chúng
được thu thập thông qua các mô hình thế giới thực Dữ liệu trong hệ GIS còn được gọi là thông tin không gian Đặc trưng thông tin không gian là có khả năng mô tả “vật thể ở đâu” nhờ vị trí tham chiếu, đơn vị đo và quan hệ không gian Chúng còn có khả năng mô tả “hình dạng hiện tượng” thông qua mô tả chất lượng, số lượng của hình dạng và cấu trúc Cuối cùng, đặc trưng thông tin không gian mô tả “quan hệ và tương tác” giữa các hiện tượng tự nhiên Mô hình không gian đặc biệt quan trọng vì cách thức thông tin sẽ ảnh hưởng đến khả năng thực hiện phân tích dữ liệu và khả năng hiển thị đồ hoạ của hệ thống Theo Barbara Parmenter (2007) cấu trúc cơ sở dữ liệu trong GIS bao gồm 2 loại dữ liệu không gian (hình học) và dữ liệu phi không gian (dữ liệu thuộc tính):
- Mô hình dữ liệu không gian: Đây là dạng dữ liệu cơ bản của một hệ thống thông tin điạ lý Dạng dữ liệu này bao gồm các thông tin có tính đồ họa chỉ rõ hình dạng, phạm vi không gian, vị trí địa lý của một thực thể trong thế giới thực được khái quát hóa thành các đặc tính địa lý như: điểm, đường hay vùng trên bản đồ (hoặc ảnh) dưới dạng vector hoặc raster [7]
+ Dạng Vector: Sử dụng các điểm, đường, vùng rời rạc để thể hiện cho các đối tượng rời rạc thông qua thuộc tính tên hoặc mã số quy định Mọi đối tượng không gian đều được thể hiện thông qua các phần tử cơ bản là điểm, đường và vùng
Kiểu đối tượng điểm (Point): Được xác định bởi cặp giá trị tọa độ (X, Y) Các đối tượng đơn, thông tin địa lý chỉ gồm cơ sở vị trí sẽ được phản ánh là đối tượng điểm
Trang 21Kiểu đối tượng đường (Line): Được xác định như một tập hợp dãy các điểm Tất cả đối tượng địa lý có dạng tuyến tính được phản ánh bằng đối tượng đường
Kiểu đối tượng vùng (Polygon): Là đối tượng hình học hai chiều được xác định bởi ranh giới các đường thẳng Các đối tượng địa lý có diện tích và đóng kín bởi các đường, cung được gọi là đối tượng vùng
+ Dạng Raster: Mô hình dữ liệu dạng raster là kiểu cấu trúc dữ liệu mô tả không gian dưới dạng các lưới ô vuông quy chuẩn (các pixel hay điểm ảnh) Mô hình
dữ liệu raster chủ yếu dùng để phản ánh các đối tượng dạng vùng, được ứng dụng cho các bài toán tiến hành trên các loại đối tượng dạng vùng như: Phân loại, chồng xếp
Hình 1.3: Mô hình dữ liệu không gian [7]
- Mô hình dữ liệu phi không gian: Dữ liệu phi không gian hay còn gọi là dữ liệu thuộc tính là những mô tả về đặc tính, đặc điểm và các hiện tượng xảy ra tại các
vị trí địa lý xác định
Thế giới thực
Trang 22Có 4 loại số liệu thuộc tính cơ bản trong hệ thống thông tin địa lý:
+ Đặc tính của đối tượng: màu sắc, chất liệu được liên kết chặt chẽ với các thông tin không gian
+ Số liệu tham khảo địa lý: Bao gồm số liệu các sự kiện, hiện tượng miêu tả thông tin các hoạt động thuôc vị trí xác định
+ Chỉ số điạ lý: Tên, địa chỉ, phương hướng, liên quan đến các đối tượng địa
lý
+ Quan hệ giữa các đối tượng trong không gian đơn giản hay phức tạp
Hình 1.4: Minh họa liên kết giữa dữ liệu không gian và phi không gian [7]
c Phần cứng: Đó là các máy tính điện tử: PC, mini Computer, MainFrame,…
là các thiết bị mạng cần thiết khi triển khai GIS trên môi trường mạng GIS cũng đòi hỏi các thiết bị ngoại vi đặc biệt cho việc nhập và xuất dữ liệu như: Máy số hoá (digitizer), máy vẽ (plotter), máy quét (scanner), thiết bị xác định tọa độ địa lý (GPS),…
d Phần mềm: Hệ thống phần mềm GIS rất đa dạng Mỗi đơn vị xây dựng GIS
đều có hệ phần mềm riêng của mình Tuy nhiên, có một dạng phần mềm mà các đơn
vị phải xây dựng là hệ quản trị CSDL địa lý Dạng phần mềm này nhằm mục đích nâng cao khả năng cho các phần mềm CSDL thương mại trong việc: Sao lưu dữ liệu, định nghĩa bảng, quản lý các giao dịch, do đó ta có thể lưu các dữ liệu địa lý dưới dạng các đối tượng hình học trực tiếp trong các cột của bảng quan hệ và nhiều công việc khác
Trang 23Một số phần mềm GIS thông dụng: Microstation, AutoCad, MapInfo, Bentley, ArcGIS, phần mềm GIS mã nguồn mở (QGIS, OpenMapGuide, )
e Phương pháp phân tích: Các phương pháp phân tích cấu trúc và nội dung
dữ liệu
1.1.5 Một số khả năng ứng dụng của GIS
Theo cách tiếp cận truyền thống GIS là một công cụ máy tính để lập bản đồ
và phân tích các sự vật và hiện tượng thực trên trái đất Công nghệ GIS kết hợp các thao tác cơ sở dữ liệu thông thường (cấu trúc hỏi đáp), các phép phân tích thống kê
và phân tích không gian Những khả năng này phân biệt GIS với các hệ thống thông tin khác khiến cho GIS có phạm vi ứng dụng rộng trong nhiều lĩnh vực khác nhau như: Phân tích các sự kiện, dự đoán tác động và hoạch định chiến lược
Một số khả năng ứng dụng cụ thể của GIS thường thấy trong thực tế là:
- Quản lý hệ thống đường phố: Tìm kiếm, phân tích vị trí, chọn khu vực xây dựng các tiện ích như bãi đỗ xe, ga tàu, lập kế hoạch phát triển giao thông, vv
- Quản lý giám sát tài nguyên, thiên nhiên và môi trường: Quản lý gió và thuỷ
hệ, các nguồn nhân tạo, bình đồ lũ, vùng ngập úng, đất nông nghiệp, tầng ngập nước, rừng, vùng tự nhiên và phân tích tác động môi trường, xcác định ví trí chất thải độc hại, mô hình hoá nước ngầm, phân tích phân bố dân cư, vv
- Quản lý quy hoạch: Phân vùng quy hoạch sử dụng đất, các hiện trạng xu thế môi trường và quản lý chất lượng nước
- Quản lý các thiết bị: Xác định đường ống ngầm và cáp ngầm Xác định tải trọng của lưới điện Duy trì quy hoạch các thiết bị và sử dụng đường điện
- Phân tích tổng điều tra dân số, lập bản đồ các dịch vụ y tế và bưu điện, vv
- Trợ giúp quy hoạch đô thị: Nhà quy hoạch đô thị quan tâm đến sự phát triển
mở rộng đô thị ra các vùng ngoại ô và xem xét đến việc phát triển dân số cơ học tại các vùng đó cũng như lý do tại sao cần phát triển đô thị ở vùng này chứ không phải
ở vùng khác
Trang 24- Hỗ trợ nghiên cứu sinh học: Nhà sinh vật học nghiên cứu tác động của tập quán đốt rừng làm nương đến khả năng sinh tồn lâu dài của những loài động vật lưỡng
cư tại các vùng rừng núi
- Phân tích phòng chống thiên tai: Nhà phân tích thiên tai xác định những vùng
có nguy cơ ngập lụt cao gắn liền với hiện tượng gió mùa hàng năm qua việc xem xét các tính chất mưa và địa hình của khu vực
- Quản lý và phân tích địa chất: Nhà địa chất xác định những khu vực tối ưu cho việc xây dựng công trình tại vùng đất có chấn động thường xuyên bằng cách phân tích các tính chất kiến tạo đá
- Quản lý và phân tích trong bưu chính viễn thông: Các công ty viễn thông muốn xác định vị trí tối ưu để xây dựng trạm rơle có tính đến các yếu tố chi phí như giá đất và mức độ bằng phẳng của địa hình
1.1.6 Khái niệm WebGIS
Khi chúng ta sử dụng công nghệ web để triển khai GIS lên mạng máy tính thì
hệ thống đó được gọi là hệ thống WebGIS [7]
WebGIS chính là công cụ trực quan dùng để công bố các tài nguyên dữ liệu GIS lên mạng máy tính cho mọi người có thể tra cứu và truy vấn, giúp cho tài nguyên GIS được truy cập rộng rãi hơn đến người dùng trên toàn thế giới
1.1.7 Các tính năng của WebGIS
- Tính năng tra cứu dữ liệu GIS trực tuyến: Thông thường trước đây người dùng muốn tra cứu tài nguyên GIS thì cần phải có dữ liệu GIS trong máy tính, đồng thời máy cũng phải được cài đặt phần mềm GIS tương thích Việc này gây ra khá nhiều khó khăn, phiền toán WebGIS đã gạt bỏ các cản trở đó bằng cách cho phép người dùng chỉ việc có một thiết bị máy khách có khả năng vào mạng và dùng trình duyệt web để xem dữ liệu GIS (đặc trưng là bản đồ) đã được tạo ra bởi nhà xuất bản
- Tính năng phân tích đơn giản: Tìm vùng bao (buffer) hay tìm đường đi ngắn nhất
Trang 251.1.8 Kiến trúc WebGIS và các bước xử lý
Kiến trúc web của hệ thống WebGIS cũng gần giống như kiến trúc dành cho một hệ thống web cơ bản khác, ngoại trừ ứng dụng GIS sử dụng các kỹ thuật khác Kiến trúc tổng quát nhất được mô tả như sau:
Hình 1.5: Kiến trúc hệ thống WebGIS
Quá trình làm việc với hệ thống web xử lý thông tin không gian được minh họa như trên hình vẽ 1.5, sau đây là quy trình xảy ra khi một người dùng sử dụng trình duyệt web ở phía máy khách để truy cập hệ thống:
- Máy khách gửi yêu cầu của người sử dụng thông qua giao thức HTTP đến máy chủ web
- Máy chủ web nhận yêu cầu của người dùng gửi đến từ phía máy khách, xử
lý và chuyển tiếp yêu cầu đến ứng dụng trên máy chủ có liên quan đã được cài đặt sẵn trong máy chủ web, trường hợp này là ứng dụng WebGIS
- Ứng dụng WebGIS chạy trên máy chủ nhận các yêu cầu cụ thể đối với ứng dụng và gọi các hàm có liên quan để tính toán xử lý Trong quá trình xử lý, nếu có yêu cầu dữ liệu nó sẽ gửi yêu cầu dữ liệu đến máy chủ tổng hợp dữ liệu
- Máy chủ tổng hợp dữ liệu nhận yêu cầu dữ liệu và tìm kiếm vị trí của những
dữ liệu này sau đó gửi yêu cầu dữ liệu đến máy chủ cơ sở dữ liệu có chứa dữ liệu tương ứng cần tìm
Client (Web
Database
Web Server Image, map
response spatial
Map engine
Trang 26- Máy chủ cơ sở dữ liệu tiến hành truy vấn lấy dữ liệu cần thiết và trả dữ liệu này về cho máy chủ tổng hợp dữ liệu
- Máy chủ tổng hợp dữ liệu nhận dữ liệu từ nhiều máy chủ lưu trữ cơ sở dữ liệu khác nhau nằm rải rác trên mạng, sắp xếp dữ liệu lại theo trật tự của yêu cầu dữ liệu, sau đó gửi trả dữ liệu về cho ứng dụng WebGIS
- Ứng dụng WebGIS nhận dữ liệu trả về từ các máy chủ tổng hợp dữ liệu và đưa chúng đến các hàm cần sử dụng, xử lý chúng tại đây và kết quả được trả về cho máy chủ web
- Máy chủ web nhận về kết quả xử lý, thêm vào các ngữ cảnh web (HTML, Javascript) để có thể hiển thị được trên trình duyệt và cuối cùng gửi trả kết quả về cho trình duyệt dưới dạng các trang web
Hình 1.6: Các dạng yêu cầu chính từ phía client trên WebGIS
Mô hình hoạt động của WebGIS được chia ra 2 phần, đó là các hoạt động ở phía máy khách và các hoạt động xử lý ở phía máy chủ, cụ thể như sau:
Xác định khả năng đáp ứng của Web Server
Web Server
Lấy thông tin vị trí
thuộc tính
Nhấn chuột
Mô tả về lớp bản đồ được chọn
Client Gõ thông
tin cần tìm
Lấy thông tin vị trí, thuộc tính
và thông tin thuộc tính
Yêu cầu
Trang 27- Phía máy khách: Máy khách được dùng để hiển thị kết quả đến cho người dùng, nhận các điều khiển trực tiếp từ người dùng và tương tác với máy chủ web thông qua trình duyệt web Các trình duyệt web chủ yếu sử dụng ngôn ngữ HTML
để định dạng trang web, thêm vào đó một vài thành phần bổ sung được nhúng vào trình duyệt để tăng tính tương tác với người dùng
- Phía máy chủ: Bao gồm máy chủ web, máy chủ ứng dụng bổ sung, máy chủ tổng hợp dữ liệu và các máy chủ cơ sở dữ liệu phân tán Phía máy chủ có nhiệm vụ lưu trữ dữ liệu không gian, xử lý tính toán và trả về kết quả dưới dạng hiển thị được cho phía máy khách
+ Máy chủ web: Máy chủ web được dùng để phục vụ cho các ứng dụng web, máy chủ web sử dụng nghi thức HTTP để giao tiếp với trình duyệt web ở phía máy khách Tất cả các yêu cầu từ phía máy khách đối với ứng dụng web đều được máy chủ web nhận và thông dịch sau đó gọi các chức năng của ứng dụng thông qua các giao tiếp mạng
+ Máy chủ cơ sở dữ liệu: Máy chủ cơ sở dữ liệu là phần cơ bản của hầu hết các hệ thống thông tin với nhiệm vụ quản lý và điều khiển truy cập dữ liệu Ban đầu,
đa số hệ thống GIS sử dụng hệ thống tập tin để quản lý dữ liệu không gian và hệ quản trị cơ sở dữ liệu để quản lý dữ liệu thuộc tính Ngày nay, có nhiều sản phẩm và giải pháp phần mềm thay thế để quản lý dữ liệu không gian và thuộc tính một cách chung nhất, ví dụ: SDE của ESRI, SpatialWare của MapInfo, … Nhìn chung các cơ sở dữ liệu sử dụng đều là các cơ sở dữ liệu quan hệ, trong tương lai sẽ thay thế bằng cơ sở
dữ liệu hướng đối tượng
1.2 Web ngữ nghĩa
1.2.1 Sự ra đời của web ngữ nghĩa
Xuất phát từ việc chia sẻ thông tin trên Web ngày càng nhiều, dẫn tới dữ liệu được lưu trữ một cách tràn lan Điều này khiến cho việc tìm kiếm các thông tin hữu ích khi cần thiết cũng ngày càng trở nên khó khăn Với thực tế đó, yêu cầu thông tin cần được tổ chức một cách khoa học hơn để phục vụ cho việc tìm kiếm dễ dàng và
Trang 28từ ý tưởng của Tim Berners-Lee người phát minh WWW, Web ngữ nghĩa mở đầu cho việc tổ chức lại dữ liệu theo một phương diện khác, làm sao cho việc tổ chức dữ liệu một cách có ý nghĩa để máy tính có thể hiểu được những gì con người muốn tìm kiếm
1.2.2 Khái niệm web ngữ nghĩa
Tim Berners-Lee đã đưa ra hai vấn đề của web ngữ nghĩa, đó là tạo cho web một môi trường cộng tác tốt hơn và vấn đề thứ hai là máy có thể hiểu và xử lý tự động các thông tin trên web Ông định nghĩa: “Web ngữ nghĩa là một sự mở rộng của web hiện tại mà trong đó thông tin được xử lý một cách tự động bằng máy tính, làm cho máy tính và con người có thể hợp tác với nhau” [20]
Web ngữ nghĩa có thể coi là một mạng lưới các thông tin được liên kết sao cho chúng có thể được xử lý trên phạm vi toàn cầu thông qua các máy tính
Có thể coi web Ngữ nghĩa như một cách mô tả thông tin rất hiệu quả trên World Wide Web và cũng có thể coi đó là một cơ sở dữ liệu liên kết toàn cầu
Trong web ngữ nghĩa, dữ liệu được tổ chức một cách ngữ nghĩa, nhờ đó mà máy tính có thể hiểu được những mong muốn của con người, nhờ đó mà web ngữ nghĩa được coi là web thông minh
1.2.3 Đặc điểm của web ngữ nghĩa
Web ngữ nghĩa cho phép việc tự động hoặc bán tự động chú thích, quảng cáo, tìm kiếm, lựa chọn, tạo và thực hiện việc tổ chức nội bộ nghiệp vụ logic, làm cho internet trở thành một nền tảng chung khi tổ chức và giao tiếp từng thành phần để thực hiện một vài các hoạt động thương mại và để cung cấp các dịch vụ kèm theo [1]
Giả sử ta cần so sánh giá để chọn mua một bó hoa hay ta cần tra cứu catalog của các hãng chế tạo xe khác nhau để tìm ra thiết bị thay thế cho các bộ phận bị hư hỏng của xe Volvo 740 Thông tin mà ta thu được trực tiếp trên Web có thể trả lời các câu hỏi này nhưng đòi hỏi con người phân tích ý nghĩa của dữ liệu và sự liên quan của nó với yêu cầu đề ra, không thể xử lý tự động bằng máy tính Với Web ngữ nghĩa
ta có thể giải quyết vấn đề này bằng 2 cách:
Trang 29+ Thứ nhất, nó sẽ mô tả chi tiết dữ liệu của nó Do đó một chương trình xử lý không cần quan tâm đến các format, hình ảnh, quảng cáo trên một trang Web để tìm
ra sự liên quan của thông tin [3]
+ Thứ hai, Web ngữ nghĩa cho phép chúng ta tạo ra một file mô tả mối liên hệ giữa các tập dữ liệu khác nhau Ví dụ, ta có thể tạo một liên kết semantic giữa một cột "zip-code" trong database với trường "zip" ở trên form nhập liệu nếu chúng có chung ý nghĩa Điều này cho phép máy tính theo các link và tích hợp dữ liệu từ nhiều nguồn khác nhau Ý tưởng liên kết các nguồn khác nhau (tài liệu, hình ảnh, con người, khái niệm,…) cho phép chúng ta mở rộng Web thành một môi trường mới với tập các mối quan hệ mới như: hasLocation, worksFor, isAuthorOf, hasSubjectOf, dependsOn, , giữa các nguồn dữ liệu, tạo ra các mối liên hệ ngữ cảnh (contextual relationship) điều mà Web hiện tại chưa làm được [3]
Hình 1.7: Minh họa liên kết ngữ nghĩa giữa các nguồn trong Web ngữ nghĩa
Subject
Subject
hasAuthor
liveAt
Trang 301.2.4 Kiến trúc của web ngữ nghĩa
Hình dưới chỉ ra sơ đồ kiến trúc của Web ngữ nghĩa Web ngữ nghĩa là một tập hợp/một chồng (stack) các ngôn ngữ [3]
Hình 1.8: Kiến trúc của web ngữ nghĩa [3]
Vai trò của các tầng/lớp trong kiến trúc của web ngữ nghĩa:
- URI: Một định danh tài nguyên, là một chuỗi được định dạng mà đáp ứng như là ý nghĩa của định danh trừu tượng hoặc tài nguyên vật lý Một URI có thể được phân loại sâu hơn như là một định vị, một tên hoặc cả hai Định vị tài nguyên thống nhất (URL) dùng để chỉ tới tập con của URI mà xác định các tài nguyên thông qua một đại diện của cơ chế truy cập chính của chúng Một tên tài nguyên thống nhất (URN) dùng để chỉ tập hợp con của URI được yêu cầu để duy trì sự duy nhất toàn vẹn và sự bền vững ngay cả khi nguồn tài nguyên không còn tồn tại hoặc không có sẵn Ví dụ: một URL: <http://dme.uma.pt/jcardoso/index.htm> xác định địa chỉ trang web được lấy về; một URN: “urn:isbn:3-540-24328-3” xác định một cuốn sách sử dụng ISBN [3]
- Unicode: Unicode cung cấp một số duy nhất cho mỗi ký tự theo bảng mã Unicode
- XML và tên không gian tên miền XML: Các định nghĩa XML (ngôn ngữ đánh dấu mở rộng) với tên miền XML và lược đồ XML đảm bảo rằng có một cú pháp chung được sử dụng trong Web ngữ nghĩa Các không gian tên miền XML cho phép
Trang 31xác định từ vựng được đánh dấu khác nhau trong một tài liệu XML Lược đồ XML nhằm đáp ứng việc mô tả lược đồ các định nghĩa của một tài liệu XML cụ thể
- RDF và giản đồ RDF: Phía trên của XML là khung tảng mô tả tài nguyên (RDF), để biểu diễn thông tin về các tài nguyên trong một hình thức biểu đồ RDF được dựa trên bộ ba (triple): Chủ ngữ - Vị ngữ - Tân ngữ (Subject – Predicate – Object) là hình thức của một biểu đồ dữ liệu với một quan hệ của đối tượng (một tài nguyên) một thuộc tính (một tính chất) và một giá trị (một tài nguyên) Lược đồ RDF (RDFS) định nghĩa từ vựng của mô hình RDF Nó cung cấp cơ chế mô tả các thuộc tính của một miền cụ thể và các lớp của các tài nguyên, từ đó các thuộc tính kia có thể áp dụng và sử dụng một tập hợp các mô hình gốc cơ bản (lớp, lớp con, thuộc tính, thuộc tính con, miền, phạm vi và loại)
- Ontology: Bao gồm một tập hợp các thuật ngữ tri thức: Từ vựng, ngữ nghĩa, các mối liên kết, các quy tắc đơn giản để suy diễn và logic cho một số chủ đề cụ thể Ontology đã được áp dụng cho các trang web để tạo ra Web ngữ nghĩa Ontology tạo điều kiện cho việc chia sẻ tri thức và cung cấp các nội dung Web có khả năng sử dụng lại, các dịch vụ Web và các ứng dụng Chi tiết về ontology được trình bày trong phần 1.2.5 của luận văn
- Tầng Logic, Proof, Trust và Digital Signature:
+ Tầng logic được sử dụng để nâng cao độ sâu của ngôn ngữ ontology và cho phép viết lên khai báo tri thức của ứng dụng cụ thể
+ Tầng proof bao gồm quá trình suy diễn thực tế như là bản biểu diễn thử trong các ngôn ngữ Web và đánh giá bản in thử
+ Cuối cùng, tầng Trust là tầng trên cùng, thông qua việc sử dụng các chữ ký
số và các loại tri thức, dựa trên các gợi ý bởi các yếu tố đáng tin cậy hoặc trên các tác nhân đánh giá, chứng nhận và yêu cầu của từng khách hàng
1.2.5 Ontology
1.2.5.1 Khái niệm
Một ontology là một mô hình dữ liệu biểu diễn tri thức (từ vựng liên quan đến
sự vật – hiện tượng có tính khái quát cao và dùng trong nhiều lĩnh vực) hoặc biểu
Trang 32diễn một lĩnh vực (khái niệm, quan hệ và hoạt động của lĩnh vực cụ thể) hoặc biểu diễn một tác vụ (kế hoạch, mục tiêu, ràng buộc, ấn định, lựa chọn và phân loại) và được sử dụng để suy luận về các đối tượng trong miền tri thức, lĩnh vực, tác vụ đó và mối quan hệ giữa chúng [4]
Các ontology thường miêu tả:
+ Các cá thể: Các đối tượng cơ bản, nền tảng
+ Các lớp: Các tập hợp, hay kiểu của các đối tượng
+ Các thuộc tính: Thuộc tính, tính năng, đặc điểm, tính cách hay các thông số
mà các đối tượng có và có thể đem ra chia sẻ
+ Các mối liên hệ: Các con đường mà các đối tượng có thể liên hệ tới một đối tượng khác
1.2.5.2 Vai trò của ontology
- Hình thành ngôn ngữ chung để chia sẻ - tái sử dụng tri thức [32]
+ Giao tiếp người – người / ứng dụng - ứng dụng tốt hơn
+ Chuẩn hóa – hình thức hóa ý nghĩa của các thuật ngữ qua các khái niệm – là nền tảng để biểu diễn tri thức
- Chia sẻ cách hiểu chung về cấu trúc của thông tin giữa con người và tác tử phần mềm
+ Giao tiếp giữa các website thương mại điện tử
- Làm các giả định của một miền ứng dụng trở nên tường minh [4]
+ Tránh sự cứng nhắc do định nghĩa trong mã nguồn hay các lược đồ CSDL + Có thể thay đổi linh hoạt
1.2.5.3 Các bước thiết kế một ontology
Hiện nay chưa có một quy trình phát triển ontology thống nhất trong cộng đồng để phát triển các ontologies Quy trình phát triển ontology được sử dụng nhiều nhất hiện nay gồm 7 bước do nhóm tác giả Natalya F Noy and Deborah L McGuinness thuộc tổ chức Stanford Center for Biomedical Informatics Research đưa
ra (nhóm phát triển phần mềm Protege để trình diễn và soạn thảo ontology), các bước
cụ thể như sau:
Trang 33- Bước 1: Xác định lĩnh vực và phạm vi của ontology:
+ Ontology cần mô tả lĩnh vực, phạm vi nào?
+ Ontology phục vụ cho mục đích chuyên biệt gì?
+ Cơ sở tri thức trong ontology sẽ trả lời những câu hỏi gì?
+ Ontology nhằm phục vụ cho đối tượng nào?
+ Ai sẽ là người xây dựng, quản trị ontology?
- Bước 2: Xem xét việc kế thừa (sử dụng lại) các ontology có sẵn
- Bước 3: Liệt kê các thuật ngữ quan trọng trong ontology
- Bước 4: Xác định các lớp và phân cấp của các lớp
+ Phương pháp từ trên xuống (top-down): Bắt đầu với định nghĩa của các lớp tổng quát nhất trong lĩnh vực và sau đó chuyên biệt hóa các khái niệm đó
+ Phương pháp từ dưới lên (bottom-up): Bắt đầu với định nghĩa của các lớp
cụ thể nhất, như các lá trong cây phân cấp Sau đó gộp các lớp đó lại thành các khái tổng quát hơn
+ Phương pháp kết hợp: Kết hợp giữa phương pháp từ trên xuống và từ dưới lên: bắt đầu từ định nghĩa các lớp dễ thấy trước và sau đó tổng quát hóa và chuyên biệt hóa các lớp đó một cách thích hợp Ví dụ bắt đầu với lớp nhân viên trước là thuật ngữ hay gặp nhất trong quản lý nhân sự Sau đó có thể chuyên biệt hóa thành các lớp con: nhân viên lễ tân, nhân viên phục vụ,… hoặc tổng quát hóa lên thành lớp Người
- Bước 5: Định nghĩa các thuộc tính và quan hệ cho lớp
+ Thuộc tính bên trong: Mô tả các tính chất nội tại bên trong đối tượng, ví dụ
"năng lực" của "nhân viên"
+ Thuộc tính bên ngoài: Mô tả phần biểu hiện của đối tượng, ví dụ "tên" hay
"địa chỉ" của "nhân viên"
+ Thuộc tính thành phần: ví dụ: thuộc tính "món ăn" của lớp "bữa ăn"
+ Thuộc tính quan hệ: Là mối quan hệ đến cá thể khác Ví dụ: thuộc tính "có đồng nghiệp" của lớp "người" biểu diễn mối quan hệ giữa hai người với nhau
Một điều cần chú ý trong bước này là việc một lớp sẽ kế thừa toàn bộ các thuộc tính của tất cả các lớp cha nó Do đó, cần phải xem xét một thuộc tính đã được định
Trang 34nghĩa ở các lớp thuộc mức cao hơn hay chưa Thuộc tính chỉ nên được định nghĩa khi
nó là tính chất riêng của lớp đang xét mà không được biểu hiện ở các lớp cao hơn
- Bước 6: Định nghĩa các ràng buộc về thuộc tính và quan hệ của lớp
+ Số lượng thuộc tính
+ Miền của thuộc tính
+ Phạm vi của thuộc tính
- Bước 7: Tạo các thể hiện/thực thể cho lớp
1.2.5.4 Ngôn ngữ biểu diễn ontology
- Ngôn ngữ biểu diễn ontology (Web Ontology Language - OWL) là ngôn ngữ đánh dấu được sử dụng để xuất bản và chia sẻ dữ liệu sử dụng các ontology trên Internet OWL là một bộ từ vựng mở rộng của khung mô tả tài nguyên (RDF) và được
kế thừa từ ngôn ngữ DAML+OIL Web ontology – Một dự án được hỗ trợ bởi W3C [13]
+ OWL biểu diễn ý nghĩa của các thuật ngữ trong các từ vựng và mối liên hệ giữa các thuật ngữ này để đảm bảo phù hợp với quá trình xử lý bởi các phần mềm
+ OWL được viết bởi XML cho nên các thông tin OWL có thể dễ dàng trao đổi giữa các kiểu hệ thống máy tính khác nhau, sử dụng các hệ điều hành và các ngôn ngữ ứng dụng khác nhau Mục đích chính của OWL là sẽ cung cấp các chuẩn để tạo
ra một nền tảng để quản lý tài sản, tích hợp mức doanh nghiệp và để chia sẻ cũng như tái sử dụng dữ liệu trên Web OWL được phát triển bởi nó có nhiều tiện lợi để biểu diễn ý nghĩa và ngữ nghĩa hơn so với XML, RDF và RDFS vì OWL ra đời sau các ngôn ngữ này nên nó có khả năng biểu diễn các nội dung mà máy có thể biểu diễn được trên Web
Trang 35- Cấu trúc biểu diễn ontology trong file owl:
+ Namespaces: Thành phần khởi tạo ban đầu chuẩn của một ontology là tập các khai báo XML namespace với thẻ rdf:RDF
Ví dụ:
<rdf:RDF
xmlns ="http://www.w3.org/TR/2004/REC-owl-guide-20040210/wine#" xmlns:vin ="http://www.w3.org/TR/2004/REC-owl-guide-20040210/wine#" xml:base ="http://www.w3.org/TR/2004/REC-owl-guide-20040210/wine#" xmlns:food="http://www.w3.org/TR/2004/REC-owl-guide-20040210/food#" xmlns:owl ="http://www.w3.org/2002/07/owl#"
+ Ontology Headers: Sau khi thiết lập namespace, chúng ta thường khai báo vào bên trong thẻ owl:Ontology tập các assertion Các thẻ này hỗ trợ các tiêu chuẩn như các comment, quản lý version và các kết luận của các Ontology khác
Thẻ owl: Ontology là một thay thế cho tập hợp rất nhiều các meta-data của owl cho tài liệu Khi sử dụng owl để mô tả tập các dữ liệu khởi tạo, thẻ owl:Ontology
có thể cần thiết để ghi lại thông tin về version và để nhập các định nghĩa mà tài liệu phụ thuộc vào Do đó, trong toàn bộ owl, tập ontology được mở rộng để bao gồm các khởi tạo dữ liệu
Thẻ rdf:about: cung cấp tên hoặc một tham chiếu cho Ontology Khi mà giá trị của thuộc tính là “”, thì trường hợp chuẩn, tên của Ontology là URI cơ bản của
Trang 36owl:Ontology Thông thường thì URI này của tài liệu đang chứa Ontology Một ngoại
lệ cho trường hợp sử dụng xml:base mà có thẻ thiết đặt URL-base là một thuộc tính
mà không phải là URI của tài liệu đang xét tới
Thẻ rdfs:comment: Được dùng để làm tăng tính rõ ràng cần thiết cho một ontology giống như việc chú giải chẳng hạn
Thẻ owl:priorVersion: Là một thẻ chuẩn có mục đích cung cấp các mấu chốt cho hệ thống điều khiển version với các Ontology
Thẻ owl:imports: Được sử dụng tương đương với thẻ #include trong các ngôn ngữ lập trình Thẻ này chỉ có một đối số, được xác định bởi thuộc tính rdf:resource 1.2.5.5 Một số công cụ hỗ trợ xây dựng ontology
- Ontology editors: Ontology editors giúp các kỹ sư xây dựng các ontology, chúng hỗ trợ xác định sự phân cấp khái niệm, xác định các thuộc tính cho các khái niệm và xác định các tiên đề, các ràng buộc
- OntoEdit: Là một môi trường kỹ thuật ontology được phát triển tại Knowledge Management Group của Đại học Karlsruhe, viện AIFB (http://ontoserver aifb.uni-karlsruhe.de/ontoedit) Hiện tại, OntoEdit hỗ trợ Frame-Logic, OIL, RDFS
và XML OntoEdit được thương mại hoá từ Ontoprise (www.ontoprise.de)
- Protégé: Cho phép các chuyên gia trong các lĩnh vực xây dựng các hệ thống
cơ sở tri thức bằng cách tạo hay bổ sung các ontology có khả năng tái sử dụng và các phương thức giải quyết vấn đề (www.smi.stanford.edu/projects/protege )
- Ontology-based annotation tools: (các công cụ chú giải cơ sở ontology) để liên kết thông tin không cấu trúc và bán cấu trúc với các ontology Reasoning with ontologies: suy luận từ thể hiện và giản đồ (suy luận với các ontology) cho phép các dịch vụ trả lời truy vấn tiến bộ, hỗ trợ tạo ontology và giúp ánh xạ giữa nhiều ontology khác nhau
Trang 37CHƯƠNG 2: ỨNG DỤNG CÔNG NGHỆ WEB NGỮ NGHĨA CHO GIS 2.1 Tiềm năng ứng dụng của công nghệ web ngữ nghĩa vào GIS
Mục tiêu chính của web ngữ nghĩa là tạo ra trang web sẽ là "một phần mở rộng của một trang hiện tại, trong đó cung cấp thông tin có ý nghĩa rõ ràng, tốt hơn, cho phép máy tính và con người làm việc hợp tác với nhau" [9] Trong một môi trường như vậy các hãng phần mềm thông minh có thể giải quyết việc tìm kiếm, lý luận phức tạp và hoạch định các nhiệm vụ Ý tưởng đằng sau nó là đại diện cho nội dung Web dưới một hình thức đó là: dễ hiểu và có thể suy luận được bằng máy móc và do đó cho phép máy tích hợp dữ liệu và lý luận tự động cũng như trao đổi dữ liệu giữa các ứng dụng thay mặt cho người sử dụng Do đó, chúng ta có thể nhận thấy hai tiềm năng có thể ứng dụng công nghệ web ngữ nghĩa cho GIS
2.1.1 Khả năng xử lý thông tin địa lý có ngữ nghĩa
Web ngữ nghĩa với khả năng biểu diễn và xử lý tri thức linh hoạt có thể đọc được bằng máy (RDF và các chú thích ngữ nghĩa trong RDFS và OWL), nó cho phép các hệ thống web thực hiện các tính năng tìm kiếm, cung cấp thông tin chính xác và đầy đủ hơn đến người sử dụng
GIS cũng như WebGIS về bản chất là hệ thống thông tin, trong đó thông tin của hệ thống là thông tin địa lý, ngoài chức năng phân tích không gian thì vấn đề tra cứu tìm kiếm thông tin trên GIS cũng được thực hiện như các hệ thống thông tin thông thường khác Vì vậy, chúng ta có thể ứng dụng công nghệ web ngữ nghĩa cho GIS, để giúp việc thực hiện tìm kiếm không chỉ bằng từ khoá, mà bằng cách suy luận,
sử dụng xem xét ngữ nghĩa tri thức để cho ra kết quả tìm kiếm chính xác và đầy đủ hơn đến người dùng Chẳng hạn như ta có: Chùa Hương là một địa danh văn hóa – lịch sử của Hà Nội, nhưng nếu người sử dụng tìm trên WebGIS truyền thống “di tích thắng cảnh của Việt Nam” thì sẽ không tìm thấy Nếu sử dụng web ngữ nghĩa sẽ cho
ra được kết quả Vì chùa Hương thuộc di tích thắng cảnh và Hà Nội thuộc Việt Nam
Trang 382.1.2 Khả năng tích hợp thông tin địa lý từ nhiều nguồn khác nhau [25]
Công nghệ web ngữ nghĩa cho phép việc tích hợp dữ liệu từ nhiều nguồn khác nhau Phương pháp tích hợp của nó là:
- So sánh các URI: Tự động tìm những URI giống nhau gộp lại làm một Ví
Trang 39Sau khi tích hợp, chúng ta sẽ được một bộ dữ liệu như hình 2.3:
Hình 2.3: Ontology sau khi tích hợp 2 nguồn dữ liệu 1 và 2
Sau khi tích hợp, người sử dụng nguồn dữ liệu 2 có thể hỏi “give me the title
of the original”, mặc dù ban đầu trong nguồn dữ liệu 2 không có thông tin này
- Gộp theo thông tin do người dùng định nghĩa: Ví dụ: Ở nguồn dữ liệu 1 và nguồn dữ liệu 2 trên hình 2.2 và hình 2.3 hai thông tin a:author và f:auteur là giống nhau, nhưng máy không tự động hiểu và gộp được, bởi vậy chúng ta cần cung cấp thêm thông tin việc gộp này, đó là:
+ a:author same as f:auteur
+ both identify a “Person”
Trang 40Khi đó ta được một bộ dữ liệu mới như hình 2.4:
Hình 2.4: Bộ dữ liệu mới sau khi tích hợp thêm thông tin
Lúc này, người sử dụng nguồn dữ liệu 2 có thể hỏi “give me the home page of the original’s author”
Chúng ta biết rằng GIS truyền thống là các hệ thống tập trung và bị cô lập và
sự không đồng nhất phát sinh theo cách mà các tổ chức khác nhau thu thập và quản
lý dữ liệu, theo một quan điểm cụ thể về thế giới Đây thường là một rào cản đối với việc trao đổi dữ liệu quan hệ không gian (Spatial-Related Data: SRD) Sự thiếu sót
và có lẽ không thể thực hiện được sự đồng thuận về không gian giới hạn truyền thông
và kiến thức về các thông tin có sẵn, dẫn đến sự không chính xác đồng thời một số lượng công việc phải xử lý bằng tay tăng lên như: Các cơ quan, tổ chức, công cộng (người dùng) truy cập dữ liệu không gian để điều hành, quản lý hoạt động (thiên tai,
hỗ trợ khẩn cấp, vv ) Cách tiếp cận sử dụng GIS truyền thống không phải lúc nào cũng thỏa đáng, người dùng phải đối phó với các nguồn dữ liệu phân tán không đồng nhất để tìm nguồn tài nguyên thích hợp cho các tình huống cụ thể
Công nghệ web ngữ nghĩa cho phép tích hợp thông tin rất tốt vì vậy, chúng ta
có thể ứng dụng web ngữ nghĩa để giải quyết vấn đề tích hợp dữ liệu từ nhiều nguồn khác nhau trên GIS