1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng Ontology phục vụ tìm kiêm ngữ nghĩa động vật rừng trên địa bàn thành phố Đà Nẵng

26 178 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 482,26 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Do đó, xây dựng công cụ để tìm kiếm ngữ nghĩa động vật rừng thành phố Đà Nẵng là một nhu cầu cấp thiết, phù hợp với chủ trương của Thành phố trong việc bảo tồn đa dạng sinh học rừng với

Trang 1

ĐẠI HỌC ĐÀ NẴNG

TRẦN XUÂN TRƯỜNG

XÂY DỰNG ONTOLOGY PHỤC VỤ TÌM KIẾM NGỮ NGHĨA ĐỘNG VẬT RỪNG

Trang 2

Công trình được hoàn thành tại

ĐẠI HỌC ĐÀ NẴNG

Người hướng dẫn khoa học: TS NGUYỄN TRẦN QUỐC VINH

Phản biện 1: PGS TS Võ Trung Hùng

Phản biện 2: PGS TS Lê Văn Sơn

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày 31 tháng 7 năm 2016

Có thể tìm hiểu luận văn tại:

- Trung tâm Thông tin-Học liệu, Đại học Đà Nẵng

- Thư viện trường Đại học Sư phạm, Đại học Đà Nẵng

Trang 3

MỞ ĐẦU

1 Lý do chọn đề tài

Thành phố Đà Nẵng có lợi thế rất lớn về địa hình và được thiên nhiên ban tặng cho nhiều sinh vật có giá trị, là một trong những thành phố hiếm có trên thế giới về đa dạng sinh học, nơi hội tụ sự đa dạng các hệ sinh thái rừng, biển và sông; với hơn 1.200km2

(kể cả huyện đảo Hoàng Sa), diện tích rừng chiếm gần 50%, đường bờ biển 72km

và trên 1.000ha diện tích lưu vực sông, hồ và vùng trũng Hệ động vật rừng của thành phố Đà Nẵng đặc trưng cho khu hệ động vật Nam Trường Sơn với các loài Voọc vá, Khỉ đuôi dài, Chồn dơi, Sóc vàng, Trĩ sao, Gà lôi và Bắc Trường Sơn như Tê tê, Gà tiền, Khỉ vàng,… Hiện nay, việc điều tra, thống kê hệ động vật rừng của thành phố Đà Nẵng đã được nhiều nhà khoa học, cơ quan, tổ chức thực hiện thông qua các chương trình, dự án, các đề tài, như: Điều tra khu động – thực vật và nhân tố ảnh hưởng, đề xuất phương án bảo tồn hợp lý khu bảo tồn thiên nhiên bán đảo Sơn Trà, Báo cáo tài nguyên rừng thành phố Đà Nẵng,… Tuy nhiên, việc công bố các nội dung điều tra, thống kê đó trên internet để cá nhân, tổ chức khác có nhu cầu tìm hiểu, tra cứu thì còn nhiều hạn chế Một số website cung cấp thông tin về hệ động – thực vật của thành phố Đà Nẵng như: website Sở Nông nghiệp và phát triển Nông thôn TP Đà Nẵng, website Văn phòng thuộc Ban chỉ đạo thành phố Ứng phó biến đổi khí hậu và nước biển dâng thành phố Đà Nẵng,… đều chủ yếu cung cấp tin tức,

số liệu thống kê sơ lược, chưa có website nào cung cấp chức năng tra cứu chuyên sâu về hệ động - thực vật nói chung và động vật rừng nói riêng tại thành phố Đà Nẵng

Trang 4

Hiện nay, công nghệ web 2.0 đã đạt được những thành tựu rất đáng kể trong việc nâng cao tính tương tác cũng như đẩy nhanh tốc

độ xử lý đáp ứng yêu cầu của người dùng Tuy nhiên trong xã hội thông tin đương đại nhu cầu của người dùng không dừng lại ở việc cải thiện tốc độ mà còn phải cải thiện chất lượng xử lý của trang web theo yêu cầu ngày càng nâng cao Web 3.0 ra đời nhằm đáp ứng những yêu cầu về chất lượng đó Với đặc điểm chính là nâng cao khả năng chia sẻ tài nguyên và tăng “sự hiểu biết” trong quá trình xử lý

dữ liệu của máy tính, Web ngữ nghĩa đã đi sâu vào phân tích và định hướng dữ liệu, đồng thời hỗ trợ phát triển ứng dụng Web ngữ nghĩa trên nhiều lĩnh vực khác nhau Một trong những lĩnh vực thế mạnh của Web ngữ nghĩa là xử lý và tìm kiếm thông tin Việc phân tích và định hướng nội dung lưu trữ cho phép chúng ta xây dựng những cơ

sở dữ liệu phục vụ tìm kiếm chính xác hơn, tinh gọn hơn

Do đó, xây dựng công cụ để tìm kiếm ngữ nghĩa động vật rừng thành phố Đà Nẵng là một nhu cầu cấp thiết, phù hợp với chủ trương của Thành phố trong việc bảo tồn đa dạng sinh học rừng với mục tiêu Thành phố môi trường mà Thành phố đã đề ra trong đề án "Xây dựng

Đà Nẵng - Thành phố môi trường"

Vậy, với những vấn đề đã nêu trên tôi đề xuất xây dựng đề tài

“Xây dựng ontology phục vụ tìm kiếm ngữ nghĩa động vật rừng trên địa bàn thành phố Đà Nẵng” làm đề tài tốt nghiệp luận văn cao

học Trong đề tài này, tôi nghiên cứu ứng dụng công nghệ Web ngữ nghĩa, đề xuất giải pháp và xây dựng ontology dựa trên thông tin, dữ liệu về động vật rừng, từ đó xây dựng ứng dụng hỗ trợ tìm kiếm ngữ nghĩa động vật rừng phân bố tại thành phố Đà Nẵng một cách dễ dàng và tiện lợi, góp phần phổ biến rộng rãi thông tin về đa dạng sinh học của Thành phố

Trang 5

2 Mục tiêu nghiên cứu

Xây dựng ontology cho dữ liệu động vật rừng tại thành phố Đà Nẵng;

Xây dựng ứng dụng tìm kiếm ngữ nghĩa cho dữ liệu động vật rừng;

Phổ biến thông tin và góp phần bảo tồn đa dạng sinh học rừng của thành phố Đà Nẵng

3 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu là các vấn đề liên quan đến web ngữ

nghĩa, phương pháp xây dựng và lưu trũ dữ liệu trong web ngữ nghĩa, nghiên cứu ontology, RDF và OWL, dữ liệu động vật rừng tại thành phố Đà Nẵng

Phạm vi nghiên cứu là dữ liệu động vật rừng phân bố trên địa

bàn thành phố, nghiên cứu về RDF, SPARQL, các ứng dụng biên tập

ontology: (Sesame, Jena, Protégé,…)

4 Phương pháp nghiên cứu

Phương pháp lý thuyết: Tìm hiểu lý thuyết: Web ngữ nghĩa,

ontology, RDF Tìm kiếm, tổng hợp dữ liệu động vật rừng trên địa bàn thành phố Đà Nẵng Nghiên cứu phương pháp và phần mềm xây dựng web ngữ nghĩa Nghiên cứu xây dựng ontology cho dữ liệu

động vật rừng

Phương pháp thực nghiệm: Xây dựng ontology; Triển khai

thực tế trên internet

5 Ý nghĩa khoa học và thực tiễn

Về mặt khoa học đề tài đóng góp phương pháp xây dựng

ontology về dữ liệu động vật nói chung và dữ liệu động vật rừng trên địa bàn thành phố Đà Nẵng nói riêng, ứng dụng semantic web về mặt

Trang 6

tìm kiếm và vấn đề đa ngữ trong ontology, một công cụ hỗ trợ khai

thác, phát triển và tìm kiếm theo công nghệ web ngữ nghĩa

Về thực tiễn đề tài mở ra hướng nghiên cứu ứng dụng mới về

tìm kiếm dữ liệu các loài động vật

6 Bố cục đề tài

Luận văn được trình bày bao gồm các nội dung như sau :

Chương 1: Trong chương này, tôi trình bày cơ sở lý thuyết về

web ngữ nghĩa, ngôn ngữ RDF, OWL và nêu khái niệm về ontology,

đồng thời tôi giới thiệu và trích dẫn tổng quan thông tin động vật

rừng từ các nghiên cứu động vật trên địa bàn thành phố Đà Nẵng

Chương 2: Chương này tôi tìm hiểu phương pháp xây dựng

ontology, từ đó đưa ra phương pháp xây dựng ontology động vật

rừng Đồng thời, tôi tìm hiểu các phần mềm ứng dụng trong việc biên

tập và khai thác ontology

Chương 3: Dựa trên những nghiên cứu, tìm hiểu ở chương 2,

tôi tiến hành đặc tả dữ liệu động vật rừng, tiến hành xây dựng chi tiết

ontology động vật rừng và phát triển các chức năng của phần mềm hỗ

trợ khai thác, tìm kiếm động vật rừng thành phố Đà Nẵng

Ngoài ra, để đánh giá toàn bộ quá trình nghiên cứu, phần cuối

của luận văn có nêu lên kết quả và hướng phát triển cho đề tài

Trang 7

CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ WEB NGỮ NGHĨA

1.1.1 Giới thiệu

1.1.2 Khái niệm

Web ngữ nghĩa được phát triển bởi Tim- Berners Lee, cha đẻ

của WWW, URIs, HTTP và HTML Theo Ông, “Web ngữ nghĩa là

sự mở rộng của Web hiện tại, cho phép người dùng có thể truy tìm, phối hợp, sử dụng lại và trích lọc thông tin một cách dễ dàng và chính xác”

1.1.3 Nội dung xây dựng hệ thống web ngữ nghĩa

1.1.4 Kiến trúc phân tầng của web ngữ nghĩa

1.2 RDF – NỀN TẢNG CỦA WEB NGỮ NGHĨA

Nhiều định nghĩa về ontology xuất hiện trong thập kỷ trước

nhưng có lẽ định nghĩa mô tả rõ nhất bản chất của ontology là: “An ontology is a formal, explicit specification of a shared conceptualization.” (Một ontology là một hình thức, đặc tả rõ ràng

khái niệm chia sẻ) Trong ngữ cảnh này, conceptualization (khái

niệm hoá) đề cập đến một mô hình trừu tượng của một vài hiện tượng

Trang 8

trong thế giới thực dùng để nhận dạng các khái niệm liên quan đến

hiện tượng đó Explicit (rõ ràng) có nghĩa là loại khái niệm được sử

dụng và các ràng buộc khi sử dụng chúng được xác định một cách rõ

ràng, và formal (hình thức) có nghĩa là máy tính có thể hiểu được

ontology

1.3.2 Các lĩnh vực ứng dụng ontology

1.3.3 Vai trò ontology và web ngữ nghĩa

1.3.4 Các thành phần của ontology

Ontology được sử dụng như là một biểu mẫu trình bày tri thức

về thế giới hay một phần của nó Ontology thường miêu tả:

 Cá thể: Các đối tượng cơ bản, nền tảng

 Lớp: Các tập hợp, hay kiểu của các đối tượng

 Thuộc tính: Thuộc tính, tính năng, đặc điểm, tính cách, hay các thông số mà các đối tượng có và có thể đem ra chia sẻ

 Mối liên hệ: cách mà các đối tượng có thể liên hệ tới một đối tượng khác

Bộ từ vựng ontology được xây dựng trên cơ sở tầng RDF và RDFS, cung cấp khả năng biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên Web và có khả năng hỗ trợ lập luận

Trang 9

vực (domain) và diễn tả những đối tượng trong lĩnh vực đó cùng những mối quan hệ giữa các đối tượng này OWL là phần mở rộng về

từ vựng của RDF và được kế thừa từ ngôn ngữ DAML+OIL Web ontology – một dự án được hỗ trợ bởi W3C OWL biểu diễn ý nghĩa của các thuật ngữ trong các từ vựng và mối liên hệ giữa các thuật ngữ này để đảm bảo phù hợp với quá trình xử lý bởi các phần mềm

1.3.11 Cú pháp của câu truy vấn

1.3.12 Tạo một câu truy vấn đơn giản

1.4 ĐỘNG VẬT RỪNG TRÊN ĐỊA BÀN THÀNH PHỐ ĐÀ NẴNG

1.4.1 Giới thiệu

1.4.2 Cấu trúc, thành phần loài động vật

Các loài này phân bố số loài không đồng đều trong các lớp động vật, nhưng có thành phần loài đa dạng, đặc biệt là nguồn gen các loài quý hiếm như: Gấu, Beo lửa, Mèo rừng, Sóc bay, Chồn dơi, Cầy mực, Cu li, Voọc vá chân nâu, khỉ vàng, Trĩ sao, Công, Gà tiền,

Gà lôi lam, Mang trường sơn, Rái cá, Dơi chó tai ngắn và một số loài

Phân bố các Taxon trong 3 lớp động vật có xương sống ở cạn cho thấy sự khác nhau và phân bố không đồng đều

Trang 10

Sông Bắc- Sông Nam

Sơn Trà

Sông Bắc- Sông Nam

Sơn Trà

có giá trị về kinh tế, môi trường điển hình: Số lượng loài động vật rừng nguy cấp, quý, hiếm: 75 loài; Số lượng loài động vật rừng thông thường nhưng có giá trị về kinh tế, môi trường Tổng số: 21 loài

1.4.3 Cấu trúc, thành phần loài con trùng

1.5 MỘT SỐ NGHIÊN CỨU WEB NGỮ NGHĨA ĐÃ TRIỂN KHAI

đã triển khai trước đây

Từ đó, tôi có nhưng kiến thức cơ bản về lý thuyết, những thông tin, dữ liệu ban đầu về hệ động vật rừng của thành phố Đà

Trang 11

Nẵng và có được danh mục các nghiên cứu đã thực hiện để tiến hành thu thập dữ liệu chi tiết, phục vụ cho việc kế thừa, áp dụng thực hiện các chương tiếp theo của luận văn

CHƯƠNG 2 PHƯƠNG PHÁP VÀ PHẦN MỀM XÂY DỰNG ONTOLOGY

2.1 GIỚI THIỆU

2.2 PHƯƠNG PHÁP XÂY DỰNG ONTOLOGY

Quy trình phát triển Ontology là một quy trình gồm nhiều bước, tuy nhiên vẫn chưa có một phương pháp chuẩn hóa nào để phát triển các ontology Quy trình phát triển gồm 7 bước do Stanford Center for Biomedical Informatics Research đưa ra được đa số các nghiên cứu trước đây chọn và tuân theo (đây là nhóm phát triển phần mềm Protégé để trình diễn và soạn thảo Ontology)

2.2.1 Bước 1: Xác định lĩnh vực và phạm vi của Ontology 2.2.2 Bước 2: Xem xét việc kế thừa các ontology có sẵn 2.2.3 Bước 3: Liệt kê các thuật ngữ quan trọng

2.2.4 Bước 4: Xác định các lớp và phân cấp của các lớp 2.2.5 Bước 5: Xác định các thuộc tính

2.2.6 Bước 6: Xác định ràng buộc của các thuộc tính 2.2.7 Bước 7: Tạo các thể hiện/ thực thể

2.3 QUY TRÌNH XÂY DỰNG ONTOLOGY CHO DỮ LIỆU ĐỘNG VẬT RỪNG

Thông tin về đồng vật rừng thành phố Đà Nẵng đã được tìm hiểu và tổng hợp ở mục Chương 1, Mục 1.4 Việc xây dựng ontology cho dữ liệu động vật rừng tuân thủ theo quy trình phát triển

Trang 12

Ontology, gồm 7 bước được mô tả chi tiết dưới đây:

2.3.1 Bước 1: Xác định lĩnh vực và phạm vi của Ontology

Lĩnh vực cần xây dựng ontology ở đây là thông tin liên quan đến các loài động vật rừng ở thành phố Đà Nẵng, mà cụ thể là xem xét các thông tin chi tiết về hình dáng, màu sắc, bộ phận cơ thể, tập tính sinh sống, thức ăn, cách săn mồi,… bên cạnh đó là thông tin về giá trị khoa học, kinh tế, thông tin bảo tồn đa dạng sinh học

Luận văn này sẽ chủ yếu tập trung vào xây dựng ontology cho một số loài động vật quý hiếm, mô tả thông tin về các loài đó Tri thức về động vật rừng thành phố Đà Nẵng được chia sẻ theo cách cho phép người dùng tìm được các loài động vật

2.3.2 Bước 2: Xem xét việc kế thừa các ontology có sẵn

Qua tìm hiểu, việc xây dựng ontology cho động vật nói chung vẫn còn rất ít, một số nguồn ontology ở nước ngoài, đã xây dựng bằng tiếng anh và cho phép khai thác nhưng không cho phép kế thừa, phát triển Bên cạnh đó, ontology về động vật tại Việt Nam vẫn chưa

có nghiên cứu và xây dựng

Vì vậy, không có ontology sẵn có về động vật để kế thừa, yêu cầu phải nghiên cứu xây dựng từ đầu Đây là một vấn đề trở ngại nhất đối với vấn đề nghiên cứu trong luận văn này

2.3.3 Bước 3: Liệt kê các thuật ngữ quan trọng

Ontology được xây dựng trên cơ sở các khái niệm trong một lĩnh vực cụ thể, vì vậy khi xây dựng ontology cần bắt đầu từ các thuật ngữ chuyên ngành để xây dựng thành các lớp trong ontology tương ứng

Danh sách một số thuật ngữ về động vật như sau:

Trang 13

Bảng 2.4 Một số thuật ngữ về động vật

Động vật Có dây sống Chim

Danh sách một số thuật ngữ về tập tính, sinh sản, thức ăn,… như sau:

Bảng 2.3 Thuật ngữ về tập tính, sinh sản, thức ăn,…

Thụ tinh trong Thụ tinh ngoài Bơi

2.3.4 Bước 4: Xác định các lớp và phân cấp của các lớp

Đây là một trong hai bước quan trọng nhất của việc xây dựng một ontology Bước này định nghĩa các lớp từ một số thuật ngữ đã liệt kê trong bước 3, sau đó xây dựng cấu trúc lớp phân cấp theo quan

hệ “lớp cha - lớp con”

Trang 14

Xây dựng cấu trúc phân lớp cho dữ liệu động vật rừng thành phố Đà Nẵng thực hiện theo cấu trúc từ trên xuống, bắt đầu bằng các lớp có mức độ tổng quát cao nhất, sau đó triển khai dần đến lớp lá, ví

có màu lông, có cách săn mồi, Có tai, có mắt,…

Bên cạnh đó, việc xem xét các từ đồng nghĩa cho thuộc tính rất quan trọng, ví dụ: thuộc tính trọng lượng đồng nghĩa với cân nặng, độ dài đồng nghĩa với chiều dài, chi đồng nghĩa với tay, chân,…

Trang 15

2.3.6 Bước 6: Xác định ràng buộc của các thuộc tính

Từ các thuộc tính đã xác định, ta xác định kiểu ràng buộc cho thuộc tính là giá trị, max, min, chuỗi,… Ví dụ, thuộc tính có trọng lượng (cân nặng) là kiểu số nhận giá trị từ 30kg đến 90kg, tương tự là

có độ dài (chiều dài); Có thân nhận giá trị kiểu chuỗi ký tự (string) khi đó ta mô tả hình dạng thân, một số đặc điểm trên thân, tương tự là thuộc tính có mắt, có tai, có đuôi,…Thuộc tính có gia trị khoa học, có biện pháp bảo tồn,…cũng ràng buộc giá trị kiểu chuỗi ký tự để mô tả

về thuộc tính đó

2.3.7 Bước 7: Tạo các thể hiện/ thực thể

Trong khuôn khổ của luận văn này, tôi tập trung nghiên cứu xây dựng ontology cho động vật rừng thành phố Đà Nẵng, chọn lọc một số loài động vật quý hiếm để sử dụng làm thể hiện (thực thể - individuals) Danh sách một số loài động vật quý hiếm đã sử dụng làm thể hiện:

Hình 2.2 – Thể hiện/ thực thể động vật

Trong đó: loài Chà vá chân nâu (Voọc chà vá chân nâu), Chà

vá chân đen (Voọc chà vá chân đen) đại diện cho Chi Chà vá (Voọc)

Trang 16

và loài Khỉ đuôi lợn, Khỉ vàng thuộc họ Khỉ, loài Gấu chó thuộc họ Gấu, loài Báo hoa mai thuộc họ Mèo, loài Cầy mực thuộc họ Cầy, loài Tê tê vàng thuộc họ Tê tê,…

Chương này tôi tìm hiểu phương pháp xây dựng ontology, từ

đó đưa ra phương pháp xây dựng ontology động vật rừng Đồng thời, tôi tìm hiểu các phần mềm ứng dụng trong việc biên tập và khai thác ontology

CHƯƠNG 3 XÂY DỰNG ONTOLOGY VÀ PHÁT TRIỂN ỨNG DỤNG

3.1 MÔ TẢ BÀI TOÁN

"Xây dựng ontology phục vụ tìm kiếm ngữ nghĩa động vật rừng thành phố Đà Nẵng” trong đó xây dựng ontology động vật rừng là

trọng tâm Việc nghiên cứu, xây dựng ontology là yêu cầu chính của luận văn Như đã phân tích ở Chương 2, ontology về động vật không được kế thừa từ nghiên cứu trước đây mà phải nghiên cứu và xây dựng lại từ đầu, đồng thời thông tin dữ liệu về động vật rừng cần được tham khảo từ ngành sinh học (các nghiên cứu về động vật tại thành phố Đà Nẵng)

Sau khi đã nghiên cứu xây dựng được ontology, cần cung cấp tri thức để cộng đồng cùng khai thác và phát triển theo hướng tìm kiếm ngữ nghĩa động vật rừng tại thành phố Đà Nẵng

Ngày đăng: 25/05/2019, 14:03

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w