Do đó, xây dựng công cụ để tìm kiếm ngữ nghĩa động vật rừng thành phố Đà Nẵng là một nhu cầu cấp thiết, phù hợp với chủ trương của Thành phố trong việc bảo tồn đa dạng sinh học rừng với
Trang 1ĐẠI HỌC ĐÀ NẴNG
TRẦN XUÂN TRƯỜNG
XÂY DỰNG ONTOLOGY PHỤC VỤ TÌM KIẾM NGỮ NGHĨA ĐỘNG VẬT RỪNG
Trang 2Công trình được hoàn thành tại
ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học: TS NGUYỄN TRẦN QUỐC VINH
Phản biện 1: PGS TS Võ Trung Hùng
Phản biện 2: PGS TS Lê Văn Sơn
Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ Kỹ thuật họp tại Đại học Đà Nẵng vào ngày 31 tháng 7 năm 2016
Có thể tìm hiểu luận văn tại:
- Trung tâm Thông tin-Học liệu, Đại học Đà Nẵng
- Thư viện trường Đại học Sư phạm, Đại học Đà Nẵng
Trang 3MỞ ĐẦU
1 Lý do chọn đề tài
Thành phố Đà Nẵng có lợi thế rất lớn về địa hình và được thiên nhiên ban tặng cho nhiều sinh vật có giá trị, là một trong những thành phố hiếm có trên thế giới về đa dạng sinh học, nơi hội tụ sự đa dạng các hệ sinh thái rừng, biển và sông; với hơn 1.200km2
(kể cả huyện đảo Hoàng Sa), diện tích rừng chiếm gần 50%, đường bờ biển 72km
và trên 1.000ha diện tích lưu vực sông, hồ và vùng trũng Hệ động vật rừng của thành phố Đà Nẵng đặc trưng cho khu hệ động vật Nam Trường Sơn với các loài Voọc vá, Khỉ đuôi dài, Chồn dơi, Sóc vàng, Trĩ sao, Gà lôi và Bắc Trường Sơn như Tê tê, Gà tiền, Khỉ vàng,… Hiện nay, việc điều tra, thống kê hệ động vật rừng của thành phố Đà Nẵng đã được nhiều nhà khoa học, cơ quan, tổ chức thực hiện thông qua các chương trình, dự án, các đề tài, như: Điều tra khu động – thực vật và nhân tố ảnh hưởng, đề xuất phương án bảo tồn hợp lý khu bảo tồn thiên nhiên bán đảo Sơn Trà, Báo cáo tài nguyên rừng thành phố Đà Nẵng,… Tuy nhiên, việc công bố các nội dung điều tra, thống kê đó trên internet để cá nhân, tổ chức khác có nhu cầu tìm hiểu, tra cứu thì còn nhiều hạn chế Một số website cung cấp thông tin về hệ động – thực vật của thành phố Đà Nẵng như: website Sở Nông nghiệp và phát triển Nông thôn TP Đà Nẵng, website Văn phòng thuộc Ban chỉ đạo thành phố Ứng phó biến đổi khí hậu và nước biển dâng thành phố Đà Nẵng,… đều chủ yếu cung cấp tin tức,
số liệu thống kê sơ lược, chưa có website nào cung cấp chức năng tra cứu chuyên sâu về hệ động - thực vật nói chung và động vật rừng nói riêng tại thành phố Đà Nẵng
Trang 4Hiện nay, công nghệ web 2.0 đã đạt được những thành tựu rất đáng kể trong việc nâng cao tính tương tác cũng như đẩy nhanh tốc
độ xử lý đáp ứng yêu cầu của người dùng Tuy nhiên trong xã hội thông tin đương đại nhu cầu của người dùng không dừng lại ở việc cải thiện tốc độ mà còn phải cải thiện chất lượng xử lý của trang web theo yêu cầu ngày càng nâng cao Web 3.0 ra đời nhằm đáp ứng những yêu cầu về chất lượng đó Với đặc điểm chính là nâng cao khả năng chia sẻ tài nguyên và tăng “sự hiểu biết” trong quá trình xử lý
dữ liệu của máy tính, Web ngữ nghĩa đã đi sâu vào phân tích và định hướng dữ liệu, đồng thời hỗ trợ phát triển ứng dụng Web ngữ nghĩa trên nhiều lĩnh vực khác nhau Một trong những lĩnh vực thế mạnh của Web ngữ nghĩa là xử lý và tìm kiếm thông tin Việc phân tích và định hướng nội dung lưu trữ cho phép chúng ta xây dựng những cơ
sở dữ liệu phục vụ tìm kiếm chính xác hơn, tinh gọn hơn
Do đó, xây dựng công cụ để tìm kiếm ngữ nghĩa động vật rừng thành phố Đà Nẵng là một nhu cầu cấp thiết, phù hợp với chủ trương của Thành phố trong việc bảo tồn đa dạng sinh học rừng với mục tiêu Thành phố môi trường mà Thành phố đã đề ra trong đề án "Xây dựng
Đà Nẵng - Thành phố môi trường"
Vậy, với những vấn đề đã nêu trên tôi đề xuất xây dựng đề tài
“Xây dựng ontology phục vụ tìm kiếm ngữ nghĩa động vật rừng trên địa bàn thành phố Đà Nẵng” làm đề tài tốt nghiệp luận văn cao
học Trong đề tài này, tôi nghiên cứu ứng dụng công nghệ Web ngữ nghĩa, đề xuất giải pháp và xây dựng ontology dựa trên thông tin, dữ liệu về động vật rừng, từ đó xây dựng ứng dụng hỗ trợ tìm kiếm ngữ nghĩa động vật rừng phân bố tại thành phố Đà Nẵng một cách dễ dàng và tiện lợi, góp phần phổ biến rộng rãi thông tin về đa dạng sinh học của Thành phố
Trang 52 Mục tiêu nghiên cứu
Xây dựng ontology cho dữ liệu động vật rừng tại thành phố Đà Nẵng;
Xây dựng ứng dụng tìm kiếm ngữ nghĩa cho dữ liệu động vật rừng;
Phổ biến thông tin và góp phần bảo tồn đa dạng sinh học rừng của thành phố Đà Nẵng
3 Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu là các vấn đề liên quan đến web ngữ
nghĩa, phương pháp xây dựng và lưu trũ dữ liệu trong web ngữ nghĩa, nghiên cứu ontology, RDF và OWL, dữ liệu động vật rừng tại thành phố Đà Nẵng
Phạm vi nghiên cứu là dữ liệu động vật rừng phân bố trên địa
bàn thành phố, nghiên cứu về RDF, SPARQL, các ứng dụng biên tập
ontology: (Sesame, Jena, Protégé,…)
4 Phương pháp nghiên cứu
Phương pháp lý thuyết: Tìm hiểu lý thuyết: Web ngữ nghĩa,
ontology, RDF Tìm kiếm, tổng hợp dữ liệu động vật rừng trên địa bàn thành phố Đà Nẵng Nghiên cứu phương pháp và phần mềm xây dựng web ngữ nghĩa Nghiên cứu xây dựng ontology cho dữ liệu
động vật rừng
Phương pháp thực nghiệm: Xây dựng ontology; Triển khai
thực tế trên internet
5 Ý nghĩa khoa học và thực tiễn
Về mặt khoa học đề tài đóng góp phương pháp xây dựng
ontology về dữ liệu động vật nói chung và dữ liệu động vật rừng trên địa bàn thành phố Đà Nẵng nói riêng, ứng dụng semantic web về mặt
Trang 6tìm kiếm và vấn đề đa ngữ trong ontology, một công cụ hỗ trợ khai
thác, phát triển và tìm kiếm theo công nghệ web ngữ nghĩa
Về thực tiễn đề tài mở ra hướng nghiên cứu ứng dụng mới về
tìm kiếm dữ liệu các loài động vật
6 Bố cục đề tài
Luận văn được trình bày bao gồm các nội dung như sau :
Chương 1: Trong chương này, tôi trình bày cơ sở lý thuyết về
web ngữ nghĩa, ngôn ngữ RDF, OWL và nêu khái niệm về ontology,
đồng thời tôi giới thiệu và trích dẫn tổng quan thông tin động vật
rừng từ các nghiên cứu động vật trên địa bàn thành phố Đà Nẵng
Chương 2: Chương này tôi tìm hiểu phương pháp xây dựng
ontology, từ đó đưa ra phương pháp xây dựng ontology động vật
rừng Đồng thời, tôi tìm hiểu các phần mềm ứng dụng trong việc biên
tập và khai thác ontology
Chương 3: Dựa trên những nghiên cứu, tìm hiểu ở chương 2,
tôi tiến hành đặc tả dữ liệu động vật rừng, tiến hành xây dựng chi tiết
ontology động vật rừng và phát triển các chức năng của phần mềm hỗ
trợ khai thác, tìm kiếm động vật rừng thành phố Đà Nẵng
Ngoài ra, để đánh giá toàn bộ quá trình nghiên cứu, phần cuối
của luận văn có nêu lên kết quả và hướng phát triển cho đề tài
Trang 7CHƯƠNG 1 NGHIÊN CỨU TỔNG QUAN 1.1 TỔNG QUAN VỀ WEB NGỮ NGHĨA
1.1.1 Giới thiệu
1.1.2 Khái niệm
Web ngữ nghĩa được phát triển bởi Tim- Berners Lee, cha đẻ
của WWW, URIs, HTTP và HTML Theo Ông, “Web ngữ nghĩa là
sự mở rộng của Web hiện tại, cho phép người dùng có thể truy tìm, phối hợp, sử dụng lại và trích lọc thông tin một cách dễ dàng và chính xác”
1.1.3 Nội dung xây dựng hệ thống web ngữ nghĩa
1.1.4 Kiến trúc phân tầng của web ngữ nghĩa
1.2 RDF – NỀN TẢNG CỦA WEB NGỮ NGHĨA
Nhiều định nghĩa về ontology xuất hiện trong thập kỷ trước
nhưng có lẽ định nghĩa mô tả rõ nhất bản chất của ontology là: “An ontology is a formal, explicit specification of a shared conceptualization.” (Một ontology là một hình thức, đặc tả rõ ràng
khái niệm chia sẻ) Trong ngữ cảnh này, conceptualization (khái
niệm hoá) đề cập đến một mô hình trừu tượng của một vài hiện tượng
Trang 8trong thế giới thực dùng để nhận dạng các khái niệm liên quan đến
hiện tượng đó Explicit (rõ ràng) có nghĩa là loại khái niệm được sử
dụng và các ràng buộc khi sử dụng chúng được xác định một cách rõ
ràng, và formal (hình thức) có nghĩa là máy tính có thể hiểu được
ontology
1.3.2 Các lĩnh vực ứng dụng ontology
1.3.3 Vai trò ontology và web ngữ nghĩa
1.3.4 Các thành phần của ontology
Ontology được sử dụng như là một biểu mẫu trình bày tri thức
về thế giới hay một phần của nó Ontology thường miêu tả:
Cá thể: Các đối tượng cơ bản, nền tảng
Lớp: Các tập hợp, hay kiểu của các đối tượng
Thuộc tính: Thuộc tính, tính năng, đặc điểm, tính cách, hay các thông số mà các đối tượng có và có thể đem ra chia sẻ
Mối liên hệ: cách mà các đối tượng có thể liên hệ tới một đối tượng khác
Bộ từ vựng ontology được xây dựng trên cơ sở tầng RDF và RDFS, cung cấp khả năng biểu diễn ngữ nghĩa mềm dẻo cho tài nguyên Web và có khả năng hỗ trợ lập luận
Trang 9vực (domain) và diễn tả những đối tượng trong lĩnh vực đó cùng những mối quan hệ giữa các đối tượng này OWL là phần mở rộng về
từ vựng của RDF và được kế thừa từ ngôn ngữ DAML+OIL Web ontology – một dự án được hỗ trợ bởi W3C OWL biểu diễn ý nghĩa của các thuật ngữ trong các từ vựng và mối liên hệ giữa các thuật ngữ này để đảm bảo phù hợp với quá trình xử lý bởi các phần mềm
1.3.11 Cú pháp của câu truy vấn
1.3.12 Tạo một câu truy vấn đơn giản
1.4 ĐỘNG VẬT RỪNG TRÊN ĐỊA BÀN THÀNH PHỐ ĐÀ NẴNG
1.4.1 Giới thiệu
1.4.2 Cấu trúc, thành phần loài động vật
Các loài này phân bố số loài không đồng đều trong các lớp động vật, nhưng có thành phần loài đa dạng, đặc biệt là nguồn gen các loài quý hiếm như: Gấu, Beo lửa, Mèo rừng, Sóc bay, Chồn dơi, Cầy mực, Cu li, Voọc vá chân nâu, khỉ vàng, Trĩ sao, Công, Gà tiền,
Gà lôi lam, Mang trường sơn, Rái cá, Dơi chó tai ngắn và một số loài
Phân bố các Taxon trong 3 lớp động vật có xương sống ở cạn cho thấy sự khác nhau và phân bố không đồng đều
Trang 10Bà
Nà
Sông Bắc- Sông Nam
Sơn Trà
Bà
Nà
Sông Bắc- Sông Nam
Sơn Trà
có giá trị về kinh tế, môi trường điển hình: Số lượng loài động vật rừng nguy cấp, quý, hiếm: 75 loài; Số lượng loài động vật rừng thông thường nhưng có giá trị về kinh tế, môi trường Tổng số: 21 loài
1.4.3 Cấu trúc, thành phần loài con trùng
1.5 MỘT SỐ NGHIÊN CỨU WEB NGỮ NGHĨA ĐÃ TRIỂN KHAI
đã triển khai trước đây
Từ đó, tôi có nhưng kiến thức cơ bản về lý thuyết, những thông tin, dữ liệu ban đầu về hệ động vật rừng của thành phố Đà
Trang 11Nẵng và có được danh mục các nghiên cứu đã thực hiện để tiến hành thu thập dữ liệu chi tiết, phục vụ cho việc kế thừa, áp dụng thực hiện các chương tiếp theo của luận văn
CHƯƠNG 2 PHƯƠNG PHÁP VÀ PHẦN MỀM XÂY DỰNG ONTOLOGY
2.1 GIỚI THIỆU
2.2 PHƯƠNG PHÁP XÂY DỰNG ONTOLOGY
Quy trình phát triển Ontology là một quy trình gồm nhiều bước, tuy nhiên vẫn chưa có một phương pháp chuẩn hóa nào để phát triển các ontology Quy trình phát triển gồm 7 bước do Stanford Center for Biomedical Informatics Research đưa ra được đa số các nghiên cứu trước đây chọn và tuân theo (đây là nhóm phát triển phần mềm Protégé để trình diễn và soạn thảo Ontology)
2.2.1 Bước 1: Xác định lĩnh vực và phạm vi của Ontology 2.2.2 Bước 2: Xem xét việc kế thừa các ontology có sẵn 2.2.3 Bước 3: Liệt kê các thuật ngữ quan trọng
2.2.4 Bước 4: Xác định các lớp và phân cấp của các lớp 2.2.5 Bước 5: Xác định các thuộc tính
2.2.6 Bước 6: Xác định ràng buộc của các thuộc tính 2.2.7 Bước 7: Tạo các thể hiện/ thực thể
2.3 QUY TRÌNH XÂY DỰNG ONTOLOGY CHO DỮ LIỆU ĐỘNG VẬT RỪNG
Thông tin về đồng vật rừng thành phố Đà Nẵng đã được tìm hiểu và tổng hợp ở mục Chương 1, Mục 1.4 Việc xây dựng ontology cho dữ liệu động vật rừng tuân thủ theo quy trình phát triển
Trang 12Ontology, gồm 7 bước được mô tả chi tiết dưới đây:
2.3.1 Bước 1: Xác định lĩnh vực và phạm vi của Ontology
Lĩnh vực cần xây dựng ontology ở đây là thông tin liên quan đến các loài động vật rừng ở thành phố Đà Nẵng, mà cụ thể là xem xét các thông tin chi tiết về hình dáng, màu sắc, bộ phận cơ thể, tập tính sinh sống, thức ăn, cách săn mồi,… bên cạnh đó là thông tin về giá trị khoa học, kinh tế, thông tin bảo tồn đa dạng sinh học
Luận văn này sẽ chủ yếu tập trung vào xây dựng ontology cho một số loài động vật quý hiếm, mô tả thông tin về các loài đó Tri thức về động vật rừng thành phố Đà Nẵng được chia sẻ theo cách cho phép người dùng tìm được các loài động vật
2.3.2 Bước 2: Xem xét việc kế thừa các ontology có sẵn
Qua tìm hiểu, việc xây dựng ontology cho động vật nói chung vẫn còn rất ít, một số nguồn ontology ở nước ngoài, đã xây dựng bằng tiếng anh và cho phép khai thác nhưng không cho phép kế thừa, phát triển Bên cạnh đó, ontology về động vật tại Việt Nam vẫn chưa
có nghiên cứu và xây dựng
Vì vậy, không có ontology sẵn có về động vật để kế thừa, yêu cầu phải nghiên cứu xây dựng từ đầu Đây là một vấn đề trở ngại nhất đối với vấn đề nghiên cứu trong luận văn này
2.3.3 Bước 3: Liệt kê các thuật ngữ quan trọng
Ontology được xây dựng trên cơ sở các khái niệm trong một lĩnh vực cụ thể, vì vậy khi xây dựng ontology cần bắt đầu từ các thuật ngữ chuyên ngành để xây dựng thành các lớp trong ontology tương ứng
Danh sách một số thuật ngữ về động vật như sau:
Trang 13Bảng 2.4 Một số thuật ngữ về động vật
Động vật Có dây sống Chim
…
Danh sách một số thuật ngữ về tập tính, sinh sản, thức ăn,… như sau:
Bảng 2.3 Thuật ngữ về tập tính, sinh sản, thức ăn,…
Thụ tinh trong Thụ tinh ngoài Bơi
…
2.3.4 Bước 4: Xác định các lớp và phân cấp của các lớp
Đây là một trong hai bước quan trọng nhất của việc xây dựng một ontology Bước này định nghĩa các lớp từ một số thuật ngữ đã liệt kê trong bước 3, sau đó xây dựng cấu trúc lớp phân cấp theo quan
hệ “lớp cha - lớp con”
Trang 14Xây dựng cấu trúc phân lớp cho dữ liệu động vật rừng thành phố Đà Nẵng thực hiện theo cấu trúc từ trên xuống, bắt đầu bằng các lớp có mức độ tổng quát cao nhất, sau đó triển khai dần đến lớp lá, ví
có màu lông, có cách săn mồi, Có tai, có mắt,…
Bên cạnh đó, việc xem xét các từ đồng nghĩa cho thuộc tính rất quan trọng, ví dụ: thuộc tính trọng lượng đồng nghĩa với cân nặng, độ dài đồng nghĩa với chiều dài, chi đồng nghĩa với tay, chân,…
Trang 152.3.6 Bước 6: Xác định ràng buộc của các thuộc tính
Từ các thuộc tính đã xác định, ta xác định kiểu ràng buộc cho thuộc tính là giá trị, max, min, chuỗi,… Ví dụ, thuộc tính có trọng lượng (cân nặng) là kiểu số nhận giá trị từ 30kg đến 90kg, tương tự là
có độ dài (chiều dài); Có thân nhận giá trị kiểu chuỗi ký tự (string) khi đó ta mô tả hình dạng thân, một số đặc điểm trên thân, tương tự là thuộc tính có mắt, có tai, có đuôi,…Thuộc tính có gia trị khoa học, có biện pháp bảo tồn,…cũng ràng buộc giá trị kiểu chuỗi ký tự để mô tả
về thuộc tính đó
2.3.7 Bước 7: Tạo các thể hiện/ thực thể
Trong khuôn khổ của luận văn này, tôi tập trung nghiên cứu xây dựng ontology cho động vật rừng thành phố Đà Nẵng, chọn lọc một số loài động vật quý hiếm để sử dụng làm thể hiện (thực thể - individuals) Danh sách một số loài động vật quý hiếm đã sử dụng làm thể hiện:
Hình 2.2 – Thể hiện/ thực thể động vật
Trong đó: loài Chà vá chân nâu (Voọc chà vá chân nâu), Chà
vá chân đen (Voọc chà vá chân đen) đại diện cho Chi Chà vá (Voọc)
Trang 16và loài Khỉ đuôi lợn, Khỉ vàng thuộc họ Khỉ, loài Gấu chó thuộc họ Gấu, loài Báo hoa mai thuộc họ Mèo, loài Cầy mực thuộc họ Cầy, loài Tê tê vàng thuộc họ Tê tê,…
Chương này tôi tìm hiểu phương pháp xây dựng ontology, từ
đó đưa ra phương pháp xây dựng ontology động vật rừng Đồng thời, tôi tìm hiểu các phần mềm ứng dụng trong việc biên tập và khai thác ontology
CHƯƠNG 3 XÂY DỰNG ONTOLOGY VÀ PHÁT TRIỂN ỨNG DỤNG
3.1 MÔ TẢ BÀI TOÁN
"Xây dựng ontology phục vụ tìm kiếm ngữ nghĩa động vật rừng thành phố Đà Nẵng” trong đó xây dựng ontology động vật rừng là
trọng tâm Việc nghiên cứu, xây dựng ontology là yêu cầu chính của luận văn Như đã phân tích ở Chương 2, ontology về động vật không được kế thừa từ nghiên cứu trước đây mà phải nghiên cứu và xây dựng lại từ đầu, đồng thời thông tin dữ liệu về động vật rừng cần được tham khảo từ ngành sinh học (các nghiên cứu về động vật tại thành phố Đà Nẵng)
Sau khi đã nghiên cứu xây dựng được ontology, cần cung cấp tri thức để cộng đồng cùng khai thác và phát triển theo hướng tìm kiếm ngữ nghĩa động vật rừng tại thành phố Đà Nẵng