Đó chính là những lý do cơ bản khiến cho các hệ thống tìm kiếm hiện nay có kết quả trả về không phải lúc nào cũng thỏa mãn yêu cầu của người sử dụng, như là độ chính xác không cao hay kh
Trang 1-
LÊ MINH THƯ
THIẾT KẾ HỆ HỖ TRỢ TÌM KIẾM CÔNG VĂN THEO NGỮ NGHĨA TRONG MỘT CƠ QUAN NHÀ NƯỚC
LUẬN VĂN THẠC SĨ KỸ THUẬT
TP HỒ CHÍ MINH – 2015
Trang 2LỜI CAM ĐOAN
Tôi cam đoan đây là công trình nghiên cứu của riêng tôi
Các số liệu, kết quả nêu trong luận văn là trung thực và chưa từng được ai công bố trong bất kỳ công trình nào khác
Người làm cam đoan
Lê Minh Thư
Trang 3LỜI CẢM ƠN
Em xin chân thành gửi lời cảm ơn đến các thầy cô giáo khoa Công nghệ thông tin trường Học viện bưu chính viễn thông cơ sở Hồ Chí Minh đã giảng dạy, giúp đỡ em trong suốt quá trình học tập tại Trường
Em xin gửi lời cảm ơn sâu sắc tới thầy giáo, PGS.TS Đỗ Văn Nhơn, người
đã trực tiếp hướng dẫn, chỉ bảo, giúp đỡ em hoàn thành luận văn này
Em xin chân thành cảm ơn!
Trang 4MỤC LỤC
LỜI CAM ĐOAN i
LỜI CẢM ƠN ii
MỤC LỤC iii
DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT vi
DANH SÁCH BẢNG BIỂU vii
DANH SÁCH HÌNH VẼ viii
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN 4
1.1 Đặt vấn đề 4
1.1.1 Thực trạng và nhu cầu xây dựng hệ hỗ trợ tìm kiếm công văn theo ngữ nghĩa 4
1.1.2 Tìm hiểu một số phần mềm tìm kiếm công văn hiện nay 5
1.1.2.1 Phần mềm e-Office 5
1.1.2.2 Văn Phòng Điện Tử NET 5
1.1.2.3 Phần mềm CloudOffice 6
1.1.3 Vấn đề tìm kiếm nội dung công văn và biểu diễn ngữ nghĩa 6
1.1.4 Cấu trúc của hệ thống tìm kiếm thông tin 7
1.1.5 Một số nghiên cứu có liên quan 9
1.2 Mục tiêu và giới hạn của đề tài 9
1.3 Ý nghĩa của đề tài 10
1.4 Phương pháp nghiên cứu 11
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT 12
2.1 Web ngữ nghĩa 12
2.1.1 Web ngữ nghĩa là gì? 12
2.1.2 Kiến trúc web ngữ nghĩa 12
2.2 Ontology 15
2.2.1 Khái niệm Ontology 15
2.2.2 Các thành phần của Ontology 15
2.2.3 Các bước xây dựng Ontology 16
2.3 Công văn và quản lý công văn 19
2.3.1 Khái niệm công văn 19
2.3.2 Bố cục của công văn 19
Trang 52.4 Một số công cụ thiết kế 20
2.4.1 RDF – nền tảng của Semantic web 20
2.4.1.1 Tổng quan RDF 20
2.4.1.2 Lược đồ RDF – RDF Schema 21
2.4.2 OWL 22
2.4.3 Jena Framework 24
2.4.4 Công cụ OWLAPI 25
2.4.5 Công cụ xây dựng Ontology - Protégé 26
CHƯƠNG 3: KHẢO SÁT VÀ THIẾT KẾ 28
3.1 Hiện trạng và nhu cầu 28
3.1.1 Hoạt động của tỉnh Đồng Tháp 28
3.1.2 Nhu cầu tìm kiếm công văn 29
3.2 Giải pháp và quy trình xây dựng Ontology công văn 30
3.2.1 Giải pháp xây dựng ontology công văn 30
3.2.1.1 Mô hình biểu diễn ngữ nghĩa 30
3.2.1.2 Mô hình Ontology ngữ nghĩa cho các tài liệu 32
3.2.2 Quy trình xây dựng Ontology công văn 36
3.2.2.1 Thu thập công văn 37
3.2.2.2 Rút trích keyphrase từ công văn 37
3.2.2.3 Chọn quan hệ ngữ nghĩa giữa các keyphrase 38
3.2.2.4 Xây dựng và chuẩn hóa Ontology 39
3.3 Sơ đồ hệ thống 39
3.3.1 Xây dựng mô hình dữ liệu Ontology công văn 39
3.3.2 Tổ chức cơ sở dữ liệu Ontology công văn 42
3.3.3 Thuật giải tìm kiếm theo ngữ nghĩa 43
3.3.3.1 Phương pháp kích hoạt lan truyền 43
3.3.2.2 Phương pháp tìm kiếm theo ngữ nghĩa dựa trên ontology công văn 44
CHƯƠNG 4: CÀI ĐẶT VÀ THỬ NGHIỆM 47
4.1 Môi trường ứng dụng 47
4.1.1 Spring Framework 47
4.1.1.1 Spring Framework 47
4.1.1.2 Spring MVC Framework 50
Trang 64.1.2 Angular JS 52
4.2 Chương trình ứng dụng 54
4.2.1 Xây dựng ứng dụng 54
4.2.1.1 Mô hình 3 lớp 54
4.2.1.2 Mô tả các lớp 55
4.2.2 Trang chủ hệ thống 56
4.2.3 Màn hình hiển thị kết quả tìm kiếm công văn 58
4.2.4 Chi tiết thông tin 59
4.3 Đánh giá thử nghiệm 60
4.3.1 Đánh giá quá trình thu thập thông tin tự động 60
4.3.2 Đánh giá quá trình tìm kiếm 61
KẾT LUẬN VÀ KIẾN NGHỊ 66
1 Kết luận 66
2 Hạn chế 67
3 Hướng phát triển 67
DANH MỤC TÀI LIỆU THAM KHẢO 68
PHỤ LỤC A – HƯỚNG DẪN SỬ DỤNG CÔNG CỤ PROTÉGÉ 71
Trang 7DANH MỤC CÁC THUẬT NGỮ, CHỮ VIẾT TẮT
RKC,RCC,RKK Binary relation Quan hệ hai ngôi
CK_ONTO Classed Keyphrase based Ontology Ontology cho các keyphrase
đƣợc phân lớp
IR Information Retrieval Tìm kiếm thông tin
MVC Model – View – Controller Mô hình thiết kế
OWL Web Ontology Language Ngôn ngữ Ontology
RDF Resource Description Framework Cơ cấu mô tả tài nguyên RDFS Resource Description Framework
Scheme
Lƣợc đồ cơ cấu mô tả tài nguyên
URI Uniform Resource Identifier Định dạnh tài nguyên
URL Uniform Resource Locator Định vị tài nguyên thống nhất W3C World Wide Web Consortium Tổ chức mạng toàn cầu
XML eXtensible Markup Language Ngôn ngữ đánh dấu mở rộng
Trang 8
DANH SÁCH BẢNG BIỂU
Bảng 2.1 Một số thuộc tính của OWL 23 Bảng 3.1 Bảng các thuộc tính quan hệ 40
Bảng 3.2 Bảng các thuộc tính dữ liệu 41 Bảng 4.1 Bảng thống kê đánh giá thực nghiệm tìm kiếm
công văn
63
Trang 9DANH SÁCH HÌNH VẼ
Hình 2.2 Quá trình phát triển Ontology 17
Hình 3.1 Quy trình xây dựng Ontology công văn 36 Hình 3.2 Trang công văn của tỉnh Đồng Tháp 37 Hình 3.3 Thông tin chi tiết của công văn 38 Hình 3.4 Các ràng buộc về thuộc tính và quan hệ của lớp 42 Hình 4.1 Mô hình Spring đóng vai trò là tầng Business 48 Hình 4.2 Mô hình Spring tổ chức 7 modules 48
Hình 4.9 Trang hiển thị kết quả chi tiết của công văn
59
59
Hình 2 – PLA Chọn kiểu định dạng của Ontology 72
Hình 5 – PLA Cấu trúc cây hiển thị lớp mới 73 Hình 6 – PLA Tạo thuộc tính trong Ontology 73
Trang 10MỞ ĐẦU
Trong một cơ quan nhà nước, bên cạnh việc ứng dụng công nghệ thông tin (CNTT) vào công tác chuyên môn thì việc ứng dụng CNTT vào công tác quản lý, lưu trữ cũng đóng vai trò quan trọng trong việc nâng cao chất lượng, hiệu quả làm việc của viên chức nhà nước Tin học hóa công việc văn phòng là mục tiêu hàng đầu đối với cơ quan nhà nước hiện nay Thực tế lượng công văn đến và đi được ban hành ngày càng nhiều và mỗi cơ quan lại có những văn bản riêng biệt Mặc dù toàn
bộ các công văn đều được lưu trữ dưới dạng các file mềm số hóa nhưng chỉ đơn thuần là lưu trữ bản sao chứ chưa được sắp xếp theo hệ thống cơ sở dữ liệu chuẩn nhất định
Trong khi đó, các website tìm kiếm và các công cụ hỗ trợ quản lý công văn chưa đáp ứng được nhu cầu tìm kiếm một cách chính xác và nhanh chóng Các hệ thống tìm kiếm hiện nay phần lớn vẫn dựa trên từ khóa và mức độ phổ biến của tài liệu Một danh sách các từ khóa là dạng biểu diễn sơ lược nhất của nội dung và cách biểu diễn này mang mức độ thông tin thấp nhất Vấn đề khó khăn đối với người sử dụng là ở khả năng mô tả nhu cầu thông tin bằng một số từ khóa biểu diễn và chuyển nhu cầu này thành dạng thức truy vấn phù hợp với hệ thống Đặc biệt đối với người sử dụng ít kinh nghiệm không thể đặc tả đúng từ khóa cho vấn đề cần tìm kiếm Đó chính là những lý do cơ bản khiến cho các hệ thống tìm kiếm hiện nay có kết quả trả về không phải lúc nào cũng thỏa mãn yêu cầu của người sử dụng, như là
độ chính xác không cao hay không tìm thấy được những tài liệu liên quan khi chúng được mô tả với những từ khóa khác đồng nghĩa hoặc gần nghĩa với từ khóa mà người dùng cung cấp
Vấn đề đặt ra là làm sao để có được một công cụ tìm kiếm theo ngữ nghĩa, hiểu được và trả lời câu hỏi của người dùng bằng ngôn ngữ tự nhiên một cách thân thiện Xuất phát từ nhu cầu thực tế và khả năng nghiên cứu phát triển giải pháp
cũng như ứng dụng, tôi chọn đề tài “Thiết kế hệ hỗ trợ tìm kiếm công văn theo ngữ nghĩa trong một cơ quan nhà nước” để đáp ứng được nhu cầu tìm kiếm
Trang 11thông tin công văn nhằm phục vụ nhu cầu tìm kiếm, hỗ trợ viên chức nhà nước một cách nhanh chóng và chính xác Ontology được đề xuất như một cách để giải quyết vấn đề thông tin không đồng nhất, là một giải pháp để biểu diễn tri thức, đặc tả rõ ràng các khái niệm về một lĩnh vực và quan hệ giữa các khái niệm đó Việc sử dụng Ontology trong hệ thống thông tin đã trở nên nhiều hơn và phổ biến trong các lĩnh vực nghiên cứu khác nhau Một trong những thế mạnh của Ontology là xử lý ngôn ngữ tự nhiên, hỗ trợ xử lý tìm kiếm thông tin theo ngữ nghĩa, do đó việc xây dựng một Ontology sẽ phục vụ việc tìm kiếm thông tin chính xác hơn và hiệu quả hơn
Nội dung của luận văn được trình bày trong 4 chương, bao gồm:
Chương 1: Tổng quan
Giới thiệu tổng quan về đề tài bao gồm các khảo sát thực tiễn về nhu cầu tìm kiếm công văn; giới thiệu và khảo sát các hệ thống tìm kiếm công văn hiện có; trình bày mục tiêu, giới hạn của đề tài, ý nghĩa lý luận và thực tiễn, phương pháp nghiên cứu, hướng tiếp cận giải quyết đề tài
Chương 2: Cơ sở lý thuyết
Trình bày cơ sở lý thuyết về web ngữ nghĩa, nền tảng của ontology; các khái niệm về công văn và quản lý công văn; đồng thời giới thiệu một số công cụ nhằm phục vụ cho việc thiết kế ontology và cài đặt trong web ngữ nghĩa
Chương 3: Khảo sát và thiết kế
Trong chương này sẽ đi sâu vào tìm hiểu hiện trạng và nhu cầu tìm kiếm công văn trong một cơ quan nhà nước cụ thể là tại tỉnh Đồng tháp; qua đó tiến hành thu thập và xây dựng ontology cho lĩnh vực công văn; đồng thời giới thiệu sơ đồ của hệ thống hỗ trợ việc tìm kiếm công văn theo ngữ nghĩa
Chương 4: Cài đặt và thực nghiệm
Trong chương 4 sẽ giới thiệu việc xây dựng ứng dụng hỗ trợ việc tìm kiếm công văn (giới hạn trong lĩnh vực khoa học kỹ thuật, công nghệ) trong tỉnh Đồng tháp Hệ thống cho phép tìm kiếm công văn theo nhiều chức năng như dựa trên từ khóa, dựa trên các từ khóa gợi ý của hệ thống hoặc theo ngữ nghĩa Tiến hành thực nghiệm, so sánh và đánh giá kết quả cụ thế
Trang 12Cuối cùng là kết luận và hướng phát triển: tổng kết những kết quả đạt được,
ưu và khuyết điểm của hệ thống đồng thời đề ra hướng phát triển của đề tài trong tương lai Tiếp theo là danh mục tài liệu tham khảo và phụ lục
Trang 13CHƯƠNG 1 - TỔNG QUAN 1.1 Đặt vấn đề
1.1.1 Thực trạng và nhu cầu xây dựng hệ hỗ trợ tìm kiếm công văn theo
ngữ nghĩa
Công văn giấy tờ là một trong những phương tiện thông tin cần thiết trong mọi hoạt động của Nhà nước Nó ra đời không chỉ do nhu cầu giao tiếp và truyền thông tin, mà còn do nhu cầu quản lý Nhà nước Vì vậy công tác văn thư đã được xem như chức năng quản lý và trở thành điều kiện không thể thiếu được đối với việc phát triển và hoàn thiện xã hội Tổ chức hợp lý công tác văn thư sẽ có ảnh hưởng tốt đến chất lượng hoạt động quản lý Nhà nước như tính linh hoạt, tính bền vững, tính tổ chức và tiết kiệm Đứng trước yêu cầu đổi mới của Nhà nước ta hiện nay, đặc biệt là việc ứng dụng công nghệ thông tin, tin học hóa văn phòng vào công tác quản lý, lưu trữ và tìm kiếm văn bản ngày càng trở nên cần thiết và cấp bách
Trong các cơ quan nhà nước hiện nay, đa số đều đã được triển khai các phần mềm quản lý nhằm đáp ứng yêu cầu sử dụng hàng ngày của cán bộ, công chức nhà nước Tuy nhiên, trong lĩnh vực quản lý công văn đặc biệt là nhu cầu tìm kiếm công văn vẫn còn nhiều hạn chế Nhìn chung, các phần mềm về quản lý việc tìm kiếm công văn chưa được tố chức tập trung và thống nhất Các tính năng của hệ thống còn sơ sài và chưa đủ để đáp ứng cho nhu cầu tìm kiếm thông tin công văn của công chức nhà nước trong việc thống kê và lưu trữ Điều này dẫn đến việc các cán bộ công chức khi có nhu cầu tìm kiếm thường thực hiện bằng phương pháp thủ công
đó là tìm các công văn trong tủ hồ sơ đã được lưu trước đó Hoặc nếu có phần mềm tìm kiếm công văn thì chỉ cho phép người dùng thực hiện khi nhớ đầy đủ tất cả các nội dung trích yếu hoặc số hiệu công văn Do đó, nhu cầu hiện nay đối với các cán
bộ công chức là có một hệ thống tìm kiếm công văn thông minh có thể đoán được ý của người tìm kiếm để trả về kết quả một cách nhanh chóng và chính xác nhất Có thể xem khả năng tìm kiếm ngữ nghĩa như là một cách tốt hơn để cung cấp cho người dùng thông tin họ cần, đảm bảo kết quả thu được có liên quan đến thông tin
Trang 14cần tìm hơn dựa trên khả năng hiểu được nghĩa của từ hoặc cụm từ đang được tìm kiếm Với các công nghệ ngữ nghĩa, máy tính sẽ hiểu rõ hơn những mối quan hệ giữa nhiều thông tin khác nhau hơn là chỉ chuyển tiếp các liên kết dựa trên từ khóa tìm kiếm
1.1.2 Tìm hiểu một số phần mềm tìm kiếm công văn hiện nay
Hiện nay, các phần mềm tìm kiếm công văn đã được triển khai hầu hết cho các cơ quan Nhà nước trên toàn quốc Ngoài ra, khi cần tìm kiếm một công văn với
sự hiểu biết chính xác từ khóa cần tìm là gì, người dùng còn có thể tra cứu trên trang Google (google.com)
1.1.2.1 Phần mềm e-Office
E-office là hệ thống phần mềm trao đổi thông tin, điều hành tác nghiệp và quản lý trình duyệt văn bản, hồ sơ công việc trực tuyến trên mạng máy tính Với nhiều tính năng tích hợp, tiện dụng, dễ dùng như: email, hội thoại, trưng cầu ý kiến, nhắc việc, lập lịch làm việc, gửi thông báo, gửi tin nhắn ra di dộng và xử lý công văn, hồ sơ công việc đáp ứng nhu cầu cho mọi cơ quan, doanh nghiệp [23] Phần mềm e-Office chủ yếu tập trung vào việc quản lý công văn đến và đi, quản lý lịch làm việc mà chưa triển khai sâu vào việc tìm kiếm công văn
1.1.2.2 Văn Phòng Điện Tử NET
Văn Phòng Điện Tử NET là một giải pháp phần mềm dùng chung trao đổi thông tin, điều hành tác nghiệp và quản lý công văn, văn bản, hồ sơ công việc trên mạng máy tính Phần mềm được thiết kế với giao diện Website hoàn toàn tiếng Việt nên rất thân thiện với người sử dụng [21]
Tiêu chí của Văn Phòng Điện Tử NET là đưa đến cho người sử dụng phần lớn những tiện ích của mạng máy tính nhưng với một cách tiếp cận tự nhiên nhất, giúp người sử dụng dần có một tác phong làm việc hiện đại, hiệu quả, dễ dàng tiếp cận với các ứng dụng công nghệ thông tin hơn Văn Phòng Điện Tử NET thay đổi cách phân phối công văn và cách giao việc truyền thống bằng một giải pháp hiện đại: văn thư cập nhật và phân phối công văn đến các bộ phận Lãnh đạo các bộ phận
Trang 15xem xét công văn và phân chia công việc đến các nhân viên Tìm kiếm tổng hợp công văn một cách nhanh chóng theo loại, nhóm, dự án, cơ quan ban hành…
Phần mềm Văn Phòng Điện Tử NET tuy có tích hợp tìm kiếm công văn theo nhiều lựa chọn khác nhau như: loại công văn, cơ quan ban hành công văn, nhưng
sẽ gây trở ngại cho người dùng khi thống kê các công đoạn trong quá trình tìm kiếm khá nhiều Nếu người dùng chỉ chọn một trong những đối tượng cần tìm kiếm để hiển thị kết quả thì kết quả trả về khá nhiều, gây khó khăn cho việc chọn lọc công văn phù hợp với nhu cầu sử dụng
1.1.3 Vấn đề tìm kiếm nội dung công văn và biểu diễn ngữ nghĩa
Nhìn chung, hầu hết các hệ thống tìm kiếm công văn thực chất chỉ là hệ thống tìm kiếm tài liệu, nghĩa là tìm xem trong số các tài liệu trong cơ sở dữ liệu lưu trữ, tài liệu nào có nội dung phù hợp, liên quan và thỏa mãn đến nhu cầu thông tin của người dùng, sau đó người dùng sẽ tìm kiếm thông tin họ cần trong các tài liệu liên quan đó Các hệ thống tìm kiếm này phần lớn vẫn dựa trên từ khóa và mức
độ phổ biến của tài liệu Một danh sách các từ khóa là dạng biểu diễn sơ lược nhất của nội dung, nghĩa là mỗi tài liệu được biểu diễn bởi một tập từ hay cụm từ được thể hiện từ chính nội dung của tài liệu và do đó, cách biểu diễn này mang mức độ thông tin còn thấp Mối quan hệ ngữ nghĩa giữa các từ khóa hay nghĩa của các từ (cụm từ) không được xét đến Vấn đề khó khăn đối với người sử dụng những hệ thống tìm kiếm thông tin dựa trên từ khóa là ở khả năng mô tả nhu cầu thông tin
Trang 16bằng một số từ khóa biểu diễn và chuyển nhu cầu này thành dạng thức truy vấn phù hợp với hệ thống Đặc biệt đối với người sử dụng ít kinh nghiệm không thể đặc tả đúng từ khóa cho vấn đề cần tìm kiếm Đó chính là những lý do cơ bản khiến cho các hệ thống tìm kiếm hiện nay có kết quả trả về không phải lúc nào cũng thỏa mãn yêu cầu tìm kiếm của người sử dụng, như là độ chính xác không cao khi kết quả trả
về quá nhiều mà tỷ lệ số tài liệu hữu ích trên tổng số tài liệu trả về thấp, hoặc có thể không tìm thấy được những tài liệu liên quan khi chúng được mô tả với những từ khóa khác đồng nghĩa hoặc gần nghĩa với từ khóa mà người dùng tìm kiếm (độ bao phủ không cao) Nhược điểm cơ bản này đã gây ra không ít khó khăn cho người sử dụng trong việc tìm kiếm chính xác thông tin mình cần
Hiện nay cách tiếp cận cho việc biểu diễn ngữ nghĩa dựa trên các ontology được xem là cách tiếp cận hiện đại và phù hợp nhất cho việc thiết kế biểu diễn, xử
lý nội dung và ý nghĩa của các tài liệu của con người Việc sử dụng Ontology và bộ
từ vựng sẽ làm tăng độ chính xác và khả năng vét cạn trong quá trình tìm kiếm thông tin theo hướng ngữ nghĩa
1.1.4 Cấu trúc của hệ thống tìm kiếm thông tin
Trên thực tế, hầu hết các hệ thống tìm kiếm thông tin (Information Retrieval, viết tắt IR ) thực chất chỉ là hệ thống truy tìm tài liệu (Document Retrieval), nghĩa
là hệ thống sẽ truy tìm những tài liệu (trong số các tài liệu có trong cơ sở dữ liệu lưu trữ) có nội dung liên quan, phù hợp, đáp ứng với nhu cầu thông tin của người dùng, sau đó người dùng sẽ tìm kiếm thông tin họ cần trong các tài liệu liên quan đó Có hai khái niệm quan trọng luôn đề cập đến đó là tài liệu (document) và câu truy vấn (query) Tài liệu là bất kỳ đối tượng nào mà nó có chứa thông tin, ví dụ như các mẫu văn bản, hình ảnh, âm thanh, video, … Tuy nhiên hầu hết các hệ thống IR chỉ
đề cập đến các tài liệu là văn bản dạng text, lý do về sự hạn chế này là vì những khó khăn trong việc biểu diễn các đối tượng không là văn bản
Một hệ thống IR thường có hai khối chức năng chính, đó là lập chỉ mục và tra cứu hay tìm kiếm Lập chỉ mục là giai đoạn phân tích tài liệu để rút trích các đơn
vị thông tin từ tài liệu và biểu diễn lại tài liệu bởi các đơn vị thông tin đó Đơn vị
Trang 17thông tin có thể là từ (word), hoặc phức tạp hơn là cụm từ (phrase), khái niệm (concept) và nội dung tài liệu có thể được biểu diễn bởi một cấu trúc đơn giản như danh sách từ (cụm từ) khóa có đánh trọng số hay một dạng đồ thị giàu ngữ nghĩa hơn Tra cứu là giai đoạn tìm kiếm trong cơ sở dữ liệu những tài liệu phù hợp với nội dung câu truy vấn Trong giai đoạn tra cứu, nhu cầu thông tin của người sử dụng được đưa vào hệ thống dưới dạng một câu truy vấn bằng ngôn ngữ tự nhiên hay một dạng thức qui ước nào đó Câu truy vấn và tập dữ liệu sẽ được phân tích và biểu diễn thành một dạng biểu diễn bên trong Hệ thống sẽ sử dụng một hàm so khớp để
so khớp biểu diễn của câu hỏi với các biểu diễn của các tài liệu để đánh giá độ liên quan của các tài liệu với câu truy vấn và trả về các tài liệu có liên quan, được xếp hạng theo độ liên quan với câu truy vấn Động cơ tìm kiếm có thể tương tác với người dùng thông qua một giao diện (Web chẳng hạn), để có thể hiệu chỉnh dần kết quả trả về cho phù hợp với nhu cầu thông tin của người dùng
Các hệ thống tìm kiếm thông tin có thể được phân loại như sau:
Hệ thống tìm kiếm thông tin dựa trên từ khóa: Hệ thống sử dụng một danh sách các từ khóa (keywords) hay thuật ngữ (term) để biểu diễn nội dung tài liệu và câu truy vấn Tìm kiếm theo từ khóa là tìm kiếm các tài liệu mà những từ trong câu truy vấn xuất hiện nhiều nhất nghĩa là hệ thống giả định nếu một câu hỏi và một tài liệu có chứa một số từ (từ khoá) chung, thì tài liệu là liên quan đến câu hỏi và dĩ nhiên là nếu số từ chung càng nhiều thì độ liên quan càng cao, tài liệu càng được chọn để trả về cho người dùng Các mô hình tìm kiếm được sử dụng như mô hình Boolean, mô hình không gian vector, các mô hình xác suất, mô hình LSI
Hệ thống tìm kiếm thông tin dựa trên khái niệm hay ngữ nghĩa: Nội dung của một đối tượng thông tin được mô tả bởi một tập các khái niệm hay một cấu trúc khái niệm Để rút trích khái niệm, hệ thống cần sử dụng đến nguồn tri thức về lĩnh vực nhất định nào đó Hướng tiếp cận chính cho việc nguyên cứu các hệ thống này
là sử dụng các kỹ thuật trong xử lý ngôn ngữ tự nhiên và công nghệ ontology
Trang 181.1.5 Một số nghiên cứu có liên quan
Để đáp ứng được nhu cầu tìm kiếm văn bản theo ngữ nghĩa, một số công trình nghiên cứu về nhiều lĩnh vực trong nhu cầu tìm kiếm văn bản đã ra đời có thể
kể đến như:
Công trình của tác giả Phạm Hoàng Linh [5], ứng dụng semantic web để xây dựng website tìm kiếm văn bản trong ngành giáo dục, ứng dụng cho phép người dùng có thể tìm kiếm văn bản ở mức cơ bản hoặc tìm kiếm nâng cao hoặc cũng có thể đưa ra những gợi ý cho người dùng khi có nhiều kết quả trùng nhau
Công trình của tác giả Lương Đỗ Long [6], ứng dụng web ngữ nghĩa trong lưu trữ và quản lý các tài liệu số, ứng dụng hỗ trợ cơ chế tìm kiếm ngữ nghĩa và chia sẻ các tài nguyên với các hệ thống khác một cách thuận lợi thông qua thư viện
số ngữ nghĩa
Công trình của tác giả Nguyễn Xuân Pha [7], ứng dụng web ngữ nghĩa xây dựng hệ thống tra cứu pháp luật Việt Nam, ứng dụng cho phép người dùng tìm kiếm các thông tin về pháp luật một cách nhanh chóng và chính xác
Nhìn chung, các công trình nghiên cứu về web ngữ nghĩa đã đạt được những thành công bước đầu như: xây dựng ontology, xây dựng ứng dụng Tuy nhiên, những công trình này vẫn chưa được áp dụng rộng rãi trong thực tế
1.2 Mục tiêu và giới hạn của đề tài
Đề tài sẽ nghiên cứu xây dựng một hệ hỗ trợ tìm kiếm công văn về một chuyên ngành, một lĩnh vực đặc biệt như khoa học kỹ thuật, công nghệ theo ngữ nghĩa, bao gồm các mô hình, vấn đề, thuật giải, kỹ thuật, qui trình để tổ chức một
bộ từ vựng tài liệu về công văn trong đó cố gắng quản lý được các thông tin ngữ nghĩa liên quan đến nội dung của công văn cũng như hỗ trợ xử lý ngữ nghĩa trong tìm kiếm
Việc xây dựng một hệ hỗ trợ tìm kiếm công văn theo ngữ nghĩa về mặt thực
tế là rất khó vì nhiều vấn đề cho đến nay vẫn còn khá mới cũng như bộ từ vựng về công văn hoàn toàn chưa được triển khai trước đó Các phương pháp và kỹ thuật hiện có thường chỉ hỗ trợ cho một số miền tri thức nhất định trong những ứng dụng
Trang 19cụ thể và tỏ ra không hiệu quả trong việc áp dụng giải quyết nhiều bài toán khác nhau Ngoài ra, việc xây dựng một cơ sở tri thức cho một lĩnh vực cũng gặp nhiều khó khăn vì đòi hỏi kiến thức của chuyên gia về lĩnh vực Do đó, luận văn chỉ nghiên cứu xây dựng thử nghiệm một hệ hỗ trợ tìm kiến công văn về một lĩnh vực
cụ thể là khoa học kỹ thuật, công nghệ và tập trung giải quyết các vấn đề chính sau:
- Nghiên cứu xây dựng bộ từ vựng Ontology về công văn trong một cơ quan nhà nước và cụ thể là tại Ủy ban nhân dân tỉnh Đồng tháp
- Các vấn đề, kỹ thuật xử lý ngữ nghĩa trong tìm kiếm
- Các kỹ thuật, quy trình chung cho việc thiết kế, xây dựng một hệ hỗ trợ tìm kiếm công văn theo ngữ nghĩa
1.3 Ý nghĩa của đề tài
Nhu cầu thực tiễn về một hệ thống tìm kiếm công văn theo ngữ nghĩa phục
vụ cho cán bộ công chức hiện nay khá cao và cần thiết Do đó, mục tiêu của ứng dụng đặt ra là xây dựng được một hệ hỗ trợ tìm kiếm công văn về một lĩnh vực đặc biệt như khoa học kỹ thuật, công nghệ với khả năng tìm kiếm liên quan đến thông tin công văn hay nội dung trích yếu của công văn Các tác động của nghiên cứu:
Ý nghĩa khoa học
Hiểu và vận dụng được các kiến thức về RDF, RDF/XML, RDF Schema, OWL,
Cung cấp phương pháp để xây dựng ontology
Xây dựng tập từ vựng cơ bản về công văn trong một cơ quan nhà nước
Khai thác các tính năng đọc/xuất, truy vấn các thông tin có mô tả ngữ nghĩa
Ý nghĩa thực tiễn
Việc nghiên cứu công nghệ Ontology, Semantic Web và ứng dụng vào xử lý thông tin trong lĩnh vực công văn giúp công chức, viên chức nhà nước có thể tìm kiếm, nắm bắt thông tin … là rất cần thiết, phù hợp với tình hình thực tế của nước ta
Trang 20hiện nay Ngoài ra, kết quả của nghiên cứu của đề tài là nền tảng để giải quyết các bài toán ngữ nghĩa khác trong thực tiễn
1.4 Phương pháp nghiên cứu
Đi từ việc phân tích nhu cầu thực tiễn, tìm hiểu nghiên cứu các phương pháp
và kỹ thuật đã có, trên cơ sở đó tìm cách vận dụng, phối hợp và cải tiến sao cho phù hợp với yêu cầu thực tế của ứng dụng mà luận văn đang hướng tới Bên cạnh đó đưa ra những đóng góp phát triển và đề xuất mới về mặt mô hình và kỹ thuật với khả năng biểu diễn tri thức rộng và sâu hơn, khả năng xử lý chính xác và hiệu quả hơn Những phương pháp và kỹ thuật liên quan đến đề tài bao gồm các phương pháp và kỹ thuật của trí tuệ nhân tạo như:
- Các phương pháp thiết kế hệ cơ sở tri thức, hệ chuyên gia và các hệ tìm kiếm thông tin
- Các phương pháp và kỹ thuật dựa trên các ontology sẽ được vận dụng một cách linh hoạt có sự phát triển để tạo ra các mô hình, các ngôn ngữ đặc tả, kỹ thuật tổ chức bộ từ vựng có ngữ nghĩa phục vụ việc xử lý lưu trữ và tìm kiếm theo ngữ nghĩa một cách hiệu quả hơn
- Các phương pháp thiết kế hệ thống tìm kiếm theo ngữ nghĩa
Trang 21CHƯƠNG 2 - CƠ SỞ LÝ THUYẾT
2.1 Web ngữ nghĩa
2.1.1 Web ngữ nghĩa là gì?
Theo định nghĩa của Tim Berners-Lee [31] thì web ngữ nghĩa là sự mở rộng của web hiện tại, trong đó thông tin được định nghĩa một cách rõ ràng hơn sao cho con người và máy đều có thể hiểu được và cùng làm việc với nhau được Theo định nghĩa của tổ chức W3C: “Web ngữ nghĩa là một cách nhìn về cách tổ chức dữ liệu:
đó là ý tưởng về việc dữ liệu trên Web được định nghĩa và liên kết theo một cách
mà nó có thể được sử dụng bởi máy tính với mục đích không ch cho việc hiển thị
mà còn tự động hoá, tích hợp và sử dụng lại dữ liệu qua các ứng dụng khác nhau”[34] Web ngữ nghĩa khác với Trí tuệ nhân tạo ở chỗ: trí tuệ nhân tạo làm cho máy tính thông minh hơn, còn web ngữ nghĩa làm cho ứng dụng thông minh hơn Vấn đề chính hiện nay là web thiếu ngữ nghĩa, các trang web được liên kết với nhau bằng các siêu liên kết, thông tin rời rạc, các ứng dụng không có khả năng hiểu được nội dung trên trang web đó Nên từ đó việc tìm kiếm thông tin trên web chủ yếu dựa vào từ khóa Từ đó thông tin tìm kiếm có độ chính xác thấp, kết quả trả về không chính xác, nhiều khi kết quả mang tính phổ biến, và người dùng phải tốn nhiều thời gian và công sức để xử lý các kết quả tìm kiếm Vậy chúng ta mong muốn gì ở thể
hệ web mới, theo tôi chúng ta mong muốn việc tìm kiếm trong tương lai không phụ thuộc vào từ khóa nữa mà các ứng dụng tìm kiếm phải hiểu được ngữ nghĩa của dữ liệu trả về, có phù hợp với yêu cầu tìm kiếm hay không, và đưa ra cho chúng ta kết
quả tốt nhất, phù hợp nhất Và Web ngữ nghĩa mang lại điều đó như thế nào?
2.1.2 Kiến trúc web ngữ nghĩa
Năm 2001, Tim Berners-Lee cùng nhóm tác giả đã công bố công trình về web ngữ nghĩa Dưới đây là mô hình kiến trúc web ngữ nghĩa được công bố năm
2001
Trang 22Hình 2.1: Kiến trúc Web ngữ nghĩa [31]
Để có được những khả năng trên, Web ngữ nghĩa cần một hạ tầng chặt chẽ với nhiều lớp hỗ trợ bên dưới Mỗi lớp có vai trò nhất định:
Lớp URI Uniform Resource Identifier
Lớp URI/IRI là tầng tài nguyên thấp nhất mục đích nhằm đảm bảo việc sử dụng tập ký hiệu quốc tế và xác định các tài nguyên trên mạng Một tài nguyên có duy nhất một URI, tập con của URI là định vị tài nguyên thống nhất: Uniform Resource Locator (URL), nó chứa phương thức truy cập và vị trí của tài liệu trên mạng Việc sử dụng URI là rất quan trọng, vì nó cho phép xây dựng một hệ thống phân tán, trong đó các tài nguyên nằm ở nhiều nơi khác nhau trên mạng Một biến thể khác của URI là định danh tài nguyên được quốc tế hóa: Internationalized Resource Identifier (IRI), nó cho phép sử đụng các kí tự Unicode trong định danh
Để mã hóa các thông tin, dữ liệu ta sử dụng chuẩn mã hóa Unicode, đây là chuẩn thống nhất dùng để mã hóa các tập kí tự quốc tế
Lớp XML - XML Schema
Trang 23XML (eXtensible Markup Language), cung cấp cú pháp chung nhưng không ràng buộc về ngữ nghĩa cho các tài liệu có cấu trúc, làm cơ sở cho sự trao đổi dữ liệu trên Web XML SCHEMA định nghĩa cấu trúc các tài liệu XML, cho phép mở rộng XML bằng các kiểu dữ liệu mới
Lớp RDF (Resource Description Framework) - RDF Schema
RDF (Resource Description Framework), cung cấp cấu trúc mô tả các đối tượng hay tài nguyên trên mạng và quan hệ giữa chúng RDF cho phép gán kiểu cho các tài nguyên và làm nền tảng cho Ontology RDF Schema cung cấp một phương tiện để đặc tả các từ vựng mô tả tính chất và quan hệ giữa các tài nguyên RDF
Lớp ONTOLOGY
Ontology định nghĩa các từ vựng dùng để mô tả các thuộc tính, lớp trong một miền ngữ vựng nhất định Được phát triển trên nền tảng RDF có phát triển thêm những định nghĩa về từ vựng ngữ nghĩa bổ sung những ràng buộc dữ liệu
Trang 242.2 Ontology
2.2.1 Khái niệm Ontology
Ontology là một thuật ngữ mượn từ triết học và được dùng trong nhiều lĩnh vực khác nhau Hiện nay, có một số định nghĩa về ontology được biết đến rộng rãi như:
- Trong ngữ cảnh triết học, ontology thuộc một nhánh của siêu hình học, nghiên cứu về bản chất của sự tồn tại (bản dịch nghĩa đen của từ tiếng
Hy Lạp Oντoλoγiα), xác định các sự vật nào thực sự tồn tại và cách thức
mô tả chúng [31]
- Trong khoa học máy tính, một ontology là một đặc tả rõ ràng của một sự trừu tượng hóa (An ontology is an explicit specification of a conceptualization) [13]
- Một ontology bao gồm những định nghĩa của các khái niệm cơ bản trong một lĩnh vực và mối quan hệ giữa chúng mà máy có thể hiểu được [15] Tóm lại, ontology là “một biểu diễn của sự khái niệm hoá chung được chia sẻ” của một miền nhất định Một ontology về một lĩnh vực sẽ mô tả rõ ràng những thực thể giúp con người và máy có thể hiểu và suy luận được theo ngữ nghĩa trong phạm vi lĩnh vực đó
Thực thể (Individual)
Biểu diễn các phần tử riêng biệt của khái niệm, là các thể hiện của lớp Mỗi thể hiện của lớp biểu diễn một sự cụ thể hóa của khái niệm đó
Kh a cạnh S ot
Trang 25Mô tả các đặc tính, đặc trưng, tính chất khác nhau của khái niệm và mỗi thuộc tính đều có giá trị Thuộc tính được phân biệt với quan hệ (relation) dựa trên giá trị là một kiểu dữ liệu (string, number, boolean, ) Một thuộc tính bản thân nó cũng có các thuộc tính con và cũng có các ràng buộc trên nó
Quan hệ
Biểu diễn các kiểu quan hệ giữa các khái niệm Các quan hệ nhị phân được
sử dụng để biểu diễn thuộc tính Tuy nhiên, giá trị của quan hệ khác với giá trị của thuộc tính ở chỗ giá trị của quan hệ là một khái niệm
Ti n đề a ioms
Biểu diễn các phát biểu luôn đúng mà không cần phải chứng minh hay giải thích Axioms được sử dụng để kiểm chứng sự nhất quán của ontology hoặc cơ sở tri thức Cả hai thành phần hàm và tiên đề góp phần tạo nên khả năng suy diễn trên ontology
2.2.3 Các bước xây dựng Ontology
Noy và McGuinness (2001) [15] mô tả những lý do để phát triển ontology và làm thế nào để phát triển chúng Những lý do chính cho việc phát triển một bản thể học là:
- Để chia sẻ hiểu biết chung về cấu trúc của thông tin giữa người hoặc tác
tử phần mềm (Software Agent)
- Cho phép tái sử dụng miền tri thức – đây là một động lực làm tăng việc nghiên cứu ontology trong thời gian gần đây
- Để làm cho các giả định về miền tri thức được rõ ràng
- Để phân tích miền tri thức
Nguyên tắc cơ bản để thiết kế ontology gọi là:
a Không có một cách chính xác để mô hình hóa một ontology về một lĩnh vực Luôn có những lựa chọn thay thế khả thi khác Giải pháp tốt nhất hầu như luôn luôn phụ thuộc vào ứng dụng và các phần mở rộng mà bạn dự đoán
b Phát triển bản thể học nhất thiết phải là một quá trình lặp đi lặp lại
Trang 26c Các khái niệm trong ontology nên gần đối tượng (vật lý hay hợp logic) và các mối quan hệ trong phạm vi mà chúng ta quan tâm Đây là nhiều khả năng được các danh từ (đối tượng) hoặc động từ (mối quan hệ) trong câu
mô tả miền của chúng ta
Hình 2.2 Quá trình phát triển Onto og [15]
Noy và McGuinness (2001) đề xuất 7 bước để phát triển ontology:
Bước 1 Xác định lĩnh vực và phạm vi của Ontology
Bước 2 Xem xét việc sử dụng lại các ontology có sẵn
Bước 3 Liệt kê các thuật ngữ quan trọng trong ontology
Trang 27 Quá trình phát triển từ trên xuống bắt đầu với các định nghĩa của các khái niệm chung nhất trong miền và tiếp theo là các khái niệm cụ thể hơn
Quá trình phát triển từ dưới lên bắt đầu với định nghĩa của các lớp cụ thể nhất, là cấp lá (cấp thấp nhất) trong hệ thống phân cấp, và tiếp theo là nhóm các lớp này vào các khái niệm tổng quát hơn
Quá trình phát triển kết hợp là sự kết hợp của phương pháp tiếp cận từ trên xuống và từ dưới lên bằng cách định nghĩa các khái niệm nổi bật trước và sau đó khái quát hóa và cụ thể hóa cho phù hợp
Xây dựng bản thể học là một quá trình nhằm mục đích tạo ra một ontology Các giai đoạn phát triển ontology sẽ được thực hiện bao gồm:
1 Đặc tả Ontology: Xác định mục đích và phạm vi của ontology Xác định mục đích bằng cách trả lời câu hỏi "Tại sao các ontology được xây dựng?" Và Xác định phạm vi bằng cách trả lời câu hỏi "mục đích sử dụng của nó và người dùng cuối là gì?"
2 Thu thập kiến thức: Có được kiến thức về các chủ đề bằng cách sử dụng một số kỹ thuật như phỏng vấn, câu hỏi, phân tích tài liệu, và kỹ thuật quy nạp
3 Khái niệm: Mô tả, trong một mô hình khái niệm, ontology được xây dựng,
để đáp ứng các đặc tả được tìm thấy trong các bước trước Các phương pháp khác nhau sẽ sử dụng các mô hình khái niệm khác nhau Các mô hình khái niệm của một ontology bao gồm các khái niệm trong miền và mối quan hệ giữa những khái niệm Các mối quan hệ kết nối mạnh mẽ hơn giữa các nhóm khái niệm Các nhóm khái niệm thường tương ứng với các mô-đun khác nhau (sub-ontologies) và do đó miền ontology có thể được phân tích
4 Chính thức hoá: Chuyển đổi mô tả khái niệm thành một mô hình chính thức, đó là, các mô tả về các miền được tìm thấy trong các bước trước đó được viết bằng một hình thức chính thức hơn, mặc dù chưa được hình thức cuối cùng của nó Các khái niệm thường được xác định thông qua các tiên đề, hạn chế cách diễn giải
có thể có cho ý nghĩa của các khái niệm Các khái niệm thường được tổ chức phân cấp thông qua một mối quan hệ cấu trúc
Trang 285 Thực hiện: Thực hiện các ontology được chính thức hóa trong một ngôn ngữ biểu diễn tri thức
6 Đánh giá: đánh giá chất lượng của các ontology
7 Tài liệu: Báo cáo những gì đã làm được, làm thế nào và tại sao ontology được thực hiện Đặc biệt quan trọng là các tài liệu liên quan đến các thuật ngữ đại diện trong ontology, không chỉ để cải thiện tính rõ ràng của nó, mà còn để tạo điều kiện bảo dưỡng, sử dụng và tái sử dụng
8 Bảo trì: Cập nhật ontology đã thực hiện
2.3 Công văn và quản ý công văn
2.3.1 Khái niệm công văn
Công văn là hình thức văn bản hành chính dùng phổ biến trong các cơ quan,
tổ chức, doanh nghiệp Công văn là phương tiện giao tiếp chính thức của cơ quan Nhà nước với cấp trên, cấp dưới và với công dân Thậm chí trong các tổ chức xã hội
và các doanh nghiệp trong hoạt động hàng ngày cũng phải soạn thảo và sử dụng công văn để thực hiện các hoạt động thông tin và giao dịch nhằm thực hiện các chức năng và nhiệm vụ của mình
2.3.2 Bố cục của công văn
Thông thường bố cục một công văn phải có các yếu tố sau:
+ Quốc hiệu và tiêu ngữ
+ Địa danh và thời gian gửi công văn
+ Tên cơ quan chủ quản và cơ quan ban hành công văn
+ Chủ đề nhận công văn (cơ quan hoặc cá nhân)
+ Số và ký hiệu của công văn
+ Trích yếu nội dung
+ Nội dung công văn
+ Chữ ký, đóng dấu
+ Nơi gửi
Trang 292.4 Một số công cụ thiết kế
2.4.1 RDF – nền tảng của Semantic web
2.4.1.1 Tổng quan RDF
XML cung cấp cú pháp để mã hóa dữ liệu, RDF là một cơ cấu chỉ ra điều gì
đó về dữ liệu RDF là nền tảng cho việc biểu diễn dữ liệu trong lĩnh vực Web ngữ nghĩa Mô hình dữ liệu cơ sở của RDF thì đơn giản, bên cạnh tài nguyên (resources), RDF còn chứa thuộc tính (properties) và phát biểu (statements) Một property là một khía cạnh, tính chất, thuộc tính, hay mối liên hệ mô tả cho một tài nguyên Một phát biểu (statement) có dạng cấu trúc bộ ba (Triple) gồm ba thành phần cơ bản là: subject, predicate, object [28].Trong đó:
- Subject chỉ đối tƣợng đang đƣợc mô tả đóng vai trò là chủ thể
- Predicate (còn đƣợc gọi là property) là kiểu thuộc tính hay quan hệ
- Object là giá trị thuộc tính hay đối tƣợng của chủ thể đã nêu Object có
thể là một giá trị nguyên thủy (literal) nhƣ số nguyên, chuỗi hoặc cũng
- Chia sẻ dữ liệu trên mạng dễ dàng nhờ sự đồng nhất
Chia sẻ dữ liệu RDF
Mô hình RDF thể hiện đƣợc nhiều ƣu điểm trong việc biễu diễn thông tin Chính vì vậy cần phải có một cách thức chung để truyền tải dữ liệu RDF trên internet Đó là RDF/XML syntax do W3C đƣa ra năm 1999 [28] Đây là một ngôn
Trang 30ngữ dựa trên XML, nó bao gồm một tập các quy tắc và từ vựng để hỗ trợ cho biễu diễn thông tin RDF
RDF/XML syntax:
RDF/XML có thể gây khó khăn cho người học bởi vì nó có thể có nhiều cách khi cùng biểu diễn một phát biểu, và một phần là do URI (Uniform Resource Identifier) dùng để định danh cho một tài nguyên thì tương đối dài và khó đọc, khó viết Tuy nhiên vấn đề này có thể được xử lí bằng cách dùng XML namespace
2.4.1.2 Lược đồ RDF – RDF Schema
RDFS hay RDF-Schema, là một ngôn ngữ Ontology cơ bản Nó được phát triển ở tầng trên của RDF cho nên bản thân RDF-Schema cũng chính là RDF, nó được mở rộng từ RDF và bổ sung thêm các tập từ vựng để hỗ trợ cho việc xây dựng các Ontology được dễ dàng [29] Như chúng ta đã biết, ngôn ngữ RDF chỉ giúp cho thông tin được thể hiện ở dạng bộ ba theo đúng mô hình RDF chứ thông tin vẫn chưa thể hiện gì về mặt ngữ nghĩa Bởi vậy, xây dựng RDFS là điều cần thiết để hình thành nên ngữ nghĩa cho thông tin, là cơ sở để xây dựng các công cụ tìm kiếm ngữ nghĩa RDFS và RDF có mối liên hệ tương đối gần gũi nên đôi lúc ta gọi ngôn ngữ này là RDF/RDFS
Hình 2.3: So sánh giữa RDF và RDFS [25]
Trang 312.4.2 OWL
OWL là ngôn ngữ ontology khá mạnh, nó ra đời sau RDFS nên biết kế thừa những lợi thế của ngôn ngữ này đồng thời bổ sung thêm nhiều yếu tố giúp khắc phục được những hạn chế của RDFS OWL giúp tăng thêm yếu tố logic cho thông tin và khả năng phân loại, ràng buộc kiểu cũng như số yếu tố tương đối mạnh [25]
OWL được chia làm ba phiên bản ngôn ngữ con: OWL Lite, OWL DL, và OWL Full:
OWL Lite: hỗ trợ cho những người dùng chủ yếu cần sự phân lớp theo thứ bậc và các ràng buộc đơn giản Ví dụ: Trong khi nó hỗ trợ các ràng buộc về tập hợp, nó chỉ cho phép tập hợp giá trị của 0 hay 1 Điều này cho phép cung cấp các công cụ hỗ trợ OWL Lite dễ dàng hơn so với các bản khác
OWL DL (OWL Description Logic): hỗ trợ cho những người dùng cần sự diễn cảm tối đa trong khi cần duy trình tính tính toán toàn vẹn (tất cả các kết luận phải được đảm bảo để tính toán) và tính quyết định (tất cả các tính toán sẽ kết thúc trong khoảng thời gian hạn chế) OWL DL bao gồm tất cả các cấu trúc của ngôn ngữ OWL, nhưng chúng chỉ có thể được sử dụng với những hạn chế nào đó (Ví dụ: Trong khi một lớp có thể là một lớp con của rất nhiều lớp, một lớp không thể là một thể hiện của một lớp khác) OWL DL cũng được chỉ định theo sự tương ứng với logic mô tả, một lĩnh vực nghiên cứu trong logic đã tạo nên sự thiết lập chính thức của OWL
OWL Full muốn đề cập tới những người dùng cần sự diễn cảm tối đa và sự
tự do của RDF mà không cần đảm bảo sự tính toán của các biểu thức Ví dụ, trong OWL Full, một lớp có thể được xem xét đồng thời như là một tập của các cá thể và như là một cá thể trong chính bản thân nó OWL Full cho phép một ontology gia cố thêm ý nghiã của các từ vựng được định nghĩa trước (RDF hoặc OWL)
Các phiên bản này tách biệt về các tiện ích khác nhau, OWL Lite là phiên bản dễ hiểu nhất và phức tạp nhất là OWL Full
Ta hãy tìm hiểu sơ qua các lớp và thuộc tính của OWL để thấy được những
ưu điểm của OWL so với RDFS
Trang 32Bảng 2.1: Một số thuộc t nh của OWL Lớp
owl:AllDifferent
Thuộc t nh
owl:allValuesFrom owl:TransitiveProper
ty
owl:Class owl:backwardCompatibleWith owl:inverseOf
owl:DataRange owl:cardinality owl:maxCardinality owl:DataTypeProperty owl:complementOf owl:minCardinality owl:DeprecatedProperty owl:distinctMembers owl:oneOf
owl:DeprecatedClass owl:differentFrom owl:onProperty owl:FunctionalProperty owl:disjointWith owl:priorVersion Trong OWL có thêm một số thuộc tính hỗ trợ suy luận và ràng buộc
Hỗ trợ su uận
Tính chất bắc cầu:
Nếu nhƣ chúng ta có một lớp thuộc tính “contain” và gán cho
nó thuộc tính owl:transitivePropertive thì thuộc tính “contain” này sẽ
có tính chất bắc cầu Giả sử ta có thông tin A contain B và B contain
C, thì hệ thống sẽ tự suy luận ra một thông tin khác là A contain C, và đây là biểu diễn thuộc tính contain trong OWL:
{owl:TransitiveProperty {rdf:ID,"contain"}
{owl:inverseOf, #hasParent}
}
Hỗ trợ ràng buộc
Ràng buộc kiểu:
Trang 33Giả sử ta đã có lớp Parent, thừa kế từ hai lớp này là Father và Mother Ta muốn một đối tượng thuộc lớp Father thì không thể thuộc lớp Mother và ngược lại
{owl :Class {rdf :about, #Father}
{owl :disjointWith, #Mother}
dựng các ứng dụng Web ngữ nghĩa Jena cung cấp môi trường lập trình cho RDF, RDFS, OWL và SPARQL - ngôn ngữ truy vấn cho RDF Jena bao gồm các thành phần và tính năng sau:
- RDF API: Giao diện lập trình cho RDF
- OWL API: Giao diện lập trình cho OWL
- Xuất và đọc các file RDF theo dạng RDF/XML, N3 và N-Tribles
Trang 34- Cho phép lưu trữ trong bộ nhớ, lưu trữ cố định trong các tập tin đơn hay trong các hệ quản trị cơ sở dữ liệu (MySQL, HSQLDB, PostgreSQL, Oracle, Microsoft SQL Server)
2.4.4 Công cụ OWLAPI
OwlApi là bộ Java Api và Interface cho việc tham chiếu cài đặt Nó cung cấp những phương thức hỗ trợ việc tạo, quản lý, tương tác lên Ontology giúp cho việc
sử dụng Ontology nhanh chóng và dễ dàng hơn [25]
OWL API là bộ mã nguồn mở miễn phí được chia sẻ trên Github, và được phát hành cùng một trong 2 giấy phép là LGPL và Apache Licenses
OWL API bao gồm các gói :
Bộ Api cho OWL 2
Trang 35 </dependency>
2.4.5 Công cụ xây dựng Ontology - Protégé
Protégé là là một trong những bộ công cụ được sử dụng rộng rãi nhất hiện nay Đây một trình soạn thảo Ontology miễn phí mã nguồn mở, được xây dựng bằng ngôn ngữ Java Protégé được nghiên cứu và phát triển từ năm 1998 bởi nhóm nghiên cứu của Mark Musen thuộc đại học Stanford, California nhằm quản lý các thông tin trong lĩnh vực sinh y học Mã nguồn Protégé có thể được tìm thấy tại website: http://protege.stanford.edu/products.php [27]
Các ưu điểm của Protégé
Chức năng nổi bật nhất của phần mềm này là cho phép người dùng sử dụng tạo ra các ontology để phát triển Web Semantic theo đúng chuẩn của ngôn ngữ W3C OWL
Protégé cung cấp 2 cách để mô hình hóa Ontology:
Protégé Frame [20] cung cấp một giao diện dùng đầy đủ và mô hình có sẵn
để tạo, lưu trữ Ontology dưới dạng Frame, theo giao thức Open Knowledge Base Connectivity (OKBC)
Protégé-OWL [20] là một mở rộng của Protégé để trợ giúp cho việc xây dựng OWL Protégé -OWL cho phép người sử dụng: nạp và lưu các ontology dạng OWL và RDF; soạn thảo và quan sát các lớp, thuộc tính; thực hiện suy diễn,… Hơn nữa, Protégé-OWL còn được tối ưu hóa giao diện đồ họa cho người sử dụng
Các đối tượng xây dựng chính của Protégé là :
- Classes – tổ chức các quan hệ tham chiếu và các kiểu thực thi
- Axioms – mô hình câu lệnh đúng
- Instances – các thể hiện, các thành phần của đối tượng
- Domain – giới hạn của ontology
- Vocabulary – các lớp và khai báo
Các ưu điểm của Protégé là:
• Hỗ trợ đầy đủ ba phiên bản của ngôn ngữ OWL là Full,
OWL-Lite và OWL-DL
Trang 36• Nhờ sử dụng mô hình hướng đối tượng của ngôn ngữ Java, Protégé rất
hiệu quả trong việc mô hình hóa các lớp, thực thể, quan hệ…
• Giao diện thiết kế trực quan có tính tương tác cao Người sử dụng có
thể định nghĩa các thành phần của Ontology trực tiếp từ các form Nó hỗ trợ xây dựng các thành phần của một Ontology rất nhanh và hiệu quả
• Cho phép biểu diễn trực quan Ontology dưới dạng các sơ đồ
• Cho phép xây dựng Ontology từ nhiều nguồn khác nhau
• Protégé tự động lưu một bản tạm của Ontology Nếu có lỗi phát sinh
trong quá trình thao tác thì Ontology cũ sẽ tự động được phục hồi
• Cung cấp chức năng tìm kiếm lỗi, kiểm tra tính nhất quán và đầy đủ
của Ontology Cho phép các lớp và thuộc tính của Ontology này có thể được sử
dụng trong một Namespace khác mà chỉ cần sử dụng các URL để tham khảo
• Hỗ trợ suy luận trực tiếp trên Ontology dựa trên Interface chuẩn DL Implementation Group (DIG)
• Hỗ trợ sinh mã tự động Protégé cho phép chuyển Ontology thành mã nguồn RDF/XML, OWL, DIG, Java, EMF Java Interfaces, Java Schema Classes Các mã này có thể được nhúng trực tiếp vào ứng dụng và là đầu vào cho các thao tác trên Ontology khi cần
Trang 37CHƯƠNG 3 - KHẢO SÁT VÀ THIẾT KẾ 3.1 Hiện trạng và nhu cầu
tế, tài chính, giáo dục, y tế, nông nghiệp, công nghiệp, lâm nghiệp, ngư nghiệp, giao thông vận tải Đặc biệt, trong những năm gần đây vấn đề được ban lãnh đạo Tỉnh đánh giá cao và tập trung phát triển đó là lĩnh vực khoa học, công nghệ Trong lĩnh vực khoa học, công nghệ, UBND tỉnh thực hiện những nhiệm vụ, quyền hạn như sau:
+ Chỉ đạo và kiểm tra việc thực hiện các nhiệm vụ, kế hoạch cụ thể phát triển khoa học, công nghệ; thực hiện các biện pháp khuyến khích việc nghiên cứu, phát huy sáng kiến cải tiến kỹ thuật, ứng dụng các tiến bộ khoa học và công nghệ phục
vụ sản xuất và đời sống;
+ Quản lý các chương trình, đề tài nghiên cứu khoa học cấp tỉnh hoặc được cấp trên giao; quản lý hoạt động chuyển giao công nghệ, tham gia giám định nhà nước về công nghệ đối với các dự án đầu tư quan trọng ở địa phương;
Trang 38+ Chỉ đạo, thanh tra, kiểm tra việc thực hiện các quy định của pháp luật về tiêu chuẩn đo lường và chất lượng sản phẩm; an toàn và kiểm soát bức xạ; sở hữu công nghiệp; việc chấp hành chính sách, pháp luật về khoa học, công nghệ và bảo
vệ môi trường ở địa phương; ngăn chặn việc sản xuất, lưu hành hàng giả và bảo vệ lợi ích của người tiêu dùng [33]
3.1.2 Nhu cầu tìm kiếm công văn
Hàng ngày, trên cổng thông tin điện tử của tỉnh Đồng tháp có một số lượng lớn công văn đến/đi trên tất cả các lĩnh vực được ban hành bởi UBND Tỉnh Nếu cán bộ công chức không kịp thời cập nhật hàng ngày các công văn mới được ban hành theo đúng chuyên môn của mình thì việc tìm kiếm lại công văn sẽ gặp rất nhiều khó khăn Việc bỏ lỡ công văn hàng ngày được diễn ra thường xuyên vì có rất nhiều cán bộ, công chức đi công tác hoặc đi học không thể vào cơ quan cũng như truy cập Internet Việc tìm kiếm có thể diễn ra thủ công bằng cách tìm lại những công văn trước nhưng mất rất nhiều thời gian vì có khi công văn đó không được lưu lại hoặc có lưu lại nhưng để ở vị trí khác Ngoài ra, công chức cũng có thể tìm kiếm công văn trên cổng thông tin điện tử nhưng với điều kiện phải nhớ chính xác số hiệu công văn, nội dung, ngày ký, Do vậy, cần có một giải pháp hỗ trợ việc tìm kiếm công văn khắc phục được những hạn chế vừa nêu trên
Trên cơ sở phân tích hiện trạng và nhu cầu tìm kiếm công văn tại tỉnh Đồng Tháp, đề tài ứng dụng công nghệ web ngữ nghĩa xây dựng hệ thống hỗ trợ việc tìm kiếm công văn một cách có hiệu quả, tránh lãnh phí thời gian và công sức của cán
bộ công chức nhà nước Đối với người sử dụng, sau khi cung cấp thông tin cần tìm kiếm hệ thống sẽ xử lý và hiển thị kết quả liên quan phù hợp với yêu cầu người dùng Giải pháp được chọn để xây dựng hệ thống là sử dụng công nghệ Web ngữ nghĩa để giải quyết bài toán hiệu quả hơn Web ngữ nghĩa sử dụng mô hình dữ liệu thông minh (lưu trữ dữ liệu dưới dạng thông tin mà máy tính có thể hiểu được) nên ngoài việc tìm kiếm nhanh mà còn hỗ trợ sử dụng truy xuất thông tin chính xác hơn
Trang 39Với những yêu cầu đã nêu trên, đối tượng sử dụng của hệ thống là cán bộ công chức cần tìm kiếm những công văn có liên quan đến lĩnh vực khoa học công nghệ trên địa bàn tỉnh Đồng Tháp
3.2 Giải pháp và quy trình xây dựng Onto og công văn
3.2.1 Giải pháp xây dựng ontology công văn
3.2.1.1 Mô hình biểu diễn ngữ nghĩa
Biểu diễn ngữ nghĩa các công văn của cơ quan nhà nước dựa trên phương pháp tiếp cận Ontology và đồ thị Keyphrase Đồ thị Keyphrase là mô hình biểu diễn tri thức có dạng đồ thị [8] Trong đó, mỗi đỉnh thể hiện một keyphrase có trong miền tri thức và mỗi cung có gán nhãn ngữ nghĩa biểu thị cho mối quan hệ giữa các đỉnh keyphrase thuộc về cung đó Khi biểu diễn tài liệu thành đồ thị keyphrase thì mỗi đỉnh của đồ thị là một keyphrase (định nghĩa trong ontology) được đề cập đến trong tài liệu, mang ý nghĩa về mặt thể hiện nội dung chính của tài liệu và cung nối giữa các đỉnh thể hiện các mối quan hệ ngữ nghĩa tương ứng
Việc dùng keyphrase xuất phát từ ý tưởng là keyphrase thì ít nhập nhằng và biểu diễn nội dung tài liệu chính xác hơn keyword Trên thực tế, nhiều tài liệu khoa học yêu cầu tác giả cung cấp một danh sách các từ khóa cho các bài viết của mình, chúng thường là những cụm từ của hai hoặc nhiều từ, hơn là những từ đơn lẻ Qua
đó, nội dung của tài liệu có thể được biểu diễn thông qua một danh sách ngắn của những cụm từ phản ánh các chủ đề chính được thảo luận trong tài liệu Tuỳ thuộc vào từng mục đích sử dụng mà việc sử dụng keyphrase trong biểu diễn và truy vấn thông tin mang lại những lợi ích khác nhau
Cung cấp một tóm tắt cô đọng về tài liệu, cho khả năng mô tả mức cao về nội dung, giúp người dùng có thể nhận biết dễ dàng mối liên quan giữa tài liệu và nội dung chuyên môn họ đang quan tâm Ví dụ như khi đọc lướt qua một tài liệu nào
đó, chỉ cần duyệt qua các keyphrase, người đọc có thể nhanh chóng xác định được
Trang 40chủ đề của tài liệu đó; so sánh độ tương quan về ngữ nghĩa giữa các tài liệu; cho khả năng gom cụm hay phân loại các tài liệu theo chủ đề
Keyphrases cho Metadata: Nhiều nhà nghiên cứu tin rằng siêu dữ liệu là điều cần thiết để giải quyết các vấn đề về quản lý tài liệu Có một số tiêu chuẩn đối với siêu dữ liệu văn bản, bao gồm Dublin Core Metadata Element Set sử dụng trong thư viện Trung tâm máy tính Hoa Kỳ, định dạng MARC (Machine-Readable Cataloging) được khai thác bởi Thư viện Quốc hội Hoa Kỳ, tiêu chuẩn LOM, IMS, Tất cả các tiêu chuẩn này bao gồm một trường cho các keyphrase
Keyphrases cho Indexing: Một danh sách keyphrase hay tổ hợp đặc biệt các keyphrase được rút trích từ bộsưu tập các tài liệu có thể được dùng làm chỉ mục của tài liệu Việc sử dụng keyphrase đểlập chỉ mục thì ít nhập nhằng và biểu diễn nội dung tài liệu chính xác hơn từ đơn
Keyphrases trong việc truy vấn tương tác: Sử dụng một công cụ tìm kiếm thường là một quá trình lặp đi lặp lại Người dùng nhập vào một truy vấn, xem xét danh sách kết quả, sửa đổi các truy vấn, sau đó cố gắng tìm lại một lần nữa Hầu hết các công cụ tìm kiếm không có bất kỳ tính năng đặc biệt có hỗ trợ các khía cạnh tìm kiếm lặp đi lặp lại Một cách tiếp cận để sàng lọc truy vấn tương tác là từ câu truy vấn của người dùng, rút trích keyphrase của những tài liệu kết quả được xếp hạng cao và sau đó hiển thị danh sách tài liệu này cho người dùng, cùng với những đề xuất tinh chỉnh câu truy vấn, dựa trên sự kết hợp của câu truy vấn ban đầu với các keyphrase trích xuất
Keyphrases cho việc phân tích người dùng: người quản lý kho tài nguyên thường muốn biết những gì người dùng hệ thống của họ đang tìm kiếm Hầu hết các
hệ thống có các file nhật ký ghi lại thông tin người dùng, bao gồm cả ngày và thời gian yêu cầu, các tài liệu được yêu cầu Việc sử dụng các keypkrase có thể cung cấp một cái nhìn sâu sắc hơn về lưu lượng tài liệu được chia sẽ Thay vì thống kê một danh sách các tài liệu được ưa thích nhất, ta có thể truy xuất ra được một danh sách