MỤC TIÊU ĐỀ TÀIMục tiêu Ứng dụng xây dựng hệ thống quản lý tài nguyên học tập lĩnh vực CNTT trong phạm vi của một trường đại học với 2 nhóm chức năng chính: tổ chức quản lý lưu trữ và tì
Trang 1NGHIÊN CỨU CÁC GIẢI PHÁP THIẾT KẾ VÀ XÂY DỰNG PHÂN HỆ QUẢN LÝ TÀI NGUYÊN
HỌC TẬP CHO HỆ THỐNG E-LEARNING
BÁO CÁO NGHIỆM THU
ĐỀ TÀI NGHIÊN CỨU KHOA HỌC
Trang 2-Hướng phát triển
-Thiết kế hệ thống: Mô tả yêu cầu, chức năng; Cấu trúc hệ thống-Cài đặt và thử nghiệm
-Chương trình demo-Mục tiêu của đề tài
Trang 31 MỤC TIÊU ĐỀ TÀI
Mục tiêu
Ứng dụng
xây dựng hệ thống quản lý tài nguyên học tập lĩnh vực CNTT trong phạm vi của một trường đại học với 2 nhóm chức năng chính: tổ chức quản lý lưu trữ và tìm kiếm
(kho tài liệu tiếng Anh)
Nghiên cứu xây dựng
thông tin ngữ nghĩa liên
quan đến nội dung của tài
liệu
•hỗ trợ biểu diễn và xử lý
ngữ nghĩa trong tìm kiếm
• cố gắng quản lý được các
thông tin ngữ nghĩa liên
quan đến nội dung của tài
liệu
•hỗ trợ biểu diễn và xử lý
ngữ nghĩa trong tìm kiếm
Trang 42 MÔ HÌNH VÀ GIẢI PHÁP
2 Mô hình biểu diễn tài liệu
31 Mô hình ontology mô tả tri thức lĩnh vực
4 Tổ chức lưu trữ các thành phần của SDB
33 Mô hình cơ sở tài liệu có ngữ nghĩa SDB
Trang 5 RKK : tập hợp các quan hệ giữa các keyphrase
Mô hình “Ontology cho các keyphrase được phân lớp” (CK_ONTO) 2.1 MÔ HÌNH ONTOLOGY
Trang 6 Thành phần chính để hình thành các khái niệm của ontology.
Một đơn vị ngôn ngữ học cấu trúc như một từ, một từ kép, một ngữ.
Sử dụng các keyphrase làm yếu tố đơn vị để mô tả tri thức trong lĩnh vực hay nội dung tài liệu.
6
Cấu trúc:
Keyphrase đơn: cấu tạo bằng một đơn vị từ vựng đơn (từ, cụm từ cố định)
Ví dụ : “computer”, “network”, “database”, “data structure”
Keyphrase tổ hợp: nhiều đơn vị từ vựng đơn kết hợp thành (đẳng lập, chính phụ)
Ví dụ: “image processing”, “database programming”
Tập hợp K các keyphrase
K = {k| k là keyphrase thuộc về lĩnh vực đang xét}
K = K1 K2
K 1 : tập keyphrasre đơn, K 2 : tập keyphrase tổ hợp
K = {k| k là keyphrase thuộc về lĩnh vực đang xét}
K = K1 K2
K 1 : tập keyphrasre đơn, K 2 : tập keyphrase tổ hợp
2.1 MÔ HÌNH ONTOLOGY ( K , C, RKC, RCC, RKK, label)
Trang 7 Một keyphrase có thể thuộc nhiều lớp khác nhau
Sự phân lớp trong K được được phân thành nhiều cấp theo mức độ cụ thể của khái niệm tăng dần
Tập hợp RKC quan hệ giữa keyphrase và lớp
Trong phạm vi đề tài, chỉ xét RKC gồm 1 quan hệ “thuộc về” (rBL)
Trang 8 Quan hệ phân cấp trên lớp rHYP
Quan hệ có liên quan rRE
Tập hợp RCC quan hệ giữa các lớp
Trong phạm vi đề tài, xét RCC gồm 2 quan hệ RCC { rHYP, rRE}
2.1 MÔ HÌNH ONTOLOGY (tt) (K, C, RKC, RCC, RKK, label)
CC
R r r C C
Trang 10 Nhóm quan hệ không phân cấp
2.1 MÔ HÌNH ONTOLOGY (tt) (K, C, RKC, RCC, RKK, label)
Trang 11 Hàm gán nhãn phân loại keyphrase label
Một keyphrase có thể chỉ đến một thuật ngữ thông thường hay một lớp
Ngữ nghĩa của keyphrase có liên quan đến cấp độ của nó về nội dung
Cho Labels là tập các nhãn phân loại
Labels = {“Ngành”, “Chuyên ngành”, “Môn học”, “chuyên đề”, “chủ đề”, “thuật ngữ chuyên môn”}.
Trang 122.2 MÔ HÌNH BIỂU DIỄN TÀI LIỆU
(GK,GR,E’)
GK K : tập các đỉnh keyphrase
GR RKK : tập các đỉnh quan hệ, biểu diễn cho các mối quan hệ ngữ nghĩa giữa các keyphrase
E’ : tập các cung của đồ thị
Mỗi cung chỉ có thể đi từ 1 đỉnh trong G K đến 1 đỉnh trong G R hoặc ngược lại
Mỗi đỉnh quan hệ trong GR được xây dựng
từ một cạnh trong E và nhãn của cạnh đó
Trang 13Đồ thị keyphrase biểu diễn cho tài liệu bên phải
2.2 MÔ HÌNH BIỂU DIỄN TÀI LIỆU (tt)
Trang 142.3 MÔ HÌNH SEMANTIC DOCUMENT BASE
Mô hình cơ sở tài liệu có ngữ nghĩa (Semantic Document Base - SDB)
Mô hình cơ sở tài liệu có ngữ nghĩa (Semantic Document Base - SDB)
Trong đó:
D : Tập hợp các tài liệu, mỗi tài liệu tương ứng một tập tin
FS : Mô hình lưu trữ kho tài liệu theo hệ thống thư mục có qui chuẩn
DB : Mô hình lớp Cơ sở dữ liệu của kho tài liệu
CK_ONTO : Mô hình ontology mô tả tri thức của lĩnh vực
SDB_R : Các hàm liên kết các thành phần
Trang 158,109 9,123 9,223
7,024 10,235 8,751
LĨNH VỰC
CNPM KHMT HTTT KTMT MMT&TT Cơ sở
6,561 33,135
4,167
5,446
ĐỊNH DẠNG rar pdf doc chm
KHO TÀI LIỆU
Thu thập tài liệu: từ các giảng viên, nhà nghiên cứu khoa học, các trung tâm thông tin, thư viện, trường học và từ Internet
Kích thước kho: ~ 100 GB, gồm hơn 50.000 tập tin tài liệu (chủ yếu là ebook và paper)
Trang 16 Các qui tắc:
Quy tắc đặt tên thư mục: chuẩn hóa bằng tên các keyphrase có gán nhãn phân loại, chỉ đến một lớp trong ontology
Tổ chức phân cấp: tuân theo quan hệ phân cấp trên lớp trong ontology
Sự phân cấp đi từ các phạm vi rộng như ngành, chuyên ngành, bộ môn đến các phạm vị hẹp
hơn như môn học, chủ đề, các chuyên đề trong lĩnh vực khảo sát
Quy tắc phân loại tài liệu vào thư mục: đo độ giống nhau về ngữ nghĩa giữa keyphrase biểu diễn thư mục với danh sách các keyphrase đặc trưng của tài liệu
17
2.3 MÔ HÌNH SDB (tt) (D, FS , DB, CK_ONTO, SDB_R)
Trang 172.3 MÔ HÌNH SDB (tt) (D, FS, DB , CK_ONTO, SDB_R)
Trang 18TỔ CHỨC LƯU TRỮ ONTOLOGY CK_ONTO (K, C, RKC, RCC, RKK, label)
Mô hình CSDL ontology
2.3 MÔ HÌNH SDB (tt) (D, FS, DB, CK_ONTO , SDB_R)
Trang 20LƯU TRỮ ĐỒ THỊ KEYPHRASE
Các đồ thị keyphrase biểu diễn tài liệu được lưu lại theo từng tài liệu trong định
dạng plaintext có cấu trúc dựa trên một số từ khóa và qui ước về cú pháp đơn giản
Trang 21 Vấn đề 1: So khớp đồ thị keyphrase, trên cơ sở đó đo lường mức độ
liên quan ngữ nghĩa giữa tài liệu và câu truy vấn
Cho trước CK_ONTO và 2 KG biểu diễn tài liệu và câu truy vấn Yêu cầu tính toán độ
tương quan về ngữ nghĩa giữa 2 đồ thị Ý tưởng cơ bản là tìm ra độ đo sự tương đồng (giống nhau) về ngữ nghĩa giữa các đỉnh keyphrase và giữa các đỉnh quan hệ có trong hai đồ thị
Vấn đề 2: Xây dựng đồ thị keyphrase biểu diễn ngữ nghĩa cho tài liệu
Từ một tập tin tài liệu bất kỳ cùng với các thông tin mô tả kèm theo nếu có, thực hiện
việc rút trích các keyphrase đặc trưng của tài liệu và biểu diễn (nội dung) tài liệu thành
đồ thị keyphrase tương ứng.
3 CÁC VẤN ĐỀ
Trang 22 Vấn đề 3: Xử lý câu truy vấn
Tương tự như quá trình xử lý tài liệu bao gồm thao tác rút trích tự động keyphrase và
thiết lập đồ thị keyphrase cho câu truy vấn.
Vấn đề 4: Bài toán tìm kiếm theo ngữ nghĩa các tài liệu
Từ câu truy vấn người dùng nhập vào, hệ thống tìm kiếm và trả về danh sách các tài
liệu (được sắp hạng) có nội dung liên quan và phù hợp với thông tin truy vấn
So khớp đồ thị keyphrase biểu diễn của câu hỏi với các đồ thị keyphrase biểu diễn của các tài liệu để đánh giá độ tương quan về ngữ nghĩa
3 CÁC VẤN ĐỀ (tt)
Trang 23VẤN ĐỀ 1: ĐO LƯỜNG TƯƠNG QUAN NGỮ NGHĨA
Đánh trọng số cho keyphrase
Để đánh giá mức độ quan trọng của keyphrase trong việc phản ánh nội dung tài liệu
ta có thể gán thêm trọng số cho mỗi keyphrase trong đồ thị biểu diễn.
keyphrase trong toàn bộ kho tài liệu.
Trang 24Copyright © Wondershare Software
25
VẤN ĐỀ 1: ĐO LƯỜNG TƯƠNG QUAN NGỮ NGHĨA (tt)
Đánh trọng số cho keyphrase
vào vị trí xuất hiện của keyphrase đó trong tài liệu.
wi : trọng số phản ánh độ quan trọng của phần nội dung thứ i trong cấu trúc tài liệu
ni : số lần xuất hiện của keyphrase k trong phần nội dung tương ứng đó
i i
Trang 26 Định nghĩa :
// không có bất kỳ liên kết ngữ nghĩa nào giữa k và k’
(4) // nếu tồn tại một dãy dẫn xuất từ k đến k’
log( )
idf k xidf k
D
Trang 28Định nghĩa:
Tồn tại một phép chiếu bộ phận từ đồ thị keyphrase H tới đồ thị keyphrase G nếu và chỉ nếu tồn tại một phép chiếu từ H’, một đồ thị keyphrase con của H , tới G.
Mô hình lượng giá cho phép chiếu bộ phận chỉ phụ thuộc vào tập đỉnh của H’ và được định nghĩa như phép chiếu
Độ tương quan ngữ nghĩa giữa hai đồ thị keyphrase biểu diễn cho câu truy vấn (H) và cho tài liệu (G) được biểu diễn bởi công thức (7):
VẤN ĐỀ 1: ĐO LƯỜNG TƯƠNG QUAN NGỮ NGHĨA (tt)
Trang 29Ví dụ:
VẤN ĐỀ 1: ĐO LƯỜNG TƯƠNG QUAN NGỮ NGHĨA (tt)
Trang 30VẤN ĐỀ 2: XÂY DỰNG ĐỒ THỊ KEYPHRASE BIỂU DIỄN TÀI LIỆU
Paper: title, keywords, abstract Ebook:title, table of content, preface Dò tìm và so khớp (gần
đúng) từng keyphrase có trong ontology
Trang 31VẤN ĐỀ 3: XỬ LÝ CÂU TRUY VẤN
Cú pháp của câu truy vấn có dạng:
Ví dụ:
Trang 32VẤN ĐỀ 3: XỬ LÝ CÂU TRUY VẤN (tt)
Trang 33VẤN ĐỀ 4: BÀI TOÁN TÌM KIẾM THEO NGỮ NGHĨA
Trang 354.1 YÊU CẦU VÀ CHỨC NĂNG
Cung cấp kho tài nguyên trung
tâm, hỗ trợ chia sẻ bảo quản
Tổ chức, phân loại, chú dẫn,
tổng hợp tài nguyên theo chuẩn
Dublin Core, thư mục qui chuẩn
Ontology mô tả tri thức lĩnh vực
và bộ phận suy luận trên
ontology
Hỗ trợ tìm kiếm theo nhiều chức
năng, đặc biệt là tìm theo ngữ
Kết quả phải nhanh, chính xác,
phù hợp với nhu cầu tìm kiếm
của người dùng
Giao diện duy nhất và thống
nhất, đơn giản và dễ sử dụng
Trang 36mục cho kho tài liệu
bộ quản lý Semantic
Document Base
Trang 374.3 VẤN ĐỀ TÌM KIẾM THEO NGỮ NGHĨA
Trang 384.3 VẤN ĐỀ TÌM KIẾM THEO NGỮ NGHĨA (tt)
Trang 394.4 VẤN ĐỀ TỔ CHỨC QUẢN LÝ
Trang 40THÊM TÀI LIỆU MỚI VÀO KHO
Trang 414.5 CÀI ĐẶT VÀ THỬ NGHIỆM
Sử dụng công nghệ phổ biến, mã nguồn mở và không
đòi hỏi nhiều tài nguyên:
Ngôn ngữ lập trình ứng dụng web PHP
Hệ quản trị cơ sở dữ liệu MySQl
Phần mềm máy chủ web Apache
Công nghệ nền tảng của web - HTML5
Kỹ thuật lập trình AJAX
Trang 43MỘT SỐ KẾT QUẢ TÌM KIẾM
Trang 44NHẬN XÉT VÀ ĐÁNH GIÁ
Ưu điểm:
Đơn giản, dễ hiểu, dễ cài đặt và sử dụng.
Hỗ trợ tốt chức năng tìm chính xác theo từ khóa mà không cần hiểu nghĩa của từ.
Xếp hạng tài liệu trả về dựa trên độ tương đồng giữa câu truy vấn và mỗi tài liệu.
Xử lý được các biến thể về hình thái học của từ.
Hỗ trợ tìm kiếm nâng cao theo từ khóa bằng cách sử dụng các bộ lọc để khoanh vùng giới hạn không gian tìm kiếm.
Nhược điểm:
Mối quan hệ ngữ nghĩa giữa các từ không được xét đến
Khó khăn cho người dùng khi đặc tả đúng từ khóa cho vấn đề tìm kiếm
Kết quả trả về không phải lúc nào cũng thỏa mãn yêu cầu tìm kiếm của người dùng: số tài liệu hữu ích trả về thấp, không tìm thấy tài liệu liên quan khi được mô tả bởi từ đồng nghĩa, gần nghĩa
Trang 45 Độ chính xác và độ bao phủ cao (cao hơn so với tìm theo từ khóa)
Xử lý tốt các biến thể về ngôn ngữ học của từ: hình thái học, từ vựng học (xử lý gần
nghĩa/đồng nghĩa, có liên quan)
Tìm thấy dữ liệu liên quan khác từ đó mở rộng vấn đề ngoài kết quả tìm kiếm: đề xuất
từ khóa liên quan, bộ lọc trong kết quả theo thời gian, vùng miền, định dạng, loại hình tài liệu và độ phổ biến, lọc nâng cao theo danh mục các chủ đề hẹp hơn
Trang 465 KẾT LUẬN
1.`Mô hình cơ sở tài liệu có ngữ
nghĩa (Semantic Document
Base_SDB) trong đó tích
• Mô hình ontology mô tả tri thức
của lĩnh vực.
• Mô hình lưu trữ theo hệ thống
thư mục có qui chuẩn
• Mô hình lớp CSDL của kho tài
liệu
• Mô hình lớp semantic-quản lý
ngữ nghĩa (mô hình đồ thị biểu
diễn tài liệu).
giữa tài liệu và câu truy vấn.
Đề xuất giải pháp thiết kế tổ chức lưu trữ kho tài liệu học tập lĩnh vực CNTT trong
đó có hỗ trợ biểu diễn và xử lý ngữ nghĩa trong tìm kiếm, bao gồm:
Trang 472 Tìm kiếm: định hướng theo thư mục phân cấp, theo từ khóa, CSDL, đặc biệt
là chức năng tìm kiếm theo ngữ nghĩa liên quan đến nội dung của tài liệu
Hệ thống đáp ứng được mục tiêu đề
ra, giao diện thân thiện, gần gũi, cho kết quả khả quan trên tập dữ liệu thử
nghiệm
Trang 48 Chưa biểu diễn hết các tri thức trong lĩnh vực CNTT
Ontology vốn được xây dựng một cách thủ công theo ý kiến chủ quan nên dễ dẫn tới nhiều trường hợp thiếu sót hay dư thừa, các quan hệ chưa được trích chọn đầy đủ
Tốn nhiều chi phí xây dựng và duy trì vốn phải có sự can thiệp của con người, đòi hỏi kiến thức của chuyên gia về lĩnh vực và phụ thuộc nhiều vào ngôn ngữ
49
HẠN CHẾ
Chưa xây dựng được các công cụ hỗ trợ tự động
Việc xây dựng các đồ thị keyphrase biểu diễn cho tài liệu vẫn còn thực hiện dưới sự giám sát của con người (bán tự động)
Việc lập chỉ mục một cách tự động theo hướng tiếp cận ngữ nghĩa là một nhiệm vụ rất khó khăn
Ứng dụng
Hệ thống quản lý kho tài liệu học tập về một lĩnh vực cụ thể là CNTT và chỉ giới hạn trong phạm vi kho tài liệu tiếng Anh (vấn đề khá mới, chưa có lời giải tối ưu, xây dựng CSTT gặp nhiều khó khăn)
Ứng dụng thử nghiệm trên các truy vấn đơn giản không đi sâu vào xử lý ngôn ngữ tự nhiên
Hệ thống còn ít chức năng, chưa chú ý đến các tiện ích cho người dùng, một số phần trong hệ thống chỉ được đề cập mà chưa được cài đặt
Trang 49Nghiên cứu các công cụ hỗ trợ
tự động: rút trích keyphrase,
lập chỉ mục tài liệu, …
Nghiên cứu qui trình thiết
kế xây dựng ứng dụng cùng các nguyên lý
Nghiên cứu thêm các heuristic
và thuật toán nhằm hỗ trợ tìm kiếm nhanh chóng hơn, dễ dàng hơn, cho kết quả chính xác hơn
Trang 50Công trình nghiên cứu được công bố:
“Organization model of semantic
document repository and search
techniques for studying information technology”
WASET - ICEEEL 2011 : International Conference on e-Education and e-
Learning Paris, France, November
14-16, 2011.
Trang 51Công trình nghiên cứu được công bố:
Huynh, TruongAn PhamNguyen.
“Semantic representation and search
techniques for document retrieval
Trang 52TÀI LIỆU THAM KHẢO
[1] Cao Hoàng Trụ, VN-KIM cho Web Việt có ngữ nghĩa, Kỷ yếu Hội nghị Khoa học & Công nghệ lần thứ 9 - Khoa Công Nghệ Thông
Tin, Đại học Bách khoa TP.HCM, 2005.
[2] Lê Thúy Ngọc, Xây dựng hệ thống tìm kiếm thông tin theo hướng tiếp cận ngữ nghĩa, Luận văn thạc sĩ, Trường đại học Khoa Học
Tự Nhiên TP.HCM, 2008.
[3] Nguyễn Thị Bảo Trâm, Thiết kế và thực hiện các dịch vụ Ontology hỗ trợ thư viện số, Luận văn thạc sĩ, Trường đại học Khoa Học
Tự Nhiên TP.HCM, 2005.
[4] Huỳnh Tấn Đạt, So trùng mờ các đồ thị tri thức, Luận văn thạc sĩ, Trường đại học Bách Khoa TP.HCM, 2005.
[5] Nguyễn Hoàng Tú Anh, Nguyễn Trần Kim Chi, Nguyễn Hồng Phi, Mô hình biểu diễn văn bản thành đồ thị, Tạp chí phát triển
KH&CN, TẬP 12, SỐ 07 – 2009.
[6] Lê Tấn Hùng, Từ Minh Phương & Huỳnh Quyết Thắng, Tác tử công nghệ phần mềm hướng tác tử, Nhà xuất bản khoa học và kỹ
thuật, Hà Nội, 2006.
[7] Christopher D Manning, Prabhakar Raghavan, Hinrich Schütze, An Introduction to Information Retrieval, Cambridge University
Press Cambridge, England, 2009
[8] Dario Bonino, Fulvio Corno, Laura Farinetti, Alessio Bosca , Ontology Driven Semantic Search, WSEAS Transaction on Information
Science and Application, Issue 6, Volume 1, December 2004, pp 1597-1605.
[9] Diem L.T.H., J.-P CHEVALLET, and D.T.B Thuy, Thesaurus-based query and document expansion in conceptual indexing with
UMLS RIVF, 2007.
[10] D.Genest, M.Chein, An experiment in Document Retrieval using Conceptual Graph, Proceeding of 5th ICCS Conference,
Washington USA, p.489-504, 1997.
Trang 53TÀI LIỆU THAM KHẢO
http://dublincore.org/documents/2010/10/11/dces/.
[12] Haav, H.-M and T.-L Lubi, A Survey of Concept-based Information Retrieval Tools on the Web, in 5th East-European Conference
2001.
[13] Henrik Bulskov Styltsvig, Ontology-based Information Retrieval, A dissertation Presented to the Faculties of Roskilde University in
Partial Fulfillment of the Requirement for the Degree of Doctor of Philosophy, 2006.
[14] Henrik Eriksso, The semantic-document approach to combining documents and ontologies, International Journal of
Human-Computer Studies Volume 65, Issue 7, July 2007, Pages 624-639
[15] Jan Paralic and Ivan Kostial, Ontology-based Information Retrieval, Proc of the 14th International Conference on Information and
Intelligent systems, IIS 2003, p 23 28
[16] Jiwei Zhong, Haiping Zhu, Jianming Li and Yong Yu, Conceptual graph matching for semantic search, Conceptual Structures:
Integration and Interfaces Lecture Notes in Computer Science, 2002, Volume 2393/2002, 92-106
[17] Michel Chein, Marie-Laure Mugnier, Graph-based Knowledge Representation, Springer, 2009.
[18] M Montes-y-Gómez, A López-López, and A.F Gelbukh, Information Retrieval with Conceptual Graph Matching, in Proc DEXA,
2000, pp.312-321.
[19] Roberto Basili, Alessandro Moschitti, Marco Cammisa, Emanuele Donati, Borislav Popov, Deliverable D16.3: MPA3 Cross-language
retrieval and access tools, FP6-IST-507336 PrestoSpace.
[20] Youssef Bassil, Paul Semaan, Semantic-Sensitive Web Information Retrieval Model for HTML Documents, European Journal of
Scientific Research, ISSN 1450-216X, Vol 69, No 4, February 2012.