ĐẠI HỌC ĐÀ NẴNG TRƢỜNG ĐẠI HỌC SƢ PHẠM NGUYỄN HỮU QUYỀN XÂY DỰNG HỆ TRI THỨC HỖ TRỢ HỌC TẬP VÀ TRA CỨU KIẾN THỨC TIN HỌC ĐẠI CƢƠNG Chuyên ngành Hệ thống Thông tin Mã số 848 01 04 Khóa K40 TÓM TẮT LUẬN[.]
Trang 1-
NGUYỄN HỮU QUYỀN
XÂY DỰNG HỆ TRI THỨC HỖ TRỢ HỌC TẬP VÀ TRA
CỨU KIẾN THỨC TIN HỌC ĐẠI CƯƠNG
Chuyên ngành: Hệ thống Thông tin
Mã số: 848.01.04 Khóa: K40
TÓM TẮT LUẬN VĂN THẠC SĨ NGÀNH HỆ THỐNG THÔNG TIN
Đà Nẵng – Năm 2022
Trang 2Công trình được hoàn thành tại
TRƯỜNG ĐẠI HỌC SƯ PHẠM – ĐẠI HỌC ĐÀ NẴNG
Người hướng dẫn khoa học
TS PHẠM ANH PHƯƠNG
Phản biện 1: TS Nguyễn Đình Lầu
Phản biện 2: PGS.TS Trần Văn Lăng
Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp Thạc sĩ ngành Hệ thống Thông tin, họp tại Trường Đại học
Sư phạm – Đại học Đà Nẵng vào ngày 09 tháng 07 năm 2022
Có thể tìm hiểu luận văn tại:
- Thư viện Trường Đại học Sư phạm – Đại học Đà Nẵng
- Khoa Tin học, Trường Đại học Sư phạm – Đại học Đà Nẵng
Trang 3MỞ ĐẦU
1 LÝ DO CHỌN ĐỀ TÀI
Theo chỉ thị 58-CT/TW yêu cầu đẩy mạnh ứng dụng CNTT trong Giáo dục và đào tạo ở các cấp, bậc, ngành học và theo Quyết định Số 411/QĐ-TTg về việc phê duyệt chiến lược quốc gia về phát triển kinh tế số và xã hội số đến năm 2015, định hướng đến năm 2030 cho tất cả các lĩnh vực, trong đó có lĩnh vực giáo dục Vì vậy, việc tăng cương phát triển các ứng dụng CNTT trong lĩnh vực GD-ĐT là một
trong những xu hướng tất yếu để hướng đến “Kinh tế số - xã hội số”
(1) nhóm các công cụ tìm kiếm: google.com, bing.com, yahoo.com, …
Các công cụ tìm kiếm nhóm này cung cấp giao diện đơn giản, cho phép người dùng có thể nhập vào các từ khóa (keywords), hoặc một cú pháp (syntax) quy ước được định nghĩa riêng và thực hiện gửi yêu cầu tìm kiếm Các kết quả trả về của bộ máy tìm kiếm này, thường là các
website có nội dung “liên quan” đến từ khóa mà người dùng nhập vào
Người dùng cần phải thao tác thêm (click chuột vào các kết quả link website) để có thể xem được nội dung chi tiết kết quả liên quan đến từ khóa, cú pháp mà mình nhập vào Các hệ thống này tập trung nhiều vào việc tìm kiếm từ kho là các website (hiện đang hoạt động trên internet), không tập trung vào việc tìm kiếm nội dung (như phạm vi, phân loại kiến thức, kiến thức liên quan) từ các tài liệu, vì vậy chưa thể
hỗ trợ được việc tìm kiếm các kết quả trả về phù hợp, chính xác với mong muốn của người dùng nói chung, và phạm vi về môn học Tin học đại cương nói riêng
Trang 4(2) Nhóm các website hỗ trợ lưu trữ kho dữ liệu như: violet.vn, tailieu.vn, hoc247.net, … Các hệ thống thuộc nhóm này, chỉ hỗ trợ kho lưu trữ
sẵn các tài liệu (dạng tập tin *.pdf, *.doc|docx, *.ppt|pptx, …), người học cần phải tải các tài liệu này để xem và đọc trực tiếp Kĩ thuật tổ chức lưu trữ nội dung tài liệu của hệ thống này chỉ dừng ở mức thông tin các tập tin, nghĩa là các tập tin này có thể là word, pdf, hoặc powerpoint, …, gồm có tên tập tin, tác giả, tiêu đề, nhà xuất bản, …,
mà không xem xét biểu diễn được về mặt nội dung của tập tin Công cụ tìm kiếm của hệ thống cũng chỉ có thể tìm kiếm kết quả liên quan dựa vào các thông tin, các thuộc tính được gán cho từng tập tin (như: tên tác giả, tên tập tin, tiêu đề của bài, hay nhà xuất bản, …), mà chưa thể tìm kiếm được dưới góc độ nội dung bên trong của các tập tin này Cũng chưa chưa thể hỗ trợ được việc tìm kiếm theo phạm vi, sự phân loại kiến thức, kiến thức liên quan, vv
Để có thể xây dựng được các hệ thống thông tin, đặc biệt có khả năng hỗ trợ việc tra cứu kiến thức theo phạm vi, phân loại kiến thức, hay kiến thức liên quan như khái niệm, quan hệ, quy tắc, bài tập, bài giải, … cho môn Tin học đại cương, đòi hỏi hệ thống cần tổ chức và lưu trữ được cơ sở tri thức về môn học này, cơ sở tri thức này phải có
đủ các nhóm các thành phần tri thức, các mối quan hệ liên quan giữa các thành phần tri thức này Hiện nay đã có nhiều phương pháp biểu diễn tri thức, hỗ trợ cho thiết kế cơ sở tri thức như: các phương pháp logic hình thức, các phương pháp biểu diễn dạng mạng, phương pháp
hệ luật dẫn, phương pháp hướng có cấu trúc, các tiếp cận Ontology Các giải pháp này đều là những công cụ đắc lực cho nhà thiết kế trong xây dựng được cơ sở tri thức Tuy nhiên, các giải pháp được đề cập cũng chưa thật sự phù hợp cho việc biểu diễn cho một số miền tri thức
có các thành phần tri thức đa dạng, về phân loại như Tin học đại cương
Vì vậy, việc xem xét lựa chọn, thiết kế một phương pháp có thể biểu diễn được miền tri thức có sự đa dạng thành phần tri thức như tri thức Tin học đại cương và xem xét các lớp vấn đề cùng thuật giải tương ứng, để hướng tới thiết kế hệ thống, đáp ứng được chức năng tra cứu kiến thức theo phân loại của các thành phần tri thức là một vấn đề rất cần được quan tâm nghiên cứu đối với lĩnh vực Công nghệ tri thức nói riêng, ngành Trí tuệ nhân tạo nói chung Từ kết quả nghiên cứu đạt
Trang 5được, đề tài sẽ vận dụng và xây dựng hệ tri thức hỗ trợ học tập và tra
cứu kiến thức Tin học đại cương
2 MỤC TIÊU NGHIÊN CỨU
Đề xuất được mô hình biểu diễn tri thức phù hợp với phạm vi kiến thức học phần Tin học đại cương
Đề xuất được một số lớp vấn đề trên cơ sở tri thức, trên hệ thống và đưa ra được các thuật giải, giải quyết các vấn đề tương ứng
Dựa trên mô hình biểu diễn tri thức được đề xuất
Dựa trên cơ sở tri thức được thiết kế và các lớp vấn đề từ đó làm cơ sở xây dựng ứng dụng
3 ĐỐI TƯỢNG VÀ PHẠM VI NGHIÊN CỨU
Nghiên cứu một số phương pháp biểu diễn tri thức, phương pháp biểu diễn tri thức theo cách tiếp cận Ontology, ontology COKB, các lớp bài toán, các thuật giải suy luận trên máy tính, các thuật giải heuristics
4 PHƯƠNG PHÁP NGHIÊN CỨU
Đề tài này sử dụng phương pháp nghiên cứu lý thuyết kết hợp với xây dựng ứng dụng thực nghiệm:
Nghiên cứu, đánh giá, nhận xét và so sánh các phương pháp biểu diễn tri thức, các ontology COKB, các lớp bài toán, các phương pháp suy luận trên máy tính, các thuật giải heuristics
Nghiên cứu, đánh giá, nhận xét các công cụ hỗ trợ biểu diễn tri thức, xây dựng Ontology
5 Ý NGHĨA KHOA HỌC VÀ THỰC TIỄN CỦA ĐỀ TÀI
Việc học tập môn Tin học Đại cương hiện nay rất thuận tiện qua môi trường Internet, từ các bộ máy tìm kiếm (search engine) Tuy nhiên, các hệ thống này được xây dựng cho việc tìm kiếm thông tin đại trà, chưa tập trung riêng dành cho nhóm đối tượng đang theo học học phần Tin học Đại cương, vì vậy các nhóm chức năng, cùng các quy ước tìm kiếm chưa thật sự hỗ trợ tốt cho người học
6 CẤU TRÚC CỦA LUẬN VĂN
Chương 1: sẽ trong luận văn trình bày cách thức để mô hình hóa
cơ sở tri thức Tin học Đại cương qua việc thu thập, phân loại tri thức
Từ đó để có thể đề xuất ra mô hình KB_BI (knowledge base for basic
Trang 6informatic model) cho biểu diễn tri thức này Cùng với đó là cách thức biểu diễn, đặc tả và lưu trữ trên máy tính
Chương 2: sẽ đề cập đến lớp bài toán tìm kiếm Trong chương này luận văn cũng đề xuất xem xét hai lớp vấn đề tìm kiếm là tìm kiếm theo từ khóa và tìm kiếm theo một số mẫu câu quy ước đơn giản giúp
biểu diễn sâu hơn mong muốn của con người Từ đó, trong phần
chương này cũng đã đề xuất các thuật giải cho giải quyết các vấn đề trên các lớp bài toán này
Chương 3: bằng cách vận dụng các kết quả chương 1, 2 trong chương này hướng đến trình bày quá trình thiết kế hệ thống hỗ trợ học tập và tra cứu kiến thức Tin học Đại cương Quá trình xây dựng từ khâu khảo sát, phân tích và xác định các yêu cầu và phục vụ cho hai nhóm đối tượng chính là người học (sinh viên) và người dạy (giảng viên)
Kết Luận tổng kết lại các kết quả mà luận văn đã đạt được Bao gồm các kết quả về khoa học, các kết quả về ứng dụng Từ các kết quả
đó, trong phần này cũng sẽ đưa ra một số hạn chế và định hương phát triển của luận văn
Trang 7CHƯƠNG 1 MÔ HÌNH BIỂU DIỄN TRI THỨC
CHO THIẾT KẾ HỆ THỐNG HỖ TRỢ TRA CỨU
KIẾN THỨC TIN HỌC ĐẠI CƯƠNG 1.1 THU THẬP TRI THỨC VÀ PHÂN LOẠI
Quá trình thu thập tri thức được thu thập chủ yếu dựa trên 3 nguồn tài liệu tham khảo chính:
(1) Giáo trình Tin học văn phòng dành cho sinh viên Trường Đại học Bình Dương do Tổ tin học viện biên soạn, lưu hành nội bộ [8]
(2) Hoàng Kiếm, (1997), Giáo trình Tin học đại cương, Nhà xuất bản Giáo dục [15]
1.1.1 Quy trình thu thập cơ sở tri thức
Quy trình thu thập tri thức mà luận văn đã thực hiện:
(1) Chọn nguồn tài liệu tham khảo để thực hiện công đoạn thu thập
(2) Đọc và rút trích các nội dung chính
(3) Thực hiện quan sát trên bảng đã được rút trích
1.1.2 Phân loại cơ sở tri thức
Dựa trên hướng tiếp cận ontology cùng các tài liệu tham khảo
được đề cập và yêu cầu của hệ thống hỗ trợ học tập Tin học Đại cương,
luận văn đã thực hiện phân loại gồm các thành phần sau: Khái niệm
n ệ c đ i n ư ng n c cơ n i n ế ,
c c ương c
1.2 MÔ HÌNH HÓA CƠ SỞ TRI THỨC
1.2.1 Mô hình biểu diễn tri thức cho thiết kế phân hệ tìm kiếm và truy vấn kiến thức
Định nghĩa 1.1: Ta gọi mô hình “ontology cho biểu diễn tri thức
Tin học Đại cương”, viết tắt (Knowledge-Based Model for Basic
Informatics Domain) là một bộ gồm 5 thành phần:
(COKB_BI, TP_BI, KW_BI, T_BI, R_LINK)
Trong đó các thành phần được mô tả như sau:
1) Mô hình biểu diễn tri thức cho tri thức Tin học Đại cương COKB_BI
Mô hình cơ sở tri thức đối tượng tính toán cho biểu diễn tri thức Tin học Đại cương phục vụ cho việc tìm kiếm – truy vấn kiến thức,
viết tắt COKB_BI (Computational Objects Knowledge-Based Model
for Basic Informatics Domain) là mô hình được hiệu chỉnh và mở rộng
Trang 8từ mô hình tri thức COKB (Computational Objects Knowledge Base),
gồm có 5 thành phần:
(C, H, R, Excercies, Helps)
Trong đó:
Tập các khái niệm C
H: Tập quan IS_A giữa hai khái niệm
R: Tập quan hệ giữa các khái niệm, hoặc các đối tượng trong miền tri
thức
Helps: Tập hướng dẫn một số thao tác cơ bản
Exercise: là tập các bài tập trong miền tri thức
2) Thành Phần TP_BI
TP_BI là tập các chủ đề trong miền tri thức, mỗi chủ đề có cấu
trúc gồm 2 thành phần (topic_name, topic_content)
3) Thành phần KW_BI
Các từ khóa và thuật ngữ KW_BI (Keywords for Basic
Informatic Domain) với bộ 3 thành phần sau:
(KW, R KW , Labels)
Thành phần KW, là tập các từ khóa, thuật ngữ trong miền tri thức Tin
học Đại cương
R KW: tập các quan hệ giữa các từ khóa k (k KW)
Labels: tập nhãn (theo phân loại của tri thức COKB_BI) của k (k
KW)
Bài toán kiểm tra mối quan hệ tương đương ngữ nghĩa giữa hai từ khóa
Trên mô hình KW_BI, ta xét quan hệ “đồng nghĩa” giữa hai từ
khóa Dưới đây xin trích dẫn chi tiết lại định nghĩa về sự tương đương ngữ nghĩa giữa hai từ khóa
Trang 9end proc:
4) Thành phần T_BI
Ta gọi T_BI (Chapter Tree for Basic Informatics Domain) là cấu
trúc cây chương mục của miền tri thức Tin học Đại cương, cây T_BI
có cấu trúc gồm bộ 2 thành phần sau:
(N, RNN)
Trong đó:
N là tập các nút (node) trong cây chương mục
R NN tập quan hệ hai ngôi giữa các nút, trong phạm vi cây chương mục
Trong đó ta xét một số mối liên kết sau:
R 1 : Nhóm liên kết giữa các thành phần trong T_BI và KW_BI
R 2 : Nhóm liên kết giữa giữa T_BI và COKB_BI:
R 3 : Nhóm liên kết giữa các thành phần trong COKB_BI và TP_BI
R 4 : Nhóm liên kết giữa các thành phần trong COKB_BI
1.2.2 Đặc tả và tổ chức cơ sở tri thức
1.2.2.1 Các thành phần trong cơ sở tri thức
Cơ sở tri thức của hệ thống này gồm các thành phần sau:
Các thành phần trong cơ sở tri thức bao gồm 3 thành phần chính:
(1) Thành phần tri thức COKB_BI gồm các thành phần con như sau: (2) Thành phần tri thức KW_BI gồm các thành phần sau
Trang 10Hình 1.1 Hình kiến trúc cơ sở tri thức ô hình KB_BI
Trang 11CHƯƠNG 2 BÀI TOÁN TÌM KIẾM VÀ THUẬT GIẢI 2.1 BÀI TÌM KIẾM THEO TỪ KHÓA
2.1.1 Vấn đề hợp nhất ngữ nghĩa trên từ khóa
Địn ng ĩ 2.1: Cho miền tri thức Tin học Đại cương được biểu
diễn theo mô hình KB_BI (định nghĩa 1.1), ta có k1, k2 là hai từ khóa
(k1, k2 KW, KW KW_BI, KW_BI KB_BI), ta nói k1 và k2 là
hợp nhất (cùng nghĩa hoặc tương đương nghĩa), ký hiệu k1 ≈ k2, khi và
chỉ khi (k1, k2) = 1
2.1.2 Bài toán tìm kiếm theo từ khóa
Địn ng ĩ 2.2: Cho miền tri thức Tin học Đại cương K được
mô hình hóa theo mô hình KB_BI, ta gọi bài toán tìm kiếm trên miền
tri thức K có dạng keyword results Trong đó: keyword: từ khóa/thuật ngữ, results: là kết quả trả về của hệ thống theo phân loại tri thức mô hình COKB_BI, T_BI, gồm 2 phần (known, related_known), với known là kết quả trực tiếp được tìm thấy theo keyword,
related_known là kết quả có liên quan đến kết quả trực tiếp known
Thuật gi i 2.1
Ta có thể giải bài toán tìm kiếm từ khoá bởi thuật giải sau:
Input: keyword
Output: results // (known, r_known)
Bước 1: khởi tạo giá trị các biến
+ known := {};
+ related_keywords := {};
+ r_known := {};
Bước 2: Tìm nội dung chính theo từ khóa
Bư c 2.1: tìm trong tập khái niệm
Bư c 2.2: tìm trong tập quan hệ
Bước 2.3: Tìm trong tập hướng dẫn
Bước 2.4: Tìm trong tập bài tập
Bước 3: Tìm các khái niệm liên quan
Bước 4: Tìm nội dung liên quan
Bước 5: Xuất các kết quả trong tập known, r_known;
Trang 122.2 BÀI TOÁN TÌM KIẾM THEO QUY ƢỚC ĐẶC TẢ
Các quy ước đặc tả trong luận văn xem xét, cần phải đảm bảo được một số tiêu chí cơ bản để hỗ trợ tốt cho người sử dụng một cách thuận tiện như:
(1) Tính đơn gi n: ngôn ngữ truy vấn phải đảm bảo được sự đơn giản,
không khó diễn đạt, không nhập nhằn
(2) Tính phổ quát: ngôn ngữ phải dùng được trên các miền tri thức được
biểu diễn theo mô hình KB_BI
(3) Tín đầ đ : ngôn ngữ cho phép người sử dụng có thể thực hiện truy
vấn được nội dung, các loại thành phần, các mối liên kết và liên quan
giữa các thành phần trong cơ sở tri thức KB_BI
2.2.1 Quy ƣớc đặc tả
2.2.1.1 Mẫu câu loại 1
Ta có cấu trúc mẫu câu loại 1 như sau:
<Types> <Es>
Trong đó:
Types: là tập các từ khóa, mỗi từ khóa chỉ loại nội dung cụ thể, chẳng
hạng như: định nghĩa, bài tập, định lý, tính chất, công thức…vv
Es: là tập các từ khóa, mỗi từ khóa chỉ thể hiện của các thành phần trong COKB_BI T_BI;
3.2.1.2 Mẫu câu loại 2
Mẫu câu loại 2 có cấu trúc như sau:
KQL: là ngôn ngữ quy ước có cấu trúc theo mẫu loại 1, hoặc loại 2
results: là tập các kết quả trả về, với results = {result | result
COKB_BI T_BI}
Ta có thể xử lý và tìm kiếm theo câu truy vấn bởi hai thuật giải sau:
2.2.2.1 Thuật giải xử lý câu truy vấn loại 1
Thuật gi i 2.2:
Input: KQL = (<Types> <Es>)
Output: results
Trang 13for type in Types do
relation_list := get_rela_list(e, type);
for re in rela_list do
if p in par(re) then
Results := {p}; end if;
Trang 14CHƯƠNG 3 XÂY DỰNG ỨNG DỤNG HỖ TRỢ TRA CỨU
KIẾN THỨC TIN HỌC ĐẠI CƯƠNG 3.1 Khảo sát hiện trạng
Hiện nay cũng có nhiều website, phần mềm hỗ trợ học tập môn Tin học Đại cương, ta có thể chia làm các nhóm sau:
Nhóm hỗ trợ qua các công cụ tìm kiếm (search engine) như: google.com, bing.com, yahoo.com, ask.com, …vv hay Nhóm các website hoặc phần mềm hỗ trợ học tập Tin học Đại cương như:
violet.vn, tailieu.vn, hoc247.net, https://isinhvien.com, …vv Các website này hỗ trợ cung cấp các kiến thức về Tin học Đại cương dưới dạng các tập tin file (*.pdf | *.pptx, …), điều này rất khó khăn cho người học bởi vì phải đọc các file này trực tuyến hoặc tải về máy tính Các hệ thống này chưa hỗ trợ tập trung vào miền tri thức riêng cho Tin học Đại cương, chưa hỗ trợ tìm kiếm kiến thức nội dung theo miền tri thức này
Nhóm phần mềm rèn luyện kĩ năng sử dụng máy tính như: phần mềm hỗ trợ luyện đánh máy Typesy, KeyBlaze, Klavaro Touch Typing,
…vv Các phần mềm này chủ yếu hướng đến rèn kĩ năng đánh máy (typing) chứ chưa hỗ trợ cho việc tìm kiếm kiến thức, kiến thức liên qua trong Tin học Đại cương
3.2 Phân tích xác định yêu cầu
Qua quá trình phân tích và khảo sát yêu cầu và mục tiêu của hệ
thống, hệ thống hỗ trợ học Tin học Đại cương phải hỗ trợ được cho
người học (sinh viên) là những người đang trực tiếp học môn học và người quản trị nội dung tri thức gồm 2 đối tượng sau:
(1) Đối tượng là sinh viên đang theo học học phần Tin học Đại cương
Hỗ trợ người học là chức năng chính và quan trọng nhất của hệ thống, trong đó hệ thống cần phải hỗ trợ được các chức năngnhư:
Tìm kiếm theo từ khóa
Truy vấn kiến thức
(2) Đối tượng là người quản trị nội dung tri thức