Thông tin phục vụ cho tìm kiếm, phân loại và tổ chức tài liệu học điện tử trong các chuẩn này thường được mô tả bằng siêu dữ liệu không hỗ trợ nhiều cho biểu diễn ngữ nghĩa.. Ngữ cảnh họ
Trang 1ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
PHAN HỒ VIỆT PHƯƠNG
ỨNG DỤNG CÔNG NGHỆ WEB NGỮ NGHĨA
TRONG ĐÀO TẠO ĐIỆN TỬ
LUẬN VĂN THẠC SĨ
Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS Nguyễn Việt Hà
Trang 21.5.2 Tổ chức và đóng gói bài giảng 16
1.5.3 Môi trường SCORM 18
1.5.3.2 Application Programming Interface (API) 20
1.5.3.3 Mô hình dữ liệu RTE 21
Trang 32.5 Tiếp cận theo lớp 34
3.1.1 Xây dựng tài nguyên học điện tử 40
3.1.2 Khai thác tài nguyên học điện tử 43
3.2.1 Xác định các ontology 46
3.2.1.1 Ontology về cấu trúc 47
3.2.1.2 Ontology về khái niệm, chủ đề 50
3.2.1.3 Ontology về ngữ cảnh 52
3.2.2 Xây dựng, cập nhật ontology và chú thích ngữ nghĩa 55
Trang 4Danh mục các từ viết tắt
AI Artificial Intelligence
API Application Programming Interface
CAI Computer-Assisted Instruction
CBT Computer-Based training
CEI Computer-Enriched Instruction
CMI Computer-Managed Instruction
DAML DARPA Agent Markup Language
HTML Hypertext markup language
LMS Learning Management System
OIL Ontology Inference Layer
Ontology Interchange LanguageOWL Webb Ontology Language
RDF Resource Description Framework
RTE Run-Time Environment
SCO Sharable Content Object
SCORM Sharable Content Object Reference Model
W3C World Wide Web Consortium
WWW World Wide Web
XML Extensible Markup Language
Trang 5Mở đầu
Đào tạo điện tử (E-learrning) là một hình thức đào tạo mới rất được quan tâm
trong những năm gần đây Nghiên cứu, phát triển và ứng dụng các giải pháp mới trong
E-learrning nhằm nâng cao chất lượng đào tạo là công việc có ý nghĩa thiết thực
Trong thời gian đầu, các hệ thống E-learrning được xây dựng một cách tự do,
không đồng bộ, làm cho việc khai thác và chia sẻ tài nguyên là phức tạp và khó khăn
Để giải quyết vấn đề đó, các tổ chức như IEEE, IMS, ADL, AICC…[15, 16, 17, 18] đã
tham gia nghiên cứu và phát triển các chuẩn về E-learning Các chuẩn này được xây
dựng nhằm thống nhất cách thức biểu diễn tài nguyên và thống nhất cấu trúc môi
trường thực thi, tạo điều kiện thuận lợi cho trao đổi tài nguyên giữa các hệ thống
Bên cạnh những thành tựu đạt được, các chuẩn về E-learning hiện nay vẫn còn
một số hạn chế Thông tin phục vụ cho tìm kiếm, phân loại và tổ chức tài liệu học điện
tử trong các chuẩn này thường được mô tả bằng siêu dữ liệu không hỗ trợ nhiều cho
biểu diễn ngữ nghĩa Các nội dung học điện tử thường được quản lý theo từ khóa và có
khung cứng nhắc Do đó, việc sử dụng lại hay kết hợp các thành phần tài liệu học vẫn
còn mang tính thủ công và tồn nhiều công sức Hơn nữa, các hệ thống hiện tại vẫn
chưa hỗ trợ tự động xây dựng các nội dung học phù hợp với hoàn cảnh và nhu cầu học
tập của học viên như một số hệ thống đào tạo trên máy đã được xây dựng Một trong
những cách tiếp cận để giải quyết vấn đề trên là áp dụng công nghệ web ngữ nghĩa cho
quản lý và khai thác tài nguyên học điện tử [3, 9]
Web ngữ nghĩa (Semantic Web) là một cách tiếp cận mới trong việc quản lý
và khai thác tài nguyên trên mạng toàn cầu World Wide Web (WWW) Theo cách tiếp
cận này, tài nguyên được khai thác dựa trên các công nghệ web hiện đại hướng tới
dịch vụ thông tin web có thể được hiểu và sử dụng (hay sử dụng lại) bởi cả con người
và máy tính Bên cạnh các ngôn ngữ thông thường như XML và RDF, các ngôn ngữ
ontology được sử dụng trong siêu dữ liệu phục vụ đào tạo điện tử Công nghệ thông
minh như hệ chuyên gia, tác tử thông minh, cũng được sử dụng nhằm quản lý vào khai
thác nội dung dựa trên các biểu diễn ngữ nghĩa Đây là một cách tiếp cận mới, tương
đối phù hợp và cần có sự đầu tư nghiên cứu
Trang 6Chúng tôi xác định mục tiêu nghiên cứu của đề tài là ứng dụng công nghệ web
ngữ nghĩa trong quản lý và khai thác tài nguyên học điện tử, hướng tới một cơ chế tự
động tích hợp để xây dựng bài giảng điện tử có nội dung phù hợp với ngữ cảnh học tập
của học viên Ngữ cảnh học tập của học viên được hiểu là các đặc điểm và hoàn cảnh
cụ thể liên quan đến công tác đào tạo như độ tuổi, giới tính, dân tộc, sở thích cá nhân,
quá trình học tập, nhu cầu học tập hiện tại, mục tiêu học tập trong tương lai…
Mục đích của luận văn này là đề xuất mô hình xây dựng và khai thác tài
nguyên học điện tử dựa trên công nghệ web ngữ nghĩa; xây dựng một số ontology cơ
bản phục vụ cho biểu diễn nội dung đào tạo điện tử theo ngữ nghĩa; và khảo sát ứng
dụng truy vấn ngữ nghĩa cho chọn lựa và tích hợp các tài nguyên học điện tử phù hợp
với ngữ cảnh học tập của học viên
Các phần còn lại của luận văn được cấu trúc như sau:
Chương 1 trình bày một số hình thức đào tạo, ưu điểm và nhược điểm của các
hình thức đào tạo này; một số vấn đề về đào tạo điện tử (E-learning), một mô hình đào
tạo mới dựa trên cơ sở hạ tầng hiện đại, trong đó có môi trường mạng toàn cầu WWW;
và chuẩn SCORM, cơ sở mô tả tài nguyên học điện tử mà luận văn sử dụng
Chương 2 giới thiệu một số khái niệm về web ngữ nghĩa Đây là một môi
trường chung cho trao đổi thông tin bằng cách gắn liền biểu diễn tài liệu với xử lý ngữ
nghĩa trong môi trường WWW Công nghệ web ngữ nghĩa là các công nghệ liên quan
đến chuẩn, ngôn ngữ đánh dấu, các công cụ xử lý phục vụ cho xây dựng và khai thác
web ngữ nghĩa
Chương 3 trình bày về mô hình quản lý và khai thác tài nguyên học điện tử
theo cách tiếp cận web ngữ nghĩa và giải pháp cho biểu diễn ngữ nghĩa nội dung học
điện tử sử dụng công nghệ web ngữ nghĩa
Mô hình quản lý và khai thác tài nguyên học điện tử được đề xuất dựa trên ý
tưởng sử dụng kết hợp hệ chuyên gia trong các hệ thống quản lý đào tạo điện tử Hệ
chuyên gia được sử dụng có thể xây dựng theo các phương pháp khác nhau Tuy
nhiên, theo mô hình đề xuất, các hệ chuyên gia này có sử dụng tri thức được mô tả
Trang 7thác các ưu điểm của chuẩn đào tạo đã có, hệ quản lý đào tạo điện tử và các tài nguyên
học điện tử phải tuân theo chuẩn SCORM
Giải pháp cho biểu diễn ngữ nghĩa nội dung học điện tử bao gồm: ontology
mô tả cấu trúc các thành phần có trong gói bài giảng; ontology mô tả khái niệm, chủ
đề đào tạo và quan hệ giữa các khái niệm, chủ đề đó; ontology mô tả ngữ cảnh học tập
của học viên; và giải pháp về xây dựng, cập nhật cho các ontology này Ở bước đầu
phát triển, giải pháp về tự động xây dựng và cập nhật các ontology chỉ ở mức đơn giản
là phân tích và sử dụng các thông tin cơ sở có trong siêu dữ liệu của gói bài giảng điện
tử tuân theo chuẩn SCORM
Chương 4 trình bày một số kết quả khảo sát về tự động xây dựng chú thích
ngữ nghĩa theo mô hình đề xuất ở chương 2 và sử dụng truy vấn ngữ nghĩa cho lựa
chọn tài nguyên học theo ngữ cảnh
Kết quả khảo sát trên một số dữ liệu bài giảng điện tử cho thấy các ontology
sinh ra là tương đối đơn giản; và các truy vấn ngữ nghĩa cho kết quả là các nội dung
học tương đối phù hợp với nhu cầu học tập cụ thể, đặc biệt là trong trường hợp chọn
lựa tài liệu tham khảo hoặc bài tập luyện tập cho học viên
Cuối cùng là phần Kết luận gồm một số nhận xét về kết quả đạt được sau quá
trình thực hiện đề tài cùng với các đề xuất về hướng nghiên cứu tiếp theo
Trang 8Chương 1 Đào tạo điện tử (E-learning)
Đào tạo điện tử (E-learning) là một hình thức đào tạo mới, đánh dấu một bước
tiến quan trọng trong việc áp dụng khoa học công nghệ nhằm nâng cao chất lượng đào
tạo So với các mô hình đào tạo có trước như đào tạo theo phương pháp truyền thống
sử dụng môi trường lớp học tập trung và đào tạo dựa trên máy thì đào tạo điện tử linh
hoạt hơn về thời gian, địa điểm và phong phú hơn về hình thức truyền tải nội dung
Sau đây là phần trình bày về một số mô hình đào tạo cùng ưu nhược điểm của
những mô hình này, và một số nét chính về SCORM – một chuẩn đào tạo điện tử rất
được quan tâm hiện nay
1.1 Đào tạo theo phương pháp truyền thống
Trước đây, hầu hết công tác giảng dạy và học tập đều thông qua trường lớp và
hội thảo Sinh viên và học sinh thường đến lớp để tham gia học tập, và cán bộ công tác
tại các tổ chức, công ty thì thường tham gia các khóa đào tạo ngắn hạn hay các hội
thảo nhằm nâng cao trình độ chuyên môn Người học cũng như người giảng dạy muốn
thực hiện công tác đào tạo của mình thì đều phải cố định khoảng thời gian và địa điểm
Đây chính là hình thức đào tạo truyền thống mà con người đã quen thuộc từ lâu và cho
đến bây giờ vẫn rất phổ biến
Mặc dù hình thức đào tạo truyền thống có những ưu điểm được khẳng định
trong một thời gian dài nhưng nó cũng có những mặt hạn chế chưa khắc phục được
Một trong những hạn chế đó là không linh hoạt về mặt thời gian và không gian Khi
phần lớn thời gian có thể tham gia đào tạo của người học và người dạy không trùng
nhau thì hình thức đào tạo truyền thống lại trở nên bất tiện Không ít người có nhu cầu
nhưng không thể tham gia các khóa học khác nhau do thời gian diễn ra các khóa học ít
nhiều trùng nhau Những người đang công tác tại các tổ chức và công ty lại càng eo
hẹp hơn về thời gian và ít có cơ hội tiếp thu thêm kiến thức mà các khóa ngắn hạn hay
các hội thảo chuyên môn không thể mang lại Bên cạnh đó, không phải ai cũng có điều
kiện sống gần nơi có thể tham gia học tập Trong trường hợp muốn tổ chức các lớp
học hay các buổi hội thảo, các công ty hay tổ chức cũng thường phải tốn một khoảng
Trang 9Hơn nữa, khi thông tin ngày càng nhiều, đòi hỏi mọi người phải liên tục tiếp
thu kiến thức và thông tin mới nhằm đáp ứng cho công việc cũng như cho sinh hoạt
trong cộng đồng thì việc tổ chức dạy và học theo phương pháp truyền thống nhiều khi
trở nên tốn kém, không theo kịp với tốc độ phát triển của thông tin
1.2 Đào tạo trên máy
Đào tạo trên máy (Computer-based training – CBT là một hình thức đào tạo
mới trong đó học viên tiếp thu kiến thức bằng cách thực hiện các chương trình đào tạo
đặc biệt trên máy tính Chương trình đào tạo đó cung cấp phần lớn tác nhân kích thích
mà học viên phải đáp ứng, sau đó phân tích đáp ứng của học viên rồi trả lại phản hồi
cho học viên Đây là hình thức đào tạo hướng đến nhu cầu tự học của học viên
CBT có thể được phân thành ba loại:
Chương trình dạy học có trợ giúp của máy tính (Computer-Assisted
Instruction – CAI) là chương trình cung cấp bài tập và thực hành cho học
viên;
Chương trình dạy học quản lý nhờ máy tính (Computer-Managed
Instruction – CMI) là chương trình đánh giá sinh viên qua bài kiểm tra, chỉ
dẫn sinh viên sử dụng các tài liệu học khác và theo dõi quá trình học;
Chương trình dạy học nâng cao với máy tính (Computer-Enriched
Instruction – CEI) đóng vai trò làm thiết bị lập trình hay bộ mô phỏng phục
vụ cho việc học tập và thực hành của học viên
Một số chức năng chính của một chương trình CBT là:
Đánh giá trình độ học sinh trước khi học sinh bắt đầu tham gia học thật sự;
Trình diễn các tài liệu đào tạo cho học viên một cách linh hoạt Học viên có
thể chọn lựa các nội dung hiển thị phù hợp theo ý muốn;
Cung cấp các bài luyện tập lặp đi lặp lại nhằm nâng cao khả năng áp dụng
kiến thức của học viên;
Cung cấp các bài luyện tập dưới dạng trò chơi để nâng cao ham muốn học
tập của học viên;
Trang 10 Đánh giá tiến trình học tập của học viên bằng các bài kiểm tra cuối bài học;
Hướng học viên học tập qua một chuỗi các chương trình hướng dẫn;
Lưu trữ các hồ sơ về điểm số bài kiểm tra và quá trình học tập của học viên
để phục vụ cho việc hướng dẫn học tập phù hợp hơn
Ưu điểm
Trong môi trường CBT, nội dung học được truyền đạt thông qua các chương
trình máy tính Các nội dung học này có thể được ghi trên phương tiện lưu trữ thông
tin như đĩa CD-ROM và gửi đến người học qua đường bưu điện, hoặc có thể được trực
tiếp tải xuống từ môi trường mạng internet Do đó, người học có thể chủ động về mặt
thời gian và địa điểm Học viên sẽ không phải mất thêm chi phí cho việc đi lại và sinh
hoạt
Hơn nữa, học viên sẽ hoàn toàn chủ động về thời gian học Họ có thể thu xếp
thời gian học sao cho không làm ảnh hưởng đến những việc khác của mình Vì vậy
thời gian đào tạo có thể được rút ngắn hơn so với đào tạo theo phương pháp truyền
thống
Một ưu điểm khác của CBT là chương trình CBT cho phép người học có thể
tự theo dõi quá trình học của mình và chủ động lựa chọn các nội dung học phù hợp với
bản thân Học viên cũng có thể tùy ý học đi học lại một phần hoặc toàn bộ chương
trình cho đến khi nắm vững kiến thức mà chương trình cung cấp
Nhược điểm
Để thiết kế và xây dựng một chương trình học trên máy cần rất nhiều thời
gian, điều này không đáp ứng được yêu cầu học liên tục
Mặc dù học trên máy tiết kiệm được chi phí đi lại và sinh hoạt trong quá trình
học nhưng chi phí phải bỏ ra để xây dựng chương trình CBT phục vụ đào tạo là rất
lớn Chương trình CBT có thể được dùng lại nhiều lần nhưng nội dung cung đào tạo
lại phải cập nhật cho phù hợp hơn với sự phát triển của khoa học Do đó có thể phải
mất thêm chi phí cho việc nâng cấp hay xây dựng mới chương trình CBT
Trang 11Học trên máy, người học không được nhận trợ giúp trực tiếp khi có vướng
mắc vì chương trình CBT không có cơ chế hỏi đáp và nếu có thì thường chỉ cung cấp
một số các câu hỏi và câu trả lời cơ bản thường gặp Trong môi trường CBT, người
học thường bị cô lập và tự xử lý mọi tình huống, không có các hoạt động học nhóm
Theo cách tự học như vậy, rất khó có thể khẳng định được mức độ đảm bảo về chất
lượng đào tạo
Tuy nhiên, với những ưu điểm đã được đề cập, CBT thực sự là một bước tiến
trong việc đổi mới phương pháp đào tạo Đây là một sự lựa chọn mới cho người học,
góp phần nâng cao khả năng mở và linh hoạt cho công tác đào tạo Mặc dù vậy, từ các
nhược điểm của CBT những công nghệ đào tạo mới có cơ chế mở, giao tiếp được và
linh hoạt hơn cần phải được phát triển
1.3 Đào tạo điện tử (E-learning)
E-learning hay đào tạo điện tử là một khái niệm chung thường được sử dụng
để nói đến môi trường đào tạo trong đó máy tính và các thiết bị đa phương tiện hiện
đại được sử dụng nhằm nâng cao chất lượng học tập và giảng dạy Các tài nguyên sử
dụng trong môi trường đào tạo này có thể là các tài liệu giảng dạy dựa trên môi trường
web (web-based teaching materials), các đĩa CD-ROM đa phương tiện, các trang web,
thư điện tử, trang web cá nhân blog, chương trình cộng tác, chương trình mô phỏng, hệ
thống bỏ phiếu điện tử, hệ thống hội thảo từ xa, chương trình quản lý đào tạo, trò chơi
điện tử mang tính giáo dục, hoạt hình mang tính giáo dục… Các tài nguyên này có thể
được kết hợp sử dụng đưới nhiều hình thức nhằm mang lại hiệu quả đào tạo cao trong
môi trường công nghệ thông tin hiện đại
Tuy nhiên, trong khóa luận này khái niệm E-learning được hiểu trong phạm vi
hẹp hơn là mô hình đào tạo trong môi trường World Wide Web (WWW), trong đó đó
nội dung đào tạo được thể hiện bằng các nội dung đa phương tiện, các website và
chương trình trên máy tính
Trang 12 Đào tạo điện tử trong môi trường World Wide Web (WWW)
Đào tạo dựa trên web (Web-based training - WBT) là hình thức đào tạo có nội
dung học tập đa phương tiện, được truyền bá trên mạng WWW và được hiển thị bởi
các trình duyệt web
Với sự phát triển của WWW, các nội dung đa phương tiện, các website phục
vụ đào tạo ngày càng trở nên phổ biến Người dùng có thể truy cập, tìm kiếm thông tin
và kiến thức bất cứ lúc nào và bất cứ nơi đâu WWW đã trở thành một môi trường mở,
linh hoạt và có nhiều tiềm năng phục vụ cho đào tạo Tuy nhiên khó có thể áp dụng
một cách đơn thuần các mô hình đạo tạo trước trong môi trường này Ví dụ như kiến
trúc của WWW không phù hợp với nhiều chương trình CBT Lý do là nội dung của
chương trình CBT thường lưu trữ và xử dụng trên môi trường cục bộ, chương trình
CBT được lập trình bằng các ngôn ngữ riêng và xử lý bằng chương trình dịch riêng
tương ứng Chuyển từ khai thác tài nguyên cục bộ sang khai thác tài nguyên từ xa và
xây dựng ứng dụng có thể chạy được trên nhiều nền hệ điều hành khác nhau là công
việc rất phức tạp Do đó, cần phải có những cách tiếp cận khác cho việc tổ chức, quản
lý và hiển thị nội dung học tập cho học viên trong môi trường WWW
Hệ quản lý đào tạo điện tử - Learning Management System (LMS)
Mới đầu, các nội dung học tập trên WWW thường là các trang web có khung
cứng nhắc và bị bó buộc bởi môi trường và bối cảnh chung về công nghệ tại thời điểm
đó Người dùng thường phải tải các công cụ hỗ trợ (plug-in) để hiện thị nội dung Các
nội dung học thường rời rạc, quá trình học tập cũng không có sự quản lý thích hợp
Nhu cầu phát triển các hệ thống có khả năng quản lý và điều phối nội dung học tập
trên WWW trở nên thiết yếu Hệ quản lý đào tạo điện tử - Learning Management
System (LMS) ra đời nhằm đáp ứng nhu cầu này
LMS là cơ sở phục vụ cho đào tạo điện tử (E-Learning), gồm các thành phần:
tài liệu học điện tử, các phần mềm giúp quản lý, các phần mềm theo dõi quá trình học
Các thành phần phần mềm trong LMS có thể là chương trình trên máy tính, có thể là
các trang web có nội dung được xử lý bằng các dịch vụ phía máy chủ, có thể là các
thành phần hỗ trợ (plug-in) cho hiển thị nội dung phía máy khách
Trang 13LMS thường hỗ trợ và kết hợp dạy với học Các chức năng chính của LMS là:
phát triển khoá học, quản lý nội dung, quản lý khoá học, truyền tải khoá học, phân tích
đánh giá, liên lạc, theo dõi/báo cáo, hỗ trợ thực hành, diễn đàn giao lưu, giao diện cho
sinh viên, v.v
Mô hình tổng quát một hệ thống LMS được minh họa trong Hình 1.1 Các đối
tượng tham gia vào sử dụng LMS gồm có: người quản lý, giảng viên và học viên
Trong nhiều trường hợp, giảng viên cũng đóng vai trò là người quản lý, đặc biệt là khi
công tác quản lý đó liên quan trực tiếp đến xây dựng nội dung đào tạo hay truyền đạt
nội dung học tập cho học viên
Ý nghĩa của LMS với những đối tượng tham gia vào E-Learning:
Với người quản lý:
Có thể phục vụ nhiều sinh viên hơn
Theo dõi việc học của sinh viên tốt hơn
Tăng khả năng lưu giữ thông tin sinh viên
Thu về nhiều lợi nhuận hơn từ học phí
Tăng hiệu quả đồng thời giảm chi phí quản lý
Giảm thời gian quay vòng vốn
Với giảng viên:
Tăng hiệu quả quản lý khóa học/nội dung
Cải thiện khả năng đánh giá
Tăng thêm các cơ hội đánh giá
Giảm thời gian chuẩn bị cho khóa học
Cải tiến nội dung
Chia sẻ nội dung với các giảng viên, với các phương pháp dạy khác
nhau
Tăng cường liên lạc cả trong và ngoài lớp học
Tăng hiệu suất làm việc nói chung
Trang 14Hình 1.1 Mô hình hệ quản lý đào tạo (LMS)
Với học viên:
Tăng kiến thức
Được hỗ trợ kiến thức phù hợp và kịp thời
Được hỗ trợ từ các cá nhân (có thể là giáo viên hoặc các học viên khác)
Tăng khả năng/cơ hội hoàn thành khóa học
Cái thiện việc học nói chung
1.4 Chuẩn hóa đào tạo điện tử
Cùng với sự phát triển của E-learning, số lượng tài liệu ngày càng tăng với các
công cụ chế bản, công cụ truyển tải và quản lý nội dung ngày càng phong phú Vấn đề
đặt ra là cần phải có giải pháp để có thể khai thác tối đa các tài nguyên học điện tử có
thể có
Một trong những giải pháp cho vấn đề trên là xây dựng chuẩn về E-learning
Đây là chuẩn về tài liệu phục vụ đào tạo (educational document), về siêu dữ liệu
(meta-data), về đối tượng đào tạo (learning object), và về kiến trúc đào tạo (learning
architecture)
Kho nội dung Quản lý khóa
học
Theo dõi
API Thực thi
Quản lý nội dung
Sắp xếp thứ tự
Kiểm tra / Đánh giá
Thông tin
học viên
Truyền tải
Kho nội dung
Trình duyệt Gói nội
dung
Trang 15Các chuẩn về E-learning hướng tới việc tái sử dụng và thao tác giữa các thành
phần nội dung Trong đó, siêu dữ liệu thường được dùng để mô tả các cấu trúc và nội
dung Nhờ đó nội dung có thể được lưu giữ và quản lý một cách hiệu quả, đảm bảo
cho người dùng có thể tìm kiếm và sử dụng tài nguyên một cách thuận tiện Đồng thời,
để các hệ thống đào tạo khác nhau có thể trao đổi và sử dụng tài nguyên của nhau khi
cần thiết thì thành phần nội dung phải có khả năng kết hợp được với các tài nguyên
khác Do đó các thành phần nội dung phải được biểu diễn theo một chuẩn chung Nhờ
đó, các hệ thống khác nhau cũng có thể trao đổi và sử dụng tài nguyên của nhau khi
cần thiết
Ý nghĩa trực tiếp của chuẩn về E-learning đối với người sử dụng:
Nhà cung cấp hệ thống LMS: Việc tuân thủ các tiêu chuẩn mang lại uy tín
về chất lượng cho sản phẩm của họ Bằng cách mở rộng sản phẩm của mình
cho phép tương tác được với các công cụ khác, họ có thể tăng cường chức
năng cho sản phẩm của mình một cách hiệu quả
Giảng viên và người lập chính sách: Việc quản lý và phân phối có thể kết
hợp với nhau, công tác quản trị có thể tổ chức hợp lý hơn và giảm tổng chi
phí Nội dung/kiến trúc tuân theo các chuẩn sẽ có vòng đời dài hơn và giảm
chi phí một cách hiệu quả
Người phát triển nội dung và nhà sản xuất: Họ có được thị trường rộng hơn
khi một sản phẩm chỉ phải làm một lần nhưng sử dụng lại được nhiều lần
Tác giả và nhà cung cấp có thể gửi bài giảng của họ vào các kho nội dung
và những bài giảng này có thể dễ dàng truy xuất được
Học viên: Họ có thêm lựa chọn để hoàn thành mục tiêu học của mình Hệ
thống tuân theo các chuẩn giúp học viên không chỉ trông chờ vào một nhà
cung cấp Thay vì tham gia học theo một nơi duy nhất, với lịch học cứng
nhắc, việc học có thể thực hiện trong thời gian dài, tùy thuộc vào thời gian
chủ động của học viên, và phù hợp với trình độ với học viên
Trang 16Chúng ta đang ở giai đoạn phát triển từ các đặc tả tiến tới các tiêu chuẩn cho
E-Learning Quá trình phát triển từ đặc tả thành tiêu chuẩn đánh dấu thay đổi trong
nhận thức của cộng đồng Chuẩn cho E-learning đang dần được hoàn thiện và ngày
càng được chấp nhận rộng rãi hơn Người dùng bắt đầu tin tưởng vào các chuẩn và
nhìn thấy hiệu quả mang lại từ việc tuân thủ các chuẩn mới đưa ra Sự phát triển tiến
tới xây dựng chuẩn learning đánh dấu bước trưởng thành trong công nghệ
E-learning Một trong những thành tựu của quá trình phát triển E-learning là sự ra đời
của “Sharable Content Object Reference Model” (SCORM) Chuẩn SCORM đóng vai
trò quan trọng trong việc hướng tới một môi trường thống nhất về đào tạo điện tử, tạo
khả năng liên kết và chia sẻ giữa các hệ thống đào tạo điện tử khác nhau, nâng cao
hiệu quả khai thác tài nguyên học điện tử trong môi trường WWW
1.5 Chuẩn SCORM
Nhiều tổ chức đã cùng nhau làm việc để đưa ra những chuẩn mới trong công
nghệ phục vụ cho E-learning Các tổ chức lớn có thể kể đến như IMS, ADL, IEEE
Nhiều chuẩn mới đã ra đời và được công nhận như LOM, LP, CS, SS … [7]
SCORM (Sharable Content Object Reference Model) là một trong những
chuẩn phục vụ đào tạo được quan tâm nhất hiện nay SCORM là sự phát triển kế thừa
trên nhiều chuẩn khác nhau về biểu diễn tài liệu, xây dựng ứng dụng và triển khai hệ
thống phục vụ cho đào tạo Có thể nói SCORM đang đóng vai trò trung tâm trong quá
trình phát triển chuẩn về E-learning (Hình 1.2)
Hình 1.2 Quá trình phát triển chuẩn E-Learning
Trang 17Thừa kế thành quả từ những nghiên cứu đi trước, SCORM hướng tới việc đưa
ra một mô hình xây dựng và triển khai đào tạo từ xa qua việc xây dựng nội dung học
trong các hệ thống LMS SCORM tập trung vào giải quyết những vấn đề sau:
Thiết lập các đối tượng khả chuyển
Phát triển mô hình nội dung
Phát triển mô hình đánh giá
Xây dựng mô hình sắp xếp nội dung
Xây dựng kho dữ liệu tri thức
SCORM được phát triển qua nhiều phiên bản khác nhau Phiên bản mới nhất
hiện nay là “SCORM 2004 3rd
Edition” Tuy nhiên phiên bản được nhiều hệ thống hỗ trợ nhất là “SCORM 1.3” Phiên bản này cung cấp tương đối đầy đủ các mô tả về xây
dựng, tổ chức, khai thác và chia sẻ tài nguyên nội dung học điện tử cho E-learning
Các thành phần cơ bản cấu thành SCORM bao gồm chuẩn về gói nội dung
(content package), chuẩn mô tả các quan hệ sắp xếp, điều hướng (sequencing and
navigation) nội dung hiển thị cho người dùng, và chuẩn về môi trường thực thi
(SCORM Runtime-Environment)
Mô hình nội dung SCORM gồm có ba thành phần: Asset, SCO (Sharable
Content Object) và Tổ chức nội dung (Content Organization) Đây là các thành phần
được sử dụng để biểu diễn nội dung của những bài giảng đầy đủ và độc lập, có thể sử
dụng được trên các hệ thống LMS khác nhau tương thích SCORM
1.5.1.1 Asset
Asset là thành phần nhỏ nhất biểu diễn nội dung trong bài giảng theo chuẩn
SCORM Một Asset đơn giản chỉ là một tệp văn bản, một trang web tĩnh HTML hay
cũng có thể là các tệp dữ liệu đa phương tiện như âm thanh, video clip hoặc hình ảnh
động (animation picture) v.v (Hình 1.3)
Trang 18Hình 1.3 Ví dụ về Asset
1.5.1.2 SCO
SCO là tập hợp gồm một hay nhiều thành phần Asset (Hình 1.4) SCO có mối
liên kết với LMS thông qua môi trường thực thi tương thích SCORM (SCORM
Run-Time Environment – SCORM RTE) Đây chính là điểm khác biệt quan trọng giữa
SCO và Asset Để liên kết với LMS, SCO dùng các giao diện tuân theo chuẩn “IEEE
ECMAScript API” Còn LMS sử dụng mô hình dữ liệu RTE theo chuẩn SCORM
(RTE Data Model) để theo dõi trạng thái của SCO
Thông thường SCO phải có các phương thức định vị LMS bao gồm các
phương thức cơ bản như Initialize() và Terminate() để:
Các LMS có SCORM RTE có thể chạy SCO và theo dõi mà không cần biết
ai đã tạo ra chúng
Các LMS có SCORM RTE có thể theo dõi bất kỳ SCO nào và nhận biết khi
nào nó bắt đầu và khi nào kết thúc
Ngoài ra, các phương thức khác có hay không là phụ thuộc vào nội dung bài
giảng Với SCORM RTE của các LMS khác nhau, các phương thức có thể được cài
đặt khác nhau Tuy nhiên, nội dung SCO được xử lý hay hiển thị bởi một phương thức
phải thỏa mãn như đặc tả nhiệm vụ phương thức đó trong chuẩn SCORM
Asset
WAV Audio
Asset
MP3 Audio
Asset
JPEG Image
Asset
GIF Image
Asset
HTML
Asset
Web Page
Asset
XML Document
Asset
Flash Object
Asset
JavaScript Functions
Trang 19Hình 1.4 Ví dụ về SCO
SCO được xây dựng độc lập với khoá học nhằm tối ưu hoá khả năng tái sử
dụng Điều này có nghĩa là SCO có thể sử dụng nhiều lần cho nhiều mục đích học
khác nhau, cho nhiều hoạt động học khác nhau
SCORM không đặt ra bất cứ ràng buộc nào về kích thước của SCO Trong quá
trình thiết kế nội dung, việc định ra kích thước của SCO phụ thuộc vào mục đích và ý
đồ của người xây dựng bài giảng
1.5.1.3 Tổ chức nội dung
Tổ chức nội dung (Content Organization) là lược đồ biểu diễn cách sử dụng
nội dung qua các bài giảng có cấu trúc Một đơn vị bài giảng có cấu trúc còn được gọi
là một hoạt động động học hay ngắn gọn là hoạt động Lược đồ cho biết mối liên quan
giữa các hoạt động Hình 1.5 là một ví dụ về tổ chức nội dung
Hoạt động biểu diễn trong tổ chức nội dung có thể gồm nhiều hoạt động con
khác Không có giới hạn về số lượng các mức hoạt động (ví dụ như khóa học, chương,
học phần,…) Mỗi hoạt động đơn lẻ (hoạt động lá) có một thành phần SCO hoặc Asset
để thể hiện nội dung của hoạt động đó
Asset
WAV Audio
SCO phải khởi tạo để chạy
và hủy liên với LMS để kết thúc Các chức năng của SCO như sau:
Tìm API Instance của LMS Dùng API Instance để khởi tạo liên kết SCO với LMS Dùng API Instance để lấy hoặc đặt các giá trị Dùng API để hủy liên kết với LMS
Trang 20Hình 1.5 Tổ chức nội dung (Content Organization)
Mỗi một hoạt động trong tổ chức nội dung cũng có thể có các thành phần mô
tả các thuộc tính về sắp xếp và điều hướng của thành phần nội dung đó Sắp xếp và
điều hướng các hoạt động là một phần trong tổ chức nội dung được xác định thông qua
việc kết hợp thông tin sắp xếp trong tổ chức và kết hợp có điều kiện (hoặc không điều
kiện) các quan hệ giữa các hoạt động học LMS sẽ dựa vào thông tin sắp xếp và điều
hướng được mô tả trong tổ chức nội dung để thực hiện các thứ tự và kiểm soát thứ tự
thực sự của các tài nguyên học trong thời gian chạy
Siêu dữ liệu
Siêu dữ liệu trong SCORM dựa trên các siêu dữ liệu đề xuất bởi IEEE LTSC
LOM phục vụ cho mô tả các thành phần tổ chức nội dung, Asset, SCO và các vấn đề
về kết hợp nội dung một cách thống nhất và có ý nghĩa phục vụ cho tìm kiếm, sử dụng
tài nguyên trong kho nội dung Siêu dữ liệu SCORM gồm năm thành phần:
Kết hợp nội dung: Siêu dữ liệu mô tả cách kết hợp toàn bộ nội dung học và
các thông tin liên quan thành một gói nội dung hoàn chỉnh
Tổ chức nội dung: Đây là siêu dữ liệu mô tả Tổ chức nội dung, chứa các
thông tin về cấu trúc của nội dung giảng dạy Siêu dữ liệu Tổ chức nội dung
Resource (SCO)
Resource (SCO) Resource (Asset)
Resource (Asset)
Resource (Asset)
Resource (Asset)
Resource (Asset)
Kết hợp nội dung Item
Trang 21có thể tổ chức thành nhóm gọi là các Đa tổ chức nội dung (Organizations),
nhờ đó tăng khả năng tái sử dụng
Hoạt động: Đây là siêu dữ liệu mô tả Hoạt động Mục đích của việc sử dụng
siêu dữ liệu này là có thể truy xuất được tới các hoạt động trong kho nội
dung Siêu dữ liệu phải mô tả được toàn bộ hoạt động học theo dự định của
người xây dựng bài giảng
SCO: SCO siêu dữ liệu cung cấp thông tin về SCO, giúp cho thành phần này
có khả năng tái sử dụng và tìm kiếm được trong kho nội dung
Asset: Asset siêu dữ liệu dùng để cung cấp thông tin về Asset, giúp cho
thành phần này có khả năng tái sử dụng và tìm kiếm được trong kho nội
dung
Siêu dữ liệu trong chuẩn SCORM mang các thông tin mô tả đơn giản, không
hỗ trợ mô tả ngữ nghĩa (phục vụ cho suy diễn) như ontology trong công nghệ web ngữ
nghĩa (Semantic web) Tuy nhiên, với các thành phần siêu dữ liệu này, hầu hết các
thông tin về cấu trúc nội dung, tổ chức nội dung, thành phần nội dung, thông tin tra
cứu phục vụ cho đào tạo đều được mô tả một cách thống nhất và chặt chẽ, tạo nên cơ
chế mở giữa các hệ thống (tuân theo chuẩn)
Đóng gói nội dung bài giảng
Gói nội dung bài giảng là một thể thống nhất bao gồm các siêu dữ liệu, các tài
nguyên mô tả nội dung và tất cả các tài nguyên khác liên quan, được gói gọn trong một
đối tượng tài nguyên thường là tệp dữ liệu được nén Gói nội dung phải cung cấp mô
tả hoàn chỉnh về cấu trúc (hay tổ chức) và hoạt động của tập hợp các nội dung học
Gói nội dung được dùng để chuyển nội dung học đi giữa các LMS, công cụ và kho nội
dung
Mục đích của việc đóng gói là đưa ra chuẩn trao đổi nội dung giữa các hệ
thống, công cụ khác nhau Trong SCORM, IMS Content Packaging Specification là
thành phần mô tả đóng gói nội dung, cung cấp chuẩn đầu vào và đầu ra mà bất cứ hệ
thống nào cũng có thể hỗ trợ Chuẩn SCORM về đóng gói nội dung là các yêu cầu và
hướng dẫn hay mô tả thực hành theo đúng đặc tả đóng gói nội dung của IMS và cung
Trang 22cấp các yêu cầu rõ ràng và hướng dẫn thực hiện để đóng gói Asset, SCO, và Tổ chức
nội dung
Cơ chế kết hợp các thành phần nội dung là cơ chế xây dựng gói nội dung
(Content Package) theo chuẩn SCORM Có năm loại siêu dữ liệu có thể áp dụng trong
một gói nội dung:
Manifest: siêu dữ liệu ở mức liệt kê, tương thích với IEEE LTSC LOM
Siêu dữ liệu này không thuộc phạm vi đặc tả của chuẩn SCORM và không
thuộc các thành phần đã kể trên
Organization: siêu dữ liệu ở mức tổ chức mô tả toàn bộ Tổ chức nội dung
(cấu trúc nội dung) của một khóa học hay bài giảng Siêu dữ liệu đặt ở mức
tổ chức là siêu dữ liệu Tổ chức nội dung đã nói trên
Item: Siêu dữ liệu ở mức “item” mô tả cây phân cấp của các hoạt động theo
ngữ cảnh học tập Đây là siêu dữ liệu Hoạt động được nói ở trên
Resouce: Siêu dữ liệu ở mức tài nguyên chứa các thông tin mô tả SCO hay
Asset theo ngữ cảnh học tập Siêu dữ liệu này là SCO siêu dữ liệu hoặc
Asset siêu dữ liệu
File: siêu dữ liệu ở mức file mô tả Asset theo ngữ cảnh học tập Siêu dữ liệu
này là Asset siêu dữ liệu
Chuẩn SCORM cũng cung cấp mô tả về cơ chế thực thi các hoạt động đối với
đối tượng nội dung, mô tả về cơ chế kết nối giữa các đối với nội dung với LMS, và mô
hình dữ liệu để theo dõi kinh nghiệm của học viên với các đối tượng nội dung
Mục tiêu của SCORM là làm cho các đối tượng nội dung có khả năng tái sử
dụng và chạy được trên các LMS khác nhau nhưng tương thích chuẩn Do đó, cần có
một cách thức chung để chạy và quản lý đối tượng nội dung, một cơ chế chung để đối
tượng nội dung giao tiếp với LMS và một “ngôn ngữ” hay các từ vựng xác định cấu
thành cơ sở để giao tiếp
Trang 23Hình 1.6 Môi trường theo chuẩn SCORM (RTE)
1.5.3.1 Khởi chạy
Quá trình khởi chạy là quá trình xác định phương thức và đối tượng để LMS
chạy (thực thi) hay hiển thị đối tượng nội dung SCORM có hai kiểu đối tượng nội
dung là SCO và Asset
Đối với các kiểu đối tượng nội dung khác nhau các yêu cầu chạy là khác nhau
Đồng thời, các thủ tục và trách nhiệm để thiết lập liên lạc giữa đối tượng nội dung và
LMS trong quá trình khởi chạy cũng có thể khác nhau và tùy thuộc vào kiểu của đối
tượng nội dung
Tiến trình thực hiện các hoạt động học có thể là có thứ tự, không có thứ tự,
định hướng theo người dùng hay có khả năng thích ứng, phụ thuộc vào thông tin sắp
xếp và tương tác giữa người học và đối tượng nội dung
LMS cần quản lý thứ tự giữa các hoạt động học và ước lượng thông tin thứ tự
gắn với hoạt động, đồng thời phân tích các sự kiện điều hướng để lựa chọn đúng đối
tượng nội dung để chạy (thực thi) hay hiển thị Sau khi lựa chọn được đối tượng nội
dung tương ứng với hoạt động học cần thực hiện, LMS phải tải nội dung đó và thực
hiện hiển thị, thực thi nội dung theo phương thức phù hợp với kiểu đối tượng nội dung
Asset Asset
Asset ECMAScript
Trang 24Với kiểu đối tượng nội dung là Asset, chỉ cần LMS chạy Asset dùng giao thức
HTTP Asset không liên kết với LMS qua API và dữ liệu RTE
Với kiểu đối tượng nội dung là SCO, LMS chạy và theo dõi một SCO tại một
thời điểm (cho mỗi học viên) SCO có thể tự thực thi API Instance (gọi thủ tục API)
với SCO phụ thuộc nghĩa là khởi chạy và theo dõi SCO phụ thuộc LMS không quan
tâm tới các SCO này Trong trường hợp đó, SCO khởi chạy bởi LMS (SCO cha) phải
đóng mọi cửa sổ đã mở phục vụ cho SCO con trước khi SCO cha kết thúc phiên làm
việc với LMS LMS phải chạy SCO trong cửa sổ trình duyệt có tính phụ thuộc (cửa sổ
popup hay khung trình duyệt con trên cửa sổ LMS) để trình bày nội dung như một tài
liệu (Document Object Model – DOM) thông qua các API Instance do LMS cung cấp
1.5.3.2 Application Programming Interface (API)
API là công cụ hỗ trợ cho yêu cầu tái sử dụng, cung cấp phương thức chuẩn
cho giao tiếp giữa SCO và LMS Với API, người phát triển SCO không cần phải hiểu
quá trình thực thi liên kết diễn ra như thế nào Cách thức cài đặt API trong LMS không
nằm trong phạm vi của SCORM Người phát triển hệ thống có thể thực hiện việc kết
nối này theo bất cứ cách nào Có một số thuật ngữ sử dụng là API, API
Implementation và API Instance:
Hiểu đơn giản nhất, API chỉ là tập hợp các hàm hỗ trợ cho việc chạy SCO
API Implementation là một phần mềm chức năng có nhiệm vụ thực thi các
hàm trong API Người phát triển SCO không cần quan tâm đến API
Implementation hoạt động như thế nào vì API Implementation theo chuẩn
có giao diện giống nhau tuân theo chuẩn SCORM Mỗi LMS có thể cài đặt
API Implementation theo cách riêng nhưng tuân theo chuẩn
API Instance là một thể hiện việc gọi các hàm API để API Implementation
thực hiện API Instance thay thế cho phần mềm tương tác với SCO trong
quá trình chạy
Trang 25Hình 1.7 API, API Instance, API Implementation
1.5.3.3 Mô hình dữ liệu RTE
Mục đích xây dựng mô hình dữ liệu chung là để đảm bảo thông tin về SCO có
thể theo dõi được bởi các môi trường LMS khác nhau Ví dụ, điểm của học viên là yêu
cầu chung, do đó cần có cách báo điểm chung cho các môi trường LMS Trong trường
hợp SCO dùng một cách thể hiện điểm riêng, các hệ thống LMS có thể không lấy được
thông tin về điểm cũng như lưu trữ hay xử lý thông tin đó
Mô hình dữ liệu RTE dựa trên chuẩn P1484.11.1 – chuẩn về Mô hình dữ liệu
cho việc liên kết nội dung đưa ra bởi IEEE LTSC CMI P1484.11.1 xác định các thành
phần dữ liệu dùng để liên kết thông tin từ đối tượng nội dung (như SCO) tới LMS Các
dữ liệu này gồm có thông tin về học viên, tương tác học viên đã thực hiện với SCO,
thông tin về mục đích, trạng thái hoàn thành (đã hoàn thành hoặc chưa hoàn thành),
trạng thái thành công (đánh giá mức độ hiểu nội dung chứa trong SCO)
Mô hình dữ liệu chuẩn IEEE không đủ để đáp ứng các yêu cầu chuẩn SCORM
về tương tác và quan hệ giữa SCO với API Instance Vì thế, SCORM đã thêm một số
hướng dẫn kết nối và thực hiện cũng như các yêu cầu với chuẩn P1484.11.1 này
API Implementation
SCO
Initialize() Terminate() Getvalue() Setvalue() Commit() GetLastError() GetErrorString() GetDiagnostic()
API
API Instance
Trang 261.6 Tổng kết
Trên đây chúng tôi đã giới thiệu một số hình thức đào tạo cùng ưu điểm và
nhược điểm của các hình thức này, cụ thể:
Đào tạo theo hình thức truyền thống: là hình thức đào tạo gắn liền với
trường lớp, phù hợp với đào tạo tập trung, không linh hoạt về thời gian và
địa điểm
Đào tạo trên máy: là hình thức đào tạo sử dụng các chương trình máy tính,
hướng đến nhu cầu cá nhân, linh hoạt về thời gian và địa điểm nhưng
thường là môi trường cô lập
Đào tạo điện tử (E-learning): là hình thức đào tạo sử dụng môi trường mở
WWW, với nội dung đào tạo được thể hiện bằng các công nghệ đa phương
tiện, linh hoạt về thời gian và địa điểm Đây là hình thức đào tạo có nhiều
ưu điểm, cần được phát triển và ứng dụng trong thực tế
Đồng thời chúng tôi cũng giới thiệu một số khái niệm cơ bản về chuẩn
SCORM, một chuẩn E-learning rất được quan tâm hiện nay Các thành phần cơ bản
của SCORM là chuẩn về biểu diễn các thành phần nội dung, chuẩn về đóng gói bài
giảng và chuẩn về môi trường đào tạo điện tử Trong đó, thành phần nội dung cơ bản
nhất gồm có Asset và SCO Môi trường thực thi của SCORM được xây dựng dựa trên
sử dụng các API, và mô hình dữ liệu RTE
Trang 27Chương 2 Web ngữ nghĩa
World Wide Web (WWW), hay gọi đơn giản là Web, là một hệ thống các siêu
văn bản (hypertext document) được liên kết với nhau trong môi trường mạng Internet
thông qua các siêu liên kết (hyperlink) Nội dung trong các siêu văn bản hay các trang
web có thể là văn bản thuần túy (text), ảnh, hoặc các nội dung đa phương tiện khác
như âm thanh, phim ảnh… Với một trình duyệt web, người sử dụng có thể xem nội
dung trang web và di chuyển từ trang này đến trang khác một cách dễ dàng thông qua
siêu liên kết giữa chúng
WWW là một môi trường trao đổi và truyền bá thông tin giữa con người ở
phạm vi toàn cầu mang nhiều ưu điểm mà các hệ thống trước đây không mang lại [6]
Khác với thông tin lưu trữ bằng sách báo, trong môi trường WWW, thông tin được
biểu diễn dưới dạng số, xử lý bằng máy tính và được truyền bá trong môi trường mạng
máy tính với một vận tốc mà các không một phương pháp truyền bá nào trước kia
trong lịch sử như thư tín, điện tín hay điện thoại… có thể có
Tuy nhiên, với sự phát triển như vũ bão của WWW ngày nay thì quản lý và
tìm kiếm, khai thác thông tin theo phương pháp thông thường (bằng từ khóa) sẽ dần
không đáp ứng được nhu cầu sử dụng nữa Một số vấn đề nảy sinh trong tìm kiếm và
khai thác thông tin trên web là:
Mặc dù kết quả tìm kiếm trả lại cho yêu cầu của người dùng là một số lượng
lớn các siêu liên kết đến các tài nguyên web nhưng có thể phần lớn kết quả
đó lại không phù hợp với mong muốn của người dùng Ví dụ, sau khi thực
hiện tìm kiếm, người dùng thu được kết quả là 27524 siêu liên kết, trong đó
có 10 liên kết đến các trang web là phù hợp với mong muốn thật sự của
người dùng Tìm ra 10 liên kết phù hợp trong số 27524 liên kết cũng là một
công việc khó khăn đối với người sử dụng Như vậy việc tìm kiếm có nhiều
kết quả trả lại đôi khi cũng là một nhược điểm lớn
Dịch vụ tìm kiếm trả lại rất ít kết quả hoặc không có kết quả nào cho yêu
cầu tìm kiếm Nguyên do là có thể có nhiều tài nguyên web có nội dung liên
quan nhưng việc tìm kiếm không mang lại kết quả bởi từ khóa trong sử dụng
Trang 28cho tìm kiếm là không tìm thấy trong dữ liệu tìm kiếm Trường hợp này ít
sảy ra hơn trường hợp trên nhưng đây cũng là một vấn đề cần phải khắc
phục nhằm nâng cao hiệu quả tìm kiếm trên mạng
Một hiện tượng khác là các kết quả tìm kiếm bởi từ khóa cho kết quả không
như người dùng mong muốn Phần lớn nguyên do là các tài liệu liên quan có
thể mang các từ khóa mô tả khác với từ khóa trong câu truy vấn mặc dù có
nội dung về mặt ngữ nghĩa là phù hợp với nhu cầu người thực hiện tìm
kiếm Điều này dẫn đến một điều không hợp lý là các truy vấn tương tự
nhau về ngữ nghĩa lại có thể đem lại các kết quả rất khác nhau
Phạm vi tìm kiếm thường chỉ là các thông tin nằm trong các trang web đơn
Các quan hệ ngữ nghĩa, liên kết giữa các trang web không được biểu diễn
Do đó, trong trường hợp chúng ta cần thông tin gồm các phần nằm trên các
tài liệu khác nhau, chúng ta phải thực hiện lần lượt các câu truy vấn tìm
kiếm để thu thập các tài liệu liên quan rồi sau đó tự tổng hợp nội dung
Khi công việc tìm kiếm là thành công thì kết quả cũng chỉ là các liên kết đến
các trang web Người dùng phải sử dụng trình duyệt để xem và tự trích chọn
ra thông tin cần thiết có trong trang web đó Chưa có cơ chế tự động rút
trích thông tin từ các trang web cho người sử dụng
Các chương trình máy tính hay công cụ không phải trình duyệt khó có thể
sử dụng các kết quả tìm kiếm của các máy tìm kiếm (search engine) trên
web hiện nay Các công cụ tìm kiếm này thường là các thực thể cô lập
Nguyên nhân chính của những hạn chế và khó khăn được nói ở trên là máy
tính “không hiểu” được nội dung của các trang web Mặc dù đã có những công cụ cho
phép phân tích văn bản, kiểm tra chính tả, đếm từ… nhưng khả năng dịch nghĩa câu
văn, đúc kết nội dung, rút trích thông tin hữu ích cho người sử dụng vẫn còn hạn chế
Chưa có cơ chế phù hợp về mô tả ngữ nghĩa cho nội dung các trang web để máy tính
có thể xử lý, suy diễn và rút trích thông tin một cách thuận tiện
Trang 29Một cách tiếp cận mới nhằm giải quyết vấn đề này là biểu diễn nội dung trang
web sao cho máy tính có thể dễ dàng xử lý, và sử dụng các công nghệ thông minh để
khai thác ưu điểm của những biểu diễn đó Web ngữ nghĩa – Semantic web được xây
dựng dựa trên ý tưởng này
Web ngữ nghĩa – Semantic web là một dự án về xây dựng môi trường chung
cho trao đổi thông tin bằng cách gắn liền biểu diễn tài liệu với xử lý ngữ nghĩa trong
môi trường WWW Đây không phải là dự án xây dựng một môi trường trao đổi thông
tin toàn cầu song song và tách biệt với WWW [6] mà là một cố gắng mở rộng môi
trường Web dựa trên các chuẩn, ngôn ngữ đánh dấu (markup language) và các công cụ
xử lý liên quan Công nghệ liên quan đến chuẩn, ngôn ngữ đánh dấu, các công cụ xử lý
phục vụ cho việc xây dựng web ngữ nghĩa được gọi chung là công nghệ web ngữ
nghĩa
Người khởi xướng cho Web ngữ nghĩa là Tim Berners-Lee, hiện đang là người
đứng đầu của tổ chức World Wide Web Consortium (W3C) – tổ chức quốc tế về xây
dựng chuẩn cho Web, và cũng là người sáng lập ra Web
2.1 Siêu dữ liệu (Metadata)
Hiện tại, nội dung web chủ yếu được biểu diễn cho người đọc, không phải cho
chương trình xử lý Ngôn ngữ đánh dấu siêu văn bản HTML là ngôn ngữ chính dùng
để viết một trang web (một cách trực tiếp hoặc thông qua các công cụ) Một phần trang
web của một trung tâm tư vấn và thiết kế nhà cửa có thể được biểu diễn như sau:
<h1>Trung tâm tư vấn và thiết kế nhà cửa, nội thất ÁNH SÁNG</h1>
Chào mừng đến với trang web của Trung tâm tư vấn và thiết kế nhà cửa, nội thất ÁNH
SÁNG
Bạn hiện đang có kế hoạch xây nhà? Bạn đã có nhà nhưng đang băn khoăn về trang trí
nội thất? Hãy để chúng tôi san sẻ bớt nỗi lo lắng, băn khoăn của bạn Bạn sẽ cảm thấy
hài lòng vì tính chuyên nghiệp và khả năng sáng tạo của đội ngũ kiến trúc sư đông đảo
Trang 30Thứ sáu 11am - 3pm<p>
Không làm việc vào thời gian diễn ra <a href=”http://www.worldcup…”>World Cup
2006</a>
Đối với con người, những thông tin được biểu diễn theo cách trên là chấp nhận
được, nhưng đối với máy tính thì việc xử lý thông tin sẽ trở nên khó khăn Việc tìm
kiếm dựa trên từ khóa có thể thực hiện khi những từ như tư vấn, thiết kế nhà cửa, nội
thất được nhận ra dễ dàng bởi danh sách từ đã có Các tác tử (intelligent agent) thông
minh có thể nhận ra đối tượng người tham gia trong quảng cáo Nhưng những công cụ
này không phân biệt được các thông tin chi tiết khác như đối tượng nào là kiến trúc sư,
đối tượng nào là thư ký, và không nhận ra được World Cup 2006 là gì, thời gian đích
xác diễn ra World Cup 2006 ra sao Để biết được khoảng thời gian này, người dùng
phải truy cập vào web site được cho bởi liên có trong trang web href=”
http://www.worldcup…” để xem thông tin thêm
Theo cách tiếp cận web ngữ nghĩa, giải pháp cho vấn đề trên không phải là
phát triển các công cụ thông minh hơn mà là xây dựng các ngôn ngữ biểu diễn khác
HTML cho nội dung trang web Các ngôn ngữ này giúp cho máy tính nắm bắt và xử lý
nội dung một cách dễ dàng hơn Các thành phần được biểu diễn bằng loại ngôn ngữ đó
được gọi là siêu dữ liệu, hay còn gọi là dữ liệu về dữ liệu Đây là một khái niệm tương
đối quen thuộc đối với khoa học công nghệ thông tin Một ví dụ minh họa về mô tả nội
dung trang web bằng siêu dữ liệu:
<architect> Ngô Vĩnh Tiến</architect>
< architect> Hoàng Mạnh An</architect>
<secretary> Vũ Thúy Bình</secretary>
</staff>
</company>
Siêu dữ liệu chính là thành phần mô tả một số ngữ nghĩa của dữ liệu, đây
chính là khởi đầu của khái niệm ngữ nghĩa trong web ngữ nghĩa Nhờ siêu dữ liệu,
Trang 31những công việc phức tạp như rút trích thông tin trong văn bản, phân tích ngữ nghĩa,
xử lý ngôn ngữ tự nhiên đôi khi trở nên không cần thiết
Việc xây dựng siêu dữ liệu có thể được thực hiện trong quá trình làm nội dung
trang web Với sự phát triển hiện tại của công nghệ thông tin, người sử dụng không
cần phải là chuyên gia về khoa học máy tính thì mới có thể xây dựng trang web Người
sử dụng có thể dùng các công cụ hỗ trợ để vừa xây dựng nội dung, vừa xây dựng siêu
dữ liệu cho nó
Tuy nhiên, một câu hỏi đặt ra là tại sao nên từ bỏ HTML và thay vào đó là sử
dụng các ngôn ngữ siêu dữ liệu của web ngữ nghĩa Để có được câu trả lời thích đáng,
chúng ta có thể so sánh điều kiện hiện tại với sự khởi đầu của web Thực chất, việc xóa
bỏ sử dụng HTML một cách hoàn toàn là không chính xác Quá trình chuyển đổi sử
dụng sẽ phải dần dần được thực hiện Ví dụ, những người sử dụng HTML đầu tiên
quyết định dùng HTML có thể là vì nó được chuẩn hóa và họ mong rằng sẽ có được
những ưu thế do chuẩn mang lại Tiếp đến, ngày càng nhiều người hưởng ứng với môi
trường này vì có nhiều công cụ web HTML tốt hơn ra đời Và đến bây giờ HTML đã
trở thành một chuẩn được chấp nhận trên toàn thế giới
Tương tự như vậy, web ngữ nghĩa ngày càng được nhiều người quan tâm và
phát triển Một thành công ban đầu chúng ta có thể thấy rõ là sự thích ứng của người
dùng đối ngôn ngữ đánh dấu mở rộng XML và cơ cấu tổ chức mô tả tài nguyên RDF
Đây chính là các công cụ quan trọng đối với mô tả siêu dữ liệu
2.2 Ontology
Khái niệm ontology bắt nguồn từ triết học Ontology hay còn gọi là bản thể
học trong triết học là ngành khoa học nghiên cứu về sự tồn tại tự nhiên, một nhánh của
trường phái siêu hình liên quan đến việc xác định các loại thực thể thật sự tồn tại và
cách thức mô tả chúng Ví dụ, theo trường phái này, thế giới được tạo nên bởi các thực
thể xác định có thể nhóm lại thành các lớp trừu tượng dựa trên các thuộc tính chia sẻ
Đây là một nhận xét điển hình thể hiện cho cách nhìn nhận thế giới và cách phân tích
và mô tả thế giới theo quan điểm của bản thể học
Trang 32Tuy nhiên, trong những năm gần đây, ontology trở thành một khái niệm được
nói đến nhiều trong khoa học máy tính và có nghĩa tương đối khác so với nghĩa ban
đầu của nó Ontology được hiểu là một mô hình dữ liệu biểu diễn các khái niệm trong
một lĩnh vực cụ thể, được sử dụng để lập luận về những đối tượng cùng mối quan hệ
của chúng trong lĩnh vực đó
Thông thường, một ontology bao gồm một danh sách hữu hạn các khái niệm
và các quan hệ giữa những khái niệm này Mỗi khái niệm thể hiện cho một lớp các đối
tượng trong lĩnh vực cụ thể Ví dụ, các khái niệm quan trọng trong một trường đại học
là cán bộ, sinh viên, giáo viên, giảng đường, khóa học, môn học…
Mối quan hệ giữa các khái niệm thường là các quan hệ phân cấp thứ bậc của
các lớp Một quan hệ thứ bậc có thể là quan hệ cha con, một lớp A là lớp con của lớp
B nếu mọi đối tượng của A đều thuộc lớp B Ví dụ, mọi sinh viên đại học đều là học
viên Hình 2.1 mô tả một ví dụ về phân cấp thứ bậc các khái niệm liên quan đến
trường đại học
Hình 2.1 Quan hệ phân cấp thứ bậc
Người của trường đại học
Sinh viên đại học
Học viên cao học
Cán bộ chính
qui của khoa
Cán bộ nghiên cứu
Cán bộ hợp tác đào tạo
Trang 33Bên cạnh các quan hệ cha con của lớp, ontology cũng mô tả các quan hệ khác:
Thuộc tính (như giảng viên X giảng dạy học viên Y)
Ràng buộc giá trị (số tiết dạy tối đa là 150 tiết một học kỳ)
Quan hệ tách biệt (khoa và bộ phận hành chính khác của trường là tách biệt)
Các quan hệ lôgíc khác giữa các đối tượng (mọi khoa có ít nhất 3 bộ môn)
Đối với web, ontology phục vụ cho việc chia sẻ hiểu biết về các lĩnh vực
Những chia sẻ này là cần thiết để khắc phục các khó khăn khi sử dụng các thuật ngữ
khác nhau trong trang web để nói về cùng một khái niệm Ví dụ như trang web mô tả
“car” và trang web mô tả “ô tô” thường có thành phần thông tin giống nhau vì cùng
mô tả về một loại đối tượng Bằng cách cùng ánh xạ “car” và “ô tô” đến cùng một
ontology chia sẻ, ngữ nghĩa của các thành phần thông tin trong hai trang web sẽ nhất
quán hơn
Một vấn đề khác là các trang web khác nhau có thể dùng thuật ngữ với những
nghĩa khác nhau Ví dụ như trường đại học A có thể dùng từ “khóa học” để chỉ một
hoạt động học lấy chứng chỉ, nhưng trường đại học B có thể dùng từ đó để chỉ một
đơn vị môn học Như vậy, việc khai thác thông tin sẽ bị hạn chế vì nghĩa của từ khóa
là nhập nhằng Khó khăn này có thể giải quyết bằng cách ánh xạ thuật ngữ cụ thể đến
một ontology chia sẻ hoặc dịnh nghĩa trực tiếp các ánh xạ giữa các ontology Như vậy,
các thuật ngữ sẽ đi cùng với các khái niệm cụ thể trong một ontology chia sẻ Bằng
cách này, các ontology có khả năng liên kết các thao tác ngữ nghĩa
Ontology được sử dụng cho việc tổ chức và điều hướng giữa các trang web
Rất nhiều trang web hiện nay hiển thị cây phân cấp các mức khái niệm ở phía bên
phải Người dùng có thể nhấp chuột để chọn hiển thị nội dung theo các khái niệm đó
Ontology cũng được sử dụng để nâng cao mức độ chính xác của việc tìm kiếm
trên web Các máy tìm kiếm (search engine) có thể tìm đến các trang đề cập đến một
khái niệm trong ontology thay vì tìm tất cả các trang mà từ khóa liên quan xuất hiện
với ý nghĩa không rõ ràng Theo cách này, các khó khăn trong việc tìm kiếm do các
trang web hay câu truy vấn sử dụng các thuật ngữ khác nhau cho cùng một khái niệm
sẽ được khắc phục
Trang 34Bên cạnh đó, các tìm kiếm trên web cũng có thể khai thác các thông tin mang
tính tổng quát hóa hay cụ thể hóa Nếu câu truy vấn không cho kết quả, máy tìm kiếm
có thể gợi ý cho người sử dụng câu truy vấn tổng quát hơn Thậm chí có thể tự động
thực hiện câu truy vấn tổng quát và sẽ hiển thị nếu người dùng thông qua lời đề nghị
Trong trường hợp truy vấn cho rất nhiều kết quả, máy tìm kiếm có thể đề nghị người
sử dụng các câu truy vấn cụ thể hóa nhằm thu hẹp phạm vi tìm kiếm
Trong trí tuệ nhân tạo (Artificial Intelligence – AI), các ngôn ngữ cho
ontology đã được phát triển và sử dụng trong một thời gian dài Đây chính là nền tảng
cho nghiên cứu phục vụ cho web ngữ nghĩa Ở thời điểm hiện tại, các ngôn ngữ mô tả
ontology quan trọng cho web gồm có:
XML cung cấp các cú pháp cơ bản cho việc mô tả tài liệu một cách có cấu
trúc, nhưng không áp đặt các ràng buộc ngữ nghĩa lên các biểu diễn này
XML Schema – lược dồ XML là ngôn ngữ cho phép ràng buộc cấu trúc của
tài liệu mô tả bằng XML
RDF là một mô hình dữ liệu mô tả các đối tượng (tài nguyên) và mối quan
hệ giữa chúng; Ngôn ngữ này biểu diễn các ngữ nghĩa cơ bản giữa các đối
tượng và được xây dựng dựa trên cú pháp XML
RDF Schema – lược đồ RDF, là một ngôn ngữ mô tả từ vựng cho phép mô
tả các thuộc tính và các lớp đối tượng tài nguyên trong RDF Các mô tả này
có thể là các quan hệ phân cấp tổng quát, cụ thể của các thuộc tính, các lớp
OWL (Web Ontology Language) là một ngôn ngữ mô tả từ vựng phức tạp
hơn cho phép mô tả các thuộc tính và các lớp, các quan hệ giữa các lớp, các
ràng buộc số lượng, các thuộc tính đa dạng, các đặc trưng của thuộc tính và
các lớp liệt kê…
2.3 Lôgíc
Lôgíc là một ngành cơ bản nghiên cứu về nguyên lý của suy luận Trước tiên,
lôgíc cung cấp ngôn ngữ hình thức cho phép biểu diễn tri thức Qua đó, lôgíc cũng
cung chấp cho chúng ta ngữ nghĩa hình thức Từ đó, các tri thức gián tiếp có thể được
suy diễn từ những tri thức trực tiếp mô tả bằng ngôn ngữ hình thức cho bởi lôgíc Quá
Trang 35trình suy luận này được thực hiện bởi các máy suy luận hay mô tơ suy luận (inference
engine), một khái niệm quen thuộc trong AI
Một ví dụ về suy diễn là: giả sử chúng ta biết rằng tất cả các giáo sư đều là cán
bộ giảng dạy của khoa, tất cả cán bộ giảng dạy của khoa đều là cán bộ của trường, và
Toàn là một giáo sư Trong logic vị từ, những thông tin này có thể được biểu diễn như
Tri thức biểu diễn trong ví dụ trên là thường thấy trong các ontology Do đó,
logic có thể được sử dụng để khám phá tri thức ẩn chứa trong các ontology Bằng cách
đó, các mối quan hệ không tường minh và các mâu thuẫn trong ontology có thể được
phát hiện
Tuy nhiên, logic là tổng quát hơn ontology Nó có thể được các tác tử thông
minh sử dụng để ra các quyết định hay chọn lựa các hành động Ví dụ, một tác tử mua
bán (shop agent) có thể quyết định giảm giá cho một khách hàng dựa trên luật
khach_hang_quen (X) giam_gia(5%),
trong đó khái niệm khách hàng quen (khach_hang_quen) sẽ được quyết định bởi các
thông tin được lưu trữ trong cơ sở dữ liệu của cửa hàng
Thông thường, giữa sức mạnh biểu diễn và hiệu quả tính toán có một sự thỏa
hiệp: sức biểu diễn càng cao thì công việc tính toán để đưa ra kết luận càng phức tạp
Tuy nhiên, hầu hết các tri thức liên quan đến web ngữ nghĩa thường bị giới hạn, thuộc
dạng đơn giản, thường là dạng “Nếu điều kiện, Thì kết quả”; và các số lượng đối
tượng được quan tâm sử dụng trong quá trình suy luận cũng thường là có giới hạn Do
đó, các logic trong web ngữ nghĩa là dễ kiểm soát hơn và được hỗ trợ bởi nhiều công
Trang 36Một ưu điểm quan trọng của logic là nó cung cấp các giải thích cho kết luận
đưa ra: một chuỗi các bước suy diễn có thể ghi lại trong quá trình lập luận đưa ra kết
quả Không những vậy, Những nghiên cứu về trí tuệ nhân tạo đã phát triển cách biểu
diễn các giải thích gần gũi với con người hơn bằng cách tổ chức các chứng minh như
là một suy diễn tự nhiên, và bằng cách nhóm các bước suy luận nhỏ thành các bước
suy luận khái quát hơn mà con người vẫn có thể nhận thức được Tóm lại, một giải
thích có thể được xây dựng bằng cách lưu vết các câu trả lời cho một tập các sự kiện
cho trước và lưu vết các luật được sử dụng trong suy diễn
Các giải thích cho kết quả suy luận là yếu tố quan trọng trong web ngữ nghĩa
vì chúng làm tăng sự tin cậy của người dùng vào các tác tử trong môi trường web ngữ
nghĩa Các giải thích cũng cần thiết cho các tác tử thực hiện giao tiếp Một số tác tử có
khả năng suy luận để đưa ra kết quả, trong khi các tác tử khác chỉ có khả năng kiểm tra
các bằng chứng nhằm khẳng định mức độ tin cậy và tính đúng đắn của thông tin trao
đổi Ví dụ, tác tử thứ nhất đại diện cho cửa hàng điện tử, gửi một thông điệp “Anh còn
nợ 70.000 VND” đến tác tử thứ hai đại diện cho người mua hàng Thông điệp này
được mô tả bằng ngôn ngữ hình thức sao cho máy có thể xử lý được Tác tử thứ hai sẽ
yêu cầu giải thích cho thông điệp đó; tác tử thứ nhất phải phản hồi lại thông tin là một
chuỗi các ghi nhận về biểu mẫu mua hàng đã thực hiện:
Biểu mẫu ghi nhận việc mua hàng với giá cả 70.000 VNĐ,
Biểu mẫu ghi nhận việc giao hàng hoàn tất,
Các luật mô tả các khái niệm và điều kiện mua bán của cửa hàng:
purchase(X, Item) ∧ price(Item, Price) ∧ delivered(Item,X) owes(X, Price)
Theo cách này, các luật có thể được mô tả bằng các ontology về thương mại
hay chính sách của cửa hàng, và được chia sẻ giữa các hệ thống khác nhau Đồng thời,
các sự kiện sẽ được lưu vết khi chuyển giao dữ liệu giữa các hệ thống và có thể kiểm
tra được tính tin cậy của dữ liệu thông qua các công cụ (công cụ được sử dụng có thể
là các tác tử) và các luật được chia sẻ
Để logic trở nên có ích với web, nó phải sử dụng được trong mối liên kết với
các dữ liệu khác, và phải được biểu diễn sao cho máy tính có thể dễ dàng nắm bắt và
Trang 37xử lý Do đó, biểu diễn tri thức logic và chứng minh trong ngôn ngữ web đang là
hướng nghiên cứu rất được quan tâm hiện nay
Ở thời gian đầu, các cách tiếp cận chấp nhận được là biểu diễn được mô tả
bằng XML Nhưng trong tương lai, các luật và chứng minh sẽ cần phải được biểu diễn
ở mức cao hơn như RDF hay các ngôn ngữ ontology, ví dụ như DAML+OIL hay
OWL
2.4 Tác tử (Agent)
Trong khoa học máy tính, tác tử là một đối tượng trừu tượng, là một mô hình
mô tả một phần mềm hoạt động với vai trò như là một người dùng hay một chương
trình trung gian trong mối quan hệ tương tác giữa các tổ chức, hệ thống khác nhau
Theo một cách hiểu khác, tác tử là một đối tượng phần mềm (hoặc là một phần của hệ
thống phần mềm) hoạt động tiên phong một cách tự động và tương đối độc lập Đây là
một khái niệm quen thuộc trong lập trình hướng đối tượng và phát triển phần mềm
hướng thành phần
Một tác tử người sử dụng trong môi trường web có thể nhận nhiệm vụ và sở
thích từ người dùng, tìm kiếm thông tin trong môi trường tài nguyên của web, giao
tiếp với các tác tử khác, so sánh thông tin, lựa chọn và trả lời kết quả cho người dùng
Tác tử không thay thế con người trong môi trường web ngữ nghĩa, và không
nhất thiết phải đưa ra các quyết định một cách độc lập Trong nhiều trường hợp, tác tử
chỉ đóng vai trò thu thập và tổ chức thông tin, biểu diễn các lựa chọn cho người sử
dụng có thể dễ dàng khai thác và làm việc trong môi trường web
Các công nghệ web ngữ nghĩa được sử dụng bởi tác tử có thể là:
Siêu dữ liệu: được sử dụng để xác định và trích chọn thông tin từ các tài
nguyên web,
Ontology: được sử dụng để hỗ trợ việc tìm kiếm trên web, giải thích ngữ
nghĩa các thông tin thu được, và giao tiếp với các tác tử khác,
Logic: được sử dụng để xử lý các thông tin thu nhận nhằm đưa ra các kết
quả theo nhu cầu người sử dụng
Trang 38Hình 2.2 Tác tử người sử dụng thông minh
Trong tương lai, ngôn ngữ giao tiếp giữa các tác tử có thể thay đổi, đồng thời
vai trò của tác tử và cách thức tác tử hoạt động có thể thay đổi phù hợp với công nghệ
mới
2.5 Tiếp cận theo lớp
Quá trình phát triển web ngữ nghĩa được thực hiện theo các bước, mỗi bước
xây dựng một lớp trên nền của lớp khác Việc xây dựng nền tảng và thích ứng với nền
tảng đó sẽ dễ dàng hơn đối với các bước nhỏ Sẽ rất khó khăn nếu tất cả mọi thứ đều
được đưa ra và cố gắng thực hiện cùng một lúc
Thông thường, một số nhóm nghiên cứu sẽ theo đuổi các hướng khác nhau
cho cùng một vấn đề cần giải quyết Yêu cầu đặt ra là xác định được hướng tiếp cận
phù hợp nhất Tương tự, mặc dù có thể có nhiều giải pháp đề xuất cho cùng một vấn
đề, nhưng xét về mặt kỹ nghệ, tất cả đều cần phải được chuẩn hóa và đi đến thống nhất
chung về giải pháp Khi hầu hết các nhóm nghiên cứu đều nhất trí về một kết quả nào
đó và không đồng tình với những kết quả còn lại, sự thống nhất về giải pháp cho vấn
đề chung sẽ được thiết lập, hay nói cách khác là chuẩn cho giải pháp sẽ hình thành
Khi một chuẩn được ban hành, nhiều tổ chức và công ty sẽ thích ứng với nó
thay vì chờ đợi kết quả thành công của một hướng nghiên cứu khác Sức sống của web
Người sử dụng
Biểu diễn
trên trình
duyệt web
Máy tìm kiếm
Tài liệu WWW
Người sử dụng
Biểu diễn trên trình duyệt web
Máy tìm kiếm
Tài liệu WWW
Trang 39ngữ nghĩa chính là sự tham gia của các tổ chức, công ty và những cá nhân sử dụng Tự
họ xây dựng công cụ, nội dung và sử dụng chúng Chúng ta không thể đợi cho đến khi
tất cả những viễn cảnh về web ngữ nghĩa được thực hiện đầy đủ rồi mới khai thác nó
Một cách tiếp cận cho xây dựng nền tảng web ngữ nghĩa là xây dựng theo lớp
Hình 2.3 minh họa phác thảo về ý tưởng xây dựng các lớp cơ bản cho web ngữ nghĩa
do Tim Berners Lee đề xuất Một số đặc điểm về các lớp cở bản trong mô hình xây
dựng web ngữ nghĩa là:
Ở lớp thấp nhất, XML đóng vai trò là ngôn ngữ cho phép biểu diễn các tài liệu
web có cấu trúc với các từ vựng được người dùng tự định nghĩa XML phù hợp cho
việc mô tả dữ liệu trao đổi trên web
RDF là mô hình dữ liệu cơ sở, giống như mô hình quan hệ thực thể, cho phép
mô tả một cách đơn giản các đối tượng web (tài nguyên web) Mô hình dữ liệu RDF
không phụ thuộc vào XML nhưng có cú pháp dựa trên XML Do đó, trong Hình 2.3,
lớp RDF nằm trên lớp XML RDF Schema (lược đồ RDF) mô tả cấu trúc của việc mô
hình hóa dữ liệu về các đối tượng thành các phân cấp theo mức Các cấu trúc phục vụ
mô hình hóa là các lớp, thuộc tính, lớp con, quan hệ thuộc tính con, và các ràng buộc
về phạm vi, lĩnh vực RDF Schema được xây dựng dựa trên RDF RDF Schema có thể
được xem như là ngôn ngữ gốc được sử dụng để mô tả các ontology Tuy nhiên vẫn
cần phải có một ngôn ngữ ontology (ontology language) mạnh hơn, có khả năng biểu
diễn các mối quan hệ phức tạp hơn giữa các đối tượng trong web
Lớp ontology vocabulary là các công cụ “từ vựng” sử dụng cho mô tả
ontology Các “từ vựng” này được biểu diễn dựa trên XML và RDF
Lớp logic được sử dụng để hỗ trợ ngôn ngữ ontology, cho phép mô tả các tri
thức khai báo dành cho các ứng dụng cụ thể
Lớp kiểm chứng (proof layer) bao gồm các tiến trình diễn dịch, các biểu diễn
mô tả diễn giải trên ngôn ngữ web từ các lớp thấp hơn và các kiểm chứng các diễn giải
này
Cuối cùng, lớp tin cậy (trust layer) được xây dựng dựa trên việc sử dụng chữ
Trang 40thức khác phục vụ cho việc đảm bảo tin cậy cho người sử dụng web Thực tế, web chỉ
có thể phát huy được toàn bộ sức mạnh chỉ khi người dùng thật sự tin cậy vào những
thông tin và dịch vụ mà nó mang lại
Trong quá trình xây dựng web ngữ nghĩa theo các lớp, có hai vấn đề cần được
đảm bảo:
Tương thích với cái có trước (downward compatibility): các tác tử quen với
một lớp phải có khả năng hiểu và sử dụng được các thông tin được viết ở
mức thấp hơn Ví dụ tác tử trong môi trường ngữ nghĩa của OWL phải nắm
bắt được các thông tin được mô tả bằng RDF và lược đồ RDF
Tương thích với cái có sau (upward compatibility): mặt khác, tác tử quen
với một lớp phải có khả năng khai thác một phần ưu điểm của thông tin mô
tả ở mức cao hơn Ví dụ, một tác tử chỉ thao tác được với ngữ nghĩa mô tả
bằng RDF và lược đồ RDF vẫn phải có khả năng hiểu được một phần thông
tin mô tả bằng OWL (các thành phần được mô tả trong khuôn khổ RDF và
lược đồ RDF)
Hình 2.3 Cách tiếp cận theo lớp trong web ngữ nghĩa