(LUẬN VĂN THẠC SĨ) Ứng dụng công nghệ Web ngữ nghĩa trong đào tạo điện tử

Thông tin phục vụ cho tìm kiếm, phân loại và tổ chức tài liệu học điện tử trong các chuẩn này thường được mô tả bằng siêu dữ liệu không hỗ trợ nhiều cho biểu diễn ngữ nghĩa.. Ngữ cảnh họ

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

PHAN HỒ VIỆT PHƯƠNG

ỨNG DỤNG CÔNG NGHỆ WEB NGỮ NGHĨA

TRONG ĐÀO TẠO ĐIỆN TỬ

LUẬN VĂN THẠC SĨ

Ngành: Công nghệ thông tin Cán bộ hướng dẫn: TS Nguyễn Việt Hà

Trang 2

1.5.2 Tổ chức và đóng gói bài giảng 16

1.5.3 Môi trường SCORM 18

1.5.3.2 Application Programming Interface (API) 20

1.5.3.3 Mô hình dữ liệu RTE 21

Trang 3

2.5 Tiếp cận theo lớp 34

3.1.1 Xây dựng tài nguyên học điện tử 40

3.1.2 Khai thác tài nguyên học điện tử 43

3.2.1 Xác định các ontology 46

3.2.1.1 Ontology về cấu trúc 47

3.2.1.2 Ontology về khái niệm, chủ đề 50

3.2.1.3 Ontology về ngữ cảnh 52

3.2.2 Xây dựng, cập nhật ontology và chú thích ngữ nghĩa 55

Trang 4

Danh mục các từ viết tắt

AI Artificial Intelligence

API Application Programming Interface

CAI Computer-Assisted Instruction

CBT Computer-Based training

CEI Computer-Enriched Instruction

CMI Computer-Managed Instruction

DAML DARPA Agent Markup Language

HTML Hypertext markup language

LMS Learning Management System

OIL Ontology Inference Layer

Ontology Interchange LanguageOWL Webb Ontology Language

RDF Resource Description Framework

RTE Run-Time Environment

SCO Sharable Content Object

SCORM Sharable Content Object Reference Model

W3C World Wide Web Consortium

WWW World Wide Web

XML Extensible Markup Language

Trang 5

Mở đầu

Đào tạo điện tử (E-learrning) là một hình thức đào tạo mới rất được quan tâm

trong những năm gần đây Nghiên cứu, phát triển và ứng dụng các giải pháp mới trong

E-learrning nhằm nâng cao chất lượng đào tạo là công việc có ý nghĩa thiết thực

Trong thời gian đầu, các hệ thống E-learrning được xây dựng một cách tự do,

không đồng bộ, làm cho việc khai thác và chia sẻ tài nguyên là phức tạp và khó khăn

Để giải quyết vấn đề đó, các tổ chức như IEEE, IMS, ADL, AICC…[15, 16, 17, 18] đã

tham gia nghiên cứu và phát triển các chuẩn về E-learning Các chuẩn này được xây

dựng nhằm thống nhất cách thức biểu diễn tài nguyên và thống nhất cấu trúc môi

trường thực thi, tạo điều kiện thuận lợi cho trao đổi tài nguyên giữa các hệ thống

Bên cạnh những thành tựu đạt được, các chuẩn về E-learning hiện nay vẫn còn

một số hạn chế Thông tin phục vụ cho tìm kiếm, phân loại và tổ chức tài liệu học điện

tử trong các chuẩn này thường được mô tả bằng siêu dữ liệu không hỗ trợ nhiều cho

biểu diễn ngữ nghĩa Các nội dung học điện tử thường được quản lý theo từ khóa và có

khung cứng nhắc Do đó, việc sử dụng lại hay kết hợp các thành phần tài liệu học vẫn

còn mang tính thủ công và tồn nhiều công sức Hơn nữa, các hệ thống hiện tại vẫn

chưa hỗ trợ tự động xây dựng các nội dung học phù hợp với hoàn cảnh và nhu cầu học

tập của học viên như một số hệ thống đào tạo trên máy đã được xây dựng Một trong

những cách tiếp cận để giải quyết vấn đề trên là áp dụng công nghệ web ngữ nghĩa cho

quản lý và khai thác tài nguyên học điện tử [3, 9]

Web ngữ nghĩa (Semantic Web) là một cách tiếp cận mới trong việc quản lý

và khai thác tài nguyên trên mạng toàn cầu World Wide Web (WWW) Theo cách tiếp

cận này, tài nguyên được khai thác dựa trên các công nghệ web hiện đại hướng tới

dịch vụ thông tin web có thể được hiểu và sử dụng (hay sử dụng lại) bởi cả con người

và máy tính Bên cạnh các ngôn ngữ thông thường như XML và RDF, các ngôn ngữ

ontology được sử dụng trong siêu dữ liệu phục vụ đào tạo điện tử Công nghệ thông

minh như hệ chuyên gia, tác tử thông minh, cũng được sử dụng nhằm quản lý vào khai

thác nội dung dựa trên các biểu diễn ngữ nghĩa Đây là một cách tiếp cận mới, tương

đối phù hợp và cần có sự đầu tư nghiên cứu

Trang 6

Chúng tôi xác định mục tiêu nghiên cứu của đề tài là ứng dụng công nghệ web

ngữ nghĩa trong quản lý và khai thác tài nguyên học điện tử, hướng tới một cơ chế tự

động tích hợp để xây dựng bài giảng điện tử có nội dung phù hợp với ngữ cảnh học tập

của học viên Ngữ cảnh học tập của học viên được hiểu là các đặc điểm và hoàn cảnh

cụ thể liên quan đến công tác đào tạo như độ tuổi, giới tính, dân tộc, sở thích cá nhân,

quá trình học tập, nhu cầu học tập hiện tại, mục tiêu học tập trong tương lai…

Mục đích của luận văn này là đề xuất mô hình xây dựng và khai thác tài

nguyên học điện tử dựa trên công nghệ web ngữ nghĩa; xây dựng một số ontology cơ

bản phục vụ cho biểu diễn nội dung đào tạo điện tử theo ngữ nghĩa; và khảo sát ứng

dụng truy vấn ngữ nghĩa cho chọn lựa và tích hợp các tài nguyên học điện tử phù hợp

với ngữ cảnh học tập của học viên

Các phần còn lại của luận văn được cấu trúc như sau:

Chương 1 trình bày một số hình thức đào tạo, ưu điểm và nhược điểm của các

hình thức đào tạo này; một số vấn đề về đào tạo điện tử (E-learning), một mô hình đào

tạo mới dựa trên cơ sở hạ tầng hiện đại, trong đó có môi trường mạng toàn cầu WWW;

và chuẩn SCORM, cơ sở mô tả tài nguyên học điện tử mà luận văn sử dụng

Chương 2 giới thiệu một số khái niệm về web ngữ nghĩa Đây là một môi

trường chung cho trao đổi thông tin bằng cách gắn liền biểu diễn tài liệu với xử lý ngữ

nghĩa trong môi trường WWW Công nghệ web ngữ nghĩa là các công nghệ liên quan

đến chuẩn, ngôn ngữ đánh dấu, các công cụ xử lý phục vụ cho xây dựng và khai thác

web ngữ nghĩa

Chương 3 trình bày về mô hình quản lý và khai thác tài nguyên học điện tử

theo cách tiếp cận web ngữ nghĩa và giải pháp cho biểu diễn ngữ nghĩa nội dung học

điện tử sử dụng công nghệ web ngữ nghĩa

Mô hình quản lý và khai thác tài nguyên học điện tử được đề xuất dựa trên ý

tưởng sử dụng kết hợp hệ chuyên gia trong các hệ thống quản lý đào tạo điện tử Hệ

chuyên gia được sử dụng có thể xây dựng theo các phương pháp khác nhau Tuy

nhiên, theo mô hình đề xuất, các hệ chuyên gia này có sử dụng tri thức được mô tả

Trang 7

thác các ưu điểm của chuẩn đào tạo đã có, hệ quản lý đào tạo điện tử và các tài nguyên

học điện tử phải tuân theo chuẩn SCORM

Giải pháp cho biểu diễn ngữ nghĩa nội dung học điện tử bao gồm: ontology

mô tả cấu trúc các thành phần có trong gói bài giảng; ontology mô tả khái niệm, chủ

đề đào tạo và quan hệ giữa các khái niệm, chủ đề đó; ontology mô tả ngữ cảnh học tập

của học viên; và giải pháp về xây dựng, cập nhật cho các ontology này Ở bước đầu

phát triển, giải pháp về tự động xây dựng và cập nhật các ontology chỉ ở mức đơn giản

là phân tích và sử dụng các thông tin cơ sở có trong siêu dữ liệu của gói bài giảng điện

tử tuân theo chuẩn SCORM

Chương 4 trình bày một số kết quả khảo sát về tự động xây dựng chú thích

ngữ nghĩa theo mô hình đề xuất ở chương 2 và sử dụng truy vấn ngữ nghĩa cho lựa

chọn tài nguyên học theo ngữ cảnh

Kết quả khảo sát trên một số dữ liệu bài giảng điện tử cho thấy các ontology

sinh ra là tương đối đơn giản; và các truy vấn ngữ nghĩa cho kết quả là các nội dung

học tương đối phù hợp với nhu cầu học tập cụ thể, đặc biệt là trong trường hợp chọn

lựa tài liệu tham khảo hoặc bài tập luyện tập cho học viên

Cuối cùng là phần Kết luận gồm một số nhận xét về kết quả đạt được sau quá

trình thực hiện đề tài cùng với các đề xuất về hướng nghiên cứu tiếp theo

Trang 8

Chương 1 Đào tạo điện tử (E-learning)

Đào tạo điện tử (E-learning) là một hình thức đào tạo mới, đánh dấu một bước

tiến quan trọng trong việc áp dụng khoa học công nghệ nhằm nâng cao chất lượng đào

tạo So với các mô hình đào tạo có trước như đào tạo theo phương pháp truyền thống

sử dụng môi trường lớp học tập trung và đào tạo dựa trên máy thì đào tạo điện tử linh

hoạt hơn về thời gian, địa điểm và phong phú hơn về hình thức truyền tải nội dung

Sau đây là phần trình bày về một số mô hình đào tạo cùng ưu nhược điểm của

những mô hình này, và một số nét chính về SCORM – một chuẩn đào tạo điện tử rất

được quan tâm hiện nay

1.1 Đào tạo theo phương pháp truyền thống

Trước đây, hầu hết công tác giảng dạy và học tập đều thông qua trường lớp và

hội thảo Sinh viên và học sinh thường đến lớp để tham gia học tập, và cán bộ công tác

tại các tổ chức, công ty thì thường tham gia các khóa đào tạo ngắn hạn hay các hội

thảo nhằm nâng cao trình độ chuyên môn Người học cũng như người giảng dạy muốn

thực hiện công tác đào tạo của mình thì đều phải cố định khoảng thời gian và địa điểm

Đây chính là hình thức đào tạo truyền thống mà con người đã quen thuộc từ lâu và cho

đến bây giờ vẫn rất phổ biến

Mặc dù hình thức đào tạo truyền thống có những ưu điểm được khẳng định

trong một thời gian dài nhưng nó cũng có những mặt hạn chế chưa khắc phục được

Một trong những hạn chế đó là không linh hoạt về mặt thời gian và không gian Khi

phần lớn thời gian có thể tham gia đào tạo của người học và người dạy không trùng

nhau thì hình thức đào tạo truyền thống lại trở nên bất tiện Không ít người có nhu cầu

nhưng không thể tham gia các khóa học khác nhau do thời gian diễn ra các khóa học ít

nhiều trùng nhau Những người đang công tác tại các tổ chức và công ty lại càng eo

hẹp hơn về thời gian và ít có cơ hội tiếp thu thêm kiến thức mà các khóa ngắn hạn hay

các hội thảo chuyên môn không thể mang lại Bên cạnh đó, không phải ai cũng có điều

kiện sống gần nơi có thể tham gia học tập Trong trường hợp muốn tổ chức các lớp

học hay các buổi hội thảo, các công ty hay tổ chức cũng thường phải tốn một khoảng

Trang 9

Hơn nữa, khi thông tin ngày càng nhiều, đòi hỏi mọi người phải liên tục tiếp

thu kiến thức và thông tin mới nhằm đáp ứng cho công việc cũng như cho sinh hoạt

trong cộng đồng thì việc tổ chức dạy và học theo phương pháp truyền thống nhiều khi

trở nên tốn kém, không theo kịp với tốc độ phát triển của thông tin

1.2 Đào tạo trên máy

Đào tạo trên máy (Computer-based training – CBT là một hình thức đào tạo

mới trong đó học viên tiếp thu kiến thức bằng cách thực hiện các chương trình đào tạo

đặc biệt trên máy tính Chương trình đào tạo đó cung cấp phần lớn tác nhân kích thích

mà học viên phải đáp ứng, sau đó phân tích đáp ứng của học viên rồi trả lại phản hồi

cho học viên Đây là hình thức đào tạo hướng đến nhu cầu tự học của học viên

CBT có thể được phân thành ba loại:

 Chương trình dạy học có trợ giúp của máy tính (Computer-Assisted

Instruction – CAI) là chương trình cung cấp bài tập và thực hành cho học

viên;

 Chương trình dạy học quản lý nhờ máy tính (Computer-Managed

Instruction – CMI) là chương trình đánh giá sinh viên qua bài kiểm tra, chỉ

dẫn sinh viên sử dụng các tài liệu học khác và theo dõi quá trình học;

 Chương trình dạy học nâng cao với máy tính (Computer-Enriched

Instruction – CEI) đóng vai trò làm thiết bị lập trình hay bộ mô phỏng phục

vụ cho việc học tập và thực hành của học viên

Một số chức năng chính của một chương trình CBT là:

 Đánh giá trình độ học sinh trước khi học sinh bắt đầu tham gia học thật sự;

 Trình diễn các tài liệu đào tạo cho học viên một cách linh hoạt Học viên có

thể chọn lựa các nội dung hiển thị phù hợp theo ý muốn;

 Cung cấp các bài luyện tập lặp đi lặp lại nhằm nâng cao khả năng áp dụng

kiến thức của học viên;

 Cung cấp các bài luyện tập dưới dạng trò chơi để nâng cao ham muốn học

tập của học viên;

Trang 10

 Đánh giá tiến trình học tập của học viên bằng các bài kiểm tra cuối bài học;

 Hướng học viên học tập qua một chuỗi các chương trình hướng dẫn;

 Lưu trữ các hồ sơ về điểm số bài kiểm tra và quá trình học tập của học viên

để phục vụ cho việc hướng dẫn học tập phù hợp hơn

 Ưu điểm

Trong môi trường CBT, nội dung học được truyền đạt thông qua các chương

trình máy tính Các nội dung học này có thể được ghi trên phương tiện lưu trữ thông

tin như đĩa CD-ROM và gửi đến người học qua đường bưu điện, hoặc có thể được trực

tiếp tải xuống từ môi trường mạng internet Do đó, người học có thể chủ động về mặt

thời gian và địa điểm Học viên sẽ không phải mất thêm chi phí cho việc đi lại và sinh

hoạt

Hơn nữa, học viên sẽ hoàn toàn chủ động về thời gian học Họ có thể thu xếp

thời gian học sao cho không làm ảnh hưởng đến những việc khác của mình Vì vậy

thời gian đào tạo có thể được rút ngắn hơn so với đào tạo theo phương pháp truyền

thống

Một ưu điểm khác của CBT là chương trình CBT cho phép người học có thể

tự theo dõi quá trình học của mình và chủ động lựa chọn các nội dung học phù hợp với

bản thân Học viên cũng có thể tùy ý học đi học lại một phần hoặc toàn bộ chương

trình cho đến khi nắm vững kiến thức mà chương trình cung cấp

 Nhược điểm

Để thiết kế và xây dựng một chương trình học trên máy cần rất nhiều thời

gian, điều này không đáp ứng được yêu cầu học liên tục

Mặc dù học trên máy tiết kiệm được chi phí đi lại và sinh hoạt trong quá trình

học nhưng chi phí phải bỏ ra để xây dựng chương trình CBT phục vụ đào tạo là rất

lớn Chương trình CBT có thể được dùng lại nhiều lần nhưng nội dung cung đào tạo

lại phải cập nhật cho phù hợp hơn với sự phát triển của khoa học Do đó có thể phải

mất thêm chi phí cho việc nâng cấp hay xây dựng mới chương trình CBT

Trang 11

Học trên máy, người học không được nhận trợ giúp trực tiếp khi có vướng

mắc vì chương trình CBT không có cơ chế hỏi đáp và nếu có thì thường chỉ cung cấp

một số các câu hỏi và câu trả lời cơ bản thường gặp Trong môi trường CBT, người

học thường bị cô lập và tự xử lý mọi tình huống, không có các hoạt động học nhóm

Theo cách tự học như vậy, rất khó có thể khẳng định được mức độ đảm bảo về chất

lượng đào tạo

Tuy nhiên, với những ưu điểm đã được đề cập, CBT thực sự là một bước tiến

trong việc đổi mới phương pháp đào tạo Đây là một sự lựa chọn mới cho người học,

góp phần nâng cao khả năng mở và linh hoạt cho công tác đào tạo Mặc dù vậy, từ các

nhược điểm của CBT những công nghệ đào tạo mới có cơ chế mở, giao tiếp được và

linh hoạt hơn cần phải được phát triển

1.3 Đào tạo điện tử (E-learning)

E-learning hay đào tạo điện tử là một khái niệm chung thường được sử dụng

để nói đến môi trường đào tạo trong đó máy tính và các thiết bị đa phương tiện hiện

đại được sử dụng nhằm nâng cao chất lượng học tập và giảng dạy Các tài nguyên sử

dụng trong môi trường đào tạo này có thể là các tài liệu giảng dạy dựa trên môi trường

web (web-based teaching materials), các đĩa CD-ROM đa phương tiện, các trang web,

thư điện tử, trang web cá nhân blog, chương trình cộng tác, chương trình mô phỏng, hệ

thống bỏ phiếu điện tử, hệ thống hội thảo từ xa, chương trình quản lý đào tạo, trò chơi

điện tử mang tính giáo dục, hoạt hình mang tính giáo dục… Các tài nguyên này có thể

được kết hợp sử dụng đưới nhiều hình thức nhằm mang lại hiệu quả đào tạo cao trong

môi trường công nghệ thông tin hiện đại

Tuy nhiên, trong khóa luận này khái niệm E-learning được hiểu trong phạm vi

hẹp hơn là mô hình đào tạo trong môi trường World Wide Web (WWW), trong đó đó

nội dung đào tạo được thể hiện bằng các nội dung đa phương tiện, các website và

chương trình trên máy tính

Trang 12

 Đào tạo điện tử trong môi trường World Wide Web (WWW)

Đào tạo dựa trên web (Web-based training - WBT) là hình thức đào tạo có nội

dung học tập đa phương tiện, được truyền bá trên mạng WWW và được hiển thị bởi

các trình duyệt web

Với sự phát triển của WWW, các nội dung đa phương tiện, các website phục

vụ đào tạo ngày càng trở nên phổ biến Người dùng có thể truy cập, tìm kiếm thông tin

và kiến thức bất cứ lúc nào và bất cứ nơi đâu WWW đã trở thành một môi trường mở,

linh hoạt và có nhiều tiềm năng phục vụ cho đào tạo Tuy nhiên khó có thể áp dụng

một cách đơn thuần các mô hình đạo tạo trước trong môi trường này Ví dụ như kiến

trúc của WWW không phù hợp với nhiều chương trình CBT Lý do là nội dung của

chương trình CBT thường lưu trữ và xử dụng trên môi trường cục bộ, chương trình

CBT được lập trình bằng các ngôn ngữ riêng và xử lý bằng chương trình dịch riêng

tương ứng Chuyển từ khai thác tài nguyên cục bộ sang khai thác tài nguyên từ xa và

xây dựng ứng dụng có thể chạy được trên nhiều nền hệ điều hành khác nhau là công

việc rất phức tạp Do đó, cần phải có những cách tiếp cận khác cho việc tổ chức, quản

lý và hiển thị nội dung học tập cho học viên trong môi trường WWW

 Hệ quản lý đào tạo điện tử - Learning Management System (LMS)

Mới đầu, các nội dung học tập trên WWW thường là các trang web có khung

cứng nhắc và bị bó buộc bởi môi trường và bối cảnh chung về công nghệ tại thời điểm

đó Người dùng thường phải tải các công cụ hỗ trợ (plug-in) để hiện thị nội dung Các

nội dung học thường rời rạc, quá trình học tập cũng không có sự quản lý thích hợp

Nhu cầu phát triển các hệ thống có khả năng quản lý và điều phối nội dung học tập

trên WWW trở nên thiết yếu Hệ quản lý đào tạo điện tử - Learning Management

System (LMS) ra đời nhằm đáp ứng nhu cầu này

LMS là cơ sở phục vụ cho đào tạo điện tử (E-Learning), gồm các thành phần:

tài liệu học điện tử, các phần mềm giúp quản lý, các phần mềm theo dõi quá trình học

Các thành phần phần mềm trong LMS có thể là chương trình trên máy tính, có thể là

các trang web có nội dung được xử lý bằng các dịch vụ phía máy chủ, có thể là các

thành phần hỗ trợ (plug-in) cho hiển thị nội dung phía máy khách

Trang 13

LMS thường hỗ trợ và kết hợp dạy với học Các chức năng chính của LMS là:

phát triển khoá học, quản lý nội dung, quản lý khoá học, truyền tải khoá học, phân tích

đánh giá, liên lạc, theo dõi/báo cáo, hỗ trợ thực hành, diễn đàn giao lưu, giao diện cho

sinh viên, v.v

Mô hình tổng quát một hệ thống LMS được minh họa trong Hình 1.1 Các đối

tượng tham gia vào sử dụng LMS gồm có: người quản lý, giảng viên và học viên

Trong nhiều trường hợp, giảng viên cũng đóng vai trò là người quản lý, đặc biệt là khi

công tác quản lý đó liên quan trực tiếp đến xây dựng nội dung đào tạo hay truyền đạt

nội dung học tập cho học viên

Ý nghĩa của LMS với những đối tượng tham gia vào E-Learning:

Với người quản lý:

 Có thể phục vụ nhiều sinh viên hơn

 Theo dõi việc học của sinh viên tốt hơn

 Tăng khả năng lưu giữ thông tin sinh viên

 Thu về nhiều lợi nhuận hơn từ học phí

 Tăng hiệu quả đồng thời giảm chi phí quản lý

 Giảm thời gian quay vòng vốn

Với giảng viên:

 Tăng hiệu quả quản lý khóa học/nội dung

 Cải thiện khả năng đánh giá

 Tăng thêm các cơ hội đánh giá

 Giảm thời gian chuẩn bị cho khóa học

 Cải tiến nội dung

 Chia sẻ nội dung với các giảng viên, với các phương pháp dạy khác

nhau

 Tăng cường liên lạc cả trong và ngoài lớp học

 Tăng hiệu suất làm việc nói chung

Trang 14

Hình 1.1 Mô hình hệ quản lý đào tạo (LMS)

Với học viên:

 Tăng kiến thức

 Được hỗ trợ kiến thức phù hợp và kịp thời

 Được hỗ trợ từ các cá nhân (có thể là giáo viên hoặc các học viên khác)

 Tăng khả năng/cơ hội hoàn thành khóa học

 Cái thiện việc học nói chung

1.4 Chuẩn hóa đào tạo điện tử

Cùng với sự phát triển của E-learning, số lượng tài liệu ngày càng tăng với các

công cụ chế bản, công cụ truyển tải và quản lý nội dung ngày càng phong phú Vấn đề

đặt ra là cần phải có giải pháp để có thể khai thác tối đa các tài nguyên học điện tử có

thể có

Một trong những giải pháp cho vấn đề trên là xây dựng chuẩn về E-learning

Đây là chuẩn về tài liệu phục vụ đào tạo (educational document), về siêu dữ liệu

(meta-data), về đối tượng đào tạo (learning object), và về kiến trúc đào tạo (learning

architecture)

Kho nội dung Quản lý khóa

học

Theo dõi

API Thực thi

Quản lý nội dung

Sắp xếp thứ tự

Kiểm tra / Đánh giá

Thông tin

học viên

Truyền tải

Kho nội dung

Trình duyệt Gói nội

dung

Trang 15

Các chuẩn về E-learning hướng tới việc tái sử dụng và thao tác giữa các thành

phần nội dung Trong đó, siêu dữ liệu thường được dùng để mô tả các cấu trúc và nội

dung Nhờ đó nội dung có thể được lưu giữ và quản lý một cách hiệu quả, đảm bảo

cho người dùng có thể tìm kiếm và sử dụng tài nguyên một cách thuận tiện Đồng thời,

để các hệ thống đào tạo khác nhau có thể trao đổi và sử dụng tài nguyên của nhau khi

cần thiết thì thành phần nội dung phải có khả năng kết hợp được với các tài nguyên

khác Do đó các thành phần nội dung phải được biểu diễn theo một chuẩn chung Nhờ

đó, các hệ thống khác nhau cũng có thể trao đổi và sử dụng tài nguyên của nhau khi

cần thiết

Ý nghĩa trực tiếp của chuẩn về E-learning đối với người sử dụng:

 Nhà cung cấp hệ thống LMS: Việc tuân thủ các tiêu chuẩn mang lại uy tín

về chất lượng cho sản phẩm của họ Bằng cách mở rộng sản phẩm của mình

cho phép tương tác được với các công cụ khác, họ có thể tăng cường chức

năng cho sản phẩm của mình một cách hiệu quả

 Giảng viên và người lập chính sách: Việc quản lý và phân phối có thể kết

hợp với nhau, công tác quản trị có thể tổ chức hợp lý hơn và giảm tổng chi

phí Nội dung/kiến trúc tuân theo các chuẩn sẽ có vòng đời dài hơn và giảm

chi phí một cách hiệu quả

 Người phát triển nội dung và nhà sản xuất: Họ có được thị trường rộng hơn

khi một sản phẩm chỉ phải làm một lần nhưng sử dụng lại được nhiều lần

Tác giả và nhà cung cấp có thể gửi bài giảng của họ vào các kho nội dung

và những bài giảng này có thể dễ dàng truy xuất được

 Học viên: Họ có thêm lựa chọn để hoàn thành mục tiêu học của mình Hệ

thống tuân theo các chuẩn giúp học viên không chỉ trông chờ vào một nhà

cung cấp Thay vì tham gia học theo một nơi duy nhất, với lịch học cứng

nhắc, việc học có thể thực hiện trong thời gian dài, tùy thuộc vào thời gian

chủ động của học viên, và phù hợp với trình độ với học viên

Trang 16

Chúng ta đang ở giai đoạn phát triển từ các đặc tả tiến tới các tiêu chuẩn cho

E-Learning Quá trình phát triển từ đặc tả thành tiêu chuẩn đánh dấu thay đổi trong

nhận thức của cộng đồng Chuẩn cho E-learning đang dần được hoàn thiện và ngày

càng được chấp nhận rộng rãi hơn Người dùng bắt đầu tin tưởng vào các chuẩn và

nhìn thấy hiệu quả mang lại từ việc tuân thủ các chuẩn mới đưa ra Sự phát triển tiến

tới xây dựng chuẩn learning đánh dấu bước trưởng thành trong công nghệ

E-learning Một trong những thành tựu của quá trình phát triển E-learning là sự ra đời

của “Sharable Content Object Reference Model” (SCORM) Chuẩn SCORM đóng vai

trò quan trọng trong việc hướng tới một môi trường thống nhất về đào tạo điện tử, tạo

khả năng liên kết và chia sẻ giữa các hệ thống đào tạo điện tử khác nhau, nâng cao

hiệu quả khai thác tài nguyên học điện tử trong môi trường WWW

1.5 Chuẩn SCORM

Nhiều tổ chức đã cùng nhau làm việc để đưa ra những chuẩn mới trong công

nghệ phục vụ cho E-learning Các tổ chức lớn có thể kể đến như IMS, ADL, IEEE

Nhiều chuẩn mới đã ra đời và được công nhận như LOM, LP, CS, SS … [7]

SCORM (Sharable Content Object Reference Model) là một trong những

chuẩn phục vụ đào tạo được quan tâm nhất hiện nay SCORM là sự phát triển kế thừa

trên nhiều chuẩn khác nhau về biểu diễn tài liệu, xây dựng ứng dụng và triển khai hệ

thống phục vụ cho đào tạo Có thể nói SCORM đang đóng vai trò trung tâm trong quá

trình phát triển chuẩn về E-learning (Hình 1.2)

Hình 1.2 Quá trình phát triển chuẩn E-Learning

Trang 17

Thừa kế thành quả từ những nghiên cứu đi trước, SCORM hướng tới việc đưa

ra một mô hình xây dựng và triển khai đào tạo từ xa qua việc xây dựng nội dung học

trong các hệ thống LMS SCORM tập trung vào giải quyết những vấn đề sau:

 Thiết lập các đối tượng khả chuyển

 Phát triển mô hình nội dung

 Phát triển mô hình đánh giá

 Xây dựng mô hình sắp xếp nội dung

 Xây dựng kho dữ liệu tri thức

SCORM được phát triển qua nhiều phiên bản khác nhau Phiên bản mới nhất

hiện nay là “SCORM 2004 3rd

Edition” Tuy nhiên phiên bản được nhiều hệ thống hỗ trợ nhất là “SCORM 1.3” Phiên bản này cung cấp tương đối đầy đủ các mô tả về xây

dựng, tổ chức, khai thác và chia sẻ tài nguyên nội dung học điện tử cho E-learning

Các thành phần cơ bản cấu thành SCORM bao gồm chuẩn về gói nội dung

(content package), chuẩn mô tả các quan hệ sắp xếp, điều hướng (sequencing and

navigation) nội dung hiển thị cho người dùng, và chuẩn về môi trường thực thi

(SCORM Runtime-Environment)

Mô hình nội dung SCORM gồm có ba thành phần: Asset, SCO (Sharable

Content Object) và Tổ chức nội dung (Content Organization) Đây là các thành phần

được sử dụng để biểu diễn nội dung của những bài giảng đầy đủ và độc lập, có thể sử

dụng được trên các hệ thống LMS khác nhau tương thích SCORM

1.5.1.1 Asset

Asset là thành phần nhỏ nhất biểu diễn nội dung trong bài giảng theo chuẩn

SCORM Một Asset đơn giản chỉ là một tệp văn bản, một trang web tĩnh HTML hay

cũng có thể là các tệp dữ liệu đa phương tiện như âm thanh, video clip hoặc hình ảnh

động (animation picture) v.v (Hình 1.3)

Trang 18

Hình 1.3 Ví dụ về Asset

1.5.1.2 SCO

SCO là tập hợp gồm một hay nhiều thành phần Asset (Hình 1.4) SCO có mối

liên kết với LMS thông qua môi trường thực thi tương thích SCORM (SCORM

Run-Time Environment – SCORM RTE) Đây chính là điểm khác biệt quan trọng giữa

SCO và Asset Để liên kết với LMS, SCO dùng các giao diện tuân theo chuẩn “IEEE

ECMAScript API” Còn LMS sử dụng mô hình dữ liệu RTE theo chuẩn SCORM

(RTE Data Model) để theo dõi trạng thái của SCO

Thông thường SCO phải có các phương thức định vị LMS bao gồm các

phương thức cơ bản như Initialize() và Terminate() để:

 Các LMS có SCORM RTE có thể chạy SCO và theo dõi mà không cần biết

ai đã tạo ra chúng

 Các LMS có SCORM RTE có thể theo dõi bất kỳ SCO nào và nhận biết khi

nào nó bắt đầu và khi nào kết thúc

Ngoài ra, các phương thức khác có hay không là phụ thuộc vào nội dung bài

giảng Với SCORM RTE của các LMS khác nhau, các phương thức có thể được cài

đặt khác nhau Tuy nhiên, nội dung SCO được xử lý hay hiển thị bởi một phương thức

phải thỏa mãn như đặc tả nhiệm vụ phương thức đó trong chuẩn SCORM

Asset

WAV Audio

Asset

MP3 Audio

Asset

JPEG Image

Asset

GIF Image

Asset

HTML

Asset

Web Page

Asset

XML Document

Asset

Flash Object

Asset

JavaScript Functions

Trang 19

Hình 1.4 Ví dụ về SCO

SCO được xây dựng độc lập với khoá học nhằm tối ưu hoá khả năng tái sử

dụng Điều này có nghĩa là SCO có thể sử dụng nhiều lần cho nhiều mục đích học

khác nhau, cho nhiều hoạt động học khác nhau

SCORM không đặt ra bất cứ ràng buộc nào về kích thước của SCO Trong quá

trình thiết kế nội dung, việc định ra kích thước của SCO phụ thuộc vào mục đích và ý

đồ của người xây dựng bài giảng

1.5.1.3 Tổ chức nội dung

Tổ chức nội dung (Content Organization) là lược đồ biểu diễn cách sử dụng

nội dung qua các bài giảng có cấu trúc Một đơn vị bài giảng có cấu trúc còn được gọi

là một hoạt động động học hay ngắn gọn là hoạt động Lược đồ cho biết mối liên quan

giữa các hoạt động Hình 1.5 là một ví dụ về tổ chức nội dung

Hoạt động biểu diễn trong tổ chức nội dung có thể gồm nhiều hoạt động con

khác Không có giới hạn về số lượng các mức hoạt động (ví dụ như khóa học, chương,

học phần,…) Mỗi hoạt động đơn lẻ (hoạt động lá) có một thành phần SCO hoặc Asset

để thể hiện nội dung của hoạt động đó

Asset

WAV Audio

SCO phải khởi tạo để chạy

và hủy liên với LMS để kết thúc Các chức năng của SCO như sau:

Tìm API Instance của LMS Dùng API Instance để khởi tạo liên kết SCO với LMS Dùng API Instance để lấy hoặc đặt các giá trị Dùng API để hủy liên kết với LMS

Trang 20

Hình 1.5 Tổ chức nội dung (Content Organization)

Mỗi một hoạt động trong tổ chức nội dung cũng có thể có các thành phần mô

tả các thuộc tính về sắp xếp và điều hướng của thành phần nội dung đó Sắp xếp và

điều hướng các hoạt động là một phần trong tổ chức nội dung được xác định thông qua

việc kết hợp thông tin sắp xếp trong tổ chức và kết hợp có điều kiện (hoặc không điều

kiện) các quan hệ giữa các hoạt động học LMS sẽ dựa vào thông tin sắp xếp và điều

hướng được mô tả trong tổ chức nội dung để thực hiện các thứ tự và kiểm soát thứ tự

thực sự của các tài nguyên học trong thời gian chạy

 Siêu dữ liệu

Siêu dữ liệu trong SCORM dựa trên các siêu dữ liệu đề xuất bởi IEEE LTSC

LOM phục vụ cho mô tả các thành phần tổ chức nội dung, Asset, SCO và các vấn đề

về kết hợp nội dung một cách thống nhất và có ý nghĩa phục vụ cho tìm kiếm, sử dụng

tài nguyên trong kho nội dung Siêu dữ liệu SCORM gồm năm thành phần:

 Kết hợp nội dung: Siêu dữ liệu mô tả cách kết hợp toàn bộ nội dung học và

các thông tin liên quan thành một gói nội dung hoàn chỉnh

 Tổ chức nội dung: Đây là siêu dữ liệu mô tả Tổ chức nội dung, chứa các

thông tin về cấu trúc của nội dung giảng dạy Siêu dữ liệu Tổ chức nội dung

Resource (SCO)

Resource (SCO) Resource (Asset)

Resource (Asset)

Kết hợp nội dung Item

Trang 21

có thể tổ chức thành nhóm gọi là các Đa tổ chức nội dung (Organizations),

nhờ đó tăng khả năng tái sử dụng

 Hoạt động: Đây là siêu dữ liệu mô tả Hoạt động Mục đích của việc sử dụng

siêu dữ liệu này là có thể truy xuất được tới các hoạt động trong kho nội

dung Siêu dữ liệu phải mô tả được toàn bộ hoạt động học theo dự định của

người xây dựng bài giảng

 SCO: SCO siêu dữ liệu cung cấp thông tin về SCO, giúp cho thành phần này

có khả năng tái sử dụng và tìm kiếm được trong kho nội dung

 Asset: Asset siêu dữ liệu dùng để cung cấp thông tin về Asset, giúp cho

thành phần này có khả năng tái sử dụng và tìm kiếm được trong kho nội

dung

Siêu dữ liệu trong chuẩn SCORM mang các thông tin mô tả đơn giản, không

hỗ trợ mô tả ngữ nghĩa (phục vụ cho suy diễn) như ontology trong công nghệ web ngữ

nghĩa (Semantic web) Tuy nhiên, với các thành phần siêu dữ liệu này, hầu hết các

thông tin về cấu trúc nội dung, tổ chức nội dung, thành phần nội dung, thông tin tra

cứu phục vụ cho đào tạo đều được mô tả một cách thống nhất và chặt chẽ, tạo nên cơ

chế mở giữa các hệ thống (tuân theo chuẩn)

 Đóng gói nội dung bài giảng

Gói nội dung bài giảng là một thể thống nhất bao gồm các siêu dữ liệu, các tài

nguyên mô tả nội dung và tất cả các tài nguyên khác liên quan, được gói gọn trong một

đối tượng tài nguyên thường là tệp dữ liệu được nén Gói nội dung phải cung cấp mô

tả hoàn chỉnh về cấu trúc (hay tổ chức) và hoạt động của tập hợp các nội dung học

Gói nội dung được dùng để chuyển nội dung học đi giữa các LMS, công cụ và kho nội

dung

Mục đích của việc đóng gói là đưa ra chuẩn trao đổi nội dung giữa các hệ

thống, công cụ khác nhau Trong SCORM, IMS Content Packaging Specification là

thành phần mô tả đóng gói nội dung, cung cấp chuẩn đầu vào và đầu ra mà bất cứ hệ

thống nào cũng có thể hỗ trợ Chuẩn SCORM về đóng gói nội dung là các yêu cầu và

hướng dẫn hay mô tả thực hành theo đúng đặc tả đóng gói nội dung của IMS và cung

Trang 22

cấp các yêu cầu rõ ràng và hướng dẫn thực hiện để đóng gói Asset, SCO, và Tổ chức

nội dung

Cơ chế kết hợp các thành phần nội dung là cơ chế xây dựng gói nội dung

(Content Package) theo chuẩn SCORM Có năm loại siêu dữ liệu có thể áp dụng trong

một gói nội dung:

 Manifest: siêu dữ liệu ở mức liệt kê, tương thích với IEEE LTSC LOM

Siêu dữ liệu này không thuộc phạm vi đặc tả của chuẩn SCORM và không

thuộc các thành phần đã kể trên

 Organization: siêu dữ liệu ở mức tổ chức mô tả toàn bộ Tổ chức nội dung

(cấu trúc nội dung) của một khóa học hay bài giảng Siêu dữ liệu đặt ở mức

tổ chức là siêu dữ liệu Tổ chức nội dung đã nói trên

 Item: Siêu dữ liệu ở mức “item” mô tả cây phân cấp của các hoạt động theo

ngữ cảnh học tập Đây là siêu dữ liệu Hoạt động được nói ở trên

 Resouce: Siêu dữ liệu ở mức tài nguyên chứa các thông tin mô tả SCO hay

Asset theo ngữ cảnh học tập Siêu dữ liệu này là SCO siêu dữ liệu hoặc

Asset siêu dữ liệu

 File: siêu dữ liệu ở mức file mô tả Asset theo ngữ cảnh học tập Siêu dữ liệu

này là Asset siêu dữ liệu

Chuẩn SCORM cũng cung cấp mô tả về cơ chế thực thi các hoạt động đối với

đối tượng nội dung, mô tả về cơ chế kết nối giữa các đối với nội dung với LMS, và mô

hình dữ liệu để theo dõi kinh nghiệm của học viên với các đối tượng nội dung

Mục tiêu của SCORM là làm cho các đối tượng nội dung có khả năng tái sử

dụng và chạy được trên các LMS khác nhau nhưng tương thích chuẩn Do đó, cần có

một cách thức chung để chạy và quản lý đối tượng nội dung, một cơ chế chung để đối

tượng nội dung giao tiếp với LMS và một “ngôn ngữ” hay các từ vựng xác định cấu

thành cơ sở để giao tiếp

Trang 23

Hình 1.6 Môi trường theo chuẩn SCORM (RTE)

1.5.3.1 Khởi chạy

Quá trình khởi chạy là quá trình xác định phương thức và đối tượng để LMS

chạy (thực thi) hay hiển thị đối tượng nội dung SCORM có hai kiểu đối tượng nội

dung là SCO và Asset

Đối với các kiểu đối tượng nội dung khác nhau các yêu cầu chạy là khác nhau

Đồng thời, các thủ tục và trách nhiệm để thiết lập liên lạc giữa đối tượng nội dung và

LMS trong quá trình khởi chạy cũng có thể khác nhau và tùy thuộc vào kiểu của đối

tượng nội dung

Tiến trình thực hiện các hoạt động học có thể là có thứ tự, không có thứ tự,

định hướng theo người dùng hay có khả năng thích ứng, phụ thuộc vào thông tin sắp

xếp và tương tác giữa người học và đối tượng nội dung

LMS cần quản lý thứ tự giữa các hoạt động học và ước lượng thông tin thứ tự

gắn với hoạt động, đồng thời phân tích các sự kiện điều hướng để lựa chọn đúng đối

tượng nội dung để chạy (thực thi) hay hiển thị Sau khi lựa chọn được đối tượng nội

dung tương ứng với hoạt động học cần thực hiện, LMS phải tải nội dung đó và thực

hiện hiển thị, thực thi nội dung theo phương thức phù hợp với kiểu đối tượng nội dung

Asset Asset

Asset ECMAScript

Trang 24

Với kiểu đối tượng nội dung là Asset, chỉ cần LMS chạy Asset dùng giao thức

HTTP Asset không liên kết với LMS qua API và dữ liệu RTE

Với kiểu đối tượng nội dung là SCO, LMS chạy và theo dõi một SCO tại một

thời điểm (cho mỗi học viên) SCO có thể tự thực thi API Instance (gọi thủ tục API)

với SCO phụ thuộc nghĩa là khởi chạy và theo dõi SCO phụ thuộc LMS không quan

tâm tới các SCO này Trong trường hợp đó, SCO khởi chạy bởi LMS (SCO cha) phải

đóng mọi cửa sổ đã mở phục vụ cho SCO con trước khi SCO cha kết thúc phiên làm

việc với LMS LMS phải chạy SCO trong cửa sổ trình duyệt có tính phụ thuộc (cửa sổ

popup hay khung trình duyệt con trên cửa sổ LMS) để trình bày nội dung như một tài

liệu (Document Object Model – DOM) thông qua các API Instance do LMS cung cấp

1.5.3.2 Application Programming Interface (API)

API là công cụ hỗ trợ cho yêu cầu tái sử dụng, cung cấp phương thức chuẩn

cho giao tiếp giữa SCO và LMS Với API, người phát triển SCO không cần phải hiểu

quá trình thực thi liên kết diễn ra như thế nào Cách thức cài đặt API trong LMS không

nằm trong phạm vi của SCORM Người phát triển hệ thống có thể thực hiện việc kết

nối này theo bất cứ cách nào Có một số thuật ngữ sử dụng là API, API

Implementation và API Instance:

 Hiểu đơn giản nhất, API chỉ là tập hợp các hàm hỗ trợ cho việc chạy SCO

 API Implementation là một phần mềm chức năng có nhiệm vụ thực thi các

hàm trong API Người phát triển SCO không cần quan tâm đến API

Implementation hoạt động như thế nào vì API Implementation theo chuẩn

có giao diện giống nhau tuân theo chuẩn SCORM Mỗi LMS có thể cài đặt

API Implementation theo cách riêng nhưng tuân theo chuẩn

 API Instance là một thể hiện việc gọi các hàm API để API Implementation

thực hiện API Instance thay thế cho phần mềm tương tác với SCO trong

quá trình chạy

Trang 25

Hình 1.7 API, API Instance, API Implementation

1.5.3.3 Mô hình dữ liệu RTE

Mục đích xây dựng mô hình dữ liệu chung là để đảm bảo thông tin về SCO có

thể theo dõi được bởi các môi trường LMS khác nhau Ví dụ, điểm của học viên là yêu

cầu chung, do đó cần có cách báo điểm chung cho các môi trường LMS Trong trường

hợp SCO dùng một cách thể hiện điểm riêng, các hệ thống LMS có thể không lấy được

thông tin về điểm cũng như lưu trữ hay xử lý thông tin đó

Mô hình dữ liệu RTE dựa trên chuẩn P1484.11.1 – chuẩn về Mô hình dữ liệu

cho việc liên kết nội dung đưa ra bởi IEEE LTSC CMI P1484.11.1 xác định các thành

phần dữ liệu dùng để liên kết thông tin từ đối tượng nội dung (như SCO) tới LMS Các

dữ liệu này gồm có thông tin về học viên, tương tác học viên đã thực hiện với SCO,

thông tin về mục đích, trạng thái hoàn thành (đã hoàn thành hoặc chưa hoàn thành),

trạng thái thành công (đánh giá mức độ hiểu nội dung chứa trong SCO)

Mô hình dữ liệu chuẩn IEEE không đủ để đáp ứng các yêu cầu chuẩn SCORM

về tương tác và quan hệ giữa SCO với API Instance Vì thế, SCORM đã thêm một số

hướng dẫn kết nối và thực hiện cũng như các yêu cầu với chuẩn P1484.11.1 này

API Implementation

SCO

Initialize() Terminate() Getvalue() Setvalue() Commit() GetLastError() GetErrorString() GetDiagnostic()

API

API Instance

Trang 26

1.6 Tổng kết

Trên đây chúng tôi đã giới thiệu một số hình thức đào tạo cùng ưu điểm và

nhược điểm của các hình thức này, cụ thể:

 Đào tạo theo hình thức truyền thống: là hình thức đào tạo gắn liền với

trường lớp, phù hợp với đào tạo tập trung, không linh hoạt về thời gian và

địa điểm

 Đào tạo trên máy: là hình thức đào tạo sử dụng các chương trình máy tính,

hướng đến nhu cầu cá nhân, linh hoạt về thời gian và địa điểm nhưng

thường là môi trường cô lập

 Đào tạo điện tử (E-learning): là hình thức đào tạo sử dụng môi trường mở

WWW, với nội dung đào tạo được thể hiện bằng các công nghệ đa phương

tiện, linh hoạt về thời gian và địa điểm Đây là hình thức đào tạo có nhiều

ưu điểm, cần được phát triển và ứng dụng trong thực tế

Đồng thời chúng tôi cũng giới thiệu một số khái niệm cơ bản về chuẩn

SCORM, một chuẩn E-learning rất được quan tâm hiện nay Các thành phần cơ bản

của SCORM là chuẩn về biểu diễn các thành phần nội dung, chuẩn về đóng gói bài

giảng và chuẩn về môi trường đào tạo điện tử Trong đó, thành phần nội dung cơ bản

nhất gồm có Asset và SCO Môi trường thực thi của SCORM được xây dựng dựa trên

sử dụng các API, và mô hình dữ liệu RTE

Trang 27

Chương 2 Web ngữ nghĩa

World Wide Web (WWW), hay gọi đơn giản là Web, là một hệ thống các siêu

văn bản (hypertext document) được liên kết với nhau trong môi trường mạng Internet

thông qua các siêu liên kết (hyperlink) Nội dung trong các siêu văn bản hay các trang

web có thể là văn bản thuần túy (text), ảnh, hoặc các nội dung đa phương tiện khác

như âm thanh, phim ảnh… Với một trình duyệt web, người sử dụng có thể xem nội

dung trang web và di chuyển từ trang này đến trang khác một cách dễ dàng thông qua

siêu liên kết giữa chúng

WWW là một môi trường trao đổi và truyền bá thông tin giữa con người ở

phạm vi toàn cầu mang nhiều ưu điểm mà các hệ thống trước đây không mang lại [6]

Khác với thông tin lưu trữ bằng sách báo, trong môi trường WWW, thông tin được

biểu diễn dưới dạng số, xử lý bằng máy tính và được truyền bá trong môi trường mạng

máy tính với một vận tốc mà các không một phương pháp truyền bá nào trước kia

trong lịch sử như thư tín, điện tín hay điện thoại… có thể có

Tuy nhiên, với sự phát triển như vũ bão của WWW ngày nay thì quản lý và

tìm kiếm, khai thác thông tin theo phương pháp thông thường (bằng từ khóa) sẽ dần

không đáp ứng được nhu cầu sử dụng nữa Một số vấn đề nảy sinh trong tìm kiếm và

khai thác thông tin trên web là:

 Mặc dù kết quả tìm kiếm trả lại cho yêu cầu của người dùng là một số lượng

lớn các siêu liên kết đến các tài nguyên web nhưng có thể phần lớn kết quả

đó lại không phù hợp với mong muốn của người dùng Ví dụ, sau khi thực

hiện tìm kiếm, người dùng thu được kết quả là 27524 siêu liên kết, trong đó

có 10 liên kết đến các trang web là phù hợp với mong muốn thật sự của

người dùng Tìm ra 10 liên kết phù hợp trong số 27524 liên kết cũng là một

công việc khó khăn đối với người sử dụng Như vậy việc tìm kiếm có nhiều

kết quả trả lại đôi khi cũng là một nhược điểm lớn

 Dịch vụ tìm kiếm trả lại rất ít kết quả hoặc không có kết quả nào cho yêu

cầu tìm kiếm Nguyên do là có thể có nhiều tài nguyên web có nội dung liên

quan nhưng việc tìm kiếm không mang lại kết quả bởi từ khóa trong sử dụng

Trang 28

cho tìm kiếm là không tìm thấy trong dữ liệu tìm kiếm Trường hợp này ít

sảy ra hơn trường hợp trên nhưng đây cũng là một vấn đề cần phải khắc

phục nhằm nâng cao hiệu quả tìm kiếm trên mạng

 Một hiện tượng khác là các kết quả tìm kiếm bởi từ khóa cho kết quả không

như người dùng mong muốn Phần lớn nguyên do là các tài liệu liên quan có

thể mang các từ khóa mô tả khác với từ khóa trong câu truy vấn mặc dù có

nội dung về mặt ngữ nghĩa là phù hợp với nhu cầu người thực hiện tìm

kiếm Điều này dẫn đến một điều không hợp lý là các truy vấn tương tự

nhau về ngữ nghĩa lại có thể đem lại các kết quả rất khác nhau

 Phạm vi tìm kiếm thường chỉ là các thông tin nằm trong các trang web đơn

Các quan hệ ngữ nghĩa, liên kết giữa các trang web không được biểu diễn

Do đó, trong trường hợp chúng ta cần thông tin gồm các phần nằm trên các

tài liệu khác nhau, chúng ta phải thực hiện lần lượt các câu truy vấn tìm

kiếm để thu thập các tài liệu liên quan rồi sau đó tự tổng hợp nội dung

 Khi công việc tìm kiếm là thành công thì kết quả cũng chỉ là các liên kết đến

các trang web Người dùng phải sử dụng trình duyệt để xem và tự trích chọn

ra thông tin cần thiết có trong trang web đó Chưa có cơ chế tự động rút

trích thông tin từ các trang web cho người sử dụng

 Các chương trình máy tính hay công cụ không phải trình duyệt khó có thể

sử dụng các kết quả tìm kiếm của các máy tìm kiếm (search engine) trên

web hiện nay Các công cụ tìm kiếm này thường là các thực thể cô lập

Nguyên nhân chính của những hạn chế và khó khăn được nói ở trên là máy

tính “không hiểu” được nội dung của các trang web Mặc dù đã có những công cụ cho

phép phân tích văn bản, kiểm tra chính tả, đếm từ… nhưng khả năng dịch nghĩa câu

văn, đúc kết nội dung, rút trích thông tin hữu ích cho người sử dụng vẫn còn hạn chế

Chưa có cơ chế phù hợp về mô tả ngữ nghĩa cho nội dung các trang web để máy tính

có thể xử lý, suy diễn và rút trích thông tin một cách thuận tiện

Trang 29

Một cách tiếp cận mới nhằm giải quyết vấn đề này là biểu diễn nội dung trang

web sao cho máy tính có thể dễ dàng xử lý, và sử dụng các công nghệ thông minh để

khai thác ưu điểm của những biểu diễn đó Web ngữ nghĩa – Semantic web được xây

dựng dựa trên ý tưởng này

Web ngữ nghĩa – Semantic web là một dự án về xây dựng môi trường chung

cho trao đổi thông tin bằng cách gắn liền biểu diễn tài liệu với xử lý ngữ nghĩa trong

môi trường WWW Đây không phải là dự án xây dựng một môi trường trao đổi thông

tin toàn cầu song song và tách biệt với WWW [6] mà là một cố gắng mở rộng môi

trường Web dựa trên các chuẩn, ngôn ngữ đánh dấu (markup language) và các công cụ

xử lý liên quan Công nghệ liên quan đến chuẩn, ngôn ngữ đánh dấu, các công cụ xử lý

phục vụ cho việc xây dựng web ngữ nghĩa được gọi chung là công nghệ web ngữ

nghĩa

Người khởi xướng cho Web ngữ nghĩa là Tim Berners-Lee, hiện đang là người

đứng đầu của tổ chức World Wide Web Consortium (W3C) – tổ chức quốc tế về xây

dựng chuẩn cho Web, và cũng là người sáng lập ra Web

2.1 Siêu dữ liệu (Metadata)

Hiện tại, nội dung web chủ yếu được biểu diễn cho người đọc, không phải cho

chương trình xử lý Ngôn ngữ đánh dấu siêu văn bản HTML là ngôn ngữ chính dùng

để viết một trang web (một cách trực tiếp hoặc thông qua các công cụ) Một phần trang

web của một trung tâm tư vấn và thiết kế nhà cửa có thể được biểu diễn như sau:

<h1>Trung tâm tư vấn và thiết kế nhà cửa, nội thất ÁNH SÁNG</h1>

Chào mừng đến với trang web của Trung tâm tư vấn và thiết kế nhà cửa, nội thất ÁNH

SÁNG

Bạn hiện đang có kế hoạch xây nhà? Bạn đã có nhà nhưng đang băn khoăn về trang trí

nội thất? Hãy để chúng tôi san sẻ bớt nỗi lo lắng, băn khoăn của bạn Bạn sẽ cảm thấy

hài lòng vì tính chuyên nghiệp và khả năng sáng tạo của đội ngũ kiến trúc sư đông đảo

Trang 30

Thứ sáu 11am - 3pm<p>

Không làm việc vào thời gian diễn ra <a href=”http://www.worldcup…”>World Cup

2006</a>

Đối với con người, những thông tin được biểu diễn theo cách trên là chấp nhận

được, nhưng đối với máy tính thì việc xử lý thông tin sẽ trở nên khó khăn Việc tìm

kiếm dựa trên từ khóa có thể thực hiện khi những từ như tư vấn, thiết kế nhà cửa, nội

thất được nhận ra dễ dàng bởi danh sách từ đã có Các tác tử (intelligent agent) thông

minh có thể nhận ra đối tượng người tham gia trong quảng cáo Nhưng những công cụ

này không phân biệt được các thông tin chi tiết khác như đối tượng nào là kiến trúc sư,

đối tượng nào là thư ký, và không nhận ra được World Cup 2006 là gì, thời gian đích

xác diễn ra World Cup 2006 ra sao Để biết được khoảng thời gian này, người dùng

phải truy cập vào web site được cho bởi liên có trong trang web href=”

http://www.worldcup…” để xem thông tin thêm

Theo cách tiếp cận web ngữ nghĩa, giải pháp cho vấn đề trên không phải là

phát triển các công cụ thông minh hơn mà là xây dựng các ngôn ngữ biểu diễn khác

HTML cho nội dung trang web Các ngôn ngữ này giúp cho máy tính nắm bắt và xử lý

nội dung một cách dễ dàng hơn Các thành phần được biểu diễn bằng loại ngôn ngữ đó

được gọi là siêu dữ liệu, hay còn gọi là dữ liệu về dữ liệu Đây là một khái niệm tương

đối quen thuộc đối với khoa học công nghệ thông tin Một ví dụ minh họa về mô tả nội

dung trang web bằng siêu dữ liệu:

< architect> Hoàng Mạnh An</architect>

</staff>

</company>

Siêu dữ liệu chính là thành phần mô tả một số ngữ nghĩa của dữ liệu, đây

chính là khởi đầu của khái niệm ngữ nghĩa trong web ngữ nghĩa Nhờ siêu dữ liệu,

Trang 31

những công việc phức tạp như rút trích thông tin trong văn bản, phân tích ngữ nghĩa,

xử lý ngôn ngữ tự nhiên đôi khi trở nên không cần thiết

Việc xây dựng siêu dữ liệu có thể được thực hiện trong quá trình làm nội dung

trang web Với sự phát triển hiện tại của công nghệ thông tin, người sử dụng không

cần phải là chuyên gia về khoa học máy tính thì mới có thể xây dựng trang web Người

sử dụng có thể dùng các công cụ hỗ trợ để vừa xây dựng nội dung, vừa xây dựng siêu

dữ liệu cho nó

Tuy nhiên, một câu hỏi đặt ra là tại sao nên từ bỏ HTML và thay vào đó là sử

dụng các ngôn ngữ siêu dữ liệu của web ngữ nghĩa Để có được câu trả lời thích đáng,

chúng ta có thể so sánh điều kiện hiện tại với sự khởi đầu của web Thực chất, việc xóa

bỏ sử dụng HTML một cách hoàn toàn là không chính xác Quá trình chuyển đổi sử

dụng sẽ phải dần dần được thực hiện Ví dụ, những người sử dụng HTML đầu tiên

quyết định dùng HTML có thể là vì nó được chuẩn hóa và họ mong rằng sẽ có được

những ưu thế do chuẩn mang lại Tiếp đến, ngày càng nhiều người hưởng ứng với môi

trường này vì có nhiều công cụ web HTML tốt hơn ra đời Và đến bây giờ HTML đã

trở thành một chuẩn được chấp nhận trên toàn thế giới

Tương tự như vậy, web ngữ nghĩa ngày càng được nhiều người quan tâm và

phát triển Một thành công ban đầu chúng ta có thể thấy rõ là sự thích ứng của người

dùng đối ngôn ngữ đánh dấu mở rộng XML và cơ cấu tổ chức mô tả tài nguyên RDF

Đây chính là các công cụ quan trọng đối với mô tả siêu dữ liệu

2.2 Ontology

Khái niệm ontology bắt nguồn từ triết học Ontology hay còn gọi là bản thể

học trong triết học là ngành khoa học nghiên cứu về sự tồn tại tự nhiên, một nhánh của

trường phái siêu hình liên quan đến việc xác định các loại thực thể thật sự tồn tại và

cách thức mô tả chúng Ví dụ, theo trường phái này, thế giới được tạo nên bởi các thực

thể xác định có thể nhóm lại thành các lớp trừu tượng dựa trên các thuộc tính chia sẻ

Đây là một nhận xét điển hình thể hiện cho cách nhìn nhận thế giới và cách phân tích

và mô tả thế giới theo quan điểm của bản thể học

Trang 32

Tuy nhiên, trong những năm gần đây, ontology trở thành một khái niệm được

nói đến nhiều trong khoa học máy tính và có nghĩa tương đối khác so với nghĩa ban

đầu của nó Ontology được hiểu là một mô hình dữ liệu biểu diễn các khái niệm trong

một lĩnh vực cụ thể, được sử dụng để lập luận về những đối tượng cùng mối quan hệ

của chúng trong lĩnh vực đó

Thông thường, một ontology bao gồm một danh sách hữu hạn các khái niệm

và các quan hệ giữa những khái niệm này Mỗi khái niệm thể hiện cho một lớp các đối

tượng trong lĩnh vực cụ thể Ví dụ, các khái niệm quan trọng trong một trường đại học

là cán bộ, sinh viên, giáo viên, giảng đường, khóa học, môn học…

Mối quan hệ giữa các khái niệm thường là các quan hệ phân cấp thứ bậc của

các lớp Một quan hệ thứ bậc có thể là quan hệ cha con, một lớp A là lớp con của lớp

B nếu mọi đối tượng của A đều thuộc lớp B Ví dụ, mọi sinh viên đại học đều là học

viên Hình 2.1 mô tả một ví dụ về phân cấp thứ bậc các khái niệm liên quan đến

trường đại học

Hình 2.1 Quan hệ phân cấp thứ bậc

Người của trường đại học

Sinh viên đại học

Học viên cao học

Cán bộ chính

qui của khoa

Cán bộ nghiên cứu

Cán bộ hợp tác đào tạo

Trang 33

Bên cạnh các quan hệ cha con của lớp, ontology cũng mô tả các quan hệ khác:

 Thuộc tính (như giảng viên X giảng dạy học viên Y)

 Ràng buộc giá trị (số tiết dạy tối đa là 150 tiết một học kỳ)

 Quan hệ tách biệt (khoa và bộ phận hành chính khác của trường là tách biệt)

 Các quan hệ lôgíc khác giữa các đối tượng (mọi khoa có ít nhất 3 bộ môn)

Đối với web, ontology phục vụ cho việc chia sẻ hiểu biết về các lĩnh vực

Những chia sẻ này là cần thiết để khắc phục các khó khăn khi sử dụng các thuật ngữ

khác nhau trong trang web để nói về cùng một khái niệm Ví dụ như trang web mô tả

“car” và trang web mô tả “ô tô” thường có thành phần thông tin giống nhau vì cùng

mô tả về một loại đối tượng Bằng cách cùng ánh xạ “car” và “ô tô” đến cùng một

ontology chia sẻ, ngữ nghĩa của các thành phần thông tin trong hai trang web sẽ nhất

quán hơn

Một vấn đề khác là các trang web khác nhau có thể dùng thuật ngữ với những

nghĩa khác nhau Ví dụ như trường đại học A có thể dùng từ “khóa học” để chỉ một

hoạt động học lấy chứng chỉ, nhưng trường đại học B có thể dùng từ đó để chỉ một

đơn vị môn học Như vậy, việc khai thác thông tin sẽ bị hạn chế vì nghĩa của từ khóa

là nhập nhằng Khó khăn này có thể giải quyết bằng cách ánh xạ thuật ngữ cụ thể đến

một ontology chia sẻ hoặc dịnh nghĩa trực tiếp các ánh xạ giữa các ontology Như vậy,

các thuật ngữ sẽ đi cùng với các khái niệm cụ thể trong một ontology chia sẻ Bằng

cách này, các ontology có khả năng liên kết các thao tác ngữ nghĩa

Ontology được sử dụng cho việc tổ chức và điều hướng giữa các trang web

Rất nhiều trang web hiện nay hiển thị cây phân cấp các mức khái niệm ở phía bên

phải Người dùng có thể nhấp chuột để chọn hiển thị nội dung theo các khái niệm đó

Ontology cũng được sử dụng để nâng cao mức độ chính xác của việc tìm kiếm

trên web Các máy tìm kiếm (search engine) có thể tìm đến các trang đề cập đến một

khái niệm trong ontology thay vì tìm tất cả các trang mà từ khóa liên quan xuất hiện

với ý nghĩa không rõ ràng Theo cách này, các khó khăn trong việc tìm kiếm do các

trang web hay câu truy vấn sử dụng các thuật ngữ khác nhau cho cùng một khái niệm

sẽ được khắc phục

Trang 34

Bên cạnh đó, các tìm kiếm trên web cũng có thể khai thác các thông tin mang

tính tổng quát hóa hay cụ thể hóa Nếu câu truy vấn không cho kết quả, máy tìm kiếm

có thể gợi ý cho người sử dụng câu truy vấn tổng quát hơn Thậm chí có thể tự động

thực hiện câu truy vấn tổng quát và sẽ hiển thị nếu người dùng thông qua lời đề nghị

Trong trường hợp truy vấn cho rất nhiều kết quả, máy tìm kiếm có thể đề nghị người

sử dụng các câu truy vấn cụ thể hóa nhằm thu hẹp phạm vi tìm kiếm

Trong trí tuệ nhân tạo (Artificial Intelligence – AI), các ngôn ngữ cho

ontology đã được phát triển và sử dụng trong một thời gian dài Đây chính là nền tảng

cho nghiên cứu phục vụ cho web ngữ nghĩa Ở thời điểm hiện tại, các ngôn ngữ mô tả

ontology quan trọng cho web gồm có:

 XML cung cấp các cú pháp cơ bản cho việc mô tả tài liệu một cách có cấu

trúc, nhưng không áp đặt các ràng buộc ngữ nghĩa lên các biểu diễn này

 XML Schema – lược dồ XML là ngôn ngữ cho phép ràng buộc cấu trúc của

tài liệu mô tả bằng XML

 RDF là một mô hình dữ liệu mô tả các đối tượng (tài nguyên) và mối quan

hệ giữa chúng; Ngôn ngữ này biểu diễn các ngữ nghĩa cơ bản giữa các đối

tượng và được xây dựng dựa trên cú pháp XML

 RDF Schema – lược đồ RDF, là một ngôn ngữ mô tả từ vựng cho phép mô

tả các thuộc tính và các lớp đối tượng tài nguyên trong RDF Các mô tả này

có thể là các quan hệ phân cấp tổng quát, cụ thể của các thuộc tính, các lớp

 OWL (Web Ontology Language) là một ngôn ngữ mô tả từ vựng phức tạp

hơn cho phép mô tả các thuộc tính và các lớp, các quan hệ giữa các lớp, các

ràng buộc số lượng, các thuộc tính đa dạng, các đặc trưng của thuộc tính và

các lớp liệt kê…

2.3 Lôgíc

Lôgíc là một ngành cơ bản nghiên cứu về nguyên lý của suy luận Trước tiên,

lôgíc cung cấp ngôn ngữ hình thức cho phép biểu diễn tri thức Qua đó, lôgíc cũng

cung chấp cho chúng ta ngữ nghĩa hình thức Từ đó, các tri thức gián tiếp có thể được

suy diễn từ những tri thức trực tiếp mô tả bằng ngôn ngữ hình thức cho bởi lôgíc Quá

Trang 35

trình suy luận này được thực hiện bởi các máy suy luận hay mô tơ suy luận (inference

engine), một khái niệm quen thuộc trong AI

Một ví dụ về suy diễn là: giả sử chúng ta biết rằng tất cả các giáo sư đều là cán

bộ giảng dạy của khoa, tất cả cán bộ giảng dạy của khoa đều là cán bộ của trường, và

Toàn là một giáo sư Trong logic vị từ, những thông tin này có thể được biểu diễn như

Tri thức biểu diễn trong ví dụ trên là thường thấy trong các ontology Do đó,

logic có thể được sử dụng để khám phá tri thức ẩn chứa trong các ontology Bằng cách

đó, các mối quan hệ không tường minh và các mâu thuẫn trong ontology có thể được

phát hiện

Tuy nhiên, logic là tổng quát hơn ontology Nó có thể được các tác tử thông

minh sử dụng để ra các quyết định hay chọn lựa các hành động Ví dụ, một tác tử mua

bán (shop agent) có thể quyết định giảm giá cho một khách hàng dựa trên luật

khach_hang_quen (X)  giam_gia(5%),

trong đó khái niệm khách hàng quen (khach_hang_quen) sẽ được quyết định bởi các

thông tin được lưu trữ trong cơ sở dữ liệu của cửa hàng

Thông thường, giữa sức mạnh biểu diễn và hiệu quả tính toán có một sự thỏa

hiệp: sức biểu diễn càng cao thì công việc tính toán để đưa ra kết luận càng phức tạp

Tuy nhiên, hầu hết các tri thức liên quan đến web ngữ nghĩa thường bị giới hạn, thuộc

dạng đơn giản, thường là dạng “Nếu điều kiện, Thì kết quả”; và các số lượng đối

tượng được quan tâm sử dụng trong quá trình suy luận cũng thường là có giới hạn Do

đó, các logic trong web ngữ nghĩa là dễ kiểm soát hơn và được hỗ trợ bởi nhiều công

Trang 36

Một ưu điểm quan trọng của logic là nó cung cấp các giải thích cho kết luận

đưa ra: một chuỗi các bước suy diễn có thể ghi lại trong quá trình lập luận đưa ra kết

quả Không những vậy, Những nghiên cứu về trí tuệ nhân tạo đã phát triển cách biểu

diễn các giải thích gần gũi với con người hơn bằng cách tổ chức các chứng minh như

là một suy diễn tự nhiên, và bằng cách nhóm các bước suy luận nhỏ thành các bước

suy luận khái quát hơn mà con người vẫn có thể nhận thức được Tóm lại, một giải

thích có thể được xây dựng bằng cách lưu vết các câu trả lời cho một tập các sự kiện

cho trước và lưu vết các luật được sử dụng trong suy diễn

Các giải thích cho kết quả suy luận là yếu tố quan trọng trong web ngữ nghĩa

vì chúng làm tăng sự tin cậy của người dùng vào các tác tử trong môi trường web ngữ

nghĩa Các giải thích cũng cần thiết cho các tác tử thực hiện giao tiếp Một số tác tử có

khả năng suy luận để đưa ra kết quả, trong khi các tác tử khác chỉ có khả năng kiểm tra

các bằng chứng nhằm khẳng định mức độ tin cậy và tính đúng đắn của thông tin trao

đổi Ví dụ, tác tử thứ nhất đại diện cho cửa hàng điện tử, gửi một thông điệp “Anh còn

nợ 70.000 VND” đến tác tử thứ hai đại diện cho người mua hàng Thông điệp này

được mô tả bằng ngôn ngữ hình thức sao cho máy có thể xử lý được Tác tử thứ hai sẽ

yêu cầu giải thích cho thông điệp đó; tác tử thứ nhất phải phản hồi lại thông tin là một

chuỗi các ghi nhận về biểu mẫu mua hàng đã thực hiện:

Biểu mẫu ghi nhận việc mua hàng với giá cả 70.000 VNĐ,

Biểu mẫu ghi nhận việc giao hàng hoàn tất,

Các luật mô tả các khái niệm và điều kiện mua bán của cửa hàng:

purchase(X, Item) ∧ price(Item, Price) ∧ delivered(Item,X)  owes(X, Price)

Theo cách này, các luật có thể được mô tả bằng các ontology về thương mại

hay chính sách của cửa hàng, và được chia sẻ giữa các hệ thống khác nhau Đồng thời,

các sự kiện sẽ được lưu vết khi chuyển giao dữ liệu giữa các hệ thống và có thể kiểm

tra được tính tin cậy của dữ liệu thông qua các công cụ (công cụ được sử dụng có thể

là các tác tử) và các luật được chia sẻ

Để logic trở nên có ích với web, nó phải sử dụng được trong mối liên kết với

các dữ liệu khác, và phải được biểu diễn sao cho máy tính có thể dễ dàng nắm bắt và

Trang 37

xử lý Do đó, biểu diễn tri thức logic và chứng minh trong ngôn ngữ web đang là

hướng nghiên cứu rất được quan tâm hiện nay

Ở thời gian đầu, các cách tiếp cận chấp nhận được là biểu diễn được mô tả

bằng XML Nhưng trong tương lai, các luật và chứng minh sẽ cần phải được biểu diễn

ở mức cao hơn như RDF hay các ngôn ngữ ontology, ví dụ như DAML+OIL hay

OWL

2.4 Tác tử (Agent)

Trong khoa học máy tính, tác tử là một đối tượng trừu tượng, là một mô hình

mô tả một phần mềm hoạt động với vai trò như là một người dùng hay một chương

trình trung gian trong mối quan hệ tương tác giữa các tổ chức, hệ thống khác nhau

Theo một cách hiểu khác, tác tử là một đối tượng phần mềm (hoặc là một phần của hệ

thống phần mềm) hoạt động tiên phong một cách tự động và tương đối độc lập Đây là

một khái niệm quen thuộc trong lập trình hướng đối tượng và phát triển phần mềm

hướng thành phần

Một tác tử người sử dụng trong môi trường web có thể nhận nhiệm vụ và sở

thích từ người dùng, tìm kiếm thông tin trong môi trường tài nguyên của web, giao

tiếp với các tác tử khác, so sánh thông tin, lựa chọn và trả lời kết quả cho người dùng

Tác tử không thay thế con người trong môi trường web ngữ nghĩa, và không

nhất thiết phải đưa ra các quyết định một cách độc lập Trong nhiều trường hợp, tác tử

chỉ đóng vai trò thu thập và tổ chức thông tin, biểu diễn các lựa chọn cho người sử

dụng có thể dễ dàng khai thác và làm việc trong môi trường web

Các công nghệ web ngữ nghĩa được sử dụng bởi tác tử có thể là:

 Siêu dữ liệu: được sử dụng để xác định và trích chọn thông tin từ các tài

nguyên web,

 Ontology: được sử dụng để hỗ trợ việc tìm kiếm trên web, giải thích ngữ

nghĩa các thông tin thu được, và giao tiếp với các tác tử khác,

 Logic: được sử dụng để xử lý các thông tin thu nhận nhằm đưa ra các kết

quả theo nhu cầu người sử dụng

Trang 38

Hình 2.2 Tác tử người sử dụng thông minh

Trong tương lai, ngôn ngữ giao tiếp giữa các tác tử có thể thay đổi, đồng thời

vai trò của tác tử và cách thức tác tử hoạt động có thể thay đổi phù hợp với công nghệ

mới

2.5 Tiếp cận theo lớp

Quá trình phát triển web ngữ nghĩa được thực hiện theo các bước, mỗi bước

xây dựng một lớp trên nền của lớp khác Việc xây dựng nền tảng và thích ứng với nền

tảng đó sẽ dễ dàng hơn đối với các bước nhỏ Sẽ rất khó khăn nếu tất cả mọi thứ đều

được đưa ra và cố gắng thực hiện cùng một lúc

Thông thường, một số nhóm nghiên cứu sẽ theo đuổi các hướng khác nhau

cho cùng một vấn đề cần giải quyết Yêu cầu đặt ra là xác định được hướng tiếp cận

phù hợp nhất Tương tự, mặc dù có thể có nhiều giải pháp đề xuất cho cùng một vấn

đề, nhưng xét về mặt kỹ nghệ, tất cả đều cần phải được chuẩn hóa và đi đến thống nhất

chung về giải pháp Khi hầu hết các nhóm nghiên cứu đều nhất trí về một kết quả nào

đó và không đồng tình với những kết quả còn lại, sự thống nhất về giải pháp cho vấn

đề chung sẽ được thiết lập, hay nói cách khác là chuẩn cho giải pháp sẽ hình thành

Khi một chuẩn được ban hành, nhiều tổ chức và công ty sẽ thích ứng với nó

thay vì chờ đợi kết quả thành công của một hướng nghiên cứu khác Sức sống của web

Người sử dụng

Biểu diễn

trên trình

duyệt web

Máy tìm kiếm

Tài liệu WWW

Người sử dụng

Biểu diễn trên trình duyệt web

Máy tìm kiếm

Tài liệu WWW

Trang 39

ngữ nghĩa chính là sự tham gia của các tổ chức, công ty và những cá nhân sử dụng Tự

họ xây dựng công cụ, nội dung và sử dụng chúng Chúng ta không thể đợi cho đến khi

tất cả những viễn cảnh về web ngữ nghĩa được thực hiện đầy đủ rồi mới khai thác nó

Một cách tiếp cận cho xây dựng nền tảng web ngữ nghĩa là xây dựng theo lớp

Hình 2.3 minh họa phác thảo về ý tưởng xây dựng các lớp cơ bản cho web ngữ nghĩa

do Tim Berners Lee đề xuất Một số đặc điểm về các lớp cở bản trong mô hình xây

dựng web ngữ nghĩa là:

Ở lớp thấp nhất, XML đóng vai trò là ngôn ngữ cho phép biểu diễn các tài liệu

web có cấu trúc với các từ vựng được người dùng tự định nghĩa XML phù hợp cho

việc mô tả dữ liệu trao đổi trên web

RDF là mô hình dữ liệu cơ sở, giống như mô hình quan hệ thực thể, cho phép

mô tả một cách đơn giản các đối tượng web (tài nguyên web) Mô hình dữ liệu RDF

không phụ thuộc vào XML nhưng có cú pháp dựa trên XML Do đó, trong Hình 2.3,

lớp RDF nằm trên lớp XML RDF Schema (lược đồ RDF) mô tả cấu trúc của việc mô

hình hóa dữ liệu về các đối tượng thành các phân cấp theo mức Các cấu trúc phục vụ

mô hình hóa là các lớp, thuộc tính, lớp con, quan hệ thuộc tính con, và các ràng buộc

về phạm vi, lĩnh vực RDF Schema được xây dựng dựa trên RDF RDF Schema có thể

được xem như là ngôn ngữ gốc được sử dụng để mô tả các ontology Tuy nhiên vẫn

cần phải có một ngôn ngữ ontology (ontology language) mạnh hơn, có khả năng biểu

diễn các mối quan hệ phức tạp hơn giữa các đối tượng trong web

Lớp ontology vocabulary là các công cụ “từ vựng” sử dụng cho mô tả

ontology Các “từ vựng” này được biểu diễn dựa trên XML và RDF

Lớp logic được sử dụng để hỗ trợ ngôn ngữ ontology, cho phép mô tả các tri

thức khai báo dành cho các ứng dụng cụ thể

Lớp kiểm chứng (proof layer) bao gồm các tiến trình diễn dịch, các biểu diễn

mô tả diễn giải trên ngôn ngữ web từ các lớp thấp hơn và các kiểm chứng các diễn giải

này

Cuối cùng, lớp tin cậy (trust layer) được xây dựng dựa trên việc sử dụng chữ

Trang 40

thức khác phục vụ cho việc đảm bảo tin cậy cho người sử dụng web Thực tế, web chỉ

có thể phát huy được toàn bộ sức mạnh chỉ khi người dùng thật sự tin cậy vào những

thông tin và dịch vụ mà nó mang lại

Trong quá trình xây dựng web ngữ nghĩa theo các lớp, có hai vấn đề cần được

đảm bảo:

 Tương thích với cái có trước (downward compatibility): các tác tử quen với

một lớp phải có khả năng hiểu và sử dụng được các thông tin được viết ở

mức thấp hơn Ví dụ tác tử trong môi trường ngữ nghĩa của OWL phải nắm

bắt được các thông tin được mô tả bằng RDF và lược đồ RDF

 Tương thích với cái có sau (upward compatibility): mặt khác, tác tử quen

với một lớp phải có khả năng khai thác một phần ưu điểm của thông tin mô

tả ở mức cao hơn Ví dụ, một tác tử chỉ thao tác được với ngữ nghĩa mô tả

bằng RDF và lược đồ RDF vẫn phải có khả năng hiểu được một phần thông

tin mô tả bằng OWL (các thành phần được mô tả trong khuôn khổ RDF và

lược đồ RDF)

Hình 2.3 Cách tiếp cận theo lớp trong web ngữ nghĩa

Tiêu đề	Ứng Dụng Công Nghệ Web Ngữ Nghĩa Trong Đào Tạo Điện Tử
Tác giả	Phan Hồ Việt Phương
Người hướng dẫn	TS. Nguyễn Việt Hà
Trường học	Đại học Quốc gia Hà Nội
Chuyên ngành	Công nghệ thông tin
Thể loại	luận văn thạc sĩ
Năm xuất bản	2006
Thành phố	Hà Nội

Định dạng
Số trang	82
Dung lượng	1,53 MB