Tháng 111994, trình duyệt Netscape ra đời và mau chóng thành công. Nó đưa Web dễ tiếp cận hơn với mọi người, nó phổ biến đến nỗi nhiều người nghĩ Netscape đã tạo nên web. Cùng năm, tổ chức W3C được thành lập với mục đích đặt tiêu chuẩn cho ngôn ngữ HTML. Họ cũng phát hành phiên bản HTML tiếp theo HTML 2.0. Tuy nhiên lúc này W3C chả có tiếng nói gì, Netscape thường không tham gia các buổi họp bàn về tiêu chuẩn và sáng tạo HTML theo cách của mình.
Trang 1MÔN: THƯ VIỆN SỐ
ĐỀ TÀI: NGÔN NGỮ ĐÁNH DẤU SIÊU VĂN BẢN HTML
Trang 2MỤC LỤC
1 Lịch sử phát triển ngôn ngữ đánh dấu siêu văn
Năm 1989, Tim Berners-Lee ông đã sáng lập ra ngôn ngữ đánh dấu siêu văn bản HTML HTML lúc này khá đơn giản và chỉ được sử dụng giới hạn tại CERN, các công ty lớn như HP đánh giá thấp tầm quan trọng của web, họ nghĩ rằng web chỉ dành cho mấy thằng nerd (mọt sách) liên lạc với nhau, và điện thoại thì quá đủ
để giao tiếp
Năm 1993, trình duyệt (browser) Mosaic phát hành phiên bản đầu tiên Lúc này họ thêm cho HTML một số tính năng như hiển thị ảnh, form Lúc này internet bắt đầu trở thành đề tài nóng Các nhóm lập trình viên thi nhau tạo ra các trình duyệt của riêng mình Dĩ nhiên HTML được họ thêm thắt đủ thứ, chả có quy tắc chung
Tháng 11-1994, trình duyệt Netscape ra đời và mau chóng thành công Nó đưa Web dễ tiếp cận hơn với mọi người, nó phổ biến đến nỗi nhiều người nghĩ Netscape đã tạo nên web Cùng năm, tổ chức W3C được thành lập với mục đích đặt tiêu chuẩn cho ngôn ngữ HTML Họ cũng phát hành phiên bản HTML tiếp theo HTML 2.0 Tuy nhiên lúc này W3C chả có tiếng nói gì, Netscape thường
Trang 3không tham gia các buổi họp bàn về tiêu chuẩn và sáng tạo HTML theo cách của mình
Tháng 8-1995: Người khổng lồ Microsoft tung ra IE 1.0 đối đầu trực tiếp với Netscape, đây được xem là cuộc chiến trình duyệt đầu tiên Lúc này mọi thứ vẫn lộn xộn, chả ai phát triển HTML theo tiêu chuẩn Microsoft cài IE làm trình duyệt mặc định cho Windows, với lợi thế của mình Microsoft đã ăn tươi nuốt sống Netscape
Sau này, với sự phát triển của Web, HTML nhanh chóng được nâng cấp, HTML 3.2 được đưa ra vào năm 1997, sau đó mua xuân năm 1998 là HTML 4.0
Đến 2002, IE đã chiếm đến 95% thị phần trình duyệt, với viễn cảnh như vậy thì việc tạo nên một tiêu chuẩn cho HTML là điều bất khả thi, mọi thứ đều nằm trong tay Microsoft IE 6.0 là hệ điều hành chủ đạo, dù nó vẫn tuân thủ theo tiêu chuẩn HTML 4.0, tuy nhiên nó vẫn chơi theo cách của mình Có rất ít sự thay đổi suốt nhiều năm với thế giới Web
Năm 2004: sự ra đời của FireFox mang đến một luồng gió mới cho thị phần trình duyệt, nó nhanh hơn IE, và chạy theo tiêu chuẩn được đặt ra Các thế hệ trình duyệt tiếp theo như Opera, Safari, Google Chrome được tung ra Cuộc chiến trình duyệt bắt đầu bước vào cuộc chiến thứ 2, IE và những người bạn
Cùng với sự phát triển của Internet, HTML 4.0 trở nên già cỗi, W3C tiếp tục đưa ra phiên bản 4.1 và 4.2 được gọi là XHTML (HTML + XML) Tuy nhiên mọi chuyện chả đi dến đâu, lúc này HTML trở nên khó hiểu hơn so với ban đầu Lúc này, WHATWG( Web Hypertext Application Technology Working Group), một nhóm nghiên cứu khác, đã tạo ra HTML5, đơn giản hơn, mạnh mẽ hơn Sau này W3C đã chọn HTML5 làm tiêu chuẩn cho Web
2 Một số khái niệm cơ bản.
2.1 Ngôn ngữ đánh dấu siêu văn bản là gì?
Siêu văn bản (tiếng Anh: hypertext) là văn bản của một tài liệu có thể được truy tìm không theo tuần tự Người đọc có thể tự do đuổi theo các dấu vết liên quan qua suốt tài liệu đó bằng các mối liên kết xác định sẵn do người sử dụng tự lập nên
Trang 4Trong một môi trường ứng dụng siêu văn bản thực sự, người đọc có thể trỏ vào chỗ tô sáng (highlight) bất kì từ nào của tài liệu và tức khắc nhảy đến những tài liệu khác có văn bản liên quan đến nó Cũng có những lệnh cho phép người đọc
tự tạo cho riêng mình những dấu vết kết hợp qua suốt tài liệu Các trình ứng dụng dùng siêu văn bản rất hữu ích trong trường hợp phải phải làm việc với số lượng văn bản lớn, như các bộ từ điển bách khoa và các bộ sách nhiều tập
Một số ngôn ngữ siêu văn bản tiêu biểu: html, xml:
HTML (Hypertext Markup Language) - Ngôn ngữ đánh dấu siêu văn bản
HTML là loại ngôn ngữ dùng để định dạng dữ liệu Tất cả các trang web bạn đang
duyệt đều được tạo nên từ các thẻ HTML Dù website c được lập trình bằng ngôn ngữ nào thì khi được trả về trình duyệt web, sẽ chỉ nhận được các mã HTML Ví
dụ để định dạng một đoạn văn bản bạn sử dụng cặp thẻ , để xuống dòng bạn sử dụng thẻ HTML cùng với HTTP tạo nên nền móng của 1 loại dịch vụ mà chúng ta gọi là web như ngày nay
XML (Extensible Markup Language) - Ngôn ngữ đánh dấu có thể mở rộng
Khác với HTML, XML không định nghĩa bất cứ thẻ nào cả Tất cả các thẻ
và ý nghĩa của chúng đều do bạn tạo ra XML được tạo ra để xác định dữ liệu và do
đó được dùng như một công cụ để truyền tải dữ liệu có cấu trúc giữa các ứng dụng, đặc biệt là ứng dụng WEB
2.2 Ngôn ngữ đánh dấu siêu văn bản HTML.
HTML (tiếng Anh, viết tắt cho HyperText Markup Language, hay là "Ngôn
ngữ Đánh dấu Siêu văn bản") là một ngôn ngữ đánh dấu được thiết kế ra để tạo nên các trang web với các mẩu thông tin được trình bày trên World Wide Web HTML được định nghĩa như là một ứng dụng đơn giản của SGML và được sử dụng trong các tổ chức cần đến các yêu cầu xuất bản phức tạp HTML đã trở thành một chuẩn Internet do tổ chức World Wide Web Consortium (W3C) duy trì Phiên bản chính thức mới nhất của HTML là HTML 4.01 (1999) Sau đó, các nhà phát triển đã thay thế nó bằng XHTML Hiện nay, HTML đang được phát triển tiếp với phiên bản HTML5 hứa hẹn mang lại diện mạo mới cho Web
Trang 5Bằng cách dùng HTML động hoặc Ajax, lập trình viên có thể được tạo ra và
xử lý bởi số lượng lớn các công cụ, từ một chương trình soạn thảo văn bản đơn giản – có thể gõ vào ngay từ những dòng đầu tiên – cho đến những công cụ xuất bản WYSIWYG phức tạp
HTML không phải là ngôn ngữ lập trình, nó là ngôn ngữ trình bày
3 Một số ngôn ngữ cơ bản của HTML.
3.1Cấu trúc cơ bản.
Cấu trúc của HTML rất đơn giản và logic, với bố cục từ trên xuống dưới, từ trái qua phải, với 2 phần chính là HEAD và BODY Các website viết bằng HTML đều tuân theo cấu trúc cơ bản như sau:
- Mọi trang HTML đều phải khai báo DOCTYPE (định nghĩa chuẩn văn bản) ngay từ dòng đầu tiên
- Thẻ <html> cho trình duyệt biết mở đầu và kết thúc của trang HTML
- Thẻ <head> chứa tiêu đề và các thông tin khai báo, các thông tin ẩn khác
- Thẻ <body> sẽ hiển thị nội dung của trang web Đây là phần thông tin mà người dùng sẽ nhìn thấy khi trình duyệt đọc các mã HTML
- Mọi kí tự nằm giữa dấu <!– và –> sẽ được xem là thẻ comment và sẽ bị trình duyệt bỏ qua, không xử lý và không hiển thị
<html>
<head>
<title>Đây là thẻ đánh dấu tiêu đề trang web</title>
<! Comment: Các thông tin khai báo, các thông tin ẩn >
</head>
<body>
<! Comment: Nội dung trang web mà người dùng sẽ thấy >
<b>Đây là dòng chữ in đậm</b>
<i>Đây là dòng chữ in nghiêng</i>
</body>
</html>
3.2 Định dạng văn bản.
Trang 6• Văn bản sẽ được định dạng trong thẻ <BODY>Nội dung văn bản</BODY> Nội dung trong thẻ này chính là nội dung trên trangweb
Ví dụ: Khi điền nội dung như hình ảnh dưới vào thẻ <body>
Thì nội dung đó xuất hiện trên trang web như hình ảnh dưới
• Các đề mục Headings
Các đề mục này sẽ thể hiển trong thẻ <H1></H1> cho đến
<H6></H6>
Ví dụ:
Trang 7<H1> Văn bản này được định dạng ở đề mục cấp </H1>
<H2> Văn bản này được định dạng ở đề mục cấp </H2>
<H3> Văn bản này được định dạng ở đề mục cấp </H3>
<H4> Văn bản này được định dạng ở đề mục cấp </H4>
<H6> Văn bản này được định dạng ở đề mục cấp </H5>
<H6> Văn bản này được định dạng ở đề mục cấp </H6>
Thì trên trang web sẽ xuất hiện như sau:
• Canh lề: Chỉnh lề trái, phải, trên , dưới cho văn bản bằng các thẻ: <center> ,
<Left>, <right>, <top>, <bottom>
• Tạo danh sách: có 2 thẻ để tạo danh sách:
<UL> : Tạo danh sách không có số thứ tự
<OL>: Tạo danh sách có thứ tự
<Li>: Tạo phần tử trong danh sách đó
Ví dụ:
<OL>
<Li> Thư viện số </Li>
<Li> Xử lý 1 </Li>
<Li> Xử lý 2 </Li>
</OL>
Trang 84 Ngôn ngữ đánh dấu siêu văn bản HTML trong thư việ số.
4.1 Mô hình đối tượng.
Khả năng giao diện của người sử dụng trình bày công việc với người sử dụng phụ thuộc vào khả năng hiểu các thành phần khác nhau, có liên quan với sự tạo thành một đối tượng thư viện Siêu dữ liệu cấu trúc dùng để mô tả quan hệ Các ngôn ngữ đánh dấu là một phương pháp biểu diễn cấu trúc trong văn bản Chẳng hạn, ở một trang HTML, tag <Img> là siêu dữ liệu cấu trúc chỉ thị vị trí của một ảnh
4.2 Tính liên tác.
Siêu dữ liệu đóng vai trò quan trọng ở nhiều khái cạnh của dữ liệu, nhưng đặc biệt quan trọng đối với tính liên tác Siêu dữ liệu thường được chia làm 3 loại: Siêu dữ liệu mô tả được dùng cho thư mục và tìm kiếm, siêu dữ liệu cấu trúc liên quan tới các đối tượng khác và một phần trong số đối tượng liên quan với nhau Siêu dữ liệu quản trị được dùng để quản trị cơ sở dữ liệu, bao gồm điều khiển truy cập Đối với tính liên tác, một số dữ liệu phải được trao đổi giữa các máy tính Điều này yêu cầu thống nhất về tên trường siêu dữ liệu, các dạng dùng để mã hóa
và thống nhất về mặt ngữ nghĩa
5 Nhận xét đánh giá.
• Ưu điểm
- Đơn giản
- Cố định hướng trình bày
- Được đọc bằng những trình duyệt (browser)
Trang 9- Được các công ty hỗ trợ phát triển: Internet Explorer, Netscape, Navigator, Mosaic, …
• Nhược điểm
- Phải chờ thông qua các thẻ mới
- Số thẻ hạn chế
Trang 10DANH SÁCH TÀI LIỆU THAM KHỎA
1 Đỗ Quang Vinh, 2009 Thư viện số chỉ mục và tìm kiếm Nhà xuất bản Đại học Quốc gia Hà Nội, 221 trang
2 Nguyễn Thế Hùng ( Hiệu đính) Thiết kế trang WEB bằng ngôn ngữ HTML Nhà xuất bản Thống Kê Hà Nội, 248 trang