Năm 1679, Leibnitz tưởng tượng ra một thiết bị mà trong đó các con số nhị phân được thể hiện bằng những hạt nhỏ hình cầu, tuần hoàn trong một cỗ máy như kiểu máy trong trò chơi bắn đạn,
Trang 1Chuyển dạng tài liệu dễ dàng hơn với công nghệ số
Paul Conway - Trưởng phòng, Phòng Bảo quản, Thư viện Trường Đại học Yale
Tóm tắt
Bài viết này nhằm ba mục đích Trước tiên, bài viết định nghĩa các công nghệ số dưới góc độ của truyền thông và mã hoá Tiếp theo, bài viết trình bày những thành phần then chốt của một hệ thống công nghệ ảnh số (digital imaging system)
và những bước quan trọng nhất trong quá trình tạo hình ảnh
số Cuối cùng, bài viết nêu ra một số vấn đề lớn cần phải lưu
ý khi các thư viện và trung tâm lưu trữ chuyển từ quá trình thử nghiệm công nghệ số sang sử dụng nó như một công cụ
để chuyển đổi cách thức hoạt động của mình
Trang 2hữu ở mọi nơi Số bàn phím nhiều hơn cả số nhân viên văn phòng Ai cũng có riêng một trang Web Không còn ai phải đem theo tiền mặt Những từ như "bitslag", "jitterati",
"NIMQ" và "CGIJoe" xuất hiện trong những câu chuyện thường ngày Những nhà tỷ phú công nghệ dường như sở hữu những bản sao kỹ thuật số của tất cả những kho tàng nghệ thuật Đối với các thư viện và trung tâm lưu trữ, lo ngại dường như càng tăng lên rằng nếu chúng ta không áp dụng
kỹ thuật số, không hoà mình vào kỹ thuật số, không tư duy
kỹ thuật số thì chúng ta đang tự giam mình trong một bảo tàng giấy khổng lồ
Thế nhưng, thách thức lớn nhất mà chúng ta gặp phải có lẽ không phải là đi theo công nghệ số mà phải là xây dựng một ngôn ngữ chung để mô tả những biến đổi có tác động phi thường như vậy tới cuộc sống hàng ngày của chúng ta Một vốn từ chung là yếu tố then chốt để xây dựng một xã hội hành động và một tầm nhìn chung về tương lai giữa những người đang gánh trách nhiệm lưu giữ các nguồn lực văn hoá của đất nước Jim Taylor và Watts Wacker chỉ ra rằng "Nếu nhìn lại lịch sử, giá trị thực sự đọng lại từ cuốn Những xu hướng lớn (Megatrends) của Naisbitt và Làn sóng thứ ba (Third Wave) của Toffler's hoá ra lại là từ ngữ chứ không phải thế giới quan" Không đâu mà từ ngữ lại đáng để bàn hơn là trong cách nhìn của chúng ta về vị trí của công tác
Trang 3bảo quản trong thế giới số mà chúng ta đang sống
Những khái niệm cơ bản về kỹ thuật số
ở mức độ cơ bản nhất, các công nghệ số là một sự tiếp nối cách thức mà từ xưa đến nay chúng ta giao tiếp với nhau Nhu cầu giao tiếp tạo ra động cơ và cơ sở hợp lý cho sự phát triển của đủ loại công nghệ Thế giới số ngày nay gắn liền với việc sáng tạo, chia sẻ và sử dụng thông tin dưới dạng số Thông tin số hoá là những dữ liệu được cấu trúc và xử lý, lưu trữ và nối mạng, được trả tiền và được bán
Thông tin nằm ở nhiều dạng khác nhau Một trong những cách phân biệt các dạng này là phân biệt giữa thông tin
tượng hình và thông tin mã hoá Chúng ta hãy mô tả điều này bằng cách nhìn vào rất nhiều cách biểu diễn chữ cái phổ biến nhất trong bảng chữ cái Latinh - chữ cái E - bắt đầu với những biểu tượng sơ khai của bảng chữ cái in
Một bài học lịch sử
Thời kỳ từ phát minh của Guntenberg vào giữa thế kỷ 15 cho đến năm 1500 thường được gọi là sơ kỳ Vào thời kỳ này, các nhà in và nhà làm sách phải tốn khá nhiều công sức để làm cho sản phẩm của mình - từ kiểu chữ, định dạng đến trình bày - có bề ngoài và cách sử dụng giống như những cuốn sách viết tay của những thế kỷ trước Chỉ đến khi lý
Trang 4thuyết về bảng chữ cái và lý thuyết về sách xuất hiện vào khoảng thời kỳ mà tác phẩm cổ điển của Geofroy Tory được thể hiện trên cấu trúc bảng chữ cái Latinh, những nhà làm sách mới có thể bắt đầu tận dụng được phát kiến công nghệ của Gutenberg
Sơ đồ 1 là minh hoạ của chữ hoa "E" trong tác phẩm Champ Leury của Tory năm 1529 được viết nhằm phát triển lý
thuyết về bảng chữ cái trên cơ sở các bộ phận của cơ thể người và những nguyên lý cơ bản của Ơ-clit (Euclid) ở đây, chữ cái "E" là một mẫu vẽ bằng mực trên giấy
Thế giới được định hình bằng các chuỗi số 1 và số 0 vốn tồn tại đã từ rất lâu ý tưởng về máy tính số bắt nguồn từ hơn
300 trước đây trong bộ óc đầy sáng tạo của nhà toán học người Đức Gottfried Wilhelm von Leibnitz Năm 1679, Leibnitz tưởng tượng ra một thiết bị mà trong đó các con số nhị phân được thể hiện bằng những hạt nhỏ hình cầu, tuần hoàn trong một cỗ máy như kiểu máy trong trò chơi bắn đạn, được điều khiển bởi một dạng sơ khai của phiếu đục lỗ Ông
mô tả một hệ thống số hoàn chỉnh mà trong đó tất cả các phép tính đều có thể biểu diễn bằng những tập hợp của số 1
và số 0 - cách tiếp cận giống hệt cách mà các công nghệ số ngày nay đang sử dụng
Chúng ta đang sống trong kỷ nguyên sơ khai của kỹ thuật số
Trang 5- thời kỳ được đánh dấu bằng những nỗ lực thầm lặng nhằm làm tạo ra những sản phẩm kỹ thuật số có hình thức và tính năng giống như những sản phẩm công nghệ tương tự
(analog) cùng loại Nhưng chỉ khi nào chúng ta xây dựng được một lý thuyết về biểu diễn thông tin dạng số chúng ta mới có thể khai thác hết sáng tạo toán học của Leibnitz Ngày nay, lý thuyết đó đang được hình thành
Sơ đồ 2 là một mẫu chữ tượng hình khác - chữ Braille ở đây chữ cái "e" được biểu diễn bằng những dấu chấm nổi to và nhỏ theo những đường kẻ có thể cảm nhận được Cũng cần lưu ý rằng cùng một mẫu chữ có thể được hiểu hoặc là chữ
"E" hoặc là số "5" tuỳ thuộc ngữ cảnh của mẫu chữ đó được
sử dụng Ngữ cảnh cũng là ý tưởng rất quan trọng đối với việc biểu diễn thông tin dưới dạng số Đối với chữ Braille, nếu bạn biết ngữ cảnh và hiểu được mẫu chữ, việc giao tiếp
sẽ nhanh chóng và hiệu quả
Ngôn ngữ Ký hiệu của Mỹ sử dụng dấu hiệu làm biểu tượng
Đó là ngôn ngữ mà người ta kết hợp hình dáng và cử chỉ của bàn tay để truyền đạt ý nghĩa Hình dáng mà không có cử chỉ mới chỉ là một nửa của quá trình (truyền tin) Giao tiếp phụ thuộc vào việc cùng hiểu ý nghĩa của cả hai thành phần đó của ngôn ngữ Sơ đồ 3 là sự thể hiện dưới dạng tĩnh của chữ cái "E"
Trang 6Tuy nhiên, trong hiệu lệnh bằng cờ, cách thức cử động lại chính là biểu tượng Việc chuyển đổi từ một sự kết hợp giữa
cờ và tay sang một sự kết hợp khác tạo ra một sự liên kết thông tin Sơ đồ 4 là một hình thức biểu diễn khác dưới dạng tĩnh của chữ cái "E" Những lý thuyết về truyền thông kỹ thuật số đang hình thành vẫn chưa giải thích đầy đủ về
những giác quan khác nhau mà chúng ta thường sử dụng để giao tiếp trực tiếp - đó là những đặc điểm tinh tế của ngôn ngữ hành động, cử chỉ và giọng điệu Và khi truyền thông kỹ thuật số càng trở nên tinh vi, sự phụ thuộc của nó vào máy móc là một trở ngại lớn
Mặc dù vậy, một số hình thức đầu tiên của truyền thông trực tiếp hiện đại qua những khoảng cách lớn lại mang đặc trưng của kỹ thuật số Sơ đồ 5 là một ví dụ về Máy điện báo bằng hình ảnh của George Murray từng truyền tin từ Luân Đôn tới Deal bắt đầu từ năm 1794 Hệ thống này bao gồm các bục nổi được đặt đối xứng ngang nhau Trên mỗi bục nổi này có một bảng lớn gồm sáu lỗ vòng tròn lớn có thể đóng bằng các các cửa sập bằng gỗ - khá là giống với các kiểu chữ Braille -
do một nhân viên đã qua đào tạo điều khiển Các báo cáo cho thấy một thông điệp có thể truyền dọc một chuỗi 15 trạm trong vòng vài phút Nhưng hãy thử tưởng tượng xem cần tổng số bao nhiêu nhân viên hành chính để vận hành hệ
Trang 7thống như vậy!
Con đường phát triển từ Điện báo Hình ảnh tới truyền thông
kỹ thuật số hiện đại được đánh dấu bằng những chuyển đổi liên tiếp từ biểu tượng sang mã số Samuel F.B Morse phát minh ra mã số gồm các dấu chấm và gạch ngang làm ngôn ngữ cho máy điện báo của ông Radio - hay điện báo không dây - cũng bắt nguồn từ mong muốn mở rộng truyền thông
kỹ thuật số của Morse tới những nơi mà đường dây không thể với tới được ứng dụng đầu tiên của công nghệ tương tự
sử dụng các sóng liên tục là việc truyền các dấu chấm và gạch ngang của tín hiệu Morse tới các tàu trên biển Việc mã hoá chữ cái E bằng mã 01100101 trong bảng mã ASCII hiện nay bắt nguồn từ các lý thuyết của Leibnitz và công nghệ thực tiễn của Samuel Morse hơn là bắt nguồn từ công nghệ phát thanh và truyền hình
Mã hoá bằng số - một số khái niệm cơ bản
Hệ thống kỹ thuật số (digital) sử dụng các con số để biểu diễn một đối tượng cụ thể hoặc một ý tưởng trừu tượng Số hoá (digitization) là quá trình chuyển đối tượng hoặc ý tưởng
đó thành một mã số Giới hạn của công nghệ kỹ thuật số là
hệ thống mã hoá chỉ sử dụng hai con số - số 1 và số 0 - vì vậy mà ta có khái niệm nhị phân (binary) Mỗi vị trí số trong
hệ thống là một bit Trong thế giới số bit là vật chất; chúng
Trang 8chiếm không gian; chúng cần thời gian để di chuyển từ vị trí này sang vị trí khác Người ta có thể đếm và mô tả được một tập hợp các bit, giống bất cứ một thứ nào khác Cách phổ biến nhất để đếm các bit trong một hệ thống là sử dụng
"byte" hay tám bit, mặc dù công nghệ máy tính đã không còn sử dụng byte như là một đối tượng độc lập từ hàng thập
Trang 9của cụm từ "picture element" Giống như các đối tượng, các ảnh số được mô tả thông qua ba đặc trưng: độ phân giải, khoảng động và kích thước điểm sáng
Thời gian gần đây, khái niệm thứ tư, giá trị tín tông màu (tonal value), được áp dụng để mô tả đặc trưng của một "ảnh số", một thuật ngữ gây nhầm lẫn về sự thể hiện dưới dạng số của một bức ảnh, ví dụ như ảnh chụp Một ảnh ánh xạ bit là một kiểu trình bày mã hoá dạng số chứ không phải là một biểu tượng được mã hoá dạng số như là chữ cái mà chúng ta
- Kích thước điểm sáng (pixel size): phần của lưới điểm sáng
mà một máy quét (scanner) có thể nhận biết và mã hoá được
- Tông màu (tone): mức độ mà một bức ảnh chuyển tải các khoảng độ chói của một cảnh gốc
Độ phân giải là số điểm sáng (hay số chấm) được sử dụng để
mã hoá một đoạn 2,54 cm (1 inch) theo chiều ngang và/hoặc chiều đứng Hãy quan sát một mẩu giấy kẻ dùng để vẽ biểu
Trang 10đồ Số các khối nhỏ trong một inch liên tiếp hướng lên hoặc xuống của tờ giấy chính là độ phân giải Số điểm sáng trong một đoạn nhỏ càng nhiều thì độ phân giải càng lớn và các kiểu hình ảnh hiển thị càng chính xác hơn trên một bề mặt nào đó có thể biểu diễn được dưới dạng số Mô tả một bức ảnh bằng 300 điểm chấm trên một inch (dots per inch - dpi) nghĩa là 300 điểm sáng được sử dụng để thể hiện mỗi inch chạy ngang trên bề mặt Đôi khi người ta (nhầm lẫn) cho rằng một bức ảnh có 300 điểm sáng theo chiều ngang cũng
sẽ được biểu diễn bởi 300 dòng theo chiều đứng Cấu trúc thực tế của một khung lưới số phụ thuộc vào năng lực của thiết bị quét hình
Sơ đồ 6 là một chữ cái e cao 3 mm ở độ phân giải 600 dpi được quét từ vi phim âm bản tại Thư viện Đại học Yale Lưu
ý rằng mẫu chữ mã hoá bằng số chiếm khoảng 4900 bit trong máy tính so với 8 bit cần để dùng cho các biểu tượng
mã hoá bằng của bảng mã ASCII
Khoảng động chỉ số lượng mầu hoặc các sắc thái đậm nhạt (shades of gray) có thể có trong một bức ảnh cụ thể Khoảng động đôi khi còn được gọi là "độ sâu" và thường được thể hiện bằng số bit trên một điểm sáng Trong chế độ quét ảnh lưỡng sắc, số màu sắc ứng với mỗi điểm sáng được làm tròn thành 0 (trắng) hoặc 1 (đen) Mỗi bit thông tin được dùng để
Trang 11mã hoá giá trị của điểm sáng đó Trong chế độ quét ảnh xám
8 bit, số bit của bức ảnh mẫu tương ứng với mỗi điểm sáng được làm tròn đến một trong số 256 giá trị, mỗi giá trị biểu diễn các mức độ sáng tăng dần liên tục Để biểu diễn mỗi điểm sáng cần 8 bit thông tin Trong chế độ quét ảnh đều màu, ba màu sắc của hệ màu được biểu diễn bằng một trong
số 256 sắc thái phù hợp và được mã hoá bằng 24 bit (8 bit cho mỗi màu) Hai hệ màu nổi bật là Đỏ/Xanh da trời/Xanh nước biển dùng để chiếu trên màn hình và Lục lam/Đỏ
tươi/Vàng dùng để in bằng kỹ thuật số
Kích thước điểm sáng là một đơn vị đo lường quan trọng dùng để đo khả năng của một phần cứng nào đó của máy quét trong việc thể hiện trọn vẹn các kiểu dáng một mặt phẳng "Độ phân giải thực" của một máy quét là phần của mặt phẳng mà máy có thể nhận biết được "Độ phân giải " của một máy quét là số điểm sáng trong mỗi inch liên tiếp của một dòng (array) khi không có sự hiệu chỉnh về quang học Muốn có độ phân giải thực lớn hơn phải phụ thuộc kỹ thuật cơ khí và điện của một thiết bị nhất định Đôi khi các nhà sản xuất máy quét sử dụng các giải pháp phần mềm (gọi
là độ phân giải tổng hợp) để bù đắp cho sự hạn chế về độ phân giải thực Điều quan trọng là nên thận trọng đối với các khẳng định của nhà sản xuất máy quét, thử nghiệm và đánh giá chất lượng tỉ mỷ trước khi quyết định mua các thiết bị
Trang 12quét
Tái tạo tông màu chỉ mức độ mà một bức ảnh chuyển tải các khoảng chói của một cảnh gốc (hoặc của một bức ảnh được tái tạo lại trong trường hợp xử lý ảnh kỹ thuật số) Theo Reily và Frey, tông màu "là yếu tố chất lượng quan trọng nhất và duy nhất của bức ảnh" Tái tạo tông màu là quá trình khớp lại, điều chỉnh hoặc tăng cường các tông màu tương ứng với các tông màu của tài liệu gốc Chính vì tất cả các thành phần khác nhau của một hệ thống công nghệ ảnh số tham gia vào tham gia vào quá trình tái tạo tông màu nên thường rất khó kiểm soát"
Độ phân giải, khoảng động, độ phân giải thực và tông màu kết hợp với nhau tạo nên chất lượng của một bức ảnh Khi được định nghĩa và đo lường cẩn thận, những thuật ngữ này
có thể dùng để mô tả những đặc trưng của một bức ảnh, so sánh những đặc tính về chất lượng giữa hai hoặc nhiều bộ sưu tập ảnh và so sánh bức ảnh số với bản gốc của nó Người
ta cũng có thể kết hợp các giá trị của độ phân giải và khoảng động của một tấm ảnh nào đó để mô tả kích thước của một bức ảnh ở góc độ lượng dữ liệu cần thiết để thể hiện bức ảnh
đó dưới dạng số
Mô tả các đối tượng số Việc mô tả một bức ảnh hoặc một
bộ sưu tập ảnh dưới góc độ chất lượng và số lượng chỉ mới
Trang 13là một nửa của quá trình tạo hình ảnh số Dữ liệu số để mô tả chính bản thân đối tượng đó cũng không kém phần quan trọng Trong các hệ thống tạo hình ảnh số, những dữ liệu mô
tả đó tồn tại dưới dạng liên kết của ít nhất ba thành phần Thành phần thứ nhất là các dữ liệu mang tính kỹ thuật
(thường được gọi là đầu ảnh (image header) mô tả định đạng của bức ảnh số và các phương thức dữ liệu số thô được nén
để tiết kiệm không gian lưu trữ và thời gian truyền
Thành phần thứ hai là các dữ liệu mô tả những đặc tính của của đối tượng số (có thể bao gồm một hoặc nhiều bức ảnh số) Siêu dữ liệu là dữ liệu mô tả về dữ liệu và vì vậy về cơ bản nó được gắn với khả năng truy cập của một đối tượng nào đó Nếu chỉ là những ánh xạ nhị phân đơn thuần, các ảnh
số hoá rất vô vị và không thể tìm thấy được hoặc không hiểu được về chúng nếu không có các siêu dữ liệu ở mức độ nào
đó
Thành phần mô tả thứ ba là thông tin mô tả các mối quan hệ giữa hai hoặc nhiều các đối tượng số khác nhau Các chỉ mục có cấu trúc là một thành phần quan trọng đối với bất cứ
hệ thống tạo hình ảnh kỹ thuật số nào mà nội dung của hệ thống về bản chất có trật tự thứ bậc (như các kho tài liệu lưu trữ, sách, tài liệu cắt báo (scrapbooks), các bộ sưu tập ảnh bí mật và các loại tương tự) Hiếm có đối tượng số hoá nào mà
Trang 14không thể tăng cường khả năng truy cập thông qua việc sử dụng các chỉ mục có cấu trúc Thông tin về cấu trúc có thể nằm ở các loại dữ liệu tách biệt (chẳng hạn ) hoặc được gắn trực tiếp vào chính bản thân siêu dữ liệu đó (chẳng hạn các đề mục môn loại có kiểm soát trong một bản ghi thư mục)
Tóm lại, trung tâm của thế giới kỹ thuật số là truyền thông
mà điều đó không thể diễn ra nếu thiếu đi một vốn từ chung
và một hệ thống các biểu tượng chung Tạo hình ảnh số là việc thể hiện thế giới mà chúng ta có thể cảm nhận (nhìn, sờ, nghe, ngửi và nếm) bằng những con số Các bức ảnh dưới dạng ánh xạ bit chỉ là những bức ảnh thiếu thông minh Tất
cả ý nghĩa được bao hàm trong hệ thống công nghệ số bắt nguồn từ lớp trên của lớp mã hoá bằng con số mà đa phần phải do con người thực hiện chứ không phải máy móc Và như vậy, suy cho cùng, tạo hình ảnh kỹ thuật số liên quan chủ yếu đến chúng ta nhiều hơn là liên quan đến những công
cụ mà chúng ta sử dụng
Quá trình và sản phẩm tạo hình ảnh số
Bây giờ chúng ta sẽ chuyển sang nghiên cứu về các quá trình tạo hình ảnh số và các sản phẩm của chúng qua việc xem xét hai mô hình tổng quát