Trong các tài liệu và các phương tiện truyền thông, từ đa phương tiện được dùng như một danh từ, nó bị quá tải và dùng để chỉ nhiều loại phương tiện truyền thông, công nghệ, hệ thống và
Trang 1Chương 1 Tổng quan về truyền thông đa phương tiện
và dữ liệu đa phương tiện
M ục đích:
Giới thiệu các khái niệm cơ bản về dữ liệu đa phương tiện, xử lý và truyền thông đa phương tiện, về các ứng dụng và phân loại hệ thống đa phương tiện Những thách thức trong phát triển các hệ thống đa phương tiện
2 Các ứng dụng đa phương tiện
3 Phân loại các hệ thống đa phương tiện
4 Những thách thức của xử lý và truyền thông đa phương tiện
Trang 21 Các khái niệm
Trước khi định nghĩa tính toán và truyền thông đa phương tiện, chúng ta tìm hiểu về các kiểu phương tiện truyền thông
Ph ương tiện (media) đề cập tới các kiểu thông tin hay các kiểu mang thông tin như
dữ liệu chữ số, hình ảnh, âm thanh và video Có nhiều cách để xếp loại phương tiện truyền thông Nói chung, các cách xếp loại dựa trên các định dạng vật lý và các mối quan
hệ của phương tiện truyền thông với thời gian Trong tài liệu môn học này, chúng ta xếp loại phương tiện truyền thông trên cơ sở chiều thời gian của phương tiện truyền thông Với cách phân loại này, có 2 loại phương tiện truyền thông: phương tiện tỉnh (static media) và phương tiện động (dynamic media)
Ph ương tiện tỉnh không có chiều thời gian, nội dung và ý nghĩa không phụ thuộc
vào thời gian trình bày Phương tiện tỉnh bao gồm chữ số (alphanumeric), đồ hoạ (graphics), hình ảnh tỉnh (still images)
Ph ương tiện động (Dynamic media) có chiều thời gian, ý nghĩa và sự chính xác phụ
thuộc vào tốc độ mà nó được trình bày Phương tiện động bao gồm âm thanh (audio), hình ảnh động (animation), phim (video) Ví dụ: Để nhận biết sự chuyển động liên tục, video phải được phát lại 25/30 ảnh (frames) trong một giây Tương tự như vậy, khi ta phát lại một tin nhắn thoại hoặc âm nhạc đã được ghi âm, chỉ với một tốc độ phát lại tự nhiên hoặc hợp lý Phát lại ở tốc độ chậm hoặc nhanh hơn sẽ làm biến dạng ý nghĩa hay chất lượng của âm thanh Vì phương tiện truyền thông này phải được phát lại một cách
liên tục với một tốc độ cố định Phương tiện động còn được gọi là phương tiện liên tục (continuous media) hoặc phương tiện đẳng thời (isochronous media)
H ệ thống đa phương tiện (Multimedia system): Không có định nghĩa đã được thừa
nhận cho các hệ thống đa phương tiện Theo quan điểm ngôn ngữ học, một hệ thống có khả năng thao tác nhiều hơn một phương tiện truyền thông được gọi là hệ thống đa phương tiện Định nghĩa này làm cho hệ thống đa phương tiện hữu ích hơn, đầy thử
thách, và thú vị Vì vậy, khi chúng ta nói thông tin đa phương tiện (multimedia
information), chúng có nghĩa là sự kết hợp của nhiều loại phương tiện truyền thông với ít nhất một phương tiện liên tục Theo định nghĩa này, một hệ thống máy tính có khả năng thao tác dữ liệu chữ số và đồ họa có thể được gọi là hệ thống đa phương tiện
Trong môn học này, chúng ta định nghĩa hệ thống đa phương tiện là hệ thống có khả
năng thao tác ít nhất một phương tiện truyền thông động dạng số (digital form) cũng như phương tiện truyền thông tỉnh. Do đó một hệ thống máy tính được sử dụng để điều khiển phát lại âm thanh hoặc video tương tự (analog) không thuộc hệ thống đa phương tiện theo định nghĩa của chúng ta
Ch ức năng chính của hệ thống đa phương tiện gồm: Thu / chụp (capture), tạo ra
(generate), lưu trữ (store), tìm kiếm / truy xuất (retrieve), xử lý (process), truyền (transmit), trình bày (present)
Ta phân bi ệt hai mặt của hệ thống đa phương tiện:
– Xử lý đa phương tiện (multimedia computing): Tập trung vào các chức năng
xử lý thông tin đa phương tiện như tìm kiếm, nhận dạng (recognition) và làm nổi bật (enhancement)
Truyền thông đa phương tiện (communication): Tập trung vào các chức năng
Trang 3Sự phân biệt này không rõ ràng vì có một số chức năng có thể có trong cả hai Ví dụ như nén dữ liệu là chức năng của xử lý nhưng nó thường được dùng trong mục đích truyền thông tin nó cũng có thể được lập luận rằng mục đích của tất cả các xử lý đa phương tiện là cho các hoạt động trình bày và truyền thông tin hiệu quả
Các hệ thống đa phương tiện tập trung giải quyết vấn đề: Làm sao truyền dữ liệu đa phương tiện từ một máy tính đến máy tính khác, làm sao để trình bày dữ liệu đến người
sử dụng Nó không cần phải xử lý dữ liệu đa phương tiện Các hệ thống này được gọi là
hệ thống đa phương tiện thế hệ thứ nhất
Trong lĩnh vực công nghệ tiên tiến, các qui trình xử lý như: So sánh, tìm kiếm, tái tạo hình ảnh thời gian thực (real-time image restoration), nhận dạng âm thanh và hình ảnh
(audio and image recognition), được sử dụng trong các hệ thống đa phương tiện Các hệ
thống này được gọi là hệ thống đa phương tiện thế hệ thứ hai.Vì vậy, các khía cạnh tính toán đa phương tiện sẽ được phát triển hơn nữa Tương lai công nghệ đa phương tiện sẽ
là sự tích hợp của xử lý và truyền thông
Trong các tài liệu và các phương tiện truyền thông, từ đa phương tiện được dùng như một danh từ, nó bị quá tải và dùng để chỉ nhiều loại phương tiện truyền thông, công nghệ,
hệ thống và các ứng dụng xử lý các phương tiện khác nhau Trong tài liệu môn học này,
đa phương tiện được dùng như một tỉnh từ - Vì vậy, chúng ta sẽ nói thông tin đa phương tiện, hệ thống đa phương tiện, dữ liệu đa phương tiện, truyền thông đa phương tiện, ứng dụng đa phương tiện, và v.v…Thông tin đa phương tiện đề cập đến các thông tin được chuyển tải bằng nhiều loại phương tiện truyền thông Đôi khi thông tin đa phương tiện và
dữ liệu đa phương tiện được dùng thay chổ cho nhau
Trong định nghĩa hệ thống đa phương tiện, chúng ta nhấn mạnh đến việc tất cả các phương tiện phải được biểu diễn dạng số vì các lý do sau đây:
Ưu điểm của biểu diễn dạng số (digital form):
– Một là: Máy tính điện tử chỉ thao tác với dữ liệu dạng số Ở dạng số hình ảnh, âm
thanh và video được thao tác (xử lý, truyền, biểu diễn) dễ dàng bởi máy tính Dữ liệu đa phương tiện dạng số có thể được tích hợp với các kiểu dữ liệu số khác và có thể chia sẻ các tài nguyên dùng chung cho tính toán và mạng (máy tính và mạng máy tính) Mặt khác, khi tất cả các phương tiện truyền thông được biểu diễn dạng
số, chúng ta có thể dùng cùng thiết bị lưu trữ, máy tính và mạng để thao tác tất cả các kiểu phương tiện truyền thông
– Hai là: Dễ dàng thực hiện các tương tác với phương tiện truyền thông dạng số
bằng máy tính điện tử
– Ba là: Nếu an ninh truyền thông tin được yêu cầu, ta dễ mã hoá tín hiệu số hơn là
mã hoá tín hiệu tương tự
– Bốn là: Hệ thống số có độ tin cậy cao hơn, chống nhiểu tốt hơn hệ thống tương tự
Ở dạng số, Biên độ tín hiệu tương tự là liên tục trong một phạm vi nhất định - các giá trị tín hiệu bị thay đổi nếu có nhiểu hoặc giao thoa Các lỗi gây ra do nhiễu hoặc giao thoa được tích lũy từ tầng này đến tầng khác Không dễ dàng sửa chữa các lổi kiểu này Ở dạng số nhị phân, chỉ có 2 mức tin hiệu: cao (1) và thấp (0)
Trang 4từng tầng xử lý kỹ thuật số hoặc trạm truyền tin, các biện pháp "làm sạch" tín hiệu
kỹ thuật số được dùng để phục hồi lại tín hiệu gốc và lỗi này không được tích lũy
2 Các ứng dụng đa phương tiện
Con người có nhiều giác quan, việc sử dụng dữ liệu đa phương tiện trong máy tính
sẽ làm gia tăng hiệu quả truyền thông khi có sự tham gia của hai hoặc nhiều giác quan Mục đích của tính toán và truyền thông đa phương tiện là mô phỏng cách truyền thông của con người và giúp con người trong việc tổ chức và quản lý một lượng lớn thông tin với các kiểu phương tiện truyền thông khác nhau
Khi giao tiếp với nhau, con người sử dụng nhiều giác quan đặc biệt là thính giác và thị giác Hiệu quả của truyền thông đa phương tiện là nhờ vào sự tham gia của thính giác
và thị giác Con người đã cố gắng để phát triển ngành viễn thông và các hệ thống xử lý thông tin để giải quyết các vấn đề: băng thông (bandwidth), độ trung thực (fidelity) và hiệu quả (effectiveness) trong giao tiếp với nhau
Trong l ĩnh vực viễn thông: Hơn một trăm năm qua các phương tiện truyền thông
như: Điện tín, điện thoại, Fax, phát thanh và truyền hình đã được phát minh và sử dụng rộng rãi Gần đây, các hệ thống điện thoại có hình, hội thảo truyền hình từ xa đã phát triển và mang lại hiệu quả rất lớn trong truyền thông
Trong l ĩnh vực xử lý thông tin: Một cách truyền thống, các hệ thống xử lý thông
tin bằng máy tính chỉ đề cập tới kiểu dữ liệu là chữ số 10 năm gần đây các loại dữ liệu như: đồ hoạ, audio và video được tích hợp trong các hệ thống xử lý thông tin Cùng với phát triển công nghệ số, các bộ xử lý nhanh, mạng tốc độ cao, thiết bị lưu trữ dung lương lớn và các giải thuật xử lý tín hiệu mới là cho sự khác biệt giữa viễn thông, tính toán và quảng bá thông tin càng ngày càng vị thu hẹp Hợp nhất giữa viễn thông, tính toán và quảng bá thông tin hướng tới một hệ thống đa phương tiện tương tác và hiệu quả
2.1 Xem phim theo yêu cầu:
Thông thường, ta xem các chương trình truyền hình và chiếu phim một cách thụ động (không thể tương tác và điều khiển thời gian để xem các chương trình đó) Dịch vụ
Trang 5video được lưu trữ trên các máy chủ video (video server) Người sử dụng / khách hàng truy cập các video này thông qua mạng tốc độ cao Thách thức của VOD là làm sao có thể cung cấp cho một số lượng lớn người xem đồng thời với giá cả hợp lý Chú ý: Một số
hệ thống VOD không dễ dàng tương tác bởi vì nó đang được nghiên cứu, thử nghiệm, và đôi khi những bản video sao chép lậu được đưa vào hệ thống
Các ưu điểm của VOD:
– Có thể xem phim mà không cần đến rạp Tivi được kết nối đến máy chủ video thông qua mạng Chúng ta chỉ cần chọn phim thông qua một giao diện trên màn hình
– Máy chủ video tập trung và cung cấp các dịch vụ cho nhiều người nên các bộ sưu tập của nó rất phong phú và luôn được cập nhật Nhiều người có thể xem cùng một phim và không gặp phải vấn đề “Xin lổi, hết chổ” như khi đến rạp – Có thể xem phim mà mình yêu thích bất kỳ lúc nào
– Có thể tạm dừng (pause), đi tới nhanh (fast-forward), quay lại (backward) hoặc tìm kiếm một cảnh đặc biệt trong phim
– Phim được đảm bảo chất lượng cao vì được lưu trữ dưới dạng số Chất lượng phim không bị giảm khi tăng số lượng người xem
2.2 Thông tin theo yêu cầu (Information on Demand)
Là hệ thống giống như VOD, điểm khác biệt chính yếu là IOD lưu trữ nhiều kiểu khác nhau của thông tin người dùng có một thư viện đồ sộ và linh hoạt Khi người
dùng đưa ra một truy vấn thông tin thông qua một giao diện trên tivi thông minh (smart tivi) hoặc máy tính trạm, hệ thống sẽ tìm kiếm, lấy thông tin và trình bày thông tin tìm được cho người dùng Khả năng quan trọng nhất của hệ thống là chỉ mục và tìm kiếm trong một khối lương rất lớn các thông tin đa phương tiện
Hệ thống IOD có nhiều ứng dụng:
– Hoạt động như một bộ tự điển bách khoa toàn thư về thông tin tổng quát
– Dịch vụ cung cấp báo và tạp chí trực tuyến
– Dịch vụ mua săm tại nhà – Xem sản phẩm và đăt hàng trên màn hình mà không cần ra khỏi nhà
– Cung cấp thông tin đồng thời các thông tin dự báo thời tiết, lịch biểu của các phương tiện giao thông công cộng một cách trực tuyến
World Wide Web có thể được xem là một hệ thống IOD sơ cấp WWW có thể được phát triển xa hơn để hỗ trợ tìm kiếm, truyền và biểu diễn các thông tin đa phương tiện thời gian thực Số lượng và chất lượng thông tin ngày càng phát triển
2.3 Giáo dục (Education)
Một thế mạnh ứng dụng khác của các hệ thống đa phương tiện là giáo dục Người ta
có thể học nhiều hơn và nhanh hơn khi có thể nghe, nhìn và làm việc theo một quan niệm mới trong đó đa phương tiện là phương thức tự nhiên để đào tạo và giáo dục
Trang 6các máy chủ đa phương tiện trên mạng điện rộng, các máy chủ này sẽ cho các khách hàng chia sẻ bộ lưu trữ, bài giảng và các tài nguyên đa phương tiện khác
Thiết lập một hệ thống như vậy có nhiều điểm lợi, nó làm cho nhiều người cố gắng học tập
– Bốn là, tương tác với thầy giáo có thể được thực hiện thông qua các giao tiếp bằng email, hoặc trực tiếp bằng âm thanh và video
2.4 Hệ thống thầy thuốc từ xa (Telemedecine)
Hệ thống thầy thuốc từ xa là một ứng dụng quan trọng khác của đa phương tiện, nhất
là các trường hợp cấp cứu được điều khiển từ xa Trong hệ thống thầy thuốc từ xa, tất cả các bệnh án được lưu trữ bằng phương tiện điện tử Các cơ quan y tế và thiết bị được kết nối thông qua một mạng đa phương tiện
Hệ thống y tế từ xa cung cấp các hoạt động sau đây:
– Tư vấn tức thì bởi các chuyên gia y tế từ xa thông qua việc sử dụng âm thanh và video chất lượng cao
– Các nhân viên y tế có thể truy cập các bệnh án bất kỳ lúc nào, bất kỳ ở đâu trong trường hợp khẩn cấp
– Truy cập toàn cầu các thông tin về một kiểu đặc biệt của nhóm máu hoặc bộ phận trong cơ thể
2.5 Điện thoại truyền hình và hội thảo truyền hình
Hệ thống điện thoại truyền hình (video phone) và hội thảo truyền hình (video conference) làm gia tăng hiệu quả giao tiếp của con người ở các vị trí địa lý cách xa nhau Hầu hết các hệ thống hội thảo truyền hình trước đây đều sử dụng các thiết bị chuyên dùng
và mạng chuyển mạch kênh, chúng rất đắt tiền và cũng không dễ dàng có được Gần đây, các camera thu hình đã được trang bị và video có thể hiển thị trên màn hình máy tính, đồng thời truyền thông qua mạng tốc độ cao phát triển làm cho hội thảo truyền hình trở nên rẻ tiền và được sử dụng phổ biến Điện thoại truyền hình sẽ được hợp nhất với điện thoại trong tương lai gần, khái niệm “talking” trong điện thoại được thay bằng “meet” khi
sử dụng điện thoại có hình
2.6 Làm việc hợp tác (Cooperative work)
Một hệ thống hội thảo truyền hình tinh vi sẽ hỗ trợ tích cực trong làm việc hợp tác Những người ở cách xa nhau có thể cùng làm việc trong một dự án thông qua việc trao
Trang 7dữ liệu đa phương tiện và các tài nguyên khác một cách dễ dàng Đây là mục tiêu cuối
cùng của “máy tính hỗ trợ làm việc hợp tác” (CSCW: Computer-Supported Cooperative
Work)
3 Phân loại các hệ thống đa phương tiện
3.1 Hệ thống đa phương tiện có thể được xếp vào hệ thống độc lập hoặc hệ thống phân ph ối
H ệ thống độc lập: Sử dụng tài nguyên chuyên dụng Các thông tin đa phương tiện
bị giới hạn và truyền thông đa không được hỗ trợ
H ệ thống phân phối: Chia sẻ cả hai tài nguyên hệ thống và tài nguyên thông tin và
có thể được hổ trợ truyền thông tin giữa những người sử dụng
3.2 Hiệp hội viễn thông quốc tế (ITU: International Telecommunications Union) định danh 4 loại cơ bản các dịch vụ và ứng dụng phân phối:
ITU xếp loại theo quan điểm của nhà cung cấp dịch vụ Mỗi dịch vụ được cung cấp bởi một hệ thống tương ứng
1) Các dịch vụ đàm thoại (convesational services): Bao hàm sự tương tác giữa
người sử dụng này và người khác hoặc với một hệ thống Loại này bao gồm các dịch vụ giữa các cá nhân với nhau như điện thoại có hình (videophone) và hội thảo truyền hình (videoconference) Nó cũng bao gồm dịch vụ giám sát từ xa (telesurveillance) hay mua sắm từ xa (teleshopping)
2) Các dịch vụ thông điệp (messaging services): Sự trao đổi không tức thì hoặc
không đồng bộ các dữ liệu đa phương tiện thông qua các hộp thư điện tử
3) Các dịch vụ tìm kiếm thông tin (retrieval services): Bao gồm tất cả các kiểu
truy cập đến các máy chủ thông tin đa phương tiện Điển hình như, người dùng gởi một yêu cầu đến máy chủ và thông tin được yêu cầu được máy chủ gởi về
cho người dùng một cách tức thì Ví dụ: Truyền hình theo yêu cầu (Video On
Demand) hoặc thông tin theo yêu cầu (Information On Demand)
4) Các dịch vụ phân phát thông tin (distribution services): Bao gồm các dịch vụ
phân phối thông tin chủ động của các máy chủ Ví dụ: Truyền hình quảng bá
Trong môn học này, chúng ta tập trung vào các hệ thống đàm thoại và tìm kiếm
thông tin Về mặt kỹ thuật, các hệ thống phân phối thì giống như các hệ thống tìm kiếm
thông tin: nó chỉ yêu cầu truyền dữ liệu đa phương tiện thời gian thực một chiều (từ máy chủ đến người sử dụng) Nhưng các hệ thống tìm kiếm thông tin có các yêu cầu hệ thống nghiêm ngặt hơn, các người dùng khác nhau có thể yêu cầu khởi động truyền nhiều dòng
dữ liệu đa phương tiện khác nhau
Sự khác biệt chính giữa các hệ thống đàm thoại và hệ thống tìm kiếm thông tin là
cần truyền dữ liệu đa phương tiện thời gian thực hai chiều và yêu cầu về độ trể khắc khe hơn
Mặc dù các hệ thống tin nhắn cũng rất hữu ích và liên quan đến cấu thành và trình bày thông tin đa phương tiện Chúng không có yêu cầu thời gian thực trong truyền dữ liệu Dữ liệu đa phương tiện có thể được chuyển từ người gởi đến hộp thư người nhận bằng phương pháp truyền dữ liệu thông thường Mặc dù giáo trình không đề cập chi tiết
Trang 84 Những thách thức của xử lý và truyền thông đa phương tiện trên máy tính 4.1 Đặc tính và yêu cầu của hệ thống đa phương tiện:
Dữ liệu đa phương tiện có các đặc tính và yêu cầu khác hơn dữ liệu chữ số mà các máy tính thông thường có thể xử lý, do vậy các máy tính thông thường không thể hỗ trợ các ứng dụng đa phương tiện một cách hiệu quả
Tóm tắt 4 đặc tính và yêu cầu chính của hệ thống đa phương tiện:
- Dữ liệu đa phương tiện có chiều thời gian và phải được truyền, xử lý và trình bày với tốc độ cố định trong hầu hết các ứng dụng, vì vậy các hệ thống máy tính và truyền thông đa phương tiện phải đáp ứng yêu cầu chính xác về thời gian Trong khi các máy tính thông thường không có yêu cầu này
- Các ứng dụng đa phương tiện sử dụng nhiều phương tiện có liên quan với nhau một cách đồng thời Các mối quan hệ thời gian và không gian trong bản thân phương tiện phải được tôn trọng
- Dữ liệu đa phương tiện là dữ liệu tăng cường (có kích thước lớn) nên dữ liệu cần phải được nén, để thao tác với nó, cần phải có các mạng truyền thông tốc độ cao
và các hệ thống máy tính mạnh
- Dữ liệu đa phương tiện không có cú pháp và ngữ nghĩa rõ ràng Hệ thống quản trị CSDL thông thường không thể thao tác hiệu quả trên các dữ liệu này Cần có các
kỹ thuật để chỉ mục, lấy lại và nhận dạng dữ liệu đa phương tiện
4.2 Các đặc tính và yêu cầu của hệ thống đa phương tiện khái niệm “chất lương
d ịch vụ” (Quality Of Service)
Từ các đặc tính và yêu cầu trên cũng như các đặc tính và yêu cầu khác của dữ liệu đa phương tiện đã tạo ra khái niệm “chất lương dịch vụ” Cung cấp bảo đảm “chất lượng dịch vụ” cho các ứng dụng chỉ là một hướng của vấn đề trọng tâm trong công nghệ đa phương tiện Hướng khác là sử dụng hiệu quả các tài nguyên đa phương tiện bằng cách
sử dụng các đặc tính của dữ liệu đa phương tiện và các ứng dụng Hướng sau cùng là để phát triển một hệ thống phân phối đa phương tiện người ta gặp có nhiều thách thức hơn
và đó là sự khác biệt chính yếu của hệ thống phân phối đa phương tiện và hệ thống thời gian thực thông thường:
– Các hệ thống thời thực truyền thống là sử dụng tài nguyên chuyên dùng
– Các hệ thống phân phối đa phương tiện, các tài nguyên như thời gian của bộ xử
lý (CPU), bộ nhớ trong (memory), bộ lưu trữ thứ cấp (secondary storage) và các kênh truyền thông được chia sẻ cho nhiều ứng dụng
Do vậy, vấn đề trọng tâm của thiết kế hệ thống đa phương tiện là làm sao để cung cấp đảm bảo “chất lượng dịch vụ” của các ứng dụng trong khi các tài nguyên của hệ thống vẫn được sử dụng một cách hiệu quả
Trang 9Chương 2
Đặc tính và yêu cầu
của dữ liệu đa phương tiện
Mục đích: Giới thiệu phương pháp biểu diễn, các đặc tính cơ bản và các yêu cầu của
các hệ thống đa phương tiện (âm thanh, hình ảnh, video số)
Yêu cầu: Sinh viên nắm được:
– Cách biểu diễn thông tin đa phương tiện: âm thanh, hình ảnh, video
– Các đặc tính cơ bản của âm thanh, hình ảnh, video kỹ thuật số
– Các yêu cầu của hệ thống đa phương tiện
2.6 Các đặc tính chính và yêu cầu của thông tin đa phương tiện
2.7 Chất lượng dịch vụ truyền thông đa phương tiện
2.8 Tóm tắt
Trang 102.1 Giới thiệu
Trong chương 1 chúng ta định nghĩa một hệ thống đa phương tiện là hệ thống có khả
n ăng thao tác (xử lý và truyền thông) đồng thời nhiều kiểu phương tiện trong đó có ít
nh ất một phương tiện động (như âm thanh và video) dạng kỹ thuật số (digital form) Vì
vậy, khi nói đến dữ liệu đa phương tiện là đề cập đến các biểu diễn số của nhiều kiểu phương tiện mà trong đó có ít nhất một phương tiện truyền thông liên tục theo thời gian
Sự khác nhau giữa một hệ thống đa phương tiện và hệ thống máy tính thông thường xuất phát từ sự khác nhau về các đặc tính và yêu cầu của thông tin đa phương tiện và dữ liệu chữ số Do đó sự hiểu biết về những đặc điểm và yêu cầu của dữ liệu đa phương tiện là rất cần thiết để hiểu được các vấn đề trong xử lý và truyền thông đa phương tiện
Mục tiêu của chương này là thảo luận về những đặc tính cơ bản và yêu cầu hệ thống của âm thanh, hình ảnh và video số Phần 2.2 dành cho âm thanh, chúng ta sẽ nghiên cứu các thuộc tính của các tín hiệu âm thanh tương tự, quá trình biến đổi các tín hiệu tương tự sang tín hiệu số và các biểu diễn số trong các ứng dụng âm thanh nói chung Nguyên lý biến đổi từ tương tự sang số (ADC: Analog to digital convertor) cũng được sử dụng khi thảo luận về biểu diễn số của video trong phần 2.4
Nhiều hình ảnh và video số được tạo ra từ video tương tự Phần 2.3 giới thiệu các khái niệm cơ bản của hệ thông video tương tự (analog video) Một số trong các khái niệm này cũng được sử dụng trong hệ thống video số Do vậy, các khái niệm và thuật ngữ được giới thiệu trong phần này chủ yếu là để hiểu về video số
Phần 2.4 thảo luận về biểu diễn số của hình ảnh và video, nó giải thích tại sao hình ảnh và video số có yêu cầu lớn về số lượng dữ liệu để biểu diễn, và làm thế nào để một hệ thống máy tính nhìn thấy được hình ảnh và video số
Các giá trị điểm ảnh (pixel) thể hiện cường độ màu sắc của hình ảnh và video số Chất lượng hiển thị hình ảnh và hiệu quả của một số thao tác khác như tái tạo hình ảnh phụ thuộc vào các giá trị điểm ảnh Vì vậy, các đặc tả về hiệu chỉnh và biểu diễn màu sắc
là rất quan trọng trong các hệ thống đa phương tiện Phần 2.5 xem xét các đặc tả và sự nhận biết của con người về màu sắc, và cung cấp một nền tảng để đạt được chất lượng hiển thị cao, hệ số nén cao và hiệu quả phục hồi hình ảnh cao
Phần 2.6 trình bày tóm tắt các khác biệt chính của dữ liệu đa phương tiện và dữ liệu chữ số và mô tả các yêu cầu hệ thống của dữ liệu đa phương tiện
Phần 2.7 giới thiệu khái niệm “chất lượng dịch vụ” (QOS: Quality of Service) nó là trọng tâm của nhiều hệ thống xử lý và truyền thông đa phương tiện Các vấn đề trong cung cấp đảm bảo QOS của truyền thông đa phương tiện là mối quan tâm chính của các chương tiếp theo Phần 2.8 kết luận chương này với phần tóm tắt ngắn gọn
2.2 Biểu diễn âm thanh số
2.2.1 Đặc tính cơ bản của tín hiệu âm thanh:
Âm thanh là các dao động cơ học (biến đổi vị trí qua lại) của các phân tử không khí
và lan truyền trong không khí, va đập vào màng nhĩ, làm rung màng nhĩ và kích thích bộ não Âm thanh, giống như nhiều sóng khác, nó được đặc trưng bởi tần số, biên độ và vận tốc lan truyền (tốc độ âm thanh)
Trang 11Đối với thính giác của người, âm thanh nghe được thường là sự dao động, trong dãi tần số từ 20Hz đến 20KHz Biên độ âm thanh thay đổi rất lớn (ở tần số 1KHz): Từ 0.000283 dyne/cm2 đến 0.000283 x 106 dyne/cm2
Sự thay đổi biên độ cho ta cảm nhận âm thanh nhỏ hay lớn Khoảng biên độ nghe được của tai người biến động rất lớn: biên độ nhỏ nhất khi bắt đầu nghe được (cận dưới)
là 0.000283 dyne/cm2 (ở tần số 1KHz) Biên độ âm thanh có thể tăng lên từ mức bắt đầu nghe được khoảng 100.000 (105) đến 1.000.000 (106) lần trước khi tai bị đau (cận trên) Với sử thay đổi lớn như vậy nên rất khó sử dụng đơn vị đo lường biên độ cho âm thanh
Do vậy, âm thanh được đo bằng đơn vị Decibel Giá trị decibel của sự khác biệt giữa hai biên độ đỉnh được xác định bởi công thức (trong đó X và Y là các biên độ đỉnh của hai sóng):
2.2.2 Biểu diễn số của âm thanh:
Sóng âm liên tục được biến đổi thành tín hiệu điện liên tục nhờ microphone Tín hiệu điện này đo bằng volt, ta gọi là tín hiệu tương tự (analog signal) Để máy tính có thể
xử lý và truyền tín hiệu âm thanh, tín hiệu điện liên tục phải được biến đổi thành tín hiệu
số (digital signal) Ba giai đoạn trong biến đổi từ tín hiệu tương tự ra tín hiệu số (ADC:
Analog to Digital Converter): Lấy mẫu (sampling), Lương hoá (quantization), Mã hoá
l ấy mẫu và dừng (sampling and hold circuit) Mỗi điểm dừng lấy mẫu ứng với một giá trị
của biên độ; Ta có một dãy nhiều giá trị liên tục, nhưng rời rạc theo thời gian; Mỗi thời khoảng, mẫu chỉ có một giá trị
Lượng hoá: Quá trình biến đổi các giá trị mẫu liên tục thành các giá trị rời rạc được gọi
là lương hoá
Trong quá trình này ta chia dãy tín hiệu thành các số cố định của các thời khoản, mỗi thời khoảng bằng nhau được gán một số Mỗi mẫu có một số giới hạn các giá trị chọn lựa Trong hình 2.1 (c) mỗi thời khoảng có thể có nhiều giá trị và chỉ được gán một giá trị duy nhất (số nguyên từ 0 đến 7) Ví dụ: Trong hình 2.1 (c) hai thời khoản cuối cùng đều
có giá trị là 6
Kích thước (khoảng) giá trị trong một thời khoảng gọi là bước lượng hoá
(quantization step)
Cận dưới: 0 dB ~ 0.000283 dyne/cm 2 Cận trên: 100 - 120dB ~ 0.000283 x 10 6 dyne/cm 2 dB= 20log 10 (X/Y)
Trang 12Mã hoá: Quá trình biểu diễn lượng giá trị bằng số được gọi là mã hoá
Trong ví dụ ở hình 2.1, 8 mức lượng hoá được dùng Các mức được mã hoá bằng 3 bit trong hệ thống số nhị phân Nếu tốc độ lấy mẫu và số mức lượng hoá đủ lớn thì tín hiệu số được biểu diễn bằng đường bao tín hiệu gốc Khi cần tái tạo tín hiệu tương tự từ
dữ liệu số, một bộ chuyển đổi từ số sang tương tự (DAC: Digital to Analog Converter)
được sử dụng Các giá trị lượng hoá được xác định trên cơ sở số mức lượng hoá Các tín
hiệu này đi qua bộ lọc thấp qua (low-pass filter) để tái tạo gần đúng tín hiệu gốc Nguyên
lý của ADC và DAC đã mô tả cũng được áp dụng cho video và các loại tín hiệu khác
Trang 13Trong quá trình biến đổi ADC quan trong nhất là chọn tốc độ lấy mẫu và số mức lượng hoá, trong các loại tín hiệu tương tự khác nhau và trong các ứng dụng khác nhau
Xác định tốc độ lấy mẫu: Tốc độ lấy mẫu phụ thuộc vào tần số của tín hiệu tương tự mà
ta muốn biến đổi Theo lý thuyết Nyquist, nếu một tín hiệu tương tự có tần số f thì tần số lấy mẫu nhỏ nhất phải là 2f Nếu tần số lấy mẫu chính xác bằng 2f, ta gọi là lấy mẫu tới
h ạn Trong thực hành tốc độ lấy mẫu phải lớn hơn 2f
thấp qua Nó gây ra một tác dụng gọi là răng cưa (aliasing) Răng cưa là vấn đề nghiêm
trọng đối với các hệ thống dùng cơ chế lấy mẫu khi tín hiệu gốc có tần số lớn hơn 1/2 tần
số lấy mẫu
Trong ví dụ hình 2.3, tần số lấy mẫu là 8KHz (a), tần số tín hiệu gốc được lấy mẫu là 6KHz (b), các giá trị mẫu thu được của tín hiệu gốc có tần số 6KHz (c) Nếu các mẫu này được thu nhận và biến đổi ngược từ số sang tương tự (DAC), kết quả là tín hiệu được tái tạo có tần số 2KHz (d) Tín hiệu 2KHz thay thế cho tín hiệu gốc 6KHz, nó chính là răng cưa của tín hiệu gốc 6KHz Trong khi tín hiệu 2KHz nằm trong khoảng âm thanh nghe được, nó xuất nhiện như là một tạp âm trên đầu của âm thanh gốc Răng cưa là vấn đề
nghiêm tr ọng trong tất cả các hệ thống dùng cơ chế lấy mẫu khi tín hiệu được lấy mẫu có
m ột bộ phận tần số lớn hơn phân nữa tần số lấy mẫu
Xác định số mức lượng hoá: Số mức lượng hoá dùng để xác định một cách trung thực biên độ của tín hiệu số so với tín hiệu tương tự gốc
Sự khác biệt tối đa giữa giá trị lượng hoá và giá trị tín hiệu tương tự gốc gọi là bước
l ượng hoá Sự khác biệt này còn được gọi là lỗi lượng hoá hay nhiễu lượng hoá
(quantatization noise) Số mức lượng hoá càng lớn thì bước lượng hoá càng nhỏ và kéo theo nhiễu lượng hoá càng nhỏ Số các mức lượng hoá xác định số bít cần thiết để biểu diễn mẩu và được xác định bởi công thức:
Trang 14b = log2Q Q = 2b
Trong đó: b: số bit cần thiết để biểu diễn mẫu,
Q: số mức lượng hoá
Mối quan hệ giữa chất lượng tín hiệu số hoá và tín hiệu tương tự gốc đo bằng hệ số
tín hi ệu nhiểu (SNR - Signal-to-noise ratio) tính bằng dB được định nghĩ bởi:
SNR=20log10(S/N)
Trong đó: S: biên độ cực đại của tín hiệu, N: nhiểu lượng hoá
Nếu lấy bước lượng giá là q thì N = q và S = 2 b
q Thay vào biểu thức: SNR = 20log10(2b
q/q ) = 20blog10(2) = 6b
Ta thấy nếu dùng thêm 1 bit để biểu diễn các mẫu làm gia tăng hệ số tín hiệu nhiểu
là 6 dB Chúng ta xem xét trường hợp âm thanh bắt đầu nghe được và âm thanh cực đại trong cùng ngữ cảnh Nhiểu lượng hóa phải nhỏ hơn âm thanh bắt đầu nghe được Trong trường hợp âm thanh cực đại (100 dB – 120 dB) Để không nghe nhiểu lượng hoá thì SNR ≥ 100 dB, CD audio dùng 16 bit cho mẫu lượng hoá SNR = 6x16 = 96 dB nó nhỏ hơn cận dưới mà ta mong muốn (100 dB đến 120 dB) Tuy nhiên 16 bit dễ thao tác và xử
lý trong các hệ thống số nhị phân Do vậy người ta dùng 16 bít thay cho 17 bit
Tóm lại âm thanh số cần được lấy mẫu liên tục với tốc độ cố định, mỗi mẫu được biểu diễn bằng một số bit cố định
Bảng 2.1: Đặc tính chung của âm thanh số
Trong chương này chúng ta đã giới thiệu phương pháp lượng hoá tuyến tính (linear quantatization) âm thanh số Lượng hoá phi tuyến (nonlinear quantatization) làm rút gọn
lượng dữ liệu biểu diễn âm thanh số, vậy với cùng lượng dữ liệu có thể biểu diễn âm
thanh với chất lượng cao hơn Lượng hoá phi tuyến chính là kỹ thuật nén dữ liệu mà
chúng ta sẽ thảo luận chi tiết trong chương 3
Trang 152.3 Hệ thống video tương tự
Trong phần này chúng ta
mô tả các khái niệm và kỹ thuật
cơ bản được sử dụng trong các
hệ thống video tương tự, từ thu
(capture) đến hiển thị (display)
hình ảnh Các khái niệm này chủ
yếu để hiểu cách sử dụng và biểu
diễn kỹ thuật số của video trong
các hệ thống đa phương tiện
2.3.1 Thu và hiển thị hình ảnh và video:
Hình ảnh được thu bằng cách sử dụng máy thu hình (camera)
Hệ thống thấu kính sẽ tập trung hình ảnh đến bề mặt cảm quang của bộ cảm biến bên trong camera Trên bề mặt lớp cảm biến, độ sáng của một điểm ảnh được biến đổi thành dòng điện bởi tế bào quang điện
Việc quét một ảnh được thực hiện từ gốc cao
bên trái theo chiều ngang của ảnh tạo thành một
hàng quét ngang Khi đến lề phải của ảnh, điểm
quét quay trở về lề trái và tiếp tục quét các hàng
kế tiếp cho đến hết ảnh Thời gian điểm quét di
chuyển từ cuối về đầu hàng kế tiếp gọi là khoảng
tr ắng hàng ngang (horizontal blanking interval),
lúc đó tín hiệu ra của bộ cảm biến bằng 0 và được
gọi là mức trắng hàng ngang (blanking level)
Một ảnh được biến đổi thành chuổi tín hiệu điện liên tục của các hàng quét và được
phân cách bởi các mức trắng hàng ngang Tập hợp các hàng quét của một ảnh gọi là
frame Khi kết thúc một ảnh, điểm quét di chuyển về gốc trên bên trái để tạo frame kế
tiếp Thời gian điểm quét về đầu frame mới gọi là khoảng trắng hàng dọc (vertical
blanking interval)
Trang 16Để phát lại hình ảnh và video, trước đây
các thiết bị hiển thi (tivi / monitor) dùng đèn tia
âm cực (CRT: Cathode Ray Tube) Một lớp
phosphors được tráng bên trong phía trước màn
hình, nó bị quét bởi một chùm tia điện tử như
quá trình quét ảnh của camera Chùm tia tác
động lên phosphors nó sẽ phát sáng trong một
thời gian rất ngắn, độ sáng phụ thuộc vào cường
độ chùm tia điện tử Như vậy ta sử dụng tín hiệu
thu hình của camera, để tái tạo lại các hình ảnh
được thu bởi camera Trong thực hành, tín tiệu
từ camera đến thiết bị hiển thị, có thêm thông
tin đồng bộ với quá trình quét ảnh của camera
2.3.2 Tốc độ frame (frame rates):
Tốc độ frame của video được các định bởi 3 yếu tố cơ bản:
Một là: Tốc độ frame phải đủ lớn để hình ảnh trong video chuyển động trung thực Thường tốc độ ≥ 25 frame/s Trường hợp hình ảnh chuyển động nhanh, 25 frame/s chưa
đủ lớn sẽ gây ra răng cưa (aliasing)
Hai là: Khi tốc độ frame tăng thì độ rộng băng tần cũng phải tăng để truyền tín hiệu video Vậy phải tìm cách sử dụng độ rộng băng tần thấp để xuất hầu hết các cảnh một cách trung thực và tốc độ 25 frame/s được sử dụng
Ba là: Khi chùm tia chạm vào phosphors sẽ phát ra ánh sáng trong một thời gian rất ngắn (vài mili giây) Nếu thời gian giữa 2 lần quét không đủ nhanh ta sẽ thấy hiện tượng lập loè (flicker) trên màn hình Để tránh hiện tượng này, số lần quét ít nhất phải bằng 50 lần/giây Nếu tăng tốc độ lên 50 frame/s thì cần tăng độ rộng băng tần
Để giải quyết vấn đề này, kỹ thuật quét xen
(interlace) được sử dụng trong các hệ thống truyền
hình Trong kỹ thuật quét xen, nhiều hơn một lần
quét dọc được dùng để tạo ra một frame hoàn chỉnh
Mỗi lần quét dọc (vertical scan) được gọi là trường
(field) Truyền hình sử dụng 2:1 interlace: 2 lần quét
dọc (field) cho một ảnh (frame) Với kỹ thuật này,
một ảnh có lần quét dọc thứ nhất là các dòng lẻ (bán
ảnh lẻ - odd filed) và lần quét dọc thứ hai là các dòng
chẳn (bán ảnh chẳn - even field) Vậy 25 frame/s
ứng với 50 field/s Ta sử dụng cùng độ rộng băng tần,
và hiện tượng lập loè hầu như đã bị loại bỏ Trong
các hệ thống truyền hình ta có:
Hệ PAL (25 frame - 50 field/s)
Hệ NTSC (30 frame - 60 field/s)
Trang 172.3.3 Hệ số co (Aspect ratio):
Tỷ lệ giữa chiều rộng và chiều cao của ảnh được gọi là hệ
s ố co Đây là hệ số quan trọng về mặt thẩm mỹ khi trình bày
hình ảnh với các kích cở khác nhau Khi thay đổi kích cỡ hình
phải duy trì tỷ lệ này để tránh méo hình (biến dạng) Trước đây
hình ảnh chuyển động có tỷ lệ 4:3 được sử dụng phổ biến trong
các hệ thống truyền hình quảng bá Trong quá trình phát triển,
hình ảnh chuyển động màn ảnh rộng (wide screen) với hệ số co
lớn hơn 4:3 được phát triển trong các phim DVD màn ảnh rộng,
và các hệ thống truyền hình độ nét cao (HD: High Definition),
hiện nay hệ số co của truyền hình HD được chọn là tỷ lệ 16:9
Lưu ý rằng, kích thước màn hình là số đo là đường chéo từ
gốc cao bên trái đến gốc thấp bên phải Ví dụ: Màn hình 25 inches với hệ số co 4:3 có kích thước chiều rộng là 20 inches và chiều cao là 15 inches
2.3.4 Độ phân giải (Resolution):
Độ phân giải của màn hình được đặc tả bởi độ phân giải
ngang (horizontal resolution) và độ phân giải dọc (vertical
resolution)
– Độ phân giải ngang: Số phần tử (điểm ảnh) hoặc cột
từ trái sang phải của màn hình Ví dụ: VGA: 640 điểm
hàng ngang
− Độ phân giải dọc: Số hàng, (điểm ảnh) từ trên đầu
xuống dưới cùng của màn hình Ví dụ: VGA: 480 điểm
hàng dọc
2.3.5 Truyền hình / video màu:
Các hệ thống Tivi màu được
xây dựng trên cơ sở lý thuyết
Tristimulus về tái tạo màu sắc Các
màu trong tự nhiên có thể được tạo
ra từ 3 màu sơ cấp Màu sơ cấp
được sử dụng trong Tivi là RGB:
Đỏ (Red), Xanh lá (Green), Xanh dương (Blue) Để thu
hình màu, camera sử dụng các bộ phận quang học để
tách tia sáng tới thành 3 chùm tia tương ứng với 3 màu
sơ cấp Mỗi chùm tia màu sẽ đến một bộ cảm biến riêng
để tạo ra một tín hiệu điện phân biệt
Trong màn hình màu, có ba loại phosphor phát ra ba
loại ánh sáng màu: đỏ, xanh lá, xanh dương và được sắp
xếp sao cho mỗi điểm ảnh có cả ba loại phosphor Pha
trộn ánh sáng phát ra từ 3 loại phosphor tạo thành một
điểm màu Ba óng phóng tia âm cực được sử dụng và
Trang 18sắp xếp sao cho mỗi óng chỉ quét đến một loại phosphor Cường độ chùm tia của các óng phóng được điều khiển bởi các tín hiệu màu tương ứng được tạo ra trong quá trình quét của camera Bằng cách này hình ảnh màu gốc được tái tạo trên màn hình
2.3.6 Các chuẩn truyền hình màu hiện có:
Với video màu ta cần 3 tín hiệu tương ứng với các màu đỏ, xanh lá và xanh dương
và thông tin đồng bộ (sync information) để đồng bộ hoá việc quét hình của camera và
thiết bị hiển thị
Nếu ba tín hiệu được truyền đi một cách phân biệt từ đài phát đến máy thu hình thì
độ rộng băng thông của truyền hình màu sẽ gấp ba lần truyền hình đơn sắc Truyền hình màu được tạo ra sẽ tốn kém hơn nhiều lần so với các hệ thống truyền hình đơn sắc hiện
có lúc đó và các hệ thống này không thể giải mã và hiển thị hình ảnh được Để giải quyết vấn đề này, các dạng tổng hợp của tín hiệu video được sử dụng: Ba loại dạng tín hiệu tổng hợp chính của truyền hình màu là NTSC, PAL, SECAM
Các dạng tín hiệu tổng hợp đều dùng nguyên tắc cơ bản độ sáng và màu Trong đó,
ba màu sơ cấp được biến đổi ra hai phần độ sáng (luminance) và màu (chrominance)
Thành phần độ sáng là tín hiệu video đơn sắc, nó được điều khiển bởi độ sáng của hình ảnh Thành phần màu chỉ chứa các thông tin về màu sắc của hình ảnh và có 2 bộ phận
Do mắt người không quá nhạy với thông tin màu sắc, độ rộng băng tần của hai bộ phận màu có thể được rút gọn trước khi truyền
Trong hệ thống tổng hợp, độ sáng và màu được tổ hợp bằng sơ đồ đa hợp tần số
(frequency multiplexing) để đưa vào một kênh truyền Thành phần tín hiệu độ sáng được
Full name P hase Alternating Line N ationtal Television
S ystem Committee Se quentiel Couleur Avec Memorie
Color
conversion
equations
Y=0.30R+0.59G+0.11B U=0.62R-0.52G-0.10B V=0.15R-0.29G+0.44B
Y=0.30R+0.59G+0.11B I=0.60R-0.28G-0.32B Q=0.21R-0.52G+0.31B
U=1.33MHz Q=0.45MHz
D R =1.33MHz
D B =1.33MHz
Bảng 2.2: Thông số của các chuẩn truyền hình màu NTSC, PAL, SECAM.
Trang 19truyền như tín hiệu đơn sắc trên kênh truyền và thành phần màu được đặt trong sóng mang phụ (subcarrier) tần số cao gần phía trên băng tần của kênh truyền Khi đó tần số sóng mang phụ được chọn sao cho chỉ có sự giao thoa rất nhỏ giữa tín hiệu độ sáng và tín hiệu màu Hệ thống tổng hợp có thể truyền tín hiệu truyền hình màu trên một kênh đơn
có cùng độ rộng băng tần của một trong ba tín hiệu màu đỏ, xanh lá, xanh dương Hệ thống tổng hợp cũng giải quyết vấn đề tương thích ngược (backward compatibility) Các máy tivi đơn sắc hiển thị hình ảnh bằng cách chỉ giải mã thành phần độ sáng
Ba loại tín hiệu truyền hình tổng hợp chính đều sử dụng các nguyên tắc định dạng tổng hợp nêu trên, chỉ khác nhau trong các tham số quét, ma trận sử dụng để đổi từ các màu đỏ, xanh lá, xanh dương thành độ sáng và màu, và cấu trúc đa hợp của tín hiệu độ sáng và màu Trong bảng 2.2: Danh sách một số thông số quan trọng của các hệ thống tổng hợp NTSC, PAL, SECAM Chú ý: Độ sáng Y giống nhau cho tất cả các hệ thống Các bộ phận màu khác nhau cho các hệ thống khác nhau
2.3.7 Hệ số nhìn (Viewing ratio):
Chúng ta nhận thấy chất lượng hình ảnh phụ thuộc vào các tham số nêu trên nhưng
nó cũng phụ thuộc vào hệ số nhìn Hệ số nhìn được định nghĩa bằng tỷ lệ giữa khoảng cách người xem và chiều cao hình ảnh Ví dụ: Một màn hình có chiều cao 15 inches và khoảng cách để xem là 90 inches, thì hệ số nhìn là 90/15 = 6 Các hệ thống truyền hình được thiết kế với hệ số nhìn từ 5 đến 6
Với một hệ số nhìn lớn hơn thì nói chung chất lượng hình ảnh hiển thị tốt hơn, nhưng sẽ khó xem các chi tiết bên trong hình ảnh Một hệ thống được thiết kế cho hệ số nhìn nhỏ thì hình ảnh phải có độ phân giải cao
2.3.8 Truyền hình độ nét cao (HDTV: High Definition TIVI):
Các hệ thống truyền hình đã được phát minh cách đây hơn 40 năm Hiện nay đã có nhiều bước phát triển trong lĩnh vực điện tử và viễn thông, cho phép truyền và hiển thị video chất lượng tốt hơn, đó là dạng truyền hình độ nét cao (HDTV) Nhật bản, Châu âu
và Hoa kỳ đã đưa ra các chuẩn cho HDTV Sự khác nhau trong các chuẩn này là: Khả năng tương thích ngược, kỹ thuật xử lý và truyền là kỹ thuật tương tự hay số và các sơ đồ nén dữ liệu được sử dụng
Trong các đề nghị này, các thông số quét là gần như nhau, hệ số co đều là 16:9 – Nhật và Hoa kỳ: 30 frames/s và 1.125 lines/Frame,
– Châu âu: 25 frames/s và 1.225 lines/Frame,
2.3.9 Băng thông của video tương tự
Yêu cầu băng thông của video tương tự có thể được đưa ra từ các thông số quét
hình: F: Tốc độ frame; N: Số dòng quét một frame; H: Độ phân giải ngang; C: Hệ số của thời gian dành cho khoảng trắng quét ngang; A: Hệ số co; B: Độ rộng băng tần
B = F x (Số chu kỳ mỗi frame)
Số chu kỳ mỗi frame = N x (Số chu kỳ mỗi dòng)
Số chu kỳ mỗi dòng = 0.5 x A x H / C
0.5: hệ số của số chu kỳ đến số dòng phân biệt
Trang 20Ví dụ: PAL: A=4/3, F=25, H=409, N=625, C=0.80 B=5.3 MHz
HDTV: A=16/9, F=30, H=593, N=1125, C=0.83 B=21.43 MHz 2.3.10 Lưu trữ và truyền video tương tự:
Thiết bị lưu trữ video tương tự là băng từ và đĩa laser Băng từ chuyên nghiệp có thể thu đến độ phân giải 500 dòng, trong khi băng VHS chỉ thu ở độ phân giải 240 dòng Các băng từ có thể chứa 2 - 3 giờ video Đĩa Laser có thể lưu trữ khoảng 1 giờ video và chỉ được đọc (read only)
Video tương tự truyền bằng sóng điện từ / cable đồng Trước khi tín hiệu video được truyền, nó được điều chế (modulate) theo một số kiểu nào đó Băng thông tối thiểu bằng với yêu cầu băng thông của dòng video
2.4 Biểu diễn hình ảnh và video số
2.4.1 Đặc điểm chung của hệ thống video số
Trong hệ thống video số, camera và màn hình hoạt động như video tương tự Giữa camera và màn hình, tín hiệu tương tự được biến đổi sang dạng tín hiệu số và các bộ phận
ở giữa hoạt động với tín hiệu số Bộ biến đổi ADC đặt sau camera và bộ biến đổi DAC đặt trước màn hình Lý do phải đổi ra video số vì tín hiệu số dễ xử lý, mã hoá và tích hợp với phương tiện số khác Thiết bị lưu trữ là đĩa cứng / CD-ROM Thiết bị xử lý, truyền, nhận là máy tính Mạng truyền dữ liệu số là mạng chuyển mạch gói
2.4.2 Quá trình biến đổi từ tương tự sang số:
Nguyên tắc cơ bản để biến đổi tín hiệu video tương tự thành video số cũng giống như của âm thanh mà ta đã mô tả trước đây
Tốc độ lấy mẫu (sample rate):
– Tốc độ lấy mẫu có thể được đưa ra một cách trực quan từ các thông số quét video (độ phân giải ngang, độ phân giải dọc, tốc độ frame, hệ số co)
– Tốc độ lấy mẫu tối thiểu có thể được tính như sau:
S = A x F x H x N / C Ví dụ: Hệ PAL: S = 10.6 MHz
A = 4/3 (H ệ số co); F = 25 (T ốc độ frame);
H = 409 ( Độ phân giải ngang); N= 625 ( Độ phân giải dọc);
C = 0.8 (H ệ số thời gian dành cho khoảng trắng quét ngang)
Ta có thể tính tốc độ lấy mẫu tối thiểu từ độ rộng băng tần của tín hiệu video theo lý thuyết Nyquist: Nếu băng tần của video tương tự là f thì tốc độ lấy mẫu ít nhất là 2f
Trang 21Phần tử nhỏ nhất của hình ảnh gọi là điểm ảnh (pixel) Nếu tốc độ lấy mẫu nhỏ hơn đặc tả ở trên thì không thể giữ được độ phân giải Hiện tượng răng cưa sẽ xuất hiện (các điểm ảnh phân biệt được biểu diễn bằng các ô hình vuông nhỏ) Việc nhìn thấy hiện tương này phụ thuộc hệ số nhìn Hệ số nhìn càng lớn thì việc nhìn thấy hiện tượng răng cưa càng giảm
Các mức lượng hoá (Quantization Levels): Số mức lượng hoá phụ thuộc trực tiếp vào biên độ của tín hiệu tương tự và kích thước bước lượng hoá Bước lượng hoá ≥≥≥≥ nhiểu lượng hoá cực đại, nhưng phải nhỏ hơn ngưỡng phân biệt của thị giác Trong một cảnh, thị giác người có thể phân biệt các điểm có độ sáng chênh lệch 1% Nói cách khác khả năng phân biệt độ sáng của thị giác con người là 100:1
H ệ số tương phản (contrast ratio) được định nghĩa là tỷ số cường độ sáng của phần
tử sáng nhất và phần tử tối nhất Hệ số tương phản cao sẽ cho hình ảnh rỏ nét Độ sáng chung quanh màn hình có ảnh hưởng đến hệ số tương phản Ánh sáng chung quanh cao hơn thì hệ số tương phản sẽ giảm đi
Tỷ lệ 100:1 có nghĩa là ta có thể nhận biết hai cường độ sáng khác nhau nếu chúng
khác nhau hơn 1% Khả năng phân biệt này còn gọi là độ nhạy tương phản (contrast
sensitivity) được định nghĩa bằng hệ số của các độ sáng nhỏ nhất có thể phân biệt được Như vậy để giử được chất lượng của hình ảnh gốc thì bước lượng hoá hay nhiểu lượng hoá phải nhỏ hơn 1% Trên cơ sở thị giác nhận biết trong khoảng từ 1 - 100 và bước lượng hoá của 1% giá trị độ sáng, ta cần tổng cộng 460 bước lượng hoá Nó được tính toán bằng công thức:
Để biểu diễn 460 mức lượng hoá ta cần 9 bit Hình ảnh của tivi hiện nay có hệ số tương phản trong khoảng 10:1 đến 20:1 Với kiểu hình ảnh này ta chỉ cần 8 bit là đủ
H = L(1+p)n
H: Cường độ sáng lớn nhất, L: Cường độ sáng nhỏ nhất, p: Kích thước bước lượng hoá tính theo % biên độ ánh sáng n: Số bước lượng hoá cần thiết để biểu diễn độ sáng lừ L H.
Trang 22Nếu bước lượng hoá lớn hơn contrast sentivity, độ sáng khác nhau của những vùng lân cận có thể bị lượng hoá cùng giá trị Những vùng có cấp độ sáng bị thay đổi sẽ xuất
hiện những dãy sáng phân biệt, hiện tượng này gọi là contouring Hiệu ứng contouring
xảy ra khi sử dụng quá ít bước lượng hoá Nó thường xuất hiện tại các vùng tối bởi vì độ sáng khác nhau tương ứng 1% contrast sentivity thì rất nhỏ trong các vùng này
Số hoá video màu (Color video digitization): Chúng ta đã giới thiệu số hoá video đơn sắc (monochrome) – tức là chỉ theo độ sáng Để biểu diễn video màu, chúng ta cần số hoá từng tín hiệu màu sơ cấp riêng biệt như nguyên tắc số hoá đã làm với độ sáng Trong trường hợp này, mỗi điểm ảnh (pixel) được biểu diễn bởi một tập hợp ba giá trị tương ứng với ba màu sơ cấp, mỗi màu có cùng độ rộng băng tầng của tín hiệu độ sáng và cần cùng các mức lượng hoá như tín hiệu độ sáng Hệ quả là một video số màu yêu cầu số dữ
liệu gấp ba lần của video đơn sắc tương ứng
Ví dụ: Tín hiệu video hệ PAL có độ rộng băng tầng là 5.5 MHz, ta lấy mẫu với tốc độ cao
hơn 11 MHz Thường là 13.5 MHz Cũng như vậy ta cần: 8 bít cho mỗi mẫu, của mỗi màu, và tổng cộng trong 1 giây cần: (3x13.5x8) = 324 Mbits dữ liệu
Tốc độ dữ liệu tính toán ở trên là tốc độ dòng dữ liệu để biểu diễn video số Trong thực hành, tín hiệu video được biến đổi thành 2 thành phần là độ sáng và màu trước khi chuyển sang dạng số Do mắt người ít nhạy với thành phần màu và độ rộng băng tần của
nó được rút ngắn Như vậy độ rộng băng tần thấp hơn của thành phần màu, có thể sử dụng tốc độ lấy mẫu thấp hơn, rút ngắn số lượng dữ liệu cần thiết đễ biểu diễn video số Đây là dạng nén dữ liệu dùng đặc tính tri giác của con người
Khi chúng ta s ố hoá độ sáng và màu phân biệt, thành phần màu có thể được lấy mẫu
v ới tốc độ bằng phân nữa của thành phần độ sáng
Trang 23CCIR 601 4-2-2 SMPTE D-1
525 lines, 60 fields
CCIR 601 4-2-2 SMPTE D-1
625 lines, 50 fields Luminance components
Bandwidth (MHz)
Sampling rate (MHz)
Samples per total line
Samples per active line
Bits per sample
Bit rate (Mb/s)
5.5 13.5 838 710 8 108
5.5 13.5 864 716 8 108 Chrominance components
Bandwidth (MHz)
Sampling rate (MHz)
Samples per total line
Samples per active line
Bits per sample
Bit rate (Mb/s)
2.2 6.75 419 335 8 54
2.2 6.75 432 358 8 54
Bảng 2.3: Các tham số của truyền hình kỹ thuật số
2.4.3 Biểu diễn bitmap của hình ảnh và video số:
Trong quá trình số hoá video (ADC), ta không cần lấy mẫu các khoảng trắng hàng ngang và hàng dọc, do vậy ta giảm bớt được tốc độ bit Trong quá trình hiển thị, do đã biết số điểm trên mỗi dòng quét và số dòng quét trong một frame nên các khoảng trắng hàng ngang và hàng dọc có thể được tạo ra ngay trên thiết bị hiển thị Như vậy, hình ảnh
kỹ thuật số được sắp xếp trong một mảng hai chiều của các điểm ảnh Số cột tương ứng với số mẫu (điểm ảnh) trên một hàng Số hàng chính là số dòng quét của một frame Trong hình ảnh đơn sắc, chúng ta nhìn nó như một mảng hai chiều mà mỗi phần tử là độ sáng của điểm ảnh tại các vị trí tương ứng trong hình ảnh
Đối với ảnh màu, mỗi điểm ảnh là một tập hợp của ba giá trị tương ứng của ba màu
sơ cấp hoặc một thành phần độ sáng (luminance) và hai thành phần màu (chrominance) Điều đó rất thuận tiện để hiển thị một ảnh màu kỹ thuật số bằng ba mảng hai chiều tương ứng với ba thành phần Khi các giá trị của một điểm ảnh được biểu diễn bằng độ sáng và các thành phần màu, kích thước mảng của thành phần màu có thể nhỏ hơn thành phần độ sáng Trong quá trình hiển thị, ba thành phần này sẽ được xen kẻ một cách thích hợp để giảm bớt kích thước ảnh gốc
Việc sắp xếp các giá trị của điểm ảnh trong vùng bộ nhớ liên tục được gọi là bitmap Trong bitmap, một vị trí bộ nhớ (ba ví trí đối với ảnh màu) sẽ tương ứng một điểm ảnh tên màn hình Bộ nhớ được dùng để lưu trữ dữ liệu bitmap của hình ảnh được gọi chung
là framestore hay framebuffer
Trang 242.4.4 So sánh các hệ thống video tương tự và số
• Hình ảnh không được lưu trữ • Hình ảnh được lưu trữ (framestore)
• Không phân biệt trong thu, truyền và
hiển thị hình ảnh tỉnh và video • Có sự phân biệt trong thu, truyền và hiển thị hình ảnh tỉnh và video
• Các bộ phận (camera, transmiter,
receiver, display) của hệ thống phải hoạt
động một cách đồng bộ
• Các bộ phận (camera, transmiter, receiver, display) của hệ thống có thể hoạt động độc lập
• Cần sử dụng kỹ thuật quét xen để tiết
kiệm độ rộng băng tần truyền tín hiệu và
để tránh hiện tượng lập loè Chất
lượng hiển thị giảm
• Không cần sử dụng kỹ thuật quét xen
vì việc quét chỉ thực hiện trong nội bộ thiết bị hiển thị (framestore) Chất lượng hiển thị tăng
• Dữ liệu được truyền bằng với dữ liệu
gốc được thu nhận từ camera kể cả các
khoảng trắng hàng ngang và hàng dọc
• Dữ liệu thu từ camera được số hoá và nén trước khi truyền, không cần số hoá khoảng trắng hàng ngang và hàng dọc (Hệ số nén video ≥ 24:1)
• Dữ liệu video tương tự không được xử lý • Dữ liệu video số dể dàng được xử lý
2.4.5 Các nguồn khác của hình ảnh và video số
Trước đây chỉ có nguồn của hình ảnh và video là camera Dù hiện nay nó vẫn là nguồn chính, nhưng ta còn có các nguồn khác Nguồn quan trọng khác là từ các máy quét ảnh, nó biến đổi các hình ảnh, văn bản trên giấy thành dạng biểu diễn số dưới dạng bitmap Hình ảnh được quét có thể là màu / trắng đen Các hình ảnh được tạo ra bởi máy tính cũng là những hình ảnh số được lưu trữ trong bitmap dưới dạng vector
Mặc dù hình ảnh số có được từ nhiều nguồn nhưng chúng đều có thể được xử lý bởi
hệ thống máy tính: Mỗi hình ảnh là một mảng hai chiều (hoặc ba mảng hai chiều đối với ảnh màu) của các giá trị điểm ảnh
Video số là một chuổi hình ảnh được hiển thị theo một tốc độ xác định Mặc dù các giá trị điểm ảnh của hình ảnh từ các nguồn khác nhau có ý nghĩa khác nhau nhưng chúng đều có thể được biểu diễn bằng dạng RGB
Trang 252.5 Đặc tả kỹ thuật màu sắc
Hình ảnh và video màu là hai kiểu dữ liệu cơ bản của hệ thống đa phương tiện Tìm hiểu các chi tiết kỹ thuật và khả năng nhận biết của con người về màu là rất quan trọng vì các lý do sau:
– Một là, mong muốn hình ảnh hiển thị bởi hệ thống đa phương tiện giống như hình ảnh gốc khi nó được thu, và nó được hiển thị giống nhau trong các hệ thống khác
– Hai là, có thể thực hiên với một hệ số nén cao nếu chúng ta sử dụng một số đặc tính về khả năng nhận biết màu sắc của con người
– Ba là, nhiều hoạt động như tìm kiếm hình ảnh được dựa trên các giá trị điểm ảnh hoặc sự biểu diễn màu sắc Xử lý hiệu chỉnh màu sắc có thể làm cải thiện hiệu quả của các hoạt động này
Trong phần này, chúng ta sẽ khảo sát về biểu diễn, nhận biết về màu sắc và thảo luận
– Luminance (độ sáng) là một thuộc tính của thị giác theo đó một vùng xuất hiện
ánh sáng phát ra là nhiều hay ít Thị giác con người có đáp ứng về cảm giác
không tuyến tính đối với độ sáng: Một nguồn có độ sáng chỉ bằng 18% độ sáng
tham chi ếu sẽ xuất hiện sáng chừng phân nữa Như đã đề cập trước đây, một
người quan sát có thể phát hiện sự khác biệt về cường độ sáng giữa hai vùng khi
cường độ sáng của chúng khác nhau hơn 1%
– Hue (màu / màu sắc) là một thuộc tính của thị giác theo đó một vùng xuất hiện
dường như giống với sự nhận biết của một trong các màu đỏ, vàng, xanh lá và
xanh d ương hoặc một tổ hợp của hai trong các màu trên Các màu trong tự nhiên
thường là màu đa sắc, nó được pha trộn bởi nhiều bước sóng Mỗi màu trong tự nhiên có một bước sóng chi phối, thiết lập sự cảm nhận trực quan về màu sắc, nhưng nó cũng có thể chứa các thành phần bức xạ có bước sóng mở rộng trên toàn bộ quang phổ nhìn thấy được Màu trắng hoặc xám là bức xạ ánh sáng có tất cả các bước sóng với lượng tương đương nhau
– Saturation (độ bảo hoà màu) là độ thuần màu của một vùng được xem xét
tương ứng với độ sáng của nó Sự xuất hiện của bất kỳ một màu nào có thể được nhân đôi khi có sự pha trộn phổ màu thuần của nó và ánh sáng trắng (hoặc xám) trong một tỷ lệ thích hợp Tỷ lệ giữa năng lượng của thành phần quang phổ và tổng năng lượng của ánh sáng xác định độ thuần màu hoặc độ bão hòa màu của
Trang 26nó Một màu thuần có độ bảo hoà là 100%, trong khi màu trắng có độ bảo hoà màu là 0%
2.5.2 Các hệ thống đặc tả màu sắc:
Trong truyền thông hình ảnh và video màu, màu sắc phải được đặc tả trong một số phương pháp Phần này chúng ta sẽ trình bày một số hệ thống đặc tả màu sắc hay không gian màu (color space) và cách biến đổi giữa chúng
Công cụ đặc tả màu độc lập:
Ba thuộc tính vật lý cơ bản của màu có thể được
đặc tả bằng sơ đồ phân bố năng lượng quang phổ
(SPD: Spectral Power Distribution), đó là sơ đồ radian
của năng lượng đối với bước sóng SPD là phương
pháp chính xác nhất để đặc tả màu, nhưng không mô tả
mối quan hệ giữa các thuộc tính vật lý của màu sắc và
thị giác
Uỷ ban quốc tế về chiếu sáng (CIE: Comite International de l’Eclairage) định nghĩa
hệ thống để ánh xạ một SPD thành ba thành phần số là toạ độ toán học của không gian màu CIE định nghĩa “chuẩn quan sát” của con người trên cơ sở đo lường khả năng tương hợp màu trung bình của mắt người Sử dụng dữ liệu từ các đo lường, một hệ thống ba tác nhân XYZ đã được phát triển, mà tất cả các màu nhìn thấy được có thể được biểu diễn, chỉ dùng các giá trị dương của X,Y,Z Trong đó Y là độ sáng (luminance), X và Z là thông tin màu
Dạng cơ bản của hệ thống CIE 1931 XYZ là
nền tảng của các thiết bị đo màu Nó hoàn toàn
độc lập, và các giá trị X,Y,Z bình thường được
định nghĩa trong khoảng [0,1] Trong thực hành,
màu hiếm khi được đặc tả bằng các số hạng XYZ
mà thường dùng toạ độ phối màu (chromaticity)
x và y được tính từ giá trị ba tác nhân X,Y,Z theo
biểu thức:
x = X / (X+Y+Z)
y = Y / (X+Y+Z)
Hình bên là biểu đồ phối màu ánh sáng thấy
được của CIE, bước sóng của các màu là toạ độ trên đường biên của sơ đồ Ánh sáng thấy được nằm bên trong đường bao của sơ đồ, nó là đường nối của các điểm có bước sóng từ
380nm – 800nm Trong biểu đồ, các màu có thể được đặc tả bởi các giá trị xyY
X = x * Y / y
Z = (1-x-y) * Y / y
Điểm lợi chính của CIE XYZ là hoàn toàn độc lập Điểm bất lợi chính của CIE XYZ
là sự phức tạp trong cài đặt và không trực quan
Trang 27Quan hệ giữa CIE XYZ và các không gian màu khác:
Theo lý thuyết Tristimulus, một màu bất kỳ có thể chứa sự pha trộn của ba màu sơ cấp với một tỷ lệ thích hợp
Màu sơ cấp thì độc lập với ý nghĩa là nó
không chứa sự pha trộn của hai màu sơ cấp khác
Một đặc tính khác để chọn màu sơ cấp là nó có
thể trình bày được nhiều màu khác Lý do tại sao
ba màu sơ cấp là đủ để trình bày tất cả các màu
là do có ba kiểu bộ tiếp nhận màu trong mắt
người Sự kích thích của ba kiểu bộ tiếp nhận này
sẽ tạo ra cảm giác màu Để đặc tả duy nhất một không gian màu bằng ba màu sơ cấp, chúng ta cần đặc tả tọa độ phối màu (chromaticitie) của các màu sơ cấp và một điểm tham khảo trắng Điểm tham khảo trắng có các giá trị R=G=B=Y=1 Với một điểm màu
cụ thể các giá trị xr, yr, xg, yg, xb, yb, xn, yn là các hằng số Một điểm màu khác sẽ có một tập hằng số khác
Bốn điểm này (ba điểm toạ độ của ba màu sơ
cấp và một điểm tham khảo trắng) có thể vẽ nên
một sơ đồ phối màu
Phạm vi của các màu có thể được tạo ra từ
một tập hợp của ba màu sơ cấp RGB trên sơ đồ
phối màu trong một tam giác có ba đỉnh là toạ độ
ba màu sơ cấp Phạm vi này được gọi là gamus
của một không gian màu
Từ không gian màu XYZ ta có thể đổi sang
một không gian màu bất kỳ khác bằng một phép
biến đổi tuyến tính Theo định luật Grassman ta
có:
Những không gian màu đồng dạng
Trong hình trên ta thấy toạ độ phối màu của G luôn có một khoảng cách với toạ độ phối màu của bước sóng 510 nm, Điều đó cho thấy rằng nhiều màu không thể được tao ra bằng cách dùng ba màu sơ cấp RGB Kết luận này là không chính xác, bởi vì không gian màu xyY không phải là không gian màu đồng dạng: Thị giác của con người không đáp ứng bằng nhau theo khoảng cách của sơ đồ phối màu
Trong một không gian màu đồng dạng, khoảng cách trên sơ đồ phối màu gần bằng nhau thì sự nhận biết về màu sắc là như nhau đối với các màu Tổ chức CIE đặc tả hai không gian màu đồng dạng gần bằng nhau: CIEL*u*v* (hay LUV) và CIEL*a*b* (hay LAB) Những không gian màu đồng dạng thường dùng trong đo lường màu và phục hồi hình ảnh màu, theo đó các điểm ảnh có giá trị khác nhau sẽ tương ứng với sự nhận biết
màu sắc khác nhau
Trang 282.5.3 Khác biệt của các biểu diễn màu
Biểu diễn RGB được sử dụng trong hầu hết các hệ thống đa phương tiện Hình ảnh
số được biểu diễn bởi ba mảng hai chiều ứng với ba thành phần màu đỏ, xanh lá, xanh dương Nếu tất cả hình ảnh được biểu diễn bằng RGB thì nó được biểu diễn trong cùng không gian màu và có thể được sử dụng và so sánh một cách trực tiếp bất kể hình ảnh đến
Trong thực hành nhiều không gian màu RGB được sử dụng và sơ đồ phối màu của
nó không được đặc tả, dẫn đến chất lượng hiển thị và hiệu quả phục hồi hình ảnh kém
Hiệu chỉnh gamma
Hiệu chỉnh gamma là một phép tính phi tuyến dùng để mã hoá và giải mã độ sáng hoặc độ phối màu của hình ảnh và video
Đối với màn hình CRT, cường độ sáng của màn
hình không tuyến tính với điện thế tín hiệu vào mà
theo một hàm mũ với số mũ [2.2- 2.5] Giá trị số mũ
gọi là gamma
Luminance = (V’)gamma
Đối với camera, điện thế tín hiệu tạo ra của bộ
cảm biến thì tuyến tính với cường động ánh sáng Vậy
ta có thể biến đổi điện thế ra này thành điện thế tín
hiệu vào của màn hình CRT theo hàm mũ 1/gamma
(hiệu chỉnh gamma)
V’ = (V)1/gamma
Quá trình thu và phát hình được biến đổi theo các bước sau:
1) Bộ cảm biến của camera biến đổi tuyến tính độ sáng thành điện thế
2) Hiệu chỉnh gamma chuyển đổi điện thế tuyến tính của camera thành điện thế phi tuyến bằng hàm mũ 1/gamma
3) CRT biến đổi điện thế phi tuyến thành ánh sáng tuyến tính bằng hàm mũ của gamma
Trang 29Toàn bộ quá trình là tuyến tính (hoặc gần như tuyến tính)
gamma =1 Cân bằng độ sáng tối
gamma >1 Tăng độ sắc nét (sharp) gamma <1 Hình ảnh mềm (soft)
Với hình ảnh và video màu, các điện thế tuyến tính R, G và B biểu diễn ba màu sơ cấp đỏ, xanh lá và xanh dương được biến đổi thành các điện thế phi tuyến R’, G’ và B’ Màn hình màu CRT sẽ biến đổi các điện thế R’, G’ và B’ thành các ánh sáng màu tuyến tính đỏ, xanh lá và xanh dương để tái tạo lại màu sắc
Chú ý rằng R, G và B thường có các giá trị trong khoảng [0,1] Nhưng ở dạng số, mỗi thành phần được biểu diễn bằng các số nguyên trong khoảng [0,255], như vậy ta có: R’ = 255 R1/gamma G’ = 255 G1/gamma B’ = 255 B1/gamma
Hằng số 255 trong phương trình trên được thêm vào trong quá trình biến đổi ADC Khi hiển thị nó bị loại bỏ trong quá trình biến đổi DAC Các giá trị gamma và hiệu chỉnh gamma phụ thuộc vào thiết bị thu nhận và hiển thị hình ảnh Ví dụ:
– Hai hình ảnh số được thu từ hai camara khác nhau có hai giá trị hiệu chỉnh gamma khác nhau là 1/2.5=0.4 và 1/2.0=0.5 Với một điểm ảnh R’G’B’ có các giá trị (100,200,100) Ta có:
+ 1/gamma =0.4 Điện thế RGB là (0.096, 0.545, 0.096)
+ 1/gamma =0.5 Điện thế RGB là (0.154, 0.615, 0.154)
– Hình ảnh số có nguồn gốc từ các máy quét (scanner)
+ Quét từ film âm bản: gamma =0.6
+ Quét từ ảnh màu: gamma =3.0
– Hình ảnh số tạo ra từ máy tính (computer) có giá trị gamma trong khoảng [1.4,2.2] Một số phần mềm người dùng có thể đặt các giá trị gamma từ 0.5 đến 5
2.5.4 Cần có dạng biến đổi chung cho hình ảnh và video
Trong hệ thống đa phương tiện hình ảnh và video được thu nhận từ nhiều nguồn khác nhau Để hiển thị hình ảnh đúng với màu sắc của nó khi thu thì các hàm chuyển đổi các giá trị điểm ảnh màu trên các thiết bị thu phải phù hợp với thiết bị hiển thị Các thiết
bị hiển thị sẽ biến đổi các giá trị điểm ảnh bằng chính hàm chuyển đổi và không gian màu của hình ảnh
Những dạng chung của tập tin hình ảnh không hỗ trợ các tham số này Vì vậy chất lượng hiển thị của hình ảnh được tải về từ Internet nhìn chung là thấp Để đạt được chất
Trang 30lượng hiển thị, hiệu quả phục hồi hình ảnh cao và độc lập với thiết bị thì dạng chuyển đổi chung của hình ảnh và video cần cung cấp các thông tin về hiệu chỉnh gamma và biểu đồ phối màu của không gian màu được sử dụng
2.5.5 Các đặc tính của thị giác và hiệu quả nén hình ảnh
Khi cần hệ số nén cao, điều quan trọng là phải hiểu được đặc tính nhận thức của con người và chỉ gửi thông tin được coi là quan trọng nhất cho con người quan sát Có một số hiện tượng có ảnh hưởng đến chất lượng hiển thị hình ảnh Các phương pháp có thể được phát triển để kết hợp các hiện tượng này vào giải thuật nén dữ liệu
Mắt người ít nhạy với thành phần màu, vậy có thể giảm bớt dữ liệu để biểu diễn thành phần màu Thị giác con người thì không tuyến tính độ sáng, độ nhạy của mắt khoảng 1% sự thay đổi cường độ sáng
– Nếu ta số hoá các điện thế tuyến tính một cách trực tiếp, lượng hoá phi tuyến sẽ được dùng để biểu diễn một điểm ảnh với ít bít hơn
– Sau hiệu chỉnh gamma, tín hiệu video không tuyến tính với độ sáng của hình ảnh Chúng ta có thể dùng lượng hoá tuyến tính để số hoá hiệu chỉnh gamma của tín hiệu video Theo quan điểm này, nếu thiết bị hiển thị là tuyến tính, chúng ta có thể biến đổi đồng dạng của hiệu chỉnh gamma để cho lượng hoá tuyến tính đơn giản hơn được sử dụng
Hệ thống thị giác của con người nhạy hơn với phổ tần số trung bình và ít nhạy ở các phổ tần số thấp và cao Chúng ta có thể phân đoạn hình ảnh vào trong nhiều khối theo phổ tần số và mã hoá chúng theo cách đó để thu được hiệu quả nén dữ liệu cao Cảm giác con người không đáp ứng một cách đồng đều theo khoảng cách trong không gian màu RGB Trong một số ứng dụng, một không gian màu đồng nhất sẽ được sử dụng để thông tin quan trọng không bị loại bỏ vì ít có giá trị
2.6 Các đặc tính chính và yêu cầu của thông tin đa phương tiện
2.6.1 Các yêu cầu về lưu trữ và độ rộng băng tần
Yêu cầu lưu trữ được tính bằng đơn vị Bytes /
Mbytes
Với hình ảnh, chúng ta đo yêu cầu lưu trữ bằng đơn vị
Bytes / Mbytes cho mỗi ảnh, nó được tính từ số điểm ảnh
của một hàng (H), số hàng trong một ảnh (V) và số bit cho
một điểm ảnh (P) Dung lượng = HVP/8 Ví dụ: Một ảnh
có 480 hàng, 600 điểm mỗi hàng và mỗi điểm ảnh cần 24
bits Ta cần 864.000 bytes cho mỗi ảnh
Độ rộng băng tần đo bằng tốc độ bits/s hoặc Mbits/s
Các ảnh đơn thì không cần chiều thời gian, nếu có yêu cầu thời gian xác định để truyền một ảnh thì yêu cầu băng thông có thể được tính từ yêu cầu dung lượng lưu trữ Ví dụ: Nếu mỗi ảnh phải được truyền trong 2 giây thì phải cần băng thông:
(864.000x8)/2 = 3.456.000 bits/s = 3,456 Mbits/s
Trang 31Trong một số ứng dụng, hình ảnh phải được hiển thị đồng bộ với một phương tiện liên tục khác như âm thanh Trong trường hợp này hình ảnh phải truyền chính xác theo
thời gian và như vậy cần yêu cầu về băng thông
Âm thanh và video có thời gian liên tục, và được mô tả theo tốc độ (bits/s / Mbits/s) Với âm thanh số này được tính theo tốc độ lấy mẫu và số bits cho mỗi mẫu Với video tốc
độ bít được tính từ số dữ liệu mỗi ảnh và số ảnh trong một giây, kết quả sẽ cho ta yêu cầu tốc độ bits của kênh truyền
Từ bảng mô tả tốc độ bit chúng ta thấy rằng audio và video kỹ thuật số yêu cầu băng
thông của mạng tốc độ cao để truyền dữ liệu
Để cất giử và lấy lại âm
thanh và video kỹ thuật số, giá
trị tốc độ bit được dùng để đặc
tả yêu cầu tốc độ chuyển dữ
liệu của thiết bị lưu trữ Nếu
biết thời gian của âm thanh và
video thì có thể tính toán dung
lượng lưu trữ
Yêu cầu dung lượng lưu trữ của audio và video là rất lớn nên phải sử dụng các kỹ
thuật nén dữ liệu cho các ứng dụng đa phương tiện
2.6.2 Các yêu cầu về độ trể và sự biến thiên của độ trể:
Âm thanh và video kỹ thuật số là phương tiện liên tục theo thời gian Để đạt được chất lượng hợp lý khi phát lại (playback) thì các mẫu của audio và video phải được nhận
và phát lại theo các thời khoảng điều hoà Ví dụ: Một đoạn âm thanh được lấy mẫu ở 8 KHz, nó phải được phát lại 8,000 mẫu mỗi giây
Độ trung thực không chỉ phụ thuộc vào giá trị các mẫu mà còn phụ thuộc vào thời gian phát lại các mẫu
Độ trể giữa hai đầu (end-to-end) là tổng tất cả các độ trể của các thành phần trong
hệ thống đa phương tiện: Thời gian thâm nhập đĩa, ADC, mã hoá, xử lý, thời gian thâm nhập mạng, truyễn dữ liệu, đệm dữ liệu, giải mã và DAC Độ trể chấp nhận được phụ thuộc vào từng ứng dụng:
– Trong đàm thoại độ trể chấp nhận được từ 0,6–1.8 giây
– Các ứng dụng khác nhau sẽ có yêu cầu độ trể khác nhau, khi cần độ trể nhỏ, kỹ thuật loại bỏ dữ liệu lập lại được dùng
Sự thay đổi về độ trể trong ứng dụng được gọi chung là biến thiên độ trể (delay
jitter) Để phát lại các phương tiện liên tục, biến thiên độ trể phải giữ ở mức rất nhỏ – Âm thanh chất lượng điện thoại (telephone-quality) và video chất lương truyền hình (television-quality) yêu cầu biến thiên độ trể nhỏ hơn 10 ms
Trang 32– Giá trị biến thiên độ trể của âm thanh hai chiều chất lượng cao (high-quality stereo audio) phải nhỏ hơn 1 ms, bởi vì cần sự nhận biết phân biệt các hiệu ứng hai chiều dựa trên độ lệch pha tối thiểu giữa 2 kênh âm thanh
Chú ý rằng các yêu cầu về độ trể và biến thiên độ trể phải được bảo đảm trong suốt phiên truyền thông Hiện nay, mạng máy tính, giao thức vận chuyển, hệ điều hành, và thiết bị lưu trữ thì không cung cấp các đảm bảo này Như vậy, hiện nay các máy tính và mạng được cài đặt thông thường không thể phục vụ cho ứng dụng đa phương tiện Ta sẽ nghiên cứu các yêu cầu này trong các phần sau
2.6.3 Cấu trúc ngữ nghĩa của thông tin đa phương tiện:
Trong hệ thống máy tính, âm thanh, hình ảnh và video số là một chuỗi các giá trị được lấy mẫu không có cấu trúc ngữ nghĩa Từ các giá trị được lấy mẫu này nó khó lấy lại thông tin có liên quan một cách tự động
Quá trình phát triển trong lĩnh vực nhận dạng tiếng nói và thị giác máy tính, đối với máy tính điện tử việc hiểu ý nghĩa và nội dung của âm thanh và video là không thể trong các ứng dụng thông thường sử dụng công nghệ hiện nay
Thông tin càng ngày càng được thu và lưu trữ dưới dạng âm thanh, hình ảnh, và video số Để sử dụng đầy đủ các thông tin này, kỹ thuật mới trong chỉ mục và tìm kiếm
dữ liệu âm thanh, hình ảnh, và video phải được phát triển Nghiên cứu mới trong lĩnh vực này gọi là “hệ thống quản trị thông tin đa phương tiện”
2.6.4 Thời gian và không gian trong quan hệ các phương tiện
Trong xử lý và truyền thông đa phương tiện, nhiều kiểu phương tiện (gồm phương tiện tỉnh và động) được đưa vào trong cùng một ứng dụng hoặc trình diễn Để đạt được những hiệu quả mong muốn, việc lấy lại và truyền các phương tiện có liên hệ này phải được kết hợp và trình bày, mà theo đó mối quan hệ về thời gian phải được duy trì
Sự xuất hiện đúng thời gian mong muốn của các tiết mục được gọi là sự đồng bộ
hoá (synchronization) Kế hoạch đồng bộ hoá định nghĩa cơ chế dùng để đạt được mức
độ yêu cầu của động bộ hoá Để thực hiện đồng bộ hoá đa phương tiên ta cần phải:
– Phát triển các cơ chế và công cụ để có thể đặc tả các yêu cầu quan hệ về thời gian một cách dể dàng
– Đảm bảo mối quan hệ thời gian được đặc tả phải chiến thắng tính bất định tự nhiên của hệ thống truyền thông
2.6.5 Khả năng chịu lỗi và mất trong dữ liệu đa phương tiện
Đặc tính của dữ liệu đa phương tiện nêu trên, tất cả là “tin tức xấu”: Nó đặt ra nhiều yêu cầu nghiêm ngặt cho thao tác của các hệ thống máy tính, hơn là dữ liệu chữ số truyền thống
Ở đây có một bit “tin tức tốt”: Có thể chịu một số lổi / mất trong dữ liệu âm thanh và video số Bit bị lổi / mất không là tai hoạ vì trên thực tế trong dữ liệu âm thanh và video chúng ta vẫn có thể nhận biết được nó khi bị một số ít bit bị lổi / mất
– Với tiếng nói, có thể chịu được một tỷ lệ lổi 10-2
Trang 33– Với hình ảnh và video, có thể chịu được một tỉ lệ 10-3-10-6
Một thông số đo lường lổi khác là tỷ lệ mất gói (packet loss rate) Yêu cầu cho tỷ lệ
mất gói thì nghiêm khắc hơn tỷ lệ bit lổi, vì một gói bị mất có thể ảnh hưởng đến giải mã hình ảnh Khi các kỹ thuật nén được sử dụng bit lổi sẽ phải thấp hơn bởi vì một bit lổi có thể là nguyên nhân của giải nén lổi của nhiều bit Kỹ thuật che dấu lỗi có thể được dùng
để cải thiện chất lượng âm thanh và video
2.7 Chất lượng của dịch vụ truyền thông đa phương tiện
Dữ liệu đa phương tiện bắt buộc thoả mản các yêu cầu nghiêm khắc trong hệ thống
đa phương tiện như: độ rộng băng tần cao, không gian lưu trữ lớn, tốc độ truyền cao, giới hạn về độ trể và biến thiên độ trể và sự đồng bộ hoá giữa không gian và thời gian
– Phương tiện và ứng dụng khác nhau có yêu cầu khác nhau
– Các yêu cầu phải được thoả mãn trong toàn bộ phiên truyền thông / trình diễn thông qua các thành phần của hệ thống
Để cung cấp một cơ cấu tổ chức đồng nhất, chỉ rõ và bảo đảm các yêu cầu khác nhau, khái niệm “chất lượng dịch vụ” (QOS: Quality of service) đã được đưa ra
– QOS là một tập hợp các tham số yêu cầu Nó không phải là tập hợp các tham số được chấp nhận thông thường Các tham số yêu cầu chung bao gồm các yêu cầu được đề cập ở trên
– Các thông số này được định rõ trong hai cấp: Chất lượng thích hợp và chất lượng
có thể chấp nhận được
QOS là phiên giao tiếp được thoả thuận, và chấp nhận trong các ứng dụng đa phương tiện, và hệ thống đa phương tiện (nhà cung cấp dịch vụ) Khi một ứng dụng cần bắt đầu phiên làm việc, nó đưa ra một đề nghị yêu cầu QOS đến hệ thống Hệ thống sẽ từ chối hoặc chấp nhận đề nghị, hoặc chấp nhận với một số thoả thuận thấp hơn các yêu cầu của ứng dụng Khi hệ thống chấp nhận đề nghị, một giao tiếp giữa hệ thống và ứng dụng được báo hiệu và hệ thống sẽ cung cấp QOS được yêu cầu Sự đảm bảo này có thể ở một trong ba dạng:
– Hard: Thoả mãn hoàn toàn yêu cầu QOS
– Soft: Cung cấp một bảo đảm với một khả năng (xác suất) P
– Best effort: Không đảm bảo cho tất cả, hệ thống sẽ thực hiên với hết khả năng
Sự bảo đảm phải bắt buộc với hai đầu hoặc hệ thống diện rộng Hệ thống đa phương tiện điển hình gồm ba phần: Máy tính điện tử, hệ thống tập tin, hệ thống vận chuyển hoặc truyền thông (bao gồm giao thức vận chuyển và phần dưới của kiến trúc mạng)
QOS chỉ có thể được đảm bảo khi yêu cầu các tài nguyên hệ thống được quản lý một cách đúng đắn Các tài nguyên hệ thống bao gồm: CPU, bộ nhớ, độ rộng băng tần,.… Mỗi thành phần của hệ thống có một bộ phận quản lý tài nguyên, nó giám sát các tài nguyên đang dùng và có sẳn
Khi nhận được yêu cầu của một phiên làm việc mới, nó sẽ làm một kiểm tra chấp nhận (admission test) Nếu các tài nguyên có sẳn đủ hỗ trợ yêu cầu mới, và không cản trở
Trang 34các phiên làm viêc hiện tại, nó sẽ được đưa vào Nói cách khác, một tập hợp mới các tham số QOS được đề nghị đến ứng dụng, trên cơ sở các tài nguyên sẳn dùng
– Nếu đề nghị được chấp nhận, phiên làm việc mới bắt đầu
– Tất cả các trường hợp khác, phiên làm việc mới bị từ chối
Nghiên cứu QOS vẫn còn rất mới, và nhiều nghiên cứu đang được tiến hành Ví dụ: – Làm sao để biến đổi các tham số QOS thành các yêu cầu tài nguyên
– Làm sao để xây dựng kế hoạch của các phiên làm việc, khi có nhiều phiên làm việc có thể được hỗ trợ bởi một số cố định các tài nguyên
Bản chất của truyền thông đa phương tiện là sự bảo đảm chất lượng dịch vụ của các ứng dụng đa phương tiện, trong khi vẫn sử dụng tài nguyên hệ thống một cách hiệu quả Những mô tả trên đây là giới thiệu tóm tắt về chất lượng dịch vụ, chúng ta sẽ thảo luận chi tiết trong chương 4
2.8 Tóm tắt
Định nghĩa đặc tính chính của hệ thống đa phương tiện bằng việc sử dụng âm thanh
và video kỹ thuật số Âm thanh và video kỹ thuật số có chiều thời gian liên tục, có nghĩa
là nó phải được truyền và trình bày theo một tốc độ lấy mẫu cố định Ngoài khó khăn về thời gian này, nó còn yêu cầu dung lượng lưu trữ lớn và băng thông truyền tải cao Âm thanh và video kỹ thuật số là chuỗi các dữ liệu nhị phân, từ đó rất khó để nhận ra và lấy lại các thông tin liên quan
Với âm thanh và video kỹ thuật số, các giá trị mẫu biểu diễn màu sắc của các điểm ảnh tương ứng Có rất nhiều chuẩn đầu vào và đầu ra của hình ảnh và các thiết bị được sử dụng để biểu diển màu sắc khác nhau - để đạt được chất lượng hiển thị cao, tỷ lệ nén cao,
và hiệu suất phục hồi cao, màu sắc điểm ảnh cần được đặc tả bằng phương tiện độc lập Các hệ thống xử lý và truyền thông đa phương tiện được hỗ trợ và cung cấp các nội dung sau đây:
1) Nén dữ liệu để giảm yêu cầu không gian lưu trữ và băng thông truyền tin
2) Hệ điều hành đa phương tiện, giao thức vận chuyển và thời biểu thâm nhập đĩa phải cung cấp độ trể và biến thiên độ trể thích hợp
3) Máy tính trạm hiệu quả và mạng tốc độ cao để thao tác với các tốc độ bit lớn với các ràng buộc khắc khe về thời gian
4) Phải có cơ chế đồng bộ hóa phương tiên để giữ các mối quan hệ về không gian và thời gian giữa các phương tiện có liên quan
5) Một bộ máy tìm kiếm hiệu quả cao đủ khả năng tìm và lấy lại âm thanh, hình ảnh
và video đáp ứng kịp thời yêu cầu người dùng
6) Trên hết, phải có cơ chế đặc tả và đảm bảo chất lượng dịch vụ (QOS) truyền thông đa phương tiện
Trang 35Chương 3
Các nguyên lý, kỹ thuật và chuẩn nén
Âm thanh, hình ảnh và video số
(Digital Audio, Image & Video Compression Principles, Techniques & Standards)
Mục đích: Giới thiệu nguyên lý, kỹ thuật và các chuẩn nén dữ liệu: âm thanh, hình
ảnh và Video kỹ thuật số
Yêu cầu: Sinh viên nắm vững:
– Các nguyên lý nén dữ liệu đa phương tiện
– Các kỹ thuật nén dữ liệu đa phương tiện
– Các chuẩn nén dữ liệu âm thanh, hình ảnh và video kỹ thuật số
Nội dung:
1. Nguyên lý nén dữ liệu
2. Kỹ thuật nén không bị mất dữ liệu
3. Kỹ thuật nén âm thanh kỹ thuật số
4. Kỹ thuật nén hình ảnh và Video kỹ thuật số
5. Các chuẩn nén dữ liệu đa phương tiện
6. Tóm tắt
Trang 361 Nguyên lý nén dữ liệu
Âm thanh, hình ảnh và video số cần số lượng dữ liệu rất lớn để biểu diễn và băng thông rộng để truyền Ta sẽ trao đổi các kỹ thuật và chuẩn nén dữ liệu: âm thanh, hình ảnh và video số
– Mô tả các nguyên lý cơ bản trong nén dữ liệu, làm sao để đo lường hiệu suất nén
và xếp loại các kỹ thuật nén
– Các kỹ thuật có thể nén tốt cho cả tập tin văn bản và dữ liệu đa phương tiện Các
kỹ thuật này có đặc tính chung là dữ liệu gốc có thể được lấy lại chính xác sau khi nén
– Có nhiều kỹ thuật và sản phẩm nén hình ảnh và video trên thị trường Để dễ dàng
sử dụng các kỹ thuật và khả năng tương thích trong các sản phẩm, một số chuẩn quốc tế về nén hình ảnh và video như JPEG, MPEG được đề nghị
Hiểu các chuẩn này sẽ giúp chúng ta chọn lựa các kỹ thuật nén phù hợp trong ứng dụng, thiết kế và phát triển các phần cứng và phần mềm hỗ trợ cho nén các dòng dữ liệu này
Mong muốn nén âm thanh, hình ảnh và video số là để tốc độ bit và yêu cầu lưu trữ
có thể quản lý được Chúng ta nén được dữ liệu nhờ vào việc khai thác hai nhân tố chính: – Sự dư thừa dữ liệu trong âm thanh, hình ảnh và video số
– Đặc tính các giác quan của con người
1.1 Sự dư thừa dữ liệu:
Âm thanh số là chuỗi các giá trị lấy mẫu Một hình ảnh là một mảng hai chiều các giá trị lấy mẫu, và video là một chuỗi hình ảnh phát ra theo một tốc độ nào đó Các giá trị lấy mẫu âm thanh hay hình ảnh không hoàn toàn độc lập Các giá trị lấy mẫu lân cận ít nhiều có tương quan với nhau Sự tương quan này gọi là sự dư thừa Loại bỏ sự dư thừa không làm thay đổi ý nghĩa của dữ liệu
Sự dư thừa trong âm thanh số
Trong hầu hết các trường hợp, các giá tri lấy mẫu âm thanh lân cận thì tương tự như nhau Một giá trị mẫu kế tiếp có thể được dự đoán ở một mức độ nhất định trên cơ sở giá trị lấy mẫu hiện tại Kỹ thuật nén dùng đặc điểm này được gọi là mã hoá dự đoán (predictive coding)
Trong tiếng nói số, ta có một kiểu khác của dư thừa:
– Trong đàm thoại / lời nói bình thường, chúng ta chỉ phát ra tiếng nói trong một tỷ
lệ phần trăm rất thấp theo thời gian Giữa những tiếng nói phát ra là khoảng im lặng
– Các mẫu ứng với các khoảng im lặng có thể được loại bỏ mà không ảnh hưởng tới ý nghĩa của câu nói
– Kỹ thuật nén sử dụng đặc điểm này được gọi là loại bỏ khoảng im lặng (silence removal)
Trang 37Trong hình ảnh số, các mẫu lân cận trên một dòng quét bình thường là như nhau Các mẫu lân cận trên những đường quét gần kế nhau thì cũng tương tự nhau
– Sự tương tự này gọi là dư thừa không gian (spacial redundancy)
– Dư thừa không gian được loại bỏ bằng kỹ thuật mã hoá dự đoán và các kỹ thuật khác (như là mã hoá biến đổi)
Sự dư thừa trong video ảnh số
Video số là một chuỗi các hình ảnh, như vậy nó cũng có các dư thừa không gian – Các hình ảnh lân cận nhau trong một chuỗi video bình thường là như nhau
– Sự tương tự này gọi là dư thừa thời gian (temporal redundancy) và có thể bị loại
bỏ bởi ứng dụng kỹ thuật dự đoán giữa các hình ảnh
1.2 Đặc tính của giác quan:
Đầu cuối sử dụng audio, hình ảnh và video là con người Con người có thể chịu được một số lỗi / mất thông tin mà không ảnh hưởng đến hiệu quả truyền thông Theo nghĩa này các phiên bản nén không cần biểu diễn các mẫu thông tin gốc một cách chính xác Điều này trái với dữ liệu chữ số, ở đó một số dữ liệu mất / lỗi là không được phép Một cách tổng quát, tri giác con người không nhạy khi một số ít dữ liệu bị mất / lổi trong audio, hình ảnh và video Độ nhạy tri giác khác nhau đối với các khuôn mẫu tín hiệu khác nhau Một số thông tin quan trọng đối với nhận thức của con người hơn những cái khác Từ các đặc tính nhận thức “thông tin độc lập trung bình” sẽ được bàn đến và dùng nó khi thảo luận về kỹ thuật nén âm thanh, hình ảnh và video
1.3 Phân loại các kỹ thuật nén:
Có nhiều kỹ thuật dùng để nén thông tin đa phương tiện, nó được phân loại theo nhiều cách Trong tài liệu này ta phân loại trên cơ sở kết quả của kỹ thuật nén Hai kiểu phân loại:
– Dữ liệu gốc có thể tái tạo một cách chính xác sau khi nén
– Tốc độ bít có thể là hằng số ở ngã ra của hệ thống nén
Kỹ thuật nén không mất dữ liệu và nén bị mất dữ liệu
Kỹ thuật nén không mất dữ liệu (lossless compression techniques): được dùng để
nén các chương trình máy tính, hồ sơ pháp lý và bệnh án, theo đó không có lỗi / mất dữ liệu sau nén Kỹ thuật này chỉ sử dụng các thống kê dữ liệu (data redundance)
Kỹ thuật nén bị mất dữ liệu (lossy compression techniques): được dùng để nén
audio, hình ảnh và video, ở đó một số lỗi / mất dữ liệu có thể chấp nhận được Kỹ thuật này sử dụng các thống kê dữ liệu và đặc tính nhận thức của con người
Kỹ thuật nén tốc độ bit không đổi và nén tốc độ bit thay đổi (CBR: Constant Bit Rate coding - VBR: Variable Bit Rate coding)
Trong số hoá audio / video, các mẫu được lấy trong các thời khoảng bằng nhau và biểu diễn với một số bit như nhau
Trang 38– Một số kỹ thuật nén sẽ làm giảm tốc độ bit của các dòng, và ta gọi là kỹ thuật
mã hoá tốc độ bit thay đổi (VBR: Variable Bit Rate coding)
Rất quan trọng khi xếp loại một kỹ thuật nén là CBR / VBR: Trước tiên, nội dung phương tiện thay đổi theo thời gian: Nếu phức tạp, nhiều dữ liệu được sử dụng để biểu diễn Nếu đơn giản, ít dữ liệu được sử dụng Kỹ thuật VBR hiệu quả và cho chất lượng cao ở cùng hệ số nén Thứ hai, VBR khó đặc tả và mô hình hóa, khó hỗ trợ bởi hệ thống truyền thông đa phương tiện Hai nhân tố này dùng trong mô tả khi thiết kế và phát triển
hệ thống đa phương tiện
1.4 Đo lường hiệu năng nén:
Hiệu năng của một kỹ thuật nén đo bằng một tập các tham số:
– Hệ số nén (compression ratio): là tỷ số giữa số lượng dữ liệu gốc và số lượng dữ liệu sau khi nén
– Chất lượng tái tạo phương tiện (reconstructed media quality): Khi sử dụng kỹ thuật nén bị mất dữ liệu ta lưu ý: khi hệ số nén cao thì chất lương tái tạo phương tiện thấp
– Độ phức tạp trong cài đặt (Implementation complexity): Càng đơn giản trong cài đặt càng tốt
– Tốc độ nén (compression speed): Nhanh là tốt
– Tốc độ giải nén (decompression speed): Nhanh là tốt
– Khi tốc độ nén và giải nén bằng nhau ta có kỹ thuật nén đối xứng (symmetric
compression techniques) , ngược lại ta có kỹ thuật nén không đối xứng
(asymmetric compression techniques)
Chon kỹ thuật nén cho một ứng dụng cần dựa trên cách xếp loại, các tham số đo hiệu năng, và yêu cầu của ứng dụng
2 Kỹ thuật nén không bị mất dữ liệu
Nén không mất dữ liệu được sử dụng để nén các chương trình máy tính, các văn bản luật pháp và các bệnh án Nó cũng được sử dụng kết hợp với kỹ thuật nén mất dữ liệu để đạt các hệ số nén cao trong thông tin đa phương tiện Các kỹ thuật nén không mất khai thác “tính dư thừa thống kê” (statisticals redundancies) trong dữ liệu được nén Ta dùng thuật ngữ “ký hiệu” (symbol) hoặc “ký tự” (charactere) để chỉ các ký tự văn bản (text characteres), giá trị số (numbers), giá trị mẫu (sample values) Các kỹ thuật nén không mất dữ liệu thường dùng:
– Mã hóa entropy (entropy coding)
– Mã hóa độ dài run (run-length coding)
– Mã hóa Lempel-Ziv-Welch (LZW coding)
2.1 Mã hoá Entropy:
Đo lường thông tin
Các ký hiệu khác nhau chuyển tải một lượng thông tin khác nhau phụ thuộc vào xác
Trang 39– Ký hiệu với xác suất xuất hiện cao tải một lượng thông tin nhỏ
– Ký hiệu với xác suất xuất hiện thấp tải một lượng thông tin lớn
– Lượng thông tin I được tải trong một ký hiệu với xác suất xuất hiện p được định nghĩa bởi:
I = Log(1/p)
Đơn vị của thông tin là bit, xác suất là các số thực giữa 0 và 1
– Nếu xác suất p=1 thì log2(1/p)=0 Điều đó có nghĩa là ký hiệu có xác suất xuất hiện bằng 1, không mang bất kỳ thông tin mới nào
– Nếu xác xuất rất nhỏ thì log2(1/p) trở nên rất lớn Như vậy, các ký hiệu ít khi xuất hiện sẽ mang một lượng rất lớn thông tin
Khái niệm này của thông tin hết sức quan trọng trong nén dữ liệu Chiều dài mã nén
lý tưởng của một ký hiệu trong nén không mất dữ liệu bằng với số bit thông tin của ký hiệu Các kỹ thuật nén nhắm tới mục tiêu này
Thông tin trung bình của mỗi ký hiệu trong một tập tin được gọi là entropy H và được định nghĩa bởi công thức:
1 log(
) p(s H
Entropy là giới hạn dưới cho nén không mất dữ liệu: Khi xác suất xuất hiện của mỗi
ký hiệu là cố định, mỗi ký hiệu sẽ được biểu diễn với trung bình tối thiểu là H bit Các bit được nén gần với entropy H cho hiệu quả nén tốt hơn (với kỹ thuật nén không mất) Kỹ thuật mã hóa dựa trên “độ dài mã hóa của các ký hiệu khác nhau thay đổi theo lượng thông tin mà nó tải” được gọi là mã hóa entropy
Mã hóa Huffman (Huffman Coding)
Hầu hết mã hoá entropy thường được dùng là mã hoá Huffman Nó gán một số ít bit cho các ký hiệu xuất hiện nhiều và nhiều bit cho các ký hiệu ít xuất hiện Nó có hiệu quả khi các xác suất xuất hiện của các ký hiệu khác nhau rất nhiều và thường được dùng kết hợp với kế hoạch mã hoá
Giả sử một file gồm 1000 ký tự, các ký tự trong file là e, t, x, và z xác suất xuất hiện của chúng trong file lần lượt là 0.8, 0.16, 0.02, và 0.02
– Trong phương pháp mã hoá đồng dạng bình thường ta dùng 2 bit để biểu diễn cho 4 ký tự Như vậy ta cần 2000 bit để biểu diễn toàn bộ file
– Trong mã hoá Huffman, ta dùng số lượng bit khác
nhau để biểu diễn các ký tự Tổng số bit yêu cầu là:
1000(1*0.8+2*0.16+3*0.02+3*0.02)=1240 bit
– Luật gán số bít cho ký hiệu là codebook
–
Trang 40xuất hiện nhỏ nhất, tạo
nút cha của chúng với hai
nhánh gán nhãn là 0 và 1
3) Nút cha “đại diện” cho
hai nút con với xác suất
xuất hiện là tổng xác suất
của hai con
4) Lập lại bước 2) và bước
3) cho tới khi tất cả các
ký hiệu nược nối vào cây
Nút cuối cùng tạo ra gọi là nút gốc (root node)
5) Bắt đầu từ nút gốc, gán bit 1 cho nhánh trên và bit 0 cho nhánh dưới cho tất cả các nút
6) Mã của mỗi ký hiệu có được bằng kết hợp các mã từ nút gốc qua các nhánh đến
ký hiệu
Trong ví dụ trên, tổng xác
suất của hai ký hiệu có xác suất
nhỏ nhất luôn nhỏ hơn xác suất
của ký hiệu kế tiếp Hình 3.2 là
một ví dụ mà tổng xác suất của
hai ký hiệu có xác suất nhỏ nhất
lớn hơn xác suất của ký hiệu kế
tiếp Sau khi tạo ra nút cha đầu
tiên, tổng xác suất của C và D
hớn hơn xác suất của A hoặc B
Như vậy nút cha thứ hai được tạo
ra giữa A và B Ví dụ này cho
thấy khi xác suất khác biệt giữa
các ký hiệu không đủ lớn, mã
Huffman có thể giống như mã
hoá đồng dạng
Mã hoá Huffman có hai thuộc tính quan trọng:
1) Mã hoá Huffman tạo ra các mã chặt (compact codes) Không tìm được một mã số nguyên nào cho hiệu quả hơn mã chặt này
2) Chuổi ký hiệu được mã hoá Huffman luôn được giải mã duy nhất