CÁC CHUẨN NÉN ÂM THANH SỐ

Một phần của tài liệu Nén tín hiệu âm thang số sử dụng mã hoá băng con (Trang 88 - 93)

Chương 4: NÉN ÂM THANH SỐ DÙNG MÃ HOÁ BĂNG CON

2. CÁC CHUẨN NÉN ÂM THANH SỐ

Đối với mỗi hệ thống audio số phải tuân theo một chuẩn mã hoá âm thanh nào đó. Có nhiều chuẩn mã hoá khác nhau như: chuẩn MPEG, chuẩn Dolby AC3.

Trong phạm vi của bài luận văn này tôi chỉ đề cấp đến các chuẩn MPEG.

Chuẩn mã hoá âm thanh MPEG (Moving Picture Experts Group) được phát triển như là một chuẩn cho việc nén tốc độ bit cao và được chia thành các loại chính sau:

- MPEG-1

Layer 1 (chuẩn dùng trong DCC- Digital Compact Cassette) Layer 2 (chuẩn dùng trong DAB và DVB)

Layer 3 (chuẩn dùng cho âm thanh phát trên mạng Internet) - MPEG-2 ACC (Advanced Audio Coding)

- MPEG-4 2.1. Tổng quan

Sự cần thiết để định rõ đặc điểm chung của mô hình mã hoá video và audio cho nhiều ứng dụng đối với mã hoá video và audio số và yêu cầu tốc độ dữ liệu thấp dẫn đến việc thành lập nhóm ISO/MPEG. Nhóm này có nhiệm vụ so sánh và đánh giá một vài kỹ thuật mã hoá âm thanh tốc độ thấp để phát triển thành một chuẩn quốc tế cho việc mã hoá âm thanh, ảnh động và kết hợp giữa chúng khi dùng cho mục đích lưu trữ, phục hồi trên môi trường lưu trữ số (DSM). Mục tiêu của DSM bao gồm CD-ROM, DAT, Magneto-Optical Disk và ổ máy tính. Kỹ thuật giảm tốc độ bit dựa trên MPEG sẽ được sử dụng trong các kênh thông tin thay đổi như ISDN và mạng LAN và trong các ứng dụng quảng bá.

Tín hiệu âm thanh chất lượng CD không nén dùng một lượng lớn không gian lưu trữ và băng thông khi truyền và vì vậy không phù hợp cho việc lưu trữ và truyền dữ liệu. Việc tìm kiếm giải pháp giảm số lượng này mà không làm ảnh hưởng mấy đến chất lượng được bắt đầu tiến hành từ cuối thập niên 80 bởi ISO. Một nhóm làm việc trong ISO gọi là MPEG (Moving Pictures Experts Group) phát triển một chuẩn bao gồm một vài kỹ thuật cho cả nén âm thanh

và hình ảnh. Phần âm thanh của chuẩn này bao gồm 3 phương thức MPEG-1 Layer I, Layer II, Layer III với độ phức tạp và tham số tăng dần.

2.1.1. Đánh giá sự chuẩn hoá và chất lượng trong MPEG

Từ năm 1988 ISO/MPEG đảm nhận chuẩn hoá kỹ thuật nén cho video và âm thanh. Đề tài chính cho việc chuẩn hoá là mã hoá video cùng với mã hoá âm thanh cho môi trường lưu trữ số (DSM). Mặt khác chuẩn mã hoá âm thanh phát triển bởi nhóm này là chuẩn quốc tế đầu tiên cho việc nén ấm thanh số và được chờđợi phát triển tiếp trong các ứng dụng khác. MPEG phát triển chuẩn mã hoá tín hiệu âm thanh PCM với tần số lấy mẫu 32kHz, 44.1 kHz, và 48 kHz ở tốcđộ bit trong khoảng 32 - 192 Kb/s cho kênh âm thanh mono và 62 - 384 Kb/s cho kênh âm thanh stereo. Có các loại kênh sau:

- Kênh đơn (Single Channel) - Kênh đôi (Dual channel) - Stereo

- Giả Stereo (Joint Stereo) - kết hợp mã hoá kênh trái và kênh phải của âm thanh stereophonic

2.1.2. Cấu trúc cơ bản của mô hình mã hoá âm thanh dùng tiêu chuẩn giác quan

Cấu trúc cơ bản của mô hình mã hoá theo giác quan như trên hình 4.2.1.

Trong đó bao gồm các khối cơ bản sau:

Time/Frequency mapping (filterbank)

Được sử dụngđể phân tích tín hiệu đầu vào thành các thành phần quang phổ. Nó phụ thuộc vào băng lọc số được sử dụng và được gọi là mẫu băng con hoặc đường tần số.

Psycho - acoustic Model

Đầu ra của băng lọc số hoặc đầu ra song song của bộ biến đổi được dùng để đánh giá ngưỡng mặt nạ hiện tại dùng cho khối Psycho - acoustic Model.

Quantize and Coding

Các mẫu băng con sau băng lọc được lượng tử hoá và mã hoá với mức tạp âm, thành phần được sinh ra bởi quá trình lượng tử hoá, được giữ dưới mức ngưỡng mặt nạ. Điều này phụ thuộc vào từng thuật toán vì thuật toán được sử dụng là khác nhau.

Hình 4.2.1: Cấu trúc cơ bản của mô hình mã hoá.

Fame packing

Được sử dụng để tập hợp dòng bit, bao gồm mẫu được lượng tử hoá, mã hoá và một vài thông tin bổ sung ví dụ như thông tin về việc cấp phát bit.

2.1.3. Băng lọc số

Phần này cung cấp một cách tổng quan về băng lọc số dùng cho việc mã hoá tín hiệu âm thanh chất lượng cao.

Băng lọc QMF-tree.

Băng lọc QMF-tree điển hình sử dụng 4 – 24 băng với độ phức tạp tương đối cao.

Băng lọc nhiều pha:

Khoảng cách giữa các băng lọc là bằng nhau. Kết hợp băng lọc QMF được thiết kế mềm dẻo với độ phức tạp thấp. Ta có thể thiết kế bộ lọc theo cách đạt được cả sự phân giải tần số tốt và khả năng điều khiển tốt. Băng lọc nhiều pha dùng 32 băng được dùng cho bộ mã hoá âm thanh Layer I và Layer II.

Time/

Frequency Mapping Digital

Audio Signal (PCM)

Quantize and Coding

Frame Packing

Psycho - acoustic Model

DFT, DCT

Đây là sự biến đổi đầu tiên trong việc mã hoá băng con tín hiệu âm thanh.

Chúng sử dụng khoảng cách bằng nhau giữa các băng lọc và số lượng băng được sử dụng là 128 – 512 băng với độ phức tạp được tính toán là thấp.

MDCT – Modified Discrete Cosine Transform.

Biến đổi này bao gồm các mẫu băng con với sự phân giải tần số được cung cấp bởi cửa sổ hình sin, và khả năng tính toán của thuật toán biến đổi Furie nhanh (FFT). Băng lọc điển hình với 128-512 băng với khoảng cách giữa các băng bằng nhau được sử dụng .

Cấu trúc lai (ví dụ: Nhiều pha + MDCT)

Cấu trúc lai có khả năng kết hợp sự phân giải tần số khác nhau ở các tần số khác nhau với mức độ phúc tạp cao. Một hệ thống lai bao gồm băng lọc nhiều pha và MDCT được sử dụng trong Layer III.

2.1.4. Khái niệm mã hoá chung

Quan niệm của nhiều ứng dụng hoàn toàn khác nhau, một khái niệm chung của hệ hống mã hoá được đưa ra. Phụ thuộc vào từng ứng dụng, ba lớp của hệ thống mã hoá với độ phức tạp và hiệu suất tăng dần có thể được sử dụng. Một chuẩn ISO giải mã hoá có khả năng giải mã hoá dòng bit dữ liệu được mã hoá trong bất kỳ lớp nào. Cũng có chuẩn ISO giải mã hoá Layer X có khả năng giải mã hoá Layer X và Layer X-n.

Trong cả ba lớp tín hiệu âm thanh PCM đầu vào được chuyển đổi từ miền thời gian sang miền tần số. Điều đó được thực hiện bởi băng lọc nhiều pha gồm 32 băng con.

Trong Layer I và Layer II băng lọc tạo 32 băng con tương ứng của dòng tín hiệu âm thanh đầu vào, sau đó được lượng tử hoá và mã hoá dưới sự điều khiển của psycho – acounstic model .

Lớp I là phiên bản cơ bản mô hình mã hoá MUSICAM, thích hớp với hầu hết ứng dụng người dùng như ghi trên băng, Magneto-optical Disk,... Đối với các ứng dụng tốc độ dữ liệu thấp không có tính bắt buộc.

Lớp II đưa ra khả năng nén tốt hơn Layer I bằng cách loại bỏ các dư thừa và không thích hợp trên hệ số tỉ lệ và sử dụng lượng tử chính xác hơn. Layer II gần giống mô hình MUSICAM ngoại trừ phần mào đầu khung. Phần mào đầu này được thêm vào trong quá trình nỗ lực phát triển khung MUSICAM. Layer II có nhiều ứng dụng cả âm thanh chuyên dụng và thông thường như phát thanh, truyền hình, ghi âm,, viễn thông và giải trí.

Layer III bao gồm sự kết hợp của các module hiệu quả nhất của ASPEC và mô hình mã hoá MUSICAM. Một sự phân giải tần số được sử dụng bằng cách dùng băng lọc lai. Mỗi băng con được chia nhỏ hơn bởi biến đổi tuyến tính trên 18 mẫu băng con trên mỗi băng. Trong Layer III lượng tử hoá không như nhau đối với từng dải thông và mã hoá entropy các giá trị đã lượng tử hoá cho hiệu suất mã hoá tốt hơn. Những ứng dụng của lớp này hầu hết ở trong viễn thông. Cụ thể là ISDN băng hẹp và trong âm thanh với tốc độ bit rất thấp

2.1.5. Psycho - acoustic Models

Psycho-acoustic tính toán mức ngưỡng mặt nạ thấp nhất để quyết định mức tạp âm cho mỗi băng trong băng lọc số. Sự khác nhau giữa mức tín hiệu cao nhất và mức ngưỡng mặt nạ thấp nhất được sử dụng trong cấp phát bit qua đó quyết định mức lượng tử trong mỗi băng con cho mỗi khối. Hai psycho- acoustic models được đưa ra chuẩn MPEG. Ta có thể áp dụng cả hai cho bất kì lớp nào trong thuật toán MPEG-audio. Trong thực tế model 1 sẽ được dùng cho Layer I và Layer II còn Model 2 được dùng cho Layer III. Trong cả hai psycho-acoustic model, đầu ra của psycho-acoustic model là tỷ số tín hiệu trên ngưỡng mặt nạ (SMR: Signal – to – Mask Ratio) cho mỗi băng con (Layer I và II) hoặc nhóm băng con (Layer III). Psycho-acoustic chỉ cần thiết trong bộ mã hoá. Điều đó cho phép bộ giải mã hoá ít phức tạp hơn. Đối với các ứng dụng không yêu cầu tốc độ bit rất thấp, có thể dùng bộ mã hoá đơn giản không có bất kỳ psycho-acoustic model nào.

Một phần của tài liệu Nén tín hiệu âm thang số sử dụng mã hoá băng con (Trang 88 - 93)

Tải bản đầy đủ (PDF)

(129 trang)