Chương 4: NÉN ÂM THANH SỐ DÙNG MÃ HOÁ BĂNG CON
3. CHUẨN MPEG-1 LAYER I VÀ LAYER II
3.1. Mô hình mã hoá layer I và layer II
Kỹ thuật mã hoá của cả hai layer I và layer II dựa trên cơ sở chia tín hiệu âm thanh PCM đầu vào thành các băng con bởi băng lọc phân tích nhiều pha.
Sơ đồ khối của bộ mã hoá Layer I như trên hình 4.3.1 và Layer II trên hình 4.3.2:
Hình 4.3.1: Sơ đồ khối của bộ mã hoá MPEG-1 Layer I (kênh đơn) Trong cả hai mô hình, tín hiệu PCM đều được chia thành 32 băng con . Đầu ra của các bộ lọc này được thực hiện phân chia (giảm tần số lấy mẫu) với hệ số M = 32 (bằng số lượng bank con).
Khối cấp phát bit động lấy tín hiệu SMR từ khối Psycho-acoustic model để quyết định số bit cấp phát cho quá trình lượng tử hoá.
Filterbank 32 subbanks Digital Audo
signal (PCM) 768 Kb/s
Linear Quantizer
Bitstream Formatting CRC Check Extraction of
scalefactor
FFT 512 Point
Psycho – acoustic
Model
Dynamic Bit Allocation
External control Subband
31
0
Coded Audio Signal 192 Kb/s
…..
32 Kb/s
Hình 4.3.2 Sơ đồ khối của bộ mã hoá MPEG-1 Layer II (kênh đơn) 3.1.1. Đặc điểm của mô hình layer I
Trước hết dữ liệu được biến đổi sang miền tần số, tính hệ số quang phổ và năng lượng của mỗi băng. Từ năng lượng và loại băng, một ngưỡng được tính toán cho mỗi băng rồi so sánh với ngưỡng nghe thấy. Cuối cùng tính tỉ lệ SMR cho mỗi băng. Việc dùng các bit này trước tiên nhằm tính toán hệ số Mask – to – Noise Ratio (MNR) cho mỗi băng con:
MNR = SNR – SMR cho mỗi băng.
SMR = Signal to Mask Ratio = SPLsignal - SPLmask MNR = Mask to Noise Ratio = SPLmask - SPLnoise
SNR = SPLsignal - SPLnoise = SMR + MNR
Tạp âm không thể nghe thấy khi SPLnoise < SPLmask tức là MNR < 0 tương đương với SNR > SMR.
Sau đó mỗi băng có MNR cao nhất được cấp phát bit. Giá trị MNR được tính toán lại cho mỗi băng con với sự cấp phát bit mới. Quá trình được lặp đi lặp lại cho đến khi tất cả các bit được cấp phát.
Filterbank 32 subbanks Digital Audo
signal (PCM) 768 Kb/s
Linear Quantizer
Bit Packing
Bitstream Formatting CRC Check Scalefactor
select Infomation
Extraction of scalefactor
Coding of Side - Infomation
FFT 1024 Point
Psycho – acoustic
Model
Dynamic Bit Allocation
External control Subband
31
0
Coded Audio Signal 192 Kb/s
…..
32 Kb/s
3.1.2. Đặc điểm mô hình layer II
Việc mã hoá theo chuẩn MPEG-1 Layer II cũng giống như quá trình mã hoá layer I. Kết quả là tăng một chút độ phức tạp trong mã hoá, giảm bớt tỷ lệ bit và cải thiện được chất lượng.
Sự khác nhau lớn nhất giữa hai lớp này là thay vì mã hoá 12 mấu đối với mỗi bộ lọc trong mỗi một khung thì ở layer 2 sử dụng 36 mẫu (bằng 3 nhóm 12 mẫu).
Hình 4.3.3: Khung layer I và layer II
Đây là một thuận lợi bởi vì hệ số tỉ lệ cho các nhóm group là như nhau sau đó chỉ một cần được mã hoá. Một lợi thế khác là một cửa sổ dài hơn có thể được dùng để áp dụng mô hình psychoacoustic. Điều này rất có ý nghĩa khi các tín hiệu thay đổi chậm.
Việc cấp phát bit cũng được thực hiện giống như layer 1, ngoại trừ là nó được áp dụng cho 36 mẫu thay vì 12 mẫu của mỗi băng con. Kết quả là việc lượng tử hoá thay đổi từ 15 thành 16 bits.
Đối với mỗi băng con, SMR là dương và thông thường thì các hệ số tỷ lệ được đưa vào. Các hệ số này được mã hoá như là thông tin bổ sung và được
Subband filter 0 Subband filter 1
Subband filter 31 Subband filter 2 Subband filter 3
. . . Mẫu tín
hiệu vào
12 mẫu 12mẫu 12mẫu 12mẫu 12mẫu 12mẫu
12mẫu 12mẫu 12mẫu 12mẫu 12mẫu 12mẫu 12mẫu 12mẫu 12mẫu
. . . . .
cấp phát 6 bits. Điều đó cho phép cân bằng hiệu ứng lượng tử trong mỗi băng con.
3.1.3. Psycho-acoustic model 1
Một sự phân giải tần số là nguyên lý cơ bản cho việc tính toán chính xác ngưỡng mặt nạ trong miền tần số. Điều này dẫn tới một cấu trúc hình cây của băng lọc số. Băng lọc nhiều pha dùng cho lọc băng con có một cấu trúc song song, không cung cấp các băng con có độ rộng khác nhau. Tuy nhiên một thuận lợi lớn của băng lọc được đưa ra là thích ứng với âm thanh để tối ưu yêu cầu của hiệu ứng mặt nạ
Thuận lợi thứ hai là trễ và độ phức tạp thấp. Để bù lại sự thiếu chính xác phân tích phổ của băng lọc số, một biến đổi Furie nhanh (FFT – Fast Fourier Transform) 512 điểm cho Layer 1 hoặc 1024 điểm cho Layer II được dùng song song để sử lý việc lọc tín hiệu âm thanh thành 32 băng con.
Đầu ra của FFT dùng để quyết định về âm điệu. Lý do này có ý nghĩa để phân biệt thành phần có âm điệu hoặc không âm điệu. Các ngưỡng mặt nạ riêng được tính toán phụ thuộc vào vị trí tần số, tính chất, âm điệu. Tất cả các ngưỡng mặt nạ riêng được cộng vào ngưỡng mặt nạ chung.
Đối với mỗi băng con, giá trị nhỏ nhất của đường cong mặt lạ được xác định. Cuối cùng sự khác nhau giữa giá trị lớn nhất của tín hiệu bao gồm cả hệ số tỷ lệ, mật độ phổ của FFT và giá trị nhỏ nhất của ngưỡng mặt nạ được tính toán cho mỗi băng con dựa trên từng khối. Độ dài khối đối với Layer I được xác định là 12 mẫu băng con tương đương 384 (= 12 x 32) mẫu tín hiệu PCM đầu vào, và đối với Layer II là 36 mẫu tín băng con tương đương 1152 mẫu tín hiệu PCM đầu vào. Sự khác nhau này được gọi là SMR – Signal to Masking Ratio và liên quan đếnđầu vào cho khối cấp phát bit.
3.1.4. Băng lọc số
Bộ lọc QMF tối ưu trong giới hạn của việc phân tích phổ. Băng lọc này cung cấp một sự cân bằng hợp lý giữa thời gian thực hiện trên một phía và phổ chính xác trên phía còn lại. Một ánh xạ “thời gian/tần số” cung cấp một số lượng lớn các băng con thuận tiện cho việc giảm tốc độ bit. Tai người cảm
nhận âm thanh trong miền quang phổ với sự phân tích tương ứng các băng con của tai. Các băng con này có độ rộng khoảng 100 Hz ở miền tần thấp (dưới 500 Hz), và có độ rộng khoảng 20% tần số trung tâm ở các tần số cao hơn.
Trong bộ giải mã hoá, hai băng lọc tổng hợp khôi phục khối 32 mẫu đầu ra.
cấu trúc bộ lọc hiệu suất rất cao cho việc thực hiện với độ phức tạp thấp và bộ giải mã hoá không dựa trên DSP.
3.1.5. Xác định và mã hoá hệ số tỉ lệ
Để giảm bớt phạm vi của giá trị của hệ số quang phổ, ta đơn giản hoá bởi hệ số tỷ lệ. Việc mã hoá các hệ số tỷ lệ này cần được thực hiện để chuyển đến phía thu để khôi phục tín hiệu gốc. Mỗi băng đều có một hệ số tỷ lệ khác nhau.
Việc tính toán hệ số tỉ lệ cho mỗi băng con được thực hiện trên mỗi khối 12 mẫu băng con giá trị tuyệt đối lớn nhất của 12 mẫu này được xác định và lượng tử hoá với từ dài 6 bit, trải ra trên một khoảng động 120 dB cho mỗi băng con. Trong lớp I, hệ số tỉ lệ được truyền cho mỗi khối và mỗi băng không có sự cấp phát 0 bit.
Lớp II dùng mã hoá thêm để giảm tốc độ truyền cho hệ số tỉ lệ. Mặt khác trong lớp II một khung tương đương với 36 mẫu băng con, gấp 3 lần độ dài khung lớp I, về nguyên tắc thì ba hệ số tỷ lệ phảiđược truyền. Để giảm tốcđộ bit cho hệ số tỉ lệ, một cách mã hoá khai thác hiệu ứng mặt nạ của tai người được đưa ra. Các hệ số tỉ lệ liên tiếp của mỗi băng con của một khung được xem xét và phân loại thành mô hình chắc chắn của hệ số tỉ lệ. Tuỳ theo mô hình mà một, hai hoặc cả ba hệ số tỷ lệ được truyền cùng với một hệ số thêm vào để lựa chọn thông tin gồm có 2 bit cho mỗi băng. Nếu chỉ có độ lệch nhỏ của hệ số tỉ lệ và hệ số tiếp theo thì chỉ hệ số lớn hơn được truyền. quan hệ này xuất hiện thường với âm thanh hoàn toàn không thay đổi.
3.1.6. Cấp phát bit và mã hoá thông tin cấp phát bit
Trước khi điều chỉnh để ấn định tốc độ bit, số lượng bit dùng mã hoá các mẫu phải được xác định. Số lượng này phụ thuộc số lượng bit yêu cầu cho hệ số tỉ
lệ, hệ số tỉ lệ lựa chọn thông tin, thông tin cấp phát bit và dữ liệu phụ thuộc.
Thủ thục cấp phát bit được xác định bởi việc tối thiểu hoá tỉ lệ NMS (Noise – to – Mask Ratio) trên mỗi băng con và toàn bộ khung. Thủ tục này là quá trình lặp đi lặp lại. Trong mỗi bước lặp, số lượng mức lượng tử hoá của băng con có NMS thấp nhất được tăng thêm với điều kiện số lượng bit sử dụng không vượt quá số lượng bit có thể dùng cho khung.
Layer I dùng 4 bit cho mã hoá thông tin cấp phát bit cho mỗi băng con và khung trong khi Layer II dùng 4 bit cho các băng con thấp và chỉ dùng 2 bit cho các băng con cao hơn.
3.1.7. Lượng tử hoá và mã hoá các mẫu băng con
Đầu tiên, mỗi một khối gồm 12 mẫu băng con được chia cho trị hệ số tỷ lệ của nó. Kết quả được lượng tử hoá theo số lượng bit gửi tới từ bộ cấp phát bit.
Chỉ các số lẻ của mức lượng tử mới có thể thực hiện lượng tử, cho một kết quả chính xác.
Layer I dùng 14 lớp lượng tử khác nhau (2 ≤ n ≤ 15), bao gồm 2n – 1 bước lượng tử. Điều này giống nhau ở tất cả các băng con. Ngoài ra có thể không lượng tử hoá ở các băng con, nếu không có bít nào được cấp phát cho băng con đó. Ở layer I, mỗi mẫuđược mã hoá độc lập bởi một từ mã.
Trong layer II, số lượng mức lượng tử khác nhau phụ thuộc vào số băng con nhưng phạm vi mức lượng tử luôn nằm trong dải từ 3 – 65535 và thêm vào khả năng không lượng tử hoá tất cả. Các mẫu băng con trong tần số gốc thấp có thể được lượng tử hoá với 15, tần số trung với 7 và tần số cao chỉ với 3 mức lượng tử hoá khác nhau. Ba mẫu băng con liên tiếp được nhóm lại thành
“granule” sau đó “granule” được mã hoá với một từ mã. Lợi ích của việc mã hoá sử dụng nhóm lên tới 37,5%. Vì có nhiều băng con, nhất là ở tần số gốc cao, lượng tử hoá với chỉ 3, 5, 7 và 9 mức lượng tử nên việc giảm độ dài của từ mã là đáng rất kể