Nó làm giảm hoặc loại bỏ hoàn toàn một số phần âm thanh được xác định là tai người không nghe được do tần số mà tai có độ nhạy cảm thấp, hoặc bị che bởi âm khác 1.1.2 Các layer trong chu
Trang 1LÝ THUYẾT NÉN ÂM THANH DẢI RỘNG MP3
1.1 Âm thanh số theo chuẩn MPEG-1
1.1.1 Tổng quan về chuẩn MPEG-1 cho âm thanh
• Moving Picture Experts Group Phase 1 (MPEG-1) là tiêu chuẩn được công
bố trong ISO/IEC 11172, cho phép mã hóa hình ảnh động và âm thanh liên quan cho phương tiện kĩ thuật số với mức nén tối đa 1.5 Mbits/s
• MPEG-1 là chuẩn nén video và audio có mất mát thông tin (lossy) Hiện nay, MPEG-1 là định dạng nén mất mát thông tin tương thích rộng rãi nhất trên thế giới
• MPEG-1 được thiết kế cho âm thanh tổng quát (không chỉ gói gọn trong tiếng nói), hỗ trợ nhiều tần số lấy mẫu 16, 22.05, 24, 32, 44.1, 48 kHz
• Chuẩn MPEG-1 Audio sử dụng các sub-band và psychoacoustics (mô hình cảm thụ) để làm giảm đáng kể tốc độ dữ liệu (data rate) của dòng âm thanh (audio stream) Nó làm giảm hoặc loại bỏ hoàn toàn một số phần âm thanh được xác định là tai người không nghe được (do tần số mà tai có độ nhạy cảm thấp, hoặc bị che bởi âm khác)
1.1.2 Các layer trong chuẩn MPEG-1 Audio
• MPEG-1 Audio được chia làm 3 lớp (layer) Lớp càng cao thì độ phức tạp tính toán càng cao, cũng như hiệu quả càng cao Các layer cao tương thích hoàn toàn với các layer thấp hơn
• Layer 1: tỉ lệ bitrate từ 32 – 448 Kbps
• Layer 2: tỉ lệ bitrate từ 32 – 384 Kbps
• Layer 3: tỉ lệ bitrate từ 32 – 320 Kbps
• MPEG-1 Audio Layer 1 được thiết kế cho các ứng dụng đòi hỏi quá trình mã hóa và giải mã đơn giản, đồng thời cũng có hiệu quả nén thấp nhất
• MPEG-1 Audio Layer 2 có hiệu quả nén cao hơn Bộ giải mã của MPEG-1 Audio Layer 2 cũng có thể giải mã luồng tín hiệu mã hóa bởi bộ mã hóa MPEG-1 Audio Layer 1 Nhờ bộ giải mã đơn giản, MPEG-1 Audio Layer 2
Trang 2được sử dụng trong phát thanh, truyền hình cũng như các ứng dụng phát sóng video
• MPEG-1 Audio Layer 3 (MP3) có hiệu suất nén cao, phù hợp với tín hiệu
âm nhạc Nhìn chung, MP3 phù hợp với các ứng dụng lưu trữ và truyền tải
âm nhạc (mono/stereo) Hiện nay, MP3 là định dạng phổ biến nhất để lưu trữ
và truyền tải nhạc, ngoài ra còn được ứng dụng rộng rãi trong truyền hình số
vệ tinh, điện thoại di động
• Các ưu điểm của MP3 so với MPEG-1 Layer 1-2:
• Độ phân giải tần số cao hơn
• Lượng tử hóa không đều
• Sử dụng scale-factor band thay vì sub-band, thể hiện tốt hơn các band của tai người
• Sử dụng Entropy Coding (mã Huffman)
1.2 Các phương pháp nén âm thanh theo chuẩn MPEG-1
1.2.1 Phương pháp nén âm thanh chung theo chuẩn MPEG-1
Sơ đồ nén, mã hóa âm thanh MPEG-1
Sub-bank Filter
• Lọc tín hiệu âm thanh vào 32 băng lọc theo tần số
Trang 3• Việc chia tín hiệu âm thanh theo tần số giúp cho thuật toán có thể nén được tốt hơn, do ngưỡng nghe của con người ở các tần số khác nhau là khác nhau
• Chuẩn MPEG-1 sử dụng 32 băng lọc
o Với Layer 1 và 2, 32 băng lọc này được chia đều theo tần số
o Với Layer 3, 32 băng lọc này được chia không đều, tần số càng cao thì
độ rộng băng càng lớn
• Đầu ra của các băng lọc được nhóm lại thành các block, 32 block sẽ hợp thành 1 frame
o Layer 1: mỗi block gồm 12 mẫu, mỗi frame gồm 384 mẫu
o Layer 2, 3: mỗi block gồm 36 mẫu, mỗi frame gồm 1152 mẫu
Mô hình cảm thụ
• Đây là thành phần quan trọng nhất trong chuẩn MPEG-1, nó có tác dụng phân tích, loại bỏ các thành phần tín hiệu không cần thiết, giúp cho thuật toán nén có độ nén tốt mà vẫn bảo đảm được chất lượng âm thanh
• Ngưỡng nghe của con người ở các tần số khác nhau là khác nhau, do đó, sau khi phân ra thành các băng theo tần số, mỗi băng sẽ có một ngưỡng nghe riêng Nếu tín hiệu nhỏ hơn ngưỡng nghe, băng đó sẽ bị loại khỏi quá trình
mã hóa
• Ngưỡng che: khi một âm có cường độ lớn, con người sẽ không thể nghe được các âm có cường độ nhỏ hơn ở lân cận Đây là hiện tượng chắn âm
Trang 4Mô hình cảm thụ sẽ tính toán ngưỡng che của từng băng dựa trên các băng lân cận Các băng nào có cường độ nhỏ hơn ngưỡng che cũng sẽ bị loại khỏi quá trình mã hóa
Lượng tử hóa
• Các thành phần tần số được lượng tử hóa và mã hóa với điều kiện giữ cho nhiễu lượng tử ở dưới ngưỡng che
• Tùy thuộc vào thuật toán, bước này được thực hiện theo các cách khác nhau
o Layer 1: mỗi băng lọc sẽ tính tín hiệu lớn nhất theo giá trị tuyệt đối,
mã hóa bằng 6 bit, gọi là scale factor Sau đó xác định số bit cần mã hóa bằng cách giữ cho thành phần nhiễu lượng tử dưới ngưỡng che
o Layer 2: tương tự Layer 1, nhưng mỗi băng lọc có 3 scale factor, thuật toán sẽ chọn sử dụng 1, 2 hoặc cả 3 tùy theo độ chênh lệch giữa các scale factor
o Layer 3: trình bày bên dưới
Mã hóa dòng bit
• Một bộ định dạng dòng bit sẽ được sử dụng để tập hợp dữ liệu thành dòng bit
• Bao gồm dữ liệu lấy từ bộ lượng tử hóa, và các thông tin liên quan như: thông tin phân bổ bit, các thông tin về file âm thanh…
Trang 51.2.2 MPEG-1 Audio Layer 3 (MP3)
Mô hình nén âm thanh MP3 cũng tuân theo mô hình nén âm thanh MPEG-1
Filter bank
• Các băng lọc được chia không đều theo tần số, tần số càng cao thì độ rộng của băng càng lớn Điều này phù hợp với cảm nhận của tai người, nhạy cảm
ở các tần số thấp hơn tần số cao
• Sau khi qua băng lọc, tín hiệu mỗi băng sẽ đi qua một bộ biến đổi cosine rời rạc (MDCT), và được tách tiếp ra 18 băng con (tổng 576 băng) nhằm tăng hiệu quả nén
Mô hình cảm thụ: tương tự MPEG-1 tổng quát
Lượng tử hóa và mã hóa
• Lượng tử hóa không đều (power-law): giá trị lớn sẽ có độ chính xác thấp hơn
• Mã hóa Huffman Coding: không mất mát thông tin
• Việc lượng tử hóa và mã hóa được thực hiện đồng thời bởi hai vòng lặp lồng nhau:
o Vòng lặp trong (rate-control loop): thực hiện Huffman coding với các bước lượng tử, cho đến khi số lượng bit của Huffman đủ ngắn
o Vòng lặp ngoài (noise-control loop): kiểm soát lỗi lượng tử không vượt quá mặt nạ ngưỡng bằng scale factor
Mã hóa dòng bit: tương tự MPEG-1 tổng quát
Trang 61.3 Ứng dụng cụ thể của âm thanh MP3
• Ứng dụng MP3
• Lưu trữ và nghe nhạc trên máy tính
• Dịch vụ nghe nhạc trực tuyến
• …
• Nếu không có nén, mỗi file bài hát (khoảng 4 phút) sẽ có dung lượng tới
40MB
• Một thiết bị nghe nhạc (điện thoại, máy tính…) sẽ chứa được rất ít bài
hát
• Khi nghe nhạc trực tuyến, sẽ phải cần đường truyền lên tới 1.4 Mbps
• Âm thanh MP3 với độ nén cao sẽ khắc phục được các vấn đề trên Bên cạnh
độ nén cao, âm thanh MP3 cho chất lượng tốt, hoàn toàn có thể lưu
trữ/truyền tải âm thanh âm nhạc
1.4 So sánh sơ đồ nén âm thanh MP3 và sơ đồ mã hóa tiếng
nói GSM
1.4.1 GSM dùng trong truyền thông di động
• Sơ đồ khối GSM dùng trong di động
• Tín hiệu tiếng nói được đưa qua 1 bộ lọc thông thấp, sau đó đưa qua bộ
chuyển đổi tương tự-số (ADC) có tần số lấy mẫu là 8kHz, 13bit/mẫu Tín
Trang 7hiệu sau bộ chuyển đổi ADC có bitrate 104kbps Thuật toán RPE-LTP sẽ nén tín hiệu xuống bitrate 13kbps
• Sơ đồ mã hóa:
• Các khối mã hóa:
• Linear Predictive Coding (LPC)
• Long-term Prediction (LTP)
• Regular Pulse Excitation (RPE)
• Các bước mã hóa:
• Bước 1: Input được chia thành các block 160 mẫu (20ms)
Kích thước block đủ ngắn để các tham số thống kê được coi là không đổi
• Bước 2: Sử dụng LPC
Trang 8Sử dụng thuật toán LPC để tìm các tham số của bộ lọc bằng phương pháp ước lượng tham số
Ở trường hợp này, mô hình có 8 tham số, chiếm 36 bit
• Bước 3: sử dụng LTP
Chia block thành 4 phần 40 sample, với mỗi phần tính tự tương quan với khối của lần tính trước Mỗi khối còn tồn tại những phần giống nhau, ta tính RPE (cross-correlation) chênh lệch giữa 2 khối (2 bit amplication, 7 bit translation) (tổng 36 bit)
• Bước 4: sử dụng RPE
Dùng bộ lọc thông thấp với pha tuyến tính trên từng part 40 sample
Chia tín hiệu còn lại thành 3 polyphase, chọn polyphaser có năng lượng lớn nhất (2 bit thứ tự)
Chuẩn hóa giá trị cực đại của polyphaser đã chọn (6 bit)
Lượng tử hóa 13 giá trị của polyphaser với 3 bit
Sử dụng (2 + 6 + 13 * 3) * 4 = 188bits
Trang 9• Tổng cộng các thông tin cần truyền đi: 36 bit (LPC) + 36 bit (LTP) + 188 bit (RPE) = 260 bit cho 160 mẫu (hay 20ms) Từ đó ta có tốc độ truyền 260bit/20ms = 13kbps
1.4.2 So sánh sơ đồ nén âm thanh MP3 và sơ đồ mã hóa tiếng nói GSM
Mục đích Nén âm thanh số để lưu trữ và
truyền tải
(Âm thanh cần chân thực, mức
độ sai khác phải trong ngưỡng chấp nhận được)
Mã hóa tín hiệu để giảm băng thông để có thể truyền thông di động Thời gian nén thấp
(Âm thanh không cần chân thực, chỉ cần rõ nghĩa)
Thuật
toán nén
Continuous Coding (Mã hóa liên tục)
Entropy Coding (Huffman Coding)
Block Coding (Mã hóa khối) Linear Predictive Coding (LPC)
Kiểu mã
hóa
Mã hóa dạng sóng (Mã hóa các mẫu theo thứ tự)
Mã hóa tham số (Tính toán các tham số của mô hình)
Kênh Mono/Stereo Mono
Input Tín hiệu âm thanh số PCM:
bitrate đa dạng
Tín hiệu âm thanh số PCM: 104 kbps
(8000 samples/s, 13 bits/sample) Output Tín hiệu số: 32 – 320 kbps
(Sampling Frequency: 32, 44.1,
Tín hiệu số: 13 kbps (Sampling Frequency: 8 kHz)
Trang 1048 kHz)