Để tách đặc tính này phổ tín hiệu audio được tách thành các băng tần con với độ phân giải thời gian và tần số phù hợp với các độ rộng băng tần tới hạn của HAS Human Audio System.. Quá
Trang 1BÁO CÁO
Trang 2BÁO CÁO
TRUYỀN THÔNG ĐA PHƯƠNG
TIỆN
Đề tài:
Tìm hiểu và xây dựng chương trình nén, giải nén audio theo chuẩn nén AAC
GVHD: Nguyễn Trung Thành
Nhóm 6: Lê Thanh Sơn
Bùi Tuấn Huy
Trang 3I Mã hóa âm thanh tiên tiến hay Advanced Audio Coding
(AAC):
1.Giới thiệu chung về AAC:
- AAC là là một định dạng âm thanh đa năng nén kiểu lossy
được định nghĩa theo tiêu chuẩn MPEG-2 và được phát triển bởi liên minh Fraunhofer, Dolby, Sony và AT&T
- AAC được phát triển nhằm thay thế cho định dạng âm
thanh đã quá nổi tiếng MP3 để tích hợp trong container MP4-một container của MPEG-4 tiêu chuẩn hỗ trợ đầy
đủ các tính năng phụ
Trang 4- Dạng định này được phát triển để xóa đi những chỗ yếu của MP3 và nâng cao phương pháp mã hóa đã có Do vậy những tín hiệu thu của âm thanh hay tiếng động sẽ được
nhận biết và mã hóa 1 cách hiệu quả hơn hoặc những vấn
đề của Pre-Echo sẽ giảm thấp xuống nhiều.
2.Chuẩn MPEG
- Chuẩn MPEG là chuỗi các chuẩn nén với mục đích là
mã hoá tín hiệu hình ảnh và âm thanh cho DSM (Digital
Storage Media) ở tốc độ bit từ 1,5 tới 50 Mb/s Các chuẩn MPEG tiến tới tối ưu hoá cho những ứng dụng video động
và các đặc điểm của nó cũng bao gồm một thuật toán cho việc nén dữ liệu audio với tỉ lệ khoảng từ 5:1 cho tới 10:1.
Trang 5- Chuẩn nén AAC đã đươc chuẩn hóa như một phần của MPEG-2 và MPEG-4
-Bộ đồng bộ và dồn kênh tín hiệu Audio và Video -Hệ thống Video.
-Hệ thống Audio.
Trang 6II PHƯƠNG PHÁP MÃ HOÁ VÀ GIẢI MÃ AUDIO CỦA
MPEG.
Trong quá trình mã hoá Audio của MPEG, hiệu ứng che mặt nạ (Masking) là quan trọng nhất, nó xảy ra trong miền tần số Để tách đặc tính này phổ tín hiệu audio được tách thành các băng tần con với độ phân giải thời gian và tần số phù hợp với các độ rộng băng tần tới hạn của HAS (Human Audio System).
Cấu trúc cơ bản của bộ mã hoá MPEG tín hiệu Audio
Trang 8 Quá trình mã hoá tín hiệu Audio được thực hiện như sau:
Đầu tiên tín hiệu audio được chuyển về miền tần số, và toàn bộ giải phổ của nó được chia thành 32 băng con thông qua bộ lọc băng con
Lọc băng con: Phổ tín hiệu được chia thành các băng
con có độ rộng dải thông bằng nhau Nó tương tự như quá trình phân tích tần số của HAS, chia phổ tín hiệu audio thành các băng tới hạn Độ rộng của các băng tới hạn có thể thay đổi Dưới 500Hz, độ rộng dải băng là 100Hz, và nó tăng tới vài KHz khi tần số trên 10KHz Dưới 500Hz, một băng con
có tới vài băng tới hạn
Trang 9 Các bộ lọc băng con có một phần nhỏ gối lên nhau và thông thường sử dụng cho các mẫu kề nhau trong miền thời gian Mỗi tín hiệu băng con sau đó được lượng tử hoá đều với các bit chỉ định đặc trưng nhằm bảo vệ dải băng con bằng tỉ số tích cực masking trên tạp âm (MNR) Tỉ số này có tính tích cực khi đường cong các mức chặn ở trên mức tạp âm
Băng chuyển đổi: Thuật toán chuyển đổi DCT (MDCT)
thường được sử dụng để biến đổi tín hiệu audio từ miền thời gian sang miền tần số thành một số lượng lớn các băng con (từ 256 đến 1024) Giống như lọc băng con, trong các băng chuyển đổi nằm kề nhau
Trang 10 Lọc băng ghép: Đây là sự kết hợp giữa các bộ lọc băng con và các
bộ lọc băng chuyển đổi Đầu tiên tín hiệu được chia thành 32 băng con bởi bộ lọc băng, sau đó thuật toán MDCT được áp dụng cho được 18 mẫu trong từng băng con, tạo ra tổng cộng 576 băng hẹp (41,67Hz với tần số lấy mẫu là 48KHz) Đạt được độ phân tích về thời gian là 3,8ms.
Một đặc tính quan trọng của bộ lọc băng là độ phân tích có
tính thoả hiệp Một bộ lọc băng có độ phân tích thấp (nghĩa là băng tần rộng) sẽ cho một số lượng nhỏ các băng con và các thành phần
âm của hầu hết phổ tín hiệu audio nằm trong băng con Khi hiệu lực kỹ thuật mức ngưỡng masking giảm đi thì cần rất nhiều bit cho lượng tử hoá tín hiệu của mỗi băng con Tuy nhiên, việc số lượng các băng con giảm đi trong bộ lọc này đồng nghĩa với việc phức tạp của bộ mã hoá và giải mã giảm đi, trong khi lại đạt được độ
phân tích tạm thời khá tốt (nghĩa là trong khoảng thời gian ngắn)
Trang 11 Một bộ lọc băng có độ phân tích cao sinh ra một lượng lớn các băng tần con và các thành phần âm của phổ tín hiệu
audio không nằm trong tất cả các băng con Các băng con không có thành phần âm không cần mã hoá, theo đó, kết quả
là bộ mã hoá số liệu sẽ không gây tổn hao Các băng hẹp có thể tái tạo tốt hơn băng tới hạn theo đặc tính của HAS Tuy nhiên độ phân tích về thời gian kém
Như vậy, từ ý nghĩa của bộ lọc băng thích ứng chỉ ra rằng, một bộ lọc băng chuyển đổi 256 dải có độ phức tạp giống như bộ lọc băng 32 dải con Các đặc tính của quá trình lọc băng được chỉ ra như:
Trang 12 Độ phân tích về thời gian = độ dài của các mẫu trong khối lọc x 20,83ms Một mẫu tồn tại trong khoảng thời gian
20,83ms với tần số lấy mẫu là 48KHz Thông số này cho mét
ý tưởng làm việc của bộ mã hoá trong thời gian xuất hiện
của tín hiệu tức thời
Độ phân tích tần sè = độ rộng phổ lớn nhất/ Tổng số các
băng tần con Độ rộng phổ lớn nhất là 24KHz cho tần số lấy mẫu 48KHz
+Độ dài của khung = Số tần con x Số mẫu trong khối x
20,83ms Giá trị này được tính tại tần số lấy mẫu là 48KHz
Trang 13 Với mỗi băng con người ta xác định mức biên độ tín hiệu và mức nhiễu bằng “Mô hình tâm sinh lý nghe - Psychoacoustic model”
Cuối cùng là mỗi băng con đó được lượng tử hoá thông qua lượng tử các thành phần nghe thấy trong mỗi băng Nó đi
kèm với mã Huffman để mã hoá các giá trị phổ tín hiệu và cho nén số liệu tốt hơn và định dạng số liệu
Trang 142 Quá trình giải mã.
Quá trình giải mã dùa trên cơ sở thực hiện thuật toán ngược
với quá trình mã hoá
Trang 15 Tín hiệu nhận được là các dòng bit đã mã hoá, được đưa tới
bộ giải khung số liệu để giải mã entropy từ đó lấy ra các số liệu phụ, phát hiện lối sửa sai, tách kênh tín hiệu để đưa tới
bộ tái tạo
Bộ tái tạo sẽ tái tạo lại các giá trị của băng đã lượng tử
để xây dựng lại các băng tần nguyên thủy, đồng thời chuyển các giá trị băng này thành các băng tần số tín hiệu audio
Cuối cùng các băng tín hiệu audio được đưa qua băng lọc tổng hợp, chuyển đổi từ miền tần số sang miền thời gian để tạo ra các mẫu audio PCM