mã hóa âm thanh tiên tiến mpeg

MPEG-4 hiệu quả cao AAC HE AAC là thế hệ tiếp theo của chuẩn AAC,trong đó sử dụng AAC là bộ mã hóa cốt lõi và mở rộng các thành phần tần số cao hơn và thông tin âm thanh stereo với sự gi

Trang 1

Mục Lục:

Trang 2

Một số từ viết tắt chuyên ngành được sử dụng:

AAC: advanced audio coding

NBC: non-backward compatible

FGS: fine-grain scalable

HE-AAC: high-eficiency AAC

AAC-LC: AAC low-complexity

AAC SSR: AAC sampling rate

TNS: temporal noise shaping

PQF: polyphase quadrature filter

IPQF: inverse polyphase quadrature filter

MDCT: modified discrete osine transform

IMDCT: inverse modified discrete osine transform

TDAC: time-domain aliasing cancellation

MSB: Most significant bits Bit quan trọng nhất

LSB: Least significant bits Bit ít quan trọng nhất

SBA: Segment binary arithmetic Số học nhị phân phân đoạn

Trang 3

7 Mã hóa âm thanh tiên tiến MPEG.

Mã hóa âm thanh tiên tiến MPEG (AAC) và kế thừa của nó hiện nay là hầu hếtcác thành viên ưu tú trong gia đình MPEG với chất lượng cao, đa kênh,kĩ thuật nén

âm thanh số MPEG AAC cung cấp các lựa chọn khác nhau của chế độ hoạt động vàcấu hình, và do đó hỗ trợ một loạt các ứng dụng từ âm thanh internet tốc độ bit thấp để

đa kênh các dịch vụ quảng bá Trong phần này chúng tôi sẽ giới thiệu các tính năngchính của hệ thống mã hóa đa kênh AAC

7.1 Giới thiệu về mã hóa hóa âm thanh tiên tiến.

Là một phần của tiêu chuẩn MPEG-2 (ISO/IEC 13818-7), MPEG-2 AAC đãđược hoàn thành vào năm 1997 Ban đầu MPEG-2 AAC được gọi là mã hóa MPEG-2khả năng tương thích không theo hướng nghịch (NBC) Chuẩn mã hóa của MPEG-2NBC bắt đầu sau khi hoàn tất của chuẩn MPEG-2 đa kênh âm thanh năm 1994 Thờigian đó, các nhóm âm thanh MPEG mong muốn phát triển một tiêu chuẩn mã hóa đakênh mới để cho phép chất lượng cao hơn tiêu chuẩn đa kênh âm thanh MPEG-2 đầutiên, đó là tương thích ngược với MPEG-1 Mục tiêu phát triển của thuật toán mã hóa

âm thanh đa kênh là đạt được chất lượng không thể phân biệt theo định nghĩa EBU ởtốc độ bit 384kbps hoặc thấp hơn cho 5 kênh tín hiệu băng thông full mà không có bất

kỳ khả năng tương thích ngược ràng buộc

MPEG-4 AAC cũng được gọi là mã âm thanh chung MPEG-4, thêm một số tiệních mới trên nền tảng của MPEG-2 AAC Một số tiện ích mới mượn ý tưởng từ mãhóa âm thanh (speech coding) để giảm tốc độ bit mã hóa trong khi vẫn đảm bảo đượcchất lượng âm thanh tương tự Những sửa đổi khác theo mã hóa khối MPEG-2 AAC

để cho phép một vài tính năng mong muốn và cung cấp thêm các chức năng Với một

tỷ lệ bit điển hình của 64 kbps cho mỗi kênh, MPEG-4 AAC có thể đạt được mã hóagần như trong suốt cho chất lượng âm thanh đầu vào CD ban đầu ngay cả ở bit rấtthấp tốc độ xuống đến 16kbps, MPEG-4 AAC vẫn thể hiện được đặc trưng tuyệt vời

Một tiêu chuẩn mã hóa âm thanh mở rộng cũng được bao gồm trong âm thanhMPEG-4 MPEG-4 phiên bản 1 cung cấp bước lớn khả năng mở rộng, cái mà đượctích hợp nhiều trong các chương trình mã hóa âm thanh MPEG-4 hiện tại để cung cấpmột khả năng mở rộng dòng bit âm thanh AAC được thông qua như là một phần củabước lớn khả năng mở rộng kiến trúc mã hóa âm thanh để cung cấp lớp tăng cườngdòng bit Một khả năng mở rộng frame hạt nhỏ (FGS) âm thanh được phát triển trong

âm thanh MPEG-4 phiên bản 2

Trang 4

Hình 7.1: 3 profile MPEG-2 ACC.

Phần mềm nén audio FGS mới được gọi là mã hóa số học các bit (BSAC) Nóthay thế lượng tử của AAC và mã hóa entropy để cho phép các bộ giải mã tái tạo lạinhiều tín hiệu âm thanh hơn và chính xác hơn

MPEG-4 hiệu quả cao AAC (HE AAC) là thế hệ tiếp theo của chuẩn AAC,trong đó sử dụng AAC là bộ mã hóa cốt lõi và mở rộng các thành phần tần số cao hơn

và thông tin âm thanh stereo với sự giúp đỡ của một số các thông số giới hạn Từ thuậttoán này là một phần mở rộng tham số đến AAC, nó tiếp tục giảm tốc độ bit và có khảnăng tái tạo chất lượng âm thanh CD stereo tại 24kbps, đó là nhỏ hơn so với file gốc

7.2 MPEG-2 AAC.

7.2.1 Tổng quan về MPEG-2 AAC.

7.2.2.1 Profile:

MPEG-2 AAC cung cấp 3 profile có thể được lựa chọn bởi người dùng cuối theo

độ phức tạp và chất lượng yêu cầu mong muốn của họ Ba profiles này là: profilechính,profile độ phức tạp thấp và profile tốc độ lấy mẫu mở rộng và quan hệ củachúng được biểu diễn như hình 7.1

(1) Profile chính: AAC Profile chính, viết tắt là AAC chính, cung cấp chất lượng

âm thanh tốt nhất tại bất kì tốc độ bit nào trong cả 3 profile Tất cả các công cụ

Trang 5

mã hóa được kích hoạt trong AAC chính (ngoại trừ điều khiển) Do vậy, cả 2yêu cầu bộ nhớ và tính toán phức tạp của profile này là cao hơn so với haiprofile khác Tuy nhiên, các bộ giải mã AAC profile chính có nhiều ưu việt và

có khả năng để giải mã một dòng bit được tạo ra từ một bộ mã hóa AAC độphức tạp thấp

(2) Profile độ phức tạp thấp:

AAC profile độ phức tạp thấp, viết tắt là AAC LC, không sử dụng điều khiểnkhuếch đại hay các công cụ dự đoán Hơn nữa, bộ lọc định dạng nhiễu theo thờigian (TNS) có một thứ tự thấp hơn so với các bộ mã hóa-giải mã AAC chính.Với profile này, giải mã AAC chiếm bộ nhớ thấp hơn đáng kể và xử lý các yêucầu tối ưu Tuy nhiên, sự suy giảm của tái tạo chất lượng âm thanh không rõràng Trên thực tế, trong tất cả 3 profile, AAC LC được áp dụng phổ biến nhấttrong ngành công nghiệp Được sử dụng trong hệ thống mua bán nhạc trựctuyến, hoặc được cài sẵn trong phần cứng

(3) Profile khả năng mở rộng tốc độ lấy mẫu:

Profile khả năng mở rộng tốc độ lấy mẫu AAC viết tắt là AAC SSR, có khảnăng cung cấp một tín hiệu tần số mở rộng Điều chỉnh khuếch đại được kíchhoạt khi bộ mã hóa AAC hoạt động trong profile này Ngoại trừ các mô-đunđiều chỉnh khuếch đại, các công cụ âm thanh khác đang hoạt động tương tựprofile AAC LC Do đó, yêu cầu bộ nhớ và mức độ tính toán phức tạp của bộ

mã hóa AAC SSR cũng thấp hơn đáng kể so với bộ mã hóa AAC chính Dànhcho "Streaming" hay "coi trực tuyến" Nó cho phép đưa lại dự liệu liên tục màkhông bị vấp bằng cách giảm độ Bitrate, nếu như băng thông đường truyềnkhông cho phép, hoặc độ băng thông cho phép bỗng nhiên giảm mạnh

Hình 7.2: Sơ đồ khối của bộ mã hóa AAC

Trang 6

7.2.1.2 Sơ đồ khối bậc cao.

Hình 7.2 và 7.3 là sơ đồ khối bậc cao tương ứng của mã hóa và giải mã AAC

Bên mã hóa, tín hiệu vào đầu tiên được xử lý bởi bộ tiền xử lý nếu nó là cần

thiết Tùy thuộc vào yêu cầu tốc độ bit và tần số lấy mẫu của tín hiệu vào,bộ tiền xử lýlấy mẫu tín hiệu ban đầu, do đó có thể đạt được chất lượng tốt hơn với dự kiến bit hạnchế Nếu tín hiệu vào mà có vùng biên độ lệch, nó cũng sẽ được xử lý trong mô-đun

này Nếu mã hóa được thực hiện trong profile SSR, tín hiệu sau đó sẽ được bộ điều

chỉnh khuếch đại xử lý Nếu không, chúng sẽ đi trực tiếp đến khối chuyển đổi để ánh

xạ tín hiệu miền thời gian sang miền tần số và có được dữ liệu quang phổ Một chuỗi

xử lý quang phổ được theo sau để loại bỏ thông tin không quan trọng hay không liênquan Cuối cùng dữ liệu phổ đã xử lý sẽ được lượng tử hóa và mã hóa không nhiễu.Xuyên suốt toàn bộ quá trình mã hóa, tín hiệu đầu ra từ mô hình như loại khối và giớihạn che chắn, được sử dụng như dòng ghi chú cho mỗi khối mã hóa

Hình 7.3: Sơ đồ khối giải mã AAC

Dữ liệu phổ nén cũng như thông tin tạo ra bên trong khối mã hóa đều đượcghép trong luồng bit

Khi bộ giải mã nhận được một luồng bit nén, đầu tiên đầu tiên tách nó ra thànhnhiều luồng Dữ liệu quang phổ nén sau đó được giải mã bởi bộ giải mã entropy vàlượng tử nghịch đảo Thông tin lấy ra từ luồng bit sẽ được dùng để điều khiển xử lýquang phổ ngược, biến đổi ngược và điều chỉnh bộ khuếch đại ngược nếu hoạt động.Nếu âm thanh đầu vào ban đầu đến các bộ mã hóa có biên độ lệch, sau đó các mô-đun

xử lý phục hồi tái tạo tín hiệu về độ rộng biên độ ban đầu của nó

Trang 7

7.2.2 Mô hình âm lý học.

Mô hình âm lý học đóng vai trò quan trọng trong mã hóa âm thanh cảm nhận.Đầu ra của mô hình này điều khiển hầu hết mọi khối mã hóa lớn trong mã hóa AAC.Nhiệm vụ chính của mô hình âm lý học là tính toán ngưỡng che Mọi lượng tử hóatiếng ồn thêm trong khối lượng tử sau này không thể cảm nhận nếu năng lượng của nónhỏ hơn ngưỡng nghe Lý tưởng nhất, nếu tất cả lỗi mã hóa được che bằng tín hiệuriêng của mình, dẫn đến âm thanh tái tạo về nhận thức không thể phân biệt từ đầu vàoban đầu Tuy nhiên, nếu số lượng bit có sẵn không cho phép tất cả dữ liệu quang phổđáp ứng ngưỡng che, mô hình âm lý học (psychoacoustic) cần gợi ý lượng tử hóa đểtiếng ồn tối thiểu cảm nhận được sẽ bổ sung bằng cách mở ra các yêu cầu âm lý học

7.2.3 Điều chỉnh khuếch đại.

Khối điều chỉnh khuếch đại chỉ được kích hoạt trong SSR profile, gồm bộ lọcnhiều pha cầu phương (PQF), bộ cảm biến khuếch đại, bộ điều chỉnh khuếch đại Cácdàn bộ lọc tách tín hiệu đầu vào thành bốn băng tần bằng nhau Ví dụ nếu âm thanhđầu vào có tốc độ lấy mẫu là 48kHz, sau đó đầu ra bốn băng tần từ bộ lọc PQF chứatín hiệu 0-6kHz, 6-12kHz, 12-18kHz, 18-24kHz Do đó, khả năng mở rộng băng thông

có thể đạt được bằng cách loại bỏ một hoặc nhiều dải tín hiệu Các tính năng khác biệtcủa cấu trúc này cho phép các bộ giải mã có thể tái tạo lại một băng thông tín hiệu với

độ tính toán phức tạp thấp hơn Bộ cảm biến khuếch đại tập hợp thông tin đầu ra của

bộ lọc PQF và điều chỉnh khuếch đại để biết được cái nào trong 4 băng cần điều chỉnhbiên độ và nó nên làm thế nào để thực hiện được

Các bộ điều khiển khuếch đại được đảo ngược trong bộ giải mã bao gồm bộ cânbằng và bộ lọc đa pha cầu phương ngược (IPQF) Bốn bộ cân bằng tương ứng với bốnbăng tần bằng nhau được yêu cầu nếu tín hiệu băng thông đầy đủ cần được tái tạo Mỗi

bộ cân bằng khuếch đại phục hồi dữ liệu kiểm soát khuếch đại, sau đó khôi phục cáctrạng thái tín hiệu ban đầu Kết quả đầu ra bộ cân bằng khuếch đại được kêt hợp vàtổng hợp bởi IPQF để tạo ra dữ liệu PCM cuối cùng

7.2.4 Biến đổi.

7.2.4.1 Biến đổi cosin rời rạc.

Việc chuyển đổi giữa tín hiệu trong miền thời gian là đầu vào của các bộ mãhóa hay đầu ra của các bộ giải mã và các đại diện tần số tương ứng của chúng là mộtthành phần cơ bản của mã hóa âm thanh MPEG AAC Chuyển đổi này cũng được gọi

là chuyển đổi thời gian sang tần số, được thực hiện bởi một chuyển đổi cosin rời rạcbiến đổi chuyển tiếp (MDCT) trong bộ mã hóa và một chuyển đổi cosin rời rạc biếnđổi ngược (IMDCT) trong bộ giải mã Trong quá trình mã hóa, mỗi khối mẫu thời gianhoặc 2048 mẫu cho các cửa sổ có độ dài bình thường hoặc 256 mẫu cho cửa sổ ngắn,bao gồm 50% tín hiệu cũ từ các khung trước và 50% tín hiệu mới từ khung hiện tại

Trang 8

Nói cách khác, mỗi khối của mẫu đầu vào được che bởi 50% khối ngay trước và khốisau đó

Từ biến đổi chức năng chương trình MDCT (7.1), chúng ta thấy rằng Xik là số

lẻ đối xứng, nghĩa là hệ số thứ i có biên độ giống như hệ số thứ (N-i-1) Do đó sựchồng chéo sẽ không làm tăng tốc độ dữ liệu sau khi MDCT được thực hiện Phía bêngiải mã, tín hiệu quang phổ từ 2 frame liên tiếp cũng được che bởi 50% trước khichúng được thêm vào để tái tạo lại các dữ liệu trong miền thời gian Cả MDCT vàIMDCT đều áp dụng một kỹ thuật gọi là hủy bỏ sai số lấy mẫu (TDAC) [103] Thôngtin thêm về TDAC và cửa sổ- che phủ- thêm vào có thể được tìm thấy trong [103].Biểu thức phân tích cho MDCT được cho bởi:

sổ chức năng được áp dụng trên các tín hiệu quang phổ trước khi chúng qua biến đổiMDCT ngược Cửa sổ thực hiện trước MDCT được gọi là cửa sổ phân tích và cửa sổthực hiện trước khi IMDCT được gọi là cửa sổ tổng hợp Để hồi phục tốt, cửa sổ phântích và cửa sổ tổng hợp phải đáp ứng được các điều kiện sau đây:

Trang 9

Trong đó N là độ dài cửa sổ và M là số lượng mẫu được che Nếu cửa sổ tốnghợp bằng cửa sổ phân tích, thì các điều kiện trên có thể được đơn giản hóa để:

Hai cửa sổ chức năng, cửa sổ sin và cửa sổ Kaiser-Bessel-derived (KBD), đượccung cấp trong mã hóa AAC So sánh với cửa sổ sin, các cửa sổ KBD có một tàinguyên tần số chọn lọc tốt hơn nhưng búp sóng chính rộng ra Tùy thuộc vào đặc tínhcủa tín hiệu đầu vào, bộ mã hóa có thể chọn hình dạng tối ưu của cửa sổ

7.2.4.3 Loại khối và khối chuyển đổi.

Cho tín hiệu cố định, các khối dài của phổ 2048 đã được xử lý tại một thờiđiểm Tuy nhiên, với tín hiệu nhất thời, điều này sẽ tạo ra nhiễu đáng kể sau khi lượng

tử hóa Bởi vì lượng tử hóa phổ được thực hiện trong miền tần số, nhiễu lượng tử sẽkéo dài hơn một vài mili giây khi phổ tín hiệu được chuyển trở lại miền thời gian Đốivới tín hiệu tức thời, lỗi lan truyền có thể không được che phủ bởi các tín hiệu gần đó

và trình bày một giá trị ảo có thể cảm nhận được Hiện tượng này gọi là hiệu ứngpreecho, tín hiệu tức thời nên được mã hóa với các khối chuyển đổi ngắn hơn Tuynhiên, kết quả chuyển đổi độ dài ngắn không hiệu quả khi mã hóa cho tín hiệu cố định

Vì vậy để đạt được hiệu suất tốt cho tín hiệu thường và tín hiệu tức thời, một giải pháptốt hơn là xác định chiều dài của sổ cần phải đạt được

AAC đã khắc phục vấn đề này bằng cách áp dụng hai chiều dài khối và chophép khối chuyển đổi khi các loại tín hiệu khác nhau được thực hiện Đối với tín hiệu

có trạng thái ổn định, khối dài được sử dụng để nâng cao hiệu quả mã hóa Khi tín hiệutức thời xuất hiện, khối ngắn (khối có chiều dài =1/8 khối dài) sẽ được áp dụng đểgiảm thiểu ảnh hưởng preecho Chuyển đổi giữa hai loại khối khác nhau cần được xử

lý cẩn thận để không có sai số xuất hiện nếu không có lượng tử hóa tham gia Hình 7.4biểu diễn 4 loại cửa sổ khác nhau sử dụng trong AAC, (a) là cửa sổ dài, (b) là cửa sổngắn, (c) là cửa sổ bắt đầu dài, (d) cửa sổ kết thúc dài Các tiêu chí để thiết kế cửa sổchuyển tiếp đó là nửa đầu cửa sổ chuyển đổi nên luôn là giống loại của sổ trước đó Do

đó, nếu 1 cửa sổ ngắn yêu cầu sau một vài cửa sổ dài, cửa sổ cuối cùng trước khi cửa

sổ ngắn bất đầu nên có một cửa sổ bắt đầu dài Tương tự như vậy, khi cửa sổ ngắnđược theo sau các cửa sổ dài, cửa sổ đầu tiên sau cửa sổ ngắn nên là cửa sổ kết thúcdài Thiết bị chuyển cửa sổ dài sang ngắn và ngắn sang dài được minh họa trong hình7.5

Trang 10

Hình 7.4: Các cửa sổ khác nhau trong AAC.

(a) Cửa sổ dài

(b) Cửa sổ ngắn(c) Cửa sổ bắt đầu dài

(d) Cửa sổ kết thúc dài

Hình 7.5: chuyển đổi cửa sổ trong AAC

(a) Chuyển đổi cửa sổ dài sang ngắn

(b) Chuyển đổi cửa sổ ngắn sang dài

Trang 11

7.2.5: Xử lý quang phổ.

Hình 7.6: Xử lý quang phổ và xử lý quang phổ ngược trong AAC

Hình 7.6 cho ta thấy tất cả các công cụ mã hóa được cung cấp trong xử lý quang phổ

và xử lý quang phổ ngược Bốn khối riệng biệt, định dạng nhiễu theo thời gian (TNS),cường độ stereo (IS), dự đoán, và mã hóa giữa/bên (M/S), được bao gồm trong mô-đun xử lý quang phổ

7.2.5.1 Định dạng nhiễu theo thời gian.

Định dạng nhiễu theo thời gian là công cụ tiếp tục cải thiện hiệu suất mã hóa khi tínhiệu đầu vào tức thời và biến đổi Bằng cách chuyển đổi sang cửa sổ ngắn, bộ mã hóaAAC có khả năng giảm hiệu ứng preecho Tuy nhiên, kết quả của khối chuyển mạchđơn lẻ không đạt được kết quả mã hóa thỏa đáng Điều này là do chỉ có một giá trịngưỡng được sử dụng để kiểm soát lượng tử hóa tạo âm trong mỗi khối Trong khi tínhiệu trong một khối vẫn có thể thay đổi đáng kể Mã hóa là đặc biệt khó khăn nếukhông phù hợp về thời gian giữa ngưỡng che và lượng tử hóa tạp âm (preecho) Đểgiảm bớt các vấn đề trên, AAC giới thiệu một khái niệm mới, công cụ định dạng tạp

âm theo thời gian để mã hóa âm thanh cảm nhận Với TNS, mã hóa có khả năng kiểmsoát tốt cấu trúc thời gian của lượng tử hóa tạp âm, thậm chí trong một cửa sổ ngânhàng bộ lọc

Ý tưởng cơ bản của TNS là để làm miền dự báo tần số Dự đoán miền thời gianthường xuyên có hiệu quả với các tín hiệu mã hóa quang phổ “ unflat”, ví dụ như sóngsin Trong khi dự đoán miền tần số là sự lựa chọn tốt để nén tín hiệu với cấu trúc thờigian “unflat”, ví dụ như các tín hiệu tức thời Tương tự như kênh trong miền thời gian,phương pháp dự đoán làm tăng độ phân giải phổ của bộ mã hóa Dự đoán trên tần số

Trang 12

tăng cường độ phân giải thời gian của bộ mã hóa Ngoài ra, dự đoán miền thoài giangiúp định dạng nhiễu, vì vậy, lượng tử hóa nhiễu có thể đặt dưới ngưỡng che của tínhiệu thực tế.

Các mô-đun mã hóa TNS là bộ lọc định dạng nhiễu, mã hóa dự đoán tuyến tính (LPC)được áp dụng trong bộ lọc Thứ tự bộ lọc phụ thuộc vào chế độ của bộ mã hóa-giải mãđang làm việc Trình tự cao hơn của bộ lọc là các bộ nhớ yêu cầu cao hơn và các tínhtoán phức tạp hơn Hơn nữa, bộ lọc TNS không được áp dụng cho toàn bộ quang phổ.Các bộ lọc dự đoán khác nhau có thể áp dụng cho các khu vực tần số khác nhau TrongMPEG-2 AAC, chỉ có khu vực tần số cần thiết mới có hoạt động mô-đun bộ lọc TNS

Ở phía bộ giải mã, các mô-đun mã hóa TNS là một khối lọc TNS nghịch đảo và nóđược chèn vào trước dữ liệu phổ miền tần số, được chuyển đổi trở lại tín hiệu miềnthời gian bởi ngân hàng bộ lọc tổng hợp

Nếu chúng ta xem ngân hàng bộ lọc mã hóa và bộ lọc dự đoán thích nghi là một ngânhàng bộ lọc thích nghi tín hiệu tổng hợp liên tục, theo các đặc tính của tín hiệu đầuvào, các bộ lọc tổng hợp thích nghi tự động chuyển đổi giữa một ngân hàng bộ lọc tần

số cao (cho tín hiệu cố định) với bộ lọc có độ phân giải thời gian cao (cho tín hiệu tứcthời) Do đó, thêm công cụ TNS cải thiện đáng kể hiệu suất mã hóa tổng thể, đặc biệtvới tác nhân tiếng nói

7.2.5.2 Mã hóa âm thanh stereo.

Mã hóa âm thanh stereo đã được chứng minh là có giá trị để nén tín hiệu âm thanhchất lượng cao (hoặc đa kênh) ở tốc độ bit thấp Dựa trên lý thuyết âm lý học, công cụ

mã hóa âm thanh được phát triển để làm giảm đáng kể tốc độ bit cho các tín hiệu âmthanh đa kênh thành tốc độ thấp hơn nhiều so với yêu cầu để mã hóa nhiều kênh đầuvào độc lập

Hình 7.7 là 1 minh họa đơn giản của mã hóa âm thanh stereo như thế nào để áp dụngtrong tín hiệu âm thanh 5 kênh Tín hiệu trên mỗi kênh đầu vào được xử lý độc lập quamột số mô-đun mã hóa, như chuyển đổi, mô hình âm lý học, và vv… Sau đó chúng sẽđược xử lý bởi khối mã hóa âm thanh stereo Các đầu ra của mã hóa âm thanh sẽ dễdàng nén hơn khi nén so với tín hiệu gốc trong kênh đầu vào Một số công cụ xử lýkhác, chẳng hạn như lượng tử hóa và mã hóa không tạp âm, được thực hiện trên tínhiệu trong kênh điều chỉnh độc lập Cuối cùng bit được ghép để tạo thành dòng bit.Hai kỹ thuật được bao gồm trong mã hóa stereo Một được gọi là mã hóa âm thanhmid/side (M/S) (cũng được hiểu là mã hóa tổng/khác biệt), cái khác gọi là mã hóacường độ âm thanh stereo Tương tự như mã hóa TNS, cả 2 kỹ thuật mã hóa âm thanh

Trang 13

stereo có thể được lựa chọn áp dụng trên vùng tần số khác nhau Giới thiệu ngắn gọn

về mã hóa âm thanh stereo M/S và mã hóa cường độ âm thanh stereo sẽ được liệt kêdưới đây

Hình 7.7: Minh họa bộ mã hóa âm thanh stereo đa kênh

Mã hóa âm thanh stereo M/S: trong MPEG-2 AAC, nó được áp dụng cho các tín hiệu

ở khu vực tần số thấp hơn trong mỗi cặp kênh của nguồn âm thanh đa kênh, chẳng hạnnhư cặp kênh trái/phải, kênh bao quanh trái và kênh bao quanh phải,vv… Nói cáchkhác, tín hiệu tần số thấp thuộc bất kỳ cặp nào trong kênh truyền hình được sắp xếpđối xứng trên trục nghe trái/phải sẽ thông qua khối mã hóa M/S stereo trong MPEG-2AAC Với mã hóa M/S stereo, tín hiệu ở bên trái và phải kênh L(i) và R(i) sẽ đượcthay thế bằng (L(i)+R(i))/2 và (L(i)-R(i))/2 Tín hiệu mới được gọi là kênh giữa (M) vàbên (S)

Tùy thuộc vào đặc điểm tín hiệu đầu vào, M/S có thể được kích hoạt hoặc vô hiệu hóa,không chỉ từ frame này sang frame khác mà còn từ băng con này đến băng con khác.Một bit đại diện cho âm thanh stereo M/S bật hoặc tắt, nó cần được gửi đến dòng bit

để các bộ giải mã có thể tái tạo lại kênh ban đầu phù hợp

Mã hóa cường độ âm stereo: ý tưởng của mã hóa cường độ âm stereo đã được sử dụng

rộng rãi trong quá khứ cho âm thanh stereo và mã hóa đa kênh dưới tên khác, ví dụnhiễu xuyên âm và kênh nối động Dựa trên thực tế rằng nhận thức của các thành phần

âm thanh tần số cao chủ yếu dựa vào các phân tích đường bao năng lượng của chúngchứ không phải là tín hiệu của chúng, bộ mã hóa có thể truyền một bộ duy nhất các giátrị phổ và chia sẻ chúng trong một số kênh âm thanh trong khi vẫn đạt được chất lượng

âm thanh tuyệt vời ngoài giá trị phổ chia sẻ, một số thông tin phụ như đường bao năng

Trang 14

lượng, cần được bao gồm trong dòng bit, do vậy bộ giải mã có thể phục hồi mức nănglượng ban đầu của tín hiệu.

Hai cơ chế chung được sử dụng trong khối mã hóa cường độ âm stereo của MPEG-2AAC Cái thứ nhất, được gọi là mã hóa cường độ âm thanh, được áp dụng cho cácthành phần tần số cao hơn của phần tử cặp kênh Vói mã hóa âm thanh stereo, tín hiệubên trái kênh L(i) và bên phải R(i) sẽ được thay thế bởi (L(i)+R(i) × ) và 0 tương ứng.Trong đó El và Er đại diện cho các nguồn năng lượng băng con bên trái, bên phải củakênh Việc thực hiện cường độ mã hóa âm thanh stereo khá đơn giản và bao gồm hầuhết các nhu cầu phổ biến với chi phí phụ nhỏ

Cơ chế thứ hai trong mã hóa cường độ âm thanh stereo, được gọi là nhân tố ghép kênhAAC, cho phép kiểm soát tốt hơn các thông số mã hóa bằng cách nới lỏng các ràngbuộc trên khái niệm cặp kênh Kênh ghép nối có thể được coi là mã hóa cường độ âmthanh stereo mở rộng, nơi các giá trị phổ kênh có thể chia sẻ không chỉ giữa các nhân

tố cặp kênh mà còn giữa các cặp kênh khác nhau Hơn nữa, có thể được sử dụng đểgiảm âm thanh pha trộn bổ sung vào mục âm thanh stereo

7.2.5.3 Sự dự báo.

Trong MPEG-2 AAC chính, dự đoán quay ngược chấp nhận Lợi thế của dự đoán phíasau hơn dự đoán trước là nó sử dung các mẫu trước thay vì các mẫu tương lai để dựđoán các mẫu hiện tại Do đó, không có thêm thông tin phụ cần phải được gửi vàodòng bit Đối với mỗi mẫu phổ, giá trị phổ được lượng tử hóa tại các khu vực cùngmột tần số trong 2 khung trước được sử dụng Nếu kết quả dự đoán trong mã hóakhuếch đại cho 1 băng con đã biết, đó là mã hóa dự đoán tiêu thụ ít bit hơn mã hóa tínhiệu ban đầu Sau đó dự đoán sẽ thiết lập hoạt động cho băng con này Một bit cờ làcần thiết cho mỗi băng con để xác định thứ tự để tín hiệu dự báo bật hoặc tắt, Khi đã

dự đoán tất cả băng con đã được kiểm tra, hiệu quả dự đoán cho toàn bộ khung cũngcần được kiểm tra Nói cách khác, trong trường hợp khi bit lưu bằng cách cho phépmột số khối dự đoán của băng con không thể bù đắp thông tin yêu cầu của tổng thể, dựđoán của khung này sẽ không được hoàn tất và chỉ có một bit cờ cần được bao gồmtrong dòng bit

Mặc dù cả hai TNS và các bộ dự đoán sử dụng dự đoán, hai sự khác biệt lớn tồn tạigiữa hai kỹ thuật này Không giống như các bộ mã hóa TNS, nơi mà dự đoán đượcthực hiện trên hai mẫu tần số liền kề trong 1 khung , mã hóa dự đoán MPEG-2 AACthực hiện dự đoán đối với các mẫu khác nhau trong frame Công cụ TNS cung cấp một

độ phân giải thời gian nâng cao, nơi mà công cụ dự đoán tăng phạm vi của mã hóacảm nhận Sự khác biệt thứ hai trong 2 công cụ này là sự lọc TNS được thực hiện trêntín hiệu của bất kỳ loại khối nào và đặc biệt hiệu quả cho tín hiệu tức thời Tuy nhiên,

Trang 15

dự đoán hệ số quang phổ theo thời gian chỉ phù hợp tín hiệu thường và không có dựđoán theo thời gian được kích hoạt cho các loại tín hiệu cửa sổ ngắn

Trong ứng dụng thực tế, mã hóa và giải mã có thể được chạy trên 2 hệ thống khácnhau, mà biểu hiện hành vi khác nhau Điều khác biệt nhỏ giữa mã hóa và giải mã cóthể được tích lũy như dự đoán thời gian đi xa hơn và xa hơn Ngăn chặn lệch có ýnghĩa giữa bộ mã hóa và giải mã, các yếu tố dự đoán nên được thiết lập lại sau 1 thờigian Trong MPEG-2 AAC, dự đoán của tất cả các hệ số được tách ra vào một sốnhóm Dự báo thiết lập lại được thực hiện mỗi nhóm tại một thời điểm Bằng cách này,cài đặt lại tất cả các dự đoán có thể đạt được mà không ảnh hưởng đáng kể đến dựđoán tổng thể

Công cụ dự đoán MPEG-2 chỉ có sẵn cho mã hóa và giải mã profile chính vì lưu trữcao và yêu cầu tính toán hữu ích Trên thực tế, không phải tất cả các hệ số trongkhoảng tần số có dự đoán hoạt động ngay cả trong bộ profile chính Và không cái nàotrong số các hệ số tương ứng với tần số cao hơn phạm vi thực hiện bất kỳ sự dự đoántính toán trong mọi tình huống

do đó các yêu cầu của âm lý học có thể được đáp ứng hay không, nhiễu cảm nhận nênđược giới thiệu sau phần lượng từ hóa Bộ mã hóa AAC sẽ lượng tử hóa theo 2 bước.Một là lượng tử hóa các mẫu quang phổ Cái khác là lượng tử hóa hệ số tỷ lệ băng.(i) Lượng tử hóa các mẫu quang phổ:

s(i) và sq(i) đại diện cho phổ ban đầu và lượng tử các mẫu quang phổ

round(x) trả về giá trị số nguyên gần nhất đó là gần với giá trị x

α là một hằng số nhỏ

s,f đại diện cho tham số lượng tử cho tỷ lệ băng quy mô mẫu i

Trang 16

Với lượng tử hóa không đồng dạng, sự tăng của tín hiệu để nhiễu tỷ lệ với năng lượngtín hiệu tăng thấp hơn đáng kể của một lượng tử tuyến tính Mã huffman được sử dụng

để mã hóa các hệ số lượng tử đầu ra từ bộ lượng tử Một số bảng huffman dựa trên môhình xác suất khác nhau phù hợp với quang phổ bất kỳ Các chi tiết của quá trình mãhóa không tổn hao được mô tả trong mục 7.2.7

(ii) Lượng tử hóa cho các băng hệ số tỷ lệ.

Bên cạnh việc sử dụng một lượng tử không đồng dạng, một phương pháp bổ sung đểhình thành các nhiễu lượng tử là cần thiết để thực hiện các nhu cầu âm lý học TrongAAC, bộ mã hóa sử dụng khuếch đại cho cá nhân mỗi nhóm hệ số quang phổ Nếuchúng ta có định hình nhiễu lượng tử trong các đơn vị tương tự như của các dải giớihạn của hệ thống thính giác, sau đó các yêu cầu âm lý học có thể được đầy đủ, hiệuquả hơn Điều này được thực hiện trong khối lượng tử hóa AAC bằng cách thêm mộttham số s f cho mỗi dải hệ số tỷ lệ như trong (7.6) Từ khi các bộ giải mã cần thực hiệncác lượng tử nghịch đảo, thông tin phụ về các thông số bên trong mỗi băng hệ số tỷ lệcần được bao gồm trong dòng bit Tham số hệ số tỷ lệ đầu tiên của dải khác 0, đượcgọi là khuếch đại chung, được mã hóa bởi mã PCM chiều dài cố định Các thông sốcho tất cả các dải hệ số cố định được mã hóa Huffman vi sai

Lý tưởng nhất, khối lượng tử hóa nên được thiết kế để cả tốc độ bit và yêu cầu của âm

lý học được đáp ứng Tuy nhiên, mã hóa trong thực tế, có nhiều trường hợp mà mộthoặc cả hai yêu cầu không được đáp ứng Khi điều này xảy ra, các thuật toán mã hóanên đưa ra một giải pháp mà tăng tốc độ bit có sẵn hoặc nới lỏng các yêu cầu của tâm

lý học Trong thực tế, cách thực hiện khác nhau có thể tiếp cận vấn đề khác nhau Vàlàm thế nào nó được thực hiện ảnh hưởng đến hiệu suất mã hóa tổng thể Trong AAC,mục tiêu giới hạn bit cho mỗi frame thường là bit trung bình mỗi frame, cái mà có thểtính toán từ tốc độ bit yêu cầu và tần số lấy mẫu của tín hiệu vào Ngoài ra,có một chỗchứa bit có sẵn cho mỗi frame vì vậy có một phân phối bit thay đổi bổ sung được chophép giữa các khung hình liên tiếp trên cơ sở thời gian ngắn Tuy nhiên, không có quitrình chuẩn trong MPEG ACC, yêu cầu âm lý học có thể được nới lỏng khi giới hạn bitkhông thể đạt được Điều này là do MPEG AAC không chuẩn hóa phần mã hóa, miễn

là nén dòng bit phù hợp với điều kiện trong [60], thiết kế bất kì bộ mã hóa được chophép Trong [15], biểu diễn một vòng lặp đôi lồng nhau để kiểm soát sự lượng tử hóa.Mặc dù phương pháp này tạo ra kết quả khá tốt và đã được áp dụng trong phần mềmtham khảo MPEG AAC, nhưng nó là tốn thời gian và phải tính toán nhiều Dựa trên

mã tham chiếu, mô-đun lượng tử khác nhau[83] được đề xuất để sửa đổi các vòng lặpđôi và cải thiện đáng kể mã hóa tốc độ

7.2.7 Mã hóa entropy.

Mỗi lần, một bộ 1024 hệ số quang phổ lượng tử được gửi đến mô-đun mã hóa dữ liệungẫu nhiên để tiếp tục giảm tốc độ bit Mục tiêu của mô-đun này là đại diện cho tất cảcác mẫu lượng tử, càng hiệu quả thì càng tốt mà không cần đưa ra các lỗi mới Ban

Trang 17

đầu, một dải nén động không nhiễu có thể được áp dụng cho dữ liệu quang phổ Kể từkhi dải nén động gửi yêu cầu thông tin bên vào luồng bit, nó chỉ được kích hoạt khimột lưới lưu trữ của các bit có thể đạt được Bên cạnh dải nén động, có 3 công nghệkhác, đó là sự phân đoạn, mã hóa Huffman, nhóm, và xen kẽ được bao gồm trong cáckhối mã hóa entropy.

7.2.7.1 Sự phân chia.

Mỗi băng hệ số tỷ lệ có thể biểu hiện các thống kê khác nhau, bảng mã hóa Huffman

vi sai có thể được sử dụng cho mỗi băng hệ số tỷ lệ Tuy nhiên cách tốt hơn là nhómmột số băng hệ số tỷ lệ hàng xóm vào thành một phiên và để cho chúng chia sẻ một bộ

mã Huffman duy nhất để phía thông tin yêu cầu bên đại diện cho chỉ số Huffman cóthể giảm Có một số lựa chọn cho sự phân chia, bộ mã hóa có thể thực hiện tìm kiếmcác hệ số phân chia khác nhau, tìm và đưa ra cái mà cho kết quả giảm bit tổng thểnhất

Bảng 7.1: Bảng mã huffman sử dụng trong AAC

7.2.7.2 Mã hóa Huffman.

12 bảng mã Huffman xác định trước được cung cấp cho AAC Chỉ số bảng mãHuffman cùng với giá trị tuyệt đối của hệ số lượng tử hóa có thể đại diện cho mỗibảng mã Huffman Bảng này chỉ ra rằng cả hai bộ mã 2 chiều và 4 chiều có sẵn Trong

số bảng mã #1 đến #10, với mỗi giá trị tuyệt đối tối đa, 2 bộ mã được cung cấp Mặc

dù cả hai đều có thể sử dụng để mã hóa, nhưng chỉ có 1 cái tốt, mà thường là mộttrong những đại diện cho một phân bố xác suất gần nguồn, nên được lựa chọn để mãhóa kết thúc

Trang 18

Bảng mã Huffman #0 và #11 là hai bảng đặc biệt Bảng mã #0 chỉ một phiên với tất cảcác hệ số bằng 0 Bằng cách sử dụng bảng mã này, chỉ có chỉ số 0 của bảng mã cầnđược bao gồm trong dòng bit, không phải tham số hệ số tỷ lệ cũng như từ mã của hệ sốcần được gửi đến bộ giải mã Bảng mã này đặc biệt hữu ích cho các tín hiệu đầu vàovới tính năng băng hạn chế Bảng mã #11 dùng để biểu diễn hệ số lượng tử có giá trịtuyệt đối lớn hơn hoặc bằng 16 Đối với mỗi hệ số như vậy, một mã thoát được sửdụng để chỉ ra đoạn giá trị thừa của từ mã Giá trị tuyệt đối lớn nhất mà bảng mã #11

có thể dại diện là 8191 Các bit dấu của hệ số nên được thêm vào từ mã khi cần thiết

7.2.7.3 Nhóm và Xen kẽ.

Đối với trường hợp của 8 cửa sổ ngắn, bộ hệ số 1024 thực sự là một ma trận của 8, với

128 hệ số tần số Một phương pháp nhóm và xen kẽ được giới thiệu để đạt lợi ích mãhóa cao hơn Mục đích của nhóm và xen kẽ là để sắp xếp lại thứ tự của các quang phổlượng tử trong một cách mà hệ số của giá trị tương tự được sắp xếp vào khu vực liền

kề để tối thiểu chi phí tiêu thụ ngân sách bit giới hạn Phân nhóm là một chiến lược lựachọn liên quan đến cửa sổ ngắn để hình thành các nhóm Trong mỗi nhóm, các thông

số hệ số tỷ lệ trong tất cả các băng hệ số tỷ lệ có thể được chia sẻ, trong khi chèn thayđổi thứ tự của băng hệ số tỷ lệ, cửa sổ, các hệ số trong một nhóm và đặc biệt hữu íchcho các tín hiệu hạn chế băng Cả nhóm và xen kẽ tăng cường hiệu quả mã hóa chocác tín hiệu khối ngắn

Trang 19

Hình 7.8: Khối xử lý quang phổ của MPEG-4 AAC.

(a) Mã hóa

(b) Giải mã [58]

Định dạng
Số trang	39
Dung lượng	665,85 KB

mã hóa âm thanh tiên tiến mpeg

Công cụ phân định thô mơ rộng

Mỹ hạt công cụ khả năng mở rộng