Chương 2 giới thiệu về kỹ thuật audio và video. Chương này giúp người học nắm bắt những kiên thức tổng quan về kỹ thuật âm thanh và hình ảnh trong môi trường đa phương tiện. Mời các bạn cùng tham khảo để nắm bắt các nội dung chi tiết.
Trang 1CHƯƠNG 2: KỸ THUẬT AUDIO &
VIDEO
Trang 2Nội dung
• Tổng quan
Trang 3Tổng quan
• Âm thanh
– Dạng lan truyền của sóng trong không gian
– Sóng âm khi đến tai người nghe, đập vào màng nhĩ, làm cho người đó cảm nhận được sự rung động này – Con người có khả năng phân biệt với các âm thanh
khác dựa vào một số đặc tính như tần số, nhịp điệu, mức áp lực, …
• Mục đích của các hệ thống audio: xử lý, tạo hiệu ứng, nén tín hiệu thu nhận từ nguồn
• Audio số: chuỗi các giá trị số được biểu diễn bằng mức âm thanh theo thời gian
Trang 4Ứng dụng
• Các hệ thống thông tin không dây
– Truyền hình độ phân giải cao (High-Density TV)
– Âm thanh quảng bá số (Digital Broadcast Audio DBA) – Vệ tinh quảng bá trực tiế (Digital Broadcast Satelite DBS)
• Các môi trường mạng
– Âm thanh theo yêu cầu (chuyển mạch gói, Internet)
Trang 6Audio số
– Hệ thống audio tương tự gặp phải một số vấn đề khi xử lý tín hiệu như khả năng của linh kiện (về mặt tần số), lưu trữ, phức tạp,… từ đó dẫn đến
méo phi tuyến cao, SNR (Signal Noise Ratio) bé
– Hệ thống audio số có nhiều ưu điểm trong thu
nhận, hiệu chỉnh, xử lý và phát lại Các kỹ thuật
Trang 7– Tăng dung lượng kênh truyền
– Khả năng xử lý bằng hệ phi tuyến
Trang 8Quá trình thu nhận audio số
Trang 9Rời rạc hóa
như cồng kềnh, không hiệu quả và chi phí cao.
điểm hơn, khắc phục được những nhược
điểm trên của các hệ thống liên tục và đặc biệt đang ngày càng được phát triển và hoàn thiện dần những sức mạnh và ưu điểm của nó.
Trang 10Lấy mẫu và lượng tử hóa
tín hiệu về mặt thời gian và giữ cho biên độ
trong khoảng thời gian lấy mẫu không đổi
mặt biên độ Tại mỗi mẫu, biên độ được chia thành các mức gọi là các mức lượng tử
Trang 11Rời rạc hóa
– Lấy mẫu một hàm là trích ra từ hàm ban đầu các mẫu được lấy tại những thời điểm xác định
– Vấn đề là làm thế nào để sự thay thế hàm ban đầu bằng các mẫu này là một sự thay thế tương
đương, điều này đã được giải quyết bằng định lý lấy mẫu nổi tiếng của Shannon
Trang 12thời điểm cách nhau một khoảng t /max, hay
nói cách khác tần số lấy mẫu F 2f max
Trang 13Kỹ thuật truyền tín hiệu
tín hiệu truyền trong mỗi giây
Trang 14Kỹ thuật truyền tín hiệu
truyền băng lọc thông thấp có ảnh hưởng của nhiễu trắng Gaussian:
trong đó B là băng thông (Hz), S: năng lượng của tín hiệu – signal (W), N: năng lượng của nhiễu - thermal noise (W), SNR là tỷ số tín hiệu/nhiễu,
Trang 15Kỹ thuật truyền tín hiệu
độ bit là:
D = R x n
độ điều chế kênh có băng lọc thông thấp:
R 2B trong đó B là băng thông của kênh
Trang 16Rời rạc hóa (tt)
– Biên độ của các tín hiệu thường là một miền liên tục (s min , s max) Lượng tử hoá là phân chia miền
Trang 18Tín hiệu có biên độ càng nhỏ thì méo lượng tử càng cao
với một tạp âm tương tự ngẫu nhiên hóa
các ảnh hưởng để phân phối đều méo lượng
tử thành các lỗi ngẫu nhiên chứ không tập
Trang 19• Định nghĩa: dither là một nhiễu được cộng vào tín hiệu âm thanh
• Mục đích: loại bỏ méo lượng tử
• Cơ sở: dither làm cho tín hiệu âm thanh bị biến đổi giữa các mức lượng tử gần nhau, điều này
làm giảm độ tương quan của lượng tử hóa tín
hiệu, loại các ảnh hưởng của lỗi và mã hóa các
biên độ tín hiệu thấp hơn một mức lượng tử
Trang 20Dither
Trang 21Mã hóa và mã hóa kênh
– Là quá trình chuyển các mức rời rạc thành một
chuỗi các mẫu số nhị phân (hoặc các hệ đếm khác) theo một quy luật nhất định
– Sau mã hóa nhị phân ta được tín hiệu điều xung
Trang 22Mã hóa và mã hóa kênh
tương tự sang số để có thể truyền qua mạng
kỹ thuật số
đến với tên gọi codecs (coder/decoder)
số hoá tín hiệu tiếng nói bằng cách lấy mẫu tín
Trang 23Mã hóa và mã hóa kênh
– Lấy mẫu: tạo ra một dãy các mẫu gọi là các xung PAM (Pulse Amplitude Modulation)
– Lượng tử hoá:
• Tách khoảng biên độ của tín hiệu tiếng nói thành V mức
• Lượng tử hoá làm méo tín hiệu do phép xấp xỉ
• 128 mức cho chất lượng số hoá tốt
– Mã hoá nhị phân: mã hoá các giá trị được
lượng tử hoá thành dạng nhị phân,
011001100100001101000111100110000011 (4 bit)
Trang 24Mã hóa và mã hóa kênh
Trang 25Mã hóa và mã hóa kênh
• Nhược điểm của PCM là tốc độ bit cao, không
phù hợp với các hệ thống truyền thông không dây
• Differential PCM
– Cho biểu diễn nhị phân của sự chênh lệch giữa các
mẫu liên tiếp
– Giảm được tốc độ bit nếu sự chênh lệch giữa các mẫu liên tiếp có thể mã hoá sử dụng số bit nhỏ hơn số bit cho mã hoá chính mẫu
• Adaptive DPCM
– Phán đoán giá trị của mẫu dựa trên giá trị của các
mẫu trước
Trang 26Mã hóa và mã hóa kênh
– Biến đổi dữ liệu với mục đích đạt được mật độ bit cao trong giới hạn băng thông của kênh truyền
– Giảm sự tổn hao trong khi truyền hoặc lưu trữ
– Cải thiện dải thông, dữ liệu truyền dẫn có đặc tính tối ưu
– Làm cho phổ tín hiệu âm thanh số ít méo
Trang 27Ghép kênh
kênh Ví dụ: hệ thống âm thanh 5.1 gồm các
kênh trái, phải, trung tâm, trái vòm, phải vòm
và siêu trầm; ngoài ra còn có các tín hiệu mã phụ, mã đồng bộ, …
là ghép kênh phân chia theo thời gian (TDM), mỗi kênh sử dụng một khe thời gian được ấn định trước
Trang 28Ghép kênh
Trang 29Mã hóa audio cảm quan
– Giảm chi phí truyền dẫn (băng thông)
– Giảm các yêu cầu lưu trữ
Trang 30Mã hóa audio cảm quan
Trang 31Mã hóa audio cảm quan
audio, do đó người ta muốn thực hiện phải
tiến hành:
– Khai thác các đặc tính thu được
– Loại bỏ các thành phần không thích hợp với cảm nhận
– Giảm các dư thừa thống kê
Trang 32Mã hóa audio cảm quan
Trang 33Tiêu chuẩn lấy mẫu
– Băng thông
– Tốc độ
– Chất lượng– Độ trễ
Trang 34Băng lọc số
nhiều đầu ra hoặc chung đầu ra nhiều đầu vào
nhiều đầu ra
Trang 35Băng lọc số
tiếp nhau gọi là các tín hiệu băng con
(subband)
Trang 36Băng lọc số tổng hợp
Trang 37Băng lọc số nhiều nhịp 2 kênh và băng
lọc gương cầu phương QMF (Quadrature Mirror Filter Bank)
lọc số phân tích, băng lọc số tổng hợp với bộ phân chia và bộ nội suy
hợp bằng 2 thì ta có băng lọc số nhiều nhịp 2 kênh
Trang 38Băng lọc số nhiều nhịp 2 kênh và băng
lọc gương cầu phương QMF (Quadrature Mirror Filter Bank)
H1(ej), G1(ej): thông cao
Trang 39Băng lọc số nhiều nhịp 2 kênh và băng
lọc gương cầu phương QMF (Quadrature Mirror Filter Bank)
Băng lọc nhiều nhịp 2 kênh như vậy gọi là
băng lọc gương cầu phương
ngõ vào thì ta gọi là băng lọc gương cầu
phương khôi phục hoàn hảo PRQMF (Perfect ReconstructureQMF)
Trang 40Mã hóa băng con và cấu trúc bộ lọc
QMF
phổ tập trung không đồng đều Từ đó ta có
Trang 41Cấu trúc dạng cây đơn phân giải
Trang 42Cấu trúc dạng cây đa phân giải
Trang 43Các phương pháp mã hóa chuyển đổi
Trang 44DCT (Discrete Cosine Transform)
toán hiệu quả cho các đặc tính nén mạnh và giảm độ tương quan
Trang 45MDCT (Modified DCT)
được sửa đổi từ DCT
Trang 46tích băng con với cây không cân bằng, nghĩa là các tần số được chia một cách không đồng
nhất
Trang 48DWT (DiscreteWaveletTransform)
khi tích vô hướng của chúng bằng 0
được gọi là cơ sở trực giao nếu chúng trực
giao từng đôi một và có độ dài bằng 1
Trang 49DWT (DiscreteWaveletTransform)
• <vm, vn> = mn
Trang 50Phân tích tâm lý âm học
– Được chú trọng khai thác trong audio cảm quan– Trong dải 20Hz đến 20kHz thì khả năng nghe
không đồng nhất với các tần số - việc cảm nhận phụ thuộc vào mức áp lực và tùy thuộc vào từng người
– Dải 20Hz 20kHz được chia thành các dải con
không đồng nhất và không tuyến tính Cảm nhận
Trang 51Phân tích tâm lý âm học
– Phụ thuộc vào môi trường nghe, với môi trường nhiễu lớn thì hạn chế khả năng nghe và khả năng phân biệt các âm thanh khác nhau
– Vậy phân tích tâm lý nghe là xét các vấn đề:
• Độ nhạy của tai, khả năng đáp ứng của các cường độ khác nhau
• Đáp ứng của tai với các tần số khác nhau
• Nghe một âm khi có mặt một âm khác
Trang 52Ngưỡng nghe tuyệt đối
Theshold of Hearing)
– Thí nghiệm: để một người trong phòng kín, im
lặng, phát âm kiểm tra với tần số xác định (1kHz), tăng mức âm thanh cho đến khi có thể nghe
được, ghi lại các giá trị và lặp lại với tần số khác
– Vẽ đồ thị, ta được ngưỡng nghe tuyệt đối
Trang 53Dải tới hạn (critical bankwidth)
người giống như dùng các bộ lọc tâm sinh lý
có độ rộng gần bằng một giá trị tới hạn và
Fletcher gọi độ rộng của bộ lọc tới hạn là dải tới hạn
tai cho các tần số hay dải tần số liên tục
Trang 54Dải tới hạn (critical bankwidth)
– Với các tần số che nhỏ hơn 500Hz thì dải tới hạn không đổi với độ rộng khoảng 100Hz
– Với các tần số che lớn hơn 500Hz thì dải tới hạn có
độ rộng tăng tương đối tuyến tính theo tần số
bark (Barkhausen)
Trang 55Dải tới hạn (critical bankwidth)
Trang 56Dải tới hạn (critical bankwidth)
bark = 1 độ rộng dải tới hạn
arctg(f/7500)
Trang 57Kỹ thuật che (masking)
một âm khác sẽ cảm nhận yếu đi khi âm này
có tần số gần với âm cần nghe hoặc biên độ lớn
– Thí nghiệm: Để một người trong phòng kín, phát
ra một âm che (maskingtone) với tần số xác định (1,1kHz) ở một mức nào đó (60dB); tăng mức âm thanh cho đến khi có thể nghe được; thay đổi âm kiểm tra, vẽ ngưỡng nghe, lặp lại với âm che khác
Trang 58Kỹ thuật che (masking)
– Thí nghiệm: Phát ra một âm che với tần số 1kHz, biên độ 55dB, thêm một âm kiểm tra 1,1kHz, biên
độ 20dB trước và sau âm che Âm kiểm tra không thể nghe được (nó đang bị che)
– Lặp lại các mức khác của âm kiểm tra và vẽ
– Với thí nghiệm này, âm 1,1kHz với 20dB bị che
Trang 59Kỹ thuật che (masking)
Trang 61Kỹ thuật nén audio
– Khôi phục đúng thông tin ban đầu sau khi giải nén– Loại bỏ dư thừa thống kê, các thông tin xuất hiện trong tín hiệu mà có thể dự báo trước
– Tỷ số nén thấp, khoảng 2:1; phụ thuộc vào mức
độ phức tạp của nguồn
– Thường dùng kỹ thuật mã hóa dự đoán trong
miền thời gian
Trang 62Kỹ thuật nén audio
• Thuật toán vi sai
– Tín hiệu âm thanh có đặc tính lặp đi lặp lại nên xuất hiện sự dư thừa số liệu Thông tin lặp lại sẽ được loại
bỏ trong quá trình mã hóa và được đưa vào lại trong quá trình giải mã dùng kỹ thuật DPCM
– Các tín hiệu audio đầu tiên được phân tích thành tập hợp các dải băng con bao gồm một số lượng âm thanh rời rạc, sau đó DPCM được dùng để dự báo các tín
Trang 64Kỹ thuật nén audio
– Hệ thống thính giác của con người không thể phân biệt các thành phần phổ có biên dộ nhỏ giữa các thành phần phổ có biên độ lớn
– Hệ số nén lớn, khoảng 20:1 phụ thuộc vào quá
trình nén và chất lượng audio yêu cầu
Trang 65thanh bằng cách chỉ định số bit vừa đủ để chắc chắn rằng mức nhiễu lượng tử luôn nằm dưới mức giá trị cần che
kênh với các thành phần số liệu trong các kênh giống nhau
Mã hóa một phần số liệu chung trên một kênh và chỉ định cho bộ giải mã lặp lại tín hiệu đó trên các kênh còn lại
Trang 68MPEG-1
Trang 69MPEG-1
Trang 70MPEG-1
Trang 71– Tiến hành chia ngõ vào thành 32 băng con bởi các băng lọc: Lấy 32 mẫu PCM trong cùng một thời
điểm, kết quả là 32 hệ số tần số ở ngõ ra
– Trong MPEG-1 lớp I thì tập 32 giá trị PCM được kết hợp vào trong khối gồm 12 nhóm 32 mẫu này
– MPEG-1 lớp II và III thì gồm 3 khối 12 nhóm này
– Phân bố bit đảm bảo rằng mọi nhiễu lượng tử
nằm ở dưới các ngưỡng che
Trang 72– Với mỗi băng con, xác định mức biên độ và mức nhiễu bằng mô hình tâm sinh lý nghe SMR (signal mask rate) được dùng để xác định số bit cho quá trình lượng tử hóa đ/v mỗi băng con với mục đích giảm thiểu dung lượng
– Ví dụ: sau khi phân tích, mức của 16 băng con đầu
Trang 73– Nếu mức của băng con thứ 8 là 60 thì nó che 12dB
ở băng con thứ 7 và 15dB ở băng con thứ 9
– Băng con thứ 7 có mức 10dB<12dB: loại Băng con thứ 9có mức 35dB>15dB: gửi đi chỉ có các mức lớn hơn mức che là được gửi đi thay vì dùng 6 bit để mã hóa, ta chỉ cần dùng 4 bit tiết kiệm
– MPEG LayerI: bộ lọc DCT 1 khung và tần số bằng phẳng trong mỗi băng con Mô hình tâm sinh lý
nghe dùng che tần số
Trang 74– MPEG LayerII: có 3 khung trong bộ lọc (trước, hiện tại và kế), tổng là 1125 mẫu Sử dụng bài bit để
che thời gian
– MPEG LayerIII: dùng bộ lọc tới hạn để đáp ứng tốt hơn Mô hình tâm sinh lý nghe dùng che thời gian, che tần số, tính toán độ dư thừa stereo và mã hóa
Trang 76– Side info: có phân bố bit như sau: lớp 1 với 4 bit tuyến tính cho các băng con, lớp II 4 bit cho các băng con tần thấp, 3 bit tần trung và 2 bit tần cao;
hệ số tỷ lệ là 6 bit/băng con kết hợp với phân bố bit và các bit mã hóa cho băng con đó để xác định giá trị, lớp III mã hóa âm thanh nổi
– Subband sample: 32 x 12 mẫu đối với lớp I và 32 x
Trang 77từ 32 đến 1066kbps Tần số lấy mẫu có thể
giảm một nửa so với MPEG-1 (16; 22,05;
24kHz)
lên đến 1 Mbps cho các ứng dụng tốc độ cao Cho phép nén đồng thời nhiều kênh
Trang 78• Chất lượng âm thanh tùy thuộc ứng dụng
• Hỗ trợ khả năng lồng tiếng, bình luận nhiều ngôn ngữ trong phần bit mở rộng
• Sử dụng khả năng mã hóa cường độ cao, giảm
xuyên âm, mã hóa dự đoán liên kênh và mã hóa
ảo ảnh kênh trung tâm để nhận được tốc độ bit kết hợp 384kb/s
• Khung được chia làm 2 phần, phần đầu là
Trang 79MPEG-MPEG-2
Trang 80MPEG-2
Trang 82AC-3 (Dolby Digital)
• Chuyển tải âm thanh đa kênh trong các ứng dụng như DVD-video, DTV và DBS
• Phát triển từ AC-1, AC-2
• Mã hóa âm thanh từ 1 đến 6 kênh, thông thường cung cấp âm thanh 5.1 kênh: trái, phải, trung
tâm, trái vòm, phải vòm và 1 kênh hiệu ứng tần
số thấp (âm trầm)
• 6 kênh yêu cầu 6 x 48kHz x 18 bit = 5,184 Mb/s
Trang 83AC-3 (Dolby Digital)
640kb/s
thính giả
tử biểu diễn trong miền tần số của tín hiệu âm thanh
Trang 84AC-3 (Dolby Digital)
• Bộ mã hóa dùng băng lọc phân tích chuyển các mẫu PCM thành các hệ số trong miền tần số Mỗi
hệ số biểu diễn ký hiệu mũ nhị phân gồm phần số
mũ và phần định trị Các tập số mũ được mã hóa thô qua phổ tín hiệu và xem như là đường bao
phổ Dùng phân phối bit xác định số bit cần mã hóa mỗi định trị dựa vào đường bao phổ Đường bao phổ và các định trị được lượng tử cho 6 khối
Trang 85AC-3 (Dolby Digital)
Trang 86mono, stereo hay đa kênh chất lượng cao
cũng không trực tiếp loại các thành phần
không thích hợp trong tín hiệu audio mà ngầm hiểu một mô hình đáp ứng nghe bằng việc
Trang 87dùng mã hóa dự đoán tuyến tính trong các
băng con
ngõ ra 16 bit/từ mẫu
thông đều như nhau dùng các bộ lọc QMF
Trang 88dùng mã hóa dự đoán tuyến tính ADPCM để lượng tử mỗi băng theo nội dung và loại bỏ độ
dư thừa trong các băng con
mẫu trước
Trang 89Mã hóa âm thanh nổi
Trang 90Mã hóa âm thanh nổi
– Không loại bỏ độ dư thừa
– Các kênh riêng biệt được mã
hóa độc lập
– Ngưỡng che không liên quan
– Hiệu quả với âm thanh rất
khác biệt giữa kênh trái và
Trang 91Mã hóa âm thanh nổi
– Khuynh hướng của Join Stereo không chỉ là kết
hợp các định dạng của chuẩn nén MP3 (MPEG-1 lớp III) mà còn kết hợp các dạng nén khác như
MPEG và AAC
– Middle-Side Stereo xét 2 kênh dữ liệu theo 2
phương diện khác nhau Thay vì lưu trữ một dữ liệu âm thanh theo 2 kênh Left-Right ta chỉ cần lưu trữ một chuỗi tương tự số trung bình Average và
sự sai biệt Difference (của Left và Right)
Trang 92Mã hóa âm thanh nổi
– Middle-Side có thể lấy Middle=(L+R)/2 và
Side=(LR)/2
– Dấu của Side rất quan trọng, nếu dương thì nghĩa
là tín hiệu L lớn hơn R
– Hoàn toàn có thể tái tạo 2 kênh L, R như sau:
L=Middle + Side, R=Middle Side
Trang 93Mã hóa âm thanh nổi
– Ưu điểm là sự khác biệt tương đối của các tín
hiệu audio của các kênh L và R Kết quả kênh
Middle lớn hơn nhiều so với Side Việc mã hóa
kênh Side dùng ít bit hơn để giải phóng tài nguyên
để có thể triển khai hữu hiệu hơn trên kênh
Middle Khi tải định dạng lại L, R thì kết quả sẽ thể hiện tín hiệu gốc ngõ vào “thực” hơn
Trang 94Mã hóa âm thanh nổi
– Tính chất:
• Kênh Side dùng số bit rất ít
• Loại bỏ độ dư thừa cho tín hiệu mono trong thực tế
• Có thể được áp dụng trong miền thời gian lẫn tần số
• Độ lợi mã hóa cao phụ thuộc tín hiệu
– Biến đổi ngược: tổng/hiệu chuẩn hóa
Trang 95Mã hóa âm thanh nổi
– Mục đích: tối thiểu hóa thông tin stereo để nhận được tốc độ bit thấp nhất nếu có thể
– Mã hóa tín hiệu tổng các kênh+ các hướng của
kênh Truyền đường bao, sau đó là tỷ lệ theo các kênh
– Kiểm chứng dựa trên việc cảm nhận của con
người kém đối với tần số trên 3kHz
– Biên độ và pha không quan trọng
Trang 96Mã hóa âm thanh nổi
– Giảm gần 50% lượng dữ liệu
– Không đảm bảo thông tin về pha của tín hiệu
– Có thể cảm nhận một số vấn đề méo tín hiệu
– Dùng trong các ứng dụng có tốc độ bit thấp