Đề thi và đáp án môn xử lý dữ liệu đa phương tiện

1.Trình bày sơ đồ nguyên lý phương pháp mã hóa dải tần (Subband Coding – SBC) (Câu 1,1 – Đề 1) (Câu 1,1 – Đề 5). Giải thích vai trò của băng lọc số (Digital Filter Banks) trong nguyên lý giảm tần số lấy mẫu và nội suy của phương pháp này (Subsampling and Interpolation with Band pass Filters) (Câu 2,1 – Đề 4).Trả lời:Xét sơ đồ nguyên lý của phương pháp mã hóa dải tần con (Subband Coding – SBC) trong trường hợp tín hiệu 1 chiều rời rạc. Phương pháp mã hóa SBC bao gồm các bước sau: Subband và CodingQuá trình subband được thực hiện như sau:•Lọc phân tích: tín hiệu ban đầu được đưa qua các bộ lọc nhằm chia tín hiệu thành các thành phần tín hiệu ứng với các dải tần không bị chồng nhau.•Tín hiệu của các các dải tần sau khi đi qua bộ lọc được giảm tần số lấy mẫu đi M lần (M là số dải tần chia tín hiệu).Quá trình Coding: là quá trình thực hiện lượng tử hóa và mã hóa riêng trên các dải tần số. Quá trình này đòi hỏi phương pháp lượng tử hóa và mã hóa, thực hiện phân phối dòng bit dựa trên tín chất của dòng tín hiệu sau bộ lọc. Đây là bước mang lại hiệu quả nén cho toàn bộ quá trình mã hóa SBC. Trong đó, phân phối bit là việc phân chia số bit hiện có cho mã hóa từng dải, dựa theo tín hiệu của từng dải do trong từng dải, lượng thông tin là khác nhau. Phân phối bit ảnh hưởng lớn đến khôi phục dữ liệu sau quá trỉnh giải nén.Giải thích vai trò của băng lọc số trong giảm tần số lấy mẫu và nội suy của phương pháp SBC: Vai trò của băng lọc số (Digital Filter Banks): Băng lọc số trong phương pháp SBC giúp phân tách tín hiệu nguồn ban đầu thành các tín hiệu trên các băng tần khác nhau, phục vụ cho việc mã hóa. Trong quá trình giải mã, băng lọc số sẽ kết hợp các tín hiệu trên các băng tần khác nhau để có thể khôi phục được tín hiệu ban đầu.Việc giảm tần số lấy mẫu của tín hiệu sau bộ lọc làm phổ tín hiệu rộng ra, trải hết trên trục tần số, nên số mẫu lúc này cũng giảm theo. Giảm tần số lấy mẫu được thực hiện dựa trên định lý lấy mẫu Nyquist và hệ quả của định lý Nyquist. Tỷ lệ giảm tần số lấy mẫu phụ thuộc vào tỷ lệ giữa dải thông của bộ lọc với dải tần tín hiệu vào2.Trình bày và giải thích sơ đồ mã hóa SBC dùng trong nén ảnh JPEG2000 như thế nào? (Câu 1,2 – Đề 1). Giải thích kỹ thuật xử lý đa phân giải được áp dụng như thế nào trong sơ đồ này (Câu 2,2 – đề 4)Trả lời: (Câu này không rõ ý hỏi của câu hỏi, nên chỉ làm tạm thời).Trong nén ảnh JPEG2000, sơ đồ mã hóa SBC được sử dụng là sơ đồ kỹ thuật băng lọc thông thấp thông cao: Đầu vào của sơ đồ là tín hiệu gốc ban đầu, được cho qua 2 bộ lọc thông thấp – thông cao, sau quá trình này sẽ thu được 2 dải tần con tương ứng với hai bộ lọc, tín hiệu tương ứng hai dải tần con này sẽ được lấy mẫu xuống hai lần. Quá trình này sẽ được tiếp tục với hai băng tần con này, tùy thuộc vào ứng dụng mà người thiết kế có thể sử dụng bao nhiêu băng lọc. Kỹ thuật xử lý đa phân giải được áp dụng trong sơ đồ: Trong sơ đồ này, quá trình subsampling hay còn gọi là giảm tần số lấy mẫu đi 2 lần chính là quá trình xử lý đa phân giải. Xét với ảnh, việc giảm tần số lấy mẫu chính là giảm độ phân giải, tùy thuộc vào số lượng băng lọc mà có thể xác định các độ phân giải khác nhau. Ví dụ: Ảnh ban đầu có độ phân giải NxN pixels, trước hết áp dụng bộ lọc theo chiều ngang cho từng dòng của dữ liệu ảnh với một bộ lọc thông thấp và một bộ lọc thông cao, sau đó giảm tần số lấy mẫu ở đầu ra của 2 bộ lọc đi 2 lần, ta được 2 ảnh mới có kích thước (NxN)2. Tiếp theo, áp dụng 2 bộ lọc thông thấp và thông cao theo chiều dọc của 2 ảnh mới, ở đầu ra của 2 bộ lọc tiếp tục giảm tần số lấy mẫu đi 2 lần, ta thu được 4 ảnh có kích thước N2 x N2 pixels. 3.Trình bày và giải thích sơ đồ mã hóa SBC dùng trong mã hóa âm thanh dải rộng như thế nào? (Câu 1,3 – Đề 1) (Câu 2,3 – đề 4)Trả lời:Sơ đồ mã hóa SBC dùng trong mã hóa âm thanh Đề chỉ yêu cầu trình bày sơ đồ MÃ HÓA thôi, sơ đồ giải mã ko cần nêuĐặc điểm của các khối chức năng trong sơ đồ mã hóa (sơ đồ a), và sơ đồ giải mã (sơ đồ b). Đầu vào của sơ đồ mã hóa là tín hiệu gốc ban đầu, đầu ra của sơ đồ là các dòng bit.•Khối TimeFrequency Mapping: Đây là khối được sử dụng để chia tín hiệu đầu vào thành các dải tần con (subband), khối này thường là các băng lọc với nhiều bộ lọc có đáp ứng tần số khác nhau. Đối với âm thanh dải rộng, kỹ thuật băng lọc thông dải được sử dụng, bao gồm M băng lọc thông dải, sau khi tín hiệu đi qua M băng lọc sẽ thu được M dải tần tương ứng với từng bộ lọc. Sau đó thực hiện giảm tần số lấy mẫu của mỗi băng tần con đi M lần. •Khối Psychoacoustic Model: khối này đầu vào là tín hiệu gốc và tín hiệu sau khi đã được chia thành các subbands. Khối này được sử dụng để tính toán các hiệu ứng che của tín hiệu đưa vào dựa trên mô hình cảm thụ âm thanh của con người. Tín hiệu này được đưa vào khối này được tính toán để tìm ra các thành phần tần số có năng lượng nhỏ dưới ngưỡng nghe và các thành phần tần số bị che bởi các thành phần tần số trên các dải tần khác. Từ đó tính ra ngưỡng che cho mỗi dải tần và đưa tới khối lượng tử hóa để tiến hành lượng tử. Độ rộng về thời gian của khối tín hiệu đưa vào khối Psychoacoustic Model để tiến hành phân tích càng lớn ta thu được hiệu quả nén càng cao. •Khối lượng tử hóa và mã hóa (Quantizer and Coding): Khối có đầu vào là các subband được chia sau khi tín hiệu gốc đi qua băng lọc và các hiệu ứng che được tính toán từ khối Psychoacoustic Model. Nhiệm vụ của khối này là tiến hành lượng tử hóa tín hiệu trên các subbands một cách phù hợp sao cho số bit sử dụng cho mỗi subband là ít nhất (nhưng vẫn phải đảm bảo chất lượng của tín hiệu) và sau đó mã hóa tín hiệu trên các subband với phương pháp mã hóa như Huffman, mã hóa đại số… Ngoài ra, mỗi subband đều có ngưỡng nghe riêng, khối lượng tử hóa làm nhiệm vụ lượng tử tín hiệu của mỗi subband với đủ số bit để duy trì khoảng cách giữa nhiễu do lượng tử và ngưỡng nghe của mỗi subband. Như vậy ta có thể giảm được số bit cần để lượng tử hóa mỗi mẫu tín hiệu của subband tùy thuộc vào ngưỡng che của subband tương ứng nhờ vậy ta có thể tăng được hiệu quả nén dữ liệu.•Khối Frame Packing: Dữ liệu sau khi ta lượng tử và mã hóa được đưa vào khối này để đóng gói thành các frame và chuyển đi trong hệ thống mạng.

Trang 1

TỔNG HỢP CÁC CÂU HỎI THI

Câu số 1: Phương pháp SBC (Câu 1 – Đề 1 vs Câu 2 – Đề 4 vs Câu 1 – Đề 5)

1. Trình bày sơ đồ nguyên lý phương pháp mã hóa dải tần (Subband Coding – SBC) (Câu 1,1 – Đề 1) (Câu 1,1 – Đề 5) Giải thích vai trò của băng lọc số (Digital Filter Banks) trong nguyên lý giảm tần số lấy mẫu

và nội suy của phương pháp này (Subsampling and Interpolation with Band pass Filters) (Câu 2,1 – Đề 4).

• Tín hiệu của các các dải tần sau khi đi qua bộ lọc được giảm tần số lấymẫu đi M lần (M là số dải tần chia tín hiệu)

Quá trình Coding: là quá trình thực hiện lượng tử hóa và mã hóa riêngtrên các dải tần số Quá trình này đòi hỏi phương pháp lượng tử hóa và

mã hóa, thực hiện phân phối dòng bit dựa trên tín chất của dòng tín hiệusau bộ lọc Đây là bước mang lại hiệu quả nén cho toàn bộ quá trình mãhóa SBC Trong đó, phân phối bit là việc phân chia số bit hiện có cho mãhóa từng dải, dựa theo tín hiệu của từng dải do trong từng dải, lượngthông tin là khác nhau Phân phối bit ảnh hưởng lớn đến khôi phục dữliệu sau quá trỉnh giải nén

Giải thích vai trò của băng lọc số trong giảm tần số lấy mẫu và nội suy của phương pháp SBC:

Vai trò của băng lọc số (Digital Filter Banks): Băng lọc số trong phươngpháp SBC giúp phân tách tín hiệu nguồn ban đầu thành các tín hiệu trên

Trang 2

các băng tần khác nhau, phục vụ cho việc mã hóa Trong quá trình giải

mã, băng lọc số sẽ kết hợp các tín hiệu trên các băng tần khác nhau để cóthể khôi phục được tín hiệu ban đầu

Việc giảm tần số lấy mẫu của tín hiệu sau bộ lọc làm phổ tín hiệu rộng

ra, trải hết trên trục tần số, nên số mẫu lúc này cũng giảm theo Giảm tần

số lấy mẫu được thực hiện dựa trên định lý lấy mẫu Nyquist và hệ quảcủa định lý Nyquist Tỷ lệ giảm tần số lấy mẫu phụ thuộc vào tỷ lệ giữadải thông của bộ lọc với dải tần tín hiệu vào

2. Trình bày và giải thích sơ đồ mã hóa SBC dùng trong nén ảnh

JPEG-2000 như thế nào? (Câu 1,2 – Đề 1) Giải thích kỹ thuật xử lý đa phân giải được áp dụng như thế nào trong sơ đồ này (Câu 2,2 – đề 4)

Trả lời: (Câu này không rõ ý hỏi của câu hỏi, nên chỉ làm tạm thời)

Trong nén ảnh JPEG-2000, sơ đồ mã hóa SBC được sử dụng là sơ đồ kỹthuật băng lọc thông thấp thông cao:

Đầu vào của sơ đồ là tín hiệu gốc ban đầu, được cho qua 2 bộ lọc thôngthấp – thông cao, sau quá trình này sẽ thu được 2 dải tần con tương ứngvới hai bộ lọc, tín hiệu tương ứng hai dải tần con này sẽ được lấy mẫuxuống hai lần Quá trình này sẽ được tiếp tục với hai băng tần con này,tùy thuộc vào ứng dụng mà người thiết kế có thể sử dụng bao nhiêubăng lọc

Kỹ thuật xử lý đa phân giải được áp dụng trong sơ đồ: Trong sơ đồ này,quá trình subsampling hay còn gọi là giảm tần số lấy mẫu đi 2 lần chính

là quá trình xử lý đa phân giải Xét với ảnh, việc giảm tần số lấy mẫuchính là giảm độ phân giải, tùy thuộc vào số lượng băng lọc mà có thểxác định các độ phân giải khác nhau Ví dụ: Ảnh ban đầu có độ phângiải NxN pixels, trước hết áp dụng bộ lọc theo chiều ngang cho từngdòng của dữ liệu ảnh với một bộ lọc thông thấp và một bộ lọc thông cao,

Trang 3

sau đó giảm tần số lấy mẫu ở đầu ra của 2 bộ lọc đi 2 lần, ta được 2 ảnhmới có kích thước (NxN)/2 Tiếp theo, áp dụng 2 bộ lọc thông thấp vàthông cao theo chiều dọc của 2 ảnh mới, ở đầu ra của 2 bộ lọc tiếp tụcgiảm tần số lấy mẫu đi 2 lần, ta thu được 4 ảnh có kích thước N/2 x N/2pixels

3. Trình bày và giải thích sơ đồ mã hóa SBC dùng trong mã hóa âm thanh dải rộng như thế nào? (Câu 1,3 – Đề 1) (Câu 2,3 – đề 4)

Trả lời:

Sơ đồ mã hóa SBC dùng trong mã hóa âm thanh

Đề chỉ yêu cầu trình bày sơ đồ MÃ HÓA thôi, sơ đồ giải mã ko cần nêuĐặc điểm của các khối chức năng trong sơ đồ mã hóa (sơ đồ a), và sơ đồgiải mã (sơ đồ b) Đầu vào của sơ đồ mã hóa là tín hiệu gốc ban đầu, đầu

ra của sơ đồ là các dòng bit

• Khối Time/Frequency Mapping: Đây là khối được sử dụng để chia tínhiệu đầu vào thành các dải tần con (subband), khối này thường là cácbăng lọc với nhiều bộ lọc có đáp ứng tần số khác nhau Đối với âmthanh dải rộng, kỹ thuật băng lọc thông dải được sử dụng, bao gồm

M băng lọc thông dải, sau khi tín hiệu đi qua M băng lọc sẽ thu được

M dải tần tương ứng với từng bộ lọc Sau đó thực hiện giảm tần sốlấy mẫu của mỗi băng tần con đi M lần

• Khối Psychoacoustic Model: khối này đầu vào là tín hiệu gốc và tínhiệu sau khi đã được chia thành các subbands Khối này được sửdụng để tính toán các hiệu ứng che của tín hiệu đưa vào dựa trên mô

Trang 4

hình cảm thụ âm thanh của con người Tín hiệu này được đưa vàokhối này được tính toán để tìm ra các thành phần tần số có nănglượng nhỏ dưới ngưỡng nghe và các thành phần tần số bị che bởi cácthành phần tần số trên các dải tần khác Từ đó tính ra ngưỡng che chomỗi dải tần và đưa tới khối lượng tử hóa để tiến hành lượng tử Độrộng về thời gian của khối tín hiệu đưa vào khối PsychoacousticModel để tiến hành phân tích càng lớn ta thu được hiệu quả nén càngcao

• Khối lượng tử hóa và mã hóa (Quantizer and Coding): Khối có đầuvào là các subband được chia sau khi tín hiệu gốc đi qua băng lọc vàcác hiệu ứng che được tính toán từ khối Psychoacoustic Model.Nhiệm vụ của khối này là tiến hành lượng tử hóa tín hiệu trên cácsubbands một cách phù hợp sao cho số bit sử dụng cho mỗi subband

là ít nhất (nhưng vẫn phải đảm bảo chất lượng của tín hiệu) và sau đó

mã hóa tín hiệu trên các subband với phương pháp mã hóa nhưHuffman, mã hóa đại số… Ngoài ra, mỗi subband đều có ngưỡngnghe riêng, khối lượng tử hóa làm nhiệm vụ lượng tử tín hiệu củamỗi subband với đủ số bit để duy trì khoảng cách giữa nhiễu dolượng tử và ngưỡng nghe của mỗi subband Như vậy ta có thể giảmđược số bit cần để lượng tử hóa mỗi mẫu tín hiệu của subband tùythuộc vào ngưỡng che của subband tương ứng nhờ vậy ta có thể tăngđược hiệu quả nén dữ liệu

• Khối Frame Packing: Dữ liệu sau khi ta lượng tử và mã hóa được đưavào khối này để đóng gói thành các frame và chuyển đi trong hệthống mạng

4. Tại sao có sự khác nhau khi áp dụng SBC cho mã hóa ảnh và mã hóa

âm thanh dải rộng (Câu 1,4 – Đề 1) Tại sao có sự khác nhau khi áp dụng SBC cho mã hóa ảnh JPEG – 2000 và mã hóa âm thanh dải rộng MP3 (Câu 2,4 – Đề 4) (Câu 1,3 – Đề 5)

Trả lời: (Về bản chất câu hỏi đều giống nhau, nên sẽ trả lời chung ý thứ

Trang 5

• Nén âm thanh dải rộng có khối tính toán các hiệu ứng che, nén ảnhkhông có khối chức năng này và cũng không cần thiết.

• Nén ảnh loại bỏ các thành phần tần số chứa ít thông tin ngay sau quátrình lọc, còn nén âm thanh dải rộng loại bỏ các thành phần tần sốdựa theo ngưỡng nghe

• Nén ảnh sau đó sử dụng mã hóa dự đoán DPCM và lượng tử hóa vôhướng (Scalar Quantization) Trong nén âm thanh dải rộng, lượng tửhóa sao cho số bit sử dụng cho mỗi subband là ít nhất rồi mã hóa tínhiệu dựa trên các subband bằng phương pháp mã hóa Huffman, mãhóa đại số…

• Nén ảnh không cần có khối frame packing do không cần đóng gói dữliệu sau lượng tử và mã hóa thành các frame

• Có sự khác nhau là do: ảnh và âm thanh có bản chất vật lý khác nhau

và cách con người cảm nhận hình ảnh và âm thanh là khác nhau Ảnh

là thông tin về vật thể hay quang cảnh được chiếu sáng mà con ngườiquan sát và cảm nhận được bằng mắt và hệ thống thần kinh thị giác.Trong khi đó âm thanh là các dao động cơ học của các nguyên tử,phân tử hoặc các hạt vật chất lan truyền trong không gian, được cảmnhận trực tiếp qua tai người bởi sự va đập vào màng nhĩ, làm rungmàng nhĩ và kích hoạt hệ thống thần kinh thính giác Và con ngườinhạy cảm với âm thanh hơn so với hình ảnh

Câu số 2: Phương pháp mã hóa dự đoán

1. Trình bày sơ đồ nguyên lý phương pháp mã hóa dự đoán DPCM và vai trò của bộ dự đoán (predictor) (Câu 1,1 – Đề 2) Hãy cho biết tỷ số nén

và mức độ tổn hao phụ thuộc vào các khối xử lý như thế nào trong sơ

Trang 6

Trong sơ đồ này, có các khối chức năng:

• Bộ lấy mẫu: là quá trính rời rạc hóa tín hiệu tương tự, đây là bướcchuyển tín hiệu mang thông tin dạng liên tục thành tín hiệu mangthông tin rời rạc, bằng phương pháp lấy mẫu (Sampling) sao cho tínhiệu rời rạc phải mang đầy đủ thông tin của tín hiệu tương tự, để táitạo được thông tin một cách trung thực ở đầu thu

o Sai số dự đoán (prediction error) chỉ sự chênh lệch giữa giá trị

dự đoán và giá trị thực Nó không làm tổn thất thông tin dẫnđến làm suy giảm chất lượng của ảnh Giá trị sai số này quyếtđịnh tốc độ bit giảm đi nhiều hay ít, tức là ảnh hưởng đến hiệusuất nén

o Sai số lượng tử hóa (quantization error) là sai số đặc trưng cho

sự tổn thất dữ liệu dẫn đến làm suy giảm chất lượng ảnh phụchồi

• Bộ mã hóa (Encoder): là quá trình mã hóa các sai số dự đoán

+ Hãy cho biết tỷ số nén và mức độ tổn hao phụ thuộc vào các khối xử

lý như thế nào trong sơ đồ này?

Tỷ số nén phụ thuộc vào khối dự đoán vì: quá trình dự đoán mẫu hiệntại dựa trên mẫu trước đó, do đó, dự đoán càng chính xác thì mức độ saikhác giữa giá trị mẫu thực với giá trị mẫu dự đoán càng nhỏ nên sẽ cần

số lượng bit để mã hóa sai số dự đoán nên tốc độ bit sẽ giảm hoặc ngượclại, quá trình dự đoán khiến cho sai số dự đoán lớn sẽ ảnh hưởng đến sốbit cần để mã hóa sai số dự đoán này là lớn và tốc độ dòng bit sẽ lớn Vìvậy, tỷ số nén phụ thuộc vào khối dự đoán

Mức độ tổn hao sẽ phụ thuộc vào khối lượng tử hóa (trong sơ đồ nênviết gộp lấy mẫu và lượng tử hóa làm 1) vì: quá trình lượng tử hóa là

Trang 7

quá trình rời rạc hóa các mẫu về miền số nguyên, do đó, nếu dữ liệu banđầu là số thực sau khi qua khối lượng tử hóa sẽ được làm tròn thành sốnguyên Do đó, sự tổn hao phụ thuộc vào khối lượng tử hóa.

2. Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong nén ảnh video? Giải thích sơ đồ mã hóa DPCM trong nén video (Câu 1,2) –

• Dự đoán Intrafield (Intrafield Prediction): Chỉ sử dụng các điểm ảnh(pixel) thuộc một ½ frame ảnh (hay còn gọi là một mảnh) để tạo dựđoán Dự đoán trong mảnh không tận dụng được quan hệ giữa cácđiểm ảnh lân cận nhau theo chiều đứng nên có thể cho sai số dự đoáncao

• Dự đoán Intraframe (Intraframe Prediction): Với sự hỗ trợ của một bộnhớ mảnh, dự đoán trong ảnh sử dụng tất cả các điểm ảnh (pixel)thuộc cả hai mảnh của mọt khung để tạo dự đoán Như vậy sẽ lợidụng được quan hệ tương hỗ của các điểm ảnh lân cận theo cảphương ngang và phương đứng nên dự đoán chính xác hơn, cho sai

số dự đoán nhỏ hơn

• Dự đoán interfield (Interfield Prediction): phương pháp tạo dự đoánnày sử dụng cả khung hiện tại và khung tham chiếu Dự đoán liênmảnh chỉ sử dụng một mảnh của mỗi khung ở các khung khác nhau

• Dự đoán interframe (Interframe Prediction): phương pháp này sửdụng cả hai mảnh của mỗi khung ở khung hiện tại và khung thamchiếu để dự đoán

+ Giải thích sơ đồ mã hóa trong nén ảnh video

Do đặc điểm nén ảnh video chia ra làm 2 loại là intraframe và interframenên mã hóa dự đoán DPCM trong nén ảnh video cũng chia thành 2 loại:

• Mã hóa dự đoán DPCM Intraframe video

Intraframe được nén như nén ảnh tĩnh (ví dụ theo chuẩn JPEG), trong

Trang 8

quá trình nén intraframe thì mã hóa dự đoán DPCM thường được sửdụng để dự đoán và mã hóa các thành phần 1 chiều DC của mỗi khốiđiểm ảnh trong một intraframe Cụ thể như sau: ảnh ban đầu đượcchia thành các block có kích thước 8x8 pixels, mỗi block sẽ được biếnđổi DCT, kết quả sau biến đổi DCT là ma trận có kích thước 8x8, sau

đó các ma trận này được lượng tử hóa dựa trên bảng lượng tử hóa.Kết quả sau lượng tử hóa sẽ là ma trận có kích thước 8x8 với các giátrị là số nguyên Thành phần 1 chiều DC chính là giá trị đầu tiên bêntrái của ma trận này Các giá trị thành phần 1 chiều DC của mỗi block

sẽ được mã hóa dự đoán DPCM

• Mã hóa dự đoán DPCM Interframe video

Interframe là chuỗi các frame có mối quan hệ về mặt thời gian, do đóviệc mã hóa interframe giúp giảm độ dư thừa về mặt thời gian Cácframe liên tiếp nhau trong mỗi chuỗi frame nhìn chung khá giốngnhau Do đó ta có thể sử dụng đặc điểm này để dự đoán Để tái hiện

sự lặp lại tương tự giữa các frame người ta sử dụng khái niệm “bùchuyển động” là sự đo lường sự sai khác giữa mối khối điểm ảnhgiữa các khung hình Việc khôi phục ảnh chính là việc sử dụng vectorchuyển động giữa các khối ảnh tương tự giữa khung hiện tại vàkhung tham chiếu với sai số chuyển động (phần sai lệch nhỏ nhấtgiữa hai ảnh)

3. Hãy cho biết bộ dự đoán DPCM được áp dụng như thế nào trong nén ảnh theo chuẩn JPEG (Câu 2 , 2)– Đề 3).

Trả lời:

Trong nén ảnh JPEG, bộ dự đoán DPCM được sử dụng để mã hóa cácthành phần 1 chiều DC Ở đây thành phần 1 chiều DC là dữ liệu củaphần tử đầu tiên của mỗi block sau lượng tử hóa được quét zig-zag Việc

sử dụng DPCM chính là tìm ra sự sai khác giữa giá trị của thành phần 1chiều DC của block hiện tại với giá trị của thành phần 1 chiều DC củablock trước đó Dữ liệu sau quá trình DPCM sẽ được mã hóa Huffman

4. Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong mã hóa tiếng nói thoại? Giải thích sơ đồ mã hóa DPCM trong mã hóa tiếng nói thoại (Câu 1, 3 – Đề 2)

Trả lời: (Câu này khó trình bày quá!!!)

+ Bộ dự đoán được thực hiện như thế nào khi áp dụng DPCM trong quá trình mã hóa tiếng nói thoại: Do tính chất của âm thanh tiếng nói

Trang 9

thoại, độ tương quan giữa các mẫu tín hiệu là tương đối lớn Do đó,người ta áp dụng phương pháp dự đoán DPCM dựa trên dự đoán mẫutín hiệu hiện tại dựa trên các mẫu tín hiệu tại thời điểm trước đó Cụ thể,trong mã hóa tiếng nói thoại, người ta thường sử dụng phương phápDPCM dựa trên dự đoán tuyến tính (Linear Prediction).

+ Giải thích sơ đồ mã hóa DPCM trong mã hóa tiếng nói thoại:

(Vẽ lại hình ảnh trong slide 13 – chapter 3: sơ đồ DPCM tuyến tính)

Giải thích:

Mẫu tín hiệu x[n] đầu vào, bộ dự đoán dự đoán mẫu p[n] dựa trên cácmẫu trước đó Bộ lượng tử hóa tiến hành lượng tử hóa sự sai khác giữax[n] và p[n] chính là d[n] Sai số dự đoán d[n] sẽ được mã hóa và truyền

đi trên kênh truyền, đồng thời được kết hợp với p[n] làm đầu vào để bộ

dự đoán tiến hành dự đoán các mẫu sau đó

5. Hãy giải thích sơ đồ mã hóa dự đoán được áp dụng trong quá trình nén video, và trình bày một thuật toán dự đoán trong nén video theo MPEG-1 (Câu 2,3 – Đề 3)

Trả lời:

Sơ đồ mã hóa dự đoán được áp dụng trong quá trình nén video (Theo t,

sơ đồ với yêu cầu của câu hỏi này mình sẽ sử dụng sơ đồ ở slide 12 –chapter 3) vì: trong nén video thì DPCM được sử dụng trong nén thànhphần 1 chiều DC ở intraframe và nén sự sai khác giữa các block ở framehiện tại với block của frame tham chiếu Do đó, sử dụng sơ đồ dạngClosed – Prediction là hợp lý Việc trình bày thì sẽ giải thích quá trìnhthực hiện sẽ giải thích dựa trên 2 quá trình trong nén video: nénintraframe và nén interframe

• Nén intraframe: Dữ liệu đầu vào của sơ đồ này là thành phần 1 chiều

DC của khối điểm ảnh sau khi được biến đổi DCT Thành phần 1chiều của khối (block) hiện tại sẽ được so sánh với thành phần 1 chiềucủa khối (block) trước đó Sự sai khác của hai thành phần 1 chiều sẽđược mã hóa

• Nén interframe: Dữ liệu đầu vào của sơ đồ này là khối điểm ảnh(block) của các frame Nếu khối điểm ảnh ở frame hiện tại được tìmthấy ở frame tham chiếu, ta sẽ tìm được sự sai khác giữa hai khốiđiểm ảnh này đó là một block mới là hiệu của 2 block được nêu ởtrên Block sai khác này sẽ được biến đổi DCT, lượng tử hóa và cũngđược mã hóa DPCM thành phần một chiều tương tự như nén

Trang 10

intraframe Ngoài ra, sự sai khác về vị trí giữa hai block của framehiện tại và frame tham chiều cũng được mã hóa dựa theo nguyên tắccủa mã hóa DPCM.

+ Trình bày một thuật toán dự đoán trong nén video theo chuẩn MPEG-1 (thật sự thì cái này nó quá chung chung, không hiểu là nên nêu

phần nào cả vì nó có nhiều thứ: thuật toán ước lượng chuyển động,thuật toán so sánh khối, Nếu nói thuật toán dự đoán thì không hiểu lànên nêu về cái gì… Bó tay!!!) Đây là 1 ý, có thể chém theo cái này, hoặcnêu hẳn quá trình thực hiện ước lượng chuyển động và bù chuyển độngMPEG-1 là sự phối hợp của các kỹ thuật ước lượng chuyển động và bùchuyển động Về bản chất thì, dự đoán bù chuyển động ở MPEG-1 chính

là khối tiên đoán trong dự đoán DPCM Tuy nhiên về mặt tính toán, độphức tạp của giải thuật, dự đoán chuyển động sẽ tốn chi phí cao, nhưng

bù lại, độ chính xác dự đoán lại cao hơn nhiều so với các giải thuật dựđoán DPCM

6. Nén ảnh theo chuẩn JPEG, phương pháp mã hóa dự đoán DPCM được kết hợp với phương pháp mã hóa dựa trên phép biến đổi DCT như thế nào? (Câu 1,4 – Đề 2)

Trả lời:

Theo chuẩn nén ảnh JPEG, mỗi ảnh được chia thành các block có kíchthước 8x8 pixels, mỗi block này qua phép biến đổi DCT Đây là quá trìnhbiến đổi tập các giá trị pixel của ảnh trong miền không gian sang một tậpcác giá trị khác trong miền tần số sao cho các hệ số trong tập giá trị mớinày có tương quan giữa các điểm ảnh gần nhau nhỏ hơn Nhiệm vụ củaquá trình biến đổi DCT là tập trung năng lượng vào một số ít các hệ sốbiến đổi tương ứng với vùng tần số thấp, dẫn đến có thể cho các hệ sốvùng tần số cao về gần 0 hoặc bằng 0 mà không ảnh hưởng đáng kể đếnchất lượng ảnh Mỗi block sau khi qua biến đổi DCT sẽ là một ma trận8x8 hệ số thực, hệ số đầu tiên của ma trận này được gọi là thành phần 1chiều DC, các hệ số còn lại được gọi là hệ số xoay chiều AC

Phương pháp mã hóa dự đoán DPCM được sử dụng trong chuẩn JPEGchính là việc mã hóa dự đoán các thành phần 1 chiều DC của mỗi blockhiện tại so với thành phần 1 chiều DC của block trước đó

7. Hãy giải thích nguyên lý bộ dự đoán được áp dụng trong nén ảnh JPEG khác với bộ dự đoán được áp dụng trong nén video theo chuẩn

Trang 11

MPEG như thế nào? Và tại sao? (Câu 2,4 – Đề 3)

Trả lời:

Quá trình nén ảnh video gồm các kỹ thuật chủ yếu:

• Nén ảnh video không dùng kỹ thuật ước lượng chuyển động và bùchuyển động Phương pháp này ứng dụng để nén intraframe Nénchuỗi ảnh video bằng cách nén liên tiếp các ảnh độc lập như JPEG vớiđiều kiện đảm bảo tốc độ khung hình -> tỷ số nén không cao

• Nén ảnh video dùng kỹ thuật ước lượng và bù chuyển động Phươngpháp này dùng để nén interframe (các mặt phẳng ảnh cùng 1 cảnh)

Dự đoán giữa các frame kết hợp kỹ thuật bù chuyển động Các frameliên tiếp trong cùng 1 cảnh của video có sự tương quan cao theo thờigian Sự tương quan thể hiện bởi sự dịch chuyển của các đối tượngtrong cùng 1 cảnh Do đó, thay vì mã hóa toàn bộ ảnh, người ta chỉ

mã hóa vector chuyển động và ảnh sai số dự đoán -> tỷ số nén cao

2. Giả thiết video số được nén theo chuẩn MPEG-1 có: 352x240 pixels, 30 frame/s, hệ màu YcrCb, cấu trúc số hóa 4:2:2, đạt được tốc độ dòng bit sau nén là 1,2 Mbps Hãy tính tỷ số nén dòng dữ liệu trong trường hợp này Tại sao cấu trúc số hóa 4:2:2 hoặc 4:2:0 vẫn cho phép đảm bảo chất lượng video số? (Câu 1,2 – Đề 3)

Cấu trúc số hóa 4:2:2 hoặc 4:2:0 vẫn cho phép đảm bảo chất lượng video

số vì: trong nén video số, không gian màu RGB được chuyển đổi sang

Trang 12

không giản màu YcrCb hoặc YUV theo các cấu trúc số hóa 4:2:2, 4:2:0,…Các cấu trúc số hóa này giúp giảm kích thước của dữ liệu video số trongquá trình lưu trữ và truyền tải dữ liệu Ngoài ra, theo kết quả nghiêncứu về độ cảm thụ của mắt người thì mắt người nhạy cảm với sự thayđổi của độ chói hơn là sự thay đổi về màu sắc Do đó, việc sử dụngkhông gian màu YcrCb hoặc YUV vẫn tạo ra độ cảm thụ tốt mà lại tănghiệu quả nén Vì vậy, các cấu trúc số hóa này được sử dụng trong nénvideo và cho phép đảm bảo chất lượng video số.

3. Biết các tham số trong cấu trúc số liệu của video số trên là n = 12, và m

= 3 trong đó n là số frame trong một GOP và m là khoảng cách dự đoán trong kỹ thuật mã hóa dự đoán theo chuẩn MPEG, hãy cho biết các tham số này ảnh hưởng đến chất lượng video như thế nào Trong trường hợp này, hãy cho biết thời gian tối đa để nén một frame I, để nén frame P là bao nhiêu?

Các tham số trong cấu trúc số liệu của video số ảnh hưởng đến chấtlượng video, vì kích thước của GOP khác nhau sẽ thu được các chấtlượng khác nhau, nói cách khác, kích thước của GOP ảnh hưởng tới tốc

độ ghi dữ liệu (bit rate) Do đó, người thiết kế có thể tùy chỉnh chấtlượng video dựa trên tùy chỉnh kích thước của GOP sao cho thích hợpvới ứng dụng

Theo bài ra, n = 12, m = 3, ta có thể biểu diễn chuỗi các frame trong GOPnày như sau:

• N = 12 => có 12 frame trong 1 GOP

• M=3 => giữa frame I và frame P hoặc giữa hai frame P liên tiếp sẽ có 2frame B

I B B P B B P B B P B B

Với tốc độ khung hình là 30 frame/s, tức là 1 giây sẽ có 3 frame I, và 7frame P

Trang 13

 Để nén 1 frame I mất tối đa 1/3 giây.

 Để nén 1 frame P mất 1/3 : 3 = 1/9 giây

Câu số 4: Xử lý dữ liệu đa phương tiện và nén âm thanh (Đề 4)

1. Hãy cho biết vấn đề xử lý dữ liệu đa phương tiện trong truyền thông

đa phương tiện gồm các kỹ thuật xử lý chủ yếu gì? Tại sao? (Câu 1,1 –

• Truyền tín hiệu qua mạng

• Đồng bộ dữ liệu đa phương tiện

Còn để trả lời tại sao cần các kĩ thuật trên thì nêu mục đích của từng kĩthuật

2. Hãy cho biết tại sao phương pháp nén âm thanh hiện nay thường được chia thành 2 loại chính: mã hóa nén tiếng nói thoại và mã hóa âm thanh dải rộng (Câu 1,2 – Đề 4)

Trả lời:

Câu này chắc lập cái bảng phân biệt đặc điểm khác nhau giữa 2 loại âmthanh: thoại vs Hi-Fi Nếu giải thích kiểu nôm na thì dễ ợt, còn dùng từchuyên môn thì quá khó giông kiểu ảnh đen trắng vs ảnh màu vậy =))

3. Tại sao các chuẩn nén của ITU (ví dụ G728, G729,…, GSM) thường được dùng trong các dịch vụ VOIP hơn là chuẩn nén âm thanh MP3 hiện nay? Trình bày nguyên lý phương pháp mã hóa tiếng nói CELP Xét ví dụ tiếng nói được mã hóa theo chuẩn G.729, hãy xác định tỷ số nén dòng cụ thể trong trường hợp này (Câu 1,3 – Đề 4)

Trả lời:

• Các chuẩn nén của ITU (ví dụ G728, G729,…, GSM) thường đượcdùng trong các dịch vụ VOIP hơn là chuẩn nén âm thanh MP3 hiệnnay vì:

Tín hiệu âm thanh được chia thành 2 loại theo 2 dải tần là:

- Âm thanh dải tần cơ sở: là tiếng nói thoại có dải tần từ 30Hz đến4kHz

Trang 14

- Âm thanh dải tần rộng: là tiếng hát, âm nhạc,… có dải tần từ100Hz đến 20kHz.

Theo đó, dữ liệu truyền trong các dịch vụ VOIP chủ yếu là tiếng nóithoại có một số đặc điểm khi số hóa như sau:

- Giới hạn dải phổ trong khoảng 4kHz

Ngoài ra, chuẩn MP3 là một trong những chuẩn nén âm thanh dựatrên phương pháp SBC được sử dụng chủ yếu trong mã hóa âmthanh dải rộng Do đó, phương pháp này được xây dựng dựa trên môhình cảm thụ âm thanh thính giác con người Âm thanh khi được néntheo chuẩn MP3 có thể lấy tần số lấy mẫu là 32kHz, 44.1 kHz,48kHz… tốc độ bit rất đa dạng (32kbps, 48kbps…) Do đó MP3 khôngthích hợp sử dụng trong các ứng dụng VOIP

• Phương pháp mã hóa CELP:

Bên phát và bên thu đều có một bảng mã (codebook) lưu trữ các tínhiệu kích thích tương ứng với một tập tham số đầu vào của tín hiệutiếng nói thoại

Tại bên phát, tiếng nói nguồn sẽ được cho qua bộ phân tích tín hiệu

để thu được các tham số đặc trưng cho tiếng nói Các tham số này sẽđược đem so sánh với một danh sách tín hiệu kích thích trongcodebook để tìm ra tín hiệu có khả năng tạo dạng sóng giống tín hiệuban đầu nhất, khi đó, bên phát sẽ chỉ gửi đi những số thứ tự của tínhiệu kích thích tìm ra được ở trên

Tại bên thu, khi nhận được số thứ tự của dạng sóng trên sẽ đem tínhiệu kích thích đã lưu trữ sẵn để tái tạo lại tiếng nói ban đầu

Trong CELP có khái niệm codebook: đây là một tập các vector (hay từ

Trang 15

mã) kích thích và mỗi vector có độ dài cố định Các vector này đượctạo thành từ các dãy nhiễu Gauss.

• Xét ví dụ tiếng nói được mã hóa theo chuẩn G.729, xác định tỷ số néntốc độ dòng cụ thể trong trường hợp này: (không chắc chắn đúng!!!)

- Xét với tín hiệu tiếng nói: Tần số lấy mẫu 8kHz, cần 8 bit để lượng

tử hóa một mẫu Suy ra, tốc độ dòng là: 8*8 = 64kbps

- Theo chuẩn G.729 (Slide 15 – Chương 4 – Truyền thông đaphương tiện): tốc độ dòng là: 8kbps

- Vậy tỷ số nén trong trường hợp này là: 64:8 = 8:1

Câu số 5: Đề 1

Xét dữ liệu video số theo chuẩn MPEG-1, có các tham số sau:

- Ảnh video: 352x240 pixels, 30 frame/s, hệ màu YcrCb, cấu trúc số hóa 4:2:2

- Audio: 2 channels, 48k sample/s, 16 bits/sample

1. Hãy tính dung lượng dữ liệu video trên đã giải nén cần cho 10 phút thể hiện.

Trả lời:

(Ở câu hỏi này, theo t có hai hướng suy nghĩ)

• Dung lượng dữ liệu cho 10 phút thể hiện chính bằng tổng dunglượng của video và audio Nhưng dung lượng video ở đây vẫn đượctính với cấu trúc số hóa 4:2:2 Dung lượng ảnh video cho 10 phút là:352x240x30x16x10x60 = 2.83 Gbyte Dung lượng audio là:2x48x1000x16x10x60 = 0.107 Gbyte Dung lượng video là: 2.83 + 0.107

15 và m = 3, trong đó n là số frame trong một GOP và m là khoảng cách

dự đoán trong kỹ thuật mã hóa theo chuẩn MPEG Hãy tính tỷ số nén tốc độ dòng bit đạt được trong trường hợp này?

Trả lời

Trang 16

Tốc độ dòng bit trước nén theo là:

+ Với cấu trúc số hóa là 4:2:0 => cần 12 bit để mã hóa 1 pixel

Tốc độ dòng bit trước nén là: 352x240x30x12 = 30.42 Mbit/s

Tỷ số nén dòng bit là: 30.42 : 1.2 = 25 : 1

+ Với tham số cấu trúc số liệu là n = 10, m = 2 Nhận thấy tham số n giảm (từ 15xuống 10), tức là trong chuỗi frame sẽ có nhiều frame I hơn => tốc độ dữ liệusau nén tăng (có thể là tăng lên 15/10=3/2=1.5 lần) => tỷ số nén giảm (có thể làgiảm 1.5 lần)

Câu số 6: Chuẩn MPEG-1 (Câu 2 – Đề 6)

1. Hãy giải thích quá trình xử lý dữ liệu trong sơ đồ nén video theo chuẩn MPEG-1 dưới đây Sơ đồ này có yêu cầu xử lý thời gian thực như thế nào?

Trả lời:

+ Quá trình xử lý dữ liệu trong sơ đồ mã hóa video theo chuẩn 1

Định dạng
Số trang	33
Dung lượng	1,73 MB