• Căn cứ vào biên độ năng lượng hay tần số tín hiệu trong segment• Các hệ số của bộ lọc G, {apk}.. Nhược điểm của LPC: được phân loại thành hữu thanh và vô thanh chuỗi xung có chu kỳ tạo
Trang 1Đề cương xử lý âm thanh – hình ảnh
MỤC LỤC
Trang 2Câu 1: Hệ thống mã hóa thoại? Các phương pháp mã hóa thoại: mã hóa dạng sóng, mã hóa tham số, mã hóa lai? Cho ví dụ
a. Mã hóa dạng sóng
Mã hoá dạng sóng: chia làm hai loại chính
sai (DPCM và điều biến xung mã vi sai thích nghi (ADPCM)
biến đổi thích nghi ATC (Adaptive Transform Coding)
thành tín hiệu số trước khi truyền đi
- Độ phức tạp, giá thành, độ trễ công suất tiêu thụ thấp
b. Mã hóa tham số: hay còn gọi là mã hóa vocoder Các tín hiệu được giả
thiết được tạo ra từ 1 mô hình (giống mô hình tạo tiếng nói từ cơ quan phát âm của con người), mô hình này được điều khiển bởi 1 vài tham số chức năng
Trong quá trình mã hóa, những tham số của mô hình được suy ra từ tín hiệu thoại đầu vào
+ không bảo toàn dạng sóng ban đầu của tín hiệu
+ ví dụ: mã hóa dự đoán tuyến tính LPC, mã hóa dự đoán tuyến tính kích thích hỗn hợp MELP
Nguyên lý: tín hiệu PCM đầu vào được phân thành các khung thoại (N mẫu thoại), khoảng cách giữa các khung là N mẫu
Ưu:
+ có hiệu quả đối với âm thanh thoại
Trang 3Có thể cung cấp thoại số với tốc độ nhỏ hơn 2kbps
Nhược:
+Chất lượng phụ thuộc nhiều vào mô hình thoại
+ Phức tạp hơn mã hóa dạng sóng
+ Chỉ xử lý được tiếng nói của con người
+ Tiếng nói được tái tạo khác nhiều so với tiếng nói tự nhiên của con người
c. Mã hóa lai:
- Có thể đạt được chất lượng thoại tốt tại các tốc độ bit 2 – 16Kbps
Mã hóa LPC:
Quá trình mã hóa:
• Tín hiệu tiếng nói được lấy mẫu ở tốc độ fs = 8000 mẫu/s
Trang 4• Căn cứ vào biên độ (năng lượng) hay tần số tín hiệu trong segment
• Các hệ số của bộ lọc G, {ap(k)}
Quá trình giải mã:
Xác định tín hiệu kích thích và tần số pitch:
Cho tín hiệu kích thích qua bộ lọc tạo ra tín hiệu thoại
LPC Vocoder 2.4Kbps
Mô hình bộ lọc được biểu diễn dưới dạng vector:
của tín hiệu thoại), tại tần số lấy mẫu 8000 Hz, chu kỳ 20 ms tương
đương với 160 mẫu Do vậy tín hiệu thoại được phân chia thành các khung
có độ dài 20 ms (50 khung/sec)
Trang 5- Mô hình này tương đương với
• Phân tích LPC (LPC Analysis): Cho S, tìm A tốt nhất
• Tổng hợp LPC (LPC Synthesis): Cho A, tổng hợp S
Nhược điểm của LPC:
được phân loại thành hữu thanh và vô thanh
chuỗi xung có chu kỳ tạo kích thích không phù hợp với thực tế
trong khi một chuỗi xung dùng để kích thích bộ lọc lại tổng hợp các hệ số
có được từ việc phân tích LP, do đó vi phạm nền tảng của mô hình AR
Câu 2: Mô hình Psychacoustic Phương pháp mã hóa âm thanh Các chuẩn
mã hóa âm thanh – MP3
Sự cảm thụ của tai người đối với âm thanh:
120dB Người nghe có thể phát hiện sự thay đổi độ ồn âm thanh khi tín hiệu bị thay đổi khoảng 1dB (biên độ thay đổi 12%)
Trang 6âm thanh xuất hiện cả trước lẫn sau khi tăng âm lượng có thể bị che khuất.
• Mặt nạ tần số
+ Cho dù 1 thành phần tín hiệu có mức áp suất âm cao hơn mức ngưỡng nghe, thì nó vẫn có thể bị che khuất bởi các thành phần có mức áp suất âm lớn hơn màgần tín hiệu đó trong miền tần số
+ Mỗi một thành phần trong một tín hiệu có thể lấy ra “phần ngưỡng nghe” qua các thành phần bên cạnh
+ Nếu như thành phần tần số bên cạnh bị che phủ bởi “phần ngưỡng nghe” này thì các thành phần tín hiệu này sẽ không nghe được
Chuẩn mã hóa âm thanh MP3 (MPEG – 1 layer 3)
độ bit thấp
mẫu Ở tần số 48Khz, mỗi khung mang 24ms âm thanh
tương thích
Trang 7Câu 3: Nén ảnh JPEG và JPEG 2000
a. Nén ảnh JPEG
cũng được sử dụng cho nhiều ứng dụng với ảnh động bởi vì nó cho chất lượng ảnh khôi phục khá tốt và ít tính toán hơn so với nén MPEG
b. Nén ảnh JPEG 2000
được một dòng bit nén đơn
Transform
Trang 8+ Xử lý trước biến đổi: đảm bảo dữ liệu đưa vào nén ảnh có dạng đối xứng qua 0
+ Biến đổi liên thành phần: loại bỏ tính tương quan giữa các thành phần của ảnh, chuyển từ RGB sang YCrCb sử dụng ICT và RCT, giúp tăng hiệu quả nén.+ Biến đổi thuận riêng thành phần: Sử dụng biến đổi wavelet Chia tín hiệu thành các băng con và mỗi băng sẽ được mã hóa riêng rẽ
+ Lượng tử hóa: Cho phép đạt tỉ lệ nén cao hơn bằng cách thể hiện các giá trị biến đổi với độ chính xác tương ứng cần thiết với mức chi tiết của ảnh cần nén.Các hệ số biến đổi sẽ được lượng tử hoá theo phép lượng tử hoá vô hướng.+ Mã hóa: sử dụng phổ biến 2 phương pháp SPIHT (mã hóa phân cấp theo vùng) và EZW (Embedded Zerotree Wavelet Encoder)
Giải nén: làm ngược lại
Các ưu điểm của JPEG 2K
giải, các thành phần màu có tính định vị không gian
tổn thất)
có thể lên tới 200:1
So sánh JPEG vs JPEG2K
DWT-Discrete Wavelet TransformPhương pháp mã hóa entropy Huffman Mã hóa SPIHT và EZW
Trang 9Tỷ lệ xuyên âm cao Xuyên âm thấp
Không có khả năng mã hóa ảnh với tỷ
lệ nén khác nhau theo từng vùng
Có khả năng mã hóa ảnh với tỉ lệ nén theo từng vùng khác nhau (ROI)
Câu 4: Các mô hình lấy mẫu YCbCr:
- 4:4:4: Tín hiệu chói và màu được lấy mẫu tại tất cả các điểm lấy mẫu trên
dòng tích cực của tín hiệu video Cấu trúc lấy mẫu trực giao Tần số chói =tần số màu
- 4:2:2: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng
tích cực của tín hiệu video Tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng nửa tần số lấy mẫu tín hiệu chói
- 4:2:0: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng
tích cực của tín hiệu video Cách một điểm lấy mẫu một tín hiệu màu Tại dòng chẵn chỉ lấy mẫu tín hiệu màu Cr, tại dòng lẻ lấy mẫu tín hiệu Cb Như vậy, nếu tần số lấy mẫu tín hiệu chói là fD, Thì tần số lấy mẫu tín hiệu màu sẽ là fD/2
- 4:1:1: Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên dòng
tích cực của tín hiệu video Tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng một phần tư tần số lấy mẫu tín hiệu chói Như vậy, nếu tần số lấy mẫu tín hiệu chói là fD, thì tần số lấy mẫu tín hiệu màu CR và CB sẽ
là fD/4
Câu 5: Sơ đồ khối và nguyên lý hoạt động của bộ mã hóa và giải mã
MPEG Các loại ảnh, cấu trúc dòng bit…
Mã hóa MPEG:
Trang 10- Dữ liệu từ các khối ảnh (macroblocks) cần được mã hoá sẽ được đưa đến
cả bộ trừ (Subtractor) và bộ đoán chuyển động (Motion Estimator)
các khối ảnh đã được đưa vào trước đó và được lưu lại như là các ảnh dùng để tham khảo (Reference Picture)
giống nhất với khối ảnh mới này Bộ đoán chuyển động sau đó sẽ tính toán vector chuyển động (Motion Vector), vector này sẽ đặc trưng cho sự dịch chuyển theo cả hai chiều dọc và ngang của khối ảnh mới cần mã hoá
so với ảnh tham khảo Chúng ta lưu ý rằng vector chuyển động có độ phângiải bằng một nửa do thực hiện quét xen kẽ
chúng thường được gọi là các khối tiên đoán (Predicted macroblock) tới
bộ trừ để trừ với khối ảnh mới cần mã hoá (thực hiện trừ từng điểm ảnh tương ứng tức là Pixel by pixel) Kết quả là ta sẽ được các sai số tiên đoán (Error Prediction) hoặc tín hiệu dư, chúng sẽ đặc trưng cho sự sai khác giữa khối ảnh cần tiên đoán và khối ảnh thực tế cần mã hoá
được sau biến đổi DCT sẽ được lượng tử hoá để làm giảm số lượng các bits cần truyền Các hệ số này sẽ được đưa tới bộ mã hoá Huffman, tại đây
số bits đặc trưng cho các hệ số tiếp tục được làm giảm đi mộtcách đáng
kể Dữ liệu từ đầu ra của mã hoá Huffman sẽ được kết hợp với vector chuyển động và các thông tin khác (thông tin về I, P, B pictures) để gửi tới
bộ giải mã
Giải mã MPEG:
Trang 11- Quá trình khôi phục ảnh tại bộ giải mã là hoàn toàn ngược lại Từ luồng
dữ liệu nhận được ở đầu vào, vector chuyển động được tách ra và đưa vào
bộ bù chuyển động (Motion Compensator), các hệ số DCT được đưa vào
bộ biến đổi ngược IDCT để biến tín hiệu từ miền tần số thành tín hiệu ở miền không gian Đối với P pictures và B pictures, vector chuyển động sẽ được kết hợp với các khối tiên đoán (predicted macroblock) để tạo thành các ảnh tham khảo
Các loại ảnh:
- Ảnh I:
+ (Intra-pictures) là ảnh được mã hoá một cách độc lập mà không cần tham khảo tới các ảnh khác Hiệu quả nén tín hiệu đạt được do loại bỏdư thừa về không gian mà không có yếu tố thời gian tham gia vào quá trình + I-pictures được dùng một cách tuần hoàn để tạo thành các điểm tựa cho dòng dữ liệu trong quá trình giải mã
- Ảnh P (Predictive – pictures):
+ có thể sử dụng các ảnh I hoặc P ngay sát phía trước nó để bù chuyển động và chính nó cũng có thể được dùng để tham khảo cho việc tiên đoán các ảnh khác tiếp theo
+ Mỗi khối ảnh trong P-picture có thể được mã hóa theo kiểu tiên đoán (predicted) hoặc được mã một cách độc lập (intra-coded)
+ sử dụng cả nén theo không gian và thời gian, hiệu quả nén của
P-pictures được tăng lên một cách đáng kể so với I-P-pictures
- Ảnh B
+ có thể sử dụng các ảnh I hoặc P phía trước hoặc phía sau nó cho việc bù chuyển động, cho kết quả nén cao nhất
+ Mỗi khối trong B-pictures có thể được tiên đoán theo chiều ngược, xuôi,
cả hai hướng hoặc được mã một cách độc lập Để có thể tiên đoán ngược
từ 1 bức ảnh phía sau nó, bộ mã hóa sẽ tiến hành sắp xếp lại các bức ảnh theo 1 thứ tự mới để truyền đi, do đó có thể tạo ra độ trễ
Cấu trúc dòng bit gồm các thành phần:
Trang 12+ Khối: là block gồm 8x8 pixel tín hiệu chói và tín hiệu màu.
+ Tổ hợp khối MB (macro block): gồm các khối Y, Cb và Cr có kích thước 16 x
16 pixel 1 MB có thông tin về 4 khối Y, 1 khối Cb, 1 khối Cr theo chuẩn lấy mẫu 4:2:0
+ Mảng (Slice): gồm nhiều MB kề nhau, Kích thước lớn nhất của mảng có thể bao gồm toàn bộbức ảnh và kích thước nhỏ nhất của mảng là một
macroblock Slice header mang thông tin về vịtrí của mảng trong toàn bộ ảnh,
và hệ số lượng tử dùng để xác định ma trận lượng tử trong quá trình giải mã slice
+ Ảnh (Khung): gồm nhiều slice ghép lại với nhau Có 3 loại ảnh I, P, B Picture header chứa thông tin về: thứ tự ảnh trong nhóm ảnh (thông tin này dùng đểsắp xếp các lại thứtự ảnh ở bộ giải mã ), loại ảnh, kích thước vùng tìm kiếm vector chuyển động
+ Nhóm ảnh (GOP): gồm 1 tập nhiều ảnh bắt đầu từ ảnh I, sau đấy là các ảnh
P, B Có 2 loại GOP là GOP đóng và GOP mở GOP được xác định bằng 2 tham số M, N GOP header chứa mã xác định thời gian của ảnh đầu tiên trongnhóm
+ Chuỗi video ảnh (Sequence of pictures): Bắt đầu bằng sequence header, sau
đó là một hoặc nhiều GOP, cuối cùng là từmã "end-of-sequence" Sequence header chứa đựng các thông sốnhư: kích thước của ảnh, khổ ảnh, tần số ảnh, tốc độbit của dòng video số, tần số ảnh và kích thước bộnhớ đệm
Câu 6: Hệ thống truyền hình chất lượng cao với số dòng z=1080, khổ ảnh 16:9, tần số quét là 60 mành/giây (quét xen kẽ) Tín hiệu video được số hóa với độ phân giải giống nhau theo chiều ngang và chiều dọc Ảnh được lấy mẫu theo tiêu chuẩn 4:2:2 Mức lượng tử là 256 cho thành phần chói và
128 cho hai thành phần màu Tìm khối lượng thông tin số nhận được sau khi số hóa chương trình truyền hình có thời gian là 2 giờ.
Giải:
Trang 13+ 256 mức cho chói => 8 bit biểu diễn chói, 128 mức cho màu => 7 bit biểudiễn màu
+ Kích thước ảnh 16:9, số dòng z= 1080 => Số cột: (108016)/9= 1920
=> Số điểm ảnh: (19201080) pixel
+ 1 điểm ảnh sử dụng: 8 bit chói, 14 bit màu (2 màu) => 22 bit
+ Tần số quét: 60/2=30(Hz) (do quét xen kẽ)
+ Lấy mẫu theo chuẩn: 4:2:2 => Tần số quét cho màu= 1/2 Tần số quét chochói
=> Dung lượng trong 2h: 10801920(8.30 + 7.30/2 + 7.30/2).2.3600 =…
Câu 7 : Cho chuỗi video dài 90 phút , được mã hóa theo chuẩn H263 và lưu ảnh theo kiểu PB, kích cỡ khung 4CIF, tốc độ quét 30 hình/s, biết rằng trung bình 2 khung I được nén trong 1 giây Chất lượng video yêu cầu tỷ số nén khung I là 10 :1, khung P gấp 2lần khung I, khung B gấp 2 lần khung
P Tính kích cỡ đoạn video Nếu sửu dung ALSL 2+ để download tính thời gian để tải đoạn video Cho ALSL: 24Mbps; 4CIF: (704576) cho Y,
(mode PB: ảnh P và B luôn đi cạnh nhau, có 2 khung I)
Tỷ số nén khung I: 10:1 => 2.(kích thước 1 khung)/10
Tỷ số nén khung P: 20:1 => 14.(kích thước 1 khung)/20
Tỷ số nén khung B: 40:1 => 14.(kích thước 1 khung)/40
Trang 14Câu 8: Giả sử, chúng ta có một ảnh mầu 24 bit với các thành phần mầu đỏ, xanh lá cây và xanh lơ và mỗi một thành phần mầu được mã hóa bởi 8 bit cho một điểm ảnh (pixel) Nếu chúng ta muốn giảm xuống thành ảnh màu 8 bít bởi lượng tử hóa đều và các thành phần mầu đỏ và xanh lá cây dùng 3 bit mã hóa cho mỗi thành phần và thành phần mầu xanh lơ được mã hóa bởi 2 bit Xây dựng bộ lượng tử dùng cho các thành phần mầu khác nhau Giả sử một điểm ảnh có các giá trị mầu (R, G, B) = (200, 150, 40) Xác định các giá trị mầu sau khi lượng tử hóa.
Bài 1: Nêu ý nghĩa phương pháp cân bằng lược đồ xám? Cho ảnh đầu vào I
có 10 mức xám Thực hiện cân bằng lược đồ xám ảnh I đã cho?
Trả lời: n=4x4=16 (ma trận I=4x4)
Trang 15xám nằm trong đoạn [0, 255] Dùng biến đổi s=log(1+r) để tìm ảnh đầura?
Bài 2: Tính số mức lượng tử hóa đều cho một tín hiệu hình sin có biên độ 3V cần được biến đổi thành dạng số sao cho nhận được tỷ số tín hiệu trên tạp âm lượng tử hóa không thấp hơn 27 dB
Với lượng tử hóa đều
:-, :-, =A=3(V)
) =10log
Thay vào giải ra được L= 63.33
Trang 16Bài 3 : Xác định số bit cần thiết để mã hóa cho các băng 7 và 9 ? Biết băng
8 che 12 dB ở băng 7, 15 dB ở băng 9 và tín hiệu gốc được mã hóa 8
ngưỡng nghe không cần mã hóa
nghe, và còn 20-12=8dB cần phải mã hóa
Bài 4: Xét chuỗi video được mã hóa sử dụng H.263 ở chế độ PB, có kích cỡ ảnh 4CIF, tốc độ 30 fps Chuỗi video được trình chiếu trong 90 phút Các tham số nén được cho như sau: trung bình có 2 ảnh I được mã hóa trong 1 giây Chuỗi video ở chất lượng yêu cầu có tỉ lệ nén trung bình ảnh I, P, B tương ứng là 10:1, 20:1, 40:1 Tính dung lượng của chuỗi video trên sau khi
mã hóa? Tính thời gian để tải đoạn video đó trong trường hợp sử dụng
ALSL2+?
Có fs=30frame/s; thời gian trình chiếu=90x60=5400(s)
Với cỡ ảnh 4CIF: (704x576) cho chói và (352x288) cho mầu
ALSL: 24Mbps
Trang 17Bài 5: Cho hệ thống LPC tổng quát như hình vẽ dưới đây:
Tính giá trị 10 mẫu tổng hợp đầu tiên tại đầu ra? Biết:
- Bộ dự đoán có bậc p=4 với các hệ số dự đoán: a1=1,793; a2=-1,401;
a3=0,566; a4=-0,147 Độ lợi G=2, độ dài chu kỳ pitch=60; giả thiết là
âm hữu thanh, u(m)=1 tại m=1 và u(m)=0 tại các giá trị m khác
Các điều kiện đầu =0 tại thời điểm bắt đầu của chu kỳ pitch
Công thức: , với G=2; (k)=1 với k=1, (k)=0 với gt khác
Trang 18dự đoán của bộ dự đoán bậc 2 (ai, i=1,2)? Biết khối dữ liệu thoại có các giá trị tự tương quan như sau: R(0)=1; R(1)=0,6 và R(2)=-0,2 Cho
x[4]=0,5 và x[3]=-0,1 và giả thiết bộ dự đoán lỗi bình phương trung bình
có độ dài là 2 Tính giá trị dự đoán cho mẫu tín hiệu x[5]=?
Bài 6: Cho ảnh màu RGB với R=200, G=150, B=40 Xác định các thành phần Y, Cb, Cr cho ảnh theo mô hình Y, Cb, Cr? Giả sử với ảnh màu RGB
đã cho có các thành phần mầu được mã hóa 8 bit/pixel Nếu chúng ta muốn biểu diễn thành ảnh màu 8 bít sử dụng bộ lượng tử hóa đều với tỷ lệ
R, G, B tương ứng dùng 3, 3, 2 bit mã hóa Xác định các giá trị màu sau khi lượng tử hóa?
Thay giá trị của R,G,B vào rồi nhân ma trận bình thường kết quả
Trang 19Với mức R và G, ban đầu dùng 8bit => 256 mức biểu diễn (0->256) Giảm còn 3bit => có 8 mức biểu diễn các mức: => 1 khoảng lượng tử= 256/8= 32
Tương tự, với màu B, có 4 mức biểu diễn các mức: 1 khoảng lượng tử= 256/4= 64
=> Giá trị màu sau khi lượng tử: R= (192+224)/2=208, G= (128+160)/2=144, B= (0+64)/2=32
Trang 20a Biểu diễn ảnh S qua các ảnh cơ sở tìm đươc ở trên?
S’= T0,0.U0,0+ T0,1.U0,1+ T1,0.U1,0+ T1,1.U1,1
12 + 0 +0 +6.=
Bài 8: Cho một hệ thống truyền hình chất lượng cao với số dòng z=1080, tỷ
lệ khuôn hình 16:9, tần số quét là 60 mành/giây (quét đan xen) Tín hiệu video được số hóa với độ phân giải theo chiều ngang và chiều dọc giống nhau Mức lượng tử là 256 cho thành phần chói và 128 cho hai thành phần màu Tính khối lượng thông tin số có được sau khi thực hiện số hóa một chương trình truyền hình có thời gian là 2 giờ với khuôn dạng lấy mẫu : 4:2:0?
+ 256 mức cho chói => 8 bit biểu diễn chói, 128 mức cho màu => 7 bitbiểu diễn màu
+ Kích thước ảnh 16:9, số dòng z= 1080 => Số cột: (108016)/9= 1920
=> Số điểm ảnh: (19201080) pixel
+ 1 điểm ảnh sử dụng: 8 bit chói, 14 bit màu (2 màu) => 22 bit
+ Tần số quét: 60/2=30(Hz) (do quét xen kẽ)
+ Lấy mẫu theo chuẩn: 4:2:0 => Tần số quét cho màu= 1/2 Tần số quét chochói
=> Dung lượng trong 2h: 10801920(8.30 + 7.30/2 + 7.30/2).2.3600 =…
Bài 9: Xác định số bít trung bình cho 1 điểm ảnh ( bao gồm cả chói và màu).Biết rằng ảnh sử dụng chuẩn lấy mẫu 4:2:2 với 16 bít/mẫu và tỷ số nén của cảchói và màu 25.Cần bao nhiêu bít để lưu trữ nếu ảnh sử dụng chuẩn lấy mẫu4:2:0 độ phân giải chói 576x720, nếu tỷ số nén chói là 20 và tỷ số nén màu gấp
2 lần chói?Xác định phương pháp điều chế đơn giản dùng để truyền trong băngtần 2MHz, tần số 25hz ảnh được mã hóa theo định dang câu a ?