Hiện nay tại Việt Nam truyền hình độ phân giải cao vẫn là một khái niệm rất mới đối với người sử dụng.
Trang 1DANH MỤC CHỮ VIẾT TẮT
DANH MỤC CÁC BẢNG
DANH MỤC HÌNH VẼ
MỞ ĐẦU 1
CHƯƠNG 1: TỔNG QUAN HDTV 3
1.1.Khái niệm HDTV 3
1.1.1 Khái niệm và ưu điểm của HDTV [5] 3
1.1.2.Tỷ lệ khuôn hình [3] 3
1.1.3.Đặc tính quét ảnh 4
1.1.4.Độ phân giải hình và băng thông tín hiệu 5
1.2.Lịch sử và xu hướng phát triển [5] 7
1.2.1 HDTV tại Nhật Bản 7
1.2.2 HDTV tại Mỹ 8
1.2.3 HDTV tại châu Âu 9
1.3.Mô hình tổng quan của hệ thống HD 11
1.3.1.Hệ thống thiết bị trung tâm (Master Headend) 11
1.3.2.Hệ thống mạng phân phối tín hiệu 12
1.3.3.Thiết bị đầu cuối thuê bao 12
CHƯƠNG 2: CÁC CÔNG NGHỆ VÀ KỸ THUẬT ĐƯỢC SỬ DỤNG TRONG HDTV 13
2.1.Tần số lấy mẫu và cấu trúc lấy mẫu 13
2.2.Lượng tử hoá 14
2.3.Nén video số bằng MPEG [3] 16
2.3.1.Tổng quan nén MPEG 16
2.3.2.Nguyên lý nén Video 17
2.3.3.Nén trong ảnh 18
2.3.4.Nén liên ảnh 19
2.4.Nén MPEG 4 [3] 21
2.4.1.Tổng quan về MPEG 4 21
2.4.2 MPEG 4 Profile 26
2.4.3 MPEG 4 Visual (Part 2) 30
2.4.4 MPEG 4 AVC (Part 10)/ H264 34
2.5.Nén HDTV 41
2.6.Chuyển đổi âm thanh tiêu chuẩn SD sang âm thanh tiêu chuẩn HD 44
CHƯƠNG 3: TRUYỀN DẪN HDTV 45
3.1.Phát HDTV qua vệ tinh 46
3.1.1 Phát sóng theo chuẩn DVB-S 46
3.1.2 Chuẩn DVB-S2 [4] 47
3.1.3 Phát HDTV qua vệ tinh sử dụng DVB-S2 50
3.2.Phát HDTV qua sóng mặt đất 51
3.2.1 Chuẩn DVB-T 52
3.2.2 Chuẩn DVB-T2 [4] 53
3.3.Phát HDTV qua mạng cáp 64
Trang 23.3.2 Giới thiệu DVB-C2[4] 69
3.3.3 Kiến trúc hệ thống DVB-C2 70
3.4.Phát HDTV qua IP 80
CHƯƠNG 4: MỘT SỐ KẾT QUẢ MÔ PHỎNG 82
4.1.Mô hình mô phỏng 82
4.1.1.Mô hình hệ thống DVB-T 82
4.1.2.Mô hình hệ thống DVB-T2 83
4.1.3.Mô hình hệ thống DVB-S2 84
4.2.Đánh giá một số kết quả mô phỏng 84
4.2.1.Hệ HDTV sử dụng chuẩn DVB-T 84
4.2.2.Hệ thống DVB-S2 85
4.2.3.Hệ thống DVB-T2 86
CHƯƠNG 5: ỨNG DỤNG TRIỂN KHAI HDTV TẠI VIỆT NAM 87
5.2.1.Kỹ thuật De-interlacing [6] 89
5.2.2.Kỹ thuật upconvesion [6] 92
KẾT LUẬN: 94
Trang 3MỞ ĐẦU
HDTV (High-definition television) là hệ thống truyền hình số quảng bá có
độ phân giải cao cho hình ảnh đẹp, sắc nét, màu sắc đa dạng phong phú kết hợpvới hệ thống âm thanh số trung thực, đa kênh tạo ra một dịch vụ có chất lượngnổi trội so với các hệ thống truyền hình truyền thống (PAL, NTSC, SECAM)
Chuẩn truyền hình này đưa đến cho người xem không chỉ cảm nhận vềchất lượng hình ảnh tốt với độ phân giải cao mà còn mang lại một cảm giác ấntượng về vẻ đẹp, độ chân thực, độ sâu và kích thước của toàn bộ hình ảnh Hơnthế nữa, với việc cung cấp tín hiệu âm thanh vòng (surround sound) 5.1 đã manglại cho người xem một cảm giác như đang ngồi trong rạp chiếu phim
Việc người dùng chuyển lên HDTV thay thế SDTV được coi là một bướctiến đáng nhớ cho ngành công nghiệp điện tử gia dụng, tương tự như việc nhânloại chuyển từ tivi đen trắng sang tivi màu trước đây
Việc truyền dẫn dịch vụ HDTV trên công các công nghệ khác nhau đặcbiệt là sử dụng chuẩn DVB (T,S,C) đang gặp khó khăn về yêu cầu cân bằng giữabăng thông tín hiệu và chất lượng kênh truyền Sự ra đời của chuẩn nén mớiMPEG-4/AV đã cải thiện được hiệu suất nén dòng tín hiệu và hiệu quả sử dụngkênh truyền Đầu năm 2009 đánh dấu sự công nhận hệ tiêu chuẩn thứ 2 củaDVB gồm DVB- T2, DVB-S2, DVB-C2 với việc làm giảm rất nhiều dunglượng của kênh, tăng độ tin cậy và khả năng chống nhiễu do vậy càng thúc đẩy
sự phát triển mạnh của dịch vụ HDTV
Hiện nay tại Việt Nam truyền hình độ phân giải cao vẫn là một khái niệmrất mới đối với người sử dụng Trên thị trường chỉ xuất hiện màn hình Plasma vàLCD có thể xem truyền hình với độ phân giải cao, việc sản xuất chương trìnhcũng như cung cấp loại hình dịch vụ này mới đang trong giai đoạn xây dựngphương án đầu tư, nghiên cứu và phát thử nghiệm
Luận văn “Truyền hình số có độ phân giải cao HDTV và khả năng ứng dụng tại Việt Nam” đi vào nghiên cứu các công nghệ, chuẩn sử dụng trên
HDTV và đánh giá so sánh được hiệu quả của việc sử dụng tiêu chuẩn DVB thứ
2 trong truyền dẫn phát sóng HDTV Đồng thời cũng đánh giá được hiện trạngviệc áp dụng công nghệ tiên tiến này vào nước ta để cho người sử dụng có mộtcách sâu sắc hơn về dịch vụ mới HDTV tại Việt Nam
Nội dung của luận văn được chia thành 5 chương như sau:
Chương 1: Tổng quan HDTV
Chương 2: Các công nghệ và kỹ thuật sử dụng trong HDTV: Lấy mẫu,lượng tử hoá, nén video số, chuẩn nén MPEG4, MPEG-4/AVC, kỹ thuật âmthanh vòng sử dụng trong HDTV
Trang 4Chương 3: Các công nghệ truyền dẫn HDTV, giới thiệu chuẩn DVB thế
hệ thứ 2 (DVB-T2,DVB-S2,DVB-C2) và so sánh đánh giá hiệu quả kênh truyền
Chương 4: Một số kết quả mô phỏng sử dụng phần mềm mô phỏngMATLAB 2009a về mô phỏng hệ HDTV, so sánh đánh giá hiệu suất về việcdùng chuẩn DVB đầu tiên và thế hệ thứ 2 qua mã hoá LDPC
Chương 5: Ứng dụng triển khai HDTV tại Việt Nam
Qua lời nói đầu tác giả xin gửi lời cảm ơn sâu sắc tới TS.Ngô Thái Trị,người đã tận tình hướng dẫn tôi trong quá trình hoàn thiện bản luận văn này;cũng xin được cảm ơn các thầy cô giáo, bạn học cùng lớp, bạn bè đồng nghiệp
đã giúp đỡ và động viên tôi trong suốt thời gian thực hiện luận văn
Hà Nội, tháng 12 năm 2009
Học viênNguyễn Thị Thu Trang
Trang 5CHƯƠNG 1: TỔNG QUAN HDTV1.1.Khái niệm HDTV
1.1.1 Khái niệm và ưu điểm của HDTV [5]
HDTV sử các kỹ thuật tiên tiến để tăng thêm các chi tiết ảnh và cải tiến
chất lượng âm thanh cung cấp tới tivi Chất luợng hình ảnh tương đương với 35
mm phim camera, chất lượng âm thanh tương đương với một máy nghe nhạccompact Để đạt được điều đó HDTV đã tạo thêm các dòng điện tử quét ngangmàn hình và thêm các electron để tạo thêm chi tiết ảnh Các hệ thống truyềnhình truyền thống cung cấp loại tivi với 525 dòng quét (NTSC) với 300 điểmảnh trên/dòng HDTV sử dùng hơn 1000 dòng quét với khoảng 1000 điểm ảnhtrong một dòng Với việc tăng thông tin cho hình ảnh nên HDTV yêu cầu mộtbăng thông cao hơn hẳn so với hệ thống truyền hình truyền thống do đó tănghiệu xuất sử dụng băng thông
Các ưu điểm của HDTV so với SDTV
+ Tỷ lệ khuôn hình 16:9 (1.78:1) gần hơn với tỷ lệ khuôn hình sử dụngtrong điện ảnh (thường là 1.85:1 hoặc 2.35:1)
+ Phần lớn các chuyển động trên màn hình được thực hiện theo chiềungang (ví dụ bóng đá, đua xe), do đó màn hình rộng sẽ có thể đáp ứng tốt hơn
+ Màn hình rộng cũng có nghĩa giảm bớt số lượng các hình cận cảnh vàchuyển cảnh Mặt khác các chuyển động trên màn hình rộng là liền mạch và liêntục với chương trình có tính phim ảnh Nói một cách đơn giản là có thể giảm bớt
Trang 6được các chuyển cảnh nhanh do ta có thể nhìn được nhiều hơn trên màn hìnhrộng
Hình sau đây sẽ cho ta thấy hiệu quả của tỷ lệ khuôn hình
Khoảng cách nhìn: 3H Khoảng cách nhìn: 7H
Hình 1.1: So sánh giữa HDTV và SDTV về tỷ lệ khuôn hìnhHDTV sử dụng tỷ lệ khuôn hình rộng 16:9
Trang 7720 (26 đến 745)
1080
(21-560, 1123)
564-6 Dòng trống 30 (1-25,
746-750)
45 (1-20,
561-563, 1125)
1124-30 (1-25, 746-750)
45 (1-20, 561-563, 1124-1125)
7 Tần số dòng (fH,
Bảng 1.1: Thông số quét ảnh của HDTV
1.1.4.Độ phân giải hình và băng thông tín hiệu
Độ phân giải đứng tương đương với số lần chuyển đổi giữa dòng tín hiệu mức trắng và mức đen trong toàn ảnh Từ những năm 1930, đã xác định độ phângiải chiều đứng được tính bằng 70% của số dòng tích cực Hệ số 0.7 được gọi là
hệ số K (Kell Factor)
Độ phân giải chiều đứng thường được thể hiện ở dạng số dòng của chiềucao 1 ảnh (LPH – Lines per piture height), giá trị này được dùng để xác địnhmức phân giải đứng tối đa có thể hiển thị được Nếu 1 ảnh yêu cầu độ phân giảicao hơn giá trị phân giải đứng của mành thì ảnh sẽ bị mờ
Độ phân giải ngang của mành sẽ quyết định bề rộng băng thông cần thiết
để truyền tín hiệu Ta sẽ tính toán trên ví dụ là hệ 1080/25i như sau:
Trang 8Tính toán trên là với tín hiệu chói, với tín hiệu hiệu mầu, độ rộng băngthông tương ứng sẽ là 13MHz.
Độ phân giải của SDTV ở châu Âu là 720 điểm ảnh trên một dòng, 575dòng tích cực trong một mành được quét xen kẽ, tương đương với 0.41Mpixels.Tại Bắc Mỹ số dòng tích cực thậm chí còn ít hơn, chỉ có 480 dòng quét xen kẽ
Độ phân giải của định dạng HDTV 1080i là hơn 2Mpixels, tức là cao hơn 5 lần
so với SDTV
Cũng cần phải nhấn mạnh rằng, một đĩa DVD hay một chương trìnhtruyền hình số (truyền qua cáp, vệ tinh số, hay số mặt đất) cũng chỉ có 575 dòngtích cực mặc dù rất nhiều người nghĩ rằng DVD hay truyền hình số hiện nay là
có độ phân giải cao
Để có thể dán nhãn HD ready, thiết bị cần ít nhất 720 dòng vật lý, nhưnghiện nay phần lớn các TV màn hình phẳng có 768 dòng Các Projector độ phângiải cao thường được gọi là Projector 720p có độ phân giải là 1280x720 Mộtđiều quan trọng cần nhấn mạnh là: Các yêu cầu để đạt HD ready không đề cậpđến số điểm ảnh trên 1 dòng, nhưng ta cần hiểu rằng số điểm ảnh là càng nhiềucàng tốt Độ phân giải đặc chưng của hiển thị HD là: 1280x720(0.92Mpix),1280x768(0.98Mpix), 1024x768(0.78Mpix), 1024x1024(1.05Mpix),1366x768(1.05Mpix), 1920x1080(2.07Mpix) Thiết bị hiển thị với độ phân giảigốc 1920x1080 được biết đến với tên HD đầy đủ (Full HD) hoặc bộ TV 1080phoặc Projector
Hình 1.2: Tương quan về độ phân giải
Trang 91.2.Lịch sử và xu hướng phát triển [5]
1.2.1 HDTV tại Nhật Bản
Năm 1968, hãng NHK của Nhật Bản bắt đầu nghiên cứu và phát triểnHDTV, kết quả cho ra đời chuẩn kỹ thuật đầu tiên dành cho studio: Số dòngquét/ảnh : 1125, tỷ lệ khuôn hình : 5/3, thương pháp quét: xen kẽ, tần số mành :60Hz, độ rộng băng tần : 20MHz
Đến tháng 10/1984, hệ MUSE (Multiple SubNyquist Sampling Encoding)được NHK thiết kế để phát sóng truyền hình tương tự có độ phân giải cao qua vệtinh Theo yêu cầu phát sóng, hệ MUSE còn được phát triển với nhiều versionkhác nhau nữa Trong đó, băng tần tín hiệu HDTV được nén từ 20MHz xuống8.1MHz và có thể truyền, phát sóng qua vệ tinh Nhật Bản cũng được ghi nhận
là nước duy nhất phát thương mại HDTV tương tự và cũng đã có những thànhcông nhất định
Cho đến đầu những năm 2000 thì Nhật Bản đã chính thức chuyển sangphát sóng HDTV số mặt đất theo tiêu chuẩn ISDB-T, và phát sóng số HDTVqua vệ tinh theo tiêu chuẩn ISDB-S
Hiện nay Nhật Bản sử dụng định dạng 1080i/60 với số mẫu trên 1 dòng là
Trang 10-Mạng cáp:
Hiện nay không triển khai trên mạng cáp, tuy nhiên các thuê bao của cácmạng vệ tinh và mặt đất có thể thu trực tiếp hoặc thông qua mạng cáp với cácthiết bị đầu cuối tương thích
-Thị trường thiết bị hiển thị HDTV.
Đa dạng với nhiều model và nhà sản xuất Giá thành ngày càng giảm
HDTV sẽ trở lên thông dụng tại Nhật Bản, bản thân các nhà cung cấp dịch
vụ truyền hình cũng xác định tiêu chí này thông qua câu nói: HDTV là điều cầnthiết để sống sót
Trang 11Trong quá trình xây dựng hệ thống HDTV, Grand Alliance đã nhận thấyrằng, công nghệ mới này phải được chuyển sang số hoá để có thể tương thíchvới các hệ thống truyền hình hiện tại Chính vì vậy, hệ thống HDTV tại Mỹđược xây dựng từ đầu với truyền hình số và hoàn toàn khác biệt với Nhật Bản
Đến năm 1996 thì FCC chính thức lập tiêu chuẩn cho HDTV, được phát
số mặt đất theo tiêu chuẩn ATSC Tín hiệu số HDTV được nén và phát trênkênh 6MHz của truyền hình NTSC Đến năm 1998 thì HDTV chính thức đượcphát sóng thương mại tại Mỹ
Hiện nay các chương trình HDTV được cung cấp tới khách hàng như làmột dịch vụ số phát song song với SDTV và các dịch vụ khác trên cả mạng cáp,
vệ tinh và sóng mặt đất
Theo lộ trình, đến năm 2006, Mỹ sẽ chấm dứt việc phát sóng tương tự.Toàn bộ hệ thống truyền hình tại Mỹ sẽ là truyền hình số Khác với Nhật Bản,HDTV tại Mỹ chỉ là một phần trong các dịch vụ số được các thuê bao đăng ký,với tỷ lệ khoảng 10% Tuy nhiên số lượng kênh lại rất phong phú, diện phủ sóngchiếm 75 % lãnh thổ
Có thể nói hệ thống HDTV tại Mỹ đã được phát triển một cách hoànchỉnh với khoảng 6 nhà cung cấp dịch vụ chính qua vệ tinh, hơn 30 nhà cungcấp HDTV qua mạng cáp, hệ thống số mặt đất phủ sóng toàn lãnh thổ với hơn75% số vùng có thể thu HDTV
1.2.3 HDTV tại châu Âu.
Vào năm 1986, 19 nước ở châu Âu đã tổ chức hội nghị bàn thảo vềchương trình nghiên cứu HDTV mang tên “Eureka 95”, nhằm phát triển hệthống HDTV tại châu Âu Giống như Nhật Bản, châu Âu cũng bắt đầu với hệtruyền hình HDTV tương tự phát sóng qua vệ tinh Vào tháng 5/1992, EU đưa ratiêu chuẩn D2-MAC, được phát triển bởi SGS-Thomson của Pháp và Philips của
Hà Lan, để phát sóng truyền hình màn rộng và các dịch vụ vệ tinh
Hệ HDTV của châu Âu khi đó có số dòng quét là 1250 với 1152 dòng tíchcực, tỷ lệ khuôn hình là 16:9, và tần số mành là 50Hz
Thời điểm đó, EU có kế hoạch chuyển đổi các hệ thống truyền hình tương
tự hiện tại sang hệ thống D2-MAC thậm chí sang cả HD-MAC là hệ thốngHDTV tương tự đầy đủ Tuy nhiên việc chuyển đổi này đã gặp một số trở ngại
từ một số nước, khi họ lo ngại các hệ truyền hình HDTV này sẽ không thể tồntại lâu dài do sự phát triển của truyền hình số Trong khi đó một số nước có nềncông nghiệp truyền hình nhỏ như Hy Lạp, Ailen…cũng bày tỏ sự lo ngại về khảnăng tài chính của việc đầu tư phát triển HDTV Chính vì vậy mà HDTV tương
tự đã không thể phát triển tại châu Âu, mặc dù một số hãng truyền hình của
Trang 12Pháp đã lập kế hoạch để triển khai D2-MAC, song sự phát triển của nó cũng rấthạn chế, một phần do giá thành bộ thu HDTV theo D2-MAC khi đó là quá cao.Đến năm 1993 thì hệ truyền hình HDTV tương tự HD-MAC chính thức dừnglại, EU và EBU khi đó tập trung vào phát triển truyền hình số với hệ DVB.
Cho đến năm 2003, HDTV mới lại được bắt đầu được phát số thử nghiệmtại châu Âu theo tiêu chuẩn DVB trên cả vệ tinh, cáp và sóng mặt đất
- Hiện nay ở châu Âu đang chấp nhận 4 định dạng HDTV sau: 1080i/25,1080p/50, 1080p/25 và 720p/50 Định dạng được EBU khuyến cáo nên sử dụng
là 720p/50
- Các chuẩn truyền dẫn: DVB-T cho sóng mặt đất, DVB-S, S2 cho sóng
vệ tinh, DVB-C cho mạng cáp, DVB-IPI cho mạng IP
Hiện trạng HDTV tại một số nước châu Âu:
HDTV tại Pháp:
- Vệ tinh: có 7 kênh HDTV được phát với hơn 40000 đầu thu STB
- Sóng mặt đất: phát thử nghiệm 2 kênh từ tháng 5/2006 cho cácchương trình tennis, bóng đá, phim, sân khấu
- Trên ADSL: Tất cả các nhà cung cấp mạng đều đưa ra các dịch vụquảng bá HD
- Chưa tiến hành trên mạng cáp
- Hiện chỉ phát trên vệ tinh, với khoảng 10 chương trình
- Sẽ triển khai trên mạng cáp và mặt đất
- Italy: Đã phát 5 chương trình trên vệ tinh
- Na Uy: phát trên vệ tinh và sóng mặt đất
- Hà Lan, Bồ Đào Nha: Phát HDTV trên mạng cáp
- Thụy Điển, Phần Lan: phát HDTV trên vệ tinh
- Thụy Sỹ: sẽ phát HDTV trên vệ tinh năm 2007
- Các nước Ba Lan, Slovakia, Rumani, Nga đã bắt đầu thử nghiệm
Trang 13Xu hướng tại châu Âu:
- Đa phần các nước đều triển khai HDTV qua vệ tinh với những ưuđiểm về băng thông và sự hỗ trợ của DVB-S2
- Ngoài một số hệ thống đang sử dụng nén MPEG 2, tất cả các nướcbắt đầu triển khai HDTV đều sử dụng MPEG 4/H.264 làm chuẩn nén Các nước
đã sử dụng MPEG 2 cho HDTV cũng đã thông báo sẽ sử dụng MPEG 4/H.264cho các hệ thống tiếp theo
1.3.Mô hình tổng quan của hệ thống HD
Hệ thống truyền hình có độ phân giải cao được cấu thành từ ba thànhphần chính như sau:
- Hệ thống thiết bị trung tâm
- Hệ thống truyền dẫn tín hiệu
- Các thiết bị đầu cuối thuê bao
Hình 1.3: Mô hình tổng quan của một hệ thống HDTV
1.3.1.Hệ thống thiết bị trung tâm (Master Headend)
Hệ thống cung cấp và quản lý các chương trình truyền hình : Hệthống thu tín hiệu các chương trình truyền hình sau đó qua quá trình xử lý tínhiệu: chèn quảng cáo, key chữ, mã hoá, điều chế tín hiệu và chuyển sang mạngphân phối tín hiệu Các chương trình có thể thu trực tiếp từ vệ tinh, truyền hìnhmặt đất, các chương trình tự sản xuất
Hệ thống kiểm tra, giám sát: Bao gồm hệ thống monitor để kiểm trachất lượng cũng như nội dung các chương trình truyền, hệ thống chuyển đổinguồn tín hiệu (matrix), hệ thống điều hành toàn bộ hoạt động của trung tâm thuphát và mạng phân phối tín hiệu
Trang 141.3.2.Hệ thống mạng phân phối tín hiệu
Hệ thống mạng phân phối tín hiệu có chức năng truyền dẫn các tín hiệutruyền hình cũng như các dữ liệu từ trung tâm tới các thuê bao và ngược lại
1.3.3.Thiết bị đầu cuối thuê bao
Đây là các thiết bị làm chức năng giải mã tín hiệu cung cấp tới tivi.Toàn bộ quá trình xử lý tín hiệu được tích hợp trong một hộp nhỏ gọi là settop-box, nối tới tivi qua chuẩn HDMI
Trang 15CHƯƠNG 2: CÁC CÔNG NGHỆ VÀ KỸ THUẬT ĐƯỢC
SỬ DỤNG TRONG HDTV
2.1.Tần số lấy mẫu và cấu trúc lấy mẫu
Nếu trong SDTV, tần số lấy mẫu là 13.5MHz, là bội số của tần số dòngvới cả 2 hệ NTSC và PAL, thì với HDTV, tần số lấy mẫu cũng là bội số của tần
số dòng Việc lấy mẫu tín hiệu có thể thực hiện với tín hiệu chói (Y’) và 2 tínhiệu mầu thành phần (C’B, C’R) hoặc có thể thực hiện với 3 tín hiệu màu cơ bản(R’, B’, G’) Đồng thời tần số lấy mẫu cũng phải đảm bảo lớn hơn 2 lần độ rộngdải phổ tín hiệu
Với HDTV, tần số lấy mẫu tín hiệu chói được lựa chọn là 74.25MHz chotất cả các định dạng tương tự Tần số này là bội số của tần số dòng với cả 4 địnhdạng nói trên
Theo Shanon và Nyquist, dải tần cho tín hiệu chói sẽ không được vượtquá một nửa tần số lấy mẫu là 37.125MHz, và dải tần cho 2 tín hiệu hiệu mầukhông được vượt quá 18.5625MHz Với việc sử dụng một bộ lọc thông thấp, tần
số cutoff của đặc tuyến biên tần với tín hiệu chói sẽ là 30MHz, với tín hiệu mầu
là 15MHz, giá trị này là đảm bảo độ rộng băng thông cần thiết để truyền tín hiệuHDTV mà không làm suy giảm độ phân giải hình
Trang 16Hình 2.1: Đặc tuyến biên tần của tín hiệu Y, C’B, C’R
2.2.Lượng tử hoá
Tuỳ theo mục đích để lưu trữ hay truyền dẫn, số bít lượng tử có thể là 10hoặc 8 bít Thành phần được lượng tử hoá sẽ bao gồm tín hiệu chói, tín hiệu hiệumàu và các tín hiệu về chuẩn thời gian (Time Reference Signal – TRS) bao gồmtín hiệu kết thúc dòng video tích cực (EAV – End of Active Line) và bắt đầumột dòng video tích cực (SAV – Start of Active Line)
Với hệ thống có 10 bit lượng tử, các giá trị số sẽ chạy từ 000h đến 3FFh(tương ứng giá trị 0 đến 1023 trong hệ thập phân) Tín hiệu chói sẽ đi từ mứcđen 040h (64) đến mức trắng 3ACh (940) Tín hiệu mầu C’B, C’R sẽ đi từ 040h(640 đến 3C0h (960) Nhằm dự phòng cho sự quá mức tín hiệu, dải lượng tử chophép sẽ là từ 004h đến 3FBh (từ 4 đến 1019)
Các giá trị từ 000h đến 003h (0 đến 3) và từ 3FCh đến 3FFh (1020 đến1023) được để dành cho các tín hiệu TRS (EAV và SAV)
Mỗi tín hiệu TRS sẽ bao gồm 4 từ mã:
- 3 từ mã đầu là cố định, có giá trị là 3FF, 000, 000
- Từ mã thứ tư là XYZ, trong đó có thể mang các bít V, F và H đểđịnh nghĩa xoá dòng và xoá mành Ngoài ra các bít P0, P1, P2, P3 được địnhnghĩa thêm, phụ thuộc vào trạng thái của các bit V, F, H sẽ cung cấp các khảnăng sửa lỗi khác nhau (sửa 1 bit hay sửa 2 bit)
Bảng sau sẽ tổng hợp các thông số với các hệ khác nhau
Trang 171 Mã hoá tín hiệu thành
phần
E’Y = 0.7152E’G + 0.2126E’R + 0.0722E’B
E’CB = 0.5389 (E’B – E’Y)E’CR = 0.635 (E’R – E’Y)
Bảng 2.1 : Tổng hợp các thông số với các hệ khác nhau
Tính toán dung lượng video số HDTV
Ta sẽ tính toán cụ thể tốc độ bít của video với hệ 1080/25i
Thời gian của 1 dòng tích cực: 1/28125 = 35.55s
Tổng số mẫu tín hiệu chói được lấy tại mỗi dòng là: 35.55 x 74.25 = 2640mẫu/1 dòng
Tổng số mẫu tín hiệu mầu được lấy tại mỗi dòng là: 35.55 x 37.125 x 2 =
2640 mẫu/1 dòng
Tổng số mẫu chói video là: (2640 + 2640) x 1080 = 5702400 mẫu/1 ảnh
Số mẫu trong 1s là: 5702400 x 25 = 142.56 M mẫu
Nếu để lưu trữ, mỗi mẫu được mã hoá bằng 10 bit, do đó tốc độ tín hiệuvideo là: 1425.6Mbps
Nếu mã hoá bằng 8 bít, tốc độ video HDTV là: 1140.48Mbps
2.3.Nén video số bằng MPEG [3]
2.3.1.Tổng quan nén MPEG
Hiện nay các chuẩn nén MPEG đang được sử dụng phổ biến và được các
tổ chức ISO/IEC, ITU (International Telecommunication Union) công nhận làchuẩn nén quốc tế, áp dụng cho các hệ truyền hình tại Mỹ, Nhật Bản, châu Âu
Trang 18Được phát triển vào năm 1988-1992, là tiêu chuẩn đầu tiên của MPEG.Chuẩn MPEG1 được sử dụng chủ yếu để nén tín hiệu VCD và các luồng tốc độthấp khoảng 1.5Mbps.
MPEG1 hỗ trợ nén các tín hiệu có độ phân giải thấp 352x240(60Hz) và352x288(50Hz), sử dụng biến đổi cosin (DCT) để loại bỏ dư thừa không gian,
MPEG 2 gồm có 10 phần (Part 1 đến Part 10), trong đó Part 2 là về video,part 3 là về audio MPEG 2 / Part 2 tương tự như MPEG 1 song đã có hỗ trợ nénhình ảnh quét xen kẽ Chính vì vậy, MPEG 2 được sử dụng rộng rãi và chínhthức trong các tiêu chuẩn truyền hình DVB, ITSC, ISDB
Được phát triển vào năm 1992 với mục đích áp dụng cho HDTV, tuynhiên nó bị huỷ bỏ vào năm 1993 do nhận thấy rằng: MPEG 2 hoàn toàn có thểthực hiện cho HDTV
- Các thành phần dư thừa trong chuỗi hình ảnh:
+ Dư thừa có tính thống kê: là các dư thừa về không gian và thời gian cótrong ảnh và trong quá trình chuyển động của ảnh
+ Các dư thừa thuộc về khả năng cảm nhận của mắt người: là các thànhphần trong ảnh mà mắt người không có khả năng cảm nhận
- MPEG sử dụng 3 phương pháp để loại trừ các dư thừa nói trên
Trang 19+ Loại trừ các dư thừa không gian (Nén trong ảnh): các dư thừa không
gian là các thành phần giống nhau trong ảnh hoặc các thành phần nằm ngoài khả
năng cảm nhận của mắt người Nén trong ảnh sử dụng cả hai quá trình nén có
tổn hao (làm mất một phần dữ liệu không thể khôi phục) và không tổn hao (làm
mất một phần dữ liệu nhưng có thể khôi phục tại đầu thu)
+ Loại trừ các dư thừa về mặt thời gian (Nén liên ảnh): với một chuỗi ảnh
liên tục, lượng thông tin chứa đựng trong ảnh thay đổi không nhiều Do đó thay
vì truyền đi cả chuỗi ảnh thì chỉ cần truyền đi một ảnh và vector dự đoán hướng
chuyển động – thành phần có dung lượng nhỏ hơn nhiều so với ảnh Kỹ thuật dự
đoán và bù chuyển động là phần rất quan trọng trong nén MPEG
+ Sử dụng các phương pháp thống kê (Huffman Coding): Thông qua việc
xác định lượng thông tin của ảnh để lựa chọn số bít mã hoá thích hợp
Hình 2.2: Tổng quan về chu trình nén MPEG
2.3.3.Nén trong ảnh
2.3.3.1 Biến đổi cosin rời rạc (Discrete Cosin Transform - DCT)
DCT là phép biến đổi toán học không tổn hao và có tính thuận nghịch
DCT biến đổi dữ liệu dưới dạng biên độ thành dữ liệu dưới dạng tần số Các
phép tính được thực hiện trong phạm vi các khối block 8x8 tín hiệu chói và các
khối tương ứng của tín hiệu màu
Analogue to
digital conversion
Removal of temporal redundancy
Removal of spatial redundancy (DCT)
Quantisation
of DCT coefficients
Variable length of coding Buffer store
Data rate control
Video
Input
Fixed rate bit stream output
Buffer occupancy
Quantisation
of DCT threshold
Variable data rate
216 Mbit/s
3-6 Mbit/s
8-4-1-26-18090-16-1114-1-3152- 171126-3-14-3720110-2-7-63424-9208- 624611111128-3-10-70
8x8 pixel block 8x8 coefficients Matrix
Trang 20Hình 2.3: Biến đổi DCTHình 2.3: Biến đổi DCT
Một block 8x8 pixel có các dữ liệu dưới dạng mức biên độ, qua biến đổiDCT sẽ chuyển thành ma trận hệ số 8x8 Hệ số góc trái phía trên là thể hiệnthành phần 1 chiều trong block, các hệ số còn lại thể hiện các thành phần tần sốcao trong block ảnh theo chiều ngang và chiều đứng
Phép biến đổi DCT sẽ cho các thành phần tần số cao ứng với các hệ sốnhỏ Do đặc trưng của mắt người, các thành phần tần số cao có thể biểu thị bằng
số lượng bít nhỏ hoặc loại bỏ
Quá trình lượng tử hoá sẽ sử dụng một bảng các hệ số lượng tử, trong đócác hệ số ứng với thành phần tần thấp có giá trị nhỏ và các hệ số ứng với thànhphần tần cao có giá trị lớn Các hệ số tương ứng trong bảng DCT sẽ được chiacho các hệ số trong bảng lượng tử, sau kết quả thu được sẽ được loại bỏ phầnthập phân Do vậy sau quá trình lượng tử hoá, bảng ma trận thu được sẽ có các
1291112100011-1-100000000-1000-Quantization
Trang 21Quá trình lượng tử hoá là quá trình gây tổn hao, tuỳ theo giá trị của bảngtrọng số lượng tử mà mức độ tổn hao sẽ khác nhau, đồng thời cũng đạt hiệu quảnén khác nhau.
2.3.3.3 Mã hoá
Bảng hệ số sau quá trình lượng tử được chuyển đổi sang dòng tín hiệu nốitiếp bằng quét Zig-zag Nhờ đó có thể tạo ra dòng tín hiệu gồm một chuỗi cácgiá trị 0 liên tiếp
Các phương pháp mã hoá được sử dụng cho nén trong ảnh là mã hoá với
độ dài từ mã thay đổi (Variable Length Coding - VLC) và mã hoá theo chiều dài(Run Length Coding)
VLC (được biết đến với tên Huffma Coding) là phương pháp mã hoá dựatrên xác suất xuất hiện giá trị biểu thị Những giá trị biểu thị có xác suất xuấthiện cao sẽ được mã hoá bằng một từ mã có số lượng bít ít, các giá trị biểu thị cóxác suất xuất hiện thấp sẽ được biểu thị bằng từ mã có số lượng bít nhiều hơn.Nhờ đó mà tăng hiệu quả nén mà không gây tổn hao dữ liệu
RLC là phương pháp mã hoá áp dụng trong trường hợp có một chuỗi cácgiá trị giống nhau liên tiếp Khi đó thay vì phải truyền đi cả chuỗi thì chỉ cầntruyền đi 1 giá trị và 1 từ mã cho biết số lượng giá trị đó
2.3.4.Nén liên ảnh
Nén liên ảnh về cơ bản là dựa trên ảnh nguyên bản chưa qua các quá trìnhnén, nên bản chất không gây tổn hao Tuy nhiên do có yếu tố dự đoán chuyểnđộng nên có thể ảnh khôi phục phía đầu thu không hoàn toàn đúng như ảnhnguyên bản ban đầu
Nén liên ảnh được thực hiện với các Macro Block (MB) gồm 16x16 phần
tử ảnh, tương đương với 4 Block
Với một chuỗi các ảnh của chuyển động, ảnh đầu tiên sẽ được truyền đivới đầy đủ thông tin Các ảnh tiếp theo sẽ chỉ phải truyền giá trị biểu thị sự khácbiệt với ảnh trước đó và vector dự đoán hướng chuyển động
2.3 4.1 Các loại ảnh của MPEG.
MPEG định nghĩa 3 loại ảnh là I, P, B
- Ảnh I (Intra): chứa các thông tin cần thiết cho việc khôi phục lại ảnh tại
phía đầu thu Là điểm truy cập vào chuỗi ảnh nén Ảnh I chỉ được nén theophương pháp nén trong ảnh Hiệu quả nén đạt không cao
- Ảnh P (Predicted): Có thể được nén trên cơ sở dự đoán chuyển động
của ảnh I và P trước đó, thông qua kỹ thuật dự đoán bù chuyển động Các ảnh P
có thể làm phần tử cơ bản để dự đoán ảnh tiếp theo, tuy nhiên việc bù chuyển
Trang 22động trong trường hợp này là không đảm bảo Vì vậy không thể tăng nhiều ảnh
P giữa 2 ảnh I Nén ảnh P đạt hiệu quả cao hơn ảnh I
- Ảnh B (Bidirectional Predicted): Có thể nhận được từ việc nội suy 2
hướng giữa 2 ảnh I hoặc 2 ảnh P ở ngay trước và sau nó Ảnh B đạt hiệu suấtnén cao nhất
Để có thể khôi phục lại chuỗi ảnh tại đầu thu, thứ tự truyền các ảnh vànhận các ảnh tại phía phát và phía thu sẽ không đúng như trình tự xuất hiện ảnh
Thứ tự trên là thứ tự mà các ảnh được trình chiếu, ta có thể đánh số nhưsau:
Hình 2.5: Thứ tự trình chiếu các loại ảnhI1, B2, B3, P4, B5, B6, P7, B8, B9, P10, B11, B12, I13
Hình 2.6: Dự đoán bù chuyển độngPhần MB trong ảnh I được dự đoán tới vị trí mới trong ảnh P, khi đó thay
vì truyền đi cả 4 ảnh (đã được mã hoá thành chuỗi dữ liệu), chỉ cần truyền đi ảnh
I đầu tiên, vector chuyển động, và phần sai lệch giữa ảnh P nguyên bản và ảnh Pđược dự đoán
Trang 23Tại phía thu, từ ảnh I và vector chuyển động sẽ khôi phục lại ảnh P, cộngvới phần sai lệch được truyền đi sẽ có được ảnh P gần nhất với nguyên bản Từảnh I và P vừa khôi phục, sẽ thực hiện nội suy để tìm ra 2 ảnh B ở giữa
2.4.Nén MPEG 4 [3]
2.4.1.Tổng quan về MPEG 4
MPEG 2 có khả năng nén SDTV ở tốc độ từ 3-15Mbps, nhưng hiện naygần như không có cách nào để cải thiện hơn nữa hiệu quả nén của MPEG 2 Vớinguồn tín hiệu có dung lượng lớn như HDTV, khả năng nén của MPEG 2 khôngcho kết qua như mong muốn
MPEG 4 được bắt đầu nghiên cứu từ năm 1993, đến năm 1998 thì hoànthành và được ISO công nhận là chuẩn quốc tế vài tháng sau đó
MPEG 4 version 1 được hoàn thành vào năm 1998, version 2 ra đời vàonăm 1999 sau 2 version chính đó, rất nhiều công cụ được thêm vào cho các bảnsửa đổi tiếp theo, đến mức không thể phân biệt được các version Tuy nhiên việcphân biệt các version không quan trọng, điều cần thiết là phải phân biệt đượccác profile Các công cụ và profile hiện tại trong tất cả các version không đượcthay thế trong version tiếp theo Tất cả các công nghệ mới luôn luôn được thêmvào MPEG 4 dưới dạng một profile mới
Hiện nay MPEG 4 bao gồm 16 phần
Phần 1: Hệ thống (System)
Phần 2: Hình ảnh (Visual)
Phần 3: Âm thanh (Aural)
Phần 4: Định nghĩa cách thử nghiệm ứng dụng MPEG 4
Phần 5: Phần mềm tham khảo
Phần 6: DMIF (Delivery Multimedia Intergration Framework), đưa
ra các mô tả về việc phân phối các khung tích hợp đa phương tiện (DMIF)
Phần 7: Tối ưu hoá mô tả bộ mã hoá video
Phần 8: Các ánh xạ dòng MPEG 4 vào dòng truyền tải IP
Trang 24 Phần 16: Mô phỏng cấu trúc mở rộng (AFX) và thế giới đa ngườidùng (MuX)
MPEG 4 cung cấp các công cụ để có thể làm thoả mãn cả 3 thành phần là:các tác giả, các nhà cung cấp dịch vụ và người sử dụng cuối cùng MPEG 4 có 6đặc chưng cơ bản
2.4.1.1 Mã hoá các đối tượng nghe nhìn
Nếu như MPEG 2 mã hoá thực hiện với dòng video bao gồm cả âm thanh,hình ảnh, các dữ liệu phụ như Text, văn bản đồ hoạ…thì MPEG 4 lại phân táchtừng thành phần trong luồng dữ liệu số Việc mã hoá của MPEG 4 được thựchiện trên cơ sở các cảnh âm thanh hình ảnh (audiovisual scenes) được kết hợp từcác đối tượng nghe nhìn (media objects hay audiovisual object - AVO) MPEG
4 cho phép mỗi loại đối tượng này được mã hoá theo cách riêng để tối ưu hoáđặc điểm tự nhiên của chúng, và cho phép chúng được truyền đi đến người dùngnhư các dòng căn bản
Các cảnh âm thanh hình ảnh là kết hợp của một vài đối tượng nghe nhìn,được sắp xếp theo cấu trúc phân cấp Các đối tượng nghe nhìn nguyên bản như:
- Các hình ảnh tĩnh (ví dụ hình nền )
- Các đối tượng video (ví dụ người đang nói, không có hình nền)
- Các đối tượng âm thanh (ví dụ các giọng nói liên kết với người đó,nhạc nền)
MPEG 4 cũng định nghĩa số lượng các đối tượng nghe nhìn có khả năngthể hiện dưới cả 2 dạng nội dung tự nhiên và tổng hợp
Thêm vào các đối tượng nghe nhìn nói trên, MPEG 4 cũng định nghĩa một
số đối tượng khác để có thể tổng hợp lại các AVO tại đầu thu như:
- Text và đồ hoạ
- Các text liên kết và hình ảnh mặt đang nói để đồng bộ thoại vớihình ảnh nói, đồng bộ mặt người với cơ thể
- Các âm thanh nhân tạo
Một đối tượng nghe nhìn ở dạng mã hoá có thể chứa một số thông tin mô
tả, để có thể kết hợp nó vào trong một cảnh âm thanh hình ảnh thành 1 dòng dữliệu Một điều quan trọng nữa là mỗi AVO có thể được trình diễn độc lập vớicác hình ảnh xung quanh và hình nền
Việc mã hoá các AVO sẽ tăng hiệu quả nén và tăng tính linh hoạt phíathu Người sử dụng có thể thay đổi sự kết hợp các AVO mà không làm thay đổinội dung các AVO
Trang 252.4.1.2 Kết hợp các AVO
Hình vẽ sau sẽ giải thích cách 1 cảnh âm thanh hình ảnh được kết hợp lại
từ các AVO Trong đó các AVO như là các chiếc lá trong cây mô tả và các AVOkết hợp sẽ là các cành cây Ví dụ đối tượng hình ảnh là hình người đang nói, đốitượng âm thanh tương ứng sẽ được ghép với đối tượng hình ảnh để hình thành 1AVO mới bao gồm cả âm thanh và hình ảnh của người đang nói
MPEG 4 cũng cung cấp một cách chuẩn hoá để mô tả 1 cảnh âm thanhhình ảnh:
- Đặt các AVO tại bất cứ chỗ nào trong hệ toạ độ đã cho
- Thực hiện phép biến đổi để chuyển định dạng hình học hoặc âmthanh của AVO
- Nhóm các AVO nguyên bản để hình thành Avo tổng hợp
- Gắn các dòng số liệu vào các AVO để thay đổi các thuộc tính củachúng (ví dụ như âm thanh, chuyển động của một đối tượng, các thông số làmsinh động 1 hình ảnh mặt người)
- Thay đổi một cách tương tác điểm nghe nhìn của người xem tại bất
cứ nơi đâu trong cảnh
Hình 2.7:
Âm thanh hình ảnh được kết hợp lại từ các AVO
Trang 262.4.1.3.Mô tả và đồng bộ dòng dữ liệu cho các AVO
Các AVO có thể cần tới các dòng dữ liệu được chia thành các dòng cơbản (Elemetary Stream) Một bộ mô tả đối tượng sẽ nhận dạng tất cả các dòng
dữ liệu được ghép với 1 AVO Điều này cho phép kết hợp các dữ liệu được mãhoá phân cấp như là một liên kết siêu thông tin về nội dung (được gọi là “ Thôngtin nội dung đối tượng”)
2.4.1.4 Phân phối dòng dữ liệu
Việc phân phối các dòng dữ liệu thông tin từ phía phát đến phía thu, khaithác các chất lượng dịch vụ (Quality of Service – QoS) sẵn có của mạng, được
mô tả theo các lớp đồng bộ và phân phối bao gồm ghép kênh 2 lớp như hình vẽ:
Hình 2.8: Phân phối các dòng dữ liệu từ phía phát đến phía thu
Lớp ghép kênh thứ nhất được thực hiện dựa trên các mô tả DMIF (MPEG
4 /part 6) Việc ghép kênh này có thể được thực hiện bằng công cụ ghép mềmdẻo của MPEG, để ghép các ES với QoS giống nhau, để giảm các kết nối mạnghay giảm thời gian trễ đầu cuối
Trang 27Lớp ghép kênh thứ 2 (TransMux) sẽ thực hiện việc truyền tải các dịch vụtương thích với QoS yêu cầu
2.4.1.5.Tương tác với các AVO
Nói chung người sử dụng phải đối diện với mức độ cho phép của bảnquyền tác giả Tuy nhiên người sử dụng hoàn toàn có thể tương tác với các cảnh
âm thanh hình ảnh:
- Thay đổi điểm nghe nhìn của cảnh, ví dụ có thể chuyển bỏ qua cảnhđó
- Kéo các đối tượng của cảnh đó sang vị trí khác
- Khởi sự một chuỗi sự kiện bằng cách kích vào 1 đối tượng lựachọn, ví dụ như bắt đầu hay kết thúc một dòng video
- Lựa chọn ngôn ngữ theo ý muốn
2.4.1.6 Quản lý và nhận dạng sở hữu trí tuệ
Với MPEG 4, mã hoá theo các đối tượng, một điều rất quan trọng là cókhả năng nhận dạng các quyền sở hữu trí tuệ MPEG 4 đã phải làm việc với cácđối tác về sở hữu trí tuệ để định nghĩa các cú pháp và công cụ thực hiện điềunày Hiện nay, bộ đầy đủ các điều kiện cho việc nhận dạng quyền sở hữu trí tuệ
có thể tìm thấy trong phần ‘ Management and Protection of Intellectual Property
‘ của MPEG 4
2.4.2 MPEG 4 Profile
MPEG 4 cung cấp bộ profile rất rộng cho việc mã hoá các AVO Nhằmtăng hiệu quả cho việc thực hiện chuẩn, MPEG 4 chia ra thành các bộ profileriêng sử dụng cho các ứng dụng tương ứng
2.4.2.1 Visual Profile
Phần Visual của MPEG 4 cung cấp các công cụ để mã hoá các nội dunghình ảnh tự nhiên, nhân tạo hay các hình ảnh kết hợp tự nhiên và nhân tạo
Có 5 profile cho các nội dung hình ảnh tự nhiên:
1 Simple Visual Profile: Cung cấp kỹ thuật mã hoá đàn hồi lỗi chocác đối tượng video hình chữ nhật Phù hợp cho các mạng di động
2 Simple Scalable Visual Profile: hỗ trợ thêm cho Simple VisualProfile trong việc mã hoá các đối tượng co giãn không gian và thời gian Sửdụng cho cung cấp các dịch vụ với yêu cầu về cấp chất lượng khác nhau do hạnchế phía đầu thu, như mạng Internet, giải mã phần mềm
Trang 283 Core Visual Profile: cung cấp mã hoá các đối tượng co giãn tuỳ ýhình dán và thời gian Hỗ trợ thêm cho Simple Visual Profile cho các ứng dụngtương tác nội dung (ví dụ các ứng dụng đa phương tiện qua Internet).
4 Main Visual Profile: hỗ trợ thêm cho Core Visual Profile trong việc
mã hoá các đối tượng quét xen kẽ, bán trong suốt và xoắn Thích hợp cho cácdịch vụ tương tác, quảng bá, và các ứng dụng DVD
5 N-Bit Visual Profile: hỗ trợ cho Main Visual Profile trong việc mãhoá các đối tượng video có độ sâu ảnh từ 4 đến 12bit Thích hợp cho các dịch vụgiám sát
Có 4 Profile cho các nội dung hình ảnh nhân tạo và kết hợp
1 Simple Facial Animation Visual Profile: cung cấp các công cụ đơngiản để làm sinh động hình ảnh mặt người
2 Scalable Texture Visual Profile: Cung cấp mã hoá co giãn không giancho các đối tượng hình ảnh tĩnh (hoặc bề mặt tĩnh) Phù hợp với game hay cáccamera số phân giải cao
3 Basic Animated 2-D Texture Visual Profile: cung cấp co giãn khônggian, co giãn SNR cho ảnh tĩnh
4 Hybrid Visual Profile: bao gồm các khả năng giải mã các đối tượnghình ảnh tự nhiên co giãn, với khả năng giải mã vài đối tượng kết hợp
Version 2 của MPEG 4 thêm vào 3 Profile cho nội dung hình ảnh tựnhiên:
5 Advance Real-Time Simple Profile (ARTS): Cung cấp các kỹ thuật mãhoá đàn hồi lỗi tiên tiến cho các đối tượng video hình chữ nhật
6 Core Scalable Profile: thêm vào các hỗ trợ cho Core Visual Profiletrong việc mã hoá các đối tượng hình dạng tuỳ ý, co giãn không gian và thờigian
7 Advance Coding Efficiency Profile (ACE): công cụ để tăng hiệu quả
mã hoá cho các đối tượng hình chữ nhật và hình ảnh tuỳ ý
Các Profile của Version 2 cho các nội dung hình ảnh nhân tạo và kết hợp
tự nhiên nhân tạo:
8 Advance Scalable Texture Profile: cung cấp giải mã cho các kết cấuhình ảnh tuỳ ý và hình ảnh tĩnh bao gồm cả mã hoá co giãn hình ảnh, thích hợpcho các ứng dụng cần sự truy cập ngẫu nhiên nhanh
9 Advance Core Profile: kết hợp khả năng giải mã các đối tượng video
có hình ảnh tuỳ ý (như Core Visual Profile) và khả năng giải mã các đối tượnghình ảnh tuỳ ý co giãn (như Advance Scalable Profile) Thích hợp với các ứng
Trang 29dụng đa phương tiện giàu nội dung như các dòng dữ liệu tương tác đa phươngtiện truyền trên Internet.
10.Simple Face and Body Animation Profile: là bộ các công cụ làm sinhđộng mặt người và cơ thể
Tại các version tiếp theo, các Profile sau được thêm vào:
11.Advance Simple Profile: giống như Simple Visual Profile trong việc
mã hoá các đối tượng hình ảnh hình chữ nhật, tuy nhiên được bổ sung thêm một
số công cụ để tăng hiệu quả mã hoá như: mã hoá cho khung B, bù chuyển động
¼ pel, bảng lượng tử mở rộng và bù chuyển động toàn thể
12.Fine Granularity Scalability Profile: cho phép cắt gọt dòng bít lớpnâng cao tại bất cứ vị trí bít nào, do đó chất lượng phân phối có thể dễ dàngtương thích với các tình huống truyền dẫn và giải mã Nó có thể được sử dụngcùng với Simple hoặc Advance Simple như là lớp nền tảng
13.Simple Studio Profile: là Profile với chất lượng rất cao cho các ứngdụng chỉnh sửa trong studio Nó chỉ có khung I, nhưng có thể hỗ trợ các hìnhảnh tuỳ ý và đạt tốc độ bít tới gần 2Gbps
14.Core Studio Profile: thêm vào khung P cho Simple Studio, do đó đạthiệu quả cao hơn nhưng cũng phức tạp hơn
2.4.2.2 Aural Profile
MPEG 4 V.1 có 4 Profile cho Audio
1 Speech Profile: cung cấp HVXC (Harmonic Vector ExcitationCoding) - mã hoá thoại có tốc độ bít rất thấp, CELP (Code Excited LinearPrediction) – mã hoá thoại băng hẹp/rộng và giao diện Text to Speech
2 Synsethis Profile: cung cấp sự tổng hợp sử dụng SAOL (là mộtngôn ngữ lập trình để biến âm thanh thành một chương trình máy tính có thể tạo
ra audio khi chạy) và giao diện Text to Speech để tạo âm thanh với tốc độ bit rấtthấp
3 Scalable Profile: là tập hợp Profile thoại, phù hợp với mã hoá cogiãn thoại và nhạc cho mạng, ví dụ như quảng bá âm thanh số internet và bănghẹp Tốc độ bit từ 6kbps đến 24kbps, băng thông từ 3.5 đến 9kHz
4 Main Profile: tập hợp các Profile có công cụ cho mã hoá audio tựnhiên và nhân tạo
MPEG 4 V.2 thêm vào 4 Profile khác:
1 High Quality Audio Profile: có các mã hoá thoại CELP và mã hoáAAC
2 Low Delay Audio Profile: có các mã hoá HVCX và CELP, mã hoá trễthấp AAC và giao diện Text to Speech
Trang 303 Nature Audio Profile: có tất cả các công cụ mã hoá audio tự nhiên cótrong MPEG 4 (không cho audio nhân tạo)
4 Mobile Audio Internetworking (MAUI) Profile: bao gồm các đốitượng AAC trễ thấp và co giãn bao gồm Twin VQ và BSAC Dự định dùng chocác ứng dụng viễn thông không sử dụng thuật mã hoá thoại MPEG
2 Comlete 2-D Graphics Profile: cung cấp các chức năng đồ hoạ 2D
và các đặc chưng như hình ảnh đồ hoạ 2D tuỳ ý và text
3 Complete Graphics Profile: cung cấp các phần tử đồ hoạ tiên tiến
4 3D Audio Graphics Profile: không dành cho hình ảnh, các công cụ
đồ hoạ được cung cấp để định nghĩa các nội dung âm thanh của cảnh
5 Một số Profile đang được xây dựng:
- Simple 2-D + Text Profile
- Core 2D Profile
- Advance 2D Profile
- X3D Core Profile
2.4.2.4 Scene Graph Profile
Scene Graph Profile (hay Scene Description Profile) là Profile về mô tảcảnh, được định nghĩa trong phần System của chuẩn, cho phép các cảnh hìnhảnh âm thanh các nội dung 2-D, 3-D hoặc kết hợp 2-D/3-D
1 Audio Scene Graph Profile: cung cấp tập hợp các phần tử đồ thịcảnh BIFS được sử dụng cho các ứng dụng audio
2 Simple 2-D Scene Graph Profile: cung cấp tập hợp các phần tử đồthị cảnh được sử dụng để đặt các AVO vào cảnh
3 Complete 2-D Scene Graph Profile: cung cấp cho tất cả các phần tử
mô tả cảnh 2-D của công cụ BIFS
4 Complete Scene Graph Profile: cung cấp tập hợp đầy đủ các phần
tử đồ thị cảnh của công cụ BIFS
5 3D Audio Scene Graph Profile: cung cấp các công cụ để đặt âmthanh 3D liên kết với thông số âm thanh của cảnh hoặc các thuộc tính giác quancủa nó
Trang 316 Các Profile đang được xây dựng:
1 Personal: gói trọng lượng nhẹ cho các thiết bị cá nhân Profile này
sẽ địa chỉ hoá một số các thiết bị như điện thoại di động, các thiết bị cầm tay ví
dụ như các điện thoại video, PDA (personal digital assistant), các thiết bị chơigame cầm tay…Profile này bao gồm các gói sau của MPEG-J APIs
- Giải mã (Decoder)
- Chức năng giải mã (Decoder Functionality)
- Lọc phân đoạn và thông tin dịch vụ (Section Filter and ServiceInformation)
2.4.2.6 Object Descritor Profile: có các công cụ sau:
- Công cụ mô tả đối tượng (Object Descriptor-OD)
- Công cụ lớp đồng bộ (Syn Layer-SL)
- Công cụ thông tin nội dung đối tượng (Object Content OCI)
Information Công cụ quản lý và bảo vệ quyền sở hữu trí tuệ (IntellectualProperty Management and Protection-IPMP)
2.4.3 MPEG 4 Visual (Part 2)
MPEG 4 Visual cho phép mã hoá ghép lai giữa các hình ảnh và video tựnhiên với các cảnh nhân tạo (từ máy tính) MPEG 4 Visual bao gồm các công cụ
và thuật toán hỗ trợ việc mã hoá các ảnh tĩnh tự nhiên và các chuỗi video cũngnhư hỗ trợ nén các thông số đồ hoạ của các hình ảnh 2-D và 3-D
Trang 322.4.3.1 Các định dạng hỗ trợ
- Bitrate: từ 5 Kbps đến hơn 1Gbps
- Định dạng: quét liên tục và quét xen kẽ
- Độ phân giải: từ QCIF (Quarter Common Intermediate Format) đến độphân giải cấp studio (4k x 4k pixel)
2.4.3.2 Đối tượng video
Một trong những đóng góp quan trọng của MPEG 4 Visual là loại bỏ cáchnhìn truyền thống về chuỗi video như là một tập hợp các khung hình chữ nhật.Thay vì đó MPEG 4 Visual xem chuỗi video như là 1 tập hợp gồm 1 hay nhiềuđối tượng video (Video object-VO) MPEG 4 Visual định nghĩa các VO là cácthực thể linh hoạt mà người sử dụng có thể truy cập, thao tác với nó Một VO cóthể có thể có hình dạng tuỳ ý, ví dụ là một hình người đang nói mà không cóhình nền Hình ảnh hình chữ nhật chỉ là một trường hợp đặc biệt của VO Các
VO cũng có thể từ các ảnh I, B, P và mang đặc tính giống như các loại ảnh trên
2.4.3.3 Mã hoá co giãn các VO
MPEG 4 Visual cung cấp mã hoá các đối tượng hình ảnh, video với sự cogiãn về không gian, thời gian và chất lượng, cho cả các hình ảnh chữ nhật vàhình ảnh tuỳ ý Sự co giãn trong mã hoá sẽ cho phép khả năng giải mã một phầndòng bit và khôi phục lại chuỗi hình ảnh với các cấp độ khác nhau:
Co giãn mức độ phức tạp tại mã hoá: cho phép mã hoá với các cấp độphức tạp khác nhau, tạo ra dòng bit hợp lý với các bề mặt, hình ảnh hay video đãcho
Co giãn mức độ phức tạp tại bộ giải mã: cho phép bộ giải mã có thể giải
mã các bề mặt, hình ảnh, video với các cấp độ phức tạp khác nhau, tuỳ thuộcvào khả năng của bộ giải mã và nhu cầu phía đầu thu
Co giãn độ phân giải không gian: cho phép bộ giải mã có thể giải mã mộtphần dòng bit để khôi phục lại hình ảnh, hay bề mặt, video với độ phân giải thấpđi
Co giãn độ phân giải thời gian: cho phép bộ giải mã có thể giải mã mộtphần dòng bít để khôi phục lại các bề mặt, hình ảnh, video với độ phân giải thờigian suy giảm
Co giãn chất lượng: Giữ độ phân giải không gian và thời gian nhưng giảmchất lượng
Chức năng này được thiết kế cho mã hoá các hình ảnh quét xen kẽ và phùhợp với các ứng dụng mà phía thu không có khả năng thể hiện độ phân giải đầy
đủ hay chất lượng đầy đủ
Trang 332.4.3.4 Cấu trúc các công cụ trình diễn video tự nhiên
Các thuật toán mã hoá hình ảnh và video của MPEG 4 mang đến sự trìnhdiễn hiệu quả các đối tượng video của các hình dạng tuỳ ý, đồng thời cũng hỗtrợ các chức năng được gọi là nội dung cơ sở (conten based) MPEG 4 cũng hỗtrợ phần lớn các chức năng được cung cấp bởi MPEG 1 và MPEG 2 bao gồm cảchuẩn nén các chuỗi hình ảnh chữ nhật với rất nhiều các định dạng đầu vào, tốc
độ khung, độ sâu điểm, tốc độ bit và rất nhiều cấp co giãn không gian, thời gian,chất lượng
VLBL core (Vere Low Bit-rate Video) cung cấp các thuật toán và cáccông cụ để thực hiện các ứng dụng có tốc độ từ 5 đến 64Kbps, hỗ trợ chuối hìnhảnh có độ phân giải không gian thấp (chất lượng CIF) và tốc độ khung thấp(15Hz) Các chức năng của cá ứng dụng cơ bản được hỗ trợ bởi VBVL Core là:
Mã hoá chuỗi hình ảnh kích thước chữ nhật với hiệu quả mã hoá cao.Các thao tác truy cập ngẫu nhiên, tua đi, tua ngược cho lưu trữ dữ liệu đaphương tiện VLB và cho các ứng dụng truy cập
2.4.3.5 Cấu trúc mã hoá hình ảnh video MPEG 4
Trang 34Hình sau đây mô tả tổng quan về thuật toán của MPEG 4 để mã hoá cácchuỗi hình ảnh có dạng chữ nhật và dạng tuỳ ý.
Hình 2.9: Thuật toán của MPEG 4 để mã hoá các chuỗi hình ảnh
Cấu trúc mã hoá cơ bản bao hàm mã hoá hình dạng (cho các VO có hìnhdạng tuỳ ý) và bù chuyển động cũng như mã hoá bề mặt DCT ( sử dụng DCTtiêu chuẩn 8x8 hoặc DCT tương thích hình dạng)
Một cải tiến quan trọng của phương pháp mã hoá theo nội dung MPEG 4
là hiệu quả nén có thể cải thiện được đáng kể với một số chuỗi video bằng cách
sử dụng các công cụ dự đoán chuyển động đối tượng cho mỗi đối tượng trong 1cảnh MPEG 4 đưa ra một số kỹ thuật dự đoán chuyển động để tăng hiệu quả mãhoá và sự trình diễn mềm dẻo các đối tượng
Dự đoán và bù chuyển động dựa trên các block 8x8 hoặc 16x16 với
độ chính xác lên đến ¼ pel
Bù chuyển động toàn thể cho các đối tượng video (Global MotionCompensation-GMC): mã hoá chuyển động toán thể cho một đối tượng sử dụngmột số ít thông số GMC dựa trên dự đoán chuyển động toàn thể, sự méo hình,
mã hoá đuờng cong chuyển động và mã hoá bề mặt cho các lỗi dự đoán
Bù chuyển động toàn thể cho các “sprite” tĩnh Một “sprite” tĩnh cóthể là một ảnh tĩnh rộng, mô tả nền bao quát Với mỗi ảnh tiếp theo trong chuỗiảnh, chỉ có 8 thông số mô tả chuyển động được mã hoá để khôi phục lại đốitượng
Trang 35 Bù chuyển động ở mức ¼ pel làm cải thiện lược đồ bù cho dự đoánchuyển động
Biến đổi DCT hình dạng tương thích: tại các vùng bề mặt mã hoá,biến đổi DCT tương thích (Shape adaptive DCT : SA-DCT) sẽ cải thiện hiệuquả mã hoá các đối tượng hình dáng tuỳ ý
Hình sau mô tả ý tưởng mã hoá cơ bản cho chuỗi video MPEG 4, sử dụng
1 hình ảnh bao quát sprite (Sprite panorama image) Trong đó có thể thấy rằng,các đối tượng tiền cảnh (Foreground object) - trong trường hợp này là ngườichơi tennis, có thể tách ra khỏi hình nền và do đó hình ảnh bao quát sprite cũng
có thể tách ra khỏi chuỗi để mã hoá độc lập (một hình bao quát sprite là mộthình tĩnh mô tả nội dung của hình nền trong tất cả các khung của chuỗi video)
Hình 2.10: Ý tưởng mã hoá cơ bản cho chuỗi video MPEG 4
Hình ảnh bao quát sprite được mã hoá và truyền đi 1 lần duy nhất trongkhung đầu tiên của chuỗi để mô tả cảnh nền, sau đó ảnh này được lưu lại trong
bộ nhớ đệm sprite tại phía đầu thu Trong các khung hình tiếp theo, chỉ có cácthông số camera liên quan đến hình nền, như hình ảnh người chơi chuyển động,
là được truyền đi Điều này cho phép phía thu khôi phục lại hình nền cho tất cảcác khung hình tiếp theo bằng cách lấy hình nền từ bộ nhớ đệm Đối tượng tiềncảnh chuyển động (người chơi) sẽ được truyền đi độc lập như là 1 đối tượngvideo (VO) hìnhdạng tuỳ ý Hình ảnh khôi phục sẽ bao gồm cả hình nền và cáchình tiền cảnh
Sprite panorama image Foreground object
Reconstructed image
Trang 362.4.4 MPEG 4 AVC (Part 10)/ H264
Nhằm không ngừng nâng cao hiệu quả mã hoá, rất nhiều kỹ thuật được ápdụng vào trong MPEG 4/AVC nhằm khai thác tối đa sự tương quan giữa cáckhung hình video và xử lý linh hoạt các tham số theo nội dung của cảnh videocần nén MPEG 4/AVC cũng đã áp dụng rất nhiều công cụ đã được giới thiệutrong MPEG 4 Visual
Trong các phần sau đây, ta sẽ gọi chuẩn này dưới tên MPEG 4/H.264
2.4.4.2 Phạm vi ứng dụng và các điểm tiêu biểu của MPEG 4/H.264
Chuẩn này được thiết kế cho các giải pháp kỹ thuật của các lĩnh vực ứngdụng sau đây:
Quảng bá trên các kênh vệ tinh, cáp, sóng mặt đất, DSL (DigitalSubscriber Line)…
Lưu trữ nối tiếp hoặc tương tác trên các thiết bị quang và từ, trênDVD…
Các dịch vụ hội nghị trên ISDL, Ethernet, LAN, DSL, không dây vàmạng di động…
Các dịch vụ đã phương tiện hoặc video theo yêu cầu trên ISDL, cáp,DSL, LAN, mạng không dây…
Các dịch vụ nhắn tin đa phương tiện (Multimedia Messaging MMS) trên ISDL, DSL, Ethernet, LAN, mạng di động và mạng không dây
Service-Hơn nữa, các dịch vụ mới cũng có thể được thực hiện trên các mạng hiệntại hoặc tương lai Điều này dẫn đến yêu cầu về việc làm thế nào để quản lý sự
đa dạng trong ứng dụng và khai thác mạng
Để thực hiện việc này, MPEG 4/H.264 đưa ra lớp mã hoá video (VideoCoding Layer-VCL), được thiết kế để trình diễn hiệu quả các nội dung video, vàđưa ra lớp mạng trừu tượng (Network Abstraction Layer-NAL) để định dạng sựtrình diễn video của lớp VCL và cung cấp các thông tin mào đầu (Header) theo
Trang 37cách thích hợp cho việc truyền dữ liệu tại lớp truyền tải hoặc cho việc lưu trữ dữliệu.
Tương quan với các giải pháp mã hoá trước đây, ví dụ như MPEG 2, một
số điểm tiêu biểu của MPEG 4/H.264 cho phép tăng hiệu quả nén, bao gồm cảkhả năng dự đoán giá trị nội dung ảnh được trình bầy sau đây:
1 Kích thước Block bù chuyển động nhỏ hơn: Chuẩn này cho phéplựa chọn kích thước block bù chuyển động và hình dạng một cách mềm dẻo hơntất cả các chuẩn trước đó, với kích thước block bù chuyển động tối thiểu đạt tới4x4
2 Bù chuyển động chính xác đến ¼ mẫu: các chuẩn trước cho phép
độ chính xác bù chuyển động đến tối đa là ½ mẫu Chuẩn mới cho phép điều nàyđạt đến mức ¼ mẫu, như có thế thấy ở MPEG 4 Visual Tuy nhiên độ phức tạptrong xử lý việc này đã giảm đi với MPEG 4/H.264
3 Vector chuyển động tại đường bao ảnh: trong khi vector chuyểnđộng tại MPEG 2 cần phải chỉ đúng vào vùng ảnh đã được giải mã trước đó thìMPEG 4/H.264 cho phép chỉ tới đường bao của ảnh
4 Bù chuyển động đa ảnh: các ảnh P trong MPEG 2 chỉ sử dụng 1ảnh I hoặc P trước đó để dự đoán ảnh tiếp theo Với MPEG 4/H.264, dự đoán bùchuyển động từ nhiều ảnh trước đó được lưu trong bộ nhớ Tương tự như vậyvới ảnh B
5 Tách riêng thứ tự mã hoá khỏi thứ tự trình diễn: trong MPEG 2, cómột sự phụ thuộc chặt chẽ giữa thứ tự mã hoá và thứ tự trình diễn MPEG4/H.264 cho phép bộ mã hoá có thể lựa chọn thứ tự mã hoá hoàn toàn độc lậpvới thứ tự trình diễn, miễn là dung lượng bộ nhớ của bộ giải mã đủ lớn Điềunày sẽ giảm được thời gian trễ khi mã hoá các ảnh dự đoán 2 chiều
6 Tách riêng các giải pháp trình diễn ảnh khỏi khả năng làm ảnhchuẩn: trong các chuẩn trước, các ảnh B là các ảnh được mã hoá từ việc dự đoán
2 chiều các ảnh khác, không thể được sử dụng như một ảnh chuẩn để dự đoáncác ảnh khác trong chuỗi video Chuẩn mới loại trừ việc này, do đó làm tăngtính mềm dẻo cho việc dự đoán chuyển động
7 Dự đoán có trọng số: bước đột phá mới trong MPEG 4/H.264 làcho phép tín hiệu dự đoán bù chuyển động được kết hợp với một giá trị trọng sốđược mô tả bởi bộ mã hoá Chế độ dự đoán này là hỗ trợ cần thiết khi nén cáccảnh có sự mờ đi (khi 1 cảnh được mờ đi vào cảnh khác), nhờ vậy mà tăng đượchiệu quả nén
8 Suy đoán chuyển động trực tiếp: với các chuẩn trước, một khu vực
bị bỏ qua sẽ không chuyển động trong nội dung cảnh Điều này sẽ có ảnh hưởng
Trang 38không tốt khi mã hoá video có chứa chuyển động toàn thể Thay vì suy luậnvùng bị bỏ qua, MPEG 4/H.264 đưa ra giải pháp suy đoán chuyển động mới, gọi
là bù chuyển động trực tiếp (Direct)
9 Switching slices (còn được gọi là SP và SI): là chức năng cho phép
bộ mã hoá có thể chỉ thị cho bộ giải mã xâm nhập vào dòng bít để chuyển tốc độbit hay có thể giải mã được ảnh tại đúng vị trí xâm nhập đó mà không cần sửdụng các ảnh khác
10 Ảnh dự phòng (Redundant Picture): MPEG 4/H.264 có khả năngcho phép bộ mã hoá gửi đi hình ảnh dự phòng của vùng ảnh được truyền, nhằmkhôi phục lại vùng ảnh bị mất ở trên đường truyền
Nhằm cải tiến các giải pháp dự đoán, một số phần khác của chuẩn cũngđược nâng cao để tăng hiệu quả nén:
11 Biến đổi với kích thước block nhỏ: tất cả các chuẩn trước đều sửdụng kích thước block biến đổi là 8x8, trong khi MPEG 4/H.264 dựa trên kíchthước 4x4 Do có kích thước block nhỏ hơn nên sẽ độ sai khác giữa ảnh thật vàảnh dự đoán giảm đi, nhờ vậy tăng hiệu quả nén
12 Thực hiện các biến đổi với kích thước block phân cấp: cho phépkích thước block có thể tăng lên trong một số trường hợp
13 Phép biến đổi ngược chính xác: trong các chuẩn mã hoá video trướcđây, các phép biến đổi được sử dụng cho trình diễn video thường có ngưỡngchấp nhận lỗi cho phía thu, do không thể đạt được phép biến đổi ngược lý tưởngtrên lý thuyết Vì thế, mỗi bộ giải mã sẽ có tín hiệu video khác một chút so với
bộ mã hoá, điều này làm ảnh hưởng đến chất lượng video MPEG 4/H.264 làtiêu chuẩn đầu tiên đạt được sự chính xác về chất lượng của tín hiệu video giải
mã từ tất cả các bộ giải mã
14 Mã hoá entropy số học: một phép mã hoá entropy tiên tiến được ápdụng trong MPEG 4/H.264 là mã hoá số học nhị phân theo nội dung CABAC(Context Adaptive Binary Arithmetic Coding) Phương pháp mã hoá này dựatrên khả năng chon lựa các chế độ cho mỗi cú pháp dựa vào nội dung
15 Mã hoá entropy theo nội dung: phương pháp mã hoá entropy thứ 2được áp dụng trong MPEG 4/H.264 là mã hoá độ dài thay đổi theo nội dung(CAVLC-Context Adaptive Variable Length Coding) Phương pháp này đượcthiết kế để mã hoá độ dư thừa các hệ số chuyển đổi của các khối 4x4 và 2x2
Một số cải tiến nhằm nâng cao việc truyền dữ liệu trên các mạng cũngđược thêm vào MPEG 4/H.264
Trang 3916 Cấu trúc bộ thông số: được thiết kế để truyền các bit có tính chìakhoá trong dòng dữ liệu như thông tin header, một cách độc lập và mềm dẻohơn, nhằm đảm bảo có thể khôi phục chính xác dữ liệu tại đầu thu.
17 Cấu trúc cú pháp đơn vị NAL: mỗi cấu trúc cú pháp trong MPEG 4/H.264 được đặt trong một gói dữ liệu logic, được gọi là đơn vị NAL Điều nàycho phép sự tuỳ biến lớn hơn trong các giải pháp truyền nội dung video
18 Kích thước Slice mềm dẻo: khắc phục nhược điểm trong MPEG 2,khi có nhiều header trong slice làm giảm hiệu quả mã hoá
19 Thứ tự macroblock mềm dẻo (FMO) và thứ tự macroblock tuỳ ý(AMO): là kỹ thuật cho phép khôi phục lại thứ tự trình diễn của các MB khikhông đúng như thứ tự trình diễn
2.4.4.3 VCL (Video Coding Layer)
Trong các chuẩn mã hóa video trước của ITU-T và ISO/IEC, VCL dựatrên đơn vị mã hoá là các block, tại đó các ảnh được mã hoá sẽ được thể hiệndưới dạng các macroblock Thuật toán mã hoá là sự kết hợp của nén liên ảnh đểloại trừ dư thừa thời gian và phép biến đổi DCT để loại trừ dư thừa không gian
Với VCL của MPEG 4/H.264, không có cải tiến nào mang tính đột phá,nhưng có một số điểm bổ sung nhỏ được kết hợp lại để nâng hiệu quả nén
a Ảnh, khung và mành
Một chuỗi video được mã hoá trong MPEG 4/H.264 bao gồm chuỗi cácảnh được mã hoá Một bức ảnh được mã hoá có thể trình diễn dưới 1 trong 2dạng là khung hình hoặc mành đơn Một khung hình quét liên tục bao gồm 2mành quét xen kẽ Mã hoá tại VCL không dựa trên thời gian mà dựa trên cơ sở
về hình học
b Chia ảnh vào các Macroblock
Một bức ảnh có thể được chia vào các MB có kích thước cố định là mộtkhu vực gồm 16x16 mẫu chói và 8x8 mẫu mầu MPEG 4/H.264 cũng định nghĩacác MB như các chuẩn trước đây
Trang 40Hình 2.11: Phân chia Slice và nhóm sliceTuỳ theo việc có sử dụng kỹ thuật FMO hay không, mỗi slice có thể được
mã hoá với kỹ thuật khác nhau sau đây:
I slice: là slice mà tất cả các MB của nó đều được mã hoá theo phương
pháp dự đoán trong ảnh
P slice: một số MB trong slice được mã hoá theo phương pháp dự
đoán liên ảnh
B slice: một số MB được mã hoá từ các MB khác theo 2 chiều
Một số kỹ thuật mới được thêm vào như sau:
SP, SI slice: là kỹ thuật cho phép đầu thu có thể truy cập ngẫu
nhiên vào dòng bit để thay đổi tốc độ, khôi phục lỗi hay các mục đích khác
d Chu trình mã hoá và giải mã MB
Tất cả các mẫu mầu và chói của các MB được dự đoán không gian và thờigian Kết quả dự đoán sẽ được mã hoá biến đổi Để thực hiện mã hoá biến đổi,các tín hiệu dự đoán được chia thành các block 4x4 Sau đó được biến đổi bằngphép biến đổi cái nguyên Kết quả được lượng tử hoá và mã hoá entropy